JP5910867B2 - 文書内の図情報を利用した類似文書の検索システム及び方法 - Google Patents

文書内の図情報を利用した類似文書の検索システム及び方法 Download PDF

Info

Publication number
JP5910867B2
JP5910867B2 JP2012056378A JP2012056378A JP5910867B2 JP 5910867 B2 JP5910867 B2 JP 5910867B2 JP 2012056378 A JP2012056378 A JP 2012056378A JP 2012056378 A JP2012056378 A JP 2012056378A JP 5910867 B2 JP5910867 B2 JP 5910867B2
Authority
JP
Japan
Prior art keywords
document
information
search
similar
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012056378A
Other languages
English (en)
Other versions
JP2013190973A (ja
Inventor
恭久 上藤
恭久 上藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012056378A priority Critical patent/JP5910867B2/ja
Priority to US13/793,779 priority patent/US9378248B2/en
Publication of JP2013190973A publication Critical patent/JP2013190973A/ja
Application granted granted Critical
Publication of JP5910867B2 publication Critical patent/JP5910867B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書内の図情報を利用した類似文書の検索に関する。
類似文書検索システムでは検索者が入力する文書(入力文書)に対し、保有する文書情報の中から類似した文書を探しだす機能を有する。検索者は類似文書を探し出したい文書を入力とし、検索システムを介して検索式に合致する類似文書群を検索結果として取得する。
検索システムは主に、検索のための情報を集めてくるクローラ、クローラの情報から実際に検索を行うサーチャ、検索の順位付けを決めるスコアリングなどの機能要素を含む。類似文書検索システムでは、入力文書に対し、サーチャがクローラの集めてきた情報から検索を実行し、検索結果を返却する。その際、検索結果はスコアリングによって何らかの指標に基づいて類似度が算出され、順序付け(ランキング)される。類似文書検索システムの場合、スコアリングでは単なる文章の比較ではなく、記述内容の類似から類似度を評価することを検索者から求められることが多い。これは日本語と英語といった異なる言語で記述された文書同士の類似文書検索でも同様である。
類似文書検索手法として、単なる文章の比較ではなく、文書の内容から類似度を評価する手法がいくつか提案されている。特許文献1には、関連語辞書を用いて、検索語に対応するユーザ固有のキーワードが出現する頻度から類似度を算出して検索する手法が記載されている。しかし、この手法では、検索するために文書情報とは別に関連語に関する大規模なデータベースが必要であった。さらに、評価対象が文字情報のため、複雑な文章の言い回しにより間違った評価をしたり、異なる言語によって記述された文書同士の内容の類似度の評価が行えない場合がある。
また、特許文献2には、特許申請文書などの定型文書の主要素の部分(特許請求の範囲)に着目し、その部分をさらに分割し文字情報を比較することで類似度を評価する手法が記載されている。その際、文字が外国語ならば翻訳して対応している。この手法であれば異なる言語の文書同士の類似検索を行うことは可能だが、単語のニュアンスや文法の違いから異なる言語の文書内容の類似度を評価することは容易ではなく、間違った類似度が評価される場合がある。
このように、従来の類似文書検索手法は、文字情報に着目した手法のため、類似度の評価が記述言語に左右されるという問題が指摘されている。
文字情報以外に着目できる比較情報として、文書内の図の画像情報(図情報)が挙げられる。図情報は、文書内での図の役割は図前後で述べられている内容の集約であり、文書に記述されている内容を端的に表している。加えて、図は画像情報のため、記述言語の影響を受けずに類似度を評価することも可能である。
例えば、特許文献3には、画像に含まれるテロップ文字による欠落した画像領域を補間し、テロップ文字を含まない画像を復元する技術が記載されている。さらに、特許文献4には、画像を小さい部分に分割し、部分画像同士の類似度を比較して類似画像かどうかを判定することが記載されている。これらの技術を活用すれば、図内に含まれる文字情報を消去した図画像を生成し、それを対象に画像同士が類似しているかどうかを調べることができる。また部分画像による類似度の比較ができるため、補間した画像で復元に失敗した箇所があっても、それ以外の部分で類似度を評価することも可能である。これらのことから、図情報は記述言語や複雑な文章の言い回しに左右されずに類似文書を検索するうえで、非常に有益な判断材料になると考えられる。
特許文献5には、画像の類似度を評価する手法として、画像として取り込まれた原稿とあらかじめ登録された画像情報との類似度を判定する手法が記載されている。この手法では写真を含む原稿画像であっても、文字領域と画像領域に分けて特徴量を抽出し、それぞれの特徴量を比較することで入力原稿の類似判定を行っている。これにより、原稿内から図(画像)のある箇所を見つけ出し、それらの類似度を評価することが可能である。しかし、特許文献3−5は、1つの画像または1枚の原稿を評価対象とした方法であり、文書全体での評価は考慮されていないため、図情報のみで文書全体の内容を考慮した類似文書検索を行うことは難しい。
また、特許文献6には、画像を含む文書を入力とし、目的の画像を含む文書を探し出す手法が記載されている。文書中に含まれる図などの画像データの特徴量と画像の説明文をもとにした用語から検索指標となる擬似文書を作成し、それをもとに目的画像や目的画像を含む文書を探し出している。また、検索者の選択により画像や用語に対する類似度の判定の重みを変えられるため、文書内の点在する複数の図情報のみを対象としてその図情報を含む目的文書を探すことも可能であると考えられる。しかし、この手法では図情報だけを用いた、文書の内容を考慮した類似度評価は行われておらず、図情報だけで類似度を評価する場合、単純に同じ画像がいくつあるかで判定してしまうことが懸念される。そのため、文書の内容の流れなど検索者が望む文書の内容に踏み込んだ類似文書検索までは至っておらず、適切な類似度が評価されない場合がある。
特開2010−218216号公報 特開2005−258831号公報 特開2006−148263号公報 特許4545641号公報 特開2008−252877号公報 特開2010−250359号公報
このように、類似文書検索システムにおいて、検索者の入力文書に対して、内容の類似した文書を探し出す手法として、従来様々な検索手法が提案されている。従来の検索手法では、文書内の文字情報に着目し、文書同士の内容の類似度を評価することで検索が行われている。これらの手法では、文字情報から類似度を評価するため、複雑な文章の言い回しによって類似度が正しく評価されない、単語のニュアンスや文法の違いから異なる言語で記述された文書同士の類似度を評価することが難しいなどの問題が指摘されている。
本発明は、かかる実情に鑑み、図情報を用いて文書全体の内容を考慮した類似文書検索を実現しようとするものである。
本発明の所定の実施形態に係る類似文書検索システム及びその方法によれば、文書内の図情報を用いて類似文書検索を行うことで、文書内の記述言語や複雑な文章の言い回しに左右されずに、類似文書を検索できる。
好適には、文書内の画像データなどの図情報に着目し、文字情報に左右されずに類似文書を検索できる。文書内の図情報を図前後の内容の集約情報であると捉え、図情報を検索指標として文書同士の類似度を評価する。手段としてはまず、検索者が入力した入力文書に対し、文書内に点在する図情報から画像の特徴データ(特徴量)を抽出する。その後、入力文書の図の特徴量と、あらかじめ抽出しておいた検索対象となる文書群の図の特徴量を比較することで、文書同士の類似度を評価する。そして、評価値に基づき、入力文書に対する類似文書のランキングを実現する。
また、好適には、文書内容の流れも考慮し、図の特徴データに加えて、「図の順序」や「図の出現位置」を考慮して類似度を評価する。すなわち、まず、図の特徴データに加えて、「図の順序」や「図の出現位置」の情報も合わせて抽出する。そして、図の順序を文書の流れ、図同士の間隔を図の間の文章の情報量と捉え、それらを利用して文書内に点在する図情報の間の類似度を補間することにより、文書全体での類似度を評価する。それにより、単なる図情報の比較よりも文書内容を考慮し、検索精度が高まるようにする。そして、従来の検索方法も適用した類似度のスコア値を算出することにより、多方面の指標を用いた検索を可能にする。
本発明によれば、入力文書に対し、文書内の記述言語や複雑な文章の言い回しに左右されずに、類似文書を探し出すことができるという優れた効果を奏し得る。また、異なる言語で記述された類似文書を見つけることができるという優れた効果を奏し得る(図9)。
本発明の一実施形態に係る類似文書検索システムの概略構成を示すブロック図である。 本実施例における、図情報抽出プログラム241によって実行される処理のフローチャートである。 登録文書の全体情報を保持する文書全体情報テーブル301の一例である。 登録文書ごとの図情報を保持する図情報テーブル401の一例である。 本実施例における、類似度推定プログラム231によって実行される処理のフローチャートである。 本実施例における、類似度推定プログラム231によって実行される処理のフローチャートである。 本実施例における、類似度推定プログラム231によって実行される処理のフローチャートである。 本実施例における、類似度推定プログラム231によって実行される処理のフローチャートである。 本実施例における、類似度推定プログラム231によって実行される処理のフローチャートである。 本実施例における、類似度推定プログラム231における類似度推定処理の概略を示す図である。 類似スコアの算出式の一例を示す図である。 本実施例における、図情報データ更新プログラム233によって実行される処理のフローチャートである。 類似画像のサムネイル表示の一例である。また、異なる言語で記述された類似文書を見つけることができることの一例である。
以下、本発明の実施の形態について図面を参照しつつ詳細に説明する。なお、同一の要素には同一の符号を付し、重複する説明を省略する。
図1は、本発明の一実施形態に係る類似文書検索システムの概略構成を示すブロック図である。同図に示すように、類似文書検索システムは、検索端末1、検索システム2及び検索対象サーバ3を含む。
検索端末1は、検索画面及び検索結果の表示部11を備えている。検索システム2は、検索サーバ(検索部)21に加え、スコアリングサーバ(スコアリング部)22、図情報管理・類似度推定サーバ(図情報管理部及び類似度推定部)23及び図情報抽出サーバ(図情報抽出部)24を有している。そして、検索対象サーバ3は、検索対象文書群を格納する格納部31を備えている。
検索端末1の表示部11は、入力文書入力部212を介して検索者によって指定された入力文書の文書データ(検索式)を表示する。また、表示部11は、検索サーバ21へ送信された検索式に基づいて検索サーバ21から返却された検索結果211を検索結果として表示し、文書URL111から検索結果の文書へアクセスできるようになっている。
検索システム2の検索サーバ21は、表示部11からの検索式を入力文書入力部212で受信し、検索式をスコアリングサーバ22に送信する。その後、スコアリングサーバ22から返却されたスコアリング結果をもとにランキングした検索結果211を、検索端末1に返却する。
スコアリングサーバ22は、受信した検索式を図情報管理・類似度推定サーバ23に送信し、検索式に対する検索システム内の登録文書群との類似度の推定情報を要求する。そして、図情報管理・類似度推定サーバ23から返却された推定結果をもとに、類似スコアリングプログラム221を用いて図情報に基づく類似文書の検索ランキング結果を作成し、検索サーバ21にその結果を送信する。このとき、類似スコアリングプログラム221は、図情報のみに基づいて検索ランキング結果を作成することが好ましい。
図情報管理・類似度推定サーバ23は、スコアリングサーバ22より受信した検索式を引数に類似度推定プログラム231を動作させる。引数の検索式は、まず、図情報抽出サーバ24に送られ、図情報抽出プログラム241によって、図画像の特徴量と図の順序や出現位置といった関連情報に変換される。そして、文書内図情報のデータベース232に登録されている文書データ(登録文書)の情報にもとづいて、検索式と登録文書群との類似度の推定を行う。そして、登録文書ごとの推定結果をスコアリングサーバに送信する。それとは別に、図情報データ更新プログラム233により、検索対象サーバ3の格納部31に格納された検索対象文書群から定期的に最新の文書情報を取得し、図情報抽出プログラム241を用いて、文書内図情報のデータベース232のデータの更新を行う。
次に、本実施例の動作について、詳細に説明する。まず、類似文書の検索フェーズについて説明し、次に、情報データ更新フェーズについて説明する。ここで、類似文書の検索フェーズとは、検索者が入力した入力文書の文書データ(検索式)をもとに、類似度推定プログラム231、図情報抽出プログラム241、類似スコアリングプログラム221及び文書内図情報のデータベース232により、検索結果211の表示を行う処理のことをいう。また、図情報データ更新フェーズとは、検索対象サーバ3の格納部31に格納された検索対象文書群から文書内図情報のデータベース232のデータを更新する処理のことをいう。
まず、検索結果211の表示を行う類似文書の検索フェーズについて説明する。
類似文書の検索フェーズにおいて、表示部11は、入力文書入力部212を介して検索式を検索サーバ21に送信する。検索サーバ21は、スコアリングサーバ22に検索式を送信する。また、スコアリングサーバ22は、検索式を図情報管理・類似度推定サーバ23に送信する。次に、図情報管理・類似度推定サーバ23は、検索式を図情報抽出サーバ24に送信する。図情報抽出サーバ24は、受け取った検索式の文書データをもとに図情報抽出プログラム241を動作させる。
図2は、本実施例における、図情報抽出プログラム241によって実行される処理のフローチャートである。同図において、Pは図情報を探す起点位置、Cは図情報の順番を制御、Fは見つかった図番号、Liは返却データリストLのi番目のデータ、Gは図情報Fの出現位置(行数)、Oは図情報Fの順番、Tは図情報Fの画像特徴量リスト、Wは引数文書の全行数を意味する。
図情報抽出プログラム241では、まず、図情報の検索位置を、引数文書の先頭位置に設定する(S201)。また、図の順序のカウントCを初期化してC=0に設定し(S202)、返却データのリストLも初期化してリストを空にし、i=0に設定するする(S203)。なお、返却データは、出願位置(行数)G、順番O及び画像特徴量Tを含むリスト形式で表現できる。こうして、文書の先頭から図情報があるかどうかを行単位で捜索する(S204)。
図情報が見つかれば(S204:YES)、図画像の特徴量に加え(S210)、図の出現位置(S205)、文書先頭からの順番(S206)といった図情報の関連情報を求め、返却データに格納する。これを図情報が見つからなくなるまで繰り返し(S204〜S212)、検索式の図情報リストLを作成する(S211)。画像の特徴量は、特許文献3などの画像補間技術により図内の文字情報を排除し(S208)、特許文献4などの画像の特徴量抽出手法を用いて特徴量に変換して保持すればよい。その際、画像の大きさや画像形式が影響しないように統一させる(S207、S209)。図情報が見つからなくなった後(S204:NO)、最後に、入力文書の全行数を求めて終了する(S213)。情報抽出サーバ24は、抽出した図情報リストを図情報管理・類似度推定サーバ23に返却する。
図情報管理・類似度推定サーバ23は、返却された検索式の図情報リストと、文書内図情報のデータベース232内を用いて登録されている文書(登録文書)全てに対して類似度推定プログラム231を動作させる。
図3及び図4は、文書内図情報のデータベース232のデータ構造の一例を示す図である。図3は、登録文書の全体情報を保持する文書全体情報テーブル301の一例であり、図4は、登録文書ごとの図情報を保持する図情報テーブル401の一例である。文書内図情報のデータベース232のデータは、文書全体情報テーブル301と図情報テーブル401に分かれている。文書全体情報テーブル301は、文書情報(文書URL)、更新日時、全行数を項目として含む。図情報テーブル401は、文書情報(文書URL)、図の行数、図の順番、図の特徴量を項目として含む。これらのテーブルにより、本発明に必要な図情報や図に関連する情報を管理している。
図5A〜5Eは、本実施例における、類似度推定プログラム231によって実行される処理のフローチャートである。図6は、本実施例における、類似度推定プログラム231における類似度推定処理の概略を示す図である。
図5A〜5Eにおいて、Aは入力文書(検索式)、Bは登録文書URL、Dkはk番目の入力文書の図情報データリスト、Uは登録文書URLの図情報の管理データリスト、QjはU内のj番目の登録文書URLの図情報データリスト、EjはU内のj番目の図情報Qjが類似したかを判断するフラグ、Fは1つ前の図情報Dkが類似したかを判断するフラグ、Gは図情報の出現位置(行数)、Tは図情報の画像特徴量リスト、Caは入力文書の類似行数カウント、Cbは登録文書の類似行数カウント、Saは入力文書の隣り合う図の間隔、Sbは登録文書の隣り合う図の間隔、Hは図前または図後の類似したと推定する行数(定数)、Waは入力文書の全行数及びWbは登録文書の全行数を意味する。また、min(V1,V2)は、V1とV2で値が小さいほうを返却する関数である。なお、V1とV2が同じ値ならばその値を返却する。
類似度推定プログラム231では、図情報テーブル内の全ての登録文書に対し、各登録文書URLの図情報データリストと入力文書の図情報データリストを引数にして各文書内の類似行数を求めている。図5A〜5Eは、1つの登録文書に対する処理の流れである。
処理はまず、各図情報データリストを取得して図の順序を先頭から順に並ぶようにソートした後、各データを初期化する(S501〜S504)。そして、入力文書の図情報全てに対し、1つずつ類似画像がないかを確認していく(S505:YES)。
まず、1つ前の図情報が類似しているかどうかを確認し(S506)、類似していなければ(S506:YES)、登録文書URLの図情報リストの中から、今の図と類似する画像があるかを調べる(S507〜S509)。このとき、類似画像か否かの判定には、例えば、入力文書と登録文書の図情報の画像特徴量を比較して類似か否かを判定するといった特許文献4などの類似画像判定手法を用いて判断すればよい。
そして、類似画像であると判定されれば(S509:YES)、類似した図より前の数行を文書内で内容が類似した行であると推定し、推定結果に加算する(S510〜S515)。前後何行分を類似情報とするかは、検索システム2の管理者等により設定される定数によって定義するが、文書の先頭行や1つ前の図との間隔などと比較して小さい方の値を加算することで、加算後の値が誤った値にならないようにする。そして、次の比較を行うためのデータの更新を行う(S516〜S518)。
その後、次の図情報同士が類似画像ではなく、かつ登録文書内に他の類似画像も見つからない場合、1つ前の図が単一で類似していたとわかる(図6:B61)。そのため、類似していた図より後の数行を文書内で内容が類似した行であると推定し、推定結果に加算する(S520,S525〜S533、図6:B61)。文書の最終行や1つ前の図と今の図の間隔などと比較して小さい方の値を加算することで、加算後の値が誤った値にならないようにする。
1つ前の図情報同士が類似していた場合(S506:NO)、入力文書と登録文書内で次の順番にあたる図情報同士を比較し、類似画像かどうかを同様の方法で判定する(S519〜S520)。そして類似画像であると判定された場合(S520:YES)、連続して図情報が一致していることから、この2つの図の間にある話の流れは類似していると推定できる。しかし、話の流れだけでは、話の詳細度合い(情報量)が違うかもしれないので、内容が類似しているとまでは推定できない。そこで、内容の情報量を比較するために、図の間隔として2つの図の間の行数の差を算出し、差を比較する(S521〜S522)。差が一致していた場合(S522:YES)、話の流れだけではなく、文章の情報量も同じであることから、2つの図の間の内容は類似していると推定できる(図6:B62)。そこで、行数の差を推定結果に加算する(S523)。逆に、差が一致していなければ(S522:NO)、話の流れは同じだが情報量が異なることから、多い情報量の方が少ない情報量の方の内容を包含していると推定できる(図6:B63)。そのため、行数の差が小さい方を推定結果に加算する(S524)。
一方、1つ前の図情報が一致している場合に(S506:NO)、入力文書と登録文書内で次の順番にあたる図情報同士が類似画像で無い場合(S520:NO)、内容の類似の連続性はここで途切れるため、図より後の数行を文書内で内容が類似した行であると推定し、推定結果に加算する(S525〜S529)。ただし、図の順序は異なるが他に類似画像が存在する可能性があるため、登録文書内の図情報と比較して類似した図が存在すれば、再度連続して図が類似していないか調べる(S530〜S532、図6:B64)。存在していなければ(S532:NO)、前回一致したかどうかを判定するフラグをオフにする(S533)。
以上の処理を入力文書内の全ての図情報に対して行う。全ての図情報に対して確認した後(S505:NO)、前回一致したかどうかを判定するフラグがまだオンであれば(S534:YES)、図より後の数行が類似した内容であると推定し、推定結果に加算し、推定結果である文書ごとの類似行数の算出を完了させる(S535〜S540)。
次に、類似スコアの算出について説明する。
図7は、類似スコアの算出式の一例を示す図である。同図において、S(A,B)は入力文書Aと登録文書Bの類似スコア、F(A,B)は既存の類似文書検索手法のスコア、αは重み値、Waは入力文書Aの全行数、Wbは登録文書Bの全行数、Caは入力文書Aで類似している行数、Cbは登録文書Bで類似している行数を意味する。
図情報管理・類似度推定サーバ23は、推定結果の類似行数に加え、入力文書、登録文書URLごとの全行数をスコアリングサーバ22に返却する。その際、ランキング結果に無駄な情報を表示しないように、類似行数が0(すなわち、類似画像が存在しない)の登録文書URLは結果を返却しないようにする。スコアリングサーバ22は、送られた結果をもとに、登録文書ごとのスコアを、図7の式E1から算出し、結果を各文書ページのスコアとして検索サーバ21に返却する。
そして、検索サーバ21はスコアの値が大きい文書がランキングの上位になるように検索結果画面211を作成し、検索端末1に返却する。つまり、本実施例では、画像の特徴量に加えて図の順序と図の間隔の2つの指標で類似度を評価しており、図の順序、図の間隔(行数)が一致している方がスコアリングに影響する類似行数が多くなる特徴を持っている。そのため、単に図情報の画像の特徴量だけで類似度を推定するよりも精度を高めることができる。
なお、図7に示した算出式E1は、類似スコアを算出するための一例にすぎず、他の算出式を採用可能である。例えば、従来手法のスコア値(E1の第1項)や、本実施例で追加したスコア値(E1の第2項)だけで計算することも可能であるし、これら以外の算出式を用いてもよい。また、本実施例では、全体のうち何パーセント類似しているのかまでは算出していないが、各文書のスコア値を最大のスコア値で割ることで何パーセント類似しているかを検索結果211として表示することも可能である。
次に、図情報データ更新フェーズについて説明する。
図情報データ更新フェーズにおいて、図情報管理・類似度推定サーバ23は、検索システム2の管理者等によって定められた更新のタイミングに基づき、図情報データ更新プログラム233を動作させる。
図8は、本実施例における、図情報データ更新プログラム233によって実行される処理のフローチャートである。同図において、Pは引数のファイル又はフォルダのパス、Fkは引数のフォルダ配下のk番目のフォルダ情報、Riは文書全体の情報テーブルのi番目のレコード、Wは引数のパスの全行数、Ljは引数のパスの図情報リストLのj番目のデータ、Yhは図情報テーブルのh番目のレコード、Ojは図情報リストLjの図の順番を意味する。
まず、図情報データ更新プログラム233は、引数のパスがファイル(文書)かフォルダかを調べる。引数のパスがフォルダであれば(S801:NO)、その配下のファイル及びフォルダ情報を取得し、それらを引数に図情報データ更新プログラム233を再帰的に呼び出す(S802〜S805)。一方、引数のパスがファイル(文書)であれば、図情報データの更新処理を行う。このとき、検索対象サーバ3のパスを起点に、フォルダ階層関係無く全ての起点パス配下にあるファイルに対し、更新処理を行う。更新処理では文書全体情報テーブルに引数文書の文書URLが存在するかどうか調べ(S806)、存在しないのであれば(S806:NO)、新たにレコードを追加し(S807)、図情報テーブルへの情報追加又は修正処理に移る。存在するのであれば(S806:YES)、そのレコードを取得し(S808)、更新日時を調べ(S809)、引数の文書の方の更新日時が新しいのであれば(S809:YES)、図情報テーブルへの情報追加又は修正処理に移る。
図情報テーブルへの情報追加及び修正処理では、図2でフローチャートを示した図情報抽出プログラム241を呼び出して、引数の文書の図情報リストと全行数を取得し(S810)、まず初めに文書全体情報テーブルの更新日時と全行数を更新する(S811)。その後、図情報テーブルのレコードに対し、順番が同じ図情報があれば、レコードデータを更新し、なければテーブルの末尾に図情報を追加する(S812〜S817)。これにより、検索対象サーバ3の更新処理は完了する。
以上のように、本発明の所定の実施形態においては、文書内の画像による図情報に着目しているため、記述言語や複雑な言葉の言い回しに左右されずに類似度を評価できる。また、記述言語や複雑な言葉の言い回しに左右されずに類似度を評価できる。また、本発明の所定の実施形態においては、文書内に点在する複数の図情報を対象として類似度を評価しているので、図情報のみで文書全体の内容を考慮した類似文書検索ができる。加えて、本発明の所定の実施形態においては、図の順序や図の間隔といった新たな比較指標を用いて、単なる図の画像情報のみによる評価ではなく、文書の内容を考慮した類似度の評価ができるので、図情報を用いて検索者が望む文書の内容に踏み込んだ類似文書検索ができる。
なお、本発明は、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。このため、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。上述の各処理ステップは処理内容に矛盾を生じない範囲で任意に順番を変更して又は並列に実行することができる。
他の実施例として、文書から抽出する図の出現位置は、コメントになっている行を省くことにより、より値の正確性を高めることが可能である。また、文書から抽出した画像データを別途保持することで、類似度推定プログラム231によりどの図が類似していたかわかるため、検索結果のランキングに加えて、類似した画像をサムネイルとして表示することも可能である。図9は、このような類似画像のサムネイル表示の一例である。また、アニメーション作成アプリケーションを用いることで、1つ1つの画像だけでなくコマ送りのアニメーションのようにして、検索結果を表示することも同様に可能である。
本発明の実施例では、行数を類似度のスコアの基準にしているが、抽出する出現位置をページ数とし、スコア算出も全ページ中何ページ類似しているかとするような算出方法に変えることで、ページの概念を重要視したい文書にも適用可能である。
文書から出現位置を抽出する際に、文書内の章や節といった情報も一緒に抽出し、文書内図情報のデータベース232の図情報テーブルに一緒に格納しておくことで、類似度推定プログラム231で図情報が連続して類似しているかどうかを判断する際に、節または章を超えて前後の図情報が類似していた場合は、その間の行を類似した行数として加算しないといった処理が可能になる。それにより、文書内の章や節の構造を考慮した類似度のスコアリングが可能になる。
また、本発明では検索システム2の入力として入力文書データを受け取っているが、入力文書データを入力とせずに文書内図情報のデータベース232の文書URL同士で類似文書検索を行うことで、データベース内にどれだけ類似文書があるかを探すといった使い方も可能である。
さらに、類似度推定プログラム231で、入力文書に同じ図情報が複数ある場合でも登録文書の各図情報データが類似したかどうかを管理するフラグを保持しているため、同じ図情報が再度類似しても、類似したと判定しないようにすることも可能である。
加えて、図情報抽出プログラム241内で図の位置を特定する方法(S205)の1つとして、図番号と図のタイトルを利用する方法が考えられる。例えば、画像情報の前後の行に、図番号と名詞で終わる文字列(日本語であれば「する」や「できる」などで終わらない文字列、英語であれば「〜ion」や「〜ing」などで終わる文字列)など、図を表す文字列が1行で記載されていれば、その画像は図情報であるとみなすことで実現可能である。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限
られない。
(付記1)検索式を受け取る検索部と、検索式に含まれる図情報を抽出する図情報抽出部と、抽出された図情報と検索システムに登録された文書の図情報とを比較して、登録された文書の類似度に関するスコアを求める類似度推定部と、求められたスコアを用いて、検索式に関連する類似文書の検索結果を生成するスコアリング部と、を備える検索システムである。
(付記2)検索式は、検索者が入力した文書を含む、付記1記載の検索システムである。
(付記3)図情報は、文書内における図の出現位置、順序又は間隔のいずれかを含む、付記1又は2に記載の検索システムである。
(付記4)検索システムに登録された文書を格納するデータベースと、データベースに文書を登録する図情報管理部であって、図情報抽出部によって登録する文書の図情報を抽出し、抽出された図情報を、登録する文書とともにデータベースに格納する、図情報管理部と、を備えることを特徴とする付記1〜3のいずれかに記載の検索システムである。
(付記5)サーバが類似文書の検索をする方法であって、サーバが、検索式を受け取り、検索式に含まれる図情報を抽出し、抽出された図情報と検索システムに登録された文書の図情報とを比較して、登録された文書の類似度に関するスコアを求め、求められたスコアを用いて、検索式に関連する類似文書の検索結果を生成する、類似文書の検索方法である。
本発明は、例えば、様々な言語で記述された文書情報を持つ類似文書検索システム、世界中の人々が使用する類似文書検索システム、製品紹介資料など、画像が多く使用されている文書を対象とした類似文書検索システム、その他の情報処理システム等に利用することができる。
1 検索端末、11 表示部、2 検索システム、21 検索サーバ、211 検索結果、212 入力文書入力部、22 スコアリングサーバ、221 類似スコアリングプログラム、23 図情報管理・類似度推定サーバ、231 類似度推定プログラム、232 データベース、233 図情報データ更新プログラム、24 図情報抽出サーバ、241 図情報抽出プログラム、3 検索対象サーバ、31 格納部、301 文書全体情報テーブル、401 図情報テーブル。

Claims (4)

  1. 検索式を受け取る検索部と、
    前記検索式に含まれる図画像に基づいて図情報を抽出する図情報抽出部と、
    前記抽出された図情報と検索システムに登録された文書の図情報とを比較して、前記登録された文書の類似度に関するスコアを求める類似度推定部であって、前記類似度は、前記検索式と前記登録された文書との間に類似する図画像が含まれるか否か及び前記類似する図画像が出現する順序及び間隔に基づいて推定される、類似度推定部と、
    前記求められたスコアを用いて、前記検索式に関連する類似文書の検索結果を生成するスコアリング部と、
    を備える検索システム。
  2. 検索式は、検索者が入力した文書を含む、請求項1記載の検索システム。
  3. 検索システムに登録された文書を格納するデータベースと、
    前記データベースに文書を登録する図情報管理部であって、前記図情報抽出部によって前記登録する文書の図情報を抽出し、前記抽出された図情報を、前記登録する文書とともに前記データベースに格納する、図情報管理部と、
    を備えることを特徴とする請求項1又は2に記載の検索システム。
  4. サーバが類似文書の検索をする方法であって、前記サーバが、
    検索式を受け取り、
    前記検索式に含まれる図画像に基づいて図情報を抽出し、
    前記抽出された図情報と検索システムに登録された文書の図情報とを比較して、前記登録された文書の類似度に関するスコアを求めことであって、前記類似度は、前記検索式と前記登録された文書との間に類似する図画像が含まれるか否か及び前記類似する図画像が出現する順序及び間隔に基づいて推定されるものであり
    前記求められたスコアを用いて、前記検索式に関連する類似文書の検索結果を生成する、
    類似文書の検索方法。
JP2012056378A 2012-03-13 2012-03-13 文書内の図情報を利用した類似文書の検索システム及び方法 Expired - Fee Related JP5910867B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012056378A JP5910867B2 (ja) 2012-03-13 2012-03-13 文書内の図情報を利用した類似文書の検索システム及び方法
US13/793,779 US9378248B2 (en) 2012-03-13 2013-03-11 Retrieval apparatus, retrieval method, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012056378A JP5910867B2 (ja) 2012-03-13 2012-03-13 文書内の図情報を利用した類似文書の検索システム及び方法

Publications (2)

Publication Number Publication Date
JP2013190973A JP2013190973A (ja) 2013-09-26
JP5910867B2 true JP5910867B2 (ja) 2016-04-27

Family

ID=49158645

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012056378A Expired - Fee Related JP5910867B2 (ja) 2012-03-13 2012-03-13 文書内の図情報を利用した類似文書の検索システム及び方法

Country Status (2)

Country Link
US (1) US9378248B2 (ja)
JP (1) JP5910867B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6056610B2 (ja) * 2013-03-29 2017-01-11 株式会社Jvcケンウッド テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
US10572557B2 (en) 2015-11-04 2020-02-25 International Business Machines Corporation Detecting relevant facets by leveraging diagram identification, soical media and statistical analysis software
US10691734B2 (en) * 2017-11-21 2020-06-23 International Business Machines Corporation Searching multilingual documents based on document structure extraction
US11361030B2 (en) * 2019-11-27 2022-06-14 International Business Machines Corporation Positive/negative facet identification in similar documents to search context

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0319083A (ja) * 1989-06-16 1991-01-28 Hitachi Ltd マルチメディア文書情報システム
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
JP3181548B2 (ja) * 1998-02-03 2001-07-03 富士通株式会社 情報検索装置及び情報検索方法
JP2001318948A (ja) * 2000-05-09 2001-11-16 Hitachi Ltd 文書検索方法及び装置並びにその処理プログラムを記憶した媒体
US6678677B2 (en) * 2000-12-19 2004-01-13 Xerox Corporation Apparatus and method for information retrieval using self-appending semantic lattice
JP4006239B2 (ja) * 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
US7370034B2 (en) * 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
JP2005258831A (ja) 2004-03-11 2005-09-22 Patolis Corp 類似文書検索方法
JP2006148263A (ja) 2004-11-16 2006-06-08 Ntt Communications Kk テロップ消去方法、テロップ消去装置、及びテロップ消去プログラム
JP4448549B2 (ja) * 2005-04-26 2010-04-14 コダック グラフィック コミュニケーションズ カナダ カンパニー 図形要素を含む文書の比較
JP4545641B2 (ja) 2005-06-01 2010-09-15 日本電信電話株式会社 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体
JP4137945B2 (ja) * 2006-01-06 2008-08-20 シャープ株式会社 画像検出方法
JP4343213B2 (ja) * 2006-12-25 2009-10-14 株式会社東芝 文書処理装置および文書処理方法
JP4393556B2 (ja) 2007-03-06 2010-01-06 シャープ株式会社 画像処理方法、画像処理装置、画像読取装置、画像形成装置、コンピュータプログラム及びコンピュータでの読み取りが可能な記録媒体
US20110043869A1 (en) * 2007-12-21 2011-02-24 Nec Corporation Information processing system, its method and program
WO2009087815A1 (ja) * 2008-01-09 2009-07-16 Nec Corporation 類似文書検索システム、類似文書検索方法および記録媒体
US20100080411A1 (en) * 2008-09-29 2010-04-01 Alexandros Deliyannis Methods and apparatus to automatically crawl the internet using image analysis
JP2010218216A (ja) 2009-03-17 2010-09-30 Chugoku Electric Power Co Inc:The 類似文書検索システム、方法及びプログラム
JP5414334B2 (ja) 2009-04-10 2014-02-12 株式会社日立製作所 擬似文書検索システム及び擬似文書検索方法
US8412703B2 (en) * 2009-07-17 2013-04-02 Hong Yu Search engine for scientific literature providing interface with automatic image ranking
US20110184938A1 (en) * 2010-01-27 2011-07-28 Tom Hill Determining similarity between source code files
JP2011170778A (ja) * 2010-02-22 2011-09-01 Fuji Xerox Co Ltd 文書検索装置及び文書検索プログラム
JP5467643B2 (ja) * 2010-04-28 2014-04-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書の類似度を判定する方法、装置及びプログラム。

Also Published As

Publication number Publication date
US9378248B2 (en) 2016-06-28
JP2013190973A (ja) 2013-09-26
US20130246403A1 (en) 2013-09-19

Similar Documents

Publication Publication Date Title
JP6461980B2 (ja) 検索結果におけるコヒーレントな質問回答
US8655648B2 (en) Identifying topically-related phrases in a browsing sequence
US20070112838A1 (en) Method and system for classifying media content
US8782049B2 (en) Keyword presenting device
JP5900367B2 (ja) 検索装置、検索方法及びプログラム
JP5910867B2 (ja) 文書内の図情報を利用した類似文書の検索システム及び方法
CN109522390B (zh) 一种搜索结果展示方法和装置
JP2006215717A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP4873739B2 (ja) テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
US20110252313A1 (en) Document information selection method and computer program product
JP2004054588A (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JP7434125B2 (ja) 文書検索装置、文書検索方法、及びプログラム
JP2006302024A (ja) 関連文書表示方法及びプログラム
JP6106489B2 (ja) 語義解析装置、及びプログラム
JP2004240488A (ja) 文書管理装置
JP6488399B2 (ja) 情報提示システム、及び情報提示方法
JP2008026967A (ja) 文書検索システム及びプログラム
JP5733285B2 (ja) 検索装置、検索方法及びプログラム
EP1876539A1 (en) Method and system for classifying media content
JP2009271671A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP2007026116A (ja) 概念検索システム及び概念検索方法
JP6782644B2 (ja) 情報処理システム、情報処理方法、およびコンピュータプログラム
JP2008217240A (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP2017068757A (ja) 文献表示方法及び文献表示装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160316

R150 Certificate of patent or registration of utility model

Ref document number: 5910867

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees