JP2008257537A - 情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム - Google Patents
情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム Download PDFInfo
- Publication number
- JP2008257537A JP2008257537A JP2007100053A JP2007100053A JP2008257537A JP 2008257537 A JP2008257537 A JP 2008257537A JP 2007100053 A JP2007100053 A JP 2007100053A JP 2007100053 A JP2007100053 A JP 2007100053A JP 2008257537 A JP2008257537 A JP 2008257537A
- Authority
- JP
- Japan
- Prior art keywords
- document
- image
- search
- document structure
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
【課題】所望の文書構造を持つ文書を簡易に検索することを可能にする。
【解決手段】情報登録装置200は、処理対象の文書の文書構造を表す文書構造画像を取得する文書構造画像取得部210と、上記取得された文書構造画像を上記処理対象の文書と対応付けて記憶装置100に登録する文書構造画像登録部220とを有する。
【選択図】図1
【解決手段】情報登録装置200は、処理対象の文書の文書構造を表す文書構造画像を取得する文書構造画像取得部210と、上記取得された文書構造画像を上記処理対象の文書と対応付けて記憶装置100に登録する文書構造画像登録部220とを有する。
【選択図】図1
Description
本発明は、情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラムに関する。
文書を検索する技術として、予め文書に付与されたキーワードを用いて文書を検索するキーワード検索や、指定したキーワードを含む文書を検索するフルテキスト検索がある。
特許文献1には、記憶媒体から画像を検索する装置が開示されている。
非特許文献1には、構成要素の位置、行間隔、文字の大きさ、文字数などの特徴を画像特徴としてとらえ、これらを総合的に判断して文書画像の構造を解析する手法が開示されている。
特許文献2には、入力される文書画像に類似する画像データを検索する技術が開示されている。この技術では、オリジナル文書を属性毎に複数のブロックに分割し、各ブロックの位置、サイズ、属性を含むレイアウト情報をオリジナル文書のインデックス情報として保存する。検索においては、入力画像を属性毎に複数のブロックに分割し、入力画像とオリジナル文書とで、ブロックの位置、サイズ、属性を比較してレイアウトの類似率を求め、当該類似率に基づいて入力画像に類似するオリジナル文書を検索する。
ところで、文書の検索においては、所望の文書構造を持つ文書を簡易に検索したいという要望がある。
所望の文書構造を持つ文書を簡易に検索することを可能にする情報登録装置を提供することを目的とする。
本発明に係る情報登録装置は、処理対象の文書の文書構造を表す文書構造画像を取得する文書構造画像取得手段と、前記取得された文書構造画像を前記処理対象の文書と対応付けて記憶手段に登録する文書構造画像登録手段と、を有することを特徴とする。
本発明の一態様では、前記文書構造画像取得手段は、前記処理対象の文書の入力を受け付ける文書受付手段と、前記受け付けられた文書から前記文書構造画像を生成する文書構造画像生成手段と、を含む。
また、本発明の一態様では、前記文書構造画像生成手段は、前記処理対象の文書の文書構造を解析し、解析された文書構造に基づいて前記文書構造画像を生成する。
また、本発明の一態様では、前記文書構造画像生成手段は、前記処理対象の文書の画像を画面上に表示させ、当該画面上における前記画像に対する利用者の操作に基づいて前記文書構造画像を生成する。
また、本発明の一態様では、前記文書構造画像は、前記文書の各構成要素に対応する画像要素を含み、前記各構成要素の属性を前記画像要素の属性により表し、前記文書構造画像生成手段は、前記解析の結果、ある構成要素について、2つの属性のどちらかに属すると判断された場合、前記ある構成要素を、前記2つの属性に対応する2つの画像要素の属性の中間属性を持つ画像要素により表現する。
本発明に係る情報検索装置は、検索用の画像を取得する検索用画像取得手段と、文書と、当該文書の文書構造を表す文書構造画像とが対応付けられて登録されている記憶手段から、前記取得された検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する文書取得手段と、を有することを特徴とする。
本発明の一態様では、前記検索用画像取得手段は、検索用の文書の入力を受け付ける文書受付手段と、前記受け付けられた文書から前記検索用の画像を生成する検索用画像生成手段と、を含む。
また、本発明の一態様では、前記検索用画像生成手段は、前記検索用の文書の文書構造を解析し、解析された文書構造に基づいて、前記検索用の画像として、前記検索用の文書の文書構造を表す文書構造画像を生成する。
また、本発明の一態様では、前記検索用画像生成手段は、前記検索用の文書の画像を画面上に表示させ、当該画面上における前記画像に対する利用者の操作に基づいて前記検索用の画像を生成する。
また、本発明の一態様では、前記検索用画像取得手段は、画面上における白紙領域に対する利用者の操作に基づいて前記検索用の画像を生成する。
また、本発明の一態様では、前記文書構造画像は、前記文書の各構成要素に対応する画像要素を含み、前記各構成要素の属性を前記画像要素の属性により表し、前記検索用画像生成手段は、前記解析の結果、ある構成要素について、2つの属性のどちらかに属すると判断された場合、前記ある構成要素を、前記2つの属性に対応する2つの画像要素の属性の中間属性を持つ画像要素により表現する。
また、本発明の一態様では、前記検索用画像取得手段は、利用者の操作に基づいて、2つの構成要素の属性に対応する2つの画像要素の属性の中間属性を持つ画像要素を含む画像を、前記検索用の画像として生成する。
また、本発明の一態様では、前記検索用画像取得手段は、文書の構成要素の出現確率が画像要素の属性で表現されるように、前記検索用の画像を生成する。
また、本発明の一態様では、前記取得された文書の一覧を表示させる文書一覧表示手段と、前記表示された一覧の中から複数の文書の選択を受け付ける文書選択受付手段と、前記選択された複数の文書に基づいて新たな検索用の画像を生成する検索用画像生成手段と、をさらに有し、前記文書取得手段は、前記記憶手段から、前記生成された検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する。
また、本発明の一態様では、前記取得された文書の一覧を表示させる文書一覧表示手段と、前記表示された一覧の中から複数の文書の選択を受け付ける文書選択受付手段と、をさらに有し、前記文書取得手段は、前記記憶手段から、前記選択された複数の文書の文書構造画像のいずれかと一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する。
また、本発明の一態様では、前記文書取得手段は、前記記憶手段から、画像要素の各属性間の面積比が前記検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する。
本発明に係る情報検索システムは、上記いずれかの情報登録装置と、上記いずれかの情報検索装置と、を有することを特徴とする。
本発明に係る情報登録プログラムは、コンピュータに、処理対象の文書の文書構造を表す文書構造画像を取得する手順と、前記取得された文書構造画像を前記処理対象の文書と対応付けて記憶手段に登録する手順と、を実行させることを特徴とする。
本発明に係る情報検索プログラムは、コンピュータに、検索用の画像を取得する手順と、文書と、当該文書の文書構造を表す文書構造画像とが対応付けられて登録されている記憶手段から、前記取得された検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する手順と、を実行させることを特徴とする。
請求項1に記載の発明によれば、本構成を有していない場合に比較して、所望の文書構造を持つ文書を簡易に検索することを可能にすることができる。
請求項2に記載の発明によれば、処理対象の文書から文書構造画像を生成することができる。
請求項3に記載の発明によれば、本構成を有していない場合に比較して、処理対象の文書から文書構造画像を容易に生成することが可能となる。
請求項4に記載の発明によれば、利用者の操作に基づいて文書構造画像を生成することができる。
請求項5に記載の発明によれば、文書構造の解析において確定的な解析結果が得られない場合でも、解析結果に応じた文書構造画像を生成することができる。
請求項6に記載の発明によれば、本構成を有していない場合に比較して、所望の文書構造を持つ文書を簡易に検索することができる。
請求項7に記載の発明によれば、検索用の文書から検索用の画像を生成することができる。
請求項8に記載の発明によれば、本構成を有していない場合に比較して、検索用の文書から検索用の画像を容易に生成することが可能となる。
請求項9に記載の発明によれば、利用者の操作に基づいて検索用の画像を生成することができる。
請求項10に記載の発明によれば、検索用の文書が無くても、検索用の画像を生成することができる。
請求項11に記載の発明によれば、文書構造の解析において確定的な解析結果が得られない場合でも、解析結果に応じた検索用の画像を生成することができる。
請求項12に記載の発明によれば、中間属性を利用した柔軟な検索が可能になる。
請求項13に記載の発明によれば、文書の構成要素の出現確率を考慮した検索を行うことが可能になる。
請求項14に記載の発明によれば、検索結果を用いて検索を行うことが可能となる。
請求項15に記載の発明によれば、検索結果を用いて検索を行うことが可能となる。
請求項16に記載の発明によれば、本構成を有していない場合に比較して、画像の回転、位置ずれ、拡大や縮小などによる影響が少ない検索を行うことが可能となる。
請求項17に記載の発明によれば、本構成を有していない場合に比較して、所望の文書構造を持つ文書を簡易に検索することができる。
請求項18に記載の発明によれば、本構成を有していない場合に比較して、所望の文書構造を持つ文書を簡易に検索することを可能にすることができる。
請求項19に記載の発明によれば、本構成を有していない場合に比較して、所望の文書構造を持つ文書を簡易に検索することができる。
以下、本発明の実施の形態を図面に従って説明する。
[第1の実施の形態]
図1は、第1の実施の形態に係る情報検索システム1の構成の一例を示すブロック図である。この情報検索システム1は、蓄積された文書群の中から、特定の文書構造を持つ文書の検索(レイアウト検索とも呼ばれる)を行うものである。
図1は、第1の実施の形態に係る情報検索システム1の構成の一例を示すブロック図である。この情報検索システム1は、蓄積された文書群の中から、特定の文書構造を持つ文書の検索(レイアウト検索とも呼ばれる)を行うものである。
図1において、情報検索システム1は、記憶装置100と、情報登録装置200と、情報検索装置300とを有する。
記憶装置100は、検索対象である文書と、当該文書の文書構造を表す文書構造画像とを互いに対応付けて記憶する装置である。
上記文書は、画像データまたは画像データに変換可能な情報であり、例えば、ラスタデータ、Word(登録商標)ファイルやPDF(Portable Document Format)ファイルなどの電子文書、XML(Extensible Markup Language)データなどである。なお、上記文書構造画像については、後に詳しく説明する。
情報登録装置200は、処理対象の文書の文書構造を表す文書構造画像を取得し、当該文書構造画像を上記処理対象の文書と対応付けて記憶装置100に登録する装置である。
情報検索装置300は、検索用の画像を取得し、記憶装置100から、当該検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する装置である。
本実施の形態では、記憶装置100は、例えばハードディスク装置など、コンピュータで情報が読み書き可能な装置である。
また、本実施の形態では、情報登録装置200は、コンピュータであり、当該装置200の機能は、ROM(Read Only Memory)やハードディスク装置等の記録媒体に記録された情報登録プログラムがメインメモリに読み出されてCPU(Central Processing Unit)により実行されることによって実現される。上記の情報登録プログラムは、CD−ROM等の記録媒体に記録されて提供されることも可能であるし、データ信号として通信により提供されることも可能である。
また、本実施の形態では、情報検索装置300は、コンピュータであり、当該装置300の機能は、ROMやハードディスク装置等の記録媒体に記録された情報検索プログラムがメインメモリに読み出されてCPUにより実行されることによって実現される。上記の情報検索プログラムは、CD−ROM等の記録媒体に記録されて提供されることも可能であるし、データ信号として通信により提供されることも可能である。
ただし、記憶装置100、情報登録装置200、および情報検索装置300の物理的な構成は、上記に限定されない。例えば、情報登録装置200や情報検索装置300の機能は、ハードウェアのみにより実現されてもよい。また、記憶装置100、情報登録装置200、および情報検索装置300は、それぞれ、物理的に1つの装置により実現されてもよいし、複数の装置により実現されてもよい。また、記憶装置100、情報登録装置200、および情報検索装置300は、物理的に別々の装置であってもよいし、物理的に一体に構成されてもよい。
以下、情報登録装置200および情報検索装置300の構成について、より詳しく説明する。
(情報登録装置200の構成)
図1において、情報登録装置200は、文書構造画像取得部210と、文書構造画像登録部220とを有する。
図1において、情報登録装置200は、文書構造画像取得部210と、文書構造画像登録部220とを有する。
文書構造画像取得部210は、処理対象の文書の文書構造を表す文書構造画像を取得する。
処理対象の文書は、記憶装置100に登録される、または登録されている、検索対象である文書である。したがって、処理対象の文書は、上述したとおり、画像データまたは画像データに変換可能な情報である。
文書構造画像は、例えば、文書の構成要素の属性および配置を、画像要素の属性および配置により表現する画像である。具体的には、文書構造画像は、文書の各構成要素に対応する画像要素を含み、各構成要素の属性、位置、大きさ、形状を、それぞれ画像要素の属性、位置、大きさ、形状により表現する画像である。
文書の構成要素の属性は、例えば、ヘッダ、タイトル、要約、本文など、文書構造における構成要素の種類である。
画像要素の属性は、例えば、画像要素の色や模様などに関する属性である。画像要素の色に関する属性としては、例えば、色相、彩度、明度(濃度)などが挙げられる。また、画像要素の模様に関する属性としては、例えば、塗り潰し(ハッチング)の種類(斜線、網点、ベタ等)、斜線の方向や密度、網点の大きさや密度などが挙げられる。文書の構成要素の属性は、画像要素の属性のうち1種類の属性(例えば、色相のみ、濃淡のみ)により表現されてもよいし、2種類以上の属性(例えば、色相とハッチングの種類との組み合わせ)により表現されてもよい。
例えば、ある文書において、領域A1にタイトルが存在し、領域A2に要約が存在し、領域A3に本文が存在する場合、当該文書の文書構造画像では、領域A1に相当する画像上の領域にタイトルを示す赤色のベタ画像が配置され、領域A2に相当する画像上の領域に要約を示す青色のベタ画像が配置され、領域A3に相当する画像上の領域に本文を示す緑色のベタ画像が配置される。
一つの態様では、文書の構成要素の属性は色相により表現され、互いに類似する構成要素は互いに類似する色で表現される。すなわち、互いに類似する構成要素は、色相環上、近傍の色で表現される。例えば、要約と本文とは互いに類似するので、それぞれ青色、緑色で表現され、タイトルはどちらとも類似しないので赤色で表現される。
別の一つの態様では、文書の構成要素の属性はハッチングの斜線の角度により表現され、互いに類似する構成要素は互いに類似する角度で表現される。
図1に示されるとおり、本実施の形態では、文書構造画像取得部210は、文書受付部211と、文書構造画像生成部212とを有する。
文書受付部211は、処理対象の文書の入力を受け付ける。文書受付部211は、例えば、利用者からの指示に従って、情報登録装置200内の記憶装置や、情報登録装置200に通信回線を介して接続された記憶装置、または記憶装置100などから処理対象の文書を取得してもよいし、紙等の原稿がスキャナで読み取られて生成された画像データを取得してもよい。
文書構造画像生成部212は、文書受付部211により受け付けられた文書から文書構造画像を生成する。
一つの態様では、文書構造画像生成部212は、受け付けられた処理対象の文書の文書構造を解析し、解析された文書構造に基づいて文書構造画像を生成する。例えば、文書構造画像生成部212は、処理対象の文書に対して文書構造解析処理を行い、領域A1〜An(nは1以上の整数)にそれぞれ属性B1〜Bnの構成要素が存在すると判断すると、領域A1〜Anに相当する画像上の領域にそれぞれ属性B1〜Bnに対応する属性を持つ画像要素が配置された画像を、文書構造画像として生成する。文書構造画像生成部212による文書構造解析の手法としては、例えば非特許文献1に記載された手法など、種々の解析手法を用いることができる。当該態様において、文書構造画像生成部212は、解析の結果、ある構成要素について、2つの属性のどちらかに属すると判断された場合、上記ある構成要素を、上記2つの属性に対応する2つの画像要素の属性の中間属性を持つ画像要素により表現してもよい。例えば、文書構造画像生成部212は、ある構成要素について、要約である確率が40%、本文である確率が60%と判断した場合、当該構成要素を、要約を示す青色と本文を示す緑色との中間色である青緑色で表現する。
別の一つの態様では、文書構造画像生成部212は、受け付けられた処理対象の文書の画像を表示装置(不図示)の画面上に表示させ、当該画面上における上記画像に対する利用者の操作に基づいて文書構造画像を生成する。具体的には、文書構造画像生成部212は、処理対象の文書の画像を含む、文書構造画像の作成を支援する支援画面を表示させ、当該支援画面上で利用者の操作を受け付け、当該操作に基づいて文書構造画像を生成する。利用者の操作は、例えば構成要素の属性および領域を指定する操作であり、例えばポインティングデバイスなどを用いて行われる。例えば、文書構造画像生成部212は、処理対象の文書の画像と、構成要素の属性に対応する属性ボタンとが配置された支援画面を表示させ、構成要素の属性の指定を属性ボタンの押下(例えばクリック)により受け付けた後、当該属性に係る領域の指定を上記文書の画像に対する領域指定操作(例えばドラッグ)により受け付ける。
ただし、文書構造画像取得部210は、上記と異なる方法で文書構造画像を取得してもよい。
例えば、文書構造画像取得部210は、画面上における白紙領域に対する利用者の操作に基づいて文書構造画像を生成してもよい。ここで、白紙領域は、文書構造画像の作成の元となる文書の画像が表示されていない、文書構造画像が描画される領域であって、例えばベタ白の矩形領域である。具体的には、文書構造画像取得部210は、白紙領域の画像と、構成要素の属性に対応する属性ボタンとが配置された支援画面を表示させ、構成要素の属性の指定を属性ボタンの押下(例えばクリック)により受け付けた後、当該属性に係る領域の指定を上記白紙領域の画像に対する領域指定操作(例えばドラッグ)により受け付ける。
また、例えば、文書構造画像取得部210は、別の装置やアプリケーションソフトにより作成された画像データを文書構造画像として取得してもよいし、利用者により手描きされた紙等の媒体上の画像がスキャナで読み取られて生成された画像データを文書構造画像として取得してもよい。
文書構造画像登録部220は、文書構造画像取得部210により取得された文書構造画像を、処理対象の文書と対応付けて記憶装置100に登録する。ここで、処理対象の文書は、文書構造画像登録部220によって文書構造画像と対応付けて登録されてもよいし、予め登録されていてもよい。
(情報検索装置300の構成)
図1において、情報検索装置300は、検索用画像取得部310と、文書取得部320とを有する。
図1において、情報検索装置300は、検索用画像取得部310と、文書取得部320とを有する。
検索用画像取得部310は、検索用の画像を取得する。ここで、検索用の画像は、文書を検索するために用いられる検索キーであり、記憶装置100に登録されている文書構造画像と照合されるものである。したがって、検索用の画像は、検索されるべき文書の文書構造を表す画像である。
図1に示されるとおり、本実施の形態では、検索用画像取得部310は、文書受付部311と、検索用画像生成部312とを有する。
文書受付部311は、検索用の文書の入力を受け付ける。ここで、検索用の文書は、画像データまたは画像データに変換可能な情報であり、例えば、ラスタデータ、Word(登録商標)ファイルやPDFファイルなどの電子文書、XMLデータなどである。文書受付部311は、例えば、利用者からの指示に従って、情報検索装置300内の記憶装置や、情報検索装置300に通信回線を介して接続された記憶装置、または記憶装置100などから検索用の文書を取得してもよいし、紙等の原稿がスキャナで読み取られて生成された画像データを取得してもよい。
検索用画像生成部312は、文書受付部311により受け付けられた文書から検索用の画像を生成する。
一つの態様では、検索用画像生成部312は、受け付けられた検索用の文書の文書構造を解析し、解析された文書構造に基づいて、上記検索用の画像として、検索用の文書の文書構造を表す文書構造画像を生成する。例えば、検索用画像生成部312は、検索用の文書に対して文書構造解析処理を行い、領域A1〜An(nは1以上の整数)にそれぞれ属性B1〜Bnの構成要素が存在すると判断すると、領域A1〜Anに相当する画像上の領域にそれぞれ属性B1〜Bnに対応する属性を持つ画像要素が配置された画像を、検索用の画像として生成する。検索用画像生成部312による文書構造解析の手法としては、例えば非特許文献1に記載された手法など、種々の解析手法を用いることができる。当該態様において、検索用画像生成部312は、解析の結果、ある構成要素について、2つの属性のどちらかに属すると判断された場合、上記ある構成要素を、上記2つの属性に対応する2つの画像要素の属性の中間属性を持つ画像要素により表現してもよい。例えば、検索用画像生成部312は、ある構成要素について、要約である確率が40%、本文である確率が60%と判断した場合、当該構成要素を、要約を示す青色と本文を示す緑色との中間色である青緑色で表現する。
別の一つの態様では、検索用画像生成部312は、受け付けられた検索用の文書の画像を表示装置(不図示)の画面上に表示させ、当該画面上における上記画像に対する利用者の操作に基づいて検索用の画像を生成する。具体的には、検索用画像生成部312は、検索用の文書の画像を含む、検索用の画像の作成を支援する支援画面を表示させ、当該支援画面上で利用者の操作を受け付け、当該操作に基づいて検索用の画像を生成する。利用者の操作は、例えば構成要素の属性および領域を指定する操作であり、例えばポインティングデバイスなどを用いて行われる。例えば、検索用画像生成部312は、検索用の文書の画像と、構成要素の属性に対応する属性ボタンとが配置された支援画面を表示させ、構成要素の属性の指定を属性ボタンの押下(例えばクリック)により受け付けた後、当該属性に係る領域の指定を上記文書の画像に対する領域指定操作(例えばドラッグ)により受け付ける。当該態様において、検索用画像生成部312は、利用者から、1つの領域について、2つの構成要素の属性の指定を受け付け、指定された2つの属性に対応する2つの画像要素の属性の中間属性を持つ画像要素を配置してもよい。例えば、利用者は、ある領域に要約または本文が位置する文書を検索したい場合、その領域について要約および本文を指定してもよい。この場合、例えば、検索用画像生成部312は、検索用の画像において、その領域を、要約を示す青色と本文を示す緑色との中間色である青緑色で表現する。上記のように2つの構成要素の属性の指定を受け付ける代わりに、検索用画像生成部312は、1つの領域について青緑色等の画像要素の中間属性の指定を受け付けてもよい。
ただし、検索用画像取得部310は、上記と異なる方法で検索用の画像を取得してもよい。
例えば、検索用画像取得部310は、画面上における白紙領域に対する利用者の操作に基づいて検索用の画像を生成してもよい。ここで、白紙領域は、検索用の画像の作成の元となる文書の画像が表示されていない、検索用の画像が描画される領域であって、例えばベタ白の矩形領域である。具体的には、検索用画像取得部310は、白紙領域の画像と、構成要素の属性に対応する属性ボタンとが配置された支援画面を表示させ、構成要素の属性の指定を属性ボタンの押下(例えばクリック)により受け付けた後、当該属性に係る領域の指定を上記白紙領域の画像に対する領域指定操作(例えばドラッグ)により受け付ける。この態様においても、検索用画像取得部310は、利用者から、1つの領域について、2つの構成要素の属性の指定を受け付け、指定された2つの属性に対応する2つの画像要素の属性の中間属性を持つ画像要素を配置してもよい。例えば、利用者は、ある領域に要約または本文が位置する文書を検索したい場合、その領域について要約および本文を指定してもよい。この場合、例えば、検索用画像取得部310は、検索用の画像において、その領域を、要約を示す青色と本文を示す緑色との中間色である青緑色で表現する。上記のように2つの構成要素の属性の指定を受け付ける代わりに、検索用画像取得部310は、1つの領域について青緑色等の画像要素の中間属性の指定を受け付けてもよい。
また、例えば、検索用画像取得部310は、別の装置やアプリケーションソフトにより作成された画像データを検索用の画像として取得してもよいし、利用者により手描きされた紙等の媒体上の画像がスキャナで読み取られて生成された画像データを検索用の画像として取得してもよい。これらの場合でも、利用者によって中間属性が指定されてもよい。例えば、利用者は、ある領域に要約または本文が位置する文書を検索したい場合、その領域を、要約を示す青色と本文を示す緑色との中間色である青緑色で描画することができる。
検索用画像取得部310は、文書の構成要素の出現確率が画像要素の属性で表現されるように、検索用の画像を生成してもよい。例えば、検索用画像取得部310は、文書の構成要素の出現確率を、彩度の高さやハッチングの線密度の大きさで表現してもよい。
一つの態様では、検索用画像取得部310は、複数の検索用の文書を取得し、当該複数の文書に対して文書構造解析処理を行い、当該解析の結果に基づき、文書画像上における各構成要素の出現確率の分布を求め、当該分布が画像要素の属性の分布(例えば、彩度の分布やハッチングの線密度の分布)により表現された画像を、検索用の画像として生成する。例えば、検索用画像取得部310は、文書画像上の領域Aにおける要約の出現確率がB%であった場合、領域Aに対応する検索用の画像上の領域を、彩度B%の青色で表現する。
別の一つの態様では、検索用画像取得部310は、利用者から構成要素の出現確率の指定を受け付け、指定された出現確率が画像要素の属性で表現された検索用の画像を生成する。例えば、検索用画像取得部310は、支援画面上で利用者から、領域の指定と、構成要素の属性の指定と、出現確率の指定とを受け付け、指定された領域を、指定された構成要素の属性および出現確率に対応する画像要素の属性で表現する。
別の装置やアプリケーションソフトにより検索用の画像が作成される場合や、利用者により検索用の画像が紙等に手描きされる場合においても、文書の構成要素の出現確率が画像要素の属性で表現されてもよい。
文書取得部320は、文書と、当該文書の文書構造を表す文書構造画像とが対応付けて登録されている記憶装置100から、検索用画像取得部310により取得された検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する。
ここで、文書取得部320は、種々の類似画像検索技術を用いて、検索用の画像と一致または類似する文書構造画像を検索することができる。また、文書取得部320は、既存の類似画像検索システムを用いて、検索用の画像と一致または類似する文書構造画像を検索してもよい。
例えば、文書取得部320は、検索用の画像と、記憶装置100に登録されている各文書構造画像とを照合し、検索用の画像と各文書構造画像との間の類似度を算出する。そして、文書取得部320は、類似度が所定の閾値以上である文書構造画像を特定し、特定された文書構造画像に対応付けられている文書を取得する。そして、文書取得部320は、当該取得された文書を表示装置(不図示)の画面上に表示させるなどにより、検索結果として利用者に提示する。この場合、文書取得部320は、類似度が大きいものから順に提示してもよい。また、文書取得部320は、取得した文書の縮小画像(サムネイル画像)を提示してもよい。
文書取得部320は、検索された文書構造画像に対応付けられている文書を取得する場合、文書の全体を取得してもよいし、文書の一部(例えばタイトルや要約のみ)を取得してもよい。
また、文書取得部320は、記憶装置100から、画像要素の各属性間の面積比が検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得してもよい。
以下、情報登録処理の手順および情報検索処理の手順を説明する。
図2は、情報登録処理の手順の一例を示すフローチャートである。図3は、情報登録処理の手順の一例を示す概念図である。以下、図2,3を参照して、情報登録処理の手順を説明する。
情報登録装置200は、処理対象の文書31に対して文書構造解析処理を行い、解析結果に基づき、上記処理対象の文書31の文書構造を表す文書構造画像32を生成する(S11)。
そして、情報登録装置200は、上記生成された文書構造画像32を、上記処理対象の文書31と対応付けて記憶装置100に登録する(S12)。
なお、上記ステップS11の処理、すなわち文書構造画像を生成する処理は、先述したとおり、情報登録装置200以外の装置等により行われてもよい。
図4は、情報検索処理の手順の一例を示すフローチャートである。図5は、情報検索処理の手順の一例を示す概念図である。以下、図4,5を参照して、情報検索処理の手順を説明する。
情報検索装置300は、検索用の文書51に対して文書構造解析処理を行い、解析結果に基づき、上記検索用の文書51の文書構造を表す文書構造画像を、検索用の画像52として生成する(S21)。
そして、情報検索装置300は、上記検索用の画像52と、記憶装置100に登録されている各文書構造画像53とを照合して、記憶装置100から、上記検索用の画像52と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する(S22)。
なお、上記ステップS21の処理、すなわち検索用の画像を生成する処理は、先述したとおり、情報検索装置300以外の装置等により行われてもよい。また、この場合、上記検索用の文書は無くてもよい。例えば、図6に示されるように、検索用の画像52は、ドローツールや手描きにより作成されてもよい。
以上説明したレイアウト検索は、一つの態様では、文書画像検索の前処理として行われる。ここで、文書画像検索とは、所望の文書画像と一致する文書画像を検索する処理である。
また、以上説明した情報検索システムは、例えば下記のような用途に用いられる。
帳票検索:データベース内に蓄積された様々な帳票データから、出張旅費清算の申請書のみをピックアップする。
文書分類:データベース内に蓄積された様々な論文データを、学会別に分類してそれぞれのフォルダ(格納場所)に入れる。
特定ページの抽出:データベース内に蓄積された多種多様な文書の表紙のみをピックアップして文書リストを生成する。
特定ページの抽出:データベース内に蓄積された論文データから参考文献のページのみピックアップし、特定技術領域の文献リストを生成する。
[第2の実施の形態]
図7は、第2の実施の形態に係る情報検索システム2の構成の一例を示すブロック図である。この情報検索システム2は、上記第1の実施の形態に係る情報検索システム1と殆ど同じである。そこで、以下、本実施の形態に係る情報検索システム2について説明するが、上記第1の実施の形態と共通する部分については、同一の符号を用い、説明を省略する。
図7は、第2の実施の形態に係る情報検索システム2の構成の一例を示すブロック図である。この情報検索システム2は、上記第1の実施の形態に係る情報検索システム1と殆ど同じである。そこで、以下、本実施の形態に係る情報検索システム2について説明するが、上記第1の実施の形態と共通する部分については、同一の符号を用い、説明を省略する。
本実施の形態では、情報検索装置300は、検索用画像取得部310および文書取得部320に加えて、文書一覧表示部330、文書選択受付部340、および検索用画像生成部350を有する。
文書一覧表示部330は、文書取得部320により取得された文書の一覧を、表示装置(不図示)の画面上に表示させる。
文書選択受付部340は、文書一覧表示部330により表示された一覧の中から複数の文書の選択を受け付ける。具体的には、文書選択受付部340は、画面上で一覧の中から複数の文書を選択する操作を、マウスやキーボード等のユーザインタフェースを介して利用者から受け付ける。
検索用画像生成部350は、文書選択受付部340にて選択された複数の文書に基づいて新たな検索用の画像を生成する。例えば、検索用画像生成部350は、選択された複数の文書を統合して新たな検索用の画像を生成する。
一つの態様では、検索用画像生成部350は、図8に示されるように、選択された複数の文書に対応する複数の文書構造画像81,82,83を取得し、当該複数の文書構造画像を合成して新たな検索用の画像84を生成する。例えば、検索用画像生成部350は、画像上の各画素について彩度の平均値と色相の平均値とを求め、求められた彩度の平均値および色相の平均値を各画素に持つ画像を、新たな検索用の画像として生成する。ただし、画像の合成の手法は上記に限定されず、種々の画像合成技術が適用可能である。検索用画像生成部350は、上記複数の文書構造画像を、記憶装置100から取得してもよいし、選択された複数の文書から生成してもよい。
別の一つの態様では、検索用画像生成部350は、選択された複数の文書に対して文書構造解析処理を行い、当該解析の結果に基づき、文書画像上における各構成要素の出現確率の分布を求め、当該分布が画像要素の属性の分布(例えば、彩度の分布やハッチングの線密度の分布)により表現された画像を、新たな検索用の画像として生成する。
そして、本実施の形態では、文書取得部320は、記憶装置100から、検索用画像生成部350により生成された検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する。
文書一覧表示部330は、新たな検索用の画像に基づいて文書取得部320により検索された文書の一覧を画面上に表示させてもよく、検索結果に基づく検索処理は、繰り返し行われてもよい。すなわち、再帰的に文書の検索が行われてもよい。
図9は、第2の実施の形態における情報検索処理の手順の一例を示すフローチャートである。
情報検索装置300は、検索用の画像を取得する(S31)。
ついで、情報検索装置300は、記憶装置100から、上記検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する(S32)。
ついで、情報検索装置300は、取得された文書の一覧を画面上に表示させる(S33)。
ついで、情報検索装置300は、利用者からの検索終了の指示を受け付けたか否かを判断し(S34)、受け付けたと判断された場合(S34:YES)、処理を終了させ、受け付けなかったと判断された場合(S34:NO)、処理をステップS35に進める。
ステップS35では、情報検索装置300は、表示された一覧の中から複数の文書の選択を受け付ける。
ついで、情報検索装置300は、選択された複数の文書に基づいて新たな検索用の画像を生成する(S36)。
そして、情報検索装置300は、処理をステップS32に戻し、再び文書の検索を行う。2回目以降の検索では、ステップS36で生成された検索用の画像が用いられる。
[第3の実施の形態]
図10は、第3の実施の形態に係る情報検索システム3の構成の一例を示すブロック図である。この情報検索システム3は、上記第1の実施の形態に係る情報検索システム1と殆ど同じである。そこで、以下、本実施の形態に係る情報検索システム3について説明するが、上記第1の実施の形態と共通する部分については、同一の符号を用い、説明を省略する。
図10は、第3の実施の形態に係る情報検索システム3の構成の一例を示すブロック図である。この情報検索システム3は、上記第1の実施の形態に係る情報検索システム1と殆ど同じである。そこで、以下、本実施の形態に係る情報検索システム3について説明するが、上記第1の実施の形態と共通する部分については、同一の符号を用い、説明を省略する。
本実施の形態では、情報検索装置300は、検索用画像取得部310および文書取得部320に加えて、文書一覧表示部330および文書選択受付部340を有する。
文書一覧表示部330は、文書取得部320により取得された文書の一覧を、表示装置(不図示)の画面上に表示させる。
文書選択受付部340は、文書一覧表示部330により表示された一覧の中から複数の文書の選択を受け付ける。具体的には、文書選択受付部340は、画面上で一覧の中から複数の文書を選択する操作を、マウスやキーボード等のユーザインタフェースを介して利用者から受け付ける。
そして、本実施の形態では、文書取得部320は、記憶装置100から、文書選択受付部340にて選択された複数の文書の文書構造画像のいずれかと一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する。この場合、文書取得部320は、上記複数の文書の文書構造画像を、記憶装置100から取得してもよいし、選択された複数の文書から生成してもよい。
文書一覧表示部330は、選択された複数の文書の文書構造画像に基づいて文書取得部320により検索された文書の一覧を画面上に表示させてもよく、検索結果に基づく検索処理は、繰り返し行われてもよい。すなわち、再帰的に文書の検索が行われてもよい。
図11は、第3の実施の形態における情報検索処理の手順の一例を示すフローチャートである。
情報検索装置300は、検索用の画像を取得する(S41)。
ついで、情報検索装置300は、記憶装置100から、上記検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する(S42)。
ついで、情報検索装置300は、取得された文書の一覧を画面上に表示させる(S43)。
ついで、情報検索装置300は、利用者からの検索終了の指示を受け付けたか否かを判断し(S44)、受け付けたと判断された場合(S44:YES)、処理を終了させ、受け付けなかったと判断された場合(S44:NO)、処理をステップS45に進める。
ステップS45では、情報検索装置300は、表示された一覧の中から複数の文書の選択を受け付ける。
そして、情報検索装置300は、処理をステップS42に戻し、再び文書の検索を行う。2回目以降の検索では、情報検索装置300は、ステップS45で選択された複数の文書の文書構造画像のいずれかと一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する。
なお、本発明は、上記実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々変更することができる。
1,2,3 情報検索システム、100 記憶装置、200 情報登録装置、210 文書構造画像取得部、211 文書受付部、212 文書構造画像生成部、220 文書構造画像登録部、300 情報検索装置、310 検索用画像取得部、311 文書受付部、312 検索用画像生成部、320 文書取得部、330 文書一覧表示部、340 文書選択受付部、350 検索用画像生成部。
Claims (19)
- 処理対象の文書の文書構造を表す文書構造画像を取得する文書構造画像取得手段と、
前記取得された文書構造画像を前記処理対象の文書と対応付けて記憶手段に登録する文書構造画像登録手段と、
を有することを特徴とする情報登録装置。 - 請求項1に記載の情報登録装置であって、
前記文書構造画像取得手段は、
前記処理対象の文書の入力を受け付ける文書受付手段と、
前記受け付けられた文書から前記文書構造画像を生成する文書構造画像生成手段と、
を含むことを特徴とする情報登録装置。 - 請求項2に記載の情報登録装置であって、
前記文書構造画像生成手段は、前記処理対象の文書の文書構造を解析し、解析された文書構造に基づいて前記文書構造画像を生成することを特徴とする情報登録装置。 - 請求項2に記載の情報登録装置であって、
前記文書構造画像生成手段は、前記処理対象の文書の画像を画面上に表示させ、当該画面上における前記画像に対する利用者の操作に基づいて前記文書構造画像を生成することを特徴とする情報登録装置。 - 請求項3に記載の情報登録装置であって、
前記文書構造画像は、前記文書の各構成要素に対応する画像要素を含み、前記各構成要素の属性を前記画像要素の属性により表し、
前記文書構造画像生成手段は、前記解析の結果、ある構成要素について、2つの属性のどちらかに属すると判断された場合、前記ある構成要素を、前記2つの属性に対応する2つの画像要素の属性の中間属性を持つ画像要素により表現する、
ことを特徴とする情報登録装置。 - 検索用の画像を取得する検索用画像取得手段と、
文書と、当該文書の文書構造を表す文書構造画像とが対応付けられて登録されている記憶手段から、前記取得された検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する文書取得手段と、
を有することを特徴とする情報検索装置。 - 請求項6に記載の情報検索装置であって、
前記検索用画像取得手段は、
検索用の文書の入力を受け付ける文書受付手段と、
前記受け付けられた文書から前記検索用の画像を生成する検索用画像生成手段と、
を含むことを特徴とする情報検索装置。 - 請求項7に記載の情報検索装置であって、
前記検索用画像生成手段は、前記検索用の文書の文書構造を解析し、解析された文書構造に基づいて、前記検索用の画像として、前記検索用の文書の文書構造を表す文書構造画像を生成することを特徴とする情報検索装置。 - 請求項7に記載の情報検索装置であって、
前記検索用画像生成手段は、前記検索用の文書の画像を画面上に表示させ、当該画面上における前記画像に対する利用者の操作に基づいて前記検索用の画像を生成することを特徴とする情報検索装置。 - 請求項6に記載の情報検索装置であって、
前記検索用画像取得手段は、画面上における白紙領域に対する利用者の操作に基づいて前記検索用の画像を生成することを特徴とする情報検索装置。 - 請求項8に記載の情報検索装置であって、
前記文書構造画像は、前記文書の各構成要素に対応する画像要素を含み、前記各構成要素の属性を前記画像要素の属性により表し、
前記検索用画像生成手段は、前記解析の結果、ある構成要素について、2つの属性のどちらかに属すると判断された場合、前記ある構成要素を、前記2つの属性に対応する2つの画像要素の属性の中間属性を持つ画像要素により表現する、
ことを特徴とする情報検索装置。 - 請求項9または10に記載の情報検索装置であって、
前記検索用画像取得手段は、利用者の操作に基づいて、2つの構成要素の属性に対応する2つの画像要素の属性の中間属性を持つ画像要素を含む画像を、前記検索用の画像として生成することを特徴とする情報検索装置。 - 請求項6から12のいずれか1項に記載の情報検索装置であって、
前記検索用画像取得手段は、文書の構成要素の出現確率が画像要素の属性で表現されるように、前記検索用の画像を生成することを特徴とする情報検索装置。 - 請求項6から13のいずれか1項に記載の情報検索装置であって、
前記取得された文書の一覧を表示させる文書一覧表示手段と、
前記表示された一覧の中から複数の文書の選択を受け付ける文書選択受付手段と、
前記選択された複数の文書に基づいて新たな検索用の画像を生成する検索用画像生成手段と、
をさらに有し、
前記文書取得手段は、前記記憶手段から、前記生成された検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する、
ことを特徴とする情報検索装置。 - 請求項6から13のいずれか1項に記載の情報検索装置であって、
前記取得された文書の一覧を表示させる文書一覧表示手段と、
前記表示された一覧の中から複数の文書の選択を受け付ける文書選択受付手段と、
をさらに有し、
前記文書取得手段は、前記記憶手段から、前記選択された複数の文書の文書構造画像のいずれかと一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する、
ことを特徴とする情報検索装置。 - 請求項6に記載の情報検索装置であって、
前記文書取得手段は、前記記憶手段から、画像要素の各属性間の面積比が前記検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得することを特徴とする情報検索装置。 - 請求項1から5のいずれか1項に記載の情報登録装置と、
請求項6から16のいずれか1項に記載の情報検索装置と、
を有することを特徴とする情報検索システム。 - コンピュータに、
処理対象の文書の文書構造を表す文書構造画像を取得する手順と、
前記取得された文書構造画像を前記処理対象の文書と対応付けて記憶手段に登録する手順と、
を実行させることを特徴とする情報登録プログラム。 - コンピュータに、
検索用の画像を取得する手順と、
文書と、当該文書の文書構造を表す文書構造画像とが対応付けられて登録されている記憶手段から、前記取得された検索用の画像と一致または類似する文書構造画像を検索し、検索された文書構造画像に対応付けられている文書を取得する手順と、
を実行させることを特徴とする情報検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007100053A JP2008257537A (ja) | 2007-04-06 | 2007-04-06 | 情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007100053A JP2008257537A (ja) | 2007-04-06 | 2007-04-06 | 情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008257537A true JP2008257537A (ja) | 2008-10-23 |
Family
ID=39981038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007100053A Pending JP2008257537A (ja) | 2007-04-06 | 2007-04-06 | 情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008257537A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013506913A (ja) * | 2009-10-02 | 2013-02-28 | ムスルリ,アラビンド | 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法 |
WO2014192736A1 (ja) * | 2013-05-28 | 2014-12-04 | Ando Yuta | 現在位置に関連したサイトページを所望条件順に携帯端末に表示する方法及びシステム |
JP2018136900A (ja) * | 2017-02-24 | 2018-08-30 | 東芝情報システム株式会社 | 文章解析装置及び文章解析プログラム |
-
2007
- 2007-04-06 JP JP2007100053A patent/JP2008257537A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013506913A (ja) * | 2009-10-02 | 2013-02-28 | ムスルリ,アラビンド | 視覚的要素をブロック分割し、識別し、インデクスを付けて、ドキュメントを検索するためのシステムおよび方法 |
WO2014192736A1 (ja) * | 2013-05-28 | 2014-12-04 | Ando Yuta | 現在位置に関連したサイトページを所望条件順に携帯端末に表示する方法及びシステム |
JP2014232907A (ja) * | 2013-05-28 | 2014-12-11 | 雄太 安藤 | 現在位置に基づくサイトページを所望条件順に携帯端末に表示する方法及びシステム |
JP2018136900A (ja) * | 2017-02-24 | 2018-08-30 | 東芝情報システム株式会社 | 文章解析装置及び文章解析プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4918776B2 (ja) | 電子文書比較プログラム、電子文書比較装置および電子文書比較方法 | |
JP4533273B2 (ja) | 画像処理装置及び画像処理方法、プログラム | |
JP4859025B2 (ja) | 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体 | |
US9514103B2 (en) | Effective system and method for visual document comparison using localized two-dimensional visual fingerprints | |
CN101297319B (zh) | 在电子文档中嵌入热点 | |
EP1473642A2 (en) | Information processing apparatus, method, storage medium and program | |
US20060143154A1 (en) | Document scanner | |
JP4920928B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
US20090183115A1 (en) | Document searching apparatus, document searching method, and computer-readable recording medium | |
US20080263036A1 (en) | Document search apparatus, document search method, program, and storage medium | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
US8244035B2 (en) | Image processing apparatus and control method thereof | |
US20060085442A1 (en) | Document image information management apparatus and document image information management program | |
US20040234169A1 (en) | Image processing apparatus, control method therefor, and program | |
US20100067064A1 (en) | Image processing apparatus and image processing method | |
JP2007286864A (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 | |
JP2007042106A (ja) | 文書処理方法、文書処理メディア、文書管理方法、文書処理システム及び文書管理システム | |
JP2010020468A (ja) | 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体 | |
JP2000115476A (ja) | 走査画像の領域を操作するためのシステム及び方法 | |
JP2007317034A (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 | |
US7921127B2 (en) | File management apparatus, control method therefor, computer program, and computer-readable storage medium | |
JP2008040753A (ja) | 画像処理装置、方法、プログラムおよび記録媒体 | |
US8181108B2 (en) | Device for editing metadata of divided object | |
JP2008257537A (ja) | 情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム | |
JP5112045B2 (ja) | 情報編集装置、情報編集方法、およびプログラム |