JP2004334341A

JP2004334341A - 文書検索装置、文書検索方法及び記録媒体

Info

Publication number: JP2004334341A
Application number: JP2003125820A
Authority: JP
Inventors: Eiichiro Toshima; 英一朗戸島
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-04-30
Filing date: 2003-04-30
Publication date: 2004-11-25

Abstract

【課題】実用的な答時間内で精度の高い原本検索を実現する。
【解決手段】文書を検索する文書検索方法は、検索文書のイメージに対してブロックセレクション処理を施し、テキストブロックに対しては文字認識処理を実行し、得られたテキストデータに基づいてテキスト特徴情報を生成する（ステップＳ９２、Ｓ９４）。また、検索文書のイメージに基づいてイメージ特徴情報が生成される（ステップＳ９３）。そして、生成されたテキスト特徴情報とイメージ特徴情報を用いて文書データベースを検索し、複数の文書より当該検索文書に対応する文書を取得する（ステップＳ９５，Ｓ９６）。ここで、検索においては、複数の文書の各々と検索文書との間の類似度をテキスト特徴情報とイメージ特徴情報の夫々について求め、求めた類似度を統合して検索結果を決定する。
【選択図】図９

Description

【０００１】
【発明の属する技術分野】
本発明は、コンピュータで扱われる電子文書データを検索するための文書検索装置、文書検索方法及び記録媒体に関するものである。
【０００２】
【従来の技術】
近年、パーソナルコンピュータ（ＰＣ）の普及に伴い、文書の作成は文書作成ソフトなどのＰＣ上のアプリケーションソフトを用いて行われるのが一般的となった。具体的には、ＰＣの画面上で各種書類等を作成、編集、複写、検索等をすることが広く行われている。
【０００３】
また、ネットワークの発展と普及に伴い、このようにＰＣ上で作成された電子的な文書データ（電子文書データ）が、プリンタ等を用いて出力された紙文書として配布されずに、電子文書データのまま配布される機会も増えている。すなわち、他のＰＣ等からアクセスされたり、電子メール等で送信・配布されることにより、電子文書データのまま扱うことが行われるようになり、ペーパーレスの文書作成環境が進みつつある。
【０００４】
このような電子文書データは、文書管理システムを構築してコンピュータによって体系的に管理されるようになってきたこともあり、共通化による情報量削減、文書間関連付けによるアクセスの容易性、多人数による情報の共有などにおいて極めて効果の高いものである。一方、紙文書にも、電子文書データと比較して、読みやすさ、扱いやすさ、持ち運びの利便性、直感的分かり易さ等において大きな利点がある。そのため、電子文書データを作成しても、プリンタ装置等を用いて紙文書に出力して利用するほうが効率的な場合も依然として多い。そこで紙文書と電子文書は、互いに相補的関係を築き、両者が併用して流通しているのが現状である。
【０００５】
紙文書は参照に関しては極めて便利なので、様々な局面で配布されるが、単に参照するだけでなく、その文書を再編集／再利用したいと思う場合も多い。従来は、このような場合、電子文書データファイルを別途人手を介して入手し、これを編集するということが行われており、文書の再利用性を阻害する原因となっていた。
【０００６】
このような紙文書と電子文書の遊離問題を解決するために、印刷された紙文書をスキャンし、その情報（スキャンデータ）をもとにその紙文書が印刷される元となったオリジナルの電子文書データを検索するという検索手法も提案されている。ここではそのような検索手法を原本検索と呼ぶ。このような原本検索の具体的な手法は例えば特許文献１や特許文献２において提案されている。
【０００７】
【特許文献１】
特開２００１−２５６５６号公報
【特許文献２】
特開平３−２６３５１２号公報
【０００８】
【発明が解決しようとする課題】
例えば、特許文献１では、紙文書のラスタ画像データから抽出された特徴量と、予め電子文書データを展開したラスタ画像データから抽出された特徴量との類似性を判断して、元の電子文書データを検索する手法を提案している。この提案においては、画像ベースで文書を比較するので、アプリケーションがラスタ画像を生成する際にある程度厳密な不変性が要求される。ところが、現実のシステム（アプリケーション）においては、レイアウトを厳密に一致させてラスタ画像を生成することが困難である場合も多い。過去には、アプリケーションあるいはＯＳのバージョンが変わった際にレイアウトが多少崩れることはかなり頻繁に発生してきた。このようにレイアウトの不変性が確保できない場合、たとえ内容が全く同じでも元文書が検出できなくなってしまう。
【０００９】
また、例えば、特許文献２は、記録用紙に記録されている文書をスキャナで読取ってデジタル化して文字認識し、更にユーザが文字認識された文字列から特徴的な文字列を検索範囲として指定し、内容および位置関係が一致する文書を検索するというものである。しかしながら、この提案では、スキャンされ文字認識された文書からユーザが文字列を指定しなければならず、検索範囲の指定というわずらわしさが残るという課題がある。もちろん、検索範囲として文書全体を指定することもできるが、その場合は文書全体の文字列とのマッチングを行うことになってしまう。文字認識にある程度の誤認識があることを考慮するとそのマッチングはあいまいマッチングとなり、比較の際には相当な処理負担がかかり、実用的な応答時間は期待できない。紙文書から文字認識されたテキストをクエリとして検索するには、現実的応答性能を得るために、単純なマッチング処理では解決できない、もう一段の工夫が求められる。
【００１０】
本発明は、上記課題に鑑みてなされたものであり、検索範囲指定等の煩わしい処理を不要とし、実用的な応答時間内で精度の高い原本検索を実現可能とすることを目的とする。
【００１１】
【課題を解決するための手段】
上記の目的を達成するために本発明による文書検索方法は、
文書を検索する文書検索方法であって、
検索文書のイメージに対して文字認識処理を実行する文字認識工程と、
前記文字認識工程によって得られたテキストデータから単語を抽出し、各単語の出現度数に基づいてテキスト特徴情報を生成する第１生成工程と、
前記第１生成工程で生成されたテキスト特徴情報を用いて、複数の文書の各々についてテキスト特徴情報を保持する保持工程を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索工程とを備える。
【００１２】
また、上記の目的を達成するために本発明による文書検索装置は以下の構成を備える。即ち、
文書を検索する文書検索装置であって、
検索文書のイメージに対して文字認識処理を実行する文字認識手段と、
前記文字認識手段によって得られたテキストデータから単語を抽出し、各単語の出現度数に基づいてテキスト特徴情報を生成する第１生成手段と、
前記第１生成手段で生成されたテキスト特徴情報を用いて、複数の文書の各々についてテキスト特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索手段とを備える。
【００１３】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態を詳細に説明する。
【００１４】
（第１実施形態）
図１は本実施形態による文書検索装置の構成を示すブロック図である。図１の構成において、１０１はマイクロプロセッサ（ＣＰＵ）であり、文書検索処理のための演算、論理判断等を行い、バス１０９を介してバスに接続された各構成要素を制御する。１０９はバス（ＢＵＳ）であり、ＣＰＵ１０１の制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。
【００１５】
１０３は書込み可能なランダムアクセスメモリ（ＲＡＭ）であり、各構成要素からの各種データの一次記憶等に用いる。１０２は読出し専用の固定メモリ（ＲＯＭ）であり、ＣＰＵ１０１によって実行されるブートプログラム等を記憶する。なお、ブートプログラムはシステム起動時にハードディスク１１０に記憶された制御プログラム１１１をＲＡＭ１０３にロードし、ＣＰＵ１０１に実行させる。この制御プログラム１１１については、後にフローチャートを参照して詳述する。
【００１６】
１０４は入力装置であり、キーボードやポインティングデバイス（本例ではマウス等）を備える。１０５は表示装置であり、ＣＲＴ、あるいは液晶ディスプレイ等が挙げられる。表示装置１０５にはＣＰＵ１０１による表示制御の下、各種表示がなされる。１０６はスキャナであり、紙文書を光学的に読み取ってデジタル化する等の処理を行う。
【００１７】
１１０はハードディスク（ＨＤ）であり、ＣＰＵ１０１により実行される制御プログラム１１１、検索等の処理が行われる対象となる文書を記憶した文書データベース１１２、レイアウト類似検索を行う際にインデックスとして使用されるレイアウト類似検索索引１１３、文章内容類似検索を行う際にインデックスとして使用される文章内容類似検索索引１１４、文章内容類似検索を行う際の各単語の重要度に関するデータを格納した単語重要度テーブル１１５等が格納される。
【００１８】
１０７はリムーバブル外部記憶装置であり、フレキシブルディスクやＣＤ、ＤＶＤ等の外部記憶にアクセスするためのドライブである。リムーバブル外部記憶装置１０７はハードディスク１１０と同様に使用でき、それらの記録媒体を通じて他の文書処理装置とのデータ交換を行える。なお、ハードディスク１１０に記憶される制御プログラムは、これらの外部記憶装置から必要に応じてハードディスク１１０にコピーすることもできる。１０８は通信装置であり、本実施形態ではネットワークコントローラである。通信装置１０８は通信回線を介して外部とのデータ交換をう。
【００１９】
以上のような構成を備えた本実施形態の文書検索装置においては、入力装置１０４からの各種の入力に応じて対応する処理が作動する。すなわち、入力装置からの入力が供給されると、まずインタラプト信号がＣＰＵ１０１に送られ、それに伴って、ＣＰＵ１０１がＲＯＭ１０２またはＲＡＭ１０３内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。
【００２０】
図２は本実施形態において行われるブロック解析の例を説明した図である。スキャンイメージ２０１は紙文書がスキャナ１０６によって読み取られ、デジタル化された文書イメージである。ブロック解析は、この文書イメージを性質に応じた矩形ブロックに分割する技術である。図２の場合、ブロック解析がかけられると３つのブロックに分割される。１つは内部に文章（テキスト）が含まれるテキストブロック２１１となり、残りの２つはテキスト以外の情報（グラフ、写真など）が含まれるため画像ブロック２１２、２１３となる。テキストブロック２１１に対して文字認識がかけられテキストが抽出されるが、画像ブロック２１２、２１３からはテキスト情報は抽出されない。
【００２１】
図３はテキストブロックから抽出されるＯＣＲテキスト情報、及びそれから抽出されるテキスト特徴データを説明したものである。スキャンイメージのテキストブロック３０１に対して文字認識処理がかけられ、ＯＣＲテキスト情報３０２として抽出される。文字認識処理であるため１００％正確な認識が行われるとは限らず、誤認識データが含まれることになる。例えば、図中“ＢＪシリーズ”となるべき文字列は“８○シリーズ”となり、“超写真画質”となるべき文字列は“超写真白質”となってしまっている。原本検索においてはこのような誤認識されている文字列と正しい文字列とのマッチングをとる必要があり、単純なマッチング手法ではマッチングがとれない。或いは単純なマッチング手法でマッチングをとろうとすると処理負担が極端に増加してしまう。
【００２２】
ＯＣＲテキスト情報３０２に対して、検索に必要な情報がテキスト特徴データ３０３として抽出され、テキストが圧縮される。解析できない部分である未知語が除外され、解析できた部分のうち、特定の品詞（名詞、固有名詞、サ変名詞）のみが、単語のリストとして残される。図示の例では、「写真」「追求」などは名詞やサ変名詞なので残されるが、「８○」は、もし解析できていれば名詞なので残されるが、この場合は未知語になってしまうので、除外されている。
【００２３】
図４はレイアウト類似検索索引の構成例を示した図である。レイアウト類似検索索引１１３は、レイアウトに基づく類似検索を行うためのインデックス情報である。文書データベースに登録されている各文書（ユニークな文書ＩＤで識別される）に対応して、レイアウト特徴量が記憶される。レイアウト特徴量はレイアウトの類似性を判定するための情報である。例えば、文書を印刷した場合のビットマップイメージを縦ｎ個、横ｍ個の矩形に分割し、各矩形の平均の輝度情報と色情報を記憶した画像特徴量などが考えられる。類似検索を行うための画像特徴量の例については、例えば、特開平１０−２６０９８３号公報において提案されたものを適用できる。。なお、上記のブロック解析によって得られたテキストブロックや画像ブロックの位置／サイズをレイアウト特徴量として用いることも可能である。
【００２４】
電子文書のレイアウト特徴量は、文書登録時に擬似的な印刷処理を行うことにより文書のビットマップイメージを作成し、該ビットマップデータに基づいて作成される。また、スキャンされた文書のレイアウト特徴量は、スキャンされ、デジタル化されたスキャンイメージに基づいて作成される。レイアウト類似検索を行う際には、スキャンされた文書からレイアウト特徴量が作成され、この例アウト類似検索索引１１３に記憶される各文書のレイアウト特徴量に対して１件ずつレイアウト類似度が計算されるのである。
【００２５】
図５は文章内容類似検索索引の構成例を示した図である。文章内容類似検索索引１１４は、文章内容の類似性に基づく類似検索を行うためのインデックス情報である。文書データベースに登録されている各文書に対応して、文書ベクトルが記憶される。文書ベクトルは文章内容の類似性を判定するための情報である。ここでは、文書ベクトルの次元を単語とし、文書ベクトルの各次元の値をその単語の出現度数とする。ただし、１単語を正確に１次元とせず、同一あるいは類似の単語群を１つの次元として文書ベクトルを構成する。例えば図５では、次元２に対して「写真」「フォト」の２つの単語が対応している。各単語に対してその文書に含まれる出現度数が記憶される。
【００２６】
なお、１つの文書に複数のテキストブロックが存在する場合は、複数のテキストブロックから抽出されるＯＣＲテキスト情報の全てがまとめられて集計され、１つの文書ベクトルが作成される。
【００２７】
また、原本検索を行う際には、検索クエリとなるスキャンされた文書からも、ここに格納される文書ベクトルと同じ形式のベクトルデータ（クエリベクトル）が作成され、各文書の文書ベクトルに対して１件ずつ文章内容類似度が計算されることになる。
【００２８】
図６は単語重要度テーブルの構成例を示す図である。単語重要度テーブル１１５は、文章内容の類似性を判定する上での、各単語の重要度を示すテーブルである。このテーブルにおいては、文書データベース全体に対して、各単語の出現する度数を記憶する。
【００２９】
各単語の重要度ｗ_ｋは、この単語重要度テーブル１１５によって格納された度数の逆数によって算出される。すなわち、
ｗ_ｋ＝１／（文書データベース全体における文字ｋの出現度数） …（１）
によって表される。ただし、出現度数が０の場合は文字の重要度は０とする。これは文書データベースに出現しない単語は類似性判定には役に立たないことからである。重要度が度数の逆数をとる理由は、多くの文書に出現するようなありふれた単語は、文章内容の類似性を判定する上では相対的に重要性が低いという観点に従ったものである。
【００３０】
次に、本実施形態による文書の類似性判定を行う際の、類似度算出について説明する。文書ベクトルをＸ（Ｘ＝（ｘ_１，ｘ_２，ｘ_３，…，ｘ_ｎ））、クリエベクトルをＱ（Ｑ＝（ｑ_１，ｑ_２，ｑ_３，…，ｑ_ｎ））、単語ｋの重要度をｗ_ｋとした場合、文章内容類似度ＴＳ（Ｘ，Ｑ）は以下の（２）式により求められる。
【００３１】

【００３２】
すなわち、文章内容類似度ＴＳ（Ｘ，Ｑ）は、比較する２つの文書について、すべての単語（ｋ＝１からｋ＝ｎまで）の出現度数の差の絶対値にその文字の重要度を乗じたものを積算し、そのマイナスの値で表現する。マイナスにするのは出現度数の差が大きいほど文章内容類似度が低いからである。この文章内容類似度の値が大きいほど類似性が高いと判定される。なお、レイアウト類似度についても、同様に類似度の値が大きいほど類似性が高いように設定される。
【００３３】
次に、総合類似度Ｓは基本的には文章内容類似度ＴＳとレイアウト類似度ＬＳを加算したものであるが、それぞれの類似度算出の重要性に応じて、重みαとβが乗じて加算される。すなわち、
Ｓ＝α×ＴＳ＋β×ＬＳ …（３）
により算出される。
【００３４】
（３）式において、 αは文章内容情報に対する重みであり、βはレイアウト情報に対する重みである。αとβの値は可変であり、文章内容情報の信頼性が低いときは文章内容の重みαの値が小さくなる。αとβの値は可変であり、文章内容情報の信頼性（例えば、文書中のテキストブロックに十分なテキストが存在するかどうか、また、テキストがうまく文字認識されたかどうか（文字認識の精度評価）に基づいて信頼性を評価することができる）が低いときは文章内容の重みαの値が小さくなるように適宜定められる。例えば、文章内容情報の信頼性が十分高い場合は、α＝１、β＝１とし、文章内容が信頼できないときは、α＝０．１、β＝１などと設定する。なお、レイアウト情報は、どのような文書でもレイアウト自体は必ず存在し、また、解析結果が大きく損なわれることもないので、情報自体の信頼性が大きく変動することはない。
【００３５】
なお、文字認識の精度評価には形態素解析などの言語解析を利用することが挙げられる。このとき言語解析が正常に行われたかどうかが分かる情報、例えば、解析エラー率を求めることで精度評価を行なえる。なお、解析エラー率の１つの実施形態としては、解析により発生した未知語（辞書に登録されていない単語）の全単語数に占める割合に基づいて求めた値が挙げられる。あるいは別の実施形態では、未知語文字列が全文字数に占める割合で求める。或いは、もっと簡便な方法として以下の方法を用いてもよい。例えば、標準的な日本語の文字単位の統計データを予め備え、スキャンされた文書に対しても同様の統計データを作成する。これが標準の日本語文章に比べて大きく乖離していれば、異常な文書であると見なし、文字認識結果の信頼性が低いと判定する。このように構成することで、コンピュータにとって負荷の高い言語解析処理を回避でき、より負荷の少ない統計処理で代用することができる。このため、より貧弱なコンピュータ環境においても文字認識の信頼性評価を行うことができ、より安価な原本検索が実現できる。
【００３６】
以上の動作をフローチャートに従って説明する。図７は本実施形態による文書検索装置の動作、より具体的にはＣＰＵ１０１の処理手順を示すフローチャートである。
【００３７】
ステップＳ７１はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示等を行う処理である。ステップＳ７２はキーボード等の入力装置から何らかのキーが押下され、割り込みが発生するのをＣＰＵ１０１において待つ処理である。キーが打鍵されると、ステップＳ７３においてマイクロプロセッサＣＰＵがこのキーを判別し、キーの種類に応じて各種の処理に分岐する。各種キーに対応した分岐先の複数の処理をステップＳ７４という形でまとめて表現している。図８、図９で詳述する文書登録処理、原本検索実行処理がこの分岐先の一部となる。他の処理としては、本明細書では詳細な記述を省略するが、キーボードからクエリ文字列を打ち込んで検索する処理や、バージョン管理などの文書管理のための処理などが挙げられる。ステップＳ７５は上記の各処理の処理結果を表示する表示処理である。表示内容を表示パターンに展開しバッファに出力するといった通常広く行われている処理である。
【００３８】
図９はステップＳ７４の一部である文書登録処理の詳細を示すフローチャートである。ステップＳ８１において、文書データベースに登録すべき文書をユーザに指定させる。ユーザはディスク上に存在する電子文書、あるいは紙文書を指定する。ステップＳ８２において、登録が指定された文書を文書データベースに登録する。紙文書が指定された場合は登録すべき紙文書をスキャナから読み取ってデジタル化し、ビットマップイメージを生成し、それを登録する。
【００３９】
ステップＳ８３において、登録された文書からレイアウト情報を抽出する。ここでは、登録文書を擬似的に印刷してビットマップイメージを生成し、そこから特徴を抽出して画像特徴量の形で格納する。紙文書をスキャナで読み取った場合は、そのビットマップイメージを用いてレイアウト情報を抽出できる。
【００４０】
ステップＳ８４において、登録文書の内部構造を追跡するなどしてテキスト情報を抽出し、文章内容情報を得る。ビットマップイメージなどで内部構造からテキスト情報が抽出できない場合は、ビットマップイメージに対して文字認識をかけ、ＯＣＲテキスト化して抽出する。抽出されたテキストから、類似単語単位で単語の出現度数を算出して文章内容情報として抽出し、図５で説明した如き文書ベクトルを作成する。ステップＳ８５では、ステップＳ８３で抽出されたレイアウト情報をその文書ＩＤと対応付ける形で図４に示したレイアウト類似検索索引１１３に登録し、索引を更新する。ステップＳ８６では、ステップＳ８４で抽出された文章内容情報をその文書ＩＤと対応付ける形で図５に示した文章内容類似検索索引１１４に登録し、索引を更新する。ステップＳ８７では、登録文書に含まれる単語の出現度数により図６に示した単語重要度テーブル１１５を更新する。
【００４１】
以上の処理により、文書が登録された文書データベース１１２と、これに対応したレイアウト類似検索索引１１３、文章内容類似検索索引１１４及び単語重要度テーブル１１５が形成される。
【００４２】
図９はステップＳ７４の一部である原本検索実行処理を説明するフローチャートである。まず、ステップＳ９１において原本検索のクエリである紙文書をスキャナで読み取り、ビットマップイメージ化する。ステップＳ９２においてスキャンされたビットマップイメージをブロック解析し、テキストブロック、画像ブロック等に分離する。ステップＳ９３において、ビットマップイメージに対して画像特徴量などのレイアウト情報を抽出する。ステップＳ９４においてテキストブロックから文字認識処理によりＯＣＲテキスト情報を抽出し、抽出されたテキストから、テキスト特徴データを抽出し、単語の出現度数を算出し文章内容情報として抽出し、クエリベクトルを作成する。ステップＳ９５において、クエリベクトルと文書データベースに登録されている文書の各文書ベクトルに対して文章内容類似度を計算し、更にレイアウト類似度も各文書に対して求め、総合類似度を算出する。ステップＳ９６において総合類似度に従って順位を確定し、第１候補を決定して出力する。
【００４３】
次に、ステップＳ９４の文章内容情報抽出処理について図１０のフローチャートを参照して説明する。ステップＳ１０１において内部構造の解析によりテキスト情報が抽出できるかどうか判定する。「内部構造の解析」とはファイルフォーマットの構造の解析を意味している。例えば、ＭＳ−ＷＯＲＤ（登録商標）のファイルからテキストデータを入手するにはＭＳ−ＷＯＲＤのファイルフォーマットの解析を行なってテキスト情報を抽出することになる。抽出できるときはステップＳ１０２に進み、文章内容情報を登録文書の内部構造を追跡するなどしてテキスト情報を抽出し、ステップＳ１０４に進む。ビットマップイメージなどで内部構造からテキスト情報が解析できない場合はステップＳ１０３に進み、ステップＳ１０３においてビットマップイメージに対して文字認識をかけ、ＯＣＲテキスト情報を抽出する。
【００４４】
その後ステップＳ１０４に進む。ステップＳ１０４において抽出されたテキストに形態素解析し、テキストを解析する。ステップＳ１０５において形態素解析において解析できない未知語の部分を特定し、抽出候補から排除する。ステップＳ１０６において未知語以外のテキストに含まれる単語で、特定品詞（名詞、固有名詞、サ変名詞）に属する単語に対して単語の出現度数を算出し、重要度でランキングする。ステップＳ１０７において単語ランキング順に所定個数のキーワードを抽出し、これらのキーワード（単語）とそれらの出現度数をテキスト特徴データとして出力する。なお、所定個数はシステムの都合により可変であり、検索実行において過大な処理負荷が掛からない個数が設定される。こうして得られたテキスト特徴データを用いて（２）式の演算を行なって文章内容類似度を算出する。すなわち、全単語について（２）式の演算を行なうと演算量が膨大となるので、ステップＳ１０７で抽出したキーワードを用いて類似度の計算を行ない、処理量を低減するのである。
【００４５】
なお、ステップＳ８４においても文章内容情報を抽出するが、このステップＳ８４の処理では上記ステップＳ１０６で得られた全単語の出現度数を図５の文章内容類似検索索引１１４に登録することになる。データベースへの文書登録時にキーワードを抽出しないのは、データベースへの文書登録によって単語重要度が変化する可能性があるからである。
【００４６】
（第２実施形態）
本発明は上述の実施形態に限定されるのではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【００４７】
例えば上述の第１実施形態においては、テキスト特徴データとして重要度順に抽出された単語のリストとしているが、これでは単語のリストのみが抽出されることになり、例えば、単語間の順序などの情報が失われてしまうことになる。そのために、第２実施形態では、テキスト特徴データとしてもできる限りテキスト情報を保存するために単語の出現順序を加味した複数単語の集合及びその出現度数を用いる。ここで、出現度数の算出負荷を低減するために、出現度数を算出する文書範囲を後述の如く選択された重要文とする。
【００４８】
図１１は第２実施形態におけるテキスト特徴データの例である。テキストブロック１１１、ＯＣＲテキスト情報１１２は、先の実施形態（図２）と同じであるが、最後のテキスト特徴データについては、文単位で重要文が抽出されている。重要文の抽出は、文を構成する単語の重要度ランキングに従って行われる。図１１の例ではもともと２文しかなかったが、各文を構成する未知語以外の特定品詞の単語（図中では下線で示される）について単語重要度が算出され、重要単語を多く含む文が抽出されている。
【００４９】
この場合の文章内容情報抽出の処理について図１２のフローチャートを参照して説明する。
【００５０】
図１２はステップＳ９４の文章内容情報抽出を詳細化したフローチャートである。ステップＳ１２１において内部構造の解析によりテキスト情報が抽出できるかどうか判定する。抽出できるときはステップＳ１２２に進み、文章内容情報を登録文書の内部構造を追跡するなどしてテキスト情報を抽出し、ステップＳ１２４に進む。一方、ビットマップイメージなどで内部構造からテキスト情報が解析できない場合はステップＳ１２３に進み、ビットマップイメージに対して文字認識をかけ、ＯＣＲテキスト情報を抽出する。その後ステップＳ１２４に進む。
【００５１】
ステップＳ１２４において抽出されたテキストを形態素解析する。ステップＳ１２５において形態素解析において解析できない未知語の部分を特定し、単語候補から排除する。ステップＳ１２６において未知語以外のテキストに含まれる単語で、特定品詞（名詞、固有名詞、サ変名詞）に属する単語に対して単語の出現度数を算出し、重要度でランキングし、更に重要な単語含む順に文をランキングする。ステップＳ１２７において文ランキング順に所定の分量に達するまで文を抽出し、テキスト特徴データとして出力する。所定の分量はシステムの都合により可変であり、検索実行において過大な処理負荷が掛からない分量（文の数、あるいは文に含まれる単語数）が設定される。
【００５２】
ステップＳ１２８では、抽出された文から単語ペアの出現度数を計数する。なお、この単語ペアでは単語の順番も考慮される。例えば図１１の１１３では、「従来」「モデル」の単語ペアが１つ存在するが、「モデル」「従来」の単語ペアは存在しない。このような単語ペアを用いて（２）式の類似度計算をすることで、単語の出現順序を加味した類似度判定が行なえる。
【００５３】
なお、データベースへの文書登録時における文章内容情報抽出（ステップＳ８４）の処理も上記図１２の処理が適用される。従って、文章内容類似検索索引１１４における文書ベクトルの各次元は単語ペアとなる。但し、新たな文書登録によるデータベースの更新に伴って単語の重要度が変化し、重要文が変化する可能性がある。従って、登録済みの文書に関して上記文章内容情報抽出を定期的に行なって文章内容類似検索索引１１４の内容を定期的に更新する必要があろう。
【００５４】
第２実施形態のように構成することで、もとのテキストの情報をある程度保ったままテキスト特徴データを抽出できるので、信頼性の高い原本検索を実現できる。
【００５５】
なお、第２実施形態において、単語ペアを用いずに、抽出した重要文の範囲で第１実施形態と同様に単語の出現度数を用いて類似度計算を行なってもよい。単語の順序は加味されないが、類似比較すべき単語を効果的に絞り込むことができる。
また、上記実施形態では、単語の出現度数を用いてテキスト特徴量を算出したが、文字の出現度数や文節の出現度数を用いてテキスト特徴量を計算することも可能である。
また、複数ページからなる文書の場合は、検索索引テーブルはページ単位で文書ベクトルを保持することになる。
【００５６】
以上の説明から明らかなように、上記各実施形態によれば、記録用紙に印刷された文書をスキャンしてイメージ文書を抽出して印刷前のオリジナルの文書を検索する原本検索手段を、ユーザが何かの検索クエリを指示することなく実現できるので、操作性の高い原本検索手段を提供できる。
【００５７】
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【００５８】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【００５９】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク，ハードディスク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭなどを用いることができる。
【００６０】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００６１】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００６２】
【発明の効果】
以上説明したように、本発明によれば、検索範囲指定等の煩わしい処理が不要となり、簡易な操作で、実用的な応答時間内で精度の高い原本検索を実現できる。
【図面の簡単な説明】
【図１】実施形態の文書検索装置の全体構成を示すブロック図である。
【図２】ブロック解析の例を示した図である。
【図３】ＯＣＲテキスト抽出、テキスト特徴データの例を示した図である。
【図４】実施形態の文書検索装置におけるレイアウト類似検索索引の構成を示した図である。
【図５】実施形態の文書検索装置における文章内容類似検索索引の構成を示した図である。
【図６】実施形態の文書検索装置における単語重要度テーブルの構成を示した図である。
【図７】実施形態の文書検索装置による処理手順の一例を示すフローチャートである。
【図８】文書登録処理の処理手順の一例を示すフローチャートである。
【図９】原本検索実行処理の処理手順の一例を示すフローチャートである。
【図１０】文章内容情報抽出の処理手順の一例を示すフローチャートである。
【図１１】テキスト特徴データの別の例を示した図である。
【図１２】文章内容情報抽出の処理手順の別の例を示すフローチャートである。

Claims

文書を検索する文書検索方法であって、
検索文書のイメージに対して文字認識処理を実行する文字認識工程と、
前記文字認識工程によって得られたテキストデータから単語を抽出し、各単語の出現度数に基づいてテキスト特徴情報を生成する第１生成工程と、
前記第１生成工程で生成されたテキスト特徴情報を用いて、複数の文書の各々についてテキスト特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索工程とを備えることを特徴とする文書検索方法。
前記第１生成工程は、前記テキストデータより抽出した単語のうち、前記保持手段に保持された複数の文書による単語の出現度数に基づいて決定された単語の重要度の順に所定数の単語を選択し、該選択された所定数の単語の当該テキストデータにおける出現度数に基づいてテキスト特徴情報を生成することを特徴とする請求項１に記載の文書検索方法。
前記検索文書のイメージに基づいてイメージ特徴情報を生成する第２生成工程を更に備え、
前記保持手段は複数の文書の各々についてテキスト特徴情報とイメージ特徴情報を保持し、
前記検索工程は、前記第１及び第２生成工程で生成されたテキスト特徴情報とイメージ特徴情報を用いて前記保持手段を検索し、複数の文書より前記検索文書に対応する文書を取得することを特徴とする請求項１に記載の文書検索方法。
前記検索工程は、前記複数の文書の各々と前記検索文書との間の類似度をテキスト特徴情報とイメージ特徴情報の夫々について求め、求めた類似度に基づいて検索結果を決定することを特徴とする請求項３に記載の文書検索方法。
前記検索工程は、テキスト特徴情報による類似度の算出結果とイメージ特徴情報による類似度の算出結果に対する重み付けを、前記文字認識処理の精度評価に基づいて変更することを特徴とする請求項４に記載の文書検索方法。
前記第１生成工程は、前記テキストデータから抽出された単語の重要度に基づいて該テキストデータから所定量の文を抽出し、ここで前記重要度は前記保持手段に保持された複数の文書による単語の出現度数に基づいて決定されたものであり、抽出された文に含まれる各単語の出現度数に基づいてテキスト情報を生成することを特徴とする請求項１に記載の文書検索方法。
前記第１生成工程は、前記抽出された文に含まれる各単語の出現順を加味した複数の単語の集合を単位とした出現度数に基づいてテキスト特徴情報を生成することを特徴とする請求項６に記載の文書検索方法。
文書を検索する文書検索装置であって、
検索文書のイメージに対して文字認識処理を実行する文字認識手段と、
前記文字認識手段によって得られたテキストデータから単語を抽出し、各単語の出現度数に基づいてテキスト特徴情報を生成する第１生成手段と、
前記第１生成手段で生成されたテキスト特徴情報を用いて、複数の文書の各々についてテキスト特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索手段とを備えることを特徴とする文書検索装置。
請求項１乃至７のいずれかに記載の文書検索方法をコンピュータに実行させるための制御プログラム。
請求項１乃至７のいずれかに記載の文書検索方法をコンピュータに実行させるための制御プログラムを格納するコンピュータ可読メモリ。