JP2004348591A

JP2004348591A - 文書検索方法及び装置

Info

Publication number: JP2004348591A
Application number: JP2003146776A
Authority: JP
Inventors: Eiichiro Toshima; 英一朗戸島
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-05-23
Filing date: 2003-05-23
Publication date: 2004-12-09
Also published as: US20040267734A1

Abstract

【課題】検索範囲指定等の煩わしい処理を不要とし、実用的な応答時間内で精度の高い原本検索を実現する。
【解決手段】所謂原本検索処理において、検索文書のイメージに対して文字認識処理を実行し、得られたテキストデータから誤認識と推定される単語に対して所定の処理が加えられる（Ｓ１００３〜Ｓ１００５）。例えば、得られたテキストデータを形態素解析して所定品詞の単語として抽出された文字列のうちのキーワード辞書に登録されていない単語が除去される。そして、誤認識と推定される単語が除去されたテキストデータに基づいてテキスト特徴情報が生成される（Ｓ１００６）。このようにして生成されたテキスト特徴情報をクエリとして、複数の文書の各々についてテキスト特徴情報を保持するデータベースを検索し、該複数の文書より当該検索文書に対応する文書が取得される。
【選択図】図１０

Description

【０００１】
【発明の属する技術分野】
本発明は、コンピュータで扱われる電子文書データを検索するための文書検索装置、文書検索方法及び記録媒体に関するものである。
【０００２】
【従来の技術】
近年、パーソナルコンピュータ（ＰＣ）の普及に伴い、文書の作成は文書作成ソフトなどのＰＣ上のアプリケーションソフトを用いて行われるのが一般的となった。具体的には、ＰＣの画面上で各種書類等を作成、編集、複写、検索等をすることが広く行われている。
【０００３】
また、ネットワークの発展と普及に伴い、このようにＰＣ上で作成された電子的な文書データ（電子文書データ）が、プリンタ等を用いて出力された紙文書として配布されずに、電子文書データのまま配布される機会も増えている。すなわち、他のＰＣ等からアクセスされたり、電子メール等で送信・配布されることにより、電子文書データのまま扱うことが行われるようになり、ペーパーレスの文書作成環境が進みつつある。
【０００４】
このような電子文書データは、文書管理システムを構築してコンピュータによって体系的に管理されるようになってきたこともあり、共通化による情報量削減、文書間関連付けによるアクセスの容易性、多人数による情報の共有などにおいて極めて効果の高いものである。一方、紙文書にも、電子文書データと比較して、読みやすさ、扱いやすさ、持ち運びの利便性、直感的分かり易さ等において大きな利点がある。そのため、電子文書データを作成しても、プリンタ装置等を用いて紙文書に出力して利用するほうが効率的な場合も依然として多い。そこで紙文書と電子文書は、互いに相補的関係を築き、両者が併用して流通しているのが現状である。
【０００５】
紙文書は参照に関しては極めて便利なので、様々な局面で配布されるが、単に参照するだけでなく、その文書を再編集／再利用したいと思う場合も多い。従来は、このような場合、電子文書データファイルを別途人手を介して入手し、これを編集するということが行われており、文書の再利用性を阻害する原因となっていた。
【０００６】
このような紙文書と電子文書の遊離問題を解決するために、印刷された紙文書をスキャンし、その情報（スキャンデータ）をもとにその紙文書が印刷される元となったオリジナルの電子文書データを検索するという検索手法も提案されている。ここではそのような検索手法を原本検索と呼ぶ。このような原本検索の具体的な手法は例えば特許文献１や特許文献２において提案されている。また、特許文献３にはキーワード検索のための文書解析技術が記載されている。
【０００７】
【特許文献１】
特開２００１−２５６５６号公報
【特許文献２】
特開平３−２６３５１２号公報
【特許文献３】
特開２００１−０２２７７３号公報
【０００８】
【発明が解決しようとする課題】
例えば、特許文献１では、紙文書のラスタ画像データから抽出された特徴量と、予め電子文書データを展開したラスタ画像データから抽出された特徴量との類似性を判断して、元の電子文書データを検索する手法を提案している。この提案においては、画像ベースで文書を比較するので、アプリケーションがラスタ画像を生成する際にある程度厳密な不変性が要求される。ところが、現実のシステム（アプリケーション）においては、レイアウトを厳密に一致させてラスタ画像を生成することが困難である場合も多い。過去には、アプリケーションあるいはＯＳのバージョンが変わった際にレイアウトが多少崩れることはかなり頻繁に発生してきた。このようにレイアウトの不変性が確保できない場合、たとえ内容が全く同じでも元文書が検出できなくなってしまう。
【０００９】
また、例えば、特許文献２は、記録用紙に記録されている文書をスキャナで読取ってデジタル化して文字認識し、更にユーザが文字認識された文字列から特徴的な文字列を検索範囲として指定し、内容および位置関係が一致する文書を検索するというものである。しかしながら、この提案では、スキャンされ文字認識された文書からユーザが文字列を指定しなければならず、検索範囲の指定というわずらわしさが残るという課題がある。また、検索範囲の指定というわずらわしさが残るという欠点があるだけでなく、そもそも、文字認識にはある程度の誤認識が含まれるので指定できる範囲が存在しないことさえありうる。そのような場合も想定して誤認識を回避するためには、一般にあいまいマッチングを採用するが、クエリとして指定する範囲を広く取れば比較に相当な処理負担がかかり、また範囲を狭く取れば不要な検索結果が多く含まれることになり精度が出ず、いずれにしても現実的ではない。すなわち、紙文書から文字認識されたテキストをクエリとして検索するには、現実的応答性能を得るために、単純なマッチング処理では解決できない、もう一段の工夫が求められる。
【００１０】
また、特許文献３では、イメージ文書からキーワードを抽出して付与する際に、文字認識の確信度が所定値以下の文字を誤認文字とし、誤認文字を所定割合で含む文字列をキーワードとしないことが記載されている。しかしながら、特許文献３は、所謂キーワード検索のためのキーワード付与が記載されているのみで、原本検索に対応したものではない。
【００１１】
本発明は、上記課題に鑑みてなされたものであり、検索範囲指定等の煩わしい処理を不要とし、実用的な応答時間内で精度の高い原本検索を実現可能とすることを目的とする。
【００１２】
【問題点を解決するための手段】
上記の目的を達成するために本発明による文書検索方法は、
文書を検索する文書検索方法であって、
検索文書のイメージに対して文字認識処理を実行する文字認識工程と、
前記文字認識工程によって得られたテキストデータから誤認識と推定される単語もしくは文字に対して所定の処理を加える誤認識文字処理工程と、
前記誤認識文字処理工程による処理後のテキストデータに基づいてテキスト特徴情報を生成する生成工程と、
前記生成工程で生成されたテキスト特徴情報をクエリとして、複数の文書の各々についてテキスト特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索工程とを備える。
【００１３】
また、上記の目的を達成するための本発明による文書検索装置は、
文書を検索する文書検索装置であって、
検索文書のイメージに対して文字認識処理を実行する文字認識手段と、
前記文字認識手段によって得られたテキストデータから誤認識と推定される単語もしくは文字に対して所定の処理を加える誤認識文字処理手段と、
前記誤認識文字処理手段による処理後のテキストデータに基づいてテキスト特徴情報を生成する生成手段と、
前記生成手段で生成されたテキスト特徴情報をクエリとして、複数の文書の各々についてテキスト特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索手段とを備える。
【００１４】
【発明の実施の形態】
以下、図面を参照しながら本発明に好適な実施形態を詳細に説明する。
【００１５】
（第１実施形態）
図１は本実施形態による文書検索装置の構成を示すブロック図である。図１の構成において、１０１はマイクロプロセッサ（ＣＰＵ）であり、文書検索処理のための演算、論理判断等を行い、バス１０９を介してバスに接続された各構成要素を制御する。１０９はバス（ＢＵＳ）であり、ＣＰＵ１０１の制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。
【００１６】
１０３は書込み可能なランダムアクセスメモリ（ＲＡＭ）であり、各構成要素からの各種データの一次記憶等に用いる。１０２は読出し専用の固定メモリ（ＲＯＭ）であり、ＣＰＵ１０１によって実行されるブートプログラム等を記憶する。なお、ブートプログラムはシステム起動時にハードディスク１１０に記憶された制御プログラム１１１をＲＡＭ１０３にロードし、ＣＰＵ１０１に実行させる。この制御プログラム１１１については、後にフローチャートを参照して詳述する。
【００１７】
１０４は入力装置であり、キーボードやポインティングデバイス（本例ではマウス等）を備える。１０５は表示装置であり、ＣＲＴ、あるいは液晶ディスプレイ等が挙げられる。表示装置１０５にはＣＰＵ１０１による表示制御の下、各種表示がなされる。１０６はスキャナであり、紙文書を光学的に読み取ってデジタル化する等の処理を行う。
【００１８】
１１０はハードディスク（ＨＤ）であり、ＣＰＵ１０１により実行される制御プログラム１１１、検索等の処理が行われる対象となる文書を記憶した文書データベース１１２、レイアウト類似検索を行う際にインデックスとして使用されるレイアウト類似検索索引１１３、文章内容類似検索を行う際にインデックスとして使用される文章内容類似検索索引１１４、文章内容類似検索を行う際の各単語の重要度に関するデータを格納した単語重要度テーブル１１５、キーワード辞書１１６等が格納される。
【００１９】
１０７はリムーバブル外部記憶装置であり、フレキシブルディスクやＣＤ、ＤＶＤ等の外部記憶にアクセスするためのドライブである。リムーバブル外部記憶装置１０７はハードディスク１１０と同様に使用でき、それらの記録媒体を通じて他の文書処理装置とのデータ交換を行える。なお、ハードディスク１１０に記憶される制御プログラムは、これらの外部記憶装置から必要に応じてハードディスク１１０にコピーすることもできる。１０８は通信装置であり、本実施形態ではネットワークコントローラである。通信装置１０８は通信回線を介して外部とのデータ交換をう。
【００２０】
以上のような構成を備えた本実施形態の文書検索装置においては、入力装置１０４からの各種の入力に応じて対応する処理が作動する。すなわち、入力装置１０４からの入力が供給されると、まずインタラプト信号がＣＰＵ１０１に送られ、それに伴って、ＣＰＵ１０１がＲＯＭ１０２またはＲＡＭ１０３内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。
【００２１】
図２は本実施形態において行われるブロック解析の例を説明した図である。スキャンイメージ２０１は紙文書がスキャナ１０６によって読み取られ、デジタル化された文書イメージである。ブロック解析は、この文書イメージを性質に応じた矩形ブロックに分割する技術である。図２の場合、ブロック解析がかけられると３つのブロックに分割される。１つは内部に文章（テキスト）が含まれるテキストブロック２１１となり、残りの２つはテキスト以外の情報（グラフ、写真など）が含まれるため画像ブロック２１２、２１３となる。テキストブロック２１１に対して文字認識がかけられテキストが抽出されるが、画像ブロック２１２、２１３からはテキスト情報は抽出されない。
【００２２】
図３はテキストブロックから抽出されるＯＣＲテキスト情報、及びＯＣＲテキスト情報からキーワード抽出により抽出された、誤認識が除去されたキーワードデータを説明した図である。
【００２３】
スキャンイメージのテキストブロック３０１に対して文字認識処理がかけられ、ＯＣＲテキスト情報３０２としてテキストデータが抽出される。文字認識処理であるため１００％正確な認識が行われるとは限らず、ＯＣＲテキスト情報３０２には誤認識データが含まれることになる。図３では、例えば“ＢＪシリーズ”となるべき文字列は“８○シリーズ”となり、“超写真画質”となるべき文字列は“超写真白質”となってしまっている。原本検索においてはこのような誤認識されている文字列と原本中の正しい文字列とのマッチングをとる必要があり、単純なマッチング手法ではマッチングがとれないか、とろうとすると処理負担が極端に増加してしまう。
【００２４】
そこで、本実施形態では、ＯＣＲテキスト情報３０２に対して誤認識部分を除去する。図３ではキーワード抽出に基づく誤認識除去の例が示されている。本実施形態では解析可能なキーワードのリスト（キーワード辞書１１６）が予め用意されており、このキーワードリストを参照することにより、ＯＣＲテキスト情報３０２に含まれるキーワードが抽出キーワードデータ３０３としてリストアップされる。キーワード辞書１１６に載っているキーワードのみがリストアップされるので、未知語などは除外され、この段階で誤認識の大多数は除去されていることになる。なお、キーワード辞書１１６は、ドキュメントの特徴を把握しやすいように特定の品詞（名詞、固有名詞、サ変名詞）の単語のみが登録されている。図示の例では、「写真」「追求」などがピックアップされ、キーワード辞書１１６にない「８○」「白質」等は除外されている。
【００２５】
図４はレイアウト類似検索索引の構成例を示した図である。レイアウト類似検索索引１１３は、レイアウトに基づく類似検索を行うためのインデックス情報である。文書データベースに登録されている各文書（ユニークな文書ＩＤで識別される）に対応して、レイアウト特徴量が記憶される。レイアウト特徴量はレイアウトの類似性を判定するための情報である。例えば、文書を印刷した場合のビットマップイメージを縦ｎ個、横ｍ個の矩形に分割し、各矩形の平均の輝度情報と色情報を記憶した画像特徴量などが考えられる。類似検索を行うための画像特徴量の例については、例えば、特開平１０−２６０９８３号公報において提案されたものを適用できる。なお、上記のブロック解析によって得られたテキストブロックや画像ブロックの位置／サイズをレイアウト特徴量として用いることも可能である。
【００２６】
電子文書のレイアウト特徴量は、文書登録時に擬似的な印刷処理を行うことにより文書のビットマップイメージを作成し、該ビットマップデータに基づいて作成される。また、スキャンされた文書のレイアウト特徴量は、スキャンされ、デジタル化されたスキャンイメージに基づいて作成される。レイアウト類似検索を行う際には、スキャンされた文書からレイアウト特徴量が作成され、このレイアウト類似検索索引１１３に記憶される各文書のレイアウト特徴量に対して１件ずつレイアウト類似度が計算されるのである。
【００２７】
図５は文章内容類似検索索引の構成例を示した図である。文章内容類似検索索引１１４は、文章内容の類似性に基づく類似検索を行うためのインデックス情報である。文書データベースに登録されている各文書に対応して、文書ベクトルが記憶される。文書ベクトルは文章内容の類似性を判定するための情報である。ここでは、文書ベクトルの次元を単語とし、文書ベクトルの各次元の値をその単語の出現度数とする。ただし、１単語を正確に１次元とせず、同一あるいは類似の単語群を１つの次元として文書ベクトルを構成する。例えば図５では、次元２に対して「写真」「フォト」の２つの単語が対応している。各単語に対してその文書に含まれる出現度数が記憶される。
【００２８】
なお、１つの文書に複数のテキストブロックが存在する場合は、複数のテキストブロックから抽出されるＯＣＲテキスト情報の全てがまとめられて集計され、１つの文書ベクトルが作成される。
【００２９】
また、原本検索を行う際には、検索クエリとなるスキャンされた文書からも、ここに格納される文書ベクトルと同じ形式のベクトルデータ（クエリベクトル）が作成され、各文書の文書ベクトルに対して１件ずつ文章内容類似度が計算されることになる。
【００３０】
図６は単語重要度テーブルの構成例を示す図である。単語重要度テーブル１１５は、文章内容の類似性を判定する上での、各単語の重要度を示すテーブルである。このテーブルにおいては、文書データベース全体に対して、各単語の出現する度数を記憶する。
【００３１】
各単語の重要度ｗ_ｋは、この単語重要度テーブル１１５によって格納された度数の逆数によって算出される。すなわち、
ｗ_ｋ＝１／（文書データベース全体におけるその単語ｋの出現度数） …（１）
によって表される。ただし、出現度数が０の場合は単語の重要度は０とする。これは文書データベースに出現しない単語は類似性判定には役に立たないことからである。重要度が度数の逆数をとる理由は、多くの文書に出現するようなありふれた単語は、文章内容の類似性を判定する上では相対的に重要性が低いという観点に従ったものである。
【００３２】
次に、本実施形態による文書の類似性判定を行う際の、類似度算出について説明する。文書ベクトルをＸ（Ｘ＝（ｘ_１，ｘ_２，ｘ_３，…，ｘ_ｎ））、クリエベクトルをＱ（Ｑ＝（ｑ_１，ｑ_２，ｑ_３，…，ｑ_ｎ））、単語ｋの重要度をｗ_ｋとした場合、文章内容類似度ＴＳ（Ｘ，Ｑ）は以下の（２）式により求められる。
【００３３】

【００３４】
すなわち、文章内容類似度ＴＳ（Ｘ，Ｑ）は、比較する２つの文書について、すべての単語（すなわち文章内容類似検索索引１１４の文書ベクトルの全次元（ｋ＝１からｋ＝ｎ））の出現度数の差の絶対値にその単語の重要度を乗じたものを積算し、そのマイナスの値で表現する。マイナスにするのは出現度数の差が大きいほど文章内容類似度が低いからである。この文章内容類似度の値が大きいほど類似性が高いと判定される。なお、レイアウト類似度についても、同様に類似度の値が大きいほど類似性が高いように設定される。
【００３５】
次に、総合類似度Ｓは基本的には文章内容類似度ＴＳとレイアウト類似度ＬＳを加算したものであるが、それぞれの類似度算出の重要性に応じて、重みαとβが乗じて加算される。すなわち、
Ｓ＝α×ＴＳ＋β×ＬＳ …（３）
により算出される。
【００３６】
（３）式において、 αは文章内容情報に対する重みであり、βはレイアウト情報に対する重みである。αとβの値は可変であり、文章内容情報の信頼性が低いときは文章内容の重みαの値が小さくなる。αとβの値は可変であり、文章内容情報の信頼性（例えば、文書中のテキストブロックに十分なテキストが存在するかどうか、また、テキストがうまく文字認識されたかどうか（文字認識の精度評価）に基づいて信頼性を評価することができる）が低いときは文章内容の重みαの値が小さくなるように適宜定められる。例えば、文章内容情報の信頼性が十分高い場合は、α＝１、β＝１とし、文章内容が信頼できないときは、α＝０．１、β＝１などと設定する。なお、レイアウト情報は、どのような文書でもレイアウト自体は必ず存在し、また、解析結果が大きく損なわれることもないので、情報自体の信頼性が大きく変動することはない。従って、本例でも重みβを一定にしている。
【００３７】
なお、文章内容情報の信頼性（文字認識の精度）の評価には形態素解析などの言語解析を利用することが挙げられる。このとき言語解析が正常に行われたかどうかが分かる情報、例えば、解析エラー率を求めることで精度評価を行なえる。なお、解析エラー率の１つの実施形態としては、解析により発生した未知語（辞書に登録されていない単語）の全単語数に占める割合に基づいて求めた値が挙げられる。あるいは別の方法として、未知語文字列が全文字数に占める割合で求める。或いは、もっと簡便な方法として以下の方法を用いてもよい。例えば、標準的な日本語の文字単位の統計データを予め備え、スキャンされた文書に対しても同様の統計データを作成する。これが標準の日本語文章に比べて大きく乖離していれば、異常な文書であると見なし、文字認識結果の信頼性が低いと判定する。このように構成することで、コンピュータにとって負荷の高い言語解析処理を回避でき、より負荷の少ない統計処理で代用することができる。このため、より貧弱なコンピュータ環境においても文字認識の信頼性評価を行うことができ、より安価な原本検索が実現できる。
【００３８】
以上の動作をフローチャートに従って説明する。図７は本実施形態による文書検索装置の動作、より具体的にはＣＰＵ１０１の処理手順を示すフローチャートである。
【００３９】
ステップＳ７１はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示等を行う処理である。ステップＳ７２はキーボード等の入力装置から何らかのキーが押下され、割り込みが発生するのをＣＰＵ１０１において待つ処理である。キーが打鍵されると、ステップＳ７３においてマイクロプロセッサＣＰＵがこのキーを判別し、キーの種類に応じて各種の処理に分岐する。各種キーに対応した分岐先の複数の処理をステップＳ７４という形でまとめて表現している。図８、図９で詳述する文書登録処理、原本検索実行処理がこの分岐先の一部となる。他の処理としては、本明細書では詳細な記述を省略するが、キーボードからクエリ文字列を打ち込んで検索する処理や、バージョン管理などの文書管理のための処理などが挙げられる。ステップＳ７５は上記の各処理の処理結果を表示する表示処理である。表示内容を表示パターンに展開しバッファに出力するといった通常広く行われている処理である。
【００４０】
図８はステップＳ７４の一部である文書登録処理を詳細化したフローチャートである。ステップＳ８１において、文書データベースに登録すべき文書をユーザに指定させる。ユーザはディスク上に存在する電子文書データ、あるいは紙文書を指定する。ステップＳ８２において、登録が指定された文書を文書データベースに登録する。紙文書が指定された場合は登録すべき紙文書をスキャナから読み取ってデジタル化し、ビットマップイメージを生成し、それを登録する。ステップＳ８３において、ビットマップイメージの場合はブロック解析し、テキストブロック、画像ブロック等に分離する。ステップＳ８４では登録された文書からレイアウト情報を抽出する。なお、登録文書がワードプロセッサ等で作成されたデータであった場合は、擬似的に印刷を実行してビットマップイメージを生成し、そこから特徴を抽出して画像特徴量の形で抽出する。
【００４１】
ステップＳ８５では、図９に詳述するように、登録された文書からテキスト情報を抽出（紙文書の場合はテキストブロックからＯＣＲテキストを抽出）する。ＯＣＲテキスト抽出のときは、抽出されたテキストから誤認識文字を除去し、文章内容情報として文書ベクトルを作成する。ステップＳ８６において、ステップＳ８４で抽出されたレイアウト情報をその文書ＩＤと対応付ける形でレイアウト類似検索索引に登録し、索引を更新する。ステップＳ８７において、ステップＳ８５で抽出された文章内容情報をその文書ＩＤと対応付ける形で文章内容類似検索索引に登録し、索引を更新する。ステップＳ８８において、登録文書に含まれる単語の出現度数を単語重要度テーブルに追加し、テーブルを更新する。
【００４２】
図９はステップＳ７４の一部である原本検索実行処理を詳細化したフローチャートである。
【００４３】
まず、ステップＳ９１において原本検索のクエリである紙文書をスキャナで読み取り、ビットマップイメージ化する。ステップＳ９２においてスキャンされたビットマップイメージをブロック解析し、テキストブロック、画像ブロック等に分離する。ステップＳ９３において、ビットマップイメージに対して画像特徴量などのレイアウト情報を抽出する。ステップＳ９４においてテキストブロックから文字認識処理によりＯＣＲテキスト情報を抽出し、抽出されたテキストからキーワード辞書１１６を参照して単語を抽出することで誤認識文字を除去し、文章内容情報としてクエリベクトルを作成する。ステップＳ９５において、クエリベクトルと文書データベースに登録されている文書の各文書ベクトルに対して文章内容類似度を計算し、更にレイアウト類似度も各文書に対して求め、総合類似度を算出する。ステップＳ９６において総合類似度に従って順位を確定し、第１候補を決定して出力する。
【００４４】
図１０はステップＳ８５、Ｓ９４の文章内容情報抽出を詳細化したフローチャートである。ステップＳ１００１においてファイルフォーマットの解析によりテキスト情報が抽出できるかどうか判定する。抽出できるときはステップＳ１００２に進み、文書のファイルフォーマットを追跡するなどしてテキスト情報を抽出し、ステップＳ１００４に進む。ビットマップイメージなどでファイルフォーマットの解析からはテキスト情報が抽出できない場合はステップＳ１００３に進む。ステップＳ１００３においてビットマップイメージに対して文字認識をかけ、ＯＣＲテキスト情報を抽出する。その後ステップＳ１００４に進む。
【００４５】
ステップＳ１００４において抽出されたテキストに形態素解析を施し、テキストを解析する。ステップＳ１００５においてキーワード辞書１１６に登録されているキーワードを、ステップＳ１００２或いはＳ１００３で得られたテキスト情報から抽出し、抽出キーワードデータを作成する。キーワード辞書１１６はもともと特定品詞（名詞、固有名詞、サ変名詞）に属する単語のみが登録されており、自動的に特定品詞の単語のみが抽出されることになる。ステップＳ１００７において抽出キーワードデータに基づいてベクトル化を行い、出力する。
【００４６】
以上説明したように、第１実施形態によれば、キーワード辞書の登録語によって文書ベクトルを作成し、これを原本検索に用いるので、誤認識文字が削除された状態で原本検索を実行でき、検索精度を向上させることができる。
【００４７】
（第２実施形態）
なお、本発明は上述の実施形態に限定されるのではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。
【００４８】
上述の第１実施形態においては、キーワード辞書に記載された単語のみを抽出することにより誤認識文字を排除しているが、これでは単語のリストのみが抽出されることになり、例えば、単語間の順序などの情報が失われてしまうことになる。そこで、第２実施形態ではキーワードのみを抽出する代わりに、形態素解析の結果、未知語と判定された部分をテキストから除去した文を用い、できる限りテキスト情報を保持するように構成する。
【００４９】
図１１は第２実施形態における誤認識文字除去の例である。テキストブロック１１０１、ＯＣＲテキスト情報１１０２は上記第１実施形態（図３）と同じであるが、最後の誤認識除去の手法として未知語の除去を採用している。例えば、原文のテキストブロックにおいては「Ｆ９００」「画質」などの単語が含まれるが、これらはＯＣＲテキスト情報においては誤認識されている。誤認識を含む単語は、当然のことながら、解析辞書に登録されないので未知語となり、誤認識除去テキストデータから除去される。図中、未知語と判定された部分は下線で示されている。
【００５０】
図１２はこのような第２実施形態の文章内容情報抽出の処理を示すフローチャートである。図１２はステップＳ８５、Ｓ９４の文章内容情報抽出を詳細化したフローチャートである。
【００５１】
ステップＳ１２０１においてファイルフォーマットの解析によりテキスト情報が抽出できるかどうか判定する。抽出できるときはステップＳ１２０２に進み、文書のファイルフォーマットを追跡するなどしてテキスト情報を抽出し、ステップＳ１２０４に進む。一方、ビットマップイメージなどでファイルフォーマットの解析からはテキスト情報が抽出できない場合はステップＳ１２０３に進む。ステップＳ１２０３において、ビットマップイメージに対して文字認識をかけ、ＯＣＲテキスト情報を抽出する。その後ステップＳ１２０４に進む。ステップＳ１２０４では、ステップＳ１２０２或いはＳ１２０４で得られたテキストに形態素解析を施し、テキストを解析する。そして、ステップＳ１２０５において形態素解析において解析できない未知語の部分を特定し、それらを当該テキストから除去する。そして、ステップＳ１２０６以降において未知語が除去されたテキストに基づいて、含まれる単語をカウントし、ベクトル化を行い、出力する。
【００５２】
第２実施形態では、類似性判定の際には各単語の出現度数だけでなく、単語の出現順序を加味するように類似度を求め判定するため、ステップＳ１２０６以降を以下のように構成する。
【００５３】
ステップＳ１２０６において、ステップＳ１２０５で得られたテキストに含まれる単語で、特定品詞（名詞、固有名詞、サ変名詞）に属する単語に対して単語の出現度数を算出し、重要度でランキングし、更に重要な単語を含む順に文をランキングする。ステップＳ１２０７において文ランキング順に所定の分量に達するまで文を抽出し、テキスト特徴データとして出力する。所定の分量はシステムの都合により可変であり、検索実行において過大な処理負荷が掛からない分量（文の数、あるいは文に含まれる単語数）が設定される。
【００５４】
ステップＳ１２０８では、抽出された文から単語ペアの出現度数を計数する。なお、この単語ペアでは単語の順番も考慮される。例えば図１１の１１３では、「従来」「モデル」の単語ペアが１つ存在するが、「モデル」「従来」の単語ペアは存在しない。このような単語ペアを用いて（２）式の類似度計算をすることで、単語の出現順序を加味した類似度判定が行なえる。
【００５５】
なお、データベースへの文書登録時における文章内容情報抽出（ステップＳ８５）の処理にも上記処理が適用されるので、文章内容類似検索索引１１４における文書ベクトルの各次元は単語ペアとなる。但し、新たな文書登録によるデータベースの更新に伴って単語の重要度が変化し、重要文が変化する可能性がある。従って、登録済みの文書に関して上記文章内容情報抽出を定期的に行なって文章内容類似検索索引１１４の内容を定期的に更新する必要があろう。
【００５６】
以上の第２実施形態のように構成することで、もとのテキストの情報をある程度保ったままテキスト特徴データを抽出できるので、信頼性の高い原本検索を実現できる。
【００５７】
なお、第２実施形態において、単語ペアを用いずに、抽出した重要文の範囲で第１実施形態と同様に単語の出現度数を用いて類似度計算を行なってもよい。単語の順序は加味されないが、類似比較すべき単語を効果的に絞り込むことができる。
【００５８】
（第３実施形態）
また、誤認識除去の手法として、ＯＣＲテキストに対して認識支援（英語ではスペルコレクタ）をかける手法も考えられる。これまでの手法は誤りの可能性のある部分を排除するだけなので、誤認識が多すぎる場合は、抽出されない単語、除去される単語が多くなりすぎると検索精度が劣化してしまう。そこで、第３実施形態では、除去するだけでなく、誤認識が正しくなるように積極的に訂正を施し、検索精度の劣化を防止する。
【００５９】
図１３は第３実施形態における誤認識除去の例である。テキストブロック１３０１、ＯＣＲテキスト情報１３０２は、第１及び第２実施形態と同じであるが、最後の誤認識除去の手法として認識支援を採用している。なお、認識支援による単語の訂正については例えば特開平２−１１８７８５号公報に開示された手法を用いることができる。
【００６０】
例えば、原文のテキストブロックにおいては“Ｆ９００”“画質”などの単語が含まれるが、これらはＯＣＲテキスト情報においては“「９００”“白質”などと誤認識されている。このようなＯＣＲテキストに認識支援をかける、例えば、正しい単語が登録された認識支援辞書と比較してある程度一致すれば、登録された単語に訂正する処理をかけることにより“Ｆ９００”“画質”と補正することができる。なお、“画質”は通常の単語なので、認識支援辞書に登録することは容易であるが、“Ｆ９００”はそのユーザだけの特殊単語なので、一般的な認識支援辞書に登録されていることは期待できない。このような単語はユーザが個別に登録することのできる辞書（所謂ユーザ辞書）を設けることで対応することになる。以上のように構成することで、誤認識があっても元のテキストの量をある程度保ったまま誤認識を除去できるので、信頼性の高い原本検索を実現できる。
【００６１】
なお、第３実施形態による形態素解析結果の単語訂正処理は第１実施形態、第２実施形態のいずれにも適用できる。
【００６２】
（第４実施形態）
また、誤認識除去の手法として、文字認識時の認識尤度を利用して文字単位に誤認識文字を除去するという手法も考えられる。上記第１乃至第３実施形態では、単語単位で誤りの可能性のある部分を排除したり訂正したりしていたが、これでは単語単位の処理を行わなければならず、例えば形態素解析などの自然言語解析処理が含まれることになり、処理負担が重いものになってしまう。そこで、文字単位に誤認識を除去するように構成し、除去する根拠としてＯＣＲの認識尤度を用いるのである。ＯＣＲは誤認識文字に対してある程度誤認識の可能性を検知しており、この誤認識の可能性はＯＣＲ尤度という尺度で定量的に出力されている。そこで、第４実施形態では、ＯＣＲ尤度がある一定の水準に達しない文字を誤認識と見なして一律に除去する。また、同時に類似性の判定基準を単語ベースではなく文字ベースとすることで処理フローから形態素解析を追放し、システムの処理負荷の軽減を図る。
【００６３】
図１４は第４実施形態における誤認識除去の例である。テキストブロック１４０１、ＯＣＲテキスト情報１４０２は、先の第１乃至第３実施形態と同じであるが、最後の誤認識除去の手法としてＯＣＲ尤度による誤認識文字除去を採用している。例えば、原文のテキストブロックにおいては“Ｆ９００”“画質”などの単語が含まれるが、これらはＯＣＲテキスト情報においては“「９００”“白質”などと誤認識されている。“「”や“白”に対するＯＣＲ尤度は十分高いわけでないので、除去することができ、その結果、誤認識（の可能性のある）文字のみが除去された誤認識除去テキストデータが生成される。図中、ＯＣＲ尤度が低いと判定された文字は下線で示されている。
【００６４】
図１５から図１８は第４実施形態におけるシステムに対し第１実施形態からの差分を説明したものである。
【００６５】
図１５は第４実施形態に基づくシステムの構成を示すブロック図である。図１で示した構成に対して、単語重要度テーブル１１５の代わりに文字重要度テーブル１５０２が保持される。また、文章内容類似検索索引１５０１の文書ベクトルは文字を次元としたテーブルとなる。
【００６６】
図１６は第４実施形態による文章内容類似検索索引１５０１の構成を示した図である。図５の文章内容類似検索索引１１４が単語を次元として文書ベクトルを構成しているのに対し、図１６の文章内容類似検索索引１５０１では文字を次元として構成している。例えば図１６では、次元２に対して「写」、次元４に対して「真」、次元５に対して「追」、次元８に対して「求」の文字が対応し、各文字に対してその文書に含まれる出現度数が記憶される。
【００６７】
また、文章内容の類似性を判定する上での、各文字の重要度を示す文字重要度テーブル１５０２は、図６に示した単語重要度テーブルと類似の構成を有する。但し、図６が単語単位で出現度数を記憶するのに対し、文字重要度テーブル１５０２では文字単位で出現度数が記憶される。すなわち、この文字重要度テーブル１５０２においては、文書データベース全体に対して、各文字の出現する度数が記憶される。
【００６８】
また、文書の類似性判定を行う際の類似度算出も、上記式（１）及び（２）により算出される。但し、これら式（１）、（２）において、ｗ_ｋは単語ｋの重要度ではなく文字ｋの重要度を表し、文書ベクトルＸ（Ｘ＝（ｘ_１，ｘ_２，ｘ_３，…，ｘ_ｎ））、クリエベクトルＱ（Ｑ＝（ｑ_１，ｑ_２，ｑ_３，…，ｑ_ｎ））の各要素はそれぞれの文字の出現度数となる。
【００６９】
図１７はステップＳ７４の一部である文書登録処理を詳細化したフローチャートである。ステップＳ１７０１からステップＳ１７０７までは図８のステップＳ８１からステップＳ８７と同じである。ステップＳ１７０８では、登録文書に含まれる文字の出現度数を文字重要度テーブルに追加し、テーブルを更新する。なお、原本検索処理は図９のフローチャートによって示される処理と同様である。
【００７０】
図１８はステップＳ１７０５、Ｓ９４の文章内容情報抽出を詳細化したフローチャートである。ステップＳ１８０１においてファイルフォーマットの解析によりテキスト情報が抽出できるかどうか判定する。抽出できるときはステップＳ１８０２に進み、文書のファイルフォーマットを追跡するなどしてテキスト情報を抽出し、ステップＳ１８０５に進む。ビットマップイメージなどでファイルフォーマットの解析からはテキスト情報が抽出できない場合はステップＳ１８０３に進み、ビットマップイメージに対して文字認識をかけ、ＯＣＲテキスト情報を抽出する。その後ステップＳ１８０４に進む。ステップＳ１８０４においてＯＣＲ尤度がある一定水準に達しない文字を誤認識文字とみなし、テキストから除去する。ステップＳ１８０５において、ステップＳ１８０２で得られたテキスト、ステップＳ１８０４で誤認識文字が除去されたＯＣＲテキストに基づいて、含まれる文字をカウントし、ベクトル化を行い、出力する。
【００７１】
このように構成することで、形態素解析を行うことなく、誤認識文字を除去できるので、処理付加が軽くて信頼性の高い原本検索を実現できる。
【００７２】
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【００７３】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【００７４】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク，ハードディスク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭなどを用いることができる。
【００７５】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００７６】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００７７】
【発明の効果】
以上の説明から明らかなように、本発明によれば、検索範囲指定等の煩わしい処理が不要となり、実用的な応答時間内で精度の高い原本検索を実現すること可能となる。
【図面の簡単な説明】
【図１】実施形態の文書検索装置の全体構成を示すブロック図である。
【図２】ブロック解析の例を示した図である。
【図３】ＯＣＲテキスト抽出、誤認識除去の例を示した図である。
【図４】実施形態の文書検索装置におけるレイアウト類似検索索引の構成を示した図である。
【図５】実施形態の文書検索装置における文章内容類似検索索引の構成を示した図である。
【図６】実施形態の文書検索装置における単語重要度テーブルの構成を示した図である。
【図７】実施形態の文書検索装置による処理手順の一例を示すフローチャートである。
【図８】文書登録処理の処理手順の一例を示すフローチャートである。
【図９】原本検索実行処理の処理手順の一例を示すフローチャートである。
【図１０】文章内容情報抽出の処理手順の一例を示すフローチャートである。
【図１１】第２実施形態によるＯＣＲテキスト抽出と、誤認識文字の除去の例を示した図である。
【図１２】第２実施形態による文章内容情報抽出の処理手順の別の例を示すフローチャートである。
【図１３】認識支援による誤認識除去の例を示した図である。
【図１４】ＯＣＲ尤度による誤認識除去の例を示した図である。
【図１５】第４実施形態による文書検索装置の全体構成を示すブロック図である。
【図１６】ＯＣＲ尤度による誤認識除去の場合の文章内容類似検索索引の構成を示した図である。
【図１７】ＯＣＲ尤度による誤認識除去の場合の文書登録処理の処理手順の一例を示すフローチャートである。
【図１８】ＯＣＲ尤度による誤認識除去の場合の文章内容情報抽出の処理手順の別の例を示すフローチャートである。

Claims

文書を検索する文書検索方法であって、
検索文書のイメージに対して文字認識処理を実行する文字認識工程と、
前記文字認識工程によって得られたテキストデータから誤認識と推定される単語もしくは文字に対して所定の処理を加える誤認識文字処理工程と、
前記誤認識文字処理工程による処理後のテキストデータに基づいてテキスト特徴情報を生成する生成工程と、
前記生成工程で生成されたテキスト特徴情報をクエリとして、複数の文書の各々についてテキスト特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索工程とを備えることを特徴とする文書検索方法。
前記誤認識文字処理工程は、前記文字認識工程によって得られたテキストデータを形態素解析して所定品詞の単語として抽出された文字列のうちの所定の辞書に登録されていない単語を除去することを特徴とする請求項１に記載の文書検索方法。
前記生成工程は、前記誤認識文字処理工程による処理後のテキストデータから単語を抽出し、各単語の出現度数に基づいてテキスト特徴情報を生成することを特徴とする請求項２に記載の文書検索方法。
前記生成工程は、前記誤認識文字処理工程による処理後のテキストデータから抽出された単語の重要度に基づいて該テキストデータから所定量の文を抽出し、ここで前記重要度は前記保持手段に保持された複数の文書による単語の出現度数に基づいて決定されたものであり、抽出された文に含まれる各単語の出現度数に基づいてテキスト特徴情報を生成することを特徴とする請求項４に記載の文書検索方法。
前記生成工程は、前記抽出された文に含まれる各単語の出現順を加味した単語群を単位とした出現度数に基づいてテキスト特徴情報を生成することを特徴とする請求項４に記載の文書検索方法。
前記誤認識文字処理工程は、前記文字認識工程によって得られたテキストデータを形態素解析して単語を抽出し、誤認識と推定される単語を既知の単語に訂正することを含むことを特徴とする請求項１に記載の文書検索方法。
前記誤認識文字処理工程は、前記文字認識工程による認識尤度の低い文字を除去することを特徴とする請求項１に記載の文書検索方法。
前記生成工程は、前記誤認識文字処理工程による処理後のテキストデータから文字を抽出し、各文字の出現度数に基づいてテキスト特徴情報を生成することを特徴とする請求項７に記載の文書検索方法。
文書を検索する文書検索装置であって、
検索文書のイメージに対して文字認識処理を実行する文字認識手段と、
前記文字認識手段によって得られたテキストデータから誤認識と推定される単語もしくは文字に対して所定の処理を加える誤認識文字処理手段と、
前記誤認識文字処理手段による処理後のテキストデータに基づいてテキスト特徴情報を生成する生成手段と、
前記生成手段で生成されたテキスト特徴情報をクエリとして、複数の文書の各々についてテキスト特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索手段とを備えることを特徴とする文書検索装置。
請求項１乃至８のいずれかに記載の文書検索方法をコンピュータに実行させるための制御プログラム。
請求項１乃至８のいずれかに記載の文書検索方法をコンピュータに実行させるための制御プログラムを格納した記憶媒体。