JP2004334341A - 文書検索装置、文書検索方法及び記録媒体 - Google Patents
文書検索装置、文書検索方法及び記録媒体 Download PDFInfo
- Publication number
- JP2004334341A JP2004334341A JP2003125820A JP2003125820A JP2004334341A JP 2004334341 A JP2004334341 A JP 2004334341A JP 2003125820 A JP2003125820 A JP 2003125820A JP 2003125820 A JP2003125820 A JP 2003125820A JP 2004334341 A JP2004334341 A JP 2004334341A
- Authority
- JP
- Japan
- Prior art keywords
- document
- text
- search
- feature information
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】実用的な答時間内で精度の高い原本検索を実現する。
【解決手段】文書を検索する文書検索方法は、検索文書のイメージに対してブロックセレクション処理を施し、テキストブロックに対しては文字認識処理を実行し、得られたテキストデータに基づいてテキスト特徴情報を生成する(ステップS92、S94)。また、検索文書のイメージに基づいてイメージ特徴情報が生成される(ステップS93)。そして、生成されたテキスト特徴情報とイメージ特徴情報を用いて文書データベースを検索し、複数の文書より当該検索文書に対応する文書を取得する(ステップS95,S96)。ここで、検索においては、複数の文書の各々と検索文書との間の類似度をテキスト特徴情報とイメージ特徴情報の夫々について求め、求めた類似度を統合して検索結果を決定する。
【選択図】 図9
【解決手段】文書を検索する文書検索方法は、検索文書のイメージに対してブロックセレクション処理を施し、テキストブロックに対しては文字認識処理を実行し、得られたテキストデータに基づいてテキスト特徴情報を生成する(ステップS92、S94)。また、検索文書のイメージに基づいてイメージ特徴情報が生成される(ステップS93)。そして、生成されたテキスト特徴情報とイメージ特徴情報を用いて文書データベースを検索し、複数の文書より当該検索文書に対応する文書を取得する(ステップS95,S96)。ここで、検索においては、複数の文書の各々と検索文書との間の類似度をテキスト特徴情報とイメージ特徴情報の夫々について求め、求めた類似度を統合して検索結果を決定する。
【選択図】 図9
Description
【0001】
【発明の属する技術分野】
本発明は、コンピュータで扱われる電子文書データを検索するための文書検索装置、文書検索方法及び記録媒体に関するものである。
【0002】
【従来の技術】
近年、パーソナルコンピュータ(PC)の普及に伴い、文書の作成は文書作成ソフトなどのPC上のアプリケーションソフトを用いて行われるのが一般的となった。具体的には、PCの画面上で各種書類等を作成、編集、複写、検索等をすることが広く行われている。
【0003】
また、ネットワークの発展と普及に伴い、このようにPC上で作成された電子的な文書データ(電子文書データ)が、プリンタ等を用いて出力された紙文書として配布されずに、電子文書データのまま配布される機会も増えている。すなわち、他のPC等からアクセスされたり、電子メール等で送信・配布されることにより、電子文書データのまま扱うことが行われるようになり、ペーパーレスの文書作成環境が進みつつある。
【0004】
このような電子文書データは、文書管理システムを構築してコンピュータによって体系的に管理されるようになってきたこともあり、共通化による情報量削減、文書間関連付けによるアクセスの容易性、多人数による情報の共有などにおいて極めて効果の高いものである。一方、紙文書にも、電子文書データと比較して、読みやすさ、扱いやすさ、持ち運びの利便性、直感的分かり易さ等において大きな利点がある。そのため、電子文書データを作成しても、プリンタ装置等を用いて紙文書に出力して利用するほうが効率的な場合も依然として多い。そこで紙文書と電子文書は、互いに相補的関係を築き、両者が併用して流通しているのが現状である。
【0005】
紙文書は参照に関しては極めて便利なので、様々な局面で配布されるが、単に参照するだけでなく、その文書を再編集/再利用したいと思う場合も多い。従来は、このような場合、電子文書データファイルを別途人手を介して入手し、これを編集するということが行われており、文書の再利用性を阻害する原因となっていた。
【0006】
このような紙文書と電子文書の遊離問題を解決するために、印刷された紙文書をスキャンし、その情報(スキャンデータ)をもとにその紙文書が印刷される元となったオリジナルの電子文書データを検索するという検索手法も提案されている。ここではそのような検索手法を原本検索と呼ぶ。このような原本検索の具体的な手法は例えば特許文献1や特許文献2において提案されている。
【0007】
【特許文献1】
特開2001−25656号公報
【特許文献2】
特開平3−263512号公報
【0008】
【発明が解決しようとする課題】
例えば、特許文献1では、紙文書のラスタ画像データから抽出された特徴量と、予め電子文書データを展開したラスタ画像データから抽出された特徴量との類似性を判断して、元の電子文書データを検索する手法を提案している。この提案においては、画像ベースで文書を比較するので、アプリケーションがラスタ画像を生成する際にある程度厳密な不変性が要求される。ところが、現実のシステム(アプリケーション)においては、レイアウトを厳密に一致させてラスタ画像を生成することが困難である場合も多い。過去には、アプリケーションあるいはOSのバージョンが変わった際にレイアウトが多少崩れることはかなり頻繁に発生してきた。このようにレイアウトの不変性が確保できない場合、たとえ内容が全く同じでも元文書が検出できなくなってしまう。
【0009】
また、例えば、特許文献2は、記録用紙に記録されている文書をスキャナで読取ってデジタル化して文字認識し、更にユーザが文字認識された文字列から特徴的な文字列を検索範囲として指定し、内容および位置関係が一致する文書を検索するというものである。しかしながら、この提案では、スキャンされ文字認識された文書からユーザが文字列を指定しなければならず、検索範囲の指定というわずらわしさが残るという課題がある。もちろん、検索範囲として文書全体を指定することもできるが、その場合は文書全体の文字列とのマッチングを行うことになってしまう。文字認識にある程度の誤認識があることを考慮するとそのマッチングはあいまいマッチングとなり、比較の際には相当な処理負担がかかり、実用的な応答時間は期待できない。紙文書から文字認識されたテキストをクエリとして検索するには、現実的応答性能を得るために、単純なマッチング処理では解決できない、もう一段の工夫が求められる。
【0010】
本発明は、上記課題に鑑みてなされたものであり、検索範囲指定等の煩わしい処理を不要とし、実用的な応答時間内で精度の高い原本検索を実現可能とすることを目的とする。
【0011】
【課題を解決するための手段】
上記の目的を達成するために本発明による文書検索方法は、
文書を検索する文書検索方法であって、
検索文書のイメージに対して文字認識処理を実行する文字認識工程と、
前記文字認識工程によって得られたテキストデータから単語を抽出し、各単語の出現度数に基づいてテキスト特徴情報を生成する第1生成工程と、
前記第1生成工程で生成されたテキスト特徴情報を用いて、複数の文書の各々についてテキスト特徴情報を保持する保持工程を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索工程とを備える。
【0012】
また、上記の目的を達成するために本発明による文書検索装置は以下の構成を備える。即ち、
文書を検索する文書検索装置であって、
検索文書のイメージに対して文字認識処理を実行する文字認識手段と、
前記文字認識手段によって得られたテキストデータから単語を抽出し、各単語の出現度数に基づいてテキスト特徴情報を生成する第1生成手段と、
前記第1生成手段で生成されたテキスト特徴情報を用いて、複数の文書の各々についてテキスト特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索手段とを備える。
【0013】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態を詳細に説明する。
【0014】
(第1実施形態)
図1は本実施形態による文書検索装置の構成を示すブロック図である。図1の構成において、101はマイクロプロセッサ(CPU)であり、文書検索処理のための演算、論理判断等を行い、バス109を介してバスに接続された各構成要素を制御する。109はバス(BUS)であり、CPU101の制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。
【0015】
103は書込み可能なランダムアクセスメモリ(RAM)であり、各構成要素からの各種データの一次記憶等に用いる。102は読出し専用の固定メモリ(ROM)であり、CPU101によって実行されるブートプログラム等を記憶する。なお、ブートプログラムはシステム起動時にハードディスク110に記憶された制御プログラム111をRAM103にロードし、CPU101に実行させる。この制御プログラム111については、後にフローチャートを参照して詳述する。
【0016】
104は入力装置であり、キーボードやポインティングデバイス(本例ではマウス等)を備える。105は表示装置であり、CRT、あるいは液晶ディスプレイ等が挙げられる。表示装置105にはCPU101による表示制御の下、各種表示がなされる。106はスキャナであり、紙文書を光学的に読み取ってデジタル化する等の処理を行う。
【0017】
110はハードディスク(HD)であり、CPU101により実行される制御プログラム111、検索等の処理が行われる対象となる文書を記憶した文書データベース112、レイアウト類似検索を行う際にインデックスとして使用されるレイアウト類似検索索引113、文章内容類似検索を行う際にインデックスとして使用される文章内容類似検索索引114、文章内容類似検索を行う際の各単語の重要度に関するデータを格納した単語重要度テーブル115等が格納される。
【0018】
107はリムーバブル外部記憶装置であり、フレキシブルディスクやCD、DVD等の外部記憶にアクセスするためのドライブである。リムーバブル外部記憶装置107はハードディスク110と同様に使用でき、それらの記録媒体を通じて他の文書処理装置とのデータ交換を行える。なお、ハードディスク110に記憶される制御プログラムは、これらの外部記憶装置から必要に応じてハードディスク110にコピーすることもできる。108は通信装置であり、本実施形態ではネットワークコントローラである。通信装置108は通信回線を介して外部とのデータ交換をう。
【0019】
以上のような構成を備えた本実施形態の文書検索装置においては、入力装置104からの各種の入力に応じて対応する処理が作動する。すなわち、入力装置からの入力が供給されると、まずインタラプト信号がCPU101に送られ、それに伴って、CPU101がROM102またはRAM103内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。
【0020】
図2は本実施形態において行われるブロック解析の例を説明した図である。スキャンイメージ201は紙文書がスキャナ106によって読み取られ、デジタル化された文書イメージである。ブロック解析は、この文書イメージを性質に応じた矩形ブロックに分割する技術である。図2の場合、ブロック解析がかけられると3つのブロックに分割される。1つは内部に文章(テキスト)が含まれるテキストブロック211となり、残りの2つはテキスト以外の情報(グラフ、写真など)が含まれるため画像ブロック212、213となる。テキストブロック211に対して文字認識がかけられテキストが抽出されるが、画像ブロック212、213からはテキスト情報は抽出されない。
【0021】
図3はテキストブロックから抽出されるOCRテキスト情報、及びそれから抽出されるテキスト特徴データを説明したものである。スキャンイメージのテキストブロック301に対して文字認識処理がかけられ、OCRテキスト情報302として抽出される。文字認識処理であるため100%正確な認識が行われるとは限らず、誤認識データが含まれることになる。例えば、図中“BJシリーズ”となるべき文字列は“8○シリーズ”となり、“超写真画質”となるべき文字列は“超写真白質”となってしまっている。原本検索においてはこのような誤認識されている文字列と正しい文字列とのマッチングをとる必要があり、単純なマッチング手法ではマッチングがとれない。或いは単純なマッチング手法でマッチングをとろうとすると処理負担が極端に増加してしまう。
【0022】
OCRテキスト情報302に対して、検索に必要な情報がテキスト特徴データ303として抽出され、テキストが圧縮される。解析できない部分である未知語が除外され、解析できた部分のうち、特定の品詞(名詞、固有名詞、サ変名詞)のみが、単語のリストとして残される。図示の例では、「写真」「追求」などは名詞やサ変名詞なので残されるが、「8○」は、もし解析できていれば名詞なので残されるが、この場合は未知語になってしまうので、除外されている。
【0023】
図4はレイアウト類似検索索引の構成例を示した図である。レイアウト類似検索索引113は、レイアウトに基づく類似検索を行うためのインデックス情報である。文書データベースに登録されている各文書(ユニークな文書IDで識別される)に対応して、レイアウト特徴量が記憶される。レイアウト特徴量はレイアウトの類似性を判定するための情報である。例えば、文書を印刷した場合のビットマップイメージを縦n個、横m個の矩形に分割し、各矩形の平均の輝度情報と色情報を記憶した画像特徴量などが考えられる。類似検索を行うための画像特徴量の例については、例えば、特開平10−260983号公報において提案されたものを適用できる。。なお、上記のブロック解析によって得られたテキストブロックや画像ブロックの位置/サイズをレイアウト特徴量として用いることも可能である。
【0024】
電子文書のレイアウト特徴量は、文書登録時に擬似的な印刷処理を行うことにより文書のビットマップイメージを作成し、該ビットマップデータに基づいて作成される。また、スキャンされた文書のレイアウト特徴量は、スキャンされ、デジタル化されたスキャンイメージに基づいて作成される。レイアウト類似検索を行う際には、スキャンされた文書からレイアウト特徴量が作成され、この例アウト類似検索索引113に記憶される各文書のレイアウト特徴量に対して1件ずつレイアウト類似度が計算されるのである。
【0025】
図5は文章内容類似検索索引の構成例を示した図である。文章内容類似検索索引114は、文章内容の類似性に基づく類似検索を行うためのインデックス情報である。文書データベースに登録されている各文書に対応して、文書ベクトルが記憶される。文書ベクトルは文章内容の類似性を判定するための情報である。ここでは、文書ベクトルの次元を単語とし、文書ベクトルの各次元の値をその単語の出現度数とする。ただし、1単語を正確に1次元とせず、同一あるいは類似の単語群を1つの次元として文書ベクトルを構成する。例えば図5では、次元2に対して「写真」「フォト」の2つの単語が対応している。各単語に対してその文書に含まれる出現度数が記憶される。
【0026】
なお、1つの文書に複数のテキストブロックが存在する場合は、複数のテキストブロックから抽出されるOCRテキスト情報の全てがまとめられて集計され、1つの文書ベクトルが作成される。
【0027】
また、原本検索を行う際には、検索クエリとなるスキャンされた文書からも、ここに格納される文書ベクトルと同じ形式のベクトルデータ(クエリベクトル)が作成され、各文書の文書ベクトルに対して1件ずつ文章内容類似度が計算されることになる。
【0028】
図6は単語重要度テーブルの構成例を示す図である。単語重要度テーブル115は、文章内容の類似性を判定する上での、各単語の重要度を示すテーブルである。このテーブルにおいては、文書データベース全体に対して、各単語の出現する度数を記憶する。
【0029】
各単語の重要度wkは、この単語重要度テーブル115によって格納された度数の逆数によって算出される。すなわち、
wk=1/(文書データベース全体における文字kの出現度数) …(1)
によって表される。ただし、出現度数が0の場合は文字の重要度は0とする。これは文書データベースに出現しない単語は類似性判定には役に立たないことからである。重要度が度数の逆数をとる理由は、多くの文書に出現するようなありふれた単語は、文章内容の類似性を判定する上では相対的に重要性が低いという観点に従ったものである。
【0030】
次に、本実施形態による文書の類似性判定を行う際の、類似度算出について説明する。文書ベクトルをX(X=(x1,x2,x3,…,xn))、クリエベクトルをQ(Q=(q1,q2,q3,…,qn))、単語kの重要度をwkとした場合、文章内容類似度TS(X,Q)は以下の(2)式により求められる。
【0031】
【0032】
すなわち、文章内容類似度TS(X,Q)は、比較する2つの文書について、すべての単語(k=1からk=nまで)の出現度数の差の絶対値にその文字の重要度を乗じたものを積算し、そのマイナスの値で表現する。マイナスにするのは出現度数の差が大きいほど文章内容類似度が低いからである。この文章内容類似度の値が大きいほど類似性が高いと判定される。なお、レイアウト類似度についても、同様に類似度の値が大きいほど類似性が高いように設定される。
【0033】
次に、総合類似度Sは基本的には文章内容類似度TSとレイアウト類似度LSを加算したものであるが、それぞれの類似度算出の重要性に応じて、重みαとβが乗じて加算される。すなわち、
S=α×TS+β×LS …(3)
により算出される。
【0034】
(3)式において、 αは文章内容情報に対する重みであり、βはレイアウト情報に対する重みである。αとβの値は可変であり、文章内容情報の信頼性が低いときは文章内容の重みαの値が小さくなる。αとβの値は可変であり、文章内容情報の信頼性(例えば、文書中のテキストブロックに十分なテキストが存在するかどうか、また、テキストがうまく文字認識されたかどうか(文字認識の精度評価)に基づいて信頼性を評価することができる)が低いときは文章内容の重みαの値が小さくなるように適宜定められる。例えば、文章内容情報の信頼性が十分高い場合は、α=1、β=1とし、文章内容が信頼できないときは、α=0.1、β=1などと設定する。なお、レイアウト情報は、どのような文書でもレイアウト自体は必ず存在し、また、解析結果が大きく損なわれることもないので、情報自体の信頼性が大きく変動することはない。
【0035】
なお、文字認識の精度評価には形態素解析などの言語解析を利用することが挙げられる。このとき言語解析が正常に行われたかどうかが分かる情報、例えば、解析エラー率を求めることで精度評価を行なえる。なお、解析エラー率の1つの実施形態としては、解析により発生した未知語(辞書に登録されていない単語)の全単語数に占める割合に基づいて求めた値が挙げられる。あるいは別の実施形態では、未知語文字列が全文字数に占める割合で求める。或いは、もっと簡便な方法として以下の方法を用いてもよい。例えば、標準的な日本語の文字単位の統計データを予め備え、スキャンされた文書に対しても同様の統計データを作成する。これが標準の日本語文章に比べて大きく乖離していれば、異常な文書であると見なし、文字認識結果の信頼性が低いと判定する。このように構成することで、コンピュータにとって負荷の高い言語解析処理を回避でき、より負荷の少ない統計処理で代用することができる。このため、より貧弱なコンピュータ環境においても文字認識の信頼性評価を行うことができ、より安価な原本検索が実現できる。
【0036】
以上の動作をフローチャートに従って説明する。図7は本実施形態による文書検索装置の動作、より具体的にはCPU101の処理手順を示すフローチャートである。
【0037】
ステップS71はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示等を行う処理である。ステップS72はキーボード等の入力装置から何らかのキーが押下され、割り込みが発生するのをCPU101において待つ処理である。キーが打鍵されると、ステップS73においてマイクロプロセッサCPUがこのキーを判別し、キーの種類に応じて各種の処理に分岐する。各種キーに対応した分岐先の複数の処理をステップS74という形でまとめて表現している。図8、図9で詳述する文書登録処理、原本検索実行処理がこの分岐先の一部となる。他の処理としては、本明細書では詳細な記述を省略するが、キーボードからクエリ文字列を打ち込んで検索する処理や、バージョン管理などの文書管理のための処理などが挙げられる。ステップS75は上記の各処理の処理結果を表示する表示処理である。表示内容を表示パターンに展開しバッファに出力するといった通常広く行われている処理である。
【0038】
図9はステップS74の一部である文書登録処理の詳細を示すフローチャートである。ステップS81において、文書データベースに登録すべき文書をユーザに指定させる。ユーザはディスク上に存在する電子文書、あるいは紙文書を指定する。ステップS82において、登録が指定された文書を文書データベースに登録する。紙文書が指定された場合は登録すべき紙文書をスキャナから読み取ってデジタル化し、ビットマップイメージを生成し、それを登録する。
【0039】
ステップS83において、登録された文書からレイアウト情報を抽出する。ここでは、登録文書を擬似的に印刷してビットマップイメージを生成し、そこから特徴を抽出して画像特徴量の形で格納する。紙文書をスキャナで読み取った場合は、そのビットマップイメージを用いてレイアウト情報を抽出できる。
【0040】
ステップS84において、登録文書の内部構造を追跡するなどしてテキスト情報を抽出し、文章内容情報を得る。ビットマップイメージなどで内部構造からテキスト情報が抽出できない場合は、ビットマップイメージに対して文字認識をかけ、OCRテキスト化して抽出する。抽出されたテキストから、類似単語単位で単語の出現度数を算出して文章内容情報として抽出し、図5で説明した如き文書ベクトルを作成する。ステップS85では、ステップS83で抽出されたレイアウト情報をその文書IDと対応付ける形で図4に示したレイアウト類似検索索引113に登録し、索引を更新する。ステップS86では、ステップS84で抽出された文章内容情報をその文書IDと対応付ける形で図5に示した文章内容類似検索索引114に登録し、索引を更新する。ステップS87では、登録文書に含まれる単語の出現度数により図6に示した単語重要度テーブル115を更新する。
【0041】
以上の処理により、文書が登録された文書データベース112と、これに対応したレイアウト類似検索索引113、文章内容類似検索索引114及び単語重要度テーブル115が形成される。
【0042】
図9はステップS74の一部である原本検索実行処理を説明するフローチャートである。まず、ステップS91において原本検索のクエリである紙文書をスキャナで読み取り、ビットマップイメージ化する。ステップS92においてスキャンされたビットマップイメージをブロック解析し、テキストブロック、画像ブロック等に分離する。ステップS93において、ビットマップイメージに対して画像特徴量などのレイアウト情報を抽出する。ステップS94においてテキストブロックから文字認識処理によりOCRテキスト情報を抽出し、抽出されたテキストから、テキスト特徴データを抽出し、単語の出現度数を算出し文章内容情報として抽出し、クエリベクトルを作成する。ステップS95において、クエリベクトルと文書データベースに登録されている文書の各文書ベクトルに対して文章内容類似度を計算し、更にレイアウト類似度も各文書に対して求め、総合類似度を算出する。ステップS96において総合類似度に従って順位を確定し、第1候補を決定して出力する。
【0043】
次に、ステップS94の文章内容情報抽出処理について図10のフローチャートを参照して説明する。ステップS101において内部構造の解析によりテキスト情報が抽出できるかどうか判定する。「内部構造の解析」とはファイルフォーマットの構造の解析を意味している。例えば、MS−WORD(登録商標)のファイルからテキストデータを入手するにはMS−WORDのファイルフォーマットの解析を行なってテキスト情報を抽出することになる。抽出できるときはステップS102に進み、文章内容情報を登録文書の内部構造を追跡するなどしてテキスト情報を抽出し、ステップS104に進む。ビットマップイメージなどで内部構造からテキスト情報が解析できない場合はステップS103に進み、ステップS103においてビットマップイメージに対して文字認識をかけ、OCRテキスト情報を抽出する。
【0044】
その後ステップS104に進む。ステップS104において抽出されたテキストに形態素解析し、テキストを解析する。ステップS105において形態素解析において解析できない未知語の部分を特定し、抽出候補から排除する。ステップS106において未知語以外のテキストに含まれる単語で、特定品詞(名詞、固有名詞、サ変名詞)に属する単語に対して単語の出現度数を算出し、重要度でランキングする。ステップS107において単語ランキング順に所定個数のキーワードを抽出し、これらのキーワード(単語)とそれらの出現度数をテキスト特徴データとして出力する。なお、所定個数はシステムの都合により可変であり、検索実行において過大な処理負荷が掛からない個数が設定される。こうして得られたテキスト特徴データを用いて(2)式の演算を行なって文章内容類似度を算出する。すなわち、全単語について(2)式の演算を行なうと演算量が膨大となるので、ステップS107で抽出したキーワードを用いて類似度の計算を行ない、処理量を低減するのである。
【0045】
なお、ステップS84においても文章内容情報を抽出するが、このステップS84の処理では上記ステップS106で得られた全単語の出現度数を図5の文章内容類似検索索引114に登録することになる。データベースへの文書登録時にキーワードを抽出しないのは、データベースへの文書登録によって単語重要度が変化する可能性があるからである。
【0046】
(第2実施形態)
本発明は上述の実施形態に限定されるのではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0047】
例えば上述の第1実施形態においては、テキスト特徴データとして重要度順に抽出された単語のリストとしているが、これでは単語のリストのみが抽出されることになり、例えば、単語間の順序などの情報が失われてしまうことになる。そのために、第2実施形態では、テキスト特徴データとしてもできる限りテキスト情報を保存するために単語の出現順序を加味した複数単語の集合及びその出現度数を用いる。ここで、出現度数の算出負荷を低減するために、出現度数を算出する文書範囲を後述の如く選択された重要文とする。
【0048】
図11は第2実施形態におけるテキスト特徴データの例である。テキストブロック111、OCRテキスト情報112は、先の実施形態(図2)と同じであるが、最後のテキスト特徴データについては、文単位で重要文が抽出されている。重要文の抽出は、文を構成する単語の重要度ランキングに従って行われる。図11の例ではもともと2文しかなかったが、各文を構成する未知語以外の特定品詞の単語(図中では下線で示される)について単語重要度が算出され、重要単語を多く含む文が抽出されている。
【0049】
この場合の文章内容情報抽出の処理について図12のフローチャートを参照して説明する。
【0050】
図12はステップS94の文章内容情報抽出を詳細化したフローチャートである。ステップS121において内部構造の解析によりテキスト情報が抽出できるかどうか判定する。抽出できるときはステップS122に進み、文章内容情報を登録文書の内部構造を追跡するなどしてテキスト情報を抽出し、ステップS124に進む。一方、ビットマップイメージなどで内部構造からテキスト情報が解析できない場合はステップS123に進み、ビットマップイメージに対して文字認識をかけ、OCRテキスト情報を抽出する。その後ステップS124に進む。
【0051】
ステップS124において抽出されたテキストを形態素解析する。ステップS125において形態素解析において解析できない未知語の部分を特定し、単語候補から排除する。ステップS126において未知語以外のテキストに含まれる単語で、特定品詞(名詞、固有名詞、サ変名詞)に属する単語に対して単語の出現度数を算出し、重要度でランキングし、更に重要な単語含む順に文をランキングする。ステップS127において文ランキング順に所定の分量に達するまで文を抽出し、テキスト特徴データとして出力する。所定の分量はシステムの都合により可変であり、検索実行において過大な処理負荷が掛からない分量(文の数、あるいは文に含まれる単語数)が設定される。
【0052】
ステップS128では、抽出された文から単語ペアの出現度数を計数する。なお、この単語ペアでは単語の順番も考慮される。例えば図11の113では、「従来」「モデル」の単語ペアが1つ存在するが、「モデル」「従来」の単語ペアは存在しない。このような単語ペアを用いて(2)式の類似度計算をすることで、単語の出現順序を加味した類似度判定が行なえる。
【0053】
なお、データベースへの文書登録時における文章内容情報抽出(ステップS84)の処理も上記図12の処理が適用される。従って、文章内容類似検索索引114における文書ベクトルの各次元は単語ペアとなる。但し、新たな文書登録によるデータベースの更新に伴って単語の重要度が変化し、重要文が変化する可能性がある。従って、登録済みの文書に関して上記文章内容情報抽出を定期的に行なって文章内容類似検索索引114の内容を定期的に更新する必要があろう。
【0054】
第2実施形態のように構成することで、もとのテキストの情報をある程度保ったままテキスト特徴データを抽出できるので、信頼性の高い原本検索を実現できる。
【0055】
なお、第2実施形態において、単語ペアを用いずに、抽出した重要文の範囲で第1実施形態と同様に単語の出現度数を用いて類似度計算を行なってもよい。単語の順序は加味されないが、類似比較すべき単語を効果的に絞り込むことができる。
また、上記実施形態では、単語の出現度数を用いてテキスト特徴量を算出したが、文字の出現度数や文節の出現度数を用いてテキスト特徴量を計算することも可能である。
また、複数ページからなる文書の場合は、検索索引テーブルはページ単位で文書ベクトルを保持することになる。
【0056】
以上の説明から明らかなように、上記各実施形態によれば、記録用紙に印刷された文書をスキャンしてイメージ文書を抽出して印刷前のオリジナルの文書を検索する原本検索手段を、ユーザが何かの検索クエリを指示することなく実現できるので、操作性の高い原本検索手段を提供できる。
【0057】
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0058】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0059】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0060】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0061】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0062】
【発明の効果】
以上説明したように、本発明によれば、検索範囲指定等の煩わしい処理が不要となり、簡易な操作で、実用的な応答時間内で精度の高い原本検索を実現できる。
【図面の簡単な説明】
【図1】実施形態の文書検索装置の全体構成を示すブロック図である。
【図2】ブロック解析の例を示した図である。
【図3】OCRテキスト抽出、テキスト特徴データの例を示した図である。
【図4】実施形態の文書検索装置におけるレイアウト類似検索索引の構成を示した図である。
【図5】実施形態の文書検索装置における文章内容類似検索索引の構成を示した図である。
【図6】実施形態の文書検索装置における単語重要度テーブルの構成を示した図である。
【図7】実施形態の文書検索装置による処理手順の一例を示すフローチャートである。
【図8】文書登録処理の処理手順の一例を示すフローチャートである。
【図9】原本検索実行処理の処理手順の一例を示すフローチャートである。
【図10】文章内容情報抽出の処理手順の一例を示すフローチャートである。
【図11】テキスト特徴データの別の例を示した図である。
【図12】文章内容情報抽出の処理手順の別の例を示すフローチャートである。
【発明の属する技術分野】
本発明は、コンピュータで扱われる電子文書データを検索するための文書検索装置、文書検索方法及び記録媒体に関するものである。
【0002】
【従来の技術】
近年、パーソナルコンピュータ(PC)の普及に伴い、文書の作成は文書作成ソフトなどのPC上のアプリケーションソフトを用いて行われるのが一般的となった。具体的には、PCの画面上で各種書類等を作成、編集、複写、検索等をすることが広く行われている。
【0003】
また、ネットワークの発展と普及に伴い、このようにPC上で作成された電子的な文書データ(電子文書データ)が、プリンタ等を用いて出力された紙文書として配布されずに、電子文書データのまま配布される機会も増えている。すなわち、他のPC等からアクセスされたり、電子メール等で送信・配布されることにより、電子文書データのまま扱うことが行われるようになり、ペーパーレスの文書作成環境が進みつつある。
【0004】
このような電子文書データは、文書管理システムを構築してコンピュータによって体系的に管理されるようになってきたこともあり、共通化による情報量削減、文書間関連付けによるアクセスの容易性、多人数による情報の共有などにおいて極めて効果の高いものである。一方、紙文書にも、電子文書データと比較して、読みやすさ、扱いやすさ、持ち運びの利便性、直感的分かり易さ等において大きな利点がある。そのため、電子文書データを作成しても、プリンタ装置等を用いて紙文書に出力して利用するほうが効率的な場合も依然として多い。そこで紙文書と電子文書は、互いに相補的関係を築き、両者が併用して流通しているのが現状である。
【0005】
紙文書は参照に関しては極めて便利なので、様々な局面で配布されるが、単に参照するだけでなく、その文書を再編集/再利用したいと思う場合も多い。従来は、このような場合、電子文書データファイルを別途人手を介して入手し、これを編集するということが行われており、文書の再利用性を阻害する原因となっていた。
【0006】
このような紙文書と電子文書の遊離問題を解決するために、印刷された紙文書をスキャンし、その情報(スキャンデータ)をもとにその紙文書が印刷される元となったオリジナルの電子文書データを検索するという検索手法も提案されている。ここではそのような検索手法を原本検索と呼ぶ。このような原本検索の具体的な手法は例えば特許文献1や特許文献2において提案されている。
【0007】
【特許文献1】
特開2001−25656号公報
【特許文献2】
特開平3−263512号公報
【0008】
【発明が解決しようとする課題】
例えば、特許文献1では、紙文書のラスタ画像データから抽出された特徴量と、予め電子文書データを展開したラスタ画像データから抽出された特徴量との類似性を判断して、元の電子文書データを検索する手法を提案している。この提案においては、画像ベースで文書を比較するので、アプリケーションがラスタ画像を生成する際にある程度厳密な不変性が要求される。ところが、現実のシステム(アプリケーション)においては、レイアウトを厳密に一致させてラスタ画像を生成することが困難である場合も多い。過去には、アプリケーションあるいはOSのバージョンが変わった際にレイアウトが多少崩れることはかなり頻繁に発生してきた。このようにレイアウトの不変性が確保できない場合、たとえ内容が全く同じでも元文書が検出できなくなってしまう。
【0009】
また、例えば、特許文献2は、記録用紙に記録されている文書をスキャナで読取ってデジタル化して文字認識し、更にユーザが文字認識された文字列から特徴的な文字列を検索範囲として指定し、内容および位置関係が一致する文書を検索するというものである。しかしながら、この提案では、スキャンされ文字認識された文書からユーザが文字列を指定しなければならず、検索範囲の指定というわずらわしさが残るという課題がある。もちろん、検索範囲として文書全体を指定することもできるが、その場合は文書全体の文字列とのマッチングを行うことになってしまう。文字認識にある程度の誤認識があることを考慮するとそのマッチングはあいまいマッチングとなり、比較の際には相当な処理負担がかかり、実用的な応答時間は期待できない。紙文書から文字認識されたテキストをクエリとして検索するには、現実的応答性能を得るために、単純なマッチング処理では解決できない、もう一段の工夫が求められる。
【0010】
本発明は、上記課題に鑑みてなされたものであり、検索範囲指定等の煩わしい処理を不要とし、実用的な応答時間内で精度の高い原本検索を実現可能とすることを目的とする。
【0011】
【課題を解決するための手段】
上記の目的を達成するために本発明による文書検索方法は、
文書を検索する文書検索方法であって、
検索文書のイメージに対して文字認識処理を実行する文字認識工程と、
前記文字認識工程によって得られたテキストデータから単語を抽出し、各単語の出現度数に基づいてテキスト特徴情報を生成する第1生成工程と、
前記第1生成工程で生成されたテキスト特徴情報を用いて、複数の文書の各々についてテキスト特徴情報を保持する保持工程を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索工程とを備える。
【0012】
また、上記の目的を達成するために本発明による文書検索装置は以下の構成を備える。即ち、
文書を検索する文書検索装置であって、
検索文書のイメージに対して文字認識処理を実行する文字認識手段と、
前記文字認識手段によって得られたテキストデータから単語を抽出し、各単語の出現度数に基づいてテキスト特徴情報を生成する第1生成手段と、
前記第1生成手段で生成されたテキスト特徴情報を用いて、複数の文書の各々についてテキスト特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索手段とを備える。
【0013】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態を詳細に説明する。
【0014】
(第1実施形態)
図1は本実施形態による文書検索装置の構成を示すブロック図である。図1の構成において、101はマイクロプロセッサ(CPU)であり、文書検索処理のための演算、論理判断等を行い、バス109を介してバスに接続された各構成要素を制御する。109はバス(BUS)であり、CPU101の制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。
【0015】
103は書込み可能なランダムアクセスメモリ(RAM)であり、各構成要素からの各種データの一次記憶等に用いる。102は読出し専用の固定メモリ(ROM)であり、CPU101によって実行されるブートプログラム等を記憶する。なお、ブートプログラムはシステム起動時にハードディスク110に記憶された制御プログラム111をRAM103にロードし、CPU101に実行させる。この制御プログラム111については、後にフローチャートを参照して詳述する。
【0016】
104は入力装置であり、キーボードやポインティングデバイス(本例ではマウス等)を備える。105は表示装置であり、CRT、あるいは液晶ディスプレイ等が挙げられる。表示装置105にはCPU101による表示制御の下、各種表示がなされる。106はスキャナであり、紙文書を光学的に読み取ってデジタル化する等の処理を行う。
【0017】
110はハードディスク(HD)であり、CPU101により実行される制御プログラム111、検索等の処理が行われる対象となる文書を記憶した文書データベース112、レイアウト類似検索を行う際にインデックスとして使用されるレイアウト類似検索索引113、文章内容類似検索を行う際にインデックスとして使用される文章内容類似検索索引114、文章内容類似検索を行う際の各単語の重要度に関するデータを格納した単語重要度テーブル115等が格納される。
【0018】
107はリムーバブル外部記憶装置であり、フレキシブルディスクやCD、DVD等の外部記憶にアクセスするためのドライブである。リムーバブル外部記憶装置107はハードディスク110と同様に使用でき、それらの記録媒体を通じて他の文書処理装置とのデータ交換を行える。なお、ハードディスク110に記憶される制御プログラムは、これらの外部記憶装置から必要に応じてハードディスク110にコピーすることもできる。108は通信装置であり、本実施形態ではネットワークコントローラである。通信装置108は通信回線を介して外部とのデータ交換をう。
【0019】
以上のような構成を備えた本実施形態の文書検索装置においては、入力装置104からの各種の入力に応じて対応する処理が作動する。すなわち、入力装置からの入力が供給されると、まずインタラプト信号がCPU101に送られ、それに伴って、CPU101がROM102またはRAM103内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。
【0020】
図2は本実施形態において行われるブロック解析の例を説明した図である。スキャンイメージ201は紙文書がスキャナ106によって読み取られ、デジタル化された文書イメージである。ブロック解析は、この文書イメージを性質に応じた矩形ブロックに分割する技術である。図2の場合、ブロック解析がかけられると3つのブロックに分割される。1つは内部に文章(テキスト)が含まれるテキストブロック211となり、残りの2つはテキスト以外の情報(グラフ、写真など)が含まれるため画像ブロック212、213となる。テキストブロック211に対して文字認識がかけられテキストが抽出されるが、画像ブロック212、213からはテキスト情報は抽出されない。
【0021】
図3はテキストブロックから抽出されるOCRテキスト情報、及びそれから抽出されるテキスト特徴データを説明したものである。スキャンイメージのテキストブロック301に対して文字認識処理がかけられ、OCRテキスト情報302として抽出される。文字認識処理であるため100%正確な認識が行われるとは限らず、誤認識データが含まれることになる。例えば、図中“BJシリーズ”となるべき文字列は“8○シリーズ”となり、“超写真画質”となるべき文字列は“超写真白質”となってしまっている。原本検索においてはこのような誤認識されている文字列と正しい文字列とのマッチングをとる必要があり、単純なマッチング手法ではマッチングがとれない。或いは単純なマッチング手法でマッチングをとろうとすると処理負担が極端に増加してしまう。
【0022】
OCRテキスト情報302に対して、検索に必要な情報がテキスト特徴データ303として抽出され、テキストが圧縮される。解析できない部分である未知語が除外され、解析できた部分のうち、特定の品詞(名詞、固有名詞、サ変名詞)のみが、単語のリストとして残される。図示の例では、「写真」「追求」などは名詞やサ変名詞なので残されるが、「8○」は、もし解析できていれば名詞なので残されるが、この場合は未知語になってしまうので、除外されている。
【0023】
図4はレイアウト類似検索索引の構成例を示した図である。レイアウト類似検索索引113は、レイアウトに基づく類似検索を行うためのインデックス情報である。文書データベースに登録されている各文書(ユニークな文書IDで識別される)に対応して、レイアウト特徴量が記憶される。レイアウト特徴量はレイアウトの類似性を判定するための情報である。例えば、文書を印刷した場合のビットマップイメージを縦n個、横m個の矩形に分割し、各矩形の平均の輝度情報と色情報を記憶した画像特徴量などが考えられる。類似検索を行うための画像特徴量の例については、例えば、特開平10−260983号公報において提案されたものを適用できる。。なお、上記のブロック解析によって得られたテキストブロックや画像ブロックの位置/サイズをレイアウト特徴量として用いることも可能である。
【0024】
電子文書のレイアウト特徴量は、文書登録時に擬似的な印刷処理を行うことにより文書のビットマップイメージを作成し、該ビットマップデータに基づいて作成される。また、スキャンされた文書のレイアウト特徴量は、スキャンされ、デジタル化されたスキャンイメージに基づいて作成される。レイアウト類似検索を行う際には、スキャンされた文書からレイアウト特徴量が作成され、この例アウト類似検索索引113に記憶される各文書のレイアウト特徴量に対して1件ずつレイアウト類似度が計算されるのである。
【0025】
図5は文章内容類似検索索引の構成例を示した図である。文章内容類似検索索引114は、文章内容の類似性に基づく類似検索を行うためのインデックス情報である。文書データベースに登録されている各文書に対応して、文書ベクトルが記憶される。文書ベクトルは文章内容の類似性を判定するための情報である。ここでは、文書ベクトルの次元を単語とし、文書ベクトルの各次元の値をその単語の出現度数とする。ただし、1単語を正確に1次元とせず、同一あるいは類似の単語群を1つの次元として文書ベクトルを構成する。例えば図5では、次元2に対して「写真」「フォト」の2つの単語が対応している。各単語に対してその文書に含まれる出現度数が記憶される。
【0026】
なお、1つの文書に複数のテキストブロックが存在する場合は、複数のテキストブロックから抽出されるOCRテキスト情報の全てがまとめられて集計され、1つの文書ベクトルが作成される。
【0027】
また、原本検索を行う際には、検索クエリとなるスキャンされた文書からも、ここに格納される文書ベクトルと同じ形式のベクトルデータ(クエリベクトル)が作成され、各文書の文書ベクトルに対して1件ずつ文章内容類似度が計算されることになる。
【0028】
図6は単語重要度テーブルの構成例を示す図である。単語重要度テーブル115は、文章内容の類似性を判定する上での、各単語の重要度を示すテーブルである。このテーブルにおいては、文書データベース全体に対して、各単語の出現する度数を記憶する。
【0029】
各単語の重要度wkは、この単語重要度テーブル115によって格納された度数の逆数によって算出される。すなわち、
wk=1/(文書データベース全体における文字kの出現度数) …(1)
によって表される。ただし、出現度数が0の場合は文字の重要度は0とする。これは文書データベースに出現しない単語は類似性判定には役に立たないことからである。重要度が度数の逆数をとる理由は、多くの文書に出現するようなありふれた単語は、文章内容の類似性を判定する上では相対的に重要性が低いという観点に従ったものである。
【0030】
次に、本実施形態による文書の類似性判定を行う際の、類似度算出について説明する。文書ベクトルをX(X=(x1,x2,x3,…,xn))、クリエベクトルをQ(Q=(q1,q2,q3,…,qn))、単語kの重要度をwkとした場合、文章内容類似度TS(X,Q)は以下の(2)式により求められる。
【0031】
【0032】
すなわち、文章内容類似度TS(X,Q)は、比較する2つの文書について、すべての単語(k=1からk=nまで)の出現度数の差の絶対値にその文字の重要度を乗じたものを積算し、そのマイナスの値で表現する。マイナスにするのは出現度数の差が大きいほど文章内容類似度が低いからである。この文章内容類似度の値が大きいほど類似性が高いと判定される。なお、レイアウト類似度についても、同様に類似度の値が大きいほど類似性が高いように設定される。
【0033】
次に、総合類似度Sは基本的には文章内容類似度TSとレイアウト類似度LSを加算したものであるが、それぞれの類似度算出の重要性に応じて、重みαとβが乗じて加算される。すなわち、
S=α×TS+β×LS …(3)
により算出される。
【0034】
(3)式において、 αは文章内容情報に対する重みであり、βはレイアウト情報に対する重みである。αとβの値は可変であり、文章内容情報の信頼性が低いときは文章内容の重みαの値が小さくなる。αとβの値は可変であり、文章内容情報の信頼性(例えば、文書中のテキストブロックに十分なテキストが存在するかどうか、また、テキストがうまく文字認識されたかどうか(文字認識の精度評価)に基づいて信頼性を評価することができる)が低いときは文章内容の重みαの値が小さくなるように適宜定められる。例えば、文章内容情報の信頼性が十分高い場合は、α=1、β=1とし、文章内容が信頼できないときは、α=0.1、β=1などと設定する。なお、レイアウト情報は、どのような文書でもレイアウト自体は必ず存在し、また、解析結果が大きく損なわれることもないので、情報自体の信頼性が大きく変動することはない。
【0035】
なお、文字認識の精度評価には形態素解析などの言語解析を利用することが挙げられる。このとき言語解析が正常に行われたかどうかが分かる情報、例えば、解析エラー率を求めることで精度評価を行なえる。なお、解析エラー率の1つの実施形態としては、解析により発生した未知語(辞書に登録されていない単語)の全単語数に占める割合に基づいて求めた値が挙げられる。あるいは別の実施形態では、未知語文字列が全文字数に占める割合で求める。或いは、もっと簡便な方法として以下の方法を用いてもよい。例えば、標準的な日本語の文字単位の統計データを予め備え、スキャンされた文書に対しても同様の統計データを作成する。これが標準の日本語文章に比べて大きく乖離していれば、異常な文書であると見なし、文字認識結果の信頼性が低いと判定する。このように構成することで、コンピュータにとって負荷の高い言語解析処理を回避でき、より負荷の少ない統計処理で代用することができる。このため、より貧弱なコンピュータ環境においても文字認識の信頼性評価を行うことができ、より安価な原本検索が実現できる。
【0036】
以上の動作をフローチャートに従って説明する。図7は本実施形態による文書検索装置の動作、より具体的にはCPU101の処理手順を示すフローチャートである。
【0037】
ステップS71はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示等を行う処理である。ステップS72はキーボード等の入力装置から何らかのキーが押下され、割り込みが発生するのをCPU101において待つ処理である。キーが打鍵されると、ステップS73においてマイクロプロセッサCPUがこのキーを判別し、キーの種類に応じて各種の処理に分岐する。各種キーに対応した分岐先の複数の処理をステップS74という形でまとめて表現している。図8、図9で詳述する文書登録処理、原本検索実行処理がこの分岐先の一部となる。他の処理としては、本明細書では詳細な記述を省略するが、キーボードからクエリ文字列を打ち込んで検索する処理や、バージョン管理などの文書管理のための処理などが挙げられる。ステップS75は上記の各処理の処理結果を表示する表示処理である。表示内容を表示パターンに展開しバッファに出力するといった通常広く行われている処理である。
【0038】
図9はステップS74の一部である文書登録処理の詳細を示すフローチャートである。ステップS81において、文書データベースに登録すべき文書をユーザに指定させる。ユーザはディスク上に存在する電子文書、あるいは紙文書を指定する。ステップS82において、登録が指定された文書を文書データベースに登録する。紙文書が指定された場合は登録すべき紙文書をスキャナから読み取ってデジタル化し、ビットマップイメージを生成し、それを登録する。
【0039】
ステップS83において、登録された文書からレイアウト情報を抽出する。ここでは、登録文書を擬似的に印刷してビットマップイメージを生成し、そこから特徴を抽出して画像特徴量の形で格納する。紙文書をスキャナで読み取った場合は、そのビットマップイメージを用いてレイアウト情報を抽出できる。
【0040】
ステップS84において、登録文書の内部構造を追跡するなどしてテキスト情報を抽出し、文章内容情報を得る。ビットマップイメージなどで内部構造からテキスト情報が抽出できない場合は、ビットマップイメージに対して文字認識をかけ、OCRテキスト化して抽出する。抽出されたテキストから、類似単語単位で単語の出現度数を算出して文章内容情報として抽出し、図5で説明した如き文書ベクトルを作成する。ステップS85では、ステップS83で抽出されたレイアウト情報をその文書IDと対応付ける形で図4に示したレイアウト類似検索索引113に登録し、索引を更新する。ステップS86では、ステップS84で抽出された文章内容情報をその文書IDと対応付ける形で図5に示した文章内容類似検索索引114に登録し、索引を更新する。ステップS87では、登録文書に含まれる単語の出現度数により図6に示した単語重要度テーブル115を更新する。
【0041】
以上の処理により、文書が登録された文書データベース112と、これに対応したレイアウト類似検索索引113、文章内容類似検索索引114及び単語重要度テーブル115が形成される。
【0042】
図9はステップS74の一部である原本検索実行処理を説明するフローチャートである。まず、ステップS91において原本検索のクエリである紙文書をスキャナで読み取り、ビットマップイメージ化する。ステップS92においてスキャンされたビットマップイメージをブロック解析し、テキストブロック、画像ブロック等に分離する。ステップS93において、ビットマップイメージに対して画像特徴量などのレイアウト情報を抽出する。ステップS94においてテキストブロックから文字認識処理によりOCRテキスト情報を抽出し、抽出されたテキストから、テキスト特徴データを抽出し、単語の出現度数を算出し文章内容情報として抽出し、クエリベクトルを作成する。ステップS95において、クエリベクトルと文書データベースに登録されている文書の各文書ベクトルに対して文章内容類似度を計算し、更にレイアウト類似度も各文書に対して求め、総合類似度を算出する。ステップS96において総合類似度に従って順位を確定し、第1候補を決定して出力する。
【0043】
次に、ステップS94の文章内容情報抽出処理について図10のフローチャートを参照して説明する。ステップS101において内部構造の解析によりテキスト情報が抽出できるかどうか判定する。「内部構造の解析」とはファイルフォーマットの構造の解析を意味している。例えば、MS−WORD(登録商標)のファイルからテキストデータを入手するにはMS−WORDのファイルフォーマットの解析を行なってテキスト情報を抽出することになる。抽出できるときはステップS102に進み、文章内容情報を登録文書の内部構造を追跡するなどしてテキスト情報を抽出し、ステップS104に進む。ビットマップイメージなどで内部構造からテキスト情報が解析できない場合はステップS103に進み、ステップS103においてビットマップイメージに対して文字認識をかけ、OCRテキスト情報を抽出する。
【0044】
その後ステップS104に進む。ステップS104において抽出されたテキストに形態素解析し、テキストを解析する。ステップS105において形態素解析において解析できない未知語の部分を特定し、抽出候補から排除する。ステップS106において未知語以外のテキストに含まれる単語で、特定品詞(名詞、固有名詞、サ変名詞)に属する単語に対して単語の出現度数を算出し、重要度でランキングする。ステップS107において単語ランキング順に所定個数のキーワードを抽出し、これらのキーワード(単語)とそれらの出現度数をテキスト特徴データとして出力する。なお、所定個数はシステムの都合により可変であり、検索実行において過大な処理負荷が掛からない個数が設定される。こうして得られたテキスト特徴データを用いて(2)式の演算を行なって文章内容類似度を算出する。すなわち、全単語について(2)式の演算を行なうと演算量が膨大となるので、ステップS107で抽出したキーワードを用いて類似度の計算を行ない、処理量を低減するのである。
【0045】
なお、ステップS84においても文章内容情報を抽出するが、このステップS84の処理では上記ステップS106で得られた全単語の出現度数を図5の文章内容類似検索索引114に登録することになる。データベースへの文書登録時にキーワードを抽出しないのは、データベースへの文書登録によって単語重要度が変化する可能性があるからである。
【0046】
(第2実施形態)
本発明は上述の実施形態に限定されるのではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0047】
例えば上述の第1実施形態においては、テキスト特徴データとして重要度順に抽出された単語のリストとしているが、これでは単語のリストのみが抽出されることになり、例えば、単語間の順序などの情報が失われてしまうことになる。そのために、第2実施形態では、テキスト特徴データとしてもできる限りテキスト情報を保存するために単語の出現順序を加味した複数単語の集合及びその出現度数を用いる。ここで、出現度数の算出負荷を低減するために、出現度数を算出する文書範囲を後述の如く選択された重要文とする。
【0048】
図11は第2実施形態におけるテキスト特徴データの例である。テキストブロック111、OCRテキスト情報112は、先の実施形態(図2)と同じであるが、最後のテキスト特徴データについては、文単位で重要文が抽出されている。重要文の抽出は、文を構成する単語の重要度ランキングに従って行われる。図11の例ではもともと2文しかなかったが、各文を構成する未知語以外の特定品詞の単語(図中では下線で示される)について単語重要度が算出され、重要単語を多く含む文が抽出されている。
【0049】
この場合の文章内容情報抽出の処理について図12のフローチャートを参照して説明する。
【0050】
図12はステップS94の文章内容情報抽出を詳細化したフローチャートである。ステップS121において内部構造の解析によりテキスト情報が抽出できるかどうか判定する。抽出できるときはステップS122に進み、文章内容情報を登録文書の内部構造を追跡するなどしてテキスト情報を抽出し、ステップS124に進む。一方、ビットマップイメージなどで内部構造からテキスト情報が解析できない場合はステップS123に進み、ビットマップイメージに対して文字認識をかけ、OCRテキスト情報を抽出する。その後ステップS124に進む。
【0051】
ステップS124において抽出されたテキストを形態素解析する。ステップS125において形態素解析において解析できない未知語の部分を特定し、単語候補から排除する。ステップS126において未知語以外のテキストに含まれる単語で、特定品詞(名詞、固有名詞、サ変名詞)に属する単語に対して単語の出現度数を算出し、重要度でランキングし、更に重要な単語含む順に文をランキングする。ステップS127において文ランキング順に所定の分量に達するまで文を抽出し、テキスト特徴データとして出力する。所定の分量はシステムの都合により可変であり、検索実行において過大な処理負荷が掛からない分量(文の数、あるいは文に含まれる単語数)が設定される。
【0052】
ステップS128では、抽出された文から単語ペアの出現度数を計数する。なお、この単語ペアでは単語の順番も考慮される。例えば図11の113では、「従来」「モデル」の単語ペアが1つ存在するが、「モデル」「従来」の単語ペアは存在しない。このような単語ペアを用いて(2)式の類似度計算をすることで、単語の出現順序を加味した類似度判定が行なえる。
【0053】
なお、データベースへの文書登録時における文章内容情報抽出(ステップS84)の処理も上記図12の処理が適用される。従って、文章内容類似検索索引114における文書ベクトルの各次元は単語ペアとなる。但し、新たな文書登録によるデータベースの更新に伴って単語の重要度が変化し、重要文が変化する可能性がある。従って、登録済みの文書に関して上記文章内容情報抽出を定期的に行なって文章内容類似検索索引114の内容を定期的に更新する必要があろう。
【0054】
第2実施形態のように構成することで、もとのテキストの情報をある程度保ったままテキスト特徴データを抽出できるので、信頼性の高い原本検索を実現できる。
【0055】
なお、第2実施形態において、単語ペアを用いずに、抽出した重要文の範囲で第1実施形態と同様に単語の出現度数を用いて類似度計算を行なってもよい。単語の順序は加味されないが、類似比較すべき単語を効果的に絞り込むことができる。
また、上記実施形態では、単語の出現度数を用いてテキスト特徴量を算出したが、文字の出現度数や文節の出現度数を用いてテキスト特徴量を計算することも可能である。
また、複数ページからなる文書の場合は、検索索引テーブルはページ単位で文書ベクトルを保持することになる。
【0056】
以上の説明から明らかなように、上記各実施形態によれば、記録用紙に印刷された文書をスキャンしてイメージ文書を抽出して印刷前のオリジナルの文書を検索する原本検索手段を、ユーザが何かの検索クエリを指示することなく実現できるので、操作性の高い原本検索手段を提供できる。
【0057】
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0058】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0059】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0060】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0061】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0062】
【発明の効果】
以上説明したように、本発明によれば、検索範囲指定等の煩わしい処理が不要となり、簡易な操作で、実用的な応答時間内で精度の高い原本検索を実現できる。
【図面の簡単な説明】
【図1】実施形態の文書検索装置の全体構成を示すブロック図である。
【図2】ブロック解析の例を示した図である。
【図3】OCRテキスト抽出、テキスト特徴データの例を示した図である。
【図4】実施形態の文書検索装置におけるレイアウト類似検索索引の構成を示した図である。
【図5】実施形態の文書検索装置における文章内容類似検索索引の構成を示した図である。
【図6】実施形態の文書検索装置における単語重要度テーブルの構成を示した図である。
【図7】実施形態の文書検索装置による処理手順の一例を示すフローチャートである。
【図8】文書登録処理の処理手順の一例を示すフローチャートである。
【図9】原本検索実行処理の処理手順の一例を示すフローチャートである。
【図10】文章内容情報抽出の処理手順の一例を示すフローチャートである。
【図11】テキスト特徴データの別の例を示した図である。
【図12】文章内容情報抽出の処理手順の別の例を示すフローチャートである。
Claims (10)
- 文書を検索する文書検索方法であって、
検索文書のイメージに対して文字認識処理を実行する文字認識工程と、
前記文字認識工程によって得られたテキストデータから単語を抽出し、各単語の出現度数に基づいてテキスト特徴情報を生成する第1生成工程と、
前記第1生成工程で生成されたテキスト特徴情報を用いて、複数の文書の各々についてテキスト特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索工程とを備えることを特徴とする文書検索方法。 - 前記第1生成工程は、前記テキストデータより抽出した単語のうち、前記保持手段に保持された複数の文書による単語の出現度数に基づいて決定された単語の重要度の順に所定数の単語を選択し、該選択された所定数の単語の当該テキストデータにおける出現度数に基づいてテキスト特徴情報を生成することを特徴とする請求項1に記載の文書検索方法。
- 前記検索文書のイメージに基づいてイメージ特徴情報を生成する第2生成工程を更に備え、
前記保持手段は複数の文書の各々についてテキスト特徴情報とイメージ特徴情報を保持し、
前記検索工程は、前記第1及び第2生成工程で生成されたテキスト特徴情報とイメージ特徴情報を用いて前記保持手段を検索し、複数の文書より前記検索文書に対応する文書を取得することを特徴とする請求項1に記載の文書検索方法。 - 前記検索工程は、前記複数の文書の各々と前記検索文書との間の類似度をテキスト特徴情報とイメージ特徴情報の夫々について求め、求めた類似度に基づいて検索結果を決定することを特徴とする請求項3に記載の文書検索方法。
- 前記検索工程は、テキスト特徴情報による類似度の算出結果とイメージ特徴情報による類似度の算出結果に対する重み付けを、前記文字認識処理の精度評価に基づいて変更することを特徴とする請求項4に記載の文書検索方法。
- 前記第1生成工程は、前記テキストデータから抽出された単語の重要度に基づいて該テキストデータから所定量の文を抽出し、ここで前記重要度は前記保持手段に保持された複数の文書による単語の出現度数に基づいて決定されたものであり、抽出された文に含まれる各単語の出現度数に基づいてテキスト情報を生成することを特徴とする請求項1に記載の文書検索方法。
- 前記第1生成工程は、前記抽出された文に含まれる各単語の出現順を加味した複数の単語の集合を単位とした出現度数に基づいてテキスト特徴情報を生成することを特徴とする請求項6に記載の文書検索方法。
- 文書を検索する文書検索装置であって、
検索文書のイメージに対して文字認識処理を実行する文字認識手段と、
前記文字認識手段によって得られたテキストデータから単語を抽出し、各単語の出現度数に基づいてテキスト特徴情報を生成する第1生成手段と、
前記第1生成手段で生成されたテキスト特徴情報を用いて、複数の文書の各々についてテキスト特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を取得する検索手段とを備えることを特徴とする文書検索装置。 - 請求項1乃至7のいずれかに記載の文書検索方法をコンピュータに実行させるための制御プログラム。
- 請求項1乃至7のいずれかに記載の文書検索方法をコンピュータに実行させるための制御プログラムを格納するコンピュータ可読メモリ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003125820A JP2004334341A (ja) | 2003-04-30 | 2003-04-30 | 文書検索装置、文書検索方法及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003125820A JP2004334341A (ja) | 2003-04-30 | 2003-04-30 | 文書検索装置、文書検索方法及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004334341A true JP2004334341A (ja) | 2004-11-25 |
Family
ID=33502974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003125820A Pending JP2004334341A (ja) | 2003-04-30 | 2003-04-30 | 文書検索装置、文書検索方法及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004334341A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008015579A (ja) * | 2006-07-03 | 2008-01-24 | Canon Inc | データ管理システム |
JP2012090264A (ja) * | 2010-10-19 | 2012-05-10 | Palo Alto Research Center Inc | 二次元ビジュアルフィンガープリントを用いるプレゼンテーション及びリッチドキュメントコンテンツの混合コレクションにおける類似コンテンツの発見方法 |
JP2014219753A (ja) * | 2013-05-02 | 2014-11-20 | 株式会社リコー | 情報処理システム、情報処理装置及びプログラム |
JP2015026350A (ja) * | 2013-07-29 | 2015-02-05 | 富士通株式会社 | 情報処理システム、情報処理方法、および情報処理プログラム |
KR101620631B1 (ko) * | 2014-10-13 | 2016-05-24 | 한국원자력통제기술원 | 원자력 관련 유사 기술 문서 검색 시스템 및 그 방법 |
JP2019508761A (ja) * | 2016-03-31 | 2019-03-28 | ドロップボックス, インコーポレイテッド | デジタル文書のインテリジェントな特定および提示 |
JPWO2020261479A1 (ja) * | 2019-06-27 | 2020-12-30 | ||
CN112613293A (zh) * | 2020-12-29 | 2021-04-06 | 北京中科闻歌科技股份有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN112766269A (zh) * | 2021-03-04 | 2021-05-07 | 深圳康佳电子科技有限公司 | 一种图片文本检索方法、智能终端及存储介质 |
CN113821675A (zh) * | 2021-06-30 | 2021-12-21 | 腾讯科技(北京)有限公司 | 视频识别方法、装置、电子设备及计算机可读存储介质 |
CN113821675B (zh) * | 2021-06-30 | 2024-06-07 | 腾讯科技(北京)有限公司 | 视频识别方法、装置、电子设备及计算机可读存储介质 |
-
2003
- 2003-04-30 JP JP2003125820A patent/JP2004334341A/ja active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008015579A (ja) * | 2006-07-03 | 2008-01-24 | Canon Inc | データ管理システム |
US8294928B2 (en) | 2006-07-03 | 2012-10-23 | Canon Kabushiki Kaisha | Data management system to extract text data |
JP2012090264A (ja) * | 2010-10-19 | 2012-05-10 | Palo Alto Research Center Inc | 二次元ビジュアルフィンガープリントを用いるプレゼンテーション及びリッチドキュメントコンテンツの混合コレクションにおける類似コンテンツの発見方法 |
JP2014219753A (ja) * | 2013-05-02 | 2014-11-20 | 株式会社リコー | 情報処理システム、情報処理装置及びプログラム |
JP2015026350A (ja) * | 2013-07-29 | 2015-02-05 | 富士通株式会社 | 情報処理システム、情報処理方法、および情報処理プログラム |
KR101620631B1 (ko) * | 2014-10-13 | 2016-05-24 | 한국원자력통제기술원 | 원자력 관련 유사 기술 문서 검색 시스템 및 그 방법 |
JP2019508761A (ja) * | 2016-03-31 | 2019-03-28 | ドロップボックス, インコーポレイテッド | デジタル文書のインテリジェントな特定および提示 |
WO2020261479A1 (ja) * | 2019-06-27 | 2020-12-30 | 株式会社島津製作所 | 関連文書を検索して表示する方法およびシステム |
JPWO2020261479A1 (ja) * | 2019-06-27 | 2020-12-30 | ||
JP7251625B2 (ja) | 2019-06-27 | 2023-04-04 | 株式会社島津製作所 | 関連文書を検索して表示する方法およびシステム |
CN112613293A (zh) * | 2020-12-29 | 2021-04-06 | 北京中科闻歌科技股份有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN112613293B (zh) * | 2020-12-29 | 2024-05-24 | 北京中科闻歌科技股份有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN112766269A (zh) * | 2021-03-04 | 2021-05-07 | 深圳康佳电子科技有限公司 | 一种图片文本检索方法、智能终端及存储介质 |
CN112766269B (zh) * | 2021-03-04 | 2024-03-12 | 深圳康佳电子科技有限公司 | 一种图片文本检索方法、智能终端及存储介质 |
CN113821675A (zh) * | 2021-06-30 | 2021-12-21 | 腾讯科技(北京)有限公司 | 视频识别方法、装置、电子设备及计算机可读存储介质 |
CN113821675B (zh) * | 2021-06-30 | 2024-06-07 | 腾讯科技(北京)有限公司 | 视频识别方法、装置、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4366108B2 (ja) | 文書検索装置、文書検索方法及びコンピュータプログラム | |
JP2004348591A (ja) | 文書検索方法及び装置 | |
US7647303B2 (en) | Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program | |
US6330576B1 (en) | User-friendly information processing device and method and computer program product for retrieving and displaying objects | |
US20060080361A1 (en) | Document information processing apparatus, document information processing method, and document information processing program | |
JP5430312B2 (ja) | データ処理装置、データ名生成方法及びコンピュータプログラム | |
JP2004334341A (ja) | 文書検索装置、文書検索方法及び記録媒体 | |
JP2006065477A (ja) | 文字認識装置 | |
JP2009199302A (ja) | ドキュメントを解析するためのプログラム,装置および方法 | |
US8135573B2 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
JP2006343925A (ja) | 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム | |
JPH10289240A (ja) | 画像処理装置及びその制御方法 | |
JPH11250077A (ja) | 情報処理装置、情報処理方法及び記録媒体 | |
JP2002251412A (ja) | 文書検索装置および方法ならびに記憶媒体 | |
JPH10289245A (ja) | 画像処理装置及びその制御方法 | |
JP2004348467A (ja) | 画像検索装置及びその制御方法、プログラム | |
JP2002084492A (ja) | 編集処理装置、及び編集処理プログラムが記憶された記憶媒体 | |
JP2007018158A (ja) | 文字処理装置、文字処理方法及び記録媒体 | |
JP2000020549A (ja) | 文書データベースシステムへの入力支援装置 | |
JP2000029901A (ja) | 画像検索装置及び方法 | |
JP2007048061A (ja) | 文字処理装置、文字処理方法及び記録媒体 | |
JP2020047031A (ja) | 文書検索装置、文書検索システム及びプログラム | |
JP2002251401A (ja) | 文書検索装置および方法ならびに記憶媒体 | |
JPH10260981A (ja) | 情報処理装置および情報処理方法 | |
JP2007241473A (ja) | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090331 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090424 |