JP2006171851A

JP2006171851A - 文書ファイル解析システム、文書ファイル解析方法及びプログラム

Info

Publication number: JP2006171851A
Application number: JP2004359803A
Authority: JP
Inventors: Hisashi Shiba; 尚志斯波
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-12-13
Filing date: 2004-12-13
Publication date: 2006-06-29

Abstract

【課題】文書ファイルのフォーマットに依存せず、また、文字が画像に埋め込まれていても自動的に文字列を抽出し、文書ファイルを検索に利用できるようにする。
【解決手段】文書ファイル読み込み装置１０１によって読み込まれた文書を文書ファイル表示装置１０２で自動的に表示する。文書ファイルスクロール装置１０３で文書の全領域が表示できるように自動的にスクロール表示し、スクロール毎に画面取得装置１０４にて画面キャプチャする。得られた部分画像を画面合成装置１０５でページ毎に１つの画像に統合し、レイアウト解析装置１０６及び文字認識装置１０７により得られた画像から文字列を抽出し、その結果をテキストファイル保存装置１０８にて保存する。
【選択図】図１

Description

本発明は、文書ファイル解析システムに関し、特に、アプリケーションに依存せず自動的に文字列やその座標を抽出できる文書ファイル解析システム、文書ファイル解析方法及びプログラムに関する。

従来より、文書ファイルをその内容に基づいて検索するためには、そのファイルフォーマットに従って文書を解析するソフトウェアを利用する方法が用いられている。この方法においては、ある文書ファイルについての解析ソフトウェアが存在しなくても、ファイルフォーマットが公開されていれば、解析するソフトウェアを作成することによって、文字列を抽出することができる。

また、文書ファイルを作成したアプリケーションで文書をテキストファイルとして予め保存しておく方法が用いられている。この方法においては、文書ファイルをテキストファイルとして保存しているため、文書ファイルを容易に検索することができる。

また、プリンタドライバ形式を採用し、文書ファイルの印刷時にてアプリケーションから文書ファイルがプリンタに送信される際に文字列を取り出す手法も存在する。さらに、プリンタドライバ形式を採用し、文書ファイルの印刷時にてアプリケーションから文書ファイルがプリンタに送信される際に、文書データを画像として取得し、文字認識を施すことにより文字列を取得する方法も存在する。

図１２は、プリンタドライバ形式で画像を取得して文字認識する方法を実現する従来の文書ファイル解析システムを示す図である。

図１２に示す文書ファイル解析システム９００においては、文書ファイル読み込み装置９０１にて文書ファイルが読み込まれ、読み込まれた文書ファイルが印刷装置９０２に送出された際に、印刷画像取得装置９０３にて文書ファイルが画像データとして取得される。プリンタドライバについては開発手法が公開されており、比較的容易に実現できる。

その後、印刷画像取得装置９０３にて取得された画像に対して、レイアウト解析装置９０４においてレイアウト解析が行われ、文字認識装置９０５にて文字認識される。

そして、文字認識装置９０５にて文字認識された文字列が、テキストファイルとしてテキストファイル保存装置９０６に保存されることになる。

ここで、インデックスの作成方法を工夫することにより、文書検索を容易にする技術が考えられている（例えば、特許文献１参照。）。

また、画像からの文字抽出について文字認識を利用することにより、文書検索を容易に行う技術が考えられている（例えば、特許文献２参照。）。
特開２００１−１１７９３４号公報特開２０００−１８１９２７号公報

しかしながら、文書ファイルフォーマットに従って解析するソフトウェアは、対応できる文書フォーマットが制限されているため、全てのアプリケーションの文書ファイルを解析することができないという問題点がある。一方、多くのアプリケーションの文書ファイルはフォーマットが開示されていないため、対応する解析ソフトウェアを開発することができないという問題点がある。上述した特許文献１ではこの問題点を指摘しているが、具体的な解決策は示されていない。

また、一部のアプリケーションでは、文書ファイルをテキストファイルで保存する機能を有しているが、文書ファイルを予めテキストファイルとして保存しなければならず、そのための手間がかかってしまうという問題点がある。また、テキストファイルとして保存できないアプリケーションも多い。

さらに、文書ファイルであって文字が画像として保存されている場合があり、その場合、文書ファイルを表示するアプリケーションに備わっている機能だけでは文字列を抽出することができないという問題点がある。上述した特許文献２では、画像からの文字抽出について文字認識の利用を提案しているものの、フォーマットが公開されていない画像については考慮していない。また、フォーマットが公開されていない文書ファイルについても考慮していない。

また、プリンタドライバ形式の場合は、印刷許可されていない文書ファイルを解析することができないという問題点がある。また、プリンタドライバ形式は、実装方法が公開されているとはいえ、開発にある程度の期間を要する。また、公開されている実装方法では印刷時のデータを取得できないアプリケーションも存在する。特に、プリンタドライバ形式で印刷時に文字列を取得する方法では、一部のアプリケーションでは印刷時に見栄えをよくするため、公開された文字コードの代わりに特殊なコードをプリンタへ送信しており、そのため、文字列を判別できないという問題点がある。

本発明は、上述したような従来の技術が有する問題点に鑑みてなされたものであって、第１の目的は、ファイルフォーマットが開示されていない文書ファイルでも文字列及び文字の座標等を抽出することにある。

また、本発明の第２の目的は、文書ファイルから人手を介さずに自動的に文字列及び文字の座標等を抽出することにある。

また、本発明の第３の目的は、画像として保存されている文字や画像中の文字も、画像フォーマットによらずに文字列及び文字の座標等を抽出することにある。

上記目的を達成するために本発明は、
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
前記画像取得手段にて取得された複数の画像を合成して１つの全体画像とする画像合成手段と、
前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文字列抽出手段にて抽出された文字列を記憶する文字列記憶手段とを有する。

また、文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
前記画像取得手段にて取得された複数の画像を合成して１つの全体画像とする画像合成手段と、
前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルを印刷するための印刷データから文字列を抽出する印刷文字抽出手段と、
前記文字列抽出手段にて抽出された文字列と、前記印刷文字抽出手段にて抽出された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する。

また、文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
前記画像取得手段にて取得された複数の画像を合成して１つの全体画像とする画像合成手段と、
前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得るテキスト選択手段と、
前記文字列抽出手段にて抽出された文字列と、前記テキスト選択手段にて得られた文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する。

また、文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
前記画像取得手段にて取得された複数の画像を合成して１つの全体画像とする画像合成手段と、
前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルをテキスト形式の文字列として保存するテキスト形式保存手段と、
前記文字列抽出手段にて抽出された文字列と、前記テキスト形式保存手段にて保存された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する。

また、前記画像合成手段にて合成された全体画像をレイアウト解析し、領域分割するレイアウト解析手段を有し、
前記文字列抽出手段は、前記レイアウト解析手段におけるレイアウト解析結果に基づいて文字列を抽出することを特徴とする。

また、文書ファイルを印刷するための印刷データを画像として取得する印刷画像取得手段と、
前記印刷画像取得手段にて取得された画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルを印刷するための印刷データから文字列を抽出する印刷文字抽出手段と、
前記文字列抽出手段にて抽出された文字列と、前記印刷文字抽出手段にて抽出された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する。

また、文書ファイルを印刷するための印刷データを画像として取得する印刷画像取得手段と、
前記印刷画像取得手段にて取得された画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得るテキスト選択手段と、
前記文字列抽出手段にて抽出された文字列と、前記テキスト選択手段にて得られた文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する。

また、文書ファイルを印刷するための印刷データを画像として取得する印刷画像取得手段と、
前記印刷画像取得手段にて取得された画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルをテキスト形式の文字列として保存するテキスト形式保存手段と、
前記文字列抽出手段にて抽出された文字列と、前記テキスト形式保存手段にて保存された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する。

また、前記印刷画像取得手段にて取得された画像をレイアウト解析し、領域分割するレイアウト解析手段を有し、
前記文字列抽出手段は、前記レイアウト解析手段におけるレイアウト解析結果に基づいて文字列を抽出することを特徴とする。

また、前記文字列記憶手段は、前記文字列、並びに色やフォント種別を含むレイアウト情報をメタファイルとして保存することを特徴とする。

また、前記文書ファイルが指定された場合に、該文書ファイルに応じたアプリケーションプログラムを起動するアプリケーション起動手段を有することを特徴とする。

以上説明したように本発明においては、表示した文書ファイルを画像として取得し、この画像から文字認識により文字列を抽出するため、テキストとして保存できないアプリケーションや、印刷が許可されていない文書ファイルであっても表示された状態から文字列を抽出することができ、それにより、ファイルフォーマットが開示されていない文書ファイルでも文字列を抽出することができ、表示できる全ての文書ファイルに対して検索を行うことができる。

また、文書ファイルの表示についての操作は、コンピュータ上で標準的に提供されているスクリプト実行機能を利用することにより自動実行可能であるため、文書ファイルから人手を介さずに文字列を抽出することができる。

また、画像処理によるレイアウト解析や文字認識を利用しているため、画像として保存されている文字や画像中の文字も抽出することができる。この結果、雑誌や書籍をスキャナで取り込んだ画像についても検索対象とすることができる。

以下に、本発明の実施の形態について図面を参照して詳細に説明する。

（第１の実施の形態）
図１は、本発明の文書ファイル解析システムの第１の実施の形態を示す図である。

本形態は図１に示すように、文書ファイルを読み込む文書ファイル読み込み装置１０１と、文書ファイル読み込み装置１０１にて読み込まれた文書ファイルを表示するアプリケーション起動手段となる文書ファイル表示装置１０２と、文書ファイル読み込み装置１０１にて読み込まれた文書ファイルを文書ファイル表示装置１０２にて縦横にスクロール表示する文書ファイルスクロール装置１０３と、文書ファイルスクロール装置１０３によって文書ファイル表示装置１０２に画面表示された部分を画像として取得して保存する画面取得装置１０４と、画面取得装置１０４にて取得された複数の画面を合成して１つの全体画像とする画像合成装置１０５と、画像合成装置１０５にて合成された全体画像をレイアウト解析し、領域分割するレイアウト解析装置１０６と、レイアウト解析装置１０６におけるレイアウト解析結果を利用して、画像合成装置１０５にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段である文字認識装置１０７と、文字認識装置１０７にて抽出された文字列をテキストファイルとして記憶する文字列記憶手段であるテキストファイル保存装置１０８とから構成されている。

文書ファイル読み込み装置１０１は、コンピュータの記憶装置上やネットワークを介した別のコンピュータの記憶装置上にある文書ファイルを読み込む。

また、文書ファイル表示装置１０２は、文書ファイル読み込み装置１０１にて読み込まれた文書ファイルの種類を自動的に判定し、その文書ファイルの表示が可能なアプリケーションを自動的に選択し、そのアプリケーションを自動的に起動し、文書ファイルを表示する。

また、文書ファイルスクロール装置１０３は、文書ファイルの全領域が表示されるように、文書ファイル表示装置１０２上にて文書ファイルを上下左右にスクロールするものであり、文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、文書ファイル全体またはこの文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御部１０３ａを有している。

また、画像合成装置１０５は、画面取得装置１０４にて取得された画像について、領域がオーバーラップしているものについては、合成して１つの画像とする。画像はページ毎に１つの画像とする。見開きページを考慮して、複数ページを１つの画像としてもよい。

また、レイアウト解析装置１０６は、文書ファイルを文書領域や画像領域、表領域等に領域分割する。１つの文章が新聞記事等のように複数の領域に分かれていても、文脈等の解析や一般的な文章構造のルールに基づいて連続した文章とみなし、文章毎及び画像や表、図形毎に画像を領域分割する。

以下に、上記のように構成された文書ファイル解析システムにおける文書ファイル解析方法について説明する。

まず、文書ファイル読み込み装置１０１において、実行が指示されたコンピュータの記憶装置、または、ネットワークを介した別のコンピュータの記憶装置から文書ファイルを読み込む。

次に、文書ファイル表示装置１０２において、文書ファイル読み込み装置１０１にて読み込まれた文書ファイルの拡張子や文書ファイルのヘッダに記述された情報に基づいて、元に作成したアプリケーションを判断し、そのアプリケーションを起動する。文書ファイル表示装置１０２を実行しているコンピュータに該当するアプリケーションが存在しない場合は、代替アプリケーションを起動する。代替アプリケーションについては予め表にして保存しておく方法がある。

ここで、アプリケーション起動後に表示されるのは文書ファイルの１部の領域である。一般的に、キーボード操作やマウス操作により文書ファイルをスクロールするが、文書ファイルスクロール装置１０３においては、このようなキーボード操作やマウス操作を模擬して、文書をスクロールする。コンピュータに標準的に搭載されているスクリプト実行機能により、このような操作を自動実行できる。

画面取得装置１０４においては、予め決められたスクロール回数毎に表示画面をキャプチャして画像ファイルとして取得して保存する。例えば、次ページと文章が繋がるように、上下方向には半ページの単位でスクロールする。画面キャプチャは、例えば、コンピュータの画面表示を担うメモリ領域を解析するといった方法で可能であるが、コンピュータ標準搭載の機能を利用する方法や、広く公開されているキャプチャ用ソフトウェアを利用する方法があり容易に実現できる。

次に、画像合成装置１０５において、画像取得装置１０４にて取得された画像間でオーバーラップする領域がある画像については１つに合成する。オーバーラップするかどうか判定する場合、例えば、画像を複数の領域に分割し、領域毎にテンプレートマッチングを行うことにより判断する。例えば、半ページずつ、ずれた画像を合成することにより、ページ毎に１つの画像を生成できる。また、複数ページにまたがる文章を１つにまとめることもできる。なお、複数画像をつなぎ合わせる方法としては、例えば、特開２００１−３２０５７９号公報に記載された方法を用いることが考えられる。

次に、レイアウト解析装置１０６において、画像合成装置１０５にて合成された画像に対してレイアウト解析し、文書領域、画像領域、図形領域等に分ける。１つの文章が複数の領域に分かれていても、文脈等の解析や一般的な文章構造のルールに基づいて連続した文章とみなす。また、横書き縦書きを判断する。レイアウト解析には、例えば、輝度値の変動周波数に基づくテクスチャ解析により領域分割することができる。文章領域が複数ある場合は、例えば総当りで文章領域を連結し、生成される単語に矛盾が無いか、文法的に問題無いかを得点化し、その得点を比較することにより適切な連結関係を推測することができる。なお、レイアウト解析が無くても文字認識自体は可能である。ただし、横書き縦書きの判断を誤ると、テキストが正確な文章として得られなくなる、複数領域に跨る単語を生成できないといった問題が生じる場合がある。レイアウト解析の方法としては、例えば、特許第２５７６３５０号公報に記載された方法を用いることが考えられる。

次に、文字認識装置１０７において、画像合成装置１０５にて合成された画像に対して画像特徴を利用して文字認識し、レイアウト結果を利用して文字列を抽出して文章を構成する。文字認識の方法としては、これまでに数多くの手法が提案されている。例えば、特許第３０８００６６号公報に記載された方法がある。

その後、テキストファイル保存装置１０８において、文字認識装置１０７にて文字認識されて抽出された文字列を、予め決められたフォーマットでテキストファイルとして保存する。

以上説明したように本形態においては、単に文書ファイルを表示して画面キャプチャを行い文字認識を実施しているため、フォーマットに依存せずあらゆる文書ファイルから文字列を抽出することができる。また、コンピュータ搭載の標準機能を利用して容易に自動処理を実施することができる。さらに、レイアウト解析と文字認識により、画像に埋め込まれた文字についても文字列として抽出することができる。

以下に、具体的な実施例を用いて本形態の動作を説明する。

図２は、図１に示した文書ファイル解析システムにおける具体的な動作を説明するための図であり、（ａ）は文書ファイル読み込み装置１０１にて読み込まれた文書ファイルの一例を示す図、（ｂ）は（ａ）に示した文書ファイルのコンピュータの画面上での表示状態を示す図、（ｃ）は（ａ）に示した文書ファイルをスクロール毎の画像を示す図である。

図２（ａ）に示すような表示形式の文書ファイルが文書ファイル読み込み装置１０１にて読み込まれた場合、これに対応するアプリケーションが表示されると、図２（ｂ）に示すように表示される。この状態では文書ファイルのうち、特定のページ、しかもページの一部領域しか表示されていない。これに対して、マウス操作やカーソルキーにより、他の部分を表示して全体を把握することができる。

図２（ａ）に示すページの全体像を得るために、ある領域を表示し画面キャプチャし、ある程度（例えば半ページ）スクロールし画面キャプチャする。ページ全体が表示されるまでこの操作を繰り返す。

この操作の結果、図２（ｃ）のように同一ページ内で、お互いにオーバーラップがある別々の領域の画像が生成される。オーバーラップしている領域は完全に同一の画像パターンであるため、例えば、テンプレートマッチング等広く知られた手法により、１つの画像として合成することができる。

このようにして画面合成装置１０５にて合成された画像に対して、レイアウト解析装置１０６におけるレイアウト解析と、文字認識装置１０７における文字認識を実行して文字列を抽出する。

レイアウト解析や文字認識については、上述したような複数に分割された画像の統合は必ずしも必要ではないが、例えば、単語が図２に示したように分断されると正確に抽出されない場合があり、また、１つの語が途中で分断されると認識できない場合があるため、統合する方が好ましい。また、文字認識手法によってはレイアウト解析と密接に連携しており分離できない場合がある。つまり、レイアウト解析は文字認識装置に含まれる場合がある。

上述した一連の操作は、コンピュータに標準搭載されたスクリプトの機能を利用することにより容易に自動実行可能である。

（第２の実施の形態）
図３は、本発明の文書ファイル解析システムの第２の実施の形態を示す図である。

本形態は図３に示すように、第１の実施の形態にて示したものに対して、文書ファイル読み込み装置１０１にて読み込まれた文書ファイルをプリンタに送る印刷装置２０８と、文書ファイルを印刷するためにプリンタに送られる印刷データから文字列を抽出する印刷文字抽出装置２０９と、文字認識装置１０７にて抽出された文字列と印刷文字抽出装置２０９にて抽出された文字列とを比較し、文字認識結果を補完するマッチング装置２１０とを備え、マッチング装置２１０にて補完された文字列がテキストファイル保存装置２１１に記憶される。

印刷装置２０８は、一般的なコンピュータでのプリンタドライバに相当する。一般的なコンピュータのプリンタドライバは作成方法が公開されており、開発にある程度の期間が必要ではあるが比較的容易に作成することができる。プリンタドライバは、文書ファイルを印刷する際、文字コードをプリンタに送出しており、印刷文字抽出装置２０９は、プリンタに送出された文字コードをキャプチャして保存する。

文字認識装置１０７にて抽出された文字列は認識誤りが存在する場合がある。一方、印刷文字抽出装置２０９は、認識誤りは生じないものの、文字を文書に書かれている順番に抽出できない場合がある。また、文書ファイルによっては、印刷時の画像品質を高めるため、文字に特殊な一般的でないコードが割り当てられ、文字コードを取り出せない場合がある。さらに、画像として保存された文字、画像中の文字については文字コードを得ることはできない。文書ファイルによっては印刷が禁止されていたり、アプリケーションによっては印刷機能が存在しない場合もある。

そこで、マッチング装置２１０によって、文字認識装置１０７にて抽出された文字列と印刷文字抽出装置２０９にて抽出された文字列とのマッチングをとり、お互いに補完しあうことにより、より精度高く文字列を得ることができる。

例えば、文字認識装置１０７において、本来は『文書ファイルを記述』とあるべきところを『文書ファイルを誤述』と誤認識してしまったとする。このとき、印刷文字抽出装置２０９において『文書ファイルを記述』と正解が得られているならば、印刷文字抽出装置２０９にて抽出された文字列で文字認識結果を補うことができる。

一方、一部の文書ファイルでは、文書ファイルの途中で文字コードが独自形式のものとなり、印刷文字抽出装置２０９では抽出できない場合がある。その時、文字認識装置１０７における文字認識結果によって、印刷文字抽出装置２０９にて抽出された文字列を補うことができる。

また、多くの文書ファイルでは、描画機能を利用して文字列を図形と結合できるが、結合方法によっては、結合した文字列をテキストとして抽出できなくなる場合がある。そのような場合は、文字認識装置１０７における文字認識で得られた文字列をもってして、印刷文字抽出装置２０９にて抽出された文字列を補完することができる。

また、文書ファイル中に埋め込まれた画像中の文字についても、文字認識によってしかテキスト情報を抽出できないため、文字認識装置１０７における文字認識によって、印刷文字抽出装置２０９にて抽出された文字列を補完することになる。

また、一部の文書ファイルでは、ファイル単位、ページ単位、または文字列単位で、印刷やテキストの選択、テキストファイルとしての保存を無効と設定することができる。そのような文書ファイルの場合、文字認識装置１０７における文字認識によって、印刷文字抽出装置２０９にて抽出された文字列を補完し、制約無く文字列を抽出することができる。

また、文字認識装置１０７における文字認識では、フォントのサイズも認識し、必然的に文字の位置も判明する。一方、印刷文字抽出装置２０９では、文字列の位置を抽出できない場合がある。そのような場合、印刷文字抽出装置２０９にて抽出された文字列と、文字認識装置１０７における文字認識結果とをマッチング装置２１０で対応をとることにより、テキストの文章ファイル上の位置が分かることになる。文字の位置が分かることにより、検索時、キーワードの位置を示すことができ非常に有効である。

なお、マッチング方法としては、例えば、広く使われているＤＰマッチングといった方法がある。

上記のように構成された本形態においては、上述した印刷装置２０８、印刷文字抽出装置２０９及びマッチング装置２１０における処理が加わった以外は、第１の実施の形態にて説明したものと同様の処理にて文書ファイル解析方法が行われることになる。

（第３の実施の形態）
図４は、本発明の文書ファイル解析システムの第３の実施の形態を示す図である。

本形態は図４に示すように、第１の実施の形態にて示したものに対して、文書ファイル表示装置１０２にて表示されている文書ファイルからテキスト領域を選択し、そのテキスト領域から文字列を得て保存するテキスト選択装置３０８と、文字認識装置１０７にて抽出された文字列とテキスト選択装置３０８にて得られた文字列とを比較し、文字認識結果を補完するマッチング装置３０９とを備え、マッチング装置３０９にて補完された文字列がテキストファイル保存装置３１０に記憶される。

テキスト選択装置３０８は、多くのアプリケーションに標準で用意されているテキスト領域選択機能を利用し、自動的にテキスト領域を選択し、選択したテキスト領域から文字列をテキスト情報として取得し、メモリや一時記憶領域に保存する。

文字認識装置１０７によって得られた文字列は認識誤りが存在する場合がある。一方、テキスト選択装置３０８では、認識誤りは無いものの、作成したアプリケーションによっては選択・保存の手段が提供されない場合がある。また、画像として保存された文字、画像中の文字については選択することはできない。

そこで、マッチング装置３０９によって、文字認識装置１０７によって得られた文字列とテキスト選択装置３０８によって得られた文字列とのマッチングをとり、お互いに補完しあうことにより、より精度高く文字列を得ることができる。

第２の実施の形態にて示したものと同様に、多くの文書ファイルでは、描画機能を利用して文字列を図形と結合できるが、結合方法によっては、結合した文字列をテキストとして抽出できなくなる場合がある。そのような場合は、文字認識装置１０７における文字認識で得られた文字列をもってして、テキスト選択装置３０８にて得られた文字列を補完することができる。

また、文書ファイル中に埋め込まれた画像中の文字についても、文字認識によってしかテキスト情報を抽出できないため、文字認識装置１０７における文字認識によって、テキスト選択装置３０８にて得られた文字列を補完することになる。

また、一部の文書ファイルでは、ファイル単位、ページ単位、または文字列単位で、印刷やテキストの選択、テキストファイルとしての保存を無効と設定することができる。そのような文書ファイルの場合、文字認識装置１０７における文字認識によって、テキスト選択装置３０８にて得られた文字列を補完し、制約無く文字列を抽出することができる。

また、文字認識装置１０７における文字認識では、フォントのサイズも認識し、必然的に文字の位置も判明する。一方、テキスト選択装置３０８では、文字列の位置を抽出できない場合がある。そのような場合、テキスト選択装置３０８にて得られた文字列と、文字認識装置１０７における文字認識結果とをマッチング装置３０９で対応をとることにより、テキストの文章ファイル上の位置が分かることになる。文字の位置が分かることにより、検索時、キーワードの位置を示すことができ非常に有効である。

上記のように構成された本形態においては、上述したテキスト選択装置３０８及びマッチング装置３０９における処理が加わった以外は、第１の実施の形態にて説明したものと同様の処理にて文書ファイル解析方法が行われることになる。

（第４の実施の形態）
図５は、本発明の文書ファイル解析システムの第４の実施の形態を示す図である。

本形態は図５に示すように、第１の実施の形態にて示したものに対して、文書ファイル表示装置１０２にて表示されている文書ファイルをテキスト形式の文字列として保存するテキスト形式保存装置４０８と、文字認識装置１０７にて抽出された文字列とテキスト形式保存装置４０８にて保存された文字列とを比較し、文字認識結果を補完するマッチング装置４０９とを備え、マッチング装置４０９にて補完された文字列がテキストファイル保存装置４１０に記憶される。

テキスト形式保存装置４０８は、多くのアプリケーションで標準で用意されている、表示している文書をテキスト形式で保存する機能を利用して、自動的に文書ファイルをテキスト形式で保存する。

文字認識装置１０７にて得られた文字列は認識誤りが存在する場合がある。一方、テキスト形式保存装置４０８は、認識誤りは無いものの、作成したアプリケーションによってはテキスト形式での保存機能が提供されない場合がある。また、画像として保存された文字、画像中の文字については選択することはできない。

そこで、マッチング装置４０９によって、文字認識装置１０７にて得られた文字列と、テキスト形式保存装置４０８に保存された文字列とのマッチングをとり、お互いに補完しあうことにより、より精度高く文字列を得ることができる。

第２の実施の形態にて示したものと同様に、多くの文書ファイルでは、描画機能を利用して文字列を図形と結合できるが、結合方法によっては、結合した文字列をテキストとして抽出できなくなる場合がある。そのような場合は、文字認識装置１０７における文字認識で得られた文字列をもってして、テキスト形式保存装置４０８に保存された文字列を補完することができる。

また、文書ファイル中に埋め込まれた画像中の文字についても、文字認識によってしかテキスト情報を抽出できないため、文字認識装置１０７における文字認識によって、テキスト形式保存装置４０８に保存された文字列を補完することになる。

また、一部の文書ファイルでは、ファイル単位、ページ単位、または文字列単位で、印刷やテキストの選択、テキストファイルとしての保存を無効と設定することができる。そのような文書ファイルの場合、文字認識装置１０７における文字認識によって、テキスト形式保存装置４０８に保存された文字列を補完し、制約無く文字列を抽出することができる。

また、文字認識装置１０７における文字認識では、フォントのサイズも認識し、必然的に文字の位置も判明する。一方、テキスト形式保存装置４０８では、文字列の位置を抽出できない場合がある。そのような場合、テキスト形式保存装置４０８に保存された文字列と、文字認識装置１０７における文字認識結果とをマッチング装置４０９で対応をとることにより、テキストの文章ファイル上の位置が分かることになる。文字の位置が分かることにより、検索時、キーワードの位置を示すことができ非常に有効である。

上記のように構成された本形態においては、上述したテキスト形式保存装置４０８及びマッチング装置４０９における処理が加わった以外は、第１の実施の形態にて説明したものと同様の処理にて文書ファイル解析方法が行われることになる。

（第５の実施の形態）
図６は、本発明の文書ファイル解析システムの第５の実施の形態を示す図である。

本形態は図６に示すように、第２の実施の形態にて示したものに対して、文書ファイル表示装置１０２と、文書ファイルスクロール装置１０３と、画面取得装置１０４と、画面合成装置１０５の代わりに、印刷装置２０８から送出される印刷データを画像として取得する印刷画像取得装置５０３を備え、レイアウト解析装置５０４において、印刷画像取得装置５０３にて取得された画像をレイアウト解析して領域分割し、文字認識装置５０５において、印刷画像取得装置５０３にて取得された画像について、レイアウト解析装置５０４における解析結果に基づいて文字認識を行い、マッチング装置５０７において、印刷文字抽出装置２０９にて抽出された文字列と文字認識装置５０５にて抽出された文字列とを比較して補完し、補完された文字列がテキストファイル保存装置５０８に記憶されるものである。

印刷装置２０８は、一般的なコンピュータでのプリンタドライバに相当する。一般的なコンピュータのプリンタドライバは作成方法が公開されており、開発にある程度の期間が必要ではあるが比較的容易に作成することができる。プリンタドライバは、文書ファイルを印刷する際、ページ毎にデータを画像としてプリンタに送出しており、印刷画像取得装置５０３は、プリンタに送出された画像をキャプチャして保存する。

上記のように構成された本形態においては、上述した第１の実施の形態にて説明した文書ファイル読み込み装置１０１における処理と、第２の実施の形態にて説明した印刷装置２０８及び印刷文字抽出装置２０９における処理に加えて、上述した、印刷画像取得装置５０３、レイアウト解析装置５０４、文字認識装置５０５、マッチング装置５０７及びテキストファイル保存装置５０８における処理が行われることにより、文書ファイル解析方法が行われることになる。

（第６の実施の形態）
図７は、本発明の文書ファイル解析システムの第６の実施の形態を示す図である。

本形態は図７に示すように、第３の実施の形態にて示したものに対して、文書ファイルスクロール装置１０３と、画面取得装置１０４と、画面合成装置１０５の代わりに、第２の実施の形態にて示した印刷装置２０８と、第５の実施の形態にて示した印刷画像取得装置５０３、レイアウト解析装置５０４及び文字認識装置５０５を備え、マッチング装置６０８において、テキスト選択装置３０８にて得られた文字列と文字認識装置５０５にて抽出された文字列とを比較して補完し、補完された文字列がテキストファイル保存装置６０９に記憶されるものである。

上記のように構成された本形態においては、上述した第１の実施の形態にて説明した文書ファイル読み込み装置１０１及び文書ファイル表示装置１０２における処理と、第２の実施の形態にて説明した印刷装置２０８における処理と、第３の実施の形態にて説明したテキスト選択装置３０８における処理と、第５の実施の形態にて説明した印刷画像取得装置５０３、レイアウト解析装置５０４及び文字認識装置５０５における処理に加えて、上述したマッチング装置６０８及びテキストファイル保存装置６０９における処理が行われることにより、文書ファイル解析方法が行われることになる。

（第７の実施の形態）
図８は、本発明の文書ファイル解析システムの第７の実施の形態を示す図である。

本形態は図８に示すように、第４の実施の形態にて示したものに対して、文書ファイルスクロール装置１０３と、画面取得装置１０４と、画面合成装置１０５の代わりに、第２の実施の形態にて示した印刷装置２０８と、第５の実施の形態にて示した印刷画像取得装置５０３、レイアウト解析装置５０４及び文字認識装置５０５を備え、マッチング装置７０８において、テキスト形式保存装置４０８にて保存された文字列と文字認識装置５０５にて抽出された文字列とを比較して補完し、補完された文字列がテキストファイル保存装置７０９に記憶されるものである。

上記のように構成された本形態においては、上述した第１の実施の形態にて説明した文書ファイル読み込み装置１０１及び文書ファイル表示装置１０２における処理と、第２の実施の形態にて説明した印刷装置２０８における処理と、第４の実施の形態にて説明したテキスト形式保存装置４０８における処理と、第５の実施の形態にて説明した印刷画像取得装置５０３、レイアウト解析装置５０４及び文字認識装置５０５における処理に加えて、上述したマッチング装置７０８及びテキストファイル保存装置７０９における処理が行われることにより、文書ファイル解析方法が行われることになる。

（第８の実施の形態）
図９は、本発明の文書ファイル解析システムの第８の実施の形態を示す図である。

本形態は図９に示すように、第１の実施の形態にて示したものに対して、文字認識装置１０７にて抽出された文字列を記憶する文字列記憶手段として、文字列をテキスト形式ではなく、メタファイル形式として保存するメタファイル保存装置８０８が設けられている点が異なるものである。

メタファイル保存装置８０８は、文字認識装置１０７にて抽出された文字列だけでなく、その座標、色やフォント種別等をメタファイルとして保存する機能を備えている。

メタファイルは、テキストだけでなく、テキストが記述されている画像上の座標や、テキストのフォント等の情報を含む。

図１０は、図９に示した文書ファイル解析システムにて検索された文字列の位置を示す図である。

文書ファイルをある文字列で検索する場合は、図１０に示すように、文字列の座標が分かっていれば、文字列の位置を示すことができ、非常に効果的である。

上記のように構成された本形態においては、文字列の座標と色やフォント種別を利用して、画像が無くても、元のレイアウトで文書ファイルを表示することができる。メタファイルは、画像ファイルよりサイズが小さく、ディスク領域が足りない場合や、転送するネットワークの回線が低速の場合は、画像を削除してメタファイルのみを利用するという方法が有効となる。

文書ファイル読み込み装置１０１にて文書ファイルが読み込まれてから文字認識装置１０７にて文字列が抽出されるまでの処理については、第１の実施の形態にて説明したものと同様である。

レイアウト解析装置１０６におけるレイアウト解析及び文字に錦装置１０７における文字認識を実行すると、一般的に、画像上の文字の座標を得ることができる。さらに、文字のフォントや色、書体等についても情報を得ることができる場合がある。特に、座標については、検索時に位置を示すことができる等、有用性が高い。

図１１は、図９に示した文書ファイル解析システムにてメタファイル保存装置８０８に保存される座標情報の表記方法を説明するための図であり、（ａ）は文字毎に座標を表記したＣＳＶファイルの一例を示す図、（ｂ）は行毎に座標を表記したＣＳＶファイルの一例を示す図である。

図１１（ａ）に示すように、文字単位でＸＹ座標を表記した場合、文字数が多いとファイルサイズが非常に大きくなってしまう。そこで、図１１（ｂ）に示したように、行に番号を割り当て、行単位で行の範囲をＸＹ座標で表記する方法もある。

メタファイルの形式としては、図１１に示したようなＣＳＶ方法が最も容易に実現できる。これ以外に拡張性のある方法としては、例えば、広く利用されているマークアップ言語であるＨＴＭＬやＸＭＬを使う方法がある。

なお、本形態においては、第１の実施の形態にて示したものに対して、文字認識装置１０７にて抽出された文字列を記憶する文字列記憶手段として、文字列をテキスト形式ではなく、メタファイル形式として保存するメタファイル保存装置８０８が設けられているが、第２〜第７の実施の形態にて示したものに対して、テキストファイル保存装置２１１，３１０，４１０，５０８，６０９，７０９の代わりにメタファイル保存装置８０８を設けることも考えられる。

また、本発明においては、上述した文書ファイル解析システム内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを文書ファイル解析システムにて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを文書ファイル解析システムに読み込ませ、実行するものであっても良い。文書ファイル解析システムにて読取可能な記録媒体とは、フロッピーディスク、光磁気ディスク、ＤＶＤ、ＣＤなどの移設可能な記録媒体の他、文書ファイル解析システムに内蔵されたＨＤＤ等を指す。この記録媒体に記録されたプログラムは、例えば、制御ブロックにて読み込まれ、制御ブロックの制御によって、上述したものと同様の処理が行われる。

本発明の文書ファイル解析システムの第１の実施の形態を示す図である。図１に示した文書ファイル解析システムにおける具体的な動作を説明するための図であり、（ａ）は文書ファイル読み込み装置にて読み込まれた文書ファイルの一例を示す図、（ｂ）は（ａ）に示した文書ファイルのコンピュータの画面上での表示状態を示す図、（ｃ）は（ａ）に示した文書ファイルをスクロール毎の画像を示す図である。本発明の文書ファイル解析システムの第２の実施の形態を示す図である。本発明の文書ファイル解析システムの第３の実施の形態を示す図である。本発明の文書ファイル解析システムの第４の実施の形態を示す図である。本発明の文書ファイル解析システムの第５の実施の形態を示す図である。本発明の文書ファイル解析システムの第６の実施の形態を示す図である。本発明の文書ファイル解析システムの第７の実施の形態を示す図である。本発明の文書ファイル解析システムの第８の実施の形態を示す図である。図９に示した文書ファイル解析システムにて検索された文字列の位置を示す図である。図９に示した文書ファイル解析システムにてメタファイル保存装置に保存される座標情報の表記方法を説明するための図であり、（ａ）は文字毎に座標を表記したＣＳＶファイルの一例を示す図、（ｂ）は行毎に座標を表記したＣＳＶファイルの一例を示す図である。プリンタドライバ形式で画像を取得して文字認識する方法を実現する従来の文書ファイル解析システムを示す図である。

符号の説明

１０１文書ファイル読み込み装置
１０２文書ファイル表示装置
１０３文書ファイルスクロール装置
１０３ａスクロール制御部
１０４画像取得装置
１０５画面合成装置
１０６，５０４レイアウト解析装置
１０７，５０５文字認識装置
１０８，２１１，３１０，４１０，５０８，６０９，７０９テキストファイル保存装置
２０８印刷装置
２０９印刷文字抽出装置
２１０，３０９，４０９，５０７，６０８，７０８マッチング装置
３０８テキスト選択装置
４０８テキスト形式保存装置
５０３印刷画像取得装置
８０８メタファイル保存装置

Claims

文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
前記画像取得手段にて取得された複数の画像を合成して１つの全体画像とする画像合成手段と、
前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文字列抽出手段にて抽出された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
前記画像取得手段にて取得された複数の画像を合成して１つの全体画像とする画像合成手段と、
前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルを印刷するための印刷データから文字列を抽出する印刷文字抽出手段と、
前記文字列抽出手段にて抽出された文字列と、前記印刷文字抽出手段にて抽出された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
前記画像取得手段にて取得された複数の画像を合成して１つの全体画像とする画像合成手段と、
前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得るテキスト選択手段と、
前記文字列抽出手段にて抽出された文字列と、前記テキスト選択手段にて得られた文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
前記画像取得手段にて取得された複数の画像を合成して１つの全体画像とする画像合成手段と、
前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルをテキスト形式の文字列として保存するテキスト形式保存手段と、
前記文字列抽出手段にて抽出された文字列と、前記テキスト形式保存手段にて保存された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
請求項１乃至４のいずれか１項に記載の文書ファイル解析システムにおいて、
前記画像合成手段にて合成された全体画像をレイアウト解析し、領域分割するレイアウト解析手段を有し、
前記文字列抽出手段は、前記レイアウト解析手段におけるレイアウト解析結果に基づいて文字列を抽出することを特徴とする文書ファイル解析システム。
文書ファイルを印刷するための印刷データを画像として取得する印刷画像取得手段と、
前記印刷画像取得手段にて取得された画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルを印刷するための印刷データから文字列を抽出する印刷文字抽出手段と、
前記文字列抽出手段にて抽出された文字列と、前記印刷文字抽出手段にて抽出された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
文書ファイルを印刷するための印刷データを画像として取得する印刷画像取得手段と、
前記印刷画像取得手段にて取得された画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得るテキスト選択手段と、
前記文字列抽出手段にて抽出された文字列と、前記テキスト選択手段にて得られた文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
文書ファイルを印刷するための印刷データを画像として取得する印刷画像取得手段と、
前記印刷画像取得手段にて取得された画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルをテキスト形式の文字列として保存するテキスト形式保存手段と、
前記文字列抽出手段にて抽出された文字列と、前記テキスト形式保存手段にて保存された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
請求項６乃至８のいずれか１項に記載の文書ファイル解析システムにおいて、
前記印刷画像取得手段にて取得された画像をレイアウト解析し、領域分割するレイアウト解析手段を有し、
前記文字列抽出手段は、前記レイアウト解析手段におけるレイアウト解析結果に基づいて文字列を抽出することを特徴とする文書ファイル解析システム。
請求項５または請求項９に記載の文書ファイル解析システムにおいて、
前記文字列記憶手段は、前記文字列、並びに色やフォント種別を含むレイアウト情報をメタファイルとして保存することを特徴とする文書ファイル解析システム。
請求項１乃至１０のいずれか１項に記載の文書ファイル解析システムにおいて、
前記文書ファイルが指定された場合に、該文書ファイルに応じたアプリケーションプログラムを起動するアプリケーション起動手段を有することを特徴とする文書ファイル解析システム。
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う処理と、
前記アプリケーションプログラムが画面表示した部分を画像として取得する処理と、
前記取得された複数の画像を合成して１つの全体画像とする処理と、
前記全体画像から文字認識により文字列を抽出する処理と、
前記抽出された文字列を記憶する処理とを有する文書ファイル解析方法。
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う処理と、
前記アプリケーションプログラムが画面表示した部分を画像として取得する処理と、
前記取得された複数の画像を合成して１つの全体画像とする処理と、
前記全体画像から文字認識により文字列を抽出する処理と、
前記文書ファイルを印刷するための印刷データから文字列を抽出する処理と、
前記全体画像から抽出された文字列と、前記印刷データから抽出された文字列とを比較し、抽出された文字列を補完する処理と、
前記補完された文字列を記憶する処理とを有する文書ファイル解析方法。
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う処理と、
前記アプリケーションプログラムが画面表示した部分を画像として取得する処理と、
前記取得された複数の画像を合成して１つの全体画像とする処理と、
前記全体画像から文字認識により文字列を抽出する処理と、
前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得る処理と、
前記全体画像から抽出された文字列と、前記テキスト領域から得られた文字列とを比較し、抽出された文字列を補完する処理と、
前記補完された文字列を記憶する処理とを有する文書ファイル解析方法。
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う処理と、
前記アプリケーションプログラムが画面表示した部分を画像として取得する処理と、
前記取得された複数の画像を合成して１つの全体画像とする処理と、
前記全体画像から文字認識により文字列を抽出する処理と、
前記文書ファイルをテキスト形式の文字列として保存する処理と、
前記全体画像から抽出された文字列と、前記テキスト形式として保存された文字列とを比較し、抽出された文字列を補完する処理と、
前記補完された文字列を記憶する処理とを有する文書ファイル解析方法。
請求項１２乃至１５のいずれか１項に記載の文書ファイル解析方法において、
前記全体画像をレイアウト解析し、領域分割する処理を有し、
前記全体画像から文字列を抽出する処理は、前記レイアウト解析結果に基づいて行うことを特徴とする文書ファイル解析方法。
文書ファイルを印刷するための印刷データを画像として取得する処理と、
前記取得された画像から文字認識により文字列を抽出する処理と、
前記文書ファイルを印刷するための印刷データから文字列を抽出する処理と、
前記画像から抽出された文字列と、前記印刷データから抽出された文字列とを比較し、抽出された文字列を補完する処理と、
前記マッチング手段にて補完された文字列を記憶する処理とを有する文書ファイル解析方法。
文書ファイルを印刷するための印刷データを画像として取得する処理と、
前記取得された画像から文字認識により文字列を抽出する処理と、
前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得る処理と、
前記画像から抽出された文字列と、前記テキスト領域から得られた文字列とを比較し、抽出された文字列を補完する処理と、
前記補完された文字列を記憶する処理とを有する文書ファイル解析方法。
文書ファイルを印刷するための印刷データを画像として取得する処理と、
前記取得された画像から文字認識により文字列を抽出する処理と、
前記文書ファイルをテキスト形式の文字列として保存する処理と、
前記画像から抽出された文字列と、前記テキスト形式として保存された文字列とを比較し、抽出された文字列を補完する処理と、
前記補完された文字列を記憶する処理とを有する文書ファイル解析方法。
請求項１７乃至１９のいずれか１項に記載の文書ファイル解析方法において、
前記取得された画像をレイアウト解析し、領域分割する処理を有し、
前記取得された画像から文字列を抽出する処理は、前記レイアウト解析結果に基づいて行うことを特徴とする文書ファイル解析方法。
請求項１６または請求項２０に記載の文書ファイル解析方法において、
前記文字列を記憶する処理は、前記文字列、並びに色やフォント種別を含むレイアウト情報をメタファイルに保存することにより行うことを特徴とする文書ファイル解析方法。
請求項１２乃至２１のいずれか１項に記載の文書ファイル解析方法において、
前記文書ファイルが指定された場合に、該文書ファイルに応じたアプリケーションプログラムを起動する処理を有することを特徴とする文書ファイル解析方法。
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う手順と、
前記アプリケーションプログラムが画面表示した部分を画像として取得する手順と、
前記取得された複数の画像を合成して１つの全体画像とする手順と、
前記全体画像から文字認識により文字列を抽出する手順と、
前記抽出された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う手順と、
前記アプリケーションプログラムが画面表示した部分を画像として取得する手順と、
前記取得された複数の画像を合成して１つの全体画像とする手順と、
前記全体画像から文字認識により文字列を抽出する手順と、
前記文書ファイルを印刷するための印刷データから文字列を抽出する手順と、
前記全体画像から抽出された文字列と、前記印刷データから抽出された文字列とを比較し、抽出された文字列を補完する手順と、
前記補完された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う手順と、
前記アプリケーションプログラムが画面表示した部分を画像として取得する手順と、
前記取得された複数の画像を合成して１つの全体画像とする手順と、
前記全体画像から文字認識により文字列を抽出する手順と、
前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得る手順と、
前記全体画像から抽出された文字列と、前記テキスト領域から得られた文字列とを比較し、抽出された文字列を補完する手順と、
前記補完された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う手順と、
前記アプリケーションプログラムが画面表示した部分を画像として取得する手順と、
前記取得された複数の画像を合成して１つの全体画像とする手順と、
前記全体画像から文字認識により文字列を抽出する手順と、
前記文書ファイルをテキスト形式の文字列として保存する手順と、
前記全体画像から抽出された文字列と、前記テキスト形式として保存された文字列とを比較し、抽出された文字列を補完する手順と、
前記補完された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
請求項２３乃至２６のいずれか１項に記載のプログラムにおいて、
前記全体画像をレイアウト解析し、領域分割する手順を有し、
前記全体画像から文字列を抽出する手順は、前記レイアウト解析結果に基づいて行うことを特徴とするプログラム。
文書ファイルを印刷するための印刷データを画像として取得する手順と、
前記取得された画像から文字認識により文字列を抽出する手順と、
前記文書ファイルを印刷するための印刷データから文字列を抽出する手順と、
前記画像から抽出された文字列と、前記印刷データから抽出された文字列とを比較し、抽出された文字列を補完する手順と、
前記マッチング手段にて補完された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
文書ファイルを印刷するための印刷データを画像として取得する手順と、
前記取得された画像から文字認識により文字列を抽出する手順と、
前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得る手順と、
前記画像から抽出された文字列と、前記テキスト領域から得られた文字列とを比較し、抽出された文字列を補完する手順と、
前記補完された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
文書ファイルを印刷するための印刷データを画像として取得する手順と、
前記取得された画像から文字認識により文字列を抽出する手順と、
前記文書ファイルをテキスト形式の文字列として保存する手順と、
前記画像から抽出された文字列と、前記テキスト形式として保存された文字列とを比較し、抽出された文字列を補完する手順と、
前記補完された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
請求項２８乃至３０のいずれか１項に記載のプログラムにおいて、
前記取得された画像をレイアウト解析し、領域分割する手順を有し、
前記取得された画像から文字列を抽出する手順は、前記レイアウト解析結果に基づいて行うことを特徴とするプログラム。
請求項２７または請求項３１に記載のプログラムにおいて、
前記文字列を記憶する手順は、前記文字列、並びに色やフォント種別を含むレイアウト情報をメタファイルに保存することにより行うことを特徴とするプログラム。
請求項２３乃至３２のいずれか１項に記載のプログラムにおいて、
前記文書ファイルが指定された場合に、該文書ファイルに応じたアプリケーションプログラムを起動する手順を有することを特徴とするプログラム。