JP2006171851A - 文書ファイル解析システム、文書ファイル解析方法及びプログラム - Google Patents

文書ファイル解析システム、文書ファイル解析方法及びプログラム Download PDF

Info

Publication number
JP2006171851A
JP2006171851A JP2004359803A JP2004359803A JP2006171851A JP 2006171851 A JP2006171851 A JP 2006171851A JP 2004359803 A JP2004359803 A JP 2004359803A JP 2004359803 A JP2004359803 A JP 2004359803A JP 2006171851 A JP2006171851 A JP 2006171851A
Authority
JP
Japan
Prior art keywords
character string
document file
image
extracted
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004359803A
Other languages
English (en)
Inventor
Hisashi Shiba
尚志 斯波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004359803A priority Critical patent/JP2006171851A/ja
Publication of JP2006171851A publication Critical patent/JP2006171851A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 文書ファイルのフォーマットに依存せず、また、文字が画像に埋め込まれていても自動的に文字列を抽出し、文書ファイルを検索に利用できるようにする。
【解決手段】 文書ファイル読み込み装置101によって読み込まれた文書を文書ファイル表示装置102で自動的に表示する。文書ファイルスクロール装置103で文書の全領域が表示できるように自動的にスクロール表示し、スクロール毎に画面取得装置104にて画面キャプチャする。得られた部分画像を画面合成装置105でページ毎に1つの画像に統合し、レイアウト解析装置106及び文字認識装置107により得られた画像から文字列を抽出し、その結果をテキストファイル保存装置108にて保存する。
【選択図】図1

Description

本発明は、文書ファイル解析システムに関し、特に、アプリケーションに依存せず自動的に文字列やその座標を抽出できる文書ファイル解析システム、文書ファイル解析方法及びプログラムに関する。
従来より、文書ファイルをその内容に基づいて検索するためには、そのファイルフォーマットに従って文書を解析するソフトウェアを利用する方法が用いられている。この方法においては、ある文書ファイルについての解析ソフトウェアが存在しなくても、ファイルフォーマットが公開されていれば、解析するソフトウェアを作成することによって、文字列を抽出することができる。
また、文書ファイルを作成したアプリケーションで文書をテキストファイルとして予め保存しておく方法が用いられている。この方法においては、文書ファイルをテキストファイルとして保存しているため、文書ファイルを容易に検索することができる。
また、プリンタドライバ形式を採用し、文書ファイルの印刷時にてアプリケーションから文書ファイルがプリンタに送信される際に文字列を取り出す手法も存在する。さらに、プリンタドライバ形式を採用し、文書ファイルの印刷時にてアプリケーションから文書ファイルがプリンタに送信される際に、文書データを画像として取得し、文字認識を施すことにより文字列を取得する方法も存在する。
図12は、プリンタドライバ形式で画像を取得して文字認識する方法を実現する従来の文書ファイル解析システムを示す図である。
図12に示す文書ファイル解析システム900においては、文書ファイル読み込み装置901にて文書ファイルが読み込まれ、読み込まれた文書ファイルが印刷装置902に送出された際に、印刷画像取得装置903にて文書ファイルが画像データとして取得される。プリンタドライバについては開発手法が公開されており、比較的容易に実現できる。
その後、印刷画像取得装置903にて取得された画像に対して、レイアウト解析装置904においてレイアウト解析が行われ、文字認識装置905にて文字認識される。
そして、文字認識装置905にて文字認識された文字列が、テキストファイルとしてテキストファイル保存装置906に保存されることになる。
ここで、インデックスの作成方法を工夫することにより、文書検索を容易にする技術が考えられている(例えば、特許文献1参照。)。
また、画像からの文字抽出について文字認識を利用することにより、文書検索を容易に行う技術が考えられている(例えば、特許文献2参照。)。
特開2001−117934号公報 特開2000−181927号公報
しかしながら、文書ファイルフォーマットに従って解析するソフトウェアは、対応できる文書フォーマットが制限されているため、全てのアプリケーションの文書ファイルを解析することができないという問題点がある。一方、多くのアプリケーションの文書ファイルはフォーマットが開示されていないため、対応する解析ソフトウェアを開発することができないという問題点がある。上述した特許文献1ではこの問題点を指摘しているが、具体的な解決策は示されていない。
また、一部のアプリケーションでは、文書ファイルをテキストファイルで保存する機能を有しているが、文書ファイルを予めテキストファイルとして保存しなければならず、そのための手間がかかってしまうという問題点がある。また、テキストファイルとして保存できないアプリケーションも多い。
さらに、文書ファイルであって文字が画像として保存されている場合があり、その場合、文書ファイルを表示するアプリケーションに備わっている機能だけでは文字列を抽出することができないという問題点がある。上述した特許文献2では、画像からの文字抽出について文字認識の利用を提案しているものの、フォーマットが公開されていない画像については考慮していない。また、フォーマットが公開されていない文書ファイルについても考慮していない。
また、プリンタドライバ形式の場合は、印刷許可されていない文書ファイルを解析することができないという問題点がある。また、プリンタドライバ形式は、実装方法が公開されているとはいえ、開発にある程度の期間を要する。また、公開されている実装方法では印刷時のデータを取得できないアプリケーションも存在する。特に、プリンタドライバ形式で印刷時に文字列を取得する方法では、一部のアプリケーションでは印刷時に見栄えをよくするため、公開された文字コードの代わりに特殊なコードをプリンタへ送信しており、そのため、文字列を判別できないという問題点がある。
本発明は、上述したような従来の技術が有する問題点に鑑みてなされたものであって、第1の目的は、ファイルフォーマットが開示されていない文書ファイルでも文字列及び文字の座標等を抽出することにある。
また、本発明の第2の目的は、文書ファイルから人手を介さずに自動的に文字列及び文字の座標等を抽出することにある。
また、本発明の第3の目的は、画像として保存されている文字や画像中の文字も、画像フォーマットによらずに文字列及び文字の座標等を抽出することにある。
上記目的を達成するために本発明は、
文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
前記画像取得手段にて取得された複数の画像を合成して1つの全体画像とする画像合成手段と、
前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文字列抽出手段にて抽出された文字列を記憶する文字列記憶手段とを有する。
また、文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
前記画像取得手段にて取得された複数の画像を合成して1つの全体画像とする画像合成手段と、
前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルを印刷するための印刷データから文字列を抽出する印刷文字抽出手段と、
前記文字列抽出手段にて抽出された文字列と、前記印刷文字抽出手段にて抽出された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する。
また、文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
前記画像取得手段にて取得された複数の画像を合成して1つの全体画像とする画像合成手段と、
前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得るテキスト選択手段と、
前記文字列抽出手段にて抽出された文字列と、前記テキスト選択手段にて得られた文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する。
また、文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
前記画像取得手段にて取得された複数の画像を合成して1つの全体画像とする画像合成手段と、
前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルをテキスト形式の文字列として保存するテキスト形式保存手段と、
前記文字列抽出手段にて抽出された文字列と、前記テキスト形式保存手段にて保存された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する。
また、前記画像合成手段にて合成された全体画像をレイアウト解析し、領域分割するレイアウト解析手段を有し、
前記文字列抽出手段は、前記レイアウト解析手段におけるレイアウト解析結果に基づいて文字列を抽出することを特徴とする。
また、文書ファイルを印刷するための印刷データを画像として取得する印刷画像取得手段と、
前記印刷画像取得手段にて取得された画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルを印刷するための印刷データから文字列を抽出する印刷文字抽出手段と、
前記文字列抽出手段にて抽出された文字列と、前記印刷文字抽出手段にて抽出された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する。
また、文書ファイルを印刷するための印刷データを画像として取得する印刷画像取得手段と、
前記印刷画像取得手段にて取得された画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得るテキスト選択手段と、
前記文字列抽出手段にて抽出された文字列と、前記テキスト選択手段にて得られた文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する。
また、文書ファイルを印刷するための印刷データを画像として取得する印刷画像取得手段と、
前記印刷画像取得手段にて取得された画像から文字認識により文字列を抽出する文字列抽出手段と、
前記文書ファイルをテキスト形式の文字列として保存するテキスト形式保存手段と、
前記文字列抽出手段にて抽出された文字列と、前記テキスト形式保存手段にて保存された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する。
また、前記印刷画像取得手段にて取得された画像をレイアウト解析し、領域分割するレイアウト解析手段を有し、
前記文字列抽出手段は、前記レイアウト解析手段におけるレイアウト解析結果に基づいて文字列を抽出することを特徴とする。
また、前記文字列記憶手段は、前記文字列、並びに色やフォント種別を含むレイアウト情報をメタファイルとして保存することを特徴とする。
また、前記文書ファイルが指定された場合に、該文書ファイルに応じたアプリケーションプログラムを起動するアプリケーション起動手段を有することを特徴とする。
以上説明したように本発明においては、表示した文書ファイルを画像として取得し、この画像から文字認識により文字列を抽出するため、テキストとして保存できないアプリケーションや、印刷が許可されていない文書ファイルであっても表示された状態から文字列を抽出することができ、それにより、ファイルフォーマットが開示されていない文書ファイルでも文字列を抽出することができ、表示できる全ての文書ファイルに対して検索を行うことができる。
また、文書ファイルの表示についての操作は、コンピュータ上で標準的に提供されているスクリプト実行機能を利用することにより自動実行可能であるため、文書ファイルから人手を介さずに文字列を抽出することができる。
また、画像処理によるレイアウト解析や文字認識を利用しているため、画像として保存されている文字や画像中の文字も抽出することができる。この結果、雑誌や書籍をスキャナで取り込んだ画像についても検索対象とすることができる。
以下に、本発明の実施の形態について図面を参照して詳細に説明する。
(第1の実施の形態)
図1は、本発明の文書ファイル解析システムの第1の実施の形態を示す図である。
本形態は図1に示すように、文書ファイルを読み込む文書ファイル読み込み装置101と、文書ファイル読み込み装置101にて読み込まれた文書ファイルを表示するアプリケーション起動手段となる文書ファイル表示装置102と、文書ファイル読み込み装置101にて読み込まれた文書ファイルを文書ファイル表示装置102にて縦横にスクロール表示する文書ファイルスクロール装置103と、文書ファイルスクロール装置103によって文書ファイル表示装置102に画面表示された部分を画像として取得して保存する画面取得装置104と、画面取得装置104にて取得された複数の画面を合成して1つの全体画像とする画像合成装置105と、画像合成装置105にて合成された全体画像をレイアウト解析し、領域分割するレイアウト解析装置106と、レイアウト解析装置106におけるレイアウト解析結果を利用して、画像合成装置105にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段である文字認識装置107と、文字認識装置107にて抽出された文字列をテキストファイルとして記憶する文字列記憶手段であるテキストファイル保存装置108とから構成されている。
文書ファイル読み込み装置101は、コンピュータの記憶装置上やネットワークを介した別のコンピュータの記憶装置上にある文書ファイルを読み込む。
また、文書ファイル表示装置102は、文書ファイル読み込み装置101にて読み込まれた文書ファイルの種類を自動的に判定し、その文書ファイルの表示が可能なアプリケーションを自動的に選択し、そのアプリケーションを自動的に起動し、文書ファイルを表示する。
また、文書ファイルスクロール装置103は、文書ファイルの全領域が表示されるように、文書ファイル表示装置102上にて文書ファイルを上下左右にスクロールするものであり、文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、文書ファイル全体またはこの文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御部103aを有している。
また、画像合成装置105は、画面取得装置104にて取得された画像について、領域がオーバーラップしているものについては、合成して1つの画像とする。画像はページ毎に1つの画像とする。見開きページを考慮して、複数ページを1つの画像としてもよい。
また、レイアウト解析装置106は、文書ファイルを文書領域や画像領域、表領域等に領域分割する。1つの文章が新聞記事等のように複数の領域に分かれていても、文脈等の解析や一般的な文章構造のルールに基づいて連続した文章とみなし、文章毎及び画像や表、図形毎に画像を領域分割する。
以下に、上記のように構成された文書ファイル解析システムにおける文書ファイル解析方法について説明する。
まず、文書ファイル読み込み装置101において、実行が指示されたコンピュータの記憶装置、または、ネットワークを介した別のコンピュータの記憶装置から文書ファイルを読み込む。
次に、文書ファイル表示装置102において、文書ファイル読み込み装置101にて読み込まれた文書ファイルの拡張子や文書ファイルのヘッダに記述された情報に基づいて、元に作成したアプリケーションを判断し、そのアプリケーションを起動する。文書ファイル表示装置102を実行しているコンピュータに該当するアプリケーションが存在しない場合は、代替アプリケーションを起動する。代替アプリケーションについては予め表にして保存しておく方法がある。
ここで、アプリケーション起動後に表示されるのは文書ファイルの1部の領域である。一般的に、キーボード操作やマウス操作により文書ファイルをスクロールするが、文書ファイルスクロール装置103においては、このようなキーボード操作やマウス操作を模擬して、文書をスクロールする。コンピュータに標準的に搭載されているスクリプト実行機能により、このような操作を自動実行できる。
画面取得装置104においては、予め決められたスクロール回数毎に表示画面をキャプチャして画像ファイルとして取得して保存する。例えば、次ページと文章が繋がるように、上下方向には半ページの単位でスクロールする。画面キャプチャは、例えば、コンピュータの画面表示を担うメモリ領域を解析するといった方法で可能であるが、コンピュータ標準搭載の機能を利用する方法や、広く公開されているキャプチャ用ソフトウェアを利用する方法があり容易に実現できる。
次に、画像合成装置105において、画像取得装置104にて取得された画像間でオーバーラップする領域がある画像については1つに合成する。オーバーラップするかどうか判定する場合、例えば、画像を複数の領域に分割し、領域毎にテンプレートマッチングを行うことにより判断する。例えば、半ページずつ、ずれた画像を合成することにより、ページ毎に1つの画像を生成できる。また、複数ページにまたがる文章を1つにまとめることもできる。なお、複数画像をつなぎ合わせる方法としては、例えば、特開2001−320579号公報に記載された方法を用いることが考えられる。
次に、レイアウト解析装置106において、画像合成装置105にて合成された画像に対してレイアウト解析し、文書領域、画像領域、図形領域等に分ける。1つの文章が複数の領域に分かれていても、文脈等の解析や一般的な文章構造のルールに基づいて連続した文章とみなす。また、横書き縦書きを判断する。レイアウト解析には、例えば、輝度値の変動周波数に基づくテクスチャ解析により領域分割することができる。文章領域が複数ある場合は、例えば総当りで文章領域を連結し、生成される単語に矛盾が無いか、文法的に問題無いかを得点化し、その得点を比較することにより適切な連結関係を推測することができる。なお、レイアウト解析が無くても文字認識自体は可能である。ただし、横書き縦書きの判断を誤ると、テキストが正確な文章として得られなくなる、複数領域に跨る単語を生成できないといった問題が生じる場合がある。レイアウト解析の方法としては、例えば、特許第2576350号公報に記載された方法を用いることが考えられる。
次に、文字認識装置107において、画像合成装置105にて合成された画像に対して画像特徴を利用して文字認識し、レイアウト結果を利用して文字列を抽出して文章を構成する。文字認識の方法としては、これまでに数多くの手法が提案されている。例えば、特許第3080066号公報に記載された方法がある。
その後、テキストファイル保存装置108において、文字認識装置107にて文字認識されて抽出された文字列を、予め決められたフォーマットでテキストファイルとして保存する。
以上説明したように本形態においては、単に文書ファイルを表示して画面キャプチャを行い文字認識を実施しているため、フォーマットに依存せずあらゆる文書ファイルから文字列を抽出することができる。また、コンピュータ搭載の標準機能を利用して容易に自動処理を実施することができる。さらに、レイアウト解析と文字認識により、画像に埋め込まれた文字についても文字列として抽出することができる。
以下に、具体的な実施例を用いて本形態の動作を説明する。
図2は、図1に示した文書ファイル解析システムにおける具体的な動作を説明するための図であり、(a)は文書ファイル読み込み装置101にて読み込まれた文書ファイルの一例を示す図、(b)は(a)に示した文書ファイルのコンピュータの画面上での表示状態を示す図、(c)は(a)に示した文書ファイルをスクロール毎の画像を示す図である。
図2(a)に示すような表示形式の文書ファイルが文書ファイル読み込み装置101にて読み込まれた場合、これに対応するアプリケーションが表示されると、図2(b)に示すように表示される。この状態では文書ファイルのうち、特定のページ、しかもページの一部領域しか表示されていない。これに対して、マウス操作やカーソルキーにより、他の部分を表示して全体を把握することができる。
図2(a)に示すページの全体像を得るために、ある領域を表示し画面キャプチャし、ある程度(例えば半ページ)スクロールし画面キャプチャする。ページ全体が表示されるまでこの操作を繰り返す。
この操作の結果、図2(c)のように同一ページ内で、お互いにオーバーラップがある別々の領域の画像が生成される。オーバーラップしている領域は完全に同一の画像パターンであるため、例えば、テンプレートマッチング等広く知られた手法により、1つの画像として合成することができる。
このようにして画面合成装置105にて合成された画像に対して、レイアウト解析装置106におけるレイアウト解析と、文字認識装置107における文字認識を実行して文字列を抽出する。
レイアウト解析や文字認識については、上述したような複数に分割された画像の統合は必ずしも必要ではないが、例えば、単語が図2に示したように分断されると正確に抽出されない場合があり、また、1つの語が途中で分断されると認識できない場合があるため、統合する方が好ましい。また、文字認識手法によってはレイアウト解析と密接に連携しており分離できない場合がある。つまり、レイアウト解析は文字認識装置に含まれる場合がある。
上述した一連の操作は、コンピュータに標準搭載されたスクリプトの機能を利用することにより容易に自動実行可能である。
(第2の実施の形態)
図3は、本発明の文書ファイル解析システムの第2の実施の形態を示す図である。
本形態は図3に示すように、第1の実施の形態にて示したものに対して、文書ファイル読み込み装置101にて読み込まれた文書ファイルをプリンタに送る印刷装置208と、文書ファイルを印刷するためにプリンタに送られる印刷データから文字列を抽出する印刷文字抽出装置209と、文字認識装置107にて抽出された文字列と印刷文字抽出装置209にて抽出された文字列とを比較し、文字認識結果を補完するマッチング装置210とを備え、マッチング装置210にて補完された文字列がテキストファイル保存装置211に記憶される。
印刷装置208は、一般的なコンピュータでのプリンタドライバに相当する。一般的なコンピュータのプリンタドライバは作成方法が公開されており、開発にある程度の期間が必要ではあるが比較的容易に作成することができる。プリンタドライバは、文書ファイルを印刷する際、文字コードをプリンタに送出しており、印刷文字抽出装置209は、プリンタに送出された文字コードをキャプチャして保存する。
文字認識装置107にて抽出された文字列は認識誤りが存在する場合がある。一方、印刷文字抽出装置209は、認識誤りは生じないものの、文字を文書に書かれている順番に抽出できない場合がある。また、文書ファイルによっては、印刷時の画像品質を高めるため、文字に特殊な一般的でないコードが割り当てられ、文字コードを取り出せない場合がある。さらに、画像として保存された文字、画像中の文字については文字コードを得ることはできない。文書ファイルによっては印刷が禁止されていたり、アプリケーションによっては印刷機能が存在しない場合もある。
そこで、マッチング装置210によって、文字認識装置107にて抽出された文字列と印刷文字抽出装置209にて抽出された文字列とのマッチングをとり、お互いに補完しあうことにより、より精度高く文字列を得ることができる。
例えば、文字認識装置107において、本来は『文書ファイルを記述』とあるべきところを『文書ファイルを誤述』と誤認識してしまったとする。このとき、印刷文字抽出装置209において『文書ファイルを記述』と正解が得られているならば、印刷文字抽出装置209にて抽出された文字列で文字認識結果を補うことができる。
一方、一部の文書ファイルでは、文書ファイルの途中で文字コードが独自形式のものとなり、印刷文字抽出装置209では抽出できない場合がある。その時、文字認識装置107における文字認識結果によって、印刷文字抽出装置209にて抽出された文字列を補うことができる。
また、多くの文書ファイルでは、描画機能を利用して文字列を図形と結合できるが、結合方法によっては、結合した文字列をテキストとして抽出できなくなる場合がある。そのような場合は、文字認識装置107における文字認識で得られた文字列をもってして、印刷文字抽出装置209にて抽出された文字列を補完することができる。
また、文書ファイル中に埋め込まれた画像中の文字についても、文字認識によってしかテキスト情報を抽出できないため、文字認識装置107における文字認識によって、印刷文字抽出装置209にて抽出された文字列を補完することになる。
また、一部の文書ファイルでは、ファイル単位、ページ単位、または文字列単位で、印刷やテキストの選択、テキストファイルとしての保存を無効と設定することができる。そのような文書ファイルの場合、文字認識装置107における文字認識によって、印刷文字抽出装置209にて抽出された文字列を補完し、制約無く文字列を抽出することができる。
また、文字認識装置107における文字認識では、フォントのサイズも認識し、必然的に文字の位置も判明する。一方、印刷文字抽出装置209では、文字列の位置を抽出できない場合がある。そのような場合、印刷文字抽出装置209にて抽出された文字列と、文字認識装置107における文字認識結果とをマッチング装置210で対応をとることにより、テキストの文章ファイル上の位置が分かることになる。文字の位置が分かることにより、検索時、キーワードの位置を示すことができ非常に有効である。
なお、マッチング方法としては、例えば、広く使われているDPマッチングといった方法がある。
上記のように構成された本形態においては、上述した印刷装置208、印刷文字抽出装置209及びマッチング装置210における処理が加わった以外は、第1の実施の形態にて説明したものと同様の処理にて文書ファイル解析方法が行われることになる。
(第3の実施の形態)
図4は、本発明の文書ファイル解析システムの第3の実施の形態を示す図である。
本形態は図4に示すように、第1の実施の形態にて示したものに対して、文書ファイル表示装置102にて表示されている文書ファイルからテキスト領域を選択し、そのテキスト領域から文字列を得て保存するテキスト選択装置308と、文字認識装置107にて抽出された文字列とテキスト選択装置308にて得られた文字列とを比較し、文字認識結果を補完するマッチング装置309とを備え、マッチング装置309にて補完された文字列がテキストファイル保存装置310に記憶される。
テキスト選択装置308は、多くのアプリケーションに標準で用意されているテキスト領域選択機能を利用し、自動的にテキスト領域を選択し、選択したテキスト領域から文字列をテキスト情報として取得し、メモリや一時記憶領域に保存する。
文字認識装置107によって得られた文字列は認識誤りが存在する場合がある。一方、テキスト選択装置308では、認識誤りは無いものの、作成したアプリケーションによっては選択・保存の手段が提供されない場合がある。また、画像として保存された文字、画像中の文字については選択することはできない。
そこで、マッチング装置309によって、文字認識装置107によって得られた文字列とテキスト選択装置308によって得られた文字列とのマッチングをとり、お互いに補完しあうことにより、より精度高く文字列を得ることができる。
第2の実施の形態にて示したものと同様に、多くの文書ファイルでは、描画機能を利用して文字列を図形と結合できるが、結合方法によっては、結合した文字列をテキストとして抽出できなくなる場合がある。そのような場合は、文字認識装置107における文字認識で得られた文字列をもってして、テキスト選択装置308にて得られた文字列を補完することができる。
また、文書ファイル中に埋め込まれた画像中の文字についても、文字認識によってしかテキスト情報を抽出できないため、文字認識装置107における文字認識によって、テキスト選択装置308にて得られた文字列を補完することになる。
また、一部の文書ファイルでは、ファイル単位、ページ単位、または文字列単位で、印刷やテキストの選択、テキストファイルとしての保存を無効と設定することができる。そのような文書ファイルの場合、文字認識装置107における文字認識によって、テキスト選択装置308にて得られた文字列を補完し、制約無く文字列を抽出することができる。
また、文字認識装置107における文字認識では、フォントのサイズも認識し、必然的に文字の位置も判明する。一方、テキスト選択装置308では、文字列の位置を抽出できない場合がある。そのような場合、テキスト選択装置308にて得られた文字列と、文字認識装置107における文字認識結果とをマッチング装置309で対応をとることにより、テキストの文章ファイル上の位置が分かることになる。文字の位置が分かることにより、検索時、キーワードの位置を示すことができ非常に有効である。
なお、マッチング方法としては、例えば、広く使われているDPマッチングといった方法がある。
上記のように構成された本形態においては、上述したテキスト選択装置308及びマッチング装置309における処理が加わった以外は、第1の実施の形態にて説明したものと同様の処理にて文書ファイル解析方法が行われることになる。
(第4の実施の形態)
図5は、本発明の文書ファイル解析システムの第4の実施の形態を示す図である。
本形態は図5に示すように、第1の実施の形態にて示したものに対して、文書ファイル表示装置102にて表示されている文書ファイルをテキスト形式の文字列として保存するテキスト形式保存装置408と、文字認識装置107にて抽出された文字列とテキスト形式保存装置408にて保存された文字列とを比較し、文字認識結果を補完するマッチング装置409とを備え、マッチング装置409にて補完された文字列がテキストファイル保存装置410に記憶される。
テキスト形式保存装置408は、多くのアプリケーションで標準で用意されている、表示している文書をテキスト形式で保存する機能を利用して、自動的に文書ファイルをテキスト形式で保存する。
文字認識装置107にて得られた文字列は認識誤りが存在する場合がある。一方、テキスト形式保存装置408は、認識誤りは無いものの、作成したアプリケーションによってはテキスト形式での保存機能が提供されない場合がある。また、画像として保存された文字、画像中の文字については選択することはできない。
そこで、マッチング装置409によって、文字認識装置107にて得られた文字列と、テキスト形式保存装置408に保存された文字列とのマッチングをとり、お互いに補完しあうことにより、より精度高く文字列を得ることができる。
第2の実施の形態にて示したものと同様に、多くの文書ファイルでは、描画機能を利用して文字列を図形と結合できるが、結合方法によっては、結合した文字列をテキストとして抽出できなくなる場合がある。そのような場合は、文字認識装置107における文字認識で得られた文字列をもってして、テキスト形式保存装置408に保存された文字列を補完することができる。
また、文書ファイル中に埋め込まれた画像中の文字についても、文字認識によってしかテキスト情報を抽出できないため、文字認識装置107における文字認識によって、テキスト形式保存装置408に保存された文字列を補完することになる。
また、一部の文書ファイルでは、ファイル単位、ページ単位、または文字列単位で、印刷やテキストの選択、テキストファイルとしての保存を無効と設定することができる。そのような文書ファイルの場合、文字認識装置107における文字認識によって、テキスト形式保存装置408に保存された文字列を補完し、制約無く文字列を抽出することができる。
また、文字認識装置107における文字認識では、フォントのサイズも認識し、必然的に文字の位置も判明する。一方、テキスト形式保存装置408では、文字列の位置を抽出できない場合がある。そのような場合、テキスト形式保存装置408に保存された文字列と、文字認識装置107における文字認識結果とをマッチング装置409で対応をとることにより、テキストの文章ファイル上の位置が分かることになる。文字の位置が分かることにより、検索時、キーワードの位置を示すことができ非常に有効である。
なお、マッチング方法としては、例えば、広く使われているDPマッチングといった方法がある。
上記のように構成された本形態においては、上述したテキスト形式保存装置408及びマッチング装置409における処理が加わった以外は、第1の実施の形態にて説明したものと同様の処理にて文書ファイル解析方法が行われることになる。
(第5の実施の形態)
図6は、本発明の文書ファイル解析システムの第5の実施の形態を示す図である。
本形態は図6に示すように、第2の実施の形態にて示したものに対して、文書ファイル表示装置102と、文書ファイルスクロール装置103と、画面取得装置104と、画面合成装置105の代わりに、印刷装置208から送出される印刷データを画像として取得する印刷画像取得装置503を備え、レイアウト解析装置504において、印刷画像取得装置503にて取得された画像をレイアウト解析して領域分割し、文字認識装置505において、印刷画像取得装置503にて取得された画像について、レイアウト解析装置504における解析結果に基づいて文字認識を行い、マッチング装置507において、印刷文字抽出装置209にて抽出された文字列と文字認識装置505にて抽出された文字列とを比較して補完し、補完された文字列がテキストファイル保存装置508に記憶されるものである。
印刷装置208は、一般的なコンピュータでのプリンタドライバに相当する。一般的なコンピュータのプリンタドライバは作成方法が公開されており、開発にある程度の期間が必要ではあるが比較的容易に作成することができる。プリンタドライバは、文書ファイルを印刷する際、ページ毎にデータを画像としてプリンタに送出しており、印刷画像取得装置503は、プリンタに送出された画像をキャプチャして保存する。
上記のように構成された本形態においては、上述した第1の実施の形態にて説明した文書ファイル読み込み装置101における処理と、第2の実施の形態にて説明した印刷装置208及び印刷文字抽出装置209における処理に加えて、上述した、印刷画像取得装置503、レイアウト解析装置504、文字認識装置505、マッチング装置507及びテキストファイル保存装置508における処理が行われることにより、文書ファイル解析方法が行われることになる。
(第6の実施の形態)
図7は、本発明の文書ファイル解析システムの第6の実施の形態を示す図である。
本形態は図7に示すように、第3の実施の形態にて示したものに対して、文書ファイルスクロール装置103と、画面取得装置104と、画面合成装置105の代わりに、第2の実施の形態にて示した印刷装置208と、第5の実施の形態にて示した印刷画像取得装置503、レイアウト解析装置504及び文字認識装置505を備え、マッチング装置608において、テキスト選択装置308にて得られた文字列と文字認識装置505にて抽出された文字列とを比較して補完し、補完された文字列がテキストファイル保存装置609に記憶されるものである。
上記のように構成された本形態においては、上述した第1の実施の形態にて説明した文書ファイル読み込み装置101及び文書ファイル表示装置102における処理と、第2の実施の形態にて説明した印刷装置208における処理と、第3の実施の形態にて説明したテキスト選択装置308における処理と、第5の実施の形態にて説明した印刷画像取得装置503、レイアウト解析装置504及び文字認識装置505における処理に加えて、上述したマッチング装置608及びテキストファイル保存装置609における処理が行われることにより、文書ファイル解析方法が行われることになる。
(第7の実施の形態)
図8は、本発明の文書ファイル解析システムの第7の実施の形態を示す図である。
本形態は図8に示すように、第4の実施の形態にて示したものに対して、文書ファイルスクロール装置103と、画面取得装置104と、画面合成装置105の代わりに、第2の実施の形態にて示した印刷装置208と、第5の実施の形態にて示した印刷画像取得装置503、レイアウト解析装置504及び文字認識装置505を備え、マッチング装置708において、テキスト形式保存装置408にて保存された文字列と文字認識装置505にて抽出された文字列とを比較して補完し、補完された文字列がテキストファイル保存装置709に記憶されるものである。
上記のように構成された本形態においては、上述した第1の実施の形態にて説明した文書ファイル読み込み装置101及び文書ファイル表示装置102における処理と、第2の実施の形態にて説明した印刷装置208における処理と、第4の実施の形態にて説明したテキスト形式保存装置408における処理と、第5の実施の形態にて説明した印刷画像取得装置503、レイアウト解析装置504及び文字認識装置505における処理に加えて、上述したマッチング装置708及びテキストファイル保存装置709における処理が行われることにより、文書ファイル解析方法が行われることになる。
(第8の実施の形態)
図9は、本発明の文書ファイル解析システムの第8の実施の形態を示す図である。
本形態は図9に示すように、第1の実施の形態にて示したものに対して、文字認識装置107にて抽出された文字列を記憶する文字列記憶手段として、文字列をテキスト形式ではなく、メタファイル形式として保存するメタファイル保存装置808が設けられている点が異なるものである。
メタファイル保存装置808は、文字認識装置107にて抽出された文字列だけでなく、その座標、色やフォント種別等をメタファイルとして保存する機能を備えている。
メタファイルは、テキストだけでなく、テキストが記述されている画像上の座標や、テキストのフォント等の情報を含む。
図10は、図9に示した文書ファイル解析システムにて検索された文字列の位置を示す図である。
文書ファイルをある文字列で検索する場合は、図10に示すように、文字列の座標が分かっていれば、文字列の位置を示すことができ、非常に効果的である。
上記のように構成された本形態においては、文字列の座標と色やフォント種別を利用して、画像が無くても、元のレイアウトで文書ファイルを表示することができる。メタファイルは、画像ファイルよりサイズが小さく、ディスク領域が足りない場合や、転送するネットワークの回線が低速の場合は、画像を削除してメタファイルのみを利用するという方法が有効となる。
以下に、上記のように構成された文書ファイル解析システムにおける文書ファイル解析方法について説明する。
文書ファイル読み込み装置101にて文書ファイルが読み込まれてから文字認識装置107にて文字列が抽出されるまでの処理については、第1の実施の形態にて説明したものと同様である。
レイアウト解析装置106におけるレイアウト解析及び文字に錦装置107における文字認識を実行すると、一般的に、画像上の文字の座標を得ることができる。さらに、文字のフォントや色、書体等についても情報を得ることができる場合がある。特に、座標については、検索時に位置を示すことができる等、有用性が高い。
図11は、図9に示した文書ファイル解析システムにてメタファイル保存装置808に保存される座標情報の表記方法を説明するための図であり、(a)は文字毎に座標を表記したCSVファイルの一例を示す図、(b)は行毎に座標を表記したCSVファイルの一例を示す図である。
図11(a)に示すように、文字単位でXY座標を表記した場合、文字数が多いとファイルサイズが非常に大きくなってしまう。そこで、図11(b)に示したように、行に番号を割り当て、行単位で行の範囲をXY座標で表記する方法もある。
メタファイルの形式としては、図11に示したようなCSV方法が最も容易に実現できる。これ以外に拡張性のある方法としては、例えば、広く利用されているマークアップ言語であるHTMLやXMLを使う方法がある。
なお、本形態においては、第1の実施の形態にて示したものに対して、文字認識装置107にて抽出された文字列を記憶する文字列記憶手段として、文字列をテキスト形式ではなく、メタファイル形式として保存するメタファイル保存装置808が設けられているが、第2〜第7の実施の形態にて示したものに対して、テキストファイル保存装置211,310,410,508,609,709の代わりにメタファイル保存装置808を設けることも考えられる。
また、本発明においては、上述した文書ファイル解析システム内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを文書ファイル解析システムにて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを文書ファイル解析システムに読み込ませ、実行するものであっても良い。文書ファイル解析システムにて読取可能な記録媒体とは、フロッピーディスク、光磁気ディスク、DVD、CDなどの移設可能な記録媒体の他、文書ファイル解析システムに内蔵されたHDD等を指す。この記録媒体に記録されたプログラムは、例えば、制御ブロックにて読み込まれ、制御ブロックの制御によって、上述したものと同様の処理が行われる。
本発明の文書ファイル解析システムの第1の実施の形態を示す図である。 図1に示した文書ファイル解析システムにおける具体的な動作を説明するための図であり、(a)は文書ファイル読み込み装置にて読み込まれた文書ファイルの一例を示す図、(b)は(a)に示した文書ファイルのコンピュータの画面上での表示状態を示す図、(c)は(a)に示した文書ファイルをスクロール毎の画像を示す図である。 本発明の文書ファイル解析システムの第2の実施の形態を示す図である。 本発明の文書ファイル解析システムの第3の実施の形態を示す図である。 本発明の文書ファイル解析システムの第4の実施の形態を示す図である。 本発明の文書ファイル解析システムの第5の実施の形態を示す図である。 本発明の文書ファイル解析システムの第6の実施の形態を示す図である。 本発明の文書ファイル解析システムの第7の実施の形態を示す図である。 本発明の文書ファイル解析システムの第8の実施の形態を示す図である。 図9に示した文書ファイル解析システムにて検索された文字列の位置を示す図である。 図9に示した文書ファイル解析システムにてメタファイル保存装置に保存される座標情報の表記方法を説明するための図であり、(a)は文字毎に座標を表記したCSVファイルの一例を示す図、(b)は行毎に座標を表記したCSVファイルの一例を示す図である。 プリンタドライバ形式で画像を取得して文字認識する方法を実現する従来の文書ファイル解析システムを示す図である。
符号の説明
101 文書ファイル読み込み装置
102 文書ファイル表示装置
103 文書ファイルスクロール装置
103a スクロール制御部
104 画像取得装置
105 画面合成装置
106,504 レイアウト解析装置
107,505 文字認識装置
108,211,310,410,508,609,709 テキストファイル保存装置
208 印刷装置
209 印刷文字抽出装置
210,309,409,507,608,708 マッチング装置
308 テキスト選択装置
408 テキスト形式保存装置
503 印刷画像取得装置
808 メタファイル保存装置

Claims (33)

  1. 文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
    前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
    前記画像取得手段にて取得された複数の画像を合成して1つの全体画像とする画像合成手段と、
    前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
    前記文字列抽出手段にて抽出された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
  2. 文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
    前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
    前記画像取得手段にて取得された複数の画像を合成して1つの全体画像とする画像合成手段と、
    前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
    前記文書ファイルを印刷するための印刷データから文字列を抽出する印刷文字抽出手段と、
    前記文字列抽出手段にて抽出された文字列と、前記印刷文字抽出手段にて抽出された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
    前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
  3. 文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
    前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
    前記画像取得手段にて取得された複数の画像を合成して1つの全体画像とする画像合成手段と、
    前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
    前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得るテキスト選択手段と、
    前記文字列抽出手段にて抽出された文字列と、前記テキスト選択手段にて得られた文字列とを比較し、抽出された文字列を補完するマッチング手段と、
    前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
  4. 文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行うスクロール制御手段と、
    前記スクロール制御手段によってアプリケーションプログラムが画面表示した部分を画像として取得する画像取得手段と、
    前記画像取得手段にて取得された複数の画像を合成して1つの全体画像とする画像合成手段と、
    前記画像合成手段にて合成された全体画像から文字認識により文字列を抽出する文字列抽出手段と、
    前記文書ファイルをテキスト形式の文字列として保存するテキスト形式保存手段と、
    前記文字列抽出手段にて抽出された文字列と、前記テキスト形式保存手段にて保存された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
    前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
  5. 請求項1乃至4のいずれか1項に記載の文書ファイル解析システムにおいて、
    前記画像合成手段にて合成された全体画像をレイアウト解析し、領域分割するレイアウト解析手段を有し、
    前記文字列抽出手段は、前記レイアウト解析手段におけるレイアウト解析結果に基づいて文字列を抽出することを特徴とする文書ファイル解析システム。
  6. 文書ファイルを印刷するための印刷データを画像として取得する印刷画像取得手段と、
    前記印刷画像取得手段にて取得された画像から文字認識により文字列を抽出する文字列抽出手段と、
    前記文書ファイルを印刷するための印刷データから文字列を抽出する印刷文字抽出手段と、
    前記文字列抽出手段にて抽出された文字列と、前記印刷文字抽出手段にて抽出された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
    前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
  7. 文書ファイルを印刷するための印刷データを画像として取得する印刷画像取得手段と、
    前記印刷画像取得手段にて取得された画像から文字認識により文字列を抽出する文字列抽出手段と、
    前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得るテキスト選択手段と、
    前記文字列抽出手段にて抽出された文字列と、前記テキスト選択手段にて得られた文字列とを比較し、抽出された文字列を補完するマッチング手段と、
    前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
  8. 文書ファイルを印刷するための印刷データを画像として取得する印刷画像取得手段と、
    前記印刷画像取得手段にて取得された画像から文字認識により文字列を抽出する文字列抽出手段と、
    前記文書ファイルをテキスト形式の文字列として保存するテキスト形式保存手段と、
    前記文字列抽出手段にて抽出された文字列と、前記テキスト形式保存手段にて保存された文字列とを比較し、抽出された文字列を補完するマッチング手段と、
    前記マッチング手段にて補完された文字列を記憶する文字列記憶手段とを有する文書ファイル解析システム。
  9. 請求項6乃至8のいずれか1項に記載の文書ファイル解析システムにおいて、
    前記印刷画像取得手段にて取得された画像をレイアウト解析し、領域分割するレイアウト解析手段を有し、
    前記文字列抽出手段は、前記レイアウト解析手段におけるレイアウト解析結果に基づいて文字列を抽出することを特徴とする文書ファイル解析システム。
  10. 請求項5または請求項9に記載の文書ファイル解析システムにおいて、
    前記文字列記憶手段は、前記文字列、並びに色やフォント種別を含むレイアウト情報をメタファイルとして保存することを特徴とする文書ファイル解析システム。
  11. 請求項1乃至10のいずれか1項に記載の文書ファイル解析システムにおいて、
    前記文書ファイルが指定された場合に、該文書ファイルに応じたアプリケーションプログラムを起動するアプリケーション起動手段を有することを特徴とする文書ファイル解析システム。
  12. 文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う処理と、
    前記アプリケーションプログラムが画面表示した部分を画像として取得する処理と、
    前記取得された複数の画像を合成して1つの全体画像とする処理と、
    前記全体画像から文字認識により文字列を抽出する処理と、
    前記抽出された文字列を記憶する処理とを有する文書ファイル解析方法。
  13. 文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う処理と、
    前記アプリケーションプログラムが画面表示した部分を画像として取得する処理と、
    前記取得された複数の画像を合成して1つの全体画像とする処理と、
    前記全体画像から文字認識により文字列を抽出する処理と、
    前記文書ファイルを印刷するための印刷データから文字列を抽出する処理と、
    前記全体画像から抽出された文字列と、前記印刷データから抽出された文字列とを比較し、抽出された文字列を補完する処理と、
    前記補完された文字列を記憶する処理とを有する文書ファイル解析方法。
  14. 文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う処理と、
    前記アプリケーションプログラムが画面表示した部分を画像として取得する処理と、
    前記取得された複数の画像を合成して1つの全体画像とする処理と、
    前記全体画像から文字認識により文字列を抽出する処理と、
    前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得る処理と、
    前記全体画像から抽出された文字列と、前記テキスト領域から得られた文字列とを比較し、抽出された文字列を補完する処理と、
    前記補完された文字列を記憶する処理とを有する文書ファイル解析方法。
  15. 文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う処理と、
    前記アプリケーションプログラムが画面表示した部分を画像として取得する処理と、
    前記取得された複数の画像を合成して1つの全体画像とする処理と、
    前記全体画像から文字認識により文字列を抽出する処理と、
    前記文書ファイルをテキスト形式の文字列として保存する処理と、
    前記全体画像から抽出された文字列と、前記テキスト形式として保存された文字列とを比較し、抽出された文字列を補完する処理と、
    前記補完された文字列を記憶する処理とを有する文書ファイル解析方法。
  16. 請求項12乃至15のいずれか1項に記載の文書ファイル解析方法において、
    前記全体画像をレイアウト解析し、領域分割する処理を有し、
    前記全体画像から文字列を抽出する処理は、前記レイアウト解析結果に基づいて行うことを特徴とする文書ファイル解析方法。
  17. 文書ファイルを印刷するための印刷データを画像として取得する処理と、
    前記取得された画像から文字認識により文字列を抽出する処理と、
    前記文書ファイルを印刷するための印刷データから文字列を抽出する処理と、
    前記画像から抽出された文字列と、前記印刷データから抽出された文字列とを比較し、抽出された文字列を補完する処理と、
    前記マッチング手段にて補完された文字列を記憶する処理とを有する文書ファイル解析方法。
  18. 文書ファイルを印刷するための印刷データを画像として取得する処理と、
    前記取得された画像から文字認識により文字列を抽出する処理と、
    前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得る処理と、
    前記画像から抽出された文字列と、前記テキスト領域から得られた文字列とを比較し、抽出された文字列を補完する処理と、
    前記補完された文字列を記憶する処理とを有する文書ファイル解析方法。
  19. 文書ファイルを印刷するための印刷データを画像として取得する処理と、
    前記取得された画像から文字認識により文字列を抽出する処理と、
    前記文書ファイルをテキスト形式の文字列として保存する処理と、
    前記画像から抽出された文字列と、前記テキスト形式として保存された文字列とを比較し、抽出された文字列を補完する処理と、
    前記補完された文字列を記憶する処理とを有する文書ファイル解析方法。
  20. 請求項17乃至19のいずれか1項に記載の文書ファイル解析方法において、
    前記取得された画像をレイアウト解析し、領域分割する処理を有し、
    前記取得された画像から文字列を抽出する処理は、前記レイアウト解析結果に基づいて行うことを特徴とする文書ファイル解析方法。
  21. 請求項16または請求項20に記載の文書ファイル解析方法において、
    前記文字列を記憶する処理は、前記文字列、並びに色やフォント種別を含むレイアウト情報をメタファイルに保存することにより行うことを特徴とする文書ファイル解析方法。
  22. 請求項12乃至21のいずれか1項に記載の文書ファイル解析方法において、
    前記文書ファイルが指定された場合に、該文書ファイルに応じたアプリケーションプログラムを起動する処理を有することを特徴とする文書ファイル解析方法。
  23. 文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う手順と、
    前記アプリケーションプログラムが画面表示した部分を画像として取得する手順と、
    前記取得された複数の画像を合成して1つの全体画像とする手順と、
    前記全体画像から文字認識により文字列を抽出する手順と、
    前記抽出された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
  24. 文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う手順と、
    前記アプリケーションプログラムが画面表示した部分を画像として取得する手順と、
    前記取得された複数の画像を合成して1つの全体画像とする手順と、
    前記全体画像から文字認識により文字列を抽出する手順と、
    前記文書ファイルを印刷するための印刷データから文字列を抽出する手順と、
    前記全体画像から抽出された文字列と、前記印刷データから抽出された文字列とを比較し、抽出された文字列を補完する手順と、
    前記補完された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
  25. 文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う手順と、
    前記アプリケーションプログラムが画面表示した部分を画像として取得する手順と、
    前記取得された複数の画像を合成して1つの全体画像とする手順と、
    前記全体画像から文字認識により文字列を抽出する手順と、
    前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得る手順と、
    前記全体画像から抽出された文字列と、前記テキスト領域から得られた文字列とを比較し、抽出された文字列を補完する手順と、
    前記補完された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
  26. 文書ファイルを表示し、スクロールによって画面表示される部分を選択可能なアプリケーションプログラムに対し、前記文書ファイル全体または該文書ファイルのうち対象とする部分の全体が一度は表示されるようにスクロール制御を行う手順と、
    前記アプリケーションプログラムが画面表示した部分を画像として取得する手順と、
    前記取得された複数の画像を合成して1つの全体画像とする手順と、
    前記全体画像から文字認識により文字列を抽出する手順と、
    前記文書ファイルをテキスト形式の文字列として保存する手順と、
    前記全体画像から抽出された文字列と、前記テキスト形式として保存された文字列とを比較し、抽出された文字列を補完する手順と、
    前記補完された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
  27. 請求項23乃至26のいずれか1項に記載のプログラムにおいて、
    前記全体画像をレイアウト解析し、領域分割する手順を有し、
    前記全体画像から文字列を抽出する手順は、前記レイアウト解析結果に基づいて行うことを特徴とするプログラム。
  28. 文書ファイルを印刷するための印刷データを画像として取得する手順と、
    前記取得された画像から文字認識により文字列を抽出する手順と、
    前記文書ファイルを印刷するための印刷データから文字列を抽出する手順と、
    前記画像から抽出された文字列と、前記印刷データから抽出された文字列とを比較し、抽出された文字列を補完する手順と、
    前記マッチング手段にて補完された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
  29. 文書ファイルを印刷するための印刷データを画像として取得する手順と、
    前記取得された画像から文字認識により文字列を抽出する手順と、
    前記文書ファイルからテキスト領域を選択し、該テキスト領域の文字列を得る手順と、
    前記画像から抽出された文字列と、前記テキスト領域から得られた文字列とを比較し、抽出された文字列を補完する手順と、
    前記補完された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
  30. 文書ファイルを印刷するための印刷データを画像として取得する手順と、
    前記取得された画像から文字認識により文字列を抽出する手順と、
    前記文書ファイルをテキスト形式の文字列として保存する手順と、
    前記画像から抽出された文字列と、前記テキスト形式として保存された文字列とを比較し、抽出された文字列を補完する手順と、
    前記補完された文字列を記憶する手順とをコンピュータに実行させるためのプログラム。
  31. 請求項28乃至30のいずれか1項に記載のプログラムにおいて、
    前記取得された画像をレイアウト解析し、領域分割する手順を有し、
    前記取得された画像から文字列を抽出する手順は、前記レイアウト解析結果に基づいて行うことを特徴とするプログラム。
  32. 請求項27または請求項31に記載のプログラムにおいて、
    前記文字列を記憶する手順は、前記文字列、並びに色やフォント種別を含むレイアウト情報をメタファイルに保存することにより行うことを特徴とするプログラム。
  33. 請求項23乃至32のいずれか1項に記載のプログラムにおいて、
    前記文書ファイルが指定された場合に、該文書ファイルに応じたアプリケーションプログラムを起動する手順を有することを特徴とするプログラム。
JP2004359803A 2004-12-13 2004-12-13 文書ファイル解析システム、文書ファイル解析方法及びプログラム Pending JP2006171851A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004359803A JP2006171851A (ja) 2004-12-13 2004-12-13 文書ファイル解析システム、文書ファイル解析方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004359803A JP2006171851A (ja) 2004-12-13 2004-12-13 文書ファイル解析システム、文書ファイル解析方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2006171851A true JP2006171851A (ja) 2006-06-29

Family

ID=36672568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004359803A Pending JP2006171851A (ja) 2004-12-13 2004-12-13 文書ファイル解析システム、文書ファイル解析方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2006171851A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140127A (ja) * 2007-12-05 2009-06-25 Fujitsu Ltd 印刷データ処理プログラム、方法及び装置
JP2010086075A (ja) * 2008-09-29 2010-04-15 Nec Personal Products Co Ltd 検索装置、情報処理装置、検索方法、プログラム及び記録媒体
US20100332999A1 (en) * 2009-06-30 2010-12-30 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
JP2013164874A (ja) * 2013-05-28 2013-08-22 Nec Corp 検索装置、検索方法及び検索プログラム
JP2015056136A (ja) * 2013-09-13 2015-03-23 日本電気株式会社 通信装置、通信方法及び通信システム
JP2020161885A (ja) * 2019-03-25 2020-10-01 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
WO2022202064A1 (ja) * 2021-03-22 2022-09-29 株式会社 東芝 情報処理装置および情報入力システム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009140127A (ja) * 2007-12-05 2009-06-25 Fujitsu Ltd 印刷データ処理プログラム、方法及び装置
JP2010086075A (ja) * 2008-09-29 2010-04-15 Nec Personal Products Co Ltd 検索装置、情報処理装置、検索方法、プログラム及び記録媒体
US20100332999A1 (en) * 2009-06-30 2010-12-30 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
US8751923B2 (en) 2009-06-30 2014-06-10 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
JP2013164874A (ja) * 2013-05-28 2013-08-22 Nec Corp 検索装置、検索方法及び検索プログラム
JP2015056136A (ja) * 2013-09-13 2015-03-23 日本電気株式会社 通信装置、通信方法及び通信システム
JP2020161885A (ja) * 2019-03-25 2020-10-01 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP7255273B2 (ja) 2019-03-25 2023-04-11 富士フイルムビジネスイノベーション株式会社 画像処理装置及び画像処理プログラム
WO2022202064A1 (ja) * 2021-03-22 2022-09-29 株式会社 東芝 情報処理装置および情報入力システム

Similar Documents

Publication Publication Date Title
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
TWI291139B (en) Enhanced readability with flowed bitmaps
US20040268243A1 (en) Document processing apparatus and document processing method
JP2004005453A (ja) 文書画像レイアウトの解体と再表示の方法およびシステム
JP2000352988A (ja) 自動ヘッダ抽出機能付き選択読み上げ処理方法ならびにそのためのプログラムを記録した記録媒体
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2005173730A (ja) 帳票ocrプログラム、方法及び装置
US9310971B2 (en) Document viewing device for display document data
JP4591229B2 (ja) 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム
JP2001337994A (ja) サムネイル表示システムと方法およびその処理プログラムを記録した記録媒体
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2006171851A (ja) 文書ファイル解析システム、文書ファイル解析方法及びプログラム
JP2005182460A (ja) 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP4411922B2 (ja) 構造化文書表示処理装置、構造化文書表示処理方法、構造化文書表示処理プログラム
JP4501731B2 (ja) 画像処理装置
JP4830763B2 (ja) 画像処理システムおよび画像処理プログラム
JP2011034504A (ja) 文書処理装置、文書処理方法、プログラム及び記憶媒体
JP3897772B2 (ja) ファイル名作成装置及びファイル名作成プログラム
KR20070037968A (ko) 문서 표시 시스템 및 그 표시 방법
JP4692315B2 (ja) 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム
JPH08153110A (ja) 文書ファイリング装置及び方法
JP2016103150A (ja) 文書処理装置および文書処理プログラム
JP2006279090A (ja) 画像処理装置、画像処理方法及び画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090408

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090512