JP4194853B2 - 文書解析装置 - Google Patents

文書解析装置 Download PDF

Info

Publication number
JP4194853B2
JP4194853B2 JP2003013885A JP2003013885A JP4194853B2 JP 4194853 B2 JP4194853 B2 JP 4194853B2 JP 2003013885 A JP2003013885 A JP 2003013885A JP 2003013885 A JP2003013885 A JP 2003013885A JP 4194853 B2 JP4194853 B2 JP 4194853B2
Authority
JP
Japan
Prior art keywords
document
image
character
pdl
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003013885A
Other languages
English (en)
Other versions
JP2004227255A (ja
Inventor
敬 平野
康裕 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2003013885A priority Critical patent/JP4194853B2/ja
Publication of JP2004227255A publication Critical patent/JP2004227255A/ja
Application granted granted Critical
Publication of JP4194853B2 publication Critical patent/JP4194853B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、文書から文字情報を抽出する文書解析装置に関するものである。
ただし、本明細書では、文字情報には、いわゆる文字の情報の他に、記号の情報を含む概念とする。
【0002】
【従来の技術】
従来の文書解析装置は、電子化されている文書から文字情報を抽出する場合、その文書のファイル形式をPDF文書の形式に変換し、そのPDFデータから文字情報(文字コード)を抽出する。
一方、電子化されていない文書については、スキャナが文書を読み込んで当該文書のイメージを取得し、そのイメージに対する文字認識処理(例えば、OCR処理)を実施して、イメージが表している文字情報を取得する(以下の特許文献1を参照)。
【0003】
【特許文献1】
特開2000−20549公報(段落番号[0012]から[0026]、図1)
【0004】
【発明が解決しようとする課題】
従来の文書解析装置は以上のように構成されているので、電子化されている文書のファイル形式を問わず、その文書から文字情報を抽出することができるが、その文書が定型文書であっても、その文書の書式情報を参照することによる文字情報の抽出処理を実施することができず、文字情報の解析精度を高めることができない課題があった。
また、イメージや線分等から構成されている特定オブジェクトが文書に含まれている場合、その特定オブジェクトが表している文字を解析することができない課題もあった。
【0005】
この発明は上記のような課題を解決するためになされたもので、定型文書の文字情報を精度よく解析することができる文書解析装置を得ることを目的とする。
また、この発明は、定型文書であるか非定型文書であるかに関わらず、文書に含まれている特定オブジェクトが表す文字を解析することができる文書解析装置を得ることを目的とする。
【0006】
【課題を解決するための手段】
この発明に係る文書解析装置は、文書が定型文書である場合、PDL変換手段より出力されたPDLデータに対するイメージ化処理を実施して、文書のイメージを表すイメージファイルを作成し、そのイメージファイルが表すイメージと文書の書式情報とを比較して、文書のテキスト記述領域とイメージ記述領域を特定する領域特定手段を設け、テキスト抽出手段が領域特定手段により特定されたテキスト記述領域内のPDLデータから文字情報を抽出し、イメージ解析手段が領域特定手段により特定されたイメージ記述領域内のPDLデータからイメージを抽出するようにしたものである。
【0007】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による文書解析装置を示す構成図であり、図において、PDL変換部1は電子化された文書の文書ファイルを入力すると、その文書ファイルをページ記述言語のデータ形式に変換してPDLデータを出力し、電子化されていない文書のイメージデータを入力すると、そのイメージデータをページ記述言語のデータ形式に変換してPDLデータを出力する。なお、PDL変換部1はPDL変換手段を構成している。
書式情報記憶部2は定型文書の記述領域や文字種別等を示す書式情報を記憶し、文書種別入力部3は文字情報を抽出する対象の文書が定型文書であるのか、非定型文書であるのかを示す種別情報を入力する。領域特定部4は文書種別入力部3により入力された種別情報が定型文書である旨を示す場合、書式情報記憶部2に記憶されている書式情報を参照して当該文書のテキスト記述領域とイメージ記述領域を特定する。なお、書式情報記憶部2、文書種別入力部3及び領域特定部4から領域特定手段が構成されている。
【0008】
テキスト抽出部5は文書種別入力部3により入力された種別情報が非定型文書である旨を示す場合、PDL変換部1より出力されたPDLデータから文字情報を抽出し、その種別情報が定型文書である旨を示す場合、領域特定部4により特定されたテキスト記述領域内のPDLデータから文字情報を抽出する。なお、テキスト抽出部5はテキスト抽出手段を構成している。
イメージ解析部6は文書種別入力部3により入力された種別情報が非定型文書である旨を示す場合、PDL変換部1より出力されたPDLデータからイメージを抽出し、その種別情報が定型文書である旨を示す場合、領域特定部4により特定されたイメージ記述領域内のPDLデータからイメージを抽出し、そのイメージに対する文字認識処理を実施して、そのイメージが表している文字情報を取得する。なお、イメージ解析部6はイメージ解析手段を構成している。
文字情報整理部7はテキスト抽出部5により抽出された文字情報とイメージ解析部6により取得された文字情報を結合する。
図2はこの発明の実施の形態1による文書解析装置の概略の処理内容を示す説明図である。
【0009】
次に動作について説明する。
この実施の形態1では、図2に示すように、ファイル形式1の非定型の電子文書、ファイル形式2の非定型の電子文書、ファイル形式2の定型の電子文書、非定型のイメージ文書又は定型のイメージ文書のいずれかを文字情報の抽出対象文書とするものとする。
まず、PDL変換部1は、ファイル形式や定型・非定型を問わず、電子文書の文書ファイルを入力すると、その文書ファイルをページ記述言語のデータ形式に変換してPDLデータを出力する。
また、定型・非定型を問わず、イメージ文書のイメージデータを入力すると、そのイメージデータをページ記述言語のデータ形式に変換してPDLデータを出力する。
【0010】
ここで、PDLとはページ記述言語の略称であり、ページ記述言語は、例えば、パソコンがプリンタに印刷指令を出力際に、そのプリンタに与える印刷データに相当する。一般のプリンタでは、“PostScript”データがPDLデータとして広く使用されている。
PDL変換部1が文書ファイル又はイメージデータをPDLデータに変換する処理は、例えば、ワープロソフトなどのアプリケーションから文書の印刷処理を行う際、“PostScript”データの出力先をプリンタから所定のファイルに変更するように、印刷に用いるプリンタドライバの設定を変更すれば、容易に実現することができる。なお、所定のファイルに記述される“PostScript”データ、即ち、PDLデータには、文書に含まれる文字のコードと、その文字の位置情報と、文書に含まれるイメージの情報(文書上のイメージの表示位置、大きさ、ビットマップデータなど)がテキスト形式で格納される。
【0011】
文書種別入力部3は、文字情報を抽出する対象の文書が定型文書であるのか、非定型文書であるのかを示す種別情報を入力する。例えば、文書ファイル又はイメージデータをPDL変換部1に与えるユーザが図示せぬキーボードやマウス等を操作して、種別情報を文書種別入力部3に入力する。
以後、テキスト抽出部5及びイメージ解析部6が文字情報の抽出処理を実施するが、最初に、図3のフローチャートを参照して、文字情報の抽出対象が非定型の文書である場合について説明する。
【0012】
まず、テキスト抽出部5は、文書種別入力部3により入力された種別情報が非定型文書である旨を示すので、PDL変換部1からPDLデータを受けると、その文書の全領域におけるPDLデータから文字情報を抽出する(ステップST1)。即ち、全領域のPDLデータに含まれている文字のコードと文字の位置情報を検索することにより文字情報(文字のコード、文字の位置)を抽出する。
例えば、図4(a)に示すような非定型文書が抽出対象である場合、図4(b)に示すようなテキストが文字情報として抽出される。
【0013】
次に、イメージ解析部6は、文書種別入力部3により入力された種別情報が非定型文書である旨を示すので、PDL変換部1からPDLデータを受けると、その文書の全領域におけるPDLデータからイメージを抽出する(ステップST2)。即ち、全領域のPDLデータに含まれているイメージの情報(文書上のイメージの表示位置、大きさ、ビットマップデータなど)を検索する。
イメージ解析部6は、PDLデータからイメージを抽出すると、そのイメージに対する文字認識処理(例えば、OCR処理)を実施して、そのイメージが表している文字情報(文字のコード、文字の位置、文字の幅及び高さ)を取得する(ステップST3)。
例えば、図4(c)に示すようなテキストが文字情報として取得される。
【0014】
文字情報整理部7は、上記のようにしてテキスト抽出部5が文字情報を抽出し、イメージ解析部6が文字情報を取得すると、図4(d)に示すように、それらの文字情報を結合して出力する(ステップST4)。
図5は文字情報整理部7から出力された文字情報を示し、文書内に含まれている文字のコード、文字の位置情報(X座標、Y座標)、文字幅及び文字高さが得られる。
【0015】
次に、図6のフローチャートを参照して、文字情報の抽出対象が定型の文書である場合について説明する。
領域特定部4は、文書種別入力部3により入力された種別情報が定型文書である旨を示すので、書式情報記憶部2に記憶されている書式情報を参照して当該文書のテキスト記述領域とイメージ記述領域を特定する(ステップST11)。
具体的には、図7に示すような定型文書が抽出対象である場合、それらの定型文書のPDLデータを入力すると、そのPDLデータに対するイメージ化処理を実施して、文書のページ全体を1個のイメージで表すイメージファイルを作成する。なお、“PostScript”データをイメージファイルに変換するツールが市販されているので、このツールを利用すれば、容易にPDLデータを1個のイメージに変換することができる。
【0016】
そして、そのイメージファイルが表すイメージと、書式情報記憶部2に記憶されている書式情報とを比較して、文書のテキスト記述領域とイメージ記述領域を特定する。
ここで、書式情報記憶部2に記憶されている書式情報には、図7に示すように、文書中のフィールドの左上点座標、フィールドの幅・高さ、認識対象の文字の種類など、定型文書の読取処理に必要な情報が記載されている。このような書式情報を利用してイメージファイル上のフィールド領域の位置を検出する処理は、例えば、論文“ロバストなモデル照合に基づくFAX送信された一般帳票の読取り”,電子情報通信学会誌 Vol J85−DII,No.9,2002に記載の方式を用いて実現することができる。
【0017】
テキスト抽出部5は、文書種別入力部3により入力された種別情報が定型文書である旨を示すので、PDL変換部1からPDLデータを受けると、領域特定部4により特定されたテキスト記述領域内のPDLデータから文字情報を抽出する(ステップST12)。即ち、全領域のPDLデータではなく、テキスト記述領域内のPDLデータに含まれている文字のコードと文字の位置情報を検索することにより文字情報(文字のコード、文字の位置)を抽出する。
例えば、図8(a)に示すような定型文書が抽出対象である場合、図8(b)に示すようなテキストが文字情報として抽出される。
【0018】
次に、イメージ解析部6は、文書種別入力部3により入力された種別情報が定型文書である旨を示すので、PDL変換部1からPDLデータを受けると、領域特定部4により特定されたイメージ記述領域内のPDLデータからイメージを抽出する(ステップST13)。即ち、全領域のPDLデータではなく、イメージ記述領域内のPDLデータに含まれているイメージの情報(文書上のイメージの表示位置、大きさ、ビットマップデータなど)を検索する。
イメージ解析部6は、PDLデータからイメージを抽出すると、書式情報記憶部2に記憶されている書式情報に含まれている文字種別(例えば、漢字、数字)を考慮して、イメージに対する文字認識処理(例えば、OCR処理)を実施して、そのイメージが表している文字情報(文字のコード、文字の位置、文字の幅及び高さ)を取得する(ステップST14)。
例えば、図8(c)に示すようなテキストが文字情報として取得される。
【0019】
文字情報整理部7は、上記のようにしてテキスト抽出部5が文字情報を抽出し、イメージ解析部6が文字情報を取得すると、図8(d)に示すように、それらの文字情報を結合して出力する(ステップST15)。
図9は文字情報整理部7から出力された文字情報やフィールド番号を示し、文書内に含まれている文字のコード、文字の位置情報(X座標、Y座標)、文字幅及び文字高さが得られる。
【0020】
以上で明らかなように、この実施の形態1によれば、文書が定型文書である場合、その文書の書式情報を参照してテキスト記述領域とイメージ記述領域を特定する領域特定部4を設け、テキスト抽出部5がテキスト記述領域内のPDLデータから文字情報を抽出し、イメージ解析部6がイメージ記述領域内のPDLデータからイメージを抽出するように構成したので、定型文書の文字情報を精度よく解析することができる効果を奏する。
即ち、文書が定型文書である場合、イメージに対する文字認識処理を実施する際、イメージ記述領域内に記述されている文字の属性(例えば、名前、住所)を事前に知り得るので、文字情報の解析精度を高めることができる効果を奏する。
【0021】
また、この実施の形態1によれば、文書が定型文書である場合、その文書の書式情報に含まれている文字種別を考慮して、イメージに対する文字認識処理を実施するように構成したので、文字情報の解析精度を高めることができる効果を奏する。
さらに、この実施の形態1によれば、文書ファイル又はイメージデータをページ記述言語のデータ形式に変換してPDLデータを出力するように構成したので、文書ファイルのファイル形式等を問わず、文字のコードだけではなく、文字の位置等を抽出することができる効果を奏する。
【0022】
実施の形態2.
図10はこの発明の実施の形態2による文書解析装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
特定オブジェクト解析部8はPDL変換部1より出力されたPDLデータを参照して特定オブジェクトが含まれている文書上の領域を特定するとともに、その領域内の記述をイメージに変換し、そのイメージに対する文字認識処理を実施して、そのイメージが表している文字情報を取得する。なお、特定オブジェクト解析部8は特定オブジェクト解析手段を構成している。
【0023】
上記実施の形態1では、文書に含まれているテキストとイメージを抽出するものについて示したが、文書にはテキストやイメージ以外の特定オブジェクトが含まれている場合があり、上記実施の形態1の構成では特定オブジェクトが表している文字情報を取得することができない。例えば、文書によっては線のオブジェクトを含んでおり、これら線のオブジェクトが組み合わされて文字を描している場合がある。
この実施の形態2では、特定オブジェクト解析部8が特定オブジェクトが表している文字情報を取得するようにしている。
【0024】
最初に、図11のフローチャートを参照して、文字情報の抽出対象が非定型の文書である場合について説明する。図12は特定オブジェクトを含む非定型文書の一例を示す説明図である。
特定オブジェクト記述領域には、線のオブジェクトが集まることで“MELCO”という文字列を構成している。例えば、商業用のグラフィックツールを用いてカタログ等の文書を作成する場合、文字列の見栄えを良くするために、テキストをアウトライン化して線の集合に変換する作業が行われる。このようにアウトライン化された文字列部分がPDLデータに変換された場合、テキストやイメージでなはい別のオブジェクトに変換される。
【0025】
まず、テキスト抽出部5は、文書種別入力部3により入力された種別情報が非定型文書である旨を示すので、PDL変換部1からPDLデータを受けると、上記実施の形態1と同様に、その文書の全領域におけるPDLデータから文字情報を抽出する(ステップST1)。
例えば、図13(a)に示すような非定型文書が抽出対象である場合、図13(b)に示すようなテキストが文字情報として抽出される。
【0026】
次に、イメージ解析部6は、文書種別入力部3により入力された種別情報が非定型文書である旨を示すので、PDL変換部1からPDLデータを受けると、上記実施の形態1と同様に、その文書の全領域におけるPDLデータからイメージを抽出する(ステップST2)。
イメージ解析部6は、PDLデータからイメージを抽出すると、上記実施の形態1と同様に、そのイメージに対する文字認識処理(例えば、OCR処理)を実施して、そのイメージが表している文字情報(文字のコード、文字の位置、文字の幅及び高さ)を取得する(ステップST3)。
例えば、図13(c)に示すようなテキストが文字情報として取得される。
【0027】
次に、特定オブジェクト解析部8は、文書種別入力部3により入力された種別情報が非定型文書である旨を示すので、PDL変換部1からPDLデータを受けると、そのPDLデータを参照して特定オブジェクトが含まれている文書上の領域を特定する(ステップST21)。即ち、PDLデータに含まれている全ての特定オブジェクト(例えば、線のオブジェクト)の位置と大きさの情報を抽出して、全ての特定オブジェクトを内包する領域を特定オブジェクト記述領域として特定する(図12を参照)。
【0028】
特定オブジェクト解析部8は、上記のようにして特定オブジェクト記述領域を特定すると、その特定オブジェクト記述領域内の記述をイメージに変換し、そのイメージに対する文字認識処理を実施して、そのイメージが表している文字情報(文字のコード、文字の位置、文字の幅及び高さ)を取得する(ステップST22)。
例えば、図13(d)に示すようなテキストが文字情報として取得される。
【0029】
文字情報整理部7は、上記のようにしてテキスト抽出部5が文字情報を抽出し、イメージ解析部6及び特定オブジェクト解析部8が文字情報を取得すると、図13(e)に示すように、それらの文字情報を結合して出力する(ステップST23)。
【0030】
次に、図14のフローチャートを参照して、文字情報の抽出対象が定型の文書である場合について説明する。図15は特定オブジェクトを含む定型文書の一例を示す説明図である。
特定オブジェクト記述領域には、線のオブジェクトによって“VXZL”という文字列を構成している。例えば、CADツールには、線の集まりであるベクトルデータを用いて文字を表現するものがあるが、このようなCADツールで作成された文書をPDLデータに変換すると、文字列は図15に示すような線のオブジェクトの集合となる。
【0031】
領域特定部4は、文書種別入力部3により入力された種別情報が定型文書である旨を示すので、上記実施の形態1と同様に、書式情報記憶部2に記憶されている書式情報を参照して当該文書のテキスト記述領域とイメージ記述領域を特定する(ステップST11)。
テキスト抽出部5は、文書種別入力部3により入力された種別情報が定型文書である旨を示すので、PDL変換部1からPDLデータを受けると、上記実施の形態1と同様に、領域特定部4により特定されたテキスト記述領域内のPDLデータから文字情報を抽出する(ステップST12)。
ただし、図16(a)に示すような定型文書が抽出対象である場合、文書内にはテキスト記述領域が存在しないので、文字情報は抽出されない(図16(c)を参照)。なお、特定オブジェクト記述領域内の文字列はベクトルデータであるため、テキスト抽出部5の抽出処理によっては、文字列は抽出されない。
【0032】
次に、イメージ解析部6は、文書種別入力部3により入力された種別情報が定型文書である旨を示すので、PDL変換部1からPDLデータを受けると、上記実施の形態1と同様に、領域特定部4により特定されたイメージ記述領域内のPDLデータからイメージを抽出する(ステップST13)。
イメージ解析部6は、PDLデータからイメージを抽出すると、上記実施の形態1と同様に、書式情報記憶部2に記憶されている書式情報に含まれている文字種別を考慮して、イメージに対する文字認識処理(例えば、OCR処理)を実施して、そのイメージが表している文字情報を取得する(ステップST14)。
ただし、図16(a)に示すような定型文書が抽出対象である場合、イメージ記述領域には文字が存在しないので、文字情報は抽出されない(図16(d)を参照)。なお、特定オブジェクト記述領域内の文字列はベクトルデータであるため、イメージ解析部6の文字認識処理等によっては、文字列は抽出されない。
【0033】
次に、特定オブジェクト解析部8は、文書種別入力部3により入力された種別情報が定型文書である旨を示すので、PDL変換部1からPDLデータを受けると、そのPDLデータを参照して特定オブジェクトが含まれている文書上の領域を特定する(ステップST31)。即ち、PDLデータに含まれている全ての特定オブジェクト(例えば、線のオブジェクト)の位置と大きさの情報を抽出して、全ての特定オブジェクトを内包する領域を特定オブジェクト記述領域として特定する(図15、図16(b)の斜線部を参照)。
【0034】
特定オブジェクト解析部8は、上記のようにして特定オブジェクト記述領域を特定すると、その特定オブジェクト記述領域内の記述をイメージに変換する。
そして、書式情報記憶部2に記憶されている書式情報に含まれている文字種別を考慮して、そのイメージに対する文字認識処理を実施して、そのイメージが表している文字情報(文字のコード、文字の位置、文字の幅及び高さ)を取得する(ステップST32)。
例えば、図16(e)に示すようなテキストが文字情報として取得される。
【0035】
文字情報整理部7は、上記のようにしてテキスト抽出部5が文字情報を抽出し、イメージ解析部6及び特定オブジェクト解析部8が文字情報を取得すると、図16(f)に示すように、それらの文字情報を結合して出力する(ステップST33)。
【0036】
以上で明らかなように、この実施の形態2によれば、PDL変換部1より出力されたPDLデータを参照して特定オブジェクトが含まれている文書上の領域を特定するとともに、その領域内の記述をイメージに変換し、そのイメージに対する文字認識処理を実施して、そのイメージが表している文字情報を取得するように構成したので、テキストとイメージ以外の特定オブジェクトで文字が表現されている場合でも、その文字情報を漏れなく抽出することができる効果を奏する。即ち、定型文書であるか非定型文書であるかに関わらず、文書に含まれている特定オブジェクトが表す文字を解析することができる効果を奏する。
【0037】
実施の形態3.
図17はこの発明の実施の形態3による文書解析装置を示す構成図であり、図において、図10と同一符号は同一または相当部分を示すので説明を省略する。
フィルタリング部9は文書ファイルのデータ形式が予め設定されたデータ形式と一致する場合、その文書ファイルをPDL変換部1に出力せずに、その文書ファイルから文字情報を直接抽出する。なお、フィルタリング部9はフィルタリング手段を構成している。
図18はこの発明の実施の形態3による文書解析装置の概略の処理内容を示す説明図である。
【0038】
次に動作について説明する。
フィルタリング部9は、文書のイメージデータを入力すると、そのイメージデータをPDL変換部1に出力するが、文書の文書ファイルを入力すると、その文書ファイルのデータ形式が予め設定されたデータ形式と一致するか否かを判定する。そして、データ形式が一致する場合には、その文書ファイルをPDL変換部1に出力せずに、その文書ファイルから文字情報を直接抽出する。
【0039】
即ち、フィルタリング部9は、図19に示すような処理判定条件(ファイル種類と情報解析手法の関係)を記憶しているので、その処理判定条件を参照し、例えば、文書ファイルのデータ形式が“HTML”であれば、情報解析手法としてフィルタリングを採用する。したがって、この場合は、文書ファイルをPDL変換部1には出力せず、HTML文書に対応するフィルタリング処理を実施して、その文書ファイルから文字情報を直接抽出する。
【0040】
また、文書ファイルのデータ形式が“EXCEL”であれば、情報解析手法としてPDL変換を採用する(図19を参照)。したがって、この場合は、文書ファイルをPDL変換部1に出力するので、上記実施の形態1,2と同様に処理が行われる。
ただし、文書ファイルのデータ形式が“EXCEL”の場合、処理判定条件のオプションとして、特定オブジェクトの文字認識処理は実行しないとあるので、テキストの抽出処理とイメージ内の文字認識処理のみを実行する。
【0041】
さらに、文書ファイルのデータ形式が“CAD”であれば、情報解析手法としてPDL変換を採用する(図19を参照)。したがって、この場合は、文書ファイルをPDL変換部1に出力するので、上記実施の形態1,2と同様に処理が行われる。
ただし、文書ファイルのデータ形式が“CAD”の場合、処理判定条件のオプションとして、イメージ内の文字認識処理は実行しないとあるので、テキストの抽出処理と特定オブジェクトの文字認識処理のみを実行する。
【0042】
以上で明らかなように、この実施の形態3によれば、文書ファイルのデータ形式が予め設定されたデータ形式と一致する場合、その文書ファイルをPDL変換部1に出力せずに、その文書ファイルから文字情報を直接抽出するフィルタリング部9を設けたので、文書ファイルのデータ形式に応じて文字情報の抽出処理をカスタマイズすることができる効果を奏する。
【0043】
【発明の効果】
以上のように、この発明によれば、文書が定型文書である場合、PDL変換手段より出力されたPDLデータに対するイメージ化処理を実施して、文書のイメージを表すイメージファイルを作成し、そのイメージファイルが表すイメージと文書の書式情報とを比較して、文書のテキスト記述領域とイメージ記述領域を特定する領域特定手段を設け、テキスト抽出手段が領域特定手段により特定されたテキスト記述領域内のPDLデータから文字情報を抽出し、イメージ解析手段が領域特定手段により特定されたイメージ記述領域内のPDLデータからイメージを抽出するように構成したので、定型文書の文字情報を精度よく解析することができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による文書解析装置を示す構成図である。
【図2】 この発明の実施の形態1による文書解析装置の概略の処理内容を示す説明図である。
【図3】 文字情報の抽出対象が非定型文書である場合の処理内容を示すフローチャートである。
【図4】 文字情報の抽出プロセスを示す説明図である。
【図5】 最終的に得られた文字情報を示す説明図である。
【図6】 文字情報の抽出対象が定型文書である場合の処理内容を示すフローチャートである。
【図7】 記述領域の特定処理を示す説明図である。
【図8】 文字情報の抽出プロセスを示す説明図である。
【図9】 最終的に得られた文字情報を示す説明図である。
【図10】 この発明の実施の形態2による文書解析装置を示す構成図である。
【図11】 文字情報の抽出対象が非定型文書である場合の処理内容を示すフローチャートである。
【図12】 特定オブジェクトを含む非定型文書の一例を示す説明図である。
【図13】 文字情報の抽出プロセスを示す説明図である。
【図14】 文字情報の抽出対象が非定型文書である場合の処理内容を示すフローチャートである。
【図15】 特定オブジェクトを含む非定型文書の一例を示す説明図である。
【図16】 文字情報の抽出プロセスを示す説明図である。
【図17】 この発明の実施の形態3による文書解析装置を示す構成図である。
【図18】 この発明の実施の形態3による文書解析装置の概略の処理内容を示す説明図である。
【図19】 処理判定条件を示す説明図である。
【符号の説明】
1 PDL変換部(PDL変換手段)、2 書式情報記憶部(領域特定手段)、3 文書種別入力部(領域特定手段)、4 領域特定部(領域特定手段)、5テキスト抽出部(テキスト抽出手段)、6 イメージ解析部(イメージ解析手段)、7 文字情報整理部、8 特定オブジェクト解析部(特定オブジェクト解析手段)、9 フィルタリング部(フィルタリング手段)。

Claims (9)

  1. 電子化された文書の文書ファイルを入力すると、その文書ファイルをページ記述言語のデータ形式に変換してPDLデータを出力するPDL変換手段と、上記文書が定型文書である場合、上記PDL変換手段より出力されたPDLデータに対するイメージ化処理を実施して、上記文書のイメージを表すイメージファイルを作成し、上記イメージファイルが表すイメージと上記文書の書式情報とを比較して、上記文書のテキスト記述領域とイメージ記述領域を特定する領域特定手段と、上記文書が非定型文書である場合、上記PDL変換手段より出力されたPDLデータから文字情報を抽出し、上記文書が定型文書である場合、上記領域特定手段により特定されたテキスト記述領域内のPDLデータから文字情報を抽出するテキスト抽出手段と、上記文書が非定型文書である場合、上記PDL変換手段より出力されたPDLデータからイメージを抽出し、上記文書が定型文書である場合、上記領域特定手段により特定されたイメージ記述領域内のPDLデータからイメージを抽出し、そのイメージに対する文字認識処理を実施して、そのイメージが表している文字情報を取得するイメージ解析手段とを備えた文書解析装置。
  2. イメージ解析手段は、文書が定型文書である場合、その文書の書式情報に含まれている文字種別を考慮して、イメージに対する文字認識処理を実施することを特徴とする請求項1記載の文書解析装置。
  3. テキスト抽出手段は、文字情報として文字のコードと、その文字の位置とを抽出することを特徴とする請求項1記載の文書解析装置。
  4. イメージ解析手段は、文字情報として文字のコードと、その文字の位置と、その文字の幅及び高さとを取得することを特徴とする請求項1記載の文書解析装置。
  5. PDL変換手段は、電子化されていない文書のイメージデータを入力すると、そのイメージデータをページ記述言語のデータ形式に変換してPDLデータを出力することを特徴とする請求項1から請求項4のうちのいずれか1項記載の文書解析装置。
  6. PDL変換手段より出力されたPDLデータを参照して特定オブジェクトが含まれている文書上の領域を特定するとともに、その領域内の記述をイメージに変換し、そのイメージに対する文字認識処理を実施して、そのイメージが表している文字情報を取得する特定オブジェクト解析手段を設けたことを特徴とする請求項1から請求項5のうちのいずれか1項記載の文書解析装置。
  7. 特定オブジェクト解析手段は、文書が定型文書である場合、その文書の書式情報に含まれている文字種別を考慮して、イメージに対する文字認識処理を実施することを特徴とする請求項6記載の文書解析装置。
  8. 特定オブジェクト解析手段は、文字情報として文字のコードと、その文字の位置と、その文字の幅及び高さを取得することを特徴とする請求項6記載の文書解析装置。
  9. 文書ファイルのデータ形式が予め設定されたデータ形式と一致する場合、その文書ファイルをPDL変換手段に出力せずに、その文書ファイルから文字情報を直接抽出するフィルタリング手段を設けたことを特徴とする請求項1から請求項8のうちのいずれか1項記載の文書解析装置。
JP2003013885A 2003-01-22 2003-01-22 文書解析装置 Expired - Fee Related JP4194853B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003013885A JP4194853B2 (ja) 2003-01-22 2003-01-22 文書解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003013885A JP4194853B2 (ja) 2003-01-22 2003-01-22 文書解析装置

Publications (2)

Publication Number Publication Date
JP2004227255A JP2004227255A (ja) 2004-08-12
JP4194853B2 true JP4194853B2 (ja) 2008-12-10

Family

ID=32902096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003013885A Expired - Fee Related JP4194853B2 (ja) 2003-01-22 2003-01-22 文書解析装置

Country Status (1)

Country Link
JP (1) JP4194853B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007166287A (ja) * 2005-12-14 2007-06-28 Fuji Xerox Co Ltd 画像処理装置、および画像処理方法
JP5247394B2 (ja) * 2007-12-19 2013-07-24 キヤノン株式会社 メタデータ決定方法及び画像形成装置
JP5387086B2 (ja) * 2009-03-25 2014-01-15 富士ゼロックス株式会社 情報照合支援システム及びプログラム
JP5583542B2 (ja) 2010-05-24 2014-09-03 株式会社Pfu 帳票処理システム、ocr装置、ocr処理プログラム、帳票作成装置、帳票作成プログラム、および帳票処理方法
JP2016057964A (ja) * 2014-09-11 2016-04-21 富士ゼロックス株式会社 文書処理装置およびプログラム
US10949664B2 (en) 2019-04-08 2021-03-16 Kyocera Document Solutions Inc. Optical character recognition training data generation for neural networks by parsing page description language jobs
CN111985311A (zh) * 2020-07-08 2020-11-24 福建亿能达信息技术股份有限公司 一种识别手机号的方法、装置、设备和介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0636070A (ja) * 1992-07-16 1994-02-10 Hitachi Ltd 情報入力方法および装置
JPH10340314A (ja) * 1997-06-09 1998-12-22 Aibitsukusu Kk 帳票処理システム、その文字認識方法およびその記録媒体
JP2000020549A (ja) * 1998-06-29 2000-01-21 Planet Computer:Kk 文書データベースシステムへの入力支援装置
JP2000132627A (ja) * 1998-10-28 2000-05-12 Oki Electric Ind Co Ltd Ocrシステム

Also Published As

Publication number Publication date
JP2004227255A (ja) 2004-08-12

Similar Documents

Publication Publication Date Title
EP2162859B1 (en) Image processing apparatus, image processing method, and computer program
TW565803B (en) System and method for accurately recognizing text font in a document processing system
US7668814B2 (en) Document management system
US8571359B2 (en) Image processing device, method and storage medium for storing and displaying an electronic document
JPH10228473A (ja) 文書画像処理方法、文書画像処理装置および記憶媒体
JP4785655B2 (ja) 文書処理装置及び文書処理方法
WO2000052645A1 (fr) Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
JP2006350664A (ja) 文書処理装置
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
JP5249387B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US9277094B2 (en) Image processing apparatus and recording medium
JP4194853B2 (ja) 文書解析装置
US7661063B2 (en) Document processing apparatus and control method thereof
JP2022092119A (ja) 画像処理装置、画像処理方法およびプログラム
JP2008225695A (ja) 文字認識誤り修正装置およびプログラム
CN116682118A (zh) 一种古文字识别方法、系统、终端及介质
JP3711636B2 (ja) 情報検索装置および方法
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JP2009182530A (ja) 業務処理遂行支援装置
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP2001297080A (ja) 読取支援装置
JP4697387B2 (ja) 原稿画像判定装置、原稿画像判定方法及びそのプログラム
JP2007299321A (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び、情報記憶媒体
JP2023027838A (ja) 文書処理装置、文書処理方法及びプログラム
JPH08161350A (ja) 電子ファイリング方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071025

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071025

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080722

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080924

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131003

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees