JP4983464B2 - 帳票画像処理装置及び帳票画像処理プログラム - Google Patents

帳票画像処理装置及び帳票画像処理プログラム Download PDF

Info

Publication number
JP4983464B2
JP4983464B2 JP2007193766A JP2007193766A JP4983464B2 JP 4983464 B2 JP4983464 B2 JP 4983464B2 JP 2007193766 A JP2007193766 A JP 2007193766A JP 2007193766 A JP2007193766 A JP 2007193766A JP 4983464 B2 JP4983464 B2 JP 4983464B2
Authority
JP
Japan
Prior art keywords
frame
attribute
attribute name
attribute value
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007193766A
Other languages
English (en)
Other versions
JP2009031937A (ja
Inventor
勝彦 糸乘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2007193766A priority Critical patent/JP4983464B2/ja
Publication of JP2009031937A publication Critical patent/JP2009031937A/ja
Application granted granted Critical
Publication of JP4983464B2 publication Critical patent/JP4983464B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は、帳票画像処理装置及び帳票画像処理プログラムに関する。
従来より、帳票などに記載された情報を認識し、データベースへ格納する帳票処理が行われていた。この帳票処理を行うためには、情報を取り出す部分を定義する帳票定義を事前に作成する必要があった。帳票定義を作成するには、例えば未記入の帳票画像を読み取らせ、ディスプレイなどに表示して、オペレータがマウスなどのポインティングデバイスによって入力場所を指定する作業が必要であった。
また、下記特許文献1では、未記入の帳票画像(マスター画像)を入力し、罫線情報やプレ印刷されている文字等を抽出し、予め定められた帳票定義書式に従って情報を取り出す領域を定義する帳票定義の作成方法が提案されている。
特開2001−126010号公報
本発明の目的は、記入済みの帳票画像を取得して帳票定義を作成できる帳票画像処理装置及び帳票画像処理プログラムを提供することにある。
上記目的を達成するために、請求項1記載の帳票画像処理装置の発明は、帳票画像を取得する画像取得手段と、前記取得した帳票画像を解析し、枠領域と文字領域とを判別する画像解析手段と、前記文字領域に含まれる文字列を認識する文字認識手段と、帳票の各項目の属性名を受け付ける属性名受付手段と、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を、前記属性名に対応する属性値を記載する属性値枠と判定する属性値枠判定手段と、前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段と、を備えることを特徴とする。
請求項2記載の発明は、請求項1記載の発明において、前記属性値枠判定手段が、前記属性名に基づいて属性値に使用される文字種を決定し、前記属性名が属する枠領域と隣接する枠領域のうち、前記文字種による文字列が属する枠領域を前記属性値枠と判定することを特徴とする。
請求項3記載の発明は、請求項1記載の発明において、前記画像解析手段が前記枠領域が設定されていないと判断した場合に、前記帳票定義作成手段は、前記属性名受付手段が受け付けた最大入力文字数に基づいて属性値を記載する属性値記載領域の大きさを設定し、帳票定義を作成することを特徴とする。
請求項4記載の発明は、請求項3記載の発明において、前記帳票定義作成手段が、前記設定した属性値記載領域が他の枠領域または記載領域と重複する場合に、前記属性名受付手段が受け付けた最大入力文字数を減ずることを特徴とする。
請求項5記載の発明は、請求項3記載の発明において、前記帳票定義作成手段が、前記設定した属性値記載領域の大きさに所定の係数を乗じて前記属性値記載領域の大きさを補正し、帳票定義を作成することを特徴とする。
請求項6記載の発明は、請求項5記載の発明において、前記帳票定義作成手段が、前記設定した属性値記載領域が他の枠領域または記載領域と重複する場合に、前記係数を減ずることを特徴とする。
請求項7記載の発明は、請求項1記載の発明において、前記属性値枠判定手段が、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が、その属する枠領域内で偏った位置にある場合に、前記属性名に対応する属性値を記載する属性値記載領域が前記属性名と同じ枠領域内に存在すると判定し、前記帳票定義作成手段は、前記帳票定義に、属性名と属性値とが同じ枠領域に属している旨の情報を含ませることを特徴とする。
請求項8記載の発明は、請求項1記載の発明において、前記属性値枠判定手段が、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が、その属する枠領域内の左端にある場合に、前記属性名に対応する属性値を記載する属性値記載領域が前記属性名と同じ枠領域内に存在すると判定し、前記帳票定義作成手段は、前記帳票定義に、属性名と属性値とが同じ枠領域に属している旨の情報を含ませることを特徴とする。
請求項9記載の帳票画像処理装置の発明は、帳票画像を取得する画像取得手段と、前記取得した画像を解析し、枠領域、文字領域及びタイトル領域を判別する画像解析手段と、前記文字領域及びタイトル領域に含まれる文字列を認識する文字認識手段と、帳票の各項目の属性名を帳票のタイトル毎に登録する属性名登録手段と、前記文字認識手段が認識したタイトル領域の文字列に基づき前記属性名登録手段から当該タイトルに関連付けられた属性名を取得する属性名取得手段と、前記文字認識手段が認識した文字列が、前記属性名取得手段が取得した属性名と一致する場合に、当該文字列が属する枠領域に隣接する属性値枠を判定する属性値枠判定手段と、前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段と、を備えることを特徴とする。
請求項10記載の発明は、請求項9記載の発明において、前記属性名取得手段が、前記文字認識手段が認識したタイトルに対応する属性名を取得することができなかった場合に、前記属性名登録手段が、当該タイトルとこれに対応する属性名とを受け付けて登録することを特徴とする。
請求項11記載の帳票画像処理プログラムの発明は、コンピュータを、帳票画像を取得する画像取得手段、前記取得した画像を解析し、枠領域と文字領域とを判別する画像解析手段、前記文字領域に含まれる文字列を認識する文字認識手段、帳票の各項目の属性名を受け付ける属性名受付手段、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を、前記属性名に対応する属性値を記載する属性値枠と判定する属性値枠判定手段、前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段、として機能させることを特徴とする。
請求項12記載の帳票画像処理プログラムの発明は、コンピュータを、帳票画像を取得する画像取得手段、前記取得した画像を解析し、枠領域、文字領域及びタイトル領域を判別する画像解析手段、前記文字領域及びタイトル領域に含まれる文字列を認識する文字認識手段、帳票の各項目の属性名を帳票のタイトル毎に登録する属性名登録手段、前記文字認識手段が認識したタイトル領域の文字列に基づき前記属性名登録手段から当該タイトルに関連付けられた属性名を取得する属性名取得手段、前記文字認識手段が認識した文字列が、前記属性名取得手段が取得した属性名と一致する場合に、当該文字列が属する枠領域に隣接する属性値枠を判定する属性値枠判定手段、前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段、として機能させることを特徴とする。
請求項1及び請求項2の発明によれば、本構成を有していない場合に比べて、記入済みの帳票画像から帳票定義を作成できる。
請求項3の発明によれば、本構成を有していない場合に比べて、属性値が属性値枠内に記載されていない帳票でも帳票定義を作成できる。
請求項4の発明によれば、本構成を有していない場合に比べて、属性値記載領域が他の枠領域または記載領域と重複することを回避できる。
請求項5の発明によれば、本構成を有していない場合に比べて、属性値の記載がずれている帳票でも帳票定義を作成できる。
請求項6の発明によれば、本構成を有していない場合に比べて、属性値記載領域が他の属性値記載領域と重複することを回避できる。
請求項7及び請求項8の発明によれば、本構成を有していない場合に比べて、1つの枠領域内に属性名と属性値とが記載されている帳票でも帳票定義を作成できる。
請求項9の発明によれば、本構成を有していない場合に比べて、利用者が属性名を入力する必要がない。
請求項10の発明によれば、本構成を有していない場合に比べて、必要に応じて新規のタイトルを登録することができる。
請求項11の発明によれば、本構成を有していない場合に比べて、記入済みの帳票画像から帳票定義を作成できる帳票画像処理プログラムを提供できる。
請求項12の発明によれば、利用者が属性名を入力しなくても、記入済みの帳票画像から帳票定義を作成できる帳票画像処理プログラムを提供できる。
以下、本発明を実施するための最良の形態(以下、実施形態という)を、図面に従って説明する。
実施形態1.
図1には、本発明にかかる帳票画像処理装置を実現するためのコンピュータのハードウェア構成の例が示される。図1において、帳票画像処理装置は、中央処理装置(例えばCPUを用いることができる)10、ランダムアクセスメモリ(RAM)12、表示装置14、入力装置16、通信インターフェース18、画像読取装置20及びハードディスク装置(HDD)22を含んで構成されている。また、これらの構成要素は、バス24により互いに接続されている。
CPU10は、RAM12またはハードディスク装置22に格納されている制御プログラムに基づいて、後述する各部の動作を制御する。RAM12は主としてCPU10の作業領域として機能する。
表示装置14は、液晶ディスプレイ等により構成され、帳票画像等を表示する。
入力装置16は、キーボード、ポインティングデバイス等により構成され、使用者が動作指示等を入力するために使用する。また、各種ディスクドライブ装置を含み、フレキシブルディスク、コンパクトディスク、デジタル・バーサタイル・ディスク(DVD)等からデータを入力できる構成としもよい。
通信インターフェース18は、USB(ユニバーサルシリアルバス)ポート、ネットワークポート等の適宜な通信インターフェースにより構成され、CPU10が外部の装置と情報をやり取りするために使用する。
画像読取装置20は、スキャナ等により構成され、帳票等の紙媒体に作成された画像を読み取る。
ハードディスク装置22は、大容量の磁気記憶装置であり、後述する処理に必要となる種々のデータを記憶することができる。
図2には、本発明にかかる帳票画像処理装置の実施形態1のブロック図が示される。図2において、帳票画像処理装置は、画像取得部26、画像解析部28、文字認識部30、属性名受付部32、属性値枠判定部34及び帳票定義作成部36を含んで構成されている。
画像取得部26は、例えば図1に示される画像読取装置20を含んで構成され、紙媒体に作成された帳票の画像を取得する。なお、各種ディスクドライブ装置を備える入力装置16または通信インターフェース18を介して帳票画像を電子データとして取得する構成としてもよい。
画像解析部28は、例えば図1に示されたCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、画像取得部26が取得した帳票画像を解析し、枠領域と文字領域とを判別する。ここで、枠領域とは、帳票上に記載された罫線で囲まれた領域であり、後述する属性名が記載される属性名枠、属性値が記載される属性値枠等がある。この枠領域は、帳票画像中の罫線情報を抽出することにより判別する。また、文字領域とは、文字が記載されている領域であり、帳票画像中の文字情報を抽出することにより判別する。この文字領域は、上記枠領域の中に存在する場合と、枠領域の外すなわち罫線で囲まれていない領域に存在する場合とがある。
文字認識部30は、例えばCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、OCR(光学文字認識)処理等により文字領域に含まれる文字列を認識する。
属性名受付部32は、例えば図1に示された入力装置16、CPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、利用者が入力した、帳票から抽出したい属性名(項目名)を受け付ける。
属性値枠判定部34は、例えばCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、文字認識部30が認識した文字列と属性名受付部32が受け付けた属性名とを比較し、この属性名と一致する文字列が属する枠領域に隣接する枠領域を、属性名に対応する項目の内容である属性値を記載する属性値枠と判定する。
帳票定義作成部36は、例えばCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、属性値枠判定部34の判定結果に基づいて、属性値枠に関する情報である帳票定義を作成する。属性値枠に関する情報としては、例えば属性名、枠領域の大きさ、属性値として記載される文字の種類(文字種)等がある。このように帳票定義で設定された属性値枠は、後に実行される帳票処理において、文字認識部30等により属性値を認識する領域として使用される。
図3(a),(b),(c)には、上記枠領域及び文字領域の説明図が示される。図3(a)は、画像取得部26で取得した帳票画像の例である。本例では、帳票の各項目の名称である属性名として、受付日、契約番号、申請日、氏名、内容等が含まれている。なお、帳票の最上部には、帳票の名称であるタイトル(XXXXX)も記載されている。
図3(b),(c)は、図3(a)の帳票画像を画像解析部28により解析した結果の例である。図3(b)には、破線により文字領域αが示され、図3(c)には、破線により枠領域βが示されている。図3(b),(c)に示されるように、文字領域αとしての契約番号、申請日、氏名、内容の属性名及びこれらの属性名に対応する項目の記載内容である属性値は、それぞれ枠領域βの中に存在している。これに対して、受付日とその属性値及びタイトルは、枠領域βの外に存在している。
図4には、実施形態1にかかる帳票画像処理装置の動作例のフローが示される。図4において、画像取得部26が画像読取装置20等を介して帳票画像を取得すると(S101)、画像解析部28が帳票画像を受け取って解析する(S102)。この解析処理により、帳票画像内の構成要素を検出する。帳票画像内の構成要素とは、図3(b),(c)に示すように、文字領域αと枠領域βである。
次に、文字領域αと判定された部分に対して文字認識部30により、文字領域α内の文字列を認識する。文字認識部30は、認識した文字列を取り出してRAM12に一時的に記憶させておく(S103)。この文字列には、属性名と属性値が含まれる。
また、属性名受付部32は、利用者が入力装置16から入力した帳票中に存在する属性名を受け付ける(S104)。この際、画像取得部26が取得した帳票画像を表示装置14で表示し、その画像を参照してポインティングデバイス等で属性名を指定することより属性名受付部32に受け付けさせる構成としてもよい。
属性値枠判定部34は、文字認識部30が認識し、RAM12に一時的に記憶させた文字列と属性名受付部32が受け付けた属性名とを比較し、この属性名と一致する文字列が属する枠領域に隣接する枠領域を属性値枠と判定する(S105)。ここで、一般に帳票では、属性名に対応する属性値は、属性名が属する枠領域の右隣か下隣の枠領域内に記載されている。そのため、予めどの方向の枠領域を上記「隣接する枠領域」とするかを決定しておくことで、属性値枠として抽出する枠領域を判定することができる。あるいは、属性名受付部32において、属性名を受け付けると同時に、属性値枠と判定する枠領域の位置を指定する構成としてもよい。
なお、属性値枠判定部34は、上記属性名に基づいて属性値に使用される文字種を決定し、属性名が属する枠領域と隣接する枠領域のうち、上記決定した文字種による文字列が属する枠領域を上記属性値枠と判定する構成としてもよい。ここで、上記文字種に関しては、属性名受付部32に対して利用者が指定し、指定された情報を属性値枠判定部34が使用する構成としてもよい。あるいは、一般的な常識を使用して”番号”などの文字列が属性名に含まれていれば、数字と英文字、一般名称であれば文字、“日”などの文字を含んでいれば日付であると判断して、それぞれ適当な文字種を属性値枠判定部34が決定する構成としてもよい。
帳票定義作成部36は、属性値枠判定部34の判定結果に基づいて、属性値枠に関する情報である帳票定義を作成する(S106)。
図5には、上記帳票定義の例が示される。図5において、帳票定義は、属性値枠の座標情報、属性名及び属性値に用いられる文字種が含まれる。ここで、座標情報は、x,y方向を図3(c)に示されるようにとると、左(画像の左端から枠領域の左辺までのx方向の距離)、上(画像の上端から枠領域の上辺までのy方向の距離)、高(枠領域のy方向の長さ)及び幅(枠領域のx方向の長さ)として決定される。
ここで、例えば図3(a)に示される「受付日」のように、枠領域βが設定されておらず、文字領域αが枠領域βに属していない、すなわち枠領域βに囲まれていない場合もある。この場合には、図4の帳票画像解析処理(S102)において画像解析部28が枠領域βに属さない文字領域αとして認識し、属性名受付部32、文字認識部30及び帳票定義作成部36に通知する。これにより、属性名受付部32は、図4の属性名受付処理(S104)において属性名を受け付ける際に最大入力文字数も受け付ける。この最大入力文字数は、各属性名毎に利用者が適宜指定する。また、図4の文字列認識処理(S103)において文字認識部30が文字列を認識する際に、文字のフォントサイズも同時に取得しておく。このフォントサイズと文字数に基づき、帳票定義作成部36が、図4の帳票定義作成処理(S106)において属性値が記載される仮想的な属性値枠の大きさを計算する。この仮想的な属性値枠は、属性値が記載される属性値記載領域であり、帳票処理において属性値を認識する領域として使用される。
例えば、「受付日」のフォントサイズが9ポイントであり、最大入力文字数に10文字が指定されていた場合には、9×0.35×10=31.5mmの幅の枠領域を仮定する。また、高さとしては、フォントサイズ9×0.35=3.15mmとなる。次に、枠領域の上端を決める必要があるが、属性名として記入されている文字列の上端を使用する。このようにして、帳票定義作成部36が仮想的な属性値枠を設定し、その座標情報を使用して帳票定義を作成する。
また、枠領域βが設定されていない場合には、属性値がずれて記入される可能性もある。そのため、予め定めた1より大きい係数を設定し、帳票定義作成部36が上記計算した属性値枠の高さに乗じて上記計算値より大きい高さを帳票定義として設定する。これにより、仮想的な属性値枠の大きさを補正することができ、属性値が多少ずれて記載されていても、その後の帳票処理において正しく文字列を認識することができる。
図6(a)〜(e)には、上記帳票定義において、仮想的な属性値枠の大きさを大きく設定したときに、他の枠領域または記載領域と重複した場合の例の説明図が示される。
本例では、図6(a)に示されるように、2つの属性名「受付日」と「氏名」とが上下2段に設定されている。この場合に、帳票定義においてそれぞれに対応する属性値枠の高さを大きく設定すると、図6(b)に破線で示されるように、受付日に対応する属性値枠の下部と、氏名に対応する属性値枠の上部とが重複する。この状態で帳票処理を行うと、受付日と氏名に対応する属性値の文字の一部が他方の認識処理の際に混入し、文字列の認識率を低下させて正しい情報が得られない可能性がある。そこで、図4の属性値枠判定処理(S105)において属性値枠判定部34が属性値枠の重複を判定し、重複している場合に、帳票定義作成部36にその旨通知する構成とする。帳票定義作成部36は、この通知を受けると、図4の帳票定義作成処理(S106)において属性値枠の高さを補正するために設定された上記係数を減じ、属性値枠の高さを小さくして属性値枠の重複が無くす処理を行う。図6(c)には、受付日と氏名に対応する属性値枠が、上記処理により重複なく設定された様子が示される。
また、図6(d)の例では、帳票定義において設定された座標情報の幅が大きすぎて他の枠領域(罫線)と重複し、または帳票の紙の範囲からはみ出している。この場合にも属性値枠判定部34が重複等を判定し、帳票定義作成部36にその旨通知する。この場合、帳票定義作成部36は、上記最大入力文字数を減ずる補正を行う。これにより、図6(e)に示されるように、属性値枠が他の枠領域と重複し、または帳票の紙の範囲からはみ出すことを回避できる。
図7には、帳票画像の他の例が示される。図7では、1つの枠領域内に属性名と属性値が両方記載されている。また、図8には、帳票定義の他の例が示される。図8は、図7に示された帳票画像に基づいて作成された帳票定義の例である。
属性値枠判定部34は、図4の属性値枠判定処理(S105)において、文字認識部30が認識した文字列と属性名受付部32が受け付けた属性名とを比較し、属性名と一致する文字列が、その属する枠領域内で偏った位置にあるか否かを判定する。属性名と一致する文字列が上記枠領域内で偏った位置にあるときは、同じ枠領域内に属性値も存在すると判定する。この場合、帳票定義作成部36は、図8に示されるように、帳票定義の同枠属性のフラグを立てる(図8では丸印にて示す)。
ここで、上記文字列がその属する枠領域内で偏った位置にあるか否かの判定は、例えば属性名が属する枠領域の座標情報と属性名が記載されている文字領域の位置情報とを比較することにより行うことができる。すなわち、枠領域の中心位置と属性名が記載されている文字領域の中心位置との差を計算し、属性名の文字列幅あるいは文字列高さ以上の差が検出される場合に、文字列が偏った位置にあると判定する。文字列が偏った位置にあると、その枠領域内には属性名以外に属性値を記載する属性値記載領域が存在すると判断できる。このため、その枠領域内に記載されている属性名以外の文字列を属性値と判断することができる。
また、上述したように属性名と属性値とが同じ枠領域内に記入されているときには、通常その枠領域内の左端の文字列は属性名となっている。従って、属性値枠判定部34は、枠領域内の文字列を検索して、属性名が枠領域内の左端に位置している場合には、その枠領域内には属性名と属性値が存在すると判定することができる。
以上の処理により、帳票定義において同枠属性のフラグが立っている場合には、後の帳票処理において、枠領域内の文字認識結果から属性名を取り除くことにより、正しい属性値を得ることができる。
実施形態2.
図9には、本発明にかかる帳票画像処理装置の実施形態2のブロック図が示される。図9において、帳票画像処理装置は、画像取得部26、画像解析部28、文字認識部30、属性値枠判定部34、帳票定義作成部36、属性名登録部38及び属性名取得部40を含んで構成されている。なお、上記画像取得部26、文字認識部30、属性値枠判定部34及び帳票定義作成部36は、図2と同じ機能であるので、説明を省略する。
画像解析部28は、例えば図1に示されたCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、画像取得部26が取得した帳票画像を解析し、枠領域、文字領域及びタイトル領域を判別する。ここで、タイトル領域は、帳票のタイトル(文書名)が記載された文字領域であり、通常帳票の最上段に位置している。
属性名登録部38は、例えば図1に示されたRAM12及びハードディスク装置22及びこれらをCPU10により制御するためのプログラムにより構成され、帳票の各項目の属性名を帳票のタイトル毎に登録する。
属性名取得部40は、例えばCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、文字認識部30が認識したタイトル領域の文字列に基づき前記属性名登録手段から当該タイトルに対応する属性名を取得する。
図10には、上記属性名登録部38に登録されたタイトルと属性名とを関連付けるテーブルの例が示される。図10では、2つのタイトルXXXXX及びZZZZZZとこれらに関連付けられた属性名が登録されているが、これらに限定されるものではなく、タイトルの数は任意に設定することができる。
図11には、実施形態2にかかる帳票画像処理装置の動作例のフローが示される。図11において、画像取得部26が画像読取装置20等を介して帳票画像を取得すると(S201)、画像解析部28が帳票画像を受け取って解析する(S202)。この解析処理により、帳票画像内の構成要素を検出する。帳票画像内の構成要素とは、図3(b),(c)に示すように、文字領域α、枠領域β及びタイトル領域γである。タイトルは、通常文書の上部中央付近に、他の文字より大きなフォントを用いて記載されている。画像解析部28は、この性質に基づいてタイトル領域を判定することができる。
次に、文字領域α及びタイトル領域γと判定された部分に対して文字認識部30により、それぞれの領域内の文字列を認識する。文字認識部30は、認識した文字列を取り出してRAM12に一時的に記憶させておく(S203)。この文字列には、属性名、属性値及びタイトルが含まれる。
属性名取得部40は、文字認識部30が認識したタイトルを受け取り、このタイトルに関連付けられた属性名を、図10に示された属性名登録部38のテーブルから取得する(S204)。
属性値枠判定部34は、文字認識部30が認識し、RAM12に一時的に記憶させた文字列と属性名取得部40が取得した属性名とを比較し、この属性名と一致する文字列が属する枠領域に隣接する枠領域を属性値枠と判定する(S205)。
帳票定義作成部36は、属性値枠判定部34の判定結果に基づいて、属性値枠に関する情報である帳票定義を作成する(S206)。
なお、上記S204において、文字認識部30が認識したタイトルに関連付けられた属性名を取得することができなかった場合には、利用者が入力装置16からタイトルとこれに関連付けられる属性名とを入力し、属性名登録部38がこれらの情報を受け付けてテーブルに登録する構成とする。
上述した、図4及び図11の各ステップを実行するためのプログラムは、記録媒体に格納することも可能であり、また、そのプログラムを通信手段によって提供することもできる。
以上、本発明の実施形態をいくつか紹介したが、本発明は上記実施形態に限定されるものではない。
本発明にかかる帳票画像処理装置を実現するためのコンピュータのハードウェア構成の例を示す図である。 本発明にかかる帳票画像処理装置の実施形態1のブロック図である。 枠領域及び文字領域の説明図である。 実施形態1にかかる帳票画像処理装置の動作例のフロー図である。 帳票定義の例を示す図である。 帳票定義において、仮想的な属性値枠の大きさを大きく設定したときに、他の枠領域または記載領域と重複した場合の例の説明図である。 帳票画像の他の例を示す図である。 帳票定義の他の例を示す図である。 本発明にかかる帳票画像処理装置の実施形態2のブロック図である。 タイトルと属性名とを関連付けるテーブルの例の説明図である。 実施形態2にかかる帳票画像処理装置の動作例のフロー図である。
符号の説明
10 CPU、12 RAM、14 表示装置、16 入力装置、18 通信インターフェース、20 画像読取装置、22 ハードディスク装置、24 バス、26 画像取得部、28 画像解析部、30 文字認識部、32 属性名受付部、34 属性値枠判定部、36 帳票定義作成部、38 属性名登録部、40 属性名取得部。

Claims (11)

  1. 帳票画像を取得する画像取得手段と、
    前記取得した帳票画像を解析し、枠領域と文字領域とを判別する画像解析手段と、
    前記文字領域に含まれる文字列を認識する文字認識手段と、
    帳票の各項目の属性名を受け付ける属性名受付手段と、
    前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を抽出するとともに前記属性名に基づいて、前記属性名に対応する属性値に使用される文字種を決定し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域のうち、前記文字種による文字列が属する枠領域を、前記属性値を記載する属性値枠と判定する属性値枠判定手段と、
    前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段と、
    を備えることを特徴とする帳票画像処理装置。
  2. 帳票画像を取得する画像取得手段と、
    前記取得した帳票画像を解析し、枠領域と文字領域とを判別する画像解析手段と、
    前記文字領域に含まれる文字列を認識する文字認識手段と、
    帳票の各項目の属性名を受け付ける属性名受付手段と、
    前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を、前記属性名に対応する属性値を記載する属性値枠と判定する属性値枠判定手段と、
    前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成するとともに、前記画像解析手段が前記枠領域が設定されていないと判断した場合には、前記属性名受付手段が受け付けた最大入力文字数に基づいて属性値を記載する属性値記載領域の大きさを設定し、帳票定義を作成する帳票定義作成手段と、
    を備えることを特徴とする帳票画像処理装置。
  3. 請求項2記載の帳票画像処理装置において、前記帳票定義作成手段は、前記設定した属性値記載領域が他の枠領域または記載領域と重複する場合に、前記属性名受付手段が受け付けた最大入力文字数を減ずることを特徴とする帳票画像処理装置。
  4. 請求項2記載の帳票画像処理装置において、前記帳票定義作成手段は、前記設定した属性値記載領域の大きさに所定の係数を乗じて前記属性値記載領域の大きさを補正し、帳票定義を作成することを特徴とする帳票画像処理装置。
  5. 請求項4記載の帳票画像処理装置において、前記帳票定義作成手段は、前記設定した属性値記載領域が他の枠領域または記載領域と重複する場合に、前記係数を減ずることを特徴とする帳票画像処理装置。
  6. 帳票画像を取得する画像取得手段と、
    前記取得した帳票画像を解析し、枠領域と文字領域とを判別する画像解析手段と、
    前記文字領域に含まれる文字列を認識する文字認識手段と、
    帳票の各項目の属性名を受け付ける属性名受付手段と、
    前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を、前記属性名に対応する属性値を記載する属性値枠と判定する属性値枠判定手段と、
    前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成するとともに、前記属性値枠判定手段が、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が、その属する枠領域内で偏った位置にあるときに、前記属性名に対応する属性値を記載する属性値記載領域が前記属性名と同じ枠領域内に存在すると判定した場合に、前記帳票定義に、属性名と属性値とが同じ枠領域に属している旨の情報を含ませる帳票定義作成手段と、
    を備えることを特徴とする帳票画像処理装置。
  7. 帳票画像を取得する画像取得手段と、
    前記取得した帳票画像を解析し、枠領域と文字領域とを判別する画像解析手段と、
    前記文字領域に含まれる文字列を認識する文字認識手段と、
    帳票の各項目の属性名を受け付ける属性名受付手段と、
    前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を、前記属性名に対応する属性値を記載する属性値枠と判定する属性値枠判定手段と、
    前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成するとともに、前記属性値枠判定手段が、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が、その属する枠領域内の左端にあるときに、前記属性名に対応する属性値を記載する属性値記載領域が前記属性名と同じ枠領域内に存在すると判定した場合に、前記帳票定義に、属性名と属性値とが同じ枠領域に属している旨の情報を含ませる帳票定義作成手段と、
    を備えることを特徴とする帳票画像処理装置。
  8. コンピュータを、
    帳票画像を取得する画像取得手段、
    前記取得した帳票画像を解析し、枠領域と文字領域とを判別する画像解析手段、
    前記文字領域に含まれる文字列を認識する文字認識手段、
    帳票の各項目の属性名を受け付ける属性名受付手段、
    前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を抽出するとともに前記属性名に基づいて、前記属性名に対応する属性値に使用される文字種を決定し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域のうち、前記文字種による文字列が属する枠領域を、前記属性値を記載する属性値枠と判定する属性値枠判定手段、
    前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段、
    として機能させることを特徴とする帳票画像処理プログラム。
  9. コンピュータを、
    帳票画像を取得する画像取得手段、
    前記取得した帳票画像を解析し、枠領域と文字領域とを判別する画像解析手段、
    前記文字領域に含まれる文字列を認識する文字認識手段、
    帳票の各項目の属性名を受け付ける属性名受付手段、
    前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を、前記属性名に対応する属性値を記載する属性値枠と判定する属性値枠判定手段、
    前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成するとともに、前記画像解析手段が前記枠領域が設定されていないと判断した場合には、前記属性名受付手段が受け付けた最大入力文字数に基づいて属性値を記載する属性値記載領域の大きさを設定し、帳票定義を作成する帳票定義作成手段、
    として機能させることを特徴とする帳票画像処理プログラム。
  10. コンピュータを、
    帳票画像を取得する画像取得手段、
    前記取得した帳票画像を解析し、枠領域と文字領域とを判別する画像解析手段、
    前記文字領域に含まれる文字列を認識する文字認識手段、
    帳票の各項目の属性名を受け付ける属性名受付手段、
    前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を、前記属性名に対応する属性値を記載する属性値枠と判定する属性値枠判定手段、
    前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成するとともに、前記属性値枠判定手段が、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が、その属する枠領域内で偏った位置にあるときに、前記属性名に対応する属性値を記載する属性値記載領域が前記属性名と同じ枠領域内に存在すると判定した場合に、前記帳票定義に、属性名と属性値とが同じ枠領域に属している旨の情報を含ませる帳票定義作成手段、
    として機能させることを特徴とする帳票画像処理プログラム。
  11. コンピュータを、
    帳票画像を取得する画像取得手段、
    前記取得した帳票画像を解析し、枠領域と文字領域とを判別する画像解析手段、
    前記文字領域に含まれる文字列を認識する文字認識手段、
    帳票の各項目の属性名を受け付ける属性名受付手段、
    前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を、前記属性名に対応する属性値を記載する属性値枠と判定する属性値枠判定手段、
    前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成するとともに、前記属性値枠判定手段が、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が、その属する枠領域内の左端にあるときに、前記属性名に対応する属性値を記載する属性値記載領域が前記属性名と同じ枠領域内に存在すると判定した場合に、前記帳票定義に、属性名と属性値とが同じ枠領域に属している旨の情報を含ませる帳票定義作成手段、
    として機能させることを特徴とする帳票画像処理プログラム。
JP2007193766A 2007-07-25 2007-07-25 帳票画像処理装置及び帳票画像処理プログラム Expired - Fee Related JP4983464B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007193766A JP4983464B2 (ja) 2007-07-25 2007-07-25 帳票画像処理装置及び帳票画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007193766A JP4983464B2 (ja) 2007-07-25 2007-07-25 帳票画像処理装置及び帳票画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2009031937A JP2009031937A (ja) 2009-02-12
JP4983464B2 true JP4983464B2 (ja) 2012-07-25

Family

ID=40402391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007193766A Expired - Fee Related JP4983464B2 (ja) 2007-07-25 2007-07-25 帳票画像処理装置及び帳票画像処理プログラム

Country Status (1)

Country Link
JP (1) JP4983464B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7064228B2 (ja) 2016-11-22 2022-05-10 イースタン技研株式会社 スピンドル用固定具付きアダプター及びそのアダプターを備えた放電加工機

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6201638B2 (ja) * 2013-10-28 2017-09-27 富士ゼロックス株式会社 帳票処理装置及びプログラム
JP6973433B2 (ja) * 2019-03-07 2021-11-24 日本電気株式会社 帳票処理装置、帳票処理方法、及びプログラム
US11315351B2 (en) 2020-01-08 2022-04-26 Kabushiki Kaisha Genial Technology Information processing device, information processing method, and information processing program
JP6856916B1 (ja) * 2020-01-08 2021-04-14 ジーニアルテクノロジー,インク. 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221510A (ja) * 1995-02-16 1996-08-30 Toshiba Corp 帳票文書処理装置および帳票文書処理方法
JPH09231291A (ja) * 1996-02-27 1997-09-05 Mitsubishi Electric Corp 帳票読取方法及びその装置
JP3294995B2 (ja) * 1996-06-21 2002-06-24 三菱電機株式会社 帳票読取装置
JP3524339B2 (ja) * 1997-08-25 2004-05-10 沖電気工業株式会社 光学式文字読取装置用帳票のフォーマット情報生成方法
JP3394694B2 (ja) * 1997-08-29 2003-04-07 沖電気工業株式会社 フォーマット情報登録方法及びocrシステム
JP4159071B2 (ja) * 2000-03-03 2008-10-01 株式会社リコー 画像処理方法,画像処理装置および該処理方法を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7064228B2 (ja) 2016-11-22 2022-05-10 イースタン技研株式会社 スピンドル用固定具付きアダプター及びそのアダプターを備えた放電加工機

Also Published As

Publication number Publication date
JP2009031937A (ja) 2009-02-12

Similar Documents

Publication Publication Date Title
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US11182604B1 (en) Computerized recognition and extraction of tables in digitized documents
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
US8422796B2 (en) Image processing device
JP3962891B2 (ja) 文書画像処理装置、文書画像処理方法、及び記憶媒体
JP2010510563A (ja) ハード・コピーの書式からの書式定義の自動発生
CN102117269A (zh) 对文档进行数字化的装置及方法
JP6826293B2 (ja) 情報処理システムと、その処理方法及びプログラム
WO2000052645A1 (fr) Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
JP2008145611A (ja) 情報処理装置、プログラム
JP4983464B2 (ja) 帳票画像処理装置及び帳票画像処理プログラム
JP2008059157A (ja) 書類確認支援システム、書類確認支援装置およびプログラム
US8023735B2 (en) Image processing apparatus for extracting representative characteristic from image data and storing image data to be associated with representative characteristic
JP2008204184A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2002203206A (ja) 文書書式識別装置および識別方法
JP2007323474A (ja) Ocrシステム、ocrフォーマットパラメータ作成方法、そのプログラムおよびプログラム記録媒体
JP2005234790A (ja) 手書き帳票処理システム、手書き帳票処理方法
JP4518212B2 (ja) 画像処理装置及びプログラム
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
JP7031465B2 (ja) 情報処理装置及びプログラム
JPH10207981A (ja) 帳票認識方法
JP5243228B2 (ja) 文字認識装置、文字認識装置の確認画面生成方法
JP2002032704A (ja) 帳票処理システム、帳票処理方法、記憶媒体、帳票
JP2006134079A (ja) 画像処理装置及びプログラム
JP6743401B2 (ja) 帳票設計・読取設定支援装置、帳票設計・読取設定支援方法、及び、光学文字認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120409

R150 Certificate of patent or registration of utility model

Ref document number: 4983464

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees