JP4054453B2 - 文字認識装置およびプログラム記録媒体 - Google Patents
文字認識装置およびプログラム記録媒体 Download PDFInfo
- Publication number
- JP4054453B2 JP4054453B2 JP26164098A JP26164098A JP4054453B2 JP 4054453 B2 JP4054453 B2 JP 4054453B2 JP 26164098 A JP26164098 A JP 26164098A JP 26164098 A JP26164098 A JP 26164098A JP 4054453 B2 JP4054453 B2 JP 4054453B2
- Authority
- JP
- Japan
- Prior art keywords
- item
- temporary
- character
- information
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
Description
【発明の属する技術分野】
この発明は、住所録等の特定フォーマットで連続して記載されている文書画像が入力される場合或は伝票等の固定フォーマットの文書画像が連続して入力される場合の入力文字を認識する文字認識装置、および、文字認識プログラムが記録されたプログラム記録媒体に関する。
【0002】
【従来の技術】
従来より、住所録読み取り装置として特開平10−55405号公報に記載されているようなものがある。この住所録読み取り装置は、図18に示すような構成を有している。そして、住所録認識制御部1の制御の下に、以下のようにして住所録の読み取りが行われる。先ず、住所録の画像が、スキャナ2で読み取られて画像入力部3から入力される。そして、文字認識部4によって、文字切り出しおよび特徴抽出が行われ、さらにパターン辞書5を用いたマッチング処理および文字列生成処理が行われて、文字が認識される。
【0003】
そして、罫線認識部6によって、上記画像入力部3から入力されたイメージデータに基づいて、住所録上の罫線が認識される。そうすると、後処理部7によって、罫線認識部6の認識結果に基づいて1件のデータを自動的に区切って1ブロックとし、この区切られた1ブロック分のデータ中の文字列とキーワード辞書8中のキーワードとの照合が行われて、「氏名」,「住所」,「電話番号」,「郵便番号」,「ファックス番号」等の項目別に分類される。そして、住所録認識結果処理部9によって、上記項目別に住所録の認識結果を出力する。
【0004】
【発明が解決しようとする課題】
しかしながら、上記従来の住所録読み取り装置においては、以下のような問題がある。すなわち、上述のように、1ブロック毎にキーワード照合と項目分類とを行っている。したがって、キーワード照合や項目分類に誤りがあった場合の修正処理は各ブロック毎に行うことになり、当該ブロックの範囲内で見た場合には正しく修正されたと見なされても、他のブロックとの比較において正しく修正されたとは言えない場合が生ずる。すなわち、上記従来の住所録読み取り装置においては、誤りの修正には限界がある。
【0005】
また、図19に例示するように、住所録の原稿中に「会社名」,「メモ」,「血液型」,「ID」および「備考」等のキーワード辞書8に登録されていない項目名が存在する場合には、上記未登録の項目名は項目名として認識されないことになる。したがって、図20に示すように、不明認識結果として出力するか、あるいは、出力しない方法を取らざるを得ず、項目分類の精度が低くなると言う問題がある。
【0006】
そこで、この発明の目的は、特定フォーマットで連続して記載されている文書画像が入力される場合あるいは固定フォーマットの文書画像が連続して入力される場合において、高い項目分類精度が得られる文字認識装置、および、文字認識プログラムが記録されたプログラム記録媒体を提供することにある。
【0007】
【課題を解決するための手段】
上記目的を達成するため、請求項1に係る発明の文字認識装置は、
特定フォーマットが繰り返される文書画像データが入力される画像入力部と、
上記画像入力部から入力された文書画像データに基づいて文字を切り出して認識し、文字候補,文字矩形座標および文字列を得る文字認識部と、
項目ラベルと各項目ラベルに属する文字列とを対応付けて登録した項目ラベル辞書と、
項目名と各項目名に属する文字列とを対応付けて登録した項目辞書と、
上記項目ラベル辞書および項目辞書を参照して、上記認識された文字列に上記項目ラベルあるいは項目名を仮の項目である仮項目として付けて、上記文字列と仮項目とを対応付けた仮項目情報を得る仮項目付け部と、
上記文書画像データに基づいて罫線を認識し、罫線の位置を含む罫線情報を得る罫線認識部と、
上記文字矩形座標,仮項目情報および罫線情報に基づいて、上記仮項目情報を一件毎のブロックに区切るブロック抽出部と、
上記ブロック毎に区切られた仮項目情報における上記仮項目を参照して、仮項目名の組み合わせとこの仮項目名の組み合わせから生成される正項目名とを対応付けてなる項目作成ルールに従って、上記ブロック毎に区切られた仮項目情報に正規の項目である正項目を付ける正項目付け処理と、上記ブロック毎に区切られた仮項目情報に付けられた上記正項目を参照して、1ブロック内の情報は各ブロック共通であると言う規則に従って、各ブロック共通の正項目のフォーマットである共通フォーマットを作成する共通フォーマット作成処理と、上記仮項目情報の各ブロック毎に、上記付与された正項目名と上記共通フォーマットの正項目名との整合性を検証して上記共通フォーマットに適合しない正項目名を抽出し、上記抽出された正項目名を上記共通フォーマットを参照して修正する正項目修正処理と、を含む項目分類処理を行う項目分類部と
を備えたことを特徴としている。
【0008】
上記構成によれば、ブロック抽出部によって、文字認識部で得られた文字矩形座標と仮項目付け部で得られた仮項目情報と罫線認識部で得られた罫線情報とに基づいて、上記文字認識部で得られた文字列および上記仮項目情報が一件毎のブロックに区切られる。そして、上記ブロック毎に区切られた仮項目情報に正項目を付け、各ブロック共通の共通フォーマットを作成し、各ブロックの項目名のうち上記共通フォーマットに適合しない正項目名が修正される。したがって、上記項目辞書に登録されていない項目名や誤認識された項目名が上記共通フォーマットを参照して修正される。こうして、正項目名の特定精度が高められて項目分類精度が高められる。
【0009】
また、請求項2に係る発明の文字認識装置は、
特定フォーマットが繰り返される文書画像データが入力される画像入力部と、
上記画像入力部から入力された文書画像データに基づいて文字を切り出して認識し、文字候補,文字矩形座標および文字列を得る文字認識部と、
項目ラベルと各項目ラベルに属する文字列とを対応付けて登録した項目ラベル辞書と、
項目名と各項目名に属する文字列とを対応付けて登録した項目辞書と、
上記項目ラベル辞書および項目辞書を参照して、上記認識された文字列に上記項目ラベルあるいは項目名を仮の項目である仮項目として付けて、上記文字列と仮項目とを対応付けた仮項目情報を得る仮項目付け部と、
上記文書画像データに基づいて罫線を認識し、罫線の位置を含む罫線情報を得る罫線認識部と、
上記文字矩形座標,仮項目情報および罫線情報に基づいて、上記仮項目情報を一件毎のブロックに区切るブロック抽出部と、
上記仮項目,この仮項目に属する文字列およびこの文字列の位置を含む項目に関する情報は上記区切られた各ブロックに共通であるとして、上記ブロックに区切られた上記仮項目情報に対して修正を施す後処理を行う後処理部と、
上記ブロック毎に区切られた仮項目情報における上記仮項目を参照して、仮項目名の組み合わせとこの仮項目名の組み合わせから生成される正項目名とを対応付けてなる項目作成ルールに従って、上記ブロック毎に区切られた仮項目情報に正規の項目である正項目を付ける正項目付け処理と、上記ブロック毎に区切られた仮項目情報に付けられた上記正項目を参照して、1ブロック内の情報は各ブロック共通であると言う規則に従って、各ブロック共通の正項目のフォーマットである共通フォーマットを作成する共通フォーマット作成処理と、上記仮項目情報の各ブロック毎に、上記付与された正項目名と上記共通フォーマットの正項目名との整合性を検証して上記共通フォーマットに適合しない正項目名を抽出し、上記抽出された正項目名を上記共通フォーマットを参照して修正する正項目修正処理と、を含む項目分類処理を行う項目分類部と
を備えたことを特徴としている。
【0010】
上記構成によれば、ブロック抽出部によって、文字認識部で得られた文字矩形座標と仮項目付け部で得られた仮項目情報と罫線認識部で得られた罫線情報とに基づいて、上記文字認識部で得られた文字列および上記仮項目情報が一件毎のブロックに区切られる。そして、上記項目情報は上記各ブロックに共通であるとして、後処理部によって、誤認識した文字列が、他のブロックの該当文字列や仮項目が参照されて修正される。さらに、上記ブロック毎に区切られた仮項目情報に正項目を付け、各ブロック共通の共通フォーマットを作成し、各ブロックの項目名のうち上記共通フォーマットに適合しない正項目名が修正される。したがって、上記項目辞書に登録されていない項目名や誤認識された項目名が上記共通フォーマットを参照して修正される。こうして、文字認識精度および項目分類精度が高められる。
【0011】
また、請求項3に係る発明は、請求項1あるいは請求項2に係る発明の文字認識装置において、
上記正項目修正部による修正の処理が行われた後に、正項目名とこの正項目名に属する文字列の組から、最終出力フォーマットに規定されている正項目名に該当する正項目名とこの正項目名に属する文字列との組を、最終出力項目として選別して出力バッファに格納する出力フォーマット選別手段を備えたことを特徴としている。
【0012】
上記構成によれば、最終出力フォーマットに規定されている正項目名に従って分類された認識結果が得られる。
【0013】
また、請求項4に係る発明の文字認識装置は、
特定フォーマットが繰り返される文書画像データが入力される画像入力部と、
上記画像入力部から入力された文書画像データに基づいて文字を切り出して認識し、文字候補,文字矩形座標および文字列を得る文字認識部と、
項目ラベルと各項目ラベルに属する文字列とを対応付けて登録した項目ラベル辞書と、
項目名と各項目名に属する文字列とを対応付けて登録した項目辞書と、
上記項目ラベル辞書および項目辞書を参照して、上記認識された文字列に上記項目ラベルあるいは項目名を仮の項目である仮項目として付けて、上記文字列と仮項目とを対応付けた仮項目情報を得る仮項目付け部と、
上記文書画像データに基づいて罫線を認識し、罫線の位置を含む罫線情報を得る罫線認識部と、
上記文字矩形座標,仮項目情報および罫線情報に基づいて、上記仮項目情報を一件毎のブロックに区切るブロック抽出部と、
上記ブロック毎に区切られた仮項目情報における上記仮項目を参照して、仮項目名の組み合わせとこの仮項目名の組み合わせから生成される正項目名とを対応付けてなる項目作成ルールに従って、上記ブロック毎に区切られた仮項目情報に正規の項目である正項目を付ける正項目付け処理と、上記ブロック毎に区切られた仮項目情報に付けられた上記正項目を参照して、1ブロック内の情報は各ブロック共通であると言う規則に従って、各ブロック共通の正項目のフォーマットである共通フォーマットを作成する共通フォーマット作成処理と、上記仮項目情報の各ブロック毎に、上記共通フォーマットに適合しない項目ラベルを抽出し、上記抽出された項目ラベルを上記共通フォーマットを参照して修正する項目ラベル修正処理と、を含む項目分類処理を行う項目分類部と
を備えたことを特徴としている。
【0014】
上記構成によれば、各ブロック共通の共通フォーマットを作成し、各ブロックの項目名のうち上記共通フォーマットに適合しない項目ラベルが修正される。したがって、誤認識された項目ラベルが上記共通フォーマットを参照して修正される。こうして、正項目名の特定精度が高められて項目分類精度が高められる。
【0015】
また、請求項5に係る発明の文字認識装置は、
特定フォーマットが繰り返される文書画像データが入力される画像入力部と、
上記画像入力部から入力された文書画像データに基づいて文字を切り出して認識し、文字候補,文字矩形座標および文字列を得る文字認識部と、
項目ラベルと各項目ラベルに属する文字列とを対応付けて登録した項目ラベル辞書と、
項目名と各項目名に属する文字列とを対応付けて登録した項目辞書と、
上記項目ラベル辞書および項目辞書を参照して、上記認識された文字列に上記項目ラベルあるいは項目名を仮の項目である仮項目として付けて、上記文字列と仮項目とを対応付けた仮項目情報を得る仮項目付け部と、
上記文書画像データに基づいて罫線を認識し、罫線の位置を含む罫線情報を得る罫線認識部と、
上記文字矩形座標,仮項目情報および罫線情報に基づいて、上記仮項目情報を一件毎のブロックに区切るブロック抽出部と、
上記仮項目,この仮項目に属する文字列およびこの文字列の位置を含む項目に関する情報は上記区切られた各ブロックに共通であるとして、上記ブロックに区切られた上記仮項目情報に対して修正を施す後処理を行う後処理部と、
上記ブロック毎に区切られた仮項目情報における上記仮項目を参照して、仮項目名の組み合わせとこの仮項目名の組み合わせから生成される正項目名とを対応付けてなる項目作成ルールに従って、上記ブロック毎に区切られた仮項目情報に正規の項目である正項目を付ける正項目付け処理と、上記ブロック毎に区切られた仮項目情報に付けられた上記正項目を参照して、1ブロック内の情報は各ブロック共通であると言う規則に従って、各ブロック共通の正項目のフォーマットである共通フォーマットを作成する共通フォーマット作成処理と、上記仮項目情報の各ブロック毎に、上記共通フォーマットに適合しない項目ラベルを抽出し、上記抽出された項目ラベルを上記共通フォーマットを参照して修正する項目ラベル修正処理と、を含む項目分類処理を行う項目分類部と
を備えたことを特徴としている。
【0016】
上記構成によれば、各ブロック共通の共通フォーマットを作成し、各ブロックの項目名のうち上記共通フォーマットに適合しない項目ラベルが修正される。こうして、誤認識された項目ラベルが上記共通フォーマットを参照して修正され、正項目名の特定精度が高められて項目分類精度が高められる。
【0017】
また、請求項6に係る発明のコンピュータ読み取り可能なプログラム記録媒体は、
請求項2における画像入力部,文字認識部,仮項目付け部,罫線認識部,ブロック抽出部,後処理部および項目分類部として、コンピュータを機能させる文字認識プログラムが記録されていることを特徴としている。
【0018】
上記構成によれば、請求項2に係る発明と同様に、上記辞書に登録されていない項目名および誤認識された文字列や項目名が、他のブロックの文字列や仮項目および共通フォーマットを参照して修正される。こうして、文字認識精度および項目分類精度が高められる。
【0019】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。図1は、本実施の形態の文字認識装置における一例を示すブロック図である。制御部11は、以下に述べる各部を制御して、特定フォーマットで連続して記載されている住所録や固定フォーマットの文書画像が連続して入力される伝票等の認識処理動作を実行する。
【0020】
画像入力部12は、スキャナ13で読み込まれた画像データやハードディスク(図示せず)等の磁気メモリから読み出された画像データを取り込んで、制御部11に送出する。文字認識部14は、制御部11から送出されてくる画像データに対して文字切り出し処理、特徴抽出処理、マッチング処理、文字列生成処理を行って、入力文書中の文字を認識して文字コードに変換する。
【0021】
具体的には、上記文字切り出し処理では、上記画像データから行および文字を切り出し、文字矩形座標データを抽出して文字認識バッファ15に格納する。特徴抽出処理では、上記文字矩形座標データに基づいて画像データから文字画像を読み出し、この文字画像から文字の特徴を抽出する。マッチング処理では、マッチング辞書16に登録されている標準パターン特徴と上記文字の特徴とのマッチングを取って文字認識コード候補を決め、文字認識コード候補データとして文字認識バッファ15に格納する。文字列生成処理では、上記矩形座標データを参照して文字認識コード候補に基づいてまとまりのある文字列を生成して、文字認識バッファ15に格納する。その結果、文字認識バッファ15には、文字認識部14の処理結果として、文字認識コード候補,文字矩形座標および文字列情報のデータが格納されることになる。
【0022】
上記文字列生成処理によって生成されたまとまりのある文字列の例を図4(a)に示す。尚、図4(b)は、上記文字列生成処理が行われる前のまとまりのない文字列である。図4(b)では、文字列間や行の区別が無い。これに対して、図4(a)では、文字矩形座標の情報によって座標が近い文字を集めて1つの文字列としている。その結果、名前「秋山春雄」に対して分類項目「勤務先」よりも近い座標を有する振り仮名「あきやま」が、文字列「秋山春雄」の近くに配置されることになる。
【0023】
仮項目付け処理部17は、上記文字認識バッファ15に格納されている文字認識コード候補および文字列情報の各データを読み出し、上記項目ラベル辞書としての項目キーワード辞書18および上記項目辞書としての項目別単語辞書19を検索して、上記認識された文字列に後に詳述するようにして仮項目を付ける。
【0024】
図5は、上記項目キーワード辞書18および項目別単語辞書19の具体的内容の一例を示す。項目キーワード辞書18は、図5(a)に示すように、項目ラベルとして使用される単語例「氏名」,「住所」,「電話」,「郵便番号」,「所属」,「役職」,「備考」等と、上記単語例の属性である仮項目名「氏名項目ラベル」,「住所項目ラベル」,「電話項目ラベル」,「郵便番号項目ラベル」,「所属項目ラベル」,「役職項目ラベル」,「備考項目ラベル」等を対応付けて登録したものである。
【0025】
上記項目別単語辞書19は、図5(b)に示すように、各項目に現れる単語例とその仮項目名とを対応付けて各項目別に登録したものである。具体的には、住所辞書には、「東京都」,「大阪府」,「奈良市」,「美濃庄町」,「材木町」等の地名とその仮項目名「地名」とが登録されている。また、姓辞書には、「山田」,「鈴木」,「佐藤」等の姓とその仮項目名「姓」とが格納されている。また、名辞書には、「太郎」,「花子」,「次郎」,「雪子」等の名とその仮項目名「名」とが登録されている。また、一般辞書には、「机」,「花」,「印刷」等の一般名詞とその仮項目名「一般名詞」とが格納されている。
【0026】
そして、上記仮項目付け処理部17は、読み出された文字認識コード候補データおよび文字列情報データが図6に示すような場合には、文字列情報データ「名前」が項目キーワード辞書18の単語例「名前」と合致するため、図6に示すように、単語例「名前」の仮項目名「氏名項目ラベル」を文字認識バッファ15中の文字列情報データ「名前」と対応付けて仮項目バッファ20に格納する。こうして、上記認識文字列の仮分類が行われるのである。
【0027】
罫線認識部21は、上記制御部11から送出されてくる画像データにおける罫線を認識し、罫線位置を含む認識結果を罫線情報として罫線情報バッファ22に格納する。ブロック抽出部23は、制御部11を介して仮項目バッファ20および罫線情報バッファ22の内容を読み出し、その読み出し内容を参照して、文字認識バッファ15と仮項目バッファ20との内容を1ブロック毎の情報として区切る。
【0028】
認識後処理部24は、上記文字認識バッファ15,仮項目バッファ20および罫線情報バッファ22の内容を読み出し、文字認識コード候補,文字矩形座標および文字接続頻度辞書25を用いて文字認識精度を上げるための認識後処理を行う。この認識後処理は、1ブロック内に存在する項目情報は各ブロック共通であるという規則に従って行うものである。具体的には、あるブロックの文字列が他のブロックにおける同じ位置に在る文字列と仮項目名が異なる場合に、上記文字認識コード候補の組み合わせを変えることによって、当該ブロックの当該文字列を他のブロックにおける該当仮項目名と同じ仮項目名の文字列に修正するのである。
【0029】
上記認識後処理の具体例を図7および図8に示す。尚、両図において、(a)は認識結果を示し、(b)は仮項目付け結果を示し、(c)は認識後処理結果を示している。図7においては、殆どのブロックの第2カラムの文字列が電話番号(仮項目名=数字列)である場合に、第3ブロックの第2カラムに在る数字ではない文字「ア」が文字認識コード候補を用いて数字「3」に修正される。それに連れて、仮項目名「不明」も仮項目名「数字列」に修正される。これに対して、従来の住所録読み取り装置では、他のブロックの情報を参照することは無いので、文字認識コード候補中における数字「3」の候補順位が低い場合には、文字「ア」が数字「3」に修正されることは無いのである。
【0030】
また、図8においては、殆どのブロックの第2カラムの文字列が住所(仮項目名=地名)である場合に、第3ブロックの第2カラムに在る仮項目名が「地名」ではない文字列「車京都港区2」が、文字認識コード候補を用いて地名を表す文字列「東京都港区2」に修正される。それに連れて、仮項目名「不明」も仮項目名「地名」に修正される。その場合、項目別単語辞書19中の住所辞書のみを探索すればよく、文字接続頻度辞書25等の他の辞書の検索を省略できる。したがって、認識後処理部24での辞書探索時間を短縮できるのである。
【0031】
項目分類部26は、ブロック毎に区切られて後処理された後の文字認識バッファ15および仮項目バッファ20の内容を読み出し、各文字列を最終出力項目に分類し、分類結果を出力バッファ27に格納する。ここで、項目分類部26は次のような機能を有している。以下、各機能を具体的に説明する。
【0032】
第1の機能は、上記ブロック抽出部23によって区切られた1ブロック内の情報は各ブロック共通であるという規則に従って、各文字列を最終出力項目に分類して出力バッファ27に格納する機能である。その場合、分類された最終出力項目は各ブロック共通であるから、図9(a)に示すように、各ブロックとも同一の最終出力項目名とそのメンバとに分類される。
【0033】
第2の機能は、上記出力バッファ27に登録される最終出力項目が定形である場合、分類された最終出力項目中から上記定形の最終出力項目のみを選別し、この選別された上記定形の最終出力項目名とそのメンバを出力バッファ27に登録する機能である。その場合、上記分類された最終出力項目と出力バッファ27に登録される定形の最終出力項目名とが同一である場合には、図9に示すように、分類された最終出力項目名とそのメンバとがそのまま出力バッファ27に格納される。これに対して、上記分類された最終出力項目と出力バッファ27に登録される定形の最終出力項目名とが異なる場合には、図10に示すように、一旦最終出力項目として分類された項目「ID」,「備考」及び「血液型」は、出力バッファ27に登録する定形の最終出力項目ではないために、出力バッファ27に登録される場合には最終行に項目「備考」としてまとめられて登録されることになる。
【0034】
第3の機能は、1ブロック内の情報は各ブロック共通であるという規則に従って共通フォーマットを作成し、この共通フォーマットに矛盾する各ブロック内の項目名を修正しながら最終出力項目の分類を行う機能である。その場合には、図11(a)に例示するような文字認識結果が上記文字認識部14によって得られると、仮項目付け処理部17で、図11(b)に示すように文字列情報「秋山」,「反町」および「堂本」に仮項目名「姓」が付けられる。ここで、文字列情報「伊集院」は項目別単語辞書19の姓辞書には登録されていないので、文字列情報「伊集院」には仮項目名「不明」が付けられている。次に、項目分類部26によって上記第3の機能が適用されて共通フォーマットが作成されると、各ブロックにおける1カラム目は項目「姓」と特定される。その結果、仮項目名「不明」が付けられている文字列情報「伊集院」は1カラム目に在るのでその項目名が「姓」に修正されて、図11(c)に示すような最終出力項目の分類結果が得られるのである。
【0035】
第4の機能は、1ブロック内の情報は各ブロック共通であるという規則に従って共通フォーマットを作成し、この共通フォーマットに矛盾する各ブロック内の項目ラベルを修正しながら最終出力項目の分類を行う機能である。その場合、図12(a)に例示するような文字認識結果が文字認識部14によって得られると、仮項目付け処理部17によって、文字列情報「ID:」は項目キーワード辞書18に登録されていないので、図12(b)に示すように文字列情報「ID:」に仮項目名「一般名詞」が付けられる。次に、項目分類部26によって上記第4の機能が適用されて共通フォーマットが作成されると、文字列情報「ID:」は全ブロックの同一個所に出現し、その出現個所は項目ラベルが置かれる可能性の高い仮項目「数字列」が付けられている文字列の頭であることから、文字列情報「ID:」は項目ラベルであると特定される。その結果、仮項目名「一般名詞」が付けられている文字列情報「ID:」の項目名が「項目ラベル」に修正され、図12(c)に示すような最終出力項目の分類結果が得られるのである。
【0036】
第5の機能は、1ブロック内の情報は各ブロック共通であるという規則に従って共通フォーマットを作成し、この共通フォーマットに矛盾する各ブロック内の誤認識項目ラベルを修正しながら最終出力項目の分類を行う機能である。その場合、図13(a)に例示するような文字認識結果が文字認識部14によって得られると、仮項目付け処理部17によって、文字列情報「♯」は項目キーワード辞書18に登録されていないので、図13(b)に示すように文字列情報「♯」に仮項目名「不明」が付けられる。次に、項目分類部26によって上記第5の機能が適用されて共通フォーマットが作成されると、文字列情報「♯」は他の全ブロックにおける郵便番号項目ラベル「〒」と同一個所に出現し、その個所は項目ラベルがおかれる可能性の高い仮項目「数字列」が付けられた文字列の頭であることから、文字列情報「♯」は上記郵便番号項目ラベル「〒」の誤認識であると判定される。その結果、仮項目名「不明」が付けられている文字列情報「♯」の項目名が「郵便番号項目ラベル」に修正されて、図13(c)に示すような最終出力項目の分類結果が得られるのである。
【0037】
認識結果出力部28は、上記制御部11を介して出力バッファ27から読み出した最終出力項目名とそのメンバとを、文字認識結果として出力する。
【0038】
上記構成の文字認識装置は、次のように動作して、特定フォーマットで連続して記載されている文書画像が入力される場合や、固定フォーマットの文書画像が連続して入力される場合において、高い項目分類精度を得る。
【0039】
図2は、上記制御部11の制御の下に実行される文字認識処理動作のフローチャートである。ステップS1で、画像入力部12によってスキャナ13が制御されて、特定フォーマットで連続して記載されている住所録の画像データが入力される。ステップS2で、文字認識部14によって、上記入力された画像データから文字の行を切り出し、文字矩形情報から文字画像を切り出す行・文字切り出し処理が行われる。そして、得られた文字矩形座標データが文字認識バッファ15に格納される。ステップS3で、文字認識部14によって、上記切り出された文字画像から文字特徴を抽出する特徴抽出処理が行われる。ステップS4で、文字認識部14によって、マッチング辞書16に登録されている標準パターン特徴とのマッチングが行われて、文字認識コード候補が得られる。そして、得られた文字認識コード候補が文字認識バッファ15に格納される。ステップS5で、文字認識部14によって、上記文字矩形座標データと文字認識コード候補とに基づいて、文字を文字列に統合する文字列生成処理が行われる。そして、得られた文字列情報データが文字認識バッファ15に格納される。
【0040】
ステップS6で、上記仮項目付け処理部17によって、文字認識バッファ15に格納された文字列情報データおよび文字認識コード候補データから、文字列および文字候補のコードが読み出される。そして、項目キーワード辞書18および項目別単語辞書19が検索され、文字列に一致する単語例があればこの単語例の仮項目名を当該文字列の仮項目として付けられる。そして、当該仮項目が文字認識バッファ15と対応付けられて仮項目バッファ20に格納される。尚、その場合、文字列が数字列である場合には、「数字列」という仮項目が付けられ、文字認識バッファ15と対応付けられて仮項目バッファ20に格納される。ステップS7で、罫線認識部21によって、上記入力画像データの罫線が認識され、得られた罫線情報が罫線情報バッファ22に格納される。
【0041】
ステップS8で、上記ブロック抽出部23によって、仮項目バッファ20および罫線情報バッファ22の内容に基づいて、文字認識バッファ15および仮項目バッファ20の内容が1ブロック毎の情報として区切られる。ステップS9で、認識後処理部24によって、文字認識バッファ15,仮項目バッファ20および罫線情報バッファ22の内容が読み込まれ、文字認識コード候補,文字矩形座標および文字接続頻度辞書25を用いて、上述したように1ブロック内に存在する項目情報は各ブロックに共通であるという規則に従って、文字認識精度を上げるための認識後処理が行われる。
【0042】
ステップS10で、上記項目分類部26によって、後に詳述する項目分類処理サブルーチンが実行される。この項目分類処理サブルーチンにおいては、上記ブロックに区切られた文字認識バッファ15及び仮項目バッファ20の内容が読み込まれて、各文字列が最終出力項目に分類されて出力バッファ27に格納される。ステップS11で、認識結果出力部28によって、出力バッファ27の内容が文字認識結果として出力される。そうした後、文字認識処理動作を終了する。
【0043】
以下、図2に示す文字認識処理動作のステップS10において、項目分類部26によって実行される項目分類処理について、さらに詳細に説明する。図3は、上記項目分類処理サブルーチンのフローチャートである。文字認識処理動作のステップS9において認識後処理が終了すると、項目分類処理サブルーチンがスタートする。
【0044】
ステップS21で、上記ブロック毎に区切られた文字認識バッファ15および仮項目バッファ20の内容が読み込まれる。ステップS22で、上記読み込まれたデータに対して、順次ブロック毎に、仮項目の内容を文字列毎に検証する仮項目内容解析処理と、項目作成ルールに基づいて正項目付けを行う正項目付け処理が行われる。尚、項目作成ルールとは、次のようなルールである。
・仮項目名「電話項目ラベル」+仮項目名「数字列」→正項目名「電話」
・仮項目名「郵便番号項目ラベル」+仮項目名「数字列」
→正項目名「郵便番号」
・仮項目名「地名」+仮項目名「数字列」→正項目名「住所」
ステップS23で、全ブロックのデータに対する仮項目内容解析処理及び正項目付け処理が終了したか否かが判別される。その結果、終了していればステップS24に進み、そうでなければ上記ステップS22に戻って次のブロックのデータに対する処理に移行する。
【0045】
図14〜図16に上記仮項目内容解析処理及び正項目付け処理の結果の一例を示す。但し、図14は入力された住所録であり、図15および図16は正項目付け処理の結果である。ここで、図15および図16における<第1ブロック>の第3カラムでは、「〒」が「♯」と誤認識された結果、正項目名が「不明」になっている。また、<第2ブロック>の第6カラムにおいては、「伊集院」が項目別単語辞書19に無いために、正項目名が「不明」になっている。また、<第1ブロック>〜<第3ブロック>の第7カラムにおいては、「ID」が項目キーワード辞書18に無いために、正項目名が「不明」になっている。
【0046】
ステップS24で、上記ステップS23において付けられた正項目に基づいて共通フォーマットが作成される。尚、図17は、図15および図16に示す正項目付け結果に基づいて作成された共通フォーマットの一例である。ステップS25で、順次ブロック毎に、上記ステップS22において付けられた正項目名と上記ステップS24において作成された共通フォーマットの項目名との整合性が検証される。ステップS26で、共通フォーマットの項目名に矛盾する正項目名が在るか否かが判別される。その結果、在る場合にはステップS27に進み、無ければ上記ステップS25に戻って次のブロックの処理に移行する。ステップS27で、正項目を修正するか否かの検証が行われる。その結果、修正する場合にはステップS28に進む一方、修正しない場合には上記ステップS25に戻って次のブロックのデータに対する処理に移行する。ステップS28で、正項目が共通フォーマットを参照して修正される。ステップS29で、全ブロックのデータに対する共通フォーマットとの整合性の検証が終了したか否かが判別される。その結果、終了していればステップS30に進み、そうでなければ上記ステップS25に戻って次のブロックのデータに対する処理に移行する。
【0047】
こうして、上記共通フォーマットの項目名に矛盾する正項目名が修正された結果、図15に示すように、<第1ブロック>の第3カラムにおいては、正項目名「不明」が「郵便番号」に修正されている。また、<第2ブロック>の第6カラムにおいては、正項目名「不明」が「氏名」に修正されている。
【0048】
ステップS30で、再度全ブロックのフォーマットが1ブロック毎に検証され、上記共通フォーマットにおける項目名「不明」に該当する文字列のメンバの内容がチェックされる。ステップS31で、全ブロックのデータに対するメンバチェックが終了したか否かが判別される。その結果、終了していればステップS32に進み、そうでなければ上記ステップS30に戻って次のブロックのデータに対するメンバチェックに移行する。ステップS32で、上記ステップS31におけるメンバチェックの結果、上記共通フォーマットにおける項目名「不明」のメンバは、同一の仮項目名が付与された文字列であるか否かが判別される。その結果、そうであればステップS33に進む一方、そうでなければステップS34に進む。
【0049】
ステップS33で、上記共通フォーマットにおける項目名「不明」に該当する全ブロックの正項目名が項目ラベルに修正される。このようにして全ブロックの項目名「不明」が修正された結果、図15および図16に示すように、<第1ブロック>〜<第3ブロック>の第7カラムにおいては、正項目名「不明」が項目ラベル「ID」に修正されている。ステップS34で、修正された正項目名と文字列とが対応付けられる。
【0050】
ステップS35で、上記ステップS24において作成された共通フォーマットと出力バッファ27とのフォーマットが同一か否かが判別される。その結果、同一であれば得られた正項目を最終出力項目と確定してステップS37に進む。一方、異なればステップS36に進む。ステップS36で、上述のようにして設定された正項目名の中から、出力バッファ27に登録する定形の最終出力項目が選別される。ステップS37で、上記ステップS35において確定された最終出力項目またはステップS36において選別された最終出力項目とそのメンバの文字列とが出力バッファ27に格納される。そうした後、項目分類処理サブルーチンを終了して、文字認識処理動作のフローチャートにリターンする。
【0051】
上述のように、本実施の形態においては、上記画像入力部12から、住所録のように特定フォーマットで繰り返して記載されている文書画像が入力されと、以下のようにして、文字列が認識されて各項目とそのメンバとに分類される。
【0052】
先ず、上記文字認識部14によって、文字切り出し処理,特徴抽出処理,マッチング処理および文字列生成処理が行われて、文字認識コード候補,文字矩形座標および文字列情報が生成されて文字認識バッファ15に格納される。さらに、仮項目付け処理部17によって、項目キーワード辞書18や項目別単語辞書19を参照して、認識された文字列に対して仮項目を付与し、文字認識バッファ15中の文字認識コード候補及び文字列情報と対応付けられる。また、罫線認識部21によって入力文書画像中の罫線が認識され、認識後処理部24によって文字認識精度を上げるための認識後処理が行われる。その場合の認識後処理は、1ブロック内の情報は各ブロック共通であるという規則に従って行われる。したがって、あるブロックの文字列の仮項目が他のブロックの該当文字列の仮項目と異なる場合には、当該ブロックの当該文字列(誤認識文字列)が、他のブロックと同じ仮項目になるように文字認識コード候補情報を用いて修正される。その結果、誤認識した文字の正解候補の順位が低い場合でも、他のブロックの該当文字列の仮項目名を参照することによって、的確に正解候補として採択することができるのである。
【0053】
そうした後、上記項目分類部26によって、上記仮項目の内容が検証されて正項目付けが行われる。その場合、1ブロック内の項目情報は各ブロック共通であるという規則に従って項目に関する共通フォーマットが作成される。そして、各ブロック内に上記共通フォーマットに矛盾する正項目名が存在する場合には、その矛盾する正項目名が共通フォーマットを参照して修正される。したがって、仮項目付け処理の際に項目別単語辞書19に登録されていない文字列に与えられた項目名「不明」が正しい項目名に修正される。また、仮項目付け処理の際に誤認識された文字列に与えられた項目名「不明」が正しい項目名に修正される。
【0054】
また、上記共通フォーマットに正項目名「不明」が存在する場合には、全ブロックの該当する文字列のメンバをチェックし、同一の仮項目が付けられた文字列であれば全ブロックの該当する正項目名が「項目ラベル」に修正される。したがって、仮項目付け処理の際に項目キーワード辞書18に登録されていない文字列に与えられている項目名「一般名詞」が正しい項目ラベル名に修正される。
【0055】
また、上述のようにして付与された正項目中から上記定形の最終出力項目のみが選別され、この選別された上記定形の最終出力項目名とそのメンバが出力バッファ27に登録される。そして、最終的に、認識結果出力部28によって、出力バッファ27の内容が認識結果として出力される。
【0056】
すなわち、本実施の形態によれば、住所録や伝票など、特定のフォーマットが連続する文書の情報を認識する際に、誤認識した文字の正解候補の順位が低い場合でも的確に正解候補として採択できる。また、あるブロック中の項目ラベル名を誤認識しても正しい項目ラベルに分類することができる。また、項目ラベルとして登録されていない項目ラベルでも項目ラベルとして抽出できる。また、特定の項目のメンバとして登録されていない文字列であっても正しい項目に分類することができる。したがって、項目分類の精度を向上させることができる。
【0057】
これに対して、上述した従来の住所録読み取り装置においては、各ブロック内でキーワード照合や項目分類の誤りを修正するので、例えば、上述の例のごとくあるブロックにおいて、数字列中の「3」を文字「ア」と誤認識したり、項目ラベル「〒」を記号「♯」と誤認識した場合であって、保持している文字認識コード候補中に正解「ア」あるいは「〒」が無かったり、在っても候補順位が低い場合には、当該ブロックにおける電話番号を表す数字列の項目として「不明」が出力されたり、郵便番号項目ラベルの個所に「不明」が出力されることになるのである。
【0058】
尚、本実施の形態においては、上記項目分類部26に、上述のような第1〜第5の総ての機能を持たせているが、適宜必要な機能を選択して持たせても差し支えない。また、認識後処理部24と項目分類部26とを有しているが、認識後処理部24のみを有しても良いし、項目分類部26のみを有して後処理部は従来の後処理を行うようにしても差し支えない。
【0059】
【発明の効果】
以上より明らかなように、請求項1に係る発明の文字認識装置は、文字認識部によって文字候補,文字矩形座標および文字列を得、仮項目付け部によって上記文字列に仮項目を付けて仮項目情報を得、罫線認識部によって罫線情報を得、ブロック抽出部によって上記文字列および仮項目情報を罫線に従って一件毎のブロックに区切り、項目分類部による正項目付け処理によって上記ブロック毎に区切られた仮項目情報に正項目を付け、共通フォーマット作成処理によって各ブロック共通の正項目のフォーマットである共通フォーマットを作成し、正項目修正処理によって上記共通フォーマットに適合しない正項目名を抽出して上記共通フォーマットを参照して修正するので、上記項目辞書に登録されていない項目名、または、誤認識された項目名を、的確に修正することができる。したがって、特定正フォーマットで連続して記載されている文書画像が入力される場合あるいは固定フォーマットの文書画像が連続して入力される場合において、正項目名の特定精度を高めることができ、結果的に項目分類精度を高めることができる。
【0060】
また、請求項2に係る発明の文字認識装置は、文字認識部によって文字候補,文字矩形座標および文字列を得、仮項目付け部によって上記文字列に仮項目を付けて仮項目情報を得、罫線認識部によって罫線情報を得、ブロック抽出部によって上記仮項目情報を罫線に従って一件毎のブロックに区切り、後処理部によって、上記仮項目,この仮項目に属する文字列およびこの文字列の位置を含む項目に関する情報は各ブロックに共通であるとして上記仮項目情報に修正を施す後処理を行い、項目分類部による正項目付け処理によって上記ブロック毎に区切られた仮項目情報に正項目を付け、共通フォーマット作成処理によって各ブロック共通の正項目のフォーマットである共通フォーマットを作成し、正項目修正処理によって上記共通フォーマットに適合しない正項目名を抽出して上記共通フォーマットを参照して修正するので、上記項目辞書に登録されていない項目名、または、誤認識された項目名を、的確に修正することができる。したがって、正項目名の特定精度をさらに高めることができる。
【0061】
また、請求項3に係る発明の文字認識装置は、出力フォーマット選別手段を有して、上記正項目修正部による修正の処理が行われた後に、正項目名とこの正項目名に属する文字列の組から、最終出力フォーマットに規定されている正項目名に該当する正項目名とこの正項目名に属する文字列との組を、最終出力項目として選別して出力バッファに格納するので、上記規定されている正項目名のみに従って分類された認識結果を得ることができる。したがって、上記最終出力フォーマットとして、ユーザが必要とする最終出力項目を登録しておけば、ユーザが知りたい項目に従って分類整理された認識結果を得ることができるのである。
【0062】
また、請求項4に係る発明の文字認識装置は、文字認識部によって文字候補,文字矩形座標および文字列を得、仮項目付け部によって上記文字列に仮項目を付けて仮項目情報を得、罫線認識部によって罫線情報を得、ブロック抽出部によって上記文字列および仮項目情報を罫線に従って一件毎のブロックに区切り、項目分類部による正項目付け処理によって上記ブロック毎に区切られた仮項目情報に正項目を付け、共通フォーマット作成処理によって各ブロック共通の正項目のフォーマットである共通フォーマットを作成し、項目ラベル修正処理によって上記共通フォーマットに適合しない項目ラベルを抽出して上記共通フォーマットを参照して修正するので、誤認識された項目ラベルを的確に修正することができる。したがって、正項目名の特定精度を高め、結果的に項目分類精度を高めることができる。
【0063】
また、請求項5に係る発明の文字認識装置は、文字認識部によって文字候補,文字矩形座標および文字列を得、仮項目付け部によって上記文字列に仮項目を付けて仮項目情報を得、罫線認識部によって罫線情報を得、ブロック抽出部によって上記仮項目情報を罫線に従って一件毎のブロックに区切り、後処理部によって、上記仮項目,この仮項目に属する文字列およびこの文字列の位置を含む項目に関する情報は各ブロックに共通であるとして上記仮項目情報に修正を施す後処理を行い、項目分類部による正項目付け処理によって上記ブロック毎に区切られた仮項目情報に正項目を付け、共通フォーマット作成処理によって各ブロック共通の正項目のフォーマットである共通フォーマットを作成し、項目ラベル修正処理によって上記共通フォーマットに適合しない項目ラベルを抽出して上記共通フォーマットを参照して修正するので、誤認識された項目ラベルを的確に修正することができる。したがって、正項目名の特定精度を高めて、項目分類精度を高めることができる。
【0064】
また、請求項6に係る発明のプログラム記録媒体は、請求項2と同様の効果を奏することができる。
【図面の簡単な説明】
【図1】 この発明の文字認識装置におけるブロック図である。
【図2】 図1における制御部の制御の下に実行される文字認識処理動作のフローチャートである。
【図3】 図1における項目分類部によって実行される項目分類処理サブルーチンのフローチャートである。
【図4】 図1における文字認識部による文字列生成処理結果の一例を示す図である。
【図5】 図1における項目キーワード辞書および項目別単語辞書の具体的内容を示す図である。
【図6】 仮項目と文字列情報データとの対応付けの一例を示す図である。
【図7】 図1における認識後処理による認識後処理結果の一例を示す図である。
【図8】 図7とは異なる認識後処理結果を示す図である。
【図9】 図1における項目分類部による項目部類結果と出力バッファの内容との対比図である。
【図10】 出力バッファに登録する最終出力項目が定形である場合の項目部類結果と出力バッファの内容との対比図である。
【図11】 文字列が項目別単語辞書に無い場合の項目名修正の説明図である。
【図12】 文字列が項目キーワード辞書に無い場合の項目ラベル名特定の説明図である。
【図13】 項目ラベル名を誤認識した場合の項目ラベル名修正の説明図である。
【図14】 図1に示す文字認識装置に対する入力住所録の一例を示す図である。
【図15】 図14に示す入力住所録に対する項目分類部による正項目付け処理結果を示す図である。
【図16】 図15に続く正項目付け処理結果を示す図である。
【図17】 図15および図16に示す正項目付け処理結果に基づく共通フォーマットを示す図である。
【図18】 従来の住所録読み取り装置のブロック図である。
【図19】 図18に示す住所録読み取り装置によって読み取られる住所録の一例を示す図である。
【図20】 図19に示す住所録を図18に示す住所録読み取り装置によって読み取った場合の出力データの一例を示す図である。
【符号の説明】
11…制御部、 12…画像入力部、
13…スキャナ、 14…文字認識部、
15…文字認識バッファ、 16…マッチング辞書、
17…仮項目付け処理部、 18…項目キーワード辞書、
19…項目別単語辞書、 20…仮項目バッファ、
21…罫線認識部、 22…罫線情報バッファ、
23…ブロック抽出部、 24…認識後処理部、
25…文字接続頻度辞書、 26…項目分類部、
27…出力バッファ、 28…認識結果出力部。
Claims (6)
- 特定フォーマットが繰り返される文書画像データが入力される画像入力部と、
上記画像入力部から入力された文書画像データに基づいて文字を切り出して認識し、文字候補,文字矩形座標および文字列を得る文字認識部と、
項目ラベルと各項目ラベルに属する文字列とを対応付けて登録した項目ラベル辞書と、
項目名と各項目名に属する文字列とを対応付けて登録した項目辞書と、
上記項目ラベル辞書および項目辞書を参照して、上記認識された文字列に上記項目ラベルあるいは項目名を仮の項目である仮項目として付けて、上記文字列と仮項目とを対応付けた仮項目情報を得る仮項目付け部と、
上記文書画像データに基づいて罫線を認識し、罫線の位置を含む罫線情報を得る罫線認識部と、
上記文字矩形座標,仮項目情報および罫線情報に基づいて、上記仮項目情報を一件毎のブロックに区切るブロック抽出部と、
上記ブロック毎に区切られた仮項目情報における上記仮項目を参照して、仮項目名の組み合わせとこの仮項目名の組み合わせから生成される正項目名とを対応付けてなる項目作成ルールに従って、上記ブロック毎に区切られた仮項目情報に正規の項目である正項目を付ける正項目付け処理と、上記ブロック毎に区切られた仮項目情報に付けられた上記正項目を参照して、1ブロック内の情報は各ブロック共通であると言う規則に従って、各ブロック共通の正項目のフォーマットである共通フォーマットを作成する共通フォーマット作成処理と、上記仮項目情報の各ブロック毎に、上記付与された正項目名と上記共通フォーマットの正項目名との整合性を検証して上記共通フォーマットに適合しない正項目名を抽出し、上記抽出された正項目名を上記共通フォーマットを参照して修正する正項目修正処理と、を含む項目分類処理を行う項目分類部と
を備えたことを特徴とする文字認識装置。 - 特定フォーマットが繰り返される文書画像データが入力される画像入力部と、
上記画像入力部から入力された文書画像データに基づいて文字を切り出して認識し、文字候補,文字矩形座標および文字列を得る文字認識部と、
項目ラベルと各項目ラベルに属する文字列とを対応付けて登録した項目ラベル辞書と、
項目名と各項目名に属する文字列とを対応付けて登録した項目辞書と、
上記項目ラベル辞書および項目辞書を参照して、上記認識された文字列に上記項目ラベルあるいは項目名を仮の項目である仮項目として付けて、上記文字列と仮項目とを対応付けた仮項目情報を得る仮項目付け部と、
上記文書画像データに基づいて罫線を認識し、罫線の位置を含む罫線情報を得る罫線認識部と、
上記文字矩形座標,仮項目情報および罫線情報に基づいて、上記仮項目情報を一件毎のブロックに区切るブロック抽出部と、
上記仮項目,この仮項目に属する文字列およびこの文字列の位置を含む項目に関する情報は上記区切られた各ブロックに共通であるとして、上記ブロックに区切られた上記仮項目情報に対して修正を施す後処理を行う後処理部と、
上記ブロック毎に区切られた仮項目情報における上記仮項目を参照して、仮項目名の組み合わせとこの仮項目名の組み合わせから生成される正項目名とを対応付けてなる項目作成ルールに従って、上記ブロック毎に区切られた仮項目情報に正規の項目である正項目を付ける正項目付け処理と、上記ブロック毎に区切られた仮項目情報に付けられた上記正項目を参照して、1ブロック内の情報は各ブロック共通であると言う規則に従って、各ブロック共通の正項目のフォーマットである共通フォーマットを作成する共通フォーマット作成処理と、上記仮項目情報の各ブロック毎に、上記付与された正項目名と上記共通フォーマットの正項目名との整合性を検証して上記共通フォーマットに適合しない正項目名を抽出し、上記抽出された正項目名を上記共通フォーマットを参照して修正する正項目修正処理と、を含む項目分類処理を行う項目分類部と
を備えたことを特徴とする文字認識装置。 - 請求項1あるいは請求項2に記載の文字認識装置において、
上記正項目修正部による修正の処理が行われた後に、正項目名とこの正項目名に属する文字列との組から、最終出力フォーマットに規定されている正項目名に該当する正項目名とこの正項目名に属する文字列との組を、最終出力項目として選別して出力バッファに格納する出力フォーマット選別手段を備えた
ことを特徴とする文字認識装置。 - 特定フォーマットが繰り返される文書画像データが入力される画像入力部と、
上記画像入力部から入力された文書画像データに基づいて文字を切り出して認識し、文字候補,文字矩形座標および文字列を得る文字認識部と、
項目ラベルと各項目ラベルに属する文字列とを対応付けて登録した項目ラベル辞書と、
項目名と各項目名に属する文字列とを対応付けて登録した項目辞書と、
上記項目ラベル辞書および項目辞書を参照して、上記認識された文字列に上記項目ラベルあるいは項目名を仮の項目である仮項目として付けて、上記文字列と仮項目とを対応付けた仮項目情報を得る仮項目付け部と、
上記文書画像データに基づいて罫線を認識し、罫線の位置を含む罫線情報を得る罫線認識部と、
上記文字矩形座標,仮項目情報および罫線情報に基づいて、上記仮項目情報を一件毎のブロックに区切るブロック抽出部と、
上記ブロック毎に区切られた仮項目情報における上記仮項目を参照して、仮項目名の組み合わせとこの仮項目名の組み合わせから生成される正項目名とを対応付けてなる項目作成ルールに従って、上記ブロック毎に区切られた仮項目情報に正規の項目である正項目を付ける正項目付け処理と、上記ブロック毎に区切られた仮項目情報に付けられた上記正項目を参照して、1ブロック内の情報は各ブロック共通であると言う規則に従って、各ブロック共通の正項目のフォーマットである共通フォーマットを作成する共通フォーマット作成処理と、上記仮項目情報の各ブロック毎に、上記共通フォーマットに適合しない項目ラベルを抽出し、上記抽出された項目ラベルを上記共通フォーマットを参照して修正する項目ラベル修正処理と、を含む項目分類処理を行う項目分類部と
を備えたことを特徴とする文字認識装置。 - 特定フォーマットが繰り返される文書画像データが入力される画像入力部と、
上記画像入力部から入力された文書画像データに基づいて文字を切り出して認識し、文字候補,文字矩形座標および文字列を得る文字認識部と、
項目ラベルと各項目ラベルに属する文字列とを対応付けて登録した項目ラベル辞書と、
項目名と各項目名に属する文字列とを対応付けて登録した項目辞書と、
上記項目ラベル辞書および項目辞書を参照して、上記認識された文字列に上記項目ラベルあるいは項目名を仮の項目である仮項目として付けて、上記文字列と仮項目とを対応付けた仮項目情報を得る仮項目付け部と、
上記文書画像データに基づいて罫線を認識し、罫線の位置を含む罫線情報を得る罫線認識部と、
上記文字矩形座標,仮項目情報および罫線情報に基づいて、上記仮項目情報を一件毎のブロックに区切るブロック抽出部と、
上記仮項目,この仮項目に属する文字列およびこの文字列の位置を含む項目に関する情報は上記区切られた各ブロックに共通であるとして、上記ブロックに区切られた上記仮項目情報に対して修正を施す後処理を行う後処理部と、
上記ブロック毎に区切られた仮項目情報における上記仮項目を参照して、仮項目名の組 み合わせとこの仮項目名の組み合わせから生成される正項目名とを対応付けてなる項目作成ルールに従って、上記ブロック毎に区切られた仮項目情報に正規の項目である正項目を付ける正項目付け処理と、上記ブロック毎に区切られた仮項目情報に付けられた上記正項目を参照して、1ブロック内の情報は各ブロック共通であると言う規則に従って、各ブロック共通の正項目のフォーマットである共通フォーマットを作成する共通フォーマット作成処理と、上記仮項目情報の各ブロック毎に、上記共通フォーマットに適合しない項目ラベルを抽出し、上記抽出された項目ラベルを上記共通フォーマットを参照して修正する項目ラベル修正処理と、を含む項目分類処理を行う項目分類部と
を備えたことを特徴とする文字認識装置。 - 請求項2における画像入力部,文字認識部,仮項目付け部,罫線認識部,ブロック抽出部,後処理部および項目分類部として、コンピュータを機能させる文字認識プログラムが記録されていることを特徴とするコンピュータ読み取り可能なプログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26164098A JP4054453B2 (ja) | 1998-09-16 | 1998-09-16 | 文字認識装置およびプログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26164098A JP4054453B2 (ja) | 1998-09-16 | 1998-09-16 | 文字認識装置およびプログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000090193A JP2000090193A (ja) | 2000-03-31 |
JP4054453B2 true JP4054453B2 (ja) | 2008-02-27 |
Family
ID=17364715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26164098A Expired - Fee Related JP4054453B2 (ja) | 1998-09-16 | 1998-09-16 | 文字認識装置およびプログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4054453B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4081074B2 (ja) * | 2004-12-15 | 2008-04-23 | 株式会社東芝 | 帳票処理装置、帳票処理方法、及び帳票処理プログラム |
JP4983060B2 (ja) * | 2006-03-17 | 2012-07-25 | 富士通株式会社 | 共通フォーマット作成プログラム |
JP2014002662A (ja) * | 2012-06-20 | 2014-01-09 | Hitachi Solutions Ltd | 帳票印刷システム |
JP6802107B2 (ja) * | 2017-04-05 | 2020-12-16 | 株式会社Pfu | 情報処理装置、方法及びプログラム |
CN111259117B (zh) * | 2020-01-16 | 2023-11-21 | 广州拉卡拉信息技术有限公司 | 短文本批量匹配方法及装置 |
-
1998
- 1998-09-16 JP JP26164098A patent/JP4054453B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000090193A (ja) | 2000-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100292098B1 (ko) | 문자 인식 장치 및 방법 | |
US20060045340A1 (en) | Character recognition apparatus and character recognition method | |
JP4332356B2 (ja) | 情報検索装置及び方法並びに制御プログラム | |
JP4054453B2 (ja) | 文字認識装置およびプログラム記録媒体 | |
JPH08263478A (ja) | 中国語簡繁体字文書変換装置 | |
JP4266240B1 (ja) | 項目判定システムおよび項目判定プログラム | |
JPH103483A (ja) | 情報検索装置 | |
JPH08263587A (ja) | 文書入力方法および文書入力装置 | |
JP3727422B2 (ja) | 文字認識装置及びその方法 | |
JP2000090192A (ja) | 住所および郵便番号の文字列修正方法 | |
JP6168422B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JPH06103402A (ja) | 名刺認識装置 | |
JPH10198688A (ja) | 定型文書読み取り装置 | |
JP2024003769A (ja) | 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム | |
JPH09265509A (ja) | 合わせ読み住所認識方式 | |
JP2000251017A (ja) | 単語辞書作成装置および単語認識装置 | |
JP2560959B2 (ja) | 文字認識後処理方式 | |
JP3501240B2 (ja) | 文書作成支援装置 | |
JPS63282586A (ja) | 文字認識装置 | |
JPH1069494A (ja) | 画像検索方法とその装置 | |
JPS61133487A (ja) | 文字認識装置 | |
JPH11120294A (ja) | 文字認識装置および媒体 | |
JP2886690B2 (ja) | 光学的文字読取装置における文字認識方法 | |
JPH10261049A (ja) | 文字認識装置 | |
JP2947832B2 (ja) | 単語照合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040929 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070626 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070918 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071210 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101214 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111214 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |