JP2000090193A - 文字認識装置および項目分類方法 - Google Patents

文字認識装置および項目分類方法

Info

Publication number
JP2000090193A
JP2000090193A JP10261640A JP26164098A JP2000090193A JP 2000090193 A JP2000090193 A JP 2000090193A JP 10261640 A JP10261640 A JP 10261640A JP 26164098 A JP26164098 A JP 26164098A JP 2000090193 A JP2000090193 A JP 2000090193A
Authority
JP
Japan
Prior art keywords
item
character
character string
unit
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10261640A
Other languages
English (en)
Other versions
JP4054453B2 (ja
Inventor
Minako Kuwata
みな子 桑田
Kazuhiro Takehara
和宏 竹原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP26164098A priority Critical patent/JP4054453B2/ja
Publication of JP2000090193A publication Critical patent/JP2000090193A/ja
Application granted granted Critical
Publication of JP4054453B2 publication Critical patent/JP4054453B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 特定フォーマットが繰り返される文書画像に
対して高い項目分類精度を得る。 【解決手段】 仮項目付け処理部17は、文字認識部1
4で認識された文字列に対して辞書18,19を参照し
て仮項目を付与する。ブロック抽出部23は文字認識バ
ッファ15と仮項目バッファ20との内容を罫線に従っ
て1ブロック毎に区切る。認識後処理部24は、1ブロ
ック内に存在する項目情報は各ブロック共通であるとい
う規則に従って認識後処理を行う。項目分類部26は、
上記仮項目の内容を検証して正項目付けを行う。その場
合、1ブロック内の情報は各ブロック共通であるという
規則に従って、共通フォーマットに矛盾する正項目名や
項目ラベル名を修正する。したがって、誤認識や未登録
の項目ラベル名および未登録の文字列の項目を正しく修
正できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、住所録等の特定
フォーマットで連続して記載されている文書画像が入力
される場合或は伝票等の固定フォーマットの文書画像が
連続して入力される場合の入力文字を認識する文字認識
装置、および、この文字認識装置に用いられる項目分類
方法に関する。
【0002】
【従来の技術】従来より、住所録読み取り装置として特
開平10−55405号公報に記載されているようなも
のがある。この住所録読み取り装置は、図18に示すよ
うな構成を有している。そして、住所録認識制御部1の
制御の下に、以下のようにして住所録の読み取りが行わ
れる。先ず、住所録の画像が、スキャナ2で読み取られ
て画像入力部3から入力される。そして、文字認識部4
によって、文字切り出しおよび特徴抽出が行われ、さら
にパターン辞書5を用いたマッチング処理および文字列
生成処理が行われて、文字が認識される。
【0003】そして、罫線認識部6によって、上記画像
入力部3から入力されたイメージデータに基づいて、住
所録上の罫線が認識される。そうすると、後処理部7に
よって、罫線認識部6の認識結果に基づいて1件のデー
タを自動的に区切って1ブロックとし、この区切られた
1ブロック分のデータ中の文字列とキーワード辞書8中
のキーワードとの照合が行われて、「氏名」,「住所」,
「電話番号」,「郵便番号」,「ファックス番号」等の項
目別に分類される。そして、住所録認識結果処理部9に
よって、上記項目別に住所録の認識結果を出力する。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の住所録読み取り装置においては、以下のような問題
がある。すなわち、上述のように、1ブロック毎にキー
ワード照合と項目分類とを行っている。したがって、キ
ーワード照合や項目分類に誤りがあった場合の修正処理
は各ブロック毎に行うことになり、当該ブロックの範囲
内で見た場合には正しく修正された見なされても、他の
ブロックとの比較において正しく修正されたとは言えな
い場合が生ずる。すなわち、上記従来の住所録読み取り
装置においては、誤りの修正には限界がある。
【0005】また、図19に例示するように、住所録の
原稿中に「会社名」,「メモ」,「血液型」,「ID」お
よび「備考」等のキーワード辞書8に登録されていない
項目名が存在する場合には、上記未登録の項目名は項目
名として認識されないことになる。したがって、図20
に示すように、不明認識結果として出力するか、あるい
は、出力しない方法を取らざるを得ず、項目分類の精度
が低くなると言う問題がある。
【0006】そこで、この発明の目的は、特定フォーマ
ットで連続して記載されている文書画像が入力される場
合あるいは固定フォーマットの文書画像が連続して入力
される場合において、高い項目分類精度が得られる文字
認識装置、および、この文字認識装置で用いられる項目
分類方法を提供することにある。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、請求項1に係る発明の文字認識装置は、特定フォー
マットが繰り返される文書画像データが入力される画像
入力部と、上記画像入力部から入力された文書画像デー
タに基づいて文字を切り出して認識し,文字候補・文字矩
形座標および文字列を得る文字認識部と、項目ラベルと
各項目ラベルに属する文字列とを対応付けて登録した項
目ラベル辞書と、項目名と各項目名に属する文字列とを
対応付けて登録した項目辞書と、上記項目ラベル辞書お
よび項目辞書を参照して,上記認識された文字列に上記
項目ラベルあるいは項目名を仮項目として付けて,上記
文字列と仮項目とを対応付けた仮項目情報を得る仮項目
付け部と、上記文書画像データに基づいて罫線を認識
し,罫線の位置を含む罫線情報を得る罫線認識部と、上
記文字矩形座標,仮項目情報および罫線情報に基づいて,
上記文字列および仮項目情報を一件毎のブロックに区切
るブロック抽出部と、項目・この項目に属する文字列お
よびこの文字列の位置を含む項目情報は上記区切られた
各ブロックに共通であるとして,上記文字列および仮項
目情報に対して後処理を行う後処理部を備えたことを特
徴としている。
【0008】上記構成によれば、ブロック抽出部によっ
て、文字認識部で得られた文字矩形座標と仮項目付け部
で得られた仮項目情報と罫線認識部で得られた罫線情報
とに基づいて、上記文字認識部で得られた文字列および
上記仮項目情報が一件毎のブロックに区切られる。そし
て、後処理部によって、項目,この項目に属する文字列
及びこの文字列の位置を含む項目情報は上記各ブロック
に共通であるとして、上記文字列および仮項目情報に対
して後処理が行われる。したがって、あるブロックに関
して、誤認識した文字列が、他のブロックの該当文字列
や仮項目を参照して、文字候補および文字矩形座標を用
いて修正される。こうして、文字認識精度および項目分
類精度が高められる。
【0009】また、請求項2に係る発明の文字認識装置
は、特定フォーマットが繰り返される文書画像データが
入力される画像入力部と、上記画像入力部から入力され
た文書画像データに基づいて文字を切り出して認識し,
文字候補・文字矩形座標および文字列を得る文字認識部
と、項目ラベルと各項目ラベルに属する文字列とを対応
付けて登録した項目ラベル辞書と、項目名と各項目名に
属する文字列とを対応付けて登録した項目辞書と、上記
項目ラベル辞書および項目辞書を参照して,上記認識さ
れた文字列に上記項目ラベルまたは項目名を仮項目とし
て付けて,上記文字列と仮項目とを対応付けた仮項目情
報を得る仮項目付け部と、上記文書画像データに基づい
て罫線を認識し,罫線の位置を含む罫線情報を得る罫線
認識部と、上記文字矩形座標,仮項目情報および罫線情
報に基づいて,上記文字列および仮項目情報を一件毎の
ブロックに区切るブロック抽出部と、上記文字列とこの
文字列に付けられた仮項目との組を,項目・この項目に属
する文字列およびこの文字列の位置を含む項目情報は上
記区切られた各ブロックに共通であるとして,正項目名
とこの正項目名に属する文字列との組に分類する項目分
類部を備えたことを特徴としている。
【0010】上記構成によれば、項目分類部によって、
上記辞書に登録されていない項目名や項目ラベル、また
は、誤認識された項目名や項目ラベルが、他のブロック
の項目名あるいは項目ラベルを参照して修正される。こ
うして、正項目名の特定精度が高められて項目分類精度
が高められる。
【0011】また、請求項3に係る発明は、請求項1に
係る発明の文字認識装置において、上記後処理後の文字
列とこの文字列に付けられた仮項目との組を、上記項目
情報は上記区切られた各ブロックに共通であるとして、
正項目名とこの正項目名に属する文字列との組に分類す
る項目分類部を備えたことを特徴としている。
【0012】上記構成によれば、上記項目情報は上記各
ブロックに共通であるとして、後処理部によって、誤認
識した文字列が、他のブロックの該当文字列や仮項目が
参照されて修正される。さらに、項目分類部によって、
上記項目辞書に登録されていない項目名や項目ラベル、
または、誤認識された項目名や項目ラベルが、他のブロ
ックの項目名あるいは項目ラベルを参照して修正され
る。こうして、文字認識精度および項目分類精度が高め
られる。
【0013】また、請求項4に係る発明は、請求項2あ
るいは請求項3に係る発明の文字認識装置において、上
記項目分類部は、上記分類された正項目名とこの正項目
名に属する文字列の組から、最終出力フォーマットに規
定されている正項目名に該当する正項目名とこの正項目
名に属する文字列との組を選別する出力フォーマット選
別手段を備えたことを特徴としている。
【0014】上記構成によれば、最終出力フォーマット
に規定されている正項目名に従って分類された認識結果
が得られる。
【0015】また、請求項5に係る発明は、請求項2乃
至請求項4の何れか一つに係る発明の文字認識装置にお
ける上記項目分類部に用いられる項目分類方法であっ
て、上記区切られた各ブロックの正項目を参照して,各
ブロック共通の正項目のフォーマットである共通フォー
マットを作成し、各ブロック毎に上記共通フォーマット
に適合しない項目名を抽出し、上記抽出された項目名を
上記共通フォーマットに基づいて修正することを特徴と
している。
【0016】上記構成によれば、各ブロック共通の共通
フォーマットを作成し、各ブロックの項目名のうち上記
共通フォーマットに適合しない項目名が修正される。し
たがって、上記項目辞書に登録されていない項目名や誤
認識された項目名が上記共通フォーマットを参照して修
正される。こうして、正項目名の特定精度が高められて
項目分類精度が高められる。
【0017】また、請求項6に係る発明は、請求項2乃
至請求項4の何れか一つに係る発明の文字認識装置にお
ける上記項目分類部に用いられる項目分類方法であっ
て、上記区切られた各ブロックの正項目を参照して,各
ブロック共通の正項目のフォーマットである共通フォー
マットを作成し、各ブロック毎に上記共通フォーマット
に適合しない項目ラベルを抽出し、上記抽出された項目
ラベルを上記共通フォーマットに基づいて修正すること
を特徴としている。
【0018】上記構成によれば、各ブロック共通の共通
フォーマットを作成し、各ブロックの項目名のうち上記
共通フォーマットに適合しない項目ラベルが修正され
る。こうして、誤認識された項目ラベルが上記共通フォ
ーマットを参照して修正され、正項目名の特定精度が高
められて項目分類精度が高められる。
【0019】また、請求項7に係る発明は、請求項2乃
至請求項4の何れか一つに係る発明の文字認識装置にお
ける上記項目分類部に用いられる項目分類方法であっ
て、上記項目情報は上記区切られた各ブロックに共通で
あることを利用して、上記項目ラベル辞書に登録されて
いない項目ラベルを確定することを特徴としている。
【0020】上記構成によれば、上記項目情報は各ブロ
ックに共通であることを利用して、上記項目ラベル辞書
に登録されていない項目ラベルが、全ブロックの該当文
字列のメンバに付けられた項目名を参照して確定され
る。こうして、正項目名の特定精度が高められて項目分
類精度が高められる。
【0021】また、請求項8に係る発明のコンピュータ
読み取り可能な記録媒体は、請求項3における画像入力
部,文字認識部,仮項目付け部,罫線認識部,ブロック抽出
部,後処理部および項目分類部として、コンピュータを
機能させる文字認識プログラムが記録されていることを
特徴としている。
【0022】上記構成によれば、請求項3に係る発明と
同様に、上記辞書に登録されていない項目名や項目ラベ
ル、または、誤認識された文字列や項目名や項目ラベル
が、他のブロックの文字列,項目名あるいは項目ラベル
を参照して修正される。こうして、文字認識精度および
項目分類精度が高められる。
【0023】また、請求項9に係る発明は、請求項8に
係る発明の記録媒体において、上記文字認識プログラム
は、上記区切られた各ブロックの正項目を参照して,各
ブロック共通の正項目のフォーマットである共通フォー
マットを作成し、各ブロックから上記共通フォーマット
に適合しない項目名あるいは項目ラベルを抽出し、上記
抽出された項目名あるいは項目ラベルを上記共通フォー
マットに基づいて修正するプログラムを含むことを特徴
としている。
【0024】上記構成によれば、請求項5あるいは請求
項6に係る発明と同様に、上記項目辞書に登録されてい
ない項目名や誤認識された項目名、あるいは、誤認識さ
れた項目ラベルが、上記共通フォーマットを参照して修
正される。こうして、正項目名の特定精度が高められて
項目分類精度が高められる。
【0025】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。図1は、本実施の形態の文字
認識装置における一例を示すブロック図である。制御部
11は、以下に述べる各部を制御して、特定フォーマッ
トで連続して記載されている住所録や固定フォーマット
の文書画像が連続して入力される伝票等の認識処理動作
を実行する。
【0026】画像入力部12は、スキャナ13で読み込
まれた画像データやハードディスク(図示せず)等の磁気
メモリから読み出された画像データを取り込んで、制御
部11に送出する。文字認識部14は、制御部11から
送出されてくる画像データに対して文字切り出し処理、
特徴抽出処理、マッチング処理、文字列生成処理を行っ
て、入力文書中の文字を認識して文字コードに変換す
る。
【0027】具体的には、上記文字切り出し処理では、
上記画像データから行および文字を切り出し、文字矩形
座標データを抽出して文字認識バッファ15に格納す
る。特徴抽出処理では、上記文字矩形座標データに基づ
いて画像データから文字画像を読み出し、この文字画像
から文字の特徴を抽出する。マッチング処理では、マッ
チング辞書16に登録されている標準パターン特徴と上
記文字の特徴とのマッチングを取って文字認識コード候
補を決め、文字認識コード候補データとして文字認識バ
ッファ15に格納する。文字列生成処理では、上記矩形
座標データを参照して文字認識コード候補に基づいてま
とまりのある文字列を生成して、文字認識バッファ15
に格納する。その結果、文字認識バッファ15には、文
字認識部14の処理結果として、文字認識コード候補,
文字矩形座標および文字列情報のデータが格納されるこ
とになる。
【0028】上記文字列生成処理によって生成されたま
とまりのある文字列の例を図4(a)に示す。尚、図4(b)
は、上記文字列生成処理が行われる前のまとまりのない
文字列である。図4(b)では、文字列間や行の区別が無
い。これに対して、図4(a)では、文字矩形座標の情報
によって座標が近い文字を集めて1つの文字列としてい
る。その結果、名前「秋山春雄」に対して分類項目「勤
務先」よりも近い座標を有する振り仮名「あきやま」
が、文字列「秋山春雄」の近くに配置されることにな
る。
【0029】仮項目付け処理部17は、上記文字認識バ
ッファ15に格納されている文字認識コード候補および
文字列情報の各データを読み出し、項目キーワード辞書
18および項目別単語辞書19を検索して、上記認識さ
れた文字列に後に詳述するようにして仮項目を付ける。
【0030】図5は、上記項目キーワード辞書18およ
び項目別単語辞書19の具体的内容の一例を示す。項目
キーワード辞書18は、図5(a)に示すように、項目ラ
ベルとして使用される単語例「氏名」,「住所」,「電
話」,「郵便番号」,「所属」,「役職」,「備考」等と、
上記単語例の属性である仮項目名「氏名項目ラベル」,
「住所項目ラベル」,「電話項目ラベル」,「郵便番号項
目ラベル」,「所属項目ラベル」,「役職項目ラベル」,
「備考項目ラベル」等を対応付けて登録したものであ
る。
【0031】上記項目別単語辞書19は、図5(b)に示
すように、各項目に現れる単語例とその仮項目名とを対
応付けて各項目別に登録したものである。具体的には、
住所辞書には、「東京都」,「大阪府」,「奈良市」,
「美濃庄町」,「材木町」等の地名とその仮項目名「地
名」とが登録されている。また、姓辞書には、「山
田」,「鈴木」,「佐藤」等の姓とその仮項目名「姓」と
が格納されている。また、名辞書には、「太郎」,「花
子」,「次郎」,「雪子」等の名とその仮項目名「名」と
が登録されている。また、一般辞書には、「机」,
「花」,「印刷」等の一般名詞とその仮項目名「一般名
詞」とが格納されている。
【0032】そして、上記仮項目付け処理部17は、読
み出された文字認識コード候補データおよび文字列情報
データが図6に示すような場合には、文字列情報データ
「名前」が項目キーワード辞書18の単語例「名前」と
合致するため、図6に示すように、単語例「名前」の仮
項目名「氏名項目ラベル」を文字認識バッファ15中の
文字列情報データ「名前」と対応付けて仮項目バッファ
20に格納する。こうして、上記認識文字列の仮分類が
行われるのである。
【0033】罫線認識部21は、上記制御部11から送
出されてくる画像データにおける罫線を認識し、罫線位
置を含む認識結果を罫線情報として罫線情報バッファ2
2に格納する。ブロック抽出部23は、制御部11を介
して仮項目バッファ20および罫線情報バッファ22の
内容を読み出し、その読み出し内容を参照して、文字認
識バッファ15と仮項目バッファ20との内容を1ブロ
ック毎の情報として区切る。
【0034】認識後処理部24は、上記文字認識バッフ
ァ15,仮項目バッファ20および罫線情報バッファ2
2の内容を読み出し、文字認識コード候補,文字矩形座
標および文字接続頻度辞書25を用いて文字認識精度を
上げるための認識後処理を行う。この認識後処理は、1
ブロック内に存在する項目情報は各ブロック共通である
という規則に従って行うものである。具体的には、ある
ブロックの文字列が他のブロックにおける同じ位置に在
る文字列と仮項目名が異なる場合に、上記文字認識コー
ド候補の組み合わせを変えることによって、当該ブロッ
クの当該文字列を他のブロックにおける該当仮項目名と
同じ仮項目名の文字列に修正するのである。
【0035】上記認識後処理の具体例を図7および図8
に示す。尚、両図において、(a)は認識結果を示し、(b)
は仮項目付け結果を示し、(c)は認識後処理結果を示し
ている。図7においては、殆どのブロックの第2カラム
の文字列が電話番号(仮項目名=数字列)である場合に、
第3ブロックの第2カラムに在る数字ではない文字
「ア」が文字認識コード候補を用いて数字「3」に修正
される。それに連れて、仮項目名「不明」も仮項目名
「数字列」に修正される。これに対して、従来の住所録
読み取り装置では、他のブロックの情報を参照すること
は無いので、文字認識コード候補中における数字「3」
の候補順位が低い場合には、文字「ア」が数字「3」に
修正されることは無いのである。
【0036】また、図8においては、殆どのブロックの
第2カラムの文字列が住所(仮項目名=地名)である場合
に、第3ブロックの第2カラムに在る仮項目名が「地
名」ではない文字列「車京都港区2」が、文字認識コー
ド候補を用いて地名を表す文字列「東京都港区2」に修
正される。それに連れて、仮項目名「不明」も仮項目名
「地名」に修正される。その場合、項目別単語辞書19
中の住所辞書のみを探索すればよく、文字接続頻度辞書
25等の他の辞書の検索を省略できる。したがって、認
識後処理部24での辞書探索時間を短縮できるのであ
る。
【0037】項目分類部26は、ブロック毎に区切られ
て後処理された後の文字認識バッファ15および仮項目
バッファ20の内容を読み出し、各文字列を最終出力項
目に分類し、分類結果を出力バッファ27に格納する。
ここで、項目分類部26は次のような機能を有してい
る。以下、各機能を具体的に説明する。
【0038】第1の機能は、上記ブロック抽出部23に
よって区切られた1ブロック内の情報は各ブロック共通
であるという規則に従って、各文字列を最終出力項目に
分類して出力バッファ27に格納する機能である。その
場合、分類された最終出力項目は各ブロック共通である
から、図9(a)に示すように、各ブロックとも同一の最
終出力項目名とそのメンバとに分類される。
【0039】第2の機能は、上記出力バッファ27に登
録される最終出力項目が定形である場合、分類された最
終出力項目中から上記定形の最終出力項目のみを選別
し、この選別された上記定形の最終出力項目名とそのメ
ンバを出力バッファ27に登録する機能である。その場
合、上記分類された最終出力項目と出力バッファ27に
登録される定形の最終出力項目名とが同一である場合に
は、図9に示すように、分類された最終出力項目名とそ
のメンバとがそのまま出力バッファ27に格納される。
これに対して、上記分類された最終出力項目と出力バッ
ファ27に登録される定形の最終出力項目名とが異なる
場合には、図10に示すように、一旦最終出力項目とし
て分類された項目「ID」,「備考」及び「血液型」
は、出力バッファ27に登録する定形の最終出力項目で
はないために、出力バッファ27に登録される場合には
最終行に項目「備考」としてまとめられて登録されるこ
とになる。
【0040】第3の機能は、1ブロック内の情報は各ブ
ロック共通であるという規則に従って共通フォーマット
を作成し、この共通フォーマットに矛盾する各ブロック
内の項目名を修正しながら最終出力項目の分類を行う機
能である。その場合には、図11(a)に例示するような
文字認識結果が上記文字認識部14によって得られる
と、仮項目付け処理部17で、図11(b)に示すように
文字列情報「秋山」,「反町」および「堂本」に仮項目
名「姓」が付けられる。ここで、文字列情報「伊集院」
は項目別単語辞書19の姓辞書には登録されていないの
で、文字列情報「伊集院」には仮項目名「不明」が付け
られている。次に、項目分類部26によって上記第3の
機能が適用されて共通フォーマットが作成されると、各
ブロックにおける1カラム目は項目「姓」と特定され
る。その結果、仮項目名「不明」が付けられている文字
列情報「伊集院」は1カラム目に在るのでその項目名が
「姓」に修正されて、図11(c)に示すような最終出力
項目の分類結果が得られるのである。
【0041】第4の機能は、1ブロック内の情報は各ブ
ロック共通であるという規則に従って共通フォーマット
を作成し、この共通フォーマットに矛盾する各ブロック
内の項目ラベルを修正しながら最終出力項目の分類を行
う機能である。その場合、図12(a)に例示するような
文字認識結果が文字認識部14によって得られると、仮
項目付け処理部17によって、文字列情報「ID:」は
項目キーワード辞書18に登録されていないので、図1
2(b)に示すように文字列情報「ID:」に仮項目名
「一般名詞」が付けられる。次に、項目分類部26によ
って上記第4の機能が適用されて共通フォーマットが作
成されると、文字列情報「ID:」は全ブロックの同一
個所に出現し、その出現個所は項目ラベルが置かれる可
能性の高い仮項目「数字列」が付けられている文字列の
頭であることから、文字列情報「ID:」は項目ラベル
であると特定される。その結果、仮項目名「一般名詞」
が付けられている文字列情報「ID:」の項目名が「項
目ラベル」に修正され、図12(c)に示すような最終出
力項目の分類結果が得られるのである。
【0042】第5の機能は、1ブロック内の情報は各ブ
ロック共通であるという規則に従って共通フォーマット
を作成し、この共通フォーマットに矛盾する各ブロック
内の誤認識項目ラベルを修正しながら最終出力項目の分
類を行う機能である。その場合、図13(a)に例示する
ような文字認識結果が文字認識部14によって得られる
と、仮項目付け処理部17によって、文字列情報「♯」
は項目キーワード辞書18に登録されていないので、図
13(b)に示すように文字列情報「♯」に仮項目名「不
明」が付けられる。次に、項目分類部26によって上記
第5の機能が適用されて共通フォーマットが作成される
と、文字列情報「♯」は他の全ブロックにおける郵便番
号項目ラベル「〒」と同一個所に出現し、その個所は項
目ラベルがおかれる可能性の高い仮項目「数字列」が付
けられた文字列の頭であることから、文字列情報「♯」
は上記郵便番号項目ラベル「〒」の誤認識であると判定
される。その結果、仮項目名「不明」が付けられている
文字列情報「♯」の項目名が「郵便番号項目ラベル」に
修正されて、図13(c)に示すような最終出力項目の分
類結果が得られるのである。
【0043】認識結果出力部28は、上記制御部11を
介して出力バッファ27から読み出した最終出力項目名
とそのメンバとを、文字認識結果として出力する。
【0044】上記構成の文字認識装置は、次のように動
作して、特定フォーマットで連続して記載されている文
書画像が入力される場合や、固定フォーマットの文書画
像が連続して入力される場合において、高い項目分類精
度を得る。
【0045】図2は、上記制御部11の制御の下に実行
される文字認識処理動作のフローチャートである。ステ
ップS1で、画像入力部12によってスキャナ13が制
御されて、特定フォーマットで連続して記載されている
住所録の画像データが入力される。ステップS2で、文
字認識部14によって、上記入力された画像データから
文字の行を切り出し、文字矩形情報から文字画像を切り
出す行・文字切り出し処理が行われる。そして、得られ
た文字矩形座標データが文字認識バッファ15に格納さ
れる。ステップS3で、文字認識部14によって、上記
切り出された文字画像から文字特徴を抽出する特徴抽出
処理が行われる。ステップS4で、文字認識部14によ
って、マッチング辞書16に登録されている標準パター
ン特徴とのマッチングが行われて、文字認識コード候補
が得られる。そして、得られた文字認識コード候補が文
字認識バッファ15に格納される。ステップS5で、文
字認識部14によって、上記文字矩形座標データと文字
認識コード候補とに基づいて、文字を文字列に統合する
文字列生成処理が行われる。そして、得られた文字列情
報データが文字認識バッファ15に格納される。
【0046】ステップS6で、上記仮項目付け処理部1
7によって、文字認識バッファ15に格納された文字列
情報データおよび文字認識コード候補データから、文字
列および文字候補のコードが読み出される。そして、項
目キーワード辞書18および項目別単語辞書19が検索
され、文字列に一致する単語例があればこの単語例の仮
項目名を当該文字列の仮項目として付けられる。そし
て、当該仮項目が文字認識バッファ15と対応付けられ
て仮項目バッファ20に格納される。尚、その場合、文
字列が数字列である場合には、「数字列」という仮項目
が付けられ、文字認識バッファ15と対応付けられて仮
項目バッファ20に格納される。ステップS7で、罫線
認識部21によって、上記入力画像データの罫線が認識
され、得られた罫線情報が罫線情報バッファ22に格納
される。
【0047】ステップS8で、上記ブロック抽出部23
によって、仮項目バッファ20および罫線情報バッファ
22の内容に基づいて、文字認識バッファ15および仮
項目バッファ20の内容が1ブロック毎の情報として区
切られる。ステップS9で、認識後処理部24によっ
て、文字認識バッファ15,仮項目バッファ20および
罫線情報バッファ22の内容が読み込まれ、文字認識コ
ード候補,文字矩形座標および文字接続頻度辞書25を
用いて、上述したように1ブロック内に存在する項目情
報は各ブロックに共通であるという規則に従って、文字
認識精度を上げるための認識後処理が行われる。
【0048】ステップS10で、上記項目分類部26によ
って、後に詳述する項目分類処理サブルーチンが実行さ
れる。この項目分類処理サブルーチンにおいては、上記
ブロックに区切られた文字認識バッファ15及び仮項目
バッファ20の内容が読み込まれて、各文字列が最終出
力項目に分類されて出力バッファ27に格納される。ス
テップS11で、認識結果出力部28によって、出力バッ
ファ27の内容が文字認識結果として出力される。そう
した後、文字認識処理動作を終了する。
【0049】以下、図2に示す文字認識処理動作のステ
ップS10において、項目分類部26によって実行される
項目分類処理について、さらに詳細に説明する。図3
は、上記項目分類処理サブルーチンのフローチャートで
ある。文字認識処理動作のステップS9において認識後
処理が終了すると、項目分類処理サブルーチンがスター
トする。
【0050】ステップS21で、上記ブロック毎に区切ら
れた文字認識バッファ15および仮項目バッファ20の
内容が読み込まれる。ステップS22で、上記読み込まれ
たデータに対して、順次ブロック毎に、仮項目の内容を
文字列毎に検証する仮項目内容解析処理と、項目作成ル
ールに基づいて正項目付けを行う正項目付け処理が行わ
れる。尚、項目作成ルールとは、次のようなルールであ
る。 ・仮項目名「電話項目ラベル」+仮項目名「数字列」→
正項目名「電話」 ・仮項目名「郵便番号項目ラベル」+仮項目名「数字
列」→正項目名「郵便番号」 ・仮項目名「地名」+仮項目名「数字列」→正項目名
「住所」 ステップS23で、全ブロックのデータに対する仮項目内
容解析処理及び正項目付け処理が終了したか否かが判別
される。その結果、終了していればステップS24に進
み、そうでなければ上記ステップS22に戻って次のブロ
ックのデータに対する処理に移行する。
【0051】図14〜図16に上記仮項目内容解析処理
及び正項目付け処理の結果の一例を示す。但し、図14
は入力された住所録であり、図15および図16は正項
目付け処理の結果である。ここで、図15および図16
における<第1ブロック>の第3カラムでは、「〒」が
「♯」と誤認識された結果、正項目名が「不明」になっ
ている。また、<第2ブロック>の第6カラムにおいて
は、「伊集院」が項目別単語辞書19に無いために、正
項目名が「不明」になっている。また、<第1ブロック
>〜<第3ブロック>の第7カラムにおいては、「I
D」が項目キーワード辞書18に無いために、正項目名
が「不明」になっている。
【0052】ステップS24で、上記ステップS23におい
て付けられた正項目に基づいて共通フォーマットが作成
される。尚、図17は、図15および図16に示す正項
目付け結果に基づいて作成された共通フォーマットの一
例である。ステップS25で、順次ブロック毎に、上記ス
テップS22において付けられた正項目名と上記ステップ
S24において作成された共通フォーマットの項目名との
整合性が検証される。ステップS26で、共通フォーマッ
トの項目名に矛盾する正項目名が在るか否かが判別され
る。その結果、在る場合にはステップS27に進み、無け
れば上記ステップS25に戻って次のブロックの処理に移
行する。ステップS27で、正項目を修正するか否かの検
証が行われる。その結果、修正する場合にはステップS
28に進む一方、修正しない場合には上記ステップS25に
戻って次のブロックのデータに対する処理に移行する。
ステップS28で、正項目が共通フォーマットを参照して
修正される。ステップS29で、全ブロックのデータに対
する共通フォーマットとの整合性の検証が終了したか否
かが判別される。その結果、終了していればステップS
30に進み、そうでなければ上記ステップS25に戻って次
のブロックのデータに対する処理に移行する。
【0053】こうして、上記共通フォーマットの項目名
に矛盾する正項目名が修正された結果、図15に示すよ
うに、<第1ブロック>の第3カラムにおいては、正項
目名「不明」が「郵便番号」に修正されている。また、
<第2ブロック>の第6カラムにおいては、正項目名
「不明」が「氏名」に修正されている。
【0054】ステップS30で、再度全ブロックのフォー
マットが1ブロック毎に検証され、上記共通フォーマッ
トにおける項目名「不明」に該当する文字列のメンバの
内容がチェックされる。ステップS31で、全ブロックの
データに対するメンバチェックが終了したか否かが判別
される。その結果、終了していればステップS32に進
み、そうでなければ上記ステップS30に戻って次のブロ
ックのデータに対するメンバチェックに移行する。ステ
ップS32で、上記ステップS31におけるメンバチェック
の結果、上記共通フォーマットにおける項目名「不明」
のメンバは、同一の仮項目名が付与された文字列である
か否かが判別される。その結果、そうであればステップ
S33に進む一方、そうでなければステップS34に進む。
【0055】ステップS33で、上記共通フォーマットに
おける項目名「不明」に該当する全ブロックの正項目名
が項目ラベルに修正される。このようにして全ブロック
の項目名「不明」が修正された結果、図15および図1
6に示すように、<第1ブロック>〜<第3ブロック>
の第7カラムにおいては、正項目名「不明」が項目ラベ
ル「ID」に修正されている。ステップS34で、修正さ
れた正項目名と文字列とが対応付けられる。
【0056】ステップS35で、上記ステップS24におい
て作成された共通フォーマットと出力バッファ27との
フォーマットが同一か否かが判別される。その結果、同
一であれば得られた正項目を最終出力項目と確定してス
テップS37に進む。一方、異なればステップS36に進
む。ステップS36で、上述のようにして設定された正項
目名の中から、出力バッファ27に登録する定形の最終
出力項目が選別される。ステップS37で、上記ステップ
S35において確定された最終出力項目またはステップS
36において選別された最終出力項目とそのメンバの文字
列とが出力バッファ27に格納される。そうした後、項
目分類処理サブルーチンを終了して、文字認識処理動作
のフローチャートにリターンする。
【0057】上述のように、本実施の形態においては、
上記画像入力部12から、住所録のように特定フォーマ
ットで繰り返して記載されている文書画像が入力され
と、以下のようにして、文字列が認識されて各項目とそ
のメンバとに分類される。
【0058】先ず、上記文字認識部14によって、文字
切り出し処理,特徴抽出処理,マッチング処理および文字
列生成処理が行われて、文字認識コード候補,文字矩形
座標および文字列情報が生成されて文字認識バッファ1
5に格納される。さらに、仮項目付け処理部17によっ
て、項目キーワード辞書18や項目別単語辞書19を参
照して、認識された文字列に対して仮項目を付与し、文
字認識バッファ15中の文字認識コード候補及び文字列
情報と対応付けられる。また、罫線認識部21によって
入力文書画像中の罫線が認識され、認識後処理部24に
よって文字認識精度を上げるための認識後処理が行われ
る。その場合の認識後処理は、1ブロック内の情報は各
ブロック共通であるという規則に従って行われる。した
がって、あるブロックの文字列の仮項目が他のブロック
の該当文字列の仮項目と異なる場合には、当該ブロック
の当該文字列(誤認識文字列)が、他のブロックと同じ仮
項目になるように文字認識コード候補情報を用いて修正
される。その結果、誤認識した文字の正解候補の順位が
低い場合でも、他のブロックの該当文字列の仮項目名を
参照することによって、的確に正解候補として採択する
ことができるのである。
【0059】そうした後、上記項目分類部26によっ
て、上記仮項目の内容が検証されて正項目付けが行われ
る。その場合、1ブロック内の項目情報は各ブロック共
通であるという規則に従って項目に関する共通フォーマ
ットが作成される。そして、各ブロック内に上記共通フ
ォーマットに矛盾する正項目名が存在する場合には、そ
の矛盾する正項目名が共通フォーマットを参照して修正
される。したがって、仮項目付け処理の際に項目別単語
辞書19に登録されていない文字列に与えられた項目名
「不明」が正しい項目名に修正される。また、仮項目付
け処理の際に誤認識された文字列に与えられた項目名
「不明」が正しい項目名に修正される。
【0060】また、上記共通フォーマットに正項目名
「不明」が存在する場合には、全ブロックの該当する文
字列のメンバをチェックし、同一の仮項目が付けられた
文字列であれば全ブロックの該当する正項目名が「項目
ラベル」に修正される。したがって、仮項目付け処理の
際に項目キーワード辞書18に登録されていない文字列
に与えられている項目名「一般名詞」が正しい項目ラベ
ル名に修正される。
【0061】また、上述のようにして付与された正項目
中から上記定形の最終出力項目のみが選別され、この選
別された上記定形の最終出力項目名とそのメンバが出力
バッファ27に登録される。そして、最終的に、認識結
果出力部28によって、出力バッファ27の内容が認識
結果として出力される。
【0062】すなわち、本実施の形態によれば、住所録
や伝票など、特定のフォーマットが連続する文書の情報
を認識する際に、誤認識した文字の正解候補の順位が低
い場合でも的確に正解候補として採択できる。また、あ
るブロック中の項目ラベル名を誤認識しても正しい項目
ラベルに分類することができる。また、項目ラベルとし
て登録されていない項目ラベルでも項目ラベルとして抽
出できる。また、特定の項目のメンバとして登録されて
いない文字列であっても正しい項目に分類することがで
きる。したがって、項目分類の精度を向上させることが
できる。
【0063】これに対して、上述した従来の住所録読み
取り装置においては、各ブロック内でキーワード照合や
項目分類の誤りを修正するので、例えば、上述の例のご
とくあるブロックにおいて、数字列中の「3」を文字
「ア」と誤認識したり、項目ラベル「〒」を記号「♯」
と誤認識した場合であって、保持している文字認識コー
ド候補中に正解「ア」あるいは「〒」が無かったり、在
っても候補順位が低い場合には、当該ブロックにおける
電話番号を表す数字列の項目として「不明」が出力され
たり、郵便番号項目ラベルの個所に「不明」が出力され
ることになるのである。
【0064】尚、本実施の形態においては、上記項目分
類部26に、上述のような第1〜第5の総ての機能を持
たせているが、適宜必要な機能を選択して持たせても差
し支えない。また、認識後処理部24と項目分類部26
とを有しているが、認識後処理部24のみを有しても良
いし、項目分類部26のみを有して後処理部は従来の後
処理を行うようにしても差し支えない。
【0065】
【発明の効果】以上より明らかなように、請求項1に係
る発明の文字認識装置は、文字認識部によって文字候
補,文字矩形座標および文字列を得、仮項目付け部によ
って上記文字列に仮項目を付けて仮項目情報を得、罫線
認識部によって罫線情報を得、ブロック抽出部によって
上記文字列および仮項目情報を罫線に従って一件毎のブ
ロックに区切り、後処理部によって、項目,この項目に
属する文字列およびこの文字列の位置を含む項目情報は
各ブロックに共通であるとして上記文字列および仮項目
情報に後処理を行うので、誤認識した文字列を他のブロ
ックの該当文字列や仮項目を参照して修正することがで
きる。したがって、特定フォーマットで連続して記載さ
れている文書画像が入力される場合あるいは固定フォー
マットの文書画像が連続して入力される場合において、
文字認識精度および項目分類精度を高めることができ
る。
【0066】また、請求項2に係る発明の文字認識装置
は、文字認識部によって文字候補,文字矩形座標および
文字列を得、仮項目付け部によって上記文字列に仮項目
を付けて仮項目情報を得、罫線認識部によって罫線情報
を得、ブロック抽出部によって上記文字列および仮項目
情報を罫線に従って一件毎のブロックに区切り、項目分
類部によって、上記項目情報は各ブロックに共通である
として、上記文字列とこの文字列に付けられた仮項目と
の組を正項目名とこの正項目名に属する文字列の組に分
類するので、辞書に登録されていない項目名や項目ラベ
ル、または、誤認識された項目名や項目ラベルを、他の
ブロックの項目名あるいは項目ラベルを参照して修正す
ることができる。したがって、したがって、特定フォー
マットで連続して記載されている文書画像が入力される
場合あるいは固定フォーマットの文書画像が連続して入
力される場合において、正項目名の特定精度を高めるこ
とができ、結果的に項目分類精度を高めることができ
る。
【0067】また、請求項3に係る発明の文字認識装置
は、上記項目情報は上記区切られた各ブロックに共通で
あるとして、後処理部によって、上記文字列および仮項
目情報に後処理を行い、更に項目分類部によって、上記
後処理後の文字列とこの文字列に付けられた仮項目との
組を正項目名とこの正項目名に属する文字列の組に分類
するので、上記項目辞書や項目ラベル辞書に登録されて
いない項目名や項目ラベル、または、誤認識された文字
列や項目名や項目ラベルを、他のブロックの該当する文
字列,項目名あるいは項目ラベルを参照して修正するこ
とができる。したがって、請求項1あるいは請求項2に
係る発明に比して、文字認識精度および項目分類精度を
さらに高めることができる。
【0068】また、請求項4に係る発明の文字認識装置
における上記項目分類部は、出力フォーマット選別手段
を有して、上記項目分類部で分類された正項目名とこの
正項目名に属する文字列の組から、最終出力フォーマッ
トに規定されている正項目名に該当する正項目名とこの
正項目名に属する文字列との組を選別するので、上記規
定されている正項目名のみに従って分類された認識結果
を得ることができる。したがって、上記最終出力フォー
マットとして、ユーザが必要とする最終出力項目を登録
しておけば、ユーザが知りたい項目に従って分類整理さ
れた認識結果を得ることができるのである。
【0069】また、請求項5に係る発明の項目分類方法
は、請求項2乃至請求項4の何れか一つに係る発明の文
字認識装置における上記項目分類部において、上記全ブ
ロックの正項目を参照して共通フォーマットを作成し、
各ブロックにおいて上記共通フォーマットに適合しない
項目名を上記共通フォーマットに基づいて修正するの
で、上記項目辞書に登録されていない項目名や誤認識さ
れた項目名を的確に修正することができる。したがっ
て、正項目名の特定精度を高め、結果的に項目分類精度
を高めることができる。
【0070】また、請求項6に係る発明の項目分類方法
は、請求項2乃至請求項4の何れか一つに係る発明の文
字認識装置における上記項目分類部において、上記全ブ
ロックの正項目を参照して共通フォーマットを作成し、
各ブロックにおいて上記共通フォーマットに適合しない
項目ラベルを上記共通フォーマットに基づいて修正する
ので、誤認識された項目ラベルを的確に修正することが
できる。したがって、正項目名の特定精度を高めて、項
目分類精度を高めることができる。
【0071】また、請求項7に係る発明の項目分類方法
は、請求項2乃至請求項4の何れか一つに係る発明の文
字認識装置における上記項目分類部において、上記項目
情報は上記各ブロックに共通であることを利用して、上
記項目ラベル辞書に登録されていない項目ラベルを確定
するので、上記項目ラベル辞書に登録されていない項目
ラベルを、全ブロックの該当文字列のメンバに付けられ
た項目名を参照して確定することができる。したがっ
て、正項目名の特定精度を高めて、項目分類精度を高め
ることができる。
【0072】また、請求項8に係る発明の記録媒体は、
請求項3と同様の効果を奏することができる。
【0073】また、請求項9に係る発明の記録媒体は、
請求項5あるいは請求項6に係る発明と同様の効果を奏
することができる。
【図面の簡単な説明】
【図1】この発明の文字認識装置におけるブロック図で
ある。
【図2】図1における制御部の制御の下に実行される文
字認識処理動作のフローチャートである。
【図3】図1における項目分類部によって実行される項
目分類処理サブルーチンのフローチャートである。
【図4】図1における文字認識部による文字列生成処理
結果の一例を示す図である。
【図5】図1における項目キーワード辞書および項目別
単語辞書の具体的内容を示す図である。
【図6】仮項目と文字列情報データとの対応付けの一例
を示す図である。
【図7】図1における認識後処理による認識後処理結果
の一例を示す図である。
【図8】図7とは異なる認識後処理結果を示す図であ
る。
【図9】図1における項目分類部による項目部類結果と
出力バッファの内容との対比図である。
【図10】出力バッファに登録する最終出力項目が定形
である場合の項目部類結果と出力バッファの内容との対
比図である。
【図11】文字列が項目別単語辞書に無い場合の項目名
修正の説明図である。
【図12】文字列が項目キーワード辞書に無い場合の項
目ラベル名特定の説明図である。
【図13】項目ラベル名を誤認識した場合の項目ラベル
名修正の説明図である。
【図14】図1に示す文字認識装置に対する入力住所録
の一例を示す図である。
【図15】図14に示す入力住所録に対する項目分類部
による正項目付け処理結果を示す図である。
【図16】図15に続く正項目付け処理結果を示す図で
ある。
【図17】図15および図16に示す正項目付け処理結
果に基づく共通フォーマットを示す図である。
【図18】従来の住所録読み取り装置のブロック図であ
る。
【図19】図18に示す住所録読み取り装置によって読
み取られる住所録の一例を示す図である。
【図20】図19に示す住所録を図18に示す住所録読
み取り装置によって読み取った場合の出力データの一例
を示す図である。
【符号の説明】
11…制御部、 12…画像入力
部、13…スキャナ、 14…文字
認識部、15…文字認識バッファ、 16…
マッチング辞書、17…仮項目付け処理部、
18…項目キーワード辞書、19…項目別単語辞書、
20…仮項目バッファ、21…罫線認識
部、 22…罫線情報バッファ、23
…ブロック抽出部、 24…認識後処理
部、25…文字接続頻度辞書、 26…項目
分類部、27…出力バッファ、 28…
認識結果出力部。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 特定フォーマットが繰り返される文書画
    像データが入力される画像入力部と、 上記画像入力部から入力された文書画像データに基づい
    て文字を切り出して認識し、文字候補,文字矩形座標お
    よび文字列を得る文字認識部と、 項目ラベルと各項目ラベルに属する文字列とを対応付け
    て登録した項目ラベル辞書と、 項目名と各項目名に属する文字列とを対応付けて登録し
    た項目辞書と、 上記項目ラベル辞書および項目辞書を参照して、上記認
    識された文字列に上記項目ラベルあるいは項目名を仮項
    目として付けて、上記文字列と仮項目とを対応付けた仮
    項目情報を得る仮項目付け部と、 上記文書画像データに基づいて罫線を認識し、罫線の位
    置を含む罫線情報を得る罫線認識部と、 上記文字矩形座標,仮項目情報および罫線情報に基づい
    て、上記文字列および仮項目情報を一件毎のブロックに
    区切るブロック抽出部と、 項目,この項目に属する文字列およびこの文字列の位置
    を含む項目情報は上記区切られた各ブロックに共通であ
    るとして、上記文字列および仮項目情報に対して後処理
    を行う後処理部を備えたことを特徴とする文字認識装
    置。
  2. 【請求項2】 特定フォーマットが繰り返される文書画
    像データが入力される画像入力部と、 上記画像入力部から入力された文書画像データに基づい
    て文字を切り出して認識し、文字候補,文字矩形座標お
    よび文字列を得る文字認識部と、 項目ラベルと各項目ラベルに属する文字列とを対応付け
    て登録した項目ラベル辞書と、 項目名と各項目名に属する文字列とを対応付けて登録し
    た項目辞書と、 上記項目ラベル辞書および項目辞書を参照して、上記認
    識された文字列に上記項目ラベルあるいは項目名を仮項
    目として付けて、上記文字列と仮項目とを対応付けた仮
    項目情報を得る仮項目付け部と、 上記文書画像データに基づいて罫線を認識し、罫線の位
    置を含む罫線情報を得る罫線認識部と、 上記文字矩形座標,仮項目情報および罫線情報に基づい
    て、上記文字列および仮項目情報を一件毎のブロックに
    区切るブロック抽出部と、 上記文字列とこの文字列に付けられた仮項目との組を、
    項目,この項目に属する文字列およびこの文字列の位置
    を含む項目情報は上記区切られた各ブロックに共通であ
    るとして、正項目名とこの正項目名に属する文字列との
    組に分類する項目分類部を備えたことを特徴とする文字
    認識装置。
  3. 【請求項3】 請求項1に記載の文字認識装置におい
    て、 上記後処理後の文字列とこの文字列に付けられた仮項目
    との組を、上記項目情報は上記区切られた各ブロックに
    共通であるとして、正項目名とこの正項目名に属する文
    字列との組に分類する項目分類部を備えたことを特徴と
    する文字認識装置。
  4. 【請求項4】 請求項2あるいは請求項3に記載の文字
    認識装置において、 上記項目分類部は、上記分類された正項目名とこの正項
    目名に属する文字列の組から、最終出力フォーマットに
    規定されている正項目名に該当する正項目名とこの正項
    目名に属する文字列との組を選別する出力フォーマット
    選別手段を備えたことを特徴とする文字認識装置。
  5. 【請求項5】 請求項2乃至請求項4の何れか一つに記
    載の文字認識装置における上記項目分類部に用いられる
    項目分類方法であって、 上記区切られた各ブロックの正項目を参照して、各ブロ
    ック共通の正項目のフォーマットである共通フォーマッ
    トを作成し、 各ブロック毎に上記共通フォーマットに適合しない項目
    名を抽出し、 上記抽出された項目名を上記共通フォーマットに基づい
    て修正することを特徴とする項目分類方法。
  6. 【請求項6】 請求項2乃至請求項4の何れか一つに記
    載の文字認識装置における上記項目分類部に用いられる
    項目分類方法であって、 上記区切られた各ブロックの正項目を参照して、各ブロ
    ック共通の正項目のフォーマットである共通フォーマッ
    トを作成し、 各ブロック毎に上記共通フォーマットに適合しない項目
    ラベルを抽出し、 上記抽出された項目ラベルを上記共通フォーマットに基
    づいて修正することを特徴とする項目分類方法。
  7. 【請求項7】 請求項2乃至請求項4の何れか一つに記
    載の文字認識装置における上記項目分類部に用いられる
    項目分類方法であって、 上記項目情報は上記区切られた各ブロックに共通である
    ことを利用して、上記項目ラベル辞書に登録されていな
    い項目ラベルを確定することを特徴とする項目分類方
    法。
  8. 【請求項8】 請求項3における画像入力部,文字認識
    部,仮項目付け部,罫線認識部,ブロック抽出部,後処理部
    および項目分類部として、コンピュータを機能させる文
    字認識プログラムが記録されていることを特徴とするコ
    ンピュータ読み取り可能な記録媒体。
  9. 【請求項9】 請求項8に記載の記録媒体において、 上記文字認識プログラムは、 上記区切られた各ブロックの正項目を参照して、各ブロ
    ック共通の正項目のフォーマットである共通フォーマッ
    トを作成し、 各ブロックから上記共通フォーマットに適合しない項目
    名あるいは項目ラベルを抽出し、 上記抽出された項目名あるいは項目ラベルを上記共通フ
    ォーマットに基づいて修正するプログラムを含むことを
    特徴とする記録媒体。
JP26164098A 1998-09-16 1998-09-16 文字認識装置およびプログラム記録媒体 Expired - Fee Related JP4054453B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26164098A JP4054453B2 (ja) 1998-09-16 1998-09-16 文字認識装置およびプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26164098A JP4054453B2 (ja) 1998-09-16 1998-09-16 文字認識装置およびプログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2000090193A true JP2000090193A (ja) 2000-03-31
JP4054453B2 JP4054453B2 (ja) 2008-02-27

Family

ID=17364715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26164098A Expired - Fee Related JP4054453B2 (ja) 1998-09-16 1998-09-16 文字認識装置およびプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP4054453B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172070A (ja) * 2004-12-15 2006-06-29 Toshiba Corp 帳票処理装置、帳票処理方法、及び帳票処理プログラム
JP2007249747A (ja) * 2006-03-17 2007-09-27 Fujitsu Ltd 共通フォーマット作成プログラム
JP2014002662A (ja) * 2012-06-20 2014-01-09 Hitachi Solutions Ltd 帳票印刷システム
JP2018180658A (ja) * 2017-04-05 2018-11-15 株式会社Pfu 情報処理装置、方法及びプログラム
CN111259117A (zh) * 2020-01-16 2020-06-09 广州拉卡拉信息技术有限公司 短文本批量匹配方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172070A (ja) * 2004-12-15 2006-06-29 Toshiba Corp 帳票処理装置、帳票処理方法、及び帳票処理プログラム
JP2007249747A (ja) * 2006-03-17 2007-09-27 Fujitsu Ltd 共通フォーマット作成プログラム
JP2014002662A (ja) * 2012-06-20 2014-01-09 Hitachi Solutions Ltd 帳票印刷システム
JP2018180658A (ja) * 2017-04-05 2018-11-15 株式会社Pfu 情報処理装置、方法及びプログラム
CN111259117A (zh) * 2020-01-16 2020-06-09 广州拉卡拉信息技术有限公司 短文本批量匹配方法及装置
CN111259117B (zh) * 2020-01-16 2023-11-21 广州拉卡拉信息技术有限公司 短文本批量匹配方法及装置

Also Published As

Publication number Publication date
JP4054453B2 (ja) 2008-02-27

Similar Documents

Publication Publication Date Title
US4903206A (en) Spelling error correcting system
EP0844583B1 (en) Method and apparatus for character recognition
US20060045340A1 (en) Character recognition apparatus and character recognition method
WO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
JP2014182477A (ja) プログラム及び帳票処理装置
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP4054453B2 (ja) 文字認識装置およびプログラム記録媒体
JPH08263478A (ja) 中国語簡繁体字文書変換装置
JPH0748217B2 (ja) 文書要約装置
JP3548372B2 (ja) 文字認識装置
JP5289032B2 (ja) 文書検索装置
JPH0256086A (ja) 文字認識の後処理方法
JP2024003769A (ja) 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム
JP2894305B2 (ja) 認識装置の候補修正方式
KR101743289B1 (ko) 자동 주소 번역 시스템 및 방법
JPH10293811A (ja) 文書認識装置及び方法並びにプログラム記憶媒体
JP2560959B2 (ja) 文字認識後処理方式
JPS63282586A (ja) 文字認識装置
JPH07160730A (ja) 全文検索装置
JPH0715690B2 (ja) 日本文文書解析装置
JPS6366665A (ja) 文書解析整形装置
JPH02118785A (ja) 誤認識修正方法及び装置
JPH06223054A (ja) 手書き入力機能付き文字処理装置
JPH0652367A (ja) 文字認識結果の後処理方法
JPH09120436A (ja) 単語照合方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111214

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees