JP2655087B2 - 文字認識後処理方式 - Google Patents

文字認識後処理方式

Info

Publication number
JP2655087B2
JP2655087B2 JP6143215A JP14321594A JP2655087B2 JP 2655087 B2 JP2655087 B2 JP 2655087B2 JP 6143215 A JP6143215 A JP 6143215A JP 14321594 A JP14321594 A JP 14321594A JP 2655087 B2 JP2655087 B2 JP 2655087B2
Authority
JP
Japan
Prior art keywords
word
dictionary
character
result
collation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP6143215A
Other languages
English (en)
Other versions
JPH0816729A (ja
Inventor
慎治 佐瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP6143215A priority Critical patent/JP2655087B2/ja
Publication of JPH0816729A publication Critical patent/JPH0816729A/ja
Application granted granted Critical
Publication of JP2655087B2 publication Critical patent/JP2655087B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、光学的に文字を読み
取る文字認識装置において、文字並びの情報を利用して
手書きあるいは印刷文字の文字読取結果の確認と補正を
行う文字認識後処理方式に関する。特に、互いに関連し
合う内容を持つ2つの記載項目の読取結果に対する文字
認識後処理方式に関する。
【0002】
【従来の技術】帳票などの紙面上に書かれている内容
は、全ての記入内容の持つ情報に無駄がないのではな
く、実際には複数の記載内容間で冗長度のある内容が記
載されていることが多い。通常普及している帳票におい
ても、商品面と商品コード、適用欄と費目コード、金融
機関名と金融機関コード、学校名と学校コード、住所と
郵便番号、姓名とその振り仮名などこのような例は多々
ある。
【0003】このような項目の記載を文字認識装置で読
み取る場合、それぞれを単独で読み取るのではなく、互
いの読取結果に基づく情報の冗長度を利用することによ
り、より優れた読取認識性能を実現することが可能であ
る。このように、関連し冗長している記載項目間の情報
を利用することにより、文字認識の読取性能向上を図る
代表的な試みが、郵便番号と住所の読み取りにおいてい
くつかなされてきた。
【0004】従来の郵便番号と住所の読取方法は、その
処理の流れから、基本的に2種類に分類できる。1つ
は、漢字読取と比較して文字認識性能の高い郵便番号の
読取結果を用いて住所辞書を検索し、これにより住所の
認識性能の向上および辞書検索の高速化を図る方法であ
る(特開昭63−298492号公報)。もう1つの方
法は、住所の読取結果をもとにそれに対応する郵便番号
を導き出し、郵便番号の読取結果を補正する方法である
(特開平3−38788号公報)。
【0005】
【発明が解決しようとする課題】従来は以上のように構
成されていて、2つの記載項目の読取結果に対して、ど
ちらかの読取結果を利用してもう一方の読取結果を補正
する方式がとられていたこのため、前述した両方の効
果、すなわち2つの記載項目が相補的に作用しあうよう
なものではなかった。
【0006】そして、2つの記載項目を用いて、相補的
に作用しあうようにするには、単語辞書を2重化しなけ
ればならず、用意しておくデータベース(単語辞書)が
大きいものになってしまうという問題があった。また、
郵便番号と住所の組み合わせを念頭に置いて設計されて
いるため、その専用処理に近く、読み取る対象の項目内
容の変化に柔軟に対応しにくい面が見られた。
【0007】この発明は、以上のような問題点を解消す
るためになされたものであり、単語辞書を2重化するこ
となく、2つの記載項目を読み取る時にそれらが相補的
に作用し合うようにして、文字認識の結果を確認・補正
・修正できるようにすることを目的とする。
【0008】
【課題を解決するための手段】この発明の文字認識後処
理方式は、構成する辞書単語に対応する中間コードが付
けられた、第1の記載より得られる第1の文字列データ
の照合のための第1の単語辞書と、第1の記載と互いに
冗長している第2の記載より得られる第2の文字列デー
タの照合のための、第1の単語辞書を構成する辞書単語
に関連する辞書単語には同一の中間コードが付けられた
第2の単語辞書とを有する。
【0009】そして、第1および第2の文字列データの
2箇所以上の文字をキー文字として第1および第2の単
語辞書それぞれを検索し、それぞれに対応する照合する
ための辞書単語を取り出し、この取り出したそれぞれの
辞書単語と第1および第2の文字列データとを比較をす
る第1の照合と、この第1の照合により決定した、それ
ぞれ第1および第2の文字列データに最も類似している
第1の候補結果の中間コードと第2の候補結果の中間コ
ードとを比較する第1の判定とを行う。
【0010】また、この第1の判定で中間コードが一致
しなかった場合、第1もしくは第2の候補結果の中間コ
ードをキーとして第2もしくは第1の単語辞書を検索し
て第3の辞書単語を取り出し、この第3の辞書単語と第
1もしくは第2の文字列データとを比較する第2の照合
と、第2の照合での比較の結果を良否判定し、良いと判
定した辞書単語を組み合わせることで、第1と第2の記
載の読取結果を得る第2の判定とを行い、第1の文字列
データと第2の文字列データとの照合結果を互いに補う
ことを特徴とする。
【0011】また、この発明の文字認識後処理方式は、
第1および第2の単語辞書の格納されている辞書単語に
自身の単語分類情報を付加し、第2の判定でこの単語分
類情報を用いて、良いと判定した辞書単語を組み合わせ
ることを特徴とする。そして、この発明の文字認識後処
理方式は、第1と第2の単語辞書を構成する辞書単語が
木構造を有し、第1および第2の照合では、木構造を用
いて照合のための辞書単語を取り出し、第2の判定で
は、木構造を用いて良いと判定した辞書単語を組み合わ
せることを特徴とする。
【0012】
【作用】読み取った文字列データの照合のための単語辞
書を構成する中間コードで、他の単語辞書との関連づけ
がなされる。
【0013】
【実施例】以下、この発明の概要について実施例に先立
って説明する。単語辞書を利用した文字認識後処理にお
いては、その照合精度を決める最低限の目安は、認識対
象の文字に対応する正しい単語である正解単語をその単
語辞書から取り出すことである。通常、文字認識におい
ては、まず対象とする記載文字を読み取る文字認識を行
う。この文字認識では、画像データとして読み取った記
載文字より、その1文字毎に対応すると思われる文字認
識候補をたてる。
【0014】そして、この文字認識をした後に行う文字
認識後処理として、読取文字より得られる単語の認識
(単語の照合確認補正)を行う。この単語の認識は、文
字認識候補を組み合わせることで認識単語を生成し、あ
らかじめ用意されている単語辞書内を検索して、その認
識単語に対応する単語の有無を確認することで行なわれ
る。また、文字認識結果のある文字をキーにして、やは
りあらかじめ用意されている単語辞書から対応する単語
を取り出す方法もある。
【0015】前者は、認識した読取文字全てが認識対象
の記載文字に一致している必要がある。すなわち、前者
では、文字認識候補を組み合わせることで、記載文字と
同一の単語が得られなくてはならない。しかし、後者
は、認識した読取文字の中に正解文字すべてを含んでい
なくても、単語辞書より記載単語に一致する正解単語を
取り出すことができる。したがって、読み取った読取文
字より認識したい単語に対応する正解単語を、単語辞書
より取り出すことのできる能力は後者の方が高く、後者
を用いた方が照合精度が高くなるといえる。
【0016】しかし、後者でも単語照合のキー文字を1
箇所(たとえば単語の1文字目)に固定すると、その文
字位置の文字が認識対象文字を正しく認識していなかっ
た場合、単語辞書より正しい単語を取り出すことができ
なくなる。ここで、認識した文字列の2箇所以上の位置
の文字を用いて、キー文字検索が可能であれば、正解単
語を取り出す確率ははるかに高くなる。たとえば、各文
字位置において、文字認識結果が正解を含む割合が99
%である場合、2箇所の文字位置でキー検索が可能であ
れば、99.99%正しい単語を取り出すことが可能と
なる。
【0017】ところで、前述した郵便番号と住所などの
ように、冗長されている2つの記載より、相補的に2つ
の認識結果を補うためには、2つの認識の程度が同レベ
ルの必要がある。一方の読取対象である記載項目が数字
であり、他方のそれが漢字である場合、漢字の方の読取
正解率がどうしても低くなる。このため漢字を読み取っ
て認識する方は、精度の高い単語照合を採用する必要が
生じる。このようなことからも、読み取ることが難し
く、読み取った文字列全てが正確でない場合でも、2箇
所以上のキー文字による正解単語の検索は有効である。
【0018】読み取った文字列の2箇所以上の位置の文
字をキー文字とする正解単語の検索(取り出し)方法に
は、大きく2つの方法がある。1つには以下に示すよう
な方法がある。まず、図1に示すように、単語がレコー
ドの1項目として格納された単語辞書の他に、単語中の
文字位置とキー文字の組毎に、該当する単語の単語辞書
内における格納アドレスを一つだけ記述した辞書格納ア
ドレステーブルを作成しておく。
【0019】このように構成した状態で、単語の検索を
行うときは、読み取った文字列(単語)内の取り出した
キー文字とその文字の単語内の位置の組より、辞書格納
アドレステーブル内における該当するテーブルアドレス
を計算する。そして、1つだけ記述されたその組に対応
する単語の単語辞書内における格納アドレス「AD1
0」を取り出す。これは、単語辞書内で対応する最初に
取り出す単語の格納アドレスとなる。
【0020】次に、辞書格納アドレステーブルより得ら
れた格納アドレス「AD10」を用いて、単語辞書内の
アドレス「AD10」に格納されている単語を取り出
す。ここで、単語辞書では、この単語に関連する次に取
り出す単語のレコードの格納アドレスも、1つの項目と
してレコードを構成している。たとえば、単語辞書のア
ドレス「AD10」のレコードには、取り出す単語とと
もに、この単語に関連する次に取り出す単語の格納アド
レス「AD11」も1つの項目として有している。
【0021】このことにより、単語辞書のアドレス「A
D10」のレコードより取り出した単語で照合を行い、
次に、アドレス「AD11」のレコードより単語を取り
出して照合を行い、この次は、アドレス「AD12」の
レコードから単語を取り出すようにする。そして、たと
えば、この次に取り出す単語のアドレスを示す項目にア
ドレス「FFFF」が格納されていれば、これ以上関連
する単語が無く、単語辞書からの単語取り出し終了を示
すものとする。
【0022】キー文字を用いた正解単語の検索方法のも
う1つの方法は、図2に示すように、キー文字とその文
字位置毎との組に対応する辞書単語(レコード)の格納
位置を全て記述した辞書格納アドレステーブルを用いる
方法である。この辞書格納アドレステーブルは、キー文
字とその文字位置毎との組み合わせに対応する辞書単語
の単語辞書内における格納位置を、一固まりに訂正した
アドレス指示テーブルを用意しておくものである。そし
て、この辞書格納アドレステーブルの他に、アドレステ
ーブル用ポインタも用意しておく。
【0023】この場合、まず、キー文字とその文字位置
の組より、辞書格納アドレステーブル内のどのアドレス
指示テーブルを参照すればよいかを計算する。次いで、
この計算結果より、アドレステーブル用ポインタを用い
て、対応するアドレス指示テーブルの辞書格納アドレス
テーブル内のアドレスを求める。このことにより、注目
しているキー文字とその文字位置の組より、単語辞書内
の対応する辞書単語のアドレスが全て分かり、その対応
している辞書単語を取り出すことができる。
【0024】そして、取り出した単語について、読み取
った文字列と比較することなどにより、正解単語である
かどうかを判定していく。なお、図2に示した例では、
辞書格納アドレステーブルにおいて、アドレス指示テー
ブルに、単語辞書に格納されている関連単語の数を示す
項目を用意しているが、これが無くてもかまわない。
【0025】以上示した2つの方法による単語の取り出
し結果は同じになるが、これらの方法に限るものではな
く、単語の複数位置でのキー文字を用いた検索が可能で
あればどのような方法でもかまわない。また、上述した
方法では、検索対象とするキー文字の位置を、2箇所と
したがこれに限るものではなく、3箇所以上としても良
い。また、キー文字として採用する位置も、文字列の最
初と2番目に限るものではなく、どの位置から選んでも
良い。後述する実施例の説明においては、キー文字によ
る単語辞書内の単語の検索は、図1に示した例を用い
る。
【0026】ところで、冗長されている2つの記載よ
り、相補的に2つの認識結果を補うことを、用意する辞
書を大きなものとしてしまう単語辞書を2重化するので
はなく、簡略なシステムで可能とするためには、以下の
ようにすればよい。まず、2つの記載それぞれの認識を
行うために、それぞれに単語所書が必要となるが、2つ
の辞書間で冗長されている2つの辞書単語の関係を示す
中間コードを用いるようにすればよい。このようにすれ
ば、単語辞書を2重化することなく相補的に2つの照合
結果を補うことができる。
【0027】以下、その中間コードについて説明する。
中間コードとは、記載項目を読み取る帳票の中で前述し
たような関連する辞書単語間を対応づけるための数字列
のコードであり、通常では、中間コードと辞書単語とは
1対多の対応となる。したがって、中間コードは、読み
取る複数の記載項目にまたがって冗長している情報を利
用して、これらの冗長部分をコード化したものと定義で
きる。
【0028】上述のことを郵便番号と住所を例にとれ
ば、郵便番号の上3桁を数値化したものを中間コードと
することができる。なお、この郵便番号と住所の関係の
場合、郵便番号の照合のための単語辞書は必要となら
ず、実際には記載項目の住所の照合のための単語辞書を
構成する辞書単語(項目)に、中間コードとしての郵便
番号の上3桁を付ければよい。この場合、住所に対して
郵便番号は1つ決まるが、同じ郵便番号に対して複数の
住所が存在するので、中間コードと辞書単語(住所)は
1対多の対応となっている。
【0029】一方、商品コードと商品名のように、中間
コードと商品コードそして商品名は全て1対1で対応す
るような場合もある。この場合、商品コードには、アル
ファベットなど数字でないものもあるので、これをその
まま中間コードとしては用いることができない。このた
め、商品コードを照合するための単語辞書が必要とな
り、その単語辞書を構成する辞書単語(商品コード)
に、対応する中間コードを付けるようにする。なお、商
品名の照合のためには、当然ながら商品名用の単語辞書
があり、これを構成する辞書単語(商品名)には対応す
る中間コードが付けられる。
【0030】ここで、読み取った記載項目の照合におけ
る、中間コードの具体的な取得方法について述べる。中
間コードの取得方法には、計算による方法と上述したよ
うな辞書検索による方法とがある。計算による方法は、
上述の郵便番号の例のように、元々が数値コードで表さ
れている場合に用いるもので、あらかじめ用意されてい
る計算式に則った計算により数値文字列を数値に変換す
る。これが適応できる例として、商品コードの一部,費
目コード,金融機関コード,および学校コードなどが上
げられる。
【0031】一方、辞書検索による方法は、単語辞書を
構成する辞書単語が格納されているレコードに、中間コ
ードを付帯させておくものである。そして、一度、単語
辞書より単語を取り出すことにより、取り出した単語を
参照して中間コードを取り出すようにする。辞書検索に
よる方法を適用する例は、アルファベットなどを含む商
品コードの一部,住所,姓名およびその振り仮名,金融
機関名,学校名などがある。
【0032】以下この発明の1実施例を図を参照して具
体的に説明する。 実施例1.図3は、この発明の1実施例の動作を説明す
るためのフローチャートである。また、図4はある帳票
に記載された記載項目Aである商品名の文字認識結果を
示す説明図、図5は同様に記載項目Bである商品コード
の文字認識結果を示す説明図である。以下、この文字認
識された商品名(記載項目A)と商品コード(記載項目
B)についてこの実施例1の文字認識後処理方法を図3
のフローチャートを用いて説明する。なお、この商品名
と商品コードの文字認識結果の形式は同様のものであ
り、異なる点は読取対象の字種だけであるとする。
【0033】まず、商品名の文字読取結果および商品コ
ードの文字読取結果が得られると文字認識後処理が開始
される(スタート)。文字読取結果は、図4に示すよう
に、各記入文字に対して複数個の候補が与えられる。各
記入文字に対する読取文字候補の個数は、文字読取の手
法に応じて固定としても可変としてもかまわない。図4
には、最大9個の候補をたてるようにした可変の場合を
示しており、読取文字によって候補の数が最大候補数に
満たない場合は、空白で残りの部分を埋めてある。
【0034】たとえば、商品名の記入文字「冷蔵庫N3
3」の「冷」の文字読取の結果、読取候補として
「冷」,「玲」,「令」,「伶」,「洽」,「埓」,
「沿」,「澄」,「谷」の9個がたてられる。一方、
「3」の文字読取の結果、候補として「3」,「8」,
「0」,「ヨ」,「S」,「B」,「5」,「6」の8
個がたてられ、9個になっていないので、空白で残りの
部分が埋められている。
【0035】また、文字読取の結果には、その文字読取
手法に応じて、候補の確からしさがあわせて得られるも
のと、得られていないものとがある。確からしさが得ら
れるものは、その確からしさを示す値も同時に受け取る
ようにする。得られない場合は、候補順位をもとに確か
らしさを定義する。たとえば、1位候補が10、2位候
補が9などの値を与える。以下の説明では、記入文字の
i文字目の文字認識結果のj番目の候補に対する確から
しさをdijとし、各読取文字の文字読取結果候補数の最
大は9個までとする。
【0036】そしてまた、商品名用の単語辞書は予め与
えられているものとし、単語辞書の基本となる格納の形
式は、図1に示した単語辞書形式とする。図6は、図1
に示した単語辞書形式による単語辞書の詳細構成を示す
説明図である。同図において、61は辞書格納アドレス
テーブル、62は中間コード検索用アドレステーブル、
63は単語辞書、64は単語辞書63に格納されている
1単語分の格納形式を示す単語レコードである。
【0037】単語レコード64は、この単語レコードの
データ格納形式などを示す識別子である辞書タイプと、
格納している単語の文字数と、この単語と1つ目のキー
文字が同一の他の単語の辞書格納アドレスと、この単語
と2つ目のキー文字が同一の他の単語の辞書格納アドレ
スと、中間コードと、これと同一の中間コードの他の単
語の辞書格納アドレスと、格納している単語の文字コー
ドとで構成されている。ここで、同一の中間コードの他
の単語の辞書格納アドレスは、中間コード検索用アドレ
ステーブル62により用いられる。
【0038】以上のことにより、まず、第1の照合とし
て文字認識した商品名の照合を商品名用単語辞書を用い
て行う(ステップS1)。図7は、この第1の照合を詳
細に説明するためのフローチャートであり、図3のステ
ップS1の内容である。初めに、文字認識した商品名の
文字認識結果に対してあらかじめ設定してあるキー文字
位置の中より最初のキー文字位置を用い(ステップS1
1)、そのキー文字の位置における、最初の文字認識候
補を検索用キー文字として取り出す(ステップS1
2)。次いで、このキー文字に対応する最初に取り出す
べき商品名の商品名用単語辞書における格納アドレス
を、辞書格納アドレステーブルより取り出す(ステップ
S13)。
【0039】ここで、最初にこの検索用のキー文字に対
して、取り出すべき商品名がその商品名用単語辞書にあ
るか無いかを確認する(ステップS14)。取り出すべ
き商品名がその商品名用単語辞書にある場合は(ステッ
プS14)、商品名用単語辞書内よりまず最初の候補単
語を取り出し(ステップS15)、文字認識した商品名
とこの単語との類似度を算出する(ステップS16)。
そして、この単語を照合結果候補Aに格納し(ステップ
S17)、次の候補単語があるかどうかを確認し(ステ
ップS14)、ある場合はその候補単語を取り出し(ス
テップS15)、同様に類似度を計算する(ステップS
16)。
【0040】以上のようにして、類似度を計算した候補
単語を照合結果候補Aに逐次格納していくが(ステップ
S17)、ここでは、類似度の高い順に予め定められた
10候補だけ最終的に残すようにする。以上のステップ
S11〜S17により、文字認識した商品名において、
設定したキー文字の位置における最初の候補を検索用キ
ー文字とした、候補単語の取り出しが行われたことにな
る。
【0041】取り出すべき候補単語が無くなれば(ステ
ップS14)、これらのことが、キー文字の位置におけ
る候補全てにおいて行われたかどうかを判断する(ステ
ップS18)。そして、キー文字の位置における候補全
てについてステップS12〜S17を行った後(ステッ
プS18)、キー文字がまだあるか無いかを判断し(ス
テップS19)、ここでは、キー文字を2つ設定してい
るので、次のキー文字の位置における候補についても上
述と同様にし、商品名用単語辞書より候補単語を取り出
す。なお、記載項目Bについても同様であり、類似度が
計算された候補単語は照合結果候補Bに格納されるが、
この商品コードの場合は、読取結果がすなわち中間コー
ドである。
【0042】なお、ステップS16における類似度は、
文字認識結果と同時に得られる文字の確からしさからの
加算で求める。たとえば、図4の文字認識結果と単語
「冷蔵庫N33」の類似度は、d11+d22+d31+d41
+d51+d61となる。また、ステップS16において
は、重複取り出しチェックも行われる。この、重複取り
出しチェックは同じ単語が読み出された場合、強制的に
全く照合ができなかったという結果を返すものである。
取り出した単語の以前のキー文字検索位置と対応する文
字認識結果候補に同じ文字があるか否かで判断する。
【0043】ステップS1の処理が終了した時点で、照
合結果候補Aの内容が、第1の照合の照合結果となる。
なお、照合結果として照合結果候補Aに格納される1単
語分の格納形式を図8に示す。同図において、81は対
応する単語辞書内の該当する単語が格納されているアド
レスを示す辞書格納アドレス、82はその単語の中間コ
ード、83は上述のことによりえられた類似度、84は
文字読取結果の中で照合を行った単語部分の最初の文字
である先頭照合位置、85は文字読取結果の中で照合を
行った単語部分の最後の文字である終端照合位置であ
る。
【0044】次いで、図3に示すように、第1の判定と
して、ステップS1における商品名の読取結果に対する
単語照合の結果による第1位の中間コードと、商品コー
ドの読取結果の照合結果による第1位の中間コードとを
比較する(ステップS2)。それぞれの中間コードが一
致した場合は、正しい結果が照合できたとして一致フラ
ッグをセットする。前述したように、商品コード読取結
果から中間コードを求める方法は2通りである。
【0045】図3では計算で求める場合を示している
が、この場合の、ステップS2における処理の詳細を説
明する。まず、商品コードの文字認識結果より各一位候
補を取り出し、それを数値に変換することで中間コード
を算出する。図5に示した例では、読み取った文字列は
「45108」であるが、これを数値45108に変換
する。なお、処理対象により数字の桁数が大きすぎる場
合は、予め上位または下位からの有効な桁数を定めるこ
とにより、辞書格納アドレステーブルが大きくなりすぎ
ないようにする。
【0046】次いで、この算出した中間コードと、図3
のステップS1における照合結果である照合結果候補A
の第1以降補の中間コードとを比較し、同じ場合は一致
フラッグをセットする。なお、計算ではなく辞書検索に
より商品コードの文字認識結果から中間コードを取得す
る場合は、図3におけるステップS2を、中間コードを
取り出すステップに置き換えればよい。
【0047】この場合、ステップS1では、動作におい
ては図7に示した構成と変わることなく、商品コードと
して取り出す文字認識結果と商品名用単語辞書、および
書き込む照合結果候補Aの内容とが異なるのみである。
ここで、中間コードを取り出すステップでは、商品コー
ドの読み取りにおける照合結果Bの第1以降補の中間コ
ードを取り出す。以降の処理では、上述したように、照
合結果候補Aの第1以降補の中間コードとを比較する。
そして、図1において、商品名の読取結果の照合による
中間コードと、商品コードのそれが一致していれば、す
なわち一致フラッグがセットされていれば(ステップS
3)、両方の1位の結果を照合結果として出力して(ス
テップS6)、処理を終了する。
【0048】ここで、ステップS3において、それぞれ
の中間コードが不一致であれば、ステップS4,S5と
進む。商品名の読取結果の照合による中間コードと、商
品コードのそれが一致していない場合(ステップS
3)、記載されている商品コードから取得される中間コ
ードと、商品名の照合結果候補Aを比較する。また、商
品名から取得される中間コードと、商品コードの照合結
果候補Bとも比較する。そして、照合結果候補Aに格納
されていない中間コードを持つ商品名の商品名用単語辞
書内の照合を実行するとともに、商品名と商品コードを
あわせた総合的な類似度を求める(ステップS4)。ま
た、同様に、総合結果候補Bに格納されていない中間コ
ードを持つ商品コードの商品コード用単語辞書内の照合
も行う。
【0049】このステップS4の詳細な流れを図9のフ
ローチャートを用いて説明する。まず商品コードの文字
認識結果を1組取り出して中間コードを取得する(ステ
ップS41)。ここでは、商品コードが数字の場合を取
り扱っているので、各文字位置の文字認識結果の組み合
わせで単語候補を作成し、文字認識の確からしさからの
合計である単語候補の類似度を計算し、その高い順に使
用する。このとき作成する単語候補の数が多い場合は、
あらかじめ定められたしきい値と類似度により数を絞っ
て上位の単語候補だけを使用する。類似度は大きいほど
一致の度合いが高いというものである。
【0050】次いで、ステップS1における照合結果で
ある照合結果候補Aの中に、前述した取得した中間コー
ドをもつ候補単語があるかどうかを確認する(ステップ
S42)。照合結果候補Aに取得した中間コードを持つ
候補単語がある場合(ステップS42)、照合結果候補
Aの全ての候補単語に対してその中間コードを確認し、
一致するものがあれば、その候補単語の類似度に記載項
目Bである商品コードの候補単語の類似度を加算して新
たな類似度とする(ステップS47)。加えて、照合結
果候補A内の候補単語を類似度の高い順に並べ替える。
一方、渡された中間コードの単語が照合結果候補Aにな
い場合は(ステップS42)、ステップS43に進む。
【0051】ステップS43からの処理は、与えられた
辞書格納アドレスをもとに順次単語を取り出し、照合し
てその結果を格納する処理であり、基本的には図7のス
テップS13〜S17と同様である。ここで、まず最初
に、取得した中間コードに対応して、取り出すべき商品
名がその商品名用単語辞書にあるか無いかを確認する
(ステップS43)。取り出すべき商品名がその商品名
用単語辞書にある場合は(ステップS43)、商品名用
単語辞書内より中間コードが等しい最初の候補単語を取
り出す(ステップS44)。
【0052】そして、ステップS16(図3)と同様に
して類似度を計算し、加えて、同じ中間コードの文字認
識した商品コードの類似度を加算する(ステップS4
5)。そして、この候補単語を照合結果Aに格納する
(ステップS46)。同様に、取得した中間コードに対
応して取り出すべき商品名が無くなるまで行い(ステッ
プS43〜S46)、用いる中間コードがまだある場合
は(ステップS48)、ステップS41に戻る。そし
て、次の1組の商品コードの文字認識結果を取り出して
中間コードを取得し(ステップS41)、以下上述と同
様に、商品コードの文字認識結果の全ての組み合わせに
ついて第2の照合を行う。
【0053】このようにして、第2の照合(ステップS
4)が終了すると、照合結果候補Aには、商品名と商品
コードの総合類似度による結果候補が格納される。これ
ら、第2の照合では、すなわち中間コードを用いて商品
名単語辞書より辞書単語を取り出すものである。そし
て、この取り出した単語と、第1の照合,第1の判定に
おいて照合結果として得られた単語との一致状態を確認
することで、たとえば、商品名の読み取りでキー文字の
部分が正確に読み取れていなくても、この中間コードを
用いた単語取り出しによる照合により、キー文字以外の
読取文字の単語の部分との照合ができるので、より正確
な文字読取が可能となる。また、商品コードの読取エラ
ーの検出も可能となる。
【0054】次いで、第2の判定として、照合結果候補
Aを取り出し、最も類似度の高い単語の類似度をあらか
じめ与えられているしきい値と比較し、類似度がそのし
きい値より低い場合は照合不可能ということでリジェク
トとし、そうでない場合はその単語を照合結果とする
(ステップS5)。そして、商品名と商品コードの照合
結果を、その照合位置に基づいて2つ一緒にして照合結
果とする。(ステップS6)。
【0055】実施例2.次に、この発明の第2の実施例
について説明する(請求項2)。この実施例において
は、用いる単語辞書の辞書形式が若干異なり、図6に示
した単語レコード64の形式において、同一の中間コー
ドの他の単語のアドレスが格納されている項目の直後
に、単語種を示す情報をつけ加えるようにしたものであ
る。図10は、この単語データの形式を示す説明図であ
る。
【0056】たとえば、記載項目Aとして記入されてい
る「タクシー代 日電太郎」と、記載項目Bとして記入
されている交通費のコードとを認識する場合を考える。
この場合、記載項目Aとして記入される「タクシー代」
と「日電太郎」とを別の単語として同じ辞書内に用意し
ておくようにする。このとき、「タクシー代」の中間コ
ードと交通費のコードの中間コードとを同じものとし、
「日電太郎」は中間コード無しとする。そして、「日電
太郎」は単語種が社員名、「タクシー代」は単語種が一
般名として構成するようにすればよい。
【0057】以下、この実施例における文字認識後処理
について説明する。また、ここでは、上述したように、
記載項目Aとして「タクシー代 日電太郎」,記載項目
Bとして交通費のコードとを文字読取した後の照合につ
いて説明する。まず、文字認識結果の候補の中で、最初
の文字の最初の候補を取り出し、この文字が先頭となる
辞書単語を単語辞書内より取り出す。
【0058】そして、実施例1と同様にして、文字認識
結果の候補と照合を行い照合結果を照合結果候補A内の
照合候補A1と照合候補A2に格納するたとえば、上述
の場合、記載されている「タクシー代 日電太郎」より
「タ」ではじまる辞書単語を単語辞書より取り出して照
合する。最初の文字の全ての候補文字に対して同様の処
理を繰り返す。
【0059】次いで、文字認識した文字がまだあるかど
うか判断し、まだある場合は、文字認識した結果の2文
字目の候補文字を取り出し、この文字が先頭に来るもの
と2番目に来るものの辞書単語を単語辞書内より取り出
す。そして、これらと文字認識した結果の文字列との照
合を上述と同様に行う。そして、この実施例では、照合
結果は、照合結果候補A内で単語種毎に分けて格納す
る。たとえば、「タクシー代」の照合結果は照合結果候
補A内の照合候補A1に格納し、「日電太郎」の照合結
果は照合結果候補A内の照合候補A2に格納する。この
結果、第1の照合を完了した時点で、照合結果候補Aに
は、単語種毎に照合結果の良い順に単語候補が格納され
ている。
【0060】以上のことにより、たとえば、6文字目の
文字による単語照合では、「日」で始まる辞書単語と、
2文字目が「日」となる辞書単語が取り出されて照合が
行われ、その中には1文字目が「日」であり、単語種が
社員名で中間コードが付けられていない「日電太郎」も
取り出され、照合されることになる。そして、7文字目
の単語照合では、「電」で始まる辞書単語と、2文字目
が「電」となる辞書単語が取り出されて照合が行われ、
上記と同様に、今度は2文字目が「電」である「日電太
郎」がまた取り出される。
【0061】次いで、上記実施例1と同様に、第1の判
定を行う。この実施例2においては、第1の判定を図1
1に示すフローチャートのようにして行う。この第1の
判定においては、まず、記載項目Bとしての交通費の読
取結果より中間コードを計算により求め(ステップS1
11)、照合結果候補A内の照合候補A1と照合候補A
2にに別々に格納されている候補単語の組み合わせの中
で、類似度の合計が高い順に複合語を作成する(ステッ
プS112)。
【0062】次いで、この作成した複合語の中で照合位
置が重ならないことを確認する(ステップS113)。
次に、単語種の組み合わせが許容されるかどうかを確認
する(ステップS114)。たとえば、上述の例では、
交通費のコードと「タクシー代」の中間コードは一致
し、社員名である「日電太郎」は「タクシー代」との組
み合わせが許容されることになる。
【0063】このような組み合わせの条件は、あらかじ
め、辞書からの取り出しと同時に外部から与えられてい
る。そして、以上のことにより照合確認された「タクシ
ー代 日電太郎」の「タクシー代」についていた中間コ
ードと、交通費の照合により得られた中間コードとの照
合を行う(ステップS115)。
【0064】次いで、実施例1と同様にして、記載項目
Bである交通費の文字認識結果より得られる中間コード
を用いることによる第2の照合を行い、照合結果候補A
の追加や類似度の変更がなされる。この結果、照合結果
候補Aには、単語種別に「タクシー代 日電太郎」の単
語候補が格納される。次いで、実施例1と同様に、第2
の判定を行い、第1の判定による中間コード,照合位
置,単語種の組み合わせが矛盾しない最も良い複合語を
選択する。そして、この結果を、照合位置を基に最終的
な照合結果として得る。
【0065】実施例3.以下、この発明の第3の実施例
について説明する。(請求項3) この実施例では、単語辞書を木構造で構成するようにし
たものである。図12は、この発明の第3の実施例にお
ける、単語辞書の形式を示す説明図である。同図に示す
ように、この実施例においては、図6に示した単語デー
タ64に加えて、木構造で構成するために単語辞書を構
成する他の単語データとの親,子,兄弟の関係を示す情
報を加えたものである。
【0066】親,子,兄弟の情報については、辞書単語
間の関係を木構造で表すためのもので、それぞれ該当す
る辞書単語の格納アドレスが格納されている。そして、
この親,子,兄弟情報を示す格納アドレスにより、木構
造が示されることになる。なお、たとえば、子に当たる
辞書単語がないなど、該当する単語がない場合には、キ
ー文字検索の指定のときと同様に、親,子,兄弟の関係
を示す情報に対応するところに「FFFF」を格納す
る。
【0067】以下、その木構造について説明する。図1
3は、木構造を説明するための説明図であり、東京都の
地名を用いて説明する。ここで、「千代田区」を中心に
考えると、「東京都」は「千代田区」の親になり、「中
央区」が兄弟になり、「大手町」が子になる。すなわ
ち、親とは自分の接続する上位側の単語を表し、兄弟と
は同じ親の子に当たるものの内1つを指し示し、子とは
自分の下にぶら下がる単語群の1つを指し示す。兄弟の
指定においては最大1度だけ、他で兄弟として指定され
る。このようにして、木構造による単語間の接続関係を
表すことができる。
【0068】そして、この木構造の単語辞書に、キー文
字による検索のための同一キー文字の他の単語のアドレ
ス情報を付けるようにしているので、記載内容が木構造
の先頭から始まらない場合でも、単語照合が可能とな
る。なお、木構造の単語辞書の構成のなかで、ある階層
以下のレコードには、キー文字を用いた単語検索のため
の情報をつけないようにすれば、キー文字検索で検索す
る単語の数を減らすことができ、木構造の途中の単語か
らの単語取り出しを効率よく行うことができる。
【0069】たとえば、都道府県市区郡以上の階層の辞
書単語のみに、キー文字を用いた単語検索のための情報
をセットし、他の下の階層の辞書単語はこれらをセット
しない。このようにすれば、キー文字を用いた単語照合
の時に、単語辞書内より取り出すことのできる辞書単語
の範囲を都道府県市区郡に限定することも可能である。
そして、都道府県市区郡より下位の住所を示す辞書単語
は、キー文字による検索では取り出せなくなり、無駄な
候補対象の取り出しを減らすことができる。よって、都
道府県市区郡で始まる全ての住所のみの読み取りを効率
よく行うことができる。
【0070】また、木構造とすることで、中間コードも
全ての単語に付される必要はない。たとえば、東京都は
郵便番号が100〜2xxまである。したがって、辞書
単語「東京都」に対しては中間コードを1つに決められ
ず、すなわち、付けることができない。また、たとえ
ば、「東京都府中市日新町」は、「東京都」の子に「府
中市」、その子に「日新町」として単語辞書内に格納す
ることになるが、「府中市」が郵便番号183となるの
で、「日新町」に郵便番号183の中間コードが付けら
れ、他には中間コードがつかない。
【0071】さらに、単語データの構成の中で中間コー
ド検索用エリアは、その子以下の単語の中間コードが全
て同じとなる最も上位の単語のみに付することにより、
効率の良い検索が可能となる。そして、単語種の設定で
は、辞書の単語種は木構造の深さ(階層)を設定すれば
よい。たとえば、住所の単語辞書の場合、格納する辞書
単語の単語データに付ける単語種は「都道府県」や「市
区郡」などになる。
【0072】以上のように、単語辞書を木構造とするこ
とで、この実施例では、たとえば住所の読取結果が「東
京都府中市日新町」であっても「府中市日新町」であっ
ても同一の照合結果が得られる。
【0073】以下、この実施例における第1の照合につ
いて説明する。第1の照合は、木構造の単語辞書からの
単語取り出しに対応するため、先頭単語照合と、子単語
照合とが行われる。先頭単語の照合は、図7に示した実
施例1の場合と同様であるが、この照合が終わると、こ
の実施例では、先頭単語に続く単語(子単語)と、既に
照合した先頭単語を親とするこの辞書単語とで照合を行
うようにする。
【0074】先頭単語に続く子単語の照合は、途中結果
である候補単語に対してその木構造上の子の単語の照合
を行うものである。そして、その照合した結果が、同じ
照合候補Aを更新していく。したがって、単語辞書の木
構造の浅いアドレスの単語から、深いアドレスの単語へ
と順次照合を進める必要がある。
【0075】子単語の照合は、図14のフローチャート
に示したように行う。これは、図7に示したフローチャ
ートの後に続いて行う。ここで、子照合における子単語
の取り出しを行うためには、親となる候補単語を設定し
なくてはならないが、この候補単語は照合結果候補Aに
単語種別に格納されている。そのため、親となる候補単
語を設定して子照合を行うとき、単語種別に木構造の上
位の単語種から深い方に順に照合を行うように、単語取
り出し行う候補エリアをセットする(ステップS14
1)。そして、子照合を行い(ステップ142)、これ
を全ての候補エリアの全ての候補単語に対して行う(ス
テップS143)。
【0076】なお、この実施例において、候補エリアに
格納されている候補単語(1レコード分)の格納形式を
図15に示す。同図において、151はこの単語の単語
辞書内における格納アドレス、152は中間コード、1
53は先頭単語から本単語までの類似度、154は本単
語の先頭の文字を記入文字の何文字目と照合を行ったか
を示す先頭照合位置、155は同様に最後の文字である
終端照合位置、156はこの単語の親のアドレス、15
7はこの単語の子のアドレスである。
【0077】以下、図14のフローチャートのステップ
S142の子照合の詳細を、図16のフローチャートを
用いて説明する。まず、照合結果候補Aの指定された候
補エリア内の候補単語を1つずつ取り出す(ステップS
161)。
【0078】この取り出した候補単語に対して、記載項
目Aの文字認識結果に対する候補単語の照合位置から、
子の単語の照合を開始する単語位置をセットし(ステッ
プS162)、さらに最初に取り出すべき子の辞書単語
における格納アドレスをセットする(ステップS16
3)。次いで、次に取り出す単語があるかないかを判断
し(ステップS164)、ある場合は、上記のアドレス
に従って単語辞書より照合単語を取り出し(ステップS
165)、記載項目Aの読取結果と、その単語辞書より
取り出した単語との照合を行う(ステップS166)。
【0079】そして、前述した実施例と同様に、その結
果と既に格納済みの候補単語を比較して単語種別に単語
候補を格納し(ステップS167)、この取り出した単
語のレコードに同様に格納されている次の単語の単語辞
書内の格納アドレスをセットする(ステップS16
8)。このセットしたアドレスがたとえば「FFFF」
であった場合、単語辞書より次に取り出す照合のための
単語は無いので(ステップS164)、次いで、指定さ
れた単語種の全ての候補単語に対して処理を行ったかど
うかを判定する(ステップS169)。以上のことで、
この実施例における第1の照合が終了したことになる。
【0080】次いで、第1の判定として、照合結果候補
Aに格納されている全ての候補単語の内、最も類似度の
高い候補単語の中間コードと、記載項目Bから導かれた
中間コードとを照合する。そして、そのそれぞれの両者
の中間コードが一致している場合、上記実施例と同様
に、それらを組み合わせるなどして、記載項目Aの読取
結果として出力し、処理を終了する。
【0081】ここで、中間コードが一致していない場
合、上記実施例と同様に第2の照合と第2の判定とを行
う。すなわち、中間コードを用いた単語検索を行う。こ
の実施例の第2の照合では、この実施例の第1の照合と
同様に、木構造の単語辞書からの単語の取り出しに対応
するため、先頭単語照合と、子単語照合とを行う。ただ
し、中間コードで検索した単語が木構造上最も上位に位
置する単語でない場合には、候補単語内の単語種と親の
情報にしたがい、その親を順次取り出し、木構造の先頭
からその単語までで構成される単語を仮のものとして作
成する。
【0082】また、辞書の先頭単語が木構造の途中から
始まっても良い場合は、その仮の単語を先頭単語別に複
数種作成しても良い。この結果、照合結果候補Aには、
記載項目Aと記載項目Bをあわせた類似度の高い順に記
載項目Aの照合結果が格納されていく。
【0083】なお、上記実施例では、読み取るものが文
字や数字であったが、これに限るものではなく、バーコ
ードであっても良い。ここで、バーコードの読み取り
は、パリティを使用する場合も含めて、読取性能が高
い。このため、その照合において求める類似度は、バー
コードが全部読めた場合は文字認識に比べて高い類似度
を与え、そうでない場合は文字認識程度の類似度を与え
るようにすればよい。
【0084】
【発明の効果】以上説明したように、この発明によれ
ば、2つ以上の記載から読み取ったそれぞれの文字の照
合を行うためのそれぞれの単語辞書に格納される辞書単
語に、関連するものどうしに同一の中間コードを付ける
ようにした。このため、たとえば、2つの冗長されてい
る記載項目の読取結果に対して、互いに補うように単語
照合を行うことが、2つの記載項目の照合のためのそれ
ぞれの単語辞書だけあれば可能であるという効果があ
る。このため、単語照合のために必要な辞書のサイズを
大きくすることがない。しかも、どちらかの項目の読取
結果に依存することなく、2つの項目の文字認識結果を
総合的に利用して読取文字の照合判定ができるという効
果がある。
【0085】たとえば、商品コードと商品名の場合、商
品コードが未記入であったり誤記入であっても、商品名
が正しく記入されていて正しく読み取ることができれ
ば、商品コードを正しく導き出すことができる。そして
また、商品名が未記入であったり誤記入であっても、商
品コードが正しく読めれば、正しい商品名を導き出すこ
とができる。また、この発明では、2項目の関連づけに
中間コードを使用しているので、記入内容に依存するこ
となく1つのアルゴリズムで多種の内容の読取対象の取
り扱いが可能となる効果が得られる。
【0086】さらに、1つの記載項目ともう1つの記載
項目が部分的に関連する複合語で構成されている場合で
も、効率よい辞書サイズと照合時間で、それぞれの読取
結果の照合を行うことができるという効果がある。そし
て、単語辞書が木構造で構成されていても、高速に単語
取り出しができる効果が得られるとともに、郵便番号と
住所の関係のように木構造と中間コードによる構造が完
全に一致しなくても、辞書の数を増やしたりむやみに辞
書サイズを大きくすることが無く対応できる。そして、
さらに、記入が木構造の先頭から始まらなくても対応が
可能であり、読み取った文字が全て記入されていない場
合でも、照合が可能である。
【図面の簡単な説明】
【図1】 読み取った文字列の2箇所以上の位置の文字
をキー文字とする正解単語の検索方法の1例を説明する
ための説明図である。
【図2】 読み取った文字列の2箇所以上の位置の文字
をキー文字とする正解単語の検索方法の他の1例を説明
するための説明図である。
【図3】 この発明の1実施例の動作を説明するための
フローチャートである。
【図4】 ある帳票に記載され文字認識された記載項目
Aである商品名を示す説明図である。
【図5】 ある帳票に記載され文字認識された記載項目
Bである商品コードを示す説明図である。
【図6】 図1に示した単語辞書形式による単語辞書の
詳細構成を示す説明図である。
【図7】 第1の照合を詳細に説明するためのフローチ
ャートであり、図3のステップS1の内容である。
【図8】 照合結果として照合結果候補Aに格納される
1単語分の格納形式を示す説明図である。
【図9】 第2の照合を詳細に説明するためのフローチ
ャートであり、図3のステップS4の内容である。
【図10】 単語種を示す情報をつけ加えるようにした
単語データの形式を示す説明図である。
【図11】 実施例2における、第1の判定を示すフロ
ーチャートである。
【図12】 この発明の第3の実施例における、単語辞
書の形式を示す説明図である。
【図13】 木構造を説明するための説明図である。
【図14】 木構造における子単語の照合を説明するた
めのフローチャートである。
【図15】 候補エリアに格納されている候補単語の格
納形式を示す説明図である。
【図16】 実施例3における子照合の詳細を示すフロ
ーチャートである。

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 紙面などに記載された文字列の文字認識
    結果を文字コードとして得た文字列データに対して、予
    め用意されている単語辞書内より一致する単語を取り出
    して照合することで、前記文字列データを単語として認
    識する文字認識後処理方式において、 構成する辞書単語に対応する中間コードが付けられた、
    第1の記載より得られる第1の文字列データの照合のた
    めの第1の単語辞書と、 前記第1の記載と互いに冗長している第2の記載より得
    られる第2の文字列データの照合のための、前記第1の
    単語辞書を構成する辞書単語に関連する辞書単語には同
    一の中間コードが付けられた第2の単語辞書とを有し、 前記第1および第2の文字列データの2箇所以上の文字
    をキー文字として前記第1および第2の単語辞書それぞ
    れを検索し、それぞれに対応する照合するための辞書単
    語を取り出し、この取り出したそれぞれの辞書単語と前
    記第1および第2の文字列データとを比較する第1の照
    合と、 この第1の照合により決定した、それぞれ前記第1およ
    び第2の文字列データに最も類似している第1の候補結
    果の中間コードと第2の候補結果の中間コードとを比較
    する第1の判定と、 この第1の判定で中間コードが一致しなかった場合、前
    記第1もしくは第2の候補結果の中間コードをキーとし
    て前記第2もしくは第1の単語辞書を検索して第3の辞
    書単語を取り出し、この第3の辞書単語と前記第1もし
    くは第2の文字列データとを比較する第2の照合と、 前記第2の照合での比較の結果を良否判定し、良いと判
    定した辞書単語を組み合わせることで、前記第1と第2
    の記載の読取結果を得る第2の判定とを行い、 前記第1の文字列データと第2の文字列データとの照合
    結果を互いに補うことを特徴とする文字認識後処理方
    式。
  2. 【請求項2】 請求項1記載の文字認識後処理方式にお
    いて、 前記第1および第2の単語辞書に格納されている辞書単
    語に自身の単語分類情報を付加し、 前記第2の判定でこの単語分類情報を用いて、良いと判
    定した辞書単語を組み合わせることを特徴とする文字認
    識後処理方式。
  3. 【請求項3】 請求項1または2記載の文字認識後処理
    方式において、 前記第1と第2の単語辞書を構成する辞書単語が木構造
    を有し、 前記第1および第2の照合では、前記木構造を用いて照
    合のための辞書単語を取り出し、 前記第2の判定では、前記木構造を用いて良いと判定し
    た辞書単語を組み合わせることを特徴とする文字認識後
    処理方式。
  4. 【請求項4】 請求項1から3いずれか1項記載の文字
    認識後処理方式において、 前記第2の記載がバーコードであり、第2の文字列デー
    タが前記バーコードを読みとった結果であることを特徴
    とする文字認識後処理方式。
JP6143215A 1994-06-24 1994-06-24 文字認識後処理方式 Expired - Fee Related JP2655087B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6143215A JP2655087B2 (ja) 1994-06-24 1994-06-24 文字認識後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6143215A JP2655087B2 (ja) 1994-06-24 1994-06-24 文字認識後処理方式

Publications (2)

Publication Number Publication Date
JPH0816729A JPH0816729A (ja) 1996-01-19
JP2655087B2 true JP2655087B2 (ja) 1997-09-17

Family

ID=15333572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6143215A Expired - Fee Related JP2655087B2 (ja) 1994-06-24 1994-06-24 文字認識後処理方式

Country Status (1)

Country Link
JP (1) JP2655087B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134828A (ja) * 2008-12-08 2010-06-17 Toshiba Corp データベース合成装置、文字認識支援システム、及びデータベースの合成方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3419425B2 (ja) * 1995-09-29 2003-06-23 富士通株式会社 認識文字補正装置
CN111967246A (zh) * 2020-07-30 2020-11-20 湖南大学 一种购物票据识别结果纠错方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134828A (ja) * 2008-12-08 2010-06-17 Toshiba Corp データベース合成装置、文字認識支援システム、及びデータベースの合成方法

Also Published As

Publication number Publication date
JPH0816729A (ja) 1996-01-19

Similar Documents

Publication Publication Date Title
US7769778B2 (en) Systems and methods for validating an address
US8468167B2 (en) Automatic data validation and correction
US8391614B2 (en) Determining near duplicate “noisy” data objects
US7693853B2 (en) Method and apparatus for retrieving data representing a postal address from a plurality of postal addresses
US20090144277A1 (en) Electronic table of contents entry classification and labeling scheme
JPS6262387B2 (ja)
US20220335073A1 (en) Fuzzy searching using word shapes for big data applications
WO2009005492A1 (en) Systems and methods for validating an address
Tarride et al. Large-scale genealogical information extraction from handwritten Quebec parish records
JP3812818B2 (ja) データベース生成装置、データベース生成方法及びデータベース生成処理プログラム
JP2655087B2 (ja) 文字認識後処理方式
Karpinski et al. Combination of structural and factual descriptors for document stream segmentation
JP2000231559A (ja) 情報処理装置
JPH1011434A (ja) 情報認識装置
Kooli et al. Semantic label and structure model based approach for entity recognition in database context
JP2000090192A (ja) 住所および郵便番号の文字列修正方法
Kruzslicz et al. Data Linking with String Matching
JP2000090193A (ja) 文字認識装置および項目分類方法
Wolf et al. New York City Directories Extracted Persons Entries, 1850-1890
JP2560959B2 (ja) 文字認識後処理方式
JP2795003B2 (ja) 文字認識処理装置
JP2000251017A (ja) 単語辞書作成装置および単語認識装置
JPH11120294A (ja) 文字認識装置および媒体
Andersson Post-processing of optical character recognition for Swedish addresses
JP2790064B2 (ja) 記号列読み取り装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090530

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100530

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110530

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees