JP2655087B2

JP2655087B2 - 文字認識後処理方式

Info

Publication number: JP2655087B2
Application number: JP6143215A
Authority: JP
Inventors: 慎治佐瀬
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1994-06-24
Filing date: 1994-06-24
Publication date: 1997-09-17
Anticipated expiration: 2012-09-17
Also published as: JPH0816729A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、光学的に文字を読み
取る文字認識装置において、文字並びの情報を利用して
手書きあるいは印刷文字の文字読取結果の確認と補正を
行う文字認識後処理方式に関する。特に、互いに関連し
合う内容を持つ２つの記載項目の読取結果に対する文字
認識後処理方式に関する。

【０００２】

【従来の技術】帳票などの紙面上に書かれている内容
は、全ての記入内容の持つ情報に無駄がないのではな
く、実際には複数の記載内容間で冗長度のある内容が記
載されていることが多い。通常普及している帳票におい
ても、商品面と商品コード、適用欄と費目コード、金融
機関名と金融機関コード、学校名と学校コード、住所と
郵便番号、姓名とその振り仮名などこのような例は多々
ある。

【０００３】このような項目の記載を文字認識装置で読
み取る場合、それぞれを単独で読み取るのではなく、互
いの読取結果に基づく情報の冗長度を利用することによ
り、より優れた読取認識性能を実現することが可能であ
る。このように、関連し冗長している記載項目間の情報
を利用することにより、文字認識の読取性能向上を図る
代表的な試みが、郵便番号と住所の読み取りにおいてい
くつかなされてきた。

【０００４】従来の郵便番号と住所の読取方法は、その
処理の流れから、基本的に２種類に分類できる。１つ
は、漢字読取と比較して文字認識性能の高い郵便番号の
読取結果を用いて住所辞書を検索し、これにより住所の
認識性能の向上および辞書検索の高速化を図る方法であ
る（特開昭６３−２９８４９２号公報）。もう１つの方
法は、住所の読取結果をもとにそれに対応する郵便番号
を導き出し、郵便番号の読取結果を補正する方法である
（特開平３−３８７８８号公報）。

【０００５】

【発明が解決しようとする課題】従来は以上のように構
成されていて、２つの記載項目の読取結果に対して、ど
ちらかの読取結果を利用してもう一方の読取結果を補正
する方式がとられていたこのため、前述した両方の効
果、すなわち２つの記載項目が相補的に作用しあうよう
なものではなかった。

【０００６】そして、２つの記載項目を用いて、相補的
に作用しあうようにするには、単語辞書を２重化しなけ
ればならず、用意しておくデータベース（単語辞書）が
大きいものになってしまうという問題があった。また、
郵便番号と住所の組み合わせを念頭に置いて設計されて
いるため、その専用処理に近く、読み取る対象の項目内
容の変化に柔軟に対応しにくい面が見られた。

【０００７】この発明は、以上のような問題点を解消す
るためになされたものであり、単語辞書を２重化するこ
となく、２つの記載項目を読み取る時にそれらが相補的
に作用し合うようにして、文字認識の結果を確認・補正
・修正できるようにすることを目的とする。

【０００８】

【課題を解決するための手段】この発明の文字認識後処
理方式は、構成する辞書単語に対応する中間コードが付
けられた、第１の記載より得られる第１の文字列データ
の照合のための第１の単語辞書と、第１の記載と互いに
冗長している第２の記載より得られる第２の文字列デー
タの照合のための、第１の単語辞書を構成する辞書単語
に関連する辞書単語には同一の中間コードが付けられた
第２の単語辞書とを有する。

【０００９】そして、第１および第２の文字列データの
２箇所以上の文字をキー文字として第１および第２の単
語辞書それぞれを検索し、それぞれに対応する照合する
ための辞書単語を取り出し、この取り出したそれぞれの
辞書単語と第１および第２の文字列データとを比較をす
る第１の照合と、この第１の照合により決定した、それ
ぞれ第１および第２の文字列データに最も類似している
第１の候補結果の中間コードと第２の候補結果の中間コ
ードとを比較する第１の判定とを行う。

【００１０】また、この第１の判定で中間コードが一致
しなかった場合、第１もしくは第２の候補結果の中間コ
ードをキーとして第２もしくは第１の単語辞書を検索し
て第３の辞書単語を取り出し、この第３の辞書単語と第
１もしくは第２の文字列データとを比較する第２の照合
と、第２の照合での比較の結果を良否判定し、良いと判
定した辞書単語を組み合わせることで、第１と第２の記
載の読取結果を得る第２の判定とを行い、第１の文字列
データと第２の文字列データとの照合結果を互いに補う
ことを特徴とする。

【００１１】また、この発明の文字認識後処理方式は、
第１および第２の単語辞書の格納されている辞書単語に
自身の単語分類情報を付加し、第２の判定でこの単語分
類情報を用いて、良いと判定した辞書単語を組み合わせ
ることを特徴とする。そして、この発明の文字認識後処
理方式は、第１と第２の単語辞書を構成する辞書単語が
木構造を有し、第１および第２の照合では、木構造を用
いて照合のための辞書単語を取り出し、第２の判定で
は、木構造を用いて良いと判定した辞書単語を組み合わ
せることを特徴とする。

【００１２】

【作用】読み取った文字列データの照合のための単語辞
書を構成する中間コードで、他の単語辞書との関連づけ
がなされる。

【００１３】

【実施例】以下、この発明の概要について実施例に先立
って説明する。単語辞書を利用した文字認識後処理にお
いては、その照合精度を決める最低限の目安は、認識対
象の文字に対応する正しい単語である正解単語をその単
語辞書から取り出すことである。通常、文字認識におい
ては、まず対象とする記載文字を読み取る文字認識を行
う。この文字認識では、画像データとして読み取った記
載文字より、その１文字毎に対応すると思われる文字認
識候補をたてる。

【００１４】そして、この文字認識をした後に行う文字
認識後処理として、読取文字より得られる単語の認識
（単語の照合確認補正）を行う。この単語の認識は、文
字認識候補を組み合わせることで認識単語を生成し、あ
らかじめ用意されている単語辞書内を検索して、その認
識単語に対応する単語の有無を確認することで行なわれ
る。また、文字認識結果のある文字をキーにして、やは
りあらかじめ用意されている単語辞書から対応する単語
を取り出す方法もある。

【００１５】前者は、認識した読取文字全てが認識対象
の記載文字に一致している必要がある。すなわち、前者
では、文字認識候補を組み合わせることで、記載文字と
同一の単語が得られなくてはならない。しかし、後者
は、認識した読取文字の中に正解文字すべてを含んでい
なくても、単語辞書より記載単語に一致する正解単語を
取り出すことができる。したがって、読み取った読取文
字より認識したい単語に対応する正解単語を、単語辞書
より取り出すことのできる能力は後者の方が高く、後者
を用いた方が照合精度が高くなるといえる。

【００１６】しかし、後者でも単語照合のキー文字を１
箇所（たとえば単語の１文字目）に固定すると、その文
字位置の文字が認識対象文字を正しく認識していなかっ
た場合、単語辞書より正しい単語を取り出すことができ
なくなる。ここで、認識した文字列の２箇所以上の位置
の文字を用いて、キー文字検索が可能であれば、正解単
語を取り出す確率ははるかに高くなる。たとえば、各文
字位置において、文字認識結果が正解を含む割合が９９
％である場合、２箇所の文字位置でキー検索が可能であ
れば、９９．９９％正しい単語を取り出すことが可能と
なる。

【００１７】ところで、前述した郵便番号と住所などの
ように、冗長されている２つの記載より、相補的に２つ
の認識結果を補うためには、２つの認識の程度が同レベ
ルの必要がある。一方の読取対象である記載項目が数字
であり、他方のそれが漢字である場合、漢字の方の読取
正解率がどうしても低くなる。このため漢字を読み取っ
て認識する方は、精度の高い単語照合を採用する必要が
生じる。このようなことからも、読み取ることが難し
く、読み取った文字列全てが正確でない場合でも、２箇
所以上のキー文字による正解単語の検索は有効である。

【００１８】読み取った文字列の２箇所以上の位置の文
字をキー文字とする正解単語の検索（取り出し）方法に
は、大きく２つの方法がある。１つには以下に示すよう
な方法がある。まず、図１に示すように、単語がレコー
ドの１項目として格納された単語辞書の他に、単語中の
文字位置とキー文字の組毎に、該当する単語の単語辞書
内における格納アドレスを一つだけ記述した辞書格納ア
ドレステーブルを作成しておく。

【００１９】このように構成した状態で、単語の検索を
行うときは、読み取った文字列（単語）内の取り出した
キー文字とその文字の単語内の位置の組より、辞書格納
アドレステーブル内における該当するテーブルアドレス
を計算する。そして、１つだけ記述されたその組に対応
する単語の単語辞書内における格納アドレス「ＡＤ１
０」を取り出す。これは、単語辞書内で対応する最初に
取り出す単語の格納アドレスとなる。

【００２０】次に、辞書格納アドレステーブルより得ら
れた格納アドレス「ＡＤ１０」を用いて、単語辞書内の
アドレス「ＡＤ１０」に格納されている単語を取り出
す。ここで、単語辞書では、この単語に関連する次に取
り出す単語のレコードの格納アドレスも、１つの項目と
してレコードを構成している。たとえば、単語辞書のア
ドレス「ＡＤ１０」のレコードには、取り出す単語とと
もに、この単語に関連する次に取り出す単語の格納アド
レス「ＡＤ１１」も１つの項目として有している。

【００２１】このことにより、単語辞書のアドレス「Ａ
Ｄ１０」のレコードより取り出した単語で照合を行い、
次に、アドレス「ＡＤ１１」のレコードより単語を取り
出して照合を行い、この次は、アドレス「ＡＤ１２」の
レコードから単語を取り出すようにする。そして、たと
えば、この次に取り出す単語のアドレスを示す項目にア
ドレス「ＦＦＦＦ」が格納されていれば、これ以上関連
する単語が無く、単語辞書からの単語取り出し終了を示
すものとする。

【００２２】キー文字を用いた正解単語の検索方法のも
う１つの方法は、図２に示すように、キー文字とその文
字位置毎との組に対応する辞書単語（レコード）の格納
位置を全て記述した辞書格納アドレステーブルを用いる
方法である。この辞書格納アドレステーブルは、キー文
字とその文字位置毎との組み合わせに対応する辞書単語
の単語辞書内における格納位置を、一固まりに訂正した
アドレス指示テーブルを用意しておくものである。そし
て、この辞書格納アドレステーブルの他に、アドレステ
ーブル用ポインタも用意しておく。

【００２３】この場合、まず、キー文字とその文字位置
の組より、辞書格納アドレステーブル内のどのアドレス
指示テーブルを参照すればよいかを計算する。次いで、
この計算結果より、アドレステーブル用ポインタを用い
て、対応するアドレス指示テーブルの辞書格納アドレス
テーブル内のアドレスを求める。このことにより、注目
しているキー文字とその文字位置の組より、単語辞書内
の対応する辞書単語のアドレスが全て分かり、その対応
している辞書単語を取り出すことができる。

【００２４】そして、取り出した単語について、読み取
った文字列と比較することなどにより、正解単語である
かどうかを判定していく。なお、図２に示した例では、
辞書格納アドレステーブルにおいて、アドレス指示テー
ブルに、単語辞書に格納されている関連単語の数を示す
項目を用意しているが、これが無くてもかまわない。

【００２５】以上示した２つの方法による単語の取り出
し結果は同じになるが、これらの方法に限るものではな
く、単語の複数位置でのキー文字を用いた検索が可能で
あればどのような方法でもかまわない。また、上述した
方法では、検索対象とするキー文字の位置を、２箇所と
したがこれに限るものではなく、３箇所以上としても良
い。また、キー文字として採用する位置も、文字列の最
初と２番目に限るものではなく、どの位置から選んでも
良い。後述する実施例の説明においては、キー文字によ
る単語辞書内の単語の検索は、図１に示した例を用い
る。

【００２６】ところで、冗長されている２つの記載よ
り、相補的に２つの認識結果を補うことを、用意する辞
書を大きなものとしてしまう単語辞書を２重化するので
はなく、簡略なシステムで可能とするためには、以下の
ようにすればよい。まず、２つの記載それぞれの認識を
行うために、それぞれに単語所書が必要となるが、２つ
の辞書間で冗長されている２つの辞書単語の関係を示す
中間コードを用いるようにすればよい。このようにすれ
ば、単語辞書を２重化することなく相補的に２つの照合
結果を補うことができる。

【００２７】以下、その中間コードについて説明する。
中間コードとは、記載項目を読み取る帳票の中で前述し
たような関連する辞書単語間を対応づけるための数字列
のコードであり、通常では、中間コードと辞書単語とは
１対多の対応となる。したがって、中間コードは、読み
取る複数の記載項目にまたがって冗長している情報を利
用して、これらの冗長部分をコード化したものと定義で
きる。

【００２８】上述のことを郵便番号と住所を例にとれ
ば、郵便番号の上３桁を数値化したものを中間コードと
することができる。なお、この郵便番号と住所の関係の
場合、郵便番号の照合のための単語辞書は必要となら
ず、実際には記載項目の住所の照合のための単語辞書を
構成する辞書単語（項目）に、中間コードとしての郵便
番号の上３桁を付ければよい。この場合、住所に対して
郵便番号は１つ決まるが、同じ郵便番号に対して複数の
住所が存在するので、中間コードと辞書単語（住所）は
１対多の対応となっている。

【００２９】一方、商品コードと商品名のように、中間
コードと商品コードそして商品名は全て１対１で対応す
るような場合もある。この場合、商品コードには、アル
ファベットなど数字でないものもあるので、これをその
まま中間コードとしては用いることができない。このた
め、商品コードを照合するための単語辞書が必要とな
り、その単語辞書を構成する辞書単語（商品コード）
に、対応する中間コードを付けるようにする。なお、商
品名の照合のためには、当然ながら商品名用の単語辞書
があり、これを構成する辞書単語（商品名）には対応す
る中間コードが付けられる。

【００３０】ここで、読み取った記載項目の照合におけ
る、中間コードの具体的な取得方法について述べる。中
間コードの取得方法には、計算による方法と上述したよ
うな辞書検索による方法とがある。計算による方法は、
上述の郵便番号の例のように、元々が数値コードで表さ
れている場合に用いるもので、あらかじめ用意されてい
る計算式に則った計算により数値文字列を数値に変換す
る。これが適応できる例として、商品コードの一部，費
目コード，金融機関コード，および学校コードなどが上
げられる。

【００３１】一方、辞書検索による方法は、単語辞書を
構成する辞書単語が格納されているレコードに、中間コ
ードを付帯させておくものである。そして、一度、単語
辞書より単語を取り出すことにより、取り出した単語を
参照して中間コードを取り出すようにする。辞書検索に
よる方法を適用する例は、アルファベットなどを含む商
品コードの一部，住所，姓名およびその振り仮名，金融
機関名，学校名などがある。

【００３２】以下この発明の１実施例を図を参照して具
体的に説明する。実施例１．図３は、この発明の１実施例の動作を説明す
るためのフローチャートである。また、図４はある帳票
に記載された記載項目Ａである商品名の文字認識結果を
示す説明図、図５は同様に記載項目Ｂである商品コード
の文字認識結果を示す説明図である。以下、この文字認
識された商品名（記載項目Ａ）と商品コード（記載項目
Ｂ）についてこの実施例１の文字認識後処理方法を図３
のフローチャートを用いて説明する。なお、この商品名
と商品コードの文字認識結果の形式は同様のものであ
り、異なる点は読取対象の字種だけであるとする。

【００３３】まず、商品名の文字読取結果および商品コ
ードの文字読取結果が得られると文字認識後処理が開始
される（スタート）。文字読取結果は、図４に示すよう
に、各記入文字に対して複数個の候補が与えられる。各
記入文字に対する読取文字候補の個数は、文字読取の手
法に応じて固定としても可変としてもかまわない。図４
には、最大９個の候補をたてるようにした可変の場合を
示しており、読取文字によって候補の数が最大候補数に
満たない場合は、空白で残りの部分を埋めてある。

【００３４】たとえば、商品名の記入文字「冷蔵庫Ｎ３
３」の「冷」の文字読取の結果、読取候補として
「冷」，「玲」，「令」，「伶」，「洽」，「埓」，
「沿」，「澄」，「谷」の９個がたてられる。一方、
「３」の文字読取の結果、候補として「３」，「８」，
「０」，「ヨ」，「Ｓ」，「Ｂ」，「５」，「６」の８
個がたてられ、９個になっていないので、空白で残りの
部分が埋められている。

【００３５】また、文字読取の結果には、その文字読取
手法に応じて、候補の確からしさがあわせて得られるも
のと、得られていないものとがある。確からしさが得ら
れるものは、その確からしさを示す値も同時に受け取る
ようにする。得られない場合は、候補順位をもとに確か
らしさを定義する。たとえば、１位候補が１０、２位候
補が９などの値を与える。以下の説明では、記入文字の
ｉ文字目の文字認識結果のｊ番目の候補に対する確から
しさをｄijとし、各読取文字の文字読取結果候補数の最
大は９個までとする。

【００３６】そしてまた、商品名用の単語辞書は予め与
えられているものとし、単語辞書の基本となる格納の形
式は、図１に示した単語辞書形式とする。図６は、図１
に示した単語辞書形式による単語辞書の詳細構成を示す
説明図である。同図において、６１は辞書格納アドレス
テーブル、６２は中間コード検索用アドレステーブル、
６３は単語辞書、６４は単語辞書６３に格納されている
１単語分の格納形式を示す単語レコードである。

【００３７】単語レコード６４は、この単語レコードの
データ格納形式などを示す識別子である辞書タイプと、
格納している単語の文字数と、この単語と１つ目のキー
文字が同一の他の単語の辞書格納アドレスと、この単語
と２つ目のキー文字が同一の他の単語の辞書格納アドレ
スと、中間コードと、これと同一の中間コードの他の単
語の辞書格納アドレスと、格納している単語の文字コー
ドとで構成されている。ここで、同一の中間コードの他
の単語の辞書格納アドレスは、中間コード検索用アドレ
ステーブル６２により用いられる。

【００３８】以上のことにより、まず、第１の照合とし
て文字認識した商品名の照合を商品名用単語辞書を用い
て行う（ステップＳ１）。図７は、この第１の照合を詳
細に説明するためのフローチャートであり、図３のステ
ップＳ１の内容である。初めに、文字認識した商品名の
文字認識結果に対してあらかじめ設定してあるキー文字
位置の中より最初のキー文字位置を用い（ステップＳ１
１）、そのキー文字の位置における、最初の文字認識候
補を検索用キー文字として取り出す（ステップＳ１
２）。次いで、このキー文字に対応する最初に取り出す
べき商品名の商品名用単語辞書における格納アドレス
を、辞書格納アドレステーブルより取り出す（ステップ
Ｓ１３）。

【００３９】ここで、最初にこの検索用のキー文字に対
して、取り出すべき商品名がその商品名用単語辞書にあ
るか無いかを確認する（ステップＳ１４）。取り出すべ
き商品名がその商品名用単語辞書にある場合は（ステッ
プＳ１４）、商品名用単語辞書内よりまず最初の候補単
語を取り出し（ステップＳ１５）、文字認識した商品名
とこの単語との類似度を算出する（ステップＳ１６）。
そして、この単語を照合結果候補Ａに格納し（ステップ
Ｓ１７）、次の候補単語があるかどうかを確認し（ステ
ップＳ１４）、ある場合はその候補単語を取り出し（ス
テップＳ１５）、同様に類似度を計算する（ステップＳ
１６）。

【００４０】以上のようにして、類似度を計算した候補
単語を照合結果候補Ａに逐次格納していくが（ステップ
Ｓ１７）、ここでは、類似度の高い順に予め定められた
１０候補だけ最終的に残すようにする。以上のステップ
Ｓ１１〜Ｓ１７により、文字認識した商品名において、
設定したキー文字の位置における最初の候補を検索用キ
ー文字とした、候補単語の取り出しが行われたことにな
る。

【００４１】取り出すべき候補単語が無くなれば（ステ
ップＳ１４）、これらのことが、キー文字の位置におけ
る候補全てにおいて行われたかどうかを判断する（ステ
ップＳ１８）。そして、キー文字の位置における候補全
てについてステップＳ１２〜Ｓ１７を行った後（ステッ
プＳ１８）、キー文字がまだあるか無いかを判断し（ス
テップＳ１９）、ここでは、キー文字を２つ設定してい
るので、次のキー文字の位置における候補についても上
述と同様にし、商品名用単語辞書より候補単語を取り出
す。なお、記載項目Ｂについても同様であり、類似度が
計算された候補単語は照合結果候補Ｂに格納されるが、
この商品コードの場合は、読取結果がすなわち中間コー
ドである。

【００４２】なお、ステップＳ１６における類似度は、
文字認識結果と同時に得られる文字の確からしさからの
加算で求める。たとえば、図４の文字認識結果と単語
「冷蔵庫Ｎ３３」の類似度は、ｄ₁₁＋ｄ₂₂＋ｄ₃₁＋ｄ₄₁
＋ｄ₅₁＋ｄ₆₁となる。また、ステップＳ１６において
は、重複取り出しチェックも行われる。この、重複取り
出しチェックは同じ単語が読み出された場合、強制的に
全く照合ができなかったという結果を返すものである。
取り出した単語の以前のキー文字検索位置と対応する文
字認識結果候補に同じ文字があるか否かで判断する。

【００４３】ステップＳ１の処理が終了した時点で、照
合結果候補Ａの内容が、第１の照合の照合結果となる。
なお、照合結果として照合結果候補Ａに格納される１単
語分の格納形式を図８に示す。同図において、８１は対
応する単語辞書内の該当する単語が格納されているアド
レスを示す辞書格納アドレス、８２はその単語の中間コ
ード、８３は上述のことによりえられた類似度、８４は
文字読取結果の中で照合を行った単語部分の最初の文字
である先頭照合位置、８５は文字読取結果の中で照合を
行った単語部分の最後の文字である終端照合位置であ
る。

【００４４】次いで、図３に示すように、第１の判定と
して、ステップＳ１における商品名の読取結果に対する
単語照合の結果による第１位の中間コードと、商品コー
ドの読取結果の照合結果による第１位の中間コードとを
比較する（ステップＳ２）。それぞれの中間コードが一
致した場合は、正しい結果が照合できたとして一致フラ
ッグをセットする。前述したように、商品コード読取結
果から中間コードを求める方法は２通りである。

【００４５】図３では計算で求める場合を示している
が、この場合の、ステップＳ２における処理の詳細を説
明する。まず、商品コードの文字認識結果より各一位候
補を取り出し、それを数値に変換することで中間コード
を算出する。図５に示した例では、読み取った文字列は
「４５１０８」であるが、これを数値４５１０８に変換
する。なお、処理対象により数字の桁数が大きすぎる場
合は、予め上位または下位からの有効な桁数を定めるこ
とにより、辞書格納アドレステーブルが大きくなりすぎ
ないようにする。

【００４６】次いで、この算出した中間コードと、図３
のステップＳ１における照合結果である照合結果候補Ａ
の第１以降補の中間コードとを比較し、同じ場合は一致
フラッグをセットする。なお、計算ではなく辞書検索に
より商品コードの文字認識結果から中間コードを取得す
る場合は、図３におけるステップＳ２を、中間コードを
取り出すステップに置き換えればよい。

【００４７】この場合、ステップＳ１では、動作におい
ては図７に示した構成と変わることなく、商品コードと
して取り出す文字認識結果と商品名用単語辞書、および
書き込む照合結果候補Ａの内容とが異なるのみである。
ここで、中間コードを取り出すステップでは、商品コー
ドの読み取りにおける照合結果Ｂの第１以降補の中間コ
ードを取り出す。以降の処理では、上述したように、照
合結果候補Ａの第１以降補の中間コードとを比較する。
そして、図１において、商品名の読取結果の照合による
中間コードと、商品コードのそれが一致していれば、す
なわち一致フラッグがセットされていれば（ステップＳ
３）、両方の１位の結果を照合結果として出力して（ス
テップＳ６）、処理を終了する。

【００４８】ここで、ステップＳ３において、それぞれ
の中間コードが不一致であれば、ステップＳ４，Ｓ５と
進む。商品名の読取結果の照合による中間コードと、商
品コードのそれが一致していない場合（ステップＳ
３）、記載されている商品コードから取得される中間コ
ードと、商品名の照合結果候補Ａを比較する。また、商
品名から取得される中間コードと、商品コードの照合結
果候補Ｂとも比較する。そして、照合結果候補Ａに格納
されていない中間コードを持つ商品名の商品名用単語辞
書内の照合を実行するとともに、商品名と商品コードを
あわせた総合的な類似度を求める（ステップＳ４）。ま
た、同様に、総合結果候補Ｂに格納されていない中間コ
ードを持つ商品コードの商品コード用単語辞書内の照合
も行う。

【００４９】このステップＳ４の詳細な流れを図９のフ
ローチャートを用いて説明する。まず商品コードの文字
認識結果を１組取り出して中間コードを取得する（ステ
ップＳ４１）。ここでは、商品コードが数字の場合を取
り扱っているので、各文字位置の文字認識結果の組み合
わせで単語候補を作成し、文字認識の確からしさからの
合計である単語候補の類似度を計算し、その高い順に使
用する。このとき作成する単語候補の数が多い場合は、
あらかじめ定められたしきい値と類似度により数を絞っ
て上位の単語候補だけを使用する。類似度は大きいほど
一致の度合いが高いというものである。

【００５０】次いで、ステップＳ１における照合結果で
ある照合結果候補Ａの中に、前述した取得した中間コー
ドをもつ候補単語があるかどうかを確認する（ステップ
Ｓ４２）。照合結果候補Ａに取得した中間コードを持つ
候補単語がある場合（ステップＳ４２）、照合結果候補
Ａの全ての候補単語に対してその中間コードを確認し、
一致するものがあれば、その候補単語の類似度に記載項
目Ｂである商品コードの候補単語の類似度を加算して新
たな類似度とする（ステップＳ４７）。加えて、照合結
果候補Ａ内の候補単語を類似度の高い順に並べ替える。
一方、渡された中間コードの単語が照合結果候補Ａにな
い場合は（ステップＳ４２）、ステップＳ４３に進む。

【００５１】ステップＳ４３からの処理は、与えられた
辞書格納アドレスをもとに順次単語を取り出し、照合し
てその結果を格納する処理であり、基本的には図７のス
テップＳ１３〜Ｓ１７と同様である。ここで、まず最初
に、取得した中間コードに対応して、取り出すべき商品
名がその商品名用単語辞書にあるか無いかを確認する
（ステップＳ４３）。取り出すべき商品名がその商品名
用単語辞書にある場合は（ステップＳ４３）、商品名用
単語辞書内より中間コードが等しい最初の候補単語を取
り出す（ステップＳ４４）。

【００５２】そして、ステップＳ１６（図３）と同様に
して類似度を計算し、加えて、同じ中間コードの文字認
識した商品コードの類似度を加算する（ステップＳ４
５）。そして、この候補単語を照合結果Ａに格納する
（ステップＳ４６）。同様に、取得した中間コードに対
応して取り出すべき商品名が無くなるまで行い（ステッ
プＳ４３〜Ｓ４６）、用いる中間コードがまだある場合
は（ステップＳ４８）、ステップＳ４１に戻る。そし
て、次の１組の商品コードの文字認識結果を取り出して
中間コードを取得し（ステップＳ４１）、以下上述と同
様に、商品コードの文字認識結果の全ての組み合わせに
ついて第２の照合を行う。

【００５３】このようにして、第２の照合（ステップＳ
４）が終了すると、照合結果候補Ａには、商品名と商品
コードの総合類似度による結果候補が格納される。これ
ら、第２の照合では、すなわち中間コードを用いて商品
名単語辞書より辞書単語を取り出すものである。そし
て、この取り出した単語と、第１の照合，第１の判定に
おいて照合結果として得られた単語との一致状態を確認
することで、たとえば、商品名の読み取りでキー文字の
部分が正確に読み取れていなくても、この中間コードを
用いた単語取り出しによる照合により、キー文字以外の
読取文字の単語の部分との照合ができるので、より正確
な文字読取が可能となる。また、商品コードの読取エラ
ーの検出も可能となる。

【００５４】次いで、第２の判定として、照合結果候補
Ａを取り出し、最も類似度の高い単語の類似度をあらか
じめ与えられているしきい値と比較し、類似度がそのし
きい値より低い場合は照合不可能ということでリジェク
トとし、そうでない場合はその単語を照合結果とする
（ステップＳ５）。そして、商品名と商品コードの照合
結果を、その照合位置に基づいて２つ一緒にして照合結
果とする。（ステップＳ６）。

【００５５】実施例２．次に、この発明の第２の実施例
について説明する（請求項２）。この実施例において
は、用いる単語辞書の辞書形式が若干異なり、図６に示
した単語レコード６４の形式において、同一の中間コー
ドの他の単語のアドレスが格納されている項目の直後
に、単語種を示す情報をつけ加えるようにしたものであ
る。図１０は、この単語データの形式を示す説明図であ
る。

【００５６】たとえば、記載項目Ａとして記入されてい
る「タクシー代日電太郎」と、記載項目Ｂとして記入
されている交通費のコードとを認識する場合を考える。
この場合、記載項目Ａとして記入される「タクシー代」
と「日電太郎」とを別の単語として同じ辞書内に用意し
ておくようにする。このとき、「タクシー代」の中間コ
ードと交通費のコードの中間コードとを同じものとし、
「日電太郎」は中間コード無しとする。そして、「日電
太郎」は単語種が社員名、「タクシー代」は単語種が一
般名として構成するようにすればよい。

【００５７】以下、この実施例における文字認識後処理
について説明する。また、ここでは、上述したように、
記載項目Ａとして「タクシー代日電太郎」，記載項目
Ｂとして交通費のコードとを文字読取した後の照合につ
いて説明する。まず、文字認識結果の候補の中で、最初
の文字の最初の候補を取り出し、この文字が先頭となる
辞書単語を単語辞書内より取り出す。

【００５８】そして、実施例１と同様にして、文字認識
結果の候補と照合を行い照合結果を照合結果候補Ａ内の
照合候補Ａ１と照合候補Ａ２に格納するたとえば、上述
の場合、記載されている「タクシー代日電太郎」より
「タ」ではじまる辞書単語を単語辞書より取り出して照
合する。最初の文字の全ての候補文字に対して同様の処
理を繰り返す。

【００５９】次いで、文字認識した文字がまだあるかど
うか判断し、まだある場合は、文字認識した結果の２文
字目の候補文字を取り出し、この文字が先頭に来るもの
と２番目に来るものの辞書単語を単語辞書内より取り出
す。そして、これらと文字認識した結果の文字列との照
合を上述と同様に行う。そして、この実施例では、照合
結果は、照合結果候補Ａ内で単語種毎に分けて格納す
る。たとえば、「タクシー代」の照合結果は照合結果候
補Ａ内の照合候補Ａ１に格納し、「日電太郎」の照合結
果は照合結果候補Ａ内の照合候補Ａ２に格納する。この
結果、第１の照合を完了した時点で、照合結果候補Ａに
は、単語種毎に照合結果の良い順に単語候補が格納され
ている。

【００６０】以上のことにより、たとえば、６文字目の
文字による単語照合では、「日」で始まる辞書単語と、
２文字目が「日」となる辞書単語が取り出されて照合が
行われ、その中には１文字目が「日」であり、単語種が
社員名で中間コードが付けられていない「日電太郎」も
取り出され、照合されることになる。そして、７文字目
の単語照合では、「電」で始まる辞書単語と、２文字目
が「電」となる辞書単語が取り出されて照合が行われ、
上記と同様に、今度は２文字目が「電」である「日電太
郎」がまた取り出される。

【００６１】次いで、上記実施例１と同様に、第１の判
定を行う。この実施例２においては、第１の判定を図１
１に示すフローチャートのようにして行う。この第１の
判定においては、まず、記載項目Ｂとしての交通費の読
取結果より中間コードを計算により求め（ステップＳ１
１１）、照合結果候補Ａ内の照合候補Ａ１と照合候補Ａ
２にに別々に格納されている候補単語の組み合わせの中
で、類似度の合計が高い順に複合語を作成する（ステッ
プＳ１１２）。

【００６２】次いで、この作成した複合語の中で照合位
置が重ならないことを確認する（ステップＳ１１３）。
次に、単語種の組み合わせが許容されるかどうかを確認
する（ステップＳ１１４）。たとえば、上述の例では、
交通費のコードと「タクシー代」の中間コードは一致
し、社員名である「日電太郎」は「タクシー代」との組
み合わせが許容されることになる。

【００６３】このような組み合わせの条件は、あらかじ
め、辞書からの取り出しと同時に外部から与えられてい
る。そして、以上のことにより照合確認された「タクシ
ー代日電太郎」の「タクシー代」についていた中間コ
ードと、交通費の照合により得られた中間コードとの照
合を行う（ステップＳ１１５）。

【００６４】次いで、実施例１と同様にして、記載項目
Ｂである交通費の文字認識結果より得られる中間コード
を用いることによる第２の照合を行い、照合結果候補Ａ
の追加や類似度の変更がなされる。この結果、照合結果
候補Ａには、単語種別に「タクシー代日電太郎」の単
語候補が格納される。次いで、実施例１と同様に、第２
の判定を行い、第１の判定による中間コード，照合位
置，単語種の組み合わせが矛盾しない最も良い複合語を
選択する。そして、この結果を、照合位置を基に最終的
な照合結果として得る。

【００６５】実施例３．以下、この発明の第３の実施例
について説明する。（請求項３）この実施例では、単語辞書を木構造で構成するようにし
たものである。図１２は、この発明の第３の実施例にお
ける、単語辞書の形式を示す説明図である。同図に示す
ように、この実施例においては、図６に示した単語デー
タ６４に加えて、木構造で構成するために単語辞書を構
成する他の単語データとの親，子，兄弟の関係を示す情
報を加えたものである。

【００６６】親，子，兄弟の情報については、辞書単語
間の関係を木構造で表すためのもので、それぞれ該当す
る辞書単語の格納アドレスが格納されている。そして、
この親，子，兄弟情報を示す格納アドレスにより、木構
造が示されることになる。なお、たとえば、子に当たる
辞書単語がないなど、該当する単語がない場合には、キ
ー文字検索の指定のときと同様に、親，子，兄弟の関係
を示す情報に対応するところに「ＦＦＦＦ」を格納す
る。

【００６７】以下、その木構造について説明する。図１
３は、木構造を説明するための説明図であり、東京都の
地名を用いて説明する。ここで、「千代田区」を中心に
考えると、「東京都」は「千代田区」の親になり、「中
央区」が兄弟になり、「大手町」が子になる。すなわ
ち、親とは自分の接続する上位側の単語を表し、兄弟と
は同じ親の子に当たるものの内１つを指し示し、子とは
自分の下にぶら下がる単語群の１つを指し示す。兄弟の
指定においては最大１度だけ、他で兄弟として指定され
る。このようにして、木構造による単語間の接続関係を
表すことができる。

【００６８】そして、この木構造の単語辞書に、キー文
字による検索のための同一キー文字の他の単語のアドレ
ス情報を付けるようにしているので、記載内容が木構造
の先頭から始まらない場合でも、単語照合が可能とな
る。なお、木構造の単語辞書の構成のなかで、ある階層
以下のレコードには、キー文字を用いた単語検索のため
の情報をつけないようにすれば、キー文字検索で検索す
る単語の数を減らすことができ、木構造の途中の単語か
らの単語取り出しを効率よく行うことができる。

【００６９】たとえば、都道府県市区郡以上の階層の辞
書単語のみに、キー文字を用いた単語検索のための情報
をセットし、他の下の階層の辞書単語はこれらをセット
しない。このようにすれば、キー文字を用いた単語照合
の時に、単語辞書内より取り出すことのできる辞書単語
の範囲を都道府県市区郡に限定することも可能である。
そして、都道府県市区郡より下位の住所を示す辞書単語
は、キー文字による検索では取り出せなくなり、無駄な
候補対象の取り出しを減らすことができる。よって、都
道府県市区郡で始まる全ての住所のみの読み取りを効率
よく行うことができる。

【００７０】また、木構造とすることで、中間コードも
全ての単語に付される必要はない。たとえば、東京都は
郵便番号が１００〜２ｘｘまである。したがって、辞書
単語「東京都」に対しては中間コードを１つに決められ
ず、すなわち、付けることができない。また、たとえ
ば、「東京都府中市日新町」は、「東京都」の子に「府
中市」、その子に「日新町」として単語辞書内に格納す
ることになるが、「府中市」が郵便番号１８３となるの
で、「日新町」に郵便番号１８３の中間コードが付けら
れ、他には中間コードがつかない。

【００７１】さらに、単語データの構成の中で中間コー
ド検索用エリアは、その子以下の単語の中間コードが全
て同じとなる最も上位の単語のみに付することにより、
効率の良い検索が可能となる。そして、単語種の設定で
は、辞書の単語種は木構造の深さ（階層）を設定すれば
よい。たとえば、住所の単語辞書の場合、格納する辞書
単語の単語データに付ける単語種は「都道府県」や「市
区郡」などになる。

【００７２】以上のように、単語辞書を木構造とするこ
とで、この実施例では、たとえば住所の読取結果が「東
京都府中市日新町」であっても「府中市日新町」であっ
ても同一の照合結果が得られる。

【００７３】以下、この実施例における第１の照合につ
いて説明する。第１の照合は、木構造の単語辞書からの
単語取り出しに対応するため、先頭単語照合と、子単語
照合とが行われる。先頭単語の照合は、図７に示した実
施例１の場合と同様であるが、この照合が終わると、こ
の実施例では、先頭単語に続く単語（子単語）と、既に
照合した先頭単語を親とするこの辞書単語とで照合を行
うようにする。

【００７４】先頭単語に続く子単語の照合は、途中結果
である候補単語に対してその木構造上の子の単語の照合
を行うものである。そして、その照合した結果が、同じ
照合候補Ａを更新していく。したがって、単語辞書の木
構造の浅いアドレスの単語から、深いアドレスの単語へ
と順次照合を進める必要がある。

【００７５】子単語の照合は、図１４のフローチャート
に示したように行う。これは、図７に示したフローチャ
ートの後に続いて行う。ここで、子照合における子単語
の取り出しを行うためには、親となる候補単語を設定し
なくてはならないが、この候補単語は照合結果候補Ａに
単語種別に格納されている。そのため、親となる候補単
語を設定して子照合を行うとき、単語種別に木構造の上
位の単語種から深い方に順に照合を行うように、単語取
り出し行う候補エリアをセットする（ステップＳ１４
１）。そして、子照合を行い（ステップ１４２）、これ
を全ての候補エリアの全ての候補単語に対して行う（ス
テップＳ１４３）。

【００７６】なお、この実施例において、候補エリアに
格納されている候補単語（１レコード分）の格納形式を
図１５に示す。同図において、１５１はこの単語の単語
辞書内における格納アドレス、１５２は中間コード、１
５３は先頭単語から本単語までの類似度、１５４は本単
語の先頭の文字を記入文字の何文字目と照合を行ったか
を示す先頭照合位置、１５５は同様に最後の文字である
終端照合位置、１５６はこの単語の親のアドレス、１５
７はこの単語の子のアドレスである。

【００７７】以下、図１４のフローチャートのステップ
Ｓ１４２の子照合の詳細を、図１６のフローチャートを
用いて説明する。まず、照合結果候補Ａの指定された候
補エリア内の候補単語を１つずつ取り出す（ステップＳ
１６１）。

【００７８】この取り出した候補単語に対して、記載項
目Ａの文字認識結果に対する候補単語の照合位置から、
子の単語の照合を開始する単語位置をセットし（ステッ
プＳ１６２）、さらに最初に取り出すべき子の辞書単語
における格納アドレスをセットする（ステップＳ１６
３）。次いで、次に取り出す単語があるかないかを判断
し（ステップＳ１６４）、ある場合は、上記のアドレス
に従って単語辞書より照合単語を取り出し（ステップＳ
１６５）、記載項目Ａの読取結果と、その単語辞書より
取り出した単語との照合を行う（ステップＳ１６６）。

【００７９】そして、前述した実施例と同様に、その結
果と既に格納済みの候補単語を比較して単語種別に単語
候補を格納し（ステップＳ１６７）、この取り出した単
語のレコードに同様に格納されている次の単語の単語辞
書内の格納アドレスをセットする（ステップＳ１６
８）。このセットしたアドレスがたとえば「ＦＦＦＦ」
であった場合、単語辞書より次に取り出す照合のための
単語は無いので（ステップＳ１６４）、次いで、指定さ
れた単語種の全ての候補単語に対して処理を行ったかど
うかを判定する（ステップＳ１６９）。以上のことで、
この実施例における第１の照合が終了したことになる。

【００８０】次いで、第１の判定として、照合結果候補
Ａに格納されている全ての候補単語の内、最も類似度の
高い候補単語の中間コードと、記載項目Ｂから導かれた
中間コードとを照合する。そして、そのそれぞれの両者
の中間コードが一致している場合、上記実施例と同様
に、それらを組み合わせるなどして、記載項目Ａの読取
結果として出力し、処理を終了する。

【００８１】ここで、中間コードが一致していない場
合、上記実施例と同様に第２の照合と第２の判定とを行
う。すなわち、中間コードを用いた単語検索を行う。こ
の実施例の第２の照合では、この実施例の第１の照合と
同様に、木構造の単語辞書からの単語の取り出しに対応
するため、先頭単語照合と、子単語照合とを行う。ただ
し、中間コードで検索した単語が木構造上最も上位に位
置する単語でない場合には、候補単語内の単語種と親の
情報にしたがい、その親を順次取り出し、木構造の先頭
からその単語までで構成される単語を仮のものとして作
成する。

【００８２】また、辞書の先頭単語が木構造の途中から
始まっても良い場合は、その仮の単語を先頭単語別に複
数種作成しても良い。この結果、照合結果候補Ａには、
記載項目Ａと記載項目Ｂをあわせた類似度の高い順に記
載項目Ａの照合結果が格納されていく。

【００８３】なお、上記実施例では、読み取るものが文
字や数字であったが、これに限るものではなく、バーコ
ードであっても良い。ここで、バーコードの読み取り
は、パリティを使用する場合も含めて、読取性能が高
い。このため、その照合において求める類似度は、バー
コードが全部読めた場合は文字認識に比べて高い類似度
を与え、そうでない場合は文字認識程度の類似度を与え
るようにすればよい。

【００８４】

【発明の効果】以上説明したように、この発明によれ
ば、２つ以上の記載から読み取ったそれぞれの文字の照
合を行うためのそれぞれの単語辞書に格納される辞書単
語に、関連するものどうしに同一の中間コードを付ける
ようにした。このため、たとえば、２つの冗長されてい
る記載項目の読取結果に対して、互いに補うように単語
照合を行うことが、２つの記載項目の照合のためのそれ
ぞれの単語辞書だけあれば可能であるという効果があ
る。このため、単語照合のために必要な辞書のサイズを
大きくすることがない。しかも、どちらかの項目の読取
結果に依存することなく、２つの項目の文字認識結果を
総合的に利用して読取文字の照合判定ができるという効
果がある。

【００８５】たとえば、商品コードと商品名の場合、商
品コードが未記入であったり誤記入であっても、商品名
が正しく記入されていて正しく読み取ることができれ
ば、商品コードを正しく導き出すことができる。そして
また、商品名が未記入であったり誤記入であっても、商
品コードが正しく読めれば、正しい商品名を導き出すこ
とができる。また、この発明では、２項目の関連づけに
中間コードを使用しているので、記入内容に依存するこ
となく１つのアルゴリズムで多種の内容の読取対象の取
り扱いが可能となる効果が得られる。

【００８６】さらに、１つの記載項目ともう１つの記載
項目が部分的に関連する複合語で構成されている場合で
も、効率よい辞書サイズと照合時間で、それぞれの読取
結果の照合を行うことができるという効果がある。そし
て、単語辞書が木構造で構成されていても、高速に単語
取り出しができる効果が得られるとともに、郵便番号と
住所の関係のように木構造と中間コードによる構造が完
全に一致しなくても、辞書の数を増やしたりむやみに辞
書サイズを大きくすることが無く対応できる。そして、
さらに、記入が木構造の先頭から始まらなくても対応が
可能であり、読み取った文字が全て記入されていない場
合でも、照合が可能である。

【図面の簡単な説明】

【図１】読み取った文字列の２箇所以上の位置の文字
をキー文字とする正解単語の検索方法の１例を説明する
ための説明図である。

【図２】読み取った文字列の２箇所以上の位置の文字
をキー文字とする正解単語の検索方法の他の１例を説明
するための説明図である。

【図３】この発明の１実施例の動作を説明するための
フローチャートである。

【図４】ある帳票に記載され文字認識された記載項目
Ａである商品名を示す説明図である。

【図５】ある帳票に記載され文字認識された記載項目
Ｂである商品コードを示す説明図である。

【図６】図１に示した単語辞書形式による単語辞書の
詳細構成を示す説明図である。

【図７】第１の照合を詳細に説明するためのフローチ
ャートであり、図３のステップＳ１の内容である。

【図８】照合結果として照合結果候補Ａに格納される
１単語分の格納形式を示す説明図である。

【図９】第２の照合を詳細に説明するためのフローチ
ャートであり、図３のステップＳ４の内容である。

【図１０】単語種を示す情報をつけ加えるようにした
単語データの形式を示す説明図である。

【図１１】実施例２における、第１の判定を示すフロ
ーチャートである。

【図１２】この発明の第３の実施例における、単語辞
書の形式を示す説明図である。

【図１３】木構造を説明するための説明図である。

【図１４】木構造における子単語の照合を説明するた
めのフローチャートである。

【図１５】候補エリアに格納されている候補単語の格
納形式を示す説明図である。

【図１６】実施例３における子照合の詳細を示すフロ
ーチャートである。

Claims

(57)【特許請求の範囲】

【請求項１】紙面などに記載された文字列の文字認識
結果を文字コードとして得た文字列データに対して、予
め用意されている単語辞書内より一致する単語を取り出
して照合することで、前記文字列データを単語として認
識する文字認識後処理方式において、構成する辞書単語に対応する中間コードが付けられた、
第１の記載より得られる第１の文字列データの照合のた
めの第１の単語辞書と、前記第１の記載と互いに冗長している第２の記載より得
られる第２の文字列データの照合のための、前記第１の
単語辞書を構成する辞書単語に関連する辞書単語には同
一の中間コードが付けられた第２の単語辞書とを有し、前記第１および第２の文字列データの２箇所以上の文字
をキー文字として前記第１および第２の単語辞書それぞ
れを検索し、それぞれに対応する照合するための辞書単
語を取り出し、この取り出したそれぞれの辞書単語と前
記第１および第２の文字列データとを比較する第１の照
合と、この第１の照合により決定した、それぞれ前記第１およ
び第２の文字列データに最も類似している第１の候補結
果の中間コードと第２の候補結果の中間コードとを比較
する第１の判定と、この第１の判定で中間コードが一致しなかった場合、前
記第１もしくは第２の候補結果の中間コードをキーとし
て前記第２もしくは第１の単語辞書を検索して第３の辞
書単語を取り出し、この第３の辞書単語と前記第１もし
くは第２の文字列データとを比較する第２の照合と、前記第２の照合での比較の結果を良否判定し、良いと判
定した辞書単語を組み合わせることで、前記第１と第２
の記載の読取結果を得る第２の判定とを行い、前記第１の文字列データと第２の文字列データとの照合
結果を互いに補うことを特徴とする文字認識後処理方
式。
【請求項２】請求項１記載の文字認識後処理方式にお
いて、前記第１および第２の単語辞書に格納されている辞書単
語に自身の単語分類情報を付加し、前記第２の判定でこの単語分類情報を用いて、良いと判
定した辞書単語を組み合わせることを特徴とする文字認
識後処理方式。
【請求項３】請求項１または２記載の文字認識後処理
方式において、前記第１と第２の単語辞書を構成する辞書単語が木構造
を有し、前記第１および第２の照合では、前記木構造を用いて照
合のための辞書単語を取り出し、前記第２の判定では、前記木構造を用いて良いと判定し
た辞書単語を組み合わせることを特徴とする文字認識後
処理方式。
【請求項４】請求項１から３いずれか１項記載の文字
認識後処理方式において、前記第２の記載がバーコードであり、第２の文字列デー
タが前記バーコードを読みとった結果であることを特徴
とする文字認識後処理方式。