JP2000148906A - 文書認識装置および郵便区分機 - Google Patents
文書認識装置および郵便区分機Info
- Publication number
- JP2000148906A JP2000148906A JP10318693A JP31869398A JP2000148906A JP 2000148906 A JP2000148906 A JP 2000148906A JP 10318693 A JP10318693 A JP 10318693A JP 31869398 A JP31869398 A JP 31869398A JP 2000148906 A JP2000148906 A JP 2000148906A
- Authority
- JP
- Japan
- Prior art keywords
- character
- hypothesis
- notation
- pattern
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Sorting Of Articles (AREA)
Abstract
字間の空白情報や改行情報が存在する場合に、宛名情報
を高精度に認識解釈する装置を提供する。 【解決手段】 文字識別処理では各文字パターンを識別
した結果の候補文字ラティスを出力する。幾何学的分離
情報抽出手段では宛名文字列中の空白、あるいは改行の
分離情報仮説を抽出して候補文字ラティスに関連付けて
出力する。ワイルドカードラティス生成処理1103では任
意の英数字を表わすワイルドカード記号で表現されたラ
ティスを生成する。表記パターン照合手段では前記ワイ
ルドカード記号で表現された丁目番地の様々な表記を単
語文字列として保持する表記パターン辞書とワイルドカ
ードラティスとを照合する。分離情報仮説が存在する特
定の場所を着目した時に、分離情報が存在すると仮定し
た表記パターン候補、及び、分離情報が存在しないと仮
定した表記パターン候補のそれぞれを生成する。
Description
て、紙面に記載された文字情報を読み取って解釈する文
書認識装置と、この文書認識装置を用いた郵便区分機に
関する。
情報を文字認識技術を用いて読み取る際は、その文字列
を左から右へ(上から下へ)順番に一文字ずつ読み取
る。そして、その読取り結果に基づき、たとえば、宛名
情報の場合、県名、市町村名、丁目番地、建屋番号、部
屋番号などの解釈を逐次与えていた。その中で、丁目番
地、建屋番号、部屋番号に解釈を与えるためには、それ
らに関する表記の知識を用いることが有効であり、例え
ば公開特許公報「住所読取装置及び方法」(特開平8-24
3505)が知られている。ここで、その内容に簡単に触れ
ておく。丁目番地の例として「1−2」「1番2号」
「一番二号」は異なる表記であるが全て同じ住所を表わ
す。紙面上の宛名情報がどの表記に該当するかを判別で
きれば読取り精度を向上できるであろうことは容易に想
像できる。そこで、これらの表記知識を用いるために、
表記パターンを表わす文字列を辞書に保持しておき、そ
の表記パターンと一文字ずつ読み取った結果との照合を
行って丁目番地、部屋番号に対する解釈を与える。前述
した「1−2」「1番2号」「一番二号」に対応する表
記パターンは「N−N」「N番N号」「K番K号」とな
る。ここで、「N」は数字を表わすワイルドカード記
号、「K」は漢数字を表わすワイルドカード記号であ
る。「−」「番」「号」は英数字同士を分ける分離記号
である。
一つとして、郵便区分機による郵便物の道順組み立てと
いう業務がある。この業務では宛名の町域名の他に丁目
番地、建屋番号、部屋番号など、住所を特定するために
必要な文字情報を全て読み取り、郵便物の配達人が配達
する順番に並べ替える必要がある。従来、この業務は全
て人手で行われており、これを郵便区分機を用いた機械
化により人件費の圧縮や人手不足を解消しようとしてい
る。
人手を介して区分されるので、その分だけ人件費が多く
掛かることになる。そのため、郵便区分機による宛名情
報の読取り率の向上は、配達コスト削減のために非常に
重要である。特に、10万通の郵便物の1%は1、000通
であり、読取り精度向上によるコスト削減の効果は非常
に高い。よって、丁目番地、建屋番号、部屋番号の認識
率が高いことは、郵便区分機の分野では極めて重要な意
味を持つ。
識率を阻む次のような表記上の問題が存在する。
号の境を表現するために、文字パターン間の間隔を周り
の文字よりも開けて、そこに空白が存在しているような
表記が存在する。活字の場合は、文字を等ピッチで書か
れることが多いので、この空白情報の検出は容易であ
る。しかし、(2)のように手書きでは文字パターンの
ピッチやサイズの変動が大きいため、文字パターン間に
空白の情報が存在するかどうかが必ずしも明示的でな
い。そのため、空白が存在すると検知された場所で数字
同士が分離されているか否かを判別し、正しく宛名情報
を読み取ることは非常に困難である。
号の境を表現するために、改行を用いた表記が存在す
る。一方、(4)の例のように、境を意図しない場所で
強制的に改行された表記も同様に存在する。このような
例はダイレクトメールでよく見かける表記であり、1行
の文字数が一定値を超えた場合は強制的に住所を折り返
して印刷される。そのため、宛名表記の中に改行の情報
が存在した場合、改行により数字同士が分離されている
か否かを判別して、正しく宛名情報を読み取ることは非
常に困難である。
番地、建屋番号、部屋番号を高い精度で読み取るため
に、以下に示す2つの課題を解決することを目的とす
る。
その情報を用いた宛名の高精度認識 文字パターン間のピッチや文字サイズから、そこに空白
の情報が存在すると認識装置が検知した場合に、その情
報が丁目番地、建屋番号、部屋番号のそれぞれを分離す
るための分離情報として解釈してよいかどうかの判定を
する必要がある。解釈に曖昧性がある場合に分離情報か
そうでないかの両方の仮説を立てて、それぞれの仮説を
後段の処理で検証して、高精度に認識する方式を実現す
ることを本発明は目的とする。
た宛名の高精度認識 文字パターン間の相対的位置関係から、そこに改行の情
報が存在すると認識装置が検知した場合に、その情報が
丁目番地、建屋番号、部屋番号のそれぞれを分離するた
めの分離情報として解釈してよいかどうかの判定をする
必要がある。解釈に曖昧性がある場合に分離情報かそう
でないかの両方の仮説を立てて、それぞれの仮説を後段
の処理で検証して、高精度に認識する方式を実現するこ
とを本発明は目的とする。
め、本発明方式は、紙葉上に記載された宛名情報をデジ
タル画像データに変換し、該デジタル画像データを用い
て、宛名情報に関する知識データベースに基づき宛名情
報の認識を行う文書認識装置であって、前記デジタル画
像データを入力し、入力された画像から文字行情報を切
り出し、さらに文字情報を切り出して認識し、切り出さ
れた各文字パターンに対して認識候補文字群を出力する
文字認識手段と、文字認識手段から出力された認識候補
文字群と町域名情報を格納した町域名辞書と照合するこ
とにより町域名を認識すると共に、切り出された文字行
の中で丁目番地、建屋番号、部屋番号が書かれていると
推定される領域の先頭、もしくは末尾を検出する町域名
認識手段と、前記丁目番地推定領域の先頭または末尾か
ら未処理の各文字パターン間の相対的な幾何学的関係か
ら、文字列同士を分離するための分離情報仮説を生成す
る幾何学的分離情報仮説生成手段と、前記丁目番地推定
領域の先頭または末尾から未処理の各文字パターンに対
応する候補文字群中の英数字を、任意の英数字を表すワ
イルドカード記号で置き換えた候補文字群に変換するワ
イルドカード変換手段と、ワイルドカード変換手段から
の出力と、前記幾何学的分離情報仮説を入力して、前記
ワイルドカード記号で表現した丁目番地、建屋番号、部
屋番号の表記パターンを生成する際に、幾何学的分離情
報仮説を表記パターンの中の分離情報として使った表記
パターン仮説と、分離情報として使わない表記パターン
仮説のそれぞれの仮説を生成する表記パターン仮説生成
手段と前記表記パターン仮説生成手段から出力された表
記パターン仮説と、文字認識手段から出力される候補文
字群とを照らし合せ、表記パターン仮説中のワイルドカ
ード記号を元の候補文字に復元し、丁目番地、建屋番
号、部屋番号の文字列候補を出力する文字列候補生成手
段と、前記町域名認識手段から出力された認識結果と、
前記文字列復元手段から出力された丁目番地、建屋番
号、部屋番号候補とを組み合わせて住所を表わす文字
列、および、それに付随する住所を表わす住所コードを
生成し、その住所コードが宛先番号辞書中に存在するか
どうかを判定して存在する候補を出力する宛先番号照合
手段と、を具備することを特徴としている。
段は、前記ワイルドカード記号で表現した丁目番地、建
屋番号、部屋番号の様々な表記パターンを単語文字列と
して保持する表記パターン単語辞書を内部に有し、ワイ
ルドカード変換手段の出力と表記パターン単語辞書の単
語とをオートマトンを用いて照合して、さらに、文字行
の中で前記幾何学的分離情報仮説が存在する特定の場所
を着目した時に、着目した場所に分離情報が存在すると
仮定した表記パターン仮説、及び、分離情報が存在しな
いと仮定した表記パターン仮説のそれぞれを生成する、
ことを特徴としている。
段は、前記ワイルドカード記号で表現した丁目番地、建
屋番号、部屋番号の様々な表記パターンを単語文字列と
して保持する表記パターン単語辞書と、ワイルドカード
変換手段の出力結果と表記パターン単語辞書に格納され
た単語とをオートマトンを用いて照合して複数個の表記
パターン単語仮説を出力する表記パターン単語照合手段
と、文字行の中で前記幾何学的分離情報仮説が存在する
位置において、前記表記単語照合手段から出力された表
記パターン単語仮説同士を接続して、丁目番地、建屋番
号、部屋番号表記パターン仮説を生成する際に、接続し
た単語仮説の間に分離情報の属性を付与した表記パター
ン仮説、及び、分離情報の属性を付与しない表記パター
ン仮説のそれぞれを生成する表記パターン単語統合手段
と、を具備することを特徴としている。
情報を認識して、認識結果に基づき郵便物を宛先別に区
分する郵便区分機において、前記宛名情報を認識するた
めの装置として、上記の構成の文書認識装置を具備する
ことを特徴としている。
する。
える。図では「1−2」と「1−201」の間に改行の
情報が存在するが、これが文字列を分ける分離情報を表
わすのかそうでないのかを、画像情報からだけでは判断
することができない。そこで、改行という文字パターン
間の幾何学的情報、文字パターンの識別結果、そして、
丁目番地の表記の知識を用いて、改行が分離情報を表わ
さないと仮定した丁目番地仮説「1−21−201」
と、改行が分離情報を表わすと仮定した仮説「1−2−
1−201」の2つの仮説を生成する。その後、実際に
存在する住所のコードを格納した宛先番号辞書と、それ
ぞれの丁目番地仮説とを照合し、辞書に登録されている
方が正しい解釈であったと考えて、一方を出力する。
性が存在する情報があった場合は、複数の仮説を立てて
後段の処理でどの仮説が正しかったかを検証するとい
う、多重仮説検定方式を本発明は基本としている。
る。
ある。読取対象の紙葉301は、例えば図3に示すような
記載がある。同紙葉は画像取り込み処理201によって、
スキャナを介して画像を入力し、その後デジタル画像デ
ータに変換される。文書認識装置は、この画像データに
対して、文字領域の切出し202、文字切出し仮説の生成2
03、町域名認識204、丁目番地認識205を行い、認識結果
208を出力する。
202である。紙葉301の画像から記載領域302を検出し
て、さらに文字行ごとに、図4に示すように画像領域40
1、402を切り出す。
3である。ここで、「仮説」とは「候補」と同じ意味で
ある。
を処理して、図5に示すように、文字切出し仮説を作
り、ネットワークとして表す(同図は、図4の文字行の
一部についてのみ示す)。
す)である連続した領域をラベリングと呼ぶ処理で抽出
する。抽出される連結した黒画素のかたまり(パター
ン)を黒連結成分と呼ぶ。隣接する黒連結成分(1個ま
たは複数)を1文字を構成するであろう最小部分(基本
成分)と見做して、これらで図5に示すネットワークの
基幹部を構成する。つぎに、1文字を構成する可能性が
ありそうないくつかの隣接する基本成分をまとめて、グ
ラフの辺を追加する。この処理を全体に対して行うこと
によって、図5に表すような文字切出し仮説ネットワー
クを作ることができる。
一意に決定することはできない。従って、図5に示すよ
うに、可能性のある切り方を仮説の形態で残しておき、
それら複数の仮説を対象に、つぎの各認識処理を行う。
分についてのみ示している。すなわち、「1−2」以降
の文字列に対応する部分もデータとしては存在するが、
図5においては、図の簡単化のため図示していない。
たはその部分)の画像と、それらの組合せ(1つの場合
もある)の画像をアーク(グラフにおける辺のこと)に
付属させ、それぞれ異る切り出し方を一つのグラフ(ネ
ットワーク)の中に表現する。図5は、これを図式的に
表しているが、計算機内部のデータとしても表現でき
る。同図において、アーク3は「都」の旁の部分に対応
する部分画像を、アーク4は「都」の偏の部分に対応す
る部分画像を表している。また、アーク16は、これら2
つの部分画像を組合せたもので、別の切出し仮説を表し
ている。
トワーク206を入力した後、事前知識を用いた文字識別
と知識処理を行い、町域名候補、および、切り出し仮説
ネットワークにおいてどこまで認識照合を行ったかとい
うポインタ情報207を出力する。
て説明する。文字識別601は、上記の文字切出し仮説ネ
ットワークのアークに付属された部分画像を文字識別辞
書604を参照して処理した後、その情報を基にアークの
組み合わせを決定し、図7に示すような文字候補ラティ
スを出力する。
ことができる。印刷漢字および手書漢字を識別する方式
としては、文字ストロークの方向性を抽出する「方向性
パターン整合法」が知られている。ここでは、詳細を省
略するが、パターン整合法では、未知パターンの画像
(または特徴ベクトル)と別途文字識別辞書に記憶して
おく参照パターン(画像、または特徴ベクトル)との類
似性を類似度と呼ぶ0から1の数値(実数)として計測
することができる。
に文字カテゴリとその類似度を並べたものであり、文字
候補ラティスと呼ぶ。同図で第2カラムのIDは、図6に
おける選択されたアーク番号であり、文字識別結果の類
似度が高いパターンの組み合わせを羅列したものであ
る。ここで意図しているのは次のことである。図5にお
いてアーク1、2のように、部分画像またはその組み合
わせ画像が実際に存在し得るパターンであれば、それは
パターン辞書に登録されている参照パターンに似ている
ので類似度は大きくなると推測される。反対に、アーク
4、7のように部分画像が実際には存在しないパターン
であれば、パターン辞書にもそれに該当する参照パター
ンが存在しないので、類似度は小さくなることが期待さ
れる。このように、文字識別を用いて類似度の大きい部
分画像の組み合わせを作ることで、文字識別と切り出し
を実行する。
あるので、類似度の総和が最大なパスのみならず、第2
位、第3位などの複数のパスを選択し、後段の処理に送
る。従って、文字候補ラティスはその数だけ作られる。
それ以降の処理は、これら複数の文字候補ラティスを対
象とする。なお、図5および図7では、一部分について
のみ記したが、これらの処理は図4に示す全ての文字行
について行う。
文字行から作られる複数の文字候補ラティスに対して行
われる。同処理部は、図8に示す町域名知識を表データ
の形式で保持している町域名照合辞書を参照して処理を
行う。同辞書は都道府県名、市町村名、町名に現れる単
語知識を有する(同図(a) (b) (c))。さらに、この単
語知識には、どの単語がどの単語に続くことができるか
という情報である統語知識も含む。
の「千代田区」は、親IDがK31であると、記憶されてお
り、それは同図(a)の都道府県名リストを見ると「東京
都」であることが記憶されている。すなわち、単語「東
京都」のあとには単語「千代田区」が続きうることを示
している。同様に、「千代田区」には図8(c)の町名リ
スト「千代田区」から「神田駿河台」ほかが続くことが
記憶されている。
れらの統語知識とを用いて、文字候補ラティスから単語
列(句)、例えば、「東京都・千代田区・神田駿河台」
を認識する処理であり、既に知られている方式がある。
以下、本発明の理解を助けるために、その方式を説明す
る。
9に示すような有限オートマトンを構成し、このオート
マトンに単語(文字列)を流し込むことにより、その単
語がこの文字候補集合から再構成しうる単語かどうか、
すなわち、その単語を認識結果としてよいかどうかを判
断することができる。この処理が単語照合の処理であ
る。
い状態(図9における丸印)を作り、1つの文字候補を
ある状態からつぎの状態への遷移リンク(矢印)で表
す。例えば、第1文字の第1位候補「東」は状態0から
状態1に至る第1の遷移リンク、同第2位候補「菓」は
状態0から状態1に至る第2の遷移リンク、第2文字の
第1位候補「宗」は状態1から状態2に至る遷移リン
ク、という具合にオートマトンを作る。有限オートマト
ンは、公知の方法によってソフトウェア的には状態遷移
表を用いて容易に作ることができる。
かどうかは、その単語を構成する文字列の各文字がこの
有限オートマトンのどの遷移リンクを通るかで判断でき
る。例えば、単語「東京都」が最初の3文字に存在する
かどうかを見るには、まず文字「東」が状態0からどの
リンクを通って状態1に至るかを見る。状態遷移表を用
いるオートマトンは、この検索を高速に実現することが
できる。図9の場合、第1のリンクが「東」であること
が分かる。つぎに、文字「京」が状態1から状態2にど
のリンクを通って遷移するかを同様に検索する。この場
合、第2のリンクであることが分かる。
て、状態2から状態3へ至ることが分かる。このとき、
単語「東京都」の存在する確信度は、それぞれの文字候
補の類似度総和で表すことができる。
ティを計算する方法もある。この場合、第1のリンクを
通るときはペナルティ0、第2のリンクを通るときはペ
ナルティ1、第3のリンクを通るときはペナルティ2、
という具合にする。この例の場合は、「東京都」のペナ
ルティは0+1+1=2となる。
対応する遷移リンクが存在しないときは、図9の「その
他」という遷移リンクを通るものとする。「その他」の
リンクに対応する類似度やペナルティは、事前にパラメ
ータの一つとして定数を充てる。
べての単語に対して、すべての状態から開始して行う。
その結果は図10の単語候補ラティスの形式で表すこと
ができる。例えば、図10は、状態0(1文字目)から
単語「東京都」と「XXX」が、状態1(2文字目)か
ら単語「京都」が、状態2(3文字目)から単語「YY
Y」が候補として上がったことを表している。最後の候
補は状態6(7文字目)から始る単語「SSS」と「神
田駿河台」である。このように単語候補ラティスは、ど
の位置にどのような単語がありそうかを確信度あるいは
ペナルティ付きで示している。この単語候補ラティスを
作るところまでが町域名照合処理602の前半の処理であ
る。
候補の中から統語規則を満足する単語のみを選び出すこ
とである。これは単語候補ラティスの末端(右端)の単
語候補から始めて、順次左に接続できる単語が単語候補
ラティスの中にあるかどうかを、図8に示した町域名知
識の中の単語接続情報を参照して検証する。
河台」は「千代田区」を接続できるが、単語「SSS」
に接続できる単語候補は存在しない、ということが分か
る。最終的に、「東京都・千代田区・神田駿河台」を句
の候補とすることができる。
とがあるが、その場合は総合確信度あるいは総合ペナル
ティを用いて順位付けし、良い方を選択することができ
る。
の処理に送り、最終判断を後段でさせることもできる。
から出力された町域名候補が妥当な照合結果であるかの
判定を行う。例えば、町域名候補の確信度の値を見て閾
値処理を行う。
その結果、例えば文字列「東京都千代田区神田駿河台」
が認識されることとなり、その文字列とそれを表す町ID
「T2121」がデータ207として、後段の処理部へ送られ
る。
果「東京都千代田区神田駿河台」のみならず、文字候補
ラティスのどの部分に対応するのかを示すデータも含
む。これによって、後段の処理、例えば、丁目番地認識
処理205は、自分がつぎに処理する部分はどこであるの
かを知ることができる。
の「東京都。。。」から始めて「。。。駿河台」までの
認識照合処理を行ったことを示すポインタ情報を含む。
これによって、つぎに処理すべき部分は「1−2」以降
の文字列であることが分かる。この場合、ポインタ情報
は、図7の文字候補ラティスにおけるID番号の形式で示
すことができる。
用いて説明する。丁目番地認識では未だ処理していない
処理対象「1−2」以降の文字列の認識照合処理を行
う。
3、町域名認識結果207を入力した後、文字識別辞書1108
を用いて町域名認識204における文字識別601と同様な方
式により文字識別を行い、候補文字ラティス1111を出力
する。
仮説203と候補文字ラティス1111を入力して、文字間の
空白や改行といった幾何学的分離情報仮説属性と関連付
けられた幾何学的分離情報属性付ラティス1112を出力す
る。この処理は既知の方式を用いて実現することができ
る。本処理の詳細を、図12を用いて説明する。
出し仮説に付随する幾何学的情報から行方向に対する個
々の切り出された文字画像の重心を求めて、隣接する重
心間の距離を測定する。1201はその結果を示す。1202の
部分は隣接する重心間の距離よりも2倍の距離がある。
そして、その重心間の距離が行の高さに関してある一定
の閾値以上であれば、そこに空白が存在するとして切り
出された画像に関連させてその属性を与える。1204は空
白情報の候補がその文字パターンの直後に存在すること
を示している。改行属性についても文字パターン間の相
対的位置関係を判定して同様な属性を与える。1203はそ
れらの処理の結果であり、幾何学的分離情報の仮説はシ
ンボル列として表現される。最終的に幾何学的分離情報
仮説は、図13のように文字候補ラティスに対して対応
する場所に関連づけられて、幾何学的分離情報属性付き
ラティス1112として出力される。
幾何学的分離情報属性付きラティス1112を受け取り、図
14に示すワイルドカード変換ルールを参照して、ラテ
ィス中の候補文字をワイルドカード記号に変換する。例
えば、図13における記入文字番号13のように、記入文
字「1」に対して、候補「1」「7」がラティスに上が
っている場合を考える。それらの候補文字はそれぞれ記
号「N」「N」に変換され、この場合、同じ記号になる
ので一つに併合する。記入文字番号14の記入文字「−」
に対しては、候補「ノ」「−」がラティスに上がってい
るので、それぞれ記号「ノ」「−」に変換される。以
下、同様な処理を繰り返す。変換されたワイルドカード
ラティスを図15に示す。このラティスでは幾何学的分
離情報属性とワイルドカード文字ラティスが関連付けら
れて格納されている。そして、このワイルドカードラテ
ィス1113を後段の処理のために出力する。
ードラティス1113を受け取り、表記パターン辞書1109を
参照して照合処理を行う。同辞書は、内部に図16に示
す丁目番地、建屋番号、部屋番号、それぞれの表記知識
を表形式のデータで保持する。具体的には、丁目番地表
記、建屋番号表記、部屋番号表記(例えば、「1−2」
の部分の表記)にはどんな形式が有りうるのかを記憶す
る表である。同図において、記号「N」はアラビア数字
を、記号「NN」は2桁のアラビア数字、記号「NN
N」は3桁のアラビア数字、「A」はアルファベット、
さらに、「の」「ノ」「−」は分離記号(デリミタ)を
表す。この図には示していないが、街区表記パターンリ
ストには、上記の「1番2号」や、縦書き時の「一の
二」などの表記方法に対応するパターンも登録してお
く。
17に示すような有限オートマトンを作り、そこへP00
1、P002、P003、P004に対応する表記パターン(「N−
N」など)を流し込み、各状態間を遷移しながら通る経
路に応じたコストを積算する。この処理は町域名照合処
理602と同様な手法を用いて実行する。オートマトンに
おける照合の開始位置を制御することで、任意の位置で
単語照合を行う。但し、このオートマトンでは丁目番地
は先頭に位置するので、状態1のみから単語照合が実行
される。単語照合の結果は図18に示すような単語ラテ
ィスとして出力される。
番号、それぞれの表記パターン単語を接続して、丁目番
地、建屋番号、部屋番号を連ねた一連の表記を生成す
る。ここで、各単語の接続を、文字候補ラティスに付随
している空白属性や改行属性によって制御する。すなわ
ち、接続対象表記パターン単語の接続部分が数字同士の
場合、接続する部分に空白や改行の属性が存在している
時には、そこに分離情報の属性を付加して接続する。逆
に、空白や改行に一致しない場合は、接続すると重複し
た表記パターン仮説が生成されてしまうので接続を行わ
ない。
間接続は接続位置に空白や改行の属性が存在するので接
続可能と判定された表記パターン候補である。仮に、空
白属性1804が存在しないと仮定した場合、単語1801、18
02、1803に着目すると、場合は1801と1803を接続する
と、1802と同じ仮説が生成されて重複する。このよう
に、数字同士を接続して表記仮説を生成する場合は、そ
こに分離情報の属性が存在しないと他の表記パターン単
語と同じ仮説を生成することになる。よって、表記パタ
ーン単語の接続は行わない。
した表記と見なされる場合は重なっている表記を削除す
る。例えば、「N−」に「N」を接続した表記と「N−
N」は同じであるため一方を削除する。
表記の末尾は空白、あるいは行末に一致することが多
い。そこで、末尾が空白や改行に一致していない候補
は、不適切な仮説の可能性が高いとしてペナルティを追
加する。
に示す表記パターンの候補1114が出力される。図におい
て「=」は幾何学的分離情報がそこに挿入されているこ
とを示している。
った表記パターン候補1114と幾何学的分離情報属性付き
ラティス1112を入力した後、表記パターン中の英数字部
分を対応するラティスの候補文字と比較して、元の文字
に戻した文字列候補1115を出力する。図20(1)〜
(4)はそれぞれ図19の(1)〜(4)に対応する候
補である。宛先番号照合1106では、文字列候補生成処理
1105で得られた候補が実際に存在するかどうかを、宛先
番号辞書1110を参照して照合する。図21に宛先番号辞
書の構成例を示す。図に示すように実際に存在する住所
を階層的に辞書に保持しており、この辞書に登録されて
いる住所の中に英数字復元処理1105で得られた候補が存
在するかどうかを判定する。もし、存在すると判定され
れば後段に候補を出力し、存在しないと判定されればそ
の候補はリジェクトされる。図20の候補の中では
(1)が選択されて、宛先番号照合候補1116として出力
される。
れた候補が妥当なものであるかの判定を町域名認識204
の候補採用判定603と同様に行う。
字間の空白や改行を取り上げたが、それらに限るもので
はなく、色情報、下線の有無、フォント形状、文字の大
きさや、行幅の相違など他の情報を使用してもよい。
ターン仮説の生成方式は、本実施例に限るものではな
い。本実施例では、幾何学的分離情報が挿入された表記
パターン仮説と挿入されない表記パターン仮説のそれぞ
れの仮説生成を、表記パターン単語接続の制御に分離情
報を用いることで実現した。例えば以下で説明するよう
に他の手段によっても実現することができる。
ように幾何学的分離情報属性ラティスを入力とし、表記
パターン単語との照合を行う。その後に、表記パターン
単語接続の制御に分離情報を用いずに単語同士を接続す
る。その結果、上位に挙げられた表記パターン候補に対
して以下の処理を実行する。特定の幾何学的分離情報が
存在する場所に着目し、そこに分離情報が存在すると仮
定して表記パターン単語に分離情報を挿入した表記パタ
ーン仮説を追加生成する。例えば、図19(2)の例で
は「N−NN−NNN」の表記パターン単語から「N−
N=N−NNN」や「N−N=N−NN=N」を生成す
る。ここで「=」は幾何学的情報から生成された分離情
報を示している。
空白を挿入した単語と挿入しない単語を両方とも辞書に
登録した後、特定の幾何学的分離情報が存在する場所に
着目した場合に、候補文字ラティスの該当する場所に例
えば空白の文字コードを挿入したラティスと、挿入しな
いラティスをそれぞれ生成して、上述の各候補文字ラテ
ィスとの照合を行うことによって生成することが可能で
ある。すなわち、幾何学的分離情報を文字コードとして
表わした複数個の候補文字ラティスを生成して、それぞ
れに対して表記パターン照合を実行する方式である。
を辞書に格納された文字列の情報として表現するのでは
なく、例えば、特開平6-124366で示されている方式につ
いても、同様な空白や改行の情報を用いた表記パターン
仮説を生成することができる。この発明では、文字切出
しの候補を位置関係の制約を考慮して木構造として表現
し、さらにそのノードに対応する認識結果を字種に基づ
いてラベル付けし、そのラベルの並びを検証して表記パ
ターンの仮説を生成する。ここで、並びを検証する規則
の中に空白や改行を分離情報として使う並びのルールを
追加しておく。さらに、空白や改行といった幾何学的分
離情報の属性を各ノードに付与しておき、並びを検証し
て表記パターン仮説を生成する際に、空白や改行の分離
情報を挿入した表記パターン仮説と挿入しない表記パタ
ーン仮説をそれぞれ生成する。
されているように、予め定められた表記規則を満たすカ
テゴリ記号列候補を木構造で表記パターンを表現する方
式についても、同様な空白や改行の情報を用いた表記パ
ターン仮説を生成することができる。この発明では、文
字切出しの候補に対応する認識結果から字種に基づいて
カテゴリを付与する。その後、文字切出し候補の位置関
係の制約と、カテゴリ記号間の接続関係の制約に基づ
き、カテゴリ記号列候補を木構造で表現する。その木構
造から各カテゴリ記号の発生源である文字に再度展開し
て文字列候補を作成した後、丁目番地範囲規則を適用し
て文字列候補を選択する。ここで、文字切出しの候補間
に存在しうる空白や改行といった幾何学的分離情報の属
性を文字切出しの候補に付与しておき、カテゴリの並び
を検証して木構造を生成する際に、空白や改行の分離情
報を挿入した表記仮説と挿入しない表記仮説をそれぞれ
生成する。図22に生成した候補木の例を示す。点線で
囲んだ部分が本発明により追加される。図において
「N」は数字を表わすカテゴリ記号、「Sh」は「−」を
表わすカテゴリ記号、「Si」は幾何学的分離情報を表わ
すカテゴリ記号である。図23に、文書認識装置を搭載
した郵便区分機の概略構成を示す。
り、多数の紙葉を順次スキャナに供給する供給機構2001
と、スキャナ2002と、スキャンした紙葉を区分機構に搬
送する搬送機構2003と、紙葉の搬送先を決める区分情報
を中央の制御コンピュータ2006から受け、紙葉の区分を
行う区分機構2004からなり、さらに、機構部2000には複
数の制御用のコンピュータが備えられ、これらのコンピ
ュータは中央の制御コンピュータ2006からの指示の下に
機構部2000全体を制御する。
02からの紙葉に記載された宛名情報を読み取った画像デ
ータを入力し、中央処理装置(CPU)に出力する入力イ
ンタフェース2008と、画像データを入力して宛名情報の
認識を行う中央処理装置(CPU)2009、2010と、宛名情
報認識処理のためのプログラムや認識照合に用いられる
事前知識を記憶するメモリ2013と、メモリ2013にロード
するプログラムや事前知識を格納している2次記憶装置
2014と、中央処理装置(CPU)で認識した認識結果デー
タを中央の制御コンピュータ2006に出力する通信インタ
フェース2016からなる。
は2台示されているが、処理能力が不足する場合にはそ
れ以上の台数が実装されうる。または、文書認識装置20
07が必要台数並列に並べられる。これらの文書認識装置
は、高速に読み取られる画像データ2015を分担して処理
する。
タフェース2011から通信データ2016の中に含まれる認識
結果データを解釈し、あらかじめプログラムされた論理
に従って区分情報を作成して、区分機構に出力する。
字情報をスキャナで画像情報として読み取って文字認識
する方法として説明したが、最近は、電子的な画像情報
がすでにコンピュータシステムに蓄積されていることも
多く、そのような画像情報を認識、解釈する場合に適用
することができることは言うまでもない。
を分けるための幾何学的分離情報仮説が存在する特定の
場所を着目した場合に、そこに分離情報が存在すると仮
定した表記と、存在しないと仮定した表記のそれぞれの
表記パターン仮説を生成する。その後、それらの表記パ
ターン仮説と文字識別結果から住所コードを生成し、実
際の住所が格納されている宛先番号辞書との照合によっ
て正しく解釈された表記を特定して住所を認識する。こ
れらの処理により、空白や改行などの幾何学的分離情報
を用いて表記された宛名情報を正しく認識することが可
能になる。
明によって初めて改行の情報を正しく解釈して宛名を読
み取ることができる表記は、ダイレクトメールのような
同じ種類の郵便物を大量に作成する場合の宛名に多い。
郵便局では、このような同じ種類の郵便物はまとめて郵
便区分機に掛けられて区分されることが多い。ここで、
郵便区分機は郵便物上の宛名情報を読み取って配達先ご
とに郵便物を区分する機能を有する。よって、前述のよ
うな郵便区分機の運用方法では、郵便物の宛名を読み取
って区分する区分率向上の効果は特に大きくなる。
図である。
示す図である。
ある。
る。
ーを示す図である。
る。
図である。
ン知識の例を示す図である。
語照合を示す図である。
る。
図である。
分機の機構部、2001…供給機構、2003…搬送機
構、2004…区分機構、2005…操作パネル、20
07…文書認識装置、2008…入力インタフェース、
2009…中央処理装置(CPU)、2010…中央処理
装置(CPU)2013…メモリ、2011…通信インタ
フェース、2014…2次記憶装置、2012…バス。
Claims (6)
- 【請求項1】紙葉上に記載された宛名情報をデジタル画
像データに変換し、該デジタル画像データを用いて、宛
名情報に関する知識データベースに基づき宛名情報の認
識を行う文書認識装置であって、 前記デジタル画像データを入力し、入力された画像から
文字行情報を切り出し、さらに文字情報を切り出して認
識し、切り出された各文字パターンに対して認識候補文
字群を出力する文字認識手段と、 文字認識手段から出力された認識候補文字群と町域名情
報を格納した町域名辞書と照合することにより町域名を
認識すると共に、切り出された文字行の中で丁目番地、
建屋番号、部屋番号が書かれていると推定される領域の
先頭、もしくは末尾を検出する町域名認識手段と、 前記丁目番地推定領域の先頭または末尾から未処理の各
文字パターン間の相対的な幾何学的関係から、文字列同
士を分離するための分離情報仮説を生成する幾何学的分
離情報仮説生成手段と、 前記丁目番地推定領域の先頭または末尾から未処理の各
文字パターンに対応する候補文字群中の英数字を、任意
の英数字を表すワイルドカード記号で置き換えた候補文
字群に変換するワイルドカード変換手段と、 ワイルドカード変換手段からの出力と、前記幾何学的分
離情報仮説を入力して、前記ワイルドカード記号で表現
した丁目番地、建屋番号、部屋番号の表記パターンを生
成する際に、幾何学的分離情報仮説を表記パターンの中
の分離情報として使った表記パターン仮説と、分離情報
として使わない表記パターン仮説のそれぞれの仮説を生
成する表記パターン仮説生成手段と、 前記表記パターン仮説生成手段から出力された表記パタ
ーン仮説と、文字認識手段から出力される候補文字群と
を照らし合せ、表記パターン仮説中のワイルドカード記
号を元の候補文字に復元し、丁目番地、建屋番号、部屋
番号の文字列候補を出力する文字列候補生成手段と、 前記町域名認識手段から出力された認識結果と、前記文
字列復元手段から出力された丁目番地、建屋番号、部屋
番号候補とを組み合わせて住所を表わす文字列、およ
び、それに付随する住所を表わす住所コードを生成し、
その住所コードが宛先番号辞書中に存在するかどうかを
判定して存在する候補を出力する宛先番号照合手段と、 を有することを特徴とする文書認識装置。 - 【請求項2】表記パターン仮説生成手段は、前記ワイル
ドカード記号で表現した丁目番地、建屋番号、部屋番号
の様々な表記パターンを単語文字列として保持する表記
パターン単語辞書を内部に有し、 ワイルドカード変換手段の出力と表記パターン単語辞書
の単語とをオートマトンを用いて照合して、さらに、文
字行の中で前記幾何学的分離情報仮説が存在する特定の
場所を着目した時に、着目した場所に分離情報が存在す
ると仮定した表記パターン仮説、及び、分離情報が存在
しないと仮定した表記パターン仮説のそれぞれを生成す
る、請求項1記載の文書認識装置。 - 【請求項3】表記パターン仮説生成手段は、前記ワイル
ドカード記号で表現した丁目番地、建屋番号、部屋番号
の様々な表記パターンを単語文字列として保持する表記
パターン単語辞書と、 ワイルドカード変換手段の出力結果と表記パターン単語
辞書に格納された単語とをオートマトンを用いて照合し
て複数個の表記パターン単語仮説を出力する表記パター
ン単語照合手段と、 文字行の中で前記幾何学的分離情報仮説が存在する位置
において、前記表記単語照合手段から出力された表記パ
ターン単語仮説同士を接続して、丁目番地、建屋番号、
部屋番号表記パターン仮説を生成する際に、接続した単
語仮説の間に分離情報の属性を付与した表記パターン仮
説、及び、分離情報の属性を付与しない表記パターン仮
説のそれぞれを生成する表記パターン単語統合手段と、 を有することを特徴とする、請求項1記載の文書認識装
置。 - 【請求項4】郵便物上に記載された宛名情報を電子的に
読みとって得られたデジタル画像データを入力し、入力
された画像から文字行情報を切り出し、さらに文字情報
を切り出して認識し、切り出された各文字パターンに対
して認識候補文字群を出力する文字認識手段と、 文字認識手段から出力された認識候補文字群と町域名情
報を格納した町域名辞書と照合することにより町域名を
認識すると共に、切り出された文字行の中で丁目番地、
建屋番号、部屋番号が書かれていると推定される領域の
先頭、もしくは末尾を検出する町域名認識手段と、 前記丁目番地推定領域の先頭または末尾から未処理の各
文字パターン間の相対的な幾何学的関係から、文字列同
士を分離するための分離情報仮説を生成する幾何学的分
離情報仮説生成手段と、 前記丁目番地推定領域の先頭または末尾から未処理の各
文字パターンに対応する候補文字群中の英数字を、任意
の英数字を表すワイルドカード記号で置き換えた候補文
字群に変換するワイルドカード変換手段と、 ワイルドカード変換手段からの出力と、前記幾何学的分
離情報仮説を入力して、前記ワイルドカード記号で表現
した丁目番地、建屋番号、部屋番号の表記パターンを生
成する際に、幾何学的分離情報仮説を表記パターンの中
の分離情報として使った表記パターン仮説と、分離情報
として使わない表記パターン仮説のそれぞれの仮説を生
成する表記パターン仮説生成手段と前記表記パターン仮
説生成手段から出力された表記パターン仮説と、文字認
識手段から出力される候補文字群とを照らし合せ、表記
パターン仮説中のワイルドカード記号を元の候補文字に
復元し、丁目番地、建屋番号、部屋番号の文字列候補を
出力する文字列候補生成手段と、 前記町域名認識手段から出力された認識結果と、前記文
字列復元手段から出力された丁目番地、建屋番号、部屋
番号候補とを組み合わせて住所を表わす文字列、およ
び、それに付随する住所を表わす住所コードを生成し、
その住所コードが宛先番号辞書中に存在するかどうかを
判定して存在する候補を出力する宛先番号照合手段と、 前記宛先番号照合手段の出力結果に基づき郵便物を宛先
別に区分する区分手段とからなることを特徴とする郵便
区分機。 - 【請求項5】請求項4において、表記パターン仮説生成
手段は、前記ワイルドカード記号で表現した丁目番地、
建屋番号、部屋番号の様々な表記パターンを単語文字列
として保持する表記パターン単語辞書を内部に有し、 ワイルドカード変換手段の出力と表記パターン単語辞書
の単語とをオートマトンを用いて照合して、さらに、文
字行の中で前記幾何学的分離情報仮説が存在する特定の
場所を着目した時に、着目した場所に分離情報が存在す
ると仮定した表記パターン仮説、及び、分離情報が存在
しないと仮定した表記パターン仮説のそれぞれを生成す
ることを特徴とする郵便区分機。 - 【請求項6】請求項4において、 表記パターン仮説生成手段は、前記ワイルドカード記号
で表現した丁目番地、建屋番号、部屋番号の様々な表記
パターンを単語文字列として保持する表記パターン単語
辞書と、 ワイルドカード変換手段の出力結果と表記パターン単語
辞書に格納された単語とをオートマトンを用いて照合し
て複数個の表記パターン単語仮説を出力する表記パター
ン単語照合手段と、 文字行の中で前記幾何学的分離情報仮説が存在する位置
において、前記表記単語照合手段から出力された表記パ
ターン単語仮説同士を接続して、丁目番地、建屋番号、
部屋番号表記パターン仮説を生成する際に、接続した単
語仮説の間に分離情報の属性を付与した表記パターン仮
説、及び、分離情報の属性を付与しない表記パターン仮
説のそれぞれを生成する表記パターン単語統合手段と、 を有することを特徴とする郵便区分機。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10318693A JP2000148906A (ja) | 1998-11-10 | 1998-11-10 | 文書認識装置および郵便区分機 |
KR1019990049385A KR100571080B1 (ko) | 1998-11-10 | 1999-11-09 | 문서 인식 장치 및 우편 구분기 |
CN99123532A CN1124562C (zh) | 1998-11-10 | 1999-11-10 | 文书识别装置和信件分检机 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10318693A JP2000148906A (ja) | 1998-11-10 | 1998-11-10 | 文書認識装置および郵便区分機 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000148906A true JP2000148906A (ja) | 2000-05-30 |
Family
ID=18101967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10318693A Pending JP2000148906A (ja) | 1998-11-10 | 1998-11-10 | 文書認識装置および郵便区分機 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2000148906A (ja) |
KR (1) | KR100571080B1 (ja) |
CN (1) | CN1124562C (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015170130A (ja) * | 2014-03-06 | 2015-09-28 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
CN109784308A (zh) * | 2019-02-01 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 一种地址纠错方法、装置及存储介质 |
US10515297B2 (en) | 2015-05-11 | 2019-12-24 | Kabushiki Kaisha Toshiba | Recognition device, recognition method, and computer program product |
JP7566520B2 (ja) | 2020-07-17 | 2024-10-15 | キヤノン株式会社 | 画像処理装置、方法、プログラム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100442014B1 (ko) * | 2001-12-07 | 2004-07-30 | 주식회사 한틀시스템 | 자동개표 시스템에서의 투표용지 인식 방법 |
JP4039093B2 (ja) * | 2002-03-20 | 2008-01-30 | 富士ゼロックス株式会社 | 画像読取装置、複写装置、およびプログラム |
US20120072013A1 (en) * | 2010-09-16 | 2012-03-22 | Kabushiki Kaisha Toshiba | Character recognition apparatus, sorting apparatus, sorting control apparatus, and character recognition method |
-
1998
- 1998-11-10 JP JP10318693A patent/JP2000148906A/ja active Pending
-
1999
- 1999-11-09 KR KR1019990049385A patent/KR100571080B1/ko not_active IP Right Cessation
- 1999-11-10 CN CN99123532A patent/CN1124562C/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015170130A (ja) * | 2014-03-06 | 2015-09-28 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
US10515297B2 (en) | 2015-05-11 | 2019-12-24 | Kabushiki Kaisha Toshiba | Recognition device, recognition method, and computer program product |
CN109784308A (zh) * | 2019-02-01 | 2019-05-21 | 腾讯科技(深圳)有限公司 | 一种地址纠错方法、装置及存储介质 |
JP7566520B2 (ja) | 2020-07-17 | 2024-10-15 | キヤノン株式会社 | 画像処理装置、方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN1254903A (zh) | 2000-05-31 |
CN1124562C (zh) | 2003-10-15 |
KR100571080B1 (ko) | 2006-04-14 |
KR20000035325A (ko) | 2000-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0844583B1 (en) | Method and apparatus for character recognition | |
KR100324847B1 (ko) | 수신인명 리드장치와 우편물등 구분기 및 문자열 인식방법 | |
Fujisawa et al. | Segmentation methods for character recognition: from segmentation to document structure analysis | |
Chaudhuri et al. | A complete printed Bangla OCR system | |
Jain et al. | Document representation and its application to page decomposition | |
Tomai et al. | Transcript mapping for historic handwritten document images | |
Srihari et al. | Document image analysis and recognition | |
Sinha et al. | Hybrid contextural text recognition with string matching | |
JPH05307638A (ja) | ビットマップ・イメージ・ドキュメントのコード化データへの変換方法 | |
JP4855698B2 (ja) | 宛先認識装置 | |
JP2004533069A (ja) | 住所を1つより多くの言語で自動的に読み取るための方法および装置 | |
KR100571080B1 (ko) | 문서 인식 장치 및 우편 구분기 | |
Garain et al. | Identification of embedded mathematical expressions in scanned documents | |
Tian et al. | Research on symbol recognition for mathematical expressions | |
Pal | On the developement of an optical character recognition (ocr) system for printed bangla script | |
JP5178851B2 (ja) | 宛先認識装置 | |
Mao et al. | A system for automatically reading iata flight coupons | |
Srihari | From pixels to paragraphs: the use of contextual models in text recognition | |
JP2009163689A (ja) | 住所認識方法及び装置、並びに郵便あて名区分機 | |
JP3162552B2 (ja) | 郵便物あて名認識装置及びあて名認識方法 | |
Lii et al. | Address block location using character recognition and address syntax | |
Puri et al. | Sentence detection and extraction in machine printed imaged document using matching technique | |
Premachandra et al. | Converting high resolution multi-lingual printed document images in to editable text using image processing and artificial intelligence | |
Leishman | Shape-free statistical information in optical character recognition | |
JPH11300288A (ja) | 文書理解装置および郵便区分機 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20050223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060412 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060412 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060412 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060613 |