JP2685257B2 - 認識方法 - Google Patents
認識方法Info
- Publication number
- JP2685257B2 JP2685257B2 JP63320448A JP32044888A JP2685257B2 JP 2685257 B2 JP2685257 B2 JP 2685257B2 JP 63320448 A JP63320448 A JP 63320448A JP 32044888 A JP32044888 A JP 32044888A JP 2685257 B2 JP2685257 B2 JP 2685257B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- recognition
- character
- candidates
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Discrimination (AREA)
Description
【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、例えば住所等の認識方法に関する。
(従来の技術) 従来の文字認識、単語認識では、対象たるデータと基
準となる辞書との比較をし一致したものを認識結果とし
て処理していた。このため、辞書が膨大になればなる
程、検策時間が長くってしまい、検索効率が低下してし
まった。
準となる辞書との比較をし一致したものを認識結果とし
て処理していた。このため、辞書が膨大になればなる
程、検策時間が長くってしまい、検索効率が低下してし
まった。
(発明が解決しようとする課題) このように従来の認識技術では検索に要する時間が長
くなってしまった。
くなってしまった。
そこで、本発明は検索時間が圧縮された認識方法を提
供することを目的とする。
供することを目的とする。
[発明の構成] (課題を解決するための手段) 郵便物上に複数行若しくは複数列に亘って記載された
住所を読取って認識する認識方法において、前記複数行
若しくは複数列における単語の位置情報及び前記単語の
文字種から、読取った単語の属性を推定する第1のステ
ップと、前記読取った単語と、予め属性が対応づけられ
た単語を格納する辞書とのマッチングを行い、単語候補
を属性と対応づけて複数抽出する第2のステップと、こ
の第2のステップによって抽出された前記単語候補の属
性と、前記第1のステップで推定された属性とが一致す
る単語候補についてのみ認識処理を行う第3のステップ
と、からなることを特徴とする認識方法である。
住所を読取って認識する認識方法において、前記複数行
若しくは複数列における単語の位置情報及び前記単語の
文字種から、読取った単語の属性を推定する第1のステ
ップと、前記読取った単語と、予め属性が対応づけられ
た単語を格納する辞書とのマッチングを行い、単語候補
を属性と対応づけて複数抽出する第2のステップと、こ
の第2のステップによって抽出された前記単語候補の属
性と、前記第1のステップで推定された属性とが一致す
る単語候補についてのみ認識処理を行う第3のステップ
と、からなることを特徴とする認識方法である。
(作用) 本発明によれば、検索対象を属性により限定するの
で、検索時間が大巾に圧縮される。
で、検索時間が大巾に圧縮される。
(実施例) 次に本発明の一実施例につき図面を用いて詳細に説明
する。
する。
この実施例は、米国の郵便物を対象にした住所認識装
置に関する。この装置は、第1図に示されるよう入力部
11を含む。この入力部11は、CCD等の光電変換装置から
構成され、郵便物上の画像を「0」「1」の画像情報に
変換するものである。この入力部11で得られた画像情報
は、文字認識部13に供給される。この文字認識部13で
は、画像情報から文字を構成する情報を抽出し、個々の
文字について認識処理を実行する。この結果に対して単
語認識部15において、辞書17を用いて単語認識が実行さ
れる。単語認識の後、住所検索部19にて州名、都市名、
ストリート名の検索が実行される。この結果が出力部21
で表示等される。
置に関する。この装置は、第1図に示されるよう入力部
11を含む。この入力部11は、CCD等の光電変換装置から
構成され、郵便物上の画像を「0」「1」の画像情報に
変換するものである。この入力部11で得られた画像情報
は、文字認識部13に供給される。この文字認識部13で
は、画像情報から文字を構成する情報を抽出し、個々の
文字について認識処理を実行する。この結果に対して単
語認識部15において、辞書17を用いて単語認識が実行さ
れる。単語認識の後、住所検索部19にて州名、都市名、
ストリート名の検索が実行される。この結果が出力部21
で表示等される。
次に、動作、処理の詳細について説明する。まず、文
字認識部13での処理について説明する。ここでの処理は
大きく分けて二つあり、一つは文字の検出、他の一つが
検出された文字の認識である。
字認識部13での処理について説明する。ここでの処理は
大きく分けて二つあり、一つは文字の検出、他の一つが
検出された文字の認識である。
文字の検出は周知の技術にて実現される。まず、画像
情報に対して2軸方向(水平、垂直)に分布の統計をと
る。即ち、2軸方向の各々に射影をとり、「1」の数を
計数する。すると、文字のある場所では他の領域に比
し、「1」の数、即ち画素数が多いので、文字の検出は
容易に実現される。ただし、この時には、通常の認識処
理に用いるより粗い密度の画素により分布をとる。例え
ば、CCDでの読取り能力が8本/mmであり、通常の認識処
理でも8本/mmで行っていたとすると、上記の検出処理
には1本/mmの精度で行う。粗い画素での処理の方が文
字検出に誤りが生じないので好ましい。
情報に対して2軸方向(水平、垂直)に分布の統計をと
る。即ち、2軸方向の各々に射影をとり、「1」の数を
計数する。すると、文字のある場所では他の領域に比
し、「1」の数、即ち画素数が多いので、文字の検出は
容易に実現される。ただし、この時には、通常の認識処
理に用いるより粗い密度の画素により分布をとる。例え
ば、CCDでの読取り能力が8本/mmであり、通常の認識処
理でも8本/mmで行っていたとすると、上記の検出処理
には1本/mmの精度で行う。粗い画素での処理の方が文
字検出に誤りが生じないので好ましい。
この文字検出では、2軸方向に射影をとるが、一の方
向の射影には切れ目(画素のない領域)があり、しかも
その間隔がある一定値以上になっている。この方向を第
1の方向と呼ぶ。他の方向の射影は、切れ目がないか、
あったとしてもその間隔が狭い。
向の射影には切れ目(画素のない領域)があり、しかも
その間隔がある一定値以上になっている。この方向を第
1の方向と呼ぶ。他の方向の射影は、切れ目がないか、
あったとしてもその間隔が狭い。
ここでは、切れ目のある方向に沿って「行」が構成さ
れていると考えられる。よって、上記の切れ目に沿っ
て、「行」を切出していく。
れていると考えられる。よって、上記の切れ目に沿っ
て、「行」を切出していく。
行を切出したなら、この行を構成する領域の画像に対
して、第1の方向とは垂直な第2の方向に沿って射影を
取る。これにより、文字のある領域では画素がカウント
され、文字のない領域では画素がカウントされない。こ
の処理においては、扱う画素密度を行切出し時より精密
なものにしても良い。上記と同様に、文字の存在の有無
が第2の方向への射影となって表れる。よって、行に対
して文字の切出しが出来、文字検切が達成される。
して、第1の方向とは垂直な第2の方向に沿って射影を
取る。これにより、文字のある領域では画素がカウント
され、文字のない領域では画素がカウントされない。こ
の処理においては、扱う画素密度を行切出し時より精密
なものにしても良い。上記と同様に、文字の存在の有無
が第2の方向への射影となって表れる。よって、行に対
して文字の切出しが出来、文字検切が達成される。
文字の検切に引続き、文字認識が行われる。この実施
例では、例えば複合類似度法を用いて文字認識を行な
う。
例では、例えば複合類似度法を用いて文字認識を行な
う。
ここまでが、文字認識部13での処理であり、文字認識
部13からは、個々の文字についての情報が得られる。こ
の文字認識の後、単語認識部15にて、文字の組合わせで
ある単語の認識が実行される。
部13からは、個々の文字についての情報が得られる。こ
の文字認識の後、単語認識部15にて、文字の組合わせで
ある単語の認識が実行される。
この認識処理について説明する。まず、辞書17の構成
は、第2図に示されるように、単語に対して属性が付さ
れている。具体的には、属性は3ビットで表現される。
第1ビットは、ストリート名として使用されていること
を示すビット、第2ビットは都市名として使用されてい
ることを示すビット、第3ビットは州名として使用され
ていことを示すビットである。
は、第2図に示されるように、単語に対して属性が付さ
れている。具体的には、属性は3ビットで表現される。
第1ビットは、ストリート名として使用されていること
を示すビット、第2ビットは都市名として使用されてい
ることを示すビット、第3ビットは州名として使用され
ていことを示すビットである。
このような辞書17を用いて認識処理を実行するが、以
下の説明では第3図に示されるような郵便物を対象とし
て認識処理を実行するものとする。説明の都合上、第3
図の対象に対し、「MOUNTLAKE」「TERRACE」「WASHINGT
ON」「DC」「98043」という単語が切出されたものとす
る。
下の説明では第3図に示されるような郵便物を対象とし
て認識処理を実行するものとする。説明の都合上、第3
図の対象に対し、「MOUNTLAKE」「TERRACE」「WASHINGT
ON」「DC」「98043」という単語が切出されたものとす
る。
続いて、切出された単語に対し、郵便物等の住所表記
に対するいくつかの規則により、当該単語の属性を予め
推定する。この規則としては以下のようなものがある。
に対するいくつかの規則により、当該単語の属性を予め
推定する。この規則としては以下のようなものがある。
例えば、一般的には、住所のうち、最下行の右にある
のが州名である。ただし、アルファベットの場合であ
り、数字の場合にはジップコード(ZIP CODE)であ
る。ジップコードは米国で利用されている郵便番号であ
る。州名の左が都市名である。これで、通常1行であ
り、この上の行に記載されてるのがストリート名であ
り、場合により宛先になっている。実施例の説明で取上
げた住所表記であると、「WASHINGTON」の属性が都市名
と推定される 一方、切出された単語に対して、辞書17の内容との一
致度が求められる。この一致度は、例えばトリグラムと
いう手法に従って実行される。すなわち、単語を3文字
単位のトリグラムに分割し、この分割したトリグラムと
辞書とのマッチングをとる。具体的には、「WAS」「AS
H」「SHI」…「TON」「NMA」のトリグラムが抽出され、
各トリグラムに対し位置、文字が一致する単語を辞書17
から抽出する。この時出現頻度を係数し、出現頻度の高
いものの上位複数を認識候補として出力する。この実施
例では、読取り結果「WASHINGTON」に対し、7個の認識
候補が一旦抽出される。なお、ここでの一致度とは上記
のトリグラムの出現頻度を点数化したもので、トリグラ
ムの数に等しい一致数がある場合が100であり、以下一
致数が低減するに従い点数が低下していく。
のが州名である。ただし、アルファベットの場合であ
り、数字の場合にはジップコード(ZIP CODE)であ
る。ジップコードは米国で利用されている郵便番号であ
る。州名の左が都市名である。これで、通常1行であ
り、この上の行に記載されてるのがストリート名であ
り、場合により宛先になっている。実施例の説明で取上
げた住所表記であると、「WASHINGTON」の属性が都市名
と推定される 一方、切出された単語に対して、辞書17の内容との一
致度が求められる。この一致度は、例えばトリグラムと
いう手法に従って実行される。すなわち、単語を3文字
単位のトリグラムに分割し、この分割したトリグラムと
辞書とのマッチングをとる。具体的には、「WAS」「AS
H」「SHI」…「TON」「NMA」のトリグラムが抽出され、
各トリグラムに対し位置、文字が一致する単語を辞書17
から抽出する。この時出現頻度を係数し、出現頻度の高
いものの上位複数を認識候補として出力する。この実施
例では、読取り結果「WASHINGTON」に対し、7個の認識
候補が一旦抽出される。なお、ここでの一致度とは上記
のトリグラムの出現頻度を点数化したもので、トリグラ
ムの数に等しい一致数がある場合が100であり、以下一
致数が低減するに従い点数が低下していく。
第4図のような単語候補が抽出されたなら、住所認識
部19にて住所認識が実行される。これは、複数の単語候
補(又は組合せ)の中から、最も正しい住所らしいもの
を選択する処理である。このために、具体的には前後の
単語との連結を調べたりする。例えば、「WASHINGTON」
に対し、その前に「「TERRACE」が接続するか否か、そ
の後に「DC」が接続するか否かを順次調べていく。この
処理は非常に時間を要する処理であり、単語認識の結
果、認識候補が増えれば増える程、処理に要する時間は
長くなる。
部19にて住所認識が実行される。これは、複数の単語候
補(又は組合せ)の中から、最も正しい住所らしいもの
を選択する処理である。このために、具体的には前後の
単語との連結を調べたりする。例えば、「WASHINGTON」
に対し、その前に「「TERRACE」が接続するか否か、そ
の後に「DC」が接続するか否かを順次調べていく。この
処理は非常に時間を要する処理であり、単語認識の結
果、認識候補が増えれば増える程、処理に要する時間は
長くなる。
これに対し、この実施例では第4図に示されるような
単語候補として抽出したもの全てに対し上記処理を施す
のではなく、読取り時に推定された単語の属性と一致す
るものののみを処理の対象とするものである。
単語候補として抽出したもの全てに対し上記処理を施す
のではなく、読取り時に推定された単語の属性と一致す
るものののみを処理の対象とするものである。
第4図の例で説明すると、「WASHINGTON」が都市名な
どで、7個の認識候補から4個の認識候補が落とされ、
第5図に示されるように3個の候補だけに絞られる。す
なわち、従来では、7個の認識候補に住所認識のための
処理を施していたが、この実施例では3個の認識候補に
対してのみ住所認識のための処理が施される。よって、
本実施例では住所認識に要する時間は概略1/2になる。
どで、7個の認識候補から4個の認識候補が落とされ、
第5図に示されるように3個の候補だけに絞られる。す
なわち、従来では、7個の認識候補に住所認識のための
処理を施していたが、この実施例では3個の認識候補に
対してのみ住所認識のための処理が施される。よって、
本実施例では住所認識に要する時間は概略1/2になる。
これら候補に対し、種々の評価量により、正当性が推
定され、最も確からしいものが認識結果として出力され
る。
定され、最も確からしいものが認識結果として出力され
る。
[発明の効果] 以上説明したように本発明によれば、膨大な住所情報
の検索を極めて効率よく高速で実行することが出来る。
の検索を極めて効率よく高速で実行することが出来る。
第1図は一実施例に係る装置の構成を示すブロック図、
第2図は第1図に示される辞書の構成を示す図、第3図
は読取り対象の一例を示す図、第4図は第2図に示され
る辞書を利用して抽出した単語候補を示す図、第5図は
第4図に示す単語候補から実施例のアルゴリズムにより
認識候補を絞った結果を示す図である。 11……入力部 13……文字認識部 15……単語認識部 17……辞書 19……住所認識部 21……出力部
第2図は第1図に示される辞書の構成を示す図、第3図
は読取り対象の一例を示す図、第4図は第2図に示され
る辞書を利用して抽出した単語候補を示す図、第5図は
第4図に示す単語候補から実施例のアルゴリズムにより
認識候補を絞った結果を示す図である。 11……入力部 13……文字認識部 15……単語認識部 17……辞書 19……住所認識部 21……出力部
Claims (1)
- 【請求項1】郵便物上に複数行若しくは複数列に亘って
記載された住所を読取って認識する認識方法において、 前記複数行若しくは複数列における単語の位置情報及び
前記単語の文字種から、読取った単語の属性を推定する
第1のステップと、 前記読取った単語と、予め属性が対応づけられた単語を
格納する辞書とのマッチングを行い、単語候補を属性と
対応づけて複数抽出する第2のステップと、 この第2のステップによって抽出された前記単語候補の
属性と、前記第1のステップで推定された属性とが一致
する単語候補についてのみ認識処理を行う第3のステッ
プと、 からなることを特徴とする認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63320448A JP2685257B2 (ja) | 1988-12-21 | 1988-12-21 | 認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63320448A JP2685257B2 (ja) | 1988-12-21 | 1988-12-21 | 認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH02166588A JPH02166588A (ja) | 1990-06-27 |
JP2685257B2 true JP2685257B2 (ja) | 1997-12-03 |
Family
ID=18121563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63320448A Expired - Fee Related JP2685257B2 (ja) | 1988-12-21 | 1988-12-21 | 認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2685257B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5161245A (en) * | 1991-05-01 | 1992-11-03 | Apple Computer, Inc. | Pattern recognition system having inter-pattern spacing correction |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2671311B2 (ja) * | 1986-08-26 | 1997-10-29 | 日本電気株式会社 | 住所読取装置 |
-
1988
- 1988-12-21 JP JP63320448A patent/JP2685257B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH02166588A (ja) | 1990-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5943443A (en) | Method and apparatus for image based document processing | |
US5161245A (en) | Pattern recognition system having inter-pattern spacing correction | |
JP3452774B2 (ja) | 文字認識方法 | |
US20100121631A1 (en) | Data detection | |
JP3388867B2 (ja) | 宛名領域検出装置および宛名領域検出方法 | |
JPS63182793A (ja) | 文字切り出し方式 | |
JP2685257B2 (ja) | 認識方法 | |
JPH06124366A (ja) | 住所読取装置 | |
JP3162552B2 (ja) | 郵便物あて名認識装置及びあて名認識方法 | |
JPH02181269A (ja) | 住所認識方式 | |
JPH01201789A (ja) | 文字読取装置 | |
JP2640472B2 (ja) | 文字認識方法 | |
JPH09245120A (ja) | 文字切出し方法 | |
JPH10198761A (ja) | 文字認識方法および文字認識装置 | |
JPH07160810A (ja) | 文字認識装置 | |
JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
JP2734387B2 (ja) | 文字認識装置 | |
JPH06111079A (ja) | 単語読み取り装置 | |
JPH08315069A (ja) | 文字認識方法 | |
JPH053631B2 (ja) | ||
JPS63136286A (ja) | オンライン文字認識方式 | |
JP2972443B2 (ja) | 文字認識装置 | |
JPH0436432B2 (ja) | ||
JPH02173886A (ja) | 単語認識方式 | |
JPH02173883A (ja) | 住所検索方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |