JPH10328624A - 文書理解装置および郵便区分機 - Google Patents

文書理解装置および郵便区分機

Info

Publication number
JPH10328624A
JPH10328624A JP15587997A JP15587997A JPH10328624A JP H10328624 A JPH10328624 A JP H10328624A JP 15587997 A JP15587997 A JP 15587997A JP 15587997 A JP15587997 A JP 15587997A JP H10328624 A JPH10328624 A JP H10328624A
Authority
JP
Japan
Prior art keywords
information
recognition
notation
name
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP15587997A
Other languages
English (en)
Other versions
JP3712831B2 (ja
Inventor
Hiromichi Fujisawa
浩道 藤澤
Hiroko Kida
裕子 木田
Hiroshi Ueda
洋 上田
Yutaka Sako
裕 酒匂
Masashi Koga
昌史 古賀
Hisao Ogata
日佐男 緒方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP15587997A priority Critical patent/JP3712831B2/ja
Publication of JPH10328624A publication Critical patent/JPH10328624A/ja
Application granted granted Critical
Publication of JP3712831B2 publication Critical patent/JP3712831B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 高い信頼度で文字列を認識、解釈する装置、
特に高い信頼度で宛名情報を認識、解釈する装置を提供
することにある。 【解決手段】 文字識別502で生成された文字切出し仮
説ネットワークは、551乃至555の各認識照合部に入力さ
れる。551、552では、公的住所表記に関する事前知識1
を参照して都道府県から街区までの認識照合を行い、結
果を後段に出力する。553は建物名について私的住所表
記に関する事前知識2を参照して認識照合を行い、561
は建物名と人名・会社名に関する事前知識2から街区の
候補を生成し、571は552と561からの街区情報を用いて
より信頼度の高い街区情報を得る。554、555は553と同様
にして夫々部屋番号、人名・会社名の認識照合を行い、
562は561と同様にして部屋番号の候補を生成し、572は5
71と同様にして信頼度の高い部屋番号情報を得る。573
で街区と部屋番号の統合をする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文字認識技術を用い
て、紙面に記載された文字情報を読み取って解釈する文
書理解装置と、この文書理解装置を用いた郵便区分機に
関する。
【0002】
【従来の技術】従来、文字列で表現された紙面上の文字
情報を文字認識技術を用いて読み取る際は、その文字列
を左から右へ(上から下へ)順番に読み取って、その読
み取り結果に基づき、たとえば、宛名情報の場合、県
名、市町村名、地番、ビル名などの解釈を逐次与えてい
た。
【0003】
【発明が解決しようとする課題】しかし、従来技術で
は、かすれた文字を含む低品質の印刷文字や、変形の大
きい手書き文字を読み取る場合、途中の文字が正しく認
識できないときは、全体の解釈を正しく行えないことが
多かった。
【0004】したがって、本発明の目的は、この問題を
解決して、高い信頼度で文字列を認識、解釈する装置、
特に高い信頼度で宛名情報を認識、解釈する装置を提供
することにある。
【0005】
【課題を解決するための手段】上記の課題を解決するた
め、本発明は、紙葉上に記載された宛名情報をデジタル
画像データに変換し、該デジタル画像データを用いて該
宛名情報を文字識別し、文字識別結果と宛名情報に関す
る知識データベースに基づき宛名情報の認識を行う文書
理解装置であり、前記知識データベースは、公的住居表
記に関する事前知識1と私的住居表記に関する事前知識
2を備え、前記文字識別結果を入力し、前記事前知識1
を参照して公的住居表記情報を認識する公的住居表記認
識照合手段と、前記文字識別結果と公的住居表記認識照
合手段の出力を入力し、前記事前知識2を参照して前記
認識した公的住居表記情報に対応する私的住居表記情報
を検索し、該検索した私的住居表記情報と前記文字識別
結果に基づき私的住居表記情報を認識する私的住居表記
認識照合手段を備えるようにしている。
【0006】また、紙葉上に記載された宛名情報をデジ
タル画像データに変換し、該デジタル画像データを用い
て該宛名情報を文字識別し、文字識別結果と宛名情報に
関する知識データベースに基づき宛名情報の認識を行う
文書理解装置であり、前記知識データベースは、公的住
居表記に関する事前知識1と私的住居表記に関する事前
知識2を備え、前記文字識別結果を入力し、前記事前知
識1を参照して公的住居表記情報を認識する公的住居表
記認識照合手段と、前記文字識別結果と公的住居表記認
識照合手段の出力を入力し、認識した公的住居表記情報
により前記事前知識2から私的住居表記の建物名を検索
し、検索結果と前記文字識別結果に基づき建物名を認識
する建物名認識照合手段と、該建物名認識照合手段の出
力を入力し、認識した建物名により前記事前知識2から
該建物名に属する固有の情報を検索し、該固有の情報に
基づき街区情報の候補を生成する街区仮説生成手段と、
該街区情報の候補と前記公的住居表記認識照合手段で得
られた街区情報に基づき信頼度の高い街区情報を生成す
る街区情報統合手段を備えるようにしている。
【0007】また、前記文字識別結果と建物名認識照合
手段の出力を入力し、認識した建物名により前記事前知
識2から該建物名に属する固有の情報を検索し、該固有
の情報に基づき部屋番号情報を求め、該部屋番号情報と
前記文字識別結果に基づき部屋番号を認識する部屋番号
認識照合手段と、前記文字識別結果と、前記公的住居表
記認識照合手段及び建物名認識照合手段及び部屋番号認
識照合手段の各出力とを入力し、該各出力の情報により
前記事前知識2から人名・会社名を検索し、検索結果と
前記文字識別結果に基づき人名・会社名を認識する人名
・会社名認識照合手段と、人名・会社名認識照合手段の
出力を入力し、認識した人名・会社名により前記事前知
識2から該人名・会社名に属する固有の情報を検索し、
該固有の情報に基づき部屋番号情報を候補を生成する部
屋番号仮説生成手段と、該部屋番号情報の候補と前記部
屋番号認識照合手段で得られた部屋番号情報に基づき信
頼度の高い部屋番号情報を生成する部屋番号情報統合手
段と、前記街区情報統合手段と前記部屋番号情報統合手
段の各出力を入力し、街区情報と部屋番号情報の整合性
を前記事前知識2を参照して調べ、整合性のある街区情
報と部屋番号情報を統合して出力する街区・部屋番号情
報統合手段を備えるようにしている。
【0008】また、前記街区仮説生成手段は、前記建物
名認識照合手段と前記人名・会社名認識照合手段の各出
力を入力し、認識した建物名と人名・会社名のそれぞれ
により前記事前知識2から該建物名に属する固有の情報
と該人名・会社名に属する固有の情報を検索し、これら
固有の情報に基づき街区情報の候補を生成するようにし
ている。
【0009】さらに、郵便物に記載された宛名情報を認
識して、認識結果に基づき郵便物を宛先別に区分する郵
便区分機において、前記宛名情報を認識するための装置
として、上記記載の文書理解装置を備えるようにしてい
る。
【0010】
【発明の実施の形態】以下、本発明の概要と原理を説明
する。
【0011】宛名情報の例を図1に示す。
【0012】宛名情報には、「東京都千代田区神田駿河
台1ノ2ノ3」のような公的な住居表記部分と、「駿河
台ビルA−103 日立太郎」のような私的な住居表記
部分がある。以下、公的な住居表記部分に係る情報を公
的住居表記情報または公的情報、私的な住居表記部分に
係る情報を私的住居表記情報または私的情報という。宛
名情報を対象とする文書理解方式が利用できる情報の冗
長性には、隣接する文字間に存在する冗長性と、表現す
る情報間に存在する意味的な冗長性とがある。文字間の
冗長性は、公的な住居表記部分にあり、図2に示すよう
に、単語を構成する文字の接続規則(例えば、「東」、
「京」、「都」から「東京都」を構成する規則)や、節
を構成する単語の接続規則(例えば、「東京都」、「千
代田区」から「東京都千代田区」を構成する規則)があ
る。これらの語彙情報や、単語のつながり方を規定する
統語規則を用いて、文(文字列)を解釈する方法は既に
知られている。
【0013】一方、図1の宛名情報の場合、意味的な冗
長性は、私的な住居表記部分または私的な住居表記部分
と公的な住居表記部分の間にあり、図3に示すような情
報間の関係(予測性)がある。例えば、宛名情報2の解
釈の結果、「千代田区神田駿河台」が認識できたとする
と、その地域に属するビルやアパートに関する私的情報
を蓄積した知識ベースから検索したビルなどの名前と、
宛名情報2内の「駿河台ビル」に対する文字認識の解釈
とを参照して、宛名情報2にある「駿河台ビル」を認識
することができる。この関係を図3ではリンク1001で表
す。同ビル名が認識できたとすると、今度は同知識ベー
スから「駿河台ビル」に属する固有情報を検索すること
により、「駿河台ビル」の住所は「千代田区神田駿河台
1-2-3」であるので、宛名情報の2の内の街区までの情報
は「千代田区神田駿河台1-2-3」あろうことを推論する
ことができる。このように、この場合は、街区表記「1-
2-3」を認識しなくても、「駿河台ビル」を認識するこ
とによって、同ビルに属する固有情報に基づき街区の情
報「1-2-3」を推論できる。あるいは、宛名情報2の解釈
の結果、「1-2-3」も認識したとすると、2つの情報源
からそれを推論することになるので、高い確信度で「1-
2-3」を決定することができる。これが上記の意味的な
冗長性とその利用方法の例である。
【0014】図3は、その他にも多くの冗長性が存在し
ていることを示している。例えば、リンク1003は、「神
田駿河台」に住んでいる人の名前の知識ベースを持って
いるとすれば、その知識ベースの内容と宛名情報2内の
「日立太郎」に対する文字認識の解釈とを参照して、
「日立太郎」を認識して、さらに、「日立太郎」に属す
る固有の情報を検索することにより、その人の住んでい
る部屋番号「A-103」を推論することができることを表
している。この推論に基づいてその部屋番号の宛名情報
2上の記載を調べ、存在する場合はその認識結果の確信
度を高めることができる。そして、最終的に「千代田区
神田駿河台1-2-3-A-103」を認識結果とすることができ
る。
【0015】同様に、リンク1004は、「千代田区神田駿
河台1-2-3」を認識できたとすると、「駿河台ビル」が
そこに存在することを推論できることを表している。従
って、同ビル名が宛名情報2上に記載されているかどう
かを調べて、存在する場合は、上記の「千代田区神田駿
河台1-2-3」の認識が正しいという確信度を高めること
ができる。さらにまた、リンク1005は、認識結果として
の「千代田区神田駿河台1-2-3」からそこに住んでいる
「日立太郎」を推論して、その名前が宛名情報として記
載されていることが認識できれば、部屋番号「A-103」
をさらに推論して、最終的に「千代田区神田駿河台1-2-
3-A-103」を認識結果とすることができる。
【0016】本発明は、このように私的情報間または私
的情報と公的情報の間に内在する関係(冗長性)を利用
して、信頼度高く記載情報を解釈する装置を提供する。
後述するように、本発明を用いて宛名情報を対象とする
文書理解装置は、前記の公的住所表記に関する知識(以
下、事前知識1という)と、地域ごとに存在するビルや
アパートやそれぞれの町に居住している人の名前などの
私的住所表記に関する知識(以下、事前知識2という)
を事前知識として知識ベースに記憶しておく。
【0017】以下に、本実施形態について詳細に説明す
る。図4は文書理解装置の基本的な機能構成である。読
取対象の紙葉1は、例えば図1に示すような記載があ
る。同紙葉はスキャナ101によって、デジタル画像デー
タに変換される。文書理解装置は、この画像データに対
して、文字領域の切出し102、文字切出し仮説の生成10
3、文字識別104を行い、この文字認識結果と事前知識10
6による知識照合105を行い、認識結果109を出力する。
文書理解の第1の処理は文字領域の切出し102である。
紙葉1の画像から記載領域2を検出して、さらに文字行ご
とに、図5に示すように、画像領域51、52、53を切出
す。
【0018】次の処理は、文字切出し仮説の生成処理10
3である。ここで、「仮説」とは「候補」と同じ意味で
ある。一行づつ切出された文字行画像51、52、53を処理
して、図6に示すように、文字切出し仮説を作り、ネッ
トワークとして表す(同図は、図5の文字行の一部につ
いてのみ示す)。画像を構成する画素の値が1(黒を表
わす)である連続した領域をラベリングと呼ぶ処理で抽
出する。抽出される連結した黒画素のかたまり(パター
ン)を黒連結成分と呼ぶ。隣接する黒連結成分(1個ま
たは複数)を1文字を構成するであろう最小部分(基本
成分)と見做して、これらで図6に示すネットワークの
基幹部を構成する。次に1文字を構成する可能性があり
そうないくつかの隣接する基本成分をまとめて、グラフ
の辺を追加する。この処理を全体に対して行うことによ
って、図6に示すような文字切り出し仮説ネットワーク
を作ることができる。ここで図6は、図5の文字行51の
前半部についてのみ示している。すなわち、「1ノ2ノ
3」に対応する部分もデータとしては存在するが、図6
においては、図の簡単化のため図示していない。
【0019】文字の切出しは、手書き文字の場合は特に
難しく、文字識別の前に一意に決定することはできな
い。従って、図6に示すように、可能性のある切り方を
仮説の形態で残しておき、それら複数の仮説を対象に、
次の文字識別を行う。図6はそのような複数の仮説を表
す。同ネットワークは、切出された文字(またはその部
分)の画像と、それらの組合せ(1つの場合もある)の
画像をアーク(グラフにおける辺のこと)に付属させ、
それぞれ異る切出し方を一つのグラフ(ネットワーク)
の中に表現する。図6は、これを図式的に表している
が、計算機内部のデータとしても表現できる。同図にお
いて、アーク3は「都」の旁の部分に対応する部分画像
を、アーク4は「都」の偏の部分に対応する部分画像を
表している。また、アーク16は、これら2つの部分画像
を組合せたもので、別の切出し仮説を表している。
【0020】次に、文字識別104は、上記の文字切出し
仮説ネットワークのアークに付属された部分画像を処理
し、図7Aで示すような文字識別結果を出力する。文字
識別方式としては、従来技術を用いることができる。印
刷漢字および手書漢字を識別する方式としては、文字ス
トロークの方向性を抽出する「方向性パターン整合法」
が知られている。ここでは、詳細を省略するが、パター
ン整合法では、未知パターンの画像(または特徴ベクト
ル)と別途パターン辞書に記憶しておく参照パターン
(画像、または特徴ベクトル)との類似性を類似度と呼
ぶ0から1の数値(実数)として計測することができ
る。図7Aに示す識別結果は、類似度が大きい順に文字
カテゴリとその類似度を並べたものであり、文字候補ラ
ティスと呼ぶ、同図で第1カラムのIDは、図6における
アーク番号である。これによって、文字切出し仮説ネッ
トワークの各アークに類似度を付与することができる。
例えば、IDが1のアークには、図7Aに示すラティスか
らその行の最大類似度0.91が選ばれ、同アークの類似度
とされる。次に、これらアークに付与される類似度を用
いて、文字切出し仮説ネットワークにおいて、左端から
右端に至る最適な道(パス)を選び出すことができる。
ここで「最適パス」とは、そのパスを構成するアークの
類似度の総和が最大なものである。また、アークを構成
する部分画像には、複数の部分画像を組合せたもの、例
えばアーク16は2個のパターン(アーク3とアーク4)か
ら構成されるものがあり、従って、アーク16と、アーク
3・アーク4のパスを類似度の総和で比較することは公平
ではない。従って、複数の部分画像で構成されるアーク
の場合は、その部分画像の数だけその類似度を余分に加
算する。これによって、パス毎の長さに関する適切な正
規化を行うことができる。
【0021】このようにして、図6の場合は、太い線で
示したアークの連なりが最適パスとして選択できる。こ
の例の場合は、最適パスは、アーク1、2、16、5、18、8、9、1
0、11、12、20、15で構成されるパスである。この最適パス
に対して、選ばれなかったアーク(例えば、この場合
は、3、4、17、6、7、19、13、14)を除外した文字候補
ラティス一つが改めて図7Bに示すように作られる。実
際は、この最適パスが誤っていることもあるので、類似
度の総和が最大なパスのみならず、第2位、第3位など
の複数のパスを選択し、後段の処理に送る。従って、文
字候補ラティスはその数だけ作られる。それ以降の処理
は、これら複数の候補ラティスを対象とする。なお、図
6および図7では、一部分についてのみ記したが、これ
らの処理は図5に示す全ての文字行について行う。
【0022】つぎに、知識照合処理105は、すべての文
字行から作られる複数の文字候補ラティスに対して行わ
れる。図8は知的照合処理105の詳細をデータフロー図
の形式で示したものである。図8において、処理501お
よび処理502は、それぞれ前述した切出し仮説生成処理
と文字識別処理である。その結果は、文字切出し仮説ネ
ットワーク503である。上述の文字候補ラティスはこれ
に付随している。これら文字切出し仮説ネットワークと
文字候補ラティスはデータ504として、処理部551,55
2,553,554,555へ送られる。これらの処理は、それぞ
れ異なるハードウェア(プロセッサ)で実現しても良い
し、1つのプロセッサで処理しても良い。前者の場合、
すなわち、異なる複数のプロセッサで実現する場合は、
並行処理(並列処理)が可能である。後者の場合は、図
8で並行処理ができるように記載されているが、実際に
はプログラム化された順序で逐次的に実行される。デー
タ504を後段の処理部に送る方法は、異なるプロセッサ
の場合は、データバスを介するデータ転送になるが、同
一プロセッサの場合は、メモリ上でのデータの受け渡し
になる。
【0023】まず、町域認識照合処理551について説明
する。同処理部は内部に、図9に示す第1種の事前知識
を表データの形式で保持している。具体的には、図9に
示すように、都道府県名、市町村名、町名に現れる単語
知識を有する(同図(a)(b)(c))。さらに、この単語知
識には、どの単語がどの単語に続くことができるかとい
う情報である統語知識も含む。たとえば、同図(b)にお
いて、市IDがCO517の「千代田区」は、親IDがK31である
と、記憶されており、それは同図(a)の都道府県名リス
トをみると「東京都」であることが記憶されている。す
なわち、単語「東京都」のあとには単語「千代田区」が
続き得ることを示している。同様に、「千代田区」には
図9(c)の町名リスト「千代田」から「神田駿河台」ほ
かが続くことが記憶されている。町域認識照合処理は、
これらの単語知識とそれらの統語知識とを用いて、文字
候補ラティスから単語列(句)、例えば、「東京都・千
代田区・神田駿河台」を認識する処理であり、既に知ら
れている方式がある。以下、本発明の理解を助けるため
に、その方式を説明する。
【0024】それには、まず、文字候補ラティスから図
13に示すような有限オートマンを構成し、このオート
マンに単語(文字例)を流し込むことにより、その単語
がこの文字候補集合から再構成し得る単語かどうか、す
なわち、その単語を認識結果としてよいかどうかを判断
することができる。この処理が単語照合の処理である。
具体的には、ラティスの行の数より1つ多い状態(図1
3における丸印)を作り、1つの文字候補をある状態か
らつぎの状態への遷移リンク(矢印)で表す。例えば、
第1文字の第1位候補「東」は状態0から状態1に至る
第1の遷移リンク、同第2位候補「菓」は状態0から状
態1に至る第2の遷移リンク、第2文字の第1候補
「宗」は状態1から状態2に至る遷移リンク、という具
合にオートマトンを作る。有限オートマトンは、公知の
方法によってソフトウェア的には状態遷移表を用いて容
易に作ることができる。
【0025】ある単語が文字候補集合から再構成できる
かどうかは、その単語を構成する文字列の各文字がこの
有限オートマトンのどの遷移リンクを通るかで判断でき
る。例えば、単語「東京都」が最初の3文字に存在する
かどうかを見るには、まず文字「東」は状態0からどの
リンクを通って状態1に至るかを見る。状態遷移表を用
いるオートマトンは、この検索を高速に実現することが
できる。図13の場合、第1のリンクが「東」であるこ
とが分かる。つぎに、文字「京」が状態1から状態2に
どのリンクを通って遷移するかを同様に検索する。この
場合、第2のリンクであることが分かる。同様に、文字
「都」は第2のリンクを通って、状態2から状態3へ至
ることが分かる。このとき、単語「東京都」の存在する
確信度は、それぞれの文字候補の類似度の総和で表すこ
とができる。あるいは、どのリンクを通ったかでペナル
ティを計算する方法もある。この場合、第1リンクを通
るときはペナルティ0、第2リンクを通るときはペナル
ティ1、第3リンクを通るときはペナルティ2、という
具合にする。この例の場合は、「東京都」のペナルティ
は0+1+1+=2となる。この検索処理で、もし、あ
る文字に対して対応する遷移リンクが存在しないときに
は、図13の「その他」という遷移リンクを通るものと
する。「その他」のリンクに対応する類似度やペナルテ
ィは、事前にパラメータの一つとして定数を充てる。
【0026】この処理は、論理的には、可能性のあるす
べての単語に対して、すべての状態から開始して行う。
その結果は図14の単語候補ラティスの形式で表すこと
ができる。例えば、図14は、状態0(1文字目)から
単語「東京都」と「XXX」が、状態1(2文字目)か
ら単語「京都」が、状態2(3文字目)から単語「YY
Y」が候補として上がったことを表している。最後の候
補は状態6(7文字目)から始まる単語「SSS」と
「神田駿河台」である。このように単語候補ラティス
は、どの位置にどのような単語がありそうかを確信度あ
るいはペナルティ付きで示している。この単語候補ラテ
ィスを作るところまでが町域認識照合処理551の前半の
処理である。
【0027】町域認識照合処理551の後半の処理は、単
語候補の中から統語規則を満足する単語のみを選び出す
ことである。これは単語候補ラティスの末端(右端)の
単語候補から始めて、順次左に接続できる単語が単語候
補ラティスの中にあるかどうかを、図9に示した第1種
知識の中の単語接続情報を参照して検証する。その結
果、図14に示すように、「神田駿河台」は「千代田
区」を接続できるが、単語「SSS」に接続できる単語
候補は存在しない、ということが分かる。最終的に、
「東京都・千代田区・神田駿河台」を句の候補とするこ
とができる。場合によっては、複数の句が候補となるこ
とがあるが、その場合は総合確信度あるいは総合ペナル
ティを用いて順位付けし、良い方を選択することができ
る。あるいはそれら複数の候補を並列して後段の処理に
送り、最終判断を後段でさせることもできる。
【0028】さて、町域認識照合処理551が行われ、そ
の結果、例えば文字列「東京都千代田区神田駿河台」が
認識されることとなり、その文字列とそれを表す町ID
「T2121」がデータ521,522,523として、後段の処理部
へ送られる。ただし、このデータには、いわゆる認識結
果「東京都千代田区神田駿河台」のみならず、この文字
列が文字候補ラティスのどの部分に対応するのかを示す
データも含む。これによって、後段の処理、例えば、街
区認識照合処理552は、自分がつぎに処理する部分はど
こであるのかを知ることができる。より具体的には、図
5の文字行、第1行目の「東京都・・・」から始めて
「・・・駿河台」までの認識照合処理を行ったことを示
すポインタ情報を含む。これによって、つぎに処理すべ
き部分は「1ノ2ノ3」であることが分かる。この場
合、ポインタ情報は、図7Bの文字候補ラティスにおけ
るNID番号の形式で示すことができる。
【0029】街区認識照合処理552は、データ504とデー
タ521を受け取り、上記のようにして判断される未だ処
理していない処理対象「1ノ2ノ3」の認識照合処理を
行う。同処理部は内部に、図10に示す第2種事前知識
を表形式のデータで保持する。具体的には、図10(a)
の街区表記パターンリストと図10(b)の街区表記形式
とを有する。前者は、街区表記(例えば、「1丁目2番
地3号」の部分の表記)にはどんな形式があり得るのか
を記憶する表である。同図において、記号Nはアラビア
数字を、記号NNは2桁のアラビア数字、記号NNNは
3桁のアラビア数字、さらに、記号Dは「の」「ノ」
「−」などの分離記号(デミリタ)を代表して表す。こ
の図には示してないが、街区表記パターンリストには、
上記の「1丁目2番地3号」や、縦書きのときの「五の
三の二」などの表記方法に対応するパターンも登録して
おく。図10(b)の街区表記形式は、町毎に、その町の
街区表記にはどんなパターンが有るのかを記憶するため
の表データである。街区の表記方法は、新住居表記方法
にすべてが移行してしまった地域と、古い表記方法(例
えば「1027番地の3」)が混在する地域、あるいは、ま
だ全てが古い表記方法に従っている地域が存在してい
る。従って、図10(b)に示す表はそれらを区別して規
定するためのものである。例えば、町域T2121は4つの
表記パターンP001、P002、P004、P005が許されることを
示している。
【0030】処理552は、この例の場合「1ノ2ノ3」
に対応する文字候補ラティス(図示省略)の各文字を記
号Nや記号Dに変換する。例えば、文字「1」に対し
て、候補「1」「7」がラティスに上がっていたとする
と、それらはそれぞれ記号「N」「N」に変換され、こ
の場合、同じ記号になるので、一つに併合する。第2文
字「ノ」に対しては、候補「ノ」「1」がラティスに上
がっていたとすると、それぞれ記号「D」「N」に変換
される。つぎに、この変換をうけたラティスから有限オ
ートマトンをつくり、そこへP001、P002、P004、P005に
対応する表記パターン(「NDNDN」など)を流し込むこと
によって、その認識結果は、表記パターン「NDNDN」に従
ったものであることが分かる。そして「N」「D」をも
との文字に戻すことによって、「1ノ2ノ3」と「7ノ
2ノ3」が認識結果候補として採用される。もし、表記
パターンに「NNNDN」があったとすると、この場合、「1
12ノ3」や「712ノ3」も認識結果候補の一つとな
る。
【0031】さて、街区認識照合処理552の処理結果
は、データ531、524、525として後段に送る。これらの
データは、データ521として受け取った町域認識結果、
街区認識照合結果(例えば「1−2−3」)、および先
程と同様に、この文字列が文字候補ラティスのどの部分
に対応するのかを示すポインタ情報である。街区認識照
合処理の結果、あいまい性が残り、結果を一意に決定で
きないときは、例えば、二つの結果「1−2−3」「7
−2−3」を並べて出力する。また、街区認識照合処理
の結果、候補を出すこともできない場合は、結果とし
て、認識不能を示す、例えば、文字列「?????」を
出力する。
【0032】上記した町域認識照合処理部と街区認識照
合処理部は、公的住居表記の認識照合処理部であり、該
2つの処理部を統合した処理部を公的住居表記認識照合
処理部と呼ぶ。また、上記した図9に示す第1種事前知
識と図10に示す第2種事前知識は、公的住居表記に関
する事前知識であり、該2つの事前知識を統合した事前
知識を公的住居表記に関する事前知識1と呼ぶ。
【0033】つぎに、建物名認識照合処理553は、デー
タ524、522、504を受けて、まだ処理していない画像部
分に対応する文字候補ラティスの部分を対象に、建物名
の認識と、事前知識との照合処理を行う。まだ処理して
いない画像部分とは、図5の例で云えば、文字行52と文
字行53である。同処理部553は、内部に、図11に示す
第3種事前知識、具体的には、建物リストを表形式のデ
ータで保持する。同表は、ある限定された地域に存在す
るアパートやビルなどの建物の名称、この建物に属する
固有の情報である、所在町名、同地番、そこに存在する
部屋番号の範囲などの私的情報を記憶している。それぞ
れの建物には、建物ID番号を付与する。所在町名は、図
9に示した町名リストの町ID番号で記憶する。地番は、
住居表記の基本形で、例えば、「1−2−3」と記憶す
る。部屋番号としては、アパートやビルなどの棟番号
や、ビルや雑居ビルの階数の情報、さらにその階数にお
ける部屋番号なども含めて記憶する。例えば「[A-B]-
[101-107][201-207]」は、該当する場所にはA棟、
B棟があり、部屋番号はそれぞれ101号室から107
号室と201号室から207号室があることを示してい
る。また、「[1F-8F]」は、その建物には、1階から
8階までのフロアーがあることを示している。
【0034】処理部553が入力するデータ522と524に
は、それぞれ認識結果としての町域と街区の情報が含ま
れているので、建物名リストにアクセスすることによっ
て、現在、認識結果の候補として上がっている地域には
どんな建物があるかを推論することができる。例えば、
データ522に町域認識照合結果として「千代田区神田駿
河台」、すなわち「T2121」が、また、データ524に「1
−2−3」が入っていれば、図11の建物名リストを参
照することによって、その地番(「千代田区神田駿河台
1−2−3」)には、「駿河台ビル」と「神田ハイツ」
が存在することが推論できる。また、更に文字行51は認
識が終了したことが分かり、認識対象の画像部分は、文
字行52と文字行53であることが分かる。
【0035】従って、処理部553は、文字行52と文字行5
3に対応する文字候補ラティスを対象に、(この場合)
2つの単語「駿河台ビル」「神田ハイツ」を仮説として
立てて、それらの単語が文字候補ラティスの中に存在す
るかどうかを検証する。この検証を実現するには、先に
説明した有限オートマトンを用いる単語照合方式を用い
ることができる。文字行52と文字行53に対応する文字候
補ラティスを有限オートマトンで表現し、そこへ単語
「駿河台ビル」「神田ハイツ」をすべての文字位置を開
始点として流し込むことによって、単語ラティスが作ら
れ、「駿河台ビル」が筆記されている場合はそれが単語
ラティスに現れることになる。一方、もし、データ522
に「T2121」が入っているが、データ524に「1−2−
3」が入っていない場合(もともと筆記されていない場
合と、筆記されているが認識不能の場合とがある)、処
理部553は、「T2121」の限定のみをかけて、すなわち
「千代田区神田駿河台」という限定のみをかけて、そこ
に存在する建物を認識仮説として認識照合処理を行う。
この場合、情報「1−2−3」が欠けているので、その
地域に存在する数多くの建物を対象にする必要がある。
これらの処理の結果、建物名が認識できたとすると、同
処理部553は、先と同様に、認識処理結果として文字列
「駿河台ビル」とそのID番号「B06123」を、処理した部
分を示すポインタとともに、、データ532、526、527と
して出力する。
【0036】つぎに、街区仮説(候補)生成処理561は、
入力するデータ532に建物を表すID番号が存在するとき
は、例えば、ID番号「B06123」をキーとして、建物名リ
ストにアクセスすることのよって、それが所在する街区
の情報を検出するという処理を行う。そして、この場
合、「B06123」をキーとして地番「1−2−3」を検索
し、この地番情報をデータ533として、街区情報統合部5
71へ出力する。もし、建物名認識照合553の結果が、あ
いまい性が故に複数の建物名を出力した場合は、それに
合わせて、街区仮説生成部も複数の地番を結果として出
力する。
【0037】街区仮説生成処理561は、さらに、図8に
示すように、人名・会社名認識照合部555からもデータ5
35を受け取る。詳細は後述するが、データ533は、人名
・会社名認識照合の結果として、人名や会社名のID番号
を含む。従って、同処理部561は、それらのID番号をキ
ーとして図12に示す個人名・会社名リストを検索し
て、街区情報を推論することができる。このようにして
得た街区情報もデータ533として、街区情報統合部571へ
出力される。
【0038】街区情報統合部571は、冗長性を利用する
一つの基本的な処理部である。データ531とデータ533は
ともに認識照合結果、あるいは推論結果としての街区情
報を含んでいる。これらの2つのデータの組合せには、 1)双方ともに地番を含んでいる場合、 2)データ531には地番が含まれているがデータ533には
含まれていない場合、 3)データ531には地番が含まれていないが、データ533
には含まれている場合、 4)データ531にもデータ533にも街区情報が含まれてい
ない場合、の4つのケースがある。
【0039】街区情報統合部571はこれら4つのケース
に対して、以下のような処理を行う。ケース4)は、未
記載か認識不能のケースであり、この場合は全体として
も認識不能であり、リジェクトを表す記号がデータ537
として出力される。ケース3)は、街区認識照合が失敗
したが、建物や氏名、あるいは会社名の認識が成功して
地番が推論できた場合である。この場合は、データ533
の内容をデータ537として出力する。ケース2)は、街
区認識照合は成功したが、アパート名などの記載がなか
ったり、建物名認識照合に失敗した場合で、データ533
には情報はないので、データ531の内容をデータ537とし
て出力する。
【0040】ケース1)は、街区認識照合が成功すると
ともに、建物名や人名の認識と街区の推論が成功したよ
うな場合である。この場合は、双方の情報が一致する場
合と、一致しない場合がある。さらに、双方がそれぞれ
複数の候補を出力し、それらから一つを最終結果として
選択する必要がある場合がある。例えば、データ531に
は「1−2−3」と「7−2−3」が含まれ、データ53
3には「駿河台ビル」から推論された「1−2−3」が
含まれる。この場合、「1−2−3」が共通であり、こ
の一致する街区情報を高い確信度で出力することができ
る。双方の出力がそれぞれ一つで一致する場合も、高い
確信度で内容をデータ537として出力する。一致しない
場合は、認識処理の失敗、知識ベースの不備、記載の誤
りの可能性があり、リジェクトという判定を行って、そ
れを表す記号をデータ537として出力する。認識のあい
まい性が故に、それぞれ複数の候補を出してきた場合
は、双方の候補集合の中に一致するものがあるか否かを
調べ、一致するものがある場合は、それを高い確信度で
データ537として出力する。もし、一致するものがない
場合は、上位候補の類似度を調べ、類似度がある一定の
類似度より高ければ、中程度の確信度でデータ537とし
て出力する。そうでなければ、リジェクト判定を行っ
て、それを表す記号をデータ537として出力する。この
処理の流れの例をPAD図式(Program Analysis Diagr
am)で図15に示す。
【0041】さて、つぎに部屋番号認識照合処理554の
説明をする。同処理部は建物名認識照合553の結果デー
タ526と、文字切出し仮説ネットワーク503からのデータ
504を受けて、図5に示すような文字行52の認識照合処
理を行う。データ526から、ここで認識すべき部分が「A
-103」に対応する部分であることが分かる。また、認識
された建物ID「B06123」から、図11に示すように、そ
こには「A棟」と「B棟」があり、また、部屋番号は
「101」から「107」、「201」から「207」、さらに「30
1」から「307」であることが分かる。文字切出し仮説ネ
ットワーク503が内包する文字候補ラティスに対して、
これらの事前知識を適用して認識照合候補をあげる。具
体的な処理の方法は、先に説明した有限オートマトンを
用いる単語照合方式を用いることができる。単語とし
て、「A-101」「A-102」…「A-307」「B-101」…「B-30
7」を自動生成して、これらすべてをオートマトンに流
し込むことによって、適切な候補を選び出すことができ
る。総合類似度あるいは総合ペナルティが近接している
値の場合は、複数の候補を、離れている場合は単一の候
補をデータ534、およびデータ528として出力する。
【0042】人名・会社名認識照合部555は、町域認識
照合処理551結果データ523、街区認識照合処理の結果デ
ータ525、建物名認識照合処理553の結果データ527、部
屋番号認識照合処理554の結果データ528、および文字切
出し仮説ネットワーク504を入力とする。結果データ52
3、525、527、528には常にすべての情報を認識結果とし
て持っているわけではないので、幾つかのケースがある
が、これらの情報から図12に示す第4種の事前認識を
用いて、個人名あるいは会社名を推論する。例えば、町
域認識のみが成功したときは、図12の個人名・会社名
リストの居住町情報から個人名・会社名を検索する。街
区情報や部屋番号までが認識できているときは、同リス
トの居住表示番号欄から個人名・会社名を検索する。こ
れらの個人名・会社名を単語候補として、文字切出し仮
説ネットワーク504に内包する文字候補ラティスの単語
照合を行って、個人名あるいは会社名を認識することが
できる。この単語照合の方法は既に説明したものを用い
る。その結果である個人名あるいは会社名をデータ53
5、536として後段に向けて出力する。単語照合が成功し
なかった場合は、リジェクトを表す記号を出力する。
【0043】部屋番号仮説生成処理562は、データ536を
入力し、リジェクトではなかった場合、図12の個人名
・会社名リストを参照し、部屋番号を検索(推論)す
る。図12から分かるように、部屋番号は必ず付いてい
るわけではないので、付いているものが検索できたとき
のみ、その結果をデータ538として出力する。データ536
がリジェクトであった場合、および検索の結果部屋番号
情報が存在しなかった場合は、リジェクト記号を結果デ
ータ538として出力する。
【0044】つぎに、部屋番号情報統合処理572につい
て説明する。部屋番号情報統合処理572は、データ534と
データ538とから、部屋番号の候補を入力する。前者
は、先に説明したように、紙葉の文字を認識した結果で
あり、後者は推論によってほかの情報から得たものであ
る。これらの2つの情報源からのデータを統合して、よ
り確度の高い部屋番号候補をデータ539として出力す
る。もし、複数の候補があらかじめ定めた閾値より高い
確信度で入力されているときは、それら複数の候補を出
力する。そのアルゴリズムは、街区情報統合571(図1
5)で取った方式に準ずるので、説明は割愛する。
【0045】最後の処理は街区・部屋番号情報統合処理
573である。すでに説明した街区情報統合や部屋番号情
報統合と同様に、2組のデータ537および539を入力す
る。それぞれは、先に説明したように、複数の候補を挙
げている場合がある。従って、処理573では、、それぞ
れの整合性を図12に示した個人名・会社名リストで調
べて、整合性のある結果を最終認識結果としてデータ54
0に乗せて出力する。
【0046】上記した建物名認識照合部、部屋番号認識
照合部、人名・会社名認識照合部、そして、街区仮説生
成部、街区情報統合部、部屋番号仮説生成部、部屋番号
情報統合部、街区・部屋番号情報統合部は、私的住居表
記の認識照合等に関する処理部であり、これらの処理部
を統合した処理部を私的住居表記認識照合処理部と呼
ぶ。また、上記した図11に示す第3種事前知識と図1
2に示す第4種事前知識は私的住居表記に関する事前知
識であり、該2つの事前知識を統合した事前知識を私的
住居表記に関する事前知識2と呼ぶ。
【0047】図16に文書理解装置を搭載した郵便区分
機の概略構成を示す。200は、郵便区分機の機構部であ
り、多数の紙葉を順次スキャナに供給する供給機構201
と、スキャナ101と、スキャンした紙葉を区分機構に搬
送する搬送機構202と、紙葉の搬送先を決める区分情報
を中央の制御コンピュータ300から受け、紙葉の区分を
行う区分機構203からなり、さらに、機構部200には複数
の制御用のコンピュータが備えられ、これらのコンピュ
ータは中央の制御コンピュータ300からの指示の下に機
構部200全体を制御する。
【0048】700は、文書理解装置であり、入力インタ
フェース702はスキャナ101からの紙葉に記載された宛名
情報を読み取った画像データを入力し、中央処理装置
(CPU)に出力する入力インタフェース702と、画像デ
ータを入力して宛名情報の認識照合を行う中央処理装置
(CPU)703、704と、宛名情報の認識照合のためのプロ
グラムや認識照合に用いられる事前知識を記憶するメモ
リ705と、メモリ705にロードするプログラムや事前知識
を格納している2次記憶装置708と、中央処理装置(CP
U)で認識した認識結果データを中央の制御コンピュー
タ300に出力する通信インタフェース707からなる。図に
おいては、中央処理装置(CPU)は2台示されている
が、実際には4台以上が実装される。しかし、それだけ
では処理能力が不足するため、実際は、文書理解装置70
0が10台以上並列に並べられる。これらの文書理解装
置は、高速に読み取られる画像データ771をそれぞれ分
担して処理する。現実の郵便区分機では、1秒間に、1
5通以上の郵便物の宛名画像が画像データ771として送
られてくるので、それらを10台以上の文書理解装置で
分担して処理する。中央の制御コンピュータ300は、通
信インタフェース707からの通信データ772に含まれる認
識結果データを解釈し、予めプログラムされた論理に従
って区分情報を作成して、区分機構に出力する。
【0049】なお、本実施例では、紙面上に書かれた文
字情報をスキャナで画像情報として読み取って文字認識
する場合について説明したが、最近は、電子的な画像情
報が既にコンピュータシステムに蓄積されていることも
多く、そのような画像情報を認識、解釈する場合に適用
することができることは言うまでもない。
【0050】
【発明の効果】以上のように、本発明によれば、紙葉に
記載されている情報に内在している情報の冗長性を利用
して、信頼度高く、あるいは高い精度で、紙葉に記載さ
れている情報の認識を行うことが可能である。
【図面の簡単な説明】
【図1】宛名情報の例を示す図である。
【図2】単語を構成する文字または区を構成する単語の
接続規則の例を示す図である。
【図3】表現する情報間に存在する意味的な冗長性の例
を説明するための図である。
【図4】文書理解装置の基本機能構成を示す図である。
【図5】文書行切出し結果の例を示す図ある。
【図6】文字切出し仮説ネットワークの例を示す図あ
る。
【図7A】文字切出し仮説ネットワークに対応する文字
候補ラティスの例を示す図である。
【図7B】文字切出し仮説ネットワークにおいて選択さ
れたパスに対応する文字候補ラティスの例を示す図であ
る。
【図8】知的照合処理の詳細を説明するためのデータフ
ロー図である。
【図9】第1種事前知識の例を示す図である。
【図10】第2種事前知識の例を示す図である。
【図11】第3種事前知識の例を示す図である。
【図12】第4種事前知識の例を示す図である。
【図13】有限オートマトンを用いた単語照合を説明す
るための図である。
【図14】単語候補ラティスの形式の例を示す図ある。
【図15】町区情報統合処理の流れを示す図である。
【図16】文書理解装置を含む郵便区分機の構成を示す
図である。
【符号の説明】
1 紙葉 101 スキャナ 200 郵便区分機の機構部 201 供給機構 202 搬送機構 203 区分機構 300 制御コンピュータ 301 操作パネル 700 文書理解装置 702 入力インタフェース 703、704 中央処理装置(CPU) 705 メモリ 707 通信インタフェース 708 2次記憶装置 709 バス
フロントページの続き (72)発明者 酒匂 裕 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 古賀 昌史 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 緒方 日佐男 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 紙葉上に記載された宛名情報をデジタル
    画像データに変換し、該デジタル画像データを用いて該
    宛名情報を文字識別し、文字識別結果と宛名情報に関す
    る知識データベースに基づき宛名情報の認識を行う文書
    理解装置であって、 前記知識データベースは、公的住居表記に関する事前知
    識1と私的住居表記に関する事前知識2を備え、 前記文字識別結果を入力し、前記事前知識1を参照して
    公的住居表記情報を認識する公的住居表記認識照合手段
    と、 前記文字識別結果と公的住居表記認識照合手段の出力を
    入力し、前記事前知識2を参照して前記認識した公的住
    居表記情報に対応する私的住居表記情報を検索し、該検
    索した私的住居表記情報と前記文字識別結果に基づき私
    的住居表記情報を認識する私的住居表記認識照合手段を
    備えることを特徴とする文書理解装置。
  2. 【請求項2】 紙葉上に記載された宛名情報をデジタル
    画像データに変換し、該デジタル画像データを用いて該
    宛名情報を文字識別し、文字識別結果と宛名情報に関す
    る知識データベースに基づき宛名情報の認識を行う文書
    理解装置であって、 前記知識データベースは、公的住居表記に関する事前知
    識1と私的住居表記に関する事前知識2を備え、 前記文字識別結果を入力し、前記事前知識1を参照して
    公的住居表記情報を認識する公的住居表記認識照合手段
    と、 前記文字識別結果と公的住居表記認識照合手段の出力を
    入力し、認識した公的住居表記情報により前記事前知識
    2から私的住居表記の建物名を検索し、検索結果と前記
    文字識別結果に基づき建物名を認識する建物名認識照合
    手段と、 該建物名認識照合手段の出力を入力し、認識した建物名
    により前記事前知識2から該建物名に属する固有の情報
    を検索し、該固有の情報に基づき街区情報の候補を生成
    する街区仮説生成手段と、 該街区情報の候補と前記公的住居表記認識照合手段で得
    られた街区情報に基づき信頼度の高い街区情報を生成す
    る街区情報統合手段を備えることを特徴とする文書理解
    装置。
  3. 【請求項3】 請求項2記載の文書理解装置において、 前記文字識別結果と建物名認識照合手段の出力を入力
    し、認識した建物名により前記事前知識2から該建物名
    に属する固有の情報を検索し、該固有の情報に基づき部
    屋番号情報を求め、該部屋番号情報と前記文字識別結果
    に基づき部屋番号を認識する部屋番号認識照合手段と、 前記文字識別結果と、前記公的住居表記認識照合手段及
    び建物名認識照合手段及び部屋番号認識照合手段の各出
    力とを入力し、該各出力の情報により前記事前知識2か
    ら人名・会社名を検索し、検索結果と前記文字識別結果
    に基づき人名・会社名を認識する人名・会社名認識照合
    手段と、 人名・会社名認識照合手段の出力を入力し、認識した人
    名・会社名により前記事前知識2から該人名・会社名に
    属する固有の情報を検索し、該固有の情報に基づき部屋
    番号情報を候補を生成する部屋番号仮説生成手段と、 該部屋番号情報の候補と前記部屋番号認識照合手段で得
    られた部屋番号情報に基づき信頼度の高い部屋番号情報
    を生成する部屋番号情報統合手段と、 前記街区情報統合手段と前記部屋番号情報統合手段の各
    出力を入力し、街区情報と部屋番号情報の整合性を前記
    事前知識2を参照して調べ、整合性のある街区情報と部
    屋番号情報を統合して出力する街区・部屋番号情報統合
    手段を備えることを特徴とする文書理解装置。
  4. 【請求項4】 請求項3記載の文書理解装置において、 前記街区仮説生成手段は、前記建物名認識照合手段と前
    記人名・会社名認識照合手段の各出力を入力し、認識し
    た建物名と人名・会社名のそれぞれにより前記事前知識
    2から該建物名に属する固有の情報と該人名・会社名に
    属する固有の情報を検索し、これら固有の情報に基づき
    街区情報の候補を生成することを特徴とする文書理解装
    置。
  5. 【請求項5】 郵便物に記載された宛名情報を認識し
    て、認識結果に基づき郵便物を宛先別に区分する郵便区
    分機において、 前記宛名情報を認識するための装置として、請求項1乃
    至請求項4のいずれかの請求項記載の文書理解装置を備
    えることを特徴とする郵便区分機。
JP15587997A 1997-05-29 1997-05-29 文書理解装置および郵便区分機 Expired - Fee Related JP3712831B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15587997A JP3712831B2 (ja) 1997-05-29 1997-05-29 文書理解装置および郵便区分機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15587997A JP3712831B2 (ja) 1997-05-29 1997-05-29 文書理解装置および郵便区分機

Publications (2)

Publication Number Publication Date
JPH10328624A true JPH10328624A (ja) 1998-12-15
JP3712831B2 JP3712831B2 (ja) 2005-11-02

Family

ID=15615512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15587997A Expired - Fee Related JP3712831B2 (ja) 1997-05-29 1997-05-29 文書理解装置および郵便区分機

Country Status (1)

Country Link
JP (1) JP3712831B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965126B2 (en) 2011-03-07 2015-02-24 Ntt Docomo, Inc. Character recognition device, character recognition method, character recognition system, and character recognition program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6151141B2 (ja) * 2013-09-18 2017-06-21 株式会社東芝 仕分装置および仕分方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965126B2 (en) 2011-03-07 2015-02-24 Ntt Docomo, Inc. Character recognition device, character recognition method, character recognition system, and character recognition program

Also Published As

Publication number Publication date
JP3712831B2 (ja) 2005-11-02

Similar Documents

Publication Publication Date Title
JP3375766B2 (ja) 文字認識装置
US20100121631A1 (en) Data detection
JPH0797373B2 (ja) 文書フアイリングシステム
JPH09134372A (ja) 文書検索方法及び装置
JP2008243227A (ja) 手書き文字認識で使用されるテンプレートを生成する方法および装置
JP2004533069A (ja) 住所を1つより多くの言語で自動的に読み取るための方法および装置
US5909509A (en) Statistical-based recognition of similar characters
KR100571080B1 (ko) 문서 인식 장치 및 우편 구분기
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
JP3712831B2 (ja) 文書理解装置および郵便区分機
JPH11232296A (ja) 文書ファイリングシステムおよび文書ファイリング方法
Nakayama Content-oriented categorization of document images
JPS592191A (ja) 手書き日本語文の認識処理方式
Alzuru et al. Quality-Aware Human-Machine Text Extraction for Biocollections using Ensembles of OCRs
JPH11300288A (ja) 文書理解装置および郵便区分機
JP3162552B2 (ja) 郵便物あて名認識装置及びあて名認識方法
JP2560656B2 (ja) 文書ファイリングシステム
JP3007697B2 (ja) 単語照合装置及び単語照合方法
JP2004178044A (ja) 属性抽出方法及びその装置及び属性抽出プログラム
JPH02151984A (ja) 画像認識システム
CN115408995A (zh) 一种项目电子文档的结构化解析方法及系统
JP2001025713A (ja) 郵便区分システム
Mahadevan Robust vision through imperfect eyes: a system for processing city, state and zipcodes in handwritten addresses
Mergen et al. The Other C: Correcting OCR Words in the Presence of Diacritical Marks
JPH11120294A (ja) 文字認識装置および媒体

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Effective date: 20040318

Free format text: JAPANESE INTERMEDIATE CODE: A7424

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050208

A711 Notification of change in applicant

Effective date: 20050210

Free format text: JAPANESE INTERMEDIATE CODE: A712

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050818

R150 Certificate of patent (=grant) or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080826

Year of fee payment: 3

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 4

Free format text: PAYMENT UNTIL: 20090826

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 5

Free format text: PAYMENT UNTIL: 20100826

LAPS Cancellation because of no payment of annual fees