JP2004283697A - 区分装置、データベース作成方法および文字列判定方法 - Google Patents

区分装置、データベース作成方法および文字列判定方法 Download PDF

Info

Publication number
JP2004283697A
JP2004283697A JP2003077789A JP2003077789A JP2004283697A JP 2004283697 A JP2004283697 A JP 2004283697A JP 2003077789 A JP2003077789 A JP 2003077789A JP 2003077789 A JP2003077789 A JP 2003077789A JP 2004283697 A JP2004283697 A JP 2004283697A
Authority
JP
Japan
Prior art keywords
character string
item
database
character
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2003077789A
Other languages
English (en)
Inventor
Takuma Akagi
琢磨 赤木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003077789A priority Critical patent/JP2004283697A/ja
Publication of JP2004283697A publication Critical patent/JP2004283697A/ja
Abandoned legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Sorting Of Articles (AREA)

Abstract

【課題】オペレータに負担をかけることなく、紙葉類上の所定の欄における文字列を精度良く判定できるようにする。
【解決手段】区分装置において、認識部101は、スキャナにより読取られた情報から、住所に該当する文字列と氏名に該当する文字列とを認識し、その際に氏名の文字列を構成する個々の文字に対して複数の文字候補を生成する。登録部42は、認識部101により認識された住所の文字列と上記複数の文字候補を含む氏名の文字列との組合せを住所氏名データベース43に登録する。区分処理の際には、紙葉類の情報が同じスキャナにより読取られて、同じ認識部101により認識が行われる。住所の文字列の認識が成功しなかった場合、認識部101により認識された氏名の文字列に最も近似する文字列を住所氏名データベース43の中から検索し、検索された文字列との組合せになっている住所を得る。
【選択図】 図7

Description

【0001】
【発明の属する技術分野】
この発明は、紙葉類上の情報に基づいて区分処理を行う区分装置、その区分装置に使用されるデータベースの作成方法、およびその区分装置に適用される文字列判定方法に関する。
【0002】
【従来の技術】
配達用の伝票や帳票などの紙葉類には、住所欄および氏名欄が設けられているものがある。このような書式の紙葉類上の情報は、区分装置(区分機とも呼ばれる)においてOCR(光学式文字読取装置)により読取られ、読取られた情報から所定の認識機能を用いることにより文字列の認識が行われる。この場合、特に、住所欄に記載されている住所を正しく判定することが要求される。
【0003】
住所を正しく判定する手法の一つに、「住所氏名合わせ読み」と呼ばれるものがある。この手法は、住所と氏名とが対になった住所氏名データベースを予め用意しておき、住所の文字列の認識が成功しなかった場合でも、氏名の文字列の認識が成功すれば、上記住所氏名データベースを参照することにより、認識できた氏名に対応する住所を一意に決定できるものである。この「住所氏名合わせ読み」による処理の流れを、図20のフローチャートを参照しつつ説明する。
【0004】
まず、住所の認識を行う。住所の認識が成功した場合は(S91のYes)、住所の認識結果を出力する(S95)。一方、住所認識が失敗したり認識の信頼度が低かったりした場合は(S91のNo)、氏名の認識を行う。氏名の認識が失敗したり認識の信頼度が低かったりした場合は(S92のNo)、住所の認識が失敗したものとみなし、リジェクトする(S93)。一方、氏名の認識が成功した場合は(S92のYes)、住所氏名データベースを参照することにより、認識できた氏名に対応する住所を索いてきて(S94)、その住所を出力する(S95)。
【0005】
住所氏名データベースの登録例を図21に示す。図示のように、住所氏名データベースは、住所と氏名とが一対一の関係となっており、氏名が確定すれば対応する住所を一意に決定できるものとなっている。
【0006】
次に、上記住所氏名データベースを作成する一般的な手法を説明する。
まず、区分装置において、紙葉類上の住所および氏名の情報をそれぞれ認識する。住所および氏名の認識結果をそれぞれ表示部に表示する。オペレータは、認識結果が間違っていれば、入力装置を用いて修正を行い、その修正結果を住所氏名データベースに登録する。この手法では、オペレータは登録を行う度に確認作業を行う必要があるため、時間と手間がかかってしまう。
【0007】
オペレータの確認作業が必要となる原因としては、氏名の誤読率が高いことが挙げられる。住所については実在確認をすることにより誤読を修正することができるが、氏名については文字の組合せが非常に多く、後処理によって誤読を修正することが難しいからである。
【0008】
一方、認識結果を修正することなく所望の検索を行う方法が、特許文献1に開示されている。この文献は、OCRにより読取られた文書情報の認識結果をそのまま保存しておき、「あいまい検索」を行うことにより所望の文書検索を行うものである。
【特許文献1】
特開平7−152774号公報
【発明が解決しようとする課題】
しかしながら、区分装置での住所判定には正確さが求められるため、住所氏名データベースに、文書検索における「あいまい検索」などの手法を適用することは望ましくない。
【0009】
この発明は、オペレータに負担をかけることなく、紙葉類上の所定の欄における文字列を精度良く判定することができる区分装置、その区分装置に使用されるデータベースの作成方法、およびその区分装置に適用される文字列判定方法を提供することを目的としている。
【0010】
【課題を解決するための手段】
この発明に係わる区分装置は、紙葉類上の情報に基づいて区分処理を行う区分装置であって、紙葉類上の第1の項目および第2の項目に記載された情報をそれぞれ読取る読取手段と、上記読取手段により読取られた上記第1の項目の情報と上記第2の項目の情報とからそれぞれ文字列を認識する認識手段と、上記認識手段により認識された上記第1の項目の文字列と上記第2の項目の文字列との組合せを第1のデータベースに仮登録する仮登録手段と、上記仮登録手段により同じ組合せが上記第1のデータベースに仮登録された回数が所定値に達した場合、その組合せを第2のデータベースに本登録する本登録手段と、上記読取手段により区分処理の対象となる紙葉類の情報が読取られたのに基づき、上記認識手段による第1の項目の文字列の認識が成功しなかった場合、当該認識手段により認識される第2の項目の文字列に最も近似する文字列を上記第2のデータベースの中から検索し、検索された上記文字列との組合せになっている第1の項目の文字列を上記第2のデータベースから得る手段とを有して構成される。
【0011】
【発明の実施の形態】
この発明の実施の形態を図面に基づいて詳細に説明する。
図1は、この発明に係わる区分機1を示す外観図であり、図2は区分機1の概略構成を示す図である。この区分機1は、大型の箱型状の区分機本体1aを有している。この区分機1は、配達物P上の宛先である住所(居所)および宛名である氏名を読取り、その読取内容から住所等を認識し、この認識した住所等に対応する区分先に配達物Pを区分するものである。
上記区分機本体1aには、供給部2と、スキャナ部(読取手段)3と、搬送部4と、区分部5と、収納部6とが設けられている。この供給部2からの配達物Pが搬送路によって搬送されることにより、搬送部4、区分部5を順次介して収納部6に導かれる。
【0012】
上記供給部2は、配達物Pを載置する載置台7と、この載置台7から配達物Pを一通ずつ取り出して搬送路に送る取出し部8とを有している。上記スキャナ部3は、搬送路によって搬送される1通ずつの配達物P上の全体の画像を光学的に読取って画像情報を生成する。上記搬送部4は、スキャナ部3を通過してきた配達物Pを区分部5へ搬送する。上記収納部6は、配達物Pを区分収納する多数の収納ポケット6aを有している。上記区分部5は、搬送部4から送られてくる配達物Pをスキャナ部3からの画像情報に対する後述する認識結果に基づいて収納ポケット6a、…のいずれかに振り分ける。
【0013】
上記スキャナ部3は、配達物P上を光学的に走査して光電変換することによりパターン信号として紙葉類上の情報を読取る読取手段であり、たとえば配達物P上に光を照射する光源、およびその反射光を受けて電気信号に変換する自己走査形のCCDイメージセンサ等によって構成される。上記スキャナ部3の出力は情報処理部10中の認識部に供給される。
【0014】
上記区分機1において、上記供給部2、スキャナ部3、搬送部4、区分部5、情報処理部10は、制御部11に接続されている。この制御部11は、区分機1の全体の動作を制御する。たとえば、制御部11は図示しないメモリに記憶されている区分指定テーブルを用いて、上記情報処理部10での認識結果(もしくは判定結果)に対応する区分指定データを読出し、この読出した区分指定データ(収納ポケット6a、…のアドレス)に対応する収納ポケット6a、…に上記配達物Pを搬送せしめるものである。
さらに、上記制御部11はドライバ(図示せず)により上記搬送路等の搬送機構部(図示せず)を駆動することにより、搬送系全体の制御を行うようになっている。
【0015】
上記情報処理部10は、図3に示すように、認識部(認識手段)101と、データベース作成部102と、記憶部103と、住所判定部104と、表示部105と、入力部106とで構成されている。
【0016】
認識部101は、スキャナ部3から供給される画像から、住所および氏名が記載されている紙葉類上の住所欄(第1の項目)および氏名欄(第2の項目)の各領域を検出し、その領域内の文字列を1文字単位で認識するものである。この認識においては、構造特徴マッチング法などの文字認識手法が適用される。
【0017】
データベース作成部102は、認識部101により認識された住所の文字列と氏名の文字列との組合せを含む住所氏名データベースを作成するものである。なお、データベース作成部102は、認識部101により認識された住所の文字列と氏名の文字列とを表示部105に表示し、オペレータに文字列の修正を促すことも可能である。また、入力部106を介して修正後の文字列が入力されてきた場合には、その修正後の文字列を、住所氏名データベースに登録される組合せに含める処理を行うこともできる。
【0018】
記憶部103は、データベース作成部102により作成される住所氏名データベースを記憶するものである。
住所判定部104は、認識部101による住所の文字列の認識が成功した場合には、この認識部101から住所の文字列を得る。一方、認識部101による住所の文字列の認識が成功しなかった場合、住所判定部104は、認識部101により認識された氏名の文字列に最も近似する文字列を記憶部103内の住所氏名データベースの中から検索し、検索された文字列との組合せになっている住所の文字列を得るものである。ここで得られた住所の文字列は、住所判定結果として制御部11へ供給される。
【0019】
表示部105は、情報を画面上に表示するLCDなどの表示装置に相当するものである。また、入力部106は、キーボードやマウスなどの入力装置に相当するものである。
【0020】
上記認識部101は、図4に示すように、住所認識部101Aと氏名認識部101Bとを有する。
住所認識部101Aは、住所欄の文字列を認識する際に参照するための住所辞書を格納した住所辞書部21を有している。また、この住所認識部101Aは、文字パターンの一致の度合いを表す文字認識の信頼度を算出するための信頼度算出部22を有している。
【0021】
氏名認識部101Bは、氏名欄の個々の文字を認識する際に参照するための文字辞書を格納した文字辞書部23を有しており、氏名欄の個々の文字に対して複数の文字候補を生成することが可能である。また、氏名認識部101Bは、文字パターンの一致の度合いを表す文字認識の信頼度を算出するための信頼度算出部24を有している。
【0022】
(第1のデータベース作成手法)
次に、図5および図6を参照して、第1のデータベース作成手法の例について説明する。
図5は、情報処理部10の中の第1のデータベース作成手法に係わる構成を示している。なお、図3、図4と共通する要素には同一の符号を付している。
【0023】
住所認識部101Aおよび氏名認識部101Bは、スキャナ部3(図3)により紙葉類上の住所欄および氏名欄の情報が読取られると、その読取られた情報から、住所の文字列と氏名の文字列とを認識する。また、住所認識部101Aおよび氏名認識部101Bは、認識した個々の文字の信頼度を算出する。
【0024】
住所氏名統合部31は、住所認識部101Aにより認識された文字列と氏名認識部101Bにより認識された文字列とを組み合わせて、住所の文字列と氏名の文字列との組合せ(住所氏名データ)を作成する。また、住所氏名統合部31は、認識部101から得られる個々の文字の信頼度に基づき、上記組合せに信頼度の点数を付加する。信頼度の点数が付加された組合せは、仮登録部32に供給される。
【0025】
仮登録部(仮登録手段)32は、住所氏名統合部31から送られてくる信頼度の点数が付加された組合せに、仮登録回数(=1)を更に付加して、記憶部103内の仮登録データベース33に仮登録する。なお、同じ組合せが既に仮登録データベース33にある場合は、仮登録部32は、仮登録データベース(第1のデータベース)33中の該当する仮登録回数に1を加算すると共に、該当する信頼度の点数に認識結果の信頼度の点数を加算する。
【0026】
住所氏名登録回数確認部34は、同じ組合せが仮登録データベース33に仮登録された回数が所定値に達したか否かを確認し、所定値に達した場合には、該当する組合せを本登録部36に供給する。住所氏名点数確認部35は、仮登録データベース33中のいずれかの組合せの信頼度の点数が所定値以上になったか否かを確認し、所定値以上になった場合には、該当する組合せを本登録部36に供給する。
【0027】
本登録部(本登録手段)36は、住所氏名登録回数確認部34もしくは住所氏名点数確認部35から組合せの供給を受けた場合に、その組合せを記憶部103内の住所氏名データベース(第2のデータベース)37に登録する。
【0028】
次に、図6のフローチャートを参照して、上記第1のデータベース作成手法に係わる動作を説明する。
紙葉類上の住所欄および氏名欄の情報がスキャナ部3により読取られると、住所欄に該当する文字列と氏名欄に該当する文字列とが認識される(S11)。このとき、認識した個々の文字の信頼度も算出される。また、認識された住所の文字列と氏名の文字列とが組み合わされる(S12)。
【0029】
ここで、同じ組合せの仮登録が仮登録データベース33になければ(S13のNo)、認識された住所の文字列と氏名の文字列との組合せを仮登録データベース33に仮登録する(S14)。このとき、仮登録回数(=1)および算出された信頼度の点数も付加される。
【0030】
一方、同じ組合せの仮登録が仮登録データベース33にあれば(S13のYes)、仮登録データベース33中の該当する仮登録回数に1が加算され、該当する信頼度の点数に認識結果の信頼度の点数が加算される(S15)。
【0031】
ここで、仮登録の回数が所定値に達しておらず(S16のNo)、且つ、信頼度の点数が所定値以上になっていなければ(S17のNo)、処理が終了する。一方、仮登録の回数が所定値に達している場合(S16のYes)、もしくは、信頼度の点数が所定値以上になっている場合には(S17のYes)、住所氏名データベース37の中に同じ組合せの登録があるか否かが判定される(S18)。同じ組合せの登録があれば(S18のYes)、処理が終了し、同じ組合せの登録がなければ(S18のNo)、住所の文字列と氏名の文字列との組合せを新規に登録する(S19)。
【0032】
このように、第1のデータベース作成手法によれば、仮登録データベース33に仮登録した組合せのうち、仮登録の回数が所定値に達しているか、もしくは信頼度の点数が所定値以上になっているものに限り、住所氏名データベース37に登録するようにしているので、誤登録を防止でき、住所氏名データベース37内の情報の信頼性を高めることができる。
【0033】
(第2のデータベース作成手法)
次に、図7〜図10を参照して、第2のデータベース作成手法の例について説明する。
図7は、情報処理部10の中の第2のデータベース作成手法に係わる構成を示している。なお、図3、図4と共通する要素には同一の符号を付している。
【0034】
住所認識部101Aおよび氏名認識部101Bは、スキャナ部3(図3)により紙葉類上の住所欄および氏名欄の情報が読取られると、その読取られた情報から、住所欄に該当する文字列と氏名欄に該当する文字列とを認識する。その際に、氏名認識部101Bは、氏名の文字列を構成する個々の文字に対して複数の文字候補を生成する。また、住所認識部101Aおよび氏名認識部101Bは、認識した個々の文字の信頼度を算出する。
【0035】
住所氏名統合部41は、住所認識部101Aにより認識された文字列と氏名認識部101Bにより認識された文字列(個々の文字に対する複数の文字候補を含む)とを組み合わせて、住所の文字列と氏名の文字列との組合せ(住所氏名データ)を作成する。また、住所氏名統合部41は、認識部101から得られる個々の文字の信頼度に基づき、上記組合せに信頼度の点数を付加する。信頼度の点数が付加された組合せは、登録部42に供給される。
登録部(登録手段)42は、住所氏名統合部41から上記組合せの供給を受けた場合に、その組合せを記憶部103内の住所氏名データベース43に登録する。
【0036】
ここで、図8を参照して、住所氏名データベース43に登録されるデータの構造について説明する。
例えば、図8の左上に示されるように、実際の紙葉類の住所欄に「東京都港区芝1−1」が記載され、氏名欄に「東京太郎」が記載されている場合に、住所がその通りに認識され、名前が図8の右上のような識別結果になったものとする。この場合、例えば氏名欄における4つの文字の各々に対して3つの文字候補(第1位〜第3位)が生成される。また、各文字候補は、認識結果の信頼度を示す数値を備え、信頼度の高い順に記載されている。
【0037】
このようにして認識結果として得られた住所の文字列と氏名の文字列(信頼度が付された複数の文字候補を含む)とが、図8の下側に示されるような形で住所氏名データベース43に登録されることになる。
【0038】
また、図8の左上に示されるように、実際の紙葉類の住所欄に「神奈川県川崎市柳3」が記載され、氏名欄に「柳次郎」が記載されている場合に、住所がその通りに認識され、名前が3文字で書かれているのか4文字で書かれているのか判別しかねることがある。そのような場合、3文字であるものとして認識した文字列と、4文字であるものとして認識した文字列の両方が、図8の下側に示されるような形で住所氏名データベース43に登録される。このように、信頼性の低い認識結果も住所氏名データベース43に登録するようにし、氏名の文字列に冗長性を持たせている。
【0039】
ここで、住所氏名データベース43に登録しようとする名前の文字列が、既に住所氏名データベース43に登録されている場合の処理を、図9を参照して説明する。例えば、名前欄の識別結果X(図8の右上に示した「東京太郎」の認識結果と同じ)が既に住所氏名データベース43に登録されているところに、別の紙葉類上の氏名欄の識別結果Yが得られたものとする。住所欄の識別結果が既に登録されているもの(図8の下側に示した「東京都港区芝1−1」)に一致するのであれば、氏名欄の識別結果Yを識別結果Xにマージする処理が必要となる。
【0040】
まず、氏名欄の同じ列にある文字候補同士を比較し、同じ文字候補が無ければ、該当する列に新たな文字候補を登録する。このとき、文字認識の信頼度の点数も併せて登録する。もし、同じ文字候補があれば、既に登録されている方の文字候補の信頼度の点数を更新する。更新は、既に登録されている方の文字候補の信頼度の点数に、新たに認識された方の文字候補の信頼度の点数を加算することによって行う。
【0041】
次に、図10のフローチャートを参照して、上記第2のデータベース作成手法に係わる動作を説明する。
紙葉類上の住所欄および氏名欄の情報がスキャナ部3により読取られると、住所欄に該当する文字列と氏名欄に該当する文字列とが認識される(S21)。このとき、認識した個々の文字の信頼度も算出される。認識された住所の信頼度が所定値以上であれば(S22のYes)、認識された住所の文字列と氏名の文字列とが組み合わされる(S23)。なお、認識された住所の信頼度が所定値以上で無ければ(S22のNo)、処理が終了する。
【0042】
ここで、同じ組合せの登録が住所氏名データベース43になければ(S24のNo)、認識された住所の文字列と氏名の文字列(個々の文字に複数の候補あり)との組合せを住所氏名データベース43に新規登録する(S25)。このとき、算出された信頼度の点数も付加される。
【0043】
一方、同じ組合せの登録が住所氏名データベース43にある場合には(S24のYes)、名前に新たな文字候補があるか否かが判定される(S26)。もし、名前に新たな文字候補があれば(S26のYes)、その文字候補が追加登録される(S27)。このとき、信頼度も付加される。
【0044】
そして、認識された氏名における各文字候補の信頼度の点数が、住所氏名データベース43中の該当する文字候補に付加されている信頼度の点数にそれぞれ加算される(S28)。
【0045】
このように、第2のデータベース作成手法によれば、名前欄における信頼度の低い認識結果も含めて文字毎に複数の文字候補が住所氏名データベース37に登録されるので、氏名の文字列に冗長性を持たせることができ、区分処理時における住所判定の精度を結果的に向上させることができる。
【0046】
(第3のデータベース作成手法)
次に、図11〜図13を参照して、第3のデータベース作成手法の例について説明する。
図11は、情報処理部10の中の第3のデータベース作成手法に係わる構成を示している。なお、図3、図4と共通する要素には同一の符号を付している。
【0047】
住所認識部101Aおよび氏名認識部101Bは、スキャナ部3(図3)により紙葉類上の住所欄および氏名欄の情報が読取られると、その読取られた情報から、住所欄に該当する文字列と氏名欄に該当する文字列とを認識する。その際に、氏名認識部101Bは、氏名の文字列を構成する個々の文字に対して複数の文字候補を生成する。また、住所認識部101Aおよび氏名認識部101Bは、認識した個々の文字の信頼度を算出する。
【0048】
住所氏名統合部51は、住所認識部101Aにより認識された文字列と氏名認識部101Bにより認識された文字列(個々の文字に対する複数の文字候補を含む)とを組み合わせて、住所の文字列と氏名の文字列との組合せ(住所氏名データ)を作成し、その組合せを登録部52に供給する。
【0049】
登録部52は、住所氏名統合部51から組合せの供給を受けた場合、記憶部103内の姓名リスト53の中から、認識された氏名の文字列に最も近似する文字列を選択し、選択された文字列を上記組合せに含めて記憶部103内の住所氏名データベース54に登録する。姓名リスト53は、予め良く使われる姓および名を列挙してあるリストである。
【0050】
ここで、登録部52が姓名リスト53を用いて登録を行う処理の具体例を、図12を参照して説明する。
図12の左上に示されるように、例えば氏名の認識結果として4つの文字が認識され、その際に各文字に対して3つの文字候補(第1位〜第3位)が生成されたものとする。ここで、登録部52は、この認識結果と図12の右側に示される姓名リスト53とを比較し、当該認識結果の中から正しいと推測される氏名が選択される。図12に例では、推測結果として「東京太郎」が正しい氏名であると判定されている。そして、認識結果の中の第1位に該当する文字をそれぞれ含んだ文字列である「車克大朗」と推測結果である「東京太郎」とが両方とも住所氏名データベース54に登録される。なお、図12では各文字に信頼度が付加されない場合を例示しているが、信頼度が付加された構成としてもよい。
【0051】
次に、図13のフローチャートを参照して、上記第3のデータベース作成手法に係わる動作を説明する。
紙葉類上の住所欄および氏名欄の情報がスキャナ部3により読取られると、住所欄に該当する文字列と氏名欄に該当する文字列とが認識される(S31)。このとき、認識した個々の文字の信頼度も算出される。認識された住所の信頼度が所定値以上であれば(S32のYes)、認識された住所の文字列と氏名の文字列とが組み合わされ、登録のための処理へと進む。なお、認識された住所の信頼度が所定値以上で無ければ(S32のNo)、処理が終了する。
【0052】
ここで、同じ組合せの登録が住所氏名データベース54あれば(S33のYes)、処理が終了する。一方、同じ組合せの登録がなければ(S33のNo)、認識結果である氏名(個々の文字に複数の文字候補あり)と姓名リスト53上の氏名とを比較し、正しいと推測される氏名が選択される(S34)。そして、推測結果である氏名の文字列および第1位候補の認識結果である氏名の文字列と、認識結果である住所の文字列とが組み合わされ、住所氏名データベース54に登録される(S35)。
【0053】
このように、第3のデータベース作成手法によれば、姓名リストから選択される氏名も併せて住所氏名データベースに登録されるので、氏名の文字列に冗長性を持たせることができ、区分処理時における住所判定の精度を結果的に向上させることができる。
【0054】
なお、姓名リストから選択される氏名も併せて住所氏名データベースに登録する手法は、前述した第1のデータベース作成手法や第2のデータベース作成手法にも適用することができる。
【0055】
(第4のデータベース作成手法)
次に、図14および図15を参照して、第4のデータベース作成手法の例について説明する。
図14は、情報処理部10の中の第4のデータベース作成手法に係わる構成を示している。なお、図3、図4と共通する要素には同一の符号を付している。
【0056】
住所認識部101Aおよび氏名認識部101Bは、スキャナ部3(図3)により紙葉類上の住所欄および氏名欄の情報が読取られると、その読取られた情報から、住所欄に該当する文字列と氏名欄に該当する文字列とを認識する。その際に、氏名認識部101Bは、氏名の文字列を構成する個々の文字に対して複数の文字候補を生成する。また、住所認識部101Aおよび氏名認識部101Bは、認識した個々の文字の信頼度を算出する。
【0057】
住所氏名統合部61は、住所認識部101Aにより認識された文字列と氏名認識部101Bにより認識された文字列(個々の文字に対する複数の文字候補を含む)とを組み合わせて、住所の文字列と氏名の文字列との組合せ(住所氏名データ)を作成し、その組合せを登録部62に供給する。
【0058】
登録部62は、住所氏名統合部51から組合せの供給を受けた場合、認識結果である住所の文字列と氏名の文字列とを表示部105に表示し、オペレータに文字列の修正を促す。入力部106を介して修正後の文字列が入力されてきた場合、登録部62は、その修正後の文字列を上記組合せに含めて記憶部103内の住所氏名データベース63に登録する。なお、登録の際には、各文字に信頼度が付加され、ペレータが入力した文字には最も高い信頼度が付加される。
【0059】
次に、図15のフローチャートを参照して、上記第3のデータベース作成手法に係わる動作を説明する。
紙葉類上の住所欄および氏名欄の情報がスキャナ部3により読取られると、住所欄に該当する文字列と氏名欄に該当する文字列とが認識される(S41)。このとき、認識した個々の文字の信頼度も算出される。認識された住所の信頼度が所定値以上であれば(S42のYes)、認識された住所の文字列と氏名の文字列とが組み合わされ、登録のための処理へと進む。なお、認識された住所の信頼度が所定値以上で無ければ(S42のNo)、処理が終了する。
【0060】
ここで、同じ組合せの登録が住所氏名データベース54あれば(S43のYes)、処理が終了する。一方、同じ組合せの登録がなければ(S43のNo)、認識結果である氏名(個々の文字に複数の文字候補あり)を表示部105の画面に表示し、オペレータに正しい氏名を入力させる(S44)。そして、入力された正しい氏名の文字列および第1位候補の認識結果である氏名の文字列と、認識結果である住所の文字列とが組み合わされ、住所氏名データベース54に登録される(S45)。
【0061】
このように、第4のデータベース作成手法によれば、オペレータにより入力された正しい氏名も併せて住所氏名データベース43に登録されるので、氏名の文字列に冗長性を持たせることができ、区分処理時における住所判定の精度を結果的に向上させることができる。
【0062】
なお、オペレータにより入力された正しい氏名も併せて住所氏名データベースに登録する手法は、前述した第1のデータベース作成手法や第2のデータベース作成手法にも適用することができる。
【0063】
(区分処理時の住所判定手法)
次に、図16〜図19を参照して、作成した住所氏名データベースを用いた区分処理時の住所判定手法の例について説明する。ここでは、前述の第2のデータベース作成手法により作成した住所氏名データベース(図8の下側)を使用した場合の例を示す。
図16は、情報処理部10の中の住所判定手法に係わる構成を示している。なお、図3、図4と共通する要素には同一の符号を付している。
【0064】
住所認識部101Aおよび氏名認識部101Bは、スキャナ部(前述の第1〜第4のデータベース作成手法において使用したスキャナ部3と同じもの)により紙葉類上の住所欄および氏名欄の情報が読取られると、その読取られた情報から、住所欄に該当する文字列と氏名欄に該当する文字列とを認識する。その際に、氏名認識部101Bは、氏名の文字列を構成する個々の文字に対して複数の文字候補を生成する。また、住所認識部101Aおよび氏名認識部101Bは、認識した個々の文字の信頼度を算出する。
【0065】
住所判定部103は、住所認識部101Aによる住所の文字列の認識が成功した場合には、住所認識部101Aでの認識結果であり住所の文字列を出力する。一方、住所認識部101Aによる住所の文字列の認識が成功しなかった場合には、氏名認識部101Bにより認識された氏名の文字列に最も近似する文字列を住所氏名データベース43の中から検索し、検索された文字列との組合せになっている住所の文字列を住所氏名データベース43から得て、その住所の文字列を出力する。
【0066】
なお、住所判定部103が行う検索処理を、代わりに氏名認識部101Bにおいて行うように変形することも可能である。この場合、氏名認識部101Bは、自身が認識した氏名の文字列に最も近似する文字列を住所氏名データベース43の中から検索し、検索された文字列との組合せになっている住所の文字列を住所氏名データベース43から得て、その住所の文字列を住所判定部103へ供給する。住所判定部103は、住所認識部101Aから供給される住所の認識結果と氏名認識部101Bから供給される住所の検索結果とを比較して、より信頼度の高い住所を決定して出力する。
【0067】
次に、図17を参照して、氏名のマッチングの手法について説明する。ここでいうマッチングとは、住所氏名データベース43に登録されている各氏名の中から、氏名認識部101Bで認識された氏名に該当するものを選び出す処理を意味している。
【0068】
図17の上側に示されるように、例えば氏名の認識結果として4つの文字が認識され、その際に各文字に対して3つの文字候補(第1位〜第3位)が生成されたものとする。ここで、住所判定部103により、この認識結果と図17の下側に示される住所氏名データベース43中の各種組合せの中の氏名とが比較され、当該認識結果に最も近似する氏名が選択される。
【0069】
いま、住所氏名データベース43中の氏名データ項目Pに対してマッチングを行う場合を考える。住所氏名データベース43中の各氏名データ項目P,Q,…には、それぞれマッチング評価値が割り当てられ、所定の記憶領域に確保されているものとする。なお、初期値として、マッチング評価値は0とされる。
【0070】
まず、認識結果の1文字目の第1位候補「束」が、項目Pの1文字目の中にあるか否かを調べる。図の例では、認識結果の1文字目の第1位候補「束」は、項目Pの1文字目の第2位候補に存在する。この場合、認識結果における「束」の信頼度の点数4と項目Pにおける「束」の信頼度の点数3とを乗算した値をマッチング評価値に加算する。
【0071】
次に、認識結果の1文字目の第2位候補「東」が、項目Pの1文字目の中にあるか否かを調べ、あれば、上記と同様に各々の信頼度の点数を乗算した値をマッチング評価値に加算する。無ければ、信頼度の点数を0とみなし、加算値は0となる。同じ手順により、認識結果の2文字目と項目Pの2文字目との比較を行い、最終的に認識結果の4文字目と項目Pの4文字目との比較も行う。この一連の計算により、項目Pに対するマッチング評価値は、(4*3+1*5+1*0) + (4*4+1*0+1*3) + (2*5+1*0+1*0) + (5*0+2*5+1*0) = 78となる。なお、このマッチング評価値は、文字数で割ったり、氏名データ項目に記載されている信頼度の点数の合計で割ったりして、正規化するようにしてもよい。
【0072】
項目Q、…についても、項目Pで行った計算と同じ計算を行う。この際、もし文字数の合わない氏名データ項目があれば、その部分はマッチング評価値には加算しない。図17の上側のような識別結果の場合は4文字なので、項目Qに対するマッチングを行う際には、4文字として登録されている部分とのみ、点数計算を行う。全ての氏名データ項目に対応するマッチング評価値が求まれば、最もマッチング評価値が高い氏名データ項目を、認識結果に一番近似している氏名であるものと判定する。
【0073】
認識結果の文字数が二通り挙げられる場合には、住所氏名データベース43の中の該当する部分のそれぞれに対して、全て計算をして、マッチング評価値を求める。例えば、認識結果に文字数4の文字列と文字数3の文字列とが挙げられ、これらが項目Qに対応している場合、文字数4の識別結果と文字数4の登録文字との比較によりマッチング評価値を計算すると共に、文字数3の識別結果と文字数3の登録文字との比較によりマッチング評価値を計算し、その両方を加算するようにする。
【0074】
次に、図18のフローチャートを参照して、区分処理時の住所判定手法に係わる動作を説明する。
紙葉類上の住所欄および氏名欄の情報がスキャナ部3により読取られると、住所欄に該当する文字列が認識される(S51)。このとき、認識した個々の文字の信頼度も算出される。認識された住所の信頼度が所定値以上であれば(S52のYes)、その認識結果は制御部11へ送られ、処理が終了する。一方、認識された住所の信頼度が所定値以上でなければ(S52のNo)、正しい住所を判定するための処理が開始される。
【0075】
氏名欄に該当する文字列が認識されると(S53)、住所氏名データベース43が参照され、認識された氏名に該当する氏名の検索が行われる(S54)。ここでは、マッチングの処理が行われる。そして、住所氏名データベース43の中から検索された氏名に対応する住所が得られる(S55)。こうして得られた住所は、住所判定結果として制御部11へ送られる。
【0076】
次に、図19のフローチャートを参照して、マッチング処理に係わる部分の動作を説明する。
まず、住所氏名データベース43中の各種組合せの中から、識別された氏名の文字数と同じ文字数の氏名を含むものが特定される(S61)。そして、特定した個々の組合せ(もしくは氏名データ項目)の中から、マッチング評価の対象となる組合せ(もしくは氏名データ項目)が1つ選択される(S62)。
【0077】
識別された氏名における各文字の信頼度の点数と、住所氏名データベース43の中の該当する各文字の信頼度の点数とが乗算され、乗算値をそれぞれ加算してマッチング評価値が算出される(S63)。算出されたマッチング評価値は所定の記憶領域に保存される(S64)。
【0078】
他にもまだマッチング評価していない組合せ(もしくは氏名データ項目)があれば(S65のYes)、上記S62〜S64の処理が繰り返される。無ければ(S65のNo)、マッチング評価値が最も高い組合せの住所が正しい住所であるものと判定される(S66)。
【0079】
このように、上記住所判定手法によれば、名前欄における信頼度の低い認識結果も含めて文字毎に複数の文字候補が登録されている住所氏名データベースを用いて所定のマッチングが行われ、住所氏名データベースから適切な氏名が選択されるので、適切な住所を精度良く判定することができる。
【0080】
なお、上記の説明では、第2のデータベース作成手法により作成した住所氏名データベースを用いる場合を説明したが、代りに、第1、第3または第4のデータベース作成手法により作成した住所氏名データベースを用いて住所判定を行うようにしてもよい。
【0081】
以上説明したように、本実施形態では、データベース作成時には氏名の認識結果に不十分なもの(信頼度が低い文字候補など)が含まれていても、それを含めて認識結果を登録することにより、住所氏名データベースの冗長性が高められる。また、区分処理時においては、氏名の認識結果に不十分なもの(信頼度が低い文字候補など)が含まれていたとしても、その認識結果を用いてデータベースの登録内容との照合が行われる。特に、データベース作成時と住所判定時とで同じスキャナを使用しているため、データベース作成時に認識した結果と住所判定時に認識した結果とが似かよった傾向を示す。このような結果同士のマッチングを行い、最も近似する氏名を選択し、この氏名に対応する住所を得ることにより、精度の良い住所判定が可能となる。
【0082】
【発明の効果】
以上詳述したように、この発明によれば、オペレータに負担をかけることなく、紙葉類上の所定の欄における文字列を精度良く判定することができる区分装置、その区分装置に使用されるデータベースの作成方法、およびその区分装置に適用される文字列判定方法を提供できる。
【図面の簡単な説明】
【図1】この発明の実施形態を説明するための区分機の概略構成を示す外観図。
【図2】区分機の概略構成を示す図。
【図3】情報処理部を内部構成を中心に示すブロック図。
【図4】認識部の機能構成を示すブロック図。
【図5】情報処理部の中の第1のデータベース作成手法に係わる構成を示すブロック図。
【図6】第1のデータベース作成手法に係わる動作を示すフローチャート。
【図7】情報処理部の中の第2のデータベース作成手法に係わる構成を示すブロック図。
【図8】住所氏名データベースに登録されるデータの構造を説明するための図。
【図9】住所氏名データベースに登録しようとする名前の文字列が、既に住所氏名データベースに登録されている場合の処理を説明するための図。
【図10】第2のデータベース作成手法に係わる動作を示すフローチャート。
【図11】情報処理部の中の第3のデータベース作成手法に係わる構成を示すブロック図。
【図12】登録部が姓名リストを用いて登録を行う処理の具体例を説明するための図。
【図13】第3のデータベース作成手法に係わる動作を示すフローチャート。
【図14】情報処理部の中の第3のデータベース作成手法に係わる構成を示すブロック図。
【図15】第4のデータベース作成手法に係わる動作を示すフローチャート。
【図16】情報処理部の中の住所判定手法に係わる構成を示すブロック図。
【図17】氏名のマッチングの手法について説明するための図。
【図18】区分処理時の住所判定手法に係わる動作を示すフローチャート。
【図19】マッチング処理に係わる部分の動作を示すフローチャート。
【図20】「住所氏名合わせ読み」による処理の流れを示すフローチャート。
【図21】住所氏名データベースの登録例を示す図。
【符号の説明】1…区分機、2…供給部、3…スキャナ部、4…搬送部、5…区分部、10…情報処理部、11…制御部、101…認識部、102…データベース作成部、103…記憶部、104…住所判定部、105…表示部、106…入力部。

Claims (10)

  1. 紙葉類上の情報に基づいて区分処理を行う区分装置であって、
    紙葉類上の情報を読取る読取手段と、
    上記読取手段により読取られた情報から、第1の項目に該当する文字列と第2の項目に該当する文字列とを認識する認識手段と、
    上記認識手段により認識された上記第1の項目の文字列と上記第2の項目の文字列との組合せを第1のデータベースに仮登録する仮登録手段と、
    上記仮登録手段により同じ組合せが上記第1のデータベースに仮登録された回数が所定値に達した場合、その組合せを第2のデータベースに本登録する本登録手段と、
    上記読取手段により区分処理の対象となる紙葉類の情報が読取られたのに基づき、上記認識手段による第1の項目の文字列の認識が成功しなかった場合、当該認識手段により認識される第2の項目の文字列に最も近似する文字列を上記第2のデータベースの中から検索し、検索された上記文字列との組合せになっている第1の項目の文字列を上記第2のデータベースから得る手段と、
    を具備することを特徴とする区分装置。
  2. 紙葉類上の情報に基づいて区分処理を行う区分装置であって、
    紙葉類上の情報を読取る読取手段と、
    上記読取手段により読取られた情報から、第1の項目に該当する文字列と第2の項目に該当する文字列とを認識し、その際に上記第2の項目の文字列を構成する個々の文字に対して複数の文字候補を生成する認識手段と、
    上記認識手段により認識された上記第1の項目の文字列と上記複数の文字候補を含む上記第2の項目の文字列との組合せを所定のデータベースに登録する登録手段と、
    上記読取手段により区分処理の対象となる紙葉類の情報が読取られたのに基づき、上記認識手段による第1の項目の文字列の認識が成功しなかった場合、当該認識手段により認識される第2の項目の文字列に最も近似する文字列を上記データベースの中から検索し、検索された上記文字列との組合せになっている第1の項目の文字列を上記データベースから得る手段と、
    を具備することを特徴とする区分装置。
  3. 上記登録手段は、所定のリストの中から、認識された上記第2の項目の文字列に最も近似する文字列を選択し、選択された上記文字列を、上記データベースに登録される組合せに含めることを特徴とする請求項1又は2記載の区分装置。
  4. 上記登録手段は、所定の入力装置を介して入力される文字列を、上記データベースに登録される組合せに含めることを特徴とする請求項1又は2記載の区分装置。
  5. 上記第1の項目は住所に該当し、上記第2の項目は氏名に該当することを特徴とする請求項1又は2記載の区分装置。
  6. 紙葉類上の情報に基づいて区分処理を行う区分装置に使用されるデータベースの作成方法であって、
    紙葉類上の情報を読取る読取工程と、
    上記読取工程により読取られた情報から、第1の項目に該当する文字列と第2の項目に該当する文字列とを認識する認識工程と、
    上記認識工程により認識された上記第1の項目の文字列と上記第2の項目の文字列との組合せを第1のデータベースに仮登録する仮登録工程と、
    上記仮登録工程により同じ組合せが上記第1のデータベースに仮登録された回数が所定値に達した場合、その組合せを第2のデータベースに登録する登録工程と、
    を有することを特徴とするデータベース作成方法。
  7. 紙葉類上の情報に基づいて区分処理を行う区分装置に使用されるデータベースの作成方法であって、
    紙葉類上の情報を読取る読取工程と、
    上記読取工程により読取られた情報から、第1の項目に該当する文字列と第2の項目に該当する文字列とを認識し、その際に上記第2の項目の文字列を構成する個々の文字に対して複数の文字候補を生成する認識工程と、
    上記認識工程により認識された上記第1の項目の文字列と上記複数の文字候補を含む上記第2の項目の文字列との組合せを所定のデータベースに登録する登録工程と、
    を有することを特徴とするデータベース作成方法。
  8. 上記登録工程は、所定のリストの中から、認識された上記第2の項目の文字列に最も近似する文字列を選択し、選択された上記文字列を、上記データベースに登録される組合せに含める工程を有することを特徴とする請求項6又は7記載のデータベース作成方法。
  9. 上記登録工程は、所定の入力装置を介して入力される文字列を、上記データベースに登録される組合せに含める工程を有することを特徴とする請求項6又は7記載のデータベース作成方法。
  10. 紙葉類上の情報に基づいて区分処理を行う区分装置に適用される文字列判定方法であって、
    紙葉類上の情報を読取る読取工程と、
    上記読取工程により読取られた情報から、第1の項目に該当する文字列と第2の項目に該当する文字列とを認識し、その際に上記第2の項目の文字列を構成する個々の文字に対して複数の文字候補を生成する認識工程と、
    上記認識工程により認識された上記第1の項目の文字列と上記複数の文字候補を含む上記第2の項目の文字列との組合せを所定のデータベースに登録する登録工程と、
    区分処理の対象となる紙葉類の情報が読取られたのに基づき、第1の項目の文字列の認識が成功しなかった場合、認識される第2の項目の文字列に最も近似する文字列を上記データベースの中から検索し、検索された上記文字列との組合せになっている第1の項目の文字列を上記データベースから得る取得工程と、
    を有することを特徴とする文字列判定方法。
JP2003077789A 2003-03-20 2003-03-20 区分装置、データベース作成方法および文字列判定方法 Abandoned JP2004283697A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003077789A JP2004283697A (ja) 2003-03-20 2003-03-20 区分装置、データベース作成方法および文字列判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003077789A JP2004283697A (ja) 2003-03-20 2003-03-20 区分装置、データベース作成方法および文字列判定方法

Publications (1)

Publication Number Publication Date
JP2004283697A true JP2004283697A (ja) 2004-10-14

Family

ID=33292458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003077789A Abandoned JP2004283697A (ja) 2003-03-20 2003-03-20 区分装置、データベース作成方法および文字列判定方法

Country Status (1)

Country Link
JP (1) JP2004283697A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097633A (ja) * 2011-11-02 2013-05-20 Hitachi Ltd 文書認識支援装置、文書検索装置及び文書管理方法
JP2016159245A (ja) * 2015-03-03 2016-09-05 株式会社東芝 配達物処理装置、および配達物処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097633A (ja) * 2011-11-02 2013-05-20 Hitachi Ltd 文書認識支援装置、文書検索装置及び文書管理方法
JP2016159245A (ja) * 2015-03-03 2016-09-05 株式会社東芝 配達物処理装置、および配達物処理プログラム

Similar Documents

Publication Publication Date Title
US5933531A (en) Verification and correction method and system for optical character recognition
US7769778B2 (en) Systems and methods for validating an address
JP2007004584A (ja) 情報処理装置
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
WO2009005492A1 (en) Systems and methods for validating an address
JP5433470B2 (ja) 住所データベース構築装置および住所データベース構築方法
US20080292186A1 (en) Word recognition method and word recognition program
JP2004283697A (ja) 区分装置、データベース作成方法および文字列判定方法
JP5911701B2 (ja) ビデオコーディングシステム、画像の表示優先度判定プログラムおよび小包処理装置
JP3149859B2 (ja) ビデオコーディングシステム及び方法
JP3071745B2 (ja) 文字認識結果の後処理方法
JP6441715B2 (ja) 宛先認識装置
JP2002207960A (ja) 認識文字修正方法及び認識文字修正プログラム
JP2000298701A (ja) 宛先特定装置
JPH0620087A (ja) Ocr処理システムにおける漢字住所データ処理方法
JP2984287B2 (ja) 光学式文字読取装置
JPH05120494A (ja) 文字認識方法及びその装置
JP2007164609A (ja) 文字認識方法及び文字認識装置
JP2874199B2 (ja) 単語辞書照合装置
JPH05298489A (ja) 文字認識方式
JPH0934888A (ja) 文字認識方法及び文字認識装置
JPH09114929A (ja) 文字認識方法および装置
JPH088761A (ja) 検査桁付コード生成方法とその生成装置及び検査桁付コード検査方法とその検査装置
JPH1176948A (ja) ビデオコーディング装置
JPH0765110A (ja) 光学的文字読取装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20080407