JP2004283697A

JP2004283697A - 区分装置、データベース作成方法および文字列判定方法

Info

Publication number: JP2004283697A
Application number: JP2003077789A
Authority: JP
Inventors: Takuma Akagi; 琢磨赤木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-03-20
Filing date: 2003-03-20
Publication date: 2004-10-14

Abstract

【課題】オペレータに負担をかけることなく、紙葉類上の所定の欄における文字列を精度良く判定できるようにする。
【解決手段】区分装置において、認識部１０１は、スキャナにより読取られた情報から、住所に該当する文字列と氏名に該当する文字列とを認識し、その際に氏名の文字列を構成する個々の文字に対して複数の文字候補を生成する。登録部４２は、認識部１０１により認識された住所の文字列と上記複数の文字候補を含む氏名の文字列との組合せを住所氏名データベース４３に登録する。区分処理の際には、紙葉類の情報が同じスキャナにより読取られて、同じ認識部１０１により認識が行われる。住所の文字列の認識が成功しなかった場合、認識部１０１により認識された氏名の文字列に最も近似する文字列を住所氏名データベース４３の中から検索し、検索された文字列との組合せになっている住所を得る。
【選択図】図７

Description

【０００１】
【発明の属する技術分野】
この発明は、紙葉類上の情報に基づいて区分処理を行う区分装置、その区分装置に使用されるデータベースの作成方法、およびその区分装置に適用される文字列判定方法に関する。
【０００２】
【従来の技術】
配達用の伝票や帳票などの紙葉類には、住所欄および氏名欄が設けられているものがある。このような書式の紙葉類上の情報は、区分装置（区分機とも呼ばれる）においてＯＣＲ（光学式文字読取装置）により読取られ、読取られた情報から所定の認識機能を用いることにより文字列の認識が行われる。この場合、特に、住所欄に記載されている住所を正しく判定することが要求される。
【０００３】
住所を正しく判定する手法の一つに、「住所氏名合わせ読み」と呼ばれるものがある。この手法は、住所と氏名とが対になった住所氏名データベースを予め用意しておき、住所の文字列の認識が成功しなかった場合でも、氏名の文字列の認識が成功すれば、上記住所氏名データベースを参照することにより、認識できた氏名に対応する住所を一意に決定できるものである。この「住所氏名合わせ読み」による処理の流れを、図２０のフローチャートを参照しつつ説明する。
【０００４】
まず、住所の認識を行う。住所の認識が成功した場合は（Ｓ９１のＹｅｓ）、住所の認識結果を出力する（Ｓ９５）。一方、住所認識が失敗したり認識の信頼度が低かったりした場合は（Ｓ９１のＮｏ）、氏名の認識を行う。氏名の認識が失敗したり認識の信頼度が低かったりした場合は（Ｓ９２のＮｏ）、住所の認識が失敗したものとみなし、リジェクトする（Ｓ９３）。一方、氏名の認識が成功した場合は（Ｓ９２のＹｅｓ）、住所氏名データベースを参照することにより、認識できた氏名に対応する住所を索いてきて（Ｓ９４）、その住所を出力する（Ｓ９５）。
【０００５】
住所氏名データベースの登録例を図２１に示す。図示のように、住所氏名データベースは、住所と氏名とが一対一の関係となっており、氏名が確定すれば対応する住所を一意に決定できるものとなっている。
【０００６】
次に、上記住所氏名データベースを作成する一般的な手法を説明する。
まず、区分装置において、紙葉類上の住所および氏名の情報をそれぞれ認識する。住所および氏名の認識結果をそれぞれ表示部に表示する。オペレータは、認識結果が間違っていれば、入力装置を用いて修正を行い、その修正結果を住所氏名データベースに登録する。この手法では、オペレータは登録を行う度に確認作業を行う必要があるため、時間と手間がかかってしまう。
【０００７】
オペレータの確認作業が必要となる原因としては、氏名の誤読率が高いことが挙げられる。住所については実在確認をすることにより誤読を修正することができるが、氏名については文字の組合せが非常に多く、後処理によって誤読を修正することが難しいからである。
【０００８】
一方、認識結果を修正することなく所望の検索を行う方法が、特許文献１に開示されている。この文献は、ＯＣＲにより読取られた文書情報の認識結果をそのまま保存しておき、「あいまい検索」を行うことにより所望の文書検索を行うものである。
【特許文献１】
特開平７−１５２７７４号公報
【発明が解決しようとする課題】
しかしながら、区分装置での住所判定には正確さが求められるため、住所氏名データベースに、文書検索における「あいまい検索」などの手法を適用することは望ましくない。
【０００９】
この発明は、オペレータに負担をかけることなく、紙葉類上の所定の欄における文字列を精度良く判定することができる区分装置、その区分装置に使用されるデータベースの作成方法、およびその区分装置に適用される文字列判定方法を提供することを目的としている。
【００１０】
【課題を解決するための手段】
この発明に係わる区分装置は、紙葉類上の情報に基づいて区分処理を行う区分装置であって、紙葉類上の第１の項目および第２の項目に記載された情報をそれぞれ読取る読取手段と、上記読取手段により読取られた上記第１の項目の情報と上記第２の項目の情報とからそれぞれ文字列を認識する認識手段と、上記認識手段により認識された上記第１の項目の文字列と上記第２の項目の文字列との組合せを第１のデータベースに仮登録する仮登録手段と、上記仮登録手段により同じ組合せが上記第１のデータベースに仮登録された回数が所定値に達した場合、その組合せを第２のデータベースに本登録する本登録手段と、上記読取手段により区分処理の対象となる紙葉類の情報が読取られたのに基づき、上記認識手段による第１の項目の文字列の認識が成功しなかった場合、当該認識手段により認識される第２の項目の文字列に最も近似する文字列を上記第２のデータベースの中から検索し、検索された上記文字列との組合せになっている第１の項目の文字列を上記第２のデータベースから得る手段とを有して構成される。
【００１１】
【発明の実施の形態】
この発明の実施の形態を図面に基づいて詳細に説明する。
図１は、この発明に係わる区分機１を示す外観図であり、図２は区分機１の概略構成を示す図である。この区分機１は、大型の箱型状の区分機本体１ａを有している。この区分機１は、配達物Ｐ上の宛先である住所（居所）および宛名である氏名を読取り、その読取内容から住所等を認識し、この認識した住所等に対応する区分先に配達物Ｐを区分するものである。
上記区分機本体１ａには、供給部２と、スキャナ部（読取手段）３と、搬送部４と、区分部５と、収納部６とが設けられている。この供給部２からの配達物Ｐが搬送路によって搬送されることにより、搬送部４、区分部５を順次介して収納部６に導かれる。
【００１２】
上記供給部２は、配達物Ｐを載置する載置台７と、この載置台７から配達物Ｐを一通ずつ取り出して搬送路に送る取出し部８とを有している。上記スキャナ部３は、搬送路によって搬送される１通ずつの配達物Ｐ上の全体の画像を光学的に読取って画像情報を生成する。上記搬送部４は、スキャナ部３を通過してきた配達物Ｐを区分部５へ搬送する。上記収納部６は、配達物Ｐを区分収納する多数の収納ポケット６ａを有している。上記区分部５は、搬送部４から送られてくる配達物Ｐをスキャナ部３からの画像情報に対する後述する認識結果に基づいて収納ポケット６ａ、…のいずれかに振り分ける。
【００１３】
上記スキャナ部３は、配達物Ｐ上を光学的に走査して光電変換することによりパターン信号として紙葉類上の情報を読取る読取手段であり、たとえば配達物Ｐ上に光を照射する光源、およびその反射光を受けて電気信号に変換する自己走査形のＣＣＤイメージセンサ等によって構成される。上記スキャナ部３の出力は情報処理部１０中の認識部に供給される。
【００１４】
上記区分機１において、上記供給部２、スキャナ部３、搬送部４、区分部５、情報処理部１０は、制御部１１に接続されている。この制御部１１は、区分機１の全体の動作を制御する。たとえば、制御部１１は図示しないメモリに記憶されている区分指定テーブルを用いて、上記情報処理部１０での認識結果（もしくは判定結果）に対応する区分指定データを読出し、この読出した区分指定データ（収納ポケット６ａ、…のアドレス）に対応する収納ポケット６ａ、…に上記配達物Ｐを搬送せしめるものである。
さらに、上記制御部１１はドライバ（図示せず）により上記搬送路等の搬送機構部（図示せず）を駆動することにより、搬送系全体の制御を行うようになっている。
【００１５】
上記情報処理部１０は、図３に示すように、認識部（認識手段）１０１と、データベース作成部１０２と、記憶部１０３と、住所判定部１０４と、表示部１０５と、入力部１０６とで構成されている。
【００１６】
認識部１０１は、スキャナ部３から供給される画像から、住所および氏名が記載されている紙葉類上の住所欄（第１の項目）および氏名欄（第２の項目）の各領域を検出し、その領域内の文字列を１文字単位で認識するものである。この認識においては、構造特徴マッチング法などの文字認識手法が適用される。
【００１７】
データベース作成部１０２は、認識部１０１により認識された住所の文字列と氏名の文字列との組合せを含む住所氏名データベースを作成するものである。なお、データベース作成部１０２は、認識部１０１により認識された住所の文字列と氏名の文字列とを表示部１０５に表示し、オペレータに文字列の修正を促すことも可能である。また、入力部１０６を介して修正後の文字列が入力されてきた場合には、その修正後の文字列を、住所氏名データベースに登録される組合せに含める処理を行うこともできる。
【００１８】
記憶部１０３は、データベース作成部１０２により作成される住所氏名データベースを記憶するものである。
住所判定部１０４は、認識部１０１による住所の文字列の認識が成功した場合には、この認識部１０１から住所の文字列を得る。一方、認識部１０１による住所の文字列の認識が成功しなかった場合、住所判定部１０４は、認識部１０１により認識された氏名の文字列に最も近似する文字列を記憶部１０３内の住所氏名データベースの中から検索し、検索された文字列との組合せになっている住所の文字列を得るものである。ここで得られた住所の文字列は、住所判定結果として制御部１１へ供給される。
【００１９】
表示部１０５は、情報を画面上に表示するＬＣＤなどの表示装置に相当するものである。また、入力部１０６は、キーボードやマウスなどの入力装置に相当するものである。
【００２０】
上記認識部１０１は、図４に示すように、住所認識部１０１Ａと氏名認識部１０１Ｂとを有する。
住所認識部１０１Ａは、住所欄の文字列を認識する際に参照するための住所辞書を格納した住所辞書部２１を有している。また、この住所認識部１０１Ａは、文字パターンの一致の度合いを表す文字認識の信頼度を算出するための信頼度算出部２２を有している。
【００２１】
氏名認識部１０１Ｂは、氏名欄の個々の文字を認識する際に参照するための文字辞書を格納した文字辞書部２３を有しており、氏名欄の個々の文字に対して複数の文字候補を生成することが可能である。また、氏名認識部１０１Ｂは、文字パターンの一致の度合いを表す文字認識の信頼度を算出するための信頼度算出部２４を有している。
【００２２】
（第１のデータベース作成手法）
次に、図５および図６を参照して、第１のデータベース作成手法の例について説明する。
図５は、情報処理部１０の中の第１のデータベース作成手法に係わる構成を示している。なお、図３、図４と共通する要素には同一の符号を付している。
【００２３】
住所認識部１０１Ａおよび氏名認識部１０１Ｂは、スキャナ部３（図３）により紙葉類上の住所欄および氏名欄の情報が読取られると、その読取られた情報から、住所の文字列と氏名の文字列とを認識する。また、住所認識部１０１Ａおよび氏名認識部１０１Ｂは、認識した個々の文字の信頼度を算出する。
【００２４】
住所氏名統合部３１は、住所認識部１０１Ａにより認識された文字列と氏名認識部１０１Ｂにより認識された文字列とを組み合わせて、住所の文字列と氏名の文字列との組合せ（住所氏名データ）を作成する。また、住所氏名統合部３１は、認識部１０１から得られる個々の文字の信頼度に基づき、上記組合せに信頼度の点数を付加する。信頼度の点数が付加された組合せは、仮登録部３２に供給される。
【００２５】
仮登録部（仮登録手段）３２は、住所氏名統合部３１から送られてくる信頼度の点数が付加された組合せに、仮登録回数（＝１）を更に付加して、記憶部１０３内の仮登録データベース３３に仮登録する。なお、同じ組合せが既に仮登録データベース３３にある場合は、仮登録部３２は、仮登録データベース（第１のデータベース）３３中の該当する仮登録回数に１を加算すると共に、該当する信頼度の点数に認識結果の信頼度の点数を加算する。
【００２６】
住所氏名登録回数確認部３４は、同じ組合せが仮登録データベース３３に仮登録された回数が所定値に達したか否かを確認し、所定値に達した場合には、該当する組合せを本登録部３６に供給する。住所氏名点数確認部３５は、仮登録データベース３３中のいずれかの組合せの信頼度の点数が所定値以上になったか否かを確認し、所定値以上になった場合には、該当する組合せを本登録部３６に供給する。
【００２７】
本登録部（本登録手段）３６は、住所氏名登録回数確認部３４もしくは住所氏名点数確認部３５から組合せの供給を受けた場合に、その組合せを記憶部１０３内の住所氏名データベース（第２のデータベース）３７に登録する。
【００２８】
次に、図６のフローチャートを参照して、上記第１のデータベース作成手法に係わる動作を説明する。
紙葉類上の住所欄および氏名欄の情報がスキャナ部３により読取られると、住所欄に該当する文字列と氏名欄に該当する文字列とが認識される（Ｓ１１）。このとき、認識した個々の文字の信頼度も算出される。また、認識された住所の文字列と氏名の文字列とが組み合わされる（Ｓ１２）。
【００２９】
ここで、同じ組合せの仮登録が仮登録データベース３３になければ（Ｓ１３のＮｏ）、認識された住所の文字列と氏名の文字列との組合せを仮登録データベース３３に仮登録する（Ｓ１４）。このとき、仮登録回数（＝１）および算出された信頼度の点数も付加される。
【００３０】
一方、同じ組合せの仮登録が仮登録データベース３３にあれば（Ｓ１３のＹｅｓ）、仮登録データベース３３中の該当する仮登録回数に１が加算され、該当する信頼度の点数に認識結果の信頼度の点数が加算される（Ｓ１５）。
【００３１】
ここで、仮登録の回数が所定値に達しておらず（Ｓ１６のＮｏ）、且つ、信頼度の点数が所定値以上になっていなければ（Ｓ１７のＮｏ）、処理が終了する。一方、仮登録の回数が所定値に達している場合（Ｓ１６のＹｅｓ）、もしくは、信頼度の点数が所定値以上になっている場合には（Ｓ１７のＹｅｓ）、住所氏名データベース３７の中に同じ組合せの登録があるか否かが判定される（Ｓ１８）。同じ組合せの登録があれば（Ｓ１８のＹｅｓ）、処理が終了し、同じ組合せの登録がなければ（Ｓ１８のＮｏ）、住所の文字列と氏名の文字列との組合せを新規に登録する（Ｓ１９）。
【００３２】
このように、第１のデータベース作成手法によれば、仮登録データベース３３に仮登録した組合せのうち、仮登録の回数が所定値に達しているか、もしくは信頼度の点数が所定値以上になっているものに限り、住所氏名データベース３７に登録するようにしているので、誤登録を防止でき、住所氏名データベース３７内の情報の信頼性を高めることができる。
【００３３】
（第２のデータベース作成手法）
次に、図７〜図１０を参照して、第２のデータベース作成手法の例について説明する。
図７は、情報処理部１０の中の第２のデータベース作成手法に係わる構成を示している。なお、図３、図４と共通する要素には同一の符号を付している。
【００３４】
住所認識部１０１Ａおよび氏名認識部１０１Ｂは、スキャナ部３（図３）により紙葉類上の住所欄および氏名欄の情報が読取られると、その読取られた情報から、住所欄に該当する文字列と氏名欄に該当する文字列とを認識する。その際に、氏名認識部１０１Ｂは、氏名の文字列を構成する個々の文字に対して複数の文字候補を生成する。また、住所認識部１０１Ａおよび氏名認識部１０１Ｂは、認識した個々の文字の信頼度を算出する。
【００３５】
住所氏名統合部４１は、住所認識部１０１Ａにより認識された文字列と氏名認識部１０１Ｂにより認識された文字列（個々の文字に対する複数の文字候補を含む）とを組み合わせて、住所の文字列と氏名の文字列との組合せ（住所氏名データ）を作成する。また、住所氏名統合部４１は、認識部１０１から得られる個々の文字の信頼度に基づき、上記組合せに信頼度の点数を付加する。信頼度の点数が付加された組合せは、登録部４２に供給される。
登録部（登録手段）４２は、住所氏名統合部４１から上記組合せの供給を受けた場合に、その組合せを記憶部１０３内の住所氏名データベース４３に登録する。
【００３６】
ここで、図８を参照して、住所氏名データベース４３に登録されるデータの構造について説明する。
例えば、図８の左上に示されるように、実際の紙葉類の住所欄に「東京都港区芝１−１」が記載され、氏名欄に「東京太郎」が記載されている場合に、住所がその通りに認識され、名前が図８の右上のような識別結果になったものとする。この場合、例えば氏名欄における４つの文字の各々に対して３つの文字候補（第１位〜第３位）が生成される。また、各文字候補は、認識結果の信頼度を示す数値を備え、信頼度の高い順に記載されている。
【００３７】
このようにして認識結果として得られた住所の文字列と氏名の文字列（信頼度が付された複数の文字候補を含む）とが、図８の下側に示されるような形で住所氏名データベース４３に登録されることになる。
【００３８】
また、図８の左上に示されるように、実際の紙葉類の住所欄に「神奈川県川崎市柳３」が記載され、氏名欄に「柳次郎」が記載されている場合に、住所がその通りに認識され、名前が３文字で書かれているのか４文字で書かれているのか判別しかねることがある。そのような場合、３文字であるものとして認識した文字列と、４文字であるものとして認識した文字列の両方が、図８の下側に示されるような形で住所氏名データベース４３に登録される。このように、信頼性の低い認識結果も住所氏名データベース４３に登録するようにし、氏名の文字列に冗長性を持たせている。
【００３９】
ここで、住所氏名データベース４３に登録しようとする名前の文字列が、既に住所氏名データベース４３に登録されている場合の処理を、図９を参照して説明する。例えば、名前欄の識別結果Ｘ（図８の右上に示した「東京太郎」の認識結果と同じ）が既に住所氏名データベース４３に登録されているところに、別の紙葉類上の氏名欄の識別結果Ｙが得られたものとする。住所欄の識別結果が既に登録されているもの（図８の下側に示した「東京都港区芝１−１」）に一致するのであれば、氏名欄の識別結果Ｙを識別結果Ｘにマージする処理が必要となる。
【００４０】
まず、氏名欄の同じ列にある文字候補同士を比較し、同じ文字候補が無ければ、該当する列に新たな文字候補を登録する。このとき、文字認識の信頼度の点数も併せて登録する。もし、同じ文字候補があれば、既に登録されている方の文字候補の信頼度の点数を更新する。更新は、既に登録されている方の文字候補の信頼度の点数に、新たに認識された方の文字候補の信頼度の点数を加算することによって行う。
【００４１】
次に、図１０のフローチャートを参照して、上記第２のデータベース作成手法に係わる動作を説明する。
紙葉類上の住所欄および氏名欄の情報がスキャナ部３により読取られると、住所欄に該当する文字列と氏名欄に該当する文字列とが認識される（Ｓ２１）。このとき、認識した個々の文字の信頼度も算出される。認識された住所の信頼度が所定値以上であれば（Ｓ２２のＹｅｓ）、認識された住所の文字列と氏名の文字列とが組み合わされる（Ｓ２３）。なお、認識された住所の信頼度が所定値以上で無ければ（Ｓ２２のＮｏ）、処理が終了する。
【００４２】
ここで、同じ組合せの登録が住所氏名データベース４３になければ（Ｓ２４のＮｏ）、認識された住所の文字列と氏名の文字列（個々の文字に複数の候補あり）との組合せを住所氏名データベース４３に新規登録する（Ｓ２５）。このとき、算出された信頼度の点数も付加される。
【００４３】
一方、同じ組合せの登録が住所氏名データベース４３にある場合には（Ｓ２４のＹｅｓ）、名前に新たな文字候補があるか否かが判定される（Ｓ２６）。もし、名前に新たな文字候補があれば（Ｓ２６のＹｅｓ）、その文字候補が追加登録される（Ｓ２７）。このとき、信頼度も付加される。
【００４４】
そして、認識された氏名における各文字候補の信頼度の点数が、住所氏名データベース４３中の該当する文字候補に付加されている信頼度の点数にそれぞれ加算される（Ｓ２８）。
【００４５】
このように、第２のデータベース作成手法によれば、名前欄における信頼度の低い認識結果も含めて文字毎に複数の文字候補が住所氏名データベース３７に登録されるので、氏名の文字列に冗長性を持たせることができ、区分処理時における住所判定の精度を結果的に向上させることができる。
【００４６】
（第３のデータベース作成手法）
次に、図１１〜図１３を参照して、第３のデータベース作成手法の例について説明する。
図１１は、情報処理部１０の中の第３のデータベース作成手法に係わる構成を示している。なお、図３、図４と共通する要素には同一の符号を付している。
【００４７】
住所認識部１０１Ａおよび氏名認識部１０１Ｂは、スキャナ部３（図３）により紙葉類上の住所欄および氏名欄の情報が読取られると、その読取られた情報から、住所欄に該当する文字列と氏名欄に該当する文字列とを認識する。その際に、氏名認識部１０１Ｂは、氏名の文字列を構成する個々の文字に対して複数の文字候補を生成する。また、住所認識部１０１Ａおよび氏名認識部１０１Ｂは、認識した個々の文字の信頼度を算出する。
【００４８】
住所氏名統合部５１は、住所認識部１０１Ａにより認識された文字列と氏名認識部１０１Ｂにより認識された文字列（個々の文字に対する複数の文字候補を含む）とを組み合わせて、住所の文字列と氏名の文字列との組合せ（住所氏名データ）を作成し、その組合せを登録部５２に供給する。
【００４９】
登録部５２は、住所氏名統合部５１から組合せの供給を受けた場合、記憶部１０３内の姓名リスト５３の中から、認識された氏名の文字列に最も近似する文字列を選択し、選択された文字列を上記組合せに含めて記憶部１０３内の住所氏名データベース５４に登録する。姓名リスト５３は、予め良く使われる姓および名を列挙してあるリストである。
【００５０】
ここで、登録部５２が姓名リスト５３を用いて登録を行う処理の具体例を、図１２を参照して説明する。
図１２の左上に示されるように、例えば氏名の認識結果として４つの文字が認識され、その際に各文字に対して３つの文字候補（第１位〜第３位）が生成されたものとする。ここで、登録部５２は、この認識結果と図１２の右側に示される姓名リスト５３とを比較し、当該認識結果の中から正しいと推測される氏名が選択される。図１２に例では、推測結果として「東京太郎」が正しい氏名であると判定されている。そして、認識結果の中の第１位に該当する文字をそれぞれ含んだ文字列である「車克大朗」と推測結果である「東京太郎」とが両方とも住所氏名データベース５４に登録される。なお、図１２では各文字に信頼度が付加されない場合を例示しているが、信頼度が付加された構成としてもよい。
【００５１】
次に、図１３のフローチャートを参照して、上記第３のデータベース作成手法に係わる動作を説明する。
紙葉類上の住所欄および氏名欄の情報がスキャナ部３により読取られると、住所欄に該当する文字列と氏名欄に該当する文字列とが認識される（Ｓ３１）。このとき、認識した個々の文字の信頼度も算出される。認識された住所の信頼度が所定値以上であれば（Ｓ３２のＹｅｓ）、認識された住所の文字列と氏名の文字列とが組み合わされ、登録のための処理へと進む。なお、認識された住所の信頼度が所定値以上で無ければ（Ｓ３２のＮｏ）、処理が終了する。
【００５２】
ここで、同じ組合せの登録が住所氏名データベース５４あれば（Ｓ３３のＹｅｓ）、処理が終了する。一方、同じ組合せの登録がなければ（Ｓ３３のＮｏ）、認識結果である氏名（個々の文字に複数の文字候補あり）と姓名リスト５３上の氏名とを比較し、正しいと推測される氏名が選択される（Ｓ３４）。そして、推測結果である氏名の文字列および第１位候補の認識結果である氏名の文字列と、認識結果である住所の文字列とが組み合わされ、住所氏名データベース５４に登録される（Ｓ３５）。
【００５３】
このように、第３のデータベース作成手法によれば、姓名リストから選択される氏名も併せて住所氏名データベースに登録されるので、氏名の文字列に冗長性を持たせることができ、区分処理時における住所判定の精度を結果的に向上させることができる。
【００５４】
なお、姓名リストから選択される氏名も併せて住所氏名データベースに登録する手法は、前述した第１のデータベース作成手法や第２のデータベース作成手法にも適用することができる。
【００５５】
（第４のデータベース作成手法）
次に、図１４および図１５を参照して、第４のデータベース作成手法の例について説明する。
図１４は、情報処理部１０の中の第４のデータベース作成手法に係わる構成を示している。なお、図３、図４と共通する要素には同一の符号を付している。
【００５６】
住所認識部１０１Ａおよび氏名認識部１０１Ｂは、スキャナ部３（図３）により紙葉類上の住所欄および氏名欄の情報が読取られると、その読取られた情報から、住所欄に該当する文字列と氏名欄に該当する文字列とを認識する。その際に、氏名認識部１０１Ｂは、氏名の文字列を構成する個々の文字に対して複数の文字候補を生成する。また、住所認識部１０１Ａおよび氏名認識部１０１Ｂは、認識した個々の文字の信頼度を算出する。
【００５７】
住所氏名統合部６１は、住所認識部１０１Ａにより認識された文字列と氏名認識部１０１Ｂにより認識された文字列（個々の文字に対する複数の文字候補を含む）とを組み合わせて、住所の文字列と氏名の文字列との組合せ（住所氏名データ）を作成し、その組合せを登録部６２に供給する。
【００５８】
登録部６２は、住所氏名統合部５１から組合せの供給を受けた場合、認識結果である住所の文字列と氏名の文字列とを表示部１０５に表示し、オペレータに文字列の修正を促す。入力部１０６を介して修正後の文字列が入力されてきた場合、登録部６２は、その修正後の文字列を上記組合せに含めて記憶部１０３内の住所氏名データベース６３に登録する。なお、登録の際には、各文字に信頼度が付加され、ペレータが入力した文字には最も高い信頼度が付加される。
【００５９】
次に、図１５のフローチャートを参照して、上記第３のデータベース作成手法に係わる動作を説明する。
紙葉類上の住所欄および氏名欄の情報がスキャナ部３により読取られると、住所欄に該当する文字列と氏名欄に該当する文字列とが認識される（Ｓ４１）。このとき、認識した個々の文字の信頼度も算出される。認識された住所の信頼度が所定値以上であれば（Ｓ４２のＹｅｓ）、認識された住所の文字列と氏名の文字列とが組み合わされ、登録のための処理へと進む。なお、認識された住所の信頼度が所定値以上で無ければ（Ｓ４２のＮｏ）、処理が終了する。
【００６０】
ここで、同じ組合せの登録が住所氏名データベース５４あれば（Ｓ４３のＹｅｓ）、処理が終了する。一方、同じ組合せの登録がなければ（Ｓ４３のＮｏ）、認識結果である氏名（個々の文字に複数の文字候補あり）を表示部１０５の画面に表示し、オペレータに正しい氏名を入力させる（Ｓ４４）。そして、入力された正しい氏名の文字列および第１位候補の認識結果である氏名の文字列と、認識結果である住所の文字列とが組み合わされ、住所氏名データベース５４に登録される（Ｓ４５）。
【００６１】
このように、第４のデータベース作成手法によれば、オペレータにより入力された正しい氏名も併せて住所氏名データベース４３に登録されるので、氏名の文字列に冗長性を持たせることができ、区分処理時における住所判定の精度を結果的に向上させることができる。
【００６２】
なお、オペレータにより入力された正しい氏名も併せて住所氏名データベースに登録する手法は、前述した第１のデータベース作成手法や第２のデータベース作成手法にも適用することができる。
【００６３】
（区分処理時の住所判定手法）
次に、図１６〜図１９を参照して、作成した住所氏名データベースを用いた区分処理時の住所判定手法の例について説明する。ここでは、前述の第２のデータベース作成手法により作成した住所氏名データベース（図８の下側）を使用した場合の例を示す。
図１６は、情報処理部１０の中の住所判定手法に係わる構成を示している。なお、図３、図４と共通する要素には同一の符号を付している。
【００６４】
住所認識部１０１Ａおよび氏名認識部１０１Ｂは、スキャナ部（前述の第１〜第４のデータベース作成手法において使用したスキャナ部３と同じもの）により紙葉類上の住所欄および氏名欄の情報が読取られると、その読取られた情報から、住所欄に該当する文字列と氏名欄に該当する文字列とを認識する。その際に、氏名認識部１０１Ｂは、氏名の文字列を構成する個々の文字に対して複数の文字候補を生成する。また、住所認識部１０１Ａおよび氏名認識部１０１Ｂは、認識した個々の文字の信頼度を算出する。
【００６５】
住所判定部１０３は、住所認識部１０１Ａによる住所の文字列の認識が成功した場合には、住所認識部１０１Ａでの認識結果であり住所の文字列を出力する。一方、住所認識部１０１Ａによる住所の文字列の認識が成功しなかった場合には、氏名認識部１０１Ｂにより認識された氏名の文字列に最も近似する文字列を住所氏名データベース４３の中から検索し、検索された文字列との組合せになっている住所の文字列を住所氏名データベース４３から得て、その住所の文字列を出力する。
【００６６】
なお、住所判定部１０３が行う検索処理を、代わりに氏名認識部１０１Ｂにおいて行うように変形することも可能である。この場合、氏名認識部１０１Ｂは、自身が認識した氏名の文字列に最も近似する文字列を住所氏名データベース４３の中から検索し、検索された文字列との組合せになっている住所の文字列を住所氏名データベース４３から得て、その住所の文字列を住所判定部１０３へ供給する。住所判定部１０３は、住所認識部１０１Ａから供給される住所の認識結果と氏名認識部１０１Ｂから供給される住所の検索結果とを比較して、より信頼度の高い住所を決定して出力する。
【００６７】
次に、図１７を参照して、氏名のマッチングの手法について説明する。ここでいうマッチングとは、住所氏名データベース４３に登録されている各氏名の中から、氏名認識部１０１Ｂで認識された氏名に該当するものを選び出す処理を意味している。
【００６８】
図１７の上側に示されるように、例えば氏名の認識結果として４つの文字が認識され、その際に各文字に対して３つの文字候補（第１位〜第３位）が生成されたものとする。ここで、住所判定部１０３により、この認識結果と図１７の下側に示される住所氏名データベース４３中の各種組合せの中の氏名とが比較され、当該認識結果に最も近似する氏名が選択される。
【００６９】
いま、住所氏名データベース４３中の氏名データ項目Ｐに対してマッチングを行う場合を考える。住所氏名データベース４３中の各氏名データ項目Ｐ，Ｑ，…には、それぞれマッチング評価値が割り当てられ、所定の記憶領域に確保されているものとする。なお、初期値として、マッチング評価値は０とされる。
【００７０】
まず、認識結果の１文字目の第１位候補「束」が、項目Ｐの１文字目の中にあるか否かを調べる。図の例では、認識結果の１文字目の第１位候補「束」は、項目Ｐの１文字目の第２位候補に存在する。この場合、認識結果における「束」の信頼度の点数４と項目Ｐにおける「束」の信頼度の点数３とを乗算した値をマッチング評価値に加算する。
【００７１】
次に、認識結果の１文字目の第２位候補「東」が、項目Ｐの１文字目の中にあるか否かを調べ、あれば、上記と同様に各々の信頼度の点数を乗算した値をマッチング評価値に加算する。無ければ、信頼度の点数を０とみなし、加算値は０となる。同じ手順により、認識結果の２文字目と項目Ｐの２文字目との比較を行い、最終的に認識結果の４文字目と項目Ｐの４文字目との比較も行う。この一連の計算により、項目Ｐに対するマッチング評価値は、（４＊３＋１＊５＋１＊０）＋（４＊４＋１＊０＋１＊３）＋（２＊５＋１＊０＋１＊０）＋（５＊０＋２＊５＋１＊０）＝７８となる。なお、このマッチング評価値は、文字数で割ったり、氏名データ項目に記載されている信頼度の点数の合計で割ったりして、正規化するようにしてもよい。
【００７２】
項目Ｑ、…についても、項目Ｐで行った計算と同じ計算を行う。この際、もし文字数の合わない氏名データ項目があれば、その部分はマッチング評価値には加算しない。図１７の上側のような識別結果の場合は４文字なので、項目Ｑに対するマッチングを行う際には、４文字として登録されている部分とのみ、点数計算を行う。全ての氏名データ項目に対応するマッチング評価値が求まれば、最もマッチング評価値が高い氏名データ項目を、認識結果に一番近似している氏名であるものと判定する。
【００７３】
認識結果の文字数が二通り挙げられる場合には、住所氏名データベース４３の中の該当する部分のそれぞれに対して、全て計算をして、マッチング評価値を求める。例えば、認識結果に文字数４の文字列と文字数３の文字列とが挙げられ、これらが項目Ｑに対応している場合、文字数４の識別結果と文字数４の登録文字との比較によりマッチング評価値を計算すると共に、文字数３の識別結果と文字数３の登録文字との比較によりマッチング評価値を計算し、その両方を加算するようにする。
【００７４】
次に、図１８のフローチャートを参照して、区分処理時の住所判定手法に係わる動作を説明する。
紙葉類上の住所欄および氏名欄の情報がスキャナ部３により読取られると、住所欄に該当する文字列が認識される（Ｓ５１）。このとき、認識した個々の文字の信頼度も算出される。認識された住所の信頼度が所定値以上であれば（Ｓ５２のＹｅｓ）、その認識結果は制御部１１へ送られ、処理が終了する。一方、認識された住所の信頼度が所定値以上でなければ（Ｓ５２のＮｏ）、正しい住所を判定するための処理が開始される。
【００７５】
氏名欄に該当する文字列が認識されると（Ｓ５３）、住所氏名データベース４３が参照され、認識された氏名に該当する氏名の検索が行われる（Ｓ５４）。ここでは、マッチングの処理が行われる。そして、住所氏名データベース４３の中から検索された氏名に対応する住所が得られる（Ｓ５５）。こうして得られた住所は、住所判定結果として制御部１１へ送られる。
【００７６】
次に、図１９のフローチャートを参照して、マッチング処理に係わる部分の動作を説明する。
まず、住所氏名データベース４３中の各種組合せの中から、識別された氏名の文字数と同じ文字数の氏名を含むものが特定される（Ｓ６１）。そして、特定した個々の組合せ（もしくは氏名データ項目）の中から、マッチング評価の対象となる組合せ（もしくは氏名データ項目）が１つ選択される（Ｓ６２）。
【００７７】
識別された氏名における各文字の信頼度の点数と、住所氏名データベース４３の中の該当する各文字の信頼度の点数とが乗算され、乗算値をそれぞれ加算してマッチング評価値が算出される（Ｓ６３）。算出されたマッチング評価値は所定の記憶領域に保存される（Ｓ６４）。
【００７８】
他にもまだマッチング評価していない組合せ（もしくは氏名データ項目）があれば（Ｓ６５のＹｅｓ）、上記Ｓ６２〜Ｓ６４の処理が繰り返される。無ければ（Ｓ６５のＮｏ）、マッチング評価値が最も高い組合せの住所が正しい住所であるものと判定される（Ｓ６６）。
【００７９】
このように、上記住所判定手法によれば、名前欄における信頼度の低い認識結果も含めて文字毎に複数の文字候補が登録されている住所氏名データベースを用いて所定のマッチングが行われ、住所氏名データベースから適切な氏名が選択されるので、適切な住所を精度良く判定することができる。
【００８０】
なお、上記の説明では、第２のデータベース作成手法により作成した住所氏名データベースを用いる場合を説明したが、代りに、第１、第３または第４のデータベース作成手法により作成した住所氏名データベースを用いて住所判定を行うようにしてもよい。
【００８１】
以上説明したように、本実施形態では、データベース作成時には氏名の認識結果に不十分なもの（信頼度が低い文字候補など）が含まれていても、それを含めて認識結果を登録することにより、住所氏名データベースの冗長性が高められる。また、区分処理時においては、氏名の認識結果に不十分なもの（信頼度が低い文字候補など）が含まれていたとしても、その認識結果を用いてデータベースの登録内容との照合が行われる。特に、データベース作成時と住所判定時とで同じスキャナを使用しているため、データベース作成時に認識した結果と住所判定時に認識した結果とが似かよった傾向を示す。このような結果同士のマッチングを行い、最も近似する氏名を選択し、この氏名に対応する住所を得ることにより、精度の良い住所判定が可能となる。
【００８２】
【発明の効果】
以上詳述したように、この発明によれば、オペレータに負担をかけることなく、紙葉類上の所定の欄における文字列を精度良く判定することができる区分装置、その区分装置に使用されるデータベースの作成方法、およびその区分装置に適用される文字列判定方法を提供できる。
【図面の簡単な説明】
【図１】この発明の実施形態を説明するための区分機の概略構成を示す外観図。
【図２】区分機の概略構成を示す図。
【図３】情報処理部を内部構成を中心に示すブロック図。
【図４】認識部の機能構成を示すブロック図。
【図５】情報処理部の中の第１のデータベース作成手法に係わる構成を示すブロック図。
【図６】第１のデータベース作成手法に係わる動作を示すフローチャート。
【図７】情報処理部の中の第２のデータベース作成手法に係わる構成を示すブロック図。
【図８】住所氏名データベースに登録されるデータの構造を説明するための図。
【図９】住所氏名データベースに登録しようとする名前の文字列が、既に住所氏名データベースに登録されている場合の処理を説明するための図。
【図１０】第２のデータベース作成手法に係わる動作を示すフローチャート。
【図１１】情報処理部の中の第３のデータベース作成手法に係わる構成を示すブロック図。
【図１２】登録部が姓名リストを用いて登録を行う処理の具体例を説明するための図。
【図１３】第３のデータベース作成手法に係わる動作を示すフローチャート。
【図１４】情報処理部の中の第３のデータベース作成手法に係わる構成を示すブロック図。
【図１５】第４のデータベース作成手法に係わる動作を示すフローチャート。
【図１６】情報処理部の中の住所判定手法に係わる構成を示すブロック図。
【図１７】氏名のマッチングの手法について説明するための図。
【図１８】区分処理時の住所判定手法に係わる動作を示すフローチャート。
【図１９】マッチング処理に係わる部分の動作を示すフローチャート。
【図２０】「住所氏名合わせ読み」による処理の流れを示すフローチャート。
【図２１】住所氏名データベースの登録例を示す図。
【符号の説明】１…区分機、２…供給部、３…スキャナ部、４…搬送部、５…区分部、１０…情報処理部、１１…制御部、１０１…認識部、１０２…データベース作成部、１０３…記憶部、１０４…住所判定部、１０５…表示部、１０６…入力部。

Claims

紙葉類上の情報に基づいて区分処理を行う区分装置であって、
紙葉類上の情報を読取る読取手段と、
上記読取手段により読取られた情報から、第１の項目に該当する文字列と第２の項目に該当する文字列とを認識する認識手段と、
上記認識手段により認識された上記第１の項目の文字列と上記第２の項目の文字列との組合せを第１のデータベースに仮登録する仮登録手段と、
上記仮登録手段により同じ組合せが上記第１のデータベースに仮登録された回数が所定値に達した場合、その組合せを第２のデータベースに本登録する本登録手段と、
上記読取手段により区分処理の対象となる紙葉類の情報が読取られたのに基づき、上記認識手段による第１の項目の文字列の認識が成功しなかった場合、当該認識手段により認識される第２の項目の文字列に最も近似する文字列を上記第２のデータベースの中から検索し、検索された上記文字列との組合せになっている第１の項目の文字列を上記第２のデータベースから得る手段と、
を具備することを特徴とする区分装置。
紙葉類上の情報に基づいて区分処理を行う区分装置であって、
紙葉類上の情報を読取る読取手段と、
上記読取手段により読取られた情報から、第１の項目に該当する文字列と第２の項目に該当する文字列とを認識し、その際に上記第２の項目の文字列を構成する個々の文字に対して複数の文字候補を生成する認識手段と、
上記認識手段により認識された上記第１の項目の文字列と上記複数の文字候補を含む上記第２の項目の文字列との組合せを所定のデータベースに登録する登録手段と、
上記読取手段により区分処理の対象となる紙葉類の情報が読取られたのに基づき、上記認識手段による第１の項目の文字列の認識が成功しなかった場合、当該認識手段により認識される第２の項目の文字列に最も近似する文字列を上記データベースの中から検索し、検索された上記文字列との組合せになっている第１の項目の文字列を上記データベースから得る手段と、
を具備することを特徴とする区分装置。
上記登録手段は、所定のリストの中から、認識された上記第２の項目の文字列に最も近似する文字列を選択し、選択された上記文字列を、上記データベースに登録される組合せに含めることを特徴とする請求項１又は２記載の区分装置。
上記登録手段は、所定の入力装置を介して入力される文字列を、上記データベースに登録される組合せに含めることを特徴とする請求項１又は２記載の区分装置。
上記第１の項目は住所に該当し、上記第２の項目は氏名に該当することを特徴とする請求項１又は２記載の区分装置。
紙葉類上の情報に基づいて区分処理を行う区分装置に使用されるデータベースの作成方法であって、
紙葉類上の情報を読取る読取工程と、
上記読取工程により読取られた情報から、第１の項目に該当する文字列と第２の項目に該当する文字列とを認識する認識工程と、
上記認識工程により認識された上記第１の項目の文字列と上記第２の項目の文字列との組合せを第１のデータベースに仮登録する仮登録工程と、
上記仮登録工程により同じ組合せが上記第１のデータベースに仮登録された回数が所定値に達した場合、その組合せを第２のデータベースに登録する登録工程と、
を有することを特徴とするデータベース作成方法。
紙葉類上の情報に基づいて区分処理を行う区分装置に使用されるデータベースの作成方法であって、
紙葉類上の情報を読取る読取工程と、
上記読取工程により読取られた情報から、第１の項目に該当する文字列と第２の項目に該当する文字列とを認識し、その際に上記第２の項目の文字列を構成する個々の文字に対して複数の文字候補を生成する認識工程と、
上記認識工程により認識された上記第１の項目の文字列と上記複数の文字候補を含む上記第２の項目の文字列との組合せを所定のデータベースに登録する登録工程と、
を有することを特徴とするデータベース作成方法。
上記登録工程は、所定のリストの中から、認識された上記第２の項目の文字列に最も近似する文字列を選択し、選択された上記文字列を、上記データベースに登録される組合せに含める工程を有することを特徴とする請求項６又は７記載のデータベース作成方法。
上記登録工程は、所定の入力装置を介して入力される文字列を、上記データベースに登録される組合せに含める工程を有することを特徴とする請求項６又は７記載のデータベース作成方法。
紙葉類上の情報に基づいて区分処理を行う区分装置に適用される文字列判定方法であって、
紙葉類上の情報を読取る読取工程と、
上記読取工程により読取られた情報から、第１の項目に該当する文字列と第２の項目に該当する文字列とを認識し、その際に上記第２の項目の文字列を構成する個々の文字に対して複数の文字候補を生成する認識工程と、
上記認識工程により認識された上記第１の項目の文字列と上記複数の文字候補を含む上記第２の項目の文字列との組合せを所定のデータベースに登録する登録工程と、
区分処理の対象となる紙葉類の情報が読取られたのに基づき、第１の項目の文字列の認識が成功しなかった場合、認識される第２の項目の文字列に最も近似する文字列を上記データベースの中から検索し、検索された上記文字列との組合せになっている第１の項目の文字列を上記データベースから得る取得工程と、
を有することを特徴とする文字列判定方法。