JP2011194287A - 集中情報処理装置及び集中情報処理システム - Google Patents

集中情報処理装置及び集中情報処理システム Download PDF

Info

Publication number
JP2011194287A
JP2011194287A JP2010061538A JP2010061538A JP2011194287A JP 2011194287 A JP2011194287 A JP 2011194287A JP 2010061538 A JP2010061538 A JP 2010061538A JP 2010061538 A JP2010061538 A JP 2010061538A JP 2011194287 A JP2011194287 A JP 2011194287A
Authority
JP
Japan
Prior art keywords
information
parameter value
image data
information processing
centralized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010061538A
Other languages
English (en)
Other versions
JP5390440B2 (ja
Inventor
Masaya Maeda
匡哉 前田
Bunpei Irie
文平 入江
Tomoyuki Hamamura
倫行 浜村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010061538A priority Critical patent/JP5390440B2/ja
Priority to EP11155816A priority patent/EP2367141A2/en
Priority to US13/033,667 priority patent/US20110229018A1/en
Priority to KR1020110016400A priority patent/KR101136169B1/ko
Priority to CN2011100500070A priority patent/CN102189080A/zh
Publication of JP2011194287A publication Critical patent/JP2011194287A/ja
Application granted granted Critical
Publication of JP5390440B2 publication Critical patent/JP5390440B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Electromagnetism (AREA)
  • General Health & Medical Sciences (AREA)
  • Toxicology (AREA)
  • Artificial Intelligence (AREA)
  • Sorting Of Articles (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 熟練した使用者でなくとも、紙葉類上に記載された文字の認識率を容易に向上することのできる集中情報処理装置及び集中情報処理システムを提供する。
【解決手段】 紙葉類に記載された区分情報から生成した画像データ、文字認識した結果のスコアの高い上位から複数順位の区分先とそのスコアの情報、及び教示された区分情報を取得する手段11と、所定期間内のそれぞれの情報に基づいて、区分先毎に認識率に関連した情報を提示する手段12と、スコアを構成するパラメータ値を変更した新たなパラメータ値を用いて画像データに対する文字認識処理のシミュレーションを実行する手段13と、このシミュレーションの結果で得られた新たな区分情報と、元の区分情報との相違する内容を表す差分リストを生成して提示する手段14と、ユーザよりシミュレーション結果を受け入れる旨の入力を得た際、パラメータ値を新たなパラメータ値に変更する手段14とを備えた集中情報処理装置である。
【選択図】図1

Description

本発明は、熟練した使用者でなくとも、紙葉類処理システムによる紙葉類上に記載された文字の認識率を容易に向上することのできる集中情報処理装置及び集中情報処理システムに関する。
現在利用されている紙葉類処理システムには、例えば紙葉類(はがきや封書等の郵便物)に記載された住所、宛名、郵便番号などの宛先情報(区分情報)を、光学式文字読取装置(OCR)によって読み取り、紙葉類を区分するものがある。
この光学的に読み取った文字パターンを対応する文字コードに自動変換する読み取りは、所定の辞書を参照するパターンマッチングなどの画像処理により行われる。
ところで、読み取りの性能を向上させるために、認識に使用する重みパラメータを更新して認識率を向上させる技術として、例えば、特許文献1、特許文献2に記載された手法が知られている
特許文献1に開示された方法では、候補文字群の中から該当する宛名を取り出すときに用いる知識データベース(辞書類)内のパラメータを調整する。
特許文献2に開示された方法では、パラメータを更新することで時系列の統計データから特定住所の読み取りを強化する手法を提案している。
特開平09−057204公報 特開2003−016281号公報
ところで、このようなパラメータは、種々の情勢の変化やその使用目的の変化に応じて適宜、保守調整することが必要である。これまでは、紙葉類処理システムの使用者が、認識状態を監視してパラメータの更新が必要かどうか、どのパラメータの更新を行うか等を、感と経験に基づいて判断していた。しかしながら、どのパラメータを更新すれば良いかの判断が適切であったとしても、そのパラメータをどの程度変更すれば適当かの判断が難しい。
更に、従来の方式では紙葉類処理システムで認識できなかったケースを抽出することは可能であるが、紙葉類処理システムで誤って認識する誤読のケースを抽出することはできなかった。そのため、使用者が更新したパラメータによって認識できないケースが減少できた場合であっても、パラメータに不適当な値を設定することによって誤読が極端に増加するなどの悪影響が発生する場合もあった。
本発明は、かかる事情に鑑みてなされたものであって、熟練した使用者でなくとも、紙葉類処理システムによる紙葉類に記載された文字の認識率を容易に向上することのできる集中情報処理装置及び集中情報処理システムを提供することを目的とする。
上記課題を解決するための本発明は、紙葉類に記載された区分情報をOCRで読み取って生成した画像データ、当該画像データから文字認識および宛先データベースとマッチングした結果のスコアの高い上位から複数順位の区分先とそのスコアの情報、及び認識不可の画像データについて教示された区分情報を取得する情報取得手段と、所定期間内の前記それぞれの情報に基づいて、区分先毎に認識率に関連した情報を提示する認識率処理手段と、前記スコアを構成するパラメータ値を変更した新たなパラメータ値を取得する変更パラメータ値取得手段と、前記変更したパラメータ値を用いて前記画像データに対する文字認識処理のシミュレーションを実行するシミュレーション実行手段と、このシミュレーションの結果で得られた新たな区分情報と、元の区分情報との相違する内容を表す差分リストを生成して提示すると共に、このシミュレーション結果を受け入れるか否の入力をユーザに促す差分リスト提示手段と、ユーザよりシミュレーション結果を受け入れる旨の入力を得た際、前記パラメータ値を前記新たなパラメータ値に変更するパラメータ変更手段とを備えた集中情報処理装置である。
また本発明は、紙葉類区分機とビデオコーディングシステムと集中情報処理装置とを有する集中情報処理システムにおいて、
前記集中情報処理装置は、前記紙葉類区分機とビデオコーディングシステムとから、紙葉類に記載された区分情報を前記紙葉類区分機で読み取って生成した画像データ、当該画像データから前記紙葉類区分機で文字認識した結果のスコアの高い上位から複数順位の区分先とそのスコアの情報、及び認識不可の画像データについてビデオコーディングシステムで教示された区分情報を取得する情報取得手段と、所定期間内の前記それぞれの情報に基づいて、区分先毎に認識率に関連した情報を提示する認識率処理手段と、前記スコアを構成するパラメータ値を変更した新たなパラメータ値を取得する変更パラメータ値取得手段と、前記変更したパラメータ値を用いて前記画像データに対する文字認識処理のシミュレーションを実行するシミュレーション実行手段と、このシミュレーションの結果で得られた新たな区分情報と、元の区分情報との相違する内容を表す差分リストを生成して提示すると共に、このシミュレーション結果を受け入れるか否の入力をユーザに促す差分リスト提示手段と、ユーザよりシミュレーション結果を受け入れる旨の入力を得た際、前記パラメータ値を前記新たなパラメータ値に変更するパラメータ変更手段と、前記新たなパラメータ値を前記紙葉類区分機に出力するパラメータ値出力手段とを備えた集中情報処理システムである。
この発明の集中情報処理装置及び集中情報処理システムによれば、熟練した使用者でなくとも、紙葉類処理システムによる紙葉類に記載された文字の認識率を容易に向上することができる。
本発明の実施形態に係る集中情報処理システムの概略構成を示すブロック図。 集中情報処理装置の概略の動作手順を示すフロー図。 宛先別に認識された結果を示す図。 宛先別重みパラメータファイルの内容を例示する図。 重みパラメータ変更設定画面を示す図。 シミュレーションの過程を説明するための図。 差分情報表示画面を示す図。 宛先別認識変化表示及び宛先別誤読変化表示を示す図。
以下、各図を参照しつつ、本実施の形態の集中処理システムについて説明する。なお、以下の説明では、紙葉類を郵便物、区分情報を宛先情報、区分先を宛先とする形態を開示しているが、本願発明はこの実施例に限定されるものではない。
図1は、本発明の実施形態に係る集中情報処理システムの概略構成を示すブロック図である。集中情報処理システムには、集中情報処理装置1、入出力装置2、通信路3及び郵便物処理システム4が含まれている。そして、郵便物処理システム4は、郵便区分機5及びビデオコーディングシステム(VCS)6を備えている。
集中情報処理装置1は、郵便区分機5及びビデオコーディングシステム6から通信路3を介して郵便物の処理情報を取得し、その処理情報に基づいてユーザによるパラメータの調整を支援する。入出力装置2は、集中情報処理装置1に対してユーザの指示を入力し、集中情報処理装置1からの出力内容を表示する。
郵便区分機5は、はがきや封書等の郵便物上に記載された宛名あるいは郵便番号を光学式文字読取装置(OCR)の認識部によって読み取り、この読み取った宛名あるいは郵便番号に対応する区分情報によって郵便物を郵便番号毎にあるいは配達区域毎に区分処理する。
郵便区分機5が宛名あるいは郵便番号を読み取れなかった郵便物、すなわち宛名認識に失敗した郵便物は、区分処理においてリジェクトされる。リジェクト郵便物の全体画像が、郵便区分機5からビデオコーディングシステム6に送られる。ビデオコーディングシステム6は、リジェクトされた順番に全体画像をビデオコーディングシステム6の表示部(不図示)に表示する。
オペレータは、ビデオコーディングシステム6の表示部に表示されたリジェクト郵便物の宛名画像(OCRで読み取った原画像)を目視しながら、郵便区分機5で読み取れなかった宛名あるいは郵便番号をすべて手入力(コーディング処理)する。オペレータが入力した宛名あるいは郵便番号に対応する区分情報によって、郵便区分機5は郵便物を機械区分処理する。
集中情報処理装置1は、入出力インターフェース10、送受信処理部11、認識率処理部12、重みパラメータ処理部13、差分情報処理部14、集計処理部15及び情報処理データベース20を備えている。
入出力インターフェース10は、入出力装置2、郵便物処理システム4との間での情報授受を行うためのインターフェースである。送受信処理部11は、郵便物処理システム4から情報を受信して蓄積し、また郵便物処理システム4に集中情報処理装置1での処理結果を送信する。認識率処理部12は、郵便物処理システム4での認識処理結果のデータを取得して、認識率などの統計データを算出する。重みパラメータ処理部13は、重みパラメータを変更した場合の認識処理をシミュレーションする。差分情報処理部14は、重みパラメータの変更に伴う認識結果の変化内容(差分)を抽出する。集計処理部15は、重みパラメータの変更結果を集計して編集する。情報処理データベース20は、上記各部の動作に関連したデータを記憶する。
なお、図1に示すシステムの構成は、以下に説明する各処理が集中情報処理装置1において動作すると想定した場合の構成である。従って、集中情報処理装置1の機能を郵便区分機5またはビデオコーディングシステム6に搭載しても良く、あるいはそれらの機能を分散して搭載しても良い。本実施の形態では、図1の構成に基づいて説明する。
図2は、集中情報処理装置1の概略の動作手順を示すフロー図である。
ステップS01、S02において、集中情報処理装置1は、郵便区分機5及びVCS6からそれぞれのデータを受信する。
郵便区分機5から送信されるデータとしては、各郵便物をOCRで読取った画像データ、各郵便物を特定するID、各画像データごとにスコアの高い上位から複数順位までの認識結果などがある。一方、VCS6から送信されるデータとしては、各郵便物を特定するID、オペレータが手入力で教示した(コーディング処理した)住所結果などがある。ここで、IDは画像データに固有に割り当てられた識別情報である。画像データは、OCRで読取った全体データでなくとも、住所領域部分のみを抽出したものなど、オペレータがそれを見て正解住所を判断できる情報が入っていれば良い。また、画像は圧縮していても良い。
郵便区分機5及びVCS6からのデータ送信タイミングは同時である必要は無い。それぞれから送信されたデータは、各郵便物を特定するIDによって対応付けられる。ただし、郵便区分機5あるいはVCS6に一時的にデータを蓄えて置き、全てのデータを一括で受信しても良い。
ステップS03において、集中情報処理装置1の送受信処理部11は、送信された各データをID毎のデータにまとめて一定期間情報処理データベースに蓄積する。なお、蓄積期間に関しては、蓄積容量と、宛先のばらつきへのロバスト性との観点を考えて、例えば、1週間や1カ月など任意に決めてよい。また、年賀、お歳暮など季節的な郵便物については、期間を定めて区別して蓄積しても良い。さらに、送受信対象である郵便物処理システムが複数存在するときは、その対象毎に蓄積しても良い。
続いて、その蓄積されたデータについて情報処理を開始する。ステップS04において、認識率処理部12は、郵便物の宛先毎の認識率を計算する。図3は、宛先別に認識された結果を示す図である。ここで、「区分数」は、郵便区分機5が宛先を認識した件数である。「VCS数」は、郵便区分機5が宛先を認識できずリジェクトし、VCS6でのコーディング処理によってこの宛先に割り付けられた件数である。この結果によれば、宛先が「青森」の認識率は1500/1530=98%、宛先が「岩手」の認識率は1000/1080=92.6%となる。そして、認識率処理部12は、図3に示す認識結果及び算出した認識率を入出力装置2に表示する。
なお、図3では宛先を県単位として区別しているが、住所階層のどこを用いても良い。区分してまとめる単位は、オペレータが任意に指定することができる。例えば、住所階層のうち、任意の一階層を指定しても良く任意の複数階層を指定しても良いし、処理局の近隣住所だけを細かい宛先単位に指定して遠方の住所を上位住所階層でまとめて指定するなど混合して指定してもよい。また、宛先に限られず郵便番号単位でも良く、氏名単位でも良い。
ステップS05において、オペレータは表示された結果から、宛先別重みパラメータの修正が必要かどうかを判断する。本実施の形態の文字認識においては複数の候補となった文字はそれぞれ点数化(スコア)され、このスコアに基づいて認識結果の文字が決定される。読み取りの性能を向上させるために、郵便物処理システムには、例えば、それぞれの住所の認識スコアなどを重みづけして補正する仕組み(パラメータ)が設けられている。宛先別重みパラメータは、宛先についてのパラメータである。図3の結果から、「岩手」が宛先の場合にVCS6に回される比率が高い(認識率が低い)ので、「岩手」の宛先別重みパラメータを調整対象として選別したいなどの判断がなされる。
なお、オペレータに提示する表示内容は、調整対象の絞り込み作業を支援できるのであれば、図3の内容に限られず、認識率自体を算出して折れ線グラフで表示しても良く、また認識率順にソートしても良い。また、オペレータはこのような統計情報から判断するだけでなく、感覚的に特定の宛先への誤読を制限したいなどの理由から修正候補を絞っても良い。さらに、オペレータの判断によらず、認識率の低い少なくとも一つの候補を自動的に採用しても良い。
ステップS05でYesの場合、すなわち宛先別重みパラメータの修正が必要と判断された場合は、次のステップの処理を実行する。そうでない場合(ステップS05でNoの場合)は調整処理は不要のためこの処理を終了する。このとき、各パラメータは変更されず元の値を維持する。なお、修正が必要なパラメータを自動で抽出する場合は、認識率が閾値以下のものを選択するようにしても良い。
続いて、ステップS06において、重みパラメータ処理部13は、宛先別重みパラメータを変更して、文字認識シミュレーションを実施する。図4は、宛先別重みパラメータファイルの内容を例示する図である。この宛先別重みパラメータは、トータルスコアを算出する際に使用する各要素データの内の1つである。上述のように、宛先を県単位として区別しているが、住所階層のどこを用いても良く、宛先に限られず郵便番号単位でも良く、氏名単位でも良い。従って、集中情報処理装置1の情報処理データベース20には、これらのパラメータが格納されている。なお、これらのパラメータは一種類だけでなく、例えば、上述の年賀、お歳暮などの季節的な郵便物については別のパラメータを用いても良い。
この重みパラメータを変更した新たな重みパラメータを用いた文字認識シミュレーション結果に基づいて、宛先別のスコアに最終的な補正が行われる。本実施の形態では各宛先の認識スコアに重みパラメータを加算して最終認識結果とする単純加算方式を基にして説明を進める。
上述のように、宛先が「岩手」の場合の現状の認識率が低いため、岩手の宛先別重みパラメータを調整する場合では、重みパラメータを現行値(例えば80)から、より大きい数値(例えば90)に変更する。この変更は次のような手順で実行する。
重みパラメータ処理部13は、図5に示す重みパラメータ変更設定画面25を入出力装置2に表示する。この重みパラメータ変更設定画面25には、修正対象入力欄26、現行重み表示欄27、新設定重み入力欄28及びSIM実行ボタン29が設けられている。
オペレータは、修正対象入力欄26に修正する宛先を入力する。すると、重みパラメータ処理部13は、宛先別重みパラメータファイルを検索して、入力された宛先に設定されている重みパラメータ値を現行重み表示欄27に表示する。また重みパラメータ処理部13は、宛先別重みパラメータファイルの内容(図4)も併せて表示する。
オペレータは、表示された宛先別重みパラメータファイルの内容を参照して、他の宛先のパラメータ値と比較し、新たな重みパラメータ値を新設定重み入力欄28に入力する。次に、オペレータがSIM実行ボタン29を押下すると、重みパラメータ処理部13は、新たな重みパラメータ値を用いてシミュレーションを実行する。
なお、図5に示す重みパラメータ変更設定画面25は、複数の宛先について、重みパラメータを一度に変更できるように構成しても良い。
図6は、シミュレーションの過程を説明するための図である。上の図は郵便区分機5による文字認識処理結果を表示し、下の図は変更後パラメータを用いたシミュレーション結果を示している。
郵便区分機5による文字認識処理結果は、ステップS01において説明した、郵便区分機5から送信されるデータであり、IDごとのスコアの高い上位から複数順位までの宛先認識結果、として取得されている。図6に示す例では、ある郵便物の郵便区分機5による認識結果が、「1位:青森115点」、「2位:秋田113点」、「3位:岩手112点」で、「最終認識出力:青森」のようになっている。すなわち、このIDの画像では、宛先を「青森」、「秋田」、「岩手」と認識したときのスコアがそれぞれ「115点」、「113点」、「112点」であるため、一番スコアの高い「青森」を認識結果として採用したことを表している。
これに対して、上述の調整で「岩手」の重みパラメータ値を10加算した。重みパラメータによる補正が単純加算方式であった場合には、シミュレーション結果は、「1位:岩手122(=112+10)点」、「2位:青森115点」、「3位:秋田113点」となり、「最終認識出力:岩手」と出力される。
この例で示す重み単純加算方式のように、スコアのみに対して補正処理すれば良いパラメータを変更する場合は、シミュレーションには認識処理そのものは不要であり、複数順位の結果から最終認識結果を選定する処理のみが必要となる。なお、最終認識結果を選定する処理では、1位の認識スコアが100以上であること、2位とのスコア差が2以上あることなどの条件の下で、最終認識結果として「岩手」を選定した。しかし、この選定処理は郵便区分機5での選定処理と同じアルゴリズムを実行しても良い。
なお、本実施の形態では、重みパラメータの値を+10したが、この重み変更量が大きいと文字認識の精度低下につながる恐れもある。そこで、重みパラメータの変更量を元の値の例えば±20%以内とするなどの制限を設けても良い。
ステップS07において、差分情報処理部14は、元のOCR結果と、パラメータ修正後の結果を比較して認識結果が異なった部分(差分)のみをリストアップする。
そして、上述した1枚の画像に対する差分出力処理を、郵便区分機5からの受信した全ての結果データに対して繰り返し実施して、パラメータ変更により最終結果が異なった画像をリストアップする。なお、差分情報処理部14は、差分が発生した場合には、対象の画像とそれに伴うIDとを記憶もしくは記録する。
続いて、ステップS08において、差分情報処理部14は、発生した差分の内容のリストを画像付きで入出力装置2に表示する。図7は、差分情報表示画面30を示す図である。差分情報表示画面30には、差分画像、判定結果などのリストが表示される差分リスト表示部31、集計ボタン32、認識数表示欄33、誤読数表示欄34、OKボタン35及びNGボタン36が設けられている。
差分リスト表示部31の表示内容について説明する。
「SIM差分画像」とある部分の列には、ステップS07の処理で記憶もしくは記録した画像が表示される。「元結果」とある部分の列には、郵便区分機5が処理した最終結果出力、すなわち図6の上段の「最終認識出力」同じ内容を表す情報が表示される。宛先が特定できなかったものは「REJ」と表示しているが、認識できなかったという情報が分かれば特にこの文字列「REJ」を使用しなくても良く、またセルを着色することで区分しても良い。「新結果」とある部分の列には、重みパラメータを変更した際の最終結果出力、すなわち図6の下段の「最終認識出力」同じ内容を表す情報が表示される。この列の表示も「元結果」での表示と同様に、宛先が特定できなかったものは「REJ」として表示する。
「正解」とある部分の列には、その郵便物の正解となる宛先が表示される。この部分は、オペレータが入出力装置2から手入力した情報である。すなわち、オペレータは、「SIM差分画像」に表示された画像を参照して宛先を読取って入力する。この際、差分情報処理部14は、VCS6から送信されたコーディング処理結果を自動で採用しても良い。そうすることで、オペレータによる教示作業が効率化される。既にVCS6では人間の手によって、画像を見ながら正解の宛先を入力しており、差分画像リストに表示される画像のIDと一致するIDのコーディング処理結果を自動選別することで、「正解」に反映させることができる。既に「正解」に反映されている欄(セル)に関しては、そのセルに色付けして分かりやすくしたり、文字列を入力不能にしたり、表示を行わないようにしても良い。
ステップS09からステップS10には、自動でVCS6の結果を反映する処理手順を記載している。
差分リスト表示部31にVCS6で正解が教示されている画像がある場合(ステップS09でYes)、ステップS10において、差分情報処理部14は、該当する画像の正解表示部分に自動でVCS結果を反映する。
一方、VCS6で答えが入力されているものは、郵便区分機5において宛先が特定できなかったものだけである。従って、郵便区分機5において認識がなされていたがそれが誤っていた場合、すなわち誤読が発生していた場合は、同じく「SIM差分画像」に表示された画像を参照して、オペレータが正解を入力することになる。
ステップS11からステップS12には、オペレータによる正解入力の処理手順を記載している。
差分リスト表示部31の正解欄に情報が入力されていないものがある場合(ステップS11でYes)、ステップS12において、オペレータは、画像を見ながら正解を手入力する。差分情報処理部14は、この手入力のGUIとして操作を支援する。
「正解」欄において点線円で括っている宛名は、オペレータが画像を見ながら入力した内容である。
次に、差分情報処理部14は、「判定」欄の内容を「元結果」と「新結果」とを比較して最終結果がどう変わったかを表示する。「判定」の矢印の元にあたる部分が「元結果」と「正解」との比較をした内容で、矢印の先にあたる部分が「新結果」と「正解」との比較をした内容が表示されている。
矢印の元にあたる部分の判定方法としては、「元結果」もしくは「新結果」が「REJ」となっていた場合には判定は「REJ」となり、「元結果」及び「新結果」が「REJ」以外の文字列であって、「元結果」と「正解」とが異なる場合には「誤読」となり、一致する場合には「正解」となるようなものでよい。
なお、差分情報表示画面30に不図示の操作ボタンを設けて、差分リスト表示部31の表示に対して、指定文字列での抽出機能や指定順序に従ったソート機能などを実現しても良い。これによって、差分情報表示画面30に対する作業の効率化が図られるので推奨できる。
また、差分情報表示画面30に不図示の操作ボタンを設けて、オペレータの操作によって、「判定」の内容が特定のもの、例えば、「A→B」と表されるものを抽出して編集表示しても良い。
差分画像リスト全てのセルに対して正解が入力でき、1枚ごとの判定内容が全て出力されたときは、オペレータは、集計ボタン32を押下する。ステップS13において、集計処理部15は、差分リストの全ての新旧結果を正解と比較して認識結果がどう変わったかを集計して表示する。集計処理部15は、認識数表示欄33にパラメータ変更前後での正解の増減数を表示し、誤読数表示欄34にパラメータ変更前後での誤読の増減数を表示する。運用上効果的であれば、これらの値から認識率と誤読率を求めて、求めた認識率と誤読率で表示しても良い。
また、特定の宛先の書状を誤読すると配達遅延や無駄なコストが発生するので極力避けるように調整したいなどの判断が必要になる場合がある。そこで、宛先別認識変化表示や宛先別誤読変化表示などを併せて行うことも可能である。図8は、宛先別認識変化表示及び宛先別誤読変化表示を示す図である。
図8の上側に認識成功数と認識成功率の宛先別変化表示を示し、下側に誤読数と誤読率の宛先別変化表示を示している。また、棒グラフ部分は宛先ごとの認識数もしくは誤読数の変化を示し、折れ線グラフ部分は宛先毎の認識率もしくは誤読率の変化を示している。
図8では郵便物に書かれている宛先別に表示したが、運用によっては誤読したSIM認識最終結果出力別に分けることも可能である。例えば、遠方の住所に誤読してしまうと困るような場合はこの分け方が効率的な場合がある。また、誤読宛先項目「岩手」などを選択すると、「岩手」宛の書状を誤読した画像群を表示するなどの機能を付加すると、更に誤読要因などを分析することも可能となる。
ここまでの集計および表示作業で、シミュレーション結果が全体として満足いくものであると、オペレータが判断した場合(ステップS14でYes)には、オペレータは、OKボタン35を押下する。ステップS15において、集計処理部15は、変更後の結果を採択し、正式な宛先重みパラメータとして登録する。変更後の結果が満足できない場合(ステップS14でNo)には、再度、宛先別重みパラメータの修正が必要かどうかを判断する手順(ステップS05)から繰り返して実行する。
また、ステップS15において、最終的に登録されたパラメータが更新された場合には、送受信処理部11は、郵便区分機5に変更後のパラメータを配信する。このパラメータ配信後は、更新後のパラメータを元に郵便区分機5が稼働することとなる。
なお、変更後パラメータの配信に関しては、集中情報処理装置1が郵便物処理システムと離れた場所に設けられている場合には、リモート状態で配信されることも可能であり、通信方式は問わない。また、最初に区分機から集中情報処理システムへと配信されるデータを期間で分けることにより、年賀時期用と通常時期用で別の宛先別重みパラメータを作成してそれぞれの時期で稼働させることもできるし、同配信データの収集時間を朝と夜に分けて蓄積することでそれぞれの処理局の運用に適した宛先別重みパラメータを作成することも可能となる。
なお、本実施の形態では、独立した集中情報処理装置1により処理を実行したが、郵便区分機5とVCS6が保有するデータを蓄積できる環境であれば、独立した集中情報処理装置1を設けなくとも良い。例えば、集中情報処理装置1のシミュレーション作業部分は郵便物処理システム4のオペレーションパネルからの操作で実施しても良く、郵便物処理システム4のオフライン作業としてパラメータ変更を実施しても差し支えない。また、本実施例のパラメータ変更作業が完了した後は、蓄積したデータは部分的に答えを教示済みのため再利用しても良く、最新の郵便物数などで集計を行うために破棄しても良い。
なお、上述の実施の形態では、集中情報処理装置1は、一つの郵便物処理システムと情報授受を行ったが、複数の郵便物処理局に設けられた複数の郵便物処理システムと通信回線を介して遠隔で情報授受を行うようにしても良い。
またその際、郵便物の集配時刻が地域によって異なっている場合がある。従って、集中情報処理装置1がデータを収集した時刻(時間帯)によって、異なるファイルにパラメータの値を格納し、かつそのパラメータの値を別々に管理するようにしても良い。
また、上述の実施の形態では、集中情報処理装置1と郵便物処理システムとは通信路によってオンラインで情報授受を行ったが、情報授受を記録媒体を介してオフラインで行うようにしても良い。
[発明の効果]
以上説明した実施の形態によれば、種々の効果を奏することができる。
(1)紙葉類区分機およびビデオコーディングシステムの認識結果や教示結果を利用しながら、認識処理自体を行わずに変更後の影響を確認しつつ、認識結果に関わるパラメータを変更し、認識精度を向上できる。
(2)パラメータ変更の影響確認の際には、結果の差分が出る画像とそれに関する情報だけを表示することで、調整確認の際に不要となる画像を確認しなくて済むため、作業時間の短縮効果も備える。さらに、差分画像を見ながら調整できるため、外国などの遠方への誤読を避けるように調整するなど、使用者の運用に細かくカスタマイズできる効果もある。
(3)リモートでの調整も行えるようになることで、オペレータが現地に帯同せずとも遠隔でそれぞれの紙葉類区分機をカスタマイズできるようにすることも可能となっている。
(4)紙葉類区分機側で認識できたデータも取得することから、紙葉類区分機側で誤読している対象についても調整による削減効果が確認でき、実際の誤読削減も可能となる。
なお、上述の各実施の形態で説明した機能は、ハードウェアを用いて構成するに留まらず、ソフトウェアを用いて各機能を記載したプログラムをコンピュータに読み込ませて実現することもできる。また、各機能は、適宜ソフトウェア、ハードウェアのいずれかを選択して構成するものであっても良い。
尚、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
1…集中情報処理装置、2…入出力装置、3…通信路、4…郵便物処理システム、5…郵便区分機、6…ビデオコーディングシステム、10…入出力インターフェース、11…送受信処理部、12…認識率処理部、13…重みパラメータ処理部、14…差分情報処理部、15…集計処理部、20…情報処理データベース、30…差分情報表示画面。

Claims (8)

  1. 紙葉類に記載された区分情報を読取手段で読み取って生成した画像データ、当該画像データから文字認識した結果のスコアの高い上位から複数順位の区分先とそのスコアの情報、及び認識不可の画像データについて教示された区分情報を取得する情報取得手段と、
    所定期間内の前記それぞれの情報に基づいて、区分先毎に認識率に関連した情報を提示する認識率処理手段と、
    前記スコアを構成するパラメータ値を変更した新たなパラメータ値を取得する変更パラメータ値取得手段と、
    前記変更したパラメータ値を用いて前記画像データに対する文字認識処理のシミュレーションを実行するシミュレーション実行手段と、
    このシミュレーションの結果で得られた新たな区分情報と、元の区分情報との相違する内容を表す差分リストを生成して提示すると共に、このシミュレーション結果を受け入れるか否の入力をユーザに促す差分リスト提示手段と、
    ユーザよりシミュレーション結果を受け入れる旨の入力を得た際、前記パラメータ値を前記新たなパラメータ値に変更するパラメータ変更手段と
    を備えたことを特徴とする集中情報処理装置。
  2. 前記認識率に関連した情報には、区分先毎に、前記画像データから認識できた件数と、認識不可のため教示された件数とを含むことを特徴とする請求項1に記載の集中情報処理装置。
  3. 前記差分リストには、前記画像データと、この差分リストに含まれる画像データに基づいてユーザが教示した区分情報とを含むことを特徴とする請求項1に記載の集中情報処理装置。
  4. 前記差分リストには前記情報取得手段が取得した元の区分情報を更に含み、
    前記差分リストの前記元の区分情報とユーザが教示した前記区分情報とが異なるときは前記元の区分情報は誤読の情報であると判断する誤読判断手段を更に備えたことを特徴とする請求項3に記載の集中情報処理装置。
  5. 紙葉類区分機とビデオコーディングシステムと集中情報処理装置とを有する集中情報処理システムにおいて、
    前記集中情報処理装置は、
    前記紙葉類区分機とビデオコーディングシステムとから、紙葉類に記載された区分情報を前記紙葉類区分機の読取手段で読み取って生成した画像データ、当該画像データから前記紙葉類区分機の読取手段の読取り結果に基づいて文字認識した結果のスコアの高い上位から複数順位の区分先とそのスコアの情報、及び認識不可の画像データについてビデオコーディングシステムで教示された区分情報を取得する情報取得手段と、
    所定期間内の前記それぞれの情報に基づいて、区分先毎に認識率に関連した情報を提示する認識率処理手段と、
    前記スコアを構成するパラメータ値を変更した新たなパラメータ値を取得する変更パラメータ値取得手段と、
    前記変更したパラメータ値を用いて前記画像データに対する文字認識処理のシミュレーションを実行するシミュレーション実行手段と、
    このシミュレーションの結果で得られた新たな区分情報と、元の区分情報との相違する内容を表す差分リストを生成して提示すると共に、このシミュレーション結果を受け入れるか否の入力をユーザに促す差分リスト提示手段と、
    ユーザよりシミュレーション結果を受け入れる旨の入力を得た際、前記パラメータ値を前記新たなパラメータ値に変更するパラメータ変更手段と、
    前記新たなパラメータ値を前記紙葉類区分機に出力するパラメータ値出力手段と
    を備えたことを特徴とする集中情報処理システム。
  6. 前記差分リストには、前記画像データと、この差分リストに含まれる画像データに基づいてユーザが教示した区分情報とを含むことを特徴とする請求項5に記載の集中情報処理システム。
  7. 前記差分リストには前記情報取得手段が取得した元の区分情報を更に含み、
    前記差分リストの前記元の区分情報とユーザが教示した前記区分情報とが異なるときは前記元の区分情報は前記紙葉類区分機の誤読の情報であると判断する誤読判断手段を更に備えたことを特徴とする請求項6に記載の集中情報処理システム。
  8. 前記紙葉類区分機と前記ビデオコーディングシステムとを有する紙葉類処理システムを複数備え、前記集中情報処理装置は、それぞれの紙葉類処理システムと前記情報及びデータの授受を行うことを特徴とする請求項5に記載の集中情報処理システム。
JP2010061538A 2010-03-17 2010-03-17 集中情報処理装置及び集中情報処理システム Expired - Fee Related JP5390440B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2010061538A JP5390440B2 (ja) 2010-03-17 2010-03-17 集中情報処理装置及び集中情報処理システム
EP11155816A EP2367141A2 (en) 2010-03-17 2011-02-24 Centralized information processing apparatus and centralized information processing system
US13/033,667 US20110229018A1 (en) 2010-03-17 2011-02-24 Centralized information processing apparatus and centralized information processing system
KR1020110016400A KR101136169B1 (ko) 2010-03-17 2011-02-24 집중 정보 처리 장치 및 집중 정보 처리 시스템
CN2011100500070A CN102189080A (zh) 2010-03-17 2011-03-02 集中信息处理装置以及集中信息处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010061538A JP5390440B2 (ja) 2010-03-17 2010-03-17 集中情報処理装置及び集中情報処理システム

Publications (2)

Publication Number Publication Date
JP2011194287A true JP2011194287A (ja) 2011-10-06
JP5390440B2 JP5390440B2 (ja) 2014-01-15

Family

ID=44212145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010061538A Expired - Fee Related JP5390440B2 (ja) 2010-03-17 2010-03-17 集中情報処理装置及び集中情報処理システム

Country Status (5)

Country Link
US (1) US20110229018A1 (ja)
EP (1) EP2367141A2 (ja)
JP (1) JP5390440B2 (ja)
KR (1) KR101136169B1 (ja)
CN (1) CN102189080A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015176242A (ja) * 2014-03-13 2015-10-05 株式会社東芝 文字認識装置、区分機、およびプログラム
JP2017225969A (ja) * 2016-06-16 2017-12-28 株式会社東芝 配達物処理装置、配達物処理方法、及び配達物処理プログラム
JP2018111082A (ja) * 2017-01-13 2018-07-19 株式会社東芝 区分システム、認識支援装置、認識支援方法、および認識支援プログラム
CN111242554A (zh) * 2020-01-17 2020-06-05 秒针信息技术有限公司 拣货方式类型确定方法和装置
JP2022140466A (ja) * 2016-06-16 2022-09-26 株式会社東芝 配達物処理装置、配達物処理方法、及び配達物処理プログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5958090B2 (ja) * 2012-05-30 2016-07-27 沖電気工業株式会社 紙葉類処理装置及びプログラム
CN106651278A (zh) * 2017-01-10 2017-05-10 上海万琛电子商务有限公司 一种基于物流分拣系统的数据处理方法
US10929799B2 (en) * 2017-06-29 2021-02-23 Amazon Technologies, Inc. Identification of inaccurate addresses for package deliveries

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04211883A (ja) * 1990-06-11 1992-08-03 Ricoh Co Ltd 文字認識方法及び装置
JPH0528320A (ja) * 1991-07-19 1993-02-05 Nec Corp 紙葉類区分装置
JPH06111077A (ja) * 1992-09-28 1994-04-22 Matsushita Electric Ind Co Ltd 文書認識装置の評価装置
JPH0957204A (ja) * 1995-08-24 1997-03-04 Toshiba Corp 郵便物の宛先自動読取システム
JP2002366898A (ja) * 2001-06-07 2002-12-20 Toshiba Corp 所在情報認識装置、所在情報認識方法および区分装置
JP2004105921A (ja) * 2002-09-20 2004-04-08 Hitachi Ltd 紙葉類処理装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3232991B2 (ja) * 1995-12-13 2001-11-26 株式会社日立製作所 文字読取り方法及び住所読取り方法
KR970066985A (ko) * 1996-03-07 1997-10-13 김광호 화상신호 처리방법 및 그 장치
JPH11203411A (ja) * 1998-01-20 1999-07-30 Fuji Xerox Co Ltd 文書読み取り装置
JP4574814B2 (ja) 2000-08-10 2010-11-04 株式会社東芝 情報処理装置、情報処理方法、紙葉類処理装置、および紙葉類処理方法
JP2002269494A (ja) 2001-03-07 2002-09-20 Toshiba Corp 紙葉類処理装置及び紙葉類処理方法
JP2005288345A (ja) * 2004-03-31 2005-10-20 Toshiba Corp 紙葉類読取区分機
FR2881663B1 (fr) * 2005-02-08 2007-03-16 Solystic Sa Procede de traitement d'envois postaux avec une detection des occurences d'attributs ocr
KR100926565B1 (ko) * 2007-12-13 2009-11-12 한국전자통신연구원 주소 데이터베이스 구축 장치 및 그 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04211883A (ja) * 1990-06-11 1992-08-03 Ricoh Co Ltd 文字認識方法及び装置
JPH0528320A (ja) * 1991-07-19 1993-02-05 Nec Corp 紙葉類区分装置
JPH06111077A (ja) * 1992-09-28 1994-04-22 Matsushita Electric Ind Co Ltd 文書認識装置の評価装置
JPH0957204A (ja) * 1995-08-24 1997-03-04 Toshiba Corp 郵便物の宛先自動読取システム
JP2002366898A (ja) * 2001-06-07 2002-12-20 Toshiba Corp 所在情報認識装置、所在情報認識方法および区分装置
JP2004105921A (ja) * 2002-09-20 2004-04-08 Hitachi Ltd 紙葉類処理装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015176242A (ja) * 2014-03-13 2015-10-05 株式会社東芝 文字認識装置、区分機、およびプログラム
JP2017225969A (ja) * 2016-06-16 2017-12-28 株式会社東芝 配達物処理装置、配達物処理方法、及び配達物処理プログラム
JP2021169088A (ja) * 2016-06-16 2021-10-28 株式会社東芝 配達物処理装置、配達物処理方法、及び配達物処理プログラム
JP2022140466A (ja) * 2016-06-16 2022-09-26 株式会社東芝 配達物処理装置、配達物処理方法、及び配達物処理プログラム
JP7143488B2 (ja) 2016-06-16 2022-09-28 株式会社東芝 配達物処理装置、配達物処理方法、及び配達物処理プログラム
JP2018111082A (ja) * 2017-01-13 2018-07-19 株式会社東芝 区分システム、認識支援装置、認識支援方法、および認識支援プログラム
CN111242554A (zh) * 2020-01-17 2020-06-05 秒针信息技术有限公司 拣货方式类型确定方法和装置
CN111242554B (zh) * 2020-01-17 2023-10-17 秒针信息技术有限公司 拣货方式类型确定方法和装置

Also Published As

Publication number Publication date
JP5390440B2 (ja) 2014-01-15
EP2367141A2 (en) 2011-09-21
CN102189080A (zh) 2011-09-21
US20110229018A1 (en) 2011-09-22
KR20110104876A (ko) 2011-09-23
KR101136169B1 (ko) 2012-04-17

Similar Documents

Publication Publication Date Title
JP5390440B2 (ja) 集中情報処理装置及び集中情報処理システム
JP6528147B2 (ja) 会計データ入力支援システム、方法およびプログラム
CN104079587A (zh) 证书识别装置及证书检验系统
CN109300026A (zh) 基于自动记账大数据的财务智能分析方法及其系统
JP6441718B2 (ja) 帳票処理システム、帳票処理方法及びプログラム
CN111814779A (zh) 一种票据文本识别方法、装置、设备及存储介质
JP2008020506A (ja) 画像処理装置および画像処理プログラム
JP6146209B2 (ja) 情報処理装置、文字認識方法、及びプログラム
JP2007041919A (ja) 住所認識装置
JP4104617B2 (ja) 成果物情報管理システムおよび成果物情報管理プログラム
JP2011197823A (ja) 住所データベース構築装置および住所データベース構築方法
JPH0957204A (ja) 郵便物の宛先自動読取システム
US20100310171A1 (en) Method and apparatus for analysis of a database
JP2019133289A (ja) 画像処理プログラム、画像処理方法および画像処理装置
JP5574622B2 (ja) 紙葉類処理装置および紙葉類処理方法
JP2018190064A (ja) 会計処理システム
JP6976158B2 (ja) 区分装置および区分システム
JP2007280413A (ja) 財務諸表自動入力装置
JP2020009323A (ja) 配達顧客管理システム
CN116561602B (zh) 一种用于销售成本结转的销采物资自动匹配的方法
KR20170070719A (ko) 집배구코드 기반의 도착구분계획을 위한 방법
JP5684365B2 (ja) 紙葉類処理装置および紙葉類処理方法
KR102605381B1 (ko) 설비 사양의 자동 인식을 위한 설비 명판 광학 문자 판독 시스템 및 방법
JP2014010752A (ja) 帳票登録支援方法及び装置並びにプログラム
JPH0962758A (ja) 帳票認識処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120412

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130912

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131010

R151 Written notification of patent or utility model registration

Ref document number: 5390440

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees