JP2002536769A - ドキュメントエントリおよびアドレス読出し方法 - Google Patents

ドキュメントエントリおよびアドレス読出し方法

Info

Publication number
JP2002536769A
JP2002536769A JP2000598968A JP2000598968A JP2002536769A JP 2002536769 A JP2002536769 A JP 2002536769A JP 2000598968 A JP2000598968 A JP 2000598968A JP 2000598968 A JP2000598968 A JP 2000598968A JP 2002536769 A JP2002536769 A JP 2002536769A
Authority
JP
Japan
Prior art keywords
reading
random sample
read
image
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000598968A
Other languages
English (en)
Inventor
シェーファー ハルトムート
バイアー トーマス
Original Assignee
ジーメンス デマティック アクチエンゲゼルシャフト
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジーメンス デマティック アクチエンゲゼルシャフト filed Critical ジーメンス デマティック アクチエンゲゼルシャフト
Publication of JP2002536769A publication Critical patent/JP2002536769A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning

Abstract

(57)【要約】 本発明は、ドキュメントエントリおよびアドレスの読出し方法に関している。この場合は、レイアウト分析、セグメント化された領域の分類、読出し機における結果の解釈による中間ステップと共に、場合によってはビデオコーディングを伴って自動読出しが行われる。本発明によれば、読取りモード期間中に一義的に自動読出しされた情報のもとで画像データと所属の読出し結果および中間結果を目下のランダムサンプルのために記憶し、および/またはビデオコーディングを用いて、選択されたイメージから一義的に求められた情報のもとでの画像データと、第2の自動読取りプロセスにおいてビデオコーディング結果に関連させて求めた読取り結果および中間結果を目下のランダムサンプルのために記憶する。

Description

【発明の詳細な説明】
【0001】 本発明は請求項1の上位概念による、ドキュメントエントリおよびアドレスの
読出しのための方法に関している。
【0002】 読出しシステムは、特定のアプリケーションコンテキスト内でドキュメントも
しくは送付物上のテキスト部分(これは数字も含み得る)を等価的な電子文書に
変換したり、その利用に必要な特定情報を導出する目的を有している。例えば読
出しシステムに対してはアドレスリーダが次のような課題をこなしている。すな
わち書簡や小荷物などの郵便送付物上にあるテキスト部分、特に受取人住所の書
かれた領域から文字や数字を認識し、それらのセットから配布コードを導出して
いる。
【0003】 それに対しては各種の認識方法が用いられ、これらはドキュメントないし送付
物の走査の後でそこから導出された電子画像をステップ毎に電子文章に変換して
いる。この場合複数のサブステップは、個々のレイアウト分析(書類タイプの認
識、関係のある領域の確定(ROI)、ライン毎のテキストイメージセグメント
化、言葉および/または記号、文字の分類または筆記体文字の認識、テキスト部
分の最終的な解釈などである。各認識ステップは、所定のパラメータセットを有
しており、これが副次的な認識課題の解決を図っている。
【0004】 読取りシステムの認識ステップと共に認識システム自体は、できるだけ良好な
読取り結果を得るために、前述したような読取り目的の解決に向けて読取り対象
固有の特徴への順応化が行われる。これに対しては、読取り対象の要求を最良に
表わしている見本ドキュメントや見本送付物(ランダムサンプル)が作成される
。各ドキュメントに対しては抽出すべきテキストの形式で適正な手段(ラベル)
が与えられる。それにより、ドキュメントイメージ対のデータベースと所期の結
果(ラベル)が構築される。この所期の結果には読取りサブステップの結果も含
まれている。
【0005】 個々の認識ステップのパラメータは、従来技法によれば本来の読取りモードの
前で次のように設定されている。すなわち読取り目的(これはラベリングされた
ランダムサンプルによって表わされる)ができるだけ良好に達成されるように設
定されている。このプロセスは順応化とも称され繰返される。
【0006】 以下に示す3つのステップ:すなわち、 パラメータセッティングの選択 ランダムサンプルイメージを用いた読取りシステムのテスト 所期結果ないし所期ラベルに基づく結果の評価 、は認識能力が十分になるまで繰返し続けられる。
【0007】 順応化の行われた後では、読取りシステムはランダムサンプルの要素の処理に
対して最適化される。それ故にこのランダムサンプルの作成は、読取りシステム
の認識能力に多大に係わっている。なぜなら特に作動中に求められた認識ステッ
プのパラメータコンフィグレーションは、供給された読取りシステム毎に保持さ
れるからである。特定の拠点(サイト)毎の読取るべきドキュメントの実際の配
布先は予測不可能なものなので、読取りシステムを特定地域の読取り対象に最適
に順応化させることはできない。特に地域毎の特殊性や読取り素材の分散におけ
る時間的変化は読取りシステムによって考慮することができない。
【0008】 現在使用されている読取りシステムには、稼働中に実際に処理されているドキ
ュメントに基づいて、既存の特性に動的に順応化するような特色は備わっていな
い。前述したように個々の認識ステップは常に先立って一度は所定の静的なラン
ダムサンプルに順応化され、そこから導出されたパラメータセットが用途の中で
一定に維持される。それに対しては多数の文字認識のための方法が存在する。そ
れらは、予め定められラベリングされた学習ランダムサンプルを用いて、解決す
べき課題への順応化が図られている[参考文献“Schuermann, Juergen: Pattern
Classification, Wiley Interscience, 1996”]。筆記体文字の認識のための方
法に対しても同じような順応化アルゴリズムが公知である[例えば“Rabiner,Law
rence R.:A Tutorial on hidden Markov Models and Selected Applications in
Speeh Rcognition Proceedings of the IEEE, vol.77,No.2, February 1989]”
。また公式のタイプの分類に対しても同じようなことが当て嵌まる。この分類目
的を解決する最適化セットの他に、パラメータを“所期の実験”によって最適化
する方法、例えば進化的アルゴリズムやシミュレートアニールングも公知である
[参考文献“Rumelhart,D.E. et al.: Learning Internal Representation by Er
ror Propagation, Parallel Distributed Processing, Vol.1, MIT Press, Camb
ridge, MA, 1986/Press, Will H. et al.: Numerical Reciped in C, Chapter 1
0, Minimization or Maximization of Functions, Cambridge University Press
, 1992”]。それに対する用途は、ニューラルネットワークのトポロジー最適化
であり、これは例えば文字の分類のために用いられる。しかしながらこの方法の
導入には常に、最適なパラメータセットの算出のために、事前に定められるラン
ダムサンプルの適用が必要である。しかしながらこれは使用中にもはや変更する
ことができない。
【0009】 請求項1に提示される本発明の課題とするところは、目下の条件と材料構成に
対する自動読取り機の自動順応化を可能にする、ドキュメントエントリおよびア
ドレス読取り方法を提供することである。
【0010】 本発明が基礎としている考えは、自動読取り機をこれまでのように予め定めら
れた位相の中だけで、選択されたランダムサンプルに基づいて順応化を行うので
はなく、連続する読取り過程の間に新たなランダムサンプルを生成し、あるいは
最初のランダムサンプルを実際化させ、読取り機のパラメータを自動的にこのラ
ンダムサンプルに新たにセッティングし直すことである。それにより、読取り機
の読取り素材の局所的に異なる特性や変化のある材料組成への絶え間のない自動
順応化が得られる。目下のランダムサンプル部分の生成に対しては、選択された
読取り素材の一義的に自動読取りされたイメージからの情報のもとで画像データ
に対応する読取り結果および中間結果が記憶される。自動読取り機で一義的な結
果がえられず、そのためビデオコーディングの支援のもとで所望の情報が求めら
れた場合には、その画像がビデオコーディング結果の関与のもとで第2の読取り
フェーズにおいてもう一度自動読取りがなされる。この第2の読取りが一義的な
読取り結果と共に完了できた場合には、ここで得られた読取りおよび中間結果が
所属の画像データに対応付けられ、目下のランダムサンプルに対して記憶される
【0011】 第2の読取り過程が成功しなかった場合には、この読取るべき素材表面のマッ
ピングは結果と共にこのランダムサンプルには取入れられない。その後で実際の
ランダムサンプルを用いて自動読取り機は新たに順応化される。
【0012】 本発明の有利な構成例は従属請求項に記載されている。
【0013】 有利には、第2の読取り過程が時間制限なしで実施される。それによりマッピ
ングは成功裡に読取られ、ランダムサンプルに取入れられる。このことは第1の
読取り機においてタイムリミットを越えたという理由だけで拒まれたイメージが
無事に読取られ、ランダムサンプルに含まれることを意味する。例えばビデオコ
ーディングの際の入力エラーや間違ったアドレス指定に起因する不整合に基づい
て、誤った順応化を引き起こす可能性のあるイメージは、有利にはランダムサン
プルに取入れられない。
【0014】 順応化の複雑さを低減するために有利には、ビデオコーディングの支援で無事
に読取られた画像毎に、第1の自動読取りに対する中間結果が第2の自動読取り
に対する中間結果と比較され、著しい偏差は、第1の自動読取りの際の中間ステ
ップにおける評価エラーとして統計上記録される。それにより、所定の期間内で
エラー頻度が規定値を超えた中間ステップだけが再順応化される。
【0015】 さらに有利には第1の自動読取りの際の読取りレートが監視され、これが所定
の期間に亘って閾値を下回る場合にのみ、読取りまたは中間ステップが目下のラ
ンダムサンプルを用いて再順応化される。
【0016】 別の有利な実施例によれば、先行するパラメータと再順応化されたパラメータ
を用いて、同じ機能性を有する自動読取り機上の読取りレートがランダムサンプ
ルを介して求められる。この場合新たに順応化されたパラメータによる向上が実
現する場合にしか自動読取り機の再初期化は行われない。それにより、再初期化
は、向上にとって必要性が認められる場合にしか実施されないことが保障される
【0017】 一義的に読取られた情報と共に、新たに読取られた各画像をランダムサンプル
に取入れるのかまたはx番目の画像だけをランダムサンプルに取入れるのかは、
読取るべき素材の量がどの位かと、いくつの画像をランダムサンプルに含ませる
べきかと、画像において読取り結果に影響を与える変化がどの程度の大きさかに
かかわる。
【0018】 また有利には、ランダムサンプルが所定の比率で自動的に読取られビデオコー
ディングされた画像のみで構成される。これによって、再順応化に特に影響する
臨界的なケースがビデオコーディングによって十分に考慮される。再順応化は、
古い要素が新たなものに置換えられる更新されたランダムサンプルを用いても、
新しいランダムサンプルを用いても実施可能である。この選択は、具体的な条件
、例えば単位時間毎の素材量や読取りレートの変化速度などに依存する。
【0019】 実施例 次に本発明を図面に基づき以下の明細書で詳細に説明する。この場合、 図1は、順応化プロセスとモニタープロセスとランダムサンプル生成のためのイ
ンターフェースを備えた読取り機のブロック回路図であり、 図2は、モニタプロセスを示したフローチャートであり、 図3は、ランダムサンプル生成を示したフローチャートであり、 図4は、順応化プロセスを示したフローチャートである。
【0020】 図1による読取り機40は、アドレス読取りの際に送付物イメージ1上で、宛
先を検出し、アドレスの文字を復号化し、仕分けに必要な情報をそこから抽出す
る目的を有している。この読取り機40が配布情報を自動的に求めることができ
ない場合には(リジェクション)、送付物イメージ1がビデオコーディングスペ
ース6に送られ、そこにおいて処理者がこのデータ、例えば郵便番号などをマニ
ュアルで入力する。
【0021】 配布作業に係わる情報は、通常は郵便番号、町名、番地を伴った通り名、場合
によっては受取人の姓名などである。仕分けに対して住所のどの部分が関連して
いるかは、具体的な用途によって定められる。
【0022】 読取り機40は、複数の方法ステップ実行部、すなわちレイアウト分析部2(
ドキュメント認識、ROI局所化、セグメント化)と、活字体文字や筆記体文字
の認識部3、およびアドレス解釈部4に分けられている。読取り目的の解決に対
してはこれらの方法ステップが逐次処理される。
【0023】 各方法ステップは、予め定められたランダムサンプルを用いた順応化から求め
られたアプリケーション固有のパラメータセット5を有しており、通常は100
0以上の送付物が含まれている。この読取りシステムは、この順応化の後で全国
の郵便配送センタに投入される。そこでは連日持ち込まれる送付物がこのシステ
ムを最適化した送付物と益々異なってゆき、さらに送付物の特徴も時間と共にも
はや読取りシステムが最適なレベル以下でしか動作できなくなるほど変化する。
【0024】 前述した本発明による方法では、読取り機40が、アドレス読取り対象の立体
的な特徴と生じ得る時間的変化に対して常に自動的に最適化されている。それに
より、これまでの“静的”なアドレス読取り機の弱点が補償される。出発点は読
取り機Lであり、これは出発パラメータPと時点T=tで特徴付けられる
。時間の経過と共に必要に応じてこのパラメータセットは再順応化され、新たな
読取り機の具現がなされる。再順応化された読取りシステムLと先行時点のシ
ステムL - の読取りレートは、検証用ランダムサンプルに基づいて求められ
る。改善のあった場合にのみ、再順応化された読取りシステムLが利用される
が、それ以外ではこれまでのものが使用される。
【0025】 この方法では、それ自体公知の読取り機40と(図1)、モニタープロセス部
11(図2)、ランダムサンプル生成部10(図3)と、順応化プロセス部9(
図4)が含まれている。
【0026】 読取り機40は、従来技法の説明で既に前述したように、複数の方法ステップ
、すなわちレイアウト分析2、分類3、アドレス解釈4を実行する。読取り機4
0への入力は、送付物1のイメージ1によってなされ、これはそれぞれの目的を
有する前記方法ステップを介して分析され、配布に関する情報からは配布コード
8が導出される。これに対しては、送付物イメージ1はレイアウト分析2の際に
、情報の含まれた領域と、関係のない領域とに分けられる。情報を含んだ領域は
、さらに最小の情報含有単位に分解される。これらの単位は活字体文字の場合に
は、個々の文字であり、筆記体文字の場合には、1つの言葉である。これらの単
位は相応の分類部3によって分類され、この分類結果が領域に割当てられる。そ
れぞれの識別特徴(幾何学形状、状態、配位、分類結果)を有している全ての領
域は、モジュール外におかれているメモリにファイルされる。これらの中間結果
7からはアドレス解釈部4が最も確率の高いエントリを辞書から探し出す。この
辞書は全ての有効なアドレスを含みアドレス解釈部4のパラメータセットに所属
する。探し出された辞書エントリに対しては1つのテーブルから配布コードが読
出され、例えば分類機の機械制御部に転送される。この制御部はそれによって送
付物を適正な分類仕ボックスに送り出す。確率性のある辞書エントリが見つけら
れなかった場合には、送付物イメージ1はビデオコーディング部6に供給され、
そこで人手によっ仕分け情報がシステムに入力される。機械制御部は読取り機4
0の外部におかれ、図面には含まれていない。
【0027】 モニタプロセス部11は、時間に関する読取りレートを求めるタスクを有して
おり(ステップ13)、これについては読取り機40から、処理された送付物が
自動読取りできたものか否か伝えるフラグが転送される(ステップ12)。モニ
タプロセス部11は、読取りレートを常時監視し(ステップ14)、読取りレー
トの顕著な低下が認められた場合には、順応化プロセス9を導入し、その処理が
終了するまで待機する。順応化プロセス9が終了した時には、モニタプロセス部
に、この順応化が無事終了したか否かが知らされる(ステップ15)。この順応
化は、それによって読取り機40の改善が達成された場合に無事終了とされる。
順応化が無事終了した場合には統計値のリセットが行われる(ステップ16)、
つまり読取りレートの計算が再び開始される。読取りレートの初期値としては、
検査ランダムサンプルで順応化を行ったシステムで達成された値が使われる。順
応化が無事終了した後では、もしくは統計値がリセットされた後では、再び読取
りレートの監視が継続される。
【0028】 図3にはランダムサンプル生成部10が示されており、これは新たな主要モジ
ュールの1つを形成している。このモジュールは、読取り機40の読取り結果と
、送付物イメージ1と、場合によってはビデオコーディング入力部6の入力デー
タとから、読取り機40の順応化に適したランダムサンプルを生成する役目を有
している。この目的を果たすためにランダムサンプル生成部10は、次のような
手段、すなわち送付物イメージ1と、中間結果7と、フラグ12(これは送付物
がビデオコーディングされたものか否かを示す)と、配布コード8を読取り機4
0から読出す手段を有してる。
【0029】 第1のステップとして目下の処理すべき送付物がビデオコーディングされたか
否かが検査される(ステップ6)。ビデオコーディングされた送付物の場合、中
間結果が不完全か誤りである。しかしながらそこからはランダムサンプルが生成
され、エラーからは多くの場合学習が可能なので、この送付物イメージは特に高
いレベルにある。それ故に完全な中間結果を比較的手間をかけて生成することに
は価値がある。この中間結果をビデオコーディングされた送付物から生成すれば
するほど、より良好な改善が順応化から得られる。ビデオコーディングされた送
付物からの中間結果の算出は、同じ機能のさらなる読取り機17によって行われ
る。違いは、とりわけビデオコーディングからの配布コードによって限定される
辞書類である。付加的にこの読取り機17は、次のように設定することも可能で
ある。すなわちこの読取り機が全ての探索空間を適正な解像度で探索し、制限特
に送付物毎の実行時間に対する制限をキャンセルするように設定することも可能
である。それによりこの読取り機17は、その前まで読取ることのできなかった
多くの送付物を自動的に読みとれる状態になる。
【0030】 送付物がビデオコーディングにも係わらず、2度目のもとでも自動的に読みと
れなかった場合には(ステップ18)、目下のランダムサンプルが拒絶されるか
または検査ランダムサンプルが採集され、ランダムサンプル生成器10は、次の
送付物を受取る。しかしながら任意に、各中間ステップ毎に人の手でビデオコー
ディングできる広範囲なビデオコーディングダイヤログ組入れることも可能であ
る。それにより中間結果はさらに多くの送付物から生成でき、それに伴ってさら
に大幅な改善が順応化のもとで見込まれる。しかしながらコスト的な理由からそ
のようなビデオコーディングダイヤログはいつでも有意義なものとは限らない。
【0031】 生成された中間結果(19)は、ここにおいて読取りシステムからの中間結果
7と比較されてもよい。この場合は、中間ステップの結果が当該方法の順序で相
互に比較される(ステップ20)。結果の間で最初の大きな偏差が生じた場合に
は、そこから次のようなことが推論される。すなわち対応するシステムモジュー
ルが1つのエラーを犯したことが推論される。さらにこの比較からは、先のどの
エラーが後続のシステムモジュールにどの位の強さで影響し得るかが監視される
。この統計値(ステップ21)は、システムの弱点に関する重要な示唆となり得
る。
【0032】 完全な中間結果が第2の読取り機17によって生成されたものかまたは読取り
機40によって派生したものかに依存することなく、それらはランダムサンプル
にピックアップされる(ステップ23)前に、妥当性検査プロセス部22に供給
される。このプロセスは、中間結果から送付物上の印刷に相応する代替案を所期
の結果として選択するタスクを有している。このステップは必要なものである。
というのも、アドレス解釈部の処理には少なからず許容誤差が伴っており、例え
ばアドレス内のタイプミスや個々の文字に対する分類結果ミスなどが補償されて
正しいアドレスが見つけられるからである。例えばある手紙に“78467 Kom stanz”というアドレスが書かれている場合、これは郵便番号からとアルファベ
ットのmがnに近いことと、他のアルファベットnがうまく当て嵌まることから
、この手紙が“Konstanz”宛であることが推論できる。しかしながら個別文字分
類ではたとえアドレス解釈に対する所期の識別が“Konstanz”であっても、“Ko
mstanz”のmを所期結果nに割当てなければならないことはない。自動の妥当性
検査手法では、人の手を借りることはできないので、レター上の実際の正しい文
字についての絶対的な確実性は存在しない。誤った所期結果を回避するためには
、アドレス解釈の所期の結果が取入れられる。唯一の例外は先行する中間ステッ
プが所期結果から大きくずれている場合である。そこでは3つのケースに区別で
きる。
【0033】 1. 第1のケース:先行の中間ステップが高い安全性で別の結果を推奨する。こ
のケースでは、中間ステップの結果がこの中間ステップの所期の結果として取入
れられる。
【0034】 2. 第2のケース:先行の中間ステップは、代替案のリストを提供する。このリ
ストにはアドレス解釈の所期の結果が含まれている。それによりアドレス解釈の
所期結果は当該中間ステップに対する所期結果として受入れられる。
【0035】 3. 第3のケースは、アドレス解釈の目標結果が代替案リストに含まれていない
ことを除いて前記第2のケースに相応している。このケースでは当該中間ステッ
プに対する所期結果は何も生成されない。これは誤った所期結果を避けるためで
ある。
【0036】 このように妥当性検査されたイメージと中間結果22は、ランダムサンプル2
3にファイルされる。このランダムサンプルは、イメージデータに割当てられる
読取り結果および中間結果を含み、様々な形式で編成できる。例えば 1. ランダムサンプルは、複数の中間結果の集まりを含む。
【0037】 2. ランダムサンプルは、中間ステップに対するファイルを含む。つまり読取り
機40に対する中間結果は、個々の中間ステップの中間結果に分解される。
【0038】 3. 前記1と2のケースに依存することなく、ランダムサンプルは2つのケース
、“自動読取り”と“ビデオコーディング”のケースに分割される。
【0039】 4. 前記1〜3のケースに依存することなく、ランダムサンプルの生じ得る量は
制限される。そのため、最大量に達した場合には、最も古いランダムサンプル要
素が再書換えされる。
【0040】 どの編成形式に決定するかは、ランダムサンプルで達成しようとする目的に依
存し、ランダムサンプルにアクセスする順応化プロセスの様式に依存する。
【0041】 図4には、順応化プロセス部9(これはモニタープロセス部11によって起動
される)が示されている。ここではまずランダムサンプル生成部から統計値がロ
ードされる(ステップ31)。これが無事終了した場合には、能率向上の理由か
ら、順応化すべき中間ステップの選択を、拒絶の原因となり得る処理チェーン内
の最も弱い要素に絞ることが可能となる。つまりこれらのモジュールの改善は、
読取りシステムの最大の改善につながる。統計値が何もロードできない場合には
、全ての中間ステップが順応化される。
【0042】 次のステップでは、順応化すべきモジュールのパラメータ5が読取りシステム
からロードされ(ステップ32)、順応化プロセス毎にファイルされる。その後
で、中間ステップ特有のないしはパラメータ特有のランダムサンプルがランダム
サンプル生成部のランダムサンプルから作成される(ステップ33)。このステ
ップは有利には、ランダムサンプル生成部10内の適切なランダムサンプル編成
によって得られる。次のステップでは、順応化アルゴリズム35が、アルゴリズ
ムコレクションから選択される(ステップ34)。このコレクションには本来の
アルゴリズムの他に、ランダムサンプルへの前提条件となる、走行時間、メモリ
要求などがファイルされている。
【0043】 全ての前提条件が充されている場合には、パラメータセットに対するランダム
サンプルが再順応化されるか、パラメータのもとでの順応化順序が計算される。
【0044】 次のステップでは、個々のパラメータ5の順応化24が、選択されたそのつど
のアルゴリズム36と生成されたランダムサンプル23によって開始され、得ら
れた順応化結果が検査される(ステップ25)。これに対しては検査用ランダム
サンプル26が必要とされ、これは常に同じままでシステムに供給されるかラン
ダムサンプル生成部10によって生成されたものである。この検査用ランダムサ
ンプル26は、一度は読取り機によって順応化前のコンフィグレーションを用い
て処理され、一度は順応化後のコンフィグレーションを用いて処理され、読取り
結果と比較される(ステップ25)。順応化された読取り機が向上している場合
には、パラメータが読取り機40内の次の起動の際にロードされる場所に書込ま
れる。その後でこの順応化プロセス9は終了し、モニタープロセス部11にこの
順応化が無事に終了したか否かが返信される。
【0045】 図示の方法は、読取るべき送付物が積み重ねられた状態で供給される場合に有
利である。特に読取るべきアドレスは、高い共通性を有している(例えば均一的
な筆跡、送付物上の同じ位置など)。読取られた各送付物がランダムサンプルに
おいて考慮されると、直ちに送付物やイメージの特徴の中でパラメータの変化と
なって作用する。
【図面の簡単な説明】
【図1】 順応化プロセスとモニタープロセスとランダムサンプル生成のためのインター
フェースを備えた読取り機のブロック回路図である。
【図2】 モニタプロセスを示したフローチャートである。
【図3】 ランダムサンプル生成を示したフローチャートである。
【図4】 順応化プロセスを示したフローチャートである。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 ドキュメントエントリおよびアドレス読出し方法であって、 読取るべき情報を含んだドキュメントまたは送付物のイメージを記録し、 読取り機において情報の自動読取りを以下の中間ステップ、 読取るべき情報を含んている領域の確定(ROI)および、ライン、ワード、
    個々の文字などの分類すべき領域へのセグメント化によるレイアウト分析ステッ
    プ、 セグメント化された領域の分類ステップ、 前記ステップからの結果の解釈ステップ、を用いて行い、 この場合これらの中間結果は新たなイメージが読取られるまで後続の中間ステ
    ップ毎にピックアップ可能に記憶されるものであり、 予め定められた期間内で一義的な自動的読取り結果が求められなかった場合に
    は、該当するイメージのビデオコーディングが行われ、 この場合自動的読取りステップが、定められた順応化フェーズにおいて、読取
    るべき情報とそれに所属する所期読取り結果並びにその中間結果を伴うイメージ
    からなるランダムサンプルに基づいて最適化される形式のドキュメントエントリ
    およびアドレス読出し方法において、 読取りモードの期間中に、選択されたイメージから一義的に自動的に読出され
    る情報のもとで、読取り結果および中間結果を目下のランダムサンプルのために
    記憶し、および/または ビデオコーディングを用いて、選択されたイメージから一義的に求められた情
    報のもとで、画像データをビデオコーディングによって求められた所属の情報と
    関連させて同じ機能の第2の自動読取りプロセスにおいて再度読出し、 一義的な読取り結果が得られた場合に、その読取り結果と中間結果を所属の画
    像データに対応させて目下のランダムサンプルのために記憶し、 目下のランダムサンプルを用いて自動読取り機を再順応化させることを特徴と
    する方法。
  2. 【請求項2】 第2の自動読取りのもとでの読取りプロセスを、時間制限な
    しで実施する、請求項1記載の方法。
  3. 【請求項3】 整合性の面で不適切な読取り結果と中間結果が求められた場
    合には、これらの結果のランダムサンプルへの算入を中止する、請求項1記載の
    方法
  4. 【請求項4】 ビデオコーディングの支援のもとで無事に読取りを終了した
    イメージ毎に、第1の自動読取りの際の中間結果を第2の自動読取りの際の所属
    の中間結果と比較し、顕著な偏差は評価エラーとして第1の自動読取りの際の各
    中間ステップにおいて加算し、例えばエラー頻度に関する統計値を形成する、請
    求項1記載の方法。
  5. 【請求項5】 求められたエラー頻度が所定の期間中に規定値を越えてた場
    合にのみ、その該当する中間ステップを再順応化する、請求項4記載の方法。
  6. 【請求項6】 第1の自動読取りの際の読取りレートを監視し、その読取り
    レートが所定の期間に亘って所定の閾値を下回った場合には、読取り機または中
    間ステップを目下のランダムサンプルを用いて再順応化する、請求項1から5い
    ずれか1項記載の方法。
  7. 【請求項7】 同じ機能を有する自動読取り機の読取りレートを、先行のパ
    ラメータと再順応化されたパラメータを用いて求め、再順応化されたパラメータ
    によって読取りレートの向上がみられた場合には、自動読取り機の新たな初期化
    を行う、請求項1から6いずれか1項記載の方法。
  8. 【請求項8】 ランダムサンプル内に取入れられるイメージの選択を、規定
    された期間内で新たに読出された所定数のイメージが一義的に読出された情報と
    共にそのランダムサンプルに含まれるように行う、請求項1記載の方法。
  9. 【請求項9】 ランダムサンプル内に取入れられるイメージの選択を、その
    ランダムサンプル内で自動読取りイメージとビデオコーディングイメージが所定
    の比率になるように行う、請求項1記載の方法。
  10. 【請求項10】 選択された目下の読出されたイメージを、最初のランダム
    サンプル内に挿入し、ランダムサンプル要素の最大数を上回った場合には、その
    つど最も古い要素を消去する、請求項1記載の方法。
  11. 【請求項11】 元のランダムサンプルを目下のランダムサンプルに置換える、請求項1記載の
    方法。
JP2000598968A 1999-02-12 2000-02-01 ドキュメントエントリおよびアドレス読出し方法 Withdrawn JP2002536769A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19905938 1999-02-12
DE19905938.1 1999-02-12
PCT/DE2000/000269 WO2000048119A1 (de) 1999-02-12 2000-02-01 Verfahren zum lesen von dokumenteintragungen und adressen

Publications (1)

Publication Number Publication Date
JP2002536769A true JP2002536769A (ja) 2002-10-29

Family

ID=7897333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000598968A Withdrawn JP2002536769A (ja) 1999-02-12 2000-02-01 ドキュメントエントリおよびアドレス読出し方法

Country Status (10)

Country Link
US (1) US6993155B1 (ja)
EP (1) EP1159705B1 (ja)
JP (1) JP2002536769A (ja)
AT (1) ATE224081T1 (ja)
AU (1) AU747357B2 (ja)
CA (1) CA2362199A1 (ja)
DE (1) DE50000491D1 (ja)
DK (1) DK1159705T3 (ja)
NZ (1) NZ514051A (ja)
WO (1) WO2000048119A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1534440B1 (de) * 2002-09-03 2006-04-19 Siemens Aktiengesellschaft Verfahren und vorrichtung zum lesen der adressen von sendungen
DE10345047B4 (de) * 2003-09-26 2005-12-15 Siemens Ag Verfahren zum Erzeugen und/oder Aktualisieren von Lern- und/oder Teststichproben
FR2873469B1 (fr) * 2004-07-20 2007-08-31 Solystic Sa Procede pour la detection de filantes.
CN112714339B (zh) * 2019-10-24 2023-04-28 上海哔哩哔哩科技有限公司 无序的视频采样方法、可读存储介质及计算机设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4516264A (en) * 1982-01-29 1985-05-07 United States Of America Postal Service Apparatus and process for scanning and analyzing mail information
US4724542A (en) 1986-01-22 1988-02-09 International Business Machines Corporation Automatic reference adaptation during dynamic signature verification
US5159667A (en) 1989-05-31 1992-10-27 Borrey Roland G Document identification by characteristics matching
US5031223A (en) * 1989-10-24 1991-07-09 International Business Machines Corporation System and method for deferred processing of OCR scanned mail
JP2977431B2 (ja) * 1993-12-27 1999-11-15 株式会社東芝 ビデオコーディング装置
US5754671A (en) * 1995-04-12 1998-05-19 Lockheed Martin Corporation Method for improving cursive address recognition in mail pieces using adaptive data base management
DE19718805C2 (de) * 1997-05-03 1999-11-04 Siemens Ag Verfahren und Anordnung zum Erkennen von Verteilinformationen
JP3246432B2 (ja) * 1998-02-10 2002-01-15 株式会社日立製作所 宛名読取り装置および郵便物等区分機
US6381342B2 (en) * 1999-01-13 2002-04-30 James E. Foley Method for reading and sorting documents

Also Published As

Publication number Publication date
DE50000491D1 (de) 2002-10-17
DK1159705T3 (da) 2002-12-23
EP1159705A1 (de) 2001-12-05
CA2362199A1 (en) 2000-08-17
AU3144500A (en) 2000-08-29
WO2000048119A1 (de) 2000-08-17
AU747357B2 (en) 2002-05-16
EP1159705B1 (de) 2002-09-11
US6993155B1 (en) 2006-01-31
ATE224081T1 (de) 2002-09-15
NZ514051A (en) 2003-10-31

Similar Documents

Publication Publication Date Title
JP3740168B2 (ja) 郵便物の処理方法
US8020003B2 (en) Creation of electronically processable signature files
US7539326B2 (en) Method for verifying an intended address by OCR percentage address matching
JP6151141B2 (ja) 仕分装置および仕分方法
US20100014706A1 (en) Method and apparatus for video coding by validation matrix
CN112151014B (zh) 语音识别结果的测评方法、装置、设备及存储介质
KR100323351B1 (ko) 주소인식방법 및 메일처리장치
US7181045B2 (en) Method and device for reading the addresses of items of mail
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
US7286687B2 (en) Method for generating learning and/or sample probes
JP2002536769A (ja) ドキュメントエントリおよびアドレス読出し方法
JP2005536340A (ja) 送付物上書きまたは書類上書きを読み取るための方法および装置
CN112651392A (zh) 证件信息的获取方法及装置、存储介质、计算机设备
JPH0957204A (ja) 郵便物の宛先自動読取システム
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
EP0955600B1 (en) Process and equipment for recognition of a pattern on an item presented
CN1882954B (zh) 用于智能轮询的系统和方法
US20070084641A1 (en) Method for producing and/or updating learning and/or random test samples
Leedham et al. Handwritten country name identification using vector quantisation and hidden Markov model
JPH11179289A (ja) 郵便物区分装置
US20070104370A1 (en) System and method for smart polling
JP5558065B2 (ja) 区分装置、区分情報の認識方法および区分情報の認識プログラム
Schäfer et al. How postal address readers are made adaptive
KR20050047776A (ko) 배송분류정보 생성방법 및 장치, 그에 따른 운송장
JP2000508100A (ja) 宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061107

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080318