JP2000508100A - 宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法 - Google Patents

宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法

Info

Publication number
JP2000508100A
JP2000508100A JP9535727A JP53572797A JP2000508100A JP 2000508100 A JP2000508100 A JP 2000508100A JP 9535727 A JP9535727 A JP 9535727A JP 53572797 A JP53572797 A JP 53572797A JP 2000508100 A JP2000508100 A JP 2000508100A
Authority
JP
Japan
Prior art keywords
destination
pattern
distance measure
character string
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9535727A
Other languages
English (en)
Inventor
ブロック ハンス―ウルリッヒ
ブリュックナー トーマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2000508100A publication Critical patent/JP2000508100A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 宛先に含まれる文字ストリングを識別及び評価しこの宛先を受取人に配布するために、各受取人に対して一義的な宛先指定を有する記憶されたパターンと宛先の文字ストリングとを比較する。この宛先の文字ストリングと最も類似したパターンが選択される。これは、宛先とパターンとの間の類似性を定義する距離尺度を形成し、次いでこの距離尺度が所定の閾値を上回るか又は下回るかを調べることによって行われる。この距離尺度がこの所定の閾値を下回る場合、このパターンに割り当てられた受取人が送出される。

Description

【発明の詳細な説明】 宛先をデジタルデータに変換した後で文書に 記載されたこの宛先を自動的に評価するための方法 例えば営業用手紙文書を分類し、次いで電子形式又は紙形式で伝送するか又は 適切に格納することができるシステムが[1]から公知である。このために、こ のシステムは文書のレイアウトセグメンテーションのためのユニット、光学的テ キスト読み取りのためのユニット、宛先(アドレス)識別のためのユニット及び 内容分析及び分類のためのユニットを有している。文書のセグメンテーションの ために、ボトムアップ及びトップダウン併用アプローチを利用する。このアプロ ーチは個々のステップとして; ・まとまりのある構成要素の識別、 ・テキストラインの識別、 ・文字セグメントの識別、 ・語セグメントの識別、 ・段落セグメントの識別を含む。 光学的テキスト読み取りは3つの部分に分割される。すなわち、 ・辞書に基づく語の検証に組み合わされた文字識別、 ・文字からの分類による語の識別及び語に基づく識別である。 宛先識別はユニフィケーションに基づく構文解析プログラム(パーザ)によっ て実施される。このユニフィケーションに基づく構文解析プログラムは、宛先属 性文脈自由文法(eine attributierten kontextfreien Grammatik fuer Adresse n)によって動作する。宛先文法の方向性において、これに応じて正確に構文分 析されたテキスト部分が宛先である。宛先の内容はこの文法の標識マッチング( Merkmal Gleichung)を介して求められる。この方法は[2]に記述されている 。 内容分折及び分類には、テキストの自動インデクシングのための情報検索技術 が利用される。詳しく言えば、これは以下のようなものである。すなわち、 ・語の形態素解析 ・不要語の除去 ・語の統計の作成 ・例えば、資料頻度の逆数(inverse Dokumenthauefigkeit)のような情報検索 から周知の公式によるインデクス用語のウェイトの計算である。 このようにして計算されたインデクス用語ウェイトを用いて、全てのカテゴリ に対して、各カテゴリを特徴づける重要な語の3段階リストを求める。[1]に 記述されているように、これらのリストは学習フェーズの後でさらに手動で改訂 される。 その後新しい営業用手紙の分類は、この手紙のインデクス用語を全てのカテゴ リに対する重要な語のこの リストと比較することによって行われる。この手紙の中に含まれるインデクス用 語のウェイトは、重要性に応じて定数によって乗算されて合計される。従って、 この合計値をこの手紙の中のインデクス用語の個数で割ることによって、各クラ ス毎に蓋然性が得られる。正確な計算は[3]から得られる。 内容分析の結果は、蓋然性に従ってソートされた仮説リストである。内容分析 の実行時間は、手紙毎に最大75個のインデクス用語がある場合にはCPU時間 で0.5秒と2秒との間である。 本発明の課題は、宛先識別及び宛先評価を改善する方法を提供することである 。この場合、文書の宛先は既にデジタルデータで与えられており、このデジタル データが後続処理される、ということを前提とする。 上記課題は請求項1の特徴部分記載の構成によって解決される。 本発明の改善実施形態は従属請求項から得られる。 本発明の方法は、おおよその語の一致(近似的ストリングマッチング)の技術 に基づく。このために、Bertossi et al.の[4]に記述された方法を利用する 。この方法は語をパターンと比較し、この語における文字の取り違え、省略及び 挿入の個数を計算する。 大量のパターンmからサーチすべき語wに最もよく相応するパターンが選択さ れる。このために、2つの語に対する類似性尺度乃至は距離尺度d,パターンm 及び探索される語wが必要である。このためにはエラーの絶対的な個数は不適当 である、というのも異なる長さのパターンが存在しうるからである。この問題に ついて例に基づいて示す。 例1 パターンm1=“AUT”、探索される語w1=“ABT”である。 例2 パターンm2=“Med.Technik”、探索される語w2=“MCD,T ecfnik”である。ただし、ここで“Med.Technik”は例えばM edizinische Technik(医用技術)の略語である。 両方の例の場合、平均エラー率 エラー個数/長さ(m) は等しい。すなわち、第1の例では平均エラー率は1/3であり、第2の例では 平均エラー率は4/12、つまり1/3であり、従って距離は等しい。しかし、明 らかにw1に対するm1の類似度よりもw2に対するm2の類似度の方がより高 ように見える。パターンと比較される語との間の距離の計算を再構成問題として 捉えれば、これに対する説明はつく。サーチされるパターンを語wから再構成乃 至は再識別することが容易にできればできるほど、mとwとの間の距離はより小 さい。しかし、これは一般的にはたとえ多くのエラー を有していても比較的長い語の場合の方がより容易である。というのも、エラー を有する比較的長い語から正確な語を形成できる可能性はより少ないからである 。このことから、文字の平均的再構成情報は語の長さによって減少すると結論さ れる。 文字の再構成情報は勿論計算可能な尺度ではない。それゆえ、本発明ではこの ためのモデルとしてマルコフ(Markov)エントロピーHM(N)を使用する。こ のマルコフエントロピーは、語の文字の平均的情報として定義され、語の長さN に依存する。なるほどこのエントロピーはあらゆるNに対して計算することはで きない(例えば既にN=10の場合には、K個の文字を長さNの語に分散するK10 個の可能な組み合わせがある)。しかし、若干のNに対して、[4]において マルコフエントロピーの関数曲線を明らかに反映している値がある。これらの値 による補間によって、マルコフエントロピーの推定Φ(HM(N))が得られる。こ の推定は距離尺度dinfを定義するのに使用できる。 すなわち; dinf(m,n):=ew・Φ(HM(N))/N である。ここで、ewは探索される語wにおけるエラーの個数である。 文書に記載された宛先を評価するための本発明のシ ステムを示す実施例に基づいて本発明をさらに説明する。 図1は紙の文書に記載された宛先を識別し評価するシステムである。 図2は宛先を評価するためのこのシステムのより正確な図面である。 これらの図にはこのシステムのユニットが矩形によって図示され、これらユニ ットの活動の結果が円によって図示されている。 紙の文書DokはスキャナSCによってスキャンされ、画像データファイルB Dが生成される。ヨーロッパ特許出願第0515714A1号公報から公知の方 法によって、宛先を含む画像部分がセグメント化される。レイアウトセグメンテ ーションが図1にSGで示されている。結果としてこの文書の宛先部分A‐SG だけが含まれる画像データファイルが得られる。宛先のこれらの画像データはO CRによってASCIIデータに変換される。ASCIIデータの宛先は図1で はADRと示されている。通常このASCII宛先データファイルADRはまだ エラーを含んでいる。このため、この宛先データファイルを記憶されたパターン と比較することによっては一義的な受取人指定はしばしば不可能である。図1に は宛先識別がADR-Eと示されており、パターンmを有するデータファイルが MUと示されている。このデータファイルはパターン mの他にこのパターンに割り当てられた受取人も含むことができ、両方がメモリ に格納されている。宛先識別ADR-Eはパターンmとの比較の結果として各パ ターン毎に宛先仮説を送出する。この宛先仮説はADR-Hと示されており、類 似性に対する尺度を表す。 宛先のロバスト性及びエラートレランスを有する分析を実現するために、この 実施例では「おおよその語の一致」(近似的ストリングマッチング)の技術を使 用する。このためにBertossi[4]によって記述された方法を使用する。この方 法は、語をパターンと比較して、文字の取り違え、省略及び挿入の個数を計算す る。図2ではこれをユニットMAで行う。このユニットMAにはASCIIコー ドの宛先及びパターンmが供給される。メモリにはパターンmが格納されており 、しかも、あり得る各受取人毎に大量の一義的な受取人指定が格納されている。 従って、ユニットMAでは、パターンm1〜mnが宛先ADRと比較され、これに よりewが検出され、各パターン毎に仮説ADR-Hが形成される。すなわち、 各パターン毎に宛先の最も類似する語(仮説)が求められる。今度は宛先に最も 含まれていそうなパターンを選択できるために、各々のパターン-仮説ペア毎に 、2つの文字ストリングの類似度を求める上記の式によって距離尺度dinfを計 算する。これは距離計算部DISTで行われる。パターンの各々に対してこの距 離計算が実施され、この計 算結果から距離尺度dinf1〜dinfnが計算され、最小値が計算され、dinfminと して後続処理される。dinfminが予め設定される閾値SWよりも小さい場合、宛 先識別の結果としてこのパターンに所属する宛先がデータベースMUから得られ る。さもなければ、受取人についての言明は行われない。 この経過は図2から得られ、この図2には個々のステップが示されている。1 つのユニット(メモリ)にはパターン及びこれに相応する受取人が格納されてい る。個々のパターンに対する仮説はADR-Hに含まれており、ユニットDIS Tで各パターンを宛先と比較するための距離尺度計算が行われ、この結果個々の 距離尺度dinf1〜dinfnが算出され、これらの距離尺度dinf1〜dinfnはDIS Tに格納される。これらの距離尺度dinf1は最小値計算のためにユニットMIN に供給され、このユニットMINは最小値dinfminを算出し、閾値検査SWを行 う。dがこの閾値を上回っている場合、この閾値検査SWは宛先を割り当て不可 能として拒否する。これはrwで示されている。さもなければ、このパターンに 相応する受取人ADR-Aが送出される。
【手続補正書】特許法第184条の8第1項 【提出日】1998年3月26日(1998.3.26) 【補正内容】 明細書 宛先をデジタルデータに変換した後で文書に 記載されたこの宛先を自動的に評価するための方法 [5]から個別文字識別システムと組み合わされた文脈依存後処理システムが 公知である。16000個の所定のエントリの中から正しいエントリを求めるた めに、同一性比較(Identitaetsvergleich)及び3つの間隔関数が使用される。 辞書へのアクセスは特殊なハッシュ関数を介して行われる。この特殊なハッシュ 関数は語の前方半分又は後方半分を利用する。 例えば営業用手紙文書を分類し、次いで電子形式又は紙形式で伝送するか又は 適切に格納することができるシステムが[1]から公知である。このために、こ のシステムは文書のレイアウトセグメンテーションのためのユニット、光学的テ キスト読み取りのためのユニット、宛先(アドレス)識別のためのユニット及び 内容分析及び分類のためのユニットを有している。文書のセグメンテーションの ために、ボトムアップ及びトップダウン併用アプローチを利用する。このアプロ ーチは個々のステップとして; ・まとまりのある構成要素の識別、 ・テキストラインの識別、 ・文字セグメントの識別、 ・語セグメントの識別、 ・段落セグメントの識別を含む。 光学的テキスト読み取りは3つの部分に分割される。すなわち、 ・辞書に基づく語の検証に組み合わされた文字識別、 ・文字からの分類による語の識別及び語に基づく識別である。 宛先識別はユニフィケーションに基づく構文解析プログラム(パーザ)によっ て実施される。このユニフィケーションに基づく構文解析プログラムは、宛先属 性文脈自由文法(eine attributierten kontextfreien Grammatik fuer Adresse n)によって動作する。この宛先文法の方向性において、これに応じて正確に構文 分析されたテキスト部分が宛先である。宛先の内容はこの文法の標識マッチング (Merkmal Gleichung)を介して求められる。この方法は[2]に記述されている 。 内容分析及び分類には、テキストの自動インデクシングのための情報検索技術 が利用される。詳しく言えば、これは以下のようなものである。すなわち、 ・語の形態素解析 ・不要語の除去 ・語の統計の作成 ・例えば、資料頻度の逆数(inverse Dokumenthauefigkeit)のような情報検索か ら周知の公式によるインデ クス用語のウェイトの訃算である。 このようにして計算されたインデクス用語ウェイトを用いて、全てのカテゴリ に対して、各カテゴリを特徴づける重要な語の3段階リストを求める。[1]に 記述されているように、これらのリストは学習フェーズの後でさらに手動で改訂 される。 その後新しい営業用手紙の分類は、この手紙のインデクス用語を全てのカテゴ リに対する重要な語のこの 請求の範囲 1.宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に 評価するための方法において、 a)メモリに各受取人に対して一義的な宛先指定をパターン(m)として格 納し、 b)該パターンを宛先の文字ストリングと比較し、前記パターンと前記宛先 との間に存在する相違を距離尺度として算出し、 c)該距離尺度を算出するために、前記宛先と前記パターンとの相違を検出 し、前記文字ストリングの長さ及び前記相違に基づいてマルコフエントロピーを 介して前記距離尺度を算出し、 d)前記宛先の文字ストリングに最も類似したパターンを選択し、 e)前記距離尺度が所定の閾値を下回る場合に、選択された前記パターンに割 り当てられた受取人のみを選択する、宛先をデジタルデータに変換した後で文書 に記載されたこの宛先を自動的に評価するための方法。 2.距離尺度の算出を次式 dinf(m,n):=ew・Φ(HM(N))/N によって行い、ここでewは文字ストリングwにおけるエラーの個数であり、 Nは文字ストリングの長さであり、Φは補間によって求められた推定を表す、請 求項1記載の方法。 3.a)おおよその語の一致の方法に従って格納されたパターンと宛先とを比較 し、 b)このようにして、各パターンに対して前記宛先と前記パターンとの間の相 違の個数を含む仮説を形成し、 c)該仮説から各パターンに対する距離尺度を算出し、 d)該距離尺度から最小値を求め、 e)前記距離尺度の最小値を閾値と比較し、該閾値を上回っていた場合には前 記宛先を拒否し、さもなければデータベースから前記パターンに割り当てられた 受取人を送出する、請求項2記載の方法。

Claims (1)

  1. 【特許請求の範囲】 1.宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に 評価するための方法において、 メモリに各受取人に対して一義的な宛先指定をパターン(m)として格納し 、 該パターンを宛先の文字ストリングと比較し、前記パターンと前記宛先との 間に存在する相違を距離尺度として算出し、 前記宛先の文字ストリングに最も類似したパターンを選択し、 前記距離尺度が所定の閾値を下回る場合に、選択された前記パターンに割り 当てられた受取人のみを選択する、宛先をデジタルデータに変換した後で文書に 記載されたこの宛先を自動的に評価するための方法。 2.距離尺度を算出するために、宛先とパターンとの間の相違を検出し、文字ス トリングの長さ及び前記相違に基づいてマルコフエントロピーを介して前記距離 尺度を求める、請求項1記載の方法。 3.距離尺度の算出を次式 dinf(m,n):=ew・Φ(HM(N))/N によって行い、ここでewは文字ストリングwにおけるエラーの個数であり、 Nは文字ストリングの長さであり、Φは補間によって求められた推定を表す、請 求項2記載の方法。 4.おおよその語の一致の方法に従って宛先を格納されたパターンと比較し、 このようにして各パターンに対して宛先とパターンとの間の相違の個数を含 む仮説を形成し、 該仮説から各パターンに対する距離尺度を算出し、 該距離尺度から最小値を求め、 前記距離尺度の最小値を閾値と比較し、該閾値を上回っていた場合には前記 宛先を拒否し、さもなければデータベースから前記パターンに割り当てられた受 取人を送出する、請求項3記載の方法。
JP9535727A 1996-04-03 1997-03-18 宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法 Pending JP2000508100A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19613401 1996-04-03
DE19613401.3 1996-04-03
PCT/DE1997/000554 WO1997038394A1 (de) 1996-04-03 1997-03-18 Verfahren zur automatischen auswertung einer auf einem dokument aufgebrachten adresse nach deren transformation in digitale daten

Publications (1)

Publication Number Publication Date
JP2000508100A true JP2000508100A (ja) 2000-06-27

Family

ID=7790414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9535727A Pending JP2000508100A (ja) 1996-04-03 1997-03-18 宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法

Country Status (3)

Country Link
EP (1) EP0891599A1 (ja)
JP (1) JP2000508100A (ja)
WO (1) WO1997038394A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004527042A (ja) 2001-03-30 2004-09-02 シーメンス、ディマティク、ポウスタル、オータメイシャン、エル、ピー 画像処理方法およびシステム
EP1843276A1 (en) * 2006-04-03 2007-10-10 Océ-Technologies B.V. Method for automated processing of hard copy text documents

Also Published As

Publication number Publication date
EP0891599A1 (de) 1999-01-20
WO1997038394A1 (de) 1997-10-16

Similar Documents

Publication Publication Date Title
US6291785B1 (en) Address reader, sorting machine such as a mail thing and character string recognition method
US7769778B2 (en) Systems and methods for validating an address
JP2734386B2 (ja) 文字列読み取り装置
US6950555B2 (en) Holistic-analytical recognition of handwritten text
US7251644B2 (en) Processing an electronic document for information extraction
US5917941A (en) Character segmentation technique with integrated word search for handwriting recognition
US20150161479A1 (en) Method and system address result arbitration
KR100323351B1 (ko) 주소인식방법 및 메일처리장치
Srihari et al. Interpretation of handwritten addresses in us mailstream
US20070147659A1 (en) Method for verifying an intended address by OCR percentage address matching
US9101961B2 (en) Word recognition apparatus, word recognition method, non-transitory computer readable medium storing word recognition program, and delivery item sorting apparatus
US20040117192A1 (en) System and method for reading addresses in more than one language
WO2009005492A1 (en) Systems and methods for validating an address
CN113642327A (zh) 一种标准知识库的构建方法及装置
JP2000508100A (ja) 宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法
US6556701B1 (en) Method of and apparatus for extracting dotted line, and storage medium thereof
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
JPH06124366A (ja) 住所読取装置
JP3602084B2 (ja) データベース管理装置
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JP2002183667A (ja) 文字認識装置及び記録媒体
JPH0484366A (ja) 文書種別判別装置
EP1496460A1 (en) Sorting apparatus and address information determination method
JP2007511842A (ja) スマートポーリングに対するシステム及び方法
CA2620180A1 (en) Method for retrieving text blocks in documents