JP2000508100A

JP2000508100A - 宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法

Info

Publication number: JP2000508100A
Application number: JP9535727A
Authority: JP
Inventors: ブロックハンス―ウルリッヒ; ブリュックナートーマス
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1996-04-03
Filing date: 1997-03-18
Publication date: 2000-06-27
Also published as: EP0891599A1; WO1997038394A1

Abstract

(57)【要約】宛先に含まれる文字ストリングを識別及び評価しこの宛先を受取人に配布するために、各受取人に対して一義的な宛先指定を有する記憶されたパターンと宛先の文字ストリングとを比較する。この宛先の文字ストリングと最も類似したパターンが選択される。これは、宛先とパターンとの間の類似性を定義する距離尺度を形成し、次いでこの距離尺度が所定の閾値を上回るか又は下回るかを調べることによって行われる。この距離尺度がこの所定の閾値を下回る場合、このパターンに割り当てられた受取人が送出される。

Description

【発明の詳細な説明】宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法例えば営業用手紙文書を分類し、次いで電子形式又は紙形式で伝送するか又は適切に格納することができるシステムが［１］から公知である。このために、このシステムは文書のレイアウトセグメンテーションのためのユニット、光学的テキスト読み取りのためのユニット、宛先（アドレス）識別のためのユニット及び内容分析及び分類のためのユニットを有している。文書のセグメンテーションのために、ボトムアップ及びトップダウン併用アプローチを利用する。このアプローチは個々のステップとして；・まとまりのある構成要素の識別、・テキストラインの識別、・文字セグメントの識別、・語セグメントの識別、・段落セグメントの識別を含む。光学的テキスト読み取りは３つの部分に分割される。すなわち、・辞書に基づく語の検証に組み合わされた文字識別、・文字からの分類による語の識別及び語に基づく識別である。宛先識別はユニフィケーションに基づく構文解析プログラム（パーザ）によって実施される。このユニフィケーションに基づく構文解析プログラムは、宛先属性文脈自由文法（eine attributierten kontextfreien Grammatik fuer Adresse n）によって動作する。宛先文法の方向性において、これに応じて正確に構文分析されたテキスト部分が宛先である。宛先の内容はこの文法の標識マッチング（ Merkmal Gleichung）を介して求められる。この方法は［２］に記述されている。内容分折及び分類には、テキストの自動インデクシングのための情報検索技術が利用される。詳しく言えば、これは以下のようなものである。すなわち、・語の形態素解析・不要語の除去・語の統計の作成・例えば、資料頻度の逆数（inverse Dokumenthauefigkeit）のような情報検索から周知の公式によるインデクス用語のウェイトの計算である。このようにして計算されたインデクス用語ウェイトを用いて、全てのカテゴリに対して、各カテゴリを特徴づける重要な語の３段階リストを求める。［１］に記述されているように、これらのリストは学習フェーズの後でさらに手動で改訂される。その後新しい営業用手紙の分類は、この手紙のインデクス用語を全てのカテゴリに対する重要な語のこのリストと比較することによって行われる。この手紙の中に含まれるインデクス用語のウェイトは、重要性に応じて定数によって乗算されて合計される。従って、この合計値をこの手紙の中のインデクス用語の個数で割ることによって、各クラス毎に蓋然性が得られる。正確な計算は［３］から得られる。内容分析の結果は、蓋然性に従ってソートされた仮説リストである。内容分析の実行時間は、手紙毎に最大７５個のインデクス用語がある場合にはＣＰＵ時間で０．５秒と２秒との間である。本発明の課題は、宛先識別及び宛先評価を改善する方法を提供することである。この場合、文書の宛先は既にデジタルデータで与えられており、このデジタルデータが後続処理される、ということを前提とする。上記課題は請求項１の特徴部分記載の構成によって解決される。本発明の改善実施形態は従属請求項から得られる。本発明の方法は、おおよその語の一致（近似的ストリングマッチング）の技術に基づく。このために、Bertossi et al.の［４］に記述された方法を利用する。この方法は語をパターンと比較し、この語における文字の取り違え、省略及び挿入の個数を計算する。大量のパターンｍからサーチすべき語ｗに最もよく相応するパターンが選択される。このために、２つの語に対する類似性尺度乃至は距離尺度ｄ，パターンｍ及び探索される語ｗが必要である。このためにはエラーの絶対的な個数は不適当である、というのも異なる長さのパターンが存在しうるからである。この問題について例に基づいて示す。例１パターンｍ１＝“ＡＵＴ”、探索される語ｗ１＝“ＡＢＴ”である。例２パターンｍ２＝“Ｍｅｄ．Ｔｅｃｈｎｉｋ”、探索される語ｗ２＝“ＭＣＤ，Ｔｅｃｆｎｉｋ”である。ただし、ここで“Ｍｅｄ．Ｔｅｃｈｎｉｋ”は例えばＭｅｄｉｚｉｎｉｓｃｈｅＴｅｃｈｎｉｋ（医用技術）の略語である。両方の例の場合、平均エラー率エラー個数／長さ（ｍ）は等しい。すなわち、第１の例では平均エラー率は１/３であり、第２の例では平均エラー率は４/１２、つまり１/３であり、従って距離は等しい。しかし、明らかにｗ１に対するｍ１の類似度よりもｗ２に対するｍ２の類似度の方がより高ように見える。パターンと比較される語との間の距離の計算を再構成問題として捉えれば、これに対する説明はつく。サーチされるパターンを語ｗから再構成乃至は再識別することが容易にできればできるほど、ｍとｗとの間の距離はより小さい。しかし、これは一般的にはたとえ多くのエラーを有していても比較的長い語の場合の方がより容易である。というのも、エラーを有する比較的長い語から正確な語を形成できる可能性はより少ないからである。このことから、文字の平均的再構成情報は語の長さによって減少すると結論される。文字の再構成情報は勿論計算可能な尺度ではない。それゆえ、本発明ではこのためのモデルとしてマルコフ（Markov）エントロピーＨ_M（Ｎ）を使用する。このマルコフエントロピーは、語の文字の平均的情報として定義され、語の長さＮに依存する。なるほどこのエントロピーはあらゆるＮに対して計算することはできない（例えば既にＮ＝１０の場合には、Ｋ個の文字を長さＮの語に分散するＫ¹⁰ 個の可能な組み合わせがある）。しかし、若干のＮに対して、［４］においてマルコフエントロピーの関数曲線を明らかに反映している値がある。これらの値による補間によって、マルコフエントロピーの推定Φ(Ｈ_M(Ｎ))が得られる。この推定は距離尺度ｄ_infを定義するのに使用できる。すなわち；ｄ_inf(ｍ，ｎ):＝ｅｗ・Φ(Ｈ_M(Ｎ))／Ｎである。ここで、ｅｗは探索される語ｗにおけるエラーの個数である。文書に記載された宛先を評価するための本発明のシステムを示す実施例に基づいて本発明をさらに説明する。図１は紙の文書に記載された宛先を識別し評価するシステムである。図２は宛先を評価するためのこのシステムのより正確な図面である。これらの図にはこのシステムのユニットが矩形によって図示され、これらユニットの活動の結果が円によって図示されている。紙の文書ＤｏｋはスキャナＳＣによってスキャンされ、画像データファイルＢＤが生成される。ヨーロッパ特許出願第０５１５７１４Ａ１号公報から公知の方法によって、宛先を含む画像部分がセグメント化される。レイアウトセグメンテーションが図１にＳＧで示されている。結果としてこの文書の宛先部分Ａ‐ＳＧだけが含まれる画像データファイルが得られる。宛先のこれらの画像データはＯＣＲによってＡＳＣＩＩデータに変換される。ＡＳＣＩＩデータの宛先は図１ではＡＤＲと示されている。通常このＡＳＣＩＩ宛先データファイルＡＤＲはまだエラーを含んでいる。このため、この宛先データファイルを記憶されたパターンと比較することによっては一義的な受取人指定はしばしば不可能である。図１には宛先識別がＡＤＲ-Ｅと示されており、パターンｍを有するデータファイルがＭＵと示されている。このデータファイルはパターンｍの他にこのパターンに割り当てられた受取人も含むことができ、両方がメモリに格納されている。宛先識別ＡＤＲ-Ｅはパターンｍとの比較の結果として各パターン毎に宛先仮説を送出する。この宛先仮説はＡＤＲ-Ｈと示されており、類似性に対する尺度を表す。宛先のロバスト性及びエラートレランスを有する分析を実現するために、この実施例では「おおよその語の一致」（近似的ストリングマッチング）の技術を使用する。このためにBertossi［４］によって記述された方法を使用する。この方法は、語をパターンと比較して、文字の取り違え、省略及び挿入の個数を計算する。図２ではこれをユニットＭＡで行う。このユニットＭＡにはＡＳＣＩＩコードの宛先及びパターンｍが供給される。メモリにはパターンｍが格納されており、しかも、あり得る各受取人毎に大量の一義的な受取人指定が格納されている。従って、ユニットＭＡでは、パターンｍ₁〜ｍ_nが宛先ＡＤＲと比較され、これによりｅｗが検出され、各パターン毎に仮説ＡＤＲ-Ｈが形成される。すなわち、各パターン毎に宛先の最も類似する語（仮説）が求められる。今度は宛先に最も含まれていそうなパターンを選択できるために、各々のパターン-仮説ペア毎に、２つの文字ストリングの類似度を求める上記の式によって距離尺度ｄ_infを計算する。これは距離計算部ＤＩＳＴで行われる。パターンの各々に対してこの距離計算が実施され、この計算結果から距離尺度ｄ_inf1〜ｄ_infnが計算され、最小値が計算され、ｄ_infminとして後続処理される。ｄ_infminが予め設定される閾値ＳＷよりも小さい場合、宛先識別の結果としてこのパターンに所属する宛先がデータベースＭＵから得られる。さもなければ、受取人についての言明は行われない。この経過は図２から得られ、この図２には個々のステップが示されている。１つのユニット（メモリ）にはパターン及びこれに相応する受取人が格納されている。個々のパターンに対する仮説はＡＤＲ-Ｈに含まれており、ユニットＤＩＳＴで各パターンを宛先と比較するための距離尺度計算が行われ、この結果個々の距離尺度ｄ_inf1〜ｄ_infnが算出され、これらの距離尺度ｄ_inf1〜ｄ_infnはＤＩＳＴに格納される。これらの距離尺度ｄ_inf1は最小値計算のためにユニットＭＩＮに供給され、このユニットＭＩＮは最小値ｄ_infminを算出し、閾値検査ＳＷを行う。ｄがこの閾値を上回っている場合、この閾値検査ＳＷは宛先を割り当て不可能として拒否する。これはｒｗで示されている。さもなければ、このパターンに相応する受取人ＡＤＲ-Ａが送出される。

【手続補正書】特許法第１８４条の８第１項【提出日】１９９８年３月２６日（１９９８．３．２６）【補正内容】明細書宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法［５］から個別文字識別システムと組み合わされた文脈依存後処理システムが公知である。１６０００個の所定のエントリの中から正しいエントリを求めるために、同一性比較（Identitaetsvergleich）及び３つの間隔関数が使用される。辞書へのアクセスは特殊なハッシュ関数を介して行われる。この特殊なハッシュ関数は語の前方半分又は後方半分を利用する。例えば営業用手紙文書を分類し、次いで電子形式又は紙形式で伝送するか又は適切に格納することができるシステムが［１］から公知である。このために、このシステムは文書のレイアウトセグメンテーションのためのユニット、光学的テキスト読み取りのためのユニット、宛先（アドレス）識別のためのユニット及び内容分析及び分類のためのユニットを有している。文書のセグメンテーションのために、ボトムアップ及びトップダウン併用アプローチを利用する。このアプローチは個々のステップとして；・まとまりのある構成要素の識別、・テキストラインの識別、・文字セグメントの識別、・語セグメントの識別、・段落セグメントの識別を含む。光学的テキスト読み取りは３つの部分に分割される。すなわち、・辞書に基づく語の検証に組み合わされた文字識別、・文字からの分類による語の識別及び語に基づく識別である。宛先識別はユニフィケーションに基づく構文解析プログラム（パーザ）によって実施される。このユニフィケーションに基づく構文解析プログラムは、宛先属性文脈自由文法（eine attributierten kontextfreien Grammatik fuer Adresse n)によって動作する。この宛先文法の方向性において、これに応じて正確に構文分析されたテキスト部分が宛先である。宛先の内容はこの文法の標識マッチング (Merkmal Gleichung)を介して求められる。この方法は［２］に記述されている。内容分析及び分類には、テキストの自動インデクシングのための情報検索技術が利用される。詳しく言えば、これは以下のようなものである。すなわち、・語の形態素解析・不要語の除去・語の統計の作成・例えば、資料頻度の逆数(inverse Dokumenthauefigkeit)のような情報検索から周知の公式によるインデクス用語のウェイトの訃算である。このようにして計算されたインデクス用語ウェイトを用いて、全てのカテゴリに対して、各カテゴリを特徴づける重要な語の３段階リストを求める。［１］に記述されているように、これらのリストは学習フェーズの後でさらに手動で改訂される。その後新しい営業用手紙の分類は、この手紙のインデクス用語を全てのカテゴリに対する重要な語のこの請求の範囲１．宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法において、ａ）メモリに各受取人に対して一義的な宛先指定をパターン（ｍ）として格納し、ｂ）該パターンを宛先の文字ストリングと比較し、前記パターンと前記宛先との間に存在する相違を距離尺度として算出し、ｃ）該距離尺度を算出するために、前記宛先と前記パターンとの相違を検出し、前記文字ストリングの長さ及び前記相違に基づいてマルコフエントロピーを介して前記距離尺度を算出し、ｄ）前記宛先の文字ストリングに最も類似したパターンを選択し、ｅ）前記距離尺度が所定の閾値を下回る場合に、選択された前記パターンに割り当てられた受取人のみを選択する、宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法。２．距離尺度の算出を次式ｄ_inf(ｍ，ｎ):＝ｅｗ・Φ(Ｈ_M(Ｎ))／Ｎによって行い、ここでｅｗは文字ストリングｗにおけるエラーの個数であり、Ｎは文字ストリングの長さであり、Φは補間によって求められた推定を表す、請求項１記載の方法。３．ａ）おおよその語の一致の方法に従って格納されたパターンと宛先とを比較し、ｂ）このようにして、各パターンに対して前記宛先と前記パターンとの間の相違の個数を含む仮説を形成し、ｃ）該仮説から各パターンに対する距離尺度を算出し、ｄ）該距離尺度から最小値を求め、ｅ）前記距離尺度の最小値を閾値と比較し、該閾値を上回っていた場合には前記宛先を拒否し、さもなければデータベースから前記パターンに割り当てられた受取人を送出する、請求項２記載の方法。

Claims

【特許請求の範囲】１．宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法において、メモリに各受取人に対して一義的な宛先指定をパターン（ｍ）として格納し、該パターンを宛先の文字ストリングと比較し、前記パターンと前記宛先との間に存在する相違を距離尺度として算出し、前記宛先の文字ストリングに最も類似したパターンを選択し、前記距離尺度が所定の閾値を下回る場合に、選択された前記パターンに割り当てられた受取人のみを選択する、宛先をデジタルデータに変換した後で文書に記載されたこの宛先を自動的に評価するための方法。２．距離尺度を算出するために、宛先とパターンとの間の相違を検出し、文字ストリングの長さ及び前記相違に基づいてマルコフエントロピーを介して前記距離尺度を求める、請求項１記載の方法。３．距離尺度の算出を次式ｄ_inf(ｍ，ｎ):＝ｅｗ・Φ(Ｈ_M(Ｎ))／Ｎによって行い、ここでｅｗは文字ストリングｗにおけるエラーの個数であり、Ｎは文字ストリングの長さであり、Φは補間によって求められた推定を表す、請求項２記載の方法。４．おおよその語の一致の方法に従って宛先を格納されたパターンと比較し、このようにして各パターンに対して宛先とパターンとの間の相違の個数を含む仮説を形成し、該仮説から各パターンに対する距離尺度を算出し、該距離尺度から最小値を求め、前記距離尺度の最小値を閾値と比較し、該閾値を上回っていた場合には前記宛先を拒否し、さもなければデータベースから前記パターンに割り当てられた受取人を送出する、請求項３記載の方法。