JP4782346B2

JP4782346B2 - 電子ドキュメントを処理する方法および装置

Info

Publication number: JP4782346B2
Application number: JP2001562361A
Authority: JP
Inventors: ゲールケ、アレクサンダー; ラバルト、マティアス; ルーヤン、パル
Original assignee: エスイーアール・システムズ・アーゲー
Priority date: 2000-02-23
Filing date: 2001-02-02
Publication date: 2011-09-28
Anticipated expiration: 2021-02-02
Also published as: AU2007202382A1; AU2001233736A1; DE60005293T2; EP1128278A1; US20080040660A1; EP1128278B1; CA2401172A1; EP1259903A1; AU2009208162A1; DE60005293D1; JP2003524258A; AU2007202382B2; CA2401172C; WO2001063467A1; ES2208164T3

Description

【０００１】
【発明の属する技術分野】
本発明は、電子ドキュメントを処理する方法および装置に関し、特に電子テキストドキュメントから特定要素を抽出するものに関する。
【０００２】
【従来の技術】
近頃、大企業や行政官庁等の事業主体で処理される莫大な量のドキュメントに対処するための電子ドキュメント処理(electronic document processing: EDP)がより重要となっている。書面をスキャン処理し、これを電子的な形式に変換する光学式文字認識（optical character recognition: OCR）処理した結果のドキュメントを、電子的な形態で保有することは今日、一般的に行われている。
【０００３】
そのようなドキュメントを大量に処理しなければならない場合、例えば、規則的な態様で格納されている特定のデータを例えばデータベースに格納する場合に、誕生日、生誕地等といった特定の情報部分（ドキュメントの要素）を電子ドキュメントから自動的な方法で抽出できることが望ましい。もし、例えばある企業が大量の履歴書を自動処理したい場合、電子ドキュメントから自動的な方法でこれらのデータを抽出できることが望まれる。例えばＥＲＰシステムの会計情報の抽出など、他の用途についても、テキストドキュメントからのデータ抽出が望まれる。特定のテキスト情報もしくはテキスト要素、または特定の数あるいは数情報をテキストドキュメントから抽出することが望まれており、これを目的とする多くの出願があるものと想像される。テキストドキュメントは、例えば、抽出すべき特定の情報分類に属していることから抽出すべきであるとする特定の関心データを含むドキュメントであるということができる。
【０００４】
電子的なテキストドキュメントから特定のデータを抽出する従来の抽出システムは、所望のデータが位置付けされていることを前提に、ドキュメント中の固定位置を検索するよう動作する。
【０００５】
この種の検索アルゴリズムはあまり上手く機能しない。何故なら、所望のデータがいつも同じ場所に位置付けられる所定フォーマットを有するドキュメントに、高く依存しているからである。
【０００６】
そこで本発明は、テキストドキュメントから特定のデータ部分を抽出する従来方法の改善を目的とする。
【０００７】
一観点に係る本発明は、テキストドキュメントの要素を表し、分類装置への入力として用いることのできるレイアウトドキュメントを生成する方法および装置を提供する。この観点に係る本発明により生成されたレイアウトドキュメントは特定の形式を有しており、分類装置は、レイアウトドキュメントにより表されたテキスト要素についての分類を改善できる。したがって、テキストドキュメントからの特定テキスト要素の抽出を改善可能になる。
【０００８】
本発明の一観点によれば、レイアウトドキュメントは、電子テキストドキュメントの要素に基づいて生成される。該レイアウトは、それぞれの対応する位置の表現と前記ドキュメント要素の表現とを組にして保持している。そのようなレイアウトドキュメントを生成することにより、ドキュメント要素をその幾何学的コンテキスト（その近傍／周囲の）要素とともに評価することが可能になり、したがって、そのフォーマットまたは要素自身のコンテキストのみならず、該要素が特定のカテゴリに属するか否かを評価するための他の情報をも利用することが可能になる。また、要素またはそのフォーマット自身を考慮するのみならず、むしろ、その周囲領域、該周囲領域に含まれるそれぞれの要素をも考慮することにより、分類装置は、テキストドキュメントが特定のカテゴリに属するか否かについての更なる手がかり（hint）を受け取る。これら更なる手がかりは、周囲領域およびこれに含まれるテキスト要素から与えられ、ニューロンネットワークのような分類装置により認識または学習される。これにより訓練されたニューロンネットワークは、分類を改善できるとともにテキストドキュメント要素の抽出を改善できる。
【０００９】
本発明のさらなる観点によれば、特定カテゴリに属する複数要素についてのレイアウトが生成され、この生成されたレイアウトは、当該カテゴリの要素を認識できるよう分類装置を訓練するために用いられる。分類装置は好ましくはニューロンネットワークであり、複数要素について生成されたレイアウトにより訓練され、該レイアウトが生成された要素について、この要素が特定カテゴリに属するか否かを訓練段階において装置に入力することにより訓練される。そのようにして訓練されたニューロンネットワークもしくは分類装置は、さらに、未知テキスト要素を分類し、未知テキストからの要素抽出をするために利用できるようになる。
【００１０】
本発明のさらに別の観点によれば、訓練された分類装置は、未知要素が特定カテゴリに属するか否かを、この要素について生成されたレイアウトドキュメントに基づいて評価し、特定カテゴリに属するドキュメントから要素を抽出するために用いられる。
【００１１】
本発明のさらに別の観点では、抽出されたデータが属するはずのカテゴリにたぶん属しており、特定の検索基準に従う候補を特定する。検索基準は、好ましくは、要素のフォーマット、語検索基準、耐障害語検索基準、もしくはこれら基準の組み合わせとすることができる。これら候補の各々について、電子ドキュメント中の候補それ自身とその位置に基づき、および、前記ドキュメント中における他の電子ドキュメント要素とその位置に基づいてレイアウトドキュメントを生成してもよい。好ましくは候補の隣または周囲に、一つ以上の事前定義領域内で位置するレイアウトドキュメントを生成する場合に、これら要素は考慮されることが好ましい。
【００１２】
このようなレイアウトドキュメントに基づき、候補が所望のカテゴリに実際に属するか否かの判断がなされる。
【００１３】
本発明の好ましい実施例によれば、前記候補が所望カテゴリに属するかについての判定は、分類装置を用いてなされる。かかる分類装置は、好ましくはニューロンネットワークである。このニューロンネットワークは、候補のレイアウトドキュメントを用い、さらに、該ニューロンネットワークに対しこれら候補が所望カテゴリに属するか否かを入力として与えることにより訓練されたものとしてよい。
【００１４】
本発明のさらに好ましい実施例によると、候補が所望カテゴリに属するか否かの判定は、１９９９年４月２８日提出、本出願の優先権主張に係る欧州特許出願第99108354.4号（引用によりここに取り込まれる）に記載の方法または装置を用いてなされる。
【００１５】
【発明の実施の形態】
本発明は、図１に示されるようなコンピュータシステムによって、実行することができる。
【００１６】
図１は、本発明の好ましい実施形態に関連して使用されるコンピュータシステムの構成を概略的に示している。コンピュータ１００は、ＣＰＵ１１０、メモリ１２０、および、Ｉ／Ｏユニット１３０を含んでいる。コンピュータ１００は、ＣＰＵ１１０がメモリ１２０からフェッチしたコンピュータの指示をＣＰＵ１１０を介して遂行することによって、プログラムを実行することが可能である。その指示は、ＣＤ−ＲＯＭまたはフロッピー（登録商標）ディスクのような記憶装置１５０に格納されている。Ｉ／Ｏユニット１３０は、ユーザがコンピュータにデータを入力することが可能になるように、キーボード１６０およびマウス１７０に接続している。さらに、Ｉ／Ｏユニット１３０は、ハードコピーとしてドキュメントを出力するために、プリンター１８０に接続している。コンピュータ１００は、さらに、モニターのようなディスプレーユニット１４０に接続している。図１に示されたコンピュータの構成は、典型的な構成のみであると解されるべきである。また、並行処理コンピュータ、ハードウェアを提供しているニューロンネットワークコンピュータ、または、後に説明される方法を遂行することが可能な他の任意のコンピュータシステムのような他のコンピュータ構成が、本発明に関連して使用されることが可能である。
【００１７】
本発明は、以下、図２に示されるように履歴書（Curriculum Vitae）から誕生日（Date of Birth）を取り出すことに関連して説明される。履歴書から誕生日を取り出すことに関連する本発明の記述が、典型的な目的のためのみに対して意図されたものであることは、熟練者によって直ちに理解されるであろう。また、下に記述されるような同様な方法と装置が、たとえば、口座フォームシートから口座番号を取り出す、商品明細書から価格を取り出す、工場での在庫量を示す値を対応するシートから取り出す等のように、情報のある部分から取り出された他の任意のテキストドキュメントに適用されることが可能であることも熟練者によって直ちに理解されるであろう。
【００１８】
履歴書は、コンピュータ、または、電子形式でデータキャリア上に格納されている。履歴書は、ワードプロセッサを使用して編集した結果であってもよいし、または、その電子ドキュメントが、スキャニング工程に続く光学式文字認識工程の結果であってもよい。履歴書の代わりに、特定の意味を有する要素またはあるカテゴリに属する要素が取り出される任意のドキュメントが使用されてもよい。
【００１９】
最初に、電子ドキュメントは、電子ドキュメントを構成している個々の要素を得るために解析される。ここで、「要素」とは、ブランク、タブレーター、強調線のようなデリミタによって、または、１つの要素を他の要素から区切るものとして解釈される任意の他のデータ要素によって、他の要素から分離される文字の任意のシーケンスを意味する。テキストを個々の要素に分離する最も単純な方法は、テキスト部分を、互いが任意の空白（ブランク）によって分離されている要素と同一視することである。しかしながら、解析の目的によっては、さらなる判定基準が考慮される場合がある。たとえば、上述した強調線、ハイフン、キャリッジリターン、または、１つの要素を他の要素から分離しているものとして見なされる電子ドキュメントの他の要素が考慮される。個々の要素を同一視する場合に考慮するべき他の判定基準は、個々の文字間の幾何学的な距離である。たとえば、２つの文字間の距離が値を超えると２つの文字は異なる要素であると解釈される閾値が定義される。この例では、ある要素は、任意の単一文字、または、ブランクによって他の「要素」から分離された文字のシーケンスであるとしている。
【００２０】
図２に示されたテキストドキュメントのこの例では、熟練者には直ちに明らかになるように、最初の２つの要素が「curriculum」と「vitae」であり、他の要素は「Tel:」、「Fax:」等である。これらの要素は、たとえばブランクを単に探すパーサー（parser）によって識別される。
【００２１】
要素自身を得るだけでなく、ドキュメントでのそれらの対応する位置を得ることがある。たとえば、各要素がドキュメント中に位置している場所であるＸ座標とＹ座標を計算することによって対応する位置を得る。その位置は、レイアウトドキュメントを生成するために後に使用される。
【００２２】
電子テキストドキュメントの個々の要素を識別した後に、これらの要素がいわゆる「ワーキングドキュメント」に格納される。ワーキングドキュメントでは、識別された各要素が、電子ドキュメントでの各要素の位置に関する情報とともに格納される。たとえば、要素「curriculum」は、電子ドキュメントでのその要素の位置を識別するそのＸ座標とＹ座標とともに格納される。ワーキングドキュメントは、要素に対応する位置とともに識別されている全ての要素を格納するための便利なツールであるので、後に詳細に説明されるレイアウトドキュメントの生成にとって、レファレンスがワーキングドキュメントにつくられる。任意のテキストドキュメントから生成されるワーキングドキュメントの一例が、図３に示されている。タグ１、タグ２等のタグは、対応する要素の位置情報を含んでいる。この情報は、任意の形式で表現されてもよい。たとえば、直接的にタグ内の要素のＸ、Ｙ座標を格納することによって表現される。図３内の要素は、たとえば、テキストドキュメントで識別された個々の単語、または、要素として以前に説明された方法を介して識別された任意の他の文字シーケンスであってもよい。そして、そのタグは、Ｘ、Ｙ座標に関してそれらの要素が位置する場所というようにそれらの要素の位置についての情報を含んでいる。タグもまた、それらのフォント、それらに下線が引かれているか否か、または、任意の同様な情報といった要素のスタイルの指示をさらに具備していてもよい。たとえば、対応するタグが、要素がボールドフェイス文字でありことを表現する文字シーケンス「bf」を具備しているあるボールドフェイスの要素にとって、もう１つの文字シーケンスは要素に下線が引かれていること、またはそのようなことを表現していてもよい。
【００２３】
ある要素の位置は、たとえば、その個々のピクセル値にもとづいて計算された要素の重心を示していてもよいし、要素の位置を示す任意の他の幾何学的情報を示していてもよい。たとえば、あるボックスは、要素に囲まれて構成されていて、ワーキングドキュメント内の対応するタグを介してテキスト中の要素位置を示す場合は、ボックスの最大と最小のＸ座標間の平均が、要素位置のＸ座標とされてもよいし、さらに、ボックスの最大と最小のＹ座標の平均が、要素のＹ座標として使用されてもよい。
【００２４】
ワーキングドキュメントは、タグの各位置と、場合によっては、各要素の各フォント、それらのスタイル、それらにアンダーラインが引かれているか否か等のような上述したさらなる情報を示すタグとともに、識別された要素のリストを含んでいる。
【００２５】
このように、対応する位置と場合によっては他の情報とともに電子的なテキストドキュメントの個々の要素のリストを含んで、ワーキングドキュメントは生成される。さらに、電子ドキュメントに含まれている水平線、垂直線またはグリッドのようなテキストでない要素がワーキングドキュメントに取り込まれていてもよい。そしてそれらのテキストでない要素も、符号化スキームにしたがって、それらの位置とそれらの形（水平、垂直、線、グリッド、またはそれに類するもの）ワーキングドキュメントに格納されている。たとえば、水平線は文字シーケンスAAAAによって、垂直線は文字シーケンスBBBBによってワーキングドキュメント内で示されていてもよい。そしてそれぞれの文字シーケンスの後に、線の位置を示すタグが続いている。
【００２６】
このように作成されたワーキングドキュメントは、抽出された要素になりうる識別候補要素群に用いることができる。そのために、ワーキングドキュメント（あるいは、おそらくワーキングドキュメントが生成されることによる”ソースドキュメント”）は、例えばフォーマットの基準といった特定の検索基準を満たしている識別候補要素を識別するためにパースされる（parsed）。この段階では、すべての要素の候補は、所望の抽出された要素の可能性のある候補を見つけだすために解析される。
【００２７】
望ましくは、個々の要素が検索されるだけではなく、個々の要素をスペースで区切る方法で複数の要素の組み合わせが検索される。例えば、８桁の番号を用いるために推定されるバンキングアカウントナンバーの検索の場合には、”99999999”か”999999 99”か、”9 9 9 9 9 9 9 9”か、またはそのほかの組み合わせが８桁の番号で代行できる。そのようなバンキングアカウントナンバーの検索は、その目的のために例えば８桁の数字の検索によって実行される。抽出されるべき要素の情報の内容によって、別のフォーマットを検索基準として用いることができる。実行できる検索基準は、規則的な表示（特定フォーマット、文字列、数字列（a sequence of numbers）、また場合によっては、リクエストされる特定の桁総数（a certain total number of digits）であり、これらを検索するフォーマット検索のようなもの）を検索することであるか、あるいはこれに類似したものである。別の検索基準は、類似の（comparison）文字列を実行することによるシンプルな予め定義された要素が実行される検索である。例えば、ワード”birth”と、検索基準が候補として表示されるであろう時の条件を満たしている各要素と、について行う検索である。
【００２８】
別の可能な検索基準は、いわゆる指定検索（designator）と呼ばれるものである。指定検索とは、要素が、特定の位置（左・右・上・下）での候補について、別の検索基準によって見つけだされ、検索される。例えば、検索基準がワード”birth”を検索するときには、指定検索は要素”birth”の右に位置する要素を実行する。そしてこのような場合には、生じた候補は要素”birth”の右に位置する要素である。図２の例では、そのような指定検索要素”May 5, 1960”が候補として表示される。
【００２９】
別の検索基準は、データベースに存在するすべての要素の検索を実行するものである。
【００３０】
望ましくは候補の検索は、視覚的な文字認識の典型的なエラーを無視するために、邪魔な接頭辞／接尾辞が無視できるフォールト・トレラントである。あるいは、”,”や”.”のような要素を無視できることである。例えば、図２の場合では、フォールト・トレラント検索のようなものによって、ワード”birth”のワード検索を実行する。例えば、ワイルドカードを用いることによって行う。検索は、要素”birth:”が候補として表示されるために、要素”birth”を実行する。指定検索によって、要素”birth”の右に位置する現在の日付が候補として抽出される。
【００３１】
候補検索が実行される方法によって、さらに多くの、またはさらに少ない抽出された要素の候補が識別される。
【００３２】
他の検索方法は、例えば、三連文字（trigram）検索を含むものであり、三連文字検索とは、３つの文字を組み合わせて検索を行うものである。これはまた、フォールト・トレラント検索であり、例えば、候補にスペルミスが発生した際に、三連文字検索は、それにもかかわらず候補を得る。というのは、正しい三連文字として識別された候補にはいくつかの文字列が含まれているからである。別のフォールト・トレラント検索方法は、レーベンシュタイン・ディスタンス（Levenshtein distance）を用いる。レーベンシュタイン・ディスタンスは、１つの文字列から別の文字列へ変化するキーボード上の必要なキー入力の数の表示である。レーベンシュタイン・ディスタンスに基づいたフォールト・トレラント検索が実行される。
【００３３】
望ましくは、候補検索は、検索基準を用いて合致する要素のワーキングドキュメントの検索によって実行される。それによって、要素のドキュメントの解析は、すでに実行され用いられている。原則として、一方で、候補の検索は、テキストドキュメント上で直接実行することもできる。
【００３４】
検索は、直接的に検索のための情報を含んでいる可能性のある候補要素を得る。それは、しかるべく適合されるべき検索基準を検索する情報に基づいて容易に明らかである。一方、アカウント番号（number）を検索したときに、望ましくは、フォーマット基準が用いられ、フォーマット基準は、場合によっては既知のアカウントナンバーのナンバーフォーマットが利用される。place of birthを検索した際に、文字列検索は、さらに見込みがあり、その結果、数字（number）を検索する。特別な検索された情報の断片のための検索基準（フォーマット検索、ワード検索、データベース検索、指定検索等、あるいは、それらの組み合わせ）の適合は、特別な状況（circumstance）に続いて熟練者（skilled person）によって選ばれる。
【００３５】
見つけだされた候補に、訓練手順（training procedure）において、後述する分類装置が用いされるときには、望ましくは、見つけだされた候補が何らかの形で、ユーザに対して示されたり表示されたりすることによって、見つけだされた候補が検索した情報に適合するかどうかをユーザが確認できる。それによって、分類装置は後で説明されるように訓練される。候補を表示することは、例えば、検索されたテキストドキュメント内の主要部分によって行われる。そして、ユーザが確認することができるか、または例えば、マウスクリックによって表示された候補を捨てることができる。
【００３６】
フォーマット検索またはフォールト・トレラント検索は、抽出された要素を提供する。候補検索の結果は、すでに正確さの点では、全く良く、そのため、検索された要素の特有の性質に基づいており、それらのフォーマットまたは、それらの現在の情報の内容のようなものである。以下に説明されるように、候補は、一方で、さらに候補以外のアカウント要素を取り入れることにより、特定のカテゴリに属しているか否かについて、さらに判断される。
【００３７】
候補のそれぞれについて、いわゆるレイアウトドキュメントが作成される。このレイアウトドキュメントは、電子ドキュメントにおける候補とその位置の表示のみならず、前記候補要素の周囲の他の要素とその位置の表示をも含んでいる。したがって、レイアウトドキュメントは、電子ドキュメント自身における候補とその位置を電子表示したものである。同様に、電子ドキュメントにおける他の要素とその対応する位置を電子表示したものでもある。好ましくは、ある候補のために生成されたレイアウトドキュメントは、前記候補の周囲の一定領域のために生成される。この領域（あるいは対応する複数の領域）は、予め定義しておくことができる。あるいは、ユーザ定義によってもなされうる。
【００３８】
図４は、ユーザインターフェイスを介してなされる周囲領域の定義例を示している。図４は、前記候補を囲んでいる合計４つのボックスが、ユーザによってどのように定義されるのかを示している。第１のボックスは候補の全方向を取り囲んでいる。第２のボックスは、候補の左近傍側を表している。第３のボックスは、候補の右近傍側を表している。第４のボックスは、候補の上近傍側を表している。オプションとして、候補の下近傍側の位置を表す追加ボックスも使われうる。ユーザは、インチ毎のサイズを表す値を、あるいはピクセル、ミリのような他の単位を入力することによって、ボックスのサイズを指定することができる。各ボックスのサイズについては、図４にその例を示すとおり、ユーザにより設定することができる。あるいは、予め定義しておくようにしてもよい。レイアウトドキュメントを生成するための領域は、ユーザが、自分が抽出したい要素の具体的カテゴリに基づいて定義することができる。
【００３９】
レイアウトドキュメントを生成するために、レイアウトドキュメントの領域を定義しているボックスの中に分類された電子ドキュメントの位置に関連した全ての要素は、レイアウトドキュメントを生成するために考慮される。そのために、作業ドキュメントに対してリファレンスを作成することができる。この作業ドキュメントでは、全ての要素が対応する位置とともに格納されている。
【００４０】
以下では、候補要素を取得するプロセスが、候補として、図２のドキュメントにおける要素である「May 5, 1960」を返してきたものと仮定する。この候補は、例えば、連続した３要素の組み合わせを検索するフォーマット検索の結果である。ここで３要素のうち２つは、整数（日と年を示す）であり、残りの１つは数、または月を表す文字とする。この検索結果は、３要素を連続して組み合わせたものとなる。また、候補としてMay 6, 1960を検索することができる他の検索基準を考慮することも可能である。このような他の検索基準としては、たとえば、指定検索がある。この指定検索では、要素「birth」の隣にある３要素を検索する。こうすることによっても、May 6, 1960を候補として出力するという結果を得る。規則的表現を対象とした他の検索を行うことによっても、May 6,1960を候補として得ることができる場合がある。たとえば、３要素を含んでおり、うち２要素は数字であり、３番目の要素は文字または数字であり、数字のうちの１つは１から３１までの範囲内にあるというような規則的表現である。「date」である情報の一部を検索することによって候補を導くことができる検索基準について多くの定義が可能であることは、当業者にとっては明らかなことである。
【００４１】
1つ以上の候補が、上述したような検索処理によって取得されている。おのおのの候補に対しては、第１の周囲領域と同様にして候補を表示したレイアウトドキュメントが生成される。レイアウトドキュメントを生成するために、レイアウトドキュメントの生成のために使用される領域内にある要素が、先ず識別される。次にこれら要素に基づいてレイアウトドキュメントが生成される。レイアウトドキュメントは、要素と同様候補の表示を含んでいる。ここで、要素は、対応する位置とともに、領域に存在している。
【００４２】
図５は、図２のテキストドキュメントに対するレイアウト領域の一例を示している。ここで候補は「May 5, 1960」であり、図５の波線は、候補を囲んでいるレイアウト領域を定義している。この領域を分類している図２および図５のドキュメントの全要素は、ぞれぞれレイアウトドキュメントを生成するために用いられる。図５に示された領域は、図４のうちの何れか１つのようなインタフェースを用いているユーザ定義の結果得られるものである。あるいは、予め定義しておくことも可能である。
【００４３】
図５の例で示された候補「May 5, 1960」と、対応するレイアウトデータについて生成されたレイアウトデータの一例を図６に示す。レイアウトドキュメントの第１行目は、要素「May 5, 1960」自身に対応している。これは、レイアウトドキュメントにおいて、文字列「DDMMYY」で表されている。というのも、本実施形態における特別な実行に従うと、そのフォーマットは「date」に対応するからである。しかしながら、フォーマット「date」の表示、すなわち「DDMMYY」のように認識可能なフォーマットが、レイアウトドキュメント中において、前記フォーマットの対応する表示によって置き換えられることは、認識可能な要素であるレイアウトドキュメントを生成するような好ましいオプションの場合を除いては不要である。文字列「DDMMYY」の右側の文字列は、電子ドキュメントにおける要素の位置を示している。これについては、後で詳細に説明する。
【００４４】
図６に示されたレイアウトドキュメントにおける第１行目は、すなわち、候補要素である「May 5, 1960」に対応している。図２に示された電子ドキュメントにおける候補の位置とそのサイズは、文字列「MXMYWLHM」によって表現される。これについてもまた、後に説明する。
【００４５】
文字列「MXMYWLHM」を通じて、レイアウト右ドキュメントに表示された電子ドキュメントにおける候補要素の位置を更に説明するために、参照が図７に対してなされている。図７は、いわゆる候補ボックスを示している。候補ボックスとは、候補要素が並んでいる長方形のことを意味する。候補要素のサイズ（例えば、フォント）に対応して、候補ボックスのサイズが変更される。そして、図７の右手側に概要例示したようなボックスサイズに対するコー化処理を行うことによって、レイアウトドキュメント内に表示することができる。符号化処理に基づき、ボックスサイズが「WLHM」として符号化される。「WLHM」とは、図７に示しているように、「長い幅」（ＷＬ）と、「中位の高さ」（ＨＭ）とからなる候補ボックスであることを意味している。この符号化シーケンスは、次に、図６のレイアウトドキュメントの第１行目に記載されている最後の４文字であるＷＬＨＭへと移る。実際の値がどの符号化シーケンスによって符号化され表示されているか、言い換えると、具体的にどの値が「小」として符号化され表示されており、どの値が特別な処理に基づき当業者によって選択された「大」として符号化され表示されているかは容易に理解される。
【００４６】
したがって、図６に示すレイアウトドキュメントの第１行目を見て分かるように、ドキュメント中における候補ボックスの位置（候補自身の位置を表している）のみならず、候補ボックスのサイズ（候補のサイズを表している）もまた符号化処理される。なお、符号化処理については、後に説明する。対応する符号化シーケンスを行った候補ボックスのサイズの表示は、図７の右手側の底部に図式的になされる。Ｘ方向に対して、小さな候補をもつ候補ボックスは「ＷＳ」（幅小）と符号化される。一方、中位のサイズの候補ボックスは「ＷＭ」（幅中）、Ｘ方向に長く延びた候補ボックスは「ＷＬ」（幅長）、Ｘ方向に更に長く延びた候補ボックスは「ＷＸ」（幅極長）として符号化される。同様に、どの値が、どの符号化処理に割り当てられるかは、当業者が選択する事柄である。
【００４７】
幅の場合と同様に、候補者ボックスの高さについても、「HS」、「HN」、「HL」、および「HX」のうちの何れかのシーケンスに符号化される。図５に示すように、候補が「May 5,1960」である場合、候補ボックスは、「WLHM」として符号化される。この「WLHM」は、Ｘ方向に対して長い幅、Ｙ方向に対して中位の高さであることを意味している。
【００４８】
Ｘ方向およびＹ方向における候補の位置は、図７の左手側に図式的に説明したように符号化される。その目的のために、図２に示されるドキュメントの一定の領域に、図７の左手側に示されるような一定のコード処理が割り当てられる。候補ボックスが配置されている領域に基づいて、候補ボックスのＸ位置は、「ＬＬ」、「ＭＸ」、「ＲＲ」のうちに何れかに、Ｙ位置は、「ＴＴ」、「ＭＹ」、「ＢＢ」のうちの何れかにそれぞれ符号化される。
【００４９】
図５のこのケースは、May 5, 1960の候補についてのものであり、Ｘ方向の位置に関する候補ボックスは中間にある。このことは、ドキュメントの右手およびドキュメントの左手よりさほど遠くなく、むしろ、Ｘ方向に関してドキュメントの中央に存在することを意味している。この様なロケーションは、文字シーケンス（character sequence）“ＭＸ”によって符号化され、図７の左部分から見ることができる。候補ボックスのＹ方向の位置は、文字シーケンス“ＭＹ”によって符号化される。なぜなら、候補ボックスは、Ｙ方向の位置に関して、相対的に上記ドキュメントの中央にあるからである。レイアウトの第１行に示されるように、符号化された位置“ＭＸＭＹ”から、ドキュメントを候補ボックスより引き出すことができる。候補者の書式表現の表現を結合すれば、候補ボックスの位置および候補ボックスのサイズは、結果図６の第１行に示された文字シーケンスになる。
【００５０】
図７に示す候補ボックスに対する符号化は模範的なだけであり、他の符号、位置と符号との他の割り当て、ドキュメントの対応する分野への他の分離も当然使用することができるのは、理解されるべきである。候補ボックスのサイズや位置の粒子化は、特別な実行例に依存する図７の場合よりも、さらに細かいものであってもよいし、さらに粗いものであってもよい。このこのとは、技術を有する者によれば、容易に理解されるであろう。
【００５１】
同様に、ここで使用された符号化シーケンスは単に任意のものである。ここでは、“ＬＬ”は単に“まさしく左へ”を意味し、“ＭＸ”は“むしろＸ方向の中央へ”を意味し、“ＲＲ”は“（Ｘ方向の）ドキュメントのまさしく右側で”を意味する。同様に、“ＴＴ”は“まさしく上部に”を意味し、“ＭＹ”は“むしろ中央に”を意味し、“ＢＢ”は“Ｙ方向に関してドキュメントのまさに下部に”を意味する。しかしながら、他の符号化シーケンスは、技術を有する者によって認識されうるものと同様に、利用することができる。また、ＤＤＭＭＹＹの代わりに、認識された“ｄａｔｅ”の書式を表現するために、他の文字シーケンスを使用することがでる。
【００５２】
既述の候補ボックスの符号化を終えた後、他の要素、すなわち図５に関して説明されたレイアウトドキュメントの領域にはめ込まれる他の要素もまた符号化され、レイアウトドキュメント内に組み込まれる。
【００５３】
図６に示したレイアウトドキュメントは、ダッシュ線によって図５において示された領域に基づいて生成されている。これまで既に説明したように、周囲の領域は、より小さな領域に相違して設定することができる。周囲の領域は、ユーザの好みや、使用されるコンピュータによって処理され得る計算仕事量に依存しており、また当然により広く設定してもよい。したがって、ここで使用されているレイアウトは、模範的な例に過ぎないと理解されるべきである。また、他の定義も同様に使用することができる。当然ながら、より広く当該領域を使用すれば、より多くの情報が、当該領域から生成されたレイアウトドキュメントの中に包含される。したがって、増加された領域によって、レイアウトドキュメントのさらなる評価を、より正確にすることが可能である。しかしながら、このことは、特定の実行と特定の目的に依存する可能性があり、また、狭いレイアウト領域によって、同様に良い結果が得られる可能性もある。
【００５４】
図６のレイアウトドキュメントの第２行は、レイアウト領域に入っており図５に示されたファックス番号０７０２９８１２５の表現である。本実施形態の特定の実施にしたがって、レイアウト領域に入っている二つの要素０７０２９および８１２５は整数から成るから、これら二つの要素は、レイアウトドキュメントにおいて、整数表現に対して割り当てられた符号化シーケンス、すなわちＩＩＱＱによって表現されていることがわかる。
【００５５】
図６に示すレイアウトドキュメントの第２行、第３行は、それぞれ領域符号０７０２９とナンバー８１２５とを表している。そして、整数を表す符号化シーケンスＩＩＱＱは、候補要素に関する図２のテキストドキュメントにおいて、当該整数の相対的な位置を表す符号化シーケンスにそれぞれ従う。
【００５６】
相対的な位置を符号化するために、あらゆる符号化スキームを使用することができる。ここで使用する特定の符号化は、図８において概略的に例示されている。符号化を目的として、Ｘ方向またはＹ方向の相対的な位置に対応した距離の離散的な範囲を、対応する符号化シーケンスに割り当てる。例えば、近くに対して“ＮＲ”を、遠くに対して“ＦＦ”を、水平方向について等しい位置にあるものについては“ＨＥＥ”を、垂直方向について等しい位置にあるものについては“ＶＦＦ”を、等々といった具合に割り当てる。この特定の符号化スキームは、図８に例示されている。しかし、このスキームが単なる例であり、非常に簡単に改良できることは理解し得るであろう。例えば、符号化スキームが異なってもよく、離散的範囲への分配が異なってよく、範囲の数が異なってもよい等々である。
【００５７】
図６に関連する図８より、図６のレイアウトドキュメントの第２行目は、領域符号０７０２９が、候補ボックスの左（ＬＮＲ）と上（ＡＮＲ）とに近いという事実に基づいたものである。この領域符号０７０２９は、整数符号ＩＩＱＱに添えられ図６の第２行目に示された、符号化シーケンスＬＮＲＡＮＲの位置に至っている。
【００５８】
ナンバー８１２５は、候補と横に等しく、候補のほぼ上であるから、これより図６３行目のＩＩＱＱＨＥＥＡＮＲと結論される。
【００５９】
レイアウト領域に入る残りの３つの要素“ｄａｔｅ”、“ｏｆ”、“ｂｉｒｔｈ”は、図８に関連して簡単に理解されるであろう対応位置の符号化シーケンスと共に、図６のレイアウトドキュメントの最後３行において表されている。全ての要素は、候補と縦に等しく（ＶＥＥ）、候補から別々の水平方向距離にある。
【００６０】
相対位置の符号化代わりに、レイアウト領域内の要素の絶対位置もまた、レイアウトドキュメントの生成に使用することができることは、容易に明らかであろう。
【００６１】
さらに、レイアウトドキュメントを生成する場合、例えば要素が“ｄａｔｅ”のフォーマットを有する場合の例のみならず、フォーマットが認識可能な他の同じような要素は、対応する符号化シーケンスによってレイアウトドキュメント中で符号化される。一方、ここでは、このようにレイアウトドキュメントの第１行の日付、および第２行並びに第３行の整数に対して示したのみである。また、この様な置き換えは、郵便番号（これは、データベース問い合わせから認識され得る）といった様な他の認識可能な要素についても実行することができる。また、郵便番号は、例えばＺＺＺ等といったある文字シーケンスによって表現することができる。この様な認識は、フォーマット認識でも、データベース問い合わせ（ここでは、例えば全ての郵便番号コードが格納されている）でも基礎とすることができる。
【００６２】
上述したように、候補自身や、ドキュメント内の当該位置に関する情報、更には、ドキュメントの他の要素や、ドキュメント内のそれらの位置に関する情報を含むレイアウトドキュメントが作られる。本実施例において、位置の情報は、あるコード構成（coding scheme）にしたがって位置を表す座標値を文字シーケンスに置き換えることによって表され、そのコード構成は、符号化の目的に対して電子ドキュメントが仕切られるロケーションまたは領域を定義するのに使用され、かつ対応する文字コードが割り当てられている。また、同様に、前記電子ドキュメントの要素の位置を符号化するのに番号コードを使用することができる。レイアウトドキュメントの世代に対して、要素の位置や書式を表すなどのようなコード構成も使用することができる.
また、レイアウトドキュメントは、ドキュメント中に線、またはグリッド（格子）などのような、分析すべきドキュメントの非テキストの要素に関する追加情報を含んでいても良い。この情報はドキュメントの幾何学的な分析で容易に得ることができ、そして、レイアウトドキュメントにおいて、ドキュメント内の線またはグリッドを、対応するコーディングシーケンスを介して、好ましくは、それらの対応する位置や、もしかすると同様にそれらのスタイルや更なる情報によって、符号化することができる。
【００６３】
好ましくは、レイアウトドキュメントの世代に使用されるコード構成は、前述したように、ロケーション対応位置コードの離散的な領域を割り当てたことに基づく位置の符号化を含んでいる。さらに好ましくは、要素のフォーマットまたはスタイル等の認識可能なスタイルまたはフォーマット情報が、当該符号化シーケンスを介してレイアウトドキュメント中に同様に表される。しかしながら、レイアウトドキュメントを作るのにコード構成のそれらの要素のいくつかだけを使用することが可能である。
【００６４】
レイアウトドキュメント中の位置は、前述したようなｘ、ｙ座標値等の座標値に基づく幾何学的な位置として表現しても良い。しかしながら、また、レイアウトドキュメント中の要素の位置情報が、この要素と候補との間に現れる要素の数などの、要素と候補との間の相対的な位置を表すことも同様に可能である。その結果、同様に、候補と他の要素との間に現れるワード数を介するそれらの間の距離を介して、レイアウト領域内のそれらの間の相対位置を符号化することが可能になる。処理されるべきテキストドキュメントが実際に、電子メールメッセージなどのように大部分が自己のレイアウトを持たないようであれば、例えば、そのようなコード構成は有用であろう。しかしながら、その代わりに、電子メールについて、前述したような要素の相対的な位置に代わる更なる処理に対して、仮のレイアウトを計算して、使用しても良い。
【００６５】
より多くの情報が、候補とその周囲の要素に関するレイアウトドキュメント中に存在すれば存在するほど、レイアウトドキュメントとその後の処理結果は、より正確になる。しかしながら、レイアウトドキュメントが高度化されるほど、レイアウトドキュメントの作成や更なる処理を行うために決定を下すために、より多くの処理パワーが必要であり、そのために、決定手順の所望の精度に依存して、ユーザまたはプログラマが、レイアウトドキュメントを作るときに、利用すべき情報と同様に、レイアウトドキュメントを作るための領域を選んでも良い。
【００６６】
以上のように、候補の入手と候補に対するレイアウトドキュメントの続く世代を説明した。例えば、情報のある部分、すなわち出生日（date of birth）が図２のドキュメントから抽出されることが現時点で望まれているならば、日付に対する候補を得るためにドキュメントに対して候補検索が実行される。図２の場合では、前述のような、正規の表現またはフォーマット検索が、検索基準にしたがって、出生日、すなわち、May 5、1960およびMay 17、1979であるような２つの候補を返すであろう。そこで、両方の候補に対して、前述したようなレイアウトドキュメントが作成され、このレイアウトドキュメントは分類装置に入力する。分類装置は、しかしながら、出生日ではない日付から作成されたレイアウトドキュメントとは逆の実際の出生日から作成されたレイアウトドキュメントを認識するように訓練されている。
【００６７】
出生日から作成されたレイアウトドキュメントが、いかなる他の日付よりも出生日からのレイアウトドキュメントであるとしてそれらを認識することが可能であるようなより一層のヒントを含んでいるので、そのような認識が可能になる。例えば、しばしば「出生」という単語が出生日の近傍に現れる場合であり、この言葉が含まれるレイアウトドキュメントを有することにより、このドキュメントが出生日から作成されるレイアウトドキュメントであるという一層のヒントになる。同様に、出生日の近傍に現れる他の要素が、また、図６の例における用語「場所（place）」または用語「の（of）」のようなヒントとして解釈しても良い。しかしながら、例えば、いくつかの出生日がテーブルの1つの列に配置されているのであれば、列のヘッダーは用語「出生」を含み、そして、前述したように用語「出生」の位置を符号化することによって、この列内の日付が実際の出生日であるヒントとして、これを分類装置で使用しても良い。一般に、そのような候補の実際の情報の内容に対するヒントとして、レイアウトドキュメントが作成される候補の周囲の領域または近傍を分類装置によって使用することができる。そのような周辺領域または近傍によって与えられるヒントを考慮に入れることによって、任意の検索基準にしたがってドキュメントから抽出された1セットの候補を、それらの候補がさらに探している情報を実際に含むかどうかについて、評価することができる。
【００６８】
もちろん、レイアウトドキュメントは、テキストドキュメントのすべての要素について直接作成することができ、各要素は、ある所望のカテゴリに属すかどうかについてそのように作成されたレイアウトドキュメントに基づいて評価することができる。しかしながら、最初に候補検索を使用することは、レイアウトドキュメントをテキストドキュメントの各要素に対して作成する必要があるかもしれないようなことを引き起こすコンピュータのコストを減少させる。
【００６９】
以下に分類装置を使用する引抜き過程および訓練過程がより詳細に説明される。
【００７０】
レイアウトドキュメントが発生された後、それはあるドキュメントがあるカテゴリまたは種類に属するか否かを決定できるニューロンネットワークまたは任意の他のコンピュータ化されたシステムを訓練するために使用される。その目的のため、候補のレイアウトドキュメントは、レイアウトドキュメントが訂正候補に対応するか否か、それは候補が要望される情報的内容を有するか否かを意味する情報とともに、ニューロンネットワークまたは任意の他の決定装置（分類装置）に入力される。
【００７１】
かかるニューロンネットワークの訓練は図９に図式的に示される。
【００７２】
電子ドキュメントは要素およびテキストドキュメントのおよびそれらの対応している位置を得るために上述されたように分析される。好ましくは次に、テキストベースのドキュメントからワーキングドキュメントが作られる。次に所望のカテゴリと一致することができる候補の組をそれらから得るためフィルタにかけることが行われる。好ましくは、ユーザによる手動入力または自動的のいずれかに基づいて、例えば得られた候補がある閾値を超えて訂正の可能性を有するか否かをチェックすることにより、得られた組は訂正される。訓練フェーズにおける手動訂正のため、候補はドキュメントのハイライトであることができ、ユーザはそれらが訂正されたものであるか否かをそれらの幾らかまたは全部について確認できる。訂正結果の前述の手動または自動選択は次に訂正結果の組および間違った結果の組に導く。次に訂正結果の組の要素の各々のため、および間違った結果の組の要素の各々のためにレイアウトドキュメントが生成される。その後間違った結果の組のために生成されたレイアウトドキュメント、および訂正結果の組のために生成されたレイアウトドキュメントはニューロンネットワークを訓練するために使用される。候補が全てで認識されないなら、ユーザはまた彼自身候補を選択し、それをハイライトし（例えば、マウスにより）、訓練入力としてそれを使用してもよい。
【００７３】
図９に示されたような訓練されたネットワークを使用している引抜き過程は図１０に示される。候補の組は図９と同様に得られ、それらの各々についてレイアウトドキュメントが前に説明されたように生成される。レイアウトは、次に候補が所望のカテゴリに属するか否かを決定する訓練されたニューロンネットワークのための入力として使用される。
【００７４】
ネットワークの出力は、訂正して引抜かれた候補、または、例えば各候補の訂正の可能性を重み付けしている重みに在る。引抜かれた候補はまた、データベース、ＭＳ−エクセルファイル、ワードドキュメント、または他の電子的処理などのために適した任意の他のドキュメントのような、他の電子的ドキュメントに直接移入または移出されてもよい。
【００７５】
候補の同一確認を含む引抜き過程およびレイアウトドキュメントの生成は上記に詳細に説明されたように行われることができる。次に全ての見出された候補のために、対応している生成されたレイアウトドキュメントは分類または好ましくはニューロンネットワークであるけれども必然的ではない決定装置に入力され、それから各候補についてそれが訂正カテゴリに属するか否かの決定がなされる。
【００７６】
それらが所望のカテゴリに属するか否かについて生成されたレイアウトドキュメントを分類する特に適した装置は、ヨーロッパ特許出願99108354-4に開示され、その全ての内容が引用文献としてここに組み込まれる。ここに開示される装置は、それらをベクトルとして表すことによりテキストドキュメントを分類することが可能であり、ベクトル成分の値はある語または熟語がドキュメント内で起る頻度に対応する。ドキュメントを表すこのようなベクトルはｎ次元ベクトル空間におよび、複数のドキュメントも共にあるベクトル空間に及ぶ。分類は、ベクトル空間を少なくとも２つのサブ空間に分離する超平面を分類することにより行われ、それによりサブ空間があるのと同じ多くの種類への分類が行われることができる。学習または訓練過程はベクトル空間を確立し、そして訓練ドキュメントの組のための超平面を対応して分離することに在る。知られていないドキュメントは次に、対応しているベクトルが１つまたは他のサブ空間に落ちるか否かを計算することにより分類されることができる。以前に詳細に記述された方法で、それらの周りの領域について与えられたレイアウトドキュメントを通してテキストドキュメントの要素を表すことが可能であるので、そしてレイアウトドキュメントがそれ自身再びテキストドキュメントであるので、前述のヨーロッパ特許出願に記述された分類装置は分類目的のために使用されることができる。特許出願に開示された分類のための装置の好ましい実施はPerceptronのようなニューロンネットワークに在る。決定装置がいかに実施されるかのようなさらなる詳細はこの出願から取られることができ、それゆえここにさらに詳細に概説されない。
【００７７】
しかしながら、それらがあるカテゴリに属するか否かに関してドキュメントを評価(分類)可能な任意の他のニューロンネットワークまたは任意のコンピュータ方法または装置が、レイアウトドキュメントを訓練し、候補（またはその対応するレイアウトドキュメント）が訂正して引抜かれたと見なされねばならないか否かの決定を作るために使用されることができることが理解される。位置が記号シーケンスにより表されるこれらのレイアウトドキュメントのみならず、また任意の他のレイアウトドキュメント表現が本発明と関係して使用することができる。位置が位置(座標)を表す絶対数により、または角度と距離（極座標）により符号化されることが可能な非常によい例である。
【００７８】
先に述べた詳細な記載は本発明について単に典型的な具体例を説明するものであり、他の具体例は明らかに熟練者の一般的な知識による理解の範囲内のものであることが、熟練者により理解されるであろう。さらに熟練者にとって、本発明の方法がいずれかのコンピュータシステムにより、いずれかの汎用コンピュータにより、または先に説明したような方法を実行するいずれか他の特定用途向けハードウェアにより実施可能であることは容易に理解できる。このため、例えばこの装置は図１に示されているようなコンピュータシステムにおいて形成することが可能であるが、本発明による装置は本発明の方法を実行する何らかのコンピュータシステムにより構成することができる。ここで述べたまたは添付の特許請求の範囲における、一定の装置構成要素または装置部品に関しては、これらはプログラムまたはコンピュータプログラムの一部を有し、それを具体化し、または実行するコンピュータまたはコンピュータの一部により実施可能である。本発明がコンピュータプログラムまたはコンピュータプログラム製品に関連することに関し、コンピュータプログラムの命令を具体化することのできるメモリ、伝送ライン、または同様のもののような、何らかのデータ保有部または何らかのコンピュータ構成要素は、それらが本発明に従う方法についてコンピュータが実行することを可能にするコンピュータプログラムの命令を具体化することができる限り、本発明を具体化し得ることが熟練者にとって明白であろう。熟練者はまた、先に延べた原理にしたがって動作する多数のコンピュータプログラムを書くことができ、そのため、ここに記載するような本発明の方法にしたがって動作するいずれかのコンピュータプログラムは、本発明の範囲の下にあるものとして取扱われるべきであることを認識するであろう。
【００７９】
さらに、それが記録媒体、データキャリア、伝送ライン、ＲＯＭ、ＲＡＭのようなメモリ、または同様のものに組込まれるかまたは具体化されるかどうかとは別に、記載されるドキュメントのレイアウトの構造を表現するデータ構造もまた本発明の具体的表現を形成することができる。
【００８０】
さらに本発明はクライアント−サーバアーキテクチャに使用することができ、このことは本発明を実施するコンピュータプログラムの一部がクライアントにおいて実行されるサーバおよび他の部分において実行できることを意味する。
【００８１】
先の記載または添付の特許請求の範囲において記述されている装置の構成要素に関しては、それらはコンピュータプログラムまたは一定のプログラム命令を実行するコンピュータによりそれぞれ実現可能であり、または、それらは、電子回路、特別の用途のコンピュータ、または同様のもののような、かかる構成要素の機能を形成するいずれかの特定用途向けのハードウェアにより実行可能である。
【００８２】
本発明のさらなる変更および応用は熟練する読者にとって容易であり、この出願は、本発明の範囲を限定するものであるようには理解されるべきでない、典型的な具体例に基づいて説明されたものであることが理解されるであろう。
【００８３】
特に、誕生日を抽出する例はまさに典型的な例であり、そして、熟練した読者にとって容易に理解されるように、先に説明した方法はテキストドキュメントから一定のカテゴリに属する何らかの情報要素を抽出するために使用可能であることが理解されるべきである。
【図面の簡単な説明】
【図１】図１は本発明の実施例をインプリメントするため用いられるコンピュータシステムを示している。
【図２】図２は要素を抽出するテキストドキュメントの一例を示している。
【図３】図３はテキストドキュメントから生成された作業ドキュメントの一例を示している。
【図４】図４はレイアウト領域を定義するためのユーザインターフェイスの一例を示している。
【図５】図５はレイアウト領域の一例を示している。
【図６】図６はレイアウトドキュメントの一例を示している。
【図７】図７は候補ボックス符号化のための符号化スキーマの一例を示している。
【図８】図８はレイアウトドキュメント要素位置符号化の一例を示している。
【図９】図９は分類装置における学習フェーズの一例を示している。
【図１０】図１０は分類装置における抽出フェーズの一例を示している。

Claims

複数の要素を含む電子ドキュメントに基づいて、分類装置によって使用される入力を発生させるコンピュータにより実現される方法において、
解析手段により、前記電子ドキュメントを解析し、前記ドキュメント中の前記要素の対応する位置についての情報とともに前記要素のうちの１つ以上を得ることと、
前記位置についての情報と、前記要素のうちの１つ以上とに基づいて、発生手段により、前記分類装置の前記入力として使用される電子レイアウトドキュメントを発生させることとを含み、
前記電子レイアウトドキュメントは、
前記電子ドキュメント中の前記要素の絶対および／または相対位置を表す情報とともに、前記解析するステップにおいて得られる複数の前記要素を表現したものを含む、コンピュータにより実現される方法。
前記レイアウトドキュメントは、
前記電子ドキュメント中のその絶対および／または相対位置を表す情報とともに、テキストドキュメントの前記複数の要素のうちの第１の要素を表現したものと、
前記電子ドキュメント中の前記要素の絶対および／または相対位置を表す情報とともに、前記テキストドキュメントの前記複数の要素のうちの他の要素を表現したものとを含み、
前記他の要素は、前記第１要素に隣接している、予め規定されたまたはユーザにより規定された領域内、あるいは、前記第１の要素の周囲の、予め規定されたまたはユーザにより規定された領域内、あるいは、前記第１要素に隣接し、かつ、前記第１の要素の周囲の、予め規定されたまたはユーザにより規定された領域内にある請求項１記載の方法。
検索手段により、ある検索基準を満たす要素を検索して、あるカテゴリに入る情報内容に関する要素の候補を得ることと、
前記発生手段により、前記候補要素のうちの１つ以上に対するレイアウトドキュメントを発生させることとをさらに含む請求項１または２記載の方法。
前記候補を検索するステップは、
あるフォーマット基準に合致する前記ドキュメント中の要素を検索することと、
ある列比較基準に合致する前記ドキュメント中のワードを検索することと、
フォールト・トレラントワード検索を行うことと、
見つけた候補に対する予め規定された相対位置を有する要素の検索を行うことと、
データベース中に記憶されているワードと合致する要素を検索するデータベース検索を行うことと、のうちの１つ以上をさらに含む請求項３記載の方法。
位置表示手段により、予め規定された位置符号化スキームに基づいた対応するキャラクタシーケンスによって、前記レイアウトドキュメント中の要素の位置を表すことと、
要素表示手段により、予め規定されたフォーマット符号化スキームに基づいたキャラクタシーケンスを通して認識可能な予め規定されたフォーマットを持つ要素を表すことと、
前記要素表示手段により、予め規定された意味符号化スキームに基づいたキャラクタシーケンスを通して認識可能な意味を持つ要素を表すことと、のうちの１つ以上をさらに含む請求項１ないし４のいずれか１項記載の方法。
前記認識可能な予め規定されたフォーマットは、
前記ドキュメント中の垂直線および／または水平線、
浮動小数点数、
日付け、
整数、
郵便番号のうちの１つ以上を含む請求項５記載の方法。
前記レイアウトドキュメントが発生される領域は、その寸法を予め規定できる、または、ユーザによって設定できる１つ以上の幾何学領域を含む請求項１ないし５のいずれか１項記載の方法。
前記分類装置を訓練するために、または、前記分類装置を通して前記入力を評価して分類するために、使用手段により、分類装置に対する入力として前記電子レイアウトドキュメントを使用することをさらに含む請求項１ないし７のいずれか１項記載の方法。
ある予め規定されたカテゴリに属する１つ以上の要素を電子ドキュメントから抽出する方法において、
検索手段により、１つ以上の予め規定された検索基準に基づいて、前記ドキュメント中の候補要素を検索することと、
発生手段により、前記検索するステップから得られた候補要素ごとに、請求項１ないし８のいずれか１項記載の方法にしたがってレイアウトドキュメントを発生させることと、
判断手段により、前記レイアウトドキュメントの情報内容に基づいて、前記カテゴリに前記候補が属するか否かを判断することとを含み、
前記検索基準は、１つ以上の文字の列を含む方法。
あるカテゴリにドキュメントの要素が属するか否かを認識する分類装置を訓練するために前記分類装置を訓練する方法において、
検索手段により、１つ以上の予め規定された検索基準に基づいて、前記ドキュメント中の候補要素を検索すること、
発生手段により、前記検索するステップから得られた候補要素ごとに、請求項１ないし８のいずれか１項記載の方法にしたがってレイアウトドキュメントを発生させること、
訓練手段により、前記あるカテゴリに前記候補が属するか否かに関する情報とともに、前記レイアウトを前記分類装置に入力して、前記分類装置を訓練することとを含み、
前記検索基準は、１つ以上の文字の列を含む方法。
前記分類装置は、ニューロネットワークである請求項１０記載の方法。
複数の要素を含む電子ドキュメントに基づいて、分類装置によって使用される入力を発生させる装置において、
前記電子ドキュメントを解析して、前記ドキュメント中の前記要素の対応する位置についての情報とともに前記要素のうちの１つ以上を得て、
前記分類装置の前記入力として使用される電子レイアウトドキュメントを発生させるように構成された１つ以上のプロセッサを具備し、
前記電子レイアウトドキュメントは、
前記電子ドキュメント中の前記要素の絶対および／または相対位置を表す情報とともに、前記解析するステップにおいて得られる複数の前記要素の表現したものを含む装置。
前記レイアウトドキュメントは、
前記電子ドキュメント中のその絶対および／または相対位置を表す情報とともに、テキストドキュメントの前記複数の要素のうちの第１の要素の表現したものと、
前記電子ドキュメント中のそれらの絶対および／または相対位置を表す情報とともに、前記テキストドキュメントの前記複数の要素の他の要素を表現したものとを含み、
前記他の要素は、前記第１要素に隣接している、予め規定されたまたはユーザにより規定された領域内、あるいは、前記第１の要素の周囲の、予め規定されたまたはユーザにより規定された領域内、あるいは、前記第１要素に隣接し、かつ、前記第１の要素の周囲の、予め規定されたまたはユーザにより規定された領域内にある請求項１２記載の装置。
あるカテゴリに入る情報内容に関する要素の候補を得るために、ある検索基準に合う要素を検索する検索器と、
前記候補要素のうちの１つ以上に対するレイアウトドキュメントを発生させる前記発生器とをさらに具備する請求項１２または１３記載の装置。
前記候補を検索する検索器は、
あるフォーマット基準に合致する前記ドキュメント中の要素を検索する要素検索器と、
ある列比較基準に合致する前記ドキュメント中のワードを検索するワード検索器と、
フォールト・トレラントワード検索を行うワード検索器と、
見つかった候補に対する予め規定された相対位置を有する要素の検索を行う要素検索器と、
データベース中に記憶されているワードと合致する要素を検索するデータベース検索を行うデータベース検索器と、のうちの１つ以上をさらに具備する請求項１４記載の装置。
前記レイアウト発生器は、前記レイアウトドキュメントを発生させたとき、
予め規定された位置符号化スキームに基づいた対応するキャラクタシーケンスによって、前記レイアウトドキュメント中の要素の位置を表すことと、
予め規定されたフォーマット符号化スキームに基づいたキャラクタシーケンスを通して認識可能な予め規定されたフォーマットを持つ要素を表すことと、
予め規定された意味符号化スキームに基づいたキャラクタシーケンスを通して認識可能な意味を持つ要素を表すことと、のうちの１つ以上にさらに適合される請求項１２ないし１５のいずれか１項記載の装置。
前記認識可能な予め規定されたフォーマットは、
前記ドキュメント中の垂直線および／または水平線、
浮動小数点数、
日付け、
整数、
郵便番号のうちの１つ以上を含む請求項１６記載の装置。
前記レイアウトドキュメントが発生される領域は、その寸法をユーザによって予め規定できる、または、設定できる１つ以上の幾何学領域を含む請求項１２ないし１７のいずれか１項記載の装置。
前記分類装置を訓練するために、または、前記分類装置を通して前記入力を評価して分類するために、前記電子レイアウトドキュメントを入力として使用する分類装置をさらに具備する請求項１２ないし１８のいずれか１項記載の装置。
ある予め規定されたカテゴリに属する１つ以上の要素を電子ドキュメントから抽出する装置において、
１つ以上の予め規定された検索基準に基づいて、前記ドキュメント中の候補要素を検索し、
前記検索するステップから得られた候補要素ごとに、請求項１ないし８のいずれか１項記載の方法にしたがってレイアウトドキュメントを発生させ、
前記レイアウトドキュメントの情報内容に基づいた前記カテゴリに前記候補が属するか否かを判断するように構成された１つ以上のプロセッサを具備し、
前記検索基準は、１つ以上の文字の列を含む装置。
あるカテゴリにドキュメントの要素が属するか否かを認識するために訓練可能な分類装置において、
１つ以上の予め規定された検索基準に基づいて、前記ドキュメント中の候補要素を検索し、
前記検索器から得られた候補要素ごとに、請求項１ないし８のいずれか１項記載の方法にしたがってレイアウトドキュメントを発生させ、
前記あるカテゴリに前記候補が属するか否かに関する情報とともに、前記レイアウトを前記分類装置に入力し、前記分類装置を訓練するように構成された１つ以上のプロセッサを具備し、
前記検索基準は、１つ以上の文字の列を含む分類装置。
前記分類装置は、ニューロネットワークである請求項２１記載の装置。