JP4782346B2 - 電子ドキュメントを処理する方法および装置 - Google Patents

電子ドキュメントを処理する方法および装置 Download PDF

Info

Publication number
JP4782346B2
JP4782346B2 JP2001562361A JP2001562361A JP4782346B2 JP 4782346 B2 JP4782346 B2 JP 4782346B2 JP 2001562361 A JP2001562361 A JP 2001562361A JP 2001562361 A JP2001562361 A JP 2001562361A JP 4782346 B2 JP4782346 B2 JP 4782346B2
Authority
JP
Japan
Prior art keywords
document
elements
candidate
layout
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001562361A
Other languages
English (en)
Other versions
JP2003524258A (ja
Inventor
ゲールケ、アレクサンダー
ラバルト、マティアス
ルーヤン、パル
Original Assignee
エスイーアール・システムズ・アーゲー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エスイーアール・システムズ・アーゲー filed Critical エスイーアール・システムズ・アーゲー
Publication of JP2003524258A publication Critical patent/JP2003524258A/ja
Application granted granted Critical
Publication of JP4782346B2 publication Critical patent/JP4782346B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、電子ドキュメントを処理する方法および装置に関し、特に電子テキストドキュメントから特定要素を抽出するものに関する。
【0002】
【従来の技術】
近頃、大企業や行政官庁等の事業主体で処理される莫大な量のドキュメントに対処するための電子ドキュメント処理(electronic document processing: EDP)がより重要となっている。書面をスキャン処理し、これを電子的な形式に変換する光学式文字認識(optical character recognition: OCR)処理した結果のドキュメントを、電子的な形態で保有することは今日、一般的に行われている。
【0003】
そのようなドキュメントを大量に処理しなければならない場合、例えば、規則的な態様で格納されている特定のデータを例えばデータベースに格納する場合に、誕生日、生誕地等といった特定の情報部分(ドキュメントの要素)を電子ドキュメントから自動的な方法で抽出できることが望ましい。もし、例えばある企業が大量の履歴書を自動処理したい場合、電子ドキュメントから自動的な方法でこれらのデータを抽出できることが望まれる。例えばERPシステムの会計情報の抽出など、他の用途についても、テキストドキュメントからのデータ抽出が望まれる。特定のテキスト情報もしくはテキスト要素、または特定の数あるいは数情報をテキストドキュメントから抽出することが望まれており、これを目的とする多くの出願があるものと想像される。テキストドキュメントは、例えば、抽出すべき特定の情報分類に属していることから抽出すべきであるとする特定の関心データを含むドキュメントであるということができる。
【0004】
電子的なテキストドキュメントから特定のデータを抽出する従来の抽出システムは、所望のデータが位置付けされていることを前提に、ドキュメント中の固定位置を検索するよう動作する。
【0005】
この種の検索アルゴリズムはあまり上手く機能しない。何故なら、所望のデータがいつも同じ場所に位置付けられる所定フォーマットを有するドキュメントに、高く依存しているからである。
【0006】
こで本発明は、テキストドキュメントから特定のデータ部分を抽出する従来方法の改善を目的とする。
【0007】
観点に係る本発明は、テキストドキュメントの要素を表し、分類装置への入力として用いることのできるレイアウトドキュメントを生成する方法および装置を提供する。この観点に係る本発明により生成されたレイアウトドキュメントは特定の形式を有しており、分類装置は、レイアウトドキュメントにより表されたテキスト要素についての分類を改善できる。したがって、テキストドキュメントからの特定テキスト要素の抽出を改善可能になる。
【0008】
本発明の一観点によれば、レイアウトドキュメントは、電子テキストドキュメントの要素に基づいて生成される。該レイアウトは、それぞれの対応する位置の表現と前記ドキュメント要素の表現とを組にして保持している。そのようなレイアウトドキュメントを生成することにより、ドキュメント要素をその幾何学的コンテキスト(その近傍/周囲の)要素とともに評価することが可能になり、したがって、そのフォーマットまたは要素自身のコンテキストのみならず、該要素が特定のカテゴリに属するか否かを評価するための他の情報をも利用することが可能になる。また、要素またはそのフォーマット自身を考慮するのみならず、むしろ、その周囲領域、該周囲領域に含まれるそれぞれの要素をも考慮することにより、分類装置は、テキストドキュメントが特定のカテゴリに属するか否かについての更なる手がかり(hint)を受け取る。これら更なる手がかりは、周囲領域およびこれに含まれるテキスト要素から与えられ、ニューロンネットワークのような分類装置により認識または学習される。これにより訓練されたニューロンネットワークは、分類を改善できるとともにテキストドキュメント要素の抽出を改善できる。
【0009】
本発明のさらなる観点によれば、特定カテゴリに属する複数要素についてのレイアウトが生成され、この生成されたレイアウトは、当該カテゴリの要素を認識できるよう分類装置を訓練するために用いられる。分類装置は好ましくはニューロンネットワークであり、複数要素について生成されたレイアウトにより訓練され、該レイアウトが生成された要素について、この要素が特定カテゴリに属するか否かを訓練段階において装置に入力することにより訓練される。そのようにして訓練されたニューロンネットワークもしくは分類装置は、さらに、未知テキスト要素を分類し、未知テキストからの要素抽出をするために利用できるようになる。
【0010】
本発明のさらに別の観点によれば、訓練された分類装置は、未知要素が特定カテゴリに属するか否かを、この要素について生成されたレイアウトドキュメントに基づいて評価し、特定カテゴリに属するドキュメントから要素を抽出するために用いられる。
【0011】
本発明のさらに別の観点では、抽出されたデータが属するはずのカテゴリにたぶん属しており、特定の検索基準に従う候補を特定する。検索基準は、好ましくは、要素のフォーマット、語検索基準、耐障害語検索基準、もしくはこれら基準の組み合わせとすることができる。これら候補の各々について、電子ドキュメント中の候補それ自身とその位置に基づき、および、前記ドキュメント中における他の電子ドキュメント要素とその位置に基づいてレイアウトドキュメントを生成してもよい。好ましくは候補の隣または周囲に、一つ以上の事前定義領域内で位置するレイアウトドキュメントを生成する場合に、これら要素は考慮されることが好ましい。
【0012】
このようなレイアウトドキュメントに基づき、候補が所望のカテゴリに実際に属するか否かの判断がなされる。
【0013】
本発明の好ましい実施例によれば、前記候補が所望カテゴリに属するかについての判定は、分類装置を用いてなされる。かかる分類装置は、好ましくはニューロンネットワークである。このニューロンネットワークは、候補のレイアウトドキュメントを用い、さらに、該ニューロンネットワークに対しこれら候補が所望カテゴリに属するか否かを入力として与えることにより訓練されたものとしてよい。
【0014】
本発明のさらに好ましい実施例によると、候補が所望カテゴリに属するか否かの判定は、1999年4月28日提出、本出願の優先権主張に係る欧州特許出願第99108354.4号(引用によりここに取り込まれる)に記載の方法または装置を用いてなされる。
【0015】
【発明の実施の形態】
本発明は、図1に示されるようなコンピュータシステムによって、実行することができる。
【0016】
図1は、本発明の好ましい実施形態に関連して使用されるコンピュータシステムの構成を概略的に示している。コンピュータ100は、CPU110、メモリ120、および、I/Oユニット130を含んでいる。コンピュータ100は、CPU110がメモリ120からフェッチしたコンピュータの指示をCPU110を介して遂行することによって、プログラムを実行することが可能である。その指示は、CD−ROMまたはフロッピー(登録商標)ディスクのような記憶装置150に格納されている。I/Oユニット130は、ユーザがコンピュータにデータを入力することが可能になるように、キーボード160およびマウス170に接続している。さらに、I/Oユニット130は、ハードコピーとしてドキュメントを出力するために、プリンター180に接続している。コンピュータ100は、さらに、モニターのようなディスプレーユニット140に接続している。図1に示されたコンピュータの構成は、典型的な構成のみであると解されるべきである。また、並行処理コンピュータ、ハードウェアを提供しているニューロンネットワークコンピュータ、または、後に説明される方法を遂行することが可能な他の任意のコンピュータシステムのような他のコンピュータ構成が、本発明に関連して使用されることが可能である。
【0017】
本発明は、以下、図2に示されるように履歴書(Curriculum Vitae)から誕生日(Date of Birth)を取り出すことに関連して説明される。履歴書から誕生日を取り出すことに関連する本発明の記述が、典型的な目的のためのみに対して意図されたものであることは、熟練者によって直ちに理解されるであろう。また、下に記述されるような同様な方法と装置が、たとえば、口座フォームシートから口座番号を取り出す、商品明細書から価格を取り出す、工場での在庫量を示す値を対応するシートから取り出す等のように、情報のある部分から取り出された他の任意のテキストドキュメントに適用されることが可能であることも熟練者によって直ちに理解されるであろう。
【0018】
履歴書は、コンピュータ、または、電子形式でデータキャリア上に格納されている。履歴書は、ワードプロセッサを使用して編集した結果であってもよいし、または、その電子ドキュメントが、スキャニング工程に続く光学式文字認識工程の結果であってもよい。履歴書の代わりに、特定の意味を有する要素またはあるカテゴリに属する要素が取り出される任意のドキュメントが使用されてもよい。
【0019】
最初に、電子ドキュメントは、電子ドキュメントを構成している個々の要素を得るために解析される。ここで、「要素」とは、ブランク、タブレーター、強調線のようなデリミタによって、または、1つの要素を他の要素から区切るものとして解釈される任意の他のデータ要素によって、他の要素から分離される文字の任意のシーケンスを意味する。テキストを個々の要素に分離する最も単純な方法は、テキスト部分を、互いが任意の空白(ブランク)によって分離されている要素と同一視することである。しかしながら、解析の目的によっては、さらなる判定基準が考慮される場合がある。たとえば、上述した強調線、ハイフン、キャリッジリターン、または、1つの要素を他の要素から分離しているものとして見なされる電子ドキュメントの他の要素が考慮される。個々の要素を同一視する場合に考慮するべき他の判定基準は、個々の文字間の幾何学的な距離である。たとえば、2つの文字間の距離が値を超えると2つの文字は異なる要素であると解釈される閾値が定義される。この例では、ある要素は、任意の単一文字、または、ブランクによって他の「要素」から分離された文字のシーケンスであるとしている。
【0020】
図2に示されたテキストドキュメントのこの例では、熟練者には直ちに明らかになるように、最初の2つの要素が「curriculum」と「vitae」であり、他の要素は「Tel:」、「Fax:」等である。これらの要素は、たとえばブランクを単に探すパーサー(parser)によって識別される。
【0021】
要素自身を得るだけでなく、ドキュメントでのそれらの対応する位置を得ることがある。たとえば、各要素がドキュメント中に位置している場所であるX座標とY座標を計算することによって対応する位置を得る。その位置は、レイアウトドキュメントを生成するために後に使用される。
【0022】
電子テキストドキュメントの個々の要素を識別した後に、これらの要素がいわゆる「ワーキングドキュメント」に格納される。ワーキングドキュメントでは、識別された各要素が、電子ドキュメントでの各要素の位置に関する情報とともに格納される。たとえば、要素「curriculum」は、電子ドキュメントでのその要素の位置を識別するそのX座標とY座標とともに格納される。ワーキングドキュメントは、要素に対応する位置とともに識別されている全ての要素を格納するための便利なツールであるので、後に詳細に説明されるレイアウトドキュメントの生成にとって、レファレンスがワーキングドキュメントにつくられる。任意のテキストドキュメントから生成されるワーキングドキュメントの一例が、図3に示されている。タグ1、タグ2等のタグは、対応する要素の位置情報を含んでいる。この情報は、任意の形式で表現されてもよい。たとえば、直接的にタグ内の要素のX、Y座標を格納することによって表現される。図3内の要素は、たとえば、テキストドキュメントで識別された個々の単語、または、要素として以前に説明された方法を介して識別された任意の他の文字シーケンスであってもよい。そして、そのタグは、X、Y座標に関してそれらの要素が位置する場所というようにそれらの要素の位置についての情報を含んでいる。タグもまた、それらのフォント、それらに下線が引かれているか否か、または、任意の同様な情報といった要素のスタイルの指示をさらに具備していてもよい。たとえば、対応するタグが、要素がボールドフェイス文字でありことを表現する文字シーケンス「bf」を具備しているあるボールドフェイスの要素にとって、もう1つの文字シーケンスは要素に下線が引かれていること、またはそのようなことを表現していてもよい。
【0023】
ある要素の位置は、たとえば、その個々のピクセル値にもとづいて計算された要素の重心を示していてもよいし、要素の位置を示す任意の他の幾何学的情報を示していてもよい。たとえば、あるボックスは、要素に囲まれて構成されていて、ワーキングドキュメント内の対応するタグを介してテキスト中の要素位置を示す場合は、ボックスの最大と最小のX座標間の平均が、要素位置のX座標とされてもよいし、さらに、ボックスの最大と最小のY座標の平均が、要素のY座標として使用されてもよい。
【0024】
ワーキングドキュメントは、タグの各位置と、場合によっては、各要素の各フォント、それらのスタイル、それらにアンダーラインが引かれているか否か等のような上述したさらなる情報を示すタグとともに、識別された要素のリストを含んでいる。
【0025】
このように、対応する位置と場合によっては他の情報とともに電子的なテキストドキュメントの個々の要素のリストを含んで、ワーキングドキュメントは生成される。さらに、電子ドキュメントに含まれている水平線、垂直線またはグリッドのようなテキストでない要素がワーキングドキュメントに取り込まれていてもよい。そしてそれらのテキストでない要素も、符号化スキームにしたがって、それらの位置とそれらの形(水平、垂直、線、グリッド、またはそれに類するもの)ワーキングドキュメントに格納されている。たとえば、水平線は文字シーケンスAAAAによって、垂直線は文字シーケンスBBBBによってワーキングドキュメント内で示されていてもよい。そしてそれぞれの文字シーケンスの後に、線の位置を示すタグが続いている。
【0026】
このように作成されたワーキングドキュメントは、抽出された要素になりうる識別候補要素群に用いることができる。そのために、ワーキングドキュメント(あるいは、おそらくワーキングドキュメントが生成されることによる”ソースドキュメント”)は、例えばフォーマットの基準といった特定の検索基準を満たしている識別候補要素を識別するためにパースされる(parsed)。この段階では、すべての要素の候補は、所望の抽出された要素の可能性のある候補を見つけだすために解析される。
【0027】
望ましくは、個々の要素が検索されるだけではなく、個々の要素をスペースで区切る方法で複数の要素の組み合わせが検索される。例えば、8桁の番号を用いるために推定されるバンキングアカウントナンバーの検索の場合には、”99999999”か”999999 99”か、”9 9 9 9 9 9 9 9”か、またはそのほかの組み合わせが8桁の番号で代行できる。そのようなバンキングアカウントナンバーの検索は、その目的のために例えば8桁の数字の検索によって実行される。抽出されるべき要素の情報の内容によって、別のフォーマットを検索基準として用いることができる。実行できる検索基準は、規則的な表示(特定フォーマット、文字列、数字列(a sequence of numbers)、また場合によっては、リクエストされる特定の桁総数(a certain total number of digits)であり、これらを検索するフォーマット検索のようなもの)を検索することであるか、あるいはこれに類似したものである。別の検索基準は、類似の(comparison)文字列を実行することによるシンプルな予め定義された要素が実行される検索である。例えば、ワード”birth”と、検索基準が候補として表示されるであろう時の条件を満たしている各要素と、について行う検索である。
【0028】
別の可能な検索基準は、いわゆる指定検索(designator)と呼ばれるものである。指定検索とは、要素が、特定の位置(左・右・上・下)での候補について、別の検索基準によって見つけだされ、検索される。例えば、検索基準がワード”birth”を検索するときには、指定検索は要素”birth”の右に位置する要素を実行する。そしてこのような場合には、生じた候補は要素”birth”の右に位置する要素である。図2の例では、そのような指定検索要素”May 5, 1960”が候補として表示される。
【0029】
別の検索基準は、データベースに存在するすべての要素の検索を実行するものである。
【0030】
望ましくは候補の検索は、視覚的な文字認識の典型的なエラーを無視するために、邪魔な接頭辞/接尾辞が無視できるフォールト・トレラントである。あるいは、”,”や”.”のような要素を無視できることである。例えば、図2の場合では、フォールト・トレラント検索のようなものによって、ワード”birth”のワード検索を実行する。例えば、ワイルドカードを用いることによって行う。検索は、要素”birth:”が候補として表示されるために、要素”birth”を実行する。指定検索によって、要素”birth”の右に位置する現在の日付が候補として抽出される。
【0031】
候補検索が実行される方法によって、さらに多くの、またはさらに少ない抽出された要素の候補が識別される。
【0032】
他の検索方法は、例えば、三連文字(trigram)検索を含むものであり、三連文字検索とは、3つの文字を組み合わせて検索を行うものである。これはまた、フォールト・トレラント検索であり、例えば、候補にスペルミスが発生した際に、三連文字検索は、それにもかかわらず候補を得る。というのは、正しい三連文字として識別された候補にはいくつかの文字列が含まれているからである。別のフォールト・トレラント検索方法は、レーベンシュタイン・ディスタンス(Levenshtein distance)を用いる。レーベンシュタイン・ディスタンスは、1つの文字列から別の文字列へ変化するキーボード上の必要なキー入力の数の表示である。レーベンシュタイン・ディスタンスに基づいたフォールト・トレラント検索が実行される。
【0033】
望ましくは、候補検索は、検索基準を用いて合致する要素のワーキングドキュメントの検索によって実行される。それによって、要素のドキュメントの解析は、すでに実行され用いられている。原則として、一方で、候補の検索は、テキストドキュメント上で直接実行することもできる。
【0034】
検索は、直接的に検索のための情報を含んでいる可能性のある候補要素を得る。それは、しかるべく適合されるべき検索基準を検索する情報に基づいて容易に明らかである。一方、アカウント番号(number)を検索したときに、望ましくは、フォーマット基準が用いられ、フォーマット基準は、場合によっては既知のアカウントナンバーのナンバーフォーマットが利用される。place of birthを検索した際に、文字列検索は、さらに見込みがあり、その結果、数字(number)を検索する。特別な検索された情報の断片のための検索基準(フォーマット検索、ワード検索、データベース検索、指定検索等、あるいは、それらの組み合わせ)の適合は、特別な状況(circumstance)に続いて熟練者(skilled person)によって選ばれる。
【0035】
見つけだされた候補に、訓練手順(training procedure)において、後述する分類装置が用いされるときには、望ましくは、見つけだされた候補が何らかの形で、ユーザに対して示されたり表示されたりすることによって、見つけだされた候補が検索した情報に適合するかどうかをユーザが確認できる。それによって、分類装置は後で説明されるように訓練される。候補を表示することは、例えば、検索されたテキストドキュメント内の主要部分によって行われる。そして、ユーザが確認することができるか、または例えば、マウスクリックによって表示された候補を捨てることができる。
【0036】
フォーマット検索またはフォールト・トレラント検索は、抽出された要素を提供する。候補検索の結果は、すでに正確さの点では、全く良く、そのため、検索された要素の特有の性質に基づいており、それらのフォーマットまたは、それらの現在の情報の内容のようなものである。以下に説明されるように、候補は、一方で、さらに候補以外のアカウント要素を取り入れることにより、特定のカテゴリに属しているか否かについて、さらに判断される。
【0037】
候補のそれぞれについて、いわゆるレイアウトドキュメントが作成される。このレイアウトドキュメントは、電子ドキュメントにおける候補とその位置の表示のみならず、前記候補要素の周囲の他の要素とその位置の表示をも含んでいる。したがって、レイアウトドキュメントは、電子ドキュメント自身における候補とその位置を電子表示したものである。同様に、電子ドキュメントにおける他の要素とその対応する位置を電子表示したものでもある。好ましくは、ある候補のために生成されたレイアウトドキュメントは、前記候補の周囲の一定領域のために生成される。この領域(あるいは対応する複数の領域)は、予め定義しておくことができる。あるいは、ユーザ定義によってもなされうる。
【0038】
図4は、ユーザインターフェイスを介してなされる周囲領域の定義例を示している。図4は、前記候補を囲んでいる合計4つのボックスが、ユーザによってどのように定義されるのかを示している。第1のボックスは候補の全方向を取り囲んでいる。第2のボックスは、候補の左近傍側を表している。第3のボックスは、候補の右近傍側を表している。第4のボックスは、候補の上近傍側を表している。オプションとして、候補の下近傍側の位置を表す追加ボックスも使われうる。ユーザは、インチ毎のサイズを表す値を、あるいはピクセル、ミリのような他の単位を入力することによって、ボックスのサイズを指定することができる。各ボックスのサイズについては、図4にその例を示すとおり、ユーザにより設定することができる。あるいは、予め定義しておくようにしてもよい。レイアウトドキュメントを生成するための領域は、ユーザが、自分が抽出したい要素の具体的カテゴリに基づいて定義することができる。
【0039】
レイアウトドキュメントを生成するために、レイアウトドキュメントの領域を定義しているボックスの中に分類された電子ドキュメントの位置に関連した全ての要素は、レイアウトドキュメントを生成するために考慮される。そのために、作業ドキュメントに対してリファレンスを作成することができる。この作業ドキュメントでは、全ての要素が対応する位置とともに格納されている。
【0040】
以下では、候補要素を取得するプロセスが、候補として、図2のドキュメントにおける要素である「May 5, 1960」を返してきたものと仮定する。この候補は、例えば、連続した3要素の組み合わせを検索するフォーマット検索の結果である。ここで3要素のうち2つは、整数(日と年を示す)であり、残りの1つは数、または月を表す文字とする。この検索結果は、3要素を連続して組み合わせたものとなる。また、候補としてMay 6, 1960を検索することができる他の検索基準を考慮することも可能である。このような他の検索基準としては、たとえば、指定検索がある。この指定検索では、要素「birth」の隣にある3要素を検索する。こうすることによっても、May 6, 1960を候補として出力するという結果を得る。規則的表現を対象とした他の検索を行うことによっても、May 6,1960を候補として得ることができる場合がある。たとえば、3要素を含んでおり、うち2要素は数字であり、3番目の要素は文字または数字であり、数字のうちの1つは1から31までの範囲内にあるというような規則的表現である。「date」である情報の一部を検索することによって候補を導くことができる検索基準について多くの定義が可能であることは、当業者にとっては明らかなことである。
【0041】
1つ以上の候補が、上述したような検索処理によって取得されている。おのおのの候補に対しては、第1の周囲領域と同様にして候補を表示したレイアウトドキュメントが生成される。レイアウトドキュメントを生成するために、レイアウトドキュメントの生成のために使用される領域内にある要素が、先ず識別される。次にこれら要素に基づいてレイアウトドキュメントが生成される。レイアウトドキュメントは、要素と同様候補の表示を含んでいる。ここで、要素は、対応する位置とともに、領域に存在している。
【0042】
図5は、図2のテキストドキュメントに対するレイアウト領域の一例を示している。ここで候補は「May 5, 1960」であり、図5の波線は、候補を囲んでいるレイアウト領域を定義している。この領域を分類している図2および図5のドキュメントの全要素は、ぞれぞれレイアウトドキュメントを生成するために用いられる。図5に示された領域は、図4のうちの何れか1つのようなインタフェースを用いているユーザ定義の結果得られるものである。あるいは、予め定義しておくことも可能である。
【0043】
図5の例で示された候補「May 5, 1960」と、対応するレイアウトデータについて生成されたレイアウトデータの一例を図6に示す。レイアウトドキュメントの第1行目は、要素「May 5, 1960」自身に対応している。これは、レイアウトドキュメントにおいて、文字列「DDMMYY」で表されている。というのも、本実施形態における特別な実行に従うと、そのフォーマットは「date」に対応するからである。しかしながら、フォーマット「date」の表示、すなわち「DDMMYY」のように認識可能なフォーマットが、レイアウトドキュメント中において、前記フォーマットの対応する表示によって置き換えられることは、認識可能な要素であるレイアウトドキュメントを生成するような好ましいオプションの場合を除いては不要である。文字列「DDMMYY」の右側の文字列は、電子ドキュメントにおける要素の位置を示している。これについては、後で詳細に説明する。
【0044】
図6に示されたレイアウトドキュメントにおける第1行目は、すなわち、候補要素である 「May 5, 1960」に対応している。図2に示された電子ドキュメントにおける候補の位置とそのサイズは、文字列「MXMYWLHM」によって表現される。これについてもまた、後に説明する。
【0045】
文字列「MXMYWLHM」を通じて、レイアウト右ドキュメントに表示された電子ドキュメントにおける候補要素の位置を更に説明するために、参照が図7に対してなされている。図7は、いわゆる候補ボックスを示している。候補ボックスとは、候補要素が並んでいる長方形のことを意味する。候補要素のサイズ(例えば、フォント)に対応して、候補ボックスのサイズが変更される。そして、図7の右手側に概要例示したようなボックスサイズに対するコー化処理を行うことによって、レイアウトドキュメント内に表示することができる。符号化処理に基づき、ボックスサイズが「WLHM」として符号化される。「WLHM」とは、図7に示しているように、「長い幅」(WL)と、「中位の高さ」(HM)とからなる候補ボックスであることを意味している。この符号化シーケンスは、次に、図6のレイアウトドキュメントの第1行目に記載されている最後の4文字であるWLHMへと移る。実際の値がどの符号化シーケンスによって符号化され表示されているか、言い換えると、具体的にどの値が「小」として符号化され表示されており、どの値が特別な処理に基づき当業者によって選択された「大」として符号化され表示されているかは容易に理解される。
【0046】
したがって、図6に示すレイアウトドキュメントの第1行目を見て分かるように、ドキュメント中における候補ボックスの位置(候補自身の位置を表している)のみならず、候補ボックスのサイズ(候補のサイズを表している)もまた符号化処理される。なお、符号化処理については、後に説明する。対応する符号化シーケンスを行った候補ボックスのサイズの表示は、図7の右手側の底部に図式的になされる。X方向に対して、小さな候補をもつ候補ボックスは「WS」(幅小)と符号化される。一方、中位のサイズの候補ボックスは「WM」(幅中)、X方向に長く延びた候補ボックスは「WL」(幅長)、X方向に更に長く延びた候補ボックスは「WX」(幅極長)として符号化される。同様に、どの値が、どの符号化処理に割り当てられるかは、当業者が選択する事柄である。
【0047】
幅の場合と同様に、候補者ボックスの高さについても、「HS」、「HN」、「HL」、および「HX」のうちの何れかのシーケンスに符号化される。図5に示すように、候補が「May 5,1960」である場合、候補ボックスは、「WLHM」として符号化される。この「WLHM」は、X方向に対して長い幅、Y方向に対して中位の高さであることを意味している。
【0048】
X方向およびY方向における候補の位置は、図7の左手側に図式的に説明したように符号化される。その目的のために、図2に示されるドキュメントの一定の領域に、図7の左手側に示されるような一定のコード処理が割り当てられる。候補ボックスが配置されている領域に基づいて、候補ボックスのX位置は、「LL」、「MX」、「RR」のうちに何れかに、Y位置は、「TT」、「MY」、「BB」のうちの何れかにそれぞれ符号化される。
【0049】
図5のこのケースは、May 5, 1960の候補についてのものであり、X方向の位置に関する候補ボックスは中間にある。このことは、ドキュメントの右手およびドキュメントの左手よりさほど遠くなく、むしろ、X方向に関してドキュメントの中央に存在することを意味している。この様なロケーションは、文字シーケンス(character sequence)“MX”によって符号化され、図7の左部分から見ることができる。候補ボックスのY方向の位置は、文字シーケンス“MY”によって符号化される。なぜなら、候補ボックスは、Y方向の位置に関して、相対的に上記ドキュメントの中央にあるからである。レイアウトの第1行に示されるように、符号化された位置“MXMY”から、ドキュメントを候補ボックスより引き出すことができる。候補者の書式表現の表現を結合すれば、候補ボックスの位置および候補ボックスのサイズは、結果図6の第1行に示された文字シーケンスになる。
【0050】
図7に示す候補ボックスに対する符号化は模範的なだけであり、他の符号、位置と符号との他の割り当て、ドキュメントの対応する分野への他の分離も当然使用することができるのは、理解されるべきである。候補ボックスのサイズや位置の粒子化は、特別な実行例に依存する図7の場合よりも、さらに細かいものであってもよいし、さらに粗いものであってもよい。このこのとは、技術を有する者によれば、容易に理解されるであろう。
【0051】
同様に、ここで使用された符号化シーケンスは単に任意のものである。ここでは、“LL”は単に“まさしく左へ”を意味し、“MX”は“むしろX方向の中央へ”を意味し、“RR”は“(X方向の)ドキュメントのまさしく右側で”を意味する。同様に、“TT”は“まさしく上部に”を意味し、“MY”は“むしろ中央に”を意味し、“BB”は“Y方向に関してドキュメントのまさに下部に”を意味する。しかしながら、他の符号化シーケンスは、技術を有する者によって認識されうるものと同様に、利用することができる。また、DDMMYYの代わりに、認識された“date”の書式を表現するために、他の文字シーケンスを使用することがでる。
【0052】
既述の候補ボックスの符号化を終えた後、他の要素、すなわち図5に関して説明されたレイアウトドキュメントの領域にはめ込まれる他の要素もまた符号化され、レイアウトドキュメント内に組み込まれる。
【0053】
図6に示したレイアウトドキュメントは、ダッシュ線によって図5において示された領域に基づいて生成されている。これまで既に説明したように、周囲の領域は、より小さな領域に相違して設定することができる。周囲の領域は、ユーザの好みや、使用されるコンピュータによって処理され得る計算仕事量に依存しており、また当然により広く設定してもよい。したがって、ここで使用されているレイアウトは、模範的な例に過ぎないと理解されるべきである。また、他の定義も同様に使用することができる。当然ながら、より広く当該領域を使用すれば、より多くの情報が、当該領域から生成されたレイアウトドキュメントの中に包含される。したがって、増加された領域によって、レイアウトドキュメントのさらなる評価を、より正確にすることが可能である。しかしながら、このことは、特定の実行と特定の目的に依存する可能性があり、また、狭いレイアウト領域によって、同様に良い結果が得られる可能性もある。
【0054】
図6のレイアウトドキュメントの第2行は、レイアウト領域に入っており図5に示されたファックス番号07029 8125の表現である。本実施形態の特定の実施にしたがって、レイアウト領域に入っている二つの要素07029および8125は整数から成るから、これら二つの要素は、レイアウトドキュメントにおいて、整数表現に対して割り当てられた符号化シーケンス、すなわちIIQQによって表現されていることがわかる。
【0055】
図6に示すレイアウトドキュメントの第2行、第3行は、それぞれ領域符号07029とナンバー8125とを表している。そして、整数を表す符号化シーケンスIIQQは、候補要素に関する図2のテキストドキュメントにおいて、当該整数の相対的な位置を表す符号化シーケンスにそれぞれ従う。
【0056】
相対的な位置を符号化するために、あらゆる符号化スキームを使用することができる。ここで使用する特定の符号化は、図8において概略的に例示されている。符号化を目的として、X方向またはY方向の相対的な位置に対応した距離の離散的な範囲を、対応する符号化シーケンスに割り当てる。例えば、近くに対して“NR”を、遠くに対して“FF”を、水平方向について等しい位置にあるものについては“HEE”を、垂直方向について等しい位置にあるものについては“VFF”を、等々といった具合に割り当てる。この特定の符号化スキームは、図8に例示されている。しかし、このスキームが単なる例であり、非常に簡単に改良できることは理解し得るであろう。例えば、符号化スキームが異なってもよく、離散的範囲への分配が異なってよく、範囲の数が異なってもよい等々である。
【0057】
図6に関連する図8より、図6のレイアウトドキュメントの第2行目は、領域符号07029が、候補ボックスの左(LNR)と上(ANR)とに近いという事実に基づいたものである。この領域符号07029は、整数符号IIQQに添えられ図6の第2行目に示された、符号化シーケンスLNRANRの位置に至っている。
【0058】
ナンバー8125は、候補と横に等しく、候補のほぼ上であるから、これより図63行目のIIQQHEEANRと結論される。
【0059】
レイアウト領域に入る残りの3つの要素“date”、“of”、“birth”は、図8に関連して簡単に理解されるであろう対応位置の符号化シーケンスと共に、図6のレイアウトドキュメントの最後3行において表されている。全ての要素は、候補と縦に等しく(VEE)、候補から別々の水平方向距離にある。
【0060】
相対位置の符号化代わりに、レイアウト領域内の要素の絶対位置もまた、レイアウトドキュメントの生成に使用することができることは、容易に明らかであろう。
【0061】
さらに、レイアウトドキュメントを生成する場合、例えば要素が“date”のフォーマットを有する場合の例のみならず、フォーマットが認識可能な他の同じような要素は、対応する符号化シーケンスによってレイアウトドキュメント中で符号化される。一方、ここでは、このようにレイアウトドキュメントの第1行の日付、および第2行並びに第3行の整数に対して示したのみである。また、この様な置き換えは、郵便番号(これは、データベース問い合わせから認識され得る)といった様な他の認識可能な要素についても実行することができる。また、郵便番号は、例えばZZZ等といったある文字シーケンスによって表現することができる。この様な認識は、フォーマット認識でも、データベース問い合わせ(ここでは、例えば全ての郵便番号コードが格納されている)でも基礎とすることができる。
【0062】
上述したように、候補自身や、ドキュメント内の当該位置に関する情報、更には、ドキュメントの他の要素や、ドキュメント内のそれらの位置に関する情報を含むレイアウトドキュメントが作られる。本実施例において、位置の情報は、あるコード構成(coding scheme)にしたがって位置を表す座標値を文字シーケンスに置き換えることによって表され、そのコード構成は、符号化の目的に対して電子ドキュメントが仕切られるロケーションまたは領域を定義するのに使用され、かつ対応する文字コードが割り当てられている。また、同様に、前記電子ドキュメントの要素の位置を符号化するのに番号コードを使用することができる。レイアウトドキュメントの世代に対して、要素の位置や書式を表すなどのようなコード構成も使用することができる.
また、レイアウトドキュメントは、ドキュメント中に線、またはグリッド(格子)などのような、分析すべきドキュメントの非テキストの要素に関する追加情報を含んでいても良い。この情報はドキュメントの幾何学的な分析で容易に得ることができ、そして、レイアウトドキュメントにおいて、ドキュメント内の線またはグリッドを、対応するコーディングシーケンスを介して、好ましくは、それらの対応する位置や、もしかすると同様にそれらのスタイルや更なる情報によって、符号化することができる。
【0063】
好ましくは、レイアウトドキュメントの世代に使用されるコード構成は、前述したように、ロケーション対応位置コードの離散的な領域を割り当てたことに基づく位置の符号化を含んでいる。さらに好ましくは、要素のフォーマットまたはスタイル等の認識可能なスタイルまたはフォーマット情報が、当該符号化シーケンスを介してレイアウトドキュメント中に同様に表される。しかしながら、レイアウトドキュメントを作るのにコード構成のそれらの要素のいくつかだけを使用することが可能である。
【0064】
レイアウトドキュメント中の位置は、前述したようなx、y座標値等の座標値に基づく幾何学的な位置として表現しても良い。しかしながら、また、レイアウトドキュメント中の要素の位置情報が、この要素と候補との間に現れる要素の数などの、要素と候補との間の相対的な位置を表すことも同様に可能である。その結果、同様に、候補と他の要素との間に現れるワード数を介するそれらの間の距離を介して、レイアウト領域内のそれらの間の相対位置を符号化することが可能になる。処理されるべきテキストドキュメントが実際に、電子メールメッセージなどのように大部分が自己のレイアウトを持たないようであれば、例えば、そのようなコード構成は有用であろう。しかしながら、その代わりに、電子メールについて、前述したような要素の相対的な位置に代わる更なる処理に対して、仮のレイアウトを計算して、使用しても良い。
【0065】
より多くの情報が、候補とその周囲の要素に関するレイアウトドキュメント中に存在すれば存在するほど、レイアウトドキュメントとその後の処理結果は、より正確になる。しかしながら、レイアウトドキュメントが高度化されるほど、レイアウトドキュメントの作成や更なる処理を行うために決定を下すために、より多くの処理パワーが必要であり、そのために、決定手順の所望の精度に依存して、ユーザまたはプログラマが、レイアウトドキュメントを作るときに、利用すべき情報と同様に、レイアウトドキュメントを作るための領域を選んでも良い。
【0066】
以上のように、候補の入手と候補に対するレイアウトドキュメントの続く世代を説明した。例えば、情報のある部分、すなわち出生日(date of birth)が図2のドキュメントから抽出されることが現時点で望まれているならば、日付に対する候補を得るためにドキュメントに対して候補検索が実行される。図2の場合では、前述のような、正規の表現またはフォーマット検索が、検索基準にしたがって、出生日、すなわち、May 5、1960およびMay 17、1979であるような2つの候補を返すであろう。そこで、両方の候補に対して、前述したようなレイアウトドキュメントが作成され、このレイアウトドキュメントは分類装置に入力する。分類装置は、しかしながら、出生日ではない日付から作成されたレイアウトドキュメントとは逆の実際の出生日から作成されたレイアウトドキュメントを認識するように訓練されている。
【0067】
出生日から作成されたレイアウトドキュメントが、いかなる他の日付よりも出生日からのレイアウトドキュメントであるとしてそれらを認識することが可能であるようなより一層のヒントを含んでいるので、そのような認識が可能になる。例えば、しばしば「出生」という単語が出生日の近傍に現れる場合であり、この言葉が含まれるレイアウトドキュメントを有することにより、このドキュメントが出生日から作成されるレイアウトドキュメントであるという一層のヒントになる。同様に、出生日の近傍に現れる他の要素が、また、図6の例における用語「場所(place)」または用語「の(of)」のようなヒントとして解釈しても良い。しかしながら、例えば、いくつかの出生日がテーブルの1つの列に配置されているのであれば、列のヘッダーは用語「出生」を含み、そして、前述したように用語「出生」の位置を符号化することによって、この列内の日付が実際の出生日であるヒントとして、これを分類装置で使用しても良い。一般に、そのような候補の実際の情報の内容に対するヒントとして、レイアウトドキュメントが作成される候補の周囲の領域または近傍を分類装置によって使用することができる。そのような周辺領域または近傍によって与えられるヒントを考慮に入れることによって、任意の検索基準にしたがってドキュメントから抽出された1セットの候補を、それらの候補がさらに探している情報を実際に含むかどうかについて、評価することができる。
【0068】
もちろん、レイアウトドキュメントは、テキストドキュメントのすべての要素について直接作成することができ、各要素は、ある所望のカテゴリに属すかどうかについてそのように作成されたレイアウトドキュメントに基づいて評価することができる。しかしながら、最初に候補検索を使用することは、レイアウトドキュメントをテキストドキュメントの各要素に対して作成する必要があるかもしれないようなことを引き起こすコンピュータのコストを減少させる。
【0069】
以下に分類装置を使用する引抜き過程および訓練過程がより詳細に説明される。
【0070】
レイアウトドキュメントが発生された後、それはあるドキュメントがあるカテゴリまたは種類に属するか否かを決定できるニューロンネットワークまたは任意の他のコンピュータ化されたシステムを訓練するために使用される。その目的のため、候補のレイアウトドキュメントは、レイアウトドキュメントが訂正候補に対応するか否か、それは候補が要望される情報的内容を有するか否かを意味する情報とともに、ニューロンネットワークまたは任意の他の決定装置(分類装置)に入力される。
【0071】
かかるニューロンネットワークの訓練は図9に図式的に示される。
【0072】
電子ドキュメントは要素およびテキストドキュメントのおよびそれらの対応している位置を得るために上述されたように分析される。好ましくは次に、テキストベースのドキュメントからワーキングドキュメントが作られる。次に所望のカテゴリと一致することができる候補の組をそれらから得るためフィルタにかけることが行われる。好ましくは、ユーザによる手動入力または自動的のいずれかに基づいて、例えば得られた候補がある閾値を超えて訂正の可能性を有するか否かをチェックすることにより、得られた組は訂正される。訓練フェーズにおける手動訂正のため、候補はドキュメントのハイライトであることができ、ユーザはそれらが訂正されたものであるか否かをそれらの幾らかまたは全部について確認できる。訂正結果の前述の手動または自動選択は次に訂正結果の組および間違った結果の組に導く。次に訂正結果の組の要素の各々のため、および間違った結果の組の要素の各々のためにレイアウトドキュメントが生成される。その後間違った結果の組のために生成されたレイアウトドキュメント、および訂正結果の組のために生成されたレイアウトドキュメントはニューロンネットワークを訓練するために使用される。候補が全てで認識されないなら、ユーザはまた彼自身候補を選択し、それをハイライトし(例えば、マウスにより)、訓練入力としてそれを使用してもよい。
【0073】
図9に示されたような訓練されたネットワークを使用している引抜き過程は図10に示される。候補の組は図9と同様に得られ、それらの各々についてレイアウトドキュメントが前に説明されたように生成される。レイアウトは、次に候補が所望のカテゴリに属するか否かを決定する訓練されたニューロンネットワークのための入力として使用される。
【0074】
ネットワークの出力は、訂正して引抜かれた候補、または、例えば各候補の訂正の可能性を重み付けしている重みに在る。引抜かれた候補はまた、データベース、MS−エクセルファイル、ワードドキュメント、または他の電子的処理などのために適した任意の他のドキュメントのような、他の電子的ドキュメントに直接移入または移出されてもよい。
【0075】
候補の同一確認を含む引抜き過程およびレイアウトドキュメントの生成は上記に詳細に説明されたように行われることができる。次に全ての見出された候補のために、対応している生成されたレイアウトドキュメントは分類または好ましくはニューロンネットワークであるけれども必然的ではない決定装置に入力され、それから各候補についてそれが訂正カテゴリに属するか否かの決定がなされる。
【0076】
それらが所望のカテゴリに属するか否かについて生成されたレイアウトドキュメントを分類する特に適した装置は、ヨーロッパ特許出願99108354-4に開示され、その全ての内容が引用文献としてここに組み込まれる。ここに開示される装置は、それらをベクトルとして表すことによりテキストドキュメントを分類することが可能であり、ベクトル成分の値はある語または熟語がドキュメント内で起る頻度に対応する。ドキュメントを表すこのようなベクトルはn次元ベクトル空間におよび、複数のドキュメントも共にあるベクトル空間に及ぶ。分類は、ベクトル空間を少なくとも2つのサブ空間に分離する超平面を分類することにより行われ、それによりサブ空間があるのと同じ多くの種類への分類が行われることができる。学習または訓練過程はベクトル空間を確立し、そして訓練ドキュメントの組のための超平面を対応して分離することに在る。知られていないドキュメントは次に、対応しているベクトルが1つまたは他のサブ空間に落ちるか否かを計算することにより分類されることができる。以前に詳細に記述された方法で、それらの周りの領域について与えられたレイアウトドキュメントを通してテキストドキュメントの要素を表すことが可能であるので、そしてレイアウトドキュメントがそれ自身再びテキストドキュメントであるので、前述のヨーロッパ特許出願に記述された分類装置は分類目的のために使用されることができる。特許出願に開示された分類のための装置の好ましい実施はPerceptronのようなニューロンネットワークに在る。決定装置がいかに実施されるかのようなさらなる詳細はこの出願から取られることができ、それゆえここにさらに詳細に概説されない。
【0077】
しかしながら、それらがあるカテゴリに属するか否かに関してドキュメントを評価(分類)可能な任意の他のニューロンネットワークまたは任意のコンピュータ方法または装置が、レイアウトドキュメントを訓練し、候補(またはその対応するレイアウトドキュメント)が訂正して引抜かれたと見なされねばならないか否かの決定を作るために使用されることができることが理解される。位置が記号シーケンスにより表されるこれらのレイアウトドキュメントのみならず、また任意の他のレイアウトドキュメント表現が本発明と関係して使用することができる。位置が位置(座標)を表す絶対数により、または角度と距離(極座標)により符号化されることが可能な非常によい例である。
【0078】
先に述べた詳細な記載は本発明について単に典型的な具体例を説明するものであり、他の具体例は明らかに熟練者の一般的な知識による理解の範囲内のものであることが、熟練者により理解されるであろう。さらに熟練者にとって、本発明の方法がいずれかのコンピュータシステムにより、いずれかの汎用コンピュータにより、または先に説明したような方法を実行するいずれか他の特定用途向けハードウェアにより実施可能であることは容易に理解できる。このため、例えばこの装置は図1に示されているようなコンピュータシステムにおいて形成することが可能であるが、本発明による装置は本発明の方法を実行する何らかのコンピュータシステムにより構成することができる。ここで述べたまたは添付の特許請求の範囲における、一定の装置構成要素または装置部品に関しては、これらはプログラムまたはコンピュータプログラムの一部を有し、それを具体化し、または実行するコンピュータまたはコンピュータの一部により実施可能である。本発明がコンピュータプログラムまたはコンピュータプログラム製品に関連することに関し、コンピュータプログラムの命令を具体化することのできるメモリ、伝送ライン、または同様のもののような、何らかのデータ保有部または何らかのコンピュータ構成要素は、それらが本発明に従う方法についてコンピュータが実行することを可能にするコンピュータプログラムの命令を具体化することができる限り、本発明を具体化し得ることが熟練者にとって明白であろう。熟練者はまた、先に延べた原理にしたがって動作する多数のコンピュータプログラムを書くことができ、そのため、ここに記載するような本発明の方法にしたがって動作するいずれかのコンピュータプログラムは、本発明の範囲の下にあるものとして取扱われるべきであることを認識するであろう。
【0079】
さらに、それが記録媒体、データキャリア、伝送ライン、ROM、RAMのようなメモリ、または同様のものに組込まれるかまたは具体化されるかどうかとは別に、記載されるドキュメントのレイアウトの構造を表現するデータ構造もまた本発明の具体的表現を形成することができる。
【0080】
さらに本発明はクライアント−サーバ アーキテクチャに使用することができ、このことは本発明を実施するコンピュータプログラムの一部がクライアントにおいて実行されるサーバおよび他の部分において実行できることを意味する。
【0081】
先の記載または添付の特許請求の範囲において記述されている装置の構成要素に関しては、それらはコンピュータプログラムまたは一定のプログラム命令を実行するコンピュータによりそれぞれ実現可能であり、または、それらは、電子回路、特別の用途のコンピュータ、または同様のもののような、かかる構成要素の機能を形成するいずれかの特定用途向けのハードウェアにより実行可能である。
【0082】
本発明のさらなる変更および応用は熟練する読者にとって容易であり、この出願は、本発明の範囲を限定するものであるようには理解されるべきでない、典型的な具体例に基づいて説明されたものであることが理解されるであろう。
【0083】
特に、誕生日を抽出する例はまさに典型的な例であり、そして、熟練した読者にとって容易に理解されるように、先に説明した方法はテキストドキュメントから一定のカテゴリに属する何らかの情報要素を抽出するために使用可能であることが理解されるべきである。
【図面の簡単な説明】
【図1】 図1は本発明の実施例をインプリメントするため用いられるコンピュータシステムを示している。
【図2】 図2は要素を抽出するテキストドキュメントの一例を示している。
【図3】 図3はテキストドキュメントから生成された作業ドキュメントの一例を示している。
【図4】 図4はレイアウト領域を定義するためのユーザインターフェイスの一例を示している。
【図5】 図5はレイアウト領域の一例を示している。
【図6】 図6はレイアウトドキュメントの一例を示している。
【図7】 図7は候補ボックス符号化のための符号化スキーマの一例を示している。
【図8】 図8はレイアウトドキュメント要素位置符号化の一例を示している。
【図9】 図9は分類装置における学習フェーズの一例を示している。
【図10】 図10は分類装置における抽出フェーズの一例を示している。

Claims (22)

  1. 複数の要素を含む電子ドキュメントに基づいて、分類装置によって使用される入力を発生させるコンピュータにより実現される方法において、
    解析手段により、前記電子ドキュメントを解析し、前記ドキュメント中の前記要素の対応する位置についての情報とともに前記要素のうちの1つ以上を得ることと、
    前記位置についての情報と、前記要素のうちの1つ以上とに基づいて、発生手段により、前記分類装置の前記入力として使用される電子レイアウトドキュメントを発生させることとを含み、
    前記電子レイアウトドキュメントは、
    前記電子ドキュメント中の前記要素の絶対および/または相対位置を表す情報とともに、前記解析するステップにおいて得られる複数の前記要素を表現したものを含む、コンピュータにより実現される方法。
  2. 前記レイアウトドキュメントは、
    前記電子ドキュメント中のその絶対および/または相対位置を表す情報とともに、テキストドキュメントの前記複数の要素のうちの第1の要素を表現したものと、
    前記電子ドキュメント中の前記要素の絶対および/または相対位置を表す情報とともに、前記テキストドキュメントの前記複数の要素のうちの他の要素を表現したものとを含み、
    前記他の要素は、前記第1要素に隣接している、予め規定されたまたはユーザにより規定された領域内、あるいは、前記第1の要素の周囲の、予め規定されたまたはユーザにより規定された領域内、あるいは、前記第1要素に隣接し、かつ、前記第1の要素の周囲の、予め規定されたまたはユーザにより規定された領域内にある請求項1記載の方法。
  3. 検索手段により、ある検索基準を満たす要素を検索して、あるカテゴリに入る情報内容に関する要素の候補を得ることと、
    前記発生手段により、前記候補要素のうちの1つ以上に対するレイアウトドキュメントを発生させることとをさらに含む請求項1または2記載の方法。
  4. 前記候補を検索するステップは、
    あるフォーマット基準に合致する前記ドキュメント中の要素を検索することと、
    ある列比較基準に合致する前記ドキュメント中のワードを検索することと、
    フォールト・トレラントワード検索を行うことと、
    見つけた候補に対する予め規定された相対位置を有する要素の検索を行うことと、
    データベース中に記憶されているワードと合致する要素を検索するデータベース検索を行うことと、のうちの1つ以上をさらに含む請求項3記載の方法。
  5. 位置表示手段により、予め規定された位置符号化スキームに基づいた対応するキャラクタシーケンスによって、前記レイアウトドキュメント中の要素の位置を表すことと、
    要素表示手段により、予め規定されたフォーマット符号化スキームに基づいたキャラクタシーケンスを通して認識可能な予め規定されたフォーマットを持つ要素を表すことと、
    前記要素表示手段により、予め規定された意味符号化スキームに基づいたキャラクタシーケンスを通して認識可能な意味を持つ要素を表すことと、のうちの1つ以上をさらに含む請求項1ないし4のいずれか1項記載の方法。
  6. 前記認識可能な予め規定されたフォーマットは、
    前記ドキュメント中の垂直線および/または水平線、
    浮動小数点数、
    日付け、
    整数、
    郵便番号のうちの1つ以上を含む請求項5記載の方法。
  7. 前記レイアウトドキュメント発生される領域は、その寸法を予め規定できる、または、ユーザによって設定できる1つ以上の幾何学領域を含む請求項1ないし5のいずれか1項記載の方法。
  8. 前記分類装置を訓練するために、または、前記分類装置を通して前記入力を評価して分類するために、使用手段により、分類装置に対する入力として前記電子レイアウトドキュメントを使用することをさらに含む請求項1ないし7のいずれか1項記載の方法。
  9. ある予め規定されたカテゴリに属する1つ以上の要素を電子ドキュメントから抽出する方法において、
    検索手段により、1つ以上の予め規定された検索基準に基づいて、前記ドキュメント中の候補要素を検索することと、
    発生手段により、前記検索するステップから得られた候補要素ごとに、請求項1ないし8のいずれか1項記載の方法にしたがってレイアウトドキュメントを発生させることと、
    判断手段により、前記レイアウトドキュメントの情報内容に基づいて、前記カテゴリに前記候補が属するか否かを判断することとを含み、
    前記検索基準は、1つ以上の文字の列を含む方法。
  10. あるカテゴリにドキュメントの要素が属するか否かを認識する分類装置を訓練するため前記分類装置を訓練する方法において、
    検索手段により、1つ以上の予め規定された検索基準に基づいて、前記ドキュメント中の候補要素を検索すること、
    発生手段により、前記検索するステップから得られた候補要素ごとに、請求項1ないし8のいずれか1項記載の方法にしたがってレイアウトドキュメントを発生させること、
    訓練手段により、前記あるカテゴリに前記候補が属するか否かに関する情報とともに、前記レイアウトを前記分類装置に入力し、前記分類装置を訓練することとを含み、
    前記検索基準は、1つ以上の文字の列を含む方法。
  11. 前記分類装置は、ニューロネットワークである請求項10記載の方法。
  12. 複数の要素を含む電子ドキュメントに基づいて、分類装置によって使用される入力を発生させる装置において、
    前記電子ドキュメントを解析して、前記ドキュメント中の前記要素の対応する位置についての情報とともに前記要素のうちの1つ以上を得て、
    前記分類装置の前記入力として使用される電子レイアウトドキュメントを発生させるように構成された1つ以上のプロセッサを具備し、
    前記電子レイアウトドキュメントは、
    前記電子ドキュメント中の前記要素の絶対および/または相対位置を表す情報とともに、前記解析するステップにおいて得られる複数の前記要素の表現したものを含む装置。
  13. 前記レイアウトドキュメントは、
    前記電子ドキュメント中のその絶対および/または相対位置を表す情報とともに、テキストドキュメントの前記複数の要素のうちの第1の要素の表現したものと、
    前記電子ドキュメント中のそれらの絶対および/または相対位置を表す情報とともに、前記テキストドキュメントの前記複数の要素の他の要素を表現したものとを含み、
    前記他の要素は、前記第1要素に隣接している、予め規定されたまたはユーザにより規定された領域内、あるいは、前記第1の要素の周囲の、予め規定されたまたはユーザにより規定された領域内、あるいは、前記第1要素に隣接し、かつ、前記第1の要素の周囲の、予め規定されたまたはユーザにより規定された領域内にある請求項12記載の装置。
  14. あるカテゴリに入る情報内容に関する要素の候補を得るために、ある検索基準に合う要素を検索する検索器と、
    前記候補要素のうちの1つ以上に対するレイアウトドキュメントを発生させる前記発生器とをさらに具備する請求項12または13記載の装置。
  15. 前記候補を検索する検索器は、
    あるフォーマット基準に合致する前記ドキュメント中の要素を検索する要素検索器と、
    ある列比較基準に合致する前記ドキュメント中のワードを検索するワード検索器と、
    フォールト・トレラントワード検索を行うワード検索器と、
    見つかった候補に対する予め規定された相対位置を有する要素の検索を行う要素検索器と、
    データベース中に記憶されているワードと合致する要素を検索するデータベース検索を行うデータベース検索器と、のうちの1つ以上をさらに具備する請求項14記載の装置。
  16. 前記レイアウト発生器は、前記レイアウトドキュメントを発生させたとき、
    予め規定された位置符号化スキームに基づいた対応するキャラクタシーケンスによって、前記レイアウトドキュメント中の要素の位置を表すことと、
    予め規定されたフォーマット符号化スキームに基づいたキャラクタシーケンスを通して認識可能な予め規定されたフォーマットを持つ要素を表すことと、
    予め規定された意味符号化スキームに基づいたキャラクタシーケンスを通して認識可能な意味を持つ要素を表すことと、のうちの1つ以上にさらに適合される請求項12ないし15のいずれか1項記載の装置。
  17. 前記認識可能な予め規定されたフォーマットは、
    前記ドキュメント中の垂直線および/または水平線、
    浮動小数点数、
    日付け、
    整数、
    郵便番号のうちの1つ以上を含む請求項16記載の装置。
  18. 前記レイアウトドキュメントが発生される領域は、その寸法をユーザによって予め規定できる、または、設定できる1つ以上の幾何学領域を含む請求項12ないし17のいずれか1項記載の装置。
  19. 前記分類装置を訓練するために、または、前記分類装置を通して前記入力を評価して分類するために、前記電子レイアウトドキュメントを入力として使用する分類装置をさらに具備する請求項12ないし18のいずれか1項記載の装置。
  20. ある予め規定されたカテゴリに属する1つ以上の要素を電子ドキュメントから抽出する装置において、
    1つ以上の予め規定された検索基準に基づいて、前記ドキュメント中の候補要素を検索し、
    前記検索するステップから得られた候補要素ごとに、請求項1ないし8のいずれか1項記載の方法にしたがってレイアウトドキュメントを発生させ、
    前記レイアウトドキュメントの情報内容に基づいた前記カテゴリに前記候補が属するか否かを判断するように構成された1つ以上のプロセッサを具備し、
    前記検索基準は、1つ以上の文字の列を含む装置。
  21. あるカテゴリにドキュメントの要素が属するか否かを認識するために訓練可能な分類装置において、
    1つ以上の予め規定された検索基準に基づいて、前記ドキュメント中の候補要素を検索し、
    前記検索器から得られた候補要素ごとに、請求項1ないし8のいずれか1項記載の方法にしたがってレイアウトドキュメントを発生させ、
    前記あるカテゴリに前記候補が属するか否かに関する情報とともに、前記レイアウトを前記分類装置に入力し、前記分類装置を訓練するように構成された1つ以上のプロセッサを具備し、
    前記検索基準は、1つ以上の文字の列を含む分類装置。
  22. 前記分類装置は、ニューロネットワークである請求項21記載の装置。
JP2001562361A 2000-02-23 2001-02-02 電子ドキュメントを処理する方法および装置 Expired - Lifetime JP4782346B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP00103810A EP1128278B1 (en) 2000-02-23 2000-02-23 Method and apparatus for processing electronic documents
EP00103810.8 2000-02-23
PCT/EP2001/001132 WO2001063467A1 (en) 2000-02-23 2001-02-02 Method and apparatus for processing electronic documents

Publications (2)

Publication Number Publication Date
JP2003524258A JP2003524258A (ja) 2003-08-12
JP4782346B2 true JP4782346B2 (ja) 2011-09-28

Family

ID=8167944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001562361A Expired - Lifetime JP4782346B2 (ja) 2000-02-23 2001-02-02 電子ドキュメントを処理する方法および装置

Country Status (8)

Country Link
US (1) US20080040660A1 (ja)
EP (2) EP1128278B1 (ja)
JP (1) JP4782346B2 (ja)
AU (3) AU2001233736A1 (ja)
CA (1) CA2401172C (ja)
DE (1) DE60005293T2 (ja)
ES (1) ES2208164T3 (ja)
WO (1) WO2001063467A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1049030A1 (en) 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
US9177828B2 (en) 2011-02-10 2015-11-03 Micron Technology, Inc. External gettering method and device
EP1182577A1 (en) 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
DK1288792T3 (da) 2001-08-27 2012-04-02 Bdgb Entpr Software Sarl Fremgangsmåde til automatisk indeksering af dokumenter
AU2012258320B2 (en) * 2001-08-27 2016-01-14 Kofax International Switzerland Sàrl A method for automatically indexing documents
DE102004062784A1 (de) * 2004-12-21 2006-07-20 Hiflex Software Gmbh Verfahren zum Auslösen einer Kostenbuchung
US7853595B2 (en) * 2007-01-30 2010-12-14 The Boeing Company Method and apparatus for creating a tool for generating an index for a document
US8094976B2 (en) 2007-10-03 2012-01-10 Esker, Inc. One-screen reconciliation of business document image data, optical character recognition extracted data, and enterprise resource planning data
US8108764B2 (en) * 2007-10-03 2012-01-31 Esker, Inc. Document recognition using static and variable strings to create a document signature
JP5412903B2 (ja) * 2009-03-17 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US8321357B2 (en) 2009-09-30 2012-11-27 Lapir Gennady Method and system for extraction
US9158833B2 (en) * 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
US9152883B2 (en) 2009-11-02 2015-10-06 Harry Urbschat System and method for increasing the accuracy of optical character recognition (OCR)
US9213756B2 (en) 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
JP5387378B2 (ja) * 2009-12-15 2014-01-15 富士通株式会社 文字同定装置及び文字同定方法
US9002102B2 (en) * 2012-12-21 2015-04-07 Hewlett-Packard Development Company, L.P. Generating training documents
US9213893B2 (en) * 2013-05-23 2015-12-15 Intuit Inc. Extracting data from semi-structured electronic documents
US10482323B2 (en) * 2017-08-22 2019-11-19 Autonom8, Inc. System and method for semantic textual information recognition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61217863A (ja) * 1985-03-23 1986-09-27 Brother Ind Ltd 電子辞書
US4864501A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
US5191525A (en) * 1990-01-16 1993-03-02 Digital Image Systems, Corporation System and method for extraction of data from documents for subsequent processing
JPH10240958A (ja) * 1996-12-27 1998-09-11 Fujitsu Ltd 画像から管理情報を抽出する管理情報抽出装置および方法

Family Cites Families (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731861A (en) * 1983-08-26 1988-03-15 Texas Instruments Incorporated Method of optical character recognition
EP0320266A3 (en) * 1987-12-11 1992-03-11 Hewlett-Packard Company View composition in a data base management system
US5201047A (en) * 1989-12-21 1993-04-06 International Business Machines Corporation Attribute-based classification and retrieval system
US5344132A (en) * 1990-01-16 1994-09-06 Digital Image Systems Image based document processing and information management system and apparatus
FR2660085A1 (fr) * 1990-03-20 1991-09-27 Philips Electronique Lab Dispositif de traitement de donnees et procede pour selectionner des mots de donnees contenus dans un dictionnaire.
JP3329806B2 (ja) * 1990-11-09 2002-09-30 株式会社日立製作所 ニューラルネット構築装置
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
CA2077274C (en) * 1991-11-19 1997-07-15 M. Margaret Withgott Method and apparatus for summarizing a document without document image decoding
JP2579397B2 (ja) * 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
US5245672A (en) * 1992-03-09 1993-09-14 The United States Of America As Represented By The Secretary Of Commerce Object/anti-object neural network segmentation
US5434953A (en) * 1992-03-20 1995-07-18 Xerox Corporation Use of fast textured reduction for discrimination of document image components
US5748807A (en) * 1992-10-09 1998-05-05 Panasonic Technologies, Inc. Method and means for enhancing optical character recognition of printed documents
US5491758A (en) * 1993-01-27 1996-02-13 International Business Machines Corporation Automatic handwriting recognition using both static and dynamic parameters
US5649068A (en) * 1993-07-27 1997-07-15 Lucent Technologies Inc. Pattern recognition system using support vectors
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
GB2281997B (en) * 1993-09-20 1997-10-15 Ricoh Kk Method and apparatus for improving a text image by using character regeneration
US5537491A (en) * 1993-11-24 1996-07-16 Xerox Corporation Analyzing an image or other data to obtain a stable number of groups
US5742806A (en) * 1994-01-31 1998-04-21 Sun Microsystems, Inc. Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system
NZ248751A (en) * 1994-03-23 1997-11-24 Ryan John Kevin Text analysis and coding
US5671333A (en) * 1994-04-07 1997-09-23 Lucent Technologies Inc. Training apparatus and method
JP2618832B2 (ja) * 1994-06-16 1997-06-11 日本アイ・ビー・エム株式会社 文書の論理構造の解析方法及びシステム
US5574802A (en) * 1994-09-30 1996-11-12 Xerox Corporation Method and apparatus for document element classification by analysis of major white region geometry
US5689620A (en) * 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
US5956419A (en) * 1995-04-28 1999-09-21 Xerox Corporation Unsupervised training of character templates using unsegmented samples
US5675710A (en) * 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
US5778397A (en) * 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
AU6849196A (en) * 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US6009196A (en) * 1995-11-28 1999-12-28 Xerox Corporation Method for classifying non-running text in an image
US5889886A (en) * 1995-11-28 1999-03-30 Xerox Corporation Method and apparatus for detecting running text in an image
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5864855A (en) * 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
JP2987099B2 (ja) * 1996-03-27 1999-12-06 株式会社日立国際ビジネス 文書作成支援システム及び用語辞書
US5787201A (en) * 1996-04-09 1998-07-28 The United States Of America As Represented By The Secretary Of The Navy High order fractal feature extraction for classification of objects in images
US5937084A (en) * 1996-05-22 1999-08-10 Ncr Corporation Knowledge-based document analysis system
US5835638A (en) * 1996-05-30 1998-11-10 Xerox Corporation Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols
US6101515A (en) * 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
US5778362A (en) * 1996-06-21 1998-07-07 Kdl Technologies Limted Method and system for revealing information structures in collections of data items
DE19627472A1 (de) * 1996-07-08 1998-01-15 Ser Systeme Ag Datenbanksystem
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US5745889A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Method for parsing information of databases records using word-location pairs and metaword-location pairs
AU4495597A (en) * 1996-09-23 1998-04-14 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
US6275610B1 (en) * 1996-10-16 2001-08-14 Convey Corporation File structure for scanned documents
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
US6687404B1 (en) * 1997-06-20 2004-02-03 Xerox Corporation Automatic training of layout parameters in a 2D image model
US6353840B2 (en) * 1997-08-15 2002-03-05 Ricoh Company, Ltd. User-defined search template for extracting information from documents
US6665841B1 (en) * 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US6115708A (en) * 1998-03-04 2000-09-05 Microsoft Corporation Method for refining the initial conditions for clustering with applications to small and large database clustering
JP3422924B2 (ja) * 1998-03-27 2003-07-07 富士通株式会社 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6324551B1 (en) * 1998-08-31 2001-11-27 Xerox Corporation Self-contained document management based on document properties
US6212532B1 (en) * 1998-10-22 2001-04-03 International Business Machines Corporation Text categorization toolkit
US6574632B2 (en) * 1998-11-18 2003-06-03 Harris Corporation Multiple engine information retrieval and visualization system
US6622134B1 (en) * 1999-01-05 2003-09-16 International Business Machines Corporation Method of constructing data classifiers and classifiers constructed according to the method
DE60042165D1 (de) * 1999-01-13 2009-06-18 Computer Ass Think Inc Unterschriften-erkennungs-system und -verfahren
US6477551B1 (en) * 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system
US6629097B1 (en) * 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
EP1049030A1 (en) * 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US6501855B1 (en) * 1999-07-20 2002-12-31 Parascript, Llc Manual-search restriction on documents not having an ASCII index
US6785810B1 (en) * 1999-08-31 2004-08-31 Espoc, Inc. System and method for providing secure transmission, search, and storage of data
US6453315B1 (en) * 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6990238B1 (en) * 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US6188010B1 (en) * 1999-10-29 2001-02-13 Sony Corporation Music search by melody input
DE19952769B4 (de) * 1999-11-02 2008-07-17 Sap Ag Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
US6694053B1 (en) * 1999-12-02 2004-02-17 Hewlett-Packard Development, L.P. Method and apparatus for performing document structure analysis
US7149347B1 (en) * 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
AU2001243443A1 (en) * 2000-03-09 2001-09-17 The Web Access, Inc. Method and apparatus for performing a research task by interchangeably utilizinga multitude of search methodologies
US6741724B1 (en) * 2000-03-24 2004-05-25 Siemens Dematic Postal Automation, L.P. Method and system for form processing
US20070033252A1 (en) * 2000-03-30 2007-02-08 Combest Ricky F Dynamic virtual network and method
JP2001318948A (ja) * 2000-05-09 2001-11-16 Hitachi Ltd 文書検索方法及び装置並びにその処理プログラムを記憶した媒体
AU2001264928A1 (en) * 2000-05-25 2001-12-03 Kanisa Inc. System and method for automatically classifying text
US6895552B1 (en) * 2000-05-31 2005-05-17 Ricoh Co., Ltd. Method and an apparatus for visual summarization of documents
US6944340B1 (en) * 2000-08-07 2005-09-13 Canon Kabushiki Kaisha Method and apparatus for efficient determination of recognition parameters
EP1182577A1 (en) * 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US20020156816A1 (en) * 2001-02-13 2002-10-24 Mark Kantrowitz Method and apparatus for learning from user self-corrections, revisions and modifications
US6732090B2 (en) * 2001-08-13 2004-05-04 Xerox Corporation Meta-document management system with user definable personalities
DK1288792T3 (da) * 2001-08-27 2012-04-02 Bdgb Entpr Software Sarl Fremgangsmåde til automatisk indeksering af dokumenter
JP4006239B2 (ja) * 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
JP4366108B2 (ja) * 2003-04-30 2009-11-18 キヤノン株式会社 文書検索装置、文書検索方法及びコンピュータプログラム
JP2005043977A (ja) * 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
US7805446B2 (en) * 2004-10-12 2010-09-28 Ut-Battelle Llc Agent-based method for distributed clustering of textual information
US8570586B2 (en) * 2005-05-02 2013-10-29 Digimarc Corporation Active images through digital watermarking
US7472121B2 (en) * 2005-12-15 2008-12-30 International Business Machines Corporation Document comparison using multiple similarity measures
US8090743B2 (en) * 2006-04-13 2012-01-03 Lg Electronics Inc. Document management system and method
WO2007149004A1 (en) * 2006-06-13 2007-12-27 Freescale Semiconductor, Inc. Methods and apparatus for simulating distributed effects
US7945627B1 (en) * 2006-09-28 2011-05-17 Bitdefender IPR Management Ltd. Layout-based electronic communication filtering systems and methods
US7610281B2 (en) * 2006-11-29 2009-10-27 Oracle International Corp. Efficient computation of document similarity
US7720721B1 (en) * 2006-12-28 2010-05-18 Amazon Technologies, Inc. Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms
US20100325109A1 (en) * 2007-02-09 2010-12-23 Agency For Science, Technology And Rearch Keyword classification and determination in language modelling
US8280877B2 (en) * 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
US20080212877A1 (en) * 2007-03-04 2008-09-04 John Franco High speed error detection and correction for character recognition
US20090228777A1 (en) * 2007-08-17 2009-09-10 Accupatent, Inc. System and Method for Search
AU2008255269A1 (en) * 2008-02-05 2009-08-20 Nuix Pty. Ltd. Document comparison method and apparatus
JP4538507B2 (ja) * 2008-05-02 2010-09-08 シャープ株式会社 画像照合方法、画像照合装置、画像データ出力処理装置、プログラム及び記憶媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61217863A (ja) * 1985-03-23 1986-09-27 Brother Ind Ltd 電子辞書
US4864501A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
US5191525A (en) * 1990-01-16 1993-03-02 Digital Image Systems, Corporation System and method for extraction of data from documents for subsequent processing
JPH10240958A (ja) * 1996-12-27 1998-09-11 Fujitsu Ltd 画像から管理情報を抽出する管理情報抽出装置および方法

Also Published As

Publication number Publication date
AU2007202382A1 (en) 2007-06-14
AU2001233736A1 (en) 2001-09-03
DE60005293T2 (de) 2004-07-01
EP1128278A1 (en) 2001-08-29
US20080040660A1 (en) 2008-02-14
EP1128278B1 (en) 2003-09-17
CA2401172A1 (en) 2001-08-30
EP1259903A1 (en) 2002-11-27
AU2009208162A1 (en) 2009-09-10
DE60005293D1 (de) 2003-10-23
JP2003524258A (ja) 2003-08-12
AU2007202382B2 (en) 2009-06-04
CA2401172C (en) 2012-01-24
WO2001063467A1 (en) 2001-08-30
ES2208164T3 (es) 2004-06-16

Similar Documents

Publication Publication Date Title
AU2007202382B2 (en) Method and apparatus for processing electronic documents
JP5710624B2 (ja) 抽出のための方法及びシステム
US7668372B2 (en) Method and system for collecting data from a plurality of machine readable documents
US8719702B2 (en) Document organizing based on page numbers
JP2973944B2 (ja) 文書処理装置および文書処理方法
JP5176730B2 (ja) 電子書類を検索するシステム及び検索方法
JP3452774B2 (ja) 文字認識方法
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
JP5674615B2 (ja) 文字認識装置及び文字認識方法
JP2014182477A (ja) プログラム及び帳票処理装置
Ha et al. Information extraction from scanned invoice images using text analysis and layout features
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2007070010A1 (en) Improvements in electronic document analysis
WO2014068770A1 (ja) データ抽出方法、データ抽出装置及びそのプログラム
Indermühle Analysis of digital link in electronic documents
JP3979288B2 (ja) 文書検索装置および文書検索プログラム
US11315351B2 (en) Information processing device, information processing method, and information processing program
KR102601932B1 (ko) 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법
AU2013209297A1 (en) Method and apparatus for processing electronic documents
Balasooriya Improving and Measuring OCR Accuracy for Sinhala with Tesseract OCR Engine
JP2010205122A (ja) レイアウト構造解析装置及びレイアウト構造解析方法
Downton et al. User-configurable OCR enhancement for online natural history archives
CN116090432A (zh) 文档匹配方法和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100928

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101227

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110707

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140715

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4782346

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term