JP2003524258A - 電子ドキュメントを処理する方法および装置 - Google Patents
電子ドキュメントを処理する方法および装置Info
- Publication number
- JP2003524258A JP2003524258A JP2001562361A JP2001562361A JP2003524258A JP 2003524258 A JP2003524258 A JP 2003524258A JP 2001562361 A JP2001562361 A JP 2001562361A JP 2001562361 A JP2001562361 A JP 2001562361A JP 2003524258 A JP2003524258 A JP 2003524258A
- Authority
- JP
- Japan
- Prior art keywords
- document
- elements
- layout
- candidate
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012545 processing Methods 0.000 title description 11
- 210000002569 neuron Anatomy 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 230000000875 corresponding effect Effects 0.000 claims 4
- 230000002596 correlated effect Effects 0.000 claims 2
- 238000012937 correction Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 108091026890 Coding region Proteins 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 101000879758 Homo sapiens Sjoegren syndrome nuclear autoantigen 1 Proteins 0.000 description 1
- 102100037330 Sjoegren syndrome nuclear autoantigen 1 Human genes 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
Description
ストドキュメントから特定要素を抽出するものに関する。
対処するための電子ドキュメント処理(electronic document processing: EDP)
がより重要となっている。書面をスキャン処理し、これを電子的な形式に変換す
る光学式文字認識(optical character recognition: OCR)処理した結果のドキ
ュメントを、電子的な形態で保有することは今日、一般的に行われている。
的な態様で格納されている特定のデータを例えばデータベースに格納する場合に
、誕生日、生誕地等といった特定の情報部分(ドキュメントの要素)を電子ドキ
ュメントから自動的な方法で抽出できることが望ましい。もし、例えばある企業
が大量の履歴書を自動処理したい場合、電子ドキュメントから自動的な方法でこ
れらのデータを抽出できることが望まれる。例えばERPシステムの会計情報の
抽出など、他の用途についても、テキストドキュメントからのデータ抽出が望ま
れる。特定のテキスト情報もしくはテキスト要素、または特定の数あるいは数情
報をテキストドキュメントから抽出することが望まれており、これを目的とする
多くの出願があるものと想像される。テキストドキュメントは、例えば、抽出す
べき特定の情報分類に属していることから抽出すべきであるとする特定の関心デ
ータを含むドキュメントであるということができる。
ムは、所望のデータが位置付けされていることを前提に、ドキュメント中の固定
位置を検索するよう動作する。
タがいつも同じ場所に位置付けられる所定フォーマットを有するドキュメントに
、高く依存しているからである。
方法の改善を目的とする。
力として用いることのできるレイアウトドキュメントを生成する方法および装置
を提供する。この観点に係る本発明により生成されたレイアウトドキュメントは
特定の形式を有しており、分類装置は、レイアウトドキュメントにより表された
テキスト要素についての分類を改善できる。したがって、テキストドキュメント
からの特定テキスト要素の抽出を改善可能になる。
ントの要素に基づいて生成される。該レイアウトは、それぞれの対応する位置の
表現と前記ドキュメント要素の表現とを組にして保持している。そのようなレイ
アウトドキュメントを生成することにより、ドキュメント要素をその幾何学的コ
ンテキスト(その近傍/周囲の)要素とともに評価することが可能になり、した
がって、そのフォーマットまたは要素自身のコンテキストのみならず、該要素が
特定のカテゴリに属するか否かを評価するための他の情報をも利用することが可
能になる。また、要素またはそのフォーマット自身を考慮するのみならず、むし
ろ、その周囲領域、該周囲領域に含まれるそれぞれの要素をも考慮することによ
り、分類装置は、テキストドキュメントが特定のカテゴリに属するか否かについ
ての更なる手がかり(hint)を受け取る。これら更なる手がかりは、周囲領域お
よびこれに含まれるテキスト要素から与えられ、ニューロンネットワークのよう
な分類装置により認識または学習される。これにより訓練されたニューロンネッ
トワークは、分類を改善できるとともにテキストドキュメント要素の抽出を改善
できる。
イアウトが生成され、この生成されたレイアウトは、当該カテゴリの要素を認識
できるよう分類装置を訓練するために用いられる。分類装置は好ましくはニュー
ロンネットワークであり、複数要素について生成されたレイアウトにより訓練さ
れ、該レイアウトが生成された要素について、この要素が特定カテゴリに属する
か否かを訓練段階において装置に入力することにより訓練される。そのようにし
て訓練されたニューロンネットワークもしくは分類装置は、さらに、未知テキス
ト要素を分類し、未知テキストからの要素抽出をするために利用できるようにな
る。
テゴリに属するか否かを、この要素について生成されたレイアウトドキュメント
に基づいて評価し、特定カテゴリに属するドキュメントから要素を抽出するため
に用いられる。
ぶん属しており、特定の検索基準に従う候補を特定する。検索基準は、好ましく
は、要素のフォーマット、語検索基準、耐障害語検索基準、もしくはこれら基準
の組み合わせとすることができる。これら候補の各々について、電子ドキュメン
ト中の候補それ自身とその位置に基づき、および、前記ドキュメント中における
他の電子ドキュメント要素とその位置に基づいてレイアウトドキュメントを生成
してもよい。好ましくは候補の隣または周囲に、一つ以上の事前定義領域内で位
置するレイアウトドキュメントを生成する場合に、これら要素は考慮されること
が好ましい。
属するか否かの判断がなされる。
ての判定は、分類装置を用いてなされる。かかる分類装置は、好ましくはニュー
ロンネットワークである。このニューロンネットワークは、候補のレイアウトド
キュメントを用い、さらに、該ニューロンネットワークに対しこれら候補が所望
カテゴリに属するか否かを入力として与えることにより訓練されたものとしてよ
い。
の判定は、1999年4月28日提出、本出願の優先権主張に係る欧州特許出願
第99108354.4号(引用によりここに取り込まれる)に記載の方法または装置を用
いてなされる。
とができる。
ムの構成を概略的に示している。コンピュータ100は、CPU110、メモリ
120、および、I/Oユニット130を含んでいる。コンピュータ100は、
CPU110がメモリ120からフェッチしたコンピュータの指示をCPU11
0を介して遂行することによって、プログラムを実行することが可能である。そ
の指示は、CD−ROMまたはフロッピー(登録商標)ディスクのような記憶装
置150に格納されている。I/Oユニット130は、ユーザがコンピュータに
データを入力することが可能になるように、キーボード160およびマウス17
0に接続している。さらに、I/Oユニット130は、ハードコピーとしてドキ
ュメントを出力するために、プリンター180に接続している。コンピュータ1
00は、さらに、モニターのようなディスプレーユニット140に接続している
。図1に示されたコンピュータの構成は、典型的な構成のみであると解されるべ
きである。また、並行処理コンピュータ、ハードウェアを提供しているニューロ
ンネットワークコンピュータ、または、後に説明される方法を遂行することが可
能な他の任意のコンピュータシステムのような他のコンピュータ構成が、本発明
に関連して使用されることが可能である。
日(Date of Birth)を取り出すことに関連して説明される。履歴書から誕生日
を取り出すことに関連する本発明の記述が、典型的な目的のためのみに対して意
図されたものであることは、熟練者によって直ちに理解されるであろう。また、
下に記述されるような同様な方法と装置が、たとえば、口座フォームシートから
口座番号を取り出す、商品明細書から価格を取り出す、工場での在庫量を示す値
を対応するシートから取り出す等のように、情報のある部分から取り出された他
の任意のテキストドキュメントに適用されることが可能であることも熟練者によ
って直ちに理解されるであろう。
いる。履歴書は、ワードプロセッサを使用して編集した結果であってもよいし、
または、その電子ドキュメントが、スキャニング工程に続く光学式文字認識工程
の結果であってもよい。履歴書の代わりに、特定の意味を有する要素またはある
カテゴリに属する要素が取り出される任意のドキュメントが使用されてもよい。
得るために解析される。ここで、「要素」とは、ブランク、タブレーター、強調
線のようなデリミタによって、または、1つの要素を他の要素から区切るものと
して解釈される任意の他のデータ要素によって、他の要素から分離される文字の
任意のシーケンスを意味する。テキストを個々の要素に分離する最も単純な方法
は、テキスト部分を、互いが任意の空白(ブランク)によって分離されている要
素と同一視することである。しかしながら、解析の目的によっては、さらなる判
定基準が考慮される場合がある。たとえば、上述した強調線、ハイフン、キャリ
ッジリターン、または、1つの要素を他の要素から分離しているものとして見な
される電子ドキュメントの他の要素が考慮される。個々の要素を同一視する場合
に考慮するべき他の判定基準は、個々の文字間の幾何学的な距離である。たとえ
ば、2つの文字間の距離が値を超えると2つの文字は異なる要素であると解釈さ
れる閾値が定義される。この例では、ある要素は、任意の単一文字、または、ブ
ランクによって他の「要素」から分離された文字のシーケンスであるとしている
。
になるように、最初の2つの要素が「curriculum」と「vitae」であり、他の要
素は「Tel:」、「Fax:」等である。これらの要素は、たとえばブランクを単に探
すパーサー(parser)によって識別される。
とがある。たとえば、各要素がドキュメント中に位置している場所であるX座標
とY座標を計算することによって対応する位置を得る。その位置は、レイアウト
ドキュメントを生成するために後に使用される。
ゆる「ワーキングドキュメント」に格納される。ワーキングドキュメントでは、
識別された各要素が、電子ドキュメントでの各要素の位置に関する情報とともに
格納される。たとえば、要素「curriculum」は、電子ドキュメントでのその要素
の位置を識別するそのX座標とY座標とともに格納される。ワーキングドキュメ
ントは、要素に対応する位置とともに識別されている全ての要素を格納するため
の便利なツールであるので、後に詳細に説明されるレイアウトドキュメントの生
成にとって、レファレンスがワーキングドキュメントにつくられる。任意のテキ
ストドキュメントから生成されるワーキングドキュメントの一例が、図3に示さ
れている。タグ1、タグ2等のタグは、対応する要素の位置情報を含んでいる。
この情報は、任意の形式で表現されてもよい。たとえば、直接的にタグ内の要素
のX、Y座標を格納することによって表現される。図3内の要素は、たとえば、
テキストドキュメントで識別された個々の単語、または、要素として以前に説明
された方法を介して識別された任意の他の文字シーケンスであってもよい。そし
て、そのタグは、X、Y座標に関してそれらの要素が位置する場所というように
それらの要素の位置についての情報を含んでいる。タグもまた、それらのフォン
ト、それらに下線が引かれているか否か、または、任意の同様な情報といった要
素のスタイルの指示をさらに具備していてもよい。たとえば、対応するタグが、
要素がボールドフェイス文字でありことを表現する文字シーケンス「bf」を具備
しているあるボールドフェイスの要素にとって、もう1つの文字シーケンスは要
素に下線が引かれていること、またはそのようなことを表現していてもよい。
要素の重心を示していてもよいし、要素の位置を示す任意の他の幾何学的情報を
示していてもよい。たとえば、あるボックスは、要素に囲まれて構成されていて
、ワーキングドキュメント内の対応するタグを介してテキスト中の要素位置を示
す場合は、ボックスの最大と最小のX座標間の平均が、要素位置のX座標とされ
てもよいし、さらに、ボックスの最大と最小のY座標の平均が、要素のY座標と
して使用されてもよい。
ォント、それらのスタイル、それらにアンダーラインが引かれているか否か等の
ような上述したさらなる情報を示すタグとともに、識別された要素のリストを含
んでいる。
トドキュメントの個々の要素のリストを含んで、ワーキングドキュメントは生成
される。さらに、電子ドキュメントに含まれている水平線、垂直線またはグリッ
ドのようなテキストでない要素がワーキングドキュメントに取り込まれていても
よい。そしてそれらのテキストでない要素も、符号化スキームにしたがって、そ
れらの位置とそれらの形(水平、垂直、線、グリッド、またはそれに類するもの
)ワーキングドキュメントに格納されている。たとえば、水平線は文字シーケン
スAAAAによって、垂直線は文字シーケンスBBBBによってワーキングドキュメント
内で示されていてもよい。そしてそれぞれの文字シーケンスの後に、線の位置を
示すタグが続いている。
識別候補要素群に用いることができる。そのために、ワーキングドキュメント(
あるいは、おそらくワーキングドキュメントが生成されることによる”ソースド
キュメント”)は、例えばフォーマットの基準といった特定の検索基準を満たし
ている識別候補要素を識別するためにパースされる(parsed)。この段階では、
すべての要素の候補は、所望の抽出された要素の可能性のある候補を見つけだす
ために解析される。
区切る方法で複数の要素の組み合わせが検索される。例えば、8桁の番号を用い
るために推定されるバンキングアカウントナンバーの検索の場合には、”999999
99”か”999999 99”か、”9 9 9 9 9 9 9 9”か、またはそのほかの組み合わせ
が8桁の番号で代行できる。そのようなバンキングアカウントナンバーの検索は
、その目的のために例えば8桁の数字の検索によって実行される。抽出されるべ
き要素の情報の内容によって、別のフォーマットを検索基準として用いることが
できる。実行できる検索基準は、規則的な表示(特定フォーマット、文字列、数
字列(a sequence of numbers)、また場合によっては、リクエストされる特定
の桁総数(a certain total number of digits)であり、これらを検索するフォ
ーマット検索のようなもの)を検索することであるか、あるいはこれに類似した
ものである。別の検索基準は、類似の(comparison)文字列を実行することによ
るシンプルな予め定義された要素が実行される検索である。例えば、ワード”bi
rth”と、検索基準が候補として表示されるであろう時の条件を満たしている各
要素と、について行う検索である。
る。指定検索とは、要素が、特定の位置(左・右・上・下)での候補について、
別の検索基準によって見つけだされ、検索される。例えば、検索基準がワード”
birth”を検索するときには、指定検索は要素”birth”の右に位置する要素を実
行する。そしてこのような場合には、生じた候補は要素”birth”の右に位置す
る要素である。図2の例では、そのような指定検索要素”May 5, 1960”が候補
として表示される。
である。
に、邪魔な接頭辞/接尾辞が無視できるフォールト・トレラントである。あるい
は、”,”や”.”のような要素を無視できることである。例えば、図2の場合で
は、フォールト・トレラント検索のようなものによって、ワード”birth”のワ
ード検索を実行する。例えば、ワイルドカードを用いることによって行う。検索
は、要素”birth:”が候補として表示されるために、要素”birth”を実行する
。指定検索によって、要素”birth”の右に位置する現在の日付が候補として抽
出される。
された要素の候補が識別される。
文字検索とは、3つの文字を組み合わせて検索を行うものである。これはまた、
フォールト・トレラント検索であり、例えば、候補にスペルミスが発生した際に
、三連文字検索は、それにもかかわらず候補を得る。というのは、正しい三連文
字として識別された候補にはいくつかの文字列が含まれているからである。別の
フォールト・トレラント検索方法は、レーベンシュタイン・ディスタンス(Leve
nshtein distance)を用いる。レーベンシュタイン・ディスタンスは、1つの文
字列から別の文字列へ変化するキーボード上の必要なキー入力の数の表示である
。レーベンシュタイン・ディスタンスに基づいたフォールト・トレラント検索が
実行される。
メントの検索によって実行される。それによって、要素のドキュメントの解析は
、すでに実行され用いられている。原則として、一方で、候補の検索は、テキス
トドキュメント上で直接実行することもできる。
。それは、しかるべく適合されるべき検索基準を検索する情報に基づいて容易に
明らかである。一方、アカウント番号(number)を検索したときに、望ましくは
、フォーマット基準が用いられ、フォーマット基準は、場合によっては既知のア
カウントナンバーのナンバーフォーマットが利用される。place of birthを検索
した際に、文字列検索は、さらに見込みがあり、その結果、数字(number)を検
索する。特別な検索された情報の断片のための検索基準(フォーマット検索、ワ
ード検索、データベース検索、指定検索等、あるいは、それらの組み合わせ)の
適合は、特別な状況(circumstance)に続いて熟練者(skilled person)によっ
て選ばれる。
分類装置が用いされるときには、望ましくは、見つけだされた候補が何らかの形
で、ユーザに対して示されたり表示されたりすることによって、見つけだされた
候補が検索した情報に適合するかどうかをユーザが確認できる。それによって、
分類装置は後で説明されるように訓練される。候補を表示することは、例えば、
検索されたテキストドキュメント内の主要部分によって行われる。そして、ユー
ザが確認することができるか、または例えば、マウスクリックによって表示され
た候補を捨てることができる。
供する。候補検索の結果は、すでに正確さの点では、全く良く、そのため、検索
された要素の特有の性質に基づいており、それらのフォーマットまたは、それら
の現在の情報の内容のようなものである。以下に説明されるように、候補は、一
方で、さらに候補以外のアカウント要素を取り入れることにより、特定のカテゴ
リに属しているか否かについて、さらに判断される。
のレイアウトドキュメントは、電子ドキュメントにおける候補とその位置の表示
のみならず、前記候補要素の周囲の他の要素とその位置の表示をも含んでいる。
したがって、レイアウトドキュメントは、電子ドキュメント自身における候補と
その位置を電子表示したものである。同様に、電子ドキュメントにおける他の要
素とその対応する位置を電子表示したものでもある。好ましくは、ある候補のた
めに生成されたレイアウトドキュメントは、前記候補の周囲の一定領域のために
生成される。この領域(あるいは対応する複数の領域)は、予め定義しておくこ
とができる。あるいは、ユーザ定義によってもなされうる。
いる。図4は、前記候補を囲んでいる合計4つのボックスが、ユーザによってど
のように定義されるのかを示している。第1のボックスは候補の全方向を取り囲
んでいる。第2のボックスは、候補の左近傍側を表している。第3のボックスは
、候補の右近傍側を表している。第4のボックスは、候補の上近傍側を表してい
る。オプションとして、候補の下近傍側の位置を表す追加ボックスも使われうる
。ユーザは、インチ毎のサイズを表す値を、あるいはピクセル、ミリのような他
の単位を入力することによって、ボックスのサイズを指定することができる。各
ボックスのサイズについては、図4にその例を示すとおり、ユーザにより設定す
ることができる。あるいは、予め定義しておくようにしてもよい。レイアウトド
キュメントを生成するための領域は、ユーザが、自分が抽出したい要素の具体的
カテゴリに基づいて定義することができる。
定義しているボックスの中に分類された電子ドキュメントの位置に関連した全て
の要素は、レイアウトドキュメントを生成するために考慮される。そのために、
作業ドキュメントに対してリファレンスを作成することができる。この作業ドキ
ュメントでは、全ての要素が対応する位置とともに格納されている。
における要素である「May 5, 1960」を返してきたものと仮定する。この候補は
、例えば、連続した3要素の組み合わせを検索するフォーマット検索の結果であ
る。ここで3要素のうち2つは、整数(日と年を示す)であり、残りの1つは数
、または月を表す文字とする。この検索結果は、3要素を連続して組み合わせた
ものとなる。また、候補としてMay 6, 1960を検索することができる他の検索基
準を考慮することも可能である。このような他の検索基準としては、たとえば、
指定検索がある。この指定検索では、要素「birth」の隣にある3要素を検索す
る。こうすることによっても、May 6, 1960を候補として出力するという結果を
得る。規則的表現を対象とした他の検索を行うことによっても、May 6,1960を候
補として得ることができる場合がある。たとえば、3要素を含んでおり、うち2
要素は数字であり、3番目の要素は文字または数字であり、数字のうちの1つは
1から31までの範囲内にあるというような規則的表現である。「date」である
情報の一部を検索することによって候補を導くことができる検索基準について多
くの定義が可能であることは、当業者にとっては明らかなことである。
のの候補に対しては、第1の周囲領域と同様にして候補を表示したレイアウトド
キュメントが生成される。レイアウトドキュメントを生成するために、レイアウ
トドキュメントの生成のために使用される領域内にある要素が、先ず識別される
。次にこれら要素に基づいてレイアウトドキュメントが生成される。レイアウト
ドキュメントは、要素と同様候補の表示を含んでいる。ここで、要素は、対応す
る位置とともに、領域に存在している。
いる。ここで候補は「May 5, 1960」であり、図5の波線は、候補を囲んでいる
レイアウト領域を定義している。この領域を分類している図2および図5のドキ
ュメントの全要素は、ぞれぞれレイアウトドキュメントを生成するために用いら
れる。図5に示された領域は、図4のうちの何れか1つのようなインタフェース
を用いているユーザ定義の結果得られるものである。あるいは、予め定義してお
くことも可能である。
いて生成されたレイアウトデータの一例を図6に示す。レイアウトドキュメント
の第1行目は、要素「May 5, 1960」自身に対応している。これは、レイアウト
ドキュメントにおいて、文字列「DDMMYY」で表されている。というのも、本実施
形態における特別な実行に従うと、そのフォーマットは「date」に対応するから
である。しかしながら、フォーマット「date」の表示、すなわち「DDMMYY」のよ
うに認識可能なフォーマットが、レイアウトドキュメント中において、前記フォ
ーマットの対応する表示によって置き換えられることは、認識可能な要素である
レイアウトドキュメントを生成するような好ましいオプションの場合を除いては
不要である。文字列「DDMMYY」の右側の文字列は、電子ドキュメントにおける要
素の位置を示している。これについては、後で詳細に説明する。
要素である 「May 5, 1960」に対応している。図2に示された電子ドキュメント
における候補の位置とそのサイズは、文字列「MXMYWLHM」によって表現される。
これについてもまた、後に説明する。
キュメントにおける候補要素の位置を更に説明するために、参照が図7に対して
なされている。図7は、いわゆる候補ボックスを示している。候補ボックスとは
、候補要素が並んでいる長方形のことを意味する。候補要素のサイズ(例えば、
フォント)に対応して、候補ボックスのサイズが変更される。そして、図7の右
手側に概要例示したようなボックスサイズに対するコー化処理を行うことによっ
て、レイアウトドキュメント内に表示することができる。符号化処理に基づき、
ボックスサイズが「WLHM」として符号化される。「WLHM」とは、図7に示してい
るように、「長い幅」(WL)と、「中位の高さ」(HM)とからなる候補ボッ
クスであることを意味している。この符号化シーケンスは、次に、図6のレイア
ウトドキュメントの第1行目に記載されている最後の4文字であるWLHMへと
移る。実際の値がどの符号化シーケンスによって符号化され表示されているか、
言い換えると、具体的にどの値が「小」として符号化され表示されており、どの
値が特別な処理に基づき当業者によって選択された「大」として符号化され表示
されているかは容易に理解される。
に、ドキュメント中における候補ボックスの位置(候補自身の位置を表している
)のみならず、候補ボックスのサイズ(候補のサイズを表している)もまた符号
化処理される。なお、符号化処理については、後に説明する。対応する符号化シ
ーケンスを行った候補ボックスのサイズの表示は、図7の右手側の底部に図式的
になされる。X方向に対して、小さな候補をもつ候補ボックスは「WS」(幅小
)と符号化される。一方、中位のサイズの候補ボックスは「WM」(幅中)、X
方向に長く延びた候補ボックスは「WL」(幅長)、X方向に更に長く延びた候
補ボックスは「WX」(幅極長)として符号化される。同様に、どの値が、どの
符号化処理に割り当てられるかは、当業者が選択する事柄である。
」、および「HX」のうちの何れかのシーケンスに符号化される。図5に示すよう
に、候補が「May 5,1960」である場合、候補ボックスは、「WLHM」として符号化
される。この「WLHM」は、X方向に対して長い幅、Y方向に対して中位の高さで
あることを意味している。
ように符号化される。その目的のために、図2に示されるドキュメントの一定の
領域に、図7の左手側に示されるような一定のコード処理が割り当てられる。候
補ボックスが配置されている領域に基づいて、候補ボックスのX位置は、「LL
」、「MX」、「RR」のうちに何れかに、Y位置は、「TT」、「MY」、「
BB」のうちの何れかにそれぞれ符号化される。
置に関する候補ボックスは中間にある。このことは、ドキュメントの右手および
ドキュメントの左手よりさほど遠くなく、むしろ、X方向に関してドキュメント
の中央に存在することを意味している。この様なロケーションは、文字シーケン
ス(character sequence)“MX”によって符号化され、図7の左部分から見る
ことができる。候補ボックスのY方向の位置は、文字シーケンス“MY”によっ
て符号化される。なぜなら、候補ボックスは、Y方向の位置に関して、相対的に
上記ドキュメントの中央にあるからである。レイアウトの第1行に示されるよう
に、符号化された位置“MXMY”から、ドキュメントを候補ボックスより引き
出すことができる。候補者の書式表現の表現を結合すれば、候補ボックスの位置
および候補ボックスのサイズは、結果図6の第1行に示された文字シーケンスに
なる。
置と符号との他の割り当て、ドキュメントの対応する分野への他の分離も当然使
用することができるのは、理解されるべきである。候補ボックスのサイズや位置
の粒子化は、特別な実行例に依存する図7の場合よりも、さらに細かいものであ
ってもよいし、さらに粗いものであってもよい。このこのとは、技術を有する者
によれば、容易に理解されるであろう。
は、“LL”は単に“まさしく左へ”を意味し、“MX”は“むしろX方向の中
央へ”を意味し、“RR”は“(X方向の)ドキュメントのまさしく右側で”を
意味する。同様に、“TT”は“まさしく上部に”を意味し、“MY”は“むし
ろ中央に”を意味し、“BB”は“Y方向に関してドキュメントのまさに下部に
”を意味する。しかしながら、他の符号化シーケンスは、技術を有する者によっ
て認識されうるものと同様に、利用することができる。また、DDMMYYの代
わりに、認識された“date”の書式を表現するために、他の文字シーケンス
を使用することがでる。
明されたレイアウトドキュメントの領域にはめ込まれる他の要素もまた符号化さ
れ、レイアウトドキュメント内に組み込まれる。
された領域に基づいて生成されている。これまで既に説明したように、周囲の領
域は、より小さな領域に相違して設定することができる。周囲の領域は、ユーザ
の好みや、使用されるコンピュータによって処理され得る計算仕事量に依存して
おり、また当然により広く設定してもよい。したがって、ここで使用されている
レイアウトは、模範的な例に過ぎないと理解されるべきである。また、他の定義
も同様に使用することができる。当然ながら、より広く当該領域を使用すれば、
より多くの情報が、当該領域から生成されたレイアウトドキュメントの中に包含
される。したがって、増加された領域によって、レイアウトドキュメントのさら
なる評価を、より正確にすることが可能である。しかしながら、このことは、特
定の実行と特定の目的に依存する可能性があり、また、狭いレイアウト領域によ
って、同様に良い結果が得られる可能性もある。
に示されたファックス番号07029 8125の表現である。本実施形態の特
定の実施にしたがって、レイアウト領域に入っている二つの要素07029およ
び8125は整数から成るから、これら二つの要素は、レイアウトドキュメント
において、整数表現に対して割り当てられた符号化シーケンス、すなわちIIQ
Qによって表現されていることがわかる。
7029とナンバー8125とを表している。そして、整数を表す符号化シーケ
ンスIIQQは、候補要素に関する図2のテキストドキュメントにおいて、当該
整数の相対的な位置を表す符号化シーケンスにそれぞれ従う。
できる。ここで使用する特定の符号化は、図8において概略的に例示されている
。符号化を目的として、X方向またはY方向の相対的な位置に対応した距離の離
散的な範囲を、対応する符号化シーケンスに割り当てる。例えば、近くに対して
“NR”を、遠くに対して“FF”を、水平方向について等しい位置にあるもの
については“HEE”を、垂直方向について等しい位置にあるものについては“
VFF”を、等々といった具合に割り当てる。この特定の符号化スキームは、図
8に例示されている。しかし、このスキームが単なる例であり、非常に簡単に改
良できることは理解し得るであろう。例えば、符号化スキームが異なってもよく
、離散的範囲への分配が異なってよく、範囲の数が異なってもよい等々である。
符号07029が、候補ボックスの左(LNR)と上(ANR)とに近いという
事実に基づいたものである。この領域符号07029は、整数符号IIQQに添
えられ図6の第2行目に示された、符号化シーケンスLNRANRの位置に至っ
ている。
図63行目のIIQQHEEANRと結論される。
h”は、図8に関連して簡単に理解されるであろう対応位置の符号化シーケンス
と共に、図6のレイアウトドキュメントの最後3行において表されている。全て
の要素は、候補と縦に等しく(VEE)、候補から別々の水平方向距離にある。
アウトドキュメントの生成に使用することができることは、容易に明らかであろ
う。
のフォーマットを有する場合の例のみならず、フォーマットが認識可能な他の同
じような要素は、対応する符号化シーケンスによってレイアウトドキュメント中
で符号化される。一方、ここでは、このようにレイアウトドキュメントの第1行
の日付、および第2行並びに第3行の整数に対して示したのみである。また、こ
の様な置き換えは、郵便番号(これは、データベース問い合わせから認識され得
る)といった様な他の認識可能な要素についても実行することができる。また、
郵便番号は、例えばZZZ等といったある文字シーケンスによって表現すること
ができる。この様な認識は、フォーマット認識でも、データベース問い合わせ(
ここでは、例えば全ての郵便番号コードが格納されている)でも基礎とすること
ができる。
は、ドキュメントの他の要素や、ドキュメント内のそれらの位置に関する情報を
含むレイアウトドキュメントが作られる。本実施例において、位置の情報は、あ
るコード構成(coding scheme)にしたがって位置を表す座標値を文字シーケン
スに置き換えることによって表され、そのコード構成は、符号化の目的に対して
電子ドキュメントが仕切られるロケーションまたは領域を定義するのに使用され
、かつ対応する文字コードが割り当てられている。また、同様に、前記電子ドキ
ュメントの要素の位置を符号化するのに番号コードを使用することができる。レ
イアウトドキュメントの世代に対して、要素の位置や書式を表すなどのようなコ
ード構成も使用することができる. また、レイアウトドキュメントは、ドキュメント中に線、またはグリッド(格
子)などのような、分析すべきドキュメントの非テキストの要素に関する追加情
報を含んでいても良い。この情報はドキュメントの幾何学的な分析で容易に得る
ことができ、そして、レイアウトドキュメントにおいて、ドキュメント内の線ま
たはグリッドを、対応するコーディングシーケンスを介して、好ましくは、それ
らの対応する位置や、もしかすると同様にそれらのスタイルや更なる情報によっ
て、符号化することができる。
したように、ロケーション対応位置コードの離散的な領域を割り当てたことに基
づく位置の符号化を含んでいる。さらに好ましくは、要素のフォーマットまたは
スタイル等の認識可能なスタイルまたはフォーマット情報が、当該符号化シーケ
ンスを介してレイアウトドキュメント中に同様に表される。しかしながら、レイ
アウトドキュメントを作るのにコード構成のそれらの要素のいくつかだけを使用
することが可能である。
に基づく幾何学的な位置として表現しても良い。しかしながら、また、レイアウ
トドキュメント中の要素の位置情報が、この要素と候補との間に現れる要素の数
などの、要素と候補との間の相対的な位置を表すことも同様に可能である。その
結果、同様に、候補と他の要素との間に現れるワード数を介するそれらの間の距
離を介して、レイアウト領域内のそれらの間の相対位置を符号化することが可能
になる。処理されるべきテキストドキュメントが実際に、電子メールメッセージ
などのように大部分が自己のレイアウトを持たないようであれば、例えば、その
ようなコード構成は有用であろう。しかしながら、その代わりに、電子メールに
ついて、前述したような要素の相対的な位置に代わる更なる処理に対して、仮の
レイアウトを計算して、使用しても良い。
に存在すれば存在するほど、レイアウトドキュメントとその後の処理結果は、よ
り正確になる。しかしながら、レイアウトドキュメントが高度化されるほど、レ
イアウトドキュメントの作成や更なる処理を行うために決定を下すために、より
多くの処理パワーが必要であり、そのために、決定手順の所望の精度に依存して
、ユーザまたはプログラマが、レイアウトドキュメントを作るときに、利用すべ
き情報と同様に、レイアウトドキュメントを作るための領域を選んでも良い。
を説明した。例えば、情報のある部分、すなわち出生日(date of birth)が図
2のドキュメントから抽出されることが現時点で望まれているならば、日付に対
する候補を得るためにドキュメントに対して候補検索が実行される。図2の場合
では、前述のような、正規の表現またはフォーマット検索が、検索基準にしたが
って、出生日、すなわち、May 5、1960およびMay 17、1979であるような2つの
候補を返すであろう。そこで、両方の候補に対して、前述したようなレイアウト
ドキュメントが作成され、このレイアウトドキュメントは分類装置に入力する。
分類装置は、しかしながら、出生日ではない日付から作成されたレイアウトドキ
ュメントとは逆の実際の出生日から作成されたレイアウトドキュメントを認識す
るように訓練されている。
生日からのレイアウトドキュメントであるとしてそれらを認識することが可能で
あるようなより一層のヒントを含んでいるので、そのような認識が可能になる。
例えば、しばしば「出生」という単語が出生日の近傍に現れる場合であり、この
言葉が含まれるレイアウトドキュメントを有することにより、このドキュメント
が出生日から作成されるレイアウトドキュメントであるという一層のヒントにな
る。同様に、出生日の近傍に現れる他の要素が、また、図6の例における用語「
場所(place)」または用語「の(of)」のようなヒントとして解釈しても良い
。しかしながら、例えば、いくつかの出生日がテーブルの1つの列に配置されて
いるのであれば、列のヘッダーは用語「出生」を含み、そして、前述したように
用語「出生」の位置を符号化することによって、この列内の日付が実際の出生日
であるヒントとして、これを分類装置で使用しても良い。一般に、そのような候
補の実際の情報の内容に対するヒントとして、レイアウトドキュメントが作成さ
れる候補の周囲の領域または近傍を分類装置によって使用することができる。そ
のような周辺領域または近傍によって与えられるヒントを考慮に入れることによ
って、任意の検索基準にしたがってドキュメントから抽出された1セットの候補
を、それらの候補がさらに探している情報を実際に含むかどうかについて、評価
することができる。
について直接作成することができ、各要素は、ある所望のカテゴリに属すかどう
かについてそのように作成されたレイアウトドキュメントに基づいて評価するこ
とができる。しかしながら、最初に候補検索を使用することは、レイアウトドキ
ュメントをテキストドキュメントの各要素に対して作成する必要があるかもしれ
ないようなことを引き起こすコンピュータのコストを減少させる。
。
ゴリまたは種類に属するか否かを決定できるニューロンネットワークまたは任意
の他のコンピュータ化されたシステムを訓練するために使用される。その目的の
ため、候補のレイアウトドキュメントは、レイアウトドキュメントが訂正候補に
対応するか否か、それは候補が要望される情報的内容を有するか否かを意味する
情報とともに、ニューロンネットワークまたは任意の他の決定装置(分類装置)
に入力される。
ている位置を得るために上述されたように分析される。好ましくは次に、テキス
トベースのドキュメントからワーキングドキュメントが作られる。次に所望のカ
テゴリと一致することができる候補の組をそれらから得るためフィルタにかける
ことが行われる。好ましくは、ユーザによる手動入力または自動的のいずれかに
基づいて、例えば得られた候補がある閾値を超えて訂正の可能性を有するか否か
をチェックすることにより、得られた組は訂正される。訓練フェーズにおける手
動訂正のため、候補はドキュメントのハイライトであることができ、ユーザはそ
れらが訂正されたものであるか否かをそれらの幾らかまたは全部について確認で
きる。訂正結果の前述の手動または自動選択は次に訂正結果の組および間違った
結果の組に導く。次に訂正結果の組の要素の各々のため、および間違った結果の
組の要素の各々のためにレイアウトドキュメントが生成される。その後間違った
結果の組のために生成されたレイアウトドキュメント、および訂正結果の組のた
めに生成されたレイアウトドキュメントはニューロンネットワークを訓練するた
めに使用される。候補が全てで認識されないなら、ユーザはまた彼自身候補を選
択し、それをハイライトし(例えば、マウスにより)、訓練入力としてそれを使
用してもよい。
10に示される。候補の組は図9と同様に得られ、それらの各々についてレイア
ウトドキュメントが前に説明されたように生成される。レイアウトは、次に候補
が所望のカテゴリに属するか否かを決定する訓練されたニューロンネットワーク
のための入力として使用される。
正の可能性を重み付けしている重みに在る。引抜かれた候補はまた、データベー
ス、MS−エクセルファイル、ワードドキュメント、または他の電子的処理など
のために適した任意の他のドキュメントのような、他の電子的ドキュメントに直
接移入または移出されてもよい。
に詳細に説明されたように行われることができる。次に全ての見出された候補の
ために、対応している生成されたレイアウトドキュメントは分類または好ましく
はニューロンネットワークであるけれども必然的ではない決定装置に入力され、
それから各候補についてそれが訂正カテゴリに属するか否かの決定がなされる。
メントを分類する特に適した装置は、ヨーロッパ特許出願99108354-4に開示され
、その全ての内容が引用文献としてここに組み込まれる。ここに開示される装置
は、それらをベクトルとして表すことによりテキストドキュメントを分類するこ
とが可能であり、ベクトル成分の値はある語または熟語がドキュメント内で起る
頻度に対応する。ドキュメントを表すこのようなベクトルはn次元ベクトル空間
におよび、複数のドキュメントも共にあるベクトル空間に及ぶ。分類は、ベクト
ル空間を少なくとも2つのサブ空間に分離する超平面を分類することにより行わ
れ、それによりサブ空間があるのと同じ多くの種類への分類が行われることがで
きる。学習または訓練過程はベクトル空間を確立し、そして訓練ドキュメントの
組のための超平面を対応して分離することに在る。知られていないドキュメント
は次に、対応しているベクトルが1つまたは他のサブ空間に落ちるか否かを計算
することにより分類されることができる。以前に詳細に記述された方法で、それ
らの周りの領域について与えられたレイアウトドキュメントを通してテキストド
キュメントの要素を表すことが可能であるので、そしてレイアウトドキュメント
がそれ自身再びテキストドキュメントであるので、前述のヨーロッパ特許出願に
記述された分類装置は分類目的のために使用されることができる。特許出願に開
示された分類のための装置の好ましい実施はPerceptronのようなニューロンネッ
トワークに在る。決定装置がいかに実施されるかのようなさらなる詳細はこの出
願から取られることができ、それゆえここにさらに詳細に概説されない。
評価(分類)可能な任意の他のニューロンネットワークまたは任意のコンピュータ
方法または装置が、レイアウトドキュメントを訓練し、候補(またはその対応す
るレイアウトドキュメント)が訂正して引抜かれたと見なされねばならないか否
かの決定を作るために使用されることができることが理解される。位置が記号シ
ーケンスにより表されるこれらのレイアウトドキュメントのみならず、また任意
の他のレイアウトドキュメント表現が本発明と関係して使用することができる。
位置が位置(座標)を表す絶対数により、または角度と距離(極座標)により符号
化されることが可能な非常によい例である。
あり、他の具体例は明らかに熟練者の一般的な知識による理解の範囲内のもので
あることが、熟練者により理解されるであろう。さらに熟練者にとって、本発明
の方法がいずれかのコンピュータシステムにより、いずれかの汎用コンピュータ
により、または先に説明したような方法を実行するいずれか他の特定用途向けハ
ードウェアにより実施可能であることは容易に理解できる。このため、例えばこ
の装置は図1に示されているようなコンピュータシステムにおいて形成すること
が可能であるが、本発明による装置は本発明の方法を実行する何らかのコンピュ
ータシステムにより構成することができる。ここで述べたまたは添付の特許請求
の範囲における、一定の装置構成要素または装置部品に関しては、これらはプロ
グラムまたはコンピュータプログラムの一部を有し、それを具体化し、または実
行するコンピュータまたはコンピュータの一部により実施可能である。本発明が
コンピュータプログラムまたはコンピュータプログラム製品に関連することに関
し、コンピュータプログラムの命令を具体化することのできるメモリ、伝送ライ
ン、または同様のもののような、何らかのデータ保有部または何らかのコンピュ
ータ構成要素は、それらが本発明に従う方法についてコンピュータが実行するこ
とを可能にするコンピュータプログラムの命令を具体化することができる限り、
本発明を具体化し得ることが熟練者にとって明白であろう。熟練者はまた、先に
延べた原理にしたがって動作する多数のコンピュータプログラムを書くことがで
き、そのため、ここに記載するような本発明の方法にしたがって動作するいずれ
かのコンピュータプログラムは、本発明の範囲の下にあるものとして取扱われる
べきであることを認識するであろう。
うなメモリ、または同様のものに組込まれるかまたは具体化されるかどうかとは
別に、記載されるドキュメントのレイアウトの構造を表現するデータ構造もまた
本発明の具体的表現を形成することができる。
、このことは本発明を実施するコンピュータプログラムの一部がクライアントに
おいて実行されるサーバおよび他の部分において実行できることを意味する。
に関しては、それらはコンピュータプログラムまたは一定のプログラム命令を実
行するコンピュータによりそれぞれ実現可能であり、または、それらは、電子回
路、特別の用途のコンピュータ、または同様のもののような、かかる構成要素の
機能を形成するいずれかの特定用途向けのハードウェアにより実行可能である。
願は、本発明の範囲を限定するものであるようには理解されるべきでない、典型
的な具体例に基づいて説明されたものであることが理解されるであろう。
にとって容易に理解されるように、先に説明した方法はテキストドキュメントか
ら一定のカテゴリに属する何らかの情報要素を抽出するために使用可能であるこ
とが理解されるべきである。
テムを示している。
いる。
ている。
Claims (24)
- 【請求項1】 複数の要素からなる電子ドキュメントに基づいた分類装置に
よって使用される入力を発生するコンピュータ実現方法であって、 前記ドキュメントにおいて前記要素に対応する一に関する情報と共に全奇異1
以上の前記要素を得るために前記電子ドキュメントを分析すること、 前記分類装置の前記入力として使用される電子レイアウトドキュメントを生成
することから成り、前記電子レイアウトドキュメントは 前記電子ドキュメントにおいて前記要素の絶対および/または相関位置を表す
情報と共に前記分析工程で得られる複数の前記要素の表現から成る、方法。 - 【請求項2】 前記レイアウトドキュメントは、 前記電子ドキュメントにおいてその絶対および/または相関位置を表す情報と
共に前記テキストドキュメントの前記複数の要素の第1要素の表現と、 前記電子ドキュメントにおいてそれらの絶対および/または相関位置を表す情
報と共に前記テキストドキュメントの前記複数の要素の他の表現とから成り、前
記第1要素に隣接および/またはを囲繞する所定のユーザ定義領域内にある、請
求項1記載の方法。 - 【請求項3】 あるカテゴリに入る情報内容に関する要素の候補を得るため
にある探索基準に合う要素を探索すること、 1以上の前記候補要素に対するレイアウトドキュメントを生成することを更に
含む請求項1または2記載の方法。 - 【請求項4】 前記候補探索工程は、 あるフォーマット基準に合致する前記ドキュメントの要素を探索すること、 あるストリング比較基準に合致する前記ドキュメントの語を探索すること、 誤り耐性語探索を行うこと、 取得候補に関して所定の相関位置を有する要素の探索を行うこと、 データベースに格納された語と合致する要素を探索するデータベース探索を行
うことの1以上を更に含む請求項3の方法。 - 【請求項5】 所定位置符号化方式に基づいた対応文字列によって前記レイ
アウトドキュメントの要素の位置を表すこと、 所定フォーマット符号化方式に基づいた文字列を介して認識可能所定フォーマ
ットを持つ要素を表すこと、 所定意味符号化方式に基づいた文字列を介して認識可能な意味を持つ要素を表
すことの1以上を更に含む、請求項1ないし4のいずれか1の方法。 - 【請求項6】 前記認識フォーマットは、 前記ドキュメントの垂直および/または水平ライン、 浮動小数点番号、 日、 整数、 郵便番号の1以上から成る、請求項5にしたがった方法。
- 【請求項7】 前記レイアウトドキュメントの生成を考慮した領域はその寸
法がユーザによって予め定義できる、または設定できる1以上の幾何学領域から
成る、先行請求項のいずれか1にしたがった方法。 - 【請求項8】 分類装置の入力として、前記分類装置を学習する、あるいは
前記分類装置を介して前記入力を評価するため前記電子レイアウトドキュメント
を使用することを更に含む、請求項1ないし7のいずれか1の方法。 - 【請求項9】 ある所定のカテゴリに属する1以上の要素を電子ドキュメン
トから抽出する方法であって、 1以上の所定探索基準に基づいて前記ドキュメントの候補要素を探索すること
、 前記探索工程から得られる候補要素毎に先行請求項のいずれか1にしたがって
レイアウトドキュメントを生成すること、 前記候補が前記レイアウトドキュメントの前記情報内容に基づいて前記カテゴ
リに属するか否かを判断することから成る方法。 - 【請求項10】 ドキュメントの要素があるカテゴリに属するか否かを認識
するため分類装置を学習するため該分類装置を学習する方法であって、 1以上の所定の探索基準に基づいて前記ドキュメントの候補要素を探索するこ
と、 前記探索工程から得られた候補要素毎に先行請求項のいずれか1にしたがって
レイアウトドキュメントを生成すること、 前記分類装置を学習するため前記候補が前記あるカテゴリに属するか否かに関
する情報と共に前記レイアウトを前記分類装置に入力することから成る、方法。 - 【請求項11】 前記分類装置はニューロンネットワークである、請求項9
または10の方法。 - 【請求項12】 複数の要素から成る電子ドキュメントに基づいて分類装置
によって使用される入力を生成する装置であって、 前記ドキュメントにおいて前記要素の対応する位置と共に1以上の前記要素を
得るために前記電子ドキュメントを分析する分析器と、 前記前記分類装置の前記入力として使用される電子レイアウトドキュメントを
生成する生成器とにより構成され、前記電子レイアウトドキュメントは 前記電子ドキュメントにおいてその絶対および/または相関位置を表す情報と
共に前記分析工程で得られる複数の前記要素の表現を含む、装置。 - 【請求項13】 前記レイアウトドキュメントは、 前記電子ドキュメントにおける前記テキストドキュメントの絶対および/また
は相対位置を表す情報と共に前記テキストドキュメントの複数の要素の第1要素
の表現と、 前記電子ドキュメントにおけるそれらの絶対および/または相関位置を表す情
報と共に前記テキストドキュメントの複数要素の他の表現とから成り、前記他の
要素は前記第1要素に隣接および/またはを囲繞する所定またはユーザ定義の領
域内にある、請求項12の装置。 - 【請求項14】 あるカテゴリに入る情報内容に関する要素の候補を得るた
めにある探索基準に合う要素を探索する探索器と、 1以上の前記候補要素に対するレイアウトドキュメントを生成する前記生成器
とを更に含む請求項12または13記載の装置。 - 【請求項15】 候補を探索する前記探索器は、 あるフォーマット基準に合致する前記ドキュメントの要素を探索する要素探索
器と、 あるストリング比較基準に合致する前記ドキュメントの語を探索する語探索器
と、 誤り耐性語探索を行う語探索器と、 取得候補に関して所定の相関位置を有する要素の探索を行う要素探索器と、 データベースに格納された語と合致する要素を探索するデータベース探索を行
うデータベース探索器との1以上を更に含む請求項14の装置。 - 【請求項16】 前記レイアウト生成器は前記レイアウトドキュメントを生
成したとき、 所定位置符号化方式に基づいた対応文字列によって前記レイアウトドキュメン
トの要素の位置を表すこと、 所定フォーマット符号化方式に基づいた文字列を介して認識可能所定フォーマ
ットを持つ要素を表すこと、 所定意味符号化方式に基づいた文字列を介して認識可能な意味を持つ要素を表
すことの1以上に更に適用される、請求項12ないし15のいずれか1の装置。 - 【請求項17】 前記認識フォーマットは、 前記ドキュメントの垂直および/または水平ライン、 浮動小数点番号、 日、 整数、 郵便番号の1以上から成る、請求項16にしたがった装置。
- 【請求項18】 前記レイアウトドキュメントの生成を考慮した領域はその
寸法がユーザによって予め定義できる、または設定できる1以上の幾何学領域か
ら成る、請求項12ないし17のいずれか1にしたがった装置。 - 【請求項19】 前記電子レイアウトドキュメントを入力として用いる分類
装置を更に含み、前記分類装置を学習する、あるいは前記分類装置を介して前記
入力を評価する、請求項1ないし7のいずれか1の装置。 - 【請求項20】 ある所定のカテゴリに属する1以上の要素を電子ドキュメ
ントから抽出する装置であって、 1以上の所定探索基準に基づいて前記ドキュメントの候補要素を探索する探索
器と、 前記探索工程から得られる候補要素毎に先行請求項のいずれか1にしたがって
レイアウトドキュメントを生成する生成器と、 前記候補が前記レイアウトドキュメントの前記情報内容に基づいて前記カテゴ
リに属するか否かを判断する判断器とから成る装置。 - 【請求項21】 ドキュメントの要素があるカテゴリに属するか否かを認識
するため学習できる分類装置であって、 1以上の所定の探索基準に基づいて前記ドキュメントの候補要素を探索する探
索器と、 前記探索器から得られた候補要素毎に先行請求項のいずれか1にしたがってレ
イアウトドキュメントを生成する生成器と、 前記分類装置を学習するため前記候補が前記あるカテゴリに属するか否かに関
する情報と共に前記レイアウトを前記分類装置に入力する手段とから成る、装置
。 - 【請求項22】 前記分類装置はニューロンネットワークである、請求項2
0または21の方法。 - 【請求項23】 請求項1ないし11の1つにしたがった方法のいずれか1
つをコンピュータに実行させるため適合されるコンピュータ実施可能プログラム
コードから成るコンピュータプログラム。 - 【請求項24】 請求項1ないし11の1つにしたがった前記方法のいずれ
か1つを実行することによって引き出され、分類装置に入力として使用されるデ
ータ構造。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00103810.8 | 2000-02-23 | ||
EP00103810A EP1128278B1 (en) | 2000-02-23 | 2000-02-23 | Method and apparatus for processing electronic documents |
PCT/EP2001/001132 WO2001063467A1 (en) | 2000-02-23 | 2001-02-02 | Method and apparatus for processing electronic documents |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003524258A true JP2003524258A (ja) | 2003-08-12 |
JP4782346B2 JP4782346B2 (ja) | 2011-09-28 |
Family
ID=8167944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001562361A Expired - Lifetime JP4782346B2 (ja) | 2000-02-23 | 2001-02-02 | 電子ドキュメントを処理する方法および装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20080040660A1 (ja) |
EP (2) | EP1128278B1 (ja) |
JP (1) | JP4782346B2 (ja) |
AU (3) | AU2001233736A1 (ja) |
CA (1) | CA2401172C (ja) |
DE (1) | DE60005293T2 (ja) |
ES (1) | ES2208164T3 (ja) |
WO (1) | WO2001063467A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013509663A (ja) * | 2009-11-02 | 2013-03-14 | ビーデージービー・エンタープライズ・ソフトウェア・エスエーアールエル | 動的変動ネットワークを使用するシステムおよび方法 |
US9141691B2 (en) | 2001-08-27 | 2015-09-22 | Alexander GOERKE | Method for automatically indexing documents |
US9152883B2 (en) | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
US9159584B2 (en) | 2000-08-18 | 2015-10-13 | Gannady Lapir | Methods and systems of retrieving documents |
US9213756B2 (en) | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1049030A1 (en) | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
AU2012258320B2 (en) * | 2001-08-27 | 2016-01-14 | Kofax International Switzerland Sàrl | A method for automatically indexing documents |
DE102004062784A1 (de) | 2004-12-21 | 2006-07-20 | Hiflex Software Gmbh | Verfahren zum Auslösen einer Kostenbuchung |
US7853595B2 (en) | 2007-01-30 | 2010-12-14 | The Boeing Company | Method and apparatus for creating a tool for generating an index for a document |
US8094976B2 (en) | 2007-10-03 | 2012-01-10 | Esker, Inc. | One-screen reconciliation of business document image data, optical character recognition extracted data, and enterprise resource planning data |
US8108764B2 (en) * | 2007-10-03 | 2012-01-31 | Esker, Inc. | Document recognition using static and variable strings to create a document signature |
JP5412903B2 (ja) * | 2009-03-17 | 2014-02-12 | コニカミノルタ株式会社 | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
US8321357B2 (en) | 2009-09-30 | 2012-11-27 | Lapir Gennady | Method and system for extraction |
JP5387378B2 (ja) * | 2009-12-15 | 2014-01-15 | 富士通株式会社 | 文字同定装置及び文字同定方法 |
US9002102B2 (en) * | 2012-12-21 | 2015-04-07 | Hewlett-Packard Development Company, L.P. | Generating training documents |
US9213893B2 (en) | 2013-05-23 | 2015-12-15 | Intuit Inc. | Extracting data from semi-structured electronic documents |
US10482323B2 (en) * | 2017-08-22 | 2019-11-19 | Autonom8, Inc. | System and method for semantic textual information recognition |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61217863A (ja) * | 1985-03-23 | 1986-09-27 | Brother Ind Ltd | 電子辞書 |
US4864501A (en) * | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
US5191525A (en) * | 1990-01-16 | 1993-03-02 | Digital Image Systems, Corporation | System and method for extraction of data from documents for subsequent processing |
JPH10240958A (ja) * | 1996-12-27 | 1998-09-11 | Fujitsu Ltd | 画像から管理情報を抽出する管理情報抽出装置および方法 |
Family Cites Families (99)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731861A (en) * | 1983-08-26 | 1988-03-15 | Texas Instruments Incorporated | Method of optical character recognition |
JPH022459A (ja) * | 1987-12-11 | 1990-01-08 | Hewlett Packard Co <Hp> | 問合わせ処理方法 |
US5201047A (en) * | 1989-12-21 | 1993-04-06 | International Business Machines Corporation | Attribute-based classification and retrieval system |
US5344132A (en) * | 1990-01-16 | 1994-09-06 | Digital Image Systems | Image based document processing and information management system and apparatus |
FR2660085A1 (fr) * | 1990-03-20 | 1991-09-27 | Philips Electronique Lab | Dispositif de traitement de donnees et procede pour selectionner des mots de donnees contenus dans un dictionnaire. |
JP3329806B2 (ja) * | 1990-11-09 | 2002-09-30 | 株式会社日立製作所 | ニューラルネット構築装置 |
US5278980A (en) * | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
CA2077274C (en) * | 1991-11-19 | 1997-07-15 | M. Margaret Withgott | Method and apparatus for summarizing a document without document image decoding |
JP2579397B2 (ja) * | 1991-12-18 | 1997-02-05 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 文書画像のレイアウトモデルを作成する方法及び装置 |
US5245672A (en) * | 1992-03-09 | 1993-09-14 | The United States Of America As Represented By The Secretary Of Commerce | Object/anti-object neural network segmentation |
US5434953A (en) * | 1992-03-20 | 1995-07-18 | Xerox Corporation | Use of fast textured reduction for discrimination of document image components |
US5748807A (en) * | 1992-10-09 | 1998-05-05 | Panasonic Technologies, Inc. | Method and means for enhancing optical character recognition of printed documents |
US5491758A (en) * | 1993-01-27 | 1996-02-13 | International Business Machines Corporation | Automatic handwriting recognition using both static and dynamic parameters |
US5649068A (en) * | 1993-07-27 | 1997-07-15 | Lucent Technologies Inc. | Pattern recognition system using support vectors |
US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
GB2281997B (en) * | 1993-09-20 | 1997-10-15 | Ricoh Kk | Method and apparatus for improving a text image by using character regeneration |
US5537491A (en) * | 1993-11-24 | 1996-07-16 | Xerox Corporation | Analyzing an image or other data to obtain a stable number of groups |
US5742806A (en) * | 1994-01-31 | 1998-04-21 | Sun Microsystems, Inc. | Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system |
NZ248751A (en) * | 1994-03-23 | 1997-11-24 | Ryan John Kevin | Text analysis and coding |
US5671333A (en) * | 1994-04-07 | 1997-09-23 | Lucent Technologies Inc. | Training apparatus and method |
JP2618832B2 (ja) * | 1994-06-16 | 1997-06-11 | 日本アイ・ビー・エム株式会社 | 文書の論理構造の解析方法及びシステム |
US5574802A (en) * | 1994-09-30 | 1996-11-12 | Xerox Corporation | Method and apparatus for document element classification by analysis of major white region geometry |
US5956419A (en) * | 1995-04-28 | 1999-09-21 | Xerox Corporation | Unsupervised training of character templates using unsegmented samples |
US5689620A (en) * | 1995-04-28 | 1997-11-18 | Xerox Corporation | Automatic training of character templates using a transcription and a two-dimensional image source model |
US5675710A (en) * | 1995-06-07 | 1997-10-07 | Lucent Technologies, Inc. | Method and apparatus for training a text classifier |
US5778397A (en) * | 1995-06-28 | 1998-07-07 | Xerox Corporation | Automatic method of generating feature probabilities for automatic extracting summarization |
US6006221A (en) * | 1995-08-16 | 1999-12-21 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US5889886A (en) * | 1995-11-28 | 1999-03-30 | Xerox Corporation | Method and apparatus for detecting running text in an image |
US6009196A (en) * | 1995-11-28 | 1999-12-28 | Xerox Corporation | Method for classifying non-running text in an image |
US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
US5864855A (en) * | 1996-02-26 | 1999-01-26 | The United States Of America As Represented By The Secretary Of The Army | Parallel document clustering process |
JP2987099B2 (ja) * | 1996-03-27 | 1999-12-06 | 株式会社日立国際ビジネス | 文書作成支援システム及び用語辞書 |
US5787201A (en) * | 1996-04-09 | 1998-07-28 | The United States Of America As Represented By The Secretary Of The Navy | High order fractal feature extraction for classification of objects in images |
US5937084A (en) * | 1996-05-22 | 1999-08-10 | Ncr Corporation | Knowledge-based document analysis system |
US5835638A (en) * | 1996-05-30 | 1998-11-10 | Xerox Corporation | Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols |
US6101515A (en) * | 1996-05-31 | 2000-08-08 | Oracle Corporation | Learning system for classification of terminology |
US5778362A (en) * | 1996-06-21 | 1998-07-07 | Kdl Technologies Limted | Method and system for revealing information structures in collections of data items |
DE19627472A1 (de) * | 1996-07-08 | 1998-01-15 | Ser Systeme Ag | Datenbanksystem |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US5745889A (en) * | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Method for parsing information of databases records using word-location pairs and metaword-location pairs |
AU4495597A (en) * | 1996-09-23 | 1998-04-14 | Lowrie Mcintosh | Defining a uniform subject classification system incorporating document management/records retention functions |
US6275610B1 (en) * | 1996-10-16 | 2001-08-14 | Convey Corporation | File structure for scanned documents |
US6327387B1 (en) * | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
US6687404B1 (en) * | 1997-06-20 | 2004-02-03 | Xerox Corporation | Automatic training of layout parameters in a 2D image model |
US6353840B2 (en) * | 1997-08-15 | 2002-03-05 | Ricoh Company, Ltd. | User-defined search template for extracting information from documents |
US6665841B1 (en) * | 1997-11-14 | 2003-12-16 | Xerox Corporation | Transmission of subsets of layout objects at different resolutions |
US5999664A (en) * | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
US5987457A (en) * | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
US6115708A (en) * | 1998-03-04 | 2000-09-05 | Microsoft Corporation | Method for refining the initial conditions for clustering with applications to small and large database clustering |
JP3422924B2 (ja) * | 1998-03-27 | 2003-07-07 | 富士通株式会社 | 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6192360B1 (en) * | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US6243713B1 (en) * | 1998-08-24 | 2001-06-05 | Excalibur Technologies Corp. | Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types |
US6324551B1 (en) * | 1998-08-31 | 2001-11-27 | Xerox Corporation | Self-contained document management based on document properties |
US6212532B1 (en) * | 1998-10-22 | 2001-04-03 | International Business Machines Corporation | Text categorization toolkit |
US20030069873A1 (en) * | 1998-11-18 | 2003-04-10 | Kevin L. Fox | Multiple engine information retrieval and visualization system |
US6622134B1 (en) * | 1999-01-05 | 2003-09-16 | International Business Machines Corporation | Method of constructing data classifiers and classifiers constructed according to the method |
CN1371504A (zh) * | 1999-01-13 | 2002-09-25 | 电脑相关想象公司 | 签名识别系统和方法 |
US6477551B1 (en) * | 1999-02-16 | 2002-11-05 | International Business Machines Corporation | Interactive electronic messaging system |
US6629097B1 (en) * | 1999-04-28 | 2003-09-30 | Douglas K. Keith | Displaying implicit associations among items in loosely-structured data sets |
EP1049030A1 (en) * | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
US6501855B1 (en) * | 1999-07-20 | 2002-12-31 | Parascript, Llc | Manual-search restriction on documents not having an ASCII index |
US6785810B1 (en) * | 1999-08-31 | 2004-08-31 | Espoc, Inc. | System and method for providing secure transmission, search, and storage of data |
US6453315B1 (en) * | 1999-09-22 | 2002-09-17 | Applied Semantics, Inc. | Meaning-based information organization and retrieval |
US6990238B1 (en) * | 1999-09-30 | 2006-01-24 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
US6188010B1 (en) * | 1999-10-29 | 2001-02-13 | Sony Corporation | Music search by melody input |
DE19952769B4 (de) * | 1999-11-02 | 2008-07-17 | Sap Ag | Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache |
US6694053B1 (en) * | 1999-12-02 | 2004-02-17 | Hewlett-Packard Development, L.P. | Method and apparatus for performing document structure analysis |
US7149347B1 (en) * | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
WO2001067209A2 (en) * | 2000-03-09 | 2001-09-13 | The Web Access, Inc. | Method and apparatus for performing a research task by interchangeably utilizing a multitude of search methodologies |
US6741724B1 (en) * | 2000-03-24 | 2004-05-25 | Siemens Dematic Postal Automation, L.P. | Method and system for form processing |
US20070033252A1 (en) * | 2000-03-30 | 2007-02-08 | Combest Ricky F | Dynamic virtual network and method |
JP2001318948A (ja) * | 2000-05-09 | 2001-11-16 | Hitachi Ltd | 文書検索方法及び装置並びにその処理プログラムを記憶した媒体 |
US7028250B2 (en) * | 2000-05-25 | 2006-04-11 | Kanisa, Inc. | System and method for automatically classifying text |
US6895552B1 (en) * | 2000-05-31 | 2005-05-17 | Ricoh Co., Ltd. | Method and an apparatus for visual summarization of documents |
US6944340B1 (en) * | 2000-08-07 | 2005-09-13 | Canon Kabushiki Kaisha | Method and apparatus for efficient determination of recognition parameters |
EP1182577A1 (en) * | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US20020156816A1 (en) * | 2001-02-13 | 2002-10-24 | Mark Kantrowitz | Method and apparatus for learning from user self-corrections, revisions and modifications |
US6732090B2 (en) * | 2001-08-13 | 2004-05-04 | Xerox Corporation | Meta-document management system with user definable personalities |
EP1288792B1 (en) * | 2001-08-27 | 2011-12-14 | BDGB Enterprise Software Sàrl | A method for automatically indexing documents |
JP4006239B2 (ja) * | 2002-02-21 | 2007-11-14 | 株式会社日立製作所 | 文書の検索方法および検索システム |
JP4366108B2 (ja) * | 2003-04-30 | 2009-11-18 | キヤノン株式会社 | 文書検索装置、文書検索方法及びコンピュータプログラム |
JP2005043977A (ja) * | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
US7805446B2 (en) * | 2004-10-12 | 2010-09-28 | Ut-Battelle Llc | Agent-based method for distributed clustering of textual information |
US8570586B2 (en) * | 2005-05-02 | 2013-10-29 | Digimarc Corporation | Active images through digital watermarking |
US7472121B2 (en) * | 2005-12-15 | 2008-12-30 | International Business Machines Corporation | Document comparison using multiple similarity measures |
US8090743B2 (en) * | 2006-04-13 | 2012-01-03 | Lg Electronics Inc. | Document management system and method |
WO2007149004A1 (en) * | 2006-06-13 | 2007-12-27 | Freescale Semiconductor, Inc. | Methods and apparatus for simulating distributed effects |
US7945627B1 (en) * | 2006-09-28 | 2011-05-17 | Bitdefender IPR Management Ltd. | Layout-based electronic communication filtering systems and methods |
US7610281B2 (en) * | 2006-11-29 | 2009-10-27 | Oracle International Corp. | Efficient computation of document similarity |
US7720721B1 (en) * | 2006-12-28 | 2010-05-18 | Amazon Technologies, Inc. | Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms |
WO2008097194A1 (en) * | 2007-02-09 | 2008-08-14 | Agency For Science, Technology And Research | Keyword classification and determination in language modelling |
US8280877B2 (en) * | 2007-02-22 | 2012-10-02 | Microsoft Corporation | Diverse topic phrase extraction |
US20080212877A1 (en) * | 2007-03-04 | 2008-09-04 | John Franco | High speed error detection and correction for character recognition |
US20090228777A1 (en) * | 2007-08-17 | 2009-09-10 | Accupatent, Inc. | System and Method for Search |
US20090198677A1 (en) * | 2008-02-05 | 2009-08-06 | Nuix Pty.Ltd. | Document Comparison Method And Apparatus |
JP4538507B2 (ja) * | 2008-05-02 | 2010-09-08 | シャープ株式会社 | 画像照合方法、画像照合装置、画像データ出力処理装置、プログラム及び記憶媒体 |
-
2000
- 2000-02-23 EP EP00103810A patent/EP1128278B1/en not_active Expired - Lifetime
- 2000-02-23 ES ES00103810T patent/ES2208164T3/es not_active Expired - Lifetime
- 2000-02-23 DE DE60005293T patent/DE60005293T2/de not_active Expired - Lifetime
-
2001
- 2001-02-02 JP JP2001562361A patent/JP4782346B2/ja not_active Expired - Lifetime
- 2001-02-02 CA CA2401172A patent/CA2401172C/en not_active Expired - Lifetime
- 2001-02-02 AU AU2001233736A patent/AU2001233736A1/en not_active Abandoned
- 2001-02-02 WO PCT/EP2001/001132 patent/WO2001063467A1/en active Application Filing
- 2001-02-02 US US10/204,756 patent/US20080040660A1/en not_active Abandoned
- 2001-02-02 EP EP01905729A patent/EP1259903A1/en not_active Withdrawn
-
2007
- 2007-05-25 AU AU2007202382A patent/AU2007202382B2/en not_active Expired
-
2009
- 2009-08-14 AU AU2009208162A patent/AU2009208162A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61217863A (ja) * | 1985-03-23 | 1986-09-27 | Brother Ind Ltd | 電子辞書 |
US4864501A (en) * | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
US5191525A (en) * | 1990-01-16 | 1993-03-02 | Digital Image Systems, Corporation | System and method for extraction of data from documents for subsequent processing |
JPH10240958A (ja) * | 1996-12-27 | 1998-09-11 | Fujitsu Ltd | 画像から管理情報を抽出する管理情報抽出装置および方法 |
Non-Patent Citations (2)
Title |
---|
CSNG199901681006, 斎鹿尚史、外3名, "名刺読み取りシステム", 電子情報通信学会技術研究報告(NLC93−18〜30), 19930708, 第93巻,第131号, p.41−48, JP, 社団法人電子情報通信学会 * |
JPN6010056034, 斎鹿尚史、外3名, "名刺読み取りシステム", 電子情報通信学会技術研究報告(NLC93−18〜30), 19930708, 第93巻,第131号, p.41−48, JP, 社団法人電子情報通信学会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9159584B2 (en) | 2000-08-18 | 2015-10-13 | Gannady Lapir | Methods and systems of retrieving documents |
US9141691B2 (en) | 2001-08-27 | 2015-09-22 | Alexander GOERKE | Method for automatically indexing documents |
JP2013509663A (ja) * | 2009-11-02 | 2013-03-14 | ビーデージービー・エンタープライズ・ソフトウェア・エスエーアールエル | 動的変動ネットワークを使用するシステムおよび方法 |
US9152883B2 (en) | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
US9158833B2 (en) | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
US9213756B2 (en) | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
Also Published As
Publication number | Publication date |
---|---|
EP1128278A1 (en) | 2001-08-29 |
CA2401172C (en) | 2012-01-24 |
EP1259903A1 (en) | 2002-11-27 |
JP4782346B2 (ja) | 2011-09-28 |
EP1128278B1 (en) | 2003-09-17 |
DE60005293D1 (de) | 2003-10-23 |
AU2001233736A1 (en) | 2001-09-03 |
AU2009208162A1 (en) | 2009-09-10 |
AU2007202382B2 (en) | 2009-06-04 |
WO2001063467A1 (en) | 2001-08-30 |
AU2007202382A1 (en) | 2007-06-14 |
ES2208164T3 (es) | 2004-06-16 |
DE60005293T2 (de) | 2004-07-01 |
CA2401172A1 (en) | 2001-08-30 |
US20080040660A1 (en) | 2008-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2007202382B2 (en) | Method and apparatus for processing electronic documents | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
US9158833B2 (en) | System and method for obtaining document information | |
JP5710624B2 (ja) | 抽出のための方法及びシステム | |
EP0844583B1 (en) | Method and apparatus for character recognition | |
US7668372B2 (en) | Method and system for collecting data from a plurality of machine readable documents | |
JP2973944B2 (ja) | 文書処理装置および文書処理方法 | |
KR100249055B1 (ko) | 문자인식장치및방법 | |
KR100412317B1 (ko) | 문자인식/수정방법및장치 | |
CN112434691A (zh) | 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质 | |
JP2005242579A (ja) | 文書処理装置、文書処理方法、および文書処理プログラム | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
US20150310269A1 (en) | System and Method of Using Dynamic Variance Networks | |
JP4787955B2 (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
JP6856916B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
WO2021140682A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
WO2007070010A1 (en) | Improvements in electronic document analysis | |
KR102684423B1 (ko) | 데이터 검색 방법 및 시스템 | |
JP7421384B2 (ja) | 情報処理装置、修正候補表示方法、及びプログラム | |
AU2013209297A1 (en) | Method and apparatus for processing electronic documents | |
JPH0589279A (ja) | 文字認識装置 | |
MXPA95003295A (en) | System and method for automated interpretation of input expressions using novel a posteriori probability measures and optimally trained information processing networks | |
JPH06111075A (ja) | 文字認識された日本語文の後処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100928 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101227 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110607 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110707 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140715 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4782346 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |