JP2010515167A - 文書保存システム - Google Patents

文書保存システム Download PDF

Info

Publication number
JP2010515167A
JP2010515167A JP2009544223A JP2009544223A JP2010515167A JP 2010515167 A JP2010515167 A JP 2010515167A JP 2009544223 A JP2009544223 A JP 2009544223A JP 2009544223 A JP2009544223 A JP 2009544223A JP 2010515167 A JP2010515167 A JP 2010515167A
Authority
JP
Japan
Prior art keywords
document
text
text document
searchable
metadata element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009544223A
Other languages
English (en)
Other versions
JP5124885B2 (ja
Inventor
ガーグ,アシュトッシュ
ダタル,マユール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2010515167A publication Critical patent/JP2010515167A/ja
Application granted granted Critical
Publication of JP5124885B2 publication Critical patent/JP5124885B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns

Abstract

システムは、取得した文書画像からテキスト文書を作成する。検索可能なメタデータ要素は、ユーザによって、あるいはテキスト文書を作成するために使用されるテンプレートによって、テキスト文書の全部あるいは一部に割り当てられ得る。テキスト文書と対応するメタデータ要素とは、テキスト文書の内容および/あるいはテキスト文書に対応するメタデータ要素に基づいた後のテキスト文書の探索および検索を容易にするために、保存され得る。

Description

背景
発明の分野
ここで開示されるシステムおよび方法は、一般的に情報検索に関し、特に、その後に行われる検索および情報読出のためのユーザ情報の保存に関する。
関連技術の説明
現在のコンピュータネットワーク、特にインターネットは、膨大な情報を広範囲にかつ容易に利用可能なものとした。たとえば、インターネット検索エンジンは、インターネットに接続された非常に多くのウェブ文書にインデックスを付す。インターネットに接続したユーザは、簡単な検索クエリを入力することよって、当該検索クエリに関連するウェブ文書をすばやく見つけ出すことができる。
ウェブサイトや他のオンライン上の文書のような、公衆に利用可能な文書に加えて、近年、ワード文書のようなユーザ文書、電子メール、音楽などにインデックスを付することや、それらを保存することを容易にするための試みが為されてきている。グーグルデスクトップ検索(Google Desktop Search)や、コペルニクスデスクトップ検索(Copernic Desktop Search)や、アップルコンピュータ社のサファリのようなアプリケーションは、典型的には、ユーザのローカルな記憶装置のなかの指定された領域内を検索し、当該領域内で識別される検索可能な文書のインデックスを保持する。残念ながら、従来の文書インデックス付与ツールは、文書を基にしたテキストでないものを記憶したり、効率的にインデックスを付与したりするものではない。
概要
ある局面に従うと、方法は、文書画像を受け取ることを含み得る。文書画像は、テキスト文書に変換され得る。検索可能な情報がテキスト文書に関連付けられて取得され得る。少なくとも1つの検索可能なメタデータ要素がテキスト文書に関連付けられ得る。テキスト文書と少なくとも1つの検索可能なメタデータ要素とが、少なくとも1つの検索可能なメタデータ要素に基づいて、その後に実行される検索のために記憶され得る。
他の局面に従うと、システムは、文書の画像を取得するように構成された文書取得システムと、処理システムとを含み得る。処理システムは、画像に含まれたテキストを識別し、識別されたテキストに基づいてテキスト文書を生成し、テキスト文書に関連する検索可能な情報を取得し、少なくとも1つの検索可能なメタデータ要素をテキスト文書に関連付け、テキスト文書と少なくとも1つの検索可能なメタデータ要素とを少なくとも1つの検索可能なメタデータ要素に基づいてその後に実行される検索のためにコンピュータネットワークを介してデータベースへと送信するように構成され得る。
さらに他の局面に従えば、方法は、画像文書を受け取ること、画像文書に含まれるテキストを識別すること、識別されたテキストに基づいてテキスト文書を生成すること、テキスト文書に関連する検索可能な情報を取得すること、検索可能な情報に基づいて少なくとも1つの検索可能なメタデータ要素をテキスト文書に関連付けること、少なくとも1つの検索可能なメタデータ要素に基づいてその後に実行される検索のためにテキスト文書と少
なくとも1つの検索可能なメタデータ要素とをデータベースに格納することを含み得る。
本明細書に組み込まれるとともに本明細書の一部を構成する、添付の図面は、本発明の実施の形態を図示し、説明文とともに本発明を説明するものである。図面は、以下のものを含む。
ここで開示される局面に係るシステムと方法とが実現され得る代表的なシステム100を示す概略図である。 図1に係るクライエント装置あるいはサーバ装置を示す代表的な概略図である。 図1に係る処理システムによって利用され得る代表的なコンピュータ読取可能な媒体の一部を示す概略図である。 代表的な光学式文字認識用のテンプレートを示す代表的な概略図である。 文書の取得、処理、管理に関する代表的な処理を示すフローチャートである。
詳細な説明
以下、図面を参照しつつ、本発明について詳細に説明する。異なる図面における同一の参照符号は、同一あるいは同様の要素を特定し得るものである。そして、本発明は、以下の詳細な説明によって限定されるものではない。
概要
より多くの種類の文書が、検索エンジンを介して検索可能になりつつある。たとえば、個人的な文書や、金融文書や、領収書や、通信文書などのような、文書が読み取られて、それらのテキストが光学式文字認識(OCR)を利用することによって認識され得る。ここに示される実施の形態のように、効率的で簡単な方法によってこれらの文書の保存や検索を可能にすることは有益なものとなり得る。
ここに示される実施の形態に係るシステムおよび方法は、文書を取得したり検索したりすることを容易にし、関連のあるメタデータ情報を文書に割り当てることを容易にすることができる。文書に光学的文字認識が行なわれたりその他の処理が施されたりすることによって、取得された文書のテキスト形式が作成される。文書や、当該文書に関連付けられたメタデータやテキスト形式は、オンライン上の格納場所やサーバに格納され得る。これによって、文書情報は、テキスト形式や関連するメタデータに含まれる情報に基づいて、多くの装置によって容易に検索あるいは読出され得る。
代表的なシステム
図1は、ここで開示される局面に係るシステムと方法とが実現され得る代表的なシステム100を示す概略図である。システム100は、文書取得システム110、処理システム120、ネットワーク130、文書データベースサーバ140、テンプレートデータベースサーバ150を含み得る。ある実施の形態においては、文書取得システム110は、文書のページを読み取るように構成されたスキャナあるいは同様の画像取得装置を含み得る。スキャナは、文書を読み取ったり獲得したりするために従来の技術を利用することができる。他の実施の形態においては、文書取得システム110は、コンピュータ読取可能なテキスト情報を含むあるいは含まないデジタル文書を検索したり取り込んだりするように構成され得る。たとえば、文書取得システム110は、ネットワーク130を介して銀行のウェブサーバ(図示せず)からオンライン上の銀行取引明細書を検索するように構成され得る。このようなオンライン上の銀行取引明細書は、当初、画像あるいはテキストと
して認識されない電子文書フォーマット(たとえば、pdf、tiff、jpeg、など)として検索され得る。ここで使用される「文書」という文言は、機械が読取可能であったり機械が格納可能な作業生産物、電子媒体、印刷媒体などを含むように広く解釈されるべきものである。たとえば、文書は、印刷媒体(たとえば、新聞、雑誌、書籍、百科事典など)、電子新聞、電子書籍、電子雑誌、オンラインの百科事典、電子媒体(たとえば、画像ファイル、音楽ファイル、ビデオファイル、ウェブキャスト、ポッドキャストなど)などに含まれる情報を含み得る。
以下では、さらに詳細に説明する。処理システム120は、文書に関連付けられたテキストを認識するために、文書取得システム110によって取得されたりその他の方法で検索されたりした文書に対してOCR処理を施すように構成され得る。処理システム120は、パーソナルコンピュータ、無線電話、パーソナルデジタルアシスタント(PDA)、ラップトップ、その他の種類の計算装置あるいは通信装置などのような装置として定義され得るクライエント装置、これらの装置の1つによって実行されるスレッドや処理、および/あるいはこれらの装置の1つによって実行可能なオブジェクトを含み得る。他の局面においては、処理システム120は、文書を合成したり、処理したり、検索したり、および/あるいは維持したりするサーバ装置を含み得る。このような局面においては、「シンクライエント」装置は、サーバ主体の処理システム120と相互に作用するように構成され、文書に対する処理がクライエント装置に対して遠隔で実行され得る。
ある実施の形態においては、処理システム120によって行なわれるOCR処理は、取得された各々の文書の全体に対して、予めメタデータが当該文書に関連付けられていない状態で実行され得る。他の実施の形態としては、OCR処理は、処理システム120によって自動的に選択された、あるいはユーザによって選択および/あるいは構成されたテンプレートあるいは予め準備された構成に基づいて実行され得る。テンプレートは、検索可能なメタデータを文書の各部分に割り当てたり、あるいは処理システム120に文書のうちの予め定められた部分だけに対してOCR処理を行なわせる旨の指示を与えたりできる。
上述の銀行取引明細書の例においては、OCR用のテンプレートが備えられた銀行は、処理システム120に明細書のどの部分がどのような種類の情報に関連するのかについての指示を与え得る。たとえば、取引明細書の文書の第1の部分は口座情報を含み、一方、第2の部分は取引情報を含み得る。テンプレートは、さらに、取引明細書の取引情報の部分のみにOCR処理を施すべきことを示し得る。文書に対してOCR処理あるいはその他の処理を施すよりも前に文書についての情報を与えることによって、情報の取得がより効率的に実行され得る。ある代表的な実施の形態においては、テンプレートは、テンプレートデータベースサーバ150のテンプレートデータベース155に格納されたりその他の方法によって維持され得る。そして、テンプレートは、ネットワーク130を介してアクセス可能になる。他の実施の形態(図示せず)においては、テンプレートデータベースサーバ150および/あるいはテンプレートデータベース155は、処理システム120にローカルに配置され得る。以下では、詳細に、上述の実施の形態に関係する追加的な詳細事項について説明する。
文書データベースサーバ140は、取得された文書に割り当てられたあるいは関連付けられたメタデータと同様に、OCR処理が施されたテキストを文書に関連付けて格納するように構成される文書データベース145を含み得る。ある実施の形態においては、取得された文書の電子的なコピーも、文書データベース145に格納され得る。図に示すように、ある実施の形態においては、文書データベースサーバ140は、ネットワーク130を介して処理システム120に接続され得る。しかし、他の実施の形態においては、文書データベースサーバ140および/あるいは文書データベース145は、処理システム1
20に対してローカルに格納されてもよい。
文書データベースサーバ140は、文書のテキスト情報およびメタデータ情報を文書データベース145のデータベースレコード内に格納し得る。ある実施の形態においては、文書データベース145のレコードは、関係(リレーショナル)データベースを形成するように配列され得る。しかしながら、ここに示される局面に従うものであれば、どのような好適なデータベース構造が実現されてもよい。
ネットワーク130は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、公衆交換電話網(PSTN)のような電話網、イントラネット、インターネット、あるいはこれらのネットワークを組合せたものを含み得る。処理システム120およびデータベースサーバ140,150は、有線、無線、および/あるいは光学的な接続を介して、ネットワーク130に接続され得る。
代表的な処理システム/読取システムの基本設計概念
図2は、クライエント装置あるいはサーバ装置(後述する「システム110/120」)を示す代表的な概略図である。クライエント装置あるいはサーバ装置は、1または複数の文書取得システム110、処理システム120、文書データベースサーバ140、および/あるいはテンプレートデータベースサーバ150に対応し得る。本実施の形態においては、システム110/120は、コンピュータによって実現され得る。他の実施の形態においては、システム110/120は、1組の協働したコンピュータを含み得る。システム110/120は、バス210、プロセッサ220、メインメモリ230、ROM(Read Only Memory)240、記憶装置250、入力デバイス260、出力デバイス270、通信インターフェイス280を含み得る。バス210は、システム110/120の要素間の伝達を可能にする経路を含み得る。
プロセッサ220は、指令を解釈および実行し得るプロセッサ、マイクロプロセッサあるいはプロセッシングロジックを含み得る。メインメモリ230は、プロセッサ220によって実行される情報や指令を格納し得るRAM(Random Access Memory)あるいはその他のタイプの揮発性の記憶装置を含み得る。ROM240は、プロセッサ220によって利用される情報や指令を不揮発に格納し得るROM装置あるいはその他のタイプの不揮発性の記憶装置を含み得る。記憶装置250は、磁気的および/あるいは光学的な記録媒体および対応のドライブを含み得る。
入力デバイス260は、キーボード、マウス、ペン、音声認識、および/あるいは生体認証機構などのような、操作者に情報をシステム110/120に入力させるための機構を含み得る。出力デバイス270は、情報を操作者に出力する機構を含むものであって、ディスプレイ、プリンタ、スピーカなどを含み得る。通信インターフェイス280は、システム110/120に他の装置および/あるいはシステムと通信することを可能にするトランシーバのような機構を含み得る。たとえば、通信インターフェイス280は、ネットワーク130のようなネットワークを介して、他の装置やシステムと通信するための機構を含み得る。
以下、詳述する。システム110/120は、操作に関連する文書処理を実行し得る。システム110/120は、メモリ230のようなコンピュータ読取可能な媒体に含まれるソフトウェアの指令を実行するプロセッサ220に応じて、これらの操作を実行し得る。コンピュータ読取可能な媒体は、物理的あるいは論理的な記憶装置および/あるいは搬送波として定義され得る。
ソフトウェアの指令は、データ記憶装置250のような他のコンピュータ読取可能な媒
体から、あるいは通信インターフェイス280を介して他の装置から、メモリ230へと読出され得る。メモリ230に格納されるソフトウェアの指令は、プロセッサ220に、後述するような処理を実行させ得る。あるいは、ハードウェアとしての電気回路が、本発明のさまざまな局面における処理を実現するためにソフトウェアの指令の代わりに、あるいは当該ソフトウェアの指令と組み合されて使用され得る。このように、本発明の実施の形態は、ハードウェア回路とソフトウェアとの如何なる特定の組合せにも限定されるものではない。
代表的なコンピュータ読取可能な媒体
図3は、処理システムによって利用され得る代表的なコンピュータ読取可能な媒体の一部を示す概略図である。ある実施の形態においては、コンピュータ読取可能な媒体300は、クライエント120のメモリ230に対応し得る。図3に示されるコンピュータ読取可能な媒体300の一部は、オペレーティングシステム310、OCRソフトウェア320、文書管理ソフトウェア330を含み得る。
より詳細には、オペレーティングシステム310は、マイクロソフトウィンドウズ(登録商標)、ユニックス、あるいはリナックスのオペレーティングシステムのような、オペレーティングシステムのソフトウェアを含み得る。OCRソフトウェア320は、文書取得システム110による文書画像の取得を開始するために、文書取得システム110に接続するためのソフトウェア(たとえばドライバ)を含み、あるいは利用し得る。加えて、OCRソフトウェア320は、取得された文書の画像をテキスト形式に変換するためのソフトウェアを含み得る。簡単に上述したように、OCRソフトウェア320は、テンプレートデータベースサーバ150から検索されたテンプレートを利用することによって、文書の効率的な認識やメタデータ要素の文書への効率的な割り当てを容易にし得る。
図4は、上述した銀行取引明細書の例に関連するOCRテンプレート400の代表的な図示の代表的な概略図である。図に示すように、テンプレート400は、ヘッダ情報およびフッダ情報に関係する非OCR領域405,410を識別し得る。非OCR領域405,410は、処理システム120に、取得された文書のうちのこれらの領域の位置に対応する部分にOCR処理を施さないように指示することができる。口座領域415は、処理システム120に、「口座情報」メタデータ情報を、取得された文書のうちの領域415の位置に対応する部分内において識別されたテキスト情報に割り当てるように指示し得る。同様に、取引領域420は、処理システム120に、「取引」メタデータ要素を、取得された文書のうちの領域420の位置に対応する部分内において識別されたテキスト情報に割り当てるように指示し得る。テンプレートを利用することによって処理された文書に対するOCR処理やメタデータの割り当てを指示することによって、認識やメタデータの割り当てが、手動の場合の形態と比較してより効率的に実行され得る。
ここで示される局面に係るある実施の形態においては、OCRソフトウェア320は、文書画像が正確にテキスト形式に変換された可能性を示したりあるいはその他の方法で当該可能性を決める、変換された文書のためのOCRの信頼性を決定することができる。ある実施の形態においては、OCRソフトウェアは、OCRの信頼性が予め定められたレベル以下であるときに、文書画像の再読取あるいは再取得を開始してもよい。ある実施の形態においては、再読取あるいは再取得は、前回よりも大きな解像度によって実行され得る。さらなる実施の形態として、OCRの信頼性がテンプレートによって識別された各エリアについて求められ、予め定められた領域についてのOCRの信頼性が予め定められたレベル以下であるときのみに再読取あるいは再取得が行なわれる。あるいは、文書のうちの異なる領域のOCRの信頼性のしきい値が、当該文書に含まれる情報の相対的な重要性に基づいて異なるものであってもよい。これによって、より重要な領域についての高い精度の変換を維持しつつ、重要でないあるいは比較的重要でない領域からデータを再度読取っ
たり再度取得したりすることによって生じる不必要な遅延を防止することができる。
文書管理ソフトウェア330は、OCRソフトウェア320によって出力された文書のテキスト形式を手動で見直すことを可能にするためのソフトウェアを含み得る。文書管理ソフトウェア330は、メタデータ要素をテキスト形式の1または複数の部分に割り当てるとともに、テキスト形式を訂正したり編集したりし得る。たとえば、上述した銀行取引明細書の例においては、取引明細書の日付や日付範囲および銀行名や口座名が文書に割り当てられ得る。加えて、文書のある部分には「負債」メタデータ要素が割り当てられ、一方、文書の他の部分には「預金」メタデータ要素が割り当てられ得る。文書管理ソフトウェア330は、その後に実行される探索および検索のために、テキスト形式、当該テキスト形式に対応するメタデータ要素、および/あるいは当該テキスト形式に対応する文書画像を、文書データベースサーバ140に記憶し得る。ある実施の形態においては、文書管理ソフトウェア330は、グーグル(登録商標)(Google(登録商標))のライトハウス(Lighthouse)やピカソ(Picasa(登録商標))のような画像管理アプリケーションを含み得る。
メタデータ要素を文書に対する検索可能なテキスト形式に割り当てることは、1または複数のメタデータ要素だけでなく文書データの組合せを利用することによって、文書に含まれる情報のより効率的な検索を容易にし得る。たとえば、特定の取引を含む文書は、文書の日付範囲内の日付や取引の種類だけでなく、ユーザによるテキスト形式内の特定の受取人の検索に応じても、より簡単に検索され得る。
代表的な処理
図5は、文書の取得、処理、管理に関する代表的な処理を示すフローチャートである。図5の処理は、文書取得システム110あるいは処理システム120内の1または複数のソフトウェアおよび/あるいはハードウェアの要素、あるいはそれらの組合せによって実行され得る。他の実施の形態においては、当該処理は、他の装置や、文書取得システム110および/あるいは処理システム120とは別の装置のグループや、文書取得システム110および/あるいは処理システム120を含む装置のグループに含まれる1または複数のソフトウェアおよび/あるいはハードウェアの要素によって実行され得る。
処理は、文書取得システム110が文書を表わす1または複数の画像を取得することによって開始され得る(動作510)。上述したように、ある実施の形態においては、文書のページの画像を取得するために従来の読取技術が利用され得る。あるいは、文書画像は、ローカルに、あるいはネットワーク130を介してアクセス可能な遠隔の資源からアクセス可能な、電子的な情報源から検索されたり取得されたりし得る。
画像が取得されると、文書のテキスト形式あるいは検索可能な形式を作成するために、文書画像にOCR処理が施される(動作515)。OCR処理には、文書の各ページ画像に基づいて、テキストが配置されるページ上の位置を示す情報とともに、認識可能なテキストの画像の分析および当該画像に含まれるテキストの特徴(たとえば、フォント、サイズ、書式など)の分析が含まれ得る。
ある実施の形態においては、OCR処理が、文書画像の各々の全体に対して実行され得る。他の実施の形態においては、OCR処理は、テンプレートデータベースサーバ150から、あるいは自身の記憶領域(たとえば、データ記憶装置210)から、読出されたテンプレートに基づいて文書画像の部分に対して実行され得る。たとえば、ある実施の形態においては、銀行が、サーバ150によって運営されるウェブサイトからテンプレートを提供する。他の実施例としては、同様の形式の文書を後で利用するときのために、ユーザがテンプレートを作成したり保存し得る。上述したように、テンプレートは、文書の種類
に応じてさまざまな領域を示し得る。テンプレートは、メタデータ要素を規定したり、メタデータ要素をそれらの領域にあるいは文書全体に対して割り当てるために利用され得る。ここで示される局面に係る他の実施の形態としては、テンプレートは、認識を行なうためのOCR処理に、特定の信頼性のレベルを指定する。
文書のテキスト形式が生成されると、変換のための信頼性レベルが決定され得る(動作520)。このとき、信頼性レベルが、正確な変換を表わす予め定められたしきい値レベル以上であるか否かが判断される(動作525)。予め定められたしきい値以上でない場合(動作525においてNOである場合)、処理は、同様の解像度あるいはさらに向上させられた解像度によって再度画像を取得するために動作510へと戻り得る。一方、予め定められたしきい値以上である場合(動作525にてYESである場合)、生成されたテキスト形式が、ユーザによって確認されるためにおよび/あるいはユーザによって編集されるためにユーザへと示され得る(動作530)。テキスト形式に対する変更、追加、あるいは削除が受け付けられる(動作535)。生成されたテキスト形式をユーザが見直すことによって、ユーザは効率的にOCRのエラーを修正することができ、慎重に扱うべきあるいは秘密にすべき情報をテキスト形式から取り除くことができる。
次に、テキスト形式の探索および/あるいは検索を容易にするために、1または複数のメタデータ要素がテキスト形式に関連付けられたり割り当てられたりする(動作540)。上述したように、文書のテキストに含まれる情報だけでなく、文書の内容を代表するものをメタデータ要素として文書全体にあるいはテキスト文書の指定された部分に付与され得る。たとえば、上述の銀行取引明細書の例においては、「銀行取引明細書」のようなメタデータ要素、文書の日付あるいは日付範囲、口座名などが、文書のテキスト形式に割り当てられ得る。加えて、メタデータ要素は、文書のテキスト形式の選択された領域に割り当てられ得る。たとえば、預金取引は「預金」メタデータ要素に割り当てられ、一方、銀行取引明細書の負債取引は「負債」メタデータ要素に割り当てられ得る。このようにして、OCRで読取られた内容に関係する情報が、テキスト文書に関連付けられ得る。
好ましいメタデータ要素が割り当てられたり、予めテンプレートによって割り当てられていたり、取り除かれたり、編集されたりすると、テキスト形式および当該テキスト形式に関連付けられたメタデータ要素が文書データベースサーバ140の文書データベース145に格納され得る(動作545)。ある代表的な実施の形態においては、文書データベースサーバ140は、OCRで読取られたユーザの文書のためにオンライン上の格納環境を維持するように構成されたウェブサーバであり得る。他の実施の形態においては、ユーザが、取得した画像も文書データベース145に格納し得る。これによって、後でテキスト形式とともに実際の画像の文書自体を検索することが可能になる。
まとめ
ここで示されるシステムおよび方法は、自動的に文書に関連付けられたメタデータを識別し、メタデータと文書の画像および/あるいはテキスト形式との対応関係を生成し得る。これによって、システムあるいは方法は、文書の内容と当該文書に関連付けられたメタデータの両方を検索したり、および/あるいはその他の処理を行なったりすることを可能にする。
上記のように、本発明の好ましい実施の形態の説明として、図示および説明を行なったが、これらは本発明を完全に網羅したり、本発明を開示された形態に厳格に限定したりすることを意図するものではない。上記の教示から修正や変更が可能であることは明らかであって、本発明の実際の運用から当該修正や変更が為され得る。
たとえば、図5においては一連の動作が示されているが、本発明の原理に基づいて他の
実施形態においては当該動作の順序が修正され得る。さらに、独立した動作が並行して実行され得る。
上述したように、本発明の局面が、図に示された実施の形態に係るものとは異なる形式のソフトウェア、ファームウェア、ハードウェアによって実現され得ることが明らかなものとなるであろう。本発明の原理に即した局面を実現するために用いられる実際のソフトウェアコードや特別な制御ハードウェアは、本発明を限定するものではない。上記のように上記の局面に係る操作および動作は、特定のソフトウェアコードを参照することなく説明されている。ここでの記載に基づいて、ソフトウェアや制御ハードウェアを上記の局面を実現するように設計することが可能であることが理解される。
本出願で用いられた要素、動作、指令は、特に説明がない限り、本発明の重要なものあるいは本質的なものと解釈すべきではない。また、本出願では、「a」という冠詞は、1つまたは複数のものを含むことを意図される。1つのもののみを意図する場合には、「1つの」あるいは同様の言葉が使用される。さらに、「基づいて」という語句は、特にその他の説明がない限り、「少なくとも部分的に基づいて」という意味を成すことが意図される。

Claims (23)

  1. 文書画像を受け取るステップと、
    前記文書画像をテキスト文書に変換するステップと、
    前記テキスト文書に関する検索可能な情報を取得するステップと、
    前記検索可能な情報に基づいて、少なくとも1つの検索可能なメタデータ要素を前記テキスト文書に関連付けるステップと、
    前記少なくとも1つの検索可能なメタデータ要素に基づいた後の検索のために、前記テキスト文書と前記少なくとも1つの検索可能なメタデータ要素とを格納するステップとを備える、方法。
  2. 前記文書画像を受け取るステップは、光学読取装置を用いて文書画像を取得するステップを含む、請求項1に記載の方法。
  3. 前記文書画像を受け取るステップは、記憶媒体から前記文書画像の電子版を取得するステップを含む、請求項1に記載の方法。
  4. 前記記憶媒体は、コンピュータネットワークを介してアクセス可能である、請求項3に記載の方法。
  5. 前記文書画像を前記テキスト文書に変換するステップは、
    前記文書画像に光学文字認識処理を行なうことによって、前記文書のテキストを認識するステップと、
    認識された前記文書のテキストを含む前記テキスト文書を作成するステップとを含む、請求項1に記載の方法。
  6. 前記文書画像の部分を前記テキスト文書に変換するための指令を含むテンプレートを読み出すステップと、
    前記文書画像を前記テンプレートに基づいて前記テキスト文書へ変換するステップとをさらに備える、請求項1に記載の方法。
  7. 前記テンプレートを読み出すステップは、コンピュータネットワークを介してアクセス可能なテンプレートデータベースからテンプレートを読み出すステップを含む、請求項6に記載の方法。
  8. 前記少なくとも1つの検索可能なメタデータ要素を、前記文書画像の少なくとも一部分に対応する前記テキスト文書の少なくとも一部分に割当てるための指令を含むテンプレートを読み出すステップと、
    前記少なくとも1つの検索可能なメタデータ要素を前記テンプレートに基づいて前記テキスト文書の少なくとも一部分に関連付けるステップとをさらに備える、請求項1に記載の方法。
  9. 後の検索のために前記テキスト文書と前記少なくとも1つの検索可能なメタデータ要素とを格納するステップは、コンピュータネットワークを介してアクセス可能なサーバに前記テキスト文書と前記少なくとも1つの検索可能なメタデータ要素とを格納するステップを含む、請求項1に記載の方法。
  10. 前記テキスト文書と前記少なくとも1つの検索可能なメタデータ要素とともに前記文書画像を格納するステップをさらに備える、請求項9に記載の方法。
  11. テキスト文書を修正するための指令を受付けるステップと、
    受付けた指令に応じて前記テキスト文書を修正することによって修正テキスト文書を生成するステップと、
    前記少なくとも1つの検索可能なメタデータ要素に基づいた後の検索のために、前記修正テキスト文書と前記少なくとも1つの検索可能なメタデータ要素とを格納するステップとをさらに備える、請求項1に記載の方法。
  12. 前記指令は、前記テキスト文書の少なくとも一部分を削除する指令を含む、請求項11に記載の方法。
  13. 前記指令は、前記テキスト文書の少なくとも一部分を訂正する指令を含む、請求項12に記載の方法。
  14. 前記文書画像に対応する前記テキスト文書の正確さを示す信頼性レベルを決定するステップと、
    前記信頼性レベルが予め定められたしきい値以下であると判断されたときに、前記文書画像を再度取得するステップとを備える、請求項1に記載の方法。
  15. 文書画像を受け取るための手段と、
    前記文書画像をテキスト文書に変換するための手段と、
    前記テキスト文書に関する検索可能な情報を取得するための手段と、
    前記検索可能な情報に基づいて、少なくとも1つの検索可能なメタデータ要素を前記テキスト文書に関連付けるための手段と、
    前記少なくとも1つの検索可能なメタデータ要素に基づいた後の検索のために、前記テキスト文書と前記少なくとも1つの検索可能なメタデータ要素とを格納するための手段とを備える、システム。
  16. 文書の画像を取得するように構成された文書取得システムと、
    前記画像に含まれるテキストを識別し、
    識別されたテキストに基づいてテキスト文書を作成し、
    前記テキスト文書に関する検索可能な情報を取得し、
    前記検索可能な情報に基づいて少なくとも1つの検索可能なメタデータ要素を前記テキスト文書に関連付け、
    前記少なくとも1つの検索可能なメタデータ要素に基づいた後の検索のために、前記テキスト文書と前記少なくとも1つの検索可能なメタデータ要素とをデータベースへ転送するように構成された処理システムとを備える、システム。
  17. 前記文書取得システムは、光学スキャナを備える、請求項16に記載のシステム。
  18. 前記処理システムは、さらに、テンプレートに基づいて少なくとも1つの初期のメタデータ要素を前記テキスト文書に割当てるように構成される、請求項16に記載のシステム。
  19. 前記少なくとも1つの初期のメタデータ要素は、前記テキスト文書の全体に対して関連付けられる、請求項18に記載のシステム。
  20. 前記少なくとも1つの初期のメタデータ要素は、前記テンプレートによって識別される前記テキスト文書の部分に関連付けられる、請求項18に記載のシステム。
  21. 画像文書を受け取るステップと、
    前記画像文書に含まれるテキストを識別するステップと、
    識別されたテキストに基づいてテキスト文書を作成するステップと、
    前記テキスト文書に関する検索可能な情報を取得するステップと、
    前記検索可能な情報に基づいて、少なくとも1つの検索可能なメタデータ要素を前記テキスト文書に関連付けるステップと、
    前記少なくとも1つの検索可能なメタデータ要素に基づいた後の検索のために、前記テキスト文書と前記少なくとも1つの検索可能なメタデータ要素とをデータベースに格納するステップとを備える、方法。
  22. 文書画像を受け取るための1または複数の指令と、
    前記文書画像をテキスト文書に変換するための1または複数の指令と、
    前記テキスト文書に関する検索可能な情報を取得するための1または複数の指令と、
    前記検索可能な情報に基づいて、少なくとも1つの検索可能なメタデータ要素を前記テキスト文書に関連付けるための1または複数の指令と、
    前記少なくとも1つの検索可能なメタデータ要素に基づいた後の検索のために、前記テキスト文書と前記少なくとも1つの検索可能なメタデータ要素とを格納するための1または複数の指令とを備える、コンピュータ実行可能な指令を格納したコンピュータ読取可能な媒体。
  23. 読取装置から文書画像を受け取るステップと、
    前記文書画像に基づいて、前記文書画像に光学文字認識処理を施すことによってテキスト文書を作成するステップと、
    前記テキスト文書の修正を受付けるステップと、
    受付けた修正に基づいて、修正テキスト文書を作成するステップと、
    前記修正テキスト文書に関する検索可能な情報を識別するステップと、
    前記検索可能な情報に基づいて、少なくとも1つの検索可能なメタデータ要素を前記修正テキスト文書の少なくとも一部分に関連付けるステップと、
    前記少なくとも1つの検索可能なメタデータ要素に基づいた後の検索のために、前記修正テキスト文書と前記少なくとも1つの検索可能なメタデータ要素とを格納するステップとを備える、方法。
JP2009544223A 2006-12-28 2007-12-21 文書保存システム Active JP5124885B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/617,537 2006-12-28
US11/617,537 US20080162602A1 (en) 2006-12-28 2006-12-28 Document archiving system
PCT/US2007/088582 WO2008083083A1 (en) 2006-12-28 2007-12-21 Document archiving system

Publications (2)

Publication Number Publication Date
JP2010515167A true JP2010515167A (ja) 2010-05-06
JP5124885B2 JP5124885B2 (ja) 2013-01-23

Family

ID=39271252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009544223A Active JP5124885B2 (ja) 2006-12-28 2007-12-21 文書保存システム

Country Status (5)

Country Link
US (1) US20080162602A1 (ja)
EP (1) EP2100233A1 (ja)
JP (1) JP5124885B2 (ja)
CN (1) CN101611406A (ja)
WO (1) WO2008083083A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014071583A (ja) * 2012-09-28 2014-04-21 Brother Ind Ltd テンプレート処理プログラム及びテンプレート処理方法
JP2014235619A (ja) * 2013-06-03 2014-12-15 株式会社プリマジェスト 画像情報処理装置及び画像情報処理方法
KR20220058257A (ko) * 2020-10-30 2022-05-09 한국과학기술정보연구원 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7986843B2 (en) * 2006-11-29 2011-07-26 Google Inc. Digital image archiving and retrieval in a mobile device system
EP1986160A3 (en) * 2007-04-26 2009-01-07 Bowe Bell + Howell Company Document processing system control using document feature analysis for identification
JP5550959B2 (ja) * 2010-03-23 2014-07-16 株式会社日立ソリューションズ 文書処理システム、及びプログラム
US9652440B2 (en) * 2010-05-27 2017-05-16 Microsoft Technology Licensing, Llc Concurrent utilization of a document by multiple threads
CN102654874A (zh) * 2011-03-02 2012-09-05 顾菊林 单据数据管理方法及系统
WO2014018614A2 (en) * 2012-07-27 2014-01-30 Safelyfiled.Com, Llc System for the unified organization, secure storage and secure retrieval of digital and paper documents
CN105701527A (zh) * 2014-11-26 2016-06-22 方正国际软件(北京)有限公司 一种模板识别的方法和设备
CN104537058A (zh) * 2014-12-27 2015-04-22 宁波江东远通计算机有限公司 一种文档查询、上传方法及装置
US20170098192A1 (en) * 2015-10-02 2017-04-06 Adobe Systems Incorporated Content aware contract importation
US10929461B2 (en) 2016-07-25 2021-02-23 Evernote Corporation Automatic detection and transfer of relevant image data to content collections
US11250500B2 (en) * 2017-03-31 2022-02-15 Loancraft, Llc Method and system for performing income analysis from source documents
CN112883249B (zh) * 2021-03-26 2022-10-14 瀚高基础软件股份有限公司 版式文档处理方法、装置以及装置的应用方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001084254A (ja) * 1999-09-10 2001-03-30 Toshiba Corp 電子ファイリングシステムおよびファイリング方法
JP2002073598A (ja) * 2000-08-24 2002-03-12 Canon Inc 文書処理装置および方法
JP2005071349A (ja) * 2003-08-20 2005-03-17 Oce Technol Bv 指定されたドキュメント・エリアからのメタデータの抽出
JP2006202081A (ja) * 2005-01-21 2006-08-03 Seiko Epson Corp メタデータ生成装置

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3641495A (en) * 1966-08-31 1972-02-08 Nippon Electric Co Character recognition system having a rejected character recognition capability
US3872433A (en) * 1973-06-07 1975-03-18 Optical Business Machines Optical character recognition system
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US6002798A (en) * 1993-01-19 1999-12-14 Canon Kabushiki Kaisha Method and apparatus for creating, indexing and viewing abstracted documents
US5748780A (en) * 1994-04-07 1998-05-05 Stolfo; Salvatore J. Method and apparatus for imaging, image processing and data compression
CA2155891A1 (en) * 1994-10-18 1996-04-19 Raymond Amand Lorie Optical character recognition system having context analyzer
US5963966A (en) * 1995-11-08 1999-10-05 Cybernet Systems Corporation Automated capture of technical documents for electronic review and distribution
JPH11102414A (ja) * 1997-07-25 1999-04-13 Kuraritec Corp ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体
JPH11120185A (ja) * 1997-10-09 1999-04-30 Canon Inc 情報処理装置及びその方法
JP3773642B2 (ja) * 1997-12-18 2006-05-10 株式会社東芝 画像処理装置および画像形成装置
US6646765B1 (en) * 1999-02-19 2003-11-11 Hewlett-Packard Development Company, L.P. Selective document scanning method and apparatus
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US6775665B1 (en) * 1999-09-30 2004-08-10 Ricoh Co., Ltd. System for treating saved queries as searchable documents in a document management system
US6704120B1 (en) * 1999-12-01 2004-03-09 Xerox Corporation Product template for a personalized printed product incorporating image processing operations
US6362895B1 (en) * 2000-01-10 2002-03-26 Imagex, Inc. PDF to PostScript conversion of graphic image files
US7324139B2 (en) * 2000-01-20 2008-01-29 Ricoh Company, Ltd. Digital camera, a method of shooting and transferring text
FR2806814B1 (fr) * 2000-03-22 2006-02-03 Oce Ind Sa Procede de reconnaissance et d'indexation de documents
US6993205B1 (en) * 2000-04-12 2006-01-31 International Business Machines Corporation Automatic method of detection of incorrectly oriented text blocks using results from character recognition
US20040049737A1 (en) * 2000-04-26 2004-03-11 Novarra, Inc. System and method for displaying information content with selective horizontal scrolling
AU2001268274A1 (en) * 2000-06-09 2001-12-24 Eclik Corporation Network interface having client-specific information and associated method
US20020053020A1 (en) * 2000-06-30 2002-05-02 Raytheon Company Secure compartmented mode knowledge management portal
JP4603658B2 (ja) * 2000-07-07 2010-12-22 キヤノン株式会社 画像処理装置及び画像処理方法並びに記憶媒体
US7054508B2 (en) * 2000-08-03 2006-05-30 Canon Kabushiki Kaisha Data editing apparatus and method
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units
US7426513B2 (en) * 2000-10-12 2008-09-16 Sap Portals Israel Ltd. Client-based objectifying of text pages
US20020135816A1 (en) * 2001-03-20 2002-09-26 Masahiro Ohwa Image forming apparatus
US7149784B2 (en) * 2001-04-23 2006-12-12 Ricoh Company, Ltd. System, computer program product and method for exchanging documents with an application service provider at a predetermined time
US7284191B2 (en) * 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
US20030110158A1 (en) * 2001-11-13 2003-06-12 Seals Michael P. Search engine visibility system
US20030125929A1 (en) * 2001-12-10 2003-07-03 Thomas Bergstraesser Services for context-sensitive flagging of information in natural language text and central management of metadata relating that information over a computer network
US6768816B2 (en) * 2002-02-13 2004-07-27 Convey Corporation Method and system for interactive ground-truthing of document images
US20030189603A1 (en) * 2002-04-09 2003-10-09 Microsoft Corporation Assignment and use of confidence levels for recognized text
US6868424B2 (en) * 2002-07-25 2005-03-15 Xerox Corporation Electronic filing system with file-placeholders
WO2004042620A1 (en) * 2002-11-04 2004-05-21 Deepq Technologies, A General Partnership Document processing based on a digital document image input with a confirmatory receipt output
US20040252197A1 (en) * 2003-05-05 2004-12-16 News Iq Inc. Mobile device management system
ATE356389T1 (de) * 2003-08-20 2007-03-15 Oce Tech Bv Dokumentenscanner
US7287037B2 (en) * 2003-08-28 2007-10-23 International Business Machines Corporation Method and apparatus for generating service oriented state data mapping between extensible meta-data model and state data including logical abstraction
US7424672B2 (en) * 2003-10-03 2008-09-09 Hewlett-Packard Development Company, L.P. System and method of specifying image document layout definition
US7370034B2 (en) * 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US7466875B1 (en) * 2004-03-01 2008-12-16 Amazon Technologies, Inc. Method and system for determining the legibility of text in an image
US7814155B2 (en) * 2004-03-31 2010-10-12 Google Inc. Email conversation management system
US7912904B2 (en) * 2004-03-31 2011-03-22 Google Inc. Email system with conversation-centric user interface
US20050289182A1 (en) * 2004-06-15 2005-12-29 Sand Hill Systems Inc. Document management system with enhanced intelligent document recognition capabilities
US20050289016A1 (en) * 2004-06-15 2005-12-29 Cay Horstmann Personal electronic repository
US7911655B2 (en) * 2004-10-06 2011-03-22 Iuval Hatzav System for extracting information from an identity card
US20060206462A1 (en) * 2005-03-13 2006-09-14 Logic Flows, Llc Method and system for document manipulation, analysis and tracking
WO2008033926A2 (en) * 2006-09-12 2008-03-20 Stanley, Morgan Document handling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001084254A (ja) * 1999-09-10 2001-03-30 Toshiba Corp 電子ファイリングシステムおよびファイリング方法
JP2002073598A (ja) * 2000-08-24 2002-03-12 Canon Inc 文書処理装置および方法
JP2005071349A (ja) * 2003-08-20 2005-03-17 Oce Technol Bv 指定されたドキュメント・エリアからのメタデータの抽出
JP2006202081A (ja) * 2005-01-21 2006-08-03 Seiko Epson Corp メタデータ生成装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014071583A (ja) * 2012-09-28 2014-04-21 Brother Ind Ltd テンプレート処理プログラム及びテンプレート処理方法
JP2014235619A (ja) * 2013-06-03 2014-12-15 株式会社プリマジェスト 画像情報処理装置及び画像情報処理方法
KR20220058257A (ko) * 2020-10-30 2022-05-09 한국과학기술정보연구원 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치
KR102467096B1 (ko) 2020-10-30 2022-11-15 한국과학기술정보연구원 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치

Also Published As

Publication number Publication date
US20080162602A1 (en) 2008-07-03
JP5124885B2 (ja) 2013-01-23
CN101611406A (zh) 2009-12-23
WO2008083083A1 (en) 2008-07-10
EP2100233A1 (en) 2009-09-16

Similar Documents

Publication Publication Date Title
JP5124885B2 (ja) 文書保存システム
US20080162603A1 (en) Document archiving system
US6263121B1 (en) Archival and retrieval of similar documents
US6353840B2 (en) User-defined search template for extracting information from documents
US8250469B2 (en) Document layout extraction
US20140122479A1 (en) Automated file name generation
US20130054595A1 (en) Automated File Name Generation
Ugale et al. Document management system: A notion towards paperless office
CN112084748A (zh) 一种文本比对方法
US20070185832A1 (en) Managing tasks for multiple file types
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JPH11272654A (ja) 文書編集装置及び方法
JP4811133B2 (ja) 画像形成装置及び画像処理装置
JP2021047792A (ja) 情報処理装置及びプログラム
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
US11363162B2 (en) System and method for automated organization of scanned text documents
EP2927824A1 (en) Computer-implemented system and method for indexing electronic documents
Gribomont OCR with Google Vision API and Tesseract
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP5483166B2 (ja) 文書検索装置、文書検索方法、及びプログラム
US11681862B1 (en) System and method for identifying location of content within an electronic document
CN115131794A (zh) 信息处理装置、记录介质及信息处理方法
Hast et al. TexT-Text Extractor Tool for Handwritten Document Transcription and Annotation
TW201804343A (zh) 檢索索引產生方法及應用此方法之伺服器
Alam et al. Improving accessibility of archived raster dictionaries of complex script languages

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121012

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5124885

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250