JP4509366B2 - 文書上の情報をスキャンしてフォーマット化するシステム - Google Patents

文書上の情報をスキャンしてフォーマット化するシステム Download PDF

Info

Publication number
JP4509366B2
JP4509366B2 JP2000381844A JP2000381844A JP4509366B2 JP 4509366 B2 JP4509366 B2 JP 4509366B2 JP 2000381844 A JP2000381844 A JP 2000381844A JP 2000381844 A JP2000381844 A JP 2000381844A JP 4509366 B2 JP4509366 B2 JP 4509366B2
Authority
JP
Japan
Prior art keywords
information
scanned
user
text
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000381844A
Other languages
English (en)
Other versions
JP2001229340A (ja
Inventor
ダニエル シー スウィネハート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2001229340A publication Critical patent/JP2001229340A/ja
Application granted granted Critical
Publication of JP4509366B2 publication Critical patent/JP4509366B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ハンドヘルド装置によってユーザに読み取り可能な情報をスキャンする方法及びシステムに関し、より詳細には、ユーザの将来的な使用のためスキャンした情報を発見的に整理する方法及びシステムに関する。
【0002】
【従来の技術】
毎日、人は様々なソースから多くの記事を読む。日刊新聞をざっと見ただけで、人が一日に見る可能性のある多くの記事や広告がわかる。職場では、例えば業界誌、定期刊行ニュース、あるいはインフラオフィス通信などからさらに多くの情報を読む可能性がある。しかしながら、このように多くの情報から、重要な情報をいかに効率的に獲得しあるいは保持すべきか途方に暮れる経験が多々ある。
【0003】
このような情報を読みながら、自分にとって特に重要な情報を見つけると、人は次のようなことを行う。まず、その重要な情報及びその情報源を書き留める可能性がある。さらには、その記事又は広告を切り抜いたりあるいはフォトコピーして、ある種のフォルダに入れることもある。しかしながら、その場合に情報を記録せず、単に自分の記憶を信じるケースが非常に多い。ところが、前記2つのオプションの1つを行ったとしても、情報は依然として効果的な方法で収集され、保存されているわけではない。よって、その記録の保存方法は曖昧なことが多く、後に検索する際には厄介である。
【0004】
近年、有用な情報を収集するためのハンドヘルド装置が開発されている。これらのシステムは、通常、文書の解釈及び認識についてユーザのガイダンスを求める。例えば、システムがモードブックを用いて走査ペンのモードを手動で変更する場合がある。モードブックは複数のモードカードを含み、各モードカードにはペンのモードを変更したりあるいはコマンドを入力すべく機能する、少なくとも1つのスキャン可能なデータフィールドが含まれる。スキャン可能な各データフィールドは、機械読み取り可能な情報(例えば、バーコード、2次元グリフコード、又は簡単に認識できる文字)と人が読み取り可能なラベルから成る。
【0005】
ユーザは、次のようにモードブックを使用する。まず、ユーザが現在スキャンしている文書のタイプに関連するモードカードを見つけ、「開始タイトル」など、スキャンしようとする情報のタイプに関連したフィールドに走査ペンを走らせる。こうして、モードカードはどんなタイプの情報を収集しているのかを走査ペンに知らせる。よって、ユーザはモードカードのフィールドを交互にスキャンし、スキャンした情報をどのように処理するかについてシステムに指示する。
【0006】
【発明が解決しようとする課題】
上記タイプのシステムの問題は、ユーザ側にかなり多くの介入が要求されることである。例えば、モードカードを常に参照することによって、ユーザによる文書読み取りの通常フローが中断する。さらに、ユーザによって要求される作業量が増えれば、ユーザが実際にその文書を最初に検討する機会が妨げられてしまう。
【0007】
したがって、情報を読みながら重要な情報を保存すべく使用でき、ユーザ側の介入が最小限で機能する走査システムが求められている。さらに、収集した情報を、ユーザが効率よく見ることのできるフォーマットに自動的に整理できるシステムが求められている。
【0008】
【課題を解決するための手段】
本発明によるシステム及び方法は、ユーザ側の介入を最小限にして、ユーザに読み取り可能な情報をスキャンする。さらに、本発明のシステム及び方法は、スキャンした情報を、ユーザが要求に応じて検討、修正、及び訂正できるフォーマットに自動的に整理する。
【0009】
上記及びそれ以外の効果を達成するため、本発明のシステム及び方法は、文書上の情報(indicia)をスキャンし、フォーマット化する。システムは、文書上の情報のうちユーザが指定した部分の情報をスキャンする走査ヘッドと、ユーザが指定した部分ごとに、スキャンされた情報と当該情報がスキャンされた時間を表す時間情報とを保存するメモリとを含む。システムはさらに、テキストのフォントタイプ、テキストのフォントサイズ、文書におけるテキストの位置、及び文字列のフォーマットの少なくとも1つに関連して予め設定されたルールに従って、メモリに保存されたスキャンされた情報のそれぞれを分析することで、スキャンされた情報のそれぞれを、文書の識別情報又はユーザにとって重要な特定情報として認識する処理装置を含む。処理装置は、メモリに保存された時間情報を参照して、メモリに保存されたスキャンされた情報のうち、互いに予め定められた時間内にスキャンされた情報を上述の認識の結果と共に含むデータエントリを作成する。
【0010】
前述の全体的な説明及び下記の詳細な説明は単なる例示であり、請求の範囲内で本発明のさらなる説明が提供されることを意図する。
【0011】
【発明の実施の形態】
システムによる整理
図1は、本発明による走査ペンシステム10のブロック図である。図1に示されるように、システム10は、走査ペン100とコンピュータ200とを含む。走査ペン100は、リンク15を介してコンピュータ200と通信する。リンク15は、例えば、赤外線リンク、無線リンクまたはケーブル通信を含んでもよい。さらに、コンピュータ200は、パーソナルコンピュータ、ネットワークコンピュータ、ワークステーション、またはメインフレームコンピュータなど、任意のコンピュータでよい。
【0012】
本発明のシステムにおいては、ユーザは文書の表面を横断するようにペン100を走らせる。ユーザが文書を横断してペン100を走らせると、ペン100はそのヘッドの下方を通過する文書のテキスト情報をスキャンして収集する。ペン100は、好ましくはスキャンしたテキストに対して文字認識を行い、この情報を処理するためにコンピュータ200に送る。特に、コンピュータ200は、スキャンした情報を所望のフォーマットでユーザに表示するために、テキスト情報を発見的に整理する。
【0013】
図1に示されるように、走査ペンは、走査ヘッド110、処理装置120、データベース130、ユーザインタフェース140及びデータインタフェース150を含み、これらがそれぞれバス160を介して接続されている。なお、図1には上記要素を含むペン100が示されているが、本発明によるペン100は、単にスキャンした情報をリアルタイムで直接コンピュータ200に送信する走査ヘッドのみを含んでもよい。この場合には、ペン100によって行われる下記の処理すべてをコンピュータ200が行う。
【0014】
走査ヘッド110は、好ましくは、文書のテキストを捕え、それをディジタル形式に変換する単線(single-line)走査装置である。走査ヘッド110は、好ましくは、文字、グリフ、バーコード又は手書き文字でさえも認識する光学式文字認識(OCR)装置を含む。したがって、走査ヘッド110は、スキャンしたテキストを、フォントの種類及びサイズなどのテキスト情報を保持するテキストファイル(例えば、ASCIIまたはHTMLファイル)に変換する。あるいは、走査ヘッド110は、単にスキャンしたテキストをビットマップファイルに変換し、このビットマップファイルがコンピュータ200に転送されてここで文字認識を行ってもよい。
【0015】
データベース130は、走査ヘッド110から出力されたテキスト情報を保存する。情報の保存に先立ち、処理装置120は、走査ヘッド110がその情報をスキャンした時刻を示すクロックの値に基づき、好ましくはテキスト情報にタイムスタンプする。以下に説明するように、このタイムスタンプは認識処理において用いられ、スキャンされたテキスト情報が互いに時間的に近くスキャンされた別の情報と関連づけられる。さらに、上記クロックの値は、一日の時間を示す相対時間と、ペン100による処理の開始に伴って始まった絶対時間のいずれを示してもよい。
【0016】
処理装置120は、さらに、ユーザインターフェース140から受信した制御信号に基づきペン100の動作を制御する。図1には示されていないが、ユーザインターフェース140は、好ましくは、ボタン、表示ライト又はディスプレイ画面などの種々のユーザ入出力装置を備える。ユーザは、以下に説明するように、インターフェース140のボタンを使って、特定のテキスト走査に優先順位又は特定の意味を与えてもよい。また、ユーザインターフェース140により、ユーザは、スキャンモード、ダウンロードモード、又はOFFモードを含む、走査ペン100の動作モードを選択することができる。スキャンモードでは、走査ペン100は、データベース130に保存されるテキスト情報を収集する。ダウンロードモードを選択することにより、ユーザはペン100にデータベース130の内容をデータインターフェース150及びリンク15を介してコンピュータ200に送信させることができる。データインターフェース150は、好ましくは、双方向赤外線送受信器またはコンピュータ200との配線接続を可能にするポートを含む。
【0017】
図1に示されるように、コンピュータ200は、データインターフェース210、データベース220、処理装置230、及びネットワークサーバ240を含み、これらはそれぞれバス260を介して接続されている。データインターフェース210はデータインターフェース150と同様であり、データインターフェース150からリンク15を介して送信されたテキスト情報を受信し、受信したテキスト情報をベータベース220に保存する。コンピュータ200は、ユーザがインターネットなどのネットワークにリンクし、スキャンしたテキスト情報に関連する情報を探せるようにネットワークサーバ240を含む。
【0018】
処理装置230は、データベース220に保存された情報を発見的に整理するためのソフトウェアプログラム(図示せず)を実行する。好ましくは、スキャンした情報に対する文字認識ルーチンはペン100が行うが、処理装置230も同様にこの動作を行ってもよい。いずれの場合にも、処理装置230は、認識されたテキスト情報を受信し、認識されたテキストに発見的に意味を付与してデータエントリを作成する。例えば、処理装置230は以下に説明する論理に基づいてテキスト列を分析し、そのテキストをタイトルに対応するとして指定してもよい。さらに、処理装置230は、認識された数字をページ番号であると判断してもよい。
【0019】
処理装置230がテキストに意味を与えると、認識されたテキストがグループ化されてデータエントリが形成される。各データエントリは、ユーザにとって重要である文書内の特定テキストに対応する。一般的に、データエントリには、ユーザにとって重要な特定テキストと文書を識別する情報、及び文書におけるこのテキストが含まれる場所から構成される。
【0020】
図2には、本発明による走査ペン100の1実施形態が示されている。図2に示されるように、走査ペン100は、走査ヘッド110、プッシュボタン142、ディスプレイ144及びデータインターフェース150を含む。ボタン142及びディスプレイ144は、図1に関して上記説明したユーザインターフェース140に対応している。
【0021】
本発明によるシステムにおいては、認識されたテキストとペン100の選択された動作モードをディスプレイ画面144によってユーザに確認できる。さらに、図2には一般的なペンの形状を有する走査ペン100が示されているが、ペン100は他の形状でもよい。例えば、走査ペン100は、パームパイロット(登録商標)に接続するための個別ユニットを含んでもよい。この場合も、走査ペン100はここに説明した機能及び動作をすべて行うが、パームパイロット(登録商標)のディスプレイを共有してもよい。また、ペン100はユーザの指先にはめるシンブルなどの小型装置の形状でもよい。
【0022】
システムの動作
図3は、走査ペンシステム10を動作させるための本発明による方法を示すフローチャートである。図示される方法は、ユーザがユーザインターフェース140のボタンを押し、ペン100が動作モードに入ると開始する。ペン100が動作モードになると、ユーザは走査ペンによって文書の表面を横断するように一連の「走査(swipe)」を行う。各走査ごとに、スキャンしたテキストのディジタル表示が生成される。
【0023】
図3に示されるように、ユーザはまず、文書を識別する情報をスキャンする(ステップ310)。この識別情報には、好ましくは、文書名、文書の発行ナンバー及び発行日、及びユーザが特定テキストをスキャンしたい文書中特定位置の
ページや項目の見出しなども含む書籍データが含まれる。例えば、雑誌「ポピュラーサイエンス」を例にすると、ユーザは次の書籍情報をスキャンしてもよい。
【0024】
ポピュラーサイエンス
1999年2月
ウェブの解放
クリスオマリー著
48
【0025】
前記識別情報は、文書の表紙に示されたバーコードやロゴでもよい。これらのいずれによっても、文書名及びおそらくは文書に関する他の書籍情報も識別できる。このような場合、コンピュータ200は、バーコード又はロゴをデータベースに保存された製品情報に比較し、この書籍情報を決定する。ユーザが上記の書籍情報をスキャンすると、走査ヘッド110はスキャンしたテキストに対してOCRルーチンを行い、このテキストのディジタル表示をデータベース130に保存する。
【0026】
次に、ユーザはペン100を使用して、ユーザにとって重要でユーザが得たい文書中の特定テキストをスキャンする(ステップ320)。例えば、ユーザは上記ポピュラーサイエンスの記事中の特定の一節を興味深く思うかも知らないし、あるいはその記事を参照するために特定の「キーワード」(例えば、インターネット、無線、ハンドヘルド、ブラウザなど)を識別したいかもしれない。ユーザは、関心あるテキスト部分をペン100でスキャンする。スキャンされたテキストに対し、走査ヘッド110がOCRルーチンを行い、この特定テキスト情報のディジタル表示がデータベース130に保存される。
【0027】
ステップ310及び320に関して上記説明したように、ペン100には好ましくは、フォントの種類及びサイズが保持された、スキャンされたテキストのディジタル表示が保存される。文書のスキャンが完了すると、ユーザはデータインターフェース150,210及びリンク15を介して、保存された情報をコンピュータ200に転送する。転送された情報は、コンピュータ200のデータベース220に保存される。コンピュータ200は、発見的認識処理において、この保持されたテキスト情報を使用する。
【0028】
処理装置230はデータベース220に保存されたデータに対して種々の認識処理を行い、個々のデータエントリを発見的に作成する(ステップ330)。各エントリは、(1)識別情報と、(2)特定テキスト情報自体とを含む。前記識別情報は、(a)文書名、(b)文書の発行日、巻数、(c)ユーザが特定テキスト情報をスキャンしたページの番号、(d)特定テキスト情報を含む項目のタイトル又は見出しなどである。処理装置230はユーザがペン100によってスキャンした各特定情報ごとにデータエントリを作成する。
【0029】
各エントリの作成において、処理装置230は、異なる文書でも通常はある共通の認識可能なフォーマット及びスタイルに従っているという事実を利用する。例えば、ページ番号は、周りに文字の存在しない数字として認識することができる。したがって、処理装置230は、スキャンしたテキストのフォントタイプ、フォントサイズ、周辺テキスト、及び特定テキストフォーマットを発見的に分析して自動的に各エントリを作成する。この分析に基づき、処理装置230はそのテキストの意味、すなわちスキャンしたテキストの表す情報の種類を判定する。
【0030】
このため、処理装置230は、特定の認識処理を実行するためのソフトウェアインストラクションを含む。これらのインストラクションは、好ましくは、特定の文脈において特定種類のテキストを識別するルールの形式をとる。処理装置230はこれらの言語ルールを使用してテキストを分析し、その意味及びエントリにおけるその配置を決定する。言語ルールの例を以下に示す。
【0031】
1.文書名
処理装置230は、テキストが後に続くロゴを識別すると、それを文書名として認識する。さらに、文書名は通常本文より大きい活字及びフォントスタイルでプリントされている。よって、処理装置230は、テキストのフォントタイプ及びフォントサイズにもとづき、そのテキストが文書名に対応すると認識してもよい。
【0032】
2.タイトル及び小見出し
処理装置230は、記事または本の章の場合には、センタリングされた1ラインをタイトルと認識する。また、処理装置230は、タイトルの下のより小さい活字のラインをそのタイトルの著者名と認識してもよい。文書の本文中では、太字で印刷され、他の文字列から離れた文字列を小見出しと認識してもよい。
【0033】
3.ページ番号
処理装置230は、付近を文字によって取り巻かれていない単独の数字を識別すると、それをページ番号として認識する。
【0034】
4.ユニフォームリソースロケータ(URL)及び他のデータフォーマット
処理装置230は、URLのフォーマットを有する文字列を識別すると、それをURLとして認識する。さらに、そのURLと時間的に近く(例えば、2〜3秒以内に)スキャンされたテキストを、そのURLにおいて検出した情報の記載であると認識してもよい。また、処理装置230は所定のデータフォーマットを有するテキストを識別することにより、その他のデータフォーマットを認識してもよい。
【0035】
ユーザにとって重要な特定テキスト情報は、好ましくは、ユーザがスキャンした識別情報に続くテキストとして処理装置230により認識される。あるいは、処理装置230は、ユーザに重要な特定テキストを、上記の言語ルールに当てはまらないテキストとして認識してもよい。その場合、このようなテキスト、例えばスキャンされた識別情報によって識別された記事の「キーワード」は上記のようにデータエントリに含まれる。
【0036】
本発明の別の実施形態においては、特定の雑誌など、異なる種類の文書に対応する入力テンプレートでコンピュータ200をプログラムしてもよい。これらのテンプレートは、文書に含まれる情報の識別において、コンピュータ200の認識処理をガイドすることができる。特に、これらのテンプレートにより、システム10がガイドする文書の予想される性質、構造及び内容に関する情報を提供してもよい。これらのテンプレートは、好ましくは、文書中の特定データ項目が見つけやすい場所、これらのデータ項目のフォーマット及び上記認識処理に役立つ他の要件を示す。
【0037】
ユーザはペン100のユーザインターフェース140またはコンピュータ200のインターフェースを使用してテンプレートを選択してもよい。また、ユーザがさらなる入力を行わなくてもシステム10が文書の適当なテンプレートを発見的に決定してもよい。これは、各種の文書が標準的なフォーマットに従っているために可能である。例えば、雑誌と新聞はそれぞれ特有の認識可能なフォーマットを有する。上記の認識処理にもとづき、システム10は適当なテンプレートを識別できる。
【0038】
本発明のさらなる実施形態においては、ユーザはインターフェース140のボタンを使用して特定テキストスキャンに優先順位又は特別な意味を与えてもよい。例えば、文書名のスキャン時に、ユーザはボタンを押して、ペン100が文書名をスキャンしていることを示してもよい。この情報は、データベース130に保存されたテキスト情報に添付され、認識処理過程において処理装置230に使用される。
【0039】
ステップ330において既に説明したように、認識されたテキストに意味を与えた後、処理装置230は個々のデータエントリを形成する(ステップ340)。処理装置230は、各項目がスキャンされた時間に基づき、スキャンされた異なる項目を互いに関連づける。各項目のスキャン時間は、処理装置120によって、各スキャン項目に添付されたタイムスタンプにより決定する。従って、タイムスタンプの値及びテキスト情報に与えられた意味に基づき、処理装置230は識別情報とユーザにとって重要な特定情報とを含むデータエントリを作成する。データエントリは、例えば以下のようになる。
【0040】
ポピュラーサイエンス、1999年2月、48ページ、「ウェブの解放」
クリスオマリー、テキスト:インターネット、無線、ハンドヘルド、ブラウザ。
【0041】
次に、コンピュータ200は、ユーザに表示するため、認識した情報を自動的に整理する(ステップ350)。例えば、コンピュータ200はデータエントリの時間順目録又は書籍索引を作成してもよい。特に、時間順目録は、それぞれのタイムスタンプ値に基づき時間順に整理された全データエントリを含んでもよい。書籍索引は、各文書の名前によって整理され、さらにその文書の特定の号(issues)及び各号に含まれる記事又はタイトルによって整理されたデータエントリを含んでもよい。いずれのフォーマットでも、ユーザは、例えば文書名又はデータエントリに含まれるキーワードに基づいて所望の情報を検索することができる。
【0042】
各エントリはさらに、ネットワークサーバ240を介してネットワーク上の情報にリンクしてもよい。例えば、処理装置230が、ユーザのスキャンした特定のURLを認識した場合、コンピュータ200は対応するデータエントリとともにそのURLへのリンクを含んでもよい。また、コンピュータ200は、オリジナル文書の完全なテキストバージョンが保存されているオンラインロケーションへのリンクを提供することもできる。このように、ユーザは、コンピュータ200が作成した特定のデータエントリの読み取りに関連して文書全体又はその中の関連記事を見ることができる。さらに、URLの言語ルールに関して上述したように、そのURLにおいて見つけた情報の認識された記載によりリンクを参照してもよい。
【0043】
このような特性により、必要又は所望された場合に、作成されたデータエントリをさらなる情報を求めて「見直す」能力が強化される。例えば、索引にはユーザの記憶を呼び起こすためのキーワードなど、文書に含まれる情報のハイライト部分しか含まれていない場合もある。このような場合には、ユーザは全文書のオンラインバージョンを選択し、さらなる情報を得ることができる。さらに、データエントリはページ番号が含む可能性があるので、コンピュータ200のネットワークサーバ240によって、ユーザを文書のオンラインバージョンの関連部分に直ちに接続することができる。
【0044】
以上テキスト情報を記録、認識、整理するシステムとしてシステム10を説明したが、システム10によってハンドライティング(手書き文字)又はスピーチを処理してもよい。このために、コンピュータ200は、当業界のおいて周知のハンドライティング認識用の認識ソフトウェアを含んでもよい。コンピュータ200は、ペン100によってスキャンした手書きの情報を、データエントリと共に含む。ペン100はマイクロフォンをさらに含み、スキャンしたテキストに関連させてユーザの発声をデータエントリに記録してもよい。コンピュータ200はその音声をディジタル化し、記録に話し言葉が含まれる場合には音声認識装置を用いてそれを認識することができる。
【0045】
文書情報を自動的に処理する場合、システム10がテキストを正確に識別できない可能性が十分にある。したがって、システム10は、ユーザがコンピュータ200を使ってスキャンしたテキストを検討し、必要な訂正を行えるようにする。当業者であれば理解できるように、ユーザは認識処理を調整してその精度を高めることもできる。これは、認識分析のために使用される前記言語ルールを調整したり、あるいはユーザのガイダンスを求めたりするいくつかの手段により実現できるが、その手段はこれらの例に限定されない。
【図面の簡単な説明】
【図1】 本発明による走査ペンシステム10のブロック図である。
【図2】 本発明による走査ペン100の1実施形態を示す図である。
【図3】 走査ペンシステム10を動作させる本発明による方法を示すフローチャートである。
【符号の説明】
10 走査ペンシステム、15 リンク、100 走査ペン、110 走査ヘッド、120 処理装置、130 データベース、140 ユーザインターフェース、142 ボタン、144 ディスプレイ画面、150 データインターフェース、160 バス、200 コンピュータ、210 データインターフェース、220 データベース、230 処理装置、240 ネットワークサーバ、260 バス。

Claims (3)

  1. 文書上の情報をスキャンしてフォーマット化するシステムであって、
    文書上の情報のうちユーザが指定した部分の情報をスキャンする走査ヘッドと、
    前記ユーザが指定した部分ごとに、スキャンされた情報と当該情報がスキャンされた時間を表す時間情報とを保存するメモリと、
    テキストのフォントタイプ、テキストのフォントサイズ、文書におけるテキストの位置、及び文字列のフォーマットの少なくとも1つに関連して予め設定されたルールに従って、前記メモリに保存されたスキャンされた情報のそれぞれを分析することで、前記スキャンされた情報のそれぞれを、前記文書の識別情報又はユーザにとって重要な特定情報として認識し、前記メモリに保存された時間情報を参照して、前記メモリに保存されたスキャンされた情報のうち、互いに予め定められた時間内にスキャンされた情報を前記認識の結果と共に含むデータエントリを作成する処理装置と、
    を備えるシステム。
  2. 請求項1に記載のシステムにおいて、
    前記処理装置は、ユーザに表示するために、前記認識した情報を自動的にフォーマットに整理する第1処理部を含むことを特徴とするシステム。
  3. 文書上の情報をスキャンして整理する方法であって、
    文書上の情報のうちユーザが指定した部分の情報をスキャンするステップと、
    前記ユーザが指定した部分ごとに、スキャンされた情報と当該情報がスキャンされた時間を表す時間情報とをメモリに保存するステップと、
    テキストのフォントタイプ、テキストのフォントサイズ、文書におけるテキストの位置、及び文字列のフォーマットの少なくとも1つに関連して予め設定されたルールに従って、前記メモリに保存されたスキャンされた情報のそれぞれを分析することで、前記スキャンされた情報のそれぞれを、前記文書の識別情報又はユーザにとって重要な特定情報として認識するステップと、
    前記メモリに保存された時間情報を参照して、前記メモリに保存されたスキャンされた情報のうち、互いに予め定められた時間内にスキャンされた情報を前記認識の結果と共に含むデータエントリを作成するステップと、
    を含む方法。
JP2000381844A 1999-12-16 2000-12-15 文書上の情報をスキャンしてフォーマット化するシステム Expired - Fee Related JP4509366B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/464381 1999-12-16
US09/464,381 US6360951B1 (en) 1999-12-16 1999-12-16 Hand-held scanning system for heuristically organizing scanned information

Publications (2)

Publication Number Publication Date
JP2001229340A JP2001229340A (ja) 2001-08-24
JP4509366B2 true JP4509366B2 (ja) 2010-07-21

Family

ID=23843719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000381844A Expired - Fee Related JP4509366B2 (ja) 1999-12-16 2000-12-15 文書上の情報をスキャンしてフォーマット化するシステム

Country Status (3)

Country Link
US (1) US6360951B1 (ja)
EP (1) EP1109125A3 (ja)
JP (1) JP4509366B2 (ja)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US6491217B2 (en) * 2001-03-31 2002-12-10 Koninklijke Philips Electronics N.V. Machine readable label reader system with versatile response selection
US6948658B2 (en) * 2001-06-07 2005-09-27 Mustek Systems Inc. Method for automatically integrating digital data
US20030004991A1 (en) * 2001-06-29 2003-01-02 Keskar Dhananjay V. Correlating handwritten annotations to a document
US7013029B2 (en) * 2001-06-29 2006-03-14 Intel Corporation Incorporating handwritten notations into an electronic document
US20030089777A1 (en) * 2001-11-15 2003-05-15 Rajasekharan Ajit V. Method and system for authoring and playback of audio coincident with label detection
EP1324216A1 (en) * 2001-12-28 2003-07-02 Deutsche Thomson-Brandt Gmbh Machine for classification of metadata
US7120299B2 (en) 2001-12-28 2006-10-10 Intel Corporation Recognizing commands written onto a medium
CN100382096C (zh) * 2003-08-20 2008-04-16 奥西-技术有限公司 文档扫描设备及方法
WO2005020131A1 (en) * 2003-08-20 2005-03-03 Oce-Technologies B.V. Document scanner
US7305435B2 (en) * 2003-08-25 2007-12-04 Nokia Corporation Internet access via smartphone camera
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US7812860B2 (en) * 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US20060041484A1 (en) 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8799303B2 (en) * 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060081714A1 (en) * 2004-08-23 2006-04-20 King Martin T Portable scanning device
US20070300142A1 (en) * 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US8793162B2 (en) * 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US20100185538A1 (en) * 2004-04-01 2010-07-22 Exbiblio B.V. Content access with handheld document data capture devices
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8146156B2 (en) * 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US8621349B2 (en) * 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20080313172A1 (en) * 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US20100092095A1 (en) * 2008-10-14 2010-04-15 Exbiblio B.V. Data gathering in digital and rendered document environments
US20110075228A1 (en) * 2004-12-03 2011-03-31 King Martin T Scanner having connected and unconnected operational behaviors
US7530494B1 (en) * 2005-12-05 2009-05-12 Streelman Steven M Multi-functional scanner for reading barcodes
EP2067119A2 (en) 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US8276060B2 (en) * 2007-02-16 2012-09-25 Palo Alto Research Center Incorporated System and method for annotating documents using a viewer
US8166056B2 (en) * 2007-02-16 2012-04-24 Palo Alto Research Center Incorporated System and method for searching annotated document collections
JP5557419B2 (ja) * 2007-10-17 2014-07-23 スパンション エルエルシー 半導体装置
US20110184843A1 (en) * 2008-01-31 2011-07-28 Bill.Com, Inc. Enhanced electronic anonymous payment system
US10043201B2 (en) * 2008-01-31 2018-08-07 Bill.Com, Inc. Enhanced invitation process for electronic billing and payment system
US20140129431A1 (en) 2008-01-31 2014-05-08 Bill.Com, Inc. Enhanced System and Method For Private Interbank Clearing System
US20110196786A1 (en) * 2008-01-31 2011-08-11 Rene Lacerte Determining trustworthiness and familiarity of users of an electronic billing and payment system
US10769686B2 (en) 2008-01-31 2020-09-08 Bill.Com Llc Enhanced invitation process for electronic billing and payment system
US9141991B2 (en) 2008-01-31 2015-09-22 Bill.Com, Inc. Enhanced electronic data and metadata interchange system and process for electronic billing and payment system
US7809615B2 (en) * 2008-01-31 2010-10-05 Bill.Com, Inc. Enhanced automated capture of invoices into an electronic payment system
US8457448B2 (en) * 2008-02-04 2013-06-04 Hewlett-Packard Development Company, L.P. Removing inserted text from an image using extrapolation for replacement pixels after optical character recognition
US7991153B1 (en) 2008-08-26 2011-08-02 Nanoglyph, LLC Glyph encryption system and related methods
WO2010096192A1 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Interacting with rendered documents using a multi-function mobile device, such as a mobile phone
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
WO2010105244A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Performing actions based on capturing information from rendered documents, such as documents under copyright
US20110073649A1 (en) * 2009-09-25 2011-03-31 Getac Technology Corporation Method and system for recognizing barcode
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US20120027246A1 (en) * 2010-07-29 2012-02-02 Intuit Inc. Technique for collecting income-tax information
US9996210B2 (en) * 2011-06-30 2018-06-12 International Business Machines Corporation Enabling host active element content related actions on a client device within remote presentations
US8819789B2 (en) 2012-03-07 2014-08-26 Bill.Com, Inc. Method and system for using social networks to verify entity affiliations and identities
JP6415449B2 (ja) * 2012-12-18 2018-10-31 トムソン ロイターズ グローバル リソーシズ アンリミテッド カンパニー インテリジェントな研究プラットフォームのためのモバイル対応システムおよびプロセス
US10417674B2 (en) 2013-03-14 2019-09-17 Bill.Com, Llc System and method for sharing transaction information by object tracking of inter-entity transactions and news streams
US20150012442A1 (en) 2013-03-14 2015-01-08 Bill.Com, Inc. Enhanced system and method for scanning and processing of payment documentation
US10115137B2 (en) 2013-03-14 2018-10-30 Bill.Com, Inc. System and method for enhanced access and control for connecting entities and effecting payments in a commercially oriented entity network
US10572921B2 (en) 2013-07-03 2020-02-25 Bill.Com, Llc System and method for enhanced access and control for connecting entities and effecting payments in a commercially oriented entity network
US10176159B2 (en) * 2014-05-05 2019-01-08 Adobe Systems Incorporated Identify data types and locations of form fields entered by different previous users on different copies of a scanned document to generate an interactive form field
KR102215613B1 (ko) * 2020-02-03 2021-02-15 주식회사 한글과컴퓨터 문서에 삽입된 텍스트를 구성하는 언어에 기반한 텍스트 검색을 가능하게 하는 전자 장치 및 그 동작 방법
CN113378828A (zh) * 2021-05-31 2021-09-10 安徽淘云科技股份有限公司 扫描笔及扫描方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11238072A (ja) * 1998-02-23 1999-08-31 Ricoh Co Ltd 文書保管装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1334218C (en) * 1989-03-01 1995-01-31 Jerome Swartz Hand-held laser scanning for reading two dimensional bar codes
US5587577A (en) * 1989-06-08 1996-12-24 Norand Corporation Modular scanner with hand-held data terminal
US5478989A (en) * 1989-09-27 1995-12-26 Shepley; Kenneth J. Nutritional information system for shoppers
US5334822A (en) * 1990-05-21 1994-08-02 Universal Computer Technologies Inc. Method and system for inventoring a distributed plurality of items on a supply
US5109439A (en) * 1990-06-12 1992-04-28 Horst Froessl Mass document storage and retrieval system
US5237163A (en) * 1992-01-06 1993-08-17 Ncr Corporation Method for scanning a plurality of bar code labels
KR930022235A (ko) 1992-04-03 1993-11-23 시모야마 도시로오 손이 자유로운 바 코드 스캐너
US5640002A (en) * 1995-08-15 1997-06-17 Ruppert; Jonathan Paul Portable RF ID tag and barcode reader
US5859414A (en) * 1995-12-29 1999-01-12 Aironet Wireless Communications, Inc. Interactive customer information terminal
US5950196A (en) * 1997-07-25 1999-09-07 Sovereign Hill Software, Inc. Systems and methods for retrieving tabular data from textual sources
US6234393B1 (en) * 1999-01-29 2001-05-22 Intermec Ip Corp. Finger point bar code input device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11238072A (ja) * 1998-02-23 1999-08-31 Ricoh Co Ltd 文書保管装置

Also Published As

Publication number Publication date
JP2001229340A (ja) 2001-08-24
EP1109125A2 (en) 2001-06-20
US6360951B1 (en) 2002-03-26
EP1109125A3 (en) 2002-06-12

Similar Documents

Publication Publication Date Title
JP4509366B2 (ja) 文書上の情報をスキャンしてフォーマット化するシステム
US6697056B1 (en) Method and system for form recognition
US7793209B2 (en) Electronic apparatus with a web page browsing function
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
CN100367299C (zh) 图像处理装置和图像处理方法
US20080091706A1 (en) Apparatus, method, and computer program product for processing information
US20070098263A1 (en) Data entry apparatus and program therefor
JP2000222394A (ja) 文書管理装置及びその文書管理方法並びにその制御プログラムを記録した記録媒体
JP2001527246A (ja) 出版物ファイルの変換と表示
US7716639B2 (en) Specification wizard
US7069262B1 (en) Information processing apparatus, recording medium, and method for using them
US5950213A (en) Input sheet creating and processing system
US20040123237A1 (en) Example-based concept-oriented data extraction method
US20060026514A1 (en) Electronic document editing program and sales method of the same
EP1657665B1 (en) Analysis alternates in context trees
JP3711636B2 (ja) 情報検索装置および方法
JP7086424B1 (ja) 特許用文章生成装置、特許用文章生成方法、および特許用文章生成プログラム
US20110019916A1 (en) Interactive document reading
JP7471802B2 (ja) アーカイブ支援システム
JP4251804B2 (ja) 情報表示方法、情報表示プログラム及び情報表示装置
JP2006227914A (ja) 情報検索装置、情報検索方法、プログラム、記憶媒体
KR101440385B1 (ko) 인디케이터를 이용한 정보 관리 장치
JP2003203091A (ja) 文書速読支援装置、文書速読支援方法、文書速読支援プログラムおよび記録媒体
JP2001094711A (ja) ドキュメント画像処理装置及びドキュメント画像処理方法
JPH10187751A (ja) 認識データ処理装置およびそのプログラム記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071210

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100428

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees