JP3664550B2 - 文書検索方法及び装置 - Google Patents

文書検索方法及び装置 Download PDF

Info

Publication number
JP3664550B2
JP3664550B2 JP21993996A JP21993996A JP3664550B2 JP 3664550 B2 JP3664550 B2 JP 3664550B2 JP 21993996 A JP21993996 A JP 21993996A JP 21993996 A JP21993996 A JP 21993996A JP 3664550 B2 JP3664550 B2 JP 3664550B2
Authority
JP
Japan
Prior art keywords
document
descriptor
box
space
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP21993996A
Other languages
English (en)
Other versions
JPH09134372A (ja
Inventor
マーク,ピアース
ジョナサン,ジェー,ハル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JPH09134372A publication Critical patent/JPH09134372A/ja
Application granted granted Critical
Publication of JP3664550B2 publication Critical patent/JP3664550B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、電子文書管理の分野に関し、より詳細には、目的文書をその文書の内容例を用いて検索する文書管理システムに関する。
【0002】
【従来の技術】
ジョナサン・ハル他の米国出願特許“マルチアクセス冗長ハッシングによる画像のマッチングと検索”(1994年4月1日に出願し、現在審査中の出願番号08/222,281)(以後、ハルと簡略して参照する)は、目的文書中のサンプルページを入力とする文書管理システムから、その目的文書を検索する新しい方法を開示している。そのシステムにおいて、各保存文書から記述子を抽出し、記述子データベースに保存している。目的文書を検索するために必要とされるのは、サンプルページ1頁または1頁の一部のみである。
【0003】
そのサンプルページが前記文書管理システムに提示されると、該サンプルページから記述子が抽出され、前記記述子データベース中の記述子と一致照合される。記述子は各々の保存文書とサンプルページから多数抽出されるので冗長である。
ハルの説明によれば、多数の記述子が目的文書とサンプルページ間で一致し得るが、しかし、エラーは探索にとって致命的なもではない。そのシステムにおいて、文書は記述子の一致に基づく得票を蓄積し、最も高い得票数の文書を目的文書として戻す。ハルにより開示された記述子の中、図形記述子はページ中の図形の主特徴をテキスト記述子は文字パターンまたはワード長の記述に当てられる。
【0004】
【発明が解決しようとする課題】
しかしながら、ハルの文書管理システムは、ページ画像用記述子を形成するために、文書またはサンプルページのディジタル化画像より文字を認識する光学的文字認識システムを用いており、高価な計算操作を要するので、テキストより記述子を発生させるより効率的な方法が要求される。
【0005】
本発明は、高速例示検索を行う改善文書管理システムを提供する。その1つの実施例においては、複数文書のページを走査し文書管理システムの記憶装置に保管し、サンプルページを検索プロセスの一部として走査して、ほとんど計算することなく前記ページから抽出可能な記述子によって記述する。特殊な実施例においては、各々の結合成分の周囲を囲むボックスを形成し、ボックス間の間隔を測定する。ボックス間の間隔のヒストグラムを検出し、閾値を決定する。その閾値より小さい間隔は、文字間の間隔と見なし、閾値より大きい間隔はワード間の間隔と見なす。それらの間隔パターンを記述子に翻訳する。他の実施例の場合、例えば、日本語のテキストまたは異なる濃度のアルファベットの2文字を用いる他のテキストの場合、文字間のスペースはあまりなく、ボックス間のスペースの代わりに、囲みボックスの画素濃度のヒストグラムを用いる。文字の裂目をアドレスするために、オーバラップする囲みボックスを1つの囲みボックスに結合する。必要に応じ言語検出前置プロセッサを使用し、文書の言語を検出することができ、しかるべき記述子の抽出に適用できる。文字スペースが文書の場合、文字間のスペースを用いて囲みボックスをさらに定義することができる。
【0006】
前記文書管理システムまたは前記文書管理システムの照合部を、複写機に結合することも可能である。かような実施例の場合、ユーザはサンプルページを複写機に入力すると、複写機が目的文書を検索して印刷する。
【0007】
他の実施例においては、音声とテキストの文書を、参照文書と大文書として交代使用する。音声文書記述子は、1ワード当りの音素パターンまたは1ワード当たりの文字パターンの何れかを用いることができる。前者の場合、音韻識別子を使用し、その音韻識別子はワード間の無声間隔を識別できる。後者の場合、音声認識装置を用いて音声をテキストに変換し、そのテキストに基づき記述子を発生させる。
【0008】
【課題を解決するための手段】
請求項1の発明は、複数の文書を文書データベースに記憶し、入力した文書に類似した文書を前記文書データベースから検索して提示する文書検索装置において、文書のイメージを入力し、該イメージからテキスト領域を検出する文字領域検出手段と、前記テキスト領域中の連続黒画素の領域をボックスで囲み、このボックスの位置を決定するボックス位置決定手段と、ワード内スペースとワード間スペースとを識別するための予め設定された閾値を参照して、各テキスト領域ごとに、各ボックス間のスペースをワード間スペースまたはワード内スペースに区分して2値表現のスペースパターン(以下、記述子という)として出力する出力手段とを有する記述子発生手段を備え、予め、前記文書データベース中の各文書は前記記述子発生手段で発生させた記述子と対応して記憶させておき、前記記述子発生手段で前記入力した文書の記述子を発生させ、該入力文書の記述子と類似した前記文書データベースに記憶された文書の記述子を検索することを特徴としたものである。
【0009】
請求項2の発明は、請求項1の発明において、前記ボックスの位置からボックス間の間隔を計算し、このボックス間の間隔の分布を求める分布発生手段を有し、前記ボックス間の間隔の分布から2つのピークを検出し、ワード内スペースとワード間スペースとを識別するための前記閾値をこれらのピークから決定するようにしたことを特徴としたものである。
【0010】
請求項3の発明は、複数の文書を文書データベースに記憶し、入力した文書に類似した文書を前記文書データベースから検索して提示する文書検索方法において、予め、前記文書データベース中の各文書に対して、該文書のイメージを入力し、該イメージからテキスト領域を検出し、前記テキスト領域中の連続黒画素の領域をボックスで囲み、このボックスの位置を決定し、ワード内スペースとワード間スペースとを識別するための予め設定された閾値を参照して、各テキスト領域ごとに、各ボックス間のスペースをワード間スペースまたはワード内スペースに区分して2値表現のスペースパターン(以下、記述子という)として求め、該文書と該記述子とを対応させて記憶させておき、前記入力した文書の記述子を同様に発生させ、該入力文書の記述子と類似した前記文書データベースに記憶された文書の記述子を検索することを特徴としたものである。
【0011】
請求項4の発明は、複数の文書を文書データベースに記憶し、入力した文書に類似した文書を前記文書データベースから検索して提示する文書検索装置において、文書のイメージを入力し、該イメージからテキスト領域を検出する文字領域検出手段と、前記テキスト領域中の文字をボックスで囲み、このボックスの位置を決定するボックス位置決定手段と、前記ボックス中の画素濃度を計算し、このボックス中の画素濃度の分布を求める分布発生手段と、前記ボックス中の画素濃度の分布から2つのピークを検出し、ボックスの画素濃度を識別するための閾値をこれらのピークから決定し、該閾値を参照して、各テキスト領域ごとに、各ボックスを区分して2値表現のボックスパターン(以下、記述子という)として出力する出力手段とを有する記述子発生手段を備え、予め、前記文書データベース中の各文書は前記記述子発生手段で発生させた記述子と対応して記憶させておき、前記記述子発生手段で前記入力した文書の記述子を発生させ、該入力文書の記述子と類似した前記文書データベースに記憶された文書の記述子を検索することを特徴としたものである。
【0012】
請求項5の発明は、複数の文書を文書データベースに記憶し、入力した文書に類似した文書を前記文書データベースから検索して提示する文書検索方法において、予め、前記文書データベース中の各文書に対して、該文書のイメージを入力し、該イメージからテキスト領域を検出し、前記テキスト領域中の文字の領域をボックスで囲み、このボックスの位置を決定し、前記ボックス中の画素濃度を計算し、このボックス中の画素濃度の分布を求め、前記ボックス中の画素濃度の分布から2つのピークを検出し、各ボックスを識別するための閾値をこれらのピークから決定し、該閾値を参照して、各テキスト領域ごとに、各ボックスを区分して2値表現のボックスパターン(以下、記述子という)として求め、該文書と該記述子とを対応させて記憶させておき、前記入力した文書の記述子を同様に発生させ、該入力文書の記述子と類似した前記文書データベースに記憶された文書の記述子を検索することを特徴としたものである。
【0034】
【発明の実施の形態】
幾つかの共通部材を有する2つの実施例を最初に図示説明する。最初の実施例の場合、1つの文書を他の文書と区別するためにスペースを使用している。第2の実施例の場合は、文書を区別するために文字濃度(密度)用い、参照文書及び/または目的文書が音声及び/またはテキスト形式である何れかの実施例を選択する。一般的には、これらの2つのシステムは、同様に作動し共に同等に使用される。
【0035】
文書のデータベースから文書を検索できるようにするためには、先ず文書のデータベースを生成しなければならない。データベースを生成するために、文書を入力する。文書が紙に記録したものだけであれば、文書を走査し電子的にデジタル表示する。文書がすでに電子形式になっている場合は、走査ステップは不必要となる。各文書につき1セットの記述子を作成する。1つの記述子は、文書の一部に対する1つのメトリックス(測量値)・パターンである。例えば、その測量値が文字間隔であり、2値のうち1つ(例えば、1=単語間間隔,0=単語内間隔)をとる場合、文書のある部分または全体に対し1ビットを発生させることができる。代案として、前記ビットパターンを1列の語長に圧縮する。このビットパターンまたは語長パターンを記述子として使用する。
【0036】
特徴的なのは、1つの文書から多数の記述子が取出され、それらの記述子がエラーを含み得ることである。しかしながら、十分な記述子が採取されていれば、エラーはハルの説明のようにフィルタで除去できる。これらの記述子をインデックスに保管し、該当文書を文書データベースに保存する。
【0037】
文書を例示検索するために、目的文書の全部または一部をシステムに入力する。これに一致する文書は、前記目的文書と共通の記述子を一番多く有する文書である。もちろん、最も有力な候補だけでなく、複数の一致文書を検出するように文書一致に対する要求条件を緩めることができる。これらの複数の一致文書をユーザに提示し、正しい文書を手動で選択してもらえばよい。
【0038】
目的文書用記述子はデータベース中の文書用記述子と同様にして得る。目的文書の記述子を同じ方法で獲得するので、文字の境界の決定するプロセスは正確ではなく、矛盾するものでなければよい。測量値の測定プロセスについても同様である。かように、幾つかのワード内スペースをワード内スペースとしてラベルを付けると、データベース内でも目的文書と同様のラベルが生じるので、記述子はラベル処理がワード内スペースの正確なラベル付でない場合でも一致することが期待できる。
【0039】
図1は、文書検索システム10のブロック図であり、該システムは、入力文書14用取入れプロセッサ12,文書データベース16,記述子データベース18,目的文書のサンプルページ22を処理してサンプルページ22と一致する目的文書24を出力する照合プロセッサ20を含んでいる。取入れプロセッサ12と照合プロセッサ20のいずれも一個の高速記述子発生器40を有している。取入れプロセッサ12は、入力文書14のような複数の入力文書を受け入れて文書データベース16内に保存し、その間に各入力文書用記述子を発生し記述子データベース18に保存する。
【0040】
照合プロセッサ20は、サンプルページ22を受取り、付属の記述子発生器40を使用し前記サンプルページ用記述子を発生する。もちろん、幾つかの実施例においては、記述子発生器を1つだけにし、取入れプロセッサ12と照合プロセッサ20の両方で共用する。照合プロセッサ20は、記述子を記述子データベース18に照合し、サンプルページ22と共通する記述子を有する前記文書データベース16内の文書を識別する一致点を返送するために記述子データベース18に接続してある。照合プロセッサ20は、記述子データベースから得た文書識別子に基づき文書を検索するために、文書データベース16にも接続してある。
この照合プロセッサ20は、一致文書(目的文書24)を提示する出力を有している。幾つかの実施例においては、この出力装置を目的文書を印字する複写機の形式にしている。照合プロセッサ20は、対話式装置を装備しユーザが複数の近似一致文書(候補文書)の中から選択できるようにしてもよい。
【0041】
図2と図3は、記述子発生器の詳細図である。図2は、ワードスペース(または近似値)に基づき記述子を発生する記述子発生器40Aのブロック図で、図3は、画素濃度に基づき記述子を発生する記述子発生器40Bのブロック図である。
【0042】
図2に示すように、記述子発生器40Aは、セグメンター(区分器)102,ボックス識別子104,ヒストグラム発生器106,ラベラー(ラベル付け器)108A及び記述子ライタ(書込み器)110Aよりなる。セグメンター102は、イメージファイル112を入力とし、セグメント化したイメージを出力する。ボックス識別子104は、セグメント化イメージ114を入力とし、ボックス位置を出力する。ヒストグラム発生器106は、ボックス位置116を入力とし、ボックス間の間隔のヒストグラム118Aを出力する。ラベラー108Aは、ボックス位置116とヒストグラム118Aを入力として用い、1セットのワードパターン120を生成する。記述子ライタ110Aは、前記ワードパターンを入力とし、イメージファイル112用の1セットの記述子122を出力する。
【0043】
図2のイメージファイル112は、図1中の入力文書14またはサンプルページ22のイメージに相当する。セグメンター102は、イメージファイル112を分析し、そのイメージのどの領域がテキスト,数字,特殊ラインまたは空白スペースであるかを決定する。これにより、記述子発生器40の下流側要素の仕事範囲を入力イメージ112のテキスト領域に限定することができる。もちろん、ハルの示すように、イメージの図形領域を使用して記述子を生成してもよい。入力イメージ112のテキスト領域をセグメント化イメージ114として保存する。もちろん、記憶装置の条件及び制限によって、セグメント化イメージ114を入力イメージ112のテキスト領域に限定でき、あるいは、セグメント化イメージ114をイメージファイル112用記憶装置中の位置を示すポインタだけを付けて表示することも可能である。
【0044】
しかし、ここでは、前記テキスト領域を保存し、ボックス識別子104で文字の回りに囲みボックスを配置してテキストを処理する。図4は、かような1つのテキスト領域を示し、図5は文字の回りをボックスで囲んだ前記テキスト領域の小区分(拡大図)を示す。囲みボックスは矩形であり、連続黒画素の領域を囲んでいる。閾値寸法を越える領域だけを考慮する。即ち、“i”の文字の点(402)とピリオード(406)は無視する。囲みボックスと文字の実際の境界の間に生じるこれらの相違いは、入力文書と目的文書のいずれにもある相違で、エラーをもたらすものではない。不完全な複写による文字の中断があると、文字囲みボックス408のように、囲みボックスから破断部を排除てしまう。これらの相違エラーを生じさせても、目的文書と一致文書間の記述子数は、目的文書と不一致文書間の共通記述子よりも多い。
【0045】
幾つかの実施例において、ボックス識別子104は囲みボックス位置116がほぼ水平に整列するように追加試験を行う。即ち、テキスト領域の内のテキストの行を識別し、次に、テキストの各行の基線を識別し、その基線を囲みボックスを配置するためのガイドとして用いる。
囲みボックスが決定されれば、イメージ上の囲みボックスの位置を表示し、ボックス位置116として保存する。ヒストグラム発生器106は、これらのボックス位置を読込みボックス間の間隔を計算する。もし、ボックス間スペースの分布を測定してヒストグラムを立ち上げれば、2つのピークが形成されるはずである。図6に図形表示した図2のヒストグラム118Aにその一例を示す。これは、図4に示したテキスト領域に対する遂次文字囲みボックス間の画素間隔をグラフに表示したものもある。ヒストグラム118Aは、2つのピークを有している。1つ約5個の画素のスペースに対するピークで、もう1つは約25個の画素のスペースに対するピークである。2つのピーク間の最小値は、約16個の画素に生じている。かように、このデータでは、16個の画素より小さいスペースが多分ワード内スペースで、16個の画素より大きいスペースが多分ワード間スペースである。
【0046】
ラベラー108Aは、前記の閾値を使用し、各ボックス間のスペースにワード間スペースまたはワード内スペースのラベルを取付ける。厳格に云えば、ラベルは囲みボックスそのものにではなく、囲みボックス間のスペースに付けられる。しかしながら、テキストの各行の最後の囲みボックスを除いて、囲みボックスとスペースは1対1に対応しているので、スペース用ラベルは囲みボックスと容易に関連付けられる。後者の場合、スペース用ラベルがスペースの左側の囲みボックスと連携てしいれば、各囲みボックスはワード終端文字または非ワード終端文字のいずれかを囲むものとして特徴付けることができる。どちらの方法でも、ラベルの主要パターンは同じである。
【0047】
例えば、処理中のテキストを、“A sample sentence appears here.”とすると、スペースのパターンは、“S-----S-----S-----S-----S”となる。ここで、‘-’はワード内スペースで‘S’はワード間スペースである。文章の終わりの‘.’は囲みボックスの対象とはならず、従って、考慮されず、各行の最後に続くワード間スペースを推定する。もし、‘-’と‘S’のラベルを非ワード終端文字及びワード終端文字に各々書き添えると、同じパターンが現れる。
‘-’を‘0’で、‘S’を‘1’とする2値で表現すると、前記パターンは、“100000100000010000001000”となる。
この2値パターンは、ランレングス符号化によって正確にワード長パターンである“16874”にまで圧縮することができる。
【0048】
上記の例では、閾値よの大きいワード内スペースが存在せず、閾値より小さいワード間スペースが存在しない場合の囲みボックスの位置を想定したものである。もし、前記パターンが異なっても、テキストが入力され、そのテキストが照合に使用された場合は、いずれも、同じパターンとなる。
【0049】
幾つかの実施例においては、時間の前にこの閾値を固定することが望ましい。閾値を時間の前に、例えば、16画素に固定すると、各スペースは測定された状態でラベル処理されるので、ヒストグラムを作成する必要がなくなる。但し、閾値を固定するのが常に望ましいわけではない。目標文書が異なるスケールで提出されるかあるいは異なる分解能で走査される場合は、ボックス間スペースの分布の最小値における画素数が変化するので、現在使用中の特定イメージにつき時間毎に計算しなければならない。
【0050】
ラベラー108Aによりワードパターン120が生成されると、記述子ライタ110Aによって記述子122に書込まれる。ある特殊な実施例の場合、1つの記述子はある設定数のワード長のハッシュ連鎖である。これらの記述子は、図1の上記の記述のように使用する。
【0051】
図3は、記述子発生器40Bのブロック図である。この記述子発生器40Bは、前記記述子発生器40Aと類似であるが、ボックス間スペースに基づくのではなく、画素濃度に基づき記述子を発生する点において異なる。記述子発生器40Aの場合のように、記述子発生器40Bは、セグメンター(区分器)102とボックス識別子104を有しており、イメージファイル112を処理し、セグメント化したイメージ114とボックス位置を発生する。記述子発生器40Bは、記述子発生器40A中の要素と同じ機能を果たす幾つかの要素を含んでいる。即ち、ヒストグラム118Bを発生するヒストグラム発生器106B,ワードパターンの代わりに濃度パターンを発生するラベラー(ラベル付け器)108B及びワードパターンでなく濃度パターンに基づく記述子を書込む記述子ライタ(書込み器)110Bを具備する。
【0052】
記述子発生器40Bは、さらに、記述子発生器40Aに無い要素を有している。即ち、ボックス位置を精密にするリファイナ124(オプション)と、セグメント化イメージを受け取るために接続され、リファイナ124(使用している場合)またはボックス位置116を受け取るために接続された画素濃度カウンタ126と、画素濃度記憶装置128を具備している。記述子発生器40Bにおいて、ラベラー108Bは、ボックス位置116と画素濃度128とヒストグラム118Bを受取るように接続されている。記述子発生器40Aの場合のように、固定閾値を用いると、ヒストグラム118Bは不用となる。但し、記述子発生器40Aとは対照的に、記述子発生器40Bの動作は閾値がスペースではなく画素濃度なので、スケール及び使用分解能とは無関係である。
【0053】
動作時、セグメンター102は、イメージファイル112を読取り、テキストと他の領域に区分する。セグメント化されたイメージ114は、ボックス識別子104により読み込まれボックス位置のリストが作成される。入力ファイル112またはセグメント化イメージ114に含まれているであろうイメージの一例を図7に、ボックス位置116により示された通りに囲みボックスを付けて示す。図7には、日本語文字のイメージを示しているが、可変画素濃度の文字を持つ非日本語テキストをこの装置で処理することが可能である。日本語文字の場合、画素の濃度分布は、2つのピークを持つべきであり、一つは日本の漢字を現し、もう一つは仮名文字を現す。漢字は中国語の表意文字に起源を持ち字画が多く、一方、仮名文字は音節文字で字画が少ない。
【0054】
26のラテン文字と異なり、日本語文字は連続しない字画から構成されることが多く、一個の文字を複数の囲みボックスで囲むことが有り得る。図8に、一個の囲み日本語文字を例示する。図8(A)は、囲みボックス発生前の文字を、図8(B)はその文字の結合されていない3つの構成部分に重ねた2個の囲みボックス704と706を示している。要素として認められるだけの十分な画素を有さない字画は囲み込まない。
【0055】
オプションであるリファイナ124は、重なり合っている複数の囲みボックスを、同一文字の複数の構成要素を囲んでいるものと仮定して結合することにより、囲みボックス処理を精密にする。このリファイナ124は、全ての互いに重なり合っているボックス同士を各々1つの矩形に囲い直す。かのようにして、図8(C)に示すように、囲みボックス710が囲みボックス704と706(図8(B))にとって代わる。リファイナ124を使用するか否かに係わりなく、画素濃度カウンタ126は各囲みボックス中の画素数を計数し、黒画素数を計数する。白画素を計数しても同じ効果が得られるし、文字が黒でない場合でも、どん”な色または複数の色であっても、計数値はその文字を構成する画素数であることは明らかである。次に、各囲みボックス中の黒画素数をそのボックス中の画素総数で割った値を画素濃度(標準化濃度)とする。
【0056】
別案として、囲みボックスをすべて同一寸法であると想定または強制的に同一寸法にできるようにすれば、前記の標準化ステップの必要性は無くなる。名ボックスの画素濃度値を画素濃度記憶装置128に保存し、ヒストグラム118Bを発生すめるために、ヒストグラム発生器106Bにより使用される。
図9にヒストグラム118Bのグラフの一例を示す。図9において、ヒストグラムは標準化していない画素濃度の分布を示している。濃度値の高い漢字は、250から450黒画素範囲に集中しており、252画素の閾値がピーク群をよく分離している。もちろん、漢字もあるものはこの閾値より低く、あるものはこの閾値より高い。しかしながら、測定値に矛盾がない限り、文書は、入力時、目標文書とし同一の記述子を有する。
【0057】
この閾値は、ヒストグラム発生器106Bまたはラベラー108Bのいずれかにより計算される。閾値の1つの計算法が、N.Otsuの“グレイ・レベル・ヒストグラムからの閾値の選出方法”(IEEE会報システム−人とサイバネティックス,第9巻,♯1,1979年1月、63−66頁)に示されている。いずれの場合でも、ラベラー108Bは、画素濃度値128(標準化を要する場合は、ボックス位置116)を読む際にこの閾値を用いて名文字に2つのラベルのうち1つを貼付ける。2つのラベルは、漢字/仮名、高濃度/低濃度または1/0の何れであってもよい。どの場合でも、連続する囲みボックスの指定ラベル群は、パターンを形成し、濃度パターン130として保存される。図2の記述子発生器40Aで、ワードパターンが使用とされるように、濃度パターン130も記述子ライタ110Bにより記述子122を作成するために使用される。
【0058】
文書を保存し例示するための種々の装置につき記述してきた。図10と図11は、前述の各装置を使用して実行し得る例示文書検索プロセスを示すフローチャートである。
図10は、文書データベースに複数の文書を保存し、1つの目的文書と一致する文書を、該目的文書より提供された例文により検索するプロセスを記述したフローチャートである。
【0059】
ステップS1では、複数の文書を文書記憶及び検索システムに入力する。
ステップS2では、各入力文書用記述子を作成する。記述子の基盤としてテキストが用いられている場合は、ワード・スペースで記述子を決定する。音声の場合(図12及び図13参照)は、音素パターンまたはワード長または両方を使用する。ワード長は、音声認識により先ず音声をテキストに変換して測定する。
ステップS3においては、前記文書の入力と記述子の作成に引き続き、文書をデータベースに保存し、記述子を記述子データベースに、文書データベースに保存した文書と連係させて保存する。
【0060】
次のステップ(S4)は、検索する各目的文書毎に実行するループの開始点である。ステップS4では、目的文書を入力する。前に説明したように、この入力は、目的文全体である必要はもちろんなく、また、目的文書の全1頁である必要もない。
次に、ステップS5で、入力目的文書用の記述子を作成する。このステップは、ステップS2と類似である。入力文書が音声である場合は、記述子は、前述の通り、音素パターン及びワード・パターンのいずれ基づいて作成してもよい。
次に、ステップS6で、目的文書から作成した記述子を記述子データベース中でインデックスとして使用し、一致文書の可能性のある文書のリストを作成する。
ステップS7では、一致文書を文書データベースから検索する。
さらに、検索すべき目的文書がある場合は、前記プロセスをステップS4から繰り返し、検索目的文書がない場合には、プロセスを終了する。
【0061】
図11は、文書がテキストまたはテキストと図形である文書より記述子を作成するプロセスを記述したフローチャートである。この説明は、入力文書が、文書データベースに最初に入力された文書または目的文書の一部である場合に関する。ステップS10では、記述子を作成する文書のイメージを記述子発生器へ入力する。この入力イメージをテキスト領域と非テキスト領域にセグメント化する(S11)。記述子発生器がテキストの各セグメントを分析し、テキスト領域中の文字を囲む囲みボックスを検出する(S12)。
囲みボックスを識別すると、記述子発生器は、ボックス間スペースのヒストグラムを生成する(S13)。このヒストグラムから記述子発生器は、ヒストグラムの二つのピーク間の閾値を決定する(S14)。記述子発生器は、さらに、テキスト領域または少なくともボックス間のスペース・パターンを再検討し、ステップS14で決定した閾値より小さいかまたは大きいかによって各ボックス間スペースをラベル処理する(S15)。記述子発生器は続いてポックス間スペースの連から記述子を作成する(S16)。
【0062】
図11のフローチャートは、画素濃度パターンから記述子を発生させるプロセスにも適用する。相違しているのは、ステップS13において、作成するヒストグラムが画素のヒストグラムである点である。ヒストグラムを作成後、ステップS14,S15及びS16のプロセスを、ヒストグラムがボックス間スペースのヒストグラムである前述の実施例と同じ方法で実行する。
【0063】
図12と図13は、音声文書から記述子を作成する記述子発生器のブロック図である。これらの音声文書は、参照文書または目的文書の何れかとして用いることができる。音声文書は、例えば、有名な演説,講義,患者に関する医師の見解,発音等のものがあるが、どんな音声でも使用できる。
【0064】
図12は、音素(音韻)に基づく記述子を生成する記述子発生器40Cのブロック図である。この記述子発生器40Cは、音素認識装置802,スペース認識装置804,ラベラ108C及び記述子ライタ110Cを含んでいる。音素認識装置802は、入力音声文書806を読込み、音素パターン808を生成する。音素パターン808は、音声を表現し、どの音が出ておりどこに無声が生じているかを示す。音素パターン808は、スペース認識装置804に送られる。このスペース認識装置804は、認識された音素パターン中の無声音素の位置を分離し、ラベラー108Cに渡す。ラベラー108Cと記述子ライタ110Cは、記述子発生器40A及び40B内で互いに対応して作動する。
【0065】
ラベラー108Cの出力は、“スペース”パターン及びワードである。例えば、音声ファイル806が音声語句〈ザ ラージ カー〉を含んでいる場合、音素認識装置802がその語句を11個の音素として認識し、その特定の11音素を同定する。“スペース”認識装置804は、音素が2個の有声音素,1個の無声音素,4個の有声音素,1個の無声音素及び4個の有声音素であることを認識する。ラベラー108Cは、無声音素を“スペース”としてラベル処理し、2−S−4−S−3のパターンが生成され、記述子ライタ110Cがこれを〈2−4−3〉として書き込む。
【0066】
全ての参照文書が音声であり、記述子のみが音素に基づく記述子である場合でも、テキスト文書を目的文書として用いることができる。その目的文書のテキストを、音素発生器を介して供給する。音素発生器は、テキストから音素(音韻)を生成し、その音素を用いて記述子を生成する。もちろん、英語のように複雑な言語の場合,自動音素発生器は誤りを犯す。しかしながら、記述子は冗長度をもっており、誤があっても正しい文書が発見される。入力文書と参照文書の両方とも音声によるもので、音素パターンで記述されている場合、同一の音素発生器が参照文書と入力文書の両方に使用されていればエラーの影響はさらに少なくなる。つまり、両方に共通な誤りは、文書の発見を難しくするものではない。参照文書がテキストで、入力文書が音声である場合、または、各々のある組合わせの場合においても同じことが云える。音素は音声の単位であるから、図12に示した実施例は特殊な言語に特有なものではない。
【0067】
図13は、ワード長に基づく、但し、音声文書用の記述子を生成する記述子発生器40Dのブロック図である。この記述子発生器40Dは、音素認識装置902を有しており、前記記述子生成器40Cの場合と同様、この音素認識装置902で音声文書/ファイルを読むが、但し、音素の代わりに音声ワードのテキスト906を出力する。テキスト906をスペース・ラベラ904で処理し、テキスト中の各スペースの位置をマークして、図2を参照し先に説明したようにして、ワードパターン120を生成する。図2に付き説明した通り、記述子ライタ110Aがこのワードパターン120を用いて記述子122を作成する。
図12を参照し記述した例のように、音声ファイル806が音声語句〈ザ ラージ カー〉を含んでいる場合、音素認識装置802がその語句を〈ザ ラージカー〉と云うテキストとして認識し、スペース・ラベラー904がそのワードパターン“---S-----S---”を出力し、記述子〈3−5−3〉が得られる。
【0068】
図14と図15は、音声文書(音節)を照合するプロセスを示すフローチャートである。図14に示したプロセスは、図10に示したプロセスと類似しているが、図10のプロセスが音声とテキストによる入力文書及び目的文書の組合わせをすべて処理するのに反し、図14(図15)のプロセスは音声音節のみを取扱う。もちろん、テキスト音節を音素パターンの“準音声”に変換し、文書を“同様音”の一致に基づき突き合わせることは可能であるが、ワード当りの音素数のみを記述子の生成に使用しているので、“同様音”の突合わせは不必要である。事実、必要なのは、簡単な参照テーブルとして使用できる各ワード毎の音素数を含む単語の辞書だけである。
【0069】
図14に示したプロセスにおいて、各音節を入力し(S1′)、各音節毎に記述子を作成し(S2′)、作成した記述子を音節との関連を付けて保存する(S3′)。1つの音節を照合検索するために、目的音節を入力し(S4′)、記述子を生成し(S5′)、生成した記述子をステップ(S3′)で生成したデータベース中の記述子と照合し(S6′)、一致する音節を検索する(S7′)。さらに検索する音節がある場合は、ステップ(S4′)から(S7′)までのプロセスを繰り返す。
【0070】
図15に示したプロセスは、音素記述子と音声テキスト記述子の両方を使用する。音声テキスト記述子は、前述のワード長記述子と本質的に同じであり、音節の音声認識の結果得られたテキストから生成する。図15に示すように、参照音節を入力し(S20)、音素記述子を生成し(S21)、同時に、テキスト記述子を生成する(S22)。これらのステップは平行して実行できるが、しかし、必要性はない。次に、音素記述子を保存し(S23)、テキスト記述子を保存し(S24)、音節を記述子との関連を付けて保存する(S24)。
【0071】
1つの音節を検索するために、目的音節を入力し(S26)、音素記述子を生成し(S27)、テキスト記述子を生成する(S28)。これらのステップは順次または平行して実行できる。次に、音素記述子を保存してある音素記述子と照合し(S29)、テキスト記述子を保存してあるテキスト記述子と照合し(S29)、一致の程度に従ってランク付した2種類の音節リストを作成する。この2種類のリストを1つのランキング表に統合する(S31)。パターンマッチングの技術において、別々に生成したランキング表を1つに合同することはよく知られている。例えば、T.k.Ho,J.J.Hull,S.N.Srihariの“多重分類システムにおける決定の組合わせ”IEEE会報〈パターン分析及び記械知能〉、第16巻、第1分冊、1994年1月、66−75頁)に記述されている。
これまで述べてきた実施例は、本発明を説明するためであり、限定するためではない。
【0072】
本発明を種々変更できることは、当業者がこの開示を検討すれば明らかになろう。さらに、例えば、文字に関係する計量値の分布が2個より多いピーク値を有する場合、その分布を2つより多い値域に分割でき、その場合に、ラベラーが各文字を2値より多いラベルを用いてラベル処理を行う。また、テキスト文書をASCIIファイル、後書(Postscript)ファイルのような頁記述言語ファイル、“ワードパーフェクト”または“マイクロソフト”ファイルのようなワード処理ファイル等の種々の形式で保存することができる。従って、本発明の範囲は、前記の説明によって決められるのではなく、添付されたクレイムと対応する全範囲を参照し決定されるべきである。
【0073】
【発明の効果】
本発明の1つの実施例においては、複数文書のページを走査し文書管理システムの記憶装置に保管し、サンプルページを検索プロセスの一部として走査して、ほとんど計算することなく前記ページから抽出可能な記述子によって記述する。特殊な実施例においては、各々の結合成分の周囲を囲むボックスを形成し、ボックス間の間隔を測定する。ボックス間の間隔のヒストグラムを検出し、閾値を決定する。その閾値より小さい間隔は、文字間の間隔と見なし、閾値より大きい間隔はワード間の間隔と見なす。それらの間隔パターンを記述子に翻訳する。他の実施例の場合、例えば、日本語のテキストまたは異なる濃度のアルファベットの2文字を用いる他のテキストの場合、文字間のスペースはあまりなく、ボックス間のスペースの代わりに、囲みボックスの画素濃度のヒストグラムを用いる。文字の裂目をアドレスするために、オーバラップする囲みボックスを1つの囲みボックスに結合する。必要に応じ言語検出前置プロセッサを使用し、文書の言語を検出することができ、しかるべき記述子の抽出に適用できる。文字スペースが文書の場合、文字間のスペースを用いて囲みボックスをさらに定義することができる。
【0074】
本発明の他の実施例においては、前記文書管理システムまたは前記文書管理システムの照合部を、複写機に結合することも可能である。かような実施例の場合、ユーザはサンプルページを複写機に入力すると、複写機が目的文書を検索して印刷する。
【0075】
更に、本発明の他の実施例においては、音声とテキストの文書を、参照文書と大文書として交代使用する。音声文書記述子は、1ワード当りの音素パターンまたは1ワード当たりの文字パターンの何れかを用いることができる。前者の場合、音韻識別子を使用し、その音韻識別子はワード間の無声間隔を識別できる。後者の場合、音声認識装置を用いて音声をテキストに変換し、そのテキストに基づき記述子を発生させる。
【図面の簡単な説明】
【図1】 本発明による文書管理システムのブロック図である。
【図2】 エラー文字間隔パターンに基づき記述子を発生させる記述子発生装置のブロック図である。
【図3】 画素濃度に基づき記述子を発生させる記述子発生装置のブロック図である。
【図4】 文書画像を示す図である。
【図5】 図4に示したテキスト領域の部分拡大図である。
【図6】 文字間隔のヒストグラムを図形表示した図である。
【図7】 日本文字を含む文書のイメージを示す図である。
【図8】 図8(A)は日本文字のイメージを示す図である。図8(B)は図8(A)に示した日本文字のイメージを日本文字用に発生させた囲みボックスで囲んだ図である。図8(C)は図8(A)と図8(B)に示した日本文字のイメージを1個の囲みボックスで全文字を囲んだ図である。
【図9】 画素濃度のヒストグラムを図形表示した図である。
【図10】 文書データベース中に文書を保存し、文書を例示検索するプロセスを示すフローチャートである。
【図11】 文書用記述子を発生させるプロセスを示すフローチャートである。
【図12】 入力文書が音声で記述子がワード当りの音素数に基づく記述子の発生装置の一実施例を示す図である。
【図13】 入力文書が音声で記述子がワード当りの文字数に基づく記述子の発生装置の一実施例を示す図である。
【図14】 目的音節を用いた参照音節を保存し音節を例示検索するプロセスのフローチャートである。
【図15】 音韻認識及びテキスト認識の双方を用いる例示音節の検索プロセスのフローチャートである。
【符号の説明】
10…文書検索システム、12…取入れプロセッサ、14…入力文書、16…文書データベース、18…記述子データベース、20…照合プロセッサ、24…目的文書(一致文書)、40…高速記述子発生器、102…セグメンター、104…ボックス識別子、106,106B…ヒストグラム発生器、108A,108B…ラベラー、110A,110B…記述子ライタ、112…イメージファイル、114…セグメント化イメージ、116…ボックス位置、118A,118B…ヒストグラム、120…ワードパターン、122…記述子、124…リファイナ、126…画素濃度カウンタ、128…画素濃度、130…濃度パターン。

Claims (5)

  1. 複数の文書を文書データベースに記憶し、入力した文書に類似した文書を前記文書データベースから検索して提示する文書検索装置において、文書のイメージを入力し、該イメージからテキスト領域を検出する文字領域検出手段と、前記テキスト領域中の連続黒画素の領域をボックスで囲み、このボックスの位置を決定するボックス位置決定手段と、ワード内スペースとワード間スペースとを識別するための予め設定された閾値を参照して、各テキスト領域ごとに、各ボックス間のスペースをワード間スペースまたはワード内スペースに区分して2値表現のスペースパターン(以下、記述子という)として出力する出力手段とを有する記述子発生手段を備え、予め、前記文書データベース中の各文書は前記記述子発生手段で発生させた記述子と対応して記憶させておき、前記記述子発生手段で前記入力した文書の記述子を発生させ、該入力文書の記述子と類似した前記文書データベースに記憶された文書の記述子を検索することを特徴とする文書検索装置
  2. 請求項1に記載の文書検索装置において、前記ボックスの位置からボックス間の間隔を計算し、このボックス間の間隔の分布を求める分布発生手段を有し、前記ボックス間の間隔の分布から2つのピークを検出し、ワード内スペースとワード間スペースとを識別するための前記閾値をこれらのピークから決定するようにしたことを特徴とする文書検索装置
  3. 複数の文書を文書データベースに記憶し、入力した文書に類似した文書を前記文書データベースから検索して提示する文書検索方法において、予め、前記文書データベース中の各文書に対して、該文書のイメージを入力し、該イメージからテキスト領域を検出し、前記テキスト領域中の連続黒画素の領域をボックスで囲み、このボックスの位置を決定し、ワード内スペースとワード間スペースとを識別するための予め設定された閾値を参照して、各テキスト領域ごとに、各ボックス間のスペースをワード間スペースまたはワード内スペースに区分して2値表現のスペースパターン(以下、記述子という)として求め、該文書と該記述子とを対応させて記憶させておき、前記入力した文書の記述子を同様に発生させ、該入力文書の記述子と類似した前記文書データベースに記憶された文書の記述子を検索することを特徴とする文書検索方法
  4. 複数の文書を文書データベースに記憶し、入力した文書に類似した文書を前記文書データベースから検索して提示する文書検索装置において、文書のイメージを入力し、該イメージからテキスト領域を検出する文字領域検出手段と、前記テキスト領域中の文字をボックスで囲み、このボックスの位置を決定するボックス位置決定手段と、前記ボックス中の画素濃度を計算し、このボックス中の画素濃度の分布を求める分布発生手段と、前記ボックス中の画素濃度の分布から2つのピークを検出し、ボックスの画素濃度を識別するための閾値をこれらのピークから決定し、該閾値を参照して、各テキスト領域ごとに、各ボックスを区分して2値表現のボックスパターン(以下、記述子という)として出力する出力手段とを有する記述子発生手段を備え、予め、前記文書データベース中の各文書は前記記述子発生手段で発生させた記述子と対応して記憶させておき、前記記述子発生手段で前記入力した文書の記述子を発生させ、該入力文書の記述子と類似した前記文書データベースに記憶された文書の記述子を検索することを特徴とする文書検索装置
  5. 複数の文書を文書データベースに記憶し、入力した文書に類似した文書を前記文書データベースから検索して提示する文書検索方法において、予め、前記文書データベース中の各文書に対して、該文書のイメージを入力し、該イメージからテキスト領域を検出し、前記テキスト領域中の文字の領域をボックスで囲み、このボックスの位置を決定し、前記ボックス中の画素濃度を計算し、このボックス中の画素濃度の分布を求め、前記ボックス中の画素濃度の分布から2つのピークを検出し、各ボックスを識別するための閾値をこれらのピークから決定し、該閾値を参照して、各テキスト領域ごとに、各ボックスを区分して2値表現のボックスパターン(以下、記述子という)として求め、該文書と該記述子とを対応させて記憶させておき、前記入力した文書の記述子を同様に発生させ、該入力文書の記述子と類似した前記文書データベースに記憶された文書の記述子を検索することを特徴とする文書検索方法
JP21993996A 1995-09-05 1996-08-21 文書検索方法及び装置 Expired - Lifetime JP3664550B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/523,731 US5867597A (en) 1995-09-05 1995-09-05 High-speed retrieval by example
US08/523,731 1995-09-05

Publications (2)

Publication Number Publication Date
JPH09134372A JPH09134372A (ja) 1997-05-20
JP3664550B2 true JP3664550B2 (ja) 2005-06-29

Family

ID=24086232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21993996A Expired - Lifetime JP3664550B2 (ja) 1995-09-05 1996-08-21 文書検索方法及び装置

Country Status (2)

Country Link
US (1) US5867597A (ja)
JP (1) JP3664550B2 (ja)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7170629B2 (en) * 1998-11-13 2007-01-30 Ricoh Company, Ltd. Automatic and transparent document archiving
US7602518B2 (en) * 1996-11-21 2009-10-13 Ricoh Company, Ltd. Automatic and transparent document archiving
US6704118B1 (en) 1996-11-21 2004-03-09 Ricoh Company, Ltd. Method and system for automatically and transparently archiving documents and document meta data
US5978477A (en) * 1996-11-21 1999-11-02 Ricoh Company Limited Automatic and transparent document archiving
US6285788B1 (en) * 1997-06-13 2001-09-04 Sharp Laboratories Of America, Inc. Method for fast return of abstracted images from a digital image database
JP3836261B2 (ja) * 1998-08-10 2006-10-25 株式会社リコー ファイルシステム
US6363381B1 (en) * 1998-11-03 2002-03-26 Ricoh Co., Ltd. Compressed document matching
US6684368B1 (en) 1998-11-13 2004-01-27 Ricoh Company, Ltd. Method for specifying delivery information for electronic documents
FR2786600B1 (fr) * 1998-11-16 2001-04-20 France Telecom Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US7099898B1 (en) 1999-08-12 2006-08-29 International Business Machines Corporation Data access system
US6870950B2 (en) * 2001-03-15 2005-03-22 Agere Systems Inc. Method for detecting defects in a material and a system for accomplishing the same
JP2002342355A (ja) * 2001-05-16 2002-11-29 Ricoh Co Ltd 新聞発行日確認方法
US7151864B2 (en) * 2002-09-18 2006-12-19 Hewlett-Packard Development Company, L.P. Information research initiated from a scanned image media
US7475061B2 (en) * 2004-01-15 2009-01-06 Microsoft Corporation Image-based document indexing and retrieval
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) * 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US20060053097A1 (en) * 2004-04-01 2006-03-09 King Martin T Searching and accessing documents on private networks for use with captures from rendered documents
US7812860B2 (en) * 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US20060136629A1 (en) * 2004-08-18 2006-06-22 King Martin T Scanner having connected and unconnected operational behaviors
US20060041484A1 (en) * 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8081849B2 (en) * 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US9008447B2 (en) * 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US7990556B2 (en) * 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20070300142A1 (en) * 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US20080313172A1 (en) * 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US8713418B2 (en) * 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8874504B2 (en) * 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7729538B2 (en) * 2004-08-26 2010-06-01 Microsoft Corporation Spatial recognition and grouping of text and graphics
US7574048B2 (en) * 2004-09-03 2009-08-11 Microsoft Corporation Freeform digital ink annotation recognition
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8856108B2 (en) 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8510283B2 (en) 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8184155B2 (en) * 2007-07-11 2012-05-22 Ricoh Co. Ltd. Recognition and tracking using invisible junctions
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8332401B2 (en) * 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US8276088B2 (en) * 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US8521737B2 (en) 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8144921B2 (en) * 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US8086038B2 (en) * 2007-07-11 2011-12-27 Ricoh Co., Ltd. Invisible junction features for patch recognition
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US8335789B2 (en) * 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US7812986B2 (en) 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US8385589B2 (en) * 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US8156115B1 (en) 2007-07-11 2012-04-10 Ricoh Co. Ltd. Document-based networking with mixed media reality
US8369655B2 (en) 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
JP4455358B2 (ja) * 2005-01-31 2010-04-21 キヤノン株式会社 画像処理装置およびその方法
US7570816B2 (en) * 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
TWI319153B (en) * 2005-05-04 2010-01-01 Newsoft Technology Corp System, method and medium of automatic document classification
US7526129B2 (en) * 2005-06-23 2009-04-28 Microsoft Corporation Lifting ink annotations from paper
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
EP2067119A2 (en) * 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US20100278453A1 (en) * 2006-09-15 2010-11-04 King Martin T Capture and display of annotations in paper and electronic documents
US20110145068A1 (en) * 2007-09-17 2011-06-16 King Martin T Associating rendered advertisements with digital content
US8249343B2 (en) * 2008-10-15 2012-08-21 Xerox Corporation Representing documents with runlength histograms
WO2010096192A1 (en) * 2009-02-18 2010-08-26 Exbiblio B.V. Interacting with rendered documents using a multi-function mobile device, such as a mobile phone
EP2406767A4 (en) * 2009-03-12 2016-03-16 Google Inc AUTOMATIC CONTENT SUPPLY ASSOCIATED WITH CAPTURED INFORMATION, TYPE INFORMATION CAPTURED IN REAL TIME
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US8385660B2 (en) 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
US9081799B2 (en) * 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) * 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
US8831350B2 (en) * 2011-08-29 2014-09-09 Dst Technologies, Inc. Generation of document fingerprints for identification of electronic document types
US9111140B2 (en) 2012-01-10 2015-08-18 Dst Technologies, Inc. Identification and separation of form and feature elements from handwritten and other user supplied elements
US9495614B1 (en) * 2015-02-27 2016-11-15 Google Inc. Verifying labels for images using image recognition
US9411547B1 (en) 2015-07-28 2016-08-09 Dst Technologies, Inc. Compensation for print shift in standardized forms to facilitate extraction of data therefrom
KR102051130B1 (ko) * 2018-06-14 2019-12-02 연세대학교 산학협력단 이웃 정보에 기반한 이미지의 문서 영역 분리 방법 및 장치
US11741732B2 (en) * 2021-12-22 2023-08-29 International Business Machines Corporation Techniques for detecting text

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
CA2078423C (en) * 1991-11-19 1997-01-14 Per-Kristian Halvorsen Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
US5384864A (en) * 1993-04-19 1995-01-24 Xerox Corporation Method and apparatus for automatic determination of text line, word and character cell spatial features
US5465353A (en) * 1994-04-01 1995-11-07 Ricoh Company, Ltd. Image matching and retrieval by multi-access redundant hashing

Also Published As

Publication number Publication date
JPH09134372A (ja) 1997-05-20
US5867597A (en) 1999-02-02

Similar Documents

Publication Publication Date Title
JP3664550B2 (ja) 文書検索方法及び装置
Mao et al. Document structure analysis algorithms: a literature survey
KR100292098B1 (ko) 문자 인식 장치 및 방법
EP0440197B1 (en) Method and apparatus for inputting text
US7756871B2 (en) Article extraction
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
US6950555B2 (en) Holistic-analytical recognition of handwritten text
US4985863A (en) Document storage and retrieval system
US7092870B1 (en) System and method for managing a textual archive using semantic units
US5265242A (en) Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates
JP3289968B2 (ja) 電子的文書処理のための装置および方法
EP0544431B1 (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
Kornfield et al. Text alignment with handwritten documents
Roy et al. Keyword spotting in doctor's handwriting on medical prescriptions
Romero et al. Modern vs diplomatic transcripts for historical handwritten text recognition
JPH0682403B2 (ja) 光学式文字読取装置
JPH08263478A (ja) 中国語簡繁体字文書変換装置
JPH03144877A (ja) 文脈的文字または音素認識方法及びシステム
JPH08263587A (ja) 文書入力方法および文書入力装置
Zeghiba Arabic word decomposition techniques for offline Arabic text transcription
Puri et al. Sentence detection and extraction in machine printed imaged document using matching technique
JP3767180B2 (ja) 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体
Mukhejee et al. A new approach to information retrieval based on keyword spotting from handwritten medical prescriptions
Kornfield et al. Further explorations in text alignment with handwritten documents

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050329

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080408

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090408

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100408

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100408

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110408

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120408

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130408

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 9

EXPY Cancellation because of completion of term