JP2000285139A - 文書マッチング方法、記述子生成方法、データ処理システム及び記憶媒体 - Google Patents

文書マッチング方法、記述子生成方法、データ処理システム及び記憶媒体

Info

Publication number
JP2000285139A
JP2000285139A JP11307938A JP30793899A JP2000285139A JP 2000285139 A JP2000285139 A JP 2000285139A JP 11307938 A JP11307938 A JP 11307938A JP 30793899 A JP30793899 A JP 30793899A JP 2000285139 A JP2000285139 A JP 2000285139A
Authority
JP
Japan
Prior art keywords
document
documents
query
text
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11307938A
Other languages
English (en)
Other versions
JP4023706B2 (ja
Inventor
Shan Lee Daa
シャン リー ダー
Jonathan J Hull
ジェー ハル ジョナサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2000285139A publication Critical patent/JP2000285139A/ja
Application granted granted Critical
Publication of JP4023706B2 publication Critical patent/JP4023706B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 文書画像が圧縮されている場合でも、それを
伸長することなく、少ない計算量で、高精度な文書マッ
チングを可能にする。 【解決手段】 粗マッチング段階15で、圧縮照会文書
12から各走査線の符号化に要するビット数に基づいた
ビット分布25を生成し、ビット分布から計算した大局
的統計量27を用いて画像データベース14の探索範囲
を絞り込む。ビット分布25と探索範囲内文書のビット
分布との相互相関をとって候補17を割り出す。詳細マ
ッチング段階では、端点特徴を用いて照会文書12と候
補17との詳細マッチングを行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書管理の分野に
係り、特に、文書マッチングの分野に関する。
【0002】
【従来の技術】電子文書画像の生成及び伝送が容易にな
ったため、文書を自動的に追加したり検索したりする機
能を持つデータベースに文書画像が保存されるのが一般
的になってきた。その結果、追加しようとする文書と同
じものがデータベース内に既に存在しているか否かを効
率よく確実に判定できるようにすることが、ますます重
要になっている。さもないと、同じ文書が重複してデー
タベースに格納され貴重な記憶スペースを浪費すること
になる。データベース内に、ある文書と同じものが入っ
ているか否かを判定することを文書マッチングと言う。
【0003】現在利用できる画像内容をベースにした検
索システムでは、色、テクスチャ、形態の特徴が文書マ
ッチングに利用されることが多い。大部分が2階調(bi
tonal)で形態及びテクスチャが似ている文書画像のマ
ッチングをしようとすると、様々な問題が起こる。
【0004】一般的な文書マッチング手法の1つは、光
学的文字認識(OCR)を行ったのち、テキスト・ベー
スの探索を行う方法である。もう1つの方法は、文書の
レイアウトを解析し、構造的に類似した文書をデータベ
ースから探す方法である。残念ながら、この2つの方法
はいずれも計算量の多いページ解析を必要とする。計算
による解析を減らすための一方法は、文書を確実に識別
できるように特別に設計されたマーカーを文書に埋め込
む方法である。
【0005】最近、テキスト・ベースの方法に代わるも
のとして、画像から特徴量を直接抽出することによりO
CRよりも優れた効率性及び頑健性を得ようとする方法
が開発された。そのような特徴量の1例はワード長であ
る。文書中のワード長の系列をインデックスとして利用
し、照会によって生成された各画像でのヒット数を比較
することにより一致文書を識別し得る。もう1つの方法
は、ASCIIテキスト検索のための探索キーのコンパ
イルに利用できる文字形状コード(CSC)の小集合
へ、アルファベット文字をマッピングする方法である。
CSCは、テキスト画像から、ベースライン及びx−高
さラインに対する連結成分の相対的位置に基づいて得る
こともできる。このように、CSCは文書画像中のワー
ド検出のために利用できる。十分な長さの先頭のテキス
ト行から抽出したCSCの短系列を用いて多重インデッ
クスを作ることにより、文書重複検出にもCSCが適用
されている。
【0006】以上に述べた方法の大きな欠点は、本質的
にテキスト行ベースの方法であることである。通常、行
切り出し、ワード切り出し、あるいは、文字切り出しさ
えも行う必要がある。テキスト・ベースでないある方法
では、水平射影に基づいて重複検出がなされる。水平射
影のウェーブレット係数ベクトル間の距離で、文書の類
似度を表す。この方法は、低品質の文書やテキスト量が
少ない文書に対し、テキスト・ベースの方法より高性能
である。
【0007】データベース内の文書画像の大部分は圧縮
された形で格納されているので、圧縮ファイルに対して
文書マッチングを行うのが有利である。圧縮ファイルに
対し文書マッチングを行うのであれば、伸長と再圧縮の
必要がなくなり、必要メモリ量の削減により商用化も容
易になる。当然のことながら、圧縮ファイルのマッチン
グをしようとすると、また別の問題が生じる。CCIT
Tグループ4圧縮ファイルについては、パスコードが類
似文書の識別に役立つ情報を含んでいることが分かって
いる。ある従来技術の方法によれば、小テキスト領域か
らパスコードを抽出してハウスドルフ(Hausdorff)距
離と共に利用することにより、同じ文書を高い割合で正
確に識別する。しかしながら、ハウスドルフ距離の計算
は計算量が多く、また、距離計算の回数がデータベース
の大きさに比例して増加する。
【0008】
【発明が解決しようとする課題】よって、本発明の主要
な目的は次の通りである。 (1)少ない計算量で高精度の文書マッチングが可能
な、テキスト・ベースでもテキスト行ベースでもない方
法及び装置を提供すること。 (2)文書画像が圧縮されている場合においても、文書
画像の伸長を行うことなく、少ない計算量で高精度の文
書マッチングが可能な方法及び装置を提供すること。 (3)文書画像のノイズ、変形に対して頑健な文書マッ
チング方法及び装置を提供すること。 (4)高精度な文書マッチングのための特徴量を圧縮さ
れた文書画像から生成する方法を提供すること。 (5)文書画像のノイズ、変形に対して頑健で安定な文
書マッチングのための特徴量を生成する方法を提供する
こと。 以上の目的のより具体的な内容並びにその他の目的は、
以下の説明から明瞭になろう。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、本発明の一態様によれば、照会文書がデータベース
内の複数の文書中の1つ以上と一致するか判定するた
め、照会文書中の複数の画素行の各行を符号化するため
に必要とされるビット数に基づいて、照会文書のビット
分布(bit profile)が生成される。そして、このビット
分布とデータベース内の複数の文書に関するビット分布
との比較により、1つ以上の候補文書が割り出される。
この1つ以上の候補文書に対しさらに詳細なマッチング
が必要な場合には、照会文書の端点特徴が検出され、こ
の端点特徴の位置に基づき照会文書に関する記述子の集
合が生成される。生成された記述子の集合と、1つ以上
の候補文書に関する記述子の集合との比較により、1つ
以上の候補文書の少なくとも1つと照会文書が一致する
か判定される。
【0010】以上に述べた本発明の特徴及びその他の特
徴は、添付図面及び以下の詳細な説明によって明らかに
なろう。
【0011】
【発明の実施の形態】以下、本発明の実施の形態につい
て様々な実施例によって説明する。また、以下において
は、主にCCITTグループ4圧縮文書を対象として説
明するが、本発明はそれに限定されるものではなく、他
の形式の文書、例えばCCITTグループ3の圧縮文書
やTIFF形式のファイルにも適用し得るものである。
【0012】また、次のような語句又は略語を用いる
が、別の意味が前後関係から明白である場合を除いて、
以下の定義が適用される。 ・検索率(recall rate):データベースから適切な一致
文書が選び出される割合 ・MMR:Modified Modified Relative Element Addre
ss Designateの略語 ・テキスト密度:単位領域あたりのテキスト行数(例え
ば5行/インチ) ・CCITT:国際電信電話諮問委員会 ・TIFF:Tagged Image File Formatの略語 ・G3圧縮又はグループ3圧縮:CCITT勧告T.4
に記載の文書画像圧縮方式 ・G4圧縮又はグループ4圧縮:CCITT勧告T.6
に記載の文書画像圧縮方式 ・文書画像:1枚の紙又は同様の媒体のデジタル画像 ・走査線:文書画像中の1つの画素行 ・ハーフトーン:分離した黒と白のドットによるグレー
スケール画像の模擬画像 ・ダウンサンプル:平均化することによって、又は、他
の方法で複数画素を1画素に統合することによって、解
像度を下げる手法 ・ハフマン・コード:画素ラン符号化用ビット・コード
【0013】図1は、一実施例による2段階文書マッチ
ングの概要を示す。粗マッチング段階15において、圧
縮された照会文書12が走査されビット分布(bit profi
le)が生成される。このビット分布から、行間隔や文字
高さなどの大局的統計量が計算され、これを用いること
によって画像データベース14内の探索すべき文書の範
囲が絞られる。次に、前記ビット分布が、探索範囲内の
文書に関して予め計算されているビット分布と比較され
ることにより、詳細マッチング段階20のための候補1
7が選び出される。粗マッチング段階15で複数の候補
17が得られた場合、詳細マッチング段階20におい
て、詳細マッチングのための端点特徴の集合が照会文書
から抽出される。端点特徴は、ページのスキュー推定や
向き推定など、様々なレベルの処理に必要な情報を含ん
でいる。さらに、端点特徴は、安定であり、対称的であ
り、また、グループ4圧縮ファイルなどの(これに限定
されない)一般的に用いられる圧縮ファイルから容易に
計算可能である。詳細マッチング段階20において、抽
出された端点特徴を用いることにより、高い確率で一致
文書21が正確に識別される。
【0014】《1.粗マッチング段階》粗マッチング段
階15の主目的は、候補集合を高い検索率で得ることで
ある。したがって、使用される特徴量は、計算が簡単で
あって、一般的な画像変形に強いものである必要があ
る。伸長を行うことなく得られる、最もわかりやすい特
徴量はファイル・サイズである。しかし残念ながら、オ
リジナル画像と写真複写画像とではハーフトーン品質が
一致しないため、あるいは、文書の周縁近傍でのハーフ
トーン効果により、圧縮ファイルのサイズは一致すべき
文書間でも大きく異なることがある。同じように利用し
やすく、情報量がずっと多いのは、各走査線の圧縮後の
サイズである。
【0015】図2は、一実施例による粗マッチング段階
の説明図である。まず、G4又は他の圧縮方法により圧
縮された照会文書12を1回走査することにより、圧縮
ビット分布25を生成する。次に、このビット分布25
に対しスペクトル解析手法を適用することにより頑健な
大局的統計量を生成する。この照会文書12の大局的統
計量を、データベース内の文書画像に関し予め計算され
た大局的統計量27と比較することにより、初期候補の
集合を生成する。これら初期候補に関して予め計算され
たビット分布29と照会文書12のビット分布25との
相互相関をとることにより、順位付けされた候補17の
集合を含む仮説を生成する。相互相関によって高い確信
度で一致するものが得られた場合には、これ以降の処理
を省いてもよい。
【0016】《1.1 ビット分布(bit profile)の抽
出》グループ4圧縮規格は、各走査線が上の走査線を基
準にして符号化される2次元のランレングス・ベースの
符号化方式(MMR)を規定している。この2つの走査
線上の連続したランのパターンに応じて、適切なハフマ
ン・コードが生成される。MMR符号化は決定論的であ
るため、同じ画像パターンであれば、それが文書中のど
こに位置していようと、同様の圧縮比が得られる。した
がって、各画素行の符号化に要するビット数は、計算す
るのに都合のよい特徴量である。一般的に、ハーフトー
ンは符号化するのに最も多くのビットを必要とし、テキ
ストはそれより少ないビット数しか必要とせず、背景は
さらに少ないビット数しか必要としない。殆どがテキス
トで横向きの画像の場合、そのビット分布にテキスト行
に対応したピークと谷が現れる。テキスト行によって生
じるピークと谷の例が図3に示すビット分布25の領域
41に見られる。このビット分布25は、文書画像40
の圧縮データから生成されたものである。
【0017】インク濃度の水平射影(例えば、各走査線
上の黒画素の平均個数)とは異なり、ビット分布(bit p
rofile)からどこに情報が実際にあるかわかる。例え
ば、写真複写された文書の周縁部にしばしば出現する大
きな黒領域(例えば、図3の領域43)は、ビット分布
25には殆ど影響を及ぼさないが、これに対し、インク
濃度分布には大きなピークができるだろう。実際、ペー
ジを反転表示しても、ビット分布25はそれほど変わら
ないであろう。また、ビット分布25は、インク濃度分
布よりも、走査線上のインク分布に関する多くの構造情
報を伝える。文書で普通に使用されるポイント・サイズ
の範囲では、全ページ幅の各テキスト行の(正規化単位
の)圧縮率はほぼ均一であり、したがって、テキストと
ハーフトーンが同様のインク濃度を持つことがあったと
しても、テキスト行をハーフトーン部分と区別すること
が可能になる。
【0018】《1.2 仮説の生成》多くの場合、ビッ
ト分布(bit profile)が有する情報量はただ1つの文書
を一意に同定するには少なすぎる。しかし、そっくりな
文書は同様のビット分布を持つのが普通である。距離計
算に基づいてビット分布を直接的に比較する方法では、
ビット分布が相対的に垂直方向に少し平行移動するだけ
でも失敗する可能性がある。そこで、少なくとも一実施
例にあっては、相互相関が用いられる。ビット分布ベク
トルの相互相関は、それら分布のフーリエ変換の積とし
て効率的に計算することができる。また、相互相関によ
って垂直方向のレジストレーションが求まり、これは局
所的特徴を抽出するための2つの画像の対応部分を割り
出すのに利用できるであろう。計算コストをさらに削減
するため、文書の大局的統計量が計算されて探索範囲の
絞り込みに利用される。
【0019】ビット分布から、いくつかの大局的統計量
を抽出できる。ビット分布の周期性は、スペクトル特性
が統計的モーメントより有用であることを示唆する。支
配的な行間隔、テキスト行数及びテキストの位置は良好
な第1段階の特徴付けを与えるが、これら統計量はスペ
クトル領域においてビット分布から容易に求めることが
できる。一実施例によれば、ビット分布の周波数成分の
解析のためにパワースペクトル密度(PSD)が用いら
れる。
【0020】図3に、ビット分布25から計算されたP
SD45を示す。照会文書40(又はその圧縮データ)
の支配的な行間隔は、PSD45の最も高いピーク47
から直接計算できる。照会文書40のテキスト行数の定
量的な目安はスペクトル解析では与えられないが、PS
D45におけるピーク周波数でのエネルギー(矢線49
で示す)はページ上のテキスト量の良好な目安である。
一実施例によれば、支配的な行間隔の周波数を中心にし
た帯域フィルタをビット分布25に適用することによ
り、照会文書中のテキスト行の位置が推定される。フィ
ルタ処理後の信号はテキスト位置で振幅が大きくなるこ
とは、テキスト・エネルギー分布51に示す通りであ
る。位相群遅延グラフ53(ラジアン単位でプロット)
において一定した値の小さな領域55で示すように、位
相がリニアなビット分布の区間は、テキスト・ブロック
とよく一致する。一実施例によれば、テキスト・エネル
ギー分布51の重心59と、90%エネルギー区間の幅
60が、テキストの位置と密度の推定値として用いられ
る。一実施例によれば、テキストの位置及び密度が、ピ
ーク周波数及び全テキストエネルギーとともに、データ
ベース画像空間内に探索ウインドウを定めるための大局
的統計量として用いられる。他の実施例では、これ以外
の大局的統計量又は大局的統計量の別の組合せが用いら
ることもある。
【0021】《1.3 特徴解析》ここで、ビット分布
特徴と大局的統計量の、様々な変形に対する頑健性は検
討に値する。図4は、2つの一致すべき文書画像間によ
く見られる変形のいくつかを示す。これらの問題の解析
において重要な着目点は次のとおりである。2つのペー
ジの間に相対的なスキューがなければ、ノイズの多いほ
うの画像のビット分布は、ノイズの少ないほうの画像の
ビット分布に、ノイズの多いほうの画像上のその他全て
のもののビット分布が付加された、すなわち加算された
ものである。前述のように、ページの上部と側部にある
大きな一様に黒い領域61,63は、ビット分布にはほ
とんど影響を及ぼさない。しかし、ハーフトーンにディ
ザ化されたグレー領域(例えば領域65)によって、ビ
ット分布は大きく変化する可能性がある。ページの上部
又は下部のハーフトーン部分は、孤立したピークとして
ビット分布に現れるが、それらの局所的平均はテキスト
行にしては高すぎるので検出して除去することができ
る。ページの長手方向に沿うハーフトーン部分は、ビッ
ト分布にランダムなノイズを加える。しかし、このよう
なランダムなノイズは、通常、密度が極めて均一である
ため、PSDにはそれほど影響を及ぼさない。他方、ペ
ージの片側にある関係のないテキスト66はもっと大き
な影響をPSDに及ぼすことがある。このページの片側
にある無関係なテキスト66のテキストエネルギーは、
その行間隔と本体テキストの行間隔とが同じ場合には本
体テキストのテキスト・エネルギーに吸収されるが、そ
れらの行間隔が異なる場合には、別の、通常はもっと小
さなピークを作る。
【0022】最も重大な欠陥の1つは、ページ上の画像
の回転によって生じるスキューである。回転67は、ビ
ット分布において水平射影を局所的に平均化させる作用
をし、ピークを低くし谷を浅くする。スキューが大きく
なればなるほど、平滑化作用も強くなる。ビット分布の
平滑化は、支配的な周波数を変化させないが、エネルギ
ー分布を変化させ、ピーク周波数でのエネルギーをスペ
クトルの低い側へ押しやり、検出をずっと難しくさせ
る。これが図4のPSD69に例示されている。図4に
おいて、パワー密度72と同74はそれぞれスキューの
ない画像71とスキューのある画像73についてプロッ
トしたものである。一実施例によれば、スペクトル評価
の前に、ビット分布に対し低周波エネルギーを除去する
ための前処理が施される。大局的統計量は、概して、画
像の歪みに対し頑健である。しかし、ビット分布の相互
相関は画像の歪みに対する耐性が弱い。
【0023】これ以外にも、解像度や符号化形式などビ
ット分布の変動をもたらす関連要因がある。グループ4
圧縮では2次元符号化と固定ハフマン符号化テーブルが
用いられる結果、圧縮に必要とされるビット数はランの
長さに比例しては増減しない。(例えば拡大によって生
じる)水平解像度の変化はビット分布全体に一定のスケ
ーリング効果を及ぼすことはないとはいえ、残留誤差は
無視できることが多い。ビット分布をダウンサンプル
し、様々な垂直解像度に合わせることも、局所的変動を
減らすのに役立つ。
【0024】ここまでG4圧縮画像を中心に説明してき
たが、G3圧縮方式に関連したことも言及する意味があ
る。同じ画像のG3符号化ファイルとG4符号化ファイ
ルのビット分布の差異は、1次元(1D)符号化走査線
と2次元(2D)符号化走査線にある。2D符号化は、
通常、1D符号化より効率がよいため、G3符号化ビッ
ト分布は、G4符号化ビット分布に、周波数がkの周期
的波形を加えたものである。ここで、kは1D符号化走
査線の周波数である。G3において、kの推奨設定は、
200ドット/インチ(dpi)で2走査線おきであ
り、それ以上に高い解像度の場合には4走査線おきであ
る。実際には、差異はピーク高さについては小さいこと
が多く、これらの周波数は通常は非常に高いため本来の
行間隔と混同されることはない。TIFF形式のファイ
ルにおいては、この種の周期的ノイズが符号化方式とは
関係なく発生することがある。TIFF形式のファイル
では、処理を容易にするため画像が固定サイズのストリ
ップとして符号化されることが多い。そのため、各スト
リップの最初の行は事実上、1D符号化される。1スト
リップ当たり行数(RowsPerStrip)のパラメータの設定を
変えると、それに対応した変化がPSDに生じる。G3
における周波数kの周期的波形の場合と同様に、TIF
F形式ファイルにおける事実上の1D符号化によって生
じるノイズは、テキスト行によって作られるピークに比
べかなり小さいので無視し得る。
【0025】《2.詳細マッチング》視覚的に異なる文
書が同じ様な圧縮ビット分布を持つことがあり得るの
で、粗マッチングにより得られた候補リスト中の不確実
なものを取り除くために2段目の処理が必要であろう。
一実施例によれば、それ以上の情報を得るため、G4圧
縮照会画像又はそれ以外の方法で圧縮された照会画像か
ら端点特徴の集合を抽出する。解析により、これら端点
特徴の部分集合がマーカーとして認定される。文書の索
引付けのため、これらマーカーの位置に基づいた記述子
が生成される。粗マッチング処理で文書候補集合が得ら
れたときには、クロス確認が実行される。以下の部分
で、端点特徴の抽出及び記述子の生成について詳述す
る。
【0026】《2.1 端点抽出》端点特徴抽出の理解
を容易にするためには、グループ4圧縮方式について簡
単に検討するのが有益である。グループ4圧縮方式で
は、各走査線は上の走査線を基準として符号化される。
図5の(A)及び(B)を参照すれば、現在符号化点a
0を基準にして、両走査線上の2つの連続した画素ラン
の起点(変化要素と言う)が随時検出される。これらの
変化要素間の相対位置に基づいて、可能な3つのモード
の中の1つのモード、すなわち水平モード、垂直モード
又はパスモードが符号化のために選択される。符号化
後、a0が先へ移動させら、処理が繰り返される。これ
が図5に矢線81及び83で示されている。復号化時に
は、復号化されたモードが既に分かっている変化要素
(a0,b1,b2)と併用されることによりa1及び
/又はa2の位置が決定される。そして、要素a0が符
号化の場合と同様に先へ移動させられる。したがって、
モード情報が最初に復号化される。変化要素の位置も常
に保存される。
【0027】パスコードは、ストロークの最下部(白パ
ス)又はホールの最下部(黒パス)に対応した位置で発
生する。ローマ字の場合、これらの特徴点は、下向きの
縦ストロークの端又は曲線ストロークの最下部に見出さ
れることは、図6のパスコード・ダイアグラム87によ
って示す通りである(各正方形ドット88がパスコード
の位置を示す)。パスコードがベースラインの近くに整
列しているため、また、パスコードが構造情報を持って
いるため、パスコードはスキュー推定、テキスト・マッ
チングのような様々な処理に有用である。パスコードが
グループ4圧縮ファイルから容易に抽出できることも同
様に重要である。
【0028】パスコードは有用ではあるが、限界もあ
る。第1に、白パスコードは全てストロークの最下部に
対応するが、ストロークの最下部の全てがパスコードに
よって表現されるわけではない、という意味でバスコー
ドは不安定である。グループ4の符号化モードはコンテ
キスト依存性があるため、同じ変化要素局所パターンで
あっても異なった符号化がなされる可能性がある。
【0029】例えば、図5(A)のb1から始まる黒ラ
ン84はパスコードを発生させる。一方、図5(B)の
b2から始まる黒ラン85は<パスコードを発生させな
い(もしa1が1画素右にシフトしたならば発生させる
だろうが)。それどころか、b2にあるストロークの最
下部86は、a0からa2まで及ぶ水平モード符号化に
よって完全に隠蔽される。
【0030】パスコードのもう1つの限界は、パスコー
ドが非対称であることである。ストローク又はホールの
最下部をパスコードで表現し得るとしても、パスコード
は、そのストローク又はホールの最上部の情報は全く与
えない。例えば、図6のパスコード・ダイヤグラム87
に見られるように、”d”の最下部は2つのパスコー
ド、すなわち白パスコード89Aと黒パスコード89B
を含むことが多いが、その文字の最上部の特徴点は全く
捕捉されない。
【0031】パスコードには前記の限界があるため、少
なくとも詳細マッチング段階の一実施例によれば、圧縮
照会文書の変化要素から直接的に端点特徴が抽出され
る。2種類の端点、すなわち上端点と下端点が抽出され
る。下端点は、白パスコードで捕捉されるものと同様
の、ストロークの最下部である。しかし、下端点とパス
コードとの重要な相違は、下端点が変化要素a1,b2
の位置を直接比較することによって抽出され、水平符号
化によって不明瞭になる可能性がなくなることである。
このように、パスコードと違い、ストロークの最下部は
全て下端点であり、かつ、下端点は全てストロークの最
下部である。ストロークの最上部は、変化要素a2,b
1を用いて同様に上端点として抽出される。
【0032】図6の端点ダイヤグラム94は、上端点及
び下端点によって捕捉される特徴量を表すもので、パス
コードによって捕捉される特徴量と端点によって捕捉さ
れる特徴量との差異を明らかにするためパスコード・ダ
イヤグラム87の直ぐ下に置かれている。端点ダイヤグ
ラム94は、下端点96はおおむねテキスト行のベース
ライン98の位置に整列するが、上端点95はおおむね
x−高さライン97の位置に整列することも示している
(x−高さラインは、小文字”x”の最上部で決まるラ
インである)。
【0033】図7の(A)及び(B)並びに以下の擬似
コードは、上端点と下端点の検出方法を説明するために
用意された。
【0034】図7(A)において、a0は白でa1はb
2の後に現れる。よって、上記擬似コードリスト中の最
初の条件文の条件が満たされるので、走査線r−1上の
b2からb1までのランのほぼ中間点に下端点96が設
定される。要素a0は、矢線101で示されるように、
走査線r上のb2の真下位置へ進められる。
【0035】図7(B)において、a0は白であり、b
1はa2の後に現れ、b0はa1の前に現れる。よっ
て、前記擬似コードリスト中の2番目の条件文の条件が
待たされるため、走査線r上のa1からa2までのラン
のほぼ中間点に上端点95が設定される。要素a0は、
矢線103で示されるように、a2まで進められる。
【0036】端点にはパスコードに比べ有利な点がいく
つかある。まず、端点のほうが安定である。すなわち、
同じ特徴点が符号化モードの違いによって不明確になる
ことがない。また、端点は、テキスト行のx−高さライ
ンとベースラインの両方に関する情報を与える。これに
よって、文字高さ、ページ向き、アセンダなどの情報の
抽出が可能になる。上端点及び下端点の対称性は、上下
逆さまのページを処理する場合に好都合である。ページ
が上下逆さまであるときには、上端点と下端点とを入れ
替えて簡単な座標再配置をすることによって正しい向き
のページに関する端点を得ることができる。圧縮文書を
再度走査する必要がない。これに対し、パスコードは、
非対称であるため、対応した特徴点を得るためには、通
常、画像を上下逆さまにして改めて圧縮する必要があ
る。さらに、端点は変化要素の相対的位置に基づいて検
出されるため、それらの位置はパスコードと同程度に計
算が容易である。
【0037】《2.2 文書の索引付け》特徴抽出の次
に、2次元の端点情報は、効率的な索引付けのための1
次元表現に変換される。この変換には、いくつかの操作
が必要とされる。まず、ページのスキューが推定され、
端点に基づいて修正される。スキュー補正後の上端点と
下端点についての平滑化した水平射影(U分布とD分布
と呼ぶ)を用いて、テキスト行の位置が検出される。x
−高さラインは対応したベースラインより上にあるはず
であるから、D分布はU分布より後にあるはずである。
ビット分布のスペクトル解析により求められた支配的行
間隔によって制限されたオフセットの範囲内で、U分布
とD分布間の最大相関が計算される。相関分布におい
て、U分布の極大値が、文字高さに相当する距離だけ離
れたD分布の極大値と一致する場所ではテキスト行が検
出される可能性が高い。U分布とD分布の相関を向上さ
せるため、行間隔の2倍未満の範囲内にあるU分布及び
D分布の極大値以外は全て0にされる。これは、U分布
からx−高さライン以外のものを全て除去し、かつ、D
分布からベースライン以外のものを全て除去しようとす
るものである。それから、極大値の分布について相関が
とられる。図8は、照会画像から抽出されてスキュー補
正された端点集合109と、上端点及び下端点の水平射
影112(下端点はD分布を作る負の射影値114であ
る)と、U分布及びD分布の極大値の射影115と、一
致するU分布とD分布の極大値117を示す。
【0038】テキスト行位置の集合が与えられたなら
ば、各テキスト行領域内の端点が抽出される。テキスト
行内の端点を用いて、そのx−高さラインとベースライ
ンの位置を知ることができるから、そのテキスト行内の
アセンダ領域及びデセンダ領域と呼ばれる領域を定める
ことができる。図9は、2つのテキスト行領域127,
129を含む画像領域125と、各テキスト行領域内に
含まれる上端点及び下端点を表している。対応した端点
マップ131には、実線で表されたテキスト行の境界1
33A−133Cと、破線で区切られたアセンダ領域1
35A,135B及びデセンダ領域137A,137B
が含まれている。この端点マップ131において、上端
点と下端点はそれぞれ上向きの三角形と下向きの三角形
で示されている。
【0039】図9に示された例から、いくつかのことが
分かる。まず、上端点と下端点の相対的位置から重要な
情報を導き出すことができる。例えば、点などの符号
や、”i”,”j”は、(例えば矢線145で示すよう
に)アセンダ領域135A,135B内の同じx位置に
上端点と下端点の両方が存在することから容易に分か
る。また、中間領域147A,147B内の上端点は、
通常、”e”,”s”,”t”のような文字の上向き曲
線を表す。文字”c”は、(例えば矢線146によって
示すように)中間領域内の2組の対向した上端点と下端
点によって表される。
【0040】一実施例によれば、比較的小さい領域から
抽出された端点の系列を用いて文書マッチングのための
索引が作られる。基準線がうまく決まれば、端点を系列
にエンコードする方法はいくつか可能である。観察する
と、x−高さ領域の内側に生じる端点は、接触、分離、
セリフ、フォント種類の変動によるノイズの影響を受け
やすいことが分かる。そのため、一実施例によれば、中
間領域内の端点は無視され、X−高さラインより上にあ
る(すなわちアセンダ領域内にある)上端点とベースラ
インより下にある(すなわちデセンダ領域内にある)下
端点だけがマーカーとして用いられる。他の実施例で
は、テキスト行の他の領域から抽出された端点がマーカ
ーとして用いられることもあろう。
【0041】一実施例によれば、連続したマーカー間の
量子化距離の系列が記述子として用いられる。連続マー
カー間距離の量子化を図10に例示する。上端点マーカ
ー(すなわち”アセンダ”)間距離を表すために正値が
用いられており、下端点マーカー(すなわち”デセン
ダ”)間距離を表すために負値が用いられている。各テ
キスト行領域の左端の端点は基準点149A,149B
として用いられる。これに代わる実施例では、別の基準
点と距離形式が用いられることもあろう。2次元構造を
保存するため、テキスト行間にまたがる距離インジケー
タが、間に0をはさんで連結される。したがって、与え
られたテキスト行について、正値と負値のストリングが
生成されることになる。例えば、図10に示すテキスト
行については、距離インジケータのストリングは 1, 11, 13, 4, 2, 2, 2, 4, 0, -39 O, 5, 7, 7, 4, 8, 6, 0, -11 となる。
【0042】他の実施例では、これとは異なるマーカー
距離形式が用いられることもあろう。例えば、アセンダ
領域とデセンダ領域のマーカー距離を厳密に左から右へ
向かう順に交互に並べてもよい。
【0043】一実施例によれば、N個の連続した距離か
らなる各系列により作成された記述子で、データベース
内の各文書が逆索引付けされる。同様に、N個の連続し
た距離からなるK個の系列が照会時に生成される。一案
によれば、各記述子の重みは、索引付けする文書数に逆
比例する。例えば、図10の例においてN=5とすれ
ば、下記の通り、K=(距離インジケータ数−N)+1
=(19−1)+1=15個の系列S1〜S15が生成
される。 S1 =( 1,11,13, 4, 2) S2 =(11,13, 4, 2, 2) S3 =(13, 4, 2, 2, 2) ・ ・ S15 =(4, 8, 6, 0,-11)
【0044】索引付けする文書数に逆比例して各系列に
重み付けをすることにより、K個の系列中の各系列Si
は、それで索引付けするMi個の文書の1つ1つに1/
(K*Mi)なるスコアを与える。ある閾値より大きな
スコアを与えられた文書が、詳細マッチング段階で選出
される。Nの値が大きいほど、より少ない、よりユニー
クな記述子が生成されるが、長い系列ほどノイズによっ
て分断されやすい。本発明の範囲から逸脱しない限り、
記述子の重み付け及び記述子の選択のために他の方法を
用いてもよい。
【0045】《3.実験結果》979の文書画像からな
るデータベースについて実験を行った。979の画像
中、292(146組)の画像は一致する相手がある。
これら292の画像中の各画像が、それと一致する画像
を残りの978の画像から検索するための照会画像とし
て用いられる。粗マッチング手順と詳細マッチング手順
の個別実験と組み合わせ実験が行われた。それぞれの実
験の結果を以下に示す。
【0046】《3.1 粗マッチングの実験結果》粗マ
ッチング・アルゴリズムの一具体化例では、特定の垂直
画像解像度で得られた原ビット分布が、平均化によって
36dpiにダウンサンプルされる。これは、検出可能
な最小行間隔が4ポイントであることを意味する。この
ような解像度であれば、ビット分布は十分滑らかである
が、それでも、その詳しさは索引の計算及び分布の修正
に必要十分である。スペクトル解析中に、8ポイントか
ら36ポイントまでの周波数範囲に限定して支配的な行
間隔が調べられる。分布値は、300dpi(水平)の
1インチあたりビット数に正規化されてから8ビットに
量子化される。この8ビットという深さは、様々なフォ
ント種類において300dpiで圧縮するために8ポイ
ント文字が必要とするのは200ビット/インチ未満で
あるのが普通であるという知見に基づき実験的に見出さ
れた。平均255ビット/インチを越える走査線は、通
常、ハーフトーンを含んでいる。他の画像解像度で得ら
れた分布は(36dpiで垂直方向に再サンプリングさ
れた後)、まず比例変倍され、次に量子化される。グル
ープ3/グループ4符号化ファイルやTIFF形式のス
トリップ・サイズに対する特別な調整は行われない。し
たがって、典型的な8.5×11インチのサイズの1ペ
ージにつき、396バイト(11インチ×36dpi×
8ビット)のデータが生成される。
【0047】上位N個の選択結果についての検索率(re
call rate)を図11にまとめて示す。ビット分布の相
互相関によって、最上位の選択結果で86%の正解が得
られ、また上位3つの選択結果で91%の正解が得られ
た。大局的統計量を索引付けに利用すると、相互相関計
算のための平均候補数は、検索率を悪化させることな
く、90%減少する。データベース内文書のビット分布
の離散フーリエ変換が予め計算され格納されているの
で、相互相関をベクトル積で計算できる。したがって、
各画像照会には、ビット分布の抽出、大局的統計量によ
るフィルタ処理、その後の約100回の396次元ベク
トル積演算が必要である。
【0048】正しく一致がとれた文書と間違って一致が
とれた文書の例を図12及び図13にそれぞれ示されて
いる。正しく一致がとれたケースを見れば、前述した変
形に対処できる情報頑健性があることは明白である。殆
どの誤りは、画像にスキューがあるか画像にハーフトー
ン部分が含まれているために起こった。ハーフトーン部
分の品質は、索引付けには影響を及ぼさないけれども、
分布相関に大きな影響を及ぼす。また、多段組のペー
ジ、特に、ある段がハーフトーンで別の段がテキストで
ある多段組ページによって問題が起こることがある。非
共線的な段があると、エイリアシングが生じて行間隔推
定が不正確になることがある。2組の画像は倍率が異な
っている。
【0049】行間隔指標及びテキスト・エネルギー指標
のほうが、テキストの位置指標及び大きさ指標より、探
索空間を絞り込むのにずっと有効であることが分かっ
た。このことは、フーリエ変換の空間局在性の悪さから
予想されるものである。しかし、密に配されたポイント
・サイズ9から12までの行間を識別するためには、周
波数分離が良好であることが重要である。テキスト位置
検出の改善のため、ウェーブレット変換を用いてもよ
い。
【0050】《3.2 詳細マッチングの実験結果》詳
細マッチングの実験においては、既知の正しい情報(gr
ound truthinformation)を利用して、画像中の最初の
テキスト部分の1.5×1インチの領域から端点が抽出
された。そして、アセンダ領域及びデセンダ領域の端点
を検出するためテキスト行位置検出アルゴリズムが適用
された。これら領域のいくつかには画像の非テキスト部
が含まれていたが、この行位置検出手法によってテキス
ト行に属さない特徴点を全て除去できた。アセンダ領域
とデセンダ領域の境界が定まってから、各領域毎に端点
マーカー間距離の系列が生成された。連続したN個の距
離をそれぞれ索引として選び、データベース照会のため
の複数の記述子が作成された。前述の重み付け方法を用
いて、最も高いスコアを与えられた画像が選択された。
【0051】292の画像の1つ1つを用いて979の
画像全体に対して照会した。これらの画像自体は、すべ
てのケースで検索された。この292のケースのうち2
90のケースでは、その画像だけが第1位の選択結果と
して検索された。2つのケースでは、別の画像が1つ同
じスコアで検索された。重複検出の場合、あるケースが
正しいとみなされるのは、一方のスコアが残りの画像中
で最高であって同じスコアがないときである。異なるN
値の場合の結果が図14にまとめて示されている。
【0052】3つの距離からなる系列、4つの距離から
なる系列、及び、5つの距離からなる系列を用いること
により、92.5%の重複が正しく検出される。この性
能は、もっと計算量の多い手法によって達成される結果
に匹敵する。しかも、この索引付け方法は、距離ベース
の方法に比べ拡張性が非常に優れている。誤りの大部分
は特徴点のノイズによるものである。
【0053】射影ベースのテキスト行位置検出手法は、
ページの幅方向にテキスト行が共線的であることを前提
にしているため、その性能は整列していない多段組文書
では悪化する。この問題に対する解決策の1つは、垂直
射影を用いて段分割をすることである。もう1つの解決
策は、文書の縦方向断片内でテキスト行位置検出を行
い、信頼性の高い結果だけを利用することにより段境界
を避けることである。
【0054】テキスト行境界の外側に出現する擬似特徴
点によって、誤った記述子が生成されることがある。テ
キスト行の水平方向の大きさを検出するための方策をい
くつか講じてもよい。特徴点はスキューを補正済みであ
り、かつ、x−高さラインとベースラインは分かってい
るから、前記端点分布に基づいて行領域の端を見つける
ことができる。さらに、記述子生成のための領域は自動
的に決定できる。実験においては、既知の正しい情報
(ground truth information)が、文書画像中の対応テ
キスト領域を検出するために用いられた。このレジスト
レーション・プロセスは、自動領域選択方法で置き換え
てもよい。検出された各テキスト行毎に記述子を生成す
ると、データベースのサイズが増加して検索精度が悪化
するであろう。候補領域を特定するための可能な1つの
方法は、局所的な特徴点密度に基づいて選択する方法で
ある。本発明の範囲を逸脱しない限り、他の手法を用い
てもよい。
【0055】《3.3 組合せ実験結果》粗マッチング
段階と詳細マッチング段階を組合せた実験においては、
第1位選択結果の相関スコアが0.5より大きく、か
つ、第1位選択結果のスコアと第2位選択結果のスコア
との差が0.03より大きい場合に、粗マッチング段階
の結果が選ばれる。それ以外の場合には、上位20個の
選択結果が詳細マッチングに回される。その結果、70
%の画像が粗マッチングによって確定され、30%の画
像だけが詳細マッチングを必要とする。システム全体の
正解率は93.8%である。このように、分布相関によ
る粗マッチングは、実行効率を向上させるだけでなく、
それがないと詳細マッチング単独では間違いやすい候補
を排除することが分かる。判定ルールを修正すれば、結
果は違ったものになろう。殆どの場合、検出の信頼性を
向上させるために詳細マッチング段階を行うべきであ
る。
【0056】《4.データ処理システムの概要》図15
は、本発明の実施例に従った処理を実行するためのデー
タ処理システム150の一例を示すブロック図である。
このデータ処理システム150は、処理装置151、メ
モリ153、表示装置155、カーソル制御装置15
7、キーパッド158、通信装置159をそれぞれバス
構造161に接続してなる。データ処理システム150
は、デスクトップコンピュータであっても、ワークステ
ーションであっても、もっと大型のコンピュータであっ
てもよい。あるいはまた、データ処理システム150
は、圧縮文書画像を処理するのが望ましい、コピー装
置、ファクシミリ装置、その他任意の電子装置であって
もよい。カーソル制御装置157は、表示装置155に
表示されている要素を操作するための、マウス、トラッ
クボール、その他任意の装置でよい。キーパッド158
は、ユーザが英数字データを入力可能な、キーボードや
その他の任意の装置でよい。データ処理システム150
で遂行される機能に応じて、他の入出力装置163が設
けられてもよい。
【0057】処理装置151は、命令シーケンスを実行
可能な、1つ以上の汎用プロセッサ、1つ以上のデジタ
ル信号プロセッサ、その他任意の装置でよい。処理装置
151は、データ処理システム150の複数のコンピュ
ータ間に分散配置されてもよい。ネイティブマシン言語
又は仮想マシン言語を用いてプログラムすることによっ
て、処理ユニット151を前述した粗マッチング段階と
詳細マッチング段階の処理を実行するために利用でき
る。
【0058】通信装置159は、データ処理システム1
50を電子装置のネットワーク(例えばインターネット
のようなコンピュータネットワーク)に接続するための
モデム、ネットワークカード、その他任意の装置でよ
い。通信装置159は、有線又は無線媒体を介して伝送
される信号の送信又は受信のために利用できる。この伝
送信号は、例えば、ワールドワイドウェブ(又は他の任
意のコンピュータネットワーク)のサイトと交信して、
文書画像や、本発明の実施例を遂行するための処理装置
151によって実行可能な更新プログラムコード又は機
能拡張用プログラムコードを受信するために用いること
ができる。
【0059】一実施例によれば、メモリ153はシステ
ムメモリ166、不揮発性大容量記憶装置167及びリ
ムーバブル記憶媒体168からなる。リムーバブル記憶
媒体168は、例えば、コンパクトディスク読み出し専
用メモリ(CDROM)、フロッピーディスク、その他
のリムーバブル記憶装置である。前述の粗マッチング段
階と詳細マッチング段階の処理を行うための命令シーケ
ンスなどのプログラムコードを、データ処理システム1
50によって読み取り可能なリムーバブル記憶媒体16
8に格納しておき、それを用いて以上に説明した実施例
に従ってデータ処理システム150を動作させることが
できる。不揮発性大容量記憶装置167は、磁気テー
プ、磁気ディスク、光ディスク、電気的消去可能書き込
み可能読み出し専用メモリ(EEPROM)、その他任
意のコンピュータ読み取り可能媒体などの不揮発性記憶
媒体に情報を格納するための装置でよい。以上に述べた
実施例に従ってデータ処理システム150を動作させる
ためのデータとプログラムコードは、インストールプロ
グラムの制御によって、リムーバブル記憶媒体168か
ら不揮発性大容量記憶装置167へ転送してもよい。文
書データベースも不揮発性大容量記憶装置167に保存
してもよい。
【0060】一実施例によれば、データ処理システム1
50の電源が投入されると、処理装置151又はダイレ
クト・メモリアクセス・コントローラ(不図示)のよう
な他の装置によって、オペレーティングシステムのプロ
グラムコードが不揮発性大容量記憶装置167からシス
テムメモリ166にロードされる。そうすると、オペレ
ーティングシステムに含まれる命令シーケンスを処理装
置151が実行して、前述の粗マッチング段階と詳細マ
ッチング段階を遂行するためのプログラムコードなどの
命令シーケンスを不揮発性大容量記憶装置167からシ
ステムメモリ166にロードする。かくして、コンピュ
ータ読み取り可能媒体から命令シーケンスを取得し、そ
れを処理装置151で実行することにより、本発明の実
施例を実施できる。
【0061】本発明の実施例を実施するためのデータ処
理システムについて説明したが、個々の処理操作を、そ
れを実行するための布線ロジックを含む専用ハードウェ
ア要素、又は、プログラムされた処理要素と布線ロジッ
クの組合せによって遂行してもよい。以上に述べたこと
を、前述の操作がハードウェア要素の特定の組合せによ
って行われる実施例にのみ本発明を限定するものと理解
すべきではない。
【0062】以上、本発明を特定の実施例に関して説明
した。しかし、特許請求の範囲に記載された本発明の範
囲から逸脱しない限り、前記特定の実施例を様々に修正
変更してよいことは明らかであろう。よって、本明細書
及び図面は、説明のためのものと理解すべきであって、
限定的にとらえるべきでない。
【0063】以上の詳細な説明の内容を整理すれば、以
下に列挙するとおりである。
【0064】(1)照会文書がデータベース内の1つ以
上の文書と一致するか判定する方法であって、前記照会
文書中の複数の画素行のそれぞれを符号化するために必
要なビット数に基づいて前記照会文書のビット分布を生
成するステップ、及び前記照会文書のビット分布を前記
データベース内の第1の複数文書に関するビット分布と
比較して、前記照会文書が前記第1の複数文書中の1つ
以上の文書と一致するか判定するステップからなる方
法。
【0065】(2)前記照会文書のビット分布に対しス
ペクトル解析を行って前記照会文書の大局的統計量を求
めるステップ、及び前記照会文書の大局的統計量を前記
データベース内の第2の複数文書に関する大局的統計量
と比較して前記第1の複数文書を識別するステップ、を
さらに含む(1)の方法。
【0066】(3)前記ビット分布に対しスペクトル解
析を行って大局的統計量を求める前記ステップは、前記
照会文書中の支配的な行間隔を推定するステップを含む
(2)の方法。
【0067】(4)前記ビット分布に対しスペクトル解
析を行って大局的統計量を求める前記ステップは、前記
照会文書のテキスト量に関する推定値を生成するステッ
プを含む(2)の方法。
【0068】(5)前記ビット分布に対しスペクトル解
析を行って大局的特徴を求める前記ステップは、前記照
会文書中のテキスト位置に関する推定値を生成するステ
ップを含む(2)の方法。
【0069】(6)前記ビット分布に対しスペクトル解
析を行って大局的統計量を求める前記ステップは、前記
照会文書におけるテキスト密度の推定値を生成するステ
ップを含み、前記テキスト密度の推定値は前記照会文書
のテキスト量の長さの目安を示す(2)の方法。
【0070】(7)前記第1の複数文書に関する前記ビ
ット分布を予め計算して前記データベースに格納するス
テップをさらに含む(1)の方法。
【0071】(8)前記照会文書のビット分布を前記第
1の複数文書に関するビット分布と比較する前記ステッ
プは、前記照会文書のビット分布と前記データベースの
前記第1の複数文書に関するビット分布との相互相関を
とるステップを含む(1)の方法。
【0072】(9)前記照会文書のビット分布と前記デ
ータベースの前記第1の複数文書に関するビット分布と
の相互相関をとる前記ステップは、前記照会文書のビッ
ト分布と前記データベースの前記第1の複数文書に関す
るビット分布の各々のベクトル積を生成するステップを
含む(8)の方法。
【0073】(10)前記照会文書は、前記各々のベク
トル積が閾値を超えた前記第1の複数文書中の1つ以上
の文書と一致すると判定される(9)の方法。
【0074】(11)照会文書がデータベース内の1つ
以上の文書と一致するか判定する方法であって、前記照
会文書中の特徴の最上部を表す上端点と、前記照会文書
中の特徴の最下部を表す下端点を検出するステップ、前
記上端点及び下端点の位置に基づいて前記照会画像に関
する記述子の集合を生成するステップ、及び前記照会文
書に関する前記記述子の集合を前記データベース内の1
つ以上の文書に関する各々の記述子の集合と比較するこ
とにより、前記照会文書が前記1つ以上の文書の少なく
とも1つと一致するか判定するステップからなる方法。
【0075】(12)前記上端点及び下端点の位置に基
づいて前記照会画像に関する記述子の集合を生成する前
記ステップは、前記照会文書の走査線に沿った前記上端
点及び前記下端点の集団に基づいて前記照会文書中のテ
キスト行を検出するステップ、及び前記照会文書中の前
記テキスト行内の選択された上端点間の距離及び選択さ
れた下端点間の距離に基づいて前記記述子の集合を生成
するステップを含む(11)の方法。
【0076】(13)前記照会文書の走査線に沿った前
記上端点及び前記下端点の集団に基づいて前記照会文書
中のテキスト行を検出する前記ステップは、前記各走査
線上の上端点及び下端点の数を求めるステップ、及び極
大数の上端点と極大数の下端点を有する各走査線ペアを
テキスト行として検出するステップを含む(12)の方
法。
【0077】(14)前記照会文書は各画素ランが複数
の符号化モード中の1つの符号モードによって符号化さ
れる方法で圧縮されており、前記上端点及び前記下端点
の検出は前記符号化モードに影響を受けない(11)の
方法。
【0078】(15)照会文書がデータベース内の1つ
以上の文書と一致するか判定する方法であって、前記照
会文書中の複数の画素行のそれぞれを符号化するために
必要なビット数に基づいて前記照会文書のビット分布を
生成するステップ、前記照会文書のビット分布を前記デ
ータベース内の第1の複数文書に関するビット分布と比
較することにより1つ以上の候補文書を選ぶ出すステッ
プ、前記照会文書中の端点特徴を検出するステップ、前
記端点特徴の位置に基づいて前記照会画像に関する記述
子の集合を生成するステップ、及び前記照会文書に関す
る前記記述子集合を前記1つ以上の候補文書に関する各
々の記述子集合と比較することにより、前記照会文書が
前記1つ以上の候補文書の少なくとも1つと一致するか
判定するステップからなる方法。
【0079】(16)前記照会文書の前記ビット分布に
対するスペクトル解析を行って前記照会文書の大局的統
計量を求めるステップ、及び前記照会文書の前記大局的
統計量を、前記データベース内の第2の複数文書に関す
る大局的統計量と比較することにより、前記第2の複数
文書の部分集合である前記第1の複数文書を選び出すス
テップをさらに含む(15)の方法。
【0080】(17)前記ビット分布に対するスペクト
ル解析を行う前記ステップは、前記照会文書中の支配的
な行間隔、前記照会文書のテキスト量、前記照会文書の
テキスト位置及びテキスト密度の中の少なくとも1つに
関する推定値を生成するステップを含む(16)の方
法。
【0081】(18)前記照会文書のビット分布を前記
第1の複数文書に関するビット分布と比較する前記ステ
ップは、前記照会文書のビット分布と前記データベース
内の前記第1の複数文書に関するビット分布との相互相
関をとるステップを含む(15)の方法。
【0082】(19)文書を識別するための記述子の集
合を生成する方法であって、前記文書中の特徴の最上部
を表す上端点と、前記照会文書中の特徴の最下部を表す
下端点を検出するステップ、前記文書の走査線に沿った
上端点及び下端点の集団に基づいて前記文書中のテキス
ト行を検出するステップ、及び前記上端点及び下端点の
集団内の選択された上端点間の距離及び選択された下端
点間の距離に基づいて記述子の集合を生成するステップ
を含む方法。
【0083】(20)前記文書の走査線に沿った上端点
及び下端点の集団に基づいて前記文書中のテキスト行を
検出する前記ステップは、前記各走査線上の上端点及び
下端点の数を求めるステップ、及び極大数の上端点と極
大数の下端点を有する各走査線ペアをテキスト行として
検出するステップを含む(19)の方法。
【0084】(21)前記文書の走査線に沿った上端点
及び下端点の集団に基づいて前記文書中のテキスト行を
検出する前記ステップは、前記文書中の支配的な行間隔
を求めるステップ、前記各走査線上の上端点数及び下端
点数を求めるステップ、及びペアをなす2つの走査線が
前記支配的な行間隔未満の距離だけ離れており、かつ、
それぞれ極大数の上端点及び極大数の下端点を有する各
走査線ペアをテキスト行として検出するステップを含む
(16)の方法。
【0085】(22)前記支配的な行間隔は前記文書中
の前記端点の位置に関するスペクトル解析に基づいて決
定される(21)の方法。
【0086】(23)前記各操作線毎に、前記走査線上
で検出された上端点の数及び前記走査線上で検出された
下端点の数を含む、それぞれの端点分布を生成するステ
ップをさらに含み、前記文書の走査線に沿った上端点及
び下端点の集団に基づいてテキスト行を検出する前記ス
テップは、各端点分布内の前記上端点数及び前記下端点
数の極大値以外は全て削除するステップを含む(19)
の方法。
【0087】(24)前記文書の走査線に沿った上端点
及び下端点の集団に基づいてテキスト行を検出する前記
ステップは、前記各走査線に関する上端点数及び下端点
数を生成するステップ、局在した走査線群中で最高の上
端点数を有する第1の走査線を検出するステップ、前記
局在した走査線群中の前記第1の走査線以外の各走査線
に関する上端点数を削除するステップ、局在する走査線
群中で最高の下端点数を有する第2の走査線を検出する
ステップ、及び前記局在する走査線群中の前記第2の走
査線以外の各走査線に関する下端点数を削除するステッ
プを含む(19)の方法。
【0088】(25)前記局在した走査線群中で最高の
上端点数を持つ前記第1の走査線を検出する前記ステッ
プは、前記文書の支配的行間隔を求めるステップ、及び
前記局在した走査線群を、前記支配的行間隔より大きく
かつ前記支配的行間隔の2倍未満の範囲内にある走査線
群と定めるステップを含む(24)の方法。
【0089】(26)選択された上端点間の距離及び選
択された下端点間の距離に基づいて記述子の集合を生成
する前記ステップは、前記各テキスト行毎にアセンダ領
域及びデセンダ領域を定めるステップを含み、前記選択
された上端点は前記アセンダ領域内の上端点であり、前
記選択された下端点は前記デセンダ領域内の下端点であ
る(19)の方法。
【0090】(27)前記各テキスト行毎にアセンダ領
域及びデセンダ領域を定める前記ステップは、前記テキ
スト行中の第1のテキスト行のx−高さラインより上の
領域を前記第1のテキスト行の前記アセンダ領域と定め
るステップ、及び前記第1のテキスト行のベースライン
より下の領域を前記第1のテキスト行の前記デセンダ領
域と定めるステップを含む(26)の方法。
【0091】(28)前記第1のテキスト行の前記アセ
ンダ領域は、前のテキスト行の前記アセンダ領域と部分
的に境界を接している(27)の方法。
【0092】(29)選択された上端点各の距離及び選
択された下端点間の距離に基づいて記述子の集合を生成
する前記ステップは、前記テキスト行中の第1のテキス
ト行に関し、基準点と、前記選択された上端点及び前記
選択された下端点の中の各端点との間の距離をそれぞれ
示す、複数の距離測定値を含む第1の記述子を生成する
ステップを含む(19)の方法。
【0093】(30)前記基準点は前記選択された上端
点及び前記選択された下端点の中の1つの端点である
(29)の方法。
【0094】(31)前記基準点と前記各端点との間の
距離を示す各距離測定値は、前記選択された上端点及び
前記選択された下端点の中のもう1つの端点との相対距
離である(29)の方法。
【0095】(32)前記文書は各画素ランが複数の符
号化モード中の1つの符号モードによって符号化される
方法で圧縮されており、前記上端点及び前記下端点の検
出は前記符号化モードに影響を受けない(19)の方
法。
【0096】(33)前記文書は<グループ4圧縮方法
により圧縮されている(19)の方法。
【0097】(34)文書の識別に利用可能な情報を生
成する方法であって、前記文書中の複数の画素行のそれ
ぞれを符号化するために必要なビット数に基づいてビッ
ト分布を生成するステップ、及び前記ビット分布に対す
るスペクトル解析を行って前記文書の大局的統計量を求
めるステップかなる方法。
【0098】(35)前記ビット分布に対するスペクト
ル解析を行って大局的統計量を求める前記ステップは、
前記文書中の支配的な行間隔の推定値を生成するステッ
プを含む(34)の方法。
【0099】(36)支配的な行間隔の推定値を生成す
る前記ステップは、前記ビット分布からパワースペクト
ル密度を生成するステップと、前記パワースペクトル密
度のピーク値から前記支配的行間隔の推定値を計算する
ステップを含む(35)の方法。
【0100】(37)前記ビット分布に対するスペクト
ル解析を行って大局的統計量を求める前記ステップは、
前記文書のテキスト量に関する推定値を生成するステッ
プを含む(34)の方法。
【0101】(38)前記文書のテキスト量に関する推
定値を生成する前記ステップは、前記ビット分布からパ
ワースペクトル密度を生成するステップと、前記パワー
スペクトル密度のピークでのエネルギーに基づいて前記
文書のテキスト量に関する推定値を計算するステップを
含む(37)の方法。
【0102】(39)前記ビット分布に対するスペクト
ル解析を行う前記ステップは、前記文書中のテキスト位
置に関する推定値を生成するステップを含む(34)の
方法。
【0103】(40)前記文書のテキスト位置に関する
推定値を生成する前記ステップは、前記ビット分布に帯
域フィルタを適用することによりテキストエネルギー分
布を生成するステップ、及び前記テキストエネルギー分
布の重心を前記文書中のテキスト位置に関する推定値と
して求めるステップを含む(39)の方法。
【0104】(41)前記ビット分布に帯域フィルタを
適用する前記ステップは、前記文書の支配的行間隔周波
数を求めるステップ、及び前記支配的行間周波数に基づ
いて前記帯域フィルタの中心周波数を選ぶステップを含
む(40)の方法。
【0105】(42)前記ビット分布に対するスペクト
ル解析を行って大局的統計量を求める前記ステップは、
前記文書におけるテキスト密度の推定値を生成するステ
ップを含み、前記テキスト密度の推定値は前記文書のテ
キスト量の長さの目安を示す(34)の方法。
【0106】(43)前記文書のテキスト密度の推定値
を生成する前記ステップは、前記ビット分布に帯域フィ
ルタを適用することによりテキストエネルギー分布を生
成するステップ、及び、前記テキストエネルギー分布の
長さに基づいて前記テキスト密度の推定値を求めるステ
ップを含む(42)の方法。
【0107】(44)照会文書がデータベース内の1つ
以上の文書と一致するか判定するために、前記照会文書
中の複数の画素行のそれぞれを符号化するために必要な
ビット数に基づいて前記照会文書のビット分布を生成す
るステップ、及び前記照会文書のビット分布を前記デー
タベース内の第1の複数文書に関するビット分布と比較
することにより、前記照会文書が前記第1の複数文書中
の1つ以上の文書と一致するか判定するステップを含む
処理をコンピュータに実行させるためのプログラムが記
録されたコンピュータ読み取り可能記憶媒体。
【0108】(45)照会文書がデータベース内の1つ
以上の文書と一致するか判定するために、前記照会文書
中の特徴の最上部を表す上端点と、前記照会文書中の特
徴の最下部を表す下端点を検出するステップ、前記上端
点及び下端点の位置に基づいて前記照会画像に関する記
述子の集合を生成するステップ、かつ前記照会文書に関
する前記記述子の集合を前記データベース内の1つ以上
の文書に関する各々の記述子の集合と比較させることに
より、前記照会文書が前記1つ以上の文書の少なくとも
1つと一致するか判定するステップを含む処理をコンピ
ュータに実行させるためのプログラムが記録されたコン
ピュータ読み取り可能記憶媒体。
【0109】(46)照会文書がデータベース内の1つ
以上の文書と一致するか判定するために、前記照会文書
中の複数の画素行のそれぞれを符号化するために必要な
ビット数に基づいて前記照会文書のビット分布を生成す
るステップ、前記照会文書のビット分布を前記データベ
ース内の第1の複数文書に関するビット分布と比較する
ことにより、1つ以上の候補文書を選出するステップ、
前記照会文書中の端点特徴を検出するステップ、前記端
点特徴の位置に基づいて、前記照会画像に関する記述子
の集合を生成するステップ、及び前記照会文書に関する
前記記述子集合を前記1つ以上の候補文書に関する各々
の記述子集合と比較することにより、前記照会文書が前
記1つ以上の候補文書の少なくとも1つと一致するか判
定するステップを含む処理をコンピュータに実行させる
ためのプログラムが記録されたコンピュータ読み取り可
能記憶媒体。
【0110】(47)文書画像のデータベース、及び処
理装置とメモリを含むコンピュータを具備し、前記メモ
リには、照会文書が前記データベース内の1つ以上の文
書と一致するか判定するためのプログラムが格納されて
おり、前記プログラムが前記処理装置によって実行され
ることにより、前記コンピュータにおいて、前記照会文
書中の複数の画素行のそれぞれを符号化するために必要
なビット数に基づいて前記照会文書のビット分布を生成
する処理、及び前記照会文書のビット分布を前記データ
ベース内の第1の複数文書に関するビット分布と比較す
ることにより、前記照会文書が前記第1の複数文書中の
1つ以上の文書と一致するか判定する処理を実行するデ
ータ処理システム。
【0111】(48)文書画像のデータベース、及び処
理装置とメモリを含むコンピュータを具備し、前記メモ
リには、照会文書が前記データベース内の1つ以上の文
書と一致するか判定するためのプログラムが格納されて
おり、前記プログラムが前記処理装置によって実行され
るとこにより、前記コンピュータにおいて、前記照会文
書中の特徴の最上部を表す上端点と、前記照会文書中の
特徴の最下部を表す下端点を検出する処理、前記上端点
及び下端点の位置に基づいて前記照会画像に関する記述
子の集合を生成する処理、及び前記照会文書に関する前
記記述子の集合を前記データベース内の1つ以上の文書
に関する各々の記述子の集合と比較することにより、前
記照会文書が前記1つ以上の文書の少なくとも1つと一
致するか判定する処理を実行するデータ処理システム。
【0112】(49)文書画像のデータベース、及び処
理装置とメモリを含むコンピュータを具備し、前記メモ
リには、照会文書が前記データベース内の1つ以上の文
書と一致するか判定するためのプログラムが格納されて
おり、前記プログラムが前記処理装置によって実行され
ることにより、前記コンピュータにおいて、前記照会文
書中の複数の画素行のそれぞれを符号化するために必要
なビット数に基づいて前記照会文書のビット分布を生成
する処理、前記照会文書のビット分布を前記データベー
ス内の第1の複数文書に関するビット分布と比較するこ
とにより1つ以上の候補文書を選出する処理、前記照会
文書中の端点特徴を検出する処理、前記端点特徴の位置
に基づいて、前記照会画像に関する記述子の集合を生成
する処理、及び前記照会文書に関する前記記述子集合を
前記1つ以上の候補文書に関する各々の記述子集合と比
較することにより、前記照会文書が前記1つ以上の候補
文書の少なくとも1つと一致するか判定する処理を実行
するデータ処理システム。
【0113】
【発明の効果】以上に詳細に説明したように、本発明に
よれば、テキスト・ベースでもなく、またテキスト行ベ
ースでもない、文書画像の特徴を利用した高精度な文書
マッチングが可能になる。少ない計算量で高精度な文書
マッチングが可能になる。文書画像が圧縮している場合
においても、文書画像の伸長、再圧縮を必要とせずに高
精度な文書マッチングが可能になる。文書画像のノイズ
や変形に頑健な高精度な文書マッチングが可能になる。
高精度な文書マッチングのための特徴量を、圧縮された
文書画像から少ない計算量で生成することが可能なる。
文書画像のノイズや変形に対して頑健で安定な、文書マ
ッチングのための特徴量を少ない計算量で生成すること
が可能になる。以上のような文書マッチングをコンピュ
ータを利用して容易に、計算量が少ない高精度な文書マ
ッチングを実施可能になる、等々の効果を得られる。
【図面の簡単な説明】
【図1】本発明による2段階文書マッチングの概要説明
図である。
【図2】一実施例による粗マッチング段階の説明図であ
る。
【図3】照会文書と、それに対応したビット分布、バン
ドパスフィルタ処理後の分布、位相群遅延密度グラフ及
びパワースペクトル密度を示す図である。
【図4】一致すべき2文書画像間によく見られる変形
と、それら文書画像に対応したパワースペクトル密度を
示す図である。
【図5】(A)CCITTグループ4符号化でパスモー
ド符号化に用いられる参照点の例を示す図である。 (B)CCITTグループ4符号化で水平モード符号化
に用いられる参照点の例を示す図である。
【図6】パスコードと端点の差異の説明図である。
【図7】(A)下端点抽出の説明図である。 (B)上端点抽出の説明図である。
【図8】スキュー修正後の端点集合と、対応した水平射
影、水平射影の極大値及び一致する極大値を示す図であ
る。
【図9】1対のテキスト行領域内に位置する端点集合の
例を示す図である。
【図10】連続した端点マーカー間距離の量子化の説明
図である。
【図11】異なるN値に対する粗マッチング検索率をま
とめて示す図である。
【図12】正しく一致がとれた画像の例を示す図であ
る。
【図13】間違って一致がとれた画像の例を示す図であ
る。
【図14】異なる1記述子あたり連続距離数によるデー
タベースの詳細マッチング結果をまとめて示す図であ
る。
【図15】本発明によるデータ処理システムの一例を示
すブロック図である。
【符号の説明】
12 照会文書 14 画像データベース 15 粗マッチング段階 20 詳細マッチング段階 25 ビット分布 27 大局的統計量 29 ビット分布 40 文書画像 87 パスコード・ダイアグラム 94 端点ダイヤグラム 95 上端点 96 下端点 97 x−高さライン 98 ベースライン 127,129 テキスト行領域 131 端点マップ 135A,135B アセンダ領域 137A,137B デセンダ領域 149A,149B 基準点 150 データ処理システム 151 処理装置 153 メモリ 155 表示装置 157 カーソル制御装置 158 キーパッド 159 通信装置 161 バス構造 166 システムメモリ 167 不揮発性大容量記憶装置 168 リムーバブル記憶媒体
フロントページの続き (72)発明者 ジョナサン ジェー ハル アメリカ合衆国 カリフォルニア州 94025 メンローパーク スィート 115 サンド ヒル ロード 2882 リコーコー ポレーション内

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 照会文書がデータベース内の1つ以上の
    文書と一致するか判定する方法であって、 前記照会文書中の複数の画素行のそれぞれを符号化する
    ために必要なビット数に基づいて前記照会文書のビット
    分布を生成するステップ、及び前記照会文書のビット分
    布を前記データベース内の第1の複数文書に関するビッ
    ト分布と比較して、前記照会文書が前記第1の複数文書
    中の1つ以上の文書と一致するか判定するステップから
    なる文書マッチング方法。
  2. 【請求項2】 前記照会文書のビット分布に対しスペク
    トル解析を行って前記照会文書の大局的統計量を求める
    ステップ、及び前記照会文書の大局的統計量を前記デー
    タベース内の第2の複数文書に関する大局的統計量と比
    較して前記第1の複数文書を識別するステップをさらに
    含むことを特徴とする請求項1記載の文書マッチング方
    法。
  3. 【請求項3】 前記ビット分布に対しスペクトル解析を
    行って大局的統計量を求める前記ステップは、前記照会
    文書中の支配的な行間隔を推定するステップを含むこと
    を特徴とする請求項2記載の文書マッチング方法。
  4. 【請求項4】 前記ビット分布に対しスペクトル解析を
    行って大局的統計量を求める前記ステップは、前記照会
    文書のテキスト量に関する推定値を生成するステップを
    含むことを特徴とする請求項2記載の文書マッチング方
    法。
  5. 【請求項5】 前記ビット分布に対しスペクトル解析を
    行って大局的特徴を求める前記ステップは、前記照会文
    書中のテキスト位置に関する推定値を生成するステップ
    を含むことを特徴とする請求項2記載の文書マッチング
    方法。
  6. 【請求項6】 前記ビット分布に対しスペクトル解析を
    行って大局的統計量を求める前記ステップは、前記照会
    文書におけるテキスト密度の推定値を生成するステップ
    を含み、前記テキスト密度の推定値は前記照会文書のテ
    キスト量の長さの目安を示すことを特徴とする請求項2
    記載の文書マッチング方法。
  7. 【請求項7】 前記第1の複数文書に関する前記ビット
    分布を予め計算して前記データベースに格納するステッ
    プをさらに含むことを特徴とする請求項1記載の文書マ
    ッチング方法。
  8. 【請求項8】 前記照会文書のビット分布を前記第1の
    複数文書に関するビット分布と比較する前記ステップ
    は、前記照会文書のビット分布と前記データベースの前
    記第1の複数文書に関するビット分布との相互相関をと
    るステップを含むことを特徴とする請求項1記載の文書
    マッチング方法。
  9. 【請求項9】 前記照会文書のビット分布と前記データ
    ベースの前記第1の複数文書に関するビット分布との相
    互相関をとる前記ステップは、前記照会文書のビット分
    布と前記データベースの前記第1の複数文書に関するビ
    ット分布の各々のベクトル積を生成するステップを含む
    ことを特徴とする請求項8記載の文書マッチング方法。
  10. 【請求項10】 前記照会文書は、前記各々のベクトル
    積が閾値を超えた前記第1の複数文書中の1つ以上の文
    書と一致すると判定されることを特徴とする請求項9記
    載の文書マッチング方法。
  11. 【請求項11】 照会文書がデータベース内の1つ以上
    の文書と一致するか判定する方法であって、 前記照会文書中の特徴の最上部を表す上端点と、前記照
    会文書中の特徴の最下部を表す下端点を検出するステッ
    プ、 前記上端点及び下端点の位置に基づいて前記照会画像に
    関する記述子の集合を生成するステップ、及び前記照会
    文書に関する前記記述子の集合を前記データベース内の
    1つ以上の文書に関する各々の記述子の集合と比較する
    ことにより、前記照会文書が前記1つ以上の文書の少な
    くとも1つと一致するか判定するステップからなる文書
    マッチング方法。
  12. 【請求項12】 前記上端点及び下端点の位置に基づい
    て前記照会画像に関する記述子の集合を生成する前記ス
    テップは、 前記照会文書の走査線に沿った前記上端点及び前記下端
    点の集団に基づいて前記照会文書中のテキスト行を検出
    するステップ、及び前記照会文書中の前記テキスト行内
    の選択された上端点間の距離及び選択された下端点間の
    距離に基づいて前記記述子の集合を生成するステップを
    含むことを特徴とする請求項11記載の文書マッチング
    方法。
  13. 【請求項13】 前記照会文書の走査線に沿った前記上
    端点及び前記下端点の集団に基づいて前記照会文書中の
    テキスト行を検出する前記ステップは、 前記各走査線上の上端点及び下端点の数を求めるステッ
    プ、及び極大数の上端点と極大数の下端点を有する各走
    査線ペアをテキスト行として検出するステップを含むこ
    とを特徴とする請求項12記載の文書マッチング方法。
  14. 【請求項14】 前記照会文書は各画素ランが複数の符
    号化モード中の1つの符号モードによって符号化される
    方法で圧縮されており、前記上端点及び前記下端点の検
    出は前記符号化モードに影響を受けないことを特徴とす
    る請求項11記載の文書マッチング方法。
  15. 【請求項15】 文書を識別するための記述子の集合を
    生成する方法であって、 前記文書中の特徴の最上部を表す上端点と、前記照会文
    書中の特徴の最下部を表す下端点を検出するステップ、 前記文書の走査線に沿った上端点及び下端点の集団に基
    づいて前記文書中のテキスト行を検出するステップ、及
    び前記上端点及び下端点の集団内の選択された上端点間
    の距離及び選択された下端点間の距離に基づいて記述子
    の集合を生成するステップからなる記述子生成方法。
  16. 【請求項16】 前記文書の走査線に沿った上端点及び
    下端点の集団に基づいて前記文書中のテキスト行を検出
    する前記ステップは、 前記各走査線上の上端点及び下端点の数を求めるステッ
    プ、及び極大数の上端点と極大数の下端点を有する各走
    査線ペアをテキスト行として検出するステップを含むこ
    とを特徴とする請求項15記載の記述子生成方法。
  17. 【請求項17】 前記文書の走査線に沿った上端点及び
    下端点の集団に基づいて前記文書中のテキスト行を検出
    する前記ステップは、 前記文書中の支配的な行間隔を求めるステップ、 前記各走査線上の上端点数及び下端点数を求めるステッ
    プ、及びペアをなす2つの走査線が前記支配的な行間隔
    未満の距離だけ離れており、かつ、それぞれ極大数の上
    端点及び極大数の下端点を有する各走査線ペアをテキス
    ト行として検出するステップを含むことを特徴とする請
    求項15記載の記述子生成方法。
  18. 【請求項18】 前記支配的な行間隔は前記文書中の前
    記端点の位置に関するスペクトル解析に基づいて決定さ
    れることを特徴とする請求項17記載の記述子生成方
    法。
  19. 【請求項19】 前記各操作線毎に、前記走査線上で検
    出された上端点の数及び前記走査線上で検出された下端
    点の数を含む、それぞれの端点分布を生成するステップ
    をさらに含み、前記文書の走査線に沿った上端点及び下
    端点の集団に基づいてテキスト行を検出する前記ステッ
    プは、各端点分布内の前記上端点数及び前記下端点数の
    極大値以外は全て削除するステップを含むことを特徴と
    する請求項15記載の記述子生成方法。
  20. 【請求項20】 前記文書の走査線に沿った上端点及び
    下端点の集団に基づいてテキスト行を検出する前記ステ
    ップは、 前記各走査線に関する上端点数及び下端点数を生成する
    ステップ、 局在した走査線群中で最高の上端点数を有する第1の走
    査線を検出するステップ、 前記局在した走査線群中の前記第1の走査線以外の各走
    査線に関する上端点数を削除するステップ、 局在する走査線群中で最高の下端点数を有する第2の走
    査線を検出するステップ、及び前記局在する走査線群中
    の前記第2の走査線以外の各走査線に関する下端点数を
    削除するステップを含むことを特徴とする請求項15記
    載の記述生成方法。
  21. 【請求項21】 前記局在した走査線群中で最高の上端
    点数を持つ前記第1の走査線を検出する前記ステップ
    は、 前記文書の支配的行間隔を求めるステップ、及び前記局
    在した走査線群を、前記支配的行間隔より大きくかつ前
    記支配的行間隔の2倍未満の範囲内にある走査線群と定
    めるステップを含むことを特徴とする請求項20記載の
    記述子生成方法。
  22. 【請求項22】 選択された上端点間の距離及び選択さ
    れた下端点間の距離に基づいて記述子の集合を生成する
    前記ステップは、前記各テキスト行毎にアセンダ領域及
    びデセンダ領域を定めるステップを含み、前記選択され
    た上端点は前記アセンダ領域内の上端点であり、前記選
    択された下端点は前記デセンダ領域内の下端点であるこ
    とを特徴とする請求項15記載の記述子生成方法。
  23. 【請求項23】 前記各テキスト行毎にアセンダ領域及
    びデセンダ領域を定める前記ステップは、 前記テキスト行中の第1のテキスト行のx−高さライン
    より上の領域を前記第1のテキスト行の前記アセンダ領
    域と定めるステップ、及び前記第1のテキスト行のベー
    スラインより下の領域を前記第1のテキスト行の前記デ
    センダ領域と定めるステップを含むことを特徴とする請
    求項22記載の記述子生成方法。
  24. 【請求項24】 前記第1のテキスト行の前記アセンダ
    領域は、前のテキスト行の前記アセンダ領域と部分的に
    境界を接していることを特徴とする請求項23記載の記
    述子生成方法。
  25. 【請求項25】 選択された上端点各の距離及び選択さ
    れた下端点間の距離に基づいて記述子の集合を生成する
    前記ステップは、前記テキスト行中の第1のテキスト行
    に関し、基準点と、前記選択された上端点及び前記選択
    された下端点の中の各端点との間の距離をそれぞれ示
    す、複数の距離測定値を含む第1の記述子を生成するス
    テップを含むことを特徴とする請求項15記載の記述子
    生成方法。
  26. 【請求項26】 前記基準点は前記選択された上端点及
    び前記選択された下端点の中の1つの端点であることを
    特徴とする請求項25記載の記述子生成方法。
  27. 【請求項27】 前記基準点と前記各端点との間の距離
    を示す各距離測定値は、前記選択された上端点及び前記
    選択された下端点の中のもう1つの端点との相対距離で
    あることを特徴とする請求項25記載の記述子生成方
    法。
  28. 【請求項28】 前記文書は各画素ランが複数の符号化
    モード中の1つの符号モードによって符号化される方法
    で圧縮されており、前記上端点及び前記下端点の検出は
    前記符号化モードに影響を受けないことを特徴とする請
    求項15記載の記述子生成方法。
  29. 【請求項29】 前記文書はグループ4圧縮方法により
    圧縮されていることを特徴とする請求項15記載の記述
    子生成方法。
  30. 【請求項30】 照会文書がデータベース内の1つ以上
    の文書と一致するか判定するために、 前記照会文書中の複数の画素行のそれぞれを符号化する
    ために必要なビット数に基づいて前記照会文書のビット
    分布を生成するステップ、及び前記照会文書のビット分
    布を前記データベース内の第1の複数文書に関するビッ
    ト分布と比較することにより、前記照会文書が前記第1
    の複数文書中の1つ以上の文書と一致するか判定するス
    テップを含む処理をコンピュータに実行させるためのプ
    ログラムが記録されたコンピュータ読み取り可能記憶媒
    体。
  31. 【請求項31】 照会文書がデータベース内の1つ以上
    の文書と一致するか判定するために、 前記照会文書中の複数の画素行のそれぞれを符号化する
    ために必要なビット数に基づいて前記照会文書のビット
    分布を生成するステップ、 前記照会文書のビット分布を前記データベース内の第1
    の複数文書に関するビット分布と比較することにより、
    1つ以上の候補文書を選出するステップ、 前記照会文書中の端点特徴を検出するステップ、 前記端点特徴の位置に基づいて、前記照会画像に関する
    記述子の集合を生成するステップ、及び前記照会文書に
    関する前記記述子集合を前記1つ以上の候補文書に関す
    る各々の記述子集合と比較することにより、前記照会文
    書が前記1つ以上の候補文書の少なくとも1つと一致す
    るか判定するステップを含む処理をコンピュータに実行
    させるためのプログラムが記録されたコンピュータ読み
    取り可能記憶媒体。
  32. 【請求項32】 文書画像のデータベース、及び処理装
    置とメモリを含むコンピュータを具備し、 前記メモリには、照会文書が前記データベース内の1つ
    以上の文書と一致するか判定するためのプログラムが格
    納されており、前記プログラムが前記処理装置によって
    実行されることにより、前記コンピュータにおいて、 前記照会文書中の複数の画素行のそれぞれを符号化する
    ために必要なビット数に基づいて前記照会文書のビット
    分布を生成する処理、 前記照会文書のビット分布を前記データベース内の第1
    の複数文書に関するビット分布と比較することにより1
    つ以上の候補文書を選出する処理、 前記照会文書中の端点特徴を検出する処理、 前記端点特徴の位置に基づいて、前記照会画像に関する
    記述子の集合を生成する処理、及び前記照会文書に関す
    る前記記述子集合を前記1つ以上の候補文書に関する各
    々の記述子集合と比較することにより、前記照会文書が
    前記1つ以上の候補文書の少なくとも1つと一致するか
    判定する処理を実行するデータ処理システム。
JP30793899A 1998-11-03 1999-10-29 データ処理方法及び装置 Expired - Fee Related JP4023706B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/186,041 US6363381B1 (en) 1998-11-03 1998-11-03 Compressed document matching
US09/186041 1998-11-03

Publications (2)

Publication Number Publication Date
JP2000285139A true JP2000285139A (ja) 2000-10-13
JP4023706B2 JP4023706B2 (ja) 2007-12-19

Family

ID=22683415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30793899A Expired - Fee Related JP4023706B2 (ja) 1998-11-03 1999-10-29 データ処理方法及び装置

Country Status (2)

Country Link
US (3) US6363381B1 (ja)
JP (1) JP4023706B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005251169A (ja) * 2004-01-15 2005-09-15 Microsoft Corp イメージに基づくドキュメントのインデックス作成および読み込み
JP2007164648A (ja) * 2005-12-16 2007-06-28 Ricoh Co Ltd 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体
JP2010097609A (ja) * 2008-10-15 2010-04-30 Xerox Corp ランレングスヒストグラムを用いて文書の表現を生成する方法及び装置
JP2011243200A (ja) * 2010-05-14 2011-12-01 Palo Alto Research Center Inc コンテンツをアンカリングしかつデータを抽出するための画像テンプレートの学習方法
JP7486574B2 (ja) 2019-09-16 2024-05-17 インターナショナル・ビジネス・マシーンズ・コーポレーション コンテキスト・フリーの再帰的な文書分解による拡張性のある構造学習

Families Citing this family (164)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794062A (en) * 1995-04-17 1998-08-11 Ricoh Company Ltd. System and method for dynamically reconfigurable computing using a processing unit having changeable internal hardware organization
US6035266A (en) * 1997-04-16 2000-03-07 A.L. Air Data, Inc. Lamp monitoring and control system and method
US6363381B1 (en) * 1998-11-03 2002-03-26 Ricoh Co., Ltd. Compressed document matching
US6563948B2 (en) * 1999-04-29 2003-05-13 Intel Corporation Using an electronic camera to build a file containing text
FR2794600B1 (fr) * 1999-06-01 2001-08-17 Thomson Multimedia Sa Systeme de tatouage de donnees utilisant de nouvelles methodes d'insertion et de detection de tatouage
US7058817B1 (en) 1999-07-02 2006-06-06 The Chase Manhattan Bank System and method for single sign on process for websites with multiple applications and services
US6584221B1 (en) * 1999-08-30 2003-06-24 Mitsubishi Electric Research Laboratories, Inc. Method for image retrieval with multiple regions of interest
US6671407B1 (en) 1999-10-19 2003-12-30 Microsoft Corporation System and method for hashing digital images
AU3438401A (en) 1999-11-04 2001-05-14 Jp Morgan Chase Bank System and method for automated financial project management
US8571975B1 (en) 1999-11-24 2013-10-29 Jpmorgan Chase Bank, N.A. System and method for sending money via E-mail over the internet
US6834308B1 (en) * 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
JP2001251507A (ja) * 2000-03-03 2001-09-14 Fujitsu Ltd 画像処理装置
US7426530B1 (en) 2000-06-12 2008-09-16 Jpmorgan Chase Bank, N.A. System and method for providing customers with seamless entry to a remote server
US10185936B2 (en) 2000-06-22 2019-01-22 Jpmorgan Chase Bank, N.A. Method and system for processing internet payments
WO2002012997A1 (en) * 2000-08-08 2002-02-14 Fineground Networks Method and system for parameterized web documents
FR2813743B1 (fr) * 2000-09-06 2003-01-03 Claude Seyrat Procede de compression/decompression de documents structures
US8335855B2 (en) 2001-09-19 2012-12-18 Jpmorgan Chase Bank, N.A. System and method for portal infrastructure tracking
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US7103556B2 (en) * 2000-11-02 2006-09-05 Jpmorgan Chase Bank, N.A. System and method for aggregate portfolio client support
US6978047B2 (en) * 2000-11-29 2005-12-20 Etreppid Technologies Llc Method and apparatus for storing digital video content provided from a plurality of cameras
US20020087603A1 (en) * 2001-01-02 2002-07-04 Bergman Eric D. Change tracking integrated with disconnected device document synchronization
WO2002060106A2 (en) * 2001-01-23 2002-08-01 Flash Networks Ltd. System and method for data re-compression for communication over ip
US6741749B2 (en) * 2001-01-24 2004-05-25 Advanced Digital Systems, Inc. System, device, computer program product, and method for representing a plurality of electronic ink data points
US7310687B2 (en) * 2001-03-23 2007-12-18 Cisco Technology, Inc. Methods and systems for managing class-based condensation
US7392287B2 (en) * 2001-03-27 2008-06-24 Hemisphere Ii Investment Lp Method and apparatus for sharing information using a handheld device
US7363278B2 (en) * 2001-04-05 2008-04-22 Audible Magic Corporation Copyright detection and protection system and method
US8849716B1 (en) 2001-04-20 2014-09-30 Jpmorgan Chase Bank, N.A. System and method for preventing identity theft or misuse by restricting access
US7272857B1 (en) * 2001-04-20 2007-09-18 Jpmorgan Chase Bank, N.A. Method/system for preventing identity theft or misuse by restricting access
US6996273B2 (en) * 2001-04-24 2006-02-07 Microsoft Corporation Robust recognizer of perceptually similar content
US7356188B2 (en) * 2001-04-24 2008-04-08 Microsoft Corporation Recognizer of text-based work
US7020775B2 (en) 2001-04-24 2006-03-28 Microsoft Corporation Derivation and quantization of robust non-local characteristics for blind watermarking
US6975743B2 (en) * 2001-04-24 2005-12-13 Microsoft Corporation Robust and stealthy video watermarking into regions of successive frames
US6973574B2 (en) * 2001-04-24 2005-12-06 Microsoft Corp. Recognizer of audio-content in digital signals
US7689506B2 (en) 2001-06-07 2010-03-30 Jpmorgan Chase Bank, N.A. System and method for rapid updating of credit information
US7266839B2 (en) 2001-07-12 2007-09-04 J P Morgan Chase Bank System and method for providing discriminated content to network users
US8972481B2 (en) * 2001-07-20 2015-03-03 Audible Magic, Inc. Playlist generation method and apparatus
US7146395B2 (en) * 2001-08-20 2006-12-05 Ricoh Company Ltd. Banyan switched processor datapath
US20030044012A1 (en) * 2001-08-31 2003-03-06 Sharp Laboratories Of America, Inc. System and method for using a profile to encrypt documents in a digital scanner
US7103576B2 (en) 2001-09-21 2006-09-05 First Usa Bank, Na System for providing cardless payment
US7321858B2 (en) * 2001-11-30 2008-01-22 United Negro College Fund, Inc. Selection of individuals from a pool of candidates in a competition system
US7987501B2 (en) 2001-12-04 2011-07-26 Jpmorgan Chase Bank, N.A. System and method for single session sign-on
JP4011906B2 (ja) * 2001-12-13 2007-11-21 富士通株式会社 プロファイル情報の情報検索方法、プログラム、記録媒体及び装置
US7095907B1 (en) * 2002-01-10 2006-08-22 Ricoh Co., Ltd. Content and display device dependent creation of smaller representation of images
US20060098880A1 (en) * 2002-02-22 2006-05-11 Montgomery Dennis L Method and apparatus for storing digital video content provided from a plurality of cameras
US20030163785A1 (en) * 2002-02-28 2003-08-28 Hui Chao Composing unique document layout for document differentiation
US20180165441A1 (en) 2002-03-25 2018-06-14 Glenn Cobourn Everhart Systems and methods for multifactor authentication
US7006703B2 (en) 2002-06-28 2006-02-28 Microsoft Corporation Content recognizer via probabilistic mirror distribution
US7095873B2 (en) 2002-06-28 2006-08-22 Microsoft Corporation Watermarking via quantization of statistics of overlapping regions
CN1675868B (zh) * 2002-08-02 2010-09-29 西门子公司 通过错误隐蔽检测分析接收到的有用信息的方法和设备
JP4265183B2 (ja) * 2002-09-13 2009-05-20 富士ゼロックス株式会社 画像欠陥検査装置
US7536433B2 (en) * 2002-09-25 2009-05-19 Jpmorgan Chase Bank, N.A. System and method for customizing a portal environment
US7058660B2 (en) 2002-10-02 2006-06-06 Bank One Corporation System and method for network-based project management
US8301493B2 (en) 2002-11-05 2012-10-30 Jpmorgan Chase Bank, N.A. System and method for providing incentives to consumers to share information
US6958103B2 (en) * 2002-12-23 2005-10-25 Kimberly-Clark Worldwide, Inc. Entangled fabrics containing staple fibers
US20040210575A1 (en) * 2003-04-18 2004-10-21 Bean Douglas M. Systems and methods for eliminating duplicate documents
US6990224B2 (en) * 2003-05-15 2006-01-24 Federal Reserve Bank Of Atlanta Method and system for communicating and matching electronic files for financial transactions
GB2404269A (en) * 2003-07-24 2005-01-26 Hewlett Packard Development Co Estimating symmetry in a document
US7610190B2 (en) * 2003-10-15 2009-10-27 Fuji Xerox Co., Ltd. Systems and methods for hybrid text summarization
US7493322B2 (en) 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US7912291B2 (en) * 2003-11-10 2011-03-22 Ricoh Co., Ltd Features for retrieval and similarity matching of documents from the JPEG 2000-compressed domain
US7831832B2 (en) * 2004-01-06 2010-11-09 Microsoft Corporation Digital goods representation based upon matrix invariances
US20050165690A1 (en) * 2004-01-23 2005-07-28 Microsoft Corporation Watermarking via quantization of rational statistics of regions
JP4532915B2 (ja) * 2004-01-29 2010-08-25 キヤノン株式会社 パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
US7770014B2 (en) * 2004-04-30 2010-08-03 Microsoft Corporation Randomized signal transforms and their applications
US7949666B2 (en) 2004-07-09 2011-05-24 Ricoh, Ltd. Synchronizing distributed work through document logs
US7729538B2 (en) * 2004-08-26 2010-06-01 Microsoft Corporation Spatial recognition and grouping of text and graphics
US7574048B2 (en) * 2004-09-03 2009-08-11 Microsoft Corporation Freeform digital ink annotation recognition
US9535624B1 (en) * 2004-09-13 2017-01-03 EMC IP Holding Company LLC Duplicate management
US9384619B2 (en) * 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US9373029B2 (en) * 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US8856108B2 (en) * 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US8184155B2 (en) * 2007-07-11 2012-05-22 Ricoh Co. Ltd. Recognition and tracking using invisible junctions
US7672543B2 (en) * 2005-08-23 2010-03-02 Ricoh Co., Ltd. Triggering applications based on a captured text in a mixed media environment
US8156427B2 (en) * 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US7885955B2 (en) * 2005-08-23 2011-02-08 Ricoh Co. Ltd. Shared document annotation
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
KR100636181B1 (ko) * 2004-10-01 2006-10-19 삼성전자주식회사 스캔 문서 삽입 방법 및 장치
US8600989B2 (en) * 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US7970171B2 (en) * 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US8949287B2 (en) * 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US7920759B2 (en) * 2005-08-23 2011-04-05 Ricoh Co. Ltd. Triggering applications for distributed action execution and use of mixed media recognition as a control input
US8335789B2 (en) * 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US7587412B2 (en) * 2005-08-23 2009-09-08 Ricoh Company, Ltd. Mixed media reality brokerage network and methods of use
US8086038B2 (en) * 2007-07-11 2011-12-27 Ricoh Co., Ltd. Invisible junction features for patch recognition
US9171202B2 (en) * 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US7669148B2 (en) * 2005-08-23 2010-02-23 Ricoh Co., Ltd. System and methods for portable device for mixed media system
US9405751B2 (en) * 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US8332401B2 (en) * 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US8195659B2 (en) * 2005-08-23 2012-06-05 Ricoh Co. Ltd. Integration and use of mixed media documents
US8369655B2 (en) * 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US7812986B2 (en) * 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8276088B2 (en) * 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US7991778B2 (en) * 2005-08-23 2011-08-02 Ricoh Co., Ltd. Triggering actions with captured input in a mixed media environment
US8510283B2 (en) * 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US7551780B2 (en) * 2005-08-23 2009-06-23 Ricoh Co., Ltd. System and method for using individualized mixed document
US8838591B2 (en) * 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US7639387B2 (en) * 2005-08-23 2009-12-29 Ricoh Co., Ltd. Authoring tools using a mixed media environment
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US10192279B1 (en) 2007-07-11 2019-01-29 Ricoh Co., Ltd. Indexed document modification sharing with mixed media reality
US7917554B2 (en) * 2005-08-23 2011-03-29 Ricoh Co. Ltd. Visibly-perceptible hot spots in documents
US8521737B2 (en) * 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8144921B2 (en) * 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
US8005831B2 (en) * 2005-08-23 2011-08-23 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment with geographic location information
US7570816B2 (en) * 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
JP4301193B2 (ja) * 2005-03-31 2009-07-22 ソニー株式会社 画像比較装置及び方法、画像検索装置及び方法、並びにプログラム及び記録媒体
US20060242568A1 (en) * 2005-04-26 2006-10-26 Xerox Corporation Document image signature identification systems and methods
US7356524B2 (en) * 2005-05-13 2008-04-08 Sap Ag Query runtime estimation using statistical query records
US7526129B2 (en) * 2005-06-23 2009-04-28 Microsoft Corporation Lifting ink annotations from paper
US7769772B2 (en) * 2005-08-23 2010-08-03 Ricoh Co., Ltd. Mixed media reality brokerage network with layout-independent recognition
US8583926B1 (en) 2005-09-19 2013-11-12 Jpmorgan Chase Bank, N.A. System and method for anti-phishing authentication
US20070076869A1 (en) * 2005-10-03 2007-04-05 Microsoft Corporation Digital goods representation based upon matrix invariants using non-negative matrix factorizations
US8793490B1 (en) 2006-07-14 2014-07-29 Jpmorgan Chase Bank, N.A. Systems and methods for multifactor authentication
US8073263B2 (en) 2006-07-31 2011-12-06 Ricoh Co., Ltd. Multi-classifier selection and monitoring for MMR-based image recognition
US9176984B2 (en) * 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9063952B2 (en) * 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US8489987B2 (en) * 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US9020966B2 (en) * 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US8201076B2 (en) * 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
JP4257925B2 (ja) * 2006-08-24 2009-04-30 シャープ株式会社 画像処理方法、画像処理装置、原稿読取装置、画像形成装置、コンピュータプログラム及び記録媒体
US8479004B2 (en) * 2006-08-31 2013-07-02 Ricoh Co., Ltd Paper-based document logging
US8006094B2 (en) * 2007-02-21 2011-08-23 Ricoh Co., Ltd. Trustworthy timestamps and certifiable clocks using logs linked by cryptographic hashes
US8996483B2 (en) * 2007-03-28 2015-03-31 Ricoh Co., Ltd. Method and apparatus for recording associations with logs
US20080243688A1 (en) * 2007-03-28 2008-10-02 Hart Peter E Method and Apparatus for Recording Transactions with a Portable Logging Device
US8473735B1 (en) 2007-05-17 2013-06-25 Jpmorgan Chase Systems and methods for managing digital certificates
US7693908B2 (en) * 2007-06-28 2010-04-06 Microsoft Corporation Determination of time dependency of search queries
US8006314B2 (en) 2007-07-27 2011-08-23 Audible Magic Corporation System for identifying content of digital data
JP2009110211A (ja) * 2007-10-29 2009-05-21 Sony Corp 情報符号化装置および方法、情報検索装置および方法、情報検索システムおよび方法、並びにプログラム
JP5058002B2 (ja) * 2008-01-21 2012-10-24 株式会社豊田中央研究所 物体検出装置
US8321682B1 (en) 2008-01-24 2012-11-27 Jpmorgan Chase Bank, N.A. System and method for generating and managing administrator passwords
US8240554B2 (en) * 2008-03-28 2012-08-14 Keycorp System and method of financial instrument processing with duplicate item detection
US8979744B2 (en) * 2008-09-08 2015-03-17 Covidien Lp Tunneling system
US8295651B2 (en) * 2008-09-23 2012-10-23 Microsoft Corporation Coherent phrase model for efficient image near-duplicate retrieval
US8185733B2 (en) * 2008-10-02 2012-05-22 Ricoh Co., Ltd. Method and apparatus for automatically publishing content based identifiers
RU2505856C2 (ru) * 2008-11-12 2014-01-27 Нокиа Корпорейшн Способ и устройство для представления и идентификации дескрипторов признаков с использованием сжатой гистограммы градиентов
US8214733B2 (en) * 2010-04-28 2012-07-03 Lexmark International, Inc. Automatic forms processing systems and methods
US8122339B2 (en) * 2009-04-28 2012-02-21 Lexmark International., inc. Automatic forms processing systems and methods
US8261180B2 (en) * 2009-04-28 2012-09-04 Lexmark International, Inc. Automatic forms processing systems and methods
US8385660B2 (en) * 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
US9608826B2 (en) 2009-06-29 2017-03-28 Jpmorgan Chase Bank, N.A. System and method for partner key management
US20110026816A1 (en) * 2009-07-29 2011-02-03 Vaughn Robert L Rapid image categorization
US8949260B2 (en) 2009-10-09 2015-02-03 Ricoh Co., Ltd. Method and apparatus for secure and oblivious document matching
JP2011223237A (ja) * 2010-04-08 2011-11-04 Sony Corp 画像比較装置及び方法、並びにプログラム
US8086548B2 (en) * 2010-05-05 2011-12-27 Palo Alto Research Center Incorporated Measuring document similarity by inferring evolution of documents through reuse of passage sequences
US20120128228A1 (en) * 2010-11-18 2012-05-24 D2S, Inc. Method for Matching of Patterns
GB2490490A (en) 2011-04-28 2012-11-07 Nds Ltd Encoding natural-language text and detecting plagiarism
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
US9081778B2 (en) 2012-09-25 2015-07-14 Audible Magic Corporation Using digital fingerprints to associate data with a work
US8995719B2 (en) * 2012-12-10 2015-03-31 Intel Corporation Techniques for improved image disparity estimation
US9710806B2 (en) 2013-02-27 2017-07-18 Fiserv, Inc. Systems and methods for electronic payment instrument repository
US9419957B1 (en) 2013-03-15 2016-08-16 Jpmorgan Chase Bank, N.A. Confidence-based authentication
US20140279303A1 (en) * 2013-03-15 2014-09-18 Fiserv, Inc. Image capture and processing for financial transactions
US10148726B1 (en) 2014-01-24 2018-12-04 Jpmorgan Chase Bank, N.A. Initiating operating system commands based on browser cookies
US10565498B1 (en) 2017-02-28 2020-02-18 Amazon Technologies, Inc. Deep neural network-based relationship analysis with multi-feature token model
US11625555B1 (en) 2020-03-12 2023-04-11 Amazon Technologies, Inc. Artificial intelligence system with unsupervised model training for entity-pair relationship analysis
US11514321B1 (en) 2020-06-12 2022-11-29 Amazon Technologies, Inc. Artificial intelligence system using unsupervised transfer learning for intra-cluster analysis
US11423072B1 (en) 2020-07-31 2022-08-23 Amazon Technologies, Inc. Artificial intelligence system employing multimodal learning for analyzing entity record relationships
US11620558B1 (en) 2020-08-25 2023-04-04 Amazon Technologies, Inc. Iterative machine learning based techniques for value-based defect analysis in large data sets
US20230325354A1 (en) * 2022-04-12 2023-10-12 Dell Products L.P. Hyperparameter optimization in file compression using sequence alignment

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4292622A (en) * 1980-02-21 1981-09-29 Hendrix Electronics, Inc. System and method for processing horizontal line characteristics in an image
JPH0797373B2 (ja) * 1985-08-23 1995-10-18 株式会社日立製作所 文書フアイリングシステム
US4809081A (en) * 1987-06-10 1989-02-28 Gould Inc. Method and apparatus for decompressing encoded data
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
US5761655A (en) * 1990-06-06 1998-06-02 Alphatronix, Inc. Image file storage and retrieval system
EP0514688A2 (en) * 1991-05-21 1992-11-25 International Business Machines Corporation Generalized shape autocorrelation for shape acquisition and recognition
US5321770A (en) * 1991-11-19 1994-06-14 Xerox Corporation Method for determining boundaries of words in text
DE69332315T2 (de) * 1992-02-25 2003-01-23 Fujitsu Ltd., Kawasaki Bildbinarisierungssystem
US5579471A (en) * 1992-11-09 1996-11-26 International Business Machines Corporation Image query system and method
JP3143532B2 (ja) 1992-11-30 2001-03-07 キヤノン株式会社 画像検索装置及び方法
US5375176A (en) * 1993-04-19 1994-12-20 Xerox Corporation Method and apparatus for automatic character type classification of European script documents
JPH0773190A (ja) * 1993-04-29 1995-03-17 Matsushita Electric Ind Co Ltd ペンベースコンピューターシステム用絵文字ネーミング
US6086706A (en) * 1993-12-20 2000-07-11 Lucent Technologies Inc. Document copying deterrent method
US5768420A (en) * 1994-01-21 1998-06-16 Lucent Technologies Inc. Method and apparatus for handwriting recognition using invariant features
US5465353A (en) * 1994-04-01 1995-11-07 Ricoh Company, Ltd. Image matching and retrieval by multi-access redundant hashing
US6268935B1 (en) * 1994-04-15 2001-07-31 Minolta Co., Ltd. Image processor
US5636294A (en) * 1994-08-09 1997-06-03 Unisys Corporation Method and apparatus for truncation of images during data compression
US5689585A (en) * 1995-04-28 1997-11-18 Xerox Corporation Method for aligning a text image to a transcription of the image
JP3720412B2 (ja) * 1995-05-01 2005-11-30 キヤノン株式会社 情報処理方法及び装置
US5867597A (en) * 1995-09-05 1999-02-02 Ricoh Corporation High-speed retrieval by example
US5933823A (en) * 1996-03-01 1999-08-03 Ricoh Company Limited Image database browsing and query using texture analysis
US5893095A (en) * 1996-03-29 1999-04-06 Virage, Inc. Similarity engine for content-based retrieval of images
US5915250A (en) * 1996-03-29 1999-06-22 Virage, Inc. Threshold-based comparison
US5870754A (en) * 1996-04-25 1999-02-09 Philips Electronics North America Corporation Video retrieval of MPEG compressed sequences using DC and motion signatures
US5892808A (en) * 1996-06-28 1999-04-06 Techne Systems, Inc. Method and apparatus for feature detection in a workpiece
US6104834A (en) * 1996-08-01 2000-08-15 Ricoh Company Limited Matching CCITT compressed document images
US5940825A (en) * 1996-10-04 1999-08-17 International Business Machines Corporation Adaptive similarity searching in sequence databases
US5930783A (en) * 1997-02-21 1999-07-27 Nec Usa, Inc. Semantic and cognition based image retrieval
US5806061A (en) * 1997-05-20 1998-09-08 Hewlett-Packard Company Method for cost-based optimization over multimeida repositories
US5995978A (en) * 1997-09-24 1999-11-30 Ricoh Company, Ltd. Navigation system for document image database
US6006226A (en) * 1997-09-24 1999-12-21 Ricoh Company Limited Method and system for document image feature extraction
US5987456A (en) * 1997-10-28 1999-11-16 University Of Masschusetts Image retrieval by syntactic characterization of appearance
US6026411A (en) * 1997-11-06 2000-02-15 International Business Machines Corporation Method, apparatus, and computer program product for generating an image index and for internet searching and querying by image colors
US6363381B1 (en) * 1998-11-03 2002-03-26 Ricoh Co., Ltd. Compressed document matching

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005251169A (ja) * 2004-01-15 2005-09-15 Microsoft Corp イメージに基づくドキュメントのインデックス作成および読み込み
JP4718841B2 (ja) * 2004-01-15 2011-07-06 マイクロソフト コーポレーション イメージに基づくドキュメントのインデックス作成および読み込み
JP2007164648A (ja) * 2005-12-16 2007-06-28 Ricoh Co Ltd 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体
JP2010097609A (ja) * 2008-10-15 2010-04-30 Xerox Corp ランレングスヒストグラムを用いて文書の表現を生成する方法及び装置
JP2011243200A (ja) * 2010-05-14 2011-12-01 Palo Alto Research Center Inc コンテンツをアンカリングしかつデータを抽出するための画像テンプレートの学習方法
JP7486574B2 (ja) 2019-09-16 2024-05-17 インターナショナル・ビジネス・マシーンズ・コーポレーション コンテキスト・フリーの再帰的な文書分解による拡張性のある構造学習

Also Published As

Publication number Publication date
US6363381B1 (en) 2002-03-26
US20050256857A1 (en) 2005-11-17
US6928435B2 (en) 2005-08-09
US20020116379A1 (en) 2002-08-22
JP4023706B2 (ja) 2007-12-19
US7359901B2 (en) 2008-04-15

Similar Documents

Publication Publication Date Title
JP4023706B2 (ja) データ処理方法及び装置
US6674900B1 (en) Method for extracting titles from digital images
US5513277A (en) Measuring character and stroke sizes and spacings for an image
EP0834826B1 (en) Positioning templates in optical character recognition systems
JP4065460B2 (ja) 画像処理方法及び装置
JP3259993B2 (ja) 語形測定方法及び画像信号処理方法
JP4607633B2 (ja) 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
EP0543590B1 (en) Method for comparing word shapes
JPH0772905B2 (ja) 記号列の認識方法
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
JPH05242292A (ja) 分離方法
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
Yin Skew detection and block classification of printed documents
KR100449486B1 (ko) 수직선 인접 그래프를 이용한 문서 인식 시스템 및 방법
KR100229810B1 (ko) 영상 데이터베이스 검색방법
JPH0721817B2 (ja) 文書画像処理方法
Lu et al. Word searching in document images using word portion matching
JPH07319880A (ja) キーワード抽出・検索装置
JP2003030585A (ja) 画像処理装置、方法、プログラム及び記憶媒体
Hull et al. Lee et al.
JP5213338B2 (ja) 文字認識装置、文字認識方法、コンピュータプログラム
Rios et al. An OCR Free Method for Word Spotting in Printed Documents: the Evaluation of Different Feature Sets.
Lee et al. Group 4 compressed document matching
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070928

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111012

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121012

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131012

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees