JP2000285139A - 文書マッチング方法、記述子生成方法、データ処理システム及び記憶媒体 - Google Patents
文書マッチング方法、記述子生成方法、データ処理システム及び記憶媒体Info
- Publication number
- JP2000285139A JP2000285139A JP11307938A JP30793899A JP2000285139A JP 2000285139 A JP2000285139 A JP 2000285139A JP 11307938 A JP11307938 A JP 11307938A JP 30793899 A JP30793899 A JP 30793899A JP 2000285139 A JP2000285139 A JP 2000285139A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- query
- text
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
伸長することなく、少ない計算量で、高精度な文書マッ
チングを可能にする。 【解決手段】 粗マッチング段階15で、圧縮照会文書
12から各走査線の符号化に要するビット数に基づいた
ビット分布25を生成し、ビット分布から計算した大局
的統計量27を用いて画像データベース14の探索範囲
を絞り込む。ビット分布25と探索範囲内文書のビット
分布との相互相関をとって候補17を割り出す。詳細マ
ッチング段階では、端点特徴を用いて照会文書12と候
補17との詳細マッチングを行う。
Description
係り、特に、文書マッチングの分野に関する。
ったため、文書を自動的に追加したり検索したりする機
能を持つデータベースに文書画像が保存されるのが一般
的になってきた。その結果、追加しようとする文書と同
じものがデータベース内に既に存在しているか否かを効
率よく確実に判定できるようにすることが、ますます重
要になっている。さもないと、同じ文書が重複してデー
タベースに格納され貴重な記憶スペースを浪費すること
になる。データベース内に、ある文書と同じものが入っ
ているか否かを判定することを文書マッチングと言う。
索システムでは、色、テクスチャ、形態の特徴が文書マ
ッチングに利用されることが多い。大部分が2階調(bi
tonal)で形態及びテクスチャが似ている文書画像のマ
ッチングをしようとすると、様々な問題が起こる。
学的文字認識(OCR)を行ったのち、テキスト・ベー
スの探索を行う方法である。もう1つの方法は、文書の
レイアウトを解析し、構造的に類似した文書をデータベ
ースから探す方法である。残念ながら、この2つの方法
はいずれも計算量の多いページ解析を必要とする。計算
による解析を減らすための一方法は、文書を確実に識別
できるように特別に設計されたマーカーを文書に埋め込
む方法である。
のとして、画像から特徴量を直接抽出することによりO
CRよりも優れた効率性及び頑健性を得ようとする方法
が開発された。そのような特徴量の1例はワード長であ
る。文書中のワード長の系列をインデックスとして利用
し、照会によって生成された各画像でのヒット数を比較
することにより一致文書を識別し得る。もう1つの方法
は、ASCIIテキスト検索のための探索キーのコンパ
イルに利用できる文字形状コード(CSC)の小集合
へ、アルファベット文字をマッピングする方法である。
CSCは、テキスト画像から、ベースライン及びx−高
さラインに対する連結成分の相対的位置に基づいて得る
こともできる。このように、CSCは文書画像中のワー
ド検出のために利用できる。十分な長さの先頭のテキス
ト行から抽出したCSCの短系列を用いて多重インデッ
クスを作ることにより、文書重複検出にもCSCが適用
されている。
にテキスト行ベースの方法であることである。通常、行
切り出し、ワード切り出し、あるいは、文字切り出しさ
えも行う必要がある。テキスト・ベースでないある方法
では、水平射影に基づいて重複検出がなされる。水平射
影のウェーブレット係数ベクトル間の距離で、文書の類
似度を表す。この方法は、低品質の文書やテキスト量が
少ない文書に対し、テキスト・ベースの方法より高性能
である。
された形で格納されているので、圧縮ファイルに対して
文書マッチングを行うのが有利である。圧縮ファイルに
対し文書マッチングを行うのであれば、伸長と再圧縮の
必要がなくなり、必要メモリ量の削減により商用化も容
易になる。当然のことながら、圧縮ファイルのマッチン
グをしようとすると、また別の問題が生じる。CCIT
Tグループ4圧縮ファイルについては、パスコードが類
似文書の識別に役立つ情報を含んでいることが分かって
いる。ある従来技術の方法によれば、小テキスト領域か
らパスコードを抽出してハウスドルフ(Hausdorff)距
離と共に利用することにより、同じ文書を高い割合で正
確に識別する。しかしながら、ハウスドルフ距離の計算
は計算量が多く、また、距離計算の回数がデータベース
の大きさに比例して増加する。
な目的は次の通りである。 (1)少ない計算量で高精度の文書マッチングが可能
な、テキスト・ベースでもテキスト行ベースでもない方
法及び装置を提供すること。 (2)文書画像が圧縮されている場合においても、文書
画像の伸長を行うことなく、少ない計算量で高精度の文
書マッチングが可能な方法及び装置を提供すること。 (3)文書画像のノイズ、変形に対して頑健な文書マッ
チング方法及び装置を提供すること。 (4)高精度な文書マッチングのための特徴量を圧縮さ
れた文書画像から生成する方法を提供すること。 (5)文書画像のノイズ、変形に対して頑健で安定な文
書マッチングのための特徴量を生成する方法を提供する
こと。 以上の目的のより具体的な内容並びにその他の目的は、
以下の説明から明瞭になろう。
め、本発明の一態様によれば、照会文書がデータベース
内の複数の文書中の1つ以上と一致するか判定するた
め、照会文書中の複数の画素行の各行を符号化するため
に必要とされるビット数に基づいて、照会文書のビット
分布(bit profile)が生成される。そして、このビット
分布とデータベース内の複数の文書に関するビット分布
との比較により、1つ以上の候補文書が割り出される。
この1つ以上の候補文書に対しさらに詳細なマッチング
が必要な場合には、照会文書の端点特徴が検出され、こ
の端点特徴の位置に基づき照会文書に関する記述子の集
合が生成される。生成された記述子の集合と、1つ以上
の候補文書に関する記述子の集合との比較により、1つ
以上の候補文書の少なくとも1つと照会文書が一致する
か判定される。
徴は、添付図面及び以下の詳細な説明によって明らかに
なろう。
て様々な実施例によって説明する。また、以下において
は、主にCCITTグループ4圧縮文書を対象として説
明するが、本発明はそれに限定されるものではなく、他
の形式の文書、例えばCCITTグループ3の圧縮文書
やTIFF形式のファイルにも適用し得るものである。
が、別の意味が前後関係から明白である場合を除いて、
以下の定義が適用される。 ・検索率(recall rate):データベースから適切な一致
文書が選び出される割合 ・MMR:Modified Modified Relative Element Addre
ss Designateの略語 ・テキスト密度:単位領域あたりのテキスト行数(例え
ば5行/インチ) ・CCITT:国際電信電話諮問委員会 ・TIFF:Tagged Image File Formatの略語 ・G3圧縮又はグループ3圧縮:CCITT勧告T.4
に記載の文書画像圧縮方式 ・G4圧縮又はグループ4圧縮:CCITT勧告T.6
に記載の文書画像圧縮方式 ・文書画像:1枚の紙又は同様の媒体のデジタル画像 ・走査線:文書画像中の1つの画素行 ・ハーフトーン:分離した黒と白のドットによるグレー
スケール画像の模擬画像 ・ダウンサンプル:平均化することによって、又は、他
の方法で複数画素を1画素に統合することによって、解
像度を下げる手法 ・ハフマン・コード:画素ラン符号化用ビット・コード
ングの概要を示す。粗マッチング段階15において、圧
縮された照会文書12が走査されビット分布(bit profi
le)が生成される。このビット分布から、行間隔や文字
高さなどの大局的統計量が計算され、これを用いること
によって画像データベース14内の探索すべき文書の範
囲が絞られる。次に、前記ビット分布が、探索範囲内の
文書に関して予め計算されているビット分布と比較され
ることにより、詳細マッチング段階20のための候補1
7が選び出される。粗マッチング段階15で複数の候補
17が得られた場合、詳細マッチング段階20におい
て、詳細マッチングのための端点特徴の集合が照会文書
から抽出される。端点特徴は、ページのスキュー推定や
向き推定など、様々なレベルの処理に必要な情報を含ん
でいる。さらに、端点特徴は、安定であり、対称的であ
り、また、グループ4圧縮ファイルなどの(これに限定
されない)一般的に用いられる圧縮ファイルから容易に
計算可能である。詳細マッチング段階20において、抽
出された端点特徴を用いることにより、高い確率で一致
文書21が正確に識別される。
階15の主目的は、候補集合を高い検索率で得ることで
ある。したがって、使用される特徴量は、計算が簡単で
あって、一般的な画像変形に強いものである必要があ
る。伸長を行うことなく得られる、最もわかりやすい特
徴量はファイル・サイズである。しかし残念ながら、オ
リジナル画像と写真複写画像とではハーフトーン品質が
一致しないため、あるいは、文書の周縁近傍でのハーフ
トーン効果により、圧縮ファイルのサイズは一致すべき
文書間でも大きく異なることがある。同じように利用し
やすく、情報量がずっと多いのは、各走査線の圧縮後の
サイズである。
の説明図である。まず、G4又は他の圧縮方法により圧
縮された照会文書12を1回走査することにより、圧縮
ビット分布25を生成する。次に、このビット分布25
に対しスペクトル解析手法を適用することにより頑健な
大局的統計量を生成する。この照会文書12の大局的統
計量を、データベース内の文書画像に関し予め計算され
た大局的統計量27と比較することにより、初期候補の
集合を生成する。これら初期候補に関して予め計算され
たビット分布29と照会文書12のビット分布25との
相互相関をとることにより、順位付けされた候補17の
集合を含む仮説を生成する。相互相関によって高い確信
度で一致するものが得られた場合には、これ以降の処理
を省いてもよい。
出》グループ4圧縮規格は、各走査線が上の走査線を基
準にして符号化される2次元のランレングス・ベースの
符号化方式(MMR)を規定している。この2つの走査
線上の連続したランのパターンに応じて、適切なハフマ
ン・コードが生成される。MMR符号化は決定論的であ
るため、同じ画像パターンであれば、それが文書中のど
こに位置していようと、同様の圧縮比が得られる。した
がって、各画素行の符号化に要するビット数は、計算す
るのに都合のよい特徴量である。一般的に、ハーフトー
ンは符号化するのに最も多くのビットを必要とし、テキ
ストはそれより少ないビット数しか必要とせず、背景は
さらに少ないビット数しか必要としない。殆どがテキス
トで横向きの画像の場合、そのビット分布にテキスト行
に対応したピークと谷が現れる。テキスト行によって生
じるピークと谷の例が図3に示すビット分布25の領域
41に見られる。このビット分布25は、文書画像40
の圧縮データから生成されたものである。
上の黒画素の平均個数)とは異なり、ビット分布(bit p
rofile)からどこに情報が実際にあるかわかる。例え
ば、写真複写された文書の周縁部にしばしば出現する大
きな黒領域(例えば、図3の領域43)は、ビット分布
25には殆ど影響を及ぼさないが、これに対し、インク
濃度分布には大きなピークができるだろう。実際、ペー
ジを反転表示しても、ビット分布25はそれほど変わら
ないであろう。また、ビット分布25は、インク濃度分
布よりも、走査線上のインク分布に関する多くの構造情
報を伝える。文書で普通に使用されるポイント・サイズ
の範囲では、全ページ幅の各テキスト行の(正規化単位
の)圧縮率はほぼ均一であり、したがって、テキストと
ハーフトーンが同様のインク濃度を持つことがあったと
しても、テキスト行をハーフトーン部分と区別すること
が可能になる。
ト分布(bit profile)が有する情報量はただ1つの文書
を一意に同定するには少なすぎる。しかし、そっくりな
文書は同様のビット分布を持つのが普通である。距離計
算に基づいてビット分布を直接的に比較する方法では、
ビット分布が相対的に垂直方向に少し平行移動するだけ
でも失敗する可能性がある。そこで、少なくとも一実施
例にあっては、相互相関が用いられる。ビット分布ベク
トルの相互相関は、それら分布のフーリエ変換の積とし
て効率的に計算することができる。また、相互相関によ
って垂直方向のレジストレーションが求まり、これは局
所的特徴を抽出するための2つの画像の対応部分を割り
出すのに利用できるであろう。計算コストをさらに削減
するため、文書の大局的統計量が計算されて探索範囲の
絞り込みに利用される。
を抽出できる。ビット分布の周期性は、スペクトル特性
が統計的モーメントより有用であることを示唆する。支
配的な行間隔、テキスト行数及びテキストの位置は良好
な第1段階の特徴付けを与えるが、これら統計量はスペ
クトル領域においてビット分布から容易に求めることが
できる。一実施例によれば、ビット分布の周波数成分の
解析のためにパワースペクトル密度(PSD)が用いら
れる。
SD45を示す。照会文書40(又はその圧縮データ)
の支配的な行間隔は、PSD45の最も高いピーク47
から直接計算できる。照会文書40のテキスト行数の定
量的な目安はスペクトル解析では与えられないが、PS
D45におけるピーク周波数でのエネルギー(矢線49
で示す)はページ上のテキスト量の良好な目安である。
一実施例によれば、支配的な行間隔の周波数を中心にし
た帯域フィルタをビット分布25に適用することによ
り、照会文書中のテキスト行の位置が推定される。フィ
ルタ処理後の信号はテキスト位置で振幅が大きくなるこ
とは、テキスト・エネルギー分布51に示す通りであ
る。位相群遅延グラフ53(ラジアン単位でプロット)
において一定した値の小さな領域55で示すように、位
相がリニアなビット分布の区間は、テキスト・ブロック
とよく一致する。一実施例によれば、テキスト・エネル
ギー分布51の重心59と、90%エネルギー区間の幅
60が、テキストの位置と密度の推定値として用いられ
る。一実施例によれば、テキストの位置及び密度が、ピ
ーク周波数及び全テキストエネルギーとともに、データ
ベース画像空間内に探索ウインドウを定めるための大局
的統計量として用いられる。他の実施例では、これ以外
の大局的統計量又は大局的統計量の別の組合せが用いら
ることもある。
特徴と大局的統計量の、様々な変形に対する頑健性は検
討に値する。図4は、2つの一致すべき文書画像間によ
く見られる変形のいくつかを示す。これらの問題の解析
において重要な着目点は次のとおりである。2つのペー
ジの間に相対的なスキューがなければ、ノイズの多いほ
うの画像のビット分布は、ノイズの少ないほうの画像の
ビット分布に、ノイズの多いほうの画像上のその他全て
のもののビット分布が付加された、すなわち加算された
ものである。前述のように、ページの上部と側部にある
大きな一様に黒い領域61,63は、ビット分布にはほ
とんど影響を及ぼさない。しかし、ハーフトーンにディ
ザ化されたグレー領域(例えば領域65)によって、ビ
ット分布は大きく変化する可能性がある。ページの上部
又は下部のハーフトーン部分は、孤立したピークとして
ビット分布に現れるが、それらの局所的平均はテキスト
行にしては高すぎるので検出して除去することができ
る。ページの長手方向に沿うハーフトーン部分は、ビッ
ト分布にランダムなノイズを加える。しかし、このよう
なランダムなノイズは、通常、密度が極めて均一である
ため、PSDにはそれほど影響を及ぼさない。他方、ペ
ージの片側にある関係のないテキスト66はもっと大き
な影響をPSDに及ぼすことがある。このページの片側
にある無関係なテキスト66のテキストエネルギーは、
その行間隔と本体テキストの行間隔とが同じ場合には本
体テキストのテキスト・エネルギーに吸収されるが、そ
れらの行間隔が異なる場合には、別の、通常はもっと小
さなピークを作る。
の回転によって生じるスキューである。回転67は、ビ
ット分布において水平射影を局所的に平均化させる作用
をし、ピークを低くし谷を浅くする。スキューが大きく
なればなるほど、平滑化作用も強くなる。ビット分布の
平滑化は、支配的な周波数を変化させないが、エネルギ
ー分布を変化させ、ピーク周波数でのエネルギーをスペ
クトルの低い側へ押しやり、検出をずっと難しくさせ
る。これが図4のPSD69に例示されている。図4に
おいて、パワー密度72と同74はそれぞれスキューの
ない画像71とスキューのある画像73についてプロッ
トしたものである。一実施例によれば、スペクトル評価
の前に、ビット分布に対し低周波エネルギーを除去する
ための前処理が施される。大局的統計量は、概して、画
像の歪みに対し頑健である。しかし、ビット分布の相互
相関は画像の歪みに対する耐性が弱い。
ット分布の変動をもたらす関連要因がある。グループ4
圧縮では2次元符号化と固定ハフマン符号化テーブルが
用いられる結果、圧縮に必要とされるビット数はランの
長さに比例しては増減しない。(例えば拡大によって生
じる)水平解像度の変化はビット分布全体に一定のスケ
ーリング効果を及ぼすことはないとはいえ、残留誤差は
無視できることが多い。ビット分布をダウンサンプル
し、様々な垂直解像度に合わせることも、局所的変動を
減らすのに役立つ。
たが、G3圧縮方式に関連したことも言及する意味があ
る。同じ画像のG3符号化ファイルとG4符号化ファイ
ルのビット分布の差異は、1次元(1D)符号化走査線
と2次元(2D)符号化走査線にある。2D符号化は、
通常、1D符号化より効率がよいため、G3符号化ビッ
ト分布は、G4符号化ビット分布に、周波数がkの周期
的波形を加えたものである。ここで、kは1D符号化走
査線の周波数である。G3において、kの推奨設定は、
200ドット/インチ(dpi)で2走査線おきであ
り、それ以上に高い解像度の場合には4走査線おきであ
る。実際には、差異はピーク高さについては小さいこと
が多く、これらの周波数は通常は非常に高いため本来の
行間隔と混同されることはない。TIFF形式のファイ
ルにおいては、この種の周期的ノイズが符号化方式とは
関係なく発生することがある。TIFF形式のファイル
では、処理を容易にするため画像が固定サイズのストリ
ップとして符号化されることが多い。そのため、各スト
リップの最初の行は事実上、1D符号化される。1スト
リップ当たり行数(RowsPerStrip)のパラメータの設定を
変えると、それに対応した変化がPSDに生じる。G3
における周波数kの周期的波形の場合と同様に、TIF
F形式ファイルにおける事実上の1D符号化によって生
じるノイズは、テキスト行によって作られるピークに比
べかなり小さいので無視し得る。
書が同じ様な圧縮ビット分布を持つことがあり得るの
で、粗マッチングにより得られた候補リスト中の不確実
なものを取り除くために2段目の処理が必要であろう。
一実施例によれば、それ以上の情報を得るため、G4圧
縮照会画像又はそれ以外の方法で圧縮された照会画像か
ら端点特徴の集合を抽出する。解析により、これら端点
特徴の部分集合がマーカーとして認定される。文書の索
引付けのため、これらマーカーの位置に基づいた記述子
が生成される。粗マッチング処理で文書候補集合が得ら
れたときには、クロス確認が実行される。以下の部分
で、端点特徴の抽出及び記述子の生成について詳述す
る。
を容易にするためには、グループ4圧縮方式について簡
単に検討するのが有益である。グループ4圧縮方式で
は、各走査線は上の走査線を基準として符号化される。
図5の(A)及び(B)を参照すれば、現在符号化点a
0を基準にして、両走査線上の2つの連続した画素ラン
の起点(変化要素と言う)が随時検出される。これらの
変化要素間の相対位置に基づいて、可能な3つのモード
の中の1つのモード、すなわち水平モード、垂直モード
又はパスモードが符号化のために選択される。符号化
後、a0が先へ移動させら、処理が繰り返される。これ
が図5に矢線81及び83で示されている。復号化時に
は、復号化されたモードが既に分かっている変化要素
(a0,b1,b2)と併用されることによりa1及び
/又はa2の位置が決定される。そして、要素a0が符
号化の場合と同様に先へ移動させられる。したがって、
モード情報が最初に復号化される。変化要素の位置も常
に保存される。
ス)又はホールの最下部(黒パス)に対応した位置で発
生する。ローマ字の場合、これらの特徴点は、下向きの
縦ストロークの端又は曲線ストロークの最下部に見出さ
れることは、図6のパスコード・ダイアグラム87によ
って示す通りである(各正方形ドット88がパスコード
の位置を示す)。パスコードがベースラインの近くに整
列しているため、また、パスコードが構造情報を持って
いるため、パスコードはスキュー推定、テキスト・マッ
チングのような様々な処理に有用である。パスコードが
グループ4圧縮ファイルから容易に抽出できることも同
様に重要である。
る。第1に、白パスコードは全てストロークの最下部に
対応するが、ストロークの最下部の全てがパスコードに
よって表現されるわけではない、という意味でバスコー
ドは不安定である。グループ4の符号化モードはコンテ
キスト依存性があるため、同じ変化要素局所パターンで
あっても異なった符号化がなされる可能性がある。
ン84はパスコードを発生させる。一方、図5(B)の
b2から始まる黒ラン85は<パスコードを発生させな
い(もしa1が1画素右にシフトしたならば発生させる
だろうが)。それどころか、b2にあるストロークの最
下部86は、a0からa2まで及ぶ水平モード符号化に
よって完全に隠蔽される。
ドが非対称であることである。ストローク又はホールの
最下部をパスコードで表現し得るとしても、パスコード
は、そのストローク又はホールの最上部の情報は全く与
えない。例えば、図6のパスコード・ダイヤグラム87
に見られるように、”d”の最下部は2つのパスコー
ド、すなわち白パスコード89Aと黒パスコード89B
を含むことが多いが、その文字の最上部の特徴点は全く
捕捉されない。
なくとも詳細マッチング段階の一実施例によれば、圧縮
照会文書の変化要素から直接的に端点特徴が抽出され
る。2種類の端点、すなわち上端点と下端点が抽出され
る。下端点は、白パスコードで捕捉されるものと同様
の、ストロークの最下部である。しかし、下端点とパス
コードとの重要な相違は、下端点が変化要素a1,b2
の位置を直接比較することによって抽出され、水平符号
化によって不明瞭になる可能性がなくなることである。
このように、パスコードと違い、ストロークの最下部は
全て下端点であり、かつ、下端点は全てストロークの最
下部である。ストロークの最上部は、変化要素a2,b
1を用いて同様に上端点として抽出される。
び下端点によって捕捉される特徴量を表すもので、パス
コードによって捕捉される特徴量と端点によって捕捉さ
れる特徴量との差異を明らかにするためパスコード・ダ
イヤグラム87の直ぐ下に置かれている。端点ダイヤグ
ラム94は、下端点96はおおむねテキスト行のベース
ライン98の位置に整列するが、上端点95はおおむね
x−高さライン97の位置に整列することも示している
(x−高さラインは、小文字”x”の最上部で決まるラ
インである)。
コードは、上端点と下端点の検出方法を説明するために
用意された。
2の後に現れる。よって、上記擬似コードリスト中の最
初の条件文の条件が満たされるので、走査線r−1上の
b2からb1までのランのほぼ中間点に下端点96が設
定される。要素a0は、矢線101で示されるように、
走査線r上のb2の真下位置へ進められる。
1はa2の後に現れ、b0はa1の前に現れる。よっ
て、前記擬似コードリスト中の2番目の条件文の条件が
待たされるため、走査線r上のa1からa2までのラン
のほぼ中間点に上端点95が設定される。要素a0は、
矢線103で示されるように、a2まで進められる。
つかある。まず、端点のほうが安定である。すなわち、
同じ特徴点が符号化モードの違いによって不明確になる
ことがない。また、端点は、テキスト行のx−高さライ
ンとベースラインの両方に関する情報を与える。これに
よって、文字高さ、ページ向き、アセンダなどの情報の
抽出が可能になる。上端点及び下端点の対称性は、上下
逆さまのページを処理する場合に好都合である。ページ
が上下逆さまであるときには、上端点と下端点とを入れ
替えて簡単な座標再配置をすることによって正しい向き
のページに関する端点を得ることができる。圧縮文書を
再度走査する必要がない。これに対し、パスコードは、
非対称であるため、対応した特徴点を得るためには、通
常、画像を上下逆さまにして改めて圧縮する必要があ
る。さらに、端点は変化要素の相対的位置に基づいて検
出されるため、それらの位置はパスコードと同程度に計
算が容易である。
に、2次元の端点情報は、効率的な索引付けのための1
次元表現に変換される。この変換には、いくつかの操作
が必要とされる。まず、ページのスキューが推定され、
端点に基づいて修正される。スキュー補正後の上端点と
下端点についての平滑化した水平射影(U分布とD分布
と呼ぶ)を用いて、テキスト行の位置が検出される。x
−高さラインは対応したベースラインより上にあるはず
であるから、D分布はU分布より後にあるはずである。
ビット分布のスペクトル解析により求められた支配的行
間隔によって制限されたオフセットの範囲内で、U分布
とD分布間の最大相関が計算される。相関分布におい
て、U分布の極大値が、文字高さに相当する距離だけ離
れたD分布の極大値と一致する場所ではテキスト行が検
出される可能性が高い。U分布とD分布の相関を向上さ
せるため、行間隔の2倍未満の範囲内にあるU分布及び
D分布の極大値以外は全て0にされる。これは、U分布
からx−高さライン以外のものを全て除去し、かつ、D
分布からベースライン以外のものを全て除去しようとす
るものである。それから、極大値の分布について相関が
とられる。図8は、照会画像から抽出されてスキュー補
正された端点集合109と、上端点及び下端点の水平射
影112(下端点はD分布を作る負の射影値114であ
る)と、U分布及びD分布の極大値の射影115と、一
致するU分布とD分布の極大値117を示す。
ば、各テキスト行領域内の端点が抽出される。テキスト
行内の端点を用いて、そのx−高さラインとベースライ
ンの位置を知ることができるから、そのテキスト行内の
アセンダ領域及びデセンダ領域と呼ばれる領域を定める
ことができる。図9は、2つのテキスト行領域127,
129を含む画像領域125と、各テキスト行領域内に
含まれる上端点及び下端点を表している。対応した端点
マップ131には、実線で表されたテキスト行の境界1
33A−133Cと、破線で区切られたアセンダ領域1
35A,135B及びデセンダ領域137A,137B
が含まれている。この端点マップ131において、上端
点と下端点はそれぞれ上向きの三角形と下向きの三角形
で示されている。
分かる。まず、上端点と下端点の相対的位置から重要な
情報を導き出すことができる。例えば、点などの符号
や、”i”,”j”は、(例えば矢線145で示すよう
に)アセンダ領域135A,135B内の同じx位置に
上端点と下端点の両方が存在することから容易に分か
る。また、中間領域147A,147B内の上端点は、
通常、”e”,”s”,”t”のような文字の上向き曲
線を表す。文字”c”は、(例えば矢線146によって
示すように)中間領域内の2組の対向した上端点と下端
点によって表される。
抽出された端点の系列を用いて文書マッチングのための
索引が作られる。基準線がうまく決まれば、端点を系列
にエンコードする方法はいくつか可能である。観察する
と、x−高さ領域の内側に生じる端点は、接触、分離、
セリフ、フォント種類の変動によるノイズの影響を受け
やすいことが分かる。そのため、一実施例によれば、中
間領域内の端点は無視され、X−高さラインより上にあ
る(すなわちアセンダ領域内にある)上端点とベースラ
インより下にある(すなわちデセンダ領域内にある)下
端点だけがマーカーとして用いられる。他の実施例で
は、テキスト行の他の領域から抽出された端点がマーカ
ーとして用いられることもあろう。
量子化距離の系列が記述子として用いられる。連続マー
カー間距離の量子化を図10に例示する。上端点マーカ
ー(すなわち”アセンダ”)間距離を表すために正値が
用いられており、下端点マーカー(すなわち”デセン
ダ”)間距離を表すために負値が用いられている。各テ
キスト行領域の左端の端点は基準点149A,149B
として用いられる。これに代わる実施例では、別の基準
点と距離形式が用いられることもあろう。2次元構造を
保存するため、テキスト行間にまたがる距離インジケー
タが、間に0をはさんで連結される。したがって、与え
られたテキスト行について、正値と負値のストリングが
生成されることになる。例えば、図10に示すテキスト
行については、距離インジケータのストリングは 1, 11, 13, 4, 2, 2, 2, 4, 0, -39 O, 5, 7, 7, 4, 8, 6, 0, -11 となる。
距離形式が用いられることもあろう。例えば、アセンダ
領域とデセンダ領域のマーカー距離を厳密に左から右へ
向かう順に交互に並べてもよい。
らなる各系列により作成された記述子で、データベース
内の各文書が逆索引付けされる。同様に、N個の連続し
た距離からなるK個の系列が照会時に生成される。一案
によれば、各記述子の重みは、索引付けする文書数に逆
比例する。例えば、図10の例においてN=5とすれ
ば、下記の通り、K=(距離インジケータ数−N)+1
=(19−1)+1=15個の系列S1〜S15が生成
される。 S1 =( 1,11,13, 4, 2) S2 =(11,13, 4, 2, 2) S3 =(13, 4, 2, 2, 2) ・ ・ S15 =(4, 8, 6, 0,-11)
重み付けをすることにより、K個の系列中の各系列Si
は、それで索引付けするMi個の文書の1つ1つに1/
(K*Mi)なるスコアを与える。ある閾値より大きな
スコアを与えられた文書が、詳細マッチング段階で選出
される。Nの値が大きいほど、より少ない、よりユニー
クな記述子が生成されるが、長い系列ほどノイズによっ
て分断されやすい。本発明の範囲から逸脱しない限り、
記述子の重み付け及び記述子の選択のために他の方法を
用いてもよい。
るデータベースについて実験を行った。979の画像
中、292(146組)の画像は一致する相手がある。
これら292の画像中の各画像が、それと一致する画像
を残りの978の画像から検索するための照会画像とし
て用いられる。粗マッチング手順と詳細マッチング手順
の個別実験と組み合わせ実験が行われた。それぞれの実
験の結果を以下に示す。
ッチング・アルゴリズムの一具体化例では、特定の垂直
画像解像度で得られた原ビット分布が、平均化によって
36dpiにダウンサンプルされる。これは、検出可能
な最小行間隔が4ポイントであることを意味する。この
ような解像度であれば、ビット分布は十分滑らかである
が、それでも、その詳しさは索引の計算及び分布の修正
に必要十分である。スペクトル解析中に、8ポイントか
ら36ポイントまでの周波数範囲に限定して支配的な行
間隔が調べられる。分布値は、300dpi(水平)の
1インチあたりビット数に正規化されてから8ビットに
量子化される。この8ビットという深さは、様々なフォ
ント種類において300dpiで圧縮するために8ポイ
ント文字が必要とするのは200ビット/インチ未満で
あるのが普通であるという知見に基づき実験的に見出さ
れた。平均255ビット/インチを越える走査線は、通
常、ハーフトーンを含んでいる。他の画像解像度で得ら
れた分布は(36dpiで垂直方向に再サンプリングさ
れた後)、まず比例変倍され、次に量子化される。グル
ープ3/グループ4符号化ファイルやTIFF形式のス
トリップ・サイズに対する特別な調整は行われない。し
たがって、典型的な8.5×11インチのサイズの1ペ
ージにつき、396バイト(11インチ×36dpi×
8ビット)のデータが生成される。
call rate)を図11にまとめて示す。ビット分布の相
互相関によって、最上位の選択結果で86%の正解が得
られ、また上位3つの選択結果で91%の正解が得られ
た。大局的統計量を索引付けに利用すると、相互相関計
算のための平均候補数は、検索率を悪化させることな
く、90%減少する。データベース内文書のビット分布
の離散フーリエ変換が予め計算され格納されているの
で、相互相関をベクトル積で計算できる。したがって、
各画像照会には、ビット分布の抽出、大局的統計量によ
るフィルタ処理、その後の約100回の396次元ベク
トル積演算が必要である。
とれた文書の例を図12及び図13にそれぞれ示されて
いる。正しく一致がとれたケースを見れば、前述した変
形に対処できる情報頑健性があることは明白である。殆
どの誤りは、画像にスキューがあるか画像にハーフトー
ン部分が含まれているために起こった。ハーフトーン部
分の品質は、索引付けには影響を及ぼさないけれども、
分布相関に大きな影響を及ぼす。また、多段組のペー
ジ、特に、ある段がハーフトーンで別の段がテキストで
ある多段組ページによって問題が起こることがある。非
共線的な段があると、エイリアシングが生じて行間隔推
定が不正確になることがある。2組の画像は倍率が異な
っている。
のほうが、テキストの位置指標及び大きさ指標より、探
索空間を絞り込むのにずっと有効であることが分かっ
た。このことは、フーリエ変換の空間局在性の悪さから
予想されるものである。しかし、密に配されたポイント
・サイズ9から12までの行間を識別するためには、周
波数分離が良好であることが重要である。テキスト位置
検出の改善のため、ウェーブレット変換を用いてもよ
い。
細マッチングの実験においては、既知の正しい情報(gr
ound truthinformation)を利用して、画像中の最初の
テキスト部分の1.5×1インチの領域から端点が抽出
された。そして、アセンダ領域及びデセンダ領域の端点
を検出するためテキスト行位置検出アルゴリズムが適用
された。これら領域のいくつかには画像の非テキスト部
が含まれていたが、この行位置検出手法によってテキス
ト行に属さない特徴点を全て除去できた。アセンダ領域
とデセンダ領域の境界が定まってから、各領域毎に端点
マーカー間距離の系列が生成された。連続したN個の距
離をそれぞれ索引として選び、データベース照会のため
の複数の記述子が作成された。前述の重み付け方法を用
いて、最も高いスコアを与えられた画像が選択された。
画像全体に対して照会した。これらの画像自体は、すべ
てのケースで検索された。この292のケースのうち2
90のケースでは、その画像だけが第1位の選択結果と
して検索された。2つのケースでは、別の画像が1つ同
じスコアで検索された。重複検出の場合、あるケースが
正しいとみなされるのは、一方のスコアが残りの画像中
で最高であって同じスコアがないときである。異なるN
値の場合の結果が図14にまとめて示されている。
なる系列、及び、5つの距離からなる系列を用いること
により、92.5%の重複が正しく検出される。この性
能は、もっと計算量の多い手法によって達成される結果
に匹敵する。しかも、この索引付け方法は、距離ベース
の方法に比べ拡張性が非常に優れている。誤りの大部分
は特徴点のノイズによるものである。
ページの幅方向にテキスト行が共線的であることを前提
にしているため、その性能は整列していない多段組文書
では悪化する。この問題に対する解決策の1つは、垂直
射影を用いて段分割をすることである。もう1つの解決
策は、文書の縦方向断片内でテキスト行位置検出を行
い、信頼性の高い結果だけを利用することにより段境界
を避けることである。
点によって、誤った記述子が生成されることがある。テ
キスト行の水平方向の大きさを検出するための方策をい
くつか講じてもよい。特徴点はスキューを補正済みであ
り、かつ、x−高さラインとベースラインは分かってい
るから、前記端点分布に基づいて行領域の端を見つける
ことができる。さらに、記述子生成のための領域は自動
的に決定できる。実験においては、既知の正しい情報
(ground truth information)が、文書画像中の対応テ
キスト領域を検出するために用いられた。このレジスト
レーション・プロセスは、自動領域選択方法で置き換え
てもよい。検出された各テキスト行毎に記述子を生成す
ると、データベースのサイズが増加して検索精度が悪化
するであろう。候補領域を特定するための可能な1つの
方法は、局所的な特徴点密度に基づいて選択する方法で
ある。本発明の範囲を逸脱しない限り、他の手法を用い
てもよい。
段階と詳細マッチング段階を組合せた実験においては、
第1位選択結果の相関スコアが0.5より大きく、か
つ、第1位選択結果のスコアと第2位選択結果のスコア
との差が0.03より大きい場合に、粗マッチング段階
の結果が選ばれる。それ以外の場合には、上位20個の
選択結果が詳細マッチングに回される。その結果、70
%の画像が粗マッチングによって確定され、30%の画
像だけが詳細マッチングを必要とする。システム全体の
正解率は93.8%である。このように、分布相関によ
る粗マッチングは、実行効率を向上させるだけでなく、
それがないと詳細マッチング単独では間違いやすい候補
を排除することが分かる。判定ルールを修正すれば、結
果は違ったものになろう。殆どの場合、検出の信頼性を
向上させるために詳細マッチング段階を行うべきであ
る。
は、本発明の実施例に従った処理を実行するためのデー
タ処理システム150の一例を示すブロック図である。
このデータ処理システム150は、処理装置151、メ
モリ153、表示装置155、カーソル制御装置15
7、キーパッド158、通信装置159をそれぞれバス
構造161に接続してなる。データ処理システム150
は、デスクトップコンピュータであっても、ワークステ
ーションであっても、もっと大型のコンピュータであっ
てもよい。あるいはまた、データ処理システム150
は、圧縮文書画像を処理するのが望ましい、コピー装
置、ファクシミリ装置、その他任意の電子装置であって
もよい。カーソル制御装置157は、表示装置155に
表示されている要素を操作するための、マウス、トラッ
クボール、その他任意の装置でよい。キーパッド158
は、ユーザが英数字データを入力可能な、キーボードや
その他の任意の装置でよい。データ処理システム150
で遂行される機能に応じて、他の入出力装置163が設
けられてもよい。
可能な、1つ以上の汎用プロセッサ、1つ以上のデジタ
ル信号プロセッサ、その他任意の装置でよい。処理装置
151は、データ処理システム150の複数のコンピュ
ータ間に分散配置されてもよい。ネイティブマシン言語
又は仮想マシン言語を用いてプログラムすることによっ
て、処理ユニット151を前述した粗マッチング段階と
詳細マッチング段階の処理を実行するために利用でき
る。
50を電子装置のネットワーク(例えばインターネット
のようなコンピュータネットワーク)に接続するための
モデム、ネットワークカード、その他任意の装置でよ
い。通信装置159は、有線又は無線媒体を介して伝送
される信号の送信又は受信のために利用できる。この伝
送信号は、例えば、ワールドワイドウェブ(又は他の任
意のコンピュータネットワーク)のサイトと交信して、
文書画像や、本発明の実施例を遂行するための処理装置
151によって実行可能な更新プログラムコード又は機
能拡張用プログラムコードを受信するために用いること
ができる。
ムメモリ166、不揮発性大容量記憶装置167及びリ
ムーバブル記憶媒体168からなる。リムーバブル記憶
媒体168は、例えば、コンパクトディスク読み出し専
用メモリ(CDROM)、フロッピーディスク、その他
のリムーバブル記憶装置である。前述の粗マッチング段
階と詳細マッチング段階の処理を行うための命令シーケ
ンスなどのプログラムコードを、データ処理システム1
50によって読み取り可能なリムーバブル記憶媒体16
8に格納しておき、それを用いて以上に説明した実施例
に従ってデータ処理システム150を動作させることが
できる。不揮発性大容量記憶装置167は、磁気テー
プ、磁気ディスク、光ディスク、電気的消去可能書き込
み可能読み出し専用メモリ(EEPROM)、その他任
意のコンピュータ読み取り可能媒体などの不揮発性記憶
媒体に情報を格納するための装置でよい。以上に述べた
実施例に従ってデータ処理システム150を動作させる
ためのデータとプログラムコードは、インストールプロ
グラムの制御によって、リムーバブル記憶媒体168か
ら不揮発性大容量記憶装置167へ転送してもよい。文
書データベースも不揮発性大容量記憶装置167に保存
してもよい。
50の電源が投入されると、処理装置151又はダイレ
クト・メモリアクセス・コントローラ(不図示)のよう
な他の装置によって、オペレーティングシステムのプロ
グラムコードが不揮発性大容量記憶装置167からシス
テムメモリ166にロードされる。そうすると、オペレ
ーティングシステムに含まれる命令シーケンスを処理装
置151が実行して、前述の粗マッチング段階と詳細マ
ッチング段階を遂行するためのプログラムコードなどの
命令シーケンスを不揮発性大容量記憶装置167からシ
ステムメモリ166にロードする。かくして、コンピュ
ータ読み取り可能媒体から命令シーケンスを取得し、そ
れを処理装置151で実行することにより、本発明の実
施例を実施できる。
理システムについて説明したが、個々の処理操作を、そ
れを実行するための布線ロジックを含む専用ハードウェ
ア要素、又は、プログラムされた処理要素と布線ロジッ
クの組合せによって遂行してもよい。以上に述べたこと
を、前述の操作がハードウェア要素の特定の組合せによ
って行われる実施例にのみ本発明を限定するものと理解
すべきではない。
した。しかし、特許請求の範囲に記載された本発明の範
囲から逸脱しない限り、前記特定の実施例を様々に修正
変更してよいことは明らかであろう。よって、本明細書
及び図面は、説明のためのものと理解すべきであって、
限定的にとらえるべきでない。
下に列挙するとおりである。
上の文書と一致するか判定する方法であって、前記照会
文書中の複数の画素行のそれぞれを符号化するために必
要なビット数に基づいて前記照会文書のビット分布を生
成するステップ、及び前記照会文書のビット分布を前記
データベース内の第1の複数文書に関するビット分布と
比較して、前記照会文書が前記第1の複数文書中の1つ
以上の文書と一致するか判定するステップからなる方
法。
ペクトル解析を行って前記照会文書の大局的統計量を求
めるステップ、及び前記照会文書の大局的統計量を前記
データベース内の第2の複数文書に関する大局的統計量
と比較して前記第1の複数文書を識別するステップ、を
さらに含む(1)の方法。
析を行って大局的統計量を求める前記ステップは、前記
照会文書中の支配的な行間隔を推定するステップを含む
(2)の方法。
析を行って大局的統計量を求める前記ステップは、前記
照会文書のテキスト量に関する推定値を生成するステッ
プを含む(2)の方法。
析を行って大局的特徴を求める前記ステップは、前記照
会文書中のテキスト位置に関する推定値を生成するステ
ップを含む(2)の方法。
析を行って大局的統計量を求める前記ステップは、前記
照会文書におけるテキスト密度の推定値を生成するステ
ップを含み、前記テキスト密度の推定値は前記照会文書
のテキスト量の長さの目安を示す(2)の方法。
ット分布を予め計算して前記データベースに格納するス
テップをさらに含む(1)の方法。
1の複数文書に関するビット分布と比較する前記ステッ
プは、前記照会文書のビット分布と前記データベースの
前記第1の複数文書に関するビット分布との相互相関を
とるステップを含む(1)の方法。
ータベースの前記第1の複数文書に関するビット分布と
の相互相関をとる前記ステップは、前記照会文書のビッ
ト分布と前記データベースの前記第1の複数文書に関す
るビット分布の各々のベクトル積を生成するステップを
含む(8)の方法。
トル積が閾値を超えた前記第1の複数文書中の1つ以上
の文書と一致すると判定される(9)の方法。
以上の文書と一致するか判定する方法であって、前記照
会文書中の特徴の最上部を表す上端点と、前記照会文書
中の特徴の最下部を表す下端点を検出するステップ、前
記上端点及び下端点の位置に基づいて前記照会画像に関
する記述子の集合を生成するステップ、及び前記照会文
書に関する前記記述子の集合を前記データベース内の1
つ以上の文書に関する各々の記述子の集合と比較するこ
とにより、前記照会文書が前記1つ以上の文書の少なく
とも1つと一致するか判定するステップからなる方法。
づいて前記照会画像に関する記述子の集合を生成する前
記ステップは、前記照会文書の走査線に沿った前記上端
点及び前記下端点の集団に基づいて前記照会文書中のテ
キスト行を検出するステップ、及び前記照会文書中の前
記テキスト行内の選択された上端点間の距離及び選択さ
れた下端点間の距離に基づいて前記記述子の集合を生成
するステップを含む(11)の方法。
記上端点及び前記下端点の集団に基づいて前記照会文書
中のテキスト行を検出する前記ステップは、前記各走査
線上の上端点及び下端点の数を求めるステップ、及び極
大数の上端点と極大数の下端点を有する各走査線ペアを
テキスト行として検出するステップを含む(12)の方
法。
の符号化モード中の1つの符号モードによって符号化さ
れる方法で圧縮されており、前記上端点及び前記下端点
の検出は前記符号化モードに影響を受けない(11)の
方法。
以上の文書と一致するか判定する方法であって、前記照
会文書中の複数の画素行のそれぞれを符号化するために
必要なビット数に基づいて前記照会文書のビット分布を
生成するステップ、前記照会文書のビット分布を前記デ
ータベース内の第1の複数文書に関するビット分布と比
較することにより1つ以上の候補文書を選ぶ出すステッ
プ、前記照会文書中の端点特徴を検出するステップ、前
記端点特徴の位置に基づいて前記照会画像に関する記述
子の集合を生成するステップ、及び前記照会文書に関す
る前記記述子集合を前記1つ以上の候補文書に関する各
々の記述子集合と比較することにより、前記照会文書が
前記1つ以上の候補文書の少なくとも1つと一致するか
判定するステップからなる方法。
対するスペクトル解析を行って前記照会文書の大局的統
計量を求めるステップ、及び前記照会文書の前記大局的
統計量を、前記データベース内の第2の複数文書に関す
る大局的統計量と比較することにより、前記第2の複数
文書の部分集合である前記第1の複数文書を選び出すス
テップをさらに含む(15)の方法。
ル解析を行う前記ステップは、前記照会文書中の支配的
な行間隔、前記照会文書のテキスト量、前記照会文書の
テキスト位置及びテキスト密度の中の少なくとも1つに
関する推定値を生成するステップを含む(16)の方
法。
第1の複数文書に関するビット分布と比較する前記ステ
ップは、前記照会文書のビット分布と前記データベース
内の前記第1の複数文書に関するビット分布との相互相
関をとるステップを含む(15)の方法。
合を生成する方法であって、前記文書中の特徴の最上部
を表す上端点と、前記照会文書中の特徴の最下部を表す
下端点を検出するステップ、前記文書の走査線に沿った
上端点及び下端点の集団に基づいて前記文書中のテキス
ト行を検出するステップ、及び前記上端点及び下端点の
集団内の選択された上端点間の距離及び選択された下端
点間の距離に基づいて記述子の集合を生成するステップ
を含む方法。
及び下端点の集団に基づいて前記文書中のテキスト行を
検出する前記ステップは、前記各走査線上の上端点及び
下端点の数を求めるステップ、及び極大数の上端点と極
大数の下端点を有する各走査線ペアをテキスト行として
検出するステップを含む(19)の方法。
及び下端点の集団に基づいて前記文書中のテキスト行を
検出する前記ステップは、前記文書中の支配的な行間隔
を求めるステップ、前記各走査線上の上端点数及び下端
点数を求めるステップ、及びペアをなす2つの走査線が
前記支配的な行間隔未満の距離だけ離れており、かつ、
それぞれ極大数の上端点及び極大数の下端点を有する各
走査線ペアをテキスト行として検出するステップを含む
(16)の方法。
の前記端点の位置に関するスペクトル解析に基づいて決
定される(21)の方法。
で検出された上端点の数及び前記走査線上で検出された
下端点の数を含む、それぞれの端点分布を生成するステ
ップをさらに含み、前記文書の走査線に沿った上端点及
び下端点の集団に基づいてテキスト行を検出する前記ス
テップは、各端点分布内の前記上端点数及び前記下端点
数の極大値以外は全て削除するステップを含む(19)
の方法。
及び下端点の集団に基づいてテキスト行を検出する前記
ステップは、前記各走査線に関する上端点数及び下端点
数を生成するステップ、局在した走査線群中で最高の上
端点数を有する第1の走査線を検出するステップ、前記
局在した走査線群中の前記第1の走査線以外の各走査線
に関する上端点数を削除するステップ、局在する走査線
群中で最高の下端点数を有する第2の走査線を検出する
ステップ、及び前記局在する走査線群中の前記第2の走
査線以外の各走査線に関する下端点数を削除するステッ
プを含む(19)の方法。
上端点数を持つ前記第1の走査線を検出する前記ステッ
プは、前記文書の支配的行間隔を求めるステップ、及び
前記局在した走査線群を、前記支配的行間隔より大きく
かつ前記支配的行間隔の2倍未満の範囲内にある走査線
群と定めるステップを含む(24)の方法。
択された下端点間の距離に基づいて記述子の集合を生成
する前記ステップは、前記各テキスト行毎にアセンダ領
域及びデセンダ領域を定めるステップを含み、前記選択
された上端点は前記アセンダ領域内の上端点であり、前
記選択された下端点は前記デセンダ領域内の下端点であ
る(19)の方法。
域及びデセンダ領域を定める前記ステップは、前記テキ
スト行中の第1のテキスト行のx−高さラインより上の
領域を前記第1のテキスト行の前記アセンダ領域と定め
るステップ、及び前記第1のテキスト行のベースライン
より下の領域を前記第1のテキスト行の前記デセンダ領
域と定めるステップを含む(26)の方法。
ンダ領域は、前のテキスト行の前記アセンダ領域と部分
的に境界を接している(27)の方法。
択された下端点間の距離に基づいて記述子の集合を生成
する前記ステップは、前記テキスト行中の第1のテキス
ト行に関し、基準点と、前記選択された上端点及び前記
選択された下端点の中の各端点との間の距離をそれぞれ
示す、複数の距離測定値を含む第1の記述子を生成する
ステップを含む(19)の方法。
点及び前記選択された下端点の中の1つの端点である
(29)の方法。
距離を示す各距離測定値は、前記選択された上端点及び
前記選択された下端点の中のもう1つの端点との相対距
離である(29)の方法。
号化モード中の1つの符号モードによって符号化される
方法で圧縮されており、前記上端点及び前記下端点の検
出は前記符号化モードに影響を受けない(19)の方
法。
により圧縮されている(19)の方法。
成する方法であって、前記文書中の複数の画素行のそれ
ぞれを符号化するために必要なビット数に基づいてビッ
ト分布を生成するステップ、及び前記ビット分布に対す
るスペクトル解析を行って前記文書の大局的統計量を求
めるステップかなる方法。
ル解析を行って大局的統計量を求める前記ステップは、
前記文書中の支配的な行間隔の推定値を生成するステッ
プを含む(34)の方法。
る前記ステップは、前記ビット分布からパワースペクト
ル密度を生成するステップと、前記パワースペクトル密
度のピーク値から前記支配的行間隔の推定値を計算する
ステップを含む(35)の方法。
ル解析を行って大局的統計量を求める前記ステップは、
前記文書のテキスト量に関する推定値を生成するステッ
プを含む(34)の方法。
定値を生成する前記ステップは、前記ビット分布からパ
ワースペクトル密度を生成するステップと、前記パワー
スペクトル密度のピークでのエネルギーに基づいて前記
文書のテキスト量に関する推定値を計算するステップを
含む(37)の方法。
ル解析を行う前記ステップは、前記文書中のテキスト位
置に関する推定値を生成するステップを含む(34)の
方法。
推定値を生成する前記ステップは、前記ビット分布に帯
域フィルタを適用することによりテキストエネルギー分
布を生成するステップ、及び前記テキストエネルギー分
布の重心を前記文書中のテキスト位置に関する推定値と
して求めるステップを含む(39)の方法。
適用する前記ステップは、前記文書の支配的行間隔周波
数を求めるステップ、及び前記支配的行間周波数に基づ
いて前記帯域フィルタの中心周波数を選ぶステップを含
む(40)の方法。
ル解析を行って大局的統計量を求める前記ステップは、
前記文書におけるテキスト密度の推定値を生成するステ
ップを含み、前記テキスト密度の推定値は前記文書のテ
キスト量の長さの目安を示す(34)の方法。
を生成する前記ステップは、前記ビット分布に帯域フィ
ルタを適用することによりテキストエネルギー分布を生
成するステップ、及び、前記テキストエネルギー分布の
長さに基づいて前記テキスト密度の推定値を求めるステ
ップを含む(42)の方法。
以上の文書と一致するか判定するために、前記照会文書
中の複数の画素行のそれぞれを符号化するために必要な
ビット数に基づいて前記照会文書のビット分布を生成す
るステップ、及び前記照会文書のビット分布を前記デー
タベース内の第1の複数文書に関するビット分布と比較
することにより、前記照会文書が前記第1の複数文書中
の1つ以上の文書と一致するか判定するステップを含む
処理をコンピュータに実行させるためのプログラムが記
録されたコンピュータ読み取り可能記憶媒体。
以上の文書と一致するか判定するために、前記照会文書
中の特徴の最上部を表す上端点と、前記照会文書中の特
徴の最下部を表す下端点を検出するステップ、前記上端
点及び下端点の位置に基づいて前記照会画像に関する記
述子の集合を生成するステップ、かつ前記照会文書に関
する前記記述子の集合を前記データベース内の1つ以上
の文書に関する各々の記述子の集合と比較させることに
より、前記照会文書が前記1つ以上の文書の少なくとも
1つと一致するか判定するステップを含む処理をコンピ
ュータに実行させるためのプログラムが記録されたコン
ピュータ読み取り可能記憶媒体。
以上の文書と一致するか判定するために、前記照会文書
中の複数の画素行のそれぞれを符号化するために必要な
ビット数に基づいて前記照会文書のビット分布を生成す
るステップ、前記照会文書のビット分布を前記データベ
ース内の第1の複数文書に関するビット分布と比較する
ことにより、1つ以上の候補文書を選出するステップ、
前記照会文書中の端点特徴を検出するステップ、前記端
点特徴の位置に基づいて、前記照会画像に関する記述子
の集合を生成するステップ、及び前記照会文書に関する
前記記述子集合を前記1つ以上の候補文書に関する各々
の記述子集合と比較することにより、前記照会文書が前
記1つ以上の候補文書の少なくとも1つと一致するか判
定するステップを含む処理をコンピュータに実行させる
ためのプログラムが記録されたコンピュータ読み取り可
能記憶媒体。
理装置とメモリを含むコンピュータを具備し、前記メモ
リには、照会文書が前記データベース内の1つ以上の文
書と一致するか判定するためのプログラムが格納されて
おり、前記プログラムが前記処理装置によって実行され
ることにより、前記コンピュータにおいて、前記照会文
書中の複数の画素行のそれぞれを符号化するために必要
なビット数に基づいて前記照会文書のビット分布を生成
する処理、及び前記照会文書のビット分布を前記データ
ベース内の第1の複数文書に関するビット分布と比較す
ることにより、前記照会文書が前記第1の複数文書中の
1つ以上の文書と一致するか判定する処理を実行するデ
ータ処理システム。
理装置とメモリを含むコンピュータを具備し、前記メモ
リには、照会文書が前記データベース内の1つ以上の文
書と一致するか判定するためのプログラムが格納されて
おり、前記プログラムが前記処理装置によって実行され
るとこにより、前記コンピュータにおいて、前記照会文
書中の特徴の最上部を表す上端点と、前記照会文書中の
特徴の最下部を表す下端点を検出する処理、前記上端点
及び下端点の位置に基づいて前記照会画像に関する記述
子の集合を生成する処理、及び前記照会文書に関する前
記記述子の集合を前記データベース内の1つ以上の文書
に関する各々の記述子の集合と比較することにより、前
記照会文書が前記1つ以上の文書の少なくとも1つと一
致するか判定する処理を実行するデータ処理システム。
理装置とメモリを含むコンピュータを具備し、前記メモ
リには、照会文書が前記データベース内の1つ以上の文
書と一致するか判定するためのプログラムが格納されて
おり、前記プログラムが前記処理装置によって実行され
ることにより、前記コンピュータにおいて、前記照会文
書中の複数の画素行のそれぞれを符号化するために必要
なビット数に基づいて前記照会文書のビット分布を生成
する処理、前記照会文書のビット分布を前記データベー
ス内の第1の複数文書に関するビット分布と比較するこ
とにより1つ以上の候補文書を選出する処理、前記照会
文書中の端点特徴を検出する処理、前記端点特徴の位置
に基づいて、前記照会画像に関する記述子の集合を生成
する処理、及び前記照会文書に関する前記記述子集合を
前記1つ以上の候補文書に関する各々の記述子集合と比
較することにより、前記照会文書が前記1つ以上の候補
文書の少なくとも1つと一致するか判定する処理を実行
するデータ処理システム。
よれば、テキスト・ベースでもなく、またテキスト行ベ
ースでもない、文書画像の特徴を利用した高精度な文書
マッチングが可能になる。少ない計算量で高精度な文書
マッチングが可能になる。文書画像が圧縮している場合
においても、文書画像の伸長、再圧縮を必要とせずに高
精度な文書マッチングが可能になる。文書画像のノイズ
や変形に頑健な高精度な文書マッチングが可能になる。
高精度な文書マッチングのための特徴量を、圧縮された
文書画像から少ない計算量で生成することが可能なる。
文書画像のノイズや変形に対して頑健で安定な、文書マ
ッチングのための特徴量を少ない計算量で生成すること
が可能になる。以上のような文書マッチングをコンピュ
ータを利用して容易に、計算量が少ない高精度な文書マ
ッチングを実施可能になる、等々の効果を得られる。
図である。
る。
ドパスフィルタ処理後の分布、位相群遅延密度グラフ及
びパワースペクトル密度を示す図である。
と、それら文書画像に対応したパワースペクトル密度を
示す図である。
ド符号化に用いられる参照点の例を示す図である。 (B)CCITTグループ4符号化で水平モード符号化
に用いられる参照点の例を示す図である。
影、水平射影の極大値及び一致する極大値を示す図であ
る。
例を示す図である。
図である。
とめて示す図である。
る。
る。
タベースの詳細マッチング結果をまとめて示す図であ
る。
すブロック図である。
Claims (32)
- 【請求項1】 照会文書がデータベース内の1つ以上の
文書と一致するか判定する方法であって、 前記照会文書中の複数の画素行のそれぞれを符号化する
ために必要なビット数に基づいて前記照会文書のビット
分布を生成するステップ、及び前記照会文書のビット分
布を前記データベース内の第1の複数文書に関するビッ
ト分布と比較して、前記照会文書が前記第1の複数文書
中の1つ以上の文書と一致するか判定するステップから
なる文書マッチング方法。 - 【請求項2】 前記照会文書のビット分布に対しスペク
トル解析を行って前記照会文書の大局的統計量を求める
ステップ、及び前記照会文書の大局的統計量を前記デー
タベース内の第2の複数文書に関する大局的統計量と比
較して前記第1の複数文書を識別するステップをさらに
含むことを特徴とする請求項1記載の文書マッチング方
法。 - 【請求項3】 前記ビット分布に対しスペクトル解析を
行って大局的統計量を求める前記ステップは、前記照会
文書中の支配的な行間隔を推定するステップを含むこと
を特徴とする請求項2記載の文書マッチング方法。 - 【請求項4】 前記ビット分布に対しスペクトル解析を
行って大局的統計量を求める前記ステップは、前記照会
文書のテキスト量に関する推定値を生成するステップを
含むことを特徴とする請求項2記載の文書マッチング方
法。 - 【請求項5】 前記ビット分布に対しスペクトル解析を
行って大局的特徴を求める前記ステップは、前記照会文
書中のテキスト位置に関する推定値を生成するステップ
を含むことを特徴とする請求項2記載の文書マッチング
方法。 - 【請求項6】 前記ビット分布に対しスペクトル解析を
行って大局的統計量を求める前記ステップは、前記照会
文書におけるテキスト密度の推定値を生成するステップ
を含み、前記テキスト密度の推定値は前記照会文書のテ
キスト量の長さの目安を示すことを特徴とする請求項2
記載の文書マッチング方法。 - 【請求項7】 前記第1の複数文書に関する前記ビット
分布を予め計算して前記データベースに格納するステッ
プをさらに含むことを特徴とする請求項1記載の文書マ
ッチング方法。 - 【請求項8】 前記照会文書のビット分布を前記第1の
複数文書に関するビット分布と比較する前記ステップ
は、前記照会文書のビット分布と前記データベースの前
記第1の複数文書に関するビット分布との相互相関をと
るステップを含むことを特徴とする請求項1記載の文書
マッチング方法。 - 【請求項9】 前記照会文書のビット分布と前記データ
ベースの前記第1の複数文書に関するビット分布との相
互相関をとる前記ステップは、前記照会文書のビット分
布と前記データベースの前記第1の複数文書に関するビ
ット分布の各々のベクトル積を生成するステップを含む
ことを特徴とする請求項8記載の文書マッチング方法。 - 【請求項10】 前記照会文書は、前記各々のベクトル
積が閾値を超えた前記第1の複数文書中の1つ以上の文
書と一致すると判定されることを特徴とする請求項9記
載の文書マッチング方法。 - 【請求項11】 照会文書がデータベース内の1つ以上
の文書と一致するか判定する方法であって、 前記照会文書中の特徴の最上部を表す上端点と、前記照
会文書中の特徴の最下部を表す下端点を検出するステッ
プ、 前記上端点及び下端点の位置に基づいて前記照会画像に
関する記述子の集合を生成するステップ、及び前記照会
文書に関する前記記述子の集合を前記データベース内の
1つ以上の文書に関する各々の記述子の集合と比較する
ことにより、前記照会文書が前記1つ以上の文書の少な
くとも1つと一致するか判定するステップからなる文書
マッチング方法。 - 【請求項12】 前記上端点及び下端点の位置に基づい
て前記照会画像に関する記述子の集合を生成する前記ス
テップは、 前記照会文書の走査線に沿った前記上端点及び前記下端
点の集団に基づいて前記照会文書中のテキスト行を検出
するステップ、及び前記照会文書中の前記テキスト行内
の選択された上端点間の距離及び選択された下端点間の
距離に基づいて前記記述子の集合を生成するステップを
含むことを特徴とする請求項11記載の文書マッチング
方法。 - 【請求項13】 前記照会文書の走査線に沿った前記上
端点及び前記下端点の集団に基づいて前記照会文書中の
テキスト行を検出する前記ステップは、 前記各走査線上の上端点及び下端点の数を求めるステッ
プ、及び極大数の上端点と極大数の下端点を有する各走
査線ペアをテキスト行として検出するステップを含むこ
とを特徴とする請求項12記載の文書マッチング方法。 - 【請求項14】 前記照会文書は各画素ランが複数の符
号化モード中の1つの符号モードによって符号化される
方法で圧縮されており、前記上端点及び前記下端点の検
出は前記符号化モードに影響を受けないことを特徴とす
る請求項11記載の文書マッチング方法。 - 【請求項15】 文書を識別するための記述子の集合を
生成する方法であって、 前記文書中の特徴の最上部を表す上端点と、前記照会文
書中の特徴の最下部を表す下端点を検出するステップ、 前記文書の走査線に沿った上端点及び下端点の集団に基
づいて前記文書中のテキスト行を検出するステップ、及
び前記上端点及び下端点の集団内の選択された上端点間
の距離及び選択された下端点間の距離に基づいて記述子
の集合を生成するステップからなる記述子生成方法。 - 【請求項16】 前記文書の走査線に沿った上端点及び
下端点の集団に基づいて前記文書中のテキスト行を検出
する前記ステップは、 前記各走査線上の上端点及び下端点の数を求めるステッ
プ、及び極大数の上端点と極大数の下端点を有する各走
査線ペアをテキスト行として検出するステップを含むこ
とを特徴とする請求項15記載の記述子生成方法。 - 【請求項17】 前記文書の走査線に沿った上端点及び
下端点の集団に基づいて前記文書中のテキスト行を検出
する前記ステップは、 前記文書中の支配的な行間隔を求めるステップ、 前記各走査線上の上端点数及び下端点数を求めるステッ
プ、及びペアをなす2つの走査線が前記支配的な行間隔
未満の距離だけ離れており、かつ、それぞれ極大数の上
端点及び極大数の下端点を有する各走査線ペアをテキス
ト行として検出するステップを含むことを特徴とする請
求項15記載の記述子生成方法。 - 【請求項18】 前記支配的な行間隔は前記文書中の前
記端点の位置に関するスペクトル解析に基づいて決定さ
れることを特徴とする請求項17記載の記述子生成方
法。 - 【請求項19】 前記各操作線毎に、前記走査線上で検
出された上端点の数及び前記走査線上で検出された下端
点の数を含む、それぞれの端点分布を生成するステップ
をさらに含み、前記文書の走査線に沿った上端点及び下
端点の集団に基づいてテキスト行を検出する前記ステッ
プは、各端点分布内の前記上端点数及び前記下端点数の
極大値以外は全て削除するステップを含むことを特徴と
する請求項15記載の記述子生成方法。 - 【請求項20】 前記文書の走査線に沿った上端点及び
下端点の集団に基づいてテキスト行を検出する前記ステ
ップは、 前記各走査線に関する上端点数及び下端点数を生成する
ステップ、 局在した走査線群中で最高の上端点数を有する第1の走
査線を検出するステップ、 前記局在した走査線群中の前記第1の走査線以外の各走
査線に関する上端点数を削除するステップ、 局在する走査線群中で最高の下端点数を有する第2の走
査線を検出するステップ、及び前記局在する走査線群中
の前記第2の走査線以外の各走査線に関する下端点数を
削除するステップを含むことを特徴とする請求項15記
載の記述生成方法。 - 【請求項21】 前記局在した走査線群中で最高の上端
点数を持つ前記第1の走査線を検出する前記ステップ
は、 前記文書の支配的行間隔を求めるステップ、及び前記局
在した走査線群を、前記支配的行間隔より大きくかつ前
記支配的行間隔の2倍未満の範囲内にある走査線群と定
めるステップを含むことを特徴とする請求項20記載の
記述子生成方法。 - 【請求項22】 選択された上端点間の距離及び選択さ
れた下端点間の距離に基づいて記述子の集合を生成する
前記ステップは、前記各テキスト行毎にアセンダ領域及
びデセンダ領域を定めるステップを含み、前記選択され
た上端点は前記アセンダ領域内の上端点であり、前記選
択された下端点は前記デセンダ領域内の下端点であるこ
とを特徴とする請求項15記載の記述子生成方法。 - 【請求項23】 前記各テキスト行毎にアセンダ領域及
びデセンダ領域を定める前記ステップは、 前記テキスト行中の第1のテキスト行のx−高さライン
より上の領域を前記第1のテキスト行の前記アセンダ領
域と定めるステップ、及び前記第1のテキスト行のベー
スラインより下の領域を前記第1のテキスト行の前記デ
センダ領域と定めるステップを含むことを特徴とする請
求項22記載の記述子生成方法。 - 【請求項24】 前記第1のテキスト行の前記アセンダ
領域は、前のテキスト行の前記アセンダ領域と部分的に
境界を接していることを特徴とする請求項23記載の記
述子生成方法。 - 【請求項25】 選択された上端点各の距離及び選択さ
れた下端点間の距離に基づいて記述子の集合を生成する
前記ステップは、前記テキスト行中の第1のテキスト行
に関し、基準点と、前記選択された上端点及び前記選択
された下端点の中の各端点との間の距離をそれぞれ示
す、複数の距離測定値を含む第1の記述子を生成するス
テップを含むことを特徴とする請求項15記載の記述子
生成方法。 - 【請求項26】 前記基準点は前記選択された上端点及
び前記選択された下端点の中の1つの端点であることを
特徴とする請求項25記載の記述子生成方法。 - 【請求項27】 前記基準点と前記各端点との間の距離
を示す各距離測定値は、前記選択された上端点及び前記
選択された下端点の中のもう1つの端点との相対距離で
あることを特徴とする請求項25記載の記述子生成方
法。 - 【請求項28】 前記文書は各画素ランが複数の符号化
モード中の1つの符号モードによって符号化される方法
で圧縮されており、前記上端点及び前記下端点の検出は
前記符号化モードに影響を受けないことを特徴とする請
求項15記載の記述子生成方法。 - 【請求項29】 前記文書はグループ4圧縮方法により
圧縮されていることを特徴とする請求項15記載の記述
子生成方法。 - 【請求項30】 照会文書がデータベース内の1つ以上
の文書と一致するか判定するために、 前記照会文書中の複数の画素行のそれぞれを符号化する
ために必要なビット数に基づいて前記照会文書のビット
分布を生成するステップ、及び前記照会文書のビット分
布を前記データベース内の第1の複数文書に関するビッ
ト分布と比較することにより、前記照会文書が前記第1
の複数文書中の1つ以上の文書と一致するか判定するス
テップを含む処理をコンピュータに実行させるためのプ
ログラムが記録されたコンピュータ読み取り可能記憶媒
体。 - 【請求項31】 照会文書がデータベース内の1つ以上
の文書と一致するか判定するために、 前記照会文書中の複数の画素行のそれぞれを符号化する
ために必要なビット数に基づいて前記照会文書のビット
分布を生成するステップ、 前記照会文書のビット分布を前記データベース内の第1
の複数文書に関するビット分布と比較することにより、
1つ以上の候補文書を選出するステップ、 前記照会文書中の端点特徴を検出するステップ、 前記端点特徴の位置に基づいて、前記照会画像に関する
記述子の集合を生成するステップ、及び前記照会文書に
関する前記記述子集合を前記1つ以上の候補文書に関す
る各々の記述子集合と比較することにより、前記照会文
書が前記1つ以上の候補文書の少なくとも1つと一致す
るか判定するステップを含む処理をコンピュータに実行
させるためのプログラムが記録されたコンピュータ読み
取り可能記憶媒体。 - 【請求項32】 文書画像のデータベース、及び処理装
置とメモリを含むコンピュータを具備し、 前記メモリには、照会文書が前記データベース内の1つ
以上の文書と一致するか判定するためのプログラムが格
納されており、前記プログラムが前記処理装置によって
実行されることにより、前記コンピュータにおいて、 前記照会文書中の複数の画素行のそれぞれを符号化する
ために必要なビット数に基づいて前記照会文書のビット
分布を生成する処理、 前記照会文書のビット分布を前記データベース内の第1
の複数文書に関するビット分布と比較することにより1
つ以上の候補文書を選出する処理、 前記照会文書中の端点特徴を検出する処理、 前記端点特徴の位置に基づいて、前記照会画像に関する
記述子の集合を生成する処理、及び前記照会文書に関す
る前記記述子集合を前記1つ以上の候補文書に関する各
々の記述子集合と比較することにより、前記照会文書が
前記1つ以上の候補文書の少なくとも1つと一致するか
判定する処理を実行するデータ処理システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/186,041 US6363381B1 (en) | 1998-11-03 | 1998-11-03 | Compressed document matching |
US09/186041 | 1998-11-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000285139A true JP2000285139A (ja) | 2000-10-13 |
JP4023706B2 JP4023706B2 (ja) | 2007-12-19 |
Family
ID=22683415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30793899A Expired - Fee Related JP4023706B2 (ja) | 1998-11-03 | 1999-10-29 | データ処理方法及び装置 |
Country Status (2)
Country | Link |
---|---|
US (3) | US6363381B1 (ja) |
JP (1) | JP4023706B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005251169A (ja) * | 2004-01-15 | 2005-09-15 | Microsoft Corp | イメージに基づくドキュメントのインデックス作成および読み込み |
JP2007164648A (ja) * | 2005-12-16 | 2007-06-28 | Ricoh Co Ltd | 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体 |
JP2010097609A (ja) * | 2008-10-15 | 2010-04-30 | Xerox Corp | ランレングスヒストグラムを用いて文書の表現を生成する方法及び装置 |
JP2011243200A (ja) * | 2010-05-14 | 2011-12-01 | Palo Alto Research Center Inc | コンテンツをアンカリングしかつデータを抽出するための画像テンプレートの学習方法 |
JP7486574B2 (ja) | 2019-09-16 | 2024-05-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンテキスト・フリーの再帰的な文書分解による拡張性のある構造学習 |
Families Citing this family (164)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5794062A (en) * | 1995-04-17 | 1998-08-11 | Ricoh Company Ltd. | System and method for dynamically reconfigurable computing using a processing unit having changeable internal hardware organization |
US6035266A (en) * | 1997-04-16 | 2000-03-07 | A.L. Air Data, Inc. | Lamp monitoring and control system and method |
US6363381B1 (en) * | 1998-11-03 | 2002-03-26 | Ricoh Co., Ltd. | Compressed document matching |
US6563948B2 (en) * | 1999-04-29 | 2003-05-13 | Intel Corporation | Using an electronic camera to build a file containing text |
FR2794600B1 (fr) * | 1999-06-01 | 2001-08-17 | Thomson Multimedia Sa | Systeme de tatouage de donnees utilisant de nouvelles methodes d'insertion et de detection de tatouage |
US7058817B1 (en) | 1999-07-02 | 2006-06-06 | The Chase Manhattan Bank | System and method for single sign on process for websites with multiple applications and services |
US6584221B1 (en) * | 1999-08-30 | 2003-06-24 | Mitsubishi Electric Research Laboratories, Inc. | Method for image retrieval with multiple regions of interest |
US6671407B1 (en) | 1999-10-19 | 2003-12-30 | Microsoft Corporation | System and method for hashing digital images |
AU3438401A (en) | 1999-11-04 | 2001-05-14 | Jp Morgan Chase Bank | System and method for automated financial project management |
US8571975B1 (en) | 1999-11-24 | 2013-10-29 | Jpmorgan Chase Bank, N.A. | System and method for sending money via E-mail over the internet |
US6834308B1 (en) * | 2000-02-17 | 2004-12-21 | Audible Magic Corporation | Method and apparatus for identifying media content presented on a media playing device |
JP2001251507A (ja) * | 2000-03-03 | 2001-09-14 | Fujitsu Ltd | 画像処理装置 |
US7426530B1 (en) | 2000-06-12 | 2008-09-16 | Jpmorgan Chase Bank, N.A. | System and method for providing customers with seamless entry to a remote server |
US10185936B2 (en) | 2000-06-22 | 2019-01-22 | Jpmorgan Chase Bank, N.A. | Method and system for processing internet payments |
WO2002012997A1 (en) * | 2000-08-08 | 2002-02-14 | Fineground Networks | Method and system for parameterized web documents |
FR2813743B1 (fr) * | 2000-09-06 | 2003-01-03 | Claude Seyrat | Procede de compression/decompression de documents structures |
US8335855B2 (en) | 2001-09-19 | 2012-12-18 | Jpmorgan Chase Bank, N.A. | System and method for portal infrastructure tracking |
US7031553B2 (en) * | 2000-09-22 | 2006-04-18 | Sri International | Method and apparatus for recognizing text in an image sequence of scene imagery |
US7103556B2 (en) * | 2000-11-02 | 2006-09-05 | Jpmorgan Chase Bank, N.A. | System and method for aggregate portfolio client support |
US6978047B2 (en) * | 2000-11-29 | 2005-12-20 | Etreppid Technologies Llc | Method and apparatus for storing digital video content provided from a plurality of cameras |
US20020087603A1 (en) * | 2001-01-02 | 2002-07-04 | Bergman Eric D. | Change tracking integrated with disconnected device document synchronization |
WO2002060106A2 (en) * | 2001-01-23 | 2002-08-01 | Flash Networks Ltd. | System and method for data re-compression for communication over ip |
US6741749B2 (en) * | 2001-01-24 | 2004-05-25 | Advanced Digital Systems, Inc. | System, device, computer program product, and method for representing a plurality of electronic ink data points |
US7310687B2 (en) * | 2001-03-23 | 2007-12-18 | Cisco Technology, Inc. | Methods and systems for managing class-based condensation |
US7392287B2 (en) * | 2001-03-27 | 2008-06-24 | Hemisphere Ii Investment Lp | Method and apparatus for sharing information using a handheld device |
US7363278B2 (en) * | 2001-04-05 | 2008-04-22 | Audible Magic Corporation | Copyright detection and protection system and method |
US8849716B1 (en) | 2001-04-20 | 2014-09-30 | Jpmorgan Chase Bank, N.A. | System and method for preventing identity theft or misuse by restricting access |
US7272857B1 (en) * | 2001-04-20 | 2007-09-18 | Jpmorgan Chase Bank, N.A. | Method/system for preventing identity theft or misuse by restricting access |
US6996273B2 (en) * | 2001-04-24 | 2006-02-07 | Microsoft Corporation | Robust recognizer of perceptually similar content |
US7356188B2 (en) * | 2001-04-24 | 2008-04-08 | Microsoft Corporation | Recognizer of text-based work |
US7020775B2 (en) | 2001-04-24 | 2006-03-28 | Microsoft Corporation | Derivation and quantization of robust non-local characteristics for blind watermarking |
US6975743B2 (en) * | 2001-04-24 | 2005-12-13 | Microsoft Corporation | Robust and stealthy video watermarking into regions of successive frames |
US6973574B2 (en) * | 2001-04-24 | 2005-12-06 | Microsoft Corp. | Recognizer of audio-content in digital signals |
US7689506B2 (en) | 2001-06-07 | 2010-03-30 | Jpmorgan Chase Bank, N.A. | System and method for rapid updating of credit information |
US7266839B2 (en) | 2001-07-12 | 2007-09-04 | J P Morgan Chase Bank | System and method for providing discriminated content to network users |
US8972481B2 (en) * | 2001-07-20 | 2015-03-03 | Audible Magic, Inc. | Playlist generation method and apparatus |
US7146395B2 (en) * | 2001-08-20 | 2006-12-05 | Ricoh Company Ltd. | Banyan switched processor datapath |
US20030044012A1 (en) * | 2001-08-31 | 2003-03-06 | Sharp Laboratories Of America, Inc. | System and method for using a profile to encrypt documents in a digital scanner |
US7103576B2 (en) | 2001-09-21 | 2006-09-05 | First Usa Bank, Na | System for providing cardless payment |
US7321858B2 (en) * | 2001-11-30 | 2008-01-22 | United Negro College Fund, Inc. | Selection of individuals from a pool of candidates in a competition system |
US7987501B2 (en) | 2001-12-04 | 2011-07-26 | Jpmorgan Chase Bank, N.A. | System and method for single session sign-on |
JP4011906B2 (ja) * | 2001-12-13 | 2007-11-21 | 富士通株式会社 | プロファイル情報の情報検索方法、プログラム、記録媒体及び装置 |
US7095907B1 (en) * | 2002-01-10 | 2006-08-22 | Ricoh Co., Ltd. | Content and display device dependent creation of smaller representation of images |
US20060098880A1 (en) * | 2002-02-22 | 2006-05-11 | Montgomery Dennis L | Method and apparatus for storing digital video content provided from a plurality of cameras |
US20030163785A1 (en) * | 2002-02-28 | 2003-08-28 | Hui Chao | Composing unique document layout for document differentiation |
US20180165441A1 (en) | 2002-03-25 | 2018-06-14 | Glenn Cobourn Everhart | Systems and methods for multifactor authentication |
US7006703B2 (en) | 2002-06-28 | 2006-02-28 | Microsoft Corporation | Content recognizer via probabilistic mirror distribution |
US7095873B2 (en) | 2002-06-28 | 2006-08-22 | Microsoft Corporation | Watermarking via quantization of statistics of overlapping regions |
CN1675868B (zh) * | 2002-08-02 | 2010-09-29 | 西门子公司 | 通过错误隐蔽检测分析接收到的有用信息的方法和设备 |
JP4265183B2 (ja) * | 2002-09-13 | 2009-05-20 | 富士ゼロックス株式会社 | 画像欠陥検査装置 |
US7536433B2 (en) * | 2002-09-25 | 2009-05-19 | Jpmorgan Chase Bank, N.A. | System and method for customizing a portal environment |
US7058660B2 (en) | 2002-10-02 | 2006-06-06 | Bank One Corporation | System and method for network-based project management |
US8301493B2 (en) | 2002-11-05 | 2012-10-30 | Jpmorgan Chase Bank, N.A. | System and method for providing incentives to consumers to share information |
US6958103B2 (en) * | 2002-12-23 | 2005-10-25 | Kimberly-Clark Worldwide, Inc. | Entangled fabrics containing staple fibers |
US20040210575A1 (en) * | 2003-04-18 | 2004-10-21 | Bean Douglas M. | Systems and methods for eliminating duplicate documents |
US6990224B2 (en) * | 2003-05-15 | 2006-01-24 | Federal Reserve Bank Of Atlanta | Method and system for communicating and matching electronic files for financial transactions |
GB2404269A (en) * | 2003-07-24 | 2005-01-26 | Hewlett Packard Development Co | Estimating symmetry in a document |
US7610190B2 (en) * | 2003-10-15 | 2009-10-27 | Fuji Xerox Co., Ltd. | Systems and methods for hybrid text summarization |
US7493322B2 (en) | 2003-10-15 | 2009-02-17 | Xerox Corporation | System and method for computing a measure of similarity between documents |
US7912291B2 (en) * | 2003-11-10 | 2011-03-22 | Ricoh Co., Ltd | Features for retrieval and similarity matching of documents from the JPEG 2000-compressed domain |
US7831832B2 (en) * | 2004-01-06 | 2010-11-09 | Microsoft Corporation | Digital goods representation based upon matrix invariances |
US20050165690A1 (en) * | 2004-01-23 | 2005-07-28 | Microsoft Corporation | Watermarking via quantization of rational statistics of regions |
JP4532915B2 (ja) * | 2004-01-29 | 2010-08-25 | キヤノン株式会社 | パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体 |
US7770014B2 (en) * | 2004-04-30 | 2010-08-03 | Microsoft Corporation | Randomized signal transforms and their applications |
US7949666B2 (en) | 2004-07-09 | 2011-05-24 | Ricoh, Ltd. | Synchronizing distributed work through document logs |
US7729538B2 (en) * | 2004-08-26 | 2010-06-01 | Microsoft Corporation | Spatial recognition and grouping of text and graphics |
US7574048B2 (en) * | 2004-09-03 | 2009-08-11 | Microsoft Corporation | Freeform digital ink annotation recognition |
US9535624B1 (en) * | 2004-09-13 | 2017-01-03 | EMC IP Holding Company LLC | Duplicate management |
US9384619B2 (en) * | 2006-07-31 | 2016-07-05 | Ricoh Co., Ltd. | Searching media content for objects specified using identifiers |
US8176054B2 (en) | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
US9373029B2 (en) * | 2007-07-11 | 2016-06-21 | Ricoh Co., Ltd. | Invisible junction feature recognition for document security or annotation |
US8856108B2 (en) * | 2006-07-31 | 2014-10-07 | Ricoh Co., Ltd. | Combining results of image retrieval processes |
US8184155B2 (en) * | 2007-07-11 | 2012-05-22 | Ricoh Co. Ltd. | Recognition and tracking using invisible junctions |
US7672543B2 (en) * | 2005-08-23 | 2010-03-02 | Ricoh Co., Ltd. | Triggering applications based on a captured text in a mixed media environment |
US8156427B2 (en) * | 2005-08-23 | 2012-04-10 | Ricoh Co. Ltd. | User interface for mixed media reality |
US7885955B2 (en) * | 2005-08-23 | 2011-02-08 | Ricoh Co. Ltd. | Shared document annotation |
US8868555B2 (en) | 2006-07-31 | 2014-10-21 | Ricoh Co., Ltd. | Computation of a recongnizability score (quality predictor) for image retrieval |
US9530050B1 (en) | 2007-07-11 | 2016-12-27 | Ricoh Co., Ltd. | Document annotation sharing |
KR100636181B1 (ko) * | 2004-10-01 | 2006-10-19 | 삼성전자주식회사 | 스캔 문서 삽입 방법 및 장치 |
US8600989B2 (en) * | 2004-10-01 | 2013-12-03 | Ricoh Co., Ltd. | Method and system for image matching in a mixed media environment |
US7970171B2 (en) * | 2007-01-18 | 2011-06-28 | Ricoh Co., Ltd. | Synthetic image and video generation from ground truth data |
US8949287B2 (en) * | 2005-08-23 | 2015-02-03 | Ricoh Co., Ltd. | Embedding hot spots in imaged documents |
US7920759B2 (en) * | 2005-08-23 | 2011-04-05 | Ricoh Co. Ltd. | Triggering applications for distributed action execution and use of mixed media recognition as a control input |
US8335789B2 (en) * | 2004-10-01 | 2012-12-18 | Ricoh Co., Ltd. | Method and system for document fingerprint matching in a mixed media environment |
US7587412B2 (en) * | 2005-08-23 | 2009-09-08 | Ricoh Company, Ltd. | Mixed media reality brokerage network and methods of use |
US8086038B2 (en) * | 2007-07-11 | 2011-12-27 | Ricoh Co., Ltd. | Invisible junction features for patch recognition |
US9171202B2 (en) * | 2005-08-23 | 2015-10-27 | Ricoh Co., Ltd. | Data organization and access for mixed media document system |
US7669148B2 (en) * | 2005-08-23 | 2010-02-23 | Ricoh Co., Ltd. | System and methods for portable device for mixed media system |
US9405751B2 (en) * | 2005-08-23 | 2016-08-02 | Ricoh Co., Ltd. | Database for mixed media document system |
US8332401B2 (en) * | 2004-10-01 | 2012-12-11 | Ricoh Co., Ltd | Method and system for position-based image matching in a mixed media environment |
US8195659B2 (en) * | 2005-08-23 | 2012-06-05 | Ricoh Co. Ltd. | Integration and use of mixed media documents |
US8369655B2 (en) * | 2006-07-31 | 2013-02-05 | Ricoh Co., Ltd. | Mixed media reality recognition using multiple specialized indexes |
US7812986B2 (en) * | 2005-08-23 | 2010-10-12 | Ricoh Co. Ltd. | System and methods for use of voice mail and email in a mixed media environment |
US8276088B2 (en) * | 2007-07-11 | 2012-09-25 | Ricoh Co., Ltd. | User interface for three-dimensional navigation |
US7702673B2 (en) * | 2004-10-01 | 2010-04-20 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment |
US7991778B2 (en) * | 2005-08-23 | 2011-08-02 | Ricoh Co., Ltd. | Triggering actions with captured input in a mixed media environment |
US8510283B2 (en) * | 2006-07-31 | 2013-08-13 | Ricoh Co., Ltd. | Automatic adaption of an image recognition system to image capture devices |
US7551780B2 (en) * | 2005-08-23 | 2009-06-23 | Ricoh Co., Ltd. | System and method for using individualized mixed document |
US8838591B2 (en) * | 2005-08-23 | 2014-09-16 | Ricoh Co., Ltd. | Embedding hot spots in electronic documents |
US7639387B2 (en) * | 2005-08-23 | 2009-12-29 | Ricoh Co., Ltd. | Authoring tools using a mixed media environment |
US8385589B2 (en) | 2008-05-15 | 2013-02-26 | Berna Erol | Web-based content detection in images, extraction and recognition |
US8156116B2 (en) | 2006-07-31 | 2012-04-10 | Ricoh Co., Ltd | Dynamic presentation of targeted information in a mixed media reality recognition system |
US8825682B2 (en) | 2006-07-31 | 2014-09-02 | Ricoh Co., Ltd. | Architecture for mixed media reality retrieval of locations and registration of images |
US10192279B1 (en) | 2007-07-11 | 2019-01-29 | Ricoh Co., Ltd. | Indexed document modification sharing with mixed media reality |
US7917554B2 (en) * | 2005-08-23 | 2011-03-29 | Ricoh Co. Ltd. | Visibly-perceptible hot spots in documents |
US8521737B2 (en) * | 2004-10-01 | 2013-08-27 | Ricoh Co., Ltd. | Method and system for multi-tier image matching in a mixed media environment |
US8144921B2 (en) * | 2007-07-11 | 2012-03-27 | Ricoh Co., Ltd. | Information retrieval using invisible junctions and geometric constraints |
US8005831B2 (en) * | 2005-08-23 | 2011-08-23 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment with geographic location information |
US7570816B2 (en) * | 2005-03-31 | 2009-08-04 | Microsoft Corporation | Systems and methods for detecting text |
JP4301193B2 (ja) * | 2005-03-31 | 2009-07-22 | ソニー株式会社 | 画像比較装置及び方法、画像検索装置及び方法、並びにプログラム及び記録媒体 |
US20060242568A1 (en) * | 2005-04-26 | 2006-10-26 | Xerox Corporation | Document image signature identification systems and methods |
US7356524B2 (en) * | 2005-05-13 | 2008-04-08 | Sap Ag | Query runtime estimation using statistical query records |
US7526129B2 (en) * | 2005-06-23 | 2009-04-28 | Microsoft Corporation | Lifting ink annotations from paper |
US7769772B2 (en) * | 2005-08-23 | 2010-08-03 | Ricoh Co., Ltd. | Mixed media reality brokerage network with layout-independent recognition |
US8583926B1 (en) | 2005-09-19 | 2013-11-12 | Jpmorgan Chase Bank, N.A. | System and method for anti-phishing authentication |
US20070076869A1 (en) * | 2005-10-03 | 2007-04-05 | Microsoft Corporation | Digital goods representation based upon matrix invariants using non-negative matrix factorizations |
US8793490B1 (en) | 2006-07-14 | 2014-07-29 | Jpmorgan Chase Bank, N.A. | Systems and methods for multifactor authentication |
US8073263B2 (en) | 2006-07-31 | 2011-12-06 | Ricoh Co., Ltd. | Multi-classifier selection and monitoring for MMR-based image recognition |
US9176984B2 (en) * | 2006-07-31 | 2015-11-03 | Ricoh Co., Ltd | Mixed media reality retrieval of differentially-weighted links |
US9063952B2 (en) * | 2006-07-31 | 2015-06-23 | Ricoh Co., Ltd. | Mixed media reality recognition with image tracking |
US8676810B2 (en) | 2006-07-31 | 2014-03-18 | Ricoh Co., Ltd. | Multiple index mixed media reality recognition using unequal priority indexes |
US8489987B2 (en) * | 2006-07-31 | 2013-07-16 | Ricoh Co., Ltd. | Monitoring and analyzing creation and usage of visual content using image and hotspot interaction |
US9020966B2 (en) * | 2006-07-31 | 2015-04-28 | Ricoh Co., Ltd. | Client device for interacting with a mixed media reality recognition system |
US8201076B2 (en) * | 2006-07-31 | 2012-06-12 | Ricoh Co., Ltd. | Capturing symbolic information from documents upon printing |
JP4257925B2 (ja) * | 2006-08-24 | 2009-04-30 | シャープ株式会社 | 画像処理方法、画像処理装置、原稿読取装置、画像形成装置、コンピュータプログラム及び記録媒体 |
US8479004B2 (en) * | 2006-08-31 | 2013-07-02 | Ricoh Co., Ltd | Paper-based document logging |
US8006094B2 (en) * | 2007-02-21 | 2011-08-23 | Ricoh Co., Ltd. | Trustworthy timestamps and certifiable clocks using logs linked by cryptographic hashes |
US8996483B2 (en) * | 2007-03-28 | 2015-03-31 | Ricoh Co., Ltd. | Method and apparatus for recording associations with logs |
US20080243688A1 (en) * | 2007-03-28 | 2008-10-02 | Hart Peter E | Method and Apparatus for Recording Transactions with a Portable Logging Device |
US8473735B1 (en) | 2007-05-17 | 2013-06-25 | Jpmorgan Chase | Systems and methods for managing digital certificates |
US7693908B2 (en) * | 2007-06-28 | 2010-04-06 | Microsoft Corporation | Determination of time dependency of search queries |
US8006314B2 (en) | 2007-07-27 | 2011-08-23 | Audible Magic Corporation | System for identifying content of digital data |
JP2009110211A (ja) * | 2007-10-29 | 2009-05-21 | Sony Corp | 情報符号化装置および方法、情報検索装置および方法、情報検索システムおよび方法、並びにプログラム |
JP5058002B2 (ja) * | 2008-01-21 | 2012-10-24 | 株式会社豊田中央研究所 | 物体検出装置 |
US8321682B1 (en) | 2008-01-24 | 2012-11-27 | Jpmorgan Chase Bank, N.A. | System and method for generating and managing administrator passwords |
US8240554B2 (en) * | 2008-03-28 | 2012-08-14 | Keycorp | System and method of financial instrument processing with duplicate item detection |
US8979744B2 (en) * | 2008-09-08 | 2015-03-17 | Covidien Lp | Tunneling system |
US8295651B2 (en) * | 2008-09-23 | 2012-10-23 | Microsoft Corporation | Coherent phrase model for efficient image near-duplicate retrieval |
US8185733B2 (en) * | 2008-10-02 | 2012-05-22 | Ricoh Co., Ltd. | Method and apparatus for automatically publishing content based identifiers |
RU2505856C2 (ru) * | 2008-11-12 | 2014-01-27 | Нокиа Корпорейшн | Способ и устройство для представления и идентификации дескрипторов признаков с использованием сжатой гистограммы градиентов |
US8214733B2 (en) * | 2010-04-28 | 2012-07-03 | Lexmark International, Inc. | Automatic forms processing systems and methods |
US8122339B2 (en) * | 2009-04-28 | 2012-02-21 | Lexmark International., inc. | Automatic forms processing systems and methods |
US8261180B2 (en) * | 2009-04-28 | 2012-09-04 | Lexmark International, Inc. | Automatic forms processing systems and methods |
US8385660B2 (en) * | 2009-06-24 | 2013-02-26 | Ricoh Co., Ltd. | Mixed media reality indexing and retrieval for repeated content |
US9608826B2 (en) | 2009-06-29 | 2017-03-28 | Jpmorgan Chase Bank, N.A. | System and method for partner key management |
US20110026816A1 (en) * | 2009-07-29 | 2011-02-03 | Vaughn Robert L | Rapid image categorization |
US8949260B2 (en) | 2009-10-09 | 2015-02-03 | Ricoh Co., Ltd. | Method and apparatus for secure and oblivious document matching |
JP2011223237A (ja) * | 2010-04-08 | 2011-11-04 | Sony Corp | 画像比較装置及び方法、並びにプログラム |
US8086548B2 (en) * | 2010-05-05 | 2011-12-27 | Palo Alto Research Center Incorporated | Measuring document similarity by inferring evolution of documents through reuse of passage sequences |
US20120128228A1 (en) * | 2010-11-18 | 2012-05-24 | D2S, Inc. | Method for Matching of Patterns |
GB2490490A (en) | 2011-04-28 | 2012-11-07 | Nds Ltd | Encoding natural-language text and detecting plagiarism |
US9058331B2 (en) | 2011-07-27 | 2015-06-16 | Ricoh Co., Ltd. | Generating a conversation in a social network based on visual search results |
US9081778B2 (en) | 2012-09-25 | 2015-07-14 | Audible Magic Corporation | Using digital fingerprints to associate data with a work |
US8995719B2 (en) * | 2012-12-10 | 2015-03-31 | Intel Corporation | Techniques for improved image disparity estimation |
US9710806B2 (en) | 2013-02-27 | 2017-07-18 | Fiserv, Inc. | Systems and methods for electronic payment instrument repository |
US9419957B1 (en) | 2013-03-15 | 2016-08-16 | Jpmorgan Chase Bank, N.A. | Confidence-based authentication |
US20140279303A1 (en) * | 2013-03-15 | 2014-09-18 | Fiserv, Inc. | Image capture and processing for financial transactions |
US10148726B1 (en) | 2014-01-24 | 2018-12-04 | Jpmorgan Chase Bank, N.A. | Initiating operating system commands based on browser cookies |
US10565498B1 (en) | 2017-02-28 | 2020-02-18 | Amazon Technologies, Inc. | Deep neural network-based relationship analysis with multi-feature token model |
US11625555B1 (en) | 2020-03-12 | 2023-04-11 | Amazon Technologies, Inc. | Artificial intelligence system with unsupervised model training for entity-pair relationship analysis |
US11514321B1 (en) | 2020-06-12 | 2022-11-29 | Amazon Technologies, Inc. | Artificial intelligence system using unsupervised transfer learning for intra-cluster analysis |
US11423072B1 (en) | 2020-07-31 | 2022-08-23 | Amazon Technologies, Inc. | Artificial intelligence system employing multimodal learning for analyzing entity record relationships |
US11620558B1 (en) | 2020-08-25 | 2023-04-04 | Amazon Technologies, Inc. | Iterative machine learning based techniques for value-based defect analysis in large data sets |
US20230325354A1 (en) * | 2022-04-12 | 2023-10-12 | Dell Products L.P. | Hyperparameter optimization in file compression using sequence alignment |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4292622A (en) * | 1980-02-21 | 1981-09-29 | Hendrix Electronics, Inc. | System and method for processing horizontal line characteristics in an image |
JPH0797373B2 (ja) * | 1985-08-23 | 1995-10-18 | 株式会社日立製作所 | 文書フアイリングシステム |
US4809081A (en) * | 1987-06-10 | 1989-02-28 | Gould Inc. | Method and apparatus for decompressing encoded data |
US5131053A (en) * | 1988-08-10 | 1992-07-14 | Caere Corporation | Optical character recognition method and apparatus |
US5761655A (en) * | 1990-06-06 | 1998-06-02 | Alphatronix, Inc. | Image file storage and retrieval system |
EP0514688A2 (en) * | 1991-05-21 | 1992-11-25 | International Business Machines Corporation | Generalized shape autocorrelation for shape acquisition and recognition |
US5321770A (en) * | 1991-11-19 | 1994-06-14 | Xerox Corporation | Method for determining boundaries of words in text |
DE69332315T2 (de) * | 1992-02-25 | 2003-01-23 | Fujitsu Ltd., Kawasaki | Bildbinarisierungssystem |
US5579471A (en) * | 1992-11-09 | 1996-11-26 | International Business Machines Corporation | Image query system and method |
JP3143532B2 (ja) | 1992-11-30 | 2001-03-07 | キヤノン株式会社 | 画像検索装置及び方法 |
US5375176A (en) * | 1993-04-19 | 1994-12-20 | Xerox Corporation | Method and apparatus for automatic character type classification of European script documents |
JPH0773190A (ja) * | 1993-04-29 | 1995-03-17 | Matsushita Electric Ind Co Ltd | ペンベースコンピューターシステム用絵文字ネーミング |
US6086706A (en) * | 1993-12-20 | 2000-07-11 | Lucent Technologies Inc. | Document copying deterrent method |
US5768420A (en) * | 1994-01-21 | 1998-06-16 | Lucent Technologies Inc. | Method and apparatus for handwriting recognition using invariant features |
US5465353A (en) * | 1994-04-01 | 1995-11-07 | Ricoh Company, Ltd. | Image matching and retrieval by multi-access redundant hashing |
US6268935B1 (en) * | 1994-04-15 | 2001-07-31 | Minolta Co., Ltd. | Image processor |
US5636294A (en) * | 1994-08-09 | 1997-06-03 | Unisys Corporation | Method and apparatus for truncation of images during data compression |
US5689585A (en) * | 1995-04-28 | 1997-11-18 | Xerox Corporation | Method for aligning a text image to a transcription of the image |
JP3720412B2 (ja) * | 1995-05-01 | 2005-11-30 | キヤノン株式会社 | 情報処理方法及び装置 |
US5867597A (en) * | 1995-09-05 | 1999-02-02 | Ricoh Corporation | High-speed retrieval by example |
US5933823A (en) * | 1996-03-01 | 1999-08-03 | Ricoh Company Limited | Image database browsing and query using texture analysis |
US5893095A (en) * | 1996-03-29 | 1999-04-06 | Virage, Inc. | Similarity engine for content-based retrieval of images |
US5915250A (en) * | 1996-03-29 | 1999-06-22 | Virage, Inc. | Threshold-based comparison |
US5870754A (en) * | 1996-04-25 | 1999-02-09 | Philips Electronics North America Corporation | Video retrieval of MPEG compressed sequences using DC and motion signatures |
US5892808A (en) * | 1996-06-28 | 1999-04-06 | Techne Systems, Inc. | Method and apparatus for feature detection in a workpiece |
US6104834A (en) * | 1996-08-01 | 2000-08-15 | Ricoh Company Limited | Matching CCITT compressed document images |
US5940825A (en) * | 1996-10-04 | 1999-08-17 | International Business Machines Corporation | Adaptive similarity searching in sequence databases |
US5930783A (en) * | 1997-02-21 | 1999-07-27 | Nec Usa, Inc. | Semantic and cognition based image retrieval |
US5806061A (en) * | 1997-05-20 | 1998-09-08 | Hewlett-Packard Company | Method for cost-based optimization over multimeida repositories |
US5995978A (en) * | 1997-09-24 | 1999-11-30 | Ricoh Company, Ltd. | Navigation system for document image database |
US6006226A (en) * | 1997-09-24 | 1999-12-21 | Ricoh Company Limited | Method and system for document image feature extraction |
US5987456A (en) * | 1997-10-28 | 1999-11-16 | University Of Masschusetts | Image retrieval by syntactic characterization of appearance |
US6026411A (en) * | 1997-11-06 | 2000-02-15 | International Business Machines Corporation | Method, apparatus, and computer program product for generating an image index and for internet searching and querying by image colors |
US6363381B1 (en) * | 1998-11-03 | 2002-03-26 | Ricoh Co., Ltd. | Compressed document matching |
-
1998
- 1998-11-03 US US09/186,041 patent/US6363381B1/en not_active Expired - Fee Related
-
1999
- 1999-10-29 JP JP30793899A patent/JP4023706B2/ja not_active Expired - Fee Related
-
2002
- 2002-01-25 US US10/058,169 patent/US6928435B2/en not_active Expired - Fee Related
-
2005
- 2005-06-28 US US11/169,359 patent/US7359901B2/en not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005251169A (ja) * | 2004-01-15 | 2005-09-15 | Microsoft Corp | イメージに基づくドキュメントのインデックス作成および読み込み |
JP4718841B2 (ja) * | 2004-01-15 | 2011-07-06 | マイクロソフト コーポレーション | イメージに基づくドキュメントのインデックス作成および読み込み |
JP2007164648A (ja) * | 2005-12-16 | 2007-06-28 | Ricoh Co Ltd | 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体 |
JP2010097609A (ja) * | 2008-10-15 | 2010-04-30 | Xerox Corp | ランレングスヒストグラムを用いて文書の表現を生成する方法及び装置 |
JP2011243200A (ja) * | 2010-05-14 | 2011-12-01 | Palo Alto Research Center Inc | コンテンツをアンカリングしかつデータを抽出するための画像テンプレートの学習方法 |
JP7486574B2 (ja) | 2019-09-16 | 2024-05-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンテキスト・フリーの再帰的な文書分解による拡張性のある構造学習 |
Also Published As
Publication number | Publication date |
---|---|
US6363381B1 (en) | 2002-03-26 |
US20050256857A1 (en) | 2005-11-17 |
US6928435B2 (en) | 2005-08-09 |
US20020116379A1 (en) | 2002-08-22 |
JP4023706B2 (ja) | 2007-12-19 |
US7359901B2 (en) | 2008-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4023706B2 (ja) | データ処理方法及び装置 | |
US6674900B1 (en) | Method for extracting titles from digital images | |
US5513277A (en) | Measuring character and stroke sizes and spacings for an image | |
EP0834826B1 (en) | Positioning templates in optical character recognition systems | |
JP4065460B2 (ja) | 画像処理方法及び装置 | |
JP3259993B2 (ja) | 語形測定方法及び画像信号処理方法 | |
JP4607633B2 (ja) | 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法 | |
EP0543590B1 (en) | Method for comparing word shapes | |
JPH0772905B2 (ja) | 記号列の認識方法 | |
JP2001167131A (ja) | 文書シグネチュアを使用する文書の自動分類方法 | |
JP6900164B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JPH05242292A (ja) | 分離方法 | |
JP2005242579A (ja) | 文書処理装置、文書処理方法、および文書処理プログラム | |
Yin | Skew detection and block classification of printed documents | |
KR100449486B1 (ko) | 수직선 인접 그래프를 이용한 문서 인식 시스템 및 방법 | |
KR100229810B1 (ko) | 영상 데이터베이스 검색방법 | |
JPH0721817B2 (ja) | 文書画像処理方法 | |
Lu et al. | Word searching in document images using word portion matching | |
JPH07319880A (ja) | キーワード抽出・検索装置 | |
JP2003030585A (ja) | 画像処理装置、方法、プログラム及び記憶媒体 | |
Hull et al. | Lee et al. | |
JP5213338B2 (ja) | 文字認識装置、文字認識方法、コンピュータプログラム | |
Rios et al. | An OCR Free Method for Word Spotting in Printed Documents: the Evaluation of Different Feature Sets. | |
Lee et al. | Group 4 compressed document matching | |
KR100317653B1 (ko) | 대용량인쇄체문자인식을위한특징추출방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070928 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111012 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131012 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |