JP4527885B2 - フーリエ変換の相関による回転の修正および重複イメージの識別 - Google Patents
フーリエ変換の相関による回転の修正および重複イメージの識別 Download PDFInfo
- Publication number
- JP4527885B2 JP4527885B2 JP2000611238A JP2000611238A JP4527885B2 JP 4527885 B2 JP4527885 B2 JP 4527885B2 JP 2000611238 A JP2000611238 A JP 2000611238A JP 2000611238 A JP2000611238 A JP 2000611238A JP 4527885 B2 JP4527885 B2 JP 4527885B2
- Authority
- JP
- Japan
- Prior art keywords
- page
- spectral density
- power spectral
- density distribution
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Description
【発明の属する技術分野】
本発明は、一般にイメージ処理に関し、より特定すると、イメージ化された複数行のページ分けされたテキストのフーリエ変換相関によるテキスト認識に関する。
【0002】
【従来の技術】
イメージ化されたテキスト・データベースにおけるテキスト認識は、多くの目的で必要となる。このようなテキスト認識は、大きなテキスト・データベースまたは「本」の中で特定のテキスト・ページの位置を見つけるのに必要であることが多いし、また、削除可能な重複するページを識別して、情報の損失なくデータベースを圧縮するのにも有用である。
【0003】
かかるサーチは、文字や単語がデジタル・バイトのシーケンスとして符号化されている符号化された情報においては比較的容易である。しかし、テキスト・ページがビット・マップ又は他のグラフィック表現であるようなイメージ化されたページは、コンピュータによりそれほど簡単に比較できない。
【0004】
グラフィック・イメージを比較する1つの方法は相互相関(cross-correlation)であり、これは通常、最初に、比較されるイメージに対して二次元的にフーリエ変換を行い、次に、ポイントごとにピクセルを乗算し、最後に、イメージを逆変換して空間的表現に戻し相関ピークを示すことにより行われる。このよく知られた方法は、例えば、John C. Russ, The image Processing Handbook, (CRC Press, 1992) pages 218-221に記載されている。光学的相関器を用いてかかる相関を光学的に行えば、速度に関する利点を得られる可能性がある。例えば、Lucas他への米国特許第5311359号や、Andersonへの米国特許第5148496号を参照するとよい。これらの米国特許は、共に、デジタル化されピクセル化されたイメージの相互相関を行えるコンパクトな光学的相関器を開示している。
【0005】
イメージの相互相関は、回転的にアライメントされたイメージには良いが、テキストのページは、典型的には、回転的に的確なアライメントがなされていない。テキスト・ページは、通常、それらをデジタル化「スキャナ」へ供給するか、又はデジタル・カメラ又はそのようなデバイスを用いてイメージ化することにより、デジタル化される。フィード及びスキャンを行うハードウエアにおける不正確さが、デジタル化されたイメージにおける様々な回転的ミスアライメントを結果として生じる。結果的なイメージは、水平軸および垂直軸に対して回転(スキュー)されたものとなる。僅かに回転している以外は同じである2つのイメージであっても、比較されたときに強い相関が生じない。スキュー角によるこのような相関の低下は非常に明白であるから、ミスアライメントが僅かに1−2度程度であっても、相関が大きく低下する。従って、スキャンしたテキストを回転的に修正する方法が、スキャンしたテキストを相関により識別するには、前もって必要である。
【0006】
テキストを回転的に修正する1つの方法が、Nafariehへの米国特許第5235651号(1993年)に開示されている。この方法は、光学文字認識(OCR)システムに関連して動作し、その能力は、回転的なエラーを修正することに限定されている。特に、この特許されたシステムは、ページの反転または90度の回転(横向きのページ)を検出して修正するのみである。これらの修正はOCRシステムで有用であるが、例えば5度以下の回転エラーを有するような重複するイメージ化されたページの高速識別を可能とするのには適切ではない。
【0007】
イメージを回転的に修正する別の方法が、Postlへの米国特許第4723297号(1988年)に開示されている。ポストルの方法では、イメージを複数のサーチ角度で反復的にスキャンし、「方向基準」を最適化し、その最適化した方向基準に基づいてイメージを回転させる。この方法は、イメージの獲得の間にスキューを回転的に修正するのみであり、重複するイメージは識別しない。これには、最適化のために多くの反復を必要とし、計算が複雑であり、「方向基準」を予め決める必要がある。
【0008】
テキストにおける回転または「スキュー」角を検出する多くの他の方法が開発されていているが、一般にそれらは、数学的に非常に複雑であり、高い計算能力を要求する。改善の努力は、その方法における計算要求を低減することに集中している。例えば、Aghajanその他への米国特許第5583956号では、サブスペース・ベースのライン検出アルゴリズムを用いる方法を開示し、また、それ以外の方法も引用されている。
【0009】
【発明の概要】
本発明は、イメージの回転的なミスアライメントを修正する方法であり、好適な実施形態では、顕著な周期的構造(複数ラインのテキストなど)を有するイメージのページ(又はページの部分)の間の相関の程度を見つける方法である。この方法は、2つの主なステップを含む。
【0010】
第1ステップでは、ページの回転的ミスアライメントが検出され修正されて、ページを垂直軸および水平軸とアライメントする。ページの回転角は、テキスト・ページのフィルタリングされた2次元フーリエ変換イメージの線形回帰分析を行い、テキストの最も強い周期的コンポーネントの角度方向を見つけることにより、検出される。好適な実施形態は第2ステップを含み、このステップでは、2つのイメージ化されたページが、好ましくは光学相関器により相互相関され、ページ間の相関の程度(度合い)が見いだされる。
【0011】
この方法は、複数ページのテキストに対して反復的に行うことができ、それによって、1つのページと他のそれぞれのページとを比較してテキストの重複ページを見つけることができる。
【0012】
【発明の実施の形態】
本発明は、スキュー(歪み)のあるページを回転的にアライメントするため、および、好ましくは、強い周期的構造を持つページ間(特に、テキストのページ)の類似の度合いを迅速に決定するための方法および装置である。本発明は、例えば、イメージ化されたデータベースにおいて重複するページ(又は、ページの一部)を素早く識別し、その情報の位置を見つけたり、重複ページをデータベースから除去するのに用いることができる。幾つかの応用では、回転的にアライメントされたテキストは、ユーザが後にサーチしたり見たりするための有用な産物として格納又は出力することができる。
【0013】
本発明は、典型的に、イメージ化されたページ、好ましくは、複数行のテキストを有するページに対して動作する。イメージ化されたテキスト・ページは、当該ページのビットマップ又はピクチャであり、ASCIIテキストのようなエンコードされたキャラクタのシーケンスではなく、スキャンされたマトリクス状のピクセルとしてページを表す格納されたデータで構成されている。これらのページは、例えば、スキャン、デジタル・カメラ、又はコンピュータ・グラフィック生成により、デジタル化が可能である。
【0014】
本発明による比較の対象として選択されたページは、相関を可能とするのに十分な解像度でデジタル化されているべきである。これまでに分かっているのは、256×256ピクセル(ページあたり)の粗さのイメージ・マトリクスが、重複ページの強い相関の結果を得るのに十分であるということである。これは、注目すべきことである。なぜなら、そのような低い解像度でレンダリングされたページは、人間には読めないからである。本発明では、512×512のイメージ解像度を用いて、速度は低下するが、更に明確な相関を生成する。非常に低い解像度でレンダリングされた重複ページを認識する能力は、本発明の独特の利点である。というのは、高解像度を使用できない場合もありうるし、また、低解像度イメージを用いればイメージ処理が高速化できるからである。高解像度のページ・イメージが使用可能である場合でも、オプションであるが、処理の前に解像度を低下させ(ピクセルの平均化や、他の周知の方法を用いる)処理速度を高速化することができる。その際に、高解像度のイメージは後に使用するためにデータベースに保持しておく。
【0015】
本発明を実施するのに好適な装置は、図1に示すように、プログラマブル・データ・プロセッサ12(ランダム・アクセス・メモリ即ち「RAM」13を含む)、スキャナ14、イメージ格納データベース16、光学相関器18、およびユーザ・インターフェース20を含み、ユーザ・インターフェース20は、例えば、データ・プロセッサ12とのインターフェースを有するキーボード22およびビデオ・ディスプレイ24であり、それによりユーザはシステムの動作を制御できる。スキャナ14は、イメージ格納データベース16への入力のためにテキストをデジタル化し、デジタル化されたイメージ(「ページ」)は、データ・プロセッサ12からアクセス可能である。データ・プロセッサは、以下に説明する方法に従ってページを操作するものであり、好ましくは、好適な実施形態に含まれる光学相関器18に支援される。光学相関器18は、データ・プロセッサ12の制御の下に、デュアル・イメージ(「入力」と「フィルタ」イメージ)をデータ・プロセッサ12からイメージ入力チャンネルを通じて受け取り、高速イメージ相関を光学的に行い、入力イメージとフィルタ・イメージとの相互相関である相互相関イメージをデータ・プロセッサ12へ出力する。
【0016】
1つの実施形態では、本発明は、図2に示すような2つの主なステップ(それぞれが複数のサブステップを含む)を有する。第1に、好ましくはドキュメントの全ページについて、すべての回転的ミスアライメントが検出され修正され(主ステップ30)、第2に、ドキュメントのあるページ(ターゲット・ページ)と別のページ(基準(リファレンス)ページ)との相関がとられ、結果的な相関イメージが分析されて(主ステップ32)、重複ページが検出される。第2のステップは、好ましくは、ループ34で複数回反復され、ドキュメントの各ページが他のすべてのページと比較される。これは、全ページが比較されたか否かを判定するテストを行い(判断ボックス36)、全ページが比較されてはいなかった場合には、別のページを選択して(ステップ38)、全ページが比較されるまで反復する(ステップ32から)ことにより達成することができる。重複ページは、相関イメージの高相関ピークにより識別される(主ステップ32)。これらの主ステップの詳細を以下で説明する。
【0017】
最初に、回転的修正ステップ30について説明する。このステップ30は、ソフトウエアの制御の下にデータ・プロセッサ12により適切に実行されるイメージ処理手順である。このステップの動作を視覚化する手助けとして、図3に示した例示のテキストのページのフーリエ変換をグラフィカルに図解するのが有益である。この図は、低い解像度(256×256)で再生された典型的なページである。この解像度ではテキストは読めないが、本発明が動作するには十分である。
【0018】
図3に示すページは、イメージ強度の「峰」(濃くプリントされたテキストのライン)と「谷」(白い行間のスペース)とを示唆するテキスト40の複数の行から構成されている。プリント強度のこれらの峰および谷は、テキストに典型的である強い周期性を有し、これは、一貫性のある間隔を持つロー又はコラムに、殆ど不変に配置される。このようなテキストのページに対して、次の二次元フーリエ変換が行われる。
【0019】
【数1】
【0020】
ここで、PF(kx,ky)は複素強度関数(complex intensity function)であり、kxおよびky(波数)は直交方向の空間周波数であり、xおよびyはテキストのページの空間座標であり、f(x,y)はページの強度関数である。この変換は、テキストのページの周波数領域表現を与えるが、これは、それぞれの点に関連する変化する強度PFを有するイメージであり、各点は、元のテキストのページの特定の(x方向、y方向)周波数成分を表す。
【0021】
上記の式は、連続的な数学モデルに適当な、積分形式で与えられたが、本発明では、ページ・イメージおよび結果的なフーリエ変換イメージは、典型的に、離散的な(ピクセル化された)イメージにより表され、それには離散数学の手法が適用されて二次元フーリエ変換が計算される。デジタル・コンピュータにより行う場合には、周知の計算手法である高速フーリエ変換(FTT)などを用いることができる。また、フーリエ変換イメージを、光学的変換、専用の信号プロセッサ、または他の広く知られた方法などを用いて形成することもできる。
【0022】
図3の周期的な峰および谷(テキストの行)が要因となり、垂直方向にスキャンすることによりそのようなページから導き出されたフーリエ変換イメージは、ページの水平方向の行の頻度(frequency)で強いピークを有する。例えば、そのページのテキストに水平な行が54ある場合には、垂直方向にスキャンされたそのページの一次元フーリエ変換は、54の頻度(1ページ長さあたり)で大きいピークを有する。一般に、長さΔyのサイクルを持つテキストの行の周期性は、その大きさが2π/Δy(ラジアン)である波数で強いパワー・ピークを有する。約10Hzより下のパワー・スペクトル密度(power spectral density = PSD)は、本方法に対しては重要性を欠くので、図7と関連して以下に説明するようにフィルタリングにより除去する。
【0023】
ラインの周期で明確なスペクトル・パワー・ピークを生成するy方向のスキャンと対照的に、水平(x)方向のスキャンは、適切にアライメントされたページに対して、更に分散したPSDを生み出すが、これは、テキストを形成する英数字の幅および形状が変化することに起因するものである。x方向には、単一の、認識可能ほどに支配的な周期性はない。
【0024】
図4は、適正にアライメントされたページに対するky軸に投影されたパワー・スペクトル密度(PSD、強度関数PFの自乗)の例を示す。この図では、テキストの行に起因するスペクトル・ピークは、約45サイクルの波数で容易に識別できる。この約45サイクルは、この図の基になるページ上の行のおおよその数(45)に対応するものである。
【0025】
図4は、ky軸へのPSDイメージの投影のみを示す。実際のPSDイメージは二次元であり、x方向とy方向との両方にスキャンされたテキストの周期性を表すことに留意されたい。
【0026】
この例では、テキストが問題のない向きにある(テキストの行がx軸に平行)場合、平均したテキストの行に対するPSD分布は、図4に示すようなピークを示し、これらのピークはky軸に沿って完全にアライメントされる。一般には複数のピークが存在し、複数の高調波および他の周波数成分に対応する。しかし、ページが回転した場合、ピークのラインは双方の軸に関して回転される。これは、二次元フーリエ変換演算に内在する数学的な性質により起こる。更に、ピークに加わり原点を通過するラインの角度は、正確に、適正なアライメントからのページの回転の角度θである(リニアなkx、kyスケールに対して)。
【0027】
図5は、2次元PSDイメージを示し、これは二次元のkx、kyでプロットされてた描かれており、完全なアライメント(ラインがx軸に平行)からx−y平面で2度だけ回転したページから導出されたものである。PSDピークの僅かな回転が認められ、角度θが示されている。適正なアライメント(上の定義と同様)からの各テキスト・ページの回転の角度θは、そのページから導出されフーリエ変換イメージのPSDピークを実質的に通過する対応するラインの回転の角度を見つけることにより、見いだされる。これは、以下に示す統計的な線形回帰の手法を用いて達成される。
【0028】
上記の例を、視覚化の手助けになるものとして留意し、図6を参照しながら、回転アライメント・ステップの詳細な手順を説明することができる。最初に、少なくとも1つのターゲット(対象)と1つの基準ページとを含むテキストのページが、デジタル形式でデータ・プロセッサへ入力される(ステップ50)。次に、好ましくは、基準ページとターゲット・ページとの双方に、図1と関連して上記で提案した方法の1つを用いて、二次元フーリエ変換を行い、それぞれの周波数領域イメージ(表現)を得る。次に、各ページの回転角が、線形回帰の手法を用いて計算される(ステップ54−58)。
【0029】
線形回帰の予備的部分として、必ずしも必要というわけではないが、PSDを周波数領域フィルタを用いてフィルタリングする(ステップ54)のが好ましいが、この際には、環状で角度が制限されたバンドパス・フィルタを用いるのが最も好適である。好適なフィルタがグラフィック形式で図7に示しており、角度はΔΦで表し、周波数カットオフはk1およびk2で表している。このフィルタリングは、線形回帰処理(以下に説明する)に悪影響を与える可能性があるPSD中に散乱した多数の小さなピークを除去する。
【0030】
最も効果的なフィルタの角度および環状の周波数カットオフは、テキストのフォントおよびページの特性により異なる。適切な実施形態では、(+/−)5度の受け入れ角度、および66から128(サイクル/ページ)の間の環状パス・バンドが用いられる。これらは、約5度の最大回転、および約6ポイントから約12ポイントまでフォントに対応する。応用例によっては、5度未満の受け入れ角を使用することができるが、その場合には、テキストがより正確にアライメントされてる。5度よりも大きいフィルタ角ではテキスト・ページに対して良く機能しないことが、分かっている。
【0031】
図6に戻る。PSDがフィルタリングされた後、線形回帰を用いて回転の角度が計算される(ステップ56)。最初に、データ・プロセッサは幾つかの数量を計算する。すなわち、平均波数<k>(成分kx、kyを持つベクトル)、xおよびy波数成分の共分散(covariance)、およびy波数成分の分散であり、以下の式に従って計算する。
【0032】
【数2】
【0033】
【数3】
【0034】
【数4】
【0035】
ここで、k(i,j)は波数ベクトルであり、その成分はPSDイメージのkx、kyにおける座標であり、iおよびjは、個々のPSDイメージの特定のピクセルを識別する指数である。PF(i、j)は、点i、jでのPSD強度の局所値である。これらの式における和は、PSDイメージのピクセル全体(又は、少なくとも、フィルタ・パス・バンド内の全てのピクセル)にわたる。
【0036】
これらの数量から、以下の式に従って、回転角度θが計算される。
【0037】
【数5】
【0038】
異なるフィルタを用いてこの線形回帰を複数回反復し、1/4度以内への安定的な収束を提供することが、最も好ましい。これは、減少においてフィルタリングの角度を前進的に減少させ(オプションのステップ58)、先に計算した回転の角度θの値を、次回の線形回帰のための新たな開始点として用い、ステップ58を所定回数だけ繰り返すことにより、達成することができる。
【0039】
適当な回転の角度が計算された後に、イメージ化されたページは、データ・プロセッサ12によって、その角度(逆の符号)だけ回転させられ(ステップ60)、そのイメージ化されたページをxおよびy軸に対して正しくアライメントする。これは、平面図形の回転のための標準的で周知の数学的表現を、ピクセル化されたイメージのための周知のイメージ処理方法と共に用いて、行われる。
【0040】
ページを回転的にアライメントする上記の手順は、好ましくは、ターゲット・ページに対して1回と基準ページに対して1回との、少なくとも2回繰り返すべきである。殆どの応用例では、サーチされる全テキスト・ページに回転的修正手順を適用して、それらを、共通の定義された軸の組に対してアライメントすることが望ましい。また、第1のページを分析して好適な軸を決定し、それにより軸の定義を提供し、第2のページを、第1のページにより定義された軸に対して回転的に修正することができる。これによっても、等価の結果を得られる。
【0041】
複数のページを修正することが望まれる応用例では、本方法を特に回数を定めずに反復することができ、その場合においては、全ページが修正されたかを判定するためにテストを行い(判断ボックス62)、されていない場合には新たなページを選択し(ステップ64)、全ページが修正されるまで、示されたループでページ入力ステップ50へ戻ることを繰り返す。
【0042】
幾つかの応用例では、イメージを回転的に修正する方法は、上述のように、有用な結果である回転的に修正されたドキュメントを生成するのにそれ自体で十分である。このような回転的に修正されたドキュメントは、光学的文字認識(OCR)のような角度に敏感なプロセスに用いることができる。
【0043】
1つの実施形態では、本方法は、修正されたページの相関を行う(図2のステップ32)。図8に示すように、回転的にアライメントされたページ、各対がターゲット・ページと基準ページとを含む対として選択される(ステップ70)。次に、この2つのページは、相互に相関される(ステップ72)。この処理は、以下に説明するように、光学相関器により最も効率的に行われる。
【0044】
本発明の回転的アライメントおよび相互相関の段階は、共働してテキスト・マッチングを行う。なぜなら、相互相関処理は、回転的にアライメントされていないイメージからは、正確な相関ピークを生じないからである。
【0045】
相互相関の後で、出力イメージが、相関強度ピークの存在に関して、分析される(ステップ74)。相関強度ピークが存在すれば、それは、基準ページとターゲット・ページとの間でのテキストの一致を示す。本発明の利点は、ページを完全に位置合わせする必要が無いことである。ページが僅かに上側や横側へずれても、適切な相関ピークを検出することができる(ただし、相関イメージ上で僅かに位置がずれる)。データ・プロセッサ12は、相関イメージのマトリクスをサーチして、ピーク相関を見つける。実際には、重複テキスト・ページを識別するには約0.6の相関値で十分であることが分かっている。ここでは、1.0が完全な相関、0.0が全く相関のないランダム・ノイズである。特定の応用例で用いる実際のスレッショルド値は、結果に要求される統計的信頼性によって変わる。
【0046】
幾つかの応用例では、基準ページをデータベース内の全ページと比較するのが望ましい。これは、図8に示すように、サーチ・ループ76を実行し、全ターゲット・ページが比較されたかどうかを検出するテストを行い(判断ボックス77)、比較されていない場合に、ページ選択ステップ70へとループを戻ることにより、達成することができる。更に、データベースの全ページを全ての他のページと比較することが望ましい場合には、示されているように、サーチ・ループ76を別のサーチ・ループ78内にネストすることができ、その場合においては、全基準ページが比較されたかどうかをテストし(判断ボックス79)、比較されていない場合に、ステップ70へとループを戻り、その結果として、各ページが一度は基準ページとして使用され、全ての他のページとシーケンシャルに比較される。多くのサーチ方法が可能であり、それらもまた、本発明、即ち、イメージを回転的にアライメントして比較する方法の範囲内にある。
【0047】
本発明の利点は、どのようなイメージのフーリエ変換でも、回転的アライメントの段階でいったん計算されると、相関の段階で用いるためにRAM13又はデータベース16にセーブできるので、それを再計算する必要がないことである。フーリエ変換イメージは、周波数領域において直接に回転させることができ、次に、光学相関器(以下に説明する)のフィルタSLM入力への入力として用いられるか、フーリエ変換領域におけるデジタル相関に用いられる。変換領域においてイメージを回転させることは、広く知られているように、それを空間領域で回転させてから変換することと等価である。このフーリエ変換の再使用により、計算時間を極めて大幅に節約できる。
【0048】
光学相関器によるイメージ相関は公知である。例えば、Lucas他への米国特許第5311359号や、Andersonへの米国特許第5148496号を参照するとよい。これらの米国特許は、共に、デジタル化されピクセル化されたイメージの相互相関を行えるコンパクトな光学的相関器を開示している。これらの装置の動作原理は、上記の米国特許で論じられている。その動作は、まとめると以下の通りである。デジタル電子入力イメージが、ピクセルごとに、入力空間光変調器(SLM)に書き込まれる。このSLMは、光学相関器の内部にあり、コヒーレントな光ビームを変調する。変調されたビームは光学的にフーリエ変換されるが、この変換は、第2のすなわち「フィルタ」SLMを対象とする。フィルタSLMは、別のイメージを用いてピクセルごとに電子的に変調され、この別のイメージは、比較イメージのフーリエ変換である(通常はデジタル的に得られる)。次に、2回変調したビームは逆フーリエ変換され、結果的なイメージが光検出器アレイにより読み取られ、入力イメージと比較イメージとの相互相関である出力イメージが提供される。
【0049】
本発明において光学相関器を使用するために、データ・プロセッサ12の制御の下に、ターゲット・イメージと基準イメージとの一方が、光学相関器18の入力イメージ入力80へ出力される(図1を参照)。他方のイメージのデジタル的に得られた二次元フーリエ変換は、同様に、光学相関器のフィルタ入力82へ書き込まれる。相関器の出力84は、次に、データ・プロセッサ12により読み取られる。
【0050】
相互相関処理は、別の方法で行うこともでき、これは、広く知られた方法によるデータ・プロセッサを用いての空間または周波数領域におけるデジタル計算を含む。このような別の方法およびそれらと等価の方法もまた、本発明の意図される範囲内にある。しかし、光学相関器を使用すると、典型的に、相関を数倍速く行うことができる。
【0051】
また、テキスト以外の特定のタイプのイメージも好適な方向における強い周期的成分を用いて見つけられる、ということが認識されている。例えば、周期的な海の波のパターンの航空写真や、電気泳動的に分離したDNAシーケンスも、本発明による分析を行うことができる。このようなイメージは、また、本発明に従った回転的アライメントおよびフーリエ変換による相関による分析に、良く適合する。また、例えば、既知の方向に較正された平行線模様のような認識可能性が高い先に定義した周期的パターンを用いて、イメージ獲得の間にイメージにマークを付けることもできる。獲得したイメージにおいて結果的に得られたピークは、相関のためにイメージを回転的にアライメントするのに用いられる。従って、本発明は、テキストに対して用いることに制限されるものではなく、任意のイメージ又はデータに対して用いることができる。
【0052】
本発明の幾つかの例示的な実施形態を示し、説明したが、当業者は、複数の変形例および別の実施形態を思い浮かべるであろう。例えば、「基準ページ」は、テキストの完全なページではなく、1つの単語や句でもよい。その場合、本発明は、ターゲット・ページの集合を、その単語または句を求めてサーチする。本発明は、上記では、縦長の書式に関連して説明したが、本方法は、軸を回転させることにより、横長の書式のドキュメントに適用することもできる。本発明は、1ビット、二進イメージ(それぞれのピクセルが1又は0にセットされて黒または白を表すピクセルのアレイ)に適用されたときに、首尾良く動作して適切な結果を生じるが、複数レベルの強度の解像度でも優れた相関信号を生成する(速度を幾らか犠牲にするが)。複数レベルの強度情報を持つイメージは、各ピクセルの強度をスレショルド値と比較すること(スレッショルド処理)により、二進強度表現に変換できる。データ・プロセッサは、フーリエ変換及び/又は線形回帰分析を行う専用の信号処理装置を用いたパラレル処理を含むことができる。これらのような変形および別の実施形態は予期されるものであり、冒頭の特許請求の範囲において定義された本発明の精神および範囲が逸脱せずに構成可能である。
【図面の簡単な説明】
【図1】 本発明の装置のブロック図である。
【図2】 本発明を実現する好適な方法のフローチャートである。
【図3】 テキストのページの例を示す。
【図4】 図3の例示的なページのフーリエ変換に対するグラフであり、水平軸にとった周波数に対して、パワー・スペクトル密度(垂直軸)がy成分として示されている。
【図5】 x−y面で2度だけ回転されているフーリエ変換された例示的テキスト・ページの、x軸およびy軸それぞれにおけるx周波数およびy周波数に関するパワー・スペクトル密度(濃い点で示す)の分布のグラフである。
【図6】 図2の回転の検出および回転修正のステップの好適な実施形態を示すフローチャートである。
【図7】 一般化された周波数領域フィルタの通過帯域特性のグラフである。ここで、伝達関数は、Kx、Ky周波数平面におけるxおよびy周波数成分に従って変化し、これを用いて、ページの周波数コンポーネントを、線形回帰分析の前に、予めフィルタリングすることができる。
【図8】 図2の相関ステップの詳細を示すフローチャートである。
Claims (11)
- イメージ化された複数のページ(40)間の類似の程度を判断する方法であって、
基準ページとターゲット・ページとを、共にイメージ形式で提供するステップと、
前記ターゲット・ページと基準ページとの少なくとも一方のページを回転的にアライメントするステップ(30)であって、この回転的なアライメントは、(a)前記少なくとも一方のページの2次元フーリエ変換を実行して(52)2次元パワー・スペクトル密度分布を得ることによって、該ページにおける周期的成分を識別するステップと、(b)前記パワー・スペクトル密度分布の線形回帰分析を実行して(56)、前記少なくとも一方のページの前記パワー・スペクトル密度分布に最も適合する、ページ軸の基準軸に対する角度を計算することによって、前記少なくとも一方のページにおける前記周期的成分と方向が対応するページ軸を見つけるステップと、(c)前記少なくとも一方のページを、このページが前記基準軸とアライメントするまで前記角度だけ回転させるステップ(60)とによって行われるステップ(30)と、
前記ターゲット・ページと前記基準ページとを二次元的に相互相関させ(72)、相互相関イメージを生じさせるステップと、
前記相互相関イメージを分析し(74)、前記基準ページと前記ターゲット・ページとの間の類似性を示す相関ピークの存在を判断するステップと、
を含むことを特徴とする方法。 - 請求項1に記載の方法において、前記ページ軸を見つけるステップは、
前記線形回帰分析を行う(56)前に、周波数領域においてフィルタ機能により前記パワー・スペクトル密度分布を修正するステップ(54)
を更に含むことを特徴とする方法。 - 請求項2に記載の方法において、前記ターゲット・ページと基準ページとはテキストを含むことを特徴とする方法。
- 請求項2に記載の方法において、前記パワー・スペクトル密度分布を修正するステップ(54)は、角ウェッジ・フィルタを用いて前記パワー・スペクトル密度分布をフィルタリングし角ウェッジ外部のパワー・スペクトル密度信号を減衰させるステップを含むことを特徴とする方法。
- 請求項4に記載の方法において、前記パワー・スペクトル密度分布を修正するステップ(56)は、環状周波数フィルタを用いて前記パワー・スペクトル密度分布をフィルタリングするステップを更に含むことを特徴とする方法。
- 請求項1に記載の方法において、前記ターゲット・ページと基準ページ(40)とを相互相関させるステップ(72)は、
前記ターゲット・ページと前記基準ページとを、前記ページの前記相互相関を光学的に計算する光学相関器(18)に入力するステップ(50)と、
前記光学相関器(18)の出力を読み取り、前記相互相関イメージを得るステップと
を含むことを特徴とする方法。 - 歪みのあるイメージを定義された基準軸に対して回転的にアライメントする方法であって、
ページ(40)をデジタル化されたイメージ形式で提供するステップと、
前記ページ(40)を回転的にアライメントするステップであって、この回転的なアライメントは、(a)前記ページの2次元フーリエ変換を実行して(52)2次元パワー・スペクトル密度分布を得ることによって、該ページにおける周期的成分を識別するステップ(52)と、(b)前記パワー・スペクトル密度分布の線形回帰分析を実行して(56)、前記ページの前記パワー・スペクトル密度分布に最も適合する、ページ軸の基準軸に対する角度を計算することによって、前記ページにおける前記周期的成分と方向が最もよく対応するページ軸を見つけるステップと、(c)前記ページ(40)をこのページが前記基準軸とアライメントするまで前記角度だけ回転させるステップ(60)とによって行われるステップと、
を含むことを特徴とする方法。 - 請求項7に記載の方法において、前記ページ(40)はテキストを含むことを特徴とする方法。
- 請求項7に記載の方法において、前記ページ軸を見つけるステップは、
前記線形回帰分析を実行するステップの前に、周波数領域におけるフィルタ機能によって前記パワー・スペクトル密度分布を修正するステップ
を更に含むことを特徴とする方法。 - 請求項9記載の方法において、前記パワー・スペクトル密度分布を修正するステップ(54)は、角ウェッジ・フィルタを用いて前記パワー・スペクトル密度分布をフィルタリングし角ウェッジ外部のパワー・スペクトル密度信号を減衰させるステップを含むことを特徴とする方法。
- 請求項10に記載の方法において、前記パワー・スペクトル密度分布を修正するステップ(54)は、環状周波数フィルタを用いて前記パワー・スペクトル密度分布をフィルタリングするステップを更に含むことを特徴とする方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/289,082 | 1999-04-08 | ||
US09/289,082 US6285802B1 (en) | 1999-04-08 | 1999-04-08 | Rotational correction and duplicate image identification by fourier transform correlation |
PCT/US2000/008991 WO2000062245A1 (en) | 1999-04-08 | 2000-04-05 | Rotational correction and duplicate image identification by fourier transform correlation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002541598A JP2002541598A (ja) | 2002-12-03 |
JP4527885B2 true JP4527885B2 (ja) | 2010-08-18 |
Family
ID=23109983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000611238A Expired - Fee Related JP4527885B2 (ja) | 1999-04-08 | 2000-04-05 | フーリエ変換の相関による回転の修正および重複イメージの識別 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6285802B1 (ja) |
EP (1) | EP1185951B1 (ja) |
JP (1) | JP4527885B2 (ja) |
DE (1) | DE60037416T2 (ja) |
WO (1) | WO2000062245A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6741743B2 (en) * | 1998-07-31 | 2004-05-25 | Prc. Inc. | Imaged document optical correlation and conversion system |
US6674919B1 (en) * | 1999-09-21 | 2004-01-06 | Matsushita Electric Industrial Co., Ltd. | Method for determining the skew angle of a two-dimensional barcode |
DE10156040B4 (de) * | 2001-11-15 | 2005-03-31 | Océ Document Technologies GmbH | Verfahren, Vorrichtung und Computerprogramm-Produkt zum Entzerren einer eingescannten Abbildung |
US6983084B2 (en) * | 2002-05-17 | 2006-01-03 | Hewlett-Packard Development Company, Lp. | Method of aligning page images |
US20110188759A1 (en) * | 2003-06-26 | 2011-08-04 | Irina Filimonova | Method and System of Pre-Analysis and Automated Classification of Documents |
RU2003108433A (ru) * | 2003-03-28 | 2004-09-27 | Аби Софтвер Лтд. (Cy) | Способ предварительной обработки изображения машиночитаемой формы |
RU2635259C1 (ru) | 2016-06-22 | 2017-11-09 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способ и устройство для определения типа цифрового документа |
US20050276454A1 (en) * | 2004-06-14 | 2005-12-15 | Rodney Beatson | System and methods for transforming biometric image data to a consistent angle of inclination |
GB0616688D0 (en) | 2006-08-23 | 2006-10-04 | Qinetiq Ltd | Target orientation |
US20090092340A1 (en) * | 2007-10-05 | 2009-04-09 | Microsoft Corporation | Natural language assistance for digital image indexing |
US8139894B2 (en) | 2007-12-20 | 2012-03-20 | Intel Corporation | Automatic dominant orientation estimation in text images based on steerable filters |
US20170147577A9 (en) * | 2009-09-30 | 2017-05-25 | Gennady LAPIR | Method and system for extraction |
EP2320390A1 (en) * | 2009-11-10 | 2011-05-11 | Icar Vision Systems, SL | Method and system for reading and validation of identity documents |
US8798388B2 (en) * | 2009-12-03 | 2014-08-05 | Qualcomm Incorporated | Digital image combining to produce optical effects |
US9063954B2 (en) | 2012-10-15 | 2015-06-23 | Google Inc. | Near duplicate images |
US11373388B2 (en) * | 2017-07-24 | 2022-06-28 | United States Postal Service | Persistent feature based image rotation and candidate region of interest |
KR102440860B1 (ko) * | 2021-04-28 | 2022-09-06 | 창원대학교 산학협력단 | 패턴 정렬 시 오차 측정 방법 |
KR102601175B1 (ko) * | 2021-04-28 | 2023-11-10 | 창원대학교 산학협력단 | 딥러닝 모델을 이용하여 주기적인 패턴을 정렬하는 장치 및 방법 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3599147A (en) | 1967-09-12 | 1971-08-10 | Nat Res Dev | Character recognition systems and apparatus |
US3993976A (en) | 1974-05-13 | 1976-11-23 | The United States Of America As Represented By The Secretary Of The Air Force | Method and apparatus for pattern analysis |
EP0020897B1 (de) | 1979-06-26 | 1983-11-16 | International Business Machines Corporation | Vorrichtung zur Bestimmung des optimalen Abtastwinkels von Druckschriften |
US4539651A (en) | 1983-02-09 | 1985-09-03 | Ludman Jacques E | Optical correlator |
US4558461A (en) | 1983-06-17 | 1985-12-10 | Litton Systems, Inc. | Text line bounding system |
US4513441A (en) | 1983-08-02 | 1985-04-23 | Sparta, Inc. | Image comparison system |
US4635278A (en) * | 1983-09-12 | 1987-01-06 | Sanders Associates, Inc. | Autoregressive digital telecommunications system |
US4723297A (en) | 1984-09-27 | 1988-02-02 | Siemens Aktiengesellschaft | Method for automatic correction of character skew in the acquisition of a text original in the form of digital scan results |
WO1987003981A1 (en) | 1985-12-20 | 1987-07-02 | Dietmar Steinpichler | Pattern recognition process |
US4817176A (en) | 1986-02-14 | 1989-03-28 | William F. McWhortor | Method and apparatus for pattern recognition |
US4764973A (en) | 1986-05-28 | 1988-08-16 | The United States Of America As Represented By The Secretary Of The Air Force | Whole word, phrase or number reading |
US4892408A (en) * | 1988-03-03 | 1990-01-09 | Grumman Aerospace Corporation | Reference input patterns for evaluation and alignment of an optical matched filter correlator |
US5001766A (en) | 1988-05-16 | 1991-03-19 | At&T Bell Laboratories | Apparatus and method for skew control of document images |
JP2527807B2 (ja) | 1989-05-09 | 1996-08-28 | 住友大阪セメント株式会社 | 光学的連想識別装置 |
US5061063A (en) | 1989-10-30 | 1991-10-29 | Philip Morris Incorporated | Methods and apparatus for optical product inspection |
JPH0670798B2 (ja) | 1989-11-20 | 1994-09-07 | 住友セメント株式会社 | 光学的パターン認識方法 |
US5187753A (en) | 1989-12-08 | 1993-02-16 | Xerox Corporation | Method and apparatus for identification and correction of document skew |
JP3023694B2 (ja) | 1990-07-27 | 2000-03-21 | セイコーインスツルメンツ株式会社 | 多参照画像用光パターン認識方法 |
US5148496A (en) | 1990-12-24 | 1992-09-15 | Litton Systems, Inc. | Optical correlator with symmetric reflective optics |
US5528702A (en) | 1991-05-31 | 1996-06-18 | Seiko Instruments Inc. | Optical pattern recognition apparatus with coordinate conversion function |
US5235651A (en) | 1991-08-06 | 1993-08-10 | Caere Corporation | Rotation of images for optical character recognition |
FR2681454B1 (fr) * | 1991-09-16 | 1995-08-18 | Aerospatiale | Procede et dispositif de traitement d'informations alphanumeriques et graphiques pour la constitution d'une banque de donnees. |
US5452374A (en) * | 1992-04-06 | 1995-09-19 | Ricoh Corporation | Skew detection and correction of a document image representation |
US5311359A (en) | 1992-12-24 | 1994-05-10 | Litton Systems, Inc. | Reflective optical correlator with a folded asymmetrical optical axis |
JP3303246B2 (ja) * | 1992-12-28 | 2002-07-15 | 株式会社リコー | 画像処理装置 |
US5583956A (en) | 1993-01-12 | 1996-12-10 | The Board Of Trustees Of The Leland Stanford Junior University | Estimation of skew angle in text image |
US5513304A (en) * | 1993-04-19 | 1996-04-30 | Xerox Corporation | Method and apparatus for enhanced automatic determination of text line dependent parameters |
JPH0778251A (ja) * | 1993-07-22 | 1995-03-20 | Xerox Corp | ソースベリファイ方法 |
JPH0737103A (ja) | 1993-07-23 | 1995-02-07 | Olympus Optical Co Ltd | 傾き角度検出装置 |
US5619596A (en) | 1993-10-06 | 1997-04-08 | Seiko Instruments Inc. | Method and apparatus for optical pattern recognition |
US5420441A (en) * | 1993-11-23 | 1995-05-30 | Eastman Kodak Company | Automated technique for calibrating a storage phosphor reader |
JP3338537B2 (ja) * | 1993-12-27 | 2002-10-28 | 株式会社リコー | 画像傾き検出装置 |
GB9413413D0 (en) | 1994-07-04 | 1994-08-24 | At & T Global Inf Solution | Apparatus and method for testing bank-notes |
US5841907A (en) | 1994-11-14 | 1998-11-24 | The University Of Connecticut | Spatial integrating optical correlator for verifying the authenticity of a person, product or thing |
JPH09293082A (ja) * | 1996-04-26 | 1997-11-11 | Toshiba Corp | 画像検索装置及び画像検索方法 |
US5764383A (en) * | 1996-05-30 | 1998-06-09 | Xerox Corporation | Platenless book scanner with line buffering to compensate for image skew |
-
1999
- 1999-04-08 US US09/289,082 patent/US6285802B1/en not_active Expired - Lifetime
-
2000
- 2000-04-05 EP EP00921695A patent/EP1185951B1/en not_active Expired - Lifetime
- 2000-04-05 WO PCT/US2000/008991 patent/WO2000062245A1/en active IP Right Grant
- 2000-04-05 DE DE60037416T patent/DE60037416T2/de not_active Expired - Lifetime
- 2000-04-05 JP JP2000611238A patent/JP4527885B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1185951A1 (en) | 2002-03-13 |
EP1185951B1 (en) | 2007-12-12 |
WO2000062245A1 (en) | 2000-10-19 |
DE60037416T2 (de) | 2008-04-17 |
US6285802B1 (en) | 2001-09-04 |
DE60037416D1 (de) | 2008-01-24 |
JP2002541598A (ja) | 2002-12-03 |
EP1185951A4 (en) | 2006-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4527885B2 (ja) | フーリエ変換の相関による回転の修正および重複イメージの識別 | |
Ye et al. | Robust registration of multimodal remote sensing images based on structural similarity | |
Sun et al. | Skew and slant correction for document images using gradient direction | |
US6873732B2 (en) | Method and apparatus for resolving perspective distortion in a document image and for calculating line sums in images | |
EP1202552B1 (en) | Method for generating and detecting watermarks | |
KR101399709B1 (ko) | 모델-기반 디워핑 방법 및 장치 | |
US8090218B2 (en) | Imaging system performance measurement | |
US8942512B2 (en) | Methods and systems for processing a first image with reference to a second image | |
US20100073735A1 (en) | Camera-based document imaging | |
Chaudhuri et al. | Robust detection of skew in document images | |
US20080031524A1 (en) | Increasing Accuracy of Discrete Curve Transform Estimates for Curve Matching in Higher Dimensions | |
US7139432B2 (en) | Image pattern matching utilizing discrete curve matching with a mapping operator | |
JP2004129259A (ja) | 射影変換を用いたマークの埋め込み又は検出を行う方法及び装置 | |
Lee et al. | Skewed rotation symmetry group detection | |
US8208756B2 (en) | Alpha-masked RST image registration | |
US20020164055A1 (en) | Fingerprint/palmprint image processor and processing method | |
JP2002074351A (ja) | 歪み補正装置およびその方法ならびに歪み補正プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
EP3764319B1 (en) | Image comparison device | |
JP2008252856A (ja) | 画像の補正方法、補正プログラムおよび画像歪み補正装置 | |
JP4587181B2 (ja) | 情報処理装置の動作方法、記憶媒体、情報処理装置 | |
US6701029B1 (en) | Ring-wedge data analysis of digital images | |
US7171048B2 (en) | Pattern matching system utilizing discrete curve matching with a mapping operator | |
Paunwala et al. | An efficient skew detection of license plate images based on wavelet transform and principal component analysis | |
US7120301B2 (en) | Efficient re-sampling of discrete curves | |
JP3303246B2 (ja) | 画像処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100517 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100604 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |