JP2017500662A - 投影ひずみを補正するための方法及びシステム - Google Patents

投影ひずみを補正するための方法及びシステム Download PDF

Info

Publication number
JP2017500662A
JP2017500662A JP2016541592A JP2016541592A JP2017500662A JP 2017500662 A JP2017500662 A JP 2017500662A JP 2016541592 A JP2016541592 A JP 2016541592A JP 2016541592 A JP2016541592 A JP 2016541592A JP 2017500662 A JP2017500662 A JP 2017500662A
Authority
JP
Japan
Prior art keywords
text
pixel
image
point
vertical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016541592A
Other languages
English (en)
Other versions
JP6542230B2 (ja
Inventor
マー、ジャングリン
ダウ、ミシェル
ミューレネール、ピエール ドゥ
ミューレネール、ピエール ドゥ
デュボン、オリヴィエ
Original Assignee
イ.エル.イ.エス.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/136,695 external-priority patent/US8811751B1/en
Priority claimed from US14/136,501 external-priority patent/US8913836B1/en
Priority claimed from US14/136,585 external-priority patent/US8897600B1/en
Application filed by イ.エル.イ.エス. filed Critical イ.エル.イ.エス.
Publication of JP2017500662A publication Critical patent/JP2017500662A/ja
Application granted granted Critical
Publication of JP6542230B2 publication Critical patent/JP6542230B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3872Repositioning or masking
    • H04N1/3873Repositioning or masking defined only by a limited number of coordinate points or parameters, e.g. corners, centre; for trimming

Abstract

透視図法によってひずみを受ける少なくとも1つのテキスト部分を含む画像の投影補正のための方法、システム、デバイス及びコンピュータ・プログラム製品。本方法は、前記画像を2値化することを必要とする画像2値化のステップを含んでいる。本方法は、連結成分分析を含んでいる。ピクセル・ブロブは、連結成分分析における前記2値化された画像の前記少なくとも1つのテキスト部分において検出される。本方法は、前記ピクセル・ブロブの固有ポイントを用いて、テキスト・ベースラインを推定するステップと、前記テキスト・ベースラインを用いて、前記少なくとも1つのテキスト部分の水平消失ポイントを決定するステップとを含む水平消失ポイント決定を含んでいる。本方法はまた、垂直消失ポイント決定を含んでもいる。垂直消失ポイントは、その垂直の特徴に基づいて、前記少なくとも1つのテキスト部分について決定される。本方法は、投影補正を含んでいる。前記画像における透視図法は、前記の水平及び垂直の消失ポイントに基づいて補正される。

Description

本発明は、投影ひずみを補正するための方法、システム、デバイス及びコンピュータ・プログラム製品に関する。
デジタル・カメラ(以下ではカメラと称される)が、画像を取り込むために使用されることもある。技術における進化とともに、デジタル・カメラは、ほとんどすべてのタイプのデジタル・デバイスにおいて、実装される。そのようなデジタル・デバイスの実例は、それだけには限定されないが、モバイル通信デバイスと、タブレットと、ラップトップと、携帯型個人情報端末(PDA:Personal Digital Assistant)とを含む。多数の例においては、カメラがドキュメントの画像を取り込むために使用され得るので、カメラはドキュメント・スキャナについての代替手段としての役割を果たすことができる。ドキュメントの画像は、テキスト認識及び/又はテキスト抽出の前に処理される必要がある可能性がある。ドキュメントの画像の処理は、2つの主要な困難な課題をすなわち、好ましくない撮像状態に起因した取り込まれた画像の不十分な画像品質と、取り込まれた画像におけるひずみとを課す。ひずみは、カメラ、及び/又は画像を取り込みながらドキュメントのプレーンに対するカメラの角度及び位置に起因したものとすることができる。後者に起因したひずみは、投影ひずみとして知られている。投影ひずみにおいては、テキストのシンプトン又はキャラクタは、カメラ・プレーンに近づけば近づくほど、より大きく見え、遠くに離れれば離れるほど、サイズが縮小するように見える。画像の品質を改善するための知られている技法が存在している。しかしながら、画像の品質を改善することは、ドキュメントの画像が、とりわけ、投影ひずみを受けているときには、テキストの認識及び/又は抽出において、助けにならない可能性がある。投影ひずみは、テキストの視覚的解釈を乱すだけでなく、テキスト認識アルゴリズムの精度に影響を及ぼすこともある。
投影ひずみを補正するための既存の技法が存在している。投影ひずみの補正を実行するための現在知られている技法のうちの1つは、補助データを使用している。補助データは、方向測定データと、加速度計データと、距離測定データとの組合せを含むことができる。しかしながら、そのような補助データは、様々なセンサ及び/又は処理能力の欠如に起因して、すべての電子デバイスにおいて、使用可能でないこともある。いくつかの他の技法は、投影ひずみの手動補正を考察している。1つのそのような技法は、ユーザがひずみの前に、2つの水平ライン・セグメントと、2つの垂直ライン・セグメントとによって形成される長方形であるように使用した四辺形の4つのコーナーを手動で、識別し、マーク付けすることを必要としている。別の技法は、ユーザがひずみの前に水平ライン又は垂直ラインに対応する平行ラインを識別し、マーク付けすることを必要としている。それらのコーナー又は平行ラインに基づいて、投影ひずみの補正が実行される。しかしながら、投影ひずみの手動補正は時間がかかり、非効率的であり、エラーを起こしやすい。
投影ひずみアルゴリズムの自動補正のための技法もまた、存在している。これらの技法は、水平消失ポイントと、垂直消失ポイントとを識別することに焦点を当てたものである。それらの消失ポイントは、そこで画像の中のドキュメントの外形(例えば、水平の外形又は垂直の外形)が、あるポイントに収束するポイントのことを意味することができる。それらの技法は、水平消失ポイントと、垂直消失ポイントとを使用して投影ひずみの補正を実行する。しかしながら、ほとんどの技法は、補正のための複雑な手動パラメータ設定を必要とする。画像のコンテンツが変化する場合、パラメータは、手動で変更される必要がある。これは、それらの技法の能力を制限する。さらに、既存の技法は、計算的に費用がかかり、モバイル通信デバイスなど、小型のデバイスにおいて実施することを難しくしている。さらに、ほとんどの技法は、ドキュメント画像がテキストだけを含むという仮定の上で機能する。テキストと、ピクチャとの組合せを有するドキュメント画像の場合には、それらの技法は、全く有用な1つ又は複数の結果を生成しない可能性がある。それらの技法のうちの多くは、ドキュメントの画像の中のテキストが特定のやり方で形成され、且つ/又は位置づけられるという仮定の上で機能する。そのようにして、画像の中のテキストが特定のやり方で形成され、且つ/又は位置づけられるときに、それらの技法は、失敗する。
Martin A.Fischer及びRobert C.Bolles、「Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography」、Comm. of the ACM 24 (6):381〜395頁、1981年6月
ひずみのある画像の投影補正を実行するための方法、システム、デバイス及び/又はコンピュータ・プログラム製品を提供することが、本発明の目的であり、これは、上記で述べられた欠点のうちの少なくとも1つを示してはいない。
この目的は、独立請求項において規定されるように、本発明に従って達成される。
本明細書において説明される他の態様と組み合わされることもある、本発明の第1の態様によれば、透視図法によってひずみを受ける少なくとも1つのテキスト部分を含む画像の投影補正のための方法が開示される。本方法は、画像2値化のステップを含んでおり、ここでは、前記画像が2値化される。その後に、本方法は、連結成分分析を実行するステップを含んでいる。連結成分分析は、前記2値化された画像の前記少なくとも1つのテキスト部分において、ピクセル・ブロブを検出するステップを必要とする。その後に、本方法は、水平消失ポイント決定のステップを含んでいる。水平消失ポイント決定は、前記ピクセル・ブロブの固有ポイントを用いて、テキスト・ベースラインを推定するステップと、前記テキスト・ベースラインを用いて前記少なくとも1つのテキスト部分の水平消失ポイントを決定するステップとを含む。本方法は、その垂直の特徴に基づいて、前記少なくとも1つのテキスト部分についての垂直消失ポイント決定のステップをさらに含んでいる。前記方法は、前記の水平消失ポイントと、垂直消失ポイントとに基づいて、前記画像における前記透視図法を補正するステップを必要とする投影補正のステップをさらに含んでいる。
第1の態様による実施例においては、テキストとピクチャとの分離のステップは、前記画像2値化の後、且つ前記連結成分分析の前に実行され、テキスト情報だけが保持される。
第1の態様による実施例においては、各固有ポイントは、それぞれのピクセル・ブロブの境界ボックスの底部の中心とすることができる。テキスト・ベースラインを推定するステップは、混同させる(confusing)固有ポイントの除去のステップを含むことができる。考慮している固有ポイントの近くにおいて、固有ポイントに関するラインを外れている混同させる固有ポイントは、検出される可能性がある。混同させる固有ポイントは、前記テキスト・ベースライン推定のために無視されることもある。
第1の態様による実施例においては、混同させる固有ポイントの除去ステップは、ピクセル・ブロブの幅と、高さとを決定するステップと、ピクセル・ブロブの幅と、高さとについての平均値を決定するステップと、考慮しているピクセル・ブロブの幅と、高さとのうちの少なくとも一方が、前記算出された平均値から所定の範囲だけ異なるピクセル・ブロブに属する固有ポイントとして前記混同させる固有ポイントを検出するステップとを含むことができる。
第1の態様による実施例においては、テキスト・ベースラインを推定する前記ステップは、固有ポイントを固有ポイント・グループへとクラスタ化するステップを含むことができる。前記固有ポイント・グループは、以下の複数の条件、すなわち、
− グループの固有ポイントの間のポイント・ツー・ポイント距離が、第1の距離しきい値よりも下にある条件と、
− グループの各固有ポイントと、グループの固有ポイントによって形成されるラインとの間のポイント・ツー・ライン距離が、第2の距離しきい値よりも下にある条件と、
− グループの固有ポイントによって形成されるラインのオフ水平角度が、最大角度よりも下にある条件と、
− 固有ポイント・グループが、最小の数の固有ポイントを含んでいる条件と
のうちの少なくとも1つを満たすことができる。前記テキスト・ベースラインは、前記固有ポイント・グループに基づいて、推定されることもある。
第1の態様による実施例においては、前記第1の距離しきい値と、前記第2の距離しきい値と、前記最大角度と、前記最小の数の固有ポイントとは、画像のコンテンツに基づいて、適応的に設定されることもある。テキスト・ベースラインを推定する前記ステップは、固有ポイント・グループ・マージングのステップをさらに含むことができる。無視された固有ポイントの両側の上の固有ポイント・グループは、より大きな固有ポイント・グループへとマージされることもある。
第1の態様による実施例においては、水平消失ポイントを決定する前記ステップは、前記推定されたテキスト・ベースラインのそれぞれをデカルト座標系におけるラインとして規定するステップと、デカルト座標系において規定される前記テキスト・ベースラインのそれぞれを同次座標系におけるデータ・ポイントへと変換するステップと、信頼度レベルをデータ・ポイントのそれぞれに割り当てるステップとを含むことができる。前記信頼度レベルは、それぞれのテキスト・ベースラインの少なくとも長さと、テキスト・ベースラインを推定するために使用される固有ポイントのグループと、結果として生ずるテキスト・ベースラインとの近接性とに基づいたものとすることができる。
第1の態様による実施例においては、水平消失ポイントを決定する前記ステップは、所定のしきい値よりも上の信頼度レベルを有するいくつかのデータ・ポイントを優先順位サンプル・アレイへとグループ分けするステップと、優先順位サンプル・アレイの中のデータ・ポイントをいくつかのサンプル・グループへとクラスタ化するステップと、サンプル・グループの中の各データ・ポイントに割り当てられる少なくとも信頼度レベルに基づいて、グループ信頼度値を各サンプル・グループに割り当てるステップと、ライン・フィッティングのために優先順位サンプル・アレイからデータ・ポイントのサンプル・グループを反復的に選択するステップと、をさらに含むことができる。各サンプル・グループは、2つ以上のデータ・ポイントを含むことができる。前記反復は、優先順位サンプル・アレイにおける、最高の信頼度値を有するサンプル・グループから開始することができる。
第1の態様による実施例においては、水平消失ポイントを決定する前記ステップは、第1の適合されたラインをもたらす第1のサンプル・グループについてライン・フィッティングを実行するステップと、さらなる適合されたラインをもたらすそれぞれのさらなるサンプル・グループについてライン・フィッティングをその後に実行するステップと、第1の適合されたラインと、さらなる適合されたラインとに基づいて、第1の適合されたラインからの所定の距離しきい値よりも下に位置づけられるデータ・ポイントの組を決定するステップと、データ・ポイントの決定された組に対応する水平テキスト・ベースラインから少なくとも第1及び第2の水平消失ポイント候補を推定するステップと、を含むことができる。
第1の態様による実施例においては、水平消失ポイントを決定する前記ステップは、それぞれの推定された水平消失ポイント候補に基づいて、投影補正を実行するステップと、投影補正の後に結果として生ずる水平テキスト方向に対する各水平消失ポイント候補の近接性を比較するステップと、投影補正の後に画像ドキュメントの水平テキスト方向に最も近い水平消失ポイント候補を選択するステップとを含むことができる。
第1の態様による実施例においては、垂直消失ポイントを決定する前記ステップは、それぞれが、画像のテキスト部分に対するブロブ・フィルタリング・アルゴリズムによって選択される前記ピクセル・ブロブのうちの選択された1つの方向に対応する、複数の垂直テキスト・ラインを推定するステップと、デカルト座標系におけるラインとして、前記推定された垂直テキスト・ラインのそれぞれを規定するステップと、デカルト座標系において推定される前記垂直テキスト・ラインのそれぞれを同次座標系におけるデータ・ポイントへと変換するステップと、信頼度レベルをデータ・ポイントのそれぞれに割り当てるステップとを含むことができる。前記信頼度レベルは、それぞれの垂直テキスト・ラインを推定するために使用されるピクセル・ブロブの形状の少なくとも偏心度に基づいたものとすることができる。
第1の態様による実施例においては、垂直消失ポイントを決定する前記ステップは、所定のしきい値よりも上の信頼度レベルを有するいくつかのデータ・ポイントを優先順位サンプル・アレイへとグループ分けするステップと、優先順位サンプル・アレイの中のデータ・ポイントをいくつかのサンプル・グループへとクラスタ化するステップとを含むことができる。各サンプル・グループは、少なくとも2つのデータ・ポイントを含むことができる。垂直消失ポイントを決定する前記ステップは、サンプル・グループの中の各データ・ポイントに割り当てられる信頼度レベルに基づいてグループ信頼度値を各サンプル・グループに割り当てるステップと、ライン・フィッティングのために、優先順位サンプル・アレイからデータ・ポイントのサンプル・グループを反復的に選択するステップとを含む。前記反復は、優先順位サンプル・アレイにおける最高のグループ信頼度値を有するサンプル・グループから開始することができる。
第1の態様による実施例においては、垂直消失ポイントを決定する前記ステップは、第1の適合されたラインをもたらす第1のサンプル・グループについてライン・フィッティングを実行するステップと、さらなる適合されたラインをもたらすそれぞれのさらなるサンプル・グループについてライン・フィッティングをその後に実行するステップと、第1の適合されたラインと、さらなる適合されたラインとに基づいて、第1の適合されたラインからの所定の距離しきい値よりも下に位置づけられるデータ・ポイントの組を決定するステップと、データ・ポイントの決定された組に対応する垂直テキスト・ラインから少なくとも第1及び第2の垂直消失ポイント候補を推定するステップと、を含むことができる。
第1の態様による実施例においては、垂直消失ポイントを決定する前記ステップは、それぞれの推定された垂直消失ポイント候補に基づいて、投影補正を実行するステップと、投影補正の後に結果として生ずる垂直テキスト方向に対するそれぞれの推定された垂直消失ポイント候補の近接性を比較するステップと、画像ドキュメントの垂直テキスト方向に最も近い垂直消失ポイント候補を選択するステップとを含むことができる。
第1の態様による実施例においては、前記ブロブ・フィルタリング・アルゴリズムは、以下の複数の条件、すなわち、どのようにしてそれが引き延ばされているかを表す、考慮されたピクセル・ブロブの形状の偏心度(値は、0と1との間にあり、0と、1とは、両極端であり、すなわち、その偏心度が0であるブロブは、実際には円形オブジェクトであるが、その偏心度が1であるブロブは、ライン・セグメントである)が、所定のしきい値よりも上にある条件と、画像の境界に対する各ピクセル・ブロブの近接性が、所定の距離しきい値よりも上にある条件と、垂直方向に対する結果として生ずる垂直ラインの角度が、最大角度しきい値よりも下にある条件と、ピクセルの数によって規定される各ピクセル・ブロブのエリアが、最大エリアしきい値よりも下にあるが、最小エリアしきい値よりも上にある条件とのうちの1つ又は複数に基づいて、ピクセル・ブロブを選択することができる。
第1の態様による実施例においては、前記第1及び第2の消失ポイント候補は、最小二乗法と、重み付けされた最小二乗法と、適応最小二乗法とから成る群から選択される異なる近似方法を使用して推定されることもある。
本明細書において説明される他の態様と組み合わされ得る、本発明の第1の代替的な態様においては、透視図法によってひずみを受ける少なくとも1つのテキスト部分を含む画像の投影補正のための方法が開示される。本方法は、前記画像が2値化される、画像2値化のステップと、連結成分分析のステップとを含む。連結成分分析は、前記2値化された画像の前記少なくとも1つのテキスト部分において、ピクセル・ブロブを検出する。前記ピクセル・ブロブのそれぞれでは、位置決定ピクセルが、ピクセル・ブロブのピクセル・ブロブ・ベースラインの上で選択されることもある。前記位置決定ピクセルは、2値化された画像におけるピクセル・ブロブの位置を規定することができる。本方法は、水平消失ポイント決定のステップをさらに含んでいる。水平消失ポイント決定は、前記位置決定ピクセルを用いてテキスト・ベースラインを推定するステップと、前記テキスト・ベースラインを用いて前記少なくとも1つのテキスト部分の水平消失ポイントを決定するステップとを含む。本方法は、垂直消失ポイント決定をさらに含んでいる。垂直消失ポイントは、その垂直の特徴に基づいて、前記少なくとも1つのテキスト部分について決定される。本方法は、投影補正のステップをさらに含んでおり、そこでは、前記画像の中の前記透視図法ひずみは、前記の水平消失ポイントと、垂直消失ポイントとに基づいて補正される。
第1の代替的な態様による実施例においては、テキストとピクチャとの分離のステップが、前記画像2値化の後、且つ前記連結成分分析の前に実行され、テキスト情報だけが保持される。
第1の代替的な態様の実施例においては、説明されるような前記位置決定ピクセルは、ピクセル・ブロブの境界ボックスの底部の中心とすることができる。前記位置決定ピクセルは、代替的な実施例において、ピクセル・ブロブの境界ボックスの底部コーナー(すなわち、底部の左コーナー又は右コーナー)、或いはピクセル・ブロブ又はその上の境界ボックスの位置を決定する別のピクセルとすることができる。
第1の態様、又は第1の代替的な態様の実施例においては、上記で説明された方法又はステップを実行するように構成された1つ又は複数のプロセッサと、互換性のあるソフトウェア・コード部分とを含むシステム又はデバイスが提供されることもある。
第1の態様、又は第1の代替的な態様の実施例においては、その上に、コンピュータ・デバイスの上で実行可能なフォーマットにおけるソフトウェア・コード部分を含み、前記コンピュータ・デバイスの上で実行されるときに、上記で説明された方法又はステップを実行するように構成されたコンピュータ・プログラム製品が記憶される非一時的ストレージ媒体が、提供されることもある。前記コンピュータ・デバイスは、以下のデバイスのうちの、すなわち、パーソナル・コンピュータ、ポータブル・コンピュータ、ラップトップ・コンピュータ、ネットブック・コンピュータ、タブレット・コンピュータ、スマートフォン、デジタル・スチル・カメラ、ビデオ・カメラ、モバイル通信デバイス、携帯型個人情報端末、スキャナ、多機能デバイス、又は任意の他のコンピュータのようなデバイスのうちのどれかとすることもできる。
本明細書において説明される他の態様と組み合わされ得る、本発明による第2の態様においては、透視図法によってひずみを受ける画像ドキュメントにおいて、テキスト部分の消失ポイント候補を決定するための方法が説明される。本方法は、前記画像が2値化される、画像2値化のステップを含んでいる。その後に、本方法は、連結成分分析を実行するステップを含んでおり、そこでは、ピクセル・ブロブは、前記2値化された画像の前記少なくとも1つのテキスト部分において、検出される。位置決定ピクセルは、ピクセル・ブロブのピクセル・ブロブ・ベースラインの上で前記ピクセル・ブロブのそれぞれについて選択され、前記位置決定ピクセルは、2値化された画像におけるピクセル・ブロブの位置を規定している。本方法はまた、デカルト座標系において、位置決定ピクセルに基づいて、各テキスト・ラインが、前記テキスト部分の水平テキスト方向又は垂直テキスト方向の近似を表す、いくつかのテキスト・ラインを推定するステップを含んでいる。本方法はまた、前記テキスト・ラインのそれぞれを同次座標系におけるデータ・ポイントに変換するステップを含んでいる。本方法は、信頼度レベルをデータ・ポイントのそれぞれに割り当てるステップをさらに含んでいる。本方法は、所定のしきい値よりも上の信頼度レベルを有するいくつかのデータ・ポイントを優先順位サンプル・アレイにグループ分けするステップを含んでいる。本方法は、優先順位サンプル・アレイの中のデータ・ポイントをいくつかのサンプル・グループへとクラスタ化するステップを含んでいる。各サンプル・グループは、2つ以上のデータ・ポイントを含んでいる。本方法は、サンプル・グループの中の各データ・ポイントに割り当てられる少なくとも信頼度レベルに基づいて、グループ信頼度値を各サンプル・グループに割り当てるステップをさらに含んでいる。さらに、本方法は、第1の適合されたラインに関して、前記データ・ポイントのうちで、インライアの組を決定するために、ランダム・サンプル・コンセンサス(RANSAC)アルゴリズムを適用するステップを含んでいる。RANSACアルゴリズムは、優先順位サンプル・アレイの中に最高のグループ信頼度値を有するサンプル・グループから開始される。本方法は、インライアの前記組に対応するテキスト・ラインから少なくとも1つの消失ポイント候補を推定するステップをさらに含んでいる。
第2の態様による実施例においては、テキストとピクチャとの分離のステップが、前記画像2値化の後、且つ前記連結成分分析の前に実行され、テキスト情報だけが保持される。
第2の態様による実施例においては、前記データ・ポイントに割り当てられる信頼度レベルは、それぞれのテキスト・ラインの少なくとも長さと、それぞれのテキスト・ラインに対する位置決定ピクセルの近接性とに基づいたものとすることができる。
第2の態様による実施例においては、RANSACアルゴリズムは、以下のステップを含むことができる。第1に、ライン・フィッティングのために優先順位サンプル・アレイからデータ・ポイントのサンプル・グループを反復的に選択するステップである。反復は、優先順位サンプル・アレイの中で最高のグループ信頼度値を有するサンプル・グループから開始される。次に、第1の適合されたラインをもたらす第1のサンプル・グループについてライン・フィッティングを実行するステップと、さらなる適合されたラインをもたらすそれぞれのさらなるサンプル・グループについてライン・フィッティングをその後に実行するステップとである。次に、第1の適合されたラインと、さらなる適合されたラインとに基づいて、第1の適合されたラインからの所定の距離しきい値よりも下に位置づけられるデータ・ポイントの組を決定するステップであり、データ・ポイントの前記組は、インライアの前記組を形成している。
第2の態様による実施例においては、第1の適合されたラインからの所定の距離しきい値は、固定されたパラメータとすることができる。第1の適合されたラインからの所定の距離しきい値は、代わりに、画像ドキュメントのコンテンツに基づいて、適応可能とすることができる。
第2の態様による実施例においては、少なくとも第1及び第2の消失ポイント候補が、インライアの前記組に対応するテキスト・ラインから推定されることもある。第1及び第2の消失ポイント候補は、最小二乗法と、重み付けされた最小二乗法と、適応最小二乗法とから成る群から選択される異なる近似方法を使用して推定されることもある。本方法は、次いで、推定された消失ポイント候補から消失ポイントを選択するステップをさらに含むことができる。選択は、それぞれの推定された消失ポイント候補に基づいて、画像ドキュメントに対する投影補正を実行するステップと、投影補正の後に結果として生ずる水平テキスト方向又は垂直テキスト方向に対する各消失ポイント候補の近接性を比較するステップと、投影補正の後に画像ドキュメントの水平テキスト方向又は垂直テキスト方向に最も近い消失ポイント候補を選択するステップとを含むことができる。
第2の態様による実施例においては、各サンプル・グループのグループ信頼度値は、さらに、サンプル・グループの中のデータ・ポイントに対応するそれぞれの推定されたテキスト・ラインの間の距離に基づいたものとすることができる。データ・ポイントのそれぞれの信頼度レベルは、それぞれの各テキスト・ラインを推定するために使用されるピクセル・ブロブの主要な方向に基づいたものとすることができる。主要な方向は、各ピクセル・ブロブの形状の偏心度によって規定されることもある。優先順位サンプル・アレイへとグループ分けされるデータ・ポイントの最大数は、2と20との間にあることもあり、5と10との間にあることがより好ましいこともある。
第2の態様による実施例においては、推定されたテキスト・ラインは、画像のテキスト部分に対するブロブ・フィルタリング・アルゴリズムによって選択される、前記ピクセル・ブロブの選択された1つの方向にそれぞれ対応する垂直テキスト・ブロブ・ラインとすることができる。
第2の態様の実施例においては、上記で説明された方法又はステップを実行するように構成された1つ又は複数のプロセッサと、互換性のあるソフトウェア・コード部分とを含むシステム又はデバイスが提供されることもある。
第2の態様の実施例においては、その上に、コンピュータ・デバイスの上で実行可能なフォーマットにおけるソフトウェア・コード部分を含み、前記コンピュータ・デバイスの上で実行されるときに、上記で説明された方法又はステップを実行するように構成されたコンピュータ・プログラム製品が記憶される非一時的ストレージ媒体が、提供されることもある。前記コンピュータ・デバイスは、以下のデバイスのうちの、すなわち、パーソナル・コンピュータ、ポータブル・コンピュータ、ラップトップ・コンピュータ、ネットブック・コンピュータ、タブレット・コンピュータ、スマートフォン、デジタル・スチル・カメラ、ビデオ・カメラ、モバイル通信デバイス、携帯型個人情報端末、スキャナ、多機能デバイス、又は任意の他のコンピュータのようなデバイスのうちのどれかとすることもできる。
本明細書において説明される他の態様と組み合わされ得る、本発明の第3の態様においては、透視図法によってひずみを受ける少なくとも1つのテキスト部分を含む画像の投影補正のための方法が開示される。本方法は、前記画像が2値化される、画像2値化のステップを含んでいる。その後に、本方法は、連結成分分析を実行するステップを含んでいる。連結成分分析は、前記2値化された画像の前記少なくとも1つのテキスト部分についてピクセル・ブロブを検出するステップを必要とする。位置決定ピクセルが、ピクセル・ブロブのピクセル・ブロブ・ベースラインの上で前記ピクセル・ブロブのそれぞれについて、選択される。前記位置決定ピクセルは、2値化された画像におけるピクセル・ブロブの位置を規定する。本方法は、水平消失ポイント決定のステップを含んでいる。水平消失ポイント決定は、前記ピクセル・ブロブの位置決定ピクセルを用いてテキスト・ベースラインを推定するステップと、前記推定されたテキスト・ベースラインから水平消失ポイント候補を識別するステップと、前記水平消失ポイント候補を用いて前記少なくとも1つのテキスト部分の水平消失ポイントを決定するステップとを含む。本方法はまた、その垂直の特徴に基づいて、前記少なくとも1つのテキスト部分についての垂直消失ポイント決定のステップを含んでいる。本方法は、投影補正のステップをさらに含んでいる。投影補正は、前記の水平消失ポイントと、垂直消失ポイントとに基づいて、前記画像における前記透視図法を補正するステップを必要とする。水平消失ポイント決定は、固有ポイントのレベルに対する第1の除去ステップと、テキスト・ベースラインのレベルに対する第2の除去ステップと、水平消失ポイント候補のレベルに対する第3の除去ステップとを含むことができる。
第3の態様による実施例においては、テキストとピクチャとの分離のステップは、前記画像2値化の後、且つ前記連結成分分析の前に実行され、テキスト情報だけが保持される。
第3の態様による実施例においては、第1の除去ステップは、考慮している固有ポイントの近くにおける固有ポイントに関してラインから外れている混同させる固有ポイントを検出するステップを含んでいる。前記混同させる固有ポイントは、前記テキスト・ベースライン推定のために無視されることもある。
第3の態様による実施例においては、前記混同させる固有ポイントの除去ステップは、ピクセル・ブロブの幅と、高さとを決定するステップと、ピクセル・ブロブの幅と、高さとについての平均値を決定するステップと、考慮しているピクセル・ブロブの幅と、高さとのうちの少なくとも一方が、前記算出された平均値から所定の範囲だけ異なるピクセル・ブロブに属する固有ポイントとして、前記混同させる固有ポイントを検出するステップとを含むことができる。
第3の態様による実施例においては、テキスト・ベースラインを推定する前記ステップは、固有ポイントを固有ポイント・グループへとクラスタ化するステップを含んでいる。前記固有ポイント・グループは、以下の複数の条件、すなわち、
− グループの固有ポイントの間のポイント・ツー・ポイント距離が、第1の距離しきい値よりも下にある条件と、
− グループの各固有ポイントと、グループの固有ポイントによって形成されるラインとの間のポイント・ツー・ライン距離が、第2の距離しきい値よりも下にある条件と、
− グループの固有ポイントによって形成されるラインのオフ水平角度が、最大角度よりも下にある条件と、
− 固有ポイント・グループが、最小の数の固有ポイントを含んでいる条件と
のうちの少なくとも1つを満たすことができる。前記テキスト・ベースラインは、次いで、前記固有ポイント・グループに基づいて、推定されることもある。
第3の態様による実施例においては、前記第1の距離しきい値と、前記第2の距離しきい値と、前記最大角度と、前記最小の数の固有ポイントとは、画像のコンテンツに基づいて、適応的に設定されることもある。テキスト・ベースラインを推定する前記ステップは、固有ポイント・グループ・マージングのステップをさらに含むことができ、このステップにおいては、無視された固有ポイントの両側の上の固有ポイント・グループは、より大きな固有ポイント・グループへとマージされる。
第3の態様による実施例においては、第2の除去ステップは、前記テキスト・ベースラインに信頼度レベルを割り当てるステップと、前記信頼度レベルに基づいて、テキスト・ベースラインを除去するステップとを含む。信頼度レベルは、それぞれのテキスト・ベースラインの少なくとも長さと、テキスト・ベースラインを推定するために使用される固有ポイントのグループと結果として生ずるテキスト・ベースラインとの近接性とに基づいて、決定されることもある。テキスト・ベースラインの除去は、RANSACアルゴリズムを用いて実行されることもあり、このRANSACアルゴリズムにおいては、前記信頼度レベルが考慮に入れられる。
第3の態様による実施例においては、第3の除去ステップは、それぞれの識別された水平消失ポイント候補に基づいて、投影補正を実行するステップと、投影補正の後に結果として生ずる水平テキスト方向に対する各水平消失ポイント候補の近接性を比較するステップと、投影補正の後に画像ドキュメントの水平テキスト方向に最も近い水平消失ポイント候補を選択するステップとを含む。
第3の態様による実施例においては、第1及び第2の水平消失ポイント候補が、前記第2の除去ステップの後に、前記テキスト・ベースラインから推定されることもある。前記第1及び第2の水平消失ポイント候補の前記推定のために、最小二乗法と、重み付けされた最小二乗法と、適応最小二乗法とから成る群から選択される異なる近似方法が使用されることもある。
第3の態様の実施例においては、上記で説明された方法又はステップを実行するように構成された1つ又は複数のプロセッサと、互換性のあるソフトウェア・コード部分とを含むシステム又はデバイスが提供されることもある。
第3の態様の実施例においては、その上に、コンピュータ・デバイスの上で実行可能なフォーマットにおけるソフトウェア・コード部分を含み、前記コンピュータ・デバイスの上で実行されるときに、上記で説明された方法又はステップを実行するように構成されたコンピュータ・プログラム製品が記憶される非一時的ストレージ媒体が、提供されることもある。前記コンピュータ・デバイスは、以下のデバイスのうちの、すなわち、パーソナル・コンピュータ、ポータブル・コンピュータ、ラップトップ・コンピュータ、ネットブック・コンピュータ、タブレット・コンピュータ、スマートフォン、デジタル・スチル・カメラ、ビデオ・カメラ、モバイル通信デバイス、携帯型個人情報端末、スキャナ、多機能デバイス、又は任意の他のコンピュータのようなデバイスのうちのどれかとすることもできる。
本発明は、さらに、以下の説明と、添付の図面とを用いて明らかにされるであろう。
本開示の一実施例による、ひずみを受けた画像の投影補正が説明されるためのプロセス・フローを示す図である。 本開示の一実施例による、水平消失ポイントを識別するためのプロセス・フローを示す図である。 本開示の一実施例による、固有ポイント・クラスタ化アルゴリズムを示す、テキストにおいて一緒に図3と称されることもある、図である。 本開示の一実施例による、固有ポイント・クラスタ化アルゴリズムを示す、テキストにおいて一緒に図3と称されることもある、図である。 本開示の一実施例による、位置決定ピクセルを使用して垂直消失ポイントを識別するためのプロセス・フローを示す図である。 本開示の一実施例による、テキスト・ストロークの特徴を使用して垂直消失ポイントを識別するためのプロセス・フローを示す図である。 本開示の一実施例による、テキストと一緒にピクチャを有する実例の2値化された画像を示す図である。 本開示の一実施例による、テキストからピクチャをフィルタにかけて除いた後の、結果として生ずる画像を示す図である。 本開示の一実施例による、実例のピクセル・ブロブを示す図である。 本開示の一実施例による、ユーザが画像のコーナーを調整するためのプレゼンテーション・グリッドを示す図である。 本開示の一実施例による、取り込まれた画像を示す図である。 本開示の一実施例による、改善された画像を投影補正の結果として示す図である。 本開示の一実施例による、テキストについての固有ポイントが識別される実例の画像を示す図である。 本開示の一実施例による、分類されすぎた固有ポイント・グループを有する実例の画像を示す図である。 本開示の一実施例による、統合された固有ポイント・グループを有する実例の画像を示す図である。 本開示の一実施例による、ベースラインが推定されるテキストの実例の部分を示す図である。 本開示の一実施例による、マージン特徴ポイントが、マージンにおいて識別される実例の画像を示す図である。 本開示の一実施例による、同じマージンに沿って2つの推定された垂直ラインを有する実例の画像を示す図である。 本開示の一実施例による、推定された垂直ラインのマージングを示す実例の画像を示す図である。 本開示の一実施例による、キャラクタのテキスト・ストロークの特徴を示す実例の画像を示す図である。 本開示の一実施例による、テキスト・ストロークの特徴識別の後の選択的に抽出されたブロブを示す実例の画像を示す図である。 本開示の一実施例による、選択されたピクセル・ブロブについての推定された垂直テキスト・ブロブ・ラインを示す実例の画像を示す図である。 本開示の一実施例による、垂直消失ポイントについて選択される垂直テキスト・ブロブ・ラインを示す実例の画像を示す図である。
本発明は、特定の実施例に関して、ある種の図面を参照して説明されることになるが、本発明は、それだけに限定されるものではないが、特許請求の範囲によってのみ限定されるものである。説明される図面は、概略的なものにすぎず、非限定的である。図面においては、それらの要素のうちのいくつかの大きさは、誇張されており、例証の目的のために、縮尺して描かれてはいない可能性がある。寸法と、相対的な寸法とは、本発明を実施する実際の縮小には必ずしも対応しているものとは限らない。
さらに、本説明における、特許請求の範囲における第1の、第2の、第3のなどの用語は、類似した要素の間で区別するために使用されるが、必ずしも逐次的順序又は時系列順序を説明するためのものとは限らない。用語は、適切な状況の下で交換可能であり、本発明の実施例は、本明細書において説明され、又は例証される以外の他のシーケンスにおいても動作することができる。
さらに、本説明における、特許請求の範囲における上部、下部、上の、下のなどの用語は、説明の目的のために使用されるが、必ずしも相対的な位置を説明するためのものとは限らない。そのようにして使用されるそれらの用語は、適切な状況の下で交換可能であり、本明細書において説明される本発明の実施例は、本明細書において説明され、又は例証される以外の他の方向付けにおいても動作することができる。
特許請求の範囲において使用される用語「備えている/含んでいる」は、その後にリストアップされる手段だけに限定されるように解釈されるべきではなく、それは、他の要素又はステップを排除することはない。その用語は、言及されるように、述べられた特徴、整数、ステップ、又はコンポーネントの存在を指定するように解釈される必要があるが、1つ又は複数の他の特徴、整数、ステップ、若しくはコンポーネント、又はそれらのグループの存在又は追加を除外するものではない。したがって、表現「手段Aと、Bとを備えているデバイス」の範囲は、コンポーネントAと、Bとだけから成るデバイスだけに限定されるべきではない。その表現は、本発明に関して、デバイスの単に関連のあるコンポーネントがAとBとであることを意味している。
図1を参照すると、ひずみを受けた画像の投影補正のためのプロセス・フロー100が説明されている。画像は、投影補正のために受信されることもある。画像は、オプションとして検査して、画像の品質を決定することができる。画像を検査することは、ノイズの存在、照明状態、キャラクタの明瞭性、分解能などをチェックすることを含むことができる。画像の品質が、所定のしきい値よりも上にある場合、画像は、ステップ102において処理されることもある。画像の品質が、所定のしきい値よりも下にある場合、画像が前処理されて、画像の品質を改善することができる。前処理することは、画像の分解能を回復させ、改善するために、色相を修正すること、輝度アンバランスを補正すること、鮮明さの調整、ノイズを除去すること、モーション・ブラーを除去すること/補正すること、カメラ誤焦点を補償することなどを含み、必要とする可能性がある。1つの実例の実装形態においては、前処理することは、自動的に実行されることもある。別の実例の実装形態においては、ツールボックス・オプションがユーザに提供されて、画像についての前処理のタイプを選択することができる。一実施例においては、前処理することは、それだけには限定されないが、ガウス・フィルタリング及びメジアン・フィルタリング、ウィーナー・フィルタリング、バイラテラル・フィルタリング、ウィーナー・デコンボリューション、全変動デコンボリューション、コントラスト制限適応ヒストグラム等化など、様々な画像フィルタリング方法を含む、知られている技法を使用して実施されることもある。
ステップ102において、画像2値化が実行される。画像2値化は、受信された画像のピクセル値を論理一(1)又は論理ゼロ(0)のいずれかに変換することを含むことができる。これらの値は、単一ビットによって、又は例えば、8−ビット符号なし整数のような複数ビットによって表されることもある。受信された画像のピクセルは、グレースケール・ピクセル、カラー・ピクセル、又は任意の他の形式で表されたピクセルとすることができる。値は、対応する黒色のカラー又は白色のカラーによって表されることもある。一実施例においては、2値化は、グローバル・アプローチ、領域ベースのアプローチ、ローカル・アプローチ、ハイブリッド・アプローチ、又はその任意の変形形態へと広範に分類され得る、知られている技法のうちのどれかを使用して実行されることもある。1つの実例の実装形態においては、画像2値化は、サウボラ2値化(Sauvola binarization)を使用して実行される。この技法においては、2値化は、小さな画像パッチに基づいて実行される。ローカル画像パッチの統計データを分析するとすぐに、2値化しきい値は、次の式、すなわち、

を使用して決定され、式中で、mと、sとは、それぞれ、ローカルな平均偏差と、標準偏差とであり、Rは、標準偏差の最大値であり、kは、しきい値の値を制御するパラメータである。パラメータkは、ドキュメント画像に応じて選択されることもある。一実施例においては、kは、手動で設定されることもある。別の実施例においては、パラメータkは、ドキュメント画像のテキスト特性に応じて自動的に設定されることもある。
ステップ104においては、2値化された画像(以下、画像と称される)が任意のピクチャを含むかどうかが決定される。画像が任意のピクチャを含んでいない場合、プロセスはステップ108へと進む。画像が1つ又は複数のピクチャを含む場合、1つ又は複数のピクチャは、ステップ106において、テキストから分離される。ページ分析方法、テキスト・ロケーション方法、及び/又はマシン学習方法など、知られている技法のうちの任意の技法が、テキストから1つ又は複数のピクチャを分離するために使用されることもある。ページ分析方法に基づいた技法は、スキャンされたドキュメントから生成され、又はスキャンされたドキュメント画像に実質的に類似して見える画像のために使用されることもある。テキスト・ロケーション方法に基づいた技法は、バックグラウンドの中にピクチャを有するなど、複雑なバックグラウンドを有する画像のために使用されることもある。マシン学習方法に基づいた技法は、任意のタイプの画像のために使用されることもある。マシン学習方法に基づいた技法は、学習のためのトレーニング・サンプルを必要とする可能性がある。テキストから1つ又は複数のピクチャを分離するための実例の実装形態においては、ドキュメント画像のバックグラウンドが抽出される。バックグラウンドを使用して、ドキュメント画像は、正規化されて、一様でないイラストレーションの影響を補償する。その後に、非テキスト・オブジェクトが、ヒューリスティック・フィルタリングを使用して2値画像から取り除かれ、このヒューリスティック・フィルタリングにおいては、ヒューリスティック規則は、面積、相対的サイズ、画像フレームに対する近接性、密度、平均コントラスト、エッジ・コントラストなどに基づいている。図6Aは、テキストと一緒にピクチャを含む実例の2値化された画像を示すものである。図6Bは、ピクチャを除去された後の、結果として生ずる画像を示すものである。
ステップ108において、連結成分分析が、テキスト情報だけを有する2値化された画像に対して実行される。連結成分分析は、2値画像の中の連結ピクセル成分を識別すること、及びラベル付けすることを必要とする可能性がある。ピクセル・ブロブが、連結成分分析中に識別されることもある。ピクセル・ブロブは、カラーなどいくつかの特性が、所定の範囲内で一定であり、又は変化する連結成分の組を有する領域とすることができる。例えば、単語「Hello」は、連結成分の5つの異なる組を有しており、すなわち、その単語の各キャラクタは、連結成分、又はピクセル・ブロブである。位置決定ピクセルが、ピクセル・ブロブのそれぞれについて識別される。位置決定ピクセルは、2値画像におけるピクセル・ブロブの位置を規定する。一実施例においては、位置決定ピクセルは、固有ポイントとすることができる。固有ポイントは、ピクセル・ブロブの内部のピクセル・ブロブ・ベースラインの中心におけるピクセルとすることができる。別の実施例においては、位置決定ピクセルは、ピクセル・ブロブの内部のピクセル・ブロブ・ベースラインの左端又は右端におけるピクセルとすることができる。ピクセル・ブロブ、又はピクセル・ブロブの上に描かれた境界ボックスの中の異なるロケーションにおいて位置決定ピクセルを有する他の実施例が、本開示の範囲内において企図される。図7Aは、実例のピクセル・ブロブ702を示すものである。境界ボックス704は、連結成分又はピクセル・ブロブ702の周囲に形成される。図7Aにおいて、識別される連結成分は、キャラクタ「A」702である。境界ボックス704は、固有ポイント706を有しており、この固有ポイント706は、境界ボックス704の底部の中心として規定されることもある。固有ポイント706は、本明細書において使用される位置決定ピクセルのうちの1つとすることができる。他の位置決定ピクセルもまた、投影補正において使用されることもある。例えば、位置決定ピクセル708と、710とは、左下端の位置決定ピクセルと、左上端の位置決定ピクセルとを表す。位置決定ピクセルを使用して、2値化された画像の中で1つ又は複数の水平テキスト・ライン及び/又は垂直テキスト・ラインを推定することができる。各テキスト・ラインは、関連するテキスト部分の水平又は垂直のテキスト方向の近似を表す。
ステップ110において、水平消失ポイントが決定される。一実施例においては、水平消失ポイントは、位置決定ピクセルを使用して決定されるテキスト・ベースラインを使用して決定されることもある。水平消失ポイントを決定するための様々な実施例は、図2に関連して説明される。
ステップ112において、垂直消失ポイントが決定される。一実施例においては、垂直消失ポイントは、位置決定ピクセルを使用して識別されるマージン・ラインを使用して決定される。別の実施例においては、垂直消失ポイントは、連結成分の垂直ストロークの特徴を使用して決定されることもある。さらに別の実施例においては、垂直消失ポイントは、マージン・ラインと、垂直ストロークの特徴とを使用して識別される。垂直消失ポイントを決定するための様々な実施例が、図3及び4に関連して説明される。
ステップ114において、水平消失ポイントと、垂直消失ポイントとを使用して、画像の投影補正が実行される。投影補正は、投影変換モデルの8つの知られていないパラメータの推定に基づいて、実行される。例示の投影変換モデルが、以下に提供される。
一実施例においては、水平投影変換行列と、垂直投影変換行列とが、投影変換モデルのパラメータを推定するために構築される。水平投影変換行列と、垂直投影変換行列とは、以下で提供される式を使用して構築される。

であり、式中で、(v,v)は、消失ポイントであり、(w,h)は、ドキュメント画像の幅と、高さとであり、t=w/2であり、ty=h/2であり、

である。投影行列を使用して、画像の投影補正が実行される。
別の実施例においては、垂直消失ポイントと、水平消失ポイントとを使用して、元のひずみを受けた画像のコーナー(x,y)(4<=i<=1)と、ひずみを受けていない、又は登録されたドキュメント画像の中のそれらの対応するロケーション(X,Y)(4<=i<=1)とを識別することができる。対応するコーナーの4つの対に基づいて、投影変換モデルが推定される可能性がある。投影変換モデルは、式、

を使用して推定されることもある。
8つのパラメータは、投影的に補正された画像の中の4つのコーナーを識別することに続いて、(4)を使用することにより、取得される可能性がある。投影変換モデルを構築することに続いて、投影補正の一般的な傾向が、図8に示されるように、ユーザの再検討のために生成され、表示される。ユーザは、一般的な傾向を受け入れるべきオプション、又は4つのコーナーを調整すべきツールを提供されることもある。例えば、図8に示されるように、グラフィカル・ユーザ・インターフェース要素804が、ユーザがコーナーを調整するための可能性とともに、提供されることもある。ユーザ入力当たりのコーナーにおける変化に応じて、投影変換モデルが修正されることもあり、対応する投影補正が実行されることもある。変化のない受け入れに応じて、投影補正は、実行されることもある。結果として生ずる画像は、図8の要素806に示されるように、提示されることもある。当業者なら、適切な追加のオプションもまたユーザに対して提供される可能性もあることを理解するであろう。投影補正の結果の実例が図9A及び9Bに例証される。図9Aは、取り込まれた画像を示すものである。図9Bは、投影補正の後の画像を示すものである。
図2は、一実施例による、水平消失ポイントを識別するための実例の方法200を考察するものである。ステップ202において、固有ポイントが識別されることもある。固有ポイントは、画像の連結成分分析を通して、識別されることもある。固有ポイントは、すべてのピクセル・ブロブについて規定される。ステップ204において、固有ポイントは、クラスタ化され、グループ分けされる。一実施例においては、固有ポイントは、クラスタ化されることに先立って処理されることもある。固有ポイント処理は、混同させる固有ポイントを除去することを含むことができる。混同させる固有ポイントは、テキスト・ベースラインよりも上にあるか、又は下にある固有ポイントとすることができる。混同させる固有ポイントは、主として、キャラクタの3つの組からなるものとすることができ、すなわち、第1の組は、2つのブロブからなることもあるキャラクタを含んでおり、そこでは、より小さなブロブは、「j」、「i」など、テキスト・ベースラインよりも上にあり、第2の組は、「p」、「q」、「g」など、印刷されるときに、テキスト・ベースラインよりも下に伸びるキャラクタを含んでおり、第3の組は、コンマ(,)、ハイフン(−)などのキャラクタを含んでいる。第1及び第3の組のキャラクタに関連する混同させる固有ポイントは、ピクセル・ブロブのサイズに基づいて、識別されることもある。第1の組及び第3の組のキャラクタに関連するピクセル・ブロブのサイズは、他のキャラクタと比べて、水平方向、又は垂直方向のいずれかにおいて、かなり小さいものとすることができる。したがって、混同させる固有ポイントは、すべてのピクセル・ブロブの平均値と、ピクセル・ブロブのサイズを比較することにより、識別されることもある。実例の一実装形態においては、すべてのピクセル・ブロブの幅と、高さとが計算される。さらに、ピクセル・ブロブの幅(m)と、高さ(m)とについての平均値が計算される。その幅及び/又は高さが所定の範囲だけ前記算出された平均値から逸脱するピクセル・ブロブに属する固有ポイントが、混同させる固有ポイントとしてマーク付けされる。実例の一例においては、[0.3,5]の範囲を超える幅、及び/又は[0.3,5]の範囲を超える高さを有する固有ポイントは、混同させる固有ポイントとして識別される。そのような混同させる固有ポイントは、さらなる処理から切り捨てられることもある。
残りの固有ポイントが、各固有ポイント・グループが、同じテキスト・ラインからの固有ポイントを含むように、異なる固有ポイント・グループへと分類され、クラスタ化される。実例の固有ポイント・クラスタ化アルゴリズムが図3に説明される。固有ポイント・クラスタ化アルゴリズムは、同じグループの固有ポイントが、一般的に、以下の複数の条件、すなわち、(1)これらの固有ポイントが互いに近くにある条件と、(2)これらの固有ポイントが、実質的に直線を形成する条件と、(3)構築されたラインの方向が、水平方向に近い条件とのうちの1つ又は複数を満たすという仮定に基づいたものである。一実施例においては、これらの条件は、以下の複数の条件、すなわち、グループのこの固有ポイントと他の固有ポイントとの間のポイント・ツー・ポイント距離が、第1の距離しきい値Tよりも下にある条件と、グループのこの固有ポイントと、複数の固有ポイントによって形成されるラインとの間のポイント・ツー・ライン距離が、第2の距離しきい値Tよりも下にある条件と、グループの複数の固有ポイントによって形成されるラインのオフ水平角度が、最大角度Tよりも下にある条件とのうちの少なくとも1つが満たされる場合に、固有ポイントが特定の固有ポイント・グループに割り当てられるように、固有ポイント・クラスタ化アルゴリズムにおけるそれぞれの制約条件に変換される。さらに、固有ポイント・クラスタ化アルゴリズムをより堅牢にするために、追加の制約条件が、固有ポイント・グループが少なくとも最小数の固有ポイントTを含むように、追加されることもある。
一実施例においては、固有ポイント・クラスタ化アルゴリズムの制約条件、すなわち、ポイント・ツー・ポイント距離しきい値Tと、ポイント・ツー・ライン距離しきい値Tと、最大角度オフ水平方向しきい値Tと、固有ポイント・グループの中の固有ポイントの最小数Tとは、画像の分析、例えば、カメラ・ドキュメント画像の分析に基づいて、適応的に設定されることもある。代替的な一実施例においては、パラメータは、手動で設定されることもある。水平方向に関するTは、約20度にオフセットされることもあり、Tは、テキストの中に少なくとも2つの単語、又は3つの単語を有することを仮定して、約10とすることができる。他の値がTとTとについて選択され得ることを理解すべきである。Tと、Tとの値は、ドキュメント画像の中のテキストのコンテンツに依存する可能性がある。例えば、キャラクタ・サイズが大きいTである場合、そのときにはTは、より高く保持されることもあり、逆もまた同様である。一実施例においては、T及びTは、以下のように適応的に算出されることもある。単語の中の隣接するキャラクタの間のすべての最短距離に基づいたメジアン距離Dが算出される。Tは、Dに設定されることもあり、Tは、3に設定されることもある。これらの値は、水平方向における隣接するパラグラフに属する単語が同じ固有ポイント・グループの中にあるように考えられないようにしながら、Tが、同じパラグラフの中で隣接する文字と単語とを検索するために十分大きいように選択される。Tを同じパラグラフの中の隣接する文字と単語とを検索するために十分に大きく設定することは、パラグラフと、水平の隣接するパラグラフとの間のパラグラフ・マージン・ラインの識別を可能にするであろう。いくつかの実例の例においては、単一ラインの中の複数の単語の間のスペースは、複数の固有ポイント・グループへのラインの中の固有ポイントの過剰な分類を引き起こす可能性がある。過剰な分類は、複数の単語の間に大きなギャップ引き起こす固有ポイント除去プロシージャ中に取り除かれていることもある、いくつかの小さな、又は大きな連結成分に起因している可能性がある。
ステップ206において、過剰分類された固有ポイント・グループは、対応するグループへとマージすることにより統合される。例示の固有ポイント・マージング・アルゴリズムが、以下のように説明されることもある。各固有ポイント・グループ{C}(n>=i>=1)では、左端固有ポイントlと右端固有ポイントrと(n>=i>=1)が、それぞれ、識別されることもある。固有ポイント・グループのうちの最も右の固有ポイントに対応することができるピクセル・ブロブが識別される。最も右の固有ポイントの右の隣接するピクセル・ブロブが、切り捨てられたピクセル・ブロブ(例えば、混同させる固有ポイントに対応するピクセル・ブロブ)のうちから検索される。右の隣接するブロブを識別することに応じて、右の隣接するブロブは、新しい右のエンド・ポイントrとして設定されることもある。以前のステップにおいて説明されるような新しい右のエンド・ポイントのさらなる右の隣接するピクセル・ブロブを検索するステップは、さらなる右の隣接するブロブが見出されなくなるまで、反復されることもある。右の隣接するブロブがないことに応じて、r_newのようなブロブの固有ポイント座標が記録される。右のエンド・ポイントの新しいアレイr_new(n>=i>=1)を用いて、検索インデックスkが、ゼロ(0)に初期化される。検索インデックスは、1だけ増加され、すなわち、k=k+1であり、lとr_new(n>=i>=1)との間の距離が算出されることもある。ポイントlと、r_new({C}及び{C})との対に対応する固有ポイント・グループは、それらが、以下の条件、すなわち、固有ポイント・グループの間の距離が、所定の距離の内部にある(実例の一実装形態において、距離が0.5(Td)未満とすることができる)条件と、固有ポイント・グループに対応するラインが、互いに近くにある(例えば、ライン距離が(T)未満である)条件とのうちの少なくとも一方を満たす場合に、マージされることもある。固有ポイント・グループがマージされる場合には、固有ポイント・グループの数は、1だけ低減されることもあり、すなわち、n=n−1である。チェックを実行して、検索インデックスがポイント・グループの数に等しい(k==n)かどうかを決定することができる。検索インデックスが等しくない場合、そのときには検索インデックスは、増大され、それらが上述された規定された条件を満たす場合に、以前の、距離を算出するステップ、固有ポイント・グループ・マージングのステップが実行される。図10Aは、固有ポイント分類の前の実例の画像を示すものである。図10Aは、テキスト・ベースラインにおけるピクセル・ブロブについての固有ポイントを示すものである。図10Bは、固有ポイントのグループへの分類の後の実例の画像を示すものである。図は、テキスト・ラインのそれぞれの中にグループを有する画像を示すものである。例えば、第1のテキスト・ラインは、固有ポイント・グループ1002を示している。画像の中に示される第2のテキスト・ラインは、過剰分類された固有ポイント・グループ1004及び1006を示している。過剰分類されたグループ1004及び1006(2つのグループ)は、図10Bのテキストの第2のラインの中に見られることもある(対応する固有ポイント・グループについての正方形シンボルと円形シンボルとによって示される)。図10Cは、統合された固有ポイント・グループを有する実例の画像を示すものである。図10Bの中で示されるような、第2のラインの過剰分類されたグループ1004及び1006は、1つの固有ポイント・グループ1008(プラス・マークによって示される)へと統合される。
ステップ208において、テキスト・ベースラインは、クラスタ化ステップ及びマージング・ステップの後にもたらされるグループ分けされた固有ポイントを使用して推定される。一実施例においては、テキスト・ベースラインは、適応的な重み付けされたライン推定に基づいた方法(以下で、先験的ライン推定と称される)を使用して推定される。先験的ライン推定は、ライン推定において必要とされる各固有ポイントに重み付けファクタを割り当てることができる。n個の固有ポイント、すなわち、p1、p2、...pnがライン推定ax+by+c=0(又はy=kx+t)のために使用される場合のシナリオを考慮する。固有ポイントのそれぞれには、重み付けファクタw1、w2、...wnが割り当てられることもある。この場合には、ライン推定は、

によって規定される最小化問題の同等形態と考えられることもある。
式[5]の中の二乗和の最小値は、勾配をゼロに設定することにより、見出されることもある。モデルが二(2)つのパラメータを含むので、二(2)つの勾配方程式が存在している。上記の式の最小化は、以下の実例の擬似コード、すなわち、

を使用して実行されることもある。各固有ポイントに対する重み付けファクタは、重み付け関数、すなわち、
=exp(−dis)……[6]
を使用して割り当てられることもあり、式中で、disは、固有ポイントと期待されたテキスト・ベースラインとの間の距離として規定される。したがって、固有ポイントが期待されたテキスト・ベースラインにより近い場合に、固有ポイントには、より高い重み付けファクタが割り当てられることもあり、逆もまた同様である。反復的プロシージャを使用して、期待されたテキスト・ベースラインのより近くに近づくことができる。実例の一実装形態においては、反復は、所定の数のラウンド(例えば、約10〜70ラウンド)にわたって、又は2つの逐次的ライン角度の間の差が小さなしきい値(例えば、約0.01度)よりも下になるまで実行されることもある。
推定されたラインは、さらに、固有ポイント・グループにおいてアウトライアを除去することにより、洗練されることもある。アウトライアは、例えば、ガウス・モデルを使用することにより、識別されることもある。ガウス・モデルによれば、ほとんどの固有ポイント(例えば、約99.7%)は、3つの標準偏差の内部に位置している可能性がある。それゆえに、固有ポイントが3つの標準偏差を超えて位置している場合、固有ポイントは、アウトライアとして考えられることもある。ポイント・グループの中の残りの固有ポイントは、次いで、従来の最小二乗法を用いてライン推定のために使用されることもある。前記先験的ライン推定は、すべての固有ポイント・グループのために実行されることもある。図11は、ベースラインが推定される対象のテキストの実例の部分を示すものである。固有ポイント・グループは、ラインによって接続されるように示されることが分かる可能性がある。実例のラインは、1102の内部で、強調表示される。
ステップ210において、水平消失ポイントは、推定されたテキスト・ベースラインを使用して識別されることもある。同次座標理論によれば、デカルト座標系における各水平ラインは、一様な空間の中のデータ・ポイントとして見なされることもあり、これらのデータ・ポイントを通過するラインは、消失ポイントに対応している。それゆえに、水平消失ポイント識別は、同次座標系におけるライン・フィッティング問題として見なされる可能性がある。
推定されたテキスト・ベースラインは、注意深く推定されるが、いくつかのテキスト・ベースラインは、消失ポイント推定の観点からすれば、アウトライアに寄与することができる。そのようなアウトライア・データ・ポイントは、除去されて、水平消失ポイントの推定を改善することができる。アウトライアは、不正確なライン推定と、非テキスト成分(例えば、テキストとピクチャとの分離が失敗する場合における)と、ひずみなどとに起因して、取得されることもある。この問題を克服するために、一実施例に従って、Martin A.Fischer及びRobert C.Bolles、「Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography」、Comm. of the ACM 24 (6):381〜395頁、1981年6月において説明されるような従来のランダム・サンプル・コンセンサス(RANSAC:Random Sample Consensus)アルゴリズムに基づいた方法が、水平消失ポイント識別のために使用される。RANSAC−ベースのアルゴリズムは、モデル・パラメータを推定するときに、アウトライアを除去する際に、その堅牢性に起因して選択される。提案されたRANSAC−ベースのアルゴリズムは、初期のデータ・ポイントが、モデル・パラメータ推定のために選択され、その信頼度レベルが、一緒に取られ得るやり方で、従来のRANSACアルゴリズムとは、異なる。従来のRANSACアルゴリズムにおける初期データ・ポイントのランダムな選択とは違って、提案されたRANSAC−ベースのアルゴリズムは、最大の信頼度を有する初期サンプルを選択する。
提案されたRANSAC−ベースのアルゴリズムの実例の一実装形態が、次に、以下で説明される。
一実施例においては、推定されたテキスト・ベースラインのそれぞれが、デカルト座標系において、規定されることもある。デカルト座標系において規定されるテキスト・ベースラインのそれぞれは、同次座標系においてデータ・ポイントに変換されることもある。
データ・ポイントのそれぞれについての信頼度レベルが、割り当てられることもある。データ・ポイントについての信頼度レベルは、結果として生ずるテキスト・ベースラインに対するテキスト・ベースラインを推定するために使用される固有ポイントの近接性と、それぞれのテキスト・ベースラインの長さとに基づいて決定されることもある。各水平テキスト・ベースラインについての信頼度レベルは、

として規定されることもあり、式中で、smaxと、sminとは、すべてのn個のライン・セグメントの最大標準偏差と、最小標準偏差とを表しており、lmaxは、すべてのn本のラインのうちの最長のライン・セグメントを表している。それゆえに、より長い水平テキスト・ベースラインには、より高い信頼度レベルが割り当てられる。これは、水平テキスト・ベースラインが長くなれば長くなるほど、水平テキスト・ベースラインの推定はよりよくなるという仮定に基づいている。同様に、標準偏差(対応する推定されたテキスト・ベースラインに対する固有ポイントの近接性を示す)が低くなれば低くなるほど、テキスト・ベースライン推定はよりよくなる。その結果として、そのようなテキスト・ベースラインには、より高い信頼度レベルが割り当てられる。所定のしきい値よりも上の信頼度レベルを有する、サンプル・ポイントの中のデータ・ポイントは、優先順位サンプル・アレイへとグループ分けされることもある。優先順位サンプル・アレイの中のデータ・ポイントは、いくつかのサンプル・グループへとクラスタ化されることもある。一実施例においては、各サンプル・グループは、2つ以上のデータ・ポイントを含むことができる。ライン推定では、精度はまた、ラインを推定するために使用されるデータ・ポイントの距離によって決定されることもある。2つのデータ・ポイントが互いに遠く離れている場合、そのときにはライン推定が正確になることになる、より高い信頼度が存在している。それゆえに、第2の信頼度レベル・インジケータが、サンプル・グループの中のポイント対に割り当てられることもあり、すなわち、

であり、式中で、Disj,kは、垂直方向におけるラインjとラインkとの間の距離であり、Dismaxは、ラインのm(m−1)対のうちの最大の距離である。m(m<<n)本のラインの選択が、最良の信頼度レベルを有する第1のm本のラインを選択する優先順位サンプル・グループを定式化するために考慮されることもある。各サンプル・グループには、サンプル・グループの中の各データ・ポイントに割り当てられる、少なくとも信頼度レベルに基づいて、グループ信頼度値が割り当てられることもある。
ステップAにおいて、データ・ポイントのサンプル・グループは、ライン・フィッティングのために、優先順位サンプル・アレイから反復的に選択されることもある。反復は、優先順位サンプル・アレイの中の最高の信頼度値を有するサンプル・グループから開始されることもある。(反復回数が、ある種のしきい値を超過する場合、そのときにはそれは停止される可能性があり、アルゴリズムは、ステップFへと移行する)。ステップBにおいては、ライン・フィッティングは、第1の適合されたラインを結果としてもたらす第1のサンプル・グループのために実行されることもあり、さらなる適合されたラインを結果としてもたらすそれぞれのさらなるサンプル・グループのためにライン・フィッティングをその後に実行している。
ステップCにおいて、第1の適合されたラインからの所定の距離しきい値よりも下に位置づけられるデータ・ポイントの組が、第1の適合されたラインと、さらなる適合されたラインとに基づいて、決定されることもある。これらのデータ・ポイントは、インライアと称される。第1の適合されたラインからの所定の距離しきい値は、固定されたパラメータとすることができ、又はドキュメント画像のコンテンツに基づいて、適応的に設定されることもある。ステップDにおいて、第1の適合されたラインからの所定の距離しきい値よりも下に位置づけられるデータ・ポイントのカウントが算出される。決定される最大のインライア数が記録される。ステップEにおいては、チェックが実行されて、最大インライア数がデータ・ポイントの数に等しいかどうかを決定することができる。最大インライア数がデータ・ポイントの数に等しくない場合、反復回数が再計算され、ステップAが再び開始されることもある。最大インライア数がデータ・ポイントの数に等しい場合、ステップFが開始されることもある。
ステップFにおいて、最大インライアを使用して消失ポイントを推定することができる。一実施例においては、第1及び第2の水平消失ポイント候補が、最小二乗法、重み付けされた最小二乗法、及び/又は適応最小二乗法とから成る群から選択される異なる近似方法を使用して推定されることもある。他の近似方法の使用もまた、本明細書において企図される。ステップGにおいては、投影補正の後の、画像ドキュメントの水平テキスト方向に最も近い水平消失ポイント候補が選択されることもある。水平テキスト方向の近さは、

によって測定されることもあり、式中で、nは、ドキュメント画像の中の水平ラインの数であり、αは、投影補正が実行された後の水平方向に関するi番目のライン角度の角度として規定され(180°≧α≧0°)、pは、m個の候補消失ポイントから選択されるp番目の候補水平消失ポイントのインデックスである。
従来のRANSACアルゴリズムは、初期ライン推定のために、ランダムに選択されたポイントを使用する。その結果として、従来のRANSACアルゴリズムが実行されるたびごとに、異なる結果が存在している可能性がある。さらに、従来のRANSACアルゴリズムの結果を判断することは、難しい可能性がある。提案されたRANSAC−ベースのアルゴリズムは、ポイントについての何らかの先験的知識を組み込むことにより、この問題に対処している。提案されたRANSAC−ベースのアルゴリズムにおいては、よい信頼度レベルを有するポイントが最初に選択されて、インライアを推定する。その結果として、提案されたRANSAC−ベースのアルゴリズムは、より整合した結果を提供する。
本開示は、水平消失ポイント決定のために固有ポイントを使用することを説明しているが、ピクセル・ブロブの他の位置決定ピクセルもまた、水平消失ポイント決定のために使用され得ることを理解すべきである。
図3は、一実施例による、実例の固有ポイント・クラスタ化アルゴリズム300を説明するものである。ステップ302において、固有ポイントの組「I」が識別されることもある。ステップ304において、固有ポイントをカウントして、その数が固有ポイント・グループを生成するために十分であるかどうかを決定することができる。その数が十分よりも上(少なくともしきい値数(T)よりも上)にある場合、固有ポイントの組「I」が処理されることもある。しきい値数は、固有ポイント・グループの生成のための制約条件として設定されることもある。固有ポイントの数がしきい値よりも少ない場合、そのときにはステップ324が実行されることもある。実例の一実装形態においては、固有ポイントのしきい値数は、10とすることができ、単一ラインの中に、少なくとも2つの、又は3つの単語の存在を示唆している。しきい値は、固有ポイント・グループに対して関連のない固有ポイントを割り当てる可能性を防止するように設定されることもある。
ステップ306においては、固有ポイント(例えば、p)が、固有ポイントの組Iからランダムに選択される。固有ポイントpは、候補ライン・グループ「C」の中の第1の固有ポイントとして入力されることもある。一実施例においては、候補ライン・グループCは、双方向待ち行列とすることができる。さらに、固有ポイントpが、固有ポイントの組Iから取り除かれる。pの一方の側からの固有ポイントは、候補ライン・グループCへと入力される。
ステップ308において、候補固有ポイント・グループCからの新しく加わった固有ポイントpは、双方向待ち行列(例えば、非負方向i>=0の待ち行列)の一方の側から選択される。固有ポイントpに最も近い固有ポイントの組Iからの固有ポイントpが識別される。
ステップ310において、固有ポイントpとpとの間の距離が計算される。距離がしきい値距離(T)よりも下にある場合、ステップ312が実行される。距離がしきい値距離(T)よりも上にある場合、ステップ314が実行される。しきい値距離は、グループの内部にある固有ポイントの間の最大距離のことを意味することができる。実例の一実装形態においては、グループの固有ポイントの間のしきい値距離は、隣接する固有ポイントの最も近い組のメジアン距離の3倍とすることができる第1の距離しきい値よりも下にある。
ステップ312において、選択された固有ポイントpがポイント・ツー・ライン距離しきい値(T)と、水平方向に対する近接性しきい値(T)とによって課される制約条件を満たすかどうかが決定される。ポイント・ツー・ライン距離しきい値(T)は、固有ポイントが固有ポイント・グループのために選択されるようにするために、テキスト・ベースラインからポイントの最大距離しきい値を規定することができる。ポイント・ツー・ライン距離しきい値(T)を使用して、直線を形成する際に寄与する固有ポイントを選択する。水平方向に対する近接性しきい値(T)は、固有ポイントが固有ポイント・グループのために選択されるようにするための水平方向に関するラインからの固有ポイントの最大角度を規定することができる。水平方向に対する近接性しきい値(T)を使用して、水平方向に近いラインの方向の形成に寄与する固有ポイントを選択する。実例の一実装形態においては、Tは、二十(20)度とすることができる。選択された固有ポイントpが制約条件を満たすことを決定することに応じて、固有ポイントpは、双方向待ち行列(非負方向における)と、その間の時間におけるi=i+1とにおけるpi+1ポイントとして、候補ライン・グループCのために選択されることもある。選択された固有ポイントpが制約条件を満たさないことを決定することに応じて、固有ポイントpは、特別なライン・グループ「L」の中に配置されることもある。
308から312のプロセス・ステップは、一方の側(双方向待ち行列の非負方向)からのすべての固有ポイントが評価されるまで実行される。固有ポイントの一方の側の評価の完了に応じて、pの他方の側からの残りの固有ポイントが考慮される(双方向待ち行列の非正方向)。pの他方の側からの残りの固有ポイントが、候補ライン・グループCへと入力される。
ステップ314において、候補ライン・グループCからの固有ポイントp(双方向待ち行列の非正方向、j<=0)が、別の側から選択される。固有ポイント・グループCの中の他方の側からの固有ポイントpに最も近い固有ポイントの組Iからの固有ポイントpが識別される。ステップ316において、固有ポイントpとpとの間の距離が計算される。距離がTよりも下にある場合、ステップ618が実行される。距離がTよりも上にある場合、ステップ320が実行される。
ステップ318において、固有ポイントpをチェックして、選択された固有ポイントpがTとTとに関して制約条件を満たすかどうかを決定する。固有ポイントpが制約条件を満たすことを決定することに応じて、固有ポイントpは、双方向待ち行列(非正方向における)と、その間の時間におけるj=j−1とにおけるpj−1ポイントとして、候補ライン・グループCについて選択されることもある。固有ポイントが制約条件を満たさないことを決定することに応じて、固有ポイントpは、特別のライン・グループ「L」の中に配置されることもある。
316から318へのプロセス・ステップは、他方の側からのすべての固有ポイントが評価されるまで、実行される。
ステップ320において、候補ライン・グループCの中の固有ポイントがカウントされて、数がしきい値数Tよりも上にあるかどうかを決定することができる。数がTよりも上にある場合、ステップ322が実行される。数がTよりも下にある場合、プロセスがステップ304にマッピングされて、処理のための任意の他の固有ポイントが存在しているかどうかを決定する。ステップ322において、候補ライン・グループCには、インデックス番号が割り当てられ、その結果、候補ライン・グループCは、インデックス番号によってインデックスされるラインについての固有ポイント・アレイになる。
ステップ324において、特別なライン・グループLの中の各固有ポイントについて、固有ポイントがライン・グループのうちのどれかについてのTと、Tと、Tとの制約条件の内部にあるかどうかがチェックされる。固有ポイントが制約条件Tと、Tと、Tとの内部にあることを決定することに応じて、固有ポイントは、対応するライン・グループへとマージされる。
プロセスは、ドキュメント画像の中のすべてのラインが処理されるまで、あらゆるテキスト・ベースラインについて反復される。
本明細書において説明されるような固有ポイント・クラスタ化アルゴリズムの1つの利点は、それが、クラスタ化するための初期ポイントに関係なく、整合したクラスタ化結果を与えることである。双方向待ち行列の使用は、一方向における1つのエンド・ポイントではなくて、ラインの上の2つのエンド・ポイントの使用を可能にし、それによってポイント・グループを形成するシーディング・ポイントに対するアルゴリズムの信頼を低減させている。固有ポイント・クラスタ化アルゴリズムは、アルゴリズムが、各固有ポイントがポイント・グループのうちの1つに属する必要があることを必要としていないという意味で、柔軟性がある。グループのうちのどれにも含まれないいくつかの固有ポイントは、切り捨てられ、又は無視される。これは、従来のクラスタ化アルゴリズムよりも提案された固有ポイント・クラスタ化アルゴリズムについてのより簡単な、より高速な収束をもたらす。それにもかかわらず、固有ポイントを異なるライン・グループへとクラスタ化するための従来の、又は任意の他のクラスタ化アルゴリズムの使用もまた、本明細書において企図される。
図4は、一実施例による、マージン特徴ポイントを使用して垂直消失ポイントを識別するための実例のプロセス・フロー400を説明するものである。ステップ402において、マージン特徴ポイントが識別されることもある。マージン特徴ポイントは、一実施例による、位置決定ピクセルとすることができる。マージン特徴ポイントは、以下で説明されるように識別されることもある。一実施例においては、マージン特徴ポイントは、左マージンについては、ピクセル・ブロブの左下エンド・ピクセルとすることができ、マージン特徴ポイントは、右マージンについては、ピクセル・ブロブの右下エンド・ピクセルとすることができる。左下エンド・ポイントは、固有ポイント・グループ(例えば、水平ライン推定中に識別される)の中の左固有ポイントに関連するブロブを見出すことにより、識別されることもある。固有ポイント・マージング・ステップの後、且つ水平ライン形成のための固有ポイント・グループの使用に先立って決定される固有ポイント・グループは、マージン・ポイント決定のために使用されることもある。固有ポイントが左又は右の固有ポイントにマージした後である理由は、マージング・ブロブに対応している可能性がある。固有ポイントは、ライン形成の直前に取り除かれていない可能性もある。左固有ポイントは、グループの中の固有ポイントのx−座標を比較した後に、見出されることもある。左固有ポイントの対応するブロブが見出されることもある。ブロブの左下エンド・ポイントは、左マージン特徴ポイントとして使用されることもある。左下エンド・ポイントと同様に、右下エンド・ポイントは、固有ポイント・グループの中の右固有ポイントに関連するブロブを見出すことにより識別されることもある。固有ポイント・グループの右端の上のブロブを識別した後に、識別された右端のブロブの近くに隣接するブロブが存在しているかどうかが決定されることもある。次いで、ブロブ検索が、固有ポイント・マージング・プロシージャにおいて隣接するブロブ検索アルゴリズムの中で使用されるプロセスに類似したプロセスを使用して実行される。次いで、見出されたブロブに対応する右下のエンド・ポイントを使用して、右マージン・ライン推定のための特徴ポイントを形成する。代替的な実施例においては、マージン特徴ポイントの他の変形形態が、使用されることもある。図12は、マージン特徴ポイントがマージンにおいて識別される実例の画像を示すものである。マージン特徴ポイントは、1202の内部に示されるようにマージンにおいてドットによってマーク付けされることが分かる可能性がある。パラグラフ・マージンは、投影ひずみが起こらない場合には、通常、垂直であり、平行している。
ステップ404において、マージン・ポイントの特徴が、異なるマージン・グループへとクラスタ化される。画像の中のドキュメントのマージン・ラインに沿ったマージン特徴ポイントは、マージンを推定するために使用されることもある。一実施例においては、マージン特徴ポイントは、対応するマージンの中のピクセル・ブロブの近接性に基づいて、クラスタ化されることもある。実例の一実施例においては、図3に関連して説明される固有ポイント・クラスタ化アルゴリズムに類似したクラスタ化アルゴリズムが、マージン特徴ポイントをクラスタ化するために使用されることもある。代替的な一実施例においては、異なるポイント・クラスタ化アルゴリズムが、以下に説明されるようになど、使用されることもある。
ステップ1:マージン・ポイント特徴距離しきい値TEndthを設定し、識別される(ステップ402における)すべての左マージン・ポイントが、{P}として示され、
ステップ2:{P}からのランダムに選択された1つのポイントを用いて左マージン・ポイント・グループ{C}を初期化し、このポイントを{P}から取り除き、グループ_インデックス=1を設定し、
ステップ3:{P}の中の各ポイントについて、このポイントと{C}の中のポイントとの間の最小距離を算出する(グループ_インデックス≧i≧1)。距離が、TEndthよりも低い場合、そのときには、このポイントは、最小距離に到達するポイント・グループに割り当てられ、そうでなければ、グループ・インデックスは、1だけ増大することになり、すなわち、グループ_インデックス=グループ_インデックス+1であり、このポイントは、最新の左マージン・ポイント・グループ:{Cグループ_インデックス}に割り当てられるであろう。
TEndthは、6(T)に等しくなるように設定され((T)は、図2に関連して以上で考察されるような固有ポイントの間のメジアン距離である)、この値は、それが、同じマージン・ラインの中にあることが期待される隣接するマージン・ポイントの特徴を検索するために十分満足できるようにして、選択されることもある。左エンド・ポイント・クラスタ化方法は、左エンド・ポイント・クラスタ化アルゴリズムがすべてのマージン・ポイントを使用することができるので、水平ライン推定のための固有ポイント・クラスタ化方法とは異なる可能性があるが、固有ポイント・クラスタ化アルゴリズムにおいては、いくつかの固有ポイントが、クラスタ化プロセス中に除去されることもある。
代替的な実施例においては、他のクラスタ化アルゴリズムもまた、使用されることもある。マージンにおいて識別されるクラスタ化された位置決定ピクセルは、異なるマージン・ポイント・グループへと処理されることもある。例えば、ドキュメント画像の中に、2つの列が存在している場合、両方の列の左マージンと右マージンとについての位置決定ピクセルが識別され、それに応じてグループ分けされる。ステップ406においては、過剰分類されたマージン・ラインが、対応するマージン・ラインと統合されることもある。例えば、同じマージンに沿った2本以上のラインが、単一のマージンへと統合されることもある。
ステップ408において、垂直ライン推定が、マージン・ポイント・グループを使用して実行されることもある。固有ポイント・クラスタ化アルゴリズムと同様に、必ずしもあらゆるマージン・ポイント・グループが、垂直ライン推定のために使用されることもあるとは限らない。グループのためのマージン特徴ピクセルは、マージン・ライン推定に適している以下の複数の条件、すなわち、マージン・ラインPthの中の最小ポイント数(例えば、Pthのためのしきい値は、3つの固有ポイントとすることができる)と、マージン・ラインの上のポイントの最小パーセンテージP(例えば、約50%)と、垂直方向に関するラインの最大角度α(例えば、最大角度は、約20°とすることができる)と、最小非境界ポイント信頼度レベルP(例えば、最小非境界ポイントは、約50%とすることができる)とのうちの、1つ又は複数を満たす必要がある可能性がある。
マージン・ポイントの特徴(これは、Pthに寄与する)は、ピクセル決定ポイントとマージン・ラインとの間の距離がしきい値(T)の内部にある場合に、マージン・ラインの内部にあるように見なされることもあり、このしきい値(T)は、実例の一実装形態においては、メジアン固有ポイント距離(T)に等しい。マージン・ラインPの上のポイントのパーセンテージは、クラスタ化された固有ポイント・グループの中のマージン・ラインの内部の固有ポイントの数とマージン・ポイントの特徴の数との間の比率として規定されることもある。いくつかの実施例においては、範囲を外れているピクセル決定ポイントが存在していることもある。例えば、ドキュメント・コンテンツが部分的に取り込まれるときに、画像の境界は半分取り込まれるコンテンツを有することができる。境界におけるそのようなブロブに関連するピクセル決定ポイントが、境界ポイントとして規定されることもある。境界ポイントは、マージン・ライン推定において使用されないこともあり、非境界ポイントのパーセンテージは、クラスタ化されたマージン・ポイント特徴グループの中の非境界ポイントの数と、マージン・ポイントの特徴の数との間の比率として規定される可能性がある。最小非境界ポイント信頼度レベルPは、マージン・ラインの上のポイントのパーセンテージと、非境界ポイントのパーセンテージとの乗算として規定されることもある。
一実施例においては、垂直ライン推定は、垂直オフセット最小二乗法を使用して実行されることもあるが、代替的な方法もまた、ここで企図される。可能性のあるほとんど垂直なラインが、y=kx+tとして表されることを仮定する。垂直オフセット最小二乗法を用いると、最適ライン係数は、次のオブジェクト最小化関数、すなわち、

に対応している。
垂直オフセット最小二乗法に基づいて、以下で説明されるようなほとんど垂直なライン推定のための反復的な堅牢な方法が、一実施例に従って、使用されることもある。
ステップ1において、ラインが、垂直オフセット・ライン推定方法を使用して初期化される。ステップ2において、サンプル・ポイントからの距離が算出される。ステップ3において、ライン関数が、重み付けられた垂直オフセット方法に基づいて再計算される。ステップ4において、逐次的な推定されたラインの間の角度差が算出されることもある。角度差が所定のしきい値よりも下にあり、又は反復カウントが最大の許容可能反復を超過する場合、本方法は、ステップ5へと進む。角度差が所定のしきい値よりも上にあり、又は反復カウントが最大許容可能な反復の内部にある場合、次の反復が、ステップ2へと進むことにより、実行される。ステップ5において、ライン関数は、算出される。所定のしきい値と、最大許容可能な反復回数とは、一実施例による、水平ライン推定方法におけるそれぞれのパラメータと同じ値である。代わりに、水平ライン推定のために使用される値とは異なる値が、垂直ライン推定のための所定のしきい値と、最大許容可能反復とのために使用される。重み付けられた垂直オフセット方法は、以下の実例の擬似コード、すなわち、

を使用して実施される可能性がある。
別の実施例においては、垂直ライン推定は、x−y交換可能な重み付けされた最小二乗法を使用して実行されることもある。x−y交換可能な重み付けされた最小二乗法においては、xとyとの座標は、垂直ラインの推定の前に交換される可能性があり、その結果、垂直オフセットは、垂直ライン推定中に制約を受けるであろう。
ひとたび、垂直ラインが推定された後に、垂直ラインが、マージされることもある。例えば、ライン・スペースに沿った複数の折れたマージン・ラインがマージされて、単一のマージンを形成することができる。垂直ラインは、以下のステップを使用してマージされる可能性がある。ステップ1において、各マージン・ラインについて、x−座標が算出されることもあり、垂直座標(y−座標)が固定されることを保持している。ステップ2において、x−座標の距離は、マージン・ラインのために算出されることもある。x−座標の距離がしきい値Tvthよりも下にある場合、マージン・ラインは、マージされることもある。Tvthは、2(T)であるように、選択されることもあり、ここで、Tは、マージン特徴ポイントの間のメジアン距離とすることができる。複数の垂直ラインが存在するときの例では、最も近い垂直ラインが、それらが垂直消失ポイント識別のために使用される前に、マージされることもある。図13は、同じマージンに沿った2本の推定された垂直ライン1302A及び1302Bを示す実例の画像を示している。図14は、図13の単一マージン1402への推定された垂直ラインのマージングを示す実例の画像を示すものである。
ステップ410において、推定された垂直ラインを使用して、垂直消失ポイントは、識別されることもある。決定された垂直ラインは、以下で説明されるように、修正されたRANSACアルゴリズムを使用して処理されることもあり、この修正されたRANSACアルゴリズムは、水平消失ポイント識別のために使用される方法と非常に類似している。マージング・ステップからもたらされる推定された垂直マージン・ラインは、デカルト座標系において規定されることもある。さらに、前記推定された垂直マージン・ラインのそれぞれは、デカルト座標系から同次座標系におけるデータ・ポイントへと変換される。データ・ポイントのそれぞれに対する信頼度レベルは、それが、水平消失ポイント識別を用いて行われたので、結果として生ずるマージン・ライン、並びにそれぞれのマージン・ラインの長さを推定するために使用されるマージン・ポイントの近接性に基づいて割り当てられることもある。所定のしきい値よりも上の信頼度レベルを有するデータ・ポイントのうちのデータ・ポイントの組が、優先順位サンプル・アレイへとグループ分けされる。さらに、優先順位サンプル・アレイの中のデータ・ポイントは、いくつかのサンプル・グループへとクラスタ化される。一実施例においては、サンプル・グループのそれぞれは、2つ以上のデータ・ポイントを含んでいる。さらに、グループ信頼度値は、サンプル・グループの中の各データ・ポイントに割り当てられる信頼度レベルに基づいて、各サンプル・グループに割り当てられることもある。データ・ポイントのサンプル・グループは、ライン・フィッティングのために、優先順位サンプル・アレイから反復して選択されることもある。一実施例においては、反復は、優先順位サンプル・アレイの中で最高の信頼度値を有するサンプル・グループから開始されることもある。第1のサンプル・グループについてのライン・フィッティングが実行されることもあり、第1の適合されたラインをもたらしている。それぞれのさらなるサンプル・グループについてのライン・フィッティングが、その後に実行されることもあり、さらなる適合されたラインをもたらしている。第1の適合されたラインからの所定の距離しきい値よりも下に位置づけられるデータ・ポイントの組が、第1の適合されたラインと、さらなる適合されたラインとに基づいて、決定されることもある。第1及び第2の垂直消失ポイント候補は、データ・ポイントの決定された組に対応する垂直ラインから推定されることもある。一実施例においては、第1及び第2の水平消失ポイント候補は、最小二乗法、重み付けされた最小二乗法、及び/又は適応最小二乗法など、異なる近似方法を使用して推定されることもある。他の近似方法もまた、使用されることもある。各垂直消失ポイント候補の近接性は、投影補正の後に、結果として生ずる垂直テキスト方向と比較されることもある。投影補正の後の画像ドキュメントの垂直テキスト方向に最も近い垂直消失ポイント候補が、選択されることもある。
検出されたマージン・ラインの数が比較的小さい(例えば、5よりも小さい)場合、重み付けされた垂直消失ポイント識別方法を使用して、直接に消失ポイントを算出することも可能である。この方法を用いて、前記推定された垂直マージン・ラインのそれぞれは、デカルト座標系から同次座標系におけるデータ・ポイントへと変換される。データ・ポイントのそれぞれに対する信頼度レベルは、上記で述べられるように割り当てられることもある。その後に、重み付けされた最小二乗法を使用して垂直消失ポイントに対応するラインに適合させることができる。
図5は、一実施例による、連結成分分析を使用して垂直消失ポイントを識別するための実例のプロセス500を説明するものである。プロセス500は、垂直マージン・ラインがマージンのないことに起因して、使用可能でないこともある場合に、採用されることもある。垂直消失ポイントは、ピクセル・ブロブのテキスト・ストロークの特徴を使用して識別されることもあり、このピクセル・ブロブのテキスト・ストロークの特徴は、テキスト・キャラクタの構成ユニットである。ステップ502において、ピクセル・ブロブのテキスト・ストロークの特徴が識別されることもある。図15は、キャラクタのテキスト・ストロークの特徴の識別情報を示す実例の画像を示すものである。円1502によって識別されるテキストの一部分が、図の右側に示されている。複数の文字「dans la」のうちの垂直テキスト・ストロークの特徴1504が、識別され、示されている。
ステップ504において、ピクセル・ブロブの組は、1つ又は複数の規定された判断基準に準拠したテキスト・ストロークの特徴を用いて識別されることもある。一実施例においては、ピクセル・ブロブは、ピクセル・ブロブが、複数の判断基準、すなわち、ピクセル・ブロブの偏心度0.97と、マージンに対して近くないことと、70°と110°との間のテキスト・ストロークの角度と、[0.3,5]エリアの内部のピクセル・ブロブのエリアとのうちの1つ又は複数を満たす場合に、選択されることもある。偏心度を使用して、ピクセル・ブロブが円形形状にどれだけ近いかを示すことができる。円形形状の偏心度がゼロであるので、偏心度値が小さくなれば小さくなるほど、ピクセル・ブロブは、より円形になる。ピクセル・ブロブの偏心度が0.97よりも大きい場合には、ピクセル・ブロブはライン・セグメントのように見え、それゆえに垂直ひずみを示すことができるひずみを受けたブロブとすることができる。一実施例においては、ピクセル・ブロブの偏心度は、ピクセル・ブロブの周囲の取り巻く楕円を識別することにより見出されることもあり、次いで次の式、すなわち、

に従って、それを算出することができ、式中で、aと、bとは、楕円の長軸と、短軸とを表している。中国語やロシア語などの言語では、エッジ検出や数学的形態学フィルタリングなど、オプションの前処理プロシージャを使用して、ピクセル・ブロブの偏心度の特徴を強化することができる。0.97を有するピクセル・ブロブは、適切なフィルタを使用してフィルタをかけられることもある。画像の境界に対するピクセル・ブロブの近さは、推定のために使用されないこともある。一実施例においては、近接性フィルタリングを使用して、画像境界との交差を有するピクセル・ブロブを除去することができる。同様にして、一実施例においては、角度フィルタリングが実行されて、70度と、110度との内部にないテキスト・ストロークを有するピクセル・ブロブにフィルタをかけることができる。[0.3,5]エリアの範囲の中にエリアを有するピクセル・ブロブが選択されることもある。そのような範囲の内部のブロブを識別するために、堅牢な方法を使用して、上記で述べられた判断基準のフィルタリングの後に選択されるピクセル・ブロブのメジアン・エリアを推定することができる。そのエリア値が[0.3,5]エリアの範囲の中にあるピクセル・ブロブは、垂直消失ポイント推定のために使用される。図16は、テキスト・ストロークの特徴の識別の後に、選択的に抽出されたブロブを示す実例の画像を示すものである。
選択されたピクセル・ブロブは、垂直テキスト・ブロブ・ラインを推定するために使用される。垂直ラインは、ステップ506において推定される。垂直ラインは、ピクセル・ブロブの方向に対応することができるライン関数を使用して推定される。図17は、選択されたピクセル・ブロブについての推定された垂直テキスト・ブロブ・ラインを示す実例の画像を示すものである。
ステップ508において、垂直ラインを使用して、垂直消失ポイントは、決定されることもある。一実施例においては、垂直消失ポイントは、以前に説明されるような修正されたRANSACアルゴリズムを使用して決定されることもある。図18は、修正されたRANSACアルゴリズムの適用の結果として選択される垂直テキスト・ブロブ・ラインを示す実例の画像を示すものである。簡潔にするために、垂直ラインの上の修正されたRANSACの適用を要約する簡単な説明が以下で提供される。前記推定された垂直テキスト・ブロブ・ラインのそれぞれが、デカルト座標系におけるラインとして規定される。推定される前記垂直テキスト・ブロブ・ラインのうちのさらなるそれぞれは、デカルト座標系において、同次座標系におけるデータ・ポイントに対して変換される。データ・ポイントのそれぞれに対する信頼度レベルが割り当てられることもある。信頼度レベルは、それぞれの垂直テキスト・ブロブ・ラインを推定するために使用されるピクセル・ブロブの形状の少なくとも偏心度に基づいたものとすることができる。さらに、修正されたRANSAC方法は、垂直消失ポイントを決定するために、上記図面に関連して上記で説明されるように適用される。
投影補正アルゴリズムは、本明細書において説明される機能を実施するために、コンピューティング・デバイスの上にロードされるときに、マシンを生成するコンピュータに関連した命令の組として実施されることもある。これらのコンピュータ・プログラム命令は、コンピュータ又は他のプログラマブル・データ処理装置が、説明されるやり方で機能することを指示することができる非一時的コンピュータ読取り可能メモリに記憶される可能性もある。投影補正アルゴリズムはまた、コンピュータ・ベースのシステムにおいて、又はコンピュータ・ベースのシステムに関連して、実施され得るハードウェア、又はハードウェアとソフトウェアとの組合せとして実施されることもある。当業者なら、コンピュータ・ベースのシステムが、サーバ/コンピュータに関連するオペレーティング・システムと、様々なサポート・ソフトウェアとを含むことを理解することができる。本明細書において説明されるような投影補正アルゴリズムは、組織及び/又は組織に関連するサード・パーティ・ベンダーによって展開されることもある。
投影補正アルゴリズムは、画像処理アプリケーションやOCRアプリケーションなど、他のアプリケーションと統合され得る、ユーザ・デバイスの上に存在するスタンドアロン・アプリケーション、又はモジュラー・アプリケーション(例えば、プラグイン)とすることができる。例えば、スタンドアロン・アプリケーションは、パーソナル・コンピュータ、ポータブル・コンピュータ、ラップトップ・コンピュータ、ネットブック・コンピュータ、タブレット・コンピュータ、スマートフォン、デジタル・スチル・カメラ、ビデオ・カメラ、モバイル通信デバイス、携帯型個人情報端末、スキャナ、多機能デバイス、又はドキュメント画像を取得すること、及び本明細書において説明されるオペレーションを実行するためのプロセッサを有することができる任意のデバイスなど、ユーザ・デバイスの上に存在することができる。別の企図された実装形態においては、投影補正アルゴリズムの一部分は、ユーザ・デバイス(例えば、ユーザのカメラ)によって実行されることもあり、投影補正アルゴリズムの他の部分は、ユーザ・デバイスに結合された処理デバイス(例えば、ユーザのパーソナル・コンピュータ)によって実行されることもある。この場合には、処理デバイスは、よりコンピュータ的に高くつくタスクを実行することができる。投影補正アルゴリズムはまた、ネットワークを通してユーザ・デバイスからアクセス可能なサーバ(例えば、OCRサーバ)の上に存在するサーバ・ベースのアプリケーションとして実施されることもある。投影補正アルゴリズムはまた、複数のネットワーク化されたデバイスを通して実施されるモジュールを有するネットワーク・ベースのアプリケーションとして、実施されることもある。
要約すると、本開示は、透視図法によりひずみを受けた画像、例えば、カメラ・ベースのドキュメント画像の投影補正のための方法の様々な実施例を提供しており、これらの方法は、以下の技術的寄与のうちの少なくとも1つを有している。
− 水平消失ポイントを推定するための固有ポイントの使用。一般に、これらのベースラインが、ほとんど、テキスト部分の中の複数の逐次的なキャラクタのために位置合わせされているので、位置決定ピクセルとして境界ボックスのベースラインの上のピクセルのうちの1つを使用することが好ましい。これらのうちでは、それらの固有ポイントは、それらが、標準の連結成分分析の副産物であり、それゆえに、追加の処理ステップが、各ピクセル・ブロブについてこれらを取得するために必要とされないので、好ましい。
− 固有ポイント選択プロシージャが、テキスト・ライン推定のために使用され得る固有ポイントを選択するために提案される。混同させる固有ポイントを除去し、クラスタ化すること、又はマージすることにより残りの固有ポイントをグループ分けする実施例が開示されている。さらに、固有ポイントのクラスタ化することの結果は、既に推定されたベースラインである。
− テキスト部分のベースラインの左エンド・ポイントと、右エンド・ポイントとが、マージン・ライン推定のためのマージン特徴ポイントとして使用される。左及び右のエンド・ポイント・クラスタ化アルゴリズムが、マージン・ラインを推定するために提案される。
− 消去ポイント推定においてインライアを識別するために、優先順位−RANSACと称され得る従来のRANSACアルゴリズムの適応が提案され、そこでは、従来のアルゴリズムは、先験的知識、例えば、信頼度値又は信頼度レベルを考慮に入れることにより改善される。
− 消失ポイント選択プログラムが、異なるやり方で決定され得るいくつかの候補消失ポイントのうちから選択するために採用される。
− 重み付けされたライン推定が、信頼度レベルを使用して、水平消失ポイント推定のために提案され、適応的重み付けされたライン推定が、垂直消失ポイント推定のために提案される。
− 垂直オフセット最小二乗法と、x−y交換可能な重み付けされた最小二乗法とが、垂直マージン・ラインを算出するために提案される。
− ブロブ分析に基づいた垂直消失ポイント推定が、特に、ピクセル・ブロブの垂直ストロークの特徴を考慮することにより提案される。
− ページ分析が処理チェーンの中に組み込まれ、テキスト情報だけが投影補正のために使用される。ステップが、投影補正を実行する前にピクチャを除去し、又は分離するために取られる実施例が提案される。
− 投影補正問題を解決する完全な処理チェーンが提案され、そこではユーザ介入のための必要性が、回避される可能性がある。
− 異なるレベルについての、すなわち、固有ポイント、ベースラインと、消失ポイント候補とについての除去ステップを含む投影補正方法が、投影補正の結果をまとめて改善するために提案される。

Claims (53)

  1. 透視図法によってひずみを受ける少なくとも1つのテキスト部分を含む画像の投影補正のための方法であって、
    前記画像が2値化される、画像2値化のステップと、
    ピクセル・ブロブが、前記2値化された画像の前記少なくとも1つのテキスト部分において検出される、連結成分分析のステップと、
    前記ピクセル・ブロブの固有ポイントを用いてテキスト・ベースラインを推定するステップ、及び前記テキスト・ベースラインを用いて前記少なくとも1つのテキスト部分の水平消失ポイントを決定するステップを含む水平消失ポイント決定のステップと、
    垂直消失ポイントが、その垂直の特徴に基づいて、前記少なくとも1つのテキスト部分について決定される、垂直消失ポイント決定のステップと、
    前記画像における前記透視図法が、前記の水平及び垂直の消失ポイントに基づいて補正される、投影補正のステップと
    を含む方法。
  2. 各固有ポイントは、前記それぞれのピクセル・ブロブの境界ボックスの底部の中心である、請求項1に記載の方法。
  3. テキスト・ベースラインを推定する前記ステップは、混同させる固有ポイントの除去のステップを含み、考慮している前記固有ポイントの近くにおいて、固有ポイントに関するラインを外れている混同させる固有ポイントは、検出され、前記混同させる固有ポイントは、前記テキスト・ベースライン推定のために無視される、請求項1に記載の方法。
  4. 前記混同させる固有ポイントの除去ステップは、
    前記ピクセル・ブロブの幅と、高さとを決定するステップと、
    前記ピクセル・ブロブの幅と、高さとについての平均値を決定するステップと、
    考慮している前記ピクセル・ブロブの幅と、高さとのうちの少なくとも一方が、前記算出された平均値から所定の範囲だけ異なるピクセル・ブロブに属する固有ポイントとして前記混同させる固有ポイントを検出するステップと
    を含む、請求項3に記載の方法。
  5. テキスト・ベースラインを推定する前記ステップは、固有ポイントを固有ポイント・グループへとクラスタ化するステップを含み、前記固有ポイント・グループは、以下の複数の条件、すなわち、
    − 前記グループの前記固有ポイントの間のポイント・ツー・ポイント距離が、第1の距離しきい値よりも下にある条件と、
    − 前記グループの各固有ポイントと、前記グループの前記固有ポイントによって形成されるラインとの間のポイント・ツー・ライン距離が、第2の距離しきい値よりも下にある条件と、
    − 前記グループの前記固有ポイントによって形成される前記ラインのオフ水平角度が、最大角度よりも下にある条件と、
    − 前記固有ポイント・グループが、最小の数の固有ポイントを含んでいる条件と
    のうちの少なくとも1つを満たし、前記テキスト・ベースラインは、前記固有ポイント・グループに基づいて、推定される、請求項1に記載の方法。
  6. 前記第1の距離しきい値と、前記第2の距離しきい値と、前記最大角度と、前記最小の数の固有ポイントとは、前記画像のコンテンツに基づいて、適応的に設定される、請求項5に記載の方法。
  7. テキスト・ベースラインを推定する前記ステップは、固有ポイント・グループ・マージングのステップをさらに含み、無視された固有ポイントの両側の上の固有ポイント・グループは、より大きな固有ポイント・グループへとマージされる、請求項5に記載の方法。
  8. 前記水平消失ポイントを決定する前記ステップは、
    前記推定されたテキスト・ベースラインのそれぞれをデカルト座標系におけるラインとして規定するステップと、
    前記デカルト座標系において規定される前記テキスト・ベースラインのそれぞれを同次座標系におけるデータ・ポイントへと変換するステップと、
    信頼度レベルを前記データ・ポイントのそれぞれに割り当てるステップであって、前記信頼度レベルは、前記それぞれのテキスト・ベースラインの少なくとも長さと、前記テキスト・ベースラインを推定するために使用される固有ポイントの前記グループと、前記結果として生ずるテキスト・ベースラインとの近接性とに基づいている、割り当てるステップと、
    所定のしきい値よりも上の信頼度レベルを有するいくつかのデータ・ポイントを優先順位サンプル・アレイへとグループ分けするステップと、
    前記優先順位サンプル・アレイの中の前記データ・ポイントをいくつかのサンプル・グループへとクラスタ化するステップであって、各サンプル・グループは、少なくとも2つのデータ・ポイントを含む、クラスタ化するステップと、
    前記サンプル・グループの中の各データ・ポイントに割り当てられる少なくとも前記信頼度レベルに基づいて、グループ信頼度値を各サンプル・グループに割り当てるステップと、
    ライン・フィッティングのために前記優先順位サンプル・アレイからデータ・ポイントのサンプル・グループを反復的に選択するステップであって、前記反復は、前記優先順位サンプル・アレイにおける、最高の信頼度値を有する前記サンプル・グループから開始される、反復的に選択するステップと、
    第1の適合されたラインをもたらす前記第1のサンプル・グループについてライン・フィッティングを実行するステップ、及びさらなる適合されたラインをもたらすそれぞれのさらなるサンプル・グループについてライン・フィッティングをその後に実行するステップと、
    前記の第1の適合されたラインと、さらなる適合されたラインとに基づいて、前記第1の適合されたラインからの所定の距離しきい値よりも下に位置づけられるデータ・ポイントの組を決定するステップと、
    データ・ポイントの前記決定された組に対応する水平テキスト・ベースラインから少なくとも第1及び第2の水平消失ポイント候補を推定するステップと、
    それぞれの推定された水平消失ポイント候補に基づいて、投影補正を実行するステップと、
    投影補正の後に結果として生ずる水平テキスト方向に対する各水平消失ポイント候補の近接性を比較するステップと、
    投影補正の後に画像ドキュメントの水平テキスト方向に最も近い前記水平消失ポイント候補を選択するステップと
    を含む、請求項1に記載の方法。
  9. 前記の第1及び第2の消失ポイント候補は、最小二乗法と、重み付けされた最小二乗法と、適応最小二乗法とから成る群から選択される異なる近似方法を使用して推定される、請求項8に記載の方法。
  10. 前記垂直消失ポイントを決定する前記ステップは、
    それぞれが、前記画像の前記テキスト部分に対するブロブ・フィルタリング・アルゴリズムによって選択される前記ピクセル・ブロブのうちの選択された1つの方向に対応する、複数の垂直テキスト・ブロブ・ラインを推定するステップと、
    デカルト座標系におけるラインとして、前記推定された垂直テキスト・ブロブ・ラインのそれぞれを規定するステップと、
    前記デカルト座標系において推定される前記垂直テキスト・ブロブ・ラインのそれぞれを同次座標系におけるデータ・ポイントへと変換するステップと、
    信頼度レベルを前記データ・ポイントのそれぞれに割り当てるステップであって、前記信頼度レベルは、前記それぞれの垂直テキスト・ブロブ・ラインを推定するために使用される前記ピクセル・ブロブの形状の少なくとも偏心度に基づいている、割り当てるステップと、
    所定のしきい値よりも上の信頼度レベルを有するいくつかのデータ・ポイントを優先順位サンプル・アレイへとグループ分けするステップと、
    前記優先順位サンプル・アレイの中の前記データ・ポイントをいくつかのサンプル・グループへとクラスタ化するステップであって、各サンプル・グループは、少なくとも2つのデータ・ポイントを含む、クラスタ化するステップと、
    前記サンプル・グループの中の各データ・ポイントに割り当てられる前記信頼度レベルに基づいて、グループ信頼度値を各サンプル・グループに割り当てるステップと、
    ライン・フィッティングのために、前記優先順位サンプル・アレイからデータ・ポイントのサンプル・グループを反復的に選択するステップであって、前記反復は、前記優先順位サンプル・アレイにおける最高のグループ信頼度値を有する前記サンプル・グループから開始される、反復的に選択するステップと、
    第1の適合されたラインをもたらす前記第1のサンプル・グループについてライン・フィッティングを実行するステップ、及びさらなる適合されたラインをもたらすそれぞれのさらなるサンプル・グループについてライン・フィッティングをその後に実行するステップと、
    前記の第1の適合されたラインと、さらなる適合されたラインとに基づいて、前記第1の適合されたラインからの所定の距離しきい値よりも下に位置づけられるデータ・ポイントの組を決定するステップと、
    データ・ポイントの前記決定された組に対応する前記垂直テキスト・ブロブ・ラインから少なくとも第1及び第2の垂直消失ポイント候補を推定するステップと、
    それぞれの推定された垂直消失ポイント候補に基づいて、投影補正を実行するステップと、
    投影補正の後に結果として生ずる垂直テキスト方向に対するそれぞれの推定された垂直消失ポイント候補の近接性を比較するステップと、
    画像ドキュメントの前記垂直テキスト方向に最も近い前記垂直消失ポイント候補を選択するステップと
    を含む、請求項1に記載の方法。
  11. 前記の第1及び第2の消失ポイント候補は、最小二乗法と、重み付けされた最小二乗法と、適応最小二乗法とから成る群から選択される異なる近似方法を使用して推定される、請求項10に記載の方法。
  12. 前記ブロブ・フィルタリング・アルゴリズムは、以下の複数の条件、すなわち、
    前記ピクセル・ブロブの主要な方向を表す、前記考慮されたピクセル・ブロブの形状の偏心度が、所定のしきい値よりも上にある条件と、
    前記画像の境界に対する各ピクセル・ブロブの近接性が、所定の距離しきい値よりも上にある条件と、
    前記結果として生ずる垂直ラインの角度が、最大角度しきい値よりも下にある条件と、
    ピクセルの数によって規定される各ピクセル・ブロブのエリアが、最大エリアしきい値よりも下にある条件と
    のうちの少なくとも1つに基づいて、ピクセル・ブロブを選択する、請求項10に記載の方法。
  13. テキストとピクチャとの分離のステップは、前記画像2値化の後、且つ前記連結成分分析の前に実行され、テキスト情報だけが前記2値化された画像において保持される、請求項1に記載の方法。
  14. 透視図法によってひずみを受ける少なくとも1つのテキスト部分を含む画像の投影補正のための方法であって、
    前記画像が2値化される、画像2値化のステップと、
    連結成分分析のステップであって、ピクセル・ブロブが、前記2値化された画像の前記少なくとも1つのテキスト部分において、検出され、前記ピクセル・ブロブのそれぞれについて、位置決定ピクセルが、前記ピクセル・ブロブのピクセル・ブロブ・ベースラインの上で選択され、前記位置決定ピクセルが、前記2値化された画像における前記ピクセル・ブロブの位置を規定している、連結成分分析のステップと、
    前記位置決定ピクセルを用いてテキスト・ベースラインを推定するステップ、及び前記テキスト・ベースラインを用いて前記少なくとも1つのテキスト部分の水平消失ポイントを決定するステップとを含む水平消失ポイント決定のステップと、
    垂直消失ポイント決定のステップであって、垂直消失ポイントが、その垂直の特徴に基づいて、前記少なくとも1つのテキスト部分のために決定される、垂直消失ポイント決定のステップと、
    投影補正のステップであって、前記画像における前記透視図法が、前記の水平及び垂直の消失ポイントに基づいて補正される、投影補正のステップと
    を含む方法。
  15. 前記位置決定ピクセルは、前記ピクセル・ブロブの境界ボックスの底部の中心である、請求項14に記載の方法。
  16. 前記位置決定ピクセルは、前記ピクセル・ブロブの境界ボックスの底部コーナーである、請求項14に記載の方法。
  17. 透視図法によってひずみを受ける少なくとも1つのテキスト部分を含む画像の投影補正のためのシステムであって、前記システムが、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサを用いて実行可能なプログラムを含む関連するストレージとを備えており、
    実行されるときに、前記画像を2値化する画像2値化のために構成された第1のソフトウェア・コード部分と、
    実行されるときに、前記2値化された画像の前記少なくとも1つのテキスト部分におけるピクセル・ブロブを検出する連結成分分析のために構成された第2のソフトウェア・コード部分と、
    実行されるときに、前記ピクセル・ブロブの固有ポイントを用いてテキスト・ベースラインを推定し、前記テキスト・ベースラインを用いて前記少なくとも1つのテキスト部分の水平消失ポイントを決定する水平消失ポイント決定のために構成された第3のソフトウェア・コード部分と、
    実行されるときに、その垂直の特徴に基づいて、前記少なくとも1つのテキスト部分についての垂直消失ポイントを決定する垂直消失ポイント決定のために構成された第4のソフトウェア・コード部分と、
    実行されるときに、前記の水平及び垂直の消失ポイントに基づいて、前記画像における前記透視図法を補正する投影補正のために構成された第5のソフトウェア・コード部分と
    を含むシステム。
  18. 以下のうちの、すなわち、パーソナル・コンピュータ、ポータブル・コンピュータ、ラップトップ・コンピュータ、ネットブック・コンピュータ、タブレット・コンピュータ、スマートフォン、デジタル・スチル・カメラ、ビデオ・カメラ、モバイル通信デバイス、携帯型個人情報端末、スキャナ、多機能デバイスのうちの1つを備えている、請求項17に記載のシステム。
  19. コンピュータ・デバイスの上で実行可能であり、前記コンピュータ・デバイスの上で実行されるときに、以下のステップを、すなわち、
    画像が2値化される、画像2値化のステップと、
    ピクセル・ブロブが、前記2値化された画像の前記少なくとも1つのテキスト部分において検出される、連結成分分析のステップと、
    前記ピクセル・ブロブの固有ポイントを用いて、テキスト・ベースラインを推定するステップ、及び前記テキスト・ベースラインを用いて前記少なくとも1つのテキスト部分の水平消失ポイントを決定するステップを含む水平消失ポイント決定のステップと、
    垂直消失ポイントが、その垂直の特徴に基づいて、前記少なくとも1つのテキスト部分について決定される、垂直消失ポイント決定のステップと、
    前記画像における前記透視図法は、前記の水平及び垂直の消失ポイントに基づいて補正される、投影補正のステップと
    を実行するように構成されたフォーマットにおけるソフトウェア・コード部分を含んでいる、その上にコンピュータ・プログラム製品が記憶される非一時的ストレージ媒体。
  20. 透視図法によってひずみを受ける画像ドキュメントの中のテキスト部分の消失ポイント候補を決定するための方法であって、
    前記画像が2値化される、画像2値化のステップと、
    連結成分分析を実行するステップであって、ピクセル・ブロブが、前記2値化された画像の前記少なくとも1つのテキスト部分において検出され、前記ピクセル・ブロブのそれぞれについて、位置決定ピクセルは、前記ピクセル・ブロブのピクセル・ブロブ・ベースラインの上で選択され、前記位置決定ピクセルが、前記2値化された画像における前記ピクセル・ブロブの位置を規定している、実行するステップと、
    各テキスト・ラインが、前記位置決定ピクセルに基づいて、前記テキスト部分の水平又は垂直のテキスト方向の近似を表す、いくつかのテキスト・ラインをデカルト座標系において推定するステップと、
    前記テキスト・ラインのそれぞれを同次座標系におけるデータ・ポイントへと変換するステップと、
    信頼度レベルを前記データ・ポイントのそれぞれに割り当てるステップと、
    所定のしきい値よりも上の信頼度レベルを有するいくつかのデータ・ポイントを優先順位サンプル・アレイへとグループ分けするステップと、
    前記優先順位サンプル・アレイの中の前記データ・ポイントをいくつかのサンプル・グループへとクラスタ化するステップであって、各サンプル・グループが、少なくとも2つのデータ・ポイントを含む、クラスタ化するステップと、
    前記サンプル・グループの中の各データ・ポイントに割り当てられる少なくとも前記信頼度レベルに基づいて、グループ信頼度値を各サンプル・グループに割り当てるステップと、
    前記データ・ポイントのうちで、第1の適合されたラインに関するインライアの組を決定するためにRANSACアルゴリズムを適用するステップであって、前記RANSACアルゴリズムが、前記優先順位サンプル・アレイの中の最高のグループ信頼度値を有する前記サンプル・グループから開始される、適用するステップと、
    インライアの前記組に対応する前記テキスト・ラインから少なくとも1つの消失ポイント候補を推定するステップと
    を含む方法。
  21. 前記データ・ポイントに割り当てられる前記信頼度レベルは、前記それぞれのテキスト・ラインの少なくとも長さと、前記それぞれのテキスト・ラインに対する前記位置決定ピクセルの近接性とに基づいている、請求項20に記載の方法。
  22. 前記RANSACアルゴリズムは、以下のステップ、すなわち、
    ライン・フィッティングのために、前記優先順位サンプル・アレイからデータ・ポイントのサンプル・グループを反復的に選択するステップであって、前記反復は、前記優先順位サンプル・アレイの中の最高のグループ信頼度値を有する前記サンプル・グループから開始される、反復的に選択するステップと、
    第1の適合されたラインをもたらす前記第1のサンプル・グループについてのライン・フィッティングを実行するステップ、及びさらなる適合されたラインをもたらすそれぞれのさらなるサンプル・グループについてのライン・フィッティングをその後に実行するステップと、
    前記の第1の適合されたラインと、さらなる適合されたラインとに基づいて、前記第1の適合されたラインからの所定の距離しきい値よりも下に位置づけられるデータ・ポイントの組を決定するステップであって、データ・ポイントの前記組は、インライアの前記組を形成する、決定するステップと
    を含む、請求項20に記載の方法。
  23. 前記第1の適合されたラインからの前記所定の距離しきい値は、固定されたパラメータである、請求項22に記載の方法。
  24. 前記第1の適合されたラインからの前記所定の距離しきい値は、前記画像ドキュメントのコンテンツに基づいて適応させられる適応パラメータである、請求項22に記載の方法。
  25. 少なくとも第1及び第2の消失ポイント候補は、インライアの前記組に対応する前記テキスト・ラインから推定される、請求項20に記載の方法。
  26. 前記の第1及び第2の消失ポイント候補は、最小二乗法と、重み付けされた最小二乗法と、適応最小二乗法とから成る群から選択される異なる近似方法を使用して推定される、請求項25に記載の方法。
  27. 前記推定された消失ポイント候補から消失ポイントを選択するステップをさらに含み、前記選択は、
    それぞれの推定された消失ポイント候補に基づいて、前記画像ドキュメントに対する投影補正を実行するステップと、
    投影補正の後に、前記結果として生ずる水平又は垂直のテキスト方向に対する各消失ポイント候補の近接性を比較するステップと、
    投影補正の後に、前記画像ドキュメントの前記水平又は垂直のテキスト方向に最も近い前記消失ポイント候補を選択するステップと
    を含む、請求項20に記載の方法。
  28. 各サンプル・グループの前記グループ信頼度値は、さらに、前記サンプル・グループの中の前記データ・ポイントに対応する前記それぞれの推定されたテキスト・ラインの間の距離に基づいている、請求項20に記載の方法。
  29. 前記データ・ポイントのそれぞれの前記信頼度レベルは、さらに、それぞれの各テキスト・ラインを推定するために使用される前記ピクセル・ブロブの主要な方向に基づいており、前記主要な方向は、各ピクセル・ブロブの形状の偏心度によって規定される、請求項20に記載の方法。
  30. 前記優先順位サンプル・アレイの中にグループ分けされるデータ・ポイントの最大数は、2と20との間にあり、5と10との間にあることがより好ましい、請求項20に記載の方法。
  31. 前記少なくとも1つの消失ポイント候補のそれぞれは、水平消失ポイント候補であり、前記位置決定ピクセルは、前記ピクセル・ブロブの固有ポイントである、請求項20に記載の方法。
  32. 前記少なくとも1つの消失ポイント候補のそれぞれは、垂直消失ポイント候補であり、前記推定されたテキスト・ラインは、前記画像の前記テキスト部分に対するブロブ・フィルタリング・アルゴリズムによって選択される、それぞれが、前記ピクセル・ブロブのうちの選択された1つの前記方向に対応する垂直テキスト・ブロブ・ラインである、請求項20に記載の方法。
  33. テキストとピクチャとの分離のステップは、前記画像2値化の後、且つ前記連結成分分析の前に実行され、テキスト情報だけが前記2値化された画像の中で保持される、請求項20に記載の方法。
  34. 透視図法によってひずみを受ける少なくとも1つのテキスト部分を含む画像の投影補正のための方法であって、
    前記画像が2値化される、画像2値化のステップと、
    連結成分分析を実行するステップであって、ピクセル・ブロブが、前記2値化された画像の前記少なくとも1つのテキスト部分において検出され、前記ピクセル・ブロブのそれぞれについて、位置決定ピクセルが、前記ピクセル・ブロブのピクセル・ブロブ・ベースラインの上で選択され、前記位置決定ピクセルが、前記2値化された画像における前記ピクセル・ブロブの位置を規定している、実行するステップと、
    前記ピクセル・ブロブの前記位置決定ピクセルを用いて、テキスト・ベースラインを推定するステップ、及び前記テキスト・ベースラインを用いて前記少なくとも1つのテキスト部分の少なくとも1つの水平消失ポイント候補を決定するステップを含む水平消失ポイント決定のステップと、
    前記画像の前記テキスト部分に対するブロブ・フィルタリング・アルゴリズムによって選択される、それぞれが、前記ピクセル・ブロブのうちの選択された1つの方向に対応する垂直テキスト・ブロブ・ラインを推定するステップ、及び前記垂直テキスト・ブロブ・ラインを用いて前記少なくとも1つのテキスト部分の少なくとも1つの垂直消失ポイント候補を決定するステップを含む垂直消失ポイント決定のステップであって、
    前記の水平及び垂直の消失ポイント決定のうちの少なくとも一方が、
    前記推定されたテキスト・ラインのそれぞれを同次座標系におけるデータ・ポイントへと変換するステップと、
    信頼度レベルを前記データ・ポイントのそれぞれに割り当てるステップと、
    所定のしきい値よりも上の信頼度レベルを有するいくつかのデータ・ポイントを優先順位サンプル・アレイへとグループ分けするステップと、
    各サンプル・グループが少なくとも2つのデータ・ポイントを含むいくつかのサンプル・グループへと前記優先順位サンプル・アレイの中の前記データ・ポイントをクラスタ化するステップと、
    前記サンプル・グループの中の各データ・ポイントに割り当てられる少なくとも前記信頼度レベルに基づいて、グループ信頼度値を各サンプル・グループに割り当てるステップと、
    前記データ・ポイントのうちで、第1の適合されたラインに関するインライアの組を決定するためにRANSACアルゴリズムを適用するステップであって、前記RANSACアルゴリズムが、前記優先順位サンプル・アレイの中で最高のグループ信頼度値を有する前記サンプル・グループから開始される、適用するステップと、
    インライアの前記組に対応する前記テキスト・ラインから前記少なくとも1つの消失ポイント候補を推定するステップと
    を含む、垂直消失ポイント決定のステップと、
    投影補正のステップであって、前記画像の中の前記透視図法が、前記少なくとも1つの水平消失ポイント候補のうちから選択される水平消失ポイントと、前記少なくとも1つの垂直消失ポイント候補のうちから選択される垂直消失ポイントとに基づいて補正される、投影補正のステップと
    を含む方法。
  35. 透視図法によってひずみを受ける少なくとも1つのテキスト部分を含む画像の投影補正のためのシステムであって、前記システムが、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサを用いて実行可能なプログラムを含む関連するストレージとを備えており、
    実行されるときに、前記画像を2値化する画像2値化のために構成された第1のソフトウェア・コード部分と、
    実行されるときに、前記2値化された画像の前記少なくとも1つのテキスト部分におけるピクセル・ブロブを検出し、前記ピクセル・ブロブのそれぞれについて、前記ピクセル・ブロブのピクセル・ブロブ・ベースラインの上の、前記2値化された画像における前記ピクセル・ブロブの位置を規定する位置決定ピクセルを選択する連結成分分析のために構成された第2のソフトウェア・コード部分と、
    実行されるときに、前記ピクセル・ブロブの前記位置決定ピクセルを用いてテキスト・ベースラインを推定し、前記テキスト・ベースラインを用いて前記少なくとも1つのテキスト部分の少なくとも1つの水平消失ポイント候補を決定する水平消失ポイント決定のために構成された第3のソフトウェア・コード部分と、
    実行されるときに、前記画像の前記テキスト部分に対するブロブ・フィルタリング・アルゴリズムによって選択される、それぞれが、前記ピクセル・ブロブのうちの選択された1つの方向に対応する垂直テキスト・ブロブ・ラインを推定し、前記垂直テキスト・ブロブ・ラインを用いて前記少なくとも1つのテキスト部分の少なくとも1つの垂直消失ポイント候補を決定する垂直消失ポイント決定のために構成された第4のソフトウェア・コード部分であって、
    前記の第3及び第4のソフトウェア・コード部分のうちの少なくとも一方が、
    前記推定されたテキスト・ラインのそれぞれを同次座標系におけるデータ・ポイントへと変換するステップと、
    信頼度レベルを前記データ・ポイントのそれぞれに割り当てるステップと、
    所定のしきい値よりも上の信頼度レベルを有するいくつかのデータ・ポイントを優先順位サンプル・アレイへとグループ分けするステップと、
    各サンプル・グループが少なくとも2つのデータ・ポイントを含むいくつかのサンプル・グループへと前記優先順位サンプル・アレイの中の前記データ・ポイントをクラスタ化するステップと、
    前記サンプル・グループの中の各データ・ポイントに割り当てられる少なくとも前記信頼度レベルに基づいて、グループ信頼度値を各サンプル・グループに割り当てるステップと、
    前記データ・ポイントのうちで、第1の適合されたラインに関するインライアの組を決定するためにRANSACアルゴリズムを適用するステップであって、前記RANSACアルゴリズムは、前記優先順位サンプル・アレイの中で最高のグループ信頼度値を有する前記サンプル・グループから開始される、適用するステップと、
    インライアの前記組に対応する前記テキスト・ラインから前記少なくとも1つの消失ポイント候補を推定するステップと
    を実行するために構成されている、第4のソフトウェア・コード部分と、
    実行されるときに、前記少なくとも1つの水平消失ポイント候補のうちから選択される水平消失ポイントと、前記少なくとも1つの垂直消失ポイント候補のうちから選択される垂直消失ポイントとに基づいて、前記画像における前記透視図法を補正する投影補正を実行するために構成された第5のソフトウェア・コード部分と
    を含むシステム。
  36. 以下のうちの、すなわち、パーソナル・コンピュータ、ポータブル・コンピュータ、ラップトップ・コンピュータ、ネットブック・コンピュータ、タブレット・コンピュータ、スマートフォン、デジタル・スチル・カメラ、ビデオ・カメラ、モバイル通信デバイス、携帯型個人情報端末、スキャナ、多機能デバイスのうちの1つを備えている、請求項35に記載のシステム。
  37. コンピュータ・デバイスの上で実行可能であり、前記コンピュータ・デバイスの上で実行されるときに以下のステップを、すなわち、
    前記画像が2値化される、画像2値化のステップと、
    連結成分分析を実行するステップであって、ピクセル・ブロブが、前記2値化された画像の前記少なくとも1つのテキスト部分において検出され、前記ピクセル・ブロブのそれぞれについて、位置決定ピクセルが、前記ピクセル・ブロブのピクセル・ブロブ・ベースラインの上で選択され、前記位置決定ピクセルが、前記2値化された画像における前記ピクセル・ブロブの位置を規定している、実行するステップと、
    各テキスト・ラインが、前記位置決定ピクセルに基づいて、前記テキスト部分の水平又は垂直のテキスト方向の近似を表す、いくつかのテキスト・ラインをデカルト座標系において推定するステップと、
    前記テキスト・ラインのそれぞれを同次座標系におけるデータ・ポイントへと変換するステップと、
    信頼度レベルを前記データ・ポイントのそれぞれに割り当てるステップと、
    所定のしきい値よりも上の信頼度レベルを有するいくつかのデータ・ポイントを優先順位サンプル・アレイへとグループ分けするステップと、
    前記優先順位サンプル・アレイの中の前記データ・ポイントをいくつかのサンプル・グループへとクラスタ化するステップであって、各サンプル・グループが、少なくとも2つのデータ・ポイントを含む、クラスタ化するステップと、
    前記サンプル・グループの中の各データ・ポイントに割り当てられる少なくとも前記信頼度レベルに基づいて、グループ信頼度値を各サンプル・グループに割り当てるステップと、
    前記データ・ポイントのうちで、第1の適合されたラインに関するインライアの組を決定するためにRANSACアルゴリズムを適用するステップであって、前記RANSACアルゴリズムが、前記優先順位サンプル・アレイの中の最高のグループ信頼度値を有する前記サンプル・グループから開始される、適用するステップと、
    インライアの前記組に対応する前記テキスト・ラインから少なくとも1つの消失ポイント候補を推定するステップと
    を実行するように構成されたフォーマットにおけるソフトウェア・コード部分を含んでいる、その上にコンピュータ・プログラム製品が記憶される非一時的ストレージ媒体。
  38. 透視図法によってひずみを受ける少なくとも1つのテキスト部分を含む画像の投影補正のための方法であって、
    前記画像が2値化される、画像2値化のステップと、
    連結成分分析のステップであって、ピクセル・ブロブが、前記2値化された画像の前記少なくとも1つのテキスト部分において検出され、前記ピクセル・ブロブのそれぞれについて、位置決定ピクセルが、前記ピクセル・ブロブのピクセル・ブロブ・ベースラインの上で選択され、前記位置決定ピクセルが、前記2値化された画像における前記ピクセル・ブロブの位置を規定している、連結成分分析のステップと、
    前記ピクセル・ブロブの前記位置決定ピクセルを用いてテキスト・ベースラインを推定するステップと、前記推定されたテキスト・ベースラインから水平消失ポイント候補を識別するステップと、前記水平消失ポイント候補を用いて前記少なくとも1つのテキスト部分の水平消失ポイントを決定するステップとを含む水平消失ポイント決定のステップと、
    垂直消失ポイント決定のステップであって、垂直消失ポイントが、その垂直の特徴に基づいて、前記少なくとも1つのテキスト部分のために決定される、垂直消失ポイント決定のステップと、
    投影補正のステップであって、前記画像における前記透視図法が、前記の水平及び垂直の消失ポイントに基づいて補正される、投影補正のステップと
    を含み、
    前記水平消失ポイント決定が、前記位置決定ピクセルのレベルに対する第1の除去ステップと、テキスト・ベースラインのレベルに対する第2の除去ステップと、水平消失ポイント候補のレベルに対する第3の除去ステップとを含む、方法。
  39. 前記位置決定ピクセルは、前記ピクセル・ブロブの固有ポイントである、請求項38に記載の方法。
  40. 前記第1の除去ステップは、考慮している前記固有ポイントの近くの固有ポイントに関してラインを外れている混同させる固有ポイントを検出するステップを含み、前記混同させる固有ポイントは、前記テキスト・ベースライン推定のために無視される、請求項39に記載の方法。
  41. 前記混同させる固有ポイントは、以下のステップ、すなわち、
    前記ピクセル・ブロブの幅と、高さとを決定するステップと、
    前記ピクセル・ブロブの幅と、高さとについての平均値を決定するステップと、
    考慮している前記ピクセル・ブロブの幅と、高さとのうちの少なくとも一方が、前記算出された平均値から所定の範囲だけ異なるピクセル・ブロブに属する固有ポイントとして前記混同させる固有ポイントを検出するステップと
    を用いて検出される、請求項40に記載の方法。
  42. テキスト・ベースラインを推定する前記ステップは、固有ポイントを固有ポイント・グループへとクラスタ化するステップを含み、前記固有ポイント・グループは、以下の複数の条件、すなわち、
    − 前記グループの前記固有ポイントの間のポイント・ツー・ポイント距離が、第1の距離しきい値よりも下にある条件と、
    − 前記グループの各固有ポイントと、前記グループの前記固有ポイントによって形成されるラインとの間のポイント・ツー・ライン距離が、第2の距離しきい値よりも下にある条件と、
    − 前記グループの前記固有ポイントによって形成される前記ラインのオフ水平角度が、最大角度よりも下にある条件と、
    − 前記固有ポイント・グループが、最小の数の固有ポイントを含んでいる条件と
    のうちの少なくとも1つを満たし、前記テキスト・ベースラインは、前記固有ポイント・グループに基づいて、推定される、請求項39に記載の方法。
  43. 前記第1の距離しきい値と、前記第2の距離しきい値と、前記最大角度と、前記最小の数の固有ポイントとは、前記画像のコンテンツに基づいて、適応的に設定される、請求項42に記載の方法。
  44. テキスト・ベースラインを推定する前記ステップは、固有ポイント・グループ・マージングのステップをさらに含み、無視されない固有ポイントの両側の上の固有ポイント・グループは、より大きな固有ポイント・グループへとマージされる、請求項42に記載の方法。
  45. 前記第2の除去ステップは、
    信頼度レベルを前記テキスト・ベースラインに割り当てるステップと、
    前記信頼度レベルに基づいて、テキスト・ベースラインを除去するステップと
    を含む、請求項38に記載の方法。
  46. 前記信頼度レベルは、前記それぞれのテキスト・ベースラインの少なくとも長さと、前記テキスト・ベースラインと、前記結果として生ずるテキスト・ベースラインとを推定するために使用される固有ポイントの前記グループの近接性とに基づいて、決定される、請求項45に記載の方法。
  47. テキスト・ベースラインの前記除去は、前記信頼度レベルが考慮に入れられるRANSACアルゴリズムを用いて実行される、請求項8に記載の方法。
  48. 前記第3の除去ステップは、
    それぞれの識別された水平消失ポイント候補に基づいて、投影補正を実行するステップと、
    投影補正の後に、結果として生ずる水平又テキスト方向に対する各水平消失ポイント候補の近接性を比較するステップと、
    投影補正の後に、画像ドキュメントの水平テキスト方向に最も近い前記水平消失ポイント候補を選択するステップと
    を含む、請求項38に記載の方法。
  49. 第1及び第2の水平消失ポイント候補は、前記第2の除去ステップの後に前記テキスト・ベースラインから推定され、前記の第1及び第2の水平消失ポイント候補の前記推定のために、最小二乗法と、重み付けされた最小二乗法と、適応最小二乗法とから成る群から選択される異なる近似方法が使用される、請求項38に記載の方法。
  50. テキストとピクチャとの分離のステップは、前記画像2値化の後、且つ前記連結成分分析の前に実行され、テキスト情報だけが前記2値化された画像において保持される、請求項38に記載の方法。
  51. 透視図法によってひずみを受ける少なくとも1つのテキスト部分を含む画像の投影補正のためのシステムであって、前記システムが、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサを用いて実行可能なプログラムを含む関連するストレージとを備えており、
    実行されるときに、前記画像を2値化する画像2値化のために構成された第1のソフトウェア・コード部分と、
    実行されるときに、前記2値化された画像の前記少なくとも1つのテキスト部分におけるピクセル・ブロブを検出する連結成分分析であって、前記ピクセル・ブロブのそれぞれについて、位置決定ピクセルが、前記ピクセル・ブロブのピクセル・ブロブ・ベースラインの上で選択され、前記位置決定ピクセルが、前記2値化された画像における前記ピクセル・ブロブの位置を規定している、連結成分分析のために構成された第2のソフトウェア・コード部分と、
    実行されるときに、前記ピクセル・ブロブの前記位置決定ピクセルを用いてテキスト・ベースラインを推定するステップと、前記推定されたテキスト・ベースラインから水平消失ポイント候補を識別するステップと、前記水平消失ポイント候補を用いて前記少なくとも1つのテキスト部分の水平消失ポイントを決定するステップとを実行する水平消失ポイント決定のために構成された第3のソフトウェア・コード部分と、
    実行されるときに、その垂直の特徴に基づいて、前記少なくとも1つのテキスト部分についての垂直消失ポイントを決定する垂直消失ポイント決定のために構成された第4のソフトウェア・コード部分と、
    実行されるときに、前記の水平及び垂直の消失ポイントに基づいて、前記画像における前記透視図法を補正する投影補正のための第5のソフトウェア・コード部分と
    を含み、
    前記第3のソフトウェア・コード部分が、実行されるときに、前記位置決定ピクセルのレベルに対する第1の除去ステップと、テキスト・ベースラインのレベルに対する第2の除去ステップと、水平消失ポイント候補のレベルに対する第3の除去ステップとを実行する、システム。
  52. 以下のうちの、すなわち、パーソナル・コンピュータ、ポータブル・コンピュータ、ラップトップ・コンピュータ、ネットブック・コンピュータ、タブレット・コンピュータ、スマートフォン、デジタル・スチル・カメラ、ビデオ・カメラ、モバイル通信デバイス、携帯型個人情報端末、スキャナ、多機能デバイスのうちの1つを備えている、請求項51に記載のシステム。
  53. コンピュータ・デバイスの上で実行可能であり、前記コンピュータ・デバイスの上で実行されるときに、以下のステップを、すなわち、
    画像が2値化される、前記画像の2値化のステップと、
    連結成分分析のステップであって、ピクセル・ブロブが、前記2値化された画像の前記少なくとも1つのテキスト部分において検出され、前記ピクセル・ブロブのそれぞれについて、位置決定ピクセルが、前記ピクセル・ブロブのピクセル・ブロブ・ベースラインの上で選択され、前記位置決定ピクセルが、前記2値化された画像における前記ピクセル・ブロブの位置を規定している、連結成分分析のステップと、
    前記ピクセル・ブロブの前記位置決定ピクセルを用いて、テキスト・ベースラインを推定するステップ、前記推定されたテキスト・ベースラインから水平消失ポイント候補を識別するステップ、及び前記水平消失ポイント候補を用いて、前記少なくとも1つのテキスト部分の水平消失ポイントを決定するステップを含む水平消失ポイント決定のステップと、
    垂直消失ポイントが、その垂直の特徴に基づいて、前記少なくとも1つのテキスト部分について決定される、垂直消失ポイント決定のステップと、
    前記画像における前記透視図法が、前記の水平及び垂直の消失ポイントに基づいて補正される、投影補正のステップと
    を実行するように構成されたフォーマットにおけるソフトウェア・コード部分を含んでおり、
    前記水平消失ポイント決定が、前記位置決定ピクセルのレベルに対する第1の除去ステップと、テキスト・ベースラインのレベルに対する第2の除去ステップと、水平消失ポイント候補のレベルに対する第3の除去ステップとを含む、
    その上にコンピュータ・プログラム製品が記憶される非一時的ストレージ媒体。
JP2016541592A 2013-12-20 2014-12-19 投影ひずみを補正するための方法及びシステム Active JP6542230B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US14/136,695 US8811751B1 (en) 2013-12-20 2013-12-20 Method and system for correcting projective distortions with elimination steps on multiple levels
US14/136,501 US8913836B1 (en) 2013-12-20 2013-12-20 Method and system for correcting projective distortions using eigenpoints
US14/136,585 2013-12-20
US14/136,585 US8897600B1 (en) 2013-12-20 2013-12-20 Method and system for determining vanishing point candidates for projective correction
US14/136,501 2013-12-20
US14/136,695 2013-12-20
PCT/EP2014/078930 WO2015092059A1 (en) 2013-12-20 2014-12-19 Method and system for correcting projective distortions.

Publications (2)

Publication Number Publication Date
JP2017500662A true JP2017500662A (ja) 2017-01-05
JP6542230B2 JP6542230B2 (ja) 2019-07-10

Family

ID=52292917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016541592A Active JP6542230B2 (ja) 2013-12-20 2014-12-19 投影ひずみを補正するための方法及びシステム

Country Status (2)

Country Link
JP (1) JP6542230B2 (ja)
WO (1) WO2015092059A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2631765C1 (ru) 2016-04-26 2017-09-26 Общество с ограниченной ответственностью "Аби Девелопмент" Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот
CN108323389B (zh) * 2018-01-18 2019-11-08 华南农业大学 水稻插秧机的插秧秧苗株距与穴秧苗数的检测方法和装置
CN110084236B (zh) * 2019-04-29 2021-05-28 北京朗镜科技有限责任公司 一种图像的矫正方法及装置
CN113421257A (zh) * 2021-07-22 2021-09-21 凌云光技术股份有限公司 一种点阵字体文本行旋转校正方法及装置
CN115306165A (zh) * 2022-08-25 2022-11-08 中国建筑第二工程局有限公司 一种装配式预制构件安装系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02116987A (ja) * 1988-10-27 1990-05-01 Toshiba Corp 文字認識装置
JPH04127288A (ja) * 1990-05-21 1992-04-28 Fuji Facom Corp ベースラインによる文字判別方法
JPH04271488A (ja) * 1991-02-27 1992-09-28 Nec Corp ノイズ検出方式
JPH07121658A (ja) * 1993-10-20 1995-05-12 Nippon Digital Kenkyusho:Kk 文字列検出方式
JP2008257713A (ja) * 2007-03-16 2008-10-23 Fujitsu Ltd 透視変換歪み発生文書画像補正装置および方法
US20080260256A1 (en) * 2006-11-29 2008-10-23 Canon Kabushiki Kaisha Method and apparatus for estimating vanish points from an image, computer program and storage medium thereof

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6873732B2 (en) * 2001-07-09 2005-03-29 Xerox Corporation Method and apparatus for resolving perspective distortion in a document image and for calculating line sums in images
NO20052656D0 (no) * 2005-06-02 2005-06-02 Lumex As Geometrisk bildetransformasjon basert pa tekstlinjesoking
CN101520852B (zh) * 2008-02-29 2011-09-07 富士通株式会社 消失点检测装置和检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02116987A (ja) * 1988-10-27 1990-05-01 Toshiba Corp 文字認識装置
JPH04127288A (ja) * 1990-05-21 1992-04-28 Fuji Facom Corp ベースラインによる文字判別方法
JPH04271488A (ja) * 1991-02-27 1992-09-28 Nec Corp ノイズ検出方式
JPH07121658A (ja) * 1993-10-20 1995-05-12 Nippon Digital Kenkyusho:Kk 文字列検出方式
US20080260256A1 (en) * 2006-11-29 2008-10-23 Canon Kabushiki Kaisha Method and apparatus for estimating vanish points from an image, computer program and storage medium thereof
JP2008257713A (ja) * 2007-03-16 2008-10-23 Fujitsu Ltd 透視変換歪み発生文書画像補正装置および方法

Also Published As

Publication number Publication date
JP6542230B2 (ja) 2019-07-10
WO2015092059A1 (en) 2015-06-25

Similar Documents

Publication Publication Date Title
US8811751B1 (en) Method and system for correcting projective distortions with elimination steps on multiple levels
US8897600B1 (en) Method and system for determining vanishing point candidates for projective correction
US10803554B2 (en) Image processing method and device
US9363499B2 (en) Method, electronic device and medium for adjusting depth values
US8913836B1 (en) Method and system for correcting projective distortions using eigenpoints
CN110717489B (zh) Osd的文字区域的识别方法、装置及存储介质
WO2014160433A2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
US10455163B2 (en) Image processing apparatus that generates a combined image, control method, and storage medium
US10169673B2 (en) Region-of-interest detection apparatus, region-of-interest detection method, and recording medium
CN109697414B (zh) 一种文本定位方法及装置
US20180082456A1 (en) Image viewpoint transformation apparatus and method
US20180253852A1 (en) Method and device for locating image edge in natural background
CN111353961B (zh) 一种文档曲面校正方法及装置
US9131193B2 (en) Image-processing device removing encircling lines for identifying sub-regions of image
JP5656768B2 (ja) 画像特徴量抽出装置およびそのプログラム
US11216905B2 (en) Automatic detection, counting, and measurement of lumber boards using a handheld device
KR101377910B1 (ko) 화상 처리 방법 및 화상 처리 장치
US10893167B2 (en) Extracting a document page image from a electronically scanned image having a non-uniform background content
JP6669390B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US10970847B2 (en) Document boundary detection using deep learning model and image processing algorithms
CN112419207A (zh) 一种图像矫正方法及装置、系统
WO2024016632A1 (zh) 亮点定位方法、亮点定位装置、电子设备及存储介质
CN110245674A (zh) 模板匹配方法、装置、设备及计算机存储介质
US10032073B1 (en) Detecting aspect ratios of document pages on smartphone photographs by learning camera view angles

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161107

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181101

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190131

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190612

R150 Certificate of patent or registration of utility model

Ref document number: 6542230

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250