JPH0896072A

JPH0896072A - ページ傾き検出方法

Info

Publication number: JPH0896072A
Application number: JP7201046A
Authority: JP
Inventors: Peter Bauer; ピーター・バウア
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1994-09-15
Filing date: 1995-08-07
Publication date: 1996-04-12
Also published as: EP0702320A1

Abstract

(57)【要約】【課題】スキャナ走査において、基準方向に対する文書
ページの傾きの角度を効率的に検出する方法。【解決手段】基準方向に対するページの傾きを表すイメ
ージ点を連結構成要素分析を使用して選択する。パラメ
ータ空間に度数分布を構築するため、行の傾斜の角度を
表す行傾斜パラメータ（θ）および第２のパラメータ
（ρ）を含む行についての方程式を活用するホック変換
法を使用してパラメータ空間に上記選択した複数の点を
マップする。選択した複数の点をマップする上記ステッ
プの結果を分析して、行傾斜角度の度数分布のピークの
存在を判別し、そのピークを示す角度を、該ページの傾
き角度とする。上記判別は、度数分布値の記憶のための
２次元アレイを必要としないので、処理速度が向上す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書走査の分野、
特に文書の傾きの角度の検出に関するものである。

【０００２】

【従来の技術】過去数年の間に、低コストのスキャナが
普及し、一般のオフィスでの使用が進展している。スキ
ャナは、オフィスの日常の文書を電子的に保管するた
め、オフィス作業従事者によって使われている。

【０００３】低コストで、平底型手持ちスキャナが、文
書のページに沿って正確に走査することはほとんどな
い。従って、文書処理においてなすべき最初の段階は、
走査した文書イメージ（像）の品質を改善するための傾
き除去である。なぜならば、後続の処理工程が正しい操
作のため正しい方向を持ったイメージを必要とするから
である。更に、ある種の圧縮技術では、きつい傾きの存
在のためその質が劣化し、ＯＣＲ技術が十分動作できな
い。

【０００４】

【発明が解決しようとする課題】イメージを回転させる
ために利用できる技術がいくつかあり、それらはすべ
て、長所短所を持っているが、いずれも必ず利用できる
回転角度を必要とする。従って、本発明が課題とするも
のは、傾き角度の正確で効率的な測定である。

【０００５】傾き検出の伝統的な代表的技術は、ホック
変換法であり、この技術は以下に詳細に記述する。この
技術を用いて、傾き検出の問題を効果的に処理するため
には、検討しなければならない３つの重要な面がある。

【０００６】第１に、傾きを検出するため、イメージの
傾きを反映する特性を選択しなければならない。通常、
それはテキスト行である。

【０００７】第２に、適切な特性を選択したとして、ホ
ック変換法の改良を効率的に実施して、ホック変換法が
傾き角度のみを処理し、現行のホック変換法の完全な変
換に使用されるその他すべての複雑な特性を無視または
削除することが必要である。

【０００８】最後に、前段階処理の出力を単一の数とし
て解釈する強力で効率的な方法が考案されなければなら
ない。

【０００９】

【課題を解決するための手段】本発明に従って、基準方
向に対して相対的なページ傾き角度を検出する方法が提
供される。この方法は、ページを走査するステップと、
傾きの角度を表す電子的イメージの複数の点を選択する
ステップと、パラメータ空間に度数分布を構築するた
め、行の傾斜の角度を表す行傾斜パラメータおよび第２
のパラメータを含む行についての方程式を活用するホッ
ク（Ｈｏｕｇｈ）変換法を使用してパラメータ空間に上
記選択した複数の点をマップするステップと、選択した
複数の点をマップする上記ステップの結果を分析して、
傾き角度を示す度数分布のピークの存在を判別するステ
ップとを含み、上記判別するステップが、上記行傾斜パ
ラメータの値それぞれ毎に、上記選択したイメージの点
に関する上記第２のパラメータの値を計算して、パラメ
ータ空間における度数分布を更新する動作を、上記選択
したイメージの複数の点それぞれについて繰り返すステ
ップと、上記度数分布更新のそれぞれの結果を統計的に
分析し、後続の度数分布ピークの分析における使用のた
め上記度数分布更新のそれぞれの結果を表わす値を計算
して記憶するステップと、を更に含む。

【００１０】本発明は、傾き角度の正確で効率的な計算
のための効率的で優雅な技術を提供する。当技術は、幅
広い領域の文書に対して強力であり、また、高い信頼性
で傾きを検出することが不可能な場合を認知することも
できる。

【００１１】本発明の方法は、２次元度数分布を記憶す
る必要性をなくし、それによって必要なメモリを大幅に
減少させるという利点を持つ。

【００１２】好ましくは、統計的分析が、行傾斜パラメ
ータ値のそれぞれについて、ホック変換法の度数分布に
おける標準偏差を計算することを含む。標準偏差の使用
は、単純なグロ―バルしきい値を使用する場合よりはる
かにすぐれた結果を生む。好ましくは、本発明の方法
は、標準偏差値の移動平均を計算して、この移動平均を
使用して度数分布のピークを検出するステップを含む。
この機能は、度数分布ピークの識別と分類を容易にす
る。

【００１３】本発明の方法において、傾きの角度を表す
電子的イメージの選択された（複数の）点は、文字の最
小境界ボックスの中心点である。以下に記述される特定
の実施例において使われる行についての方程式は、ρ=x
cosθ + y sinθである。

【００１４】好ましくは、本発明の方法は、選択された
イメージの点の座標を交換して、その結果の座標を利用
して傾きの角度を決定するステップを更に含む。この技
術は、下記に述べるように、横長方向の文書の検出を容
易にする。

【００１５】

【実施例】ホック変換法の概要ホック変換法は、３０年以上前に最初に開発され、複雑
なパターン認識、特に、写真その他の画像表現における
複雑な線の機械認識に関するものである。一般に、視認
される表現は、複雑なパターンが本質的に直線のセグメ
ントに分割されるように十分に小さいセクタまたはフレ
ームレット(framelet)に分割される。セグメントの各々
は検出され、傾斜および切片(インターセプト、interce
pt)データに変換され、そのデータは所望のパターンに
関する後の分析に備えて記憶される。

【００１６】この変換を実行する１つの実施形態は、傾
斜切片法である。この方法の主要な概念は、ある１つの
イメージにおける共線点の識別セットを考察することに
よって図解できる。直線上にある１組のイメージ点(x,
y)は、下記関係式ｆによって定義することができる。 f((m, c), (x, y)) = y - mx - c = 0 方程式１ mおよびcは、行の特性を表す２つのパラメータ、傾斜お
よび切片である。

【００１７】方程式１は、パラメータの組合せ(m,c)の
各々の値を一組のイメージ点にマップする。このマッピ
ングは、可能なパラメータ値(m,c)の空間からイメージ
点の空間へという１対多数のマッピングである。ホック
変換法は、方程式１がイメージ点とパラメータ点との間
の相互の制約であるように見えるという概念を使用し、
従って、それは、１つのイメージ点から１組の可能なパ
ラメータ値への１対多数のマッピングを定義するものと
して解釈することができる。これは、所与のイメージ点
(x,y)を通過するセットに属するすべての直線のパラメ
ータを計算することに対応する。この動作は、イメージ
点の逆投影（バックプロジェクション、backprojectio
n）として知られている。直線の場合、各イメージ点
は、パラメータ空間(m,c)において直線を逆投影する。

【００１８】線のm,cパラメータ化に関わる問題は、垂
直線、すなわち、ｍ→∞に対処することができない点で
ある。この問題は、次のような線の通常の表示を使用す
ることによって克服される。 ρ = x cosθ + y sinθ 方程式２線λに関する方程式２におけるパラメータρ,θの意味
は、図１に示されている。θの範囲は、ｘ軸に関して測
定される０−１８０度である。水平の線は、θ＝９０を
持ち、ρは正のｙの切片である。垂直線は、ρ＝０度
で、ρは正のｘの切片に等しい。

【００１９】イメージ空間とパラメータ空間の間のマッ
ピングは、いずれの方向でも１対多数である。この変換
が真であることを保つ下記のような種々の属性が存在す
る。 i)文書イメージにおける１つの点は、パラメータ空間の
１つの正弦波曲線に対応する。 ii)パラメータ空間における１つの点は、文書イメージ
における１つの直線に対応する。 iii)文書イメージで同じ直線にある複数の点は、パラメ
ータ空間における共通の１点を通る複数の曲線に対応す
る。 iv)パラメータ空間で同一曲線にある複数の点は、文書
において同一の点を通る複数の線に対応する。これらの属性は、図２、図３、図４、図５および図６で
図解されている。図２で示されるような、イメージ空間
における１直線上の点（複数）は、図３で示されるよう
に、パラメータ空間で共通の１点を通るいくつかの曲線
にマップされる。このように、文書イメージで同一直線
上の多くの点は、パラメータ空間で共通の１点を通る曲
線に対応する。図４で示されるような、パラメータ空間
で同一曲線上の多くの点は、図５で示されるように、イ
メージ空間で一つの点を通る多くの線にマップされる。

【００２０】ホック変換法の既知の適用形態文書の傾きの角度を検出するためには文書における行を
識別することが必要である。テキストは、ホック変換法
を適用させることができる太線で書かれた行として取り
扱われることができる。行を定義するために必要な情報
を抜き出すいくつかの可能なアプローチがある。本発明
に関連した特定のアプローチは後述する。

【００２１】図６の流れ図で示される態様で文書の傾き
の角度を検出する問題にホック変換法を適用することが
知られている。図６は、以下のステップを表す。

【００２２】ステップ１０では、テキストの行を表すた
めに使われるべき文書イメージの点（ＩＰ）を抜き出
す。

【００２３】ステップ１２では、パラメータ空間の値を
記憶するために、２次元パラメータ空間アキュムレー
タ、すなわち２次元データ構造をクリアする。

【００２４】ステップ１４からステップ１７は、ループ
のステップとして、選択された点のx,y軸の各ペアにつ
いて、θの範囲に対してρの対応する値を計算するルー
プを実行し、２次元アレイにおける関連した度数分布ビ
ン（θ、ρ）を増分させる。

【００２５】ステップ２０で、度数分布分析を実行し
て、傾き角度を表すピークを検出する。これは、いくつ
かの態様で行うことができる。ある１つのアプローチで
は、２次元アレイの各θ列の値の統計分析を表す値を計
算し、それらを１次元アレイに記憶し、この１次元アレ
イを分析して文書傾き角度を抽出する。この既知のアプ
ローチの欠点は、計算能率が悪く、相対的に大きい量の
記憶空間を必要とすることである。

【００２６】本発明におけるホック変換法の適用文書イメージへホック変換法を適用する前に、テキスト
の行を表す情報を抜き出すことが必要である。この目的
に使うことができるいくつかの既知の方法があるが、本
発明にとって好ましい方法は、以下の通りのものであ
る。

【００２７】連結構成要素分析本発明の実施例において、テキストの行を定義するた
め、各文字の中心における点が使われ、連結構成要素分
析が、文字を識別するために使われる。これは、重要な
利点を持つ。

【００２８】一般に、グラフィックスは、相対的に大き
く、不規則なサイズで連結した構成要素からなるが、こ
れに対して、テキストは、相対的に小さく、規則的なサ
イズの連結した構成要素からなる。連結構成要素を分析
することによって、文書イメージのグラフィックスとテ
キストが、識別され、ブロックにグループ化され、そし
て互いに切り離されることができる。もう一つの利点と
して、イメージ中のノイズの大部分は文字の平均サイズ
より小さいサイズの連結構成要素からなっているので、
最小の連結構成要素を破棄することは容易であり、した
がって、不必要なピークをθρパラメータ空間にもたら
す可能性のあるノイズを除去することができる。

【００２９】連結構成要素分析は、それ自体よく知られ
ていて、イメージの中の連結構成要素を定義し、認識す
るいくつかの既知のアプローチがある。Rafael C. Gonz
alezおよび Richard E. Woods著の"Digital Image Proc
essig"(1992年Addison-Wesley社刊)に、連結構成要素分
析が記載されている。同書記載のアプローチは以下の通
りのものである。

【００３０】座標(x,y)のピクセルpは、次式の座標を持
つ水平と垂直それぞれ２つの近隣点(neighbours)を有す
る。 (x+1, y), (x-1, y), (x, y+1), (x, y- 1) これらのピクセル・セットは、pの４近隣点と呼ばれ、N
₄(p)と表示される（図７のａ参照）。各ピクセルは、
(x,y)から１単位の距離に位置し、(x,y）がイメージの
境界線上にある場合は、それら近隣ピクセルの一部は、
デジタル・イメージの外側に位置する。

【００３１】４つの斜めの近隣点は、 (x+1, y+1), (x+1, y-1), (x-1, y+1), (x- 1, y- 1) という座標を持ち、N_D(p)と表示される（図７のｂ参
照）。これらの近隣点をすべてあわせて、pの８近隣点
と呼ばれ、N₈(p)と表示される（図７のｃ参照）。（x,
y）がイメージの境界線上にある場合は、N_D(p)およびN₈
(p)の点の一部は、前述と同様に、イメージの外側に位
置する。

【００３２】ピクセル間の連結性は、イメージにおける
領域のオブジェクトおよび構成要素の境界を確立する際
に使われる重要な概念である。２つのピクセルが連結し
ているか否かを定めるため、それらが何らかの意味で
（例えば４近隣点であることで）近接しているか否か、
そして、グレイ・レベル（濃淡の差）が、指定された近
似基準を満たす（すなわち、それらが等しい）か否かが
判定されなければならない。例えば、０と１のバイナリ
のイメージにおいては、２つのピクセルが４近隣点であ
っても、それらが、同じ値を持たない限り、連結してい
るといわれない。

【００３３】ここで、Ｖを連結性を定義するために使わ
れるグレイ・レベルのセットであるとする。例えば、バ
イナリのイメージにおいて、値１を持つ複数ピクセル連
結性についてV={1}と表す。濃淡階差のあるイメージに
おいては、明度の値が例えば32から64までの範囲を持つ
ピクセルの連結性につては、V={32,33,...64}と表す。
２つのピクセルは、また、適切な連結の形式を示す分離
不能のピクセルの鎖によってつながれている場合、連結
しているといわれる。

【００３４】連結性には次の３つのタイプがある。１）４連結性−qがN₄(p)セット中にあれば、Vからの値
を持つ２つのピクセルpおよびqは、４連結である。２）８連結性−qがN₈(p)セット中にあれば、Vからの値
を持つ２つのピクセルpおよびqは、８連結である。３）ｍ（混合）連結性−qがN₄(p)セット中にあるか、ま
たは、qがN_D(p)にあってかつN₄(p)∩N₄(q)セットが空で
あれば、Vからの値を持つ２つのピクセルpおよびqは、
ｍ連結である。（この場合、ピクセル・セットは、pお
よびq両方の４近隣点であり、その値がVからのものであ
る）。

【００３５】混合連結性は、８連結性の修正版であり、
８連結性が使われる時しばしば起こる複数の経路連結を
排除するために導入される。例として図８の（ａ）のよ
うな配置を考察してみる。V={1}について、中央のピク
セルの８近隣点の間の経路が、図８の（ｂ）において、
太線として示されている。図２の（ｃ）で示されるよう
に、あいまい性がｍ連結性を使用することによって除去
される点に注意する必要がある。ｐとｑが連結していれ
ば、ピクセルｐは、ピクセルｑの「隣接」である。

【００３６】連結性のタイプの指定に応じて４、８、ｍ
の連結性を定義することができる。Ｓ１の中のいくつか
のピクセルがＳ２の中のいくつかのピクセルに隣接して
いれば、２個のイメージ・サブセットＳ１とＳ２は隣接
である。座標（x₀,y₀）をもつピクセルｐから座標（x_n,
y_n）をもつピクセルｑへの経路は、次の座標を持つ個別
のピクセルのシーケンスである。 (x₀, y₀), (x₁, y₁),..., (x_n, y_n) (x_i, y_i)は、(x_i-1, y_i-1)への隣接である。但し、1< i
< nであり、ｎは経路の長さである。４、８、ｍの連結
性は、連結性のタイプの指定に応じて定義できる。

【００３７】pおよびqがイメージ・サブセットＳのピク
セルであれば、Ｓのピクセルから全体を構成されるpか
らqへの経路が存在する場合、Ｓにおいてpはqに連結し
ている。Ｓの中のどのピクセルpに関しても、ｐに連結
しているＳのピクセル・セットは、Ｓの「連結構成要
素」と呼ばれる。かくして、１つの連結構成要素の２つ
のピクセルは、互いに連結していて、別々の連結構成要
素は、共通の要素をもたない、すなわち、それぞれのピ
クセルはいずれも連結していない。

【００３８】イメージは、ピクセル毎、左から右へ、上
から下へ走査される。使われるメモリの量を減らすた
め、イメージが走査線の順に処理されるにつれ、現在時
に活動的な構成要素のリンクされたリストだけが維持さ
れる。すべての終了した（非活動的）連結構成要素から
は、それらの境界ボックスの中心点だけが取り出され、
別のリンクされたリストに保持される。更に、各個別の
黒の構成要素の記述が、最も最近のイメージ行を持つ構
成要素の切片に対応するピクセル走査実行のリストだけ
を維持する（図９参照）。このようにして、新と旧の走
査線という２つのピクセル行だけが１時点で考慮され
る。図９は、連結構成要素を走査し、構築するプロセス
の例を示す。新走査線Ｓは、その先行した線が連結構成
要素の現在時の状態を表していて、８近隣連結性に対し
て考慮される。実際に、図９は連結構成要素分析の複雑
な例を示していて、２つの既存の構成要素が、同じ走査
線上で合流し、また２つに分岐して、２つのピクセル走
査実行のリストを含む単一の構成要素を生成する。活動
的な連結構成要素の既存のリストを示す走査実行のピク
セルは、黒く塗りつぶして示されている。その下に、新
しい走査線のピクセルの走査実行が、濃いグレイで示さ
れている。

【００３９】既存の構成要素のピクセル走査実行と新し
い走査実行との間の８近隣連結性によって、現在の行
は、構成要素を結合して、１つの新しい構成要素を形成
する。イメージの後続の各行が処理されるにつれ、活動
的構成要素のリストは、新しいイメージ行の上へその継
続を反映するように更新される。この方式では、構成要
素の実際のピクセルの範囲は、構成要素の境界ボックス
の左下および右上コーナによって暗黙裡に定義される点
に注意すべきである。このプロセスは、個々のピクセル
にラベルを割り当てるデータ構造を維持するプロセスに
比較して、メモリ使用の観点から見て、効率的であり、
予測可能である。

【００４０】イメージの新走査線の各々が処理されるに
つれて、構成要素は、黒いピクセルの走査実行と構成要
素の現在の状態を記述するそれらのピクセル走査実行の
間で８近隣連結性を識別することによって拡張される。
以下の結果が生じる可能性がある。＊構成要素レベルにおいて・新しい構成要素が作成されることができる・既存の構成要素が合併されることができる・既存の構成要素が終わることができる＊個々の実行レベルにおいて− ・既存の実行が拡張されることができる・既存の実行が合併できる・既存の実行がＮ個の新しい実行に分割されることがで
きる・既存の実行が終わることができる。

【００４１】新しいイメージ行の各々を処理するための
アルゴリズムの概略な記述は以下の通りである。＊現在行上で黒いピクセルの実行を見い出す＊各構成要素について、走査実行の現在のリストをそれ
らが現在行上で連結（８近隣）している実行のリストと
置き換える＊共通の実行を共有する構成要素を合併する＊現在の行の上に連結を見つけなかった構成要素を削除
する境界ボックスのサイズが一定の範囲内にあれば、その中
心を計算して、その情報だけを保持する。＊連結されなかった現在の行に関する実行から新しい構
成要素を作成する。効率をよくするため、連結された構成要素のリストは、
現在行を持つ各構成要素の最初の交点に関する順序で配
列される。各構成要素内の実行のリストも、また、その
ような順に配列される。

【００４２】連結構成要素分析は、対象イメージに適用
され、境界ボックスの中心点が取り出され、ホック変換
法のための入力として使用される（図１０参照）。図１
０の（ａ）は、濃い行イメージを示し、図１０の（ｂ）
は、連結構成要素分析後のイメージを表し、それぞれの
文字の周囲に境界ボックスを持っている（イメージは実
際にこの形式で記憶されず、境界ボックスを定義する情
報だけが記憶される必要がある）。図１０の（ｃ）は、
境界ボックスの中心点と中心点を相互に連結させている
仮想線を示す。

【００４３】普通のテキストを認識するために連結構成
要素分析の有効性を改善する選択可能ないくつかの方法
がある。連結構成要素の属性の検査によって、連結構成
要素の作業セット、すなわち、リンクされたリストを１
つに縮小し、しかも、その中へ高い率（理想的には１０
０％）の文字を収納することができる。１つの方法は、
領域しきい値を使用することである。これは、最大のグ
ラフィックスを破棄し、連結構成要素の作業セットのメ
ンバとして、より小さいグラフィックスおよびテキスト
構成要素だけを残すことを意味する。領域しきい値を事
前設定し、しきい値より大きいものすべてを破棄するこ
とに代わるアプローチとして、連結構成要素の密度が最
も高いイメージの区域を検出し、その区域の構成要素の
平均領域を計算し、サイズの点でこの平均値からかなり
離れている構成要素を破棄する方法がある。イメージの
範囲内で分離された直線は、また、次元比率を基に破棄
されることもある。これらのテクニックによって、グラ
フィックおよびノイズの構成要素の一部を破棄すること
が可能になる。このアルゴリズムは、文書イメージ内の
テキスト・フォントのスタイルおよびサイズの変化に対
して強力である。それは、また、どのような方向のテキ
スト・ストリングの分離にも対応し、テキスト特性にお
ける変化に適応する。次のステップは、ホック変換法を
連結構成要素の中心点に適用することである。

【００４４】ホック変換法の適用本発明の好ましい実施例に従って、ホック変換法が、上
述の既知のテクニックとは異なる態様で適用される。図
１１は、ホック変換法を文書の傾きの角度を検出する問
題に適用する際のステップを示している。

【００４５】ステップ３０で、テキストの行を表するた
めに使用されるべき文書イメージ中の点を、上述の連結
構成要素分析を用いて抽出する。ステップ３２では、度
数分布値の統計分析を表す値を記憶するために使われる
１次元アレイをクリアする。ステップ３３では、θの最
初の値に対するループ処理を実行する前に、１次元パラ
メータ空間アキュムレータをクリアする。ステップ３４
からステップ３７は、次のようなループ処理を形成す
る。各θ値毎に、イメージ値すなわち連結構成要素の中
心点を表す各x,y軸ペアに対してループを実行し、対応
するρの値を計算し、１次元パラメータ空間アキュムレ
ータ（ρ）を増分させる。ステップ３８では、なお同じ
θの値であるが、その列の標準偏差値を直接計算し、統
計アキュムレータにそれを記憶する。ステップ４０で、
θの次の値に対するループ処理を実行する前に、１次元
パラメータ空間アキュムレータをクリアする。ステップ
４２で、標準偏差値の小さいアレイの分析を行って、文
書傾き角度を決定する。

【００４６】実際には、計算効率の最適化を図るため、
ステップ３０からステップ４２において、例えば８０度
から１００度という相対的に広い角度範囲に対して、例
えば２度という比較的大きな角度増分値を用いて、粗め
の推定値を算出し、次に、例えば０.１度という小さい
角度増分値を用いて上記推定値に関する小さい角度領域
に対して上記のステップを繰り返すことによってより精
度の高い結果が得られる。

【００４７】この新しい、所要メモリの少ないホック変
換法は、次のような利点を持つ。 −既知の実施方法に比較し処理が速い。 −２次元アキュムレータ・アレイは必要でなく、従っ
て、比較的小さなメモリ容量のコンピュータ上で実行さ
せるために適している。 −１次元アレイだけが必要なため、メモリ要求は、解像
度にともなって線形に増加するだけであり、ホック変換
が、非常に高い解像度に対して計算されたとしても、必
要とされる追加メモリ量は無視できる程度である。

【００４８】ピーク検出ホック変換法を用いて、アキュムレータ・アレイにカウ
ントのパターンを累算した後、次のステップは、その結
果を分析して、線によって起こされる局所的ピークの存
在および位置を推定することである。単にグロ―バルな
しきい値を使用しても、傾き検出の目的に対して十分に
よい結果を与えない。

【００４９】満足な結果は、標準偏差をパラメータ空間
の個々の列について実行することによって得られる。標
準偏差は値が平均値からどれ程分散しているかの測定値
であるので、よい結果を与える。この方法によって、列
の平均値よりも飛び抜けて高い多数のピークが存在する
アレイ中の列が明らかにされる。このことは、文書中に
多数の平行する（テキストの）直線が存在することを示
す。次の数１は、所与の母集団に対する標準偏差の計算
を示す。

【００５０】

【数１】正しいピークはどれであるかを検出することが、次のス
テップであり、これを行うため、移動平均が計算され
る。各標準偏差値ａから、その前後の値ｗの平均が減じ
られる。図１２は、このアプローチの動作を示してい
る。移動する幅ｗの窓が、関数値上を移動し、窓の内側
にあるすべての値の平均が、窓の中央にあるそれぞれの
値ａから引かれる。

【００５１】図１３および図１４は、２つのサンプルの
標準偏差曲線に対する結果を示している。この計算の長
所は、ピークの分類を非常に容易に遂行できることであ
る。負の値を避けるため、標準偏差値と移動平均との間
の差がゼロ以下の場合すべての値がゼロにセットされて
いる。図１５で示されるように、ピークは、その基本の
高さｈおよび幅ｗによって類別されることができる。ピ
ークを類別する他の方法として、側面傾斜の勾配を使う
こともできる。

【００５２】横長検出実際問題として、走査される文書の大部分がある限定的
傾きの範囲内にあるので、ある限定的角度の範囲に対し
てのみホック変換法を適用することには意味がある。本
実施例においては、ホック変換法は、８０から１００度
という限定的角度範囲に対して計算される。しかし、文
書そのものが縦長ではなく横長の場合、スキャナ上に縦
長モードで置かれると文書上のテキストの行は、水平で
はなく垂直となり、行は、上述の角度の範囲の外側に出
てしまう。

【００５３】図１６は、このような状況から生じる典型
的な標準偏差曲線を示す。予想されるように、有意なピ
ークは識別できない。

【００５４】連結構成要素の中心点に関してホック変換
を実行することから得られる図１６に示されるような結
果には、次のような２つの原因が考えられる。ａ）入力イメージが、横長モードである。ｂ）入力イメージが、分析のために十分な平行のテキス
ト行を含んでなく、従って、傾き検出が失敗せざるを得
ない。

【００５５】変換空間分析が図１６のような結果を与え
るならば、次のステップとして、文書が横長モードであ
るかどうかを調べる。これを行うために、文書を再走査
することも、また、ホック変換計算の追加実行のために
処理時間を大幅に増加させることも必要なく、連結構成
要素の中心点のｘ，ｙ座標を入れ替えるだけでよい。図
１７は、その結果を示し、図１７の（ａ）は、単純な入
力イメージを、図１７の（ｂ）は、軸入れ替え後のイメ
ージを示している。これは正確な解を提供しない。なぜ
ならば、これは、ミラー（鏡）イメージであり、単にイ
メージ空間に影響するだけで変換空間から得られる結果
ではなく、傾き検出の目的から無視される場合もあるか
らである。

【００５６】連結構成要素分析の中心点のx,y座標を交
換しても、ピーク分析の結果を変えることができないな
らば、傾き角度は検出できない。連結要素分析の中心点
のx,y座標の交換によって、識別できる明確なピークが
得られれば、これは、入力イメージが横長形式であるこ
とを示す。選択されたイメージ点がメモリに記憶されて
いるため、画像ファイル上で再び作業をせずに、それら
イメージ点に容易にアクセスすることができるので、こ
のアプローチが可能である。

【００５７】疑似Ｃコードを用いた横長検出のアルゴリ
ズムは、次の通りである。ここでＣＣは、連結構成要素
を表す。 for ( CCi = 1; CCi -> next!= NULL; CCi = CCi -> next) { if testing_for_landscape = TRUE){ x = Cci -> y; y = Cci -> x; } else{ x = Cci -> x; y = Cci -> y; } for (θ = 80; θ < 100; θ = θ + 2 { ρ = x ( cos(θ) + y ( sin(θ); accumulator[θ][ρ] = accumulator[θ][ρ] + 1; } } 先に述べたように、より小さい角度増分を用いてより小
さい角度範囲に対して行う第２のパスを使用すれば、結
果の正確度を改善するこができる。このようにして、本
願発明は、単純で、効果的な方法で横長形式文書の検出
を可能にし、したがって、ページの方向にとらわれるこ
とはない。

【００５８】本発明には、例として次のような実施様態
が含まれる。（１）基準方向に対する文書ページの傾きの角度を検出
する方法であって、ページを走査するステップと、傾き
の角度を表す電子的イメージの複数の点を選択するステ
ップと、パラメータ空間に度数分布を構築するため、行
の傾斜の角度を表す行傾斜パラメータ（θ）および第２
のパラメータ（ρ）を含む行についての方程式を活用す
るホック変換法を使用してパラメータ空間に上記選択し
た複数の点をマップするステップと、選択した複数の点
をマップする上記ステップの結果を分析して、傾き角度
を示す度数分布のピークの存在を判別するステップと、
を含み、上記判別するステップが、上記行傾斜パラメ
ータ（θ）の値それぞれ毎に、上記選択したイメージの
点に関する上記第２のパラメータ（ρ）の値を計算し
て、パラメータ空間における度数分布を更新する動作
を、上記選択したイメージの複数の点それぞれについて
繰り返すステップと、上記度数分布更新のそれぞれの結
果を統計的に分析し、後続の度数分布ピークの分析にお
ける使用のため上記度数分布更新のそれぞれの結果を表
わす値を計算して記憶するステップと、を更に含む、文
書ページの傾きの角度を検出する方法。（２）上記統計分析のステップが、線傾斜パラメータの
それぞれの値についてホック変換法の度数分布における
標準偏差を計算することを含む、上記（１）に記載の方
法。（３）標準偏差値の移動平均を計算し、この移動平均を
使用して度数分布のピークを検出するステップを含む、
上記（２）に記載の方法。（４）傾きの角度を表す電子的イメージの選択された点
が、文字の最小境界ボックスの中心点である、上記項目
（１）から（３）のいずれかに記載の方法。（５）使用される行の方程式が、ρ＝ｘｃｏｓθ ＋
ｙｓｉｎθである、上記項目（１）から（４）のいず
れかに記載の方法。（６）選択されたイメージ点の座標軸を入れ替え、入れ
替えた座標軸を使用して傾きの角度を決定するステップ
を含む、上記項目（１）から（５）のいずれかに記載の
方法。（７）上記項目（１）から（６）のいずれかに記載の方
法を実施するための装置。

【００５９】

【発明の効果】本発明の方法によって、スキャナによる
文書の走査を行う際、ホック変換法を利用して基準方向
に対する文書ページの傾き角度の検出の処理速度が向上
し、その必要メモリ容量が減少する。

【図面の簡単な説明】

【図１】線の通常表示におけるパラメータρ，θの意味
を示す図である。

【図２】イメージ空間とパラメータ空間との間のマッピ
ングを示す図である。

【図３】イメージ空間とパラメータ空間との間のマッピ
ングを示す図である。

【図４】イメージ空間とパラメータ空間との間のマッピ
ングを示す図である。

【図５】イメージ空間とパラメータ空間との間のマッピ
ングを示す図である。

【図６】ホック変換法を適用する既知の方法の流れ図で
ある。

【図７】種々のタイプのピクセル近隣点定義を示す図で
ある。

【図８】連結構成要素の例を示す図である。

【図９】走査の間の走査線の状態を示す図である。

【図１０】連結構成要素分析の効果を示す図である。

【図１１】本発明に従ったホック変換法の適用の流れ図
である。

【図１２】標準偏差曲線の移動平均を計算するために使
われる移動窓を示す図である。

【図１３】移動平均アプローチの効果を表す２つの例の
内の１つの例を示す図である。

【図１４】移動平均アプローチの効果を表す２つの例の
内のもう１つの例を示す図である。

【図１５】ピーク分類の局面を示す図である。

【図１６】横長ページに関する標準偏差曲線を示す図で
ある。

【図１７】イメージの座標入れ替えの効果を示す図であ
る。

Claims

【特許請求の範囲】

【請求項１】基準方向に対する文書ページの傾きの角度
を検出する方法であって、ページを走査するステップと、傾きの角度を表す電子的イメージの複数の点を選択する
ステップと、パラメータ空間に度数分布を構築するため、行の傾斜の
角度を表す行傾斜パラメータ（θ）および第２のパラメ
ータ（ρ）を含む行についての方程式を活用するホック
変換法を使用してパラメータ空間に上記選択した複数の
点をマップするステップと、選択した複数の点をマップする上記ステップの結果を分
析して、傾き角度を示す度数分布のピークの存在を判別
するステップと、を含み、上記判別するステップが、上記行傾斜パラメータ（θ）
の値それぞれ毎に、上記選択したイメージの点に関する上記第２のパラメー
タ（ρ）の値を計算して、パラメータ空間における度数
分布を更新する動作を、上記選択したイメージの複数の
点それぞれについて繰り返すステップと、上記度数分布更新のそれぞれの結果を統計的に分析し、
後続の度数分布ピークの分析における使用のため上記度
数分布更新のそれぞれの結果を表わす値を計算して記憶
するステップと、を更に含む、文書ページの傾きの角度を検出する方法。