JPH0896072A - ページ傾き検出方法 - Google Patents

ページ傾き検出方法

Info

Publication number
JPH0896072A
JPH0896072A JP7201046A JP20104695A JPH0896072A JP H0896072 A JPH0896072 A JP H0896072A JP 7201046 A JP7201046 A JP 7201046A JP 20104695 A JP20104695 A JP 20104695A JP H0896072 A JPH0896072 A JP H0896072A
Authority
JP
Japan
Prior art keywords
image
inclination
parameter
points
frequency distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7201046A
Other languages
English (en)
Inventor
Peter Bauer
ピーター・バウア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JPH0896072A publication Critical patent/JPH0896072A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18067Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】スキャナ走査において、基準方向に対する文書
ページの傾きの角度を効率的に検出する方法。 【解決手段】基準方向に対するページの傾きを表すイメ
ージ点を連結構成要素分析を使用して選択する。パラメ
ータ空間に度数分布を構築するため、行の傾斜の角度を
表す行傾斜パラメータ(θ)および第2のパラメータ
(ρ)を含む行についての方程式を活用するホック変換
法を使用してパラメータ空間に上記選択した複数の点を
マップする。選択した複数の点をマップする上記ステッ
プの結果を分析して、行傾斜角度の度数分布のピークの
存在を判別し、そのピークを示す角度を、該ページの傾
き角度とする。上記判別は、度数分布値の記憶のための
2次元アレイを必要としないので、処理速度が向上す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書走査の分野、
特に文書の傾きの角度の検出に関するものである。
【0002】
【従来の技術】過去数年の間に、低コストのスキャナが
普及し、一般のオフィスでの使用が進展している。スキ
ャナは、オフィスの日常の文書を電子的に保管するた
め、オフィス作業従事者によって使われている。
【0003】低コストで、平底型手持ちスキャナが、文
書のページに沿って正確に走査することはほとんどな
い。従って、文書処理においてなすべき最初の段階は、
走査した文書イメージ(像)の品質を改善するための傾
き除去である。なぜならば、後続の処理工程が正しい操
作のため正しい方向を持ったイメージを必要とするから
である。更に、ある種の圧縮技術では、きつい傾きの存
在のためその質が劣化し、OCR技術が十分動作できな
い。
【0004】
【発明が解決しようとする課題】イメージを回転させる
ために利用できる技術がいくつかあり、それらはすべ
て、長所短所を持っているが、いずれも必ず利用できる
回転角度を必要とする。従って、本発明が課題とするも
のは、傾き角度の正確で効率的な測定である。
【0005】傾き検出の伝統的な代表的技術は、ホック
変換法であり、この技術は以下に詳細に記述する。この
技術を用いて、傾き検出の問題を効果的に処理するため
には、検討しなければならない3つの重要な面がある。
【0006】第1に、傾きを検出するため、イメージの
傾きを反映する特性を選択しなければならない。通常、
それはテキスト行である。
【0007】第2に、適切な特性を選択したとして、ホ
ック変換法の改良を効率的に実施して、ホック変換法が
傾き角度のみを処理し、現行のホック変換法の完全な変
換に使用されるその他すべての複雑な特性を無視または
削除することが必要である。
【0008】最後に、前段階処理の出力を単一の数とし
て解釈する強力で効率的な方法が考案されなければなら
ない。
【0009】
【課題を解決するための手段】本発明に従って、基準方
向に対して相対的なページ傾き角度を検出する方法が提
供される。この方法は、ページを走査するステップと、
傾きの角度を表す電子的イメージの複数の点を選択する
ステップと、パラメータ空間に度数分布を構築するた
め、行の傾斜の角度を表す行傾斜パラメータおよび第2
のパラメータを含む行についての方程式を活用するホッ
ク(Hough)変換法を使用してパラメータ空間に上
記選択した複数の点をマップするステップと、選択した
複数の点をマップする上記ステップの結果を分析して、
傾き角度を示す度数分布のピークの存在を判別するステ
ップとを含み、上記判別するステップが、上記行傾斜パ
ラメータの値それぞれ毎に、上記選択したイメージの点
に関する上記第2のパラメータの値を計算して、パラメ
ータ空間における度数分布を更新する動作を、上記選択
したイメージの複数の点それぞれについて繰り返すステ
ップと、上記度数分布更新のそれぞれの結果を統計的に
分析し、後続の度数分布ピークの分析における使用のた
め上記度数分布更新のそれぞれの結果を表わす値を計算
して記憶するステップと、を更に含む。
【0010】本発明は、傾き角度の正確で効率的な計算
のための効率的で優雅な技術を提供する。当技術は、幅
広い領域の文書に対して強力であり、また、高い信頼性
で傾きを検出することが不可能な場合を認知することも
できる。
【0011】本発明の方法は、2次元度数分布を記憶す
る必要性をなくし、それによって必要なメモリを大幅に
減少させるという利点を持つ。
【0012】好ましくは、統計的分析が、行傾斜パラメ
ータ値のそれぞれについて、ホック変換法の度数分布に
おける標準偏差を計算することを含む。標準偏差の使用
は、単純なグロ―バルしきい値を使用する場合よりはる
かにすぐれた結果を生む。好ましくは、本発明の方法
は、標準偏差値の移動平均を計算して、この移動平均を
使用して度数分布のピークを検出するステップを含む。
この機能は、度数分布ピークの識別と分類を容易にす
る。
【0013】本発明の方法において、傾きの角度を表す
電子的イメージの選択された(複数の)点は、文字の最
小境界ボックスの中心点である。以下に記述される特定
の実施例において使われる行についての方程式は、ρ=x
cosθ + y sinθである。
【0014】好ましくは、本発明の方法は、選択された
イメージの点の座標を交換して、その結果の座標を利用
して傾きの角度を決定するステップを更に含む。この技
術は、下記に述べるように、横長方向の文書の検出を容
易にする。
【0015】
【実施例】ホック変換法の概要 ホック変換法は、30年以上前に最初に開発され、複雑
なパターン認識、特に、写真その他の画像表現における
複雑な線の機械認識に関するものである。一般に、視認
される表現は、複雑なパターンが本質的に直線のセグメ
ントに分割されるように十分に小さいセクタまたはフレ
ームレット(framelet)に分割される。セグメントの各々
は検出され、傾斜および切片(インターセプト、interce
pt)データに変換され、そのデータは所望のパターンに
関する後の分析に備えて記憶される。
【0016】この変換を実行する1つの実施形態は、傾
斜切片法である。この方法の主要な概念は、ある1つの
イメージにおける共線点の識別セットを考察することに
よって図解できる。直線上にある1組のイメージ点(x,
y)は、下記関係式fによって定義することができる。 f((m, c), (x, y)) = y - mx - c = 0 方程式1 mおよびcは、行の特性を表す2つのパラメータ、傾斜お
よび切片である。
【0017】方程式1は、パラメータの組合せ(m,c)の
各々の値を一組のイメージ点にマップする。このマッピ
ングは、可能なパラメータ値(m,c)の空間からイメージ
点の空間へという1対多数のマッピングである。ホック
変換法は、方程式1がイメージ点とパラメータ点との間
の相互の制約であるように見えるという概念を使用し、
従って、それは、1つのイメージ点から1組の可能なパ
ラメータ値への1対多数のマッピングを定義するものと
して解釈することができる。これは、所与のイメージ点
(x,y)を通過するセットに属するすべての直線のパラメ
ータを計算することに対応する。この動作は、イメージ
点の逆投影(バックプロジェクション、backprojectio
n)として知られている。直線の場合、各イメージ点
は、パラメータ空間(m,c)において直線を逆投影する。
【0018】線のm,cパラメータ化に関わる問題は、垂
直線、すなわち、m→∞に対処することができない点で
ある。この問題は、次のような線の通常の表示を使用す
ることによって克服される。 ρ = x cosθ + y sinθ 方程式2 線λに関する方程式2におけるパラメータρ,θの意味
は、図1に示されている。θの範囲は、x軸に関して測
定される0−180度である。水平の線は、θ=90を
持ち、ρは正のyの切片である。垂直線は、ρ=0度
で、ρは正のxの切片に等しい。
【0019】イメージ空間とパラメータ空間の間のマッ
ピングは、いずれの方向でも1対多数である。この変換
が真であることを保つ下記のような種々の属性が存在す
る。 i)文書イメージにおける1つの点は、パラメータ空間の
1つの正弦波曲線に対応する。 ii)パラメータ空間における1つの点は、文書イメージ
における1つの直線に対応する。 iii)文書イメージで同じ直線にある複数の点は、パラメ
ータ空間における共通の1点を通る複数の曲線に対応す
る。 iv)パラメータ空間で同一曲線にある複数の点は、文書
において同一の点を通る複数の線に対応する。 これらの属性は、図2、図3、図4、図5および図6で
図解されている。図2で示されるような、イメージ空間
における1直線上の点(複数)は、図3で示されるよう
に、パラメータ空間で共通の1点を通るいくつかの曲線
にマップされる。このように、文書イメージで同一直線
上の多くの点は、パラメータ空間で共通の1点を通る曲
線に対応する。図4で示されるような、パラメータ空間
で同一曲線上の多くの点は、図5で示されるように、イ
メージ空間で一つの点を通る多くの線にマップされる。
【0020】ホック変換法の既知の適用形態 文書の傾きの角度を検出するためには文書における行を
識別することが必要である。テキストは、ホック変換法
を適用させることができる太線で書かれた行として取り
扱われることができる。行を定義するために必要な情報
を抜き出すいくつかの可能なアプローチがある。本発明
に関連した特定のアプローチは後述する。
【0021】図6の流れ図で示される態様で文書の傾き
の角度を検出する問題にホック変換法を適用することが
知られている。図6は、以下のステップを表す。
【0022】ステップ10では、テキストの行を表すた
めに使われるべき文書イメージの点(IP)を抜き出
す。
【0023】ステップ12では、パラメータ空間の値を
記憶するために、2次元パラメータ空間アキュムレー
タ、すなわち2次元データ構造をクリアする。
【0024】ステップ14からステップ17は、ループ
のステップとして、選択された点のx,y軸の各ペアにつ
いて、θの範囲に対してρの対応する値を計算するルー
プを実行し、2次元アレイにおける関連した度数分布ビ
ン(θ、ρ)を増分させる。
【0025】ステップ20で、度数分布分析を実行し
て、傾き角度を表すピークを検出する。これは、いくつ
かの態様で行うことができる。ある1つのアプローチで
は、2次元アレイの各θ列の値の統計分析を表す値を計
算し、それらを1次元アレイに記憶し、この1次元アレ
イを分析して文書傾き角度を抽出する。この既知のアプ
ローチの欠点は、計算能率が悪く、相対的に大きい量の
記憶空間を必要とすることである。
【0026】本発明におけるホック変換法の適用 文書イメージへホック変換法を適用する前に、テキスト
の行を表す情報を抜き出すことが必要である。この目的
に使うことができるいくつかの既知の方法があるが、本
発明にとって好ましい方法は、以下の通りのものであ
る。
【0027】連結構成要素分析 本発明の実施例において、テキストの行を定義するた
め、各文字の中心における点が使われ、連結構成要素分
析が、文字を識別するために使われる。これは、重要な
利点を持つ。
【0028】一般に、グラフィックスは、相対的に大き
く、不規則なサイズで連結した構成要素からなるが、こ
れに対して、テキストは、相対的に小さく、規則的なサ
イズの連結した構成要素からなる。連結構成要素を分析
することによって、文書イメージのグラフィックスとテ
キストが、識別され、ブロックにグループ化され、そし
て互いに切り離されることができる。もう一つの利点と
して、イメージ中のノイズの大部分は文字の平均サイズ
より小さいサイズの連結構成要素からなっているので、
最小の連結構成要素を破棄することは容易であり、した
がって、不必要なピークをθρパラメータ空間にもたら
す可能性のあるノイズを除去することができる。
【0029】連結構成要素分析は、それ自体よく知られ
ていて、イメージの中の連結構成要素を定義し、認識す
るいくつかの既知のアプローチがある。Rafael C. Gonz
alezおよび Richard E. Woods著の"Digital Image Proc
essig"(1992年Addison-Wesley社刊)に、連結構成要素分
析が記載されている。同書記載のアプローチは以下の通
りのものである。
【0030】座標(x,y)のピクセルpは、次式の座標を持
つ水平と垂直それぞれ2つの近隣点(neighbours)を有す
る。 (x+1, y), (x-1, y), (x, y+1), (x, y- 1) これらのピクセル・セットは、pの4近隣点と呼ばれ、N
4(p)と表示される(図7のa参照)。各ピクセルは、
(x,y)から1単位の距離に位置し、(x,y)がイメージの
境界線上にある場合は、それら近隣ピクセルの一部は、
デジタル・イメージの外側に位置する。
【0031】4つの斜めの近隣点は、 (x+1, y+1), (x+1, y-1), (x-1, y+1), (x- 1, y- 1) という座標を持ち、ND(p)と表示される(図7のb参
照)。これらの近隣点をすべてあわせて、pの8近隣点
と呼ばれ、N8(p)と表示される(図7のc参照)。(x,
y)がイメージの境界線上にある場合は、ND(p)およびN8
(p)の点の一部は、前述と同様に、イメージの外側に位
置する。
【0032】ピクセル間の連結性は、イメージにおける
領域のオブジェクトおよび構成要素の境界を確立する際
に使われる重要な概念である。2つのピクセルが連結し
ているか否かを定めるため、それらが何らかの意味で
(例えば4近隣点であることで)近接しているか否か、
そして、グレイ・レベル(濃淡の差)が、指定された近
似基準を満たす(すなわち、それらが等しい)か否かが
判定されなければならない。例えば、0と1のバイナリ
のイメージにおいては、2つのピクセルが4近隣点であ
っても、それらが、同じ値を持たない限り、連結してい
るといわれない。
【0033】ここで、Vを連結性を定義するために使わ
れるグレイ・レベルのセットであるとする。例えば、バ
イナリのイメージにおいて、値1を持つ複数ピクセル連
結性についてV={1}と表す。濃淡階差のあるイメージに
おいては、明度の値が例えば32から64までの範囲を持つ
ピクセルの連結性につては、V={32,33,...64}と表す。
2つのピクセルは、また、適切な連結の形式を示す分離
不能のピクセルの鎖によってつながれている場合、連結
しているといわれる。
【0034】連結性には次の3つのタイプがある。 1)4連結性−qがN4(p)セット中にあれば、Vからの値
を持つ2つのピクセルpおよびqは、4連結である。 2)8連結性−qがN8(p)セット中にあれば、Vからの値
を持つ2つのピクセルpおよびqは、8連結である。 3)m(混合)連結性−qがN4(p)セット中にあるか、ま
たは、qがND(p)にあってかつN4(p)∩N4(q)セットが空で
あれば、Vからの値を持つ2つのピクセルpおよびqは、
m連結である。(この場合、ピクセル・セットは、pお
よびq両方の4近隣点であり、その値がVからのものであ
る)。
【0035】混合連結性は、8連結性の修正版であり、
8連結性が使われる時しばしば起こる複数の経路連結を
排除するために導入される。例として図8の(a)のよ
うな配置を考察してみる。V={1}について、中央のピク
セルの8近隣点の間の経路が、図8の(b)において、
太線として示されている。図2の(c)で示されるよう
に、あいまい性がm連結性を使用することによって除去
される点に注意する必要がある。pとqが連結していれ
ば、ピクセルpは、ピクセルqの「隣接」である。
【0036】連結性のタイプの指定に応じて4、8、m
の連結性を定義することができる。S1の中のいくつか
のピクセルがS2の中のいくつかのピクセルに隣接して
いれば、2個のイメージ・サブセットS1とS2は隣接
である。座標(x0,y0)をもつピクセルpから座標(xn,
yn)をもつピクセルqへの経路は、次の座標を持つ個別
のピクセルのシーケンスである。 (x0, y0), (x1, y1),..., (xn, yn) (xi, yi)は、(xi-1, yi-1)への隣接である。但し、1< i
< nであり、nは経路の長さである。4、8、mの連結
性は、連結性のタイプの指定に応じて定義できる。
【0037】pおよびqがイメージ・サブセットSのピク
セルであれば、Sのピクセルから全体を構成されるpか
らqへの経路が存在する場合、Sにおいてpはqに連結し
ている。Sの中のどのピクセルpに関しても、pに連結
しているSのピクセル・セットは、Sの「連結構成要
素」と呼ばれる。かくして、1つの連結構成要素の2つ
のピクセルは、互いに連結していて、別々の連結構成要
素は、共通の要素をもたない、すなわち、それぞれのピ
クセルはいずれも連結していない。
【0038】イメージは、ピクセル毎、左から右へ、上
から下へ走査される。使われるメモリの量を減らすた
め、イメージが走査線の順に処理されるにつれ、現在時
に活動的な構成要素のリンクされたリストだけが維持さ
れる。すべての終了した(非活動的)連結構成要素から
は、それらの境界ボックスの中心点だけが取り出され、
別のリンクされたリストに保持される。更に、各個別の
黒の構成要素の記述が、最も最近のイメージ行を持つ構
成要素の切片に対応するピクセル走査実行のリストだけ
を維持する(図9参照)。このようにして、新と旧の走
査線という2つのピクセル行だけが1時点で考慮され
る。図9は、連結構成要素を走査し、構築するプロセス
の例を示す。新走査線Sは、その先行した線が連結構成
要素の現在時の状態を表していて、8近隣連結性に対し
て考慮される。実際に、図9は連結構成要素分析の複雑
な例を示していて、2つの既存の構成要素が、同じ走査
線上で合流し、また2つに分岐して、2つのピクセル走
査実行のリストを含む単一の構成要素を生成する。活動
的な連結構成要素の既存のリストを示す走査実行のピク
セルは、黒く塗りつぶして示されている。その下に、新
しい走査線のピクセルの走査実行が、濃いグレイで示さ
れている。
【0039】既存の構成要素のピクセル走査実行と新し
い走査実行との間の8近隣連結性によって、現在の行
は、構成要素を結合して、1つの新しい構成要素を形成
する。イメージの後続の各行が処理されるにつれ、活動
的構成要素のリストは、新しいイメージ行の上へその継
続を反映するように更新される。この方式では、構成要
素の実際のピクセルの範囲は、構成要素の境界ボックス
の左下および右上コーナによって暗黙裡に定義される点
に注意すべきである。このプロセスは、個々のピクセル
にラベルを割り当てるデータ構造を維持するプロセスに
比較して、メモリ使用の観点から見て、効率的であり、
予測可能である。
【0040】イメージの新走査線の各々が処理されるに
つれて、構成要素は、黒いピクセルの走査実行と構成要
素の現在の状態を記述するそれらのピクセル走査実行の
間で8近隣連結性を識別することによって拡張される。
以下の結果が生じる可能性がある。 *構成要素レベルにおいて ・新しい構成要素が作成されることができる ・既存の構成要素が合併されることができる ・既存の構成要素が終わることができる *個々の実行レベルにおいて− ・既存の実行が拡張されることができる ・既存の実行が合併できる ・既存の実行がN個の新しい実行に分割されることがで
きる ・既存の実行が終わることができる。
【0041】新しいイメージ行の各々を処理するための
アルゴリズムの概略な記述は以下の通りである。 *現在行上で黒いピクセルの実行を見い出す *各構成要素について、走査実行の現在のリストをそれ
らが現在行上で連結(8近隣)している実行のリストと
置き換える *共通の実行を共有する構成要素を合併する *現在の行の上に連結を見つけなかった構成要素を削除
する 境界ボックスのサイズが一定の範囲内にあれば、その中
心を計算して、その情報だけを保持する。 *連結されなかった現在の行に関する実行から新しい構
成要素を作成する。 効率をよくするため、連結された構成要素のリストは、
現在行を持つ各構成要素の最初の交点に関する順序で配
列される。各構成要素内の実行のリストも、また、その
ような順に配列される。
【0042】連結構成要素分析は、対象イメージに適用
され、境界ボックスの中心点が取り出され、ホック変換
法のための入力として使用される(図10参照)。図1
0の(a)は、濃い行イメージを示し、図10の(b)
は、連結構成要素分析後のイメージを表し、それぞれの
文字の周囲に境界ボックスを持っている(イメージは実
際にこの形式で記憶されず、境界ボックスを定義する情
報だけが記憶される必要がある)。図10の(c)は、
境界ボックスの中心点と中心点を相互に連結させている
仮想線を示す。
【0043】普通のテキストを認識するために連結構成
要素分析の有効性を改善する選択可能ないくつかの方法
がある。連結構成要素の属性の検査によって、連結構成
要素の作業セット、すなわち、リンクされたリストを1
つに縮小し、しかも、その中へ高い率(理想的には10
0%)の文字を収納することができる。1つの方法は、
領域しきい値を使用することである。これは、最大のグ
ラフィックスを破棄し、連結構成要素の作業セットのメ
ンバとして、より小さいグラフィックスおよびテキスト
構成要素だけを残すことを意味する。領域しきい値を事
前設定し、しきい値より大きいものすべてを破棄するこ
とに代わるアプローチとして、連結構成要素の密度が最
も高いイメージの区域を検出し、その区域の構成要素の
平均領域を計算し、サイズの点でこの平均値からかなり
離れている構成要素を破棄する方法がある。イメージの
範囲内で分離された直線は、また、次元比率を基に破棄
されることもある。これらのテクニックによって、グラ
フィックおよびノイズの構成要素の一部を破棄すること
が可能になる。このアルゴリズムは、文書イメージ内の
テキスト・フォントのスタイルおよびサイズの変化に対
して強力である。それは、また、どのような方向のテキ
スト・ストリングの分離にも対応し、テキスト特性にお
ける変化に適応する。次のステップは、ホック変換法を
連結構成要素の中心点に適用することである。
【0044】ホック変換法の適用 本発明の好ましい実施例に従って、ホック変換法が、上
述の既知のテクニックとは異なる態様で適用される。図
11は、ホック変換法を文書の傾きの角度を検出する問
題に適用する際のステップを示している。
【0045】ステップ30で、テキストの行を表するた
めに使用されるべき文書イメージ中の点を、上述の連結
構成要素分析を用いて抽出する。ステップ32では、度
数分布値の統計分析を表す値を記憶するために使われる
1次元アレイをクリアする。ステップ33では、θの最
初の値に対するループ処理を実行する前に、1次元パラ
メータ空間アキュムレータをクリアする。ステップ34
からステップ37は、次のようなループ処理を形成す
る。各θ値毎に、イメージ値すなわち連結構成要素の中
心点を表す各x,y軸ペアに対してループを実行し、対応
するρの値を計算し、1次元パラメータ空間アキュムレ
ータ(ρ)を増分させる。ステップ38では、なお同じ
θの値であるが、その列の標準偏差値を直接計算し、統
計アキュムレータにそれを記憶する。ステップ40で、
θの次の値に対するループ処理を実行する前に、1次元
パラメータ空間アキュムレータをクリアする。ステップ
42で、標準偏差値の小さいアレイの分析を行って、文
書傾き角度を決定する。
【0046】実際には、計算効率の最適化を図るため、
ステップ30からステップ42において、例えば80度
から100度という相対的に広い角度範囲に対して、例
えば2度という比較的大きな角度増分値を用いて、粗め
の推定値を算出し、次に、例えば0.1度という小さい
角度増分値を用いて上記推定値に関する小さい角度領域
に対して上記のステップを繰り返すことによってより精
度の高い結果が得られる。
【0047】この新しい、所要メモリの少ないホック変
換法は、次のような利点を持つ。 −既知の実施方法に比較し処理が速い。 −2次元アキュムレータ・アレイは必要でなく、従っ
て、比較的小さなメモリ容量のコンピュータ上で実行さ
せるために適している。 −1次元アレイだけが必要なため、メモリ要求は、解像
度にともなって線形に増加するだけであり、ホック変換
が、非常に高い解像度に対して計算されたとしても、必
要とされる追加メモリ量は無視できる程度である。
【0048】ピーク検出 ホック変換法を用いて、アキュムレータ・アレイにカウ
ントのパターンを累算した後、次のステップは、その結
果を分析して、線によって起こされる局所的ピークの存
在および位置を推定することである。単にグロ―バルな
しきい値を使用しても、傾き検出の目的に対して十分に
よい結果を与えない。
【0049】満足な結果は、標準偏差をパラメータ空間
の個々の列について実行することによって得られる。標
準偏差は値が平均値からどれ程分散しているかの測定値
であるので、よい結果を与える。この方法によって、列
の平均値よりも飛び抜けて高い多数のピークが存在する
アレイ中の列が明らかにされる。このことは、文書中に
多数の平行する(テキストの)直線が存在することを示
す。次の数1は、所与の母集団に対する標準偏差の計算
を示す。
【0050】
【数1】 正しいピークはどれであるかを検出することが、次のス
テップであり、これを行うため、移動平均が計算され
る。各標準偏差値aから、その前後の値wの平均が減じ
られる。図12は、このアプローチの動作を示してい
る。移動する幅wの窓が、関数値上を移動し、窓の内側
にあるすべての値の平均が、窓の中央にあるそれぞれの
値aから引かれる。
【0051】図13および図14は、2つのサンプルの
標準偏差曲線に対する結果を示している。この計算の長
所は、ピークの分類を非常に容易に遂行できることであ
る。負の値を避けるため、標準偏差値と移動平均との間
の差がゼロ以下の場合すべての値がゼロにセットされて
いる。図15で示されるように、ピークは、その基本の
高さhおよび幅wによって類別されることができる。ピ
ークを類別する他の方法として、側面傾斜の勾配を使う
こともできる。
【0052】横長検出 実際問題として、走査される文書の大部分がある限定的
傾きの範囲内にあるので、ある限定的角度の範囲に対し
てのみホック変換法を適用することには意味がある。本
実施例においては、ホック変換法は、80から100度
という限定的角度範囲に対して計算される。しかし、文
書そのものが縦長ではなく横長の場合、スキャナ上に縦
長モードで置かれると文書上のテキストの行は、水平で
はなく垂直となり、行は、上述の角度の範囲の外側に出
てしまう。
【0053】図16は、このような状況から生じる典型
的な標準偏差曲線を示す。予想されるように、有意なピ
ークは識別できない。
【0054】連結構成要素の中心点に関してホック変換
を実行することから得られる図16に示されるような結
果には、次のような2つの原因が考えられる。 a)入力イメージが、横長モードである。 b)入力イメージが、分析のために十分な平行のテキス
ト行を含んでなく、従って、傾き検出が失敗せざるを得
ない。
【0055】変換空間分析が図16のような結果を与え
るならば、次のステップとして、文書が横長モードであ
るかどうかを調べる。これを行うために、文書を再走査
することも、また、ホック変換計算の追加実行のために
処理時間を大幅に増加させることも必要なく、連結構成
要素の中心点のx,y座標を入れ替えるだけでよい。図
17は、その結果を示し、図17の(a)は、単純な入
力イメージを、図17の(b)は、軸入れ替え後のイメ
ージを示している。これは正確な解を提供しない。なぜ
ならば、これは、ミラー(鏡)イメージであり、単にイ
メージ空間に影響するだけで変換空間から得られる結果
ではなく、傾き検出の目的から無視される場合もあるか
らである。
【0056】連結構成要素分析の中心点のx,y座標を交
換しても、ピーク分析の結果を変えることができないな
らば、傾き角度は検出できない。連結要素分析の中心点
のx,y座標の交換によって、識別できる明確なピークが
得られれば、これは、入力イメージが横長形式であるこ
とを示す。選択されたイメージ点がメモリに記憶されて
いるため、画像ファイル上で再び作業をせずに、それら
イメージ点に容易にアクセスすることができるので、こ
のアプローチが可能である。
【0057】疑似Cコードを用いた横長検出のアルゴリ
ズムは、次の通りである。ここでCCは、連結構成要素
を表す。 for ( CCi = 1; CCi -> next!= NULL; CCi = CCi -> next) { if testing_for_landscape = TRUE){ x = Cci -> y; y = Cci -> x; } else{ x = Cci -> x; y = Cci -> y; } for (θ = 80; θ < 100; θ = θ + 2 { ρ = x ( cos(θ) + y ( sin(θ); accumulator[θ][ρ] = accumulator[θ][ρ] + 1; } } 先に述べたように、より小さい角度増分を用いてより小
さい角度範囲に対して行う第2のパスを使用すれば、結
果の正確度を改善するこができる。このようにして、本
願発明は、単純で、効果的な方法で横長形式文書の検出
を可能にし、したがって、ページの方向にとらわれるこ
とはない。
【0058】本発明には、例として次のような実施様態
が含まれる。 (1)基準方向に対する文書ページの傾きの角度を検出
する方法であって、ページを走査するステップと、傾き
の角度を表す電子的イメージの複数の点を選択するステ
ップと、パラメータ空間に度数分布を構築するため、行
の傾斜の角度を表す行傾斜パラメータ(θ)および第2
のパラメータ(ρ)を含む行についての方程式を活用す
るホック変換法を使用してパラメータ空間に上記選択し
た複数の点をマップするステップと、選択した複数の点
をマップする上記ステップの結果を分析して、傾き角度
を示す度数分布のピークの存在を判別するステップと、
を含み、上記判別するステップが、上記行傾斜パラメ
ータ(θ)の値それぞれ毎に、上記選択したイメージの
点に関する上記第2のパラメータ(ρ)の値を計算し
て、パラメータ空間における度数分布を更新する動作
を、上記選択したイメージの複数の点それぞれについて
繰り返すステップと、上記度数分布更新のそれぞれの結
果を統計的に分析し、後続の度数分布ピークの分析にお
ける使用のため上記度数分布更新のそれぞれの結果を表
わす値を計算して記憶するステップと、を更に含む、文
書ページの傾きの角度を検出する方法。 (2)上記統計分析のステップが、線傾斜パラメータの
それぞれの値についてホック変換法の度数分布における
標準偏差を計算することを含む、上記(1)に記載の方
法。 (3)標準偏差値の移動平均を計算し、この移動平均を
使用して度数分布のピークを検出するステップを含む、
上記(2)に記載の方法。 (4)傾きの角度を表す電子的イメージの選択された点
が、文字の最小境界ボックスの中心点である、上記項目
(1)から(3)のいずれかに記載の方法。 (5)使用される行の方程式が、ρ=x cosθ +
y sinθである、上記項目(1)から(4)のいず
れかに記載の方法。 (6)選択されたイメージ点の座標軸を入れ替え、入れ
替えた座標軸を使用して傾きの角度を決定するステップ
を含む、上記項目(1)から(5)のいずれかに記載の
方法。 (7)上記項目(1)から(6)のいずれかに記載の方
法を実施するための装置。
【0059】
【発明の効果】本発明の方法によって、スキャナによる
文書の走査を行う際、ホック変換法を利用して基準方向
に対する文書ページの傾き角度の検出の処理速度が向上
し、その必要メモリ容量が減少する。
【図面の簡単な説明】
【図1】線の通常表示におけるパラメータρ,θの意味
を示す図である。
【図2】イメージ空間とパラメータ空間との間のマッピ
ングを示す図である。
【図3】イメージ空間とパラメータ空間との間のマッピ
ングを示す図である。
【図4】イメージ空間とパラメータ空間との間のマッピ
ングを示す図である。
【図5】イメージ空間とパラメータ空間との間のマッピ
ングを示す図である。
【図6】ホック変換法を適用する既知の方法の流れ図で
ある。
【図7】種々のタイプのピクセル近隣点定義を示す図で
ある。
【図8】連結構成要素の例を示す図である。
【図9】走査の間の走査線の状態を示す図である。
【図10】連結構成要素分析の効果を示す図である。
【図11】本発明に従ったホック変換法の適用の流れ図
である。
【図12】標準偏差曲線の移動平均を計算するために使
われる移動窓を示す図である。
【図13】移動平均アプローチの効果を表す2つの例の
内の1つの例を示す図である。
【図14】移動平均アプローチの効果を表す2つの例の
内のもう1つの例を示す図である。
【図15】ピーク分類の局面を示す図である。
【図16】横長ページに関する標準偏差曲線を示す図で
ある。
【図17】イメージの座標入れ替えの効果を示す図であ
る。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】基準方向に対する文書ページの傾きの角度
    を検出する方法であって、 ページを走査するステップと、 傾きの角度を表す電子的イメージの複数の点を選択する
    ステップと、 パラメータ空間に度数分布を構築するため、行の傾斜の
    角度を表す行傾斜パラメータ(θ)および第2のパラメ
    ータ(ρ)を含む行についての方程式を活用するホック
    変換法を使用してパラメータ空間に上記選択した複数の
    点をマップするステップと、 選択した複数の点をマップする上記ステップの結果を分
    析して、傾き角度を示す度数分布のピークの存在を判別
    するステップと、 を含み、 上記判別するステップが、上記行傾斜パラメータ(θ)
    の値それぞれ毎に、 上記選択したイメージの点に関する上記第2のパラメー
    タ(ρ)の値を計算して、パラメータ空間における度数
    分布を更新する動作を、上記選択したイメージの複数の
    点それぞれについて繰り返すステップと、 上記度数分布更新のそれぞれの結果を統計的に分析し、
    後続の度数分布ピークの分析における使用のため上記度
    数分布更新のそれぞれの結果を表わす値を計算して記憶
    するステップと、 を更に含む、 文書ページの傾きの角度を検出する方法。
JP7201046A 1994-09-15 1995-08-07 ページ傾き検出方法 Pending JPH0896072A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB94306760.3 1994-09-15
EP94306760A EP0702320A1 (en) 1994-09-15 1994-09-15 Skew detection

Publications (1)

Publication Number Publication Date
JPH0896072A true JPH0896072A (ja) 1996-04-12

Family

ID=8217847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7201046A Pending JPH0896072A (ja) 1994-09-15 1995-08-07 ページ傾き検出方法

Country Status (2)

Country Link
EP (1) EP0702320A1 (ja)
JP (1) JPH0896072A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002358514A (ja) 2000-12-14 2002-12-13 Ricoh Co Ltd 画像歪み補正装置、プログラム、記憶媒体、画像歪み補正方法、画像読取装置および画像形成装置
JP4162633B2 (ja) * 2004-06-30 2008-10-08 株式会社リコー 画像歪み補正装置、画像読取装置、画像形成装置、プログラム及び記憶媒体
US7650041B2 (en) * 2006-02-24 2010-01-19 Symbol Technologies, Inc. System and method for optical character recognition in an image
CN101789122B (zh) * 2009-01-22 2013-06-26 佳能株式会社 用于校正畸变文档图像的方法和系统
CN101567086B (zh) * 2009-06-03 2014-01-08 北京中星微电子有限公司 一种车道线检测方法及其设备
CN104035081A (zh) * 2014-06-04 2014-09-10 杭州电子科技大学 基于角度映射与遍历Hough变换的多目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9022483D0 (en) * 1990-10-17 1990-11-28 Int Computers Ltd Detecting skew in digitised images

Also Published As

Publication number Publication date
EP0702320A1 (en) 1996-03-20

Similar Documents

Publication Publication Date Title
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
US6839466B2 (en) Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding
EP1081648B1 (en) Method for processing a digital image
US5048099A (en) Polygon-based method for automatic extraction of selected text in a digitized document
Song et al. A Hough transform based line recognition method utilizing both parameter space and image space
Shi et al. Text extraction from gray scale historical document images using adaptive local connectivity map
US5892854A (en) Automatic image registration using binary moments
US6965703B1 (en) Optical scanner and software for correcting distorted images
JPH07192086A (ja) 画像傾き検出方法
EP0540518A1 (en) Bi-tonal image non-text matter removal with run length and connected component analysis
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN111444907B (zh) 文字识别的方法、装置、设备及存储介质
US20030012438A1 (en) Multiple size reductions for image segmentation
Shneier Using pyramids to define local thresholds for blob detection
JP4392907B2 (ja) 文字切出し方法
EP0949580A2 (en) Classification-driven thresholding of a normalized grayscale image
JPH0896072A (ja) ページ傾き検出方法
WO2000049569A1 (fr) Procede servant a extraire les caracteristiques d&#39;une image binaire
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
KR100350854B1 (ko) 이진 영상 회전 시스템 및 그 방법
JP2004094427A (ja) 帳票画像処理装置及び該装置を実現するためのプログラム
CN118097697B (en) Processing method, device and equipment for form image
JP2674286B2 (ja) 特徴抽出方式
EP0974931A1 (en) Method and apparatus for identifying a plurality of sub-images in an input image
CN105513044A (zh) 一种基于统计度量直线特征的数字直线段识别方法