JP3335844B2 - 文字列方向推定方法および装置 - Google Patents

文字列方向推定方法および装置

Info

Publication number
JP3335844B2
JP3335844B2 JP21641496A JP21641496A JP3335844B2 JP 3335844 B2 JP3335844 B2 JP 3335844B2 JP 21641496 A JP21641496 A JP 21641496A JP 21641496 A JP21641496 A JP 21641496A JP 3335844 B2 JP3335844 B2 JP 3335844B2
Authority
JP
Japan
Prior art keywords
character string
vertical
string direction
character
estimating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21641496A
Other languages
English (en)
Other versions
JPH1063776A (ja
Inventor
裕 勝山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP21641496A priority Critical patent/JP3335844B2/ja
Publication of JPH1063776A publication Critical patent/JPH1063776A/ja
Application granted granted Critical
Publication of JP3335844B2 publication Critical patent/JP3335844B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文字認識装置におい
て、読み取り領域が手動でまたは自動的に指定された後
に、その中に記載されている文字列の方向を自動的に求
める文字列方向推定方法および装置に関する。
【0002】
【従来の技術】文字列の方向を自動的に求める技術とし
て、従来から下記の技術が知られている。 (1)空間周波数を求めるもの。文字画像についてフー
リエ変換等の直交変換を行い空間周波数を求めて、縦書
き、横書きを決定するもの(例えば、特開昭59−04
3468号公報、特開平05−89284号公報参
照)。
【0003】(2)縦横への黒画素の投影結果を用いる
もの。文字画像中の黒画素を適当な縦軸、横軸へ投影
し、できたヒストグラムを元に縦書き、横書きを判定す
るもの(例えば、特開昭61−160180号公報、特
開平03−4386号公報、特開平05−35910号
公報等参照)。 (3)白ランの幅を用いるもの。文字画像から白画素が
連続しているもの(白ラン)を抽出して、隣接している
白ランの幅を求めることで、縦書き、横書きを決定する
もの(例えば、特開平04−288689号公報、特開
平05−35908号公報、特開平05−35909号
公報等参照)。
【0004】(4)画像の相関を用いるもの。黒画素の
縦方向の相関と、横方向の相関を求め比較することで、
縦書き、横書きを決定するもの(例えば、特開昭58−
140868号公報参照)。 (5)文字認識結果を使うもの。文字領域を求め、その
中から文字を抽出し、予め文字パターンを0,90,1
80,270度に回転した辞書を用意しておき、そのそ
れぞれと入力文字とのマッチングを行い、最も類似して
いる辞書の回転角から文字列の方向を求めるもの(例え
ば、特開平01−177179号公報、特開平04−3
3081号公報、特開平07−21318号公報等参
照)。
【0005】(6)文字間隔を使うもの。 縦/横の文字間隔で、一定である割合を求め、その
情報から方向を決定する。縦方向より横方向の割合が大
きい場合には、横書きと判断する。割合がほぼ同じ場合
には、縦横の文字間隔の大小を比較して方向を決定する
(例えば、特開平04−290185号公報参照)。 黒画素連結の外接矩形を求め、一つの矩形からみ
て、矩形間の距離から最も近い別の矩形を求める。その
矩形の位置が元の矩形からみて、水平方向にある場合に
は、水平カウンタをインクリメントし、垂直方向にある
場合には、垂直カウンタをインクリメントする。これを
全矩形で行い、水平カウンタと垂直カウンタの値から縦
書き、横書きを決定するもの(例えば、特開平05−7
3718号公報参照)。
【0006】
【発明が解決しようとする課題】上記した従来技術はそ
れぞれ次のような問題点をもっていた。 (1)空間周波数を用いるもの。計算量が大きく、空間
周波数が綺麗にでないので、有効でない。 (2)縦横への黒画素の投影結果を用いるもの。複雑な
画像では投影結果からでは文字列方向を決定できない。 (3)白ランの幅を用いるもの。白ランが有効にでな
い。複雑な画像では有効でない。 (4)画像の相関を用いるもの。計算量が大きく処理時
間がかかる。また、複雑な画像では空間周波数が綺麗に
でないので有効でない。 (5)文字認識結果を用いるもの。文字認識結果に依存
してしまう。また、計算量が大きく処理時間がかかる。
【0007】すなわち、上記(1)〜(5)の技術は、
基本的に複雑な画像に対応できないか、または、処理時
間が非常にかかってしまうという問題点がある。そのた
め、上記(6)のような黒画素連結領域の外接矩形を基
本情報とするような技術が必要となる。しかし、(6)
の技術はそれぞれ次のような問題点がある。
【0008】(6)文字間隔を用いるもの。 縦/横の文字間隔で、一定である割合を求め、その
情報から方向を決定する。横書きの文書を考えた場合、
文字間隔と行間隔を比較すると行間隔の方が文字間隔よ
り安定していて一定間隔になる場合が多い(例えば、雑
誌の本文の英語が混じったものなど)。特開平04−2
90185号公報によると、間隔の一定割合が多い方の
方向が文字列の方向であるので、上記の場合は誤ること
となる。
【0009】 黒画素連結の外接矩形を求め、一つの
矩形からみて、矩形間の距離から最も近い別の矩形を求
める。特開平05−73718号公報に記載されるもの
は、黒画素連結領域の外接矩形を求め矩形に最も近い矩
形の方向から文字列方向を求めるものであり、殆どの場
合正しく文字列を求められると考えられるが、この方法
だけでは文字間隔と行間隔が近くなった場合に不安定と
なる。本発明は上記した従来技術の問題点を考慮してな
されたものであり、その目的とするところは、複雑な画
像からでも、比較的高速に正しい文字列方向を求めるこ
とができる文字列方向推定方法および装置を提供するこ
とである。
【0010】
【課題を解決するための手段】図1は本発明の原理図で
ある。本発明は図1の(a) 〜(l) のようにして文字列方
向を抽出する(下記(a) 〜(l))は図1の(a) 〜(l) に対
応する)。 (a) 文書を読み込み、画像データを生成する。 (b) 文書画像を表示してユーザが処理領域を指定する
か、あるいは、自動文字領域抽出により処理領域を抽出
する。 (c) 文書画像中の黒画素連結領域を求めることにより、
その外接矩形を求め、その高さまたは幅の最頻値を求め
る。そして、重複した矩形を一つの矩形に統合し、外接
矩形を抽出する。 (d) 外接矩形の縦方向、横方向の投影を求め、縦/横方
向の線密度特徴を抽出する。
【0011】(e) 上記縦/横方向の線密度特徴から縦方
向、横方向文字列数の推定を行う。縦方向、横方向文字
列数は次のようにして推定することができる。 縦/横方向について、しきい値より大きい線密度の
山の数をカウントするとともにその最後の山の幅を求
め、上記カウント値、および山の幅から縦/横方向の文
字列数を推定する。 縦/横方向の線密度の最大値を求め、その縦/横方
向の線密度の最大値の大小関係から仮に文字列の方向を
推定し、その推定結果を利用して、縦方向あるいは横方
向について、しきい値より大きい線密度の山の数をカウ
ントし、文字列数を推定する。 (f) 上記(e) により推定した文字列数が1であるかを調
べる。 (g) 文字列数が1の場合には、上記(e) の結果を用いて
線密度特徴から文字列方向を決定する。 (h) 文字列数が1でない場合には、外接矩形の縦、横方
向の距離の累積値(あるいは平均距離値)の比を抽出す
る。
【0012】(i) 上記比が所定範囲内であるかを調べ
る。 (j) 上記比が所定範囲内でないときには、上記(h) で求
めた外接矩形の縦、横方向の距離の累積値(あるいは平
均距離値)の比から文字列方向を決定する。 (k) 上記比が所定範囲内のときには文字列方向が不安定
なので、外接矩形の水平方向、垂直方向の重複値の累計
を求める。 (l) 上記水平方向、垂直方向の重複値の累計値から文字
列方向を決定する。
【0013】以上のように、本発明においては、次のよ
うにして前記課題を解決する。 (1)文書を画像データに変換して、文書画像を生成
し、この文書画像における黒画素連結領域の外接矩形を
元にして、該外接矩形を縦方向、および横方向に投影し
た線密度特徴を求めて、縦方向もしくは横方向の文字列
数の推定を行うとともに、上記外接矩形の縦方向および
横方向の距離値の累計値の比を求め、上記文字列数と、
距離値の累計値の比に基づき文字列方向を推定する。 ()上記(1)において、線密度特徴から文字列数の
推定を行い、推定された文字列数が1のとき線密度特徴
から文字列方向を推定し、上記線密度特徴から推定され
た文字列数が2以上の場合、外接矩形の縦方向および横
方向の距離値の累計値の比により文字列方向を推定す
る。 ()上記(1)(2)において、縦方向と横方向の線
密度特徴の最大値を比較することにより、文字列方向の
推定を行う。 ()上記(1)(2)(3)において、黒画素連結領
域の外接矩形の間の縦横方向の平均距離値の比によって
文字列方向を推定する。 ()上記(1)(2)(3)(4)において、黒画素
連結領域の外接矩形の重複値を計算し、該重複値を用い
て文字列方向を推定する。 ()上記()において、平均距離値の比が一定範囲
内のとき、黒画素連結領域の外接矩形の重複値を用いて
文字列方向を推定する。 ()文書を画像データに変換し、得られた文書画像か
ら必要とする部分領域を取り出して、文字列方向を推定
する文字列方向推定装置において、上記文書画像におけ
る黒画素連結領域の外接矩形を求める外接矩形生成手段
と、上記外接矩形を縦方向、および横方向に投影した線
密度特徴を求める線密度特徴生成手段と、上記外接矩形
の縦方向および横方向の距離値の累計値の比を求める距
離累計値比算出手段と、上記線密度特徴生成手段により
生成された線密度特徴から文字列数を推定し、該文字列
および距離累計値比算出手段により算出された距離値
の累計値の比に基づき文字列方向を推定する文字列方向
推定手段とを設ける。
【0014】本発明の請求項1〜の発明は、上記
(1)〜()のように外接矩形の線密度特徴と、外接
矩形の縦/横方向の距離値の累積値(距離平均値)の比
を用いて文字列方向を推定しているので、複雑な文字画
像であっても、また、文字間隔と行間隔が近い場合であ
っても、指定された領域内の文字列方向を高速にかつ正
確に推定することができる。特に、線密度特徴から文字
列数を推定し、文字列数の推定値を用いて文字列方向を
推定しているので、文字列数に応じた処理を行うことが
でき、処理速度を高速化し、正確に文字列方向を推定す
ることができる。
【0015】また、文字列数の推定値が1のとき線密度
特徴から文字列方向を抽出し、文字列数の推定値が1で
ないときに、外接矩形の縦/横方向の距離値の累積値
(距離平均値)の比を用いて文字列方向を抽出すること
により、文字列数が1の場合の処理を高速化することが
できる。さらに、外接矩形の平均距離値の比が一定範囲
内のとき、外接矩形の重複値を用いて文字列方向を推定
することにより、文字列方向か不安定な場合であっても
文字列方向を高速かつ正確に推定することができる。
【0016】
【発明の実施の形態】図2は本発明の実施の形態のシス
テム構成図であり、1はスキャナー、FAX等の文書画
像情報を読み取る光電変換装置、2はディスプレイ端
末、3はプロセッサ、4はデータ、プログラム等を格納
するメモリである。上記光電変換装置1、ディスプレイ
端末2、プロセッサ3、メモリ4はバス5を介して接続
されている。同図において、光電変換装置1で読み取ら
れた文書画像情報(以下画像データという)は、バス5
を介してメモリ4に格納される。プロセッサ3はメモリ
4に格納された画像データを読み出し、後述する処理を
行って文字列方向を判定する。
【0017】図3は本発明の実施例の全体処理を示すフ
ローチャート、図4〜図7はその詳細処理を示すフロー
チャートであり、図3〜図7により本発明の実施例を説
明する。図3のステップS1において、まずスキャナ等
の光電変換装置1で文書を読み込み、読み込んだ画像デ
ータをメモリ4に格納する(画像入力処理)。ついで、
ステップS2において、読み込んだ文書画像をディスプ
レイ端末2に表示し、ユーザに処理領域を指定してもら
う(処理領域抽出処理)。なお、ユーザが処理領域を指
定する代わりに、自動文字領域抽出処理を行い処理領域
の自動抽出をしてもよい。上記のように処理領域が指定
されると、プロセッサ3は次のような処理を行って文字
列方向を抽出する。
【0018】ステップS3において、指定された領域か
らラベリングを使って黒画素連結領域を求め、その外接
矩形を求める(黒画素連結領域抽出処理)。黒画素連結
領域を求めるには、2値化されている画像データの黒画
素を8連結で走査し(一つの黒画素の上、下、左、右、
左上、左下、右上、右下の8方向を走査して隣接黒画素
があるかを調べる)、連結がある場合には、それらの黒
画素に同一のラベル値を与えることにより黒画素連結領
域を生成する。
【0019】次に、ステップS4において、上記のよう
にして得られた外接矩形の高さ、または幅の代表値most
freq 〔例:最も頻度の多い値(最頻値)〕を求める
(外接矩形の高さ/幅の最頻値抽出処理)。そのため、
外接矩形の高さまたは幅の頻度分布を表すヒストグラム
を作成する。例えば、横軸が各外接矩形の高さまたは
幅、縦軸がその高さまたは幅を持つ矩形の数(頻度値)
を表すヒストグラムを作成し、このヒストグラムから矩
形高さの最頻値most freq を求める。なお、図3のステ
ップS4〜ステップ7の処理は、本出願人が先に提案し
た特願平7−341983号あるいは特願平6−312
860号に詳述されているので、ここでは簡単に説明す
るが、必要なら上記出願を参照されたい。
【0020】ついで、ステップS5において、重なって
いる外接矩形がある場合、それらを一つに統合する(重
複矩形統合処理)。図8は上記重なっている外接矩形を
統合処理した結果の一例を示す図であり、同図に示すよ
うに、入力された文書の画像データに対して上記処理を
行うことにより文字もしくは文字の各部分の外接矩形が
求まる。ステップS6において、外接矩形の隣接関係と
隣の矩形までの距離を求める(隣接関係抽出処理)。
【0021】すなわち、図9(a)に示すように基準と
なる矩形から上下左右の最も近い矩形を探索し、その矩
形までの距離を求める。そして、求めた距離と上下左右
の矩形へのポインタを図9(b)に示すように基準矩形
のポインタ値としてテーブルに記憶する。図9の場合に
は、基準矩形と上矩形間の距離D1と、基準矩形から上
矩形へのポインタ値P1、上矩形から基準矩形へのポイ
ンタ値P2;基準矩形と下矩形間の距離D2と、基準矩
形から下矩形へのポインタ値P3、下矩形から基準矩形
へのポインタ値P4、…、がテーブルに記憶される。
【0022】ステップS7において、特定の条件を満た
す場合に、上記ステップS6で得た隣接関係を切断する
(隣接関係切断処理)。例えば、図10(a)のa3と
b1あるいはa6とb3のように、矩形間の距離が他の
矩形間の距離より大きく離れている場合、あるいは、図
10(b)の矩形d1に示すように他の矩形c1〜c4
に較べて大きさが異なっている等の場合、隣接関係を切
断する。
【0023】以上の処理が終わると、ステップS8にお
いて本発明の係わる文字列方向抽出処理を行う。図4、
図5は上記文字列方向抽出処理のフローチャートであ
り、同図により文字列方向抽出処理について詳述する。
ステップT1において、処理領域内で、縦方向、横方向
の線密度特徴を求め、それぞれの線密度の最大値yokoma
x ,tatemax を求める(線密度特徴抽出処理)。線密度
は、最初0クリアされた配列領域において、矩形の存在
する領域を配列領域に対して+1する処理である。
【0024】例えば、図11に示すように矩形A〜Dが
配置されているとき、その縦方向のの投影yoko(横軸へ
の投影)、横方向の投影tate(縦軸への投影)は図11
に示すようになり、この縦方向、横方向の投影から、縦
方向投影の最大値tate maxおよび横方向投影の最大値yo
ko maxを求める。ステップT2において、横方向投影、
縦方向投影の線密度特徴から、それぞれの文字列数を計
算するためのしきい値(th yoko 、th tate )を下式に
より算出する。 th yoko =yoko max ×0.1 th tate =tate max ×0.1 なお、しきい値の算出係数は0.1に限定されるもので
はなく、その他の値を用いてもよい。また、予め設定さ
れた一定値をしきい値として用いてもよい。
【0025】ついで、ステップT3において、縦方向の
線密度特徴と縦方向のしきい値から、処理領域内にある
縦方向の文字列の数を推定し、yokocount とする。同時
に最後の文字列の幅yokowidth を算出する。また、横方
向の線密度特徴と横方向のしきい値から、処理領域内に
ある横方向の文字列の数を推定し、tatecount とする。
同時に最後の文字列の幅tatewidthを算出する(処理領
域内方向別文字列数推定処理)。
【0026】図6は上記処理領域内方向別文字列数推定
処理(縦方向の処理)のフローチャートであり、同図に
より図4のステップT3の処理を詳述する。なお、横方
向の処理も図6と同様に行うことができるので、ここで
は縦方向の処理のみについて説明する。まず、ステップ
R1において、yokocount (縦方向文字列数の推定
値)、yokost (処理最後の山の縦方向線密度の開始座
標)、yoko en (同縦方向線密度の終了座標)、flag
(フラグ)、i (縦方向線密度の座標値:前記図10に
おけるX軸方向の座標値)を0に初期設定し、ステップ
R2において、flag=0であるかを判別する。
【0027】最初はflag=0であるので、ステップR4に
行き、縦方向線密度の座標値0の値yoko[0] (例えば、
前記図10において、X=0のときの横方向線密度の
値)が、前記ステップT2で求めたしきい値th yoko よ
り大きいかを判別する。ステップR4で、yoko[0] >th
yoko であった場合には、ステップR5に行き、flag=
1、yoko st =i、yokocount =yokocount +1とし、
ステップR7に行く。また、ステップR4でyoko[0] ≦
th yoko であった場合には、そのままステップR7に行
き(フラグflag=0のまま)、i がその最大値であるxmax
imumより小さいか判別し、小さい場合にはステップR8
にいき、i=i+1としてステップR2に戻る。
【0028】ステップR2において、フラグflag=0で
あるかを判別し、flag=1のときはステップR3に行
き、yoko[0] ≦th yoko であった場合には、ステップR
6に行き、フラグflagを0にセットするとともに、縦方
向線密度の終了座標yoko en をiにセットし、ステップ
R7に行く。また、yoko[0] >th yoko のときはそのま
まステップR7に行き、上記したようにi がその最大値
であるxmaximumより小さいか判別する。
【0029】以上の処理をiがその最大値xmaximumに達
するまで行う。その結果、縦方向線密度の山の数yokoco
unt と、最後の山の開始座標yoko st および終了座標yo
ko en が求まる。なお、iがその最大値xmaximumに達し
たとき、まだ最後の山が終了していない場合には、フラ
グflagは1のままとなるので、下記のステップR10に
より最後の山の終了座標を求める。
【0030】iがその最大値xmaximumに達すると、ステ
ップR9においてフラグflag=0であるかを判別する。
そして、フラグflag=0の場合には、ステップR11に
行き、yokowidth =yoko en −yoko st +1により最後
の山の幅yokowidth を算出する。また、ステップR9で
フラグflag=1の場合には、ステップR10に行き、yo
ko en =xmaximum−1として、ステップR11に行き、
上記と同様の処理を行い、ステップR12で上記と同様
に、横方向の文字列数tatecount 、最後の文字列の幅ta
tewidth を求める。そして、ステップR13でyokocoun
t 、yokowidth 、tatecount 、tatewidth を出力して終
了する。
【0031】図4に戻り、上記のようにして、縦方向の
文字列数yokocount と最後の文字列の幅yokowidth およ
び横方向の文字列数tatecount と最後の文字列の幅tate
width が求まると、ステップT4において、縦方向の文
字列数yokocount =1であるかを判別する。縦方向の文
字列数yokocount が1の場合には、ステップT5に行
き、縦方向の最後の文字列の幅yokowidth が前記図3の
ステップS4で求めた矩形の幅の最頻値 most freqに近
いか、すなわち、most freq/2 とmost freq ×2 の間に
入っているかを調べる。この条件を満たしている場合に
は、ステップT6に行き、文字列数count =1:tatefl
ag=1にセットして図5のステップT12にいく。
【0032】また、縦方向の文字列数yokocount が1で
ない場合には、ステップT8に行き、横方向の文字列数
tatecount が1であるかを調べる。横方向の文字列数ta
tecount が1の場合には、ステップT9に行き、横方向
の最後の文字列の幅tatewidth が前記図3のステップS
4で求めた矩形の幅の最頻値 most freqに近いか、すな
わち、most freq/2 とmost freq ×2 の間に入っている
かを調べる。この条件を満たしている場合には、ステッ
プT10に行き、文字列数count =1:tateflag=0に
セットして図5のステップT12にいく。
【0033】また、ステップT9において上記条件を満
たしていない場合には、ステップT11に行き、文字列
数count =0にセットして図5のステップT12にい
く。すなわち、縦方向もしくは横方向の文字列数の推定
値(線密度の山の数)が1であって、その幅が前記した
矩形の幅の最頻値 most freqに近い場合、縦方向の文字
列数の推定値が1のときは縦候補としてcount =1,ta
teflag=1にセットし、また、横方向の文字列数の推定
値が1のときは横候補として、count =1,tateflag=
0にセットし、図5のステップT12にいく。
【0034】また、上記条件を満たさない場合には、文
字列数count =0にセットし、図5のステップT12に
いく。図5のステップT12において、文字列数count
が1であるかを調べ、count=1の場合には、ステップ
T21に行きtateflagが1であるか0であるかを調べ
る。そして、tateflag=1のときはステップT22に行
き、文字列方向は縦方向であるとして処理を終了する。
また、tateflag=0のときはステップT23に行き、文
字列方向は横方向であるとして処理を終了する(文字列
方向判定処理1)。
【0035】ステップT12において、文字列数count
が1でない場合には、ステップT13に行き、縦/横平
均矩形間距離抽出処理を行う。すなわち、矩形の代表値
から求めたしきい値以上の矩形に対して、前記図9
(b)に示したテーブルを参照して、上下方向の距離値
の総和、左右方向の総和を求めるとともに、距離値を求
めるのに使った矩形の数を縦方向、横方向で求める。そ
して、縦方向の平均距離値vertmean(=上下方向の距離
値/縦方向の矩形数)、横方向の平均距離値horizmean
(=左右方向の距離値/横方向の矩形数)を求める。
【0036】ついでステップT14において、横方向の
平均距離値/縦方向の平均距離値から平均距離値の比率
rateを算出する(平均距離値比率抽出処理)。ステップ
T15において、上記平均距離値の比率rateが第1のし
きい値th1 (例えば0.8)以上でかつ第2のしきい値th2
(例えは1.25) 以下であるかを調べる。平均距離値の比
率rateが第1のしきい値th1 以下か、あるいは第2のし
きい値th2 以上の場合には、文字列方向が安定している
として、ステップT18に行き、縦方向の平均距離値ve
rtmeanと横方向の平均距離値horizmean の大きさを比較
する。
【0037】そして、vertmean≦horizmean の場合に
は、すなわち、横方向の文字間距離が縦方向の文字間距
離より大きい場合、ステップT19にいき、文字列方向
は縦方向であると決定して処理を終了する。また、vert
mean<horizmean の場合には、すなわち、縦方向の文字
間距離が横方向の文字間距離より大きい場合、ステップ
T20にいき、文字列方向は横方向であると決定して処
理を終了する。一方、平均距離値の比率rateが第1のし
きい値th1 以上でかつ第2のしきい値th2 以下の場合に
は、文字列方向が不安定なので、ステップT16に行
き、重複計算処理を行う。
【0038】図7は、上記重複計算処理のフローチャー
ト、図12は重複計算処理を説明する図であり、図7、
図12により重複計算処理について説明する。図7のス
テップU1において、縦方向の重複幅vdup、横方向の重
複幅hdupを0にクリアする。ステップU2において、一
つの矩形の上にある矩形を求め、元の矩形と上の矩形の
垂直方向に重複する幅をvdupに加える。ステップU3に
おいて、一つの矩形の下にある矩形を求め、元の矩形と
下の矩形の垂直方向に重複する幅をvdupに加える。
【0039】例えば、図12において、矩形Aについ
て、矩形Aの上にある矩形Bと矩形Aとの垂直方向の重
複幅vdup1 をvdupに加え、矩形Aの下にある矩形Dとの
垂直方向の重複幅vdup2 をvdupに加える。ステップU4
において、一つの矩形の左にある矩形を求め、元の矩形
と左の矩形の水平方向に重複する幅をhdupに加える。ス
テップU5において、一つの矩形の右にある矩形を求
め、元の矩形と右の矩形の水平方向に重複する幅をhdup
に加える。例えば、図12において、矩形Aについて、
矩形Aの左にある矩形Eと矩形Aとの水平方向の重複幅
hdup1 をhdupに加え、矩形Aの右にある矩形Dとの水平
方向の重複幅hdup2 をhdupに加える。
【0040】ステップU6において、全ての矩形につい
て処理したかを判別し、全ての矩形についての処理が終
了していない場合には、ステップU2に戻り、上記処理
を繰り返す。上記処理が全ての矩形について終了する
と、ステップU7に行き、求めたvdup、hdupを返し終了
する。
【0041】図5に戻り、上記のようにして縦方向の重
複幅vdup、横方向の重複幅hdupが求まると、ステップT
17において、縦方向の重複幅vdupと横方向の重複幅hd
upの大きさを比較する。そして、hdup≦vdupの場合、す
なわち、縦方向の重複が多い場合には、ステップT19
に行き、文字列方向は縦方向であると決定する。また、
hdup>vdupの場合、すなわち、横方向の重複が多い場合
には、ステップT20に行き、文字列方向は横方向であ
ると決定する(以上のステップT15〜T0:文字列方
向判定処理2)。
【0042】なお、上記実施例では、縦方向の平均距離
値vertmean(=上下方向の距離値/縦方向の矩形数)、
横方向の平均距離値horizmean (=左右方向の距離値/
横方向の矩形数)を求め、横方向の平均距離値/縦方向
の平均距離値から平均距離値の比率rateを算出している
が、文字画像の処理領域における文字数が縦/横で略等
しい場合には上記距離の累計値の比をそのまま用いても
よい。
【0043】図13〜図15は文字列方向抽出処理の第
2の実施例を示す図である。本実施例は上記第1の実施
例における文字列方向抽出処理を簡略化したものであ
り、同図により本発明の第2の実施例を説明する。図1
3のステップQ1において、処理領域内で、縦方向、横
方向の線密度特徴を求め、それぞれの線密度の最大値yo
komax ,tatemax を求める(線密度特徴抽出処理)。
【0044】ステップQ2において、仮文字方向抽出処
理を行う。すなわち、上記縦方向、横方向の線密度特徴
の最大値yokomax ,tatemax を比較し、tatemax ≧yoko
maxの場合には、文字列方向が横方向であると推定してt
ateflag=0にセットし、tatemax <yokomax の場合に
は、文字列方向が縦方向であると推定してtateflag=1
にセットする。ステップQ3において、上記仮文字方向
抽出処理結果を用いて、文字列数を推定し、文字列数推
定値count を求める(処理領域内文字列数推定処理)。
【0045】図15は上記処理領域内文字列数推定処理
の詳細を示すフローチャートであり、同図により、本実
施例の処理領域内文字列数推定処理について説明する。
ステップP1において、しきい値thcount を算出する。
すなわち、文字列方向が横方向であると推定されtatefl
ag=0の場合には、しきい値thcount を例えばtatemax
/2に設定し、文字列方向が縦方向であると推定されtate
flag=1の場合には、しきい値thcount を例えばyokoma
x /2に設定する。
【0046】ステップP2において、tateflag=1であ
るかを調べ、tateflag=1の場合には、ステップP3に
おいて、縦方向投影線密度特徴の分布から上記しきい値
thcount より大きい部分の個数を求め、これを縦方向の
文字列数の推定値count とする。また、tateflag=0の
場合には、ステップP4において、横方向投影線密度特
徴の分布から上記しきい値thcount より大きい部分の個
数を求め、これを横方向の文字列数の推定値count とす
る。そしてステップP5で上記count 値を返して終了す
る。
【0047】図13に戻り、ステップQ4において、上
記文字列数の推定値count が1であるか否かを判別す
る。以下、図13、図14のステップQ5からステップ
Q15までの処理は前記した図5のステップT13から
ステップT23までの処理と同じであり、count =1の
場合には、tateflagが1のとき文字列方向が縦方向、ta
teflagが0のとき文字列方向が横方向と決定する(文字
列方向判定処理1)。また、count =1でない場合に
は、縦/横平均距離値を抽出し、その比および縦/横重
複値vdup,hdupにより文字列方向を決定する(文字列方
向判定処理2)。
【0048】
【発明の効果】以上説明したように本発明においては、
指定された領域内の文字列方向を高速かつ正確に抽出す
ることができる。また、領域内の文字列が多少傾いてい
る場合であっても正確な文字列方向の抽出が可能とな
る。このため、文字認識処理等において、文字列抽出を
行う場合に正しい文字列の抽出が可能となり、その結
果、認識結果の文字並びが正しくなる。
【図面の簡単な説明】
【図1】本発明の原理図である。
【図2】本発明の実施の形態のシステム構成図であり
【図3】本発明の実施例の全体処理を示すフローチャー
トである。
【図4】第1の実施例の文字列方向抽出処理(その1)
を示す図である。
【図5】第1の実施例の文字列方向抽出処理(その2)
を示す図である。
【図6】第1の実施例の方向別文字列数推定処理(縦方
向の処理)を示す図である。
【図7】重複計算処理を示す図である。
【図8】重なっている外接矩形を統合処理した結果の一
例を示す図である。
【図9】外接矩形間距離と矩形間距離を格納するテーブ
ルを説明する図である。
【図10】隣接関係切断処理を説明する図である。
【図11】縦方向、横方向の線密度特徴を説明する図で
ある。
【図12】重複計算処理を説明する図である。
【図13】第2の実施例の文字列方向抽出処理(その
1)を示す図である。
【図14】第2の実施例の文字列方向抽出処理(その
2)を示す図である。
【図15】第2の実施例の処理領域内文字列数推定処理
を示す図である。
【符号の説明】
1 光電変換装置 2 ディスプレイ端末 3 プロセッサ 4 メモリ 5 バス

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書を画像データに変換して、文書画像
    を生成し、 上記文書画像における黒画素連結領域の外接矩形を元に
    して、該外接矩形を縦方向、および横方向に投影した線
    密度特徴を求めて、縦方向もしくは横方向の文字列数の
    推定を行うとともに、上記外接矩形の縦方向および横方
    向の距離値の累計値の比を求め、上記文字列数と、 距離値の累計値の比に基づき文字列方
    向を推定することを特徴とする文字列方向推定方法。
  2. 【請求項2】 線密度特徴から文字列数の推定を行い、
    推定された文字列数が1のとき線密度特徴から文字列方
    向を推定し、 上記線密度特徴から推定された文字列数が2以上の場
    合、外接矩形の縦方向および横方向の距離値の累計値の
    比により文字列方向を推定することを特徴とする請求項
    1の文字列方向推定方法。
  3. 【請求項3】 縦方向と横方向の線密度特徴の最大値を
    比較することにより、文字列方向の推定を行うことを特
    徴とする請求項1または請求項2の文字列方向推定方
    法。
  4. 【請求項4】 黒画素連結領域の外接矩形の間の縦横方
    向の平均距離値の比によって文字列方向を推定すること
    を特徴とする請求項1,2または請求項3の文字列方向
    推定方法。
  5. 【請求項5】 黒画素連結領域の外接矩形の重複値を計
    算し、該重複値を用いて文字列方向を推定することを特
    徴する請求項1,2,3または請求項4の文字列方向推
    定方法。
  6. 【請求項6】 平均距離値の比が一定範囲内のとき、黒
    画素連結領域の外接矩形の重複値を用いて文字列方向を
    推定することを特徴する請求項の文字列方向推定方
    法。
  7. 【請求項7】 文書を画像データに変換し、得られた文
    書画像から必要とする部分領域を取り出して、文字列方
    向を推定する文字列方向推定装置であって、 上記文書画像における黒画素連結領域の外接矩形を求め
    る外接矩形生成手段と、 上記外接矩形を縦方向、および横方向に投影した線密度
    特徴を求める線密度特徴生成手段と、 上記外接矩形の縦方向および横方向の距離値の累計値の
    比を求める距離累計値比算出手段と、 上記線密度特徴生成手段により生成された線密度特徴
    ら文字列数を推定し、、該文字列数および距離累計値比
    算出手段により算出された距離値の累計値の比に基づき
    文字列方向を推定する文字列方向推定手段とを備えたこ
    とを特徴とする文字列方向推定装置。
JP21641496A 1996-08-16 1996-08-16 文字列方向推定方法および装置 Expired - Fee Related JP3335844B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21641496A JP3335844B2 (ja) 1996-08-16 1996-08-16 文字列方向推定方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21641496A JP3335844B2 (ja) 1996-08-16 1996-08-16 文字列方向推定方法および装置

Publications (2)

Publication Number Publication Date
JPH1063776A JPH1063776A (ja) 1998-03-06
JP3335844B2 true JP3335844B2 (ja) 2002-10-21

Family

ID=16688194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21641496A Expired - Fee Related JP3335844B2 (ja) 1996-08-16 1996-08-16 文字列方向推定方法および装置

Country Status (1)

Country Link
JP (1) JP3335844B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4590433B2 (ja) * 2007-06-29 2010-12-01 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP4402138B2 (ja) 2007-06-29 2010-01-20 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP5197694B2 (ja) * 2010-08-31 2013-05-15 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
WO2018037520A1 (ja) * 2016-08-24 2018-03-01 株式会社Pfu モバイル端末、画像処理方法、および、プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3090342B2 (ja) * 1991-05-30 2000-09-18 株式会社東芝 文字列方向判別装置
JPH06187489A (ja) * 1992-12-17 1994-07-08 Matsushita Electric Ind Co Ltd 文字認識装置
JP3837193B2 (ja) * 1996-05-13 2006-10-25 松下電器産業株式会社 文字行抽出方法および装置

Also Published As

Publication number Publication date
JPH1063776A (ja) 1998-03-06

Similar Documents

Publication Publication Date Title
CN110147774B (zh) 表格式图片版面分析方法和计算机存储介质
US7362917B2 (en) Apparatus and method for correcting distortion of input image
US6016148A (en) Automated mapping of facial images to animation wireframes topologies
US6804398B2 (en) Method of describing object region data, apparatus for generating object region data, video processing apparatus and video processing method
KR102434406B1 (ko) 공간 구조 인식을 통한 증강 현실 장치 및 그 방법
US6914599B1 (en) Image processing apparatus
US7227557B2 (en) Method, system and record medium for generating wide-area high-resolution image
EP3367334B1 (en) Depth estimation method and depth estimation apparatus of multi-view images
US5892854A (en) Automatic image registration using binary moments
EP0843275A2 (en) Pattern extraction apparatus and method for extracting patterns
CN110795925B (zh) 基于人工智能的图文排版方法、图文排版装置及电子设备
CN101101505A (zh) 一种实现三维增强现实的方法及系统
JPH0685183B2 (ja) 2次元像による3次元物体の同定方法
JP3335844B2 (ja) 文字列方向推定方法および装置
JP2005071344A (ja) 画像処理方法、画像処理装置及び画像処理プログラムを記録した記録媒体
JPH11250273A (ja) 画像合成装置
JP2003512802A (ja) 三次元モデリングのためのシステム及び方法
US5821942A (en) Ray tracing through an ordered array
JP2821303B2 (ja) 掠れ文字結合方式
JPH09330403A (ja) テンプレートマッチング方法
JPH06168341A (ja) 3次元形状モデル処理方法及びその装置
Shinagawa et al. Characterizing images based on lines for image indexing
Rosin et al. Multi-Scale Salience Distance Transforms.
KR100249617B1 (ko) 거리 영상 파일 분류/검색 장치
Fromherz et al. Multiple Depth Maps for Face Matching under Varying View

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020723

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080802

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090802

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090802

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100802

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110802

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120802

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120802

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130802

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees