JPH0679348B2 - 行切り出し方法 - Google Patents

行切り出し方法

Info

Publication number
JPH0679348B2
JPH0679348B2 JP61310411A JP31041186A JPH0679348B2 JP H0679348 B2 JPH0679348 B2 JP H0679348B2 JP 61310411 A JP61310411 A JP 61310411A JP 31041186 A JP31041186 A JP 31041186A JP H0679348 B2 JPH0679348 B2 JP H0679348B2
Authority
JP
Japan
Prior art keywords
histogram
line
mountain portion
sequence
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP61310411A
Other languages
English (en)
Other versions
JPS63158677A (ja
Inventor
秀明 田中
守啓 桂田
峰弘 紺矢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61310411A priority Critical patent/JPH0679348B2/ja
Publication of JPS63158677A publication Critical patent/JPS63158677A/ja
Publication of JPH0679348B2 publication Critical patent/JPH0679348B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 <産業上の利用分野> この発明は、英数字OCR(光学的文字読み取り装置)等
における行の切り出し方法に関する。
<従来の技術> 従来、英数字OCRにおいて行の切り出しを行う場合は、
第3図に示すように、入力画像を水平方向に所定の間隔
でN分割(Nは任意の整数)して得られる矩形領域で、
画像の一定値以上の濃度値を水平方向にカウントして得
られる出現確率の垂直方向の分布(ヒストグラム)を求
め、上記ヒストグラムを一定しきい値で複数の山部に分
割し、上記山部の間の平坦部をもって行間スペースとし
て行切り出しを行うようにしている。この方法によれ
ば、入力画像を水平方向にN分割して得られる複数の矩
形領域内で水平方向ヒストグラムを求め、得られる複数
のヒストグラムから行間スペースを検出しているので、
第3図のように原稿が傾いて入力されても行間スペース
を確保することが可能であり、行切り出しを行うことが
できる。
<発明が解決しようとする問題点> ところが、上記従来の行切り出し方法では、ヒストグラ
ムの山部の間の平坦部を行間スペースとして行切り出し
を行っているため、第4図に示すように、特にアルファ
ベットでは任意の行に「g」,「j」,「p」,「q」
および「y」等の行の基準線から下側にはみ出す文字が
あり、かつ、次の行に文字や「f」,「h」,「k」お
よび「l」等の背の高い文字がある場合は行間スペース
が得られなく、したがって、得られるヒストグラムから
行の位置を表わす山部を正確に分離することができない
という問題がある。また第4図のように、行間にキズや
汚れ等のノイズが存在する場合も、上記キズや汚れも文
字としてヒストグラムが得られるので行間スペースが得
られなく、同様に行の位置を表わす山部を正確に分離す
ることができないという問題がある。
そこで、この発明の目的は、文字の形状やノイズのため
行間スペースが得られなく、しかも、原稿が傾いた状態
で入力された入力画像であっても行間の位置を確実に検
出して、行切り出しを行うことができる英数字OCR等で
の行切り出し方法を提供することにある。
<問題点を解決するための手段> 上記目的を達成するために、この発明における行切り出
し方法は、入力された画像を、上記画像の上辺または下
辺にほぼ垂直な直線で所定間隔に分割し、得られる矩形
領域内について水平方向のヒストグラム列を作成するヒ
ストグラム作成手段と、上記ヒストグラム作成手段によ
って作成された上記矩形領域内のヒストグラム列のうち
隣接する矩形領域から得られた2つのヒストグラム列の
中から、同一水平線上に存在する一対のヒストグラムの
山部を抽出し、上記一対のヒストグラムの山部の一方の
幅が他方の幅の一定倍以上か否かを判別するヒストグラ
ム判別手段と、上記ヒストグラム判別手段によって、同
一水平線上に存在する一対のヒストグラムの山部であ
り、かつ上記山部の幅が他方の山部の幅の上記一定倍以
上であると判別さたヒストグラムの山部の傾き列を最良
近似直線を用いて求める傾き列算出手段と、上記傾き列
算出手段によって算出された傾き列および上記ヒストグ
ラム作成手段によって作成された当該傾き列に対応する
ヒストグラム列に基づいて、上記ヒストグラムの山部に
存在する谷部のうち最も低いヒストグラム値を呈する谷
部の位置を検出して行切断位置を判定する行切断位置判
定手段と、上記行切断位置判定手段によって判定された
行切断位置で行を切断する行切断手段とを備えて、上記
ヒストグラム判別手段によって、上記ヒストグラム作成
手段によって作成されたヒストグラム列のうち同一水平
線上に隣接して存在する一対の山部の、一方の山部にお
ける幅が他方の山部の幅の上記一定倍以上であると判別
されたときに、上記一方の山部の行切断位置を上記傾き
列算出手段による傾き列算出結果およびヒストグラム作
成手段からのヒストグラム列に基づいて上記行切断位置
判定手段によって判定し、上記行切断位置判定手段の判
定結果に基づいて上記行切断手段によって行を切断する
ことを特徴としている。
<作用> 入力された画像を、上記画像の上辺または下辺に垂直な
直線で所定間隔に分割して得られる矩形領域内の、水平
方向のヒストグラム列がヒストグラム作成手段によって
作成される。上記ヒストグラム作成手段によって作成さ
れたヒストグラム列のうち隣接する矩形領域から得られ
る2つのヒストグラム列の中から、ヒストグラム判別手
段によって同一水平線上に存在する一対のヒストグラム
列の山部が抽出され、一方の山部の幅が他方の山部の幅
の一定倍以上か否かが判別される。その結果、上記一定
倍以上であると判別された山部の傾き列が、傾き列算出
手段によって最良近似直線を用いて算出され、この傾き
列算出結果および上記ヒストグラム作成手段からの当該
傾き列に対応するヒストグラム列に基づいて上記山部に
存在する谷部のうち最も低いヒストグラム値を呈する谷
部の位置が行切断位置判定手段によって検出されて行切
断位置として判定される。そして、上記山部は上記行切
断位置判定手段によって行切断位置と判定された位置で
上記行切断手段によって切断される。
したがって、文字の形状やノイズのために行間スペース
がないと判断される画像や、行が傾いた状態の画像であ
っても、行間の位置が確実に検出されて容易に行切り出
しができる。
<実施例> 以下、この発明を図示の実施例により詳細に説明する。
第1図はこの発明の実施例のブロック図である。イメー
ジスキャナ7は本体10のCPU(中央処理装置)1の制御
により原稿等に記載された文字等のアナログ画像を走査
して読み取り、光電変換してディジタル画像を表わすデ
ィジタル信号を出力する。さらに、上記本体10は上記CP
U1に制御されて各種情報を記憶する、画像メモリ2,ヒス
トグラムバッファメモリ3,傾きバッファメモリ4を有
し、上記画像メモリ2は上記イメージスキャナ7より出
力されるディジタル画像のディジタル信号を記憶する。
上記ヒストグラムバッファメモリ3は、上記CPU1によっ
て後に詳しく述べる方法で求められる、上記デイジタル
画像のヒストグラム列を記憶する。また、上記傾きバッ
ファメモリ4は、上記CPU1によって後に詳しく述べる方
法で求められるヒストグラムの山部の傾き列を記憶す
る。キーボード6は上記CPU1に対する制御指示等をキー
入力するためのものであり、CRTディスプレイ装置5は
上記CPU1の指示により各種の処理結果等を表示する。
上記構成の英数字OCRは第2図のフローチャートに従っ
て次のように行切り出しを実行する。
ステップS1で画像メモリ2に記憶されているディジタル
画像を表わすディジタル信号よりヒストグラム列を求め
る。
上記ヒストグラム列は上記CPU1によって次のようにして
求められる。ここで、実際にヒストグラム列を求める場
合は、ディジタル処理によって行なわれるが、説明を解
りやすくするためにアナログ画像の図を用いて説明す
る。上記画像メモリ2に記憶されているディジタル画像
を表わすディジタル信号に基づいて、第3図に示すよう
に、入力画像を図中水丙方向に所定の間隔でN分割(こ
の実施例においては128画素ごとに分割)し、矩形A,B,
C,…を得る。得られた上記矩形A,B,C,…の矩形領域内で
のヒストグラム列は、上記矩形領域内において各水平方
向の画素列の単位で、画像の一定値以上の濃度値を水平
方向にカウントして得られる出現確率の値hjを求め、上
記値hjの上記矩形領域内垂直方向の分布Ho={h1,h2,
…}で求められる。したがって、上記ヒストグラム列を
グラフに表わすことによって第3図に示すようにヒスト
グラムが得られる。このように、上記ヒストグラム列を
一定しきい値で複数のヒストグラムの山部に分割し、上
記山部の間をもって行間スペースとする。この行間スペ
ースを有するヒストグラム列を上記ヒストグラムバッフ
ァメモリ3に格納する。
以下、行の切り出し・統合のルーチンの説明に入るが、
ここでは1つの行の切り出し・統合についてのみ述べ
る。
ステップS2で、隣接する矩形(例えば、A,B)に夫々存
在する任意の行が一つの行として統合できるか否かが判
別され、その結果統合できる場合はステップS6に進み、
統合できない場合はステップS3に進む。
ここで、上記統合可否の判別は上記CPU1によって次のよ
うにして判別される。まず、第3図において上記ヒスト
グラムバッファメモリ3に格納されている隣接矩形領域
A,Bから得られたヒストグラム列の中から、同一水平線
上に存在する(水平方向に移動して重ね合わせることが
できる)一対のヒストグラムの山部11,12を抽出する。
次に、上記一対の山部11,12の一方の山部11の幅W1が他
方の山部12の幅W2の例えば1.5倍以上か否かを判別し、
その結果、1.5倍以上であれば、山部11は矩形領域A内
の次の行を表わすヒストグラムの山部13と連続している
可能性があり、山部11の基となる行“Through"と山部12
の基となる行“the ages me"とはそのまま一つの行とし
て統合することはできないと判別する。また、そうでな
ければ上記行“Through"と行“theages me"とは一つの
行“Through the ages me"として統合できると判別す
る。
ステップS3で、上記ステップS2で第4図に示すように、
山部15の幅W3が山部16の幅W4の1.5倍以上であり一つの
行として統合できないと判別されたときは、第5図に示
すように上記山部15の曲線上における複数の水平方向の
画素列i(=1,2,…n)に対する位置で傾き列が算出さ
れ、ステップS4に進む。
ここで、上記傾きは上記CPU1により、山部15のヒストグ
ラム列を用いて最良近似値線の傾きで求められる。すな
わち、上記山部15のヒストグラム列Hを、 H={h1,h2,…,hj,……,hn} とすると、上記傾きmjは次式 mj=(−2)(hj)+(−1)(hj+1)+(0)(hj+2)+(1)(hj+
3)+(2)(hj+4) で求められる。次に、上記mjをj=1,…nについて求め
てmjの例すなわち傾き例が第6図に例示するように求め
られ、上記傾きバッファメモリ4に格納される。
ステップS4で、上記ステップS3で算出された山部15の傾
き列から、山部15に存在する谷部が検出され、そのうち
の最も低い谷部を行切断位置として判定して、ステップ
S5に進む。上記傾きmjは基となる山部15はjの増加に従
ってそのヒストグラム値hjが増加する場合は+であり、
逆にjの増加に従ってhjが減少する場合は+である。従
って、第6図に示すように、傾き列が−より+へ変化す
る区間が谷部として検出される。上述のようにして検出
された谷部が第5図のように1つの山部15に複数箇所存
在する場合には、各谷部のヒストグラム列Hの最小値
(hk)の位置kを行切断位置と判定し、山部15の位置k
よりも図中上部15aの基となる行“the gl"と、位置kよ
りも下部15bの基となる行“estima"とは異なる行である
と判定される。
ステップS5で、上記ステップS4で判定された行切断位置
kで行“the gl"行“estima"とが切断され、以後上記2
つの行は異なる行として取り扱われる。
ステップS6で、上記ステップS2で行統合できると判別さ
れた行すなわち第3図における行“Through"は、隣接す
る行“the ages me"と一つの行として統合される。一
方、上記ステップS2で行統合ができないと判別され、さ
らに上記ステップS3,S4,S5で2つの行に切断されたうち
の一方の行、すなわち第4図における行“the gl"は、
隣接する行“ottis(see"と一つの行として統合され
る。その結果、第3図の場合は行“Through the ages m
e"、第4図の場合は行“the glottis(see"が得られ
る。
したがって、入力原稿の傾きや文字の形状やノイズのた
めに行間スペースが得られなくても、黒画素のヒストグ
ラム列H(={h1,h2,…hm,…hn}の山部の存在する谷
部における最小値hkの位置kにより確実に行間の位置を
検出して、行切り出しを行うことができる。
<発明の効果> 以上より明らかなように、この発明の行切り出し方法
は、入力された画像を水平方向に分割し、得られ矩形領
域内についての水平方向のヒストグラム列を作成するヒ
ストグラム作成手段と、隣接するヒストグラム列の中の
同一水平線上に存在する一対のヒストグラムの山部のう
ち、一方の山部の幅が他方の幅の一定倍以上か否かを判
別するヒストグラム判別手段と、他方の山部の幅の上記
一定倍以上の幅を有する山部の傾き列を最良近似直線を
用いて求める傾き列算出手段と、上記傾き列および上記
ヒストグラム作成手段からの当該傾き列に対応するヒス
トグラム列に基づいてヒストグラムの山部に存在する谷
部のうち最も低いヒストグラム値を呈する谷部の位置を
検出して行切断位置を判定する行切断位置判定手段と、
行切断位置と判定された位置で行を切断する行切断手段
とを備えることにより、上記ヒストグラム判別手段が、
上記ヒストグラム作成手段によって求められたヒストグ
ラムの同一水平線上に隣接して存在する一対の山部の一
方の幅が他方の上記一定倍以上であると判別したとき
に、上記一方の山部の傾き列を傾き列算出手段によって
算出し、その傾き列算出結果および当該傾き列に対応す
るヒストグラム列に基づいて行切断位置を行切断位置判
定手段によって判定し、上記判定結果に基づいて行切断
手段によって行を切り出すようにしたので、原稿の傾き
や文字の形状やノイズのために行間スペースが得られな
い入力画像であっても、確実に行間の位置を検出して容
易に行切り出しを行うことができる。
【図面の簡単な説明】
第1図はこの発明の実施例のブロック図、第2図は一行
の切り出し・統合のフローチャート、第3図はヒストグ
ラムおよび行統合の説明図、第4図は行間スペースがな
いヒストグラムの説明図、第5図は行の切断位置の説明
図、第6図は傾き列の説明図である。 1……CPU(中央処理装置)、2……画像メモリ、 3……ヒストグラムバッファメモリ、 4……傾きバッファメモリ、7……イメージスキャナ。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭56−99576(JP,A) 特開 昭58−146973(JP,A) 特開 昭58−66174(JP,A)

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力された画像を上記画像の上辺または下
    辺にほぼ垂直な直線で所定間隔に分割し、得られる矩形
    領域内について水平方向のヒストグラム列を作成するヒ
    ストグラム作成手段と、 上記ヒストグラム作成手段によって作成された上記矩形
    領域内のヒストグラム列のうち隣接する矩形領域から得
    られる2つのヒストグラム列の中から、同一水平線上に
    存在する一対のヒストグラムの山部を抽出し、上記一対
    のヒストグラムの山部の一方の幅が他方の幅の一定倍以
    上か否かを判別するヒストグラム判別手段と、 上記ヒストグラム判別手段によって、同一水平線上に存
    在する一対のヒストグラムの山部であり、かつ上記山部
    の幅が他方の山部の幅の上記一定倍以上であると判別さ
    れたヒストグラムの山部の傾き列を最良近似直線を用い
    て求める傾き列算出手段と、 上記傾き列算出手段によって算出された傾き列および上
    記ヒストグラム作成手段によって作成された当該傾き列
    に対応するヒストグラム列に基づいて、上記ヒストグラ
    ムの山部に存在する谷部のうち最も低いヒストグラム値
    を呈する谷部の位置を検出して行切断位置を判定する行
    切断位置判定手段と、 上記行切断位置判定手段によって判定された行切断位置
    で行を切断する行切断手段とを備えて、 上記ヒストグラム判別手段によって、上記ヒストグラム
    作成手段で作成されたヒストグラム列のうち同一水平線
    上に隣接して存在する一対の山部における一方の山部の
    幅が他方の山部の幅の上記一定倍以上であると判別され
    たときに、上記一方の山部の行切断位置を上記傾き列算
    出手段による傾き列算出結果および上記ヒストグラム作
    成手段からのヒストグラム列に基づいて上記行切断位置
    判定手段によって判定し、上記行切断位置判定手段の判
    定結果に基づいて上記行切断手段によって行を切断する
    ことを特徴とする行切り出し方法。
JP61310411A 1986-12-23 1986-12-23 行切り出し方法 Expired - Fee Related JPH0679348B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61310411A JPH0679348B2 (ja) 1986-12-23 1986-12-23 行切り出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61310411A JPH0679348B2 (ja) 1986-12-23 1986-12-23 行切り出し方法

Publications (2)

Publication Number Publication Date
JPS63158677A JPS63158677A (ja) 1988-07-01
JPH0679348B2 true JPH0679348B2 (ja) 1994-10-05

Family

ID=18004937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61310411A Expired - Fee Related JPH0679348B2 (ja) 1986-12-23 1986-12-23 行切り出し方法

Country Status (1)

Country Link
JP (1) JPH0679348B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2569134B2 (ja) * 1988-07-25 1997-01-08 富士電機株式会社 文字列抽出方法
JPH0816918B2 (ja) * 1989-04-18 1996-02-21 シャープ株式会社 行抽出方法
JPH03240363A (ja) * 1990-02-16 1991-10-25 Sharp Corp デジタル画像処理装置
JPH08235310A (ja) * 1995-02-24 1996-09-13 Nec Corp 接触文字切り出し装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5699576A (en) * 1980-01-08 1981-08-10 Mitsubishi Electric Corp Character reader
JPS5866174A (ja) * 1981-10-15 1983-04-20 Ricoh Co Ltd 行抽出方法
JPS58146973A (ja) * 1982-02-25 1983-09-01 Ricoh Co Ltd 文字行および文字の切出し方法

Also Published As

Publication number Publication date
JPS63158677A (ja) 1988-07-01

Similar Documents

Publication Publication Date Title
JPH0721320A (ja) 自動スクリプト決定装置
US6141444A (en) Method for deleting ruled lines and a recording medium storing programs for performing the method
JPH09311905A (ja) 行検出方法および文字認識装置
JPH07105312A (ja) 光学式文字読取装置における文字イメージのごみ除去方法及び装置
JPH0679348B2 (ja) 行切り出し方法
CN1983302A (zh) 行方向判定程序、方法以及装置
JP3187895B2 (ja) 文字領域抽出方法
JP3019897B2 (ja) 行切出し方法
JPH1153539A (ja) 円形パターン判定方法および記録媒体
JP3187894B2 (ja) 文書画像傾き検出方法
JP2786355B2 (ja) 文章画像の属性判別方法
EP0767941B1 (en) Automatic determination of landscape scan in binary images
JP4439054B2 (ja) 文字認識装置及び文字枠線の検出方法
KR100379114B1 (ko) 치수보조선 정보를 이용한 도면의 주벽 인식 방법
JP3086277B2 (ja) 文書画像処理装置
JP2963508B2 (ja) 文字切出し装置
JP2003317107A (ja) 罫線抽出方法及び装置
JP2878327B2 (ja) 文字切り出し装置
JP2954218B2 (ja) 画像処理方法及び装置
JPH05135204A (ja) 文字認識装置
JPH06150060A (ja) 画像傾き検出方法及び表処理方法
JPH07120386B2 (ja) 文字認識装置
JPH0324681A (ja) 画像処理方法及び装置
JPH05266250A (ja) 文字列検出装置
JPH06195507A (ja) 文字切り出し装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees