JPH05151396A - 下線付文字の切出方法 - Google Patents

下線付文字の切出方法

Info

Publication number
JPH05151396A
JPH05151396A JP3314270A JP31427091A JPH05151396A JP H05151396 A JPH05151396 A JP H05151396A JP 3314270 A JP3314270 A JP 3314270A JP 31427091 A JP31427091 A JP 31427091A JP H05151396 A JPH05151396 A JP H05151396A
Authority
JP
Japan
Prior art keywords
character
underlined
underline
range
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3314270A
Other languages
English (en)
Inventor
Ichiro Ogura
一郎 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP3314270A priority Critical patent/JPH05151396A/ja
Publication of JPH05151396A publication Critical patent/JPH05151396A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、光学的文字認識装置
(OCR)にて読み取られる文書画像から下線付文字を
切り出すための切出方法に関する。
【0002】
【従来の技術】従来、文字列と下線が離れている場合
は、文書画像の投影データから文字列と下線とを別々に
抽出し、文字列については、連続する文字パターンを抽
出することにより文字を切り出す。さらに、下線につい
ては開始位置と終了位置を求め、これを文字の位置座標
と比較してその位置関係から下線付文字を判定するよう
にしている。また、文字列と下線が接近している場合は
接触文字(文字同士が接触しているもの)と誤判定し、
標準文字サイズにより等分割することになる。
【0003】
【発明が解決しようとする課題】しかしながら、通常は
文字と文字との間にはスペースがあるため、下線を含む
標準文字サイズで等分割したとしても実際よりは多目に
分割してしまい、正しい切り出しができなくなる。ま
た、切り出した矩形の中に下線を含むため、文字も正し
く認識することができない。さらには、文字列と下線と
を別々に抽出する方法では、下線の抽出に時間が掛かる
という問題もある。したがって、この発明の課題は高速
かつ精度良く下線付文字を切り出し得るようにすること
にある。
【0004】
【課題を解決するための手段】このような課題を解決す
るため、この発明では、文書画像から各文字行を抽出
し、抽出された各文字行の行寸法から全角文字を判定す
るための標準文字サイズを抽出し、この標準文字サイズ
にもとづき各文字行から個々の文字パターンを抽出し、
この文字パターンの下部の或る範囲で投影をとることに
より下線付文字列かどうかを判定し、次に文字パターン
の上部の或る範囲で投影をとることによりその文字列の
範囲における文字間の隙間領域を検出して下線付文字の
矩形を切り出し、下線の位置を検出して下線部を除去す
ることを特徴としている。
【0005】
【作用】文字列と下線が接触している文字パターンの上
部の或る範囲で投影をとり、この投影データから文字を
切り出すことにより、下線の影響を受けることなく文字
の切り出しができるようにする。また、隙間領域から下
線の上端を検出することにより、斜めの場合でも下線を
文字から分離することができるようにする。
【0006】
【実施例】図1はこの発明の実施例を示すフローチャー
トである。まず、ステップS1で文書画像を入力し、ス
テップS2で文書画像の投影データから文字行を切り出
す。次に、ステップS3で文字行の行寸法から、全角文
字を判定するために算出された標準文字サイズSを抽出
し、これによりステップS4で個々の文字を切り出す。
【0007】次に、ステップS5で標準文字サイズSを
切り出された文字を含む文字行の投影データをとる。図
2(a),(c)の如き原画像に対する投影データの例
をそれぞれ(b),(d)に示す。ここでは、標準文字
サイズSで切り出された部分に下線1が含まれるため、
この含まれる部分(接触部分)2で投影データが連続し
ていることを示している。次に、ステップS6でこの投
影データをもとに、連続する文字パターンを仮りに1文
字ずつ切り出す。そして、この文字パターンの長さLが
判定しきい値TH1より大きいかどうかを、ステップS
7で調べる。このときの条件を数式にて示すと、以下の
ようになる。
【0008】 TH1<L …(1) ここに、TH1=K1×S K1=1.5 S:標準文字サイズ 式(1)を満足するときは下線付文字か斜体文字の可能
性があるので、ステップS8で下線付文字列かどうかの
判定を行なう。このために、まず文字パターンの下部A
(=1/4)の範囲で投影をとる。ここで、下部Aの範
囲の値を1/4としたのは、文字の傾きが4度程度で
も、下線の含まれる範囲がほぼこの範囲内となるからで
ある。
【0009】図3はこの場合の例を説明するための説明
図である。同図(a),(c)の原画像に対する投影デ
ータをそれぞれ(b),(d)に示す。符号3が下部A
の範囲を示し、Hは行高さを示している。同図(b),
(d)から、下線があるとパターンが分割しないことが
分かる。そこで、パターンが分割するか否かを調べ、パ
ターンが分割しない場合は、ステップS9で下線付文字
の可能性があると判定する。そして、下線付文字列の可
能性があると判定された文字パターンについては、ステ
ップS10で幅方向の切り出しを行なう。このため、こ
の実施例では文字パターンの上部B(=3/4)の範囲
で投影をとることで隙間領域を検出し、投影データが連
続する部分を下線付文字と判断して、幅方向の座標を求
める。図4にこの投影データと切り出し位置の例を示
す。同図(a),(c)の原画像に対する投影データを
それぞれ(b),(d)に示す。S1〜S12およびE
1〜E12が座標位置であり、符号4は上部Bの範囲を
示している。
【0010】次に、ステップS11で下線付文字列から
下線部の検出,除去を図5の如く行なう。まず、図5
(a)の如く切り出された矩形(着目文字)5とその前
の矩形との間の下部A(=1/4)の範囲(隙間領域)
6を調べ、下線の上端位置Y1を検出する。次いで、切
り出された矩形とその後の矩形の間についても下部A
(=1/4)の範囲7を調べ、下線の上端位置Y2を検
出する。そして、Y1とY2を結ぶ直線の位置を高さ方
向の座標YEとして補正し、文字パターンからYE以下
の部分を下線部分として取り除く。なお、図5(b),
(c)は範囲6,7の部分拡大図である。
【0011】また、末広がり文字については、ステップ
S12で幅方向の座標を補正する。これは、例えば図6
の如き末広がり文字(英文字「A」とか「人」とか)の
下部1/4の開始位置検査範囲8,終了位置検査範囲9
を調べ、SをS’EをE’にそれぞれ補正するものであ
る。最後に、ステップS13にて下線付文字にはその旨
を示す属性を付与する。以上のステップS6からS13
の処理を繰り返し行ない、すべての文字パターンについ
て精度の良い下線付文字の切り出しを可能とする。この
ように、パターンが分割するか否かで下線付文字列の可
能性を判断し、可能性のあるものにつき範囲を限定して
切り出すようにしたので、文字列と下線とを別々に抽出
する方法に比べて高速な処理が可能となるだけでなく、
高精度の切り出しが可能となる。なお、以上では主とし
て横書き文字につき説明したが、この発明は縦書き文字
の傍線等についても上記と同様にして適用することがで
きる。
【0012】
【発明の効果】この発明によれば、文字列と下線が接触
または接近している印刷文書について、下部A(=1/
4)の範囲で投影をとり、パターンが分割するか否かを
調べることで、下線付文字列の可能性を判断することが
できる。そして、この下線付文字列の可能性がある文字
パターンの上部B(=3/4)の範囲で投影をとること
で下線の影響を受けずに、下線付文字列の幅方向の切り
出しが可能となる。そして、隙間領域、つまり、切り出
された矩形の前後を調べて下線の上端位置を検出し、高
さ方向の座標を補正することで、斜めの場合でも文字パ
ターンから下線部分を取り除くことができる。さらに、
末広がり文字のために、矩形の前後を調べて幅方向の座
標を補正することで、精度良く下線付文字を切り出すこ
とが可能となる。
【図面の簡単な説明】
【図1】この発明の実施例を示すフローチャートであ
る。
【図2】下線と接触した文字列の例を説明するための説
明図である。
【図3】下部の或る範囲の投影データを説明するための
説明図である。
【図4】上部の或る範囲の投影データを説明するための
説明図である。
【図5】下線部の検出方法を説明するための説明図であ
る。
【図6】末広がり文字の幅方向の補正方法を説明するた
めの説明図である。
【符号の説明】
1…下線、2…接触部分、3…下部Aの範囲、4…上部
Bの範囲、5…着目文字、6…隙間領域、7…隙間領
域、8…開始位置検査範囲、9…終了位置検査範囲

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文書画像から各文字行を抽出し、抽出さ
    れた各文字行の行寸法から全角文字を判定するための標
    準文字サイズを抽出し、この標準文字サイズにもとづき
    各文字行から個々の文字パターンを抽出し、この文字パ
    ターンの下部の或る範囲で投影をとることにより下線付
    文字列かどうかを判定し、次に文字パターンの上部の或
    る範囲で投影をとることによりその文字列の範囲におけ
    る文字間の隙間領域を検出して下線付文字の矩形を切り
    出し、下線の位置を検出して下線部を除去することを特
    徴とする下線付文字の切出方法。
JP3314270A 1991-11-28 1991-11-28 下線付文字の切出方法 Pending JPH05151396A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3314270A JPH05151396A (ja) 1991-11-28 1991-11-28 下線付文字の切出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3314270A JPH05151396A (ja) 1991-11-28 1991-11-28 下線付文字の切出方法

Publications (1)

Publication Number Publication Date
JPH05151396A true JPH05151396A (ja) 1993-06-18

Family

ID=18051342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3314270A Pending JPH05151396A (ja) 1991-11-28 1991-11-28 下線付文字の切出方法

Country Status (1)

Country Link
JP (1) JPH05151396A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117848A (zh) * 2018-09-07 2019-01-01 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117848A (zh) * 2018-09-07 2019-01-01 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备
CN109117848B (zh) * 2018-09-07 2022-11-18 泰康保险集团股份有限公司 一种文本行字符识别方法、装置、介质和电子设备

Similar Documents

Publication Publication Date Title
KR100658119B1 (ko) 문자 인식 장치 및 방법
JP3576570B2 (ja) 比較方法
JP2822189B2 (ja) 文字認識装置及び方法
JP3113827B2 (ja) 矩形オブジェクトの認識方法及び認識装置
JPH11219407A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
JPH09179937A (ja) 文書画像のセンテンスの境界の自動識別方法
KR19990036622A (ko) 비트맵 이미지의 처리 방법 및 처리 장치, 비트맵 이미지의처리를 행하는 이미지 처리 프로그램을 저장한 기억 매체
CN102982328A (zh) 字符识别装置和字符识别方法
JP2761467B2 (ja) 画像切り出し装置及び文字認識装置
JP4280355B2 (ja) 文字認識装置
JPH04195692A (ja) 文書読取装置
US8989485B2 (en) Detecting a junction in a text line of CJK characters
US11756321B2 (en) Information processing apparatus and non-transitory computer readable medium
CN107798355B (zh) 一种基于文档图像版式自动分析与判断的方法
JP2554187B2 (ja) 基本ライン抽出方法
JP3031579B2 (ja) 帳票の文字認識領域指定方法
JPH05151396A (ja) 下線付文字の切出方法
JPH07220023A (ja) 表認識方法及びその装置
US11710331B2 (en) Systems and methods for separating ligature characters in digitized document images
JP2827960B2 (ja) 宛名行抽出装置
US20210303782A1 (en) Information processing apparatus and non-transitory computer readable medium
JPH0728935A (ja) 文書画像処理装置
JP2786044B2 (ja) 光学的文字読み取り装置
JP3190794B2 (ja) 文字切り出し装置
JP2995818B2 (ja) 文字切り出し方法