JPH0325692A - 文字読取方法 - Google Patents

文字読取方法

Info

Publication number
JPH0325692A
JPH0325692A JP1159750A JP15975089A JPH0325692A JP H0325692 A JPH0325692 A JP H0325692A JP 1159750 A JP1159750 A JP 1159750A JP 15975089 A JP15975089 A JP 15975089A JP H0325692 A JPH0325692 A JP H0325692A
Authority
JP
Japan
Prior art keywords
blank
character
characters
paragraph
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1159750A
Other languages
English (en)
Other versions
JP2705981B2 (ja
Inventor
Ichiro Ogura
一郎 小倉
Yasuo Hongo
本郷 保夫
Kazuyuki Yoshida
吉田 収志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP1159750A priority Critical patent/JP2705981B2/ja
Publication of JPH0325692A publication Critical patent/JPH0325692A/ja
Application granted granted Critical
Publication of JP2705981B2 publication Critical patent/JP2705981B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、文書画像から空白記号を切り出し、その空
白の種類を判定することによって段落読取を可能にした
文字読取方法に関する。
〔従来の技術〕
この種の空白部分切り出し方法として、出願人は特願昭
63−130143号.292445号等を提案してい
る(以下、単に提案済方法ともいう)。
すなわち、提案済方法は画像処理をして文書画像から文
字行または文字列を切り出し、この切り出された文字行
または文字列から文字の存在する部分を抽出し、その後
行切り出し結果より得られた行寸法をもとに標準文字サ
イズを決定し、この標準文字サイズをもとに文字の存在
していない空白部分を1つまたは複数の空白記号として
切り出すものである。
〔発明が解決しようとする課題〕
このように、提案済方法では文字の存在していない空白
部分の距離から空白記号数を決定するようにしているた
め、文書によっては文字と文字の間のピッチが広いもの
があって空白が余分に入ってしまったり、新聞や論文集
の如く段落のある場合に空白部分が広いと、空白数が正
確に計算できずに段落がズレることかあり、このため段
落毎に読み取ることができない、などの問題がある。
したがって、この発明の課題は圧しい空白数を算出し、
この空白の種類を判定することにより、段落読取を可能
にすることにある。
〔課題を解決するための手段〕
文字画像を画像処理して文字行または文字列を切り出し
、この文字行または文字列から文字の存在する部分を抽
出し、さらに、その文字行または文字列における文字と
文字との間の平均ピッチをもとに、文字の存在していな
い部分を1つまたは複数の空白記号として切り出し、そ
の空白が文字と文字との間の空白か、段落による空白か
を判別することにより、段落読取を可能にする。
〔作用〕
文書中より文字を切り出す際、空白の部分を空白記号と
して精度良く切り出すとともに、この空白の種類から段
落と判定できた場合は空白をはさむ文字にそのことを示
す記号を付け、段落読取も可能にすることにより、文章
の構或を変えないようにする。
〔実施例〕
第1図はこの発明の実施例を示すフローチャート、第2
図および第3図はこの発明を具体的に説明するための説
明図である。なお、以下では横書きの例で説明するが、
縦書きの場合についても同様である。
すなわち、第1図に示されるように、文書画像から切り
出された文字行と垂直な方向にその投影をとり、文字の
存在部分を文字らしきもの(以下仮文字ともいう)とし
て切り出し、これにより得られた行寸法をもとに標準文
字サイズを決定し、この標準文字サイズをも乙に仮文字
の中から全角文字とみなされる文字を選び出す。さらに
、残りの仮文字については統合文字,分離文字を作或し
、OCR (文字読取装置)にて認識させ、文字の性質
による矛盾処理と、統合文字,分離文字については類似
度により正しい文字を判別するのは提案済方法と同じで
あるが、この間に■.■およびIIIの処理を付加した
点が特徴である。以下、順番に説明する。
まず、空白記号切り出しのために、全角文字切り出し処
理の後に、文字間ピッチの計算Iを行なう。いま、入力
画像が第2図(イ)の様であるとすると、仮文字Klに
着目する(I−1参照)。
そして、K1が全角文字か否かを判断し(■−2参照)
、全角文字ならば次の文字K2に着目し(1−3参照)
、同様に全角文字か否かを判断しく1−4参照)、全角
文字ならば第2図(イ)に示す如きKlとK2の間のピ
ッチPTIを求め(■5参照)、次式にもとづく判断を
行なう (1−6参照)。
W ≦PTI≦1.5W   ・・・(1)ここに、W
は上記の行切り出しにより得られた行寸法をもとに決定
された標準文字サイズである(第2図(イ)参照)。そ
して、上式を満足するPTIを加算し、これをAとする
(I−7参照)。
次のステップI−8では1行分終了したか否かを判断し
、終了していなければ次の文字についてステップI−1
からI−7を繰り返す。1行分終了したらAを平均し、
これを平均ピッチPTとして求める(I−9参照). 次に、処理Hについて説明する。
まず、処理■で求められた平均ピッチPTを用い、空白
記号の切り出しを行なう。そのために、行端siと先頭
の仮文字C1までの距離DIを求め(II−1参照)、
これを平均ピッチPTで割って空白記号数B1を求める
(■−2参照)。このとき、仮文字の中心位置をもとに
空白数を求めることにより、文字の幅による影響を小さ
くすることができる。その結果、第2図(イ)に示すよ
うな画像の場合は、1文字分の空白が挿入されることに
なる。次に、行中の空白記号の切出を行なう。
ここで、隣接する2つの仮文字KiとKjに着目し、そ
れらの距離をD2とし、次式にもとすく判断を行なう(
n−3.4.5参照)。
D2>0.3W        ・・・(2)そして、
この(2〉式を満足する場合に、空白記号数を計算し、
そうでない場合は■−22の処理を行なう。また、0.
3Wを判断基準としたのは、半角の空白も考慮するため
である。なお、この値は文書に応じて可変にすることが
できる。その後、Kiが全角文字か否かを?lj断し(
■−6参照)、全角文字でなければKiとその前の仮文
字を統合した文字のサイズが、標準文字サイズの大きさ
を満足するとき、この統合文字の中心位置を01として
求める(II−7.8参照)。なお、Kiが全角文字ま
たは前記条件を満足しない場合は、Kiの中心位置をC
Iとする(II−9参照)。次の仮文字Kjについても
全角文字か否かを判断し、そうでなければKjとその次
の仮文字を統合し、このサイズが標準文字サイズを満足
する場合は、統合文字の中心位置を02とする(II−
10.1l,12参照)。なお、Kjが全角文字または
前記条件を満足しない場合は、Kjの中心位置を02と
する(II−13参照).そして、C2とC1の差を文
字間ピッチPT2とし(II−14参照)、次式の判断
を行なうcn−is参照).PT2>PT      
     ・・・(3)この〈3)式を満足しない場合
は空白記号数B2を0とし(II−17参照)、II−
22の処理を行なう。一方、(3)式を満足する場合は
次式により、空白記号数82を求める(II−16参照
).B 2=PT2/PT−1      ・・・(4
)ここで、空白数82が1以上ならばKiに空白開始の
記号を付け、Kjには空白終了の記号を付ける(II−
18.21参照)。空白開始の記号,空白終了の記号は
いずれか一方だけでも良い。そうでなければ、次の判断
により半角空白を求め、1.25PT≦PT251.7
5PT・・・(・4)(4〉式を満足すれば、半角空白
をセットする(II−19.20参照)。なお、この判
断基準は文書により可変とする。そして、次のステップ
22で1行終了したか否かを判断し、終了していなけれ
ば、II−3から■−22を繰り返す。
以上の処理を全ての行について行なった後、段落処理■
を実行する。まず、第3図(イ)の如き入力画像に対し
、1行目から空白終了の記号が付けられた文字K1〜K
nの中心位置を71xTnとする(1−1.2参照)。
そして、TIとその他の文字位置T2〜Tnとの距離が
各行の平均ピッチPT以内ならば、K1〜Knの前の空
白は段落を区切るための空白と考えることができる。か
かる手法により、空白の種類が単なる文字と文字の間の
空白か、それとも段落の区切を表わす空白かを判定する
ことができる.そして、これらK1〜Knに段落区切の
記号を付ける(III−3〜8参照)。なお、段落の開
始には1文字空白が入ることから、T1〜Tnの中で最
も値の小さいTmとの差が、0.8PT以上(この判定
基準は文書によって可変)のものがある場合、その文字
のlつ前の空白文字に段落区切の記号を付け替える(■
9〜13参照)。その結果を第3図(口)に示す。なお
、同図左半分の第3行目.6行目の空白は行末を示すの
で、これらの空白は削除する。また、段落区切記号を付
けた文字の位置は同じ筈なので各行の空白記号数の補正
をすることもできる(III−15.16参照).これ
により、文字認識結果を第3図(イ)の入力画像と同じ
ように出力したり、段落区切の記号により一列に並べて
出力したり、左右に分けて出力したりすることができる
第4図はこの発明が適用される文字読取装置を示すブロ
ック図である。
これは画像人力装置1,CPU2.ROM3,RAM4
,画像メモリ5および文字認識部6等より構成されてい
るが、その主要動作については上述した通りであるので
、説明は省略する。
以上の如くすることにより、例えば第2図(イ)のよう
な文章に対し、従来は同図(口)の如く空白記号が余分
に入っていたが、この発明によれば同図(ハ〉の如く空
白記号を正しく入れることが可能となる. 〔発明の効果〕 この発明によれば、行頭または行中に存在する空白部分
を空白記号として正しく切り出すことができ、また空白
の種類により段落と判定できた場合は、空白をはさむ文
字の少なくとも一方に段落区切を示す記号を付けること
ができるので、段落読取が可能となる。つまり、この記
号をもとに段落毎に読取結果を整理することができるた
め、文書の構威を変化させることなく元の文書どおりに
復元することが可能となる。
【図面の簡単な説明】
第1図はこの発明の実施例を示すフローチャート、第2
図および第3図はいずれもこの発明を具体的に説明する
ための説明図、第4図はこの発明が適用される文字読取
装置を示すブロック図である。 符号説明 1・・・画像人力装置、2・・・CPU、3・・・RO
M、4・・・RAM、5・・・画像メモリ、6・・・文
字認識部。

Claims (1)

    【特許請求の範囲】
  1. 1)文字画像を画像処理して文字行または文字列を切り
    出し、この文字行または文字列から文字の存在する部分
    を抽出し、さらに、その文字行または文字列における文
    字と文字との間の平均ピッチをもとに、文字の存在して
    いない部分を1つまたは複数の空白記号として切り出し
    、その空白が文字と文字との間の空白か、段落による空
    白かを判別することにより、段落読取を可能にしてなる
    ことを特徴とする文字読取方法。
JP1159750A 1989-06-23 1989-06-23 文字読取方法 Expired - Lifetime JP2705981B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1159750A JP2705981B2 (ja) 1989-06-23 1989-06-23 文字読取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1159750A JP2705981B2 (ja) 1989-06-23 1989-06-23 文字読取方法

Publications (2)

Publication Number Publication Date
JPH0325692A true JPH0325692A (ja) 1991-02-04
JP2705981B2 JP2705981B2 (ja) 1998-01-28

Family

ID=15700445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1159750A Expired - Lifetime JP2705981B2 (ja) 1989-06-23 1989-06-23 文字読取方法

Country Status (1)

Country Link
JP (1) JP2705981B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0461760A2 (en) * 1990-05-15 1991-12-18 Canon Kabushiki Kaisha Image processing apparatus
KR101658165B1 (ko) * 2016-05-17 2016-09-20 (주)아이디알 예초기용 절첩칼날
CN106503629A (zh) * 2016-10-10 2017-03-15 语联网(武汉)信息技术有限公司 一种词典图片分割方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0461760A2 (en) * 1990-05-15 1991-12-18 Canon Kabushiki Kaisha Image processing apparatus
US5754685A (en) * 1990-05-15 1998-05-19 Canon Kabushiki Kaisha Image processing apparatus with blank character and line space recognition capabilities
KR101658165B1 (ko) * 2016-05-17 2016-09-20 (주)아이디알 예초기용 절첩칼날
CN106503629A (zh) * 2016-10-10 2017-03-15 语联网(武汉)信息技术有限公司 一种词典图片分割方法及装置

Also Published As

Publication number Publication date
JP2705981B2 (ja) 1998-01-28

Similar Documents

Publication Publication Date Title
JP2001283152A (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0325692A (ja) 文字読取方法
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JP2995818B2 (ja) 文字切り出し方法
JPH1049669A (ja) 画像処理方法
JPH0528310A (ja) フオーム型文書識別装置
JP2004046295A (ja) タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体
JP3998439B2 (ja) 画像処理装置、画像処理方法およびこれらの方法をコンピュータに実行させるプログラム
JPH0660227A (ja) 文字認識用辞書の作成方法とその辞書を用いた文字認識方法
JPH04130979A (ja) 文字画像切出し方法
JP3116453B2 (ja) 英文字認識装置
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JPS6154569A (ja) 文書画像処理方式
JP3560794B2 (ja) 文字画像の正規化方法および文字認識装置
JP3226355B2 (ja) 認識結果評価方法
JPS63269267A (ja) 文字認識方法
JPH0259979A (ja) 文書画像処理装置
JPH0594535A (ja) 文書認識方式
JPH03260886A (ja) 文字認識方法
JPH08171608A (ja) 帳票様式識別方法および装置
JP3277977B2 (ja) 文字認識方法
Barney Smith et al. Effects of Clustering Algorithms on Typographic Reconstruction
JPS61251984A (ja) マルチフオント活字文字認識装置
JP2584973C (ja)
JPH0273484A (ja) 文字認識方法