JPS60126777A - 文字切り出し方式 - Google Patents

文字切り出し方式

Info

Publication number
JPS60126777A
JPS60126777A JP58234248A JP23424883A JPS60126777A JP S60126777 A JPS60126777 A JP S60126777A JP 58234248 A JP58234248 A JP 58234248A JP 23424883 A JP23424883 A JP 23424883A JP S60126777 A JPS60126777 A JP S60126777A
Authority
JP
Japan
Prior art keywords
character
profile
extracted
contour
contours
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58234248A
Other languages
English (en)
Inventor
Yasuaki Nakano
中野 康明
Hiromichi Fujisawa
浩道 藤澤
Masao Michino
道野 正雄
Kiyomichi Kurino
栗野 清道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP58234248A priority Critical patent/JPS60126777A/ja
Publication of JPS60126777A publication Critical patent/JPS60126777A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、文書読み取り装置や図面認識装置において使
用される文字切り出し方式に係り、特に表の形式で作成
された文書の読み取りに好適な文字切り出し方式に関す
る。
〔発明の背景〕
従来の文字認識装置はドロップアウトカラーで文字記入
枠を印刷し、その中に記入された文字を読み取るものが
大半であった。しかし、印刷コストの増加により、簡易
帳票を使用したいという要求が強くなっている。ここで
簡易帳票とは、方眼紙などを用いて表形式の文字記入枠
を作成したものを原版とし、複写機によって帳票を印刷
するなどして作成したものである。したがって、簡易帳
票においては文字記入枠が黒色(非ドロップアウトカラ
ーを指す)となるため記入文字と文字記入枠とを自動的
に区別する必要が生−一一一一一一じる。また、文字記
入枠と記入文字とが接触した場合、接触部を切断して文
字部分を分離する必要があった。
〔発明の目的〕
本発明の目的は、黒色の文字記入枠と記入文字とを自動
的に区別することのできる文字切り出し方式を提供する
ことにある。また、その特別な場合として文字記入枠と
記入文字とが接続した場合にこの両者を分離できる文字
切り出し方式を提供することにある。さらに、文字記入
枠に切れ・かすれ等があり、処理誤りが生じた場合に自
動的に再試行することのできる文字切り出し方式を提供
することにある。
〔発明の概要〕
上記の目的を達成するため、本発明においては処理しよ
うとする領域の画像に対して輪郭抽出を行い、輪郭の性
質が文字記入枠と記入文字とで異なっていることを利用
して両者の区別を行うものである。また、文字記入枠と
記入文字とが接触した場合にも、文字記入枠が直線形状
であり接触部で輪郭上に屈曲点が発生すること番利用し
て、屈曲点の対を検出してその間を結ぶ直線を創成する
ことにより、文字記入枠と記入文字とを分離する。
〔発明の実施例〕
以下本発明の一実施例を第1図により説明する。
第1図は一実施例の構成を示すブロック図である。
装置各部はバス1に接続され、全体の動作は制御部2に
より制御される。帳票3の上の情報(帳票イメージ)は
光電変換装置4により走査、光電変換、ディジタル化を
経てメモリ5の中に格納される。以下の説明では省略す
るが、高効率符号化によりイメージの表現に必要なメモ
リ量を節約し、処理に際して原パターンに復元してもよ
い。また、以下の説明では1画素1ビツトに二値化する
ものとするが、1画素を多値で表現した場合にも、ある
いは色情報を付与した場合にも−、メモリ内で二値化す
るなどして適用可能である。
本実施例における対象は表形式帳票で、第2図(A)の
ように横M本縦N本の直線で構成される表を1個含むも
のとする。また、表の概略位置は別に書式情報として与
えられるものとする。第3図に′全体の処理の流れをP
 A D (Program Analysi。
Diagram)形式で示す。第3図で301は前述し
た帳票イメージの入力である。302以降の処理はパタ
ーン処理用プロセッサ6により実行される。
302及び303の二重ループは表の中の各領域につい
て2次元的に繰り返すループである。
304〜315は第m行第n列の領域について文字切り
出し及び認識を行う処理である。304で、別途与えら
れている書式情報から、上記第m行第n列の領域の左端
・右端のX座標Xml 、xm2及び上端及び下端のy
座標Y ml t V mlを算出する。この座標は第
2図(B)のように、理論的な帳票端点P(あるいは端
点をセンサで検出してもよい)を原点として測っている
。実際には帳票の位置ずれやセンサ誤差、印刷誤差等に
より誤差が生ずるので、第m行第n列の領域の内部境界
Cm 。
nはは上記の計算値からずれることがある。
305は上下左右にそれぞれAづつマージンをとって、
第2図(C)に示すような部分画像を抽出する。306
では上記の部分画像について輪郭抽出を行い、第2図(
D)のような輪郭を201〜207を抽出する。そのと
き画像エツジに接触する輪郭は除去している。また同図
(D)において輪郭に付した矢印は内輪郭と外輪郭とを
区別するもので、この図では黒地を右側に見て輪郭を一
周するように付してあり、このとき時計回りに一周する
ときは外輪郭2反時計回りに一周するときは内輪郭であ
る。輪郭の具体的な表現として1本例では上記のように
輪郭を一周するときの輪郭上の点の座標の列((x、y
))として表現する。別に各輪郭の長さや、種別などは
記憶しておく。
306で抽出した輪郭数をLとし、後の処理で用いる変
数kを初期化しておく。307〜309は第i輪郭Ci
が第m行第n列の内側境界Cm、nであるか否か判定し
、判定されたときの輪郭番号をkとする処理であり、3
08の判定条件としては内輪郭であってその長さがR以
上であるものを選ぶようにしている。ここでRとしては
たとえば理論的な内側境界長の0.8倍にとることがで
きる。この結果第2図(D)では輪郭202が内側境界
として選ばれる。310においてkを判定し、k=oで
あれば領域検出失敗であり、311でエラー処理を行う
。K≠0のとき領域検出成功であり、312〜315で
領域内部の処理を行う。
312は全輪郭について繰り返すループである。
313で、第1番目の軸郭Ciが第に軸郭Ckの内部に
含まれるか否かを判定する。第2図(D)の例でいえば
、Ckは202であり、201゜202はCkの内部に
含まれず203−207はCkは内部に含まれる。31
4では、Ckの内部に含まれる輪郭を登録する。その結
果第2図(E)のように、第m行第n列の領域の内側の
輪郭のみが抽出される。この結果は、あたかも文字記入
枠がドロップアウトカラーで印刷された場合に輪郭抽出
を行った結果と同一であり、315において通常の手法
で文字切り出し、認識を行えはよい6なお、本例では3
15における文字切り出し、認識法として輪郭抽出を行
った結果を利用する方式としたが、ドツトパターンのま
ま処理を行う方式の場合には、第2図(E)のパターン
において外輪郭と内輪郭の間を塗り潰す処理を行えばよ
い。
以上のようにして文字の切り出し・認識が行われるが、
途中で切り出し異常あるいは認識不能が生じたときは、
第1図のコンソール7に表示し正解を入力するなどの処
理を行う。311のエラー処理においてもコンソール7
で対話処理を行うことができる。
なお、本実施例では302−315の処理をパターン処
理用プロセッサ6で実行させるとしたが、そのうちの一
部あるいは全部を制御部2によって実行してもよい。こ
れは以下の実施例でも同様である。
次に第4図により本実施例による第二の実施例を説明す
る。本実施例は第1図の実施例において、文字記入枠を
記入文字とが接触しているとき、これを切断する処理を
付加したものである。第4図は第3図における312〜
315の代りに行われる処理の流れを示す流れ図である
。第3図の307〜309の処理により内側境界に対応
する輪郭Ckが既にめられている。但し、この場合第5
図(A)のように文字記入枠と記入文字とが接触してい
るため、同図(B)のような輪郭が得られる。以下説明
を単純にするため、接触部は1ケ所でありかつ下辺にお
いて接触すると仮定するが、これ以外の場合にも適用可
能である。第4図において、401で状態Sの初期値を
1とする。
402においてCkの左下隅及び右下隅の輪郭点番号i
1p!2をめる(詳細省略)。403において、下辺の
平均的y座標yoをめる。(例えj;f、t、とt2の
y座標の平均値をとればよい。
404は、下辺に−おいて両端付近を除去した部分の全
点、すなわちt =t 1+ a ” t 2 aにっ
さ405〜410を緑入り返すループである。
405は状態S上によって分岐する処理である。
S=1は、下辺から遠くへ離れるときの屈曲点(第1種
の屈曲点)をめる状態であり、このとき406を行う。
406では第1種の屈曲点の判定条件として、点tのy
座標y1が下辺yoに近く、かっyt以前は水平で、y
t以後が斜めであし、Sを2とする。408,409は
406゜407に対応するが、離れた点から下辺に近付
く1種と第2種の屈曲点が交互に対としてめられる。第
5図(C)に屈曲点に、、に2をめた例を示す。410
では、屈曲点の対を結ぶ輪郭点列を創成し、第5図CD
)のように文字枠部と文字部に対しそれぞれ付加して輪
郭点列が閉曲線となるようにする。この結果、Ckが新
しい輪郭点列に変更されるとともに、輪郭数りが増加す
る。412〜415は第3図の312−315と全く同
一の処理である。
次に第6図により本発明による第三の実施例を説明する
。本実施例は第1図の実施例において、内側境界検出に
失敗したときに再試行する処理を付加したものである。
第6図は@3図における311の代りに行われる処理の
流れを示す図である。601では、対象となる部分画像
に対し水平周辺分布14 (y )、すなわち各画素の
値を水平方向に積分した分布を作る。602は、y座標
についての繰り返しである。603で水平周辺分布H(
y)がある値Hoより大きいとき、604と605によ
り、そのy座標について全画素p (x+y)にtr’
lHを埋め込む。606〜610は上記の処理を垂直層
3の分布V(x)を用いて垂直方向について行うもので
ある。この結果、例えば第7図(A)のように文字記入
枠が切れていたとしても、第7図(B)のようにつなが
ることになる。ここで閾値Ho、voを適当にとること
により、文字の存在する部分では埋め込み処理を行わず
、文字記入枠の部分でだけつながるようにできる。61
1は第3図の3’04−369をまとめたものである。
612.6]、’3はそれぞれ第3図の301’。
311に対応する。614は第3図の312−315を
まとめたものである。以上の説明から理解されるように
、本実施例では文字記入枠の切れ。
かすれなどにより、内側境界が内輪郭としての条件を満
さない場合でも、原画像を修正し、再試行することによ
って、内側境界を検出することを可能とする。
以上の第一〜第三の実施例において、文字記入枠は表形
式であるとし、内輪郭であることを内側境界の条件とし
たが、罫線のように枠が閉じてい−ない場合にも本発明
は適用でき、例えば罫線(下線)の場合は外輪郭が絹長
い形状のものを検出すればよい。また、文字枠内側の抽
出法として実施例では輪郭間の包含関係を用いたが、こ
の方法に限らず検出した文字枠に対する相対位置によっ
て仮想的に文字枠内側領域を決定する方法を用いること
ができる。
また、実施例においては文字記入枠の概略位置を書式情
報を用いて算出するとしたが、書式情報中に座標値を記
載せず、枠を構成する直線を検出して、自動的に枠位置
を定めるようにすることも可能である。
〔発明の効果〕
本発明によれば、文字記入枠を黒色あるいは光 。
電変換における非ドロップアウトカラーによって印刷し
た帳票を使用した場合でも安定な文字切り出しが行われ
るので、帳票作成の手間やコストを大幅に削減できる効
果がある。
【図面の簡単な説明】
第1図は本発明の一実施例の構成を示すブロック図、第
2図、第5図、第7図は本発明の詳細な説明するための
図、第3図、第4図、第6図は本発明の実施例における
処理の流れ図である。 1・・・バス、2・・・制御部、4・・・光電変換装置
、5・・・′¥3z図 (Cン (Dン (1;] fJ 5 区 (A) ’B) CC,) CD) 看 7 図 CA) 、 (B) 第 6 図

Claims (1)

  1. 【特許請求の範囲】 1、入力帳票を光電変換、ディジタル化して二値画像と
    し、上記二値画像から輪郭抽出を行い、この抽出された
    輪郭からあらかじめ定めた条件に適するものを選択し、
    該選択された輪郭に対する相対位置として定められた領
    域内の文字を切り出すことを特徴とする文字切り出し方
    式。 2、特許請求の範囲第1項記載の文字切り出し方式にお
    いて、上記選択された輪郭の座標系列から基準座標を検
    出するとともに、上記輪郭の中の屈曲点を検出し、上記
    屈曲点であって上記基準座標に近いものを抽出し、上記
    抽出された屈曲点の対を結ぶ座標系列を生成して新しい
    輪郭を生成し、上記の生成された新しい輪郭に対する相
    対位置として定められた領域内の文字を切り出すことを
    特徴とする文字切り出し方式。 3、特許請求の範囲第1項記載の文字切り出し方式にお
    いて、あらかじめ定めた条件に適する輪郭が存在しない
    とき、上記人カニ値画像に変形を施することを特徴とす
    る文字切り出し方式。
JP58234248A 1983-12-14 1983-12-14 文字切り出し方式 Pending JPS60126777A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58234248A JPS60126777A (ja) 1983-12-14 1983-12-14 文字切り出し方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58234248A JPS60126777A (ja) 1983-12-14 1983-12-14 文字切り出し方式

Publications (1)

Publication Number Publication Date
JPS60126777A true JPS60126777A (ja) 1985-07-06

Family

ID=16967990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58234248A Pending JPS60126777A (ja) 1983-12-14 1983-12-14 文字切り出し方式

Country Status (1)

Country Link
JP (1) JPS60126777A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61249179A (ja) * 1985-04-27 1986-11-06 Fujitsu Ltd 文字枠自動抽出方式
JPS6215679A (ja) * 1985-07-15 1987-01-24 Casio Comput Co Ltd デ−タ読取方式
JPS6255778A (ja) * 1985-09-05 1987-03-11 Mitsubishi Electric Corp 文章読取装置
JPS6361387A (ja) * 1986-09-02 1988-03-17 Hitachi Ltd 文字切り出し方法
JP2013012157A (ja) * 2011-06-30 2013-01-17 Toshiba Corp 領域検出装置、領域検出方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55162176A (en) * 1979-05-31 1980-12-17 Matsushita Electric Ind Co Ltd Picture extraction system
JPS5748166A (en) * 1980-09-04 1982-03-19 Toshiba Corp Character segment device
JPS57211674A (en) * 1981-06-23 1982-12-25 Ricoh Co Ltd Frame recognizing method
JPS57211672A (en) * 1981-06-22 1982-12-25 Ricoh Co Ltd Frame recognizing method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55162176A (en) * 1979-05-31 1980-12-17 Matsushita Electric Ind Co Ltd Picture extraction system
JPS5748166A (en) * 1980-09-04 1982-03-19 Toshiba Corp Character segment device
JPS57211672A (en) * 1981-06-22 1982-12-25 Ricoh Co Ltd Frame recognizing method
JPS57211674A (en) * 1981-06-23 1982-12-25 Ricoh Co Ltd Frame recognizing method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61249179A (ja) * 1985-04-27 1986-11-06 Fujitsu Ltd 文字枠自動抽出方式
JPS6215679A (ja) * 1985-07-15 1987-01-24 Casio Comput Co Ltd デ−タ読取方式
JPS6255778A (ja) * 1985-09-05 1987-03-11 Mitsubishi Electric Corp 文章読取装置
JPS6361387A (ja) * 1986-09-02 1988-03-17 Hitachi Ltd 文字切り出し方法
JP2013012157A (ja) * 2011-06-30 2013-01-17 Toshiba Corp 領域検出装置、領域検出方法及びプログラム

Similar Documents

Publication Publication Date Title
KR100570224B1 (ko) 전표정의데이터 작성방법 및 전표처리장치
JPH0778818B2 (ja) セルフクロッキング記号形状コードを復号するための二値画像処理方法
US7983485B2 (en) System and method for identifying symbols for processing images
JP6470595B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP5877335B2 (ja) 帳票
JPS60126777A (ja) 文字切り出し方式
JP3936436B2 (ja) 表認識方法
JP4192909B2 (ja) 改ざん検出装置、改ざん検出方法
JP2000187705A (ja) 文書読取装置および方法および記憶媒体
JP4798296B1 (ja) 帳票
JPH08329187A (ja) 文書読取装置
CN109274858B (zh) 一种分色图像还原方法
JP4672513B2 (ja) 情報処理システム,地紋重畳装置,回答抽出装置,地紋重畳方法,回答抽出方法
JPH03263282A (ja) 文字読取装置の文字切出し方法
JPS6214277A (ja) 画像処理方式
JP2002170077A (ja) 文字認識装置及び文字認識方法
JP6743401B2 (ja) 帳票設計・読取設定支援装置、帳票設計・読取設定支援方法、及び、光学文字認識システム
JP5009414B2 (ja) 地紋重畳装置、および地紋重畳方法
JPH0554195A (ja) 文字認識装置
JPH117493A (ja) 文字認識処理装置
JPH08321942A (ja) 画像処理装置及び分割図面の画像接合方法
JP2006277509A (ja) ドットテクスチャ重畳表記部形状回復方法及びそのためのプログラム
JP4250828B2 (ja) 文字認識装置
JPH0560876B2 (ja)
JP3239965B2 (ja) 文字認識装置