JPH0524555B2 - - Google Patents
Info
- Publication number
- JPH0524555B2 JPH0524555B2 JP58110435A JP11043583A JPH0524555B2 JP H0524555 B2 JPH0524555 B2 JP H0524555B2 JP 58110435 A JP58110435 A JP 58110435A JP 11043583 A JP11043583 A JP 11043583A JP H0524555 B2 JPH0524555 B2 JP H0524555B2
- Authority
- JP
- Japan
- Prior art keywords
- block
- pattern
- character
- characters
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000009826 distribution Methods 0.000 claims description 17
- 230000002093 peripheral effect Effects 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 230000015654 memory Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
Landscapes
- Character Input (AREA)
Description
【発明の詳細な説明】
〔技術分野〕
本発明は、文書画像から文字または記号を抽出
する方法に関する。
する方法に関する。
文書画像中の文字または記号を抽出するには、
一般に連結パターンの外接長方形の大きさを調
べ、そのサイズがそれほど大きくない連結パター
ンが連続している領域を文章領域と判定し、その
文章領域内の個々の連結パターン領域を文字また
は記号として抽出している。
一般に連結パターンの外接長方形の大きさを調
べ、そのサイズがそれほど大きくない連結パター
ンが連続している領域を文章領域と判定し、その
文章領域内の個々の連結パターン領域を文字また
は記号として抽出している。
しかし、このような方法では、文字行中にアン
ダーラインがある場合、図形に文字が連結する場
合、行間に来る添字がある場合等に文字・記号を
図形と正しく分離できないという問題がある。
ダーラインがある場合、図形に文字が連結する場
合、行間に来る添字がある場合等に文字・記号を
図形と正しく分離できないという問題がある。
本発明の目的は、上記の問題を解決できる新し
い文字・記号抽出方法を提供することにある。
い文字・記号抽出方法を提供することにある。
第1図は本発明に係る文字・記号抽出処理装置
の概略ブロツク図、第2図と第3図はその処理フ
ローを示すフローチヤートである。
の概略ブロツク図、第2図と第3図はその処理フ
ローを示すフローチヤートである。
第1図において、1,2はパターンメモリ(A)、
(B)、3はプロセツサである。パターンメモリ(A)1
には、文章画像から抽出された文章領域のパター
ンが画素単位で書き込まれる。この文章領域の抽
出は従来方法で容易に行い得るので、詳述しな
い。パターンメモリ(B)2には、パターンメモリ(A)
1内のパターンをM×N画素単位で融合したパタ
ーンが書き込まれる。この融合処理はプロセツサ
3によつて行うが、この処理も格別新しいもので
はないので詳細は述べない。なお、プロセツサ3
は内部メモリを有する汎用または専用のプログラ
ム処理装置である。
(B)、3はプロセツサである。パターンメモリ(A)1
には、文章画像から抽出された文章領域のパター
ンが画素単位で書き込まれる。この文章領域の抽
出は従来方法で容易に行い得るので、詳述しな
い。パターンメモリ(B)2には、パターンメモリ(A)
1内のパターンをM×N画素単位で融合したパタ
ーンが書き込まれる。この融合処理はプロセツサ
3によつて行うが、この処理も格別新しいもので
はないので詳細は述べない。なお、プロセツサ3
は内部メモリを有する汎用または専用のプログラ
ム処理装置である。
今、第5図に示すパターンPがパターンメモリ
(A)1に格納され、またその融合パターンがパター
ンメモリ(B)2に格納されたとして、処理内容を第
2図に沿つて説明する。なお、パターンP中の枠
線と接続している文字“形”“認”“識”は、従来
方式によると枠の一部と認識されてしまい、正し
く抽出できないものである。
(A)1に格納され、またその融合パターンがパター
ンメモリ(B)2に格納されたとして、処理内容を第
2図に沿つて説明する。なお、パターンP中の枠
線と接続している文字“形”“認”“識”は、従来
方式によると枠の一部と認識されてしまい、正し
く抽出できないものである。
ステツプ:プロセツサ3は、パターンメモリ(B)
2内のパターンを走査し、水平方向の周辺分布
(濃度分布)HH′を求め、それを平均化して周
辺分布HHを得る(第5図参照)。
2内のパターンを走査し、水平方向の周辺分布
(濃度分布)HH′を求め、それを平均化して周
辺分布HHを得る(第5図参照)。
ステツプ:プロセツサ3は求めた周辺分布HH
の谷部でパターンを水平方向のサブ領域に分割
する。第5図のパターンPの場合、a,b,c
のサブ領域に分割される。
の谷部でパターンを水平方向のサブ領域に分割
する。第5図のパターンPの場合、a,b,c
のサブ領域に分割される。
ステツプ:プロセツサ3は3パターンメモリ(B)
2を走査し、各サブ領域毎に垂直方向の周辺分
布HVを求める。なお、この周辺分布HVについ
て平滑化を行つてもよい。第5図のサブ領域
a,b,cについては、第5図の周辺分布HV
(a),HV(b)、HV(c)それぞれ求まる。
2を走査し、各サブ領域毎に垂直方向の周辺分
布HVを求める。なお、この周辺分布HVについ
て平滑化を行つてもよい。第5図のサブ領域
a,b,cについては、第5図の周辺分布HV
(a),HV(b)、HV(c)それぞれ求まる。
ステツプ:ステツプで求めた周辺分布HVの
谷部で、各サブ領域を最小単位であるブロツク
に分割する。第5図のパターンPの場合、この
ステツプで破線で示すようにブロツク分割され
る。各ブロツクは、文字または記号、あるいは
図形の領域である。
谷部で、各サブ領域を最小単位であるブロツク
に分割する。第5図のパターンPの場合、この
ステツプで破線で示すようにブロツク分割され
る。各ブロツクは、文字または記号、あるいは
図形の領域である。
ステツプ:プロセツサ3は各ブロツク毎にパタ
ーンメモリ(B)2(またはパターンメモリ(A)1)
内のパターンを走査し、改めて各ブロツク別の
水平方向の周辺分布hHと垂直方向の周辺分布hV
求める。
ーンメモリ(B)2(またはパターンメモリ(A)1)
内のパターンを走査し、改めて各ブロツク別の
水平方向の周辺分布hHと垂直方向の周辺分布hV
求める。
ステツプ:各ブロツクの周辺分布hH,hVの分散
αH,αVを計算する。
αH,αVを計算する。
ステツプ:各ブロツク別にαH,αVと閾値T1,
T2を比較し、αH>T1かつαV>T2であれば、そ
のブロツクを文字または記号のブロツク図と判
定する。
T2を比較し、αH>T1かつαV>T2であれば、そ
のブロツクを文字または記号のブロツク図と判
定する。
ステツプ:αH,αVを閾値T3,T4と比較し、αH
<T3かつαV<T4ならば図形ブロツクと判定する。
<T3かつαV<T4ならば図形ブロツクと判定する。
それ以外であれば不定ブロツクと判定する。
以上の処理で図形ブロツクが抽出された場合、
図形ブロツク図との連結性判定処理を行う。第3
図はそのフローチヤートである。この処理はパタ
ーンメモリ(A)1上で行われる。
図形ブロツク図との連結性判定処理を行う。第3
図はそのフローチヤートである。この処理はパタ
ーンメモリ(A)1上で行われる。
ステツプ:任意の図形ブロツク内の任意の画素
を最初の注目画素として選ぶ。
を最初の注目画素として選ぶ。
ステツプ:注目画素を黒画素上に移す。
ステツプ:注目黒画素済みか判定する。
ステツプ:注目黒画素は文字/記号ブロツク内
が判定する。
が判定する。
ステツプ:注目黒画素を当該図形ブロツク図内
の画素とみなし、当該図形ブロツクを拡張する
(または、注目黒画素に当該図形ブロツクの識別
番号をつける)。
の画素とみなし、当該図形ブロツクを拡張する
(または、注目黒画素に当該図形ブロツクの識別
番号をつける)。
ステツプ:参照すべき新しい画素が残つている
か判定する。
か判定する。
第4図は図形と文字・記号とが連結した場合の
走査順を説明する図であり、○印は黒画素、○印
内の数字は参照順序を示す。#6の黒画素は非図
形ブロツク内であるから、#5の画素に戻り、
#8の画素を捜す。
走査順を説明する図であり、○印は黒画素、○印
内の数字は参照順序を示す。#6の黒画素は非図
形ブロツク内であるから、#5の画素に戻り、
#8の画素を捜す。
以上の処理によつて、第5図のパターンPのブ
ロツクのうち、イ〜ハの各ブロツクは文字のブロ
ツクとして抽出される。他のブロツクは図形ブロ
ツクとして抽出される。
ロツクのうち、イ〜ハの各ブロツクは文字のブロ
ツクとして抽出される。他のブロツクは図形ブロ
ツクとして抽出される。
なお、本実施例においては、周辺分布の分散を
求め、それを用いてブロツクの判定を行つている
が(ステツプ〜)、周辺分布の標準偏差を用
いるようにしてもよい。
求め、それを用いてブロツクの判定を行つている
が(ステツプ〜)、周辺分布の標準偏差を用
いるようにしてもよい。
本発明は以上に詳述した如くであるから、アン
ダーラインや添字がある場合や図形の中に文字・
記号がある場合でも、文字・記号を図形と分離し
て確実に抽出することができるものである。
ダーラインや添字がある場合や図形の中に文字・
記号がある場合でも、文字・記号を図形と分離し
て確実に抽出することができるものである。
第1図は本発明に係る文字・記号抽出処理装置
の概略ブロツク図、第2図および第3図は第1図
装置の処理を示すフローチヤート、第4図は図形
ブロツクの連結判定処理における画素走査順を説
明するための図、第5図は文章領域パターンの一
例とその処理の説明図である。 1,2……パターンメモリ、3……プロセツ
サ、a〜c……サブ領域、イ〜ト……文字ブロツ
ク。
の概略ブロツク図、第2図および第3図は第1図
装置の処理を示すフローチヤート、第4図は図形
ブロツクの連結判定処理における画素走査順を説
明するための図、第5図は文章領域パターンの一
例とその処理の説明図である。 1,2……パターンメモリ、3……プロセツ
サ、a〜c……サブ領域、イ〜ト……文字ブロツ
ク。
Claims (1)
- 1 文書画像を第1方向の周辺分布に基づいて複
数のサブ領域に分割する処理と、各サブ領域を上
記第1方向に直交する第2方向の周辺分布に基づ
いて複数のブロツクに分割する処理と、各ブロツ
クごとに第1方向とこれに直交する第2方向の周
辺分布を求めて、それらの分散あるいは標準偏差
値を計算し、該分散あるいは標準偏差値を閾値と
比較して当該ブロツクが文字・記号ブロツクか図
形ブロツクかを判定し、文字・記号を図形と分離
して抽出する処理と、からなることを特徴とする
文字・記号抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58110435A JPS603074A (ja) | 1983-06-20 | 1983-06-20 | 文字・記号抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58110435A JPS603074A (ja) | 1983-06-20 | 1983-06-20 | 文字・記号抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS603074A JPS603074A (ja) | 1985-01-09 |
JPH0524555B2 true JPH0524555B2 (ja) | 1993-04-08 |
Family
ID=14535653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58110435A Granted JPS603074A (ja) | 1983-06-20 | 1983-06-20 | 文字・記号抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS603074A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6227877A (ja) * | 1985-07-30 | 1987-02-05 | Toshiba Corp | 光学的文字読取装置 |
JPH01321153A (ja) * | 1988-06-21 | 1989-12-27 | Schenectady Chem Inc | 研削砥石 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5525105A (en) * | 1978-08-09 | 1980-02-22 | Toshiba Corp | Character detecting segmantation unit |
JPS5699576A (en) * | 1980-01-08 | 1981-08-10 | Mitsubishi Electric Corp | Character reader |
JPS575181A (en) * | 1980-06-10 | 1982-01-11 | Toshiba Corp | Character detection and segmentation system |
-
1983
- 1983-06-20 JP JP58110435A patent/JPS603074A/ja active Granted
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5525105A (en) * | 1978-08-09 | 1980-02-22 | Toshiba Corp | Character detecting segmantation unit |
JPS5699576A (en) * | 1980-01-08 | 1981-08-10 | Mitsubishi Electric Corp | Character reader |
JPS575181A (en) * | 1980-06-10 | 1982-01-11 | Toshiba Corp | Character detection and segmentation system |
Also Published As
Publication number | Publication date |
---|---|
JPS603074A (ja) | 1985-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3372282B2 (ja) | 2進入力イメージを縮小する方法 | |
JP2001060247A (ja) | 画像処理装置および画像処理方法 | |
JP3728224B2 (ja) | 文書処理装置及び方法 | |
JP3420864B2 (ja) | 枠抽出装置及び矩形抽出装置 | |
JPH0524555B2 (ja) | ||
JPH0410087A (ja) | 基本ライン抽出方法 | |
JP4281236B2 (ja) | 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体 | |
JPH06187489A (ja) | 文字認識装置 | |
JP3190794B2 (ja) | 文字切り出し装置 | |
JPH04309191A (ja) | 領域属性識別装置 | |
JPH09288714A (ja) | 表認識方法および装置 | |
JPS63157287A (ja) | 文字パタ−ン抽出方法 | |
JPS63101983A (ja) | 文字列抽出方式 | |
JPH0573718A (ja) | 領域属性識別方式 | |
JPH11242716A (ja) | 画像処理方法および記録媒体 | |
JPH0586585B2 (ja) | ||
JPH0644406A (ja) | 画像処理方法及び装置 | |
JPS6327752B2 (ja) | ||
JPH0343879A (ja) | 文字認識装置およびその文字領域分離方法 | |
JPH08171609A (ja) | 文字列高速抽出装置 | |
JPH08185473A (ja) | 文字認識装置 | |
JPH0728933A (ja) | 文字認識装置 | |
JPH05135202A (ja) | 文書画像読み取り装置 | |
JPH04156694A (ja) | 文字認識方式 | |
JPH0412510B2 (ja) |