JPH0337782A - 文字パターン切り出し装置 - Google Patents
文字パターン切り出し装置Info
- Publication number
- JPH0337782A JPH0337782A JP1172444A JP17244489A JPH0337782A JP H0337782 A JPH0337782 A JP H0337782A JP 1172444 A JP1172444 A JP 1172444A JP 17244489 A JP17244489 A JP 17244489A JP H0337782 A JPH0337782 A JP H0337782A
- Authority
- JP
- Japan
- Prior art keywords
- character
- evaluation value
- pattern
- basic pattern
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 claims abstract description 112
- 238000000926 separation method Methods 0.000 claims abstract description 30
- 230000002093 peripheral effect Effects 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000008878 coupling Effects 0.000 abstract 1
- 238000010168 coupling process Methods 0.000 abstract 1
- 238000005859 coupling reaction Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 20
- 230000000694 effects Effects 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
この発明は文書に記入又は印刷された文字列のイメージ
から1文字ずつ文字パターンを切り出す文字パターン切
り出し装置に関し、特に、文字間に接触がある文字列の
イメージから文字パターンを切り出す文字パターン切り
出し装置に関するものである。
から1文字ずつ文字パターンを切り出す文字パターン切
り出し装置に関し、特に、文字間に接触がある文字列の
イメージから文字パターンを切り出す文字パターン切り
出し装置に関するものである。
文字を認識するには、用紙に記入又は印刷された文字列
を光電変換し、文字の部分を1の信号、背景の部分をO
の信号に2値化変換した文字列イメージから1文字ずつ
文字パターンを切り出さなければならない。
を光電変換し、文字の部分を1の信号、背景の部分をO
の信号に2値化変換した文字列イメージから1文字ずつ
文字パターンを切り出さなければならない。
第9図は、特開昭62−190575号に示された従来
の文字パターン切り出し装置の構成図を示すブロック図
である。
の文字パターン切り出し装置の構成図を示すブロック図
である。
図中、1は用紙、2は用紙1上に記入又は印刷された文
字列を光学的に走査して光電変換する光電変換手段、3
は光電変換手段2で光電変換された文字列イメージを格
納して記憶する文字列イメージ記憶手段、4は上記文字
列の方向く以降「文字列方向」と呼ぶ)と直交する方向
に文字列パターンを走査して求めた周辺分布値の連続性
に基づいて上記文字列イメージを分割して求めたパター
ン(以降「基本パターン」と呼ぶ)の左右端と上下端の
座標より基本パターン領域を検出する基本パターン領域
検出手段、5は上記基本パターン領域検出手段4で求め
た基本パターン領域の位置情報から単独の基本パターン
及び連続する複数個ののパターンらしいかを定量化した
文字らしさの1つの尺度(以降「文字矩形評価値」と呼
ぶ)を計算する文字矩形評価値算出手段、6は読み取り
対象文字の基準パターンを格納した文字認識辞書を記憶
する文字認識辞書記憶手段、7は上記文字認識辞書記憶
手段6に記憶した基準パターンと各要素パターンを整合
させることにより文字らしさの別の尺度である文字認識
評価値を算出する文字認識評価値算出手段、8は上記文
字矩形評価値算出手段5で算出した文字矩形評価値と上
記文字認識評価値算出手段7で算出した文字認識評価値
を加算して文字らしさの尺度である文字評価値を求める
文字評価値算出手段、9は上記文字評価値算出手段8で
求めた文字評価値の大きさに基づいて切り出すべき文字
パターンの位置を決定する文字切り出し位置決定手段、
10は上記文字切り出し位置決定手段9で決定した文字
パターン切り出し位置に基づいて上記文字列イメージ記
憶手段3に記憶した文字列イメージから個々の文字パタ
ーンを切り出す文字パターン切り出し手段、11は上記
文字バクーン切り出し手段10で切り出された個々の文
字パターンを記憶する文字パターン記憶手段である。
字列を光学的に走査して光電変換する光電変換手段、3
は光電変換手段2で光電変換された文字列イメージを格
納して記憶する文字列イメージ記憶手段、4は上記文字
列の方向く以降「文字列方向」と呼ぶ)と直交する方向
に文字列パターンを走査して求めた周辺分布値の連続性
に基づいて上記文字列イメージを分割して求めたパター
ン(以降「基本パターン」と呼ぶ)の左右端と上下端の
座標より基本パターン領域を検出する基本パターン領域
検出手段、5は上記基本パターン領域検出手段4で求め
た基本パターン領域の位置情報から単独の基本パターン
及び連続する複数個ののパターンらしいかを定量化した
文字らしさの1つの尺度(以降「文字矩形評価値」と呼
ぶ)を計算する文字矩形評価値算出手段、6は読み取り
対象文字の基準パターンを格納した文字認識辞書を記憶
する文字認識辞書記憶手段、7は上記文字認識辞書記憶
手段6に記憶した基準パターンと各要素パターンを整合
させることにより文字らしさの別の尺度である文字認識
評価値を算出する文字認識評価値算出手段、8は上記文
字矩形評価値算出手段5で算出した文字矩形評価値と上
記文字認識評価値算出手段7で算出した文字認識評価値
を加算して文字らしさの尺度である文字評価値を求める
文字評価値算出手段、9は上記文字評価値算出手段8で
求めた文字評価値の大きさに基づいて切り出すべき文字
パターンの位置を決定する文字切り出し位置決定手段、
10は上記文字切り出し位置決定手段9で決定した文字
パターン切り出し位置に基づいて上記文字列イメージ記
憶手段3に記憶した文字列イメージから個々の文字パタ
ーンを切り出す文字パターン切り出し手段、11は上記
文字バクーン切り出し手段10で切り出された個々の文
字パターンを記憶する文字パターン記憶手段である。
第10図は、上記基本パターン領域検出手段4による処
理の一例を示す図である。図中、12は文字列イメージ
、13は周辺分布値、14はパターン領域である。
理の一例を示す図である。図中、12は文字列イメージ
、13は周辺分布値、14はパターン領域である。
第11図は、上記文字矩形評価値算出手段5、文字認識
評価値手段7、文字評価値算出手段8でそれぞれ文字矩
形評価値、文字認識評価値、文字評価値を算出する基本
パターンと結合パターン(以降合わせて「要素パターン
」と呼ぶ)の例を示す図である。
評価値手段7、文字評価値算出手段8でそれぞれ文字矩
形評価値、文字認識評価値、文字評価値を算出する基本
パターンと結合パターン(以降合わせて「要素パターン
」と呼ぶ)の例を示す図である。
第12は、第10図に示された7個のパターン領域14
と隣接するパターン領域を結合して発生させた要素パタ
ーンの各評価値を示した図である。
と隣接するパターン領域を結合して発生させた要素パタ
ーンの各評価値を示した図である。
図中、15は文字矩形評価値Vf、16は文字認識評価
値Vr、17は文字評価値Vcである。
値Vr、17は文字評価値Vcである。
第13図は、上記文字切り出し位置決定手段9で文字切
り出し位置を決定するために発生させた要素パターンの
組合わせの例を示す図である。
り出し位置を決定するために発生させた要素パターンの
組合わせの例を示す図である。
第14図は、上記文字切り出し位置決定手段9で求めた
文字切り出し評価値である。図中、18は「昭」+「和
J + r6J + rOJ + r年」なる要素パタ
ーンの組合わせ、19は「昭」+「和」+r60J+r
年」なる要素パターンの組合わせ、20は「日」+「召
」+「和J + r6J + rOJ+「年」なる要素
パターンの組合わせ、21は要素パターン「昭」に対す
る文字評価値に基本パターン数を掛けた切り出し重み、
22は上記要素パターンの組合わせ18に対する文字切
り出し評価イ直Vである。
文字切り出し評価値である。図中、18は「昭」+「和
J + r6J + rOJ + r年」なる要素パタ
ーンの組合わせ、19は「昭」+「和」+r60J+r
年」なる要素パターンの組合わせ、20は「日」+「召
」+「和J + r6J + rOJ+「年」なる要素
パターンの組合わせ、21は要素パターン「昭」に対す
る文字評価値に基本パターン数を掛けた切り出し重み、
22は上記要素パターンの組合わせ18に対する文字切
り出し評価イ直Vである。
次に、第9図に示す従来の文字パターン切り出し装置の
動作について説明する。
動作について説明する。
まず、用紙1上の文字列は上記光電変換手段2で光電変
換され、上記文字列イメージ記憶手段3に格納される。
換され、上記文字列イメージ記憶手段3に格納される。
次に、上記文字列イメージ記憶手段3内の第10図に示
すような文字列イメージ「昭和60年」12は上記基本
パターン領域検出手段4に渡される。上記基本パターン
領域検出手段4では、文字列と直交する上下方向に文字
列イメージを走査して作成した周辺分布値13が所定の
しきい値を越える領域の連続性に基づいて文字列イメー
ジ「昭和60年」12を分割して得た各基本パターン「
日」、「召」、「禾」、「口」。
すような文字列イメージ「昭和60年」12は上記基本
パターン領域検出手段4に渡される。上記基本パターン
領域検出手段4では、文字列と直交する上下方向に文字
列イメージを走査して作成した周辺分布値13が所定の
しきい値を越える領域の連続性に基づいて文字列イメー
ジ「昭和60年」12を分割して得た各基本パターン「
日」、「召」、「禾」、「口」。
r6J、rOJ、r年」14の左右端と上下端の座標を
基本パターン領域として検出する。
基本パターン領域として検出する。
次に、上記文字矩形評価値算出手段5では、第11図に
示すような要素パターンの全てに対し、基本パターン領
域の位置情報に基づいて文字領域らしさを示す文字矩形
評価値Vfを算出する。具体的には、パターンに外接す
る矩形が正方形に近く、パターン内に存在する空白部分
が狭く、パターン両端に存在する空白部分が広いほど大
きな値をとるように文字矩形評価値が決定される。なお
、文字列の先頭から第i番目の基本パターンから第j番
目の基本パターンまでを結合してできる1つの要素パタ
ーンに対する文字矩形評価値をvr(i、 j)と表
す。また、文字矩形評価値Vf(t、j)は、0.0〜
1.0の値になるように正規化する。
示すような要素パターンの全てに対し、基本パターン領
域の位置情報に基づいて文字領域らしさを示す文字矩形
評価値Vfを算出する。具体的には、パターンに外接す
る矩形が正方形に近く、パターン内に存在する空白部分
が狭く、パターン両端に存在する空白部分が広いほど大
きな値をとるように文字矩形評価値が決定される。なお
、文字列の先頭から第i番目の基本パターンから第j番
目の基本パターンまでを結合してできる1つの要素パタ
ーンに対する文字矩形評価値をvr(i、 j)と表
す。また、文字矩形評価値Vf(t、j)は、0.0〜
1.0の値になるように正規化する。
また、上記文字認識評価値算出手段7では、上記文字認
識辞書記憶手段6に格納した基本バタンと要素パターン
との整合をとり、文字認識評価値を算出すみ。即ち、パ
ターンPから抽出した特殊ベクトルをX= [xl、x
2.= +、xk]、文字Cの基準パターンベクトルを
FC=[fCl。
識辞書記憶手段6に格納した基本バタンと要素パターン
との整合をとり、文字認識評価値を算出すみ。即ち、パ
ターンPから抽出した特殊ベクトルをX= [xl、x
2.= +、xk]、文字Cの基準パターンベクトルを
FC=[fCl。
fc2. ・・・、fck]としたとき、既に知られ
ている文字認識の技術を用いてパターンPがどの程度1
文字のパターンらしいかを定量化した値である類似度S
(P)を算出し、これを文字認識評価値Vr (P) とする。
ている文字認識の技術を用いてパターンPがどの程度1
文字のパターンらしいかを定量化した値である類似度S
(P)を算出し、これを文字認識評価値Vr (P) とする。
Vr
(P)
=S
(P)
(1)
(P)
1
(P)
(2)
!
(X。
1’ci)
(p)
(3)
ci
ここに、
5i(p)
ci
:パターンPと読み取り対象文
字ciとの類似度
:切り出し対象文字ciの基準
パターンベクトル
(X。
Fc1)
:XとFc1O内積
: JでCコbなるノルム
上記式(1)〜(3)より求まる文字認識評価値Vr(
P)はO,O〜1.0の値をとり、パターンPが文字ら
しい程大きな値をとる。
P)はO,O〜1.0の値をとり、パターンPが文字ら
しい程大きな値をとる。
以上のようにして上記文字矩形評価値算出手段5で求め
た文字矩形評価値と上記文字認識評価値算出手段7で求
めた文字認識評価値は、上記文字評価値算出手段8へ送
られる。
た文字矩形評価値と上記文字認識評価値算出手段7で求
めた文字認識評価値は、上記文字評価値算出手段8へ送
られる。
次に上記文字評価値算出手段8は、文字列の先頭から第
i番目の基本パターンから第4番目の基本パターンまで
を結合してできる1つの要素パターンPijに対して、
上記文字矩形評価値算出手段5で求めた文字矩形評価値
Vf (f、j)と上記文字認識評価値算出手段7で求
めた文字認識評価値Vr (Pi j)との線形加算
により求める。
i番目の基本パターンから第4番目の基本パターンまで
を結合してできる1つの要素パターンPijに対して、
上記文字矩形評価値算出手段5で求めた文字矩形評価値
Vf (f、j)と上記文字認識評価値算出手段7で求
めた文字認識評価値Vr (Pi j)との線形加算
により求める。
具体的には、式(4)より要素パターンPijがどの程
度1文字らしいかを示す文字評価値Vc(i、j)を求
める。
度1文字らしいかを示す文字評価値Vc(i、j)を求
める。
Vc (f、j)=Vf (i、j)+Vr (
pij) ・・・・ (
4)実際に上記基本パターン14から求めた要素バター
ンに対する文字評価値を第12図に示す。例えば、基本
パターン「日」に対する文字矩形評価値はrO,45J
であり、文字認識評価値はro、91Jであり、両者を
加算した文字評価値はrl、36Jである。なお、この
例では連続する3個の基本パターンまでを結合した場合
についての例を示している。
pij) ・・・・ (
4)実際に上記基本パターン14から求めた要素バター
ンに対する文字評価値を第12図に示す。例えば、基本
パターン「日」に対する文字矩形評価値はrO,45J
であり、文字認識評価値はro、91Jであり、両者を
加算した文字評価値はrl、36Jである。なお、この
例では連続する3個の基本パターンまでを結合した場合
についての例を示している。
次に、上記文字切り出し位置決定手段9では、上記基本
パターン領域間の境界点を文字列イメージの切り出し候
補位置とし、この各切り出し候補位置のあらゆる可能な
組合わせにより第13図に示す全ての切り出し可能な要
素パターンの組合わせを求める。
パターン領域間の境界点を文字列イメージの切り出し候
補位置とし、この各切り出し候補位置のあらゆる可能な
組合わせにより第13図に示す全ての切り出し可能な要
素パターンの組合わせを求める。
次に、各切り出し候補位置の組について、上記文字評価
値算出手段8で計算した各要素パターンの文字評価値に
基づいて、文字切り出し評価値を求める。
値算出手段8で計算した各要素パターンの文字評価値に
基づいて、文字切り出し評価値を求める。
即ち、文字列の先頭から第i番目の基本パターンから第
j番目の基本パターンまでを1つにした要素パターンを
Ptjとしたとき、Ptjに対する文字評価値Vc(i
IJ)に構成基本パターン数(j−i+1)を掛けた重
みwf (t、j)を第15図に示す2端子有向グラ
フの多枝に割り当てる。このとき切り出し評価値Vは2
端子有向グラフの始点から終点に至るバスにおける枝の
重みの和として表せる。そこで、技の重みの和が最大と
なるバスを周知のダイナミックプログラミングの手法を
用いて求める。そして、このバスを与える要素パターン
の組合わせを最適な文字切り出し結果と決定する。
j番目の基本パターンまでを1つにした要素パターンを
Ptjとしたとき、Ptjに対する文字評価値Vc(i
IJ)に構成基本パターン数(j−i+1)を掛けた重
みwf (t、j)を第15図に示す2端子有向グラ
フの多枝に割り当てる。このとき切り出し評価値Vは2
端子有向グラフの始点から終点に至るバスにおける枝の
重みの和として表せる。そこで、技の重みの和が最大と
なるバスを周知のダイナミックプログラミングの手法を
用いて求める。そして、このバスを与える要素パターン
の組合わせを最適な文字切り出し結果と決定する。
この実施例では、第14図に示すように、すべての要素
パターンの組合わせの内「昭」+「和」+ r6J +
rOJ + r年」の組合わせが文字切り出し評価値
はrl2.21Jと最大になる。したがって、上記文字
切り出し位置決定手段9では、「昭」、「和J、r6J
、rOJ、r年」となる要素パターンの組を切り出し結
果とする。
パターンの組合わせの内「昭」+「和」+ r6J +
rOJ + r年」の組合わせが文字切り出し評価値
はrl2.21Jと最大になる。したがって、上記文字
切り出し位置決定手段9では、「昭」、「和J、r6J
、rOJ、r年」となる要素パターンの組を切り出し結
果とする。
そして最後に、上記文字パターン切り出し手段10では
、上記文字切り出し位置決定手段9で決定した要素パタ
ーンの組の情報に基づいて上記文字列イメージ記憶手段
3から1文字ずつ文字パターンを切り出して文字パター
ン記憶手段工1に出力する。
、上記文字切り出し位置決定手段9で決定した要素パタ
ーンの組の情報に基づいて上記文字列イメージ記憶手段
3から1文字ずつ文字パターンを切り出して文字パター
ン記憶手段工1に出力する。
従来の文字パターン切り出し装置は以上のように、基本
パターン領域検出手段4で周辺分布値の連続性に基づい
て検出した基本パターンをそれ以上分割することのでき
ない最小の単位とし、単独の基本パターン又は連続する
複数個の基本パターンを結合したパターンを1つの文字
パターンとして切り出すように構成されていたので、文
字間に接触がある場合は該文字間で周辺分布値が連続し
、複数の文字にわたる領域が基本パターン領域′として
検出されるために、基本パターンのいかなる組合わせを
とっても正しく文字パターンを切り出せないといった問
題点があった。
パターン領域検出手段4で周辺分布値の連続性に基づい
て検出した基本パターンをそれ以上分割することのでき
ない最小の単位とし、単独の基本パターン又は連続する
複数個の基本パターンを結合したパターンを1つの文字
パターンとして切り出すように構成されていたので、文
字間に接触がある場合は該文字間で周辺分布値が連続し
、複数の文字にわたる領域が基本パターン領域′として
検出されるために、基本パターンのいかなる組合わせを
とっても正しく文字パターンを切り出せないといった問
題点があった。
この発明は上記のような問題点を解決するためになされ
たもので、文字間に接触がある場合でも、正しく文字パ
ターンを切り出すことができる文字パターン切り出し装
置を提供することを目的とする。
たもので、文字間に接触がある場合でも、正しく文字パ
ターンを切り出すことができる文字パターン切り出し装
置を提供することを目的とする。
この発明に係る文字パターン切り出し装置は、文字列の
方向と直交する方向に文字列イメージを走査して求めた
周辺分布値の連続性に基づいて文字列イメージを分割し
て得た基本パターンの左右端と上下端との座標より基本
パターン領域を検出する基本パターン領域検出手段4と
、上記基本パターン領域の文字列の方向の長さが所定の
しきい値を越える場合は該基本パターン領域において文
字間の接触があると判定し、該基本パターンの分離位置
の候補を該基本パターン領域内の周辺分布値の極小値を
与える位置と大きさの情報に基づいて検出する接触分離
候補位置検出手段23と、上記基本パターンを上記分離
位置の候補で分割して得られた基本パターンに対して単
独の基本パターンに対する文字らしさを示す文字評価値
と連続する複数個の基本パターンを結合した結合パター
ンに対する文字らしさを示す文字評価値とを算出する文
字評価値算出手段8と、上記基本パターン領域の位置情
報に基づいて文字切り出し候補位置のすべての可能な組
合わせを求め、各文字切り出し候補位置の組合わせにつ
いて文字切り出し候補位置で切り出した基本パターンと
結合パターンとに対応する上記文字評価値算出手段8で
算出された文字評価値に基づいて文字切り出し評価値を
求め、該文字切り出し評価値に基づき最適な文字切り出
し位置の組合わせを決定する文字切り出し位置決定手段
9とを備えたことを特徴とするものである。
方向と直交する方向に文字列イメージを走査して求めた
周辺分布値の連続性に基づいて文字列イメージを分割し
て得た基本パターンの左右端と上下端との座標より基本
パターン領域を検出する基本パターン領域検出手段4と
、上記基本パターン領域の文字列の方向の長さが所定の
しきい値を越える場合は該基本パターン領域において文
字間の接触があると判定し、該基本パターンの分離位置
の候補を該基本パターン領域内の周辺分布値の極小値を
与える位置と大きさの情報に基づいて検出する接触分離
候補位置検出手段23と、上記基本パターンを上記分離
位置の候補で分割して得られた基本パターンに対して単
独の基本パターンに対する文字らしさを示す文字評価値
と連続する複数個の基本パターンを結合した結合パター
ンに対する文字らしさを示す文字評価値とを算出する文
字評価値算出手段8と、上記基本パターン領域の位置情
報に基づいて文字切り出し候補位置のすべての可能な組
合わせを求め、各文字切り出し候補位置の組合わせにつ
いて文字切り出し候補位置で切り出した基本パターンと
結合パターンとに対応する上記文字評価値算出手段8で
算出された文字評価値に基づいて文字切り出し評価値を
求め、該文字切り出し評価値に基づき最適な文字切り出
し位置の組合わせを決定する文字切り出し位置決定手段
9とを備えたことを特徴とするものである。
基本パターン領域検出手段4は、文字列の方向と直交す
る方向に文字列イメージを走査して求めた周辺分布値の
連続性に基づいて文字列イメージを分割して得た基本パ
ターンの左右端と上下端との座標より基本パターン領域
を検出する。接触分離候補位置検出手段23は、上記基
本パターン領域の文字列の方向の長さが所定のしきい値
を越える場合は該基本パターン領域において文字間の接
触があると判定し、該基本パターンの分離位置の候補を
該基本パターン領域内の周辺分布値の極小値を与える位
置と大きさの情報に基づいて検出する。文字評価値算出
手段8は、上記基本パターンを上記分離位置の候補で分
割して得られた基本パターンに対して単独の基本パター
ンに対する文字らしさを示す文字評価値と連続する複数
個の基本パターンを結合した結合パターンに対する文字
らしさを示す文字評価値を算出する。文字切り出し位置
決定手段9は、上記基本パターン領域の位置情報に基づ
いて文字切り出し候補位置のすべての可能な組合わせを
求め、各文字切り出し候補位置の組合わせについて文字
切り出し候補位置で切り出した基本パターンと結合パタ
ーンとに対応する文字評価値算出手段8で算出された文
字評価値に基づいて文字切り出し評価値を求め、該文字
切り出し評価値に基づき最適な文字切り出し位置の組合
わせを決定する。
る方向に文字列イメージを走査して求めた周辺分布値の
連続性に基づいて文字列イメージを分割して得た基本パ
ターンの左右端と上下端との座標より基本パターン領域
を検出する。接触分離候補位置検出手段23は、上記基
本パターン領域の文字列の方向の長さが所定のしきい値
を越える場合は該基本パターン領域において文字間の接
触があると判定し、該基本パターンの分離位置の候補を
該基本パターン領域内の周辺分布値の極小値を与える位
置と大きさの情報に基づいて検出する。文字評価値算出
手段8は、上記基本パターンを上記分離位置の候補で分
割して得られた基本パターンに対して単独の基本パター
ンに対する文字らしさを示す文字評価値と連続する複数
個の基本パターンを結合した結合パターンに対する文字
らしさを示す文字評価値を算出する。文字切り出し位置
決定手段9は、上記基本パターン領域の位置情報に基づ
いて文字切り出し候補位置のすべての可能な組合わせを
求め、各文字切り出し候補位置の組合わせについて文字
切り出し候補位置で切り出した基本パターンと結合パタ
ーンとに対応する文字評価値算出手段8で算出された文
字評価値に基づいて文字切り出し評価値を求め、該文字
切り出し評価値に基づき最適な文字切り出し位置の組合
わせを決定する。
第1図はこの発明の一実施例に係る文字パターン切り出
し装置の構成を示すブロック図であり、第9図に示す構
成要素に対応するものには同一の符号を付し、その説明
を省略する。第1図において、23は基本パターン領域
の文字列の方向の長さが所定のしきい値を越える場合は
該基本パターン領域において文字間の接触があると判定
し、該基本パターンの分離位置の候補を、該基本バタン
領域内の周辺分布値の極小値を与える位置と大きさの情
報に基づいて検出する接触分離候補位置検出手段である
。即ち、接触分離候補位置検出手段23は基本パターン
領域検出手段4で検出した各基本パターン領域の周辺分
布値に基づいて文字間に接触があると仮定した場合の分
離位置の候補を検出する。文字矩形評価値算出手段5は
、接触分離候補位置検出手段23で検出された分離位置
の候補も参照して、基本パターン領域検出手段4で求め
た基本パターン領域の位置情報から単独の基本パターン
及び連続する複数個の基本パターン領域を結合した結合
パターンのそれぞれがどの程度1文字のパターンらしい
かを定量化した文字らしさの1つの尺度である文字矩形
評価値を算出する。文字認識評価値算出手段7は、上記
分離位置の候補も参照して、文字認識辞書記憶手段6に
記憶した基準パターンと各要素パターンを整合させるこ
とにより文字らしさの別の尺度である文字認識評価値を
算出する。文字評価値算出手段8は、上記基本パターン
を上記分離位置の候補で分割して得られた基本パターン
に対して単独の基本パターンに対する文字らしさを示す
文字評価値と、連続する複数個の基本パターンを結合し
た結合パターンに対する文字らしさを示す文字評価値と
を、上記文字矩形評価値及び上記文字認識評価値を参照
して算出する。文字切り出し位置決定手段9は、上記基
本パターン領域の位置情報に基づいて文字切り出し候補
位置のすべての可能な組合わせを求め、各文字切り出し
候補位置の組合わせについて文字切り出し候補位置で切
り出した基本パターンと結合パターンとに対応する文字
評価値に基づいて文字切り出し評価値を求め、該文字切
り出し評価値に基づき最適な文字切り出し位置の組合わ
せを決定する。
し装置の構成を示すブロック図であり、第9図に示す構
成要素に対応するものには同一の符号を付し、その説明
を省略する。第1図において、23は基本パターン領域
の文字列の方向の長さが所定のしきい値を越える場合は
該基本パターン領域において文字間の接触があると判定
し、該基本パターンの分離位置の候補を、該基本バタン
領域内の周辺分布値の極小値を与える位置と大きさの情
報に基づいて検出する接触分離候補位置検出手段である
。即ち、接触分離候補位置検出手段23は基本パターン
領域検出手段4で検出した各基本パターン領域の周辺分
布値に基づいて文字間に接触があると仮定した場合の分
離位置の候補を検出する。文字矩形評価値算出手段5は
、接触分離候補位置検出手段23で検出された分離位置
の候補も参照して、基本パターン領域検出手段4で求め
た基本パターン領域の位置情報から単独の基本パターン
及び連続する複数個の基本パターン領域を結合した結合
パターンのそれぞれがどの程度1文字のパターンらしい
かを定量化した文字らしさの1つの尺度である文字矩形
評価値を算出する。文字認識評価値算出手段7は、上記
分離位置の候補も参照して、文字認識辞書記憶手段6に
記憶した基準パターンと各要素パターンを整合させるこ
とにより文字らしさの別の尺度である文字認識評価値を
算出する。文字評価値算出手段8は、上記基本パターン
を上記分離位置の候補で分割して得られた基本パターン
に対して単独の基本パターンに対する文字らしさを示す
文字評価値と、連続する複数個の基本パターンを結合し
た結合パターンに対する文字らしさを示す文字評価値と
を、上記文字矩形評価値及び上記文字認識評価値を参照
して算出する。文字切り出し位置決定手段9は、上記基
本パターン領域の位置情報に基づいて文字切り出し候補
位置のすべての可能な組合わせを求め、各文字切り出し
候補位置の組合わせについて文字切り出し候補位置で切
り出した基本パターンと結合パターンとに対応する文字
評価値に基づいて文字切り出し評価値を求め、該文字切
り出し評価値に基づき最適な文字切り出し位置の組合わ
せを決定する。
第2図は文字列パターンの一例を示す図である。
図中、24は1個の基本パターン領域からなる文字列イ
メージ「基礎」、25は文字列イメージ24の文字列の
方向の座標「339〜432」、26は文字列方向と直
交する方向に上記文字列イメージ24を走査して求めた
周辺分布値、27は周辺分布値26を走査して求めた極
小値(○で囲んだ数値)である。
メージ「基礎」、25は文字列イメージ24の文字列の
方向の座標「339〜432」、26は文字列方向と直
交する方向に上記文字列イメージ24を走査して求めた
周辺分布値、27は周辺分布値26を走査して求めた極
小値(○で囲んだ数値)である。
第3図は第2図に示す周辺分布値の極小値27を値の小
さい順に並び換え、文字列方向の座標と対応させて1表
示したものである。
さい順に並び換え、文字列方向の座標と対応させて1表
示したものである。
第4図は第3図において周辺分布値の極小値が所定のし
きい値以下のものを選択し、文字列方向の座標が小さい
順に並び換えたものである。
きい値以下のものを選択し、文字列方向の座標が小さい
順に並び換えたものである。
第5図は第4図において文字列の方向の座標をとする。
第6図の28は、第5図の分離候補位置で文字列イメー
ジ24を分割して得られた基本パターン領域である。
ジ24を分割して得られた基本パターン領域である。
第7図は、第6図に示した基本パターンの組合わせから
なる要素パターンの各評価値を示す図である。
なる要素パターンの各評価値を示す図である。
第8図は、文字切り出し決定手段9で求めた文字切り出
し評価値である。
し評価値である。
次に、第1図〜第8図を参照してこの実施例の動作を説
明する。
明する。
基本パターン領域検出手段4は、従来の文字パターン切
り出し装置と同様にして、文字列イメージ記憶手段3に
格納された文字列イメージ「基礎」24を走査し、周辺
分布値26を求め、この連続性から第2図に示すように
文字列の方向の座標25が「339〜432」である1
つの基本パターン領域を検出する。
り出し装置と同様にして、文字列イメージ記憶手段3に
格納された文字列イメージ「基礎」24を走査し、周辺
分布値26を求め、この連続性から第2図に示すように
文字列の方向の座標25が「339〜432」である1
つの基本パターン領域を検出する。
次に接触分離候補位置検出手段23では、すべての基本
パターンを以下に示す5つのステップで処理する。
パターンを以下に示す5つのステップで処理する。
第1ステツプは、第2図に示す基本パターン領域の文字
列の方向の長さを求め、この長さが所定のしきい値(例
えば、16)以上ある場合は、該基本パターン領域にお
いて文字間の接触があると判定し、以下に示す第2ステ
ツプから第5ステツプを実行する。第2図に示す基本パ
ターン領域では、文字列の方向の長さ、即ち基本パター
ンの矩形幅が「94」で、この値は所定のしきい値以上
であるので該基本パターンは文字間の接触があると判定
し、以下に示す各ステップを実行する。
列の方向の長さを求め、この長さが所定のしきい値(例
えば、16)以上ある場合は、該基本パターン領域にお
いて文字間の接触があると判定し、以下に示す第2ステ
ツプから第5ステツプを実行する。第2図に示す基本パ
ターン領域では、文字列の方向の長さ、即ち基本パター
ンの矩形幅が「94」で、この値は所定のしきい値以上
であるので該基本パターンは文字間の接触があると判定
し、以下に示す各ステップを実行する。
第2ステツプは、周辺分布値26を走査し、その値が極
小値27となる位置を求める。第2図に示す例では、周
辺分布値が極小となる位置(座標)は17個あり、これ
を周辺分布値の小さい順に並べ換える。周辺分布値と座
標の対で表すと第3図に示すようになる。
小値27となる位置を求める。第2図に示す例では、周
辺分布値が極小となる位置(座標)は17個あり、これ
を周辺分布値の小さい順に並べ換える。周辺分布値と座
標の対で表すと第3図に示すようになる。
第3ステツプは、第3図において周辺分布値が所定のし
きい値(例えば、8)以下のものを選択する。第3図に
おいて周辺分布値が8以下の位置(座標)は3個あり、
これを文字列の方向の座標が小さい順に並べ換える。座
標と周辺分布値の対で表すと第4図に示すようになる。
きい値(例えば、8)以下のものを選択する。第3図に
おいて周辺分布値が8以下の位置(座標)は3個あり、
これを文字列の方向の座標が小さい順に並べ換える。座
標と周辺分布値の対で表すと第4図に示すようになる。
第4ステツプは、第4図の座標を走査し、座標間の距離
が所定のしきい値(例えば、8)以下の場合より周辺分
布値の大きい方を除去する。第4図において座標r40
1Jとr403Jの間隔は3で、所定のしきい値の8以
下である。したがって、周辺分布値の大きい座標r40
3Jが除去され、第5図に示す2個の接触分離候補位置
r386Jとr401Jが得られる。
が所定のしきい値(例えば、8)以下の場合より周辺分
布値の大きい方を除去する。第4図において座標r40
1Jとr403Jの間隔は3で、所定のしきい値の8以
下である。したがって、周辺分布値の大きい座標r40
3Jが除去され、第5図に示す2個の接触分離候補位置
r386Jとr401Jが得られる。
第5ステツプは、第5図に示す2個の接触分離候補位置
で文字列イメージ24を分離する。その結果として第6
図に示す3つの基本パターン「基」と「石」と「楚」が
得られる。
で文字列イメージ24を分離する。その結果として第6
図に示す3つの基本パターン「基」と「石」と「楚」が
得られる。
この後は、従来の文字パターン切り出し装置と同様に処
理する。
理する。
まず、文字矩形評価値算出手段5と文字認識評価値算出
手段6と文字評価値算出手段8によって、上記3つの基
本パターンとそれらの結合パターンである要素パターン
に対して、それぞれ、文字矩形評価値Vf、文字認識評
価値Vr、文字評価値Vcを求める。求めた評価値Vf
、Vr、Vcは、第7図に示・すようになる。次に、文
字切り出し位置決定手段9によって、上記要素パターン
の組合わせに対して文字切り出し評価値を求める。
手段6と文字評価値算出手段8によって、上記3つの基
本パターンとそれらの結合パターンである要素パターン
に対して、それぞれ、文字矩形評価値Vf、文字認識評
価値Vr、文字評価値Vcを求める。求めた評価値Vf
、Vr、Vcは、第7図に示・すようになる。次に、文
字切り出し位置決定手段9によって、上記要素パターン
の組合わせに対して文字切り出し評価値を求める。
第8図に示すように、最大の文字切り出し評価値Vがr
5.41Jである組合わせ「基」+「礎」が切り出し結
果となる。
5.41Jである組合わせ「基」+「礎」が切り出し結
果となる。
なお、上記実施例では文字評価値として文字矩形評価値
と文字認識評価値を併用する場合について説明したが、
それぞれ単独に用いてもよい。また、上記実施例では横
書きの文字列について説明したが、縦書きの文字列につ
いても同様の効果を奏する。
と文字認識評価値を併用する場合について説明したが、
それぞれ単独に用いてもよい。また、上記実施例では横
書きの文字列について説明したが、縦書きの文字列につ
いても同様の効果を奏する。
以上のように本発明によれば、基本パターン領域検出手
段で検出した各基本パターン領域内の周辺分布値を走査
して文字間で接触している箇所を分離するための接触分
離候補位置を検出する接触分離候補位置検出手段を備え
て構成したので、各基本パターン領域に対して接触分離
候補位置が検出され、この接触分離候補位置で分割して
得られた基本パターン群に対して単独の基本パターン又
は連続する複数個の基本パターンを結合したパターンを
1つの文字パターンとして切り出すことが可能となり、
したがって文字間に接触がある場合でも正しく文字パタ
ーンを切り出すことができるという効果が得られる。
段で検出した各基本パターン領域内の周辺分布値を走査
して文字間で接触している箇所を分離するための接触分
離候補位置を検出する接触分離候補位置検出手段を備え
て構成したので、各基本パターン領域に対して接触分離
候補位置が検出され、この接触分離候補位置で分割して
得られた基本パターン群に対して単独の基本パターン又
は連続する複数個の基本パターンを結合したパターンを
1つの文字パターンとして切り出すことが可能となり、
したがって文字間に接触がある場合でも正しく文字パタ
ーンを切り出すことができるという効果が得られる。
第1図はこの発明の一実施例に係る文字パターン切り出
し装置の構成を示すブロック図、第2図はこの実施例に
おける文字列パターンの一例図、第3図はこの実施例に
おいて周辺分布値と座標との対応図、第4図は第3図の
対応図から一部を取り出した座標と周辺分布値との対応
図、第5図はこの実施例において分離候補位置を示す座
標と周辺分布値との対応図、第6図は第5図の分離候補
位置で文字列イメージを分割して得られた基本パターン
の一例図、第7図は第6図に示した基本パターンの組合
わせからなる要素パターンの各評価値を示す図、第8図
はこの実施例において文字切り出し手段で求めた文字切
り出し評価値を示す図、第9図は従来の文字パターン切
り出し装置の構成を示すブロック図、第10図はこの従
来例において基本パターン領域検出手段による処理を説
明するための図、第11図はこの従来例において基本パ
ターンと結合パターンとを説明するための図、第12図
は第10図に示された7個のパターン領域と隣接するパ
ターン領域を結合して発生させた要素パターンの各評価
値を示す図、第13図はこの従来において文字切り出し
位置決定手段で文字切り出し位置を決定するために発生
させた要素パターンの組合わせの例を示す図、第14図
はこの従来例において文字切り出し位置決定手段で求め
た文字切り出し評価値を示す図、第15図はこの従来例
の動作を説明するための図である。 1・・・用紙、2・・・光電変換手段、4・・・基本パ
ターン領域検出手段、8・・・文字評価値算出手段、9
・・・文字切り出し位置決定手段、10・・・文字パタ
ーン切り出し手段、23・・・接触分離候補位置検出手
段。
し装置の構成を示すブロック図、第2図はこの実施例に
おける文字列パターンの一例図、第3図はこの実施例に
おいて周辺分布値と座標との対応図、第4図は第3図の
対応図から一部を取り出した座標と周辺分布値との対応
図、第5図はこの実施例において分離候補位置を示す座
標と周辺分布値との対応図、第6図は第5図の分離候補
位置で文字列イメージを分割して得られた基本パターン
の一例図、第7図は第6図に示した基本パターンの組合
わせからなる要素パターンの各評価値を示す図、第8図
はこの実施例において文字切り出し手段で求めた文字切
り出し評価値を示す図、第9図は従来の文字パターン切
り出し装置の構成を示すブロック図、第10図はこの従
来例において基本パターン領域検出手段による処理を説
明するための図、第11図はこの従来例において基本パ
ターンと結合パターンとを説明するための図、第12図
は第10図に示された7個のパターン領域と隣接するパ
ターン領域を結合して発生させた要素パターンの各評価
値を示す図、第13図はこの従来において文字切り出し
位置決定手段で文字切り出し位置を決定するために発生
させた要素パターンの組合わせの例を示す図、第14図
はこの従来例において文字切り出し位置決定手段で求め
た文字切り出し評価値を示す図、第15図はこの従来例
の動作を説明するための図である。 1・・・用紙、2・・・光電変換手段、4・・・基本パ
ターン領域検出手段、8・・・文字評価値算出手段、9
・・・文字切り出し位置決定手段、10・・・文字パタ
ーン切り出し手段、23・・・接触分離候補位置検出手
段。
Claims (1)
- 用紙等に記入又は印刷された文字列を光学的に走査し、
光電変換して得られた文字列イメージから1文字ずつ文
字パターンを切り出す文字パターン切り出し装置におい
て、上記文字列の方向と直交する方向に上記文字列イメ
ージを走査して求めた周辺分布値の連続性に基づいて上
記文字列イメージを分割して得た基本パターンの左右端
と上下端との座標より基本パターン領域を検出する基本
パターン領域検出手段と、上記基本パターン領域の文字
列の方向の長さが所定のしきい値を越える場合は該基本
パターン領域において文字間の接触があると判定し、該
基本パターンの分離位置の候補を該基本パターン領域内
の周辺分布値の極小値を与える位置と大きさの情報に基
づいて検出する接触分離候補位置検出手段と、上記基本
パターンを上記分離位置の候補で分割して得られた基本
パターンに対して単独の基本パターンに対する文字らし
さを示す文字評価値と連続する複数個の基本パターンを
結合した結合パターンに対する文字らしさを示す文字評
価値とを算出する文字評価値算出手段と、上記基本パタ
ーン領域の位置情報に基づいて文字切り出し候補位置の
すべての可能な組合わせを求め、各文字切り出し候補位
置の組合わせについて文字切り出し候補位置で切り出し
た基本パターンと結合パターンとに対応する上記文字評
価値算出手段で算出された文字評価値に基づいて文字切
り出し評価値を求め、該文字切り出し評価値に基づき最
適な文字切り出し位置の組合わせを決定する文字切り出
し位置決定手段とを備えたことを特徴とする文字パター
ン切り出し装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1172444A JPH0337782A (ja) | 1989-07-04 | 1989-07-04 | 文字パターン切り出し装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1172444A JPH0337782A (ja) | 1989-07-04 | 1989-07-04 | 文字パターン切り出し装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0337782A true JPH0337782A (ja) | 1991-02-19 |
Family
ID=15942100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1172444A Pending JPH0337782A (ja) | 1989-07-04 | 1989-07-04 | 文字パターン切り出し装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0337782A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8401298B2 (en) | 2009-02-25 | 2013-03-19 | Fujitsu Limited | Storage medium storing character recognition program, character recognition method, and character recognition apparatus |
US9280725B2 (en) | 2013-02-14 | 2016-03-08 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59158478A (ja) * | 1983-03-01 | 1984-09-07 | Nec Corp | 文字ピツチ検出装置 |
JPS61175878A (ja) * | 1985-01-31 | 1986-08-07 | Mitsubishi Electric Corp | 文書読取り装置 |
JPS61195474A (ja) * | 1985-02-25 | 1986-08-29 | Mitsubishi Electric Corp | 文字パタ−ン切り出し装置 |
JPS63216188A (ja) * | 1987-03-04 | 1988-09-08 | Sharp Corp | 接触文字切出し方法 |
-
1989
- 1989-07-04 JP JP1172444A patent/JPH0337782A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59158478A (ja) * | 1983-03-01 | 1984-09-07 | Nec Corp | 文字ピツチ検出装置 |
JPS61175878A (ja) * | 1985-01-31 | 1986-08-07 | Mitsubishi Electric Corp | 文書読取り装置 |
JPS61195474A (ja) * | 1985-02-25 | 1986-08-29 | Mitsubishi Electric Corp | 文字パタ−ン切り出し装置 |
JPS63216188A (ja) * | 1987-03-04 | 1988-09-08 | Sharp Corp | 接触文字切出し方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8401298B2 (en) | 2009-02-25 | 2013-03-19 | Fujitsu Limited | Storage medium storing character recognition program, character recognition method, and character recognition apparatus |
US9280725B2 (en) | 2013-02-14 | 2016-03-08 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and non-transitory computer readable medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5050222A (en) | Polygon-based technique for the automatic classification of text and graphics components from digitized paper-based forms | |
CN108280430A (zh) | 一种流程图像识别方法 | |
Kim et al. | Word segmentation of printed text lines based on gap clustering and special symbol detection | |
JPH0337782A (ja) | 文字パターン切り出し装置 | |
US4769851A (en) | Apparatus for recognizing characters | |
Ting et al. | A syntactic business form classifier | |
JPH0476159B2 (ja) | ||
JPH03225579A (ja) | 文字パターン切り出し装置 | |
JP3457094B2 (ja) | 文字認識装置及び文字認識方法 | |
JPH0728935A (ja) | 文書画像処理装置 | |
JP3083609B2 (ja) | 情報処理装置及びそれを用いた文字認識装置 | |
JP2576080B2 (ja) | 文字切出し方法 | |
JPH01231186A (ja) | 文字認識方式 | |
JPH0713994A (ja) | 文字認識装置 | |
JPH0420507B2 (ja) | ||
JPS62169287A (ja) | 記載文字形態判別方式 | |
Dori et al. | Object-process based segmentation and recognition of ANSI and ISO standard dimensioning texts | |
JP2925303B2 (ja) | 画像処理方法及び装置 | |
JPH0242589A (ja) | 文字パターン切り出し装置 | |
JPH01181177A (ja) | 文字検出切出装置 | |
JPS6334682A (ja) | 文字認識装置 | |
JP2974396B2 (ja) | 画像処理方法及び装置 | |
JPH07118016B2 (ja) | 図形認識装置 | |
JPH0467674B2 (ja) | ||
JPS63136286A (ja) | オンライン文字認識方式 |