JPH0476159B2 - - Google Patents

Info

Publication number
JPH0476159B2
JPH0476159B2 JP61033193A JP3319386A JPH0476159B2 JP H0476159 B2 JPH0476159 B2 JP H0476159B2 JP 61033193 A JP61033193 A JP 61033193A JP 3319386 A JP3319386 A JP 3319386A JP H0476159 B2 JPH0476159 B2 JP H0476159B2
Authority
JP
Japan
Prior art keywords
character
pattern
evaluation value
basic
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61033193A
Other languages
English (en)
Other versions
JPS62190575A (ja
Inventor
Naoki Ogawa
Fumio Yoda
Yoji Maeda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP61033193A priority Critical patent/JPS62190575A/ja
Publication of JPS62190575A publication Critical patent/JPS62190575A/ja
Publication of JPH0476159B2 publication Critical patent/JPH0476159B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、文書に記入された文字列から文字
パターンを切り出す文字パターン切り出し装置に
関するものである。
〔従来の技術〕
文字を認識するには、用紙に記入された文字を
光電変換し、文字の部分、背景の部分に対応して
1、0の信号に2値化変換した文字パターンから
1文字づつ文字パターンを切り出さなければなら
ない。第2図は先に当社より出願した特願昭60−
17265号に示されたこの種の装置の構成を示す図
であり、図中1は用紙、2は用紙1上に記入され
た文字列を光学的に走査して光電変換する走査手
段、3は光電変換された文字列のパターン(以
後、「文字列パターン」と呼ぶ)を記憶する文字
列パターン記憶手段、4は文字列パターンを走査
して求めた周辺分布値の連続性に基づき、上記文
字列パターンを分割して求めたパターン(以後、
「基本パターン」と呼ぶ)の左右端と上下端の座
標より基本パターン領域を検出する基本パターン
領域検出手段、5は上記基本パターン領域検出手
段4で求めた基本パターン領域の位置情報から単
独の基本パターン及び連続する複数個の基本パタ
ーン領域を結合したパターン(以後「結合パター
ン」と呼ぶ)のそれぞれが、どの程度1文字のパ
ターンらしいかを定量化した値(以後「文字形状
評価値」と呼ぶ)を計算する文字形状評価値算出
手段、6は上記文字形状評価値算出手段5で求め
た文字形状評価値の大きさに基づき切り出すべき
文字パターンの位置を決定する文字切り出し手
段、7は上記文字切り出し手段6で決定した文字
パターン切り出し位置に基づいて上記文字列パタ
ーン記憶手段3に記憶した文字列パターンから1
文字ずつ文字パターンを切り出す出力手段であ
る。第3図は、上記基本パターン領域検出手段4
による処理の一例を示す図である。図中8は文字
列パターン、9は周辺分布値、10は基本パター
ンの例であり各基本パターンと対応する基本パタ
ーン領域を矩形で囲つて示してある。第4図は、
上記文字評価値算出手段5で文字評価値を算出す
る為の基本パターンと結合パターン(以後これら
のパターンを「要素パターン」と呼ぶ)の例を示
す図である。第5図は、上記文字切り出し手段6
で文字を切り出すために発生させた要素パターン
の組み合せの例を示す図である。
次に第2図〜第5図を用いて第2図の特願昭60
−17265号に示された従来のこの種の装置の動作
について説明する。まず用紙1上の文字列は上記
走査手段2で光電変換され、上記文字列パターン
記憶手段3に格納される。次に上記文字列パター
ン記憶手段3内の文字列パターン「設計」8は上
記基本パターン領域検出手段4に渡される。
上記基本パターン領域検出手段4では、文字列
パターンを走査して作成した周辺分布値9が所定
の閾値をこえる領域の連続性に基づいて文字列パ
ターン「設計」8を分割し、分割して得た各基本
パターン「言」、「殳」、「言」、「+」10の左右端
と上下端の座標を基本パターン領域として検出す
る。
次に、上記文字形状評価値算出手段5では、第
4図に示す要素パターンのすべてに対し、基本パ
ターン領域の位置情報に基づいて文字領域らしさ
を示す文字形状評価値を算出する。具体的には、
パターンに外接する矩形が正方形に近く、パター
ン内に存在する空白部分が狭く、さらにパターン
両端に存在する空白部分が広いほど大きな値をと
るように文字形状評価値が決定される。
次に上記文字切り出し手段6では、上記基本パ
ターン領域間の境界点を文字列パターンの切り出
し候補位置とし、この各切り出し候補位置のあら
ゆる可能な組み合せにより第5図に示すすべての
切り出し可能な要素パターンの組み合せを求め
る。
次に各切り出し候補位置の組について、上記文
字形状評価値算出手段5で計算した各要素パター
ンの文字形状評価値に基づいて、切り出し評価値
を求める。
すなわち文字列の先頭から第i番目の基本パタ
ーンPiiから第j番目の基本パターンPjjまで(j
≧i)を1つにした要素パターンをPijとした時、
Pijに対する文字形状評価値vf(i、j)に構成基
本パターン数(j−i+1)を掛けた重みwf
(i、j)を第6図に示す2端子有向グラフの各
枝に割り当てる。この時切り出し評価値vは2端
子有向グラフの始点から終点に至るパスにおける
枝の重みの和として表せる。そこで、枝の重みの
和が最大となるパスを周知のダイナミツクプログ
ラミングの手法を用いて求める。そして、このパ
スを与える要素パターンの組み合せを最適な文字
切り出し結果と決定する。
最後に上記出力手段7は上記文字切り出し手段
6で決定した要素パターンの組の情報に基づいて
上記文字列パターン記憶手段3に記憶した文字列
パターンから1文字ずつ文字パターンを切り出し
て出力する。
〔発明が解決しようとする問題点〕
特願昭60−1726号に示された文字パターン切り
出し装置は以上のように、文字形状評価値算出手
段において各要素パターンに対しパターン形状や
パターン間に存在する空白部分の広さ等に基づい
てどの程度文字領域らしいかを示す文字形状評価
値を計算し、文字切り出し手段で各要素パターン
の文字形状評価値に基づいて最適な組合せを求め
るように構成されていたので、パターンに外接す
る矩形の位置と形状の情報しか用いないため数字
等の非漢字が接近して記入された文字列や漢字の
偏や旁の一方を大きく記入した文字を含む文字列
から個々の文字を正確に切り出すことは困難であ
るという問題点があつた。例えば、文字列「昭和
60年」のように接近して記入された数字列「60」
は偏と旁からなる漢字と同じ形状になる傾向が多
くこのため「60」を正しく「6」と「0」とに切
り出せないという問題点があつた。
この発明は、上記のような問題点を解消するた
めになされたもので、接近して記入された非漢字
や偏や旁が大きく記入された漢字を含むフリーピ
ツチで記入された文字列からも正しく文字を切り
出せる文字パターン切り出し装置を得ることを目
的とする。
〔問題点を解決するための手段〕
この発明に係る文字パターン切り出し装置は、
読み取り対象文字の基準パターンが格納されてい
る文字認識辞書記憶手段と、上記文字認識辞書記
憶手段に格納した基準パターンと各要素パターン
とを整合させて文字認識評価値を算出する文字認
識評価値算出手段と、文字形状評価値算出手段で
算出した文字形状評価値と文字認識評価値算出手
段で算出した文字認識評価値とを加算し、文字評
価値を求める評価値加算手段とを付加したもので
ある。
〔作用〕
この発明における文字パターン切り出し装置
は、文字認識評価値算出手段で各要素パターンを
認識した結果に基づいて算出した文字認識評価値
と、評価値加算手段でパターンの形状に基づいて
算出した文字形状評価値とを加え、この2種類の
情報に基づいて文字を切り出すようにしたので、
接近して記入された非漢字や偏や旁を大きく記入
された漢字を含んだフリーピツチの文字列から
個々の文字を正しく切り出すことができる。
〔発明の実施例〕
以下、この発明の実施例を図を用いて詳細に説
明する。第1図は、この発明の一実施例の構成を
示す図である。図中1〜7は上記従来装置と同一
である。11は、読み取り対象文字の基準パター
ンを格納した文字認識辞書を記憶する文字認識辞
書記憶手段、12は、上記文字認識辞書記憶手段
11に記憶した基準パターンと各要素パターンと
を整合させることにより文字認識評価値を算出す
る文字認識評価値算出手段、13は、文字形状評
価値と文字認識評価値とを加算する評価値加算手
段である。
第7図は、文字列パターンの一例を示す図であ
つて、図中14は文字列パターン、15はこの文
字列パターンから抽出した基本パターンである。
第8図は、第7図に示した7個の基本パターン
15より求めた要素パターンの各評価値を示す図
であつて、図中16は文字形状評価値vf、17は
文字認識評価値vr、18は文字評価値vである。
第9図はこの実施例における文字切り出し評価値
を示す図であつて、図中19は「昭」+「和」+
「6」+「0」+「年」なる要素パターンの組合せ、
20は「昭」+「和」+「60」+「年」なる要素パター
ンの組合せ、21は「日」+「召」+「和」+「6」+
「0」+「年」なる要素パターンの組合せ、22は、
要素パターン「昭」に対する文字評価値に基本パ
ターン数を掛けた切り出し重み、23は上記要素
パターンの組合せ19に対する切り出し評価値で
ある。第10図は、文字評価値のかわりに文字形
状評価値のみを用いた場合の文字切り出し評価値
を示す図であつて、図中19〜23は第9図と同
一である。
次に、第1図に示す実施例の動作を説明する。
まず用紙1上に記入された文字列は上記走査手段
2で光電変換され、この結果得た1行分の文字列
パターン「昭和60年」14は、上記文字列パター
ン記憶手段3に格納される。次に上記文字列パタ
ーン「昭和60年」14は上記基本パターン領域検
出手段4に渡される。上記基本パターン領域検出
手段4では、文字列パターン「昭和60年」14か
ら基本パターン「日」、「召」、「禾」、「口」、「6
」、
「0」、「年」15を抽出し、各基本パターンに外
接する矩形に対応する左右端、上下端の座標を求
めて上記文字形状評価値算出手段5と上記文字認
識評価値算出手段12に転送する。次に上記文字
形状評価値算出手段5では、従来の装置と同様の
方法ですべての要素パターンに対する文字形状評
価値を算出する。なお文字形状評価値は0.0〜1.0
の値になるように正規化する。
また上記文字認識評価値算出手段では上記文字
認識辞書記憶手段11に格納した基準パターンと
要素パターンとの整合をとり、文字認識評価値を
算出する。すなわち、パターンPから抽出した特
徴ベクトルを〓=〔x1、x2、……xk〕、文字Cの
基準パターンベクトルを〓c=〔fC1、fC2、……
fck〕とした時、すでに知られている文字認識の
技術を用いてパターンPがどの程度1文字のパタ
ーンらしいかを定量化した値である類似度S(P)を
算出し、これを文字認識評価値vr(P)とする。
vr(P)=S(P) ……(1) S(P)=m a ixSi(P) ……(2) Si(P)=(〓、〓ci)/‖〓‖・‖〓ci‖……(3) ここに Si(P):パターンPと読み取り対象文字Ciとの類似
度 〓ci:切り出し対象文字Ciの基準パターンベクト
ル (〓、〓ci):〓と〓ciの内積 ‖〓‖:√(〓、〓)なるノルム 上記式(1)〜(3)より求まる文字認識評価値vr(P)は
0.0〜1.0の値をとり、パターンPが文字らしい程
大きな値をとる。
以上のようにして上記文字形状評価値算出手段
5で求めた文字形状評価値と、上記文字認識評価
値算出手段で求めた文字認識評価値は、上記評価
値加算手段13へ送られる。
次に、上記評価値加算手段13では、各要素パ
ターンPijに対する文字評価値を、上記文字形状
評価値算出手段5で算出した文字形状評価値vf
(i、j)と上記文字認識評価値算出手段12で
算出した文字認識評価値vr(Pij)との線形加算に
より求める。具体的には、式(4)より要素パターン
Pijがどの程度文字らしいかを示す文字評価値v
(i、j)を求める。
v(i、j)=vf(i、j)+vr(Pij) ……(4) 実際に上記基本パターン15から求めた要素パ
ターンに対する文字評価値を第8図に示す。例え
ば、基本パターン「日」に対する文字形状評価値
は「0.45」であり、文字認識評価値は「0.91」で
あり、両者を加算した文字評価値は「1.36」であ
る。
なお、この例では連続する3個の基本パターン
までを結合した場合についての例を示している。
次に文字切り出し手段6では上記文字評価値を
もとに従来の装置と同様の方法で切り出し評価値
を求め、この切り出し評価値を最大とする要素パ
ターンの組合せを最適な文字切り出し結果と決定
する。この実施例では、第9図に示すように、す
べての要素パターンの組合せのうち「昭」+「和」
+「6」+「0」+「年」の組合せが切り出し評価値
は「12.21」と最大となる。従つて上記文字切り
出し手段6では「昭」、「和」、「6」、「0」、「年

となる要素パターンの組を切り出し結果とする。
そして最後に上記出力手段7では、上記文字切
り出し手段6で決定した要素パターンの組の情報
に基づいて上記文字列パターン記憶手段3から1
文字ずつ文字を切り出して出力する。
次に以上述べたこの発明の効果を従来の装置の
効果と比較する。例えば、文字評価値として従来
の装置で用いた文字形状評価値のみを用いた場合
要素パターン「60」の形状が正方形に近いため第
8図に示すように「60」に対する文字形状評価値
は「0.94」と大きくなり、第10図に示すように
すべての要素パターンの組合せのうち、「昭」+
「和」+「60」+「年」の組合せが切り出し評価値は
「6.52」と最大となる。このため文字列パターン
14は、「昭」、「和」、「60」、「年」と切り出され
る。このように文字形状評価値のみを用いた切り
出しでは、文字列パターン「60」を正しく切り出
すことはできない。
以上に示すように入力文字列「昭和60年」14
は、従の文字切り出し装置で用いている文字形状
評価値のみを用いた方法では正しく切り出すこと
はできないが、本発明では文字形状評価値と文字
認識評価値を併用して切り出すため、個々の文字
を正しく切り出すことが出来る。
なお、上記実施例では、横書きの文字列から文
字を切り出す場合について説明したが、この発明
はこれに限らず、縦書きの文字列から文字を切り
出す場合に用いてもよい。
また、上記実施例では3つの基本パターンを結
合したパターンまでの評価値を求める場合につい
て説明したが、これに限らず4個以上の基本パタ
ーンを結合したパターンの評価値を求めてもよ
い。
〔発明の効果〕
以上のように、この発明によれば従来の技術で
は切り出すことのできなかつた数字同士のような
互いに接近したパターンも、文字認識評価値手段
を付加し、文字切り出し手段に文字認識評価値を
考慮に入れて文字を切り出すように変更を加える
ことにより正しく切り出せる効果がある。
【図面の簡単な説明】
第1図はこの発明の一実施例による文字パター
ン切り出し装置の全体構成図、第2図は従来の文
字パターン切り出し装置の全体構成図、第3図は
基本パターン領域検出手段の処理例の説明図、第
4図は要素パターンの例を示す図、第5図は要素
パターンの組合せの例を示す図、第6図は基本パ
ターンの組合せと文字切り出し評価値の関係を示
す図、第7図は入力文字列の例を示す図、第8図
は各要素パターンの文字形状評価値、文字認識評
価値、文字評価値の例を示す図、第9図、第10
図はこの発明の効果を説明するための図である。 図中、1は用紙、2は走査手段、3は文字列パ
ターン記憶手段、4は基本パターン領域検出手
段、5は文字形状評価値、6は文字切り出し手
段、7は出力手段、11は文字認識辞書記憶手
段、12は文字認識評価値算出手段、13は評価
値加算手段である。なお図中同一あるいは相当部
分には同一符号を付して表示してある。

Claims (1)

    【特許請求の範囲】
  1. 1 用紙などに記入された文字列から1文字ずつ
    文字パターンを切り出す文字パターン切り出し装
    置において、用紙上の文字列を光学的に走査し光
    電変換する走査手段と、光電変換された上記文字
    列のパターンを記憶する文字列パターン記憶手段
    と、上記文字列パターンを走査して求めた周辺分
    布値の連続性に基づいて文字列パターンを分割
    し、分割して得た基本パターンの左右端と上下端
    との座標より基本パターン領域を決める基本パタ
    ーン領域検出手段と、単独の基本パターン領域の
    文字形状評価値と連続する複数個の基本パターン
    領域を結合した結合パターン領域の文字形状評価
    値とを上記基本パターン領域の左右端と上下端の
    座標から各々算出する文字形状評価値算出手段
    と、読取り対象文字の基準パターンを格納した文
    字認識辞書記憶手段と、単独の基本パターンに対
    する文字認識評価値と連続する複数個の基本パタ
    ーンを結合した結合パターンに対する文字認識評
    価値とを上記文字認識辞書記憶手段に記憶した基
    準パターンとの整合により求める文字認識評価値
    算出手段と、上記文字形状評価値算出手段で算出
    した文字形状評価値と上記文字認識評価値算出手
    段で算出した文字認識評価値とを加え合わせるこ
    とにより、すべての基本パターンと結合パターン
    とに対応する文字評価値を算出する評価値加算手
    段と、上記基本パターン領域の位置情報に基づい
    て切り出し候補位置のあらゆる可能な組み合せを
    求め、各々の切り出し候補位置の組み合せについ
    て、切り出し候補位置で切り出された基本パター
    ンと結合パターンとに対応する上記評価値加算手
    段で求めた文字評価値に基づいて切り出し評価値
    を求め、この切り出し評価値に基づいて最適な文
    字切り出し位置の組み合せを決定する文字切り出
    し手段と、上記文字切り出し手段の結果に基づい
    て上記文字列パターン記憶手段に格納した1行の
    文字列パターンから1文字ずつ文字パターンを切
    り出して出力する出力手段とを具備することを特
    徴とする文字パターン切り出し装置。
JP61033193A 1986-02-18 1986-02-18 文字パタ−ン切り出し装置 Granted JPS62190575A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61033193A JPS62190575A (ja) 1986-02-18 1986-02-18 文字パタ−ン切り出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61033193A JPS62190575A (ja) 1986-02-18 1986-02-18 文字パタ−ン切り出し装置

Publications (2)

Publication Number Publication Date
JPS62190575A JPS62190575A (ja) 1987-08-20
JPH0476159B2 true JPH0476159B2 (ja) 1992-12-02

Family

ID=12379646

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61033193A Granted JPS62190575A (ja) 1986-02-18 1986-02-18 文字パタ−ン切り出し装置

Country Status (1)

Country Link
JP (1) JPS62190575A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02139686A (ja) * 1988-11-21 1990-05-29 Fuji Electric Co Ltd 文字読取方法
JP2671533B2 (ja) * 1989-12-21 1997-10-29 日本電気株式会社 文字列認識方法及びその装置
JPH03260886A (ja) * 1990-03-12 1991-11-20 Fuji Facom Corp 文字認識方法
JP5673033B2 (ja) * 2010-11-30 2015-02-18 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57137976A (en) * 1981-02-18 1982-08-25 Nec Corp Zip code discriminating device
JPS60153575A (ja) * 1984-01-23 1985-08-13 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57137976A (en) * 1981-02-18 1982-08-25 Nec Corp Zip code discriminating device
JPS60153575A (ja) * 1984-01-23 1985-08-13 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法

Also Published As

Publication number Publication date
JPS62190575A (ja) 1987-08-20

Similar Documents

Publication Publication Date Title
CN110180186A (zh) 一种地形图转换方法及系统
JPH0476159B2 (ja)
JPH0452510B2 (ja)
Roth An approach to recognition of printed music
JPH03225579A (ja) 文字パターン切り出し装置
JPH0337782A (ja) 文字パターン切り出し装置
JPH0728935A (ja) 文書画像処理装置
JP2925303B2 (ja) 画像処理方法及び装置
JP3083609B2 (ja) 情報処理装置及びそれを用いた文字認識装置
JPH0420507B2 (ja)
JPH0550785B2 (ja)
JP2812391B2 (ja) パターン処理方法
JP3173363B2 (ja) Ocrのメンテナンス方法及び装置
JPS6111886A (ja) 文字認識方式
JP2930996B2 (ja) 画像認識方法および画像認識装置
JPS59106084A (ja) 文字読取り装置
JPH02242391A (ja) 文字認識方式
JPH03126188A (ja) 文字認識装置
JPH0576674B2 (ja)
JP2851865B2 (ja) 文字認識装置
JPS60138688A (ja) 文字認識方法
JPS60110089A (ja) 文字認識装置
JPS59128681A (ja) 文字読取り装置
JPH0545991B2 (ja)
JPH05334492A (ja) 文字認識装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term