JPH03225579A - 文字パターン切り出し装置 - Google Patents

文字パターン切り出し装置

Info

Publication number
JPH03225579A
JPH03225579A JP2021096A JP2109690A JPH03225579A JP H03225579 A JPH03225579 A JP H03225579A JP 2021096 A JP2021096 A JP 2021096A JP 2109690 A JP2109690 A JP 2109690A JP H03225579 A JPH03225579 A JP H03225579A
Authority
JP
Japan
Prior art keywords
character
pattern
dictionary
word
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021096A
Other languages
English (en)
Inventor
Kazumi Matsuura
松浦 一巳
Keiji Kobayashi
啓二 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2021096A priority Critical patent/JPH03225579A/ja
Publication of JPH03225579A publication Critical patent/JPH03225579A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は文書に記入又は印刷された文字列のイメージ
から1文字ずつ文字パターンを切り出す文字パターン切
り出し装置に関するものであり、特に、文字を構成する
要素が文字として意味をもつ分離有意文字(たとえば、
横書きの場合で、偏の「木」と労の「公」から構成され
る「松」など)が存在し、かつ、半角・全角・倍角文字
が混在して文字間ピンチが不定である文字列のイメージ
から文字パターンを切り出す文字パターン切り出し装置
に関するものである。
〔従来の技術〕
文字を認識するには、用紙に記入又は印刷された文字列
を走査して光電変換を行い、文字の部分、背景の部分を
それぞれ1 (黒)、0 (白)の信号に2値化変換し
た文字列イメージから1文字ずつ文字パターンを切り出
さなければならない。
第6図は、特開昭62−190575号に示された従来
の文字パターン切り出し装置の構成を示すブロック図で
ある。
第6図中、■は用紙、2は用紙l上に記入または印刷さ
れた文字列を光学的に走査して光電変換する光電変換手
段、3は光電変換手段2で光電変換された文字列イメー
ジを上記文字列の方向と直交する方向に走査して求めた
周辺分布値の連続性に基づいて上記文字列イメージを分
割して得られた基本パターンの左右端および上下端の座
標を求めて各基本パターンの領域を検出する基本パター
ン領域検出手段、4は文字認識対象文字の各基準パター
ンを格納した文字認識辞書、5は上記文字認識辞書4に
格納された各基準パターンと上記基本パターン領域検出
手段3で検出した各基本パターンおよび連続する基本パ
ターンを結合した結合パターンからなる要素パターンと
を整合させることによりその整合の度合(類似度)を求
めて各要素パターンのカテゴリ (文字)を決定する文
字認識手段、6は上記各要素パターンの矩形情報および
上記文字認識手段5で得られた認識情報(類似度)から
それぞれ求めた上記各要素パターンの文字らしさを表す
尺度である文字矩形評価値および文字認識評価値を加算
して文字評価値を算出する文字評価値算出手段、7は上
記文字評価値算出手段6で求めた文字評価値の大きさに
基づいて切り出すべき文字パターンの位置を決定する切
り出し位置決定手段である。
第7図から第13図までに示す図は、第6図に示した従
来の文字切り出し装置の動作例を示す図である。
第7図の8は、用紙1上に印刷又は記入された文字列を
上記光電変換手段2により光学的に走査し、光電変換し
て得られた文字列イメージフある。
第8図は、上記基本パターン領域検出手段3により第7
図に示す文字列イメージ8を走査することによって検出
した各基本パターンの領域を示す図である。第8図中、
9は上記文字列イメージ8を走査して求めた周辺分布値
、10〜15はそれぞれ上記周辺分布値9の連続性に基
づいて上記文字列イメージ8を分割して得られた基本パ
ターンの例である。
第9図は、上記基本パターン領域検出手段3で検出され
た各基本パターンおよび連続する複数の上記各基本パタ
ーンを結合した各結合パターンからなる要素パターンの
例を示す図である。第9図中、10〜15はそれぞれ単
独の基本パターンからなる要素パターン(基本パターン
と同じ)、25は2つの基本パターン10と11を結合
した結合パターンからなる要素パターンである。なお、
この図は、結合する基本パターンの数が3以下であるす
べての要素パターンを示したものである。
第10図は、第9図に示した各要素パターンに対して、
上記文字評価値算出手段6で求めた各評価値を示した図
である。第10図中、16は文字矩形評価値Vf、17
は文字認識評価値Vr、18は文字評価値Vcである。
また、10〜15はそれぞれ上記要素パターン、26.
27.28はそれぞれ要素パターン10,11.25に
対する文字評価値Vcである。
第11図および第12図は、上記切り出し位置決定手段
7で文字切り出し位置を決定するために発生させた上記
要素パターン(第9図)の組合せの例を示す図である。
このうち、第11図は要素パターンの組合せを2端子有
向グラフで示したものであり、第12図は要素パターン
の組合せの例を要素パターンの系列で示したものである
。第12図中で、I9は[モJ+rルJ +r−J 十
「ル」+「に」+「乗」+「る」なる要素パターンの組
合せであり、20は「モ」+「)」+「し」+ r−J
 + rル」+「に」+「乗」+「る」なる要素パター
ンの組合せである。
第13図は、上記切り出し位置決定手段7で算出した文
字切り出し評価値である。第13図中、工9と20はそ
れぞれ要素パターンの組合せ、21および22はそれぞ
れ上記要素パターンの組合せ19および20の各要素パ
ターンに対する文字評価値に基本パターン数を掛けた切
り出し重みの系列であり、23と24はそれぞれ上記要
素パターンの組合せ19と20に対する文字切り出し評
価値■である。
次に、第7図から第13図までの図を用いて第6図に示
す従来の文字パターン切り出し装置の動作について説明
する。
まず、用紙1上に印刷または記入された文字列は上記光
電変換手段2により光学的に走査して光電変換され、文
字列イメージ8が得られる。つぎに、上記文字列イメー
ジ8は、上記基本パターン領域検出手段3に渡される。
基本パターン領域検出手段3では、文字列と直交する方
向(図では上下方向)に文字列イメージ8を走査して作
成した周辺分布値9が所定のしきい値を越える領域の連
続性に基づいて文字列イメージ8を分割して得た各基本
パターン(・・・・・・、10.11.・・・・・・、
12゜13.14,15.・・・・・・)を検出する。
つぎに、上記文字認識手段5では、第9図に示す各要素
パターンと上記文字認識辞書4に格納された文字認識対
象の各基準パターンとを整合することにより、類似度を
算出する。すなわち、パターンPから抽出した特徴ベク
トルを X= [x 1.x 2.−−−−、xk]文字文字基
準パターンベクトルを Fc= [f c 1.f c 2.−−・−・・、f
 ck]としたとき、すでに知られている文字認識の技
術を用いて、パターンPと文字認識対象文字ciの基準
パターンFciとの類似度3i(P)を(1)弐より算
出する。
5t(P)はパターンPと文字認識対象文字ciの基準
パターンFciとの類似度、Fciは文字認識対象文字
ciの基準パターンベクトル、(X。
Fc1)はXとFc1O内積、 Xlは/℃Cコσなるノルムである。
上記式Tl)より求まる類似度は0.01〜1.0の値
をとり、パターンPが文字ciの基準パターンに類似し
ているほど大きな値をとる。
つぎに、上記文字評価値算出手段6では、第9図に示す
各要素パターンがどの程度1文字のパターンらしいかを
定量化した値である文字評価値Vc18を算出する。
まず、第9図に示す各要素パターンに対して、該要素パ
ターンの矩形情報に基づいて1文字の矩形らしさを示す
文字矩形評価値Vf16を算出する。具体的には、要素
パターンに外接する矩形が正方形に近く、要素パターン
内に存在する空白部分が狭く、要素パターンの両端に存
在する空白部分が広いほど大きな値をとるように文字矩
形評価値を定義する。ここで、文字列の先頭から第1番
目の基本パターンから第j番目の基本パターンまでを結
合した1つの要素パターンに対する文字矩形評価値をV
f  (i、j)と表す、また、文字矩形評価値Vf 
 (i、j)は0.0〜1.0の値になるように正規化
する。
つぎに、第9図に示した各要素パターンに対して、該要
素パターンの文字認識情報に基づいて1文字のパターン
らしさを示す文字認識評価値Vr17を算出する。具体
的には、上記文字認識手段5で得られた各要素パターン
Pに対する各文字認識対象文字ciとの類似度5t(P
)を用い、要素パターンPに対する最大の類似度S (
P)を要素パターンPの文字認識評価値Vr(P)とす
る。
V r (P) = S (P)      −−−・
・−・−(2)S (P)=max  Si  (P)
  −・・・・・−(3)上記式(2)〜(3)より求
まる文字認識評価値Vr (P)は、0.0〜1.0の
値をとり、パターンPが1文字らしいほど大きな値をと
る。
さらに、文字列の先頭から第i番目の基本パターンから
第j番目の基本パターンまでを結合してできる1つの要
素パターンPijに対して、文字評価値Vc (t、j
)は、上記文字矩形評価値Vf  (i、j)と上記文
字認識評価値Vr(pij)との線形加算により求める
Vc (t、j)= Vf  (t、  j) +Vr  (P i j) 
・・・・−・(4)例えば、単独の基本パターンからな
る要素パターン「ノ」10では、文字矩形評価値Vfは
ro、72Jで、文字認識評価値Vrはro、92Jで
あり、両者を加算した文字評価値Vc26はrl、64
Jとなる。同様にして、単独の基本パターンからなる要
素パターン「し」11に対する文字評価値Vc27はr
l、64Jで、基本パターン「ノ」10と「し」11を
結合した要素パターン「ル」に対する文字評価値Vcは
rl、81Jとなる。
以上のようにして上記文字評価値算出手段6で求めた文
字評価値は、つぎに示す切り出し位置決定手段8へ送ら
れる。
つぎに、上記切り出し位置決定手段7では、上記基本パ
ターン間の境界点を文字パターンの切り出し候補位置と
し、この各切り出し候補位置のあらゆる可能な組合せに
より、すべての切り出し可能な要素パターンの組合せ(
第12図)を求める。
そして、各切り出し候補位置の組合せについて、上記文
字評価値算出手段6で計算した各要素パターンの文字評
価値に基づいて、文字切り出し評価値Vを求める。
すなわち、文字列の先頭を基準として、第i番目の基本
パターンから第j番目の基本パターンまでを1つにした
要素パターンをPijとしたとき、Pijに対する文字
評価値Vc (i、j)構成基本パターン数(j−i+
1)掛けた重みwf  (t。
j)を第11図に示す2端子有向グラフの各枝に割り当
てる。このとき、切り出し評価値Vは、2端子有向グラ
フにおいて、始点から終点に至るパスにおける技の重み
の和として表すことができる。
そこで、この技の重みの和が最大となるパスを周知のダ
イナミックプログラミングの手法を用いて求める。そし
て、このパスを与える要素パターンの組合せを最適な文
字切り出し結果と決定する。
この従来例では、第13図に示すように、全ての要素パ
ターンの組合せの内、「モ」+「ル」十r−J + r
ル」+「に」+「乗」+「る」なる要素パターンの組合
せ19の文字切り出し評価値V23は、切り出し重みw
f  (i、j)の系列21の各重みを加算してrl7
.87Jとなる。同様にして、「モ」+「ノ」+「しJ
+r−J+rル」+「に」+「乗」+「る」なる要素パ
ターンの組合せ200文字切り出し評価値はrl7.5
3Jとなる。この実施例では、要素パターンの組合せ1
9に対する文字切り出し評価値Vr17.87J23が
最大値を与えるので、上記切り出し位置決定手段7では
、「モ」 「ルJ  r−j  rル」 「に」「乗」
 「る」なる要素パターンの組を文字切り出し結果とす
る。
そして最後に、要素パターンの組の情報に基づいて、上
記文字列イメージから1文字ずつ文字パターンを切り出
して出力する。
〔発明が解決しようとする課題〕
従来の文字パターン切り出し装置は以上のように、文字
評価値算出手段6で矩形情報と認識情報を併用して1文
字らしさを表す文字評価値を算出し、切り出し位置決定
手段7で上記文字評価値に基づいて文字パターンを切り
出すように構成されていたので、文字を構成する要素が
文字として意味をもつ分離有意文字が存在し、かつ、半
角・全角・倍角文字が混在して、文字間ピッチが不定で
ある文字列のイメージから正確に文字パターンを切り出
すことができなかった0例えば、「ル」はその構成要素
である「ノ」と「し」がともに文字として意味をもつ分
離有意文字であり、要素パターン「ノ」10および「し
」の文字認識評価値と要素パターン「ル」25の文字認
識評価値の間に差がほとんどなく、文字矩形評価値の差
から、文字評価値は要素パターン「ル」25の方が大き
くなっている。そこで、本来、正しい要素パターンの組
合せ「モ」+「ノ」+「しJ + r−J + rル」
+「に」+「乗」+「る」20の文字切り出し評価値2
4が、要素パターンの組合せ「モ」+「ル」+ r−J
 + rル」+「に」+「乗」+「る」19の文字切り
出し評価値23に比べて下まわり、誤切り出しとなって
いる。
この発明は上記のような課題を解決するためになされた
もので、半角・全角・倍角文字が混在して文字間ピッチ
が不定であり、分離有意文字が存在する文字列のイメー
ジに対しても、正しく文字パターンを切り出すことがで
きる文字パターン切り出し装置を提供することを目的と
する。
〔課題を解決するための手段〕
この発明に係る文字パターン切り出し装置は、文字評価
値に基づいて文字切り出し位置の候補を作成する切り出
し候補作成手段29と、日本文で使用される単語および
その文法的属性を格納した単語辞書とこの単語辞書に格
納した文法的属性の間の文法的接続情報を格納した文法
辞書とからなる単語・文法辞書30と、この単語・文法
辞書30の単語辞書及び文法辞書を参照することにより
文字認識手段5で得られた複数の文字の並びの各文字の
並びを解析して上記切り出し候補作成手段29で得られ
た文字切り出し位置の候補の中がら最適な文字の並びを
決定して文字パターンを切り出す文章解析手段31とを
備えたことを特徴とするものである。
〔作用〕
切り出し候補作成手段29は文字評価値に基づいて文字
切り出し位置の候補を作成する。単語・文法辞書30は
、日本文で使用される単語およびその文法的属性を格納
した単語辞書とこの単語辞書に格納した文法的属性の間
の文法的接続情報を格納した文法辞書とからなる0文章
解析手段31は、単語・文法辞書30の単語辞書および
文法辞書を参照することにより、文字認識手段5で得ら
れた複数の文字の並びの各文字の並びを解析して、上記
切り出し候補作成手段29で得られた文字切り出し位置
の候補の中から最適な文字の並びを決定して文字パター
ンを切り出す。
〔実施例〕
第1図はこの発明の一実施例に係る文字パターン切り出
し装置の構成を示すブロック図である。
第1図において、第6図に示す構成要素に対応するもの
には同一の符号を付し、その説明を省略する。第1図に
おいて、29は文字評価値に基づいて文字切り出し位置
の候補を作成する切り出し候補作成手段である。この切
り出し候補作成手段29は、文字評価値算出手段6で算
出した各種の評価値に基づいて複数の文字切り出し位置
の組合せを求め、これを文字切り出し候補とする。30
は日本文で使用される単語およびその文法的属性を格納
した単語辞書とこの単語辞書に格納した文法的属性の間
の文法的接続情報を格納した文法辞書とからなる単語・
文法辞書である。31は単語・文法辞書30の単語辞書
及び文法辞書を参照することにより、上記文字認識手段
5で得られた複数の文字の並びの各文字の並びを解析し
て、上記切り出し候補作成手段29で得られた文字切り
出し候補の中から最適な文字の並びを決定して文字パタ
ーンを切り出す文章解析手段である。
第2図から第5図に示す図は、第1図に示した文字パタ
ーン切り出し装置の動作例を示す図である。
第2図は切り出し候補作成手段29で作成された文字切
り出し候補(要素パターンの各組合せ)に対して文字認
識手段5で認識して得られた第1位の候補文字の各並び
である、第2図中、32および33は、それぞれ、文字
切り出し候補の1つに対する文字の並び「モルールに乗
る」および「モルレールに乗る」である。
第3図は上記文字の並び32および33に対して文章解
析手段31により文字の並び内の単語とその接続関係を
解析した結果である。第3図中、34および35はそれ
ぞれ文字の並び32および33に対する解析結果である
なお、第3図中、口で囲んだ文字の並びは、該文字の並
びが上記単語・文法辞書30の単語辞書に存在すること
を示す、また、矢印(=)はその両端の口で囲んだ単語
の属性間の接続情報が上記単語・文法辞書30の文法辞
書に存在し、接続関係があることを示す。
第4図は、切り出し候補作成手段29で得られた文字切
り出し候補中の各要素パターンを文字認識手段5により
認識して得た第1位から第5位までの候補文字を示した
図である。
第5図は、上記単語・文法辞書30の単語辞書と文法辞
書を参照して第4図に示した各候補文字の並びの組合せ
を解析した結果を示す図である。
第5図中、36と37はそれぞれ解析の結果接続関係が
すべてあった文字の並びで、「モルレール・に・乗・る
」と「七・八・−・八・に・乗・る」である、また、口
の下に示した数字は該数字の上の文字の認識候補順位で
ある。さらに、39および40はそれぞれ文字の並び3
6および37の各文字の認識順位を加算して求めた評価
値Voである。なお、第5図中、口と矢印(−)は第3
図と同一の意味で用いている。
次に、第1図に示した文字パターン切り出し装置の動作
を第2図から第5図に示した図を用いて説明する。
光電変換手段2から文字評価値算出手段6までの動作は
、第7図から第10図までの図に示した従来の文字パタ
ーン切り出し装置の動作と同一である。
この後、切り出し候補作成手段29では、第6図に示す
従来の文字パターン切り出し装置における切り出し位置
決定手段7と同様にして、第13図に示すように文字切
り出し評価値Vの大きい順に所定の個数の要素パターン
の組合せをもとめ、これを文字切り出し候補とする。第
2図に示したこの実施例では、上記所定の個数を8個と
したものである。なお、文字切り出し候補の選出方法は
、個数を用いるのではなくて、第1位の文字切り出し評
価値との差が所定のしきい値以下である文字切り出し評
価値をもつ要素パターンの組合せを選ぶ方法もある。
つぎに、文章解析手段31では、切り出し候補作成手段
29により得られた第2図に示す文字切り出し候補の文
字の並びを、文字切り出し評価値Vの大きい順に単語・
文法辞書30の単語辞書および文法辞書を参照して解析
する。
まず、文字の並び「モルールに乗る」32を解析する。
「ルール」は片仮名普通名詞、「に」は格助詞、「乗」
はう行五段活用で漢字1字の一般動詞の語幹、「る」は
終止形の活用語尾であり、それぞれ隣接する単語と接続
関係がある。しかし、片仮名1文字の「モ」は上記単語
辞書に文法属性がない、また、片仮名の「モ」で始まる
単語には、「モル]が存在するが、残りの「−ル」が上
記単語辞書に存在しないので、全体として接続関係がな
い、したがって、解析結果34より、文字の並び32は
文章として接続しない。
そこで、つぎに、第2候補の文字の並び「モルレールに
乗る」33を解析する。「モルレール」は片仮名普通名
詞、「に」、「乗」、「る」はそれぞれ、文字の並び3
2の解析結果34と同一の文法属性をもつので、隣接す
る単語と接続関係がある。したがって、解析結果35よ
り文字の並び33は文章として接続する。
文章として接続する文字の並び33が検出されたので、
解析を中止して、文字の並び33に対応する要素パター
ンの組の各要素パターン間の境界線を文字切り出し位置
と決定し、文字列イメージ8から対応するパターンを切
り出す。
つぎに、第4図と第5図を用いて、この文字パターン切
り出し装置の別の実施例を説明する。
文字認識手段5では、上記各要素パターンに対して第1
位から第5位までの認識候補文字を出力する。この順位
は該要素パターンに対する各文字の類似度の大きい順と
する0文字評価値算出手段6では、文字認識手段5で得
られた第1位の候補文字に対する類似度(文字認識評価
値Vr)を文字評価値Vcとする。
V c (P) = V r (P)    ・・・・
・−・−(51切り出し候補作成手段29では、文字評
価値算出手段6で算出した文字評価値Vc(第10図の
文字認識評価値Vr17に対応する)調べ、ある要素パ
ターンの文字評価値と該要素パターンを構成する複数の
要素パターンに対する文字評価値との差が所定のしきい
値以下の場合は、両者を切り出し候補とする。第10図
に示した例では、要素パターン「ル」25の文字評価値
はrO,90Jで、要素パターン25を構成する要素パ
ターン「ノ」および「し」の文字評価値はそれぞれro
、92JおよびrO,91Jである。上記所定のしきい
値をro、10Jと仮定すると、基本パターン10およ
び11に対する文字切り出し候補は、要素パターン「ノ
」10と「し」11の組または要素パターン「ル」25
となる。同様な処理をすることにより、基本パターン1
0〜15に対して2つの文字切り出し候補が発生し、そ
の他の基本パターンに対しては1つの文字切り出し候補
が発生する。発生したこれらの文字切り出し候補に対し
て、文字認識手段5で得られた第1位から第5位までの
認識候補文字を割当てたものが第4図である。
文書解析手段31では、第4図に示したすべての文字切
り出し候補のすべての順位の候補文字に対して可能なす
べての文字の並びを、単語・文法辞書30の単語辞書お
よび文法辞書を用いて解析し、文章として接続のある文
字の並びを選出する。
第4図に示した例では、第5図に示す2つの文字の並び
36と37とが文章として接続がある。文字の並び37
では、「七」、[八J、r−J。
「八」がそれぞれ漢数字1文字からなる普通名詞で互い
に接続関係がある。また、漢数字1文字からなる普通名
詞と格助詞「に」とは接続関係がある。従って、文字の
並び37は文章として接続する。
つぎに、文章として接続する文字の並びに対して各候補
文字の順位を加算して評価値Voを求め、最も小さい評
価値を与える文字の並びに対応する要素パターンの組合
せの各要素パターンの境界線を文字切り出し位置と決定
する。第5図に示す例では、文字の並び36に対する評
価値Vo39は「11」、文字の並び37に対する評価
値V。
40は「17」であり、評価値が最も小さい文字の並び
36が採用される。なお、ここでは、評価値■0の尺度
として認識候補文字の順位を用いたが、認識候補文字の
類似度を用いることもできる。
何れにしても、第2位以上の認識候補文字の情報を用い
ることにより、誤認識した場合でも文字パターンを正確
に切り出すことができる。
なお、上記実施例では横書きの文字列について説明した
が、縦書き文字列に対しても同様な方法を適用すること
により、同様の効果を奏する。
また、上記2つの実施例では各手段の内容の相互の入換
えは自由であり、ここで説明していない組合せに対して
も同様の効果を奏する。
〔発明の効果〕
以上のように本発明によれば、単語・文法辞書を参照し
、複数の文字の並びの各文字の並びを解析して文字切り
出し位置候補の中から最適な文字の並びを決定して文字
パターンを切り出す構成としたので、半角・全角・倍角
文字が混在して文字間ピッチが不定であり、分離有意文
字が存在する文字列のイメージに対しても、正しく文字
パターンを切り出せ、したがって文字認識精度を向上さ
せることができるという効果が得られる。
【図面の簡単な説明】
第1図はこの発明の一実施例に係る文字パターン切り出
し装置の構成を示すブロック図、第2図はこの実施例に
おいて第1位の候補文字の各並びを説明するための図、
第3図はこの実施例において文字の並び内の単語とその
接続関係を解析した結果を説明するための図、第4図は
この実施例において第1位から第5位までの候補文字を
説明するための図、第5図はこの実施例において各候補
文字の並びの組合せを解析した結果を説明するための図
、第6図は従来の文字パターン切り出し装置の構成を示
すブロック図、第7図は文字列イメージを示す図、第8
図は各基本パターンの領域を示す図、第9図は各基本パ
ターンおよび各要素パターンの例を示す図、第10図は
第9図に示した各要素パターンに対する各評価値を示す
図、第11図は要素パターンの組合せを示す2端子有向
グラフ、第12図は要素パターンの組合せの例を要素パ
ターンの系列で示す図、第13図は第6図中の切り出し
位置決定手段7で算出した文字切り出し評価値を示す図
である。 1・・・・・・用紙、2・・・・・・光電変換手段、3
・・・・・・基本パターン領域検出手段、4・・・・・
・文字認識辞書、5・・・・・・文字認識手段、6・・
・・・・文字評価値算出手段、29・・・・・・切り出
し候補作成手段、30・・・・・・単語・文法辞書、3
1・・・・・・文章解析手段。

Claims (1)

    【特許請求の範囲】
  1. 用紙などに記入または印刷された文字列を光学的に走査
    して光電変換する光電交換手段と、この光電変換手段で
    光電変換された文字列イメージを上記文字列の方向と直
    交する方向に走査して求めた周辺分布値の連続性に基づ
    いて上記文字列イメージを分割して得られた基本パター
    ンの左右端および上下端の座標を求めて各基本パターン
    の領域を検出する基本パターン領域検出手段と、文字認
    識対象文字の各基準パターンを格納した文字認識辞書と
    、この文字認識辞書に格納された各基準パターンと上記
    基本パターン領域検出手段で検出された各基本パターン
    および連続する基本パターンを結合した結合パターンか
    らなる要素パターンとを整合させることにより各要素パ
    ターンの文字を決定する文字認識手段と、上記各要素パ
    ターンの矩形情報および上記文字認識手段で得られた認
    識情報から上記各要素パターンの文字らしさを表す尺度
    である文字評価値を算出する文字評価値算出手段とを備
    え、上記文字評価値に基づいて切り出すべき文字パター
    ンの位置を決定し、1文字ずつ文字パターンを切り出す
    文字パターン切り出し装置において、上記文字評価値に
    基づいて文字切り出し位置の候補を作成する切り出し候
    補作成手段と、日本文で使用される単語およびその文法
    的属性を格納した単語辞書とこの単語辞書に格納した文
    法的属性の間の文法的接続情報を格納した文法辞書とか
    らなる単語・文法辞書と、この単語・文法辞書の単語辞
    書および文法辞書を参照することにより上記文字認識手
    段で得られた複数の文字の並びの各文字の並びを解析し
    て上記切り出し候補作成手段で得られた文字切り出し位
    置の候補の中から最適な文字の並びを決定して文字パタ
    ーンを切り出す文章解析手段とを設けたことを特徴とす
    る文字パターン切り出し装置。
JP2021096A 1990-01-31 1990-01-31 文字パターン切り出し装置 Pending JPH03225579A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021096A JPH03225579A (ja) 1990-01-31 1990-01-31 文字パターン切り出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021096A JPH03225579A (ja) 1990-01-31 1990-01-31 文字パターン切り出し装置

Publications (1)

Publication Number Publication Date
JPH03225579A true JPH03225579A (ja) 1991-10-04

Family

ID=12045343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021096A Pending JPH03225579A (ja) 1990-01-31 1990-01-31 文字パターン切り出し装置

Country Status (1)

Country Link
JP (1) JPH03225579A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05182028A (ja) * 1992-01-06 1993-07-23 Omron Corp 文字認識装置
JPH05182027A (ja) * 1992-01-06 1993-07-23 Omron Corp 文字認識装置
JP2010039615A (ja) * 2008-08-01 2010-02-18 Hitachi Omron Terminal Solutions Corp 文字認識方法及び文字認識装置
WO2012121033A1 (ja) * 2011-03-07 2012-09-13 株式会社エヌ・ティ・ティ・ドコモ 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
US9194903B2 (en) 2013-03-06 2015-11-24 Ebara Corporation Surface potential measuring apparatus and surface potential measuring method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05182028A (ja) * 1992-01-06 1993-07-23 Omron Corp 文字認識装置
JPH05182027A (ja) * 1992-01-06 1993-07-23 Omron Corp 文字認識装置
JP2010039615A (ja) * 2008-08-01 2010-02-18 Hitachi Omron Terminal Solutions Corp 文字認識方法及び文字認識装置
WO2012121033A1 (ja) * 2011-03-07 2012-09-13 株式会社エヌ・ティ・ティ・ドコモ 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
JP2012185722A (ja) * 2011-03-07 2012-09-27 Ntt Docomo Inc 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
CN103154974A (zh) * 2011-03-07 2013-06-12 株式会社Ntt都科摩 字符识别装置、字符识别方法、字符识别系统以及字符识别程序
US8965126B2 (en) 2011-03-07 2015-02-24 Ntt Docomo, Inc. Character recognition device, character recognition method, character recognition system, and character recognition program
US9194903B2 (en) 2013-03-06 2015-11-24 Ebara Corporation Surface potential measuring apparatus and surface potential measuring method

Similar Documents

Publication Publication Date Title
Gilani et al. Table detection using deep learning
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
Amin Recognition of printed Arabic text based on global features and decision tree learning techniques
Bansal et al. Integrating knowledge sources in Devanagari text recognition system
Suen et al. Computer recognition of unconstrained handwritten numerals
Jain et al. Document representation and its application to page decomposition
Cattoni et al. Geometric layout analysis techniques for document image understanding: a review
US6081620A (en) System and method for pattern recognition
Matsakis Recognition of handwritten mathematical expressions
US5201011A (en) Method and apparatus for image hand markup detection using morphological techniques
US7184591B2 (en) Systems and methods for adaptive handwriting recognition
Ahmed et al. Computer recognition of totally unconstrained handwritten ZIP codes
JPH0721319A (ja) 自動アジア言語決定装置
JP2006053920A (ja) 文字認識プログラム、文字認識方法および文字認識装置
Lehal et al. Feature extraction and classification for OCR of Gurmukhi script
CN106682671A (zh) 图像文字识别系统
Tariq et al. Softconverter: A novel approach to construct OCR for printed Urdu isolated characters
RU2259592C2 (ru) Способ распознавания графических объектов с использованием принципа целостности
CN109685061A (zh) 适用于结构化的数学公式的识别方法
Chowdhury et al. Automated segmentation of math-zones from document images
Dori et al. Segmentation and recognition of dimensioning text from engineering drawings
Murase et al. Online hand-sketched figure recognition
Doermann Document image understanding: integrating recovery and interpretation
JPH03225579A (ja) 文字パターン切り出し装置
Ovodov Optical braille recognition using object detection neural network