JP3130392B2 - 文字認識装置 - Google Patents
文字認識装置Info
- Publication number
- JP3130392B2 JP3130392B2 JP04309996A JP30999692A JP3130392B2 JP 3130392 B2 JP3130392 B2 JP 3130392B2 JP 04309996 A JP04309996 A JP 04309996A JP 30999692 A JP30999692 A JP 30999692A JP 3130392 B2 JP3130392 B2 JP 3130392B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- pattern
- dictionary
- standard pattern
- temporary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Discrimination (AREA)
Description
【0001】
【産業上の利用分野】本発明は,帳票に記入された手書
き等の文字の文字認識装置に関する。光学的文字読み取
り装置(OCR)等の文字認識装置は各種帳票の手書き
文字の読み取り等,幅広い分野で利用されている。一
方,不特定の記入者により記入される各種帳票の手書き
文字は書き手の書き癖等のため文字パターンが多様であ
る。そのため,多様な文字パターンに対して高精度に認
識できる文字認識装置が必要とされる。
き等の文字の文字認識装置に関する。光学的文字読み取
り装置(OCR)等の文字認識装置は各種帳票の手書き
文字の読み取り等,幅広い分野で利用されている。一
方,不特定の記入者により記入される各種帳票の手書き
文字は書き手の書き癖等のため文字パターンが多様であ
る。そのため,多様な文字パターンに対して高精度に認
識できる文字認識装置が必要とされる。
【0002】
【従来の技術】従来の文字認識装置は,文字に対して標
準パターンを用意し,認識対象の文字パターンと比較す
ることにより一致する標準パターンの表すカテゴリ(例
えば,数字の「4」,ひらがなの「あ」等の文字の意
味)を認識結果として出力するようにしていた。
準パターンを用意し,認識対象の文字パターンと比較す
ることにより一致する標準パターンの表すカテゴリ(例
えば,数字の「4」,ひらがなの「あ」等の文字の意
味)を認識結果として出力するようにしていた。
【0003】図7は従来の文字認識装置の構成を示す。
図において,100は帳票であって,手書き等の文字が
書き込まれているものである。101は文字パターン入
力部であって,帳票の文字記入領域に書き込まれた文字
パターンを読み取るものである。102は画像メモリで
あって,読み取った文字パターンを格納するものであ
る。103は文字切り出し・位置決め部であって,画像
メモリの一文字の領域を定め,一文字ずつ文字パターン
を切り出すものである。104は特徴抽出部であって,
文字パターンから,特徴(線密度,線方向等)を抽出す
るものである。105は特徴メモリであって,抽出され
た特徴を格納するものである。106は距離計算部であ
って,標準パターンと認識対象の文字パターンを,抽出
した特徴により比較するものである。107は標準パタ
ーン辞書であって,文字毎に標準パターンを格納するも
のである。標準パターンは予め,不特定の多数の筆記者
によって記入された文字パターンを集め,その文字パタ
ーンの特徴を求めて多次元ベクトルとし,各カテゴリ毎
に多次元ベクトルの平均をとって標準パターンとする等
様々な方法により作成される。108は認識結果・格納
部であって,入力された文字パターンに対して,文字パ
ターンは数字の「4」である等の文字パターンの表す文
字のカテゴリを認識結果として格納するものである。1
09は制御部であって,文字認識装置の各部の制御を行
うものである。
図において,100は帳票であって,手書き等の文字が
書き込まれているものである。101は文字パターン入
力部であって,帳票の文字記入領域に書き込まれた文字
パターンを読み取るものである。102は画像メモリで
あって,読み取った文字パターンを格納するものであ
る。103は文字切り出し・位置決め部であって,画像
メモリの一文字の領域を定め,一文字ずつ文字パターン
を切り出すものである。104は特徴抽出部であって,
文字パターンから,特徴(線密度,線方向等)を抽出す
るものである。105は特徴メモリであって,抽出され
た特徴を格納するものである。106は距離計算部であ
って,標準パターンと認識対象の文字パターンを,抽出
した特徴により比較するものである。107は標準パタ
ーン辞書であって,文字毎に標準パターンを格納するも
のである。標準パターンは予め,不特定の多数の筆記者
によって記入された文字パターンを集め,その文字パタ
ーンの特徴を求めて多次元ベクトルとし,各カテゴリ毎
に多次元ベクトルの平均をとって標準パターンとする等
様々な方法により作成される。108は認識結果・格納
部であって,入力された文字パターンに対して,文字パ
ターンは数字の「4」である等の文字パターンの表す文
字のカテゴリを認識結果として格納するものである。1
09は制御部であって,文字認識装置の各部の制御を行
うものである。
【0004】図8は従来の文字認識装置の説明図であ
る。図において,120は帳票,121は記入領域であ
って,固定的に帳票上に定められた手書き文字等の記入
領域である。122は記入文字である。
る。図において,120は帳票,121は記入領域であ
って,固定的に帳票上に定められた手書き文字等の記入
領域である。122は記入文字である。
【0005】(a)は記入者Aの記入文字の例であり,
(b)は記入者Bの記入文字の例である。(c)は記入された
文字パターンの例である。
(b)は記入者Bの記入文字の例である。(c)は記入された
文字パターンの例である。
【0006】(d)は標準パターン辞書を表し,図は各カ
テゴリ毎に複数のテンプレートを持つ場合を示し,
「4」の標準パターン(特徴u,特徴v,特徴wの3種
類)と「9」の標準パターン(特徴x,特徴yの2種
類)等が格納されていることを表す。
テゴリ毎に複数のテンプレートを持つ場合を示し,
「4」の標準パターン(特徴u,特徴v,特徴wの3種
類)と「9」の標準パターン(特徴x,特徴yの2種
類)等が格納されていることを表す。
【0007】(e)は標準パターンの特徴の例を示し,線
密度と線方向の場合を示す。図8を参照して図7の構成
の動作を説明する。文字パターン入力部101は,帳票
100(図8においては120)の各記入領域121に
書いた記入文字122の文字パターンを読み取り,画像
メモリ102に格納する。文字切り出し・位置決め部1
03は画像メモリ102に格納された各記入領域121
の文字パターン格納領域を求め,1文字ずつ切り出す。
特徴抽出部104は切り出された文字パターンの特徴
(線密度,線方向等)を抽出する。抽出された特徴は多
次元ベクトルの要素として特徴メモリ105に格納され
る。
密度と線方向の場合を示す。図8を参照して図7の構成
の動作を説明する。文字パターン入力部101は,帳票
100(図8においては120)の各記入領域121に
書いた記入文字122の文字パターンを読み取り,画像
メモリ102に格納する。文字切り出し・位置決め部1
03は画像メモリ102に格納された各記入領域121
の文字パターン格納領域を求め,1文字ずつ切り出す。
特徴抽出部104は切り出された文字パターンの特徴
(線密度,線方向等)を抽出する。抽出された特徴は多
次元ベクトルの要素として特徴メモリ105に格納され
る。
【0008】距離計算部106は,標準パターン辞書1
07の標準パターンのテンプレートの特徴と比較し,入
力文字パターンの特徴ベクトルと標準パターンの特徴ベ
クトルにより各特徴毎に距離を計算し,文字パターンと
標準パターンの類似性を判定する。そして,距離の和が
小さいと計算された標準パターンのカテゴリからM位ま
で候補として求め,候補メモリに格納する。その1位を
認識結果とする。
07の標準パターンのテンプレートの特徴と比較し,入
力文字パターンの特徴ベクトルと標準パターンの特徴ベ
クトルにより各特徴毎に距離を計算し,文字パターンと
標準パターンの類似性を判定する。そして,距離の和が
小さいと計算された標準パターンのカテゴリからM位ま
で候補として求め,候補メモリに格納する。その1位を
認識結果とする。
【0009】距離計算は次のように行う。特徴は多次元
ベクトルの要素として求められ,標準パターンとの間で
次式に従って計算される。
ベクトルの要素として求められ,標準パターンとの間で
次式に従って計算される。
【0010】 xn (i):入力文字の特徴ベクトル,snm(i):標
準パターン辞書のカテゴリAの特徴ベクトル,i:特徴
ベクトルのi番目の要素,m:カテゴリAのm番目の標
準パターン,n:n番目の特徴であり特徴数p(線密
度,線方向の2特徴であれば特徴数は2である)。
準パターン辞書のカテゴリAの特徴ベクトル,i:特徴
ベクトルのi番目の要素,m:カテゴリAのm番目の標
準パターン,n:n番目の特徴であり特徴数p(線密
度,線方向の2特徴であれば特徴数は2である)。
【0011】minは, の最小のものを選択することを表す。例えば,カテゴリ
「4」の各標準パターンの線密度特徴の距離を求め,そ
の最小のものを選択する。さらに,他の線方向の特徴に
ついて同様に最小の距離となるものを求める。そして,
それぞれの最小値の和を距離Dとすることを表す。
「4」の各標準パターンの線密度特徴の距離を求め,そ
の最小のものを選択する。さらに,他の線方向の特徴に
ついて同様に最小の距離となるものを求める。そして,
それぞれの最小値の和を距離Dとすることを表す。
【0012】全てのカテゴリの標準パターンと照合し,
最小の距離となったカテゴリを認識結果とする。
最小の距離となったカテゴリを認識結果とする。
【0013】
【発明が解決しようとする課題】標準パターン辞書は多
数の記入者による平均的な文字パターンに基づいて作成
される。そのため,従来の文字認識装置では平均的な文
字パターンから大きく外れた文字パターンは誤読もしく
はリジェクトされる可能性が大きかった。
数の記入者による平均的な文字パターンに基づいて作成
される。そのため,従来の文字認識装置では平均的な文
字パターンから大きく外れた文字パターンは誤読もしく
はリジェクトされる可能性が大きかった。
【0014】例えば,図8の (c)における手書き文字パ
ターンaとbを従来の文字認識装置で文字認識した場
合,aを数字「4」,bを数字「9」と誤読するか,も
しくは判定不能としてリジェクトされる場合がある。
ターンaとbを従来の文字認識装置で文字認識した場
合,aを数字「4」,bを数字「9」と誤読するか,も
しくは判定不能としてリジェクトされる場合がある。
【0015】それは,数字「4」の標準パターンを作る
時,cのように上部の開いた「4」とbのように上部の
閉じた「4」を標準パターンとすることにより生ずるも
のであった。
時,cのように上部の開いた「4」とbのように上部の
閉じた「4」を標準パターンとすることにより生ずるも
のであった。
【0016】このように,従来の文字認識装置は,標準
的な文字パターンから外れた文字パターンは誤読もしく
はリジェクトされることが多かった。本発明は,標準的
な文字パターンとは大きく異なる文字パターンでも,正
確に文字認識できる文字認識装置を提供することを目的
とする。
的な文字パターンから外れた文字パターンは誤読もしく
はリジェクトされることが多かった。本発明は,標準的
な文字パターンとは大きく異なる文字パターンでも,正
確に文字認識できる文字認識装置を提供することを目的
とする。
【0017】
【課題を解決するための手段】帳票に記入される文字は
通常同一の記入者により記入され,同一の記入者の文字
パターンであれば,同一のカテゴリの文字はほぼ似たよ
うなパターンをしている。例えば,図8 (b)の文字パタ
ーンのように上部を閉じた「4」を書く記入者の記入し
た帳票であれば,ほぼ全部上部を閉じた「4」の字形で
記入されているはずである。
通常同一の記入者により記入され,同一の記入者の文字
パターンであれば,同一のカテゴリの文字はほぼ似たよ
うなパターンをしている。例えば,図8 (b)の文字パタ
ーンのように上部を閉じた「4」を書く記入者の記入し
た帳票であれば,ほぼ全部上部を閉じた「4」の字形で
記入されているはずである。
【0018】本発明は,記入者の文字パターンにより,
記入者の書き方の特徴に合わせた一時的標準パターン辞
書を作成するようにした。図1は本発明の基本構成を示
す。
記入者の書き方の特徴に合わせた一時的標準パターン辞
書を作成するようにした。図1は本発明の基本構成を示
す。
【0019】1は文字パターン入力部であって,帳票に
記入された文字を読み取るものである。2は特徴抽出部
であって,読み取られた文字パターンの特徴を1文字ず
つ抽出するものである。3は標準パターン辞書であっ
て,文字の標準パターンを格納するものである。4は文
字判定部であって,文字パターンの特徴を標準パターン
辞書3の標準パターンの特徴と比較し,文字パターンの
表す文字(文字のカテゴリ)を判定するものである。5
は認識結果・格納部であって,認識結果を格納するもの
である。
記入された文字を読み取るものである。2は特徴抽出部
であって,読み取られた文字パターンの特徴を1文字ず
つ抽出するものである。3は標準パターン辞書であっ
て,文字の標準パターンを格納するものである。4は文
字判定部であって,文字パターンの特徴を標準パターン
辞書3の標準パターンの特徴と比較し,文字パターンの
表す文字(文字のカテゴリ)を判定するものである。5
は認識結果・格納部であって,認識結果を格納するもの
である。
【0020】6は一時的標準パターン辞書作成部であっ
て,同一カテゴリの認識結果の文字パターン同士を比較
して特徴の相関をとり,相関の低い文字パターンは除外
し,相関の高い文字パターンのみにより,一時的標準パ
ターン辞書を作成するものである。7は一時的標準パタ
ーン辞書である。
て,同一カテゴリの認識結果の文字パターン同士を比較
して特徴の相関をとり,相関の低い文字パターンは除外
し,相関の高い文字パターンのみにより,一時的標準パ
ターン辞書を作成するものである。7は一時的標準パタ
ーン辞書である。
【0021】
【作用】図2は本発明の基本構成の作用説明図である。
図において, (a)は一時的標準パターン辞書の例を示
す。特徴kは入力された文字パターンdの特徴(線密
度,線方向等),特徴lは文字パターンe,特徴mは文
字パターンf,特徴oは文字パターンh,特徴pは文字
パターンi,特徴qは文字パターンjの特徴である(各
文字パターンについては後述する)。
図において, (a)は一時的標準パターン辞書の例を示
す。特徴kは入力された文字パターンdの特徴(線密
度,線方向等),特徴lは文字パターンe,特徴mは文
字パターンf,特徴oは文字パターンh,特徴pは文字
パターンi,特徴qは文字パターンjの特徴である(各
文字パターンについては後述する)。
【0022】(b)は入力文字パターンの例である。各文
字パターンを符号d〜rで表す。(c)は認識結果であっ
て, (b)の各入力文字パターンd,e,f,g,h,
i,j,rに対応する認識結果のカテゴリを表す。即
ち,入力文字パターンd,e,f,g,hをカテゴリ
「4」,入力文字パターンi,jをカテゴリ「9」と判
定し,入力文字パターンrをリジェクトしたことを表す
(リジェクトは認識不能もしくはあいまいな認識結果
(例えば,「4」と「9」の両方の確からしさを持つ場
合等)を含む)。
字パターンを符号d〜rで表す。(c)は認識結果であっ
て, (b)の各入力文字パターンd,e,f,g,h,
i,j,rに対応する認識結果のカテゴリを表す。即
ち,入力文字パターンd,e,f,g,hをカテゴリ
「4」,入力文字パターンi,jをカテゴリ「9」と判
定し,入力文字パターンrをリジェクトしたことを表す
(リジェクトは認識不能もしくはあいまいな認識結果
(例えば,「4」と「9」の両方の確からしさを持つ場
合等)を含む)。
【0023】図2を参照し,図1の基本構成の動作を説
明する。文字パターン入力部1は帳票の記入領域に書き
込まれた文字を,1文字ずつ読み取る。特徴抽出部2は
1文字ずつ特徴を抽出し,メモリ(図示せず)に格納す
る。そして,文字判定部4は1文字ずつの特徴により標
準パターン辞書3の標準パターンと比較し,距離計算等
を行って文字パターンのカテゴリを判定する(1次文字
認識)。判定結果を認識結果・格納部5に格納する。
明する。文字パターン入力部1は帳票の記入領域に書き
込まれた文字を,1文字ずつ読み取る。特徴抽出部2は
1文字ずつ特徴を抽出し,メモリ(図示せず)に格納す
る。そして,文字判定部4は1文字ずつの特徴により標
準パターン辞書3の標準パターンと比較し,距離計算等
を行って文字パターンのカテゴリを判定する(1次文字
認識)。判定結果を認識結果・格納部5に格納する。
【0024】一時的標準パターン辞書作成部6は帳票全
部の認識結果もしくは記入領域のフィールド毎(特定の
記入領域の集合)の認識結果について同一カテゴリの文
字パターンの特徴の相関をとる。例えば,同一カテゴリ
の文字パターンがn個あるとすると,そのn個の文字の
2つずつの組み合わせでそれぞれの文字パターン間の距
離を比較する等で相関を求める。その結果,相関が小さ
い文字パターンを除外し,相関の大きいパターンのみに
より一時的標準パターン辞書を作成する。
部の認識結果もしくは記入領域のフィールド毎(特定の
記入領域の集合)の認識結果について同一カテゴリの文
字パターンの特徴の相関をとる。例えば,同一カテゴリ
の文字パターンがn個あるとすると,そのn個の文字の
2つずつの組み合わせでそれぞれの文字パターン間の距
離を比較する等で相関を求める。その結果,相関が小さ
い文字パターンを除外し,相関の大きいパターンのみに
より一時的標準パターン辞書を作成する。
【0025】例えば,図2において,認識結果「4」の
文字パターンd,e,f,g,hの5文字パターンにつ
いて各2文字ずつの組み合わせの距離計算を行う。その
結果,距離の小さい文字パターンとして,d,e,f,
hが得られる。そして,その文字パターンのそれぞれの
特徴k,特徴l,特徴m,特徴oを一時的標準パターン
のカテゴリ「4」の特徴として登録する。同様に,認識
結果「9」の文字パターンi,jについても同様に距離
計算をして文字パターンi,jのそれぞれの特徴p,特
徴qをカテゴリ「9」の特徴として一時的標準パターン
辞書に登録する。また, 特徴k,特徴l,特徴m,特徴
oの平均を「4」の特徴として,一時的標準パターンと
して登録しても良い。「9」についても同様である。
文字パターンd,e,f,g,hの5文字パターンにつ
いて各2文字ずつの組み合わせの距離計算を行う。その
結果,距離の小さい文字パターンとして,d,e,f,
hが得られる。そして,その文字パターンのそれぞれの
特徴k,特徴l,特徴m,特徴oを一時的標準パターン
のカテゴリ「4」の特徴として登録する。同様に,認識
結果「9」の文字パターンi,jについても同様に距離
計算をして文字パターンi,jのそれぞれの特徴p,特
徴qをカテゴリ「9」の特徴として一時的標準パターン
辞書に登録する。また, 特徴k,特徴l,特徴m,特徴
oの平均を「4」の特徴として,一時的標準パターンと
して登録しても良い。「9」についても同様である。
【0026】一時的標準パターン辞書は一帳票について
1つ作成してもよいし,文字の記入領域を群としたフィ
ールド毎に同一カテゴリの文字の認識結果から相関を取
りフィールド毎に作成するようにしても良い。
1つ作成してもよいし,文字の記入領域を群としたフィ
ールド毎に同一カテゴリの文字の認識結果から相関を取
りフィールド毎に作成するようにしても良い。
【0027】そこで,リジェクトされた文字パターンも
しくは,一時的標準パターン辞書の作成において相関が
低いとされて除外された文字パターンについて一時的標
準パターン辞書もしくは一時的標準パターン辞書と標準
パターン辞書の両方を使用して再度文字認識を行う(2
次文字認識)。
しくは,一時的標準パターン辞書の作成において相関が
低いとされて除外された文字パターンについて一時的標
準パターン辞書もしくは一時的標準パターン辞書と標準
パターン辞書の両方を使用して再度文字認識を行う(2
次文字認識)。
【0028】2次文字認識は,例えば次のようにして行
う。 (1) 標準パターン辞書との比較(1次文字認識)でリ
ジェクトされた文字パターンについて,一時的標準パタ
ーン辞書を比較する。
う。 (1) 標準パターン辞書との比較(1次文字認識)でリ
ジェクトされた文字パターンについて,一時的標準パタ
ーン辞書を比較する。
【0029】例えば,図2の場合,カテゴリ「4」とカ
テゴリ「9」との区別が明瞭でないとしてリジェクトさ
れた文字パターンrを一時的標準パターン辞書と比較す
る。その結果,文字パターンrはカテゴリ「9」として
正しく認識される(一時的標準パターン辞書には,上が
閉じたカテゴリ「4」のパターンの特徴はないので,文
字パターンrが「4」と認識されることはなく,あいま
いさがなくなって「9」と判定される)。
テゴリ「9」との区別が明瞭でないとしてリジェクトさ
れた文字パターンrを一時的標準パターン辞書と比較す
る。その結果,文字パターンrはカテゴリ「9」として
正しく認識される(一時的標準パターン辞書には,上が
閉じたカテゴリ「4」のパターンの特徴はないので,文
字パターンrが「4」と認識されることはなく,あいま
いさがなくなって「9」と判定される)。
【0030】(2) 一時的標準パターン辞書の作成にお
いて,相関が低いとされた文字パターンを一時的標準パ
ターン辞書と比較する。例えば,文字パターンgは一時
的標準パターン辞書の作成において相関が低いとされて
除外される。そこで,文字パターンgを一時的標準パタ
ーン辞書と比較すると,文字パターンgはカテゴリ
「9」として正しく認識される(一時的パターン辞書に
は上部が閉じた「4」の文字パターンはないので「9」
と認識される)。
いて,相関が低いとされた文字パターンを一時的標準パ
ターン辞書と比較する。例えば,文字パターンgは一時
的標準パターン辞書の作成において相関が低いとされて
除外される。そこで,文字パターンgを一時的標準パタ
ーン辞書と比較すると,文字パターンgはカテゴリ
「9」として正しく認識される(一時的パターン辞書に
は上部が閉じた「4」の文字パターンはないので「9」
と認識される)。
【0031】(3) 標準パターン辞書との比較(1次文
字認識)でリジェクトされた文字パターンおよび一時的
標準パターン辞書の作成において,相関が低いとされた
文字パターンについてフィールド毎に作成された一時的
標準パターン辞書と比較する。
字認識)でリジェクトされた文字パターンおよび一時的
標準パターン辞書の作成において,相関が低いとされた
文字パターンについてフィールド毎に作成された一時的
標準パターン辞書と比較する。
【0032】(4) 標準パターン辞書との比較(1次文
字認識)でリジェクトされた文字パターンおよび一時的
標準パターン辞書の作成において相関が低いとされた文
字パターンについてフィールド毎に作成された一時的標
準パターン辞書と標準パターン辞書を使用して比較す
る。
字認識)でリジェクトされた文字パターンおよび一時的
標準パターン辞書の作成において相関が低いとされた文
字パターンについてフィールド毎に作成された一時的標
準パターン辞書と標準パターン辞書を使用して比較す
る。
【0033】(5) 標準パターン辞書との比較(1次文
字認識)でリジェクトされた文字パターンおよび一時的
標準パターン辞書の作成において相関が低いとされた文
字パターンについてフィールド毎に作成された一時的標
準パターン辞書および一時的標準パターン辞書にないカ
テゴリについて標準パターン辞書を使用して比較する。
字認識)でリジェクトされた文字パターンおよび一時的
標準パターン辞書の作成において相関が低いとされた文
字パターンについてフィールド毎に作成された一時的標
準パターン辞書および一時的標準パターン辞書にないカ
テゴリについて標準パターン辞書を使用して比較する。
【0034】本発明によれば,帳票の記入者の書き方の
個性に応じて,その人にあった辞書を自動的に作成する
ので,認識精度を向上させることができる。
個性に応じて,その人にあった辞書を自動的に作成する
ので,認識精度を向上させることができる。
【0035】
【実施例】図3は本発明の実施例構成を示す。図におい
て,20は帳票,21は文字パターン入力部,22は画
像メモリであって,帳票から読み取った文字パターンを
格納するものである。23は文字切り出し・位置決め
部,24は特徴抽出部,25は特徴メモリであって,抽
出した文字パターンの特徴を格納するものである。26
は距離計算部,27は標準パターン辞書,28は認識結
果・格納部である。
て,20は帳票,21は文字パターン入力部,22は画
像メモリであって,帳票から読み取った文字パターンを
格納するものである。23は文字切り出し・位置決め
部,24は特徴抽出部,25は特徴メモリであって,抽
出した文字パターンの特徴を格納するものである。26
は距離計算部,27は標準パターン辞書,28は認識結
果・格納部である。
【0036】29は一時的標準パターン辞書作成部,3
0は一時的標準パターン辞書である。31は制御部であ
って,装置各部を制御するものである。図の構成の動作
を説明する。
0は一時的標準パターン辞書である。31は制御部であ
って,装置各部を制御するものである。図の構成の動作
を説明する。
【0037】文字パターン入力部21は,帳票20の記
入領域に書き込まれた文字パターンを読み取り,画像メ
モリ22に格納する。文字切り出し・位置決め部23は
画像メモリ22に格納された文字パターンの領域を求
め,一文字ずつ切り出す。特徴抽出部24は切り出され
た文字パターンの特徴(線密度,線方向等)を抽出す
る。抽出された特徴は多次元ベクトルの要素として特徴
メモリ25に格納される。
入領域に書き込まれた文字パターンを読み取り,画像メ
モリ22に格納する。文字切り出し・位置決め部23は
画像メモリ22に格納された文字パターンの領域を求
め,一文字ずつ切り出す。特徴抽出部24は切り出され
た文字パターンの特徴(線密度,線方向等)を抽出す
る。抽出された特徴は多次元ベクトルの要素として特徴
メモリ25に格納される。
【0038】距離計算部26は,標準パターン辞書27
の標準パターンと比較し,文字パターンと各特徴ベクト
ルとの距離を算出する。そして,各特徴の距離の和が一
番小さい標準パターンのカテゴリからM位まで候補とし
て求め,候補メモリに格納する。その1位を認識結果と
する。
の標準パターンと比較し,文字パターンと各特徴ベクト
ルとの距離を算出する。そして,各特徴の距離の和が一
番小さい標準パターンのカテゴリからM位まで候補とし
て求め,候補メモリに格納する。その1位を認識結果と
する。
【0039】一時的標準パターン辞書作成部29は同一
カテゴリの認識結果の標準パターンの特徴の相関をと
る。例えば,同一カテゴリの文字パターンがn個あると
すると,そのn個の文字の2つずつの組み合わせでそれ
ぞれの文字パターン間の距離を計算する等で相関を求め
る。その結果,大きくずれている文字パターンを判定し
て他の文字と区別する。そして,相関の低い文字パター
ンは一時的標準パターン辞書として登録しないように
し,相関の高い文字パターンのみで一時的標準パターン
辞書を作成する。一時的標準パターン辞書30は,一帳
票に1つもしくは,フィールド単位に同一カテゴリの認
識結果の相関をとりフィールド毎に1つずつ作成するよ
うにしても良い。
カテゴリの認識結果の標準パターンの特徴の相関をと
る。例えば,同一カテゴリの文字パターンがn個あると
すると,そのn個の文字の2つずつの組み合わせでそれ
ぞれの文字パターン間の距離を計算する等で相関を求め
る。その結果,大きくずれている文字パターンを判定し
て他の文字と区別する。そして,相関の低い文字パター
ンは一時的標準パターン辞書として登録しないように
し,相関の高い文字パターンのみで一時的標準パターン
辞書を作成する。一時的標準パターン辞書30は,一帳
票に1つもしくは,フィールド単位に同一カテゴリの認
識結果の相関をとりフィールド毎に1つずつ作成するよ
うにしても良い。
【0040】そこで,距離計算部26は,1次文字認識
においてリジェクトされた文字パターン,もしくは一時
的辞書の作成において相関が低いとされて除外された文
字パターンについて一時的標準パターン辞書もしくは一
時的標準パターン辞書と標準パターン辞書を併用して2
次文字認識を行う。
においてリジェクトされた文字パターン,もしくは一時
的辞書の作成において相関が低いとされて除外された文
字パターンについて一時的標準パターン辞書もしくは一
時的標準パターン辞書と標準パターン辞書を併用して2
次文字認識を行う。
【0041】上記の構成において,一時的標準パターン
辞書は,一帳票について1つだけ作成しても良いが,フ
ィールド単位(特定の記入領域の群)毎に作成しても良
い。図4は2次文字認識の実施例(1) である。
辞書は,一帳票について1つだけ作成しても良いが,フ
ィールド単位(特定の記入領域の群)毎に作成しても良
い。図4は2次文字認識の実施例(1) である。
【0042】(一帳票に1つの一時的標準パターン辞書
を作成した場合)。(a)は標準パターン辞書との比較
(1次文字認識)でリジェクトされた文字パターンと一
時的標準パターン辞書を比較し,距離計算をする場合で
ある。
を作成した場合)。(a)は標準パターン辞書との比較
(1次文字認識)でリジェクトされた文字パターンと一
時的標準パターン辞書を比較し,距離計算をする場合で
ある。
【0043】S1 標準パターン辞書との比較(1次文
字認識)でリジェクトされた文字パターンと一時的標準
パターン辞書を比較し,距離計算をする。S2 最小距
離となった標準パターンのカテゴリを,1次文字認識で
リジェクトされた文字パターンの認識結果とする。
字認識)でリジェクトされた文字パターンと一時的標準
パターン辞書を比較し,距離計算をする。S2 最小距
離となった標準パターンのカテゴリを,1次文字認識で
リジェクトされた文字パターンの認識結果とする。
【0044】(b)は一時的標準パターン辞書を作成する
過程において,相関が低いとされた文字パターンを認識
する場合のフローである。S1 文字パターンどうしの
比較で相関が低いと判定された文字パターンを一時的標
準パターン辞書と比較し,距離計算をする。
過程において,相関が低いとされた文字パターンを認識
する場合のフローである。S1 文字パターンどうしの
比較で相関が低いと判定された文字パターンを一時的標
準パターン辞書と比較し,距離計算をする。
【0045】S2 最小距離となった標準パターンのカ
テゴリを文字パターンとして認識結果とする。図5は2
次文字認識の実施例(2) である。
テゴリを文字パターンとして認識結果とする。図5は2
次文字認識の実施例(2) である。
【0046】(フィールド毎に一時的標準パターン辞書
を作成する場合)。(a)は標準パターン辞書との比較
(1次文字認識)でリジェクトされた文字パターンおよ
び一時的標準パターン辞書を作成する過程において相関
が低いとされた文字パターンと一時的標準パターン辞書
を比較し距離計算をする場合である。
を作成する場合)。(a)は標準パターン辞書との比較
(1次文字認識)でリジェクトされた文字パターンおよ
び一時的標準パターン辞書を作成する過程において相関
が低いとされた文字パターンと一時的標準パターン辞書
を比較し距離計算をする場合である。
【0047】S1 標準パターン辞書との比較(1次文
字認識)でリジェクトされた文字パターンおよび一時的
標準パターン辞書を作成する過程において相関が低いと
された文字パターンの特徴について一時的標準パターン
辞書と比較し,距離計算をする。
字認識)でリジェクトされた文字パターンおよび一時的
標準パターン辞書を作成する過程において相関が低いと
された文字パターンの特徴について一時的標準パターン
辞書と比較し,距離計算をする。
【0048】S2 最小距離となった標準パターンのカ
テゴリを,1次文字認識でリジェクトされた文字パター
ンの認識結果とする。(b)は標準パターン辞書との比較
(1次文字認識)でリジェクトされた文字パターンおよ
び一時的標準パターン辞書を作成する過程において相関
が低いとされた文字パターンを一時的標準パターン辞書
と標準パターン辞書とで比較する場合である。
テゴリを,1次文字認識でリジェクトされた文字パター
ンの認識結果とする。(b)は標準パターン辞書との比較
(1次文字認識)でリジェクトされた文字パターンおよ
び一時的標準パターン辞書を作成する過程において相関
が低いとされた文字パターンを一時的標準パターン辞書
と標準パターン辞書とで比較する場合である。
【0049】S1 標準パターン辞書との比較(1次文
字認識)でリジェクトされた文字パターンおよび一時的
標準パターン辞書を作成する過程において相関が低いと
された文字パターンと一時的標準パターン辞書と標準パ
ターン辞書とで比較し,距離計算をする。
字認識)でリジェクトされた文字パターンおよび一時的
標準パターン辞書を作成する過程において相関が低いと
された文字パターンと一時的標準パターン辞書と標準パ
ターン辞書とで比較し,距離計算をする。
【0050】S2 最小距離となった標準パターンのカ
テゴリを文字パターンとして認識する。図6は2次文字
認識の実施例(3) である。
テゴリを文字パターンとして認識する。図6は2次文字
認識の実施例(3) である。
【0051】(フィールド毎に一時的標準パターン辞書
を作成する場合)。図は,標準パターン辞書との比較
(1次文字認識)でリジェクトされた文字パターンおよ
び一時的標準パターン辞書を作成する過程において相関
が低いとされた文字パターンを一時的標準パターン辞書
と比較し,一時的標準パターン辞書にないカテゴリの文
字パターンについては標準パターン辞書と比較する場合
である。
を作成する場合)。図は,標準パターン辞書との比較
(1次文字認識)でリジェクトされた文字パターンおよ
び一時的標準パターン辞書を作成する過程において相関
が低いとされた文字パターンを一時的標準パターン辞書
と比較し,一時的標準パターン辞書にないカテゴリの文
字パターンについては標準パターン辞書と比較する場合
である。
【0052】S1 標準パターン辞書との比較(1次文
字認識)でリジェクトされた文字パターンおよび一時的
標準パターン辞書を作成する過程において相関が低いと
された文字パターンの特徴を一時的標準パターン辞書お
よび一時的標準パターン辞書にないカテゴリの文字パタ
ーンについては標準パターン辞書と比較し,距離計算を
する。
字認識)でリジェクトされた文字パターンおよび一時的
標準パターン辞書を作成する過程において相関が低いと
された文字パターンの特徴を一時的標準パターン辞書お
よび一時的標準パターン辞書にないカテゴリの文字パタ
ーンについては標準パターン辞書と比較し,距離計算を
する。
【0053】S2 最小距離となった標準パターンのカ
テゴリを文字パターンとして認識する。
テゴリを文字パターンとして認識する。
【0054】
【発明の効果】本発明の文字認識装置は,文字の記入者
に固有の文字パターンにより一時的標準パターン辞書を
作成し,リジェクトされた文字パターン(あいまいな文
字パターンとして認識された結果を含む)もしくは認識
結果のうち相関が低いと判定された文字パターンを一時
的標準パターン辞書により再度文字認識するので,認識
精度および認識率が大幅に向上する。
に固有の文字パターンにより一時的標準パターン辞書を
作成し,リジェクトされた文字パターン(あいまいな文
字パターンとして認識された結果を含む)もしくは認識
結果のうち相関が低いと判定された文字パターンを一時
的標準パターン辞書により再度文字認識するので,認識
精度および認識率が大幅に向上する。
【図1】本発明の基本構成を示す図である。
【図2】本発明の基本構成の作用説明図である。
【図3】本発明の実施例構成を示す図である。
【図4】本発明の2次文字認識の実施例(1) を示す図で
ある。
ある。
【図5】本発明の2次文字認識の実施例(2) を示す図で
ある。
ある。
【図6】本発明の2次文字認識の実施例(3) を示す図で
ある。
ある。
【図7】従来の文字認識装置を示す図である。
【図8】従来の文字認識装置の説明図である。
1 :文字パターン入力部 2 :特徴抽出部 3 :標準パターン辞書 4 :文字判定部 5 :認識結果・格納部 6 :一時的標準パターン辞書作成部 7 :一時的標準パターン辞書
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/68 JICSTファイル(JOIS)
Claims (4)
- 【請求項1】 文字記入領域に記入された文字パターン
を入力する文字パターン入力部と、 文字の標準パターンを登録した標準パターン辞書と、 入力された文字パターンから特徴を抽出する特徴抽出部
と、 抽出された特徴を標準パターン辞書もしくは一時的標準
パターン辞書と比較して文字認識を行う文字判定部と、 文字認識結果を格納する認識結果・格納部と、 文字認識した結果、同一カテゴリであると判定された文
字パターン同士を比較し、相関の高い文字パターンを一
時的標準パターン辞書に登録する一時的標準パターン辞
書作成部と、 一時的標準パターン辞書と、 を備え、 文字判定部が標準パターン辞書と入力された文字パター
ンとを比較して1次文字認識し、認識できなかった文字
パターンもしくは一時的標準パターン辞書の作成過程で
相関が低いとされた文字パターンについて一時的標準パ
ターン辞書を使用して2次文字認識することを特徴とす
る文字認識装置 。 - 【請求項2】 標準パターン辞書と一時的標準パターン
辞書とを2次文字認識のため使用することを特徴とする
請求項1に記載の文字認識装置。 - 【請求項3】 一時的標準パターン辞書作成部が帳票の
特定の記入領域群であるフィールド毎に同一カテゴリで
あると判定された文字パターン同士を比較し、相関の高
い文字パターンを一時的標準パターン辞書に登録するこ
とを特徴とする請求項1または2に記載の文字認識装
置。 - 【請求項4】 一時的標準パターン辞書にないカテゴリ
の文字パターンについては、フィールド毎に標準パター
ン辞書を使用することを特徴とする請求項3に記載の文
字認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04309996A JP3130392B2 (ja) | 1992-11-19 | 1992-11-19 | 文字認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04309996A JP3130392B2 (ja) | 1992-11-19 | 1992-11-19 | 文字認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06162273A JPH06162273A (ja) | 1994-06-10 |
JP3130392B2 true JP3130392B2 (ja) | 2001-01-31 |
Family
ID=17999889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04309996A Expired - Fee Related JP3130392B2 (ja) | 1992-11-19 | 1992-11-19 | 文字認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3130392B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6711523B2 (ja) * | 2018-05-25 | 2020-06-17 | 株式会社ふくおかフィナンシャルグループ | 帳票認識システム |
-
1992
- 1992-11-19 JP JP04309996A patent/JP3130392B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH06162273A (ja) | 1994-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kolcz et al. | A line-oriented approach to word spotting in handwritten documents | |
US5315667A (en) | On-line handwriting recognition using a prototype confusability dialog | |
EP0114250B1 (en) | Confusion grouping of strokes in pattern recognition method and system | |
EP0691623B1 (en) | Scribble matching | |
KR100249055B1 (ko) | 문자인식장치및방법 | |
KR100412317B1 (ko) | 문자인식/수정방법및장치 | |
US20060050962A1 (en) | System, process and software arrangement for recognizing handwritten characters | |
Maddouri et al. | Combination of local and global vision modelling for arabic handwritten words recognition | |
JP2000353215A (ja) | 文字認識装置および文字認識プログラムを記録した記録媒体 | |
CA2375355A1 (en) | Character recognition system and method | |
JPH04311286A (ja) | オンライン手書き文字認識における類似文字のプロトタイプを改良するための方法および装置 | |
Madhvanath et al. | Holistic verification of handwritten phrases | |
US8340428B2 (en) | Unsupervised writer style adaptation for handwritten word spotting | |
JP3917349B2 (ja) | 文字認識結果を利用して情報を検索する検索装置および方法 | |
JPH07509576A (ja) | 文字の認識方法 | |
Kessentini et al. | Word spotting and regular expression detection in handwritten documents | |
JP3130392B2 (ja) | 文字認識装置 | |
Lay et al. | On-line Chinese character recognition with effective candidate radical and candidate character selections | |
Bhattacharya et al. | Cleaning of online Bangla free-form handwritten text | |
Hurst et al. | Error repair in human handwriting: an intelligent user interface for automatic online handwriting recognition | |
Tang et al. | Reconstructing the correct writing sequence from a set of Chinese character strokes | |
JP3209197B2 (ja) | 文字認識装置及び文字認識プログラムを記録した記録媒体 | |
JP3419251B2 (ja) | 文字認識装置及び文字認識方法 | |
Ishidera et al. | Top-down likelihood word image generation model for holistic word recognition | |
JP2671984B2 (ja) | 情報認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20001031 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081117 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081117 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091117 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101117 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |