JPS5866178A - 文字認識方式 - Google Patents

文字認識方式

Info

Publication number
JPS5866178A
JPS5866178A JP56165347A JP16534781A JPS5866178A JP S5866178 A JPS5866178 A JP S5866178A JP 56165347 A JP56165347 A JP 56165347A JP 16534781 A JP16534781 A JP 16534781A JP S5866178 A JPS5866178 A JP S5866178A
Authority
JP
Japan
Prior art keywords
dictionary
code
code value
character
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56165347A
Other languages
English (en)
Inventor
Hiroyuki Kami
上 博行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Priority to JP56165347A priority Critical patent/JPS5866178A/ja
Publication of JPS5866178A publication Critical patent/JPS5866178A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は・文字サンプル帳票の文字により辞書を作り、
帳票読取時には作られた辞書との照合により文字をi!
!識する文字認識方式に閤する0従来、この種の文字認
識方式では、乱雑な文字を書く人でも各個人に限定すれ
ば字形は似たパターンに”なる゛ということで、帳票記
入者が何回も書い□た同一形式の帳票を絖ませ会文字の
4I會゛を抽出し、文字カテゴリごとに得られる特徴量
の範囲を求め帳票記入者の辞書としている0第imlは
辞書作成のための手書き文字サンプル帳票の一例を示す
閣であり、例というカテゴリ名かは仁の例の場合、l1
kWA上の位置によって決められる@と(ろてこの方法
でも、似た拳の異なるカテゴリに対して抽出される特徴
量は違わなければならないので、マクロなII#像とミ
クロな特徴とを同時に抽出し辞書を作る必要があり、辞
書作成は困−である。
事始−の目的は上記問題を解決する階層辞書の文字gg
m方式を提供することEある。
上記l釣を達成するため、本IJa―の文字認識方式は
、まず文字すンプル帳票を入力し各文字ごとに、与えた
カテゴリ名と予め定めた複数個の41−の%微量を符号
化したコード値の列とを記憶し、文字すンプル帳票上の
文字に対する符号化が終了すると、異なるカテゴリで同
一コード値列をもつものには仮題カテゴリ名とそのコー
ド値列とで、異なるコード値列をもつものkは同一カテ
ゴIJ4のコード値の列を他カテゴ9のコード値の列を
含まないよう番こシて各特徴ごとにコード値を組脅せ下
限値フードと上@籠コードとを求めてコード値の範囲と
し、カテゴリ名の各特徴ごとのコード値の範囲とで、主
辞書を作り、′!4f文字サンプル帳票を入力し、主辞
書で帳票上の各文字を判定し、仮想カテゴリ名と判定さ
れた文字(対しては、(1)%微量の符号化を前記より
詳細な符号化で行うか(例えば主辞書を作ると会の特徴
量の符号化は4レベルにし、副辞書を作るときは8レベ
ルにして特徴量化対する符号の割当てを細かくする0)
、(2)前記予め定めた巷黴以外の%黴の特徴量を符号
化するかして、与えたカテゴリ名と得られた特徴量のコ
ード値の列を記憶し、前記と同じ方法によりカテゴリ名
とコード範囲とで副辞書を作り、主辞書をマクロfj%
黴を使っての、副辞書をミクロな特徴を使っての辞書と
して、帳票上の文字Millりを行う。
第2図は従来の文字−隙方法を説明するための具体的な
装置のブロック図であり、帳県絖取前に辞書を補助記憶
部7から辞書部5に記憶する0帳票上の一文字の文字パ
ターンは走査sIで充電変換され画像データとしてパタ
ーンメモリII+1に記憶部れる。特徴抽出部3はパタ
ーンメモリ部z内の2次元パターンからwIlに必要な
特徴の41黴量を抽出し、照合部4は辞書部Sに記憶さ
れている特徴量と抽出された特徴量とを照合し、貌龜結
釆6を出力する。
一方第swJは本発明に係る文字認識方式をll@する
ための異体的な装置の一実施例を示すブロック図であり
、tず文字量ンプル帳票を入力すると、帳票上の一文字
の文字パターンは走査I11で光電変換され両像データ
としてパターンメモリatに記憶され、特徴抽出部3は
パターンメモリs雪内の2次元パターンから定められた
複数個の特徴の%微量を抽出、符号化し、フード値の列
として4名 えられたカテゴリ名と@GC,コード記憶@SSC記憶
する◎文字サンプル帳票上の文字・に対する記憶が終了
すると、次[%書見生部9はコード記憶部8のコード値
列を用い、異なるカテゴリで同一コード値列をもつもの
は仮にカテゴリ名を与え仮想カテゴリ名とし、この仮想
カテゴリ名(一般のカテゴリ名のコード値とは異なるコ
ード値を与える)とそのコード値列とで、異なるコード
値列をもつものには同一カテゴリ名のコード値の列を他
カテゴリのコード値の列を含まないようにして各特徴ご
とにコード値を組合せ、下限値コードと上限値コードと
を求めてコード値の範囲とし、カテゴリ名と各lI#徴
ごとのコード値の範囲とで、主辞書を作り、辞Is5に
記憶する。再度文字サンプル帳票を入力し、帳票上の各
文字を辞書部5Iこ記憶されている主辞書を使い判定し
、仮想カテゴリ名と判定された文字屹対しては、(1)
%微量の符号化を前記より詳細な符号化で行うか、(2
)前記予め定めた特徴以外の特徴の特徴量を符号化する
かして、カテゴリ名人力部IOで与えたカテゴリ名とl
ff11量のコード値の列をコード記憶部8に記憶する
。次に辞書発生部9は@記と同じ方法で辞書を作り、副
辞書として辞書部5に追加記憶する。
帳票のM取りは次のようにして行う。帳票上の−文字の
文字パターンは走査111で光電変換され画像データと
してパターンメモリ部2に記憶され、特徴抽出l$3は
パターンメモリ部2内の2次元パターンから定められた
特徴の特徴量を抽出、符号化し、照合II4は主辞書の
コード値範■列と前記特徴抽出11m?得られるコード
値列とを黒合し、読取結果・を出力する@ただし貌取紬
J16が仮離カテゴリ鳴であったら、(1)特徴抽出部
3に自ける符号化を詳mu符号化に変え新しいコード値
列を求め、照合部4は副辞書のコード値範■列と前記特
徴IIII出部3て得られるコード値列とを照合するか
、偉)特徴抽出部3で使う特徴を主辞書て使った特徴以
外の副辞書で指定される特徴に変え抽出した**量から
コード値列を求め、隠會郁4はIl辞書のコード値範■
列と前記畳黴抽出l13で得られるコード値列とを照合
するかして、読取結果6を得るO ここ′t14I黴抽出部3において抽出される特徴の種
類は大別して8つに分けられ、1つは文字線追跡によっ
て得られるもの、もう1つは背景解析によって得られる
ものである@前者は文字をM線パターンに変換し、線を
追跡して検出される端点、分岐点、交差点等の特徴点の
個数、位置関係、つながり、特徴点間の−り勢であり、
後者は文字の輪郭を追跡して凹部、凸部(分割し、各部
の彎自度、各部の開方向、全長に対する各部の追跡長比
、各部の方向ヒストグラム等である・ 主辞書と副辞書とて使用する特窒を変える上記(2)の
場合には、例えば背景解析によって得られる特徴のみを
使うとすると、主辞書では凹凸各部の彎IMlIIL1
各部の一方向、全長に対する各部の追跡長比の特徴を用
い、副辞書では凹凸各部の方向ヒストグラムの%徴を用
いる・ 第4図は第3図屹対応する本発明の文字認識方式をプロ
セッサとメモリを蒙って構成する文字認識装置の一1I
!−例を示すブロックであり、加はプログラムメモ91
jにセットされた特徴ll1l出プログラム、照合プロ
グラム、辞書作成プログラムを奥行するプロセッサ、B
は照合に使う辞書を記憶する辞書メモリ、 14は辞書
作成に#うカテゴリ名と特徴量のコード値列を記憶する
コードメモリ、11は所定のパターン領域を走査する走
査回路、袷は前記プログラムを記憶している補助記憶装
置、19はインタフ畠−スパス、16は陣取結果を出力
やディスプレイ等を行なう出力装置、17はカテゴリ名
を与えるキー入力回路である0 tssllIlにおける処理を菖4図の文字認識装置で
行うには次のような処理が必要であるOまずプロセッサ
加は補助記憶装置18にある4I像抽出プログラムをプ
ログラムメモリ15にセットする。
次に文字サンプル帳票を入力すると、帳票上の文字は走
査−路11″e走査、量子化され、2値パターンとして
パターンメモリ4にセットされるOプロセラ号蜀はプロ
グラムメモ915にある特徴抽出プログラムを実行し、
パターンメモリ)にある2値に得られたコード値列をコ
ードメモリ14に記憶する。文字サンプル帳票上の文字
を次々と処理してコードメモリ14への記憶が終了する
と、次の辞書作成処理に入る。
プロセッサ加は補助記憶装置18にある辞書作成プログ
ラムをプログラムメモ915にセットし、プログラムを
実行し、フードメモリ14のコード値列をインタフ鼻−
スパス18を介して使い、辞書を発生し、主辞書として
辞書メモリ13にセットするO辞書が出来るとプロセッ
サ加は補助記憶装置18にある特徴抽出プログラムと照
合プログラムをプログラムメモリ15にセットし、コー
ドメモリ14をクリアする0再*文字サンプル帳票を入
力すると、帳票上の文字は走査回路11で走査、量子化
され、2値パターンとしてパターンメモリ12にセット
される。プロセッサ加はプログラムメモリ15にある特
徴抽出プログラムを奥行し、パターンメモリ稔にある2
値パターンから特徴を抽出いその特徴量を求め符号化す
る。次にプロセッサ加はプログラムメモリ15にある照
合プログラムを実行し、求筐った%微量のコード値列と
辞書メモリ13にあるコード甑範四列からなる主辞書と
で照合を行い、読取結果を出力装置16に表示するO出
力装置16に表示されたカテゴリ名が以前にキー人力鵡
路17で4えたカテゴリ名と異なる場合には、正しいカ
テゴリ名をキー人力@m17て与えると、プロセッサ園
は養黴餉出プログラムを再実行し、(t)41黴量の符
号化を詳細な符号化化度えるか、(2)使用する特徴を
詳mな特徴に変えるかして、得られたコード値列と4え
られたカテゴリ1七をコードメモリ14にセットする。
文字サンプルIs票の貌取りが昶了すると、前述と同様
にコードメモリ14に記憶されているコード値^で辞書
を作り、発生した辞書を属辞書として辞書メモリBに追
加記憶する。
上記辞書作成終了後に、実際の帳票貌堆りを行う〇 帳票が入力されると、帳票上の文字は走査−路11て走
査、量子化され、2値パターンとしてパターンメモリ戎
にセットされる。プロセシ量20はプログラムメモ9b
にめる特徴抽出プログラムを実行し、パターンメモリ1
2にある2値パターンから特徴を抽出し、その特徴量を
求め符号化する。次にプロセッサ加はプログラムメモリ
bにある照合プコグラムを実行し、求まった特徴量のコ
ード値列と辞書メモリ13にある主辞書のコード値範囲
列とで照合を行い、カテゴリ名が決ったら結果を出力純
愛16に出力する。カテゴリ名が決らなかったら、特徴
抽出プログラムを再実行し、(1)前°記2値パターン
から求まった%微量を詳細な符号化でコードにするか、
(2)ll辞書で推定される主辞書で指定されたfF微
以外の特徴ice黴を変えて特徴量のコード列を求ぬる
かして、得られた%微量のコード値列と辞書メモリ13
にある1111!書のコード値範囲列とで照合を行い、
照合結果のカテゴリ名を出力するO 第5図は、辞書を作るため文字サンプルから得られたカ
テゴリ名とあらかじめ訣められた何種類かの特徴の4I
微量のコード値を記号で例示した図であるO 図において、Cはカテゴリ名を符号化したカテゴリパラ
メータを、kはサンプル数を、pcc*h)は特徴量の
コード値を表わすとすると〜文字サンプル数は各カテゴ
リごとに同数のL個づつ、カテゴリ数はN@、特徴数は
M個であることを嵌わしている。
第6図は第5図の記号を使って辞書を作る70−チャー
ト図である。
110で示す処理は、カテゴリパラメータCとサンプル
数に対応するサンプル数パラメータにで決まるメモリ上
の位置P(c、k)を文字ムでクリアする処理ですでに
辞書作成に使われたかを示すフラグとみなし、P(c、
k)−人 であれば未処理を表わす0 120で示す処理は未処理、すなわちP(c、k)−ム
のとき、P(c、k)をもとに特徴FjcD特徴値の1
隈値F1.jと下限値Fsj  を作る処理であり、P
 (C* k )−Y であれば処理ずみを勇わす01
30で示す処理は、120で籟定されたカテゴリパラメ
ータ値Cと同じパラメータ値Cで、サンプル数パラメー
タkを変えて未処理のP(c、k)を求約、前記サンプ
ル数パラメータにの%k)’jの特歓値をF、jとする
処理である0 140で示す処理は前記411k flli l” t
 jとp 、 jのうち小さい籠の方をFjnに、前記
特徴値1’s3とF、jのうち大きい値の方をFjmに
する処理である0150で示す処理は前記C以外のカテ
ゴリパラメーターとサンプル数パラメータlとで決まる
位置にあj)特徴値Pj(a、j)と前記町。、Fji
rl  とで相違量り、lを下記計算式て求め、カテゴ
リパラメータ1とサンプル数パラメータIとを変えて得
られる最小相違量をDとする処理であるO jミ1                  1駒!l
)−Fjm] ただし[5)−0(e<O)、〔θ〕−e(θ〉0)こ
こでWjは特徴Pjの重みで、 統計処理であらかじめ
求まっているとする・ 160で示す処理は最小相違量りが閾WT以上であれば
Fjoを特徴Flの下限値F、jに、Fj□を@1kP
Jの上I!値Fs3にし、フラグp(c、k)にYを入
れて処理ずみとする0 170で示す処理は前述の130.140.150およ
びに1sOJ611を、サンプル数パラメータkを費え
て全サンプル数り回くり返すためのallである018
0で示す処理はカテゴリパラメータCと特徴11の下限
値F 、 3と上限値Fs1 とで1つの辞書を作る処
理である。
190で示す処理はサンプル数パラメータhを変えて上
述の処理を、全サンプル数L1m<り返すための処理で
ある0 200て示す処理はカテゴリ数パラメータCを変えて上
述の各Cごとの辞書作成処塩を、全カテゴリ数N1m<
り返すための処理である。
従って作成される辞書は@7図に示すようにカテゴリ名
のコード値Cと各4v像ごとの特徴量の下限値コードF
Bと上限値コードF、3  とがら構成される。
主辞書作成は上述の方法で行われるが、副辞書作威ては
次の部分が異なる。
(1)詳細な符号化では、特徴量のコード値が異なるの
みであるので第5lSilIにおける特徴量のコード値
F + (c * k )が変わる◎(2)抽出する特
徴を変えるときは、特徴数Mが変わり、当然%微量のコ
ード値が新しく得られるので、第S図に右ける特徴数M
と特徴量のコード値PH(c、k)が変わり、 従って
第6図におけるMが変わる。
最後に照合処理方法の一例を示す。
読取対象の文字パターンから特徴抽出プログラムの実行
によって得られた特徴量のコード値列をFzt、FI8
12.1900004、rIMとすルト、辞書ノ下限値
コードF11(b)、上限値F 、1 (b)とで相違
量D(b)を計算するO j m 1                    
       ノコリただし[8]−0(6<0)% 
 CIj’J−8CIj>0)、Wは特徴11の重みで
ある0 b−1からB3iでで最小相違量となるbに対応するカ
テゴリ名コード値Cを11!]l対象文字のll1ll
!取結果とする。
本発明の%畏は、(1)特徴量の符号化を変えることk
より楓い符号化から得られる主辞書と細い符号化から得
られる副辞書とを作成するか、(2)抽出する4I徽を
変えることkより大局的な特徴の特徴量から得られる主
辞書と詳細な特徴の特徴量から得られる銅辞書とを作成
するかして、マクロな相違のある文字に対しては主辞書
で、ミクロな相違のある文字に対しては副辞書″r*定
を行うことでめるO 以上Wi明したように、本実−によれば特徴量を符号化
しコード列として記憶した後、文字貌IIIL義置内で
辞書が作成で会、WItyet対象帳mlO文字に対す
る辞書を発生で會るので性能の良い文字m取装置を得る
ことが可能となりその効果は大なるものがある0
【図面の簡単な説明】
第1図は辞書作成のための文字量ンプル帳票の一例、t
SZ図は従来の文字認識方法のブロック図、#Is図は
本発明に係る文字認識方式を具体的に実現した一実施例
を示すブロックIf 、11k4 I!lは本発明の文
字認識方式をプロセッサとメモリを使って構成蒐る又字
認識装置の一実施例、第5WAは辞書を作るためp文字
サンプルわら得られたカテゴリ名とあらかじめ決められ
た何種類かの特徴の特徴量のコード値を記号て例示した
図、紀6図は第5図の記号を使って辞書を作るフローチ
ャート図、第7allは辞書の形式を示す図である。図
において1は走査部、2はパターンメモリ部、3は特徴
抽出部、4は照合部、5は辞書部、6は出力結果、7は
補助釦[11、sはコード記憶部、9は辞書発生部、1
0はカテゴリ名人力部、11は走査部、12はパターン
メモリ部、13は辞書メモリ、14はコードメモリ、1
5はプログラムメモリ、16は出力装置、17はキー入
力回路、18は補助記憶装置、19はパスライン、加は
プロセッサをそれぞれ示す0葆2図 第4図 第5図 銘7図

Claims (1)

    【特許請求の範囲】
  1. 文字読取装置に帳票上の文字から抽出された特黴のへ微
    量によって作られた#書をあらかじめ記vtさせ、帳本
    絖堆時には帳票上の文字から定めた%黴の%微量を抽出
    し前記辞書と照合して文字をlI識する文字認識におい
    て、軌取島始前屹文字すンフル帳朶を入力し、各文字ご
    とに、与えたカテゴリ名と予め定めた複数個の%黴の特
    徴量を符号化したコード値の列とを記憶し、文字サンプ
    ル帳票上の文字&C刻する符号化が終了すると、囚異な
    るカテゴリで同一コード値列をもつものには仮想カテコ
    リ名とそのコード値列とで、■異なるコード値^をもつ
    ものjこは同一カテゴリ名のコード値の列を倫カテゴリ
    のコード値の列を金蓋ないようにして各脣蒙ことにコー
    ド値を組合せ、下@値コードと上隈値コードとを求めコ
    ード値の範囲とし、カテゴリ名と各特徴ごとのコード値
    の範囲とで、主辞書を作り、次に再度文字量ンプル帳票
    を入力し主辞書で帳票上の各文字を判定し、仮想カテゴ
    リ名と判定された文字に対しては特徴量の符号化を前記
    より詳細な符号化を行うか、又は前記予め定めた特徴以
    外の特徴の特徴量を符号化し、与えたカテゴリ名と得ら
    れた4I像量のコード値の列を配憶し、前記と同じ方法
    によりカテゴリ名とコード範囲とで副辞書を作り、帳票
    読壜り時には主辞書と副辞書との照合で行うことをel
    lとする文字認識方丈@
JP56165347A 1981-10-16 1981-10-16 文字認識方式 Pending JPS5866178A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56165347A JPS5866178A (ja) 1981-10-16 1981-10-16 文字認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56165347A JPS5866178A (ja) 1981-10-16 1981-10-16 文字認識方式

Publications (1)

Publication Number Publication Date
JPS5866178A true JPS5866178A (ja) 1983-04-20

Family

ID=15810617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56165347A Pending JPS5866178A (ja) 1981-10-16 1981-10-16 文字認識方式

Country Status (1)

Country Link
JP (1) JPS5866178A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62166487A (ja) * 1986-01-20 1987-07-22 Nippon Telegr & Teleph Corp <Ntt> パタン照合装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62166487A (ja) * 1986-01-20 1987-07-22 Nippon Telegr & Teleph Corp <Ntt> パタン照合装置
JP2515732B2 (ja) * 1986-01-20 1996-07-10 日本電信電話株式会社 パタン照合装置

Similar Documents

Publication Publication Date Title
CN106384094B (zh) 一种基于书写风格建模的中文字库自动生成方法
CN110084239B (zh) 降低离线手写数学公式识别时网络训练过拟合的方法
Munson Experiments in the recognition of hand-printed text, part I: character recognition
US4573196A (en) Confusion grouping of strokes in pattern recognition method and system
US5923778A (en) Hierarchical representation of reference database for an on-line Chinese character recognition system
TW389865B (en) System and method for automated interpretation of input expressions using novel a posteriori probability measures and optimally trained information processing network
Brown et al. Handprinted symbol recognition system
CN112597876A (zh) 基于特征融合的书法汉字评判方法
CN106250811A (zh) 基于hog特征稀疏表示的非约束人脸识别方法
CN110852375A (zh) 基于深度学习的端到端乐谱音符识别方法
CN112784531A (zh) 一种基于深度学习和部件拼接的中文字形及字库生成方法
CN111931630B (zh) 一种基于人脸特征点数据增强的动态表情识别方法
JPH08508128A (ja) 分布マップを用いる画像の分類方法及び装置
KR100242458B1 (ko) 패턴인식 방법 및 장치와 패턴인식 사전을 작성하는 방법
CN113255767B (zh) 票据分类方法、装置、设备及存储介质
CN114419174A (zh) 在线手写文本合成方法、装置和存储介质
KR100308856B1 (ko) 문자인식방법및장치
JPS5866178A (ja) 文字認識方式
CN111126160A (zh) 基于五笔输入法构建的智能汉字结构评价方法及系统
Miyao et al. An online handwritten music score recognition system
Powers Pen direction sequences in character recognition
JPS5922179A (ja) 文字認識方法
CN115422941A (zh) 文本摘要生成方法、装置、设备以及存储介质
CN115346225A (zh) 书写测评方法、装置及设备
WO2021137942A1 (en) Pattern generation