JPS5854433B2 - 相違度検出装置 - Google Patents

相違度検出装置

Info

Publication number
JPS5854433B2
JPS5854433B2 JP55126244A JP12624480A JPS5854433B2 JP S5854433 B2 JPS5854433 B2 JP S5854433B2 JP 55126244 A JP55126244 A JP 55126244A JP 12624480 A JP12624480 A JP 12624480A JP S5854433 B2 JPS5854433 B2 JP S5854433B2
Authority
JP
Japan
Prior art keywords
character
output
distance
word
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55126244A
Other languages
English (en)
Other versions
JPS5757382A (en
Inventor
一成 江上
宣彦 森
善丈 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP55126244A priority Critical patent/JPS5854433B2/ja
Priority to US06/300,569 priority patent/US4418423A/en
Publication of JPS5757382A publication Critical patent/JPS5757382A/ja
Publication of JPS5854433B2 publication Critical patent/JPS5854433B2/ja
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は、複数個の単語と文字読取装置(以下OCRと
称す)より出力された出力文字列とを照合し、OCRの
人力となる文字フィールドに対応した単語を認識単語と
する単語認識装置、特に、OCR出力文字列と単語とを
照合し、相違度を検出する相違度検出装置に関するもの
である。
OCRの人力対象となる郵便物や文書等において、片仮
名やアルファベット等は人名・地名や品名等の固有名詞
や普通名詞で用いられることが多い。
これらのものは、数字の場合と異なり単語内における文
字間の従属性がかなり強く、また十分な冗長性を有する
場合が多い。
従って単語を単位として認識を行えば、その従属性や冗
長性を利用することにより、誤読文字の訂正や読取不能
文字の回復が可能となり、認識率をかなり改善すること
ができる。
このような単語単位の認識を以下単語認識と呼ぶことに
する。
一般に、郵便物や文書に記載された英大文字や英小文字
をOCRを用いて認識する場合、OCRの認識精度を向
上させるために、郵便物や文書の個々の文字を英大文字
あるいは英小文字と見なして、それぞれ独立に出力させ
る。
このように独立に出力された文字列を例えば特開昭52
−80743号公報等で示されているように、1つの文
字フィールドを英大文字フィールドであるかあるいは英
小文字フィールドであるかを識別し、しかる後単語認識
装置により誤り訂正を行うといった手法が採用されてい
る。
しかし、1つの文字フィールド内に英大文字及び英小文
字の混在や文字品質の劣化等は、1つの文字フィールド
における英大文字・英小文字の識別を困難とする場合が
生じるためOCR出力文字列と単語との相違度が正しく
得られず、その結果単語認識の認識精度を下げることに
もなる。
そこで本発明の目的は、単語辞書に記憶された単語とO
CR出力文字列との文字間距離の検出にあたり、英大文
字あるいは英小文字のうち、どちらか可能性の高い文字
間距離を有する英字を選択し、OCR出力文字列と単語
との照合に適用することにより前記従来の欠点を解決し
た相違度検出装置を提供することにある。
本発明の他の目的は、本発明を用いることにより前述し
たような英大文字・英小文字フィールドの識別装置が簡
単な構成からなる装置であっても、単語認識精度を下げ
ることなく、処理できる相違度検出装置を提供すること
にある。
本発明によれば、OCRより出力される出力文字列と予
め用意された単語辞書に記憶された複数個の単語とを照
合し、複数個の単語とOCR出力文字列との相違度を検
出する相違度検出装置において、1つの文字フィールド
に対応するOCRの出力文字列として、第1文字種と見
なして出力された文字列α1α2・・・・・・anをO
CRから受取った順序で記憶するための第ルジスタ及び
第2文字種と見なして出力された文字列β1β2・・・
・・・β。
をOCRから受取った順序で記憶するための第2レジス
タと、第1文字種におけるi番目の文字カテゴリU(i
)と第1文字種と見なしてOCRより出力される文字α
との第1文字種文字間距離d〔α。
U(i))及び第2文字種におけるi番目の文字カテゴ
’JL(i)と第2文字種と見なしてOCRより出力さ
れる文字βとの第2文字種文字間距離d〔β。
L(i))を記憶する記憶装置と、単語を構成するj番
目の文字a・と比較される第ルジスタ及び第2レジスタ
のに番目(但しj = −s < k (:、 j +
sであり、Sは予め設定された定数0,1,2・・・
・・・とする。
)の内容αに、βにとにより決定される第1文字種文字
間距離d〔α、U(i)、l(但しααに、U(i)=
aj )及び第2文字種文字間距離d〔β、 L(i)
) (但し、β−βに、L(i)−a、)のうち、小さ
い文字間距離を単語aj(!1−OCRのに番目の出力
文字αに、βにとの文字間距離として検出する文字間距
離検出手段と、単語とOCRの出力文字列とを照合し、
文字間距離検出手段により得られる文字間距離に基づい
て単語とOCRの出力文字列との相違度を検出する照合
手段とで構成されたことを特徴とする相違度検出装置が
得られる。
以下本発明について具体的実施例を示す図を参照して説
明する。
第1図は英大文字の文字間距離の一例を説明するために
示した概念図である。
図において、行方向に示されたアルファベット(但し△
はブランク文字を示す)は単語を構成する文字カテゴリ
(以下辞書文字と呼ぶ)を示し、列方向に示されたアル
ファベット(但し△はブランク文字、?は読取不能文字
を示す)はOCR出力文字を示す。
図の各要素はOCR出力文字と辞書文字との文字間距離
を表わす数値である。
例えばOCR出力文字Oと辞書文字りとの文字間距離d
15,4 (0+D)(但し添字で示した数字は、それ
ぞれ列方向、行方向に示されたアルファベットの位置を
示す)は値8であり、OCR出力文字Oと辞書文字Eと
の文字間距離d15,5 (0、B)は値15を示して
いる。
即ち、第1図で示した文字間距離表において、英大文字
0は英大文字Eより英大文字りに似ているため、文字間
距離d15,4 (Ot D )は文字間距離dss、
s(0,E)より小さな値をとることになる。
また、OCR出力文字Oと辞書文字Oとの文字間距離d
15,15(0、0)はOであり、完全にマツチングが
とれていることを示している。
次に、前述した英大文字の文字間距離表の算出方法の一
例を示す。
図の各要素であるOCR出力文字と辞書文字との文字間
距離di、jは、OCRの読取り結果により得られるj
番目の辞書文字U(j)(j=0.・・・・・・26)
がi番目のOCR出力文字α(i)(i=o・・・・・
・27)として認識する混同確率P (U(j) 1c
(i))に対して、−C−log P (U(j)I
α(i)) (但し、Cは一1og P (U(j)
l α(i))を一定範囲の数値、(例えば図において
、値Oから15までの数値)で表現するための予め設定
される定数である)に対数変換することにより算出でき
る。
尚OCR出力文字と辞書文字との文字間距離di、jの
算出方法は、前述した算出方法に規定されるものではな
い。
また英小文字の文字間距離衣も同様にして求められる。
第2図は本発明の一実施例をフロチャートを用いて示し
たものである。
第2図において記号りは、OCR出力文字列(英大文字
と見なして出力された出力文字列及び英小文字と見なし
て出力された出力文字列を総称して、OCR出力文字列
と呼ぶことにする)の文字数を示し、記号Wは照合すべ
き単語の文字数を示し、記号■はOCR出力文字列の第
1番目の文字位置(以下記号■を入力比較位置と呼ぶこ
とにする)を示し、記号Jは単語の第5番目の文字位置
(以下記号Jを単語比較位置と呼ぶことにする)を示し
ている。
また記号du(LJ)及びdl(LJ)は、OOR英大
文字出力文字列及びOCR英小文字出力文字列の第1番
目の文字と単語の第5番目の文字とを比較した場合の文
字間距離を示す。
記号Sは予め予め設定される照合幅を示す。
照合幅Sは、OCRにおける一文字単位の切り出しの際
に生じる文字切り出しミスによって、OCR出力文字列
の文字数の変化が生じた場合を考慮して設定されるパラ
メータであり、oc矧呂力文字列の入力比較位置Iに対
して、照合すべき単語の第1−8番目の文字から第■+
S番目の文字までを単語比較位置Jに関連させる。
即ち、OCR出力文字列の人力比較位IIに対して、単
語比較位置Jの取り得る範囲は、I−8くJ≦I+8と
なる。
記号D(I、J)はOCR出力文字列の第1番目の文字
と単語の第5番目の文字までの比較の結果として得られ
た相違度を示し、図中ブロック106で示す計算式D(
I、J)=d(I、J)+MIN(D(I、J−1)。
D(I−1、J−1) 、 D(I−1、J ) )を
用いて得られる。
但し、d(■、J)は、前述した文字間距離dU(I、
J)とdI、(I、J)の最小値を示し、MIN (D
(I 、 J−1) 、 D(I−1。
J−1) 、D(I−1、J) )は相違度D(I。
J−1) 、D(I−1、J−1) 、D(I−1。
J)の最小値を示す。
即ち、相違度D(I、J)は、人力比較位置■と単語比
較位置Jとの前述した文字間距離d(I、J)及び入力
比較位置■と単語比較位置J−1に到るまでの相違度D
(I。
J−1)及び入力比較位置I−1と単語比較位置J−1
に敗るまでの相違度D(I−1、J−1)及び入力比較
位置I−1と単語比較位置Jに到るまでの相違度D(I
−1,J)を用いて、逐次的に算出され、入力比較位置
■と単語比較位置Jに到るまでのOCR出力文字列と単
語の最適な各文字間の対応付けにより得られる文字間距
離の加算料を示すものである。
尚入力比較位置■がOCR出力文字列の文字数りに、単
語比較位置Jが単語の文字数Wにそれぞれ等しくなった
場合、ブロック106で示す計算式により得られた相違
度D(I、J)を前述したようにOCR出力文字列と単
語との相違度と呼ぶことにする。
またブロック106で示すような計算式を用いてOCR
出力文字列と単語との相違度を得る手法は、例えば昭和
54年情報処理学会第20回全国大会講演論文集第48
7〜488頁、6F−3「OCRのための単語認識」で
示されているようなダイナミックプログラミング手法と
同等な手法である。
次に、第2図における処理を説明すると、ブロック10
1は初期値として、入力比較位置I及び単語比較位置J
を■にセットする。
ブロック102は記号βに入力比較位置■と照合幅Sと
の差(■−S)及び1との最大値MAX(I −8、1
)をセットし、記号Rに入力比較位置■と照合幅Sとの
和及び単、語の文字数Wとの最小値MIN(I+S 、
W)をセットする。
これによりOCR出力文字列の第1番目の文字に対して
、比較すべき単語の文字はβ二MAX(I −8、1)
からR=MIN(1,+S 、W、)までに位置する文
字になる。
ブロック103において単語比較位置Jに記号βの値、
MAX(I −8、1)をセットする。
ブロック104は前述したように、人力比較位置■のO
CR出力英大文字及びOCR出力英小文字と単語比較位
置Jの単語の文字との文字間距離dU(I、J)及びd
l(I、J)を求める。
ブロック105は前述したようにOCR英大文字出力文
字と単語の文字との文字間距離dU(I 、J )とO
CR英小文字出力文字と単語の文字との文字間距離dL
(I、J)との最小値を選択し、文字間距離d(LJ)
とする。
ブロック106において、前述したように相違度D(I
、J)を求める。
ブロック107は単語比較位置Jと記号Rの値MIN(
I+S 、W)において、J<Rを満足するか否かを判
定する。
その判定結果が「YES」であれば、ブロック108に
より単語比較位置Jの値を1増加させ、ブロック104
の処理へ戻る。
その判定結果がrNOJ即ちJ=Rとなれば、ブロック
109の処理へ移る。
例えば照合幅Sが2の場合には、β=MAX(I−2,
1)、R=MIN(I+2 、W)となり、人力比較位
置■の人力文字に対して単語の第1番目の文字を基準に
して前後2文字も比較すべさ文字となる。
また、照合幅SがOの場合には、β=I、R=MIN(
■、w)となり人力比較位置■の入力文字に対して、単
調の第1番目の文字のみが比較すべき文字となる。
尚、照合幅Sの値は、予め設定されるが、OCRにおい
て、文字の切り出しの際に生じるセグメンテーションエ
ラーによるOCR出力文字列の文字数の変化が生じやす
い場合には、S=1.2・・・・・・といった値が設定
され、文字数の変化が生じにくい場合には、S=0が設
定されることになる。
ブロック109において、人力比較位置■と単語の文字
数りに対してI<Lを満足するか否かを判定する。
その判定結果が「YES」であればブロック110によ
り入力比較位置■を1増加させ、ブロック102の処理
へ戻る。
その判定結果がrNOJ即ちI=Lとなれば相違度D(
I、J)(但し、I=L、J=W)をOCR出力文字列
と単語との相違度として検出される。
このようにしてOCR出力文字列と複数個の単語との相
違度が得られ、判定回路へ転送される。
判定回路の一例としては、例えば、転送された相違度の
うち、最小相違度D1と2番目に小さい相違度D2に対
して、OCR出力文字列の文字数りにより定まる閾値T
I、T2との間にり、 <T、且つD2−b、〉T2を
満足すれば、最小相違度DIを有する単語を認識単語と
して出力する。
第4図は、第2図で示した相違度計算方法を具体例を用
いて説明するために示した図である。
尚第4図は、第2図で示した随合幅Sを1に設定した場
合を示している。
第4図aの左端列には、紙面上に記入された英文字列”
Irnein”のOCRによる読み取り結果として、英
大文字としてのOCR出力文字列”I?? ??”英小
文字としてのOCR出力文字列″7?ein”が記載さ
れている。
即ち、読み取られた最初の文字は、英大文字”■″、英
小文字”l”であり、2番目の文字は両方とも読み取り
不能”?″であり、3番目及び4番目及び5番は英小文
字のみがそれぞれ” Drill ′n”と読み取ら
れたことを示している。
そこで、このようなOCR出力文字列が、第4図aの上
端行で示した単語”IRNEIN”との照合を行う場合
を取り上げて説明する。
尚、単語辞書は、英大文字列かあるいは英小文字列で示
される単語群を記憶する。
そのために、OCR出力文字が英大文字あれば、辞書文
字は、英大文字と見なして、文字間距離dUが計算され
、OCR出力文字が小英字であれば、辞書文字は、英小
文字と見なして、文字間距離dLが計算される。
第4図aにおける第■行目(但し、I=1.2・・・・
・・5)と第1行目(但し、J=1.2・・・・・・6
)に記載された2つの数値のうち、左側の値はOCR出
力文字列の第1番目のOCR出力文字と単語の第1番目
の辞書文字との距離、即ち、第1図に示される如くの文
字間距離d(I、J)を示し、第2図におけるブロック
105によって計算される。
右側の値はOCR出力文字列の人力比較位置■と単語の
単語 比較位置Jに到るまでの相違度D(I、J)を示
し、第2図におけるブロック106によって示した式を
用いて、逐次計算される。
尚、第4図aの各文字間距離d(I、J)(但し、I=
1,2・・・・・・5 、J=1 、2・・・・・・
6)は、第1図に示される如くの英大文字文字間距離d
U(1,1)及びdU(1,2)即ち、OCR出力文字
゛1”と辞書文字゛I”及びOCR出力文字”I”と辞
書文字”R”の各英大文字間距離を、それぞれO”及び
”15”とし、同様に、英小文字間距離dl(1、1)
dr、(1、2) 。
dL(3,2)、dL(3,3)dl(3,4)。
dL(4,3)、dL(4,4)、dL(5,4)。
dL(5、5) 、 dr、(5、6)即ち、OCR出
力文字”l”と辞書文字゛i”(但し、前述したように
OCR出力文字が英小文字であると、辞書文字は英小文
字と見なされる)、OCR出力文字N 、5 nと辞書
文字N rll、OCR出力文字 e ”と辞書文字”
r”、OCR出力文字″e”と辞書文字”r”、OCR
出力文字” 11と辞書文字″e”、OCR出力文字″
′i″と辞書文字”n”、OCR出力文字″i”と辞書
文字゛e”、OCR出力文字“i”と辞書文字”i”、
OCR出力文字″n”と辞書文字“e”、OCR出力文
字”n”と辞書文字”i”、OCR出力文字″、 tj
と辞書文字”n”の各英小文字間距離をそれぞれ”15
”15′″、″15”、15 ” 、f Q 99.1
5”、”15”。
”O″、”15′”、”15”、”O”とし、更に読取
り不能”?”と辞書文字との文字間距離を”15パとし
て、第2図のブロック1jsの計算式を用いて、計算さ
れたものである。
例えば、文字間距離d(1,1)はMIN(dU(1,
1)、dL(1,1))となりO”が得られる。
第4図aにおいて、相違度D(I、J)の計算過程をO
CR出力文字列の第3番目のOCR出力文字“?”及び
”e”と単語の第4番目の辞書文字″E”に到るまでの
相違度D(3,4)を用いて説明すると、相違度D(3
,4)は、第2図のブロック106における計算式即ち
、d(3,4)+MIN(D(3,3)、D(2,3)
、D(2゜4))を用いることによって、値″30”を
得る。
尚、相違度D(2,4)は、照合幅Sが”1”の場合に
は、相違度D(I、J)における入力比較位置■と単語
比較位置Jの間に、前述したようにI−8<JくI+8
(但し、5=1)の関係を取立しないことから、非常に
大きな値(但し、図中省略)がセットされること1こな
る。
以上の計算過程を第2図で示したブロック105及びブ
ロック106を用いて、第4図aの点線で示すように、
順次行われ、OCR出力文字列単語との相違度即ち1.
’) (5、6)が値”30”として求められる。
このようにして得られたOCR出力文字列と単語との相
違度即ちD(5,6)は、第4図すの矢印で示した対応
関係を持つOCR出力文字と単語の各文字の文字間距離
、即ち、dU(1,1)とdL(2,2)あるいはdu
(2、2’)とdL(2゜3)、あるいはdu(2、3
)とdL(3、4)とdL(4、5)とdt、(5、6
)との加算料となっており、文字数りが5となるOCR
出力文字列と文字数Wが6となる単語との相違性を示す
尺度となる。
上述した相違度D(5,6)はOCR出力文字列の読み
取り不能”?″と単語の文字”R91及び”N”間との
相違性即ち文字間距離dr、(2、2)あるいはdty
(’2,2)とdL(2,3)あるいはdU(2、,3
)との値の和を表わし、他のOCR出力文字と単語の各
文字は完全に一致していることを表わしている。
そこで、例えば、相違度D(5,6)をOCR出力文字
例の文字数5で除算すると、上述した相違度D(5,6
)の1文字単位として見た時の平均的な文字間距離即ち
値″6”が得られ、上述したOCR出力文字列と単語と
は相違度が小さい、即ち、かなり類似性があることがわ
かる。
このような操作を単語辞書に記憶された単語について、
すべて行い、前述した相違度を用いて類似性を持つ単語
を検出することによって、英大文字と英小文字の識別が
つかないために含まれる誤読文字(図中”l″)や読み
増り不能文字”?”等の訂正あるいは回復処理が、文字
単位での判定(例えば、一文字間での文字間距離による
場合で、困難であっても、容易に可能となる。
第3図は本発明の一実施例を示す論理ブロックであり、
前述した照合幅SをOとした照合装置を採用する場合を
一例として説明したものである。
尚、第3図において、前述した照合幅S−0となるため
、第2図における人力比較位置Iと単語比較位置Jは常
に等しい値I=Jとなるため、第2図におけるブロック
108は不要となり、更に、ブロック104で示した第
一種文字間距離dL(I。
J)第二種文字間距離dL(I、J)はそれぞれdU(
I 、 I ) 、 dL(I 、 I )のみを求め
れば良く、ブロック106で示した計算式はD(I、I
)= d(I 、 I)+D(I−1、I−1)と簡略
化される。
また、任意の照合幅Sを持たせた照合装置についても、
本発明の適用は、可能である。
更に、第3図において、信号線の末尾にSを付加するこ
とによりその信号を表わすとする。
1はOCRである。
2は単語を記憶する辞書メモリである。
3は0CR1の出力文字を英大文字と見なして、出力さ
れた順序で記憶した第ルジスタである。
4は0CR1の出力文字を英小文字と見なして、出力さ
れた順序で記憶した第2レジスタである。
5は、OCR出力文字列に対して、照合すべき単語を記
憶した単語記憶レジスタである。
6及び7はアドレスレジスタである。8及び9はそれぞ
れ前述したような英大文字文字間距離、英小文字文字間
距離を記憶したメモリである。
11.12はラッチ回路である。
13は選択回路であり、14は比較回路である。
15は加算回路である。
16は相違度レジスタである。20は判定回路である。
次に第2図におけるフローチャート図と第3図における
一実施例の論理ブロックの対応を示すと、第2図におけ
るブロック104の処理は、第3図のアドレスレジスタ
6.7及び英大文字文字間距離及び英小文字文字間距離
を記憶したメモリ8゜9及びラッチ回路11.12に対
応し、ブロック105の処理は、第3図の選択回路13
及び比較回路14に対応し、ブロック106の処理は、
第3図の加算回路15及び相違度レジスタ16に対応す
る。
次に第3図における動作を説明する。
1つの文字フィールドに対して、0CR1は英大文字と
見なして出力された出力文字列を第ルジスタ3へ、英小
文字と見なして出力された出力文字列を第2レジスタ4
へそれぞれ転送する。
一方、辞書メモリ2より照合されるべき単語が順次、単
語記憶レジスタ5へ転送されているとする。
アドレスレジスタ6は第ルジスタ3の内容であるOCR
出力文字とそのOCR出力文字に対応した単語記憶レジ
スタ5の内容である辞書文字とにより決定される英大文
字文字間距離メモリ8の要素を順次アドレスして、ラッ
チ回路11へ転送する。
例えば第ルジスタ3の内容であるOCR出力文字が第1
図における英大文字O(第1図における列方向15番目
の文字)であり、単語記憶レジスタ5の内容である辞書
文字が第1図における英大文字D(第1図における行方
向4番目の文字)であるとすると、アドレスレジスタ6
は行方向4番目と列方向15番目の英大文字文字間距離
メモリ8の要素d15,4(0、D)=8の値をラッチ
回路11へ転送する。
アドレスレジスタ7は第2レジスタ4の内容であるOC
R出力文字に対応した単語記憶レジスタ5の内容である
辞書文字とにより決定される英小文字間距離メモリ9の
要素を、アドレスレジスタ6と同様な操作により順次ア
ドレスしてラッチ回路12へ転送する。
ラッチ回路11及びラッチ回路12は、アドレスレジス
タ6及びアドレスレジスタ7より転送された英大文字文
字間距離及び英小文字文字間距離をラッチし、それぞれ
、比較回路14及び選択回路13へ転送する。
比較回路14において、ラッチ回路11より転送された
英大文字文字間距離がラッチ回路12より転送された英
小文字間距離より小さいか否かを調べ、英大文字文字間
距離が英小文字文字間距離より小さければ、その出力信
号141Sを1”にセットし、そうでなければ、その出
力信号141Sを0”にリセットする。
選択回路13は比較回路14の出力信号141Sが”1
″にセットされると、ラッチ回路11の内容である英大
文字文字間距離を加算回路15に転送する。
一方比較回路14の出力信号141Sが0″にリセット
されると、選択回路13は、ラッチ回路12の内容であ
る英小文字文字間距離を加算回路15へ転送する。
加算回路15は選択回路13より選択された文字間距離
と相違度レジスタ16の内容とを加算し、その結果を相
違度レジスタ16へ転送する。
尚、相違度レジスタ16の内容は、最初Oにリセットさ
れており、OCR出力文字列の1番目の文字と単語の1
番目の文字とにより決定された文字間距離が加算回路1
5へ転送される時に、OCR出力文字列と単語との(■
−1)番目までの比較の結果として得られた相違度が記
憶されている。
このようにして、第ルジスタ及び第2レジスタの内容と
単語レジスタの内容との照合が終了すると、相違度レジ
スタ16の内容であるOCR出力文字列と単語との相違
度が判定回路20へ転送される。
判定回路10は前述したような処理(より得られる複数
個の単語とOCR出力文字列との相違度のうち、最小相
違度D1と2番目に小さい相違度D2に対してOCR出
力文字列の文字数により定まる閾値T1. T2との間
にD1≦T1且つD2−Dl〉T2を満足すれば、最小
相違度D1を得る単語をOCRの入力となる文字フィー
ルドに対応する単語として認識する。
尚、以上の説明では、本発明の適用を英大文字・英小文
字として説明を行ったが、入力文字をOCRにおいて、
複数個の異なる文字種として出力し、単語認識装置にお
いて相違度を検出する場合には、本発明を適用すること
は以上の説明から容易に可能である。
以上述べたように、本発明を用いることにより、英大文
字と英小文字との識別が困難な場合にも、簡単に且つ精
度良く、OCR出力文字列と単語との相違度が検出でき
、高精度な単語認識装置を実現することができる。
【図面の簡単な説明】
第1図は、英大文字の文字間距離の一例を説明するため
に示した概念図、第2図は、本発明の一実施例をフロチ
ャートを用いて示した図、第3図は本発明の一実施例を
示した論理ブロック図である。 第4図a、bは第2図で示した相違度計算方法を具体例
を用いて説明するために示した図である。 図において、1はOCR,2は辞書メモリ、3は第2レ
ジスタ、4は第2レジスタ、5は単語記憶レジスタ、6
,7はアドレスレジスタ、8は英大文字文字間距離メモ
リ、−9は英小文字文字間距離メモリ、11及び12は
ラッチ回路、13は選択回路、14は比較回路、15は
加算回路、16は相違度レジスタ、20は判定回路であ
る。

Claims (1)

  1. 【特許請求の範囲】 1 文字読取装置より出力される出力文字列と予め用意
    された単語辞書に記憶された複数個の単語とを照合し、
    前記複数個の単語と出力文字列との相違度を検出する相
    違度検出装置において、1つの文字フィールドに対応す
    る前記文字読取装置の出力文字列として、第1文字種と
    見なして出力された文字列α1α2・・・・・・α。 を前記文字読取装置から受取った順序で記憶するための
    第ルジスタと、前記文字読取装置の出力文字列として第
    2文字種と見なして出力された文字列β1β2・・・・
    ・・β。 を前記文字読取装置から受取った順序で記憶するための
    第2レジスタと、第1文字種におけるi番目の文字カテ
    ゴ’JU(i)と第1文字種と見なして前記文字読取装
    置より出力される文字αとの第2文字種文字間距離d〔
    α、U(i)、l及び第2文字種におけるi番目の文字
    カテゴ’JL(i)と第2文字種と見なして前記文字読
    取装置より出力される文字βとの第1文字種文字間距離
    d〔β、 L(i)、lを記憶する記憶装置と、単語を
    構成するj番目の文字ajと比較される第ルジスタ及び
    第2レジスタのに番目(但し、j −s≦に≦j +
    sであり、Sは予め設定された定数0,1,2・・・・
    ・・とする。 )の内容αに、βにとにより決定される前記第1文字種
    文字間距離d (a 、 U(i)、l (但しα=c
    tLU(i)=aj)及び前記第2文字種文字間距離d
    〔β、L(i))(但しβ=βk 、 L(i)= a
    j )のうち、どちらか小さい値を持つ文字間距離を
    前記単語の文字ajと前記読取装置のに番目の出力文字
    αに、βにとの文字間距離として検出する文字間距離検
    出手段と、前記単語と前記文字読取装置の出力文字列と
    を照合し、前記文字間距離検出手段により得られる前記
    文字間距離に基づいて前記単語と前記文字読取装置の出
    力文字列との相違度を検出する照合手段とで構成された
    ことを特徴とする相違度検出装置。
JP55126244A 1980-09-11 1980-09-11 相違度検出装置 Expired JPS5854433B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP55126244A JPS5854433B2 (ja) 1980-09-11 1980-09-11 相違度検出装置
US06/300,569 US4418423A (en) 1980-09-11 1981-09-09 Disparity detection apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP55126244A JPS5854433B2 (ja) 1980-09-11 1980-09-11 相違度検出装置

Publications (2)

Publication Number Publication Date
JPS5757382A JPS5757382A (en) 1982-04-06
JPS5854433B2 true JPS5854433B2 (ja) 1983-12-05

Family

ID=14930357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP55126244A Expired JPS5854433B2 (ja) 1980-09-11 1980-09-11 相違度検出装置

Country Status (2)

Country Link
US (1) US4418423A (ja)
JP (1) JPS5854433B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57137976A (en) * 1981-02-18 1982-08-25 Nec Corp Zip code discriminating device
JPH0683365B2 (ja) * 1983-05-25 1994-10-19 キヤノン株式会社 画像処理装置
JPS6049480A (ja) * 1983-08-29 1985-03-18 Toshiba Corp データ検索装置
JPS60110366U (ja) * 1983-12-29 1985-07-26 横浜ゴム株式会社 糸本数検知装置
US4771385A (en) * 1984-11-21 1988-09-13 Nec Corporation Word recognition processing time reduction system using word length and hash technique involving head letters
US5276741A (en) * 1991-05-16 1994-01-04 Trw Financial Systems & Services, Inc. Fuzzy string matcher
US5434932A (en) * 1994-07-28 1995-07-18 West Publishing Company Line alignment apparatus and process
US6510238B2 (en) * 1999-05-13 2003-01-21 Currency Systems International, Inc. Partial OCR note confirmation methods
JP2009070226A (ja) * 2007-09-14 2009-04-02 Ricoh Co Ltd マッチング装置
US10713524B2 (en) * 2018-10-10 2020-07-14 Microsoft Technology Licensing, Llc Key value extraction from documents

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3188609A (en) * 1962-05-04 1965-06-08 Bell Telephone Labor Inc Method and apparatus for correcting errors in mutilated text
US4058795A (en) * 1972-10-03 1977-11-15 International Business Machines Corporation Method and apparatus for context-aided recognition
US3842402A (en) * 1973-10-25 1974-10-15 Ibm Bayesian online numeric discriminator
US3969698A (en) * 1974-10-08 1976-07-13 International Business Machines Corporation Cluster storage apparatus for post processing error correction of a character recognition machine
US3988715A (en) * 1975-10-24 1976-10-26 International Business Machines Corporation Multi-channel recognition discriminator
US4003025A (en) * 1975-12-24 1977-01-11 International Business Machines Corporation Alphabetic character word upper/lower case print convention apparatus and method
US4355302A (en) * 1980-09-12 1982-10-19 Bell Telephone Laboratories, Incorporated Spelled word recognizer

Also Published As

Publication number Publication date
JPS5757382A (en) 1982-04-06
US4418423A (en) 1983-11-29

Similar Documents

Publication Publication Date Title
US6950555B2 (en) Holistic-analytical recognition of handwritten text
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
JP2734386B2 (ja) 文字列読み取り装置
US5787197A (en) Post-processing error correction scheme using a dictionary for on-line handwriting recognition
US10963717B1 (en) Auto-correction of pattern defined strings
US8725497B2 (en) System and method for detecting and correcting mismatched Chinese character
CA1050167A (en) Bayesian online numeric discriminator
Saluja et al. Error detection and corrections in Indic OCR using LSTMs
JPS6262387B2 (ja)
Sinha et al. Visual text recognition through contextual processing
JPS5854433B2 (ja) 相違度検出装置
Gilloux et al. Strategies for handwritten words recognition using hidden Markov models
Lehal et al. A shape based post processor for Gurmukhi OCR
JPS6262388B2 (ja)
CN114677689A (zh) 一种文字图像识别纠错方法和电子设备
Mohapatra et al. Spell checker for OCR
US10997452B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
JPS646514B2 (ja)
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JP2908460B2 (ja) 誤認識修正方法及び装置
JP3350127B2 (ja) 文字認識装置
JP3374762B2 (ja) 文字認識方法及びその装置
JP3085107B2 (ja) 文字認識装置
JPH0255825B2 (ja)
JPS60138689A (ja) 文字認識方法