JPH0239290A - 単語照合方式 - Google Patents

単語照合方式

Info

Publication number
JPH0239290A
JPH0239290A JP63188928A JP18892888A JPH0239290A JP H0239290 A JPH0239290 A JP H0239290A JP 63188928 A JP63188928 A JP 63188928A JP 18892888 A JP18892888 A JP 18892888A JP H0239290 A JPH0239290 A JP H0239290A
Authority
JP
Japan
Prior art keywords
word
character
words
registered
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63188928A
Other languages
English (en)
Inventor
Shinji Sase
佐瀬 慎治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63188928A priority Critical patent/JPH0239290A/ja
Publication of JPH0239290A publication Critical patent/JPH0239290A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 1丘圀1 本発明は単語照合方式に関し、特に光学的に文字を読取
る文書認識装置における単語照合方式に関する。
k」すL玉 特に文字枠のない用紙に比較的自由に書かれた手書き文
字を光学的に読取る文書認識装置では、1文字毎の文字
認識結果を単語間の遷移の情報や単語の情報により確認
しあるいは補正することが行われている。この種の単語
照合方式では、文字認識の読取り結果は正しく文字切出
しが行われていることを前提としているが、特に手書き
文字では文字枠に書かれた文字が対象となっている。
この様な単語照合方式の従来例としては、飯田打器、杉
村和明共著、「手書き漢字認識における単語照合処理の
効果」、昭和58年度電子通信学会全国大会、S 10
−12. PP5−421〜422等がある。
上述した従来の単語照合は、−数的に書かれている文字
数かわかっているという条件で処理を行っているので、
通常の文字枠に書かれていない手書き文字列の読取り結
果に対して従来の単語照合方式を適用すると、文字切出
し、文字認識の性能の不十分さもあって、4文字のイメ
ージが3文字に分割されたり、逆に3文字のイメージが
4文字に分割される様な場合の単語補正は十分になされ
得ないという欠点がある。
例えば、帳票上に記載されている住所である「東京都港
区」に対して、文字切出し処理において誤って「京」が
2つに分割されてしまった場合、文字認識の判定結果が
「東立小都港区」となったとする。このとき、この結果
と登録しである単語とをすべて聞合しても、切出し誤り
に対処して「東京都港区」と判断するのは困難となる。
現状の文字切出し処理では、文字を読取る前に文字を切
出すので上述の如き問題は頻繁に生ずることとなる。
1匪二亘贋 本発明の目的は、文字切出し性能及び文字認識性能を補
って正しい単語照合判定を可能とした単語照合方式を提
供することである。
i五塁旦羞 本発明によれば文字認識結果である文字コード列を入力
としてこの入力文字コードと予め登録された登録単語の
各構成文字コードとを比較照合する単語照合方式であっ
て、先頭に用いられる可能性の高い第1次単語群、この
第1次単語群の次に続いて用いられる可能性の高い第2
次単語群、更にこの第2次単語群の次に続いて用いられ
る可能性の高い第3次単語群、以下同様な関係を順次有
する第n浅草語群までを予め定めて登録した単語登録手
段と、前記単語登録手段に登録された基準となる第i浅
草語群(i=1〜n)の単語の各構成文字コードと、前
記入力文字コードのうち互いに連続する2m個のコード
以内のコードとを比較照合して類似度を求める単語照合
手段と、この類似度をもとに前記入力文字コードの単語
が登録された単語に該当するかどうかを判定する判定手
段とを設け、この判定結果に応じて前記単語照合手段に
おける基準となる単語を前記登録単語群の次数に従って
変化せしめると共に、前記判定結果に応じて前記2m個
のコード以内で前記入力文字コードの個数を変化せしめ
るようにしたことを特徴とする単語照合方式が得られる
K土贋 以下に図面を用いて本発明の詳細な説明する。
第1図は本発明の実施例のシステム的ブロックを示して
おり、また動作フローチャートでもある。
入力は文字認識の結果である文字コード列であり、ステ
ップ1より入力される1本発明においては、単語単位で
処理が行われるものであり、文字列の先頭より順に照合
判定がなされ、判定の結果、判定に対応する入力コード
の部分は取除くという処理が繰返されるために、文字列
の長さは処理中可変とされる。
そこで、ステップ2において逐次文字列の長さを測定し
、その結果文字列の長さがOであればステップ8へ移行
して処理終了となる0文字列の長さが0でなければ、次
のステップ3においてステップ5の単語ディレクトリに
予め登録されている単語と照合がなされる。この際、ス
テップ5において登録されている全ての単語との照合が
なされるわけではなく、ステップ4にて予め定められた
照合に必要な単語のみが選択的に抽出されるか、予め必
要ではないと分っている単語は除去されるようになって
いる。この場合の登録単語の選択の方法についての詳細
は後に詳述する。
こうして、ステップ3において照合すべき全ての登録単
語と入力文字コード列とが照合され類似度が得られると
、次のステップ6において当該類似度をもとに入力文字
コードの単語が登録単語に該当するかどうかの判定が行
われる。この判定結果は逐次ステップ7へ出力されると
共に、次の処理に進むべきかを判定するために、ステッ
プ2へ出力され、また次の照合すべき登録単語を選択制
限するためにステップ4へも併せて出力されることにな
る。
ここで、入力文字コードを「東立小都港区」であるもの
とし、この文字列は予め東京都の住所であることが分っ
ているものとして以下の説明を進める。尚、正しい認識
結果は「東京都港区」であるものとする。
この場合のステップ5における単語ディレクトリに登録
されている単語のうち、本説明に関連のある部分のみを
第2図に示している。第2図において、本単語の属性と
は、意味単位の単語の属性を表わしており、この場合a
−OX(X;O〜9)は東京の住所で先頭にくる可能性
のある属性を示し第1浅草語群であることを表わす、a
−00は郡名、a−03は区名を示す。
次にくる単語の属性とは、判定結果が本単語になったと
き、次に選択されるべき単語の属性を定めるもので、第
2浅草語群であることを表わす。
この場合、a−10,a−20,a−30,a−40は
夫々世田谷区1港区、千代田区、新宿区等の区名を表わ
す属性となる。
一般的には、以下同様にしてこれ笠状に選択されるべき
単語が順次第n状の単語群まで予め設定されて登録され
ていることになる。
ステップ4では、照合すべき登録単語の制限を行うもの
で、この場合東京都の住所であることから各単語の属性
をチエツクしてa−OXである単語のみを選択的に抽出
し、単語照合ステップ3へ送る。この単語照合ステップ
3及び次の判定ステップ6において正しく東京都と判定
されれば、このとき、次にくる単語の属性はa−03で
あるので、単語ディレクトリ5よりa−03の属性を有
する単語のみが単語照合ステップ3へ送られるのである
次に、この単語照合ステップ3における動作の詳細につ
いて説明する。この照合方法は入力文字コードの順序を
維持しつつ幾つかのコードを選択して登録単語の各文字
と1対1にて対応させる方法である。この方法は文字切
出し性能の不十分さを考慮したものであり、いわゆるず
らしマツチングと称する技法である。
ずらしマツチングでは、ずらし度±mのときそのずらし
幅がこの±mの範囲内で制御される。照合登録単語のに
文字目の照合基準位置をτ(k)、入力文字コードのτ
文字目をJτ、照合登録単語のに文字目をIkとする。
但し、Jτ=0はリジェクトを表わす0以上の定義をも
とに照合方法について第3図を参照しつつ以下に説明す
る。
先ず、入力コードのに文字目の照合基準位置から両側へ
ずらし度±mの範囲内にあり、かつに−1番目までの照
合登録文字のうち最後に照合された文字より大きい位置
にある各文字の集合をに番目の照合対象集合L(k)と
する、この集合内の各文字Jτと照合登録単語のに番目
の文字Ikとの類似度5(Ik、Jτ゛)を求める。こ
の類似度は以下の様に定義される。
5(Ik、Jτ“)= そして、nax S (Ik 、 Jτ” )、τ−6
L(k>をに番目の文字の類似度とし、この類似度を与
えるτ゛のうち;τ゛−τ(k)lが最小のもの(ずら
し度が最小のもの)を照合位置τ(kmax)として確
定する。
この結果、次の照合文字である照合登録単語のに+1番
目の文字の照合基準位置τ(k+1)は、v (k+1
 )=v (kmax)+1とする。更に、照合された
入力文字Jτ(kmaX)は−1としてフラグをたてる
。但し、maxS(Ik、Iτ°)く1のとき、次の照
合基準位置は、 τ(k+1)−τ(k)+1 とする、こうして照合登録単語の数だけ類似度を求め、
この類似度の総和を単語の類似度Cとし、以下の式で表
わされる。
C=Σ(maxS (Ik、Jz−’(に))τ’  
(k)6L(k) 判定部6では、最もCの値が大きな単語が唯一みつかれ
ば、それを判定結果として照合された部分を入力コード
列より取除く、そうでなければ、リジェクトとして単語
ディレクトリ5によりリジェクト後の処理に移る。
第4図に入力文字コードと「東京都」の照合の例を具体
的に示す、尚、ずらし度はm=±1としている。先ず、
入力文字コードに対して照合登録単語の1文字目に対す
る入力コード基準位置は初期値として1とされる。こ場
合、ずらし度は±1であるので、入力コードの1.2文
字目と照合登録単語「東京都」の1文字目である「東」
との照合がなされる。その結果は入力文字コードの1文
字目と最も一致するので、類似度1が得られる。
そして、入力コードの1文字目に処理終了フラグ−1が
書込まれ、2文字目の照合時の入力コードが生成される
と共に、2文字目の照合基準位置が入力コードの2文字
目とされる。
次にこの2文字目の照合が行われる。照合登録文字「京
」と照合対象入力コードである。「立」、「小」とは、
共に不一致であるので、類似度−1が得られる。類似度
が−1である場合、入力文字コードはそのままとされ、
3文字目の照合基準位置は2文字目のそれより1文字増
やされて3文字目となる。このときの照合入力コードは
「立」、「小」及び「都」となる。
こうして「都」との照合が終了すると類似度が1となり
、累積類似度として1が得られ、これが単語「東京都」
の類似度となる。
同様の照合処理を他の市区名と行っても、類似度は全て
負となるので、この場合の判定結果は「東京都」となる
のである。
i匪百皇」 以上説明したように本発明によれば、文字切出しの誤り
を考慮した単語照合方法であるいわゆる“ずらしマツチ
ングと、予め単語間の遷移情報をもとに照合単語を制限
する方法とを併用することにより、現状の文字認識性能
および文字切出し性能が十分とはならない比較的自由な
文字列に対する読取り結果を、単語およびその遷移の情
報をもとに補正し、より高性能な文字認識装置が実現で
きるという効果がある。
【図面の簡単な説明】
第1図は本発明の実施例のシステム的動作フロー図、第
2図は単語ディレクトリの一部を示す口笛3図は単語照
合におけるずらし度と照合対象範囲との関係を示す図、
第4図は本発明の実施例による具体的照合処理の流れの
例を示す図である。 主要部分の符号の説明 1・・・・・・入力文字コード列 3・・・・・・単語照合部 4・・・・・・照合単語制限部 5・・・・・・単語ディレクトリ 6・・・・・・判定部

Claims (1)

    【特許請求の範囲】
  1. (1)文字認識結果である文字コード列を入力としてこ
    の入力文字コードと予め登録された登録単語の各構成文
    字コードとを比較照合する単語照合方式であつて、先頭
    に用いられる可能性の高い第1次単語群、この第1次単
    語群の次に続いて用いられる可能性の高い第2次単語群
    、更にこの第2次単語群の次に続いて用いられる可能性
    の高い第3次単語群、以下同様な関係を順次有する第n
    次単語群までを予め定めて登録した単語登録手段と、前
    記単語登録手段に登録された基準となる第i次単語群(
    i=1〜n)の単語の各構成文字コードと、前記入力文
    字コードのうち互いに連続する2m個のコード以内のコ
    ードとを比較照合して類似度を求める単語照合手段と、
    この類似度をもとに前記入力文字コードの単語が登録さ
    れた単語に該当するかどうかを判定する判定手段とを設
    け、この判定結果に応じて前記単語照合手段における基
    準となる単語を前記登録単語群の次数に従つて変化せし
    めると共に、前記判定結果に応じて前記2m個のコード
    以内で前記入力文字コードの個数を変化せしめるように
    したことを特徴とする単語照合方式。
JP63188928A 1988-07-28 1988-07-28 単語照合方式 Pending JPH0239290A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63188928A JPH0239290A (ja) 1988-07-28 1988-07-28 単語照合方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63188928A JPH0239290A (ja) 1988-07-28 1988-07-28 単語照合方式

Publications (1)

Publication Number Publication Date
JPH0239290A true JPH0239290A (ja) 1990-02-08

Family

ID=16232343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63188928A Pending JPH0239290A (ja) 1988-07-28 1988-07-28 単語照合方式

Country Status (1)

Country Link
JP (1) JPH0239290A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299719A (zh) * 2018-09-30 2019-02-01 武汉斗鱼网络科技有限公司 基于字符分割的弹幕校验方法、装置、终端及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57146380A (en) * 1981-03-04 1982-09-09 Nec Corp Address reader

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57146380A (en) * 1981-03-04 1982-09-09 Nec Corp Address reader

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299719A (zh) * 2018-09-30 2019-02-01 武汉斗鱼网络科技有限公司 基于字符分割的弹幕校验方法、装置、终端及存储介质
CN109299719B (zh) * 2018-09-30 2021-07-23 武汉斗鱼网络科技有限公司 基于字符分割的弹幕校验方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
JPH10105655A (ja) 光学文字認識のための検証および訂正の方法およびシステム
US6834121B2 (en) Apparatus for rough classification of words, method for rough classification of words, and record medium recording a control program thereof
JPH0684006A (ja) オンライン手書き文字認識方法
CN113408535B (zh) 一种基于中文字符级特征和语言模型的ocr纠错方法
US20020114515A1 (en) Character string recognition apparatus, character string recognizing method, and storage medium therefor
JPH0239290A (ja) 単語照合方式
JP3730073B2 (ja) テンプレート作成方法、装置、およびテンプレート作成プログラムを記録した記録媒体
JPH0520794B2 (ja)
JP3188154B2 (ja) 文字認識処理方法
JPH08287188A (ja) 文字列認識装置
JP2985813B2 (ja) 文字列認識装置および知識データベース学習方法
JP3071745B2 (ja) 文字認識結果の後処理方法
JPH0256086A (ja) 文字認識の後処理方法
JPH0546806A (ja) 文字認識方法
JP2746345B2 (ja) 文字認識の後処理方法
JP2875678B2 (ja) 文字認識結果の後処理方法
JP2918380B2 (ja) 文字認識結果の後処理方法
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP3151866B2 (ja) 英文字認識方法
JPH0540854A (ja) 文字認識結果の後処理方法
JPS60138689A (ja) 文字認識方法
JPH01191992A (ja) 文字認識装置
JPH076213A (ja) 文字列認識装置
JP2000288478A (ja) 宛先特定装置
JPH01255988A (ja) 文字認識装置