JPH069065B2 - 単語認識装置 - Google Patents

単語認識装置

Info

Publication number
JPH069065B2
JPH069065B2 JP58157595A JP15759583A JPH069065B2 JP H069065 B2 JPH069065 B2 JP H069065B2 JP 58157595 A JP58157595 A JP 58157595A JP 15759583 A JP15759583 A JP 15759583A JP H069065 B2 JPH069065 B2 JP H069065B2
Authority
JP
Japan
Prior art keywords
character
word
recognition result
recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58157595A
Other languages
English (en)
Other versions
JPS6049481A (ja
Inventor
正人 須田
由明 黒沢
好勝 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP58157595A priority Critical patent/JPH069065B2/ja
Publication of JPS6049481A publication Critical patent/JPS6049481A/ja
Publication of JPH069065B2 publication Critical patent/JPH069065B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は印刷・手書文字や音声入力された単語データ等
からなる入力単語を簡易に、且つ効果的に認識すること
のできる単語認識装置に関する。
〔発明の技術的背景とその問題点〕
印刷・手書文字や音声入力された単語データ等からなる
入力単語に対する文字認識(パターン認識)は、基本的
にはその文字(パターン)の特徴を個々に検出して行わ
れる。しかし、その単語について認識する場合、上記個
々の文字(パターン)認識結果を単に組合せるだけでは
不十分なことが多い。例えば上記単語を構成する或る文
字の認識が不十分な場合、その単語に対する認識結果が
得られなくなる。そこで従来では、例えば第1図に示す
如く認識装置を構成し、個々の文字認識結果が不十分な
場合であつても、単語認識結果が得られるように工夫さ
れている。この装置については、特願昭56−138163号
に詳しく紹介されるが、その要点について説明すると、
光電変換部1を介して原稿2から読取られた入力単語を
前処理部3に与え、その特徴検出を行つたのち文字認識
部4にて上記入力単語を構成する文字について個々に文
字認識する。しかるのち、単語認識部5において、上記
文字認識結果情報と、単語辞書6に予め登録された単語
との間の類似度を計算し、例えば最大類似度値を得る単
語を前記入力単語の認識結果として求めるようにしたも
のである。上記類似度計算は、単語辞書6に登録された
第j番目のn文字からなる単語の文字列a1j,a2j〜a
njと、n文字からなる入力単語の各文字認識結果
,Q〜Qnとの間の類似度Sjを、PiをaijとQ
i間の類似度として 等として算出する。そして単語辞書6に登録された全て
の単語についてそれぞれ求められた上記各類似度を相互
に比較し、その最大類似度値Sjを有する単語を認識結
果として求めることにより行われる。
このような単語認識処理、つまり所謂後処理を行うこと
によつて、個々の文字認識結果が不十分な場合であつて
も相当高い精度で入力単語に対する正しい認識結果を得
ることが可能となる。
ところが、入力単語を構成する文字列の全てが必ずしも
単語認識に対して重要な意味を持つとは限らない。例え
ば入力単語が製品に対する品種名と、その品種に対する
通し番号とによつて構成されることがあり、この場合上
記品種名が認識対象として重要な意味を持ち、且つ通し
番号が補助的な意味しか持たないことがある。これにも
拘らず、前述した後処理を、入力単語を構成する文字列
の全ての文字を対象として行う為には、膨大な量の単語
を単語辞書6に登録しておくことが必要となる。この
為、その辞書構成が複雑化し、また処理所要時間が長く
なることが否めなかつた。つまり、入力単語を構成する
文字列中の認識処理において補助的な意味しか持たない
文字列を含めた上で前述した単語認識処理を行うので、
辞書登録される単語数が膨大な数となつた。これ故、辞
書作成も困難化する等の不具合も生じた。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、入力単語が認識処理に対して重
要な意味を有する文字列と補助的な意味を持つ文字列と
によつて構成される場合であつても、これを簡易に且つ
効率良く認識することのできる実用性の高い単語認識装
置を提供することにある。
〔発明の構成〕
本発明に係る単語認識装置は、文字列として与えられる
入力単語の各文字についてそれぞれ文字認識を行い、各
文字に対する文字認識結果を得る文字認識手段と、文字
列からなる複数の単語の単語データを登録するものであ
って、該単語を構成する文字列のうち重要度の高い文字
についてはその文字を示す文字データを登録し、重要度
の低い文字についてはその文字の位置を指定する特殊記
号を登録した単語辞書と、前記単語辞書に登録された文
字データと、前記文字認識手段から得られた重要度の高
い文字に対応する文字認識結果との間の類似度を計算
し、最大の類似度を与える文字データを出力する類似度
計算手段と、前記類似度計算手段から出力された文字デ
ータと、前記文字認識手段からの前記文字認識結果のう
ちの前記特殊記号で指定された位置の文字に対する文字
認識結果とを組み合わせることにより、前記入力単語に
対する単語認識結果を得る単語認識結果出力手段とを備
えたことを特徴とする。
ここで、前記文字認識手段は、例えば前記入力単語の各
文字に対する文字認識結果としてそれぞれ複数の候補を
出力するものであり、また前記単語認識結果出力手段
は、例えば前記特殊記号で指定された位置の文字に対す
る文字認識結果である該複数の候補のうちの第1順位の
候補と、前記類似度計算手段から出力された文字データ
とを組み合わせることにより、前記単語認識結果を得る
構成とする。
さらに、前記単語認識結果出力手段は、前記特殊記号で
指定された位置の文字に対する文字認識結果である該複
数の候補のうちの特定のカテゴリに該当する中で最高順
位の候補と、前記類似度計算手段から出力された文字デ
ータとを組み合わせることにより、前記単語認識結果を
得る構成としてもよい。
〔発明の効果〕
本発明によれば、入力単語の各文字についてそれぞれ文
字認識結果を求め、重要度の高い、つまり重要な意味を
持つ文字についてのみ、文字認識結果と単語辞書に登録
された単語データ中の文字データとの間の類似度計算に
よって最大の類似度を与える文字データを出力し、この
文字データと、重要度の低い、つまり補助的な意味を有
する文字に対する文字認識結果とを組み合わせることに
より、入力単語に対する単語認識結果を得るので、簡易
にして高い精度で高速に単語認識処理を実行することが
可能となる。
すなわち、後処理としての単語認識を入力単語を構成す
る文字列中の重要度の高い文字についてのみ行うことに
より、単語辞書の構成を簡単化できると共に、重要度の
低い文字に左右されることなく高速に単語認識処理を行
うことができ、処理効率が向上する。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につき説明す
る。
第2図は実施例装置の概略構成図である。印刷または手
書き入力された文字列、あるいは音声入力された音声パ
ターンからなる文字列として与えられる入力単語は文字
認識部11に導びかれて、その文字毎にそれぞれ文字認
識される。そして、この文字認識部11にて入力単語の
各文字についてそれぞれ求められた各文字認識結果Cri
は、単語情報バツフア12に一旦格納されるようになつ
ている。単語類似度計算部13はコントロール部14の
制御を受けて、基本的には単語情報バッファ12に格納
された文字認識結果と単語辞書15に予め登録された単
語データ中の後述する文字データとの間の類似度を計算
し、その類似度の値を相互に比較して入力単語に対する
単語認識結果の一部(文字データ)を求めている。コン
トロール部14は、バッファ12や後述するQrテーブ
ル16からの情報を受けて単語認識処理動作を制御する
ものであり、また単語類似度計算部13から与えられる
単語認識結果である文字データと、単語情報バツファ1
2から得られる文字認識結果を文字認識制御部17に与
えている。この文字認識制御部17にて前記入力単語に
対する最終的な認識結果が求められる。
ところで前記単語辞書15は、文字列からなる複数の単
語の単語データを求め登録したものであるが、入力単語
がその認識処理において重要な意味を持つ文字列と、補
助的な意味しか有さない文字列とによつて構成される場
合、これに対応して上記補助的な意味しか有さない文字
列の各文字を特殊記号、例えば特定の文字記号「*」
「!」等に置換えた文字列により構成される単語として
辞書登録している。即ち今、入力単語が「SN103」」「T
P551」「RS004」等のように、品種を示す上位2文字か
らなる認識処理において重要な文字列と、下位3文字で
示される通し番号の如き、補助的な意味を有する文字列
とによつて構成されるものとする。この場合、これらの
5文字について従来装置で見られるように単語認識処理
を実行するものとすると、単語辞書15には第3図(a)
に例示するようにその文字の全ての組合せによつて生成
される単語を、この例では3000種類の単語を辞書登録し
ておくことが必要となる。これに対して本装置では上述
したように下位3文字が認識処理に対して補助的な意味
しか有せず、その認識処理には直接的に関与しないこと
から、これを特殊な記号、例えば「*」に置き換えて前
記上位2文字の文字列毎にまとめられる単語として第3
図(b)に示す如く辞書登録している。これによつて、そ
の登録単語数は、この例では高々3個で良いことにな
る。前記計算部13は、このようにして辞書登録され、
単語辞書15から順に読出される単語データが上記特殊
記号「*」を含むものか否かを判定しており、その判定
結果に従つて、上記「*」で示される文字を除く各文字
についてそれぞれ類似度計算を行つている。つまり、コ
ントロール部14は、入力単語を構成する文字列の各文
字認識結果のうち、「*」で置換された文字を除く文字
について、即ち、認識処理において重要な意味を持つ文
字列部分についてのみ前記類似度計算による単語認識処
理を行わせている。この認識処理はQrテーブル16を
用いて重み付け処理を行い乍ら実行される。そして、そ
の認識結果を制御部17に与え、且つ前記「*」で置換
された文字位置に対応する入力単語の文字について求め
られた文字認識結果のうち、例えば第1順位の候補を前
記バツフア12から読出し上記制御部17に与え、それ
らを組合せている。このようにして組合せられた、重要
な文字列に対する単語認識結果(文字データ)と補助的
な文字列について求められた各文字認識結果とによつて
前記入力単語に対する認識結果が求められている。
かくしてこのように構成された装置に対して「SN000」
なる単語が与えられたとすると、文字認識部11にてこ
れらの各文字についてそれぞれ文字認識が行われ、その
認識結果が単語情報バツフア12に格納される。例えば
第1番目の文字について、「5」「S」「6」…なる文
字認識結果が得られると、その候補順位に従つて上記各
文字認識結果がバツフア12に格納される。また同様に
して第2番目の文字についてもその認識結果が「N」
「H」「M」…のように求められ、その候補順位に従つ
てバツフア12に格納される。更に第3〜第5番目の文
字についても、その文字認識結果が「0」「」「6」
…として、その候補順位に従つてバツフア12に格納さ
れる。従つて、第4図にその処理概念を模式的に示すよ
うに、単語情報バツフア12には、入力単語の文字認識
結果がその文字位置に対応して、且つその候補順位に従
つて格納されることになる。そして次に、この例では上
位2文字が重要な意味を有する文字列であり、そのこと
が単語辞書15から読出される単語の文字データの
「*」なる文字記号から知らしめられるので、上記上位
2文字について文字認識結果と辞書単語との間の類似度
計算が実行される。この類似度計算処理による単語認識
によつて上位2文字の単語認識結果が「SN」であると
判定される。また下位3文字については、前記「*」な
る記号によつて補助的な意味を有する文字列であると判
定されることから、文字認識結果の第1候補文字「0」
がそれぞれ認識結果として採用される。そして、これら
の各認識結果が組合せられて、前記入力単語の認識結果
が「SN000」として求められる。
さて、第5図乃至第7図は上述した認識処理を実行する
本装置の処理の流れの一例を示すものである。即ち、第
5図に全体の流れを示すように、処理の開始に先立つて
初期値設定が行われ、同時にパラメータj,SMが“0"
に設定される。しかるのち、パラメータjの値をインク
リメントし、そのjの値で示される単語データ{ai
j}(i=1〜n)を単語辞書15から読出す。この単
語データ{aij}と、入力単語の各文字に対する文字
認識結果との間の類似度計算が第6図に示す如く行われ
て、その類似度Sjが計算される。そして、この類似度
Sjが、既に求められた他の単語との類似度の最大SM
より大きいか否かが判定され、上記類似度SjがSM
り大きい場合にはこれによつて上記最大値SMを更新
し、更にはこの最大値SMを得る単語を特定するjの値
を一時レジスタに格納する。この一連の処理を、単語辞
書15に登録された全ての単語について繰返し実行す
る。そして、この処理で求められた認識結果を整理して
第7図に示す如く単語認識結果が求められ、出力され
る。
上記単語類似度Sjの計算は第6図に示すように、先ず
類似度Sjを0にイニシヤライズし、i=1に設定して
から行われる。そして、単語の文字位置i番目の文字
が、単語認識処理対象外の文字、例えば「*」「!」で
あるかを判定する。そして、その文字が「*」である場
合には、そのi番目のフラツグFiを「1」にセツト
し、また「!」である場合には、上記フラツグFiを
「2」にセツトする。更に上記文字位置i番目の文字が
上記「*」「!」以外の場合には、これを重要な意味を
持つ文字であると判定し、パラメータrを“1"にセツト
する。このパラメータrに従つて、単語情報バツフア1
2から入力文字列のi番目の文字についてのr番目の候
補(パターン認識情報)Criを読み出し、この候補が
単語辞書15に登録されている前記単語データ{ai
j}(i=1〜n)中のi番目の文字データaijに等
しいか否かを判定する。そして、上記文字と候補とが一
致したとき、その候補に対する重み(類似度の情報)Q
rを前記Qrテーブル16から求め、これをその文字候
補に対する類似度として登録する。この処理を、文字位
置i番目の文字について求められた全ての候補について
それぞれ実行し、しかるのち、前記フラツグFiを“0"
にセツトする。
以上の処理を入力単語を構成する各文字についてそれぞ
れ繰返し実行することによつて、単語類似度Sjが求め
られることになる。
一方、前記認識結果の出力処理は第7図に示すようにし
て行われる。先ず一時レジスタが指示する単語データ
{aij}(i=1〜n)を結果レジスタにセツトす
る。そして、このセツトされた単語データ{aij}
(i=1〜n)の各文字について、そのフラツグFiが
“0"か“1"か、或いは“2"であるかを判定する。そし
て、そのフラツグFiが“0"である場合には、先に求め
られた類似度結果によつて示される認識文字を出力す
る。この場合、フラツグFiが“1",“2"で示される文
字を除く残りの部分について最大類似度を得る単語が選
択されることは、云うまでもない。そして、フラツグF
iが“1"で示される文字、つまり単語の文字記号が
「*」で示される場合には、その文字位置の認識結果と
して、第i番目の文字位置における第1順位の候補が選
択され、この候補を結果レジスタにセツトする。また文
字記号が「!」で示され、フラツグFiが“2"である場
合には、第i番目の文字位置の候補中、例えば記号
「!」で指定されるカテゴリに該当するもの、具体的に
は例えば数字のみを選択し、その中の最高順位の候補を
取出して結果レジスタにセツトする。このようにして結
果レジスタに求められた各候補からなる文字列が単語認
識結果として出力される。
このように本装置では、入力単語を構成する文字列中の
重要な意味を有する文字列(文字群)に対してのみ単語
認識処理を行うので、単語辞書15に準備する単語数が
少なくて良い。しかも、この少ない単語を有効に利用し
て効率良く、且つ高速に精度の高い認識処理を行うこと
ができる。故に入力単語中の補助的な意味しか有さない
文字列によつて、その認識処理効率が妨げられることが
なく、また辞書構成の簡易化を図り得るので実用上絶大
なる効果が奏せられる。
尚、本発明は上記実施例に限定されるものではない。例
えば入力単語の文字数や、重要な意味を持つ文字の数ま
たその位置等は仕様に応じて定めることができるもので
あり、また文字は漢字、仮名、数字等であればよい。要
するに本発明はその要旨を逸脱しない範囲で種々変形し
て実施することができる。
【図面の簡単な説明】
第1図はパターン認識装置の基本構成図、第2図は本発
明の一実施例装置の概略構成図、第3図(a)(b)は単語辞
書の構成を示す図、第4図は本発明の認識処理の概念を
模式的に示す図、第5図乃至第7図は認識処理の流れを
示す図である。 11…文字認識部、12…単語情報バツフア、13…単
語類似度計算部、14…コントロール部、15…単語辞
書、16…Qrテーブル、17…文字認識制御部。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】文字列として与えられる入力単語の各文字
    についてそれぞれ文字認識を行い、各文字に対する文字
    認識結果を得る文字認識手段と、 文字列からなる複数の単語の単語データを登録するもの
    であって、該単語を構成する文字列のうち重要度の高い
    文字についてはその文字を示す文字データを登録し、重
    要度の低い文字についてはその文字の位置を指定する特
    殊記号を登録した単語辞書と、 前記単語辞書に登録された文字データと、前記文字認識
    手段から得られた重要度の高い文字に対応する文字認識
    結果との間の類似度を計算し、最大の類似度を与える文
    字データを出力する類似度計算手段と、 前記類似度計算手段から出力された文字データと、前記
    文字認識手段からの前記文字認識結果のうちの前記特殊
    記号で指定された位置の文字に対する文字認識結果とを
    組み合わせることにより、前記入力単語に対する単語認
    識結果を得る単語認識結果出力手段 とを備えたことを特徴とする単語認識装置。
  2. 【請求項2】前記入力単語は、印刷または手書き入力さ
    れた文字列、あるいは音声入力された音声パターンから
    なる文字列として与えられるものであることを特徴とす
    る特許請求の範囲第1項記載の単語認識装置。
  3. 【請求項3】前記文字認識手段は、前記入力単語の各文
    字に対する文字認識結果としてそれぞれ複数の候補を出
    力するものであり、前記単語認識結果出力手段は、前記
    特殊記号で指定された位置の文字に対する文字認識結果
    である該複数の候補のうちの第1順位の候補と、前記類
    似度計算手段から出力された文字データとを組み合わせ
    ることにより、前記単語認識結果を得るものであること
    を特徴とする特許請求の範囲第1項記載の単語認識装
    置。
  4. 【請求項4】前記文字認識手段は、前記入力単語の各文
    字に対する文字認識結果としてそれぞれ複数の候補を出
    力するものであり、前記単語認識結果出力手段は、前記
    特殊記号で指定された位置の文字に対する文字認識結果
    である該複数の候補のうちの特定のカテゴリに該当する
    中で最高順位の候補と、前記類似度計算手段から出力さ
    れた文字データとを組み合わせることにより、前記単語
    認識結果を得るものであることを特徴とする特許請求の
    範囲第1項記載の単語認識装置。
JP58157595A 1983-08-29 1983-08-29 単語認識装置 Expired - Lifetime JPH069065B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58157595A JPH069065B2 (ja) 1983-08-29 1983-08-29 単語認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58157595A JPH069065B2 (ja) 1983-08-29 1983-08-29 単語認識装置

Publications (2)

Publication Number Publication Date
JPS6049481A JPS6049481A (ja) 1985-03-18
JPH069065B2 true JPH069065B2 (ja) 1994-02-02

Family

ID=15653141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58157595A Expired - Lifetime JPH069065B2 (ja) 1983-08-29 1983-08-29 単語認識装置

Country Status (1)

Country Link
JP (1) JPH069065B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08306428A (ja) * 1995-04-28 1996-11-22 Fuji Hoon Seisakusho:Kk 電線接続部品

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04102901U (ja) * 1991-01-31 1992-09-04 積水化成品工業株式会社 ヘアーカーラ

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08306428A (ja) * 1995-04-28 1996-11-22 Fuji Hoon Seisakusho:Kk 電線接続部品

Also Published As

Publication number Publication date
JPS6049481A (ja) 1985-03-18

Similar Documents

Publication Publication Date Title
US4731857A (en) Recognition system for run-on handwritten characters
US6513005B1 (en) Method for correcting error characters in results of speech recognition and speech recognition system using the same
US5982933A (en) Information processing method, information processing apparatus, and storage medium
Reul et al. Improving OCR accuracy on early printed books by utilizing cross fold training and voting
CN109284700A (zh) 图像中多个人脸检测的方法、存储介质、设备及系统
JPS6120038B2 (ja)
JPH069065B2 (ja) 単語認識装置
Powers Pen direction sequences in character recognition
JPH09282418A (ja) 認識方式複合化装置および方法
JPH0795337B2 (ja) 単語認識方式
JP2790842B2 (ja) 文字認識後処理方式
JPH0766423B2 (ja) 文字認識装置
JPH0357509B2 (ja)
JP2660998B2 (ja) 日本語処理装置
JPS62134698A (ja) 多数単語の音声入力方式
JPH07271920A (ja) 文字認識装置
JPS58186882A (ja) 手書き文字入力装置
JPS59121527A (ja) 日本語入力方式
JP2622004B2 (ja) 文字認識装置
JPH01134585A (ja) 分離文字処理機能を持つ文書リーダ装置
Muaz Urdu optical character recognition system MS thesis
CN115965005A (zh) 用于自然语言纠错排序模型的获取方法和装置
JPH02148277A (ja) パターン認識装置
JPS62285189A (ja) 文字認識後処理方式
JPS58223887A (ja) 文字認識装置における個人辞書作成処理方式