JPS5953985A

JPS5953985A - 文字認識装置

Info

Publication number: JPS5953985A
Application number: JP57163401A
Authority: JP
Inventors: Yoshiaki Kurosawa; 由明黒沢
Original assignee: Toshiba Corp; Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1982-09-20
Filing date: 1982-09-20
Publication date: 1984-03-28
Also published as: JPH0474756B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発ψ」の技術分野〕本発明は、例えば手壱入力されたｎ文字からなる単語を
簡易に且つ効果的に認識し、その認識結果によって示さ
れるデータベース等の属性データを得ることのできる文
字１ｉ１１□に装［１−ｊに関する。

〔発明の技術的背景とその問題点〕

文字を認識する場合、基本的にはその文字の特徴を検出
して行われるが、ｎ文字からなる単ｌｄを認識するとき
、個々の文字をそれぞれｆ７　ｉｉ＋７し、その結果を
組合せるだけでは不十分なことが多い０また成る文字の
ｈｔｇ　ＲｆＮが不十分な場合にはその単語を認識する
ことがし１」嬌となることもある。そこで従来では、第
１図Ｖこ示すように簡ｊｆ？に装置を構成し、有意の単
語数が限られることを利用して個々の文字認識が不十分
な場合で）りてもその単語を認識するような工夫が施さ
れている。即ち、文字入力部１を介して与えられるｎ文
字の文字列からなる単語をｍｌ　１ｉｉｉ１！部２に導
ひいて文字認識する。この認識が困難な場合には、その
単語に対する複数の候補カテゴリを求めて単語照合！’
１ｆＸ３に与える。この単６！■照合部３でＱ、ｌ、上
記１１．＋′、：１ｉｌｉカデコ゛りの中の単ｌｌｌ１
ｆとして有意な、ｉｌ１合せを、単１１＋辞町４に登録
されｌこ単語の中から４＋’コＬ出し、これによって正
しい＋ｌ’ｔ　Ｆｉｔ″１の選択を行いそのｉＬ、、ｌ
：識を行う。このような昭ｆ！ｉｆｆ！処理によれＵ」
１、イト・１々の文字に対する認識結果が不完全であっ
ても、その候補カテゴリの組合せによって有７Ｇな’ｌ
’　ｔ：ｊ’ＦをＪ’Ａび出ずことができ、結果として
効果的な単語−８茜シが可能となる。然し乍ら、文学誌
ｉｉｉ・（によって得られる候補カテゴリが多い場合、
そのに１［合ぜが膨大となる為に、単語との照合１ｃ　
）ｒ４ｉめで多大な時間を要すると云う不具合がある。

またこのようにして認識された結果に基すいで、別のブ
゛−タペースを検索することが良く行われるが、このデ
ータベース検索においても多大な時間を少すると云う問
題があった。しかも、単１１１ｔとデータペースとは、
本来一体とし゛で扱うｉｆ’ｉ　ｅｆ＆であるものが、
それぞれ独立に与えられることになるので、その管理に
困難を生じる等の問題もあった。

〔発す］の目的〕

本発明はこのような４（情を考ＩＡ５．！、　してなさ
れたもので、その目的とするところは、簡易に且つ高速
度に辞書単語と候補カテゴリとの比較を行って単語認識
を効果的に行い、同時にその単語の１４性データをも効
果的に得ることのできる文字認識装置を提供することに
ある。

〔うら明の概要〕

本発明はｎ文字からなる入力、Ｑ’ｐ、暗の各文字につ
きそれぞれｒ個の候補カテゴリ（文字コード）を求め、
単語辞書に登録された’：’　１ｉ７１の各文字と上記
候補カテゴリとを単語文字位置４ｆｉに比較して、その
一致した候補カテゴ゛りの候補順位あるいはその類似度
から上記比較された単語の入力単語に対する一致度を計
算し、一致度の高い１個の単６ηを候補単語として選び
出すことによって認ｉ右’＆候補となる単語を厳ノ；へ
し、これＶこよって＋Ｉ’６速で適確な記１誠を簡易に
行うととを可能とし、史に単語辞列に予め登録してなる
’１ｉｎ（ｉに付属したｋｉｉ性デ゛−りをイ（Ｉるよ
うにしたものである。

〔発明の効果〕

従って本）Ｊ／；明によれば、入力された単語を高速に
、安定・確実に認識し、その認識結果と共にその単ｒｊ
ｊｉ　（’Ｃ付Ａ（１６する属性データを得ることがで
きるので、単語？ｇ　Ｂｌとそのデータベース検索とを
茜速に効」り民＜行うことが可能となる。これ故、単１
１１とそのデータペースとを一体に取扱うことが町８１
４となり、データベース検索や管理！１ｉｌｌ　岬等に
おいで寅用上多大なる効果が奏せられる。

〔うｉ明の実施イＩ）ｌｌ〕

以−「、図面を谷照して本発明の一実施例につきｉ兄明
する。

第２図は実ｈ１１３夕１ｊ装置貨の概略構成図である。

ｎ文字からなる文字列として与えられる入力単語（」、
ｉ：；、ｌ、：　ｔｉ、・：ｒ、ｔＸｌ（１１にて各文
字ニラき一’ｆ：　レソレ認識され、それぞれｒ個の候
補カテゴリ（文字コード）が求められる。これらの候補
カテゴリは、その候補順位に応じて第１位から第１位ま
で各単語文字位置毎に定められる。尚、このとき各候補
カテゴリの文字に対する類似度、つ１り候補カテゴリの
標準文字パターンと入力文字ｉ４ターンとが似ている度
合をそれぞれ求め、この類似ＰＬと候補カテゴリとを一
体的に扱うようにしてもよい。かくして、認誠部１１に
よって求めら゛れたｎ文字に対するそれぞれｒ個の（Ｉ
Ｎ袖カテゴリのｆＪｊ合ぜによって得られるＹａ　ｊ！
ｉ＆対象単ｎｉ４はｒｎ個となる。そして、これらの１
ｖ−補カテゴリは、編集部１２を介して単語照合部１３
に与えられる。

一方、単語辞書１４にはｎ文字からなるＬｎイ１ｍｌの
単語と、その単語に付属する属性データとがそれぞれ対
応して予め登録されている。これらの単１計は順次読出
されて前記単１１７照合部１３に与えられ、認識処理に
供される。

さて、単語照合部１３は、基本的には次のように）ｌ：
’ｊ成される。前記記、ｉ１′に部１ノを弁して＾ハ；
・１すされたｎ文字に対するｒ個の候補カテコゞす、っ
１Ｉ）ｎＸｒ個のｎカ袖カテゴリは候補文字レジスタ２
１に格納される。１だアドレスカウンタ２２の制御を受
けて単語計ｈ１４から読出される単Ｅｔｊ　＆、：ｌ、
単ｖμ辞Ｗ３レジスタ２３に格納される。

この単語辞望）レジスタ２３に格納された単語の各文字
はコンパレータ２４に供給され、レジスタカウンタ２５
の制御を受けて候補文字レジスタ２ノから１１次読出さ
れる候補カテゴリと単語文字位置に対応して一致比較さ
れる。このコンパレータ２４によって単語文字と候補カ
テゴリとの一致が庁飴文字位置毎に行われる。そして、
その一致検出情報は一絞度計算部２６に力えられ、この
ＲＩ算郡部２６て前記レジスタ２３に格納されて比較に
供された単語の入力単語に対する一致度が計３ン、され
ている。この−軟度計算は、例えば一致した候補カテゴ
リの候補順位を各単語文字位ｊＨ４４σに求め、その候
補順位情報の総合イ１１（を求める等して行われる。ま
た前記したように候補カテゴリについてその類似度が求
められている場合には、各単語文字位置毎に一致検出さ
れた候補カテゴリの類似度の総和値として一致度を求め
るようにしてもよい。尚、この一致比較によっていずれ
かの単語文字位［′Ｌにおいて一致する候補カテゴリが
見出されない場合には、その単語に対する一致性がない
ものとして取扱うようにすればよい。そして、このよう
な単１ｉｊｊの一致度計算は、単語辞書１４から単語を
読出す都度繰返して行われ、ｌＬｎ例の全ての単語につ
き、その−絞度が求められる。しかして、このようにし
て求められた各単語の入力単語に対する一致度の情報は
ソート処理部に導びかれ、−絞度の高いものから順にソ
ート処理される。

ぞして＼−一致度高いＸ個の単語が候補単１１（とじて
編集部１２に与えられる。このｆｔ１ｉ集部１２では、
これらの候補単語と入力単語の認識情報とを総合的に編
集し、これを判定して認識結果を得、その単語と共に単
語に付属した属性データを求めている。

ところで、このような照合処理は、具体的にＩＪ次のよ
うにして行われる。第３図はその一例を示すもので、１
１六補文字レジスタ２１は、ｎ行ｒ列の記憶エリアを持
つシフトレジスタにより４１’＋成される。しかして、
ｎ文字につきそれぞれ既罰、（：された餞４１目カテゴ
リは、ｎ行に単語文字位ｌＩ′ｊ：ｊを対応させ、ぞの
候補順位に従ってｒ列に亘って順次格納される。そしで
、これらの格納されたｔｋ袖カテプリは、カウンタ２５
の制御を受けて１列ｉＩＪに並列的に胱出さノシ、コン
パレータ２４に与えられる。またこのコンパレータ２４
にはレジスタ２３から単語の各文字データが単Ｎ’ｉｊ
文字位１へ対応して並列的に与えられている。

これによって、各？）ｊ、飴文字位ｆδにおいて、候補
カテゴリと単＋ｉｉｉ文字との同時対比が行われる。

ぞして、一致結果をイ４ｊた単０１１文字位置からその
情￥１！、が−１）り度を層１淳ン拮１ｉ２６に力えら
れ、そのときのカウンタ２５のｄｉ算値が候補順位情報
として取込才れろ。そして、１回の比較が終了したとき
、カウンタ２５が歩進されて次の１列の候補ノＪテコ゛
りがコンパレータ２４ＫＪ−ｊえられ、同和ζにして一
致検出が行われる。そして、この一致検出は、ｒ回繰返
して行われ、これによってレジスタ２３に格納された単
ｈｔ１に対する照合処理を終える。

このとき、−絞度割算部２６には各単語文字位１ａ毎に
一致検出された候補カテゴリを示すカウント値、つまシ
候補順位の１ｎ報が得られており、この情報に従って、
レジスタ２３に格納された単語の入力単語に対する一致
度が求められている。ソート処理部２７は、このときの
アドレスカウンタ２２のカウント値から、上記−絞度が
求められた単語を認識しており、その−絞度の高い単語
を、一致度とカウント値として格納している。そして、
次に入力された単ｈ１１の一致朋と、先に入力された単
語の一致度とを比較し、−絞度の低い単語４１イ報を切
捨てると共に、その並び換えを行う等してソート処理を
行っている。

尚、この場合、レジスタ２１ＶＣ−格納し／ξ候補カテ
ゴリに対応して、その類似度情報を別の記憶エリアに渚
納しておき、−軟度Ｆｉｔ　３１：を前記した候補ｌ１
ｊｔｌｉ位に代えて類似度情報に従って行うようにして
もよい。

且だ、この第３図に示す４′ｔｒｔ成では、照合処理を
ｆｒＱ”　ｊ！７を文字（Ｌ　ｉｉｔ’Ｚにつき並列的
に同時に実行するようにしたが、第４図に示すようにシ
リアルに実行するようにしても良い。νＩＪち候補文字
レジスタ２１　をｎ　Ｘ　ｒ個の記憶エリアをもつもの
とし、これらのｊ’ｌＬ　（：ｃｄエリアに候補力テコ
ゝりを順に格納するように＋ｉ’ｆ成する。尚ことでは
候補カテコゞりと共に類似度情報も格納するようにした
ものを７」＜す。そ−して、土ｄ己候イ由カテコ゛すを
カウンタ２５のアドレスｆｌｊｌＪ御により順次読出し
てコンノ（？レータ２４に供胎すると共に、レジスタ２
３に格納された単記の各文字をセレクタ２８を介して順
次Ｒｊｉ□出すようにする。この場合、比１位の文字を
セレクトしてその文字位（へにおける候補文字をＩｉｌ
＋↓次肌出しで一致検出し、その後ａ＜　２位の文字を
セレクトしてその文字位置の候補カテゴリに対する一致
桟出を行うようにカウンタ２５のアト１／ス制御と、セ
レクタ２８のセレクト制御を同期させるようにすればよ
い。このようにしても、先の例と同様に照合処理を行う
ことができる。

第５図は上述した認識処理の概念を示す図であり、ここ
では入力単語として］−黒沢」なる人名単語が与えられ
る例を示している。しかして単１１１辞癲１４には、認
識対象とするＱＧｌｉＩｌｌ　４　ａと共に、その単語
１４ａにイづ属する属性データ１４ｂが対応して予め登
録されている。このうち、上記単語１４ｍが入力単語に
対する認ｄ隈処理に供されることになる。そして、この
単ｆｆ５１４ａが認識結果として前述した如く求められ
たとき、この単語１４８と共に、その属性データ１４ｂ
が読出されることになる。この読出し処理が前記編集部
１２により行われる。

尚、上記属性データ１４ｂは、例えは卑ｄけ１４ａが人
名単語として与えられる場合には、その住所や電話査号
、年令等のデータとして与えられる。そして、この属性
データ１４ｂによって会員名；Ｉｖや顧客台１眼等のデ
ータベース検索や、そのグ］１理が行われることになる
。丑た単語１４ａが仮名文字で力えられる鳴合、ルＡ性
データ１４ｂを対応漢字として与えることにより、仮名
・漢字変換を行うこともできる。

以上説明したように本発明によれば、候補カテ了りによ
って示される候補文字と辞書単語とをし・ソスタに格納
して、高速度な照合処理を行い、その−軟度を求めるの
で、短時間に効率良く精度の高い単６ａ認識を行い得る
。しかも与えられた’Ｉｊ、ｔｓの文字・品質が惑い、
用台であっても、十分精度の商い認識がｏＪ能であり、
実用的利点が商い。またＪ）５．Ｄ４＾’１’　田の構
成の、７１純化と、その作成ｉ史が６易である晴−の効
果も秦する。更には、〜ｉ詔と七の鵜性データとを一体
的に取扱うことがｉｊＪ能となるので、データベース検
索ヲハじめとして、゛実用上絶大なる効果が奏せられる
。

向、本発明は上記実施例に駆足されるものでｌｄない。

例えは属性データとして、単語の公知′陥報を与えても
よい。−ま／辷、その’ｌｔ＋＋／ｉの出現頻度の情報
を属性データとして与えることも可能であり、要するに
本発明はその波旨を逸脱しない範囲で種々変形して実施
することができる。

【図面の簡単な説明】

第１図は従来装置の一例を示す概略構成図、第２図は本
発明の一実施例装置の概略、（１ｑ成図、第３図および
第４図はそれぞれ単語照合部の基本的な構成例を示す図
、第５図は認識処理概念を示す図である。１）・・・認識部、１２・・・編集部、１３・・・単語
照合部、１４・・・単語辞書、２１・・・候補文字レジ
スタ、２２・・・アドレスカウンタ、２３・・・≠胎辞
−語しノスタ、２４・・・コンパレータ、２５・・・レ
ジスタカウンタ、２６・・・−絞度計算部、２７・・・
ソート処理部、２８・・・セレクタ、１４ａ・・・嚇飴
、１４ｂ・・・属性データ。出願人代理人　弁理士　鈴　江　武　彦第１図第２図

Claims

【特許請求の範囲】

ｎ文字からなる文字列として与えられた入力単語の各文
字につき認識してそれぞれｒ個の候補カテゴリを求める
手段と、認識対象単語およびその属性データを予め登録
した単１１ｔ１辞書のｎ文字からなる複数の単語の各文
字と」二記候補カデゴリとを単語文字位置毎にそれぞれ
比較照合する手段と、各単語文字位置において一致した
候補カテゴリの候補順位または入力部ｄ１ｊの文字に夕
］するｉ＋７４似度から前記単語辞書から選ばれて比較
された１、ｓ語の前記入力単語に対する一致度を４詐し
て一致１ｙの高い１個の単語を候補単語として選択する
手段と、この選択された単６１ｊとその属性フ′−夕を
前記単）ｆ７＋辞用かも読出す手段とを具＋ｉｉｉ　し
たことを特留とする文字認識装置ｉ　。