JPS60584A - 単語認識方式 - Google Patents

単語認識方式

Info

Publication number
JPS60584A
JPS60584A JP58108112A JP10811283A JPS60584A JP S60584 A JPS60584 A JP S60584A JP 58108112 A JP58108112 A JP 58108112A JP 10811283 A JP10811283 A JP 10811283A JP S60584 A JPS60584 A JP S60584A
Authority
JP
Japan
Prior art keywords
word
recognition
data string
words
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58108112A
Other languages
English (en)
Other versions
JPH0454270B2 (ja
Inventor
Yoshiaki Kurosawa
由明 黒沢
Yoshikatsu Nakamura
中村 好勝
Masato Suda
正人 須田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP58108112A priority Critical patent/JPS60584A/ja
Publication of JPS60584A publication Critical patent/JPS60584A/ja
Publication of JPH0454270B2 publication Critical patent/JPH0454270B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は例えば住所表示のような階層構造を有する入力
単語データ列會、そのデータ構造に基づいて簡易に、且
つ効果的に認識することのできる単語認識方式に関する
〔発明の技術的背景とその問題点〕
情報処理技術の発展に伴い、印刷または手簀された文字
列からなる単語データ列や、音声入力された文字列から
なるデータ列をそれぞれ認識し、計算機システムに取込
んで各種の情報処理に利用することが行われている。こ
の場合、基本的には上記単語データを構成する各文字の
特徴からその文字を認識して行われるが、これらの認識
文字列が有意な単語を為すか否かが別の問題として残シ
、単語認識の不十分さを招いている。例えば、人力文字
列中の成る文字についての認識結果が得られなかった場
合、その単語データの全体の認識結果が得られなくなる
ことがおる。
そこで従来では、例えば%願昭56−138163号等
に提唱されるように、個々の文字認識結果によって示さ
れる候補単語の各文字と、単語辞書に登録された単語の
各文字との類似度をめ、これらの類似度の情報を総合し
て前記候補単語を認識することが行われている。これに
よって、単語を構成する成る文字の認識結果が部分的に
得られない場合であっても、その単語全相当高い確率で
認識することができるようになってきf′c。
と仁ろで認識処理に供せられる文字列は、一般に単語単
位で与えられるよシも、ひしろ住所表示のように成るま
と1りを持つ単語データ列として与えられることが多い
。これにも拘らず従来では、入力された又字列′f:早
胎率位で認識しているので、その認識処理効率が非常に
悪かった。しかも、上記住所表示の如き単語データ列は
、その階層構造によって示されるように、階層間の単語
毎に互いに関連性を有しているが、従来このような関連
性を利用していないのが実情で必る。これ故、成る階層
の単語についての認識結果が得られなかった場合、その
単語データ列全体に対する認識が行えないと云う不具合
があった〇 〔発明の目的〕 本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、階層構造を有する入力単語デー
タ列をその階層構造を有効に利用して簡易に且つ効率良
く認識することのできる単語認識方式を提供することに
ある。
〔発明の概要〕
本発明は、階層構造を有する単語データ列の各単語をそ
の階ノー構造に従って順に認識処理して各単語の認識結
果を得るに際して、成る階層で単語認識結果が得られな
かったとき、(=) 上位階層の単語認識処理でめられ
た複数の候補単語によってそれぞれ特定される下位階層
の単語辞書ファイルを用いて下位階層の単語に対する認
識処理を行う組合せ処理、(b) 上位階層での単語認
識処理を省略し、下位階層の単語辞書ファイルの全てを
用いて下位階層の単語に対する認識処理全行う省略回復
処理、 (c) 上位階層での認識処理でめられ7’e (B補
単語の類似度と、下位階層での認識処理でめられた候補
単語の類似度とを結合した情報に従って上記上位および
下位階層の単語をそれぞれ認識処理する統合処理、 (d) 上位階層でめられた候補単語と下位階層でめら
れた候補単語とを結合し、この結合候補単語について単
語辞書ファイルを用いて認識処理する結合処理、 (、) 入力単語データ列を階層別の単語に分離し、こ
れらの単語毎にそれぞれ独立に認識処理した結果を統合
して認識結、果を得る分離処理のうちの少なくとも1つ
を用いて前記人力単語データ列に対する認識再試行処理
を行うようにしたものでらる。
〔発明の効果〕 かくして本発明によれば、入力単語データ列の成る階層
の単語に対する認識結果が得られなかった場合でも、そ
の階層構造を利用した組合せ処理、省略回復処理、統合
処理、結合処理、あるいは分離処理の少なくとも1つを
用いて、その認識再試行処理が行われるので、大刀単語
データ列の階層構造を為す単語間の関係から、上記単語
データ列を効果的に認識することが可能となる。従って
、住所表示等を示す単語データ列を効果的に認識するこ
とができ、その実用的利点は絶大である。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例方式につき説明
する。
第1図は実施例方式を適用して構成される認識装置の基
本構成図であシ、1は認識処理に供される文字列、つま
フ単語データが記載された帳票である。この帳票に日己
載された文字列が光電変換部2を介して読取9入力され
る。しかして、この入力単語データ列は、前処理部3を
介して文字認識部4に与えられ、上記単語データ列を構
成する文字毎にそれぞれ文字認識される。
そして、これらの文字認識結果の組として候補単語がめ
られている。単語認識部5は、このようにしてめられた
前記単語データ列全構成する各候補単語について、単語
辞書6にファイルとして予め登録された辞書単語との照
合を行い、その認識結果を得ている。即ち、単語認識部
5は第2図に示すように候補単語を格納する単語情報バ
ッファ7、単語辞書6に登録された単語と上記候補単語
との類似度を計算する単語類似度計算部8およばその計
算処理を制御するコントローラ9によって構成される。
そして、システム制御部10の制御を受けて、前記単語
データ列を構成する偶補単語毎に、上記類似度を算出し
て単語認識を行うものとなっている。
ところで今、1隈票1から読取られた単語データ列が、
例えば第3図に示すように「東京都大田区雪谷大塚」か
らなる住所表示を示すものであったとする。この場合、
この単語データ列を文字認識することによシ、各文字認
識結果で示される候補単語を複数の階層の「東京都」「
太田酸」「雪谷犬塚」にそれぞれ対応して得ることがで
きる。尚、これらの候補単語の階層の区切りは、入力単
語データ列の各階層単語を構成する文字列の間隔等から
検出することができる〇また文字列が一様に並んでいる
場合等には、有意な単語を為し得る文字列毎に区切るよ
うにしても良い。そして、単語データ列と同じ長さの文
字列となる上記有意な単語を為す文字列の組を抽出し、
これらの各文字列をそれぞれの階層に対応した候補単語
とすればよい。
一方、単語辞書6は、処理対象とする単語データ列の階
層構造に対応した単語辞書ファイルを構成しており、例
えば第4図に示すような、都道府県者をカテゴリとする
単語全登録した第1フアイル、置市郡名をカテゴリとす
る単語を登録した第2フアイル、そして町名をカテゴリ
とする単語全登録した第3フアイルを有している。これ
らの第1乃至第3フアイルは階層構造を為すもので、上
位ファイルの単語によって下位ファイルがポインタによ
って繋がれている。
つまり、階層間の単語の関連性に応じて、各ファイルの
単語が階層化(木構造化)されている。
従って今、第1フアイルにおいて「東京都」が認識決定
されたとき、その単語の「東京都」に付されたポインタ
によって、第2フアイル中の「東京都」の項を示すもの
が特定されるようになっている。そして、同様にして1
東京都」の項を示す第2フアイル中で「太田酸」なる単
語が認識されたとき、この単語「太田酸」に付されたポ
インタによってその「太田酸」の町名全登録した第3フ
アイルが特定されるようになっている。このように単語
辞書6は、入力処理対象とする単語データ列に対応した
階層構造を有しておシ、各階層間の単語はポインタによ
って関連付けられている。
しかして本方式によれば、先ず入力単語データ列の各階
層に対応してめられた候補単語毎に、その上位階層から
順に単@認識が行われる。
従って、この例では、「東京都」に対応した候補単語と
第1フアイルの各辞書単語との類似度が計算され、それ
らの類似度の情報に従って「東京都」なる単語が認識さ
れる。しかるのち、この認識された「東京都」なる単語
に付されたポインタによって、「東京都」に関連する第
2のファイルが選択される。そして、この選択された第
2フアイルの辞書単語と、第2階層の「大田区」に対応
した候補単語との類似度がそれぞれ算出され、これらの
類似度の情報に従って「太田区」なる単語が認識される
。その後、この「大田区」なる単語に付されたポインタ
によって第3フアイルが選択され、同様にして「雪谷犬
塚」なる単語が類似度の情報に従って算出される。これ
によシ、「東京都」「大田区」「雪谷犬塚」からなる階
層構造を持つ単語データ列の認識結果がめられることに
なる。
ところが、このような認識処理過程において、成る階層
で単語認識結果が得られなかりた場合には、それ以降の
階層での単語認識ができなくなる。例えば、入力単語デ
ータ列から「東京都」なる単語が省略されている場合や
、「東京都」なる単語を正しく認識できなかった場合等
、認識処理ができなくなる。この場合本実施例方式にめ
りては、次のようにして認識再試行処理が行われる。こ
の認識再試行処理は、以下に説明する組合せ処理、省略
回復処理、統合処理、結合処理、分離処理のうちの少な
くとも1つを用いて行われる。
上記組合せ処理は、上位階層の単語認識において、「東
京都」以外の「京都府」「大阪府」等の複数の候補単語
が選ばれておシ、その第1候補の単語によって選択され
た第2フアイルでの単語認識が失敗したとき等に実行さ
れるものでおる。この場合、第5図にその処理手順を示
すように、第2候補および第3候補の単語によって特定
される下位階層の単語辞書ファイルについても単語認識
を行わしめるものである。従って今、第1候補の「京都
府」に対応しfc第2ファイルによる単語認識が失敗し
たとしても、第2候補の「東京都」に対応した第2フア
イルによる単語認識によって「大田区」を認識すること
が可能となる。この結果を利用して上位階層の候補単語
の順位を入替えれば、これによって各階層間の単語の関
連性を持たせることができ、ここに単語データ列の認識
結果を得ることが可能となる。つまシ、上位階層でめら
れた候補単語によって特定される下位階層の辞書ファイ
ルを用いて、下位階層の候補単語に対する認識処理を行
わせ、その認識結果を上位階層の単語認識処理に反峡さ
せることが可能となる。
また省略回復処理は、上位階層の候補単語が存在しない
とき、或いは上位階層の単語を示す文字列が人力されな
かったときに行われるもので、上位階層の単語が省略さ
れていると看做して下位階層の単語認識を行う。この場
合、第1フアイルに登録された単語に付されたポインタ
によって示される全ての′42ファイルを用いて第6図
にその処理手順を示すように下位階層の認識処理を行う
。この処理を行うことによって、「東京都」なる単語が
入力文字列から省略されている場合、および上記「東京
都」なる単語の認識が不可能な場合であっても「大田区
」なる下位階層の単語から認識することが可能となる。
また統合処理は、上位階層での単語認識に失敗したとき
に行われる。この場合、第7図にその処理手順を示すよ
うに、先ずその上位階層の辞書ファイルの単語と入力候
補単語との類似度Slをめ、更に上記単語に付されたポ
インタによって示される下位階層の辞書ファイルの単語
とその下位階層の人力鉄桶単語との類似度S。
と會求める。そして、これらの類似度S1.S。
が、それぞれ所定の閾値T1yTg を越えるとき、そ
の類似度の情報S (=St +8g )と共に、これ
を得た単語の組を登録する。これを第17アイルおよび
第2フアイルに登録された単語のポインタによって繋が
れた有効な組合せの全てについて行う。そして、前記単
語の組を、上記類似度の情報Sに従ってソート処理し、
その最大値を得るものt−g識結果としてめる。この統
合処理によれば、個々の階層でそれぞれ低い類似度しか
得られなかりた単語であっても、階層構造を為す単語の
組として高い類似度の情報Sを得ることができ、この結
果2つの階層にまたがる単語の組を相互に関連させて同
時に認識することが可能となる。つまシ「東京都」なる
候補単語の認識処理でめられた類似度S1 と、「太田
区」なる候補単語の認識処理でめられた類似度S露との
情報を統合し、その階層間での単語の関連性を利用して
、その単語がそれぞれ認識される。
また結合処理は、例えば単語データ列の階層化処理にお
いて、「雪合大域」なる単語が「雪合」と「大域」とか
らなる2つの単語に分解されたときに用いられるもので
、このままでは「雪合」なる単語認識に失敗し、且つ「
大域」なる単語g職の処理対象が失われてしまう。この
ような場合、第8図に処理手順を示すように、上記階層
化された2つの単語を結合し、これを1つの階層の単語
として認識処理する。これにより、1つの階層を為す「
雪合大域」なる単語が正しく認識処理に供せられること
になる◎また分離処理は、人力単語データ列の階層化に
おいて、例えば2つの階層にまたがる単語が「東京都大
田区」の如く結合されている場合、これを分離してそれ
ぞれの階層での認−処理を行わせるものである。この場
合の処理手順は第9図の例く示され、上記結合された候
補単語を前半部と後半部とに分けて行われる。これによ
って、各階層別に正しく単語認識が行われることになる
本方式は以上の処理の少なくとも1 ′)id識再試行
処理として行わせるものであり、例えば「組合せ処理」
と「g合処理」と「結合処理」とを採用する場合、第1
O図に示すようにして行われる。
即ち、通常の認識処理が失敗したとき、上位階層での候
補単語を調べ、その′疾補数に応じて、組合せ処理、統
合処理、結合処理を選択的に行わせるようにすればよい
。そして、その階層での処理で認識結果が得られない場
合には、次の階層において同様な再試行処理を行わせる
ようにすればよい。このようにすれば、入力単語データ
列の成る階層で認識結果が得られなかった場合であって
も、他の階層の単語との繋がり関係、つまり関連性を利
用して大刀単語データ列の谷階層の単語をそれぞれ効果
的に認識することが可能となる。
尚、本発明は上記実施例に限定されるもので゛はない。
例えば入力単語データ列の階層化処理は、従来知られた
種々の方式を採用することができる。また再試行処理に
用いられる前述した処理の組合せ等は仕様に応じて定め
ればよい。
更に単語に対する類似度の算出法も特に限定されない。
また郵便番号等を単語データの一部として利用すること
も勿論可能である。要するに本発明はその要旨を逸脱し
ない範囲で種々変形して実施することができる。
【図面の簡単な説明】
図は本発明の一実施例を示すもので、第1図は単語認識
装置の基本構成図、゛第2図は単語認識部の構成図、第
3図は入力単語データ列の階層構造を示す図、第4図は
階層構造化された単語辞書の構成を示す図、第5図は組
合せ処理の手順を示す図、第6図は省略回復処理の手順
を示す図、第7図は統合処理の手+[を示す図、第8図
は結合処理の手順を示す図、弗9図は分離処理の手順を
示す図、第10図は認識再試行処理の手J[を示す図で
あるり 4・・・文字認識部、5・・・単暗認識部、6・・・単
語辞書、7・・・単語情報バッファ、8・・・単飴類似
度計算部。 出願人代理人 弁理士 鈴 江 武 彦第7 図 第8図 第9図

Claims (1)

  1. 【特許請求の範囲】 階層構造を有する入力単語データ列の各単語を構成する
    文字をそれぞれ認識し、これらの文字認識結果で示され
    る各階層の候補単語と上記階層構造に対応した単語辞書
    ファイルにそれぞれ登録された辞書単語との類似度をめ
    、これらの類似度の情報に従って前記各階層毎に前記入
    力単語データ列を構成する各単語の認識結果を上位階層
    から順に得て前記入力単語データ列をg識するに際して
    前記入力単語データ列の成る階層でg繊結果が得られな
    かったとき、(a)、前日己入力単語データ列の上位階
    層の単語について上位階層の単語辞書ファイル音用いて
    められた複数の候補単語によってそれぞれ特定される下
    位階層の単語辞書ファイルを用いて前記人力単語データ
    列の下位階ノーの単語に対する認識処理を行う組合せ処
    理、 (b) 上位階層の単飴辞誓ファイルを用いた認識処理
    を省略し、下位階層の単語WVファイルの全てを用いて
    前記入力単語データ列の下位階層の単語に対する認識処
    理を行う省略回復処理、(C) 上位階層の単語辞書フ
    ァイルを用いてめられる上位階層の候補単語の類似度、
    および下位階層の単語辞書ファイルを用いてめられる下
    位階層の候補単語の類似度を結合した情報に従って上記
    上位および下位階層の単語に対する認識処理全行う統合
    処理、 (d) 上位階層の候補単語と下位階層の候補単語とを
    結合し、この結合候補単語(ついて単語辞書ファイルを
    用いてg識処理を行う結合処理、(−) 入力単語デー
    タ列を複数の単語に分離し、これらの単語毎にそれぞれ
    独立に認識処理したのち、各単語の認識結果を結合して
    前記入力単語データ列の認識結果をめる分離処理、のう
    ちの少なくとも1つを用いて前日己入力単語データ列の
    認識再試行処理全行うことを特徴とする単語認識方式。
JP58108112A 1983-06-16 1983-06-16 単語認識方式 Granted JPS60584A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58108112A JPS60584A (ja) 1983-06-16 1983-06-16 単語認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58108112A JPS60584A (ja) 1983-06-16 1983-06-16 単語認識方式

Publications (2)

Publication Number Publication Date
JPS60584A true JPS60584A (ja) 1985-01-05
JPH0454270B2 JPH0454270B2 (ja) 1992-08-28

Family

ID=14476197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58108112A Granted JPS60584A (ja) 1983-06-16 1983-06-16 単語認識方式

Country Status (1)

Country Link
JP (1) JPS60584A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61272888A (ja) * 1985-05-28 1986-12-03 Toshiba Corp 単語認識方式
JPS647277A (en) * 1987-06-30 1989-01-11 Toshiba Corp Character reader
JPH01177180A (ja) * 1988-01-04 1989-07-13 Oki Electric Ind Co Ltd 文字認識方法
JPH0550299U (ja) * 1991-12-11 1993-07-02 エヌオーケー株式会社 圧力容器のガス封止作業装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61272888A (ja) * 1985-05-28 1986-12-03 Toshiba Corp 単語認識方式
JPS647277A (en) * 1987-06-30 1989-01-11 Toshiba Corp Character reader
JPH01177180A (ja) * 1988-01-04 1989-07-13 Oki Electric Ind Co Ltd 文字認識方法
JPH0550299U (ja) * 1991-12-11 1993-07-02 エヌオーケー株式会社 圧力容器のガス封止作業装置

Also Published As

Publication number Publication date
JPH0454270B2 (ja) 1992-08-28

Similar Documents

Publication Publication Date Title
JP6756079B2 (ja) 人工知能に基づく三元組チェック方法、装置及びコンピュータプログラム
CN113918686A (zh) 智能问答模型构建方法、装置、计算机设备及存储介质
CN111476225A (zh) 基于人工智能的车内人脸识别方法、装置、设备及介质
JPS60584A (ja) 単語認識方式
KR20000039018A (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
CN113886420B (zh) Sql语句的生成方法、装置、电子设备及存储介质
CN115588430A (zh) 基于用户语音的智能查询方法、装置、设备及存储介质
JP3514874B2 (ja) フリーテキスト検索システム
JPH0520794B2 (ja)
JPS6353588B2 (ja)
AU2001267646B2 (en) Method for identifying a person among a population by sensing his fingerprints
JPH0795337B2 (ja) 単語認識方式
JP3085508B2 (ja) 電子帳票検索システム
JP3897409B2 (ja) 情報処理装置およびその方法、プログラムを格納した記憶媒体
JP3143909B2 (ja) ファイル処理装置
CN113626637A (zh) 视频数据筛选法、装置、计算机设备和存储介质
JPS61182132A (ja) 情報検索方式
JPH07325888A (ja) 辞書登録方法,文字認識方法及び文字認識装置
JPH042198B2 (ja)
JPS61272888A (ja) 単語認識方式
JPH044633B2 (ja)
CN115983865A (zh) 基于语音识别的业务导航方法、装置、设备及存储介质
JPS63138479A (ja) 文字認識装置
JP2725454B2 (ja) 文字コード知識処理方式
JPH04199274A (ja) ファイリングシステム