JPH0454270B2 - - Google Patents

Info

Publication number
JPH0454270B2
JPH0454270B2 JP58108112A JP10811283A JPH0454270B2 JP H0454270 B2 JPH0454270 B2 JP H0454270B2 JP 58108112 A JP58108112 A JP 58108112A JP 10811283 A JP10811283 A JP 10811283A JP H0454270 B2 JPH0454270 B2 JP H0454270B2
Authority
JP
Japan
Prior art keywords
word
words
recognition
data string
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58108112A
Other languages
English (en)
Other versions
JPS60584A (ja
Inventor
Yoshiaki Kurosawa
Yoshikatsu Nakamura
Masato Suda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP58108112A priority Critical patent/JPS60584A/ja
Publication of JPS60584A publication Critical patent/JPS60584A/ja
Publication of JPH0454270B2 publication Critical patent/JPH0454270B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は例えば住所表示のような階層構造を有
する入力単語データ列を、そのデータ構造に基づ
いて簡易に、且つ効果的に認識することのできる
単語認識方式に関する。
〔発明の技術的背景とその問題点〕
情報処理技術の発展に伴い、印刷または手書さ
れた文字列からなる単語データ列や、音声入力さ
れた文字列からなるデータ列をそれぞれ認識し、
計算機システムに取込んで各種の情報処理に利用
することが行われている。この場合、基本的には
上記単語データを構成する各文字の特徴からその
文字を認識して行われるが、これらの認識文字列
が有意な単語を為すか否かが別の問題として残
り、単語認識の不十分さを招いている。例えば、
入力文字中の或る文字についての認識結果が得ら
れなかつた場合、その単語データの全体の認識結
果が得られなくなることがある。
そこで従来では、例えば特願昭56−138163号等
に提唱されるように、個々の文字認識結果によつ
て示される候補単語の各文字と、単語辞書に登録
された単語の各文字との類似度を求め、これらの
類似度の情報を総合して前記候補単語を認識する
ことが行われている。これによつて、単語を構成
する或る文字の認識結果が部分的に得られない場
合であつても、その単語を相当高い確率で認識す
ることができるようになつてきた。
ところで認識処理に供せられる文字列は、一般
に単語単位で与えられるよりも、むしろ住所表示
のように或るまとまりを持つ単語データ列として
与えられることが多い。これにも拘らず従来で
は、入力された文字列を単語単位で認識している
ので、その認識処理効率が非常に悪かつた。しか
も、上記住所表示の如き単語データ列は、その階
層構造によつて示されるように、階層間の単個毎
に互いに関連性を有しているが、従来このような
関連性を利用していないのが実情である。これ
故、或る階層の単語についての認識結果が得られ
なかつた場合、その単語データ列全体に対する認
識が行えないと云う不具合があつた。
〔発明の目的〕
本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、階層構造を有す
る入力単語データ列をその階層構造を有効に利用
して簡易に且つ効率良く認識することのできる単
語認識方式を提供することにある。
〔発明の概要〕
本発明は、階層構造を有する単語データ列の各
単語をその階層構造に従つて順に認識処理して各
単語の認識結果を得るに際して、或る階層で単語
認識結果が得られなかつたとき、 (a) 上位階層の単語認識処理で求められた複数の
候補単語によつてそれぞれ特定される下位階層
の単語辞書フアイルを用いて下位階層の単語に
対する認識処理を行う組合せ処理、 (b) 上位階層での単語認識処理を省略し、下位階
層の単語辞書フアイルの全てを用いて下位階層
の単語に対する認識処理を行う省略回復処理、 (c) 上位階層での認識処理で求められた候補単語
の類似度と、下位階層での認識処理で求められ
た候補単語の類似度とを結合した情報に従つて
上記上位および下位階層の単語をそれぞれ認識
処理する統合処理、 (d) 上位階層で求められた候補単語と下位階層で
求められた候補単語とを結合し、この結合候補
単語について単語辞書フアイルを用いて認識処
理する結合処理、 (e) 入力単語データ列を階層別の単語に分離し、
これらの単語毎にそれぞれ独立に認識処理した
結果を統合して認識結果を得る分離処理のうち
の少なくとも1つを用いて前記入力単語データ
列に対する認識再試行処理を行うようにしたも
のである。
〔発明の効果〕
かくして本発明によれば、入力単語データ例の
或る階層の単語に対する認識結果が得られなかつ
た場合でも、その階層構造を利用した組合せ処
理、省略回復処理、統合処理、結合処理、あるい
は分離処理の少なくとも1つを用いて、その認識
再試行処理が行われるので、入力単語データ列の
階層構造を為す単語間の関係から、上記単語デー
タ列を効果的に認識することが可能となる。従つ
て、住所表示等を示す単語データ列を効果的に認
識することができ、その実用的利点は絶大であ
る。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例方式に
つき説明する。
第1図は実施例方式を適用して構成される認識
装置の基本構成図であり、1は認識処理に供され
る文字列、つまり単語データが記載された帳票で
ある。この帳票に記載された文字列が光電変換部
2を介して読取り入力される。しかして、この入
力単語データ列は、前処理部3を介して文字認識
部4に与えられ、上記単語データ列を構成する文
字毎にそれぞれ文字認識される。そして、これら
の文字認識結果の組として候補単語が求められて
いる。単語認識部5は、このようにして求められ
た前記単語データ列を構成する各候補単語につい
て、単語辞書6にフアイルとして予め登録された
辞書単語との照合を行い、その認識結果を得てい
る。即ち、単語認識部5は第2図に示すように候
補単語を格納する単語情報バツフア7、単語辞書
6に登録された単語と上記候補単語との類似度を
計算する単語類似度計算部8およばその計算処理
を制御するコントローラ9によつて構成される。
そして、システム制御部10の制御を受けて、前
記単語データ列を構成する候補単語毎に、上記類
似度を算出して単語認識を行うものとなつてい
る。
ところで今、帳票1から読取られた単語データ
列が、例えば第3図に示すように「東京都大田区
雪谷大塚」からなる住所表示を示すものであつた
とする。この場合、この単語データ列を文字認識
することにより、各文字認識結果で示される候補
単語を複数の階層の「東京都」「大田区」「雪谷大
塚」にそれぞれ対応して得ることができる。尚、
これらの候補単語の階層の区切りは、入力単語デ
ータ列の各階層単語を構成する文字列の間隔等が
検出することができる。また文字列が一様に並ん
でいる場合等には、有意な単語を為し得る文字列
毎に区切るようにしても良い。そして、単語デー
タ列と同じ長さの文字列となる上記有意な単語を
為す文字列の組を抽出し、これらの各文字列をそ
れぞれの階層に対応した候補単語とすればよい。
一方、単語辞書6は、処理対象とする単語デー
タ列の階層構造に対応した単語辞書フアイルを構
成しており、例えば第4図に示すような、都道府
県名をカテゴリとする単語を登録した第1フアイ
ル、区市郡名をカテゴリとする単語を登録した第
2フアイル、そして町名をカテゴリとする単語を
登録した第3フアイルを有している。これらの第
1乃至第3フアイルは階層構造を為すもので、上
位フアイルの単語によつて下位フアイルがポイン
タによつて繋がれている。つまり、階層間の単語
の関連性に応じて、各フアイルの単語が階層化
(木構造化)されている。従つて今、第1フアイ
ルにおいて「東京都」が認識決定されたとき、そ
の単語の「東京都」に付されたポインタによつ
て、第2フアイル中の「東京都」に項を示すもの
が特定されるようになつている。そして、同様に
して「東京都」の項を示す第2フアイル中で「大
田区」なる単語が認識されたとき、この単語「大
田区」に付されたポインタによつてその「大田
区」の町名を登録した第3フアイルが特定される
ようになつている。このように単語辞書6は、入
力処理対象とする単語データ列に対応した階層構
造を有しており、各階層間の単語はポインタによ
つて関連付けられている。
しかして本方式によれば、先ず入力単語データ
列の各階層に対応して求められた候補単語毎に、
その上位階層から順に単語認識が行われる。従つ
て、この例では、「東京都」に対応した候補単語
と第1フアイルの各辞書単語との類似度が計算さ
れ、それらの類似度の情報に従つて「東京都」な
る単語が認識される。しかるのち、この認識され
た「東京都」なる単語に付されたポインタによつ
て、「東京都」に関連する第2のフアイルが選択
される。そして、この選択された第2フアイルの
辞書単語と、第2階層の「大田区」に対応した候
補単語との類似度がそれぞれ算出され、これらの
類似度の情報に従つて「大田区」なる単語が認識
される。その後、この「大田区」なる単語に付さ
れたポインタによつて第3フアイルが選択され、
同様にして「雪谷大塚」なる単語が類似度の情報
に従つて算出される。これにより、「東京都」「大
田区」「雪谷大塚」からなる階層構造を持つ単語
データ列の認識結果が求められることになる。
ところが、このような認識処理過程において、
或る階層で単語認識結果が得られなかつた場合に
は、それ以降の階層での単語認識ができなくな
る。例えば、入力単語データ列から「東京都」な
る単語が省略されている場合や、「東京都」なる
単語を正しく認識できなかつた場合等、認識処理
ができなくなる。この場合本実施例方式にあつて
は、次のようにして認識再試行処理が行われる。
この認識再試行処理は、以下に説明する組合せ処
理、省略回復処理、統合処理、結合処理、分離処
理のうちの少なくとも1つを用いて行われる。
上記組合せ処理は、上位階層の単語認識におい
て、「東京都」以外の「京都府」「大阪府」等の複
数の候補単語が選ばれており、その第1候補の単
語によつて選択された第2フアイルでの単語認識
が失敗したとき等に実行されるものである。この
場合、第5図にその処理手順を示すように、第2
候補および第3候補の単語によつて特定される下
位の単語辞書フアイルについても単語認識を行わ
しめるものである。従つて今、第1候補の「京都
府」に対応した第2フアイルによる単語認識が失
敗したとしても、第2候補の「東京都」に対応し
た第2フアイルによる単語認識によつて「大田
区」を認識することが可能となる。この結果を利
用して上位階層の候補単語の順位を入替えれば、
これによつて各階層間の関連性を持たせることが
でき、ここに単語データ列の認識結果を得ること
が可能となる。つまり、上位階層で求められた候
補単語によつて特定される下位階層の辞書フアイ
ルを用いて、下位階層の候補単語に対する認識処
理を行わせ、その認識結果を上位階層の単語認識
処理に反映させることが可能となる。
また省略回復処理は、上位階層の候補単語が存
在しないとき、或いは上位階層の単語を示す文字
列が入力されなかつたときに行われるもので、上
位階層の単語が省略されていると看做して下位階
層の単語認識を行う。この場合、第1フアイルに
登録された単語に付されたポインタによつて示さ
れる全ての第2フアイルを用いて第6図にその処
理手順を示すように下位階層の認識処理を行う。
この処理を行うことによつて、「東京都」なる単
語が入力文字列から省略されている場合、および
上記「東京都」なる単語の認識が不可能な場合で
あつても「大田区」なる下位階層の単語から認識
することが可能となる。
また統合処理は、上位階層での単語認識に失敗
したときに行われる。この場合、第7図にその処
理手順を示すように、先ずその上位階層の辞書フ
アイルの単語と入力候補単語との類似度S1を求
め、更に上記単語に付されたポインタによつて示
される下位の階層の辞書フアイルの単語とその下
位階層の入力候補単語との類似度S2とを求める。
そして、これらの類似度S1,S2が、それぞれ所定
の閾値T1,T2を越えるとき、その類似度の情報
S(=S1+S2)と共に、これを得た単語の組を登
録する。これを第1フアイルおよび第2フアイル
に登録された単語のポインタによつて繋がれた有
効な組合せの全てについて行う。そして、前記単
語の組を、上記類似度の情報Sに従つてソート処
理し、その最大値を得るものを認識結果として求
める。この統合処理によれば、個々の階層でそれ
ぞれ低い類似度しか得られなかつた単語であつて
も、階層構造を為す単語の組として高い類似度の
情報Sを得ることができ、この結果2つの階層に
またがる単語の組を相互に関連させて同時に認識
することが可能となる。つまり「東京都」なる候
補単語の認識処理で求められた類似度S1と、「大
田区」なる候補単語の認識処理で求められた類似
度S2との情報を統合し、その階層間での単語の関
連性を利用して、その単語がそれぞれ認識され
る。
また結合処理は、例えば単語データ列の階層化
処理において、「雪谷大塚」なる単語が「雪谷」
と「大塚」とからなる2つの単語に分解されたと
きに用いられるもので、このままでは「雪谷」な
る単語認識に失敗し、且つ「大塚」なる単語認識
の処理対象が失われてしまう。このような場合、
第8図に処理手順を示すように、上記階層化され
た2つの単語を結合し、これを1つの階層の単語
として認識処理する。これにより、1つの階層を
為す「雪谷大塚」なる単語が正しく認識処理に供
せられることになる。
また分離処理は、入力単語データ列の階層化に
おいて、例えば2つの階層にまたがる単語が「東
京都大田区」の如く結合されている場合、これを
分離してそれぞれの階層での認識処理を行わせる
ものである。この場合の処理手順は第9図の何く
示され、上記結合された候補単語を前半部と後半
部とに分けて行われる。これによつて、各階層別
に正しく単語認識が行われることになる。
本方式は以上の処理の少なくとも1つを認識再
試行処理として行わせるものであり、例えば「組
合せ処理」と「統合処理」と「結合処理」とを採
用する場合、第10図に示すようにして行われ
る。
即ち、通常の認識処理が失敗したとき、上位階
層での候補単語を調べ、その候補数に応じて、組
合せ処理、統合処理、結合処理を選択的に行わせ
るようにすればよい。そして、その階層での処理
で認識結果が得られない場合には、次の階層にお
いて同様な再試行処理を行わせるようにすればよ
い。このようにすれば、入力単語データ列の或る
階層で認識結果が得られなかつた場合であつて
も、他の階層の単語との繋がり関係、つまり関連
性を利用して入力単語データ列の各階層の単語を
それぞれ効果的に認識することか可能となる。
尚、本発明は上記実施例に限定されるものでは
ない。例えば入力単語データ列の階層化処理は、
従来知られた種々の方式を採用することができ
る。また再試行処理に用いられる前述した処理の
組合せ等は仕様に応じて定めればよい。更に単語
に対する類似度の算出法も限定されない。また郵
便番号を単語のデータの一部として利用すること
も勿論可能である。要するに本発明はその要旨を
逸脱しない範囲で種々変形して実施することがで
きる。
【図面の簡単な説明】
図は本発明の一実施例を示すもので、第1図は
単語認識装置の基本構成図、第2図は単語認識部
の構成図、第3図は入力単語データ列の階層構造
を示す図、第4図は階層構造化された単語辞書の
構成を示す図、第5図は組合せ処理の手順を示す
図、第6図は省略回復処理の手順を示す図、第7
図は統合処理の手順を示す図、第8図は結合処理
の手順を示す図、第9図は分離処理の手順を示す
図、第10図は認識再試行処理の手順を示す図で
ある。 4……文字認識部、5……単語認識部、6……
単語辞書、7……単語情報バツフア、8……単語
類似度計算部。

Claims (1)

  1. 【特許請求の範囲】 1 階層構造を有する入力単語データ列の各単語
    を構成する文字をそれぞれ認識し、これらの文字
    認識結果で示される各階層の候補単語と上記階層
    構造に対応した単語辞書フアイルにぞれぞれ登録
    された辞書単語との類似度を求め、これらの類似
    度の情報に従つて前記各階層毎に前記入力単語デ
    ータ列を構成する各単語の認識結果を上位階層か
    ら順に得て前記入力単語データ列を認識するに際
    し、 (a) 前記入力単語データ列の上位階層の単語につ
    いて上位階層の単語辞書フアイルを用いて求め
    られた複数の候補単語によつてそれぞれ特定さ
    れる下位階層の単語辞書フアイルを用いて前記
    入力単語データ列の下位階層の単語に対する認
    識処理を行う組み合わせ処理、 (b) 上位階層の単語辞書フアイルを用いた認識処
    理を省略し、下位階層の単語辞書フアイルの全
    てを用いて前記入力単語データ列の下位階層の
    単語に対する認識処理を行う省略回復処理、 (c) 上位階層の単語辞書フアイルを用いて求めら
    れる上位階層の候補単語の類似度、および下位
    階層の単語辞書フアイルを用いて求められる下
    位階層の候補単語の類似度を結合した情報に従
    つて上記上位および下位階層の単語に対する認
    識処理を行う統合処理、 (d) 上位階層の候補単語と下位階層の候補単語と
    を結合し、この結合候補単語について単語辞書
    フアイルを用いて認識処理を行う結合処理、 (e) 入力単語データ列を複数の単語に分離し、こ
    れらの単語毎にそれぞれ独立に認識処理したの
    ち、各単語の認識結果を統合して前記入力単語
    データ列の認識結果を求める分離処理、 のうちの少なくとも1つを用いて前記入力単語デ
    ータ列の認識処理を行うことを特徴とする単語認
    識方式。
JP58108112A 1983-06-16 1983-06-16 単語認識方式 Granted JPS60584A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58108112A JPS60584A (ja) 1983-06-16 1983-06-16 単語認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58108112A JPS60584A (ja) 1983-06-16 1983-06-16 単語認識方式

Publications (2)

Publication Number Publication Date
JPS60584A JPS60584A (ja) 1985-01-05
JPH0454270B2 true JPH0454270B2 (ja) 1992-08-28

Family

ID=14476197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58108112A Granted JPS60584A (ja) 1983-06-16 1983-06-16 単語認識方式

Country Status (1)

Country Link
JP (1) JPS60584A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61272888A (ja) * 1985-05-28 1986-12-03 Toshiba Corp 単語認識方式
JPS647277A (en) * 1987-06-30 1989-01-11 Toshiba Corp Character reader
JPH07113957B2 (ja) * 1988-01-04 1995-12-06 沖電気工業株式会社 文字認識方法
JP2577911Y2 (ja) * 1991-12-11 1998-08-06 エヌオーケー株式会社 圧力容器のガス封止作業装置

Also Published As

Publication number Publication date
JPS60584A (ja) 1985-01-05

Similar Documents

Publication Publication Date Title
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
WO2008032780A1 (fr) Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci
US20200183954A1 (en) Efficiently finding potential duplicate values in data
JP2693914B2 (ja) 検索システム
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
JPH0454270B2 (ja)
JP3514874B2 (ja) フリーテキスト検索システム
JPH0520794B2 (ja)
CN110378378B (zh) 事件检索方法、装置、计算机设备及存储介质
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP2560656B2 (ja) 文書ファイリングシステム
JPH0795337B2 (ja) 単語認識方式
JPH0529950B2 (ja)
JPS63138479A (ja) 文字認識装置
JP2680311B2 (ja) 文字認識方式
CN118155231A (zh) 文档的识别方法、装置、设备、介质及产品
JPH0816729A (ja) 文字認識後処理方式
JPS60225273A (ja) 単語検索方式
JPS61107486A (ja) 文字認識後処理方式
JPS61182132A (ja) 情報検索方式
JP2757769B2 (ja) 自動索引作成装置
JPS62175863A (ja) 帳票処理装置
JP2880387B2 (ja) Ocr住所処理装置
JPH0576675B2 (ja)
JPS61272888A (ja) 単語認識方式