JPH0454270B2 - - Google Patents
Info
- Publication number
- JPH0454270B2 JPH0454270B2 JP58108112A JP10811283A JPH0454270B2 JP H0454270 B2 JPH0454270 B2 JP H0454270B2 JP 58108112 A JP58108112 A JP 58108112A JP 10811283 A JP10811283 A JP 10811283A JP H0454270 B2 JPH0454270 B2 JP H0454270B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- recognition
- data string
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 47
- 238000000926 separation method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 12
- 230000010354 integration Effects 0.000 description 6
- 238000011084 recovery Methods 0.000 description 6
- 230000010365 information processing Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Description
【発明の詳細な説明】
〔発明の技術分野〕
本発明は例えば住所表示のような階層構造を有
する入力単語データ列を、そのデータ構造に基づ
いて簡易に、且つ効果的に認識することのできる
単語認識方式に関する。
する入力単語データ列を、そのデータ構造に基づ
いて簡易に、且つ効果的に認識することのできる
単語認識方式に関する。
情報処理技術の発展に伴い、印刷または手書さ
れた文字列からなる単語データ列や、音声入力さ
れた文字列からなるデータ列をそれぞれ認識し、
計算機システムに取込んで各種の情報処理に利用
することが行われている。この場合、基本的には
上記単語データを構成する各文字の特徴からその
文字を認識して行われるが、これらの認識文字列
が有意な単語を為すか否かが別の問題として残
り、単語認識の不十分さを招いている。例えば、
入力文字中の或る文字についての認識結果が得ら
れなかつた場合、その単語データの全体の認識結
果が得られなくなることがある。
れた文字列からなる単語データ列や、音声入力さ
れた文字列からなるデータ列をそれぞれ認識し、
計算機システムに取込んで各種の情報処理に利用
することが行われている。この場合、基本的には
上記単語データを構成する各文字の特徴からその
文字を認識して行われるが、これらの認識文字列
が有意な単語を為すか否かが別の問題として残
り、単語認識の不十分さを招いている。例えば、
入力文字中の或る文字についての認識結果が得ら
れなかつた場合、その単語データの全体の認識結
果が得られなくなることがある。
そこで従来では、例えば特願昭56−138163号等
に提唱されるように、個々の文字認識結果によつ
て示される候補単語の各文字と、単語辞書に登録
された単語の各文字との類似度を求め、これらの
類似度の情報を総合して前記候補単語を認識する
ことが行われている。これによつて、単語を構成
する或る文字の認識結果が部分的に得られない場
合であつても、その単語を相当高い確率で認識す
ることができるようになつてきた。
に提唱されるように、個々の文字認識結果によつ
て示される候補単語の各文字と、単語辞書に登録
された単語の各文字との類似度を求め、これらの
類似度の情報を総合して前記候補単語を認識する
ことが行われている。これによつて、単語を構成
する或る文字の認識結果が部分的に得られない場
合であつても、その単語を相当高い確率で認識す
ることができるようになつてきた。
ところで認識処理に供せられる文字列は、一般
に単語単位で与えられるよりも、むしろ住所表示
のように或るまとまりを持つ単語データ列として
与えられることが多い。これにも拘らず従来で
は、入力された文字列を単語単位で認識している
ので、その認識処理効率が非常に悪かつた。しか
も、上記住所表示の如き単語データ列は、その階
層構造によつて示されるように、階層間の単個毎
に互いに関連性を有しているが、従来このような
関連性を利用していないのが実情である。これ
故、或る階層の単語についての認識結果が得られ
なかつた場合、その単語データ列全体に対する認
識が行えないと云う不具合があつた。
に単語単位で与えられるよりも、むしろ住所表示
のように或るまとまりを持つ単語データ列として
与えられることが多い。これにも拘らず従来で
は、入力された文字列を単語単位で認識している
ので、その認識処理効率が非常に悪かつた。しか
も、上記住所表示の如き単語データ列は、その階
層構造によつて示されるように、階層間の単個毎
に互いに関連性を有しているが、従来このような
関連性を利用していないのが実情である。これ
故、或る階層の単語についての認識結果が得られ
なかつた場合、その単語データ列全体に対する認
識が行えないと云う不具合があつた。
本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、階層構造を有す
る入力単語データ列をその階層構造を有効に利用
して簡易に且つ効率良く認識することのできる単
語認識方式を提供することにある。
ので、その目的とするところは、階層構造を有す
る入力単語データ列をその階層構造を有効に利用
して簡易に且つ効率良く認識することのできる単
語認識方式を提供することにある。
本発明は、階層構造を有する単語データ列の各
単語をその階層構造に従つて順に認識処理して各
単語の認識結果を得るに際して、或る階層で単語
認識結果が得られなかつたとき、 (a) 上位階層の単語認識処理で求められた複数の
候補単語によつてそれぞれ特定される下位階層
の単語辞書フアイルを用いて下位階層の単語に
対する認識処理を行う組合せ処理、 (b) 上位階層での単語認識処理を省略し、下位階
層の単語辞書フアイルの全てを用いて下位階層
の単語に対する認識処理を行う省略回復処理、 (c) 上位階層での認識処理で求められた候補単語
の類似度と、下位階層での認識処理で求められ
た候補単語の類似度とを結合した情報に従つて
上記上位および下位階層の単語をそれぞれ認識
処理する統合処理、 (d) 上位階層で求められた候補単語と下位階層で
求められた候補単語とを結合し、この結合候補
単語について単語辞書フアイルを用いて認識処
理する結合処理、 (e) 入力単語データ列を階層別の単語に分離し、
これらの単語毎にそれぞれ独立に認識処理した
結果を統合して認識結果を得る分離処理のうち
の少なくとも1つを用いて前記入力単語データ
列に対する認識再試行処理を行うようにしたも
のである。
単語をその階層構造に従つて順に認識処理して各
単語の認識結果を得るに際して、或る階層で単語
認識結果が得られなかつたとき、 (a) 上位階層の単語認識処理で求められた複数の
候補単語によつてそれぞれ特定される下位階層
の単語辞書フアイルを用いて下位階層の単語に
対する認識処理を行う組合せ処理、 (b) 上位階層での単語認識処理を省略し、下位階
層の単語辞書フアイルの全てを用いて下位階層
の単語に対する認識処理を行う省略回復処理、 (c) 上位階層での認識処理で求められた候補単語
の類似度と、下位階層での認識処理で求められ
た候補単語の類似度とを結合した情報に従つて
上記上位および下位階層の単語をそれぞれ認識
処理する統合処理、 (d) 上位階層で求められた候補単語と下位階層で
求められた候補単語とを結合し、この結合候補
単語について単語辞書フアイルを用いて認識処
理する結合処理、 (e) 入力単語データ列を階層別の単語に分離し、
これらの単語毎にそれぞれ独立に認識処理した
結果を統合して認識結果を得る分離処理のうち
の少なくとも1つを用いて前記入力単語データ
列に対する認識再試行処理を行うようにしたも
のである。
かくして本発明によれば、入力単語データ例の
或る階層の単語に対する認識結果が得られなかつ
た場合でも、その階層構造を利用した組合せ処
理、省略回復処理、統合処理、結合処理、あるい
は分離処理の少なくとも1つを用いて、その認識
再試行処理が行われるので、入力単語データ列の
階層構造を為す単語間の関係から、上記単語デー
タ列を効果的に認識することが可能となる。従つ
て、住所表示等を示す単語データ列を効果的に認
識することができ、その実用的利点は絶大であ
る。
或る階層の単語に対する認識結果が得られなかつ
た場合でも、その階層構造を利用した組合せ処
理、省略回復処理、統合処理、結合処理、あるい
は分離処理の少なくとも1つを用いて、その認識
再試行処理が行われるので、入力単語データ列の
階層構造を為す単語間の関係から、上記単語デー
タ列を効果的に認識することが可能となる。従つ
て、住所表示等を示す単語データ列を効果的に認
識することができ、その実用的利点は絶大であ
る。
以下、図面を参照して本発明の一実施例方式に
つき説明する。
つき説明する。
第1図は実施例方式を適用して構成される認識
装置の基本構成図であり、1は認識処理に供され
る文字列、つまり単語データが記載された帳票で
ある。この帳票に記載された文字列が光電変換部
2を介して読取り入力される。しかして、この入
力単語データ列は、前処理部3を介して文字認識
部4に与えられ、上記単語データ列を構成する文
字毎にそれぞれ文字認識される。そして、これら
の文字認識結果の組として候補単語が求められて
いる。単語認識部5は、このようにして求められ
た前記単語データ列を構成する各候補単語につい
て、単語辞書6にフアイルとして予め登録された
辞書単語との照合を行い、その認識結果を得てい
る。即ち、単語認識部5は第2図に示すように候
補単語を格納する単語情報バツフア7、単語辞書
6に登録された単語と上記候補単語との類似度を
計算する単語類似度計算部8およばその計算処理
を制御するコントローラ9によつて構成される。
そして、システム制御部10の制御を受けて、前
記単語データ列を構成する候補単語毎に、上記類
似度を算出して単語認識を行うものとなつてい
る。
装置の基本構成図であり、1は認識処理に供され
る文字列、つまり単語データが記載された帳票で
ある。この帳票に記載された文字列が光電変換部
2を介して読取り入力される。しかして、この入
力単語データ列は、前処理部3を介して文字認識
部4に与えられ、上記単語データ列を構成する文
字毎にそれぞれ文字認識される。そして、これら
の文字認識結果の組として候補単語が求められて
いる。単語認識部5は、このようにして求められ
た前記単語データ列を構成する各候補単語につい
て、単語辞書6にフアイルとして予め登録された
辞書単語との照合を行い、その認識結果を得てい
る。即ち、単語認識部5は第2図に示すように候
補単語を格納する単語情報バツフア7、単語辞書
6に登録された単語と上記候補単語との類似度を
計算する単語類似度計算部8およばその計算処理
を制御するコントローラ9によつて構成される。
そして、システム制御部10の制御を受けて、前
記単語データ列を構成する候補単語毎に、上記類
似度を算出して単語認識を行うものとなつてい
る。
ところで今、帳票1から読取られた単語データ
列が、例えば第3図に示すように「東京都大田区
雪谷大塚」からなる住所表示を示すものであつた
とする。この場合、この単語データ列を文字認識
することにより、各文字認識結果で示される候補
単語を複数の階層の「東京都」「大田区」「雪谷大
塚」にそれぞれ対応して得ることができる。尚、
これらの候補単語の階層の区切りは、入力単語デ
ータ列の各階層単語を構成する文字列の間隔等が
検出することができる。また文字列が一様に並ん
でいる場合等には、有意な単語を為し得る文字列
毎に区切るようにしても良い。そして、単語デー
タ列と同じ長さの文字列となる上記有意な単語を
為す文字列の組を抽出し、これらの各文字列をそ
れぞれの階層に対応した候補単語とすればよい。
列が、例えば第3図に示すように「東京都大田区
雪谷大塚」からなる住所表示を示すものであつた
とする。この場合、この単語データ列を文字認識
することにより、各文字認識結果で示される候補
単語を複数の階層の「東京都」「大田区」「雪谷大
塚」にそれぞれ対応して得ることができる。尚、
これらの候補単語の階層の区切りは、入力単語デ
ータ列の各階層単語を構成する文字列の間隔等が
検出することができる。また文字列が一様に並ん
でいる場合等には、有意な単語を為し得る文字列
毎に区切るようにしても良い。そして、単語デー
タ列と同じ長さの文字列となる上記有意な単語を
為す文字列の組を抽出し、これらの各文字列をそ
れぞれの階層に対応した候補単語とすればよい。
一方、単語辞書6は、処理対象とする単語デー
タ列の階層構造に対応した単語辞書フアイルを構
成しており、例えば第4図に示すような、都道府
県名をカテゴリとする単語を登録した第1フアイ
ル、区市郡名をカテゴリとする単語を登録した第
2フアイル、そして町名をカテゴリとする単語を
登録した第3フアイルを有している。これらの第
1乃至第3フアイルは階層構造を為すもので、上
位フアイルの単語によつて下位フアイルがポイン
タによつて繋がれている。つまり、階層間の単語
の関連性に応じて、各フアイルの単語が階層化
(木構造化)されている。従つて今、第1フアイ
ルにおいて「東京都」が認識決定されたとき、そ
の単語の「東京都」に付されたポインタによつ
て、第2フアイル中の「東京都」に項を示すもの
が特定されるようになつている。そして、同様に
して「東京都」の項を示す第2フアイル中で「大
田区」なる単語が認識されたとき、この単語「大
田区」に付されたポインタによつてその「大田
区」の町名を登録した第3フアイルが特定される
ようになつている。このように単語辞書6は、入
力処理対象とする単語データ列に対応した階層構
造を有しており、各階層間の単語はポインタによ
つて関連付けられている。
タ列の階層構造に対応した単語辞書フアイルを構
成しており、例えば第4図に示すような、都道府
県名をカテゴリとする単語を登録した第1フアイ
ル、区市郡名をカテゴリとする単語を登録した第
2フアイル、そして町名をカテゴリとする単語を
登録した第3フアイルを有している。これらの第
1乃至第3フアイルは階層構造を為すもので、上
位フアイルの単語によつて下位フアイルがポイン
タによつて繋がれている。つまり、階層間の単語
の関連性に応じて、各フアイルの単語が階層化
(木構造化)されている。従つて今、第1フアイ
ルにおいて「東京都」が認識決定されたとき、そ
の単語の「東京都」に付されたポインタによつ
て、第2フアイル中の「東京都」に項を示すもの
が特定されるようになつている。そして、同様に
して「東京都」の項を示す第2フアイル中で「大
田区」なる単語が認識されたとき、この単語「大
田区」に付されたポインタによつてその「大田
区」の町名を登録した第3フアイルが特定される
ようになつている。このように単語辞書6は、入
力処理対象とする単語データ列に対応した階層構
造を有しており、各階層間の単語はポインタによ
つて関連付けられている。
しかして本方式によれば、先ず入力単語データ
列の各階層に対応して求められた候補単語毎に、
その上位階層から順に単語認識が行われる。従つ
て、この例では、「東京都」に対応した候補単語
と第1フアイルの各辞書単語との類似度が計算さ
れ、それらの類似度の情報に従つて「東京都」な
る単語が認識される。しかるのち、この認識され
た「東京都」なる単語に付されたポインタによつ
て、「東京都」に関連する第2のフアイルが選択
される。そして、この選択された第2フアイルの
辞書単語と、第2階層の「大田区」に対応した候
補単語との類似度がそれぞれ算出され、これらの
類似度の情報に従つて「大田区」なる単語が認識
される。その後、この「大田区」なる単語に付さ
れたポインタによつて第3フアイルが選択され、
同様にして「雪谷大塚」なる単語が類似度の情報
に従つて算出される。これにより、「東京都」「大
田区」「雪谷大塚」からなる階層構造を持つ単語
データ列の認識結果が求められることになる。
列の各階層に対応して求められた候補単語毎に、
その上位階層から順に単語認識が行われる。従つ
て、この例では、「東京都」に対応した候補単語
と第1フアイルの各辞書単語との類似度が計算さ
れ、それらの類似度の情報に従つて「東京都」な
る単語が認識される。しかるのち、この認識され
た「東京都」なる単語に付されたポインタによつ
て、「東京都」に関連する第2のフアイルが選択
される。そして、この選択された第2フアイルの
辞書単語と、第2階層の「大田区」に対応した候
補単語との類似度がそれぞれ算出され、これらの
類似度の情報に従つて「大田区」なる単語が認識
される。その後、この「大田区」なる単語に付さ
れたポインタによつて第3フアイルが選択され、
同様にして「雪谷大塚」なる単語が類似度の情報
に従つて算出される。これにより、「東京都」「大
田区」「雪谷大塚」からなる階層構造を持つ単語
データ列の認識結果が求められることになる。
ところが、このような認識処理過程において、
或る階層で単語認識結果が得られなかつた場合に
は、それ以降の階層での単語認識ができなくな
る。例えば、入力単語データ列から「東京都」な
る単語が省略されている場合や、「東京都」なる
単語を正しく認識できなかつた場合等、認識処理
ができなくなる。この場合本実施例方式にあつて
は、次のようにして認識再試行処理が行われる。
この認識再試行処理は、以下に説明する組合せ処
理、省略回復処理、統合処理、結合処理、分離処
理のうちの少なくとも1つを用いて行われる。
或る階層で単語認識結果が得られなかつた場合に
は、それ以降の階層での単語認識ができなくな
る。例えば、入力単語データ列から「東京都」な
る単語が省略されている場合や、「東京都」なる
単語を正しく認識できなかつた場合等、認識処理
ができなくなる。この場合本実施例方式にあつて
は、次のようにして認識再試行処理が行われる。
この認識再試行処理は、以下に説明する組合せ処
理、省略回復処理、統合処理、結合処理、分離処
理のうちの少なくとも1つを用いて行われる。
上記組合せ処理は、上位階層の単語認識におい
て、「東京都」以外の「京都府」「大阪府」等の複
数の候補単語が選ばれており、その第1候補の単
語によつて選択された第2フアイルでの単語認識
が失敗したとき等に実行されるものである。この
場合、第5図にその処理手順を示すように、第2
候補および第3候補の単語によつて特定される下
位の単語辞書フアイルについても単語認識を行わ
しめるものである。従つて今、第1候補の「京都
府」に対応した第2フアイルによる単語認識が失
敗したとしても、第2候補の「東京都」に対応し
た第2フアイルによる単語認識によつて「大田
区」を認識することが可能となる。この結果を利
用して上位階層の候補単語の順位を入替えれば、
これによつて各階層間の関連性を持たせることが
でき、ここに単語データ列の認識結果を得ること
が可能となる。つまり、上位階層で求められた候
補単語によつて特定される下位階層の辞書フアイ
ルを用いて、下位階層の候補単語に対する認識処
理を行わせ、その認識結果を上位階層の単語認識
処理に反映させることが可能となる。
て、「東京都」以外の「京都府」「大阪府」等の複
数の候補単語が選ばれており、その第1候補の単
語によつて選択された第2フアイルでの単語認識
が失敗したとき等に実行されるものである。この
場合、第5図にその処理手順を示すように、第2
候補および第3候補の単語によつて特定される下
位の単語辞書フアイルについても単語認識を行わ
しめるものである。従つて今、第1候補の「京都
府」に対応した第2フアイルによる単語認識が失
敗したとしても、第2候補の「東京都」に対応し
た第2フアイルによる単語認識によつて「大田
区」を認識することが可能となる。この結果を利
用して上位階層の候補単語の順位を入替えれば、
これによつて各階層間の関連性を持たせることが
でき、ここに単語データ列の認識結果を得ること
が可能となる。つまり、上位階層で求められた候
補単語によつて特定される下位階層の辞書フアイ
ルを用いて、下位階層の候補単語に対する認識処
理を行わせ、その認識結果を上位階層の単語認識
処理に反映させることが可能となる。
また省略回復処理は、上位階層の候補単語が存
在しないとき、或いは上位階層の単語を示す文字
列が入力されなかつたときに行われるもので、上
位階層の単語が省略されていると看做して下位階
層の単語認識を行う。この場合、第1フアイルに
登録された単語に付されたポインタによつて示さ
れる全ての第2フアイルを用いて第6図にその処
理手順を示すように下位階層の認識処理を行う。
この処理を行うことによつて、「東京都」なる単
語が入力文字列から省略されている場合、および
上記「東京都」なる単語の認識が不可能な場合で
あつても「大田区」なる下位階層の単語から認識
することが可能となる。
在しないとき、或いは上位階層の単語を示す文字
列が入力されなかつたときに行われるもので、上
位階層の単語が省略されていると看做して下位階
層の単語認識を行う。この場合、第1フアイルに
登録された単語に付されたポインタによつて示さ
れる全ての第2フアイルを用いて第6図にその処
理手順を示すように下位階層の認識処理を行う。
この処理を行うことによつて、「東京都」なる単
語が入力文字列から省略されている場合、および
上記「東京都」なる単語の認識が不可能な場合で
あつても「大田区」なる下位階層の単語から認識
することが可能となる。
また統合処理は、上位階層での単語認識に失敗
したときに行われる。この場合、第7図にその処
理手順を示すように、先ずその上位階層の辞書フ
アイルの単語と入力候補単語との類似度S1を求
め、更に上記単語に付されたポインタによつて示
される下位の階層の辞書フアイルの単語とその下
位階層の入力候補単語との類似度S2とを求める。
そして、これらの類似度S1,S2が、それぞれ所定
の閾値T1,T2を越えるとき、その類似度の情報
S(=S1+S2)と共に、これを得た単語の組を登
録する。これを第1フアイルおよび第2フアイル
に登録された単語のポインタによつて繋がれた有
効な組合せの全てについて行う。そして、前記単
語の組を、上記類似度の情報Sに従つてソート処
理し、その最大値を得るものを認識結果として求
める。この統合処理によれば、個々の階層でそれ
ぞれ低い類似度しか得られなかつた単語であつて
も、階層構造を為す単語の組として高い類似度の
情報Sを得ることができ、この結果2つの階層に
またがる単語の組を相互に関連させて同時に認識
することが可能となる。つまり「東京都」なる候
補単語の認識処理で求められた類似度S1と、「大
田区」なる候補単語の認識処理で求められた類似
度S2との情報を統合し、その階層間での単語の関
連性を利用して、その単語がそれぞれ認識され
る。
したときに行われる。この場合、第7図にその処
理手順を示すように、先ずその上位階層の辞書フ
アイルの単語と入力候補単語との類似度S1を求
め、更に上記単語に付されたポインタによつて示
される下位の階層の辞書フアイルの単語とその下
位階層の入力候補単語との類似度S2とを求める。
そして、これらの類似度S1,S2が、それぞれ所定
の閾値T1,T2を越えるとき、その類似度の情報
S(=S1+S2)と共に、これを得た単語の組を登
録する。これを第1フアイルおよび第2フアイル
に登録された単語のポインタによつて繋がれた有
効な組合せの全てについて行う。そして、前記単
語の組を、上記類似度の情報Sに従つてソート処
理し、その最大値を得るものを認識結果として求
める。この統合処理によれば、個々の階層でそれ
ぞれ低い類似度しか得られなかつた単語であつて
も、階層構造を為す単語の組として高い類似度の
情報Sを得ることができ、この結果2つの階層に
またがる単語の組を相互に関連させて同時に認識
することが可能となる。つまり「東京都」なる候
補単語の認識処理で求められた類似度S1と、「大
田区」なる候補単語の認識処理で求められた類似
度S2との情報を統合し、その階層間での単語の関
連性を利用して、その単語がそれぞれ認識され
る。
また結合処理は、例えば単語データ列の階層化
処理において、「雪谷大塚」なる単語が「雪谷」
と「大塚」とからなる2つの単語に分解されたと
きに用いられるもので、このままでは「雪谷」な
る単語認識に失敗し、且つ「大塚」なる単語認識
の処理対象が失われてしまう。このような場合、
第8図に処理手順を示すように、上記階層化され
た2つの単語を結合し、これを1つの階層の単語
として認識処理する。これにより、1つの階層を
為す「雪谷大塚」なる単語が正しく認識処理に供
せられることになる。
処理において、「雪谷大塚」なる単語が「雪谷」
と「大塚」とからなる2つの単語に分解されたと
きに用いられるもので、このままでは「雪谷」な
る単語認識に失敗し、且つ「大塚」なる単語認識
の処理対象が失われてしまう。このような場合、
第8図に処理手順を示すように、上記階層化され
た2つの単語を結合し、これを1つの階層の単語
として認識処理する。これにより、1つの階層を
為す「雪谷大塚」なる単語が正しく認識処理に供
せられることになる。
また分離処理は、入力単語データ列の階層化に
おいて、例えば2つの階層にまたがる単語が「東
京都大田区」の如く結合されている場合、これを
分離してそれぞれの階層での認識処理を行わせる
ものである。この場合の処理手順は第9図の何く
示され、上記結合された候補単語を前半部と後半
部とに分けて行われる。これによつて、各階層別
に正しく単語認識が行われることになる。
おいて、例えば2つの階層にまたがる単語が「東
京都大田区」の如く結合されている場合、これを
分離してそれぞれの階層での認識処理を行わせる
ものである。この場合の処理手順は第9図の何く
示され、上記結合された候補単語を前半部と後半
部とに分けて行われる。これによつて、各階層別
に正しく単語認識が行われることになる。
本方式は以上の処理の少なくとも1つを認識再
試行処理として行わせるものであり、例えば「組
合せ処理」と「統合処理」と「結合処理」とを採
用する場合、第10図に示すようにして行われ
る。
試行処理として行わせるものであり、例えば「組
合せ処理」と「統合処理」と「結合処理」とを採
用する場合、第10図に示すようにして行われ
る。
即ち、通常の認識処理が失敗したとき、上位階
層での候補単語を調べ、その候補数に応じて、組
合せ処理、統合処理、結合処理を選択的に行わせ
るようにすればよい。そして、その階層での処理
で認識結果が得られない場合には、次の階層にお
いて同様な再試行処理を行わせるようにすればよ
い。このようにすれば、入力単語データ列の或る
階層で認識結果が得られなかつた場合であつて
も、他の階層の単語との繋がり関係、つまり関連
性を利用して入力単語データ列の各階層の単語を
それぞれ効果的に認識することか可能となる。
層での候補単語を調べ、その候補数に応じて、組
合せ処理、統合処理、結合処理を選択的に行わせ
るようにすればよい。そして、その階層での処理
で認識結果が得られない場合には、次の階層にお
いて同様な再試行処理を行わせるようにすればよ
い。このようにすれば、入力単語データ列の或る
階層で認識結果が得られなかつた場合であつて
も、他の階層の単語との繋がり関係、つまり関連
性を利用して入力単語データ列の各階層の単語を
それぞれ効果的に認識することか可能となる。
尚、本発明は上記実施例に限定されるものでは
ない。例えば入力単語データ列の階層化処理は、
従来知られた種々の方式を採用することができ
る。また再試行処理に用いられる前述した処理の
組合せ等は仕様に応じて定めればよい。更に単語
に対する類似度の算出法も限定されない。また郵
便番号を単語のデータの一部として利用すること
も勿論可能である。要するに本発明はその要旨を
逸脱しない範囲で種々変形して実施することがで
きる。
ない。例えば入力単語データ列の階層化処理は、
従来知られた種々の方式を採用することができ
る。また再試行処理に用いられる前述した処理の
組合せ等は仕様に応じて定めればよい。更に単語
に対する類似度の算出法も限定されない。また郵
便番号を単語のデータの一部として利用すること
も勿論可能である。要するに本発明はその要旨を
逸脱しない範囲で種々変形して実施することがで
きる。
図は本発明の一実施例を示すもので、第1図は
単語認識装置の基本構成図、第2図は単語認識部
の構成図、第3図は入力単語データ列の階層構造
を示す図、第4図は階層構造化された単語辞書の
構成を示す図、第5図は組合せ処理の手順を示す
図、第6図は省略回復処理の手順を示す図、第7
図は統合処理の手順を示す図、第8図は結合処理
の手順を示す図、第9図は分離処理の手順を示す
図、第10図は認識再試行処理の手順を示す図で
ある。 4……文字認識部、5……単語認識部、6……
単語辞書、7……単語情報バツフア、8……単語
類似度計算部。
単語認識装置の基本構成図、第2図は単語認識部
の構成図、第3図は入力単語データ列の階層構造
を示す図、第4図は階層構造化された単語辞書の
構成を示す図、第5図は組合せ処理の手順を示す
図、第6図は省略回復処理の手順を示す図、第7
図は統合処理の手順を示す図、第8図は結合処理
の手順を示す図、第9図は分離処理の手順を示す
図、第10図は認識再試行処理の手順を示す図で
ある。 4……文字認識部、5……単語認識部、6……
単語辞書、7……単語情報バツフア、8……単語
類似度計算部。
Claims (1)
- 【特許請求の範囲】 1 階層構造を有する入力単語データ列の各単語
を構成する文字をそれぞれ認識し、これらの文字
認識結果で示される各階層の候補単語と上記階層
構造に対応した単語辞書フアイルにぞれぞれ登録
された辞書単語との類似度を求め、これらの類似
度の情報に従つて前記各階層毎に前記入力単語デ
ータ列を構成する各単語の認識結果を上位階層か
ら順に得て前記入力単語データ列を認識するに際
し、 (a) 前記入力単語データ列の上位階層の単語につ
いて上位階層の単語辞書フアイルを用いて求め
られた複数の候補単語によつてそれぞれ特定さ
れる下位階層の単語辞書フアイルを用いて前記
入力単語データ列の下位階層の単語に対する認
識処理を行う組み合わせ処理、 (b) 上位階層の単語辞書フアイルを用いた認識処
理を省略し、下位階層の単語辞書フアイルの全
てを用いて前記入力単語データ列の下位階層の
単語に対する認識処理を行う省略回復処理、 (c) 上位階層の単語辞書フアイルを用いて求めら
れる上位階層の候補単語の類似度、および下位
階層の単語辞書フアイルを用いて求められる下
位階層の候補単語の類似度を結合した情報に従
つて上記上位および下位階層の単語に対する認
識処理を行う統合処理、 (d) 上位階層の候補単語と下位階層の候補単語と
を結合し、この結合候補単語について単語辞書
フアイルを用いて認識処理を行う結合処理、 (e) 入力単語データ列を複数の単語に分離し、こ
れらの単語毎にそれぞれ独立に認識処理したの
ち、各単語の認識結果を統合して前記入力単語
データ列の認識結果を求める分離処理、 のうちの少なくとも1つを用いて前記入力単語デ
ータ列の認識処理を行うことを特徴とする単語認
識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58108112A JPS60584A (ja) | 1983-06-16 | 1983-06-16 | 単語認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58108112A JPS60584A (ja) | 1983-06-16 | 1983-06-16 | 単語認識方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS60584A JPS60584A (ja) | 1985-01-05 |
JPH0454270B2 true JPH0454270B2 (ja) | 1992-08-28 |
Family
ID=14476197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58108112A Granted JPS60584A (ja) | 1983-06-16 | 1983-06-16 | 単語認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS60584A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61272888A (ja) * | 1985-05-28 | 1986-12-03 | Toshiba Corp | 単語認識方式 |
JPS647277A (en) * | 1987-06-30 | 1989-01-11 | Toshiba Corp | Character reader |
JPH07113957B2 (ja) * | 1988-01-04 | 1995-12-06 | 沖電気工業株式会社 | 文字認識方法 |
JP2577911Y2 (ja) * | 1991-12-11 | 1998-08-06 | エヌオーケー株式会社 | 圧力容器のガス封止作業装置 |
-
1983
- 1983-06-16 JP JP58108112A patent/JPS60584A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS60584A (ja) | 1985-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5161245A (en) | Pattern recognition system having inter-pattern spacing correction | |
WO2008032780A1 (fr) | Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci | |
US20200183954A1 (en) | Efficiently finding potential duplicate values in data | |
JP2693914B2 (ja) | 検索システム | |
KR100288144B1 (ko) | 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법 | |
JPH0454270B2 (ja) | ||
JP3514874B2 (ja) | フリーテキスト検索システム | |
JPH0520794B2 (ja) | ||
CN110378378B (zh) | 事件检索方法、装置、计算机设备及存储介质 | |
JP2535629B2 (ja) | 検索システムの入力文字列正規化方式 | |
JP2560656B2 (ja) | 文書ファイリングシステム | |
JPH0795337B2 (ja) | 単語認識方式 | |
JPH0529950B2 (ja) | ||
JPS63138479A (ja) | 文字認識装置 | |
JP2680311B2 (ja) | 文字認識方式 | |
CN118155231A (zh) | 文档的识别方法、装置、设备、介质及产品 | |
JPH0816729A (ja) | 文字認識後処理方式 | |
JPS60225273A (ja) | 単語検索方式 | |
JPS61107486A (ja) | 文字認識後処理方式 | |
JPS61182132A (ja) | 情報検索方式 | |
JP2757769B2 (ja) | 自動索引作成装置 | |
JPS62175863A (ja) | 帳票処理装置 | |
JP2880387B2 (ja) | Ocr住所処理装置 | |
JPH0576675B2 (ja) | ||
JPS61272888A (ja) | 単語認識方式 |