JPH01233679A - 言語認識装置 - Google Patents
言語認識装置Info
- Publication number
- JPH01233679A JPH01233679A JP63061385A JP6138588A JPH01233679A JP H01233679 A JPH01233679 A JP H01233679A JP 63061385 A JP63061385 A JP 63061385A JP 6138588 A JP6138588 A JP 6138588A JP H01233679 A JPH01233679 A JP H01233679A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- candidate
- search tree
- character
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012805 post-processing Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 abstract description 31
- 238000000034 method Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 3
- 230000021615 conjugation Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[発明の目的]
(産業上の利用分野)
本発明は、文字、音素、音節等を認識単位とし言語情報
を認識する言語認識装置に係わり、特に認識のあいまい
さを言語の知識による拘束条件を用いて減少させ、最終
的に尤もらしい候補文を選択する文章後処理手段を備え
た言語認識装置に関する。
を認識する言語認識装置に係わり、特に認識のあいまい
さを言語の知識による拘束条件を用いて減少させ、最終
的に尤もらしい候補文を選択する文章後処理手段を備え
た言語認識装置に関する。
(従来の技術)
従来より、文字若しくは音声認識結果から尤もらしい候
補文を選択するいくつかの文章後処理技術が知られてい
る。その一つは文字単位の認識率が比較的良い場合に適
用される候補文生成方式であり、他の一つは文字単位の
認識率が悪い場合でも適用が可能な探索木生成方式であ
る。候補文生成方式は、第16図に示すように、文字認
識結果中のりジェクト文字に対応する複数の候補文字を
それぞれ当てはめた複数の候補文を生成し、これら候補
文に対して文章解析を行なって最終的に妥当な文を選択
する方式である。一方、探索木生成方式は、上述のよう
な候補文を生成するのではなく、第17図に示すように
、各文字毎の認識の結果得られる候補文字列と単語辞書
とを直接照合比較する方式である。この方法では、まず
、候補文字列の一部分の照合を行なう。その結果、可能
な候補文節が得られた時は、それに続く文節を次々に求
めていくことにより、候補文節の接続関係を表す木表現
を得る。最後に、この木表現の中から最適なバスを求め
ることにより最適解を得ることができる。
補文を選択するいくつかの文章後処理技術が知られてい
る。その一つは文字単位の認識率が比較的良い場合に適
用される候補文生成方式であり、他の一つは文字単位の
認識率が悪い場合でも適用が可能な探索木生成方式であ
る。候補文生成方式は、第16図に示すように、文字認
識結果中のりジェクト文字に対応する複数の候補文字を
それぞれ当てはめた複数の候補文を生成し、これら候補
文に対して文章解析を行なって最終的に妥当な文を選択
する方式である。一方、探索木生成方式は、上述のよう
な候補文を生成するのではなく、第17図に示すように
、各文字毎の認識の結果得られる候補文字列と単語辞書
とを直接照合比較する方式である。この方法では、まず
、候補文字列の一部分の照合を行なう。その結果、可能
な候補文節が得られた時は、それに続く文節を次々に求
めていくことにより、候補文節の接続関係を表す木表現
を得る。最後に、この木表現の中から最適なバスを求め
ることにより最適解を得ることができる。
しかし、上述した候補文生成方式では、文字認識結果の
りジエクト数が多いとその組合わせが極端に増加するの
で、事実上、候補文を生成することができなくなるとい
う欠点がある。一方、従来の探索木生成方式では、単語
照合の高速処理方式や木探索の高速処理方式に十分な考
慮が払われていなかったので、処理時間がかかりすぎる
という欠点があった。また、処理速度を高めるために処
理を単純化すると、認識性能が低下してしまうという問
題があった。
りジエクト数が多いとその組合わせが極端に増加するの
で、事実上、候補文を生成することができなくなるとい
う欠点がある。一方、従来の探索木生成方式では、単語
照合の高速処理方式や木探索の高速処理方式に十分な考
慮が払われていなかったので、処理時間がかかりすぎる
という欠点があった。また、処理速度を高めるために処
理を単純化すると、認識性能が低下してしまうという問
題があった。
(発明が解決しようとする課題)
このように、従来の言語認識装置における文章後処理と
しての候補文生成方式では、候補文字数が多いと候補文
の生成が困難になり、また探索木生成方式では、認識性
能を維持しようとすると本探索に時間がかかりすぎると
いう欠点があった。
しての候補文生成方式では、候補文字数が多いと候補文
の生成が困難になり、また探索木生成方式では、認識性
能を維持しようとすると本探索に時間がかかりすぎると
いう欠点があった。
本発明は、このような問題点を解決し、認識性能を低下
させることなく、処理速度を向上させることができる言
語認識装置を提供することを目的とする。
させることなく、処理速度を向上させることができる言
語認識装置を提供することを目的とする。
[発明の構成]
(課題を解決するための手段)
本発明は、認識単位の系列を入力する入力手段と、この
入力手段を介して入力された認識単位の系列を認識して
各認識単位について一又は複数の認識候補からなる認識
候補群を求める認識手段と、前記認識単位の系列の全体
にわたり、前記各認識単位の認識候補群のうちからその
認識結果と言語の知識とに基づいて尤もらしい一又は複
数の認識候補を選択し、これらを順次探索木状に展開し
ながら前記探索木のバスに沿って候補文を生成していく
文章後処理手段とを具備した言語認識装置において、前
記文章後処理手段が、前記探索木のバスの数を常に一定
数以下に保ちつつ前記候補文を生成していくものである
ことを特徴としている。
入力手段を介して入力された認識単位の系列を認識して
各認識単位について一又は複数の認識候補からなる認識
候補群を求める認識手段と、前記認識単位の系列の全体
にわたり、前記各認識単位の認識候補群のうちからその
認識結果と言語の知識とに基づいて尤もらしい一又は複
数の認識候補を選択し、これらを順次探索木状に展開し
ながら前記探索木のバスに沿って候補文を生成していく
文章後処理手段とを具備した言語認識装置において、前
記文章後処理手段が、前記探索木のバスの数を常に一定
数以下に保ちつつ前記候補文を生成していくものである
ことを特徴としている。
即ち、本発明は、例えば第1図に示すように、探索木の
各ノード(この例では文節)のうち、同一レベルのノー
ドから例えば2つずつ認識候補を選択し、探索木のバス
の数を常に2以下に保ちつつ候補文を生成していく。
各ノード(この例では文節)のうち、同一レベルのノー
ドから例えば2つずつ認識候補を選択し、探索木のバス
の数を常に2以下に保ちつつ候補文を生成していく。
本発明の好ましい態様においては、前記文章後処理手段
は、候補文の生成途中で前記探索木の展開が不可能にな
ったバスについては、次の認識候補から再度探索木を展
開していくようにしている。
は、候補文の生成途中で前記探索木の展開が不可能にな
ったバスについては、次の認識候補から再度探索木を展
開していくようにしている。
この場合、前記探索木の展開が不可能になったバスにつ
いては、それを識別するため、ストップフラグを立てる
ようにすると良い。
いては、それを識別するため、ストップフラグを立てる
ようにすると良い。
また、前記探索木の各ノードが、例えば単語又は文節で
あるとすると、前記文章後処理手段は、連続する前記認
識候補群に対して単語照合又は文節照合を行ない、その
結果の良好な認識候補を選択するように動作をする。
あるとすると、前記文章後処理手段は、連続する前記認
識候補群に対して単語照合又は文節照合を行ない、その
結果の良好な認識候補を選択するように動作をする。
(作用)
本発明によれば、文章後処理手段が、前記探木本のバス
の数を常に一定数以下に保ちつつ前記候補文を生成して
いくので、候補文は絞り込まれ、認識候補の不必要な選
択処理を行なわない分だけ、木探索の高速化が図れる。
の数を常に一定数以下に保ちつつ前記候補文を生成して
いくので、候補文は絞り込まれ、認識候補の不必要な選
択処理を行なわない分だけ、木探索の高速化が図れる。
例えば、第1図の例では、探索木のバスが2以下になる
ように候補文が生成されるので、最終的には、候補文の
バスが特定のバスに絞り込まれていく。このように、バ
スが絞り込まれることにより、探索木の展開範囲が挟ま
り、結局、処理数を少なくできる。
ように候補文が生成されるので、最終的には、候補文の
バスが特定のバスに絞り込まれていく。このように、バ
スが絞り込まれることにより、探索木の展開範囲が挟ま
り、結局、処理数を少なくできる。
また、例えばストップフラグなどを用いて探索木の展開
が不可能になったバスについては、次の認識候補から再
度探索木を生成していくようにすれば、古いレベルの有
効なバス(候補文)を残すことができ、しかも文章後処
理部が同一バスを繰返し探索するような無限ループに陥
るの、を防止できる。従って、さらに認識性能が良好で
信頼性の高い処理が行なえる。
が不可能になったバスについては、次の認識候補から再
度探索木を生成していくようにすれば、古いレベルの有
効なバス(候補文)を残すことができ、しかも文章後処
理部が同一バスを繰返し探索するような無限ループに陥
るの、を防止できる。従って、さらに認識性能が良好で
信頼性の高い処理が行なえる。
また、本探索を文字単位や音素単位ではなく、単語単位
や更には文節単位で行なうようにすると、より長い単位
の照合処理によって認識候補が選択されるので、更に認
識性能が向上するとともに、木探索の高速化を図ること
ができる。
や更には文節単位で行なうようにすると、より長い単位
の照合処理によって認識候補が選択されるので、更に認
識性能が向上するとともに、木探索の高速化を図ること
ができる。
(実施例)
以下、図面を参照しながら、本発明の一実施例について
説明する。
説明する。
第2図は、本発明を日本語の文字認識装置に適用した実
施例の構成を示す図である。このシステムは、スキャナ
1、文字切出部2、文字認識部3及び文章後処理部4よ
り構成されている。
施例の構成を示す図である。このシステムは、スキャナ
1、文字切出部2、文字認識部3及び文章後処理部4よ
り構成されている。
スキャナ1は、例えば第3図に示すような手書き文字若
しくは印刷文字の記載された帳票21を光学的に読取り
、その読取り情報を二値パターン情報として文字切出し
部2に出力する。文字切出部2は、スキャナ1から入力
された二値パターン情報から1つ1つの文字を切出し、
その文字パターンを文字認識部3に出力する。文字認識
部3は、この文字パターンを認識して、その認識結果の
コードを出力する。第4図はこの文字切出しと文字認識
処理の一例を示す図である。即ち、いま「船」という文
字31が入力され、これが例えば図中32のように切出
された場合、文字認識部2は文字認識結果として33に
示すような第1位から第3位までの文字認識候補を得る
。また、文字切出部2が入力文字31に対する例えば図
中34及び35のような切出し可能性を示唆した場合に
は、文字認識部2は文字認識結果として上述した認識結
果33の他に36に示すような各文字についての文字認
識候補を得ておく。このように切出しにあいまい性が残
る場合には、後処理結果によって最終的にどちらの切出
しが妥当であったかを判断する。なお、これら文字認識
候補には文字認識の確からしさを示す情報、例えば類似
度等が付属されているの・が望ましい。この認識処理の
結果、第5図に示すように認識単位である各文字につい
て3つ程度の認識候補からなる認識候補群を求めて候補
文字列41が得られる。
しくは印刷文字の記載された帳票21を光学的に読取り
、その読取り情報を二値パターン情報として文字切出し
部2に出力する。文字切出部2は、スキャナ1から入力
された二値パターン情報から1つ1つの文字を切出し、
その文字パターンを文字認識部3に出力する。文字認識
部3は、この文字パターンを認識して、その認識結果の
コードを出力する。第4図はこの文字切出しと文字認識
処理の一例を示す図である。即ち、いま「船」という文
字31が入力され、これが例えば図中32のように切出
された場合、文字認識部2は文字認識結果として33に
示すような第1位から第3位までの文字認識候補を得る
。また、文字切出部2が入力文字31に対する例えば図
中34及び35のような切出し可能性を示唆した場合に
は、文字認識部2は文字認識結果として上述した認識結
果33の他に36に示すような各文字についての文字認
識候補を得ておく。このように切出しにあいまい性が残
る場合には、後処理結果によって最終的にどちらの切出
しが妥当であったかを判断する。なお、これら文字認識
候補には文字認識の確からしさを示す情報、例えば類似
度等が付属されているの・が望ましい。この認識処理の
結果、第5図に示すように認識単位である各文字につい
て3つ程度の認識候補からなる認識候補群を求めて候補
文字列41が得られる。
この候補文字列41は、文章後処理部4に入力され、た
こで日本語の知識及びその認識結果の情報を用いた尤も
らしい認識候補文の生成に供される。この文章後処理部
4は、第2図に示すように、データ入力部11、単語マ
ツチング部12、文節マツチング部13、木探索部14
、データ出力部15及びこれらを制御する全体制御部1
6により構成されている。
こで日本語の知識及びその認識結果の情報を用いた尤も
らしい認識候補文の生成に供される。この文章後処理部
4は、第2図に示すように、データ入力部11、単語マ
ツチング部12、文節マツチング部13、木探索部14
、データ出力部15及びこれらを制御する全体制御部1
6により構成されている。
データ入力部11は、最大B文字分を収容できるデータ
φバッファを備えている。順次入力される候補文字列は
、このデータ・バッファに格納される。このデータ・バ
ッファは、例えば第6図(a)に示すような形式となっ
ている。このバッファ51は、0番目の文字格納位置か
らB−1番目の文字格納位置までの間にA番目の文子格
納位置を有し、同図(b)に示すように、0番目に格納
された文字から処理が進められ、現在処理位置PがA番
目の格納位置を越えたら(52)、未処理の候補文字列
をその先頭が0番目の格納位置に位置するようにシフト
しく53)、これに続くB−P−1番目の格納位置から
B−1番目の格納位置までの領域に新たな候補文字列を
格納する(54)。なお、このデータ・バッファ51の
動作は一例であって、例えば第7図に示すように、現在
処理位置PがA番目の格納位置を越えたら(55)、未
処理の候補文字列をシフトさせずに、0番目の格納位置
からP−1番目の格納位置までの領域に新たな候補文字
列を格納する(56)ようにしてリング・バッファを形
成しても良い。この場合、Bの位置は0の位置と同一視
され、ノく・ソファはリング状の無限ループを構成する
ことになる。また、Bの値を2.にしておけば、バッフ
ァ位置を示すカウンタのn+1桁目以上を無視すること
により、格納位置の指定を単純化することができる。
φバッファを備えている。順次入力される候補文字列は
、このデータ・バッファに格納される。このデータ・バ
ッファは、例えば第6図(a)に示すような形式となっ
ている。このバッファ51は、0番目の文字格納位置か
らB−1番目の文字格納位置までの間にA番目の文子格
納位置を有し、同図(b)に示すように、0番目に格納
された文字から処理が進められ、現在処理位置PがA番
目の格納位置を越えたら(52)、未処理の候補文字列
をその先頭が0番目の格納位置に位置するようにシフト
しく53)、これに続くB−P−1番目の格納位置から
B−1番目の格納位置までの領域に新たな候補文字列を
格納する(54)。なお、このデータ・バッファ51の
動作は一例であって、例えば第7図に示すように、現在
処理位置PがA番目の格納位置を越えたら(55)、未
処理の候補文字列をシフトさせずに、0番目の格納位置
からP−1番目の格納位置までの領域に新たな候補文字
列を格納する(56)ようにしてリング・バッファを形
成しても良い。この場合、Bの位置は0の位置と同一視
され、ノく・ソファはリング状の無限ループを構成する
ことになる。また、Bの値を2.にしておけば、バッフ
ァ位置を示すカウンタのn+1桁目以上を無視すること
により、格納位置の指定を単純化することができる。
このように、候補文字列は、あるまとまった単位で非同
期に一括してデータ・バ・ソファに入出力されるように
動作をする。そして、データ入力部11にこのようなデ
ータ・バッファを用いることにより、文章後処理に必要
な認識候補列を前後に自由に参照することができる。
期に一括してデータ・バ・ソファに入出力されるように
動作をする。そして、データ入力部11にこのようなデ
ータ・バッファを用いることにより、文章後処理に必要
な認識候補列を前後に自由に参照することができる。
データ入力部11に入力された候補文字列に対し、全体
制御部16は、木探索部14を動作させて探索木状に展
開し、候補文を生成していく。この木探索部14は、ま
ず文節マツチング部13を起動し、更に単語マツチング
部12を起動する。
制御部16は、木探索部14を動作させて探索木状に展
開し、候補文を生成していく。この木探索部14は、ま
ず文節マツチング部13を起動し、更に単語マツチング
部12を起動する。
単語マツチング部12は、以下の処理によって単語辞書
と入力された候補文字列とのマツチングを行なう。すな
わち、今、候補文字列が第8図に示すように、・・・、
b Lp 、 b 1.p+l 、 b l、
p+2 。
と入力された候補文字列とのマツチングを行なう。すな
わち、今、候補文字列が第8図に示すように、・・・、
b Lp 、 b 1.p+l 、 b l、
p+2 。
・・・(第1位候補)、・・・、 b 2.p 、
b 2.p+1 。
b 2.p+1 。
b 2.p+2・、・・・(第2位候補)のように求め
られているとすると、単語辞書に登録されている長さΩ
の単語al、a2.・・・、agとのマツチング結果と
して得られる一致度Sは、次の式によって求められる。
られているとすると、単語辞書に登録されている長さΩ
の単語al、a2.・・・、agとのマツチング結果と
して得られる一致度Sは、次の式によって求められる。
ここで、
r(1) :第i文字位置の候補文字数sj、i:第
i文字位置の第j候補文字の認識の確からしさを表す数
値 である。この−成度Sを用い、Sが所定のしきい値を超
えたときに、その単語を候補単語として出力する。なお
、このSの計算方法としては、この他にも特開昭58−
39377号、特開昭59−197974号、特願昭5
9−281244号等に記載されているように種々の方
法を採用できる。また、このような−成度Sのみを使用
する単語マツチングだけでなく、例えば単語の出現頻度
、品詞情報、前後の接続情報等を使用して、総合的に判
定するようにしても良い。第4図に示したように、文字
切出で複数の切出し可能性を示唆した場合には、その各
々について同様の単語マツチングを行なえば良い。
i文字位置の第j候補文字の認識の確からしさを表す数
値 である。この−成度Sを用い、Sが所定のしきい値を超
えたときに、その単語を候補単語として出力する。なお
、このSの計算方法としては、この他にも特開昭58−
39377号、特開昭59−197974号、特願昭5
9−281244号等に記載されているように種々の方
法を採用できる。また、このような−成度Sのみを使用
する単語マツチングだけでなく、例えば単語の出現頻度
、品詞情報、前後の接続情報等を使用して、総合的に判
定するようにしても良い。第4図に示したように、文字
切出で複数の切出し可能性を示唆した場合には、その各
々について同様の単語マツチングを行なえば良い。
この他、単語辞書に登録されていない単語に対する定形
フォーマット単語の処理として次のような方式を用いる
ことも可能である。この例を第9図に示す。図中、「¥
」 「昭和」 「年」 「月」「日」なる文字は、定形
部分であり、n*は長さが不定の数字文字列、nnは1
桁又は2桁の数字文字列を意味する。このような定形フ
ォーマットについては、定形部分以外の数字文字列の部
分については各桁の最大のs J、iを持つ数字を採用
し、そのs j、iの値を全文字について加算する。こ
のようにして求められた数字文字列の一致度を定形部分
の一致度と合計することにより定形フォーマット全体の
一致度を得る。図中61に示すような不定長の数字列に
対しては、各長さの文字列についての一致度を得て、そ
のそれぞれを単語候補とする。この時、単語長は、ある
長さ以下に限定しても良いし、−成度があるしきい値以
下になる長さ以上のものについては、候補としないよう
にしても良い。こうして候補単語は、上記採用された数
字を定形フォーマット内のn*またはnnの部分に埋込
むことによって得られる。図中62の例に対して63の
例では、72m、nは、各々1≦y≦(現在の年度)、
1≦m≦12,1≦n≦(m月の日数)のように限定条
件の付された数字文字列である。この場合には、候補数
字列の中から上記条件式を満たすものを選べば良い。ま
た、ここでは、数字文字列の例で定形フォーマットのマ
ツチングについて説明したが、対象字種は英字。
フォーマット単語の処理として次のような方式を用いる
ことも可能である。この例を第9図に示す。図中、「¥
」 「昭和」 「年」 「月」「日」なる文字は、定形
部分であり、n*は長さが不定の数字文字列、nnは1
桁又は2桁の数字文字列を意味する。このような定形フ
ォーマットについては、定形部分以外の数字文字列の部
分については各桁の最大のs J、iを持つ数字を採用
し、そのs j、iの値を全文字について加算する。こ
のようにして求められた数字文字列の一致度を定形部分
の一致度と合計することにより定形フォーマット全体の
一致度を得る。図中61に示すような不定長の数字列に
対しては、各長さの文字列についての一致度を得て、そ
のそれぞれを単語候補とする。この時、単語長は、ある
長さ以下に限定しても良いし、−成度があるしきい値以
下になる長さ以上のものについては、候補としないよう
にしても良い。こうして候補単語は、上記採用された数
字を定形フォーマット内のn*またはnnの部分に埋込
むことによって得られる。図中62の例に対して63の
例では、72m、nは、各々1≦y≦(現在の年度)、
1≦m≦12,1≦n≦(m月の日数)のように限定条
件の付された数字文字列である。この場合には、候補数
字列の中から上記条件式を満たすものを選べば良い。ま
た、ここでは、数字文字列の例で定形フォーマットのマ
ツチングについて説明したが、対象字種は英字。
記号、カタカナを問わない。また定形フォーマットの記
述なしに、単に数字列、年月日列のような指定方法によ
って処理しても良い。
述なしに、単に数字列、年月日列のような指定方法によ
って処理しても良い。
第10図に、この単語マツチングで使用される単語辞書
の一例を示す。辞書本体71は、JISコード順にソー
トされている。ポインタテーブル72は、単語の先頭文
字のJISコードに対応させて、辞書本体71内の当該
単語の格納エリアの先頭アドレスと最終アドレスとを格
納したものである。単語マツチングを行なう時には、候
補文字列73の第1文字の第1位から第1位までの候補
字ついて、順にそのJI8コードからポインタテーブル
72を参照し、そのポインタテーブル72に示されるエ
リアの単語についてのみ単語マツチングを行なうように
する。この処理でく途中の第1位の候補文字の処理中に
一定値以上の一致度を持つ単語が得られた時は、第i+
1位以降の処理をオミットしても良い。これによって処
理の高速化を図ることができる。また、最後まで処理を
行なって一定値(上記とは別の値でも良い)以上の一致
度を持つ単語が得られないときに辞書全体のマツチング
を行なっても良い。こうすることにより、第1文字に正
解文字が含まれていない場合でも単語マツチングが可能
となる。
の一例を示す。辞書本体71は、JISコード順にソー
トされている。ポインタテーブル72は、単語の先頭文
字のJISコードに対応させて、辞書本体71内の当該
単語の格納エリアの先頭アドレスと最終アドレスとを格
納したものである。単語マツチングを行なう時には、候
補文字列73の第1文字の第1位から第1位までの候補
字ついて、順にそのJI8コードからポインタテーブル
72を参照し、そのポインタテーブル72に示されるエ
リアの単語についてのみ単語マツチングを行なうように
する。この処理でく途中の第1位の候補文字の処理中に
一定値以上の一致度を持つ単語が得られた時は、第i+
1位以降の処理をオミットしても良い。これによって処
理の高速化を図ることができる。また、最後まで処理を
行なって一定値(上記とは別の値でも良い)以上の一致
度を持つ単語が得られないときに辞書全体のマツチング
を行なっても良い。こうすることにより、第1文字に正
解文字が含まれていない場合でも単語マツチングが可能
となる。
文節マツチング部13では、単語マツチング部12で得
られる候補単語を接続して候補文節を作る。ここで文節
とは、基本的には「語幹」+「活用形」+「助動詞」+
「助詞」で構成されたまとまりをいうが、それに「接頭
語」 「接尾語」 「合成語」 「句点」 「読点」等
をっけ加えたものを一つの文節として取扱うようにして
も良い。
られる候補単語を接続して候補文節を作る。ここで文節
とは、基本的には「語幹」+「活用形」+「助動詞」+
「助詞」で構成されたまとまりをいうが、それに「接頭
語」 「接尾語」 「合成語」 「句点」 「読点」等
をっけ加えたものを一つの文節として取扱うようにして
も良い。
第11図は、この文節マツチング部13の流れ図、第1
2図はその処理過程を説明するための図である。まず、
単語マツチング部12がらn個の語幹候補が選ばれ、こ
れらがバッファ81に初期単語として登録される(10
1)。第12図の例では、「乗」 「来」 「東」の3
つの語幹候補がバッファ81に登録されている。次に、
各語幹候補に対して、付属語辞書82内にある全付属語
の接続可能性を検討しく1o2)1、接続可能性のある
付属語については、候補文字列とのマツチングをとる(
103)。そして、付属語の尤度があるしきい値aを超
え、且つ語幹+付属語の尤度があるしきい値すを超えた
ならば(104)、それを新たな単語としてバッファ8
1内に登録する(105)。これによって、文節候補を
バッファ81内に増加させていき、最終的に得られたバ
ッファ81内から文節として設立するものだけを抜出し
て出力する(106)。なお、候補数を削減するため、
単語間の接続関係を調べて有り得ない候補を削除したり
、接続頻度情報と単語マツチングの結果を使ってしきい
値処理を総合的に行なうようにしてもよい。
2図はその処理過程を説明するための図である。まず、
単語マツチング部12がらn個の語幹候補が選ばれ、こ
れらがバッファ81に初期単語として登録される(10
1)。第12図の例では、「乗」 「来」 「東」の3
つの語幹候補がバッファ81に登録されている。次に、
各語幹候補に対して、付属語辞書82内にある全付属語
の接続可能性を検討しく1o2)1、接続可能性のある
付属語については、候補文字列とのマツチングをとる(
103)。そして、付属語の尤度があるしきい値aを超
え、且つ語幹+付属語の尤度があるしきい値すを超えた
ならば(104)、それを新たな単語としてバッファ8
1内に登録する(105)。これによって、文節候補を
バッファ81内に増加させていき、最終的に得られたバ
ッファ81内から文節として設立するものだけを抜出し
て出力する(106)。なお、候補数を削減するため、
単語間の接続関係を調べて有り得ない候補を削除したり
、接続頻度情報と単語マツチングの結果を使ってしきい
値処理を総合的に行なうようにしてもよい。
木探索部14は、いわゆるビームサーチ法を候補文生成
に適用した処理を行なう部分で、候補文の数を常に一定
数以下に制限しながらその候補文の最後尾に文節マツチ
ングを適用し、その結果得られる候補文節を上記候補文
に付加して新しい候補文を作成していく。この処理の流
れを第13図に、また処理の様子を第14図に示す。
に適用した処理を行なう部分で、候補文の数を常に一定
数以下に制限しながらその候補文の最後尾に文節マツチ
ングを適用し、その結果得られる候補文節を上記候補文
に付加して新しい候補文を作成していく。この処理の流
れを第13図に、また処理の様子を第14図に示す。
即ち、第14図に示すバッファ91は、予め定められた
ビームを構成するバスの数(この例では2)だけの候補
文を格納するために用意されたものである。このバッフ
ァ91には、各候補文格納エリアと対応してストップフ
ラグ92と得点93とが付帯情報として付加されている
。ストップフラグ92は、それがonになった場合は、
以後の処理で文節マツチングによる候補文の拡張を行な
わないことを指示するためのフラグである。このストッ
プフラグ92は、有効な候補文が、それに続く文節の接
続の失敗で棄却されてしまうのを防止するために必要な
フラグであるとともに、本探索処理が、上記文節の接続
の失敗によって再度向、−の候補文を生成するという無
限ループに陥るのを防止するものである。例えば句読点
や読点等が出現した場合には、このストップフラグがO
nになるようにしても良い。また、得点93は候補文の
一致度又は評価値に基づく数値で、例えばこ°れらの氷
積値や平均値等が使用される。また、この本探索処理に
は、第14図に示すテンポラリバッファ94が使用され
る。このテンボラリノ<・ソファ94にも、各バスの格
納領域に対応してスト・ツブフラグ95と得点96とが
付属されて、いる。
ビームを構成するバスの数(この例では2)だけの候補
文を格納するために用意されたものである。このバッフ
ァ91には、各候補文格納エリアと対応してストップフ
ラグ92と得点93とが付帯情報として付加されている
。ストップフラグ92は、それがonになった場合は、
以後の処理で文節マツチングによる候補文の拡張を行な
わないことを指示するためのフラグである。このストッ
プフラグ92は、有効な候補文が、それに続く文節の接
続の失敗で棄却されてしまうのを防止するために必要な
フラグであるとともに、本探索処理が、上記文節の接続
の失敗によって再度向、−の候補文を生成するという無
限ループに陥るのを防止するものである。例えば句読点
や読点等が出現した場合には、このストップフラグがO
nになるようにしても良い。また、得点93は候補文の
一致度又は評価値に基づく数値で、例えばこ°れらの氷
積値や平均値等が使用される。また、この本探索処理に
は、第14図に示すテンポラリバッファ94が使用され
る。このテンボラリノ<・ソファ94にも、各バスの格
納領域に対応してスト・ツブフラグ95と得点96とが
付属されて、いる。
本探索処理においては、まず、テンボラリノくソファ9
4がクリアされる(111;第13図)。
4がクリアされる(111;第13図)。
次に、バッファ91内の各候補文について、そのストッ
プフラグ92がoff’であることを条件に(112)
、文節マツチングによる候補文の拡張を行なってい<
(113,114,115)。拡張された候補文は、ス
トップフラグをof’fにしてテンポラリバッファ94
に格納されていく。また、元の候補文についてもストッ
プフラグをOnにしてテンポラリバッファ94に格納さ
れる(115)。
プフラグ92がoff’であることを条件に(112)
、文節マツチングによる候補文の拡張を行なってい<
(113,114,115)。拡張された候補文は、ス
トップフラグをof’fにしてテンポラリバッファ94
に格納されていく。また、元の候補文についてもストッ
プフラグをOnにしてテンポラリバッファ94に格納さ
れる(115)。
これらは、新しく生成された探索木のノくスである。
そして、これら各バスについて得点96が計算され、得
点の高い方から2つのノくスが選択され、新たな候補文
としてバッファ91に格納される(116)。例えば、
第14図では、得点力(S4>88である関係の候補文
「宇宙」 「宅地」に、比較的一致度の高い「船に」
「船は」がそれぞれ接続されることにより、全体の候補
文の得点順位がSL >32 >S3・・・に変化した
とすると、候補文としては、「宇宙船に」 「宇宙船は
」、の2つが残ることになる。このような処理を、全て
のバスのストップフラグがOnになるまで繰返しく11
7)、最終的に得点の高いバスを候補文として出力する
(118)。
点の高い方から2つのノくスが選択され、新たな候補文
としてバッファ91に格納される(116)。例えば、
第14図では、得点力(S4>88である関係の候補文
「宇宙」 「宅地」に、比較的一致度の高い「船に」
「船は」がそれぞれ接続されることにより、全体の候補
文の得点順位がSL >32 >S3・・・に変化した
とすると、候補文としては、「宇宙船に」 「宇宙船は
」、の2つが残ることになる。このような処理を、全て
のバスのストップフラグがOnになるまで繰返しく11
7)、最終的に得点の高いバスを候補文として出力する
(118)。
このような処理によれば、候補文は、常に一定の数に制
限されるので、無制限にワークバッファや処理速度を増
大させることなく正しい候補文を探索していくことがで
きる。
限されるので、無制限にワークバッファや処理速度を増
大させることなく正しい候補文を探索していくことがで
きる。
なお、ここで、文の評価値としては、前述したように文
節の一致度の累積値を用いれば良いが、更に、これに加
えて各文節の接続毎に、その接続の適正度や接続の頻度
情報等に基づく値を加算するようにしてもよい。また、
文の長いものが無条件に有利になるのを防止するため、
評価値からα×(文の長さ)を減じるようにしても良い
。
節の一致度の累積値を用いれば良いが、更に、これに加
えて各文節の接続毎に、その接続の適正度や接続の頻度
情報等に基づく値を加算するようにしてもよい。また、
文の長いものが無条件に有利になるのを防止するため、
評価値からα×(文の長さ)を減じるようにしても良い
。
データ出力部15は、本探索部14で得られた候補文の
中から出力データを文章後処理部4の外部に出力するも
のである。ここでは、次の時点で候補文の出力動作を行
なう。
中から出力データを文章後処理部4の外部に出力するも
のである。ここでは、次の時点で候補文の出力動作を行
なう。
(1)候補文中の文が長くなりすぎてバ・ソファ91が
溢れた時。この時は、文中の第1位の得点の候補文を出
力する。
溢れた時。この時は、文中の第1位の得点の候補文を出
力する。
(2)候補文中の文のどれもが新たに拡張できなくなっ
た時(ストップフラグが全てOnになった時)。この時
も、文中の第1位の得点の候補文を出力する。
た時(ストップフラグが全てOnになった時)。この時
も、文中の第1位の得点の候補文を出力する。
(3)候補文中の各文の最初の部分が完全に一致すると
き。この時は、その一致部分を出力する。
き。この時は、その一致部分を出力する。
このように、このシステムでは第1順位の候補文を出力
するようにしている。その他の候補文字が必要となる時
には、次のような方法で、追加候補文字を得ることがで
きる。即ち、木探索実行中の単語マツチングにより得ら
れる候補単語を構成する文字は、候補文字として別に登
録しておき、これら候補文字にうち、一致度の高い候補
単語に含まれる文字を追加候補文字として出力する。こ
れらの出力には、文の区切りや文節として認識されたか
どうかを示すフラグなどを付属させるようにしても良い
。
するようにしている。その他の候補文字が必要となる時
には、次のような方法で、追加候補文字を得ることがで
きる。即ち、木探索実行中の単語マツチングにより得ら
れる候補単語を構成する文字は、候補文字として別に登
録しておき、これら候補文字にうち、一致度の高い候補
単語に含まれる文字を追加候補文字として出力する。こ
れらの出力には、文の区切りや文節として認識されたか
どうかを示すフラグなどを付属させるようにしても良い
。
第15図に以上の処理の全体のフローを示す。
このように、上記システム、常にビームの幅を一定値(
beaa+幅)以下に抑えつつ、文節マツチングにより
候補文を拡張していき、最終的に得点の高い候補文を文
章後処理結果として出力するものである。
beaa+幅)以下に抑えつつ、文節マツチングにより
候補文を拡張していき、最終的に得点の高い候補文を文
章後処理結果として出力するものである。
なお、本発明は上述した実施例に限定されるものではな
い。例えば、上記実施例では、文節マツチングによって
候補文を拡張していったが、単語マツチングによって候
補文を拡張していくようにしても良い。まh、単語マツ
チングにおいて、認識されなかった部分を集積して、そ
の中から反復して現われる文字列を新たに単語として登
録する辞書の学習処理を行なわせることも有効である。
い。例えば、上記実施例では、文節マツチングによって
候補文を拡張していったが、単語マツチングによって候
補文を拡張していくようにしても良い。まh、単語マツ
チングにおいて、認識されなかった部分を集積して、そ
の中から反復して現われる文字列を新たに単語として登
録する辞書の学習処理を行なわせることも有効である。
また、単語辞書や接続に関するデータの頻度を表す情報
が付与されている場合には、上記候補文中の単語や文節
の個数に基づいて頻度を更新するようにしても良い。ま
た、読取り結果をオペレータが修正した後、その文を再
度文章解析して、その結果から上記登録動作や頻度更新
動作を行なわせたり、修正中又は修正後におけるオペレ
ータの指示(例えば更新したい文字位置や頻度更新のた
めの度数パラメータなどの指定)に従って上記登録動作
や頻度更新動作を行なわせるようにすることも有効であ
る。更に、用言の活用形を新規登録する場合には、集積
された新規登録単語の中から単語の先頭部分が一致する
ものについて語尾が活用形の形態をなしているかどうか
をチエツクして、その結果判断される活用形を付与する
ことにより行なえる。
が付与されている場合には、上記候補文中の単語や文節
の個数に基づいて頻度を更新するようにしても良い。ま
た、読取り結果をオペレータが修正した後、その文を再
度文章解析して、その結果から上記登録動作や頻度更新
動作を行なわせたり、修正中又は修正後におけるオペレ
ータの指示(例えば更新したい文字位置や頻度更新のた
めの度数パラメータなどの指定)に従って上記登録動作
や頻度更新動作を行なわせるようにすることも有効であ
る。更に、用言の活用形を新規登録する場合には、集積
された新規登録単語の中から単語の先頭部分が一致する
ものについて語尾が活用形の形態をなしているかどうか
をチエツクして、その結果判断される活用形を付与する
ことにより行なえる。
この他、本発明は、マツチングによる候補文の拡張処理
を候補文の数を制限しながら進めてい(ので、音声認識
装置にも全く同様に適用可能である。
を候補文の数を制限しながら進めてい(ので、音声認識
装置にも全く同様に適用可能である。
[発明の効果]
以上述べたように、本発明によれば、探索木のバスの数
を制限しながら候補文を生成していくので、探索木の展
開処理範囲を大幅に制限して処理数の削減が図れるとと
もに、認識性能を十分に高めることができる。
を制限しながら候補文を生成していくので、探索木の展
開処理範囲を大幅に制限して処理数の削減が図れるとと
もに、認識性能を十分に高めることができる。
第1図は本発明における木探索方法の一例を示す図、第
2図は本発明の一実施例に係る文字認識装置のブロック
図、第3図は同装置に入力される帳票の部分平面図、第
4図は同装置における文字切出し及び文字認識結果を示
す図、第5図は同装置における轄補文字列を示す図、第
6図及び第7図は同装置における入力データバッファを
示す図、第8図は同装置における候補文字列を記号化し
て示す図、第9図は同装置において認識される定形フォ
ーマットの例を示す図、第10図は同装置における単語
辞書の一例を示す図、第11図は同装置における文節マ
ツチング処理の流れ図、第12図は同装置における文節
マツチングの様子を示す図、第13図は同装置における
木探索の処理の流れ図、第14図は同装置における木探
索の様子を示す図、第15図は同装置の全体フローを示
す図、第16図は従来の候補文生成方式の手順を示す流
れ図、第17図は従来の探索木生成方式の処理手順を示
す流れ図で・ある。 1・・・スキャナ、2・・・文字切出部、3・・・文字
認識部、4・・・文章後処理部、1・・・データ入力部
、12・・・単語マツチング部、13・・・文節マツチ
ング部、14・・・本探索部、15・・・データ出力部
、16・・・全体制御部。 出願人代理人 弁理士 鈴江武彦 徳 1 図 4q−ヅ 第50 第80 第90 第6 口 第7 ロ 第12山
2図は本発明の一実施例に係る文字認識装置のブロック
図、第3図は同装置に入力される帳票の部分平面図、第
4図は同装置における文字切出し及び文字認識結果を示
す図、第5図は同装置における轄補文字列を示す図、第
6図及び第7図は同装置における入力データバッファを
示す図、第8図は同装置における候補文字列を記号化し
て示す図、第9図は同装置において認識される定形フォ
ーマットの例を示す図、第10図は同装置における単語
辞書の一例を示す図、第11図は同装置における文節マ
ツチング処理の流れ図、第12図は同装置における文節
マツチングの様子を示す図、第13図は同装置における
木探索の処理の流れ図、第14図は同装置における木探
索の様子を示す図、第15図は同装置の全体フローを示
す図、第16図は従来の候補文生成方式の手順を示す流
れ図、第17図は従来の探索木生成方式の処理手順を示
す流れ図で・ある。 1・・・スキャナ、2・・・文字切出部、3・・・文字
認識部、4・・・文章後処理部、1・・・データ入力部
、12・・・単語マツチング部、13・・・文節マツチ
ング部、14・・・本探索部、15・・・データ出力部
、16・・・全体制御部。 出願人代理人 弁理士 鈴江武彦 徳 1 図 4q−ヅ 第50 第80 第90 第6 口 第7 ロ 第12山
Claims (5)
- (1)認識単位の系列を入力する入力手段と、この入力
手段を介して入力された認識単位の系列を認識して各認
識単位について一又は複数の認識候補からなる認識候補
群を求める認識手段と、前記認識単位の系列の全体にわ
たり、前記各認識単位の認識候補群のうちからその認識
結果と言語の知識とに基づいて尤もらしい一又は複数の
認識候補を選択し、これらを順次探索木状に展開しなが
ら前記探索木のバスに沿って候補文を生成していく文章
後処理手段とを具備した言語認識装置において、 前記文章後処理手段は、前記探索木のバスの数を常に一
定数以下に保ちつつ前記候補文を生成していくものであ
ることを特徴とする言語認識装置。 - (2)前記文章後処理手段は、候補文の生成途中で前記
探索木の展開が不可能になったバスについては、次の認
識候補から再度探索木を展開していくものであることを
特徴とする請求項1記載の言語認識装置。 - (3)前記文章後処理手段は、候補文の生成途中で前記
探索木の展開が不可能になったバスについては、ストッ
プフラグを立てるものであることを特徴とする請求項2
記載の言語認識装置。 - (4)前記文章後処理手段は、連続する前記認識候補群
に対して単語照合又は文節照合を行ない、その結果の良
好な認識候補を選択するものである請求項1記載の言語
認識装置。 - (5)前記探索木の各ノードは、単語又は文節であるこ
とを特徴とする請求項1記載の言語認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63061385A JPH01233679A (ja) | 1988-03-15 | 1988-03-15 | 言語認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63061385A JPH01233679A (ja) | 1988-03-15 | 1988-03-15 | 言語認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH01233679A true JPH01233679A (ja) | 1989-09-19 |
Family
ID=13169651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63061385A Pending JPH01233679A (ja) | 1988-03-15 | 1988-03-15 | 言語認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH01233679A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011138411A (ja) * | 2009-12-28 | 2011-07-14 | Toshiba Corp | パターン認識装置およびパターン認識方法 |
-
1988
- 1988-03-15 JP JP63061385A patent/JPH01233679A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011138411A (ja) * | 2009-12-28 | 2011-07-14 | Toshiba Corp | パターン認識装置およびパターン認識方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753531B (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
US5878390A (en) | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition | |
US6823493B2 (en) | Word recognition consistency check and error correction system and method | |
Elshafei et al. | Statistical methods for automatic diacritization of Arabic text | |
JPH0855122A (ja) | 文脈タガー | |
JPH0689302A (ja) | 辞書メモリ | |
US6507815B1 (en) | Speech recognition apparatus and method | |
JPWO2010044123A1 (ja) | 検索装置、検索用索引作成装置、および検索システム | |
KR100509917B1 (ko) | 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법 | |
JP3309174B2 (ja) | 文字認識方法及び装置 | |
CN111767734A (zh) | 一种基于多层隐马模型的分词方法及系统 | |
JP3975825B2 (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JPH01233679A (ja) | 言語認識装置 | |
JP3080066B2 (ja) | 文字認識装置、方法及び記憶媒体 | |
JP2000056795A (ja) | 音声認識装置 | |
EP0992008B1 (en) | Finite State Transducers APPROXIMATING HIDDEN MARKOV MODELS (HMM) AND TEXT TAGGING USING SAME | |
Fan et al. | Sub-word based mongolian offline handwriting recognition | |
JP2595934B2 (ja) | 仮名漢字変換処理装置 | |
CN113111651A (zh) | 一种中文分词方法、装置以及搜索词库读取方法 | |
JP2000267693A (ja) | 音声処理装置及び索引作成装置 | |
JP2002259912A (ja) | オンライン文字列認識装置及びオンライン文字列認識方法 | |
JPH09146952A (ja) | 形態素解析装置 | |
Goldsmith et al. | From signatures to finite state automata | |
JP3915167B2 (ja) | 日本語形態素解析方法及び装置及び日本語形態素解析プログラムを格納した記憶媒体 | |
Pieraccini et al. | Complexity reduction in a large vocabulary speech recognizer. |