JPH08106296A

JPH08106296A - 単語認識システム

Info

Publication number: JPH08106296A
Application number: JP7241639A
Authority: JP
Inventors: Stefan Dobler; ドブラーシュテファン; Hans-Wilhelm Dr Ruehl; リュールハンス−ウィルヘルム
Original assignee: Koninklijke Philips Electronics NV; Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1994-09-20
Filing date: 1995-09-20
Publication date: 1996-04-23
Also published as: US5687288A; EP0703569A1; EP0703569B1; ATE190167T1

Abstract

(57)【要約】【課題】音声信号からの単語の認識信頼度を向上させ
る。【解決手段】音声認識に当っては、音声信号からのテ
スト信号を予定した基準信号と比較して（ブロック３
０）、スコアを求めるようにする。その後の各テスト信
号は、以前のテスト信号に対して最適であることが確か
められた基準値の予定した近傍内に位置する基準値と比
較される。斯かる近傍に応じて、推移確率に従う推移値
がスコアに加算される。特に、現実の話者が話す速度が
異なる場合に、認識結果の向上を図るために、前記推移
値を、話者が話す速度に応じて適合化させるようにする
（ブロック５０）。基準値そのものを当該話者の発音の
仕方に適合させる（ブロック６０）ことによっても認識
信頼度を向上させることができる。この適合化は多数の
ステップで反復的に行なうこともできる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声信号から予定
した語彙の単語を認識するためのシステムであって、 − 音声信号をピックアップし、且つディジタルテスト
信号の系列を供給するための第１手段と、 − 前記語彙の単語に対応する基準信号の系列を格納す
るための第２手段と、 − 前記第１及び第２手段に結合され、前記テスト信号
を第１基準信号と比較して、各第１基準信号に対して、
前記テスト信号と第１基準信号との差に依存するスコア
を求めるための第３手段であって、前記第１基準信号
は、以前のテスト信号に対して比較が首尾よく行われた
関連系列内の第２基準信号と同一とするか、又はその第
２基準信号の近傍内の信号とし、前記第２基準信号から
の距離に応じて、前記スコアを推移確率に依存する推移
値によって増分させるように構成した第３手段と、 − 連続するテスト信号と比較される各基準信号系列に
対する増分スコアを加算し、これら増分スコアの和が最
小である最適系列を求めて、この最適系列に関連する１
つ又は複数の単語を出力するための第４手段と、を具え
ている単語認識システムに関するものである。

【０００２】

【従来の技術】斯種のシステムはＤＥ３２１５８６８Ｃ
２から既知である。この既知のシステムは特に、単語系
列を特定化（決定）するのに役立ち、この場合における
個々の単語に対応する基準信号の系列はメモリに格納さ
れており、特殊な手段を講じて、単語推移(word transi
tions)を特定化するようにしている。連続するテスト信
号と基準信号との比較又はこれらの比較結果は二次元格
子にて表わすことができ、この二次元格子にて、出発点
からの連続テスト信号を単語内で比較した出発点からの
各基準信号の系列に対して、１つの単語における所定の
出発点からこの単語の終点までの格子における経路を見
つけるために、どの基準信号が次のテスト信号と関連し
てスコアの最小加算値を発生するかが特定化される。従
って、単語内では次のテスト信号が、丁度到達した経路
の終点付近の所定の近傍内に位置するような基準値と比
較される。このようにして、実際に話された単語と、こ
の単語の基準値の系列との間の非線形の時間的な適合化
が達成される。単語内では様々な推移、即ち以前のテス
ト信号に対して見つけた最適基準値に対して、或るテス
ト信号用に最適であることが分かった基準値の近傍が等
価的な方法にて処理される。

【０００３】ＤＥ３７１０５０７Ａ１には話された単語
を認識するための同様なシステムが開示されており、こ
の場合には連続するテスト信号に対する最適な基準信号
に関する種々の近傍を考慮している。従って推移確率が
明確にモデル化される。特に、固定の推移値を前記近傍
に応じてスコアに加えている。スコアはこの位置にて実
際に話された単語が適切な基準信号に対応する確率の負
の対数によって求められるものとする。

【０００４】推移値を適切に選定することによって経路
の対角線進路に優先順位を与えることができる。その理
由は、単語が話される速度は基準信号の系列に対応する
ために斯様な対角線経路が最も予想されるからである。
従って、単語は様々な話し方で、スコアが異なる場合に
も認識することができる。話し言葉の速度は推移値を選
択することによりモデル化される。

【０００５】

【発明が解決しようとする課題】基準値はシステムを実
際に使用する前に話しておく必要のあるテスト文に基づ
いて決定される。システムを所定のユーザ用のものとす
る場合には、これらのテスト文をユーザ専用に記録す
る。従って、この場合には話し言葉の速度は同じ時間で
モデル化される。しかし、システムを複数のユーザ用、
つまり汎用のものとする場合には、システムを話者に全
く無関係とすべきであり、基準値を多数の異なる話者に
よって話されたテスト文から取出すことができる。この
場合には、基準値そのもの並びに推移値に対する平均値
を決定し、これらの平均値が全ての単語におけるあらゆ
る位置に対して同じとなるようにする。しかし、この場
合、話者が例えば極めて早口で話して、単語を経る基準
信号の最適経路が対角線経路よりも急峻となる場合に、
推移値によって得られるスコアが総体的に劣り、話され
た単語が同じように発音される基準単語に対して誤って
解釈されがちとなるため、認識信頼度が低下することに
なる。

【０００６】本発明の目的は様々な話者による使用に対
して高い信頼度を呈する冒頭にて述べた種類の単語認識
システムを提供することにある。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、本発明によれば、前記冒頭にて述べた単語認識シス
テムにおいて、基準信号の最適系列と比較されるテスト
信号が取出された音声信号の長さと、前記基準信号の最
適系列の長さとのずれに応じて、前記推移値を後の比較
用の新規の推移値に変更する第５手段を設けたことを特
徴とする。

【０００８】従って、本発明によるシステムでは推移値
を適合化することにより、現実のユーザが話す速度に基
準信号の系列を適合させる。単語が認識、或いは確認さ
れたら直ぐに推移値を適合化して、次の単語を一層確実
に認識することができる。

【０００９】推移値を適合化するために、本発明の好適
例では、Ｔを前記テスト信号の系列の長さとし、且つＮ
を前記基準信号の系列の長さとする場合に、前記第５手
段が次の比、即ちｎ＝Ｔ／Ｎに応じて推移値ａを次のように新規の推移値ａ′に変更
すべく構成され、ａ′_i,i＝ａ_i,i−（ｎ−１）ｂａ′_i,i+1＝ａ_i,i+1 ａ′_i,i+2＝ａ_i,i+2＋（ｎ−１）ｂこゝに、指数ｉ，ｉは、第１基準信号が第２基準信号に
等しいことを意味し、指数ｉ，ｉ＋１は、第１及び第２
基準信号が直接隣接することを意味し、指数ｉ，ｉ＋２
は第１及び第２基準信号が他の基準信号によって分離さ
れ、且つｂが予定した比例係数を意味するものとする。

【００１０】従って、実際に話された単語の、基準信号
系列の長さに対する比を用いて推移値を変更することに
より、好ましくは対角線からの或るずれが、対角線から
の他のずれを抑圧するのと同程度となるように、総推移
確率が全ての推移に対して一定となるようにする。

【００１１】このようにしてシステムの実際のユーザが
話す実際の速度を考慮することにより認識信頼度がかな
り向上する。

【００１２】さらに本発明の他の好適例では、前記基準
値ｒ_iを次のように新規の基準値ｒ′_iに変更するため
の第６手段を設け、ｒ_i′＝ｒ_i（１−ｃ）＋ｃ・ｙ_t ここにｙ_tを基準値の最適系列における基準値ｒ_iと比
較されるテスト信号とし、且つｃを予定値とする。この
ようにして、話す速度だけでなく、イントネーション、
即ち話者の音声の広がりをも考慮する。このように、基
準値を現実の話者の基準値に適合させることは原則的に
既知ではあるが、その適合化を話者が話す速度に結びつ
けることは知られていなかった。

【００１３】話す速度、場合によっては当面の話者の発
音の仕方に適合化させることは注意深く行なう必要があ
る。その理由は、同じ話者でも後に彼又は彼女の話し方
は変えられるから、特別な方法で当面の話者が話した１
つ又は数個の単語における偶発的な極端な値に対しては
適合化を図るべきでないからである。話す速度に対する
適合化の度合は、比例係数ｂによって行なうことがで
き、場合によっては基準値そのものの変更に対する適合
化は予定した値ｃによって行なうことができ、こうした
２つの数量はあまり大きくすべきではない。しかし、そ
れにも拘らず当面の話者の話し方に適切に適合させるた
めに、本発明の他の好適例では、少なくとも同じ音声信
号内の基準信号の変更を数回にわたり行なうようにす
る。当面の話者の話し方に対するステップバイステップ
の適合化は幾つかの単語を認識した後に達成される。

【００１４】

【発明の実施の形態】図１は本発明によるシステムのブ
ロック図を示し、マイクロホン２は話者が話した音響信
号を電気信号に変換する。この電気信号はブロック１０
にてさらに処理され、これにて電気信号はディジタル化
され、且つ例えばセグメントにおける音声信号の個々の
周波数成分が決定される。このようなセグメントの長さ
は、例えば１０ms〜２０msの範囲内の均一値とする。ブ
ロック１０はテスト信号をブロック３０に出力する。

【００１５】ブロック３０ではテスト信号が基準信号と
比較され、この基準信号はブロック３０により制御さ
れ、且つアドレスされるメモリ２０から供給される。こ
れらの基準信号は、好ましくは数人の異なる話者が話し
たテスト文を分析することにより前もって決定されてい
る。ブロック３０での前記比較により、ブロック３０に
格納されている推移値により増分されるスコアが発生す
る。ブロック４０では、種々の単語を経る様々な経路
（パス）に対する増分スコアが加算される。しかし、こ
の加算はスコアを決定する前記比較処理と同時に行なう
こともできる。単語の終了時、又は数個の単語を含むこ
ともある音声信号の終了時には、ブロック４０にて最適
な全経路が決定されて、対応する単語系列がブロック７
０に出力される。このブロックは、例えば表示スクリー
ンとすることができるが、これは音声指令によって制御
すべきとするデバイスにより形成するのが好適である。

【００１６】連続テスト信号と種々の単語の基準信号と
の比較及び最適な単語系列の確定につき以下図２を参照
して詳細に説明する。時間軸ｔは受信した音声信号によ
り決定されるテスト信号の系列を表わすのに対し、縦軸
Ｒは明瞭化のために上下に配列した複数の単語に対する
基準信号の系列を表わす。図２は、第１テスト信号が単
語Ｗ１に関連する基準信号の系列Ｒ１に最も良く対応し
ていることを示している。他の単語に関連する他の基準
信号の系列Ｒ２及びＲ３の開始部との比較も常に開始さ
れるが、ここではその類似度は、こうした一連の比較が
直ぐに終了してしまうほどに小さいものとする。従っ
て、一般に、その後のテスト信号と例えば基準信号の系
列Ｒ１との新たな比較が再び開始するが、こうした比較
も直ぐに終了してしまう。その理由は、後に話される音
声信号の部分は基準信号の系列Ｒ１の開始部とはかなり
ずれるからである。

【００１７】基準信号の系列Ｒ１を経る経路の終了後
（この経路は単語Ｗ１に対応する）、基準信号の系列Ｒ
１〜Ｒ３の開始部との比較が続行され、本例では、基準
信号の系列Ｒ３から開始している経路が最適経路又はサ
ブ経路となって、その後単語Ｗ３が認識されたものとし
て出力される。音声信号が長く持続する場合には、多く
の単語が話されるから、上述したような比較が同様に継
続される。

【００１８】１つの単語内での比較を行なう際中に生ず
る事象を図３につき詳細に説明する。この図３は図２の
細部、即ち瞬時ｔとｔ＋１における２つの連続するテス
ト信号のみに対する推移を幾つかの基準信号ｒ_i, ｒ
_i+1，ｒ_i+2等と一緒に示したものである。瞬時ｔにお
けるテスト信号では、最適経路Ｐがさしあたり基準値ｒ
_iにて終了したものとする。次いで、瞬時ｔ＋１におけ
る次のテスト信号が、許容推移ａ_i,i，ａ_i,i+1及びａ
_i,i+2（これらの推移にはそれ相当に指定された推移値
が関連付けられる）に従って基準信号ｒ_i, ｒ_i+1及び
ｒ_i+2と比較される。本例におけるこれらの推移値は推
移確率の負の対数に相当する。瞬時ｔ＋１におけるテス
ト信号と基準信号ｒ_iとの比較により得られるスコア
は、これら２つの信号間の差に依存し、且つ前記スコア
は推移値ａ_i,iにより増分される。同様に、このテスト
信号と基準信号ｒ_i+1との比較により、推移値ａ_i,i+1
により増分されるスコアが得られる。同様に、基準信号
ｒ_i+2との斯かるテスト信号の比較により、推移値ａ
_i,i+2により増分されるスコアが得られる。推移値ａ
_i,i及びａ_i,i+2は、例えば等しいか、又は僅かに異な
る値とするのに対して、推移値ａ_i,i+1は十分小さくす
る。瞬時ｔ＋１におけるテスト信号が、図示の３つの全
ての基準信号に対してほぼ同じ差を呈する場合には（こ
れは隣接している基準値が似ていることがよくあるか
ら、極めてありがちなことである）、基準値ｒ_i+ ₁との
比較により推移値によって増分されるスコアが最小とな
るため、基準値ｒ _iにて終了した経路Ｐが対角線方向に
連続する。従って、この対角線方向が優先される。

【００１９】早口の話者の場合には、瞬時ｔ＋１におけ
るテスト信号の方が基準値ｒ_i+2に似ることがある。し
かし、推移値ａ_i,i+2が推移値ａ_i,i+1よりもあまりに
も大き過ぎる場合には、対角線方向が誤った方向に強制
されることになる。こうしたことが単語内、即ち基準信
号の系列内にて繰返し生ずる場合には、結局はテスト信
号系列と基準信号系列との間の良好な類似度（過度に早
い音声を除く）にとってふさわしいものよりも劣るスコ
アの加算値が得られる。これにより、全体的に認識信頼
度が劣ることになる。従って、話者があまりに早口か、
又はあまりにゆっくり話すことがあったら直ぐに推移値
を変更して、前記対角線から同じようにずれている方向
を優先するようにするのが有利である。

【００２０】このような適合化は図１のブロック５０に
て次のようにして行なわれる。１つの単語又は短い単語
系列が認識されている場合、即ち当該系列の終端に至る
経路が少なくとも１つの基準信号系列にて決定されてい
る場合には、この単語認識の目的にどれほどのテスト信
号が必要とされたかがわかる。この系列の基準信号の数
は与えられているから、次の比ｎを計算することができ
る。ｎ＝Ｔ／Ｎこゝに、Ｔは単語を認識したテスト信号の数であり、Ｎ
は当該系列における基準信号の数である。この比ｎを用
いることにより新たな推移値ａ′を当面の推移値ａから
特定化する。ａ′_i,i＝ａ_i,i−（ｎ−１）ｂａ′_i,i+1＝ａ_i,i+1 ａ′_i,i+2＝ａ_i,i+2＋（ｎ−１）ｂ

【００２１】比例係数ｂは推移値を話者の話し方に適合
させる度合を決定する。この適合化が話者の話し方での
偶然の極値に過度に左右されないようにするために、比
例係数ｂの値はあまり大きな値とすべきではない。比例
係数ｂの値は、推移値ａを前述したように推移確率の負
の対数で表わす場合には、ｂ＝１８０で適当な妥協が見
られることを確かめた。従って、経路の対角線進路に対
する推移値は斯かるｂの値に無関係に一定に保たれ、こ
れは早口の音声の場合には、急峻な推移値ａ_i, _i+2が、
急峻でない推移ａ_i,iに対する推移値を増分させるのと
同程度に低減されるからである。従って、全体としては
連続するテスト信号用の基準信号間の急峻な推移が優先
される。これと同じことがゆっくり話される音声の場合
にも云える。新規の推移値はブロック３０に転送され
て、次の比較用に用いられる。

【００２２】基準信号そのものを話者の発音の仕方に適
合させることにより認識信頼度をさらに向上させること
ができる。これは図１のブロック６０にて次のようにし
て行なう。

【００２３】単語を上述した方法で認識した後に、以前
最適経路を見つけた基準信号の系列とテスト信号を再び
比較し；各基準信号ｙ_iを次のような適合化基準信号ｒ
_i′に変換する。ｒ′_i＝ｒ_i（１−ｃ）＋ｃ・ｙ_t こゝに、ｙ_tは瞬時ｔに基準信号ｒ_iと比較されるテス
ト信号であり、係数ｃは当面の基準信号を変更させた程
度を示す。特に、基準信号を連続する単語に複数段階に
て適合させる場合には、値ｃをｃ＝０．１３とするのが
有効であることを確かめた。

【００２４】斯くして、これまでは基準信号の系列が各
単語を表わすものとしていた。しかし、基準信号の個々
の系列が多くの単語にとって同じとなり得る音素を表わ
す音声認識システムもある。この場合には認識した音素
から単語を形成する。推移値或いは基準信号を適合化す
る上述した方法は斯種の音声認識システムに使用するの
も好適である。

【００２５】さらに、上述した例に対立するものとし
て、推移値が全ての基準信号に対して同じでなく、系列
内の基準信号の位置に応じて互いにずれるようにする方
法を用いることもできる。この場合、適合化係数ｂは、
必要に応じ、位置依存法にて決定する必要がある。

【図面の簡単な説明】

【図１】本発明による単語認識システムの一例を示すブ
ロック図である。

【図２】連続する単語を経る経路の形成法を示す線図で
ある。

【図３】２つの連続するテスト信号に対する推移を示す
線図である。

【符号の説明】

２マイクロホン 10 テスト信号出力ブロック 20 基準信号格納メモリ 30 スコア発生ブロック 40 単語系列出力ブロック 50 推移値変更ブロック 60 基準信号適合化ブロック 70 単語系列表示ブロック

フロントページの続き (72)発明者ハンス−ウィルヘルムリュールドイツ連邦共和国 90552 レーテンバッハ／ピグニッツカール−フイッシャー− シュトラーセ５

Claims

【特許請求の範囲】

【請求項１】音声信号から予定した語彙の単語を認識
するためのシステムであって、 − 音声信号をピックアップし、且つディジタルテスト
信号の系列を供給するための第１手段と、 − 前記語彙の単語に対応する基準信号の系列を格納す
るための第２手段と、 − 前記第１及び第２手段に結合され、前記テスト信号
を第１基準信号と比較して、各第１基準信号に対して、
前記テスト信号と第１基準信号との差に依存するスコア
を求めるための第３手段であって、前記第１基準信号
は、以前のテスト信号に対して比較が首尾よく行われた
関連系列内の第２基準信号と同一とするか、又はその第
２基準信号の近傍内の信号とし、前記第２基準信号から
の距離に応じて、前記スコアを推移確率に依存する推移
値によって増分させるように構成した第３手段と、 − 連続するテスト信号と比較される各基準信号系列に
対する増分スコアを加算し、これら増分スコアの和が最
小である最適系列を求めて、この最適系列に関連する１
つ又は複数の単語を出力するための第４手段と、を具え
ている単語認識システムにおいて、基準信号の最適系列
と比較されるテスト信号が取出された音声信号の長さ
と、前記基準信号の最適系列の長さとのずれに応じて、
前記推移値を後の比較用の新規の推移値に変更する第５
手段を設けたことを特徴とする単語認識システム。
【請求項２】Ｔを前記テスト信号の系列の長さとし、
且つＮを前記基準信号の系列の長さとする場合に、前記
第５手段が次の比、即ちｎ＝Ｔ／Ｎに応じて推移値ａを次のように新規の推移値ａ′に変更
すべく構成され、ａ′_i,i＝ａ_i,i−（ｎ−１）ｂａ′_i,i+1＝ａ_i,i+1 ａ′_i,i+2＝ａ_i,i+2＋（ｎ−１）ｂこゝに、指数ｉ，ｉは、第１基準信号が第２基準信号に
等しいことを意味し、指数ｉ，ｉ＋１は、第１及び第２
基準信号が直接隣接することを意味し、指数ｉ，ｉ＋２
は第１及び第２基準信号が他の基準信号によって分離さ
れ、且つｂが予定した比例係数を意味するものとしたこ
とを特徴とする請求項１に記載のシステム。
【請求項３】前記基準値ｒ_iを次のように新規の基準
値ｒ′_iに変更するための第６手段を設け、ｒ_i′＝ｒ_i（１−ｃ）＋ｃ・ｙ_t ここにｙ_tを基準値の最適系列における基準値ｒ_iと比
較されるテスト信号とし、且つｃを予定値としたことを
特徴とする請求項１又は２に記載のシステム。
【請求項４】同じ音声信号内での基準値の変更を少な
くとも数回行なうことを特徴とする請求項１〜３のいず
れか一項に記載のシステム。