JP4520596B2

JP4520596B2 - 音声認識方法および音声認識装置

Info

Publication number: JP4520596B2
Application number: JP2000247012A
Authority: JP
Inventors: バウアーヨーゼフ; ユンカヴィッチュヨッヘン
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1999-08-18
Filing date: 2000-08-16
Publication date: 2010-08-04
Anticipated expiration: 2020-08-16
Also published as: EP1077448A3; EP1077448B1; DE19939102C1; US6947892B1; DE50012279D1; JP2001075580A; EP1077448A2

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識方法および音声認識装置に関する。
【０００２】
【従来の技術】
これまでに知られている音声自動認識方では、ノイズによって認識エラーが頻繁に引き起こされる。このようなノイズに関して２つの形式が区別され、すなわち別の話者の音声（これはたしかにたいていは適正に認識されるが本来の話者の音声信号に対応づけるべきものではない）と、音声信号を成さないノイズたとえば呼吸音（これは誤って音声として認識される）とが区別される。
【０００３】
これらのノイズは、音声自動認識において甚だしいエラー要因を成す。このようなエラーを回避するため、個々の話者の話し方に合わせて音声認識システムがトレーニングされ、これによって話者からの音響信号であるのかノイズであるのかを音声認識システムが判定できるようになる。話者の代わることの多い音声認識システムであると、個々の話者各々に合わせてトレーニングすることができない。したがって電話装置に集積される音声認識システムであると、そのつど電話をかけてきた人によって、たいていは１分も続かないメッセージをその人が話せるようになる前に、数分間続くトレーニングフェーズを実行するのは不可能である。
【０００４】
【発明が解決しようとする課題】
したがって本発明の課題は、ノイズにより生じる認識エラーの低減された音声認識を実現することである。
【０００５】
【課題を解決するための手段】
本発明によればこの課題は、語の境界に基づき音声中の語と休止を決定し、休止中の平均休止音量を求め、語について平均語音量を求め、平均語音量と平均休止音量との差を求め、平均語音量と平均休止音量との差がまえもって定められた閾値よりも大きければ音声を認識し、そうでなければ音声認識を実行しないことにより解決される。
【０００６】
【発明の実施の形態】
このように本発明によれば、語の境界に基づき音声中の語と休止とが決定される音声認識方法が提供される。休止中、休止音量（Ｓｉレベル）が求められる。また、語については平均語音量（Ｗｏレベル）が求められる。さらに、平均語音量（Ｗｏレベル）と平均休止音量（Ｓｉレベル）との差（Δ）が求められる。平均語音量（Ｗｏレベル）と平均休止音量（Ｓｉレベル）との差（Δ）がまえもって定められた閾値（Ｓ）よりも大きければ、音声が認識される。そうでなければ、その範囲では音声認識は実行されない。
【０００７】
差Δは、話された語と休止中のノイズとの間における音量間隔を成している。認識された語の音量間隔が過度に小さければ、その語は適正には認識されなかった語であると評価される。このため、１つの語がそれ以外のノイズに対しまえもって定められた音量間隔をもっているか否かが判定される。ここでは、従来の音声自動認識方法では誤った認識を生じさせることの多いノイズは話者により発せられた語よりも静かである、という状況が利用される。本発明によればそれらのノイズを、それが語を含んでいるかまたはそれが音声信号を成さないノイズであるかとは無関係に、簡単に除去することができる。
【０００８】
しかも本発明による方法はきわめて簡単に実現できる。それというのも、分析すべき音声信号区間の一部分に関する平均音量だけを求めればよいからである。なお、本発明における音量とは、デシベルで測定される物理的な音量にほぼ比例する何らかの物理量のことである。これに比例する量は、音響信号のエネルギーないしはそれに対応する電気信号のエネルギー、たとえば電圧や電流などその信号の電気的な量である。
【０００９】
殊に音声認識において重要であるのは、適正な話者の適正な発話を認識することである。このことは、明らかに音声構成部分が含まれている周囲ノイズが音声認識システムによって、それが実際に認識すべき音声を発する話者からのものであると解釈されるおそれのある点で問題である。混同を避けるため、適正な話者と誤った話者とを区別する方法が提供される。たとえば、音声を認識すべき話者のレベルは、たいていはバックグラウンドから到来する妨害ノイズの音声よりも著しく高い。したがって音声を認識すべき話者の音量レベルに基づき、その音声をバックグラウンドノイズと区別することができる。
【００１０】
本発明による音声認識装置によればプロセッサユニットが設けられており、このプロセッサユニットは以下のように構成されている。すなわち、
ａ）語の境界に基づき音声中の語と休止を決定し、
ｂ）休止中の平均休止音量（Ｓｉレベル）を求め、
ｃ）語について平均語音量（Ｗｏレベル）を求め、
ｄ）平均語音量（Ｗｏレベル）と平均休止音量（Ｓｉレベル）との差（Δ）を求め、
ｅ）平均語音量（Ｗｏレベル）と平均休止音量（Ｓｉレベル）との差（Δ）がまえもって定められた閾値（Ｓ）よりも大きければ音声を認識し、
ｆ）そうでなければ音声認識を実行しない
ように構成されている。
【００１１】
この装置は、本発明による方法あるいはその実施形態を実行するのに殊に適している。
【００１２】
次に、図面を参照しながら本発明について詳しく説明する。
【００１３】
【実施例】
図１には、音声自動認識方法が略示されている。この方法は実践ではコンピュータプログラムにより実現され、これは音声信号に対する入力を有するコンピュータまたはプロセッサユニットにおいて動作する。
【００１４】
この方法ないしは対応するプログラムは、ステップＳ１においてスタートする。続くステップＳ２において、音声信号Ｓにおける１つの語が分析される。このような分析自体は周知のようにして行われ、その際、通常は電気信号に変換された信号として存在する音響的音声信号が語と休止のセグメントに分けられ、語はテキストに変換される。信号区間のセグメンテーションは、たとえばビタビアライメント方式に従って行われる。
【００１５】
図２には、信号区間Ｓの一部分を座標系で表したダイアグラムが示されている。この座標系において横軸には時間ｔが、縦軸には音量が書き込まれている。ここで音量は、信号ＳにおけるエネルギーＥの対数として表されている。
【００１６】
本発明において音量とは、デシベルで測定される物理的な音量にほぼ比例するなんらかの物理量のこととする。これに比例する量は信号Ｓのエネルギーのほか、電気信号に変換された音響信号の電気的な量たとえば電圧や電流などである。
【００１７】
信号区間Ｓのセグメンテーションにあたり時点ｔ１，ｔ２が求められ、これらの時点によってそれぞれ休止Ｐと語Ｗとの間の境界が定められる。図示の実施例では時点０と時点ｔ１との間ないしは時点ｔ２の後に休止があり、時点ｔ１とｔ２との間では信号Ｓにより語が表されている。
【００１８】
ステップ３において、平均休止音量Ｓｉレベルが求められる。この平均休止音量Ｓｉレベルは、１つまたは複数の休止区間Ｐにおける音量の時間的平均値である。
【００１９】
ステップＳ４において、平均語音量Ｗｏレベルが求められる。この平均語音量Ｗｏレベルは、個々の語の区間Ｗにおける音量の時間的平均値であり、つまり個々の語について各々別個のＷｏレベルが計算される。
【００２０】
続くステップＳ５において、平均語音量Ｗｏレベルと平均休止音量Ｓｉレベルとの差Δが計算される：
Δ＝Ｗｏレベル−Ｓｉレベル
その後、ステップＳ６において、差Δが閾値ＳＷよりも小さいか否かについて問い合わせられる。閾値ＳＷは「音量間隔」を成している（図２も参照）。
【００２１】
この問い合わせにより差Δが閾値ＳＷよりも小さいと判明すればこのことは、平均語音量Ｗｏレベルと平均休止音量Ｓｉレベルとの間の音量間隔がまえもって定められた閾値ＳＷよりも小さいことを意味する。平均語音量Ｗｏレベルと平均休止音量Ｓｉレベルとの間の音量間隔が所定の閾値ＳＷよりも小さい語は、適正には認識されなかったと判定される。それというのも本発明の発明者によれば、ノイズは一般に評価すべき語信号よりも静かであり、あるいは満足のいく音声認識が不可能である一定の妨害ノイズ（回線中のノイズや喧しいバックグラウンドノイズ）のとき、平均語音量と平均休止音量との音量間隔はきわめて僅かであることが確かめられたからである。これら両方の事例において捕捉された信号がテキストに変換されると、ほとんど必ず誤った認識になってしまう。ステップ６における問い合わせにおいて差Δが閾値ＳＷよりも小さいことが判明すれば、プログラムはステップＳ７へ進み、そこにおいて誤り除去が行われるが、これについてはあとで詳しく説明する。その後、ステップ８において、別の語を判定すべきであるか否かが調べられる。ステップ６の結果として差Δが閾値ＳＷよりも大きければ、プログラムシーケンスはただちにステップＳ８の問い合わせに分岐する。
【００２２】
ステップ８における問い合わせによって、まだ別の語を分析して評価すべきである否かが調べられ、結果が「イエス」であれば、プログラムシーケンスはステップＳ２へ戻って進み、そうでなければプログラムはステップＳ９で終了する。
【００２３】
上述の実施例の場合、捕捉された語は個別に分析されてテキストに変換され、そして評価される。この方法を逐次認識ないしはステップ・バイ・ステップと称する。ここで好適であるのは、１つの語Ｗの平均語音量Ｗｏレベルとその直前の休止Ｐの平均休止音量Ｓｉレベルとから差Δを形成することである。しかし、語Ｗに続く休止の平均音量または先行する休止または後続の休止に関して平均をとった休止音量を用いることもできる。
【００２４】
逐次認識の代わりに、複数の語をまとめた認識を用いることもできる。ここで一般的であるのは、それぞれ１つの文章全体を信号区間として取り込み、次に一度に分析することである（一文認識）。この種の一文認識の場合、休止音量の平均をすべての休止Ｐについてとることができるが、各語Ｗについての平均語音量は個別に求める必要があり、これは個々の語が適正に認識されたかされなかったかを判定できるようにするためである。
【００２５】
ステップ７における誤り除去にあたり適用事例に応じて種々の変形の仕方があり、それらを単独でまたは組み合わせて使用することができる。
【００２６】
第１の変形形態によれば、適正には認識されなかったと判定された語は、テキストへの変換時に考慮されないかまたはそのテキストから取り除かれる。
【００２７】
誤り除去に関する第２の変形形態によれば、１つの語が適正には認識されなかったと判定されたとき、それ相応のメッセージがユーザに送出される。このメッセージは音響的なメッセージとして送出できるし（たとえば「最後の語は正しく理解できませんでした」）、あるいは画像表示として指示することもできる。第１の事例は、たとえば音声自動認識を備えた通信装置などディスプレイの設けられていない音声認識システムのために好適であるし、第２の事例はたとえばディクテーションシステムにおいて有用であろう。ディクテーションシステムでは画像表示としてまえもって定められたエラー記号がテキスト中の対応個所にはめ込まれ、それによってユーザはその語を新たに話すよう促され、ついでその語はテキスト中のエラー記号の個所にはめ込まれる。ここでユーザがいかなる語もはさむ意志がなければ、ユーザはエラー記号を除去するための相応の消去機能を操作できる。
【００２８】
エラー除去の第３の変形形態によれば、要求された音量間隔に届かせるため対応するメッセージによりユーザに対しもっと大きく話すよう要求することができる。これにより音声入力が、音響的な条件（話者におけるノイズレベル）ないしは音響信号の伝送条件（回線中のノイズ）に整合されるようになる。もっと大きく話すよう繰り返し要求しても認識結果が改善されなければ、ユーザに対し別の音響条件ないしは伝送条件を作成するよう要求することもでき、これはたとえば、ユーザが音声認識システムを備えた電話を介して接続されている場合であれば、別の電話機から電話するようユーザに対し要求することによって行われる。
【００２９】
エラー除去に関する第４の実施形態によれば、複数の語が相次いで適正に認識されなかったと評価された場合、このことを音声入力の品質が低すぎると判定することができ、ユーザに対しそれ相応のメッセージを送出することができる。
【００３０】
さらにエラー除去の第５の変形形態によれば、いわゆるｎベストリスト（n-best-list）の語が個別に評価される。１つの信号シーケンスに対し、同じように響く複数の語を対応づけできることが多い。それらの語によってｎベストリストが形成される。休止と個々の語との間の限界はｎベストリストの個々のワードにおいて区別されるので、ｎベストリストの個々の語について異なる平均語音量およびそれに従って異なる差Δを求めることができる。
【００３１】
テキストに挿入されるｎベストリストの語の選択は、それ自体周知のマッチング判定基準に従って行われ、その際、本発明によれば差Δを付加的なマッチング判定基準として用いることができ、この場合、最も大きい差Δをもつ語がテキスト中に挿入される。エラー除去に関するこの５番目の変形形態は独立した本発明の着想を成しており、これを上述の方法とは無関係にｎベストリストの自動的な評価において適用することができる。
【００３２】
本発明の１つの実施形態によれば、閾値ＳＷは一定である。
【００３３】
しかしこの閾値ＳＷを、音響条件や信号伝送条件に合わせて自動的に整合させることもできる。優れた音響条件や信号伝送条件が生じていれば一般に、一定の閾値よりも著しく大きい差Δが得られ、これは様々な用途や条件に適したものでなければならない。このような事例の場合に好適であるのは、閾値を大きな差Δに合わせることである。つまりたとえば、捕捉された複数の語に対する平均語音量と捕捉された複数の休止に対する平均休止音量との間におけるグローバルな差Δｇｌを計算し、これらグローバルな差Δｇｌをそのまま、あるいは所定の一定値により減算した後、閾値ＳＷとして用いることができる。これは殊に、エラー除去の第１の変形形態と組み合わせると有利である。なぜならばそれにより、平均語音量よりもごく僅かに静かなノイズもフィルタリングして除去することができるからである。その結果、高品質の音声入力の場合には閾値（それ以下では信号は適正には認識されなかったと判定される）が、劣悪な品質の音声入力の場合よりも高くセットされるようになる。有利には閾値に対する下限が設けられており、これによってそれがゼロまで低減されてしまう可能性がない。
【００３４】
可変閾値のレベルを、音声入力の品質係数として判定することもできる。可変の閾値がその下限に達した場合、音声入力の品質がかなり劣化したことを意味し、このことをユーザに対しそれ相応に通知することができる。
【００３５】
グローバルな差の計算にあたり有利には、音声認識システムとの会話中に話されたすべての語と休止が考慮される。
【００３６】
図３は、音声認識のための装置が描かれている。この装置は通信施設１であり、これは回線ライン２を介して電話回線網と接続されている。この通信施設１は加入者アクセスコントローラ３を有しており、これにより外部から電話をかけてきた遠方の通話加入者を内部バス４，ディジタルオーディオプロセッサ５およびローカルな電話回線６を介して電話機７と接続することができ、つまりはその電話機を使用するユーザとつなぐことができる。内部バス４は、アナウンスユニット８および音声ユニット９と接続されている。アナウンスユニット８により、バス４つまりは電話回線２，６に対しアナウンスを出すことができる。この通信施設はマイクロプロセッサ１０により制御され、これはディジタルオーディオプロセッサ５、アナウンスユニット８ならびに音声ユニット９と接続されている。音声ユニット９は、音声分析モジュール１１と音量測定装置１２と音声コントローラ１３とによって構成されている。
【００３７】
音声分析モジュール１１は音声信号の分析を実行し、その際、音声信号は休止と語のセグメントに分けられ、さらに語はテキストに変換される。音声分析モジュールは音量測定装置１２へ音声信号Ｓの個々の部分（語Ｗと休止Ｐ）を伝送し、音声コントローラ１３へは変換されたテキストを伝送する。音声測定装置は音声信号における個々の部分の平均音量（Ｗｏレベル、Ｓｉレベル）を求め、対応する値を音声コントローラ１３へ供給する。そして音声コントローラ１３において、個々の語が適正に認識されたか否かが調べられ（図１のステップ６）、場合によっては音声コントローラ１３において適正には認識されなかった語がフィルタリングされて除去される（エラー除去の第１の変形形態）。
【００３８】
フィルタリングされたテキストまたはフィルタリングされなかったテキストは、エラー除去に必要とされる他のデータとともに音声コントローラ１３からマイクロプロセッサ１０へ転送され、受け取ったテキストおよび対応するデータをこのマイクロプロセッサが評価する。
【００３９】
マイクロプロセッサ１０の機能は、到来する呼び出しを自動的に個々の電話機７とつなぐことである。この機能は、音声コントローラ１３により受け取られたテキストの評価と、ディジタルオーディオプロセッサ５における個々の出力の対応する出力のイネーブル接続により行われる。
【００４０】
受け取ったテキストを評価できなかったり、あるいはアナウンスを伴うエラー除去が必要な場合（第２、第３または第４の変形形態）、アナウンスユニット８がマイクロプロセッサにより制御され、対応するアナウンスが実行される。
【００４１】
このように本発明による通信施設には自動的な交換動作が統合されており、これによれば到来する電話通話を個々の電話機へ自動的に転送することができる。
【００４２】
さらに本発明による通信施設１によれば、電話機７のユーザが電話施設１をその声で制御することができ、たとえば選択すべき番号をキーを押す代わりに話すようにすることができる。
【００４３】
これらすべての機能は、できるかぎりエラーのない音声認識を前提としている。本発明によればノイズによるエラーを、それがバックグラウンドの音声信号であってもあるいは音声信号を成さないノイズによるものであっても、著しく改善し、従来の音声認識システムよりも簡単にエラーを防止することができる。
【図面の簡単な説明】
【図１】音声認識方法を略示するフローチャートである。
【図２】信号区間の一部分を表すダイアグラムである。
【図３】本発明に従って動作する通信施設を示すブロック図である。
【符号の説明】
１通信施設
２回線ライン
３加入者アクセスコントローラ
４内部バス
５ディジタルオーディオプロセッサ
６電話回線
７電話機
８アナウンスユニット
９音声ユニット
１０マイクロプロセッサ
１１音声分析モジュール
１２音声測定装置
１３音声コントローラ

Claims

音声認識方法において、
ａ）語の境界に基づき音声中の語と休止を決定し、
ｂ）休止中の平均休止音量（Ｓｉレベル）を求め、
ｃ）語について平均語音量（Ｗｏレベル）を求め、
ｄ）平均語音量（Ｗｏレベル）と平均休止音量（Ｓｉレベル）との差（Δ）を求め、
ｅ）平均語音量（Ｗｏレベル）と平均休止音量（Ｓｉレベル）との差（Δ）がまえもって定められた閾値（Ｓ）よりも大きければ音声を認識し、
ｆ）そうでなければ音声認識を実行しないことを特徴とする、
音声認識方法。
平均休止音量と平均語音量を捕捉されたエネルギーに関する対数として測定する、請求項１記載の方法。
セグメントに分けられた複数の語の平均語音量とセグメントに分けられた複数の休止の平均休止音量との間のグローバルな差を計算し、該グローバルな差に基づき閾値を求める、請求項１または２記載の方法。
前記閾値をグローバルな差と等しくする、請求項３記載の方法。
前記グローバルな差をまえもって定められた一定値だけ低減し、それにより得られた音量値を閾値として用いる、請求項３記載の方法。
一定の閾値を用いる、請求項１または２記載の方法。
音声認識を実行しない語はそれ以上考慮しない、請求項１から６のいずれか１項記載の方法。
音声認識を実行しない場合にはユーザに対しメッセージを送出する、請求項１から７のいずれか１項記載の方法。
前記メッセージによりユーザに対しもっと大きく話すよう、および／または適正には認識されなかった語を繰り返すよう要求する、請求項８記載の方法。
前記メッセージによりユーザに対し、平均語音量と平均休止音量との間に十分な間隔を生じさせるためにもっと大きく話すよう要求する、請求項９記載の方法。
それぞれ個々の休止に対する平均休止音量を求め、話された語の平均語音量（Ｗｏレベル）と、直前の休止または直後の休止の平均休止音量（Ｓｉレベル）との間の差（Δ）を求める、請求項１から１０のいずれか１項記載の方法。
相前後する複数の休止について平均休止音量を求め、該平均休止音量を差（Δ）を求めるときに用いる、請求項１から１１のいずれか１項記載の方法。
ｎベストリストを作成し、ｎベストリストにおける各語に対し、話された個々の語の平均語音量（Ｗｏレベル）と平均休止音量（Ｓｉレベル）との差（Δ）を対応づけ、ｎベストリストからテキスト中に挿入すべき語を、話された個々の語の平均語音量（Wｏレベル）と平均休止音量（Ｓｉレベル）との前記の差（Δ）に応じて求める、請求項１から１２のいずれか１項記載の方法。
音声認識装置において、
プロセッサユニットが設けられており、該プロセッサユニットは、
ａ）語の境界に基づき音声中の語と休止を決定し、
ｂ）休止中の平均休止音量（Ｓｉレベル）を求め、
ｃ）語について平均語音量（Ｗｏレベル）を求め、
ｄ）平均語音量（Ｗｏレベル）と平均休止音量（Ｓｉレベル）との差（Δ）を求め、
ｅ）平均語音量（Ｗｏレベル）と平均休止音量（Ｓｉレベル）との差（Δ）がまえもって定められた閾値（Ｓ）よりも大きければ音声を認識し、
ｆ）そうでなければ音声認識を実行しないことを特徴とする、
音声認識装置。