JP2004502985A

JP2004502985A - 以後のオフライン音声認識のための音声情報を記録する記録装置

Info

Publication number: JP2004502985A
Application number: JP2002509271A
Authority: JP
Inventors: バルトシク　ハインリッヒ　エフ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-06-29
Filing date: 2001-06-25
Publication date: 2004-01-29
Anticipated expiration: 2021-06-25
Also published as: WO2002005537A8; US6910005B2; CN1205800C; EP1299996B1; EP1299996A1; US20020019734A1; ATE419710T1; CN1389059A; DE60137225D1; JP4917729B2; WO2002005537A1

Abstract

【課題】オフライン音声認識サービスのユーザが、受信された音声信号の品質が、オフライン音声認識の場合に、この回路に続く音声認識デバイスが、十分高い品質を持ってテキスト情報を認識できるために十分であるか否かについてのフィードバックを、口述中に、既に、受信している記録デバイスを提供すること。
【解決手段】口述の音声情報（ＳＩ）を記録し、次いで、前記口述の前記記録された音声情報をオフライン音声認識のための音声認識デバイス（４）に転送するための記録装置（３）において、前記記録装置が、前記口述の前記音声情報（ＳＩ）を受信するための受信手段（６）と、前記口述の前記受信された音声情報（ＳＩ）を前記記録装置（３）の記録モードで記録するための記録手段（７）と、前記口述の記録された音声情報（ＳＩ）を前記記録装置の転送モードで前記音声認識デバイス（４）に転送するための転送手段（８）であって、前記音声認識デバイスが、前記転送された音声情報（ＳＩ）に割り当てられるテキスト情報（ＴＩ）を認識するように構成され、前記認識されたテキスト情報（ＴＩ）の品質が前記受信された音声情報（ＳＩ）の品質に依存する転送手段（８）と、を有し、さらに、前記記録モードで受信された前記音声情報（ＳＩ）が前記音声認識デバイス（４）によって処理される時に、前記記録モードで受信された前記音声情報（ＳＩ）の品質が、前記認識されたテキスト情報（ＴＩ）の予め定められた品質を得るに十分であるかどうかをテストするための音声品質テスト手段（１３）であって、前記音声情報（ＳＩ）が、前記転送モードで前記転送手段によって転送される音声品質テスト手段（１３）を有し、かつ、前記記録モードでフィードバック情報（ＦＩ）を転送するためのフィードバック手段（１４）であって、前記フィードバック情報が前記音声品質テスト手段（１３）の前記テストの結果を表すフィードバック手段（１４）を有する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、口述の音声情報を記録し、次いで、前記口述の前記記録された音声情報をオフライン音声認識のための音声認識デバイスに転送するための記録装置において、前記記録装置が、前記口述の前記音声情報を受信するための受信手段と、前記口述の前記受信された音声情報を前記記録装置の記録モードで記録するための記録手段と、前記口述の記録された音声情報を前記記録装置の転送モードで前記音声認識デバイスに転送するための転送手段であって、前記音声認識デバイスが、前記転送された音声情報に割り当てられるテキスト情報を認識するように配置され、前記認識されたテキスト情報の品質が前記受信された音声情報の品質に依存する転送手段と、を有する記録装置に関する。
【０００２】
【従来の技術】
冒頭のパラグラフに記載の種類の記録装置は、英国特許出願公開ＧＢ−Ａ−２，３２３，６９３号により既知であり、かつオフライン音声認識サービスのコンピュータサーバによって構成される。オフライン音声認識サービスを利用するために、ユーザは、電話を介してコンピュータサーバを呼び出し、電話に口述を話すことができる。コンピュータサーバの受信手段が、電話回線に接続され、ハードディスクによって構成される記録手段が、受信された音声信号を記憶する。
【０００３】
ユーザが口述を終了した後、記録された音声信号は、オフライン音声認識用の音声認識デバイスに転送される。音声認識デバイスが、その音声信号に割り当てられるテキスト情報を認識し、その後、オフライン音声認識サービスのオペレータが、認識されたテキスト情報内に存在する明白な誤りを訂正する。その後、認識され、そして、誤りが訂正されたテキスト情報が、オフライン音声認識サービスのユーザにｅ−メールで送られ、その作業の費用が、ユーザに請求される。
【０００４】
【発明が解決しようとする課題】
この既知の記録デバイスにおいて、オフライン音声認識サービスのユーザが、ときには長い口述を行ない、そして、受信されかつ記録された音声信号の品質が、その後に転送される音声信号を音声認識デバイスがうまく処理できるほど十分であるか否かについて、何のフィードバックも与えられないということが、問題であるということが判明している。オフライン音声認識サービスのユーザに対して、彼の口述の記録された音声信号が、（例えば、性能の低い電話線のために）音声認識デバイスによって受け入れられないようなことが発生すれば、そのユーザは、最早二度とそのオフライン音声認識サービスを使わないであろう。これは、オフライン音声認識サービスのプロバイダにとって、大きな財政損失を意味する。
【０００５】
認識されたテキスト情報の品質が低いため、オフライン音声認識サービスのオペレータが、多数の明らかな誤りを訂正しなければならないということも、既知の記録デバイスのさらなる問題として判明している。したがって、オフライン音声認識サービスのユーザに、既に受信された音声信号の品質が低いことが口述中に指摘されるならば、オフライン音声認識サービスの費用は、相当に低減させることができる。
【０００６】
【課題を解決するための手段】
本発明の１つの目的は、オフライン音声認識サービスのユーザが、受信された音声信号の品質が、オフライン音声認識の場合に、この回路に続く音声認識デバイスが、十分高い品質を持ってテキスト情報を認識できるために十分であるか否かについてのフィードバックを、口述中に、既に、受信している記録デバイスを提供することである。
【０００７】
この目的は、冒頭のパラグラフに記載の種類の記録デバイスであって、前記記録モードで受信された前記音声情報が、前記音声認識デバイスによって処理される時に、前記記録モードで受信された前記音声情報の品質が、前記認識されたテキスト情報の予め定められた品質を得るに十分であるか否かをテストするための音声品質テスト手段であって、前記音声情報が、前記転送モードで前記転送手段によって転送される音声品質テスト手段を有する音声品質テスト手段を有し、かつ、前記記録モードで、前記音声品質テスト手段の前記テストの結果を表すフィードバック情報を転送するためのフィードバック手段を有する記録装置により実現される。
【０００８】
このことは、前記記録デバイスの前記ユーザが、前記受信された音声情報が、前記音声認識デバイスによってうまく処理されるのに十分であるか否かに関するフィードバックを、口述中に既に、受信しているという利点を提供する。
【０００９】
記録された音声信号の記録レベルをユーザが認識できるインディケータを有するディクテーティング機が、公知であることは、理解されるであろう。これにより、ユーザは、記録される音声信号のよりよい記録レベルを得るために、より大声で、または、より小声で話すことができる。しかしながら、記録された音声信号のただ１つまたは複数のパラメータにしかこのようなモニタリングをしないことは、高い信頼性で上述の目的を到達するためには十分ではない。
【００１０】
さらに、ユーザがマイクロフォンに口述を行ない、若干の処理期間の後に認識されたテキストをモニタ上に表示させることができるオンライン音声認識方式を実行するための音声認識デバイスが、公知であることも理解されるであろう。ユーザが、認識されたテキスト中の多くの誤りから、認識されたテキストの品質が低いことを認識すると、そのユーザは、処理された音声信号の記録レベルの表示を利用して、それに対応するように、口述中の自分の声の大きさを変えたり、または、再度、音声認識デバイスのマイクロフォンのオーディオ状態を変更することが出来る。
【００１１】
既知のディクテーティング機およびオンライン音声認識のための既知の音声認識デバイスの場合、受信されかつ処理された音声信号のただ１つのパラメータしか、示されない。これは、受信された音声信号の品質がその後の音声認識に適するか否かという、受信された音声信号の品質テストに全く適さない。さらに、既知のディクテーティング機および既知の音声認識デバイスでは、処理された音声信号の記録レベルを単に示すのみで、記録レベルの値が、受信された音声情報の品質に関し、その後のオフライン音声認識に対して十分ではないということは、示されない。何故ならば、このような記録レベルは、いずれにしても、後のオーディオ再生のための口述の単なる記録にも、オンライン音声認識にも、必要ではないからである。したがって、本発明による記録デバイスが解決しようとする課題も、その課題を解決するために発見された解決法も、従来技術のディクテーティング機およびオンライン音声認識のための音声認識デバイスにおいては知られていない。
【００１２】
請求項２および請求項３に記載の装置によれば、記録中に既に、記録デバイスによって記録されるべき音声信号の品質が、十分に良好な信号／雑音比および十分に高いレベルに対してテストされるという利点が得られる。
【００１３】
請求項４に記載の装置によれば、ユーザが、どの程度速く口述の言葉を話しているかについてテストが行なわれ、そして、話す速度が速すぎる場合には、そのユーザが、フィードバック情報によりもっとゆっくり話すように要求され、その結果、認識されるテキスト情報が、それに対応させた高い品質に達するという利点が得られる。
【００１４】
請求項５に記載の装置によれば、ユーザが、どのくらい明瞭に、理解し易く、それぞれ、口述の言葉を話しているかについてテストが行なわれ、そして、ユーザが不明瞭に言葉を発している場合には、そのユーザは、フィードバック情報によって、もっと明瞭に、理解し易く話すように要求され、その結果、認識されるテキスト情報の、それに対応させた高い品質が得られるという利点が得られる。
【００１５】
請求項６に記載の装置によれば、口述中に、その後の音声認識に対し、その後の処置によって、十分に高品質な音声情報の記録が得られるように、記録デバイスが、受信された音声情報の品質が低い場合に指示をユーザに与えるという利点が得られる。
【００１６】
【発明の実施の形態】
本発明のこれらの、および、他の有利な観点は、以下の実施例の参照により明らかとなり、解明されるであろう。
【００１７】
図１は、オフライン音声認識方法を実行できるオフライン音声認識システム１を示している。このシステムは、電話２、電話録音マシン（ｔｅｌｅｐｈｏｎｅａｎｓｗｅｒｉｎｇｍａｃｈｉｎｅ）３、音声認識コンピュータ４、ユーザ端末５、を有している。電話２およびユーザ端末５が、オフライン音声認識システム１のユーザの使用できるものであり、電話／データネットワークＮＥＴを介して、電話録音マシン３および音声認識コンピュータ４に接続されている。
【００１８】
音声認識コンピュータ４は、（例えば、Ｐｈｉｌｉｐｓ社の音声認識ソフトウェアＳｐｅｅｃｈＭａｇｉｃのような）音声認識ソフトウェア上で動作し、したがって、オフライン音声認識方法を実行するための音声認識デバイスを構成する。音声認識デバイスは、従来から知られているように、転送された音声情報ＳＩのデジタル音声データＳＤ（ＳＩ）を受信し、そして、この受信された音声情報ＳＩに割り当てられるテキスト情報ＴＩを認識する。
【００１９】
認識されたテキスト情報ＴＩの品質は、認識されたテキスト情報ＴＩ内の正しく認識された単語と、認識されたテキスト情報ＴＩ内で得られた全ての単語との比として定義できる認識品質値で、記述することができる。音声認識デバイスによって認識されるテキスト情報ＴＩの品質は、多くの影響因子に依存する。そのような影響因子としては、例えば、音声認識デバイスのトレーニング状態や、音声認識デバイスが認識し得る単語の数すなわち基本辞書（ｂａｓｉｃｌｅｘｉｃｏｎ）に収納されている単語の数がある。しかしながら、最良の音声認識デバイスであっても、音声情報ＳＩの品質が悪ければ、高い認識品質レベルを持つテキスト情報ＴＩを認識することはできないので、音声認識デバイスが受信する音声情報ＳＩの品質も、これらの影響因子の１つである。
【００２０】
音声情報ＳＩの品質は、非常に強い背景ノイズや、電話２の性能の悪いマイクロフォンによって、口述の間に既に損なわれていたり、または電話／データネットワークＮＥＴの電話線の不十分な送信特性によって、音声情報ＳＩの送信のすぐ後で既に損なわれていたりすることがある。この場合には、音声情報ＳＩに内包されるアナログ電気的音声信号ＳＳ（ＳＩ）の品質は、音声信号ＳＳ（ＳＩ）の信号／雑音比および音声信号ＳＳ（ＳＩ）のレベルによって記述させることができる。
【００２１】
音声信号ＳＳ（ＳＩ）に内包される音声情報ＳＩを、テキスト情報ＴＩの認識のために、音声認識デバイスによって評価させるとき、オフライン音声認識方法のための音声情報ＳＩの品質を、さらに、別のパラメータによって記述することも出来る。これらのパラメータの１つは、以下に詳細に検討されるように、音声情報ＳＩに含まれている単語の連続する速度を意味するスピーチ速度パラメータである。
【００２２】
音声認識コンピュータ４もユーザ端末５も、（例えば、ＩＢＭのＬｏｔｕｓＮｏｔｅｓのような）ｅ−メールソフトウェア上で動作し、かつ電話／データネットワークＮＥＴに接続されている。音声認識コンピュータ４は、このオフライン音声認識方法が終了すると、オフライン音声認識システム１のユーザのユーザ端末５に、ｅ−メールの添付メールとして、認識されたテキスト情報ＴＩを送る。
【００２３】
電話録音マシン３は、電話録音マシン３に転送されてきた口述の音声情報ＳＩを記録し、その後、その口述の記録された音声情報ＳＩを転送する記録デバイスを構成している。この目的のために、電話録音マシン３は、受信手段６、記録手段７、転送手段８を有している。
【００２４】
受信手段６は、電話プラグ９および電話インターフェースステージ１０を有している。電話録音マシン３は、電話プラグ９を介して、電話／データネットワークＮＥＴに接続されている。オフライン音声認識システム１のユーザは、自分の電話２を用いて電話録音マシン３の電話番号をダイアルし、そして、自分のユーザ端末５を用いて、認識されたテキスト情報ＴＩとして受信したいと思う自分の口述の音声情報ＳＩを入力することができる。そして、電話インターフェースステージ１０は、従来から知られているように、電話標準に一致する信号および電圧を受信し、転送するために設けられている。したがって、音声情報ＳＩの音声信号ＳＳ（ＳＩ）が、電話２から、電話／データネットワークＮＥＴ、電話プラグ９および電話インターフェースステージ１０を介して、記録手段７に転送される。
【００２５】
記録手段７は、音声情報ＳＩのアナログ音声信号ＳＳ（ＳＩ）を、デジタル音声データＳＤ（ＳＩ）に変換するためのアナログ−デジタル変換器を有している。記録手段７は、さらに、電話録音マシン３の記録モードで音声データＳＤ（ＳＩ）を記録するハードディスクを有している。
【００２６】
記録手段７は、転送手段８の一部を構成していて、電話録音マシン３の転送モードで記録された音声データＳＤ（ＳＩ）を、それぞれ、再生したり、転送したりするように構成されている。電話録音マシン３の転送手段８は、さらに、再生された音声データＳＤ（ＳＩ）が符号化方法にしたがって符号化されるデータ処理ステージ１１を有している。この操作は、音声認識コンピュータ４に対して、音声データＳＤ（ＳＩ）の処理を、より容易にする。転送手段８のデータ端子を介して、処理された音声データＳＤ（ＳＩ）が、電話録音マシン３から音声認識コンピュータ４に転送される。
【００２７】
電話録音マシン３は、記録モードで受信された音声情報ＳＩの品質が、転送モードで転送手段８から転送された音声情報ＳＩの処理中に認識されるテキスト情報の予め定められている品質に、十分到達しているか否かをテストするように構成されている音声品質テスト手段１３を有する。この目的のために、音声品質テスト手段１３は、音声信号ＳＳ（ＳＩ）の信号／雑音比、音声信号ＳＳ（ＳＩ）のレベル、および、音声情報ＳＩのスピーチ速度パラメータをテストするように構成されている。
【００２８】
信号／雑音比をテストするために、５０ｍｓ毎の音声信号ＳＳ（ＳＩ）の時間スロットのスペクトル成分に含有されるエネルギー量が決定され、エネルギー量の周波数分布が決定される。このようにして決定された周波数分布曲線の幅が広がれば広がるほど、音声信号ＳＳ（ＳＩ）の信号／雑音比は、小さくなる。専門家は、電気信号の信号／雑音比を決定する他の同様の方法に精通している。
【００２９】
信号／雑音比が小さすぎる場合には、かなり大きな雑音成分が、音声信号ＳＳ（ＳＩ）に含まれている。これは、音声信号ＳＳ（ＳＩ）のアナログ−デジタル変換中に外乱を与え、その結果、音声データＳＤ（ＳＩ）に内包される音声情報ＳＩが、最早、ユーザによって話された音声情報ＳＩに一致しなくなる。信号／雑音比が小さすぎる、このような品質の低い音声信号ＳＳ（ＳＩ）内に発生する音声情報ＳＩは、音声認識デバイスによって、認識品質のかなり低い値でしか認識され得ない。
【００３０】
音声信号ＳＳ（ＳＩ）のレベルをテストするために、スパイク部のエネルギー量を削除して、各スペクトル成分で決定されたエネルギー量を足し合わせる。音声信号ＳＳ（ＳＩ）のレベルが低すぎると、その音声信号ＳＳ（ＳＩ）に重なる雑音信号の効果が、音声信号ＳＳ（ＳＩ）が十分高いレベルを有している場合よりも、相当に顕著になる。したがって、音声信号ＳＳ（ＳＩ）のレベルが低すぎる場合、その音声信号ＳＳ（ＳＩ）は低品質である。
【００３１】
スピーチ速度をテストするために、音声品質テスト手段１３が、音声情報ＳＩのスピーチ速度パラメータを決定する。この目的のために、音声品質テスト手段１３内に備えられた時間測定手段が、大きなエネルギー量を持つ音声信号ＳＳ（ＳＩ）の隣接するセクション間の時間間隔を決定する。このように決定された時間間隔が小さければ小さいほど、音声情報ＳＩの各声が、たがいにより速く続き、そして、オフライン音声認識システム１のユーザは、より高速に話している。
【００３２】
スピーチ速度パラメータにより、ユーザがかなり高速に話していたことが見出されると、そのオフライン音声認識方法による処理において、音声情報ＳＩは低品質である。このような音声情報ＳＩは、音声認識デバイスによって低品質であるとしか認識されず、この結果、この場合に音声認識デバイスによって認識されるテキスト情報ＴＩは、低品質であり、かつ、低い値の認識品質しか有しない。
【００３３】
音声品質テスト手段１３による音声信号ＳＳ（ＳＩ）のテストは、１０秒の時間周期で行われる。受信された音声情報ＳＩの品質テスト結果は、その後、音声品質情報ＱＩとして、電話録音マシン３のフィードバック手段１４に転送される。１０秒間の長さの周期で音声信号ＳＳ（ＳＩ）をテストすることによって、例えば、電話線のひびの結果として、音声信号ＳＳ（ＳＩ）の品質がわずかに低下したとしても、これによって、音声品質情報ＱＩが低い値になることはない。
【００３４】
フィードバック手段１４は、電話録音マシン３の記録モードが活性状態にあり、かつ、音声品質情報ＱＩとして低い値が受信されたときに、オフライン音声認識システム１のユーザに、フィードバック情報ＦＩを伝える。したがって、フィードバック情報ＦＩは、音声品質テスト手段１３のテスト結果を示すものである。
【００３５】
このことにより、電話録音マシン３に受信された音声情報ＳＩの品質が低すぎて、その後のオフライン音声認識方法において十分に高い品質を持ち得るテキスト情報が実現できないときに、オフライン音声認識システム１のユーザが、口述中、既に、フィードバック情報ＦＩを受信しているという利点が得られる。この結果、そのユーザが、すぐにフィードバック情報ＦＩに対応できるという利点が得られ、したがって、音声情報ＳＩの品質が低すぎるという事実によって、彼の全口述が使用不可能になってしまうという事態の発生を回避することができる。
【００３６】
オフライン音声認識システム１の操作、および、電話録音マシン３の利点を、実施例を参照して、以下に、詳細に説明する。オフライン音声認識システム１のユーザが、医師で、かつ彼が、自分の発見を口述しようとしていると仮定する。さらに、この医師は、既に、オフライン音声認識システム１の身元確認ルーチンを通して既に作業にはいっていて、そして、（図１には全く示されていないが）医師のクレジットカード番号とともに医師の電話２の電話番号が、オフライン音声認識サービス料金の支払いのために、オフライン音声認識システム１に格納されていると仮定する。
【００３７】
医師は、今、電話録音マシン３の電話番号をダイアルし、オフライン音声認識システム１の使い方を簡単に説明しているテキストを聞いている。テレフォンインターフェース手段１０が、テレフォンプロトコルに送信されてきた電話２の電話番号により発信人の身元を確認し、それによって、オフライン音声認識サービス料金の支払いが、可能になる。その後、電話録音マシン３の記録モードが活性状態になり、医師が、自分の発見を、話し始める、即ち、口述し始める。そして、話された言葉の音声情報ＳＩが、受信手段６によって音声信号ＳＳ（ＳＩ）として受信され、記録手段７のハードディスクに音声データＳＤ（ＳＩ）として記憶される。
【００３８】
医師が口述している最中に、彼の助手が、部屋に入ってきて窓を開け、その後、通りからの雑音が、電話録音マシンによって受信される音声情報ＳＩに、かなり強い背景雑音として含まれるようになる。自分の口述に熱中している医師は、このことに気付かず、自分の発見を口述し続ける。
【００３９】
次いで、音声品質テスト手段１３が、常に遂行されている信号／雑音比、レベルおよびスピーチ速度のテストの結果により、音声信号ＳＳ（ＳＩ）の信号／雑音比が相当に低下していることを確認し、そしてフィードバック手段１４に、それぞれの音声品質情報ＱＩを送る。次いで、フィードバック手段１４は、ユーザに彼の部屋の背景雑音が強すぎることを指摘するフィードバック情報ＦＩとしてフィードバック手段１４に記録されたテキストを、再生する。この再生されたテキストに対応する音声信号ＳＳ（ＦＩ）が、電話プラグ９および電話／データネットワークＮＥＴを介して、電話２に与えられる。背景雑音を減少させなければ認識されるテキスト情報ＴＩが多くの誤りを含むことになると言う理由から、ユーザは、フィードバックテキストＦＩにより、背景雑音を減少させるよう要求される。
【００４０】
このことにより、過度の背景雑音が含まれているという問題が、医師に、すぐに、指摘されるので、窓が開かれた以後に口述されたテキストの、認識されたテキスト情報ＴＩに多くの誤りが導入されることを避けることが出来る利点が得られる。フィードバックテキストＦＩによって警告され、医師は、窓を閉め、口述を続けるので、過度の背景雑音の問題は、解決される。
【００４１】
医師は、自分のテキストの口述を終え、通話を止める。その後、電話録音マシンは、記録モードから転送モードに変り、医師の口述の記録された音声データＳＤ（ＳＩ）を、音声認識コンピュータ４に転送する。音声データＳＤ（ＳＩ）が転送されている間に、他のオフライン音声認識システム１のユーサが、電話録音マシン３を呼び出すと、転送モードは中断され、そして後に再開される。
【００４２】
次いで、音声認識コンピュータ４によって構成される音声認識デバイスが、転送された音声データＳＤ（ＳＩ）に割り当てられるテキスト情報ＴＩを認識し、それを、ｅメールの添付ファイルとして医師のユーザ端末に転送する。このようにして、医師は、ｅメールにより、自分の口述から認識されたテキストを受信し、そして、このオフライン音声認識サービスの費用が、彼のクレジットカードに請求される。
【００４３】
オフライン音声認識システム１のさらなる実施例によれば、医師は、電話録音マシン３の電話番号をダイアルするが、この場合、電話／データネットワークＮＥＴの電話線の送信品質はかなり低い。このことは、医師の口述の最初の単語の音声信号ＳＳ（ＳＩ）のテスト中に既に、この音声信号ＳＳ（ＳＩ）の信号／雑音比が低く、かつ、レベルが低いために、音声品質テスト手段１４によって、確認される。
【００４４】
口述の最初の数語ですぐに、医師が、フィードバック手段１４から、電話線の品質が非常に低いので、通話を中止し、通話し直すことを要求するフィードバック情報ＦＩを受信することは、利点である。このようにして、医師が、全テキストを電話２に口述したが、認識されたテキストが低品質であるためにオフライン音声認識システム１に不満を抱くということが、この場合にも、回避される。
【００４５】
記録デバイスがフィードバック情報ＦＩを敏速にフィードバックすることによって、音声認識コンピュータ４によって認識されたテキストをｅメイルによってユーザ端末５に送る前に、明白な誤りを捜すためにこのテキストをチェックする、オフライン音声認識システム１のオペレータが、非常に多くの誤りを訂正する必要がなくなるという利点も、得られる。したがって、ユーザに即座にフィードバックする結果、従業員の作業時間の増加を省くことが可能となるので、オフライン音声認識サービスが、より高い費用効率で実行することが可能になる。
【００４６】
図２は、オフライン音声認識における記録デバイスをも構成しているユーザのハンドヘルド型デジタルディクテーティング機１５を示している。ユーザによって話された口述の音声情報ＳＩが、マイクロフォン１７と信号処理ステージ１８とを有する受信手段１６によって受信される。
【００４７】
ディクテーティング機１５の記録モードで、信号処理ステージ１８によって転送された音声情報ＳＩの音声信号ＳＳ（ＳＩ）が、アナログ／デジタル変換器と、記憶媒体としてのサポートバッテリ付きのフラッシュＲＡＭとを有する記録手段１９によって記憶される。
【００４８】
記録手段１９は、ディクテーティング機１５の転送モードで、記録された音声情報ＳＩを内包するデジタル音声データＳＤ（ＳＩ）を、転送手段２０のデータ処理ステージ２１に転送する転送手段２０の一部を構成している。データ処理ステージ２１は、再生された音声データＳＤ（ＳＩ）を処理し、その処理された音声データＳＤ（ＳＩ）をデータ端子２２に転送するように構成されている。
【００４９】
ディクテーティング機１５は、そのデータ端子２２によって、音声認識ソフトウェアを走らせる音声認識コンピュータ２３に接続可能である。ディクテーティング機１５によって転送された音声情報ＳＩから音声認識コンピュータ２３によって認識されたテキスト情報ＴＩが、音声認識コンピュータ２３からモニタ２４に転送され、そこで表示される。
【００５０】
ディクテーティング機１５は、さらに、その動作が、図１に示す音声品質テスト手段１３の動作と同じである音声品質テスト手段１３を有している。音声品質テスト手段１３によって確認された音声品質情報ＱＩは、フィードバック手段２５および記録手段１９に転送可能である。
【００５１】
音声品質テスト手段１３が、音声信号ＳＳ（ＳＩ）の信号／雑音比が小さすぎることを確認すると、フィードバック手段２５は、スイッチオン電圧を１番目のフィードバック情報ＦＩ１として発光ダイオード２６に転送する。フィードバック手段２５は、さらに、音声品質テスト手段１３が、音声信号ＳＳ（ＳＩ）のレベルが小さすぎることを確認すると、スイッチオン電圧を２番目のフィードバック情報ＦＩ２として発光ダイオード２７に転送する。フィードバック手段２５は、さらに、音声品質テスト手段１３が、音声信号ＳＳ（ＳＩ）を基として、ユーザの話し方が速すぎることを確認すると、スイッチオン電圧を３番目のフィードバック情報ＦＩ３として発光ダイオード２８に転送する。
【００５２】
ディクテーティング機１５の動作を、具体例を参照して、以下により詳しく説明する。一例として、ディクテーティング機１５のユーザは、旅行中であり、到着先で、そのディクテーティング機１５を用いて口述を行って、記録された口述を、自分の音声認識コンピュータ２３によって処理し、認識されたテキスト情報ＴＩをモニタ２４に表示させたいと考えていると仮定しよう。
【００５３】
この目的のために、このユーザは、ディクテーティング機１５の記録モードを活性状態にし、口述を記録し始める。ユーザは、非常に急いでいるので、極めて早口に口述する。このため、この時にディクテーティング機１５によって記録される音声情報ＳＩのスピーチ速度が速すぎて、このオフライン音声認識方法と音声認識コンピュータ２３とを用いて認識されたテキスト情報ＴＩは、十分高い認識品質に到達できない。
【００５４】
次いで、音声品質テスト手段１３が、フィードバック手段２５に、それぞれの音声品質情報ＱＩを転送する。フィードバック手段２５は、発光ダイオード２８に第３のフィードバック情報ＦＩ３を転送する。この結果、発光ダイオード２８は、発光を始め、ユーザに、彼の話し方が速すぎるので、記録された音声データＳＤ（ＳＩ）がオフライン音声認識に適さないということを示す。
【００５５】
ユーザが、発光ダイオード２８の発光に気付き、自分の話している口述の言葉が速すぎることを認識し、そして、もっとゆっくりと話し始めることは、利点である。次いで、発光ダイオード２８は発光を止め、それ以後に記録される音声データＳＤ（ＳＩ）は、音声認識コンピュータ２３による良好な処理に適したものとなる。
【００５６】
記録手段１９は、それぞれの音声データＳＤ（ＳＩ）に割り当てられ、かつ音声品質テスト手段１３によって決定される音声品質情報ＱＩを記録し、そして、それを、音声データＳＤ（ＳＩ）とともに、ディクテーティング機１５の転送モードで音声認識コンピュータ２３に転送する。
【００５７】
このことは、音声認識コンピュータ２３が、非常に品質の低い音声情報ＳＩを内包する音声データＳＤ（ＳＩ）を処理する際、それらの音声データＳＤ（ＳＩ）を、できる限り良好な認識品質の結果が得られるような処理に適した処置を採用するように構成することができるという利点を提供する。このような処置としては、例えば、受信されたデジタル音声データＳＤ（ＳＩ）の適切な前処理がある。
【００５８】
この点で、オフライン音声認識方法は、口述の間に、音声情報ＳＩに割り当てられる、認識されたテキスト情報ＴＩがユーザにすぐには示されない音声認識方式（オンライン音声認方式がこれに当たる）であると理解されることは認識されるであろう。このようなオンライン音声認識方式は、例えば、フィリップス社の音声認識ソフトウェアＦｒｅｅＳｐｅｅｃｈ２０００を用いて実現される。
【００５９】
記録手段による音声情報ＳＩの記録と転送の結果として、音声情報ＳＩがデジタル音声データＳＤ（ＳＩ）として記録されるため、受信された音声情報ＳＩの品質に余分な劣化が生じないということは認識されるであろう。この結果、実際（上述したように）、音声品質テスト手段を用いて受信されたアナログ音声信号ＳＳ（ＳＩ）の品質をテストすることによって、音声認識デバイスによって受信され、かつ処理された最後のデジタル音声データＳＤ（ＳＩ）の品質を、推測することが出来る。
【００６０】
オフライン音声認識方法に対する音声情報ＳＩの品質を、さらなるパラメータ、即ち、理解度パラメータによっても記述できることは、認識されるであろう。音声品質テスト手段を用いて音声信号ＳＳ（ＳＩ）の周波数成分を時間連続で統計的に解析することによって、この音声信号ＳＳ（ＳＩ）が、音声情報ＳＩか、または雑音のみか、または音楽を含むかを確認することができる。理解度パラメータは、また、音声信号ＳＳ（ＳＩ）の種々のパラメータ量（平均エネルギー、スペクトル分布、ゼロクロス、ピッチ、…）が、音声信号ＳＳ（ＳＩ）の分類のために結合されている、音声信号ＳＳ（ＳＩ）の他の解析によっても、決定することが出来る。
【００６１】
音声情報ＳＩが音声信号ＳＳ（ＳＩ）に含まれているか否かを識別する確認された理解度パラメータの閾値が、相対的に高く設定されている場合には、ユーザによって不明瞭に、または、ほとんど理解しがたく発音された音声情報ＳＩも、雑音として分類される。このように、本発明による記録デバイスは、ユーザに、彼の口述の発音の中の不明瞭な音を指摘するフィードバック情報ＦＩをユーザに転送することが出来る。その後、ユーザは、より明瞭に話し始め、したがって、認識されるテキスト情報ＴＩの品質が、改良されると言う利点が得られる。
【図面の簡単な説明】
【図１】記録デバイスとしての電話録音マシンを示す。
【図２】音声品質テスト手段と音声情報の品質の低さを指示する３個の発光ダイオードとを有する携帯ディクテーティング機を示す。
【符号の説明】
１　オフライン音声認識システム
２　電話
３　電話録音マシン
４，２３　音声認識コンピュータ
５　ユーザ端末
６，１６　受信手段
７，１９　記録手段
８，２０　転送手段
１３　音声品質テスト手段
１４　フィードバック手段
１５　ハンドヘルド型デジタルディクテーティング機
２６，２７，２８　発光ダイオード
ＦＩ，ＦＩ１，ＦＩ２，ＦＩ３　フィードバック情報
ＳＩ　音声情報
ＴＩ　テキスト情報
ＱＩ　音声品質情報
ＳＳ（ＳＩ）　音声信号
ＳＤ（ＳＩ）　音声データ

Claims

口述の音声情報を記録し、次いで、前記口述の前記記録された音声情報をオフライン音声認識のための音声認識デバイスに転送するための記録装置において、前記記録装置が、
前記口述の前記音声情報を受信するための受信手段と、
前記口述の前記受信された音声情報を前記記録装置の記録モードで記録するための記録手段と、
前記口述の記録された音声情報を前記記録装置の転送モードで前記音声認識デバイスに転送するための転送手段であって、前記音声認識デバイスが、前記転送された音声情報に割り当てられるテキスト情報を認識するように構成されていて、前記認識されたテキスト情報の品質が前記受信された音声情報の品質に依存する、転送手段と、
を有し、かつ、
前記記録モードで受信された前記音声情報が、前記音声認識デバイスによって処理される時に、前記記録モードで受信された前記音声情報の品質が、前記認識されたテキスト情報の予め定められた品質を得るに十分であるか否かをテストするための音声品質テスト手段であって、前記音声情報が、前記転送モードで前記転送手段によって転送される音声品質テスト手段を有する音声品質テスト手段を有し、かつ、
前記記録モードで、前記音声品質テスト手段の前記テストの結果を表すフィードバック情報を転送するためのフィードバック手段を有する記録装置。
請求項１に記載の記録装置であって、前記受信手段が、音声情報を内包する音声信号を受信するように構成され、かつ、前記音声品質テスト手段が、前記受信された音声信号の信号／雑音比をテストするように構成され、かつ、前記信号／雑音比が低すぎる場合には、前記フィードバック手段が、それぞれのフィードバック情報を転送することが可能である記録装置。
請求項１に記載の記録装置であって、前記受信手段が、前記音声情報を内包する音声信号を受信するように構成され、かつ、前記音声品質テスト手段が、前記受信された音声信号のレベルをテストするように構成され、かつ、前記レベルが低すぎる場合には、前記フィードバック手段が、それぞれのフィードバック情報を転送することが可能である記録装置。
請求項１に記載の記録装置であって、前記音声品質テスト手段が、前記受信された音声情報をテストする際、ユーザのスピーチ速度を確定するように構成され、かつ、前記スピーチ速度が速すぎる場合には、前記フィードバック手段が、それぞれのフィードバック情報を転送することが可能である記録装置。
請求項１に記載の記録装置であって、前記音声品質テスト手段が、前記受信された音声情報をテストする際、ユーザによって話された前記口述の言葉の理解度または明瞭度を、それぞれ、確定するように構成され、かつ、前記ユーザが、前記言葉が理解され得ない、または、不明瞭であるように、前記言葉を発音した場合には、前記フィードバック手段が、それぞれのフィードバック情報を転送することが可能である記録装置。
請求項１に記載の記録装置であって、前記フィードバック手段が、ユーザの処置によって前記受信された音声情報の品質をどの程度改良することが可能であるかを、前記ユーザに指示するフィードバック情報を転送するように構成されている記録装置。
請求項１に記載の記録装置であって、前記記録装置が、ハンドヘルド型ディクテーティング機によって形成される記録装置。
請求項１に記載の記録装置であって、前記受信手段が、前記音声情報を受信するために、電話線またはデータラインに、それぞれ、接続することが可能である記録装置。