JP4201455B2 - 音声認識システム - Google Patents
音声認識システム Download PDFInfo
- Publication number
- JP4201455B2 JP4201455B2 JP2000057941A JP2000057941A JP4201455B2 JP 4201455 B2 JP4201455 B2 JP 4201455B2 JP 2000057941 A JP2000057941 A JP 2000057941A JP 2000057941 A JP2000057941 A JP 2000057941A JP 4201455 B2 JP4201455 B2 JP 4201455B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- verification
- recognition
- communication terminal
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Mobile Radio Communication Systems (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識システムに関する。
【0002】
【従来の技術】
一般に、移動用通信端末から入力された音声を認識する場合、通信網に接続された音声認識装置を用いるため、移動用通信端末からの入力音声は、通信網を介して音声認識装置に伝送されてくる。ところで,移動用通信端末は、道路わき、駅のホームなどの様々な場所で使用される。そのため、移動用通信端末から入力された音声は、たとえ同一の使用者であっても、様々な使用環境により異なる背景騒音の影響を受けている。さらに、移動用通信端末からの音声は通信網を介して送られてくるので、通信雑音に対する影響も受ける。通信経路は一定とは限らないため、従来では、通信路を伝送した音声を認識した場合、背景騒音と通信路の雑音とが複雑に影響して、音声認識の性能が低下するという問題があった。
【0003】
【発明が解決しようとする課題】
このような問題を解決するため、例えば特開平10−282990号には、使用者の音声を音声認識装置に学習させることにより、認識精度の向上を図る技術が示されている。
【0004】
しかしながら、上述した従来の技術によっても、背景騒音や通信経路の変化により、移動用通信端末から入力された音声の波形が影響を受けた場合、認識精度が劣化してしまうという問題がある。
【0005】
本発明は、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことの可能な音声認識システムを提供することを目的としている。
【0006】
【課題を解決するための手段】
上記目的を達成するために、請求項1記載の発明は、通信端末と、前記通信端末と通信網を介して接続される記憶手段とを備え、
前記通信端末は、音声および/または周囲の騒音が入力される音声入力手段と、音声入力手段から入力された音声の特徴量を抽出する特徴抽出手段と、前記音声の特徴量を所定の認識モデルパラメータセットと照合することによって音声を認識する音声認識手段と、前記音声入力手段から入力された周囲の騒音を検証する騒音検証手段とを有し、
前記騒音検証手段は、騒音の種類ごとに用意されているn(n≧1)個の検証モデルと、特徴抽出手段によって抽出された周囲の騒音の特徴量と各検証モデルとを比較する比較手段とを備え、
また、前記記憶手段には、騒音検証手段のn個の検証モデルのそれぞれに対応付けられた認識モデルパラメータセットが記憶されており、
前記騒音検証手段の比較手段が周囲の騒音の特徴量とn個の検証モデルとを比較することによって周囲の騒音の特徴量に最も類似する検証モデルの番号を選択すると、前記記憶手段においては、前記騒音検証手段で選択された検証モデルの番号に対応する認識モデルパラメータセットを前記記憶手段に記憶されている複数の認識モデルパラメータセットの中から選択して前記通信端末に返送するダウンロードを行ない、前記通信端末の記憶領域に保存されている現在の認識モデルパラメータセットを、前記記憶手段からダウンロードされた認識モデルパラメータセットに書き換え、この際、前記通信端末の記憶領域に現在保存されている認識モデルパラメータセットの内容が更新されていた場合は、上記ダウンロードが行われる前に、前記通信端末の記憶領域に現在保存されている認識モデルパラメータセットを前記記憶手段にアップロードし、しかる後に、該当する認識モデルパラメータセットを書き換えるようになっており、
前記音声認識手段は、前記選択されダウンロードされた認識モデルパラメータセットを用いて、音声認識を行なうようになっていることを特徴としている。
また、請求項2記載の発明は、請求項1記載の音声認識システムにおいて、
前記騒音検証手段の検証モデルと前記音声認識手段および/または前記記憶手段の認識モデルパラメータは、入力音声特徴量を用いて更新されるようになっていることを特徴としている。
【0010】
また、請求項3記載の発明は、請求項1または請求項2記載の音声認識システムにおいて、
前記騒音検証手段の検証モデルと前記記憶手段の認識モデルパラメータセットとを追加可能であって、追加された検証モデルは、現在の環境の騒音の入力によって作成され、追加された認識モデルパラメータセットは、静かな環境で作製されたパラメータセットを初期状態とし、現在の環境下で発声された音声を用いて更新されるようになっていることを特徴としている。
【0014】
また、請求項4記載の発明は、請求項1乃至請求項3のいずれか一項に記載の音声認識システムにおいて、前記通信端末は、移動用通信端末であることを特徴としている。
【0020】
【発明の実施の形態】
以下、本発明の実施形態を図面に基づいて説明する。図1は本発明に係る音声認識システムの第1の実施形態の構成例を示す図である。図1を参照すると、この音声認識システムは、通信端末(例えば、携帯電話などの移動用通信端末)1と、通信端末1と通信網200を介して接続された記憶手段2とを備えている。
【0021】
ここで、通信端末1は、音声および/または周囲の騒音が入力される音声入力手段11と、音声入力手段11から入力された音声の特徴量を抽出する特徴抽出手段12と、前記音声の特徴量を所定の認識モデルパラメータセットと照合することにより音声を認識する音声認識手段13と、前記音声入力装置11から入力された周囲の騒音を検証する騒音検証手段14と、通信端末中央処理装置15とを有している。
【0022】
特徴抽出手段12には、よく知られたLPC(線形予測)分析などを用いることができる。例えば、分析条件を、標本化周波数:8kHz、高域強調:一次差分、256点ハミング窓、移動幅:16ms、LPC分析次数:20とし、10次元メルケプストラム係数+対数パワーの一次差分+対数パワーという特徴量をフレーム単位で抽出するものを用いることができる。なお、音声の分析は、上記のものに限られたものではなく、周波数分析など他のどのような手法を用いてもよい。
【0023】
また、記憶手段2には、複数の認識モデルパラメータセットP1,…,Pnが記憶されている。すなわち、記憶手段2には、各騒音の環境下で訓練された認識モデルパラメータセットP1,…,Pnが記憶されている。
【0024】
そして、騒音検証手段14は、周囲の騒音を検証したときに、検証した騒音の種類に応じた認識モデルパラメータセットを記憶手段2に記憶されている複数の認識モデルパラメータセットP1,…,Pnの中から選択し、前記音声認識手段13は、前記騒音検証手段14によって選択された認識モデルパラメータセットPを用いて、音声認識を行なうようになっている。
【0025】
図2は騒音検証手段14の構成例を示す図である。図2を参照すると、騒音検証手段14には、騒音の種類ごとに用意されている検証モデルQ1,…,Qnと、特徴抽出手段12によって抽出された背景騒音の特徴量と各検証モデルQ1,…,Qnとを比較する比較器16とが設けられている。ここで、各検証モデルQ1,…,Qnは、各騒音の代表パターンや、HMMなどのモデルを使って予め作成されている。
【0026】
なお、ここで、記憶手段2に記憶されている認識モデルパラメータセットP1,…,Pnの番号1〜nは、騒音検証手段14の検証モデルQ1,…,Qnの番号1〜nと対応付けられている。
【0027】
次に、このような構成の図1の音声認識システムの処理動作について説明する。通信端末1の音声入力手段(例えば携帯電話のマイク)11から音声が入力されると、特徴抽出手段12により、入力音声の特徴量が抽出される。
【0028】
音声認識を行う場合には、スイッチSW1を音声認識手段13側Aに入れる。認識モデルパラメータセットPは、通信端末1の記憶領域に保存されており、比較対象となる全ての認識単位(例えば音素)のモデルを表現できるパラメータとして記憶されている。これらのパラメータは、認識モデルを表現できればどのようなものを用いてもよく、よく知られたHMM(隠れマルコフモデル)などの確率モデルのパラメータや、照合対象の代表パターンなどを用いることができる。
【0029】
音声認識手段13では、通信端末1の記憶領域に現在保存されている認識モデルパラメータPと特徴抽出手段12によって抽出された音声特徴量とを比較し、この比較結果を通信端末中央処理装置15に与え、通信端末中央処理装置15では、アプリケーションに応じた処理が行われる。例えば、使用者が発声した相手先の名前を音声認識して、この通信端末に登録されている電話番号にダイアルするといったような処理が行われる。
【0030】
ところで、上記のような音声認識を行う場合、使用場所により背景騒音の種類が変化するので、誤認識が頻繁に発生することがある。この不都合を解決するため、本発明では、スイッチSW1を音声認識手段13側Aに入れるに先立って、スイッチSW1を騒音検証手段14側Bに入れ、現在の背景騒音を音声入力手段1から入力することにより、音声認識がなされるに先立って、騒音の状態を検証することができるようになっている。
【0031】
この場合、騒音検証手段14では、特徴抽出手段12によって抽出された背景騒音の特徴量とn個の検証モデルQ1,…,Qnとを比較器16により比較し、最も類似する検証モデルの番号を選択する。例えば、検証モデルがHMMである場合には、騒音の特徴量に対する尤度が最も大きくなる検証モデルが選択され、騒音検証手段14では、このように選択された検証モデルの番号を通信端末中央処理装置15に送る。これにより、通信端末中央処理装置15は、データ通信機能を使って検証モデルの番号を通信網200を介して記憶手段2に通知する。
【0032】
ここで、騒音検証手段14において、n個の検証モデルQ1,…,Qnのうち、例えば番号2の検証モデルQ2が選択され、これが通信端末中央処理装置15によって通信網200を介して記憶手段2に通知されると、記憶手段2においては、通信端末中央処理装置15から通知された検証モデルの番号2に対応する認識モデルパラメータセット(すなわち、いまの場合には、モデル番号2の認識モデルパラメータセットP2)が選択されて、これが通信網200を介して通信端末1(すなわち、通信端末中央処理装置15)に返送される(ダウンロードされる)。これにより、通信端末中央処理装置15は、通信端末1の記憶領域に保存されている現在の認識モデルパラメータセットPを、記憶手段2から送られた(ダウンロードされた)認識モデルパラメータセット(例えばP2)に書き換える。
【0033】
ただし、後述のように、通信端末1の記憶領域に現在保存されている認識モデルパラメータセットの内容が更新されていた場合は、上記ダウンロードが行われる前に、通信端末1の記憶領域に現在保存されている認識モデルパラメータセットPを記憶手段2にアップロードし、しかる後に、該当する認識モデルパラメータセットを書き換える。例えば、認識モデルパラメータセットP1が通信端末1の記憶領域に現在保存されている場合には、記憶手段2に記憶されている認識モデルパラメータセットP1の内容を通信端末1の記憶領域に現在保存されている認識モデルパラメータセットP1で書き換えた後(アップロードした後)に、記憶手段2からの認識パラメータセットP2を通信端末1の記憶領域にダウンロードする。この処理により、通信端末1側では、現在の騒音に最も適応した認識モデルパラメータセットPを用いることができるので、音声認識の精度を向上させることができる。さらに、騒音環境が変化して、再び過去に用いていた認識モデルパラメータセットが必要な状況になっても、記憶手段2からその認識モデルパラメータセットを選択することで、これを通信端末1側にダウンロードし直すことが可能となる。
【0034】
このように、第1の実施形態では、通信端末から入力した音声の特徴量を抽出する特徴抽出手段と、前記特徴量より音声を認識する音声認識手段と、前記通信端末から入力した周囲の騒音を検証する騒音検証手段と、前記通信端末と通信網を介して接続された記憶手段とを備え、前記音声認識手段は、前記記憶手段に記憶されている複数の認識モデルパラメータセットの中から前記騒音検証手段を用いて選択された認識モデルパラメータセットを用いて、音声認識を行うので、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことができる。さらに、この第1の実施形態では、通信端末1内に記憶手段2を設けずに、通信端末1と通信網200を介して記憶手段2を接続しているので、通信端末1の記憶容量を節約することができる。
【0035】
図3は本発明に係る音声認識システムの第2の実施形態の構成例を示す図である。なお、図3において図1と同様の箇所には同じ符号を付している。図3を参照すると、この音声認識システムは、通信端末(例えば、携帯電話などの移動用通信端末)21と、通信端末21と通信網300を介して接続された音声認識手段23および記憶手段2とを備えている。
【0036】
ここで、通信端末21は、音声および/または周囲の騒音が入力される音声入力手段11と、音声入力手段11から入力された音声の特徴量を抽出する特徴抽出手段12と、前記音声入力手段11から入力された周囲の騒音を検証する騒音検証手段14と、通信端末中央処理装置25とを有している。
【0037】
なお、音声入力手段11,特徴抽出手段12,騒音検証手段14,記憶手段2は、図1において説明したと同様の構成および機能のものとなっている。
【0038】
図3の構成は、図1の通信端末1内に設けられている音声認識手段13および認識モデルパラメータセットPを保持するための記憶領域を通信端末21内には設けずに、音声認識手段23として通信網300に接続したものである。
【0039】
この第2の実施形態では、音声認識を行なう場合は、スイッチSW1をAの側に入れる。これにより、通信端末21の特徴抽出手段12により得られた特徴量は、通信網300を介して音声認識手段23に伝送され、音声認識手段23では、伝送された特徴量を用いて音声認識が行われる。この際、音声認識手段23は、記憶手段2で選択されている認識モデルパラメータセットを直接参照して音声認識を行うことができる。
【0040】
この第2の実施形態においても、騒音環境が変化した場合は、第1の実施形態と同様に、通信端末21側の騒音検証手段14を用いて、検証モデルの番号を通信網300を介して記憶手段2へ通知し、記憶手段2における認識パラメータセットを選択し直せばよい。
【0041】
このように、この第2の実施形態では、特徴抽出手段と騒音検証手段とを前記通信端末に備え、また、通信端末と通信網を介して音声認識手段を備え、前記騒音検証手段を用いて前記記憶手段に記憶されている認識モデルパラメータセットを選択し、選択された認識モデルパラメータセットを音声認識手段に用いるので、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことができる。さらに、この第2の実施形態では、通信端末21側に、音声認識手段と認識モデルパラメータセットを保存するための記憶領域とを持つ必要がなくなるので、通信端末21の記憶容量をより一層節約することができる。
【0042】
図4は本発明に係る音声認識システムの第3の実施形態の構成例を示す図である。なお、図4において図1,図3と同様の箇所には同じ符号を付している。図4を参照すると、この音声認識システムは、通信端末(例えば、携帯電話などの移動用通信端末)31と、通信端末31と通信網400を介して接続された音声認識手段23,騒音検証手段34,記憶手段2とを備えている。
【0043】
ここで、通信端末31は、音声および/または周囲の騒音が入力される音声入力手段11と、音声入力手段11から入力された音声の特徴量を抽出する特徴抽出手段12と、通信端末中央処理装置35とを有している。
【0044】
なお、音声入力手段11,特徴抽出手段12,音声認識手段23,記憶手段2は、図1,図3において説明したと同様の構成および機能のものとなっている。
【0045】
図4の構成は、図3の通信端末21内に設けられている騒音検証手段14を通信端末31内には設けずに、騒音検証手段34として通信網400に接続したものである。
【0046】
この第3の実施形態では、音声認識を行う場合には、スイッチSW1を音声認識手段23側Aへ入れる。一方、認識モデルパラメータセットを変更する場合には、認識モデルパラメータセットの番号を取得するため、スイッチSW1を騒音検証手段34側Bへ入れて通信端末31側から伝送されてきた騒音の特徴量を検証することができる。
【0047】
このように、第3の実施形態では、特徴抽出手段を前記通信端末に備え、また、通信端末と通信網を介して騒音検証手段,音声認識手段を備え、前記騒音検証手段を用いて前記記憶手段に記憶されている認識モデルパラメータセットを選択し、選択された認識モデルパラメータセットを音声認識手段に用いるので、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことができる。さらに、この第3の実施形態では、通信端末31側に、音声認識手段と認識モデルパラメータセットを保存するための記憶領域と騒音検証手段とを持つ必要がなくなるので、通信端末31の記憶容量を図3の場合よりもさらに一層節約することができる。
【0048】
図5は本発明に係る音声認識システムの第4の実施形態の構成例を示す図である。なお、図5において図1,図3,図4と同様の箇所には同じ符号を付している。図5を参照すると、この音声認識システムは、通信端末(例えば、携帯電話などの移動用通信端末)41と、通信端末41と通信網500を介して接続された特徴抽出手段42,音声認識手段23,騒音検証手段34,記憶手段2とを備えている。
【0049】
ここで、通信端末4は、音声および/または周囲の騒音が入力される音声入力手段11と、通信端末中央処理装置45とを有している。
【0050】
なお、音声入力手段11,音声認識手段23,騒音検証手段34,記憶手段2は、図1,図3,図4において説明したと同様の構成および機能のものとなっている。
【0051】
この第4の実施形態では、本発明を実施するための手段を全て通信網500側に設けている。
【0052】
この第4の実施形態では、通信網500を介して通信端末41から伝送された音声を通信網500に接続されている特徴抽出手段42を用いて、特徴量を抽出する。この場合、通信網500に伝送される対象は、特徴量などのデータではなく音声であるため、通信網500としては、広く一般に普及している音声用の公衆回線網を利用することが可能である。
【0053】
このように、第4の実施形態では、通信端末と通信網を介して特徴抽出手段,騒音検証手段,音声認識手段を備え、前記騒音検証手段を用いて前記記憶手段に記憶されている認識モデルパラメータセットを選択し、選択された認識モデルパラメータセットを音声認識手段に用いるので、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことができる。さらに、この第4の実施形態では、通信端末31側に、音声認識手段と認識モデルパラメータセットを保存するための記憶領域と騒音検証手段とを持つ必要がなくなるので、通信端末31の記憶容量を図3の場合よりもさらに一層節約することができる。
【0054】
なお、上述の各実施形態において、騒音検証手段14,34に設けられている検証モデルと音声認識手段13,23または記憶手段2の認識モデルパラメータを入力音声特徴量を用いて更新することも可能である。すなわち、特徴抽出手段12,42により得られた特徴量を用いて、認識モデルパラメータや騒音の検証モデルを更新することができる。
【0055】
具体的に、認識モデルパラメータを更新する場合は、音声の特徴量と正解の認識モデルパラメータとを音声認識手段12,23により照合する。この時の照合経路より、認識モデルパラメータと特徴量とを対応付けできるので、次式によって認識モデルパラメータの更新処理を行うことができる。
【0056】
【数1】
u’ni=(1−a)uni+a・Xmi(0≦a≦1)
【0057】
ここで、uniは変更前のパラメータ値であり、u’niは更新後のパラメータ値である。ただし、nはパラメータ番号、iは要素番号である。また、Xmiは、mフレーム目の音声特徴量を表している。また、aは、特徴量をどの程度パラメータに反映するかを決める適応係数である。適応係数aは、例えば、a=10-3のように設定される。
【0058】
また、騒音の検証モデルを更新する場合についても、上述した認識モデルパラメータの更新処理と同様に処理を行えばよい。
【0059】
なお、認識モデルパラメータ,検証モデルの更新処理の仕方は、数1に限られるものではなく、MAP(最大事後確率)推定法などの良く知られた適応手法を用いることもできる。
【0060】
このように、検証モデルと認識モデルパラメータを入力音声特徴量を用いて更新することによって、背景騒音の影響だけでなく、話者の特性や通信時の雑音を吸収することができ、認識精度を向上させることができる。
【0061】
また、上述の各実施形態において、騒音検証手段14,34の検証モデルと記憶手段2の認識モデルパラメータセットとを追加し、上述した方法により(例えば数1により)、すなわち、入力音声特徴量を用いて、追加された検証モデルと追加された認識モデルパラメータセットとを更新することもできる。
【0062】
図6は騒音検証手段14,34の検証モデルと記憶手段2の認識モデルパラメータセットとを追加し、追加された検証モデルと追加された認識モデルパラメータセットとを更新する処理を説明するための図である。
【0063】
騒音検証手段14,34の検証モデルと記憶手段2の認識モデルパラメータセットとを追加し、追加された検証モデルと追加された認識モデルパラメータセットとを更新する処理は、具体的には、次のようにしてなされる。すなわち、認識モデルパラメータセットについては、まず、記憶手段2の認識モデルパラメータセット(例えばP1)をコピーし、新しい認識モデルパラメータセット(図6では番号n+1のパラメータセットP(n+1))を作成する。ここで、認識モデルパラメータセットP1だけは、静かな環境で訓練された特別な認識モデルパラメータセットであり、どの騒音環境の影響も受けていないとする。その後、認識モデルパラメータセットP(n+1)に対し、上述した認識モデルパラメータの更新処理を行うことにより、他の騒音環境の影響を受けずに、現在使用中の騒音環境に適応した認識モデルパラメータセットを獲得することができる。
【0064】
また、検証モデルについては、騒音検証手段14,34では、(n+1)番目の検証モデルQ(n+1)用に記憶領域を新たに確保する。その後、上述した検証モデルの更新処理を行なうことにより(例えば、数1の適応係数aをa=1として更新処理を行なうことにより)、(n+1)番目の検証モデルQ(n+1)を作成する。この処理により、他の騒音環境の成分を含まず、現環境の騒音状態を検証するための検証モデルを作成できる。
【0065】
このように、騒音環境を検証する検証モデルと認識モデルパラメータとを現在の使用環境に特化して作成することにより、認識精度を飛躍的に向上させることが可能となる。
【0066】
すなわち、騒音検証手段14,34の検証モデルと記憶手段2の認識モデルパラメータセットとを追加し、追加された検証モデルと追加された認識モデルパラメータセットとを更新する処理は、騒音検証手段を用いて認識モデルパラメータセットを選択したり、認識モデルパラメータや検証モデルの更新処理を行っても、満足な性能が得られないときに効果がある。
【0067】
ところで、図1,図3,図4あるいは図5の通信端末1,21,31,41は、DSP(ディジタル信号処理プロセッサ)などの専用のハードウエアで実現する以外に,例えばワークステーション,パーソナルコンピュータなどに用いられている汎用のハードウエアで実現することも可能である。図7は本発明の通信端末のハードウェア構成例を示す図である。図7を参照すると、通信端末のハードウェアとして、全体を制御するCPU51と、CPU51の制御プログラム,読み出し専用データなどが記憶されているROM52と、CPU51の作業領域などに使用されるRAM53と、データ記憶領域として使用されるハードディスク54と、音声入力部55と、通信インタフェース56とが設けられている。
【0068】
また、本発明の音声認識機能,とりわけ図1,図3,図4,図5の通信端末1,21,31,41の機能は、例えばソフトウェアパッケージ(CD−ROMなどの情報記録媒体)の形態で提供することができる。すなわち、本発明は、汎用OSが稼動する計算機上の記憶装置(例えば図7のようなハードウェア構成の通信端末のRAM53やハードディスク54等)にCD−ROMなどの記録媒体に記録されたプログラムを読込ませて、計算機のもつハードウェア構成で、所定の処理を実行させることで実現できる。なお、記録媒体としては、CD−ROMに限られるものではなく、ROM、RAM、フレキシブルディスク、メモリカードなどが用いられてもよいし,通信網を介したダウンロードの形態でもよい。また、記録媒体に記録されたプログラムは、ハードウェアシステムに組込まれている記憶装置、例えばハードディスクにインストールすることにより、このプログラムを実行して、本発明の音声認識などの機能を実現することができる。
【0069】
【発明の効果】
以上に説明したように、請求項1乃至請求項4記載の発明によれば、周囲の騒音を検証し、騒音環境に最も適合する認識モデルパラメータを用いて、音声認識を行なうようになっているので、使用環境によらずに精度良く音声認識を行うことができる。また、通信網を介した記憶手段を設けることにより、通信端末の記憶容量を節約できる。
【0071】
特に、請求項2記載の発明によれば、騒音の検証モデル,認識モデルパラメータセットを使用環境に応じて更新することにより、背景騒音の影響の他に、話者の特性や通信時の雑音の影響を吸収し、認識精度を向上することができる。すなわち、話者の特性や、背景騒音の種類、通信経路上の雑音による音声の変動を吸収し、音声認識精度を向上させることができる。
【0072】
また、請求項3記載の発明によれば、騒音の検証モデル,認識モデルパラメータセットを新たに追加することにより、さらに、認識精度を向上することができる。すなわち、話者の特性や、背景騒音の種類、通信経路上の雑音による音声の変動を吸収し、音声認識精度を向上させることができる。
【図面の簡単な説明】
【図1】本発明に係る音声認識システムの第1の実施形態の構成例を示す図である。
【図2】騒音検証手段の構成例を示す図である。
【図3】本発明に係る音声認識システムの第2の実施形態の構成例を示す図である。
【図4】本発明に係る音声認識システムの第3の実施形態の構成例を示す図である。
【図5】本発明に係る音声認識システムの第4の実施形態の構成例を示す図である。
【図6】騒音検証手段の検証モデルと記憶手段の認識パラメータセットとを追加し、追加された検証モデルと追加された認識パラメータセットとを更新する処理を説明するための図である。
【図7】本発明の通信端末のハードウェア構成例を示す図である。
【符号の説明】
1,21,31,41 通信端末
2 記憶手段
11 音声入力手段
12,42 特徴抽出手段
13,23 音声認識手段
14,34 騒音検証手段
15 通信端末中央処理装置
16 比較器
51 CPU
52 ROM
53 RAM
54 ハードディスク
55 音声入力部
56 通信インタフェース
200,300,400,500 通信網
Claims (4)
- 通信端末と、前記通信端末と通信網を介して接続される記憶手段とを備え、
前記通信端末は、音声および/または周囲の騒音が入力される音声入力手段と、音声入力手段から入力された音声の特徴量を抽出する特徴抽出手段と、前記音声の特徴量を所定の認識モデルパラメータセットと照合することによって音声を認識する音声認識手段と、前記音声入力手段から入力された周囲の騒音を検証する騒音検証手段とを有し、
前記騒音検証手段は、騒音の種類ごとに用意されているn(n≧1)個の検証モデルと、特徴抽出手段によって抽出された周囲の騒音の特徴量と各検証モデルとを比較する比較手段とを備え、
また、前記記憶手段には、騒音検証手段のn個の検証モデルのそれぞれに対応付けられた認識モデルパラメータセットが記憶されており、
前記騒音検証手段の比較手段が周囲の騒音の特徴量とn個の検証モデルとを比較することによって周囲の騒音の特徴量に最も類似する検証モデルの番号を選択すると、前記記憶手段においては、前記騒音検証手段で選択された検証モデルの番号に対応する認識モデルパラメータセットを前記記憶手段に記憶されている複数の認識モデルパラメータセットの中から選択して前記通信端末に返送するダウンロードを行ない、前記通信端末の記憶領域に保存されている現在の認識モデルパラメータセットを、前記記憶手段からダウンロードされた認識モデルパラメータセットに書き換え、この際、前記通信端末の記憶領域に現在保存されている認識モデルパラメータセットの内容が更新されていた場合は、上記ダウンロードが行われる前に、前記通信端末の記憶領域に現在保存されている認識モデルパラメータセットを前記記憶手段にアップロードし、しかる後に、該当する認識モデルパラメータセットを書き換えるようになっており、
前記音声認識手段は、前記選択されダウンロードされた認識モデルパラメータセットを用いて、音声認識を行なうようになっていることを特徴とする音声認識システム。 - 請求項1記載の音声認識システムにおいて、
前記騒音検証手段の検証モデルと前記音声認識手段および/または前記記憶手段の認識モデルパラメータは、入力音声特徴量を用いて更新されるようになっていることを特徴とする音声認識システム。 - 請求項1または請求項2記載の音声認識システムにおいて、
前記騒音検証手段の検証モデルと前記記憶手段の認識モデルパラメータセットとを追加可能であって、追加された検証モデルは、現在の環境の騒音の入力によって作成され、追加された認識モデルパラメータセットは、静かな環境で作製されたパラメータセットを初期状態とし、現在の環境下で発声された音声を用いて更新されるようになっていることを特徴とする音声認識システム。 - 請求項1乃至請求項3のいずれか一項に記載の音声認識システムにおいて、前記通信端末は、移動用通信端末であることを特徴とする音声認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000057941A JP4201455B2 (ja) | 2000-02-29 | 2000-02-29 | 音声認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000057941A JP4201455B2 (ja) | 2000-02-29 | 2000-02-29 | 音声認識システム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006313125A Division JP4658022B2 (ja) | 2006-11-20 | 2006-11-20 | 音声認識システム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001242888A JP2001242888A (ja) | 2001-09-07 |
JP2001242888A5 JP2001242888A5 (ja) | 2005-02-24 |
JP4201455B2 true JP4201455B2 (ja) | 2008-12-24 |
Family
ID=18578605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000057941A Expired - Fee Related JP4201455B2 (ja) | 2000-02-29 | 2000-02-29 | 音声認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4201455B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004325688A (ja) * | 2003-04-23 | 2004-11-18 | Toyota Motor Corp | 音声認識システム |
JP2009288630A (ja) * | 2008-05-30 | 2009-12-10 | Denso Corp | 車両用音声認識システム |
US9418679B2 (en) | 2014-08-12 | 2016-08-16 | Honeywell International Inc. | Methods and apparatus for interpreting received speech data using speech recognition |
CN111179969A (zh) * | 2019-12-26 | 2020-05-19 | 数海信息技术有限公司 | 一种基于音频信息的报警方法、装置、系统及存储介质 |
CN114625014A (zh) * | 2020-12-09 | 2022-06-14 | 青岛海尔洗衣机有限公司 | 用于智能家居系统的控制方法 |
-
2000
- 2000-02-29 JP JP2000057941A patent/JP4201455B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001242888A (ja) | 2001-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106683677B (zh) | 语音识别方法及装置 | |
KR100976643B1 (ko) | 자동 음성 인식 시스템용 적응형 콘텍스트 | |
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
JP4643911B2 (ja) | 音声認識方法及び装置 | |
JP4546512B2 (ja) | 話し手に暗黙的に順応する技術を用いた音声認識システム | |
RU2393549C2 (ru) | Способ и устройство для распознавания речи | |
US6931374B2 (en) | Method of speech recognition using variational inference with switching state space models | |
EP0689194A1 (en) | Method of and apparatus for signal recognition that compensates for mismatching | |
JP6464650B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
US20080154600A1 (en) | System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition | |
CN111326148B (zh) | 置信度校正及其模型训练方法、装置、设备及存储介质 | |
US6961702B2 (en) | Method and device for generating an adapted reference for automatic speech recognition | |
US20020165715A1 (en) | Speech recognition method and system | |
JP4515054B2 (ja) | 音声認識の方法および音声信号を復号化する方法 | |
JP4912518B2 (ja) | 音声認識システムにおいて特徴を抽出する方法 | |
CN112201275B (zh) | 声纹分割方法、装置、设备及可读存储介质 | |
KR20040068023A (ko) | 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법 | |
JP4201455B2 (ja) | 音声認識システム | |
JP4658022B2 (ja) | 音声認識システム | |
KR20200102309A (ko) | 단어 유사도를 이용한 음성 인식 시스템 및 그 방법 | |
CN111933146B (zh) | 语音识别系统及方法 | |
Kwon et al. | A method for on-line speaker indexing using generic reference models. | |
JP3868798B2 (ja) | 音声認識装置 | |
Levy et al. | GMM-based acoustic modeling for embedded speech recognition. | |
JP5626558B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040324 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040324 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060509 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060710 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060919 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061120 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070116 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20070209 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080826 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081007 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111017 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121017 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131017 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |