JP4658022B2

JP4658022B2 - 音声認識システム

Info

Publication number: JP4658022B2
Application number: JP2006313125A
Authority: JP
Inventors: 喜永加藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2006-11-20
Filing date: 2006-11-20
Publication date: 2011-03-23
Anticipated expiration: 2020-02-29
Also published as: JP2007072481A

Description

本発明は、音声認識システムに関する。

一般に、移動用通信端末から入力された音声を認識する場合、通信網に接続された音声認識装置を用いるため、移動用通信端末からの入力音声は、通信網を介して音声認識装置に伝送されてくる。ところで，移動用通信端末は、道路わき、駅のホームなどの様々な場所で使用される。そのため、移動用通信端末から入力された音声は、たとえ同一の使用者であっても、様々な使用環境により異なる背景騒音の影響を受けている。さらに、移動用通信端末からの音声は通信網を介して送られてくるので、通信雑音に対する影響も受ける。通信経路は一定とは限らないため、従来では、通信路を伝送した音声を認識した場合、背景騒音と通信路の雑音とが複雑に影響して、音声認識の性能が低下するという問題があった。

このような問題を解決するため、例えば特許文献１には、使用者の音声を音声認識装置に学習させることにより、認識精度の向上を図る技術が示されている。
特開平１０−２８２９９０号公報

しかしながら、特許文献１の技術によっても、背景騒音や通信経路の変化により、移動用通信端末から入力された音声の波形が影響を受けた場合、認識精度が劣化してしまうという問題がある。

本発明は、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことの可能な音声認識システムを提供することを目的としている。

上記目的を達成するために、請求項１記載の発明は、通信端末と、前記通信端末と通信網を介して接続される記憶手段とを備え、
前記通信端末は、音声および／または周囲の騒音が入力される音声入力手段と、音声入力手段から入力された音声の特徴量を抽出する特徴抽出手段と、前記音声の特徴量を所定の認識モデルパラメータセットと照合することによって音声を認識する音声認識手段と、前記音声入力手段から入力された周囲の騒音を検証する騒音検証手段とを有し、
前記騒音検証手段は、騒音の種類ごとに用意されているｎ（ｎ≧１）個の検証モデルと、特徴抽出手段によって抽出された周囲の騒音の特徴量と各検証モデルとを比較する比較手段とを備え、
また、前記記憶手段には、騒音検証手段のｎ個の検証モデルのそれぞれに対応付けられた認識モデルパラメータセットが記憶されており、
前記騒音検証手段の比較手段が周囲の騒音の特徴量とｎ個の検証モデルとを比較することによって周囲の騒音の特徴量に最も類似する検証モデルの番号を選択すると、前記記憶手段においては、前記騒音検証手段で選択された検証モデルの番号に対応する認識モデルパラメータセットを前記記憶手段に記憶されている複数の認識モデルパラメータセットの中から選択して前記通信端末に返送するダウンロードを行ない、前記通信端末の記憶領域に保存されている現在の認識モデルパラメータセットを、前記記憶手段からダウンロードされた認識モデルパラメータセットに書き換え、この際、前記通信端末の記憶領域に現在保存されている認識モデルパラメータセットの内容が更新されていた場合は、上記ダウンロードが行われる前に、前記通信端末の記憶領域に現在保存されている認識モデルパラメータセットを前記記憶手段にアップロードし、しかる後に、該当する認識モデルパラメータセットを書き換えるようになっており、
前記音声認識手段は、前記選択されダウンロードされた認識モデルパラメータセットを用いて、音声認識を行ない、
前記騒音検証手段の検証モデル、または、前記音声認識手段および／または前記記憶手段の認識モデルパラメータは、更新前のパラメータとｍフレーム目の音声特徴量を混合して更新され、更新前のパラメータとｍフレーム目の音声特徴量を混合して更新される際に、更新前のパラメータに比べてｍフレーム目の音声特徴量の混合比率を１０ ^−３にして更新されるようになっていることを特徴としている。

また、請求項２記載の発明は、請求項１記載の音声認識システムにおいて、
前記認識モデルまたは検証モデルには、ＨＭＭが用いられることを特徴としている。

また、請求項３記載の発明は、請求項１または請求項２記載の音声認識システムにおいて、
検証モデルを追加するとき、追加される検証モデルのパラメータがｍフレーム目の音声特徴量となるように検証モデルの更新処理を行うことによって検証モデルの作成がなされることを特徴としている。

請求項１乃至請求項３記載の発明によれば、周囲の騒音を検証し、騒音環境に最も適合する認識モデルパラメータを用いて、音声認識を行なうようになっているので、使用環境によらずに精度良く音声認識を行うことができる。また、通信網を介した記憶手段を設けることにより、通信端末の記憶容量を節約できる。また、前記騒音検証手段の検証モデル、または、前記音声認識手段および／または前記記憶手段の認識モデルパラメータは、更新前のパラメータとｍフレーム目の音声特徴量を混合して更新され、更新前のパラメータとｍフレーム目の音声特徴量を混合して更新される際に、更新前のパラメータに比べてｍフレーム目の音声特徴量の混合比率を１０ ^−３にして更新されるようになっており、検証モデルと認識モデルパラメータをｍフレーム目の音声特徴量を用いて更新することによって、背景騒音の影響だけでなく、話者の特性や通信時の雑音を吸収することができ、認識精度を向上させることができる。
特に、請求項３記載の発明によれば、請求項１または請求項２記載の音声認識システムにおいて、
検証モデルを追加するとき、追加される検証モデルのパラメータがｍフレーム目の音声特徴量となるように検証モデルの更新処理を行うことによって検証モデルの作成がなされるので、他の騒音環境の成分を含まず、現環境の騒音状態を検証するための検証モデルを作成できる。

以下、本発明の実施形態を図面に基づいて説明する。図１は本発明に係る音声認識システムの第１の実施形態の構成例を示す図である。図１を参照すると、この音声認識システムは、通信端末（例えば、携帯電話などの移動用通信端末）１と、通信端末１と通信網２００を介して接続された記憶手段２とを備えている。

ここで、通信端末１は、音声および／または周囲の騒音が入力される音声入力手段１１と、音声入力手段１１から入力された音声の特徴量を抽出する特徴抽出手段１２と、前記音声の特徴量を所定の認識モデルパラメータセットと照合することにより音声を認識する音声認識手段１３と、前記音声入力装置１１から入力された周囲の騒音を検証する騒音検証手段１４と、通信端末中央処理装置１５とを有している。

特徴抽出手段１２には、よく知られたＬＰＣ（線形予測）分析などを用いることができる。例えば、分析条件を、標本化周波数：８ｋＨｚ、高域強調：一次差分、２５６点ハミング窓、移動幅：１６ｍｓ、ＬＰＣ分析次数：２０とし、１０次元メルケプストラム係数＋対数パワーの一次差分＋対数パワーという特徴量をフレーム単位で抽出するものを用いることができる。なお、音声の分析は、上記のものに限られたものではなく、周波数分析など他のどのような手法を用いてもよい。

また、記憶手段２には、複数の認識モデルパラメータセットＰ１，…，Ｐｎが記憶されている。すなわち、記憶手段２には、各騒音の環境下で訓練された認識モデルパラメータセットＰ１，…，Ｐｎが記憶されている。

そして、騒音検証手段１４は、周囲の騒音を検証したときに、検証した騒音の種類に応じた認識モデルパラメータセットを記憶手段２に記憶されている複数の認識モデルパラメータセットＰ１，…，Ｐｎの中から選択し、前記音声認識手段１３は、前記騒音検証手段１４によって選択された認識モデルパラメータセットＰを用いて、音声認識を行なうようになっている。

図２は騒音検証手段１４の構成例を示す図である。図２を参照すると、騒音検証手段１４には、騒音の種類ごとに用意されている検証モデルＱ１，…，Ｑｎと、特徴抽出手段１２によって抽出された背景騒音の特徴量と各検証モデルＱ１，…，Ｑｎとを比較する比較器１６とが設けられている。ここで、各検証モデルＱ１，…，Ｑｎは、各騒音の代表パターンや、ＨＭＭなどのモデルを使って予め作成されている。

なお、ここで、記憶手段２に記憶されている認識モデルパラメータセットＰ１，…，Ｐｎの番号１〜ｎは、騒音検証手段１４の検証モデルＱ１，…，Ｑｎの番号１〜ｎと対応付けられている。

次に、このような構成の図１の音声認識システムの処理動作について説明する。通信端末１の音声入力手段（例えば携帯電話のマイク）１１から音声が入力されると、特徴抽出手段１２により、入力音声の特徴量が抽出される。

音声認識を行う場合には、スイッチＳＷ１を音声認識手段１３側Ａに入れる。認識モデルパラメータセットＰは、通信端末１の記憶領域に保存されており、比較対象となる全ての認識単位（例えば音素）のモデルを表現できるパラメータとして記憶されている。これらのパラメータは、認識モデルを表現できればどのようなものを用いてもよく、よく知られたＨＭＭ（隠れマルコフモデル）などの確率モデルのパラメータや、照合対象の代表パターンなどを用いることができる。

音声認識手段１３では、通信端末１の記憶領域に現在保存されている認識モデルパラメータＰと特徴抽出手段１２によって抽出された音声特徴量とを比較し、この比較結果を通信端末中央処理装置１５に与え、通信端末中央処理装置１５では、アプリケーションに応じた処理が行われる。例えば、使用者が発声した相手先の名前を音声認識して、この通信端末に登録されている電話番号にダイアルするといったような処理が行われる。

ところで、上記のような音声認識を行う場合、使用場所により背景騒音の種類が変化するので、誤認識が頻繁に発生することがある。この不都合を解決するため、本発明では、スイッチＳＷ１を音声認識手段１３側Ａに入れるに先立って、スイッチＳＷ１を騒音検証手段１４側Ｂに入れ、現在の背景騒音を音声入力手段１から入力することにより、音声認識がなされるに先立って、騒音の状態を検証することができるようになっている。

この場合、騒音検証手段１４では、特徴抽出手段１２によって抽出された背景騒音の特徴量とｎ個の検証モデルＱ１，…，Ｑｎとを比較器１６により比較し、最も類似する検証モデルの番号を選択する。例えば、検証モデルがＨＭＭである場合には、騒音の特徴量に対する尤度が最も大きくなる検証モデルが選択され、騒音検証手段１４では、このように選択された検証モデルの番号を通信端末中央処理装置１５に送る。これにより、通信端末中央処理装置１５は、データ通信機能を使って検証モデルの番号を通信網２００を介して記憶手段２に通知する。

ここで、騒音検証手段１４において、ｎ個の検証モデルＱ１，…，Ｑｎのうち、例えば番号２の検証モデルＱ２が選択され、これが通信端末中央処理装置１５によって通信網２００を介して記憶手段２に通知されると、記憶手段２においては、通信端末中央処理装置１５から通知された検証モデルの番号２に対応する認識モデルパラメータセット（すなわち、いまの場合には、モデル番号２の認識モデルパラメータセットＰ２）が選択されて、これが通信網２００を介して通信端末１（すなわち、通信端末中央処理装置１５）に返送される（ダウンロードされる）。これにより、通信端末中央処理装置１５は、通信端末１の記憶領域に保存されている現在の認識モデルパラメータセットＰを、記憶手段２から送られた（ダウンロードされた）認識モデルパラメータセット（例えばＰ２）に書き換える。

ただし、後述のように、通信端末１の記憶領域に現在保存されている認識モデルパラメータセットの内容が更新されていた場合は、上記ダウンロードが行われる前に、通信端末１の記憶領域に現在保存されている認識モデルパラメータセットＰを記憶手段２にアップロードし、しかる後に、該当する認識モデルパラメータセットを書き換える。例えば、認識モデルパラメータセットＰ１が通信端末１の記憶領域に現在保存されている場合には、記憶手段２に記憶されている認識モデルパラメータセットＰ１の内容を通信端末１の記憶領域に現在保存されている認識モデルパラメータセットＰ１で書き換えた後（アップロードした後）に、記憶手段２からの認識パラメータセットＰ２を通信端末１の記憶領域にダウンロードする。この処理により、通信端末１側では、現在の騒音に最も適応した認識モデルパラメータセットＰを用いることができるので、音声認識の精度を向上させることができる。さらに、騒音環境が変化して、再び過去に用いていた認識モデルパラメータセットが必要な状況になっても、記憶手段２からその認識モデルパラメータセットを選択することで、これを通信端末１側にダウンロードし直すことが可能となる。

このように、第１の実施形態では、通信端末から入力した音声の特徴量を抽出する特徴抽出手段と、前記特徴量より音声を認識する音声認識手段と、前記通信端末から入力した周囲の騒音を検証する騒音検証手段と、前記通信端末と通信網を介して接続された記憶手段とを備え、前記音声認識手段は、前記記憶手段に記憶されている複数の認識モデルパラメータセットの中から前記騒音検証手段を用いて選択された認識モデルパラメータセットを用いて、音声認識を行うので、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことができる。さらに、この第１の実施形態では、通信端末１内に記憶手段２を設けずに、通信端末１と通信網２００を介して記憶手段２を接続しているので、通信端末１の記憶容量を節約することができる。

図３は本発明に係る音声認識システムの第２の実施形態の構成例を示す図である。なお、図３において図１と同様の箇所には同じ符号を付している。図３を参照すると、この音声認識システムは、通信端末（例えば、携帯電話などの移動用通信端末）２１と、通信端末２１と通信網３００を介して接続された音声認識手段２３および記憶手段２とを備えている。

ここで、通信端末２１は、音声および／または周囲の騒音が入力される音声入力手段１１と、音声入力手段１１から入力された音声の特徴量を抽出する特徴抽出手段１２と、前記音声入力手段１１から入力された周囲の騒音を検証する騒音検証手段１４と、通信端末中央処理装置２５とを有している。

なお、音声入力手段１１，特徴抽出手段１２，騒音検証手段１４，記憶手段２は、図１において説明したと同様の構成および機能のものとなっている。

図３の構成は、図１の通信端末１内に設けられている音声認識手段１３および認識モデルパラメータセットＰを保持するための記憶領域を通信端末２１内には設けずに、音声認識手段２３として通信網３００に接続したものである。

この第２の実施形態では、音声認識を行なう場合は、スイッチＳＷ１をＡの側に入れる。これにより、通信端末２１の特徴抽出手段１２により得られた特徴量は、通信網３００を介して音声認識手段２３に伝送され、音声認識手段２３では、伝送された特徴量を用いて音声認識が行われる。この際、音声認識手段２３は、記憶手段２で選択されている認識モデルパラメータセットを直接参照して音声認識を行うことができる。

この第２の実施形態においても、騒音環境が変化した場合は、第１の実施形態と同様に、通信端末２１側の騒音検証手段１４を用いて、検証モデルの番号を通信網３００を介して記憶手段２へ通知し、記憶手段２における認識パラメータセットを選択し直せばよい。

このように、この第２の実施形態では、特徴抽出手段と騒音検証手段とを前記通信端末に備え、また、通信端末と通信網を介して音声認識手段を備え、前記騒音検証手段を用いて前記記憶手段に記憶されている認識モデルパラメータセットを選択し、選択された認識モデルパラメータセットを音声認識手段に用いるので、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことができる。さらに、この第２の実施形態では、通信端末２１側に、音声認識手段と認識モデルパラメータセットを保存するための記憶領域とを持つ必要がなくなるので、通信端末２１の記憶容量をより一層節約することができる。

図４は本発明に係る音声認識システムの第３の実施形態の構成例を示す図である。なお、図４において図１，図３と同様の箇所には同じ符号を付している。図４を参照すると、この音声認識システムは、通信端末（例えば、携帯電話などの移動用通信端末）３１と、通信端末３１と通信網４００を介して接続された音声認識手段２３，騒音検証手段３４，記憶手段２とを備えている。

ここで、通信端末３１は、音声および／または周囲の騒音が入力される音声入力手段１１と、音声入力手段１１から入力された音声の特徴量を抽出する特徴抽出手段１２と、通信端末中央処理装置３５とを有している。

なお、音声入力手段１１，特徴抽出手段１２，音声認識手段２３，記憶手段２は、図１，図３において説明したと同様の構成および機能のものとなっている。

図４の構成は、図３の通信端末２１内に設けられている騒音検証手段１４を通信端末３１内には設けずに、騒音検証手段３４として通信網４００に接続したものである。

この第３の実施形態では、音声認識を行う場合には、スイッチＳＷ１を音声認識手段２３側Ａへ入れる。一方、認識モデルパラメータセットを変更する場合には、認識モデルパラメータセットの番号を取得するため、スイッチＳＷ１を騒音検証手段３４側Ｂへ入れて通信端末３１側から伝送されてきた騒音の特徴量を検証することができる。

このように、第３の実施形態では、特徴抽出手段を前記通信端末に備え、また、通信端末と通信網を介して騒音検証手段，音声認識手段を備え、前記騒音検証手段を用いて前記記憶手段に記憶されている認識モデルパラメータセットを選択し、選択された認識モデルパラメータセットを音声認識手段に用いるので、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことができる。さらに、この第３の実施形態では、通信端末３１側に、音声認識手段と認識モデルパラメータセットを保存するための記憶領域と騒音検証手段とを持つ必要がなくなるので、通信端末３１の記憶容量を図３の場合よりもさらに一層節約することができる。

図５は本発明に係る音声認識システムの第４の実施形態の構成例を示す図である。なお、図５において図１，図３，図４と同様の箇所には同じ符号を付している。図５を参照すると、この音声認識システムは、通信端末（例えば、携帯電話などの移動用通信端末）４１と、通信端末４１と通信網５００を介して接続された特徴抽出手段４２，音声認識手段２３，騒音検証手段３４，記憶手段２とを備えている。

ここで、通信端末４は、音声および／または周囲の騒音が入力される音声入力手段１１と、通信端末中央処理装置４５とを有している。

なお、音声入力手段１１，音声認識手段２３，騒音検証手段３４，記憶手段２は、図１，図３，図４において説明したと同様の構成および機能のものとなっている。

この第４の実施形態では、本発明を実施するための手段を全て通信網５００側に設けている。

この第４の実施形態では、通信網５００を介して通信端末４１から伝送された音声を通信網５００に接続されている特徴抽出手段４２を用いて、特徴量を抽出する。この場合、通信網５００に伝送される対象は、特徴量などのデータではなく音声であるため、通信網５００としては、広く一般に普及している音声用の公衆回線網を利用することが可能である。

このように、第４の実施形態では、通信端末と通信網を介して特徴抽出手段，騒音検証手段，音声認識手段を備え、前記騒音検証手段を用いて前記記憶手段に記憶されている認識モデルパラメータセットを選択し、選択された認識モデルパラメータセットを音声認識手段に用いるので、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことができる。さらに、この第４の実施形態では、通信端末３１側に、音声認識手段と認識モデルパラメータセットを保存するための記憶領域と騒音検証手段とを持つ必要がなくなるので、通信端末３１の記憶容量を図３の場合よりもさらに一層節約することができる。

なお、上述の各実施形態において、騒音検証手段１４，３４に設けられている検証モデルと音声認識手段１３，２３または記憶手段２の認識モデルパラメータを入力音声特徴量を用いて更新することも可能である。すなわち、特徴抽出手段１２，４２により得られた特徴量を用いて、認識モデルパラメータや騒音の検証モデルを更新することができる。

具体的に、認識モデルパラメータを更新する場合は、音声の特徴量と正解の認識モデルパラメータとを音声認識手段１２，２３により照合する。この時の照合経路より、認識モデルパラメータと特徴量とを対応付けできるので、次式によって認識モデルパラメータの更新処理を行うことができる。

ここで、ｕ_ｎｉは変更前のパラメータ値であり、ｕ’_ｎｉは更新後のパラメータ値である。ただし、ｎはパラメータ番号、ｉは要素番号である。また、Ｘ_ｍｉは、ｍフレーム目の音声特徴量を表している。また、ａは、特徴量をどの程度パラメータに反映するかを決める適応係数である。適応係数ａは、例えば、ａ＝１０^−３のように設定される。

また、騒音の検証モデルを更新する場合についても、上述した認識モデルパラメータの更新処理と同様に処理を行えばよい。

なお、認識モデルパラメータ，検証モデルの更新処理の仕方は、数１に限られるものではなく、ＭＡＰ（最大事後確率）推定法などの良く知られた適応手法を用いることもできる。

このように、検証モデルと認識モデルパラメータを入力音声特徴量を用いて更新することによって、背景騒音の影響だけでなく、話者の特性や通信時の雑音を吸収することができ、認識精度を向上させることができる。

また、上述の各実施形態において、騒音検証手段１４，３４の検証モデルと記憶手段２の認識モデルパラメータセットとを追加し、上述した方法により（例えば数１により）、すなわち、入力音声特徴量を用いて、追加された検証モデルと追加された認識モデルパラメータセットとを更新することもできる。

図６は騒音検証手段１４，３４の検証モデルと記憶手段２の認識モデルパラメータセットとを追加し、追加された検証モデルと追加された認識モデルパラメータセットとを更新する処理を説明するための図である。

騒音検証手段１４，３４の検証モデルと記憶手段２の認識モデルパラメータセットとを追加し、追加された検証モデルと追加された認識モデルパラメータセットとを更新する処理は、具体的には、次のようにしてなされる。すなわち、認識モデルパラメータセットについては、まず、記憶手段２の認識モデルパラメータセット（例えばＰ１）をコピーし、新しい認識モデルパラメータセット（図６では番号ｎ＋１のパラメータセットＰ（ｎ＋１））を作成する。ここで、認識モデルパラメータセットＰ１だけは、静かな環境で訓練された特別な認識モデルパラメータセットであり、どの騒音環境の影響も受けていないとする。その後、認識モデルパラメータセットＰ（ｎ＋１）に対し、上述した認識モデルパラメータの更新処理を行うことにより、他の騒音環境の影響を受けずに、現在使用中の騒音環境に適応した認識モデルパラメータセットを獲得することができる。

また、検証モデルについては、騒音検証手段１４，３４では、（ｎ＋１）番目の検証モデルＱ（ｎ＋１）用に記憶領域を新たに確保する。その後、上述した検証モデルの更新処理を行なうことにより（例えば、数１の適応係数ａをａ＝１として更新処理を行なうことにより）、（ｎ＋１）番目の検証モデルＱ（ｎ＋１）を作成する。この処理により、他の騒音環境の成分を含まず、現環境の騒音状態を検証するための検証モデルを作成できる。

このように、騒音環境を検証する検証モデルと認識モデルパラメータとを現在の使用環境に特化して作成することにより、認識精度を飛躍的に向上させることが可能となる。

すなわち、騒音検証手段１４，３４の検証モデルと記憶手段２の認識モデルパラメータセットとを追加し、追加された検証モデルと追加された認識モデルパラメータセットとを更新する処理は、騒音検証手段を用いて認識モデルパラメータセットを選択したり、認識モデルパラメータや検証モデルの更新処理を行っても、満足な性能が得られないときに効果がある。

ところで、図１，図３，図４あるいは図５の通信端末１，２１，３１，４１は、ＤＳＰ（ディジタル信号処理プロセッサ）などの専用のハードウエアで実現する以外に，例えばワークステーション，パーソナルコンピュータなどに用いられている汎用のハードウエアで実現することも可能である。図７は本発明の通信端末のハードウェア構成例を示す図である。図７を参照すると、通信端末のハードウェアとして、全体を制御するＣＰＵ５１と、ＣＰＵ５１の制御プログラム，読み出し専用データなどが記憶されているＲＯＭ５２と、ＣＰＵ５１の作業領域などに使用されるＲＡＭ５３と、データ記憶領域として使用されるハードディスク５４と、音声入力部５５と、通信インタフェース５６とが設けられている。

また、本発明の音声認識機能，とりわけ図１，図３，図４，図５の通信端末１，２１，３１，４１の機能は、例えばソフトウェアパッケージ（ＣＤ−ＲＯＭなどの情報記録媒体）の形態で提供することができる。すなわち、本発明は、汎用ＯＳが稼動する計算機上の記憶装置（例えば図７のようなハードウェア構成の通信端末のＲＡＭ５３やハードディスク５４等）にＣＤ−ＲＯＭなどの記録媒体に記録されたプログラムを読込ませて、計算機のもつハードウェア構成で、所定の処理を実行させることで実現できる。なお、記録媒体としては、ＣＤ−ＲＯＭに限られるものではなく、ＲＯＭ、ＲＡＭ、フレキシブルディスク、メモリカードなどが用いられてもよいし，通信網を介したダウンロードの形態でもよい。また、記録媒体に記録されたプログラムは、ハードウェアシステムに組込まれている記憶装置、例えばハードディスクにインストールすることにより、このプログラムを実行して、本発明の音声認識などの機能を実現することができる。

本発明に係る音声認識システムの第１の実施形態の構成例を示す図である。騒音検証手段の構成例を示す図である。本発明に係る音声認識システムの第２の実施形態の構成例を示す図である。本発明に係る音声認識システムの第３の実施形態の構成例を示す図である。本発明に係る音声認識システムの第４の実施形態の構成例を示す図である。騒音検証手段の検証モデルと記憶手段の認識パラメータセットとを追加し、追加された検証モデルと追加された認識パラメータセットとを更新する処理を説明するための図である。本発明の通信端末のハードウェア構成例を示す図である。

符号の説明

１，２１，３１，４１通信端末
２記憶手段
１１音声入力手段
１２，４２特徴抽出手段
１３，２３音声認識手段
１４，３４騒音検証手段
１５通信端末中央処理装置
１６比較器
５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４ハードディスク
５５音声入力部
５６通信インタフェース
２００，３００，４００，５００通信網

Claims

通信端末と、前記通信端末と通信網を介して接続される記憶手段とを備え、
前記通信端末は、音声および／または周囲の騒音が入力される音声入力手段と、音声入力手段から入力された音声の特徴量を抽出する特徴抽出手段と、前記音声の特徴量を所定の認識モデルパラメータセットと照合することによって音声を認識する音声認識手段と、前記音声入力手段から入力された周囲の騒音を検証する騒音検証手段とを有し、
前記騒音検証手段は、騒音の種類ごとに用意されているｎ（ｎ≧１）個の検証モデルと、特徴抽出手段によって抽出された周囲の騒音の特徴量と各検証モデルとを比較する比較手段とを備え、
また、前記記憶手段には、騒音検証手段のｎ個の検証モデルのそれぞれに対応付けられた認識モデルパラメータセットが記憶されており、
前記騒音検証手段の比較手段が周囲の騒音の特徴量とｎ個の検証モデルとを比較することによって周囲の騒音の特徴量に最も類似する検証モデルの番号を選択すると、前記記憶手段においては、前記騒音検証手段で選択された検証モデルの番号に対応する認識モデルパラメータセットを前記記憶手段に記憶されている複数の認識モデルパラメータセットの中から選択して前記通信端末に返送するダウンロードを行ない、前記通信端末の記憶領域に保存されている現在の認識モデルパラメータセットを、前記記憶手段からダウンロードされた認識モデルパラメータセットに書き換え、この際、前記通信端末の記憶領域に現在保存されている認識モデルパラメータセットの内容が更新されていた場合は、上記ダウンロードが行われる前に、前記通信端末の記憶領域に現在保存されている認識モデルパラメータセットを前記記憶手段にアップロードし、しかる後に、該当する認識モデルパラメータセットを書き換えるようになっており、
前記音声認識手段は、前記選択されダウンロードされた認識モデルパラメータセットを用いて、音声認識を行ない、
前記騒音検証手段の検証モデル、または、前記音声認識手段および／または前記記憶手段の認識モデルパラメータは、更新前のパラメータとｍフレーム目の音声特徴量を混合して更新され、更新前のパラメータとｍフレーム目の音声特徴量を混合して更新される際に、更新前のパラメータに比べてｍフレーム目の音声特徴量の混合比率を１０ ^−３にして更新されるようになっていることを特徴とする音声認識システム。
請求項１記載の音声認識システムにおいて、
前記認識モデルまたは検証モデルには、ＨＭＭが用いられることを特徴とする音声認識システム。
請求項１または請求項２記載の音声認識システムにおいて、
検証モデルを追加するとき、追加される検証モデルのパラメータがｍフレーム目の音声特徴量となるように検証モデルの更新処理を行うことによって、検証モデルの作成がなされることを特徴とする音声認識システム。