JP4658022B2 - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP4658022B2
JP4658022B2 JP2006313125A JP2006313125A JP4658022B2 JP 4658022 B2 JP4658022 B2 JP 4658022B2 JP 2006313125 A JP2006313125 A JP 2006313125A JP 2006313125 A JP2006313125 A JP 2006313125A JP 4658022 B2 JP4658022 B2 JP 4658022B2
Authority
JP
Japan
Prior art keywords
verification
recognition
noise
communication terminal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006313125A
Other languages
English (en)
Other versions
JP2007072481A (ja
Inventor
喜永 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2006313125A priority Critical patent/JP4658022B2/ja
Publication of JP2007072481A publication Critical patent/JP2007072481A/ja
Application granted granted Critical
Publication of JP4658022B2 publication Critical patent/JP4658022B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、音声認識システムに関する。
一般に、移動用通信端末から入力された音声を認識する場合、通信網に接続された音声認識装置を用いるため、移動用通信端末からの入力音声は、通信網を介して音声認識装置に伝送されてくる。ところで,移動用通信端末は、道路わき、駅のホームなどの様々な場所で使用される。そのため、移動用通信端末から入力された音声は、たとえ同一の使用者であっても、様々な使用環境により異なる背景騒音の影響を受けている。さらに、移動用通信端末からの音声は通信網を介して送られてくるので、通信雑音に対する影響も受ける。通信経路は一定とは限らないため、従来では、通信路を伝送した音声を認識した場合、背景騒音と通信路の雑音とが複雑に影響して、音声認識の性能が低下するという問題があった。
このような問題を解決するため、例えば特許文献1には、使用者の音声を音声認識装置に学習させることにより、認識精度の向上を図る技術が示されている。
特開平10−282990号公報
しかしながら、特許文献1の技術によっても、背景騒音や通信経路の変化により、移動用通信端末から入力された音声の波形が影響を受けた場合、認識精度が劣化してしまうという問題がある。
本発明は、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことの可能な音声認識システムを提供することを目的としている。

上記目的を達成するために、請求項1記載の発明は、通信端末と、前記通信端末と通信網を介して接続される記憶手段とを備え、
前記通信端末は、音声および/または周囲の騒音が入力される音声入力手段と、音声入力手段から入力された音声の特徴量を抽出する特徴抽出手段と、前記音声の特徴量を所定の認識モデルパラメータセットと照合することによって音声を認識する音声認識手段と、前記音声入力手段から入力された周囲の騒音を検証する騒音検証手段とを有し、
前記騒音検証手段は、騒音の種類ごとに用意されているn(n≧1)個の検証モデルと、特徴抽出手段によって抽出された周囲の騒音の特徴量と各検証モデルとを比較する比較手段とを備え、
また、前記記憶手段には、騒音検証手段のn個の検証モデルのそれぞれに対応付けられた認識モデルパラメータセットが記憶されており、
前記騒音検証手段の比較手段が周囲の騒音の特徴量とn個の検証モデルとを比較することによって周囲の騒音の特徴量に最も類似する検証モデルの番号を選択すると、前記記憶手段においては、前記騒音検証手段で選択された検証モデルの番号に対応する認識モデルパラメータセットを前記記憶手段に記憶されている複数の認識モデルパラメータセットの中から選択して前記通信端末に返送するダウンロードを行ない、前記通信端末の記憶領域に保存されている現在の認識モデルパラメータセットを、前記記憶手段からダウンロードされた認識モデルパラメータセットに書き換え、この際、前記通信端末の記憶領域に現在保存されている認識モデルパラメータセットの内容が更新されていた場合は、上記ダウンロードが行われる前に、前記通信端末の記憶領域に現在保存されている認識モデルパラメータセットを前記記憶手段にアップロードし、しかる後に、該当する認識モデルパラメータセットを書き換えるようになっており、
前記音声認識手段は、前記選択されダウンロードされた認識モデルパラメータセットを用いて、音声認識を行ない、
前記騒音検証手段の検証モデル、または、前記音声認識手段および/または前記記憶手段の認識モデルパラメータは、更新前のパラメータとmフレーム目の音声特徴量を混合して更新され、更新前のパラメータとmフレーム目の音声特徴量を混合して更新される際に、更新前のパラメータに比べてmフレーム目の音声特徴量の混合比率を10 −3 して更新されるようになっていることを特徴としている。
また、請求項2記載の発明は、請求項1記載の音声認識システムにおいて、
前記認識モデルまたは検証モデルには、HMMが用いられることを特徴としている。
また、請求項3記載の発明は、請求項1または請求項2記載の音声認識システムにおいて、
検証モデルを追加するとき、追加される検証モデルのパラメータがmフレーム目の音声特徴量となるように検証モデルの更新処理を行うことによって検証モデルの作成がなされることを特徴としている。
請求項1乃至請求項3記載の発明によれば、周囲の騒音を検証し、騒音環境に最も適合する認識モデルパラメータを用いて、音声認識を行なうようになっているので、使用環境によらずに精度良く音声認識を行うことができる。また、通信網を介した記憶手段を設けることにより、通信端末の記憶容量を節約できる。また、前記騒音検証手段の検証モデル、または、前記音声認識手段および/または前記記憶手段の認識モデルパラメータは、更新前のパラメータとmフレーム目の音声特徴量を混合して更新され、更新前のパラメータとmフレーム目の音声特徴量を混合して更新される際に、更新前のパラメータに比べてmフレーム目の音声特徴量の混合比率を10 −3 して更新されるようになっており、検証モデルと認識モデルパラメータをmフレーム目の音声特徴量を用いて更新することによって、背景騒音の影響だけでなく、話者の特性や通信時の雑音を吸収することができ、認識精度を向上させることができる。
特に、請求項3記載の発明によれば、請求項1または請求項2記載の音声認識システムにおいて、
検証モデルを追加するとき、追加される検証モデルのパラメータがmフレーム目の音声特徴量となるように検証モデルの更新処理を行うことによって検証モデルの作成がなされるので、他の騒音環境の成分を含まず、現環境の騒音状態を検証するための検証モデルを作成できる。
以下、本発明の実施形態を図面に基づいて説明する。図1は本発明に係る音声認識システムの第1の実施形態の構成例を示す図である。図1を参照すると、この音声認識システムは、通信端末(例えば、携帯電話などの移動用通信端末)1と、通信端末1と通信網200を介して接続された記憶手段2とを備えている。
ここで、通信端末1は、音声および/または周囲の騒音が入力される音声入力手段11と、音声入力手段11から入力された音声の特徴量を抽出する特徴抽出手段12と、前記音声の特徴量を所定の認識モデルパラメータセットと照合することにより音声を認識する音声認識手段13と、前記音声入力装置11から入力された周囲の騒音を検証する騒音検証手段14と、通信端末中央処理装置15とを有している。
特徴抽出手段12には、よく知られたLPC(線形予測)分析などを用いることができる。例えば、分析条件を、標本化周波数:8kHz、高域強調:一次差分、256点ハミング窓、移動幅:16ms、LPC分析次数:20とし、10次元メルケプストラム係数+対数パワーの一次差分+対数パワーという特徴量をフレーム単位で抽出するものを用いることができる。なお、音声の分析は、上記のものに限られたものではなく、周波数分析など他のどのような手法を用いてもよい。
また、記憶手段2には、複数の認識モデルパラメータセットP1,…,Pnが記憶されている。すなわち、記憶手段2には、各騒音の環境下で訓練された認識モデルパラメータセットP1,…,Pnが記憶されている。
そして、騒音検証手段14は、周囲の騒音を検証したときに、検証した騒音の種類に応じた認識モデルパラメータセットを記憶手段2に記憶されている複数の認識モデルパラメータセットP1,…,Pnの中から選択し、前記音声認識手段13は、前記騒音検証手段14によって選択された認識モデルパラメータセットPを用いて、音声認識を行なうようになっている。
図2は騒音検証手段14の構成例を示す図である。図2を参照すると、騒音検証手段14には、騒音の種類ごとに用意されている検証モデルQ1,…,Qnと、特徴抽出手段12によって抽出された背景騒音の特徴量と各検証モデルQ1,…,Qnとを比較する比較器16とが設けられている。ここで、各検証モデルQ1,…,Qnは、各騒音の代表パターンや、HMMなどのモデルを使って予め作成されている。
なお、ここで、記憶手段2に記憶されている認識モデルパラメータセットP1,…,Pnの番号1〜nは、騒音検証手段14の検証モデルQ1,…,Qnの番号1〜nと対応付けられている。
次に、このような構成の図1の音声認識システムの処理動作について説明する。通信端末1の音声入力手段(例えば携帯電話のマイク)11から音声が入力されると、特徴抽出手段12により、入力音声の特徴量が抽出される。
音声認識を行う場合には、スイッチSW1を音声認識手段13側Aに入れる。認識モデルパラメータセットPは、通信端末1の記憶領域に保存されており、比較対象となる全ての認識単位(例えば音素)のモデルを表現できるパラメータとして記憶されている。これらのパラメータは、認識モデルを表現できればどのようなものを用いてもよく、よく知られたHMM(隠れマルコフモデル)などの確率モデルのパラメータや、照合対象の代表パターンなどを用いることができる。
音声認識手段13では、通信端末1の記憶領域に現在保存されている認識モデルパラメータPと特徴抽出手段12によって抽出された音声特徴量とを比較し、この比較結果を通信端末中央処理装置15に与え、通信端末中央処理装置15では、アプリケーションに応じた処理が行われる。例えば、使用者が発声した相手先の名前を音声認識して、この通信端末に登録されている電話番号にダイアルするといったような処理が行われる。
ところで、上記のような音声認識を行う場合、使用場所により背景騒音の種類が変化するので、誤認識が頻繁に発生することがある。この不都合を解決するため、本発明では、スイッチSW1を音声認識手段13側Aに入れるに先立って、スイッチSW1を騒音検証手段14側Bに入れ、現在の背景騒音を音声入力手段1から入力することにより、音声認識がなされるに先立って、騒音の状態を検証することができるようになっている。
この場合、騒音検証手段14では、特徴抽出手段12によって抽出された背景騒音の特徴量とn個の検証モデルQ1,…,Qnとを比較器16により比較し、最も類似する検証モデルの番号を選択する。例えば、検証モデルがHMMである場合には、騒音の特徴量に対する尤度が最も大きくなる検証モデルが選択され、騒音検証手段14では、このように選択された検証モデルの番号を通信端末中央処理装置15に送る。これにより、通信端末中央処理装置15は、データ通信機能を使って検証モデルの番号を通信網200を介して記憶手段2に通知する。
ここで、騒音検証手段14において、n個の検証モデルQ1,…,Qnのうち、例えば番号2の検証モデルQ2が選択され、これが通信端末中央処理装置15によって通信網200を介して記憶手段2に通知されると、記憶手段2においては、通信端末中央処理装置15から通知された検証モデルの番号2に対応する認識モデルパラメータセット(すなわち、いまの場合には、モデル番号2の認識モデルパラメータセットP2)が選択されて、これが通信網200を介して通信端末1(すなわち、通信端末中央処理装置15)に返送される(ダウンロードされる)。これにより、通信端末中央処理装置15は、通信端末1の記憶領域に保存されている現在の認識モデルパラメータセットPを、記憶手段2から送られた(ダウンロードされた)認識モデルパラメータセット(例えばP2)に書き換える。
ただし、後述のように、通信端末1の記憶領域に現在保存されている認識モデルパラメータセットの内容が更新されていた場合は、上記ダウンロードが行われる前に、通信端末1の記憶領域に現在保存されている認識モデルパラメータセットPを記憶手段2にアップロードし、しかる後に、該当する認識モデルパラメータセットを書き換える。例えば、認識モデルパラメータセットP1が通信端末1の記憶領域に現在保存されている場合には、記憶手段2に記憶されている認識モデルパラメータセットP1の内容を通信端末1の記憶領域に現在保存されている認識モデルパラメータセットP1で書き換えた後(アップロードした後)に、記憶手段2からの認識パラメータセットP2を通信端末1の記憶領域にダウンロードする。この処理により、通信端末1側では、現在の騒音に最も適応した認識モデルパラメータセットPを用いることができるので、音声認識の精度を向上させることができる。さらに、騒音環境が変化して、再び過去に用いていた認識モデルパラメータセットが必要な状況になっても、記憶手段2からその認識モデルパラメータセットを選択することで、これを通信端末1側にダウンロードし直すことが可能となる。
このように、第1の実施形態では、通信端末から入力した音声の特徴量を抽出する特徴抽出手段と、前記特徴量より音声を認識する音声認識手段と、前記通信端末から入力した周囲の騒音を検証する騒音検証手段と、前記通信端末と通信網を介して接続された記憶手段とを備え、前記音声認識手段は、前記記憶手段に記憶されている複数の認識モデルパラメータセットの中から前記騒音検証手段を用いて選択された認識モデルパラメータセットを用いて、音声認識を行うので、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことができる。さらに、この第1の実施形態では、通信端末1内に記憶手段2を設けずに、通信端末1と通信網200を介して記憶手段2を接続しているので、通信端末1の記憶容量を節約することができる。
図3は本発明に係る音声認識システムの第2の実施形態の構成例を示す図である。なお、図3において図1と同様の箇所には同じ符号を付している。図3を参照すると、この音声認識システムは、通信端末(例えば、携帯電話などの移動用通信端末)21と、通信端末21と通信網300を介して接続された音声認識手段23および記憶手段2とを備えている。
ここで、通信端末21は、音声および/または周囲の騒音が入力される音声入力手段11と、音声入力手段11から入力された音声の特徴量を抽出する特徴抽出手段12と、前記音声入力手段11から入力された周囲の騒音を検証する騒音検証手段14と、通信端末中央処理装置25とを有している。
なお、音声入力手段11,特徴抽出手段12,騒音検証手段14,記憶手段2は、図1において説明したと同様の構成および機能のものとなっている。
図3の構成は、図1の通信端末1内に設けられている音声認識手段13および認識モデルパラメータセットPを保持するための記憶領域を通信端末21内には設けずに、音声認識手段23として通信網300に接続したものである。
この第2の実施形態では、音声認識を行なう場合は、スイッチSW1をAの側に入れる。これにより、通信端末21の特徴抽出手段12により得られた特徴量は、通信網300を介して音声認識手段23に伝送され、音声認識手段23では、伝送された特徴量を用いて音声認識が行われる。この際、音声認識手段23は、記憶手段2で選択されている認識モデルパラメータセットを直接参照して音声認識を行うことができる。
この第2の実施形態においても、騒音環境が変化した場合は、第1の実施形態と同様に、通信端末21側の騒音検証手段14を用いて、検証モデルの番号を通信網300を介して記憶手段2へ通知し、記憶手段2における認識パラメータセットを選択し直せばよい。
このように、この第2の実施形態では、特徴抽出手段と騒音検証手段とを前記通信端末に備え、また、通信端末と通信網を介して音声認識手段を備え、前記騒音検証手段を用いて前記記憶手段に記憶されている認識モデルパラメータセットを選択し、選択された認識モデルパラメータセットを音声認識手段に用いるので、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことができる。さらに、この第2の実施形態では、通信端末21側に、音声認識手段と認識モデルパラメータセットを保存するための記憶領域とを持つ必要がなくなるので、通信端末21の記憶容量をより一層節約することができる。
図4は本発明に係る音声認識システムの第3の実施形態の構成例を示す図である。なお、図4において図1,図3と同様の箇所には同じ符号を付している。図4を参照すると、この音声認識システムは、通信端末(例えば、携帯電話などの移動用通信端末)31と、通信端末31と通信網400を介して接続された音声認識手段23,騒音検証手段34,記憶手段2とを備えている。
ここで、通信端末31は、音声および/または周囲の騒音が入力される音声入力手段11と、音声入力手段11から入力された音声の特徴量を抽出する特徴抽出手段12と、通信端末中央処理装置35とを有している。
なお、音声入力手段11,特徴抽出手段12,音声認識手段23,記憶手段2は、図1,図3において説明したと同様の構成および機能のものとなっている。
図4の構成は、図3の通信端末21内に設けられている騒音検証手段14を通信端末31内には設けずに、騒音検証手段34として通信網400に接続したものである。
この第3の実施形態では、音声認識を行う場合には、スイッチSW1を音声認識手段23側Aへ入れる。一方、認識モデルパラメータセットを変更する場合には、認識モデルパラメータセットの番号を取得するため、スイッチSW1を騒音検証手段34側Bへ入れて通信端末31側から伝送されてきた騒音の特徴量を検証することができる。
このように、第3の実施形態では、特徴抽出手段を前記通信端末に備え、また、通信端末と通信網を介して騒音検証手段,音声認識手段を備え、前記騒音検証手段を用いて前記記憶手段に記憶されている認識モデルパラメータセットを選択し、選択された認識モデルパラメータセットを音声認識手段に用いるので、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことができる。さらに、この第3の実施形態では、通信端末31側に、音声認識手段と認識モデルパラメータセットを保存するための記憶領域と騒音検証手段とを持つ必要がなくなるので、通信端末31の記憶容量を図3の場合よりもさらに一層節約することができる。
図5は本発明に係る音声認識システムの第4の実施形態の構成例を示す図である。なお、図5において図1,図3,図4と同様の箇所には同じ符号を付している。図5を参照すると、この音声認識システムは、通信端末(例えば、携帯電話などの移動用通信端末)41と、通信端末41と通信網500を介して接続された特徴抽出手段42,音声認識手段23,騒音検証手段34,記憶手段2とを備えている。
ここで、通信端末4は、音声および/または周囲の騒音が入力される音声入力手段11と、通信端末中央処理装置45とを有している。
なお、音声入力手段11,音声認識手段23,騒音検証手段34,記憶手段2は、図1,図3,図4において説明したと同様の構成および機能のものとなっている。
この第4の実施形態では、本発明を実施するための手段を全て通信網500側に設けている。
この第4の実施形態では、通信網500を介して通信端末41から伝送された音声を通信網500に接続されている特徴抽出手段42を用いて、特徴量を抽出する。この場合、通信網500に伝送される対象は、特徴量などのデータではなく音声であるため、通信網500としては、広く一般に普及している音声用の公衆回線網を利用することが可能である。
このように、第4の実施形態では、通信端末と通信網を介して特徴抽出手段,騒音検証手段,音声認識手段を備え、前記騒音検証手段を用いて前記記憶手段に記憶されている認識モデルパラメータセットを選択し、選択された認識モデルパラメータセットを音声認識手段に用いるので、移動用通信端末などの通信端末からの音声入力時の背景騒音環境が変化する様々な場面においても、精度よく音声認識を行うことができる。さらに、この第4の実施形態では、通信端末31側に、音声認識手段と認識モデルパラメータセットを保存するための記憶領域と騒音検証手段とを持つ必要がなくなるので、通信端末31の記憶容量を図3の場合よりもさらに一層節約することができる。
なお、上述の各実施形態において、騒音検証手段14,34に設けられている検証モデルと音声認識手段13,23または記憶手段2の認識モデルパラメータを入力音声特徴量を用いて更新することも可能である。すなわち、特徴抽出手段12,42により得られた特徴量を用いて、認識モデルパラメータや騒音の検証モデルを更新することができる。
具体的に、認識モデルパラメータを更新する場合は、音声の特徴量と正解の認識モデルパラメータとを音声認識手段12,23により照合する。この時の照合経路より、認識モデルパラメータと特徴量とを対応付けできるので、次式によって認識モデルパラメータの更新処理を行うことができる。
Figure 0004658022
ここで、uniは変更前のパラメータ値であり、u’niは更新後のパラメータ値である。ただし、nはパラメータ番号、iは要素番号である。また、Xmiは、mフレーム目の音声特徴量を表している。また、aは、特徴量をどの程度パラメータに反映するかを決める適応係数である。適応係数aは、例えば、a=10−3のように設定される。
また、騒音の検証モデルを更新する場合についても、上述した認識モデルパラメータの更新処理と同様に処理を行えばよい。
なお、認識モデルパラメータ,検証モデルの更新処理の仕方は、数1に限られるものではなく、MAP(最大事後確率)推定法などの良く知られた適応手法を用いることもできる。
このように、検証モデルと認識モデルパラメータを入力音声特徴量を用いて更新することによって、背景騒音の影響だけでなく、話者の特性や通信時の雑音を吸収することができ、認識精度を向上させることができる。
また、上述の各実施形態において、騒音検証手段14,34の検証モデルと記憶手段2の認識モデルパラメータセットとを追加し、上述した方法により(例えば数1により)、すなわち、入力音声特徴量を用いて、追加された検証モデルと追加された認識モデルパラメータセットとを更新することもできる。
図6は騒音検証手段14,34の検証モデルと記憶手段2の認識モデルパラメータセットとを追加し、追加された検証モデルと追加された認識モデルパラメータセットとを更新する処理を説明するための図である。
騒音検証手段14,34の検証モデルと記憶手段2の認識モデルパラメータセットとを追加し、追加された検証モデルと追加された認識モデルパラメータセットとを更新する処理は、具体的には、次のようにしてなされる。すなわち、認識モデルパラメータセットについては、まず、記憶手段2の認識モデルパラメータセット(例えばP1)をコピーし、新しい認識モデルパラメータセット(図6では番号n+1のパラメータセットP(n+1))を作成する。ここで、認識モデルパラメータセットP1だけは、静かな環境で訓練された特別な認識モデルパラメータセットであり、どの騒音環境の影響も受けていないとする。その後、認識モデルパラメータセットP(n+1)に対し、上述した認識モデルパラメータの更新処理を行うことにより、他の騒音環境の影響を受けずに、現在使用中の騒音環境に適応した認識モデルパラメータセットを獲得することができる。
また、検証モデルについては、騒音検証手段14,34では、(n+1)番目の検証モデルQ(n+1)用に記憶領域を新たに確保する。その後、上述した検証モデルの更新処理を行なうことにより(例えば、数1の適応係数aをa=1として更新処理を行なうことにより)、(n+1)番目の検証モデルQ(n+1)を作成する。この処理により、他の騒音環境の成分を含まず、現環境の騒音状態を検証するための検証モデルを作成できる。
このように、騒音環境を検証する検証モデルと認識モデルパラメータとを現在の使用環境に特化して作成することにより、認識精度を飛躍的に向上させることが可能となる。
すなわち、騒音検証手段14,34の検証モデルと記憶手段2の認識モデルパラメータセットとを追加し、追加された検証モデルと追加された認識モデルパラメータセットとを更新する処理は、騒音検証手段を用いて認識モデルパラメータセットを選択したり、認識モデルパラメータや検証モデルの更新処理を行っても、満足な性能が得られないときに効果がある。
ところで、図1,図3,図4あるいは図5の通信端末1,21,31,41は、DSP(ディジタル信号処理プロセッサ)などの専用のハードウエアで実現する以外に,例えばワークステーション,パーソナルコンピュータなどに用いられている汎用のハードウエアで実現することも可能である。図7は本発明の通信端末のハードウェア構成例を示す図である。図7を参照すると、通信端末のハードウェアとして、全体を制御するCPU51と、CPU51の制御プログラム,読み出し専用データなどが記憶されているROM52と、CPU51の作業領域などに使用されるRAM53と、データ記憶領域として使用されるハードディスク54と、音声入力部55と、通信インタフェース56とが設けられている。
また、本発明の音声認識機能,とりわけ図1,図3,図4,図5の通信端末1,21,31,41の機能は、例えばソフトウェアパッケージ(CD−ROMなどの情報記録媒体)の形態で提供することができる。すなわち、本発明は、汎用OSが稼動する計算機上の記憶装置(例えば図7のようなハードウェア構成の通信端末のRAM53やハードディスク54等)にCD−ROMなどの記録媒体に記録されたプログラムを読込ませて、計算機のもつハードウェア構成で、所定の処理を実行させることで実現できる。なお、記録媒体としては、CD−ROMに限られるものではなく、ROM、RAM、フレキシブルディスク、メモリカードなどが用いられてもよいし,通信網を介したダウンロードの形態でもよい。また、記録媒体に記録されたプログラムは、ハードウェアシステムに組込まれている記憶装置、例えばハードディスクにインストールすることにより、このプログラムを実行して、本発明の音声認識などの機能を実現することができる。
本発明に係る音声認識システムの第1の実施形態の構成例を示す図である。 騒音検証手段の構成例を示す図である。 本発明に係る音声認識システムの第2の実施形態の構成例を示す図である。 本発明に係る音声認識システムの第3の実施形態の構成例を示す図である。 本発明に係る音声認識システムの第4の実施形態の構成例を示す図である。 騒音検証手段の検証モデルと記憶手段の認識パラメータセットとを追加し、追加された検証モデルと追加された認識パラメータセットとを更新する処理を説明するための図である。 本発明の通信端末のハードウェア構成例を示す図である。
符号の説明
1,21,31,41 通信端末
2 記憶手段
11 音声入力手段
12,42 特徴抽出手段
13,23 音声認識手段
14,34 騒音検証手段
15 通信端末中央処理装置
16 比較器
51 CPU
52 ROM
53 RAM
54 ハードディスク
55 音声入力部
56 通信インタフェース
200,300,400,500 通信網

Claims (3)

  1. 通信端末と、前記通信端末と通信網を介して接続される記憶手段とを備え、
    前記通信端末は、音声および/または周囲の騒音が入力される音声入力手段と、音声入力手段から入力された音声の特徴量を抽出する特徴抽出手段と、前記音声の特徴量を所定の認識モデルパラメータセットと照合することによって音声を認識する音声認識手段と、前記音声入力手段から入力された周囲の騒音を検証する騒音検証手段とを有し、
    前記騒音検証手段は、騒音の種類ごとに用意されているn(n≧1)個の検証モデルと、特徴抽出手段によって抽出された周囲の騒音の特徴量と各検証モデルとを比較する比較手段とを備え、
    また、前記記憶手段には、騒音検証手段のn個の検証モデルのそれぞれに対応付けられた認識モデルパラメータセットが記憶されており、
    前記騒音検証手段の比較手段が周囲の騒音の特徴量とn個の検証モデルとを比較することによって周囲の騒音の特徴量に最も類似する検証モデルの番号を選択すると、前記記憶手段においては、前記騒音検証手段で選択された検証モデルの番号に対応する認識モデルパラメータセットを前記記憶手段に記憶されている複数の認識モデルパラメータセットの中から選択して前記通信端末に返送するダウンロードを行ない、前記通信端末の記憶領域に保存されている現在の認識モデルパラメータセットを、前記記憶手段からダウンロードされた認識モデルパラメータセットに書き換え、この際、前記通信端末の記憶領域に現在保存されている認識モデルパラメータセットの内容が更新されていた場合は、上記ダウンロードが行われる前に、前記通信端末の記憶領域に現在保存されている認識モデルパラメータセットを前記記憶手段にアップロードし、しかる後に、該当する認識モデルパラメータセットを書き換えるようになっており、
    前記音声認識手段は、前記選択されダウンロードされた認識モデルパラメータセットを用いて、音声認識を行ない、
    前記騒音検証手段の検証モデル、または、前記音声認識手段および/または前記記憶手段の認識モデルパラメータは、更新前のパラメータとmフレーム目の音声特徴量を混合して更新され、更新前のパラメータとmフレーム目の音声特徴量を混合して更新される際に、更新前のパラメータに比べてmフレーム目の音声特徴量の混合比率を10 −3 して更新されるようになっていることを特徴とする音声認識システム。
  2. 請求項1記載の音声認識システムにおいて、
    前記認識モデルまたは検証モデルには、HMMが用いられることを特徴とする音声認識システム。
  3. 請求項1または請求項2記載の音声認識システムにおいて、
    検証モデルを追加するとき、追加される検証モデルのパラメータがmフレーム目の音声特徴量となるように検証モデルの更新処理を行うことによって、検証モデルの作成がなされることを特徴とする音声認識システム。
JP2006313125A 2006-11-20 2006-11-20 音声認識システム Expired - Fee Related JP4658022B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006313125A JP4658022B2 (ja) 2006-11-20 2006-11-20 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006313125A JP4658022B2 (ja) 2006-11-20 2006-11-20 音声認識システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2000057941A Division JP4201455B2 (ja) 2000-02-29 2000-02-29 音声認識システム

Publications (2)

Publication Number Publication Date
JP2007072481A JP2007072481A (ja) 2007-03-22
JP4658022B2 true JP4658022B2 (ja) 2011-03-23

Family

ID=37933907

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006313125A Expired - Fee Related JP4658022B2 (ja) 2006-11-20 2006-11-20 音声認識システム

Country Status (1)

Country Link
JP (1) JP4658022B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011024572A1 (ja) 2009-08-28 2011-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JP5724361B2 (ja) * 2010-12-17 2015-05-27 富士通株式会社 音声認識装置、音声認識方法および音声認識プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6191700A (ja) * 1984-10-11 1986-05-09 株式会社日立製作所 音声入力装置
JPS6242198A (ja) * 1985-08-20 1987-02-24 松下電器産業株式会社 音声認識装置
JPH01260495A (ja) * 1988-04-12 1989-10-17 Matsushita Electric Ind Co Ltd 音声認識法
JPH03276196A (ja) * 1990-03-27 1991-12-06 Matsushita Refrig Co Ltd 音声認識システム
JPH086589A (ja) * 1994-06-21 1996-01-12 Nec Corp 電話回線音声入力システム
JPH09507105A (ja) * 1993-12-22 1997-07-15 クゥアルコム・インコーポレーテッド 分散音声認識システム
JPH10282990A (ja) * 1997-04-04 1998-10-23 Sony Corp テキスト入力方法及び装置
JP2000194392A (ja) * 1998-12-25 2000-07-14 Sharp Corp 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69822296T2 (de) * 1997-10-20 2005-02-24 Koninklijke Philips Electronics N.V. Mustererkennungsregistrierung in einem verteilten system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6191700A (ja) * 1984-10-11 1986-05-09 株式会社日立製作所 音声入力装置
JPS6242198A (ja) * 1985-08-20 1987-02-24 松下電器産業株式会社 音声認識装置
JPH01260495A (ja) * 1988-04-12 1989-10-17 Matsushita Electric Ind Co Ltd 音声認識法
JPH03276196A (ja) * 1990-03-27 1991-12-06 Matsushita Refrig Co Ltd 音声認識システム
JPH09507105A (ja) * 1993-12-22 1997-07-15 クゥアルコム・インコーポレーテッド 分散音声認識システム
JPH086589A (ja) * 1994-06-21 1996-01-12 Nec Corp 電話回線音声入力システム
JPH10282990A (ja) * 1997-04-04 1998-10-23 Sony Corp テキスト入力方法及び装置
JP2000194392A (ja) * 1998-12-25 2000-07-14 Sharp Corp 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2007072481A (ja) 2007-03-22

Similar Documents

Publication Publication Date Title
CN108520741B (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
KR100976643B1 (ko) 자동 음성 인식 시스템용 적응형 콘텍스트
CN106683677B (zh) 语音识别方法及装置
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
JP4643911B2 (ja) 音声認識方法及び装置
JP6464650B2 (ja) 音声処理装置、音声処理方法、およびプログラム
US7533023B2 (en) Intermediary speech processor in network environments transforming customized speech parameters
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US20100318355A1 (en) Model training for automatic speech recognition from imperfect transcription data
KR20180064504A (ko) 개인화된 엔티티 발음 학습
US6961702B2 (en) Method and device for generating an adapted reference for automatic speech recognition
CN111326148B (zh) 置信度校正及其模型训练方法、装置、设备及存储介质
US6931374B2 (en) Method of speech recognition using variational inference with switching state space models
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
KR20080102373A (ko) 스피커 인증 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어를 갖는 컴퓨터 판독가능 매체
Stan et al. ALISA: An automatic lightly supervised speech segmentation and alignment tool
KR20080064351A (ko) 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치
JP4658022B2 (ja) 音声認識システム
JP2017167270A (ja) 音声処理装置および音声処理方法
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP4201455B2 (ja) 音声認識システム
JP5988077B2 (ja) 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
US20030055642A1 (en) Voice recognition apparatus and method
JP2008241970A (ja) 話者適応装置、話者適応方法及び話者適応プログラム
CN111933146B (zh) 语音识别系统及方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees