JP2010282239A - 音声認識装置、音声認識方法、およびそのプログラム - Google Patents
音声認識装置、音声認識方法、およびそのプログラム Download PDFInfo
- Publication number
- JP2010282239A JP2010282239A JP2010218255A JP2010218255A JP2010282239A JP 2010282239 A JP2010282239 A JP 2010282239A JP 2010218255 A JP2010218255 A JP 2010218255A JP 2010218255 A JP2010218255 A JP 2010218255A JP 2010282239 A JP2010282239 A JP 2010282239A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- speech
- model
- normalized
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】雑音区間信号のケプストラムから雑音モデルを作成し、音声区間信号のケプストラムから音声ケプストラム平均を求める。次いで、音声ケプストラム平均、クリーン音声モデル(非雑音環境で収音された音声の音声単位毎に構築した音響モデル)のクリーン音声のケプストラムの平均及び雑音モデルの雑音のケプストラムの平均を用いて乗法性雑音特徴量を算出し、乗法性雑音特徴量を用いて雑音モデルを正規化して正規化雑音モデルを生成する。さらに正規化雑音モデルとクリーン音声モデルとを合成して正規化雑音重畳音声モデルを生成し、正規化雑音重畳音声モデルを正規化して正規化済み雑音適応モデルを音響モデルとして構築する。この音響モデルと、音声区間信号の音響特徴量を正規化した正規化音声成分特徴量とを照合して尤度を求め、この照合尤度に基づき音声認識結果を得る。
【選択図】図2
Description
、この音響モデルと入力音声の音響特徴量との照合によって音声認識を行う従来的手法は、認識性能が高く、現在の音声認識技術の主流となっている。図10に従来のHMMを用いた音声認識装置の機能構成例を示す。
モデル照合尤度計算部(15)は、モデル格納部(14)から音響モデルを読み込み、モデル照合尤度計算部(15)に入力された音響特徴量と読み込んだ音響モデルとを照合して、音響特徴量に対応した音素列ごとの尤度(照合尤度とも云う。)を計算し、この計算結果を出力する。この計算結果は、認識結果決定部(16)の入力となる。
なお、必要に応じて、モデル照合尤度計算部(15)は、入力された音響特徴量と、読み込んだ音響モデル、言語モデル(辞書も含む。)などとを照合して、音響特徴量に対応した単語列ごとの照合尤度を計算し、この計算結果を出力するようにしてもよい。モデル照合尤度計算部(15)による照合尤度計算は、公知の方法で達成される。
非特許文献3で提案されているNOVO+CMN法は、加法性および乗法性の雑音環境下の音声認識処理のレスポンス性(発話者であるユーザが音声認識装置に対して発話してから音声認識装置から認識結果が返ってくるまでの時間の短さ)に着目し、入力信号の非音声(雑音)区間の情報−つまり、雑音信号−のみから音響モデルの雑音適応およびモデルパラメータの正規化を行い、入力信号の音声区間の情報−つまり、音声信号−に対しては、その音響特徴量の正規化を行うことで音声認識精度を高める一方で、音声認識処理前の音響モデルの更新に音声の入力を待つ必要が無く高いレスポンス性を実現している。
まず、発話者であるユーザの発声した音声および雑音は、マイクロフォン(900)によって収音される。マイクロフォン(900)によって収音されたユーザの音声および雑音は、収音信号として音声認識装置の収音信号入力部(11)の入力となる。
雑音モデル生成部(27)は、入力された音響特徴量に基づき「雑音モデル」を生成する。雑音モデルは、雑音HMMとして生成される。雑音HMMは、雑音とこの音響特徴量との関係を確率として与える確率モデルである。この雑音HMMの生成は公知の方法で達成される(非特許文献2参照。)。
音声ケプストラム平均計算部(211)が、入力された音響特徴量から「音声ケプストラム平均」(例えて言えば、式(1)[B]の右辺の分母に相当するものである。)を求め、この音声ケプストラム平均を出力する。音声ケプストラム平均計算部(211)が出力した音声ケプストラム平均は、音声ケプストラム平均正規化部(26)の入力となる。
モデル照合尤度計算部(15)は、雑音適応モデル格納部(213)から正規化済み雑音適応モデルを読み込み、モデル照合尤度計算部(15)に入力された正規化音声成分特徴量と読み込んだ正規化済み雑音適応モデルとを照合して、正規化音声成分特徴量に対応した音素列ごとの尤度(照合尤度とも云う。)を計算し、この計算結果を出力する。この計算結果は、認識結果決定部(16)の入力となる。
なお、必要に応じて、モデル照合尤度計算部(15)は、入力された正規化音声成分特徴量と、読み込んだ正規化済み雑音適応モデル、言語モデル(辞書も含む。)などとを照合して、正規化音声成分特徴量に対応した単語列ごとの照合尤度を計算し、この計算結果を出力するようにしてもよい。モデル照合尤度計算部(15)による照合尤度計算は、公知の方法で達成される。
即ち、NOVO+CMN法は、式(2)の近似によって高いレスポンス性を実現しているものの、乗法性雑音(乗法性歪み)情報を未知としていることで、性能がやや劣化してしまっているといえる。
このように、クリーン音声モデルと、乗法性雑音特徴量を用いて雑音モデルを正規化した正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成し、この正規化雑音重畳音声モデルを正規化した正規化済み雑音適応モデルを音声認識に用いる音響モデルとして構築する。そして、この音響モデルと、音声区間ディジタル信号のケプストラムを正規化した正規化音声成分特徴量とを照合して照合尤度を求め、この照合尤度に基づいて音声認識結果を得る。
雑音抑圧処理によってS/Nを向上させることで、音声の特徴が雑音に埋まってしまうことを抑えて、低S/Nにおける音声認識性能劣化を防止する。
音声認識対象のS/N推定結果に適合して合成された正規化雑音重畳音声モデルを用いるため、高い音声認識性能が期待できる。
本発明の第1実施形態について、図面を参照しながら説明する。
<第1実施形態の音声認識装置>
図1に例示するように、音声認識装置(100)は、キーボードなどが接続可能な入力部(111)、液晶ディスプレイなどが接続可能な出力部(112)、音声認識装置(100)の外部に通信可能な通信装置(例えばモデム)が接続可能な通信部(113)、CPU(Central Processing Unit;114)〔DSP(Digital Signal Processor)でも良い。またキャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)(115)、ROM(Read Only Memory)(116)やハードディスクである外部記憶装置(117)、例えば音声、音楽、雑音などの音を受音する音響信号収音手段(例えばマイクロフォン)を接続可能であって、マイクロフォン(900)によって得られた(アナログ)信号の入力を受ける信号入力部(119)並びにこれらの入力部(111)、出力部(112)、通信部(113)、CPU(114)、RAM(115)、ROM(116)、外部記憶装置(117)、信号入力部(119)間のデータのやり取りが可能なように接続するバス(118)などを備えている。また必要に応じて、音声認識装置(100)に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。信号入力部(119)にはマイクロフォン(900)が接続される。
なお、本明細書の各実施形態では、マイクロフォン(900)で収音した収音信号をA/D変換したディジタル信号を予めデータとしてディジタル信号格納部(10)に保存記憶しておくとしているが、このような実施形態に限定する趣旨ではない。例えば、マイクロフォン(900)で収音しながら、この収音信号にA/D変換を適用して所定の時間単位で保存記憶したディジタル信号に対して本発明における音声認識処理を逐次適用することや、発話単位で保存記憶したディジタル信号に対して本発明における音声認識処理を逐次適用することでリアルタイムに準じた音声認識処理を行うとしてもよい。
まず音響特徴量とは、既述のとおりケプストラム〔LPCケプストラム、MFCC(メル周波数ケプストラム)なども含む。〕、パワーやこれらの動的特徴量などであり、後述の雑音適応や正規化で更新される音響特徴量はケプストラムに関するものである(例えば後述の雑音モデルの生成で用いる音響特徴量は、ケプストラムに関する音響特徴量に限らず、パワーなどの音響特徴量も用いることに留意しなければならない。)。
或る音声区間として観測される観測スペクトルOは、クリーン音声の音声スペクトルS、乗法性雑音の伝達特性H、加法性雑音スペクトルNを用いて、O=HS+Nと表される。そして、観測スペクトルの長時間平均(観測スペクトル平均)OCMをOCM=(HS+N) ̄とすると、乗法性雑音の伝達特性Hが一定との仮定の下に、観測スペクトル平均OCMはOCM≒H・S ̄+N ̄と近似できる。そうすると、乗法性雑音の伝達特性Hは、観測スペクトル平均OCM、音声スペクトルSの長時間平均(音声スペクトル平均)S ̄、加法性雑音スペクトルNの長時間平均(加法性雑音スペクトル平均)N ̄を用いて、H=(OCM−N ̄)/S ̄として得ることができる。従って、スペクトル領域を対数変換したケプストラム領域では、観測スペクトル平均OCMが音声ケプストラム平均に相当し、加法性雑音スペクトル平均N ̄が雑音特徴量平均に相当し、音声スペクトル平均S ̄がクリーン音声特徴量平均に相当するとして、乗法性雑音の伝達特性Hに相当する乗法性雑音特徴量を得ることができる。
また、雑音特徴量平均は、雑音モデルの各正規分布の平均パラメータの加算平均などを近似的に用いればよい(参考文献1参照。)。
(参考文献1) 特願2005−172122号明細書
まず、モデルパラメータとは、HMMを特徴付けるパラメータであり、HMMがクリーン音声モデルの場合を例にしてこれを説明する。クリーン音声における音響特徴量と音素との関係を与える確率分布を混合正規分布で表した場合、この混合正規分布は、1個あるいは複数の多次元正規分布を混合した確率分布である。ここでの多次元正規分布は、一般的に第i次元ケプストラム、第i次元Δケプストラム(ケプストラム係数の1次差分)、第i次元ΔΔケプストラム(Δケプストラム係数の1次差分)などのケプストラム係数および対数パワー、Δ対数パワー(対数パワーの1次差分)、ΔΔ対数パワー(Δ対数パワーの1次差分)の各正規分布で構成され、各正規分布は、平均と分散によって特徴付けられる。また、混合正規分布は、一般的に各多次元正規分布に重み付けして混合することで得られる。ここで挙げた各正規分布の平均、分散や、多次元正規分布の重みがモデルパラメータである。加算平均など区別するため、このモデルパラメータである平均を平均パラメータと云うことにする。
次に、図2および図3を参照して、音声認識装置(100)における音声認識処理の流れを叙述的に説明する。
音声/雑音区間判定部(21)による音声/雑音区間判定は、音圧に基づくパワーの大小判定や音声のピッチ性に基づく基本周波数による判定といった自動判定で実現するが、このような自動判定に限定するものではない。例えば、収音信号を収録するに際して、収音信号に加え、発話者であるユーザが発話中には手動ボタン等を作動させて発話状態を示す情報も収録しておき、音声/雑音区間判定部(21)は、この発話状態を示す情報に基づいて、ディジタル信号の音声/雑音区間判定を行うようにしてもよい。
雑音モデル生成部(27)は、入力された音響特徴量に基づき「雑音モデル」を生成する(ステップS5)。雑音モデルは、雑音HMMとして生成される。雑音HMMは、雑音とこの音響特徴量との関係を確率として与える確率モデルである。この雑音HMMの生成は公知の方法で達成される(上記非特許文献2参照。)。
音声ケプストラム平均計算部(211)が、入力された音響特徴量から「音声ケプストラム平均」を求め、この音声ケプストラム平均を出力する(ステップS6)。音声ケプストラム平均計算部(211)が出力した音声ケプストラム平均は、音声ケプストラム平均正規化部(26)および正規化雑音モデル生成部(29)の入力となる。
モデル照合尤度計算部(15)は、雑音適応モデル格納部(213)から正規化済み雑音適応モデルを読み込み、モデル照合尤度計算部(15)に入力された正規化音声成分特徴量と読み込んだ正規化済み雑音適応モデルとを照合して、正規化音声成分特徴量に対応した音素列ごとの照合尤度を計算し、この計算結果を出力する(ステップS11)。この計算結果は、認識結果決定部(16)の入力となる。
なお、必要に応じて、モデル照合尤度計算部(15)は、入力された正規化音声成分特徴量と、読み込んだ正規化済み雑音適応モデル、言語モデル(辞書も含む。)などとを照合して、正規化音声成分特徴量に対応した単語列ごとの照合尤度を計算し、この計算結果を出力するようにしてもよい。モデル照合尤度計算部(15)による照合尤度計算は、公知の方法で達成される。
出力された音声認識結果は、例えば可読文字としてディスプレイに表示されたり、あるいは、対話システムにおける応答生成に用いられたりする。
本発明の第2実施形態について図面を参照しながら説明するが、第1実施形態に対応する構成要素や機能などについては、同一参照符号を付けるなどして重複説明を省略する。<第2実施形態の概要>
第2実施形態は、第1実施形態に音声認識処理の前処理として雑音抑圧機能を付加した形態である。
雑音抑圧方法としては、スペクトルサブトラクション法(SS法;参考文献2参照。)やウィナー・フィルタ法(WF法;参考文献3)に基づく雑音抑圧方法などを用いる。
(参考文献2) Steven F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. ASSP-27, No.2, pp.113-120, April 1979
(参考文献3) J. S. Lim and A. V. Oppenheim, "Enhancement and Bandwidth compression of noisy speech", Proc. IEEE, vo1.67, No.12, pp.1586-1604, Dec 1979
第2実施形態の音声認識装置は、第1実施形態に係わる音声認識装置(100)と同じハードウェア構成であり、外部記憶装置(117)にディジタル信号の雑音抑圧を行うためのプログラムも保存記憶されており、このプログラムがRAM(115)に読み込まれて、CPU(114)で解釈実行・処理される。その結果、CPU(114)が所定の機能(雑音抑圧部)を実現する。
次に、図4および図5を参照して、第2実施形態における音声認識処理の流れを、第1実施形態と異なる部分について説明する。
第1実施形態におけるステップS1の処理で得られたディジタル信号は、音声/雑音区間判定部(21)および雑音抑圧部(31)の入力となる。また、第1実施形態におけるステップS2の処理で得られた音声/雑音判定結果は、音声/雑音切替制御部(25)および雑音抑圧部(31)の入力となる。
そして、特徴量抽出部(13)は、雑音抑圧されたディジタル信号の音響特徴量を抽出する。以後の処理は第1実施形態と同様である。
本発明の第3実施形態について図面を参照しながら説明するが、第1実施形態および第2実施形態に対応する構成要素や機能などについては、同一参照符号を付けるなどして重複説明を省略する。
<第3実施形態の概要>
第3実施形態は、第1実施形態あるいは第2実施形態に対して、ディジタル信号のS/N推定を行い、S/N推定結果に基づいて正規化雑音重畳音声モデルを生成する機能を付加した形態である。第3実施形態では、音声認識対象に合致したS/N条件で合成された正規化雑音重畳音声モデルを用いるため、高い認識性能が期待できる。
ここでは、第2実施形態に上記機能付加をした形態として第3実施形態を説明する。
第3実施形態の音声認識装置は、第2実施形態に係わる音声認識装置と同じハードウェア構成であり、外部記憶装置(117)にディジタル信号のS/N推定を行うためのプログラムが保存記憶されており、このプログラムがRAM(115)に読み込まれて、CPU(114)で解釈実行・処理される。その結果、CPU(114)が所定の機能(S/N推定部)を実現する。
次に、図6および図7を参照して、第3実施形態における音声認識処理の流れを、第2実施形態と異なる部分について説明する。
第2実施形態におけるステップS1の処理で得られたディジタル信号は、音声/雑音区間判定部(21)、雑音抑圧部(31)およびS/N推定部(41)の入力となる。また、第1実施形態におけるステップS2の処理で得られた音声/雑音判定結果は、音声/雑音切替制御部(25)、雑音抑圧部(31)およびS/N推定部(41)の入力となる。
そして、雑音適応部(210)は、入力されたS/N推定結果に合わせて正規化雑音モデルとクリーン音声モデルとを合成し、正規化雑音重畳音声モデルを生成する(ステップS8b)。2つのHMM(ここでは正規化雑音モデルおよびクリーン音声モデルである。)を入力されたS/N推定結果に合わせて合成する方法の一例としては、上記非特許文献2に記載の方法がある。以後の処理は第2実施形態と同様である。
本発明の第4実施形態について図面を参照しながら説明するが、第1、第2、第3実施形態に対応する構成要素や機能などについては、同一参照符号を付けるなどして重複説明を省略する。
<第4実施形態の概要>
第4実施形態は、第1、第2、第3実施形態のように、正規化雑音重畳音声モデルの正規化を行わない。これによって、正規化雑音重畳音声モデルのモデルパラメータの正規化にかかる計算量を削減でき、ステップS10処理以降の処理時間を削減することが出来る。当該モデル中のモデルパラメータの正規化処理には、正規分布数に応じた計算量がかかり、数万個の正規分布に対する処理ではある程度大きい計算量が必要になり、この削減効果は比較的大きい。収録された収音信号のデータに対するオフラインの処理であっても音声認識処理時間を減らすことによって、相対的に処理できる音声データ量を増やすことが出来るので、利用価値の高い音声認識装置が実現される。
ここでは第3実施形態を前提とした形態として第4実施形態を説明するが、第1、第2実施形態を前提とした形態としてもよいことに留意する必要がある。
第4実施形態の音声認識装置は、第3実施形態に係わる音声認識装置と同じハードウェア構成であり、外部記憶装置(117)には、音声ケプストラム平均を用いて音声区間のディジタル信号の音響特徴量を正規化した正規化音声成分特徴量を得るためのプログラムに替えて、正規化雑音モデル生成部(29)で得た乗法性雑音特徴量を用いて音声区間のディジタル信号の音響特徴量を正規化した正規化音声成分特徴量を得るためのプログラムが保存記憶されており、このプログラムがRAM(115)に読み込まれて、CPU(114)で解釈実行・処理される。その結果、CPU(114)が所定の機能(音声ケプストラム平均正規化第2部)を実現する。
次に、図8および図9を参照して、第4実施形態における音声認識処理の流れを、第3実施形態と異なる部分について説明する。
まず、第4実施形態において、ステップS9の処理は不要である。即ち、第4実施形態では、雑音適応部(210)によって生成された正規化雑音重畳音声モデルの正規化を行わず、正規化済み雑音適応モデルを生成しない。
また、第3実施形態におけるステップS6の処理で得られた音声ケプストラム平均は、正規化雑音モデル生成部(29)のみに入力される。さらに、正規化雑音モデル生成部(29)によって得られた乗法性雑音特徴量は、音声ケプストラム平均正規化第2部(26a)の入力となる。
なお、必要に応じて、モデル照合尤度計算部(15)は、入力された正規化音声成分特徴量と、読み込んだ正規化雑音重畳音声モデル、言語モデル(辞書も含む。)などとを照合して、正規化音声成分特徴量に対応した単語列ごとの照合尤度を計算し、この計算結果を出力するようにしてもよい。モデル照合尤度計算部(15)による照合尤度計算は、公知の方法で達成される。
以後の処理は第3実施形態と同様である。
R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
13 特徴量抽出部
15 モデル照合尤度計算部
16 認識結果決定部
19 認識結果出力部
21 音声/雑音区間判定部
25 音声/雑音切替制御部
26 音声ケプストラム平均正規化部
26a 音声ケプストラム平均正規化第2部
27 雑音モデル生成部
28 クリーン音声モデル格納部
29 正規化雑音モデル生成部
210 雑音適応部
211 音声ケプストラム平均計算部
212 雑音適応モデル生成部
213 雑音適応モデル格納部
31 雑音抑圧部
41 S/N推定部
Claims (7)
- 音声および雑音を含む収音信号をA/D変換したディジタル信号のケプストラムと音響モデルとの照合尤度を求めて、その照合尤度に基づいて音声認識結果を得る音声認識装置であって、
非雑音環境で収音された音声の音声単位毎に構築した音響モデルであるクリーン音声モデルおよびディジタル信号を記憶する記憶手段と、
上記ディジタル信号の音声区間と雑音区間とを判定して、音声/雑音判定結果を出力する音声/雑音区間判定手段と、
上記ディジタル信号からケプストラムを抽出する特徴量抽出手段と、
音声/雑音区間判定手段によって出力された音声/雑音判定結果に基づき、雑音区間のディジタル信号のケプストラムから雑音モデルを生成する雑音モデル生成手段と、
音声/雑音区間判定手段によって出力された音声/雑音判定結果に基づき、音声区間のディジタル信号のケプストラムの平均を音声ケプストラム平均として算出する音声特徴量平均計算手段と、
上記音声ケプストラム平均から上記雑音のケプストラムの平均を減算した値を上記クリーン音声モデルのクリーン音声のケプストラムの平均で除算したものを、乗法性雑音特徴量として算出し、この乗法性雑音特徴量を上記雑音モデルのモデルパラメータのケプストラムから減算したパラメータをモデルパラメータとする正規化雑音モデルを生成する正規化雑音モデル生成手段と、
上記クリーン音声モデルと上記正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成する雑音適応手段と、
上記正規化雑音重畳音声モデルのモデルパラメータのケプストラムから上記モデルパラメータのケプストラムの平均を減算したパラメータをモデルパラメータとする正規化済み雑音適応モデルを生成する雑音適応モデル生成手段と、
音声区間のディジタル信号のケプストラムから上記音声ケプストラム平均を減算することで正規化した正規化音声成分特徴量を算出する音声特徴量平均正規化手段と、
上記正規化音声成分特徴量と少なくとも上記正規化済み雑音適応モデルとの照合尤度を算出して、この照合尤度に基づき音声認識結果を得る認識結果出力手段と
を備えたことを特徴とする音声認識装置。 - 上記音声/雑音区間判定手段によって出力された音声/雑音判定結果に基づき、音声区間のディジタル信号に対して雑音抑圧を行う雑音抑圧手段
を備えたことを特徴とする請求項1記載の音声認識装置。 - 上記音声/雑音区間判定手段によって出力された音声/雑音判定結果に基づき、音声区間のディジタル信号と雑音区間のディジタル信号とのS/Nを推定して、このS/N推定結果を出力するS/N推定手段を備え、
上記雑音適応手段は、
S/N推定手段によって推定されたS/N推定結果に基づき、上記クリーン音声モデルと上記正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成するものである
ことを特徴とする請求項1または請求項2記載の音声認識装置。 - 音声および雑音を含む収音信号をA/D変換したディジタル信号のケプストラムと音響モデルとの照合尤度を求めて、その照合尤度に基づいて音声認識結果を得る音声認識方法であって、
記憶手段には、非雑音環境で収音された音声の音声単位毎に構築した音響モデルであるクリーン音声モデルおよびディジタル信号が記憶されており、
音声/雑音区間判定手段が、上記ディジタル信号の音声区間と雑音区間とを判定して、音声/雑音判定結果を出力する音声/雑音区間判定ステップと、
特徴量抽出手段が、上記ディジタル信号からケプストラムを抽出する特徴量抽出ステップと、
雑音モデル生成手段が、音声/雑音区間判定ステップにおいて出力された音声/雑音判定結果に基づき、雑音区間のディジタル信号のケプストラムから雑音モデルを生成する雑音モデル生成ステップと、
音声特徴量平均計算手段が、音声/雑音区間判定ステップにおいて出力された音声/雑音判定結果に基づき、音声区間のディジタル信号のケプストラムの平均を音声ケプストラム平均として算出する音声特徴量平均計算ステップと、
正規化雑音モデル生成手段が、上記音声ケプストラム平均から上記雑音のケプストラムの平均を減算した値を上記クリーン音声モデルのクリーン音声のケプストラムの平均で除算したものを、乗法性雑音特徴量として算出し、この乗法性雑音特徴量を上記雑音モデルのモデルパラメータのケプストラムから減算したパラメータをモデルパラメータとする正規化雑音モデルを生成する正規化雑音モデル生成ステップと、
雑音適応手段が、上記クリーン音声モデルと上記正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成する雑音適応ステップと、
雑音適応モデル生成手段が、上記正規化雑音重畳音声モデルのモデルパラメータのケプストラムから上記モデルパラメータのケプストラムの平均を減算したパラメータをモデルパラメータとする正規化済み雑音適応モデルを生成する雑音適応モデル生成ステップと、
音声特徴量平均正規化手段が、音声区間のディジタル信号のケプストラムから上記音声ケプストラム平均を減算することで正規化した正規化音声成分特徴量を算出する音声特徴量平均正規化ステップと、
認識結果出力手段が、上記正規化音声成分特徴量と少なくとも上記正規化済み雑音適応モデルとの照合尤度を算出して、この照合尤度に基づき音声認識結果を得る認識結果出力ステップとを有することを特徴とする音声認識方法。 - 雑音抑圧手段が、上記音声/雑音区間判定ステップにおいて出力された音声/雑音判定結果に基づき、音声区間のディジタル信号に対して雑音抑圧を行う雑音抑圧ステップを有することを特徴とする請求項4記載の音声認識方法。
- S/N推定手段が、上記音声/雑音区間判定ステップにおいて出力された音声/雑音判定結果に基づき、音声区間のディジタル信号と雑音区間のディジタル信号とのS/Nを推定して、このS/N推定結果を出力するS/N推定ステップを有し、
上記雑音適応ステップは、
上記S/N推定ステップにおいて推定されたS/N推定結果に基づき、上記クリーン音声モデルと上記正規化雑音モデルとを合成して正規化雑音重畳音声モデルを生成するものである
ことを特徴とする請求項4または請求項5記載の音声認識方法。 - コンピュータに請求項4から請求項6のいずれかに記載の音声認識方法を実行させるための音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010218255A JP5200080B2 (ja) | 2010-09-29 | 2010-09-29 | 音声認識装置、音声認識方法、およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010218255A JP5200080B2 (ja) | 2010-09-29 | 2010-09-29 | 音声認識装置、音声認識方法、およびそのプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005355460A Division JP4728791B2 (ja) | 2005-12-08 | 2005-12-08 | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010282239A true JP2010282239A (ja) | 2010-12-16 |
JP5200080B2 JP5200080B2 (ja) | 2013-05-15 |
Family
ID=43538947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010218255A Expired - Fee Related JP5200080B2 (ja) | 2010-09-29 | 2010-09-29 | 音声認識装置、音声認識方法、およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5200080B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2763134B1 (en) * | 2013-01-24 | 2017-01-04 | Huawei Device Co., Ltd. | Method and apparatus for voice recognition |
US9607619B2 (en) | 2013-01-24 | 2017-03-28 | Huawei Device Co., Ltd. | Voice identification method and apparatus |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10720165B2 (en) | 2017-01-23 | 2020-07-21 | Qualcomm Incorporated | Keyword voice authentication |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09258772A (ja) * | 1996-03-25 | 1997-10-03 | Canon Inc | 音声認識方法及び装置 |
JP2006349723A (ja) * | 2005-06-13 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体 |
JP2007156364A (ja) * | 2005-12-08 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 |
-
2010
- 2010-09-29 JP JP2010218255A patent/JP5200080B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09258772A (ja) * | 1996-03-25 | 1997-10-03 | Canon Inc | 音声認識方法及び装置 |
JP2006349723A (ja) * | 2005-06-13 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体 |
JP2007156364A (ja) * | 2005-12-08 | 2007-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2763134B1 (en) * | 2013-01-24 | 2017-01-04 | Huawei Device Co., Ltd. | Method and apparatus for voice recognition |
US9607619B2 (en) | 2013-01-24 | 2017-03-28 | Huawei Device Co., Ltd. | Voice identification method and apparatus |
US9666186B2 (en) | 2013-01-24 | 2017-05-30 | Huawei Device Co., Ltd. | Voice identification method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP5200080B2 (ja) | 2013-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yapanel et al. | A new perceptually motivated MVDR-based acoustic front-end (PMVDR) for robust automatic speech recognition | |
US8306817B2 (en) | Speech recognition with non-linear noise reduction on Mel-frequency cepstra | |
Droppo et al. | Environmental robustness | |
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
Sinha et al. | Assessment of pitch-adaptive front-end signal processing for children’s speech recognition | |
US7571095B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
JP4728791B2 (ja) | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 | |
US9536537B2 (en) | Systems and methods for speech restoration | |
JP2013186258A (ja) | 雑音抑制方法、プログラム及び装置 | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
US20030093269A1 (en) | Method and apparatus for denoising and deverberation using variational inference and strong speech models | |
Shahnawazuddin et al. | Pitch-normalized acoustic features for robust children's speech recognition | |
US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
JP2009003008A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
JP2005078077A (ja) | 非線形予測子およびターゲットによって案内される時間的制約を使用して声道共鳴を追跡する方法および装置 | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
US20050010406A1 (en) | Speech recognition apparatus, method and computer program product | |
JP5200080B2 (ja) | 音声認識装置、音声認識方法、およびそのプログラム | |
US20150162014A1 (en) | Systems and methods for enhancing an audio signal | |
Darch et al. | MAP prediction of formant frequencies and voicing class from MFCC vectors in noise | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
JP6599408B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP2005321539A (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
Shahnawazuddin et al. | A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models | |
Alam et al. | A novel feature extractor employing regularized MVDR spectrum estimator and subband spectrum enhancement technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100929 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130208 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160215 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5200080 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |