JP4274962B2 - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP4274962B2
JP4274962B2 JP2004028542A JP2004028542A JP4274962B2 JP 4274962 B2 JP4274962 B2 JP 4274962B2 JP 2004028542 A JP2004028542 A JP 2004028542A JP 2004028542 A JP2004028542 A JP 2004028542A JP 4274962 B2 JP4274962 B2 JP 4274962B2
Authority
JP
Japan
Prior art keywords
speech
acoustic
acoustic model
noise
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004028542A
Other languages
English (en)
Other versions
JP2005221678A (ja
JP2005221678A5 (ja
Inventor
繁樹 松田
貴敏 實廣
コンスタンティン・マルコフ
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004028542A priority Critical patent/JP4274962B2/ja
Publication of JP2005221678A publication Critical patent/JP2005221678A/ja
Publication of JP2005221678A5 publication Critical patent/JP2005221678A5/ja
Application granted granted Critical
Publication of JP4274962B2 publication Critical patent/JP4274962B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

この発明は大語彙の連続音声認識装置及び方法に関し、特に、雑音に強く、発話スタイルの変動に対しても頑健に音声を認識することが可能な連続音声認識システムに関する。
近年、雑音又は発話スタイルに対して頑健な音声認識の研究が盛んに行なわれている。実環境において音声認識を使用するためには、通行する自動車などの乗り物から発せられるエンジン雑音や風切り音、駅、オフィス内などの人の声、コンピュータからのファンの音など、多種多様な雑音環境において高精度な音声認識が実現されなければならない。
さらに雑音だけでなく、使用者の年齢や性別、また感情や体調によってその発話スタイルは刻一刻と変化する。音声認識装置は、そのような発話スタイルの変動に対しても雑音と同様に頑健でなければならない。
雑音又は発話スタイルなど個別の変動に対する頑健化手法が従来から数多く提案されてきた。これについては後掲の非特許文献1を参照されたい。本明細書では以下、音声の音響的言語的特徴に影響する要因のことを総じて「発話環境」と呼ぶこととする。
雑音に対して頑健な音響特徴量の分析手法として、「SS(Spectram Subtraction)法(後掲の非特許文献2を参照されたい)」を音声認識の前処理として用いる手法が提案されている。これ以外にも、RASTA(RelAtive SpecTrA)、DMFCC(Differential Mel Frequency Cepstrum Coefficient)など、いくつかの音響分析手法が提案されている。
SS法では、雑音重畳音声のスペクトルに対して雑音スペクトルを減算することにより、SNR(信号対雑音比)を改善している。RASTA法では、個々の周波数バンドの値の変化に対して、音声情報が多く含まれている1から12Hzの変調スペクトラム成分を抽出することにより雑音の影響を軽減している。またDMFCCはFFT(高速フーリエ変換)によって得られるフーリエ係数に対して、隣り合う係数間で差分をとり、音声などのピッチを持つスペクトルを強調することによって耐雑音性を改善している。
雑音に頑健な音響モデルの研究としては、PMC(Parallel Model Combination)法(後掲の非特許文献5を参照されたい。)、ヤコビ適応法(後掲の非特許文献6を参照されたい。)、MLLR(Maximum Likelihood Linear Regression)(後掲の非特許文献7を参照されたい。)による雑音適応などが提案されている。
これらのうち、PMC法は、HMM(隠れマルコフモデル)の出力確率分布を線形スペクトル領域に変換し雑音スペクトルを重畳することにより、環境雑音への適応を行なう手法である。このPMC法につき簡単に説明する。
PMC法の概念を図28を参照して説明する。図28を参照して、PMC法の対象となるもとの音響モデルが、音響の特徴量からなる音響空間600において領域610の付近に存在する音響をモデル化したものであるものとする。このとき、音声認識対象の雑音を含んだ音声データ領域612は、雑音のためにもとの領域610からずれたものとなる。そこで、領域612と領域610との差分を考え、この差分に相当する量を音響モデル610に加えることにより音響モデルの音響空間600内における位置を領域612まで移動するよう音響モデルを変換する。
このようにして変換した後の音響モデルを用いれば、領域612の付近に存在する雑音を含んだ音声については、もとの音響モデルを用いたものより高い精度で認識できる。
ヤコビ適応法は、雑音の変化に伴う出力確率分布の非線形変換を線形近似することにより、雑音環境へ高速に適応する手法である。
MLLRを用いた雑音適応は、無雑音音声と雑音重畳音声との間の分布移動を回帰行列を用いて表現し、音響モデル全体を雑音モデルに適応化する手法である。
さらに、雑音の分布の時間変動を逐次的に推定することにより、非定常雑音に対する認識精度を改善する手法(後掲の非特許文献9を参照されたい。)が提案されている。
発話スタイルに対する頑健性の改善手法としては、発話スタイル依存の音響モデルを用いる手法の他、ロンバード効果によるスペクトルの変形を考慮した手法(非特許文献8を参照されたい。)及び個々の母音HMMの最後に無音状態を追加することにより音声強調発声や言直し発話に頑健な音響モデルを構築する手法(非特許文献10を参照されたい。)などが提案されている。そのほかにも、講演音声などの音素継続時間の短い発声を含む音声に対して、分析フレーム周期又はウィンドウ幅を自動選択することにより認識精度を改善する手法(非特許文献11、12参照)が提案されている。
これらの頑健化手法は主として、雑音や発話スタイルなどの個別の変動に対する頑健化である。音声認識を実環境で用いるためには、複数の発話環境が刻一刻と変化する状況であっても頑健に音声を認識することができなければならない。このような種々の外乱に対して頑健な音声認識を実現するための方法は大きく2つに分類することができると考えられる。発話環境の変動に頑健な音響モデル及び言語モデルを用いて単数のデコーダで認識を行なうシングルタイプの方法と、お互いに異なる環境に適応化された複数の音響モデル及び言語モデルを使用して得られた複数の仮説を統合するパラレルタイプの手法とである。
シングルタイプの音声認識システムを構築するためには、広い発話環境の音声を頑健に認識する音響モデル及び言語モデルが必要である。そのために、男性及び女性双方の学習データから性別独立な音響モデルを推定するなど、複数の発話環境のデータを用いてHMMのモデルパラメータ推定を行なうことにより頑健性を改善する手法がある。しかし、男性女性などのお互いの音響的特徴が大きく異なる場合ではなく、種々のSNRのデータを用いて学習する場合、個々の音素モデルの分布が過度に広がることにより音素分類精度の低下が懸念される。従って、このようなモデル化法には頑健化の限界があると考えられる。
セグメントモデル(非特許文献13参照)では、時間的に離れた音響特徴ベクトル間の相関を計算することで音声の非定常な振舞いのモデル化を試みている。時間的に離れた特徴ベクトル間の相関として発話環境の変動をモデル化することができるならば、セグメントモデルにおいて広い発話環境の音声を頑健に認識できる可能性がある。しかし、効率的な相関の計算方法やモデルパラメータの増大などの問題により十分な精度は得られていない。
一方、パラレルタイプによる音声認識は、個々の音響モデルや言語モデルの利用可能な発話環境が限られていたとしても、それらを複数個使用しパラレルにデコーディングすることにより、個々の音素間の分類精度を低下させることなく広い発話環境の音声を頑健に認識できる可能性がある。
このような音声認識の例としては、SNRに依存した音響モデルを用いて得られた複数の仮説を最大尤度基準で選択する手法、複数のお互いに異なる音響特徴量を用いて音声認識を行ない、得られた複数の仮説を単語単位で統合する仮説統合法(非特許文献15参照)が提案されている。
中村、『実音響環境に頑健な音声認識を目指して』、信学技報、EA2002−12、pp.31−36、2002。 S.F.ボル、『スペクトル減算を用いた音声中の音響雑音の抑制』、IEEE音響音声信号処理論文集、第ASSP−27巻、第113−120頁、1979年。(S.F.Boll,『Suppression of Acoustic Noise in Speech Using Spectral Subtraction,』IEEE Trans.Acoust.,Speech,Signal Processing, vol.ASSP−27,pp.113−120,1979.) H.ヘルマンスキ及びN.モーガン、「音声のRASTA処理」、IEEE音声及び音響処理トランザクション、第2巻、第4号、第587−589頁(H.Hermansky and N.Morgan,『RASTA Processing of Speech,』IEEE Trans.Speech and Audio Proccessing, vol.2,no.4,pp.587−589,1994.) J.チェン、K.K.パリワル、S.ナカムラ、『頑健な音声認識のための差分パワースペクトル由来のケプストラム』、音声コミュニケーション、第41巻第2−3号、第469−484頁、2003年。(J.Chen,K.K.Paliwal,S.Nakamura,『Cepstrum Derived from Differentiated Power Spectrum for Robust Speech Recognition,』Speech Communication,vol.41,no.2−3,pp.469−484,2003.) M.ゲールズ及びS.ヤング、『パラレルモデルの組合せを用いた頑健な連続音声認識』、IEEE音声及び音響処理論文集、第4巻、第5号、第352−359頁、1996年。(M.Gales and S.Young,『Robust Continuous Speech Recognition Using Parallel Model Combination,』 IEEE Trans. on Speech and Audio Processing, vol.4,No.5,pp.352−359, 1996.) Y.ヤマグチ、S.タカハシ及びS.サガヤマ、『ヤコビアン適応アルゴリズムを用いた環境雑音への音響モデルの高速適応』、ユーロスピーチ予稿集、97、第2051−2054頁、1997年。(Y.Yamaguchi, S.Takahashi and S.Sagayama,『Fast Adaptation of Acoustic Models to Environmental Noise Using Jacobian Adaptation Algorithm,』 Proc. Eurospeech,97,pp.2051−2054,1997.) C.J.レゲッタ及びP.C.ウッドランド、『連続密度隠れマルコフモデルの話者適応のための最大尤度線形回帰』、コンピュータ音声及び言語、第9巻、第171−185頁、1995年。(C.J.Leggetter and P.C.Woodland,『Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models,』 Computer Speech and Language, vol.9,pp.171−185,1995.) J.C.ジャンカ、『ロンバード効果とその聴者及び自動音声認識装置に対する役割』、アメリカ音響学会誌、第93巻、第510−524頁、1993年。(J.C.Junqua,『The Lombard Reflex and its Role on Human Listeners and Automatic Speech Recognizer,』 J.Acoustic Soc.Amer.,vol.93,pp.510−524,1993.) K.ヤオ、B.E.シー、S.ナカムラ及びZ.カオ、『非定常雑音における頑健な音声認識のための連続EMアルゴリズムによる残存雑音の補償』、ICSLP2000予稿集、第1巻、第770−773頁、2000年。(K.Yao, B.E.Shi, S.Nakamura and Z.Cao,『Residual Noise Compensation by a Sequential EM Algorithm for Robust Speech Recognition in Nonstationary Noise,』 Proc.ICSLP2000,vol.1,pp.770−773,2000.) 奥田、松井、中村、『誤認識時の言い直し発話における発話スタイルの変動に頑健な音響モデル構築法』信学論,vol.J86−DII,no.1,pp.42−51,2003. 奥田、河原、中村、『ゆう度基準による分析周期・窓長の自動選択手法を用いた発話速度の補正と音響モデルの構築』信学論、vol.J86−DII,no.2,pp.204−211,2003. 南條、河原、『発話速度に依存したデコーディングと音響モデルの適応』信学技報、SP2001−103、2001. M.オステンドルフ、V.ディガラキス及びO.キンバル、『HMMからセグメントモデルヘ:音声認識のためのストカスティックモデリングの統一見解』、IEEE音声及び音響処理論文集、第4巻、第5号、第360−378頁、1996年。(M.Ostendorf, V.Digalakis and O.Kimball,『From HMMs to Segment Models: A Unified View of Stochastic Modeling for Speech Recognition,』IEEE Trans. Speech and Audio Proc.,vol.4,no.5,pp.360−378,1996.) 伊田、中村、『雑音GMMの適応化とSN比別マルチパスモデルを用いたHMM合成による高速な雑音環境適応化』信学論、vol.J86−D−II,no.2,pp.195−203,2003. K.マルコフ、T.マツイ、R.グルーン、J.ツァン、S.ナカムラ、『DARPA SPINE2用の雑音及びチャネル歪に頑健なASRシステム』、IEICE情報及びシステム論文集、第E86−D巻、第3号、2003年。(K.Markov,T.Matsui,R.Gruhn,J.Zhang,S.Nakamura,『Noise and Channel Distortion Robust ASR System for DARPA SPINE2 Task,』IEICE Trans.Inf.&Syst.,vol.E86−D,no.3,2003.) M.オステンドルフ及びH.シンガー、『最大尤度連続状態分割を用いたHMMトポロジー設計』、コンピュータ音声及び言語、第11巻、第1号、第17−41頁1997年。(M.Ostendorf and H.Singer,『HMM Topology Design Using Maximum Likelihood Successive State Splitting,』Computer Speech and Language,vol.11,no.1,pp.17−41,1997.)
しかしながら上述したいずれの方法においても、例えばモデルの変換に時間を要すること、雑音又は発話スタイルなど、個別の要素の変動に的確に対応することが難しいこと、などから、実環境における雑音を含んだ音声や、発話スタイルが変動する音声に対して音声認識を精度よく行なうことは未だ可能でない。
それゆえにこの発明の目的は、雑音などの個別の変動に実時間で追従して精度高く認識することができる音声認識システムを提供することである。
この発明の他の目的は、雑音などの個別の変動だけでなく、発話スタイルの変動に対しても頑健に音声を認識することができる音声認識システムを提供することである。
本発明に係る音声認識システムは、それぞれ異なる発話環境での発話音声のデコードに最適化された、それぞれ所定の音響特徴量をパラメータとする複数の音響モデル群を記憶するための記憶手段と、入力される音声から所定の音響特徴量を算出するための特徴量算出手段と、入力される音声の音響特徴量に基づいて、それぞれ複数の音響モデル群の混合重み適応化により、入力される音声の発話環境に適応化された複数の適応化音響モデルを作成するためのモデル適応化手段と、複数の適応化音響モデルを用いて、入力される音声の所定の音響特徴量をデコードし複数の仮説を出力するためのデコード手段と、デコード手段が出力する複数の仮説を統合することにより音声認識結果を出力するための統合手段とを含む。
デコード手段により出力される複数の仮説が互いに相補的である場合、統合手段により仮説を統合することにより、より精度の高い音声認識結果を得られる可能性が高い。
好ましくは、複数の音響モデル群の各々は、それぞれ異なる雑音が重畳された発話音声のデコードに最適化された複数の音響モデルを含む。
複数の音響モデル群の各々が含む音響モデルは、互いに異なる雑音が重畳された発話音声のデコードに適している。種々の雑音について適応化音響モデルが得られるので、雑音が異なる発話環境での音声認識の精度が向上することが期待できる。
より好ましくは、モデル適応化手段は、入力される音声の音響特徴量に基づいて、複数の音響モデル群の各々について、当該音響モデル群に含まれる複数の音響モデルのうち、入力される音声の音響特徴量に関連する予め定める条件を充足する、所定個数の音響モデルを選択するための手段と、選択するための手段により複数の音響モデル群の各々について選択された所定個数の音響モデルから、雑音ガウス混合分布の混合重み適応化手法により適応化音響モデルを作成するための手段とを含む。
モデル適応化にあたって、入力音声の発話環境と所定の関係にある発話環境に対応する音響モデルを複数個選び、それらに対し混合重み適応化を行なって適応化環境モデルを作成する。適応化モデル作成時の計算量が少なくて済み、またモデルの精度は十分に高くなる。
複数の音響モデル群は、互いに異なる複数種類の雑音が第1のSNRで重畳された発話音声のデコードに最適化された複数の音響モデルを含む第1の音響モデル群と、複数種類の雑音が、第1のSNRと異なる第2のSNRで重畳された発話音声のデコードに最適化された複数の音響モデルを含む第2の音響モデル群とを含んでもよい。
種々のSNRに最適化された音響モデルに基づいて、それぞれ適応化モデルが作成される。より広い発話環境に対し適応化モデルが作成されるので、入力音声の発話環境に近いものが得られる可能性が高くなる。その結果、音声認識精度の向上が期待できる。
好ましくは、複数の音響モデル群は、それぞれ異なる発話環境での発話音声のデコードに最適化された、第1の音響モデル構造に基づく第1の音響モデル群と、それぞれ異なる発話環境での発話音声のデコードに最適化された、第2の音響モデル構造とは異なる第2の音響モデル構造に基づく第2の音響モデル群とを含む。
第1及び第2の音響モデル構造に基づく音響モデル群を用いることにより、雑音以外の要因の変化に対しても頑健に音声認識を行なうことができる。
好ましくは、第1の音響モデル構造は、通常発声に対して想定される音響モデル構造であり、さらに好ましくは第2の音響モデル構造は、言直し発話に対して想定される音響モデル構造である
通常発声と言直し発話という二種類の発話に対応する音響モデル構造を用いることにより、話者の発話スタイルの変化に対しても頑健に音声認識を行なうことができる。
複数の音響モデル群は、それぞれ異なる発話環境での発話音声のデコードに最適化された、第1の種類の音響特徴量をパラメータとする第の音響モデル群と、それぞれ異なる発話環境での発話音声のデコードに最適化された、第の種類の音響特徴量と異なる第2の音響特徴量をパラメータとする第2の音響モデル群とを含んでもよい。
好ましくは、第1の種類の音響特徴量はMFCCであり、さらに好ましくは、第2の種類の音響特徴量はDMFCCである。
第1及び第2の音響特徴量を用いる音響モデル群を用いることにより、種々発話環境の変化に対しても頑健に音声認識を行なうことができる。
デコード手段は、第1及び第2の適応化音響モデルの各々に対し、入力される音声の所定の音響特徴量をデコードし複数の仮説を出力するための手段を含んでもよい。
好ましくは、デコード手段はさらに、第1及び第2の適応化音響モデルの各々について、出力するための手段により出力された複数の仮説のうち、各単語の音響言語尤度の和が最大となる仮説を選択し、統合手段に与えるための手段を含む。
統合手段に与える前に、適応化音響モデルごとに音響言語尤度の和が最大となる仮説を選択することにより、統合処理の際の探索空間が小さくなり統合処理が容易かつ高速になる。
さらに好ましくは、適応化音響モデルを作成するための手段は、入力される音声の音響特徴量に基づいて、第1の音響モデル群に含まれる音響モデルのうち、入力される音声の音響特徴量に関連する予め定める条件を充足する、所定個数の音響モデルを選択するための第1の音響モデル選択手段と、第1の音響モデル選択手段により選択された音響モデルから、雑音GMM(Gaussian Mixture Model)の混合重み適応化手法により第1の適応化音響モデルを作成するための手段と、入力される音声の音響特徴量に基づいて、第2の音響モデル群に含まれる音響モデルのうち、入力される音声の音響特徴量に関連する予め定める条件を充足する、所定個数の音響モデルを選択するための第2の音響モデル選択手段と、第2の音響モデル選択手段により選択された音響モデルから、雑音GMMの混合重み適応化手法により第2の適応化音響モデルを作成するための手段とを含む。
複数の音響モデル群からそれぞれ適応化音響モデルが作成され、それらを用いてコードが行われ、かつそれらのデコード結果が統合されるので、それぞれの音響モデルの特徴群の特長を組み合わせた頑健な音声認識を行なうことができる。
より好ましくは、仮説統合手段は、デコード手段が出力する複数の仮説から、単語ラティスを作成するためのラティス作成手段と、ラティス内の単語列の中で、単語の音響尤度とN−グラム単語列(Nは1以上の整数)の言語尤度とから算出される尤度が所定条件を満足するもの、例えば最大となるもの、を認識結果として選択するための選択手段とを含む。
さらに好ましくは、選択手段は、ラティス内の単語の音響尤度と、N−グラム単語列の言語尤度とを、それぞれ所定の正規化方式により正規化するための正規化手段と、単語列ごとに、正規化手段により正規化された当該単語列内の単語の音響尤度とN−グラム単語列の言語尤度とにそれぞれ所定の重みを加算して得られる尤度が所定条件を満足するものを認識結果として選択するための手段とを含む。
音響尤度と言語尤度とはそれぞれ別の概念に基づく尤度であるから、両者の尤度を単純に加算するのは意味がない。両者を予め正規化し、正規化後の尤度から算出される尤度によって単語列を選択することにより、尤度が正しく算出されることになり、頑健な音声認識を行なうことができる。
この発明の他の局面に係る音声認識システムは、それぞれ異なる発話環境での発話音声のデコードに最適化された、DMFCCをパラメータとする音響モデル群を記憶するための記憶手段と、入力される音声からDMFCCを算出するためのDMFCC算出手段と、入力される音声から算出されたDMFCCに基づいて、音響モデル群の混合重み適応化により、入力される音声の発話環境に適応化された適応化音響モデルを作成するためのモデル適応化手段と、適応化音響モデルを用いて、入力される音声から算出されるDMFCCをデコードするためのデコード手段とを含む。
混合重み適応化を用いるため、実際の適応化時には音響モデル群を混合するための重みを算出するだけでよく、適応を高速に行なえる。その結果、DMFCCを音響特量として、発話環境の変化に対して頑健な音声認識を行なうことができる。
雑音環境が頻繁に変動する状況では、音響モデルを高速に雑音環境に適応させることが可能でなければならない。以下に述べる本発明の一実施の形態では、高速な雑音環境適応として、非特許文献14において提案されている雑音GMMの混合音適応化によるHMM合成法を用いる。
図1〜図3を参照して、この手法の概略について説明する。図1を参照して、あらかじめ準備した種々の雑音からなる雑音DB100から、個々の雑音を混合成分とする雑音GMM102と、個々の雑音に対して別々に適応化された雑音重畳音声用HMM104,106,…とを推定する。次に図2に示すように、短時間の未知雑音110を用いて雑音GMM102の混合ウェイトWN1,WN2,…のみを推定する。そして、図3に示すように、この混合ウェイトWN1、WN2,…を用いて、雑音重畳音声用HMM104,106,…を状態レベルで複数混合化する。例えばHMM104の状態120と、HMM106の状態122とに対して、それぞれのガウス混合分布に対し図2に示すステップにより計算された混合ウェイトを乗算して足し合わせて状態出力確率分布124を算出し、雑音適応されたHMMの状態126の状態出力確率分布とする。
図1〜図3においてNは第i番目の雑音、λは第i番目の雑音に対する雑音重畳音声用HMMを表す。PNiとwNiは雑音GMMにおける第i番目の雑音の分布とその分布に対する混合ウェイトとをそれぞれ示す。さらにwλijとpλijは第i番目の雑音用の雑音重畳音声用HMMにおける第j番目の混合分布Nの分岐確率と混合成分とを表す。
この手法の利点として、適応の計算時間がGMMの混合ウェイトの推定時間のみであり大変高速である点と、雑音適応されたHMMが複数の雑音環境の分布を含んでおり、単一の雑音から推定された音響モデルよりも雑音の短時間の変動に対する頑健性が高い点とを挙げることができる。
上記した混合重み適応化によるHMM合成法を用いる場合、音響特徴量としてはMFCCを用いることが考えられる。しかし、MFCCのみでは認識精度を高めることが難しいことが実験的に判明した。そこで本実施の形態では、MFCCとは異なる音響特徴量を用いた音声認識を行ない、その結果とMFCCによる音声認識の結果とを統合することを考える。本実施の形態では、雑音の変動に対して頑健な特徴量として非特許文献4において提案されたDMFCC特徴量を用いることとする。以下、DMFCC特徴について述べる。なお、以下の処理では、音声データは所定サンプリング周波数及び所定窓長でサンプリングしたフレームとして準備されているものとする。
DMFCC特徴量は、式(1)に示すDPS(differential power spectrum)を基礎とする特徴量である。式(1)中のY(i,k)は、第i番目のフレームにおける第k番目のパワースペクトラム係数を表す。同様にD(i,k)は第i番目のフレームにおける第k番目のDPS係数を表す。DMFCC特徴量は、このDPS係数に対してDCT(discrete cosine transform)を行なうことにより抽出される。

D(i,k)=|Y(i,k)−Y(i,k+1)| (1)

有声母音などのピッチを含む音声から抽出されたパワースペクトラムは、基本周波数の高調波の影響によって櫛型の形状を持つ。このようなパワースペクトラムからDPS係数を計算した場合、隣り合うパワースペクトラム係数間の差が大きいため、DPS係数の値も同様に大きなパワーとして計算される。一方、雑音などの特徴を持たない波形のパワースペクトラムから計算されるDPS係数は、隣り合うパワースペクトラム係数間の差が小さいため、DPS係数の値も小さくなると考えられる。雑音重畳音声のパワースペクトラムを無雑音音声のパワーと雑音のパワーの和であると仮定した場合、DPS係数を計算することによって、音声と比較してなだらかに変化する雑音のパワー成分を減衰させることができると考えられる。
本実施の形態では、上述のようにMFCC特徴量とDMFCC特徴量とを用いて、パラレルにデコーディングを行ない、得られた仮説の統合による音声認識精度の改善を試みている。
図4に、本実施の形態に係る音声認識システム130の概略ブロック図を示す。図4を参照して、このシステム130は、初期HMM150と、雑音データベース(DB)152と、雑音が重畳された学習データ153とから、パラレルに音声をデコードするためのMFCC・HMM群156及びDMFCC・HMM群158を作成するためのHMM作成部154と、HMM作成部154により作成されたMFCC・HMM群156及びDMFCC・HMM群158を用いて、入力音声144に対する音声認識を行ない、音声認識結果146を出力するための認識処理部142とを含む。
図5はHMM作成部154のブロック図である。図5を参照して、HMM作成部154は、初期HMM150と雑音DB152とから、前述したPMC法を用いて雑音重畳音声用MFCC・HMM群156を作成するためのMFCC雑音重畳音声用HMM推定部170と、雑音重畳済みの学習データ153を用いて初期HMM150に対する学習を行なうことにより、雑音重畳音声用DMFCC・HMM群158を作成するためのDMFCC雑音重畳音声用HMM推定部172とを含む。
本実施の形態では、雑音DB152としては12種類の異なる雑音を用いる。学習データ153についても、無雑音学習データに上記したものと同種の雑音を重畳したものを用いる。なお、雑音の重畳に際しては、10dB,20dB及び30dBの三種のSNRを用いている。初期HMM150としては、無雑音音響モデルとして学習済みのものを準備する。
MFCC雑音重畳音声用HMM推定部170は、従来技術の項で説明した通りのPMC法を用いて各雑音に対応する雑音重畳音声用HMMを推定する機能を持つ。同様にDMFCC雑音重畳音声用HMM推定部172は、学習データ153を用いて最尤推定を行なうことにより雑音重畳音声用DMFCC・HMM群158の学習を行なう。DMFCC特徴量に対しては、MFCC特徴量と異なりPMC法が適用できないためである。
図6に、MFCC雑音重畳音声用HMM推定部170による雑音重畳音声用MFCC・HMM群156の概念について示す。図6を参照して、MFCC用の初期HMM180は、無雑音通常発声用MFCC・HMM190と、無雑音言直し発話用MFCC・HMM192とを含む。本実施の形態では、発話スタイルの変動への対応としてシステムへの言直し時に頻繁に観測される音節強調発話に対する頑健性の改善を試みている。言直し発話用のHMMはこのためのものである。
音声認識ソフトウェアが認識誤りを起こした場合、そのソフトウェアの使用者はもう一度同じ発声を繰返さなければならない。このような言直し発話では、母音の後に短時間のポーズが挿入されるなど、通常発声とは異なる音響的特徴を持つことが報告されている。この言直し発話を頑健に認識するため、図17に示すような構造を持つ音響モデル440が提案されている。図17を参照して、この母音モデルは、母音の後に短時間ポーズを挿入するため、例えばt−a+silの状態パス(図17において、「t−a+k」などの表記は、先行音素が/t/、後続音素が/k/、当該音素が/a/の環境依存音素を表す。「sil」は無音状態を表わす。)及び、その母音モデルの後にポーズ状態を追加した状態パスの合計3つの成分を有するマルチパス音響モデルの構造を持つ。さらに、このモデルでは、子音モデルの前に短時間ポーズの挿入を許すため、通常の子音モデルに加えてsil−k+iの状態パスへの遷移が追加されている。このような音響モデルを用いることにより、通常発声の音声以外にも言直しや音節強調発声などの音声を頑健に認識することが可能となる。
再び図6を参照して、雑音DB152は、本実施の形態では12種類の雑音データ200,202,…,206を含む。MFCC雑音重畳音声用HMM推定部170はこれら12種類の雑音の各々について、3種類のSNR(10dB、20dB、及び30dB)ごとにPMCを用いて初期HMM180を適応化することにより、雑音重畳音声用MFCC・HMM群156を生成する。
生成される雑音重畳音声用MFCC・HMM群156は、男声通常発声用MFCC・HMM群210と、男声言直し発話用MFCC・HMM群212と、女声通常発声用MFCC・HMM群214と、女声言直し発話用MFCC・HMM群216と、通常発声用無雑音MFCC・HMM215と、言直し発話用無雑音MFCC・HMM217とを含む。すなわち本実施の形態では、雑音重畳音声用MFCC・HMM群156は、男声女声、12種類の雑音、3種類のSNR、及び通常発声、言直し発話用の、2×12×3×2=144種類と通常発声用及び言直し発話用の無雑音音声用モデルの計146種類のHMMを含む。
図7に、MFCC雑音重畳音声用HMM推定部170により作成される音響モデルが、音響空間270中に占める領域を模式的に示す。図7に示すのは、12個の音響モデルに対応する領域280〜302のみである。しかし、上述したように作成される音響モデルは146種類であるので、音響空間270にはこれら領域280〜302と同様のものが合計で146個作成されることになる。
図8に、DMFCC雑音重畳音声用HMM推定部172による雑音重畳音声用DMFCC・HMM群158の作成を概念的に示す。図8を参照して、初期DMFCC・HMM182は、無雑音通常発声用DMFCC・HMM230及び無雑音言直し発話用DMFCC・HMM232を含む。
また雑音重畳学習データ153は、前述した12種類の雑音を、前述した3種類のSNRで学習データに重畳したものであり、3×12=42種類の雑音重畳学習データ240〜246を含む。DMFCC雑音重畳音声用HMM推定部172は、無雑音通常発声用DMFCC・HMM230及び無雑音言直し発話用DMFCC・HMM232に対し、上記した雑音重畳学習データ153を用いて学習を行なうことにより、男声通常発声用DMFCC・HMM群250、男声言直し発話用DMFCC・HMM群252、女声通常発声用DMFCC・HMM群254、女声言直し発話用DMFCC・HMM群256と、通常発声用無雑音DMFCC・HMM255と、言直し発話用無雑音DMFCC・HMM257と生成する。
例えば男声通常発声用DMFCC・HMM群250は、各種類及び各SNRの雑音重畳学習データに対して学習した結果得られた、複数個の男声雑音重畳通常発声用DMFCC・HMM260,262,…,266を含む。他のDMFCC・HMM群252、254、256も、男声か女声か、通常発声用モデルか言直し発話用モデルを除き同様の構成である。
本実施の形態では、雑音重畳音声用DMFCC・HMM群158は雑音重畳音声用MFCC・HMM群156と同様の構成となっている。しかし、当業者であれば容易に理解できるように、MFCCを用いる音声認識と、DMFCCを用いる音声認識とで同様の構成をとる必要は全くない。それぞれ別々のデータに基づきHMMを作成してもよい。最終的に作成されるHMMの数が等しくなる必要もない。
図9は、図4に示す認識処理部142の詳細な構造を示すブロック図である。図9を参照して、認識処理部142は、入力音声144に対しMFCC・HMM群を用いて音声認識を行なうMFCC処理部310と、入力音声144に対しDMFCC・HMM群を用いた音声認識を行ない認識結果を出力するためのDMFCC処理部312と、MFCC処理部310及びDMFCC処理部312の出力を統合し、統合された認識結果を出力するための認識結果統合部314とを含む。
図10はMFCC処理部310のより詳細なブロック図である。図10を参照してMFCC処理部310は、入力音声144からMFCCパラメータを音響特徴量として算出するためのMFCC算出部320と、MFCC算出部320から出力されるMFCCパラメータに対し、MFCC・HMM群を用いて認識処理を行ない、HMMごとに認識結果を出力するためのMFCC通常発声認識処理部322と、MFCC算出部320から与えられるMFCCパラメータに対し、言直し発話用HMMを用いて認識処理を行ない、HMMごとに認識結果を出力するためのMFCC言直し発話認識処理部324と、MFCC通常発声認識処理部322及びMFCC言直し発話認識処理部324の出力のうち、尤度が最も高いものを選択して出力するための最尤選択部326とを含む。
図11は、DMFCC処理部312のより詳細なブロック図である。図11を参照してDMFCC処理部312は、入力音声144から音響特徴量としてDMFCCパラメータを算出するためのDMFCC算出部330と、DMFCC算出部330から与えられるDMFCCパラメータに対しDMFCC通常発声用HMM群を用いて認識処理を行ない、認識結果をHMMごとに出力するためのDMFCC通常発声認識処理部332と、DMFCC算出部330からDMFCCパラメータを受取り、言直し発話用DMFCC・HMM群を用いて認識処理を行ない、HMMごとに認識結果を出力するためのDMFCC言直し発話認識処理部334と、DMFCC通常発声認識処理部332及びDMFCC言直し発話認識処理部334から出力される認識結果のうち、尤度が最も高いものを選択して出力するための最尤選択部336とを含む。
図10及び図11を参照してわかるように、MFCC処理部310及びDMFCC処理部312の構造は互いにパラレルである。使用する音響特徴量がMFCCかDMFCCかによる差異があるにすぎない。従って以下では、MFCC処理部310の構造の詳細についてのみ説明する。
図12は図10に示すMFCC通常発声認識処理部322のより詳細なブロック図である。図12を参照して、MFCC通常発声認識処理部322は、MFCC算出部320から与えられるMFCCパラメータに基づき、男声通常発声用MFCC・HMM群210及び女声通常発声用MFCC・HMM群214に対する雑音GMMの混合重み適応化によるHMM合成を重畳された雑音のSNRごとに行ない、男声通常発声用適応化MFCC・HMM群354及び女声通常発声用適応化MFCC・HMM群352を生成するための雑音適応化処理部350と、男声通常発声用適応化MFCC・HMM群354を用いて、入力されるMFCCパラメータに対するデコードを行なうことにより、適応化されたHMMごとにデコード結果を出力するためのMFCC男声通常発声デコーダ部358と、入力されるMFCCパラメータに対し女声通常発声用適応化MFCC・HMM群を用いてデコードし、HMMごとにデコード結果を出力するためのMFCC女声通常発声デコーダ部356とを含む。
男声通常発声用適応化MFCC・HMM群354及び女声通常発声用適応化MFCC・HMM群352はそれぞれ、3種類のSNRごとに一つ、合計三個のHMMを含む。デコードには無雑音HMMも使用するので、デコーダ部356及び358はそれぞれデコード結果を4つずつ出力する。その結果、MFCC通常発声認識処理部322全体としては8つのデコード結果を出力する。
ここで、図12に示す雑音適応化処理部350の処理について図15及び図16を参照して説明する。図15を参照して、雑音適応化処理部350は、入力されるMFCCパラメータに基づき、音響空間270中における入力音声に対応する領域420を推定する。そしてこの領域420と、予め求められている各種の雑音が占める領域280〜302との距離を算出する。そして、距離が最も近いものを所定個数(本実施の形態では4つ)だけ選択する。図15の例で示せば領域290、292、296及び298により示される雑音が、入力される音声の音響空間中の領域420に最も近い。従って、この4つの雑音に対応する音響モデルが採用される。
続いて図16を参照して、これら4つの領域290、292、296及び298に対応するHMMのガウス混合分布の重みを計算し、加算することにより、入力される音声の音響空間270中における領域420をカバーするような音響モデルをHMMの形で算出する。この音響モデルを用いて入力音声に対するデコードを行なう。このように各雑音に対する音響モデル自体は変化させず今後のための重みのみを計算して音声認識用のHMMの適応化を行なえばよい。そのため適用の計算時間が短く、大変高速に適応化を行なうことができる。さらに、適応化されたHMMが複数の雑音環境の分布を含んでいる。従って単数の雑音から推定された音響モデルを用いた場合よりも、雑音の短時間の変動に対する頑健性がより高くなるという利点がある。
図13はMFCC言直し発話認識処理部324の構成を示す。MFCC言直し発話認識処理部324は、入力されるMFCCパラメータを用いて、男声言直し発話用MFCC・HMM群212及び女声言直し発話用MFCC・HMM群216に対し雑音GMMの混合重み適応化によるHMM合成法を重畳された雑音のSNRごとに行ない、男声、女声及びSNRごとに適応化されたHMMを出力することにより、男声言直し発話用適応化MFCC・HMM群374及び女声言直し発話用適応化MFCC・HMM群372を出力するための雑音適応化処理部370と、与えられるMFCCパラメータを、女声言直し発話用適応化MFCC・HMM群372を用いてデコードし、HMMごとに出力するためのMFCC女声言直し発話デコーダ部376と、入力されるMFCCパラメータを男声言直し発話用適応化MFCC・HMM群374を用いてデコードし、HMMごとにデコード結果を出力するためのMFCC男声通常発声デコーダ部378とを含む。
女声言直し発話用適応化MFCC・HMM群216は、SNRごとに合成される3つのHMMを含む。男声言直し発話用適応化MFCC・HMM群も同様に、SNRごとの3つのHMMを含む。また、デコードには無雑音HMMも使用される。従って、デコーダ部376及び378はそれぞれ4つずつのデコード結果を出力する。その結果MFCC言直し発話認識処理部324の出力は8つとなる。
図12及び図13を参照して明らかなように、MFCC通常発声認識処理部322とMFCC言直し発話認識処理部324との構成はパラレルである。従って以下ではMFCC通常発声認識処理部322の詳細な構造のみを説明する。また図12及びこれ以前の説明から明らかなように、MFCC女声通常発声デコーダ部356及びMFCC男声通常発声デコーダ部358の構成も互いにパラレルである。従って以下では女声についてのみMFCC通常発声認識処理部322の詳細な構成を説明する。
図14は、MFCC女声通常発声デコーダ部356及び女声通常発声用適応化MFCC・HMM群352の詳細な構成を示す。図14を参照して、女声MFCC・HMM群352は、無雑音HMM402、及びそれぞれ10dB、20dB,及び30dBのSNRで雑音が重畳された雑音重畳HMMから合成された10dB雑音HMM404、20dB雑音HMM406、及び30dB雑音HMM408とを含む。
MFCC女声通常発声デコーダ部356は、入力されるMFCCパラメータを、無雑音HMM402、10dB雑音HMM404、20dB雑音HMM406、及び30dB雑音HMM408をそれぞれ用いてデコードし、デコード結果を出力するためのデコーダ390、392、394、及び396を含む。
図18に、図9に示す認識結果統合部314のより詳細な構成を示す。図9に示すMFCC処理部310及びDMFCC処理部312からは複数の仮説が認識結果統合部314に与えられる。認識結果統合部314は、これら複数の仮説を単語単位で統合する。その原理について図19〜図21を参照して説明する。
複数の音声認識デコーダから得られた仮説が互いに相補的である場合、それぞれの仮説の正しい部分を抽出して組み合わせることにより、より正しい単語列が得られる可能性がある。ここで「相補的」とは、あるデコーダの認識結果の前半は正しいが後半は間違いであったとしても、別のデコーダの認識結果の後半部分が正しいならば、それぞれの正しい部分をつなぎあわせることによりその認識誤りを補償することができるという意味である。
図19を参照して、2つの仮説470及び472が得られたものとする。仮説470の前半部分は誤っているが後半部分は正しい認識結果である。一方、仮説472については、前半の認識結果は正しいが後半は誤りである。従って仮説472の前半部分と仮説470の後半部分とをつなぎ合わせることにより、正しい結果が得られるはずである。
図20を参照して、上記した結果を得るために、まず図20に示されるような単語ラティスを、与えられた2つの仮説から再構成する。この再構成では、個々の単語の開始及び終了時間情報を用いる。
続いて図21に示されるように、この単語ラティス480に含まれる単語列経路のうち、音響尤度と言語尤度とから算出される尤度が最も大きくなるような単語列482を再探索する。通常、仮説のうちでも正しい部分の尤度は高く、誤っている可能性が高い部分の尤度は低くなっている。従って、このような再探索を行なうことにより2つの仮説を統合して正しい結果を得ることができる可能性が高くなる。
なお本実施の形態では、MFCCとDMFCC特徴量から得られた仮説に対する仮説統合を認識結果統合部314で行なっている。この場合、MFCCの音響モデルから計算される音響尤度と、DMFCCの音響モデルから計算される尤度とを直接比較することはできない。そのため、音響モデルの尤度を比較するためには尤度の正規化が必要である。本実施の形態では、そのために、認識文全体の音響尤度で個々の単語の音響尤度を割ることにより、各単語の尤度を正規化する。さらに、仮説統合の際には、言語モデルを用いた尤度計算も行なう。この場合、音響モデルの尤度計算と言語モデルによる尤度計算との間での重み付けを考慮しなければならない。本実施の形態では、仮説統合時における言語モデルウェイトを0.06とした。
図18を参照して、認識結果統合部314は、上記したような機能を実現するために以下の各処理部を含む。すなわち認識結果統合部314は、MFCC及びDMFCCのそれぞれの仮説の単語の音響尤度を正規化するための尤度正規化部450と、2つの仮説から個々の単語の開始及び終了時間情報を用いて単語ラティス480(図20参照)を作成するための単語ラティス作成部452と、統合の際に参照される言語モデルを記憶するための言語モデル記憶部456と、統合の際の言語モデルの尤度の、音響モデルの尤度に対するウェイトを記憶するためのウェイト記憶部454と、単語ごとの音響尤度及び言語モデルに基づく単語列の尤度に基づいて単語ラティス480中の、音響尤度と言語尤度との和が最大となるような単語列を再探索することにより認識結果を統合するための最尤経路探索部458とを含む。
上記した音声認識システム130は以下のように動作する。図22に、このシステムの動作の概略の流れについて示す。大きく分けて、このシステムは2つの動作局面を持つ。第一の局面は、雑音重畳音声用のHMMを準備するステップ500である。第二の局面は、このようにして準備された雑音重畳音声用のHMMと無雑音用のHMMとを用いて、入力される音声の認識を行なうステップ(502〜508)である。
ステップ500では、図に示すような初期HMM150と、雑音DB152とを用いて、MFCC・HMM群156が作成され、また雑音重畳学習データ153を用いてDMFCC・HMM群158が作成される。
このようにして、雑音重畳音声用のHMM群が作成された後は、いつでもこのMFCC・HMM群156及びDMFCC・HMM群158を用いた音声認識を行なうことができる。図4に示す入力音声144が与えられると、その入力音声からMFCCパラメータ及びDMFCCパラメータが算出される(ステップ502)。それらを用いて、予め準備されたMFCC・HMM群156及びDMFCCHM群158のうち入力音声144の発話環境に最も類似した発話環境に対応する所定個数(本実施の形態では4個)のHMMがMFCC及びDMFCCのそれぞれについて選択される。これらHMMからMFCC及びDMFCCの各々について、雑音GMMの混合重み適応化によるHMMが合成される。合成されるHMMは、男声・女声、通常発声・言直し発話、及び4種類のSNR(10dB、20dB、30dB、無雑音)の組み合わせの各々に対してであるから、全部で2×2×4=16通りである。
続いてステップ504で発話入力があったか否かが判定される。発話入力があればステップ506に進むが、発話入力がなければ、再び重み推定502を行なう。本実施の形態では、発話入力があった場合には、その直前の1秒間の期間における雑音を用いて重み推定を行なっている。
ステップ506では、合成されたHMMを用いた認識と、それら認識結果の統合とが行なわれる。その認識結果がステップ508で出力される。この後再度重み推定502の処理から繰り返される。
図23を参照して、発話522に対しては、発話522の直前の雑音524を用いて合成されたHMMによる音声認識が行なわれる。同様に次の発話526に対しては、発話526の直前の雑音528により推定されたHMMを用いて音声認識が行なわれる。
なお、上記した男声女声、MFCC及びDMFCC、通常発声及び言直し発話などの組合せは任意に選ぶことができる。MFCC又はDMFCCのいずれか一方のみを用いるシステムも可能である。
[実験1]
上記した実施の形態に係る雑音適応化手法の評価を行なうため、日本語大語彙連続音声認識実験を行なった。実験においては、予め出願人において作成した言語モデルを準備した。言語モデルの作成に使用された自然発話音声・言語データベースに含まれていた単語は670万語程度である。実験に使用した音声波形は、サンプリング周波数16kHz、分析窓長20ms、分析周期10msで分析を行ない、MFCC及びDMFCC特徴量を抽出した。MFCCの音響特徴パラメータは、12次元MFCC、ΔC0、12次元DMFCCの計25次元である。DMFCCの音響特徴パラメータは、12次元DMFCC、Δpow、12次元ΔDMFCCの計25次元である。使用した音素は、日本語分析でよく用いられる26種類の音素である。
音響モデルの状態共有構造は、ML−SSS(非特許文献16を参照されたい)より生成した2100状態のHMnetを使用した。各状態の混合数は5である。
学習データとして、出願人において準備した旅行会話データベースTRAを用いた。このデータベースTRAは、407名が発声した対話及び音素バランス503文の計30時間である。
雑音適応元の音響モデルは、様々な場所で採取した12種類の雑音を用いて生成した。MFCCの音響モデルは、雑音とSNR毎にPMC法を用いて無雑音音声HMMを適応化することにより生成した。DMFCCの音響モデルは、雑音を重畳した学習データを用いて生成した。雑音重畳音声のSNRは、10dB、20dB、30dBである。
MFCCとDMFCCの音響モデルはそれぞれ、男声女声、12種類の雑音、及び3種類のSNRとの組合せからなる、2×12×3=72種類と無雑音音声モデルとの計73種類である。
評価用音声データは、出願人において準備したATR旅行会話基本表現集BTEC testset−01(510文、男性4名、女性6名、それぞれ51文の発声データ)を使用し、10dB、20dB、30dBのSNRで雑音を重畳した。評価用に重畳した雑音はHMMの合成に用いた雑音とは異なる複数の場所で採取した雑音である。雑音GMMの混合ウェイト推定には1秒間の雑音を使用して個々の混合ウェイトの上位4つの雑音を用いて雑音重畳音声用音響モデルを生成した。
図24に、3種類の評価用雑音重畳音声データに対する平均単語正解精度を示す。図中のMAXは個々の音響モデル(10dB、20dB、30dB、無雑音)を用いて得られた仮説を最大尤度基準で選択した場合の単語正解精度である。図24に示すように、最大尤度基準による選択を行なうことで、実験に用いたSNR全てにおいて平均90%以上の単語正解精度が得られた。DMFCCの音響モデルを用いるとMFCCの音響モデルを用いた場合よりも単語正解精度が低下している。しかしDMFCCの無雑音音声音響モデルを用いた場合、雑音重畳音声の単語正解精度がMFCCの無雑音音響モデルよりも高い。従って、雑音の種類や雑音SNRに対する正解精度への影響がMFCCよりも小さいことがわかる。
[実験2]
さらに、言直し発話に対し頑健な音響モデルに対して雑音と発話スタイルの変動に対する単語正解精度への影響を調べるため、日本語大語彙連続音声認識実験を行なった。評価用音声として、実験1で用いた通常発声の音声と、意図的に音節ごとに区切って発声した音節強調発声の音声とを用いた。音節強調発声データは、旅行会話文、男性2名女性2名、各話者10文の計40文である。評価用音声には30dB、20dB、10dBのSNRで、実験2で用いた3種類の雑音が重畳されている。
言直し発話に頑健な音響モデルは、環境依存音素モデル数が通常発声モデルよりも多い。そのため探索空間が大きく広がり、通常発声音声に対して単語正解精度の低下が懸念される。そこで、上記実施の形態で説明した通り、言直し発話用音響モデルと通常発声用音響モデルとを用いて別々にデコーディングし、最大尤度基準による仮説の選択を行なった。
図25に、通常発声用音響モデルの場合、言直し発話用音響モデル単独の場合、2つの音響モデルをパラレルデコーディングした場合それぞれに対する単語正解精度を示す。図25に示すように、言直し発話用音響モデルを単独で使用した場合、その単語正解精度は若干低下する。それに対しパラレルデコーディングを行なうことにより、通常発声の音声に対してもほぼ同等の正解精度が得られた。
次に、音節強調発声の音声に対する単語正解精度を図26に示す。図26に示すように、言直し発話用音響モデルは、通常発声用音響モデルよりも高い単語正解精度が得られた。雑音重畳音声に対しても、実験1で得られた結果同様、10dBの音声に対しても無雑音音声や30dBの音声と同程度の単語正解精度が得られた。
[実験3]
最後に、MFCC特徴量とDMFCC特徴量のデコーダから得られた仮説を統合することによる性能の改善を調べるための評価実験を行なった。予備実験から、上記実施の形態で述べたように仮説統合時における言語モデルウェイトを0.06とした。図27に、仮説統合を行なった場合の単語正解精度を示す。図27に示すように、通常発声に対してはMFCC特徴量の正解精度と同等の結果が得られた。さらに、音節強調発声に対しては、MFCCとDMFCCの各々の正解精度以上の性能が得られた。これは、仮説統合により、MFCCによる仮説とDMFCCによる仮説とが互いに相補的であったため、仮説統合によって精度が高くなったためと考えられる。
以上のように本実施の形態の音声認識システム130では、雑音と発話スタイルの変動に頑健な音声認識を実現することを目指した。本システムでは、雑音の変動に頑健な音響特徴量としてのDMFCC、予め種々の雑音環境に適応化したHMMを用いて雑音GMMの混合ウェイトから雑音適応HMMを高速に生成する雑音適応手法、言直し発話に頑健な音響モデル、及び複数の仮説を統合する手法を用いた。その結果、10dBから30dBのSNRで雑音を重畳した通常発声の評価データに対して、平均90%以上の単語正解精度が得られた。また、言直し発話などの発話スタイルの変動に対しても、通常発声用音響モデルのみを用いた場合よりも高い単語正解精度が得られた。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
雑音GMM及び雑音重畳音声HMMの作成を説明するための図である。 混合重みの推定を説明するための図である。 適応化HMMの生成を説明するための図である。 本発明の一実施の形態に係る音声認識システムのブロック図である。 HMM作成部のより詳細なブロック図である。 本発明の一実施の形態における雑音重畳音声用MFCC・HMM群の作成を説明するための図である。 雑音GMMの混合重み適応化において、PMC法により準備される雑音HMMを説明するための図である。 本発明の一実施の形態において雑音重畳音声用DMFCC・HMMを作成する方法を説明するための図である。 認識処理部のより詳細な構成を示すブロック図である。 MFCC処理部310の詳細な構成を示すブロック図である。 DMFCC処理部312の詳細な構成を示すブロック図である。 MFCC通常発声認識処理部の詳細な構成を示すブロック図である。 MFCC言直し発話認識処理部の詳細な構成を示すブロック図である。 MFCC女声通常発声デコーダ部356及び女声通常発声用適応化MFCC・HMM群352の詳細な構成を示すブロック図である。 本実施の形態における入力音声の発話環境から、予め準備された雑音HMMの発話環境までの距離を概念的に説明するための図である。 入力音声の発話環境に類似した雑音を含む雑音HMMから適応化HMMを合成する概念を示す図である。 言直し発話に頑健な音響モデルの構成を示す図である。 認識結果統合部の詳細な構成を示すブロック図である。 仮説統合の経過を説明するための、2つの仮説を示す図である。 仮説統合の過程で生成される単語ラティスを示す図である。 仮説統合の際に行なわれる最尤単語列の探索を説明するための図である。 本発明の一実施の形態に係る音声認識システムの動作を説明するための図である。 発話ごとの音声認識に用いられる雑音の位置を説明するための図である。 本発明の一実施の形態を用いて行なわれた、雑音適応による頑健化の評価実験の結果を示すグラフである。 本発明の一実施の形態の音声認識システムを用いて行なわれた、言直し発話用音響モデルによる頑健化の評価実験の結果を示すグラフである。 音節強調発声の音声に対する単語正解精度を示すグラフである。 本発明の一実施の形態に係る音声認識システムにおいて行なわれる仮説統語による単語正解精度を調べる実験結果を示すグラフである。 PMC法の概念を説明するための図である。
符号の説明
130 音声認識システム、150 初期HMM、15 雑音DB、153 雑音重畳学習データ、154 HMM作成部、156 雑音重畳音声用MFCC・HMM群、158 雑音重畳音声用DMFCC・HMM群、144 入力音声、142 認識処理部、146 音声認識結果、190 無雑音通常発声用MFCC・HMM、192 無雑音言直し発話用MFCC・HMM、210 男声通常発声用MFCC・HMM群、212 男声言直し発話用MFCC・HMM群、214 女声通常発声用MFCC・HMM群、216 女声言直し発話用MFCC・HMM群、230 無雑音通常発声用DMFCC・HMM、232 無雑音言直し発話用DMFCC・HMM、250 男声通常発声用DMFCC・HMM群、252 男声言直し発話用DMFCC・HMM群、254 女声通常発声用DMFCC・HMM群、256 女声言直し発話用DMFCC・HMM群、310 MFCC処理部、312 DMFCC処理部、314 認識結果統合部、320 MFCC算出部、322 MFCC通常発声認識処理部、324 MFCC言直し発話認識処理部、326 最尤選択部、330 DMFCC算出部、332 DMFCC通常発声認識処理部、334 DMFCC言直し発話認識処理部、336 最尤選択部、350 雑音適応化処理部、356 MFCC女声通常発声デコーダ部、358 MFCC男声通常発声デコーダ部、370 雑音適応化処理部、376 MFCC女声言直し発話デコーダ部、378 MFCC男声言直し発話デコーダ部、450 尤度正規化部、452 単語ラティス作成部、458 最尤経路探索部、480 単語ラティス

Claims (13)

  1. それぞれ所定の音響特徴量をパラメータとする複数の音響モデル群を記憶するための記憶手段を含む音声認識システムであって、前記複数の音響モデル群の各々は、それぞれ異なる発話環境での発話音声のデコードに最適化された、同種の複数の音響モデルを含み、
    前記音声認識システムはさらに、
    入力される音声から前記所定の音響特徴量を算出するための特徴量算出手段と、
    前記入力される音声のうち、発話がない部分の前記音響特徴量に基づいて、前記複数の音響モデル群の各々に対して、それぞれ前記複数の音響モデル群の混合重み適応化により、前記入力される音声の発話環境に適応化された複数の適応化音響モデルを作成するためのモデル適応化手段と、
    前記複数の音響モデル群の各々に対して設けられ、前記入力される音声の発話部分に応答し、前記複数の適応化音響モデルをそれぞれ用いて、前記入力される音声の前記発話部分の前記所定の音響特徴量をデコードし、複数の仮説を出力するための複数のデコード手段と、
    前記複数のデコード手段が出力する前記複数の仮説を統合することにより音声認識結果を出力するための統合手段とを含み、
    前記統合手段は、
    前記複数の音響モデル群の各々に対し、前記複数のデコード手段により得られる前記複数の仮説から、各単語の音響言語尤度の和が最大となる仮説を選択するための仮説選択手段と、
    前記仮説選択手段によって前記複数の音響モデル群の各々に対して選択された仮説から、単語ラティスを作成するためのラティス作成手段と、
    前記ラティス内の単語列の中で、単語の音響尤度とN−グラム単語列(Nは1以上の整数)の言語尤度とから算出される値が所定条件を満足するものを認識結果として選択するための単語列選択手段とを含む、音声認識システム。
  2. 前記複数の音響モデル群の各々は、それぞれ異なる雑音が重畳された発話音声のデコードに最適化された複数の音響モデルを含む、請求項1に記載の音声認識システム。
  3. 前記モデル適応化手段は、
    前記入力される音声の前記音響特徴量に基づいて、前記複数の音響モデル群の各々について、当該音響モデル群に含まれる複数の音響モデルのうち、前記入力される音声の前記音響特徴量に関連する予め定める条件を充足する、所定個数の音響モデルを選択するための手段と、
    前記選択するための手段により前記複数の音響モデル群の各々について選択された前記所定個数の音響モデルから、雑音ガウス混合分布の混合重み適応化手法により前記適応化音響モデルを作成するための手段とを含む、請求項2に記載の音声認識システム。
  4. 前記複数の音響モデル群は、
    互いに異なる複数種類の雑音が第1のSNR(信号対雑音比)で重畳された発話音声のデコードに最適化された複数の音響モデルを含む第1の音響モデル群と、
    前記複数種類の雑音が、前記第1のSNRと異なる第2のSNRで重畳された発話音声のデコードに最適化された複数の音響モデルを含む第2の音響モデル群とを含む、請求項1に記載の音声認識システム。
  5. 前記複数の音響モデル群は、
    それぞれ異なる発話環境での発話音声のデコードに最適化された、第1の音響モデル構造に基づく第1の音響モデル群と、
    それぞれ異なる発話環境での発話音声のデコードに最適化された、前記第2の音響モデル構造とは異なる第2の音響モデル構造に基づく第2の音響モデル群とを含む、請求項1に記載の音声認識システム。
  6. 前記第1の音響モデル構造は、通常発話に対して想定される音響モデル構造である、請求項5に記載の音声認識システム。
  7. 前記第2の音響モデル構造は、言直し発話に対して想定される音響モデル構造である、請求項5又は請求項6に記載の音声認識システム
  8. 前記複数の音響モデル群は、
    それぞれ異なる発話環境での発話音声のデコードに最適化された、第1の種類の音響特徴量をパラメータとする第1の音響モデル群と、
    それぞれ異なる発話環境での発話音声のデコードに最適化された、前記第1の種類の音響特徴量と異なる第2の音響特徴量をパラメータとする第2の音響モデル群とを含む、請求項1に記載の音声認識システム。
  9. 前記第1の種類の音響特徴量はMFCC(メル周波数ケプストラム係数)である、請求項8に記載の音声認識システム。
  10. 前記第2の種類の音響特徴量はDMFCC(差分メル周波数ケプストラム係数)である、請求項8又は請求項9に記載の音声認識システム。
  11. 前記モデル適応化手段は、
    前記入力される音声の前記音響特徴量に基づいて、前記第1の音響モデル群に含まれる音響モデルのうち、前記入力される音声の前記音響特徴量に関連する予め定める条件を充足する、所定個数の音響モデルを選択するための第1の音響モデル選択手段と、
    前記第1の音響モデル選択手段により選択された音響モデルから、雑音GMMの混合重み適応化手法により第1の適応化音響モデルを作成するための手段と、
    前記入力される音声の前記音響特徴量に基づいて、前記第2の音響モデル群に含まれる音響モデルのうち、前記入力される音声の前記音響特徴量に関連する予め定める条件を充足する、所定個数の音響モデルを選択するための第2の音響モデル選択手段と、
    前記第2の音響モデル選択手段により選択された音響モデルから、雑音GMMの混合重み適応化手法により第2の適応化音響モデルを作成するための手段とを含む、請求項4〜請求項10のいずれかに記載の音声認識システム。
  12. 前記単語列選択手段は、前記ラティス内の単語列の中で、前記算出される値が最大となるものを認識結果として選択するための手段を含む、請求項1〜請求項11のいずれかに記載の音声認識システム。
  13. 前記単語列選択手段は、
    前記ラティス内の単語の音響尤度と、N−グラム単語列の言語尤度とを、それぞれ所定の正規化方式により正規化するための正規化手段と、
    前記ラティス内の単語列ごとに、前記正規化手段により正規化された当該単語列内の単語の音響尤度と前記N−グラム単語列の言語尤度とにそれぞれ所定の重みを加算して得られる値が前記所定条件を満足するものを認識結果として選択するための手段とを含む、請求項1〜請求項11のいずれかに記載の音声認識システム。
JP2004028542A 2004-02-04 2004-02-04 音声認識システム Expired - Lifetime JP4274962B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004028542A JP4274962B2 (ja) 2004-02-04 2004-02-04 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004028542A JP4274962B2 (ja) 2004-02-04 2004-02-04 音声認識システム

Publications (3)

Publication Number Publication Date
JP2005221678A JP2005221678A (ja) 2005-08-18
JP2005221678A5 JP2005221678A5 (ja) 2005-09-29
JP4274962B2 true JP4274962B2 (ja) 2009-06-10

Family

ID=34997370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004028542A Expired - Lifetime JP4274962B2 (ja) 2004-02-04 2004-02-04 音声認識システム

Country Status (1)

Country Link
JP (1) JP4274962B2 (ja)

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP4836076B2 (ja) * 2006-02-23 2011-12-14 株式会社国際電気通信基礎技術研究所 音声認識システム及びコンピュータプログラム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130073286A1 (en) * 2011-09-20 2013-03-21 Apple Inc. Consolidating Speech Recognition Results
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP7143665B2 (ja) * 2018-07-27 2022-09-29 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法

Also Published As

Publication number Publication date
JP2005221678A (ja) 2005-08-18

Similar Documents

Publication Publication Date Title
JP4274962B2 (ja) 音声認識システム
O’Shaughnessy Automatic speech recognition: History, methods and challenges
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
Bhardwaj et al. Effect of pitch enhancement in Punjabi children's speech recognition system under disparate acoustic conditions
US20070239444A1 (en) Voice signal perturbation for speech recognition
Gaurav et al. Development of application specific continuous speech recognition system in Hindi
Liao et al. Uncertainty decoding for noise robust speech recognition
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
Behravan Dialect and accent recognition
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
Nidhyananthan et al. Language and text-independent speaker identification system using GMM
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
Sinha et al. Continuous density hidden markov model for context dependent Hindi speech recognition
Renals et al. Speech recognition
Sawada et al. The nitech text-to-speech system for the blizzard challenge 2016
Fu et al. A survey on Chinese speech recognition
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Junqua et al. Robustness in language and speech technology
Matsuda et al. Speech recognition system robust to noise and speaking styles.
Yamagishi et al. Improved average-voice-based speech synthesis using gender-mixed modeling and a parameter generation algorithm considering GV
Matsuda et al. ATR parallel decoding based speech recognition system robust to noise and speaking styles
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
Huang et al. Speech-Based Interface for Visually Impaired Users
Sarikaya Robust and efficient techniques for speech recognition in noise
Khalifa et al. Statistical modeling for speech recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050613

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050613

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080610

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081009

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20081022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090303

R150 Certificate of patent or registration of utility model

Ref document number: 4274962

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120313

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120313

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130313

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130313

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140313

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term