JP4836076B2 - 音声認識システム及びコンピュータプログラム - Google Patents

音声認識システム及びコンピュータプログラム Download PDF

Info

Publication number
JP4836076B2
JP4836076B2 JP2006047385A JP2006047385A JP4836076B2 JP 4836076 B2 JP4836076 B2 JP 4836076B2 JP 2006047385 A JP2006047385 A JP 2006047385A JP 2006047385 A JP2006047385 A JP 2006047385A JP 4836076 B2 JP4836076 B2 JP 4836076B2
Authority
JP
Japan
Prior art keywords
word
speech
noise
hmm
mfcc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006047385A
Other languages
English (en)
Other versions
JP2007225931A (ja
Inventor
繁樹 松田
貴敏 實廣
コンスタンティン・マルコフ
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2006047385A priority Critical patent/JP4836076B2/ja
Publication of JP2007225931A publication Critical patent/JP2007225931A/ja
Application granted granted Critical
Publication of JP4836076B2 publication Critical patent/JP4836076B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は大語彙の連続音声認識装置及び方法に関し、特に、雑音に強く、発話スタイルの変動に対しても頑健に音声を認識することが可能な連続音声認識システムに関する。
近年、雑音又は発話スタイルに対して頑健な音声認識の研究が盛んに行なわれている。実環境において音声認識を使用するためには、通行する自動車等の乗り物から発せられるエンジン雑音や風切り音、駅、オフィス内等の人の声、コンピュータからのファンの音等、多種多様な雑音環境において高精度な音声認識が実現されなければならない。
さらに雑音だけでなく、使用者の年齢や性別、また感情や体調によってその発話スタイルは刻一刻と変化する。音声認識装置は、そのような発話スタイルの変動に対しても雑音と同様に頑健でなければならない。
雑音又は発話スタイル等個別の変動に対する頑健化手法が従来から数多く提案されてきた。これについては後掲の非特許文献1を参照されたい。本明細書では以下、音声の音響的言語的特徴に影響する要因のことを総じて「発話環境」と呼ぶこととする。
雑音に対して頑健な音響特徴量の分析手法として、「SS(Spectram Subtraction)法」(後掲の非特許文献2を参照されたい。)を音声認識の前処理として用いる手法が提案されている。これ以外にも、RASTA(RelAtive SpecTrA)、DMFCC(Differential Mel Frequency Cepstrum Coefficient)等、いくつかの音響分析手法が提案されている。
SS法では、雑音重畳音声のスペクトルに対して雑音スペクトルを減算することにより、SNR(信号対雑音比)を改善している。RASTA法では、個々の周波数バンドの値の変化に対して、音声情報が多く含まれている1から12Hzの変調スペクトラム成分を抽出することにより雑音の影響を軽減している。またDMFCCはFFT(高速フーリエ変換)によって得られるフーリエ係数に対して、隣り合う係数間で差分をとり、音声等のピッチを持つスペクトルを強調することによって耐雑音性を改善している。
雑音に頑健な音響モデルの研究としては、PMC(Parallel Model Combination)法(後掲の非特許文献5を参照されたい。)、ヤコビ適応法(後掲の非特許文献6を参照されたい。)、MLLR(Maximum Likelihood Linear Regression)(後掲の非特許文献7を参照されたい。)による雑音適応等が提案されている。
これらのうち、PMC法は、HMM(隠れマルコフモデル)の出力確率分布を線形スペクトル領域に変換し雑音スペクトルを重畳することにより、環境雑音への適応を行なう手法である。このPMC法につき簡単に説明する。
PMC法の概念を図28を参照して説明する。図28を参照して、PMC法の対象となる元の音響モデルが、音響の特徴量からなる音響空間600において領域610の付近に存在する音響をモデル化したものであるものとする。このとき、音声認識対象の雑音を含んだ音声データ領域612は、雑音のために元の領域610からずれたものとなる。そこで、領域612と領域610との差分を考え、この差分に相当する量を音響モデル610に加えることにより音響モデルの音響空間600内における位置を領域612まで移動するよう音響モデルを変換する。
このようにして変換した後の音響モデルを用いれば、領域612の付近に存在する雑音を含んだ音声については、元の音響モデルを用いたものより高い精度で認識できる。
ヤコビ適応法は、雑音の変化に伴う出力確率分布の非線形変換を線形近似することにより、雑音環境へ高速に適応する手法である。
MLLRを用いた雑音適応は、無雑音音声と雑音重畳音声との間の分布移動を回帰行列を用いて表現し、音響モデル全体を雑音モデルに適応化する手法である。
さらに、雑音の分布の時間変動を逐次的に推定することにより、非定常雑音に対する認識精度を改善する手法(後掲の非特許文献9を参照されたい。)が提案されている。
発話スタイルに対する頑健性の改善手法としては、発話スタイル依存の音響モデルを用いる手法の他、ロンバード効果によるスペクトルの変形を考慮した手法(非特許文献8を参照されたい。)及び個々の母音HMMの最後に無音状態を追加することにより音声強調発声や言直し発話に頑健な音響モデルを構築する手法(非特許文献10を参照されたい。)等が提案されている。そのほかにも、講演音声等の音素継続時間の短い発声を含む音声に対して、分析フレーム周期又はウィンドウ幅を自動選択することにより認識精度を改善する手法(非特許文献11、12参照)が提案されている。
これらの頑健化手法は主として、雑音や発話スタイル等の個別の変動に対する頑健化である。音声認識を実環境で用いるためには、複数の発話環境が刻一刻と変化する状況であっても頑健に音声を認識することができなければならない。このような種々の外乱に対して頑健な音声認識を実現するための方法は大きく二つに分類することができると考えられる。発話環境の変動に頑健な音響モデル及び言語モデルを用いて単数のデコーダで認識を行なうシングルタイプの方法と、お互いに異なる環境に適応化された複数の音響モデル及び言語モデルを使用して得られた複数の仮説を統合するパラレルタイプの手法とである。
シングルタイプの音声認識システムを構築するためには、広い発話環境の音声を頑健に認識する音響モデル及び言語モデルが必要である。そのために、男性及び女性双方の学習データから性別独立な音響モデルを推定する等、複数の発話環境のデータを用いてHMMのモデルパラメータ推定を行なうことにより頑健性を改善する手法がある。しかし、男性女性等のお互いの音響的特徴が大きく異なる場合ではなく、種々のSNRのデータを用いて学習する場合、個々の音素モデルの分布が過度に広がることにより音素分類精度の低下が懸念される。従って、このようなモデル化法には頑健化の限界があると考えられる。
セグメントモデル(非特許文献13を参照されたい。)では、時間的に離れた音響特徴ベクトル間の相関を計算することで音声の非定常な振舞いのモデル化を試みている。時間的に離れた特徴ベクトル間の相関として発話環境の変動をモデル化することができるならば、セグメントモデルにおいて広い発話環境の音声を頑健に認識できる可能性がある。しかし、効率的な相関の計算方法やモデルパラメータの増大等の問題により十分な精度は得られていない。
一方、パラレルタイプによる音声認識は、個々の音響モデルや言語モデルの利用可能な発話環境が限られていたとしても、それらを複数個使用しパラレルにデコーディングすることにより、個々の音素間の分類精度を低下させることなく広い発話環境の音声を頑健に認識できる可能性がある。
このような音声認識の例としては、SNRに依存した音響モデルを用いて得られた複数の仮説を最大尤度基準で選択する手法、複数のお互いに異なる音響特徴量を用いて音声認識を行ない、得られた複数の仮説を単語単位で統合する仮説統合法(非特許文献15参照)が提案されている。
特開2005−221678号公報 特開2005−164837号公報 中村、『実音響環境に頑健な音声認識を目指して』、信学技報、EA2002−12、pp.31−36、2002。 S.F.ボル、『スペクトル減算を用いた音声中の音響雑音の抑制』、IEEE音響音声信号処理論文集、第ASSP−27巻、第113−120頁、1979年。(S.F.Boll,『Suppression of Acoustic Noise in Speech Using Spectral Subtraction,』IEEE Trans.Acoust.,Speech,Signal Processing, vol.ASSP−27,pp.113−120,1979.) H.ヘルマンスキ及びN.モーガン、「音声のRASTA処理」、IEEE音声及び音響処理トランザクション、第2巻、第4号、第587−589頁(H.Hermansky and N.Morgan,『RASTA Processing of Speech,』IEEE Trans.Speech and Audio Proccessing, vol.2,no.4,pp.587−589,1994.) J.チェン、K.K.パリワル、S.ナカムラ、『頑健な音声認識のための差分パワースペクトル由来のケプストラム』、音声コミュニケーション、第41巻第2−3号、第469−484頁、2003年。(J.Chen,K.K.Paliwal,S.Nakamura,『Cepstrum Derived from Differentiated Power Spectrum for Robust Speech Recognition,』Speech Communication,vol.41,no.2−3,pp.469−484,2003.) M.ゲールズ及びS.ヤング、『パラレルモデルの組合せを用いた頑健な連続音声認識』、IEEE音声及び音響処理論文集、第4巻、第5号、第352−359頁、1996年。(M.Gales and S.Young,『Robust Continuous Speech Recognition Using Parallel Model Combination,』 IEEE Trans. on Speech and Audio Processing, vol.4,No.5,pp.352−359, 1996.) Y.ヤマグチ、S.タカハシ及びS.サガヤマ、『ヤコビアン適応アルゴリズムを用いた環境雑音への音響モデルの高速適応』、ユーロスピーチ予稿集、97、第2051−2054頁、1997年。(Y.Yamaguchi, S.Takahashi and S.Sagayama,『Fast Adaptation of Acoustic Models to Environmental Noise Using Jacobian Adaptation Algorithm,』 Proc. Eurospeech,97,pp.2051−2054,1997.) C.J.レゲッタ及びP.C.ウッドランド、『連続密度隠れマルコフモデルの話者適応のための最大尤度線形回帰』、コンピュータ音声及び言語、第9巻、第171−185頁、1995年。(C.J.Leggetter and P.C.Woodland,『Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models,』 Computer Speech and Language, vol.9,pp.171−185,1995.) J.C.ジャンカ、『ロンバード効果とその聴者及び自動音声認識装置に対する役割』、アメリカ音響学会誌、第93巻、第510−524頁、1993年。(J.C.Junqua,『The Lombard Reflex and its Role on Human Listeners and Automatic Speech Recognizer,』 J.Acoustic Soc.Amer.,vol.93,pp.510−524,1993.) K.ヤオ、B.E.シー、S.ナカムラ及びZ.カオ、『非定常雑音における頑健な音声認識のための連続EMアルゴリズムによる残存雑音の補償』、ICSLP2000予稿集、第1巻、第770−773頁、2000年。(K.Yao, B.E.Shi, S.Nakamura and Z.Cao,『Residual Noise Compensation by a Sequential EM Algorithm for Robust Speech Recognition in Nonstationary Noise,』 Proc.ICSLP2000,vol.1,pp.770−773,2000.) 奥田、松井、中村、『誤認識時の言い直し発話における発話スタイルの変動に頑健な音響モデル構築法』信学論,vol.J86−DII,no.1,pp.42−51,2003. 奥田、河原、中村、『ゆう度基準による分析周期・窓長の自動選択手法を用いた発話速度の補正と音響モデルの構築』信学論、vol.J86−DII,no.2,pp.204−211,2003. 南條、河原、『発話速度に依存したデコーディングと音響モデルの適応』信学技報、SP2001−103、2001. M.オステンドルフ、V.ディガラキス及びO.キンバル、『HMMからセグメントモデルヘ:音声認識のためのストカスティックモデリングの統一見解』、IEEE音声及び音響処理論文集、第4巻、第5号、第360−378頁、1996年。(M.Ostendorf, V.Digalakis and O.Kimball,『From HMMs to Segment Models: A Unified View of Stochastic Modeling for Speech Recognition,』IEEE Trans. Speech and Audio Proc.,vol.4,no.5,pp.360−378,1996.) 伊田、中村、『雑音GMMの適応化とSN比別マルチパスモデルを用いたHMM合成による高速な雑音環境適応化』信学論、vol.J86−D−II,no.2,pp.195−203,2003. K.マルコフ、T.マツイ、R.グルーン、J.ツァン、S.ナカムラ、『DARPA SPINE2用の雑音及びチャネル歪に頑健なASRシステム』、IEICE情報及びシステム論文集、第E86−D巻、第3号、2003年。(K.Markov,T.Matsui,R.Gruhn,J.Zhang,S.Nakamura,『Noise and Channel Distortion Robust ASR System for DARPA SPINE2 Task,』IEICE Trans.Inf.&Syst.,vol.E86−D,no.3,2003.) M.オステンドルフ及びH.シンガー、『最大尤度連続状態分割を用いたHMMトポロジー設計』、コンピュータ音声及び言語、第11巻、第1号、第17−41頁1997年。(M.Ostendorf and H.Singer,『HMM Topology Design Using Maximum Likelihood Successive State Splitting,』Computer Speech and Language,vol.11,no.1,pp.17−41,1997.)
しかしながら上述したいずれの方法においても、例えばモデルの変換に時間を要すること、雑音又は発話スタイル等、個別の要素の変動に的確に対応することが難しいこと、等から、実環境における雑音を含んだ音声や、発話スタイルが変動する音声に対して音声認識を精度よく行なうことは未だ可能でない。
そこで本件出願人は、特許文献1において、次のような音声認識システムを提案している。すなわち、予め複数種類の音響モデルを準備しておく。入力音声に基づいて、これら音響モデルから、発話環境に適応化された複数の適応化音響モデルをGMM(混合ガウス分布モデル)を用いた高速な適応化処理で作成する。こうして得られた複数の適応化音響モデルを用いて音声認識を行なうことで複数の仮説を作成する。それら仮説を組合わせて一つの単語ラティス(単語グラフ)を作成する。当該ラティスにおいて、音響モデルと言語モデルとから単語ごとに算出される尤度に基づき、経路全体として最も尤度が高くなる経路を探索する。こうして探索された経路は元の仮説を尤度に基づいて統合した仮説となる。複数の仮説に基づいて得た単語ラティスから、最も確からしい経路を組合わせるので、仮説単独よりも、最終的な結果の精度が高くなる。
この音声認識システムによれば、理論の上からも従来の技術と比較してよい仮説が得られるはずであり、実験によってもそうした効果が明らかとなっている。特に、雑音と発話スタイルの変動とに対して頑健な音声認識が得られている。
しかし、この特許文献1に開示の技術でも、音声認識精度にはさらに改善の余地がある可能性がある。特に音声認識は種々の自然言語処理の入り口となるため、音声認識精度をできるだけ高めることが重要である。
それゆえにこの発明の目的は、雑音等の個別の変動に実時間で追従して、従来技術よりもさらに精度高く認識することができる音声認識システムを提供することである。
この発明の他の目的は、雑音等の個別の変動だけでなく、発話スタイルの変動に対しても頑健に、従来技術よりもさらに精度高く音声を認識することができる音声認識システムを提供することである。
本発明の第1の局面に係る音声認識システムは、それぞれ異なる発話環境での発話音声のデコードに最適化された、それぞれ所定の音響特徴量をパラメータとする複数の音響モデル群を記憶するための記憶手段と、入力される音声から所定の音響特徴量を算出するための特徴量算出手段と、特徴量算出手段により算出される音響特徴量に基づいて、それぞれ複数の音響モデル群の混合重み適応化により、入力される音声の発話環境に適応化された複数の適応化音響モデルを作成するためのモデル適応化手段と、複数の適応化音響モデルを用いて、入力される音声の所定の音響特徴量を音声認識を目的にデコードし音声認識結果の複数の仮説を出力するためのデコード手段と、デコード手段が出力する複数の仮説を、各単語に対して算出される一般化単語事後確率に基づいて統合し出力するための仮説統合手段とを含む。
複数の音響モデル群に対し、モデル適応化手段による混合重み適応化が適用され、入力される音声の発話環境に適応化された適応化音響モデル群が作成される。これら適応化音響モデル群を用いて入力される音声の音響特徴量をデコード手段がデコードし、複数の仮説が出力される。これら複数の仮説が互いに相補的である場合、すなわち、ある仮説の誤った部分が他の仮説では正しく音声認識されている場合、統合手段により仮説を統合することにより、より精度の高い音声認識結果を得られる可能性が高い。仮説統合手段において、これら仮説を統合する際の基準として、各単語に対し算出される一般化単語事後確率を使用すると、一般化単語事後確率を使用しない場合よりも音声認識精度が高くなることが確認できた。
好ましくは、仮説統合手段は、デコード手段が出力する複数の仮説の各々に対し、各単語の一般化単語事後確率の関数であるスコアを算出するためのスコア算出手段と、複数の仮説から、各単語にスコアが付された単語ラティスを作成するためのラティス作成手段と、単語ラティス内の始点から終点までの経路のうち、当該経路上の単語の各々に対し算出されたスコアが所定の条件を充足する経路の上の単語列を音声認識結果として出力するための最適経路探索手段とを含む。
複数の仮説の各々に対し、各単語のスコアを一般化単語事後確率の関数としてスコア算出手段で算出する。これらスコアが付与された仮説から、単語ラティスを作成する。この単語ラティスの始点から終点までの経路のうちで、当該経路上の単語の各々に対し算出されたスコアが、経路全体として所定の条件を充足するものを探索する。こうして、複数の仮説から一般化単語事後確率に基づくスコア付きの単語ラティスを作成し、スコアが所定の条件を充足する経路上の単語列を最終的な音声認識結果とすることで、一般化単語事後確率を使用しない場合よりも音声認識精度が高くなることが確認できた。
より好ましくは、仮説の各々の各単語には、入力音声中における当該単語の持続時間を特定するための情報が付されており、スコア算出手段は、デコード手段が出力する複数の仮説の各々に対し、各単語の一般化単語事後確率を算出するための一般化単語事後確率算出手段と、一般化単語事後確率算出手段により算出された一般化単語事後確率と、単語ラティス中の各単語の持続時間を特定するための情報との関数としてスコアを各単語に対し算出するための関数計算手段とを含む。
関数計算手段は、各単語のスコアを算出するにあたり、当該単語の持続時間と、当該単語の一般化単語事後確率との関数としてスコアを定める。一般化単語事後確率だけでなく、単語の持続時間を考慮することにより、認識結果の信頼度を、その持続時間に対応する重み付けをして、経路全体のスコアに反映することができる。
最適経路探索手段は、単語ラティス内の始点から終点までの経路のうち、当該経路上の単語の各々に対し算出されたスコアの和が最大となる経路の上の単語列を音声認識結果として出力するための最大スコア経路探索手段を含んでもよい。
さらに好ましくは、関数計算手段は、以下の式によりスコアを各単語に対して算出するための手段を含む。
Figure 0004836076
ただし、Anはある仮説中のn番目の単語のスコア、Tnは入力音声中の当該単語の持続時間、Cnは当該単語に対して一般化単語事後確率算出手段により算出された一般化単語事後確率を、それぞれ示す。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの音声認識システムとして動作させるものである。従って、コンピュータでこのコンピュータプログラムを実行させることにより、上記した音声認識システムと同様の効果を得ることができる。
[導入]
本実施の形態では、上記した仮説の統合において、特許文献1で用いられた尤度に代えて、特許文献2で提案された一般化単語事後確率(Generalized Word Posterior Probability:GWPP)を用いる。GWPPとは、音声認識の結果得られた単語ごとに、その音声認識結果の信頼度を示す尺度と考えられる。以下、GWPPについて説明する。
仮説の統合という問題は、最終的には音声認識により認識された各単語を受け入れるか拒絶するかを判定することに帰着する。特許文献2は、この問題を、注目単語の位置の特定という考え方を導入することで解決している。この場合、注目単語以外の単語(非注目単語)については、互いに区別せずいずれも単にそれぞれの場所を占めるだけのものとして取り扱って、注目単語の事後確率が算出される。
このように注目単語/非注目単語という二分法を採用することにより、動的計画法に基づく文字列のアライメント等の複雑な処理を行なう必要が回避できる。
以下、特許文献2の記載のうち、GWPPについてまとめる。まず、以下の概念を導入する。それらは、(1)音声認識結果の単語ラティス又はN‐ベストリスト中における、注目単語の位置決定を行なうための、仮説(候補)となる文字列の探索空間の削減、(2)ある候補単語の複数の出現個所における事後確率をグループ化する際の時間的制約の緩和、及び(3)音響モデル及び言語モデルによる寄与に対する適切なウェイト付け、である。
‐文字列と単語の事後確率‐
HMMを用いる音声認識装置では、所与の音響観測データx1 T=x1,…,xTに対する、最適な単語シーケンスw1 M*=w1 *,…,wM *を、以下に示すように、可能な全ての単語シーケンスからなる空間を探索して、最大事後確率(MAP)を与えるものとして求める。
Figure 0004836076
ただし、p(x1 T|w1 M)は音響モデルの確率、p(w1 M)は言語モデルによる確率、p(x1 T)は音響の観測確率である。
トレーニング環境とテスト環境、話者、雑音等の相違により「最適な」単語シーケンスであっても誤りを含むことがある。そこで、数学的に扱いやすく、かつ統計的に好ましい何らかの信頼度尺度を採用すべきである。
単語列の事後確率p(w1 M|x1 T)は、観測された音響x1 Tに対し、認識された単語列w1 Mの尤度を測るものであるが、これは対応する時間的セグメンテーション
Figure 0004836076
を仮定することで算出される。ただし、s及びtは単語wの始点及び終点の時刻を示し、s1=1、tM=Tであり、1≦m≦M‐1のmに対しtm+1=sm+1である。
これを用いて、式(2)を次のように書き換えることができる。
Figure 0004836076
認識された単語列の全体の信頼性を測るためには、この単語列事後確率p(w1 M|x1 T)を採用するのが自然である。
単語の信頼性を測るために適切な信頼度尺度は、単語事後確率p([wm;sm,tm]|x1 T)である。これは特定の単語を含む単語列の事後確率を全て合計することにより算出される。
Figure 0004836076
この単語事後確率を実際に有効な信頼度尺度として用いるためには、さらにいくつかの問題を解決する必要がある。
[単語事後確率の修正]
‐考慮すべき仮説数‐
大語彙の連続音声認識装置(LVCSR)においては、可能な単語列の探索空間は膨大である。しかし、各単語列の事後確率の値には大きな相違があり、比較的低い尤度の単語列については刈込みしても差し支えない。このようにして得た、単語列の仮説の部分集合のみを用いて単語ラティス/グラフ又はN‐ベスト単語列リストを得ることができる。以下の実施の形態では、そのように部分集合を用いて得た単語ラティス/グラフを使用するものとする。
‐仮説内の単語の時間的なレジストレーション‐
単語の時間的位置決め(レジストレーション)を[w;s,t]で表わす。別々の仮説中にある同一の単語が出現する場合でも、その位置は仮説によって多少異なることがあり得る。自動音声認識(ASR)の最終的目標は発話中の単語からなる内容を認識することであるから、厳密な時間的制約を多少緩和することにする。ここでは、ある単語がある単語列中において出現する期間が、基準となる単語の期間[s,t]と重なっており(オーバーラップしている)、かつその単語が基準となる単語と一致しているような単語を検索し、それら単語をその基準となる単語の事後確率の計算に含める。その結果式(7)は以下のように書き換えられる。
Figure 0004836076
‐音響尤度と言語尤度との比重‐
本実施の形態では、音響尤度と言語尤度とには、それぞれα及びβで示されるウェイトによって指数的なウェイト付けがなされる。式(8)にこれを適用すると次式となる。
Figure 0004836076
[注目単語の抽出]
ここで、本実施の形態に係る単語抽出方式により抽出された注目単語の受入/拒否について検討する。図1に本実施の形態で使用する、音声認識の結果得られる単語ラティス/グラフの例を示す。
図1を参照して、本実施例で使用する単語ラティス/グラフ20は、従来のものと異なり、注目単語(「w」で示す。)以外の単語については個々の単語ラベルを付さず、いずれも単に「*」というラベルを付してあるだけである。
この単語wの出現個所の各々に対し、前方‐後方アルゴリズムを用いて単語事後確率を効率的に計算できる。その後、この特定の単語w(たとえば単語30、32、34)を通るパスの全てについての尤度を合計し、その合計をこの単語ラティス/グラフ20内の全ての経路の尤度の合計で除算し正規化することによって、前述のGWPPが算出できる。さらにこの際、単語の時間的レジストレーション(単語開始及び終了時刻の一致)の条件を緩和する。すなわち、各経路の単語wの期間が正確に一致する必要はなく、時間的にオーバーラップしているものの事後確率の合計を計算する。
[手法の概略]
雑音環境が頻繁に変動する状況では、音響モデルを高速に雑音環境に適応させることが可能でなければならない。以下に述べる本発明の一実施の形態では、高速な雑音環境適応として、非特許文献14において提案されている雑音GMMの混合音適応化によるHMM合成法を用いる。
図2〜図4を参照して、この手法の概略について説明する。図2を参照して、あらかじめ準備した種々の雑音からなる雑音DB100から、個々の雑音を混合成分とする雑音GMM102と、個々の雑音に対して別々に適応化された雑音重畳音声用HMM104,106,…とを推定する。次に図3に示すように、短時間の未知雑音110を用いて雑音GMM102の混合ウェイトWN1,WN2,…のみを推定する。そして、図4に示すように、この混合ウェイトWN1、WN2,…を用いて、雑音重畳音声用HMM104,106,…を状態レベルで複数混合化する。例えばHMM104の状態120と、HMM106の状態122とに対して、それぞれのガウス混合分布に対し図3に示すステップにより計算された混合ウェイトを乗算して足し合わせて状態出力確率分布124を算出し、雑音適応されたHMMの状態126の状態出力確率分布とする。
図2〜図4においてNは第i番目の雑音、λは第i番目の雑音に対する雑音重畳音声用HMMを表す。PNiとwNiは雑音GMMにおける第i番目の雑音の分布とその分布に対する混合ウェイトとをそれぞれ示す。さらにwλijとpλijは第i番目の雑音用の雑音重畳音声用HMMにおける第j番目の混合分布Nの分岐確率と混合成分とを表す。
この手法の利点として、適応の計算時間がGMMの混合ウェイトの推定時間のみであり大変高速である点と、雑音適応されたHMMが複数の雑音環境の分布を含んでおり、単一の雑音から推定された音響モデルよりも雑音の短時間の変動に対する頑健性が高い点とを挙げることができる。
上記した混合重み適応化によるHMM合成法を用いる場合、音響特徴量としてはMFCCを用いることが考えられる。しかし、MFCCのみでは認識精度を高めることが難しいことが実験的に判明した。そこで本実施の形態では、MFCCとは異なる音響特徴量を用いた音声認識を行ない、その結果とMFCCによる音声認識の結果とを統合することを考える。本実施の形態では、雑音の変動に対して頑健な特徴量として非特許文献4において提案されたDMFCC特徴量を用いることとする。以下、DMFCC特徴について述べる。なお、以下の処理では、音声データは所定サンプリング周波数及び所定窓長でサンプリングしたフレームとして準備されているものとする。
DMFCC特徴量は、式(10)に示すDPS(differential power spectrum)を基礎とする特徴量である。式(10)中のY(i,k)は、第i番目のフレームにおける第k番目のパワースペクトラム係数を表す。同様にD(i,k)は第i番目のフレームにおける第k番目のDPS係数を表す。DMFCC特徴量は、このDPS係数に対してDCT(discrete cosine transform)を行なうことにより抽出される。
D(i,k)=|Y(i,k)−Y(i,k+1)| (10)
有声母音等のピッチを含む音声から抽出されたパワースペクトラムは、基本周波数の高調波の影響によって櫛型の形状を持つ。このようなパワースペクトラムからDPS係数を計算した場合、隣り合うパワースペクトラム係数間の差が大きいため、DPS係数の値も同様に大きなパワーとして計算される。一方、雑音等の特徴を持たない波形のパワースペクトラムから計算されるDPS係数は、隣り合うパワースペクトラム係数間の差が小さいため、DPS係数の値も小さくなると考えられる。雑音重畳音声のパワースペクトラムを無雑音音声のパワーと雑音のパワーの和であると仮定した場合、DPS係数を計算することによって、音声と比較してなだらかに変化する雑音のパワー成分を減衰させることができると考えられる。
本実施の形態では、上述のようにMFCC特徴量とDMFCC特徴量とを用いて、パラレルにデコーディングを行ない、得られた仮説の統合による音声認識精度の改善を試みている。
[構成]
図5に、本実施の形態に係る音声認識システム130の概略ブロック図を示す。図5を参照して、このシステム130は、初期HMM150と、雑音データベース(DB)152と、雑音が重畳された学習データ153とから、パラレルに音声をデコードするためのMFCC・HMM群156及びDMFCC・HMM群158を作成するためのHMM作成部154と、HMM作成部154により作成されたMFCC・HMM群156及びDMFCC・HMM群158を用いて、入力音声144に対する音声認識を行ない、音声認識結果146を出力するための認識処理部142とを含む。
図6はHMM作成部154のブロック図である。図6を参照して、HMM作成部154は、初期HMM150と雑音DB152とから、前述したPMC法を用いて雑音重畳音声用MFCC・HMM群156を作成するためのMFCC雑音重畳音声用HMM推定部170と、雑音重畳済みの学習データ153を用いて初期HMM150に対する学習を行なうことにより、雑音重畳音声用DMFCC・HMM群158を作成するためのDMFCC雑音重畳音声用HMM推定部172とを含む。
本実施の形態では、雑音DB152としては12種類の異なる雑音を用いる。学習データ153についても、無雑音学習データに上記したものと同種の雑音を重畳したものを用いる。なお、雑音の重畳に際しては、10dB,20dB及び30dBの三種のSNRを用いている。初期HMM150としては、無雑音音響モデルとして学習済みのものを準備する。もちろん、後述する実験におけるように、重畳する雑音の種類及びそのSNRについてはこれに限定されるわけではない。
MFCC雑音重畳音声用HMM推定部170は、従来技術の項で説明した通りのPMC法を用いて各雑音に対応する雑音重畳音声用HMMを推定する機能を持つ。同様にDMFCC雑音重畳音声用HMM推定部172は、学習データ153を用いて最尤推定を行なうことにより雑音重畳音声用DMFCC・HMM群158の学習を行なう。DMFCC特徴量に対しては、MFCC特徴量と異なりPMC法が適用できないためである。
図7に、MFCC雑音重畳音声用HMM推定部170による雑音重畳音声用MFCC・HMM群156の概念について示す。図7を参照して、MFCC用の初期HMM180は、無雑音通常発声用MFCC・HMM190と、無雑音言直し発話用MFCC・HMM192とを含む。本実施の形態では、発話スタイルの変動への対応としてシステムへの言直し時に頻繁に観測される音節強調発話に対する頑健性の改善を試みている。言直し発話用のHMMはこのためのものである。
音声認識ソフトウェアが認識誤りを起こした場合、そのソフトウェアの使用者はもう一度同じ発声を繰返さなければならない。このような言直し発話では、母音の後に短時間のポーズが挿入される等、通常発声とは異なる音響的特徴を持つことが報告されている。この言直し発話を頑健に認識するため、図18に示すような構造を持つ音響モデル440が提案されている。図18を参照して、この母音モデルは、母音の後に短時間ポーズを挿入するため、例えばt−a+silの状態パス(図18において、「t−a+k」等の表記は、先行音素が/t/、後続音素が/k/、当該音素が/a/の環境依存音素を表す。「sil」は無音状態を表わす。)及び、その母音モデルの後にポーズ状態を追加した状態パスの合計三つの成分を有するマルチパス音響モデルの構造を持つ。さらに、このモデルでは、子音モデルの前に短時間ポーズの挿入を許すため、通常の子音モデルに加えてsil−k+iの状態パスへの遷移が追加されている。このような音響モデルを用いることにより、通常発声の音声以外にも言直しや音節強調発声等の音声を頑健に認識することが可能となる。
再び図7を参照して、雑音DB152は、本実施の形態では12種類の雑音データ200,202,…,206を含む。MFCC雑音重畳音声用HMM推定部170はこれら12種類の雑音の各々について、3種類のSNR(10dB、20dB、及び30dB)ごとにPMCを用いて初期HMM180を適応化することにより、雑音重畳音声用MFCC・HMM群156を生成する。
生成される雑音重畳音声用MFCC・HMM群156は、男声通常発声用MFCC・HMM群210と、男声言直し発話用MFCC・HMM群212と、女声通常発声用MFCC・HMM群214と、女声言直し発話用MFCC・HMM群216と、通常発声用無雑音MFCC・HMM215と、言直し発話用無雑音MFCC・HMM217とを含む。すなわち本実施の形態では、雑音重畳音声用MFCC・HMM群156は、男声女声、12種類の雑音、3種類のSNR、及び通常発声、言直し発話用の、2×12×3×2=144種類と通常発声用及び言直し発話用の無雑音音声用モデルの計146種類のHMMを含む。もちろん、条件によりこの個数が変化することは言うまでもない。
図8に、MFCC雑音重畳音声用HMM推定部170により作成される音響モデルが、音響空間270中に占める領域を模式的に示す。図8に示すのは、12個の音響モデルに対応する領域280〜302のみである。しかし、上述したように作成される音響モデルは146種類であるので、音響空間270にはこれら領域280〜302と同様のものが合計で146個作成されることになる。
図9に、DMFCC雑音重畳音声用HMM推定部172による雑音重畳音声用DMFCC・HMM群158の作成を概念的に示す。図9を参照して、初期DMFCC・HMM182は、無雑音通常発声用DMFCC・HMM230及び無雑音言直し発話用DMFCC・HMM232を含む。
また雑音重畳学習データ153は、前述した12種類の雑音を、前述した3種類のSNRで学習データに重畳したものであり、3×12=42種類の雑音重畳学習データ240〜246を含む。DMFCC雑音重畳音声用HMM推定部172は、無雑音通常発声用DMFCC・HMM230及び無雑音言直し発話用DMFCC・HMM232に対し、上記した雑音重畳学習データ153を用いて学習を行なうことにより、男声通常発声用DMFCC・HMM群250、男声言直し発話用DMFCC・HMM群252、女声通常発声用DMFCC・HMM群254、女声言直し発話用DMFCC・HMM群256と、通常発声用無雑音DMFCC・HMM255と、言直し発話用無雑音DMFCC・HMM257とを生成する。
例えば男声通常発声用DMFCC・HMM群250は、各種類及び各SNRの雑音重畳学習データに対して学習した結果得られた、複数個の男声雑音重畳通常発声用DMFCC・HMM260,262,…,266を含む。他のDMFCC・HMM群252、254、256も、男声か女声か、通常発声用モデルか言直し発話用モデルかを除き同様の構成である。
本実施の形態では、雑音重畳音声用DMFCC・HMM群158は雑音重畳音声用MFCC・HMM群156と同様の構成となっている。しかし、当業者であれば容易に理解できるように、MFCCを用いる音声認識と、DMFCCを用いる音声認識とで同様の構成をとる必要は全くない。それぞれ別々のデータに基づきHMMを作成してもよい。最終的に作成されるHMMの数が等しくなる必要もない。
図10は、図5に示す認識処理部142の詳細な構造を示すブロック図である。図10を参照して、認識処理部142は、入力音声144に対しMFCC・HMM群を用いて音声認識を行なうMFCC処理部310と、入力音声144に対しDMFCC・HMM群を用いた音声認識を行ない認識結果を出力するためのDMFCC処理部312と、MFCC処理部310及びDMFCC処理部312の出力する仮説を統合して出力するための仮説統合部314とを含む。
図11はMFCC処理部310のより詳細なブロック図である。図11を参照してMFCC処理部310は、入力音声144からMFCCパラメータを音響特徴量として算出するためのMFCC算出部320と、MFCC算出部320から出力されるMFCCパラメータに対し、MFCC・HMM群を用いて認識処理を行ない、HMMごとに認識結果を出力するためのMFCC通常発声認識処理部322と、MFCC算出部320から与えられるMFCCパラメータに対し、言直し発話用HMMを用いて認識処理を行ない、HMMごとに認識結果を出力するためのMFCC言直し発話認識処理部324と、MFCC通常発声認識処理部322及びMFCC言直し発話認識処理部324の出力のうち、尤度が最も高いものを選択して出力するための最尤選択部326とを含む。
図12は、DMFCC処理部312のより詳細なブロック図である。図12を参照してDMFCC処理部312は、入力音声144から音響特徴量としてDMFCCパラメータを算出するためのDMFCC算出部330と、DMFCC算出部330から与えられるDMFCCパラメータに対しDMFCC通常発声用HMM群を用いて認識処理を行ない、認識結果をHMMごとに出力するためのDMFCC通常発声認識処理部332と、DMFCC算出部330からDMFCCパラメータを受取り、言直し発話用DMFCC・HMM群を用いて認識処理を行ない、HMMごとに認識結果を出力するためのDMFCC言直し発話認識処理部334と、DMFCC通常発声認識処理部332及びDMFCC言直し発話認識処理部334から出力される認識結果のうち、尤度が最も高いものを選択して出力するための最尤選択部336とを含む。
図11及び図12を参照してわかるように、本実施の形態では、MFCC処理部310及びDMFCC処理部312の構造は互いにパラレルである。使用する音響特徴量がMFCCかDMFCCかによる差異があるにすぎない。従って以下では、MFCC処理部310の構造の詳細についてのみ説明する。
図13は図11に示すMFCC通常発声認識処理部322のより詳細なブロック図である。図13を参照して、MFCC通常発声認識処理部322は、MFCC算出部320から与えられるMFCCパラメータに基づき、男声通常発声用MFCC・HMM群210及び女声通常発声用MFCC・HMM群214に対する雑音GMMの混合重み適応化によるHMM合成を重畳された雑音のSNRごとに行ない、男声通常発声用適応化MFCC・HMM群354及び女声通常発声用適応化MFCC・HMM群352を生成するための雑音適応化処理部350と、男声通常発声用適応化MFCC・HMM群354を用いて、入力されるMFCCパラメータに対するデコードを行なうことにより、適応化されたHMMごとにデコード結果を出力するためのMFCC男声通常発声デコーダ部358と、入力されるMFCCパラメータに対し女声通常発声用適応化MFCC・HMM群を用いてデコードし、HMMごとにデコード結果を出力するためのMFCC女声通常発声デコーダ部356とを含む。
男声通常発声用適応化MFCC・HMM群354及び女声通常発声用適応化MFCC・HMM群352はそれぞれ、3種類のSNRごとに一つ、合計三個のHMMを含む。デコードには無雑音HMMも使用するので、デコーダ部356及び358はそれぞれデコード結果を4つずつ出力する。その結果、MFCC通常発声認識処理部322全体としては8つのデコード結果を出力する。
ここで、図13に示す雑音適応化処理部350の処理について図16及び図17を参照して説明する。図16を参照して、雑音適応化処理部350は、入力されるMFCCパラメータに基づき、音響空間270中における入力音声に対応する領域420を推定する。そしてこの領域420と、予め求められている各種の雑音が占める領域280〜302との距離を算出する。そして、距離が最も近いものを所定個数(本実施の形態では4つ)だけ選択する。図16の例で示せば領域290、292、296及び298により示される雑音が、入力される音声の音響空間中の領域420に最も近い。従って、この4つの雑音に対応する音響モデルが採用される。
続いて図17を参照して、これら4つの領域290、292、296及び298に対応するHMMのガウス混合分布の重みを計算し、加算することにより、入力される音声の音響空間270中における領域420をカバーするような音響モデルをHMMの形で算出する。この音響モデルを用いて入力音声に対するデコードを行なう。このように各雑音に対する音響モデル自体は変化させず今後のための重みのみを計算して音声認識用のHMMの適応化を行なえばよい。そのため適用の計算時間が短く、大変高速に適応化を行なうことができる。さらに、適応化されたHMMが複数の雑音環境の分布を含んでいる。従って単数の雑音から推定された音響モデルを用いた場合よりも、雑音の短時間の変動に対する頑健性がより高くなるという利点がある。
図14はMFCC言直し発話認識処理部324の構成を示す。MFCC言直し発話認識処理部324は、入力されるMFCCパラメータを用いて、男声言直し発話用MFCC・HMM群212及び女声言直し発話用MFCC・HMM群216に対し雑音GMMの混合重み適応化によるHMM合成法を重畳された雑音のSNRごとに行ない、男声、女声及びSNRごとに適応化されたHMMを出力することにより、男声言直し発話用適応化MFCC・HMM群374及び女声言直し発話用適応化MFCC・HMM群372を出力するための雑音適応化処理部370と、与えられるMFCCパラメータを、女声言直し発話用適応化MFCC・HMM群372を用いてデコードし、HMMごとに出力するためのMFCC女声言直し発話デコーダ部376と、入力されるMFCCパラメータを男声言直し発話用適応化MFCC・HMM群374を用いてデコードし、HMMごとにデコード結果を出力するためのMFCC男声通常発声デコーダ部378とを含む。
女声言直し発話用適応化MFCC・HMM群372は、SNRごとに合成される三つのHMMを含む。男声言直し発話用適応化MFCC・HMM群374も同様に、SNRごとの三つのHMMを含む。また、デコードには無雑音HMMも使用される。従って、デコーダ部376及び378はそれぞれ4つずつのデコード結果を出力する。その結果MFCC言直し発話認識処理部324の出力は8つとなる。
図13及び図14を参照して明らかなように、本実施の形態においては、MFCC通常発声認識処理部322とMFCC言直し発話認識処理部324との構成はパラレルである。従って以下ではMFCC通常発声認識処理部322の詳細な構造のみを説明する。また図13及びこれ以前の説明から明らかなように、MFCC女声通常発声デコーダ部356及びMFCC男声通常発声デコーダ部358の構成も互いにパラレルである。従って以下では女声についてのみMFCC通常発声認識処理部322の詳細な構成を説明する。
図15は、MFCC女声通常発声デコーダ部356及び女声通常発声用適応化MFCC・HMM群352の詳細な構成を示す。図15を参照して、女声通常発声用適応化MFCC・HMM群352は、無雑音HMM402と、それぞれ10dB、20dB,及び30dBのSNRで雑音が重畳された雑音重畳HMMから合成された10dB雑音HMM404、20dB雑音HMM406、及び30dB雑音HMM408とを含む。
MFCC女声通常発声デコーダ部356は、入力されるMFCCパラメータを、無雑音HMM402、10dB雑音HMM404、20dB雑音HMM406、及び30dB雑音HMM408をそれぞれ用いてデコードし、デコード結果を出力するためのデコーダ390、392、394、及び396を含む。
図19に、図10に示す仮説統合部314のより詳細な構成を示す。図10に示すMFCC処理部310及びDMFCC処理部312からは複数の仮説が仮説統合部314に与えられる。仮説統合部314は、これら複数の仮説を単語単位で統合する。その原理について図20〜図22を参照して説明する。なお、以下の説明に用いられるGWPPについては図1を用いて冒頭に説明したとおりである。
複数の音声認識デコーダから得られた仮説が互いに相補的である場合、それぞれの仮説の正しい部分を抽出して組合わせることにより、より正しい単語列が得られる可能性がある。ここで「相補的」とは、あるデコーダの認識結果の前半は正しいが後半は間違いであったとしても、別のデコーダの認識結果の後半部分が正しいならば、それぞれの正しい部分をつなぎあわせることによりその認識誤りを補償することができるという意味である。
図20を参照して、二つの仮説470及び472が得られたものとする。仮説470の前半部分は誤っているが後半部分は正しい認識結果である。一方、仮説472については、前半の認識結果は正しいが後半は誤りである。従って仮説472の前半部分と仮説470の後半部分とをつなぎ合わせることにより、正しい結果が得られるはずである。
図21を参照して、上記した結果を得るために、まず図21に示されるような単語ラティス480を、与えられた二つの仮説から再構成する。この再構成では、個々の単語の開始及び終了時間情報を用いる。
続いて図22に示されるように、この単語ラティス480において音響尤度と言語尤度、並びに言語モデルから各仮説の単語ごとにGWPPを算出する。このGWPPの関数として各単語に対してスコアを付与する。そして、単語ラティス480内の、始点と終点とを結ぶ単語列経路のうち、単語列全体としてのスコアが最も大きくなるような単語列482を再探索する。特許文献2にも開示されているとおり、仮説のうちでも音声認識の信頼性の高い部分のGWPPは高く、信頼性が低い部分のGWPPは低くなっている。従って、このような再探索を行なうことにより二つの仮説を統合して正しい結果を得ることができる可能性が高くなる。
ただし、単語ラティスの再構成と、GWPPの算出との順序はこれと逆でもよい。GWPPの算出は、仮説ごとに行なうためである。
なお本実施の形態では、MFCCとDMFCC特徴量から得られた仮説に対する仮説統合を仮説統合部314で行なっている。この仮説統合の際には、言語モデルを用いた尤度計算も行なう。この場合、音響モデルの尤度計算と言語モデルによる尤度計算との間でのウェイト付けを考慮しなければならない。
図19を参照して、仮説統合部314は、上記したような機能を実現するために以下の各処理部を含む。すなわち仮説統合部314は、MFCC及びDMFCCの仮説を保持し、後述する様に各単語に対し算出されるGWPPを付与するように各仮説を更新するための仮説更新部452と、仮説更新部452が保持する仮説の各々の各単語について、GWPPを算出するために、単語ラティス中で期間がオーパーラップする、同じ単語を検索するための対象単語検索部454と、対象単語検索部454により検索された単語群に対し、前述した算出方法によりそのGWPPを算出するためのGWPP算出部456と、GWPP算出部456によるGWPP算出の際に参照される、統計的言語モデルを記憶するための言語モデル記憶部460と、GWPP算出の際の言語モデルの尤度と、音響モデルの尤度とのウェイトを記憶するためのウェイト記憶部458とを含む。仮説更新部452は、GWPP算出部456により算出されたGWPPを用いて以下の式により算出されるスコアAを各仮説の単語に付して出力する機能を有する。
Figure 0004836076
ただしnは各仮説中における単語の順番を示し、Tnはその単語の持続時間を示し、Cnはその単語に付与されたGWPPを示す。本実施の形態では、単語列全体のスコアは、こうして各単語に対して算出されたスコアの和として算出する。このようにスコアをGWPPだけでなく単語の持続時間とも関連付けることにより、GWPPにその単語の持続時間に相当する重みを付けることになり、仮説全体の信頼度に各単語のGWPPをよりよく反映できる。
なお、ウェイト記憶部458に記憶されるウェイトについては、特許文献2にウェイトα及びβとして記載がある。特許文献2では、単独の音声認識部から出力される単語ラティスについてこのGWPPを適用した最適経路探索を行なっているが、本実施の形態でも特許文献2と同様のウェイトを用いる。
仮説統合部314はさらに、仮説更新部452が出力する二つの仮説から、個々の単語の開始及び終了時間情報、並びにスコアを用いて単語ラティス480(図21参照)を作成するための単語ラティス作成部462と、単語ラティス作成部462により作成された単語ラティスを記憶するための単語ラティス記憶部464と、単語ごとにスコアが付与された単語ラティスの中で、経路上の単語列のGWPPの値の和が最も高い経路(最高スコア経路)を探索して、その経路に含まれる単語列を、GWPPとともに音声認識結果146として出力するための最高スコア経路探索部466とを含む。最高スコア経路探索部466の出力する単語列は、仮説統合部314に入力される二つの仮説を統合して得た、最も信頼性の高い仮説となる。
<コンピュータによる実現>
上記した実施の形態に係る音声認識システム130は、コンピュータハードウェアと、当該コンピュータハードウェアの上でCPUにより実行されるコンピュータプログラムとにより実現可能である。
図23に、特に仮説統合部314をコンピュータで実現するためのコンピュータプログラムのフローチャートを示す。図23を参照して、仮説統合部314に相当する処理は、二つの仮説を受取ると次の処理を行なう。これら二つの仮説は、いずれもノードとアークとからなるグラフ形式で与えられる。アークは仮説を構成する単語に相当し、ノードは単語と単語との接続部に相当する。各アークには、入力された音声信号に基づき、音声認識の際にその単語の開始事項と終了時刻とが付与されている。
最初に、ステップ490において、各仮説の各単語に対してGWPPを計算する。この際には、実施の形態の冒頭に説明したように、各単語ごとに、順にGWPPを計算し付与する。
ステップ492では、このようにして各単語にGWPPが付与された二つの仮説のうち、同一時間に生起している同一単語があれば、それらに対応するアークを一つのアークにまとめる。
このようにしてアークの統合について可能なものを全て行なった後、ステップ494では、結果として得られた単語ラティスの中で隣接するアーク間にノードを挿入する。より具体的には、一つのアークに付与されている単語の終了時刻と、次のアークに付与されている単語開始時刻とが30ミリ秒以内であるようなアーク対があれば、その間にノードを挿入する。このようにして、可能な限りノードを挿入する。この結果、各アークにGWPPが付与された単語ラティスが作成される。
ステップ496では、単語ラティスの各アークについて、付与されているGWPPと、開始及び終了時刻とに基づき、そのアークに対応する単語のスコアAnが算出される。スコアを全てのアークに対して算出し付与することにより、スコア付きの、統合された単語ラティスが完成する。
最後に、ステップ498で、この単語ラティスの中で最高のスコアが得られる経路を、DPサーチにより探索し、得られた経路上の単語列を出力して処理を終了する。
図24は、この音声認識システム130を実現するコンピュータシステム530の外観を示し、図25はコンピュータシステム530の内部構成を示す。
図24を参照して、このコンピュータシステム530は、メモリドライブ552及びDVDドライブ550を有するコンピュータ540と、キーボード546と、マウス548と、モニタ542と、音声入力に用いられるマイクロフォン570と、一対のスピーカ572とを含む。
図25を参照して、コンピュータ540は、メモリドライブ552、DVDドライブ550、マイクロフォン570及びスピーカ572に加えて、CPU(中央処理装置)556と、CPU556、メモリドライブ552及びDVDドライブ550に接続されたバス566と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)558と、バス566に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)560と、バス566に接続され、マイクロフォン570及びスピーカ572を用いた音声処理を行なうサウンドボード568とを含む。
ここでは示さないが、コンピュータ540はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム530に音声認識装置130としての動作を行なわせるためのコンピュータプログラムは、DVDドライブ550又はメモリドライブ552に挿入されるDVD562又は不揮発性メモリ564に記憶され、さらにハードディスク554に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ540に送信されハードディスク554に記憶されてもよい。プログラムは実行の際にRAM560にロードされる。DVD562から、不揮発性メモリ564から、又はネットワークを介して、直接にRAM560にプログラムをロードしてもよい。
このプログラムは、コンピュータ540にこの実施の形態の音声認識装置130としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ540上で動作するオペレーティングシステム(OS)もしくはサードパーティのプログラム、又はコンピュータ540にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記した音声認識装置130としての動作を実行する命令のみを含んでいればよい。コンピュータシステム530の動作は周知であるので、ここでは繰返さない。
[動作]
上記した音声認識システム130は以下のように動作する。図26に、このシステムの動作の概略の流れについて示す。大きく分けて、このシステムは二つの動作局面を持つ。第一の局面は、雑音重畳音声用のHMMを準備するステップ500である。第二の局面は、このようにして準備された雑音重畳音声用のHMMと無雑音用のHMMとを用いて、入力される音声の認識を行なうステップ(502〜508)である。
ステップ500では、図5に示すような初期HMM150と、雑音DB152とを用いて、MFCC・HMM群156が作成され、また雑音重畳学習データ153を用いてDMFCC・HMM群158が作成される。
このようにして、雑音重畳音声用のHMM群が作成された後は、いつでもこのMFCC・HMM群156及びDMFCC・HMM群158を用いた音声認識を行なうことができる。図5に示す入力音声144が与えられると、その入力音声からMFCCパラメータ及びDMFCCパラメータが算出される(ステップ502)。それらを用いて、予め準備されたMFCC・HMM群156及びDMFCCHM群158のうち入力音声144の発話環境に最も類似した発話環境に対応する所定個数(本実施の形態では4個)のHMMがMFCC及びDMFCCのそれぞれについて選択される。これらHMMからMFCC及びDMFCCの各々について、雑音GMMの混合重み適応化によるHMMが合成される。合成されるHMMは、男声・女声、通常発声・言直し発話、及び4種類のSNR(10dB、20dB、30dB、無雑音)の組合わせの各々に対してであるから、全部で2×2×4=16通りである。
続いてステップ504で発話入力があったか否かが判定される。発話入力があればステップ506に進むが、発話入力がなければ、再び重み推定502を行なう。本実施の形態では、発話入力があった場合には、その直前の1秒間の期間における雑音を用いて重み推定を行なっている。
ステップ506では、合成されたHMMを用いた音声認識と、それら音声認識により得られた仮説を統合して最終的な単語ラティスを作成する処理とが行なわれる。この単語ラティスの各単語には、各単語の持続時間とGWPPとの関数として前述した式により算出されるスコアが付与される。単語ラティスの中で最も高いスコアを与える経路を探索し、その結果得られた経路上の単語列がステップ508で出力される。この後、重み推定502からの処理が繰返される。
ステップ506での仮説統合部314の動作の詳細を説明する。図19を参照して、仮説更新部452は、MFCC処理部310及びDMFCC処理部312から与えられた二つの仮説を保持する。
対象単語検索部454は、仮説更新部452に保持された二つの仮説の各々について、GWPPを算出する対象の単語を順番に取り出し、GWPP算出部456に与える。GWPP算出部456は、この単語について、仮説更新部452に保持された仮説の構造と、言語モデル記憶部460に記憶された統計的言語モデルと、ウェイト記憶部458に記憶された、GWPP算出時に音響モデルによる尤度と言語モデルによる尤度とにそれぞれ割当てられるウェイトとを使用して、GWPPを算出し仮説更新部452に与える。仮説更新部452は、与えられたGWPPと、仮説中の当該単語の持続時間に関する情報とに基づいて、当該単語のスコアを算出し付与する。
二つの仮説の各単語に対し、仮説更新部452、対象単語検索部454、及びGWPP算出部456によってGWPPが算出されると、その二つの仮説は単語ラティス作成部462に与えられる。単語ラティス作成部462は、図23にフローチャートを示した処理によって単語ラティスを作成し、単語ラティス記憶部464に記憶させる。最高スコア経路探索部466は、単語ラティス記憶部464に記憶された単語ラティスの始点と終点とを結ぶ経路上で、経路上の単語のGWPPの値の和が最高となるものを探索し、該当する経路上の単語列を統合後の仮説である音声認識結果146として出力する。
図27を参照して、上記実施の形態では、ある発話522に対しては、発話522の直前の雑音524を用いて合成されたHMMによる音声認識が行なわれる。同様に次の発話526に対しては、発話526の直前の雑音528により推定されたHMMを用いて音声認識が行なわれる。
なお、上記した男声女声、MFCC及びDMFCC、通常発声及び言直し発話等の組合せは任意に選ぶことができる。MFCCサブシステム又はDMFCCサブシステムのいずれか一方のみを用いるシステムも可能である。
また、上記した実施の形態では、最終的に二つの仮説を得て、それらを統合した。しかし本発明はそのような実施の形態には限定されない。例えば三つ以上の仮説を最終段階で統合するようにしてもよい。
[実験]
上記した実施の形態に係るシステムの有効性を検証するために、以下の実験を行なった。実験は、AURORA−2Jタスクで行なった。このデータベースは学習及び試験のための、日本語の数字の連続発話コーパスを含んでいる。本件出願人により作成されたATRASRのバージョン3.3をデコーダとして用いた。音響モデルを推定するためには、AURORA−2J中のクリーン学習セットを使用した。このセットには、110名の発話者(男性55名、女性55名)の8,440発話が含まれている。このトレーニングセットに、レストラン、街頭、空港、駅という4種類の雑音を4種類のSNR(20,15,10及び5dB)で重畳した。数字発話と無音状態とを表1に示すような種々のHMMでモデリングした。その結果得られた音響モデルは、二つの特徴量(MFCC,DMFCC)×4種類のSNR×4種類の雑音=32通りである。各雑音種類ごとに、8ガウス分布の雑音GMMの学習を行なった。
Figure 0004836076
テストはAURORA−2JのテストセットBを用いて行なった。このセットでは、発話データに、学習データに重畳したものとは異なる4種類の雑音(地下鉄、バブル、車内、展示会)を、前述した5dBから20dBの4種類のSNRと、無雑音との、合計5種類のSNRで重畳した。学習データとテストデータとのいずれに対しても、G.712フィルタを適用した。
MFCCの特徴量ベクトルには、10ミリ秒フレーム間隔で25ミリ秒フレーム長のフレームにより算出した12個のMFCC、Δpow、12個のΔMFCC,ΔΔpow、及び12個のΔΔMFCCを用いた。DMFCC特徴量もMFCC特徴量と同じ構成のものを用いた。ケプストラム平均除去をいずれの特徴量にも適用した。これら特徴量をそれぞれMFCC_CMS及びDMFCC_CMSと呼ぶことにする。さらに、特徴量の抽出に先立ち、2段ウィーナーフィルタリング(ETSI(欧州通信規格協会)により配布されているAFE(ES 202 050 アナログフロントエンド))を適用した。AFEにより雑音抑制したMFCC及びDMFCCの特徴量を、それぞれMFCC_AFE及びDMFCC_AFEと呼ぶことにする。
上記した条件で、本発明に係るシステムで使用したMFCCサブシステム及びDMFCCサブシステム、本発明に係るシステム、並びに特許文献1に記載の尤度による仮説統合を採用したシステムにおいて、それぞれCMS及びAFEを適用した場合の単語認識精度を測定した。結果を表2に示す。
Figure 0004836076
表2から明らかなように、MFCCサブシステム及びDMFCCサブシステム単独の場合よりも、仮説統合を行なった場合の方が高い精度を示す。しかも、本願実施の形態に係るGWPPによる仮説統合を採用したシステムの精度は、特許文献1に開示された、尤度による仮説統合を行なうシステムよりも高い。従って、本願実施の形態にかかる、GWPPによる仮説統合を採用したシステムが、特許文献1に開示されたシステムよりも雑音に対して頑健であることが確認できた。
次に、雑音及び発話スタイルについて、本願実施の形態に係るシステムの頑健さがどの程度かを調べるため、通常発話と言直し発話とについての次のような実験を行なった。主な条件は以下の通りである。
雑音に対する高速適応化のための雑音ごとの音響モデルを、ATR旅行発話データベース(5時間)の対話発話、音素バランス文の読上げ発話(25時間)及び空港、地下街等12種類の雑音を使用してトレーニングした。MDL−SSS手法を用いて、2,089状態の状態共有構造が生成された。各状態は5個のガウス分布要素を有していた。全ての音響モデルに、種々の雑音を10、20及び30dBのSNRでそれぞれ重畳した。言直し発話用の音響モデルは通常発話の音響モデルから生成した。各分布のパラメータは同一としたが、HMMのトポロジーは色々であった。各音響モデルは発話者の性に依存したものである。従って、得られた音響モデルは、SNRの3レベル、雑音の12種類、MFCC及びDMFCCという特徴量、発話者の性、及び発話スタイルに依存しており、合計3×12×2×2×2=288通りである。
各雑音タイプに対し、8ガウス分布を持つ雑音GMMの学習を行なった。テスト発話の各々の先頭の500ミリ秒の部分を使用して雑音適応により適応化音響モデルを作成した。MFCC特徴量は、10ミリ秒のフレーム間隔かつ20ミリ秒のフレーム長のフレームから得た12個のMFCC,12個のΔMFCC及びΔpowからなる。DMFCC特徴量は、同様に12個のDMFCC,12個のΔDMFCC及びΔpowからなる。
言語モデルとしては、マルチクラスの複合単語バイグラム及び単語トライグラムのものを用いた。言語モデルの単語数は合計6.1M単語であり、レキシコンサイズは34k単語であった。
通常発話にはBTECコーパスのテストセット1を用いた(510文、男性4人及び女性6人)。言直し発話には男性2名、女性2名の、文節ごとに強調した40個の文を収集した。テスト用の通常発話には3種類の雑音を4通りのSNRレベルで重畳した。言直し発話には3種類の雑音を3通りのSNRレベルで重畳した。
通常発話用の音響モデルを有するシステムと、通常発話及び言直し発話用の音響モデルを持つシステムとの双方について、MFCCサブシステムのみ、DMFCCサブシステムのみ、GWPPを用いた仮説統合を行なうシステム(本実施の形態)、及び尤度による仮説統合を採用したシステム(非特許文献1)によって音声認識性能を測定した。いずれのシステムにおいても、入力発話の最初の500ミリ秒を用いて雑音環境に対する音響モデルの適応化を行なった。表3に、通常発話に対する音声認識精度(%)を示す。なお表3において、「通常発話のみ」は通常発話用の音響モデルのみを用いたシステムであることを示し、「通常発話+言直し発話」は、通常発話用の音響モデルと言直し用音響モデルとの双方を用いたシステムであることを示す。
Figure 0004836076
表3によれば、非特許文献1に記載の尤度による仮説統合を採用したシステムの場合、MFCCサブシステムのみの場合の精度より悪化しているという結果が得られた。それに対し、本実施の形態に係る、GWPPによる仮説統合を採用するシステムでは、いずれの場合も、どちらのサブシステムよりも高い認識精度が得られた。
言直し発話に対する実験では、通常発話用の音響モデルのみのシステムでは10%程度の精度しか得られなかったが、本実施の形態のように言直し発話用の音響モデルをさらに追加して使用すると、単語精度としてMFCCサブシステムのみ、DMFCCサブシステムのみの場合、種々のSNRの場合を平均してそれぞれ約37%及び約36%という結果が得られた。加えて、本実施の形態のようにGWPPによる仮説統合を行なうと、どのSNRにおいても精度はこれよりさらに上がり、平均で40%を上回ることが確認できた。
以上のように本実施の形態の音声認識システム130では、雑音と発話スタイルの変動とに頑健で、特許文献1に開示のシステムよりもさらに精度の高い音声認識を実現することを目指した。本システムでは、雑音の変動に頑健な音響特徴量としてのDMFCC、予め種々の雑音環境に適応化したHMMを用いて雑音GMMの混合ウェイトから雑音適応HMMを高速に生成する雑音適応手法、言直し発話に頑健な音響モデル、及び複数の仮説をGWPPを用いて統合する手法を用いた。その結果、種々のSNRで雑音を重畳した通常発声の評価データに対して、特許文献1に開示の尤度による仮説統合を採用したシステムよりも高い単語認識精度が得られた。また、言直し発話等の発話スタイルの変動に対しても、通常発声用音響モデルのみを用いた場合よりも高く、かつ特許文献1に開示のシステムよりも高い単語認識精度が得られた。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
本発明の第1の実施の形態に係る音声認識システムで採用したGWPPの算出原理を説明するための、単語ラティスの模式図である。 雑音GMM及び雑音重畳音声HMMの作成を説明するための図である。 混合重みの推定を説明するための図である。 適応化HMMの生成を説明するための図である。 本発明の一実施の形態に係る音声認識システムのブロック図である。 HMM作成部のより詳細なブロック図である。 本発明の一実施の形態における雑音重畳音声用MFCC・HMM群の作成を説明するための図である。 雑音GMMの混合重み適応化において、PMC法により準備される雑音HMMを説明するための図である。 本発明の一実施の形態において雑音重畳音声用DMFCC・HMMを作成する方法を説明するための図である。 認識処理部のより詳細な構成を示すブロック図である。 MFCC処理部310の詳細な構成を示すブロック図である。 DMFCC処理部312の詳細な構成を示すブロック図である。 MFCC通常発声認識処理部の詳細な構成を示すブロック図である。 MFCC言直し発話認識処理部の詳細な構成を示すブロック図である。 MFCC女声通常発声デコーダ部356及び女声通常発声用適応化MFCC・HMM群352の詳細な構成を示すブロック図である。 本実施の形態における入力音声の発話環境から、予め準備された雑音HMMの発話環境までの距離を概念的に説明するための図である。 入力音声の発話環境に類似した雑音を含む雑音HMMから適応化HMMを合成する概念を示す図である。 言直し発話に頑健な音響モデルの構成を示す図である。 仮説統合部の詳細な構成を示すブロック図である。 仮説統合の経過を説明するための、二つの仮説を示す図である。 仮説統合の過程で生成される単語ラティスを示す図である。 GWPPによる仮説統合の際に行なわれる、最も高いGWPPを示す単語列の探索を説明するための図である。 図19に示す仮説統合部を実現するためのコンピュータプログラムのフローチャートである。 本発明の一実施の形態に係る音声認識装置130を実現するコンピュータシステムの外観図である。 図24に示すコンピュータのブロック図である。 本発明の一実施の形態に係る音声認識システムの動作を説明するための図である。 発話ごとの音声認識に用いられる雑音の位置を説明するための図である。 PMC法の概念を説明するための図である。
符号の説明
130 音声認識システム
142 認識処理部
146 音声認識結果
154 HMM作成部
156 雑音重畳音声用MFCC・HMM群
158 雑音重畳音声用DMFCC・HMM群
190 無雑音通常発声用MFCC・HMM
192 無雑音言直し発話用MFCC・HMM
210 男声通常発声用MFCC・HMM群
212 男声言直し発話用MFCC・HMM群
214 女声通常発声用MFCC・HMM群
216 女声言直し発話用MFCC・HMM群
230 無雑音通常発声用DMFCC・HMM
232 無雑音言直し発話用DMFCC・HMM
250 男声通常発声用DMFCC・HMM群
252 男声言直し発話用DMFCC・HMM群
254 女声通常発声用DMFCC・HMM群
256 女声言直し発話用DMFCC・HMM群
310 MFCC処理部
312 DMFCC処理部
314 仮説統合部
320 MFCC算出部
322 MFCC通常発声認識処理部
324 MFCC言直し発話認識処理部
326,336 最尤選択部
330 DMFCC算出部
332 DMFCC通常発声認識処理部
334 DMFCC言直し発話認識処理部
350 雑音適応化処理部
356 MFCC女声通常発声デコーダ部
358 MFCC男声通常発声デコーダ部
370 雑音適応化処理部
376 MFCC女声言直し発話デコーダ部
378 MFCC男声言直し発話デコーダ部
452 仮説更新部
454 対象単語検索部
456 GWPP算出部
458 ウェイト記憶部
460 言語モデル記憶部
462 単語ラティス作成部
464 単語ラティス記憶部
466 最高スコア経路探索部
480 単語ラティス

Claims (4)

  1. それぞれ異なる発話環境での発話音声のデコードに最適化された、それぞれ所定の音響特徴量をパラメータとする複数の音響モデル群を記憶するための記憶手段と、
    入力される音声から前記所定の音響特徴量を算出するための特徴量算出手段と、
    前記特徴量算出手段により算出される前記音響特徴量に基づいて、それぞれ前記複数の音響モデル群の混合重み適応化により、前記入力される音声の発話環境に適応化された複数の適応化音響モデルを作成するためのモデル適応化手段と、
    前記複数の適応化音響モデルを用いて、前記入力される音声の前記所定の音響特徴量を音声認識を目的にデコードし音声認識結果の複数の仮説を出力するためのデコード手段と、
    前記デコード手段が出力する前記複数の仮説を、前記複数の仮説内の各単語に対して算出される一般化単語事後確率に基づいて統合し出力するための仮説統合手段とを含み、
    前記仮説統合手段は、
    前記デコード手段が出力する前記複数の仮説の各々に対し、各単語の一般化単語事後確率の関数であるスコアを算出するためのスコア算出手段と、
    前記複数の仮説から、各単語にスコアが付された単語ラティスを作成するためのラティス作成手段と、
    前記単語ラティス内の始点から終点までの経路のうち、当該経路上の単語の各々に対し算出された前記スコアが所定の条件を充足する経路の上の単語列を前記音声認識結果として出力するための最適経路探索手段とを含み、
    前記仮説の各々の各単語には、入力音声中における当該単語の持続時間を特定するための情報が付されており、
    前記スコア算出手段は、
    前記デコード手段が出力する前記複数の仮説の各々に対し、各単語の一般化単語事後確率を算出するための一般化単語事後確率算出手段と、
    前記一般化単語事後確率算出手段により算出された一般化単語事後確率と、前記単語ラティス中の各単語の持続時間を特定するための情報との関数として前記スコアを各単語に対し算出するための関数計算手段とを含む、音声認識システム。
  2. 前記最適経路探索手段は、前記単語ラティス内の始点から終点までの経路のうち、当該経路上の単語の各々に対し算出された前記スコアの和が最大となる経路の上の単語列を前記音声認識結果として出力するための最大スコア経路探索手段を含む、請求項に記載の音声認識システム。
  3. 前記関数計算手段は、以下の式により前記スコアを各単語に対して算出するための手段を含む、請求項又は請求項に記載の音声認識システム。
    Figure 0004836076
    ただし、Anはある仮説中のn番目の単語の前記スコア、Tnは入力音声中の当該単語の持続時間、Cnは当該単語に対して前記一般化単語事後確率算出手段により算出された一般化単語事後確率を、それぞれ示す。
  4. コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項のいずれかに記載の音声認識システムとして動作させる、コンピュータプログラム。
JP2006047385A 2006-02-23 2006-02-23 音声認識システム及びコンピュータプログラム Active JP4836076B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006047385A JP4836076B2 (ja) 2006-02-23 2006-02-23 音声認識システム及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006047385A JP4836076B2 (ja) 2006-02-23 2006-02-23 音声認識システム及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2007225931A JP2007225931A (ja) 2007-09-06
JP4836076B2 true JP4836076B2 (ja) 2011-12-14

Family

ID=38547813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006047385A Active JP4836076B2 (ja) 2006-02-23 2006-02-23 音声認識システム及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4836076B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11100916B2 (en) 2018-11-21 2021-08-24 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5334142B2 (ja) * 2009-07-21 2013-11-06 独立行政法人産業技術総合研究所 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法
WO2012093451A1 (ja) * 2011-01-07 2012-07-12 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
US9530103B2 (en) * 2013-04-04 2016-12-27 Cypress Semiconductor Corporation Combining of results from multiple decoders
JP2018013590A (ja) 2016-07-20 2018-01-25 株式会社東芝 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ
JP6995967B2 (ja) * 2020-12-08 2022-01-17 株式会社東芝 生成装置、認識システム、および、有限状態トランスデューサの生成方法
CN113707137B (zh) * 2021-08-30 2024-02-20 普强时代(珠海横琴)信息技术有限公司 解码实现方法及装置
CN114435185B (zh) * 2021-12-28 2023-08-01 深圳云天励飞技术股份有限公司 新能源汽车电量控制方法及相关设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4239479B2 (ja) * 2002-05-23 2009-03-18 日本電気株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
JP4478925B2 (ja) * 2003-12-01 2010-06-09 株式会社国際電気通信基礎技術研究所 音声認識結果の信頼度検証装置、コンピュータプログラム、及びコンピュータ
JP4274962B2 (ja) * 2004-02-04 2009-06-10 株式会社国際電気通信基礎技術研究所 音声認識システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11100916B2 (en) 2018-11-21 2021-08-24 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11935516B2 (en) 2018-11-21 2024-03-19 Samsung Electronics Co., Ltd. Speech recognition method and appratus using weighted scores

Also Published As

Publication number Publication date
JP2007225931A (ja) 2007-09-06

Similar Documents

Publication Publication Date Title
JP4274962B2 (ja) 音声認識システム
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
Zen et al. Hidden semi-Markov model based speech synthesis.
US6317712B1 (en) Method of phonetic modeling using acoustic decision tree
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
Zeppenfeld et al. Recognition of conversational telephone speech using the Janus speech engine
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
Gaurav et al. Development of application specific continuous speech recognition system in Hindi
JP2001521193A (ja) パラメータ共用音声認識方法及び装置
Oh et al. Acoustic model adaptation based on pronunciation variability analysis for non-native speech recognition
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
Liu et al. Modeling partial pronunciation variations for spontaneous Mandarin speech recognition
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
Matsuda et al. Speech recognition system robust to noise and speaking styles.
Fung et al. Effects and modeling of phonetic and acoustic confusions in accented speech
Yamagishi et al. Improved average-voice-based speech synthesis using gender-mixed modeling and a parameter generation algorithm considering GV
Elshafei et al. Speaker-independent natural Arabic speech recognition system
Matsuda et al. ATR parallel decoding based speech recognition system robust to noise and speaking styles
Huang et al. Speech-Based Interface for Visually Impaired Users
Khalifa et al. Statistical modeling for speech recognition
Yao et al. Overlapped di-tone modeling for tone recognition in continuous Cantonese speech
Gabriel Automatic speech recognition in somali

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110920

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4836076

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250