JP2006201265A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2006201265A JP2006201265A JP2005010392A JP2005010392A JP2006201265A JP 2006201265 A JP2006201265 A JP 2006201265A JP 2005010392 A JP2005010392 A JP 2005010392A JP 2005010392 A JP2005010392 A JP 2005010392A JP 2006201265 A JP2006201265 A JP 2006201265A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- state
- likelihood
- covariance matrix
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 音響モデルを格納するメモリ容量及び認識時の計算量を削減でき、かつ学習データ量が対角共分散行列を用いる場合と同程度でも環境の変化に頑健で高精度に認識することができる音声認識装置を提供すること。
【解決手段】 音響モデル格納部12に、音響モデルの各状態をカテゴリー分けした各カテゴリー毎に共通の全共分散行列の逆行列Wck -1と、音響尤度Diを求める式Di=Xt Wck -1X+Ai t X+Biの各状態毎のAi及びBiとを格納しておき、特徴量算出部11が未知入力音声のフレームを音響分析して求めた特徴パラメータXに対し、音響尤度計算部14で、認識辞書13に格納されている全ての単語を構成する状態における音響尤度Diを上式で計算し、計算した音響尤度Diに基づいて各状態におけるフレームの累積尤度を求め、認識結果出力部15で、終端フレームの単語終端状態における累積尤度が最高の単語を認識結果とする。
【選択図】 図1
【解決手段】 音響モデル格納部12に、音響モデルの各状態をカテゴリー分けした各カテゴリー毎に共通の全共分散行列の逆行列Wck -1と、音響尤度Diを求める式Di=Xt Wck -1X+Ai t X+Biの各状態毎のAi及びBiとを格納しておき、特徴量算出部11が未知入力音声のフレームを音響分析して求めた特徴パラメータXに対し、音響尤度計算部14で、認識辞書13に格納されている全ての単語を構成する状態における音響尤度Diを上式で計算し、計算した音響尤度Diに基づいて各状態におけるフレームの累積尤度を求め、認識結果出力部15で、終端フレームの単語終端状態における累積尤度が最高の単語を認識結果とする。
【選択図】 図1
Description
本発明は、音声認識装置に関し、特に隠れマルコフモデルを用いた音声認識装置に関するものである。
従来、音声認識のための音響モデルとして、音響的特徴を確率的にモデル化した隠れマルコフモデル(HMM:Hidden Markov Model)などが用いられている。
通常は、学習データ量や計算量が多くならないように、共分散行列の対角項以外の要素を0とし、対角項のみを残した共分散行列(以下、対角共分散行列と呼ぶ)を用いた混合ガウス分布HMMを用いることが多い。
しかしながら、対角共分散行列を用いる場合、特徴パラメータ間の相関を無視することになるため、識別性能がそれほど良くならない。
共分散行列の対角項のみを用いるのではなく、共分散行列の全要素を用いる(以下、全共分散行列と呼ぶ)方が認識性能が良いことは一般に知られている(例えば、非特許文献1参照)。
山本一公、中川聖一、「セグメント単位入力の混合分布型HMMの評価」、日本音響学会平成8年秋季研究発表会講演論文2−3−1、平成8年9月
しかしながら、全共分散行列を用いる場合、学習に使用する音声データの量、音響モデルを格納しておくメモリ容量、及び認識時の計算量が膨大になるという課題を有している。
また、学習データ量が充分でないと、学習時と認識時の環境が異なる場合に、認識性能が大きく劣化してしまうという問題が発生してしまう。
本発明は、かかる点に鑑みなされたものであり、音響モデルを格納するメモリ容量及び認識時の計算量を削減でき、かつ学習データ量が対角共分散行列を用いる場合と同程度でも環境の変化に頑健で高精度に認識することができる音声認識装置を提供することを目的とする。
本発明の音声認識装置は、全体でM個の状態を持つ隠れマルコフモデルで表現される音響モデルを用いた音声認識装置において、前記状態をK個のカテゴリーに分け、前記カテゴリー毎に共通の全共分散行列Wck(k=1,2,…,K)を定め、前記カテゴリー毎の全共分散行列Wckと前記状態毎の−2μi t Wck -1,μi t Wck -1μi(μi(i=1,2,…,M)は状態Siの平均値ベクトル)及び属する前記カテゴリーとを格納する音響モデル格納手段と、未知入力音声をフレーム毎に音響分析して特徴パラメータを算出する特徴量算出手段と、認識対象語彙を登録しておく認識辞書と、前記特徴パラメータの前記各状態における音響尤度Diを前記音響モデル格納手段を参照して式Di=Xt Wck -1X−2μi t Wck -1X+μi t Wck -1μiにより計算する音響尤度計算手段とを備える構成を有している。
この構成により、全ての状態の分だけ全共分散行列を記憶しておかなくてもよく、音響尤度Diの計算においては、全共分散行列のみに関する項はカテゴリー分だけ計算すればよいこととなる。
ここで、前記カテゴリーとして、音素群が同じで前記隠れマルコフモデルの状態位置が同じものを同じカテゴリーとする構成とした。
この構成により、認識性能を低下させずに全共分散行列を共通化することができる。
また、前記状態毎の−2μi t Wck -1の要素のうち、絶対値の大きいものから設定された数分の要素を選択し、選択された要素と要素番号のみを前記音響モデル格納手段に格納しておき、音響尤度計算手段は、前記選択された要素のみを使って計算を行う構成とした。
この構成により、計算量を削減することができる。
また、本発明のプログラムは、全体でM個の状態を持つ隠れマルコフモデルで表現される音響モデルを用いた音声認識プログラムであって、コンピュータを、前記状態をK個のカテゴリーに分けたカテゴリー毎に共通の全共分散行列Wck(k=1,2,…,K)と前記状態毎の−2μi t Wck -1,μi t Wck -1μi(μi(i=1,2,…,M)は状態Siの平均値ベクトル)及び属する前記カテゴリーとを格納する音響モデル格納手段、未知入力音声をフレーム毎に音響分析して特徴パラメータを算出する特徴量算出手段、認識対象語彙を登録しておく認識辞書、前記特徴パラメータの前記各状態における音響尤度Diを前記音響モデル格納手段を参照して式Di=Xt Wck -1X−2μi t Wck -1X+μi t Wck -1μiにより計算する音響尤度計算手段、として機能させる構成を有している。
この構成により、全ての状態の分だけ全共分散行列を記憶しておかなくてもよく、音響尤度Diの計算においては、全共分散行列のみに関する項はカテゴリー分だけ計算すればよいこととなる。
本発明によれば、音響モデルの各状態をカテゴリー分けし、各カテゴリーで全共分散行列を共通化し、音響尤度を求めるとき平均値ベクトルの項と全共分散行列の項とに分けて計算しているので、使用するメモリ容量及び計算量を削減することができるとともに、認識性能を向上させることができ、さまざまな小型機器でも音声認識機能を実現することができる。
以下、本発明の実施の形態について、図面を参照して説明する。
図1は本発明の一実施の形態の音声認識装置を示す図である。
図1において、本実施の形態の音声認識装置は、入力された未知入力音声を音響分析の時間単位であるフレーム(例えば、10ms)毎に音響分析し認識に必要な特徴パラメータを算出する特徴量算出部11と、音素や音節などサブワード毎の音響的特徴を統計的にモデル化した音響モデルを予め格納しておく音響モデル格納部12と、音声認識装置で受理できる単語もしくは単語列を記述した辞書を格納しておく認識辞書13と、特徴量算出部11が算出した特徴パラメータに基づき音響モデル格納部12の音響モデル及び認識辞書13を照合して音響尤度を計算する音響尤度計算部14と、音響尤度計算部14が計算した音響尤度が最高となる単語もしくは単語列を認識結果として出力する認識結果出力部15とを備えている。
本実施の形態では、図2に示すように、音素毎に3状態3ループを持つHMMを音響モデルとする。ここでは、簡単のために、各状態の出力確率分布を単一ガウス分布とするが、混合ガウス分布でもかまわない。
このHMMでは、M個の状態Si(i=1,2,……,M)があり、各状態は、それぞれ固有の、特徴パラメータベクトルの平均値ベクトルμi(i=1,2,……,M)を持つ。
本実施の形態においては、全状態をK個のカテゴリーk(k=1,2,……,K)に分類し、全共分散行列をカテゴリー毎に共通化している。なお、平均値ベクトルは共通化せずに状態毎に持つようにしている。
共通化する方法としては、予め別々に学習して求めた全共分散行列の要素を同じカテゴリー内で平均する方法や、最初から全共分散行列を結び(tied)としてHMMを学習する方法などがある。
カテゴリーの分類の仕方は、図2に示すように、同じ音素群(/k/と/t/または/m/と/n/)であって同じ状態位置であるものを同じカテゴリーとする。音素群は、無声破裂音群(/p/,/t/,/k/,/c/)、有声破裂音群(/b/,/d/,/g/,/r/,/z/)、無声摩擦音群(/s/,/h/,/f/)、鼻音群(/m/,/n/)とする。なお、この他に、音素環境毎に自動クラスタリングする方法や、音声学的知見に基づいて似通った特徴を持つ状態をカテゴライズする方法などが考えられる。
このように音響的特徴の似通った音素間では、状態位置が同じであれば、スペクトルの平均値ベクトルは異なっていても、その全共分散行列はほぼ同じであり、本件発明者の実験により、全共分散行列を共通化しても認識性能が劣化しないことが確認されている。
一般に、前後の音素環境を考慮した音素モデル(triphone)の場合、全ての音素環境をカバーする学習データを用意することは困難であるため、状態クラスタリングによって状態間の分布共有が行われることが多いが、このようないくつかの状態で共有化された分布に対しても、同様に全共分散行列を共通化することが可能である。
また、N個のガウス分布の重み付き和で表される混合分布において、平均値ベクトルはN個それぞれ固有のベクトルを持ち、全共分散行列のみ1つまたはいくつかに共通化することも可能である。
次に、音響尤度計算部14における音響尤度計算方法について説明する。
特徴量算出部11で算出された特徴パラメータベクトルをX、状態Siの平均値ベクトルをμi、全共分散行列をWiとすると、入力Xの状態Siにおける出力確率P(X,μi,Wi)は式1で与えられる。
全共分散行列の行列式|Wi|は予め求めておくことができるため、認識時に必要な計算は音響尤度Diを求めることである。
音響尤度Diは、入力ベクトルXから平均値ベクトルμiを引いたベクトルをViとすると、式2のようになり、これには(n!+n)回の積和演算が必要である(詳しくは後述する)。したがって、全状態に対してこの演算を行うとM(n!+n)回の積和演算が必要となる。
Di=Vi t Wi -1Vi (ただし、Vi=X−μi) (式2)
Di=Vi t Wi -1Vi (ただし、Vi=X−μi) (式2)
本実施の形態においては、全共分散行列Wiをカテゴリー毎に共通化し、一つのカテゴリー内では同じ全共分散行列を用いる。すなわち、M個の全共分散行列をK個のカテゴリーに分け、K個の全共分散行列のみを用いる。
共通化後のカテゴリーk(k=1,2,……,K)に対する全共分散行列をWck(k=1,2,……,K)とすると、Diは式3のようになる。
Di=(X−μi)t Wck -1(X−μi) (式3)
Di=(X−μi)t Wck -1(X−μi) (式3)
これをそのまま計算すると平均値ベクトルの種類数分だけ計算が必要となってしまう。そこで、平均値ベクトルの項と全共分散行列の項とに分けるため、式4のように展開する。
Di=Xt Wck -1X−2μi t Wck -1X+μi t Wck -1μi (式4)
Di=Xt Wck -1X−2μi t Wck -1X+μi t Wck -1μi (式4)
そして、Ai、Biを式5のようにすると、
Ai t=−2μi t Wck -1 , Bi=μi t Wck -1μi (式5)
Diは式6のようになる。
Di=Xt Wck -1X+Ai t X+Bi (式6)
Ai t=−2μi t Wck -1 , Bi=μi t Wck -1μi (式5)
Diは式6のようになる。
Di=Xt Wck -1X+Ai t X+Bi (式6)
ここで、Aiはn次元ベクトル、Biはスカラー量であるので、予め求めておくことができる。したがって、式6の第2項はn次元の内積となり、状態Si(i=1,2,……,M)毎にn回の積和演算回数となる。
次に、式6の第1項について考えてみる。第1項は入力ベクトルXについて、全状態に対してではなく、全カテゴリーk(k=1,2,……,K)に対してのみ求めればよい。
全共分散行列Wckの逆行列Wck -1と入力ベクトルXの転置行列Xtを式7のようであるとする。
すると、全共分散行列Wckは対称行列であるため全共分散行列Wckの逆行列Wck -1も対称行列となり、wij=wjiが成り立つ。よって、式6の第1項は式8のようになる。
XtWck -1X=x1(x1w11+2x2w21+2x3w31+……+2xnwn1)
+x2(x2w22+2x3w32+……+2xnwn2)
……
+xnxnwnn (式8)
XtWck -1X=x1(x1w11+2x2w21+2x3w31+……+2xnwn1)
+x2(x2w22+2x3w32+……+2xnwn2)
……
+xnxnwnn (式8)
さらに、2wijは予め計算しておけばよいので、2wij=w'ijとすれば式9のようになり、カテゴリー毎に(n!+n)回の積和演算で計算できるようになる。これは式2と同じ形であるが、式2は状態毎に計算しなくてはならない点が異なる。
XtWck -1X=x1(x1w11+x2w'21+x3w'31+……+xnw'n1)
+x2(x2w22+x3w'32+……+xnw'n2)
……
+xnxnwnn (式9)
XtWck -1X=x1(x1w11+x2w'21+x3w'31+……+xnw'n1)
+x2(x2w22+x3w'32+……+xnw'n2)
……
+xnxnwnn (式9)
したがって、本実施の形態での入力1フレームにおける全状態に対する音響尤度計算は、(K(n!+n)+Mn)回の積和演算回数となる。
実質的なパラメータの値を考えると、例えば、ベクトル次元数n=12、総状態数M=3000、総カテゴリー数K=300のとき、式6により全状態について音響尤度を求めるために必要な積和演算回数は63000回となる。
これに対し、全共分散行列を共通化しない場合は、式2によりM(n!+n)回、すなわち270000回の積和演算が必要となる。
したがって、式6を用いれば、3000個の全共分散行列を300個に共通化することによって、認識時の積和演算回数を従来の23%にまで削減することができる。なお、全共分散行列を共通化しない場合(K=M)は、式6よりも式2の方が演算回数が少ないため、式6を用いる必要はない。
さらに、式6において、第2項はAiとXの内積であるため、Aiの要素のうち0に近い値の要素は内積値にほとんど寄与しない。よって、予めAiの要素のうち絶対値の大きいものを上位P個選択しておき、認識時にはそのP個の要素についてのみ内積を計算するようにすれば、さらに計算量を削減することができる。その場合は、どの要素を選択したのかという要素番号を表すインデックスも音響モデル格納部12に格納しておく必要がある。
次に、音響モデル格納部12に格納されるデータについて説明する。
音響モデル格納部12には、図3に示すように、状態Si(i=1,2,……,M)毎に式5で示されるn次元ベクトルAiとスカラー量Bi及び各状態が属するカテゴリーのカテゴリー番号が格納されており、さらにカテゴリーk(k=1,2,……,K)毎に全共分散行列の逆行列Wck -1が格納されている。全共分散行列の逆行列Wck -1はn×n次元の行列であるが、全共分散行列の逆行列Wck -1は対称行列であるため、実際に必要なパラメータ数はn!個である。
したがって、各データを2Byteで表すとすれば、本実施の形態ではカテゴリー番号を示すインデックスを含め、音響モデルを格納しておくのに必要なメモリ容量は(M(n+2)+Kn!)×2Byteである。
これに対し、全共分散行列を共通化せずに状態毎に平均値ベクトルと全共分散行列を持つ場合には、音響モデルを格納しておくのに必要なメモリ容量はM(n+n!)×2Byteとなり、対角共分散行列を用い対角共分散行列を共通化せずに状態毎に平均値ベクトルと対角共分散行列を持つ場合には、音響モデルを格納しておくのに必要なメモリ容量は2Mn×2Byteとなる。
例えば、ベクトル次元数n=12、総状態数M=3000、総カテゴリー数K=300のときは、本実施の形態では406KByte、共通化なしの全共分散行列では、1738KByte、共通化無しの対角共分散行列では460KByteとなり、対角共分散行列を用いた場合よりも少ない容量でよい。
また、HMMの学習において、状態毎に全共分散行列を学習しようとすると、1状態あたりの学習データ量が充分得られないために学習ができない場合があるが、同じカテゴリーの状態間で全共分散行列を結び(tied)の条件で学習することにより、推定パラメータ数が少なくなり、少ない学習データ量でも全共分散行列を安定に推定することができるようになる。
また、全共分散行列を共通化することにより、対角共分散行列と同程度の学習データ量で、学習時の環境とは異なるノイズ環境下においても、認識性能の劣化が少ないことが本件発明者の評価実験により分かっている。
次に、本実施の形態の音声認識装置の動作について図4のフローチャートを用いて説明する。
まず、特徴量算出部11が、未知入力音声を音響分析の時間単位であるフレーム毎に音響分析し、特徴パラメータXを算出する(S11)。
次いで、音響尤度計算部14が、認識辞書13に格納されている認識対象である単語を1つずつ読み出し、単語を構成する音素のHMMの各状態を繋げて単語のHMMを構成する(S12)。例えば、「あさひ」という単語の場合、図5に示すように、/a/,/s/,/a/,/h/,/i/の音素HMMを繋げて構成する。
そして、音響尤度計算部14は、構成したHMMの各状態に対して、特徴パラメータXの各状態における音響尤度Diを、音響モデル格納部12に格納されている音響モデルを参照しながら式6により計算する(S13)。なおこのとき、計算した音響尤度Diは、状態Si毎に特徴パラメータXに関する処理が全て(全ての単語の状態について)終了するまで記憶しておき、既に音響尤度Diが計算された状態Siが出てきた場合は、再度計算せずに記憶されている音響尤度Diを使用するようにする。
そして、音響尤度計算部14は、算出した各状態の音響尤度Diを各状態での前フレームまでの累積尤度に加算し、各状態での現フレームの累積尤度を求める(S14)。
そして、全ての状態に対して処理が終了したかを判定し(S15)、処理が終了していなければS13に戻って、音響尤度の計算と累積尤度の計算の処理を繰り返す。
1単語の全ての状態に対して音響尤度の計算と累積尤度の計算の処理が終了したら、認識辞書13の全ての単語について処理が終了したかを判定し(S16)、処理が終了していなければS12に戻って、次の単語を読み出し、以降の処理を繰り返す。
認識辞書の全ての単語に対して各状態の音響尤度の計算と累積尤度の計算の処理が終了したら、未知入力音声の終端フレームまで処理が終了したかを判定し(S17)、処理が終了していなければS11に戻って、次フレームの特徴パラメータベクトルXを算出し、以降の処理を繰り返す。
未知入力音声の終端フレームまで処理が終了したら、認識結果出力部15が、各単語の終端状態の終端フレームの累積尤度が最高となる単語を認識結果として出力する(S18)。
このように本実施の形態においては、音響モデルの各状態をカテゴリー分けし、各カテゴリーで全共分散行列を共通化し、共通化した全共分散行列のみ音響モデル格納部12に格納しているので、使用するメモリ容量を削減することができる。
また、全共分散行列を共通化しているので、学習時の推定パラメータが少なくなるために、学習データ量が対角共分散行列を用いる場合と同程度でも頑健な音響モデルを学習することができ、認識性能を向上させることができる。
また、式2のような音響尤度Diを、式6のように平均値ベクトルの項と全共分散行列の項とに分け、式6のAi、Biを予め計算して音響モデル格納部12に格納しておいて、特徴パラメータベクトルXの状態Siにおける音響尤度Diを求めているので、計算量を削減することができる。
以上のように、本発明にかかる音声認識装置は、少ないメモリ容量及び計算量で頑健な音声認識を実現することができるという効果を有し、さまざまな機器のインターフェース等として有用である。
11 特徴量算出部
12 音響モデル格納部
13 認識辞書
14 音響尤度計算部
15 認識結果出力部
12 音響モデル格納部
13 認識辞書
14 音響尤度計算部
15 認識結果出力部
Claims (4)
- 全体でM個の状態を持つ隠れマルコフモデルで表現される音響モデルを用いた音声認識装置において、前記状態をK個のカテゴリーに分け、前記カテゴリー毎に共通の全共分散行列Wck(k=1,2,…,K)を定め、
前記カテゴリー毎の全共分散行列Wckと前記状態毎の−2μi t Wck -1,μi t Wck -1μi(μi(i=1,2,…,M)は状態Siの平均値ベクトル)及び属する前記カテゴリーとを格納する音響モデル格納手段と、未知入力音声をフレーム毎に音響分析して特徴パラメータを算出する特徴量算出手段と、認識対象語彙を登録しておく認識辞書と、前記特徴パラメータの前記各状態における音響尤度Diを前記音響モデル格納手段を参照して式
Di=Xt Wck -1X−2μi t Wck -1X+μi t Wck -1μi
により計算する音響尤度計算手段とを備えることを特徴とする音声認識装置。 - 前記カテゴリーとして、音素群が同じで前記隠れマルコフモデルの状態位置が同じものを同じカテゴリーとすることを特徴とする請求項1記載の音声認識装置。
- 前記状態毎の−2μi t Wck -1の要素のうち、絶対値の大きいものから設定された数分の要素を選択し、選択された要素と要素番号のみを前記音響モデル格納手段に格納しておき、音響尤度計算手段は、前記選択された要素のみを使って計算を行うことを特徴とする請求項1または2記載の音声認識装置。
- 全体でM個の状態を持つ隠れマルコフモデルで表現される音響モデルを用いた音声認識プログラムであって、
コンピュータを、前記状態をK個のカテゴリーに分けたカテゴリー毎に共通の全共分散行列Wck(k=1,2,…,K)と前記状態毎の−2μi t Wck -1,μi t Wck -1μi(μi(i=1,2,…,M)は状態Siの平均値ベクトル)及び属する前記カテゴリーとを格納する音響モデル格納手段、未知入力音声をフレーム毎に音響分析して特徴パラメータを算出する特徴量算出手段、認識対象語彙を登録しておく認識辞書、前記特徴パラメータの前記各状態における音響尤度Diを前記音響モデル格納手段を参照して式
Di=Xt Wck -1X−2μi t Wck -1X+μi t Wck -1μi
により計算する音響尤度計算手段、として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005010392A JP2006201265A (ja) | 2005-01-18 | 2005-01-18 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005010392A JP2006201265A (ja) | 2005-01-18 | 2005-01-18 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006201265A true JP2006201265A (ja) | 2006-08-03 |
Family
ID=36959353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005010392A Pending JP2006201265A (ja) | 2005-01-18 | 2005-01-18 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006201265A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009086202A (ja) * | 2007-09-28 | 2009-04-23 | Kddi Corp | 音声認識における音響尤度並列計算装置及びそのプログラム |
JP2013205807A (ja) * | 2012-03-29 | 2013-10-07 | Toshiba Corp | モデル学習装置、モデル製造方法、及びプログラム |
JP2014052450A (ja) * | 2012-09-06 | 2014-03-20 | Toshiba Corp | モデル学習装置、モデル作成方法及びモデル作成プログラム |
CN112002306A (zh) * | 2020-08-26 | 2020-11-27 | 阳光保险集团股份有限公司 | 语音类别的识别方法、装置、电子设备及可读存储介质 |
US11568303B2 (en) | 2018-04-10 | 2023-01-31 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
-
2005
- 2005-01-18 JP JP2005010392A patent/JP2006201265A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009086202A (ja) * | 2007-09-28 | 2009-04-23 | Kddi Corp | 音声認識における音響尤度並列計算装置及びそのプログラム |
JP2013205807A (ja) * | 2012-03-29 | 2013-10-07 | Toshiba Corp | モデル学習装置、モデル製造方法、及びプログラム |
JP2014052450A (ja) * | 2012-09-06 | 2014-03-20 | Toshiba Corp | モデル学習装置、モデル作成方法及びモデル作成プログラム |
US11568303B2 (en) | 2018-04-10 | 2023-01-31 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
CN112002306A (zh) * | 2020-08-26 | 2020-11-27 | 阳光保险集团股份有限公司 | 语音类别的识别方法、装置、电子设备及可读存储介质 |
CN112002306B (zh) * | 2020-08-26 | 2024-04-05 | 阳光保险集团股份有限公司 | 语音类别的识别方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
JP4141495B2 (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
JP5059115B2 (ja) | 音声キーワードの特定方法、装置及び音声識別システム | |
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
JP5240457B2 (ja) | 拡張認識辞書学習装置と音声認識システム | |
KR101120765B1 (ko) | 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법 | |
JP5177561B2 (ja) | 認識器重み学習装置および音声認識装置、ならびに、システム | |
JP2006510933A (ja) | センサ・ベース音声認識装置の選択、適応、および組合せ | |
WO2008001485A1 (fr) | système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue | |
Ghai et al. | Using gaussian mixtures on triphone acoustic modelling-based punjabi continuous speech recognition | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
CN113674733A (zh) | 用于说话时间估计的方法和设备 | |
JP2006201265A (ja) | 音声認識装置 | |
Bhati et al. | Unsupervised segmentation of speech signals using kernel-gram matrices | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
Manjunath et al. | Articulatory and excitation source features for speech recognition in read, extempore and conversation modes | |
JP4716125B2 (ja) | 発音評定装置、およびプログラム | |
EP3719797B1 (en) | Method and apparatus for speech recognition | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
JP5161174B2 (ja) | 経路探索装置、音声認識装置、これらの方法及びプログラム | |
Verhasselt et al. | Assessing the importance of the segmentation probability in segment-based speech recognition | |
KR101037801B1 (ko) | 부단위 인식을 이용한 핵심어 검출 방법 | |
JP2734828B2 (ja) | 確率演算装置及び確率演算方法 | |
Naaman et al. | Learning Similarity Functions for Pronunciation Variations |