JP4410265B2 - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法 Download PDF

Info

Publication number
JP4410265B2
JP4410265B2 JP2007038657A JP2007038657A JP4410265B2 JP 4410265 B2 JP4410265 B2 JP 4410265B2 JP 2007038657 A JP2007038657 A JP 2007038657A JP 2007038657 A JP2007038657 A JP 2007038657A JP 4410265 B2 JP4410265 B2 JP 4410265B2
Authority
JP
Japan
Prior art keywords
likelihood
shared
input speech
model
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007038657A
Other languages
English (en)
Other versions
JP2008203469A (ja
Inventor
浩司 藤村
貴史 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007038657A priority Critical patent/JP4410265B2/ja
Priority to US11/857,104 priority patent/US7921012B2/en
Publication of JP2008203469A publication Critical patent/JP2008203469A/ja
Application granted granted Critical
Publication of JP4410265B2 publication Critical patent/JP4410265B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Description

本発明は、2パス方式で音声認識処理を行う音声認識装置及び方法に関する。
音声認識処理では、一般に音響モデルを用いて入力音声の認識を行う。特許文献1には、複数の音響モデルから入力音声に適したモデルを選択して認識を行う手法が開示されている。また、従来の音声認識処理の例として、1パス目で話者及び環境に依存しない音響モデルを用いて認識を行い、2パス目で特定の話者または環境に依存する音響モデルを用いて認識を行い、認識結果を得る2パス方式が知られている。
さらに、特許文献1に記載された手法を2パス方式に組合せ、1パス目の認識と並行して入力音声に適したモデルを複数の音響モデルから選択し、2パス目で、選択されたモデルを用いて認識を行い、認識結果を得る手法も提案されている(例えば、特許文献2参照)。
特開2004−117624号公報 特許第3176210号公報
特許文献2に記載された手法では、2パス目に用いる音響モデルを選択するために必要とされるメモリ使用量と計算量が多くなるという問題がある。
本発明は、音響モデルを選択するために必要とされるメモリ使用量と計算量を軽減可能な音声認識装置及び方法を提供することを目的とする。
本発明の一態様に係る音声認識装置は、話者及び環境に対して一定の第1音響モデルを記憶する第1の記憶部と;特定の話者及び環境の少なくとも一方に依存して変化する複数の第2音響モデルを記憶する第2の記憶部と;前記第2音響モデルを複数グループに分類するための、前記第1音響モデルと共有のパラメータ及び非共有のパラメータを有する分類モデルを記憶する第3の記憶部と;入力音声に対する第1尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第1尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第1音響モデルを用いて音声認識を行う第1の認識部と;前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第2尤度を算出する計算部と;前記第2尤度が最大のグループを選択する選択部と;前記入力音声に対する前記複数の単語候補の第3尤度を計算し、該第3尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第2音響モデルを用いて音声認識を行う第2の認識部と;を具備する。
本発明の別の態様に係る音声認識装置は、話者及び環境に対して一定の第1音響モデルを記憶する第1の記憶部と;特定の話者及び環境の少なくとも一方に依存して変化する複数の第2音響モデルを記憶する第2の記憶部と;複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、前記第1音響モデルと共有のパラメータとして、構造、遷移確率、及び全ての出力確率分布における平均ベクトル及び分散共分散ベクトルを有し、また、非共有のパラメータとして分布の重み係数を有し、前記第2音響モデルを複数グループに分類するための、分類モデルを記憶する第3の記憶部と;入力音声に対する第1尤度が相対的に大きい複数の単語候補及び前記入力音声に対する前記複数グループの第2尤度を得るために、入力音声に対して前記第1音響モデル及び前記分類モデルの非共有パラメータを用いて音声認識を行う第1の認識部と;前記第2尤度が最大のグループを選択する選択部と;前記入力音声に対する前記複数の単語候補の第3尤度を計算し、該計算した第3尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第2音響モデルを用いて音声認識を行う第2の認識部と;を具備する。
本発明では、2パス目に用いる音響モデルを選択するためのパラメータの一部を1パス目に用いる音響モデルと共有するようにしている。従って、2パス目に用いる音響モデルを選択するために必要とされるメモリ使用量及び計算量を軽減可能な音声認識装置及び方法を提供できる。
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1に示されるように、本実施形態に従う音声認識装置は、音声入力部101、特徴量抽出部102、第1の音声認識部103、グループ尤度計算部104、グループ選択部105、第2の音声認識部106、第1の音響モデル記憶部111、分類モデル記憶部112、上位候補記憶部116及び第2音響モデル記憶部117を有する。第1の音響モデル記憶部111は、第1音響モデルの非共有パラメータ記憶部113と共有パラメータ記憶部114を含む。分類モデル記憶部112は、共有パラメータ記憶部114及び分類モデルの非共有パラメータ記憶部115を含む。
音声入力部101は、音声を電気信号(音声信号)として取り出すマイクロホンと当該音声信号をデジタル化して音声データを生成するアナログ−デジタル変換器(ADC)を含み、当該音声データを特徴量抽出部102に与える。
特徴量抽出部102は、音声データの特徴量を抽出し、この特徴量を例えばメル周波数ケプストラム係数(Mel−frequency cepstrum coefficient;MFCC)または線形予測符号化(linear predictive coding;LPC)係数といった音声認識に適した特徴パラメータに変換して、第1の音声認識部103へ出力する。
第1の音響モデル記憶部111は、話者及び環境に対して一定の第1音響モデルを記憶する。第1音響モデルとしては、例えば図2に示すような複数の分布を重み付けして混合した混合分布を出力確率分布に持つ隠れマルコフモデル(hidden Markov model;HMM)が用いられる。HMMを用いる音声認識についての詳細は、例えば文献(中川聖一“確率モデルによる音声認識”、電子情報通信学会出版)に記載されている。
第1音響モデルとしてHMMを用いる場合、第1音響モデルのパラメータは例えばモデル構造、状態遷移確率、分布、及び分布に対して与える重み係数を含む。HMMを用いる音声認識では、最終的な尤度は遷移確率と出力確率を掛け合わせることで算出される。出力確率分布の例としては、以下のような混合正規分布モデル、例えばガウス混合モデル(Gaussian mixture model;GMM)f(O)を用いるが、これに限られるものではない。
Figure 0004410265
ここで、Wは混合数、λは重み係数、N(O)は正規分布、Oは観測ベクトル、Uは平均ベクトル、Σは分散共分散行列、Dは次元数をそれぞれ表す。
分類モデル記憶部112のうちの非共有パラメータ記憶部115は、分類モデルのパラメータのうち第1音響モデルと非共有のパラメータを記憶する。ここで、分類モデルは後述する第2音響モデルを図3に示すように所定の分類基準に従って複数のグループ(例えば、グループ1とグループ2)に分類するためのモデルであって、第1音響モデルと一部のパラメータを共有する。即ち、分類モデル記憶部112のうちの共有パラメータ記憶部114は第1音響モデルと分類モデルとの共有のパラメータを記憶し、非共有パラメータ記憶部115は、分類モデルのパラメータのうち第1音響モデルと非共有のパラメータを記憶する。
図3に示されるように、第2音響モデルを分類したグループは、あるグループに属する第2音響モデルが別のグループに属していてもよい。例えば、第2音響モデルが特定話者モデルである場合、分類基準は性別や年齢などに当たる。
分類モデルは、第1音響モデルが複数の分布を重み係数に従って重み付けして混合した混合分布を出力確率分布に持つHMMの場合、これと同様のHMMか、または出力確率分布のみで構成される。第1音響モデルと分類モデルが共にHMMの場合、第1音響モデルと分類モデルは例えば出力確率分布の重み係数λ以外のパラメータを共有している。このとき、出力確率分布が混合正規分布であれば、第1音響モデルと分類モデルは重み係数λ以外のパラメータである、平均ベクトルU、及び分散共分散行列Σを共有している。
第1音響モデル及び分類モデルのパラメータは、例えば文献(鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄“音声認識システム”、オーム社出版)等で示されているEMアルゴリズムを用いて求めることができる。具体的には、まず第1音響モデルの学習データを用いて第1音響モデルのパラメータを求め、次に共有パラメータを固定したまま分類モデルの学習データを用いて分類モデルの非共有パラメータを求める。第1音響モデル及び分類モデルが共に混合正規分布を出力確率分布に持つHMMであって、重み係数λ以外のパラメータを共有する場合は、例えば第1音響モデルのパラメータを求めて、共有パラメータを固定したまま分類モデルの学習データを用いて重み係数λのみの学習を行う。このようにして、モデル構造、遷移確率、平均ベクトルU及び分散共分散行列Σが等しく、重み係数λのみが異なる分類モデルをグループの数だけ作成する。
図4に示されるような、HMMの出力確率分布が4混合の混合正規分布で表される場合の分類モデルの求め方の一例について説明する。第1音響モデルの重み係数λwは図4中の分布左から0.25、0.25、0.25、0.25であるとする。この第1音響モデルに対して、グループ1に属する音声を用いて重み係数λwを更新すると、グループ1の重みが0.1、0.4、0.4、0.1のように求まる。また、グループ2に属する音声を用いて重み係数λwを更新すると、グループ2の重みが0.7、0.1、0.1、0.1のように求まる。このようにして重みλw以外のパラメータを第1音響モデルと共有する分類モデルを作成できる。尚、各パラメータの求め方は前述した方法に限られない。例えば、各パラメータを全て同時に求めてもよい。また、前述した求め方とは逆に、最初に分類モデルのパラメータを学習し、共有パラメータを固定したまま第1音響モデルの非共有パラメータを求めてもよい。
第1の音声認識部103は、特徴量抽出部102によって抽出された音声特徴量に対して、第1音響モデルを用いて第1の音声認識処理を行う。第1の音声認識処理では、第1音響モデルを入力音声の音声特徴量に作用させて、複数の単語候補について入力音声に対する尤度を算出する。第1の音声認識部103は、これらの単語候補のうち、尤度が相対的に大きい複数の候補を上位候補として出力する。上位候補記憶部114は、上位候補を記憶する。
また、第1の音声認識部103は、尤度の算出の際に出力確率分布の計算を行っているが、このうちパラメータを分類モデルと共有している出力確率分布(共有出力確率分布)の計算結果をグループ尤度計算部104に渡す。例えば、分類モデルのうち、いくつかの出力確率分布が共有出力確率分布であって、平均ベクトルUw、及び分散共分散行列Σwを第1音響モデルと共有し、重み係数λwのみが異なるとする。この場合、第1音響モデルを用いて計算した共有出力確率分布の計算結果N(O;Uw,Σw)がグループ尤度計算部104に渡される。後述するグループ尤度計算部104においてグループ尤度f(O)を求める際に、これら共有出力確率分布の計算結果N(O;Uw,Σw)を用い、共有出力確率分布の再計算を省略している。
グループ尤度計算部104は、入力音声に対する各グループの尤度を計算する。この計算では、入力音声の音声特徴量に分類モデルを作用させる。ここで、グループ尤度計算部104は、前述した共有出力確率分布の計算結果が入力されているので、これを利用する。例えば分類モデルが混合正規分布であれば、正規分布N(O;Uw,Σw)に重み係数λwを乗じて混合し、遷移確率を乗じてグループ尤度f(O)を求める際に、共有出力確率分布N(O;Uw,Σw)については再計算をせずに、第1の音声認識の計算結果を利用する。従って、グループ尤度計算部104は、パラメータを共有していない出力確率分布(非共有確率分布)N(O;Uw,Σw)についてのみ音声特徴量を用いて計算する。また、グループ尤度計算部104では、尤度計算を全てのフレームについては行わずに、HMMのある状態に関するフレームについてのみ行うなど、計算の省略を行ってもよい。
第2の音響モデル記憶部115は、特定の話者または環境の少なくとも一方に依存して変化する第2音響モデルを記憶する。第2音響モデルは第2の音声認識部106で使用できるモデル、例えば音声で学習した混合正規分布を出力確率分布に持つHMMであればよく、必ずしも第1音響モデルとの共有パラメータを持たなくともよい。
グループ選択部105は、グループ尤度計算部104により計算された各グループの尤度に基づいて尤度が最大のグループを選択し、選択したグループに含まれる第2音響モデルを第2の音声認識部106に渡す。
第2の音声認識部106は、特徴量抽出部102によって抽出された音声特徴量に対して、グループ選択部105により選択された、尤度が最大のグループに含まれる第2音響モデルを用いて音声認識処理を行う。第2の音声認識部106の音声認識処理では、第2音響モデルを入力音声の音声特徴量に夫々作用させて、上位候補記憶部114に記憶されている上位候補について入力音声に対する尤度を夫々算出する。そして、第2の音声認識部106は、これら上位候補のうち尤度が最大の候補を最終的な認識結果として出力する。
次に、図5を用いて本実施形態に従う音声認識装置の処理手順を説明する。
まず、音声入力部101によって音声を入力する(ステップS501)。音声入力部101は、入力音声をデジタルデータにアナログ−デジタル変換し、特徴量抽出部102に渡す。次に、ステップS502に進む。
次に、特徴量抽出部102が入力音声の音声データから音声特徴量を抽出する(ステップS502)。次に、第1の音声認識部103は、第1音響モデル記憶部111から第1音響モデルを取得し、第1音響モデルを用いて、複数の単語候補について入力音声に対する尤度を算出し、尤度の高いいくつかの候補を上位候補として上位候補記憶部114に保存する(ステップS503)。
次に、グループ尤度計算部104は、入力音声に対する各グループの尤度を計算する(ステップS504)。具体的には、グループ尤度計算部104は、分類モデルの非共有パラメータ記憶部115から分類モデルの非共有パラメータを取得し、非共有パラメータと入力音声の特徴量とを用いて非共有出力確率分布を計算し、この計算結果と、第1の音声認識部103から取得した共有出力確率分布の計算結果とを用いて入力音声に対する各グループの尤度を計算する。
次に、グループ選択部105が、各グループの尤度に基づいて入力音声に対して尤度最大のグループを選択し、この尤度最大のグループに包含される第2音響モデルを第2音響モデル記憶部115から取得する(ステップS505)。
最後に、第2の音声認識部106が、最適なグループに包含される第2音響モデルを用いて、上位候補に関して入力音声に対する尤度を算出し、この結果、最も高い尤度が算出された候補を最終的な認識結果として出力する(ステップS506)。
本実施形態によれば、第1音響モデルと分類モデルの一部のパラメータが共有して記憶されているため、このパラメータを別々に記憶する構成に比べてメモリ使用量を減らすことができる。また、グループ尤度計算部104は、第1の音声認識部103が算出した共有出力確率分布の計算結果を利用するため、各グループの尤度計算の計算量を減らすことができる。
(第2の実施形態)
図6に示される本発明の第2の実施形態に従う音声認識装置では、グループ尤度計算部104の処理が異なる。図6において、図1と同一部分には同一符号を付して詳細な説明を省略し、図1と異なる部分を中心に述べる。
本実施形態において第1音響モデル及び分類モデルはいずれもHMMであり、モデル構造及び遷移確率が等しい。また、全ての出力確率分布がパラメータを共有する。パラメータの共有は、例えば前述した方法で行われる。
グループ尤度計算部604は、入力音声に対する各グループの尤度を計算する。ここで、グループ尤度計算部604は、前述した共有出力確率分布の計算結果を第1の音声認識部103より取得しているので、これを利用する。
本実施形態では、分類モデルは第1音響モデルと全ての出力確率分布においてパラメータを共有しているため、非共有出力確率分布は存在せず、全ての正規分布N(O;Uw,Σw)は計算済みである。従って、グループ尤度計算部604において、正規分布N(O;Uw,Σw)について計算する必要が無いため、グループ尤度計算部604は入力音声の音声特徴量を必要としない。そこで、グループ尤度計算部604では第1の音声認識部103より取得した正規分布N(O;Uw,Σw)をグループの重み係数λwを乗じた後に混合してグループ尤度f(O)を求め、f(O)に遷移確率を乗じて各グループの入力音声に対する尤度を計算する。
本実施形態によれば、第1音響モデルと分類モデルは共に遷移確率、モデル構造の等しいHMMであり、しかも全ての出力確率分布においてパラメータを共有しているため、これらのパラメータを別々に記憶する構成に比べてメモリ使用量を減らすことができる。また、グループ尤度計算部604は、第1の音声認識部103が算出した正規分布N(O;U,Σ)の計算結果を利用するため、各グループの尤度計算の計算量を減らすことができる。
(第3の実施形態)
図7に示されるように、本発明の第3の実施形態に従う音声認識装置では、図6に示す第2の実施形態におけるグループ尤度計算部の機能を第1の音声認識部703に持たせており、これに伴いグループ選択部105の処理が異なっている。図7において図6と同一部分には同一符号を付して示して詳細な説明を省略し、図6と異なる部分を中心に述べる。
第1の音声認識部703は入力音声の音声特徴量に対して、第1音響モデル及び分類モデルを作用させ、第1の音声認識処理を行う。第1の音声認識処理は、前述した上位候補の出力に加えて、全ての認識結果に対する各グループの尤度の算出を含む。具体的には、例えば分類モデルの出力確率分布が混合正規分布であって、かつ、分類モデルと第1音響モデルは重み係数以外のパラメータを全て共有していると仮定する。第1の音声認識部703は、図8のように第1音響モデルを用いてtフレーム目の尤度を計算する際に、正規分布N(O;Uw,Σw)を第1音響モデルにおける重み係数λwを乗じて混合することになる。このとき、これに並行して各グループにおける重み係数λiw(ただしiはグループ番号を表すものとする。従って、グループがn個あれば、iは1からnまでの整数である)を乗じて、正規分布N(O;Uw,Σw)を混合し、遷移確率を乗じて各グループの尤度を算出できる。
グループ選択部705は第1の音声認識部703が計算した、全ての認識結果に対する各グループの尤度に基づいて入力音声に対して最適なグループを選択し、このグループに含まれる第2音響モデルを第2の音声認識部106に渡す。ここで、各グループの尤度は単語候補毎に異なるが、最適なグループ選択方法として以下のような例が考えられる。第1の音声認識の結果、尤度の最も高い単語候補が“aka”であり、次が“aki”であったと仮定する。この場合、(a)入力音声に対する尤度が最も高い単語候補に関して最もグループ尤度が高いグループ、即ち、“aka”という単語に関してグループ尤度が最も高いグループ、(b)単語候補の尤度に関わらず、最もグループ尤度が高いグループ、すなわち“aka”または“aki”のどちらに関してでもよいから最もグループ尤度が高いグループを最適なグループとして選択する。
本実施形態によれば、第2の実施形態におけるグループ尤度計算部104の処理を第2の音声認識部703に組み込んでいる。従って、グループ尤度の計算と上位候補の検出を同時に行うことが可能である。
(第4の実施形態)
次に、本発明の第4の実施形態について説明する。本実施形態において、分類モデルは混合正規分布モデルであって、第1音響モデルの出力確率分布と全ての分布を共有する。尚、第2の実施形態の構成を示す図6及び第3の実施形態の構成を示す図7はいずれも本実施形態に流用できる。
本実施形態に係る音声認識装置の動作としては、前述した第2の実施形態及び第3の実施形態におけるグループ尤度計算を変形したものとなる。本実施形態におけるグループ尤度計算は、例えば次のようにして行う。第1の音声認識処理において、第1音響モデルが通り得る全てのHMMのパスに関してグループの尤度を加算する。各グループの出力確率は前述の方法と同様に求めることができる。このようにして、各グループの入力音声に対する尤度のみが計算される。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に従う音声認識装置の構成を示すブロック図。 複数の分布を重み付けして表される混合分布を出力確率分布に持つHMMの一例を示す図。 グループによる第2音響モデルの分類例を示す図。 HMMの出力確率分布が4混合の混合正規分布で表される場合の分類モデルの求め方の一例を示す図。 本発明の第1の実施形態に従う音声認識装置の処理手順を示すフローチャート。 本発明の第2の実施形態に従う音声認識装置の構成を示すブロック図。 本発明の第3の実施形態に従う音声認識装置の構成を示すブロック図。 第1の音声認識部703における各グループの尤度計算の実行例を示す図。
符号の説明
101・・・音声入力部
102・・・特徴量抽出部
103・・・第1の音声認識部
104・・・グループ尤度計算部
105・・・グループ選択部
106・・・第2の音声認識部
111・・・第1の音響モデル記憶部
112・・・分類モデル記憶部
113・・・非共有パラメータ記憶部
114・・・共有パラメータ記憶部
115・・・非共有パラメータ記憶部
116・・・上位候補記憶部
117・・・第2の音響モデル記憶部
604・・・グループ尤度計算部
703・・・第1の音声認識部
705・・・グループ選択部

Claims (8)

  1. 複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、話者及び環境に対して一定の第1音響モデルを記憶する第1の記憶部と;
    特定の話者及び環境の少なくとも一方に依存して変化する複数の第2音響モデルを記憶する第2の記憶部と;
    前記第2音響モデルを複数グループに分類するための隠れマルコフモデルであって、出力確率分布を算出するためのパラメータを含む前記第1音響モデルと共有のパラメータ及び非共有のパラメータを有する分類モデルを記憶する第3の記憶部と;
    入力音声に対する第1尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第1尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第1音響モデルを用いて音声認識を行う第1の認識部と;
    前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第2尤度を算出する計算部と;
    前記第2尤度が最大のグループを選択する選択部と;
    前記入力音声に対する前記複数の単語候補の第3尤度を計算し、該第3尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第2音響モデルを用いて音声認識を行う第2の認識部と;
    を具備することを特徴とする音声認識装置。
  2. 前記共有のパラメータは、前記分類モデルの少なくとも一つの出力確率分布である共有出力確率分布を算出するための共有平均ベクトル及び共有分散共分散行列を含み、
    前記計算部は、前記第1の音声認識部から前記共有のパラメータに関する計算結果として前記入力音声の特徴量、前記共有平均ベクトル及び前記共有分散共分散行列を用いて算出された第1の正規分布を取得して当該第1の正規分布に重み係数を乗じて混合することにより前記共有出力確率分布を計算し、前記入力音声の特徴量に前記非共有のパラメータに含まれる非共有平均ベクトル及び非共有分散共分散行列を用いて第2の正規分布を計算して当該第2正規分布に重み係数を乗じて混合することにより前記共有出力確率分布以外の非共有出力確率分布を計算し、前記共有出力確率分布及び前記非共有出力確率分布に夫々遷移確率を乗じて前記第2尤度を計算することを特徴とする請求項1記載の音声認識装置。
  3. 前記分類モデルは、構造及び遷移確率が前記第1音響モデルと等しく、かつ、全ての出力確率分布において前記第1音響モデルと平均ベクトル及び分散共分散行列を前記共有のパラメータとすることを特徴とする請求項1記載の音声認識装置。
  4. 話者及び環境に対して一定の第1音響モデルを記憶する第1の記憶部と;
    特定の話者及び環境の少なくとも一方に依存して変化する複数の第2音響モデルを記憶する第2の記憶部と;
    複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、前記第1音響モデルと共有のパラメータとして、構造、遷移確率、及び全ての出力確率分布における平均ベクトル及び分散共分散行列を有し、また、非共有のパラメータとして分布の重み係数を有し、前記第2音響モデルを複数グループに分類するための、分類モデルを記憶する第3の記憶部と;
    入力音声に対する第1尤度が相対的に大きい複数の単語候補及び前記入力音声に対する前記複数グループの第2尤度を得るために、入力音声に対して前記第1音響モデル及び前記分類モデルの非共有パラメータを用いて音声認識を行う第1の認識部と;
    前記第2尤度が最大のグループを選択する選択部と;
    前記入力音声に対する前記複数の単語候補の第3尤度を計算し、該計算した第3尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第2音響モデルを用いて音声認識を行う第2の認識部と;
    を具備することを特徴とする音声認識装置。
  5. 前記第1の認識部は、入力音声の特徴量及び前記共有のパラメータを用いて正規分布を計算して、第1音響モデルの重み係数を乗じて混合し、遷移確率を乗じて入力音声に対する単語候補の第1尤度を計算すると同時に、各グループに対応する重み係数を当該正規分布に乗じて混合し、遷移確率を乗じて各グループの第2尤度を並行して計算することを特徴とする請求項記載の音声認識装置。
  6. 話者及び環境に対して一定の第1音響モデルを記憶する第1の記憶部と;
    特定の話者及び環境の少なくとも一方に依存して変化する複数の第2音響モデルを記憶する第2の記憶部と;
    前記第2音響モデルを複数グループに分類するための混合正規分布モデルであって、前記第1音響モデルの出力確率分布と全ての分布を共有のパラメータとして有し、前記共有パラメータ以外の非共有のパラメータを有する分類モデルを記憶する第3の記憶部と;
    入力音声に対する第1尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第1尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第1音響モデルを用いて音声認識を行う第1の認識部と;
    前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第2尤度を算出する計算部と;
    前記第2尤度が最大のグループを選択する選択部と;
    前記入力音声に対する前記複数の単語候補の第3尤度を計算し、該第3尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第2音響モデルを用いて音声認識を行う第2の認識部と;
    を具備することを特徴とする音声認識装置。
  7. 複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、話者及び環境に対して一定の第1音響モデルを記憶する第1の記憶ステップと;
    特定の話者及び環境の少なくとも一方に依存して変化する複数の第2音響モデルを記憶する第2の記憶ステップと;
    前記第2音響モデルを複数グループに分類するための隠れマルコフモデルであって、出力確率分布を算出するためのパラメータを含む前記第1音響モデルと共有のパラメータ及び非共有のパラメータを有する分類モデルを記憶する第3の記憶ステップと;
    入力音声に対する第1尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第1尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第1音響モデルを用いて音声認識を行う第1の認識ステップと;
    前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第2尤度を算出する計算ステップと;
    前記第2尤度が最大のグループを選択する選択ステップと;
    前記入力音声に対する前記複数の単語候補の第3尤度を計算し、該第3尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第2音響モデルを用いて音声認識を行う第2の認識ステップと;
    を含む音声認識方法。
  8. 複数の正規分布を重み係数に従って重み付けして混合した混合正規分布を出力確率分布に持つ隠れマルコフモデルであって、話者及び環境に対して一定の第1音響モデルを記憶する第1の記憶処理と;
    特定の話者及び環境の少なくとも一方に依存して変化する複数の第2音響モデルを記憶する第2の記憶処理と;
    前記第2音響モデルを複数グループに分類するための隠れマルコフモデルであって、出力確率分布を算出するためのパラメータを含む前記第1音響モデルと共有のパラメータ及び非共有のパラメータを有する分類モデルを記憶する第3の記憶処理と;
    入力音声に対する第1尤度を算出して前記共有パラメータに関する計算結果を得ると共に前記第1尤度が相対的に大きい複数の単語候補を得るために、入力音声に対して前記第1音響モデルを用いて音声認識を行う第1の認識処理と;
    前記共有パラメータに関する計算結果及び前記分類モデルの前記非共有のパラメータを用いて前記入力音声に対する前記複数グループの第2尤度を算出する計算処理と;
    前記第2尤度が最大のグループを選択する選択処理と;
    前記入力音声に対する前記複数の単語候補の第3尤度を計算し、該第3尤度が最大の単語候補を認識結果として得るために、前記入力音声に対して前記選択されたグループに属する第2音響モデルを用いて音声認識を行う第2の認識処理と;
    を含む音声認識処理をコンピュータに行わせるためのプログラム。
JP2007038657A 2007-02-19 2007-02-19 音声認識装置及び方法 Expired - Fee Related JP4410265B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007038657A JP4410265B2 (ja) 2007-02-19 2007-02-19 音声認識装置及び方法
US11/857,104 US7921012B2 (en) 2007-02-19 2007-09-18 Apparatus and method for speech recognition using probability and mixed distributions

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007038657A JP4410265B2 (ja) 2007-02-19 2007-02-19 音声認識装置及び方法

Publications (2)

Publication Number Publication Date
JP2008203469A JP2008203469A (ja) 2008-09-04
JP4410265B2 true JP4410265B2 (ja) 2010-02-03

Family

ID=39707409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007038657A Expired - Fee Related JP4410265B2 (ja) 2007-02-19 2007-02-19 音声認識装置及び方法

Country Status (2)

Country Link
US (1) US7921012B2 (ja)
JP (1) JP4410265B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
EP2192575B1 (en) * 2008-11-27 2014-04-30 Nuance Communications, Inc. Speech recognition based on a multilingual acoustic model
WO2011071484A1 (en) * 2009-12-08 2011-06-16 Nuance Communications, Inc. Guest speaker robust adapted speech recognition
JP5585111B2 (ja) * 2010-02-16 2014-09-10 日本電気株式会社 発話内容推定装置、言語モデル作成装置、それに用いる方法およびプログラム
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
US9099096B2 (en) 2012-05-04 2015-08-04 Sony Computer Entertainment Inc. Source separation by independent component analysis with moving constraint
US8886526B2 (en) 2012-05-04 2014-11-11 Sony Computer Entertainment Inc. Source separation using independent component analysis with mixed multi-variate probability density function
US8880395B2 (en) 2012-05-04 2014-11-04 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjunction with source direction information
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
KR20170034227A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
CN108573706B (zh) * 2017-03-10 2021-06-08 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
US20190115028A1 (en) * 2017-08-02 2019-04-18 Veritone, Inc. Methods and systems for optimizing engine selection
KR102225984B1 (ko) * 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
KR102570070B1 (ko) 2018-12-27 2023-08-23 삼성전자주식회사 일반화된 사용자 모델을 이용한 사용자 인증 방법 및 장치
US11043218B1 (en) * 2019-06-26 2021-06-22 Amazon Technologies, Inc. Wakeword and acoustic event detection
US11132990B1 (en) * 2019-06-26 2021-09-28 Amazon Technologies, Inc. Wakeword and acoustic event detection
JP7395446B2 (ja) * 2020-09-08 2023-12-11 株式会社東芝 音声認識装置、方法およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3176210B2 (ja) 1994-03-22 2001-06-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識方法及び音声認識装置
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
JP4233831B2 (ja) 2002-09-25 2009-03-04 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
US20050216266A1 (en) * 2004-03-29 2005-09-29 Yifan Gong Incremental adjustment of state-dependent bias parameters for adaptive speech recognition

Also Published As

Publication number Publication date
JP2008203469A (ja) 2008-09-04
US20080201136A1 (en) 2008-08-21
US7921012B2 (en) 2011-04-05

Similar Documents

Publication Publication Date Title
JP4410265B2 (ja) 音声認識装置及び方法
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN107615376B (zh) 声音识别装置及计算机程序记录介质
US8510111B2 (en) Speech recognition apparatus and method and program therefor
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
US20100131262A1 (en) Speech Recognition Based on a Multilingual Acoustic Model
JP5861649B2 (ja) モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
US20110218805A1 (en) Spoken term detection apparatus, method, program, and storage medium
WO2012001458A1 (en) Voice-tag method and apparatus based on confidence score
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP2007078943A (ja) 音響スコア計算プログラム
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP4922225B2 (ja) 音声認識装置及び音声認識プログラム
JP6791816B2 (ja) 音声区間検出装置、音声区間検出方法、およびプログラム
JP6632764B2 (ja) 意図推定装置及び意図推定方法
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP4901657B2 (ja) 音声認識装置、その方法、そのプログラム、その記録媒体
WO2010109725A1 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム
JP4391179B2 (ja) 話者認識システム及び方法
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP4678464B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2008083367A (ja) 音声認識装置、音声認識方法及びプログラム
JP2008216672A (ja) 話者適応化装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091020

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131120

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees