JP6244297B2 - 音響スコア算出装置、その方法及びプログラム - Google Patents
音響スコア算出装置、その方法及びプログラム Download PDFInfo
- Publication number
- JP6244297B2 JP6244297B2 JP2014261936A JP2014261936A JP6244297B2 JP 6244297 B2 JP6244297 B2 JP 6244297B2 JP 2014261936 A JP2014261936 A JP 2014261936A JP 2014261936 A JP2014261936 A JP 2014261936A JP 6244297 B2 JP6244297 B2 JP 6244297B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- variation factor
- acoustic
- acoustic feature
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本実施形態では、認識対象の音声信号の各フレームの音響特徴量ベクトルの音響変動要因を推定して実数値のベクトルで表現し、音響特徴量ベクトルと同時に音素ニューラルネットワークに入力することにより、音響変動要因を考慮して音響スコアを算出する。音響スコアの計算に先立って音響変動要因を推定することにより、音響特徴量ベクトルの音響変動要因(話者/収録機器/周辺雑音等)が何であるか特定している状態で音響スコアを算出することができる。従来技術は音響変動要因が不明な状態で(音響特徴量ベクトルのみから)音響スコアを算出するのに対して、本実施形態は音響変動要因を同時に与えるため、より正確な音響スコアを算出することが可能となる。
図1は第一実施形態に係る音響スコア算出装置100の機能ブロック図を、図2はその処理フローを示す。
入力:認識対象音声信号
出力:音響特徴量ベクトル系列(変動要因ベクトル算出部102およびベクトル連結部103へ)
処理:
入力された認識対象音声信号から音響特徴量ベクトル系列を抽出し(S101)、得られた音響特徴量ベクトル系列を変動要因ベクトル算出部102とベクトル連結部103へ出力する。
記憶部110には、音響特徴量ベクトルを変動要因ベクトルに変換する変動要因推定モデルと、音響特徴量ベクトルとその音響特徴量ベクトルに対応する変動要因ベクトルとを連結した連結ベクトルがどの音素に属すかを識別する音素識別モデルとが格納される。なお、各モデルの詳細については後述する。
入力:音響特徴量ベクトル系列(音響特徴量抽出部101から)、変動要因推定モデル(記憶部110から)
出力:変動要因ベクトル系列(ベクトル連結部103へ)
処理:
変動要因ベクトル算出部102は、変動要因推定モデルを用いて、音声認識対象の音声信号から得られる音響特徴量ベクトルに対する変動要因ベクトルを算出する(S102)。例えば、入力された音響特徴量ベクトル系列の各音響特徴量ベクトルに、変動要因推定モデルを用いて、その音響特徴量ベクトルの音響変動要因を表す変動要因ベクトルを算出し、得られた変動要因ベクトルをフレームの時間順に並べた変動要因ベクトル系列をベクトル連結部103に出力する。変動要因ベクトルは入力された音響特徴量ベクトルと同じ個数得られるため、音響特徴量ベクトル系列と変動要因ベクトル系列のフレーム数は同じになる。
入力: 学習用音響特徴量ベクトル系列(音響特徴量抽出部101から)、変動要因ラベル系列、変動要因ベクトル次元数
出力: 変動要因推定モデル(記憶部110へ)
処理:
入力された学習用音響特徴量ベクトル系列と変動要因ラベル系列と変動要因ベクトル次元数から変動要因推定モデルを学習し、出力する。変動要因ラベル系列は、学習用音響特徴量ベクトル系列の各フレームの変動要因が何であるかを表す変動要因IDを並べた系列であり、例えば、人手により、または、既存の技術により変動要因ID(話者、収音機器、周囲雑音等を示す識別子)を求め、各フレームに対して付与する。例えば、変動要因IDとして話者IDを用いた場合、入力された音響特徴量ベクトルを、その音響特徴量ベクトルの話者(例えば、Aさん、Bさん等)を表すベクトルに変換する変動要因推定モデルが学習される。変動要因IDとしてマイクの種類を表すマイクIDを用いた場合は、音響特徴量ベクトルを、その音響特徴量ベクトルの収録時に使用したマイクを表すベクトルに変換する変動要因推定モデルが学習される。変動要因IDとして雑音の種類を表す雑音IDを用いた場合は、音響特徴量ベクトルを、その音響特徴量ベクトルの収録時の雑音(例えば、駅構内、機内、雑踏等の周囲雑音)を表すベクトルに変換する変動要因推定モデルが学習される。変動要因ベクトル次元数は学習時に与える正の整数値のパラメータであり、変動要因ベクトルの次元を指定する。変動要因ベクトル次元数を大きくすると変動要因をより詳細に表現する変動要因ベクトルが得られるようになるが、学習に必要なフレーム数が増加する。変動要因ベクトル次元数には通常50〜100程度の値を指定する。
1.学習用音響特徴量ベクトルの次元と同じ数のノードを持つ入力層と、変動要因IDの種類と同じ数のノードを持つ出力層と、変動要因ベクトルの次元と同じ数のノードを持つ隠れ層(以下、「変動要因層」と書く)とを備えた多層パーセプトロン構造のニューラルネットワークを、学習用音響特徴量ベクトル系列と変動要因ラベル系列を用いて、例えば参考文献1などに記載されている一般的な誤差逆伝播法などで学習する。
(参考文献1)Anil K. Jain, Mao Jianchang, and K. M. Mohiuddin, "Artificial Neural Networks: A Tutorial", IEEE computer, 1996, vol.29, no.3, pp.31-44.
2.変動要因層が出力層となるように、学習したニューラルネットワークの出力層の側から層を削除する。
入力:音響特徴量ベクトル系列(音響特徴量抽出部101から)、変動要因ベクトル系列(変動要因ベクトル算出部102から)
出力:連結ベクトル系列(音響スコア算出部104へ)
処理:
ベクトル連結部103は、音響特徴量ベクトルと対象変動要因ベクトルとを連結し、連結ベクトルを求める(S103)。例えば、ベクトル連結部103は、複数のベクトル系列が入力されると、系列中の各ベクトルを所定の順序で連結した1つのベクトル系列を作成し、出力する。例えば10フレーム分の音響特徴量ベクトル系列と変動要因ベクトル系列が入力された場合の動作を図4に示す。各系列のフレームの順序は変えず、常に音響特徴量ベクトルの後に変動要因ベクトルを連結する順序で連結した連結ベクトル系列を作成し、出力する。
入力:連結ベクトル系列(ベクトル連結部103から)、音素識別モデル(記憶部110から)
出力:音響スコア系列
処理:
音響スコア算出部104は、音素識別モデルを用いて、連結ベクトルが各音素に属する確率を表す音響スコアを算出する(S104)。例えば、入力された連結ベクトル系列の各連結ベクトルに、音素識別モデルを用いて、その連結ベクトルが各音素に属する確率(音響スコア)を計算し、音響スコアをフレームの時間順に並べた音響スコア系列を出力する。音素識別モデルは連結ベクトルがどの音素に属すかを識別するニューラルネットワークである。
入力:学習用連結ベクトル系列(ベクトル連結部103から)、音素ラベル系列
出力:音素識別モデル(記憶部110へ)
処理:
入力された学習用連結ベクトル系列と音素ラベル系列とから音素識別モデルを学習し、出力する。音素ラベル系列は、学習用連結ベクトル系列の各フレームに対応する音素を並べた系列であり、例えば、人手により、または、元の学習用音響音響特徴量ベクトル系列に対して既存の音素識別技術を用いて算出し、各フレームに対して付与する。音素識別モデルは学習用連結ベクトルの次元と同じ数のノードを持つ入力層と、識別したい音素の種類と同じ数のノードを持つ出力層を備えたニューラルネットワークであり、例えば参考文献1などに記載されている一般的な誤差逆伝播法などで学習する。
以上の構成により、音響スコア算出部104には通常用いられる音響特徴量ベクトルに加えて変動要因ベクトルが入力され、音響変動要因を考慮した音響スコア計算が行われる。例えば、変動要因推定モデルを学習する際の変動要因IDとして話者IDを用いた場合、変動要因ベクトルは認識対象の音響特徴量ベクトルの話者が誰であるかを表すベクトルとなる。この場合、音響スコア算出部104では誰の音声であるか判明している状態で音素を識別することになるため、音響特徴量ベクトルのみを入力する従来技術よりも正確に音素を識別できる(正確な音響スコアが得られる)。音響スコア算出部104が出力した音響スコアを用いて音声認識結果候補の探索を行うことにより、話者の変動に対して頑健に(従来技術よりも多くの話者に対して)精度の高い音声認識を行うことができる。
本実施形態では、変動要因推定モデルとしてニューラルネットワークを用いたが、他のモデルを用いてもよい。要は、学習用音響特徴量ベクトルと、その学習用音響特徴量ベクトルに対する変動要因ラベルとを与えて学習し、音声認識対象の音響特徴量ベクトルに対して、対応する変動要因ベクトルを返すようなモデルであればどのようなモデルであってもよい。同様に、音素識別モデルとして、ニューラルネットワーク以外のモデルを用いてもよい。要は、学習用連結ベクトルと、その学習用連結ベクトルに対する音素ラベル系列を与えて学習し、音声認識対象の連結ベクトルに対して、対応する音響スコアを返すようなモデルであればどのようなモデルであってもよい。
第一実施形態と異なる部分を中心に説明する。
記憶部210には、N個の変動要因推定モデルが格納される。a番目の変動要因推定モデルの変動要因ベクトルの要因の性質と、b番目の変動要因推定モデルの変動要因ベクトルの要因の性質とが異なるものとする。ただし、a及びbをそれぞれ1,2,…,Nの何れか、a≠bである。例えば、N=2とし、一方の要因を話者とし、他方の要因をマイクとする。変動要因推定モデルの学習方法は第一実施形態と同様である。N種類の性質の異なる変動要因ラベル系列を用いて、性質毎に変動要因推定モデルを学習し、計N個の変動要因推定モデルを学習すればよい。本実施形態では、音響変動要因を複数個とし、複数の変動要因推定モデルを用意する点が第一実施形態と異なる。
入力:音響特徴量ベクトル系列(音響特徴量抽出部101から)、n番目の変動要因推定モデル(記憶部210から)
出力:変動要因ベクトル系列(ベクトル連結部103へ)
処理:
変動要因ベクトル算出部102−nは、n番目の変動要因推定モデルを用いて、音声認識対象の音声信号から得られる音響特徴量ベクトルに対する変動要因ベクトルを算出する(S102−n)。例えば、入力された音響特徴量ベクトル系列の各音響特徴量ベクトルに、n番目の変動要因推定モデルを用いて、その音響特徴量ベクトルの音響変動要因を表す変動要因ベクトルを算出し、得られた変動要因ベクトルをフレームの時間順に並べた変動要因ベクトル系列をベクトル連結部203に出力する。変動要因ベクトルは入力された音響特徴量ベクトルと同じ個数得られるため、音響特徴量ベクトル系列とN個の変動要因ベクトル系列のフレーム数は全て同じになる。
入力:音響特徴量ベクトル系列(音響特徴量抽出部101から)、N個の変動要因ベクトル系列(変動要因ベクトル算出部102−1,102−2,…,102−Nから)
出力:連結ベクトル系列(音響スコア算出部104へ)
処理:
ベクトル連結部203は、音響特徴量ベクトルとN個の変動要因ベクトルとを連結し、連結ベクトルを求める(S203)。例えば、ベクトル連結部203は、複数のベクトル系列が入力されると、系列中の各ベクトルを所定の順序で連結した1つのベクトル系列を作成し、出力する。例えば10フレーム分の音響特徴量ベクトル系列とN個の変動要因ベクトル系列が入力された場合の動作を図8に示す。各系列のフレームの順序は変えず、常に音響特徴量ベクトルの後に1番目の変動要因ベクトル、2番目の変動要因ベクトル、…、N番目の変動要因ベクトルの順序で連結した連結ベクトル系列を作成し、出力する。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。例えば、N=2とし、話者とマイクそれぞれの変動要因推定モデルを用いると、話者とマイクが何であるか判明している状態で音響スコアが算出されるため、より正確な音響スコアを求めることが可能となり、より多くの話者およびマイクの組み合わせに対して精度の高い音声認識を行うことが可能となる。さらに雑音の変動要因推定モデルなどを加えて3つ以上の変動要因推定モデルを用いても良い。
第二実施形態と異なる部分を中心に説明する。
記憶部310には、N個の変動要因推定モデルが格納される。a番目の変動要因推定モデルの変動要因ベクトルの要因の性質と、b番目の変動要因推定モデルの変動要因ベクトルの要因の性質とが異なるものとする。例えば、N=2とし、一番目の要因を話者とし、二番目の要因をマイクとする。
入力:音響特徴量ベクトル系列(音響特徴量抽出部101から)、n-1番目の連結ベクトル系列(ベクトル連結部303)、n番目の変動要因推定モデル(記憶部210から)
出力:n番目の変動要因ベクトル系列(ベクトル連結部103へ)
処理:
変動要因ベクトル算出部302は、n番目の変動要因推定モデルを用いて、音響特徴量ベクトルと1番目から(n-1)番目までの変動要因ベクトルとを連結して得られる(n-1)番目の連結ベクトルに対するn番目の変動要因ベクトルを算出する(S302)。ただし、n=1のときは、(n-1)番目の連結ベクトルが存在しないため、第一実施形態と同様に、音響特徴量ベクトルに対する変動要因ベクトルを算出する。例えば、入力された(n-1)番目の連結ベクトル系列の各連結ベクトルに、n番目の変動要因推定モデルを用いて、その連結ベクトルの音響変動要因を表す変動要因ベクトルを算出し、得られた変動要因ベクトルをフレームの時間順に並べた変動要因ベクトル系列をベクトル連結部303に出力する。変動要因ベクトルは入力された(n-1)番目の連結ベクトルと同じ個数得られるため、(n-1)番目の連結ベクトル系列と変動要因ベクトル系列のフレーム数は全て同じになる。
入力: 学習用音響特徴量ベクトル系列(音響特徴量抽出部101から)、(n-1)番目の学習用連結ベクトル系列(ベクトル連結部450から)、n番目の変動要因ラベル系列、変動要因ベクトル次元数
出力:n番目の変動要因推定モデル(記憶部110及び要因ベクトル算出部440へ)
処理:
入力された学習用音響特徴量ベクトル系列と、(n-1)番目の学習用連結ベクトル系列と、n番目の変動要因ラベル系列と変動要因ベクトル次元数からn番目の変動要因推定モデルを学習し、出力する。モデルの学習方法は、第一実施形態と同様であり、「学習用音響特徴量ベクトル系列」に代えて、「(n-1)番目の学習用連結ベクトル」を用いる点が異なる。ただし、n=1のときは、学習用連結ベクトル系列ではなく、第一実施形態と同様に学習用音響特徴量ベクトル系列を入力とする。
入力:学習用音響特徴量ベクトル系列(音響特徴量抽出部101から)、n-1番目の学習用連結ベクトル系列(ベクトル連結部450から)、n番目の変動要因推定モデル(変動要因推定モデル学習部420から)
出力:n番目の学習用変動要因ベクトル系列(ベクトル連結部450及び記憶部310へ)
処理:
変動要因ベクトル算出部440は、n番目の変動要因推定モデルを用いて、音響特徴量ベクトルと1番目から(n-1)番目までの学習用変動要因ベクトルとを連結して得られる(n-1)番目の学習用連結ベクトルに対するn番目の学習用変動要因ベクトルを算出する。ただし、n=1のときは、(n-1)番目の学習用連結ベクトルが存在しないため、第一実施形態と同様に、音響特徴量ベクトルに対する学習用変動要因ベクトルを算出する。例えば、入力された(n-1)番目の学習用連結ベクトル系列の各学習用連結ベクトルに、n番目の変動要因推定モデルを用いて、その学習用連結ベクトルの音響変動要因を表す学習用変動要因ベクトルを算出し、得られた学習用変動要因ベクトルをフレームの時間順に並べた学習用変動要因ベクトル系列をベクトル連結部450に出力する。学習用変動要因ベクトルは入力された(n-1)番目の学習用連結ベクトルと同じ個数得られるため、(n-1)番目の学習用連結ベクトル系列と学習用変動要因ベクトル系列のフレーム数は全て同じになる。
入力:学習用音響特徴量ベクトル系列(音響特徴量抽出部101から)、n番目の学習用変動要因ベクトル系列(変動要因ベクトル算出部440から)
出力: n番目の学習用連結ベクトル系列(変動要因推定モデル学習部420及び変動要因ベクトル算出部440へ)
処理:
ベクトル連結部450では、学習用音響特徴量ベクトルと、1番目〜n番目の学習用変動要因ベクトルとを連結し、n番目の学習用連結ベクトルを求める。別の言い方をすると、(n-1)番目の学習用連結ベクトル(1つ前の学習用連結ベクトル)とn番目の学習用変動要因ベクトルとを連結し、n番目の学習用連結ベクトルを求める。例えば、ベクトル連結部450は、複数のベクトル系列が入力されると、系列中の各ベクトルを所定の順序で連結した1つのベクトル系列を作成し、出力する。例えばn番目の学習用変動要因ベクトル系列が入力された場合、各系列のフレームの順序は変えず、(n-1)番目の学習用連結ベクトル系列の後に、n番目の学習用変動要因ベクトル系列を連結したn番目の連結ベクトル系列を作成し、出力する。
入力:音響特徴量ベクトル系列(音響特徴量抽出部101から)、n番目の変動要因ベクトル系列(変動要因ベクトル算出部302から)
出力:n番目の連結ベクトル系列(ただし、n=1,2,…,N-1、変動要因ベクトル算出部302へ)、N番目の連結ベクトル系列(音響スコア算出部104へ)
処理:
ベクトル連結部303では、音響特徴量ベクトルと1番目〜n番目の対象変動要因ベクトルとを連結し、n番目の連結ベクトルを求める(S303)。具体的な処理は、ベクトル連結部450と同様である。
入力:音響特徴量ベクトルとN番目の連結ベクトル系列(ベクトル連結部303から)、音素識別モデル
出力:音響スコア系列
処理:
音響スコア算出部104は、音素識別モデルを用いて、N番目の連結ベクトル系列が各音素に属する確率を表す音響スコアを算出する(S104)。例えば、N番目の連結ベクトルに、音素識別モデルを用いて、その連結ベクトルが各音素に属する確率(音響スコア)を計算し、音響スコアをフレームの時間順に並べた音響スコア系列を出力する。音素識別モデルはN番目の連結ベクトルがどの音素に属すかを識別するニューラルネットワークである。学習方法は、第一実施形態と同様である。ただし、学習用連結ベクトル系列として、学習用音響特徴量ベクトルと1番目〜N番目の学習用変動要因ベクトルとを連結したN番目の学習用連結ベクトル系列を用いる点が異なる。
このような構成により、第二実施形態と同様の効果を得ることができる。さらに、n番目の変動要因ベクトル系列を算出する際に(n-1)番目の変動要因ベクトル系列を用いることにより、n番目の変動要因ベクトル系列をより正確に算出することが可能となる。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (7)
- ある音素に対して基準となる音声に変動を与える要因を音響変動要因とし、その音響変動要因を表すベクトルを変動要因ベクトルとし、
音響特徴量ベクトルを変動要因ベクトルに変換する変動要因推定モデルと、音響特徴量ベクトルとその音響特徴量ベクトルに対応する変動要因ベクトルとを連結した連結ベクトルがどの音素に属すかを識別する音素識別モデルとが格納される記憶部と、
前記変動要因推定モデルを用いて、音声認識対象の音声信号から得られる音響特徴量ベクトルである対象音響特徴量ベクトルに対する変動要因ベクトルである対象変動要因ベクトルを算出する変動要因ベクトル算出部と、
前記対象音響特徴量ベクトルと前記対象変動要因ベクトルとを連結し、対象連結ベクトルを求めるベクトル連結部と、
前記音素識別モデルを用いて、前記対象連結ベクトルが各音素に属する確率を表す音響スコアを算出する音響スコア算出部とを含む、
音響スコア算出装置。 - 請求項1の音響スコア算出装置であって、
Nを2以上の整数の何れか、a及びbをそれぞれ1,2,…,Nの何れか、a≠b、n=1,2,…,Nとし、N個の変動要因ベクトル算出部を含み、
前記記憶部にはN個の変動要因推定モデルが格納され、a番目の変動要因推定モデルの変動要因ベクトルの要因の性質と、b番目の変動要因推定モデルの変動要因ベクトルの要因の性質とが異なり、
n番目の変動要因ベクトル算出部は、n番目の変動要因推定モデルを用いて、音声認識対象の音声信号から得られる音響特徴量ベクトルである対象音響特徴量ベクトルに対する変動要因ベクトルである対象変動要因ベクトルを算出し、
前記ベクトル連結部では、前記対象音響特徴量ベクトルとN個の対象変動要因ベクトルとを連結し、対象連結ベクトルを求める、
音響スコア算出装置。 - 請求項1の音響スコア算出装置であって、
Nを2以上の整数の何れか、a及びbをそれぞれ1,2,…,Nの何れか、a≠b、n=2,3,…,Nとし、
前記記憶部にはN個の変動要因推定モデルが格納され、a番目の変動要因推定モデルの変動要因ベクトルの要因の性質と、b番目の変動要因推定モデルの変動要因ベクトルの要因の性質とが異なり、
前記変動要因ベクトル算出部では、n番目の変動要因推定モデルを用いて、前記対象音響特徴量ベクトルと1番目から(n-1)番目までの対象変動要因ベクトルとを連結して得られる(n-1)番目の対象連結ベクトルに対する対象変動要因ベクトルを算出し、
前記ベクトル連結部では、前記(n-1)番目の対象連結ベクトルとn番目の対象変動要因ベクトルとを連結し、n番目の対象連結ベクトルを求め、
音響スコア算出部は、前記音素識別モデルを用いて、N番目の対象連結ベクトルが各音素に属する確率を表す音響スコアを算出する、
音響スコア算出装置。 - 請求項1から請求項3の何れかの音響スコア算出装置であって、
前記変動要因推定モデルは、学習用の音声信号から得られる音響特徴量ベクトルである学習用音響特徴量ベクトルと、その学習用音響特徴量ベクトルの変動要因を表す変動要因ラベルと、変動要因ベクトルの次元数とを用いて学習されるモデルであって、学習用音響特徴量ベクトルの次元と同じ数のノードを持つ入力層と、変動要因ベクトルの次元と同じ数のノードを持つ出力層とを備えた多層パーセプトロン構造のニューラルネットワークからなる、
音響スコア算出装置。 - 請求項1から請求項4の何れかの音響スコア算出装置であって、
前記音素識別モデルは、学習用の音声信号から得られる音響特徴量ベクトルである学習用音響特徴量ベクトルと、その学習用音響特徴量に対応する変動要因ベクトルとを連結した学習用連結ベクトルと、その学習用連結ベクトルに対応する音素ラベルとを用いて学習されるモデルであって、学習用連結ベクトルの次元と同じ数のノードを持つ入力層と、識別したい音素の種類と同じ数のノードを持つ出力層を備えたニューラルネットワークからなる、
音響スコア算出装置。 - ある音素に対して基準となる音声に変動を与える要因を音響変動要因とし、その音響変動要因を表すベクトルを変動要因ベクトルとし、
変動要因ベクトル算出部が、音響特徴量ベクトルを変動要因ベクトルに変換する変動要因推定モデルを用いて、音声認識対象の音声信号から得られる音響特徴量ベクトルである対象音響特徴量ベクトルに対する変動要因ベクトルである対象変動要因ベクトルを算出する変動要因ベクトル算出ステップと、
ベクトル連結部が、前記対象音響特徴量ベクトルと前記対象変動要因ベクトルとを連結し、対象連結ベクトルを求めるベクトル連結ステップと、
音響スコア算出部が、音響特徴量ベクトルとその音響特徴量ベクトルに対応する変動要因ベクトルとを連結した連結ベクトルがどの音素に属すかを識別する音素識別モデルを用いて、前記対象連結ベクトルが各音素に属する確率を表す音響スコアを算出する音響スコア算出ステップとを含む、
音響スコア算出方法。 - 請求項1から請求項5の何れかの音響スコア算出装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014261936A JP6244297B2 (ja) | 2014-12-25 | 2014-12-25 | 音響スコア算出装置、その方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014261936A JP6244297B2 (ja) | 2014-12-25 | 2014-12-25 | 音響スコア算出装置、その方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016122110A JP2016122110A (ja) | 2016-07-07 |
JP6244297B2 true JP6244297B2 (ja) | 2017-12-06 |
Family
ID=56328977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014261936A Active JP6244297B2 (ja) | 2014-12-25 | 2014-12-25 | 音響スコア算出装置、その方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6244297B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6401126B2 (ja) * | 2015-08-11 | 2018-10-03 | 日本電信電話株式会社 | 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 |
JP6739828B1 (ja) * | 2020-01-22 | 2020-08-12 | クリスタルメソッド株式会社 | 学習方法、評価装置、データ構造、及び評価システム |
WO2021166034A1 (ja) * | 2020-02-17 | 2021-08-26 | 日本電気株式会社 | 音声認識装置、音響モデル学習装置、音声認識方法、及びコンピュータ読み取り可能な記録媒体 |
US20230326465A1 (en) * | 2020-08-31 | 2023-10-12 | Nec Corporation | Voice processing device, voice processing method, recording medium, and voice authentication system |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0792673B2 (ja) * | 1984-10-02 | 1995-10-09 | 株式会社東芝 | 認識用辞書学習方法 |
JP5982297B2 (ja) * | 2013-02-18 | 2016-08-31 | 日本電信電話株式会社 | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
-
2014
- 2014-12-25 JP JP2014261936A patent/JP6244297B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016122110A (ja) | 2016-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105679317B (zh) | 用于训练语言模型并识别语音的方法和设备 | |
JP6712642B2 (ja) | モデル学習装置、その方法、及びプログラム | |
CN108346436B (zh) | 语音情感检测方法、装置、计算机设备及存储介质 | |
CN105810193B (zh) | 训练语言模型的方法和设备及识别语言的方法和设备 | |
US11250843B2 (en) | Speech recognition method and speech recognition device | |
JP6437581B2 (ja) | 話者適応型の音声認識 | |
US9460711B1 (en) | Multilingual, acoustic deep neural networks | |
WO2019102884A1 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
JP6235938B2 (ja) | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
JP5982297B2 (ja) | 音声認識装置、音響モデル学習装置、その方法及びプログラム | |
JPWO2018062265A1 (ja) | 音響モデル学習装置、その方法、及びプログラム | |
JP6244297B2 (ja) | 音響スコア算出装置、その方法及びプログラム | |
JP2017058877A (ja) | 学習装置、音声検出装置、学習方法およびプログラム | |
JP2018087935A (ja) | 音声言語識別装置、その方法、及びプログラム | |
WO2019235283A1 (ja) | モデル学習装置、方法及びプログラム | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP2019095599A (ja) | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム | |
WO2019235191A1 (ja) | モデル学習装置、方法及びプログラム | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
Karanasou et al. | I-vectors and structured neural networks for rapid adaptation of acoustic models | |
JP6389776B2 (ja) | 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム | |
JP6728083B2 (ja) | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム | |
JP2018180354A (ja) | 音響モデル学習装置、その方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6244297 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |