JP6244297B2

JP6244297B2 - 音響スコア算出装置、その方法及びプログラム

Info

Publication number: JP6244297B2
Application number: JP2014261936A
Authority: JP
Inventors: 太一浅見; 孝典芦原; 亮増村; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2017-12-06
Anticipated expiration: 2034-12-25
Also published as: JP2016122110A

Description

本発明は、音声認識において用いる音響スコアの算出する技術に関する。

非特許文献１に記載されている従来の音声認識では、入力された音声信号を数10msecの音響分析フレームに分割し、各音響分析フレームの音響特徴量ベクトルを抽出し、各音響特徴量ベクトルが事前に定義された各音素、あるいは、音素を細分化した各状態（以後、「音素」あるいは「状態」を併せて「音素」と書く）に属する確率（以後「音響スコア」と書く）を音素ニューラルネットワークによって算出し、認識結果候補の探索に利用する。音素ニューラルネットワークは、大量の（数百〜数千時間の）学習用音声と、学習用音声の各フレームがどの音素に対応するかを表す正解データを用いて事前に学習される。

また、特許文献１では、音声信号が何らかの潜在クラスに所属すると考え、事前に潜在クラスごとに音素ニューラルネットワークを学習し、入力された音声信号の所属する潜在クラスを推定し、対応する適切な音素ニューラルネットワークを選択して音声認識に用いることで認識性能を高める方法が開示されている。

特開２０１４−１５７３２３号公報

George E. Dahl, Dong Yu, Li Deng and Alex Acero, "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition", IEEE transaction on Audio, Speech, and Language Processing, 2012, vol.20, no.1, pp 30-42.

非特許文献１に記載されている従来技術は、音素ニューラルネットワークの学習用音声信号と、実際に音声認識の対象とする音声信号にミスマッチがある場合に音声認識精度が低下する。

同じ音素を発声していたとしても、話者が異なれば音声信号は異なり、収録に利用するマイクが異なれば音声信号は異なり、収録時に周囲で生じている雑音が異なれば音声信号は異なる。例えば、以上に挙げた話者・収録機器・周辺雑音のような様々な要因（以後は「音響変動要因」と書く）によって音声信号は変動（以後は「音響的変動」と書く）するため、学習用音声をどれだけ大量に使ったとしても、実際に音声認識の対象とする音声信号とのミスマッチをなくすことは現実的には不可能である。なお、別の言い方をすると、音響変動要因とは、ある音素に対して基準となる音声に変動を与える要因（話者、マイク、周囲雑音等）である。

特許文献１に記載されている従来技術は事前に（話者、収録機器、周辺雑音などに相当する）潜在クラスを推定し、推定した潜在クラスに応じた音素ニューラルネットワークを用いることでミスマッチを低減している。しかし、この方法は潜在クラスの種類ごとに事前に多くの音素ニューラルネットワークを構築しておく必要があり、必要とする記憶容量が大きくなってしまう。また、音声認識時にはいったん潜在クラスを推定した上で、適切な音素ニューラルネットワークのモデルパラメータを音声認識に使うためにモデルパラメータを切り替える処理が必要となり、処理遅延が生じてしまう。

本発明は、事前に多くのニューラルネットワークを構築せず、処理遅延も増加させずに音響的変動による音声認識精度の低下を抑制することができる音響モデルを算出する技術を提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、音響スコア算出装置は、ある音素に対して基準となる音声に変動を与える要因を音響変動要因とし、その音響変動要因を表すベクトルを変動要因ベクトルとし、音響特徴量ベクトルを変動要因ベクトルに変換する変動要因推定モデルと、音響特徴量ベクトルとその音響特徴量ベクトルに対応する変動要因ベクトルとを連結した連結ベクトルがどの音素に属すかを識別する音素識別モデルとが格納される記憶部と、変動要因推定モデルを用いて、音声認識対象の音声信号から得られる音響特徴量ベクトルである対象音響特徴量ベクトルに対する変動要因ベクトルである対象変動要因ベクトルを算出する変動要因ベクトル算出部と、対象音響特徴量ベクトルと対象変動要因ベクトルとを連結し、対象連結ベクトルを求めるベクトル連結部と、音素識別モデルを用いて、対象連結ベクトルが各音素に属する確率を表す音響スコアを算出する音響スコア算出部とを含む。

上記の課題を解決するために、本発明の他の態様によれば、音響スコア算出方法は、ある音素に対して基準となる音声に変動を与える要因を音響変動要因とし、その音響変動要因を表すベクトルを変動要因ベクトルとし、変動要因ベクトル算出部が、音響特徴量ベクトルを変動要因ベクトルに変換する変動要因推定モデルを用いて、音声認識対象の音声信号から得られる音響特徴量ベクトルである対象音響特徴量ベクトルに対する変動要因ベクトルである対象変動要因ベクトルを算出する変動要因ベクトル算出ステップと、ベクトル連結部が、対象音響特徴量ベクトルと対象変動要因ベクトルとを連結し、対象連結ベクトルを求めるベクトル連結ステップと、音響スコア算出部が、音響特徴量ベクトルとその音響特徴量ベクトルに対応する変動要因ベクトルとを連結した連結ベクトルがどの音素に属すかを識別する音素識別モデルを用いて、対象連結ベクトルが各音素に属する確率を表す音響スコアを算出する音響スコア算出ステップとを含む。

本発明により算出した音響モデルによれば、音響的変動による音声認識精度の低下を抑制することが可能になり、従来技術よりも多くの話者、多くの収録機器、多くの周辺雑音等において高い精度で音声認識を行うことが可能となり、音声認識システム利用者にとっての利便性が向上する。

第一実施形態に係る音響スコア算出装置の機能ブロック図。第一実施形態に係る音響スコア算出装置の処理フローの例を示す図。第一実施形態に係る変動要因推定モデルを学習する際の機能ブロック図。第一実施形態に係るベクトル連結部の処理内容を説明するための図。第一実施形態に係る音素識別モデルを学習する際の機能ブロック図。第二実施形態に係る音響スコア算出装置の機能ブロック図。第二実施形態に係る音響スコア算出装置の処理フローの例を示す図。第二実施形態に係るベクトル連結部の処理内容を説明するための図。第三実施形態に係る音響スコア算出装置の機能ブロック図。第三実施形態に係る音響スコア算出装置の処理フローの例を示す図。第三実施形態に係る変動要因推定モデルを学習する際の機能ブロック図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。

＜第一実施形態のポイント＞
本実施形態では、認識対象の音声信号の各フレームの音響特徴量ベクトルの音響変動要因を推定して実数値のベクトルで表現し、音響特徴量ベクトルと同時に音素ニューラルネットワークに入力することにより、音響変動要因を考慮して音響スコアを算出する。音響スコアの計算に先立って音響変動要因を推定することにより、音響特徴量ベクトルの音響変動要因（話者／収録機器／周辺雑音等）が何であるか特定している状態で音響スコアを算出することができる。従来技術は音響変動要因が不明な状態で（音響特徴量ベクトルのみから）音響スコアを算出するのに対して、本実施形態は音響変動要因を同時に与えるため、より正確な音響スコアを算出することが可能となる。

例えば、話者による音声信号の変動に対しては、認識対象の音声の各フレームの音響特徴量ベクトルから、その音響特徴量ベクトルがどの話者のものであるかを表す変動要因ベクトルを算出し、音響特徴量ベクトルと変動要因ベクトルを連結した連結ベクトルを音素ニューラルネットワークに入力する。なお、変動要因ベクトルとは、音響変動要因を表すベクトルである。音素ニューラルネットワークは、連結ベクトルから音響スコアを算出するように事前に学習しておく。変動要因ベクトルは音響特徴量ベクトルを話者ニュ−ラルネットワークに入力して算出する。

本実施形態はフレームごとに音響変動要因を推定するため、発声中に音響変動要因が変化しても（例えば周辺雑音が発声中に変化した場合などでも）追随が可能であり、また、フレームごとの処理であるため、従来技術から処理遅延を増加させることはない。（話者ニューラルネットワーク等の）音響変動要因推定ニューラルネットワークと認識用の音素ニューラルネットワークのみを学習しておけば良いため、事前に潜在クラスごとの多数のニューラルネットワークを構築する必要もない。

＜第一実施形態に係る音響スコア算出装置１００＞
図１は第一実施形態に係る音響スコア算出装置１００の機能ブロック図を、図２はその処理フローを示す。

本実施形態に係る音響スコア算出装置１００は、音響特徴量抽出部１０１と、変動要因ベクトル算出部１０２と、ベクトル連結部１０３と、音響スコア算出部１０４と、記憶部１１０とを含む。本実施形態に係る音響スコア算出装置１００は、認識対象の音声信号を入力とし、音響スコアを算出し、出力する。音響スコア算出部１０４では音響特徴量ベクトルに変動要因ベクトルを連結した連結ベクトルを用いて音響スコアを計算する。これにより変動要因を考慮した正確な音響スコアの計算が行われ、高い認識精度が得られる。

＜音響特徴量抽出部１０１＞
入力：認識対象音声信号
出力：音響特徴量ベクトル系列（変動要因ベクトル算出部１０２およびベクトル連結部１０３へ）
処理：
入力された認識対象音声信号から音響特徴量ベクトル系列を抽出し（Ｓ１０１）、得られた音響特徴量ベクトル系列を変動要因ベクトル算出部１０２とベクトル連結部１０３へ出力する。

音響特徴量ベクトル系列の抽出では、認識対象音声信号を数10msecの音響分析フレームに分割し、各音響分析フレームから音響特徴量ベクトルを抽出し、各音響分析フレームの音響特徴量ベクトルをフレームの時間順に並べた音響特徴量ベクトル系列を得る。各フレームの音響特徴量ベクトルは実数値ベクトルであり、そのフレームおよび前後NフレームずつのMFCCやFBANKを連結して生成する。例えば、そのフレームおよび前後5フレームの合計11フレーム分のMFCCやFBANKを連結したベクトルを各フレームの音響特徴量ベクトルとする。

＜記憶部１１０＞
記憶部１１０には、音響特徴量ベクトルを変動要因ベクトルに変換する変動要因推定モデルと、音響特徴量ベクトルとその音響特徴量ベクトルに対応する変動要因ベクトルとを連結した連結ベクトルがどの音素に属すかを識別する音素識別モデルとが格納される。なお、各モデルの詳細については後述する。

＜変動要因ベクトル算出部１０２＞
入力：音響特徴量ベクトル系列（音響特徴量抽出部１０１から）、変動要因推定モデル（記憶部１１０から）
出力：変動要因ベクトル系列（ベクトル連結部１０３へ）
処理：
変動要因ベクトル算出部１０２は、変動要因推定モデルを用いて、音声認識対象の音声信号から得られる音響特徴量ベクトルに対する変動要因ベクトルを算出する（Ｓ１０２）。例えば、入力された音響特徴量ベクトル系列の各音響特徴量ベクトルに、変動要因推定モデルを用いて、その音響特徴量ベクトルの音響変動要因を表す変動要因ベクトルを算出し、得られた変動要因ベクトルをフレームの時間順に並べた変動要因ベクトル系列をベクトル連結部１０３に出力する。変動要因ベクトルは入力された音響特徴量ベクトルと同じ個数得られるため、音響特徴量ベクトル系列と変動要因ベクトル系列のフレーム数は同じになる。

変動要因推定モデルは、音響特徴量ベクトルを変動要因ベクトルに変換するモデルであり、例えば、ニューラルネットワークからなる。変動要因推定モデルの学習にどのような変動要因ラベルを使うかによって、どのような変動要因ベクトルに変換されるかをコントロールできる。例えば、変動要因ラベルとして話者IDを利用して変動要因推定モデルを学習した場合、変動要因ベクトルはその音響特徴量ベクトルが誰の音声かを表すベクトルになる。変動要因ラベルとしてマイクIDを利用して変動要因推定モデルを学習した場合、変動要因ベクトルはその音響特徴量ベクトルがどのマイクで収録されたものかを表すベクトルになる。

変動要因推定モデルの学習方法を図３に示す。図３の音響特徴量抽出部１０１は図１と同一なので説明は省略する。

＜変動要因推定モデル学習部１２０＞
入力：学習用音響特徴量ベクトル系列（音響特徴量抽出部１０１から）、変動要因ラベル系列、変動要因ベクトル次元数
出力：変動要因推定モデル（記憶部１１０へ）
処理：
入力された学習用音響特徴量ベクトル系列と変動要因ラベル系列と変動要因ベクトル次元数から変動要因推定モデルを学習し、出力する。変動要因ラベル系列は、学習用音響特徴量ベクトル系列の各フレームの変動要因が何であるかを表す変動要因IDを並べた系列であり、例えば、人手により、または、既存の技術により変動要因ID（話者、収音機器、周囲雑音等を示す識別子）を求め、各フレームに対して付与する。例えば、変動要因IDとして話者IDを用いた場合、入力された音響特徴量ベクトルを、その音響特徴量ベクトルの話者(例えば、Aさん、Bさん等)を表すベクトルに変換する変動要因推定モデルが学習される。変動要因IDとしてマイクの種類を表すマイクIDを用いた場合は、音響特徴量ベクトルを、その音響特徴量ベクトルの収録時に使用したマイクを表すベクトルに変換する変動要因推定モデルが学習される。変動要因IDとして雑音の種類を表す雑音IDを用いた場合は、音響特徴量ベクトルを、その音響特徴量ベクトルの収録時の雑音(例えば、駅構内、機内、雑踏等の周囲雑音)を表すベクトルに変換する変動要因推定モデルが学習される。変動要因ベクトル次元数は学習時に与える正の整数値のパラメータであり、変動要因ベクトルの次元を指定する。変動要因ベクトル次元数を大きくすると変動要因をより詳細に表現する変動要因ベクトルが得られるようになるが、学習に必要なフレーム数が増加する。変動要因ベクトル次元数には通常５０〜１００程度の値を指定する。

変動要因推定モデルは、学習用音響特徴量ベクトルの次元と同じ数のノードを持つ入力層と、変動要因ベクトルの次元と同じ数のノードを持つ出力層とを備えた多層パーセプトロン構造のニューラルネットワークであり、以下の手順で学習する。
１．学習用音響特徴量ベクトルの次元と同じ数のノードを持つ入力層と、変動要因IDの種類と同じ数のノードを持つ出力層と、変動要因ベクトルの次元と同じ数のノードを持つ隠れ層（以下、「変動要因層」と書く）とを備えた多層パーセプトロン構造のニューラルネットワークを、学習用音響特徴量ベクトル系列と変動要因ラベル系列を用いて、例えば参考文献１などに記載されている一般的な誤差逆伝播法などで学習する。
（参考文献１）Anil K. Jain, Mao Jianchang, and K. M. Mohiuddin, "Artificial Neural Networks: A Tutorial", IEEE computer, 1996, vol.29, no.3, pp.31-44.
２．変動要因層が出力層となるように、学習したニューラルネットワークの出力層の側から層を削除する。

手順１では音響特徴量ベクトルの変動要因が何であるかを識別するニューラルネットワークが学習されるため、手順１で学習したニューラルネットワークの隠れ層の出力値は変動要因の性質を表す実数ベクトル（変動要因ベクトル）となっている。この変動要因ベクトルを出力するように、手順２で後半の層を削除している。

なお、図３の構成は、音響スコア算出装置１００に含まれてもよいし、別装置として構成し、学習済みの変動要因推定モデルを記憶部１１０に格納してもよい。

＜ベクトル連結部１０３＞
入力：音響特徴量ベクトル系列（音響特徴量抽出部１０１から）、変動要因ベクトル系列（変動要因ベクトル算出部１０２から）
出力：連結ベクトル系列（音響スコア算出部１０４へ）
処理：
ベクトル連結部１０３は、音響特徴量ベクトルと対象変動要因ベクトルとを連結し、連結ベクトルを求める（Ｓ１０３）。例えば、ベクトル連結部１０３は、複数のベクトル系列が入力されると、系列中の各ベクトルを所定の順序で連結した１つのベクトル系列を作成し、出力する。例えば１０フレーム分の音響特徴量ベクトル系列と変動要因ベクトル系列が入力された場合の動作を図４に示す。各系列のフレームの順序は変えず、常に音響特徴量ベクトルの後に変動要因ベクトルを連結する順序で連結した連結ベクトル系列を作成し、出力する。

＜音響スコア算出部１０４＞
入力：連結ベクトル系列（ベクトル連結部１０３から）、音素識別モデル（記憶部１１０から）
出力：音響スコア系列
処理：
音響スコア算出部１０４は、音素識別モデルを用いて、連結ベクトルが各音素に属する確率を表す音響スコアを算出する（Ｓ１０４）。例えば、入力された連結ベクトル系列の各連結ベクトルに、音素識別モデルを用いて、その連結ベクトルが各音素に属する確率（音響スコア）を計算し、音響スコアをフレームの時間順に並べた音響スコア系列を出力する。音素識別モデルは連結ベクトルがどの音素に属すかを識別するニューラルネットワークである。

音響スコア算出部１０４に入力する音素識別モデルのモデルパラメータは事前に学習しておく。音素識別モデルの学習方法を図５に示す。図５の音響特徴量抽出部１０１と変動要因ベクトル算出部１０２とベクトル連結部１０３は図１と同一なので説明は省略する。

＜音素識別モデル学習部１４０＞
入力：学習用連結ベクトル系列（ベクトル連結部１０３から）、音素ラベル系列
出力：音素識別モデル（記憶部１１０へ）
処理：
入力された学習用連結ベクトル系列と音素ラベル系列とから音素識別モデルを学習し、出力する。音素ラベル系列は、学習用連結ベクトル系列の各フレームに対応する音素を並べた系列であり、例えば、人手により、または、元の学習用音響音響特徴量ベクトル系列に対して既存の音素識別技術を用いて算出し、各フレームに対して付与する。音素識別モデルは学習用連結ベクトルの次元と同じ数のノードを持つ入力層と、識別したい音素の種類と同じ数のノードを持つ出力層を備えたニューラルネットワークであり、例えば参考文献１などに記載されている一般的な誤差逆伝播法などで学習する。

音響特徴量ベクトルに加えて変動要因ベクトルもニューラルネットワークに入力されるため、変動要因ベクトルの値に応じて（話者やマイクや周辺雑音などの音響変動要因を考慮して）適切な音素に識別するためのモデルパラメータが学習されることになる。

なお、図５の構成は、音響スコア算出装置１００に含まれてもよいし、別装置として構成し、学習済みの音素識別モデルを記憶部１１０に格納してもよい。

＜効果＞
以上の構成により、音響スコア算出部１０４には通常用いられる音響特徴量ベクトルに加えて変動要因ベクトルが入力され、音響変動要因を考慮した音響スコア計算が行われる。例えば、変動要因推定モデルを学習する際の変動要因IDとして話者IDを用いた場合、変動要因ベクトルは認識対象の音響特徴量ベクトルの話者が誰であるかを表すベクトルとなる。この場合、音響スコア算出部１０４では誰の音声であるか判明している状態で音素を識別することになるため、音響特徴量ベクトルのみを入力する従来技術よりも正確に音素を識別できる（正確な音響スコアが得られる）。音響スコア算出部１０４が出力した音響スコアを用いて音声認識結果候補の探索を行うことにより、話者の変動に対して頑健に（従来技術よりも多くの話者に対して）精度の高い音声認識を行うことができる。

＜変形例＞
本実施形態では、変動要因推定モデルとしてニューラルネットワークを用いたが、他のモデルを用いてもよい。要は、学習用音響特徴量ベクトルと、その学習用音響特徴量ベクトルに対する変動要因ラベルとを与えて学習し、音声認識対象の音響特徴量ベクトルに対して、対応する変動要因ベクトルを返すようなモデルであればどのようなモデルであってもよい。同様に、音素識別モデルとして、ニューラルネットワーク以外のモデルを用いてもよい。要は、学習用連結ベクトルと、その学習用連結ベクトルに対する音素ラベル系列を与えて学習し、音声認識対象の連結ベクトルに対して、対応する音響スコアを返すようなモデルであればどのようなモデルであってもよい。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

本実施形態では、複数の変動要因推定モデルを事前に作成しておき、音声認識（音響スコア算出）時に複数の変動要因ベクトルを連結して用いる。

図６は本実施形態に係る音響スコア算出装置２００の機能ブロック図を、図７はその処理フローを示す。

本実施形態に係る音響スコア算出装置は、音響特徴量抽出部１０１と、N個の変動要因ベクトル算出部１０２−ｎと、ベクトル連結部２０３と、音響スコア算出部１０４と、記憶部２１０とを含む。ただし、Nを2以上の整数の何れか、ｎ=1,2,…,Nである。

＜記憶部２１０＞
記憶部２１０には、N個の変動要因推定モデルが格納される。a番目の変動要因推定モデルの変動要因ベクトルの要因の性質と、b番目の変動要因推定モデルの変動要因ベクトルの要因の性質とが異なるものとする。ただし、a及びbをそれぞれ1,2,…,Nの何れか、a≠bである。例えば、N=2とし、一方の要因を話者とし、他方の要因をマイクとする。変動要因推定モデルの学習方法は第一実施形態と同様である。N種類の性質の異なる変動要因ラベル系列を用いて、性質毎に変動要因推定モデルを学習し、計N個の変動要因推定モデルを学習すればよい。本実施形態では、音響変動要因を複数個とし、複数の変動要因推定モデルを用意する点が第一実施形態と異なる。

＜変動要因ベクトル算出部１０２−ｎ＞
入力：音響特徴量ベクトル系列（音響特徴量抽出部１０１から）、n番目の変動要因推定モデル（記憶部２１０から）
出力：変動要因ベクトル系列（ベクトル連結部１０３へ）
処理：
変動要因ベクトル算出部１０２−ｎは、n番目の変動要因推定モデルを用いて、音声認識対象の音声信号から得られる音響特徴量ベクトルに対する変動要因ベクトルを算出する（Ｓ１０２−ｎ）。例えば、入力された音響特徴量ベクトル系列の各音響特徴量ベクトルに、n番目の変動要因推定モデルを用いて、その音響特徴量ベクトルの音響変動要因を表す変動要因ベクトルを算出し、得られた変動要因ベクトルをフレームの時間順に並べた変動要因ベクトル系列をベクトル連結部２０３に出力する。変動要因ベクトルは入力された音響特徴量ベクトルと同じ個数得られるため、音響特徴量ベクトル系列とN個の変動要因ベクトル系列のフレーム数は全て同じになる。

＜ベクトル連結部２０３＞
入力：音響特徴量ベクトル系列（音響特徴量抽出部１０１から）、N個の変動要因ベクトル系列（変動要因ベクトル算出部１０２−１，１０２−２，…，１０２−Ｎから）
出力：連結ベクトル系列（音響スコア算出部１０４へ）
処理：
ベクトル連結部２０３は、音響特徴量ベクトルとN個の変動要因ベクトルとを連結し、連結ベクトルを求める（Ｓ２０３）。例えば、ベクトル連結部２０３は、複数のベクトル系列が入力されると、系列中の各ベクトルを所定の順序で連結した１つのベクトル系列を作成し、出力する。例えば１０フレーム分の音響特徴量ベクトル系列とN個の変動要因ベクトル系列が入力された場合の動作を図８に示す。各系列のフレームの順序は変えず、常に音響特徴量ベクトルの後に1番目の変動要因ベクトル、2番目の変動要因ベクトル、…、N番目の変動要因ベクトルの順序で連結した連結ベクトル系列を作成し、出力する。

＜効果＞
このような構成とすることで、第一実施形態と同様の効果を得ることができる。例えば、N=2とし、話者とマイクそれぞれの変動要因推定モデルを用いると、話者とマイクが何であるか判明している状態で音響スコアが算出されるため、より正確な音響スコアを求めることが可能となり、より多くの話者およびマイクの組み合わせに対して精度の高い音声認識を行うことが可能となる。さらに雑音の変動要因推定モデルなどを加えて３つ以上の変動要因推定モデルを用いても良い。

なお、性質の異なる音響変動要因を一つの変動要因推定モデルで表すこともできるが、本実施形態のように音響変動要因の性質毎に変動要因推定モデルを分けることで、より正確な音響スコアを求めることができる。

＜第三実施形態＞
第二実施形態と異なる部分を中心に説明する。

図９は第三実施形態に係る音響スコア算出装置３００の機能ブロック図を、図１０はその処理フローを示す。

本実施形態に係る音響スコア算出装置３００は、音響特徴量抽出部１０１と、変動要因ベクトル算出部３０２と、ベクトル連結部３０３と、音響スコア算出部１０４と、記憶部３１０とを含む。

複数の変動要因推定モデルを用いる際は、本実施形態の構成をとることも可能である。例えば、２個の変動要因推定モデルを用いる場合、まず音響特徴量ベクトル系列から第一の変動要因ベクトル系列を算出し、音響特徴量ベクトル系列に第一の変動要因ベクトル系列を連結した第一の連結ベクトルを用いて第二の変動要因ベクトル系列を算出する。そして、音響特徴量ベクトル系列と第一の変動要因ベクトル系列と第二の変動要因ベクトル系列とを連結した（言い換えると、第一の連結ベクトルと第二の変動要因ベクトル系列とを連結した）第二連結ベクトルを用いて音響スコアを算出する。

第二実施形態と異なり、第二の変動要因ベクトル系列を算出する際に第一の変動要因ベクトル系列を用いることにより、第二の変動要因ベクトル系列をより正確に算出することが可能となる。例えば第一の変動要因を話者、第二の変動要因をマイクとすれば、話者が誰であるか判明している状態でマイクが何であるかを推定することになり、話者が不明な状態で（＝音響特徴量ベクトルのみを用いて）マイクを推定する第二実施形態の構成よりも正確な変動要因ベクトル系列を算出することができる。変動要因ベクトル系列の推定が正確になることで、音響スコア算出部で計算される音響スコアも正確になるため、第二実施形態の構成よりも大きな音声認識精度の改善が得られる。

本実施形態の構成においても３つ以上の変動要因推定モデルを用いても良い。

＜記憶部３１０＞
記憶部３１０には、N個の変動要因推定モデルが格納される。a番目の変動要因推定モデルの変動要因ベクトルの要因の性質と、b番目の変動要因推定モデルの変動要因ベクトルの要因の性質とが異なるものとする。例えば、N=2とし、一番目の要因を話者とし、二番目の要因をマイクとする。

＜変動要因ベクトル算出部３０２＞
入力：音響特徴量ベクトル系列（音響特徴量抽出部１０１から）、n-1番目の連結ベクトル系列（ベクトル連結部３０３）、n番目の変動要因推定モデル（記憶部２１０から）
出力：n番目の変動要因ベクトル系列（ベクトル連結部１０３へ）
処理：
変動要因ベクトル算出部３０２は、n番目の変動要因推定モデルを用いて、音響特徴量ベクトルと1番目から(n-1)番目までの変動要因ベクトルとを連結して得られる(n-1)番目の連結ベクトルに対するn番目の変動要因ベクトルを算出する（Ｓ３０２）。ただし、n=1のときは、(n-1)番目の連結ベクトルが存在しないため、第一実施形態と同様に、音響特徴量ベクトルに対する変動要因ベクトルを算出する。例えば、入力された(n-1)番目の連結ベクトル系列の各連結ベクトルに、n番目の変動要因推定モデルを用いて、その連結ベクトルの音響変動要因を表す変動要因ベクトルを算出し、得られた変動要因ベクトルをフレームの時間順に並べた変動要因ベクトル系列をベクトル連結部３０３に出力する。変動要因ベクトルは入力された(n-1)番目の連結ベクトルと同じ個数得られるため、(n-1)番目の連結ベクトル系列と変動要因ベクトル系列のフレーム数は全て同じになる。

変動要因推定モデルの学習方法を図１１に示す。図１１の音響特徴量抽出部１０１は図９と同一なので説明は省略する。

＜変動要因推定モデル学習部４２０＞
入力：学習用音響特徴量ベクトル系列（音響特徴量抽出部１０１から）、（n-1）番目の学習用連結ベクトル系列（ベクトル連結部４５０から）、n番目の変動要因ラベル系列、変動要因ベクトル次元数
出力：n番目の変動要因推定モデル（記憶部１１０及び要因ベクトル算出部４４０へ）
処理：
入力された学習用音響特徴量ベクトル系列と、（n-1）番目の学習用連結ベクトル系列と、n番目の変動要因ラベル系列と変動要因ベクトル次元数からn番目の変動要因推定モデルを学習し、出力する。モデルの学習方法は、第一実施形態と同様であり、「学習用音響特徴量ベクトル系列」に代えて、「（n-1）番目の学習用連結ベクトル」を用いる点が異なる。ただし、n=1のときは、学習用連結ベクトル系列ではなく、第一実施形態と同様に学習用音響特徴量ベクトル系列を入力とする。

＜変動要因ベクトル算出部４４０＞
入力：学習用音響特徴量ベクトル系列（音響特徴量抽出部１０１から）、n-1番目の学習用連結ベクトル系列（ベクトル連結部４５０から）、n番目の変動要因推定モデル（変動要因推定モデル学習部４２０から）
出力：n番目の学習用変動要因ベクトル系列（ベクトル連結部４５０及び記憶部３１０へ）
処理：
変動要因ベクトル算出部４４０は、n番目の変動要因推定モデルを用いて、音響特徴量ベクトルと1番目から(n-1)番目までの学習用変動要因ベクトルとを連結して得られる(n-1)番目の学習用連結ベクトルに対するn番目の学習用変動要因ベクトルを算出する。ただし、n=1のときは、(n-1)番目の学習用連結ベクトルが存在しないため、第一実施形態と同様に、音響特徴量ベクトルに対する学習用変動要因ベクトルを算出する。例えば、入力された(n-1)番目の学習用連結ベクトル系列の各学習用連結ベクトルに、n番目の変動要因推定モデルを用いて、その学習用連結ベクトルの音響変動要因を表す学習用変動要因ベクトルを算出し、得られた学習用変動要因ベクトルをフレームの時間順に並べた学習用変動要因ベクトル系列をベクトル連結部４５０に出力する。学習用変動要因ベクトルは入力された(n-1)番目の学習用連結ベクトルと同じ個数得られるため、(n-1)番目の学習用連結ベクトル系列と学習用変動要因ベクトル系列のフレーム数は全て同じになる。

＜ベクトル連結部４５０＞
入力：学習用音響特徴量ベクトル系列（音響特徴量抽出部１０１から）、n番目の学習用変動要因ベクトル系列（変動要因ベクトル算出部４４０から）
出力： n番目の学習用連結ベクトル系列（変動要因推定モデル学習部４２０及び変動要因ベクトル算出部４４０へ）
処理：
ベクトル連結部４５０では、学習用音響特徴量ベクトルと、1番目〜n番目の学習用変動要因ベクトルとを連結し、n番目の学習用連結ベクトルを求める。別の言い方をすると、(n-1)番目の学習用連結ベクトル(1つ前の学習用連結ベクトル)とn番目の学習用変動要因ベクトルとを連結し、n番目の学習用連結ベクトルを求める。例えば、ベクトル連結部４５０は、複数のベクトル系列が入力されると、系列中の各ベクトルを所定の順序で連結した１つのベクトル系列を作成し、出力する。例えばn番目の学習用変動要因ベクトル系列が入力された場合、各系列のフレームの順序は変えず、(n-1)番目の学習用連結ベクトル系列の後に、n番目の学習用変動要因ベクトル系列を連結したn番目の連結ベクトル系列を作成し、出力する。

上述の方法をN回繰り返し、N個の変動要因推定モデルを求める。

＜ベクトル連結部３０３＞
入力：音響特徴量ベクトル系列（音響特徴量抽出部１０１から）、n番目の変動要因ベクトル系列（変動要因ベクトル算出部３０２から）
出力：n番目の連結ベクトル系列(ただし、n=1,2,…,N-1、変動要因ベクトル算出部３０２へ)、N番目の連結ベクトル系列（音響スコア算出部１０４へ）
処理：
ベクトル連結部３０３では、音響特徴量ベクトルと1番目〜n番目の対象変動要因ベクトルとを連結し、n番目の連結ベクトルを求める（Ｓ３０３）。具体的な処理は、ベクトル連結部４５０と同様である。

N個の変動要因ベクトルを連結するまで、Ｓ３０２〜Ｓ３０３を繰り返す（Ｓ３０５）。

＜音響スコア算出部１０４＞
入力：音響特徴量ベクトルとN番目の連結ベクトル系列（ベクトル連結部３０３から）、音素識別モデル
出力：音響スコア系列
処理：
音響スコア算出部１０４は、音素識別モデルを用いて、N番目の連結ベクトル系列が各音素に属する確率を表す音響スコアを算出する（Ｓ１０４）。例えば、N番目の連結ベクトルに、音素識別モデルを用いて、その連結ベクトルが各音素に属する確率（音響スコア）を計算し、音響スコアをフレームの時間順に並べた音響スコア系列を出力する。音素識別モデルはN番目の連結ベクトルがどの音素に属すかを識別するニューラルネットワークである。学習方法は、第一実施形態と同様である。ただし、学習用連結ベクトル系列として、学習用音響特徴量ベクトルと1番目〜N番目の学習用変動要因ベクトルとを連結したN番目の学習用連結ベクトル系列を用いる点が異なる。

＜効果＞
このような構成により、第二実施形態と同様の効果を得ることができる。さらに、n番目の変動要因ベクトル系列を算出する際に(n-1)番目の変動要因ベクトル系列を用いることにより、n番目の変動要因ベクトル系列をより正確に算出することが可能となる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

ある音素に対して基準となる音声に変動を与える要因を音響変動要因とし、その音響変動要因を表すベクトルを変動要因ベクトルとし、
音響特徴量ベクトルを変動要因ベクトルに変換する変動要因推定モデルと、音響特徴量ベクトルとその音響特徴量ベクトルに対応する変動要因ベクトルとを連結した連結ベクトルがどの音素に属すかを識別する音素識別モデルとが格納される記憶部と、
前記変動要因推定モデルを用いて、音声認識対象の音声信号から得られる音響特徴量ベクトルである対象音響特徴量ベクトルに対する変動要因ベクトルである対象変動要因ベクトルを算出する変動要因ベクトル算出部と、
前記対象音響特徴量ベクトルと前記対象変動要因ベクトルとを連結し、対象連結ベクトルを求めるベクトル連結部と、
前記音素識別モデルを用いて、前記対象連結ベクトルが各音素に属する確率を表す音響スコアを算出する音響スコア算出部とを含む、
音響スコア算出装置。
請求項１の音響スコア算出装置であって、
Nを2以上の整数の何れか、a及びbをそれぞれ1,2,…,Nの何れか、a≠b、n=1,2,…,Nとし、N個の変動要因ベクトル算出部を含み、
前記記憶部にはN個の変動要因推定モデルが格納され、a番目の変動要因推定モデルの変動要因ベクトルの要因の性質と、b番目の変動要因推定モデルの変動要因ベクトルの要因の性質とが異なり、
n番目の変動要因ベクトル算出部は、n番目の変動要因推定モデルを用いて、音声認識対象の音声信号から得られる音響特徴量ベクトルである対象音響特徴量ベクトルに対する変動要因ベクトルである対象変動要因ベクトルを算出し、
前記ベクトル連結部では、前記対象音響特徴量ベクトルとN個の対象変動要因ベクトルとを連結し、対象連結ベクトルを求める、
音響スコア算出装置。
請求項１の音響スコア算出装置であって、
Nを2以上の整数の何れか、a及びbをそれぞれ1,2,…,Nの何れか、a≠b、n=2,3,…,Nとし、
前記記憶部にはN個の変動要因推定モデルが格納され、a番目の変動要因推定モデルの変動要因ベクトルの要因の性質と、b番目の変動要因推定モデルの変動要因ベクトルの要因の性質とが異なり、
前記変動要因ベクトル算出部では、n番目の変動要因推定モデルを用いて、前記対象音響特徴量ベクトルと1番目から(n-1)番目までの対象変動要因ベクトルとを連結して得られる(n-1)番目の対象連結ベクトルに対する対象変動要因ベクトルを算出し、
前記ベクトル連結部では、前記(n-1)番目の対象連結ベクトルとn番目の対象変動要因ベクトルとを連結し、n番目の対象連結ベクトルを求め、
音響スコア算出部は、前記音素識別モデルを用いて、N番目の対象連結ベクトルが各音素に属する確率を表す音響スコアを算出する、
音響スコア算出装置。
請求項１から請求項３の何れかの音響スコア算出装置であって、
前記変動要因推定モデルは、学習用の音声信号から得られる音響特徴量ベクトルである学習用音響特徴量ベクトルと、その学習用音響特徴量ベクトルの変動要因を表す変動要因ラベルと、変動要因ベクトルの次元数とを用いて学習されるモデルであって、学習用音響特徴量ベクトルの次元と同じ数のノードを持つ入力層と、変動要因ベクトルの次元と同じ数のノードを持つ出力層とを備えた多層パーセプトロン構造のニューラルネットワークからなる、
音響スコア算出装置。
請求項１から請求項４の何れかの音響スコア算出装置であって、
前記音素識別モデルは、学習用の音声信号から得られる音響特徴量ベクトルである学習用音響特徴量ベクトルと、その学習用音響特徴量に対応する変動要因ベクトルとを連結した学習用連結ベクトルと、その学習用連結ベクトルに対応する音素ラベルとを用いて学習されるモデルであって、学習用連結ベクトルの次元と同じ数のノードを持つ入力層と、識別したい音素の種類と同じ数のノードを持つ出力層を備えたニューラルネットワークからなる、
音響スコア算出装置。
ある音素に対して基準となる音声に変動を与える要因を音響変動要因とし、その音響変動要因を表すベクトルを変動要因ベクトルとし、
変動要因ベクトル算出部が、音響特徴量ベクトルを変動要因ベクトルに変換する変動要因推定モデルを用いて、音声認識対象の音声信号から得られる音響特徴量ベクトルである対象音響特徴量ベクトルに対する変動要因ベクトルである対象変動要因ベクトルを算出する変動要因ベクトル算出ステップと、
ベクトル連結部が、前記対象音響特徴量ベクトルと前記対象変動要因ベクトルとを連結し、対象連結ベクトルを求めるベクトル連結ステップと、
音響スコア算出部が、音響特徴量ベクトルとその音響特徴量ベクトルに対応する変動要因ベクトルとを連結した連結ベクトルがどの音素に属すかを識別する音素識別モデルを用いて、前記対象連結ベクトルが各音素に属する確率を表す音響スコアを算出する音響スコア算出ステップとを含む、
音響スコア算出方法。
請求項１から請求項５の何れかの音響スコア算出装置として、コンピュータを機能させるためのプログラム。