JP6267667B2

JP6267667B2 - 学習データ生成装置、方法及びプログラム

Info

Publication number: JP6267667B2
Application number: JP2015040322A
Authority: JP
Inventors: 太一浅見; 隆伸大庭; 阪内　澄宇; 澄宇阪内
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-03-02
Filing date: 2015-03-02
Publication date: 2018-01-24
Anticipated expiration: 2035-03-02
Also published as: JP2016161762A

Description

この発明は、高い精度で話者認識を行える話者特徴量抽出モデルの学習データ生成技術に関する。

入力された音声信号から話者認識に利用する話者特徴量ベクトルを算出する方法が非特許文献１において開示されている。入力された音声信号（通常は１センテンスを発声した「発話」と呼ばれる区間の音声信号が入力される）を数十ｍｓｅｃの音響分析フレームに分割し、各音響分析フレームの音響特徴量ベクトルを抽出して時間順に並べた音響特徴量ベクトル系列を作成し、音響特徴量ベクトル系列から以下の式（１）により話者特徴量ベクトルｗを算出する。以下の式（１）は、非特許文献１の式（１３）に対応している。

w=(I+T'Σ^-1NuT)^-1TΣ^-1Fu …（１）
Ｉは単位行列、「'」は行列の転置を表す。ＮｕおよびＦｕは、それぞれ入力された音響特徴量ベクトル系列を用いて所定の混合正規分布に対して計算した０次統計量および１次統計量である。ＴとΣは話者特徴量抽出モデルのパラメータであり、話者特徴量抽出の前に学習しておく。

同一話者の発話から得られる話者特徴量ベクトルは類似する（コサイン類似度の値が高くなる）性質を持つため、話者特徴量ベクトルを用いて話者認識を行うことができる。

小川哲司，塩田さやか，"i-vectorを用いた話者認識，"日本音響学会誌70巻6号，pp.332-339，2014年6月．

非特許文献１に記載されている従来技術は、話者特徴量抽出モデルのパラメータＴとΣを推定するための学習用発話セット（以降「学習セット」と書く）を必要とする。精度の高い話者特徴量抽出モデルを学習するために、学習セットには多様な話者、多様な収録機器、多様な周辺雑音環境で収録された発話が含まれることが望ましいが、学習セットの発話数が多くなるほど学習処理にかかる時間が長くなり、メモリ使用量も大きくなるため、現実的に利用できる学習セットの大きさには上限がある（通常は数万発話程度）。そのため、通常は多様な話者、収録機器、周辺雑音環境で収録された数百万発話からなる大規模な音声データセット（以降「母体セット」と書く）からランダムに数万発話を選択して学習セットとして利用する。母体セットの各発話に話者、収録機器、周辺雑音が何であるかを表すラベルが付与されていればラベルを用いて選択することも可能だが、大規模な音声データセットにラベルを付与する作業はコストが高く実際に行うことは現実的でないため、ランダム選択によって学習セットを作成することになる。

しかし、ランダム選択によって得られる学習セットは、母体セットに含まれる多様な話者、収録機器、周辺雑音を十分に網羅できているとは限らない。学習セットに含まれる話者の多様性が低くなった場合、学習される話者特徴量抽出モデルのパラメータＴとΣは良い値とならず、異なる話者の話者特徴量ベクトルが類似してしまい話者認識性能が低下する可能性がある。学習セットに含まれる収録機器の多様性が低くなった場合も、同じ話者でも収録機器が異なる場合に話者特徴量ベクトルがかけ離れてしまい、話者認識性能が低下する可能性がある。学習セットに含まれる周辺雑音の多様性が低くなった場合も同様に、同じ話者でも周辺雑音が異なる場合に話者特徴量ベクトルがかけ離れてしまい、話者認識性能が低下する可能性がある。

この発明の目的は、多様な話者、収録機器、周辺雑音を含む学習データを生成する学習データ生成装置、方法及びプログラムを提供することである。

この発明の一態様による学習データ生成装置は、母体セットに含まれる各発話の音声信号から音響特徴量ベクトル群を抽出する音響特徴量抽出部と、音響特徴量ベクトル群に対して所定の混合数Ｍの混合正規分布を当てはめることにより混合正規分布を得る混合正規分布当てはめ部と、得られた混合正規分布を構成するＭ個の正規分布のそれぞれをコンポーネントとして、音響特徴量ベクトル群を用いて母体セットにおける各コンポーネントの含有量を計算するコンポーネント含有量計算部と、母体セットにおける各コンポーネントの含有量に基づいて、母体セットに含まれる発話の中から、学習セットにおける各コンポーネントの構成比が母体セットにおける各コンポーネントの構成比に近くなるように発話を選択することにより学習データを生成する発話選択部と、を備えている。

多様な話者、収録機器、周辺雑音を含む学習データを生成することができる。

学習データ生成装置の例を説明するためのブロック図。学習データ生成方法の例を説明するための流れ図。

［技術的背景］
この発明の発想の１つは、発話集合に含まれる音響的性質（話者・収録機器・周辺雑音）の多様性を表す発話集合の多様性スコアを算出し、多様性スコアが高くなる発話集合を母体セットから選び出し、学習セットとすることである。

多様性スコアは、「発話集合が、母体セットの音声を構成するコンポーネント（部品）を満遍なく含む場合、多様性スコアは高い」という考えに基づいて算出される。まず、母体セットの全フレームの音響特徴量ベクトルに対して混合正規分布を当てはめることにより、母体セットをコンポーネント（混合正規分布の各正規分布）に分解する。次に、母体セット中の各発話がどのコンポーネントをどの程度含有しているかを、混合正規分布の各正規分布に対する尤度を基に算出する。母体セットから発話を１つ学習セットとして選択すると、選択した発話に含有されるコンポーネントが学習セットに追加されることになる。いくつかの発話を選択して作成した学習セットに含まれるコンポーネントの構成比が、母体セット全体のコンポーネントの構成比に近い場合、学習セットは母体セットのコンポーネントを満遍なく含むと言える。そこで、学習セットに含まれる各コンポーネントの構成比が母体セットのコンポーネントの構成比に近い場合に値が高くなる以下の式により、学習セットＵの多様性スコアＤ（Ｕ）を算出する。

Ｍは混合正規分布の混合数（コンポーネント数）、ｗ_ｉは母体セット中のｉ番目のコンポーネントの割合、ｆ_ｉUは学習セットＵ中のｉ番目のコンポーネントの含有量である。

［発明が解決しようとする課題］の欄で述べたように、話者特徴量抽出モデルの学習セットには計算時間とメモリ使用量の制約によりサイズの上限（数万発話）がある。学習セットの発話数の上限値をＣとすると、｜Ｕ｜≦Ｃを満たす範囲で、Ｄ(Ｕ)ができるだけ大きくなるように学習セットＵを母体セットから選び出すことで、多様な話者、収録機器、周辺雑音を満遍なく含む学習セットを母体セットから選別することができる。｜Ｕ｜は、学習セットＵに含まれる発話の数である。

しかし、数百万発話からなる母体セットから数万発話を選び出す組み合わせ数は膨大であり、全ての発話の組み合わせについてＤ(Ｕ)の値を計算し、最大となるＵを見つけ出すことは現実的な時間では不可能である。そこで、貪欲法により｜Ｕ｜＝Ｃとなるまで母体セットから１発話ずつ学習セットＵに追加していくことで、現実的な処理時間で学習セットＵを選び出す。多様性スコアＤ(Ｕ)は劣モジュラ関数であるため、貪欲法で発話を選択することによりＤ(Ｕ)を近似的に最大化するＵを得ることが可能である。

［実施形態］
以下、図面を参照して、この発明の実施形態の例について説明する。

学習データ生成装置は、音響特徴量抽出部１０１、混合正規分布当てはめ部１０２及びコンポーネント含有量計算部１０３を例えば備えている。この学習データ生成装置が図２に例示する各ステップ処理を行うことにより、学習データ生成方法が実現される。

＜音響特徴量抽出部１０１＞
入力：音響特徴量抽出部１０１には、母体セットが入力される。

出力：母体セットの各発話の音響特徴量ベクトル群（混合正規分布当てはめ部１０２およびコンポーネント含有量計算部１０３へ）
処理：音響特徴量抽出部１０１は、入力された母体セットに含まれる各発話の音声信号から音響特徴量ベクトル群を抽出する（ステップＳ１）。抽出された母体セットの各発話の音響特徴量ベクトル群は、混合正規分布当てはめ部１０２及びコンポーネント含有量計算部１０３に出力される。

音響特徴量ベクトル群の抽出では、各発話の音声信号を数十ｍｓｅｃの音響分析フレームに分割し、各音響分析フレームから音響特徴量ベクトルを抽出することで、音響特徴量ベクトル群を得る。各フレームの音響特徴量ベクトルは実数値ベクトルであり、ＭＦＣＣやＬＰＣケプストラムなど既存のいずれの手法で抽出しても構わない。

＜混合正規分布当てはめ部１０２＞
入力：母体セットの各発話の音響特徴量ベクトル群（音響特徴量抽出部１０１から）、混合数Ｍ
出力：混合正規分布（コンポーネント含有量計算部１０３および各正規分布の混合重みは発話選択部１０４へ）
処理：混合正規分布当てはめ部１０２は、入力された母体セットの各発話の音響特徴量ベクトル群に対して、入力された混合数Ｍの混合正規分布を当てはめて各正規分布の混合重みと平均ベクトルと共分散行列を求め、得られた混合正規分布を出力する（ステップＳ２）。次のコンポーネント含有量計算部１０３において、混合正規分布の各正規分布が１つのコンポーネントと見なされる。

混合正規分布の当てはめ（混合重みと平均ベクトルと共分散行列の推定）には例えば参考文献１などに記載されている一般的なＥＭアルゴリズムを用いる。混合数Ｍは１以上の整数であり、大きくするとより精緻に音響特徴量をコンポーネントに分解することができるが、混合正規分布のパラメータ数が増加するため推定に必要な音響特徴量ベクトルの数が増加する。通常は５１２程度の混合数Ｍを用いる。

〔参考文献１〕C.M. ビショップ，“パターン認識と機械学習下”，pp.154-155，シュプリンガー・ジャパン株式会社，2008-07-01．

＜コンポーネント含有量計算部１０３＞
入力：母体セットの各発話の音響特徴量ベクトル群（音響特徴量抽出部１０１から）、混合正規分布（混合正規分布当てはめ部１０２から）
出力：母体セットの各発話のコンポーネント含有量
処理：コンポーネント含有量計算部１０３は、入力された母体セットの各発話の音響特徴量ベクトル群と混合正規分布を用いて、母体セットの各発話のコンポーネント含有量を計算し、出力する。

コンポーネントは混合正規分布の混合数Ｍ個あり、コンポーネントごとに含有量を計算する。ある１発話のコンポーネント含有量は、当該発話の各音響特徴量ベクトルのコンポーネント含有量の総和である。１つの音響特徴量ベクトルのコンポーネント含有量は以下のように計算される。

（１）コンポーネント含有量計算部１０３は、対象の音響特徴量ベクトルｘに対して、１番目からＭ番目までの全ての正規分布における尤度を計算する。ｍ番目の正規分布の平均ベクトルをμｍ、共分散行列をＳｍとすると、音響特徴量ベクトルｘに対するｍ番目の正規分布の尤度Lｍは以下の式で計算される。ｄは音響特徴量ベクトルの次元数である。

（２）コンポーネント含有量計算部１０３は、得られたＬ１〜ＬＭまでのＭ個の尤度を、和が１となるように正規化する。

（２）の手順で得られるＰ１〜ＰＭまでのＭ個の正規化された尤度が、音響特徴量ベクトルｘの各コンポーネント含有量である。コンポーネント含有量計算部１０３は、当該発話中の各音響特徴量ベクトルのコンポーネント含有量を計算し、コンポーネントごとに発話内で総和を取ることで、当該発話のコンポーネント含有量を計算する。

コンポーネント含有量計算部１０３は、母体セットの各発話に対して以上の手順でコンポーネント含有量計算を行い、母体セットの各発話のコンポーネント含有量（各発話が各コンポーネントをどれだけ含有しているか）を得る（ステップＳ３）。

＜発話選択部１０４＞
入力：母体セット、母体セットの各発話のコンポーネント含有量（コンポーネント含有量計算部１０３から）、混合正規分布の各正規分布の混合重み（混合正規分布当てはめ部１０２から）、発話数上限値Ｃ
出力：学習セット
処理：発話選択部１０４は、入力された母体セットの各発話のコンポーネント含有量と各正規分布の混合重みと発話数上限値Ｃを用いて、母体セットから発話を選択して学習セットとして出力する。

発話選択は貪欲法を用いて以下の手順で行われる。

（０）発話選択部１０４は、学習セットＵを空集合に初期化する。母体セットを母体セットの全発話を要素とする集合に初期化する。

（１）発話選択部１０４は、学習セットＵに母体セット中の各発話を追加したときの多様性スコアの上昇値を計算する。母体セット中のｎ番目の発話ｕ_ｎを学習セットに追加したときの多様性スコアの上昇値Improve_nは以下の式（５）及び式（２）で計算される。

ｗ_ｉはｉ番目の正規分布の混合重み、ｆ_ｉＵはＵに含まれる全発話のｉ番目のコンポーネント含有量の総和である。

（２）発話選択部１０４は、最も大きく多様性スコアを上昇させる発話を母体セットから学習セットＵに移動する。

（３）発話選択部１０４は、学習セットＵの発話数がＣ未満であれば手順（１）に戻って繰り返す。発話選択部１０４は、学習セットＵの発話数がＣになれば終了し学習セットＵを学習データとして出力する。

Ｃは１以上母体セットの発話数以下の整数であり、最終的に出力される学習セットの発話数を表す。Ｃを大きくすれば母体セットの話者・収録機器・周辺雑音をより多様に含む学習セットを得られるが、学習セットの発話数が大きくなるため話者特徴量抽出モデルの学習時に処理時間とメモリ使用量が大きくなる。通常は３〜５万程度の値に設定する。

手順（１）と（２）により、学習セットＵの中の各コンポーネントの構成比が混合正規分布の混合重み（＝母体セットの各コンポーネントの構成比）に近づくように発話が順次選択されていく。そのため、学習セットの発話数の上限値Ｃという制約の中で、可能な限り母体セットの各コンポーネントの構成比を忠実に再現するように発話集合が選択され、学習セットとして出力されることになる。

なお、多様性スコアＤ(Ｕ)は劣モジュラ関数であるため、例えば参考文献２に記載されている、最大化したい関数が劣モジュラ関数である場合に上記の貪欲法と同一の学習セットをより少ない処理量で得られる高速化法を用いても構わない。

〔参考文献２〕Jure Leskovec, Andreas Krause, Carlos Guestrin, Christos Faloutsos, Jeanne VanBriesen and Natalie Glance, “Cost-effective outbreak detection in networks,” in Proceedings of the 13^th ACM SIGKDD international conference on Knowledge discovery and data mining, pp.420-429, 2007.

以上の構成により、発話選択部１０４では、学習セットの各コンポーネントの構成比が母体セットの各コンポーネントの構成比に近くなるように（つまり、母体セットに含まれる多様な話者・収録機器・周辺雑音を満遍なく含むように）発話を選択した学習セットが出力される（ステップＳ４）。この学習セットから学習した話者特徴量抽出モデルを用いることにより、発話をランダム選択して作成した学習セットを使った場合よりも高い精度で話者認識を行うことができる。

[プログラム及び記録媒体]
上記学習データ生成装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、学習データ選択置における各処理をコンピュータによって実現する場合、その各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

１０１音響特徴量抽出部
１０２混合正規分布当てはめ部
１０３コンポーネント含有量計算部
１０４発話選択部

Claims

母体セットに含まれる各発話の音声信号から音響特徴量ベクトル群を抽出する音響特徴量抽出部と、
上記音響特徴量ベクトル群に対して所定の混合数Ｍの混合正規分布を当てはめることにより混合正規分布を得る混合正規分布当てはめ部と、
上記得られた混合正規分布を構成するＭ個の正規分布のそれぞれをコンポーネントとして、上記音響特徴量ベクトル群を用いて上記母体セットにおける各コンポーネントの含有量を計算するコンポーネント含有量計算部と、
上記母体セットにおける各コンポーネントの含有量に基づいて、上記母体セットに含まれる発話の中から、学習セットにおける各コンポーネントの構成比が上記母体セットにおける各コンポーネントの構成比に近くなるように発話を選択することにより学習データを生成する発話選択部と、
を含む学習データ生成装置。
請求項１の学習データ生成装置において、
上記発話選択部は、上記母体セットにおける各コンポーネントの含有量に基づいて、上記母体セットに含まれる発話の中から、発話を追加した後の学習セットにおける各コンポーネントの構成比が上記母体セットにおける各コンポーネントの構成比に近くなるように１個の発話を選択し学習セットに追加する処理を繰り返すことにより学習データを生成する、
学習データ生成装置。
母体セットに含まれる各発話の音声信号から音響特徴量ベクトル群を抽出する音響特徴量抽出ステップと、
上記音響特徴量ベクトル群に対して所定の混合数Ｍの混合正規分布を当てはめることにより混合正規分布を得る混合正規分布当てはめステップと、
上記得られた混合正規分布を構成するＭ個の正規分布のそれぞれをコンポーネントとして、上記音響特徴量ベクトル群を用いて上記母体セットにおける各コンポーネントの含有量を計算するコンポーネント含有量計算ステップと、
上記母体セットにおける各コンポーネントの含有量に基づいて、上記母体セットに含まれる発話の中から、学習セットにおける各コンポーネントの構成比が上記母体セットにおける各コンポーネントの構成比に近くなるように発話を選択することにより学習データを生成する発話選択ステップと、
を含む学習データ生成方法。
請求項１又は２の学習データ生成装置の各部としてコンピュータを機能させるためのプログラム。