JP6267667B2 - 学習データ生成装置、方法及びプログラム - Google Patents

学習データ生成装置、方法及びプログラム Download PDF

Info

Publication number
JP6267667B2
JP6267667B2 JP2015040322A JP2015040322A JP6267667B2 JP 6267667 B2 JP6267667 B2 JP 6267667B2 JP 2015040322 A JP2015040322 A JP 2015040322A JP 2015040322 A JP2015040322 A JP 2015040322A JP 6267667 B2 JP6267667 B2 JP 6267667B2
Authority
JP
Japan
Prior art keywords
component
utterance
normal distribution
learning
acoustic feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015040322A
Other languages
English (en)
Other versions
JP2016161762A (ja
Inventor
太一 浅見
太一 浅見
隆伸 大庭
隆伸 大庭
阪内 澄宇
澄宇 阪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015040322A priority Critical patent/JP6267667B2/ja
Publication of JP2016161762A publication Critical patent/JP2016161762A/ja
Application granted granted Critical
Publication of JP6267667B2 publication Critical patent/JP6267667B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、高い精度で話者認識を行える話者特徴量抽出モデルの学習データ生成技術に関する。
入力された音声信号から話者認識に利用する話者特徴量ベクトルを算出する方法が非特許文献1において開示されている。入力された音声信号(通常は1センテンスを発声した「発話」と呼ばれる区間の音声信号が入力される)を数十msecの音響分析フレームに分割し、各音響分析フレームの音響特徴量ベクトルを抽出して時間順に並べた音響特徴量ベクトル系列を作成し、音響特徴量ベクトル系列から以下の式(1)により話者特徴量ベクトルwを算出する。以下の式(1)は、非特許文献1の式(13)に対応している。
w=(I+T'Σ-1NuT)-1-1Fu …(1)
Iは単位行列、「'」は行列の転置を表す。NuおよびFuは、それぞれ入力された音響特徴量ベクトル系列を用いて所定の混合正規分布に対して計算した0次統計量および1次統計量である。TとΣは話者特徴量抽出モデルのパラメータであり、話者特徴量抽出の前に学習しておく。
同一話者の発話から得られる話者特徴量ベクトルは類似する(コサイン類似度の値が高くなる)性質を持つため、話者特徴量ベクトルを用いて話者認識を行うことができる。
小川哲司,塩田さやか,"i-vectorを用いた話者認識,"日本音響学会誌70巻6号,pp.332-339,2014年6月.
非特許文献1に記載されている従来技術は、話者特徴量抽出モデルのパラメータTとΣを推定するための学習用発話セット(以降「学習セット」と書く)を必要とする。精度の高い話者特徴量抽出モデルを学習するために、学習セットには多様な話者、多様な収録機器、多様な周辺雑音環境で収録された発話が含まれることが望ましいが、学習セットの発話数が多くなるほど学習処理にかかる時間が長くなり、メモリ使用量も大きくなるため、現実的に利用できる学習セットの大きさには上限がある(通常は数万発話程度)。そのため、通常は多様な話者、収録機器、周辺雑音環境で収録された数百万発話からなる大規模な音声データセット(以降「母体セット」と書く)からランダムに数万発話を選択して学習セットとして利用する。母体セットの各発話に話者、収録機器、周辺雑音が何であるかを表すラベルが付与されていればラベルを用いて選択することも可能だが、大規模な音声データセットにラベルを付与する作業はコストが高く実際に行うことは現実的でないため、ランダム選択によって学習セットを作成することになる。
しかし、ランダム選択によって得られる学習セットは、母体セットに含まれる多様な話者、収録機器、周辺雑音を十分に網羅できているとは限らない。学習セットに含まれる話者の多様性が低くなった場合、学習される話者特徴量抽出モデルのパラメータTとΣは良い値とならず、異なる話者の話者特徴量ベクトルが類似してしまい話者認識性能が低下する可能性がある。学習セットに含まれる収録機器の多様性が低くなった場合も、同じ話者でも収録機器が異なる場合に話者特徴量ベクトルがかけ離れてしまい、話者認識性能が低下する可能性がある。学習セットに含まれる周辺雑音の多様性が低くなった場合も同様に、同じ話者でも周辺雑音が異なる場合に話者特徴量ベクトルがかけ離れてしまい、話者認識性能が低下する可能性がある。
この発明の目的は、多様な話者、収録機器、周辺雑音を含む学習データを生成する学習データ生成装置、方法及びプログラムを提供することである。
この発明の一態様による学習データ生成装置は、母体セットに含まれる各発話の音声信号から音響特徴量ベクトル群を抽出する音響特徴量抽出部と、音響特徴量ベクトル群に対して所定の混合数Mの混合正規分布を当てはめることにより混合正規分布を得る混合正規分布当てはめ部と、得られた混合正規分布を構成するM個の正規分布のそれぞれをコンポーネントとして、音響特徴量ベクトル群を用いて母体セットにおける各コンポーネントの含有量を計算するコンポーネント含有量計算部と、母体セットにおける各コンポーネントの含有量に基づいて、母体セットに含まれる発話の中から、学習セットにおける各コンポーネントの構成比が母体セットにおける各コンポーネントの構成比に近くなるように発話を選択することにより学習データを生成する発話選択部と、を備えている。
多様な話者、収録機器、周辺雑音を含む学習データを生成することができる。
学習データ生成装置の例を説明するためのブロック図。 学習データ生成方法の例を説明するための流れ図。
[技術的背景]
この発明の発想の1つは、発話集合に含まれる音響的性質(話者・収録機器・周辺雑音)の多様性を表す発話集合の多様性スコアを算出し、多様性スコアが高くなる発話集合を母体セットから選び出し、学習セットとすることである。
多様性スコアは、「発話集合が、母体セットの音声を構成するコンポーネント(部品)を満遍なく含む場合、多様性スコアは高い」という考えに基づいて算出される。まず、母体セットの全フレームの音響特徴量ベクトルに対して混合正規分布を当てはめることにより、母体セットをコンポーネント(混合正規分布の各正規分布)に分解する。次に、母体セット中の各発話がどのコンポーネントをどの程度含有しているかを、混合正規分布の各正規分布に対する尤度を基に算出する。母体セットから発話を1つ学習セットとして選択すると、選択した発話に含有されるコンポーネントが学習セットに追加されることになる。いくつかの発話を選択して作成した学習セットに含まれるコンポーネントの構成比が、母体セット全体のコンポーネントの構成比に近い場合、学習セットは母体セットのコンポーネントを満遍なく含むと言える。そこで、学習セットに含まれる各コンポーネントの構成比が母体セットのコンポーネントの構成比に近い場合に値が高くなる以下の式により、学習セットUの多様性スコアD(U)を算出する。
Figure 0006267667
Mは混合正規分布の混合数(コンポーネント数)、wは母体セット中のi番目のコンポーネントの割合、fiUは学習セットU中のi番目のコンポーネントの含有量である。
[発明が解決しようとする課題]の欄で述べたように、話者特徴量抽出モデルの学習セットには計算時間とメモリ使用量の制約によりサイズの上限(数万発話)がある。学習セットの発話数の上限値をCとすると、|U|≦Cを満たす範囲で、D(U)ができるだけ大きくなるように学習セットUを母体セットから選び出すことで、多様な話者、収録機器、周辺雑音を満遍なく含む学習セットを母体セットから選別することができる。|U|は、学習セットUに含まれる発話の数である。
しかし、数百万発話からなる母体セットから数万発話を選び出す組み合わせ数は膨大であり、全ての発話の組み合わせについてD(U)の値を計算し、最大となるUを見つけ出すことは現実的な時間では不可能である。そこで、貪欲法により|U|=Cとなるまで母体セットから1発話ずつ学習セットUに追加していくことで、現実的な処理時間で学習セットUを選び出す。多様性スコアD(U)は劣モジュラ関数であるため、貪欲法で発話を選択することによりD(U)を近似的に最大化するUを得ることが可能である。
[実施形態]
以下、図面を参照して、この発明の実施形態の例について説明する。
学習データ生成装置は、音響特徴量抽出部101、混合正規分布当てはめ部102及びコンポーネント含有量計算部103を例えば備えている。この学習データ生成装置が図2に例示する各ステップ処理を行うことにより、学習データ生成方法が実現される。
<音響特徴量抽出部101>
入力:音響特徴量抽出部101には、母体セットが入力される。
出力:母体セットの各発話の音響特徴量ベクトル群(混合正規分布当てはめ部102およびコンポーネント含有量計算部103へ)
処理:音響特徴量抽出部101は、入力された母体セットに含まれる各発話の音声信号から音響特徴量ベクトル群を抽出する(ステップS1)。抽出された母体セットの各発話の音響特徴量ベクトル群は、混合正規分布当てはめ部102及びコンポーネント含有量計算部103に出力される。
音響特徴量ベクトル群の抽出では、各発話の音声信号を数十msecの音響分析フレームに分割し、各音響分析フレームから音響特徴量ベクトルを抽出することで、音響特徴量ベクトル群を得る。各フレームの音響特徴量ベクトルは実数値ベクトルであり、MFCCやLPCケプストラムなど既存のいずれの手法で抽出しても構わない。
<混合正規分布当てはめ部102>
入力:母体セットの各発話の音響特徴量ベクトル群(音響特徴量抽出部101から)、混合数M
出力:混合正規分布(コンポーネント含有量計算部103および各正規分布の混合重みは発話選択部104へ)
処理:混合正規分布当てはめ部102は、入力された母体セットの各発話の音響特徴量ベクトル群に対して、入力された混合数Mの混合正規分布を当てはめて各正規分布の混合重みと平均ベクトルと共分散行列を求め、得られた混合正規分布を出力する(ステップS2)。次のコンポーネント含有量計算部103において、混合正規分布の各正規分布が1つのコンポーネントと見なされる。
混合正規分布の当てはめ(混合重みと平均ベクトルと共分散行列の推定)には例えば参考文献1などに記載されている一般的なEMアルゴリズムを用いる。混合数Mは1以上の整数であり、大きくするとより精緻に音響特徴量をコンポーネントに分解することができるが、混合正規分布のパラメータ数が増加するため推定に必要な音響特徴量ベクトルの数が増加する。通常は512程度の混合数Mを用いる。
〔参考文献1〕C.M. ビショップ,“パターン認識と機械学習 下”,pp.154-155,シュプリンガー・ジャパン株式会社,2008-07-01.
<コンポーネント含有量計算部103>
入力:母体セットの各発話の音響特徴量ベクトル群(音響特徴量抽出部101から)、混合正規分布(混合正規分布当てはめ部102から)
出力:母体セットの各発話のコンポーネント含有量
処理:コンポーネント含有量計算部103は、入力された母体セットの各発話の音響特徴量ベクトル群と混合正規分布を用いて、母体セットの各発話のコンポーネント含有量を計算し、出力する。
コンポーネントは混合正規分布の混合数M個あり、コンポーネントごとに含有量を計算する。ある1発話のコンポーネント含有量は、当該発話の各音響特徴量ベクトルのコンポーネント含有量の総和である。1つの音響特徴量ベクトルのコンポーネント含有量は以下のように計算される。
(1)コンポーネント含有量計算部103は、対象の音響特徴量ベクトルxに対して、1番目からM番目までの全ての正規分布における尤度を計算する。m番目の正規分布の平均ベクトルをμm、共分散行列をSmとすると、音響特徴量ベクトルxに対するm番目の正規分布の尤度Lmは以下の式で計算される。dは音響特徴量ベクトルの次元数である。
Figure 0006267667
(2)コンポーネント含有量計算部103は、得られたL1〜LMまでのM個の尤度を、和が1となるように正規化する。
Figure 0006267667
(2)の手順で得られるP1〜PMまでのM個の正規化された尤度が、音響特徴量ベクトルxの各コンポーネント含有量である。コンポーネント含有量計算部103は、当該発話中の各音響特徴量ベクトルのコンポーネント含有量を計算し、コンポーネントごとに発話内で総和を取ることで、当該発話のコンポーネント含有量を計算する。
コンポーネント含有量計算部103は、母体セットの各発話に対して以上の手順でコンポーネント含有量計算を行い、母体セットの各発話のコンポーネント含有量(各発話が各コンポーネントをどれだけ含有しているか)を得る(ステップS3)。
<発話選択部104>
入力:母体セット、母体セットの各発話のコンポーネント含有量(コンポーネント含有量計算部103から)、混合正規分布の各正規分布の混合重み(混合正規分布当てはめ部102から)、発話数上限値C
出力:学習セット
処理:発話選択部104は、入力された母体セットの各発話のコンポーネント含有量と各正規分布の混合重みと発話数上限値Cを用いて、母体セットから発話を選択して学習セットとして出力する。
発話選択は貪欲法を用いて以下の手順で行われる。
(0)発話選択部104は、学習セットUを空集合に初期化する。母体セットを母体セットの全発話を要素とする集合に初期化する。
(1)発話選択部104は、学習セットUに母体セット中の各発話を追加したときの多様性スコアの上昇値を計算する。母体セット中のn番目の発話uを学習セットに追加したときの多様性スコアの上昇値Improvenは以下の式(5)及び式(2)で計算される。
Figure 0006267667
はi番目の正規分布の混合重み、fiUはUに含まれる全発話のi番目のコンポーネント含有量の総和である。
(2)発話選択部104は、最も大きく多様性スコアを上昇させる発話を母体セットから学習セットUに移動する。
(3)発話選択部104は、学習セットUの発話数がC未満であれば手順(1)に戻って繰り返す。発話選択部104は、学習セットUの発話数がCになれば終了し学習セットUを学習データとして出力する。
Cは1以上母体セットの発話数以下の整数であり、最終的に出力される学習セットの発話数を表す。Cを大きくすれば母体セットの話者・収録機器・周辺雑音をより多様に含む学習セットを得られるが、学習セットの発話数が大きくなるため話者特徴量抽出モデルの学習時に処理時間とメモリ使用量が大きくなる。通常は3〜5万程度の値に設定する。
手順(1)と(2)により、学習セットUの中の各コンポーネントの構成比が混合正規分布の混合重み(=母体セットの各コンポーネントの構成比)に近づくように発話が順次選択されていく。そのため、学習セットの発話数の上限値Cという制約の中で、可能な限り母体セットの各コンポーネントの構成比を忠実に再現するように発話集合が選択され、学習セットとして出力されることになる。
なお、多様性スコアD(U)は劣モジュラ関数であるため、例えば参考文献2に記載されている、最大化したい関数が劣モジュラ関数である場合に上記の貪欲法と同一の学習セットをより少ない処理量で得られる高速化法を用いても構わない。
〔参考文献2〕Jure Leskovec, Andreas Krause, Carlos Guestrin, Christos Faloutsos, Jeanne VanBriesen and Natalie Glance, “Cost-effective outbreak detection in networks,” in Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pp.420-429, 2007.
以上の構成により、発話選択部104では、学習セットの各コンポーネントの構成比が母体セットの各コンポーネントの構成比に近くなるように(つまり、母体セットに含まれる多様な話者・収録機器・周辺雑音を満遍なく含むように)発話を選択した学習セットが出力される(ステップS4)。この学習セットから学習した話者特徴量抽出モデルを用いることにより、発話をランダム選択して作成した学習セットを使った場合よりも高い精度で話者認識を行うことができる。
[プログラム及び記録媒体]
上記学習データ生成装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、学習データ選択置における各処理をコンピュータによって実現する場合、その各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
101 音響特徴量抽出部
102 混合正規分布当てはめ部
103 コンポーネント含有量計算部
104 発話選択部

Claims (4)

  1. 母体セットに含まれる各発話の音声信号から音響特徴量ベクトル群を抽出する音響特徴量抽出部と、
    上記音響特徴量ベクトル群に対して所定の混合数Mの混合正規分布を当てはめることにより混合正規分布を得る混合正規分布当てはめ部と、
    上記得られた混合正規分布を構成するM個の正規分布のそれぞれをコンポーネントとして、上記音響特徴量ベクトル群を用いて上記母体セットにおける各コンポーネントの含有量を計算するコンポーネント含有量計算部と、
    上記母体セットにおける各コンポーネントの含有量に基づいて、上記母体セットに含まれる発話の中から、学習セットにおける各コンポーネントの構成比が上記母体セットにおける各コンポーネントの構成比に近くなるように発話を選択することにより学習データを生成する発話選択部と、
    を含む学習データ生成装置。
  2. 請求項1の学習データ生成装置において、
    上記発話選択部は、上記母体セットにおける各コンポーネントの含有量に基づいて、上記母体セットに含まれる発話の中から、発話を追加した後の学習セットにおける各コンポーネントの構成比が上記母体セットにおける各コンポーネントの構成比に近くなるように1個の発話を選択し学習セットに追加する処理を繰り返すことにより学習データを生成する、
    学習データ生成装置。
  3. 母体セットに含まれる各発話の音声信号から音響特徴量ベクトル群を抽出する音響特徴量抽出ステップと、
    上記音響特徴量ベクトル群に対して所定の混合数Mの混合正規分布を当てはめることにより混合正規分布を得る混合正規分布当てはめステップと、
    上記得られた混合正規分布を構成するM個の正規分布のそれぞれをコンポーネントとして、上記音響特徴量ベクトル群を用いて上記母体セットにおける各コンポーネントの含有量を計算するコンポーネント含有量計算ステップと、
    上記母体セットにおける各コンポーネントの含有量に基づいて、上記母体セットに含まれる発話の中から、学習セットにおける各コンポーネントの構成比が上記母体セットにおける各コンポーネントの構成比に近くなるように発話を選択することにより学習データを生成する発話選択ステップと、
    を含む学習データ生成方法。
  4. 請求項1又は2の学習データ生成装置の各部としてコンピュータを機能させるためのプログラム。
JP2015040322A 2015-03-02 2015-03-02 学習データ生成装置、方法及びプログラム Active JP6267667B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015040322A JP6267667B2 (ja) 2015-03-02 2015-03-02 学習データ生成装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015040322A JP6267667B2 (ja) 2015-03-02 2015-03-02 学習データ生成装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016161762A JP2016161762A (ja) 2016-09-05
JP6267667B2 true JP6267667B2 (ja) 2018-01-24

Family

ID=56846900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015040322A Active JP6267667B2 (ja) 2015-03-02 2015-03-02 学習データ生成装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6267667B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3525082B2 (ja) * 1999-09-16 2004-05-10 日本電信電話株式会社 統計モデル作成方法
JP5321596B2 (ja) * 2008-10-21 2013-10-23 日本電気株式会社 統計モデル学習装置、統計モデル学習方法、およびプログラム
US9972306B2 (en) * 2012-08-07 2018-05-15 Interactive Intelligence Group, Inc. Method and system for acoustic data selection for training the parameters of an acoustic model

Also Published As

Publication number Publication date
JP2016161762A (ja) 2016-09-05

Similar Documents

Publication Publication Date Title
Kameoka et al. ACVAE-VC: Non-parallel voice conversion with auxiliary classifier variational autoencoder
Zhou et al. Vision-infused deep audio inpainting
CN106688034B (zh) 具有情感内容的文字至语音转换
JP6234060B2 (ja) ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
JP6594839B2 (ja) 話者数推定装置、話者数推定方法、およびプログラム
US20130132085A1 (en) Systems and Methods for Non-Negative Hidden Markov Modeling of Signals
WO2017146073A1 (ja) 声質変換装置、声質変換方法およびプログラム
EP3392883A1 (en) Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
US8843364B2 (en) Language informed source separation
CN110930996A (zh) 模型训练方法、语音识别方法、装置、存储介质及设备
Kheder et al. A unified joint model to deal with nuisance variabilities in the i-vector space
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
Liu et al. Vit-tts: visual text-to-speech with scalable diffusion transformer
Mysore et al. A non-negative approach to language informed speech separation
JP6267667B2 (ja) 学習データ生成装置、方法及びプログラム
Barkovska Research into speech-to-text tranfromation module in the proposed model of a speaker’s automatic speech annotation
JP2013186383A (ja) 音源分離装置、音源分離方法、およびプログラム
Mansour et al. A comparative study in emotional speaker recognition in noisy environment
CN115798453A (zh) 语音重建方法、装置、计算机设备和存储介质
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
Barnekow et al. Creation and Detection of German Voice Deepfakes
KR20210145733A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
Bahmaninezhad et al. A unified framework for speech separation
KR102663654B1 (ko) 적응형 시각적 스피치 인식

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

R150 Certificate of patent or registration of utility model

Ref document number: 6267667

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150