JP6073952B2 - 学習データ生成装置、方法及びプログラム - Google Patents
学習データ生成装置、方法及びプログラム Download PDFInfo
- Publication number
- JP6073952B2 JP6073952B2 JP2015059213A JP2015059213A JP6073952B2 JP 6073952 B2 JP6073952 B2 JP 6073952B2 JP 2015059213 A JP2015059213 A JP 2015059213A JP 2015059213 A JP2015059213 A JP 2015059213A JP 6073952 B2 JP6073952 B2 JP 6073952B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- component
- acoustic feature
- target
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
この発明は、高い精度で音声認識を行える音響モデルの学習データ生成技術に関する。
様々な話者、発声スタイル、収録機器、周辺雑音環境(これら4つをまとめて「ドメイン」と書く)で収録された音声を大規模に集積した(1000時間超の)音声データセット(以下、「母体セット」と書く)から、実際に音声認識システムが認識対象とするドメイン(以下、「ターゲットドメイン」と書く)で高精度に認識を行える音響モデルを構築するためには、母体セットから適切に音声データを選別し、ターゲットドメインに適合した学習セットを構成する必要がある。余分な音声が学習セットに含まれる場合、また必要な音声を学習セットに含めなかった場合は、いずれも音響モデルに悪影響を及ぼし認識精度が低下する可能性がある。母体セット中の適切な(ターゲットドメインに適合する)部分集合を音響モデルの学習セットとして用いることは認識精度を高めるために重要である。
ターゲットドメインで収録された数時間程度の少量の音声データをもとに、母体セットから学習セットを選別する方法が、例えば特許文献1に記載されている。特許文献1の方法では、ターゲットドメインで収録された音声を用いて、事前に用意されたベース音響モデルをターゲットドメインの音声に適応させた適応音響モデルを生成し、母体セットの音声をベース音響モデルおよび適応音響モデルで音声認識して、ベース音響モデルおよび適応音響モデルの音声認識スコアであるベース認識スコアと適応認識スコアを求め、適応認識スコアからベース認識スコアを減じた値が大きい音声を母体セットから選択することで、学習セットを選別している。
特許文献1に記載されている従来技術は、適応認識スコアとベース認識スコアの差が大きくなる音声を母体セットから選択する。母体セットの音声の中で、話者、発声スタイル、収録機器、周辺雑音環境の全てがターゲットドメインに適合する音声では適応認識スコアとベース認識スコアの差は大きくなるが、いずれかが適合しない音声では適応認識スコアとベース認識スコアの差は小さくなる傾向がある。そのため、特許文献1に記載されている従来技術では、例えば周辺雑音環境は適合していないが話者と発声スタイルと収録機器はターゲットドメインに適合している(本来は学習セットに含めるべき)音声を母体セットから選択できず、学習セットが不十分なものとなるため、音響モデルの精度が高くならない可能性があった。
この発明の目的は、ターゲットドメインに従来よりも適合した学習データを生成する学習データ生成装置、方法及びプログラムを提供することである。
この発明の一態様による学習データ生成装置は、ターゲットとなる発話セットをターゲットセットとして、ターゲットセットの各発話の音声信号から音響特徴量系列を抽出する第一音響特徴量抽出部と、第一音響特徴量抽出部で抽出された音響特徴量系列を1個以上のコンポーネントに分解し、ターゲットセットにおける各コンポーネントの構成比である目標構成比を求めるコンポーネント分解部と、母体セットに含まれる各発話の音声信号から音響特徴量系列を抽出する第二音響特徴量抽出部と、第二音響特徴量抽出部で抽出された音響特徴量系列を用いて、母体セットに含まれる各発話における各コンポーネントの含有量を計算するコンポーネント含有量計算部と、母体セットに含まれる各発話における各コンポーネントの含有量に基づいて、母体セットに含まれる発話の中から、学習セットにおけるコンポーネントの構成比が目標構成比に近くなるように発話を選択することにより学習データを生成する発話選択部と、を備えている。
ターゲットドメインに従来よりも適合した学習データを生成することができる。
[技術的背景]
本発明のポイントの中で主要なものは、以下の2点である。
本発明のポイントの中で主要なものは、以下の2点である。
1.ターゲットドメインの音声を潜在的な構成要素(コンポーネント)に分解し、「コンポーネント」と「その構成比」によってターゲットドメインの音声を捉えること。
2.学習セットのコンポーネント構成比が、ターゲットドメインの音声のコンポーネント構成比と近くなるように学習セットを母体セットから選別すること。
ポイント1のコンポーネントへの分解は(混合正規分布の当てはめなどの方法で)自動的に行われる。各コンポーネントは話者、発声スタイル、収録機器、周辺雑音環境のいずれか(あるいは複数)の特徴を表し、コンポーネントの構成比は話者、発声スタイル、収録機器、周辺雑音環境を全て考慮したターゲットドメイン全体の特徴を表すことになる。
ポイント2により、ターゲットドメイン全体の特徴を表すコンポーネント構成比を観点として学習セットを選別するため、話者、発声スタイル、収録機器、周辺雑音環境が全てターゲットドメインに適合する学習セットを選別することができる。そして、従来技術とは違い、例えば話者のみがターゲットドメインに適合する音声も学習セットとして選択されることになる。話者のみがターゲットドメインに適合する音声を選択したとしても、発声スタイルや収録機器や周辺雑音環境が適合した別の音声を選択することによって、全体のコンポーネント構成比をターゲットドメインに近づけることが可能なためである。コンポーネント構成比を観点として学習セットを選別することにより、従来技術の問題を解消し、ターゲットドメインに十分に適合した学習セットを作ることができる。
なお、母体セットから部分集合を選別する選び方(組み合わせ)は無数に存在するため、全ての部分集合についてコンポーネント構成比を算出し、ターゲットドメインのコンポーネント構成比と最も構成比が近くなる部分集合を学習セットとする方法では、現実的な時間で処理できない。そこで、音声データセットのコンポーネント構成比がターゲットドメインに近いほど値が高くなる構成比類似スコアを定式化し、構成比類似スコアを最も大きく向上させる音声データを1つずつ選んでいく貪欲法により学習セットを選別する。構成比類似スコアを劣モジュラ関数として定式化することにより、貪欲法でも準最適な学習セットを選別可能となっている。
[第一実施形態]
以下、ターゲットドメインで収録した数時間の音声を「ターゲットセット」と書く。母体セット及びターゲットセットの音声は、既存のVAD技術により、一呼吸で発声された音声区間(以下「発話」と書く)ごとに分割されているものとする。したがって、母体セットとターゲットセットは発話の集合である。通常、母体セットは数百万〜数千万発話、ターゲットセットは数千発話程度のサイズである。
以下、ターゲットドメインで収録した数時間の音声を「ターゲットセット」と書く。母体セット及びターゲットセットの音声は、既存のVAD技術により、一呼吸で発声された音声区間(以下「発話」と書く)ごとに分割されているものとする。したがって、母体セットとターゲットセットは発話の集合である。通常、母体セットは数百万〜数千万発話、ターゲットセットは数千発話程度のサイズである。
第一実施形態の学習データ生成装置は、図1に示すように、第一音響特徴量抽出部1011、第二音響特徴量抽出部1012、コンポーネント分解部102、コンポーネント含有量計算部103及び発話選択部104を例えば備えている。第一実施形態の学習データ生成装置の各部が、図2に例示する各ステップの処理を行うことにより、第一実施形態の学習データ生成方法が実現される。以下、学習データ生成装置の各部について説明する。
<第一音響特徴量抽出部1011>
入力:発話セット(ターゲットセット)
出力:各発話の音響特徴量系列(コンポーネント分解部102へ)
処理:第一音響特徴量抽出部1011は、入力されたターゲットセットである発話セットの各発話から音響特徴量系列を抽出し、得られた各発話の音響特徴量系列をコンポーネント分解部102に出力する(ステップS1)。
入力:発話セット(ターゲットセット)
出力:各発話の音響特徴量系列(コンポーネント分解部102へ)
処理:第一音響特徴量抽出部1011は、入力されたターゲットセットである発話セットの各発話から音響特徴量系列を抽出し、得られた各発話の音響特徴量系列をコンポーネント分解部102に出力する(ステップS1)。
音響特徴量系列の抽出では、各発話の音声信号を数十msecの音響分析フレームに分割し、各音響分析フレームから音響特徴量を抽出することで、音響特徴量系列を得る。各フレームの音響特徴量は実数値ベクトルであり、MFCCやLPCケプストラムなど既存のいずれの手法で抽出しても構わない。
<コンポーネント分解部102>
入力:ターゲットセットの各発話の音響特徴量系列(第一音響特徴量抽出部1011から)、コンポーネント数M
出力:コンポーネント群(コンポーネント含有量計算部103へ)、目標構成比(発話選択部104へ)
処理:コンポーネント分解部102は、入力されたターゲットセットの各発話の音響特徴量系列をM個のコンポーネントに分解し、ターゲットセットにおける各コンポーネントの構成比(目標構成比)を算出し、M個のコンポーネント(コンポーネント群)をコンポーネント含有量計算部103と、目標構成比を発話選択部104とに出力する(ステップS2)。入力されるコンポーネント数Mは所定の1以上の整数であり、ターゲットセットのサイズに応じて適切な値が異なるパラメータである。数千発話のターゲットセットに対しては通常は512程度の値に設定する。
入力:ターゲットセットの各発話の音響特徴量系列(第一音響特徴量抽出部1011から)、コンポーネント数M
出力:コンポーネント群(コンポーネント含有量計算部103へ)、目標構成比(発話選択部104へ)
処理:コンポーネント分解部102は、入力されたターゲットセットの各発話の音響特徴量系列をM個のコンポーネントに分解し、ターゲットセットにおける各コンポーネントの構成比(目標構成比)を算出し、M個のコンポーネント(コンポーネント群)をコンポーネント含有量計算部103と、目標構成比を発話選択部104とに出力する(ステップS2)。入力されるコンポーネント数Mは所定の1以上の整数であり、ターゲットセットのサイズに応じて適切な値が異なるパラメータである。数千発話のターゲットセットに対しては通常は512程度の値に設定する。
分解方法しだいでコンポーネントの形式と構成比の算出方法は異なる。ここでは混合正規分布の当てはめによって分解する場合について説明する。この場合、コンポーネント数Mは混合正規分布の混合数を表す。入力された全てのターゲットセットの発話の音響特徴量系列に対して、例えば参考文献1などに記載されている一般的なEMアルゴリズムを用いて混合数Mの混合正規分布を当てはめる(各正規分布の混合重みと平均ベクトルと共分散行列を求める)。各正規分布(平均ベクトルおよび共分散行列)がコンポーネントであり、混合重みが当該コンポーネントの構成比を表すため、各正規分布の平均ベクトルと共分散行列をコンポーネント群としてコンポーネント含有量計算部103へ出力し、各正規分布の混合重みを目標構成比として発話選択部104へ出力する。
〔参考文献1〕C.M. ビショップ,“パターン認識と機械学習 下”,pp.154-155,シュプリンガー・ジャパン株式会社,2008-07-01.
なお、混合正規分布の当てはめ以外の分解方法として、例えばK−means法のようなクラスタリングを用いてM個のコンポーネントと構成比を得ることも可能である。クラスタリングを用いる場合、各クラスタの重心ベクトルをコンポーネントとし、各コンポーネントの構成比は当該クラスタに属する音響特徴量の個数の全体に対する割合として計算される。
なお、混合正規分布の当てはめ以外の分解方法として、例えばK−means法のようなクラスタリングを用いてM個のコンポーネントと構成比を得ることも可能である。クラスタリングを用いる場合、各クラスタの重心ベクトルをコンポーネントとし、各コンポーネントの構成比は当該クラスタに属する音響特徴量の個数の全体に対する割合として計算される。
<第二音響特徴量抽出部1012>
入力:発話セット(母体セット)
出力:各発話の音響特徴量系列(コンポーネント含有量計算部103へ)
処理:第二音響特徴量抽出部1012は、入力された母体セットである発話セットの各発話から音響特徴量系列を抽出し、得られた各発話の音響特徴量系列をコンポーネント含有量計算部103に出力する(ステップS3)。
入力:発話セット(母体セット)
出力:各発話の音響特徴量系列(コンポーネント含有量計算部103へ)
処理:第二音響特徴量抽出部1012は、入力された母体セットである発話セットの各発話から音響特徴量系列を抽出し、得られた各発話の音響特徴量系列をコンポーネント含有量計算部103に出力する(ステップS3)。
音響特徴量系列の抽出では、各発話の音声信号を数十msecの音響分析フレームに分割し、各音響分析フレームから音響特徴量を抽出することで、音響特徴量系列を得る。各フレームの音響特徴量は実数値ベクトルであり、MFCCやLPCケプストラムなど既存のいずれの手法で抽出しても構わない。なお、第二音響特徴量抽出部1012における音響特徴量系列の抽出方法は、第一音響特徴量抽出部1011の音響特徴量系列の抽出方法と同じであるとする。
<コンポーネント含有量計算部103>
入力:母体セットの各発話の音響特徴量系列(第二音響特徴量抽出部1012から)、コンポーネント群(コンポーネント分解部102から)
出力:母体セットの各発話のコンポーネント含有量(発話選択部104へ)
処理:コンポーネント含有量計算部103は、入力された母体セットの各発話の音響特徴量系列とコンポーネント群から、各発話が各コンポーネントをどの程度含有しているか(コンポーネント含有量)を算出し、コンポーネント含有量を発話選択部104へ出力する(ステップS4)。
入力:母体セットの各発話の音響特徴量系列(第二音響特徴量抽出部1012から)、コンポーネント群(コンポーネント分解部102から)
出力:母体セットの各発話のコンポーネント含有量(発話選択部104へ)
処理:コンポーネント含有量計算部103は、入力された母体セットの各発話の音響特徴量系列とコンポーネント群から、各発話が各コンポーネントをどの程度含有しているか(コンポーネント含有量)を算出し、コンポーネント含有量を発話選択部104へ出力する(ステップS4)。
ある発話のコンポーネント含有量は、当該発話の各フレームの音響特徴量のコンポーネント含有量の、全フレーム分の総和として計算する。コンポーネント分解部102で混合正規分布の当てはめにより分解した場合、M個の各コンポーネントは、各正規分布の平均ベクトルと共分散行列である。この場合、ある音響特徴量xのコンポーネント含有量は以下のように計算する。
(1)まず、コンポーネント含有量計算部103は、音響特徴量xに対して、1番目からM番目までの全ての正規分布における尤度を計算する。m番目の正規分布(平均ベクトルμm、共分散行列Sm)の尤度Lmは以下の式で計算される。dは音響特徴量ベクトルの次元数である。
(2)コンポーネント含有量計算部103は、得られたL1〜LMまでのM個の尤度を和が1となるように正規化して、1番目からM番目までの各コンポーネント含有量を計算する。m番目のコンポーネント含有量Pmの計算式は以下の通りである。
(2)で得られるP1〜PMが、音響特徴量xの各コンポーネントの含有量である。当該発話中の各音響特徴量のコンポーネント含有量を計算し、コンポーネントごとに発話内で総和を取ることで、当該発話のコンポーネント含有量を計算する。
コンポーネント含有量計算部103は、母体セットの各発話に対して以上の手順でコンポーネント含有量を計算し、母体セットの各発話のコンポーネント含有量(各発話が各コンポーネントをどれだけ含有しているか)を発話選択部104へ出力する。
なお、コンポーネント分解部102でクラスタリングにより分解した場合、入力されるM個のコンポーネントは各クラスタの重心ベクトルである。この場合、音響特徴量xのコンポーネント含有量の計算方法が異なる。
この場合、1番目からM番目の各重心ベクトルと音響特徴量xとのユークリッド距離を計算し、最も距離の小さい重心ベクトルの含有量を1、その他の重心ベクトルの含有量を0とする。
音響特徴量xのコンポーネント含有量を計算した後の処理(発話内で総和を取り発話選択部104へ出力する)は混合正規分布を使った場合と同様である。
<発話選択部104>
入力:母体セット、母体セットの各発話のコンポーネント含有量(コンポーネント含有量計算部103から)、目標構成比(コンポーネント分解部102から)、選択停止条件C
出力:学習データ
処理:発話選択部104は、入力された母体セットの各発話のコンポーネント含有量と目標構成比と選択停止条件Cを用いて、母体セットから発話を選択して学習セットとして出力する(ステップS5)。
入力:母体セット、母体セットの各発話のコンポーネント含有量(コンポーネント含有量計算部103から)、目標構成比(コンポーネント分解部102から)、選択停止条件C
出力:学習データ
処理:発話選択部104は、入力された母体セットの各発話のコンポーネント含有量と目標構成比と選択停止条件Cを用いて、母体セットから発話を選択して学習セットとして出力する(ステップS5)。
発話選択は以下の手順で行われる。
(0)発話選択部104は、学習セットUを空集合に初期化する。
(1)発話選択部104は、学習セットUに母体セット中の各発話を追加したときの構成比類似スコアの上昇値を計算する。母体セット中のn番目の発話unを学習セットに追加したときの構成比類似スコアの上昇値は以下の式で計算する。
wiはi番目のコンポーネントの目標構成比の値、fiUはUに含まれる全発話のi番目のコンポーネント含有量の総和である。
(2)発話選択部104は、最も大きく構成比類似スコアを上昇させる発話を母体セットから学習セットUに移動する(Uに追加し、母体セットから削除する)。
(3)発話選択部104は、学習セットUの発話数がC未満であれば(1)に戻って処理を繰り返す。発話選択部104は、学習セットUの発話数がCになれば終了し学習セットUを学習データとして出力する。
選択停止条件Cとしてはいくつかの条件設定方法が考えられる。例えばCとして学習セットUの発話数の上限値を設定する方法がある。この場合は最終的に出力される学習セットの発話数をCによって調整することができる、(3)において学習セットUの発話数をチェックし、Cになっていれば終了する。Cは1以上母体セットの発話数以下の整数となり、例えば母体セットが100万発話から為るときに通常はC=10万程度に設定する。また、Cとして構成比類似スコアの上昇値の下限値を設定する方法がある。この場合は構成比類似スコアがほとんど上昇しなくなった(=必要十分な発話を選択できた)タイミングで発話選択を終了できる。Cは0以上の実数値となり、通常はC=10-6程度に設定する。
式(4)の構成比類似スコアは、学習セットUの中の各コンポーネントの構成比が目標構成比に近い場合に高くなる。(1)と(2)の繰り返しにより、構成比類似スコアをできるだけ高くするように発話を順次選択していくため、学習セットUの中の各コンポーネントの構成比は目標構成比に近づいていく。そのため、上記の手順で最終的に出力された学習セットは、各コンポーネントを目標構成比に近い構成比で含んだ(ターゲットドメインに適合した)学習セットとなる。
なお、構成比類似スコアD(U)は劣モジュラ関数であるため、例えば参考文献2に記載されている、最大化したい関数が劣モジュラ関数である場合に上記の貪欲法と同一の学習セットをより少ない処理量で得られる高速化法を用いても構わない。
〔参考文献2〕Jure Leskovec, Andreas Krause, Carlos Guestrin, Christos Faloutsos, Jeanne VanBriesen and Natalie Glance, “Cost-effective outbreak detection in networks,” in Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pp.420-429, 2007.
ターゲットドメインに十分に適合した学習セットを選別できるようになると、ターゲットドメインで高精度に音声認識を行うシステムが構築可能になり、音声認識システム利用者にとっての利便性が向上する。
ターゲットドメインに十分に適合した学習セットを選別できるようになると、ターゲットドメインで高精度に音声認識を行うシステムが構築可能になり、音声認識システム利用者にとっての利便性が向上する。
また、[発明が解決しようとする課題]の欄で述べた通り従来技術には問題があったため、あるドメイン向けに特化した音声認識システムを構築する場合、これまでは音声認識について深い知識を持つ人間がターゲットドメインの音声を聴取し、ターゲットドメインに十分に適合した学習セットを人手で選別していた。この人手による選別には大きなコストがかかるため、多くの導入先それぞれに特化した音声認識システムを構築することは困難なことが多かった。ターゲットドメインで数時間の音声を収録すれば、自動的にターゲットドメインに十分に適合する学習セットを選別できるようになるため、低コストにドメイン特化音声認識システムを構築することが可能となり、より多くの導入先で高精度な音声認識システムを運用できるようになる。
[第二実施形態]
第二実施形態の学習データ生成装置は、図3に示すように、第一発声/非発声区間抽出部2011、第二発声/非発声区間抽出部2012、第一音響特徴量抽出部1011、第二音響特徴量抽出部1012、コンポーネント分解部102、コンポーネント含有量計算部103及び発話選択部104を例えば備えている。第二実施形態の学習データ生成装置の各部が、図4に例示する各ステップの処理を行うことにより、第二実施形態の学習データ生成方法が実現される。以下、学習データ生成装置の各部について説明する。
第二実施形態の学習データ生成装置は、図3に示すように、第一発声/非発声区間抽出部2011、第二発声/非発声区間抽出部2012、第一音響特徴量抽出部1011、第二音響特徴量抽出部1012、コンポーネント分解部102、コンポーネント含有量計算部103及び発話選択部104を例えば備えている。第二実施形態の学習データ生成装置の各部が、図4に例示する各ステップの処理を行うことにより、第二実施形態の学習データ生成方法が実現される。以下、学習データ生成装置の各部について説明する。
母体セット、ターゲットセットの各発話を既存のVAD技術で切り出すときは、切り出し誤り(発声区間冒頭/末尾の音声が切れてしまう問題)を防ぐため、前後に1秒程度の非発声区間(ポーズ区間)を含むように切り出すことが多い。この各発話に付随する非発声区間を利用して周辺雑音環境をより精緻にコンポーネント分解することで、よりターゲットドメインに適合した学習セットを選別するのが第二実施形態である。
第二実施形態では、はじめに母体セットとターゲットセットのそれぞれの各発話を非発声区間と発声区間に分割し、以降、非発声区間と発声区間のそれぞれで第一音響特徴量抽出部1011、第二音響特徴量抽出部1012、コンポーネント分解部102及びコンポーネント含有量計算部103の処理を行い、非発声区間のコンポーネント・目標構成比と発声区間のコンポーネント・目標構成比とを別々に求める。母体セットからの発話選択は、非発声区間のコンポーネント含有量と目標構成比、発声区間のコンポーネント含有量と目標構成比をともに用いて行われる。
各発話の非発声区間は当該発話の周辺雑音のみを音として含むため、非発声区間をコンポーネントに分解することで、周辺雑音の特徴を精緻に捉えたコンポーネントが得られる。この非発声区間のコンポーネントを用いて発話を選択することで、第一実施形態以上に周辺雑音環境がターゲットセットに適合した学習セットを得ることができる。
<第一発声/非発声区間抽出部2011>
入力:発話セット(ターゲットセット)
出力:非発声発話セットと発声発話セット(第一音響特徴量抽出部1011へ)
処理:第一発声/非発声区間抽出部2011は、入力されたターゲットセットである発話セットの各発話を既存のVAD技術を用いて非発声区間と発声区間に分割し、各発話の非発声区間を非発声ターゲットセット、各発話の発声区間を発声ターゲットセットとして出力する。
入力:発話セット(ターゲットセット)
出力:非発声発話セットと発声発話セット(第一音響特徴量抽出部1011へ)
処理:第一発声/非発声区間抽出部2011は、入力されたターゲットセットである発話セットの各発話を既存のVAD技術を用いて非発声区間と発声区間に分割し、各発話の非発声区間を非発声ターゲットセット、各発話の発声区間を発声ターゲットセットとして出力する。
このようにして、第一発声/非発声区間抽出部2011は、ターゲットセットの各発話を非発声区間と発生区間とに分割することにより非発声ターゲットセット及び発声ターゲットセットを生成する(ステップS01)。
<第二発声/非発声区間抽出部2012>
入力:発話セット(母体セット)
出力:非発声母体セットと発声母体セット(第二音響特徴量抽出部1012へ)
処理:第二発声/非発声区間抽出部2012は、入力された母体セットである発話セットの各発話を既存のVAD技術を用いて非発声区間と発声区間に分割し、各発話の非発声区間を非発声母体セット、各発話の発声区間を発声母体セットとして出力する。
入力:発話セット(母体セット)
出力:非発声母体セットと発声母体セット(第二音響特徴量抽出部1012へ)
処理:第二発声/非発声区間抽出部2012は、入力された母体セットである発話セットの各発話を既存のVAD技術を用いて非発声区間と発声区間に分割し、各発話の非発声区間を非発声母体セット、各発話の発声区間を発声母体セットとして出力する。
このようにして、第二発声/非発声区間抽出部2012は、上記母体セットの各発話を非発声区間と発声区間とに分割することにより非発声母体セット及び発声母体セットを生成する(ステップS02)。
<第一音響特徴量抽出部1011>
入力:非発声ターゲットセット及び発声ターゲットセット(第一発声/非発声区間抽出部2011から)
出力:非発声ターゲットセットの各発話の音響特徴量系列及び発声ターゲットセットの各発話の音響特徴量系列(コンポーネント分解部102へ)
処理:第一音響特徴量抽出部1011は、非発声ターゲットセット及び発声ターゲットセットのそれぞれに対して、第一実施形態の第一音響特徴量抽出部1011と同様の処理を行う。
入力:非発声ターゲットセット及び発声ターゲットセット(第一発声/非発声区間抽出部2011から)
出力:非発声ターゲットセットの各発話の音響特徴量系列及び発声ターゲットセットの各発話の音響特徴量系列(コンポーネント分解部102へ)
処理:第一音響特徴量抽出部1011は、非発声ターゲットセット及び発声ターゲットセットのそれぞれに対して、第一実施形態の第一音響特徴量抽出部1011と同様の処理を行う。
すなわち、第一音響特徴量抽出部1011は、非発声ターゲットセットの各発話の音声信号から音響特徴量系列を抽出し、発声ターゲットセットの各発話の音声信号から音響特徴量系列を抽出し、抽出されたそれぞれの音響特徴量系列をコンポーネント分解部102に出力する(ステップS1)。
音響特徴量系列の抽出の詳細については、第一実施形態と同様であるため、ここでは重複説明を省略する。
<コンポーネント分解部102>
入力:非発声ターゲットセットの各発話の音響特徴量系列及び発声ターゲットセットの各発話の音響特徴量系列(第一音響特徴量抽出部1011から)、非発声コンポーネント数M1、発声コンポーネント数M2
出力:非発声コンポーネント群及び発声コンポーネント群(コンポーネント含有量計算部103へ)、非発声目標構成比及び発声目標構成比(発話選択部104へ)
処理:コンポーネント分解部102は、非発声ターゲットセットの各発話の音響特徴量系列と、発声ターゲットセットの各発話の音響特徴量系列とのそれぞれに対して、第一実施形態のコンポーネント分解部102と同様の処理を行う。
入力:非発声ターゲットセットの各発話の音響特徴量系列及び発声ターゲットセットの各発話の音響特徴量系列(第一音響特徴量抽出部1011から)、非発声コンポーネント数M1、発声コンポーネント数M2
出力:非発声コンポーネント群及び発声コンポーネント群(コンポーネント含有量計算部103へ)、非発声目標構成比及び発声目標構成比(発話選択部104へ)
処理:コンポーネント分解部102は、非発声ターゲットセットの各発話の音響特徴量系列と、発声ターゲットセットの各発話の音響特徴量系列とのそれぞれに対して、第一実施形態のコンポーネント分解部102と同様の処理を行う。
すなわち、コンポーネント分解部102は、第一音響特徴量抽出部1011で抽出された非発声ターゲットセットの各発話の音響特徴量系列をM1個の非発声コンポーネントに分解し、非発声ターゲットセットにおける各非発声コンポーネントの構成比である非発声目標構成比を求め、第一音響特徴量抽出部1011で抽出された発声ターゲットセットの各発話の音響特徴量系列をM2個の発声コンポーネントに分解し、発声ターゲットセットにおける各発声コンポーネントの構成比である発声目標構成比を求める(ステップS2)。
入力されるコンポーネント数M1,M2は所定の1以上の整数であり、ターゲットセットのサイズに応じて適切な値が異なるパラメータである。数千発話のターゲットセットに対しては通常は512程度の値に設定する。M1,M2の値は、異なっていても同じでもよい。
M1個の非発声コンポーネントである非発声コンポーネント群及びM2個の発声コンポーネントである発声コンポーネント群は、コンポーネント含有量計算部103に出力される。
コンポーネント分解部102の処理の詳細については、第一実施形態と同様であるため、ここでは重複説明を省略する。
<第二音響特徴量抽出部1012>
入力:非発声母体セット及び発声母体セット(第二発声/非発声区間抽出部2012から)
出力:非発声母体セットの各発話の音響特徴量系列及び発声母体セットの各発話の音響特徴量系列(コンポーネント含有量計算部103へ)
処理:第二音響特徴量抽出部1012は、非発声母体セット及び発声母体セットのそれぞれに対して、第一実施形態の第二音響特徴量抽出部1012と同様の処理を行う。
入力:非発声母体セット及び発声母体セット(第二発声/非発声区間抽出部2012から)
出力:非発声母体セットの各発話の音響特徴量系列及び発声母体セットの各発話の音響特徴量系列(コンポーネント含有量計算部103へ)
処理:第二音響特徴量抽出部1012は、非発声母体セット及び発声母体セットのそれぞれに対して、第一実施形態の第二音響特徴量抽出部1012と同様の処理を行う。
すなわち、第二音響特徴量抽出部1012は、非発声母体セットの各発話の音声信号から音響特徴量系列を抽出し、発声母体セットの各発話の音声信号から音響特徴量系列を抽出する(ステップS3)
音響特徴量系列の抽出の具体例については、第一実施形態と同様であるため、ここでは重複説明を省略する。
音響特徴量系列の抽出の具体例については、第一実施形態と同様であるため、ここでは重複説明を省略する。
<コンポーネント含有量計算部103>
入力:非発声母体セットの各発話の音響特徴量系列及び発声母体セットの各発話の音響特徴量系列(第二音響特徴量抽出部1012から)、非発声コンポーネント群及び発声コンポーネント群(コンポーネント分解部102から)
出力:非発声母体セットの各発話のコンポーネント含有量及び発声母体セットの各発話のコンポーネント含有量(発話選択部104へ)
処理:コンポーネント含有量計算部103は、非発声母体セットの各発話の音響特徴量系列及び発声母体セットの各発話の音響特徴量系列のそれぞれに対して、第一実施形態のコンポーネント含有量計算部103と同様の処理を行う。
入力:非発声母体セットの各発話の音響特徴量系列及び発声母体セットの各発話の音響特徴量系列(第二音響特徴量抽出部1012から)、非発声コンポーネント群及び発声コンポーネント群(コンポーネント分解部102から)
出力:非発声母体セットの各発話のコンポーネント含有量及び発声母体セットの各発話のコンポーネント含有量(発話選択部104へ)
処理:コンポーネント含有量計算部103は、非発声母体セットの各発話の音響特徴量系列及び発声母体セットの各発話の音響特徴量系列のそれぞれに対して、第一実施形態のコンポーネント含有量計算部103と同様の処理を行う。
すなわち、コンポーネント含有量計算部103は、第二音響特徴量抽出部1012で抽出された非発声母体セットの各発話の音響特徴量系列を用いて、非発声母体セットに含まれる各発話における各非発声コンポーネントの含有量を計算し、第二音響特徴量抽出部1012で抽出された発声母体セットの各発話の音響特徴量系列を用いて、発声母体セットに含まれる各発話における各発声コンポーネントの含有量を計算する(ステップS4)。
コンポーネント含有量計算部103の処理の詳細については、第一実施形態と同様であるため、ここでは重複説明を省略する。
<発話選択部104>
入力:非発声母体セットの各発話のコンポーネント含有量(コンポーネント含有量計算部103から)、非発声目標構成比(コンポーネント分解部102から)、発声母体セットの各発話のコンポーネント含有量(コンポーネント含有量計算部103から)、発声目標構成比(コンポーネント分解部102から)、選択停止条件C
出力:学習データ
処理:発話選択部104は、入力された母体セット各発話の非発声区間および発声区間のコンポーネント含有量と、非発声区間および発声区間の目標構成比と選択停止条件Cを用いて、母体セットから発話を選択して学習セットとして出力する。
入力:非発声母体セットの各発話のコンポーネント含有量(コンポーネント含有量計算部103から)、非発声目標構成比(コンポーネント分解部102から)、発声母体セットの各発話のコンポーネント含有量(コンポーネント含有量計算部103から)、発声目標構成比(コンポーネント分解部102から)、選択停止条件C
出力:学習データ
処理:発話選択部104は、入力された母体セット各発話の非発声区間および発声区間のコンポーネント含有量と、非発声区間および発声区間の目標構成比と選択停止条件Cを用いて、母体セットから発話を選択して学習セットとして出力する。
発話選択部104の発話選択手順のうち、構成比類似スコアの計算式(4)を以下の式(5)に置き換える以外はまったく同じ手順で発話を選択する。
M1は非発声コンポーネント数(非発声区間のコンポーネント分解部102に設定された値、通常は256程度)、M2は発声コンポーネント数(発声区間のコンポーネント分解部102に設定された値、通常は256程度)、wi NOISEはi番目の非発声コンポーネントの目標構成比、fiU NOISEはUに含まれる全発話のi番目の非発声コンポーネント含有量の総和、wj SPEECHはj番目の発声コンポーネントの目標構成比、fjU SPEECHはUに含まれる全発話のj番目の発声コンポーネント含有量の総和である。
式(5)の構成比類似スコアは、学習セットUの中の各非発声コンポーネントの構成比が非発声目標構成比に近く、かつ、各発声コンポーネントの構成比が発声目標構成比に近い場合に高くなる。手順(1)と(2)の繰り返しにより、構成比類似スコアをできるだけ高くするように発話を順次選択していくため、学習セットUの中の各非発声/発声コンポーネントの構成比はそれぞれの目標構成比に近づいていく。そのため、上記の手順で最終的に出力された学習セットは、各非発声/発声コンポーネントを目標構成比に近い構成比で含んだ(ターゲットドメインに適合した)学習セットとなる。非発声区間だけに絞って分解した非発声コンポーネントの構成比を考慮するため、第一実施形態よりも周辺雑音環境がよりターゲットドメインに適合した学習セットとなる。
このようにして、発話選択部104は、非発声母体セットに含まれる各発話における各非発声コンポーネントの含有量及び発声母体セットに含まれる各発話における各発声コンポーネントの含有量に基づいて、母体セットに含まれる発話の中から、学習セットにおける非発声コンポーネントの構成比が非発声目標構成比に近くなるように、かつ、学習セットにおける発声コンポーネントの構成比が発声目標構成比に近くなるように、発話を選択することにより学習データを生成する(ステップS5)。
なお、式(5)の構成比類似スコアD(U)は劣モジュラ関数の和を取る関数となっている。劣モジュラ関数の和を取る関数もまた劣モジュラ関数であるため、式(5)の構成比類似スコアD(U)も劣モジュラ関数である。そのため、発話選択部104で利用可能な文献3に記載されている高速化法は、発声/非発声発話選択部202でも利用可能である。
[プログラム及び記録媒体]
上記学習データ生成装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
上記学習データ生成装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、学習データ選択置における各処理をコンピュータによって実現する場合、その各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
2011第一発声/非発声区間抽出部
2012第二発声/非発声区間抽出部
1011第一音響特徴量抽出部
1012第二音響特徴量抽出部
102 コンポーネント分解部
103 コンポーネント含有量計算部
104 発話選択部
2012第二発声/非発声区間抽出部
1011第一音響特徴量抽出部
1012第二音響特徴量抽出部
102 コンポーネント分解部
103 コンポーネント含有量計算部
104 発話選択部
Claims (5)
- ターゲットとなる発話セットをターゲットセットとして、上記ターゲットセットの各発話の音声信号から音響特徴量系列を抽出する第一音響特徴量抽出部と、
上記第一音響特徴量抽出部で抽出された音響特徴量系列を1個以上のコンポーネントに分解し、上記ターゲットセットにおける各コンポーネントの構成比である目標構成比を求めるコンポーネント分解部と、
母体セットに含まれる各発話の音声信号から音響特徴量系列を抽出する第二音響特徴量抽出部と、
上記第二音響特徴量抽出部で抽出された音響特徴量系列を用いて、上記母体セットに含まれる各発話における各コンポーネントの含有量を計算するコンポーネント含有量計算部と、
上記母体セットに含まれる各発話における各コンポーネントの含有量に基づいて、上記母体セットに含まれる発話の中から、学習セットにおけるコンポーネントの構成比が上記目標構成比に近くなるように発話を選択することにより学習データを生成する発話選択部と、
を含む学習データ生成装置。 - 請求項1の学習データ生成装置において、
上記発話選択部は、上記母体セットに含まれる各発話における各コンポーネントのそれぞれの含有量に基づいて、上記母体セットに含まれる発話の中から、発話を追加した後の学習セットにおけるコンポーネントの構成比が上記目標構成比に近くなるように1個の発話を選択し学習セットに追加する処理を繰り返すことにより学習データを生成する、
学習データ生成装置。 - 請求項1又は2の学習データ生成装置において、
上記ターゲットセットの各発話を非発声区間と発生区間とに分割することにより非発声ターゲットセット及び発声ターゲットセットを生成する第一発声/非発声区間抽出部と、
上記母体セットの各発話を非発声区間と発声区間とに分割することにより非発声母体セット及び発声母体セットを生成する第二発声/非発声区間抽出部と、
上記第一音響特徴量抽出部は、上記非発声ターゲットセットの各発話の音声信号から音響特徴量系列を抽出し、上記発声ターゲットセットの各発話の音声信号から音響特徴量系列を抽出し、
上記コンポーネント分解部は、上記第一音響特徴量抽出部で抽出された上記非発声ターゲットセットの各発話の音響特徴量系列を1個以上の非発声コンポーネントに分解し、上記非発声ターゲットセットにおける各非発声コンポーネントの構成比である非発声目標構成比を求め、上記第一音響特徴量抽出部で抽出された上記発声ターゲットセットの各発話の音響特徴量系列を1個以上の発声コンポーネントに分解し、上記発声ターゲットセットにおける各発声コンポーネントの構成比である発声目標構成比を求め、
上記第二音響特徴量抽出部は、上記非発声母体セットの各発話の音声信号から音響特徴量系列を抽出し、上記発声母体セットの各発話の音声信号から音響特徴量系列を抽出し、
上記コンポーネント含有量計算部は、上記第二音響特徴量抽出部で抽出された上記非発声母体セットの各発話の音響特徴量系列を用いて、上記非発声母体セットに含まれる各発話における各非発声コンポーネントの含有量を計算し、上記第二音響特徴量抽出部で抽出された上記発声母体セットの各発話の音響特徴量系列を用いて、上記発声母体セットに含まれる各発話における各発声コンポーネントの含有量を計算し、
上記発話選択部は、上記非発声母体セットに含まれる各発話における各非発声コンポーネントの含有量及び上記発声母体セットに含まれる各発話における各発声コンポーネントの含有量に基づいて、上記母体セットに含まれる発話の中から、学習セットにおける非発声コンポーネントの構成比が上記非発声目標構成比に近くなるように、かつ、学習セットにおける発声コンポーネントの構成比が上記発声目標構成比に近くなるように、発話を選択することにより学習データを生成する、
学習データ生成装置。 - 第一音響特徴量抽出部が、ターゲットとなる発話セットをターゲットセットとして、上記ターゲットセットの各発話の音声信号から音響特徴量系列を抽出する第一音響特徴量抽出方法と、
コンポーネント分解部が、上記第一音響特徴量抽出部で抽出された音響特徴量系列を1個以上のコンポーネントに分解し、上記ターゲットセットにおける各コンポーネントの構成比である目標構成比を求めるコンポーネント分解ステップと、
第二音響特徴量抽出部が、母体セットに含まれる各発話の音声信号から音響特徴量系列を抽出する第二音響特徴量抽出ステップと、
コンポーネント含有量計算部が、上記第二音響特徴量抽出部で抽出された音響特徴量系列を用いて、上記母体セットに含まれる各発話における各コンポーネントの含有量を計算するコンポーネント含有量計算ステップと、
学習データを生成する発話選択部が、上記母体セットに含まれる各発話における各コンポーネントの含有量に基づいて、上記母体セットに含まれる発話の中から、学習セットにおけるコンポーネントの構成比が上記目標構成比に近くなるように発話を選択することにより学習データを生成する発話選択ステップと、
を含む学習データ生成方法。 - 請求項1から3の何れかの学習データ生成装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015059213A JP6073952B2 (ja) | 2015-03-23 | 2015-03-23 | 学習データ生成装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015059213A JP6073952B2 (ja) | 2015-03-23 | 2015-03-23 | 学習データ生成装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016177233A JP2016177233A (ja) | 2016-10-06 |
JP6073952B2 true JP6073952B2 (ja) | 2017-02-01 |
Family
ID=57069431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015059213A Active JP6073952B2 (ja) | 2015-03-23 | 2015-03-23 | 学習データ生成装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6073952B2 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3756879B2 (ja) * | 2001-12-20 | 2006-03-15 | 松下電器産業株式会社 | 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム |
JP4829871B2 (ja) * | 2007-11-21 | 2011-12-07 | 日本電信電話株式会社 | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 |
WO2010047019A1 (ja) * | 2008-10-21 | 2010-04-29 | 日本電気株式会社 | 統計モデル学習装置、統計モデル学習方法、およびプログラム |
-
2015
- 2015-03-23 JP JP2015059213A patent/JP6073952B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016177233A (ja) | 2016-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10157610B2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
EP3482392B1 (en) | Method and system for automatically diarising a sound recording | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US8401840B2 (en) | Automatic spoken language identification based on phoneme sequence patterns | |
US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
KR101780760B1 (ko) | 가변길이 문맥을 이용한 음성인식 | |
WO2013030134A1 (en) | Method and apparatus for acoustic source separation | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
US9355636B1 (en) | Selective speech recognition scoring using articulatory features | |
Hasija et al. | Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier | |
JPWO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
JP6073952B2 (ja) | 学習データ生成装置、方法及びプログラム | |
KR102051235B1 (ko) | 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법 | |
Syed et al. | Concatenative Resynthesis with Improved Training Signals for Speech Enhancement. | |
Sárosi et al. | On modeling non-word events in large vocabulary continuous speech recognition | |
JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
Govender et al. | Objective measures to improve the selection of training speakers in HMM-based child speech synthesis | |
Kaur et al. | Speech based retrieval system for Punjabi language | |
Srun et al. | Development of speech recognition system based on cmusphinx for khmer language | |
Gody et al. | Automatic Speech Annotation Using HMM based on Best Tree Encoding (BTE) Feature | |
AU2013375318B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
EP1688914A1 (en) | Method and apparatus relating to searching of spoken audio data | |
Gereg et al. | Semi-automatic processing and annotation of meeting audio recordings | |
Mitrovski et al. | Towards a System for Automatic Media Transcription in Macedonian | |
Kokkinidis et al. | Finding the optimum training solution for Byzantine music recognition—A Max/Msp approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6073952 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |