JP6220733B2 - 音声分類装置、音声分類方法、プログラム - Google Patents
音声分類装置、音声分類方法、プログラム Download PDFInfo
- Publication number
- JP6220733B2 JP6220733B2 JP2014117840A JP2014117840A JP6220733B2 JP 6220733 B2 JP6220733 B2 JP 6220733B2 JP 2014117840 A JP2014117840 A JP 2014117840A JP 2014117840 A JP2014117840 A JP 2014117840A JP 6220733 B2 JP6220733 B2 JP 6220733B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- tone
- acoustic feature
- model
- utterances
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
入力:N個の発話
出力:N個の音響特徴量系列(混合正規分布適応部102へ)
音響特徴量抽出部101は、入力されたN個の発話それぞれから、発話ごとの音響特徴量系列を抽出し、得られたN個の音響特徴量系列を混合正規分布適応部102へ出力する(S101)。別の表現では、音響特徴量抽出部101は、N個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計N個の音響特徴量系列を抽出する(S101)。
入力:N個の音響特徴量系列(音響特徴量抽出部101から)、ベース発話モデル
出力:N個の発話モデル(スーパーベクトル算出部103へ)
混合正規分布適応部102は、入力されたN個の音響特徴量系列それぞれに対してベース発話モデル(ベース発話モデル記憶部106に記憶されている、詳細は後述)を適応させてN個の発話モデルを生成し、得られたN個の発話モデルをスーパーベクトル算出部103へ出力する(S102)。
(参考非特許文献1:篠田浩一,“確率モデルによる音声認識のための話者適応化技術,”電子情報通信学会論文誌.D-II,情報・システム,II-パターン処理,J87-D-II(2),pp.371-386, 2004-02-01.)
以下、引き続き図1、新たに図3を参照してベース発話モデル生成装置2について説明する。図3は、本実施例のベース発話モデル生成装置2の動作を示すフローチャートである。混合正規分布適応部102に入力されるベース発話モデルは以下に示す方法で、ベース発話モデル生成装置2により事前に作成される。まず、大量(数十〜百時間程度、所定量とも表現する)の発話を用意する。この大量(所定量)の発話をベース発話モデル生成装置2に入力する。ベース発話モデル生成装置2の音響特徴量抽出部101は、入力された発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、大量(所定量)の音響特徴量系列を抽出する(S101)。ベース発話モデル生成装置2の音響特徴量抽出部101は、抽出された大量(所定量)の音響特徴量系列を混合正規分布当てはめ部110に入力する。混合正規分布当てはめ部110は、大量(所定量)の音響特徴量系列からベース発話モデルを作成する(詳細は後述)。大量(所定量)の発話は複数人の話者によるものであることが好ましいが、1名でも構わない。また、大量(所定量)の発話の話者は音声分類装置1に入力されるN個の発話の話者と同じでも良いし異なっていても良い。
入力:大量(所定量)の音響特徴量系列、混合数
出力:ベース発話モデル
混合正規分布当てはめ部110は、入力された大量(所定量)の音響特徴量系列に対して、入力された混合数の混合正規分布を当てはめてベース発話モデルの各モデルパラメータの値を求め、得られたベース発話モデルを出力する(S110)。音響特徴量系列への混合正規分布の当てはめ(モデルパラメータの推定)には例えば参考非特許文献2などに記載されている一般的なEM(Expectation Maximization)アルゴリズムを用いる。混合数は1以上の整数であり、大きくするとより精緻に音響特徴量の分布を捉えることができるが、モデルパラメータの数が増加するため推定に必要な音響特徴量の数が増加する。通常128程度の混合数を用いる。混合正規分布当てはめ部110は、生成したベース発話モデルをベース発話モデル記憶部106に記憶する。
(参考非特許文献2:C.M.ビショップ,“パターン認識と機械学習(下),”pp.154-155,シュプリンガー・ジャパン株式会社,2008-07-01.)
ベース発話モデル記憶部106は、前述したように、予め用意された所定量の発話から抽出された音響特徴量系列に予め定めた混合数の混合正規分布を当てはめて生成したベース発話モデルを記憶している。
入力:N個の発話モデル(混合正規分布適応部102から)
出力:N個の発話スーパーベクトル(分散算出部104へ)
次に、スーパーベクトル算出部103は、入力されたN個の発話モデルそれぞれから発話スーパーベクトルを算出し、得られたN個の発話スーパーベクトルを分散算出部104へ出力する(S103)。発話スーパーベクトルは、発話モデルが持つM個の平均ベクトル
入力:N個の発話スーパーベクトル(スーパーベクトル算出部103から)
出力:発話変動ベクトル(口調識別部105へ)
分散算出部104は、入力されたN個の発話スーパーベクトルから発話変動ベクトルを算出し、口調識別部105へ出力する。発話変動ベクトルはN個の発話スーパーベクトルの各次元の値の分散を並べたベクトルであり、発話スーパーベクトルと同一の次元数を持つ(発話変動ベクトルおよび発話スーパーベクトルの次元数をDと書く)。発話変動ベクトルψは以下の式により算出される。
入力:発話変動ベクトル(分散算出部104から)、識別器のモデルパラメータ
出力:口調識別結果
口調識別部105は、入力された発話変動ベクトルを識別器に入力し、得られた口調識別結果(最初に入力されたN個の発話が読み上げ口調であるか会話口調であるか)を出力する(S105)。識別器は同時に入力された識別器のモデルパラメータを用いて動作させる。識別器のモデルパラメータは事前に求めておく。識別器のモデルパラメータの生成方法については後述する。
以下、引き続き図1、新たに図4を参照してモデルパラメータ学習装置3について説明する。図4は本実施例のモデルパラメータ学習装置3の動作を示すフローチャートである。まず、口調ラベルが付与されているN個の発話を大量に(通常は30時間分程度、以下「所定量の組」とも表現する)用意し、モデルパラメータ学習装置3に入力する。モデルパラメータ学習装置3の音響特徴量抽出部101は、所定量の組のN個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計(所定量の組×N)個の音響特徴量系列を抽出する(S101)。モデルパラメータ学習装置3の混合正規分布適応部102は、N個の音響特徴量系列のそれぞれにベース発話モデルを適応させて(所定量の組×N)個の発話モデルを生成する(S102)。スーパーベクトル算出部103は、発話スーパーベクトルを(所定量の組×N)個の発話モデルのそれぞれから一つずつ生成し、合計(所定量の組×N)個の発話スーパーベクトルを出力する(S103)。分散算出部104は、N個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを組ごとに生成し、発話変動ベクトルを所定量の組数分生成する(S104)。このようにして、モデルパラメータ学習装置3はN個の発話から発話変動ベクトルを一つずつ算出する。分散算出部104は、得られた大量(所定量の組数)の発話変動ベクトルと口調ラベルのペアを口調識別器学習部120に入力する。
入力:発話変動ベクトルと口調ラベルのペアの集合(所定量の組)
出力:識別器のモデルパラメータ
口調識別器学習部120は、入力された発話変動ベクトルと口調ラベルのペアの集合に対して、識別精度を最大化する識別器のモデルパラメータを算出し、出力する(S120)。
(参考非特許文献3:Anil K. Jain, Mao Jianchang, and K. M. Mohiuddin, "Artificial Neural Networks: A Tutorial," IEEE computer, vol.29, no.3, pp.31-44, 1996.)
前述したように、モデルパラメータ記憶部107は、予め用意した発話変動ベクトルに対して口調を分類するラベルである口調ラベルを予め付与してなる学習データを所定量用いて学習した識別器のモデルパラメータを記憶する。
Claims (8)
- Nを2以上の整数とし、
N個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計N個の前記音響特徴量系列を抽出する音響特徴量抽出部と、
予め用意された所定量の発話から抽出された音響特徴量系列に予め定めた混合数の混合正規分布を当てはめて生成したベース発話モデルを記憶するベース発話モデル記憶部と、
前記N個の音響特徴量系列のそれぞれに前記ベース発話モデルを適応させてN個の発話モデルを生成する混合正規分布適応部と、
前記発話モデルに含まれる平均ベクトルを順に連結してなる発話スーパーベクトルを前記N個の発話モデルのそれぞれから一つずつ生成し、合計N個の前記発話スーパーベクトルを出力するスーパーベクトル算出部と、
前記N個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを生成する分散算出部と、
予め用意した前記発話変動ベクトルに対して口調を分類するラベルである口調ラベルを予め付与してなる学習データを所定量用いて学習した識別器のモデルパラメータを記憶するモデルパラメータ記憶部と、
前記生成された発話変動ベクトルと、前記識別器のモデルパラメータに基づいて、前記N個の発話ごとに口調識別結果を生成する口調識別部と、
を含む音声分類装置。 - 請求項1に記載の音声分類装置であって、
前記Nを20以下の整数とする
音声分類装置。 - 請求項2に記載の音声分類装置であって、
前記Nを5とする
音声分類装置。 - 請求項1から3の何れかに記載の音声分類装置であって、
前記音響特徴量系列は、音響特徴量として、MFCC、LPCケプストラム、分析フレームごとのピッチ、高調波成分対雑音比のいずれかを含む
音声分類装置。 - Nを2以上の整数とし、
N個の発話のそれぞれから音響特徴量系列を一系列ずつ抽出し、合計N個の前記音響特徴量系列を抽出する音響特徴量抽出ステップと、
予め用意された所定量の発話から抽出された音響特徴量系列に予め定めた混合数の混合正規分布を当てはめて生成したベース発話モデルを、前記N個の音響特徴量系列のそれぞれに適応させてN個の発話モデルを生成する混合正規分布適応ステップと、
前記発話モデルに含まれる平均ベクトルを順に連結してなる発話スーパーベクトルを前記N個の発話モデルのそれぞれから一つずつ生成し、合計N個の前記発話スーパーベクトルを出力するスーパーベクトル算出ステップと、
前記N個の発話スーパーベクトルの各次元の値の分散を並べてなる発話変動ベクトルを生成する分散算出ステップと、
予め用意した前記発話変動ベクトルに対して口調を分類するラベルである口調ラベルを予め付与してなる学習データを所定量用いて学習した識別器のモデルパラメータと、前記生成された発話変動ベクトルに基づいて、前記N個の発話ごとに口調識別結果を生成する口調識別ステップと、
を含む音声分類方法。 - 請求項5に記載の音声分類方法であって、
前記Nを20以下の整数とする
音声分類方法。 - 請求項6に記載の音声分類方法であって、
前記Nを5とする
音声分類方法。 - コンピュータを、請求項1から4の何れかに記載の音声分類装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014117840A JP6220733B2 (ja) | 2014-06-06 | 2014-06-06 | 音声分類装置、音声分類方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014117840A JP6220733B2 (ja) | 2014-06-06 | 2014-06-06 | 音声分類装置、音声分類方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015230455A JP2015230455A (ja) | 2015-12-21 |
JP6220733B2 true JP6220733B2 (ja) | 2017-10-25 |
Family
ID=54887233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014117840A Active JP6220733B2 (ja) | 2014-06-06 | 2014-06-06 | 音声分類装置、音声分類方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6220733B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10930301B1 (en) * | 2019-08-27 | 2021-02-23 | Nec Corporation | Sequence models for audio scene recognition |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005221679A (ja) * | 2004-02-04 | 2005-08-18 | Advanced Telecommunication Research Institute International | 発話スタイル評価装置及び発話スタイル分類装置 |
JP2006071936A (ja) * | 2004-09-01 | 2006-03-16 | Matsushita Electric Works Ltd | 対話エージェント |
JP2007219286A (ja) * | 2006-02-17 | 2007-08-30 | Tokyo Institute Of Technology | 音声のスタイル検出装置、その方法およびそのプログラム |
-
2014
- 2014-06-06 JP JP2014117840A patent/JP6220733B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015230455A (ja) | 2015-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5768093B2 (ja) | 音声処理システム | |
Lozano-Diez et al. | An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition | |
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
EP3469582A1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
JP2017032839A (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
US20230343319A1 (en) | speech processing system and a method of processing a speech signal | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
JP2018081169A (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
JP7332024B2 (ja) | 認識装置、学習装置、それらの方法、およびプログラム | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
CN111599339A (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
US11398239B1 (en) | ASR-enhanced speech compression | |
CN112686041A (zh) | 一种拼音标注方法及装置 | |
Lopez-Otero et al. | Compensating Gender Variability in Query-by-Example Search on Speech Using Voice Conversion. | |
JP2020129099A (ja) | 推定装置、推定方法、及びプログラム | |
JP2020129051A (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
JP2020067500A (ja) | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6220733 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |