JP2015049433A - 音声信号解析装置、方法、及びプログラム - Google Patents
音声信号解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2015049433A JP2015049433A JP2013182112A JP2013182112A JP2015049433A JP 2015049433 A JP2015049433 A JP 2015049433A JP 2013182112 A JP2013182112 A JP 2013182112A JP 2013182112 A JP2013182112 A JP 2013182112A JP 2015049433 A JP2015049433 A JP 2015049433A
- Authority
- JP
- Japan
- Prior art keywords
- time
- parameter
- gaussian distributions
- cwm
- parameter group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 25
- 238000004458 analytical method Methods 0.000 title claims description 20
- 238000000034 method Methods 0.000 title description 24
- 238000001228 spectrum Methods 0.000 claims abstract description 71
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000009826 distribution Methods 0.000 claims description 75
- 230000003595 spectral effect Effects 0.000 claims description 21
- 230000007704 transition Effects 0.000 claims description 11
- 238000012887 quadratic function Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 44
- 230000008569 process Effects 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 238000001308 synthesis method Methods 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Landscapes
- Stereophonic System (AREA)
- Complex Calculations (AREA)
Abstract
Description
本実施の形態においては、音声のスペクトル系列を入力として、フォルマント周波数軌跡の生成過程モデルのパラメータ(調音ターゲット、音素境界)を推定するアルゴリズムを提案する。動的計画法や補助関数法の原理を適用することで、効率的かつ収束性が保証されたアルゴリズムを実現する。具体的には、以下の(1)〜(4)により実現する。
まず、本発明の実施の形態に係る音声信号解析装置の構成について説明する。図6に示すように、本発明の実施の形態に係る音声信号解析装置100は、CPUと、RAMと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この音声信号解析装置100は、機能的には図6に示すように入力部10と、演算部20と、出力部50と、記憶部60とを備えている。
次に、本発明の実施の形態に係る音声信号解析装置100の作用について説明する。入力部10によりマイクロホンから出力された音響信号の時系列データが入力されると、音声信号解析装置100は、図7に示すパラメータ推定処理ルーチンを実行する。
実験は大きく分けて学習フェイズと推定フェイズの2段階からなる。学習フェイズでは、ATR日本語音声データベースのBセットから男性話者1人を選択し、No.1〜No.400までの400文を対象として、音素ごとに定まるパラメータθの学習を行った。また、推定フェイズでは、学習に使っていない発話文を対象にCWMパラメータの推定を行った。ここで、θは学習フェイズでの推定値を用いて定数とみなす。なお、本実験においてスペクトル包絡の抽出にはSTRAIGHT法を用い、また、音素ラベルのデータを与えることで状態系列^sを定数とする。本実験では、GMMの混合数は10、パラメータ推定アルゴリズムの反復回数は10、αk=50とし、その他のCWMパラメータの初期値はChain(非特許文献3参照)を導入しない推定アルゴリズムを用いて決定した。
20 演算部
22 観測スペクトル包絡系列算出部
24 初期パラメータ設定部
26 補助変数更新部
28 収束判定部
30 パラメータ更新部
32 CWMパラメータ更新部
34 HMMパラメータ更新部
36 調音ターゲット系列更新部
50 出力部
60 記憶部
100 音声信号解析装置
Claims (6)
- 音声信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分yω,tを表すスペクトル包絡を算出する観測スペクトル包絡系列算出部と、
K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、及びK個のガウス分布kの各々についての各時刻lの重みwk,lを含むCWMパラメータ群と、隠れマルコフモデルの各時刻kの状態のインデックスskからなる状態系列^s、隠れマルコフモデルの前記状態i',i間の各々の遷移確率Φi',i、K個のガウス分布kの各々についての各状態iにおける前記重みwk,lの分布を表すパラメータb(w) k,i、K個のガウス分布kの各々についての各状態iにおける前記分散の逆数ρk,lの分布を表すパラメータb(ρ) k,i、及びK個のガウス分布kの各々についての各状態iにおける前記平均μk,lの正規分布の平均mk,iを含むHMMパラメータ群と、K個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,lを含む調音ターゲット系列との各々の初期値を設定する初期パラメータ設定部と、
各時刻tにおける前記スペクトル包絡が与えられたときの、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻tにおける前記スペクトル包絡、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列に基づいて、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列を更新するパラメータ更新部と、
予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う収束判定部と、
を含む音声信号解析装置。 - 前記目的関数を、
CWMパラメータ群が与えられたときの各時刻tにおける前記スペクトル包絡の確率、前記状態系列^sの確率、前記状態系列^sが与えられたときの、前記K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,lの確率、前記状態系列^sが与えられたときの、前記K個のガウス分布kの各々についての各時刻lの重みwk,lの確率、前記状態系列^sが与えられたときの前記調音ターゲット系列の確率、前記状態系列^s及び前記調音ターゲット系列が与えられたときの前記K個のガウス分布kの各々についての各時刻lの平均μk,lの確率を用いて表される関数とし、
前記パラメータ更新部は、前記関数を最大化するように、各時刻tにおける前記スペクトル包絡、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列に基づいて、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列を更新する請求項1記載の音声信号解析装置。 - 補助変数更新部を更に含み、
前記目的関数を、
各時刻tにおける各周波数ωの観測時間周波数成分yω,t、K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、K個のガウス分布kの各々についての各時刻lの重みwk,l、K個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,l、(k、ω、l)の全ての組み合わせについての補助変数γk,ω,l、(τ、k、l)の全ての組み合わせについての補助変数λτ,k,l、及び(k、l)の全ての組み合わせについての補助変数ξk,lを用いて表され、かつ、前記関数の対数の下限関数である補助関数とし、
前記補助変数更新部は、前記補助関数を大きくするように、K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、K個のガウス分布kの各々についての各時刻lの重みwk,l、及びK個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,lに基づいて、(k、ω、l)の全ての組み合わせについての補助変数γk,ω,l、(τ、k、l)の全ての組み合わせについての補助変数λτ,k,l、及び(k、l)の全ての組み合わせについての補助変数ξk,lを更新し、
前記パラメータ更新部は、前記補助関数を大きくするように、各時刻tにおける前記スペクトル包絡、CWMパラメータ群、HMMパラメータ群、及び調音ターゲット系列(k、ω、l)の全ての組み合わせについての補助変数γk,ω,l(τ、k、l)の全ての組み合わせについての補助変数λτ,k,l(k、l)の全ての組み合わせについての補助変数ξk,lに基づいて、CWMパラメータ群、HMMパラメータ群、及び調音ターゲット系列を更新する請求項2記載の音声信号解析装置。 - 前記補助関数は、二次関数の凸性を利用するJensenの不等式を用いて定められた下限関数である請求項3記載の音声信号解析装置。
- 観測スペクトル包絡系列算出部と、初期パラメータ設定部と、パラメータ更新部と、収束判定部と、を含む音声信号解析装置における音声信号解析方法であって、
前記観測スペクトル包絡系列算出部は、音声信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分yω,tを表すスペクトル包絡を算出し、
前記初期パラメータ設定部は、K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、及びK個のガウス分布kの各々についての各時刻lの重みwk,lを含むCWMパラメータ群と、隠れマルコフモデルの各時刻kの状態のインデックスskからなる状態系列^s、隠れマルコフモデルの前記状態i',i間の各々の遷移確率Φi',i、K個のガウス分布kの各々についての各状態iにおける前記重みwk,lの分布を表すパラメータb(w) k,i、K個のガウス分布kの各々についての各状態iにおける前記分散の逆数ρk,lの分布を表すパラメータb(ρ) k,i、及びK個のガウス分布kの各々についての各状態iにおける前記平均μk,lの正規分布の平均mk,iを含むHMMパラメータ群と、K個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,lを含む調音ターゲット系列との各々の初期値を設定し、
前記パラメータ更新部は、各時刻tにおける前記スペクトル包絡が与えられたときの、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻tにおける前記スペクトル包絡、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列に基づいて、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列を更新し、
前記収束判定部は、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う
音声信号解析方法。 - コンピュータを、請求項1〜4の何れか1項記載の音声信号解析装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013182112A JP6137479B2 (ja) | 2013-09-03 | 2013-09-03 | 音声信号解析装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013182112A JP6137479B2 (ja) | 2013-09-03 | 2013-09-03 | 音声信号解析装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015049433A true JP2015049433A (ja) | 2015-03-16 |
JP6137479B2 JP6137479B2 (ja) | 2017-05-31 |
Family
ID=52699478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013182112A Active JP6137479B2 (ja) | 2013-09-03 | 2013-09-03 | 音声信号解析装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6137479B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018097115A (ja) * | 2016-12-12 | 2018-06-21 | 日本電信電話株式会社 | 基本周波数モデルパラメータ推定装置、方法、及びプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090427A (zh) * | 2017-12-07 | 2018-05-29 | 上海电机学院 | 基于鸟群算法和隐马尔科夫模型的齿轮箱故障诊断方法 |
-
2013
- 2013-09-03 JP JP2013182112A patent/JP6137479B2/ja active Active
Non-Patent Citations (1)
Title |
---|
JPN6016030915; 吉里幸太,外4名: 'フォルマント周波数軌跡を潜在パラメータとした音声スペクトル生成過程の確率モデル' 日本音響学会2013年春季研究発表会講演論文集 , 20130305, pp.277-280, 一般社団法人日本音響学会 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018097115A (ja) * | 2016-12-12 | 2018-06-21 | 日本電信電話株式会社 | 基本周波数モデルパラメータ推定装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6137479B2 (ja) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447490B (zh) | 基于记忆性瓶颈特征的声纹识别的方法及装置 | |
CN113724685B (zh) | 语音合成模型学习装置、语音合成模型学习方法及存储介质 | |
JP2019144402A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JP2013205697A (ja) | 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置 | |
CN114694632A (zh) | 语音处理装置 | |
US20230317056A1 (en) | Audio generator and methods for generating an audio signal and training an audio generator | |
CN104737229A (zh) | 用于变换输入信号的方法 | |
JP4382808B2 (ja) | 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム | |
Boulanger-Lewandowski et al. | Exploiting long-term temporal dependencies in NMF using recurrent neural networks with application to source separation | |
CN110751941A (zh) | 语音合成模型的生成方法、装置、设备及存储介质 | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
Ju et al. | TriniTTS: Pitch-controllable End-to-end TTS without External Aligner. | |
JP6137479B2 (ja) | 音声信号解析装置、方法、及びプログラム | |
JP2004004906A (ja) | 固有声に基づいた最尤法を含む話者と環境の適合化方法 | |
JP6142401B2 (ja) | 音声合成モデル学習装置、方法、及びプログラム | |
JP5807914B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
Wu et al. | Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion. | |
Hershey et al. | Factorial models for noise robust speech recognition | |
JP6910609B2 (ja) | 信号解析装置、方法、及びプログラム | |
Boccardi et al. | Sound morphing with Gaussian mixture models | |
JP2004117503A (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
Kim et al. | Maximum a posteriori adaptation of HMM parameters based on speaker space projection | |
JP6468519B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
JP2008298844A (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
Cho et al. | An efficient HMM-based feature enhancement method with filter estimation for reverberant speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20150709 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160816 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6137479 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |