JP5885210B2 - 基本周波数モデルパラメータ推定装置、方法、及びプログラム - Google Patents
基本周波数モデルパラメータ推定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5885210B2 JP5885210B2 JP2013003585A JP2013003585A JP5885210B2 JP 5885210 B2 JP5885210 B2 JP 5885210B2 JP 2013003585 A JP2013003585 A JP 2013003585A JP 2013003585 A JP2013003585 A JP 2013003585A JP 5885210 B2 JP5885210 B2 JP 5885210B2
- Authority
- JP
- Japan
- Prior art keywords
- command
- fundamental frequency
- time
- function
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 66
- 238000004364 calculation method Methods 0.000 claims description 13
- 210000000534 thyroid cartilage Anatomy 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 230000006870 function Effects 0.000 description 87
- 238000004422 calculation algorithm Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 16
- 230000005236 sound signal Effects 0.000 description 8
- 230000007704 transition Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 210000001260 vocal cord Anatomy 0.000 description 3
- 238000012733 comparative method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Description
音声のイントネーションを解析する手法に、藤崎の基本周波数(F0)パターン生成過程モデル(藤崎モデル)が知られている(非特許文献1)。藤崎モデルとは、甲状軟骨の運動に注目してF0パターンの生成過程を説明した、力学的モデルである。藤崎モデルでは、甲状軟骨の二つの独立な運動(平行移動運動と回転運動)にそれぞれ伴う声帯の伸びの合計がF0の時間的変化をもたらすと解釈され、声帯の伸びとF0パターンの対数値y(t)が比例関係にあるという仮定に基づいてF0パターンがモデル化される。甲状軟骨の平行移動運動によって生じるF0パターンyp(t)をフレーズ成分、回転運動によって生じるF0パターンya(t)をアクセント成分と呼ぶ。藤崎モデルでは、音声のF0パターンy(t)は、これらの成分に声帯の物理的制約によって決まるベースライン成分ybを足し合わせたものとして、
従来、音声信号のF0パターンから藤崎モデルのパラメータを推定する手法として、非特許文献2に記載の手法が知られている。この手法ではまず、観測F0パターンに対して平滑化のための前処理を行う。具体的にはgross errorの除去、microprosodyの修正、短い無音区間と無声区間の補間を行った後、F0パターンを至るところで連続かつ微分可能な区分的3次曲線で近似する。次に、そうして得られた平滑化F0パターンの微分値の極大値・極小値を手掛かりに、アクセント指令列の位置と大きさを推定する。さらに観測F0パターンから推定アクセント成分を差し引いたパターンをもとにleft-to-rightにフレーズ指令を挿入していく。最後に、推定指令列から生成したF0パターンと観測F0パターンの平均二乗誤差を最小とするように、指令列を微小変化させ、こうして得られた指令列を藤崎モデルの推定パラメータとする。
従来、音声信号のF0パターンから藤崎モデルのパラメータを推定する手法として、他にも次のような手法がある(非特許文献3〜5)。この手法では、離散化した藤崎モデルをベースにして定式化したF0パターン生成過程の確率モデルを使い、そのモデルに従ってP(y|θ)の最適化問題を解くことによって適切なパラメータを推定する(yは観測F0パターン、θは藤崎モデルのパラメータ)。このモデル中では、制約条件があって扱いづらいフレーズ指令とアクセント指令のペアを、隠れマルコフモデル(HMM)から確率的に出力される値として扱う。また推定アルゴリズムにおいては、各成分について周辺化を行ったうえで、EMアルゴリズムによる反復解法で適切なパラメータを推定している。
K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, "Statistical approach to fujisaki-model parameter estimation from speech signals and its quantitative evaluation," in Proc. Speech
本発明の原理について説明する。まず、F0パターン生成過程の確率モデルについて説明する。
本発明では、藤崎モデルのパラメータ推定問題を、観測基本周波数系列^yが与えられたときのパラメータ^o,θの事後確率P(^o,θ|^y)を最大化する^oとθを求める最大事後確率(Maximum A Posteriori;MAP)推定問題として定式化し、指令状態系列^sを潜在変数と見なしてExpectation-Maximization(EM)アルゴリズムに基づく反復計算により^oとθの局所最適解を探索する。EMアルゴリズムは、パラメータの対数事後確率logP(^o,θ|^y)の下限関数(Q関数と呼ぶ)を反復的に増加させることで、間接的にパラメータの対数事後確率logP(^o,θ|^y)を増加させていく方法であり、本問題におけるQ関数は
次に、観測された音声信号の時系列データを解析して、藤崎モデルのパラメータを推定する基本周波数モデルパラメータ推定装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
次に、本実施の形態に係る基本周波数モデルパラメータ推定装置100の作用について説明する。まず、分析対象として、観測された音声信号の時系列データが、基本周波数モデルパラメータ推定装置100に入力され、記憶部1に格納される。そして、基本周波数モデルパラメータ推定装置100において、図4に示す基本周波数モデルパラメータ推定処理ルーチンが実行される。
本実施の形態における重要な成果は、藤崎モデルを確率モデルとして表現することに成功したことである。本発明者らは、数多くの統計的手法に基づく音声アプリケーションに、本実施の形態で提案したモデルを組み込むことによって、将来的には韻律を扱う強力な手法が得られると考えている。そのためには、スペクトル特徴量と同じようにして、藤崎モデルのパラメータであるフレーズ、アクセント指令関数が音声コーパスから自動的に学習できると非常に便利である。この点において、確率モデルとして定式化した、本実施の形態の提案モデルと提案アルゴリズムは、たとえば、上記非特許文献2のような統計的でない手法よりも優れていると言える。しかし、提案アルゴリズムを用いた実音声からの藤崎モデルパラメータの推定性能が、既存手法の性能を上回っているかどうかはまだ明らかでない。そこで、本実施の形態で提案した手法のパラメータ推定性能を定量的に評価するための実験を行った。
2 基本周波数系列抽出部
3 有声無声区間推定部
4 初期値設定部
5 指令状態系列事後確率更新部
6 モデルパラメータ更新部
7 収束判定部
8 状態系列算出部
61 補助変数更新部
62 指令関数更新部
63 収束判定部
64 平均振幅更新部
100 基本周波数モデルパラメータ推定装置
Claims (5)
- 音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる指令状態系列^sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペア^o[k]からなる指令関数^oと、各時刻kにおける状態skに応じたフレーズ指令の振幅Ap[k]及び各アクセント指令nの振幅Aa (n)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置であって、
前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列^yを抽出する基本周波数抽出手段と、
前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの度合いを推定する有声無声区間推定手段と、
前記指令関数^oの初期値、及び前記パラメータ群θの初期値を設定する初期値設定手段と、
前回更新された前記指令関数^o’または前記指令関数^oの初期値^o’に基づいて、前記観測基本周波数系列^y、前記指令関数^o’、及び前記パラメータ群θ’が与えられたときの指令状態系列^sの事後確率P(^s|^y,^o’、θ’)を計算する指令状態系列事後確率更新手段と、
前回更新された前記指令関数^o’または前記指令関数^oの初期値^o’、前記観測基本周波数系列^y、各時刻kにおける前記不確かさの度合い、及び前記事後確率P(^s|^y,^o’、θ’)に基づいて、前記観測基本周波数系列^yが与えられたときの前記指令関数^o及び前記パラメータ群θの対数事後確率logP(^o,θ|^y)を目的関数として、前記目的関数を増加させるように、各々非負値である前記指令関数^o、及び前記パラメータ群θを更新するモデルパラメータ更新手段と、
予め定められた収束条件を満たすまで、前記指令状態系列事後確率更新手段による計算、及び前記モデルパラメータ更新手段による更新を繰り返し行う第1収束判定手段と、
を含む基本周波数モデルパラメータ推定装置。 - 前記モデルパラメータ更新手段は、
前回更新された各時刻lのフレーズ指令up[l]又は各時刻lのフレーズ指令up[l]の初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λp,k,lを算出して更新し、かつ、前回更新された各時刻kのアクセント指令ua[k]又は各時刻kのアクセント指令ua[k]の初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λa,k,lを算出して更新する補助変数更新手段と、
前記観測基本周波数系列^yと、各時刻kの前記不確かさの程度と、前記計算された指令状態系列の事後確率P(^s|^y,^o′,θ′)と、前記補助変数更新手段によって更新された前記補助変数λp,k,l、λa,k,lとに基づいて、前記目的関数の下限関数Q(^o,θ、^o’,θ’)のさらに下限となる関数を補助関数として、前記補助関数を増加させるように、各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]を更新する指令関数更新手段と、
予め定められた収束条件を満たすまで、前記補助変数更新手段による更新、及び前記指令関数更新手段による更新を繰り返し行う第2収束判定手段と、
前記指令関数更新手段によって更新された各時刻lのフレーズ指令up[l]に基づいて、各時刻kのフレーズ指令の振幅Ap[k]を更新し、かつ、前記指令関数更新手段よって更新された各時刻lのアクセント指令ua[l]と、前記計算された指令状態系列の事後確率P(^s|^y,^o′,θ′)とに基づいて、各アクセント指令nの振幅Aa (n)を更新することにより、前記パラメータ群θを更新する平均振幅更新手段と、
を含む請求項1記載の基本周波数モデルパラメータ推定装置。 - モデルパラメータ更新手段によって最終的に更新された指令関数^oに基づいて、前記状態系列^sを算出する状態系列算出手段を更に含む請求項1又は2記載の基本周波数モデルパラメータ推定装置。
- 音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる指令状態系列^sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペア^o[k]からなる指令関数^oと、各時刻kにおける状態skに応じたフレーズ指令の振幅Ap[k]及び各アクセント指令nの振幅Aa (n)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定方法であって、
基本周波数抽出手段によって、前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列^yを抽出し、
有声無声区間推定手段によって、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの度合いを推定し、
初期値設定手段によって、前記指令関数^oの初期値、及び前記パラメータ群θの初期値を設定し、
指令状態系列事後確率更新手段によって、前回更新された前記指令関数^o’または前記指令関数^oの初期値^o’に基づいて、前記観測基本周波数系列^y、前記指令関数^o’、及び前記パラメータ群θ’が与えられたときの指令状態系列^sの事後確率P(^s|^y,^o’、θ’)を計算し、
モデルパラメータ更新手段によって、前回更新された前記指令関数^o’または前記指令関数^oの初期値^o’、前記観測基本周波数系列^y、各時刻kにおける前記不確かさの度合い、及び前記事後確率P(^s|^y,^o’、θ’)に基づいて、前記観測基本周波数系列^yが与えられたときの前記指令関数^o及び前記パラメータ群θの対数事後確率logP(^o,θ|^y)を目的関数として、前記目的関数を増加させるように、各々非負値である前記指令関数^o、及び前記パラメータ群θを更新し、
第1収束判定手段によって、予め定められた収束条件を満たすまで、前記指令状態系列事後確率更新手段による計算、及び前記モデルパラメータ更新手段による更新を繰り返し行う
基本周波数モデルパラメータ推定方法。 - 請求項1〜請求項3の何れか1項に記載の基本周波数モデルパラメータ推定装置の各手段としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013003585A JP5885210B2 (ja) | 2013-01-11 | 2013-01-11 | 基本周波数モデルパラメータ推定装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013003585A JP5885210B2 (ja) | 2013-01-11 | 2013-01-11 | 基本周波数モデルパラメータ推定装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014134730A JP2014134730A (ja) | 2014-07-24 |
JP5885210B2 true JP5885210B2 (ja) | 2016-03-15 |
Family
ID=51413023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013003585A Active JP5885210B2 (ja) | 2013-01-11 | 2013-01-11 | 基本周波数モデルパラメータ推定装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5885210B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6468518B2 (ja) * | 2016-02-23 | 2019-02-13 | 日本電信電話株式会社 | 基本周波数パターン予測装置、方法、及びプログラム |
JP6472005B2 (ja) * | 2016-02-23 | 2019-02-20 | 日本電信電話株式会社 | 基本周波数パターン予測装置、方法、及びプログラム |
JP6468519B2 (ja) * | 2016-02-23 | 2019-02-13 | 日本電信電話株式会社 | 基本周波数パターン予測装置、方法、及びプログラム |
JP6553584B2 (ja) * | 2016-12-12 | 2019-07-31 | 日本電信電話株式会社 | 基本周波数モデルパラメータ推定装置、方法、及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5411845B2 (ja) * | 2010-12-28 | 2014-02-12 | 日本電信電話株式会社 | 音声合成方法、音声合成装置及び音声合成プログラム |
-
2013
- 2013-01-11 JP JP2013003585A patent/JP5885210B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014134730A (ja) | 2014-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
US20170372694A1 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium | |
CN110085215B (zh) | 一种基于生成对抗网络的语言模型数据增强方法 | |
JP5885210B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
Bryan et al. | Autoregressive hidden Markov model and the speech signal | |
US8386249B2 (en) | Compressing feature space transforms | |
JP2010078650A (ja) | 音声認識装置及びその方法 | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP4796460B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP6137477B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP6553584B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP6468519B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
JP6472005B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
US11798579B2 (en) | Device, method, and program for analyzing speech signal | |
JP6665079B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP6142401B2 (ja) | 音声合成モデル学習装置、方法、及びプログラム | |
JP2009003110A (ja) | 知識源を組込むための確率計算装置及びコンピュータプログラム | |
JP2008298844A (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
Li et al. | Graphical model approach to pitch tracking. | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6057170B2 (ja) | 音声言語評価装置、パラメータ推定装置、方法、及びプログラム | |
JP6662801B2 (ja) | 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム | |
JP6468518B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
Kumar et al. | Speech Recognition Using Hmm and Combinations: A Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20141217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5885210 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |