JP2015049433A - 音声信号解析装置、方法、及びプログラム - Google Patents

音声信号解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP2015049433A
JP2015049433A JP2013182112A JP2013182112A JP2015049433A JP 2015049433 A JP2015049433 A JP 2015049433A JP 2013182112 A JP2013182112 A JP 2013182112A JP 2013182112 A JP2013182112 A JP 2013182112A JP 2015049433 A JP2015049433 A JP 2015049433A
Authority
JP
Japan
Prior art keywords
time
parameter
gaussian distributions
cwm
parameter group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013182112A
Other languages
English (en)
Other versions
JP6137479B2 (ja
Inventor
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
幸太 吉里
Kota Yoshizato
幸太 吉里
大輔 齋藤
Daisuke Saito
大輔 齋藤
茂樹 嵯峨山
Shigeki Sagayama
茂樹 嵯峨山
伸克 北条
Nobukatsu Hojo
伸克 北条
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tokyo NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013182112A priority Critical patent/JP6137479B2/ja
Publication of JP2015049433A publication Critical patent/JP2015049433A/ja
Application granted granted Critical
Publication of JP6137479B2 publication Critical patent/JP6137479B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Stereophonic System (AREA)
  • Complex Calculations (AREA)

Abstract

【課題】音声信号からフォルマント周波数軌跡と音素境界を精度よく推定することができる。【解決手段】観測スペクトル包絡系列算出部22により、音声信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分yω,tを表すスペクトル包絡を算出し、初期パラメータ設定部24により、パラメータ各々の初期値を設定し、パラメータ更新部30により、各時刻tにおけるスペクトル包絡が与えられたときの、CWMパラメータ群、HMMパラメータ群、及び調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻tにおけるスペクトル包絡、CWMパラメータ群、HMMパラメータ群、及び調音ターゲット系列に基づいて、CWMパラメータ群、HMMパラメータ群、及び調音ターゲット系列を更新し、収束判定部28により、予め定められた収束条件を満たすまで、パラメータ更新部30による更新を繰り返し行う。【選択図】図6

Description

本発明は、音声信号からフォルマント周波数軌跡と音素境界を推定する音声信号解析装置、方法、及びプログラムに関する。
人間らしい音声合成を実現するにあたっては、音声のダイナミクスに現れる非言語情報やパラ言語情報を詳細にモデリングすることが重要である。例えば、音素特徴量の動的特徴には、話者の個人性が現れていることが知られており、音声認識、話者認識、及び音声合成などにおいて重要な特徴量の一つとして扱われている。
統計的モデルに基づくテキスト音声合成方式の基本戦略は、音声の確率的な生成モデルを立て、学習データからそのモデルパラメータを学習させ、当該モデルを用いて任意のテキスト入力に対して音声を生成するというものである。従って、音声における様々な性質や挙動をいかに適切に生成モデルの形で記述できるかが剛性音声の品質を左右する。特に音声の音韻に着目すると、スペクトル包絡特徴量の時系列をいかに適切にモデル化するかが重要であるが、従来の隠れマルコフモデル(Hidden Markov Model,HMM)またはその変種による音声合成(以後、HMM音声合成)方式は音声スペクトル系列の時間伸縮を確率的な現象としてとらえようするものである(非特許文献1)。
スペクトル包絡ピークの周波数とパワーは、声道における共振の共振周波数とパワーに相当するため、音声のスペクトル包絡には実際にパワー方向と周波数方向の双方の揺らぎが存在する。共振周波数とパワーは、声道形状の物理的な変化に従い時間方向に連続に変化すると考えられるため、例えばある音素の中央部分付近と、後続音素との接続部分付近のスペクトル包絡を比較した場合、後者は声道形状が後続音素の声道形状へ連続的に変化する過程にあり、両者の間には、スペクトル包絡の共振周波数とパワーに差異があり、これを揺らぎとしてモデル化することが重要である。
音声分析合成系のための音声スペクトルモデルとして、スペクトル包絡の各ピークがガウス分布で近似可能という仮定に基づいて、スペクトル包絡全体を混合ガウス関数モデル(Gaussian Mixture Modes;GMM)によって表現した複合ウェーブレットモデル(Composite Wavelet Model;CWM)と呼ぶモデルがある(非特許文献2)。
CWMは、スペクトル包絡ピークの周波数とパワーの双方をパラメータとして持つため、スペクトル包絡のパワー方向と周波数方向の双方の揺らぎを確率モデル化するのに適している。なお、CWMパラメータから音声波形を合成する際は、周波数領域におけるガウス分布関数は時間領域ではGabor関数に対応するため、このGabor関数を基本周波数に対応する時間間隔で配置することにより音声波形が合成される、CWMに基づく分析合成は、FIRフィルタによる合成手法であり、従来のLSPやケプストラムなどの巡回型フィルタによる合成手法に比べ、Q値の高いフィルタであっても、基本周波数によらず時間特性のよい音声が合成可能である(非特許文献2)。そのため、CWMの利点より、CWMパラメータを音声特徴量としたHMM音声合成方式がある(非特許文献3)。
T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi, and T. Kitamura, "Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis," in Proc. of Eurospeech 1999, 1999, pp. 2347−2350. 槐武也, 松本恭輔, 酒向慎司, 嵯峨山茂樹, "複合ウェーブレットモデルによる音声合成の検討," 日本音響学会2006 年春季研究発表会講演論文集, no. 2-11-7, pp. 315−316, Mar. 2006. 北条伸克, 南賢太郎, 齋藤大輔, 亀岡弘和, 嵯峨山茂樹, "複合ウェーブレットモデル分析合成系に基づくHMM 音声合成," 日本音響学会2012 年秋季研究発表会, 2-2-7, Sep. 2012.
しかし、非特許文献1のHMM音声合成方式では、スペクトル包絡を表現する音声特徴量として、ケプストラムや線スペクトル対(Line Spectral Pairs;LSP)が用いられている。ケプストラムを特徴量とした場合、スペクトル包絡がパワー方向にのみ確率的に揺らぐ現象を表現したモデルに相当し、LSPを特徴量とした場合、スペクトル包絡のピークが周波数方向にのみ確率的に揺らぐ現象を表現したモデルに相当する。ケプストラムを特徴量としたHMM音声合成方式では、生成モデルがスペクトルの周波数方向の揺らぎを上手くとらえられないモデルであるため、合成音声のスペクトル包絡が周波数方向に平滑化される傾向にあるという問題がある。スペクトル包絡が平滑化されると一般にはbuzzyな音になる。そのため、例えば、スペクトル包絡のピークとディップの間を強調する目的で、確率モデルにGlobal Variance(GV)を導入することにより改善が図られているが、いったん平滑化されたスペクトル包絡からは本来あるべきピークとディップを復元することは難しいという問題がある。
また、非特許文献3の方法のテキスト音声合成方式では、CWMパラメータの時間軌跡がHMMによってモデル化されていたが、もともとHMMは区分定常な系列を表現するための確率モデルであるため、フォルマントの連続的な時間変化といった音声が本来もつダイナミクスを必ずしも反映したモデルではないという問題がある。そのため、人間らしく自然な合成音声を得るために、この枠組みにおいて、CWMパラメータのダイナミクスを確率モデルの形で組み込めるかが問題となる。
本発明は、上記問題点を解決するために成されたものであり、音声信号からフォルマント周波数軌跡と音素境界を精度よく推定することができる音声信号解析装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明の音声信号解析装置は、音声信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分yω,tを表すスペクトル包絡を算出する観測スペクトル包絡系列算出部と、K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、及びK個のガウス分布kの各々についての各時刻lの重みwk,lを含むCWMパラメータ群と、隠れマルコフモデルの各時刻kの状態のインデックスskからなる状態系列^s、隠れマルコフモデルの前記状態i',i間の各々の遷移確率Φi',i、K個のガウス分布kの各々についての各状態iにおける前記重みwk,lの分布を表すパラメータb(w) k,i、K個のガウス分布kの各々についての各状態iにおける前記分散の逆数ρk,lの分布を表すパラメータb(ρ) k,i、及びK個のガウス分布kの各々についての各状態iにおける前記平均μk,lの正規分布の平均mk,iを含むHMMパラメータ群と、K個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,lを含む調音ターゲット系列との各々の初期値を設定する初期パラメータ設定部と、各時刻tにおける前記スペクトル包絡が与えられたときの、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻tにおける前記スペクトル包絡、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列に基づいて、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列を更新するパラメータ更新部と、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う収束判定部と、を含んで構成されている。
第2の発明のモデル音声信号解析方法は、観測スペクトル包絡系列算出部と、初期パラメータ設定部と、パラメータ更新部と、収束判定部と、を含む音声信号解析装置における音声信号解析方法であって、前記観測スペクトル包絡系列算出部は、音声信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分yω,tを表すスペクトル包絡を算出し、前記初期パラメータ設定部は、K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、及びK個のガウス分布kの各々についての各時刻lの重みwk,lを含むCWMパラメータ群と、隠れマルコフモデルの各時刻kの状態のインデックスskからなる状態系列^s、隠れマルコフモデルの前記状態i',i間の各々の遷移確率Φi',i、K個のガウス分布kの各々についての各状態iにおける前記重みwk,lの分布を表すパラメータb(w) k,i、K個のガウス分布kの各々についての各状態iにおける前記分散の逆数ρk,lの分布を表すパラメータb(ρ) k,i、及びK個のガウス分布kの各々についての各状態iにおける前記平均μk,lの正規分布の平均mk,iを含むHMMパラメータ群と、K個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,lを含む調音ターゲット系列との各々の初期値を設定し、前記パラメータ更新部は、各時刻tにおける前記スペクトル包絡が与えられたときの、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻tにおける前記スペクトル包絡、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列に基づいて、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列を更新し、前記収束判定部は、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う。
第1の発明及び第2の発明によれば、音声信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分yω,tを表すスペクトル包絡を算出し、K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、及びK個のガウス分布kの各々についての各時刻lの重みwk,lを含むCWMパラメータ群と、隠れマルコフモデルの各時刻kの状態のインデックスskからなる状態系列^s、隠れマルコフモデルの前記状態i',i間の各々の遷移確率Φi',i、K個のガウス分布kの各々についての各状態iにおける前記重みwk,lの分布を表すパラメータb(w) k,i、K個のガウス分布kの各々についての各状態iにおける分散の逆数ρk,lの分布を表すパラメータb(ρ) k,i、及びK個のガウス分布kの各々についての各状態iにおける前記平均μk,lの正規分布の平均mk,iを含むHMMパラメータ群と、K個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,lを含む調音ターゲット系列との各々の初期値を設定し、各時刻tにおけるスペクトル包絡が与えられたときの、CWMパラメータ群、HMMパラメータ群、及び調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻tにおけるスペクトル包絡、CWMパラメータ群、HMMパラメータ群、及び調音ターゲット系列に基づいて、CWMパラメータ群、HMMパラメータ群、及び調音ターゲット系列を更新するパラメータ更新部と、予め定められた収束条件を満たすまで、更新を繰り返し行う。
また、前記目的関数を、CWMパラメータ群が与えられたときの各時刻tにおける前記スペクトル包絡の確率、前記状態系列^sの確率、前記状態系列^sが与えられたときの、前記K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,lの確率、前記状態系列^sが与えられたときの、前記K個のガウス分布kの各々についての各時刻lの重みwk,lの確率、前記状態系列^sが与えられたときの前記調音ターゲット系列の確率、前記状態系列^s及び前記調音ターゲット系列が与えられたときの前記K個のガウス分布kの各々についての各時刻lの平均μk,lの確率を用いて表される関数とし、前記パラメータ更新部は、前記関数を最大化するように、各時刻tにおける前記スペクトル包絡、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列に基づいて、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列を更新してもよい。
また、補助変数更新部を更に含み、前記目的関数を、各時刻tにおける各周波数ωの観測時間周波数成分yω,t、K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、K個のガウス分布kの各々についての各時刻lの重みwk,l、K個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,l、(k、ω、l)の全ての組み合わせについての補助変数γk,ω,l、(τ、k、l)の全ての組み合わせについての補助変数λτ,k,l、及び(k、l)の全ての組み合わせについての補助変数ξk,lを用いて表され、かつ、前記関数の対数の下限関数である補助関数とし、前記補助変数更新部は、前記補助関数を大きくするように、K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、K個のガウス分布kの各々についての各時刻lの重みwk,l、及びK個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,lに基づいて、(k、ω、l)の全ての組み合わせについての補助変数γk,ω,l、(τ、k、l)の全ての組み合わせについての補助変数λτ,k,l、及び(k、l)の全ての組み合わせについての補助変数ξk,lを更新し、前記パラメータ更新部は、前記補助関数を大きくするように、各時刻tにおける前記スペクトル包絡、CWMパラメータ群、HMMパラメータ群、及び調音ターゲット系列(k、ω、l)の全ての組み合わせについての補助変数γk,ω,l(τ、k、l)の全ての組み合わせについての補助変数λτ,k,l(k、l)の全ての組み合わせについての補助変数ξk,lに基づいて、CWMパラメータ群、HMMパラメータ群、及び調音ターゲット系列を更新してもよい。
また、前記補助関数は、二次関数の凸性を利用するJensenの不等式を用いて定められた下限関数としてもよい。
また、本発明のプログラムは、コンピュータに、上記の音声信号解析装置を構成する各部を実行させるためのプログラムである。
以上説明したように、音声信号解析装置、方法、及びプログラムによれば、音声信号からフォルマント周波数軌跡と音素境界を精度よく推定することができる。
調音ターゲット関数とフォルマント周波数軌跡の例を示す図である。 音素/e/のスペクトル包絡(点線)と、そのGMM近似(実線)の例を示す図である(混合数10)。 HMMの構成の例を示す図である。 状態/k/の4つの小状態への分割の例を示す図である。 HMMをまとめた例を示す図である。 本発明の実施の形態に係る音声信号解析装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る音声信号解析装置におけるパラメータ推定処理ルーチンを示すフローチャート図である。 No.436のスペクトル包絡と推定フォルマント周波数の時間軌跡の例を示す図である。 No.436の音素/a/のスペクトル包絡(点線)のGMM近似(実践)の例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<発明の原理>
本実施の形態においては、音声のスペクトル系列を入力として、フォルマント周波数軌跡の生成過程モデルのパラメータ(調音ターゲット、音素境界)を推定するアルゴリズムを提案する。動的計画法や補助関数法の原理を適用することで、効率的かつ収束性が保証されたアルゴリズムを実現する。具体的には、以下の(1)〜(4)により実現する。
(1)HMMのパラメータとCWMのパラメータ(各フォルマントの強度、バンド幅、周波数に対応するパラメータ)と調音ターゲット系列によって表される目的関数を大きくするように、HMMパラメータとCWMパラメータと調音ターゲット系列を交互に更新する。
(2)上記(1)において、目的関数をCWMパラメータが決まった時にスペクトル系列が出力される確率と、HMMの状態系列の確率と、HMMの状態系列が決まった時にフォルマント周波数以外のCWMパラメータ(フォルマントの強度とバンド幅)の系列が出力される確率と、状態系列が決まった時の調音ターゲット系列が出力される確率と、調音ターゲット系列が決まった時のフォルマント周波数パラメータの系列がフォルマント周波数パラメータの系列が出力される確率(又はその対数)とする(下記(10)式参照)。
(3)上記(2)において、HMMのパラメータとCWMのパラメータと調音ターゲット系列と補助変数λ、γ、ξによって表される関数であって、上記(1)における目的関数を上回らず、かつ1点で接する関数を規準とし、この規準を大きくするようにHMMのパラメータとCWMのパラメータと調音ターゲット系列と補助変数を交互に更新する。
(4)上記(3)において、上記(3)における規準は、二次関数の凸性を利用して立てられるJensenの不等式と対数関数の二乗に対して立てられる不等式を用いて作られる下限関数である。
次に、音声スペクトル生成過程の確率モデル化について説明する。フォルマント(本実施の形態においてはスペクトル包絡のピークとする。)は、音声を特徴づける極めて重要な要素である。声帯振動が共振することによって生じるフォルマントの周波数軌跡には物理的な制約が付随するが、本実施の形態においては、藤崎のFパターン生成過程モデルと同様のメカニズムによって生じると仮定する。具体的には、図1に示すように、音素区間ごとに一定の周波数値をとる階段状の関数である調音ターゲット系列に、インパルス応答である下記(1)式が畳み込まれ、二次線形系の出力としてフォルマント周波数軌跡が生じるとする。なお、αは固有角周波数とする。また、このようにフォルマント周波数の動特性に関して二次の臨界制動系の仮定が置かれたモデルがある(非特許文献4:L. R. Rabiner, “Speech synthesis by rule: An acoustic domain approach,” Ph. D. Thesis,M. I. T., 1967.参照)、(非特許文献5;板橋, 横山, “線形2次系モデルによるホルマント軌跡の記述とセグメンテーション,” 電子技術総合研究所彙報, vol. 40, no. 6, pp. 530−541, 1976.参照)。
実音声から直接観測できるのはスペクトル包絡であり、フォルマント周波数ではない。そのため、本実施の形態においては、フォルマント周波数軌跡からスペクトル包絡をどのようにして生成されるかをモデル化する方法について説明する。
本実施の形態では、各フォルマントをガウス関数で近似的に表現する。複数のスペクトルピークの重ね合わせがスペクトル包絡であるとみなすと、スペクトル包絡は混合ガウス関数モデル(Gaussian Mixture Model;GMM)で近似できる。近似の例を図2に示す。この表現は複合ウェーブレットモデル(Composite Wavelet Model;CWM)(非特許文献2)と呼ばれ、スペクトル包絡における各時刻t及び各周波数ωの周波数成分φω,tが下記(2)式のように表現される。
ただし、kはガウス分布関数のインデックス、即ちフォルマントのインデックスに対応する。KはGMMの混合数である。また、μk,t、σk,t、wk,tはk番目のガウス分布関数の平均、分散、重みを表すCWMのパラメータであり、それぞれk番目のフォルマントの周波数、バンド幅、強度に対応する。
本実施の形態においては、フォルマント周波数の時間軌跡を潜在パラメータとしてもつ音声スペクトル生成過程の確率モデルを定式化する。
本実施の形態では、図3のような、各離散時刻lごとにCWMパラメータを出力する隠れマルコフモデル(Hidden Markov Model;HMM)により記述する。これは、区分的に定数値をとる調音ターゲット系列uk,lをHMMで表現していることに相当し、各状態が音素、自己遷移回数が調音ターゲットの各区間の時間長、異なる状態への遷移のタイミングが音素境界にそれぞれ対応している。各状態はGMMの重みwk,l、分散の逆数ρk,l、調音ターゲット系列uk,lを確率的に出力する。加えて、自己遷移の持続長をパラメータ化するために、Ferguson型HMMを導入する。Ferguson型HMMは、各状態を十分大きな数の小状態に分割し、分割後の各小状態がすべて同じ出力分布を持つように拘束し、かつ状態遷移に関して図4のような制約を課したHMMである。図4には、状態/k/を分割した例を示している。このような分割により、ある状態にある離散時間だけとどまる確率を個別にパラメータ化することが出来る。そのため、本実施の形態の提案モデルのHMMは図5のようにまとめられる。なお、Gamma(x;a,b)はガンマ分布であり、下記(3)式のように定義される。
本実施の形態における提案モデルでは、調音ターゲット関数^uk,lに二次線形系のインパルス応答が畳み込まれてガウス関数の平均値の軌跡、すなわちフォルマント周波数軌跡μk,lが生じると考える。具体的には、下記(4)式のようになる。
ここで、
は対数正規分布であり、logxが正規分布N(x;μ,σ)に従うことと等価である。また、Gk,lは上記(1)式のG(t)の離散時間表現であり(固有表現はαとする。)、*は離散時刻に関する畳み込みを表す。
なお、パラメータをまとめてρ={ρk,lk,l、^w={^wk,l}、^u={uk,lk,l,μ={μk,lk,lとする。
全てのCWMパラメータと状態系列^sが与えられた時に観測スペクトル包絡における時刻l及び周波数ωの周波数成分yω,lが生じる確率を下記(7)式〜下記(9)式に示す。
ここで、Poisson(x;λ)=λ−x−λ/x!はポワソン分布である。このように定式化することで、以下に説明するパラメータ推定アルゴリズムを適用することができる。
次に、パラメータ推定アルゴリズムについて説明する。本実施の形態においては、パラメータ{a(w) k,i,a(ρ) k,i,η k,i,ν k,ik,i、{αを全て定数とする。また、推定するパラメータをまとめてΘ={ρ,^w,μ,^u,^s,θ}とする。ただし、θ={b(w) k,i,b(ρ) k,i,mk,ik,iであり、θの事前分布は一様であるとする。
観測スペクトル包絡^y={yω,lω,lが与えられた時にP(Θ|^y)を最大化するΘを求めることは難しいが、各変数に関してP(Θ|^y)が大きくなるように更新を繰り返すことは可能であり、logP(Θ|^y)は下記(10)式のようになる。
本実施の形態における提案アルゴリズムでは、各変数についてlogP(Θ|^y)が大きくなるように更新する操作を反復することでパラメータ推定を行う。そのため、補助関数法や近似式を用いる。まず、−logP(^y|Θ)は観測スペクトル包絡yω,lとCWMパラメータによってあらわされるスペクトル包絡モデルφω,lをIダイバージェンス基準と定数項を除いて等しく、下記(12)式のようになる。
上記(12)式のyω,llogφω,lにJensenの不等式を用いることで、下記(13)式の下限関数を設計できる。
同様に、logP(μ|^s,^u)の−(Gk,τ τ*uk,τ にJensenの不等式を用いることで下記(14)式の下限関数を設計できる。
また、logP(μ|^s,^u)の−(logμk,lは下記(15)式の下限関数とすることができる。
ここで、γk,ω,l、λτ,k,l、ξk,lは補助変数である。上記(13)式〜上記(15)式の不等式を用いて、CWMパラメータ、HMMパラメータ、調音ターゲット系列、補助変数からなるlogP(Θ|^y)の下限関数を生成する。
補助関数法の原理により、補助変数とΘを下記(16)式〜下記(28)式の更新式により交互に更新することで、logP(^y|Θ)を局所最大化する。
Τ={l|s=i}である。そのため、μについては、下記(24)式の正の解のうちlogP(Θ|^y)が最も大きくなるμk,lを選択する。なお、下記(24)式〜下記(28)式がμに関する更新式となる。
そのため、上記の更新式の各々を十分な回数反復することで、P(Θ|^y)を局所最大化するパラメータΘを推定する。
<本実施の形態に係る音声信号解析装置の構成>
まず、本発明の実施の形態に係る音声信号解析装置の構成について説明する。図6に示すように、本発明の実施の形態に係る音声信号解析装置100は、CPUと、RAMと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この音声信号解析装置100は、機能的には図6に示すように入力部10と、演算部20と、出力部50と、記憶部60とを備えている。
入力部10により、マイクロホンから出力された音響信号の時系列データが入力される。記憶部60は、入力部10により入力された音響信号の時系列データを記憶する。また、記憶部60は、後述する各処理での結果を記憶する。
演算部20は、観測スペクトル包絡系列算出部22、初期パラメータ設定部24、補助変数更新部26、パラメータ更新部30、及び収束判定部28を含んで構成されている。
観測スペクトル包絡系列算出部22は、マイクロホンの時系列信号としての観測された音響信号を入力として観測スペクトル包絡yω,t(ω=1,…,N、t=1,…,Tは、それぞれ周波数、時間フレームに対応するインデックスを示す。)を各(ω,t)の要素にもつ二次元配列^yを計算する。また、計算した観測スペクトル包絡yω,tを記憶部60に記憶しておく。より詳細には、観測スペクトル包絡系列算出部22は、マイクロホンの音響信号の時系列データを入力として、短時間フーリエ変換(short-Time Fourier Transform;STFT)を用いて時間周波数解析を行うことにより観測スペクトル包絡yω,tを計算し、観測スペクトル包絡yω,tを格納した行列を出力する。なお、観測スペクトル包絡yω,tはウェーブレット変換を用いて計算してもよい。
初期パラメータ設定部24は、HMMパラメータ群であるmk,i、b(ρ) k,i、b(w) k,i、s、Φi',i、及びΦiと、調音ターゲット系列uk,lと、CWMパラメータ群であるμk,l、ρk,l、及びwk,lとの各々に対して、初期値を設定する。具体的には、CWMパラメータの各々の初期値として、従来の手法(非特許文献6:北条伸克, 南賢太郎, 齋藤大輔, 亀岡弘和, 嵯峨山茂樹, "複合ウェーブレットモデル分析合成系に基づくHMM 音声合成," 日本音響学会秋季研究発表会講演論文集, No. 2-2-7, pp. 287−290, 2012.参照)を用いて推定された値を設定する。なお、その他のパラメータについては適切な値を設定する。
補助変数更新部26は、補助変数であるγk,ω,l、λτ,k,l、及びξk,lの各々を更新し、記憶部60に記憶する。具体的には、補助変数γk,ω,lを、(k,ω,l)の全ての組み合わせの各々について、初期パラメータ設定部24において初期値が設定され又は前回更新されたρk,lと、μk,lと、wk,lとに基づいて、上記(8)式、上記(9)式、及び上記(17)式に従って、補助関数を大きくするように更新し、補助変数λτ,k,lを、(τ,k,l)の全ての組み合わせの各々について、記憶部60に記憶されている定数{αと、初期パラメータ設定部24において初期値が設定され又は前回更新されたuk,lとに基づいて、上記(1)式、及び上記(16)式に従って補助関数を大きくするように更新し、補助変数ξk,lを、(k,l)の全ての組み合わせの各々について、初期パラメータ設定部24において初期値が設定され又は前回更新されたμk,lに基づいて、上記(18)式に従って補助関数を大きくするように更新する。
パラメータ更新部30は、CWMパラメータ更新部32と、HMMパラメータ更新部34と、調音ターゲット系列更新部36とを含んで構成されている。
CWMパラメータ更新部32は、補助関数を大きくするように、CWMパラメータ群であるフォルマント強度系列wk,l、フォルマントバンド幅系列ρk,l、及びフォルマント周波数系列μk,lの各々のパラメータを更新し、記憶部60に記憶する。
具体的には、フォルマント強度系列wk,lを、(k,l)の全ての組み合わせの各々について、入力部10において受け付けた定数{a(w) k,ik,iと、観測スペクトル包絡系列算出部22において算出された観測スペクトル包絡yω,lと、補助変数更新部26において前回更新された補助変数γk,ω,lと、初期パラメータ設定部24において初期値が設定され又は前回更新されたHMMパラメータb(w) k,iとに基づいて、上記(23)式に従って更新する。
また、フォルマントバンド幅系列ρk,lを、(k,l)の全ての組み合わせの各々について、記憶部60に記憶されている定数{a(ρ) k,ik,iと、観測スペクトル包絡系列算出部22において算出された観測スペクトル包絡yω,lと、補助変数更新部26において前回更新された補助変数γk,ω,lと、初期パラメータ設定部24において初期値が設定され又は前回更新されたHMMパラメータb(ρ) k,iと、初期パラメータ設定部24において初期値が設定され又は前回更新されたフォルマント周波数系列μk,lとに基づいて、上記(22)式に従って更新する。
また、フォルマント周波数系列μk,lを、(k,l)の全ての組み合わせの各々について、記憶部60に記憶されている定数{ν k,ik,i及び{αと、観測スペクトル包絡系列算出部22において算出された観測スペクトル包絡yω,lと、補助変数更新部26において前回更新された補助変数γk,ω,l及びξk,lと、CWMパラメータ更新部32において前回更新されたフォルマントバンド幅系列ρk,lと、初期パラメータ設定部24において初期値が設定され又は前回更新された調音ターゲット系列uk,lとに基づいて、上記(1)式、及び上記(24)〜上記(28)式に従って更新する。
HMMパラメータ更新部34は、補助関数を大きくするように、HMMパラメータ群のパラメータであるmk,i、b(ρ) k,i、b(w) k,i、s、Φi',i、及びΦiの各々のパラメータを更新し、記憶部60に記憶する。
具体的には、mk,iを、(k,i)の全ての組み合わせの各々について、記憶部60に記憶されている定数{η k,ik,iと、初期パラメータ設定部24において初期値が設定され又は前回更新された調音ターゲット系列uk,lとに基づいて、上記(19)式に従って更新する。
また、b(ρ) k,iを、(k,i)の全ての組み合わせの各々について、記憶部60に記憶されている定数{a(ρ) k,ik,iと、CWMパラメータ更新部32において前回更新されたフォルマントバンド幅系列ρk,lとに基づいて、上記(20)式に基づいて、更新する。
また、b(w) k,iを、(k,i)の全ての組み合わせの各々について、記憶部60に記憶されている定数{a(w) k,ik,iと、CWMパラメータ更新部32において前回更新されたフォルマントバンド強度系列wk,lとに基づいて、上記(20)式に基づいて、更新する。
また、状態系列^s、状態遷移確率Φi',i、初期状態確率Φiを、従来より周知の隠れマルコフモデルにおける状態系列、状態遷移確率、初期状態確率の推定方法を用いて、更新する。例えば、ViterbiアルゴリズムやViterbi学習アルゴリズムを用いて、状態系列^s、状態遷移確率Φi',i、初期状態確率Φiを推定することにより、状態系列^s、状態遷移確率Φi',i、初期状態確率Φiを更新する。
調音ターゲット系列更新部36は、補助関数を大きくするように、調音ターゲット系列uk,lを更新し、記憶部60に記憶する。具体的には、記憶部60に記憶されている定数{α、{η k,ik,i及び{ν k,ik,iと、HMMパラメータ更新部34において前回更新されたHMMパラメータmk,iと、CWMパラメータ更新部32において前回更新されたフォルマント周波数系列μk,lと、補助変数更新部26前回更新された補助変数λτ,k,lとに基づいて、上記(1)式、及び上記(21)式に従って更新する。
収束判定部28は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、補助変数更新部26、及びパラメータ更新部30の各処理を繰り返す。収束判定部28は、収束条件を満足したと判定した場合には、記憶部60に記憶されている各パラメータを出力部50に出力する。
なお、収束条件としては、繰り返し回数xが予め定めた回数Xに達したことを用いればよい。なお、x−1回目のパラメータを用いた時の目的関数logP(Θ|^y)の値とsx回目の目的関数logP(Θ|^y)の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。
記憶部60は、定数であるパラメータ{a(w) k,i,a(ρ) k,i,η k,i,ν k,ik,i、及び{αの値と、補助変数更新部26において更新された補助変数の各々と、パラメータ更新部30において更新されたパラメータの各々とを記憶している。なお、本実施の形態においては、a(w) k,i及びa(ρ) k,iの値を3とする。
<実施の形態に係る音声信号解析装置の作用>
次に、本発明の実施の形態に係る音声信号解析装置100の作用について説明する。入力部10によりマイクロホンから出力された音響信号の時系列データが入力されると、音声信号解析装置100は、図7に示すパラメータ推定処理ルーチンを実行する。
まず、ステップS100では、入力部10により入力された時系列データを受け付ける。
次に、ステップS102では、記憶部60に記憶されている定数のパラメータ({a(w) k,i,a(ρ) k,i,η k,i,ν k,ik,i、及び{αの値)の各々の値を読み込む。
次に、ステップS104では、ステップS100において取得した時系列データから観測スペクトル包絡yω,tを各(ω,t)の要素にもつ二次元配列^yを算出する。
次に、ステップS106では、HMMパラメータ群であるmk,i、b(ρ) k,i、b(w) k,i、s、Φi',i、及びΦiの各々と、調音ターゲット系列uk,lと、CWMパラメータ群であるμk,l、ρk,l、及びwk,lの各々とに、初期値として適切な値を設定する。
次に、ステップS108では、補助変数γk,ω,lを、(k,ω,l)の全ての組み合わせの各々について、ステップS106において初期値が設定され又はステップS112において前回更新されたρk,lと、ステップS106において初期値が設定され又はステップS114において前回更新されたμk,lと、ステップS106において初期値が設定され又はステップS110において前回更新されたwk,lとに基づいて、上記(8)式、上記(9)式、及び上記(17)式に従って更新する。また、補助変数λτ,k,lを、(τ,k,l)の全ての組み合わせの各々について、ステップS102において取得した定数{αと、ステップS106において初期値が設定され又はステップS118において前回更新されたuk,lとに基づいて、上記(1)式、及び上記(16)式に従って更新する。補助変数ξk,lを、(k,l)の全ての組み合わせの各々について、ステップS106において初期値が設定され又はステップS114において前回更新されたμk,lに基づいて、上記(18)式に従って更新する。
次に、ステップS110では、フォルマント強度系列wk,lを、(k,l)の全ての組み合わせの各々について、ステップS102において取得した定数{a(w) k,ik,iと、ステップS104において取得した観測スペクトル包絡yω,lと、ステップS108において更新された補助変数γk,ω,lと、ステップS106において初期値が設定され又はステップS116において更新されたHMMパラメータb(w) k,iとに基づいて、上記(23)式に従って更新する。
次に、ステップS112では、フォルマントバンド幅系列ρk,lを、(k,l)の全ての組み合わせの各々について、ステップS102において取得した定数{a(ρ) k,ik,iと、ステップS104において取得した観測スペクトル包絡yω,lと、ステップS108において前回更新された補助変数γk,ω,lと、ステップS106において初期値が設定され又はステップS116において前回更新されたHMMパラメータb(ρ) k,iと、ステップS106において初期値が設定され又はステップS114において前回更新されたフォルマント周波数系列μk,lとに基づいて、上記(22)式に従って更新する。
次に、ステップS114では、フォルマント周波数系列μk,lを(k,l)の全ての組み合わせの各々について、ステップS102において取得した定数{ν k,ik,i及び{αと、観測スペクトル包絡系列算出部22において算出された観測スペクトル包絡yω,lと、ステップS108において前回更新された補助変数γk,ω,l及びξk,lと、ステップS112において前回更新されたフォルマントバンド幅系列ρk,lと、ステップS106において初期値が設定され又はステップS118において前回更新された調音ターゲット系列uk,lとに基づいて、上記(1)式、及び上記(24)〜上記(28)式に従って更新する。
次に、ステップS116では、HMMパラメータであるmk,i、b(ρ) k,i、b(w) k,i、^s、Φi',i及び、Φiの各々のパラメータを更新し、記憶部60に記憶する。具体的には、mk,iを、(k,i)の全ての組み合わせの各々について、ステップS102において取得した定数{η k,ik,iと、ステップS106において初期値が設定され又はステップS118において前回更新された調音ターゲット系列uk,lとに基づいて、上記(19)式に従って更新する。b(ρ) k,iを、(k,i)の全ての組み合わせの各々について、ステップS102において取得した定数{a(ρ) k,ik,iと、ステップS112において前回更新されたフォルマントバンド幅系列ρk,lとに基づいて、上記(20)式に基づいて、更新する。b(w) k,iを、(k,i)の全ての組み合わせの各々について、ステップS102において取得した定数{a(w) k,ik,iと、ステップS112において前回更新されたフォルマントバンド強度系列wk,lとに基づいて、上記(20)式に基づいて、更新する。^s、Φi',i及び、Φiを、従来より周知の隠れマルコフモデルにおける状態系列、状態遷移確率、初期状態確率の推定方法を用いて、更新する。
次に、ステップS118では、調音ターゲット系列uk,lを、(k,l)の全ての組み合わせの各々について、ステップS102において取得した定数{α、{η k,ik,i及び{ν k,ik,iと、ステップS116において前回更新されたHMMパラメータmk,iと、ステップS114において前回更新されたフォルマント周波数系列μk,lと、ステップS108において前回更新された補助変数λτ,k,lとに基づいて、上記(1)式、及び上記(21)式に従って更新する。
次に、ステップS120では、予め定められた収束条件を満たすか否かの判定を行い、予め定められた収束条件を満たす場合には、ステップS122へ移行し、予め定められた収束条件を満たさない場合には、ステップS108へ移行する。
次に、ステップS122では、ステップS110〜ステップS118において取得した各パラメータを出力部50に出力して処理を終了する。
以上説明したように、本実施の形態に係る音声信号解析装置によれば、音声信号からフォルマント周波数軌跡と音素境界を精度よく推定することができる。
また、CWMは、音声のフォルマント周波数に対応していると解釈できるパラメータを有しているため、フォルマント周波数軌跡の生成過程モデル(非特許文献4及び非特許文献5参照)をヒントにしたフォルマント周波数軌跡の確率モデルを構築し、そのパラメータを推定することができる。
<実験例>
実験は大きく分けて学習フェイズと推定フェイズの2段階からなる。学習フェイズでは、ATR日本語音声データベースのBセットから男性話者1人を選択し、No.1〜No.400までの400文を対象として、音素ごとに定まるパラメータθの学習を行った。また、推定フェイズでは、学習に使っていない発話文を対象にCWMパラメータの推定を行った。ここで、θは学習フェイズでの推定値を用いて定数とみなす。なお、本実験においてスペクトル包絡の抽出にはSTRAIGHT法を用い、また、音素ラベルのデータを与えることで状態系列^sを定数とする。本実験では、GMMの混合数は10、パラメータ推定アルゴリズムの反復回数は10、α=50とし、その他のCWMパラメータの初期値はChain(非特許文献3参照)を導入しない推定アルゴリズムを用いて決定した。
また、図8にNo.436のスペクトル包絡に推定したフォルマント周波数の時間軌跡を重ねた図を示し、図9にNo.436の音素/a/のスペクトル包絡と推定パラメータによるGMM近似を示し、これらの結果から、推定したスペクトルピークが実音声のフォルマント周波数軌跡を上手く推定していることが確認できる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10 入力部
20 演算部
22 観測スペクトル包絡系列算出部
24 初期パラメータ設定部
26 補助変数更新部
28 収束判定部
30 パラメータ更新部
32 CWMパラメータ更新部
34 HMMパラメータ更新部
36 調音ターゲット系列更新部
50 出力部
60 記憶部
100 音声信号解析装置

Claims (6)

  1. 音声信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分yω,tを表すスペクトル包絡を算出する観測スペクトル包絡系列算出部と、
    K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、及びK個のガウス分布kの各々についての各時刻lの重みwk,lを含むCWMパラメータ群と、隠れマルコフモデルの各時刻kの状態のインデックスskからなる状態系列^s、隠れマルコフモデルの前記状態i',i間の各々の遷移確率Φi',i、K個のガウス分布kの各々についての各状態iにおける前記重みwk,lの分布を表すパラメータb(w) k,i、K個のガウス分布kの各々についての各状態iにおける前記分散の逆数ρk,lの分布を表すパラメータb(ρ) k,i、及びK個のガウス分布kの各々についての各状態iにおける前記平均μk,lの正規分布の平均mk,iを含むHMMパラメータ群と、K個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,lを含む調音ターゲット系列との各々の初期値を設定する初期パラメータ設定部と、
    各時刻tにおける前記スペクトル包絡が与えられたときの、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻tにおける前記スペクトル包絡、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列に基づいて、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列を更新するパラメータ更新部と、
    予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う収束判定部と、
    を含む音声信号解析装置。
  2. 前記目的関数を、
    CWMパラメータ群が与えられたときの各時刻tにおける前記スペクトル包絡の確率、前記状態系列^sの確率、前記状態系列^sが与えられたときの、前記K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,lの確率、前記状態系列^sが与えられたときの、前記K個のガウス分布kの各々についての各時刻lの重みwk,lの確率、前記状態系列^sが与えられたときの前記調音ターゲット系列の確率、前記状態系列^s及び前記調音ターゲット系列が与えられたときの前記K個のガウス分布kの各々についての各時刻lの平均μk,lの確率を用いて表される関数とし、
    前記パラメータ更新部は、前記関数を最大化するように、各時刻tにおける前記スペクトル包絡、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列に基づいて、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列を更新する請求項1記載の音声信号解析装置。
  3. 補助変数更新部を更に含み、
    前記目的関数を、
    各時刻tにおける各周波数ωの観測時間周波数成分yω,t、K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、K個のガウス分布kの各々についての各時刻lの重みwk,l、K個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,l、(k、ω、l)の全ての組み合わせについての補助変数γk,ω,l、(τ、k、l)の全ての組み合わせについての補助変数λτ,k,l、及び(k、l)の全ての組み合わせについての補助変数ξk,lを用いて表され、かつ、前記関数の対数の下限関数である補助関数とし、
    前記補助変数更新部は、前記補助関数を大きくするように、K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、K個のガウス分布kの各々についての各時刻lの重みwk,l、及びK個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,lに基づいて、(k、ω、l)の全ての組み合わせについての補助変数γk,ω,l、(τ、k、l)の全ての組み合わせについての補助変数λτ,k,l、及び(k、l)の全ての組み合わせについての補助変数ξk,lを更新し、
    前記パラメータ更新部は、前記補助関数を大きくするように、各時刻tにおける前記スペクトル包絡、CWMパラメータ群、HMMパラメータ群、及び調音ターゲット系列(k、ω、l)の全ての組み合わせについての補助変数γk,ω,l(τ、k、l)の全ての組み合わせについての補助変数λτ,k,l(k、l)の全ての組み合わせについての補助変数ξk,lに基づいて、CWMパラメータ群、HMMパラメータ群、及び調音ターゲット系列を更新する請求項2記載の音声信号解析装置。
  4. 前記補助関数は、二次関数の凸性を利用するJensenの不等式を用いて定められた下限関数である請求項3記載の音声信号解析装置。
  5. 観測スペクトル包絡系列算出部と、初期パラメータ設定部と、パラメータ更新部と、収束判定部と、を含む音声信号解析装置における音声信号解析方法であって、
    前記観測スペクトル包絡系列算出部は、音声信号の時系列データを入力として、各時刻tにおける各周波数ωの観測時間周波数成分yω,tを表すスペクトル包絡を算出し、
    前記初期パラメータ設定部は、K個のガウス分布kの各々についての各時刻lの平均μk,l、K個のガウス分布kの各々についての各時刻lの分散の逆数ρk,l、及びK個のガウス分布kの各々についての各時刻lの重みwk,lを含むCWMパラメータ群と、隠れマルコフモデルの各時刻kの状態のインデックスskからなる状態系列^s、隠れマルコフモデルの前記状態i',i間の各々の遷移確率Φi',i、K個のガウス分布kの各々についての各状態iにおける前記重みwk,lの分布を表すパラメータb(w) k,i、K個のガウス分布kの各々についての各状態iにおける前記分散の逆数ρk,lの分布を表すパラメータb(ρ) k,i、及びK個のガウス分布kの各々についての各状態iにおける前記平均μk,lの正規分布の平均mk,iを含むHMMパラメータ群と、K個のガウス分布kの各々についての各時刻lの調音ターゲットのパラメータuk,lを含む調音ターゲット系列との各々の初期値を設定し、
    前記パラメータ更新部は、各時刻tにおける前記スペクトル包絡が与えられたときの、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列の確率を表す目的関数を最大化するように、各時刻tにおける前記スペクトル包絡、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列に基づいて、前記CWMパラメータ群、前記HMMパラメータ群、及び前記調音ターゲット系列を更新し、
    前記収束判定部は、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う
    音声信号解析方法。
  6. コンピュータを、請求項1〜4の何れか1項記載の音声信号解析装置を構成する各部として機能させるためのプログラム。
JP2013182112A 2013-09-03 2013-09-03 音声信号解析装置、方法、及びプログラム Active JP6137479B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013182112A JP6137479B2 (ja) 2013-09-03 2013-09-03 音声信号解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013182112A JP6137479B2 (ja) 2013-09-03 2013-09-03 音声信号解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015049433A true JP2015049433A (ja) 2015-03-16
JP6137479B2 JP6137479B2 (ja) 2017-05-31

Family

ID=52699478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013182112A Active JP6137479B2 (ja) 2013-09-03 2013-09-03 音声信号解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6137479B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097115A (ja) * 2016-12-12 2018-06-21 日本電信電話株式会社 基本周波数モデルパラメータ推定装置、方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090427A (zh) * 2017-12-07 2018-05-29 上海电机学院 基于鸟群算法和隐马尔科夫模型的齿轮箱故障诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6016030915; 吉里幸太,外4名: 'フォルマント周波数軌跡を潜在パラメータとした音声スペクトル生成過程の確率モデル' 日本音響学会2013年春季研究発表会講演論文集 , 20130305, pp.277-280, 一般社団法人日本音響学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097115A (ja) * 2016-12-12 2018-06-21 日本電信電話株式会社 基本周波数モデルパラメータ推定装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP6137479B2 (ja) 2017-05-31

Similar Documents

Publication Publication Date Title
CN108447490B (zh) 基于记忆性瓶颈特征的声纹识别的方法及装置
CN113724685B (zh) 语音合成模型学习装置、语音合成模型学习方法及存储介质
JP2019144402A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP2013205697A (ja) 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
CN114694632A (zh) 语音处理装置
US20230317056A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
CN104737229A (zh) 用于变换输入信号的方法
JP4382808B2 (ja) 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム
Boulanger-Lewandowski et al. Exploiting long-term temporal dependencies in NMF using recurrent neural networks with application to source separation
CN110751941A (zh) 语音合成模型的生成方法、装置、设备及存储介质
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
Ju et al. TriniTTS: Pitch-controllable End-to-end TTS without External Aligner.
JP6137479B2 (ja) 音声信号解析装置、方法、及びプログラム
JP2004004906A (ja) 固有声に基づいた最尤法を含む話者と環境の適合化方法
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム
Wu et al. Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion.
Hershey et al. Factorial models for noise robust speech recognition
JP6910609B2 (ja) 信号解析装置、方法、及びプログラム
Boccardi et al. Sound morphing with Gaussian mixture models
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
Kim et al. Maximum a posteriori adaptation of HMM parameters based on speaker space projection
JP6468519B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
JP2008298844A (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
Cho et al. An efficient HMM-based feature enhancement method with filter estimation for reverberant speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170418

R150 Certificate of patent or registration of utility model

Ref document number: 6137479

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250