JP5885210B2 - 基本周波数モデルパラメータ推定装置、方法、及びプログラム - Google Patents

基本周波数モデルパラメータ推定装置、方法、及びプログラム Download PDF

Info

Publication number
JP5885210B2
JP5885210B2 JP2013003585A JP2013003585A JP5885210B2 JP 5885210 B2 JP5885210 B2 JP 5885210B2 JP 2013003585 A JP2013003585 A JP 2013003585A JP 2013003585 A JP2013003585 A JP 2013003585A JP 5885210 B2 JP5885210 B2 JP 5885210B2
Authority
JP
Japan
Prior art keywords
command
fundamental frequency
time
function
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013003585A
Other languages
English (en)
Other versions
JP2014134730A (ja
Inventor
弘和 亀岡
弘和 亀岡
幸太 吉里
幸太 吉里
大輔 齋藤
大輔 齋藤
茂樹 嵯峨山
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tokyo NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013003585A priority Critical patent/JP5885210B2/ja
Publication of JP2014134730A publication Critical patent/JP2014134730A/ja
Application granted granted Critical
Publication of JP5885210B2 publication Critical patent/JP5885210B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、基本周波数モデルパラメータ推定装置、方法、及びプログラムに係り、特に、音声信号から、観測基本周波数系列のパラメータを推定する基本周波数モデルパラメータ推定装置、方法、及びプログラムに関する。
<藤崎モデル>
音声のイントネーションを解析する手法に、藤崎の基本周波数(F0)パターン生成過程モデル(藤崎モデル)が知られている(非特許文献1)。藤崎モデルとは、甲状軟骨の運動に注目してF0パターンの生成過程を説明した、力学的モデルである。藤崎モデルでは、甲状軟骨の二つの独立な運動(平行移動運動と回転運動)にそれぞれ伴う声帯の伸びの合計がF0の時間的変化をもたらすと解釈され、声帯の伸びとF0パターンの対数値y(t)が比例関係にあるという仮定に基づいてF0パターンがモデル化される。甲状軟骨の平行移動運動によって生じるF0パターンyp(t)をフレーズ成分、回転運動によって生じるF0パターンya(t)をアクセント成分と呼ぶ。藤崎モデルでは、音声のF0パターンy(t)は、これらの成分に声帯の物理的制約によって決まるベースライン成分ybを足し合わせたものとして、
と表現される。これら二つの成分は二次の臨界制動系の出力であるとしてモデル化されており、
と表される(*は時刻tに関する畳み込み演算)。ここでup(t)はフレーズ指令関数と呼ばれ、デルタ関数(フレーズ指令)の列からなり、ua(t)はアクセント指令関数と呼ばれ、矩形波(アクセント指令)の列からなる。これらの指令列には、発話の最初にはフレーズ指令が生起する、フレーズ指令は二連続で生起しない、異なる二つの指令(フレーズ指令とアクセント指令)は同時刻に生起しない、という制約条件がある。またαとβはそれぞれフレーズ制御機構、アクセント制御機構の固有角周波数であり、話者や発話内容によらず、おおよそα=3 rad/s、β=20 rad/s 程度であることが経験的に知られている。
<藤崎モデルのパラメータ推定法1>
従来、音声信号のF0パターンから藤崎モデルのパラメータを推定する手法として、非特許文献2に記載の手法が知られている。この手法ではまず、観測F0パターンに対して平滑化のための前処理を行う。具体的にはgross errorの除去、microprosodyの修正、短い無音区間と無声区間の補間を行った後、F0パターンを至るところで連続かつ微分可能な区分的3次曲線で近似する。次に、そうして得られた平滑化F0パターンの微分値の極大値・極小値を手掛かりに、アクセント指令列の位置と大きさを推定する。さらに観測F0パターンから推定アクセント成分を差し引いたパターンをもとにleft-to-rightにフレーズ指令を挿入していく。最後に、推定指令列から生成したF0パターンと観測F0パターンの平均二乗誤差を最小とするように、指令列を微小変化させ、こうして得られた指令列を藤崎モデルの推定パラメータとする。
<藤崎モデルのパラメータ推定法2>
従来、音声信号のF0パターンから藤崎モデルのパラメータを推定する手法として、他にも次のような手法がある(非特許文献3〜5)。この手法では、離散化した藤崎モデルをベースにして定式化したF0パターン生成過程の確率モデルを使い、そのモデルに従ってP(y|θ)の最適化問題を解くことによって適切なパラメータを推定する(yは観測F0パターン、θは藤崎モデルのパラメータ)。このモデル中では、制約条件があって扱いづらいフレーズ指令とアクセント指令のペアを、隠れマルコフモデル(HMM)から確率的に出力される値として扱う。また推定アルゴリズムにおいては、各成分について周辺化を行ったうえで、EMアルゴリズムによる反復解法で適切なパラメータを推定している。
Hiroya Fujisaki, Sumio Ohno and Wentao Gu, "Physiological and physical mechanisms for fundamental frequency control In some tone languages and a command-response model for generation of their F0 contours," Proceedings of International Symposium on Tonal Aspects of Languages: Emphasis on Tone Languages, Beijing, pp. 61-64 (2004-3). S. Narusawa, N. Minematsu, K. Hirose, and H. Fujisaki, "A method for automatic extraction of model parameters from fundamental frequency contours of speech," in Proc. ICASSP, 2002, pp. 509−512. H. Kameoka, J. L. Roux, and Y. Ohishi, "A statistical model of speech F0contours," in Proc.SAPA, 2010, pp. 43−48. 吉里幸太, 亀岡弘和, 齋藤大輔, 嵯峨山茂樹,"F0パターン生成過程の統計的モデルによる音声信号からのフレーズ・アクセント指令の推定," 日本音響学会春季研究発表会講演集, 2012, no. 1-11-9,
pp.311-314.
K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, "Statistical approach to fujisaki-model parameter estimation from speech signals and its quantitative evaluation," in Proc. Speech
Prosody 2012, 2012, pp. 175−178.
本発明は、音声のF0パターンから藤崎モデルのパラメータを推定する方法に関するものである。
この推定問題は不良設定の逆問題であるため、解析的に解くことは困難である。ここで、日本語のような非声調言語においては、フレーズ指令とアクセント指令の大きさは非負でなければならないという制約がある。この非負性は解を絞り込むための重要な制約になるにも関わらず、上記非特許文献3〜5に記載の藤崎モデルのパラメータ推定法では、この制約を最適化問題として直接導入することができなかった。上記の非特許文献5に記載の技術では、フレーズ・アクセント成分から指令列を逆算する際に非負制約付き逆畳み込み問題を解くというアドホックな方法で解決を図ったが、アルゴリズムの収束性が保証されなくなり、推定パラメータから生成されたF0パターンと観測F0パターンとの間の誤差が大きいという問題があった。この「誤差が大きい」という問題は、上記の非特許文献2に記載の、藤崎モデルのパラメータ推定法にも見られる問題である。
本発明は、上記の事情を鑑みてなされたもので、フレーズ指令とアクセント指令の非負性に関する制約を用いて、藤崎モデルのパラメータを推定することができる基本周波数モデルパラメータ装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る基本周波数モデルパラメータ推定装置は、音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる指令状態系列^sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペア^o[k]からなる指令関数^oと、各時刻kにおける状態skに応じたフレーズ指令の振幅Ap[k]及び各アクセント指令nの振幅Aa (n)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置であって、前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列^yを抽出する基本周波数抽出手段と、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの度合いを推定する有声無声区間推定手段と、前記指令関数^oの初期値、及び前記パラメータ群θの初期値を設定する初期値設定手段と、前回更新された前記指令関数^o’または前記指令関数^oの初期値^o’に基づいて、前記観測基本周波数系列^y、前記指令関数^o’、及び前記パラメータ群θ’が与えられたときの指令状態系列^sの事後確率P(^s|^y,^o’、θ’)を計算する指令状態系列事後確率更新手段と、前回更新された前記指令関数^o’または前記指令関数^oの初期値^o’、前記観測基本周波数系列^y、各時刻kにおける前記不確かさの度合い、及び前記事後確率P(^s|^y,^o’、θ’)に基づいて、前記観測基本周波数系列^yが与えられたときの前記指令関数^o及び前記パラメータ群θの対数事後確率logP(^o,θ|^y)を目的関数として、前記目的関数を増加させるように、各々非負値である前記指令関数^o、及び前記パラメータ群θを更新するモデルパラメータ更新手段と、予め定められた収束条件を満たすまで、前記指令状態系列事後確率更新手段による計算、及び前記モデルパラメータ更新手段による更新を繰り返し行う第1収束判定手段と、を含んで構成されている。
本発明に係る基本周波数モデルパラメータ推定方法は、音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる指令状態系列^sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペア^o[k]からなる指令関数^oと、各時刻kにおける状態skに応じたフレーズ指令の振幅Ap[k]及び各アクセント指令nの振幅Aa (n)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定方法であって、基本周波数抽出手段によって、前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列^yを抽出し、有声無声区間推定手段によって、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの度合いを推定し、初期値設定手段によって、前記指令関数^oの初期値、及び前記パラメータ群θの初期値を設定し、指令状態系列事後確率更新手段によって、前回更新された前記指令関数^o’または前記指令関数^oの初期値^o’に基づいて、前記観測基本周波数系列^y、前記指令関数^o’、及び前記パラメータ群θ’が与えられたときの指令状態系列^sの事後確率P(^s|^y,^o’、θ’)を計算し、モデルパラメータ更新手段によって、前回更新された前記指令関数^o’または前記指令関数^oの初期値^o’、前記観測基本周波数系列^y、各時刻kにおける前記不確かさの度合い、及び前記事後確率P(^s|^y,^o’、θ’)に基づいて、前記観測基本周波数系列^yが与えられたときの前記指令関数^o及び前記パラメータ群θの対数事後確率logP(^o,θ|^y)を目的関数として、前記目的関数を増加させるように、各々非負値である前記指令関数^o、及び前記パラメータ群θを更新し、第1収束判定手段によって、予め定められた収束条件を満たすまで、前記指令状態系列事後確率更新手段による計算、及び前記モデルパラメータ更新手段による更新を繰り返し行う。
本発明に係るプログラムは、上記の基本周波数モデルパラメータ推定装置の各手段としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明の基本周波数モデルパラメータ推定装置、方法、及びプログラムによれば、観測基本周波数系列^yが与えられたときの指令関数^o及びパラメータ群θの対数事後確率logP(^o,θ|^y)を目的関数として、目的関数を増加させるように、各々非負値である指令関数^o、及びパラメータ群θを更新することにより、フレーズ指令とアクセント指令の非負性に関する制約を用いて、藤崎モデルのパラメータを推定することができる、という効果が得られる。
HMMを説明するための図である。 状態の分割を説明するための図である。 本発明の実施の形態に係る基本周波数モデルパラメータ推定装置の構成を示す概略図である。 本発明の実施の形態に係る基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定処理ルーチンの内容を示すフローチャートである。 指令関数のマッチングを説明するための図である。 実験結果を示す図である。 実験結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する手法では、観測F0パターンの再現性が高い藤崎モデルのパラメータ推定を実現するために、藤崎モデルをベースにしたF0パターン生成過程の確率モデルを定式化し、それに基づいて観測F0パターンが生じたと仮定する。藤崎モデルのパラメータ推定アルゴリズムも、この確率モデルに基づく。
<F0パターン生成過程の確率モデル>
本発明の原理について説明する。まず、F0パターン生成過程の確率モデルについて説明する。
指令関数に付随する各種制約をモデルに組み入れるために、フレーズ指令、アクセント指令のペア^o[k]=(up[k],ua[k])Tを出力するHMMを考える。このHMMでは、出力される指令関数{^o[k]}k=1 Kは、各時刻ごとにガウス分布に従い、
と確率的に表現される。ここで{sk}k=1 KはHMMの状態系列であり、平均ベクトル^νsk[k]と分散共分散行列^ΥskはHMMの状態遷移の結果として定まる値である。具体的なHMMの構成は図1に示した。なお、行列又はベクトルを示す記号については、「^」を付すこととする。
加えて、自己遷移の持続長をパラメータ化するために、それぞれの状態をいくつかの小状態に分割することを考える。なおこのとき、各々の小状態は全て同じ出力分布を持ち、小状態の数は十分大きな値となるようにしておく。図2に状態anを分割した例を示した。例えばこの図2のように全てのm≠0に対してan,mからan,m+1への状態遷移確率を1に設定することで、an,0からan,mへの遷移確率が状態anがmステップだけ持続する確率に対応し、アクセント指令の持続長を柔軟に制御できるようになる。同様にp1とp0とa0も小状態に分割することで、フレーズ指令の持続長と指令間の間隔の長さの分布をパラメータ化することが可能になる。こうした分割をふまえて、以後は改めてp0={p0,0,p0,1,...}、a0={a0,0,a0,1,...}、an={an,0,an,1,...}と表記する。
提案するHMMの構成を定式化すると次のように書ける。
状態系列^s={sk}k=1 Kが与えられたとき、このHMMはフレーズ指令関数up[k]とアクセント指令関数ua[k]のペアを出力する。式(2)と式(4)で示した通り、up[k]とua[k]はそれぞれGp[k]とGa[k]というフィルタに畳み込まれてフレーズ成分xp[k]とアクセント成分xa[k]が出力される。これを式で表すと、
と書ける(*は離散時刻kに関する畳み込み演算)。このとき、F0パターンx[k]は
と三種類の成分の重ね合わせで書ける。ただしubは時刻によらないベースライン成分である。
また、実音声においては、常に信頼のできる基本周波数F0の値が観測できるとは限らない。例えば音声データからピッチ抽出によって得られた基本周波数F0の推定値は、無声区間においては全く信頼できない値である。藤崎モデルのパラメータ推定を行うにあたっては、信頼のおける観測区間のF0値のみを考慮に入れて、そうでない区間は無視することが望ましい。そこで、提案モデルに観測F0値の時刻kにおける不確かさの程度vn 2[k]を導入する。具体的には、観測F0値y[k]を、真のF0値x[k]とノイズ成分xn[k]〜N(0,vn 2[k])との重ね合わせで
と表現することで、信頼のおける区間かどうかに関わらず全ての観測区間を統一的に扱える。
φi′,i、ub、vp,sk 2、va,sk 2、vn 2[k]、α、βを定数とみなし、{Ap[k]}k=1 K,{Aa (n)}n=1 Nは一様に分布すると仮定する。するとxn[k]を周辺化することで、出力値系列^o={o[k]}k=1 Kが与えられたときの^y={y[k]}k=1 Kの確率密度関数
が得られる。状態系列^s = {sk}k=1 Kと指令の振幅を表すパラメータ群θ={{Ap[k]}k=1 K,{Aa (n)} n=1 N}が与えられたとき、出力値系列^oは
に従って生成される。また、P(^s)は状態遷移確率の積として
と書ける。ただしφs1は初期状態がs1である確率をあらわす。
<藤崎モデルのパラメータ推定アルゴリズム>
本発明では、藤崎モデルのパラメータ推定問題を、観測基本周波数系列^yが与えられたときのパラメータ^o,θの事後確率P(^o,θ|^y)を最大化する^oとθを求める最大事後確率(Maximum A Posteriori;MAP)推定問題として定式化し、指令状態系列^sを潜在変数と見なしてExpectation-Maximization(EM)アルゴリズムに基づく反復計算により^oとθの局所最適解を探索する。EMアルゴリズムは、パラメータの対数事後確率logP(^o,θ|^y)の下限関数(Q関数と呼ぶ)を反復的に増加させることで、間接的にパラメータの対数事後確率logP(^o,θ|^y)を増加させていく方法であり、本問題におけるQ関数は
と書ける。ここでc=は定数部分を除いて一致することを意味し、^o′とθ′はそれぞれ^oとθの直前の反復における値である。
<システム構成>
次に、観測された音声信号の時系列データを解析して、藤崎モデルのパラメータを推定する基本周波数モデルパラメータ推定装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図3に示すように、本発明の実施の形態に係る基本周波数モデルパラメータ推定装置は、CPUと、RAMと、後述する基本周波数モデルパラメータ推定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図3に示すように、基本周波数モデルパラメータ推定装置は、記憶部1と、基本周波数系列抽出部2と、有声無声区間推定部3と、初期値設定部4と、指令状態系列事後確率更新部5と、モデルパラメータ更新部6と、収束判定部7と、状態系列算出部8と、出力部9とを備えている。
記憶部1は、観測された音声信号の時系列データを記憶する。
基本周波数系列抽出部2は、音声信号の時系列データから、基本周波数の時系列データを抽出し、それらを離散時間kで表現するように変換して、音声信号の基本周波数の時系列データである観測基本周波数系列^y={F0[k]}(k=1,…,K)とする。この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献6(H. Kameoka, "Statistical speech spectrum model incorporating all-pole vocal tract model and F0 contour generating process model," in Tech. Rep. IEICE, 2010, in Japanese.)に記載の手法を利用して、8msごとに基本周波数を抽出する。
有声無声区間推定部3は、音声信号の時系列データから、有声区間と無声区間とを特定し、離散時間k毎に、有声区間であるか無声区間であるかに応じて、観測F0[k]値の不確かさの程度vn 2[k]を推定する。無声区間では不確かさの程度を大きく推定し(例えば、vn 2[k]=1015)、有声区間では不確かさの程度を小さく推定する(例えば、vn 2[k]=0.22)。
初期値設定部4は、後述する処理で用いる各パラメータである、アクセント指令の数N、EMアルゴリズムの反復回数M、α、β、vp 2[k]、va 2[k]、ubを定数とみなし初期値を設定する。初期値として適当な値を設定する。また、初期値設定部4は、HMMの小状態の個数、遷移確率φi′,Iを、予め用意した正解データから学習して決定する。また、初期値設定部4は、上記非特許文献2に記載の藤崎モデルのパラメータ推定法を用いて、^oの初期値(非負値)を設定する。また、初期値設定部4は、Ap[k]の初期値として、^oのフレーズ指令関数の振幅を線形補間したものを設定し、Aa (n)の初期値として適切な値を設定する。
本実施の形態では、上記の式(15)のQ関数にもとづき、藤崎モデルパラメータ^oとθの局所最適解は、指令状態系列事後確率更新部5とモデルパラメータ更新部6の2つのステップを繰り返すことで得られる。
指令状態系列事後確率更新部5は、指令状態系列(潜在変数)の事後確率P(^s|^y,^o′,θ′)を計算するステップであり、EMアルゴリズムではこれをEステップと呼ぶ。Forward-Backwardアルゴリズムを用いれば各k,tに対してP(sk=t|^y,^o′,θ′)を効率的に求めることができる。具体的には、
と変形すると、各P(sk=t|{y[l],^o′[l],θ′[l]}l=1 l=k)は、
という漸化式を順次(k=1,2,...,K)解くことによって計算でき、各P({y[l],o′[l],θ′[l]}l=k+1 l=K|sk=t)は、
という漸化式を順次(k=K,K−1,...,1)解くことによって計算できる。
このように、指令状態系列事後確率更新部5は、時刻k、状態tの全ての組み合わせ(k,t)の各々に対して、前回更新された指令関数^o′又は初期値^o′に基づいて、事後確率P(sk=t|^y,^o′,θ′)を算出することにより、観測基本周波数系列^y、指令関数^o’、及びパラメータ群θ’が与えられたときの指令状態系列^sの事後確率P(^s|^y,^o′,θ′)を計算する。
モデルパラメータ更新部6は、補助変数更新部61、指令関数更新部62、収束判定部63、及び平均振幅更新部64を備えている。
モデルパラメータ更新部6は、目的関数Q(^o,θ,^o′,θ′)を増加させるように、非負値である指令関数^oとパラメータ群θを更新するステップであり、EMアルゴリズムではこれをMステップと呼ぶ。logP(^y|^o,θ)の項は、
と書ける。ただしGb[k]=δ[k](クロネッカーのデルタ)である。指令関数up[k],ua[k]が非負であるという条件で式(21)を最大化する^oを直接求めるのは難しいが、補助関数法に基づく反復計算により式(21)を局所的に最大化する^oを求めることができる。補助関数法はEMアルゴリズムと同様最大化したい目的関数の下限関数を反復的に増加させていくことで目的関数を増加させる手法であるが、式(21)の下限関数は、ジェンセンの不等式
が成り立つことを利用して設計することができる。ただし、λi,k,l≧0を補助変数と呼び、ΣiΣlλi,k,l=1を満たす。式(22)の等号成立条件は
である。また、Σ^sP(^s|^y,^o′,θ′)logP(θ,^o|^s)の項は、
と書ける。よって、不等式
の右辺(補助関数と呼ぶ)は、Q(^o,θ,^o′,θ′)の下限関数となり、補助関数Q′(^o,θ,^o′,θ′)とする。補助関数Q′(^o,θ,^o′,θ′)をui[l]で微分すると、
となる。ゆえにMステップにおいてui[l]を求めるには、補助関数法の更新式
を用いてλi,k,lとui[l]を交互に更新することを十分な回数繰り返せばよい。
このように、補助変数更新部61は、前回更新された各時刻kのフレーズ指令up[k](又は初期値)に基づいて、時刻k、l(l<k)の全ての組み合わせ(k、l)の各々について、上記の式(28)に従って、補助変数λp,k,lを算出して更新する。また、補助変数更新部61は、前回更新された各時刻kのアクセント指令ua[k](又は初期値)に基づいて、(k、l)の全ての組み合わせについて、上記の式(28)に従って、補助変数λa,k,lを算出して更新する。
また、補助変数更新部61は、ubに基づいて、(k、l)の全ての組み合わせについて、上記の式(28)に従って、補助変数λb,k,lを算出して更新する。
指令関数更新部62は、基本周波数系列^yと、不確かさの程度vn 2 [k]と、指令状態系列事後確率更新部5によって更新された指令状態系列の事後確率P(^s|^y,^o′,θ′)と、補助変数更新部61によって更新された補助変数λp,k,lとに基づいて、上記式(29)に従って、非負値である各時刻lのフレーズ指令up[l]を更新する。
また、指令関数更新部62は、基本周波数系列^yと、不確かさの程度vn 2 [k]と、指令状態系列事後確率更新部5によって更新された指令状態系列の事後確率P(^s|^y,^o′,θ′)と、補助変数更新部61によって更新された補助変数λa,k,lとに基づいて、上記式(29)に従って、非負値である各時刻lのアクセント指令ua[l]を更新する。
また、指令関数更新部62は、基本周波数系列^yと、不確かさの程度vn 2 [k]と、指令状態系列事後確率更新部5によって更新された指令状態系列の事後確率P(^s|^y,^o′,θ′)と、補助変数更新部61によって更新された補助変数λb,k,lとに基づいて、上記式(29)に従って、ベース成分ubを更新する。
収束判定部63は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、補助変数更新部61及び指令関数更新部62の各処理を繰り返す。収束判定部63は、収束条件を満足したと判定した場合には、平均振幅更新部64による処理に移行する。
収束条件としては、繰り返し回数sが予め定めた回数S(例えば、20回)に達したことを用いればよい。なお、s-1回目のパラメータを用いたときの補助関数の値とs回目のパラメータを用いたときの補助関数の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。
平均振幅更新部64は、Mステップとして、続けてθ={{Ap[k]}k=1 K,{Aa (n)}n=1 N}を更新する。Q′(^o,θ,^o′,θ′)をAp[k]とAa (n)で微分すると、
となる。ゆえにMステップにおいてAp[k]とAa (n)を求める更新式は、
と書ける。
このように、平均振幅更新部64は、指令関数更新部62によって更新された各時刻kのフレーズ指令up[k]に基づいて、上記式(32)に従って、各時刻kのフレーズ指令の振幅Ap[k]を更新すると共に、指令関数更新部62によって更新された各時刻kのアクセント指令ua[k]と、指令状態系列事後確率更新部5によって更新された指令状態系列の事後確率P(^s|^y,^o′,θ′)とに基づいて、上記式(32)に従って、各アクセント指令nの振幅Aa (n)を更新することにより、パラメータ群θを更新する。
収束判定部7は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、上記の更新値を改めてo′とθ′に代入して、反復アルゴリズム(指令状態系列事後確率更新部5及びモデルパラメータ更新部6の各処理)を繰り返す。収束判定部7は、収束条件を満足したと判定した場合には、状態系列算出部8による処理に移行する。
収束条件としては、繰り返し回数rが予め定めた回数R(例えば、20回)に達したことを用いればよい。なお、r-1回目のパラメータを用いたときの目的関数の値とr回目のパラメータを用いたときの目的関数の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。
状態系列算出部8は、最後に、Viterbiアルゴリズムを用いることで最適な状態系列^s*を求める。具体的には、
という漸化式を順次(k=1,2,...,K)解くことによって求めたδt[k]とψt[k]を用いて、
という漸化式を順次(k=K,K−1,...,1)解くことによって計算できる。
このように、状態系列算出部8は、モデルパラメータ更新部6によって最終的に更新された指令関数^oに基づいて、上記式(33)〜式(37)式に従って、状態系列^sを算出する。そして、出力部9により、指令関数^o、パラメータ群θ、状態系列^sを出力する。
<基本周波数モデルパラメータ推定装置の作用>
次に、本実施の形態に係る基本周波数モデルパラメータ推定装置100の作用について説明する。まず、分析対象として、観測された音声信号の時系列データが、基本周波数モデルパラメータ推定装置100に入力され、記憶部1に格納される。そして、基本周波数モデルパラメータ推定装置100において、図4に示す基本周波数モデルパラメータ推定処理ルーチンが実行される。
まず、ステップS101において、記憶部1から、音声信号の時系列データを読み込み、各時刻kの基本周波数F0からなる基本周波数系列yを抽出する。ステップS102において、音声信号の時系列データに基づいて、有声区間、無声区間を特定し、各時刻kの基本周波数の不確かさの程度vn 2 [k]を推定する。
次のステップS103では、各パラメータN、M、α、β、vp 2[k]、va 2[k]、ubに対して適切な初期値を設定すると共に、HMMの小状態の個数、遷移確率φi′,Iを、予め用意した正解データから学習して決定する。また、従来手法により指令系列^oを推定して、初期値として設定すると共に、Ap[k]の初期値及びAa (n)の初期値を設定する。
そして、ステップS104において、上記ステップS103で設定された指令系列^oの初期値、または後述するステップS105で前回更新された指令系列^oに基づいて、(k,t)の全ての組み合わせについて、事後確率P(sk=t|^y,^o′,θ′)を更新することにより、指令状態系列の事後確率P(^s|^y,^o′,θ′)を更新する。
ステップS105では、上記ステップS103で設定された指令系列^oの初期値、または当該ステップS105で前回更新された指令系列^oと、上記ステップS101で算出された基本周波数系列^yと、上記ステップS102で算出された各時刻kの不確かさの程度vn 2[k]と、上記ステップS104で更新された指令状態系列の事後確率P(^s|^y,^o′,θ′)とに基づいて、目的関数Q(^o,θ,^o′,θ′)を増加させるように、指令系列^oと指令の振幅を表すパラメータ群θとを更新する
上記ステップS105は、以下のステップS111〜S114の各処理によって実現される。
ステップS111では、上記ステップS103で設定された指令系列^oの初期値、または後述するステップS112で前回更新された指令系列^oに基づいて、(k、l)の全ての組み合わせについて、上記の式(28)に従って、補助変数λp,k,l、λa,k,l、λb,k,lを算出して更新する。
次のステップS112では、上記ステップS101で算出された基本周波数系列^yと、上記ステップS102で算出された各時刻kの不確かさの程度vn 2 [k]と、上記ステップS104で更新された指令状態系列の事後確率P(^s|^y,^o′,θ′)と、上記ステップS111で更新された補助変数λp,k,l、λa,k,l、λb,k,lとに基づいて、上記式(29)に従って、非負値である各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]からなる指令系列^oとベース成分ubとを更新する。
次のステップS113では、収束条件として、繰り返し回数sが、Sに到達したか否かを判定し、繰り返し回数sがSに到達していない場合には、収束条件を満足していないと判断して、上記ステップS111へ戻り、上記ステップS111〜ステップS112の処理を繰り返す。一方、繰り返し回数sがSに到達した場合には、収束条件を満足したと判断し、ステップS114で、上記ステップS112で更新された各時刻kのフレーズ指令up[k]及びアクセント指令ua[k]と、上記ステップS104で更新された指令状態系列の事後確率P(^s|^y,^o′,θ′)とに基づいて、上記式(32)に従って、各時刻kのフレーズ指令の振幅Ap[k]、及び各位置nのアクセント指令の振幅Aa[k]を更新することにより、パラメータ群θを更新する。
そして、ステップS106において、収束条件として、繰り返し回数rが、Rに到達したか否かを判定し、繰り返し回数rがRに到達していない場合には、収束条件を満足していないと判断して、ステップS107で、上記ステップS105で更新された指令関数^o,パラメータ群θを、^o′,θ′に代入して、上記ステップS104へ戻り、上記ステップS104〜ステップS105の処理を繰り返す。一方、繰り返し回数rがRに到達した場合には、収束条件を満足したと判断し、ステップS108で、上記ステップS105で最終的に更新された指令関数^oに基づいて、上記式(33)〜式(37)式に従って、状態系列^sを算出し、出力部9により、指令関数^o、指令の振幅を表すパラメータ群θ、状態系列^sを出力して、基本周波数モデルパラメータ推定処理ルーチンを終了する。
<実験>
本実施の形態における重要な成果は、藤崎モデルを確率モデルとして表現することに成功したことである。本発明者らは、数多くの統計的手法に基づく音声アプリケーションに、本実施の形態で提案したモデルを組み込むことによって、将来的には韻律を扱う強力な手法が得られると考えている。そのためには、スペクトル特徴量と同じようにして、藤崎モデルのパラメータであるフレーズ、アクセント指令関数が音声コーパスから自動的に学習できると非常に便利である。この点において、確率モデルとして定式化した、本実施の形態の提案モデルと提案アルゴリズムは、たとえば、上記非特許文献2のような統計的でない手法よりも優れていると言える。しかし、提案アルゴリズムを用いた実音声からの藤崎モデルパラメータの推定性能が、既存手法の性能を上回っているかどうかはまだ明らかでない。そこで、本実施の形態で提案した手法のパラメータ推定性能を定量的に評価するための実験を行った。
詳しい実験条件を以下に記す。本実験で実音声データとして用いたのは、ATR 日本語音声データベースのB セット(非特許文献7(A. Kurematsu, K. Takeda, Y. Sagisaka, S. Katagiri, H. Kuwabara, and K. Shikano, "ATR japanese speech database as a tool of speech recognition and synthesis," Speech Communication, vol. 27, pp. 187-207, 1999.)を参照)である。これは503 文の音素バランス文からなる音声データベースであり、その中から一人の男性話者(MHT) を選択した。また、その音声データベースに対して、ある韻律研究の専門家が手動で求めたフレーズ、アクセント指令関数を正解データとして用いた。提案手法の入力として与える観測F0 パターンを音声データから抽出する手法には、本発明者らが以前提案した上記非特許文献6に記載のアルゴリズムを用いた。
定数のパラメータについては、N=10、離散時刻のサンプリング間隔t0=8ms、EMアルゴリズムの反復回数M=20回、α=3.0 rad/s、β=20.0 rad/s、vp 2[k]=0.22、va 2[k]=0.12、無声区間ではvn 2[k]=1015、有声区間ではvn 2[k]=0.22、そしてubは有声区間におけるlogF0の最小値に、それぞれ設定した。HMMの小状態の個数や遷移確率φi′,iについては、ATR日本語音声データベースのBセットのNo.1からNo.200までの200文の正解データから学習して決定した。^oの初期値を、上記非特許文献2に記載した方法を用いて定めた。Ap[k]の初期値は^oのフレーズ指令関数の振幅を線形補間したものとし、Aa (n)の初期値を0.1nとした。
パラメータ推定実験は、No.201 からNo.503 までの303 文を対象にして行った。推定パラメータを評価する方法として、観測F0 パターンの再現性と、言語学的な妥当性の二つを考慮した。これらは一般にトレードオフの関係にある。例えば、短い区間に細かく大量の指令を立てれば観測F0 パターンを非常によく再現することができるが、そうして作った指令関数は言語学的に妥当なものであるとは言えない。そこで本実験では、本実施の形態で提案した手法によって得られた推定パラメータが言語学的に十分妥当なものでありつつ、観測F0 パターンの再現性が非常に高いことを確認することを目的とする。
観測F0パターンの再現性の評価基準には、観測F0 パターンと推定指令関数から再構成されたF0 パターンとの平均二乗誤差(log F0[Hz] RMSE)を用い、この値が小さいほど再現性が高いとした。言語学的な妥当性の評価基準には、検出率という値を用い、これが大きいほど言語学的に妥当なパラメータであるとした。検出率は以下のように定義される。図5に例を示したように、推定パラメータ列と正解パラメータ列を比較して、指令単位でのマッチングをとる。指令と指令のマッチングがとれる条件は、二つの指令が同種の指令であること(フレーズ指令同士またはアクセント指令同士)と、二つの指令の時間のずれがS = 0.3 秒以下であることとした。ただし、アクセント指令に関しては生起時刻と終了時刻の平均を基準にした。また、二つのマッチングは時刻に関して交差していてはならない。マッチングがとれた指令同士の距離を1、そうでないときの距離を0 として、これらの条件を満たしなおかつ距離最大になるようなマッチングは、動的計画法によって求めることができる。推定実験に用いた303 文全てに対してこのマッチングをとったとき、マッチングの総数をNMとする。また、推定パラメータ列における指令の総数をNE、正解パラメータ列における指令の総数をNA とおく。ここで、挿入エラーEIを(NE ‐NM)/NAと定義し、脱落エラーED を(NA‐NM)/NA と定義し、最終的な検出率Dは1‐EI‐EDであると定義した。なお、この検出率の定義では指令の振幅を考慮に入れていない。これは、フレーズ、アクセント指令の振幅はベースライン成分の値に強く依存するが、このベースライン成分の値が提案手法と正解データで大きく異なるためである。具体的には、提案手法ではベースライン成分の値ub を有声区間におけるlog F0の最小値に設定しているが、正解データでは常にlog 60 Hzに固定しており、提案手法でub の値を固定すると推定性能が落ちることが確認されたためである。
提案手法を用いたパラメータ推定結果と、比較手法として選んだ、上記の非特許文献2に記載のパラメータ推定アルゴリズム(非統計的手法)を用いた推定結果とを図6にまとめた。この結果を見れば分かる通り、提案手法の検出率は比較手法と同程度である一方で、提案手法のlog F0 RMSE の値は比較手法を大きく下回っている。つまり、提案手法を用いた実音声からのフレーズ、アクセント指令関数の推定は、既存手法に匹敵する言語学的な妥当性を満たしつつ、観測F0 パターンの再現性では既存手法を上回る性能を持っていることが確認できた。
図7に、提案手法のパラメータ推定結果を示した。この図の上のグラフは、有声区間の観測F0パターン(実線)と推定パラメータから再構築したF0パターン(点線)であり、下のグラフは推定フレーズ指令関数と推定アクセント指令関数を示したものである。入力F0パターンは、例として、ATR日本語音声データベースのBセットのNo.353から得られたものを用いた。この例で示したように、本発明は、観測F0パターンと推定パラメータから再構築したF0パターンが非常によく一致するようなパラメータ推定が可能である。
以上説明したように、本発明の実施の形態に係る基本周波数モデルパラメータ推定装置によれば、観測基本周波数系列^yが与えられたときの藤崎モデルのパラメータ^o及びθの対数事後確率logP(^o,θ|^y)の下限関数Q(^o,θ、^o’,θ’)を目的関数として、目的関数を増加させるように、各々非負値である指令関数^o、及びパラメータ群θを更新することにより、フレーズ指令とアクセント指令の非負性に関する制約を用いて、藤崎モデルのパラメータを推定することができる。
本実施の形態では、EMアルゴリズムにおけるMステップが補助関数法による反復計算(λの更新ステップと^oとθの更新ステップの反復計算)により構成され、この反復計算によりQ(^o,θ,^o',θ')が減少しないことが保証されているため、目的関数値(=p(^o,θ|y))の収束性が保証される。
また、音声のF0パターンを入力として藤崎モデルのパラメータを推定する、本実施の形態に係る推定アルゴリズムでは、フレーズ成分とアクセント成分の非負性を直接導入することが可能で、なおかつ収束性が保証されている。具体的には、藤崎モデルの確率モデル表現を畳み込み混合隠れマルコフモデルに基づいて定式化することによって、フレーズ成分とアクセント成分の非負性を直接導入することと共に、収束性を保証することができる。その結果、観測F0パターンの再現性が非常に高い藤崎モデルのパラメータを推定することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述の基本周波数モデルパラメータ推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 記憶部
2 基本周波数系列抽出部
3 有声無声区間推定部
4 初期値設定部
5 指令状態系列事後確率更新部
6 モデルパラメータ更新部
7 収束判定部
8 状態系列算出部
61 補助変数更新部
62 指令関数更新部
63 収束判定部
64 平均振幅更新部
100 基本周波数モデルパラメータ推定装置

Claims (5)

  1. 音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる指令状態系列^sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペア^o[k]からなる指令関数^oと、各時刻kにおける状態skに応じたフレーズ指令の振幅Ap[k]及び各アクセント指令nの振幅Aa (n)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置であって、
    前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列^yを抽出する基本周波数抽出手段と、
    前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの度合いを推定する有声無声区間推定手段と、
    前記指令関数^oの初期値、及び前記パラメータ群θの初期値を設定する初期値設定手段と、
    前回更新された前記指令関数^o’または前記指令関数^oの初期値^o’に基づいて、前記観測基本周波数系列^y、前記指令関数^o’、及び前記パラメータ群θ’が与えられたときの指令状態系列^sの事後確率P(^s|^y,^o’、θ’)を計算する指令状態系列事後確率更新手段と、
    前回更新された前記指令関数^o’または前記指令関数^oの初期値^o’、前記観測基本周波数系列^y、各時刻kにおける前記不確かさの度合い、及び前記事後確率P(^s|^y,^o’、θ’)に基づいて、前記観測基本周波数系列^yが与えられたときの前記指令関数^o及び前記パラメータ群θの対数事後確率logP(^o,θ|^y)を目的関数として、前記目的関数を増加させるように、各々非負値である前記指令関数^o、及び前記パラメータ群θを更新するモデルパラメータ更新手段と、
    予め定められた収束条件を満たすまで、前記指令状態系列事後確率更新手段による計算、及び前記モデルパラメータ更新手段による更新を繰り返し行う第1収束判定手段と、
    を含む基本周波数モデルパラメータ推定装置。
  2. 前記モデルパラメータ更新手段は、
    前回更新された各時刻lのフレーズ指令up[l]又は各時刻lのフレーズ指令up[l]の初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λp,k,lを算出して更新し、かつ、前回更新された各時刻kのアクセント指令ua[k]又は各時刻kのアクセント指令ua[k]の初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λa,k,lを算出して更新する補助変数更新手段と、
    前記観測基本周波数系列^yと、各時刻kの前記不確かさの程度と、前記計算された指令状態系列の事後確率P(^s|^y,^o′,θ′)と、前記補助変数更新手段によって更新された前記補助変数λp,k,l、λa,k,lとに基づいて、前記目的関数の下限関数Q(^o,θ、^o’,θ’)のさらに下限となる関数を補助関数として、前記補助関数を増加させるように、各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]を更新する指令関数更新手段と、
    予め定められた収束条件を満たすまで、前記補助変数更新手段による更新、及び前記指令関数更新手段による更新を繰り返し行う第2収束判定手段と、
    前記指令関数更新手段によって更新された各時刻lのフレーズ指令up[l]に基づいて、各時刻kのフレーズ指令の振幅Ap[k]を更新し、かつ、前記指令関数更新手段よって更新された各時刻lのアクセント指令ua[l]と、前記計算された指令状態系列の事後確率P(^s|^y,^o′,θ′)とに基づいて、各アクセント指令nの振幅Aa (n)を更新することにより、前記パラメータ群θを更新する平均振幅更新手段と、
    を含む請求項1記載の基本周波数モデルパラメータ推定装置。
  3. モデルパラメータ更新手段によって最終的に更新された指令関数^oに基づいて、前記状態系列^sを算出する状態系列算出手段を更に含む請求項1又は2記載の基本周波数モデルパラメータ推定装置。
  4. 音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる指令状態系列^sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペア^o[k]からなる指令関数^oと、各時刻kにおける状態skに応じたフレーズ指令の振幅Ap[k]及び各アクセント指令nの振幅Aa (n)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定方法であって、
    基本周波数抽出手段によって、前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列^yを抽出し、
    有声無声区間推定手段によって、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの度合いを推定し、
    初期値設定手段によって、前記指令関数^oの初期値、及び前記パラメータ群θの初期値を設定し、
    指令状態系列事後確率更新手段によって、前回更新された前記指令関数^o’または前記指令関数^oの初期値^o’に基づいて、前記観測基本周波数系列^y、前記指令関数^o’、及び前記パラメータ群θ’が与えられたときの指令状態系列^sの事後確率P(^s|^y,^o’、θ’)を計算し、
    モデルパラメータ更新手段によって、前回更新された前記指令関数^o’または前記指令関数^oの初期値^o’、前記観測基本周波数系列^y、各時刻kにおける前記不確かさの度合い、及び前記事後確率P(^s|^y,^o’、θ’)に基づいて、前記観測基本周波数系列^yが与えられたときの前記指令関数^o及び前記パラメータ群θの対数事後確率logP(^o,θ|^y)を目的関数として、前記目的関数を増加させるように、各々非負値である前記指令関数^o、及び前記パラメータ群θを更新し、
    第1収束判定手段によって、予め定められた収束条件を満たすまで、前記指令状態系列事後確率更新手段による計算、及び前記モデルパラメータ更新手段による更新を繰り返し行う
    基本周波数モデルパラメータ推定方法。
  5. 請求項1〜請求項3の何れか1項に記載の基本周波数モデルパラメータ推定装置の各手段としてコンピュータを機能させるためのプログラム。
JP2013003585A 2013-01-11 2013-01-11 基本周波数モデルパラメータ推定装置、方法、及びプログラム Active JP5885210B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013003585A JP5885210B2 (ja) 2013-01-11 2013-01-11 基本周波数モデルパラメータ推定装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013003585A JP5885210B2 (ja) 2013-01-11 2013-01-11 基本周波数モデルパラメータ推定装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014134730A JP2014134730A (ja) 2014-07-24
JP5885210B2 true JP5885210B2 (ja) 2016-03-15

Family

ID=51413023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013003585A Active JP5885210B2 (ja) 2013-01-11 2013-01-11 基本周波数モデルパラメータ推定装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5885210B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6468518B2 (ja) * 2016-02-23 2019-02-13 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
JP6472005B2 (ja) * 2016-02-23 2019-02-20 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
JP6468519B2 (ja) * 2016-02-23 2019-02-13 日本電信電話株式会社 基本周波数パターン予測装置、方法、及びプログラム
JP6553584B2 (ja) * 2016-12-12 2019-07-31 日本電信電話株式会社 基本周波数モデルパラメータ推定装置、方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5411845B2 (ja) * 2010-12-28 2014-02-12 日本電信電話株式会社 音声合成方法、音声合成装置及び音声合成プログラム

Also Published As

Publication number Publication date
JP2014134730A (ja) 2014-07-24

Similar Documents

Publication Publication Date Title
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
US20170372694A1 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
CN110085215B (zh) 一种基于生成对抗网络的语言模型数据增强方法
JP5885210B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
Bryan et al. Autoregressive hidden Markov model and the speech signal
US8386249B2 (en) Compressing feature space transforms
JP2010078650A (ja) 音声認識装置及びその方法
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP4796460B2 (ja) 音声認識装置及び音声認識プログラム
JP6137477B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP6553584B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
JP6468519B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
JP6472005B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
US11798579B2 (en) Device, method, and program for analyzing speech signal
JP6665079B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
JP2009003110A (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
JP2008298844A (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
Li et al. Graphical model approach to pitch tracking.
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6057170B2 (ja) 音声言語評価装置、パラメータ推定装置、方法、及びプログラム
JP6662801B2 (ja) 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム
JP6468518B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
Kumar et al. Speech Recognition Using Hmm and Combinations: A Review

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20141217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160203

R150 Certificate of patent or registration of utility model

Ref document number: 5885210

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250