JP6665079B2 - Fundamental frequency model parameter estimation device, method, and program - Google Patents

Fundamental frequency model parameter estimation device, method, and program Download PDF

Info

Publication number
JP6665079B2
JP6665079B2 JP2016240303A JP2016240303A JP6665079B2 JP 6665079 B2 JP6665079 B2 JP 6665079B2 JP 2016240303 A JP2016240303 A JP 2016240303A JP 2016240303 A JP2016240303 A JP 2016240303A JP 6665079 B2 JP6665079 B2 JP 6665079B2
Authority
JP
Japan
Prior art keywords
command
time
fundamental frequency
function
updated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016240303A
Other languages
Japanese (ja)
Other versions
JP2018097114A (en
Inventor
弘和 亀岡
弘和 亀岡
薫 平松
薫 平松
柏野 邦夫
邦夫 柏野
遼太郎 佐藤
遼太郎 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016240303A priority Critical patent/JP6665079B2/en
Publication of JP2018097114A publication Critical patent/JP2018097114A/en
Application granted granted Critical
Publication of JP6665079B2 publication Critical patent/JP6665079B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、基本周波数モデルパラメータ推定装置、方法、及びプログラムに係り、特に、音声信号から、観測基本周波数系列のパラメータを推定する基本周波数モデルパラメータ推定装置、方法、及びプログラムに関する。   The present invention relates to a fundamental frequency model parameter estimating device, method, and program, and more particularly to a fundamental frequency model parameter estimating device, method, and program for estimating parameters of an observed fundamental frequency sequence from a speech signal.

音声には言語情報以外にも様々な情報が含まれており、日常的なコミュニケーションに利用される。我々はこれらの非言語的な情報を工学的に扱う枠組みを構築することを目標として、非言語情報の解析・合成のための情報処理と信号処理の研究を進めている。   The speech contains various information in addition to linguistic information, and is used for daily communication. We are studying information processing and signal processing for analyzing and synthesizing non-verbal information with the goal of constructing a framework for engineering such non-verbal information.

音声の基本周波数(F0)軌跡には、話者性、感情、意図などの非言語的な情報が豊富に含まれることが知られている。このため、F0軌跡のモデル化は、音声合成、話者認識、感情認識、対話システムなど、韻律情報が重要な役割を担う応用において極めて有効である。F0軌跡は、韻律句全体にわたってゆるやかに変化する成分(フレーズ成分) と、アクセントに従って急峻に変化する成分(アクセント成分) により構成される。これらの成分は、ヒトの甲状軟骨の並進運動と回転運動にそれぞれ対応していると解釈できるが、この解釈に基づき対数F0 軌跡をこれらの成分の和で表した数学的なモデル(以後、藤崎モデル)が提案されている(非特許文献1)。藤崎モデルは、フレーズ・アクセント指令の生起時刻、持続時間、各指令の大きさなどをパラメータとして有し、これらが適切に設定されたとき実測の軌跡を非常によく近似することが知られている。また、パラメータの言語学的対応の妥当性も広く確認されている。 It is known that the fundamental frequency (F 0 ) trajectory of speech contains abundant non-verbal information such as speaker characteristics, emotions, and intentions. Thus, modeling of F 0 trajectory, speech synthesis, speaker recognition, emotion recognition, such as dialogue systems, is very effective in prosody information plays an important role applications. F 0 locus, a component that varies slowly over the prosodic phrase (a phrase component) constituted by steeply changing component (accent component) in accordance with an accent. These components can be interpreted as corresponding to the translational and rotational motions of the human thyroid cartilage, respectively.Based on this interpretation, a mathematical model expressing the logarithmic F 0 locus as the sum of these components (hereinafter, referred to as Fujisaki model) has been proposed (Non-Patent Document 1). The Fujisaki model has parameters such as the time and duration of occurrence of phrase accent commands, the size of each command, and the like, and when these are set appropriately, it is known that the measured locus approximates very well. . The validity of the linguistic correspondence of parameters has also been widely confirmed.

先述の藤崎モデルのパラメータは、韻律的特徴を効率よく表現できるため、実測のF0軌跡から藤崎モデルのパラメータを高速かつ高精度に推定することができれば有用である。しかしながら、この問題は元来不良設定問題であること、また藤崎モデルには言語学的な知見により守られるべき制約が存在することなどから、必ずしも容易ではなかった。これまで発明者らは、藤崎モデルをベースとしたF0 パターンの確率的生成過程をモデル化し、藤崎モデルの最尤パラメータをExpectation-Maximization(EM) アルゴリズムにより推定する手法を提案している(非特許文献2〜4)。 Parameters of the foregoing Fujisaki model, because it can efficiently represent prosodic features, it is useful if it is estimated from the F 0 locus of the measured parameters of Fujisaki model at high speed and with high precision. However, this problem was not always easy because the problem was originally a bad setting problem, and the Fujisaki model had constraints that had to be protected by linguistic knowledge. Previously inventors model the stochastic process of generating F 0 pattern based Fujisaki model has been proposed a method of estimating the Expectation-Maximization (EM) algorithm the maximum likelihood parameters of Fujisaki model (Non Patent documents 2-4).

H. Fujisaki, O. Fujimura, Ed., “A note on the physiological and physical basis for the phrase and accent components in the Voice fundamental frequency contour,” in Vocal Physiology: Voice Production, Mechanisms and Functions. New York, NY, USA: Raven, 1988.H. Fujisaki, O. Fujimura, Ed., “A note on the physiological and physical basis for the phrase and accent components in the Voice fundamental frequency contour,” in Vocal Physiology: Voice Production, Mechanisms and Functions.New York, NY, USA: Raven, 1988. H. Kameoka, J. L. Roux, and Y. Ohishi, “A statistical model of speech F0contours,” in Proc.SAPA, 2010, pp. 43−48.H. Kameoka, J. L. Roux, and Y. Ohishi, “A statistical model of speech F0contours,” in Proc. SAPA, 2010, pp. 43-48. K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, “Statistical approach to fujisaki-model parameter estimation from speech signals and its quantitative evaluation,” in Proc. Speech Prosody 2012, 2012, pp. 175−178.K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, “Statistical approach to fujisaki-model parameter estimation from speech signals and its quantitative evaluation,” in Proc. Speech Prosody 2012, 2012, pp. 175-178. K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, “Hidden Markov convolutive mixture model for pitch contour analysis of speech," in Proc. The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep. 2012.K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, “Hidden Markov convolutive mixture model for pitch contour analysis of speech,” in Proc.The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep . 2012.

前記手法の中心的なアイデアは、フレーズ・アクセント指令列の生成プロセスを隠れマルコフモデル(HMM) により表現した点にあるが、これらの手法では、その計算時間の90%以上が各時刻における状態事後確率を算出するためのForward-Backward アルゴリズムに費やされていた。前記手法ではHMMの全ての状態での出力分布が正規分布で記述されるため、状態事後確率の逐次計算において多数の確率値の積和の計算のための指数計算と対数計算が必要になり、これが計算に時間を要する主要因となっていた。この処理部の計算量を抑えることができればアルゴリズム全体を効率化することができる。   The central idea of the above method is that the generation process of the phrase / accent command sequence is represented by a Hidden Markov Model (HMM) .In these methods, 90% or more of the calculation time is a posterior state at each time. Spent on Forward-Backward algorithms to calculate probabilities. In the above method, since the output distribution in all states of the HMM is described by a normal distribution, an exponential calculation and a logarithmic calculation for calculating a sum of products of a large number of probability values in sequential calculation of state posterior probabilities are required, This was the main factor that took time to calculate. If the amount of calculation in this processing unit can be suppressed, the efficiency of the entire algorithm can be increased.

本発明は、上記の事情を鑑みてなされたもので、計算量を抑えて、藤崎モデルのパラメータを推定することができる基本周波数モデルパラメータ推定装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and has as its object to provide a fundamental frequency model parameter estimating apparatus, method, and program capable of estimating the parameters of the Fujisaki model while suppressing the amount of calculation. .

上記の目的を達成するために本発明に係る基本周波数モデルパラメータ推定装置は、音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる状態系列sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアo[k]からなる指令関数oと、各時刻kにおける状態skに応じたフレーズ指令の状態出力分布のパラメータC(p)[k]及び各アクセント指令nの状態出力分布のパラメータCn (a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置であって、前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列yを抽出する基本周波数抽出部と、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの程度を推定する有声無声区間推定部と、前記指令関数oの初期値を設定する初期値設定部と、前回更新された前記指令関数oまたは前記指令関数oの初期値に基づいて、前記観測基本周波数系列y、前記指令関数o、及び状態系列sの対数同時確率log p(y,o,s)を目的関数として、前記目的関数を増加させるように、Viterbiアルゴリズムを用いて、前記状態系列sを更新する状態系列更新部と、前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新するモデルパラメータ更新部と、予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる収束判定部と、を含んで構成されている。 The fundamental frequency model parameter estimation apparatus according to the present invention in order to achieve the object of, as an input audio signal, the state sequence s made from the state s k at each time k in the hidden Markov model, the thyroid cartilage at each time k a command function o of pairs o [k] of the phrase command representing a fundamental frequency pattern u p [k] and accent command representing a fundamental frequency pattern generated by the rotation movement of the thyroid cartilage u a [k] generated by translation motion of , the parameter C (p) [k] and estimated the parameters set θ representing parameters C n (a) the state output distributions for each accent command n state output distributions of phrase command in accordance with the state s k at each time k A fundamental frequency model parameter estimating apparatus, wherein an observation fundamental frequency representing a fundamental frequency at each time k of the audio signal is obtained from time-series data of the audio signal. A fundamental frequency extracting unit for extracting a sequence y, and a voiced estimating unit for estimating a degree of uncertainty of the fundamental frequency at each time k according to whether the time-series data of the audio signal is a voiced section or an unvoiced section. An unvoiced section estimating unit, an initial value setting unit that sets an initial value of the command function o, and the observed fundamental frequency sequence y based on the previously updated command function o or the initial value of the command function o. Using the command function o and the logarithmic joint probability log p (y, o, s) of the state sequence s as an objective function, a state sequence that updates the state sequence s using the Viterbi algorithm so as to increase the objective function An update unit, based on the previously updated command function o or the initial value of the command function o, the observed fundamental frequency sequence y, and the degree of the uncertainty at each time k, A command parameter o, each of which is a non-negative value, and a model parameter updating unit that updates the parameter group θ so as to increase the objective function, and updating by the state sequence updating unit until a predetermined convergence condition is satisfied. , And a convergence determining unit that repeats updating by the model parameter updating unit.

本発明に係る基本周波数モデルパラメータ推定方法は、音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる状態系列sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアo[k]からなる指令関数oと、各時刻kにおける状態skに応じたフレーズ指令の状態出力分布のパラメータC(p)[k]及び各アクセント指令nの状態出力分布のパラメータCn (a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、基本周波数抽出部が、前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列yを抽出し、有声無声区間推定部が、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの程度を推定し、初期値設定部が、前記指令関数oの初期値を設定し、状態系列更新部が、前回更新された前記指令関数oまたは前記指令関数oの初期値に基づいて、前記観測基本周波数系列y、前記指令関数o、及び状態系列sの対数同時確率log p(y,o,s)を目的関数として、前記目的関数を増加させるように、Viterbiアルゴリズムを用いて、前記状態系列sを更新し、モデルパラメータ更新部が、前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新し、収束判定部が、予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる。 Fundamental frequency model parameter estimation method according to the present invention, an input audio signal, the state sequence s made from the state s k at each time k in the hidden Markov model, the fundamental frequency caused by translation motion of thyroid cartilage at each time k phrase command u p [k] and the command functions o of pairs o [k] of the accent command u a representative of the fundamental frequency pattern [k] generated by the rotation movement of the thyroid cartilage, the state s k at each time k representing the pattern In the fundamental frequency model parameter estimating apparatus for estimating the parameter C (p) [k] of the state output distribution of the phrase command corresponding to the parameter C and the parameter group θ representing the parameter C n (a) of the state output distribution of each accent command n A method for estimating a fundamental frequency model parameter, wherein a fundamental frequency extracting unit extracts a time series of the audio signal from time-series data of the audio signal. The voiced and unvoiced section estimation unit extracts the observed fundamental frequency sequence y representing the fundamental frequency of k, and the voiced and unvoiced section estimation unit determines the time-series data of the audio signal at each time k according to whether it is a voiced section or an unvoiced section. Estimating the degree of uncertainty of the fundamental frequency, an initial value setting unit sets an initial value of the command function o, and a state series updating unit sets the initial value of the command function o or the command function o updated last time. Based on the above, the Viterbi algorithm is used to increase the objective function using the observed fundamental frequency sequence y, the command function o, and the logarithmic joint probability log p (y, o, s) of the state sequence s as the objective function. The state sequence s is updated by using the command parameter o or the initial value of the command function o updated last time, the observed fundamental frequency sequence y, and each time. k, the command function o and the parameter group θ, each of which is a non-negative value, are updated so as to increase the objective function based on the degree of uncertainty at k. Until the condition is satisfied, the updating by the state sequence updating unit and the updating by the model parameter updating unit are repeated.

本発明に係るプログラムは、上記の基本周波数モデルパラメータ推定装置の各部としてコンピュータを機能させるためのプログラムである。   A program according to the present invention is a program for causing a computer to function as each unit of the above-described fundamental frequency model parameter estimation device.

以上説明したように、本発明の基本周波数モデルパラメータ推定装置、方法、及びプログラムによれば、観測基本周波数系列y、前記指令関数o、及び状態系列sの対数同時確率log p(y,o,s)を目的関数として、Viterbiアルゴリズムを用いて、前記状態系列sを更新し、各々非負値である前記指令関数o、及び前記パラメータ群θを更新することを繰り返すことにより、計算量を抑えて、藤崎モデルのパラメータを推定することができる、という効果が得られる。   As described above, according to the fundamental frequency model parameter estimating apparatus, method, and program of the present invention, the logarithmic joint probability log p (y, o, o,) of the observed fundamental frequency sequence y, the command function o, and the state sequence s. Using the Viterbi algorithm with s) as the objective function, the state sequence s is updated, and the command function o and the parameter group θ, each of which is a non-negative value, are repeatedly updated, thereby reducing the amount of calculation. And the parameters of the Fujisaki model can be estimated.

藤崎モデルを説明するための図である。It is a figure for explaining a Fujisaki model. HMMを説明するための図である。FIG. 3 is a diagram for explaining an HMM. 状態の分割を説明するための図である。It is a figure for explaining division of a state. 本発明の実施の形態に係る基本周波数モデルパラメータ推定装置の構成を示す概略図である。It is a schematic diagram showing the composition of the fundamental frequency model parameter estimating device concerning an embodiment of the invention. 本発明の実施の形態に係る基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定処理ルーチンの内容を示すフローチャートである。5 is a flowchart showing the contents of a fundamental frequency model parameter estimation processing routine in the fundamental frequency model parameter estimation device according to the embodiment of the present invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する手法では、観測F0パターンの再現性が高い藤崎モデルのパラメータ推定を実現するために、藤崎モデルをベースにしたF0パターン生成過程の確率モデルを定式化し、それに基づいて観測F0パターンが生じたと仮定する。藤崎モデルのパラメータ推定アルゴリズムも、この確率モデルに基づく。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the method proposed in the present invention, in order to realize observation F 0 pattern reproducibility is high Fujisaki model parameter estimation, and to formulate a probability model of the F 0 pattern generation process that is based on Fujisaki model, observations based on it assume F 0 pattern occurs. The parameter estimation algorithm of the Fujisaki model is also based on this probability model.

<本発明の実施の形態の概要>
非特許文献2〜非特許文献4で提案されたモデルでは、前記HMMの状態系列

と出力値系列

を変数にもつ。非特許文献2、3では、観測F0パターン

が与えられた下で



の条件付同時確率



に関して周辺化した

の条件付確率

を、

を隠れ変数としたEMアルゴリズムで局所最大化できることが示されている。一方、非特許文献4では、



に関して周辺化した

の条件付確率

を、

を隠れ変数としたEM アルゴリズムで局所最大化できることが示されている。前者の方法は

に対する非負値制約を

の推定プロセスに組み込むことが難しかったのに対し、後者の方法は

に対する非負値制約の下で局所最適な

の推定が可能となったため高いパラメータの推定精度を実現している。しかし、後者の方法では

が与えられた下でForward-Backward アルゴリズムにより

の事後確率計算を行うステップ(Eステップ)が必要であり、このステップに膨大な計算量を要していた。そこで、本発明の実施の形態では、最適化規準を



の代わりに



の条件付同時確率

とし、

の事後確率計算ステップを

の最適推定ステップに置き換えたパラメータ推定アルゴリズムを提案する。すなわち、

が与えられた下で非負値制約の下での最適な

を推定するステップと

が与えられた下で最適な

をViterbi アルゴリズムにより効率的に探索するステップを繰り返すことで

の非負値制約の下で局所最適な



を推定することができる。本方法は、非特許文献4においてForward-BackwardアルゴリズムをViterbiアルゴリズムに置き換えたものになる点がポイントであり、一般にViterbi アルゴリズムはForward-Backwardアルゴリズムに比べ高速であるため、全体の計算量の効率化が期待される。
<Outline of Embodiment of the Present Invention>
In the models proposed in Non-Patent Documents 2 to 4, the state sequence of the HMM

And output value series

Has as a variable. In Non-Patent Documents 2 and 3, the observed F 0 pattern

Under given

When

Conditional joint probability of

To

Related to

Conditional probability of

To

It has been shown that the local maximization can be performed by the EM algorithm using as a hidden variable. On the other hand, in Non-Patent Document 4,

To

Related to

Conditional probability of

To

It has been shown that local maximization can be achieved with the EM algorithm using as a hidden variable. The former method is

A non-negative constraint on

Was difficult to incorporate into the estimation process of

Locally optimal under non-negative constraints on

, It is possible to achieve high parameter estimation accuracy. But with the latter method

Given by the Forward-Backward algorithm

A step (E step) of calculating the posterior probability of is required, and this step required a huge amount of calculation. Therefore, in the embodiment of the present invention, the optimization criterion is

And

Instead of

When

Conditional joint probability of

age,

Posterior probability calculation step

We propose a parameter estimation algorithm that replaces the optimal estimation step. That is,

Is optimal under non-negative constraints given

Estimating and

The best under given

By efficiently searching through the Viterbi algorithm

Locally optimal under the non-negative constraint of

When

Can be estimated. The point of this method is that the Forward-Backward algorithm is replaced with the Viterbi algorithm in Non-Patent Document 4. In general, the Viterbi algorithm is faster than the Forward-Backward algorithm, so that the efficiency of the entire calculation is improved. There is expected.

<F0軌跡の確率モデル化>
非特許文献4に記載されているF0軌跡の確率モデル化について説明する。
<Probability model of the F 0 locus>
It will be described probabilistic modeling of F 0 locus that is described in Non-Patent Document 4.

図1に示すように、藤崎モデル(非特許文献1参照)は、対数F0軌跡y(t)を以下の3つの成分の和 As shown in FIG. 1, the model (see Non-Patent Document 1) Fujisaki, the sum of the following three components logarithmic F 0 trajectory y (t)

で表すモデルである。ここで、tは時刻、xp(t)はフレーズ成分、xa(t)はアクセント成分、xb はベースライン成分と呼ぶ時間によらない定数である。さらにフレーズ成分、アクセント成分はそれぞれ、フレーズ指令、アクセント指令と呼ばれる信号の2次のフィルタの出力 It is a model represented by. Here, t is time, x p (t) is a phrase component, x a (t) is an accent component, and x b is a time-dependent constant called a baseline component. Furthermore, the phrase component and the accent component are output from the secondary filter of the signal called the phrase command and accent command, respectively.







であると仮定される。ここでup(t)はフレーズ指令と呼ぶパルス列であり、ua(t)はアクセント指令と呼ばれる矩形パルス列である。これらのうち非ゼロの値をとるのは各時刻で高々1つである。α、βはそれぞれ2次フィルタの応答の速さを表す角周波数であり、個人や発話によらずおおよそα=3rad/s、β=20rad/s程度の値をとることが知られている。 Is assumed. Here u p (t) is the pulse train called the phrase command, u a (t) is a rectangular pulse train called the accent command. At most one of these takes a non-zero value at each time. α and β are angular frequencies representing the response speed of the secondary filter, and are known to take values of approximately α = 3 rad / s and β = 20 rad / s regardless of individuals or utterances.

以下に、これまで発明者らが開発してきた藤崎モデルをベースにしたF0軌跡の生成過程の確率モデル(非特許文献4)について概説する。上述の藤崎モデルにおいて、フレーズ指令、アクセント指令はそれぞれデルタ列、矩形パルス列であり、さらにこれらは互いに重ならないという仮定が置かれる。非特許文献2〜4の手法の中心的なアイデアは、フレーズ・アクセント指令列の生成プロセスを隠れマルコフモデル(HMM)により表現した点にある。離散時刻のインデックスをkとし、フレーズ指令up[k]、アクセント指令ua[k]のペアを

とする。各状態の出力分布を正規分布とした場合、出力系列

Hereinafter, until we have this outlines the probabilistic model of the production process of F 0 locus which is based on Fujisaki model has been developed (Non-Patent Document 4). In the above-described Fujisaki model, the phrase command and the accent command are a delta train and a rectangular pulse train, respectively, and furthermore, it is assumed that these do not overlap each other. A central idea of the methods of Non-Patent Documents 2 to 4 is that the generation process of the phrase / accent instruction sequence is represented by a hidden Markov model (HMM). The index of discrete time is k, and the pair of phrase command u p [k] and accent command u a [k]

And If the output distribution of each state is normal distribution, the output series

Is

に従う。ここでskは時刻k における状態を表す。すなわち、式(6)は平均

と分散

が状態遷移の結果として時間とともに変化することを意味する。HMM の利点は、状態遷移ネットワークの設計を通してモデル化したい系列に対して課すべき制約を柔軟に設けられる点にある。フレーズ指令、アクセント指令に対する先述の制約は例えば図2のような状態遷移ネットワークによって表現できる。加えて、それぞれの状態を同じ出力分布をもったいくつかの小状態に分割することで自己遷移の持続長をパラメータ化することもできる。
Obey. Here s k represents the state at time k. That is, equation (6) is the average

And dispersion

Changes with time as a result of the state transition. The advantage of HMM is that it can flexibly set constraints to be imposed on the sequence to be modeled through the design of the state transition network. The above-mentioned restrictions on the phrase command and the accent command can be expressed by, for example, a state transition network as shown in FIG. In addition, the duration of the self-transition can be parameterized by dividing each state into several smaller states with the same output distribution.

図2に、従来法におけるフレーズ・アクセント指令列の状態遷移モデルを示す(非特許文献2〜4参照)。状態r0ではμp[k]とμa[k] はいずれも0 となる。状態p0ではμp[k]は非負値C(p)[k]をとり、μa[k] は0 となる。状態r1では状態r0 と同様μp[k]とμa[k]はいずれも0 となる。従って状態r0 から状態p1を経由して状態r1に遷移する過程でμp[k]はパルス状の系列となる。状態r1 は状態a0,...,aN-1へのみ遷移することができ、これらの状態においてμa[k] はそれぞれ異なる値C(a) n をとり、μp[k] は0 となる。状態r1を経由せずに直接an からan′ (n≠n′)へ遷移することができないようにすることでμa[k] が矩形パルス列となるように制約することができる。 FIG. 2 shows a state transition model of a phrase / accent instruction sequence in a conventional method (see Non-Patent Documents 2 to 4). In the state r 0 , μ p [k] and μ a [k] are both 0. In the state p 0 , μ p [k] takes a non-negative value C (p) [k], and μ a [k] becomes 0. Both the state r 1 in a state r 0 Similarly mu p [k] and μ a [k] is 0. Thus in the process of transition to a state r 1 via the state p 1 from the state r 0 μ p [k] is a pulse-like sequences. State r 1 can only transition to states a 0 ,..., A N−1 , in which μ a [k] takes different values C (a) n and μ p [k] Becomes 0. Directly without passing through the state r 1 a n from a n '(n ≠ n' ) a μ by not able to transition to the [k] can be constrained to a rectangular pulse train.

次に、図3に状態an を小状態に分割した例を示す。例えばこの図3のように全てのm≠0に対してan,m からan,m+1への状態遷移確率を1 に設定することで、an,0からan,mへの遷移確率が状態an がm ステップだけ持続する確率に対応し、アクセント指令の持続長を柔軟に制御できるようになる。同様にp1 とp0 とa0 も小状態に分割することで、フレーズ指令の持続長と指令間の間隔の長さの分布をパラメータ化することが可能になる。こうした分割をふまえて、以後は改めて

と表記する。以上のHMM の構成は以下となる。
Next, an example of dividing the state a n a small state in FIG. For example, by setting for all m ≠ 0 as shown in FIG. 3 a n, from m a n, a state transition probability of the m + 1 to 1, from a n, 0 a n, to m transition probability corresponds to the probability that state a n lasts only m step, it becomes possible to flexibly control the persistence length of the accent command. Similarly p 1 and p 0 and a 0 also be divided into small state, the length of the distribution of intervals between command and persistence length of the phrase command can be parameterized. Based on this division,

Notation. The configuration of the above HMM is as follows.

上記のHMMから出力された指令関数up[k]、ua[k]にそれぞれ異なるフィルタGp[k]とGa[k] が畳み込まれたものがフレーズ成分とアクセント成分 The command functions u p [k] and u a [k] output from the above HMM are convolved with different filters G p [k] and G a [k], respectively.

となる。ただし、*は離散時間kに関する畳込みを表す。また、Gp[k]とGa[k]はそれぞれGp(t) とGa(t)を離散時間表現である。以上より、F0軌跡の離散時間表現x[k]は Becomes Here, * represents convolution for discrete time k. G p [k] and G a [k] are discrete-time expressions of G p (t) and G a (t), respectively. From the above, the discrete-time expression x [k] of the F 0 trajectory is

となる。xbはベースライン成分を表す。 Becomes x b represents the baseline component.

無声区間においてはF0は観測されないことがあったり、観測されていたとしても信頼できない場合がある。また、F0抽出において推定誤りが生じる場合もある。そこで観測F0パターンy[k]を、上述のF0パターンモデルx[k]とノイズ

との和として表すことで、観測F0パターンの不確実性を分散v2 n[k]の設定を通して組み込むことができる。すなわち、観測F0パターンy[k]を
In unvoiced sections, F 0 may not be observed, or even if observed, it may not be reliable. In some cases, the estimation error in the F 0 extraction occurs. Therefore observation F 0 patterns y [k], the above-mentioned F 0 pattern model x [k] and the noise

The uncertainty of the observed F 0 pattern can be incorporated through the setting of the variance v 2 n [k]. That is, the observed F 0 pattern y [k] and

と表現することで、信頼のおける区間かどうかに関わらず全ての観測区間を統一的に扱える。ここで、xn[k]を周辺化すると、

が与えられたもとでの

の条件つき確率密度関数

Thus, all observation sections can be treated uniformly regardless of whether they are reliable sections. Here, when x n [k] is marginalized,

Given

Conditional probability density function of

Is

となる。式(6) より、状態系列

が与えられたもとでの

の条件つき確率密度関数



で与えられる。ここで、

は出力分布の平均と分散の系列を表す。状態系列

の確率分布

はHMMにおけるマルコフ性の仮定より、遷移確率の積

で与えられる。
Becomes From equation (6), the state series

Given

Conditional probability density function of

Is

Given by here,

Represents the series of the mean and variance of the output distribution. State series

Probability distribution of

Is the product of transition probabilities from the assumption of Markov property in HMM.

Given by

<藤崎モデルパラメータ推定アルゴリズム>
非特許文献2、3では、観測F0 系列

が与えられたときの状態系列

の事後確率

を最大化する

をEM アルゴリズムにより探索するアルゴリズムが提案されており、非特許文献4では、観測F0系列

が与えられたときの状態出力系列

の事後確率



の各要素が非負値となるように最大化する

をEMアルゴリズムと補助関数法により探索するアルゴリズムが提案されている。これらに対し本発明は、観測F0系列

が与えられたときの状態出力系列

と状態系列

の同時事後確率

を最大化する



を、

を固定した上で

が最大となるように

を更新するステップと、

を固定した上で

が増大するように

を非負値制約下で更新するステップを反復することで探索するアルゴリズムである。
<Fujisaki model parameter estimation algorithm>
In Non-Patent Documents 2 and 3, the observation F 0 series

State sequence when given

Posterior probability of

Maximize

The algorithm for search has been proposed by the EM algorithm, in Non-Patent Document 4, the observed F 0 sequence

Output sequence when given

Posterior probability of

To

Maximize each element of to be nonnegative

An algorithm has been proposed which searches for EM by the EM algorithm and the auxiliary function method. In contrast, the present invention provides an observation F 0 series

Output sequence when given

And state series

Simultaneous posterior probability of

Maximize

When

To

After fixing

To maximize

Updating the

After fixing

So that

Is an algorithm for searching by repeating the step of updating under non-negative value constraints.

<状態系列更新ステップ>
状態系列更新ステップは、

を固定した上で

が最大となるように

を更新するステップである。
<State sequence update step>
The state series update step includes:

After fixing

To maximize

Is the step of updating




に依存する項は

であるため、

を最大化する

を求める問題は、

を出力系列としたHMM の状態系列探索問題と同形である。従ってViterbi アルゴリズムを用いて解決することができる。

so

Is dependent on

Because

Maximize

The problem to ask for is

This is the same as the HMM state sequence search problem with the output sequence as. Therefore, it can be solved by using the Viterbi algorithm.

<状態出力系列更新ステップ>
状態出力系列更新ステップは、

を固定した上で

が最大となるように

を更新するステップである。
<Status output sequence update step>
The status output series updating step includes:

After fixing

To maximize

Is the step of updating




に依存する項は

であり、



はそれぞれ

so

Is dependent on

And

When

Are each



で与えられる。ただしGb[k]=δ[k](クロネッカーのデルタ)である。指令関数up[k]、ua[k] が非負であるという条件の下で

を最大化する

を直接求めるのは難しいが、補助関数法に基づく反復計算により局所的に最大化する

を探索することができる。補助関数法は最大化したい目的関数の下界となる関数を反復的に増加させていくことで目的関数を増加させる手法である。式(12) の下界となる関数は、Jensen の不等式
Given by Here, G b [k] = δ [k] (Kronecker delta). Under the condition that the command functions u p [k] and u a [k] are non-negative

Maximize

Is difficult to find directly, but it is locally maximized by iterative calculation based on the auxiliary function method

Can be searched. The auxiliary function method is a method of increasing the objective function by repeatedly increasing the lower function of the objective function to be maximized. The lower bound function of Eq. (12) is Jensen's inequality

が成り立つことを利用して設計することができる。ただし、

を補助変数と呼び、

を満たす。式(14) の等号成立条件は
Can be designed using the fact that However,

Are called auxiliary variables,

Meet. The condition for the equality of equation (14) is

である。 It is.

よって、 Therefore,

が成り立ち、右辺を補助関数

と呼ぶ。この補助関数をui[l]に関して偏微分すると、
Holds, and the right side is an auxiliary function

Call. Differentiating this auxiliary function with respect to u i [l] gives

となるため、これを0 と置くことで So by setting this to 0

を得る。以上より、式(15)、式(18) を反復することで

を増加させることができる。
Get. From the above, by repeating Equations (15) and (18),

Can be increased.

また、

を最大にするHMM の状態出力分布のパラメータ



に関する偏微分をそれぞれ0 と置くことで
Also,

Of the state output distribution of the HMM that maximizes

Is

By setting each partial derivative with respect to 0,

で与えられる。ただし、

はsk= anであるようなk の集合

を表し、

はその集合の要素数を表す。
Given by However,

Set of k such is a s k = a n

Represents

Represents the number of elements in the set.

<システム構成> <System configuration>

次に、観測された音声信号の時系列データを解析して、藤崎モデルのパラメータを推定する基本周波数モデルパラメータ推定装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。   Next, the embodiment of the present invention will be described with reference to an example in which the present invention is applied to a fundamental frequency model parameter estimating apparatus that analyzes time-series data of an observed audio signal and estimates parameters of the Fujisaki model. explain.

図4に示すように、本発明の実施の形態に係る基本周波数モデルパラメータ推定装置100は、CPUと、RAMと、後述する基本周波数モデルパラメータ推定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。   As shown in FIG. 4, a fundamental frequency model parameter estimating apparatus 100 according to an embodiment of the present invention includes a CPU, a RAM, and a ROM storing a program for executing a fundamental frequency model parameter estimating processing routine described later. And is functionally configured as follows.

図4に示すように、基本周波数モデルパラメータ推定装置100は、記憶部1と、基本周波数系列抽出部2と、有声無声区間推定部3と、初期値設定部4と、状態系列更新部5と、モデルパラメータ更新部6と、収束判定部7と、出力部9とを備えている。   As shown in FIG. 4, the fundamental frequency model parameter estimation device 100 includes a storage unit 1, a fundamental frequency sequence extraction unit 2, a voiced unvoiced section estimation unit 3, an initial value setting unit 4, a state sequence update unit 5, , A model parameter updating unit 6, a convergence determining unit 7, and an output unit 9.

記憶部1は、観測された音声信号の時系列データを記憶する。   The storage unit 1 stores time-series data of the observed audio signal.

基本周波数系列抽出部2は、音声信号の時系列データから、基本周波数の時系列データを抽出し、それらを離散時間kで表現するように変換して、音声信号の基本周波数の時系列データである観測基本周波数系列

とする。この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献5(H. Kameoka, "Statistical speech spectrum model incorporating all-pole vocal tract model and F0 contour generating process model," in Tech. Rep. IEICE, 2010, in Japanese.)に記載の手法を利用して、8msごとに基本周波数を抽出する。
The fundamental frequency sequence extracting unit 2 extracts fundamental frequency time series data from the audio signal time series data, converts them into discrete time k, and converts the fundamental frequency time series data into the fundamental frequency time series data of the audio signal. An observed fundamental frequency sequence

And Extraction of the fundamental frequency, can be achieved by well known techniques, for example, Non-Patent Document 5 (H. Kameoka, "Statistical speech spectrum model incorporating all-pole vocal tract model and F 0 contour generating process model," in Tech. Rep IEICE, 2010, in Japanese.), A fundamental frequency is extracted every 8 ms.

有声無声区間推定部3は、音声信号の時系列データから、有声区間と無声区間とを特定し、離散時間k毎に、有声区間であるか無声区間であるかに応じて、観測F0[k]値の不確かさの程度vn 2[k]を推定する。無声区間では不確かさの程度を大きく推定し、有声区間では不確かさの程度を小さく推定する。 The voiced unvoiced section estimation unit 3 specifies a voiced section and a voiceless section from the time-series data of the audio signal, and determines the observation F 0 [for each discrete time k according to whether it is a voiced section or a voiceless section. k] Estimate the degree of uncertainty of the value v n 2 [k]. In unvoiced sections, the degree of uncertainty is estimated to be large, and in voiced sections, the degree of uncertainty is estimated to be small.

初期値設定部4は、後述する処理で用いる各パラメータである、アクセント指令の数N、ubを定数とみなし初期値を設定する。初期値として適当な値を設定する。また、初期値設定部4は、HMMの小状態の個数、遷移確率φi′,Iを、予め用意した正解データから学習して決定する。また、初期値設定部4は、従来既知の藤崎モデルのパラメータ推定法を用いて、

の初期値(非負値)を設定する。また、初期値設定部4は、C(p)[k]の初期値として、

のフレーズ指令関数の振幅を線形補間したものを設定し、Cn (a)の初期値として適切な値を設定する。
The initial value setting unit 4 are each a parameter used in the process described later, sets the number N, the initial value regarded as constant u b accent command. Set an appropriate value as the initial value. Further, the initial value setting unit 4 learns and determines the number of small states of the HMM and the transition probability φ i ′, I from the correct data prepared in advance. Further, the initial value setting unit 4 uses a conventionally known parameter estimation method of the Fujisaki model,

Set the initial value (non-negative value) of. Further, the initial value setting unit 4 sets the initial value of C (p) [k] as

Is set by linearly interpolating the amplitude of the phrase command function of, and an appropriate value is set as the initial value of C n (a) .

本実施の形態では、藤崎モデルパラメータ



の局所最適解は、状態系列更新部5とモデルパラメータ更新部6の2つのステップを繰り返すことで得られる。
In the present embodiment, the Fujisaki model parameters

When

Is obtained by repeating the two steps of the state sequence updating unit 5 and the model parameter updating unit 6.

状態系列更新部5は、前回更新された指令関数

又は指令関数

の初期値に基づいて、観測基本周波数系列

、指令関数

、及び状態系列

の対数同時確率

を目的関数として、前記目的関数を増加させるように、Viterbiアルゴリズムを用いて、状態系列

を更新する。具体的には、

が最大となるように、Viterbiアルゴリズムを用いて、状態系列

を更新する。
The state sequence updating unit 5 is a command function that has been updated last time.

Or command function

Based on the initial value of

, Directive function

, And state series

Log joint probability of

Is used as an objective function, and the state series is increased using the Viterbi algorithm so as to increase the objective function.

To update. In particular,

Is maximized using the Viterbi algorithm so that

To update.

モデルパラメータ更新部6は、前回更新された指令関数

または指令関数

の初期値、観測基本周波数系列

、および各時刻kにおける不確かさの程度vn 2[k]に基づいて、目的関数を増加させるように、補助関数法を用いて、各々非負値である指令関数

、及びパラメータ群

を更新する。
The model parameter updating unit 6 stores the previously updated command function

Or directive function

Initial value of, observation fundamental frequency series

And the non-negative command functions using the auxiliary function method to increase the objective function based on the degree of uncertainty v n 2 [k] at each time k

, And parameters

To update.

具体的には、モデルパラメータ更新部6は、補助変数更新部61、指令関数更新部62、収束判定部63、及び状態出力分布更新部64を備えている。   Specifically, the model parameter updating unit 6 includes an auxiliary variable updating unit 61, a command function updating unit 62, a convergence determining unit 63, and a state output distribution updating unit 64.

補助変数更新部61は、前回更新された各時刻kのフレーズ指令up[k](又は初期値)に基づいて、時刻k、l(l<k)の全ての組み合わせ(k、l)の各々について、上記の式(15)に従って、補助変数λp,k,lを算出して更新する。また、補助変数更新部61は、前回更新された各時刻kのアクセント指令ua[k](又は初期値)に基づいて、(k、l)の全ての組み合わせについて、上記の式(15)に従って、補助変数λa,k,lを算出して更新する。 Auxiliary variable update unit 61, based on the phrase command u p at each time k was last updated [k] (or default), time k, l (l <k) all combinations (k, l) of For each of them, the auxiliary variables λ p, k, l are calculated and updated according to the above equation (15). In addition, the auxiliary variable updating unit 61 calculates the above equation (15) for all combinations of (k, l) based on the accent command u a [k] (or the initial value) at each time k updated last time. , The auxiliary variables λ a, k, l are calculated and updated.

また、補助変数更新部61は、ubに基づいて、(k、l)の全ての組み合わせについて、上記の式(15)に従って、補助変数λb,k,lを算出して更新する。 The auxiliary variable update unit 61 based on the u b, (k, l) for all combinations of, according to the above equation (15), the auxiliary variable lambda b, k, is updated to calculate the l.

指令関数更新部62は、基本周波数系列

と、不確かさの程度vn 2 [k]と、状態系列更新部5によって更新された状態系列

と、補助変数更新部61によって更新された補助変数λp,k,lとに基づいて、上記式(18)に従って、非負値である各時刻lのフレーズ指令up[l]を更新する。
The command function updating unit 62 calculates the fundamental frequency sequence

And the degree of uncertainty v n 2 [k], and the state sequence updated by the state sequence updating unit 5

When the auxiliary variable update section 61 auxiliary variable lambda p, k updated by, based on the l, according to the above formula (18), and updates the phrase command u p at each time l is a non-negative value [l].

また、指令関数更新部62は、基本周波数系列

と、不確かさの程度vn 2[k]と、状態系列更新部5によって更新された状態系列

と、補助変数更新部61によって更新された補助変数λa,k,lとに基づいて、上記式(18)に従って、非負値である各時刻lのアクセント指令ua[l]を更新する。
In addition, the command function updating unit 62 performs the

And the degree of uncertainty v n 2 [k], and the state sequence updated by the state sequence updating unit 5

Based on the auxiliary variable λ a, k, l updated by the auxiliary variable updating unit 61, the accent command u a [l] at each time l that is a non-negative value is updated according to the above equation (18).

また、指令関数更新部62は、基本周波数系列

と、不確かさの程度vn 2 [k]と、補助変数更新部61によって更新された補助変数λb,k,lとに基づいて、上記式(18)に従って、ベース成分ubを更新する。
In addition, the command function updating unit 62 performs the

When a degree of uncertainty v n 2 [k], based auxiliary variable is updated by the auxiliary variable updating unit 61 lambda b, k, to the l, according to the above formula (18), to update the base component u b .

収束判定部63は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、補助変数更新部61及び指令関数更新部62の各処理を繰り返す。収束判定部63は、収束条件を満足したと判定した場合には、状態出力分布更新部64による処理に移行する。   The convergence determination unit 63 determines whether or not a predetermined convergence condition is satisfied. If the convergence condition is not satisfied, each process of the auxiliary variable update unit 61 and the command function update unit 62 is repeated. When the convergence determining unit 63 determines that the convergence condition is satisfied, the process proceeds to the processing by the state output distribution updating unit 64.

収束条件としては、繰り返し回数sが予め定めた回数S(例えば、20回)に達したことを用いればよい。なお、s-1回目のパラメータを用いたときの補助関数の値とs回目のパラメータを用いたときの補助関数の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。   As the convergence condition, the fact that the number of repetitions s reaches a predetermined number S (for example, 20 times) may be used. It should be noted that the difference between the value of the auxiliary function when the s-1th parameter is used and the value of the auxiliary function when the sth parameter is used is smaller than a predetermined threshold value. May be used.

状態出力分布更新部64は、指令関数更新部62によって更新された各時刻kのフレーズ指令up[k]に基づいて、上記式(19)に従って、各時刻kのフレーズ指令の状態出力分布のパラメータC(p)[k]を更新すると共に、指令関数更新部62によって更新された各時刻kのアクセント指令ua[k]と、状態系列更新部5によって更新された状態系列sとに基づいて、上記式(20)に従って、各アクセント指令nの状態出力分布のパラメータCn (a)を更新することにより、パラメータ群

を更新する。
State output distributions updating unit 64 on the basis of the phrase command u p at each time k updated by the command function updater 62 [k], according to the above formula (19), the state output distributions for phrase command at each time k updates the parameter C (p) [k], the accent command u a [k] at each time k updated by the command function updating unit 62, based on the state sequence s that is updated by the state sequence update unit 5 By updating the parameter C n (a) of the state output distribution of each accent command n according to the above equation (20), the parameter group

To update.

収束判定部7は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、上記の更新値を改めて



に代入して、反復アルゴリズム(状態系列更新部5及びモデルパラメータ更新部6の各処理)を繰り返す。収束判定部7は、収束条件を満足したと判定した場合には、出力部9による処理に移行する。
The convergence determination unit 7 determines whether or not a predetermined convergence condition is satisfied. If the convergence condition is not satisfied, the convergence determination unit 7 renews the update value.

When

And the iterative algorithm (the respective processes of the state sequence updating unit 5 and the model parameter updating unit 6) is repeated. When determining that the convergence condition is satisfied, the convergence determining unit 7 proceeds to the processing by the output unit 9.

収束条件としては、繰り返し回数rが予め定めた回数R(例えば、20回)に達したことを用いればよい。なお、r-1回目のパラメータを用いたときの目的関数の値とr回目のパラメータを用いたときの目的関数の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。   As the convergence condition, a condition that the number of repetitions r reaches a predetermined number R (for example, 20 times) may be used. It should be noted that the difference between the value of the objective function when the r-1 parameter is used and the value of the objective function when the r parameter is used is smaller than a predetermined threshold value. May be used.

そして、出力部9により、指令関数

、パラメータ群

、状態系列

を出力する。
Then, the command function is output by the output unit 9.

, Parameter group

, State series

Is output.

<基本周波数モデルパラメータ推定装置の作用>
次に、本実施の形態に係る基本周波数モデルパラメータ推定装置100の作用について説明する。まず、分析対象として、観測された音声信号の時系列データが、基本周波数モデルパラメータ推定装置100に入力され、記憶部1に格納される。そして、基本周波数モデルパラメータ推定装置100において、図5に示す基本周波数モデルパラメータ推定処理ルーチンが実行される。
<Operation of fundamental frequency model parameter estimation device>
Next, the operation of the fundamental frequency model parameter estimation device 100 according to the present embodiment will be described. First, time-series data of an observed audio signal is input to the fundamental frequency model parameter estimation device 100 as an analysis target, and is stored in the storage unit 1. Then, in the fundamental frequency model parameter estimation device 100, a fundamental frequency model parameter estimation processing routine shown in FIG. 5 is executed.

まず、ステップS101において、記憶部1から、音声信号の時系列データを読み込み、各時刻kの基本周波数F0からなる基本周波数系列

を抽出する。ステップS102において、音声信号の時系列データに基づいて、有声区間、無声区間を特定し、各時刻kの基本周波数の不確かさの程度vn 2 [k]を推定する。
First, in step S101, from the storage unit 1 reads the time-series data of the audio signal, the fundamental frequency sequence consisting of the fundamental frequency F 0 of the time k

Is extracted. In step S102, a voiced section and an unvoiced section are specified based on the time-series data of the audio signal, and the degree of uncertainty v n 2 [k] of the fundamental frequency at each time k is estimated.

次のステップS103では、各パラメータN、ubに対して適切な初期値を設定すると共に、HMMの小状態の個数、遷移確率φi′,Iを、予め用意した正解データから学習して決定する。また、従来手法により指令系列

を推定して、初期値として設定すると共に、C(p)[k]の初期値及びCn (a)の初期値を設定する。
In the next step S103, appropriate initial values are set for the parameters N and u b , and the number of small states of the HMM and the transition probability φ i ′, I are determined by learning from the correct data prepared in advance. I do. In addition, the command sequence is

Is estimated and set as an initial value, and an initial value of C (p) [k] and an initial value of C n (a) are set.

そして、ステップS104において、上記ステップS103で設定された指令系列

の初期値、または後述するステップS105で前回更新された指令系列

に基づいて、

が最大となるように、Viterbiアルゴリズムを用いて、状態系列

を更新する。
Then, in step S104, the command sequence set in step S103 is set.

Or the command sequence last updated in step S105 described later.

On the basis of the,

Is maximized using the Viterbi algorithm so that

To update.

ステップS105では、上記ステップS103で設定された各時刻kのフレーズ指令up[k]の初期値、又は後述するステップS106で前回更新された各時刻kのフレーズ指令up[k]に基づいて、時刻k、l(l<k)の全ての組み合わせ(k、l)の各々について、上記の式(15)に従って、補助変数λp,k,lを算出して更新する。上記ステップS103で設定された各時刻kのアクセント指令ua[k]の初期値、又は後述するステップS106で前回更新された各時刻kのアクセント指令ua[k]に基づいて、(k、l)の全ての組み合わせについて、上記の式(15)に従って、補助変数λa,k,lを算出して更新する。また、上記ステップS103で設定されたubの初期値、又は後述するステップS106で前回更新されたubに基づいて、(k、l)の全ての組み合わせについて、上記の式(15)に従って、補助変数λb,k,lを算出して更新する。 In step S105, the initial value of the phrase command u p [k] at each time k set in the step S103, or in step S106, which will be described later, based on the phrase command u p [k] at each time k, which was last updated , And for each combination (k, l) of times k, l (l <k), the auxiliary variable λ p, k, l is calculated and updated according to the above equation (15). The initial value of the accent command u a [k] at each time k set in the step S103, or in step S106, which will be described later, based on the accent command u a [k] at each time k that was last updated, (k, For all the combinations 1), the auxiliary variables λ a, k, l are calculated and updated according to the above equation (15). The initial value of u b set in the step S103, or on the basis of a u b was last updated in step S106 to be described later, for all combinations of (k, l), according to the above equation (15), The auxiliary variables λ b, k, l are calculated and updated.

次のステップS106では、上記ステップS101で算出された基本周波数系列

と、上記ステップS102で算出された各時刻kの不確かさの程度vn 2[k]と、上記ステップS104で更新された状態系列

と、上記ステップS105で更新された補助変数λp,k、l、λa,k,l、λb,k,lとに基づいて、上記式(18)に従って、非負値である各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]からなる指令系列

とベース成分ubとを更新する。
In the next step S106, the fundamental frequency sequence calculated in the above step S101

And the degree of uncertainty v n 2 [k] at each time k calculated in step S102, and the state sequence updated in step S104

Based on the auxiliary variables λ p, k, l , λ a, k, l , λ b, k, l updated in step S105, each time l which is a non-negative value is calculated according to the above equation (18). phrase command u p [l] and the command sequence consisting of accent command u a [l] of

To update the base component u b.

次のステップS107では、収束条件として、繰り返し回数sが、Sに到達したか否かを判定し、繰り返し回数sがSに到達していない場合には、収束条件を満足していないと判断して、上記ステップS105へ戻り、上記ステップS105〜ステップS106の処理を繰り返す。一方、繰り返し回数sがSに到達した場合には、収束条件を満足したと判断し、ステップS108で、上記ステップS106で更新された各時刻kのフレーズ指令up[k]に基づいて、上記式(19)に従って、各時刻kのフレーズ指令の状態出力分布のパラメータC(p)[k]を更新すると共に、上記ステップS106で更新された各時刻kのアクセント指令ua[k]と、上記ステップS104で更新された状態系列

とに基づいて、上記式(20)に従って、各アクセント指令nの状態出力分布のパラメータCn (a)を更新することにより、パラメータ群

を更新する。
In the next step S107, it is determined whether the number of repetitions s has reached S as a convergence condition. If the number of repetitions s has not reached S, it is determined that the convergence condition is not satisfied. Then, the process returns to step S105, and the processes of steps S105 to S106 are repeated. On the other hand, if the number of repetitions s reaches S is determined to have been satisfied convergence condition, in step S108, based on the phrase command u p at each time k updated in step S106 [k], the according to equation (19), and updates the parameter C (p) [k] of the state output distributions for phrase command at each time k, accent command u a [k] at each time k updated in step S106, State series updated in step S104

By updating the parameter C n (a) of the state output distribution of each accent command n based on the above equation (20), the parameter group

To update.

そして、ステップS109において、収束条件として、繰り返し回数rが、Rに到達したか否かを判定し、繰り返し回数rがRに到達していない場合には、収束条件を満足していないと判断して、上記ステップS104へ戻り、上記ステップS104〜ステップS108の処理を繰り返す。一方、繰り返し回数rがRに到達した場合には、収束条件を満足したと判断し出力部9により、指令関数

、パラメータ群

、状態系列

を出力して、基本周波数モデルパラメータ推定処理ルーチンを終了する。
In step S109, it is determined whether or not the number of repetitions r has reached R as a convergence condition. If the number of repetitions r has not reached R, it is determined that the convergence condition is not satisfied. Then, the process returns to step S104, and the processes of steps S104 to S108 are repeated. On the other hand, when the number of repetitions r reaches R, it is determined that the convergence condition is satisfied, and the output unit 9 outputs the command function

, Parameter group

, State series

Is output, and the fundamental frequency model parameter estimation processing routine ends.

<実験>
表1は、音声データ長: 3.62 秒の音声データに従来法(非特許文献4)と本発明の実施の形態の手法を適用した際の各ステップに要した計算時間を示している。
<Experiment>
Table 1 shows the calculation time required for each step when the conventional method (Non-Patent Document 4) and the method of the embodiment of the present invention are applied to audio data having an audio data length of 3.62 seconds.

実装環境は下記のとおりである。   The implementation environment is as follows.

・CPU: Core i7-6700K 4.0GHz
・RAM: 32GB
・OS: Windows 7 SP1
・MATLAB R2016a
・ CPU: Core i7-6700K 4.0GHz
・ RAM: 32GB
・ OS: Windows 7 SP1
・ MATLAB R2016a

本発明の実施の形態の手法の状態系列s の更新ステップは従来法の状態系列s の事後確率更新ステップに比べ70 倍程度高速化し、全体で16 倍程度高速化できることができた。   The updating step of the state sequence s in the method according to the embodiment of the present invention is approximately 70 times faster than the posterior probability updating step of the state sequence s in the conventional method, and the overall speed can be increased approximately 16 times.

以上説明したように、本発明の実施の形態に係る基本周波数モデルパラメータ推定装置によれば、観測基本周波数系列、指令関数、及び状態系列の対数同時確率

を目的関数として、Viterbiアルゴリズムを用いて、状態系列を更新し、指令関数、及びパラメータ群θを更新することを繰り返すことにより、計算量を抑えて、藤崎モデルのパラメータを推定することができる。
As described above, according to the fundamental frequency model parameter estimation device according to the embodiment of the present invention, the logarithmic joint probability of the observed fundamental frequency sequence, the command function, and the state sequence

By using the Viterbi algorithm to update the state series and repeatedly update the command function and the parameter group θ, the amount of calculation can be suppressed, and the parameters of the Fujisaki model can be estimated with a reduced amount of calculation.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the embodiment described above, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、上述の基本周波数モデルパラメータ推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   For example, the above-described fundamental frequency model parameter estimating apparatus has a computer system inside, but the “computer system” also includes a homepage providing environment (or display environment) if a WWW system is used. Shall be included.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   Further, in the specification of the present application, the embodiment is described in which the program is installed in advance. However, the program may be stored in a computer-readable recording medium and provided.

1 記憶部
2 基本周波数系列抽出部
3 有声無声区間推定部
4 初期値設定部
5 状態系列更新部
6 モデルパラメータ更新部
7 収束判定部
61 補助変数更新部
62 指令関数更新部
63 収束判定部
64 状態出力分布更新部
100 基本周波数モデルパラメータ推定装置
Reference Signs List 1 storage unit 2 fundamental frequency sequence extraction unit 3 voiced unvoiced section estimation unit 4 initial value setting unit 5 state sequence update unit 6 model parameter update unit 7 convergence determination unit 61 auxiliary variable update unit 62 command function update unit 63 convergence determination unit 64 state Output distribution update unit 100 Fundamental frequency model parameter estimation device

Claims (7)

音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる状態系列sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアo[k]からなる指令関数oと、各時刻kにおける状態skに応じたフレーズ指令の状態出力分布のパラメータC(p)[k]及び各アクセント指令nの状態出力分布のパラメータCn (a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置であって、
前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列yを抽出する基本周波数抽出部と、
前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの程度を推定する有声無声区間推定部と、
前記指令関数oの初期値を設定する初期値設定部と、
前回更新された前記指令関数oまたは前記指令関数oの初期値に基づいて、前記観測基本周波数系列y、前記指令関数o、及び状態系列sの対数同時確率log p(y,o,s)を目的関数として、前記目的関数を増加させるように、Viterbiアルゴリズムを用いて、前記状態系列sを更新する状態系列更新部と、
前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新するモデルパラメータ更新部と、
予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる収束判定部と、
を含み、
前記状態系列更新部は、以下の式に従って、前記状態系列sが与えられたもとでの前記指令関数oの条件付き確率密度関数の対数log p(o|s)と前記状態系列sの確率分布の対数log p(s)との和を増加させるように、Viterbiアルゴリズムを用いて、前記状態系列sを更新する
基本周波数モデルパラメータ推定装置。
An input audio signal, hiding the state sequence s made from the state s k at each time k in Markov models, phrase command u p representing the fundamental frequency pattern resulting from the translation movement of the thyroid cartilage at each time k [k] and thyroid a command function o of pairs o [k] of the accent command representing a fundamental frequency pattern generated by the rotation movement of cartilage u a [k], the parameter C of the state output distributions for phrase command in accordance with the state s k at each time k (p) A fundamental frequency model parameter estimating device for estimating [k] and a parameter group θ representing a parameter C n (a) of a state output distribution of each accent command n,
From the time-series data of the audio signal, a fundamental frequency extraction unit that extracts an observation fundamental frequency sequence y representing a fundamental frequency at each time k of the audio signal,
A voiced unvoiced section estimation unit that estimates the degree of uncertainty of the fundamental frequency at each time k according to whether the time series data of the audio signal is a voiced section or an unvoiced section;
An initial value setting unit that sets an initial value of the command function o;
Based on the command function o updated last time or the initial value of the command function o, the logarithmic joint probability log p (y, o, s) of the observed fundamental frequency sequence y, the command function o, and the state sequence s is calculated. A state sequence updating unit that updates the state sequence s using a Viterbi algorithm so as to increase the objective function as an objective function;
Based on the previously updated command function o or the initial value of the command function o, the observed fundamental frequency sequence y, and the degree of uncertainty at each time k, the non-negative values are respectively increased so as to increase the objective function. A command parameter o, and a model parameter updating unit that updates the parameter group θ,
A convergence determining unit that repeats updating by the state sequence updating unit and updating by the model parameter updating unit until a predetermined convergence condition is satisfied;
Only including,
The state sequence update unit calculates the logarithm log p (o | s) of the conditional probability density function of the command function o and the probability distribution of the state sequence s, given the state sequence s, according to the following equation. A fundamental frequency model parameter estimating device that updates the state sequence s by using the Viterbi algorithm so as to increase the sum with the logarithm log p (s) .
前記モデルパラメータ更新部は、前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、補助関数法を用いて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新する請求項1記載の基本周波数モデルパラメータ推定装置。   The model parameter update unit uses the auxiliary function method based on the previously updated command function o or the initial value of the command function o, the observed fundamental frequency sequence y, and the degree of the uncertainty at each time k. The fundamental frequency model parameter estimating apparatus according to claim 1, wherein the command function o and the parameter group θ each having a non-negative value are updated so as to increase the objective function. 前記モデルパラメータ更新部は、
前回更新された各時刻lのフレーズ指令up[l]又は各時刻lのフレーズ指令up[l]の初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λp,k,lを算出して更新し、かつ、前回更新された各時刻kのアクセント指令ua[k]又は各時刻kのアクセント指令ua[k]の初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λa,k,lを算出して更新し、かつ、前回更新されたベースライン成分ub又はベースライン成分ubの初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λb,k,lを算出して更新する補助変数更新部と、
前記観測基本周波数系列yと、各時刻kの前記不確かさの程度と、前記補助変数更新部によって更新された前記補助変数λp,k,l、λa,k,l、λb,k,lとに基づいて、前記目的関数の下界となる関数を補助関数として、前記補助関数を増加させるように、各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]と、ベースライン成分ubとを更新する指令関数更新部と、
予め定められた収束条件を満たすまで、前記補助変数更新部による更新、及び前記指令関数更新部による更新を繰り返させる収束判定部と、
前記指令関数更新部によって更新された各時刻lのフレーズ指令up[l]に基づいて、各時刻kのフレーズ指令の状態出力分布のパラメータC(p)[k]を更新し、かつ、前記指令関数更新部よって更新された各時刻lのアクセント指令ua[l]と、前記更新された状態系列sとに基づいて、各アクセント指令nの状態出力分布のパラメータCn (a)を更新することにより、前記パラメータ群θを更新する状態出力分布更新部と、
を含む請求項2記載の基本周波数モデルパラメータ推定装置。
The model parameter update unit,
Based on the previous initial value of the phrase command u p updated each time l [l] or phrase command u p [l] at each time l, the time k, for each of the combinations of l (k, l), the auxiliary updates to calculate the variable lambda p, k, l, and, based on the initial value of the accent command u a of each time k was last updated [k] or accent command u a of each time k [k], time k, for each of the combinations of l (k, l), the auxiliary variable lambda a, k, and update calculated l, and, last updated baseline component u b or baseline initial value of the component u b An auxiliary variable updating unit that calculates and updates an auxiliary variable λ b, k, l for each combination (k, l) of times k and l based on
The observed fundamental frequency sequence y, the degree of uncertainty at each time k, and the auxiliary variables λ p, k, l , λ a, k, l , λ b, k, updated by the auxiliary variable updating unit based on the l, functions as a lower bound of the objective function as an auxiliary function, so to increase the auxiliary function, the phrase command u p at each time l [l] and accent command u a [l], the base a command function updating unit that updates the line component u b,
Until a predetermined convergence condition is satisfied, a convergence determination unit that repeats updating by the auxiliary variable updating unit and updating by the command function updating unit,
On the basis of the command phrase command u p at each time l updated by the function updating unit [l], to update the parameter C (p) [k] of the state output distributions for phrase command at each time k, and the The parameter C n (a) of the state output distribution of each accent command n is updated based on the accent command u a [l] at each time l updated by the command function updating unit and the updated state sequence s. A state output distribution updating unit that updates the parameter group θ,
The fundamental frequency model parameter estimating device according to claim 2, comprising:
音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる状態系列sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアo[k]からなる指令関数oと、各時刻kにおける状態skに応じたフレーズ指令の状態出力分布のパラメータC(p)[k]及び各アクセント指令nの状態出力分布のパラメータCn (a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、
基本周波数抽出部が、前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列yを抽出し、
有声無声区間推定部が、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの程度を推定し、
初期値設定部が、前記指令関数oの初期値を設定し、
状態系列更新部が、前回更新された前記指令関数oまたは前記指令関数oの初期値に基づいて、前記観測基本周波数系列y、前記指令関数o、及び状態系列sの対数同時確率log p(y,o,s)を目的関数として、前記目的関数を増加させるように、Viterbiアルゴリズムを用いて、前記状態系列sを更新し、
モデルパラメータ更新部が、前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる
ことを含み、
前記状態系列更新部が更新することでは、以下の式に従って、前記状態系列sが与えられたもとでの前記指令関数oの条件付き確率密度関数の対数log p(o|s)と前記状態系列sの確率分布の対数log p(s)との和を増加させるように、Viterbiアルゴリズムを用いて、前記状態系列sを更新する
基本周波数モデルパラメータ推定方法。
An input audio signal, hiding the state sequence s made from the state s k at each time k in Markov models, phrase command u p representing the fundamental frequency pattern resulting from the translation movement of the thyroid cartilage at each time k [k] and thyroid a command function o of pairs o [k] of the accent command representing a fundamental frequency pattern generated by the rotation movement of cartilage u a [k], the parameter C of the state output distributions for phrase command in accordance with the state s k at each time k (p) A fundamental frequency model parameter estimating method in a fundamental frequency model parameter estimating apparatus for estimating [k] and a parameter group θ representing a parameter C n (a) of a state output distribution of each accent command n,
A fundamental frequency extracting unit extracts, from the time-series data of the audio signal, an observation fundamental frequency sequence y representing a fundamental frequency at each time k of the audio signal,
The voiced unvoiced section estimation unit estimates the degree of uncertainty of the fundamental frequency at each time k according to whether the time-series data of the audio signal is a voiced section or an unvoiced section,
An initial value setting unit sets an initial value of the command function o,
A state sequence updating unit, based on the previously updated command function o or the initial value of the command function o, has a logarithmic joint probability log p (y of the observed fundamental frequency sequence y, the command function o, and the state sequence s. , O, s) as an objective function, update the state sequence s using the Viterbi algorithm so as to increase the objective function,
A model parameter updating unit increases the objective function based on the previously updated command function o or the initial value of the command function o, the observed fundamental frequency sequence y, and the degree of the uncertainty at each time k. In such a manner, the command function o, which is each a non-negative value, and the parameter group θ are updated,
The convergence determination unit repeats the update by the state sequence update unit and the update by the model parameter update unit until a predetermined convergence condition is satisfied.
Including
The update by the state sequence update unit includes the logarithm log p (o | s) of the conditional probability density function of the command function o and the state sequence s given by the state sequence s according to the following equation. A method for estimating a fundamental frequency model parameter that updates the state sequence s by using the Viterbi algorithm so as to increase the sum of the probability distribution and the logarithm log p (s) .
前記モデルパラメータ更新部が更新することでは、前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、補助関数法を用いて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新する請求項4記載の基本周波数モデルパラメータ推定方法。   By updating the model parameter updating unit, based on the previously updated command function o or the initial value of the command function o, the observed fundamental frequency sequence y, and the degree of the uncertainty at each time k, 5. The method of estimating a fundamental frequency model parameter according to claim 4, wherein the command function o and the parameter group θ each having a non-negative value are updated so as to increase the objective function by using a functional method. 前記モデルパラメータ更新部が更新することでは、
補助変数更新部が、前回更新された各時刻lのフレーズ指令up[l]又は各時刻lのフレーズ指令up[l]の初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λp,k,lを算出して更新し、かつ、前回更新された各時刻kのアクセント指令ua[k]又は各時刻kのアクセント指令ua[k]の初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λa,k,lを算出して更新し、かつ、前回更新されたベースライン成分ub又はベースライン成分ubの初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λb,k,lを算出して更新し、
指令関数更新部が、前記観測基本周波数系列yと、各時刻kの前記不確かさの程度と、前記補助変数更新部によって更新された前記補助変数λp,k,l、λa,k,l、λb,k,lとに基づいて、前記目的関数の下界となる関数を補助関数として、前記補助関数を増加させるように、各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]と、ベースライン成分ubとを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記補助変数更新部による更新、及び前記指令関数更新部による更新を繰り返させ、
状態出力分布更新部が、前記指令関数更新部によって更新された各時刻lのフレーズ指令up[l]に基づいて、各時刻kのフレーズ指令の状態出力分布のパラメータC(p)[k]を更新し、かつ、前記指令関数更新部よって更新された各時刻lのアクセント指令ua[l]と、前記更新された状態系列sとに基づいて、各アクセント指令nの状態出力分布のパラメータCn (a)を更新することにより、前記パラメータ群θを更新する
請求項5記載の基本周波数モデルパラメータ推定方法。
By the model parameter updating unit updating,
Auxiliary variable updating unit, based on the initial value of the phrase command u p at each time l was last updated [l] or phrase command u p at each time l [l], the time k, a combination of l (k, l for each), auxiliary variables lambda p, k, is updated to calculate the l, and, last accent command u a of each time k is updated [k] or at each time k accent command u a in [k] based on the initial value, the time k, for each of the combinations of l (k, l), the auxiliary variable lambda a, k, and update calculated l, and baseline components u b or baseline was last updated based on the initial value of the component u b, time k, for each of the combinations of l (k, l), the auxiliary variable lambda b, k, to calculate the l update,
A command function update unit updates the observed fundamental frequency sequence y, the degree of uncertainty at each time k, and the auxiliary variables λ p, k, l , λ a, k, l updated by the auxiliary variable update unit. , lambda b, k, based on the l, functions as a lower bound of the objective function as an auxiliary function, so to increase the auxiliary function, phrase command u p [l] and accent command u a of each time l and [l], to update the baseline component u b,
A convergence determination unit causes the update by the auxiliary variable update unit and the update by the command function update unit to be repeated until a predetermined convergence condition is satisfied,
State power distribution updating unit, on the basis of the phrase command at each time l updated by the command function updating unit u p [l], the parameters of the state output distributions for phrase command at each time k C (p) [k] , And based on the accent command u a [l] at each time l updated by the command function updating unit and the updated state sequence s, the parameter of the state output distribution of each accent command n The fundamental frequency model parameter estimation method according to claim 5, wherein the parameter group θ is updated by updating C n (a) .
請求項1〜請求項3の何れか1項に記載の基本周波数モデルパラメータ推定装置の各部としてコンピュータを機能させるためのプログラム。   A program for causing a computer to function as each unit of the fundamental frequency model parameter estimation device according to any one of claims 1 to 3.
JP2016240303A 2016-12-12 2016-12-12 Fundamental frequency model parameter estimation device, method, and program Active JP6665079B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016240303A JP6665079B2 (en) 2016-12-12 2016-12-12 Fundamental frequency model parameter estimation device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016240303A JP6665079B2 (en) 2016-12-12 2016-12-12 Fundamental frequency model parameter estimation device, method, and program

Publications (2)

Publication Number Publication Date
JP2018097114A JP2018097114A (en) 2018-06-21
JP6665079B2 true JP6665079B2 (en) 2020-03-13

Family

ID=62632372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016240303A Active JP6665079B2 (en) 2016-12-12 2016-12-12 Fundamental frequency model parameter estimation device, method, and program

Country Status (1)

Country Link
JP (1) JP6665079B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7120807B2 (en) 2018-05-21 2022-08-17 株式会社神戸製鋼所 Compression device and method for carrying out compression device

Also Published As

Publication number Publication date
JP2018097114A (en) 2018-06-21

Similar Documents

Publication Publication Date Title
JP6777768B2 (en) Word vectorization model learning device, word vectorization device, speech synthesizer, their methods, and programs
KR101120765B1 (en) Method of speech recognition using multimodal variational inference with switching state space models
JP2019144402A (en) Voice conversion learning device, voice conversion device, method and program
JP2007279744A (en) Method and apparatus for training fo and pause prediction model, method and apparatus for f0 and pause prediction, and method and apparatus for speech synthesis
GB2590509A (en) A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score
JP5807921B2 (en) Quantitative F0 pattern generation device and method, model learning device for F0 pattern generation, and computer program
Das et al. Optimal prosodic feature extraction and classification in parametric excitation source information for Indian language identification using neural network based Q-learning algorithm
JP5885210B2 (en) Basic frequency model parameter estimation apparatus, method, and program
JP6553584B2 (en) Basic frequency model parameter estimation apparatus, method, and program
JP6665079B2 (en) Fundamental frequency model parameter estimation device, method, and program
JP6137477B2 (en) Basic frequency model parameter estimation apparatus, method, and program
JP5474713B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis program
JP6468519B2 (en) Basic frequency pattern prediction apparatus, method, and program
JP6142401B2 (en) Speech synthesis model learning apparatus, method, and program
Yu et al. Hidden Markov models and the variants
JP6472005B2 (en) Basic frequency pattern prediction apparatus, method, and program
US11798579B2 (en) Device, method, and program for analyzing speech signal
Yoshizato et al. Hidden Markov Convolutive Mixture Model for Pitch Contour Analysis of Speech.
Yu et al. A lattice search technique for a long-contextual-span hidden trajectory model of speech
Koriyama et al. Frame-level acoustic modeling based on Gaussian process regression for statistical nonparametric speech synthesis
JP6137708B2 (en) Quantitative F0 pattern generation device, model learning device for F0 pattern generation, and computer program
JP6662801B2 (en) Command sequence estimation device, state sequence estimation model learning device, method thereof, and program
Hashimoto et al. Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011
Takaki et al. Contextual partial additive structure for HMM-based speech synthesis
Kameoka Probabilistic Modeling of Pitch Contours Toward Prosody Synthesis and Conversion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190625

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200219

R150 Certificate of patent or registration of utility model

Ref document number: 6665079

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150