JP2018097115A - Fundamental frequency model parameter estimation device, method, and program - Google Patents

Fundamental frequency model parameter estimation device, method, and program Download PDF

Info

Publication number
JP2018097115A
JP2018097115A JP2016240304A JP2016240304A JP2018097115A JP 2018097115 A JP2018097115 A JP 2018097115A JP 2016240304 A JP2016240304 A JP 2016240304A JP 2016240304 A JP2016240304 A JP 2016240304A JP 2018097115 A JP2018097115 A JP 2018097115A
Authority
JP
Japan
Prior art keywords
state
fundamental frequency
time
series
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016240304A
Other languages
Japanese (ja)
Other versions
JP6553584B2 (en
Inventor
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
薫 平松
Kaoru Hiramatsu
薫 平松
柏野 邦夫
Kunio Kashino
邦夫 柏野
遼太郎 佐藤
Ryotaro Sato
遼太郎 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016240304A priority Critical patent/JP6553584B2/en
Publication of JP2018097115A publication Critical patent/JP2018097115A/en
Application granted granted Critical
Publication of JP6553584B2 publication Critical patent/JP6553584B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To make it possible to accurately estimate a Fujisaki-model parameter.SOLUTION: A characteristic vector series extraction unit 1 is configured to extract an observation characteristic vector series from time-series data on a voice signal, and a fundamental frequency extraction unit 2 is configured to extract an observation fundamental frequency series from the time-series data on the voice signal. A vocal/voiceless segment estimation unit 3 is configured to estimate a degree of uncertainty of the fundamental frequency in each time k. A state series update unit 5 is configured to update a state series s, using a Viterbi algorithm with a logarithm concurrent probability log p(y,o,s) determined as an object function. A model parameter update unit 6 is configured to update a command function o and a parameter group θ, which are non-negative values, so as to increase the object function. A calculation by the state series update unit 5 and updating by the model parameter update unit 6 are repetitively conducted until a predetermined convergence condition is satisfied.SELECTED DRAWING: Figure 4

Description

本発明は、基本周波数モデルパラメータ推定装置、方法、及びプログラムに係り、特に、音声信号から、観測基本周波数系列のパラメータを推定する基本周波数モデルパラメータ推定装置、方法、及びプログラムに関する。   The present invention relates to a fundamental frequency model parameter estimation device, method, and program, and more particularly, to a fundamental frequency model parameter estimation device, method, and program for estimating parameters of an observed fundamental frequency sequence from a speech signal.

音声には言語情報以外にも様々な情報が含まれており、日常的なコミュニケーションに利用される。我々はこれらの非言語的な情報を工学的に扱う枠組みを構築することを目標として、非言語情報の解析・合成のための情報処理と信号処理の研究を進めている。   Voices contain various information in addition to language information and are used for daily communication. We are researching information processing and signal processing for analyzing and synthesizing non-linguistic information with the goal of constructing a framework for engineering these non-linguistic information.

音声の基本周波数(F0) 軌跡には、話者性、感情、意図などの非言語的な情報が豊富に含まれることが知られている。このため、F0 軌跡のモデル化は、音声合成、話者認識、感情認識、対話システムなど、韻律情報が重要な役割を担う応用において極めて有効である。F0 軌跡は、韻律句全体にわたってゆるやかに変化する成分(フレーズ成分) と、アクセントに従って急峻に変化する成分(アクセント成分) により構成される。これらの成分は、ヒトの甲状軟骨の並進運動と回転運動にそれぞれ対応していると解釈できるが、この解釈に基づき対数F0 軌跡をこれらの成分の和で表した数学的なモデル(以後、藤崎モデル)が提案されている(非特許文献1)。藤崎モデルは、フレーズ・アクセント指令の生起時刻、持続時間、各指令の大きさなどをパラメータとして有し、これらが適切に設定されたとき実測の軌跡を非常によく近似することが知られている。また、パラメータの言語学的対応の妥当性も広く確認されている。 It is known that the fundamental frequency (F 0 ) trajectory of speech contains abundant non-linguistic information such as speaker characteristics, emotions and intentions. For this reason, F 0 trajectory modeling is extremely effective in applications where prosodic information plays an important role, such as speech synthesis, speaker recognition, emotion recognition, and dialogue systems. The F 0 locus is composed of a component (phrase component) that changes gently over the entire prosodic phrase and a component (accent component) that changes sharply according to the accent. These components can be interpreted as corresponding to the translational motion and rotational motion of human thyroid cartilage, respectively, but based on this interpretation, a mathematical model that represents the logarithm F 0 trajectory as the sum of these components (hereinafter, Fujisaki model) has been proposed (Non-Patent Document 1). The Fujisaki model has parameters such as the occurrence time and duration of the phrase / accent command, the size of each command, etc., and when these parameters are set appropriately, it is known to approximate the measured trajectory very well. . In addition, the validity of the linguistic correspondence of parameters has been widely confirmed.

先述の藤崎モデルのパラメータは、韻律的特徴を効率よく表現できるため、実測のF0軌跡から藤崎モデルのパラメータを高速かつ高精度に推定することができれば有用である。しかしながら、この問題は元来不良設定問題であること、また藤崎モデルには言語学的な知見により守られるべき制約が存在することなどから、必ずしも容易ではなかった。これまで発明者らは、藤崎モデルをベースとしたF0 パターンの確率的生成過程をモデル化し、藤崎モデルの最尤パラメータをExpectation-Maximization(EM) アルゴリズムにより推定する手法を提案している(非特許文献2〜4)。 Since the parameters of the above-mentioned Fujisaki model can express prosodic features efficiently, it is useful if the parameters of the Fujisaki model can be estimated at high speed and with high accuracy from the measured F 0 trajectory. However, this problem was originally a failure setting problem, and the Fujisaki model was not always easy because there were restrictions that should be observed based on linguistic knowledge. Previously inventors model the stochastic process of generating F 0 pattern based Fujisaki model has been proposed a method of estimating the Expectation-Maximization (EM) algorithm the maximum likelihood parameters of Fujisaki model (Non Patent Documents 2 to 4).

H. Fujisaki, O. Fujimura, Ed., “A note on the physiological and physical basis for the phrase and accent components in the Voice fundamental frequency contour,” in Vocal Physiology: Voice Production, Mechanisms and Functions. New York, NY, USA: Raven, 1988.H. Fujisaki, O. Fujimura, Ed., “A note on the physiological and physical basis for the phrase and accent components in the Voice fundamental frequency contour,” in Vocal Physiology: Voice Production, Mechanisms and Functions.New York, NY, USA: Raven, 1988. H. Kameoka, J. L. Roux, and Y. Ohishi, “A statistical model of speech F0contours,” in Proc.SAPA, 2010, pp. 43−48.H. Kameoka, J. L. Roux, and Y. Ohishi, “A statistical model of speech F0contours,” in Proc. SAPA, 2010, pp. 43−48. K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, “Statistical approach to fujisaki-model parameter estimation from speech signals and its quantitative evaluation,” in Proc. Speech Prosody 2012, 2012, pp. 175−178.K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, “Statistical approach to fujisaki-model parameter estimation from speech signals and its quantitative evaluation,” in Proc. Speech Prosody 2012, 2012, pp. 175-178. K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, “Hidden Markov convolutive mixture model for pitch contour analysis of speech," in Proc. The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep. 2012.K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, “Hidden Markov convolutive mixture model for pitch contour analysis of speech,” in Proc. The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep . 2012.

藤崎モデルのアクセント指令は、日本語の場合アクセントの位置に対応する時刻で生起すると仮定されている。これは、アクセント指令の立ち上がり時刻と立ち下がり時刻は音節またはモーラの境界の時刻となる傾向にあることを意味する。従って、音節やモーラの境界では通常スペクトル特徴量の急激な変化を伴うため、アクセント指令が立ち上がる時刻でスペクトル特徴量の変化が大きくなりがちであるという仮定を導入することで、アクセント指令列の推定精度の向上が期待できる。   The Fujisaki model's accent command is assumed to occur at the time corresponding to the accent position in Japanese. This means that the rise time and fall time of the accent command tend to be the time of the syllable or mora boundary. Therefore, the estimation of the accent command sequence is assumed by introducing the assumption that the change of the spectral feature tends to become large at the time when the accent command rises, because the spectrum feature usually has a sudden change at the syllable or mora boundary. Improvement in accuracy can be expected.

本発明は、上記の事情を鑑みてなされたもので、精度よく、藤崎モデルのパラメータを推定することができる基本周波数モデルパラメータ推定装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above circumstances, and an object thereof is to provide a fundamental frequency model parameter estimation apparatus, method, and program capable of accurately estimating the parameters of the Fujisaki model.

上記の目的を達成するために本発明に係る基本周波数モデルパラメータ推定装置は、音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる状態系列sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアo[k]からなる指令関数oと、各時刻kにおける状態skに応じたフレーズ指令の状態出力分布のパラメータC(p)[k]及び各アクセント指令nの状態出力分布のパラメータCn (a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置であって、前記音声信号の時系列データから、前記音声信号の各時刻kの特徴ベクトルを表す観測特徴ベクトル系列vを抽出する特徴ベクトル系列抽出部と、前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列yを抽出する基本周波数抽出部と、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの程度を推定する有声無声区間推定部と、前記指令関数oの初期値を設定する初期値設定部と、前回更新された前記指令関数oまたは前記指令関数oの初期値に基づいて、前記観測基本周波数系列y、前記観測特徴ベクトル系列v、前記指令関数o、及び状態系列sの対数同時確率log p(y,v,o,s)を目的関数として、前記目的関数を増加させるように、前記状態系列sを更新する状態系列更新部と、前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新するモデルパラメータ更新部と、予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる収束判定部と、を含んで構成されている。 The fundamental frequency model parameter estimation apparatus according to the present invention in order to achieve the object of, as an input audio signal, the state sequence s made from the state s k at each time k in the hidden Markov model, the thyroid cartilage at each time k A command function o consisting of a pair o [k] of a phrase command u p [k] representing a fundamental frequency pattern generated by the translational motion of the centroid and an accent command u a [k] representing a fundamental frequency pattern generated by the rotational motion of the thyroid cartilage , The parameter C (p) [k] of the state output distribution of the phrase command corresponding to the state s k at each time k and the parameter group θ representing the parameter C n (a) of the state output distribution of each accent command n are estimated. A fundamental frequency model parameter estimation device that performs an observation feature vector representing a feature vector at each time k of the speech signal from time-series data of the speech signal. A feature vector sequence extracting unit for extracting a sequence v, a fundamental frequency extracting unit for extracting an observed fundamental frequency sequence y representing a fundamental frequency at each time k of the speech signal from the time series data of the speech signal, and the speech A voiced and unvoiced section estimation unit for estimating the degree of uncertainty of the fundamental frequency at each time k depending on whether the time series data of the signal is a voiced or unvoiced section, and an initial value of the command function o Based on the initial value setting unit that sets the command function o or the initial value of the command function o updated last time, the observation basic frequency series y, the observation feature vector series v, the command function o, and the state A state series update unit for updating the state series s so as to increase the objective function using a logarithmic simultaneous probability log p (y, v, o, s) of the series s as an objective function, and a previous update The command function o or the initial value of the command function o, the observed fundamental frequency sequence y, and the degree of uncertainty at each time k are each non-negative so as to increase the objective function. A model parameter update unit that updates the command function o and the parameter group θ, and a convergence determination that repeats the update by the state series update unit and the update by the model parameter update unit until a predetermined convergence condition is satisfied. Part.

本発明に係る基本周波数モデルパラメータ推定方法は、音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる状態系列sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアo[k]からなる指令関数oと、各時刻kにおける状態skに応じたフレーズ指令の状態出力分布のパラメータC(p)[k]及び各アクセント指令nの状態出力分布のパラメータCn (a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、特徴ベクトル系列抽出部が、前記音声信号の時系列データから、前記音声信号の各時刻kの特徴ベクトルを表す観測特徴ベクトル系列vを抽出し、基本周波数抽出部が、前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列yを抽出し、有声無声区間推定部が、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの程度を推定し、初期値設定部が、前記指令関数oの初期値を設定し、状態系列更新部が、前回更新された前記指令関数oまたは前記指令関数oの初期値に基づいて、前記観測基本周波数系列y、前記観測特徴ベクトル系列v、前記指令関数o、及び状態系列sの対数同時確率log p(y,v,o,s)を目的関数として、前記目的関数を増加させるように、前記状態系列sを更新し、モデルパラメータ更新部が、前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新し、収束判定部が、予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる。 Fundamental frequency model parameter estimation method according to the present invention, an input audio signal, the state sequence s made from the state s k at each time k in the hidden Markov model, the fundamental frequency caused by translation motion of thyroid cartilage at each time k A command function o composed of a pair o [k] of a phrase command u p [k] representing a pattern and an accent command u a [k] representing a fundamental frequency pattern generated by the rotational motion of the thyroid cartilage, and a state s k at each time k In the fundamental frequency model parameter estimation apparatus for estimating the parameter C (p) [k] of the state output distribution of the phrase command according to the parameter group and the parameter group θ representing the parameter C n (a) of the state output distribution of each accent command n A fundamental frequency model parameter estimation method, wherein a feature vector sequence extraction unit extracts the audio signal from time-series data of the audio signal. An observed feature vector sequence v representing a feature vector at each time k is extracted, and a fundamental frequency extraction unit obtains an observed fundamental frequency sequence y representing a fundamental frequency at each time k of the speech signal from the time series data of the speech signal. The voiced and unvoiced section estimation unit estimates the degree of uncertainty of the fundamental frequency at each time k according to whether the time series data of the voice signal is a voiced or unvoiced section. A value setting unit sets an initial value of the command function o, and a state series update unit, based on the command function o updated last time or the initial value of the command function o, the observation fundamental frequency sequence y, Using the observed feature vector series v, the command function o, and the logarithmic simultaneous probability log p (y, v, o, s) of the state series s as the objective function, the state series s is increased. A new model parameter update unit determines whether the objective function is based on the previously updated command function o or the initial value of the command function o, the observed fundamental frequency sequence y, and the degree of uncertainty at each time k. To update the command function o and the parameter group θ, each of which is a non-negative value, until the convergence determination unit satisfies a predetermined convergence condition, the update by the state series update unit, and Updates by the model parameter update unit are repeated.

本発明に係るプログラムは、上記の基本周波数モデルパラメータ推定装置の各部としてコンピュータを機能させるためのプログラムである。   A program according to the present invention is a program for causing a computer to function as each unit of the fundamental frequency model parameter estimation apparatus.

以上説明したように、本発明の基本周波数モデルパラメータ推定装置、方法、及びプログラムによれば、前記音声信号の時系列データから、前記音声信号の各時刻kの特徴ベクトルを表す観測特徴ベクトル系列vを抽出し、観測基本周波数系列y、観測特徴ベクトル系列v、指令関数o、及び状態系列sの対数同時確率log p(y,v,o,s)を目的関数として、状態系列sを更新し、各々非負値である指令関数o、及びパラメータ群θを更新することを繰り返すことにより、精度よく、藤崎モデルのパラメータを推定することができる、という効果が得られる。   As described above, according to the fundamental frequency model parameter estimation apparatus, method, and program of the present invention, the observed feature vector sequence v representing the feature vector at each time k of the speech signal from the time series data of the speech signal. And the state series s is updated using the observed fundamental frequency series y, the observation feature vector series v, the command function o, and the logarithmic simultaneous probability log p (y, v, o, s) of the state series s as an objective function. By repeatedly updating the non-negative command function o and the parameter group θ, it is possible to obtain the effect that the parameters of the Fujisaki model can be estimated with high accuracy.

藤崎モデルを説明するための図である。It is a figure for demonstrating the Fujisaki model. HMMを説明するための図である。It is a figure for demonstrating HMM. 状態の分割を説明するための図である。It is a figure for demonstrating the division | segmentation of a state. 本発明の実施の形態に係る基本周波数モデルパラメータ推定装置の構成を示す概略図である。It is the schematic which shows the structure of the fundamental frequency model parameter estimation apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the fundamental frequency model parameter estimation process routine in the fundamental frequency model parameter estimation apparatus which concerns on embodiment of this invention. 実験結果を示す図である。It is a figure which shows an experimental result. 実験結果を示す図である。It is a figure which shows an experimental result.

以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する手法では、観測F0パターンの再現性が高い藤崎モデルのパラメータ推定を実現するために、藤崎モデルをベースにしたF0パターン生成過程の確率モデルを定式化し、それに基づいて観測F0パターンが生じたと仮定する。藤崎モデルのパラメータ推定アルゴリズムも、この確率モデルに基づく。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the method proposed in the present invention, in order to realize parameter estimation of the Fujisaki model with high reproducibility of the observed F 0 pattern, a probability model of the F 0 pattern generation process based on the Fujisaki model is formulated and observed based on it. Assume that an F 0 pattern has occurred. The parameter estimation algorithm of the Fujisaki model is also based on this probability model.

<本発明の実施の形態の概要>
前記手法の中心的なアイデアは,フレーズ・アクセント指令列の生成プロセスを隠れマルコフモデル(HMM) により表現した点にある。そこで、アクセント指令の立ち上がり時刻と立ち下がり時刻に相当する状態において、アクセント指令の値だけでなくスペクトルの時間変動を表す特徴量(以後、デルタ特徴量)を同時に生成するように拡張する。この拡張により、基本周波数パターンだけでなくスペクトルのデルタ特徴量も手がかりにしてHMMの状態系列推定(フレーズ・アクセント指令推定)を行うことができる。
<Outline of Embodiment of the Present Invention>
The central idea of the above method is that the generation process of the phrase / accent command sequence is expressed by a hidden Markov model (HMM). Therefore, in a state corresponding to the rise time and fall time of the accent command, it is expanded so that not only the value of the accent command but also a feature amount (hereinafter referred to as a delta feature amount) representing a temporal variation of the spectrum is generated. With this extension, it is possible to perform HMM state sequence estimation (phrase / accent command estimation) using not only the fundamental frequency pattern but also the delta feature quantity of the spectrum as a clue.

<F0軌跡の確率モデル化>
非特許文献4に記載されているF0軌跡の確率モデル化について説明する。
<Probability modeling of F 0 trajectory>
The probability modeling of the F 0 locus described in Non-Patent Document 4 will be described.

図1に示すように、藤崎モデル(非特許文献1参照)は、対数F0軌跡y(t)を以下の3つの成分の和 As shown in FIG. 1, the Fujisaki model (see Non-Patent Document 1) uses a logarithm F 0 trajectory y (t) of the following three components:

で表すモデルである。ここで、tは時刻、xp(t)はフレーズ成分、xa(t)はアクセント成分、ub はベースライン成分と呼ぶ時間によらない定数である。さらにフレーズ成分、アクセント成分はそれぞれ、フレーズ指令、アクセント指令と呼ばれる信号の2次のフィルタの出力 It is a model represented by. Here, t is a time-dependent constant called x time (time), x p (t) is a phrase component, x a (t) is an accent component, and u b is a baseline component. Furthermore, the phrase component and accent component are output from the secondary filter of the signal called phrase command and accent command, respectively.







であると仮定される。ここでup(t)はフレーズ指令と呼ぶパルス列であり、ua(t)はアクセント指令と呼ばれる矩形パルス列である。これらのうち非ゼロの値をとるのは各時刻で高々1つである。α、βはそれぞれ2次フィルタの応答の速さを表す角周波数であり、個人や発話によらずおおよそα=3rad/s、β=20rad/s程度の値をとることが知られている。 It is assumed that Here, u p (t) is a pulse train called a phrase command, and u a (t) is a rectangular pulse train called an accent command. Of these, at most one takes a non-zero value at each time. α and β are angular frequencies representing the response speed of the secondary filter, respectively, and are known to take values of approximately α = 3 rad / s and β = 20 rad / s regardless of the individual or speech.

以下に、これまで発明者らが開発してきた藤崎モデルをベースにしたF0軌跡の生成過程の確率モデル(非特許文献4)について概説する。上述の藤崎モデルにおいて、フレーズ指令、アクセント指令はそれぞれデルタ列、矩形パルス列であり、さらにこれらは互いに重ならないという仮定が置かれる。非特許文献2〜4の手法の中心的なアイデアは、フレーズ・アクセント指令列の生成プロセスを隠れマルコフモデル(HMM)により表現した点にある。離散時刻のインデックスをkとし、フレーズ指令up[k]、アクセント指令ua[k]のペアを

とする。各状態の出力分布を正規分布とした場合、出力系列

The following outlines the stochastic model (Non-patent Document 4) of the F 0 locus generation process based on the Fujisaki model that has been developed by the inventors. In the above-mentioned Fujisaki model, the phrase command and the accent command are a delta train and a rectangular pulse train, respectively, and further, it is assumed that they do not overlap each other. The central idea of the methods of Non-Patent Documents 2 to 4 is that the generation process of the phrase / accent command sequence is expressed by a hidden Markov model (HMM). The discrete time index is k, and the phrase command u p [k] and accent command u a [k] are paired.

And When the output distribution of each state is a normal distribution, the output series

Is

に従う。ここでskは時刻k における状態を表す。すなわち、式(6)は平均

と分散

が状態遷移の結果として時間とともに変化することを意味する。HMM の利点は、状態遷移ネットワークの設計を通してモデル化したい系列に対して課すべき制約を柔軟に設けられる点にある。フレーズ指令、アクセント指令に対する先述の制約は例えば図2のような状態遷移ネットワークによって表現できる。加えて、それぞれの状態を同じ出力分布をもったいくつかの小状態に分割することで自己遷移の持続長をパラメータ化することもできる。
Follow. Here, s k represents the state at time k 1. That is, equation (6) is average

And distributed

Means that changes with time as a result of state transitions. The advantage of HMM is that you can flexibly set the constraints to be imposed on the sequence you want to model through the design of the state transition network. The above-mentioned restrictions on the phrase command and the accent command can be expressed by a state transition network as shown in FIG. In addition, the duration of self-transition can be parameterized by dividing each state into several small states with the same output distribution.

図2に、従来法におけるフレーズ・アクセント指令列の状態遷移モデルを示す(非特許文献2〜4参照)。状態r0ではμp[k]とμa[k] はいずれも0 となる。状態p0ではμp[k]は非負値C(p)[k]をとり、μa[k] は0 となる。状態r1では状態r0 と同様μp[k]とμa[k]はいずれも0 となる。従って状態r0 から状態p1を経由して状態r1に遷移する過程でμp[k]はパルス状の系列となる。状態r1 は状態a0,...,aN-1へのみ遷移することができ、これらの状態においてμa[k] はそれぞれ異なる値C(a) n をとり、μp[k] は0 となる。状態r1を経由せずに直接an からan′ (n≠n′)へ遷移することができないようにすることでμa[k] が矩形パルス列となるように制約することができる。 FIG. 2 shows a state transition model of the phrase / accent command sequence in the conventional method (see Non-Patent Documents 2 to 4). In state r 0 , μ p [k] and μ a [k] are both 0. In the state p 0 , μ p [k] takes a non-negative value C (p) [k], and μ a [k] becomes 0. In the state r 1 , both μ p [k] and μ a [k] are 0 as in the state r 0 . Therefore, μ p [k] becomes a pulse-like sequence in the process of transition from the state r 0 to the state r 1 via the state p 1 . State r 1 can only transition to states a 0 , ..., a N−1 , in which μ a [k] takes different values C (a) n and μ p [k] Becomes 0. Directly without passing through the state r 1 a n from a n '(n ≠ n' ) a μ by not able to transition to the [k] can be constrained to a rectangular pulse train.

次に、図3に状態an を小状態に分割した例を示す。例えばこの図3のように全てのm≠0に対してan,m からan,m+1への状態遷移確率を1 に設定することで、an,0からan,mへの遷移確率が状態an がm ステップだけ持続する確率に対応し、アクセント指令の持続長を柔軟に制御できるようになる。同様にp1 とp0 とa0 も小状態に分割することで、フレーズ指令の持続長と指令間の間隔の長さの分布をパラメータ化することが可能になる。こうした分割をふまえて、以後は改めて

と表記する。以上のHMM の構成は以下となる。
Next, an example of dividing the state a n a small state in FIG. For example, as shown in FIG. 3, by setting the state transition probability from a n, m to a n, m + 1 to 1 for all m ≠ 0 , the change from a n, 0 to a n, m transition probability corresponds to the probability that state a n lasts only m step, it becomes possible to flexibly control the persistence length of the accent command. Similarly, by dividing p 1 , p 0, and a 0 into small states, it becomes possible to parameterize the distribution of the duration of the phrase command and the length of the interval between commands. Based on these divisions, after that,

Is written. The configuration of the above HMM is as follows.

上記のHMMから出力された指令関数up[k]、ua[k]にそれぞれ異なるフィルタGp[k]とGa[k] が畳み込まれたものがフレーズ成分とアクセント成分 Phrase components and accent components are the convolution of different filters G p [k] and G a [k] into the command functions u p [k] and u a [k] output from the HMM.

となる。ただし、*は離散時間kに関する畳込みを表す。また、Gp[k]とGa[k]はそれぞれGp(t) とGa(t)を離散時間表現である。以上より、F0軌跡の離散時間表現x[k]は It becomes. However, * represents the convolution regarding discrete time k. G p [k] and G a [k] are discrete time representations of G p (t) and G a (t), respectively. From the above, the discrete time representation x [k] of the F 0 trajectory is

となる。ubはベースライン成分を表す。 It becomes. u b represents a baseline component.

無声区間においてはF0は観測されないことがあったり、観測されていたとしても信頼できない場合がある。また、F0抽出において推定誤りが生じる場合もある。そこで観測F0パターンy[k]を、上述のF0パターンモデルx[k]とノイズ

との和として表すことで、観測F0パターンの不確実性を分散v2 n[k]の設定を通して組み込むことができる。すなわち、観測F0パターンy[k]を
In the silent section, F 0 may not be observed, and even if it is observed, it may not be reliable. In addition, an estimation error may occur in F 0 extraction. Therefore, the observed F 0 pattern y [k], the above F 0 pattern model x [k] and noise

, The uncertainty of the observed F 0 pattern can be incorporated through the setting of the variance v 2 n [k]. That is, the observed F 0 pattern y [k]

と表現することで、信頼のおける区間かどうかに関わらず全ての観測区間を統一的に扱える。ここで、xn[k]を周辺化すると、

が与えられたもとでの

の条件つき確率密度関数

This means that all observation intervals can be handled uniformly regardless of whether they are reliable intervals. Here, if x n [k] is marginalized,

Under the given

Conditional probability density function of

Is

となる。式(6) より、状態系列

が与えられたもとでの

の条件つき確率密度関数



で与えられる。ここで、

は出力分布の平均と分散の系列を表す。状態系列

の確率分布

はHMMにおけるマルコフ性の仮定より、遷移確率の積

で与えられる。
It becomes. From Equation (6), the state series

Under the given

Conditional probability density function of

Is

Given in. here,

Represents the series of mean and variance of the output distribution. State series

Probability distribution

Is the product of transition probabilities based on the Markov assumption in HMM.

Given in.

<従来のパラメータ推定アルゴリズム>
非特許文献2、3では、観測F0 系列

が与えられたときの状態系列

の事後確率

を最大化する

をEM アルゴリズムにより探索するアルゴリズムが提案されており、非特許文献4では、観測F0系列

が与えられたときの状態出力系列

の事後確率



の各要素が非負値となるように最大化する

をEMアルゴリズムと補助関数法により探索するアルゴリズムが提案されている。また、観測F0系列

が与えられたときの状態出力系列

と状態系列

の同時事後確率

を最大化する



を、

を固定した上で

が最大となるように

を更新するステップと、

を固定した上で

が増大するように

を非負値制約下で更新するステップを反復することで探索することもできる。
<Conventional parameter estimation algorithm>
In Non-Patent Documents 2 and 3, the observed F 0 series

State sequence when given

Posterior probability of

Maximize

Has been proposed by using the EM algorithm. In Non-Patent Document 4, the observation F 0 sequence is proposed.

State output sequence when given

Posterior probability of

The

Maximize so that each element of is non-negative

An algorithm that searches for EM by EM algorithm and auxiliary function method has been proposed. Also observed F 0 series

State output sequence when given

And state series

Simultaneous posterior probability

Maximize

When

The

After fixing

To maximize

A step of updating

After fixing

To increase

It is also possible to search by repeating the step of updating under a non-negative constraint.

<提案するパラメータ推定アルゴリズム>
本発明の実施の形態で提案するアルゴリズムではF0パターン

に加え、スペクトル特徴べクトル系列

が観測データとなり、
<Proposed parameter estimation algorithm>
In the algorithm proposed in the embodiment of the present invention, the F 0 pattern

In addition to spectral feature vector series

Becomes observation data,

を前述のHMMの状態出力分布として新たに考慮する。スペクトル特徴量

としては例えばメル周波数ケプストラム係数(MFCC)や線スペクトル対(LSP)などの音素特徴量の時間変動であるデルタ特徴量の絶対値などを用いる。ただし、G0、G1はパラメータ

によって記述される任意の確率分布モデル(例えば混合正規分布モデル(Gaussian mixture model: GMM))を表すものとし、それぞれ音素境界と非音素境界の区間におけるスペクトル特徴量の確率分布として用いることを想定する。状態an,0と状態r1,0はそれぞれアクセント指令の開始と終了のタイミングを意味した状態であるため、上記は、アクセント指令の開始時刻および終了時刻においては

は音素境界におけるスペクトル特徴量分布G0に従い、それ以外に時刻では非音素境界におけるスペクトル特徴量分布G1に従うことを仮定していることに相当する。G0とG1のパラメータ

はあらかじめ、学習用音声データを強制音素アラインメントまたは音素セグメンテーションなどを用いて音素境界の区間と非音素境界の区間に分割し、それぞれの区間におけるスペクトル特徴量を用いて学習しておくものとする。提案する藤崎モデルパラメータ推定アルゴリズムの目的関数は、

である。
Is newly considered as the state output distribution of the HMM described above. Spectral feature

For example, an absolute value of a delta feature value that is a temporal variation of a phoneme feature value such as a mel frequency cepstrum coefficient (MFCC) or a line spectrum pair (LSP) is used. Where G 0 and G 1 are parameters

Represents a random probability distribution model described by (for example, Gaussian mixture model (GMM)), and is assumed to be used as a probability distribution of spectral features in phoneme boundary and non-phoneme boundary sections, respectively. . Since states a n, 0 and r 1,0 indicate the timing of the start and end of the accent command, respectively,

Corresponds to the assumption that it follows the spectral feature distribution G 0 at the phoneme boundary, and otherwise follows the spectral feature distribution G 1 at the non-phoneme boundary at the time. G 0 and G 1 parameters

In advance, learning speech data is divided into phoneme boundary sections and non-phoneme boundary sections using forced phoneme alignment or phoneme segmentation, and learning is performed using spectral feature amounts in the respective sections. The objective function of the proposed Fujisaki model parameter estimation algorithm is

It is.

ただし、

はそれぞれ式(11)、(13)、(6)で与えられる。また、

である。このとき、

を局所最大化する

は次のアルゴリズムにより探索することがきる。
However,

Are given by equations (11), (13), and (6), respectively. Also,

It is. At this time,

Maximize locally

Can be searched by the following algorithm.

(事前学習ステップ)
1. 学習用音声データを強制音素アラインメントまたは音素セグメンテーションなどを用いて音素境界の区間と非音素境界の区間に分割する。
2. 音素境界の区間と非音素境界の区間におけるスペクトル特徴量をそれぞれ用いてG0とG1のパラメータ

を学習する。
(Pre-learning step)
1. Divide learning speech data into phoneme boundary and non-phoneme boundary using forced phoneme alignment or phoneme segmentation.
2. Parameters of G 0 and G 1 using spectral features in phone boundary and non-phone boundary intervals, respectively.

To learn.

(Step 1:状態系列更新ステップ)
1. Viterbi アルゴリズムにより

が最大となるように

を更新する。
(Step 1: State series update step)
1. By Viterbi algorithm

To maximize

Update.

(Step 2:状態出力系列更新ステップ)
1.

が増大するように

を更新する。
(Step 2: State output series update step)
1.

To increase

Update.

<状態系列更新ステップ>
状態系列更新ステップは、

を固定した上で

が最大となるように

を更新するステップである。
<State series update step>
The state series update step

After fixing

To maximize

Is a step of updating.




に依存する項は

であるため、

を最大化する

を求める問題は、

を出力系列としたHMM の状態系列探索問題と同形である。従ってViterbiアルゴリズムを用いて解決することができる。

so

The term that depends on

Because

Maximize

The problem

Is the same form as the HMM state sequence search problem. Therefore, it can be solved using the Viterbi algorithm.

<状態出力系列更新ステップ>
状態出力系列更新ステップは、

を固定した上で

が最大となるように

を更新するステップである。
<Status output sequence update step>
The status output series update step

After fixing

To maximize

Is a step of updating.




に依存する項は

であり、



はそれぞれ

so

The term that depends on

And

When

Each

で与えられる。ただしGb[k]=δ[k](クロネッカーのデルタ)である。指令関数up[k]、ua[k] が非負であるという条件の下で

を最大化する

を直接求めるのは難しいが、補助関数法に基づく反復計算により局所的に最大化する

を探索することができる。補助関数法は最大化したい目的関数の下界となる関数を反復的に増加させていくことで目的関数を増加させる手法である。式(14) の下界となる関数は、Jensen の不等式
Given in. However, G b [k] = δ [k] (Kronecker delta). Under the condition that the command function u p [k], u a [k] is non-negative

Maximize

Is difficult to find directly, but is locally maximized by iterative calculation based on the auxiliary function method

Can be explored. The auxiliary function method is a method of increasing the objective function by repeatedly increasing the lower bound function of the objective function to be maximized. The lower bound of equation (14) is the Jensen inequality

が成り立つことを利用して設計することができる。ただし、

を補助変数と呼び、

を満たす。式(16) の等号成立条件は
It is possible to design using the fact that However,

Is called an auxiliary variable,

Meet. The condition for the equality in equation (16) is

である。 It is.

よって、 Therefore,

が成り立ち、右辺を補助関数

と呼ぶ。この補助関数をui[l]に関して偏微分すると、
And the right side is the auxiliary function

Call it. When this auxiliary function is partially differentiated with respect to u i [l],

となるため、これを0 と置くことで So if you set this to 0,

を得る。以上より、式(17)、式(20) を反復することで

を増加させることができる。
Get. From the above, by repeating Equation (17) and Equation (20)

Can be increased.

また、

を最大にするHMM の状態出力分布のパラメータ



に関する偏微分をそれぞれ0 と置くことで
Also,

HMM state output distribution parameter that maximizes

Is

By substituting 0 for each partial derivative

で与えられる。ただし、

はsk= anであるようなk の集合

を表し、

はその集合の要素数を表す。
Given in. However,

Is the set of k such that s k = a n

Represents

Represents the number of elements in the set.

<システム構成>
次に、観測された音声信号の時系列データを解析して、藤崎モデルのパラメータを推定する基本周波数モデルパラメータ推定装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
<System configuration>
Next, the embodiment of the present invention will be described with reference to an example in which the present invention is applied to a fundamental frequency model parameter estimation apparatus that analyzes time series data of an observed speech signal and estimates parameters of the Fujisaki model. explain.

図4に示すように、本発明の実施の形態に係る基本周波数モデルパラメータ推定装置100は、CPUと、RAMと、後述する基本周波数モデルパラメータ推定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。   As shown in FIG. 4, a fundamental frequency model parameter estimation apparatus 100 according to an embodiment of the present invention includes a CPU, a RAM, and a ROM that stores a program for executing a fundamental frequency model parameter estimation processing routine described later. And is functionally configured as follows.

図4に示すように、基本周波数モデルパラメータ推定装置100は、記憶部10と、事前学習部11と、特徴ベクトル系列抽出部1と、基本周波数系列抽出部2と、有声無声区間推定部3と、初期値設定部4と、状態系列更新部5と、モデルパラメータ更新部6と、収束判定部7と、出力部9とを備えている。   As shown in FIG. 4, the fundamental frequency model parameter estimation apparatus 100 includes a storage unit 10, a prior learning unit 11, a feature vector sequence extraction unit 1, a fundamental frequency sequence extraction unit 2, and a voiced and unvoiced section estimation unit 3. , An initial value setting unit 4, a state series update unit 5, a model parameter update unit 6, a convergence determination unit 7, and an output unit 9.

記憶部10は、観測された音声信号の時系列データ、及び学習用の音声信号の時系列データを記憶する。学習用の音声信号の時系列データでは、各時刻に対して、音素境界の区間であるか非音素境界の区間であるかを示すラベルが予め付与されている。   The storage unit 10 stores time series data of the observed voice signal and time series data of the learning voice signal. In the time-series data of the speech signal for learning, a label indicating whether it is a phoneme boundary section or a non-phoneme boundary section is assigned in advance to each time.

特徴ベクトル系列抽出部1は、記憶部10に記憶された学習用の音声信号の時系列データから、スペクトグラム特徴量ベクトル

の系列であるスペクトルグラム特徴ベクトル系列

を抽出する。
The feature vector series extraction unit 1 calculates a spectrogram feature quantity vector from the time series data of the speech signal for learning stored in the storage unit 10.

Spectralgram feature vector sequence that is a sequence of

To extract.

また、特徴ベクトル系列抽出部1は、記憶部10に記憶された、観測音声信号の時系列データから、スペクトグラム特徴量ベクトル

の系列

を抽出する。
In addition, the feature vector series extraction unit 1 calculates a spectrogram feature quantity vector from the time series data of the observed speech signal stored in the storage unit 10.

Series

To extract.

事前学習部11は、学習用の音声信号の時系列データから抽出されたスペクトルグラム特徴ベクトル

と、学習用の音声信号の時系列データに付与されたラベルとに基づいて、音素境界の区間と非音素境界の区間との各々におけるスペクトグラム特徴ベクトルの分布G0、G1のパラメータ

を学習する。
The pre-learning unit 11 extracts a spectrumgram feature vector extracted from time-series data of a speech signal for learning

And the parameters of the distributions G 0 and G 1 of the spectrogram feature vectors in each of the phoneme boundary section and the non-phoneme boundary section based on the labels given to the time-series data of the learning speech signal

To learn.

基本周波数系列抽出部2は、観測された音声信号の時系列データから、基本周波数の時系列データを抽出し、それらを離散時間kで表現するように変換して、音声信号の基本周波数の時系列データである観測基本周波数系列

とする。この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献5(H. Kameoka, "Statistical speech spectrum model incorporating all-pole vocal tract model and F0 contour generating process model," in Tech. Rep. IEICE, 2010, in Japanese.)に記載の手法を利用して、8msごとに基本周波数を抽出する。
The fundamental frequency series extraction unit 2 extracts time series data of the fundamental frequency from the observed time series data of the audio signal, converts the time series data so as to be expressed in the discrete time k, and outputs the time of the fundamental frequency of the audio signal. Observational fundamental frequency series that is series data

And This fundamental frequency extraction process can be realized by a well-known technique. For example, Non-Patent Document 5 (H. Kameoka, “Statistical speech spectrum model incorporating all-pole vocal tract model and F 0 contour generating process model,” in Tech. Rep. IEICE, 2010, in Japanese.) The fundamental frequency is extracted every 8 ms.

有声無声区間推定部3は、音声信号の時系列データから、有声区間と無声区間とを特定し、離散時間k毎に、有声区間であるか無声区間であるかに応じて、観測F0[k]値の不確かさの程度vn 2[k]を推定する。無声区間では不確かさの程度を大きく推定し、有声区間では不確かさの程度を小さく推定する。 The voiced / voiceless section estimation unit 3 identifies a voiced section and a voiceless section from the time-series data of the voice signal, and observes F 0 [ k] Estimate the degree of uncertainty v n 2 [k]. In the unvoiced section, the degree of uncertainty is estimated to be large, and in the voiced section, the degree of uncertainty is estimated to be small.

初期値設定部4は、後述する処理で用いる各パラメータである、アクセント指令の数N、ubを定数とみなし初期値を設定する。初期値として適当な値を設定する。また、初期値設定部4は、HMMの小状態の個数、遷移確率φi′,Iを、予め用意した正解データから学習して決定する。また、初期値設定部4は、従来既知の藤崎モデルのパラメータ推定法を用いて、

の初期値(非負値)を設定する。また、初期値設定部4は、C(p)[k]の初期値として、

のフレーズ指令関数の振幅を線形補間したものを設定し、Cn (a)の初期値として適切な値を設定する。
The initial value setting unit 4 are each a parameter used in the process described later, sets the number N, the initial value regarded as constant u b accent command. Set an appropriate value as the initial value. The initial value setting unit 4 determines the number of small states of the HMM and the transition probability φ i ′, I by learning from correct data prepared in advance. Further, the initial value setting unit 4 uses a conventionally known parameter estimation method of the Fujisaki model,

Set the initial value (non-negative value) of. Moreover, the initial value setting unit 4 uses the initial value of C (p) [k] as

Is set by linearly interpolating the amplitude of the phrase command function, and an appropriate value is set as the initial value of C n (a) .

本実施の形態では、藤崎モデルパラメータ



の局所最適解は、状態系列更新部5とモデルパラメータ更新部6の2つのステップを繰り返すことで得られる。
In this embodiment, Fujisaki model parameters

When

Is obtained by repeating the two steps of the state series update unit 5 and the model parameter update unit 6.

状態系列更新部5は、前回更新された指令関数

又は指令関数

の初期値と、学習された音素境界の区間と非音素境界の区間との各々における特徴ベクトルの分布のパラメータ

とに基づいて、観測基本周波数系列

、スペクトグラム特徴ベクトル系列

、指令関数

、及び状態系列

の対数同時確率

を目的関数として、前記目的関数を増加させるように、Viterbiアルゴリズムを用いて、状態系列

を更新する。具体的には、

が最大となるように、Viterbiアルゴリズムを用いて、状態系列

を更新する。
The state series update unit 5 is a command function updated last time.

Or command function

Parameters of feature vector distribution in each of the initial values of and the learned phoneme boundary sections and non-phoneme boundary sections

Based on the observed fundamental frequency series

, Spectogram feature vector series

, Command function

And state series

Logarithmic joint probability of

Using the Viterbi algorithm to increase the objective function with the objective function as

Update. In particular,

Using Viterbi algorithm to maximize the state sequence

Update.

ただし、

は、学習された音素境界の区間と非音素境界の区間との各々における特徴ベクトルの分布のパラメータ

を用いた上記式(13)で表わされ、状態系列

における、音素境界の区間に対応する状態では、音素境界の区間における特徴ベクトルの分布G0に従い、状態系列

における、非音素境界の区間に対応する状態では、非音素境界の区間における特徴ベクトルの分布G1に従うように、状態系列

が更新される。
However,

Is a parameter of the distribution of feature vectors in each of the learned phoneme boundary section and the non-phoneme boundary section

It is represented by the above formula (13) using

In the state corresponding to the phoneme boundary section, the state series according to the feature vector distribution G 0 in the phoneme boundary section

In the state corresponding to the section of the non-phoneme boundary, the state series follows the feature vector distribution G 1 in the section of the non-phoneme boundary.

Is updated.

モデルパラメータ更新部6は、前回更新された指令関数

または指令関数

の初期値、観測基本周波数系列

、および各時刻kにおける不確かさの程度vn 2[k]に基づいて、目的関数を増加させるように、補助関数法を用いて、各々非負値である指令関数

、及びパラメータ群

を更新する。
具体的には、モデルパラメータ更新部6は、補助変数更新部61、指令関数更新部62、収束判定部63、及び状態出力分布更新部64を備えている。
The model parameter update unit 6 uses the command function updated last time.

Or directive function

Initial value, observed fundamental frequency series

, And a non-negative command function using the auxiliary function method to increase the objective function based on the degree of uncertainty v n 2 [k] at each time k

And parameters

Update.
Specifically, the model parameter update unit 6 includes an auxiliary variable update unit 61, a command function update unit 62, a convergence determination unit 63, and a state output distribution update unit 64.

補助変数更新部61は、前回更新された各時刻kのフレーズ指令up[k](又は初期値)に基づいて、時刻k、l(l<k)の全ての組み合わせ(k、l)の各々について、上記の式(17)に従って、補助変数λp,k,lを算出して更新する。また、補助変数更新部61は、前回更新された各時刻kのアクセント指令ua[k](又は初期値)に基づいて、(k、l)の全ての組み合わせについて、上記の式(17)に従って、補助変数λa,k,lを算出して更新する。 The auxiliary variable updating unit 61 performs all combinations (k, l) of times k and l (l <k) based on the phrase command u p [k] (or initial value) at each time k updated last time. For each, the auxiliary variable λ p, k, l is calculated and updated according to equation (17) above. In addition, the auxiliary variable update unit 61 performs the above equation (17) for all combinations of (k, l) based on the accent command u a [k] (or initial value) at each time k updated last time. According to the above, the auxiliary variable λ a, k, l is calculated and updated.

また、補助変数更新部61は、ubに基づいて、(k、l)の全ての組み合わせについて、上記の式(17)に従って、補助変数λb,k,lを算出して更新する。 Further, the auxiliary variable updating unit 61 calculates and updates the auxiliary variable λ b, k, l according to the above equation (17) for all combinations of (k, l) based on u b .

指令関数更新部62は、基本周波数系列

と、不確かさの程度vn 2 [k]と、状態系列更新部5によって更新された状態系列

と、補助変数更新部61によって更新された補助変数λp,k,lとに基づいて、上記式(20)に従って、非負値である各時刻lのフレーズ指令up[l]を更新する。
The command function update unit 62 has a basic frequency sequence.

And the degree of uncertainty v n 2 [k] and the state series updated by the state series update unit 5

Based on the auxiliary variable λ p, k, l updated by the auxiliary variable updating unit 61, the phrase command u p [l] at each time l, which is a non-negative value, is updated according to the above equation (20).

また、指令関数更新部62は、基本周波数系列

と、不確かさの程度vn 2[k]と、状態系列更新部5によって更新された状態系列

と、補助変数更新部61によって更新された補助変数λa,k,lとに基づいて、上記式(20)に従って、非負値である各時刻lのアクセント指令ua[l]を更新する。
The command function update unit 62 also has a basic frequency sequence.

And the degree of uncertainty v n 2 [k] and the state series updated by the state series update unit 5

Based on the auxiliary variable λ a, k, l updated by the auxiliary variable updating unit 61, the accent command u a [l] at each time l, which is a non-negative value, is updated according to the above equation (20).

また、指令関数更新部62は、基本周波数系列

と、不確かさの程度vn 2 [k]と、補助変数更新部61によって更新された補助変数λb,k,lとに基づいて、上記式(20)に従って、ベース成分ubを更新する。
The command function update unit 62 also has a basic frequency sequence.

Then, based on the degree of uncertainty v n 2 [k] and the auxiliary variable λ b, k, l updated by the auxiliary variable updating unit 61, the base component u b is updated according to the above equation (20). .

収束判定部63は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、補助変数更新部61及び指令関数更新部62の各処理を繰り返す。収束判定部63は、収束条件を満足したと判定した場合には、状態出力分布更新部64による処理に移行する。   The convergence determination unit 63 determines whether or not a predetermined convergence condition is satisfied. If the convergence condition is not satisfied, each process of the auxiliary variable update unit 61 and the command function update unit 62 is repeated. If the convergence determination unit 63 determines that the convergence condition is satisfied, the convergence determination unit 63 proceeds to processing by the state output distribution update unit 64.

収束条件としては、繰り返し回数sが予め定めた回数S(例えば、20回)に達したことを用いればよい。なお、s-1回目のパラメータを用いたときの補助関数の値とs回目のパラメータを用いたときの補助関数の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。   As the convergence condition, it may be used that the number of repetitions s has reached a predetermined number of times S (for example, 20 times). Note that the convergence condition is that the difference between the value of the auxiliary function when the s-1th parameter is used and the value of the auxiliary function when the sth parameter is used is smaller than a predetermined threshold. It may be used as

状態出力分布更新部64は、指令関数更新部62によって更新された各時刻kのフレーズ指令up[k]に基づいて、上記式(21)に従って、各時刻kのフレーズ指令の状態出力分布のパラメータC(p)[k]を更新すると共に、指令関数更新部62によって更新された各時刻kのアクセント指令ua[k]と、状態系列更新部5によって更新された状態系列sとに基づいて、上記式(22)に従って、各アクセント指令nの状態出力分布のパラメータCn (a)を更新することにより、パラメータ群

を更新する。
Based on the phrase command u p [k] at each time k updated by the command function update unit 62, the state output distribution updating unit 64 performs the phrase command state output distribution at each time k according to the above equation (21). The parameter C (p) [k] is updated, and based on the accent command u a [k] at each time k updated by the command function update unit 62 and the state sequence s updated by the state sequence update unit 5. Then, by updating the parameter C n (a) of the state output distribution of each accent command n according to the above equation (22), the parameter group

Update.

収束判定部7は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、上記の更新値を改めて



に代入して、反復アルゴリズム(状態系列更新部5及びモデルパラメータ更新部6の各処理)を繰り返す。収束判定部7は、収束条件を満足したと判定した場合には、出力部9による処理に移行する。
The convergence determination unit 7 determines whether or not a predetermined convergence condition is satisfied. If the convergence condition is not satisfied, the update value is updated again.

When

And the iterative algorithm (each process of the state series update unit 5 and the model parameter update unit 6) is repeated. If the convergence determination unit 7 determines that the convergence condition is satisfied, the convergence determination unit 7 proceeds to processing by the output unit 9.

収束条件としては、繰り返し回数rが予め定めた回数R(例えば、20回)に達したことを用いればよい。なお、r-1回目のパラメータを用いたときの目的関数の値とr回目のパラメータを用いたときの目的関数の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。   As the convergence condition, it may be used that the number of repetitions r has reached a predetermined number R (for example, 20 times). Note that the convergence condition is that the difference between the value of the objective function when the r-1 parameter is used and the value of the objective function when the r parameter is used is smaller than a predetermined threshold. It may be used as

そして、出力部9により、指令関数

、パラメータ群

、状態系列

を出力する。
Then, the output function 9 causes the command function

, Parameters

, State series

Is output.

<基本周波数モデルパラメータ推定装置の作用>
次に、本実施の形態に係る基本周波数モデルパラメータ推定装置100の作用について説明する。まず、学習用の音声信号の時系列データが、基本周波数モデルパラメータ推定装置100に入力され、記憶部10に格納される。そして、基本周波数モデルパラメータ推定装置100において、記憶部10に記憶された学習用の音声信号の時系列データから、スペクトグラム特徴量ベクトル

の系列であるスペクトルグラム特徴ベクトル系列

が抽出され、音素境界の区間と非音素境界の区間との各々におけるスペクトグラム特徴ベクトルの分布G0、G1のパラメータ

が学習される。
<Operation of fundamental frequency model parameter estimation device>
Next, the operation of fundamental frequency model parameter estimation apparatus 100 according to the present embodiment will be described. First, time series data of a speech signal for learning is input to the fundamental frequency model parameter estimation apparatus 100 and stored in the storage unit 10. Then, in the fundamental frequency model parameter estimation apparatus 100, the spectrogram feature quantity vector is obtained from the time series data of the speech signal for learning stored in the storage unit 10.

Spectralgram feature vector sequence that is a sequence of

Are extracted, and the parameters of the distributions G 0 and G 1 of the spectrogram feature vectors in each of the phoneme boundary section and the non-phoneme boundary section are parameters.

Is learned.

そして、分析対象として、観測された音声信号の時系列データが、基本周波数モデルパラメータ推定装置100に入力され、記憶部10に格納される。そして、基本周波数モデルパラメータ推定装置100において、図5に示す基本周波数モデルパラメータ推定処理ルーチンが実行される。   Then, time series data of the observed speech signal is input to the fundamental frequency model parameter estimation device 100 as an analysis target and stored in the storage unit 10. Then, the fundamental frequency model parameter estimation apparatus 100 executes a fundamental frequency model parameter estimation processing routine shown in FIG.

まず、ステップS100において、記憶部10から、観測された音声信号の時系列データを読み込み、各時刻kのスペクトグラム特徴量ベクトル

からなるスペクトグラム特徴ベクトル系列

を抽出する。
First, in step S100, the time series data of the observed audio signal is read from the storage unit 10, and the spectrogram feature vector at each time k is read.

Spectogram feature vector series consisting of

To extract.

そして、ステップS101において、記憶部10から、観測された音声信号の時系列データを読み込み、各時刻kの基本周波数F0からなる基本周波数系列

を抽出する。ステップS102において、音声信号の時系列データに基づいて、有声区間、無声区間を特定し、各時刻kの基本周波数の不確かさの程度vn 2 [k]を推定する。
In step S101, time series data of the observed audio signal is read from the storage unit 10, and a basic frequency series including the basic frequency F 0 at each time k is read.

To extract. In step S102, voiced and unvoiced intervals are specified based on the time-series data of the audio signal, and the degree of uncertainty v n 2 [k] of the fundamental frequency at each time k is estimated.

次のステップS103では、各パラメータN、ubに対して適切な初期値を設定すると共に、HMMの小状態の個数、遷移確率φi′,Iを、予め用意した正解データから学習して決定する。また、従来手法により指令系列

を推定して、初期値として設定すると共に、C(p)[k]の初期値及びCn (a)の初期値を設定する。
In the next step S103, the parameters N, sets the appropriate initial value for u b, the number of the small state of the HMM, the transition probabilities phi i ', the I, by learning from the correct answer data prepared previously determined To do. In addition, the command sequence by the conventional method

Is estimated and set as an initial value, and an initial value of C (p) [k] and an initial value of C n (a) are set.

そして、ステップS104において、上記ステップS103で設定された指令系列

の初期値、または後述するステップS105で前回更新された指令系列

と、上記ステップS100で抽出されたスペクトグラム特徴ベクトル系列

と、事前学習により得られた、音素境界の区間と非音素境界の区間との各々におけるスペクトグラム特徴ベクトルの分布G0、G1のパラメータ

とに基づいて、

が最大となるように、Viterbiアルゴリズムを用いて、状態系列

を更新する。
In step S104, the command sequence set in step S103 is set.

Initial value or a command series updated last time in step S105 described later

And the spectrogram feature vector sequence extracted in step S100

And the parameters of the spectrogram feature vectors G 0 and G 1 in the phoneme boundary section and the non-phoneme boundary section obtained by the prior learning

And based on

Using Viterbi algorithm to maximize the state sequence

Update.

ステップS105では、上記ステップS103で設定された各時刻kのフレーズ指令up[k]の初期値、又は後述するステップS106で前回更新された各時刻kのフレーズ指令up[k]に基づいて、時刻k、l(l<k)の全ての組み合わせ(k、l)の各々について、上記の式(17)に従って、補助変数λp,k,lを算出して更新する。上記ステップS103で設定された各時刻kのアクセント指令ua[k]の初期値、又は後述するステップS106で前回更新された各時刻kのアクセント指令ua[k]に基づいて、(k、l)の全ての組み合わせについて、上記の式(17)に従って、補助変数λa,k,lを算出して更新する。また、上記ステップS103で設定されたubの初期値、又は後述するステップS106で前回更新されたubに基づいて、(k、l)の全ての組み合わせについて、上記の式(17)に従って、補助変数λb,k,lを算出して更新する。 In step S105, the initial value of the phrase command u p [k] at each time k set in the step S103, or in step S106, which will be described later, based on the phrase command u p [k] at each time k, which was last updated For each combination (k, l) of times k and l (l <k), the auxiliary variable λ p, k, l is calculated and updated according to the above equation (17). Based on the initial value of the accent command u a [k] at each time k set in step S103 or the accent command u a [k] at each time k updated last time in step S106 described later, (k, For all combinations of l), the auxiliary variable λ a, k, l is calculated and updated according to the above equation (17). The initial value of u b set in the step S103, or on the basis of a u b it was last updated in step S106 to be described later, for all combinations of (k, l), according to the above equation (17), The auxiliary variable λ b, k, l is calculated and updated.

次のステップS106では、上記ステップS101で算出された基本周波数系列

と、上記ステップS102で算出された各時刻kの不確かさの程度vn 2[k]と、上記ステップS104で更新された状態系列

と、上記ステップS105で更新された補助変数λp,k,l、λa,k,l、λb,k,lとに基づいて、上記式(20)に従って、非負値である各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]からなる指令系列

とベース成分ubとを更新する。
In the next step S106, the fundamental frequency sequence calculated in step S101 above.

And the degree of uncertainty v n 2 [k] calculated at step S102 and the state series updated at step S104

Based on the auxiliary variables λ p, k, l , λ a, k, l , λ b, k, l updated in step S105, each time l which is a non-negative value according to the above equation (20) Command sequence consisting of a phrase command u p [l] and an accent command u a [l]

To update the base component u b.

次のステップS107では、収束条件として、繰り返し回数sが、Sに到達したか否かを判定し、繰り返し回数sがSに到達していない場合には、収束条件を満足していないと判断して、上記ステップS105へ戻り、上記ステップS105〜ステップS106の処理を繰り返す。一方、繰り返し回数sがSに到達した場合には、収束条件を満足したと判断し、ステップS108で、上記ステップS106で更新された各時刻kのフレーズ指令up[k]に基づいて、上記式(21)に従って、各時刻kのフレーズ指令の状態出力分布のパラメータC(p)[k]を更新すると共に、上記ステップS106で更新された各時刻kのアクセント指令ua[k]と、上記ステップS104で更新された状態系列

とに基づいて、上記式(22)に従って、各アクセント指令nの状態出力分布のパラメータCn (a)を更新することにより、パラメータ群

を更新する。
In the next step S107, it is determined whether or not the number of repetitions s has reached S as the convergence condition. If the number of repetitions s has not reached S, it is determined that the convergence condition is not satisfied. Then, the process returns to step S105, and the processes of steps S105 to S106 are repeated. On the other hand, if the number of repetitions s reaches S is determined to have been satisfied convergence condition, in step S108, based on the phrase command u p at each time k updated in step S106 [k], the According to Equation (21), the parameter C (p) [k] of the phrase command state output distribution at each time k is updated, and the accent command u a [k] at each time k updated in step S106, State series updated in step S104

And updating the parameter C n (a) of the state output distribution of each accent command n according to the above equation (22), the parameter group

Update.

そして、ステップS109において、収束条件として、繰り返し回数rが、Rに到達したか否かを判定し、繰り返し回数rがRに到達していない場合には、収束条件を満足していないと判断して、上記ステップS104へ戻り、上記ステップS104〜ステップS108の処理を繰り返す。一方、繰り返し回数rがRに到達した場合には、収束条件を満足したと判断し出力部9により、指令関数

、パラメータ群

、状態系列

を出力して、基本周波数モデルパラメータ推定処理ルーチンを終了する。
In step S109, it is determined whether the number of repetitions r has reached R as the convergence condition. If the number of repetitions r has not reached R, it is determined that the convergence condition is not satisfied. Then, the process returns to step S104, and the processes of steps S104 to S108 are repeated. On the other hand, when the number of repetitions r reaches R, it is determined that the convergence condition is satisfied, and the output function 9

, Parameters

, State series

Is output and the fundamental frequency model parameter estimation processing routine is terminated.

<実験>
本発明の実施の形態で説明した提案法のパラメータ推定精度を検証するため、ATR デジタル音声データベースのセットB の音声データ(男性日本語話者一名(MHT)による503 文の読み上げ音声)を用いて評価実験を行った。
<Experiment>
In order to verify the parameter estimation accuracy of the proposed method described in the embodiment of the present invention, speech data of Set B of the ATR digital speech database (503 spoken speeches by one male Japanese speaker (MHT)) was used. An evaluation experiment was conducted.

フレーズ・アクセント指令の正解データは専門家により人手でラベリングされたものを用いた。音声データからのF0 軌跡の推定は既存手法を用いて行い、ベースライン周波数ubの値は各読み上げ文について有声区間におけるF0 の最小値の値とした。フレーズ・アクセントの各指令列の初期値は従来手法により得られた値に設定した。反復回数を20回とした。観測F0 パターンと推定したフレーズ・アクセント指令によって構成されるF0 パターンモデル

との間の有声区間における平均二乗誤差(RMSE)と、フレーズ・アクセント指令の脱落率と誤挿入率をパラメータ推定精度の評価指標とした。
The correct data for the phrase / accent command was manually labeled by an expert. Estimation of F 0 tracks from the audio data is carried out by using an existing method, the value of the baseline frequency u b is the value of the minimum value of F 0 in voiced segments for each reading sentence. The initial value of each phrase / accent command sequence was set to the value obtained by the conventional method. The number of iterations was 20 times. F 0 pattern model composed of observed F 0 patterns and estimated phrase / accent commands

The mean square error (RMSE) in the voiced interval between and the phrase / accent command dropout rate and error insertion rate were used as evaluation indices for parameter estimation accuracy.

図6、図7に各手法におけるRMSE と誤挿入・脱落率の結果を示す。従来法と比較し、提案法の全てのバリエーションにおいてRMSEの値は5% 程度改善した。また、誤挿入・脱落率については、スペクトル特徴量としてΔMFCC を用いた場合に最も著しい改善が見られ、エラーを3% 程度減らすことができた。   Figures 6 and 7 show the results of RMSE and erroneous insertion / dropout rates for each method. Compared with the conventional method, the RMSE value improved by about 5% in all variations of the proposed method. In addition, the error insertion / dropout rate improved most significantly when ΔMFCC was used as the spectral feature, and the error was reduced by about 3%.

以上説明したように、本発明の実施の形態に係る基本周波数モデルパラメータ推定装置によれば、音声信号の時系列データから、スペクトル特徴ベクトル系列を抽出し、観測基本周波数系列、スペクトル特徴ベクトル系列、指令関数、及び状態系列の対数同時確率

を目的関数として、状態系列を更新し、指令関数、及びパラメータ群を更新することを繰り返すことにより、精度よく、藤崎モデルのパラメータを推定することができる。
As described above, according to the fundamental frequency model parameter estimation device according to the embodiment of the present invention, the spectral feature vector sequence is extracted from the time series data of the speech signal, the observed fundamental frequency sequence, the spectral feature vector sequence, Logarithmic joint probability of command function and state series

Using the objective function as an objective function, it is possible to accurately estimate the parameters of the Fujisaki model by repeatedly updating the state series and updating the command function and the parameter group.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、上述の基本周波数モデルパラメータ推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   For example, the fundamental frequency model parameter estimation apparatus described above has a computer system inside, but if the “computer system” uses a WWW system, a homepage providing environment (or display environment) is also available. Shall be included.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

1 特徴ベクトル系列抽出部
2 基本周波数系列抽出部
3 有声無声区間推定部
4 初期値設定部
5 状態系列更新部
6 モデルパラメータ更新部
7 収束判定部
10 記憶部
11 事前学習部
61 補助変数更新部
62 指令関数更新部
63 収束判定部
64 状態出力分布更新部
100 基本周波数モデルパラメータ推定装置
DESCRIPTION OF SYMBOLS 1 Feature vector series extraction part 2 Fundamental frequency series extraction part 3 Voiced unvoiced area estimation part 4 Initial value setting part 5 State series update part 6 Model parameter update part 7 Convergence determination part 10 Storage part 11 Prior learning part 61 Auxiliary variable update part 62 Command function update unit 63 Convergence determination unit 64 State output distribution update unit 100 Fundamental frequency model parameter estimation device

Claims (7)

音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる状態系列sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアo[k]からなる指令関数oと、各時刻kにおける状態skに応じたフレーズ指令の状態出力分布のパラメータC(p)[k]及び各アクセント指令nの状態出力分布のパラメータCn (a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置であって、
前記音声信号の時系列データから、前記音声信号の各時刻kの特徴ベクトルを表す観測特徴ベクトル系列vを抽出する特徴ベクトル系列抽出部と、
前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列yを抽出する基本周波数抽出部と、
前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの程度を推定する有声無声区間推定部と、
前記指令関数oの初期値を設定する初期値設定部と、
前回更新された前記指令関数oまたは前記指令関数oの初期値に基づいて、前記観測基本周波数系列y、前記観測特徴ベクトル系列v、前記指令関数o、及び状態系列sの対数同時確率log p(y,v,o,s)を目的関数として、前記目的関数を増加させるように、前記状態系列sを更新する状態系列更新部と、
前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新するモデルパラメータ更新部と、
予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる収束判定部と、
を含む基本周波数モデルパラメータ推定装置。
An input audio signal, hiding the state sequence s made from the state s k at each time k in Markov models, phrase command u p representing the fundamental frequency pattern resulting from the translation movement of the thyroid cartilage at each time k [k] and thyroid A command function o composed of a pair o [k] of accent commands u a [k] representing a fundamental frequency pattern generated by the rotational motion of the cartilage, and a parameter C of the phrase command state output distribution according to the state s k at each time k (p) A fundamental frequency model parameter estimating apparatus for estimating [k] and a parameter group θ representing a parameter C n (a) of a state output distribution of each accent command n,
A feature vector sequence extraction unit that extracts an observation feature vector sequence v representing a feature vector at each time k of the audio signal from the time series data of the audio signal;
A fundamental frequency extraction unit for extracting an observed fundamental frequency sequence y representing a fundamental frequency at each time k of the speech signal from the time series data of the speech signal;
About the time-series data of the speech signal, a voiced / unvoiced section estimation unit that estimates the degree of uncertainty of the fundamental frequency at each time k, depending on whether it is a voiced section or an unvoiced section;
An initial value setting unit for setting an initial value of the command function o;
Based on the previously updated command function o or the initial value of the command function o, the logarithmic simultaneous probability log p (of the observed fundamental frequency sequence y, the observed feature vector sequence v, the command function o, and the state sequence s ( a state sequence update unit that updates the state sequence s so that the objective function is increased with y, v, o, s) as an objective function;
Based on the previously updated command function o or the initial value of the command function o, the observed fundamental frequency series y, and the degree of uncertainty at each time k, each non-negative value is increased. A model parameter update unit for updating the command function o and the parameter group θ,
A convergence determination unit that repeats the update by the state series update unit and the update by the model parameter update unit until a predetermined convergence condition is satisfied,
A fundamental frequency model parameter estimation apparatus including:
学習用の音声信号の時系列データから抽出される各時刻の特徴ベクトルに基づいて、音素境界の区間と非音素境界の区間との各々における特徴ベクトルの分布を学習する事前学習部を更に含み、
前記状態系列更新部は、
前回更新された前記指令関数oまたは前記指令関数oの初期値と、前記音素境界の区間と前記非音素境界の区間との各々における特徴ベクトルの分布とに基づいて、前記状態系列sにおける、前記音素境界の区間に対応する状態では、前記音素境界の区間における特徴ベクトルの分布に従い、前記状態系列sにおける、前記非音素境界の区間に対応する状態では、前記非音素境界の区間における特徴ベクトルの分布に従うように、前記状態系列sを更新する請求項1記載の基本周波数モデルパラメータ推定装置。
A pre-learning unit that learns the distribution of feature vectors in each of the phoneme boundary section and the non-phoneme boundary section based on the feature vector at each time extracted from the time-series data of the speech signal for learning;
The state series update unit
Based on the previously updated initial value of the command function o or the command function o and the distribution of feature vectors in each of the phoneme boundary section and the non-phoneme boundary section, the state series s In the state corresponding to the phoneme boundary section, according to the feature vector distribution in the phoneme boundary section, in the state sequence s in the state corresponding to the nonphoneme boundary section, the feature vector of the nonphoneme boundary section The fundamental frequency model parameter estimation apparatus according to claim 1, wherein the state series s is updated so as to follow a distribution.
前記状態系列更新部は、前回更新された前記指令関数oまたは前記指令関数oの初期値と、前記音素境界の区間と前記非音素境界の区間との各々における特徴ベクトルの分布とに基づいて、log p(v|s)+log p(o|s)+log p(s)を増加させるように、Viterbiアルゴリズムを用いて、前記状態系列sを更新する請求項2記載の基本周波数モデルパラメータ推定装置。   The state series update unit, based on the initial value of the command function o or the command function o updated last time, and the distribution of feature vectors in each of the phoneme boundary section and the non-phoneme boundary section, The fundamental frequency model parameter estimation apparatus according to claim 2, wherein the state sequence s is updated using a Viterbi algorithm so as to increase log p (v | s) + log p (o | s) + log p (s). 音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる状態系列sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアo[k]からなる指令関数oと、各時刻kにおける状態skに応じたフレーズ指令の状態出力分布のパラメータC(p)[k]及び各アクセント指令nの状態出力分布のパラメータCn (a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、
特徴ベクトル系列抽出部が、前記音声信号の時系列データから、前記音声信号の各時刻kの特徴ベクトルを表す観測特徴ベクトル系列vを抽出し、
基本周波数抽出部が、前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列yを抽出し、
有声無声区間推定部が、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの程度を推定し、
初期値設定部が、前記指令関数oの初期値を設定し、
状態系列更新部が、前回更新された前記指令関数oまたは前記指令関数oの初期値に基づいて、前記観測基本周波数系列y、前記観測特徴ベクトル系列v、前記指令関数o、及び状態系列sの対数同時確率log p(y,v,o,s)を目的関数として、前記目的関数を増加させるように、前記状態系列sを更新し、
モデルパラメータ更新部が、前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる
基本周波数モデルパラメータ推定方法。
An input audio signal, hiding the state sequence s made from the state s k at each time k in Markov models, phrase command u p representing the fundamental frequency pattern resulting from the translation movement of the thyroid cartilage at each time k [k] and thyroid A command function o composed of a pair o [k] of accent commands u a [k] representing a fundamental frequency pattern generated by the rotational motion of the cartilage, and a parameter C of the phrase command state output distribution according to the state s k at each time k (p) A fundamental frequency model parameter estimating method in a fundamental frequency model parameter estimating apparatus for estimating [k] and a parameter group θ representing a parameter C n (a) of a state output distribution of each accent command n,
A feature vector series extraction unit extracts an observed feature vector series v representing a feature vector at each time k of the voice signal from the time series data of the voice signal;
A fundamental frequency extraction unit extracts an observed fundamental frequency sequence y representing a fundamental frequency at each time k of the audio signal from the time series data of the audio signal;
The voiced and unvoiced section estimation unit estimates the degree of uncertainty of the fundamental frequency at each time k, depending on whether the time series data of the voice signal is a voiced or unvoiced section,
An initial value setting unit sets an initial value of the command function o,
Based on the command function o or the initial value of the command function o that was updated last time, the state series update unit updates the observation basic frequency series y, the observation feature vector series v, the command function o, and the state series s. Updating the state sequence s so as to increase the objective function with the logarithmic joint probability log p (y, v, o, s) as an objective function;
The model parameter updating unit increases the objective function based on the command function o updated last time or the initial value of the command function o, the observed fundamental frequency series y, and the degree of uncertainty at each time k. Updating the command function o and the parameter group θ, each of which is a non-negative value,
A fundamental frequency model parameter estimation method in which a convergence determination unit repeats the update by the state series update unit and the update by the model parameter update unit until a predetermined convergence condition is satisfied.
事前学習部が、学習用の音声信号の時系列データから抽出される各時刻の特徴ベクトルに基づいて、音素境界の区間と非音素境界の区間との各々における特徴ベクトルの分布を学習することを更に含み、
前記状態系列更新部が更新することでは、
前回更新された前記指令関数oまたは前記指令関数oの初期値と、前記音素境界の区間と前記非音素境界の区間との各々における特徴ベクトルの分布とに基づいて、前記状態系列sにおける、前記音素境界の区間に対応する状態では、前記音素境界の区間における特徴ベクトルの分布に従い、前記状態系列sにおける、前記非音素境界の区間に対応する状態では、前記非音素境界の区間における特徴ベクトルの分布に従うように、前記状態系列sを更新する請求項4記載の基本周波数モデルパラメータ推定方法。
The pre-learning unit learns the distribution of the feature vector in each of the phoneme boundary section and the non-phoneme boundary section based on the feature vector at each time extracted from the time series data of the speech signal for learning. In addition,
By updating the state series update unit,
Based on the previously updated initial value of the command function o or the command function o and the distribution of feature vectors in each of the phoneme boundary section and the non-phoneme boundary section, the state series s In the state corresponding to the phoneme boundary section, according to the feature vector distribution in the phoneme boundary section, in the state sequence s in the state corresponding to the nonphoneme boundary section, the feature vector of the nonphoneme boundary section 5. The fundamental frequency model parameter estimation method according to claim 4, wherein the state series s is updated so as to follow a distribution.
前記状態系列更新部が更新することでは、前回更新された前記指令関数oまたは前記指令関数oの初期値と、前記音素境界の区間と前記非音素境界の区間との各々における特徴ベクトルの分布とに基づいて、log p(v|s)+log p(o|s)+log p(s)を増加させるように、Viterbiアルゴリズムを用いて、前記状態系列sを更新する請求項5記載の基本周波数モデルパラメータ推定方法。   The state series update unit updates the command function o updated last time or the initial value of the command function o, the distribution of feature vectors in each of the phoneme boundary section and the non-phoneme boundary section, 6. The fundamental frequency model according to claim 5, wherein the state sequence s is updated using a Viterbi algorithm so as to increase log p (v | s) + log p (o | s) + log p (s) based on Parameter estimation method. 請求項1〜請求項3の何れか1項に記載の基本周波数モデルパラメータ推定装置の各部としてコンピュータを機能させるためのプログラム。   The program for functioning a computer as each part of the fundamental frequency model parameter estimation apparatus of any one of Claims 1-3.
JP2016240304A 2016-12-12 2016-12-12 Basic frequency model parameter estimation apparatus, method, and program Active JP6553584B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016240304A JP6553584B2 (en) 2016-12-12 2016-12-12 Basic frequency model parameter estimation apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016240304A JP6553584B2 (en) 2016-12-12 2016-12-12 Basic frequency model parameter estimation apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2018097115A true JP2018097115A (en) 2018-06-21
JP6553584B2 JP6553584B2 (en) 2019-07-31

Family

ID=62632381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016240304A Active JP6553584B2 (en) 2016-12-12 2016-12-12 Basic frequency model parameter estimation apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6553584B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379407A (en) * 2019-07-22 2019-10-25 出门问问(苏州)信息科技有限公司 Adaptive voice synthetic method, device, readable storage medium storing program for executing and calculating equipment
CN111899716A (en) * 2020-08-03 2020-11-06 北京帝派智能科技有限公司 Speech synthesis method and system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244689A (en) * 2001-02-22 2002-08-30 Rikogaku Shinkokai Synthesizing method for averaged voice and method for synthesizing arbitrary-speaker's voice from averaged voice
JP2003271186A (en) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> Voice analyzing method, device thereof, voice analysis program and recording medium thereof
JP2008292587A (en) * 2007-05-22 2008-12-04 Fujitsu Ltd Rhythm creating device, rhythm creating method and rhythm creating program
JP2014134730A (en) * 2013-01-11 2014-07-24 Nippon Telegr & Teleph Corp <Ntt> Fundamental frequency model parameter estimation device, method and program
JP2015049433A (en) * 2013-09-03 2015-03-16 日本電信電話株式会社 Sound signal analysis device, method, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244689A (en) * 2001-02-22 2002-08-30 Rikogaku Shinkokai Synthesizing method for averaged voice and method for synthesizing arbitrary-speaker's voice from averaged voice
JP2003271186A (en) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> Voice analyzing method, device thereof, voice analysis program and recording medium thereof
JP2008292587A (en) * 2007-05-22 2008-12-04 Fujitsu Ltd Rhythm creating device, rhythm creating method and rhythm creating program
JP2014134730A (en) * 2013-01-11 2014-07-24 Nippon Telegr & Teleph Corp <Ntt> Fundamental frequency model parameter estimation device, method and program
JP2015049433A (en) * 2013-09-03 2015-03-16 日本電信電話株式会社 Sound signal analysis device, method, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379407A (en) * 2019-07-22 2019-10-25 出门问问(苏州)信息科技有限公司 Adaptive voice synthetic method, device, readable storage medium storing program for executing and calculating equipment
CN111899716A (en) * 2020-08-03 2020-11-06 北京帝派智能科技有限公司 Speech synthesis method and system
CN111899716B (en) * 2020-08-03 2021-03-12 北京帝派智能科技有限公司 Speech synthesis method and system

Also Published As

Publication number Publication date
JP6553584B2 (en) 2019-07-31

Similar Documents

Publication Publication Date Title
US11423874B2 (en) Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product
JP6777768B2 (en) Word vectorization model learning device, word vectorization device, speech synthesizer, their methods, and programs
Zen et al. Reformulating the HMM as a trajectory model by imposing explicit relationships between static and dynamic feature vector sequences
Yoshimura Simultaneous modeling of phonetic and prosodic parameters, and characteristic conversion for HMM-based text-to-speech systems
CA3162378A1 (en) A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score
Shekofteh et al. Autoregressive modeling of speech trajectory transformed to the reconstructed phase space for ASR purposes
Das et al. Optimal prosodic feature extraction and classification in parametric excitation source information for Indian language identification using neural network based Q-learning algorithm
JP6553584B2 (en) Basic frequency model parameter estimation apparatus, method, and program
Das et al. Automatic Speech Recognition Using Probabilistic Transcriptions in Swahili, Amharic, and Dinka.
JP2015041081A (en) Quantitative f0 pattern generation device, quantitative f0 pattern generation method, model learning device for f0 pattern generation, and computer program
JP5885210B2 (en) Basic frequency model parameter estimation apparatus, method, and program
Manjunath et al. Improvement of phone recognition accuracy using articulatory features
JP6137477B2 (en) Basic frequency model parameter estimation apparatus, method, and program
JP6665079B2 (en) Fundamental frequency model parameter estimation device, method, and program
JP6468519B2 (en) Basic frequency pattern prediction apparatus, method, and program
Milne Improving the accuracy of forced alignment through model selection and dictionary restriction
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
Koriyama et al. Frame-level acoustic modeling based on Gaussian process regression for statistical nonparametric speech synthesis
Liu et al. Model-based parametric prosody synthesis with deep neural network
Hashimoto et al. Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011
JP6662801B2 (en) Command sequence estimation device, state sequence estimation model learning device, method thereof, and program
JP7469015B2 (en) Learning device, voice synthesis device and program
Ogbureke et al. Explicit duration modelling in HMM-based speech synthesis using continuous hidden Markov model
Sato et al. Fast algorithm for statistical phrase/accent command estimation based on generative model incorporating spectral features
Silén et al. Analysis of duration prediction accuracy in HMM-based speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190704

R150 Certificate of patent or registration of utility model

Ref document number: 6553584

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150