JP2018138972A - Instruction sequence estimating device, state sequence estimation model learning device, its method, and program - Google Patents

Instruction sequence estimating device, state sequence estimation model learning device, its method, and program Download PDF

Info

Publication number
JP2018138972A
JP2018138972A JP2017033606A JP2017033606A JP2018138972A JP 2018138972 A JP2018138972 A JP 2018138972A JP 2017033606 A JP2017033606 A JP 2017033606A JP 2017033606 A JP2017033606 A JP 2017033606A JP 2018138972 A JP2018138972 A JP 2018138972A
Authority
JP
Japan
Prior art keywords
state
model
estimation
sequence
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017033606A
Other languages
Japanese (ja)
Other versions
JP6662801B2 (en
Inventor
伸克 北条
Nobukatsu Hojo
伸克 北条
勇祐 井島
Yusuke Ijima
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017033606A priority Critical patent/JP6662801B2/en
Publication of JP2018138972A publication Critical patent/JP2018138972A/en
Application granted granted Critical
Publication of JP6662801B2 publication Critical patent/JP6662801B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an instruction sequence estimating device etc. which improves the estimation accuracy of the Fujisaki model instruction sequence estimation, by estimating the Fujisaki model instruction sequence from an observation Flocus and language feature quantity considering the language characteristic quantity.SOLUTION: The instruction sequence estimating device includes an instruction sequence estimating part to estimate the corresponding Fujisaki model instruction sequence by using a state sequence estimation model for an observation Flocus and the language feature quantity sequence corresponding to the observation Flocus as input, and the state sequence estimation model includes a state estimation DNN and a state prior distribution model, the state estimation DNN is a DNN which estimates the posterior probability of the corresponding HMM state number at each time from a language feature quantity, and the state prior distribution model is a model which keeps the value of the prior distribution about each HMM state.SELECTED DRAWING: Figure 2

Description

本発明は、音声の基本周波数パターンから基本周波数パターン生成過程モデルのパラメータを推定する信号処理技術に関する。   The present invention relates to a signal processing technique for estimating parameters of a fundamental frequency pattern generation process model from speech fundamental frequency patterns.

音声には言語情報以外にも様々な情報(以下、非言語情報ともいう)が含まれており、日常的なコミュニケーションに利用される。非言語情報を工学的に扱う枠組みを構築し、非言語情報を解析、合成するための情報処理と信号処理が研究されている。音声の基本周波数(以下、F0ともいう)軌跡には、話者性、感情、意図などの非言語情報が豊富に含まれることが知られている。このため、F0軌跡のモデル化は、音声合成、話者認識、感情認識、対話システムなど、韻律情報が重要な役割を担う応用において極めて有効である。F0軌跡は、韻律句全体にわたってゆるやかに変化する成分(フレーズ成分)と、アクセントに従って急峻に変化する成分(アクセント成分)により構成される。これらの成分は、ヒトの甲状軟骨の並進運動と回転運動にそれぞれ対応していると解釈できるが、この解釈に基づき対数F0軌跡をこれらの成分の和で表した数学的なモデル(以後、藤崎モデルともいう)が提案されている。藤崎モデルは、フレーズ指令、アクセント指令の生起時刻、持続時間、各指令の大きさなどをパラメータとして有し、これらが適切に設定されたとき実測のF0軌跡を非常によく近似することが知られている。また、パラメータの言語学的対応の妥当性も広く確認されている。先述の藤崎モデルのパラメータは、韻律的特徴を効率よく表現できるため、実測のF0軌跡から藤崎モデルのパラメータを高精度に推定することができれば有用である。これまで、藤崎モデルをベースとしたF0パターンの確率的生成過程がモデル化されており、藤崎モデルの最尤パラメータをExpectation-Maximization(EM)アルゴリズム(非特許文献1−3参照)、補助関数法(非特許文献4参照)によりそれぞれ推定する手法が提案されている。従来技術の指令列推定装置90は、推定したパラメータを用いて観測F0軌跡から、対応する藤崎モデル指令列を推定し、推定藤崎モデル指令列として出力する(図1参照)。 In addition to linguistic information, various information (hereinafter also referred to as non-linguistic information) is included in speech and is used for daily communication. Information processing and signal processing for analyzing and synthesizing non-linguistic information have been studied by building a framework for engineering non-linguistic information. It is known that the trajectory of the fundamental frequency (hereinafter also referred to as F 0 ) of speech contains abundant non-linguistic information such as speaker characteristics, emotions, and intentions. For this reason, F 0 trajectory modeling is extremely effective in applications where prosodic information plays an important role, such as speech synthesis, speaker recognition, emotion recognition, and dialogue systems. The F 0 locus is composed of a component (phrase component) that changes gently over the entire prosodic phrase and a component (accent component) that changes sharply according to the accent. These components can be interpreted as corresponding to the translational motion and rotational motion of human thyroid cartilage, respectively, but based on this interpretation, a mathematical model that represents the logarithm F 0 trajectory as the sum of these components (hereinafter, (Also called the Fujisaki model) has been proposed. The Fujisaki model has parameters such as the occurrence time and duration of phrase commands and accent commands, and the size of each command, and is known to approximate the measured F 0 trajectory very well when these parameters are set appropriately. It has been. In addition, the validity of the linguistic correspondence of parameters has been widely confirmed. Since the parameters of the above-mentioned Fujisaki model can express prosodic features efficiently, it is useful if the parameters of the Fujisaki model can be estimated with high accuracy from the measured F 0 trajectory. Until now, the stochastic generation process of the F 0 pattern based on the Fujisaki model has been modeled, and the maximum likelihood parameter of the Fujisaki model is expressed by the Expectation-Maximization (EM) algorithm (see Non-Patent Documents 1-3) and auxiliary functions. Methods have been proposed for estimation using the method (see Non-Patent Document 4). The command sequence estimation device 90 of the prior art estimates the corresponding Fujisaki model command sequence from the observed F 0 trajectory using the estimated parameters, and outputs it as an estimated Fujisaki model command sequence (see FIG. 1).

H. Kameoka, J. L. Roux, and Y. Ohishi, "A statistical imodel of speech F0 contours", in Proc. SAPA,2010, pp. 43-48.H. Kameoka, J. L. Roux, and Y. Ohishi, "A statistical imodel of speech F0 contours", in Proc.SAPA, 2010, pp. 43-48. K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, "Statistical approach to fujisaki-model parameter estimation from speech signals and its quantitative evaluation", in Proc. Speech Prosody 2012, 2012, pp. 175-178.K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, "Statistical approach to fujisaki-model parameter estimation from speech signals and its quantitative evaluation", in Proc. Speech Prosody 2012, 2012, pp. 175-178. K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, "Hidden Markov convolutive mixture model for pitch contour analysis of speech", in Proc. The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep. 2012.K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, "Hidden Markov convolutive mixture model for pitch contour analysis of speech", in Proc. The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep . 2012. 佐藤遼太郎,亀岡弘和,柏野邦夫,「基本周波数パターンと音韻特徴量系列の同時生成モデルによる韻律指令列推定」,研究報告音声言語情報処理(SLP),2016,pp.1-6.Ryotaro Sato, Hirokazu Kameoka, Kunio Kanno, “Prosody Prosody Sequence Estimation by Simultaneous Generation Model of Fundamental Frequency Pattern and Phoneme Feature Sequence”, Research Report Spoken Language Information Processing (SLP), 2016, pp.1-6.

藤崎モデル指令列は、言語特徴量(音素、アクセント型など)と対応づけられる情報であることが確認されている。例えば、フレーズ句の先頭時刻付近では、フレーズ指令が立ちやすいという傾向がある。また、アクセント核付近では、アクセント指令が立ちやすいという傾向がある。そこで、観測F0軌跡から藤崎モデル指令列を推定するとき、観測F0軌跡に対応する言語特徴量が得られる場合、藤崎モデル指令列推定の精度を向上させるために、言語特徴量が有効な手がかりとなり得る。 It has been confirmed that the Fujisaki model command sequence is information associated with language feature quantities (phonemes, accent types, etc.). For example, there is a tendency that a phrase command is likely to stand near the start time of a phrase phrase. Also, there is a tendency that an accent command is likely to stand near the accent nucleus. Therefore, when estimating the Fujisaki model command sequence from the observation F 0 locus, if the language feature amount corresponding to the observation F 0 locus is obtained, in order to improve the accuracy of Fujisaki model command sequence estimation, language feature value is valid It can be a clue.

しかしながら、従来手法(非特許文献1−4参照)は、観測F0軌跡のみから藤崎モデル指令列を推定しようというものであり、言語特徴量は考慮されない。 However, the conventional method (see Non-Patent Documents 1-4) is to estimate the Fujisaki model command sequence only from the observed F 0 trajectory, and does not consider the language feature.

本発明は、言語特徴量を考慮し、観測F0軌跡と言語特徴量とから藤崎モデル指令列を推定することで、藤崎モデル指令列推定の推定精度を向上させる指令列推定装置、その指令列推定装置において用いられる状態系列推定モデルを学習する状態系列推定モデル学習装置、その方法、及びプログラムを提供することを目的とする。 The present invention considers a language feature amount and estimates a Fujisaki model command sequence from the observed F 0 trajectory and the language feature amount, thereby improving the estimation accuracy of the Fujisaki model command sequence estimation, and the command sequence An object of the present invention is to provide a state sequence estimation model learning device, a method, and a program for learning a state sequence estimation model used in the estimation device.

上記の課題を解決するために、本発明の一態様によれば、指令列推定装置は、観測F0軌跡と、その観測F0軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定部を含み、 状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである。 In order to solve the above-described problem, according to one aspect of the present invention, the command sequence estimation device receives an observation F 0 trajectory and a language feature amount sequence corresponding to the observation F 0 trajectory as input, and state sequence estimation It includes a command sequence estimator that estimates the corresponding Fujisaki model command sequence using the model, the state sequence estimation model includes the state estimation DNN and the state prior distribution model, and the state estimation DNN corresponds to each time from the language feature This is a DNN that estimates the posterior probability of the HMM state number, and the state prior distribution model is a model that holds the value of the prior distribution for each HMM state.

上記の課題を解決するために、本発明の他の態様によれば、指令列推定装置が実行する指令列推定方法は、観測F0軌跡と、その観測F0軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定ステップを含み、状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである。 In order to solve the above-described problem, according to another aspect of the present invention, a command sequence estimation method executed by a command sequence estimation apparatus includes an observation F 0 trajectory and a language feature amount sequence corresponding to the observation F 0 trajectory. And a command sequence estimation step for estimating the corresponding Fujisaki model command sequence using the state sequence estimation model. The state sequence estimation model includes a state estimation DNN and a state prior distribution model, and the state estimation DNN is a language. The DNN estimates the posterior probability of the corresponding HMM state number at each time from the feature quantity, and the state prior distribution model is a model that holds the value of the prior distribution for each HMM state.

本発明によれば、藤崎モデル指令列推定の推定精度を向上させることができるという効果を奏する。   According to the present invention, it is possible to improve the estimation accuracy of the Fujisaki model command sequence estimation.

従来技術に係る指令列推定装置の機能ブロック図。The functional block diagram of the command sequence estimation apparatus which concerns on a prior art. 第一実施形態に係る指令列推定装置の機能ブロック図。The functional block diagram of the command sequence estimation apparatus which concerns on 1st embodiment. 第一実施形態に係る指令列推定装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the command sequence estimation apparatus which concerns on 1st embodiment. 藤崎モデルの対数F0軌跡とフレーズ成分、アクセント成分との関係を示す図。Log F 0 locus and phrase component of Fujisaki model diagram showing the relationship between the accent component. フレーズ指令、アクセント指令に対する制約を表現する状態遷移ネットワークを示す図。The figure which shows the state transition network expressing the restrictions with respect to a phrase command and an accent command. HMMの状態を分割した例を示す図。The figure which shows the example which divided | segmented the state of HMM. 第一実施形態に係る状態系列推定モデル学習装置の機能ブロック図。The functional block diagram of the state series estimation model learning apparatus which concerns on 1st embodiment. 第一実施形態に係る状態系列推定モデル学習装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the state series estimation model learning apparatus which concerns on 1st embodiment. 第一実施形態に係る状態系列推定モデル学習装置の機能ブロック図。The functional block diagram of the state series estimation model learning apparatus which concerns on 1st embodiment. 第二実施形態に係る状態系列推定モデル学習装置の処理フローの例を示す図。The figure which shows the example of the processing flow of the state series estimation model learning apparatus which concerns on 2nd embodiment.

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。   Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. In the following description, it is assumed that processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.

<第一実施形態のポイント>
本実施形態では、言語情報(言語特徴量)を活用し、F0軌跡の生成モデルを定式化する。これにより、観測F0軌跡と言語特徴量を活用し、藤崎モデル指令列の推定を行うことができる。観測F0軌跡のみでなく、言語特徴量を考慮することで、より精度の高い藤崎モデル指令列推定を可能とする。
<Points of first embodiment>
In the present embodiment, the F 0 trajectory generation model is formulated using language information (language feature amount). Thereby, the Fujisaki model command sequence can be estimated using the observed F 0 trajectory and the language feature. By considering not only the observed F 0 trajectory but also the linguistic feature quantity, it is possible to estimate the Fujisaki model command sequence with higher accuracy.

従来研究におけるF0パターン生成過程の確率モデルに、新たにHMM状態から言語特徴量系列の生成過程のモデルを追加し、一体モデル化する。HMM状態から言語特徴量系列の生成過程のモデルとして、各時刻で言語特徴量系列を入力、HMM状態番号の事後確率を出力とするDNNを使用する。以上の定式化から、観測F0軌跡のみでなく、言語特徴量も考慮した藤崎モデル指令列推定が可能となると同時に、従来研究(非特許文献4参照)と同様に、Viterbiアルゴリズムと補助関数法を利用したパラメータ推定アルゴリズムを導出することができる。結果、藤崎モデル指令列の推定精度が向上する。 A new model of linguistic feature series generation process from HMM state is newly added to the probability model of F 0 pattern generation process in the previous research, and integrated modeling is performed. As a model for the generation process of a language feature quantity sequence from an HMM state, a DNN is used in which a language feature quantity sequence is input at each time and a posterior probability of an HMM state number is output. From the above formulation, it is possible to estimate the Fujisaki model command sequence considering not only the observed F 0 trajectory but also the linguistic features, and at the same time, as in the previous study (see Non-Patent Document 4), the Viterbi algorithm and auxiliary function method The parameter estimation algorithm using can be derived. As a result, the estimation accuracy of the Fujisaki model command sequence is improved.

<第一実施形態に係る指令列推定装置110>
図2は本実施形態に係る指令列推定装置110の機能ブロック図を、図3はその処理フローの例を示す。
<Command Sequence Estimation Device 110 According to the First Embodiment>
FIG. 2 is a functional block diagram of the command sequence estimation apparatus 110 according to the present embodiment, and FIG. 3 shows an example of the processing flow.

指令列推定装置110は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。   The command sequence estimation device 110 is configured by a computer including a CPU, a RAM, and a ROM that stores a program for executing the following processing, and is functionally configured as follows.

指令列推定装置110は、指令列推定部111を含む。   Command sequence estimation apparatus 110 includes a command sequence estimation unit 111.

指令列推定部111を説明する前にまず用語の説明を行う。   Before describing the command sequence estimation unit 111, terms are first described.

(用いる用語の説明)
観測F0軌跡:F0とは、声の高さ(ピッチ)に対応する、各フレームに対し実数で表現される情報である。入力された音声のフレーム数をKとしたとき、y=(y[0],y[1],…,y[K-1])で表記する。例えば、入力音声波形に対し、信号処理を施すことにより獲得する。
推定フレーズ指令列:指令列推定により出力される、藤崎モデルのフレーズ指令列の推定結果である。up[0],up[1],…,up[K-1]で表現する。
推定アクセント指令列:指令列推定により出力される、藤崎モデルのフレーズ指令列の推定結果である。ua[0],ua[1],…,ua[K-1]で表現する。
推定藤崎モデル指令列:指令列推定により出力される、藤崎モデル指令列の推定結果である。推定フレーズ指令列、推定アクセント指令列からなる。ui=(ui[0],ui[1],…,,ui[K-1])(i=p,a)で表現する。
言語特徴量系列:観測F0軌跡に対応する、発音等の情報。音素情報とアクセント情報を含む。各音素の開始時間、終了時間の情報が保存されている。これ以外にも、品詞情報や統語構造の情報を含んでいてもよい。w=(w[0],w[1],…,w[K-1])で表現する。
言語特徴量データ:複数の発話について、それぞれの言語特徴量系列を保持したもの。データ中の発話数をNとしたとき、{w0,w1,…,wN-1}で表現する。
HMM状態系列:言語特徴量系列に対応する発話について、各時刻の藤崎モデル状態の状態番号の系列である。フレーム数をKとしたとき、s=(s[0],s[1],…,s[K-1])で表現する。ここで、HMMの全状態数をIとし、s[k]=i(i=0,1,…,I-1)とする。
HMM状態データ:言語特徴量データに対応する複数の発話について、それぞれの各時刻の藤崎モデル状態の状態番号を保持したもの。データ中の発話数をNとしたとき、{s0,s1,…,sN-1}で表現する。
状態系列推定モデル:状態推定DNNと、状態事前分布モデルからなる。
状態推定DNN:言語特徴量から、各時刻で対応するHMM状態番号の事後確率を推定するDNNである。事後確率p(s[k]|w[k])のモデル化に使用する。
状態事前分布モデル:各HMM状態s=0,1,…,I-1について、その事前分布p(s)の値を保持したモデルである。p(s[k])のモデル化に使用する。
(Explanation of terms used)
Observation F 0 locus: F 0 is information represented by a real number for each frame corresponding to the pitch (pitch) of the voice. When the number of frames of input speech is K, it is expressed as y = (y [0], y [1],..., Y [K-1]). For example, it is obtained by performing signal processing on the input speech waveform.
Estimated phrase command sequence: This is an estimation result of the phrase command sequence of the Fujisaki model output by command sequence estimation. u p [0], u p [1], ..., u p [K-1].
Estimated accent command sequence: an estimation result of the phrase command sequence of the Fujisaki model that is output by command sequence estimation. u a [0] , u a [1], ..., u a [K-1].
Estimated Fujisaki model command sequence: an estimation result of the Fujisaki model command sequence output by command sequence estimation. It consists of an estimated phrase command sequence and an estimated accent command sequence. u i = (u i [0], u i [1],... , u i [K−1]) (i = p, a).
Language feature series: Information such as pronunciation corresponding to the observed F 0 trajectory. Includes phoneme information and accent information. Information on the start time and end time of each phoneme is stored. In addition to this, part of speech information and syntactic structure information may be included. w = (w [0], w [1], ..., w [K-1]).
Language feature value data: Data that holds each language feature value series for a plurality of utterances. When the number of utterances in the data is N, it is expressed as {w 0 , w 1 ,..., W N−1 }.
HMM state series: A series of state numbers of the Fujisaki model state at each time for an utterance corresponding to a language feature quantity series. When the number of frames is K, it is expressed as s = (s [0], s [1], ..., s [K-1]). Here, the total number of states of the HMM is I, and s [k] = i (i = 0, 1,..., I-1).
HMM state data: The state number of the Fujisaki model state at each time is stored for a plurality of utterances corresponding to language feature data. When the number of utterances in the data is N, it is expressed as {s 0 , s 1 ,..., S N−1 }.
State series estimation model: It consists of a state estimation DNN and a state prior distribution model.
State estimation DNN: DNN for estimating the posterior probability of the corresponding HMM state number at each time from the language feature. Used to model the posterior probability p (s [k] | w [k]).
State prior distribution model: A model in which the value of the prior distribution p (s) is held for each HMM state s = 0, 1,..., I-1. Used to model p (s [k]).

以下、指令列推定部111の処理内容について説明する。   Hereinafter, the processing content of the command sequence estimation unit 111 will be described.

<指令列推定部111>
指令列推定部111は、藤崎モデル指令列の推定に先立ち、状態系列推定モデルを受け取る。指令列推定部111は、観測F0軌跡yと言語特徴量系列wとを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定し(S111)、推定結果を推定藤崎モデル指令列uiとして出力する。
<Command sequence estimation unit 111>
The command sequence estimation unit 111 receives the state series estimation model prior to the estimation of the Fujisaki model command sequence. The command sequence estimation unit 111 receives the observation F 0 trajectory y and the language feature amount sequence w as inputs, estimates a corresponding Fujisaki model command sequence using the state sequence estimation model (S111), and estimates the estimation result as an estimated Fujisaki model Output as command sequence u i .

(F0軌跡の確率モデル化(非特許文献1−4参照))
まずは、本実施形態で使用するF0軌跡の確率モデルを定式化する。藤崎モデルは、対数F0軌跡y(t)を以下の3つの成分の和
(Probability modeling of F 0 trajectory (see Non-Patent Documents 1-4))
First, the probability model of the F 0 trajectory used in this embodiment is formulated. The Fujisaki model uses the logarithm F 0 trajectory y (t) as the sum of the following three components:

Figure 2018138972
Figure 2018138972

で表すモデルである。ここで、tは時刻、xp(t)はフレーズ成分、xa(t)はアクセント成分であり、xbはベースライン成分と呼ぶ時間に依らない定数である。図4は藤崎モデルの対数F0軌跡y(t)とフレーズ成分xp(t)、アクセント成分xa(t)との関係を示す。さらに、フレーズ成分xp(t)、アクセント成分xa(t)はそれぞれ、フレーズ指令up(t)、アクセント指令ua(t)と呼ばれる信号の2次のフィルタGp(t),Ga(t)の出力 It is a model represented by. Here, t is a time, x p (t) is a phrase component, x a (t) is an accent component, and x b is a time-independent constant called a baseline component. FIG. 4 shows the relationship between the logarithmic F 0 trajectory y (t) of the Fujisaki model, the phrase component x p (t), and the accent component x a (t). Furthermore, the phrase component x p (t) and the accent component x a (t) are the second-order filters G p (t) and G of the signal called the phrase command u p (t) and the accent command u a (t), respectively. a (t) output

Figure 2018138972
Figure 2018138972

であると仮定される。ここで、フレーズ指令up(t)はパルス列であり、アクセント指令ua(t)は矩形パルス列である(図4参照)。例えば、フレーズ指令up(t)はパルス列の開始時刻と振幅を示す情報とにより表現し、アクセント指令ua(t)は矩形パルス列の開示時刻と終了時刻(または持続時間)と振幅を示す情報とにより表現してもよい。これらフレーズ指令up(t),アクセント指令ua(t)のうち、非ゼロの値を取るのは各時刻で高々一つである。α,βはそれぞれ二次フィルタの応答の速さを表す角周波数であり、個人や発話に依らずおよそα=3rad/s,β=20rad/s程度の値をとることが知られている。 It is assumed that Here, the phrase command u p (t) is a pulse train, and the accent command u a (t) is a rectangular pulse train (see FIG. 4). For example, the phrase command u p (t) is expressed by information indicating the start time and amplitude of the pulse train, and the accent command u a (t) is information indicating the disclosure time, end time (or duration) and amplitude of the rectangular pulse train. And may be expressed as Of these phrase commands u p (t) and accent commands u a (t), at most one takes a non-zero value at each time. α and β are angular frequencies representing the response speed of the secondary filter, respectively, and are known to take values of about α = 3 rad / s and β = 20 rad / s regardless of the individual or speech.

上述の藤崎モデルにおいて、フレーズ指令up(t)、アクセント指令ua(t)はそれぞれのデルタ列、矩形パルス列であり、さらにこれらは互いに重ならないという仮定が置かれる。非特許文献1−4の手法の中心的なアイディアは、フレーズ指令up(t)、アクセント指令ua(t)の生成プロセスを隠れマルコフモデル(hidden Markov model;HMM)により表現した点にある。フレーム時刻のインデックスをkとし、フレーズ指令up[k]、アクセント指令ua[k]のペアを出力値o[k]=(up[k],ua[k])Tとする。ただし、Tは転置を表す。各状態の出力分布を正規分布とした場合、出力系列{o[k]}K k=1は、 In the above-mentioned Fujisaki model, it is assumed that the phrase command u p (t) and the accent command u a (t) are the delta sequence and the rectangular pulse sequence, respectively, and that they do not overlap each other. The central idea of the methods of Non-Patent Documents 1-4 is that the generation process of the phrase command u p (t) and the accent command u a (t) is expressed by a hidden Markov model (HMM). . The index of the frame time and k, phrase command u p [k], accent command u a [k] output value o the pair of [k] = (u p [ k], u a [k]) and T. However, T represents transposition. When the output distribution of each state is a normal distribution, the output sequence {o [k]} K k = 1 is

Figure 2018138972
Figure 2018138972

に従う。ここで、s[k]は時刻kにおける状態を表す。すなわち、式(6)は平均ρ[k]=(μp[k],μa[k])T=cs[k][k]と分散Σ[k]=Υs[k]=diag(σp,k 2a,k 2)が状態遷移の結果として時間と共に変化することを意味する。μp[k],σp,k 2はそれぞれフレーズ指令up[k]の出力分布(正規分布)の平均、分散であり、μa[k],σa,k 2はそれぞれアクセント指令ua[k]の出力分布(正規分布)の平均、分散である。HMMの利点は、状態遷移ネットワークの設計を通してモデル化したい系列に対して課すべき制約を柔軟に設けられる点にある。フレーズ指令up[k]、アクセント指令ua[k]に対する先述の制約は、例えば図5のような状態遷移ネットワークによって表現できる(非特許文献4参照)。状態p0はフレーズ指令up[k]のみ活性化した状態、an(n=0,1,…,N-1)はアクセント指令ua[k]のみ活性化した状態、ri(i=0,1)はどちらの指令も活性化していない状態をそれぞれ表す。図の矢印で表現される経路の制限により、フレーズ指令up[k]がインパルス状に活性化し、アクセント指令ua[k]が矩形パルス列状に活性化するように誘導されている。加えて、それぞれの状態を同じ出力分布を持ったいくつかの小状態に分割することで自己遷移の持続長をパラメータ化することもできる。図6に状態anを分割した例が示されている(非特許文献4参照)。例えばこの図のように全てのm≠0に対してan,mからan,m+1への状態遷移確率を1に設定することで、an,0からan,mへの遷移確率が状態anがmステップだけ持続する確率に対応し、アクセント指令の持続長を柔軟に制御できるようになる。同様にp0も小状態に分割することで、フレーズ指令の持続長と指令間の間隔の長さの分布をパラメータ化することが可能になる。 Follow. Here, s [k] represents a state at time k. In other words, equation (6) is expressed as follows: mean ρ [k] = (μ p [k], μ a [k]) T = c s [k] [k] and variance Σ [k] = Υ s [k] = diag It means that (σ p, k 2 , σ a, k 2 ) changes with time as a result of state transition. μ p [k], σ p, k 2 are the mean and variance of the output distribution (normal distribution) of the phrase command u p [k], respectively, and μ a [k], σ a, k 2 are the accent commands u a Average and variance of the output distribution (normal distribution) of [k]. The advantage of the HMM is that the constraints to be imposed on the sequence to be modeled through the design of the state transition network can be flexibly set. The above-mentioned restrictions on the phrase command u p [k] and the accent command u a [k] can be expressed by, for example, a state transition network as shown in FIG. 5 (see Non-Patent Document 4). State p 0 is a state in which only phrase command u p [k] is activated, a n (n = 0,1, ..., N-1) is a state in which only accent command u a [k] is activated, r i (i = 0,1) represents the state in which neither command is activated. The phrase command u p [k] is activated in an impulse shape and the accent command u a [k] is activated in a rectangular pulse train due to the restriction of the path represented by the arrows in the figure. In addition, the duration of self-transition can be parameterized by dividing each state into several small states with the same output distribution. Example of dividing the state a n in FIG. 6 are indicated (see Non-Patent Document 4). For example, as shown in this figure, by setting the state transition probability from a n, m to a n, m + 1 to 1 for all m ≠ 0, the transition from a n, 0 to a n, m probability corresponds to the probability that state a n lasts only m step, it becomes possible to flexibly control the persistence length of the accent command. Similarly, by dividing p 0 into small states, it is possible to parameterize the distribution of the duration of the phrase command and the length of the interval between commands.

ここまでのHMMの定式化は従来研究(非特許文献4参照)と同様である。本実施形態では、さらに、HMM状態系列sから、言語特徴量系列wの生成確率p(w|s)をモデル化し、統合する。   The formulation of the HMM so far is the same as in the conventional research (see Non-Patent Document 4). In the present embodiment, the generation probability p (w | s) of the language feature quantity sequence w is further modeled and integrated from the HMM state sequence s.

(言語特徴量のモデルとの統合)
本実施形態では、状態系列sから言語特徴量系列wが生成される過程は、各時刻kで独立であると仮定し、定式化する。
(Integration with language feature model)
In the present embodiment, the process of generating the language feature amount series w from the state series s is formulated assuming that it is independent at each time k.

Figure 2018138972
Figure 2018138972

ここで、p(w[k])は定数とおく。p(s[k]|w[k])は、DNNによりモデル化することができる。具体的には、各時刻kでw[k]を入力、HMM状態番号s[k]の事後確率p(s[k]|w[k])を出力とするDNNを構成することで、モデル化することができる。p(s[k])は、HMM状態番号の事前分布であり、例えばHMM状態データ内の各状態番号の相対頻度を使用する。 Here, p (w [k]) is a constant. p (s [k] | w [k]) can be modeled by DNN. Specifically, a model is constructed by configuring a DNN that inputs w [k] at each time k and outputs the posterior probability p (s [k] | w [k]) of the HMM state number s [k]. Can be p (s [k]) is a prior distribution of HMM state numbers. For example, the relative frequency of each state number in the HMM state data is used.

以上から、本実施形態におけるHMMの構成は以下となる。   From the above, the configuration of the HMM in the present embodiment is as follows.

Figure 2018138972
Figure 2018138972

上記のHMMから出力されたo[k]=(up[k],ua[k])Tに含まれる指令関数up[k],ua[k]にそれぞれ異なるフィルタGp[k]とGa[k]が畳み込まれたものがフレーズ成分とアクセント成分 O [k] = (u p [k], u a [k]) output from the above HMM, different filters G p [k] for the command functions u p [k], u a [k] included in T ] And G a [k] are convolved with the phrase component and accent component

Figure 2018138972
Figure 2018138972

となる。ただし、*はフレーム時刻kに関する畳み込みを表す。また、Gp[k]とGa[k]はそれぞれGp(t)とGa(t)の離散時間表現である。以上より、F0軌跡の離散時間表現x[k]は It becomes. However, * represents the convolution regarding the frame time k. G p [k] and G a [k] are discrete time representations of G p (t) and G a (t), respectively. From the above, the discrete time representation x [k] of the F 0 trajectory is

Figure 2018138972
Figure 2018138972

となる。xbはベースライン成分を表す。無声区間においては、F0は観測されないことがあったり、観測されていたとしても信頼できない場合がある。また、F0抽出において推定誤りが生じる場合もある。そこで観測F0パターンy[k]を、上述のF0パターンモデルx[k]とノイズxn[k]〜N(0,v2 n[k])の和として表すことで、観測F0パターンy[k]の不確実性を分散v2 n[k]の設定を通して組み込むことができる。すなわち、観測F0パターンy[k]を It becomes. x b represents a baseline component. In unvoiced intervals, F 0 may not be observed or may not be reliable even if it is observed. In addition, an estimation error may occur in F 0 extraction. Therefore, the observation F 0 pattern y [k] is represented as the sum of the above F 0 pattern model x [k] and the noise x n [k] to N (0, v 2 n [k]), thereby observing F 0. The uncertainty of the pattern y [k] can be incorporated through the setting of the variance v 2 n [k]. That is, the observed F 0 pattern y [k]

Figure 2018138972
Figure 2018138972

と表現することで、信頼のおける区間かどうかに関わらず、すべての観測区間を統一的に扱うことができる。 This means that all observation intervals can be handled in a unified manner regardless of whether they are reliable intervals.

ここで、ノイズxn[k]を周辺化すると、出力系列o={o[k]}K-1 k=0が与えられたもとでの観測F0軌跡y={y[k]}K-1 k=0の条件付き確率密度関数p(y|o)は、 Here, when the noise x n [k] is marginalized, the observed F 0 trajectory y = {y [k]} K- with the output sequence o = {o [k]} K-1 k = 0 The conditional probability density function p (y | o) for 1 k = 0 is

Figure 2018138972
Figure 2018138972

となる。式(6)より、状態系列s={s[k]}K-1 k=0が与えられたもとでの出力系列o={o[k]}K-1 k=0の条件付き確率密度関数p(o|s)は、 It becomes. From Equation (6), the conditional probability density function of the output sequence o = {o [k]} K-1 k = 0 given the state sequence s = {s [k]} K-1 k = 0 p (o | s) is

Figure 2018138972
Figure 2018138972

で与えられる。状態系列sの確率分布p(s)はHMMにおけるマルコフ性の仮定より、遷移確率φs[k-1],s[k]の積 Given in. The probability distribution p (s) of the state sequence s is the product of the transition probabilities φ s [k-1] and s [k] based on the Markov assumption in the HMM.

Figure 2018138972
Figure 2018138972

で与えられる。なお、πs[0]は初期状態確率である。 Given in. Note that π s [0] is an initial state probability.

以上より、提案モデルは、   From the above, the proposed model is

Figure 2018138972
Figure 2018138972

の形で表現することができる。p(y|o),p(o|s),p(s)については従来のF0軌跡の確率モデル化(非特許文献4参照)と同様の定式化により、また、p(w|s)については、後述する状態系列推定モデル学習装置120により言語特徴量データ、HMM状態データからモデルを学習し、使用する。 It can be expressed in the form of p (y | o), p (o | s), and p (s) are formulated by the same formulation as the conventional F 0 locus probability modeling (see Non-Patent Document 4), and p (w | s ), A model is learned from language feature data and HMM state data by a state sequence estimation model learning device 120 described later and used.

(藤崎モデルパラメータ推定アルゴリズム)
本実施形態では、観測F0系列y={y[k]}K-1 k=0と言語特徴量系列w={w[k]}K-1 k=0が与えられたときの状態出力系列o={o[k]}K-1 k=0と状態系列s={s[k]}K-1 k=0の同時事後確率
(Fujisaki model parameter estimation algorithm)
In the present embodiment, state output when an observation F 0 sequence y = {y [k]} K−1 k = 0 and a language feature sequence w = {w [k]} K−1 k = 0 is given. Sequence o = {o [k]} K-1 k = 0 and state sequence s = {s [k]} K-1 k = 0

Figure 2018138972
Figure 2018138972

を最大化する状態出力系列oと状態系列sを、求めることで、藤崎モデルパラメータの推定を行うことができる。アルゴリズムは、状態出力系列oを固定した上でlogp(y,o,w,s)が最大となるように状態系列sを更新するステップと、状態系列sを固定した上でlogp(y,o,w,s)が増大するように状態出力系列oを非負値制約下で更新するステップを反復することで探索する。 The Fujisaki model parameters can be estimated by obtaining the state output series o and the state series s that maximize. Algorithm, logp, fix the status output sequence o (y, o, w, s) and updating the state sequence s such that the maximum, logp (y, fix the state sequence s, o , w , s) is increased by repeating the step of updating the state output sequence o under non-negative constraints.

アルゴリズムは下記の通りである。
1.観測F0系列yから、状態出力系列oの初期値を得る。初期値を得る方法としては様々な方法が考えられるが、例えば、非特許文献1や非特許文献4の手法により状態出力系列oの初期値を得ることができる。なお、初期値の取得方法については、既存のいかなる技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよいため、ここでは説明を省略する。
2.各時刻k、各状態s[k]について、wの出力確率分布p(w[k]|s[k])を式(9)により算出する。
The algorithm is as follows.
1. The initial value of the state output series o is obtained from the observed F 0 series y. Various methods are conceivable as a method for obtaining the initial value. For example, the initial value of the state output series o can be obtained by the methods of Non-Patent Document 1 and Non-Patent Document 4. As for the initial value acquisition method, any existing technique may be used, and an optimal method may be selected as appropriate in accordance with the use environment and the like.
2. For each time k and for each state s [k], the output probability distribution p (w [k] | s [k]) of w is calculated by equation (9).

Figure 2018138972
Figure 2018138972

3.後述する式(17)〜(24)により、状態系列sを更新する。
4.後述する式(25)〜(28)により、状態出力系列(指令列系列)oを更新する。
5.上述の3.及び4.を一定回数反復し、得られた指令列系列o=({up[0],up[1],,up[K-1]},{ua[0],ua[1],,ua[K-1]})を推定藤崎モデル指令列として出力する。
3. Update the state sequence s according to equations (17) to (24) described later.
4. Update the state output sequence (command sequence sequence) o according to equations (25) to (28) described later.
5. Repeat steps 3 and 4 above a certain number of times, and obtain the command sequence sequence o = ({u p [0] , u p [1] ,, u p [K-1]} , {u a [0] , u a [1] ,, u a [K-1]}) are output as the estimated Fujisaki model command sequence.

以下、状態系列s及び状態出力系列oを更新する方法を説明する。   Hereinafter, a method for updating the state series s and the state output series o will be described.

(状態系列sの更新ステップ)
状態出力系列oを固定した上で、logp(y,o,w,s)が最大となるように、状態系列sを更新するステップである。logp(y,o,w,s)=logp(y|o)+logp(o|s)+logp(w|s)+logp(s)で状態系列sに依存する項はlogp(o|s)+logp(w|s)+logp(s)であるため、logp(y,o,w,s)を最大化する状態系列sを求める問題は、o,wを出力系列としたHMMの状態系列探索問題と同型である。したがってViterbiアルゴリズムを用いて解決することができる。下記にアルゴリズムを示す。
(Update step of status series s)
In this step, the state sequence s is updated so that the logp (y , o , w , s) becomes maximum after fixing the state output sequence o. logp (y , o , w , s) = logp (y | o) + logp (o | s) + logp (w | s) + logp (s) where the term that depends on the state sequence s is logp (o | s ) + logp (w | s) + logp (s), so the problem of finding the state sequence s that maximizes logp (y , o , w , s) is the state of the HMM with o , w as the output sequence It is the same type as the sequence search problem. Therefore, it can be solved using the Viterbi algorithm. The algorithm is shown below.

(Viterbiアルゴリズム)
1.初期化
(Viterbi algorithm)
1.Initialization

Figure 2018138972
Figure 2018138972

2.導出過程 2 derivation process

Figure 2018138972
Figure 2018138972

3.結果 3.Result

Figure 2018138972
Figure 2018138972

4.状態系列のバックトラック 4.Backtrack of state series

Figure 2018138972
Figure 2018138972

得られた{s[k]*}を状態系列s*として更新する。 The obtained {s [k] * } is updated as the state sequence s * .

(状態出力系列oの更新ステップ)
状態系列sを固定した上で、logp(y,o,s)が最大となるように状態出力系列oを更新するステップである。本ステップは、非特許文献4と同一であるため、導出過程は省略し、更新式のみを記載する。
(Update step of status output series o)
In this step, the state output sequence o is updated so that logp (y , o , s) becomes maximum after fixing the state sequence s. Since this step is the same as Non-Patent Document 4, the derivation process is omitted and only the update formula is described.

Figure 2018138972
Figure 2018138972

ただし、l=0,1,…,K-1であり、C(p)[k],C(a) nはそれぞれフレーズ指令、アクセント指令の状態出力分布(正規分布)の平均パラメータである。また、Tnは、s[k]=anであるようなkの集合Tn={k|s[k]=an}を表し、|Tn|はその集合の要素数を表す。 Here, l = 0, 1,..., K−1, and C (p) [k] and C (a) n are average parameters of the state output distribution (normal distribution) of the phrase command and the accent command, respectively. Furthermore, T n is, s [k] = the set of k such that a n T n = | represents {k s [k] = a n}, | T n | denotes the number of elements in the set.

次に、式(19),(20)等で用いるp(w[k]|s[k])を求める際に用いる事後確率p(s[k]|w[k])(式(7),(8)参照)を出力とするDNNを学習する状態系列推定モデル学習装置120について説明する。   Next, the posterior probability p (s [k] | w [k]) used when calculating p (w [k] | s [k]) used in the equations (19), (20), etc. (equation (7) The state sequence estimation model learning device 120 that learns the DNN that outputs (see (8)) will be described.

<第一実施形態に係る状態系列推定モデル学習装置120>
図7は状態系列推定モデル学習装置120の機能ブロック図を、図8はその処理フローの例を示す図である。
<State Sequence Estimation Model Learning Device 120 according to First Embodiment>
FIG. 7 is a functional block diagram of the state sequence estimation model learning device 120, and FIG. 8 is a diagram illustrating an example of a processing flow thereof.

状態系列推定モデル学習装置120は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。   The state sequence estimation model learning device 120 includes a CPU, a RAM, and a computer including a ROM that stores a program for executing the following processing, and is functionally configured as follows.

状態系列推定モデル学習装置120は、モデル学習部121を含む。   The state series estimation model learning device 120 includes a model learning unit 121.

<モデル学習部121>
モデル学習部121は、言語特徴量データ{w0,w1,…,wN-1}(複数の学習用言語特徴量系列wとも言う)及びHMM状態データ{s0,s1,…,sN-1}(複数の学習用HMM状態系列sとも言う)を入力とし、これらのデータを用いて、状態系列推定モデルを学習し(S121)、出力する。状態系列推定モデルのうち、状態推定DNNについては、言語特徴量データ{w0,w1,…,wN-1}、HMM状態データ{s0,s1,…,sN-1}の組を使用し、言語特徴量wから、各時刻kでHMM状態番号sの事後確率p(s|w)を推定するDNNを学習する。例えば、学習のアルゴリズムは、音声認識等で一般に使用される識別DNNの学習アルゴリズムと同様のものを使用することができる。HMM状態データ{s0,s1,…,sN-1}として、人手による藤崎モデル指令列推定の正解ラベルを与え、使用する。または、非特許文献1−4のアルゴリズムにより、観測F0軌跡データ{y0,y1,…,yN-1}から自動推定される結果を使用してもよい。
<Model learning unit 121>
The model learning unit 121 includes language feature data {w 0 , w 1 ,..., W N-1 } (also referred to as a plurality of learning language feature sequences w) and HMM state data {s 0 , s 1 ,. s N-1 } (also referred to as a plurality of learning HMM state sequences s) is input, and using these data, a state sequence estimation model is learned (S121) and output. Among the state series estimation models, the state estimation DNN includes language feature data {w 0 , w 1 , ..., w N-1 } and HMM state data {s 0 , s 1 , ..., s N-1 }. Using the set, a DNN that estimates the posterior probability p (s | w) of the HMM state number s at each time k is learned from the language feature value w. For example, the learning algorithm can be the same as the learning algorithm of identification DNN generally used in speech recognition or the like. As the HMM state data {s 0 , s 1 ,..., S N-1 }, a correct answer label for manually estimated Fujisaki model command sequence is given and used. Alternatively, a result automatically estimated from the observed F 0 trajectory data {y 0 , y 1 ,..., Y N−1 } by the algorithm of Non-Patent Document 1-4 may be used.

状態系列推定モデルのうち、状態事前分布モデルを得るため、例えば、HMM状態データ{s0,s1,…,sN-1}を用いて、下記のように全HMM状態データの中の、各HMM状態の相対頻度をp(s=i)として定めることができる。 Among the state series estimation models, in order to obtain a state prior distribution model, for example, using the HMM state data {s 0 , s 1 ,..., S N-1 }, The relative frequency of each HMM state can be defined as p (s = i).

Figure 2018138972
Figure 2018138972

ここで、n番目の発話中のk番目の時刻フレームのHMM状態番号を、sn,kで表し、 Here, the HMM state number of the kth time frame during the nth utterance is represented by s n, k ,

Figure 2018138972
Figure 2018138972

とした。 It was.

<効果>
このような構成により、状態系列推定モデル学習装置120は、読み、アクセント等の言語特徴量を入力とし、非特許文献4におけるHMM状態の事後確率を出力とするDNNを構成する。指令列推定装置110は、このDNNが出力する事後確率系列を、従来研究のHMM状態デコード時に使用することで、観測F0軌跡と言語特徴量系列の双方を考慮した藤崎モデル指令列系列を推定することができ、藤崎モデル指令列推定の推定精度を向上させることができる。
<Effect>
With such a configuration, the state sequence estimation model learning device 120 configures a DNN that receives language feature quantities such as reading and accent as input and outputs the posterior probability of the HMM state in Non-Patent Document 4. The command sequence estimator 110 estimates the Fujisaki model command sequence sequence considering both the observed F 0 trajectory and the language feature sequence by using the posterior probability sequence output by this DNN during HMM state decoding in the conventional research. Thus, the estimation accuracy of the Fujisaki model command sequence estimation can be improved.

<第二実施形態のポイント>
第一実施形態において、例えば、HMM状態データを用意する方法として、人手による正解ラベルを使用する方法がある。しかし、人手に依る正解ラベルの付与は、専門家による作業が必要であり、高コストである。そこで、従来研究(非特許文献1−3参照)により、観測F0軌跡から推定された藤崎モデル指令列に対応するHMM状態系列を教師データとし、DNNの学習を行うことが考えられる。一方で、従来研究(非特許文献1−3参照)による藤崎モデル指令列の推定結果には、推定誤りが含まれる場合がある。推定結果に誤りを含むデータ(推定された藤崎モデル指令列に対応するHMM状態系列)をDNN学習の教師データとして使用する場合、その教師データから学習されたDNNから出力される事後確率系列の精度は一般に低下する。そのため、第一実施形態による藤崎モデル指令列推定精度もまた、低下する可能性がある。
<Points of second embodiment>
In the first embodiment, for example, as a method of preparing HMM state data, there is a method of using a manual correct label. However, manual assignment of correct answer labels requires work by an expert and is expensive. Therefore, it is conceivable to perform DNN learning by using the HMM state sequence corresponding to the Fujisaki model command sequence estimated from the observed F 0 trajectory as teacher data by conventional research (see Non-Patent Documents 1-3). On the other hand, an estimation error may be included in the estimation result of the Fujisaki model command sequence by the conventional research (see Non-Patent Documents 1-3). When data with errors in the estimation results (HMM state sequences corresponding to the estimated Fujisaki model command sequence) is used as the DNN learning teacher data, the accuracy of the posterior probability sequence output from the DNN learned from the teacher data Generally decreases. Therefore, the Fujisaki model command sequence estimation accuracy according to the first embodiment may also decrease.

以上から、第一実施形態を低コストに実施し、かつ藤崎モデルの指令列推定精度を高めるための要因の一つに、精度の高いDNNの学習があり、そのためには、精度の高いDNNの教師データが必要である。   From the above, one of the factors for implementing the first embodiment at low cost and improving the accuracy of instruction sequence estimation of the Fujisaki model is the learning of DNN with high accuracy. Teacher data is required.

第二実施形態では、より精度の高いDNN学習の教師データを得るため、観測F0軌跡のみから推定を行う従来研究(非特許文献1−3参照)ではなく、観測F0軌跡と言語特徴量の双方を使用した推定を行う、第一実施形態の手法を用いる。これにより、より精度の高い学習データから、より精度の高いDNNを学習することができ、最終的な藤崎モデル指令列推定精度を高めることができる。 In the second embodiment, to obtain training data for more accurate DNN learning, in the conventional study is estimated only from the observed F 0 locus (see Non-Patent Documents 1 to 3) without observing F 0 locus and linguistic feature quantity The method of the first embodiment for performing estimation using both of the above is used. Thereby, DNN with higher accuracy can be learned from more accurate learning data, and the final Fujisaki model command sequence estimation accuracy can be improved.

<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
<Second embodiment>
A description will be given centering on differences from the first embodiment.

状態系列推定モデル学習装置の構成が第一実施形態とは異なる。   The configuration of the state sequence estimation model learning device is different from that of the first embodiment.

状態系列推定モデル学習装置220を説明する前に改めて用語の説明を行う。   Before describing the state sequence estimation model learning device 220, the terms will be described again.

なお、指令列推定装置110の構成は第一実施形態と同じだが、状態系列推定モデルに代えて、後述する再学習状態系列推定モデルを用いる点が第一実施形態とは異なる。   The configuration of the command sequence estimation device 110 is the same as that of the first embodiment, but is different from the first embodiment in that a relearning state sequence estimation model described later is used instead of the state sequence estimation model.

(用いる用語の説明)
観測F0軌跡データ:言語特徴量データに対応する複数の発話について、それぞれの観測F0の値を保持したもの。データ中の発話数をNとしたとき、{y0,y1,,yN-1}で表現する。
推定HMM状態データ:観測F0軌跡データ中の各発話について、それぞれ第一実施形態の指令列推定を行い、推定された推定藤崎モデル指令列に対応するHMM状態系列を保持したもの。つまり、状態系列sと状態出力系列oの更新を一定回数反復し、得られた状態系列sである。データ中の発話数をNとしたとき、{se 0,se 1,,se N-1}で表現する。
再学習状態系列推定モデル:推定HMM状態データ{se 0,se 1,,se N-1}と言語特徴量データ{w0,w1,…,wN-1}を使用し、再度学習された状態系列推定モデル。
(Explanation of terms used)
Observation F 0 trajectory data: data holding each observation F 0 value for a plurality of utterances corresponding to language feature data. When the number of utterances in the data is N, it is expressed as {y 0, y 1, ... , y N-1 }.
Estimated HMM state data: For each utterance in the observed F 0 trajectory data, the command sequence estimation of the first embodiment is performed, and the HMM state sequence corresponding to the estimated Fujisaki model command sequence is held. That is, the state series s is obtained by repeating the update of the state series s and the state output series o a certain number of times. When N is the number of utterances in the data, it is expressed as {s e 0, s e 1, ... , S e N−1 }.
Re-learning state series estimation model: using estimated HMM state data {s e 0, s e 1,, s e N-1 } and language feature data {w 0 , w 1 ,…, w N-1 } The state series estimation model learned again.

<第二実施形態に係る状態系列推定モデル学習装置220>
図9は状態系列推定モデル学習装置220の機能ブロック図を、図10はその処理フローの例を示す図である。
<State Sequence Estimation Model Learning Device 220 according to Second Embodiment>
FIG. 9 is a functional block diagram of the state sequence estimation model learning device 220, and FIG. 10 is a diagram illustrating an example of a processing flow thereof.

状態系列推定モデル学習装置220は、指令列推定部211とモデル学習部121とを含む。   The state sequence estimation model learning device 220 includes a command sequence estimation unit 211 and a model learning unit 121.

指令列推定部211は、第一実施形態の指令列推定部111と同様の構成である。但し、言語特徴量系列w、観測F0軌跡yに代えてそれぞれ言語特徴量データ{w0,w1,…,wN-1}、観測F0軌跡データ{y0,y1,,yN-1}(複数の学習用観測F0軌跡ともいう)を入力とし、推定藤崎モデル指令列uiに代えて、推定HMM状態データ{se 0,se 1,,se N-1}を出力する。よって、指令列推定部211は、言語特徴量データ{w0,w1,…,wN-1}及び観測F0軌跡データ{y0,y1,,yN-1}を入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定し(S211)、推定藤崎モデル指令列に対応する(換言すると、推定藤崎モデル指令列推定時の)推定HMM状態データ{se 0,se 1,,se N-1}を出力する。 The command sequence estimation unit 211 has the same configuration as the command sequence estimation unit 111 of the first embodiment. However, the language feature amount sequence w, observation F 0 each language feature data instead of the trajectory y {w 0, w 1, ..., w N-1}, observation F 0 locus data {y 0, y 1, ... , y N-1 } (also referred to as multiple learning observation F 0 trajectories) as input, and instead of the estimated Fujisaki model command sequence u i , estimated HMM state data {s e 0, s e 1,, s e N -1 } is output. Therefore, the command sequence estimating unit 211, the language feature data {w 0, w 1, ... , w N-1} and the observed F 0 locus data {y 0, y 1, ... , y N-1} as input Then, the corresponding Fujisaki model command sequence is estimated using the state series estimation model (S211), and the estimated HMM state data {s e corresponding to the estimated Fujisaki model command sequence (in other words, at the time of estimating the estimated Fujisaki model command sequence) 0, s e 1,, s e N-1 } are output.

モデル学習部121は、第一実施形態のモデル学習部121と同様の構成であり、同様の処理(S121)を行う。ただし、HMM状態データ{s0,s1,,sN-1}ではなく、推定HMM状態データ{se 0,se 1,,se N-1}を使用する点が異なる。 The model learning unit 121 has the same configuration as the model learning unit 121 of the first embodiment, and performs the same processing (S121). However, HMM state data {s 0, s 1, ... , s N-1} instead of the estimated HMM state data {s e 0, s e 1 , ..., s e N-1} is that it uses different.

このような構成により、観測F0軌跡データの各発話の観測F0軌跡{y0,y1,,yN-1}に対し、第一実施形態の指令列推定を実施し、推定結果から、各時刻のHMM状態番号se n,k(n=0,1,…,N-1、k=0,1,…,K-1)を得る。これらを推定HMM状態データ{se 0,se 1,,se N-1}として保持し、モデル学習部121において状態系列推定モデル学習に使用する。 With such a configuration, the command string estimation of the first embodiment is performed on the observation F 0 trajectory {y 0, y 1, ... , Y N-1 } of each utterance of the observation F 0 trajectory data, and the estimation result from, HMM state number s e n at each time, k (n = 0,1, ... , n-1, k = 0,1, ..., K-1) obtained. These are stored as estimated HMM state data {s e 0, s e 1, ... , S e N−1 }, and are used by the model learning unit 121 for state sequence estimation model learning.

<効果>
このような構成により、より精度の高い学習データから、より精度の高いDNNを学習することができ、最終的な藤崎モデル指令列推定精度を高めることができる。
<Effect>
With such a configuration, DNN with higher accuracy can be learned from more accurate learning data, and the final Fujisaki model command sequence estimation accuracy can be increased.

<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.

<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
<Program and recording medium>
In addition, various processing functions in each device described in the above embodiments and modifications may be realized by a computer. In that case, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage unit. When executing the process, this computer reads the program stored in its own storage unit and executes the process according to the read program. As another embodiment of this program, a computer may read a program directly from a portable recording medium and execute processing according to the program. Further, each time a program is transferred from the server computer to the computer, processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program includes information provided for processing by the electronic computer and equivalent to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In addition, although each device is configured by executing a predetermined program on a computer, at least a part of these processing contents may be realized by hardware.

Claims (7)

観測F0軌跡と、その観測F0軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定部を含み、
前記状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、前記状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
指令列推定装置。
Wherein the observation F 0 locus, and inputs the linguistic feature amount sequence corresponding to the observation F 0 locus, using the state series estimation model, a command sequence estimating unit that estimates a corresponding Fujisaki model command string,
The state series estimation model includes a state estimation DNN and a state prior distribution model, the state estimation DNN is a DNN that estimates a posterior probability of the corresponding HMM state number at each time from a language feature, and the state prior distribution model is It is a model that holds the value of the prior distribution for each HMM state.
Command sequence estimation device.
請求項1で用いられる状態推定DNNを学習する状態系列推定モデル学習装置であって、
複数の学習用言語特徴量系列及び複数の学習用HMM状態系列を用いて、前記状態系列推定モデルを学習するモデル学習部を含む、
状態系列推定モデル学習装置。
A state sequence estimation model learning device for learning the state estimation DNN used in claim 1,
A model learning unit that learns the state sequence estimation model using a plurality of learning language feature amount sequences and a plurality of learning HMM state sequences,
State sequence estimation model learning device.
請求項2の状態系列推定モデル学習装置であって、
複数の前記学習用言語特徴量系列及び複数の学習用観測F0軌跡を入力とし、第二状態系列推定モデルを用いて、対応する複数の藤崎モデル指令列を推定し、推定した複数の藤崎モデル指令列に対応する複数のHMM状態系列である複数の推定HMM状態系列を得る第二指令列推定部を含み、
複数の前記学習用HMM状態系列は複数の前記推定HMM状態系列であり、
第二状態系列推定モデルは第二状態推定DNNと第二状態事前分布モデルと含み、前記第二状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記第二状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
状態系列推定モデル学習装置。
The state sequence estimation model learning device according to claim 2,
Using the plurality of learning language feature amount sequences and the plurality of learning observation F 0 trajectories as inputs, using the second state sequence estimation model, estimating a plurality of corresponding Fujisaki model command sequences, and estimating a plurality of estimated Fujisaki models A second command sequence estimator for obtaining a plurality of estimated HMM state sequences that are a plurality of HMM state sequences corresponding to the command sequence;
The plurality of learning HMM state sequences are a plurality of the estimated HMM state sequences,
The second state sequence estimation model includes a second state estimation DNN and a second state prior distribution model, and the second state estimation DNN is a DNN for estimating a posterior probability of a corresponding HMM state number at each time from a language feature. The second state prior distribution model is a model that holds the value of the prior distribution for each HMM state.
State sequence estimation model learning device.
観測F0軌跡と、その観測F0軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定ステップを含み、
前記状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、前記状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
指令列推定装置が実行する指令列推定方法。
Wherein the observation F 0 locus, and inputs the linguistic feature amount sequence corresponding to the observation F 0 locus, using the state series estimation model, a command sequence estimation step of estimating a corresponding Fujisaki model command string,
The state series estimation model includes a state estimation DNN and a state prior distribution model, the state estimation DNN is a DNN that estimates a posterior probability of the corresponding HMM state number at each time from a language feature, and the state prior distribution model is It is a model that holds the value of the prior distribution for each HMM state.
A command sequence estimation method executed by the command sequence estimation apparatus.
請求項4で用いられる状態推定DNNを学習する状態系列推定モデル学習方法であって、
複数の学習用言語特徴量系列及び複数の学習用HMM状態系列を用いて、前記状態系列推定モデルを学習するモデル学習ステップを含む、
状態系列推定モデル学習装置が実行する状態系列推定モデル学習方法。
A state sequence estimation model learning method for learning the state estimation DNN used in claim 4,
A model learning step of learning the state sequence estimation model using a plurality of learning language feature amount sequences and a plurality of learning HMM state sequences;
A state sequence estimation model learning method executed by the state sequence estimation model learning device.
請求項5の状態系列推定モデル学習方法であって、
複数の前記学習用言語特徴量系列及び複数の学習用観測F0軌跡を入力とし、第二状態系列推定モデルを用いて、対応する複数の藤崎モデル指令列を推定し、推定した複数の藤崎モデル指令列に対応する複数のHMM状態系列である複数の推定HMM状態系列を得る第二指令列推定ステップを含み、
複数の前記学習用HMM状態系列は複数の前記推定HMM状態系列であり、
第二状態系列推定モデルは第二状態推定DNNと第二状態事前分布モデルと含み、前記第二状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記第二状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
状態系列推定モデル学習方法。
The state sequence estimation model learning method according to claim 5,
Using the plurality of learning language feature amount sequences and the plurality of learning observation F 0 trajectories as inputs, using the second state sequence estimation model, estimating a plurality of corresponding Fujisaki model command sequences, and estimating a plurality of estimated Fujisaki models A second command sequence estimation step for obtaining a plurality of estimated HMM state sequences that are a plurality of HMM state sequences corresponding to the command sequence;
The plurality of learning HMM state sequences are a plurality of the estimated HMM state sequences,
The second state sequence estimation model includes a second state estimation DNN and a second state prior distribution model, and the second state estimation DNN is a DNN for estimating a posterior probability of a corresponding HMM state number at each time from a language feature. The second state prior distribution model is a model that holds the value of the prior distribution for each HMM state.
State series estimation model learning method.
請求項1の指令列推定装置、または、請求項2若しくは請求項3の状態系列推定モデル学習装置として、コンピュータを機能させるためのプログラム。   A program for causing a computer to function as the command sequence estimation device according to claim 1 or the state series estimation model learning device according to claim 2 or claim 3.
JP2017033606A 2017-02-24 2017-02-24 Command sequence estimation device, state sequence estimation model learning device, method thereof, and program Active JP6662801B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017033606A JP6662801B2 (en) 2017-02-24 2017-02-24 Command sequence estimation device, state sequence estimation model learning device, method thereof, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017033606A JP6662801B2 (en) 2017-02-24 2017-02-24 Command sequence estimation device, state sequence estimation model learning device, method thereof, and program

Publications (2)

Publication Number Publication Date
JP2018138972A true JP2018138972A (en) 2018-09-06
JP6662801B2 JP6662801B2 (en) 2020-03-11

Family

ID=63451219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017033606A Active JP6662801B2 (en) 2017-02-24 2017-02-24 Command sequence estimation device, state sequence estimation model learning device, method thereof, and program

Country Status (1)

Country Link
JP (1) JP6662801B2 (en)

Also Published As

Publication number Publication date
JP6662801B2 (en) 2020-03-11

Similar Documents

Publication Publication Date Title
JP6777768B2 (en) Word vectorization model learning device, word vectorization device, speech synthesizer, their methods, and programs
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
Young et al. The HTK book
JP2019144402A (en) Voice conversion learning device, voice conversion device, method and program
US20110276332A1 (en) Speech processing method and apparatus
JP6553015B2 (en) Speaker attribute estimation system, learning device, estimation device, speaker attribute estimation method, and program
JP2004226982A (en) Method for speech recognition using hidden track, hidden markov model
EP3038103A1 (en) Quantitative f0 pattern generation device and method, and model learning device and method for generating f0 pattern
JP5885210B2 (en) Basic frequency model parameter estimation apparatus, method, and program
JP6350935B2 (en) Acoustic model generation apparatus, acoustic model production method, and program
JP6553584B2 (en) Basic frequency model parameter estimation apparatus, method, and program
JP6137477B2 (en) Basic frequency model parameter estimation apparatus, method, and program
JP3920749B2 (en) Acoustic model creation method for speech recognition, apparatus thereof, program thereof and recording medium thereof, speech recognition apparatus using acoustic model
JP4950600B2 (en) Acoustic model creation apparatus, speech recognition apparatus using the apparatus, these methods, these programs, and these recording media
JP6662801B2 (en) Command sequence estimation device, state sequence estimation model learning device, method thereof, and program
Kameoka et al. Generative modeling of speech F0 contours.
JP6468519B2 (en) Basic frequency pattern prediction apparatus, method, and program
Yoshizato et al. Hidden Markov Convolutive Mixture Model for Pitch Contour Analysis of Speech.
US20220139381A1 (en) Prediction device, prediction method, and program
US11798579B2 (en) Device, method, and program for analyzing speech signal
JP6665079B2 (en) Fundamental frequency model parameter estimation device, method, and program
Li et al. Graphical model approach to pitch tracking.
JP2005156593A (en) Method for creating acoustic model, device for creating the acoustic model, program for creating acoustic model, and voice-recognition device
Zhang et al. Application of pronunciation knowledge on phoneme recognition by lstm neural network
Hashimoto et al. Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200213

R150 Certificate of patent or registration of utility model

Ref document number: 6662801

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150