JP6193737B2 - ポーズ推定装置、方法、プログラム - Google Patents
ポーズ推定装置、方法、プログラム Download PDFInfo
- Publication number
- JP6193737B2 JP6193737B2 JP2013238796A JP2013238796A JP6193737B2 JP 6193737 B2 JP6193737 B2 JP 6193737B2 JP 2013238796 A JP2013238796 A JP 2013238796A JP 2013238796 A JP2013238796 A JP 2013238796A JP 6193737 B2 JP6193737 B2 JP 6193737B2
- Authority
- JP
- Japan
- Prior art keywords
- pose
- score
- estimation
- estimation result
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 53
- 238000004364 calculation method Methods 0.000 claims description 121
- 238000011156 evaluation Methods 0.000 claims description 51
- 238000000605 extraction Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 description 58
- 238000010801 machine learning Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 239000000203 mixture Substances 0.000 description 12
- 230000009466 transformation Effects 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 238000011002 quantification Methods 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 241001417093 Moridae Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
第1実施形態は、所与の音声データに付与されたポーズの位置の組であるポーズ配置(一つのポーズ配置には、0個または1個以上のポーズが含まれるとする)の自然性に関する主観評価実験結果から、ポーズ配置の自然性とポーズに関連する様々な言語的特徴との関係をモデル化し、得られたモデルをポーズ配置推定に利用することによって、自然性が高い合成音声の生成を可能とする機械学習に基づくポーズ配置の自動推定に関する。
まず、ポーズ配置が異なる複数の音声データを用いた主観評価実験によって収集したデータをもとに、ポーズ配置の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを構築する。そして、構築されたスコア算出モデルを用いて、機械学習によって取り得る確率が高いと推定されたポーズ配置の推定結果をポーズ配置の自然性の観点でスコアリングし、スコアが最大となる(つまり、ポーズ配置の自然性が最も高いと推定される)ポーズ配置推定結果を出力する。
ポーズ配置推定部110は、機械学習によって構築されたポーズ配置推定モデル150を用いて入力されたテキスト105に対してポーズ配置推定を行い、複数のポーズ配置推定結果を出力する(以下、第1実施形態および後述する第2実施形態では、複数のポーズ配置推定結果のそれぞれを候補115とも呼称する)。
特徴量抽出部120は、各候補115に対してポーズに関連する言語的特徴の特徴量125の抽出を行う。
スコア算出部130は、ポーズ配置の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に関する知見に基づいて構築されたスコア算出モデル160を用いて、各候補115の特徴量125から各候補115のスコア135を算出する。
候補選択部140は、スコア算出部130で算出されたスコア135が最大となる(つまり、最も自然性が高いと推定される)候補145を選択する。
以下に各部の処理の具体例を説明する。
入力: 入力テキスト、ポーズ配置推定モデル
出力: ポーズ配置推定結果Rk(k=1,…,N)
処理: 機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果Rk (k=1,…,N)を出力する。
入力: ポーズ配置推定結果Rk(k=1,…,N)
出力: ポーズ配置推定結果Rk(k=1,…,N)のそれぞれの特徴量Xi(k) (i=1,…,p, k=1,…,N)
処理: ポーズ配置推定結果Rk(k=1,…,N)のそれぞれに対して、ポーズに関連する言語的特徴の特徴量Xi(k)(i=1,…,p, k=1,…,N)の抽出を行う。
(1) ポーズ句内のモーラ数の平均
(2) ポーズ句内のモーラ数の分散
(3) ポーズ句内のモーラ数の外れ値の有無
(4) 係り受けにある区間にポーズが挿入された数
(5) 係り受けにない区間にポーズが挿入されなかった数
(6) ポーズ句内の自立語数の平均
(7) ポーズ句内の自立語数の分散
入力: スコア算出モデル、ポーズ配置推定結果Rk(k=1,…,N)のそれぞれの特徴量Xi(k) (i=1,…,p, k=1,…,N)
出力: ポーズ配置推定結果Rk(k=1,…,N)のそれぞれのスコアSk (k=1,…,N)
処理: スコア算出モデルを用いて、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれの特徴量Xi(k)(i=1,…,p, k=1,…,N)に基づくポーズ配置推定結果Rk (k=1,…,N)のそれぞれのスコアSk (k=1,…,N)を算出する。
以下に、一例として、数量化II類を用いた重みの決定方法について説明する。数量化II類とは、カテゴリに分類された既知のデータをもとに、新しいサンプルがどのカテゴリに属するかの判別に利用可能なデータ分析法の一つである。
まず、ポーズ配置がそれぞれ異なるD個(Dは2以上の整数)の音声データを予め用意し、主観評価実験を行うことでポーズ配置の自然性の主観評価値を得る。主観評価は、被験者がそれぞれの音声を聴取し、ポーズ配置の自然性を例えば「5:非常に自然」から「1:非常に不自然」までの5段階で主観評価値をつけることによって行う。
次に、主観評価に用いたそれぞれの音声データからポーズに関するp種類の特徴量Xi(d) (i=1,…,p, d=1,…,D)を抽出する。そして、得られた自然性の主観評価値及び特徴量をその値に応じて数種類のカテゴリに分類する。カテゴライズは、例えば全ての音声データを値順に等サンプル数になるように等分割する方法が考えられる。
そして、自然性の主観評価値のカテゴリと各特徴量のカテゴリとの関係を数量化II類に基づく線形モデルによってモデル化し、特徴量の各カテゴリに対して、自然性に関する重みを決定する。数量化II類による具体的な重みの算出方法については下記参考文献1を参考にされたい。
参考として、図4に、p=7とし、特徴量抽出部120が抽出する言語的特徴を、ポーズ句内のモーラ数の平均(この特徴量を表す変数をX1とする)、係り受けにある区間にポーズが挿入された数(この特徴量を表す変数をX2とする)、ポーズ句内の自立語数の平均(この特徴量を表す変数をX3とする)、ポーズ句内のモーラ数の外れ値(μ+1σ)の有無(この特徴量を表す変数をX4とする)、ポーズ句内のモーラ数の外れ値(μ+2σ)の有無(この特徴量を表す変数をX5とする)、ポーズ句内のモーラ数の外れ値(μ-1σ)の有無(この特徴量を表す変数をX6とする)、ポーズ句内のモーラ数の外れ値(μ-2σ)の有無(この特徴量を表す変数をX7とする)、とした場合の各特徴量Xi(i=1,…,7)の各カテゴリにおける重みの例を示す。
(参考文献1)菅民郎、藤越康祝、「質的データの判別分析 数量化2類」、現代数学社、2011/04.
以下に、スコア算出モデル160を用いたスコア算出方法を説明する。各候補115つまり各ポーズ配置推定結果Rk (k=1,…,N)について、スコア算出部130は、スコア算出対象のポーズ配置推定結果Rk (k∈{1,…,N})のスコアSkを、入力された各特徴量Xi(k)(i=1,…,p, k∈{1,…,N})が該当するカテゴリに割り当てられている重みを全特徴量について足し合わせることによって算出する。
i番目の言語的特徴の特徴量を表す変数Xi (i=1,…,p)がそれぞれMi(i=1,…,p)種類のカテゴリをもつとき、特徴量Xi (i=1,…,p)の各カテゴリに対して割り当てられている重みをWij(i=1,…,p, j=1,…,Mi)と定義する。また、各特徴量Xi (i=1,…,p)の各カテゴリにおいて、入力された特徴量Xi(k)(i=1,…,p, k∈{1,…,N})が該当するカテゴリでは1、該当しないカテゴリでは0を取るようなダミー変数Cij(i=1,2,…,p, j=1,…,Mi)を定義する。つまり、ダミー変数Cijは、入力された特徴量Xi(k)(i=1,…,p, k∈{1,…,N})に応じて、特徴量Xi(i=1,…,p)のカテゴリのうち一つだけで値1を持つ。ここで、各カテゴリに割り当てられている重みWijとダミー変数Cijを用いて、以下の式(1)によって、スコア算出対象のポーズ配置推定結果Rk (k∈{1,…,N})のスコアSkを算出する。
この具体例では、各特徴量Xi (i=1,2,3)のカテゴリはそれぞれ3種類(M1=M2=M3=3)でいずれも「大」「中」「小」であるとする。ここでは、便宜上、j=1が「大」を指示し、j=2が「中」を指示し、j=3が「小」を指示するとする。図4から、重みWij(i=1,2,3, j=1,2,3)は、W11=-0.39、W12=0.44、W13=-0.08、W21=0.32、W22=-0.20、W23=-0.81、W31=-0.03、W32=0.22、W33=-0.30である。さらに、ポーズ句内のモーラ数の平均の特徴量X1については、X1≧18.5なら「大」、18.5>X1≧8.3なら「中」、8.3>X1なら「小」のカテゴリに分類されるとする。係り受けにある区間にポーズが挿入された数の特徴量X2については、X2>3なら「大」、3≧X2>1なら「中」、1≧X2なら「小」のカテゴリに分類されるとする。ポーズ句内の自立語数の平均の特徴量X3については、X3≧5.5なら「大」、5.5>X3≧2.3なら「中」、2.3>X3なら「小」のカテゴリに分類されるとする。
スコア算出対象のポーズ配置推定結果Rk (k∈{1,…,N})の特徴量Xi(k) (i=1,2,3, k∈{1,…,N})の具体例をX1(k)=21.2、X2(k)=2、X3(k)=1.3とすると、この場合、特徴量X1(k)=21.2は「大」に該当するのでC11=1、C12=0、C13=0であり、特徴量X2(k)=2は「中」に該当するのでC21=0、C22=1、C23=0であり、特徴量X3(k)=1.3は「小」に該当するのでC31=0、C32=0、C33=1である。したがって、スコア算出対象のポーズ配置推定結果Rk(k∈{1,…,N})のスコアSkは、式(1)から、ゼロではないダミー係数が乗ぜられる重みの合計によって計算できるので、
S=W11+W22+W33=-0.39-0.20-0.30=-0.89
となる。
このようにして、スコア算出部130は、特徴量抽出部120から出力された各候補115のスコアを算出する。
入力: ポーズ配置推定結果Rk(k=1,…,N)のそれぞれのスコアSk (k=1,…,N)
出力: 選択されたポーズ配置推定結果を指定する情報
処理: 候補選択部140は、ポーズ配置推定結果Rk(k=1,…,N)のそれぞれのスコアSk (k=1,…,N)のうち最も高いスコアSB (B∈{1,…,N})を特定し、特定された最高スコアに対応するポーズ配置推定結果RB (B∈{1,…,N})を指定する情報(例えば、B)を出力する。
第2実施形態は第1実施形態の変形例である。第1実施形態では、候補選択部140が、スコア算出モデル160を用いて算出されたスコアが最大のポーズ配置推定結果を出力した。ここでさらに、ポーズ配置推定部110によってポーズ配置推定モデル150を用いて算出された各ポーズ配置推定結果の適正さを表す指標をスコア算出部130のスコア計算に用いることによって、学習データにおける自然性も考慮に入れることができるため、データドリブンに、より自然性が高いポーズ配置推定結果を決定できることが期待される。
入力: 入力テキスト、ポーズ配置推定モデル
出力: ポーズ配置推定結果Rk(k=1,…,N)と、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれに対応する推定スコアYk (k=1,…,N)
処理: 機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果Rk (k=1,…,N)及びポーズ配置推定結果Rk(k=1,…,N)のそれぞれに対応する推定スコアYk (k=1,…,N)を出力する。
(註:第1実施形態と第2実施形態において同じ記号Nを使用しているが、その意味は異なる。第1実施形態ではNは予め定められた値であるが、第2実施形態ではNは結果として得られた値である)
これらN個のポーズ配置推定結果Rk(k=1,…,N)のそれぞれが、自然性の高い合成音声の生成を可能とするポーズ配置の候補115である。
入力: スコア算出モデル、ポーズ配置推定結果Rk(k=1,…,N)のそれぞれの特徴量Xi(k) (i=1,…,p, k=1,…,N)、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれの推定スコアYk(k=1,…,N)
出力: ポーズ配置推定結果Rk(k=1,…,N)のそれぞれのスコアSk (k=1,…,N)
処理: スコア算出モデルを用いて、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれの特徴量Xi(k)(i=1,…,p, k=1,…,N)と推定スコアYk (k=1,…,N)に基づくポーズ配置推定結果Rk (k=1,…,N)のそれぞれのスコアSk(k=1,…,N)を算出する。
また、スコア算出部130aは、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれの推定スコアYk(k=1,…,N)を平均が0、分散が1になるような線形変換によって正規化したスコアYnorm,k (k=1,…,N)を求める。この線形変換は上述のとおりである。
そして、スコア算出部130aは、各kについて、ポーズ配置推定結果Rk (k∈{1,…,N})のスコアSkを、正規化されたスコアSnorm,kとスコアYnorm,kの和として求める(式(2)参照)。なお、式(2)において、スコアYnorm,kに乗ぜられるαは、スコアSkの算出におけるスコアYnorm,kの影響を調整する重み係数であり、例えば予め定められたゼロ以外の定数とする。
第3実施形態は、所与の音声データに付与されたポーズの位置の組であるポーズ配置(一つのポーズ配置には、0個または1個以上のポーズが含まれるとする)と各ポーズのポーズ長とによって表されるポーズ構成の自然性に関する主観評価実験結果から、ポーズ構成の自然性とポーズに関連する様々な言語的特徴との関係をモデル化し、得られたモデルをポーズ構成の推定に利用することによって、自然性が高い合成音声の生成を可能とする機械学習に基づくポーズ構成の自動推定に関する。
まず、ポーズ構成が互いに異なる複数の音声データを用いた主観評価実験によって収集したデータをもとに、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを構築する。第3実施形態のスコア算出モデルは、ポーズ長の自然性も考慮されている点で、第1実施形態あるいは第2実施形態におけるスコア算出モデルとは異なる。そして、構築されたスコア算出モデルを用いて、機械学習によって取り得る確率が高いと推定されたポーズ構成の推定結果をポーズ構成の自然性の観点でスコアリングし、スコアが最大となる(つまり、ポーズ構成の自然性が最も高いと推定される)ポーズ構成推定結果を出力する。
ポーズ配置推定部310は、機械学習によって構築されたポーズ配置推定モデル350を用いて入力されたテキスト305に対してポーズ配置推定を行い、複数のポーズ配置推定結果315を出力する。
ポーズ長推定部310bは、機械学習によって構築されたポーズ長推定モデル350bを用いて、ポーズ配置推定結果のそれぞれに対してポーズ長推定を行い、ポーズ配置推定結果ごとに複数のポーズ長推定結果を求める。このため、例えば、ポーズ配置推定結果ごとにG個のポーズ長推定結果が出力されるとすると、結果的に、ポーズ長推定部310bが、ポーズ配置N種×ポーズ長G種の総計N×G個のポーズ構成推定結果315bを出力することになる。以下、複数のポーズ構成推定結果のそれぞれを候補とも呼称する。
特徴量抽出部320は、各候補に対してポーズに関連する言語的特徴の特徴量325の抽出を行う。
スコア算出部330は、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に関する知見に基づいて構築されたスコア算出モデル360を用いて、各候補の特徴量325から各候補のスコア335を算出する。
候補選択部340は、スコア算出部330で算出されたスコア335が最大となる(つまり、ポーズ構成の自然性が最も高いと推定される)候補345を選択する。
以下に各部の処理の具体例を説明する。
入力: 入力テキスト、ポーズ配置推定モデル
出力: ポーズ配置推定結果Rk(k=1,…,N)
処理: 機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果Rk (k=1,…,N)を出力する。
入力: 入力テキスト、ポーズ配置推定結果Rk (k=1,…,N)、ポーズ長推定モデル
出力: ポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)
処理: 機械学習によって構築されたポーズ長推定モデルを用いて、ポーズ配置推定結果のそれぞれに対してポーズ長推定を行い、ポーズ配置推定結果ごとに一つ以上のポーズ長推定結果を求める。
入力: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)
出力: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれの特徴量Xi(k,g(k))(i=1,…,p, k=1,…,N, g(k)=1,…,Gk)
処理: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれに対して、ポーズに関連する言語的特徴の特徴量Xi(k,g(k)) (i=1,…,p, k=1,…,N, g(k)=1,…,Gk)の抽出を行う。
具体的には、特徴量抽出部320は、抽出対象のポーズ構成推定結果Vk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})を構成するポーズ配置推定結果Rk(k∈{1,…,N})とポーズ長推定結果Lk,g(k)(k∈{1,…,N}, g(k)∈{1,…,Gk})について、ポーズ配置推定結果Rk (k∈{1,…,N})のポーズに関連する一つまたは複数(以下、この数をp1とする)の言語的特徴の特徴量と、ポーズ長推定結果Lk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})のポーズに関連する一つまたは複数(以下、この数をp2とする)の言語的特徴の特徴量とを求め、両者の特徴量の組をポーズ構成推定結果Vk,g(k)(k∈{1,…,N}, g(k)∈{1,…,Gk})の特徴量とする。
便宜上、言語的特徴の種類の数をp(pは2以上の整数であり、p=p1+p2である)とし、(k,g(k)) (k∈{1,…,N}, g(k)∈{1,…,Gk})番目のポーズ構成推定結果Vk,g(k)(k∈{1,…,N}, g(k)∈{1,…,Gk})に対応するp個の特徴量(p個の言語的特徴のそれぞれを数値化したもの)をXi(k,g(k)) (i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,Gk})と定義する。
(1) ポーズ句内のモーラ数の平均
(2) ポーズ句内のモーラ数の分散
(3) ポーズ句内のモーラ数の外れ値の有無
(4) 係り受けにある区間にポーズが挿入された数
(5) 係り受けにない区間にポーズが挿入されなかった数
(6) ポーズ句内の自立語数の平均
(7) ポーズ句内の自立語数の分散
(8) ポーズ長の平均
(9) ポーズ長の分散
(10) ポーズ長の外れ値の有無
入力: スコア算出モデル、ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれの特徴量Xi(k,g(k))(i=1,…,p, k=1,…,N, g(k)=1,…,Gk)
出力: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)
処理: スコア算出モデルを用いて、ポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)のそれぞれの特徴量Xi(k,g(k)) (i=1,…,p, k=1,…,N, g(k)=1,…,Gk)に基づく、ポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k) (k=1,…,N, g(k)=1,…,Gk)を算出する。
以下に、一例として、上述の数量化II類を用いた重みの決定方法について説明する。
まず、ポーズ構成がそれぞれ異なるD個(Dは2以上の整数)の音声データを予め用意し、主観評価実験を行うことでポーズ構成の自然性の主観評価値を得る。主観評価は、被験者がそれぞれの音声を聴取し、ポーズ構成の自然性を例えば「5:非常に自然」から「1:非常に不自然」までの5段階で主観評価値をつけることによって行う。
次に、主観評価に用いたそれぞれの音声データからポーズに関するp種類の特徴量Xi(d) (i=1,…,p, d=1,…,D)を抽出する。そして、得られた自然性の主観評価値及び特徴量をその値に応じて数種類のカテゴリに分類する。カテゴライズは、例えば全ての音声データを値順に等サンプル数になるように等分割する方法が考えられる。
そして、自然性の主観評価値のカテゴリと各特徴量のカテゴリとの関係を数量化II類に基づく線形モデルによってモデル化し、特徴量の各カテゴリに対して、自然性に関する重みを決定する。数量化II類による具体的な重みの算出方法については上記参考文献1を参考にされたい。
参考として、図10に、p=8とし、特徴量抽出部320が抽出する言語的特徴を、ポーズ句内のモーラ数の平均(この特徴量を表す変数をX1とする)、係り受けにある区間にポーズが挿入された数(この特徴量を表す変数をX2とする)、ポーズ句内の自立語数の平均(この特徴量を表す変数をX3とする)、ポーズ句内のモーラ数の外れ値(μ+1σ)の有無(この特徴量を表す変数をX4とする)、ポーズ句内のモーラ数の外れ値(μ+2σ)の有無(この特徴量を表す変数をX5とする)、ポーズ句内のモーラ数の外れ値(μ-1σ)の有無(この特徴量を表す変数をX6とする)、ポーズ句内のモーラ数の外れ値(μ-2σ)の有無(この特徴量を表す変数をX7とする)、ポーズ長の平均(この特徴量を表す変数をX8とする)とした場合の各特徴量Xi(i=1,…,8)の各カテゴリにおける重みの例を示す。
以下に、スコア算出モデル360を用いたスコア算出方法を説明する。各候補つまり各ポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)について、スコア算出部330は、スコア算出対象のポーズ構成推定結果Vk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})のスコアSk,g(k)を、入力された各特徴量Xi(k,g(k)) (i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,Gk})が該当するカテゴリに割り当てられている重みを全特徴量について足し合わせることによって算出する。
i番目の言語的特徴の特徴量を表す変数Xi (i=1,…,p)がそれぞれMi(i=1,…,p)種類のカテゴリをもつとき、特徴量Xi (i=1,…,p)の各カテゴリに対して割り当てられている重みをWij(i=1,…,p, j=1,…,Mi)と定義する。また、各特徴量Xi (i=1,…,p)の各カテゴリにおいて、入力された特徴量Xi(k,g(k))(i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,Gk})が該当するカテゴリでは1、該当しないカテゴリでは0を取るようなダミー変数Cij(i=1,2,…,p, j=1,…,Mi)を定義する。つまり、ダミー変数Cijは、入力された特徴量Xi(k,g(k))(i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,Gk})に応じて、特徴量Xi (i=1,…,p)のカテゴリのうち一つだけで値1を持つ。ここで、各カテゴリに割り当てられている重みWijとダミー変数Cijを用いて、以下の式(3)によって、スコア算出対象のポーズ構成推定結果Vk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})のスコアSk,g(k)を算出する。
この具体例では、各特徴量Xi (i=1,2,3,8)のカテゴリはそれぞれ3種類(M1=M2=M3=M8=3)でいずれも「大」「中」「小」であるとする。ここでは、便宜上、j=1が「大」を指示し、j=2が「中」を指示し、j=3が「小」を指示するとする。図10から、重みWij(i=1,2,3,8, j=1,2,3)は、W11=-0.39、W12=0.44、W13=-0.08、W21=0.32、W22=-0.20、W23=-0.81、W31=-0.03、W32=0.22、W33=-0.30、W81=-0.15、W82=0.31、W83=-0.28である。さらに、ポーズ句内のモーラ数の平均の特徴量X1については、X1≧18.5なら「大」、18.5>X1≧8.3なら「中」、8.3>X1なら「小」のカテゴリに分類されるとする。係り受けにある区間にポーズが挿入された数の特徴量X2については、X2>3なら「大」、3≧X2>1なら「中」、1≧X2なら「小」のカテゴリに分類されるとする。ポーズ句内の自立語数の平均の特徴量X3については、X3≧5.5なら「大」、5.5>X3≧2.3なら「中」、2.3>X3なら「小」のカテゴリに分類されるとする。ポーズ長の平均の特徴量X8については、X8≧0.5なら「大」、0.5>X8≧0.3なら「中」、0.3>X8なら「小」のカテゴリに分類されるとする。
スコア算出対象のポーズ構成推定結果Vk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})の特徴量Xi(k,g(k))(i=1,2,3,8, k∈{1,…,N}, g(k)∈{1,…,Gk})の具体例をX1(k,g(k))=21.2、X2(k,g(k))=2、X3(k,g(k))=1.3、X8(k,g(k))=0.4とすると、この場合、特徴量X1(k,g(k))=21.2は「大」に該当するのでC11=1、C12=0、C13=0であり、特徴量X2(k,g(k))=2は「中」に該当するのでC21=0、C22=1、C23=0であり、特徴量X3(k,g(k))=1.3は「小」に該当するのでC31=0、C32=0、C33=1であり、特徴量X8(k,g(k))=0.4は「中」に該当するのでC81=0、C82=1、C83=0である。したがって、スコア算出対象のポーズ構成推定結果Vk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})のスコアSk,g(k)は、式(3)から、ゼロではないダミー係数が乗ぜられる重みの合計によって計算できるので、
S=W11+W22+W33+W82=-0.39-0.20-0.30+0.31=-0.58
となる。
このようにして、スコア算出部330は、特徴量抽出部320から出力された各候補のスコアを算出する。
入力: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)
出力: 選択されたポーズ構成推定結果を指定する情報
処理: 候補選択部340は、ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)のうち最も高いスコアSB1,B2(B1∈{1,…,N}, B2∈{1,…,Gk})を特定し、特定された最高スコアに対応するポーズ構成推定結果VB1,B2 (B1∈{1,…,N}, B2∈{1,…,Gk})を指定する情報(例えば、B1とB2の組)を出力する。
第4実施形態は第3実施形態の変形例である。第3実施形態では、候補選択部340が、スコア算出モデル360を用いて算出されたスコアが最大のポーズ構成推定結果を出力した。ここでさらに、ポーズ配置推定部310によってポーズ配置推定モデル350を用いて算出された各ポーズ配置推定結果の適正さを表す指標I1と、ポーズ長推定部310bによってポーズ長推定モデル350bを用いて算出された各ポーズ長推定結果の適正さを表す指標I2と、をスコア算出部330のスコア計算に用いることによって、学習データにおける自然性も考慮に入れることができるため、データドリブンに、より自然性が高いポーズ構成推定結果を決定できることが期待される。
同様に、この指標I2は、通常、ポーズ長推定モデル350bを用いたポーズ長推定処理でポーズ長推定結果と共に出力され、多くの場合、確率値のような数値で表されるが、大小関係が定義されていれば十分なので、0以上かつ1以下の数値に限定されるものではない。以下、この指標I2を「長さ推定スコア」と呼称する。
入力: 入力テキスト、ポーズ配置推定モデル
出力: ポーズ配置推定結果Rk(k=1,…,N)と、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれに対応する配置推定スコアYk (k=1,…,N)
処理: 機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果Rk (k=1,…,N)及びポーズ配置推定結果Rk(k=1,…,N)のそれぞれに対応する配置推定スコアYk (k=1,…,N)を出力する。
(註:第3実施形態と第4実施形態において同じ記号Nを使用しているが、その意味は異なる。第3実施形態ではNは予め定められた値であるが、第4実施形態ではNは結果として得られた値である)
入力: ポーズ配置推定結果Rk (k=1,…,N)、ポーズ長推定モデル
出力: ポーズ長推定結果Lk,g(k) (k=1,…,N, g(k)=1,…,Gk)のそれぞれに対応する長さ推定スコアZk,g(k) (k=1,…,N, g(k)=1,…,Gk)と、ポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)
処理: 機械学習によって構築されたポーズ長推定モデルを用いて、ポーズ配置推定結果のそれぞれに対してポーズ長推定を行い、ポーズ配置推定結果ごとにGk個のポーズ長推定結果と、ポーズ長推定結果Lk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれに対応する長さ推定スコアZk,g(k)(k=1,…,N, g(k)=1,…,Gk)を求める。
(註:第3実施形態と第4実施形態において同じ記号Gkを使用しているが、その意味は異なる。第3実施形態ではGkは予め定められた値であるが、第4実施形態ではGkは結果として得られた値である)
入力: スコア算出モデル、ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれの特徴量Xi(k,g(k))(i=1,…,p, k=1,…,N, g(k)=1,…,Gk)、ポーズ配置推定結果Rk(k=1,…,N)のそれぞれに対応する配置推定スコアYk (k=1,…,N)、ポーズ長推定結果Lk,g(k) (k=1,…,N, g(k)=1,…,Gk)のそれぞれに対応する長さ推定スコアZk,g(k) (k=1,…,N, g(k)=1,…,Gk)
出力: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)
処理: スコア算出モデルを用いて、ポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)のそれぞれの特徴量Xi(k,g(k)) (i=1,…,p, k=1,…,N, g(k)=1,…,Gk)と配置推定スコアYk (k=1,…,N)と長さ推定スコアZk,g(k)(k=1,…,N, g(k)=1,…,Gk)に基づくポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)を算出する。
また、スコア算出部330qは、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれの配置推定スコアYk(k=1,…,N)を平均が0、分散が1になるような線形変換によって正規化した正規化配置推定スコアYnorm,k (k=1,…,N)を求める。この線形変換は上述のとおりである。
また、スコア算出部330qは、ポーズ長推定結果Lk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれに対応する長さ推定スコアZk,g(k)(k=1,…,N, g(k)=1,…,Gk)を平均が0、分散が1になるような線形変換によって正規化した正規化長さ推定スコアZnorm,k,g(k)(k=1,…,N, g(k)=1,…,Gk)を求める。この線形変換は上述のとおりである。
第5実施形態は、入力テキストの合成音声に含まれるポーズの配置と時間長(ポーズ構成)を、合成音声の自然性を損なわず、かつ合成音声が指定された時間に終了するように調整する、音声合成におけるポーズ構成の自動推定に関する。
図13に第5実施形態のポーズ構成推定装置500の全体構成図、図14に第5実施形態の処理フローを示す。第5実施形態のポーズ構成推定装置500では、第3実施形態の候補選択部340に替えて、選出部540が含まれる。以下、第3実施形態と異なる技術事項について説明し、その他については第3実施形態と同じであるから説明を省略する。
入力: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)、生成したい合成音声の時間長
出力: 選択されたポーズ構成推定結果を指定する情報(あるいは、選択された当該ポーズ構成推定結果に対応する合成音声)
処理: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)のうち高いスコアを与えたポーズ構成推定結果から順に、ポーズ構成推定結果に対応する合成音声を生成する音声合成処理を行い、生成された合成音声の時間長と入力された時間長tとの比較を行う。両者の時間長の差が予め定められた閾値εより小さければ、このときのポーズ構成推定結果545を表す情報または当該ポーズ構成推定結果から得られた合成音声を出力して、処理を終了する。両者の時間長の差が上記閾値εより小さいと判定されなければ、次にスコアが高いポーズ構成推定結果に対して同じ処理を繰り返す。なお、閾値εは、音声合成処理によって生成された合成音声の時間長を入力された値(生成したい合成音声の時間長)に厳密に合わせなくてもよいように定めるマージンであり、利用先の状況によって閾値を定めることができて、例えば、±0.5秒程度に設定する(指定された時間に収まる音声コンテンツを作成する必要がある場合には、例えばε=-0.5[秒]に設定する)。
上述の各実施形態から明らかなように、本発明の要点の一つは、ポーズの自然性の主観評価実験によって収集したデータに基づいて構築した、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルによるポーズの自然性の客観的数値化にある。よって、第6実施形態では、入力された音声におけるポーズの自然性の評価に関わる実施形態を説明する。
(参考文献2)西崎博光、関口芳廣、"教員の話し方改善支援システムの開発に向けた講義音声の特徴分析"、日本教育工学会論文誌Vol.34(3)、pp.171-179、2010.
(参考文献3)内田照久、"音声の発話速度と休止時間が話者の性格印象と自然なわかりやすさに与える影響"、教育心理学研究Vol.53(1)、pp.1-13、2005.
音声区間検出部610は、入力された音声発話606に対して音声区間検出処理を行い、音声発話606におけるポーズの配置と時間長、つまりポーズ構成615を抽出する。
特徴量抽出部620は、取得したポーズ構成615と、発話対象のテキスト(つまり、入力音声発話に対応するテキスト)605に付与されている言語的情報(単語区切り等)と、のマッチングを行い、ポーズに関連する言語的特徴の特徴量625を抽出する。
スコア算出部630は、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に関する知見に基づいて構築されたスコア算出モデル360を用いて、特徴量625から音声発話606のスコア635を算出する。
以下に各部の処理の具体例を説明する。
入力: 音声発話
出力: 音声発話におけるポーズ構成
処理: 音声区間検出部610は、入力された音声発話606に対して音声区間検出処理を行い、当該音声発話606に含まれるポーズの配置と各ポーズの時間長、つまりポーズ構成615を検出する。
入力: ポーズ構成、発話対象のテキスト
出力: ポーズに関連する言語的特徴の特徴量
処理: 発話対象のテキストに付与されている言語的情報(単語区切り等)とポーズ構成とのマッチングを行い、ポーズに関連する言語的特徴の特徴量を抽出する。
入力: スコア算出モデル、特徴量Γi (i=1,…,p)
出力: スコアS
処理: スコア算出モデルを用いて、特徴量Γi (i=1,…,p)に基づくスコアSを算出する。
i番目の言語的特徴の特徴量を表す変数Xi (i=1,…,p)がそれぞれMi(i=1,…,p)種類のカテゴリをもつとき、特徴量Xi (i=1,…,p)の各カテゴリに対して割り当てられている重みをWij(i=1,…,p, j=1,…,Mi)と定義する。また、各特徴量Xi (i=1,…,p)の各カテゴリにおいて、入力された特徴量Γi (i=1,…,p)が該当するカテゴリでは1、該当しないカテゴリでは0を取るようなダミー変数Cij(i=1,2,…,p, j=1,…,Mi)を定義する。つまり、ダミー変数Cijは、入力された特徴量Γi(i=1,…,p)に応じて、特徴量Xi (i=1,…,p)のカテゴリのうち一つだけで値1を持つ。ここで、各カテゴリに割り当てられている重みWijとダミー変数Cijを用いて、以下の式(5)によって、発話音声606のスコアSを算出する。このスコアSが音声発話606に含まれるポーズ構成の自然性についての評価に相当する。
ポーズ配置推定装置あるいはポーズ構成推定装置あるいはポーズ自然性評価装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit)(キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (7)
- 複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出部と、
ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出部と、
各上記ポーズ推定結果のスコアと、各上記ポーズ推定結果に対応する合成音声の時間長に基づいて、合成音声の時間長が指定された時間長に適しているもののうちで最もスコアの高い合成音声を選択する選出部と
を含むポーズ推定装置。 - 複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出部と、
ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出部と
を含むポーズ推定装置であって、
上記ポーズ推定結果はポーズ配置推定結果を含み、
入力されたテキストから上記ポーズ配置推定結果と当該ポーズ配置推定結果のスコアを求めるポーズ配置推定部をさらに含み、
上記スコア算出部は、上記ポーズ推定結果のスコアを正規化したスコアと、上記ポーズ配置推定結果のスコアを正規化したスコアを用いて、上記ポーズ推定結果のスコアを算出する
ことを特徴とするポーズ推定装置。 - 複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出部と、
ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出部と
を含むポーズ推定装置であって、
上記ポーズ推定結果はポーズ配置推定結果とポーズ長推定結果を含み、
入力されたテキストから上記ポーズ配置推定結果と当該ポーズ配置推定結果のスコアを求めるポーズ配置推定部と、
入力されたテキストから上記ポーズ長推定結果と当該ポーズ長推定結果のスコアを求めるポーズ長推定部をさらに含み、
上記スコア算出部は、上記ポーズ推定結果のスコアを正規化したスコアと、上記ポーズ配置推定結果のスコアを正規化したスコアと、上記ポーズ長推定結果のスコアを正規化したスコアを用いて、上記ポーズ推定結果のスコアを算出する
ことを特徴とするポーズ推定装置。 - 特徴量抽出部が、複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出ステップと、
スコア算出部が、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出ステップと、
選出部が、各上記ポーズ推定結果のスコアと、各上記ポーズ推定結果に対応する合成音声の時間長に基づいて、合成音声の時間長が指定された時間長に適しているもののうちで最もスコアの高い合成音声を選択する選出ステップと
を有するポーズ推定方法。 - 特徴量抽出部が、複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出ステップと、
スコア算出部が、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出ステップと
を有するポーズ推定方法であって、
上記ポーズ推定結果はポーズ配置推定結果を含み、
ポーズ配置推定部が、入力されたテキストから上記ポーズ配置推定結果と当該ポーズ配置推定結果のスコアを求めるポーズ配置推定ステップをさらに有し、
上記スコア算出ステップは、上記ポーズ推定結果のスコアを正規化したスコアと、上記ポーズ配置推定結果のスコアを正規化したスコアを用いて、上記ポーズ推定結果のスコアを算出する
ことを特徴とするポーズ推定方法。 - 特徴量抽出部が、複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出ステップと、
スコア算出部が、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出ステップと
を有するポーズ推定方法であって、
上記ポーズ推定結果はポーズ配置推定結果とポーズ長推定結果を含み、
ポーズ配置推定部が、入力されたテキストから上記ポーズ配置推定結果と当該ポーズ配置推定結果のスコアを求めるポーズ配置推定ステップと、
ポーズ長推定部が、入力されたテキストから上記ポーズ長推定結果と当該ポーズ長推定結果のスコアを求めるポーズ長推定ステップをさらに有し、
上記スコア算出ステップは、上記ポーズ推定結果のスコアを正規化したスコアと、上記ポーズ配置推定結果のスコアを正規化したスコアと、上記ポーズ長推定結果のスコアを正規化したスコアを用いて、上記ポーズ推定結果のスコアを算出する
ことを特徴とするポーズ推定方法。 - 請求項1から請求項3のいずれかに記載のポーズ推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013238796A JP6193737B2 (ja) | 2013-11-19 | 2013-11-19 | ポーズ推定装置、方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013238796A JP6193737B2 (ja) | 2013-11-19 | 2013-11-19 | ポーズ推定装置、方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015099251A JP2015099251A (ja) | 2015-05-28 |
JP6193737B2 true JP6193737B2 (ja) | 2017-09-06 |
Family
ID=53375898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013238796A Expired - Fee Related JP6193737B2 (ja) | 2013-11-19 | 2013-11-19 | ポーズ推定装置、方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6193737B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6633466B2 (ja) * | 2016-07-12 | 2020-01-22 | 日本電信電話株式会社 | ポーズ長制御装置、ポーズ長制御方法、およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011186396A (ja) * | 2010-03-11 | 2011-09-22 | Oki Electric Industry Co Ltd | 音声収録装置、音声収録方法およびプログラム |
-
2013
- 2013-11-19 JP JP2013238796A patent/JP6193737B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015099251A (ja) | 2015-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Feraru et al. | Cross-language acoustic emotion recognition: An overview and some tendencies | |
MacKenzie et al. | Assessing the accuracy of existing forced alignment software on varieties of British English | |
JP6840858B2 (ja) | 発音誤り検出装置、発音誤り検出方法、プログラム | |
Weinberger et al. | The Speech Accent Archive: towards a typology of English accents | |
Gutkin et al. | TTS for low resource languages: A Bangla synthesizer | |
CN105280177A (zh) | 语音合成字典创建装置、语音合成器、以及语音合成字典创建方法 | |
JP2017058411A (ja) | 音声合成装置、音声合成方法およびプログラム | |
Narendra et al. | Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis | |
Meng et al. | Synthesizing English emphatic speech for multimodal corrective feedback in computer-aided pronunciation training | |
CN104700831B (zh) | 分析音频文件的语音特征的方法和装置 | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
Gutkin et al. | Building statistical parametric multi-speaker synthesis for bangladeshi bangla | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
US10978076B2 (en) | Speaker retrieval device, speaker retrieval method, and computer program product | |
JP6193737B2 (ja) | ポーズ推定装置、方法、プログラム | |
Vidal et al. | EpaDB: A Database for Development of Pronunciation Assessment Systems. | |
Mohammed et al. | Recognition of holy Quran recitation rules using phoneme duration | |
Yarra et al. | Automatic intonation classification using temporal patterns in utterance-level pitch contour and perceptually motivated pitch transformation | |
Mustafa et al. | Developing an HMM-based speech synthesis system for Malay: a comparison of iterative and isolated unit training | |
Ng et al. | Shefce: A Cantonese-English bilingual speech corpus for pronunciation assessment | |
Oumaima et al. | Modern Arabic speech corpus for text to speech synthesis | |
Kessens et al. | The selection of pronunciation variants: comparing the performance of man and machine | |
Vidal et al. | Phone-Level Pronunciation Scoring for Spanish Speakers Learning English Using a GOP-DNN System. | |
Jouvet | Speech processing and prosody |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170526 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170810 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6193737 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |