JP6193737B2 - ポーズ推定装置、方法、プログラム - Google Patents

ポーズ推定装置、方法、プログラム Download PDF

Info

Publication number
JP6193737B2
JP6193737B2 JP2013238796A JP2013238796A JP6193737B2 JP 6193737 B2 JP6193737 B2 JP 6193737B2 JP 2013238796 A JP2013238796 A JP 2013238796A JP 2013238796 A JP2013238796 A JP 2013238796A JP 6193737 B2 JP6193737 B2 JP 6193737B2
Authority
JP
Japan
Prior art keywords
pose
score
estimation
estimation result
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013238796A
Other languages
English (en)
Other versions
JP2015099251A (ja
Inventor
博子 武藤
博子 武藤
勇祐 井島
勇祐 井島
水野 秀之
秀之 水野
宮崎 昇
昇 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013238796A priority Critical patent/JP6193737B2/ja
Publication of JP2015099251A publication Critical patent/JP2015099251A/ja
Application granted granted Critical
Publication of JP6193737B2 publication Critical patent/JP6193737B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自然性の高いポーズ(「間」とも呼ばれる無音時間)の推定に関するポーズ推定技術に関する。
従来、音声合成におけるポーズ位置およびポーズ長の推定には、人手で設計した規則を用いる手法と、ポーズ位置とポーズ長が付与された学習データを用いて機械学習によってモデル化する手法が用いられてきた。
規則を用いる手法としては、例えば非特許文献1に開示される技術が挙げられる。非特許文献1に開示される手法は、特定の句構造のときに性質の異なる長短2種類のポーズが挿入されることを読み上げ口調の音声データを用いた分析によって定量的に明らかにし、これらの特徴に基づいたポーズの挿入規則を作成している。
また、機械学習を用いる手法としては、ポーズ位置の推定については、例えば非特許文献2に開示される技術が挙げられる。非特許文献2に開示される手法は、機械学習の一つであるCRF(Conditional Random Fields;条件付き確率場)モデルを用いて、表記、読み等の一般的な特徴量とポーズ位置との関係をモデル化し、学習で得られたモデルをポーズ位置の推定に用いている。また、ポーズ長の推定については、例えば非特許文献3に開示される技術が挙げられる。非特許文献3に開示される手法は、予め推定されたポーズ位置に対して、HMM(Hidden Markov Model;隠れマルコフモデル)に基づいた音素の継続時間長推定の一環でポーズ長を推定しており、現在、一般的に用いられるようになってきている。
海木延佳、匂坂芳典、"局所的な句構造によるポーズ挿入規則化の検討"、電子情報通信学会論文誌 D-II 情報・システム II-情報処理 J79-D-2(9)、pp.1455-1463、1996-09-25. 太田健吾、土屋雅稔、中川聖一、"ポーズを考慮した話し言葉言語モデルの構築"、情報処理学会論文誌Vol.53(2)、pp.889-900、2012/02/15. 吉村貴克、徳田恵一、益子貴史、小林隆夫、北村正、"HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化"、電子情報通信学会論文誌 D-II 情報・システム II-情報処理 J83-D-II(12)、pp.2099-2107、2000.
規則を用いた上記手法は、設計対象の口調(一般的には汎用的な読み上げ口調)に特化したポーズ挿入を行い、それ以外の口調(例えば童話口調、広告口調、口語口調など)に対応することができないため、口調の多様性を十分に表現することが難しい。多様な口調に対応するためには、音声合成対象の口調に対応する規則を人手で設計し直す必要があるが、それには高いコストがかかる。
この点、機械学習による上記方法は、設計対象の口調の自然な発話のポーズ位置とポーズ長を学習データとすることで、データドリブンに、音声合成対象の口調に対応したポーズ位置・ポーズ長推定モデルを構築することができる。しかし、ポーズ位置は複数の正解が存在し学習データがばらつくため、機械学習によるモデル化が難しく、高い推定精度が得られにくい(つまり、自然性の高い合成音声を生成することが難しい)。また、ポーズの位置とポーズ長をそれぞれ別の系で推定しているため、ポーズ位置とポーズ長が同時に最適(つまり、最も自然)となるようなポーズの位置とポーズ長を推定するのが容易ではない。
このような状況を鑑みて、本発明は、自然性の高いポーズの推定に関するポーズ推定技術を提供することを目的とする。
本発明のポーズ推定技術は、複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量を抽出し、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各ポーズ推定結果の特徴量に基づく各ポーズ推定結果のスコアを算出する。
本発明によると、上述のようなスコア算出モデルを用いてポーズ推定結果のスコアを得るので、自然性の高いポーズを推定することができる。
第1実施形態のポーズ配置推定装置の機能構成例を示す図。 第1実施形態の処理フロー例を示す図。 ポーズ配置推定結果の例を示す図。 スコア算出モデルにおける重みの例を示す図。 第2実施形態のポーズ配置推定装置の機能構成例を示す図。 第2実施形態の処理フロー例を示す図。 第3実施形態のポーズ構成推定装置の機能構成例を示す図。 第3実施形態の処理フロー例を示す図。 ポーズ構成推定結果の例を示す図。 スコア算出モデルにおける重みの例を示す図。 第4実施形態のポーズ構成推定装置の機能構成例を示す図。 第4実施形態の処理フロー例を示す図。 第5実施形態のポーズ構成推定装置の機能構成例を示す図。 第5実施形態の処理フロー例を示す図。 第5実施形態の変形例のポーズ構成推定装置の機能構成例を示す図。 第5実施形態の変形例の処理フロー例を示す図。 第6実施形態のポーズ自然性評価装置の機能構成例を示す図。 第6実施形態の処理フロー例を示す図。 ポーズ構成のラベルが付与された入力テキストの例を示す図。
図面を参照しながら、本発明の実施形態を説明する。なお、同じ構成要素には同じ符号を割り当てている。
<第1実施形態>
第1実施形態は、所与の音声データに付与されたポーズの位置の組であるポーズ配置(一つのポーズ配置には、0個または1個以上のポーズが含まれるとする)の自然性に関する主観評価実験結果から、ポーズ配置の自然性とポーズに関連する様々な言語的特徴との関係をモデル化し、得られたモデルをポーズ配置推定に利用することによって、自然性が高い合成音声の生成を可能とする機械学習に基づくポーズ配置の自動推定に関する。
まず、ポーズ配置が異なる複数の音声データを用いた主観評価実験によって収集したデータをもとに、ポーズ配置の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを構築する。そして、構築されたスコア算出モデルを用いて、機械学習によって取り得る確率が高いと推定されたポーズ配置の推定結果をポーズ配置の自然性の観点でスコアリングし、スコアが最大となる(つまり、ポーズ配置の自然性が最も高いと推定される)ポーズ配置推定結果を出力する。
第1実施形態のポーズ配置推定装置100は、ポーズ配置推定部110、特徴量抽出部120、スコア算出部130、候補選択部140、図示しない記憶部を含んで構成される。記憶部には、後述するポーズ配置推定モデル150とスコア算出モデル160が予め記憶されている。図1にポーズ配置推定装置100の機能構成図、図2に第1実施形態の処理フローを示す。
ポーズ配置推定部110は、機械学習によって構築されたポーズ配置推定モデル150を用いて入力されたテキスト105に対してポーズ配置推定を行い、複数のポーズ配置推定結果を出力する(以下、第1実施形態および後述する第2実施形態では、複数のポーズ配置推定結果のそれぞれを候補115とも呼称する)。
特徴量抽出部120は、各候補115に対してポーズに関連する言語的特徴の特徴量125の抽出を行う。
スコア算出部130は、ポーズ配置の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に関する知見に基づいて構築されたスコア算出モデル160を用いて、各候補115の特徴量125から各候補115のスコア135を算出する。
候補選択部140は、スコア算出部130で算出されたスコア135が最大となる(つまり、最も自然性が高いと推定される)候補145を選択する。
以下に各部の処理の具体例を説明する。
[ポーズ配置推定部110−ステップS1]
入力: 入力テキスト、ポーズ配置推定モデル
出力: ポーズ配置推定結果Rk(k=1,…,N)
処理: 機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果Rk (k=1,…,N)を出力する。
入力テキスト105は単語ごとに分かち書きされたテキストデータであり、各単語には品詞、読み、モーラ数、係り受けの有無等の様々な言語情報が付与されている。
ポーズ配置推定部110は、入力テキスト105に含まれる各単語に対して、単語の直後にポーズが挿入されるか否かを推定して、入力テキスト105にポーズ有無ラベルを付与する。ポーズが挿入されると推定された位置の組であるポーズ配置(ただし、一つのポーズ配置には、0個または1個以上のポーズが含まれるとする)に係る推定結果が一つの「ポーズ配置推定結果」である。この推定には、予めポーズ有無ラベルが付与された学習データを用いて各単語の言語情報とポーズ配置との関係を学習したポーズ配置推定モデル150が用いられる。モデル化には、N-gramモデルやCRFモデル等の、ポーズ配置推定結果の適正さを表す指標を得ることができる確率モデルに基づく機械学習を用いる。具体的なモデルの構築方法については、例えば上記非特許文献2を参考にされたい。
結果として、ポーズ配置推定部110は、ポーズ配置推定モデル150から算出されるポーズ配置推定結果の指標が高い順にN個(Nは2以上の整数)のポーズ配置推定結果Rk (k=1,…,N) (いわゆるN-bestである)を出力する。これらN個のポーズ配置推定結果Rk (k=1,…,N)のそれぞれが、自然性の高い合成音声の生成を可能とするポーズ配置の候補115である。入力テキスト105に対する一つの候補115の例を図3に示す。図3の例では、単語直後のポーズの有無を表すラベル(つまり、ポーズ有無ラベル)が付与されており、単語直後にポーズが有る場合には記号"P"のラベルが、無い場合には記号"-"のラベルが、単語ごとに付与されている。
[特徴量抽出部120−ステップS2]
入力: ポーズ配置推定結果Rk(k=1,…,N)
出力: ポーズ配置推定結果Rk(k=1,…,N)のそれぞれの特徴量Xi(k) (i=1,…,p, k=1,…,N)
処理: ポーズ配置推定結果Rk(k=1,…,N)のそれぞれに対して、ポーズに関連する言語的特徴の特徴量Xi(k)(i=1,…,p, k=1,…,N)の抽出を行う。
特徴量抽出部120は、N個のポーズ配置推定結果Rk(k=1,…,N)つまりN個の候補115に対して、候補115ごとに、ポーズに関連する一つまたは複数の言語的特徴の特徴量125を抽出する。便宜上、言語的特徴の種類の数をp(pは1以上の整数)とし、k番目のポーズ配置推定結果Rk (k∈{1,…,N})に対応するp個の特徴量(p個の言語的特徴のそれぞれを数値化したもの)をXi(k) (i=1,…,p, k∈{1,…,N})と定義する。
抽出する言語的特徴の例として下記のような言語的特徴が挙げられる。なお、ポーズ句は、ポーズとポーズに挟まれた区間のことである。
(1) ポーズ句内のモーラ数の平均
(2) ポーズ句内のモーラ数の分散
(3) ポーズ句内のモーラ数の外れ値の有無
(4) 係り受けにある区間にポーズが挿入された数
(5) 係り受けにない区間にポーズが挿入されなかった数
(6) ポーズ句内の自立語数の平均
(7) ポーズ句内の自立語数の分散
ポーズ句内のモーラ数の外れ値としては、例えば、主観評価実験に用いた全データから予め算出したポーズ句のモーラ数の平均長をμ、標準偏差をσとして、μ+1σ, μ+2σ, μ-1σ, μ-2σなどの数値を例示できる。外れ値の有無の判定は、例えば、外れ値をμ+2σとした場合、判定対象の候補115に含まれるポーズの推定位置によって得られる各ポーズ句についてモーラ数をそれぞれ求め、これらのモーラ数の全てが[μ, μ+2σ]の範囲内にあれば無し、これらのモーラ数のうち一つでも[μ, μ+2σ]の範囲内に無ければ有り、と判定し、当該候補115について外れ値の有無に関するフラグを出力する(この処理は各候補115について行われる)。
なお、上記例示した全ての種類の言語的特徴を用いる必要はなく、「ポーズ句内のモーラ数の平均」、「ポーズ句内のモーラ数の外れ値の有無」、「係り受けにある区間にポーズが挿入された数」、「係り受けにない区間にポーズが挿入されなかった数」のいずれか一つ以上の特徴量を抽出すればよい。
また、図3では、係り受けに関する項目が記載されていないが、係り受けに関する特徴量を抽出する場合には、係り受けに関する項目が言語的特徴として入力されている必要がある。
[スコア算出部130−ステップS3]
入力: スコア算出モデル、ポーズ配置推定結果Rk(k=1,…,N)のそれぞれの特徴量Xi(k) (i=1,…,p, k=1,…,N)
出力: ポーズ配置推定結果Rk(k=1,…,N)のそれぞれのスコアSk (k=1,…,N)
処理: スコア算出モデルを用いて、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれの特徴量Xi(k)(i=1,…,p, k=1,…,N)に基づくポーズ配置推定結果Rk (k=1,…,N)のそれぞれのスコアSk (k=1,…,N)を算出する。
スコアの算出には、ポーズ配置の自然性の主観評価実験によって収集したデータをもとに、ポーズ配置の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係をモデル化したスコア算出モデル160を用いる。スコア算出モデル160には各特徴量の値に応じた重みが割り当てられており、特徴量が入力されると重みを用いたスコアの計算が行われる。この例では、重みは、自然性の高いポーズ配置に関連する特徴量が入力されると高いスコアを、逆に自然性の低いポーズ配置に関連する特徴量が入力されると低いスコアを算出するよう設計されている。以下に、スコア算出モデル160の重みの決定方法、及びスコアの算出方法について説明する。
・スコア算出モデルの重みの決定方法
以下に、一例として、数量化II類を用いた重みの決定方法について説明する。数量化II類とは、カテゴリに分類された既知のデータをもとに、新しいサンプルがどのカテゴリに属するかの判別に利用可能なデータ分析法の一つである。
まず、ポーズ配置がそれぞれ異なるD個(Dは2以上の整数)の音声データを予め用意し、主観評価実験を行うことでポーズ配置の自然性の主観評価値を得る。主観評価は、被験者がそれぞれの音声を聴取し、ポーズ配置の自然性を例えば「5:非常に自然」から「1:非常に不自然」までの5段階で主観評価値をつけることによって行う。
次に、主観評価に用いたそれぞれの音声データからポーズに関するp種類の特徴量Xi(d) (i=1,…,p, d=1,…,D)を抽出する。そして、得られた自然性の主観評価値及び特徴量をその値に応じて数種類のカテゴリに分類する。カテゴライズは、例えば全ての音声データを値順に等サンプル数になるように等分割する方法が考えられる。
そして、自然性の主観評価値のカテゴリと各特徴量のカテゴリとの関係を数量化II類に基づく線形モデルによってモデル化し、特徴量の各カテゴリに対して、自然性に関する重みを決定する。数量化II類による具体的な重みの算出方法については下記参考文献1を参考にされたい。
参考として、図4に、p=7とし、特徴量抽出部120が抽出する言語的特徴を、ポーズ句内のモーラ数の平均(この特徴量を表す変数をX1とする)、係り受けにある区間にポーズが挿入された数(この特徴量を表す変数をX2とする)、ポーズ句内の自立語数の平均(この特徴量を表す変数をX3とする)、ポーズ句内のモーラ数の外れ値(μ+1σ)の有無(この特徴量を表す変数をX4とする)、ポーズ句内のモーラ数の外れ値(μ+2σ)の有無(この特徴量を表す変数をX5とする)、ポーズ句内のモーラ数の外れ値(μ-1σ)の有無(この特徴量を表す変数をX6とする)、ポーズ句内のモーラ数の外れ値(μ-2σ)の有無(この特徴量を表す変数をX7とする)、とした場合の各特徴量Xi(i=1,…,7)の各カテゴリにおける重みの例を示す。
(参考文献1)菅民郎、藤越康祝、「質的データの判別分析 数量化2類」、現代数学社、2011/04.
・スコア算出モデルを用いたスコア算出方法
以下に、スコア算出モデル160を用いたスコア算出方法を説明する。各候補115つまり各ポーズ配置推定結果Rk (k=1,…,N)について、スコア算出部130は、スコア算出対象のポーズ配置推定結果Rk (k∈{1,…,N})のスコアSkを、入力された各特徴量Xi(k)(i=1,…,p, k∈{1,…,N})が該当するカテゴリに割り当てられている重みを全特徴量について足し合わせることによって算出する。
i番目の言語的特徴の特徴量を表す変数Xi (i=1,…,p)がそれぞれMi(i=1,…,p)種類のカテゴリをもつとき、特徴量Xi (i=1,…,p)の各カテゴリに対して割り当てられている重みをWij(i=1,…,p, j=1,…,Mi)と定義する。また、各特徴量Xi (i=1,…,p)の各カテゴリにおいて、入力された特徴量Xi(k)(i=1,…,p, k∈{1,…,N})が該当するカテゴリでは1、該当しないカテゴリでは0を取るようなダミー変数Cij(i=1,2,…,p, j=1,…,Mi)を定義する。つまり、ダミー変数Cijは、入力された特徴量Xi(k)(i=1,…,p, k∈{1,…,N})に応じて、特徴量Xi(i=1,…,p)のカテゴリのうち一つだけで値1を持つ。ここで、各カテゴリに割り当てられている重みWijとダミー変数Cijを用いて、以下の式(1)によって、スコア算出対象のポーズ配置推定結果Rk (k∈{1,…,N})のスコアSkを算出する。
Figure 0006193737
具体例として、p=3とし、特徴量抽出部120が抽出する言語的特徴を、ポーズ句内のモーラ数の平均(この特徴量を表す変数をX1とする)、係り受けにある区間にポーズが挿入された数(この特徴量を表す変数をX2とする)、ポーズ句内の自立語数の平均(この特徴量を表す変数をX3とする)、とした場合における或る候補115のスコアの計算を図4を参照して説明する。
この具体例では、各特徴量Xi (i=1,2,3)のカテゴリはそれぞれ3種類(M1=M2=M3=3)でいずれも「大」「中」「小」であるとする。ここでは、便宜上、j=1が「大」を指示し、j=2が「中」を指示し、j=3が「小」を指示するとする。図4から、重みWij(i=1,2,3, j=1,2,3)は、W11=-0.39、W12=0.44、W13=-0.08、W21=0.32、W22=-0.20、W23=-0.81、W31=-0.03、W32=0.22、W33=-0.30である。さらに、ポーズ句内のモーラ数の平均の特徴量X1については、X1≧18.5なら「大」、18.5>X1≧8.3なら「中」、8.3>X1なら「小」のカテゴリに分類されるとする。係り受けにある区間にポーズが挿入された数の特徴量X2については、X2>3なら「大」、3≧X2>1なら「中」、1≧X2なら「小」のカテゴリに分類されるとする。ポーズ句内の自立語数の平均の特徴量X3については、X3≧5.5なら「大」、5.5>X3≧2.3なら「中」、2.3>X3なら「小」のカテゴリに分類されるとする。
スコア算出対象のポーズ配置推定結果Rk (k∈{1,…,N})の特徴量Xi(k) (i=1,2,3, k∈{1,…,N})の具体例をX1(k)=21.2、X2(k)=2、X3(k)=1.3とすると、この場合、特徴量X1(k)=21.2は「大」に該当するのでC11=1、C12=0、C13=0であり、特徴量X2(k)=2は「中」に該当するのでC21=0、C22=1、C23=0であり、特徴量X3(k)=1.3は「小」に該当するのでC31=0、C32=0、C33=1である。したがって、スコア算出対象のポーズ配置推定結果Rk(k∈{1,…,N})のスコアSkは、式(1)から、ゼロではないダミー係数が乗ぜられる重みの合計によって計算できるので、
S=W11+W22+W33=-0.39-0.20-0.30=-0.89
となる。
このようにして、スコア算出部130は、特徴量抽出部120から出力された各候補115のスコアを算出する。
[候補選択部140−ステップS4]
入力: ポーズ配置推定結果Rk(k=1,…,N)のそれぞれのスコアSk (k=1,…,N)
出力: 選択されたポーズ配置推定結果を指定する情報
処理: 候補選択部140は、ポーズ配置推定結果Rk(k=1,…,N)のそれぞれのスコアSk (k=1,…,N)のうち最も高いスコアSB (B∈{1,…,N})を特定し、特定された最高スコアに対応するポーズ配置推定結果RB (B∈{1,…,N})を指定する情報(例えば、B)を出力する。
つまり、複数の候補115のうち最高スコアに対応する候補が、最も自然性が高いポーズであると推定される候補145である。
<第2実施形態>
第2実施形態は第1実施形態の変形例である。第1実施形態では、候補選択部140が、スコア算出モデル160を用いて算出されたスコアが最大のポーズ配置推定結果を出力した。ここでさらに、ポーズ配置推定部110によってポーズ配置推定モデル150を用いて算出された各ポーズ配置推定結果の適正さを表す指標をスコア算出部130のスコア計算に用いることによって、学習データにおける自然性も考慮に入れることができるため、データドリブンに、より自然性が高いポーズ配置推定結果を決定できることが期待される。
この指標は、通常、ポーズ配置推定モデル150を用いたポーズ配置推定処理でポーズ配置推定結果と共に出力され、多くの場合、確率値のような数値で表されるが、大小関係が定義されていれば十分なので、0以上かつ1以下の数値に限定されるものではない。以下、この指標を「推定スコア」と呼称する。
ポーズ配置推定モデル150を用いて算出されるポーズ配置推定結果の推定スコア115aは、学習データである設計対象の口調の自然な発話のポーズ配置に基づいて算出される。このため、或る候補の推定スコアが他の候補の推定スコアと比べて相対的に低い(例えば1-bestの候補の推定スコアの1/10程度)場合は、学習データにおいて挿入されるのが稀な位置にポーズが挿入されている可能性が高く、候補として適切ではないことが想定される。このようなポーズ配置推定結果は予め候補群から除き、また、スコア算出においても推定スコアを明示的に利用することで、学習データに適し、かつ自然性が高いような結果を出力することが期待できる。
図5に第2実施形態のポーズ配置推定装置200の全体構成図、図6に第2実施形態の処理フローを示す。第2実施形態のポーズ配置推定装置200では、第1実施形態のポーズ配置推定部110及びスコア算出部130に替えて、ポーズ配置推定部110a及びスコア算出部130aが含まれる。以下、第1実施形態と異なる技術事項について説明し、その他については第1実施形態と同じであるから説明を省略する。
[ポーズ配置推定部110a−ステップS1a]
入力: 入力テキスト、ポーズ配置推定モデル
出力: ポーズ配置推定結果Rk(k=1,…,N)と、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれに対応する推定スコアYk (k=1,…,N)
処理: 機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果Rk (k=1,…,N)及びポーズ配置推定結果Rk(k=1,…,N)のそれぞれに対応する推定スコアYk (k=1,…,N)を出力する。
ポーズ配置推定部110aは、ポーズ配置推定モデル150から算出される推定スコア115aが閾値以上(例えば1-bestの推定スコアの1/5以上)である上位N個(Nは2以上の整数)のポーズ配置推定結果Rk (k=1,…,N)と、ポーズ配置推定結果Rk(k=1,…,N)のそれぞれに対応する推定スコアYk (k=1,…,N)を出力する。このため、候補としてふさわしくないと予想される推定スコアの低い結果が排除される。
(註:第1実施形態と第2実施形態において同じ記号Nを使用しているが、その意味は異なる。第1実施形態ではNは予め定められた値であるが、第2実施形態ではNは結果として得られた値である)
これらN個のポーズ配置推定結果Rk(k=1,…,N)のそれぞれが、自然性の高い合成音声の生成を可能とするポーズ配置の候補115である。
[スコア算出部130a−ステップS3a]
入力: スコア算出モデル、ポーズ配置推定結果Rk(k=1,…,N)のそれぞれの特徴量Xi(k) (i=1,…,p, k=1,…,N)、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれの推定スコアYk(k=1,…,N)
出力: ポーズ配置推定結果Rk(k=1,…,N)のそれぞれのスコアSk (k=1,…,N)
処理: スコア算出モデルを用いて、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれの特徴量Xi(k)(i=1,…,p, k=1,…,N)と推定スコアYk (k=1,…,N)に基づくポーズ配置推定結果Rk (k=1,…,N)のそれぞれのスコアSk(k=1,…,N)を算出する。
まず、各候補115つまり各ポーズ配置推定結果Rk(k=1,…,N)について、スコア算出部130aは、スコア算出対象のポーズ配置推定結果Rk(k∈{1,…,N})のスコアStemp,kを、入力された各特徴量Xi(k) (i=1,…,p, k∈{1,…,N})が該当するカテゴリに割り当てられている重みを全特徴量について足し合わせることによって算出する(この処理は第1実施形態のステップS3の処理と同じであり、当該説明中、SkをStemp,kに読み替えればよい)。そして、スコア算出部130aは、Stemp,k (k=1,…,N)を平均が0、分散が1になるような線形変換によって正規化したスコアSnorm,k(k=1,…,N)を求める。この線形変換の具体例は次のとおりである。Stemp,k(k=1,…,N)の平均をμ、分散をσ2としたとき、線形変換は、aμ+b=0、a2σ2=1を満たすa,bによって、Snorm,k=a Stemp,k + b (k=1,…,N)で与えられる。
また、スコア算出部130aは、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれの推定スコアYk(k=1,…,N)を平均が0、分散が1になるような線形変換によって正規化したスコアYnorm,k (k=1,…,N)を求める。この線形変換は上述のとおりである。
そして、スコア算出部130aは、各kについて、ポーズ配置推定結果Rk (k∈{1,…,N})のスコアSkを、正規化されたスコアSnorm,kとスコアYnorm,kの和として求める(式(2)参照)。なお、式(2)において、スコアYnorm,kに乗ぜられるαは、スコアSkの算出におけるスコアYnorm,kの影響を調整する重み係数であり、例えば予め定められたゼロ以外の定数とする。
Figure 0006193737
第1実施形態または第2実施形態によると、ポーズ配置の自然性とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを用いて、機械学習に基づいて得られた複数のポーズ配置推定結果から最も自然性が高いと推定されるポーズ配置推定結果を選択することで、自然性が高い合成音声を生成可能なポーズ配置推定結果を得ることができる。
なお、第1実施形態または第2実施形態において、スコア算出モデル160に替えて、第3実施形態で説明するスコア算出モデル360を用いることもできる。
<第3実施形態>
第3実施形態は、所与の音声データに付与されたポーズの位置の組であるポーズ配置(一つのポーズ配置には、0個または1個以上のポーズが含まれるとする)と各ポーズのポーズ長とによって表されるポーズ構成の自然性に関する主観評価実験結果から、ポーズ構成の自然性とポーズに関連する様々な言語的特徴との関係をモデル化し、得られたモデルをポーズ構成の推定に利用することによって、自然性が高い合成音声の生成を可能とする機械学習に基づくポーズ構成の自動推定に関する。
まず、ポーズ構成が互いに異なる複数の音声データを用いた主観評価実験によって収集したデータをもとに、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを構築する。第3実施形態のスコア算出モデルは、ポーズ長の自然性も考慮されている点で、第1実施形態あるいは第2実施形態におけるスコア算出モデルとは異なる。そして、構築されたスコア算出モデルを用いて、機械学習によって取り得る確率が高いと推定されたポーズ構成の推定結果をポーズ構成の自然性の観点でスコアリングし、スコアが最大となる(つまり、ポーズ構成の自然性が最も高いと推定される)ポーズ構成推定結果を出力する。
第3実施形態のポーズ構成推定装置300は、ポーズ配置推定部310、ポーズ長推定部310b、特徴量抽出部320、スコア算出部330、候補選択部340、図示しない記憶部を含んで構成される。記憶部には、後述するポーズ配置推定モデル350、ポーズ長推定モデル350b、スコア算出モデル360が予め記憶されている。図7にポーズ構成推定装置300の機能構成図、図8に第3実施形態の処理フローを示す。
ポーズ配置推定部310は、機械学習によって構築されたポーズ配置推定モデル350を用いて入力されたテキスト305に対してポーズ配置推定を行い、複数のポーズ配置推定結果315を出力する。
ポーズ長推定部310bは、機械学習によって構築されたポーズ長推定モデル350bを用いて、ポーズ配置推定結果のそれぞれに対してポーズ長推定を行い、ポーズ配置推定結果ごとに複数のポーズ長推定結果を求める。このため、例えば、ポーズ配置推定結果ごとにG個のポーズ長推定結果が出力されるとすると、結果的に、ポーズ長推定部310bが、ポーズ配置N種×ポーズ長G種の総計N×G個のポーズ構成推定結果315bを出力することになる。以下、複数のポーズ構成推定結果のそれぞれを候補とも呼称する。
特徴量抽出部320は、各候補に対してポーズに関連する言語的特徴の特徴量325の抽出を行う。
スコア算出部330は、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に関する知見に基づいて構築されたスコア算出モデル360を用いて、各候補の特徴量325から各候補のスコア335を算出する。
候補選択部340は、スコア算出部330で算出されたスコア335が最大となる(つまり、ポーズ構成の自然性が最も高いと推定される)候補345を選択する。
以下に各部の処理の具体例を説明する。
[ポーズ配置推定部310−ステップS31]
入力: 入力テキスト、ポーズ配置推定モデル
出力: ポーズ配置推定結果Rk(k=1,…,N)
処理: 機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果Rk (k=1,…,N)を出力する。
入力テキスト305は単語ごとに分かち書きされたテキストデータであり、各単語には品詞、読み、モーラ数、係り受けの有無等の様々な言語情報が付与されている。
ポーズ配置推定部310は、入力テキスト305に含まれる各単語に対して、単語の直後にポーズが挿入されるか否かを推定して、入力テキスト305にポーズ有無ラベルを付与する。ポーズが挿入されると推定された位置の組であるポーズ配置(ただし、一つのポーズ配置には、0個または1個以上のポーズが含まれるとする)に係る推定結果が一つの「ポーズ配置推定結果」である。この推定には、予めポーズ有無ラベルが付与された学習データを用いて各単語の言語情報とポーズ配置との関係を学習したポーズ配置推定モデル350が用いられる。モデル化には、N-gramモデルやCRFモデル等の、ポーズ配置推定結果の適正さを表す指標を得ることができる確率モデルに基づく機械学習を用いる。具体的なモデルの構築方法については、例えば上記非特許文献2を参考にされたい。
結果として、ポーズ配置推定部310は、ポーズ配置推定モデル350から算出されるポーズ配置推定結果の指標が高い順にN個(Nは2以上の整数)のポーズ配置推定結果Rk (k=1,…,N) (いわゆるN-bestである)を出力する。
[ポーズ長推定部310b−ステップS31b]
入力: 入力テキスト、ポーズ配置推定結果Rk (k=1,…,N)、ポーズ長推定モデル
出力: ポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)
処理: 機械学習によって構築されたポーズ長推定モデルを用いて、ポーズ配置推定結果のそれぞれに対してポーズ長推定を行い、ポーズ配置推定結果ごとに一つ以上のポーズ長推定結果を求める。
ポーズ配置推定結果Rk (k=1,…,N)のそれぞれについて、ポーズ長推定部310bは、ポーズ長推定対象のポーズ配置推定結果Rk(k∈{1,…,N})に含まれるポーズの推定位置に対応する各ポーズのポーズ長を推定する。一つのポーズ配置推定結果について推定された各ポーズのポーズ長からなる一つの組が、一つの「ポーズ長推定結果」である。
この例のポーズ長推定では、秒数などが直接推定されるのではなく、例えば3〜5種類程度に量子化したポーズ長のラベルが推定される。ラベルのカテゴリは、例えば、ポーズ長が0.3秒以下であればショートポーズ(<sp>)、ポーズ長が0.3秒より長く0.5秒未満であればミディアムポーズ(<mp>)、ポーズ長が0.5秒以上であればロングポーズ(<lp>)、のように分類されている。
ポーズ長の推定には、ポーズ配置と各ポーズのポーズ長のラベルが付与された学習データを用いて、言語情報とポーズ配置とポーズ長との関係を学習したポーズ長推定モデル350bを用いる。モデル化には、ポーズ配置推定モデル350と同様に、CRFモデル、N-gramモデル等の推定された各ポーズのポーズ長からなる組(つまり、ポーズ長推定結果)の適切さを表す指標を得ることができるような確率モデルに基づく機械学習を用いる。なお、ポーズ長推定部310bに入力されるテキストの言語情報としては、ポーズ配置推定部310に入力されたテキスト305の言語情報と同じでもよいし、ポーズ長の推定に有効と考えられる言語情報が追加されたものでもよい。
ポーズ配置推定結果Rk(k=1,…,N)のそれぞれについて、ポーズ長推定部310bは、ポーズ長推定対象のポーズ配置推定結果Rk (k∈{1,…,N})につき、ポーズ長推定モデル350bから算出されるポーズ長推定結果の指標が高い順にGk個(Gkはkに対応して定められた1以上の整数)のポーズ長推定結果Lk,g(k)(k∈{1,…,N}, g(k)=1,…,Gk)を出力する(Gk-best)。したがって、ポーズ長推定部310bは、Σk=1 NGk個のポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)つまりV1,1, …, V1,g(1), V2,1, …, V2,g(2), VN,1, …, VN,g(N)を出力することになる。これらΣk=1 NGk個のポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれが、自然性の高い合成音声の生成を可能とするポーズ構成の候補である。なお、一つのポーズ配置推定結果と一つのポーズ長推定結果との組が、一つの「ポーズ構成推定結果」である。仮にG1=G2=…=GN=Gであれば、ポーズ長推定部310bは、ポーズ配置N種×ポーズ長G種の総計N×G個のポーズ構成推定結果を出力することになる。また、計算量を減らすために、Gk(k=1,…,N)の値を(広義)単調減少に設定、つまり、1-bestに対するG1の値を最も大きく、N-bestに対するGNの値を最も小さく、設定してもよい。例えば、G1>G2≧G3>…>GNのように設定してもよい。
一つのポーズ配置推定結果に対する一つのポーズ長推定結果の例(つまり、ポーズ構成推定結果の例)を図9に示す。なお、図9では、ポーズ配置推定と同じく、単語単位でポーズ長を学習したモデルに基づくポーズ長推定の例を示したが、より長い句の単位、例えば、文節ごと、ポーズ句ごとに学習することも可能である。
[特徴量抽出部320−ステップS32]
入力: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)
出力: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれの特徴量Xi(k,g(k))(i=1,…,p, k=1,…,N, g(k)=1,…,Gk)
処理: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれに対して、ポーズに関連する言語的特徴の特徴量Xi(k,g(k)) (i=1,…,p, k=1,…,N, g(k)=1,…,Gk)の抽出を行う。
特徴量抽出部320は、Σk=1 NGk個のポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)つまりΣk=1 NGk個の候補に対して、候補ごとに、ポーズに関連する一つまたは複数の言語的特徴の特徴量325を抽出する。
具体的には、特徴量抽出部320は、抽出対象のポーズ構成推定結果Vk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})を構成するポーズ配置推定結果Rk(k∈{1,…,N})とポーズ長推定結果Lk,g(k)(k∈{1,…,N}, g(k)∈{1,…,Gk})について、ポーズ配置推定結果Rk (k∈{1,…,N})のポーズに関連する一つまたは複数(以下、この数をp1とする)の言語的特徴の特徴量と、ポーズ長推定結果Lk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})のポーズに関連する一つまたは複数(以下、この数をp2とする)の言語的特徴の特徴量とを求め、両者の特徴量の組をポーズ構成推定結果Vk,g(k)(k∈{1,…,N}, g(k)∈{1,…,Gk})の特徴量とする。
便宜上、言語的特徴の種類の数をp(pは2以上の整数であり、p=p1+p2である)とし、(k,g(k)) (k∈{1,…,N}, g(k)∈{1,…,Gk})番目のポーズ構成推定結果Vk,g(k)(k∈{1,…,N}, g(k)∈{1,…,Gk})に対応するp個の特徴量(p個の言語的特徴のそれぞれを数値化したもの)をXi(k,g(k)) (i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,Gk})と定義する。
抽出する言語的特徴の例として下記のような言語的特徴が挙げられる。なお、ポーズ句は、ポーズとポーズに挟まれた区間のことである。下記(1)〜(7)はポーズ配置に関連する特徴量であり、下記(8)〜(10)はポーズ長に関連する特徴量である。
(1) ポーズ句内のモーラ数の平均
(2) ポーズ句内のモーラ数の分散
(3) ポーズ句内のモーラ数の外れ値の有無
(4) 係り受けにある区間にポーズが挿入された数
(5) 係り受けにない区間にポーズが挿入されなかった数
(6) ポーズ句内の自立語数の平均
(7) ポーズ句内の自立語数の分散
(8) ポーズ長の平均
(9) ポーズ長の分散
(10) ポーズ長の外れ値の有無
ポーズ句内のモーラ数の外れ値としては、例えば、主観評価実験に用いた全データから予め算出したポーズ句のモーラ数の平均長をμ、標準偏差をσとして、μ+1σ, μ+2σ, μ-1σ, μ-2σなどの数値を例示できる。外れ値の有無の判定は、例えば、外れ値をμ+2σとした場合、判定対象の候補に含まれるポーズの推定位置によって得られる各ポーズ句についてモーラ数をそれぞれ求め、これらのモーラ数の全てが[μ, μ+2σ]の範囲内にあれば無し、これらのモーラ数のうち一つでも[μ, μ+2σ]の範囲内に無ければ有り、と判定し、当該候補について外れ値の有無に関するフラグを出力する(この処理は各候補について行われる)。
同様に、ポーズ長の外れ値としては、例えば、主観評価実験に用いた全データから予め算出したポーズ長の平均長をμa、標準偏差をσaとして、μa+1σa, μa+2σa, μa-1σa, μa-2σaなどの数値を例示できる。外れ値の有無の判定は、例えば、外れ値をμa+2σaとした場合、判定対象の候補に含まれるポーズの推定位置に対するポーズ長をそれぞれ求め、これらのポーズ長の全てが[μa, μa+2σa]の範囲内にあれば無し、これらのポーズ長のうち一つでも[μa, μa+2σa]の範囲内に無ければ有り、と判定し、当該候補について外れ値の有無に関するフラグを出力する(この処理は各候補について行われる)。
なお、第3実施形態では、上記例示した全ての種類の言語的特徴を用いる必要はないが、少なくともポーズ配置に関連する特徴量一つとポーズ長に関連する特徴量一つを用いる必要がある。例えば、ポーズ配置に関連する特徴量として、「ポーズ句内のモーラ数の平均」、「ポーズ句内のモーラ数の外れ値の有無」、「係り受けにある区間にポーズが挿入された数」、「係り受けにない区間にポーズが挿入されなかった数」のいずれか一つ以上の特徴量を抽出すればよく、ポーズ長に関連する特徴量として、「ポーズ長の平均」、「ポーズ長の分散」、「ポーズ長の外れ値の有無」のいずれか一つ以上の特徴量を抽出すればよい。
また、図9では、係り受けに関する項目が記載されていないが、係り受けに関する特徴量を抽出する場合には、係り受けに関する項目が言語的特徴として入力されている必要がある。
[スコア算出部330−ステップS33]
入力: スコア算出モデル、ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれの特徴量Xi(k,g(k))(i=1,…,p, k=1,…,N, g(k)=1,…,Gk)
出力: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)
処理: スコア算出モデルを用いて、ポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)のそれぞれの特徴量Xi(k,g(k)) (i=1,…,p, k=1,…,N, g(k)=1,…,Gk)に基づく、ポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k) (k=1,…,N, g(k)=1,…,Gk)を算出する。
スコアの算出には、ポーズ構成の自然性の主観評価実験によって収集したデータをもとに、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係をモデル化したスコア算出モデル360を用いる。スコア算出モデル360には各特徴量の値に応じた重みが割り当てられており、特徴量が入力されると重みを用いたスコアの計算が行われる。この例では、重みは、自然性の高いポーズ構成に関連する特徴量が入力されると高いスコアを、逆に自然性の低いポーズ構成に関連する特徴量が入力されると低いスコアを算出するよう設計されている。以下に、スコア算出モデル360の重みの決定方法、及びスコアの算出方法について説明する。
・スコア算出モデルの重みの決定方法
以下に、一例として、上述の数量化II類を用いた重みの決定方法について説明する。
まず、ポーズ構成がそれぞれ異なるD個(Dは2以上の整数)の音声データを予め用意し、主観評価実験を行うことでポーズ構成の自然性の主観評価値を得る。主観評価は、被験者がそれぞれの音声を聴取し、ポーズ構成の自然性を例えば「5:非常に自然」から「1:非常に不自然」までの5段階で主観評価値をつけることによって行う。
次に、主観評価に用いたそれぞれの音声データからポーズに関するp種類の特徴量Xi(d) (i=1,…,p, d=1,…,D)を抽出する。そして、得られた自然性の主観評価値及び特徴量をその値に応じて数種類のカテゴリに分類する。カテゴライズは、例えば全ての音声データを値順に等サンプル数になるように等分割する方法が考えられる。
そして、自然性の主観評価値のカテゴリと各特徴量のカテゴリとの関係を数量化II類に基づく線形モデルによってモデル化し、特徴量の各カテゴリに対して、自然性に関する重みを決定する。数量化II類による具体的な重みの算出方法については上記参考文献1を参考にされたい。
参考として、図10に、p=8とし、特徴量抽出部320が抽出する言語的特徴を、ポーズ句内のモーラ数の平均(この特徴量を表す変数をX1とする)、係り受けにある区間にポーズが挿入された数(この特徴量を表す変数をX2とする)、ポーズ句内の自立語数の平均(この特徴量を表す変数をX3とする)、ポーズ句内のモーラ数の外れ値(μ+1σ)の有無(この特徴量を表す変数をX4とする)、ポーズ句内のモーラ数の外れ値(μ+2σ)の有無(この特徴量を表す変数をX5とする)、ポーズ句内のモーラ数の外れ値(μ-1σ)の有無(この特徴量を表す変数をX6とする)、ポーズ句内のモーラ数の外れ値(μ-2σ)の有無(この特徴量を表す変数をX7とする)、ポーズ長の平均(この特徴量を表す変数をX8とする)とした場合の各特徴量Xi(i=1,…,8)の各カテゴリにおける重みの例を示す。
・スコア算出モデルを用いたスコア算出方法
以下に、スコア算出モデル360を用いたスコア算出方法を説明する。各候補つまり各ポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)について、スコア算出部330は、スコア算出対象のポーズ構成推定結果Vk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})のスコアSk,g(k)を、入力された各特徴量Xi(k,g(k)) (i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,Gk})が該当するカテゴリに割り当てられている重みを全特徴量について足し合わせることによって算出する。
i番目の言語的特徴の特徴量を表す変数Xi (i=1,…,p)がそれぞれMi(i=1,…,p)種類のカテゴリをもつとき、特徴量Xi (i=1,…,p)の各カテゴリに対して割り当てられている重みをWij(i=1,…,p, j=1,…,Mi)と定義する。また、各特徴量Xi (i=1,…,p)の各カテゴリにおいて、入力された特徴量Xi(k,g(k))(i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,Gk})が該当するカテゴリでは1、該当しないカテゴリでは0を取るようなダミー変数Cij(i=1,2,…,p, j=1,…,Mi)を定義する。つまり、ダミー変数Cijは、入力された特徴量Xi(k,g(k))(i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,Gk})に応じて、特徴量Xi (i=1,…,p)のカテゴリのうち一つだけで値1を持つ。ここで、各カテゴリに割り当てられている重みWijとダミー変数Cijを用いて、以下の式(3)によって、スコア算出対象のポーズ構成推定結果Vk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})のスコアSk,g(k)を算出する。
Figure 0006193737
具体例として、p=4とし、特徴量抽出部320が抽出する言語的特徴を、ポーズ句内のモーラ数の平均(この特徴量を表す変数をX1とする)、係り受けにある区間にポーズが挿入された数(この特徴量を表す変数をX2とする)、ポーズ句内の自立語数の平均(この特徴量を表す変数をX3とする)、ポーズ長の平均(この特徴量を表す変数をX8とする)とした場合における或る候補のスコアの計算を図10を参照して説明する。
この具体例では、各特徴量Xi (i=1,2,3,8)のカテゴリはそれぞれ3種類(M1=M2=M3=M8=3)でいずれも「大」「中」「小」であるとする。ここでは、便宜上、j=1が「大」を指示し、j=2が「中」を指示し、j=3が「小」を指示するとする。図10から、重みWij(i=1,2,3,8, j=1,2,3)は、W11=-0.39、W12=0.44、W13=-0.08、W21=0.32、W22=-0.20、W23=-0.81、W31=-0.03、W32=0.22、W33=-0.30、W81=-0.15、W82=0.31、W83=-0.28である。さらに、ポーズ句内のモーラ数の平均の特徴量X1については、X1≧18.5なら「大」、18.5>X1≧8.3なら「中」、8.3>X1なら「小」のカテゴリに分類されるとする。係り受けにある区間にポーズが挿入された数の特徴量X2については、X2>3なら「大」、3≧X2>1なら「中」、1≧X2なら「小」のカテゴリに分類されるとする。ポーズ句内の自立語数の平均の特徴量X3については、X3≧5.5なら「大」、5.5>X3≧2.3なら「中」、2.3>X3なら「小」のカテゴリに分類されるとする。ポーズ長の平均の特徴量X8については、X8≧0.5なら「大」、0.5>X8≧0.3なら「中」、0.3>X8なら「小」のカテゴリに分類されるとする。
スコア算出対象のポーズ構成推定結果Vk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})の特徴量Xi(k,g(k))(i=1,2,3,8, k∈{1,…,N}, g(k)∈{1,…,Gk})の具体例をX1(k,g(k))=21.2、X2(k,g(k))=2、X3(k,g(k))=1.3、X8(k,g(k))=0.4とすると、この場合、特徴量X1(k,g(k))=21.2は「大」に該当するのでC11=1、C12=0、C13=0であり、特徴量X2(k,g(k))=2は「中」に該当するのでC21=0、C22=1、C23=0であり、特徴量X3(k,g(k))=1.3は「小」に該当するのでC31=0、C32=0、C33=1であり、特徴量X8(k,g(k))=0.4は「中」に該当するのでC81=0、C82=1、C83=0である。したがって、スコア算出対象のポーズ構成推定結果Vk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})のスコアSk,g(k)は、式(3)から、ゼロではないダミー係数が乗ぜられる重みの合計によって計算できるので、
S=W11+W22+W33+W82=-0.39-0.20-0.30+0.31=-0.58
となる。
このようにして、スコア算出部330は、特徴量抽出部320から出力された各候補のスコアを算出する。
[候補選択部340−ステップS34]
入力: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)
出力: 選択されたポーズ構成推定結果を指定する情報
処理: 候補選択部340は、ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)のうち最も高いスコアSB1,B2(B1∈{1,…,N}, B2∈{1,…,Gk})を特定し、特定された最高スコアに対応するポーズ構成推定結果VB1,B2 (B1∈{1,…,N}, B2∈{1,…,Gk})を指定する情報(例えば、B1とB2の組)を出力する。
つまり、複数の候補のうち最高スコアに対応する候補が、最も自然性が高いポーズであると推定される候補345である。
<第4実施形態>
第4実施形態は第3実施形態の変形例である。第3実施形態では、候補選択部340が、スコア算出モデル360を用いて算出されたスコアが最大のポーズ構成推定結果を出力した。ここでさらに、ポーズ配置推定部310によってポーズ配置推定モデル350を用いて算出された各ポーズ配置推定結果の適正さを表す指標I1と、ポーズ長推定部310bによってポーズ長推定モデル350bを用いて算出された各ポーズ長推定結果の適正さを表す指標I2と、をスコア算出部330のスコア計算に用いることによって、学習データにおける自然性も考慮に入れることができるため、データドリブンに、より自然性が高いポーズ構成推定結果を決定できることが期待される。
この指標I1は、通常、ポーズ配置推定モデル350を用いたポーズ配置推定処理でポーズ配置推定結果と共に出力され、多くの場合、確率値のような数値で表されるが、大小関係が定義されていれば十分なので、0以上かつ1以下の数値に限定されるものではない。以下、この指標I1を「配置推定スコア」と呼称する。
同様に、この指標I2は、通常、ポーズ長推定モデル350bを用いたポーズ長推定処理でポーズ長推定結果と共に出力され、多くの場合、確率値のような数値で表されるが、大小関係が定義されていれば十分なので、0以上かつ1以下の数値に限定されるものではない。以下、この指標I2を「長さ推定スコア」と呼称する。
ポーズ配置推定モデル350を用いて算出されるポーズ配置推定結果の配置推定スコア316は、学習データである設計対象の口調の自然な発話のポーズ配置に基づいて算出され、ポーズ長推定モデル350bを用いて算出されるポーズ長推定結果の長さ推定スコア316bは、学習データである設計対象の口調の自然な発話に現れるポーズ長に基づいて算出される。このため、或るポーズ配置推定結果の配置推定スコアが他のポーズ配置推定結果の配置推定スコアと比べて相対的に低い(例えば1-bestのポーズ配置推定結果の配置推定スコアの1/10程度)場合は、学習データにおいて挿入されるのが稀な位置にポーズが挿入されている可能性が高く、適切ではないことが想定される。同様に、或るポーズ長推定結果の長さ推定スコアが他のポーズ長推定結果の長さ推定スコアと比べて相対的に低い(例えば1-bestのポーズ長推定結果の長さ推定スコアの1/12程度)場合は、学習データにおいて稀なポーズ長が用いられている可能性が高く、適切ではないことが想定される。このようなポーズ配置推定結果とポーズ長推定結果を予め除外し、また、スコア算出においても配置推定スコアと長さ推定スコアを明示的に利用することで、学習データに適し、かつ自然性が高いような結果を出力することが期待できる。
図11に第4実施形態のポーズ構成推定装置400の全体構成図、図12に第4実施形態の処理フローを示す。第4実施形態のポーズ構成推定装置400では、第3実施形態のポーズ配置推定部310、ポーズ長推定部310b、スコア算出部330に替えて、ポーズ配置推定部310q、ポーズ長推定部310bq、スコア算出部330qが含まれる。以下、第3実施形態と異なる技術事項について説明し、その他については第3実施形態と同じであるから説明を省略する。
[ポーズ配置推定部310q−ステップS31q]
入力: 入力テキスト、ポーズ配置推定モデル
出力: ポーズ配置推定結果Rk(k=1,…,N)と、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれに対応する配置推定スコアYk (k=1,…,N)
処理: 機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果Rk (k=1,…,N)及びポーズ配置推定結果Rk(k=1,…,N)のそれぞれに対応する配置推定スコアYk (k=1,…,N)を出力する。
ポーズ配置推定部310qは、ポーズ配置推定モデル350から算出される配置推定スコアが閾値以上(例えば1-bestの配置推定スコアの1/5以上)である上位N個(Nは2以上の整数)のポーズ配置推定結果Rk (k=1,…,N)と、ポーズ配置推定結果Rk(k=1,…,N)のそれぞれに対応する配置推定スコアYk (k=1,…,N)を出力する。このため、候補としてふさわしくないと予想される配置推定スコアの低い結果が排除される。
(註:第3実施形態と第4実施形態において同じ記号Nを使用しているが、その意味は異なる。第3実施形態ではNは予め定められた値であるが、第4実施形態ではNは結果として得られた値である)
[ポーズ長推定部310bq−ステップS31bq]
入力: ポーズ配置推定結果Rk (k=1,…,N)、ポーズ長推定モデル
出力: ポーズ長推定結果Lk,g(k) (k=1,…,N, g(k)=1,…,Gk)のそれぞれに対応する長さ推定スコアZk,g(k) (k=1,…,N, g(k)=1,…,Gk)と、ポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)
処理: 機械学習によって構築されたポーズ長推定モデルを用いて、ポーズ配置推定結果のそれぞれに対してポーズ長推定を行い、ポーズ配置推定結果ごとにGk個のポーズ長推定結果と、ポーズ長推定結果Lk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれに対応する長さ推定スコアZk,g(k)(k=1,…,N, g(k)=1,…,Gk)を求める。
ポーズ配置推定結果Rk (k=1,…,N)のそれぞれについて、ポーズ長推定部310bqは、ポーズ長推定対象のポーズ配置推定結果Rk (k∈{1,…,N})につき、ポーズ長推定モデル350bから算出される長さ推定スコアが閾値以上(例えば1-bestの長さ推定スコアの1/6以上)である上位Gk個(Gkはkに対応して定められた1以上の整数)のポーズ長推定結果Lk,g(k)(k∈{1,…,N}, g(k)=1,…,Gk)と、ポーズ長推定結果Lk,g(k) (k∈{1,…,N}, g(k)=1,…,Gk)のそれぞれに対応する長さ推定スコアZk,g(k) (k∈{1,…,N}, g(k)=1,…,Gk)を求める(Gk-best)。このようにして、ポーズ長推定部310bqは、Σk=1 NGk個のポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)つまりV1,1, …, V1,g(1), V2,1, …, V2,g(2), VN,1, …, VN,g(N)と、ポーズ長推定結果Lk,g(k) (k=1,…,N, g(k)=1,…,Gk)のそれぞれに対応する長さ推定スコアZk,g(k) (k=1,…,N, g(k)=1,…,Gk)を出力することになる。このため、候補としてふさわしくないと予想される長さ推定スコアの低い結果が排除される。
(註:第3実施形態と第4実施形態において同じ記号Gkを使用しているが、その意味は異なる。第3実施形態ではGkは予め定められた値であるが、第4実施形態ではGkは結果として得られた値である)
[スコア算出部330q−ステップS33q]
入力: スコア算出モデル、ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれの特徴量Xi(k,g(k))(i=1,…,p, k=1,…,N, g(k)=1,…,Gk)、ポーズ配置推定結果Rk(k=1,…,N)のそれぞれに対応する配置推定スコアYk (k=1,…,N)、ポーズ長推定結果Lk,g(k) (k=1,…,N, g(k)=1,…,Gk)のそれぞれに対応する長さ推定スコアZk,g(k) (k=1,…,N, g(k)=1,…,Gk)
出力: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)
処理: スコア算出モデルを用いて、ポーズ構成推定結果Vk,g(k) (k=1,…,N, g(k)=1,…,Gk)のそれぞれの特徴量Xi(k,g(k)) (i=1,…,p, k=1,…,N, g(k)=1,…,Gk)と配置推定スコアYk (k=1,…,N)と長さ推定スコアZk,g(k)(k=1,…,N, g(k)=1,…,Gk)に基づくポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)を算出する。
まず、各候補つまり各ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)について、スコア算出部330qは、スコア算出対象のポーズ構成推定結果Vk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})のスコアStemp,k,g(k)を、入力された各特徴量Xi(k,g(k)) (i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,Gk})が該当するカテゴリに割り当てられている重みを全特徴量について足し合わせることによって算出する(この処理は第3実施形態のステップS33の処理と同じであり、当該説明中、Sk,g(k)をStemp,k,g(k)に読み替えればよい)。そして、スコア算出部330qは、Stemp,k,g(k) (k=1,…,N, g(k)=1,…,Gk)を平均が0、分散が1になるような線形変換によって正規化したスコアSnorm,k,g(k) (k=1,…,N, g(k)=1,…,Gk)を求める。この線形変換の具体例は次のとおりである。Stemp,k,g(k) (k=1,…,N, g(k)=1,…,Gk)の平均をμ、分散をσ2としたとき、線形変換は、aμ+b=0、a2σ2=1を満たすa,bによって、Snorm,k,g(k)=a Stemp,k,g(k) + b (k=1,…,N, g(k)=1,…,Gk)で与えられる。
また、スコア算出部330qは、ポーズ配置推定結果Rk (k=1,…,N)のそれぞれの配置推定スコアYk(k=1,…,N)を平均が0、分散が1になるような線形変換によって正規化した正規化配置推定スコアYnorm,k (k=1,…,N)を求める。この線形変換は上述のとおりである。
また、スコア算出部330qは、ポーズ長推定結果Lk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれに対応する長さ推定スコアZk,g(k)(k=1,…,N, g(k)=1,…,Gk)を平均が0、分散が1になるような線形変換によって正規化した正規化長さ推定スコアZnorm,k,g(k)(k=1,…,N, g(k)=1,…,Gk)を求める。この線形変換は上述のとおりである。
そして、スコア算出部330qは、各(k,g(k)) (k=1,…,N, g(k)=1,…,Gk)について、ポーズ構成推定結果Vk,g(k)(k∈{1,…,N}, g(k)∈{1,…,Gk})のスコアSk,g(k) (k∈{1,…,N}, g(k)∈{1,…,Gk})を、正規化されたスコアSnorm,k,g(k)と正規化配置推定スコアYnorm,kと正規化長さ推定スコアZnorm,k,g(k)の和として求める(式(4)参照)。なお、式(4)において、正規化配置推定スコアYnorm,kに乗ぜられるβは、スコアSk,g(k)の算出における正規化配置推定スコアYnorm,kの影響を調整する重み係数であり、例えば予め定められたゼロ以外の定数とし、正規化長さ推定スコアZnorm,k,g(k)に乗ぜられるγは、スコアSk,g(k)の算出における正規化長さ推定スコアZnorm,k,g(k)の影響を調整する重み係数であり、例えば予め定められたゼロ以外の定数とする。
Figure 0006193737
第3実施形態または第4実施形態によると、ポーズ構成の自然性とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを用いて、機械学習に基づいて得られた複数のポーズ構成推定結果から最も自然性が高いと推定されるポーズ構成推定結果を選択することで、自然性が高い合成音声を生成可能なポーズ構成推定結果を得ることができる。
<第5実施形態>
第5実施形態は、入力テキストの合成音声に含まれるポーズの配置と時間長(ポーズ構成)を、合成音声の自然性を損なわず、かつ合成音声が指定された時間に終了するように調整する、音声合成におけるポーズ構成の自動推定に関する。
例えばラジオ放送の音声コンテンツは、音声を配信することができる時間が正確に決められているため、指定された時間に正確に収まる音声コンテンツを作成する必要がある。しかし、テキストの合成音声を生成した場合に合成音声がどの程度の時間長となるかは、合成処理が終了しなければ正確に決定することができない。入力されるテキストの量を予め指定することでおおよそ指定された時間にあった合成音声を作成することはできるが、正確な時間に合わせるためには細かい調整を行う必要がある。
調整方法としてテキスト内容を編集してテキストの長さを増減する方法があるが、テキスト内容の修正は人手で行う必要があるためコストがかかる。また、合成音声の話速を変更することでも対処は可能であるが、変更後の合成音声は通常の話速の音声と比較すると聞きづらい音声となってしまう。このため、テキストの内容及び合成音声の話速をできるだけ維持したまま、音声コンテンツを自動的に時間内に終了するよう調整する枠組みがあれば、低コストで聞きやすい合成音声コンテンツの作成が可能となる。
この実施形態では合成音声のポーズに着目する。つまり、合成音声が指定された時間に終了するようにポーズの配置と時間長を自動的に調節することで、テキストの内容や合成音声の話速を変更することなく、指定時間長に合わせた音声コンテンツを作成することができる。ただし、ポーズは合成音声における自然性に重要な役割を果たしているため、ポーズを適切でない配置や時間長に変更すると、合成音声の自然性に悪影響を及ぼす虞がある。このため、ポーズの配置や時間長を、できるだけ合成音声の自然性を損なうことのないように調整する必要がある。
なお、自然性が高い合成音声を生成するためのポーズ配置と時間長の自動推定方式の従来手法として、人手で設計した規則を用いる手法(例えば上記非特許文献1)とポーズ配置が付与された学習データを用いて機械学習によりモデル化する手法(例えば上記非特許文献2、3)が存在する。しかし、これらいずれの方法とも、生成する音声合成の時間長に制限がない条件において自然性が高い合成音声を生成するためのポーズ推定方式であるため、生成する合成音声が指定された時間長で終了することを想定した用途に用いるのは不向きである。
第5実施形態では、まず、ポーズ構成が互いに異なる複数の音声データを用いた主観評価実験によって収集したデータをもとに、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを構築する。そして、構築されたスコア算出モデルを用いて、機械学習によって取り得る確率が高いと推定されたポーズ構成の推定結果をポーズ構成の自然性の観点でスコアリングする。ポーズ構成推定結果に対応する合成音声の時間長が指定された時間長に適しているポーズ構成推定結果のうちスコアが最も高い(つまり、合成音声の時間長が指定された時間長に適し、かつ、ポーズ構成の自然性が高いと推定される)ポーズ構成推定結果を選択する、あるいは、選択された当該ポーズ構成推定結果に対応する合成音声を出力する。
この第5実施形態では、第3実施形態と異なる技術事項について説明し、その他については第3実施形態と同じであるから説明を省略する。
図13に第5実施形態のポーズ構成推定装置500の全体構成図、図14に第5実施形態の処理フローを示す。第5実施形態のポーズ構成推定装置500では、第3実施形態の候補選択部340に替えて、選出部540が含まれる。以下、第3実施形態と異なる技術事項について説明し、その他については第3実施形態と同じであるから説明を省略する。
[選出部540−ステップS54]
入力: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)、生成したい合成音声の時間長
出力: 選択されたポーズ構成推定結果を指定する情報(あるいは、選択された当該ポーズ構成推定結果に対応する合成音声)
処理: ポーズ構成推定結果Vk,g(k)(k=1,…,N, g(k)=1,…,Gk)のそれぞれのスコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)のうち高いスコアを与えたポーズ構成推定結果から順に、ポーズ構成推定結果に対応する合成音声を生成する音声合成処理を行い、生成された合成音声の時間長と入力された時間長tとの比較を行う。両者の時間長の差が予め定められた閾値εより小さければ、このときのポーズ構成推定結果545を表す情報または当該ポーズ構成推定結果から得られた合成音声を出力して、処理を終了する。両者の時間長の差が上記閾値εより小さいと判定されなければ、次にスコアが高いポーズ構成推定結果に対して同じ処理を繰り返す。なお、閾値εは、音声合成処理によって生成された合成音声の時間長を入力された値(生成したい合成音声の時間長)に厳密に合わせなくてもよいように定めるマージンであり、利用先の状況によって閾値を定めることができて、例えば、±0.5秒程度に設定する(指定された時間に収まる音声コンテンツを作成する必要がある場合には、例えばε=-0.5[秒]に設定する)。
つまり、スコアSk,g(k)(k=1,…,N, g(k)=1,…,Gk)を高い順にSu(u=1,…,Σk=1 NGk)に並べ替えとき(添え字の対応を表す置換πについてπ(k,g(k))=uが成立する)、選出部540は、u=1から処理を開始して、スコアSuを与えたポーズ構成推定結果に対応する合成音声Fuを生成し、合成音声Fuの時間長と入力された時間長tとの差Fu-tがFu-t<εを満たすか否かを判定する。選出部540は、Fu-t<εが満たされるときは、スコアSuを与えたポーズ構成推定結果を表す情報または当該ポーズ構成推定結果から得られた合成音声Fuを出力し、Fu-t<εが満たされないときは、u+1を新たなuの値として、スコアSuを与えるポーズ構成推定結果に対応する合成音声Fuを生成し、合成音声Fuの時間長と入力された時間長tとの差Fu-tがFu-t<εを満すか否かを判定する。
第5実施形態は、第3実施形態のみならず第4実施形態にも適用可能である。この場合、第4実施形態の候補選択部340を選出部540に替えればよいので、第5実施形態の変形例として、機能構成図を図15に、処理フローを図16に示すに留める。
第5実施形態によると、ポーズ構成の自然性とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを用いて、機械学習に基づいて得られた複数のポーズ構成推定結果から、合成音声の時間長が指定された時間長に適し、かつ、ポーズ構成の自然性が高いと推定される、ポーズ構成推定結果を選択することで、指定された時間長で自然性が高い合成音声を生成可能なポーズ構成推定結果を得ることができる。
<第6実施形態>
上述の各実施形態から明らかなように、本発明の要点の一つは、ポーズの自然性の主観評価実験によって収集したデータに基づいて構築した、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルによるポーズの自然性の客観的数値化にある。よって、第6実施形態では、入力された音声におけるポーズの自然性の評価に関わる実施形態を説明する。
アナウンサー、プロナレータ等、人前で発話することを生業とする職業では、聞き手に発話内容の意味を正確に伝えるため、自然で分かりやすい話し方の訓練が行われている。自然で分かりやすい話し方を実現する上で重要となるのが、テキストのどの位置にどの程度の時間長のポーズ(間)を入れるかといったポーズの取り方(ポーズ構成)である。従来研究でも、ポーズの配置や時間長が音声の意味の理解に影響することが示されている(例えば参考文献2、3)。また、日本語学習者の自然で分かりやすい話し方の学習支援に向けたポーズの取り方の指南書も存在する。このように、自然で分かりやすい話し方とポーズとの関連を示す知見が存在する一方で、人間の知覚に近い指標で音声発話のポーズの自然性を自動的に評価する評価技術は考案されておらず、話者が自身の話し方の自然性や分かりやすさを客観的に評価し、話し方の訓練に活用するのは困難であった。
(参考文献2)西崎博光、関口芳廣、"教員の話し方改善支援システムの開発に向けた講義音声の特徴分析"、日本教育工学会論文誌Vol.34(3)、pp.171-179、2010.
(参考文献3)内田照久、"音声の発話速度と休止時間が話者の性格印象と自然なわかりやすさに与える影響"、教育心理学研究Vol.53(1)、pp.1-13、2005.
第6実施形態では、まず、入力された音声発話に対して音声区間検出を行い、ポーズの配置と時間長(つまり、ポーズ構成)を取得する。次に、取得したポーズ構成と発話対象のテキストに付与されている言語的情報(例えば、単語区切り等)とのマッチングを行い、ポーズに関連する言語的特徴の特徴量を抽出する。そして、抽出された特徴量とスコア算出モデルを用いて、入力された音声発話におけるポーズの自然性に応じたスコアを出力する。
第6実施形態のポーズ自然性評価装置600は、音声区間検出部610、特徴量抽出部620、スコア算出部630、図示しない記憶部を含んで構成される。記憶部には、第3実施形態で説明したスコア算出モデル360が予め記憶されている。図17にポーズ自然性評価装置600の機能構成図、図18に第6実施形態の処理フローを示す。
音声区間検出部610は、入力された音声発話606に対して音声区間検出処理を行い、音声発話606におけるポーズの配置と時間長、つまりポーズ構成615を抽出する。
特徴量抽出部620は、取得したポーズ構成615と、発話対象のテキスト(つまり、入力音声発話に対応するテキスト)605に付与されている言語的情報(単語区切り等)と、のマッチングを行い、ポーズに関連する言語的特徴の特徴量625を抽出する。
スコア算出部630は、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に関する知見に基づいて構築されたスコア算出モデル360を用いて、特徴量625から音声発話606のスコア635を算出する。
以下に各部の処理の具体例を説明する。
[音声区間検出部610−ステップS61]
入力: 音声発話
出力: 音声発話におけるポーズ構成
処理: 音声区間検出部610は、入力された音声発話606に対して音声区間検出処理を行い、当該音声発話606に含まれるポーズの配置と各ポーズの時間長、つまりポーズ構成615を検出する。
[特徴量抽出部620−ステップS62]
入力: ポーズ構成、発話対象のテキスト
出力: ポーズに関連する言語的特徴の特徴量
処理: 発話対象のテキストに付与されている言語的情報(単語区切り等)とポーズ構成とのマッチングを行い、ポーズに関連する言語的特徴の特徴量を抽出する。
入力される発話対象のテキスト605は入力された上記音声発話606の発話内容を表す文字情報であり、テキスト605には、予めテキスト解析によって単語境界、品詞、係り受け等の言語的情報が付与されている。特徴量抽出部620は、これらの言語的情報と音声区間検出部610によって抽出されたポーズ構成615とのマッチングを行い、テキスト605に対するポーズ構成のラベルの付与を行う。具体例としては、ポーズ構成615に基づいて、テキスト605に含まれる単語ごとに単語の直後にポーズが挿入されているか否かを判定し、単語直後にポーズが有る場合には記号"P"のラベルを、無い場合には記号"-"のラベルを、単語ごとに付与し、さらに、ポーズが挿入されている部分(記号"P"が付与された単語)には、ポーズ構成615に基づいてポーズ長情報も付与する。図19に、ポーズ構成のラベル(ポーズ有無ラベルとポーズ長情報)が付与された入力テキストの例を示す。
そして、特徴量抽出部620は、マッチング結果に基づき、ポーズに関連する一つまたは複数の言語的特徴の特徴量625を抽出する。便宜上、言語的特徴の種類の数をp(pは1以上の整数)とし、マッチング結果に対応するp個の特徴量(p個の言語的特徴のそれぞれを数値化したもの)をΓi (i=1,…,p)と定義する。抽出する言語的特徴の例については第3実施形態と同じであるから説明を省略する。
なお、第6実施形態では、第3実施形態にて例示した全ての種類の言語的特徴を用いる必要はないが、好ましくは、少なくともポーズ配置に関連する特徴量一つとポーズ長に関連する特徴量一つを用いる。例えば、ポーズ配置に関連する特徴量として、「ポーズ句内のモーラ数の平均」、「ポーズ句内のモーラ数の外れ値」、「係り受けにある区間にポーズが挿入された数」、「係り受けにない区間にポーズが挿入されなかった数」のいずれか一つ以上の特徴量を抽出すればよく、ポーズ長に関連する特徴量として、「ポーズ長の平均」、「ポーズ長の分散」、「ポーズ長の外れ値の有無」のいずれか一つ以上の特徴量を抽出すればよい。
また、図19では、係り受けに関する項目が記載されていないが、係り受けに関する特徴量を抽出する場合には、係り受けに関する項目が言語的特徴として入力されている必要がある。
[スコア算出部630−ステップS63]
入力: スコア算出モデル、特徴量Γi (i=1,…,p)
出力: スコアS
処理: スコア算出モデルを用いて、特徴量Γi (i=1,…,p)に基づくスコアSを算出する。
スコアの算出には、ポーズ構成の自然性の主観評価実験によって収集したデータをもとに、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係をモデル化したスコア算出モデル360を用いる。スコア算出モデル360については第3実施形態と同じであるから説明を省略する。
以下に、第6実施形態におけるスコア算出モデル360を用いたスコア算出方法を説明する。スコア算出部630は、発話音声606のスコアSを、入力された各特徴量Γi (i=1,…,p)が該当するカテゴリに割り当てられている重みを全特徴量について足し合わせることによって算出する。
i番目の言語的特徴の特徴量を表す変数Xi (i=1,…,p)がそれぞれMi(i=1,…,p)種類のカテゴリをもつとき、特徴量Xi (i=1,…,p)の各カテゴリに対して割り当てられている重みをWij(i=1,…,p, j=1,…,Mi)と定義する。また、各特徴量Xi (i=1,…,p)の各カテゴリにおいて、入力された特徴量Γi (i=1,…,p)が該当するカテゴリでは1、該当しないカテゴリでは0を取るようなダミー変数Cij(i=1,2,…,p, j=1,…,Mi)を定義する。つまり、ダミー変数Cijは、入力された特徴量Γi(i=1,…,p)に応じて、特徴量Xi (i=1,…,p)のカテゴリのうち一つだけで値1を持つ。ここで、各カテゴリに割り当てられている重みWijとダミー変数Cijを用いて、以下の式(5)によって、発話音声606のスコアSを算出する。このスコアSが音声発話606に含まれるポーズ構成の自然性についての評価に相当する。
Figure 0006193737
<補記>
ポーズ配置推定装置あるいはポーズ構成推定装置あるいはポーズ自然性評価装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit)(キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(ポーズ配置推定部、ポーズ長推定部、特徴量抽出部、スコア算出部、候補選択部、選出部、音声区間検出部)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(ポーズ配置推定装置/ポーズ構成推定装置/ポーズ自然性評価装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出部と、
    ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出部と
    各上記ポーズ推定結果のスコアと、各上記ポーズ推定結果に対応する合成音声の時間長に基づいて、合成音声の時間長が指定された時間長に適しているもののうちで最もスコアの高い合成音声を選択する選出部と
    を含むポーズ推定装置。
  2. 複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出部と、
    ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出部と
    を含むポーズ推定装置であって、
    上記ポーズ推定結果はポーズ配置推定結果を含み、
    入力されたテキストから上記ポーズ配置推定結果と当該ポーズ配置推定結果のスコアを求めるポーズ配置推定部をさらに含み、
    上記スコア算出部は、上記ポーズ推定結果のスコアを正規化したスコアと、上記ポーズ配置推定結果のスコアを正規化したスコアを用いて、上記ポーズ推定結果のスコアを算出する
    ことを特徴とするポーズ推定装置。
  3. 複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出部と、
    ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出部と
    を含むポーズ推定装置であって、
    上記ポーズ推定結果はポーズ配置推定結果とポーズ長推定結果を含み、
    入力されたテキストから上記ポーズ配置推定結果と当該ポーズ配置推定結果のスコアを求めるポーズ配置推定部と、
    入力されたテキストから上記ポーズ長推定結果と当該ポーズ長推定結果のスコアを求めるポーズ長推定部をさらに含み、
    上記スコア算出部は、上記ポーズ推定結果のスコアを正規化したスコアと、上記ポーズ配置推定結果のスコアを正規化したスコアと、上記ポーズ長推定結果のスコアを正規化したスコアを用いて、上記ポーズ推定結果のスコアを算出する
    ことを特徴とするポーズ推定装置。
  4. 特徴量抽出部が、複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出ステップと、
    スコア算出部が、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出ステップと
    選出部が、各上記ポーズ推定結果のスコアと、各上記ポーズ推定結果に対応する合成音声の時間長に基づいて、合成音声の時間長が指定された時間長に適しているもののうちで最もスコアの高い合成音声を選択する選出ステップと
    を有するポーズ推定方法。
  5. 特徴量抽出部が、複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出ステップと、
    スコア算出部が、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出ステップと
    を有するポーズ推定方法であって、
    上記ポーズ推定結果はポーズ配置推定結果を含み、
    ポーズ配置推定部が、入力されたテキストから上記ポーズ配置推定結果と当該ポーズ配置推定結果のスコアを求めるポーズ配置推定ステップをさらに有し、
    上記スコア算出ステップは、上記ポーズ推定結果のスコアを正規化したスコアと、上記ポーズ配置推定結果のスコアを正規化したスコアを用いて、上記ポーズ推定結果のスコアを算出する
    ことを特徴とするポーズ推定方法。
  6. 特徴量抽出部が、複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出ステップと、
    スコア算出部が、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出ステップと
    を有するポーズ推定方法であって、
    上記ポーズ推定結果はポーズ配置推定結果とポーズ長推定結果を含み、
    ポーズ配置推定部が、入力されたテキストから上記ポーズ配置推定結果と当該ポーズ配置推定結果のスコアを求めるポーズ配置推定ステップと、
    ポーズ長推定部が、入力されたテキストから上記ポーズ長推定結果と当該ポーズ長推定結果のスコアを求めるポーズ長推定ステップをさらに有し、
    上記スコア算出ステップは、上記ポーズ推定結果のスコアを正規化したスコアと、上記ポーズ配置推定結果のスコアを正規化したスコアと、上記ポーズ長推定結果のスコアを正規化したスコアを用いて、上記ポーズ推定結果のスコアを算出する
    ことを特徴とするポーズ推定方法。
  7. 請求項1から請求項3のいずれかに記載のポーズ推定装置としてコンピュータを機能させるためのプログラム。
JP2013238796A 2013-11-19 2013-11-19 ポーズ推定装置、方法、プログラム Expired - Fee Related JP6193737B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013238796A JP6193737B2 (ja) 2013-11-19 2013-11-19 ポーズ推定装置、方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013238796A JP6193737B2 (ja) 2013-11-19 2013-11-19 ポーズ推定装置、方法、プログラム

Publications (2)

Publication Number Publication Date
JP2015099251A JP2015099251A (ja) 2015-05-28
JP6193737B2 true JP6193737B2 (ja) 2017-09-06

Family

ID=53375898

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013238796A Expired - Fee Related JP6193737B2 (ja) 2013-11-19 2013-11-19 ポーズ推定装置、方法、プログラム

Country Status (1)

Country Link
JP (1) JP6193737B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6633466B2 (ja) * 2016-07-12 2020-01-22 日本電信電話株式会社 ポーズ長制御装置、ポーズ長制御方法、およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011186396A (ja) * 2010-03-11 2011-09-22 Oki Electric Industry Co Ltd 音声収録装置、音声収録方法およびプログラム

Also Published As

Publication number Publication date
JP2015099251A (ja) 2015-05-28

Similar Documents

Publication Publication Date Title
Feraru et al. Cross-language acoustic emotion recognition: An overview and some tendencies
MacKenzie et al. Assessing the accuracy of existing forced alignment software on varieties of British English
JP6840858B2 (ja) 発音誤り検出装置、発音誤り検出方法、プログラム
Weinberger et al. The Speech Accent Archive: towards a typology of English accents
Gutkin et al. TTS for low resource languages: A Bangla synthesizer
CN105280177A (zh) 语音合成字典创建装置、语音合成器、以及语音合成字典创建方法
JP2017058411A (ja) 音声合成装置、音声合成方法およびプログラム
Narendra et al. Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis
Meng et al. Synthesizing English emphatic speech for multimodal corrective feedback in computer-aided pronunciation training
CN104700831B (zh) 分析音频文件的语音特征的方法和装置
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
US10978076B2 (en) Speaker retrieval device, speaker retrieval method, and computer program product
JP6193737B2 (ja) ポーズ推定装置、方法、プログラム
Vidal et al. EpaDB: A Database for Development of Pronunciation Assessment Systems.
Mohammed et al. Recognition of holy Quran recitation rules using phoneme duration
Yarra et al. Automatic intonation classification using temporal patterns in utterance-level pitch contour and perceptually motivated pitch transformation
Mustafa et al. Developing an HMM-based speech synthesis system for Malay: a comparison of iterative and isolated unit training
Ng et al. Shefce: A Cantonese-English bilingual speech corpus for pronunciation assessment
Oumaima et al. Modern Arabic speech corpus for text to speech synthesis
Kessens et al. The selection of pronunciation variants: comparing the performance of man and machine
Vidal et al. Phone-Level Pronunciation Scoring for Spanish Speakers Learning English Using a GOP-DNN System.
Jouvet Speech processing and prosody

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170810

R150 Certificate of patent or registration of utility model

Ref document number: 6193737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees