JP6193737B2

JP6193737B2 - ポーズ推定装置、方法、プログラム

Info

Publication number: JP6193737B2
Application number: JP2013238796A
Authority: JP
Inventors: 博子武藤; 勇祐井島; 水野　秀之; 秀之水野; 宮崎　昇; 昇宮崎
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc
Current assignee: Nippon Telegraph and Telephone Corp; NTT Inc
Priority date: 2013-11-19
Filing date: 2013-11-19
Publication date: 2017-09-06
Anticipated expiration: 2033-11-19
Also published as: JP2015099251A

Description

本発明は、自然性の高いポーズ（「間」とも呼ばれる無音時間）の推定に関するポーズ推定技術に関する。

従来、音声合成におけるポーズ位置およびポーズ長の推定には、人手で設計した規則を用いる手法と、ポーズ位置とポーズ長が付与された学習データを用いて機械学習によってモデル化する手法が用いられてきた。

規則を用いる手法としては、例えば非特許文献１に開示される技術が挙げられる。非特許文献１に開示される手法は、特定の句構造のときに性質の異なる長短２種類のポーズが挿入されることを読み上げ口調の音声データを用いた分析によって定量的に明らかにし、これらの特徴に基づいたポーズの挿入規則を作成している。

また、機械学習を用いる手法としては、ポーズ位置の推定については、例えば非特許文献２に開示される技術が挙げられる。非特許文献２に開示される手法は、機械学習の一つであるCRF(Conditional Random Fields；条件付き確率場)モデルを用いて、表記、読み等の一般的な特徴量とポーズ位置との関係をモデル化し、学習で得られたモデルをポーズ位置の推定に用いている。また、ポーズ長の推定については、例えば非特許文献３に開示される技術が挙げられる。非特許文献３に開示される手法は、予め推定されたポーズ位置に対して、HMM(Hidden Markov Model；隠れマルコフモデル)に基づいた音素の継続時間長推定の一環でポーズ長を推定しており、現在、一般的に用いられるようになってきている。

海木延佳、匂坂芳典、"局所的な句構造によるポーズ挿入規則化の検討"、電子情報通信学会論文誌 D-II 情報・システム II-情報処理 J79-D-2(9)、pp.1455-1463、1996-09-25. 太田健吾、土屋雅稔、中川聖一、"ポーズを考慮した話し言葉言語モデルの構築"、情報処理学会論文誌Vol.53(2)、pp.889-900、2012/02/15. 吉村貴克、徳田恵一、益子貴史、小林隆夫、北村正、"HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化"、電子情報通信学会論文誌 D-II 情報・システム II-情報処理 J83-D-II(12)、pp.2099-2107、2000.

規則を用いた上記手法は、設計対象の口調（一般的には汎用的な読み上げ口調）に特化したポーズ挿入を行い、それ以外の口調（例えば童話口調、広告口調、口語口調など）に対応することができないため、口調の多様性を十分に表現することが難しい。多様な口調に対応するためには、音声合成対象の口調に対応する規則を人手で設計し直す必要があるが、それには高いコストがかかる。

この点、機械学習による上記方法は、設計対象の口調の自然な発話のポーズ位置とポーズ長を学習データとすることで、データドリブンに、音声合成対象の口調に対応したポーズ位置・ポーズ長推定モデルを構築することができる。しかし、ポーズ位置は複数の正解が存在し学習データがばらつくため、機械学習によるモデル化が難しく、高い推定精度が得られにくい（つまり、自然性の高い合成音声を生成することが難しい）。また、ポーズの位置とポーズ長をそれぞれ別の系で推定しているため、ポーズ位置とポーズ長が同時に最適（つまり、最も自然）となるようなポーズの位置とポーズ長を推定するのが容易ではない。

このような状況を鑑みて、本発明は、自然性の高いポーズの推定に関するポーズ推定技術を提供することを目的とする。

本発明のポーズ推定技術は、複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量を抽出し、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各ポーズ推定結果の特徴量に基づく各ポーズ推定結果のスコアを算出する。

本発明によると、上述のようなスコア算出モデルを用いてポーズ推定結果のスコアを得るので、自然性の高いポーズを推定することができる。

第１実施形態のポーズ配置推定装置の機能構成例を示す図。第１実施形態の処理フロー例を示す図。ポーズ配置推定結果の例を示す図。スコア算出モデルにおける重みの例を示す図。第２実施形態のポーズ配置推定装置の機能構成例を示す図。第２実施形態の処理フロー例を示す図。第３実施形態のポーズ構成推定装置の機能構成例を示す図。第３実施形態の処理フロー例を示す図。ポーズ構成推定結果の例を示す図。スコア算出モデルにおける重みの例を示す図。第４実施形態のポーズ構成推定装置の機能構成例を示す図。第４実施形態の処理フロー例を示す図。第５実施形態のポーズ構成推定装置の機能構成例を示す図。第５実施形態の処理フロー例を示す図。第５実施形態の変形例のポーズ構成推定装置の機能構成例を示す図。第５実施形態の変形例の処理フロー例を示す図。第６実施形態のポーズ自然性評価装置の機能構成例を示す図。第６実施形態の処理フロー例を示す図。ポーズ構成のラベルが付与された入力テキストの例を示す図。

図面を参照しながら、本発明の実施形態を説明する。なお、同じ構成要素には同じ符号を割り当てている。

＜第１実施形態＞
第１実施形態は、所与の音声データに付与されたポーズの位置の組であるポーズ配置（一つのポーズ配置には、０個または１個以上のポーズが含まれるとする）の自然性に関する主観評価実験結果から、ポーズ配置の自然性とポーズに関連する様々な言語的特徴との関係をモデル化し、得られたモデルをポーズ配置推定に利用することによって、自然性が高い合成音声の生成を可能とする機械学習に基づくポーズ配置の自動推定に関する。
まず、ポーズ配置が異なる複数の音声データを用いた主観評価実験によって収集したデータをもとに、ポーズ配置の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを構築する。そして、構築されたスコア算出モデルを用いて、機械学習によって取り得る確率が高いと推定されたポーズ配置の推定結果をポーズ配置の自然性の観点でスコアリングし、スコアが最大となる（つまり、ポーズ配置の自然性が最も高いと推定される）ポーズ配置推定結果を出力する。

第１実施形態のポーズ配置推定装置１００は、ポーズ配置推定部１１０、特徴量抽出部１２０、スコア算出部１３０、候補選択部１４０、図示しない記憶部を含んで構成される。記憶部には、後述するポーズ配置推定モデル１５０とスコア算出モデル１６０が予め記憶されている。図１にポーズ配置推定装置１００の機能構成図、図２に第１実施形態の処理フローを示す。
ポーズ配置推定部１１０は、機械学習によって構築されたポーズ配置推定モデル１５０を用いて入力されたテキスト１０５に対してポーズ配置推定を行い、複数のポーズ配置推定結果を出力する（以下、第１実施形態および後述する第２実施形態では、複数のポーズ配置推定結果のそれぞれを候補１１５とも呼称する）。
特徴量抽出部１２０は、各候補１１５に対してポーズに関連する言語的特徴の特徴量１２５の抽出を行う。
スコア算出部１３０は、ポーズ配置の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に関する知見に基づいて構築されたスコア算出モデル１６０を用いて、各候補１１５の特徴量１２５から各候補１１５のスコア１３５を算出する。
候補選択部１４０は、スコア算出部１３０で算出されたスコア１３５が最大となる（つまり、最も自然性が高いと推定される）候補１４５を選択する。
以下に各部の処理の具体例を説明する。

[ポーズ配置推定部１１０−ステップＳ１]
入力：入力テキスト、ポーズ配置推定モデル
出力：ポーズ配置推定結果R_k(k=1,…,N)
処理：機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果R_k (k=1,…,N)を出力する。

入力テキスト１０５は単語ごとに分かち書きされたテキストデータであり、各単語には品詞、読み、モーラ数、係り受けの有無等の様々な言語情報が付与されている。

ポーズ配置推定部１１０は、入力テキスト１０５に含まれる各単語に対して、単語の直後にポーズが挿入されるか否かを推定して、入力テキスト１０５にポーズ有無ラベルを付与する。ポーズが挿入されると推定された位置の組であるポーズ配置（ただし、一つのポーズ配置には、０個または１個以上のポーズが含まれるとする）に係る推定結果が一つの「ポーズ配置推定結果」である。この推定には、予めポーズ有無ラベルが付与された学習データを用いて各単語の言語情報とポーズ配置との関係を学習したポーズ配置推定モデル１５０が用いられる。モデル化には、N-gramモデルやCRFモデル等の、ポーズ配置推定結果の適正さを表す指標を得ることができる確率モデルに基づく機械学習を用いる。具体的なモデルの構築方法については、例えば上記非特許文献２を参考にされたい。

結果として、ポーズ配置推定部１１０は、ポーズ配置推定モデル１５０から算出されるポーズ配置推定結果の指標が高い順にＮ個（Ｎは２以上の整数）のポーズ配置推定結果R_k (k=1,…,N) （いわゆるN-bestである）を出力する。これらＮ個のポーズ配置推定結果R_k (k=1,…,N)のそれぞれが、自然性の高い合成音声の生成を可能とするポーズ配置の候補１１５である。入力テキスト１０５に対する一つの候補１１５の例を図３に示す。図３の例では、単語直後のポーズの有無を表すラベル（つまり、ポーズ有無ラベル）が付与されており、単語直後にポーズが有る場合には記号"P"のラベルが、無い場合には記号"-"のラベルが、単語ごとに付与されている。

[特徴量抽出部１２０−ステップＳ２]
入力：ポーズ配置推定結果R_k(k=1,…,N)
出力：ポーズ配置推定結果R_k(k=1,…,N)のそれぞれの特徴量X_i(k) (i=1,…,p, k=1,…,N)
処理：ポーズ配置推定結果R_k(k=1,…,N)のそれぞれに対して、ポーズに関連する言語的特徴の特徴量X_i(k)(i=1,…,p, k=1,…,N)の抽出を行う。

特徴量抽出部１２０は、Ｎ個のポーズ配置推定結果R_k(k=1,…,N)つまりＮ個の候補１１５に対して、候補１１５ごとに、ポーズに関連する一つまたは複数の言語的特徴の特徴量１２５を抽出する。便宜上、言語的特徴の種類の数をp（pは１以上の整数）とし、k番目のポーズ配置推定結果R_k (k∈{1,…,N})に対応するp個の特徴量（p個の言語的特徴のそれぞれを数値化したもの）をX_i(k) (i=1,…,p, k∈{1,…,N})と定義する。

抽出する言語的特徴の例として下記のような言語的特徴が挙げられる。なお、ポーズ句は、ポーズとポーズに挟まれた区間のことである。
(1) ポーズ句内のモーラ数の平均
(2) ポーズ句内のモーラ数の分散
(3) ポーズ句内のモーラ数の外れ値の有無
(4) 係り受けにある区間にポーズが挿入された数
(5) 係り受けにない区間にポーズが挿入されなかった数
(6) ポーズ句内の自立語数の平均
(7) ポーズ句内の自立語数の分散

ポーズ句内のモーラ数の外れ値としては、例えば、主観評価実験に用いた全データから予め算出したポーズ句のモーラ数の平均長をμ、標準偏差をσとして、μ+1σ, μ+2σ, μ-1σ, μ-2σなどの数値を例示できる。外れ値の有無の判定は、例えば、外れ値をμ+2σとした場合、判定対象の候補１１５に含まれるポーズの推定位置によって得られる各ポーズ句についてモーラ数をそれぞれ求め、これらのモーラ数の全てが[μ, μ+2σ]の範囲内にあれば無し、これらのモーラ数のうち一つでも[μ, μ+2σ]の範囲内に無ければ有り、と判定し、当該候補１１５について外れ値の有無に関するフラグを出力する（この処理は各候補１１５について行われる）。

なお、上記例示した全ての種類の言語的特徴を用いる必要はなく、「ポーズ句内のモーラ数の平均」、「ポーズ句内のモーラ数の外れ値の有無」、「係り受けにある区間にポーズが挿入された数」、「係り受けにない区間にポーズが挿入されなかった数」のいずれか一つ以上の特徴量を抽出すればよい。

また、図３では、係り受けに関する項目が記載されていないが、係り受けに関する特徴量を抽出する場合には、係り受けに関する項目が言語的特徴として入力されている必要がある。

[スコア算出部１３０−ステップＳ３]
入力：スコア算出モデル、ポーズ配置推定結果R_k(k=1,…,N)のそれぞれの特徴量X_i(k) (i=1,…,p, k=1,…,N)
出力：ポーズ配置推定結果R_k(k=1,…,N)のそれぞれのスコアS_k (k=1,…,N)
処理：スコア算出モデルを用いて、ポーズ配置推定結果R_k (k=1,…,N)のそれぞれの特徴量X_i(k)(i=1,…,p, k=1,…,N)に基づくポーズ配置推定結果R_k (k=1,…,N)のそれぞれのスコアS_k (k=1,…,N)を算出する。

スコアの算出には、ポーズ配置の自然性の主観評価実験によって収集したデータをもとに、ポーズ配置の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係をモデル化したスコア算出モデル１６０を用いる。スコア算出モデル１６０には各特徴量の値に応じた重みが割り当てられており、特徴量が入力されると重みを用いたスコアの計算が行われる。この例では、重みは、自然性の高いポーズ配置に関連する特徴量が入力されると高いスコアを、逆に自然性の低いポーズ配置に関連する特徴量が入力されると低いスコアを算出するよう設計されている。以下に、スコア算出モデル１６０の重みの決定方法、及びスコアの算出方法について説明する。

・スコア算出モデルの重みの決定方法
以下に、一例として、数量化II類を用いた重みの決定方法について説明する。数量化II類とは、カテゴリに分類された既知のデータをもとに、新しいサンプルがどのカテゴリに属するかの判別に利用可能なデータ分析法の一つである。
まず、ポーズ配置がそれぞれ異なるＤ個（Ｄは２以上の整数）の音声データを予め用意し、主観評価実験を行うことでポーズ配置の自然性の主観評価値を得る。主観評価は、被験者がそれぞれの音声を聴取し、ポーズ配置の自然性を例えば「５：非常に自然」から「１：非常に不自然」までの５段階で主観評価値をつけることによって行う。
次に、主観評価に用いたそれぞれの音声データからポーズに関するp種類の特徴量X_i(d) (i=1,…,p, d=1,…,D)を抽出する。そして、得られた自然性の主観評価値及び特徴量をその値に応じて数種類のカテゴリに分類する。カテゴライズは、例えば全ての音声データを値順に等サンプル数になるように等分割する方法が考えられる。
そして、自然性の主観評価値のカテゴリと各特徴量のカテゴリとの関係を数量化II類に基づく線形モデルによってモデル化し、特徴量の各カテゴリに対して、自然性に関する重みを決定する。数量化II類による具体的な重みの算出方法については下記参考文献１を参考にされたい。
参考として、図４に、p=7とし、特徴量抽出部１２０が抽出する言語的特徴を、ポーズ句内のモーラ数の平均（この特徴量を表す変数をX₁とする）、係り受けにある区間にポーズが挿入された数（この特徴量を表す変数をX₂とする）、ポーズ句内の自立語数の平均（この特徴量を表す変数をX₃とする）、ポーズ句内のモーラ数の外れ値（μ+1σ）の有無（この特徴量を表す変数をX₄とする）、ポーズ句内のモーラ数の外れ値（μ+2σ）の有無（この特徴量を表す変数をX₅とする）、ポーズ句内のモーラ数の外れ値（μ-1σ）の有無（この特徴量を表す変数をX₆とする）、ポーズ句内のモーラ数の外れ値（μ-2σ）の有無（この特徴量を表す変数をX₇とする）、とした場合の各特徴量X_i(i=1,…,7)の各カテゴリにおける重みの例を示す。
（参考文献１）菅民郎、藤越康祝、「質的データの判別分析数量化２類」、現代数学社、2011/04.

・スコア算出モデルを用いたスコア算出方法
以下に、スコア算出モデル１６０を用いたスコア算出方法を説明する。各候補１１５つまり各ポーズ配置推定結果R_k (k=1,…,N)について、スコア算出部１３０は、スコア算出対象のポーズ配置推定結果R_k (k∈{1,…,N})のスコアS_kを、入力された各特徴量X_i(k)(i=1,…,p, k∈{1,…,N})が該当するカテゴリに割り当てられている重みを全特徴量について足し合わせることによって算出する。
i番目の言語的特徴の特徴量を表す変数X_i (i=1,…,p)がそれぞれM_i(i=1,…,p)種類のカテゴリをもつとき、特徴量X_i (i=1,…,p)の各カテゴリに対して割り当てられている重みをW_ij(i=1,…,p, j=1,…,M_i)と定義する。また、各特徴量X_i (i=1,…,p)の各カテゴリにおいて、入力された特徴量X_i(k)(i=1,…,p, k∈{1,…,N})が該当するカテゴリでは１、該当しないカテゴリでは０を取るようなダミー変数C_ij(i=1,2,…,p, j=1,…,M_i)を定義する。つまり、ダミー変数C_ijは、入力された特徴量X_i(k)(i=1,…,p, k∈{1,…,N})に応じて、特徴量X_i(i=1,…,p)のカテゴリのうち一つだけで値１を持つ。ここで、各カテゴリに割り当てられている重みW_ijとダミー変数C_ijを用いて、以下の式（１）によって、スコア算出対象のポーズ配置推定結果R_k (k∈{1,…,N})のスコアS_kを算出する。

具体例として、p=3とし、特徴量抽出部１２０が抽出する言語的特徴を、ポーズ句内のモーラ数の平均（この特徴量を表す変数をX₁とする）、係り受けにある区間にポーズが挿入された数（この特徴量を表す変数をX₂とする）、ポーズ句内の自立語数の平均（この特徴量を表す変数をX₃とする）、とした場合における或る候補１１５のスコアの計算を図４を参照して説明する。
この具体例では、各特徴量X_i (i=1,2,3)のカテゴリはそれぞれ３種類（M₁=M₂=M₃=3）でいずれも「大」「中」「小」であるとする。ここでは、便宜上、j=1が「大」を指示し、j=2が「中」を指示し、j=3が「小」を指示するとする。図４から、重みW_ij(i=1,2,3, j=1,2,3)は、W₁₁=-0.39、W₁₂=0.44、W₁₃=-0.08、W₂₁=0.32、W₂₂=-0.20、W₂₃=-0.81、W₃₁=-0.03、W₃₂=0.22、W₃₃=-0.30である。さらに、ポーズ句内のモーラ数の平均の特徴量X₁については、X₁≧18.5なら「大」、18.5＞X₁≧8.3なら「中」、8.3＞X₁なら「小」のカテゴリに分類されるとする。係り受けにある区間にポーズが挿入された数の特徴量X₂については、X₂＞3なら「大」、3≧X₂＞1なら「中」、1≧X₂なら「小」のカテゴリに分類されるとする。ポーズ句内の自立語数の平均の特徴量X₃については、X₃≧5.5なら「大」、5.5＞X₃≧2.3なら「中」、2.3＞X₃なら「小」のカテゴリに分類されるとする。
スコア算出対象のポーズ配置推定結果R_k (k∈{1,…,N})の特徴量X_i(k) (i=1,2,3, k∈{1,…,N})の具体例をX_1(k)=21.2、X_2(k)=2、X_3(k)=1.3とすると、この場合、特徴量X_1(k)=21.2は「大」に該当するのでC₁₁=1、C₁₂=0、C₁₃=0であり、特徴量X_2(k)=2は「中」に該当するのでC₂₁=0、C₂₂=1、C₂₃=0であり、特徴量X_3(k)=1.3は「小」に該当するのでC₃₁=0、C₃₂=0、C₃₃=1である。したがって、スコア算出対象のポーズ配置推定結果R_k(k∈{1,…,N})のスコアS_kは、式（１）から、ゼロではないダミー係数が乗ぜられる重みの合計によって計算できるので、
S=W₁₁+W₂₂+W₃₃=-0.39-0.20-0.30=-0.89
となる。
このようにして、スコア算出部１３０は、特徴量抽出部１２０から出力された各候補１１５のスコアを算出する。

[候補選択部１４０−ステップＳ４]
入力：ポーズ配置推定結果R_k(k=1,…,N)のそれぞれのスコアS_k (k=1,…,N)
出力：選択されたポーズ配置推定結果を指定する情報
処理：候補選択部１４０は、ポーズ配置推定結果R_k(k=1,…,N)のそれぞれのスコアS_k (k=1,…,N)のうち最も高いスコアS_B (B∈{1,…,N})を特定し、特定された最高スコアに対応するポーズ配置推定結果R_B (B∈{1,…,N})を指定する情報（例えば、B）を出力する。

つまり、複数の候補１１５のうち最高スコアに対応する候補が、最も自然性が高いポーズであると推定される候補１４５である。

＜第２実施形態＞
第２実施形態は第１実施形態の変形例である。第１実施形態では、候補選択部１４０が、スコア算出モデル１６０を用いて算出されたスコアが最大のポーズ配置推定結果を出力した。ここでさらに、ポーズ配置推定部１１０によってポーズ配置推定モデル１５０を用いて算出された各ポーズ配置推定結果の適正さを表す指標をスコア算出部１３０のスコア計算に用いることによって、学習データにおける自然性も考慮に入れることができるため、データドリブンに、より自然性が高いポーズ配置推定結果を決定できることが期待される。

この指標は、通常、ポーズ配置推定モデル１５０を用いたポーズ配置推定処理でポーズ配置推定結果と共に出力され、多くの場合、確率値のような数値で表されるが、大小関係が定義されていれば十分なので、０以上かつ１以下の数値に限定されるものではない。以下、この指標を「推定スコア」と呼称する。

ポーズ配置推定モデル１５０を用いて算出されるポーズ配置推定結果の推定スコア１１５ａは、学習データである設計対象の口調の自然な発話のポーズ配置に基づいて算出される。このため、或る候補の推定スコアが他の候補の推定スコアと比べて相対的に低い（例えば1-bestの候補の推定スコアの1/10程度）場合は、学習データにおいて挿入されるのが稀な位置にポーズが挿入されている可能性が高く、候補として適切ではないことが想定される。このようなポーズ配置推定結果は予め候補群から除き、また、スコア算出においても推定スコアを明示的に利用することで、学習データに適し、かつ自然性が高いような結果を出力することが期待できる。

図５に第２実施形態のポーズ配置推定装置２００の全体構成図、図６に第２実施形態の処理フローを示す。第２実施形態のポーズ配置推定装置２００では、第１実施形態のポーズ配置推定部１１０及びスコア算出部１３０に替えて、ポーズ配置推定部１１０ａ及びスコア算出部１３０ａが含まれる。以下、第１実施形態と異なる技術事項について説明し、その他については第１実施形態と同じであるから説明を省略する。

[ポーズ配置推定部１１０ａ−ステップＳ１ａ]
入力：入力テキスト、ポーズ配置推定モデル
出力：ポーズ配置推定結果R_k(k=1,…,N)と、ポーズ配置推定結果R_k (k=1,…,N)のそれぞれに対応する推定スコアY_k (k=1,…,N)
処理：機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果R_k (k=1,…,N)及びポーズ配置推定結果R_k(k=1,…,N)のそれぞれに対応する推定スコアY_k (k=1,…,N)を出力する。

ポーズ配置推定部１１０ａは、ポーズ配置推定モデル１５０から算出される推定スコア１１５ａが閾値以上（例えば1-bestの推定スコアの1/5以上）である上位Ｎ個（Ｎは２以上の整数）のポーズ配置推定結果R_k (k=1,…,N)と、ポーズ配置推定結果R_k(k=1,…,N)のそれぞれに対応する推定スコアY_k (k=1,…,N)を出力する。このため、候補としてふさわしくないと予想される推定スコアの低い結果が排除される。
（註：第１実施形態と第２実施形態において同じ記号Ｎを使用しているが、その意味は異なる。第１実施形態ではＮは予め定められた値であるが、第２実施形態ではＮは結果として得られた値である）
これらＮ個のポーズ配置推定結果R_k(k=1,…,N)のそれぞれが、自然性の高い合成音声の生成を可能とするポーズ配置の候補１１５である。

[スコア算出部１３０ａ−ステップＳ３ａ]
入力：スコア算出モデル、ポーズ配置推定結果R_k(k=1,…,N)のそれぞれの特徴量X_i(k) (i=1,…,p, k=1,…,N)、ポーズ配置推定結果R_k (k=1,…,N)のそれぞれの推定スコアY_k(k=1,…,N)
出力：ポーズ配置推定結果R_k(k=1,…,N)のそれぞれのスコアS_k (k=1,…,N)
処理：スコア算出モデルを用いて、ポーズ配置推定結果R_k (k=1,…,N)のそれぞれの特徴量X_i(k)(i=1,…,p, k=1,…,N)と推定スコアY_k (k=1,…,N)に基づくポーズ配置推定結果R_k (k=1,…,N)のそれぞれのスコアS_k(k=1,…,N)を算出する。

まず、各候補１１５つまり各ポーズ配置推定結果R_k(k=1,…,N)について、スコア算出部１３０ａは、スコア算出対象のポーズ配置推定結果R_k(k∈{1,…,N})のスコアS_temp,kを、入力された各特徴量X_i(k) (i=1,…,p, k∈{1,…,N})が該当するカテゴリに割り当てられている重みを全特徴量について足し合わせることによって算出する（この処理は第１実施形態のステップＳ３の処理と同じであり、当該説明中、S_kをS_temp,kに読み替えればよい）。そして、スコア算出部１３０ａは、S_temp,k (k=1,…,N)を平均が0、分散が1になるような線形変換によって正規化したスコアS_norm,k(k=1,…,N)を求める。この線形変換の具体例は次のとおりである。S_temp,k(k=1,…,N)の平均をμ、分散をσ²としたとき、線形変換は、aμ+b=0、a²σ²=1を満たすa,bによって、S_norm,k=a S_temp,k + b (k=1,…,N)で与えられる。
また、スコア算出部１３０ａは、ポーズ配置推定結果R_k (k=1,…,N)のそれぞれの推定スコアY_k(k=1,…,N)を平均が0、分散が1になるような線形変換によって正規化したスコアY_norm,k (k=1,…,N)を求める。この線形変換は上述のとおりである。
そして、スコア算出部１３０ａは、各kについて、ポーズ配置推定結果R_k (k∈{1,…,N})のスコアS_kを、正規化されたスコアS_norm,kとスコアY_norm,kの和として求める（式（２）参照）。なお、式（２）において、スコアY_norm,kに乗ぜられるαは、スコアS_kの算出におけるスコアY_norm,kの影響を調整する重み係数であり、例えば予め定められたゼロ以外の定数とする。

第１実施形態または第２実施形態によると、ポーズ配置の自然性とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを用いて、機械学習に基づいて得られた複数のポーズ配置推定結果から最も自然性が高いと推定されるポーズ配置推定結果を選択することで、自然性が高い合成音声を生成可能なポーズ配置推定結果を得ることができる。

なお、第１実施形態または第２実施形態において、スコア算出モデル１６０に替えて、第３実施形態で説明するスコア算出モデル３６０を用いることもできる。

＜第３実施形態＞
第３実施形態は、所与の音声データに付与されたポーズの位置の組であるポーズ配置（一つのポーズ配置には、０個または１個以上のポーズが含まれるとする）と各ポーズのポーズ長とによって表されるポーズ構成の自然性に関する主観評価実験結果から、ポーズ構成の自然性とポーズに関連する様々な言語的特徴との関係をモデル化し、得られたモデルをポーズ構成の推定に利用することによって、自然性が高い合成音声の生成を可能とする機械学習に基づくポーズ構成の自動推定に関する。
まず、ポーズ構成が互いに異なる複数の音声データを用いた主観評価実験によって収集したデータをもとに、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを構築する。第３実施形態のスコア算出モデルは、ポーズ長の自然性も考慮されている点で、第１実施形態あるいは第２実施形態におけるスコア算出モデルとは異なる。そして、構築されたスコア算出モデルを用いて、機械学習によって取り得る確率が高いと推定されたポーズ構成の推定結果をポーズ構成の自然性の観点でスコアリングし、スコアが最大となる（つまり、ポーズ構成の自然性が最も高いと推定される）ポーズ構成推定結果を出力する。

第３実施形態のポーズ構成推定装置３００は、ポーズ配置推定部３１０、ポーズ長推定部３１０ｂ、特徴量抽出部３２０、スコア算出部３３０、候補選択部３４０、図示しない記憶部を含んで構成される。記憶部には、後述するポーズ配置推定モデル３５０、ポーズ長推定モデル３５０ｂ、スコア算出モデル３６０が予め記憶されている。図７にポーズ構成推定装置３００の機能構成図、図８に第３実施形態の処理フローを示す。
ポーズ配置推定部３１０は、機械学習によって構築されたポーズ配置推定モデル３５０を用いて入力されたテキスト３０５に対してポーズ配置推定を行い、複数のポーズ配置推定結果３１５を出力する。
ポーズ長推定部３１０ｂは、機械学習によって構築されたポーズ長推定モデル３５０ｂを用いて、ポーズ配置推定結果のそれぞれに対してポーズ長推定を行い、ポーズ配置推定結果ごとに複数のポーズ長推定結果を求める。このため、例えば、ポーズ配置推定結果ごとにG個のポーズ長推定結果が出力されるとすると、結果的に、ポーズ長推定部３１０ｂが、ポーズ配置N種×ポーズ長G種の総計N×G個のポーズ構成推定結果３１５ｂを出力することになる。以下、複数のポーズ構成推定結果のそれぞれを候補とも呼称する。
特徴量抽出部３２０は、各候補に対してポーズに関連する言語的特徴の特徴量３２５の抽出を行う。
スコア算出部３３０は、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に関する知見に基づいて構築されたスコア算出モデル３６０を用いて、各候補の特徴量３２５から各候補のスコア３３５を算出する。
候補選択部３４０は、スコア算出部３３０で算出されたスコア３３５が最大となる（つまり、ポーズ構成の自然性が最も高いと推定される）候補３４５を選択する。
以下に各部の処理の具体例を説明する。

[ポーズ配置推定部３１０−ステップＳ３１]
入力：入力テキスト、ポーズ配置推定モデル
出力：ポーズ配置推定結果R_k(k=1,…,N)
処理：機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果R_k (k=1,…,N)を出力する。

入力テキスト３０５は単語ごとに分かち書きされたテキストデータであり、各単語には品詞、読み、モーラ数、係り受けの有無等の様々な言語情報が付与されている。

ポーズ配置推定部３１０は、入力テキスト３０５に含まれる各単語に対して、単語の直後にポーズが挿入されるか否かを推定して、入力テキスト３０５にポーズ有無ラベルを付与する。ポーズが挿入されると推定された位置の組であるポーズ配置（ただし、一つのポーズ配置には、０個または１個以上のポーズが含まれるとする）に係る推定結果が一つの「ポーズ配置推定結果」である。この推定には、予めポーズ有無ラベルが付与された学習データを用いて各単語の言語情報とポーズ配置との関係を学習したポーズ配置推定モデル３５０が用いられる。モデル化には、N-gramモデルやCRFモデル等の、ポーズ配置推定結果の適正さを表す指標を得ることができる確率モデルに基づく機械学習を用いる。具体的なモデルの構築方法については、例えば上記非特許文献２を参考にされたい。

結果として、ポーズ配置推定部３１０は、ポーズ配置推定モデル３５０から算出されるポーズ配置推定結果の指標が高い順にＮ個（Ｎは２以上の整数）のポーズ配置推定結果R_k (k=1,…,N) （いわゆるN-bestである）を出力する。

[ポーズ長推定部３１０ｂ−ステップＳ３１ｂ]
入力：入力テキスト、ポーズ配置推定結果R_k (k=1,…,N)、ポーズ長推定モデル
出力：ポーズ構成推定結果V_k,g(k) (k=1,…,N, g(k)=1,…,G_k)
処理：機械学習によって構築されたポーズ長推定モデルを用いて、ポーズ配置推定結果のそれぞれに対してポーズ長推定を行い、ポーズ配置推定結果ごとに一つ以上のポーズ長推定結果を求める。

ポーズ配置推定結果R_k (k=1,…,N)のそれぞれについて、ポーズ長推定部３１０ｂは、ポーズ長推定対象のポーズ配置推定結果R_k(k∈{1,…,N})に含まれるポーズの推定位置に対応する各ポーズのポーズ長を推定する。一つのポーズ配置推定結果について推定された各ポーズのポーズ長からなる一つの組が、一つの「ポーズ長推定結果」である。

この例のポーズ長推定では、秒数などが直接推定されるのではなく、例えば３〜５種類程度に量子化したポーズ長のラベルが推定される。ラベルのカテゴリは、例えば、ポーズ長が0.3秒以下であればショートポーズ（<sp>）、ポーズ長が0.3秒より長く0.5秒未満であればミディアムポーズ（<mp>）、ポーズ長が0.5秒以上であればロングポーズ（<lp>）、のように分類されている。

ポーズ長の推定には、ポーズ配置と各ポーズのポーズ長のラベルが付与された学習データを用いて、言語情報とポーズ配置とポーズ長との関係を学習したポーズ長推定モデル３５０ｂを用いる。モデル化には、ポーズ配置推定モデル３５０と同様に、CRFモデル、N-gramモデル等の推定された各ポーズのポーズ長からなる組（つまり、ポーズ長推定結果）の適切さを表す指標を得ることができるような確率モデルに基づく機械学習を用いる。なお、ポーズ長推定部３１０ｂに入力されるテキストの言語情報としては、ポーズ配置推定部３１０に入力されたテキスト３０５の言語情報と同じでもよいし、ポーズ長の推定に有効と考えられる言語情報が追加されたものでもよい。

ポーズ配置推定結果R_k(k=1,…,N)のそれぞれについて、ポーズ長推定部３１０ｂは、ポーズ長推定対象のポーズ配置推定結果R_k (k∈{1,…,N})につき、ポーズ長推定モデル３５０ｂから算出されるポーズ長推定結果の指標が高い順にG_k個（G_kはkに対応して定められた１以上の整数）のポーズ長推定結果L_k,g(k)(k∈{1,…,N}, g(k)=1,…,G_k)を出力する（G_k-best）。したがって、ポーズ長推定部３１０ｂは、Σ_k=1 ^NG_k個のポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)つまりV_1,1, …, V_1,g(1), V_2,1, …, V_2,g(2), V_N,1, …, V_N,g(N)を出力することになる。これらΣ_k=1 ^NG_k個のポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれが、自然性の高い合成音声の生成を可能とするポーズ構成の候補である。なお、一つのポーズ配置推定結果と一つのポーズ長推定結果との組が、一つの「ポーズ構成推定結果」である。仮にG₁=G₂=…=G_N=Gであれば、ポーズ長推定部３１０ｂは、ポーズ配置N種×ポーズ長G種の総計N×G個のポーズ構成推定結果を出力することになる。また、計算量を減らすために、G_k(k=1,…,N)の値を（広義）単調減少に設定、つまり、1-bestに対するG₁の値を最も大きく、N-bestに対するG_Nの値を最も小さく、設定してもよい。例えば、G₁＞G₂≧G₃＞…＞G_Nのように設定してもよい。

一つのポーズ配置推定結果に対する一つのポーズ長推定結果の例（つまり、ポーズ構成推定結果の例）を図９に示す。なお、図９では、ポーズ配置推定と同じく、単語単位でポーズ長を学習したモデルに基づくポーズ長推定の例を示したが、より長い句の単位、例えば、文節ごと、ポーズ句ごとに学習することも可能である。

[特徴量抽出部３２０−ステップＳ３２]
入力：ポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)
出力：ポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれの特徴量X_i(k,g(k))(i=1,…,p, k=1,…,N, g(k)=1,…,G_k)
処理：ポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれに対して、ポーズに関連する言語的特徴の特徴量X_i(k,g(k)) (i=1,…,p, k=1,…,N, g(k)=1,…,G_k)の抽出を行う。

特徴量抽出部３２０は、Σ_k=1 ^NG_k個のポーズ構成推定結果V_k,g(k) (k=1,…,N, g(k)=1,…,G_k)つまりΣ_k=1 ^NG_k個の候補に対して、候補ごとに、ポーズに関連する一つまたは複数の言語的特徴の特徴量３２５を抽出する。
具体的には、特徴量抽出部３２０は、抽出対象のポーズ構成推定結果V_k,g(k) (k∈{1,…,N}, g(k)∈{1,…,G_k})を構成するポーズ配置推定結果R_k(k∈{1,…,N})とポーズ長推定結果L_k,g(k)(k∈{1,…,N}, g(k)∈{1,…,G_k})について、ポーズ配置推定結果R_k (k∈{1,…,N})のポーズに関連する一つまたは複数（以下、この数をp1とする）の言語的特徴の特徴量と、ポーズ長推定結果L_k,g(k) (k∈{1,…,N}, g(k)∈{1,…,G_k})のポーズに関連する一つまたは複数（以下、この数をp2とする）の言語的特徴の特徴量とを求め、両者の特徴量の組をポーズ構成推定結果V_k,g(k)(k∈{1,…,N}, g(k)∈{1,…,G_k})の特徴量とする。
便宜上、言語的特徴の種類の数をp（pは２以上の整数であり、p=p1+p2である）とし、(k,g(k)) (k∈{1,…,N}, g(k)∈{1,…,G_k})番目のポーズ構成推定結果V_k,g(k)(k∈{1,…,N}, g(k)∈{1,…,G_k})に対応するp個の特徴量（p個の言語的特徴のそれぞれを数値化したもの）をX_i(k,g(k)) (i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,G_k})と定義する。

抽出する言語的特徴の例として下記のような言語的特徴が挙げられる。なお、ポーズ句は、ポーズとポーズに挟まれた区間のことである。下記(1)〜(7)はポーズ配置に関連する特徴量であり、下記(8)〜(10)はポーズ長に関連する特徴量である。
(1) ポーズ句内のモーラ数の平均
(2) ポーズ句内のモーラ数の分散
(3) ポーズ句内のモーラ数の外れ値の有無
(4) 係り受けにある区間にポーズが挿入された数
(5) 係り受けにない区間にポーズが挿入されなかった数
(6) ポーズ句内の自立語数の平均
(7) ポーズ句内の自立語数の分散
(8) ポーズ長の平均
(9) ポーズ長の分散
(10) ポーズ長の外れ値の有無

ポーズ句内のモーラ数の外れ値としては、例えば、主観評価実験に用いた全データから予め算出したポーズ句のモーラ数の平均長をμ、標準偏差をσとして、μ+1σ, μ+2σ, μ-1σ, μ-2σなどの数値を例示できる。外れ値の有無の判定は、例えば、外れ値をμ+2σとした場合、判定対象の候補に含まれるポーズの推定位置によって得られる各ポーズ句についてモーラ数をそれぞれ求め、これらのモーラ数の全てが[μ, μ+2σ]の範囲内にあれば無し、これらのモーラ数のうち一つでも[μ, μ+2σ]の範囲内に無ければ有り、と判定し、当該候補について外れ値の有無に関するフラグを出力する（この処理は各候補について行われる）。

同様に、ポーズ長の外れ値としては、例えば、主観評価実験に用いた全データから予め算出したポーズ長の平均長をμ_a、標準偏差をσ_aとして、μ_a+1σ_a, μ_a+2σ_a, μ_a-1σ_a, μ_a-2σ_aなどの数値を例示できる。外れ値の有無の判定は、例えば、外れ値をμ_a+2σ_aとした場合、判定対象の候補に含まれるポーズの推定位置に対するポーズ長をそれぞれ求め、これらのポーズ長の全てが[μ_a, μ_a+2σ_a]の範囲内にあれば無し、これらのポーズ長のうち一つでも[μ_a, μ_a+2σ_a]の範囲内に無ければ有り、と判定し、当該候補について外れ値の有無に関するフラグを出力する（この処理は各候補について行われる）。

なお、第３実施形態では、上記例示した全ての種類の言語的特徴を用いる必要はないが、少なくともポーズ配置に関連する特徴量一つとポーズ長に関連する特徴量一つを用いる必要がある。例えば、ポーズ配置に関連する特徴量として、「ポーズ句内のモーラ数の平均」、「ポーズ句内のモーラ数の外れ値の有無」、「係り受けにある区間にポーズが挿入された数」、「係り受けにない区間にポーズが挿入されなかった数」のいずれか一つ以上の特徴量を抽出すればよく、ポーズ長に関連する特徴量として、「ポーズ長の平均」、「ポーズ長の分散」、「ポーズ長の外れ値の有無」のいずれか一つ以上の特徴量を抽出すればよい。

また、図９では、係り受けに関する項目が記載されていないが、係り受けに関する特徴量を抽出する場合には、係り受けに関する項目が言語的特徴として入力されている必要がある。

[スコア算出部３３０−ステップＳ３３]
入力：スコア算出モデル、ポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれの特徴量X_i(k,g(k))(i=1,…,p, k=1,…,N, g(k)=1,…,G_k)
出力：ポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれのスコアS_k,g(k)(k=1,…,N, g(k)=1,…,G_k)
処理：スコア算出モデルを用いて、ポーズ構成推定結果V_k,g(k) (k=1,…,N, g(k)=1,…,G_k)のそれぞれの特徴量X_i(k,g(k)) (i=1,…,p, k=1,…,N, g(k)=1,…,G_k)に基づく、ポーズ構成推定結果V_k,g(k) (k=1,…,N, g(k)=1,…,G_k)のそれぞれのスコアS_k,g(k) (k=1,…,N, g(k)=1,…,G_k)を算出する。

スコアの算出には、ポーズ構成の自然性の主観評価実験によって収集したデータをもとに、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係をモデル化したスコア算出モデル３６０を用いる。スコア算出モデル３６０には各特徴量の値に応じた重みが割り当てられており、特徴量が入力されると重みを用いたスコアの計算が行われる。この例では、重みは、自然性の高いポーズ構成に関連する特徴量が入力されると高いスコアを、逆に自然性の低いポーズ構成に関連する特徴量が入力されると低いスコアを算出するよう設計されている。以下に、スコア算出モデル３６０の重みの決定方法、及びスコアの算出方法について説明する。

・スコア算出モデルの重みの決定方法
以下に、一例として、上述の数量化II類を用いた重みの決定方法について説明する。
まず、ポーズ構成がそれぞれ異なるＤ個（Ｄは２以上の整数）の音声データを予め用意し、主観評価実験を行うことでポーズ構成の自然性の主観評価値を得る。主観評価は、被験者がそれぞれの音声を聴取し、ポーズ構成の自然性を例えば「５：非常に自然」から「１：非常に不自然」までの５段階で主観評価値をつけることによって行う。
次に、主観評価に用いたそれぞれの音声データからポーズに関するp種類の特徴量X_i(d) (i=1,…,p, d=1,…,D)を抽出する。そして、得られた自然性の主観評価値及び特徴量をその値に応じて数種類のカテゴリに分類する。カテゴライズは、例えば全ての音声データを値順に等サンプル数になるように等分割する方法が考えられる。
そして、自然性の主観評価値のカテゴリと各特徴量のカテゴリとの関係を数量化II類に基づく線形モデルによってモデル化し、特徴量の各カテゴリに対して、自然性に関する重みを決定する。数量化II類による具体的な重みの算出方法については上記参考文献１を参考にされたい。
参考として、図１０に、p=8とし、特徴量抽出部３２０が抽出する言語的特徴を、ポーズ句内のモーラ数の平均（この特徴量を表す変数をX₁とする）、係り受けにある区間にポーズが挿入された数（この特徴量を表す変数をX₂とする）、ポーズ句内の自立語数の平均（この特徴量を表す変数をX₃とする）、ポーズ句内のモーラ数の外れ値（μ+1σ）の有無（この特徴量を表す変数をX₄とする）、ポーズ句内のモーラ数の外れ値（μ+2σ）の有無（この特徴量を表す変数をX₅とする）、ポーズ句内のモーラ数の外れ値（μ-1σ）の有無（この特徴量を表す変数をX₆とする）、ポーズ句内のモーラ数の外れ値（μ-2σ）の有無（この特徴量を表す変数をX₇とする）、ポーズ長の平均（この特徴量を表す変数をX₈とする）とした場合の各特徴量X_i(i=1,…,8)の各カテゴリにおける重みの例を示す。

・スコア算出モデルを用いたスコア算出方法
以下に、スコア算出モデル３６０を用いたスコア算出方法を説明する。各候補つまり各ポーズ構成推定結果V_k,g(k) (k=1,…,N, g(k)=1,…,G_k)について、スコア算出部３３０は、スコア算出対象のポーズ構成推定結果V_k,g(k) (k∈{1,…,N}, g(k)∈{1,…,G_k})のスコアS_k,g(k)を、入力された各特徴量X_i(k,g(k)) (i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,G_k})が該当するカテゴリに割り当てられている重みを全特徴量について足し合わせることによって算出する。
i番目の言語的特徴の特徴量を表す変数X_i (i=1,…,p)がそれぞれM_i(i=1,…,p)種類のカテゴリをもつとき、特徴量X_i (i=1,…,p)の各カテゴリに対して割り当てられている重みをW_ij(i=1,…,p, j=1,…,M_i)と定義する。また、各特徴量X_i (i=1,…,p)の各カテゴリにおいて、入力された特徴量X_i(k,g(k))(i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,G_k})が該当するカテゴリでは１、該当しないカテゴリでは０を取るようなダミー変数C_ij(i=1,2,…,p, j=1,…,M_i)を定義する。つまり、ダミー変数C_ijは、入力された特徴量X_i(k,g(k))(i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,G_k})に応じて、特徴量X_i (i=1,…,p)のカテゴリのうち一つだけで値１を持つ。ここで、各カテゴリに割り当てられている重みW_ijとダミー変数C_ijを用いて、以下の式（３）によって、スコア算出対象のポーズ構成推定結果V_k,g(k) (k∈{1,…,N}, g(k)∈{1,…,G_k})のスコアS_k,g(k)を算出する。

具体例として、p=4とし、特徴量抽出部３２０が抽出する言語的特徴を、ポーズ句内のモーラ数の平均（この特徴量を表す変数をX₁とする）、係り受けにある区間にポーズが挿入された数（この特徴量を表す変数をX₂とする）、ポーズ句内の自立語数の平均（この特徴量を表す変数をX₃とする）、ポーズ長の平均（この特徴量を表す変数をX₈とする）とした場合における或る候補のスコアの計算を図１０を参照して説明する。
この具体例では、各特徴量X_i (i=1,2,3,8)のカテゴリはそれぞれ３種類（M₁=M₂=M₃=M₈=3）でいずれも「大」「中」「小」であるとする。ここでは、便宜上、j=1が「大」を指示し、j=2が「中」を指示し、j=3が「小」を指示するとする。図１０から、重みW_ij(i=1,2,3,8, j=1,2,3)は、W₁₁=-0.39、W₁₂=0.44、W₁₃=-0.08、W₂₁=0.32、W₂₂=-0.20、W₂₃=-0.81、W₃₁=-0.03、W₃₂=0.22、W₃₃=-0.30、W₈₁=-0.15、W₈₂=0.31、W₈₃=-0.28である。さらに、ポーズ句内のモーラ数の平均の特徴量X₁については、X₁≧18.5なら「大」、18.5＞X₁≧8.3なら「中」、8.3＞X₁なら「小」のカテゴリに分類されるとする。係り受けにある区間にポーズが挿入された数の特徴量X₂については、X₂＞3なら「大」、3≧X₂＞1なら「中」、1≧X₂なら「小」のカテゴリに分類されるとする。ポーズ句内の自立語数の平均の特徴量X₃については、X₃≧5.5なら「大」、5.5＞X₃≧2.3なら「中」、2.3＞X₃なら「小」のカテゴリに分類されるとする。ポーズ長の平均の特徴量X₈については、X₈≧0.5なら「大」、0.5＞X₈≧0.3なら「中」、0.3＞X₈なら「小」のカテゴリに分類されるとする。
スコア算出対象のポーズ構成推定結果V_k,g(k) (k∈{1,…,N}, g(k)∈{1,…,G_k})の特徴量X_i(k,g(k))(i=1,2,3,8, k∈{1,…,N}, g(k)∈{1,…,G_k})の具体例をX_1(k,g(k))=21.2、X_2(k,g(k))=2、X_3(k,g(k))=1.3、X_8(k,g(k))=0.4とすると、この場合、特徴量X_1(k,g(k))=21.2は「大」に該当するのでC₁₁=1、C₁₂=0、C₁₃=0であり、特徴量X_2(k,g(k))=2は「中」に該当するのでC₂₁=0、C₂₂=1、C₂₃=0であり、特徴量X_3(k,g(k))=1.3は「小」に該当するのでC₃₁=0、C₃₂=0、C₃₃=1であり、特徴量X_8(k,g(k))=0.4は「中」に該当するのでC₈₁=0、C₈₂=1、C₈₃=0である。したがって、スコア算出対象のポーズ構成推定結果V_k,g(k) (k∈{1,…,N}, g(k)∈{1,…,G_k})のスコアS_k,g(k)は、式（３）から、ゼロではないダミー係数が乗ぜられる重みの合計によって計算できるので、
S=W₁₁+W₂₂+W₃₃+W₈₂=-0.39-0.20-0.30+0.31=-0.58
となる。
このようにして、スコア算出部３３０は、特徴量抽出部３２０から出力された各候補のスコアを算出する。

[候補選択部３４０−ステップＳ３４]
入力：ポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれのスコアS_k,g(k)(k=1,…,N, g(k)=1,…,G_k)
出力：選択されたポーズ構成推定結果を指定する情報
処理：候補選択部３４０は、ポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれのスコアS_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のうち最も高いスコアS_B1,B2(B1∈{1,…,N}, B2∈{1,…,G_k})を特定し、特定された最高スコアに対応するポーズ構成推定結果V_B1,B2 (B1∈{1,…,N}, B2∈{1,…,G_k})を指定する情報（例えば、B1とB2の組）を出力する。

つまり、複数の候補のうち最高スコアに対応する候補が、最も自然性が高いポーズであると推定される候補３４５である。

＜第４実施形態＞
第４実施形態は第３実施形態の変形例である。第３実施形態では、候補選択部３４０が、スコア算出モデル３６０を用いて算出されたスコアが最大のポーズ構成推定結果を出力した。ここでさらに、ポーズ配置推定部３１０によってポーズ配置推定モデル３５０を用いて算出された各ポーズ配置推定結果の適正さを表す指標I1と、ポーズ長推定部３１０ｂによってポーズ長推定モデル３５０ｂを用いて算出された各ポーズ長推定結果の適正さを表す指標I2と、をスコア算出部３３０のスコア計算に用いることによって、学習データにおける自然性も考慮に入れることができるため、データドリブンに、より自然性が高いポーズ構成推定結果を決定できることが期待される。

この指標I1は、通常、ポーズ配置推定モデル３５０を用いたポーズ配置推定処理でポーズ配置推定結果と共に出力され、多くの場合、確率値のような数値で表されるが、大小関係が定義されていれば十分なので、０以上かつ１以下の数値に限定されるものではない。以下、この指標I1を「配置推定スコア」と呼称する。
同様に、この指標I2は、通常、ポーズ長推定モデル３５０ｂを用いたポーズ長推定処理でポーズ長推定結果と共に出力され、多くの場合、確率値のような数値で表されるが、大小関係が定義されていれば十分なので、０以上かつ１以下の数値に限定されるものではない。以下、この指標I2を「長さ推定スコア」と呼称する。

ポーズ配置推定モデル３５０を用いて算出されるポーズ配置推定結果の配置推定スコア３１６は、学習データである設計対象の口調の自然な発話のポーズ配置に基づいて算出され、ポーズ長推定モデル３５０ｂを用いて算出されるポーズ長推定結果の長さ推定スコア３１６ｂは、学習データである設計対象の口調の自然な発話に現れるポーズ長に基づいて算出される。このため、或るポーズ配置推定結果の配置推定スコアが他のポーズ配置推定結果の配置推定スコアと比べて相対的に低い（例えば1-bestのポーズ配置推定結果の配置推定スコアの1/10程度）場合は、学習データにおいて挿入されるのが稀な位置にポーズが挿入されている可能性が高く、適切ではないことが想定される。同様に、或るポーズ長推定結果の長さ推定スコアが他のポーズ長推定結果の長さ推定スコアと比べて相対的に低い（例えば1-bestのポーズ長推定結果の長さ推定スコアの1/12程度）場合は、学習データにおいて稀なポーズ長が用いられている可能性が高く、適切ではないことが想定される。このようなポーズ配置推定結果とポーズ長推定結果を予め除外し、また、スコア算出においても配置推定スコアと長さ推定スコアを明示的に利用することで、学習データに適し、かつ自然性が高いような結果を出力することが期待できる。

図１１に第４実施形態のポーズ構成推定装置４００の全体構成図、図１２に第４実施形態の処理フローを示す。第４実施形態のポーズ構成推定装置４００では、第３実施形態のポーズ配置推定部３１０、ポーズ長推定部３１０ｂ、スコア算出部３３０に替えて、ポーズ配置推定部３１０ｑ、ポーズ長推定部３１０ｂｑ、スコア算出部３３０ｑが含まれる。以下、第３実施形態と異なる技術事項について説明し、その他については第３実施形態と同じであるから説明を省略する。

[ポーズ配置推定部３１０ｑ−ステップＳ３１ｑ]
入力：入力テキスト、ポーズ配置推定モデル
出力：ポーズ配置推定結果R_k(k=1,…,N)と、ポーズ配置推定結果R_k (k=1,…,N)のそれぞれに対応する配置推定スコアY_k (k=1,…,N)
処理：機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果R_k (k=1,…,N)及びポーズ配置推定結果R_k(k=1,…,N)のそれぞれに対応する配置推定スコアY_k (k=1,…,N)を出力する。

ポーズ配置推定部３１０ｑは、ポーズ配置推定モデル３５０から算出される配置推定スコアが閾値以上（例えば1-bestの配置推定スコアの1/5以上）である上位Ｎ個（Ｎは２以上の整数）のポーズ配置推定結果R_k (k=1,…,N)と、ポーズ配置推定結果R_k(k=1,…,N)のそれぞれに対応する配置推定スコアY_k (k=1,…,N)を出力する。このため、候補としてふさわしくないと予想される配置推定スコアの低い結果が排除される。
（註：第３実施形態と第４実施形態において同じ記号Ｎを使用しているが、その意味は異なる。第３実施形態ではＮは予め定められた値であるが、第４実施形態ではＮは結果として得られた値である）

[ポーズ長推定部３１０ｂｑ−ステップＳ３１ｂｑ]
入力：ポーズ配置推定結果R_k (k=1,…,N)、ポーズ長推定モデル
出力：ポーズ長推定結果L_k,g(k) (k=1,…,N, g(k)=1,…,G_k)のそれぞれに対応する長さ推定スコアZ_k,g(k) (k=1,…,N, g(k)=1,…,G_k)と、ポーズ構成推定結果V_k,g(k) (k=1,…,N, g(k)=1,…,G_k)
処理：機械学習によって構築されたポーズ長推定モデルを用いて、ポーズ配置推定結果のそれぞれに対してポーズ長推定を行い、ポーズ配置推定結果ごとにG_k個のポーズ長推定結果と、ポーズ長推定結果L_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれに対応する長さ推定スコアZ_k,g(k)(k=1,…,N, g(k)=1,…,G_k)を求める。

ポーズ配置推定結果R_k (k=1,…,N)のそれぞれについて、ポーズ長推定部３１０ｂｑは、ポーズ長推定対象のポーズ配置推定結果R_k (k∈{1,…,N})につき、ポーズ長推定モデル３５０ｂから算出される長さ推定スコアが閾値以上（例えば1-bestの長さ推定スコアの1/6以上）である上位G_k個（G_kはkに対応して定められた１以上の整数）のポーズ長推定結果L_k,g(k)(k∈{1,…,N}, g(k)=1,…,G_k)と、ポーズ長推定結果L_k,g(k) (k∈{1,…,N}, g(k)=1,…,G_k)のそれぞれに対応する長さ推定スコアZ_k,g(k) (k∈{1,…,N}, g(k)=1,…,G_k)を求める（G_k-best）。このようにして、ポーズ長推定部３１０ｂｑは、Σ_k=1 ^NG_k個のポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)つまりV_1,1, …, V_1,g(1), V_2,1, …, V_2,g(2), V_N,1, …, V_N,g(N)と、ポーズ長推定結果L_k,g(k) (k=1,…,N, g(k)=1,…,G_k)のそれぞれに対応する長さ推定スコアZ_k,g(k) (k=1,…,N, g(k)=1,…,G_k)を出力することになる。このため、候補としてふさわしくないと予想される長さ推定スコアの低い結果が排除される。
（註：第３実施形態と第４実施形態において同じ記号G_kを使用しているが、その意味は異なる。第３実施形態ではG_kは予め定められた値であるが、第４実施形態ではG_kは結果として得られた値である）

[スコア算出部３３０ｑ−ステップＳ３３ｑ]
入力：スコア算出モデル、ポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれの特徴量X_i(k,g(k))(i=1,…,p, k=1,…,N, g(k)=1,…,G_k)、ポーズ配置推定結果R_k(k=1,…,N)のそれぞれに対応する配置推定スコアY_k (k=1,…,N)、ポーズ長推定結果L_k,g(k) (k=1,…,N, g(k)=1,…,G_k)のそれぞれに対応する長さ推定スコアZ_k,g(k) (k=1,…,N, g(k)=1,…,G_k)
出力：ポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれのスコアS_k,g(k)(k=1,…,N, g(k)=1,…,G_k)
処理：スコア算出モデルを用いて、ポーズ構成推定結果V_k,g(k) (k=1,…,N, g(k)=1,…,G_k)のそれぞれの特徴量X_i(k,g(k)) (i=1,…,p, k=1,…,N, g(k)=1,…,G_k)と配置推定スコアY_k (k=1,…,N)と長さ推定スコアZ_k,g(k)(k=1,…,N, g(k)=1,…,G_k)に基づくポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれのスコアS_k,g(k)(k=1,…,N, g(k)=1,…,G_k)を算出する。

まず、各候補つまり各ポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)について、スコア算出部３３０ｑは、スコア算出対象のポーズ構成推定結果V_k,g(k) (k∈{1,…,N}, g(k)∈{1,…,G_k})のスコアS_temp,k,g(k)を、入力された各特徴量X_i(k,g(k)) (i=1,…,p, k∈{1,…,N}, g(k)∈{1,…,G_k})が該当するカテゴリに割り当てられている重みを全特徴量について足し合わせることによって算出する（この処理は第３実施形態のステップＳ３３の処理と同じであり、当該説明中、S_k,g(k)をS_temp,k,g(k)に読み替えればよい）。そして、スコア算出部３３０ｑは、S_temp,k,g(k) (k=1,…,N, g(k)=1,…,G_k)を平均が0、分散が1になるような線形変換によって正規化したスコアS_norm,k,g(k) (k=1,…,N, g(k)=1,…,G_k)を求める。この線形変換の具体例は次のとおりである。S_temp,k,g(k) (k=1,…,N, g(k)=1,…,G_k)の平均をμ、分散をσ²としたとき、線形変換は、aμ+b=0、a²σ²=1を満たすa,bによって、S_norm,k,g(k)=a S_temp,k,g(k) + b (k=1,…,N, g(k)=1,…,G_k)で与えられる。
また、スコア算出部３３０ｑは、ポーズ配置推定結果R_k (k=1,…,N)のそれぞれの配置推定スコアY_k(k=1,…,N)を平均が0、分散が1になるような線形変換によって正規化した正規化配置推定スコアY_norm,k (k=1,…,N)を求める。この線形変換は上述のとおりである。
また、スコア算出部３３０ｑは、ポーズ長推定結果L_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれに対応する長さ推定スコアZ_k,g(k)(k=1,…,N, g(k)=1,…,G_k)を平均が0、分散が1になるような線形変換によって正規化した正規化長さ推定スコアZ_norm,k,g(k)(k=1,…,N, g(k)=1,…,G_k)を求める。この線形変換は上述のとおりである。

そして、スコア算出部３３０ｑは、各(k,g(k)) (k=1,…,N, g(k)=1,…,G_k)について、ポーズ構成推定結果V_k,g(k)(k∈{1,…,N}, g(k)∈{1,…,G_k})のスコアS_k,g(k) (k∈{1,…,N}, g(k)∈{1,…,G_k})を、正規化されたスコアS_norm,k,g(k)と正規化配置推定スコアY_norm,kと正規化長さ推定スコアZ_norm,k,g(k)の和として求める（式（４）参照）。なお、式（４）において、正規化配置推定スコアY_norm,kに乗ぜられるβは、スコアS_k,g(k)の算出における正規化配置推定スコアY_norm,kの影響を調整する重み係数であり、例えば予め定められたゼロ以外の定数とし、正規化長さ推定スコアZ_norm,k,g(k)に乗ぜられるγは、スコアS_k,g(k)の算出における正規化長さ推定スコアZ_norm,k,g(k)の影響を調整する重み係数であり、例えば予め定められたゼロ以外の定数とする。

第３実施形態または第４実施形態によると、ポーズ構成の自然性とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを用いて、機械学習に基づいて得られた複数のポーズ構成推定結果から最も自然性が高いと推定されるポーズ構成推定結果を選択することで、自然性が高い合成音声を生成可能なポーズ構成推定結果を得ることができる。

＜第５実施形態＞
第５実施形態は、入力テキストの合成音声に含まれるポーズの配置と時間長（ポーズ構成）を、合成音声の自然性を損なわず、かつ合成音声が指定された時間に終了するように調整する、音声合成におけるポーズ構成の自動推定に関する。

例えばラジオ放送の音声コンテンツは、音声を配信することができる時間が正確に決められているため、指定された時間に正確に収まる音声コンテンツを作成する必要がある。しかし、テキストの合成音声を生成した場合に合成音声がどの程度の時間長となるかは、合成処理が終了しなければ正確に決定することができない。入力されるテキストの量を予め指定することでおおよそ指定された時間にあった合成音声を作成することはできるが、正確な時間に合わせるためには細かい調整を行う必要がある。

調整方法としてテキスト内容を編集してテキストの長さを増減する方法があるが、テキスト内容の修正は人手で行う必要があるためコストがかかる。また、合成音声の話速を変更することでも対処は可能であるが、変更後の合成音声は通常の話速の音声と比較すると聞きづらい音声となってしまう。このため、テキストの内容及び合成音声の話速をできるだけ維持したまま、音声コンテンツを自動的に時間内に終了するよう調整する枠組みがあれば、低コストで聞きやすい合成音声コンテンツの作成が可能となる。

この実施形態では合成音声のポーズに着目する。つまり、合成音声が指定された時間に終了するようにポーズの配置と時間長を自動的に調節することで、テキストの内容や合成音声の話速を変更することなく、指定時間長に合わせた音声コンテンツを作成することができる。ただし、ポーズは合成音声における自然性に重要な役割を果たしているため、ポーズを適切でない配置や時間長に変更すると、合成音声の自然性に悪影響を及ぼす虞がある。このため、ポーズの配置や時間長を、できるだけ合成音声の自然性を損なうことのないように調整する必要がある。

なお、自然性が高い合成音声を生成するためのポーズ配置と時間長の自動推定方式の従来手法として、人手で設計した規則を用いる手法（例えば上記非特許文献１）とポーズ配置が付与された学習データを用いて機械学習によりモデル化する手法（例えば上記非特許文献２、３）が存在する。しかし、これらいずれの方法とも、生成する音声合成の時間長に制限がない条件において自然性が高い合成音声を生成するためのポーズ推定方式であるため、生成する合成音声が指定された時間長で終了することを想定した用途に用いるのは不向きである。

第５実施形態では、まず、ポーズ構成が互いに異なる複数の音声データを用いた主観評価実験によって収集したデータをもとに、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを構築する。そして、構築されたスコア算出モデルを用いて、機械学習によって取り得る確率が高いと推定されたポーズ構成の推定結果をポーズ構成の自然性の観点でスコアリングする。ポーズ構成推定結果に対応する合成音声の時間長が指定された時間長に適しているポーズ構成推定結果のうちスコアが最も高い（つまり、合成音声の時間長が指定された時間長に適し、かつ、ポーズ構成の自然性が高いと推定される）ポーズ構成推定結果を選択する、あるいは、選択された当該ポーズ構成推定結果に対応する合成音声を出力する。

この第５実施形態では、第３実施形態と異なる技術事項について説明し、その他については第３実施形態と同じであるから説明を省略する。
図１３に第５実施形態のポーズ構成推定装置５００の全体構成図、図１４に第５実施形態の処理フローを示す。第５実施形態のポーズ構成推定装置５００では、第３実施形態の候補選択部３４０に替えて、選出部５４０が含まれる。以下、第３実施形態と異なる技術事項について説明し、その他については第３実施形態と同じであるから説明を省略する。

[選出部５４０−ステップＳ５４]
入力：ポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれのスコアS_k,g(k)(k=1,…,N, g(k)=1,…,G_k)、生成したい合成音声の時間長
出力：選択されたポーズ構成推定結果を指定する情報（あるいは、選択された当該ポーズ構成推定結果に対応する合成音声）
処理：ポーズ構成推定結果V_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のそれぞれのスコアS_k,g(k)(k=1,…,N, g(k)=1,…,G_k)のうち高いスコアを与えたポーズ構成推定結果から順に、ポーズ構成推定結果に対応する合成音声を生成する音声合成処理を行い、生成された合成音声の時間長と入力された時間長tとの比較を行う。両者の時間長の差が予め定められた閾値εより小さければ、このときのポーズ構成推定結果５４５を表す情報または当該ポーズ構成推定結果から得られた合成音声を出力して、処理を終了する。両者の時間長の差が上記閾値εより小さいと判定されなければ、次にスコアが高いポーズ構成推定結果に対して同じ処理を繰り返す。なお、閾値εは、音声合成処理によって生成された合成音声の時間長を入力された値（生成したい合成音声の時間長）に厳密に合わせなくてもよいように定めるマージンであり、利用先の状況によって閾値を定めることができて、例えば、±0.5秒程度に設定する（指定された時間に収まる音声コンテンツを作成する必要がある場合には、例えばε=-0.5[秒]に設定する）。

つまり、スコアS_k,g(k)(k=1,…,N, g(k)=1,…,G_k)を高い順にS_u(u=1,…,Σ_k=1 ^NG_k)に並べ替えとき（添え字の対応を表す置換πについてπ(k,g(k))=uが成立する）、選出部５４０は、u=1から処理を開始して、スコアS_uを与えたポーズ構成推定結果に対応する合成音声F_uを生成し、合成音声F_uの時間長と入力された時間長tとの差F_u-tがF_u-t＜εを満たすか否かを判定する。選出部５４０は、F_u-t＜εが満たされるときは、スコアS_uを与えたポーズ構成推定結果を表す情報または当該ポーズ構成推定結果から得られた合成音声F_uを出力し、F_u-t＜εが満たされないときは、u+1を新たなuの値として、スコアS_uを与えるポーズ構成推定結果に対応する合成音声F_uを生成し、合成音声F_uの時間長と入力された時間長tとの差F_u-tがF_u-t＜εを満すか否かを判定する。

第５実施形態は、第３実施形態のみならず第４実施形態にも適用可能である。この場合、第４実施形態の候補選択部３４０を選出部５４０に替えればよいので、第５実施形態の変形例として、機能構成図を図１５に、処理フローを図１６に示すに留める。

第５実施形態によると、ポーズ構成の自然性とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルを用いて、機械学習に基づいて得られた複数のポーズ構成推定結果から、合成音声の時間長が指定された時間長に適し、かつ、ポーズ構成の自然性が高いと推定される、ポーズ構成推定結果を選択することで、指定された時間長で自然性が高い合成音声を生成可能なポーズ構成推定結果を得ることができる。

＜第６実施形態＞
上述の各実施形態から明らかなように、本発明の要点の一つは、ポーズの自然性の主観評価実験によって収集したデータに基づいて構築した、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係を表すスコア算出モデルによるポーズの自然性の客観的数値化にある。よって、第６実施形態では、入力された音声におけるポーズの自然性の評価に関わる実施形態を説明する。

アナウンサー、プロナレータ等、人前で発話することを生業とする職業では、聞き手に発話内容の意味を正確に伝えるため、自然で分かりやすい話し方の訓練が行われている。自然で分かりやすい話し方を実現する上で重要となるのが、テキストのどの位置にどの程度の時間長のポーズ（間）を入れるかといったポーズの取り方（ポーズ構成）である。従来研究でも、ポーズの配置や時間長が音声の意味の理解に影響することが示されている（例えば参考文献２、３）。また、日本語学習者の自然で分かりやすい話し方の学習支援に向けたポーズの取り方の指南書も存在する。このように、自然で分かりやすい話し方とポーズとの関連を示す知見が存在する一方で、人間の知覚に近い指標で音声発話のポーズの自然性を自動的に評価する評価技術は考案されておらず、話者が自身の話し方の自然性や分かりやすさを客観的に評価し、話し方の訓練に活用するのは困難であった。
（参考文献２）西崎博光、関口芳廣、"教員の話し方改善支援システムの開発に向けた講義音声の特徴分析"、日本教育工学会論文誌Vol.34(3)、pp.171-179、2010.
（参考文献３）内田照久、"音声の発話速度と休止時間が話者の性格印象と自然なわかりやすさに与える影響"、教育心理学研究Vol.53(1)、pp.1-13、2005.

第６実施形態では、まず、入力された音声発話に対して音声区間検出を行い、ポーズの配置と時間長（つまり、ポーズ構成）を取得する。次に、取得したポーズ構成と発話対象のテキストに付与されている言語的情報（例えば、単語区切り等）とのマッチングを行い、ポーズに関連する言語的特徴の特徴量を抽出する。そして、抽出された特徴量とスコア算出モデルを用いて、入力された音声発話におけるポーズの自然性に応じたスコアを出力する。

第６実施形態のポーズ自然性評価装置６００は、音声区間検出部６１０、特徴量抽出部６２０、スコア算出部６３０、図示しない記憶部を含んで構成される。記憶部には、第３実施形態で説明したスコア算出モデル３６０が予め記憶されている。図１７にポーズ自然性評価装置６００の機能構成図、図１８に第６実施形態の処理フローを示す。
音声区間検出部６１０は、入力された音声発話６０６に対して音声区間検出処理を行い、音声発話６０６におけるポーズの配置と時間長、つまりポーズ構成６１５を抽出する。
特徴量抽出部６２０は、取得したポーズ構成６１５と、発話対象のテキスト（つまり、入力音声発話に対応するテキスト）６０５に付与されている言語的情報（単語区切り等）と、のマッチングを行い、ポーズに関連する言語的特徴の特徴量６２５を抽出する。
スコア算出部６３０は、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に関する知見に基づいて構築されたスコア算出モデル３６０を用いて、特徴量６２５から音声発話６０６のスコア６３５を算出する。
以下に各部の処理の具体例を説明する。

[音声区間検出部６１０−ステップＳ６１]
入力：音声発話
出力：音声発話におけるポーズ構成
処理：音声区間検出部６１０は、入力された音声発話６０６に対して音声区間検出処理を行い、当該音声発話６０６に含まれるポーズの配置と各ポーズの時間長、つまりポーズ構成６１５を検出する。

[特徴量抽出部６２０−ステップＳ６２]
入力：ポーズ構成、発話対象のテキスト
出力：ポーズに関連する言語的特徴の特徴量
処理：発話対象のテキストに付与されている言語的情報（単語区切り等）とポーズ構成とのマッチングを行い、ポーズに関連する言語的特徴の特徴量を抽出する。

入力される発話対象のテキスト６０５は入力された上記音声発話６０６の発話内容を表す文字情報であり、テキスト６０５には、予めテキスト解析によって単語境界、品詞、係り受け等の言語的情報が付与されている。特徴量抽出部６２０は、これらの言語的情報と音声区間検出部６１０によって抽出されたポーズ構成６１５とのマッチングを行い、テキスト６０５に対するポーズ構成のラベルの付与を行う。具体例としては、ポーズ構成６１５に基づいて、テキスト６０５に含まれる単語ごとに単語の直後にポーズが挿入されているか否かを判定し、単語直後にポーズが有る場合には記号"P"のラベルを、無い場合には記号"-"のラベルを、単語ごとに付与し、さらに、ポーズが挿入されている部分（記号"P"が付与された単語）には、ポーズ構成６１５に基づいてポーズ長情報も付与する。図１９に、ポーズ構成のラベル（ポーズ有無ラベルとポーズ長情報）が付与された入力テキストの例を示す。

そして、特徴量抽出部６２０は、マッチング結果に基づき、ポーズに関連する一つまたは複数の言語的特徴の特徴量６２５を抽出する。便宜上、言語的特徴の種類の数をp（pは１以上の整数）とし、マッチング結果に対応するp個の特徴量（p個の言語的特徴のそれぞれを数値化したもの）をΓ_i (i=1,…,p)と定義する。抽出する言語的特徴の例については第３実施形態と同じであるから説明を省略する。

なお、第６実施形態では、第３実施形態にて例示した全ての種類の言語的特徴を用いる必要はないが、好ましくは、少なくともポーズ配置に関連する特徴量一つとポーズ長に関連する特徴量一つを用いる。例えば、ポーズ配置に関連する特徴量として、「ポーズ句内のモーラ数の平均」、「ポーズ句内のモーラ数の外れ値」、「係り受けにある区間にポーズが挿入された数」、「係り受けにない区間にポーズが挿入されなかった数」のいずれか一つ以上の特徴量を抽出すればよく、ポーズ長に関連する特徴量として、「ポーズ長の平均」、「ポーズ長の分散」、「ポーズ長の外れ値の有無」のいずれか一つ以上の特徴量を抽出すればよい。

また、図１９では、係り受けに関する項目が記載されていないが、係り受けに関する特徴量を抽出する場合には、係り受けに関する項目が言語的特徴として入力されている必要がある。

[スコア算出部６３０−ステップＳ６３]
入力：スコア算出モデル、特徴量Γ_i (i=1,…,p)
出力：スコアS
処理：スコア算出モデルを用いて、特徴量Γ_i (i=1,…,p)に基づくスコアSを算出する。

スコアの算出には、ポーズ構成の自然性の主観評価実験によって収集したデータをもとに、ポーズ構成の自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係をモデル化したスコア算出モデル３６０を用いる。スコア算出モデル３６０については第３実施形態と同じであるから説明を省略する。

以下に、第６実施形態におけるスコア算出モデル３６０を用いたスコア算出方法を説明する。スコア算出部６３０は、発話音声６０６のスコアSを、入力された各特徴量Γ_i (i=1,…,p)が該当するカテゴリに割り当てられている重みを全特徴量について足し合わせることによって算出する。
i番目の言語的特徴の特徴量を表す変数X_i (i=1,…,p)がそれぞれM_i(i=1,…,p)種類のカテゴリをもつとき、特徴量X_i (i=1,…,p)の各カテゴリに対して割り当てられている重みをW_ij(i=1,…,p, j=1,…,M_i)と定義する。また、各特徴量X_i (i=1,…,p)の各カテゴリにおいて、入力された特徴量Γ_i (i=1,…,p)が該当するカテゴリでは１、該当しないカテゴリでは０を取るようなダミー変数C_ij(i=1,2,…,p, j=1,…,M_i)を定義する。つまり、ダミー変数C_ijは、入力された特徴量Γ_i(i=1,…,p)に応じて、特徴量X_i (i=1,…,p)のカテゴリのうち一つだけで値１を持つ。ここで、各カテゴリに割り当てられている重みW_ijとダミー変数C_ijを用いて、以下の式（５）によって、発話音声６０６のスコアSを算出する。このスコアSが音声発話６０６に含まれるポーズ構成の自然性についての評価に相当する。

＜補記＞
ポーズ配置推定装置あるいはポーズ構成推定装置あるいはポーズ自然性評価装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit）（キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくなどでもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（ポーズ配置推定部、ポーズ長推定部、特徴量抽出部、スコア算出部、候補選択部、選出部、音声区間検出部）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（ポーズ配置推定装置／ポーズ構成推定装置／ポーズ自然性評価装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出部と、
ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出部と、
各上記ポーズ推定結果のスコアと、各上記ポーズ推定結果に対応する合成音声の時間長に基づいて、合成音声の時間長が指定された時間長に適しているもののうちで最もスコアの高い合成音声を選択する選出部と
を含むポーズ推定装置。
複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出部と、
ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出部と
を含むポーズ推定装置であって、
上記ポーズ推定結果はポーズ配置推定結果を含み、
入力されたテキストから上記ポーズ配置推定結果と当該ポーズ配置推定結果のスコアを求めるポーズ配置推定部をさらに含み、
上記スコア算出部は、上記ポーズ推定結果のスコアを正規化したスコアと、上記ポーズ配置推定結果のスコアを正規化したスコアを用いて、上記ポーズ推定結果のスコアを算出する
ことを特徴とするポーズ推定装置。
複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出部と、
ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出部と
を含むポーズ推定装置であって、
上記ポーズ推定結果はポーズ配置推定結果とポーズ長推定結果を含み、
入力されたテキストから上記ポーズ配置推定結果と当該ポーズ配置推定結果のスコアを求めるポーズ配置推定部と、
入力されたテキストから上記ポーズ長推定結果と当該ポーズ長推定結果のスコアを求めるポーズ長推定部をさらに含み、
上記スコア算出部は、上記ポーズ推定結果のスコアを正規化したスコアと、上記ポーズ配置推定結果のスコアを正規化したスコアと、上記ポーズ長推定結果のスコアを正規化したスコアを用いて、上記ポーズ推定結果のスコアを算出する
ことを特徴とするポーズ推定装置。
特徴量抽出部が、複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出ステップと、
スコア算出部が、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出ステップと、
選出部が、各上記ポーズ推定結果のスコアと、各上記ポーズ推定結果に対応する合成音声の時間長に基づいて、合成音声の時間長が指定された時間長に適しているもののうちで最もスコアの高い合成音声を選択する選出ステップと
を有するポーズ推定方法。
特徴量抽出部が、複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出ステップと、
スコア算出部が、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出ステップと
を有するポーズ推定方法であって、
上記ポーズ推定結果はポーズ配置推定結果を含み、
ポーズ配置推定部が、入力されたテキストから上記ポーズ配置推定結果と当該ポーズ配置推定結果のスコアを求めるポーズ配置推定ステップをさらに有し、
上記スコア算出ステップは、上記ポーズ推定結果のスコアを正規化したスコアと、上記ポーズ配置推定結果のスコアを正規化したスコアを用いて、上記ポーズ推定結果のスコアを算出する
ことを特徴とするポーズ推定方法。
特徴量抽出部が、複数のポーズ推定結果のそれぞれに対してポーズに関連する言語的特徴の特徴量の抽出を行う特徴量抽出ステップと、
スコア算出部が、ポーズの自然性の主観評価値とポーズに関連する言語的特徴の特徴量との関係に基づいて構築されたスコア算出モデルを用いて、各上記ポーズ推定結果の特徴量に基づく各上記ポーズ推定結果のスコアを算出するスコア算出ステップと
を有するポーズ推定方法であって、
上記ポーズ推定結果はポーズ配置推定結果とポーズ長推定結果を含み、
ポーズ配置推定部が、入力されたテキストから上記ポーズ配置推定結果と当該ポーズ配置推定結果のスコアを求めるポーズ配置推定ステップと、
ポーズ長推定部が、入力されたテキストから上記ポーズ長推定結果と当該ポーズ長推定結果のスコアを求めるポーズ長推定ステップをさらに有し、
上記スコア算出ステップは、上記ポーズ推定結果のスコアを正規化したスコアと、上記ポーズ配置推定結果のスコアを正規化したスコアと、上記ポーズ長推定結果のスコアを正規化したスコアを用いて、上記ポーズ推定結果のスコアを算出する
ことを特徴とするポーズ推定方法。
請求項１から請求項３のいずれかに記載のポーズ推定装置としてコンピュータを機能させるためのプログラム。