JP6121313B2

JP6121313B2 - ポーズ推定装置、方法、プログラム

Info

Publication number: JP6121313B2
Application number: JP2013238797A
Authority: JP
Inventors: 博子武藤; 勇祐井島; 水野　秀之; 秀之水野; 宮崎　昇; 昇宮崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-11-19
Filing date: 2013-11-19
Publication date: 2017-04-26
Anticipated expiration: 2033-11-19
Also published as: JP2015099252A

Description

本発明は、自然性の高いポーズ（「間」とも呼ばれる無音時間）の推定に関するポーズ推定技術に関する。

従来、音声合成におけるポーズ位置およびポーズ長の推定には、人手で設計した規則を用いる手法と、ポーズ位置とポーズ長が付与された学習データを用いて機械学習によってモデル化する手法が用いられてきた。

規則を用いる手法としては、例えば非特許文献１に開示される技術が挙げられる。非特許文献１に開示される手法は、特定の句構造のときに性質の異なる長短２種類のポーズが挿入されることを読み上げ口調の音声データを用いた分析によって定量的に明らかにし、これらの特徴に基づいたポーズの挿入規則を作成している。

また、機械学習を用いる手法としては、ポーズ位置の推定については、例えば非特許文献２に開示される技術が挙げられる。非特許文献２に開示される手法は、機械学習の一つであるCRF(Conditional Random Fields；条件付き確率場)モデルを用いて、表記、読み等の一般的な特徴量とポーズ位置との関係をモデル化し、学習で得られたモデルをポーズ位置の推定に用いている。また、ポーズ長の推定については、例えば非特許文献３に開示される技術が挙げられる。非特許文献３に開示される手法は、予め推定されたポーズ位置に対して、HMM(Hidden Markov Model；隠れマルコフモデル)に基づいた音素の継続時間長推定の一環でポーズ長を推定しており、現在、一般的に用いられるようになってきている。

これらいずれの方法も、基本的には標準的な話速で発話された音声データの分析や統計的な学習に基づくものであり、必ずしも人間の知覚的な感覚と一致しているわけではない。一方で、知覚的な観点からの研究成果として、例えば非特許文献４のように、一つの発話に含まれるポーズの長さの総和を固定してポーズを含む発話全体の長さを一定に維持しつつ、短いポーズを長いポーズに統合することによってポーズの長さを長くすると話速が遅く感じられ聞き取りやすさが増すという報告がされており、ポーズの位置や長さが聞き取りやすさに影響を与えるということが分かっている。

海木延佳、匂坂芳典、"局所的な句構造によるポーズ挿入規則化の検討"、電子情報通信学会論文誌 D-II 情報・システム II-情報処理 J79-D-2(9)、pp.1455-1463、1996-09-25. 太田健吾、土屋雅稔、中川聖一、"ポーズを考慮した話し言葉言語モデルの構築"、情報処理学会論文誌Vol.53(2)、pp.889-900、2012/02/15. 吉村貴克、徳田恵一、益子貴史、小林隆夫、北村正、"HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化"、電子情報通信学会論文誌 D-II 情報・システム II-情報処理 J83-D-II(12)、pp.2099-2107、2000. 広実義人、"知覚上の発話速度に及ぼすポ-ズ数の影響"、音声学会会報 (205)、pp.63-65、1994-04-00.

必要に応じて話速を自由に変更できることは音声合成の重要な機能の一つである。従来は、話速に応じて音素やポーズの継続時間を一律に変更する方法が一般的であった。つまり、話速を２倍に早くしたいときは継続時間長を1/2倍にする処理を行う。このような処理によって容易に物理的な話速の変更は可能ではあるが、このような一律の処理を行うと、話速を早くした場合に聞き取りづらくなってしまうという問題があった。

このため、例えば下記参考文献１のように聴取能力が衰えている高齢者を対象に、アナウンサーが発話した音声の話速を発話開始時からの経過時間に応じて適切に変換するような方法も提案されており、このような方法を合成音声に適用することも容易である。しかし、このような話速の変換処理は、高齢者を対象とした聞き取りやすさをある程度担保できるものの、特定の時間に合成音声の長さを合わせたい局面には適用できず、健常者が音声全体を早聞きしたい場合には必ずしも適切とはいえない。
（参考文献１）中村章、清山信正、池沢龍、都木徹、宮坂栄一、"リアルタイム話速変換型受聴システム"、日本音響学会誌 50(7)、pp.509-520、1994.

また、前述した従来の規則または機械学習に基づくポーズ位置やポーズ長の推定方法では、話速についてはほとんど考慮されておらず、平均的な話速を前提にしたポーズの位置や長さを推定するものとなっており、合成音声の話速を変更する場合においてもポーズ位置を変更せず、前述のとおりポーズ長を一律に変更することを前提にしているため、話速を早くした場合には聞き取り易さが低下するといった課題があった。

また、上記非特許文献４のように人間の知覚面を考慮してポーズの位置や長さを制御しようとしても、発話内の複数のポーズをどのように統合するのが適切であるか機械的に判断することは困難であった。

このような状況を鑑みて、本発明は、聞き取りやすい合成音声を生成可能なポーズの推定に関するポーズ推定技術を提供することを目的とする。

本発明のポーズ推定技術は、所与のテキストに対して、ポーズの推定位置の組であるポーズ配置を表すポーズ配置推定結果と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとに算出された当該ポーズが挿入される可能性の高さを表す指標（ポーズ確度値）と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとの推定されたポーズ長を表すポーズ長推定結果が予め得られているとして、入力された話速情報に基づいて、ポーズ長推定結果に含まれる各ポーズ長を一律に変更してそれぞれの変更後ポーズ長を得て[ポーズ長変更処理]、ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、合成音声の聞き取りやすさへの寄与、ポーズとして知覚されることの容易性、ポーズ確度値の大きさ、に基づいて、削除すべきポーズ（削除対象ポーズ）を選択し[削除ポーズ選択処理]、削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、当該削除対象ポーズをポーズ配置推定結果から除外する[ポーズ統合処理処理]。

本発明によると、ポーズ推定位置ごとのポーズ確度値と当該ポーズ推定位置でのポーズ長の推定結果の両方を用いて、話速に応じて削除すべきポーズと削除したポーズの統合先となるポーズを適切に選択してポーズを統合するので、早い話速においても発話全体の時間を変えることなく聞き取りやすい合成音声を生成可能なポーズを推定することができる。

実施形態のポーズ推定装置の機能構成例を示す図。実施形態の処理フロー例を示す図。ポーズ配置推定結果の例を示す図。ポーズ長推定結果の例を示す図。ポーズ長変更処理の結果の例を示す図。削除ポーズ選択処理の結果の例を示す図。ポーズ統合処理の結果の例を示す図。

図面を参照しながら、本発明の実施形態を説明する。なお、同じ構成要素には同じ符号を割り当てている。

実施形態のポーズ推定装置１００は、ポーズ配置推定部１１０、ポーズ長推定部１２０、ポーズ長変更部１３０、削除ポーズ選択部１４０、ポーズ統合処理部１５０、図示しない記憶部を含んで構成される。記憶部には、後述するポーズ配置推定モデル１８０とポーズ長推定モデル１９０が予め記憶されている。図１にポーズ推定装置１００の機能構成図、図２に実施形態の処理フローを示す。

ポーズ配置推定部１１０は、例えば上記非特許文献２のような、機械学習によって構築されたポーズ配置推定モデル１８０を用いて入力されたテキスト１０５に対してポーズ配置推定を行い、ポーズ配置推定結果１１５ａと、このポーズ配置推定結果１１５ａに含まれるポーズの推定位置に対応するポーズごとに算出された、当該ポーズが挿入される可能性の高さを表す指標１１５ｂ（以下、「ポーズが挿入される可能性の高さを表す指標」を「ポーズ確度値」と呼称する）を出力する。ただし、このポーズ配置推定方法としては、ポーズ確度値１１５ｂが得られればよいので、規則に基づく推定方法などどのような方法であってもよい。
ポーズ長推定部１２０は、ポーズ配置推定結果１１５ａに含まれるポーズの推定位置に対応するポーズごとに、例えばポーズ長推定モデル１９０を用いた上記非特許文献３のような統計的方法によってポーズ長推定結果１２５を推定する。ただし、このポーズ長推定方法としては特段の限定は無く、統計的な方法であってもよいし、規則に基づく方法であってもよい。
ポーズ長変更部１３０は、与えられた話速情報１０７に基づいてポーズ長推定結果１２５に含まれる各ポーズ長を一律に変更して変更後ポーズ長１３５ａを得る。例えば話速を２倍にするのであれば、各ポーズ長を1/2にして得られるそれぞれのポーズ長を変更後ポーズ長とする。
削除ポーズ選択部１４０は、ポーズ配置推定結果１１５ａに含まれるポーズの推定位置に対応するポーズのうち、合成音声の聞き取りやすさへの寄与、ポーズとして知覚されることの容易性、ポーズ確度値の大きさ、の観点から、削除すべきポーズ１４５（以下、「削除対象ポーズ」と呼称する）を選択する。この処理では、例えば、変更後ポーズ長があらかじめ決められた値以下、かつ、ポーズ確度値があらかじめ決められた値以下、を満たすポーズを削除対象ポーズとして選択する。
ポーズ統合処理部１５０は、削除対象ポーズ１４５の変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、削除対象ポーズ１４５をポーズ配置推定結果１１５ａから除外する。
以下に各部の処理の具体例を説明する。

[ポーズ配置推定部１１０−ステップＳ１]
入力：入力テキスト、ポーズ配置推定モデル
出力：ポーズ配置推定結果、ポーズ確度値
処理：機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとに算出されたポーズ確度値を出力する。

入力テキスト１０５は単語ごとに分かち書きされたテキストデータであり、各単語には品詞、読み、モーラ数、係り受けの有無等の様々な言語情報が付与されている。

ポーズ配置推定部１１０は、入力テキスト１０５に含まれる各単語に対して、単語の直後にポーズが挿入されるか否かを推定して、入力テキスト１０５にポーズ有無ラベルを付与する。ポーズが挿入されると推定された位置の組であるポーズ配置（ただし、一つのポーズ配置には、０個または１個以上のポーズが含まれるとする）に係る推定結果が一つの「ポーズ配置推定結果」である。この推定には、予めポーズ有無ラベルが付与された学習データを用いて各単語の言語情報とポーズ配置との関係を学習したポーズ配置推定モデル１８０が用いられる。モデル化には、N-gramモデルやCRFモデル等の、（１）ポーズ配置推定結果の適正さを表す指標I1と、（２）このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとのポーズ確度値I2と、を得ることができる確率モデルに基づく機械学習を用いる。なお、指標I1とポーズ確度値I2はそれぞれ、通常、ポーズ配置推定モデル１８０を用いたポーズ配置推定処理でポーズ配置推定結果と共に出力され、多くの場合、確率値のような数値で表されるが、大小関係が定義されていれば十分なので、０以上かつ１以下の数値に限定されるものではない。具体的なモデルの構築方法については、例えば上記非特許文献２を参考にされたい。

結果として、ポーズ配置推定部１１０は、ポーズ配置推定モデル１８０から算出されるポーズ配置推定結果の指標I1が最も高い１個のポーズ配置推定結果１１５ａと、このポーズ配置推定結果１１５ａに含まれるポーズの推定位置に対応するポーズごとに算出されたポーズ確度値１１５ｂを出力する。入力テキスト１０５に対するポーズ配置推定結果１１５ａとポーズ確度値１１５ｂの例を図３に示す。図３の例では、単語直後のポーズの有無を表すラベル（つまり、ポーズ有無ラベル）が付与されており、単語直後にポーズが有る場合には記号"P"のラベルが、無い場合には記号"-"のラベルが、単語ごとに付与されている。また、記号"P"のラベルが付与されたポーズのそれぞれにポーズ確度値が付与されている。

以下、ポーズ配置推定結果１１５ａに含まれるポーズの推定位置に対応するポーズの総数をK（Kは０以上の整数）とし、K≧１の場合に、ポーズ配置推定結果１１５ａに含まれるポーズの推定位置に対応するポーズを識別するための記号をkとする。つまり、k∈{1,…,K}である。K≧１の場合に、ポーズ配置推定結果１１５ａに含まれるポーズの推定位置に対応するポーズをG_k (k=1,…,K)で表すとする。また、K≧１の場合に、各ポーズG_k (k=1,…,K)に対応するポーズ確度値をH_k (k=1,…,K)で表すとする。
なお、ポーズ配置推定結果１１５ａに含まれるポーズの推定位置に対応するポーズの総数が０である場合、以降の処理は不要であり、ポーズ推定装置１００は、このポーズ配置推定結果１１５ａを最終的な推定結果として出力する。このため、以下の説明ではK≧1とする。

[ポーズ長推定部１２０−ステップＳ２]
入力：入力テキスト、ポーズ配置推定結果、ポーズ長推定モデル
出力：ポーズ長推定結果
処理：機械学習によって構築されたポーズ長推定モデルを用いて、ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとのポーズ長推定結果を出力する。

ポーズ長推定部１２０は、ポーズ配置推定結果１１５ａに含まれるポーズの推定位置に対応する各ポーズのポーズ長を推定する。この例のポーズ長推定では、例えばミリ秒単位の秒数が直接推定される。推定された各ポーズのポーズ長からなる一つの組が、一つの「ポーズ長推定結果」である。

ポーズ長の推定には、ポーズ配置と各ポーズのポーズ長のラベルが付与された学習データを用いて、言語情報とポーズ配置とポーズ長との関係を学習したポーズ長推定モデル１９０を用いる。モデル化には、ポーズ長推定結果の適正さを表す指標I3を得ることができる、決定木やHMM(Hidden Markov Model；隠れマルコフモデル)等の統計的方式によるモデルを用いる。HMMに基づく具体的なモデルの構築方法については、上記非特許文献３を参考にされたい。なお、ポーズ長推定部１２０に入力されるテキストの言語情報としては、ポーズ配置推定部１１０に入力されたテキスト１０５の言語情報と同じでもよいし、ポーズ長の推定に有効と考えられる言語情報が追加されたものでもよい。この指標I3は、通常、ポーズ長推定モデル１９０を用いたポーズ長推定処理でポーズ長推定結果と共に出力され、多くの場合、確率値のような数値で表されるが、大小関係が定義されていれば十分なので、０以上かつ１以下の数値に限定されるものではない。

ポーズ長推定部１２０は、ポーズ配置推定結果１１５ａについて、ポーズ長推定モデル１９０から算出されるポーズ長推定結果の指標I3が最も高い１個のポーズ長推定結果１２５を出力する。ポーズ長推定結果１２５に含まれる各ポーズのポーズ長をポーズG_k (k=1,…,K)に対応させてL_k (k=1,…,K)とする。

ポーズ長推定結果の例を図４に示す。なお、図４では、ポーズ配置推定と同じく、単語単位でポーズ長を学習したモデルに基づくポーズ長推定の例を示したが、より長い句の単位、例えば、文節ごと、ポーズ句ごとに学習することも可能である。

[ポーズ長変更部１３０−ステップＳ３]
入力：ポーズ長推定結果、話速情報
出力：変更後ポーズ長
処理：話速情報に基づいてポーズ長推定結果に含まれる各ポーズ長を変更して変更後ポーズ長を求める。

ポーズ長変更部１３０は、入力テキスト１０５の合成音声の話速に関する情報である話速情報１０７に基づいてポーズ長推定結果１２５に含まれる各ポーズ長L_k (k=1,…,K)を一律に変更して変更後ポーズ長１３５ａを得る。各変更後ポーズ長をポーズG_k (k=1,…,K)に対応させてM_k (k=1,…,K)とする。
例えば話速情報１０７が合成音声の話速を変更しないか上げる、つまり標準話速のα倍（α≧１）にすることを指示する情報であれば、各ポーズ長L_k (k=1,…,K)を1/αにして得られるポーズ長L_k/α (k=1,…,K)を変更後ポーズ長M_k (k=1,…,K)とする。つまり、M_k=L_k/α (k=1,…,K)である。ポーズ長変更処理の結果の例を図５に示す。
また、例えば話速情報１０７が合成音声の話速を下げる、つまり標準話速のα倍（α＜１）にすることを指示する情報であれば、ポーズ推定装置１００は、ポーズ配置推定結果１１５ａ並びに、ポーズ配置推定結果１１５ａに含まれるポーズの推定位置に対応する各ポーズの変更後のポーズ長M_k (k=1,…,K)からなる組（つまり「変更後ポーズ長推定結果」）を最終的な推定結果１３５ｂとして出力する。

[削除ポーズ選択部１４０−ステップＳ４]
入力：ポーズ確度値、変更後ポーズ長
出力：削除対象ポーズ
処理：ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、ポーズ確度値及び変更後ポーズ長に基づいて削除対象ポーズを選択する。

削除ポーズ選択部１４０は、ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、例えば、変更後ポーズ長M_k (k∈{1,…,K})が、事前に予備実験により決定されたポーズとして知覚されづらいまたは合成音声の聞き取りやすさを向上させる効果が小さいと見なせる変更後ポーズ長の閾値δに対する大小関係の条件を満たし（例えば、閾値δ以下という条件）、かつ、ポーズ確度値H_k (k∈{1,…,K})が、事前に決められたポーズを挿入しなくても問題が少ないと見なせるポーズ確度値の閾値εに対する大小関係の条件を満たす（例えば、閾値ε以下という条件）ポーズを、削除対象ポーズとして選択する。つまり、この例では、M_k≦δ AND H_k≦ε (k=1,…,K)が成立するときのkに対応するポーズG_k (k∈{1,…,K})が選択される。削除ポーズ選択処理の結果の例を図６に示す。図６の例では、削除対象ポーズとして選択されたポーズに記号"D"のラベルが付与されている。

なお、削除ポーズ選択部１４０は、削除対象ポーズが２つ以上連続する場合、つまりkが自然数として連続する場合は、その中でポーズ確度値が最も大きい削除対象ポーズについて削除対象の指定を解除する処理を、削除対象ポーズが連続しなくなるまで繰り返す。
例えば、K=6とし、M_k≦δ AND H_k≦ε (k=1,…,6)の判定によって削除対象ポーズとしてG₂, G₃, G₄, G₅が選択されたとして、削除対象ポーズG₂, G₃, G₄, G₅のポーズ確度値をH₂=0.18, H₃=0.07, H₄=0.12, H₅=0.13とすると、削除ポーズ選択部１４０は、まず、選択対象ポーズG₂について削除対象指定を解除し、次に、選択対象ポーズG₅について削除対象指定を解除し、次に、選択対象ポーズG₄について削除対象指定を解除する。したがって、最終的な削除対象ポーズはG₃になる。
換言すれば、削除ポーズ選択部１４０は、削除対象ポーズが２つ以上連続する場合、その中でポーズ確度値が最も小さい削除対象ポーズ以外の削除対象ポーズについて削除対象の指定を解除する。もし、同じポーズ確度値を持つ削除対象ポーズが２つ以上連続する場合には、削除ポーズ選択部１４０は、予め定めておいた削除対象指定解除規則に基づいて削除対象指定の解除を行い、削除対象ポーズが連続しないようにする。

削除対象ポーズの総数をT（0≦T≦K。ただし、K≧2の場合は0≦T＜K）とし、T≧１の場合に削除対象ポーズを識別するための記号をk(i)とする。つまり、T≧１の場合の削除対象ポーズをG_k(i) (k(i)∈{1,…,K}, i=1,…,T)とする。また、T≧１の場合の各削除対象ポーズG_k(i) (k(i)∈{1,…,K}, i=1,…,T)に対応する変更後ポーズ長をM_k(i) (k(i)∈{1,…,K}, i=1,…,T)とする。
なお、T=0である場合、以降の処理は不要であり、ポーズ推定装置１００は、ポーズ配置推定結果１１５ａ並びに、ポーズ配置推定結果１１５ａに含まれるポーズの推定位置に対応する各ポーズの変更後のポーズ長M_k (k=1,…,K)からなる組（つまり「変更後ポーズ長推定結果」）を最終的な推定結果１３５ｂとして出力する。このため、以下の説明ではT≧1とする。

[ポーズ統合処理部１５０−ステップＳ５]
入力：ポーズ配置推定結果、削除対象ポーズ、ポーズ確度値、変更後ポーズ長、話速情報
出力：ポーズ配置、ポーズ長
処理：削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、当該削除対象ポーズをポーズ配置推定結果から除外する。

ポーズ統合処理部１５０は、一例として、iの昇順に、処理対象の削除対象ポーズG_k(i) (k(i)∈{1,…,K}, i∈{1,…,T})について、削除対象ポーズG_k(i) (k(i)∈{1,…,K}, i∈{1,…,T})の変更後ポーズ長M_k(i) (k(i)∈{1,…,K}, i∈{1,…,T})を、当該削除対象ポーズG_k(i) (k(i)∈{1,…,K}, i∈{1,…,T})の推定位置の前に位置する削除対象ポーズではないポーズG_k(i)-1または後に位置する削除対象ポーズではないポーズG_k(i)+1のうち、ポーズ確度値がより高い方またはポーズ長がより短い方のポーズの変更後ポーズ長に加算して、削除対象ポーズG_k(i) (k(i)∈{1,…,K}, i∈{1,…,T})をポーズ配置推定結果１１５ａから除外する。ポーズ統合処理部１５０は、結果として得られたポーズ配置推定結果１１５ａ並びに、ポーズ配置推定結果１１５ａに含まれるポーズの推定位置に対応する各ポーズのポーズ長からなる組を、ポーズ推定装置１００の最終的な推定結果１５５として出力する。

ポーズ統合処理にて、処理対象の削除対象ポーズとの関係で、ポーズ確度値がより高い方のポーズとポーズ長がより短い方のポーズとが一致しない場合、ポーズ確度値とポーズ長のどちらを優先的な判断基準とするべきかについては、予め定められた統合対象選択基準に基づいて話速情報１０７に応じて決定すればよい。例えば話速を５倍以上早くするような場合は、標準話速での最長のポーズ長が最短のポーズ長程度まで短くなるため、ポーズ長を優先的な判断基準として統合対象を決定することによって、残されたポーズについてある程度のポーズ長を確保することができ、聞き取りやすさを維持することが可能になると考えられる。

ポーズ統合処理の結果の例を図７に示す。図７の例では、ポーズ統合処理前の時点で（図６参照）、K=3、T=1、削除対象ポーズはG₂、削除対象ではないポーズはG₁, G₃、ポーズ確度値はH₁=0.5, H₂=0.3, H₃=0.9、変更後ポーズ長はM₁=60, M₂=20, M₃=180であるから、削除対象ポーズG₂について、削除対象ポーズG₂の変更後ポーズ長M₂を、削除対象ポーズG₂の推定位置の前に位置する削除対象ポーズではないポーズG₁または後に位置する削除対象ポーズではないポーズG₃のうち、ポーズ確度値がより高い方またはポーズ長がより短い方のポーズ（この例ではポーズ確度値がより高い方であるポーズG₃を選択した）の変更後ポーズ長M₃に加算して、削除対象ポーズG₂をポーズ配置推定結果１１５ａから除外する。

なお、上述のポーズ統合処理に限定されるものではなく、次のような処理を行ってもよい。例えば、処理対象の削除対象ポーズの変更後ポーズ長を当該削除対象ポーズの推定位置の前後に位置するポーズのポーズ確度値に応じて按分して得られる時間長を、削除対象ポーズの推定位置の前後に位置する各ポーズのポーズ長に加算してもよい。具体的には、ポーズ統合処理部１５０は、一例として、iの昇順に、処理対象の削除対象ポーズG_k(i)(k(i)∈{1,…,K}, i∈{1,…,T})について、削除対象ポーズG_k(i)(k(i)∈{1,…,K}, i∈{1,…,T})の変更後ポーズ長M_k(i)(k(i)∈{1,…,K}, i∈{1,…,T})のH_k(i)-1/(H_k(i)-1+H_k(i)+1)を、当該削除対象ポーズG_k(i) (k(i)∈{1,…,K}, i∈{1,…,T})の推定位置の前に位置する削除対象ポーズではないポーズG_k(i)-1の変更後ポーズ長M_k(i)-1に加算し、削除対象ポーズG_k(i) (k(i)∈{1,…,K}, i∈{1,…,T})の変更後ポーズ長M_k(i) (k(i)∈{1,…,K}, i∈{1,…,T})のH_k(i)+1/(H_k(i)-1+H_k(i)+1)を、当該削除対象ポーズG_k(i) (k(i)∈{1,…,K}, i∈{1,…,T})の推定位置の後に位置する削除対象ポーズではないポーズG_k(i)+1の変更後ポーズ長M_k(i)+1に加算して、削除対象ポーズG_k(i) (k(i)∈{1,…,K}, i∈{1,…,T})をポーズ配置推定結果１１５ａから除外する。

＜補記＞
ポーズ推定装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit）（キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくなどでもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（ポーズ配置推定部、ポーズ長推定部、ポーズ長変更部、削除ポーズ選択部、ポーズ統合処理部）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（ポーズ推定装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

所与のテキストに対して、ポーズの推定位置の組であるポーズ配置を表すポーズ配置推定結果と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとに算出された当該ポーズが挿入される可能性の高さを表す指標（以下、ポーズ確度値と呼称する）と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとの推定されたポーズ長を表すポーズ長推定結果が予め得られているとして、
入力された話速情報に基づいて、上記ポーズ長推定結果に含まれる各上記ポーズ長を一律に変更してそれぞれの変更後ポーズ長を得るポーズ長変更部と、
上記ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、合成音声の聞き取りやすさへの寄与、ポーズとして知覚されることの容易性、ポーズ確度値の大きさ、に基づいて、削除すべきポーズ（以下、削除対象ポーズと呼称する）を選択する削除ポーズ選択部と、
上記削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、当該削除対象ポーズを上記ポーズ配置推定結果から除外するポーズ統合処理部と
を含むポーズ推定装置。
請求項１に記載のポーズ推定装置であって、
上記削除ポーズ選択部は、
上記ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、変更後ポーズ長が予め定められた閾値に対する大小関係の条件を満たし、かつ、ポーズ確度値が予め定められた閾値に対する大小関係を満たす、ポーズを削除対象ポーズとして選択する
ことを特徴とするポーズ推定装置。
請求項１または請求項２に記載のポーズ推定装置であって、
上記削除ポーズ選択部は、
削除対象ポーズが２つ以上連続する場合、その中でポーズ確度値が最も小さい削除対象ポーズ以外の削除対象ポーズについて削除対象の指定を解除する
ことを特徴とするポーズ推定装置。
請求項１から請求項３のいずれかに記載のポーズ推定装置であって、
上記ポーズ統合処理部は、
上記削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前に位置するポーズまたは後に位置するポーズのうち、ポーズ確度値がより高い方またはポーズ長がより短い方のポーズの変更後ポーズ長に加算する
ことを特徴とするポーズ推定装置。
請求項１から請求項３のいずれかに記載のポーズ推定装置であって、
上記ポーズ統合処理部は、
上記削除対象ポーズの変更後ポーズ長を当該削除対象ポーズの推定位置の前後に位置するポーズのポーズ確度値に応じて按分して得られる時間長を、削除対象ポーズの推定位置の前後に位置する各ポーズのポーズ長に加算する
ことを特徴とするポーズ推定装置。
請求項１から請求項５のいずれかに記載のポーズ推定装置であって、
上記ポーズ長変更部は、
上記話速情報が話速増大を指示する情報である
ことを特徴とするポーズ推定装置。
所与のテキストに対して、ポーズの推定位置の組であるポーズ配置を表すポーズ配置推定結果と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとに算出された当該ポーズが挿入される可能性の高さを表す指標（以下、ポーズ確度値と呼称する）と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとの推定されたポーズ長を表すポーズ長推定結果が予め得られているとして、
ポーズ長変更部が、入力された話速情報に基づいて、上記ポーズ長推定結果に含まれる各上記ポーズ長を一律に変更してそれぞれの変更後ポーズ長を得るポーズ長変更ステップと、
削除ポーズ選択部が、上記ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、合成音声の聞き取りやすさへの寄与、ポーズとして知覚されることの容易性、ポーズ確度値の大きさ、に基づいて、削除すべきポーズ（以下、削除対象ポーズと呼称する）を選択する削除ポーズ選択ステップと、
ポーズ統合処理部が、上記削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、当該削除対象ポーズを上記ポーズ配置推定結果から除外するポーズ統合処理ステップと
を有するポーズ推定方法。
請求項１から請求項６のいずれかに記載のポーズ推定装置としてコンピュータを機能させるためのプログラム。