JP6121313B2 - ポーズ推定装置、方法、プログラム - Google Patents

ポーズ推定装置、方法、プログラム Download PDF

Info

Publication number
JP6121313B2
JP6121313B2 JP2013238797A JP2013238797A JP6121313B2 JP 6121313 B2 JP6121313 B2 JP 6121313B2 JP 2013238797 A JP2013238797 A JP 2013238797A JP 2013238797 A JP2013238797 A JP 2013238797A JP 6121313 B2 JP6121313 B2 JP 6121313B2
Authority
JP
Japan
Prior art keywords
pose
length
estimation
estimated
deletion target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013238797A
Other languages
English (en)
Other versions
JP2015099252A (ja
Inventor
博子 武藤
博子 武藤
勇祐 井島
勇祐 井島
水野 秀之
秀之 水野
宮崎 昇
昇 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013238797A priority Critical patent/JP6121313B2/ja
Publication of JP2015099252A publication Critical patent/JP2015099252A/ja
Application granted granted Critical
Publication of JP6121313B2 publication Critical patent/JP6121313B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自然性の高いポーズ(「間」とも呼ばれる無音時間)の推定に関するポーズ推定技術に関する。
従来、音声合成におけるポーズ位置およびポーズ長の推定には、人手で設計した規則を用いる手法と、ポーズ位置とポーズ長が付与された学習データを用いて機械学習によってモデル化する手法が用いられてきた。
規則を用いる手法としては、例えば非特許文献1に開示される技術が挙げられる。非特許文献1に開示される手法は、特定の句構造のときに性質の異なる長短2種類のポーズが挿入されることを読み上げ口調の音声データを用いた分析によって定量的に明らかにし、これらの特徴に基づいたポーズの挿入規則を作成している。
また、機械学習を用いる手法としては、ポーズ位置の推定については、例えば非特許文献2に開示される技術が挙げられる。非特許文献2に開示される手法は、機械学習の一つであるCRF(Conditional Random Fields;条件付き確率場)モデルを用いて、表記、読み等の一般的な特徴量とポーズ位置との関係をモデル化し、学習で得られたモデルをポーズ位置の推定に用いている。また、ポーズ長の推定については、例えば非特許文献3に開示される技術が挙げられる。非特許文献3に開示される手法は、予め推定されたポーズ位置に対して、HMM(Hidden Markov Model;隠れマルコフモデル)に基づいた音素の継続時間長推定の一環でポーズ長を推定しており、現在、一般的に用いられるようになってきている。
これらいずれの方法も、基本的には標準的な話速で発話された音声データの分析や統計的な学習に基づくものであり、必ずしも人間の知覚的な感覚と一致しているわけではない。一方で、知覚的な観点からの研究成果として、例えば非特許文献4のように、一つの発話に含まれるポーズの長さの総和を固定してポーズを含む発話全体の長さを一定に維持しつつ、短いポーズを長いポーズに統合することによってポーズの長さを長くすると話速が遅く感じられ聞き取りやすさが増すという報告がされており、ポーズの位置や長さが聞き取りやすさに影響を与えるということが分かっている。
海木延佳、匂坂芳典、"局所的な句構造によるポーズ挿入規則化の検討"、電子情報通信学会論文誌 D-II 情報・システム II-情報処理 J79-D-2(9)、pp.1455-1463、1996-09-25. 太田健吾、土屋雅稔、中川聖一、"ポーズを考慮した話し言葉言語モデルの構築"、情報処理学会論文誌Vol.53(2)、pp.889-900、2012/02/15. 吉村貴克、徳田恵一、益子貴史、小林隆夫、北村正、"HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化"、電子情報通信学会論文誌 D-II 情報・システム II-情報処理 J83-D-II(12)、pp.2099-2107、2000. 広実義人、"知覚上の発話速度に及ぼすポ-ズ数の影響"、音声学会会報 (205)、pp.63-65、1994-04-00.
必要に応じて話速を自由に変更できることは音声合成の重要な機能の一つである。従来は、話速に応じて音素やポーズの継続時間を一律に変更する方法が一般的であった。つまり、話速を2倍に早くしたいときは継続時間長を1/2倍にする処理を行う。このような処理によって容易に物理的な話速の変更は可能ではあるが、このような一律の処理を行うと、話速を早くした場合に聞き取りづらくなってしまうという問題があった。
このため、例えば下記参考文献1のように聴取能力が衰えている高齢者を対象に、アナウンサーが発話した音声の話速を発話開始時からの経過時間に応じて適切に変換するような方法も提案されており、このような方法を合成音声に適用することも容易である。しかし、このような話速の変換処理は、高齢者を対象とした聞き取りやすさをある程度担保できるものの、特定の時間に合成音声の長さを合わせたい局面には適用できず、健常者が音声全体を早聞きしたい場合には必ずしも適切とはいえない。
(参考文献1)中村章、清山信正、池沢龍、都木徹、宮坂栄一、"リアルタイム話速変換型受聴システム"、日本音響学会誌 50(7)、pp.509-520、1994.
また、前述した従来の規則または機械学習に基づくポーズ位置やポーズ長の推定方法では、話速についてはほとんど考慮されておらず、平均的な話速を前提にしたポーズの位置や長さを推定するものとなっており、合成音声の話速を変更する場合においてもポーズ位置を変更せず、前述のとおりポーズ長を一律に変更することを前提にしているため、話速を早くした場合には聞き取り易さが低下するといった課題があった。
また、上記非特許文献4のように人間の知覚面を考慮してポーズの位置や長さを制御しようとしても、発話内の複数のポーズをどのように統合するのが適切であるか機械的に判断することは困難であった。
このような状況を鑑みて、本発明は、聞き取りやすい合成音声を生成可能なポーズの推定に関するポーズ推定技術を提供することを目的とする。
本発明のポーズ推定技術は、所与のテキストに対して、ポーズの推定位置の組であるポーズ配置を表すポーズ配置推定結果と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとに算出された当該ポーズが挿入される可能性の高さを表す指標(ポーズ確度値)と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとの推定されたポーズ長を表すポーズ長推定結果が予め得られているとして、入力された話速情報に基づいて、ポーズ長推定結果に含まれる各ポーズ長を一律に変更してそれぞれの変更後ポーズ長を得て[ポーズ長変更処理]、ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、合成音声の聞き取りやすさへの寄与、ポーズとして知覚されることの容易性、ポーズ確度値の大きさ、に基づいて、削除すべきポーズ(削除対象ポーズ)を選択し[削除ポーズ選択処理]、削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、当該削除対象ポーズをポーズ配置推定結果から除外する[ポーズ統合処理処理]。
本発明によると、ポーズ推定位置ごとのポーズ確度値と当該ポーズ推定位置でのポーズ長の推定結果の両方を用いて、話速に応じて削除すべきポーズと削除したポーズの統合先となるポーズを適切に選択してポーズを統合するので、早い話速においても発話全体の時間を変えることなく聞き取りやすい合成音声を生成可能なポーズを推定することができる。
実施形態のポーズ推定装置の機能構成例を示す図。 実施形態の処理フロー例を示す図。 ポーズ配置推定結果の例を示す図。 ポーズ長推定結果の例を示す図。 ポーズ長変更処理の結果の例を示す図。 削除ポーズ選択処理の結果の例を示す図。 ポーズ統合処理の結果の例を示す図。
図面を参照しながら、本発明の実施形態を説明する。なお、同じ構成要素には同じ符号を割り当てている。
実施形態のポーズ推定装置100は、ポーズ配置推定部110、ポーズ長推定部120、ポーズ長変更部130、削除ポーズ選択部140、ポーズ統合処理部150、図示しない記憶部を含んで構成される。記憶部には、後述するポーズ配置推定モデル180とポーズ長推定モデル190が予め記憶されている。図1にポーズ推定装置100の機能構成図、図2に実施形態の処理フローを示す。
ポーズ配置推定部110は、例えば上記非特許文献2のような、機械学習によって構築されたポーズ配置推定モデル180を用いて入力されたテキスト105に対してポーズ配置推定を行い、ポーズ配置推定結果115aと、このポーズ配置推定結果115aに含まれるポーズの推定位置に対応するポーズごとに算出された、当該ポーズが挿入される可能性の高さを表す指標115b(以下、「ポーズが挿入される可能性の高さを表す指標」を「ポーズ確度値」と呼称する)を出力する。ただし、このポーズ配置推定方法としては、ポーズ確度値115bが得られればよいので、規則に基づく推定方法などどのような方法であってもよい。
ポーズ長推定部120は、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応するポーズごとに、例えばポーズ長推定モデル190を用いた上記非特許文献3のような統計的方法によってポーズ長推定結果125を推定する。ただし、このポーズ長推定方法としては特段の限定は無く、統計的な方法であってもよいし、規則に基づく方法であってもよい。
ポーズ長変更部130は、与えられた話速情報107に基づいてポーズ長推定結果125に含まれる各ポーズ長を一律に変更して変更後ポーズ長135aを得る。例えば話速を2倍にするのであれば、各ポーズ長を1/2にして得られるそれぞれのポーズ長を変更後ポーズ長とする。
削除ポーズ選択部140は、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応するポーズのうち、合成音声の聞き取りやすさへの寄与、ポーズとして知覚されることの容易性、ポーズ確度値の大きさ、の観点から、削除すべきポーズ145(以下、「削除対象ポーズ」と呼称する)を選択する。この処理では、例えば、変更後ポーズ長があらかじめ決められた値以下、かつ、ポーズ確度値があらかじめ決められた値以下、を満たすポーズを削除対象ポーズとして選択する。
ポーズ統合処理部150は、削除対象ポーズ145の変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、削除対象ポーズ145をポーズ配置推定結果115aから除外する。
以下に各部の処理の具体例を説明する。
[ポーズ配置推定部110−ステップS1]
入力: 入力テキスト、ポーズ配置推定モデル
出力: ポーズ配置推定結果、ポーズ確度値
処理: 機械学習によって構築されたポーズ配置推定モデルを用いて、入力テキストに対してポーズ配置推定を行い、ポーズ配置推定結果と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとに算出されたポーズ確度値を出力する。
入力テキスト105は単語ごとに分かち書きされたテキストデータであり、各単語には品詞、読み、モーラ数、係り受けの有無等の様々な言語情報が付与されている。
ポーズ配置推定部110は、入力テキスト105に含まれる各単語に対して、単語の直後にポーズが挿入されるか否かを推定して、入力テキスト105にポーズ有無ラベルを付与する。ポーズが挿入されると推定された位置の組であるポーズ配置(ただし、一つのポーズ配置には、0個または1個以上のポーズが含まれるとする)に係る推定結果が一つの「ポーズ配置推定結果」である。この推定には、予めポーズ有無ラベルが付与された学習データを用いて各単語の言語情報とポーズ配置との関係を学習したポーズ配置推定モデル180が用いられる。モデル化には、N-gramモデルやCRFモデル等の、(1)ポーズ配置推定結果の適正さを表す指標I1と、(2)このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとのポーズ確度値I2と、を得ることができる確率モデルに基づく機械学習を用いる。なお、指標I1とポーズ確度値I2はそれぞれ、通常、ポーズ配置推定モデル180を用いたポーズ配置推定処理でポーズ配置推定結果と共に出力され、多くの場合、確率値のような数値で表されるが、大小関係が定義されていれば十分なので、0以上かつ1以下の数値に限定されるものではない。具体的なモデルの構築方法については、例えば上記非特許文献2を参考にされたい。
結果として、ポーズ配置推定部110は、ポーズ配置推定モデル180から算出されるポーズ配置推定結果の指標I1が最も高い1個のポーズ配置推定結果115aと、このポーズ配置推定結果115aに含まれるポーズの推定位置に対応するポーズごとに算出されたポーズ確度値115bを出力する。入力テキスト105に対するポーズ配置推定結果115aとポーズ確度値115bの例を図3に示す。図3の例では、単語直後のポーズの有無を表すラベル(つまり、ポーズ有無ラベル)が付与されており、単語直後にポーズが有る場合には記号"P"のラベルが、無い場合には記号"-"のラベルが、単語ごとに付与されている。また、記号"P"のラベルが付与されたポーズのそれぞれにポーズ確度値が付与されている。
以下、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応するポーズの総数をK(Kは0以上の整数)とし、K≧1の場合に、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応するポーズを識別するための記号をkとする。つまり、k∈{1,…,K}である。K≧1の場合に、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応するポーズをGk (k=1,…,K)で表すとする。また、K≧1の場合に、各ポーズGk (k=1,…,K)に対応するポーズ確度値をHk (k=1,…,K)で表すとする。
なお、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応するポーズの総数が0である場合、以降の処理は不要であり、ポーズ推定装置100は、このポーズ配置推定結果115aを最終的な推定結果として出力する。このため、以下の説明ではK≧1とする。
[ポーズ長推定部120−ステップS2]
入力: 入力テキスト、ポーズ配置推定結果、ポーズ長推定モデル
出力: ポーズ長推定結果
処理: 機械学習によって構築されたポーズ長推定モデルを用いて、ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとのポーズ長推定結果を出力する。
ポーズ長推定部120は、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応する各ポーズのポーズ長を推定する。この例のポーズ長推定では、例えばミリ秒単位の秒数が直接推定される。推定された各ポーズのポーズ長からなる一つの組が、一つの「ポーズ長推定結果」である。
ポーズ長の推定には、ポーズ配置と各ポーズのポーズ長のラベルが付与された学習データを用いて、言語情報とポーズ配置とポーズ長との関係を学習したポーズ長推定モデル190を用いる。モデル化には、ポーズ長推定結果の適正さを表す指標I3を得ることができる、決定木やHMM(Hidden Markov Model;隠れマルコフモデル)等の統計的方式によるモデルを用いる。HMMに基づく具体的なモデルの構築方法については、上記非特許文献3を参考にされたい。なお、ポーズ長推定部120に入力されるテキストの言語情報としては、ポーズ配置推定部110に入力されたテキスト105の言語情報と同じでもよいし、ポーズ長の推定に有効と考えられる言語情報が追加されたものでもよい。この指標I3は、通常、ポーズ長推定モデル190を用いたポーズ長推定処理でポーズ長推定結果と共に出力され、多くの場合、確率値のような数値で表されるが、大小関係が定義されていれば十分なので、0以上かつ1以下の数値に限定されるものではない。
ポーズ長推定部120は、ポーズ配置推定結果115aについて、ポーズ長推定モデル190から算出されるポーズ長推定結果の指標I3が最も高い1個のポーズ長推定結果125を出力する。ポーズ長推定結果125に含まれる各ポーズのポーズ長をポーズGk (k=1,…,K)に対応させてLk (k=1,…,K)とする。
ポーズ長推定結果の例を図4に示す。なお、図4では、ポーズ配置推定と同じく、単語単位でポーズ長を学習したモデルに基づくポーズ長推定の例を示したが、より長い句の単位、例えば、文節ごと、ポーズ句ごとに学習することも可能である。
[ポーズ長変更部130−ステップS3]
入力: ポーズ長推定結果、話速情報
出力: 変更後ポーズ長
処理: 話速情報に基づいてポーズ長推定結果に含まれる各ポーズ長を変更して変更後ポーズ長を求める。
ポーズ長変更部130は、入力テキスト105の合成音声の話速に関する情報である話速情報107に基づいてポーズ長推定結果125に含まれる各ポーズ長Lk (k=1,…,K)を一律に変更して変更後ポーズ長135aを得る。各変更後ポーズ長をポーズGk (k=1,…,K)に対応させてMk (k=1,…,K)とする。
例えば話速情報107が合成音声の話速を変更しないか上げる、つまり標準話速のα倍(α≧1)にすることを指示する情報であれば、各ポーズ長Lk (k=1,…,K)を1/αにして得られるポーズ長Lk/α (k=1,…,K)を変更後ポーズ長Mk (k=1,…,K)とする。つまり、Mk=Lk/α (k=1,…,K)である。ポーズ長変更処理の結果の例を図5に示す。
また、例えば話速情報107が合成音声の話速を下げる、つまり標準話速のα倍(α<1)にすることを指示する情報であれば、ポーズ推定装置100は、ポーズ配置推定結果115a並びに、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応する各ポーズの変更後のポーズ長Mk (k=1,…,K)からなる組(つまり「変更後ポーズ長推定結果」)を最終的な推定結果135bとして出力する。
[削除ポーズ選択部140−ステップS4]
入力: ポーズ確度値、変更後ポーズ長
出力: 削除対象ポーズ
処理: ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、ポーズ確度値及び変更後ポーズ長に基づいて削除対象ポーズを選択する。
削除ポーズ選択部140は、ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、例えば、変更後ポーズ長Mk (k∈{1,…,K})が、事前に予備実験により決定されたポーズとして知覚されづらいまたは合成音声の聞き取りやすさを向上させる効果が小さいと見なせる変更後ポーズ長の閾値δに対する大小関係の条件を満たし(例えば、閾値δ以下という条件)、かつ、ポーズ確度値Hk (k∈{1,…,K})が、事前に決められたポーズを挿入しなくても問題が少ないと見なせるポーズ確度値の閾値εに対する大小関係の条件を満たす(例えば、閾値ε以下という条件)ポーズを、削除対象ポーズとして選択する。つまり、この例では、Mk≦δ AND Hk≦ε (k=1,…,K)が成立するときのkに対応するポーズGk (k∈{1,…,K})が選択される。削除ポーズ選択処理の結果の例を図6に示す。図6の例では、削除対象ポーズとして選択されたポーズに記号"D"のラベルが付与されている。
なお、削除ポーズ選択部140は、削除対象ポーズが2つ以上連続する場合、つまりkが自然数として連続する場合は、その中でポーズ確度値が最も大きい削除対象ポーズについて削除対象の指定を解除する処理を、削除対象ポーズが連続しなくなるまで繰り返す。
例えば、K=6とし、Mk≦δ AND Hk≦ε (k=1,…,6)の判定によって削除対象ポーズとしてG2, G3, G4, G5が選択されたとして、削除対象ポーズG2, G3, G4, G5のポーズ確度値をH2=0.18, H3=0.07, H4=0.12, H5=0.13とすると、削除ポーズ選択部140は、まず、選択対象ポーズG2について削除対象指定を解除し、次に、選択対象ポーズG5について削除対象指定を解除し、次に、選択対象ポーズG4について削除対象指定を解除する。したがって、最終的な削除対象ポーズはG3になる。
換言すれば、削除ポーズ選択部140は、削除対象ポーズが2つ以上連続する場合、その中でポーズ確度値が最も小さい削除対象ポーズ以外の削除対象ポーズについて削除対象の指定を解除する。もし、同じポーズ確度値を持つ削除対象ポーズが2つ以上連続する場合には、削除ポーズ選択部140は、予め定めておいた削除対象指定解除規則に基づいて削除対象指定の解除を行い、削除対象ポーズが連続しないようにする。
削除対象ポーズの総数をT(0≦T≦K。ただし、K≧2の場合は0≦T<K)とし、T≧1の場合に削除対象ポーズを識別するための記号をk(i)とする。つまり、T≧1の場合の削除対象ポーズをGk(i) (k(i)∈{1,…,K}, i=1,…,T)とする。また、T≧1の場合の各削除対象ポーズGk(i) (k(i)∈{1,…,K}, i=1,…,T)に対応する変更後ポーズ長をMk(i) (k(i)∈{1,…,K}, i=1,…,T)とする。
なお、T=0である場合、以降の処理は不要であり、ポーズ推定装置100は、ポーズ配置推定結果115a並びに、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応する各ポーズの変更後のポーズ長Mk (k=1,…,K)からなる組(つまり「変更後ポーズ長推定結果」)を最終的な推定結果135bとして出力する。このため、以下の説明ではT≧1とする。
[ポーズ統合処理部150−ステップS5]
入力: ポーズ配置推定結果、削除対象ポーズ、ポーズ確度値、変更後ポーズ長、話速情報
出力: ポーズ配置、ポーズ長
処理: 削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、当該削除対象ポーズをポーズ配置推定結果から除外する。
ポーズ統合処理部150は、一例として、iの昇順に、処理対象の削除対象ポーズGk(i) (k(i)∈{1,…,K}, i∈{1,…,T})について、削除対象ポーズGk(i) (k(i)∈{1,…,K}, i∈{1,…,T})の変更後ポーズ長Mk(i) (k(i)∈{1,…,K}, i∈{1,…,T})を、当該削除対象ポーズGk(i) (k(i)∈{1,…,K}, i∈{1,…,T})の推定位置の前に位置する削除対象ポーズではないポーズGk(i)-1または後に位置する削除対象ポーズではないポーズGk(i)+1のうち、ポーズ確度値がより高い方またはポーズ長がより短い方のポーズの変更後ポーズ長に加算して、削除対象ポーズGk(i) (k(i)∈{1,…,K}, i∈{1,…,T})をポーズ配置推定結果115aから除外する。ポーズ統合処理部150は、結果として得られたポーズ配置推定結果115a並びに、ポーズ配置推定結果115aに含まれるポーズの推定位置に対応する各ポーズのポーズ長からなる組を、ポーズ推定装置100の最終的な推定結果155として出力する。
ポーズ統合処理にて、処理対象の削除対象ポーズとの関係で、ポーズ確度値がより高い方のポーズとポーズ長がより短い方のポーズとが一致しない場合、ポーズ確度値とポーズ長のどちらを優先的な判断基準とするべきかについては、予め定められた統合対象選択基準に基づいて話速情報107に応じて決定すればよい。例えば話速を5倍以上早くするような場合は、標準話速での最長のポーズ長が最短のポーズ長程度まで短くなるため、ポーズ長を優先的な判断基準として統合対象を決定することによって、残されたポーズについてある程度のポーズ長を確保することができ、聞き取りやすさを維持することが可能になると考えられる。
ポーズ統合処理の結果の例を図7に示す。図7の例では、ポーズ統合処理前の時点で(図6参照)、K=3、T=1、削除対象ポーズはG2、削除対象ではないポーズはG1, G3、ポーズ確度値はH1=0.5, H2=0.3, H3=0.9、変更後ポーズ長はM1=60, M2=20, M3=180であるから、削除対象ポーズG2について、削除対象ポーズG2の変更後ポーズ長M2を、削除対象ポーズG2の推定位置の前に位置する削除対象ポーズではないポーズG1または後に位置する削除対象ポーズではないポーズG3のうち、ポーズ確度値がより高い方またはポーズ長がより短い方のポーズ(この例ではポーズ確度値がより高い方であるポーズG3を選択した)の変更後ポーズ長M3に加算して、削除対象ポーズG2をポーズ配置推定結果115aから除外する。
なお、上述のポーズ統合処理に限定されるものではなく、次のような処理を行ってもよい。例えば、処理対象の削除対象ポーズの変更後ポーズ長を当該削除対象ポーズの推定位置の前後に位置するポーズのポーズ確度値に応じて按分して得られる時間長を、削除対象ポーズの推定位置の前後に位置する各ポーズのポーズ長に加算してもよい。具体的には、ポーズ統合処理部150は、一例として、iの昇順に、処理対象の削除対象ポーズGk(i)(k(i)∈{1,…,K}, i∈{1,…,T})について、削除対象ポーズGk(i)(k(i)∈{1,…,K}, i∈{1,…,T})の変更後ポーズ長Mk(i)(k(i)∈{1,…,K}, i∈{1,…,T})のHk(i)-1/(Hk(i)-1+Hk(i)+1)を、当該削除対象ポーズGk(i) (k(i)∈{1,…,K}, i∈{1,…,T})の推定位置の前に位置する削除対象ポーズではないポーズGk(i)-1の変更後ポーズ長Mk(i)-1に加算し、削除対象ポーズGk(i) (k(i)∈{1,…,K}, i∈{1,…,T})の変更後ポーズ長Mk(i) (k(i)∈{1,…,K}, i∈{1,…,T})のHk(i)+1/(Hk(i)-1+Hk(i)+1)を、当該削除対象ポーズGk(i) (k(i)∈{1,…,K}, i∈{1,…,T})の推定位置の後に位置する削除対象ポーズではないポーズGk(i)+1の変更後ポーズ長Mk(i)+1に加算して、削除対象ポーズGk(i) (k(i)∈{1,…,K}, i∈{1,…,T})をポーズ配置推定結果115aから除外する。
<補記>
ポーズ推定装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit)(キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(ポーズ配置推定部、ポーズ長推定部、ポーズ長変更部、削除ポーズ選択部、ポーズ統合処理部)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(ポーズ推定装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 所与のテキストに対して、ポーズの推定位置の組であるポーズ配置を表すポーズ配置推定結果と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとに算出された当該ポーズが挿入される可能性の高さを表す指標(以下、ポーズ確度値と呼称する)と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとの推定されたポーズ長を表すポーズ長推定結果が予め得られているとして、
    入力された話速情報に基づいて、上記ポーズ長推定結果に含まれる各上記ポーズ長を一律に変更してそれぞれの変更後ポーズ長を得るポーズ長変更部と、
    上記ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、合成音声の聞き取りやすさへの寄与、ポーズとして知覚されることの容易性、ポーズ確度値の大きさ、に基づいて、削除すべきポーズ(以下、削除対象ポーズと呼称する)を選択する削除ポーズ選択部と、
    上記削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、当該削除対象ポーズを上記ポーズ配置推定結果から除外するポーズ統合処理部と
    を含むポーズ推定装置。
  2. 請求項1に記載のポーズ推定装置であって、
    上記削除ポーズ選択部は、
    上記ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、変更後ポーズ長が予め定められた閾値に対する大小関係の条件を満たし、かつ、ポーズ確度値が予め定められた閾値に対する大小関係を満たす、ポーズを削除対象ポーズとして選択する
    ことを特徴とするポーズ推定装置。
  3. 請求項1または請求項2に記載のポーズ推定装置であって、
    上記削除ポーズ選択部は、
    削除対象ポーズが2つ以上連続する場合、その中でポーズ確度値が最も小さい削除対象ポーズ以外の削除対象ポーズについて削除対象の指定を解除する
    ことを特徴とするポーズ推定装置。
  4. 請求項1から請求項3のいずれかに記載のポーズ推定装置であって、
    上記ポーズ統合処理部は、
    上記削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前に位置するポーズまたは後に位置するポーズのうち、ポーズ確度値がより高い方またはポーズ長がより短い方のポーズの変更後ポーズ長に加算する
    ことを特徴とするポーズ推定装置。
  5. 請求項1から請求項3のいずれかに記載のポーズ推定装置であって、
    上記ポーズ統合処理部は、
    上記削除対象ポーズの変更後ポーズ長を当該削除対象ポーズの推定位置の前後に位置するポーズのポーズ確度値に応じて按分して得られる時間長を、削除対象ポーズの推定位置の前後に位置する各ポーズのポーズ長に加算する
    ことを特徴とするポーズ推定装置。
  6. 請求項1から請求項5のいずれかに記載のポーズ推定装置であって、
    上記ポーズ長変更部は、
    上記話速情報が話速増大を指示する情報である
    ことを特徴とするポーズ推定装置。
  7. 所与のテキストに対して、ポーズの推定位置の組であるポーズ配置を表すポーズ配置推定結果と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとに算出された当該ポーズが挿入される可能性の高さを表す指標(以下、ポーズ確度値と呼称する)と、このポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズごとの推定されたポーズ長を表すポーズ長推定結果が予め得られているとして、
    ポーズ長変更部が、入力された話速情報に基づいて、上記ポーズ長推定結果に含まれる各上記ポーズ長を一律に変更してそれぞれの変更後ポーズ長を得るポーズ長変更ステップと、
    削除ポーズ選択部が、上記ポーズ配置推定結果に含まれるポーズの推定位置に対応するポーズのうち、合成音声の聞き取りやすさへの寄与、ポーズとして知覚されることの容易性、ポーズ確度値の大きさ、に基づいて、削除すべきポーズ(以下、削除対象ポーズと呼称する)を選択する削除ポーズ選択ステップと、
    ポーズ統合処理部が、上記削除対象ポーズの変更後ポーズ長を、当該削除対象ポーズの推定位置の前または後のいずれかの推定位置に対応するポーズの変更後ポーズ長に加算するとともに、当該削除対象ポーズを上記ポーズ配置推定結果から除外するポーズ統合処理ステップと
    を有するポーズ推定方法。
  8. 請求項1から請求項6のいずれかに記載のポーズ推定装置としてコンピュータを機能させるためのプログラム。
JP2013238797A 2013-11-19 2013-11-19 ポーズ推定装置、方法、プログラム Expired - Fee Related JP6121313B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013238797A JP6121313B2 (ja) 2013-11-19 2013-11-19 ポーズ推定装置、方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013238797A JP6121313B2 (ja) 2013-11-19 2013-11-19 ポーズ推定装置、方法、プログラム

Publications (2)

Publication Number Publication Date
JP2015099252A JP2015099252A (ja) 2015-05-28
JP6121313B2 true JP6121313B2 (ja) 2017-04-26

Family

ID=53375899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013238797A Expired - Fee Related JP6121313B2 (ja) 2013-11-19 2013-11-19 ポーズ推定装置、方法、プログラム

Country Status (1)

Country Link
JP (1) JP6121313B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7494935B2 (ja) 2020-11-02 2024-06-04 日本電信電話株式会社 推定装置、推定方法、および、推定プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0876782A (ja) * 1994-09-02 1996-03-22 Toshiba Corp 音声合成装置
JP5029168B2 (ja) * 2007-06-25 2012-09-19 富士通株式会社 音声読み上げのための装置、プログラム及び方法
JP5998500B2 (ja) * 2012-02-07 2016-09-28 三菱電機株式会社 中間言語情報生成装置、音声合成装置、および中間言語情報生成方法

Also Published As

Publication number Publication date
JP2015099252A (ja) 2015-05-28

Similar Documents

Publication Publication Date Title
CN106816148B (zh) 语音识别设备和方法
JP6448765B2 (ja) 対話装置、方法及びプログラム
JP5212910B2 (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
WO2018159402A1 (ja) 音声合成システム、音声合成プログラムおよび音声合成方法
JPWO2016151700A1 (ja) 意図理解装置、方法およびプログラム
JP2005208648A (ja) スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法
CN107610693B (zh) 文本语料库的构建方法和装置
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP4594885B2 (ja) 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
JP4298672B2 (ja) 混合分布hmmの状態の出力確率計算方法および装置
JP6121313B2 (ja) ポーズ推定装置、方法、プログラム
US11682318B2 (en) Methods and systems for assisting pronunciation correction
JP2009128490A (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP2007163896A (ja) 音声認識装置および方法
JP5961532B2 (ja) 辞書・言語モデル圧縮方法とその装置とプログラム
US20220139374A1 (en) Speech recognition device, speech recognition method, and program
Rouhe et al. An equal data setting for attention-based encoder-decoder and HMM/DNN models: A case study in Finnish ASR
JP7088796B2 (ja) 音声合成に用いる統計モデルを学習する学習装置及びプログラム
JP2017211513A (ja) 音声認識装置、その方法、及びプログラム
JP2009300716A (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP5967578B2 (ja) 局所韻律コンテキスト付与装置、局所韻律コンテキスト付与方法、およびプログラム
JP6002598B2 (ja) 強調位置予測装置、その方法、およびプログラム
JP6000153B2 (ja) フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170329

R150 Certificate of patent or registration of utility model

Ref document number: 6121313

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees