JP2005091747A - 音声合成装置 - Google Patents
音声合成装置 Download PDFInfo
- Publication number
- JP2005091747A JP2005091747A JP2003324990A JP2003324990A JP2005091747A JP 2005091747 A JP2005091747 A JP 2005091747A JP 2003324990 A JP2003324990 A JP 2003324990A JP 2003324990 A JP2003324990 A JP 2003324990A JP 2005091747 A JP2005091747 A JP 2005091747A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- distortion
- probability
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 合成音声の品質上重要な歪を重視した評価尺度を得るとともに、音声素片の組み合わせにより生じる歪の計算を軽減させる。
【解決手段】 複数の音声素片を予め記憶しておく素片記憶部と、目標韻律パラメータと言語情報に基づいて目標韻律パラメータの時刻毎にそれぞれ確率分布を算出する確率計算部と、素片記憶部から複数の音声素片を読み出し、合成音声を構成するすべての音声素片候補の組み合わせについて、確率分布に基づいて目標韻律パラメータに対する各音声素片の韻律パラメータの歪を確率重み歪として算出する確率重み歪計算部と、音声素片候補の組み合わせの中で算出された確率重み歪が最小となる素片系列を選択する素片選択部を備える。
【選択図】 図1
【解決手段】 複数の音声素片を予め記憶しておく素片記憶部と、目標韻律パラメータと言語情報に基づいて目標韻律パラメータの時刻毎にそれぞれ確率分布を算出する確率計算部と、素片記憶部から複数の音声素片を読み出し、合成音声を構成するすべての音声素片候補の組み合わせについて、確率分布に基づいて目標韻律パラメータに対する各音声素片の韻律パラメータの歪を確率重み歪として算出する確率重み歪計算部と、音声素片候補の組み合わせの中で算出された確率重み歪が最小となる素片系列を選択する素片選択部を備える。
【選択図】 図1
Description
この発明は、テキストデータを音声に変換するために、音声素片を編集して接続し音声合成を行なう音声合成装置に関するものである。
近年、入力したテキストデータから合成音声を得る音声合成装置が多く開発され、商品化されるようになった。これらの音声合成装置の基本的な処理では、まず、入力される任意のテキストデータから句の境界、ポーズの挿入位置、句の読みおよびアクセント位置等の言語情報を抽出する解析を行なう。次に、それらの言語情報から音声の基本周波数、各音素の継続時間長、パワーなどの韻律情報を生成し、さらに、予め記憶されている音素や、複数の音素あるいは音節などからなる合成単位の音声素片を読み出し、それらを接続し上記生成した韻律情報を用いて合成音声を得るようにしている。
このような音声合成装置の一つの手法として、自然発話音声波形接続型音声合成方式という方法を適用した音声合成装置がある。これは、自然な音質を実現するために、大量の音声素片を直接波形として記憶しておき、目的の音声を生成するために最も適切な音声素片を選択し、信号処理を行なわずに直接接続して音声を合成する方法である。このような方法では、信号処理を行なわないため、目標となる基本周波数や継続時間長、すなわち韻律パラメータに最も近い音声素片を接続する必要があり、さらに、接続点での音質、すなわちスペクトル情報に不連続が生じないような音声素片を選択する必要がある。この素片選択として、目標となる韻律パラメータと音声素片の韻律パラメータの歪および素片接続点での音響パラメータの歪を適切な重み付けをして評価し、歪最小の音声素片を選択する方法が採用されている(例えば、特許文献1参照)。しかし、このような方法では、目標となる韻律パラメータに近い音声素片が予め存在していることが前提条件であり、そのためには予め大量の音声素片を準備しておくことが要求される。
一方、従来からの、音声素片の何らかの音響パラメータを記憶しておき、接続時には、目標の基本周波数および時間長となるように信号処理を行なう方法についても高品質化のための手法が提案されている。この方法の一例として、1周期分の波形を切り出しておき、その波形を時間軸上で再配置し、所望の基本周波数の合成音声を得ることが提案されており、代表例として、PSOLA(Pitch Synchronized Overlap and Add:ピッチ同期波形重畳法)に基づく方法がある(例えば、特許文献2参照)。この方法は、高い品質の合成音声が得られるということから広く用いられているが、この方法においても、原音声の基本周波数を大幅に変更するとスペクトルが変形し、品質劣化につながるという問題がある。したがって、素片選択の方法としては、品質に対する寄与に違いがあるものの、品質の高い音声を得るためには、記憶されている複数の音声素片から、目標となる韻律パラメータ、と音声素片の韻律パラメータとの歪および接続点での歪を重み付き和などで総合的に評価し、歪最小となる音声素片を選択することが必要となる。
素片選択を行なう一般的な音声合成装置について説明する。テキスト解析で得られた言語情報から、各音声素片の時間長および基本周波数のパタンを生成し、これを目標韻律パラメータ(目標値)とする。目標韻律パラメータを言語情報に付与し韻律情報を得る。複数の音声素片の韻律パラメータおよび音声合成に必要な音響パラメータを予め記憶しておき、文を構成する音素や音節に対応する複数の音声素片を読み出し、目標韻律パラメータと音声素片の韻律パラメータから歪を求めるともに、それぞれの音声素片の組み合わせから音響パラメータの歪を求める。このときの歪の計算例を図14に示す。この例では、パラメータ間(目標値と音声素片の値)の距離の総和が韻律パラメータの歪となる。音声素片の組み合わせに対して、それぞれ韻律パラメータの歪と音響パラメータの歪を求め、歪が最小となる音声素片の系列を求める。求めた音声素片の系列を接続し合成音声を生成する。
一方、素片選択の処理の方法として、言語情報から目標韻律パラメータ(目標値)を生成した際に、この目標韻律パラメータに、基本周波数に確率分布幅を持たせた帯状の許容範囲を持たせておく方法がある(例えば、特許文献3参照)。この場合、設定された目標韻律パラメータの許容範囲に対して音声素片を選択して割り当て、これら選択された音声素片に対して、許容範囲内で目標韻律パラメータ自体を近づけるように変化させて設定する。合成時に音声素片の基本周波数を大きく変動させた場合にはスペクトルの変形が起こり、品質が劣化するが、この方法を用いることにより、選択した音声素片の基本周波数の変化をなるべく小さくすることでイントネーションが不自然にならない範囲で音質劣化を軽減ができるというものである。
従来の音声合成装置は、以上のような方法を用いて構成されているが、自然発話音声波形接続型音声合成方式であっても、PSOLAなどの信号処理を用いる方法でも、韻律歪と接続点の音響歪の総合評価により素片選択が行なわれている。しかし、このような方法では、韻律パラメータの歪計算が一様に評価される。例えば、図15に示されるように、実線で与えられた目標値に対して、二つの音声素片系列があったとき、従来の歪の計算方法によれば、太線で示す音声素片系列1の韻律パラメータが、点線で示す音声素片系列2の系列の韻律パラメータよりも、目標値との歪が小さく、結果として選択されることとなる。このような方式で選択した音声素片を自然発話音声波形接続型の音声合成装置に適用すると、系列1では、概ね目標値と近いものの、第3音節で大きな相違を見せているため、日本語のアクセントの聴取にとり重要な基本周波数が低下するポイント、すなわちアクセント核が第2音節にあるように聴取される可能性がある。一方、系列2は、全体的には目標値との歪が大きいが、概形は類似しており、特に、基本周波数が急激に低下するポイントが第3音節にあるため、アクセント核の位置が誤って聴取される可能性は低い。このように、歪を一様に評価する方法では、品質上重要な歪とそうでない歪が区別されないという問題があった。
また、PSOLAなどの信号処理を用いる方法においては、生成される合成音声の韻律は、目標値どおりになるものの、韻律パラメータの変形による音響パラメータの変形あるいは音質の劣化は一様ではないことが知られており、韻律パラメータを一様に評価する場合、音響パラメータの変形や品質の劣化について最適なパラメータが得られないという問題があった。さらに、韻律パラメータ変形後の音響パラメータを実際に求めれば、この問題は解決できるが、複数の音声素片の候補についてすべての変形を計算する必要があり、計算量が莫大になるという問題があった。
また、特許文献3のように、設定した許容範囲内で目標韻律パラメータ自体を変化させる方法の場合、韻律の変形による音響パラメータの変形、音質の劣化が小さくできるというメリットはあるものの、影響が非一様であることへの対処はできず、また、合成音声の韻律が当初の目標値からずれることによる品質劣化が生じるという問題があった。
また、特許文献3のように、設定した許容範囲内で目標韻律パラメータ自体を変化させる方法の場合、韻律の変形による音響パラメータの変形、音質の劣化が小さくできるというメリットはあるものの、影響が非一様であることへの対処はできず、また、合成音声の韻律が当初の目標値からずれることによる品質劣化が生じるという問題があった。
この発明は、上記の課題を解決するためになされたもので、合成音声の品質上重要な歪を重視した評価尺度を得るとともに、音声素片の組み合わせにより生じる歪の計算を軽減させる音声合成装置を得ることを目的とする。
この発明に係る音声合成装置は、入力される言語情報から合成音声の目標韻律パラメータを生成し、言語情報に付与して出力する韻律生成部と、韻律パラメータと音声生成に必要な音響パラメータの対からなる複数の音声素片を予め記憶しておく素片記憶部と、出力された目標韻律パラメータと言語情報に基づいて目標韻律パラメータの時刻毎にそれぞれ確率分布を算出する確率計算部と、言語情報に基づいて素片記憶部から対応する複数の音声素片を読み出し、合成音声を構成するすべての音声素片候補の組み合わせについて、確率分布に基づいて目標韻律パラメータに対する各音声素片の韻律パラメータの歪を確率重み歪として算出する確率重み歪計算部と、音声素片候補の組み合わせの中で算出された前記確率重み歪が最小となる素片系列を選択する素片選択部と、選択された素片系列を構成する音声素片の韻律パラメータと音響パラメータに基づいて合成音声を生成する音声生成部とを備えたものである。
この発明によれば、目標韻律パラメータに対して時間方向に不均一に特徴を与えることができる確率分布を持たせるので、確率分布が広い地点では、音声素片の韻律パラメータが目標値から離れていても距離値は小さく評価され、また、確率分布が狭いところでは、距離値が大きく評価でき、合成音声品質への寄与度を考慮した最適な音声素片の選択を可能とする効果がある。
実施の形態1.
図1はこの発明の実施の形態1による音声合成装置の構成を示すブロック図である。図において、韻律パラメータ生成部101は、前段から入力される言語情報111に基づいて合成音声の目標韻律パラメータ(目標値)を生成し、これを言語情報111に付与して韻律情報112として出力する手段である。素片記憶部102は、韻律パラメータと音声生成に必要な音響パラメータの対からなる複数の音声素片を予め記憶しておく手段である。音声素片は、音素や音節などの音声合成の単位ごとに人間の発声から抽出したデータであり、その中で韻律パラメータは、時刻毎の基本周波数、時間長、パワーに係わるパラメータである。なお、この実施の形態では、韻律パラメータとして基本周波数を用いた場合について説明するが、代りにパワーのパタンまたは時間長の構造を表すパラメータを適用することでも同様に発明を構成できるものである。一方、音響パラメータは各音声素片の時刻毎の音質すなわち音響的特徴を表すパラメータである。その表現方法としては多種多用あり、例えば、LSP(Line Spectrum Pair)やメルケプストラム等の音声波形を分析して得られる特徴量、あるいはPSOLA方式では一定時間間隔で抽出された1周期波形で構成される。また、自然発話音声波形接続型方式では、素片の波形そのものが音響パラメータとなる。また、素片記憶部102には、接続時点での音響特徴の不連続性を歪に加えるために、音声素片の両端のスペクトルパラメータ、例えばケプストラムパラメータが記憶されている。
図1はこの発明の実施の形態1による音声合成装置の構成を示すブロック図である。図において、韻律パラメータ生成部101は、前段から入力される言語情報111に基づいて合成音声の目標韻律パラメータ(目標値)を生成し、これを言語情報111に付与して韻律情報112として出力する手段である。素片記憶部102は、韻律パラメータと音声生成に必要な音響パラメータの対からなる複数の音声素片を予め記憶しておく手段である。音声素片は、音素や音節などの音声合成の単位ごとに人間の発声から抽出したデータであり、その中で韻律パラメータは、時刻毎の基本周波数、時間長、パワーに係わるパラメータである。なお、この実施の形態では、韻律パラメータとして基本周波数を用いた場合について説明するが、代りにパワーのパタンまたは時間長の構造を表すパラメータを適用することでも同様に発明を構成できるものである。一方、音響パラメータは各音声素片の時刻毎の音質すなわち音響的特徴を表すパラメータである。その表現方法としては多種多用あり、例えば、LSP(Line Spectrum Pair)やメルケプストラム等の音声波形を分析して得られる特徴量、あるいはPSOLA方式では一定時間間隔で抽出された1周期波形で構成される。また、自然発話音声波形接続型方式では、素片の波形そのものが音響パラメータとなる。また、素片記憶部102には、接続時点での音響特徴の不連続性を歪に加えるために、音声素片の両端のスペクトルパラメータ、例えばケプストラムパラメータが記憶されている。
確率計算部202は、韻律情報112に含まれる目標韻律パラメータの各時刻に対してそれぞれ確率分布を算出し、その算出した確率分布を付与した確率付き目標韻律パラメータ211を出力する手段である。ここで、確率分布の算出ということは、図2(a)に例示する目標韻律パラメータ(目標値)のある時刻t1,t2に対してそれぞれ図2(b)、(c)に示すような分布曲線を与えるということである。この発明では、この分布曲線がそれぞれの時刻で非均一の分布を与えるようにすることで、種々の効果が得られるようにしている。確率重み歪計算部201は、入力された言語情報に基づいて、素片記憶部102から該当する複数の音声素片113を読み出し、素片組み合わせごとに、確率計算部202で算出された確率分布に基づいて目標韻律パラメータに対する各韻律パラメータの確率重み歪を算出すると共に、各音響パラメータの歪からなる総合歪114を算出する手段である。素片選択部104は、確率重み歪計算部201で算出された総合歪114が最小となる合成単位を選択し、素片系列115にして出力する手段である。音声生成部105は、素片選択部104で選択された素片系列115に基づいて合成音声116を生成する手段である。
次に音声合成装置の動作について説明する。なお、以下の説明では、韻律パラメータとして、基本周波数パタンを対象とする場合について説明する。
前段のテキスト入力装置(図示せず)から入力されたテキストは、テキスト解析部(図示せず)で解析され、文に対して、句境界、pause挿入位置、音素記号で記述された句の読み、句のアクセント位置、句の言語的なカテゴリ、係り受けなどの句の関係が抽出される。これらの抽出データは言語情報111としてこの音声合成装置に入力される。韻律パラメータ生成部101では、この入力言語情報111に基づいて、入力文の基本周波数パタンを目標韻律パラメータ(目標値)として生成し、言語情報111に付与して韻律情報112として出力する。
前段のテキスト入力装置(図示せず)から入力されたテキストは、テキスト解析部(図示せず)で解析され、文に対して、句境界、pause挿入位置、音素記号で記述された句の読み、句のアクセント位置、句の言語的なカテゴリ、係り受けなどの句の関係が抽出される。これらの抽出データは言語情報111としてこの音声合成装置に入力される。韻律パラメータ生成部101では、この入力言語情報111に基づいて、入力文の基本周波数パタンを目標韻律パラメータ(目標値)として生成し、言語情報111に付与して韻律情報112として出力する。
確率計算部202では、韻律パラメータ生成部101で生成された目標韻律パラメータに対して、各時刻での韻律パラメータの生起確率が図3に例示するように算出される。算出された確率分布は目標韻律パラメータに付与され、確率付き目標韻律パラメータ211として確率重み歪計算部201に出力される。確率重み歪計算部201では、言語情報111に基づいて素片記憶部102から対応する音声素片を読み出し、読み出した複数の音声素片の各韻律パラメータについて目標韻律パラメータ(目標値)に対する歪を計算する。
韻律パラメータの歪は、例えば次のようにして算出される。
図4に示すように、音声素片(太線部分)を接続する場合を考える。ここで、nを時刻、iを音声素片の番号、Iを接続する素片数、ikをi番目の素片についてのk番目の候補、iKをi番目の素片についての候補数、Pn(f)を時刻nの基本周波数fに対する確率分布、fik nを候補ikの素片の時刻nに対応する周波数とする。この場合、候補ik(i=1,2,…,I)の音声素片の時刻nにおける目標値との距離値は、例えば−ln(Pn(fik n))で表され、これが韻律パラメータの時刻nにおける歪となる。音声素片ごとにこの距離の時間方向の総和を求める。すなわち、韻律パラメータの総合歪Df(ik)は、例えば(1)式で表される。この式の右辺が確率重み歪を表す。
図4に示すように、音声素片(太線部分)を接続する場合を考える。ここで、nを時刻、iを音声素片の番号、Iを接続する素片数、ikをi番目の素片についてのk番目の候補、iKをi番目の素片についての候補数、Pn(f)を時刻nの基本周波数fに対する確率分布、fik nを候補ikの素片の時刻nに対応する周波数とする。この場合、候補ik(i=1,2,…,I)の音声素片の時刻nにおける目標値との距離値は、例えば−ln(Pn(fik n))で表され、これが韻律パラメータの時刻nにおける歪となる。音声素片ごとにこの距離の時間方向の総和を求める。すなわち、韻律パラメータの総合歪Df(ik)は、例えば(1)式で表される。この式の右辺が確率重み歪を表す。
一方、音響パラメータの歪としては、種々考えられるが、図5に示すように接続点の歪に着目した例がある。ここで、C0 ikを候補ikの音声素片における開始時刻の音響パラメータ、CL ikを候補ikの音声素片における終了時刻の音響パラメータ、dc( )を音響パラメータの距離値とする。この場合、音響パラメータの歪Ds(ik)はそれぞれの音声素片の接続時点での歪となり、(2)式で表される。
このようにして得られた音響パラメータの歪Ds(ik)と韻律パラメータの総合歪Df(ik)に適当な重みwf、wsを付けることで、候補ikの音声素片の総合歪D(ik)は(3)式のように定義される。
D(ik)=wf・Df(ik)+ws・Ds(ik) (3)
以上のように、ある句を合成しようとしたときに、その音素系列に対応するすべての音声素片候補の組み合わせについて、組み合わせごとに総合歪D(ik)を、確率重み歪計算部201において算出することになる。
D(ik)=wf・Df(ik)+ws・Ds(ik) (3)
以上のように、ある句を合成しようとしたときに、その音素系列に対応するすべての音声素片候補の組み合わせについて、組み合わせごとに総合歪D(ik)を、確率重み歪計算部201において算出することになる。
次に、素片選択部104では、求めた組み合わせの中で総合歪が最小となる素片系列115を選択する。最適な音声素片は、(3)式の歪を最小化する(4)式で表す候補ikの組み合わせとなる。
ここで、音響パラメータの歪について考慮しないで、韻律パラメータの確率重み歪のみを用いて選択処理することもできるので、その場合には、(1)式の歪を最小化する候補ikを選択することになり、総合歪は(5)式のようになる。
次に、音声生成部105では、このようにして選択された素片系列115を構成する音声素片の韻律パラメータと音響パラメータを接続して合成音声116を生成する。
図6から図9は、韻律パラメータの基本周波数についての確率分布のとり方に特徴を持たせた各例を示す説明図である。図6は、確率計算部202で、言語情報を基に音声素片の接続部分において確率分布を狭めるように生成した状態を示す。このように確率分布を設定することにより、自然発話音声波形接続型音声合成方式に適用した場合、基本周波数の連続性が高い音声素片を容易に選択できるようになる。
図7は、同様に自然発話音声波形接続型音声合成方式に適用する一例であるが、目標値を基に韻律パラメータの中で基本周波数の高い区間の終点付近、すなわちアクセント核の位置で確率分布を狭めるように生成した状態を示す。このように確率分布を設定することにより、誤ったアクセントに聞き間違える可能性の低い音声素片を選択できるようになる。
図7は、同様に自然発話音声波形接続型音声合成方式に適用する一例であるが、目標値を基に韻律パラメータの中で基本周波数の高い区間の終点付近、すなわちアクセント核の位置で確率分布を狭めるように生成した状態を示す。このように確率分布を設定することにより、誤ったアクセントに聞き間違える可能性の低い音声素片を選択できるようになる。
また、音声素片の音素の種類に応じて所定の確率分布を算出してもよく、例えば図8は、聴覚上重要な母音部分の確率分布を狭くするように生成した状態を示す。音声生成部105で、PSOLAなどの方法を用いて目標韻律パラメータの基本周波数に合わせて音声を合成する場合、基本周波数の変化が大きいと音質の劣化につながるが、図8のように確率分布を生成することで、母音部分での歪が少ない合成音声を得ることができる。
さらに、図9は、接続する場合に先行する音声素片の終端における韻律パラメータに応じて所定の確率分布を生成した状態を示している。このようにすることにより、自然発話音声波形接続型音声合成方式に適用した場合、接続点での不連続が小さくなり、かつ、目標韻律パラメータから大きくずれることのない音声素片を選択できるようになる。
さらに、図9は、接続する場合に先行する音声素片の終端における韻律パラメータに応じて所定の確率分布を生成した状態を示している。このようにすることにより、自然発話音声波形接続型音声合成方式に適用した場合、接続点での不連続が小さくなり、かつ、目標韻律パラメータから大きくずれることのない音声素片を選択できるようになる。
以上のように、この実施の形態1によれば、確率計算部202により、目標韻律パラメータに対して時間方向に不均一することが可能な確率分布を算出して特徴を持たせるようにしたので、確率分布が広い地点では、目標韻律パラメータから音声素片の韻律パラメータが離れていても距離値は小さく評価され、また、確率分布が狭いところでは、距離値が大きく評価されるため、合成音声品質への寄与度を考慮した最適な音声素片の選択を可能とする効果が得られる。
実施の形態2.
上記実施の形態1では、目標韻律パラメータ(目標値)に最も近い韻律パラメータを有する音声素片を選択するために、韻律パラメータの目標値との相違を一様に評価するのではなく、確率重みを設定して、種々の品質と韻律の間に影響を及ぼす要因を考慮した評価を行なうようにしている。これに対し、この実施の形態2では、韻律パラメータの変形を行なうと、音響パラメータが変化してしまうので、韻律パラメータを変化させたときの音響パラメータ変化を考慮して、目標値に近くかつ変形が少ない最適な音声素片を選択できるようにする。
図10はこの発明の実施の形態2による音声合成装置の構成を示すブロック図である。図において、図1に相当する部分には同一符号を付し、原則的にその説明を省略する。確率分布付き素片記憶部302は、確率分布付き韻律パラメータと確率分布付き音響パラメータの対からなる複数の音声素片を予め記憶している手段である。確率重み歪計算部301は、言語情報に基づいて確率分布付き素片記憶部302から対応する複数の音声素片を読み出し、合成音声を構成するすべての音声素片候補の組み合わせについて、読み出した音声素片の韻律パラメータに付いた確率分布に基づいて目標韻律パラメータに対する各音声素片の韻律パラメータの歪を確率重み歪として算出すると共に、読み出した音声素片の確率分布付き音響パラメータに基づいて各音声素片の音響パラメータの歪を算出し、総合歪114として素片選択部104に送出する手段である。
上記実施の形態1では、目標韻律パラメータ(目標値)に最も近い韻律パラメータを有する音声素片を選択するために、韻律パラメータの目標値との相違を一様に評価するのではなく、確率重みを設定して、種々の品質と韻律の間に影響を及ぼす要因を考慮した評価を行なうようにしている。これに対し、この実施の形態2では、韻律パラメータの変形を行なうと、音響パラメータが変化してしまうので、韻律パラメータを変化させたときの音響パラメータ変化を考慮して、目標値に近くかつ変形が少ない最適な音声素片を選択できるようにする。
図10はこの発明の実施の形態2による音声合成装置の構成を示すブロック図である。図において、図1に相当する部分には同一符号を付し、原則的にその説明を省略する。確率分布付き素片記憶部302は、確率分布付き韻律パラメータと確率分布付き音響パラメータの対からなる複数の音声素片を予め記憶している手段である。確率重み歪計算部301は、言語情報に基づいて確率分布付き素片記憶部302から対応する複数の音声素片を読み出し、合成音声を構成するすべての音声素片候補の組み合わせについて、読み出した音声素片の韻律パラメータに付いた確率分布に基づいて目標韻律パラメータに対する各音声素片の韻律パラメータの歪を確率重み歪として算出すると共に、読み出した音声素片の確率分布付き音響パラメータに基づいて各音声素片の音響パラメータの歪を算出し、総合歪114として素片選択部104に送出する手段である。
ここで、音響パラメータに予め与える確率分布について述べる。
図11は合成時の音声素片の変形について示すが、例えばi番目の音声素片のある時刻の基本周波数を変形させたときの音響パラメータの変動(変形前との歪)を事前に観測する。変形による音響パラメータの歪と韻律パラメータの確率分布の関係を図12に示すが、図12(a)の音声素片では、基本周波数を変化させても、元の音響パラメータとの歪が大きくないので確率分布を広くとり、図12(b)の音声素片では、基本周波数の変化により元の音響パラメータとの歪が大きいので確率分布を狭くとっている状態を表している。つまり、図12(a)の音声素片は変形に強いため、比較的広い周波数の変形を許すようにし、図12(b)の音声素片は変形に弱いため、分布を狭くして、変形が大きい場合、すなわち目標韻律パラメータと音声素片の韻律パラメータが遠い場合、歪が大きく評価され、結果的に選ばれにくくしている。さらに、このような場合には、上記(2)式で音響パラメータの歪を計算しようとしても、音響パラメータC0 ik、CL ik自体が変化してしまうので、それを歪に導入しなければならなくなる。そこで、例えば図13(a)に示すように音響パラメータC0 ik、CL ikの変形後のパラメータを、図13(b)のように確率分布として予め与えておく。このことにより変形後の音響パラメータの歪を確率的に求めることができる。毎回計算を行なう代りに、予め確率分布で与えておくようにすれば、処理を簡素化することができる。
図11は合成時の音声素片の変形について示すが、例えばi番目の音声素片のある時刻の基本周波数を変形させたときの音響パラメータの変動(変形前との歪)を事前に観測する。変形による音響パラメータの歪と韻律パラメータの確率分布の関係を図12に示すが、図12(a)の音声素片では、基本周波数を変化させても、元の音響パラメータとの歪が大きくないので確率分布を広くとり、図12(b)の音声素片では、基本周波数の変化により元の音響パラメータとの歪が大きいので確率分布を狭くとっている状態を表している。つまり、図12(a)の音声素片は変形に強いため、比較的広い周波数の変形を許すようにし、図12(b)の音声素片は変形に弱いため、分布を狭くして、変形が大きい場合、すなわち目標韻律パラメータと音声素片の韻律パラメータが遠い場合、歪が大きく評価され、結果的に選ばれにくくしている。さらに、このような場合には、上記(2)式で音響パラメータの歪を計算しようとしても、音響パラメータC0 ik、CL ik自体が変化してしまうので、それを歪に導入しなければならなくなる。そこで、例えば図13(a)に示すように音響パラメータC0 ik、CL ikの変形後のパラメータを、図13(b)のように確率分布として予め与えておく。このことにより変形後の音響パラメータの歪を確率的に求めることができる。毎回計算を行なう代りに、予め確率分布で与えておくようにすれば、処理を簡素化することができる。
次に、図10の装置の動作について説明する。
韻律パラメータ生成部101から合成音声の目標韻律パラメータが言語情報111に付与された韻律情報112として確率重み歪計算部301に入力される。確率重み歪計算部301は、言語情報に基づいて、確率分布付き素片記憶部302から確率分布付き韻律パラメータと確率分布付き音響パラメータからなる複数の音声素片を読み出し、音声素片ごとに、韻律パラメータについて目標韻律パラメータに対する確率重み付き歪と、音響パラメータの歪を計算する。
韻律パラメータ生成部101から合成音声の目標韻律パラメータが言語情報111に付与された韻律情報112として確率重み歪計算部301に入力される。確率重み歪計算部301は、言語情報に基づいて、確率分布付き素片記憶部302から確率分布付き韻律パラメータと確率分布付き音響パラメータからなる複数の音声素片を読み出し、音声素片ごとに、韻律パラメータについて目標韻律パラメータに対する確率重み付き歪と、音響パラメータの歪を計算する。
確率重み歪計算部301における処理を一つの実現例として説明する。
ここで、Pik nをi番目の素片のk個目の素片候補の時刻nに対応する韻律パラメータの確率分布、f^nを時刻nの目標韻律パラメータとすれば、目標韻律パラメータに対する韻律パラメータの総合歪D’f(ik)は(6)式で表される。
また、C〜0 ik、C〜L ikを確率分布付き音響パラメータとすると、音響パラメータの歪D’s(ik)は、(7)式で表される。
以上のように、ある句を合成しようとしたときに、その音素系列に対応するすべての音声素片候補の組み合わせについて、組み合わせごとに(6)式と(7)式による総合歪を算出することになる。次に、素片選択部104では、求めた組み合わせの中で総合歪が最小となる素片系列115を選択する。この選択された素片系列115を構成する音声素片は、音声生成部105で接続され合成音声116として出力される。
なお、音響パラメータの歪について考慮しない場合には、確率分布付き素片記憶部302に記憶しておく音声素片の音響パラメータについては確率分布付きとせず、確率重み歪計算部301では、韻律パラメータについて確率重み付き歪だけを計算するようにしてもよい。
ここで、Pik nをi番目の素片のk個目の素片候補の時刻nに対応する韻律パラメータの確率分布、f^nを時刻nの目標韻律パラメータとすれば、目標韻律パラメータに対する韻律パラメータの総合歪D’f(ik)は(6)式で表される。
なお、音響パラメータの歪について考慮しない場合には、確率分布付き素片記憶部302に記憶しておく音声素片の音響パラメータについては確率分布付きとせず、確率重み歪計算部301では、韻律パラメータについて確率重み付き歪だけを計算するようにしてもよい。
ここで、確率分布付き素片記憶部302に記憶しておく音声素片の韻律パラメータに付ける確率分布の設定例について述べる。例えばPSOLAを用いる合成方式で、音声生成時に音声素片の基本周波数を変更したときのスペクトル歪を事前に計算しておき、これに基づいて確率分布を設定するようにする。このことにより、確率重み歪計算部301では、事後的なスペクトル歪を計算することができ、事後歪最小の音声素片を選択することができるようになる。また、他の方法として、韻律パラメータの確率分布を、素片接続時の歪の合成音声品質への寄与度に基づいて予め算出して設定するようにしてもよい。このことにより、合成音声品質の高い音声素片の選択が容易となる。
以上のように、この実施の形態2によれば、韻律パラメータの相違による品質への寄与を考慮することが可能となり、合成音声品質の高い音声素片の選択が可能となり、さらに歪が音質をよく表現するようになるために、組み合わせの評価の途中で、評価値の低い組み合わせを候補から排除することが容易になり、予め確率分布を与えておくことにより演算量を減少させることも可能とする効果が得られる。
101 韻律パラメータ生成部、102 素片記憶部、104 素片選択部、105 音声生成部、201,301 確率重み歪計算部、202 確率計算部、302 確率分布付き素片記憶部。
Claims (11)
- 入力される言語情報から合成音声の目標韻律パラメータを生成し、前記言語情報に付与して出力する韻律生成部と、
韻律パラメータと音声生成に必要な音響パラメータの対からなる複数の音声素片を予め記憶しておく素片記憶部と、
出力された前記目標韻律パラメータと言語情報に基づいて前記目標韻律パラメータの時刻毎にそれぞれ確率分布を算出する確率計算部と、
前記言語情報に基づいて前記素片記憶部から対応する複数の音声素片を読み出し、合成音声を構成するすべての音声素片候補の組み合わせについて、前記確率分布に基づいて前記目標韻律パラメータに対する各音声素片の韻律パラメータの歪を確率重み歪として算出する確率重み歪計算部と、
前記音声素片候補の組み合わせの中で算出された前記確率重み歪が最小となる素片系列を選択する素片選択部と、
選択された素片系列を構成する音声素片の韻律パラメータと音響パラメータに基づいて合成音声を生成する音声生成部とを備えた音声合成装置。 - 確率重み歪計算部は、各音声素片の音響パラメータの歪を算出し、
素片選択部は、韻律パラメータの確率重み歪と前記音響パラメータの歪からなる総合歪が最小となる素片系列を選択するようにしたことを特徴とする請求項1記載の音声合成装置。 - 確率計算部は、目標韻律パラメータと言語情報に基づいて前記目標韻律パラメータ上で、歪が合成音声品質に与える影響が大きいところでは、狭い確率分布を算出することを特徴とする請求項1または請求項2記載の音声合成装置。
- 確率計算部は、音声素片の接続部分に相当する時刻に応じて確率分布を算出することを特徴とする請求項1または請求項2記載の音声合成装置。
- 確率計算部は、基本周波数のアクセント核の位置に応じて確率分布を算出することを特徴とする請求項1または請求項2記載の音声合成装置。
- 確率計算部は、音声素片の音素の種類に応じて確率分布を算出することを特徴とする請求項1または請求項2記載の音声合成装置。
- 確率計算部が、先行する音声素片の終端の韻律パラメータに応じて所定の確率分布を形成するよう確率分布を算出することを特徴とする請求項1または請求項2記載の音声合成装置。
- 入力される言語情報から合成音声の目標韻律パラメータを生成し、前記言語情報に付与して出力する韻律生成部と、
予め算出した確率分布を付与した韻律パラメータと音響パラメータの対からなる複数の音声素片を記憶しておく確率分布付き素片記憶部と、
前記言語情報に基づいて前記確率分布付き素片記憶部から対応する音声素片を読み出し、合成音声を構成するすべての音声素片候補の組み合わせについて、読み出した音声素片の韻律パラメータに付いた確率分布に基づいて目標韻律パラメータに対する各音声素片の韻律パラメータの歪を確率重み歪として算出する確率重み歪計算部と、
前記音声素片候補の組み合わせの中で前記確率重み歪が最小となる素片系列を選択する素片選択部と、
選択された素片系列を構成する音声素片の韻律パラメータと音響パラメータに基づいて合成音声を生成する音声生成部とを備えた音声合成装置。 - 確率分布付き素片記憶部は、音響パラメータに予め算出した確率分布を付与した複数の音声素片を記憶しており、
確率重み歪計算部は、読み出した音声素片の確率分布付き音響パラメータに基づいて各音響パラメータの歪を算出し、
素片選択部は、韻律パラメータの確率重み歪と前記音響パラメータの歪からなる総合歪が最小となる素片系列を選択するようにしたことを特徴とする請求項8記載の音声合成装置。 - 確率分布付き素片記憶部に記憶されている韻律パラメータの確率分布が、音声生成時に音声素片の基本周波数を変化させることで生じる歪に基づいて予め計算され設定されたものであることを特徴とする請求項8または請求項9記載の音声合成装置。
- 確率分布付き素片記憶部に記憶されている音響パラメータの確率分布が、素片接続時の歪の合成音声品質への寄与度に基づいて予め算出されたものであることを特徴とする請求項10記載の音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003324990A JP2005091747A (ja) | 2003-09-17 | 2003-09-17 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003324990A JP2005091747A (ja) | 2003-09-17 | 2003-09-17 | 音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005091747A true JP2005091747A (ja) | 2005-04-07 |
Family
ID=34455575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003324990A Pending JP2005091747A (ja) | 2003-09-17 | 2003-09-17 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005091747A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006129814A1 (en) * | 2005-05-31 | 2006-12-07 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus |
JP2007163667A (ja) * | 2005-12-12 | 2007-06-28 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
JP2012237925A (ja) * | 2011-05-13 | 2012-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置とその方法とプログラム |
JP2016065900A (ja) * | 2014-09-22 | 2016-04-28 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
CN112562635A (zh) * | 2020-12-03 | 2021-03-26 | 云知声智能科技股份有限公司 | 解决语音合成中拼接处产生脉冲信号的方法、装置及系统 |
-
2003
- 2003-09-17 JP JP2003324990A patent/JP2005091747A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006129814A1 (en) * | 2005-05-31 | 2006-12-07 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus |
JP2007163667A (ja) * | 2005-12-12 | 2007-06-28 | Nippon Hoso Kyokai <Nhk> | 音声合成装置および音声合成プログラム |
JP2012237925A (ja) * | 2011-05-13 | 2012-12-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置とその方法とプログラム |
JP2016065900A (ja) * | 2014-09-22 | 2016-04-28 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
CN112562635A (zh) * | 2020-12-03 | 2021-03-26 | 云知声智能科技股份有限公司 | 解决语音合成中拼接处产生脉冲信号的方法、装置及系统 |
CN112562635B (zh) * | 2020-12-03 | 2024-04-09 | 云知声智能科技股份有限公司 | 解决语音合成中拼接处产生脉冲信号的方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6684187B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
US7233901B2 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
US6785652B2 (en) | Method and apparatus for improved duration modeling of phonemes | |
JP2008033133A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2016161919A (ja) | 音声合成装置 | |
Govind et al. | Dynamic prosody modification using zero frequency filtered signal | |
JP2005091747A (ja) | 音声合成装置 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5198200B2 (ja) | 音声合成装置及び方法 | |
JP2009122381A (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP3109778B2 (ja) | 音声規則合成装置 | |
JP4684770B2 (ja) | 韻律生成装置及び音声合成装置 | |
JP4167084B2 (ja) | 音声合成方法及び装置、並びに音声合成プログラム | |
JP2004354644A (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
JP4454780B2 (ja) | 音声情報処理装置とその方法と記憶媒体 | |
JP2004246140A (ja) | テキスト選択方法、装置及びプログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP7162579B2 (ja) | 音声合成装置、方法及びプログラム | |
JP2011191528A (ja) | 韻律作成装置及び韻律作成方法 | |
JP3576792B2 (ja) | 音声情報処理方法 | |
JP3881970B2 (ja) | 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 | |
JPH1097268A (ja) | 音声合成装置 | |
Nukaga et al. | Unit selection using pitch synchronous cross correlation for Japanese concatenative speech synthesis | |
JP2004062002A (ja) | 音声合成方法 | |
JP2004347994A (ja) | 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム |