JP2005091747A

JP2005091747A - 音声合成装置

Info

Publication number: JP2005091747A
Application number: JP2003324990A
Authority: JP
Inventors: Yasushi Ishikawa; 泰石川; Ichiro Maruyama; 一郎丸山
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-09-17
Filing date: 2003-09-17
Publication date: 2005-04-07

Abstract

【課題】合成音声の品質上重要な歪を重視した評価尺度を得るとともに、音声素片の組み合わせにより生じる歪の計算を軽減させる。
【解決手段】複数の音声素片を予め記憶しておく素片記憶部と、目標韻律パラメータと言語情報に基づいて目標韻律パラメータの時刻毎にそれぞれ確率分布を算出する確率計算部と、素片記憶部から複数の音声素片を読み出し、合成音声を構成するすべての音声素片候補の組み合わせについて、確率分布に基づいて目標韻律パラメータに対する各音声素片の韻律パラメータの歪を確率重み歪として算出する確率重み歪計算部と、音声素片候補の組み合わせの中で算出された確率重み歪が最小となる素片系列を選択する素片選択部を備える。
【選択図】図１

Description

この発明は、テキストデータを音声に変換するために、音声素片を編集して接続し音声合成を行なう音声合成装置に関するものである。

近年、入力したテキストデータから合成音声を得る音声合成装置が多く開発され、商品化されるようになった。これらの音声合成装置の基本的な処理では、まず、入力される任意のテキストデータから句の境界、ポーズの挿入位置、句の読みおよびアクセント位置等の言語情報を抽出する解析を行なう。次に、それらの言語情報から音声の基本周波数、各音素の継続時間長、パワーなどの韻律情報を生成し、さらに、予め記憶されている音素や、複数の音素あるいは音節などからなる合成単位の音声素片を読み出し、それらを接続し上記生成した韻律情報を用いて合成音声を得るようにしている。

このような音声合成装置の一つの手法として、自然発話音声波形接続型音声合成方式という方法を適用した音声合成装置がある。これは、自然な音質を実現するために、大量の音声素片を直接波形として記憶しておき、目的の音声を生成するために最も適切な音声素片を選択し、信号処理を行なわずに直接接続して音声を合成する方法である。このような方法では、信号処理を行なわないため、目標となる基本周波数や継続時間長、すなわち韻律パラメータに最も近い音声素片を接続する必要があり、さらに、接続点での音質、すなわちスペクトル情報に不連続が生じないような音声素片を選択する必要がある。この素片選択として、目標となる韻律パラメータと音声素片の韻律パラメータの歪および素片接続点での音響パラメータの歪を適切な重み付けをして評価し、歪最小の音声素片を選択する方法が採用されている（例えば、特許文献１参照）。しかし、このような方法では、目標となる韻律パラメータに近い音声素片が予め存在していることが前提条件であり、そのためには予め大量の音声素片を準備しておくことが要求される。

一方、従来からの、音声素片の何らかの音響パラメータを記憶しておき、接続時には、目標の基本周波数および時間長となるように信号処理を行なう方法についても高品質化のための手法が提案されている。この方法の一例として、１周期分の波形を切り出しておき、その波形を時間軸上で再配置し、所望の基本周波数の合成音声を得ることが提案されており、代表例として、ＰＳＯＬＡ（Pitch Synchronized Overlap and Add：ピッチ同期波形重畳法）に基づく方法がある（例えば、特許文献２参照）。この方法は、高い品質の合成音声が得られるということから広く用いられているが、この方法においても、原音声の基本周波数を大幅に変更するとスペクトルが変形し、品質劣化につながるという問題がある。したがって、素片選択の方法としては、品質に対する寄与に違いがあるものの、品質の高い音声を得るためには、記憶されている複数の音声素片から、目標となる韻律パラメータ、と音声素片の韻律パラメータとの歪および接続点での歪を重み付き和などで総合的に評価し、歪最小となる音声素片を選択することが必要となる。

素片選択を行なう一般的な音声合成装置について説明する。テキスト解析で得られた言語情報から、各音声素片の時間長および基本周波数のパタンを生成し、これを目標韻律パラメータ（目標値）とする。目標韻律パラメータを言語情報に付与し韻律情報を得る。複数の音声素片の韻律パラメータおよび音声合成に必要な音響パラメータを予め記憶しておき、文を構成する音素や音節に対応する複数の音声素片を読み出し、目標韻律パラメータと音声素片の韻律パラメータから歪を求めるともに、それぞれの音声素片の組み合わせから音響パラメータの歪を求める。このときの歪の計算例を図１４に示す。この例では、パラメータ間（目標値と音声素片の値）の距離の総和が韻律パラメータの歪となる。音声素片の組み合わせに対して、それぞれ韻律パラメータの歪と音響パラメータの歪を求め、歪が最小となる音声素片の系列を求める。求めた音声素片の系列を接続し合成音声を生成する。

一方、素片選択の処理の方法として、言語情報から目標韻律パラメータ（目標値）を生成した際に、この目標韻律パラメータに、基本周波数に確率分布幅を持たせた帯状の許容範囲を持たせておく方法がある（例えば、特許文献３参照）。この場合、設定された目標韻律パラメータの許容範囲に対して音声素片を選択して割り当て、これら選択された音声素片に対して、許容範囲内で目標韻律パラメータ自体を近づけるように変化させて設定する。合成時に音声素片の基本周波数を大きく変動させた場合にはスペクトルの変形が起こり、品質が劣化するが、この方法を用いることにより、選択した音声素片の基本周波数の変化をなるべく小さくすることでイントネーションが不自然にならない範囲で音質劣化を軽減ができるというものである。

特開平１０−４９１９３号公報特開２００１−２８２２７８号公報特開２０００−１９４３９０号公報

従来の音声合成装置は、以上のような方法を用いて構成されているが、自然発話音声波形接続型音声合成方式であっても、ＰＳＯＬＡなどの信号処理を用いる方法でも、韻律歪と接続点の音響歪の総合評価により素片選択が行なわれている。しかし、このような方法では、韻律パラメータの歪計算が一様に評価される。例えば、図１５に示されるように、実線で与えられた目標値に対して、二つの音声素片系列があったとき、従来の歪の計算方法によれば、太線で示す音声素片系列１の韻律パラメータが、点線で示す音声素片系列２の系列の韻律パラメータよりも、目標値との歪が小さく、結果として選択されることとなる。このような方式で選択した音声素片を自然発話音声波形接続型の音声合成装置に適用すると、系列１では、概ね目標値と近いものの、第３音節で大きな相違を見せているため、日本語のアクセントの聴取にとり重要な基本周波数が低下するポイント、すなわちアクセント核が第２音節にあるように聴取される可能性がある。一方、系列２は、全体的には目標値との歪が大きいが、概形は類似しており、特に、基本周波数が急激に低下するポイントが第３音節にあるため、アクセント核の位置が誤って聴取される可能性は低い。このように、歪を一様に評価する方法では、品質上重要な歪とそうでない歪が区別されないという問題があった。

また、ＰＳＯＬＡなどの信号処理を用いる方法においては、生成される合成音声の韻律は、目標値どおりになるものの、韻律パラメータの変形による音響パラメータの変形あるいは音質の劣化は一様ではないことが知られており、韻律パラメータを一様に評価する場合、音響パラメータの変形や品質の劣化について最適なパラメータが得られないという問題があった。さらに、韻律パラメータ変形後の音響パラメータを実際に求めれば、この問題は解決できるが、複数の音声素片の候補についてすべての変形を計算する必要があり、計算量が莫大になるという問題があった。
また、特許文献３のように、設定した許容範囲内で目標韻律パラメータ自体を変化させる方法の場合、韻律の変形による音響パラメータの変形、音質の劣化が小さくできるというメリットはあるものの、影響が非一様であることへの対処はできず、また、合成音声の韻律が当初の目標値からずれることによる品質劣化が生じるという問題があった。

この発明は、上記の課題を解決するためになされたもので、合成音声の品質上重要な歪を重視した評価尺度を得るとともに、音声素片の組み合わせにより生じる歪の計算を軽減させる音声合成装置を得ることを目的とする。

この発明に係る音声合成装置は、入力される言語情報から合成音声の目標韻律パラメータを生成し、言語情報に付与して出力する韻律生成部と、韻律パラメータと音声生成に必要な音響パラメータの対からなる複数の音声素片を予め記憶しておく素片記憶部と、出力された目標韻律パラメータと言語情報に基づいて目標韻律パラメータの時刻毎にそれぞれ確率分布を算出する確率計算部と、言語情報に基づいて素片記憶部から対応する複数の音声素片を読み出し、合成音声を構成するすべての音声素片候補の組み合わせについて、確率分布に基づいて目標韻律パラメータに対する各音声素片の韻律パラメータの歪を確率重み歪として算出する確率重み歪計算部と、音声素片候補の組み合わせの中で算出された前記確率重み歪が最小となる素片系列を選択する素片選択部と、選択された素片系列を構成する音声素片の韻律パラメータと音響パラメータに基づいて合成音声を生成する音声生成部とを備えたものである。

この発明によれば、目標韻律パラメータに対して時間方向に不均一に特徴を与えることができる確率分布を持たせるので、確率分布が広い地点では、音声素片の韻律パラメータが目標値から離れていても距離値は小さく評価され、また、確率分布が狭いところでは、距離値が大きく評価でき、合成音声品質への寄与度を考慮した最適な音声素片の選択を可能とする効果がある。

実施の形態１．
図１はこの発明の実施の形態１による音声合成装置の構成を示すブロック図である。図において、韻律パラメータ生成部１０１は、前段から入力される言語情報１１１に基づいて合成音声の目標韻律パラメータ（目標値）を生成し、これを言語情報１１１に付与して韻律情報１１２として出力する手段である。素片記憶部１０２は、韻律パラメータと音声生成に必要な音響パラメータの対からなる複数の音声素片を予め記憶しておく手段である。音声素片は、音素や音節などの音声合成の単位ごとに人間の発声から抽出したデータであり、その中で韻律パラメータは、時刻毎の基本周波数、時間長、パワーに係わるパラメータである。なお、この実施の形態では、韻律パラメータとして基本周波数を用いた場合について説明するが、代りにパワーのパタンまたは時間長の構造を表すパラメータを適用することでも同様に発明を構成できるものである。一方、音響パラメータは各音声素片の時刻毎の音質すなわち音響的特徴を表すパラメータである。その表現方法としては多種多用あり、例えば、ＬＳＰ（ＬｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ）やメルケプストラム等の音声波形を分析して得られる特徴量、あるいはＰＳＯＬＡ方式では一定時間間隔で抽出された１周期波形で構成される。また、自然発話音声波形接続型方式では、素片の波形そのものが音響パラメータとなる。また、素片記憶部１０２には、接続時点での音響特徴の不連続性を歪に加えるために、音声素片の両端のスペクトルパラメータ、例えばケプストラムパラメータが記憶されている。

確率計算部２０２は、韻律情報１１２に含まれる目標韻律パラメータの各時刻に対してそれぞれ確率分布を算出し、その算出した確率分布を付与した確率付き目標韻律パラメータ２１１を出力する手段である。ここで、確率分布の算出ということは、図２（ａ）に例示する目標韻律パラメータ（目標値）のある時刻ｔ_１，ｔ_２に対してそれぞれ図２（ｂ）、（ｃ）に示すような分布曲線を与えるということである。この発明では、この分布曲線がそれぞれの時刻で非均一の分布を与えるようにすることで、種々の効果が得られるようにしている。確率重み歪計算部２０１は、入力された言語情報に基づいて、素片記憶部１０２から該当する複数の音声素片１１３を読み出し、素片組み合わせごとに、確率計算部２０２で算出された確率分布に基づいて目標韻律パラメータに対する各韻律パラメータの確率重み歪を算出すると共に、各音響パラメータの歪からなる総合歪１１４を算出する手段である。素片選択部１０４は、確率重み歪計算部２０１で算出された総合歪１１４が最小となる合成単位を選択し、素片系列１１５にして出力する手段である。音声生成部１０５は、素片選択部１０４で選択された素片系列１１５に基づいて合成音声１１６を生成する手段である。

次に音声合成装置の動作について説明する。なお、以下の説明では、韻律パラメータとして、基本周波数パタンを対象とする場合について説明する。
前段のテキスト入力装置（図示せず）から入力されたテキストは、テキスト解析部（図示せず）で解析され、文に対して、句境界、ｐａｕｓｅ挿入位置、音素記号で記述された句の読み、句のアクセント位置、句の言語的なカテゴリ、係り受けなどの句の関係が抽出される。これらの抽出データは言語情報１１１としてこの音声合成装置に入力される。韻律パラメータ生成部１０１では、この入力言語情報１１１に基づいて、入力文の基本周波数パタンを目標韻律パラメータ（目標値）として生成し、言語情報１１１に付与して韻律情報１１２として出力する。

確率計算部２０２では、韻律パラメータ生成部１０１で生成された目標韻律パラメータに対して、各時刻での韻律パラメータの生起確率が図３に例示するように算出される。算出された確率分布は目標韻律パラメータに付与され、確率付き目標韻律パラメータ２１１として確率重み歪計算部２０１に出力される。確率重み歪計算部２０１では、言語情報１１１に基づいて素片記憶部１０２から対応する音声素片を読み出し、読み出した複数の音声素片の各韻律パラメータについて目標韻律パラメータ（目標値）に対する歪を計算する。

韻律パラメータの歪は、例えば次のようにして算出される。
図４に示すように、音声素片（太線部分）を接続する場合を考える。ここで、ｎを時刻、ｉを音声素片の番号、Ｉを接続する素片数、ｉｋをｉ番目の素片についてのｋ番目の候補、ｉＫをｉ番目の素片についての候補数、Ｐｎ（ｆ）を時刻ｎの基本周波数ｆに対する確率分布、ｆ^ｉｋ _ｎを候補ｉｋの素片の時刻ｎに対応する周波数とする。この場合、候補ｉｋ（ｉ＝１，２，…，Ｉ）の音声素片の時刻ｎにおける目標値との距離値は、例えば−ｌｎ（Ｐｎ（ｆ^ｉｋ _ｎ））で表され、これが韻律パラメータの時刻ｎにおける歪となる。音声素片ごとにこの距離の時間方向の総和を求める。すなわち、韻律パラメータの総合歪Ｄｆ（ｉｋ）は、例えば（１）式で表される。この式の右辺が確率重み歪を表す。

一方、音響パラメータの歪としては、種々考えられるが、図５に示すように接続点の歪に着目した例がある。ここで、Ｃ^０ _ｉｋを候補ｉｋの音声素片における開始時刻の音響パラメータ、Ｃ^Ｌ _ｉｋを候補ｉｋの音声素片における終了時刻の音響パラメータ、ｄｃ（）を音響パラメータの距離値とする。この場合、音響パラメータの歪Ｄｓ（ｉｋ）はそれぞれの音声素片の接続時点での歪となり、（２）式で表される。

このようにして得られた音響パラメータの歪Ｄｓ（ｉｋ）と韻律パラメータの総合歪Ｄｆ（ｉｋ）に適当な重みｗｆ、ｗｓを付けることで、候補ｉｋの音声素片の総合歪Ｄ（ｉｋ）は（３）式のように定義される。
Ｄ（ｉｋ）＝ｗｆ・Ｄｆ（ｉｋ）＋ｗｓ・Ｄｓ（ｉｋ）（３）
以上のように、ある句を合成しようとしたときに、その音素系列に対応するすべての音声素片候補の組み合わせについて、組み合わせごとに総合歪Ｄ（ｉｋ）を、確率重み歪計算部２０１において算出することになる。

次に、素片選択部１０４では、求めた組み合わせの中で総合歪が最小となる素片系列１１５を選択する。最適な音声素片は、（３）式の歪を最小化する（４）式で表す候補ｉｋの組み合わせとなる。

ここで、音響パラメータの歪について考慮しないで、韻律パラメータの確率重み歪のみを用いて選択処理することもできるので、その場合には、（１）式の歪を最小化する候補ｉｋを選択することになり、総合歪は（５）式のようになる。

次に、音声生成部１０５では、このようにして選択された素片系列１１５を構成する音声素片の韻律パラメータと音響パラメータを接続して合成音声１１６を生成する。

図６から図９は、韻律パラメータの基本周波数についての確率分布のとり方に特徴を持たせた各例を示す説明図である。図６は、確率計算部２０２で、言語情報を基に音声素片の接続部分において確率分布を狭めるように生成した状態を示す。このように確率分布を設定することにより、自然発話音声波形接続型音声合成方式に適用した場合、基本周波数の連続性が高い音声素片を容易に選択できるようになる。
図７は、同様に自然発話音声波形接続型音声合成方式に適用する一例であるが、目標値を基に韻律パラメータの中で基本周波数の高い区間の終点付近、すなわちアクセント核の位置で確率分布を狭めるように生成した状態を示す。このように確率分布を設定することにより、誤ったアクセントに聞き間違える可能性の低い音声素片を選択できるようになる。

また、音声素片の音素の種類に応じて所定の確率分布を算出してもよく、例えば図８は、聴覚上重要な母音部分の確率分布を狭くするように生成した状態を示す。音声生成部１０５で、ＰＳＯＬＡなどの方法を用いて目標韻律パラメータの基本周波数に合わせて音声を合成する場合、基本周波数の変化が大きいと音質の劣化につながるが、図８のように確率分布を生成することで、母音部分での歪が少ない合成音声を得ることができる。
さらに、図９は、接続する場合に先行する音声素片の終端における韻律パラメータに応じて所定の確率分布を生成した状態を示している。このようにすることにより、自然発話音声波形接続型音声合成方式に適用した場合、接続点での不連続が小さくなり、かつ、目標韻律パラメータから大きくずれることのない音声素片を選択できるようになる。

以上のように、この実施の形態１によれば、確率計算部２０２により、目標韻律パラメータに対して時間方向に不均一することが可能な確率分布を算出して特徴を持たせるようにしたので、確率分布が広い地点では、目標韻律パラメータから音声素片の韻律パラメータが離れていても距離値は小さく評価され、また、確率分布が狭いところでは、距離値が大きく評価されるため、合成音声品質への寄与度を考慮した最適な音声素片の選択を可能とする効果が得られる。

実施の形態２．
上記実施の形態１では、目標韻律パラメータ（目標値）に最も近い韻律パラメータを有する音声素片を選択するために、韻律パラメータの目標値との相違を一様に評価するのではなく、確率重みを設定して、種々の品質と韻律の間に影響を及ぼす要因を考慮した評価を行なうようにしている。これに対し、この実施の形態２では、韻律パラメータの変形を行なうと、音響パラメータが変化してしまうので、韻律パラメータを変化させたときの音響パラメータ変化を考慮して、目標値に近くかつ変形が少ない最適な音声素片を選択できるようにする。
図１０はこの発明の実施の形態２による音声合成装置の構成を示すブロック図である。図において、図１に相当する部分には同一符号を付し、原則的にその説明を省略する。確率分布付き素片記憶部３０２は、確率分布付き韻律パラメータと確率分布付き音響パラメータの対からなる複数の音声素片を予め記憶している手段である。確率重み歪計算部３０１は、言語情報に基づいて確率分布付き素片記憶部３０２から対応する複数の音声素片を読み出し、合成音声を構成するすべての音声素片候補の組み合わせについて、読み出した音声素片の韻律パラメータに付いた確率分布に基づいて目標韻律パラメータに対する各音声素片の韻律パラメータの歪を確率重み歪として算出すると共に、読み出した音声素片の確率分布付き音響パラメータに基づいて各音声素片の音響パラメータの歪を算出し、総合歪１１４として素片選択部１０４に送出する手段である。

ここで、音響パラメータに予め与える確率分布について述べる。
図１１は合成時の音声素片の変形について示すが、例えばｉ番目の音声素片のある時刻の基本周波数を変形させたときの音響パラメータの変動（変形前との歪）を事前に観測する。変形による音響パラメータの歪と韻律パラメータの確率分布の関係を図１２に示すが、図１２（ａ）の音声素片では、基本周波数を変化させても、元の音響パラメータとの歪が大きくないので確率分布を広くとり、図１２（ｂ）の音声素片では、基本周波数の変化により元の音響パラメータとの歪が大きいので確率分布を狭くとっている状態を表している。つまり、図１２（ａ）の音声素片は変形に強いため、比較的広い周波数の変形を許すようにし、図１２（ｂ）の音声素片は変形に弱いため、分布を狭くして、変形が大きい場合、すなわち目標韻律パラメータと音声素片の韻律パラメータが遠い場合、歪が大きく評価され、結果的に選ばれにくくしている。さらに、このような場合には、上記（２）式で音響パラメータの歪を計算しようとしても、音響パラメータＣ^０ _ｉｋ、Ｃ^Ｌ _ｉｋ自体が変化してしまうので、それを歪に導入しなければならなくなる。そこで、例えば図１３（ａ）に示すように音響パラメータＣ^０ _ｉｋ、Ｃ^Ｌ _ｉｋの変形後のパラメータを、図１３（ｂ）のように確率分布として予め与えておく。このことにより変形後の音響パラメータの歪を確率的に求めることができる。毎回計算を行なう代りに、予め確率分布で与えておくようにすれば、処理を簡素化することができる。

次に、図１０の装置の動作について説明する。
韻律パラメータ生成部１０１から合成音声の目標韻律パラメータが言語情報１１１に付与された韻律情報１１２として確率重み歪計算部３０１に入力される。確率重み歪計算部３０１は、言語情報に基づいて、確率分布付き素片記憶部３０２から確率分布付き韻律パラメータと確率分布付き音響パラメータからなる複数の音声素片を読み出し、音声素片ごとに、韻律パラメータについて目標韻律パラメータに対する確率重み付き歪と、音響パラメータの歪を計算する。

確率重み歪計算部３０１における処理を一つの実現例として説明する。
ここで、Ｐ^ｉｋ _ｎをｉ番目の素片のｋ個目の素片候補の時刻ｎに対応する韻律パラメータの確率分布、ｆ＾_ｎを時刻ｎの目標韻律パラメータとすれば、目標韻律パラメータに対する韻律パラメータの総合歪Ｄ’ｆ（ｉｋ）は（６）式で表される。

また、Ｃ^〜０ _ｉｋ、Ｃ^〜Ｌ _ｉｋを確率分布付き音響パラメータとすると、音響パラメータの歪Ｄ’ｓ（ｉｋ）は、（７）式で表される。

以上のように、ある句を合成しようとしたときに、その音素系列に対応するすべての音声素片候補の組み合わせについて、組み合わせごとに（６）式と（７）式による総合歪を算出することになる。次に、素片選択部１０４では、求めた組み合わせの中で総合歪が最小となる素片系列１１５を選択する。この選択された素片系列１１５を構成する音声素片は、音声生成部１０５で接続され合成音声１１６として出力される。
なお、音響パラメータの歪について考慮しない場合には、確率分布付き素片記憶部３０２に記憶しておく音声素片の音響パラメータについては確率分布付きとせず、確率重み歪計算部３０１では、韻律パラメータについて確率重み付き歪だけを計算するようにしてもよい。

ここで、確率分布付き素片記憶部３０２に記憶しておく音声素片の韻律パラメータに付ける確率分布の設定例について述べる。例えばＰＳＯＬＡを用いる合成方式で、音声生成時に音声素片の基本周波数を変更したときのスペクトル歪を事前に計算しておき、これに基づいて確率分布を設定するようにする。このことにより、確率重み歪計算部３０１では、事後的なスペクトル歪を計算することができ、事後歪最小の音声素片を選択することができるようになる。また、他の方法として、韻律パラメータの確率分布を、素片接続時の歪の合成音声品質への寄与度に基づいて予め算出して設定するようにしてもよい。このことにより、合成音声品質の高い音声素片の選択が容易となる。

以上のように、この実施の形態２によれば、韻律パラメータの相違による品質への寄与を考慮することが可能となり、合成音声品質の高い音声素片の選択が可能となり、さらに歪が音質をよく表現するようになるために、組み合わせの評価の途中で、評価値の低い組み合わせを候補から排除することが容易になり、予め確率分布を与えておくことにより演算量を減少させることも可能とする効果が得られる。

この発明の実施の形態１による音声合成装置の構成を示すブロック図である。この発明の実施の形態１に係る目標韻律パラメータの確率分布の算出方法を示す説明図である。この発明の実施の形態１に係る韻律パラメータ生成部での韻律パラメータの生起確率について示す説明図である。この発明の実施の形態１に係る韻律パラメータの歪についての説明図である。この発明の実施の形態１に係る音響パラメータの歪についての説明図である。この発明の実施の形態１に係る基本周波数についての確率分布の例を示す説明図である。この発明の実施の形態１に係る基本周波数についての確率分布設定の他の例を示す説明図である。この発明の実施の形態１に係る基本周波数についての確率分布設定の他の例を示す説明図である。この発明の実施の形態１に係る基本周波数についての確率分布の他の例を示す説明図である。この発明の実施の形態２による音声合成装置の構成を示すブロック図である。この発明の実施の形態２に係る合成時の音声素片の変形について示す説明図である。この発明の実施の形態２に係る変形による音響パラメータの歪と韻律パラメータの確率分布の関係を示す説明図である。この発明の実施の形態２に係る音響パラメータの歪と変形の確率分布について示す説明図である。従来の音声合成装置のパラメータの歪の計算例を示す説明図である。従来の音声合成装置の動作上の問題点を示す説明図である。

符号の説明

１０１韻律パラメータ生成部、１０２素片記憶部、１０４素片選択部、１０５音声生成部、２０１，３０１確率重み歪計算部、２０２確率計算部、３０２確率分布付き素片記憶部。

Claims

入力される言語情報から合成音声の目標韻律パラメータを生成し、前記言語情報に付与して出力する韻律生成部と、
韻律パラメータと音声生成に必要な音響パラメータの対からなる複数の音声素片を予め記憶しておく素片記憶部と、
出力された前記目標韻律パラメータと言語情報に基づいて前記目標韻律パラメータの時刻毎にそれぞれ確率分布を算出する確率計算部と、
前記言語情報に基づいて前記素片記憶部から対応する複数の音声素片を読み出し、合成音声を構成するすべての音声素片候補の組み合わせについて、前記確率分布に基づいて前記目標韻律パラメータに対する各音声素片の韻律パラメータの歪を確率重み歪として算出する確率重み歪計算部と、
前記音声素片候補の組み合わせの中で算出された前記確率重み歪が最小となる素片系列を選択する素片選択部と、
選択された素片系列を構成する音声素片の韻律パラメータと音響パラメータに基づいて合成音声を生成する音声生成部とを備えた音声合成装置。
確率重み歪計算部は、各音声素片の音響パラメータの歪を算出し、
素片選択部は、韻律パラメータの確率重み歪と前記音響パラメータの歪からなる総合歪が最小となる素片系列を選択するようにしたことを特徴とする請求項１記載の音声合成装置。
確率計算部は、目標韻律パラメータと言語情報に基づいて前記目標韻律パラメータ上で、歪が合成音声品質に与える影響が大きいところでは、狭い確率分布を算出することを特徴とする請求項１または請求項２記載の音声合成装置。
確率計算部は、音声素片の接続部分に相当する時刻に応じて確率分布を算出することを特徴とする請求項１または請求項２記載の音声合成装置。
確率計算部は、基本周波数のアクセント核の位置に応じて確率分布を算出することを特徴とする請求項１または請求項２記載の音声合成装置。
確率計算部は、音声素片の音素の種類に応じて確率分布を算出することを特徴とする請求項１または請求項２記載の音声合成装置。
確率計算部が、先行する音声素片の終端の韻律パラメータに応じて所定の確率分布を形成するよう確率分布を算出することを特徴とする請求項１または請求項２記載の音声合成装置。
入力される言語情報から合成音声の目標韻律パラメータを生成し、前記言語情報に付与して出力する韻律生成部と、
予め算出した確率分布を付与した韻律パラメータと音響パラメータの対からなる複数の音声素片を記憶しておく確率分布付き素片記憶部と、
前記言語情報に基づいて前記確率分布付き素片記憶部から対応する音声素片を読み出し、合成音声を構成するすべての音声素片候補の組み合わせについて、読み出した音声素片の韻律パラメータに付いた確率分布に基づいて目標韻律パラメータに対する各音声素片の韻律パラメータの歪を確率重み歪として算出する確率重み歪計算部と、
前記音声素片候補の組み合わせの中で前記確率重み歪が最小となる素片系列を選択する素片選択部と、
選択された素片系列を構成する音声素片の韻律パラメータと音響パラメータに基づいて合成音声を生成する音声生成部とを備えた音声合成装置。
確率分布付き素片記憶部は、音響パラメータに予め算出した確率分布を付与した複数の音声素片を記憶しており、
確率重み歪計算部は、読み出した音声素片の確率分布付き音響パラメータに基づいて各音響パラメータの歪を算出し、
素片選択部は、韻律パラメータの確率重み歪と前記音響パラメータの歪からなる総合歪が最小となる素片系列を選択するようにしたことを特徴とする請求項８記載の音声合成装置。
確率分布付き素片記憶部に記憶されている韻律パラメータの確率分布が、音声生成時に音声素片の基本周波数を変化させることで生じる歪に基づいて予め計算され設定されたものであることを特徴とする請求項８または請求項９記載の音声合成装置。
確率分布付き素片記憶部に記憶されている音響パラメータの確率分布が、素片接続時の歪の合成音声品質への寄与度に基づいて予め算出されたものであることを特徴とする請求項１０記載の音声合成装置。