JP2007279219A - 音声ピッチマーク設定装置、音声合成装置、音声ピッチマーク設定方法及び音声合成方法 - Google Patents
音声ピッチマーク設定装置、音声合成装置、音声ピッチマーク設定方法及び音声合成方法 Download PDFInfo
- Publication number
- JP2007279219A JP2007279219A JP2006103189A JP2006103189A JP2007279219A JP 2007279219 A JP2007279219 A JP 2007279219A JP 2006103189 A JP2006103189 A JP 2006103189A JP 2006103189 A JP2006103189 A JP 2006103189A JP 2007279219 A JP2007279219 A JP 2007279219A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- pitch mark
- unit
- pitch
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
【課題】 テキスト音声合成による合成音声の音質を効果的に向上させることができる音声ピッチマーク設定装置及び音声ピッチマーク設定方法を提供すると共に、当該音声ピッチマーク設定装置及び音声ピッチマーク設定方法を用いた音声合成装置及び音声合成方法を提供する。
【解決手段】 音声素片に対して複数組設定されたピッチマーク候補を用いて、トレーニング音声素片の変形パラメータ値に従って上記音声素片の変形パラメータ値を制御して、上記複数組のピッチマーク候補に対応する複数の合成音声素片を生成し、当該複数の合成音声素片のそれぞれの歪を評価し、当該評価結果に基づいて、ピッチマークを設定する。
【選択図】 図2
【解決手段】 音声素片に対して複数組設定されたピッチマーク候補を用いて、トレーニング音声素片の変形パラメータ値に従って上記音声素片の変形パラメータ値を制御して、上記複数組のピッチマーク候補に対応する複数の合成音声素片を生成し、当該複数の合成音声素片のそれぞれの歪を評価し、当該評価結果に基づいて、ピッチマークを設定する。
【選択図】 図2
Description
この発明は、音声素片における音声波形のピッチ周期に対応する1周期毎の時間的基準位置を表現する情報であるピッチマークを設定する音声ピッチマーク設定装置及び音声ピッチマーク設定方法と、上記ピッチマークが設定された音声素片を用いて合成音声を生成する音声合成装置及び音声合成方法に関するものである。
任意の文章から人工的に音声信号を作り出すテキスト音声合成では、入力テキストに対して言語解析処理、韻律生成処理を行って得られる音韻記号・韻律情報(音韻記号とピッチとの対、音韻記号と音韻継続時間長との対など)などの情報から音声信号を生成する。
その音声生成処理は、母音をV、子音をCで表した、CV、CVC、VCVといった基本となる小さな単位の特徴パラメータを音声素片として記憶しておき、これらを指定された音韻記号に従って選択的に読み出した後、その音韻記号に対応する韻律情報に従ってピッチや音韻継続時間長を制御して順次接続することにより、音声を合成するというものである。
このような音声生成処理において、音声素片のピッチや音韻継続時間長を制御する際に、音声素片における音声波形のピッチ周期に対応する1周期毎の時間的基準位置を表現する情報として、あらかじめ設定されたピッチマークを用いる。音声素片のピッチマークの設定が不適当であると合成音声のピッチ制御や音韻継続時間長の制御における品質劣化が生じるため、ピッチマークの設定は、合成音声の品質を大きく左右する。
従来の音声ピッチマーク設定方法では、音声素片の音声波形形状に基づいて、その音声素片のピッチマークを設定していた(例えば、特許文献1、2参照)。
従来の音声ピッチマーク設定方法では、音声波形形状に基づいて音声素片のピッチマークを設定しているにすぎないため、音声合成の際のピッチ制御や音韻継続時間長制御の影響が全く考慮されていないという問題があった。すなわち、実際にピッチや音韻継続時間長を変更して合成された合成音声の品質と言う点では、従来の音声波形形状に基づくピッチマークは必ずしも適当なものになっているという保証はない。
また、有声子音など波形形状が不安定な区間では、波形形状に基づき得られるピッチマークも不安定になり、合成音声品質が劣化するという問題があった。
また、有声子音など波形形状が不安定な区間では、波形形状に基づき得られるピッチマークも不安定になり、合成音声品質が劣化するという問題があった。
この発明は上記のような問題点を解決するためになされたもので、テキスト音声合成による合成音声の音質を効果的に向上させることができる音声ピッチマーク設定装置及び音声ピッチマーク設定方法を提供すると共に、当該音声ピッチマーク設定装置及び音声ピッチマーク設定方法を用いた音声合成装置及び音声合成方法を提供することを目的とする。
この発明に係る音声ピッチマーク設定装置及び音声ピッチマーク設定方法は、音声素片に対して複数組設定されたピッチマーク候補を用いて、トレーニング音声素片の変形パラメータ値に従って上記音声素片の変形パラメータ値を制御して、上記複数組のピッチマーク候補に対応する複数の合成音声素片を生成し、当該複数の合成音声素片のそれぞれの歪を評価し、当該評価結果に基づいて、ピッチマークを設定するようにしたものである。
また、この発明に係る音声合成装置及び音声合成方法は、複数組設定されたピッチマーク候補を用いて、トレーニング音声素片の変形パラメータ値に従って変形パラメータ値が制御されて上記複数組のピッチマーク候補に対応する複数の合成音声素片が生成され、当該複数の合成音声素片のそれぞれの歪の評価結果に基づいて、ピッチマークが設定された音声素片が格納された音声素片辞書から、音韻記号・韻律情報に基づいて、音声素片を抽出すると共に、当該抽出した音声素片に設定されたピッチマークを用いて当該抽出した音声素片の変形パラメータ値を制御して合成音声を生成するようにしたものである。
この発明によれば、合成音声の品質劣化が少ないピッチマークを設定することができる効果がある。また、合成音声の音質を向上させることができる効果がある。
実施の形態1.
図1は、この発明の実施の形態1による音声合成装置及び音声ピッチマーク設定装置の構成を示す構成図である。
図1は、この発明の実施の形態1による音声合成装置及び音声ピッチマーク設定装置の構成を示す構成図である。
図において、音声合成装置1は、入力された音韻記号・韻律情報100に基づいて、合成音声200を生成する。音声ピッチマーク設定装置2は、トレーニング音声素片300を用いて、上記音声合成装置1に格納される音声素片に対して事前にピッチマークを設定するものであり、実際にテキスト音声合成を行う場合に動作するのは音声合成装置1である。
上記音声合成装置1は、音声素片辞書3、音声生成手段4を備えており、音声素片辞書3は、上記音声ピッチマーク設定装置2によってピッチマークが設定された多数の音声素片が格納されている。音声生成手段4は、入力された音韻記号・韻律情報100に基づいて、音声素片辞書3から音声素片を抽出すると共に、当該抽出した音声素片に設定されたピッチマークを用いて当該抽出した音声素片の変形パラメータ値を制御して合成音声200を生成する。
図2は、この発明の実施の形態1による音声ピッチマーク設定装置の構成を示す構成図である。
図において、ピッチマーク候補設定手段5は、入力音声素片400に対してピッチマークの候補を複数組設定する。音声素片抽出手段6は、入力音声素片400のピッチマーク設定に対してトレーニング対象となるトレーニング音声素片をトレーニング音声素片300から抽出する。合成音声素片生成手段7は、上記ピッチマーク候補設定手段5によって入力音声素片400に対して複数組設定されたピッチマーク候補を用いて、上記音声素片抽出手段6によって抽出されたトレーニング音声素片の変形パラメータ値に従って上記入力音声素片の変形パラメータ値を制御して、上記複数組のピッチマーク候補に対応する複数の合成音声素片を生成する。歪評価手段8は、上記複数の合成音声素片のそれぞれの歪を評価し、当該評価結果に基づいて、ピッチマークを設定する。本実施の形態では、歪評価手段8は、上記合成音声素片生成手段7で生成された複数の合成音声素片のそれぞれの、上記音声素片抽出手段6によって抽出された上記トレーニング音声素片との距離を用いて、上記合成音声素片生成手段7で生成された複数の合成音声素片のそれぞれの上記トレーニング音声素片に対する歪を評価し、当該評価結果に基づいて、上記複数組のピッチマーク候補のいずれかを上記音声素片のピッチマークとして設定する。
次に、実施の形態1の動作について説明する。
まず、音声素片辞書3の生成方法及び音声ピッチマーク設定装置の動作について説明する。図3は、音声ピッチマーク設定装置の動作の流れを示すフローチャートである。
まず、音声素片辞書3の生成方法及び音声ピッチマーク設定装置の動作について説明する。図3は、音声ピッチマーク設定装置の動作の流れを示すフローチャートである。
本実施の形態においては、音声ピッチマーク設定装置の入力音声素片として、例えば、連続発声された音声データに対して音韻毎に音韻環境等のラベリングを行い、CV、CVC、VCVなどの合成単位に従って切り出した音声素片を用いる。また、音声ピッチマーク設定装置2に入力されるトレーニング音声素片300も同様の方法により多数作成した音声素片を用いる。ここで、音韻環境とは、当該音韻記号、先々行/先行/後続/後々続などの各音韻記号、アクセント核からの位置、息継ぎからの時間、声の高さ/大きさ、発話速度、強調の有無、感情など、当該音声素片にとっての環境となる要因全ての組合せである。
まず、上記のように作成した入力音声素片を多数用意し、順次、音声ピッチマーク設定装置2に入力する。音声ピッチマーク設定装置2は、入力音声素片が入力されると、ピッチマーク候補設定手段5が入力された1つの入力音声素片400に対してピッチマークの候補を複数組設定し(ステップS1)、このピッチマーク候補を設定した入力音声素片400を合成音声素片生成手段7に出力する。
図4は、複数組のピッチマーク候補を示す説明図である。ピッチマーク候補設定手段5は、例えば、図4に示すように、複数組のピッチマーク候補Pi(i=1,2,3,…,NP)を設定する。ただし、NPはピッチマーク候補の組数を表す。ここで、ピッチマーク候補は、例えば従来の波形形状に基づくピッチマーク設定方法を複数用いてそれぞれ求めたものとするなど、適宜設定してよい。
また、音声素片抽出手段6が、上記入力された入力音声素片400のピッチマーク設定に対してトレーニング対象となるトレーニング音声素片をトレーニング音声素片300から抽出し(ステップS2)、合成音声素片生成手段7および歪評価手段8に出力する。例えば、音声素片抽出手段6は、ラベリングされた情報に基づいて、入力音声素片400と同一音韻のトレーニング音声素片Tj(j=1,2,3,…,NT)のみを抽出する。ただし、NTは抽出されたトレーニング音声素片数である。
次に、合成音声素片生成手段7が、上記ピッチマーク候補設定手段5によって入力音声素片400に対して複数組設定されたピッチマーク候補を用いて、上記音声素片抽出手段6によって抽出されたトレーニング音声素片の変形パラメータ値に従って上記入力音声素片400の変形パラメータ値を制御して、上記複数組のピッチマーク候補に対応する複数の合成音声素片を生成する(ステップS3)。ここで変形パラメータは、音声素片を変形させるパラメータであり、音声素片のピッチ、音韻継続時間長及びパワー等である。本実施の形態では、これらの変形パラメータの少なくとも一つの値を制御して合成音声素片を生成する。例えば、パラメータ値がトレーニング音声素片のパラメータ値と等しくなるように上記入力音声素片400のパラメータ値を制御して合成音声素片を生成する。また、ここでの変形パラメータ値(ピッチ等)の変更は、音声生成手段4における変形パラメータ値の変更と同様の方法で行われるものとする。
例えば、全てのピッチマーク候補Pi(i=1,2,3,…,NP)を用いて、トレーニング音声素片Tj(j=1,2,3,…,NT)の変形パラメータ値と等しくなるように入力音声素片400の変形パラメータ値を制御した合成音声素片を生成することにより、NP×NT個の合成音声素片Gij(i=1,2,3,…,NP、j=1,2,3,…,NT)が生成される。その後、合成音声素片生成手段7は、この合成音声素片Gijを歪評価手段8に出力する。
次に、歪評価手段8が、上記合成音声素片生成手段7によって生成された複数の合成音声素片のそれぞれの、上記音声素片抽出手段6によって抽出されたトレーニング音声素片との距離を用いて、上記複数の合成音声素片のそれぞれの上記トレーニング音声素片に対する歪を評価し、当該評価結果に基づいて、上記複数組のピッチマーク候補のいずれかを上記入力音声素片400のピッチマークとして設定する(ステップS4)。
まず、歪評価手段8は、上記合成音声素片生成手段7で生成された合成音声素片Gijの歪eijの評価を行う。この歪eijは、例えば、上記複数の合成音声素片のそれぞれの上記トレーニング音声素片に対する歪である。また、この歪eijの評価は、合成音声素片Gijと音声素片抽出手段6から入力されたトレーニング音声素片Tjとの間の距離を用いる。距離尺度には、例えば波形間の距離やスペクトル間の距離を用いることができる。次に、歪eijに基づいて、ピッチマーク候補Pi(i=1,2,3,…,NP)の中から入力音声素片400に適するピッチマーク候補Piを選択し、ピッチマーク500として出力する。このピッチマーク500が入力音声素片のピッチマークとして設定され、音声素片辞書3に格納される。
上記ピッチマーク選択基準としては、例えばピッチマーク候補Piを用いたときに生成される合成音声素片Gijとトレーニング音声素片Tjとの距離を用いて求められる合成音声素片Gijの歪eijの総和を表す評価関数ESiを次式(1)のように定義し、このESiが最小となるピッチマーク候補Piを入力音声素片400に適するピッチマークとする。
この選択基準を用いることにより、音声素片のピッチ等の変形パラメータ値を変更(制御)した場合の歪が平均的に小さく、平均的に合成音声の品質が良好となるピッチマークが得られるという効果がある。
また、別のピッチマーク選択基準として、例えばピッチマーク候補Piを用いたときに生成される合成音声素片Gijとトレーニング音声素片Tjとの距離を用いて求められる合成音声素片Gijの歪の最大値を表す評価関数EMiを次式(2)のように定義し、この評価関数EMiが最小となるピッチマーク候補Piを入力音声素片400に適するピッチマークとしても良い。
ただし、max(ei1,ei2,ei3,…,eiNT)はei1,ei2,ei3,…,eiNTの中の最大値を表す関数である。この選択基準を用いることにより、音声素片のピッチや継続時間長を変更した場合の歪の最大値が小さく、局所的に大きく劣化することなく良好な品質の合成音となるピッチマークが得られるという効果がある。
尚、ピッチマーク選択基準に用いる距離尺度は上記したものに限らず、音声素片のピッチや継続時間長等の変形パラメータ値を変更したときの歪量を表すものとして適宜定義することも当然可能である。
また、本実施の形態におけるピッチマーク設定装置は、音声合成の対象言語を問わず、ピッチマークを用いる任意の音声合成装置に適用することが当然可能である。
以上のように、入力音声素片を多数用意し、順次、音声ピッチマーク設定装置2に入力してピッチマークを設定し、音声素片辞書3に格納する。これにより、音声素片辞書3は、音声ピッチマーク設定装置2によってピッチマークが設定された音声素片が多数格納される。
次に、テキスト音声合成を行う音声合成装置1の動作について説明する。本実施の形態の音声合成装置の基本動作は、従来の音声合成装置と同様である。図5は、音声合成装置の動作の流れを示すフローチャートである。
本実施の形態において、音声生成手段4に入力される音韻記号・韻律情報100は、音声素片の変形パラメータ値を含む、例えば、音韻記号とピッチとの対、音韻記号と音韻継続時間長との対、音韻記号とパワーとの対、音韻記号と韻律環境との対などの情報であり、例えば、テキスト音声合成のための入力テキストに対して言語解析処理、韻律生成処理を行って得られたものである。音声合成装置1には、入力テキストから得られた複数の音韻記号・韻律情報100が順次入力される。
上記のような音韻記号・韻律情報100が音声合成装置1に入力されると、音声生成手段4は、入力された音韻記号・韻律情報100に従って音声素片辞書3から音声素片を読み出す(ステップS11)。例えば、音声素片辞書3に格納された音声素片にラベリングされた情報に基づいて、入力された音韻記号・韻律情報100で指定された音韻記号、音韻環境等に対応する音声素片を読み出す。
次に、音声生成手段4は、入力された音韻記号・韻律情報100の変形パラメータ値に従って、上記読み出した音声素片の変形パラメータ値を制御する(ステップS12)。本実施の形態では、変形パラメータの少なくとも一つの値を制御して合成音声素片を生成する。例えば、パラメータ値が入力された音韻記号・韻律情報100の変形パラメータと等しくなるように上記読み出した音声素片のパラメータ値を制御して合成音声素片を生成する。また、ここでの変形パラメータ値(ピッチ等)の変更は、合成音声素片生成手段7における変形パラメータ値の変更と同様の方法で行われるものとする。
そして、音声素片のパラメータ値を制御した音声素片を順次接続する(ステップS13)。以上のステップS11からステップS13の処理を、入力テキストから得られた複数の音韻記号・韻律情報100が終了するまで繰り返して音声を生成し(ステップS14)、この音声を合成音声200として出力する。なお、上記ステップS13の音声素片を順次接続する処理については、実際には、2つ目の音声素片の処理以降(音声素片のパラメータ値を制御した音声素片が存在する場合のみ)行われることになる。
以上のように、実施の形態1のピッチマーク設定装置によれば、対象となる入力音声素片に対して設定された複数組のピッチマーク候補を用いて入力音声素片の変形パラメータ値をトレーニング音声素片の変形パラメータ値に従って変更して、上記複数組のピッチマーク候補に対応する複数の合成音声素片を生成し、上記複数の合成音声素片のそれぞれの上記トレーニング音声素片との距離を用いて、上記複数の合成音声素片のそれぞれの歪を評価し、当該評価結果に基づいてピッチマークを設定するようにして、合成音声素片に基づいてピッチマークを設定するため、合成の際のピッチ制御や継続時間長制御等の変形パラメータ制御の影響を反映してピッチマークを選択できるので、合成音声の品質劣化が少ないピッチマークを設定することができる。
また、実施の形態1のピッチマーク設定装置によれば、合成音声素片とトレーニング音声素片との間の音声信号の領域の距離尺度を用いてピッチマークを設定するため、特に、音声信号の領域における合成音声の品質劣化が少ないピッチマークを設定することができる。
また、実施の形態1の音声合成装置によれば、ピッチ制御や継続時間長制御等の変形パラメータ制御の影響を反映したピッチマークを設定した音声素片を多数格納する音声素片辞書を用いて合成音声を生成するため、ピッチ制御や継続時間長制御等の変形パラメータ制御による合成音声の品質劣化を少なくすることができるので、合成音声の音質を向上させることができる。
実施の形態2.
実施の形態1では、合成音声素片とトレーニング音声素片との間の音声信号の領域の距離尺度を用いてピッチマークを設定するものであるが、次に、聴覚的に重要な部分に重み付けされた距離尺度を用いてピッチマークを設定する実施形態を示す。
実施の形態1では、合成音声素片とトレーニング音声素片との間の音声信号の領域の距離尺度を用いてピッチマークを設定するものであるが、次に、聴覚的に重要な部分に重み付けされた距離尺度を用いてピッチマークを設定する実施形態を示す。
図6は、この発明の実施の形態2による音声ピッチマーク設定装置の構成を示す構成図である。図において、前述の図と同一又は相当部分に同一符号を付して、説明を省略する。
線形予測分析手段9は、合成音声素片生成手段7で生成された合成音声素片に対して線形予測分析する。聴覚重み付け手段10は、上記線形予測分析手段9の線形予測分析結果を用いて、合成音声素片生成手段7で生成された合成音声素片に対して聴覚的に重要な部分に重み付けをする。線形予測分析手段11は、音声素片抽出手段6で抽出されたトレーニング音声素片に対して線形予測分析する。聴覚重み付け手段12は、上記線形予測分析手段11の線形予測分析結果を用いて、音声素片抽出手段6で抽出されたトレーニング音声素片に対して聴覚的に重要な部分に重み付けをする。
なお、本実施の形態において、歪評価手段8は、トレーニング音声素片と合成音声素片生成手段7で生成された複数の合成音声素片とのそれぞれの距離として、聴覚的に重要な部分に重み付けされた上記距離を用いる。そして当該距離を用いて、複数の合成音声素片のそれぞれの上記トレーニング音声素片に対する歪を評価し、当該評価結果に基づいて、複数組のピッチマーク候補のいずれかを上記音声素片のピッチマークとして設定するように構成されており、歪評価手段8は、上記聴覚重み付け手段12で重み付けされたトレーニング音声素片と上記聴覚重み付け手段10で重み付けされた複数の合成音声素片とのそれぞれの距離を用いて、複数の合成音声素片のそれぞれの上記トレーニング音声素片に対する歪を評価し、当該評価結果に基づいて、複数組のピッチマーク候補のいずれかを上記音声素片のピッチマークとして設定するように構成されている。
次に、実施の形態2の動作について説明する。
なお、本実施の形態の動作として特徴的な部分のみを説明することとし、前述の実施の形態1と同様に動作する部分の説明を省略する。
なお、本実施の形態の動作として特徴的な部分のみを説明することとし、前述の実施の形態1と同様に動作する部分の説明を省略する。
まず、実施の形態1と同様に、ピッチマーク候補設定手段5が入力された1つの入力音声素片400に対してピッチマークの候補を複数組設定し、このピッチマーク候補Pi(i=1,2,3,…,NP)を設定した入力音声素片400を合成音声素片生成手段7に出力する。
そして、音声素片抽出手段6が、トレーニング音声素片300から、例えば、入力音声素片400と同一音韻のトレーニング音声素片Tj(j=1,2,3,…,NT)のみを抽出し、本実施の形態では、合成音声素片生成手段7、線形予測分析手段11および聴覚重み付け手段12に出力する。
合成音声素片生成手段7は、実施の形態1と同様に、トレーニング音声素片の変形パラメータ値に従って上記入力音声素片400の変形パラメータ値を制御して、上記複数組のピッチマーク候補に対応する複数の合成音声素片Gij(i=1,2,3,…,NP、j=1,2,3,…,NT)を生成する。そして、この合成音声素片Gijを線形予測分析手段9および聴覚重み付け手段10に出力する。
次に、線形予測分析手段9は、合成音声素片Gijに対して線形予測分析を行い、分析して求められた線形予測係数を聴覚重み付け手段10に出力する。聴覚重み付け手段10は、線形予測分析手段9より入力された線形予測係数を用いた聴覚重み付けフィルタ処理により、合成音声素片生成手段7より入力された合成音声素片Gijに対して聴覚的に重要な部分を強調した合成音声素片を作成し、この合成音声素片を歪評価手段8に出力する。
また、線形予測分析手段11は、トレーニング音声素片Tjの個々の音声素片に対して線形予測分析を行い、分析して求められた線形予測係数を聴覚重み付け手段12に出力する。聴覚重み付け手段12は、線形予測分析手段11より入力された線形予測係数を用いた聴覚重み付けフィルタ処理により、トレーニング音声素片Tjの個々の音声素片に対して聴覚的に重要な部分を強調したトレーニング音声素片を作成し、このトレーニング音声素片を歪評価手段8に出力する。
次に、歪評価手段8は、上記聴覚重み付け手段12によって聴覚重み付けされたトレーニング音声素片と、上記聴覚重み付け手段10によって聴覚重み付けされた複数の合成音声素片とのそれぞれの距離を用いて、聴覚重み付けされた複数の合成音声素片の歪の評価を行う。この歪は、例えば、上記聴覚重み付けされた複数の合成音声素片のそれぞれの上記聴覚重み付けされたトレーニング音声素片に対する歪である。ここで、距離尺度には、例えば波形間の距離やスペクトル間の距離を用いることができる。そして、この歪に基づいてピッチマーク候補Piの中から入力音声素片400に適するピッチマークを選択し、ピッチマーク500として出力する。
以上のように、実施の形態2のピッチマーク設定装置によれば、聴覚重み付け手段を設け、合成音声素片とトレーニング音声素片との間の距離尺度について、聴覚的に重要な部分に重み付けした距離を用いるようにしたので、合成の際のピッチ制御や継続時間長制御等の聴覚上の品質を含む変形パラメータ制御の影響を反映してピッチマークを選択でき、合成音声の聴覚上の品質劣化が少ないピッチマークを設定することができる。
また、実施の形態2の音声合成装置によれば、ピッチ制御や継続時間長制御等の聴覚上の品質を含む変形パラメータ制御の影響を反映したピッチマークを設定した音声素片を多数格納する音声素片辞書を用いて合成音声を生成するため、ピッチ制御や継続時間長制御等の変形パラメータ制御による合成音声の聴覚上の品質劣化を少なくすることができるので、合成音声の音質を向上させることができる。
尚、本実施の形態では、線形予測分析手段9と線形予測分析手段11とを別々に備えているが、これに代えて、これら2つの手段を共有して1つの手段として構成しても良い。同様に、聴覚重み付け手段10と聴覚重み付け手段12とを共有して1つの手段として構成しても良い。このように構成することにより、小さい装置規模でも同様の効果を得ることが可能となる。
また、本実施の形態では、音声素片に対して聴覚重み付け処理を行った後、聴覚重み付けを行った音声素片間の波形間距離やスペクトル間距離を評価してピッチマークを設定しているが、これに代えて、音声素片間の波形間差信号やスペクトル間差信号に対して聴覚重み付け処理を行い、この聴覚重み付けを行った差信号を評価することによりピッチマークを設定するようにしても良い。このように構成することにより、2つの信号に対して行っていた聴覚重み付け処理を1つの信号に対してのみ行うことになるので、少ない処理量でも同様の効果を得ることが可能となる。
また、本実施の形態では、聴覚的に重要な部分を強調するために線形予測分析に基づく聴覚重み付け処理を用いているが、これに限らず、スペクトルを操作するなど他の同様な任意の方法によって聴覚的に重要な部分を強調することも当然可能である。
さらに、本実施の形態では、周波数軸上において聴覚的に重要な部分を強調する聴覚重み付け処理を用いているが、これに代えて、例えば、音韻の了解性に重要と考えられる子音から母音への過渡部に重みを付ける、あるいは、音質への影響が大きい信号パワーの大きい部分に重みを付ける、逆に、歪が聴こえやすい信号パワーの小さい部分に重みを付ける等、時間軸上において聴覚的に重要な部分を強調する重み付け処理を用いても良い。このように構成することにより、時間軸上で聴覚的に重要な部分での歪が小さいピッチマークを選択することが可能となる。
尚、上記周波数軸上の聴覚重み付けと時間軸上の聴覚重み付けは、それぞれを個別に用いるだけでなく、両者を同時に用いるようにしても良い。このように構成することにより、それぞれの個別の効果を合わせた効果が得られ、周波数軸上並びに時間軸上で聴覚的に重要な部分での歪が小さいピッチマークを選択することが可能となる。
実施の形態3.
上記実施の形態1、2では、合成音声素片とトレーニング音声素片との間の音声信号あるいは聴覚重み付けした音声信号の領域での距離尺度を用いてピッチマークを設定するものであるが、次に、音声信号の声道特性を排除して得られる音源信号の領域での距離尺度を用いてピッチマークを設定する実施形態を示す。
上記実施の形態1、2では、合成音声素片とトレーニング音声素片との間の音声信号あるいは聴覚重み付けした音声信号の領域での距離尺度を用いてピッチマークを設定するものであるが、次に、音声信号の声道特性を排除して得られる音源信号の領域での距離尺度を用いてピッチマークを設定する実施形態を示す。
図7は、この発明の実施の形態3による音声ピッチマーク設定装置の構成を示す構成図である。図において、前述の図と同一又は相当部分に同一符号を付して、説明を省略する。
予測残差信号生成手段13は、合成音声素片から声道特性を排除した信号を生成する声道特性排除手段であり、ここでは、合成音声素片から声道特性を排除した信号として、合成音声素片の線形予測残差信号を生成する。予測残差信号生成手段14は、トレーニング音声素片から声道特性を排除した信号を生成する声道特性排除手段であり、ここでは、トレーニング音声素片から声道特性を排除した信号として、トレーニング音声素片の線形予測残差信号を生成する。
なお、本実施の形態において、歪評価手段8は、トレーニング音声素片と合成音声素片生成手段7で生成された複数の合成音声素片とのそれぞれの距離として、声道特性を排除された上記距離を用いる。そして、当該距離を用いて、複数の合成音声素片のそれぞれの上記トレーニング音声素片に対する歪を評価し、当該評価結果に基づいて、複数組のピッチマーク候補のいずれかを上記音声素片のピッチマークとして設定するように構成されており、歪評価手段8は、上記予測残差信号生成手段14で声道特性を除去されたトレーニング音声素片と上記予測残差信号生成手段13で声道特性を除去された複数の合成音声素片とのそれぞれの距離を用いて、複数の合成音声素片のそれぞれの上記トレーニング音声素片に対する歪を評価し、当該評価結果に基づいて、複数組のピッチマーク候補のいずれかを上記音声素片のピッチマークとして設定するように構成されている。
次に、実施の形態3の動作について説明する。
なお、本実施の形態の動作として特徴的な部分のみを説明することとし、前述の実施の形態1と同様に動作する部分の説明を省略する。
なお、本実施の形態の動作として特徴的な部分のみを説明することとし、前述の実施の形態1と同様に動作する部分の説明を省略する。
まず、実施の形態1と同様に、ピッチマーク候補設定手段5が入力された1つの入力音声素片400に対してピッチマークの候補を複数組設定し、このピッチマーク候補Pi(i=1,2,3,…,NP)を設定した入力音声素片400を合成音声素片生成手段7に出力する。
そして、音声素片抽出手段6が、トレーニング音声素片300から、例えば、入力音声素片400と同一音韻のトレーニング音声素片Tj(j=1,2,3,…,NT)のみを抽出し、本実施の形態では、合成音声素片生成手段7、線形予測分析手段11および聴覚重み付け手段12に出力する。
合成音声素片生成手段7は、実施の形態1と同様に、トレーニング音声素片の変形パラメータ値に従って上記入力音声素片400の変形パラメータ値を制御して、上記複数組のピッチマーク候補に対応する複数の合成音声素片Gij(i=1,2,3,…,NP、j=1,2,3,…,NT)を生成する。そして、この合成音声素片Gijを線形予測分析手段9および予測残差信号生成手段13に出力する。
次に、線形予測分析手段9は、合成音声素片Gijに対して線形予測分析を行い、分析して求められた線形予測係数を予測残差信号生成手段13に出力する。予測残差信号生成手段13は、線形予測分析手段9より入力された線形予測係数を用いて、合成音声素片生成手段7より入力された合成音声素片Gijに対して声道特性を排除した線形予測残差信号を生成し、この線形予測残差信号とした合成音声素片を歪評価手段8に出力する。
また、線形予測分析手段11は、トレーニング音声素片Tjの個々の音声素片に対して線形予測分析を行い、分析して求められた線形予測係数を予測残差信号生成手段14に出力する。予測残差信号生成手段14は、線形予測分析手段11より入力された線形予測係数を用いて、トレーニング音声素片Tiの個々の音声素片に対して声道特性を排除した線形予測残差信号を生成し、この線形予測残差信号としたトレーニング音声素片を歪評価手段8に出力する。
次に、歪評価手段8は、予測残差信号生成14によって声道特性を排除し、線形予測残差信号としたトレーニング音声素片と、予測残差信号生成13によって声道特性を排除し、線形予測残差信号とした複数の合成音声素片とのそれぞれの距離を用いて、声道特性を排除された複数の合成音声素片の歪の評価を行う。この歪は、例えば、上記声道特性を排除された複数の合成音声素片のそれぞれの上記声道特性を排除されたトレーニング音声素片に対する歪である。ここで、距離尺度には、例えば波形間の距離やスペクトル間の距離を用いることができる。そして、この歪に基づいてピッチマーク候補Piの中から入力音声素片400に適するピッチマークを選択し、ピッチマーク500として出力する。
以上のように、実施の形態3のピッチマーク設定装置によれば、予測残差信号生成手段を設け、合成音声とトレーニング音声素片との間の距離尺度について、声道特性を排除した音源信号に基づく距離を用いるようにしたので、特に音源信号と声道特性とを分離して制御する音声合成方式に適用する際に、合成の際のピッチ制御や継続時間長制御等の変形パラメータ制御の影響を反映してピッチマークを選択でき、合成音声の品質劣化が少ないピッチマークを設定することができる。
また、実施の形態3の音声合成装置によれば、特に音源信号と声道特性とを分離して制御する音声合成方式に適用する際に、合成の際のピッチ制御や継続時間長制御等の変形パラメータ制御の影響を反映したピッチマークを設定した音声素片を多数格納する音声素片辞書を用いて合成音声を生成するため、ピッチ制御や継続時間長制御等の変形パラメータ制御による合成音声の品質劣化を少なくすることができるので、合成音声の音質を向上させることができる。
尚、本実施の形態では、線形予測分析手段9と線形予測分析手段11とを別々に備えているが、これに代えて、これら2つの手段を共有して1つの手段として構成しても良い。同様に、予測残差信号生成手段13と予測残差信号生成手段14とを共有して1つの手段として構成しても良い。このように構成することにより、小さい装置規模でも同様の効果を得ることが可能となる。
また、本実施の形態では、音声信号の声道特性を排除した音源信号の生成を線形予測分析に基づく処理により行っているが、これに限らず、他の同様な任意の方法によって音源信号を生成することも当然可能である。
実施の形態4.
上記実施の形態1から実施の形態3では、ピッチマーク設定装置のピッチマーク候補設定手段5において、ピッチマーク候補を波形形状に基づくピッチマーク設定方法を用いて求めているが、これに代えて、ピッチマーク候補になりうる全ての位置の組合せをピッチマーク候補としても良い。このように構成することにより、波形形状が不安定な有声子音などにおいても、波形形状の影響を受けない最適なピッチマークを設定することが可能となる。
上記実施の形態1から実施の形態3では、ピッチマーク設定装置のピッチマーク候補設定手段5において、ピッチマーク候補を波形形状に基づくピッチマーク設定方法を用いて求めているが、これに代えて、ピッチマーク候補になりうる全ての位置の組合せをピッチマーク候補としても良い。このように構成することにより、波形形状が不安定な有声子音などにおいても、波形形状の影響を受けない最適なピッチマークを設定することが可能となる。
さらに、上記のようにピッチマーク候補になりうる全ての位置の組合せをピッチマーク候補としてピッチマークを設定した音声素片を多数格納する音声素片辞書を備えた音声合成装置は、合成音声のピッチ制御や継続時間長の制御における品質劣化が少なく、また、有声子音など波形形状が不安定な区間でも品質劣化の少ない、品質の高い合成音声を生成することができる。
実施の形態5.
上記実施の形態4では、ピッチマーク候補設定手段5において、ピッチマーク候補になりうる全ての位置の組合せをピッチマーク候補としているが、これに代えて、例えば波形形状に基づくピッチマーク設定方法により求めたピッチマークとこの近傍数サンプルの範囲に限りピッチマーク候補になりうる全ての位置の組合せをピッチマーク候補とするなど、ピッチマーク候補になりうる位置を最終的にピッチマークとなる可能性が高い範囲に絞った後に、その全ての位置の組合せをピッチマーク候補としても良い。このように構成することにより、全ての位置の組合せをピッチマーク候補とする場合に比較して、少ない演算量で同等の効果を得ることが可能となる。
上記実施の形態4では、ピッチマーク候補設定手段5において、ピッチマーク候補になりうる全ての位置の組合せをピッチマーク候補としているが、これに代えて、例えば波形形状に基づくピッチマーク設定方法により求めたピッチマークとこの近傍数サンプルの範囲に限りピッチマーク候補になりうる全ての位置の組合せをピッチマーク候補とするなど、ピッチマーク候補になりうる位置を最終的にピッチマークとなる可能性が高い範囲に絞った後に、その全ての位置の組合せをピッチマーク候補としても良い。このように構成することにより、全ての位置の組合せをピッチマーク候補とする場合に比較して、少ない演算量で同等の効果を得ることが可能となる。
実施の形態6.
上記実施の形態1から実施の形態5では、入力音声素片400およびトレーニング音声素片300は連続発声された音声データを切り出したものを用いているが、これに代えて、連続発声された音声データを切り出した後、音声素片パワーを正規化する、あるいはピッチ波形毎にパワー正規化する、またはパワーではなく波形最大振幅で正規化するなど、何らかの正規化処理を施した音声素片を用いるとしても良い。このように構成することにより、収録環境や発話様態など様々な要因の影響による音声素片の変動を排除することができるので、より安定的なピッチマークを設定することが可能となる。
上記実施の形態1から実施の形態5では、入力音声素片400およびトレーニング音声素片300は連続発声された音声データを切り出したものを用いているが、これに代えて、連続発声された音声データを切り出した後、音声素片パワーを正規化する、あるいはピッチ波形毎にパワー正規化する、またはパワーではなく波形最大振幅で正規化するなど、何らかの正規化処理を施した音声素片を用いるとしても良い。このように構成することにより、収録環境や発話様態など様々な要因の影響による音声素片の変動を排除することができるので、より安定的なピッチマークを設定することが可能となる。
また、以上説明した各実施の形態におけるピッチマーク設定装置は、音声合成の対象言語を問わず、ピッチマークを用いる任意の音声合成装置に適用することが当然可能である。
1 音声合成装置、2 音声ピッチマーク設定装置、3 音声素片辞書、4 音声生成手段、5 ピッチマーク候補設定手段、6 音声素片抽出手段、7 合成音声素片生成手段、8 歪評価手段、9、11 線形予測分析手段、10、12 聴覚重み付け手段、13、14 予測残差信号生成手段、100 音韻記号・韻律情報、200 合成音声、300トレーニング音声素片、400 入力音声素片、500 ピッチマーク。
Claims (7)
- 音声素片に対して複数組設定されたピッチマーク候補を用いて、トレーニング音声素片の変形パラメータ値に従って上記音声素片の変形パラメータ値を制御して、上記複数組のピッチマーク候補に対応する複数の合成音声素片を生成する合成音声素片生成手段と、
上記合成音声素片生成手段で生成された複数の合成音声素片のそれぞれの歪を評価し、当該評価結果に基づいて、ピッチマークを設定する歪み評価手段と
を備えたことを特徴とする音声ピッチマーク設定装置。 - 上記歪み評価手段は、上記合成音声素片生成手段で生成された複数の合成音声素片のそれぞれの上記トレーニング音声素片との距離を用いて、上記複数の合成音声素片のそれぞれの歪を評価することを特徴とする請求項1に記載の音声ピッチマーク設定装置。
- 上記距離は、聴覚的に重要な部分に重み付けされた距離であることを特徴とする請求項2に記載の音声ピッチマーク設定装置。
- 上記距離は、声道特性を排除された距離であることを特徴とする請求項2に記載の音声ピッチマーク設定装置。
- 複数組設定されたピッチマーク候補を用いて、トレーニング音声素片の変形パラメータ値に従って変形パラメータ値が制御されて上記複数組のピッチマーク候補に対応する複数の合成音声素片が生成され、当該複数の合成音声素片のそれぞれの歪の評価結果に基づいて、ピッチマークが設定された音声素片が格納された音声素片辞書と、
入力された音韻記号・韻律情報に基づいて、上記音声素片辞書から音声素片を抽出すると共に、当該抽出した音声素片に設定されたピッチマークを用いて当該抽出した音声素片の変形パラメータ値を制御して合成音声を生成する音声生成手段と
を備えたことを特徴とする音声合成装置。 - 音声素片に対して複数組設定されたピッチマーク候補を用いて、トレーニング音声素片の変形パラメータ値に従って上記音声素片の変形パラメータ値を制御して、上記複数組のピッチマーク候補に対応する複数の合成音声素片を生成する合成音声素片生成ステップと、
上記合成音声素片生成手段で生成された複数の合成音声素片のそれぞれの歪を評価し、当該評価結果に基づいて、ピッチマークを設定する歪み評価ステップと
を有することを特徴とする音声ピッチマーク設定方法。 - 複数組設定されたピッチマーク候補を用いて、トレーニング音声素片の変形パラメータ値に従って変形パラメータ値が制御されて上記複数組のピッチマーク候補に対応する複数の合成音声素片が生成され、当該複数の合成音声素片のそれぞれの歪の評価結果に基づいて、ピッチマークが設定された音声素片が格納された音声素片辞書から、音韻記号・韻律情報に基づいて、音声素片を抽出すると共に、当該抽出した音声素片に設定されたピッチマークを用いて当該抽出した音声素片の変形パラメータ値を制御して合成音声を生成することを特徴とする音声合成方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006103189A JP2007279219A (ja) | 2006-04-04 | 2006-04-04 | 音声ピッチマーク設定装置、音声合成装置、音声ピッチマーク設定方法及び音声合成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006103189A JP2007279219A (ja) | 2006-04-04 | 2006-04-04 | 音声ピッチマーク設定装置、音声合成装置、音声ピッチマーク設定方法及び音声合成方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2007279219A true JP2007279219A (ja) | 2007-10-25 |
Family
ID=38680755
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006103189A Pending JP2007279219A (ja) | 2006-04-04 | 2006-04-04 | 音声ピッチマーク設定装置、音声合成装置、音声ピッチマーク設定方法及び音声合成方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2007279219A (ja) |
-
2006
- 2006-04-04 JP JP2006103189A patent/JP2007279219A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP4078571B1 (en) | A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system | |
| US8195464B2 (en) | Speech processing apparatus and program | |
| US20060259303A1 (en) | Systems and methods for pitch smoothing for text-to-speech synthesis | |
| JPH031200A (ja) | 規則型音声合成装置 | |
| CN101369423A (zh) | 语音合成方法和装置 | |
| CN101131818A (zh) | 语音合成装置与方法 | |
| JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
| WO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
| Muralishankar et al. | Modification of pitch using DCT in the source domain | |
| JP3281266B2 (ja) | 音声合成方法及び装置 | |
| JP2904279B2 (ja) | 音声合成方法および装置 | |
| JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
| WO2012160767A1 (ja) | 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム | |
| JP2003208188A (ja) | 日本語テキスト音声合成方法 | |
| Rao | Unconstrained pitch contour modification using instants of significant excitation | |
| Valentini-Botinhao et al. | Intelligibility of time-compressed synthetic speech: Compression method and speaking style | |
| Raghavendra et al. | Speech synthesis using artificial neural networks | |
| JP2013033103A (ja) | 声質変換装置および声質変換方法 | |
| JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
| JP5245962B2 (ja) | 音声合成装置、音声合成方法、プログラム及び記録媒体 | |
| JP2007279219A (ja) | 音声ピッチマーク設定装置、音声合成装置、音声ピッチマーク設定方法及び音声合成方法 | |
| Salor et al. | Dynamic programming approach to voice transformation | |
| JP2005091747A (ja) | 音声合成装置 | |
| JP4684770B2 (ja) | 韻律生成装置及び音声合成装置 | |
| EP1589524B1 (en) | Method and device for speech synthesis |
