JP2008299266A - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法 Download PDF

Info

Publication number
JP2008299266A
JP2008299266A JP2007148226A JP2007148226A JP2008299266A JP 2008299266 A JP2008299266 A JP 2008299266A JP 2007148226 A JP2007148226 A JP 2007148226A JP 2007148226 A JP2007148226 A JP 2007148226A JP 2008299266 A JP2008299266 A JP 2008299266A
Authority
JP
Japan
Prior art keywords
speech
search range
setting
connection point
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007148226A
Other languages
English (en)
Inventor
Takahiro Otsuka
貴弘 大塚
Satoshi Furuta
訓 古田
Tadashi Yamaura
正 山浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007148226A priority Critical patent/JP2008299266A/ja
Publication of JP2008299266A publication Critical patent/JP2008299266A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】従来の音声合成装置では、音声素片の接続時刻設定が接続する音声素片間の歪みをもとに設定しているため、韻律生成処理で生成される韻律情報によって制御されるF0の制御の影響が全く考慮されず接続時刻が必ずしも適当ではなかった。
【解決手段】入力テキストの音韻記号・韻律情報に基づいて、選択された音声素片を時間軸方向に伸縮する時間軸伸縮手段と、伸縮された音声素片の接続点の探索範囲を設定する探索範囲設定手段と、設定探索範囲内に音声素片の接続点を韻律情報に基づいて設定する接続点設定手段と、設定接続点で音声素片を接続し前記韻律情報にしたがい音声信号を生成する音声生成手段を備えることで、F0歪みを小さくでき、高品質な合成音声を得る。
【選択図】図1

Description

この発明は、任意の文章から人工的に音声信号を作り出す音声合成装置および音声合成方法に関するものである。
任意の文章から人工的に音声信号を作り出すテキスト音声合成では、入力テキストに対して言語解析処理、韻律生成処理を行って得られる音韻記号や韻律情報(声の高さ、音韻継続時間長など)の情報から音声信号を生成する。今後、声の高さを表す情報を記号F0で表す。その音声生成処理は、母音V、子音をCで表したCV,CVC,VCV,といった基本となる小さな単位の特徴パラメータを音声素片として記憶しておき、これらを指定された音韻記号にしたがって選択的に読み出した後、その音韻記号に対応する韻律情報に従ってF0や音韻継続時間長を制御して、設定された接続時刻で接続することにより、音声合成するというものである。
従来の音声合成装置では、音声素片の接続時刻を決定する際に、両音声素片間の時間対応を、動的計画法を用いて決定し、この対応において音声素片間の歪みが最小となる位置を接続時刻としている。
特開平11−259091号公報
従来の音声素片の接続時刻設定方法では、接続する音声素片間の歪みをもとに、設定しているに過ぎないため、韻律生成処理で生成される韻律情報によって制御されるF0の制御の影響が全く考慮されていない問題がある。すなわち、実際にF0を制御して合成された合成音声の品質という点では、従来の音声素片間の歪みに基づく接続時刻は必ずしも適当なものになっているという保証はない。
この発明は、上記のような問題を解決するためになされたもので、テキスト音声合成による合成音声の音質を効果的に向上させることができる音声素片の接続時刻の設定方法を提供することを目的とする。
この発明に係る音声合成装置は、
入力テキストの音韻記号に基づいて、選択された音声素片を時間軸方向に伸縮する時間軸伸縮手段と、
この時間軸伸縮手段で伸縮された音声素片の接続点の探索範囲を設定する探索範囲設定手段と、
この探索範囲設定手段で設定された探索範囲内に音声素片の接続点を入力テキストの韻律情報に基づいて設定する接続点設定手段と、
この接続点設定手段で設定された接続点で音声素片を接続し前記韻律情報にしたがい音声信号を生成する音声生成手段を備える。
この発明の音声合成装置によれば、入力テキストの音韻記号に基づいて、選択された音声素片の時間軸を伸縮する時間軸伸縮手段と、音声素片の接続時刻の探索範囲を設定する探索範囲設定手段と、音声素片の接続時刻を入力テキストの韻律情報に基づいて設定する接続時刻設定手段と、音声素片から前記韻律情報にしたがい音声信号を生成する音声生成手段を備えたことによって、F0歪みを小さくすることができ、高品質な合成音声を得る効果がある。
また、音声の基本周期ごとに得られた音声波形を、音韻記号・韻律情報のF0に従い配置して、音声を生成するような音声生成方式では、総F0歪みが大きいと配置前と後との変化量が大きく品質の劣化がおおきくなる問題があるが、この発明の音声合成装置によれば総F0歪みを小さくできるので、音質の劣化を防ぎ高品質な合成音声を得ることができる。
実施の形態1.
図1は、この発明の実施の形態1による音声合成装置を示す構成図である。
図1において、音声合成装置1は、入力された音韻記号・韻律情報100に基づいて、
合成音声200を生成し、出力する。
音声合成装置1は、音声素片辞書2、時間軸伸縮手段3,探索範囲設定手段4,接続時刻設定手段5,音声生成手段6を備えている。
音声素片辞書2は、音韻ラベルが付与された多数の音声素片が格納されており、入力された音韻記号・韻律情報100に基づいて音声素片を選択し出力する。時間軸伸縮手段3は、入力された音韻記号・韻律情報100に基づいて、音声素片辞書2から出力された音声素片の時間軸を伸縮し、伸縮した音声素片を出力する。探索範囲設定手段4は、時間軸伸縮手段3から出力された音声素片に、接続時刻の探索範囲を設定し、探索範囲情報を付与した音声素片を出力する。接続時刻設定手段5は、設定した探索範囲において、入力された音韻記号・韻律情報100に基づいて、音声素片の接続時刻を設定し、接続時刻情報を付与した音声素片を出力する。音声生成手段6は、入力された音韻記号・韻律情報100に基づいて、接続時刻設定手段5から出力された音声素片を、設定された位置で順次接続して合成音声200を生成する。
次に、実施の形態1の動作について説明する。
図2は、実施の形態1による音声合成装置の動作の流れを示すフローチャートである。
本実施の形態において、音声合成装置1に入力される音韻記号・韻律情報100は、例えば、音韻記号、F0、音韻継続時間長、パワーなどの情報であり、テキスト音声合成ための入力テキストに対して言語解析処理、韻律生成処理を行って得られたものである。音声合成装置1には、入力テキストから得られた複数の音韻記号・韻律情報100が順次入力される。
上記のような音韻記号・韻律情報100が音声合成装置1に入力されると、音声素片辞書2は、入力された音韻記号・韻律情報100のうち少なくとも音韻記号の情報に従って音声素片を選択し、この選択した音声素片を時間軸伸縮手段3に出力する(ステップS1)。
次に時間軸伸縮手段3は、入力された先行する音声素片及び後続する音声素片の時間長が、音韻記号・韻律情報100の音素継続時間長と一致するように、値の間引き、補間などをして、音声素片のF0の時間軸を伸縮する。(ステップS2)。
例えば、図3のように、先行の音声素片のF0 301を時間伸縮し、先行の音声素片F0 301を伸縮後のF0に示す先行の音声素片の伸縮後のF0 302のよう変形する。また、後続の音声素片のF0 304を時間伸縮し、伸縮後のF0に示す後続の音声素片の伸縮後のF0 303のように変形する。
ここで、後の説明のために、先行の音声素片の伸縮後のF0302は、F0f(i),i=s,…,eで定義し、後続の音声素片のF0 303はF0b(i),i=s,…,eで定義する。ここで時刻iは、音素の区間[s,e]の間の値をとる。
次に、探索範囲設定手段4は、接続時刻を設定するときに探索する範囲を設定して、この設定範囲を付与した音声素片を接続時刻設定手段5に出力する。(ステップS3)
探索範囲設定手段4における探索範囲設定方法は、例えば、図4に示すように音素区間[s,e]の内側に、探索区間[m,n] 401を設定する。
次に、接続時刻設定手段5は、入力された音声素片の接続時刻を設定して、この設定された音声素片を音声生成手段6に出力する(ステップS4)。
接続時刻設定手段5における接続時刻設定方法は、例えば、次式(1)に示すような、総F0歪みC(i) (i=m,…,n)を算出し、これが最小となる時刻iを接続時刻pと設定する。
Figure 2008299266
ここで、Cf(i) は時刻iでの先行音声素片の累積F0歪みであり、例えば次式(2)で定義される。
Figure 2008299266
また、式(1)におけるCb(i)は、時刻iでの後続音声素片の累積F0歪みであり、例えば次式(3)で定義される。
Figure 2008299266
式(2)、(3)において、F0t(i)は、音韻記号・韻律情報100のF0を表している。
ここで図5を用いて、接続時刻設定方法を説明する。式(1)の総F0歪みは504で表され、式(2)の先行音声素片の累積F0歪みは、505で表され、式(3)の後続音声素片の累積F0歪みは、506で表されている。式(2)、(3)中のF0t(j)は502で表され、式(2)中のF0f(j)は503で表され、式(3)中のF0b(j)は、501で表される。接続時刻pは、507で表され、総F0歪み504のもっとも小さくなる時刻である。
次に、音声生成手段6は、入力された音韻記号・韻律情報100に従って、少なくとも音声素片のF0を制御し、制御して得られた音声素片を設定された接続時刻で順次、接続・合成する(ステップS5)。
以上のステップS1からS5の処理を、入力テキストから得られた複数の音韻記号・韻律情報100が終了するまで繰り返して音声を生成し(ステップS6)、この音声を合成音声200として出力する。
以上のように、実施の形態1の音声合成装置によれば、音声素片の時間軸を伸縮する時間軸伸縮手段3と、音声素片の接続時刻の探索範囲を設定する探索範囲設定手段4と、音声素片の接続時刻を韻律情報に基づいて設定する接続時刻設定手段5と、音声素片から前記韻律情報にしたがい音声信号を生成する音声生成手段6を備えたことによって、F0歪みを小さくすることができ、高品質な合成音声を得る効果がある。
また、音声の基本周期ごとに得られた音声波形を、音韻記号・韻律情報100のF0に従い配置して、音声を生成するような音声生成方式では、総F0歪みが大きいと配置前と後との変化量が大きく品質の劣化がおおきくなる問題があるが、実施の形態1の音声合成装置によれば総F0歪みを小さくできるので、音質の劣化を防ぎ高品質な合成音声を得ることができる。
実施の形態2.
実施の形態1では、式(2)、(3)のような、F0の差の絶対値の累積和で定義したが、これに代えて、F0の差の絶対値のn乗値(nは2以上)の累積和を用いてもよい。
このようにすることで、総F0歪みへの影響が、相対的に、小さなF0の差は小さくなり、大きなF0の差は大きくなるので、合成音声の大きな劣化を防ぎ、高品質な合成音声を得ることができる。
実施の形態3.
実施の形態1の探索範囲設定手段では、接続時刻の探索範囲を音素区間の内側など適当な範囲を決めているが、これに代えて、例えば次式(4)に示すような音響歪みの1つである波形歪みDw(i)を求めて、これが設定する閾値θ以下となる区間(i|D(i)<θ)を求め、この範囲を接続時刻の探索範囲としてもよい。ここで、Wf(i)は、時間伸縮された先行の音声素片の時刻i(i=n,…,m)における、音声波形を表すベクトルである。Wb(i)は、時間伸縮された後続の音声素片の時刻iにおける、音声波形を表すベクトルである。
Figure 2008299266
式(4)では、2つの音声波形を表すベクトルの差のユークリッドノルムとしたが、種々の公知の距離関数を用いてもよい。
このように構成することにより、波形歪みを小さく押さえたまま、総F0歪みを小さくできるので、合成音声の品質を向上させることができる。
実施の形態4.
実施の形態3では、式(4)に従って、波形歪みを計算しているが、これに代えて、例えば次式(5)に示すように、音響歪みの一つであるスペクトル歪みDs(i)を計算してもよい。式(5)で、Sf(i)とSb(i)は、先行する音声素片と後続する音声素片のそれぞれの音声信号のスペクトルを表していて、時刻i(i=n,…,m)における各周波数成分をベクトルで表している。
Figure 2008299266
式(5)では、2つのスペクトルを表すベクトルの差のユークリッドノルムとしたが、種々の公知の距離関数を用いてもよい。
このように構成することにより、スペクトル歪みを小さく押さえたまま、総F0歪みを小さくできるので、合成音声の品質を向上させることができる。
実施の形態5.
実施の形態1では、音韻記号・韻律情報100のF0(声の高さ)を用いて、その時間軸を伸縮し、音声素片のF0との歪みが最小となるような接続時刻を求めていたが、
これに代えて、音韻記号・韻律情報100のパワー(声の大きさ)を用いて、その時間軸を伸縮し、音声素片のパワーとの歪みが最小となる接続時刻を求めてもよい。このように構成することで、パワーの歪みが小さくなるので、合成音声の劣化を防ぎ、高品質な合成音声を得ることができる。
この発明の音声合成装置は、カーナビゲータ、携帯電話機、デジタルテレビなどの機器に搭載され、これらの機器における音声読み上げ機能の実行を可能とする。
この発明の実施の形態1による音声合成装置を示す構成図である。 音声合成装置の動作の流れを示すフローチャートである。 音声素片の時間伸縮と時間伸縮後の音声素片変形例の説明図である。 探索範囲設定手段における探索範囲設定方法の説明図である。 接続時刻設定方法の説明図である。
符号の説明
1;音声合成装置、2;音声素片辞書、3;時間軸伸縮手段、4;探索範囲設定手段、5;接続時刻設定手段、6;音声生成手段。

Claims (4)

  1. 入力テキストの音韻記号に基づいて、選択された音声素片を時間軸方向に伸縮する時間軸伸縮手段と、
    この時間軸伸縮手段で伸縮された音声素片の接続点の探索範囲を設定する探索範囲設定手段と、
    この探索範囲設定手段で設定された探索範囲内に音声素片の接続点を入力テキストの韻律情報に基づいて設定する接続点設定手段と、
    この接続点設定手段で設定された接続点で音声素片を接続し前記韻律情報にしたがい音声信号を生成する音声生成手段を、備えたことを特徴とする音声合成装置。
  2. 上記の探索範囲設定手段は、音声素片間の音響歪み情報に基づいて探索する範囲を設定することを特徴とする請求項1記載の音声合成装置。
  3. 入力テキストの音韻記号に基づいて、選択された音声素片を時間軸方向に伸縮する素片伸縮工程と、
    この伸縮した音声素片の接続点の探索範囲を設定する探索範囲設定工程と、
    この探索範囲内に音声素片の接続点を入力テキストの韻律情報に基づいて設定する接続点設定工程と、
    この接続点で音声素片を接続し前記韻律情報にしたがい音声信号を生成する音声生成工程を、備えたことを特徴とする音声合成方法。
  4. 上記の探索範囲設定工程は、音声素片間の音響歪み情報に基づいて探索する範囲を設定することを特徴とする請求項3記載の音声合成方法。
JP2007148226A 2007-06-04 2007-06-04 音声合成装置および音声合成方法 Pending JP2008299266A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007148226A JP2008299266A (ja) 2007-06-04 2007-06-04 音声合成装置および音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007148226A JP2008299266A (ja) 2007-06-04 2007-06-04 音声合成装置および音声合成方法

Publications (1)

Publication Number Publication Date
JP2008299266A true JP2008299266A (ja) 2008-12-11

Family

ID=40172807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007148226A Pending JP2008299266A (ja) 2007-06-04 2007-06-04 音声合成装置および音声合成方法

Country Status (1)

Country Link
JP (1) JP2008299266A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517605A (zh) * 2014-12-04 2015-04-15 北京云知声信息技术有限公司 一种用于语音合成的语音片段拼接系统和方法
CN113593522A (zh) * 2021-06-28 2021-11-02 北京天行汇通信息技术有限公司 一种语音数据标注方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517605A (zh) * 2014-12-04 2015-04-15 北京云知声信息技术有限公司 一种用于语音合成的语音片段拼接系统和方法
CN104517605B (zh) * 2014-12-04 2017-11-28 北京云知声信息技术有限公司 一种用于语音合成的语音片段拼接系统和方法
CN113593522A (zh) * 2021-06-28 2021-11-02 北京天行汇通信息技术有限公司 一种语音数据标注方法和装置
CN113593522B (zh) * 2021-06-28 2023-08-18 北京天行汇通信息技术有限公司 一种语音数据标注方法和装置

Similar Documents

Publication Publication Date Title
JP3563772B2 (ja) 音声合成方法及び装置並びに音声合成制御方法及び装置
JP4469883B2 (ja) 音声合成方法及びその装置
JP6024191B2 (ja) 音声合成装置および音声合成方法
WO2005109399A1 (ja) 音声合成装置および方法
JP2005164749A (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP6638944B2 (ja) 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
EP2530672B1 (en) Apparatus and program for synthesising a voice signal
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JPH08254993A (ja) 音声合成装置
JP2003337592A (ja) 音声合成方法及び音声合成装置及び音声合成プログラム
JP2001109500A (ja) 音声合成装置および方法
JP2009133890A (ja) 音声合成装置及びその方法
JP2008299266A (ja) 音声合成装置および音声合成方法
JPH0247700A (ja) 音声合成方法および装置
JP2612867B2 (ja) 音声ピッチ変換方法
JP3601974B2 (ja) 音声合成装置及び音声合成方法
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
WO2013011634A1 (ja) 波形処理装置、波形処理方法および波形処理プログラム
JP2007011042A (ja) 韻律生成装置及び音声合成装置
JP4056319B2 (ja) 音声合成方法
JP3394281B2 (ja) 音声合成方式および規則合成装置
JP4869898B2 (ja) 音声合成装置及び音声合成方法