JP4869898B2 - 音声合成装置及び音声合成方法 - Google Patents
音声合成装置及び音声合成方法 Download PDFInfo
- Publication number
- JP4869898B2 JP4869898B2 JP2006332027A JP2006332027A JP4869898B2 JP 4869898 B2 JP4869898 B2 JP 4869898B2 JP 2006332027 A JP2006332027 A JP 2006332027A JP 2006332027 A JP2006332027 A JP 2006332027A JP 4869898 B2 JP4869898 B2 JP 4869898B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- pitch
- speech unit
- corrected
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Telephone Function (AREA)
Description
その音声生成処理は、母音をV、子音をCで表した、CV、CVC、VCVといった基本となる小さな単位の特徴パラメータを音声素片として記憶しておき、これらを指定された音韻記号に従って選択的に読み出した後、その音韻記号に対応する韻律情報に従ってピッチや音韻継続時間長を制御して順次接続することにより、音声を合成するというものである。
従来の音声合成装置では、韻律生成処理を行って得られる韻律情報に従って生成される合成音声のピッチマークに、音声素片のあらかじめ設定されたピッチマークを合わせることにより、音声素片のピッチや音韻継続時間長の制御及び音声素片の接続を行っていた。(例えば、非特許文献1)。
音声素片における音声波形のピッチ周期に対応する1周期毎の時間的基準位置を表現するピッチマークが設定され、音韻記号・韻律情報が対応付けされた多数の音声素片が格納され、音声合成のため、入力テキストから得られた音韻記号が順次入力され、その音韻記号に基づいて対応する音声素片を順次出力する音声素片辞書と、
音声素片辞書から順次入力される、任意の位置の音声素片のピッチマークを元にこの音声素片に接続される音声素片のピッチマークを補正して、その補正された音声素片のピッチ波形と、音声素片のピッチマークの補正に用いた音声素片のピッチ波形の距離で補正結果を評価する処理を音声素片辞書から順次入力される複数の異なる位置の音声素片に対して行い、補正後の評価結果が最も良好な評価値による補正後の音声素片を基準音声素片とする決定をし、この決定された基準音声素片のピッチマークを元にして、基準音声素片に接続される音声素片のピッチマークを補正し、次いで、この基準音声素片に接続される音声素片の補正されたピッチマークを元にして、この補正されたピッチマークの音声素片に接続される音声素片のピッチマークを補正する処理を順次行うピッチマーク補正手段と、
音声合成のため、入力テキストから得られ、入力された韻律情報に基づいて、上記ピッチマーク補正手段で補正されたピッチマークを用いて音声素片を順次接続して合成音声を生成する音声生成手段とを備える。
音声合成のため、入力テキストから得られ、順次入力される音韻記号に基づいて、音声素片における音声波形のピッチ周期に対応する1周期毎の時間的基準位置を表現するピッチマークが設定され、音韻記号・韻律情報が対応付けされた多数の音声素片が格納された音声素片辞書から、対応する音声素片を順次出力する工程と、
音声素片辞書から順次入力される、任意の位置の音声素片のピッチマークを元にこの音声素片に接続される音声素片のピッチマークを補正して、その補正された音声素片のピッチ波形と、音声素片のピッチマークの補正に用いた音声素片のピッチ波形の距離で補正結果を評価する処理を音声素片辞書から順次入力される複数の異なる位置の音声素片に対して行い、補正後の評価結果が最も良好な評価値による補正後の音声素片を基準音声素片とする決定をし、この決定された基準音声素片のピッチマークを元にして、基準音声素片に接続される音声素片のピッチマークを補正し、次いで、この基準音声素片に接続される音声素片の補正されたピッチマークを元にして、この補正されたピッチマークの音声素片に接続される音声素片のピッチマークを補正する処理を順次行うピッチマーク補正工程と、
音声合成のため、入力テキストから得られ、入力された韻律情報に基づいて、上記ピッチマーク補正工程で補正されたピッチマークを用いて音声素片を順次接続して合成音声を生成する音声生成工程とを備える。
図1は、この発明の実施の形態1による音声合成装置の構成を示す構成図である。
図において、音声合成装置1は、入力された音韻記号・韻律情報100に基づいて、合成音声200を生成する。
上記音声合成装置1は、音声素片辞書2、ピッチマーク補正手段3、音声生成手段4を備えている。音声素片辞書2は、ピッチマークが設定された多数の音声素片が格納されており、入力された音韻記号・韻律情報100に基づいて音声素片を選択して出力する。ピッチマーク補正手段3は、音声素片辞書2から出力された音声素片のピッチマークを補正し、当該ピッチマークを補正した音声素片を出力する。音声生成手段4は、入力された音韻記号・韻律情報100に基づいて、ピッチマーク補正手段3から出力された音声素片を順次接続して合成音声200を生成する。
図2は、音声合成装置の動作の流れを示すフローチャートである。
本実施の形態において、音声合成装置1に入力される音韻記号・韻律情報100は、例えば、音韻記号、ピッチ、音韻継続時間長、パワーなどの情報であり、例えば、テキスト音声合成のための入力テキストに対して言語解析処理、韻律生成処理を行って得られたものである。音声合成装置1には、入力テキストから得られた複数の音韻記号・韻律情報100が順次入力される。
次に、ピッチマーク補正手段3は、入力された音声素片のピッチマークを補正して、このピッチマークを補正した音声素片を音声生成手段4に出力する(ステップS2)。
ピッチマーク補正手段3におけるピッチマーク補正方法は、例えば、まず、先に音声生成手段4に出力したピッチマークを補正した第1の音声素片の終端のピッチ波形w1(p1+n)(n=−T/2,…,T/2)と、新たに音声素片辞書2から入力された第2の音声素片の始端近傍におけるピッチ波形w2(p2+n)(n=−T/2,…,T/2)とを抽出する。ここで、p1は第1の音声素片の補正されたピッチマークであり、p2は第2の音声素片のピッチマーク候補位置である。また、Tは、例えば次式(1)のように、第1の音声素片のピッチ周期T1および第2の音声素片のピッチ周期T2のうち、周期長の小さい方をTとする、などとして設定する。
この実施の形態ではピッチ波形の距離に関する評価値として2つのピッチ波形の相互相関値Cを用い、2つのピッチ波形の相互相関値Cを求めて、相関値Cから第2の音声素片のピッチマークを補正する構成としている。
以下さらに詳しく説明する。次式(2)に示すように、第2の音声素片のピッチマーク候補点p2を順次変更して上記抽出した2つのピッチ波形の相互相関値Cを求め、Cが最大となるp2を求め、これを第2の音声素片の始端における補正したピッチマークとする。
実施の形態1では、順次入力される音韻記号・韻律情報100に従って、音声素片を選択し、ピッチマークを補正し、順次接続・合成して合成音声200を生成している。すなわち、入力される音韻記号・韻律情報100に対応する先頭の音声素片のピッチマークの補正は行わず、この先頭の音声素片のピッチマークを基準に以後の音声素片のピッチマークを補正しているが、これに代えて、音韻記号・韻律情報100の末尾より逆順に従って音声素片を選択し、末尾の音声素片のピッチマークの補正を行わず、この末尾の音声素片のピッチマークを基準にそれ以前の音声素片のピッチマークを補正しても良い。さらに、先頭・末尾にかかわらず任意の位置の音声素片を基準として、その基準とする音声素片のピッチマークの補正を行わず、それ以前及び以後の音声素片のピッチマークを順次補正しても良い。
上記実施の形態1及び実施の形態2では、基準とする音声素片を予め1つ設定しているが、これに代えて、まず複数の音声素片を候補として、各候補を基準として音声素片のピッチマークを補正した場合の補正結果を評価し、その評価結果に応じて基準とする音声素片を決定するなど、事後的に基準とする音声素片を設定するとしても良い。このピッチマーク補正の評価は、例えば、音声素片辞書におけるピッチマーク設定に用いた評価基準において補正後のピッチマークの評価値を求める、あるいは音声素片辞書にて設定されているピッチマークと補正後のピッチマークとの差分量を評価値とするなどとし、その評価値の平均が最良となるものや、評価値の最悪値が最良となるものを、総合的に最良であるなどとする。
実施の形態3では、ピッチマークの補正を行わない基準となる音声素片を設定しているが、これに代えて、合成音声生成に用いる全ての音声素片においてピッチマーク補正を行うとしても良い。すなわち、基準となる音声素片において複数のピッチマーク候補を設定し、各ピッチマーク候補を基準に全ての音声素片のピッチマークを補正し、その補正結果を評価して最良のピッチマーク候補を選択するなどとしても良い。
上記実施の形態1から実施の形態4では、式(2)に従って、第1の音声素片のピッチ波形と第2の音声素片のピッチ波形との距離に関する評価値として相関が最大となるように第2の音声素片のピッチマークを補正しているが、これに代えて、例えば次式(3)に示すように、第1の音声素片のピッチ波形と第2の音声素片のピッチ波形との距離に関する評価値として振幅差の絶対値の総和Sが最小となるp2を求め、これを第2の音声素片の始端における補正したピッチマークとし、これを基準に第2の音声素片全体のピッチマークを補正しても良い。
上記実施の形態1から実施の形態4では、式(2)に従って、第1の音声素片のピッチ波形と第2の音声素片のピッチ波形との相関が最大となるように第2の音声素片のピッチマークを補正しているが、これに代えて、例えば次式(4)に示すように、第1の音声素片のピッチ波形と第2の音声素片のピッチ波形との距離に関する評価値として波形歪Eが最小となるp2を求め、これを第2の音声素片の始端における補正したピッチマークとし、これを基準に第2の音声素片全体のピッチマークを補正しても良い。
上記実施の形態1から実施の形態6では、音声素片の信号をそのまま用いてピッチ波形間の距離に関する評価値を求めていたが、これに代えて、音声素片の信号の聴覚的に重要な部分に重み付けをした信号のピッチ波形間の距離に関する評価値を求めてピッチマークの補正を行っても良い。
Claims (6)
- 音声素片における音声波形のピッチ周期に対応する1周期毎の時間的基準位置を表現するピッチマークが設定され、音韻記号・韻律情報が対応付けされた多数の音声素片が格納され、音声合成のため、入力テキストから得られた音韻記号が順次入力され、その音韻記号に基づいて対応する音声素片を順次出力する音声素片辞書と、
音声素片辞書から順次入力される、任意の位置の音声素片のピッチマークを元にこの音声素片に接続される音声素片のピッチマークを補正して、その補正された音声素片のピッチ波形と、音声素片のピッチマークの補正に用いた音声素片のピッチ波形の距離で補正結果を評価する処理を音声素片辞書から順次入力される複数の異なる位置の音声素片に対して行い、補正後の評価結果が最も良好な評価値による補正後の音声素片を基準音声素片とする決定をし、この決定された基準音声素片のピッチマークを元にして、基準音声素片に接続される音声素片のピッチマークを補正し、次いで、この基準音声素片に接続される音声素片の補正されたピッチマークを元にして、この補正されたピッチマークの音声素片に接続される音声素片のピッチマークを補正する処理を順次行うピッチマーク補正手段と、
音声合成のため、入力テキストから得られ、入力された韻律情報に基づいて、上記ピッチマーク補正手段で補正されたピッチマークを用いて音声素片を順次接続して合成音声を生成する音声生成手段と
を備えたことを特徴とする音声合成装置。 - 上記評価値は、基準音声素片のピッチ波形とピッチマークが補正される音声素片のピッチ波形との相関であることを特徴とする請求項1に記載の音声合成装置。
- 上記評価値は、基準音声素片のピッチ波形とピッチマークが補正される音声素片のピッチ波形との誤差信号振幅値の絶対値の総和であることを特徴とする請求項1に記載の音声合成装置。
- 上記評価値は、基準音声素片のピッチ波形に対するピッチマークが補正される音声素片のピッチ波形の波形歪であることを特徴とする請求項1に記載の音声合成装置。
- 上記評価値は、聴覚的に重要な部分に重み付けされた評価値であることを特徴とする請求項1ないし4のいずれか1項に記載の音声合成装置。
- 音声合成のため、入力テキストから得られ、順次入力される音韻記号に基づいて、音声素片における音声波形のピッチ周期に対応する1周期毎の時間的基準位置を表現するピッチマークが設定され、音韻記号・韻律情報が対応付けされた多数の音声素片が格納された音声素片辞書から、対応する音声素片を順次出力する工程と、
音声素片辞書から順次入力される、任意の位置の音声素片のピッチマークを元にこの音声素片に接続される音声素片のピッチマークを補正して、その補正された音声素片のピッチ波形と、音声素片のピッチマークの補正に用いた音声素片のピッチ波形の距離で補正結果を評価する処理を音声素片辞書から順次入力される複数の異なる位置の音声素片に対して行い、補正後の評価結果が最も良好な評価値による補正後の音声素片を基準音声素片とする決定をし、この決定された基準音声素片のピッチマークを元にして、基準音声素片に接続される音声素片のピッチマークを補正し、次いで、この基準音声素片に接続される音声素片の補正されたピッチマークを元にして、この補正されたピッチマークの音声素片に接続される音声素片のピッチマークを補正する処理を順次行うピッチマーク補正工程と、
音声合成のため、入力テキストから得られ、入力された韻律情報に基づいて、上記ピッチマーク補正工程で補正されたピッチマークを用いて音声素片を順次接続して合成音声を生成する音声生成工程と
を備えたことを特徴とする音声合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006332027A JP4869898B2 (ja) | 2006-12-08 | 2006-12-08 | 音声合成装置及び音声合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006332027A JP4869898B2 (ja) | 2006-12-08 | 2006-12-08 | 音声合成装置及び音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008145685A JP2008145685A (ja) | 2008-06-26 |
JP4869898B2 true JP4869898B2 (ja) | 2012-02-08 |
Family
ID=39605941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006332027A Active JP4869898B2 (ja) | 2006-12-08 | 2006-12-08 | 音声合成装置及び音声合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4869898B2 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3358139B2 (ja) * | 1995-12-22 | 2002-12-16 | 沖電気工業株式会社 | 音声ピッチマーク設定方法 |
JP2003122380A (ja) * | 2001-10-09 | 2003-04-25 | Canon Inc | ピッチマーク付与装置およびその処理方法ならびに記憶媒体 |
JP4056319B2 (ja) * | 2002-07-31 | 2008-03-05 | 三洋電機株式会社 | 音声合成方法 |
JP4080989B2 (ja) * | 2003-11-28 | 2008-04-23 | 株式会社東芝 | 音声合成方法、音声合成装置および音声合成プログラム |
JP4762553B2 (ja) * | 2005-01-05 | 2011-08-31 | 三菱電機株式会社 | テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4550652B2 (ja) * | 2005-04-14 | 2010-09-22 | 株式会社東芝 | 音響信号処理装置、音響信号処理プログラム及び音響信号処理方法 |
-
2006
- 2006-12-08 JP JP2006332027A patent/JP4869898B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008145685A (ja) | 2008-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200357381A1 (en) | Speech synthesis device, speech synthesis method, speech synthesis model training device, speech synthesis model training method, and computer program product | |
US8370149B2 (en) | Speech synthesis system, speech synthesis program product, and speech synthesis method | |
JP5159325B2 (ja) | 音声処理装置及びそのプログラム | |
JP4469883B2 (ja) | 音声合成方法及びその装置 | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
JP4878538B2 (ja) | 音声合成装置 | |
JP2008033133A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
WO2014046789A1 (en) | System and method for voice transformation, speech synthesis, and speech recognition | |
JP2008203543A (ja) | 声質変換装置及び音声合成装置 | |
JP2005164749A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP4406440B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
KR100457414B1 (ko) | 음성합성방법, 음성합성장치 및 기록매체 | |
JP4225128B2 (ja) | 規則音声合成装置及び規則音声合成方法 | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP2012042974A (ja) | 音声合成装置 | |
JP4869898B2 (ja) | 音声合成装置及び音声合成方法 | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP4476855B2 (ja) | 音声合成装置及びその方法 | |
JP5862667B2 (ja) | 波形処理装置、波形処理方法および波形処理プログラム | |
JP2008299266A (ja) | 音声合成装置および音声合成方法 | |
EP1628288A1 (en) | Method and system for sound synthesis | |
WO2014017024A1 (ja) | 音声合成装置、音声合成方法、及び音声合成プログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090917 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111021 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111115 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111116 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4869898 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141125 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |