JP4963345B2 - 音声合成方法及び音声合成プログラム - Google Patents
音声合成方法及び音声合成プログラム Download PDFInfo
- Publication number
- JP4963345B2 JP4963345B2 JP2004270307A JP2004270307A JP4963345B2 JP 4963345 B2 JP4963345 B2 JP 4963345B2 JP 2004270307 A JP2004270307 A JP 2004270307A JP 2004270307 A JP2004270307 A JP 2004270307A JP 4963345 B2 JP4963345 B2 JP 4963345B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- speech
- phoneme
- sample
- waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 20
- 230000015572 biosynthetic process Effects 0.000 title claims description 19
- 230000007704 transition Effects 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 abstract description 26
- 230000002194 synthesizing effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 17
- 238000003786 synthesis reaction Methods 0.000 description 15
- 230000008859 change Effects 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical group C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000010363 phase shift Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Description
H.カワハラ他、「加重平均群遅延に対する定点法に基づく正確な音声事象検出法」、ICSLP−2000予稿集、北京、pp.664−667、2000年(Hideki Kawahara et al., "Accurate vocal event detection method based on a fixed-point to weighted average group delay", ICSLP-2000, pp. 664-667, Beijin, 2000)
本実施の形態のプログラムによってコンピュータ40が実行する音声合成方法の原理を説明する。なお、以下の説明では、音素P1、音素V2、音素P3、音素V2a、音素V2b、音素Pa、音素Pbをそれぞれ単にP1、V2、P3、V2a、V2b、Pa、Pbという。またV2aとV2bは、同じ音素V2に対応する、互いに異なる実サンプル中の音素(波形)であるものとする。
この実施の形態では、移行期間103において、V2aとV2bとの瞬時音圧値を移行期間103の先頭からの経過時間に応じた重みで加重平均することによってクロスフェードする。
第2の実施の形態にかかる音声合成方法は、二つの音素V2aとV2bの混合を単純な時間波形レベルではなく、正弦波成分に分解した後に行なう方法である。母音音声に代表されるような音響信号は、振幅・周波数の異なる複数の正弦振動の加算として表現可能である。この方法では、混合する基となる二つの音声信号V2aとV2bをフーリエ変換によりそれぞれ複数の正弦波成分に分解し、その間の対応付けを取った後、V2aとV2bの間で各成分の周波数、振幅項が連続的な変化を生じるように変化させることによって、中間的な音を実現する。
第2の実施の形態が音声信号を正弦波成分に分解するのに対して、この実施例はソースフィルター原理に基づいて音声信号を駆動源情報成分と共振特性成分とに分離し、それぞれの次元での連続的な変化を実現した後、それらからボコーダにより音声を合成する。
上記した実施の形態では、移行期間では、単純に加重平均をとることで第1の波形から第2の波形に滑らかに直線的に波形をクロスフェードしている。しかし本発明はそのような実施の形態には限定されない。例えば、時間に関して2次以上の関数で、かつ移行期間の両端でそれぞれV2aおよびV2bとなるという境界条件を満足するような関数によって、移行期間における両者の混合割合を決定するようにしてもよい。この場合、この関数の値がある時間におけるV2aの混合割合を表すものとすれば、関数の値が時間に対して単調減少となることが好ましい。
Claims (3)
- 末尾に第1の音素を有する第1の音声サンプルと、先頭に、前記第1の音素と同じ音素である第2の音素を有する第2の音声サンプルとを、所定の時間期間内において接続合成する音声合成方法であって、
前記第1の音素の駆動波形と前記第2の音素の駆動波形とを接続して得られる音声波形の継続時間を決定するステップを含み、前記継続時間の先頭は、前記第1の音素の駆動波形の開始時刻であり、前記継続時間の末尾は、前記第2の音素の駆動波形の終了時刻であり、前記所定の時間期間は、前記継続時間内に含まれ、
前記音声合成方法はさらに、
前記所定の時間期間内の第1の時刻、および前記所定の時間期間内で当該第1の時刻より遅い第2の時刻により画定される移行区間を決定するステップと、
前記移行期間内の前記第1の時刻から前記第2の時刻までの間の時点であって、前記第1の音声サンプルと前記第2の音声サンプルとの混合割合が所定の関係を充足する時点を決定するステップと、
前記時点を決定するステップにおいて決定された時点での前記第1の音声サンプルと前記第2の音声サンプルとの駆動波形の位相を整合させるステップと、
前記所定の時間期間の先頭時刻から前記第1の時刻までの区間の合成音声を前記第1の音声サンプルから生成するステップと、
前記第1の音声サンプルから前記第2の音声サンプルへと、前記第1の時刻から前記第2の時刻までの間の、時間に対する所定の滑らかな関数にしたがって両者の混合割合を変化させて混合することにより、前記移行区間における合成音声を生成するステップとを含み、
前記時点は、前記第1の音素の瞬時音圧値と前記第2の音素の瞬時音圧値との混合割合が実質的に等しくなる時間位置である、音声合成方法。 - 前記合成音声を生成するステップは、前記第1の時刻の前記第1の音声サンプルの駆動波形から、前記第2の時刻の前記第2の音声サンプルへと、前記第1の音素の駆動波形の瞬時音圧値と前記第2の音素の駆動波形の瞬時音圧値とを、前記移行期間に対する前記第1の時刻からの経過時刻の重みで加重平均することによって合成音声を生成するステップを含む、請求項1に記載の音声合成方法。
- コンピュータにより実行されると、請求項1又は請求項2に記載の音声合成方法を実行するよう当該コンピュータを制御する、コンピュータで実行可能な音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004270307A JP4963345B2 (ja) | 2004-09-16 | 2004-09-16 | 音声合成方法及び音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004270307A JP4963345B2 (ja) | 2004-09-16 | 2004-09-16 | 音声合成方法及び音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006084859A JP2006084859A (ja) | 2006-03-30 |
JP4963345B2 true JP4963345B2 (ja) | 2012-06-27 |
Family
ID=36163420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004270307A Expired - Lifetime JP4963345B2 (ja) | 2004-09-16 | 2004-09-16 | 音声合成方法及び音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4963345B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009109805A (ja) * | 2007-10-31 | 2009-05-21 | Toshiba Corp | 音声処理装置及びその方法 |
JP5198200B2 (ja) * | 2008-09-25 | 2013-05-15 | 株式会社東芝 | 音声合成装置及び方法 |
JP5423375B2 (ja) * | 2009-12-15 | 2014-02-19 | ヤマハ株式会社 | 音声合成装置 |
ES2382319B1 (es) * | 2010-02-23 | 2013-04-26 | Universitat Politecnica De Catalunya | Procedimiento para la sintesis de difonemas y/o polifonemas a partir de la estructura frecuencial real de los fonemas constituyentes. |
CN113299269B (zh) * | 2021-05-20 | 2023-12-29 | 平安科技(深圳)有限公司 | 语音合成系统的训练方法、装置、计算机设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3076859B2 (ja) * | 1992-04-20 | 2000-08-14 | 三菱電機株式会社 | ディジタルオーディオ信号の信号処理装置 |
JPH10124082A (ja) * | 1996-10-18 | 1998-05-15 | Matsushita Electric Ind Co Ltd | 歌声合成装置 |
JPH1138989A (ja) * | 1997-07-14 | 1999-02-12 | Toshiba Corp | 音声合成装置及び方法 |
JP3017715B2 (ja) * | 1997-10-31 | 2000-03-13 | 松下電器産業株式会社 | 音声再生装置 |
JPH11224096A (ja) * | 1998-02-05 | 1999-08-17 | Oki Electric Ind Co Ltd | 音声合成方法及び音声合成装置 |
US7822599B2 (en) * | 2002-04-19 | 2010-10-26 | Koninklijke Philips Electronics N.V. | Method for synthesizing speech |
JP2004102118A (ja) * | 2002-09-12 | 2004-04-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声接続方法、音声接続装置、そのプログラムおよびその記録媒体 |
KR100486734B1 (ko) * | 2003-02-25 | 2005-05-03 | 삼성전자주식회사 | 음성 합성 방법 및 장치 |
-
2004
- 2004-09-16 JP JP2004270307A patent/JP4963345B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2006084859A (ja) | 2006-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5958866B2 (ja) | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム | |
US6785652B2 (en) | Method and apparatus for improved duration modeling of phonemes | |
EP0982713A2 (en) | Voice converter with extraction and modification of attribute data | |
Wouters et al. | Control of spectral dynamics in concatenative speech synthesis | |
JP6561499B2 (ja) | 音声合成装置および音声合成方法 | |
JP4516157B2 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
US20110046957A1 (en) | System and method for speech synthesis using frequency splicing | |
Raitio et al. | Phase perception of the glottal excitation and its relevance in statistical parametric speech synthesis | |
Govind et al. | Dynamic prosody modification using zero frequency filtered signal | |
JP4963345B2 (ja) | 音声合成方法及び音声合成プログラム | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
JP6011039B2 (ja) | 音声合成装置および音声合成方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP4349316B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
Wouters et al. | Effects of prosodic factors on spectral dynamics. II. Synthesis | |
JP6834370B2 (ja) | 音声合成方法 | |
JP2001034284A (ja) | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 | |
JP4468506B2 (ja) | 音声データ作成装置および声質変換方法 | |
JP2987089B2 (ja) | 音声素片作成方法および音声合成方法とその装置 | |
JP2011191528A (ja) | 韻律作成装置及び韻律作成方法 | |
JP2010224053A (ja) | 音声合成装置、音声合成方法、プログラム及び記録媒体 | |
JP2018077280A (ja) | 音声合成方法 | |
JP3592617B2 (ja) | 音声合成方法、その装置及びそのプログラム記録媒体 | |
Gu et al. | An HNM based scheme for synthesizing Mandarin syllable signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120228 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120323 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4963345 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150406 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |