JP2005539261A - 音声合成における時間幅を制御する方法 - Google Patents
音声合成における時間幅を制御する方法 Download PDFInfo
- Publication number
- JP2005539261A JP2005539261A JP2004537353A JP2004537353A JP2005539261A JP 2005539261 A JP2005539261 A JP 2005539261A JP 2004537353 A JP2004537353 A JP 2004537353A JP 2004537353 A JP2004537353 A JP 2004537353A JP 2005539261 A JP2005539261 A JP 2005539261A
- Authority
- JP
- Japan
- Prior art keywords
- interval
- audio signal
- signal
- speech
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000015572 biosynthetic process Effects 0.000 title description 11
- 238000003786 synthesis reaction Methods 0.000 title description 11
- 230000005236 sound signal Effects 0.000 claims abstract description 45
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004804 winding Methods 0.000 claims 1
- 239000002131 composite material Substances 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000002411 adverse Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000238876 Acari Species 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Input From Keyboards Or The Like (AREA)
- Electrotherapy Devices (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electric Clocks (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
− 沈黙(無言)
. 非発声周期
v 発声周期
p 非常に重要なダイナミック非発声周期(1回だけ用いられるべき)
b 非常に重要なダイナミック発声周期(1回だけ用いられるべき)
q ダイナミック非発声周期(1回だけ用いてもよい)
c ダイナミック発声周期(1回だけ用いてもよい)
がそれである。
202 ダイナミックインターバル
204 ダイナミックインターバル
206 ダイナミックインターバル
208 ダイナミックインターバル
210 ダイナミックインターバル
212 ダイナミックインターバル
214 ステッディインターバル
216 ステッディインターバル
218 ステッディインターバル
220 ステッディインターバル
222 ステッディインターバル
224 ステッディインターバル
226 時間軸インターバル
230 インターバル
232 インターバル
234 インターバル
236 インターバル
238 インターバル
240 インターバル
242 インターバル
300 コンピュータシステム
302 モジュール
304 モジュール
306 モジュール
308 モジュール
310 モジュール
Claims (14)
- オリジナル音声信号のインターバルの第1クラスに第1識別子を割り当て、前記オリジナル音声信号のインターバルの第2クラスに第2識別子を割り当て、
前記オリジナル信号をウインドゥイングして複数のピッチベルを用意し、
割り当てられた前記第1識別子を有するピッチベルを処理して前記音声信号の時間幅を調整し、
処理されたピッチベルに重畳及び加え合わせ操作を実行する、
音声信号の合成方法。 - 前記インターバルの第1クラスがステッディインターバルである、請求項1に記載の方法。
- 前記第1識別子として第1コード又は第2コードが用いられ、前記第コードが非発声インターバルを表し、前記第2コードが発声インターバルを表す、請求項1又は2に記載の方法。
- 前記インターバルの第2クラスがダイナミックインターバルである、請求項1ないし3のいずれか1項に記載の方法。
- 前記第2識別子として第3コード、第4コード、第5コード、又は第6コードが用いられ、前記第3コードは音声信号の明瞭性に対して不可欠な非発声インターバルを表し、前記第4コードは音声信号の明瞭性に対して不可欠な発声インターバルを表し、前記第5コードは音声信号の明瞭性に対して不可欠なものではない非発声インターバルを表し、前記第6コードは音声信号の明瞭性に対して不可欠なものではない発声インターバルを表す、 請求項1ないし4のいずれか1項に記載の方法。
- 前記第5又は第6コードに割り当てられたピッチベルが任意に削除される、請求項5に記載の方法。
- 前記音声信号のウインドゥイングのために二乗コサイン関数が用いられる、請求項1ないし6のいずれか1項に記載の方法。
- 前記音声信号の非発声ステッディインターバルのウインドゥイングのためにサインウインドウが用いられる、請求項1ないし7のいずれか1項に記載の方法。
- さらに、前記重畳及び加え合わせ操作を実行する前に、非発声ステッディ周期のピッチベルを無作為化する、請求項1ないし7のいずれか1項に記載の方法。
- 前記ウインドゥイングが、前記音声信号の基本周波数と同期して位置するウインドウ手段によって実行される、請求項1ないし9のいずれか1項に記載の方法。
- オリジナル音声信号の時間幅を調整するために、
オリジナル音声信号のインターバルの第1クラスに第1識別子を割り当て、前記オリジナル音声信号のインターバルの第2クラスに第2識別子を割り当てる処理ステップと、
前記オリジナル信号をウインドゥイングして複数のピッチベルを用意する処理ステップと、
割り当てられた前記第1識別子を有するピッチベルを処理して前記音声信号の時間幅を調整する処理ステップと、
処理されたピッチベルに重畳及び加え合わせ操作を施す処理ステップと、
を実行するためのプログラム手段を備えた、
ディジタル記憶媒体のようなコンピュータプログラム。 - 音声信号を保存する手段(302)と、
オリジナル音声信号のインターバルの第1クラスに割り当てられた第1識別子を記憶し、オリジナル音声信号のインターバルの第2クラスに割り当てられた第2識別子を記憶する手段(304)と、
前記オリジナル信号をウインドゥイングして複数のピッチベルを用意する手段(306)と、
割り当てられた前記第1識別子を有するピッチベルを処理して前記音声信号の時間幅を調整する処理手段(308)と、
処理されたピッチベルに重畳及び加え合わせ操作を施す手段(310)と、
を備えた、コンピュータシステム、特にテキスト/音声変換システム。 - 重畳され加え合わせされた複数のピッチベルからなる合成音声信号であって、オリジナル音声信号の時間幅調整を実行するために、前記オリジナル音声信号のステッディ発声インターバル又はステッディ非発声インターバルのピッチベルのみが処理されている、合成音声信号。
- 重畳及び加え合わせ操作の前に、ダイナミック発声又は非発声インターバルに属する1つ又はそれ以上のピッチベルが削除されている、請求項13に記載の音声信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02078847.7 | 2002-09-17 | ||
EP02078847 | 2002-09-17 | ||
PCT/IB2003/003360 WO2004027758A1 (en) | 2002-09-17 | 2003-08-05 | Method for controlling duration in speech synthesis |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005539261A true JP2005539261A (ja) | 2005-12-22 |
JP2005539261A5 JP2005539261A5 (ja) | 2006-08-03 |
JP5175422B2 JP5175422B2 (ja) | 2013-04-03 |
Family
ID=32010976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004537353A Expired - Lifetime JP5175422B2 (ja) | 2002-09-17 | 2003-08-05 | 音声合成における時間幅を制御する方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US7912708B2 (ja) |
EP (1) | EP1543503B1 (ja) |
JP (1) | JP5175422B2 (ja) |
KR (1) | KR101029493B1 (ja) |
CN (1) | CN1682281B (ja) |
AT (1) | ATE352837T1 (ja) |
AU (1) | AU2003249443A1 (ja) |
DE (1) | DE60311482T2 (ja) |
TW (1) | TWI307875B (ja) |
WO (1) | WO2004027758A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100343893C (zh) * | 2002-09-17 | 2007-10-17 | 皇家飞利浦电子股份有限公司 | 用于稳定音信号合成的方法和文本到语音转换的合成系统 |
US20050227657A1 (en) * | 2004-04-07 | 2005-10-13 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for increasing perceived interactivity in communications systems |
US8036903B2 (en) * | 2006-10-18 | 2011-10-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
JP6047922B2 (ja) * | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
CN109712634A (zh) * | 2018-12-24 | 2019-05-03 | 东北大学 | 一种自动声音转换方法 |
CN114827657A (zh) * | 2022-04-28 | 2022-07-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频拼接方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63199399A (ja) * | 1987-02-16 | 1988-08-17 | キヤノン株式会社 | 音声合成装置 |
JPH0193795A (ja) * | 1987-10-06 | 1989-04-12 | Nippon Hoso Kyokai <Nhk> | 音声の発声速度変換方法 |
JP2001513225A (ja) * | 1997-12-19 | 2001-08-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 伸長オーディオ信号からの周期性の除去 |
JP2001350500A (ja) * | 2000-06-07 | 2001-12-21 | Mitsubishi Electric Corp | 話速変更装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5189702A (en) * | 1987-02-16 | 1993-02-23 | Canon Kabushiki Kaisha | Voice processing apparatus for varying the speed with which a voice signal is reproduced |
FR2636163B1 (fr) | 1988-09-02 | 1991-07-05 | Hamon Christian | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
EP0527527B1 (en) * | 1991-08-09 | 1999-01-20 | Koninklijke Philips Electronics N.V. | Method and apparatus for manipulating pitch and duration of a physical audio signal |
US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
SE516521C2 (sv) * | 1993-11-25 | 2002-01-22 | Telia Ab | Anordning och förfarande vid talsyntes |
US5787398A (en) * | 1994-03-18 | 1998-07-28 | British Telecommunications Plc | Apparatus for synthesizing speech by varying pitch |
JP3528258B2 (ja) * | 1994-08-23 | 2004-05-17 | ソニー株式会社 | 符号化音声信号の復号化方法及び装置 |
IT1266943B1 (it) | 1994-09-29 | 1997-01-21 | Cselt Centro Studi Lab Telecom | Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda. |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6324501B1 (en) * | 1999-08-18 | 2001-11-27 | At&T Corp. | Signal dependent speech modifications |
US6963833B1 (en) * | 1999-10-26 | 2005-11-08 | Sasken Communication Technologies Limited | Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates |
-
2003
- 2003-08-05 CN CN038220059A patent/CN1682281B/zh not_active Expired - Fee Related
- 2003-08-05 JP JP2004537353A patent/JP5175422B2/ja not_active Expired - Lifetime
- 2003-08-05 WO PCT/IB2003/003360 patent/WO2004027758A1/en active IP Right Grant
- 2003-08-05 KR KR1020057004601A patent/KR101029493B1/ko active IP Right Grant
- 2003-08-05 DE DE60311482T patent/DE60311482T2/de not_active Expired - Lifetime
- 2003-08-05 EP EP03797392A patent/EP1543503B1/en not_active Expired - Lifetime
- 2003-08-05 US US10/527,779 patent/US7912708B2/en active Active
- 2003-08-05 AU AU2003249443A patent/AU2003249443A1/en not_active Abandoned
- 2003-08-05 AT AT03797392T patent/ATE352837T1/de not_active IP Right Cessation
- 2003-09-12 TW TW092125244A patent/TWI307875B/zh not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63199399A (ja) * | 1987-02-16 | 1988-08-17 | キヤノン株式会社 | 音声合成装置 |
JPH0193795A (ja) * | 1987-10-06 | 1989-04-12 | Nippon Hoso Kyokai <Nhk> | 音声の発声速度変換方法 |
JP2001513225A (ja) * | 1997-12-19 | 2001-08-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 伸長オーディオ信号からの周期性の除去 |
JP2001350500A (ja) * | 2000-06-07 | 2001-12-21 | Mitsubishi Electric Corp | 話速変更装置 |
Also Published As
Publication number | Publication date |
---|---|
KR101029493B1 (ko) | 2011-04-18 |
WO2004027758A1 (en) | 2004-04-01 |
ATE352837T1 (de) | 2007-02-15 |
CN1682281A (zh) | 2005-10-12 |
KR20050057409A (ko) | 2005-06-16 |
US20060004578A1 (en) | 2006-01-05 |
DE60311482D1 (de) | 2007-03-15 |
TWI307875B (en) | 2009-03-21 |
EP1543503B1 (en) | 2007-01-24 |
EP1543503A1 (en) | 2005-06-22 |
TW200416668A (en) | 2004-09-01 |
AU2003249443A1 (en) | 2004-04-08 |
US7912708B2 (en) | 2011-03-22 |
DE60311482T2 (de) | 2007-10-25 |
CN1682281B (zh) | 2010-05-26 |
JP5175422B2 (ja) | 2013-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8326613B2 (en) | Method of synthesizing of an unvoiced speech signal | |
JPH086592A (ja) | 音声合成方法及び装置 | |
JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
JP5175422B2 (ja) | 音声合成における時間幅を制御する方法 | |
JP4490818B2 (ja) | 定常音響信号のための合成方法 | |
JP4510631B2 (ja) | 音声波形の連結を用いる音声合成 | |
JP4451665B2 (ja) | 音声を合成する方法 | |
US7130799B1 (en) | Speech synthesis method | |
JP3394281B2 (ja) | 音声合成方式および規則合成装置 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JP3241582B2 (ja) | 韻律制御装置及び方法 | |
JP3310217B2 (ja) | 音声合成方法とその装置 | |
JPH11161297A (ja) | 音声合成方法及び装置 | |
JP2573586B2 (ja) | 規則型音声合成装置 | |
JP3284634B2 (ja) | 規則音声合成装置 | |
JP2573585B2 (ja) | 音声スペクトルパタン生成装置 | |
JPH1091191A (ja) | 音声合成方法 | |
JPH0553595A (ja) | 音声合成装置 | |
Maeda | Vocal-tract acoustics and speech synthesis | |
US20060074675A1 (en) | Method of synthesizing creaky voice | |
JPH03198098A (ja) | 音声合成装置及び方法 | |
JP2004206145A (ja) | 基本周波数パタン生成方法、及びプログラム記録媒体 | |
JP2004220043A (ja) | 基本周波数パタン生成方法、及びプログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060616 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060803 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070509 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100215 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110215 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110224 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20110527 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120622 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130107 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5175422 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |