JP6024191B2 - 音声合成装置および音声合成方法 - Google Patents
音声合成装置および音声合成方法 Download PDFInfo
- Publication number
- JP6024191B2 JP6024191B2 JP2012110359A JP2012110359A JP6024191B2 JP 6024191 B2 JP6024191 B2 JP 6024191B2 JP 2012110359 A JP2012110359 A JP 2012110359A JP 2012110359 A JP2012110359 A JP 2012110359A JP 6024191 B2 JP6024191 B2 JP 6024191B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- unit
- segment
- interpolation
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 27
- 238000003786 synthesis reaction Methods 0.000 title claims description 27
- 238000001308 synthesis method Methods 0.000 title claims 3
- 238000001228 spectrum Methods 0.000 claims description 94
- 230000005236 sound signal Effects 0.000 claims description 9
- 239000012634 fragment Substances 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000003796 beauty Effects 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 124
- 238000012545 processing Methods 0.000 description 36
- 238000000034 method Methods 0.000 description 22
- 230000008602 contraction Effects 0.000 description 13
- 230000008901 benefit Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000008859 change Effects 0.000 description 6
- 230000005284 excitation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
Description
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と放音装置16とを具備するコンピュータシステムで実現される。
xi=α・x1+(1−α)・x2 ……(1)
すなわち、素片データV1および素片データV2の双方の選択フレームが有声フレームである場合には音声のスペクトル(すなわち音色)同士が補間され、単位データUAと同様に形状パラメータRを含む補間単位データUiが生成される。なお、形状パラメータR(r1〜r4)の一部のみを補間するとともに他の変数については素片データV1および素片データV2の一方の数値を採択することで補間単位データUiを生成することも可能である。例えば、形状パラメータRのうち励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3との各々については素片データV1と素片データV2との間で補間し、差分スペクトルr4については素片データV1および素片データV2の一方の数値を採択する構成が好適である。
Ei=α・E1+(1−α)・E2) ……(2)
本発明の第2実施形態を以下に説明する。第1実施形態では、定常的に継続する音声(以下「継続音」という)が合成される定常発音区間Hについて、その定常発音区間Hの直前の素片データVの最後の単位データUを配列した。第2実施形態では、定常発音区間H内の複数の単位データUの時系列に、継続音の変動成分(例えばビブラート成分)が付加される。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
素片データV1と素片データV2とを補間する構成では、素片データV1と素片データV2とが示す音声の音量(エネルギー)が過度に相違する場合に、素片データV1および素片データV2の何れからも乖離した音響特性の素片データVが生成され、結果的に合成音が不自然な音響となる可能性がある。以上の事情を考慮して、第3実施形態では、素片データV1と素片データV2との間で音量の相違が大きい場合に、素片データV1および素片データV2の何れかが優先的に補間に反映されるように補間比率αを制御する。
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
Claims (8)
- 音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成する素片補間手段と、
前記素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段と
を具備し、
前記素片補間手段は、前記補間に適用する第1素片データおよび第2素片データの双方が有声音を示すフレームについては、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示すスペクトルを前記目標値に応じた補間比率で補間することで前記目標値の素片データを生成し、前記第1素片データおよび前記第2素片データの少なくとも一方が無声音を示すフレームについては、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示す音声の音量を前記目標値に応じた補間比率で補間し、前記第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで前記目標値の素片データを生成する
音声合成装置。 - 前記素片データは、前記音声素片のうち有声音を含む区間内の各フレームについては音声のスペクトルの形状の特徴を示す形状パラメータを含み、無声音を含む区間内の各フレームについては音声のスペクトルを示すスペクトルデータを含み、
前記素片補間手段は、前記第1素片データおよび前記第2素片データの双方が有声音を示すフレームについては、前記第1素片データおよび前記第2素片データの各々における当該フレームの形状パラメータを前記目標値に応じた補間比率で補間することで前記目標値の素片データを生成し、前記第1素片データおよび前記第2素片データの少なくとも一方が無声音を示すフレームについては、前記第1素片データのスペクトルデータが示すスペクトルを前記補間後の音量に応じて補正することで前記目標値の素片データを生成する
請求項1の音声合成装置。 - 継続音の変動成分を示す定常音データを音声特徴量の相異なる数値毎に記憶する定常音記憶手段と、
前記定常音記憶手段に記憶された複数の定常音データの補間により、前記目標値に対応する定常音データを生成する定常音補間手段とを具備し、
前記音声合成手段は、前記素片補間手段が生成した素片データと前記定常音補間手段が生成した定常音データとを利用して音声信号を生成する
請求項1または請求項2の音声合成装置。 - 前記定常音補間手段は、第1定常音データから抽出した複数の第1単位区間を配列した第1中間データと、前記各第1単位区間と同等の時間長となるように第2定常音データから抽出した第2単位区間を配列した第2中間データとを補間する
請求項3の音声合成装置。 - 前記素片補間手段は、前記第1素片データと前記第2素片データとの間で相対応するフレームにて音声特性の相違が大きい場合に、前記第1素片データおよび前記第2素片データの一方が補間後の素片データに優先的に反映されるように、前記第1素片データと前記第2素片データとを補間する
請求項1から請求項4の何れかの音声合成装置。 - 音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成する手段であって、前記補間に適用する第1素片データおよび第2素片データの少なくとも一方が無声音を示すフレームについて、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示す音声の音量を前記目標値に応じた補間比率で補間し、前記第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで前記目標値の素片データを生成する素片補間手段と、
前記素片補間手段が生成した素片データを利用して音声信号を生成する音声合成手段と
を具備する音声合成装置。 - コンピュータが、
音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成し、
前記生成した素片データを利用して音声信号を生成し、
前記素片データの生成では、前記補間に適用する第1素片データおよび第2素片データの双方が有声音を示すフレームについては、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示すスペクトルを前記目標値に応じた補間比率で補間することで前記目標値の素片データを生成し、前記第1素片データおよび前記第2素片データの少なくとも一方が無声音を示すフレームについては、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示す音声の音量を前記目標値に応じた補間比率で補間し、前記第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで前記目標値の素片データを生成する
音声合成方法。 - コンピュータが、
音声特徴量が相違する音声素片のフレーム毎のスペクトルを示す複数の素片データの補間により、前記音声特徴量の目標値に対応する素片データを生成し、前記補間に適用する第1素片データおよび第2素片データの少なくとも一方が無声音を示すフレームについて、前記第1素片データおよび前記第2素片データの各々が当該フレームについて示す音声の音量を前記目標値に応じた補間比率で補間し、前記第1素片データが示すスペクトルを当該補間後の音量に応じて補正することで前記目標値の素片データを生成し、
前記生成した素片データを利用して音声信号を生成する
音声合成方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012110359A JP6024191B2 (ja) | 2011-05-30 | 2012-05-14 | 音声合成装置および音声合成方法 |
EP20120169235 EP2530671B1 (en) | 2011-05-30 | 2012-05-24 | Voice synthesis |
US13/480,401 US8996378B2 (en) | 2011-05-30 | 2012-05-24 | Voice synthesis apparatus |
CN201210175478.9A CN102810309B (zh) | 2011-05-30 | 2012-05-30 | 语音合成设备 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011120815 | 2011-05-30 | ||
JP2011120815 | 2011-05-30 | ||
JP2012110359A JP6024191B2 (ja) | 2011-05-30 | 2012-05-14 | 音声合成装置および音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013011863A JP2013011863A (ja) | 2013-01-17 |
JP6024191B2 true JP6024191B2 (ja) | 2016-11-09 |
Family
ID=46320771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012110359A Active JP6024191B2 (ja) | 2011-05-30 | 2012-05-14 | 音声合成装置および音声合成方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8996378B2 (ja) |
EP (1) | EP2530671B1 (ja) |
JP (1) | JP6024191B2 (ja) |
CN (1) | CN102810309B (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5817854B2 (ja) * | 2013-02-22 | 2015-11-18 | ヤマハ株式会社 | 音声合成装置およびプログラム |
JP6286946B2 (ja) * | 2013-08-29 | 2018-03-07 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP6561499B2 (ja) * | 2015-03-05 | 2019-08-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
CN104916282B (zh) * | 2015-03-27 | 2018-11-06 | 北京捷通华声科技股份有限公司 | 一种语音合成的方法和装置 |
JP6821970B2 (ja) * | 2016-06-30 | 2021-01-27 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
TWI623930B (zh) * | 2017-03-02 | 2018-05-11 | 元鼎音訊股份有限公司 | 發聲裝置、音訊傳輸系統及其音訊分析之方法 |
JP2019066649A (ja) * | 2017-09-29 | 2019-04-25 | ヤマハ株式会社 | 歌唱音声の編集支援方法、および歌唱音声の編集支援装置 |
JP6733644B2 (ja) * | 2017-11-29 | 2020-08-05 | ヤマハ株式会社 | 音声合成方法、音声合成システムおよびプログラム |
CN108288464B (zh) * | 2018-01-25 | 2020-12-29 | 苏州奇梦者网络科技有限公司 | 一种修正合成音中错误声调的方法 |
US10255898B1 (en) * | 2018-08-09 | 2019-04-09 | Google Llc | Audio noise reduction using synchronized recordings |
CN109168067B (zh) * | 2018-11-02 | 2022-04-22 | 深圳Tcl新技术有限公司 | 视频时序矫正方法、矫正终端及计算机可读存储介质 |
CN111429877B (zh) * | 2020-03-03 | 2023-04-07 | 云知声智能科技股份有限公司 | 歌曲处理方法及装置 |
CN113257222B (zh) * | 2021-04-13 | 2024-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 合成歌曲音频的方法、终端及存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3022270B2 (ja) * | 1995-08-21 | 2000-03-15 | ヤマハ株式会社 | フォルマント音源のパラメータ生成装置 |
GB9600774D0 (en) * | 1996-01-15 | 1996-03-20 | British Telecomm | Waveform synthesis |
JP3884856B2 (ja) * | 1998-03-09 | 2007-02-21 | キヤノン株式会社 | 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ |
JP3644263B2 (ja) | 1998-07-31 | 2005-04-27 | ヤマハ株式会社 | 波形形成装置及び方法 |
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
JP3879402B2 (ja) * | 2000-12-28 | 2007-02-14 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
JP3838039B2 (ja) * | 2001-03-09 | 2006-10-25 | ヤマハ株式会社 | 音声合成装置 |
JP3711880B2 (ja) * | 2001-03-09 | 2005-11-02 | ヤマハ株式会社 | 音声分析及び合成装置、方法、プログラム |
US7454348B1 (en) * | 2004-01-08 | 2008-11-18 | At&T Intellectual Property Ii, L.P. | System and method for blending synthetic voices |
JP2008545995A (ja) * | 2005-03-28 | 2008-12-18 | レサック テクノロジーズ、インコーポレーテッド | ハイブリッド音声合成装置、方法および用途 |
JP4476855B2 (ja) * | 2005-03-29 | 2010-06-09 | 株式会社東芝 | 音声合成装置及びその方法 |
JP2007226174A (ja) | 2006-06-21 | 2007-09-06 | Yamaha Corp | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
WO2008111158A1 (ja) * | 2007-03-12 | 2008-09-18 | Fujitsu Limited | 音声波形補間装置および方法 |
JP5176981B2 (ja) | 2009-01-22 | 2013-04-03 | ヤマハ株式会社 | 音声合成装置、およびプログラム |
-
2012
- 2012-05-14 JP JP2012110359A patent/JP6024191B2/ja active Active
- 2012-05-24 US US13/480,401 patent/US8996378B2/en active Active
- 2012-05-24 EP EP20120169235 patent/EP2530671B1/en not_active Not-in-force
- 2012-05-30 CN CN201210175478.9A patent/CN102810309B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN102810309A (zh) | 2012-12-05 |
JP2013011863A (ja) | 2013-01-17 |
EP2530671A3 (en) | 2014-01-08 |
EP2530671A2 (en) | 2012-12-05 |
EP2530671B1 (en) | 2015-04-22 |
US8996378B2 (en) | 2015-03-31 |
CN102810309B (zh) | 2014-09-10 |
US20120310650A1 (en) | 2012-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6024191B2 (ja) | 音声合成装置および音声合成方法 | |
JP6171711B2 (ja) | 音声解析装置および音声解析方法 | |
JP3815347B2 (ja) | 歌唱合成方法と装置及び記録媒体 | |
JP3563772B2 (ja) | 音声合成方法及び装置並びに音声合成制御方法及び装置 | |
WO2018084305A1 (ja) | 音声合成方法 | |
JP4153220B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
US11289066B2 (en) | Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning | |
US20060004569A1 (en) | Voice processing apparatus and program | |
JP6047922B2 (ja) | 音声合成装置および音声合成方法 | |
JP2002268658A (ja) | 音声分析及び合成装置、方法、プログラム | |
JP2018077283A (ja) | 音声合成方法 | |
KR20020076144A (ko) | 음성합성방법, 음성합성장치 및 기록매체 | |
JP6390690B2 (ja) | 音声合成方法および音声合成装置 | |
JP3966074B2 (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
JP4214842B2 (ja) | 音声合成装置及び音声合成方法 | |
JP6011039B2 (ja) | 音声合成装置および音声合成方法 | |
JPH0380300A (ja) | 音声合成方法 | |
EP2634769B1 (en) | Sound synthesizing apparatus and sound synthesizing method | |
JP2007226174A (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
JP2018077280A (ja) | 音声合成方法 | |
JP2018077281A (ja) | 音声合成方法 | |
JP6047952B2 (ja) | 音声合成装置および音声合成方法 | |
JP2005195968A (ja) | ピッチ変換装置 | |
JP5915264B2 (ja) | 音声合成装置 | |
JP2003288095A (ja) | 音声合成装置、音声合成方法並びに音声合成用プログラム及びこのプログラムを記録したコンピュータで読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150421 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160926 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6024191 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |