JP5846043B2 - 音声処理装置 - Google Patents
音声処理装置 Download PDFInfo
- Publication number
- JP5846043B2 JP5846043B2 JP2012115065A JP2012115065A JP5846043B2 JP 5846043 B2 JP5846043 B2 JP 5846043B2 JP 2012115065 A JP2012115065 A JP 2012115065A JP 2012115065 A JP2012115065 A JP 2012115065A JP 5846043 B2 JP5846043 B2 JP 5846043B2
- Authority
- JP
- Japan
- Prior art keywords
- original
- spectrum
- conversion
- feature quantity
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 94
- 238000006243 chemical reaction Methods 0.000 claims description 149
- 238000001228 spectrum Methods 0.000 claims description 126
- 238000009826 distribution Methods 0.000 claims description 49
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000009499 grossing Methods 0.000 claims description 20
- 230000015572 biosynthetic process Effects 0.000 claims description 19
- 238000003786 synthesis reaction Methods 0.000 claims description 19
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 37
- 238000000034 method Methods 0.000 description 20
- 230000003595 spectral effect Effects 0.000 description 18
- 238000000605 extraction Methods 0.000 description 17
- GXZJLHQMNOLIAB-UHFFFAOYSA-N CNS(=O)(=O)C1=CC=C(C=C1)N=CC2=C(NC3=CC=CC=C32)O Chemical compound CNS(=O)(=O)C1=CC=C(C=C1)N=CC2=C(NC3=CC=CC=C32)O GXZJLHQMNOLIAB-UHFFFAOYSA-N 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000010354 integration Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
図1は、本発明の第1実施形態に係る音声処理装置100Aのブロック図である。特定の発声者US(S:source)が発声した音声(以下「原音声」という)VSの音声信号が音声処理装置100Aに供給される。音声処理装置100Aは、発音内容(音韻)を維持したまま発声者USの原音声VSを別個の発声者UT(T:target)の声質の音声(以下「目標音声」という)VTに変換する信号処理装置(声質変換装置)である。変換後の目標音声VTの音声信号が音声処理装置100Aから出力されて例えば音波として放音される。なお、ひとりの発声者が声質を相違させて発声した各音声を原音声VSおよび目標音声VTとすることも可能である。すなわち、発声者USと発声者UTとは共通し得る。
数式(3)の記号Σqxxは、第q番目の要素分布Nにおける各特徴量x(k)の共分散行列(自己共分散行列)を意味し、記号Σqyyは、第q番目の要素分布Nにおける各特徴量y(k)の共分散行列(自己共分散行列)を意味する。また、数式(3)の記号Σqxyおよび記号Σqyxは、第q番目の要素分布Nにおける特徴量x(k)と特徴量y(k)との共分散行列(相互共分散行列)を意味する。
本発明の第2実施形態を以下に説明する。以下に例示する各態様において作用や機能が第1実施形態と同様である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
Claims (3)
- 声質が相違する各音声の特徴量の分布を近似する混合分布モデルの各要素分布に音声の特徴量が属する確率を示す確率項を包含する声質変換用の変換関数に原音声の原特徴量を適用することで変換特徴量を生成する変換処理手段と、
前記原特徴量が前記混合分布モデルの各要素分布に属する確率に応じた推定特徴量を前記確率項に対する前記原特徴量の適用で生成する特徴量推定手段と、
前記変換処理手段が生成した変換特徴量に対応する第1スペクトルと前記特徴量推定手段が生成した推定特徴量に対応する推定スペクトルとの差異に応じた第1変換フィルタを生成する第1差分算定手段と、
前記第1差分算定手段が生成した第1変換フィルタを前記原特徴量に対応する原スペクトルに加算することで第2スペクトルを生成する合成処理手段と、
前記第1スペクトルと前記第2スペクトルとの差異に応じた第2変換フィルタを生成する第2差分算定手段と、
前記第1変換フィルタと前記第2変換フィルタとを前記原音声のスペクトルに加算することで目標音声を生成する音声変換手段と
を具備する音声処理装置。 - 前記第2差分算定手段は、
前記第1スペクトルおよび前記第2スペクトルの各々を周波数領域内で平滑化する平滑手段と、
前記平滑化後の第1スペクトルと前記平滑化後の第2スペクトルとの差分を前記第2変換フィルタとして算定する減算手段とを含む
請求項1の音声処理装置。 - 複数の音声素片の各々を順次に選択する素片選択手段と、
前記素片選択手段が選択した各音声素片を原音声として目標音声の音声素片に変換する音声処理手段と、
前記音声処理手段による変換後の音声素片を相互に連結して音声信号を生成する音声合成手段とを具備し、
前記音声処理手段は、
声質が相違する各音声の特徴量の分布を近似する混合分布モデルの各要素分布に音声の特徴量が属する確率を示す確率項を包含する声質変換用の変換関数に原音声の原特徴量を適用することで変換特徴量を生成する変換処理手段と、
前記原特徴量が前記混合分布モデルの各要素分布に属する確率に応じた推定特徴量を前記確率項に対する前記原特徴量の適用で生成する特徴量推定手段と、
前記変換処理手段が生成した変換特徴量に対応する第1スペクトルと前記特徴量推定手段が生成した推定特徴量に対応する推定スペクトルとの差異に応じた第1変換フィルタを生成する第1差分算定手段と、
前記第1差分算定手段が生成した第1変換フィルタを前記原特徴量に対応する原スペクトルに加算することで第2スペクトルを生成する合成処理手段と、
前記第1スペクトルと前記第2スペクトルとの差異に応じた第2変換フィルタを生成する第2差分算定手段と、
前記第1変換フィルタと前記第2変換フィルタとを前記原音声のスペクトルに加算することで目標音声を生成する音声変換手段とを含む
音声処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012115065A JP5846043B2 (ja) | 2012-05-18 | 2012-05-18 | 音声処理装置 |
US13/896,192 US20130311189A1 (en) | 2012-05-18 | 2013-05-16 | Voice processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012115065A JP5846043B2 (ja) | 2012-05-18 | 2012-05-18 | 音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013242410A JP2013242410A (ja) | 2013-12-05 |
JP5846043B2 true JP5846043B2 (ja) | 2016-01-20 |
Family
ID=49582033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012115065A Expired - Fee Related JP5846043B2 (ja) | 2012-05-18 | 2012-05-18 | 音声処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20130311189A1 (ja) |
JP (1) | JP5846043B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2013274940B2 (en) * | 2012-06-15 | 2016-02-11 | Jemardator Ab | Cepstral separation difference |
US9613620B2 (en) * | 2014-07-03 | 2017-04-04 | Google Inc. | Methods and systems for voice conversion |
JP6470586B2 (ja) * | 2015-02-18 | 2019-02-13 | 日本放送協会 | 音声加工装置、及びプログラム |
JP6561499B2 (ja) * | 2015-03-05 | 2019-08-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP2018072723A (ja) | 2016-11-02 | 2018-05-10 | ヤマハ株式会社 | 音響処理方法および音響処理装置 |
US10622002B2 (en) | 2017-05-24 | 2020-04-14 | Modulate, Inc. | System and method for creating timbres |
US11538485B2 (en) | 2019-08-14 | 2022-12-27 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
US11996117B2 (en) | 2020-10-08 | 2024-05-28 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
CN114882867B (zh) * | 2022-04-13 | 2024-05-28 | 天津大学 | 基于滤波器组频率区分的深度网络波形合成方法及装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
JP3102335B2 (ja) * | 1996-01-18 | 2000-10-23 | ヤマハ株式会社 | フォルマント変換装置およびカラオケ装置 |
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
JP4153220B2 (ja) * | 2002-02-28 | 2008-09-24 | ヤマハ株式会社 | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム |
JP4241736B2 (ja) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
US7480641B2 (en) * | 2006-04-07 | 2009-01-20 | Nokia Corporation | Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation |
JP4966048B2 (ja) * | 2007-02-20 | 2012-07-04 | 株式会社東芝 | 声質変換装置及び音声合成装置 |
CN101399044B (zh) * | 2007-09-29 | 2013-09-04 | 纽奥斯通讯有限公司 | 语音转换方法和系统 |
JP4705203B2 (ja) * | 2009-07-06 | 2011-06-22 | パナソニック株式会社 | 声質変換装置、音高変換装置および声質変換方法 |
JP5545935B2 (ja) * | 2009-09-04 | 2014-07-09 | 国立大学法人 和歌山大学 | 音声変換装置および音声変換方法 |
US9009052B2 (en) * | 2010-07-20 | 2015-04-14 | National Institute Of Advanced Industrial Science And Technology | System and method for singing synthesis capable of reflecting voice timbre changes |
JP5573529B2 (ja) * | 2010-09-15 | 2014-08-20 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP5961950B2 (ja) * | 2010-09-15 | 2016-08-03 | ヤマハ株式会社 | 音声処理装置 |
US8594993B2 (en) * | 2011-04-04 | 2013-11-26 | Microsoft Corporation | Frame mapping approach for cross-lingual voice transformation |
-
2012
- 2012-05-18 JP JP2012115065A patent/JP5846043B2/ja not_active Expired - Fee Related
-
2013
- 2013-05-16 US US13/896,192 patent/US20130311189A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20130311189A1 (en) | 2013-11-21 |
JP2013242410A (ja) | 2013-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5846043B2 (ja) | 音声処理装置 | |
JP5961950B2 (ja) | 音声処理装置 | |
US9368103B2 (en) | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system | |
KR101492702B1 (ko) | 하모닉 로킹을 이용하여 오디오 신호를 변조하는 장치 및 방법 | |
KR101521368B1 (ko) | 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체 | |
JP5275612B2 (ja) | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 | |
CN111542875B (zh) | 声音合成方法、声音合成装置及存储介质 | |
US11289066B2 (en) | Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning | |
US20210375248A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
US11646044B2 (en) | Sound processing method, sound processing apparatus, and recording medium | |
JP6347536B2 (ja) | 音合成方法及び音合成装置 | |
JP2013164584A (ja) | 音響処理装置 | |
JP2016156938A (ja) | 歌声信号分離方法及びシステム | |
JP5573529B2 (ja) | 音声処理装置およびプログラム | |
JP2021135446A (ja) | 音響処理方法 | |
US11756558B2 (en) | Sound signal generation method, generative model training method, sound signal generation system, and recording medium | |
JP6234134B2 (ja) | 音声合成装置 | |
JP7106897B2 (ja) | 音声処理方法、音声処理装置およびプログラム | |
JP7200483B2 (ja) | 音声処理方法、音声処理装置およびプログラム | |
Wang et al. | Time-dependent recursive regularization for sound source separation | |
JP2018077280A (ja) | 音声合成方法 | |
Migneco et al. | Techniques for Modeling Expression in Plucked-Guitar Tones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150310 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151027 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151109 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5846043 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |