JP2011059146A - 音声変換装置および音声変換方法 - Google Patents
音声変換装置および音声変換方法 Download PDFInfo
- Publication number
- JP2011059146A JP2011059146A JP2009205349A JP2009205349A JP2011059146A JP 2011059146 A JP2011059146 A JP 2011059146A JP 2009205349 A JP2009205349 A JP 2009205349A JP 2009205349 A JP2009205349 A JP 2009205349A JP 2011059146 A JP2011059146 A JP 2011059146A
- Authority
- JP
- Japan
- Prior art keywords
- conversion function
- conversion
- voice
- vowel
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 615
- 238000000034 method Methods 0.000 title claims abstract description 156
- 230000003595 spectral effect Effects 0.000 claims description 102
- 230000015572 biosynthetic process Effects 0.000 claims description 90
- 238000003786 synthesis reaction Methods 0.000 claims description 90
- 230000000737 periodic effect Effects 0.000 claims description 34
- 230000002194 synthesizing effect Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 abstract description 460
- 230000008569 process Effects 0.000 description 95
- 238000001228 spectrum Methods 0.000 description 75
- 238000009826 distribution Methods 0.000 description 28
- 238000013461 design Methods 0.000 description 27
- 238000004458 analytical method Methods 0.000 description 26
- 238000003860 storage Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 19
- 238000000605 extraction Methods 0.000 description 17
- 230000014509 gene expression Effects 0.000 description 16
- 230000009466 transformation Effects 0.000 description 15
- 238000012938 design process Methods 0.000 description 14
- 238000002156 mixing Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 239000002131 composite material Substances 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008602 contraction Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 学習部10は、変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数を母音ごとに生成した後、生成した母音ごとの個別変換関数を合成して、変換対象の話者の音声を変換目標の話者の音声に変換する実行用合成変換関数を生成するための変換関数合成用汎関数を生成する。実行部20は、学習部10で生成された母音ごとの個別変換関数および変換関数合成用汎関数を含む変換関数に基づいて、実行用合成変換関数を生成し、生成した実行用合成変換関数を用いて、変換対象の話者の音声を変換目標の話者の音声に変換する。
【選択図】 図1
Description
変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数を母音ごとに生成する生成ステップを含むことを特徴とする音声変換方法である。
処理B2では、変換関数生成部13は、周波数軸変換関数の初期値を用いて、周波数軸変換関数候補を設定する。すなわち、周波数軸変換関数候補は、設定した初期値を代入した関数である。
処理B4では、変換関数生成部13は、記憶装置から変換対象音声のラベル情報を読み出す。処理B5では、変換関数生成部13は、目標話者の母音の音声データから、目標話者の母音のスペクトル包絡を求める。処理B6では、変換関数生成部13は、記憶装置から目標話者のラベル情報を読み出す。
処理B10では、変換関数生成部13は、学習された周波数軸変換関数を記憶装置に記憶し、そして、処理B11では、変換関数生成部13は、設計された音声テンプレートを記憶装置に記憶し、周波数軸変換関数設計処理手順を終了する。
Moore:“An introduction to psychology of hearing, 5th edition”,
Academic Press,San Diego, CA (2003).(邦訳は「聴覚心理学概論」ただし、第三版の訳)」)を用いる。周波数軸をERBN numberを用いて非線形変換してfERBとすると、fERBは、周波数fの関数として式(3)のように表される。
非周期性指標距離は、式(15)によって与えられる。
三種類の変換関数とは、周波数軸変換関数、スペクトル概形変換関数および非周期性指標変換関数のことである。変換関数合成用汎関数設計処理手順は、図3の処理A7で実行される。
Pr(X<dθ) …(22)
Pr(X>dθ) …(23)
処理F11では、変換音声合成部23は、音声合成した音声データを音声出力装置に送り、音声合成した音声を出力し、第1の音声合成処理手順を終了する。
代表的なフレームの選択では、まず、それぞれのラベル付けられた母音区間を代表するようなフレームを選択するために、予め、スペクトル包絡をMFCCに変換しておく。ここでは、M(k,t)で表すこととする。
このようにすることで、様々な原因で生ずる離れ値の影響を受けない代表を選択することができる。
実線は、対象話者の母音テンプレートであり、破線は、話者の母音テンプレートである。目標図14の母音テンプレートでは、ピークの位置も、スペクトル全体の傾きや強くなっている部分なども目標話者と対象話者とでは異なっていることが分かる。なお、ここでは、人間の知覚特性と同じような見方でスペクトルを表示するために、対数周波数軸を用いている。
fERB=21.4log10(0.00437f+1) …(34)
introduction to psychology of hearing, 5th edition”, Academic Press,San Diego,
CA (2003).(邦訳は「聴覚心理学概論」ただし、第三版の訳)」に記載されている。こうして求めた対象話者と目標話者との母音テンプレートに共通する特性の違いを用いて、母音テンプレートを補償しておく。
level(%)」と記す)であり、誤判断の確率を表している。誤判断の確率とは、目標話者の母音テンプレートと、同じ母音カテゴリに属する母音ラベルが付されている対象話者の母音区間を代表するスペクトル包絡との間の距離の分布と、異なる母音カテゴリに属する母音ラベルが付されている対象話者の母音区間を代表するスペクトル包絡との間の距離の分布とが交差する距離を閾値として母音カテゴリを判断した場合の誤判断の確率を表している。
10 学習部
11 変換対象音声パラメタ抽出部
12 変換目標音声パラメタ抽出部
13 変換関数生成部
20 実行部
21 部
22 変換関数合成用汎関数生成部
23 変換音声合成部
30 個別変換関数
31 母音変換関数
32 母音別変換関数
33 周波数軸変換関数
34 スペクトル概形変換関数
35 非周期性指標変換関数
39 基本周波数変換関数
40 変換関数合成用汎関数
43 スペクトル包絡変換関数合成汎関数
44 周波数軸変換関数合成汎関数
45 非周期性指標変換関数合成汎関数
50 実行用合成変換関数
Claims (5)
- 変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数を母音ごとに生成する生成部を含むことを特徴とする音声変換装置。
- 前記生成部は、前記母音ごとの個別変換関数を生成した後、生成した母音ごとの個別変換関数を合成して変換対象の話者の音声を変換目標の話者の音声に変換する実行時変換関数を生成するための変換関数合成用汎関数を生成することを特徴とする請求項1に記載の音声変換装置。
- 前記生成部で生成された前記母音ごとの個別変換関数および前記変換関数合成用汎関数を含む変換関数に基づいて前記実行時変換関数を生成し、生成した実行時変換関数を用いて、変換対象の話者の音声を変換目標の話者の音声に変換する変換部をさらに含むことを特徴とする請求項2に記載の音声変換装置。
- 前記生成部は、前記母音ごとの個別変換関数として、変換対象の話者の音声と変換目標の話者の音声との周波数軸の対応関係に基づいて周波数軸を変換する周波数軸変換関数、周波数軸変換関数によって変換された周波数軸の上でのスペクトル包絡の概形の違いを少なくするように変換するスペクトル概形変換関数、および音声の中の周期的な成分と非周期的な成分との割合を示す非周期性指標を変換する非同期性指標変換関数を生成することを特徴とする請求項1〜3のいずれか1つに記載の音声変換装置。
- 変換対象の話者の音声を変換目標の話者の音声に変換する音声変換装置が音声を変換する音声変換方法であって、
変換対象の話者の母音の音声と変換目標の話者の母音の音声とに基づいて、変換対象の話者の音声を変換目標の話者の音声に変換するための個別変換関数を母音ごとに生成する生成ステップを含むことを特徴とする音声変換方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009205349A JP5545935B2 (ja) | 2009-09-04 | 2009-09-04 | 音声変換装置および音声変換方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009205349A JP5545935B2 (ja) | 2009-09-04 | 2009-09-04 | 音声変換装置および音声変換方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011059146A true JP2011059146A (ja) | 2011-03-24 |
JP5545935B2 JP5545935B2 (ja) | 2014-07-09 |
Family
ID=43946895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009205349A Expired - Fee Related JP5545935B2 (ja) | 2009-09-04 | 2009-09-04 | 音声変換装置および音声変換方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5545935B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013218147A (ja) * | 2012-04-10 | 2013-10-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム |
JP2013242410A (ja) * | 2012-05-18 | 2013-12-05 | Yamaha Corp | 音声処理装置 |
WO2019116889A1 (ja) * | 2017-12-12 | 2019-06-20 | ソニー株式会社 | 信号処理装置および方法、学習装置および方法、並びにプログラム |
JP2019144404A (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481735A (zh) * | 2017-08-28 | 2017-12-15 | 中国移动通信集团公司 | 一种转换音频发声的方法、服务器及计算机可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09244694A (ja) * | 1996-03-05 | 1997-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 声質変換方法 |
-
2009
- 2009-09-04 JP JP2009205349A patent/JP5545935B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09244694A (ja) * | 1996-03-05 | 1997-09-19 | Nippon Telegr & Teleph Corp <Ntt> | 声質変換方法 |
Non-Patent Citations (2)
Title |
---|
CSNG200700778003; 高橋、外5名: '母音情報に基づく話者変換システムの提案' 電子情報通信学会技術研究報告 Vol.106,No.613, 20070319, p. 13-18, 社団法人電子情報通信学会 * |
JPN6013022490; 高橋、外5名: '母音情報に基づく話者変換システムの提案' 電子情報通信学会技術研究報告 Vol.106,No.613, 20070319, p. 13-18, 社団法人電子情報通信学会 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013218147A (ja) * | 2012-04-10 | 2013-10-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム |
JP2013242410A (ja) * | 2012-05-18 | 2013-12-05 | Yamaha Corp | 音声処理装置 |
WO2019116889A1 (ja) * | 2017-12-12 | 2019-06-20 | ソニー株式会社 | 信号処理装置および方法、学習装置および方法、並びにプログラム |
CN111465982A (zh) * | 2017-12-12 | 2020-07-28 | 索尼公司 | 信号处理设备和方法、训练设备和方法以及程序 |
US11894008B2 (en) | 2017-12-12 | 2024-02-06 | Sony Corporation | Signal processing apparatus, training apparatus, and method |
CN111465982B (zh) * | 2017-12-12 | 2024-10-15 | 索尼公司 | 信号处理设备和方法、训练设备和方法以及程序 |
JP2019144404A (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
WO2019163848A1 (ja) * | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5545935B2 (ja) | 2014-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
Banbrook et al. | Speech characterization and synthesis by nonlinear methods | |
JP4241736B2 (ja) | 音声処理装置及びその方法 | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP5269668B2 (ja) | 音声合成装置、プログラム、及び方法 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP5194197B2 (ja) | 声質変換システム、声質変換装置及びその方法、声道情報生成装置及びその方法 | |
JP5545935B2 (ja) | 音声変換装置および音声変換方法 | |
Bellegarda et al. | Statistical prosodic modeling: from corpus design to parameter estimation | |
Al-Radhi et al. | Time-Domain Envelope Modulating the Noise Component of Excitation in a Continuous Residual-Based Vocoder for Statistical Parametric Speech Synthesis. | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP5726822B2 (ja) | 音声合成装置、方法及びプログラム | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
JP4247289B1 (ja) | 音声合成装置、音声合成方法およびそのプログラム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP5320341B2 (ja) | 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム | |
JP4841339B2 (ja) | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム | |
Mishra et al. | Decomposition of pitch curves in the general superpositional intonation model | |
JP2004279436A (ja) | 音声合成装置及びコンピュータプログラム | |
JP6523423B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2011141470A (ja) | 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム | |
JP4793776B2 (ja) | イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム | |
JP3737788B2 (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
JP2005181998A (ja) | 音声合成装置および音声合成方法 | |
CN113421544B (zh) | 歌声合成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140403 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140512 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5545935 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |