JP2021033129A - 音声変換装置、音声変換方法及び音声変換プログラム - Google Patents
音声変換装置、音声変換方法及び音声変換プログラム Download PDFInfo
- Publication number
- JP2021033129A JP2021033129A JP2019154703A JP2019154703A JP2021033129A JP 2021033129 A JP2021033129 A JP 2021033129A JP 2019154703 A JP2019154703 A JP 2019154703A JP 2019154703 A JP2019154703 A JP 2019154703A JP 2021033129 A JP2021033129 A JP 2021033129A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- conversion
- feature amount
- unit
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 298
- 238000000034 method Methods 0.000 title claims description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 83
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 208000002173 dizziness Diseases 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 23
- 238000004891 communication Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 2
- OSXPVFSMSBQPBU-UHFFFAOYSA-N 2-(2-carboxyethoxycarbonyl)benzoic acid Chemical compound OC(=O)CCOC(=O)C1=CC=CC=C1C(O)=O OSXPVFSMSBQPBU-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
Description
Claims (15)
- 対象者の音声から複数の部分音声の信号を取得する取得部と、
前記信号に基づいて、前記部分音声の高さを表す第1特徴量、前記部分音声の強さを表す第2特徴量及び前記部分音声の声色を表す第3特徴量を算出する算出部と、
第1変換モデルによって、前記第1特徴量をターゲットの音声の高さを表す第1変換特徴量に変換する第1変換部と、
第2変換モデルによって、前記第2特徴量を前記ターゲットの音声の強さを表す第2変換特徴量に変換する第2変換部と、
第1ニューラルネットワークによって、前記第3特徴量を前記ターゲットの音声の声色を表す第3変換特徴量に変換する第3変換部と、
前記第1変換特徴量、前記第2変換特徴量及び前記第3変換特徴量に基づいて、合成音声を生成する生成部と、
を備える音声変換装置。 - 第2ニューラルネットワークによって、前記第3特徴量を前記ターゲットの音声のかすれ具合を表す第4変換特徴量に変換する第4変換部をさらに備え、
前記生成部は、前記第1変換特徴量、前記第2変換特徴量、前記第3変換特徴量及び前記第4変換特徴量に基づいて、前記合成音声を生成する、
請求項1に記載の音声変換装置。 - 前記第3変換部は、前記第1ニューラルネットワークによって、前記複数の部分音声の声色を表す複数の第3特徴量を平滑化した値を前記第3変換特徴量に変換する、
請求項1又は2に記載の音声変換装置。 - 前記算出部は、前記部分音声より長い前記ターゲットの音声の信号に基づいて、前記ターゲットの音声の声色を表す第5特徴量を算出し、
前記第5特徴量と前記第3変換特徴量との差異を小さくするように、前記第1ニューラルネットワークのパラメータを更新することで前記第1ニューラルネットワークを学習させる第1学習部をさらに備える、
請求項1から3のいずれか一項に記載の音声変換装置。 - 前記第1学習部は、平均及び分散を規格化した前記第3特徴量を前記第1ニューラルネットワークによって変換して得られる前記第3変換特徴量と、平均及び分散を規格化した前記第5特徴量との差異を小さくするように、前記第1ニューラルネットワークの前記パラメータを更新することで前記第1ニューラルネットワークを学習させる、
請求項4に記載の音声変換装置。 - 前記算出部は、区間が重畳する前記複数の部分音声の声色を表す複数の第3特徴量を算出し、
前記第1学習部は、前記第5特徴量と前記複数の第3変換特徴量それぞれとの差異を小さくするように、前記第1ニューラルネットワークの前記パラメータを更新することで前記第1ニューラルネットワークを学習させる、
請求項4又は5に記載の音声変換装置。 - 前記算出部は、前記ターゲットの音声の信号に基づいて、前記ターゲットの音声のかすれ具合を表す第6特徴量を算出し、
前記第6特徴量と前記第4変換特徴量との差異を小さくするように、前記第2ニューラルネットワークのパラメータを更新することで前記第2ニューラルネットワークを学習させる第2学習部をさらに備える、
請求項2に記載の音声変換装置。 - 前記第1変換モデルは、前記第1特徴量を前記第1変換特徴量に線形変換する、
請求項1から7のいずれか一項に記載の音声変換装置。 - 前記第2変換モデルは、前記第2特徴量を前記第2変換特徴量に線形変換する、
請求項1から8のいずれか一項に記載の音声変換装置。 - 前記第1特徴量は、前記部分音声をフーリエ変換した場合の基本周波数である、
請求項1から9のいずれか一項に記載の音声変換装置。 - 前記第2特徴量は、前記部分音声をフーリエ変換した場合のパワーである、
請求項1から10のいずれか一項に記載の音声変換装置。 - 前記第3特徴量は、前記部分音声のメル周波数ケプストラムである、
請求項1から11のいずれか一項に記載の音声変換装置。 - 前記第4変換特徴量は、前記ターゲットの音声の帯域平均化非周期性指標である、
請求項2に記載の音声変換装置。 - 対象者の音声から複数の部分音声の信号を取得する取得部と、
前記信号に基づいて、前記部分音声の高さを表す第1特徴量、前記部分音声の強さを表す第2特徴量及び前記部分音声の声色を表す第3特徴量を算出する算出部と、
第1変換モデルによって、前記第1特徴量をターゲットの音声の高さを表す第1変換特徴量に変換する第1変換部と、
第2変換モデルによって、前記第2特徴量を前記ターゲットの音声の強さを表す第2変換特徴量に変換する第2変換部と、
第1ニューラルネットワークによって、前記第3特徴量を前記ターゲットの音声の声色を表す第3変換特徴量に変換する第3変換部と、
前記第1変換特徴量、前記第2変換特徴量及び前記第3変換特徴量に基づいて、合成音声を生成する生成部と、
を含む音声変換方法。 - 音声変換装置に備えられた演算部を、
対象者の音声から複数の部分音声の信号を取得する取得部、
前記信号に基づいて、前記部分音声の高さを表す第1特徴量、前記部分音声の強さを表す第2特徴量及び前記部分音声の声色を表す第3特徴量を算出する算出部、
第1変換モデルによって、前記第1特徴量をターゲットの音声の高さを表す第1変換特徴量に変換する第1変換部、
第2変換モデルによって、前記第2特徴量を前記ターゲットの音声の強さを表す第2変換特徴量に変換する第2変換部、
第1ニューラルネットワークによって、前記第3特徴量を前記ターゲットの音声の声色を表す第3変換特徴量に変換する第3変換部、及び
前記第1変換特徴量、前記第2変換特徴量及び前記第3変換特徴量に基づいて、合成音声を生成する生成部、
として機能させる音声変換プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019154703A JP2021033129A (ja) | 2019-08-27 | 2019-08-27 | 音声変換装置、音声変換方法及び音声変換プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019154703A JP2021033129A (ja) | 2019-08-27 | 2019-08-27 | 音声変換装置、音声変換方法及び音声変換プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021033129A true JP2021033129A (ja) | 2021-03-01 |
Family
ID=74675795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019154703A Pending JP2021033129A (ja) | 2019-08-27 | 2019-08-27 | 音声変換装置、音声変換方法及び音声変換プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021033129A (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097267A (ja) * | 1996-09-24 | 1998-04-14 | Hitachi Ltd | 声質変換方法および装置 |
JPH1097287A (ja) * | 1996-07-30 | 1998-04-14 | Atr Ningen Joho Tsushin Kenkyusho:Kk | 周期信号変換方法、音変換方法および信号分析方法 |
JPH1185194A (ja) * | 1997-09-04 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 声質変換音声合成装置 |
JP2018136430A (ja) * | 2017-02-21 | 2018-08-30 | 日本電信電話株式会社 | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム |
WO2018159612A1 (ja) * | 2017-02-28 | 2018-09-07 | 国立大学法人電気通信大学 | 声質変換装置、声質変換方法およびプログラム |
JP2019035902A (ja) * | 2017-08-18 | 2019-03-07 | 日本電信電話株式会社 | 距離測定装置、データ変換装置、距離測定方法、及びプログラム |
-
2019
- 2019-08-27 JP JP2019154703A patent/JP2021033129A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097287A (ja) * | 1996-07-30 | 1998-04-14 | Atr Ningen Joho Tsushin Kenkyusho:Kk | 周期信号変換方法、音変換方法および信号分析方法 |
JPH1097267A (ja) * | 1996-09-24 | 1998-04-14 | Hitachi Ltd | 声質変換方法および装置 |
JPH1185194A (ja) * | 1997-09-04 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 声質変換音声合成装置 |
JP2018136430A (ja) * | 2017-02-21 | 2018-08-30 | 日本電信電話株式会社 | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム |
WO2018159612A1 (ja) * | 2017-02-28 | 2018-09-07 | 国立大学法人電気通信大学 | 声質変換装置、声質変換方法およびプログラム |
JP2019035902A (ja) * | 2017-08-18 | 2019-03-07 | 日本電信電話株式会社 | 距離測定装置、データ変換装置、距離測定方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5275612B2 (ja) | 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法 | |
JP3266819B2 (ja) | 周期信号変換方法、音変換方法および信号分析方法 | |
CN111833843A (zh) | 语音合成方法及系统 | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
Hayes et al. | A review of differentiable digital signal processing for music and speech synthesis | |
CN112837670A (zh) | 语音合成方法、装置及电子设备 | |
JP3014177B2 (ja) | 話者適応音声認識装置 | |
JP2018077283A (ja) | 音声合成方法 | |
JP2021033129A (ja) | 音声変換装置、音声変換方法及び音声変換プログラム | |
JP7103390B2 (ja) | 音響信号生成方法、音響信号生成装置およびプログラム | |
JPH0777979A (ja) | 音声制御音響変調装置 | |
JP6831767B2 (ja) | 音声認識方法、装置およびプログラム | |
JP7334942B2 (ja) | 音声変換装置、音声変換方法及び音声変換プログラム | |
JP7421827B2 (ja) | 音声変換装置、音声変換方法及び音声変換プログラム | |
CN116189705A (zh) | 音频节奏点提取方法、基于节奏点的控制方法及电子装置 | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
CN113113033A (zh) | 一种音频处理方法、设备及可读存储介质 | |
Yoneyama et al. | High-fidelity and pitch-controllable neural vocoder based on unified source-filter networks | |
Hanna et al. | Time scale modification of noises using a spectral and statistical model | |
JP6764843B2 (ja) | 信号解析装置、方法、及びプログラム | |
WO2020032177A1 (ja) | 時系列データの周波数成分ベクトルを生成する方法及び装置 | |
JP2020204651A (ja) | 音声処理装置、および音声処理方法 | |
WO2020171034A1 (ja) | 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム | |
Su et al. | A new automatic IIR analysis/synthesis technique for plucked-string instruments | |
JP2018077281A (ja) | 音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20190924 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230529 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230531 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231120 |