JP6773634B2 - 音声変換装置、音声変換方法及びプログラム - Google Patents
音声変換装置、音声変換方法及びプログラム Download PDFInfo
- Publication number
- JP6773634B2 JP6773634B2 JP2017241027A JP2017241027A JP6773634B2 JP 6773634 B2 JP6773634 B2 JP 6773634B2 JP 2017241027 A JP2017241027 A JP 2017241027A JP 2017241027 A JP2017241027 A JP 2017241027A JP 6773634 B2 JP6773634 B2 JP 6773634B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- conversion
- information vector
- recognition unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
図1は、VAEに基づく音声変換のネットワーク構造を示す。図内の矢印は情報が流れる方向を示す。このネットワーク構造は、上記非特許文献1に記載される従来技術である。図2は、本発明の実施例1のネットワーク構造を概略的に示す。従来技術と実施例1との違いの1つは、従来技術では、入力された音声特徴量(スペクトルパラメータ)のみからVAEの潜在変数Zへの変換、及び、音声特徴量(スペクトルパラメータ)への復元を行っているのに対し、実施例1では音声認識部の出力としての音韻情報ベクトルをVAEのエンコーダ及びデコーダに与える点である。下記では、図3〜図5を参照して、実施例1の音声変換装置Sの各機能を詳細に説明するが、音声変換装置Sが有する他の機能を排除することを意図したものではない。
上記実施例1では、話者情報ベクトル変換部8は、話者情報ベクトルとしてone-hot表現を使用する。この場合、話者情報ベクトル変換部8は、学習に使用した話者の音声特徴量から、学習に使用した別の話者の音声特徴量へ変換することは可能である。しかし、学習に使用されていない話者の音声特徴量へ変換することはできない。
Ehsan Variani, et al. "DEEP NEURAL NETWORKS FOR SMALL FOOTPRINT TEXT-DEPENDENT SPEAKER VERIFICATION," Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014: pp.4052-4056.
1 音声特徴量DB
2 モデル学習部
3 音声認識部
4 音声認識モデルDB
5 エンコーダ
6 デコーダ
7 VAEモデルDB
8 話者情報ベクトル変換部
9 音声波形生成部
10 第1の話者認識部
11 話者認識モデルDB
12 第2の話者認識部
Claims (8)
- 音声認識部と、Variational AutoEncoder(VAE)のエンコーダと、VAEのデコーダと、話者情報ベクトル変換部とを有する音声変換装置において、
前記音声認識部は、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、
前記エンコーダは、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Zを生成し、
前記話者情報ベクトル変換部は、前記変換元話者の話者情報ベクトルを変換対象話者の話者情報ベクトルへ変換し、
前記デコーダは、前記音韻情報ベクトルと、前記潜在変数Zと、前記変換対象話者の話者情報ベクトルとに基づいて、前記変換対象話者の音声特徴量を生成する、
音声変換装置。 - 音声認識部と、Variational AutoEncoder(VAE)のエンコーダと、VAEのデコーダと、話者情報ベクトル変換部と、第1の話者認識部と、第2の話者認識部とを有する音声変換装置において、
前記音声認識部は、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、
前記エンコーダは、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Zを生成し、
前記第1の話者認識部は、変換対象話者の音声特徴量に基づいて前記変換元話者の話者情報ベクトルを生成し、
前記第2の話者認識部は、前記変換対象話者の音声特徴量に基づいて、前記変換対象話者の部分的話者情報ベクトルを生成し、
前記話者情報ベクトル変換部は、前記変換元話者の話者情報ベクトルと、前記変換対象話者の部分的話者情報ベクトルとを、前記変換対象話者の類似話者情報ベクトルへ変換し、
前記デコーダは、前記音韻情報ベクトルと、前記潜在変数Zと、前記変換対象話者の類似話者情報ベクトルとに基づいて、前記変換対象話者の類似音声特徴量を生成する、
音声変換装置。 - 請求項2に記載の音声変換装置において、
前記第1の話者認識部及び前記第2の話者認識部は、音声特徴量をフレームごとに処理し、
音声特徴量のフレームごとに異なる話者情報ベクトルを用いて学習を実行するモデル学習部を更に含む、
音声変換装置。 - 請求項2に記載の音声変換装置において、
前記第1の話者認識部及び前記第2の話者認識部の出力を発話単位で平均した値を話者情報ベクトルとして使用して学習を行うモデル学習部を更に含む、
音声変換装置。 - 請求項1乃至4に記載の音声変換装置において、
前記音声特徴量は、音高パラメータ及びスペクトルパラメータの少なくとも一方を含む、音声変換装置。 - 音声認識部と、Variational AutoEncoder(VAE)のエンコーダと、VAEのデコーダと、話者情報ベクトル変換部とを有する音声変換装置における音声変換方法において、
前記音声認識部により、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、
前記エンコーダにより、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Zを生成し、
前記話者情報ベクトル変換部により、前記変換元話者の話者情報ベクトルを変換対象話者の話者情報ベクトルへ変換し、
前記デコーダにより、前記音韻情報ベクトルと、前記潜在変数Zと、前記変換対象話者の話者情報ベクトルとに基づいて、前記変換対象話者の音声特徴量を生成する、
音声変換方法。 - 音声認識部と、Variational AutoEncoder(VAE)のエンコーダと、VAEのデコーダと、話者情報ベクトル変換部と、第1の話者認識部と、第2の話者認識部とを有する音声変換装置における音声変換方法において、
前記音声認識部により、変換元話者の音声特徴量に基づいて音韻情報ベクトルを生成し、
前記エンコーダにより、前記音韻情報ベクトルと前記変換元話者の音声特徴量とに基づいて潜在変数Zを生成し、
前記第1の話者認識部により、変換対象話者の音声特徴量に基づいて前記変換元話者の話者情報ベクトルを生成し、
前記第2の話者認識部により、前記変換対象話者の音声特徴量に基づいて、前記変換対象話者の部分的話者情報ベクトルを生成し、
前記話者情報ベクトル変換部により、前記変換元話者の話者情報ベクトルと、前記変換対象話者の部分的話者情報ベクトルとを、前記変換対象話者の類似話者情報ベクトルへ変換し、
前記デコーダにより、前記音韻情報ベクトルと、前記潜在変数Zと、前記変換対象話者の類似話者情報ベクトルとに基づいて、前記変換対象話者の類似音声特徴量を生成する、
音声変換方法。 - コンピュータを、請求項1乃至5のいずれか一項に記載の音声変換装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017241027A JP6773634B2 (ja) | 2017-12-15 | 2017-12-15 | 音声変換装置、音声変換方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017241027A JP6773634B2 (ja) | 2017-12-15 | 2017-12-15 | 音声変換装置、音声変換方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019109306A JP2019109306A (ja) | 2019-07-04 |
JP6773634B2 true JP6773634B2 (ja) | 2020-10-21 |
Family
ID=67179649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017241027A Active JP6773634B2 (ja) | 2017-12-15 | 2017-12-15 | 音声変換装置、音声変換方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6773634B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102460676B1 (ko) | 2019-05-07 | 2022-10-31 | 한국전자통신연구원 | 밀집 연결된 하이브리드 뉴럴 네트워크를 이용한 음성 처리 장치 및 방법 |
CN110260925B (zh) * | 2019-07-12 | 2021-06-25 | 重庆赛迪奇智人工智能科技有限公司 | 司机停车技术优劣的检测方法及其系统、智能推荐方法、电子设备 |
CN112289304B (zh) * | 2019-07-24 | 2024-05-31 | 中国科学院声学研究所 | 一种基于变分自编码器的多说话人语音合成方法 |
ES2964322T3 (es) * | 2019-12-30 | 2024-04-05 | Tmrw Found Ip Sarl | Sistema y método de conversión de voz multilingüe |
CN112259072B (zh) * | 2020-09-25 | 2024-07-26 | 北京百度网讯科技有限公司 | 语音转换方法、装置和电子设备 |
CN112331183B (zh) * | 2020-10-27 | 2022-03-18 | 中科极限元(杭州)智能科技股份有限公司 | 基于自回归网络的非平行语料语音转换方法及系统 |
CN112750446B (zh) * | 2020-12-30 | 2024-05-24 | 标贝(青岛)科技有限公司 | 语音转换方法、装置和系统及存储介质 |
CN112509559B (zh) * | 2021-02-03 | 2021-04-13 | 北京世纪好未来教育科技有限公司 | 音频识别方法、模型训练方法、装置、设备及存储介质 |
CN113450761B (zh) * | 2021-06-17 | 2023-09-22 | 清华大学深圳国际研究生院 | 一种基于变分自编码器的并行语音合成方法和装置 |
CN115457969A (zh) * | 2022-09-06 | 2022-12-09 | 平安科技(深圳)有限公司 | 基于人工智能的语音转换方法、装置、计算机设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101351841B (zh) * | 2005-12-02 | 2011-11-16 | 旭化成株式会社 | 音质转换系统 |
JP6543820B2 (ja) * | 2015-06-04 | 2019-07-17 | 国立大学法人電気通信大学 | 声質変換方法および声質変換装置 |
EP3438972B1 (en) * | 2016-03-28 | 2022-01-26 | Sony Group Corporation | Information processing system and method for generating speech |
-
2017
- 2017-12-15 JP JP2017241027A patent/JP6773634B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019109306A (ja) | 2019-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6773634B2 (ja) | 音声変換装置、音声変換方法及びプログラム | |
US11664020B2 (en) | Speech recognition method and apparatus | |
CN109147758B (zh) | 一种说话人声音转换方法及装置 | |
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
Fazel et al. | Synthasr: Unlocking synthetic data for speech recognition | |
US7996222B2 (en) | Prosody conversion | |
JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
US11315548B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
WO2016172871A1 (zh) | 基于循环神经网络的语音合成方法 | |
KR102319753B1 (ko) | 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치 | |
JP7192882B2 (ja) | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム | |
EP4068279B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
JP6542823B2 (ja) | 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム | |
JP7146038B2 (ja) | 音声認識システム及び方法 | |
Das et al. | Deep Auto-Encoder Based Multi-Task Learning Using Probabilistic Transcriptions. | |
JP7028311B2 (ja) | 学習用音声データ生成装置、その方法、およびプログラム | |
JP6000326B2 (ja) | 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム | |
WO2020166359A1 (ja) | 推定装置、推定方法、及びプログラム | |
JP6167063B2 (ja) | 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP6748607B2 (ja) | 音声合成学習装置、音声合成装置、これらの方法及びプログラム | |
JP2021099454A (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
US20240119922A1 (en) | Text to speech synthesis without using parallel text-audio data | |
JP2023171025A (ja) | 学習装置、学習方法、および、学習プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200908 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200929 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201001 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6773634 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |