CN109377986A - 一种非平行语料语音个性化转换方法 - Google Patents

一种非平行语料语音个性化转换方法 Download PDF

Info

Publication number
CN109377986A
CN109377986A CN201811443776.5A CN201811443776A CN109377986A CN 109377986 A CN109377986 A CN 109377986A CN 201811443776 A CN201811443776 A CN 201811443776A CN 109377986 A CN109377986 A CN 109377986A
Authority
CN
China
Prior art keywords
target voice
phoneme
chinese
voice
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811443776.5A
Other languages
English (en)
Other versions
CN109377986B (zh
Inventor
周琳岷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201811443776.5A priority Critical patent/CN109377986B/zh
Publication of CN109377986A publication Critical patent/CN109377986A/zh
Application granted granted Critical
Publication of CN109377986B publication Critical patent/CN109377986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种非平行语料语音个性化转换方法,包括以下步骤:根据文本采集目标语音;将目标语音的中文音素对齐,得到每个中文音素对应的音频;提取中文音素对应的音频特征和音素信息;训练HMM‑GMM语音识别模型,并将提取的音频特征和音素信息输入到HMM‑GMM语音识别模型中,得到目标语音音频特征与对应的中文音素之间的印射模型,用于对中文音素进行预测并训练第一CHBG网络;再通过对其训练DNN语言模型得到目标语音的PULSE;通过训练第二CHBG网络得到原语音的中文音素对应的PULSE与目标语音的中文音素对应的PULSE的对应模型;将DNN语言模型和CHBG网络串联即可将原语音转换为目标语音。本发明解决了目前的声音个性化算法需要先找到平行语音数据,训练时间较长的问题。

Description

一种非平行语料语音个性化转换方法
技术领域
本发明涉及语音个性化技术领域,特别是一种非平行语料语音个性化转换方法。
背景技术
随着智能化家居的发展,语音个性化技术在越来越多的领域得到了应用。语音播报技术的发展大大方便了人们的生活,提高了生活的品质。现在的语音个性化技术大多通过个性化目标与本人的平行语料,提取声纹特征后进行矩阵变化,例如DTW,对语音语料的要求比较高,耗时也比较多。
发明内容
为解决现有技术中存在的问题,本发明的目的是提供一种非平行语料语音个性化转换方法,本发明解决了目前的声音个性化算法需要先找到平行语音数据,训练时间较长的问题。
为实现上述目的,本发明采用的技术方案是:一种非平行语料语音个性化转换方法,包括以下步骤:
S1、根据文本采集目标语音,并对目标语音的文本和语音进行修正;
S2、将目标语音的中文音素对齐,得到目标语音中每个中文音素对应的音频;
S3、提取中文音素对应的音频特征和音素信息;
S4、训练HMM-GMM语音识别模型,并将提取的音频特征和音素信息输入到HMM-GMM语音识别模型中,得到目标语音音频特征与对应的中文音素之间的印射模型,印射模型用于对中文音素进行预测,通过预测的中文音素训练第一CHBG网络;
S5、目标语音的中文音素通过第一CHBG网络训练后,再通过对其训练DNN语言模型得到目标语音的音频特征对应的中文音素,并根据中文音素得到目标语音的PULSE;
S6、通过训练第二CHBG网络得到原语音的中文音素对应的PULSE与目标语音的中文音素对应的PULSE的对应模型;
S7、将DNN语言模型和CHBG网络串联即可将原语音转换为目标语音。
作为一种优选的实施方式,所述步骤S1中在录音棚中采集至少1000句同一人物的语音作为目标语音,语音的采样频率为48000Hz,所采集的目标语音中包含22个声母,39个韵母以及声调组合成的217个中文音素。
作为另一种优选的实施方式,所述步骤S2中,将目标语音的中文音素对齐的具体步骤为通过人工分割得到目标语音的音频分割后的label文件,通过HMM-GMM语音识别模型对其进行训练,得到目标语音中每个中文音素对应的音频。
作为另一种优选的实施方式,所述步骤S3中,提取的音频特征包括LSF特征、HNR特征和GAIN特征,采用加窗分帧的傅里叶变化进行提取,其中窗长为0.025s,采样频率为16000Hz,对音频特征进行提取时,F0特征1维,GAIN特征1维,HNR特征5维,LSFsource特征10维,LSF特征30维。
作为另一种优选的实施方式,所述CHBG网络包括:
卷积神经网络(Converlution),用于对原语音的音频进行特征训练,且卷积神经网络包括256个卷积核,采用depthwise convolution提高了卷积运算的速度;
高速神经网络(Highwaynet),用于处理卷积信息,并对卷积结果进行归一化;
双向神经网络(Bi-directional),用于对不同时刻的高速神经网络的参数进行更新;
GRU神经网络,GRU神经网络作为LSTM的一种变体,用于将忘记门和输入门合成一个单一的更新门。
作为另一种优选的实施方式,所述步骤S7具体如下:
将DNN语言模型和CHBG网络串联,以原语音的中文音素对应的PULSE与目标语音的中文音素对应的PULSE作为中间媒介将原语音转换为目标语音,并通过PULSEMODEL后端处理工具将PULSE进行合成。
本发明通过对目标语音的音频训练HMM-GMM语音识别模型,利用LSF(LineSpectral Frequencies),GAIN,HNR(Harmonic-To-Noise Ratio)音频特征进行音频的对应中文音素前端对齐和分割,并将对应中文音素通过深度学习的第一CHBG网络和DNN语言模型得到目标语音的PULSE,再通过训练第二CHBG网络得到原语音的中文音素对应的PULSE与目标语音的中文音素对应的PULSE的对应模型,转换时将和第二CHBG网络混合在一起,通过DNN语言模型找到对应中文音素在目标语音中的PULSE,再通过第二CHBG网络得到原语音对应的中文音素的在目标语音中的PULSE,将中文音素作为训练的桥梁,将不同声音特征的目标语音和原语音的PULSE关联起来,即可完成原语音到目标语音的转换。
本发明的有益效果是:
本发明提供的非平行语料语音个性化转换方法,利用深度学习网络,不需要原声音和目标声音采用相同的文本,即可根据对应的中文音素作为中间媒介实现音素的转化,本发明可应用于语音个性化领域,但不仅限于该领域。
附图说明
图1为本发明实施例非平行语料语音个性化转换方法的示意图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
实施例
如图1所示,一种非平行语料语音个性化转换方法,包括以下步骤:
S1、根据文本采集目标语音,并对目标语音的文本和语音进行修正;
S2、将目标语音的中文音素对齐,得到目标语音中每个中文音素对应的音频;
S3、提取中文音素对应的音频特征和音素信息;
S4、训练HMM-GMM语音识别模型,并将提取的音频特征和音素信息输入到HMM-GMM语音识别模型中,得到目标语音音频特征与对应的中文音素之间的印射模型,印射模型用于对中文音素进行预测,通过预测的中文音素训练第一CHBG网络;
S5、目标语音的中文音素通过第一CHBG网络训练后,再通过对其训练DNN语言模型得到目标语音的音频特征对应的中文音素,并根据中文音素得到目标语音的PULSE;
S6、通过训练第二CHBG网络得到原语音的中文音素对应的PULSE与目标语音的中文音素对应的PULSE的对应模型;
S7、将DNN语言模型和CHBG网络串联即可将原语音转换为目标语音。
本实施例中,所述步骤S1中在录音棚中采集至少1000句同一人物的语音作为目标语音,语音的采样频率为48000Hz,所采集的目标语音中包含22个声母,39个韵母以及声调组合成的217个中文音素。
本实施例中,所述步骤S2中,将目标语音的中文音素对齐的具体步骤为通过人工分割得到目标语音的音频分割后的label文件,通过HMM-GMM语音识别模型对其进行训练,得到目标语音中每个中文音素对应的音频。
本实施例中,所述步骤S3中,提取的音频特征包括LSF特征、HNR特征和GAIN特征,采用加窗分帧的傅里叶变化进行提取,其中窗长为0.025s,采样频率为16000Hz,对音频特征进行提取时,F0特征1维,GAIN特征1维,HNR特征5维,LSFsource特征10维,LSF特征30维。
本实施例中,所述CHBG网络包括:
卷积神经网络(Converlution),用于对原语音的音频进行特征训练,且卷积神经网络包括256个卷积核,采用depthwise convolution提高了卷积运算的速度;
高速神经网络(Highwaynet),用于处理卷积信息,并对卷积结果进行归一化;
双向神经网络(Bi-directional),用于对不同时刻的高速神经网络的参数进行更新;
GRU神经网络,GRU神经网络作为LSTM的一种变体,用于将忘记门和输入门合成一个单一的更新门。
本实施例中,所述步骤S7具体如下:
将DNN语言模型和CHBG网络串联,以原语音的中文音素对应的PULSE与目标语音的中文音素对应的PULSE作为中间媒介将原语音转换为目标语音,并通过PULSEMODEL后端处理工具将PULSE进行合成。
本实施例通过对目标语音的音频训练HMM-GMM语音识别模型,利用LSF(LineSpectral Frequencies),GAIN,HNR(Harmonic-To-Noise Ratio)音频特征进行音频的对应中文音素前端对齐和分割,并将对应中文音素通过深度学习的第一CHBG网络和DNN语言模型得到目标语音的PULSE,再通过训练第二CHBG网络得到原语音的中文音素对应的PULSE与目标语音的中文音素对应的PULSE的对应模型,转换时将和第二CHBG网络混合在一起,通过DNN语言模型找到对应中文音素在目标语音中的PULSE,再通过第二CHBG网络得到原语音对应的中文音素的在目标语音中的PULSE,将中文音素作为训练的桥梁,将不同声音特征的目标语音和原语音的PULSE关联起来,即可完成原语音到目标语音的转换。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (6)

1.一种非平行语料语音个性化转换方法,其特征在于,包括以下步骤:
S1、根据文本采集目标语音,并对目标语音的文本和语音进行修正;
S2、将目标语音的中文音素对齐,得到目标语音中每个中文音素对应的音频;
S3、提取中文音素对应的音频特征和音素信息;
S4、训练HMM-GMM语音识别模型,并将提取的音频特征和音素信息输入到HMM-GMM语音识别模型中,得到目标语音音频特征与对应的中文音素之间的印射模型,印射模型用于对中文音素进行预测,通过预测的中文音素训练第一CHBG网络;
S5、目标语音的中文音素通过第一CHBG网络训练后,再通过对其训练DNN语言模型得到目标语音的音频特征对应的中文音素,并根据中文音素得到目标语音的PULSE;
S6、通过训练第二CHBG网络得到原语音的中文音素对应的PULSE与目标语音的中文音素对应的PULSE的对应模型;
S7、将DNN语言模型和CHBG网络串联即可将原语音转换为目标语音。
2.根据权利要求1所述的非平行语料语音个性化转换方法,其特征在于,所述步骤S1中在录音棚中采集至少1000句同一人物的语音作为目标语音,语音的采样频率为48000Hz,所采集的目标语音中包含22个声母,39个韵母以及声调组合成的217个中文音素。
3.根据权利要求1所述的非平行语料语音个性化转换方法,其特征在于,所述步骤S2中,将目标语音的中文音素对齐的具体步骤为通过人工分割得到目标语音的音频分割后的label文件,通过HMM-GMM语音识别模型对其进行训练,得到目标语音中每个中文音素对应的音频。
4.根据权利要求1所述的非平行语料语音个性化转换方法,其特征在于,所述步骤S3中,提取的音频特征包括LSF特征、HNR特征和GAIN特征,采用加窗分帧的傅里叶变化进行提取,其中窗长为0.025s,采样频率为16000Hz,对音频特征进行提取时,F0特征1维,GAIN特征1维,HNR特征5维,LSFsource特征10维,LSF特征30维。
5.根据权利要求1所述的非平行语料语音个性化转换方法,其特征在于,所述CHBG网络包括:
卷积神经网络,用于对原语音的音频进行特征训练,且卷积神经网络包括256个卷积核,采用depthwise convolution提高了卷积运算的速度;
高速神经网络,用于处理卷积信息,并对卷积结果进行归一化;
双向神经网络,用于对不同时刻的高速神经网络的参数进行更新;
GRU神经网络,用于将忘记门和输入门合成一个单一的更新门。
6.根据权利要求1所述的非平行语料语音个性化转换方法,其特征在于,所述步骤S7具体如下:
将DNN语言模型和CHBG网络串联,以原语音的中文音素对应的PULSE与目标语音的中文音素对应的PULSE作为中间媒介将原语音转换为目标语音,并通过PULSEMODEL后端处理工具将PULSE进行合成。
CN201811443776.5A 2018-11-29 2018-11-29 一种非平行语料语音个性化转换方法 Active CN109377986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811443776.5A CN109377986B (zh) 2018-11-29 2018-11-29 一种非平行语料语音个性化转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811443776.5A CN109377986B (zh) 2018-11-29 2018-11-29 一种非平行语料语音个性化转换方法

Publications (2)

Publication Number Publication Date
CN109377986A true CN109377986A (zh) 2019-02-22
CN109377986B CN109377986B (zh) 2022-02-01

Family

ID=65374914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811443776.5A Active CN109377986B (zh) 2018-11-29 2018-11-29 一种非平行语料语音个性化转换方法

Country Status (1)

Country Link
CN (1) CN109377986B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600013A (zh) * 2019-09-12 2019-12-20 苏州思必驰信息科技有限公司 非平行语料声音转换数据增强模型训练方法及装置
CN110970014A (zh) * 2019-10-31 2020-04-07 阿里巴巴集团控股有限公司 语音转换、文件生成、播音、语音处理方法、设备及介质
CN111785256A (zh) * 2020-06-28 2020-10-16 北京三快在线科技有限公司 声学模型训练方法、装置、电子设备及存储介质
CN113314104A (zh) * 2021-05-31 2021-08-27 北京市商汤科技开发有限公司 交互对象驱动和音素处理方法、装置、设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2120043A (en) * 1982-04-29 1983-11-23 Int Standard Electric Corp Solid state voice generating system
US4817155A (en) * 1983-05-05 1989-03-28 Briar Herman P Method and apparatus for speech analysis
US20030204400A1 (en) * 2002-03-26 2003-10-30 Daniel Marcu Constructing a translation lexicon from comparable, non-parallel corpora
US20100198600A1 (en) * 2005-12-02 2010-08-05 Tsuyoshi Masuda Voice Conversion System
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
CN106453005A (zh) * 2016-10-31 2017-02-22 四川长虹电器股份有限公司 一种具备个性化语音播报功能的智能空调系统
CN106504741A (zh) * 2016-09-18 2017-03-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于深度神经网络音素信息的语音转换方法
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2120043A (en) * 1982-04-29 1983-11-23 Int Standard Electric Corp Solid state voice generating system
US4817155A (en) * 1983-05-05 1989-03-28 Briar Herman P Method and apparatus for speech analysis
US20030204400A1 (en) * 2002-03-26 2003-10-30 Daniel Marcu Constructing a translation lexicon from comparable, non-parallel corpora
US20100198600A1 (en) * 2005-12-02 2010-08-05 Tsuyoshi Masuda Voice Conversion System
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
CN106504741A (zh) * 2016-09-18 2017-03-15 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于深度神经网络音素信息的语音转换方法
CN106453005A (zh) * 2016-10-31 2017-02-22 四川长虹电器股份有限公司 一种具备个性化语音播报功能的智能空调系统
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
B.BURCHARD,ET AL.: "A single chip phoneme based HMM speech recognition system for consumer applications", 《2000 DIGEST OF TECHNICAL PAPERS. INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS. NINETEENTH IN THE SERIES (CAT. NO.00CH37102)》 *
周世健等: "抗RPE-LTP压缩编码的语音加密算法", 《计算机工程》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600013A (zh) * 2019-09-12 2019-12-20 苏州思必驰信息科技有限公司 非平行语料声音转换数据增强模型训练方法及装置
CN110970014A (zh) * 2019-10-31 2020-04-07 阿里巴巴集团控股有限公司 语音转换、文件生成、播音、语音处理方法、设备及介质
WO2021083071A1 (zh) * 2019-10-31 2021-05-06 阿里巴巴集团控股有限公司 语音转换、文件生成、播音、语音处理方法、设备及介质
CN110970014B (zh) * 2019-10-31 2023-12-15 阿里巴巴集团控股有限公司 语音转换、文件生成、播音、语音处理方法、设备及介质
CN111785256A (zh) * 2020-06-28 2020-10-16 北京三快在线科技有限公司 声学模型训练方法、装置、电子设备及存储介质
CN113314104A (zh) * 2021-05-31 2021-08-27 北京市商汤科技开发有限公司 交互对象驱动和音素处理方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN109377986B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN109377986A (zh) 一种非平行语料语音个性化转换方法
CN107146624B (zh) 一种说话人确认方法及装置
CN103928023B (zh) 一种语音评分方法及系统
CN108305616A (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN108806667A (zh) 基于神经网络的语音与情绪的同步识别方法
CN110211565A (zh) 方言识别方法、装置及计算机可读存储介质
CN110491393B (zh) 声纹表征模型的训练方法及相关装置
CN105760852A (zh) 一种融合脸部表情和语音的驾驶员情感实时识别方法
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN110517663A (zh) 一种语种识别方法及识别系统
CN108172218A (zh) 一种语音建模方法及装置
CN106875942A (zh) 基于口音瓶颈特征的声学模型自适应方法
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN111583964A (zh) 一种基于多模深度特征学习的自然语音情感识别方法
CN108877769A (zh) 识别方言种类的方法和装置
CN110265063A (zh) 一种基于固定时长语音情感识别序列分析的测谎方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Chamoli et al. Detection of emotion in analysis of speech using linear predictive coding techniques (LPC)
CN110246518A (zh) 基于多粒度动静态融合特征的语音情感识别方法、装置、系统及存储介质
CN106875944A (zh) 一种语音控制家庭智能终端的系统
CN110310644A (zh) 基于语音识别的智慧班牌交互方法
CN109817223A (zh) 基于音频指纹的音素标记方法及装置
Rani et al. Speech recognition using neural network
CN108665901A (zh) 一种音素/音节提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant