CN118135994A - 语音合成方法、装置、设备及介质 - Google Patents

语音合成方法、装置、设备及介质 Download PDF

Info

Publication number
CN118135994A
CN118135994A CN202410424455.XA CN202410424455A CN118135994A CN 118135994 A CN118135994 A CN 118135994A CN 202410424455 A CN202410424455 A CN 202410424455A CN 118135994 A CN118135994 A CN 118135994A
Authority
CN
China
Prior art keywords
voice
feature set
style
text
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410424455.XA
Other languages
English (en)
Inventor
张旭龙
王健宗
程宁
季圣鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of CN118135994A publication Critical patent/CN118135994A/zh
Pending legal-status Critical Current

Links

Abstract

本发明涉及金融领域的人工智能技术,揭露一种语音合成方法、装置、设备以及介质,可用于金融产品在业务推广时对目标用户进行智能客服外呼。所述方法包括:获取语音文本集、语音风格文本集及语音合成模型;利用语音合成模型提取语音风格文本集的风格文本特征集;提取语音文本集的语音文本特征集,并对语音文本特征集进行音素编码,得到语音音素序列,将语音音素序列与风格文本特征集进行编码,得到混合特征集,提取混合特征集的音高特征集、能量特征集及时长特征集;将音高特征集、能量特征集及时长特征集转化为语音音素序列的梅尔频谱;将梅尔频谱进行音频转换,得到语音文本集的合成语音。本发明可以提高语音合成的效率、准确率及效果。

Description

语音合成方法、装置、设备及介质
技术领域
本发明涉及人工智能领域,尤其涉及一种语音合成方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展及智能语音交互技术的广泛使用,语音合成技术也随之发展,语音合成指的是将任意输入的文本转换成相应语音的技术。例如,在金融领域中,语音合成相当于智能客服的“嘴巴”,通过智能客服能够对银行客户进行催收外呼及银行业务推广外呼,可以更好的维护客户并实现业务的迅速推广。
现有的语音合成方法是根据声学语料库将待合成的语音文本转化为语音。但是,这种方法需要提供符合语音合成要求的参考语音。在金融领域中,声学语料库的样本数量不够,因此,在模型训练时需要耗费大量时间调节合成语音的信息,使得智能客服的语音合成效率较低,且调节合成语音时的智能客服人声效果较差,使得智能客服的语音合成准确率较低;另一方面,由于普通的声学语料库中包含大量与风格提示无关的词元信息,这些词元作为噪声影响了金融领域中智能客服的语音合成效果。
发明内容
本发明提供一种语音合成方法、装置、设备及存储介质,其主要目的是提高金融领域中智能客服的语音合成效率、准确率及效果。
为实现上述目的,本发明提供了一种语音合成方法,包括:
获取待合成的语音文本集、语音风格文本集及训练完成的语音合成模型,其中,所述语音合成模型包括风格编码层、内容编码层及语音解码层;
利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集;
利用所述内容编码层对所述语音文本集进行特征提取,得到语音文本特征集,并对所述语音文本特征集进行音素编码,得到语音音素序列,将所述语音音素序列与所述风格文本特征集进行编码,得到混合特征集,提取所述混合特征集的音高特征集、能量特征集及时长特征集;
利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱;
将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音。
可选地,所述利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集,包括:
利用所述风格编码层中情绪网络对所述语音风格文本集进行情绪分类,得到风格情绪特征集;
利用所述风格编码层中响度网络对所述语音风格文本集进行响度分类,得到风格响度特征集;
利用所述风格编码层中性别网络对所述语音风格文本集进行性别分类,得到风格性别特征集;
将所述风格情绪特征集、所述风格响度特征集及所述风格性别特征集进行拼接,得到所述风格文本特征集。
可选地,所述提取所述混合特征集的音高特征集、能量特征集及时长特征集,包括:
利用所述内容编码层中的方差适配网络对所述混合特征集进行音素的持续时长预测,得到所述语音音素序列的时长特征集;
获取所述混合特征集中人声的每个音素对应的能量参数,并计算所述能量参数的平均值,得到所述语音音素序列的能量特征集;
获取所述混合特征集中人声的每个音素对应的音高参数,并计算所述音高参数的平均值,得到所述语音音素序列的音高特征集。
可选地,所述利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱,包括:
利用所述解码层对所述音高特征集、所述能量特征集及所述时长特征集进行联合采样,得到联合特征集;
对所述联合特征集进行傅里叶变换,得到帧频谱;
对所述帧频谱进行梅尔滤波操作,得到所述语音音素序列的梅尔频谱。
可选地,所述将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音,包括:
利用预设的声码器对所述梅尔频谱进行并行语音波形转换,得到目标语音波形;
对所述目标语音波形进行音频转换,得到合成语音。
可选地,所述对所述语音文本特征集进行音素编码,得到语音音素序列,包括:
对所述语音文本特征集进行语种分析,确定所述语音文本特征集的语种类别;
根据所述语种类别对所述语音文本特征集进行语句切分处理,得到切分文本集;
提取所述切分文本集中的单词集,根据预设的音素映射词典将所述单词集进行映射,得到所述语音音素序列。
为了解决上述问题,本发明还提供一种语音合成装置,所述装置包括:
数据获取模块,用于获取待合成的语音文本集、语音风格文本集及训练完成的语音合成模型,其中,所述语音合成模型包括:风格编码层、内容编码层及语音解码层;
风格特征提取模块,用于利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集;
内容特征提取模块,用于利用所述内容编码层对所述语音文本集进行特征提取,得到语音文本特征集,并对所述语音文本特征集进行音素编码,得到语音音素序列,将所述语音音素序列与所述风格文本特征集进行编码,得到混合特征集,提取所述混合特征集的音高特征集、能量特征集及时长特征集;
解码模块,用于利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱;
音频转换模块,用于将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述所述的语音合成方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的语音合成方法。
本发明实施例中,通过利用语音合成风格编码层对语音合成语音风格文本集进行特征提取,得到风格文本特征集,能够剔除与风格提示文本无关的风格提示词,准确从人声性别、响度及情绪三个维度提取风格文本特征,提高后续智能客服的语音合成效果;其次,通过内容编码层提取语音文本集特征,对该特征进行音素转换,并将语音音素序列与风格文本特征集进行编码,得到混合特征集,提取混合特征集的音高特征集、能量特征集及时长特征集,能够实现基于语音风格需求自动调节待合成智能客服人声的音高、时长及能量,以提高智能客服的语音合成效率及准确性;最后,通过语音解码层对将人声特征转化为梅尔频谱,并将梅尔频谱进行音频转换,得到合成语音,无需耗费大量时间调节合成语音的信息,提高了智能客服语音合成效率。因此本发明实施例提出的语音合成方法、装置、设备及存储介质可以提高金融领域中智能客服的语音合成效率、准确率及效果。
附图说明
图1为本发明一实施例提供的语音合成方法的流程示意图;
图2为本发明一实施例提供的语音合成方法中一个步骤的详细流程示意图;
图3为本发明一实施例提供的语音合成方法中一个步骤的详细流程示意图;
图4为本发明一实施例提供的语音合成装置的模块示意图;
图5为本发明一实施例提供的实现语音合成方法的电子设备的内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种语音合成方法。所述语音合成方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述语音合成方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示的本发明一实施例提供的语音合成方法的流程示意图,在本发明实施例中,所述语音合成方法包括以下步骤S1-S5:
S1、获取待合成的语音文本集、语音风格文本集及训练完成的语音合成模型,其中,所述语音合成模型包括风格编码层、内容编码层及语音解码层。
例如,所述待合成的语音文本集可以是金融领域的文本数据集合,包括,但不限于,与用户间的催收对话文本集合、银行新产品介绍的对话文本集合、金融产品推广的对话文本集合及对客户进行节假日问候的对话文本集合等。所述语音风格文本集是通过文字描述的形式对待合成的语音进行风格描述的文本集合,包含了对语音文本集的合成语音所需的性别、响度及情绪的智能客服人声提示文本集,用于确定智能客服的语音性别、语音响度及语音情绪。其中,所述响度即为待合成语音的声音音量,主要音量包括低音量、中音量及高音量三个范围。例如,该语音风格文本集可以为一位女士高兴地低语,通过该风格文本集中的“女士”可以展示合成语音所需的性别为“女性”、通过该风格文本集中的“低语”可以展示合成语音所需的响度为“低音量”、通过该风格文本集中的“高兴地”可以展示合成语音所需的情绪为“高兴”。
本发明实施例中,所述训练完成的语音合成模型是由风格编码层、内容编码层及语音解码层组成的神经网络模型,其中,所述风格编码层的作用是提取语音风格文本集中的性别文本特征、响度文本特征及情绪文本特征,便于后续确定合成智能客服语音的人声性别、响度及情绪;所述内容编码层的作用是对合成语音的持续时间(指每个音素持续语音帧的数量)、音调及能量(指每个音素语音帧的频谱能量)的调节,保证合成智能客服语音的准确率;所述语音解码层的作用是基于语音风格文本集对语音文本集进行语音合成。
本发明一实施例中,在对所述语音合成模型训练时,首先获取待合成的语音文本集及对应的标准语音,并通过风格编码层提取语音风格的性别文本特征、响度文本特征及情绪文本特征;其次,利用内容编码层提取所述待合成的语音文本集的文本特征,并输出与具有所述语音风格(包括性别文本特征、响度文本特征及情绪文本特征)的待合成语音的持续时间、音调及能量信息;最后通过语音解码器将所述持续时间、音调及能量进行梅尔频谱及音频转换,可以得到合成语音,并利用损失函数(如Relu函数)计算所述合成语音与所述标准语音的损失值,根据该损失值调整语音合成模型的参数,直至损失值满足预设阈值,得到训练完成的语音合成模型。
S2、利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集。
本发明实施例中,所述风格文本特征集包括了风格文本中的性别文本特征、响度文本特征及情绪文本特征。
本发明实施例中,所述风格编码层包括情绪网络、响度网络及性别网络,通过风格编码层提取语音风格文本集中的情绪特征、响度特征及性别特征,能够剔除与风格文本无关的风格提示词,准确从人声性别、响度及情绪三个维度提取语音风格文本集中的风格文本特征,提高后续智能客服的语音合成效果,其中,所述风格编码层整体结构可以为BERT模型。
作为本发明的一个实施例,参考图2所示,所述利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集,包括以下步骤S21-S24:
S21、利用所述风格编码层中情绪网络对所述语音风格文本集进行情绪分类,得到风格情绪特征集;
S22、利用所述风格编码层中响度网络对所述语音风格文本集进行响度分类,得到风格响度特征集;
S23、利用所述风格编码层中性别网络对所述语音风格文本集进行性别分类,得到风格性别特征集;
S24、将所述风格情绪特征集、所述风格响度特征集及所述风格性别特征集进行拼接,得到所述风格文本特征集。
例如,所述语音风格文本集为一位女士兴奋地介绍一个新出的保费较低、收益较高的保险产品,则利用所述风格编码层对所述语音风格文本集进行特征提取得到,“女性”、“高音量”“高兴”等风格文本特征集。
在进行风格情绪特征集的提取之前,本发明实施例首先将语音风格文本集转换为文本句子,再依次判断每个文本句子的风格情绪特征集。例如,通过风格编码层首先将语音风格文本集转化为向量序列T=[T1,T2,···,TM],并利用[CLS]标记起始位置,其中,M指的是语音风格文本的长度;并通过[SEP]标记分割语音风格文本句子。
比如,通过[CLS]与[SEP]标记符号可以对序列T进行多个句子分割(如[CLS]T1,T2,...Tm1[SEP]/[CLS]Tm1,Tm2,...,TM[SEP]),并对分割后的句子依次通过情绪网络、响度网络及性别网络进行特征提取,分别得到风格情绪特征集、风格响度特征集以及风格性别特征集,其中,情绪网络、响度网络及性别网络都可以为Transformer模型。
本发明一实施例中,可以通过残差网络将不同Transformer模型输出的风格情绪特征集、风格响度特征集以及风格性别特征集进行拼接,以得到风格文本特征集。
S3、利用所述内容编码层对所述语音文本集进行特征提取,得到语音文本特征集,并对所述语音文本特征集进行音素编码,得到语音音素序列,将所述语音音素序列与所述风格文本特征集进行编码,得到混合特征集,提取所述混合特征集的音高特征集、能量特征集及时长特征集。
本发明实施例中,内容编码层由内容提取网络、音素编码网络及方差适配网络组成,通过内容提取网络可以对语音文本进行特征提取,得到语音文本特征集。
具体地,本发明实施例中,所述对语音文本进行特征提取包括提取待合成语音的内容特征,如智能客服与用户间关于银行新产品介绍的对话文本特征、智能客服对用户进行新品推广的对话文本特征及智能客服对客户进行节假日问候的对话文本特征等。
例如,所述语音文本集包括:“尊敬的王女士,告诉您一个好消息,本司新出一款保费低、收益高的保险产品,XX人生,需要我把产品介绍资料发给您看一下吗?”则利用所述内容编码层对所述语音文本集进行特征提取,得到的语音文本特征集可以包括:王女士、告诉、您、本司、新、好消息、保费低、收益高、保险产品、XX人生、产品介绍资料、发、看…;等。本发明实施例中,所述语音音素序列是指描述语言的最小语音单位及对应人声音色的序列。比如,汉语的最小语音单位可以为汉语拼音及音调、英语的最小语音单位可以为音标。所述音高特征集是指待合成人声的音高特征集合;所述能量特征集是指待合成人声的音量特征集合;所述时长特征集是指待合成人声的持续时间长度特征集合。
本发明一实施例中,所述混合特征集包括语音音素序列特征及风格文本特征的集合。通过注意力机制Attention(Q,K,V)可以实现语音音素序列与风格文本特征集的融合,其中,Q表示风格文本特征集的Query、K表示语音音素序列的Key、V表示风格文本特征集与语音音素序列的融合Value。
本发明实施例通过该内容编码层对语音文本集进行音素编码,可以提取包含人声的音色及音素特征,并将所述语音音素序列与所述风格文本特征集进行编码,得到混合特征集,提取混合特征集的音高特征集、能量特征集及时长特征集,能够实现基于语音风格需求调节待合成人声的音高、时长及能量,无需耗费大量时间进行人声特征的调节,提高了语音合成的准确率及效率。
作为本发明的一个实施例,所述对所述语音文本特征集进行音素编码,得到语音音素序列,包括:
对所述语音文本特征集进行语种分析,确定所述语音文本特征集的语种类别;
根据所述语种类别对所述语音文本特征集进行语句切分处理,得到切分文本集;
提取所述切分文本集中的单词集,根据预设的音素映射词典将所述单词集进行映射,得到所述语音音素序列。
其中,可以利用预设语种分析工具(如langdect.jar工具包)进行语种分析,通过语种分析可以确定语音文本特征集中包含的语言类别及每种语言对应的发音规则,进一步对语音文本特征集中不同语言的文本切分成句,可以便于根据不同语言的发音规则进行后续的音素转换,以提高后续音素转换的准确率。
本发明一实施例中,所述预设的音素映射词典可以为CMU发音词典,且该词典存储多种语言对应的最小发音单位,通过该词典可以利用预设的音素转换工具(如G2P音素转换工具)将不同语言的单词集映射为对应的最小发音单位,以实现语音文本特征集的音素转换。
进一步地,参考图3所示,所述提取所述混合特征集的音高特征集、能量特征集及时长特征集,包括以下步骤S31-S33:
S31、利用所述内容编码层中的方差适配网络对所述混合特征集进行音素的持续时长预测,得到所述语音音素序列的时长特征集;
S32、获取所述混合特征集中人声的每个音素对应的能量参数,并计算所述能量参数的平均值,得到所述语音音素序列的能量特征集;
S33、获取所述混合特征集中人声的每个音素对应的音高参数,并计算所述音高参数的平均值,得到所述语音音素序列的音高特征集。
其中,该方差适配网络包括时长预测器、能量预测器及音高预测器,通过时长预测器中的CNN网络获取混合特征集中每个语音音素对应的风格文本特征,基于该风格文本特征预测每个语音音素的持续帧数,并通过时长预测器中的全连接层输出每个语音音素的持续帧数对应人声的持续时长。
本发明一实施例中,根据时长特征集可以获取每帧语音音素对应的能量参数(包括每个语音音素的人声频谱能量)及音高参数(包括每个语音音素的人声基频),并对能量参数及音高参数进行求和,得到求和能量参数及求和音高参数,再分别将以时长特征集中的时长信息,得到求和能量参数及求和音高参数除能量参数的平均值及音高参数的平均值。
进一步地,本发明实施例对能量参数的平均值及音高参数的平均值进行连续小波变换操作,以得到音高特征集及能量特征集。
例如,混合特征集中风格文本特征为智能客服的情绪由悲伤转化为愤怒,当需要体现智能客服的悲伤情绪时,需要调节客服人声的音素序列为音高低、时长长及能量弱,当悲伤转化为愤怒时,需要调节客服人声的音素序列为音高变高、时长变短及能量变强,通过提取混合特征集的音高特征集、能量特征集及时长特征集,可以实现基于语音风格需求调节待合成智能客服人声的音高、时长及能量,以提高语音合成的效率及准确率。
S4、利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱。
本发明实施例中,所述解码层的主要作用是对音高特征集、能量向特征集及时长特征集进行解码以转化为语音音素序列的梅尔频谱。所述梅尔频谱是指将音高特征集、能量特征集及时长特征集的语音时域表示为频域信号的频谱图。
本发明实施例中,利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱,可以确定待合成语音的人声特征对应的梅尔频谱,便于后续进行人声特征的音频转换,便于提高后续语音合成的效率。
作为本发明的一个实施例,所述利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱,包括:
利用所述解码层对所述音高特征集、所述能量特征集及所述时长特征集进行联合采样,得到联合特征集;
对所述联合特征集进行傅里叶变换,得到帧频谱;
对所述帧频谱进行梅尔滤波操作,得到所述语音音素序列的梅尔频谱。
其中,所述联合采样可以通过解码层中的卷积网络实现,即将时长特征集、音高特征集及能量特征集采样为帧级别的联合特征向量集,且联合特征集的帧长度与语音音素序列对应的语音帧数量一致。
本发明一实施例中,可以通过利用预傅里叶公式对联合特征集中的每一帧频率进行计算,以得到帧频谱。
进一步地,本发明实施例中,可以通过梅尔三角滤波器对帧频谱进行梅尔滤波操作,以将帧频谱进行转换,并通过解码层中的激活函数(如Relu函数)输出帧频谱对应的梅尔频谱。
S5、将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音。
本发明实施例中,所述合成语音是指基于语音风格文本集将待合成的语音文本集转化为目标人声语音。
比如,有一待合成的输入文本为一位男士激昂地高声说:本次保险产品A的产品信息为a、产品购买流程为b及产品售后流程为c,则“一位男士激昂地高声说”为语音风格文本集,即可以确定智能客服的客服语音性别为男士、客服语音响度为高音量及客服语音情绪为激昂;“本次保险产品A的产品信息为a、产品购买流程为b及产品售后流程为c”为待合成的语音文本集,即确定合成智能客服语音的语音内容。
作为本发明的一个实施例,所述将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音,包括:
利用预设的声码器对所述梅尔频谱进行并行语音波形转换,得到目标语音波形;
对所述目标语音波形进行音频转换,得到合成语音。
其中,所述预设的声码器可以为WaveGlow声码器,通过WaveGlow对梅尔频谱进行放射耦合及可逆卷积操作,以实现梅尔频谱的语音波形转换,得到目标语音波形。
本发明一实施例中,通过对目标语音波形依次进行取样、量化及编码操作,从而得到合成语音。其中,对所述目标语音波形进行取样是把时间轴上连续的目标语音波形在时间轴上离散化的过程,对取样过后的目标语音波形进行量化是指将幅度上连续取值的每一个样本转化为离散值表示。
本发明实施例中,通过利用语音合成风格编码层对语音合成语音风格文本集进行特征提取,得到风格文本特征集,能够剔除与风格提示文本无关的风格提示词,准确从人声性别、响度及情绪三个维度提取风格文本特征,提高后续智能客服的语音合成效果;其次,通过内容编码层提取语音文本集特征,对该特征进行音素转换,并将语音音素序列与风格文本特征集进行编码,得到混合特征集,提取混合特征集的音高特征集、能量特征集及时长特征集,能够实现基于语音风格需求自动调节待合成智能客服人声的音高、时长及能量,以提高智能客服的语音合成效率及准确性;最后,通过语音解码层对将人声特征转化为梅尔频谱,并将梅尔频谱进行音频转换,得到合成语音,无需耗费大量时间调节合成语音的信息,提高了智能客服语音合成效率。因此本发明实施例提出的语音合成方法可以提高智能客服的语音合成效率、准确率及效果。
如图4所示,本发明所述语音合成装置100可以安装于电子设备中。根据实现的功能,所述语音合成装置可以包括数据获取模块101、风格特征提取模块102、内容特征提取模块103、解码模块104、音频转换模块105,本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
详细地,本发明实施例中所述语音合成装置100中所述的各模块在使用时采用与上述图1至图3中所述的语音合成方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
本发明实施例中,通过利用语音合成风格编码层对语音合成语音风格文本集进行特征提取,得到风格文本特征集,能够剔除与风格提示文本无关的风格提示词,准确从人声性别、响度及情绪三个维度提取风格文本特征,提高后续智能客服的语音合成效果;其次,通过内容编码层提取语音文本集特征,对该特征进行音素转换,并将语音音素序列与风格文本特征集进行编码,得到混合特征集,提取混合特征集的音高特征集、能量特征集及时长特征集,能够实现基于语音风格需求自动调节待合成智能客服人声的音高、时长及能量,以提高智能客服的语音合成效率及准确性;最后,通过语音解码层对将人声特征转化为梅尔频谱,并将梅尔频谱进行音频转换,得到合成语音,无需耗费大量时间调节合成语音的信息,提高了智能客服语音合成效率。因此本发明实施例提出的语音合成装置可以提高智能客服的语音合成效率、准确率及效果。
如图5所示,是本发明实现语音合成方法的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如语音合成程序。
其中,所述存储器11至少包括一种类型的介质,所述介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、本地磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如语音合成程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如语音合成程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述通信总线12可以是外设部件互连标准(PerIPheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
可选地,所述通信接口13可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,所述通信接口13还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的语音合成程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
获取待合成的语音文本集、语音风格文本集及训练完成的语音合成模型,其中,所述语音合成模型包括风格编码层、内容编码层及语音解码层;
利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集;
利用所述内容编码层对所述语音文本集进行特征提取,得到语音文本特征集,并对所述语音文本特征集进行音素编码,得到语音音素序列,将所述语音音素序列与所述风格文本特征集进行编码,得到混合特征集,提取所述混合特征集的音高特征集、能量特征集及时长特征集;
利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱;
将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音。
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取介质中。所述计算机可读介质可以是非易失性的,也可以是易失性的。所述计算机可读介质可以包括:能够携待所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明实施例还可以提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取待合成的语音文本集、语音风格文本集及训练完成的语音合成模型,其中,所述语音合成模型包括风格编码层、内容编码层及语音解码层;
利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集;
利用所述内容编码层对所述语音文本集进行特征提取,得到语音文本特征集,并对所述语音文本特征集进行音素编码,得到语音音素序列,将所述语音音素序列与所述风格文本特征集进行编码,得到混合特征集,提取所述混合特征集的音高特征集、能量特征集及时长特征集;
利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱;
将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
在本发明所提供的几个实施例中,应该理解到,所揭露的介质、设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种语音合成方法,其特征在于,所述方法包括:
获取待合成的语音文本集、语音风格文本集及训练完成的语音合成模型,其中,所述语音合成模型包括风格编码层、内容编码层及语音解码层;
利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集;
利用所述内容编码层对所述语音文本集进行特征提取,得到语音文本特征集,并对所述语音文本特征集进行音素编码,得到语音音素序列,将所述语音音素序列与所述风格文本特征集进行编码,得到混合特征集,提取所述混合特征集的音高特征集、能量特征集及时长特征集;
利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱;
将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音。
2.如权利要求1所述的语音合成方法,其特征在于,所述利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集,包括:
利用所述风格编码层中情绪网络对所述语音风格文本集进行情绪分类,得到风格情绪特征集;
利用所述风格编码层中响度网络对所述语音风格文本集进行响度分类,得到风格响度特征集;
利用所述风格编码层中性别网络对所述语音风格文本集进行性别分类,得到风格性别特征集;
将所述风格情绪特征集、所述风格响度特征集及所述风格性别特征集进行拼接,得到所述风格文本特征集。
3.如权利要求1所述的语音合成方法,其特征在于,所述提取所述混合特征集的音高特征集、能量特征集及时长特征集,包括:
利用所述内容编码层中的方差适配网络对所述混合特征集进行音素的持续时长预测,得到所述语音音素序列的时长特征集;
获取所述混合特征集中人声的每个音素对应的能量参数,并计算所述能量参数的平均值,得到所述语音音素序列的能量特征集;
获取所述混合特征集中人声的每个音素对应的音高参数,并计算所述音高参数的平均值,得到所述语音音素序列的音高特征集。
4.如权利要求1所述的语音合成方法,其特征在于,所述利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱,包括:
利用所述解码层对所述音高特征集、所述能量特征集及所述时长特征集进行联合采样,得到联合特征集;
对所述联合特征集进行傅里叶变换,得到帧频谱;
对所述帧频谱进行梅尔滤波操作,得到所述语音音素序列的梅尔频谱。
5.如权利要求1-4中任一项所述的语音合成方法,其特征在于,所述将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音,包括:
利用预设的声码器对所述梅尔频谱进行并行语音波形转换,得到目标语音波形;
对所述目标语音波形进行音频转换,得到合成语音。
6.如权利要求1-4中任一项所述的语音合成方法,其特征在于,所述对所述语音文本特征集进行音素编码,得到语音音素序列,包括:
对所述语音文本特征集进行语种分析,确定所述语音文本特征集的语种类别;
根据所述语种类别对所述语音文本特征集进行语句切分处理,得到切分文本集;
提取所述切分文本集中的单词集,根据预设的音素映射词典将所述单词集进行映射,得到所述语音音素序列。
7.一种语音合成装置,其特征在于,所述装置包括:
数据获取模块,用于获取待合成的语音文本集、语音风格文本集及训练完成的语音合成模型,其中,所述语音合成模型包括:风格编码层、内容编码层及语音解码层;
风格特征提取模块,用于利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集;
内容特征提取模块,用于利用所述内容编码层对所述语音文本集进行特征提取,得到语音文本特征集,并对所述语音文本特征集进行音素编码,得到语音音素序列,将所述语音音素序列与所述风格文本特征集进行编码,得到混合特征集,提取所述混合特征集的音高特征集、能量特征集及时长特征集;
解码模块,用于利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱;
音频转换模块,用于将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音。
8.如权利要求7所述的语音合成装置,其特征在于,所述风格特征提取模块具体用于:
利用所述风格编码层中情绪网络对所述语音风格文本集进行情绪分类,得到风格情绪特征集;
利用所述风格编码层中响度网络对所述语音风格文本集进行响度分类,得到风格响度特征集;
利用所述风格编码层中性别网络对所述语音风格文本集进行性别分类,得到风格性别特征集;
将所述风格情绪特征集、所述风格响度特征集及所述风格性别特征集进行拼接,得到所述风格文本特征集。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的语音合成方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音合成方法。
CN202410424455.XA 2024-04-10 语音合成方法、装置、设备及介质 Pending CN118135994A (zh)

Publications (1)

Publication Number Publication Date
CN118135994A true CN118135994A (zh) 2024-06-04

Family

ID=

Similar Documents

Publication Publication Date Title
CN107657017B (zh) 用于提供语音服务的方法和装置
CN111161702B (zh) 个性化语音合成方法、装置、电子设备、存储介质
CN111883115B (zh) 语音流程质检的方法及装置
WO2022178969A1 (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN107707745A (zh) 用于提取信息的方法和装置
CN111949784A (zh) 基于意图识别的外呼方法及装置
CN112397047A (zh) 语音合成方法、装置、电子设备及可读存储介质
WO2022142105A1 (zh) 文本转语音方法、装置、电子设备及存储介质
CN114360557B (zh) 语音音色转换方法、模型训练方法、装置、设备和介质
CN113420556B (zh) 基于多模态信号的情感识别方法、装置、设备及存储介质
WO2022227190A1 (zh) 语音合成方法、装置、电子设备及存储介质
JP7314450B2 (ja) 音声合成方法、装置、機器、及びコンピュータ記憶媒体
CN112802446A (zh) 音频合成方法及装置、电子设备和计算机可读存储介质
CN110930975A (zh) 用于输出信息的方法和装置
CN115620699A (zh) 语音合成方法、语音合成系统、语音合成设备及存储介质
CN114863945A (zh) 基于文本的语音变声方法、装置、电子设备及存储介质
CN112489628B (zh) 语音数据选择方法、装置、电子设备及存储介质
WO2022126969A1 (zh) 业务语音的质检方法、装置、设备及存储介质
CN114155832A (zh) 基于深度学习的语音识别方法、装置、设备及介质
CN116580698A (zh) 基于人工智能的语音合成方法、装置、计算机设备及介质
CN112242134A (zh) 语音合成方法及装置
CN113555003B (zh) 语音合成方法、装置、电子设备及存储介质
CN118135994A (zh) 语音合成方法、装置、设备及介质
CN114842880A (zh) 智能客服语音节奏调节方法、装置、设备及存储介质
CN113990286A (zh) 语音合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication