CN114242031A - 一种跨说话人语音风格建模方法及计算机可读存储介质 - Google Patents

一种跨说话人语音风格建模方法及计算机可读存储介质 Download PDF

Info

Publication number
CN114242031A
CN114242031A CN202111535836.8A CN202111535836A CN114242031A CN 114242031 A CN114242031 A CN 114242031A CN 202111535836 A CN202111535836 A CN 202111535836A CN 114242031 A CN114242031 A CN 114242031A
Authority
CN
China
Prior art keywords
style
speaker
label
cross
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111535836.8A
Other languages
English (en)
Inventor
吴志勇
李翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202111535836.8A priority Critical patent/CN114242031A/zh
Publication of CN114242031A publication Critical patent/CN114242031A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种跨说话人语音风格建模方法及计算机可读存储介质,方法包括:构建跨说话人语音风格模型,包括:音频特征提取模块、目标标签分类模块、目标域标签筛选模块、对抗标签分类模块依序连接,用于提取输入音频块的音色特征和风格特征;构建多说话人多风格类别的数据集并采用数据集训练跨说话人语音风格模型直至提取的音色特征和风格特征的误差不再下降;将任意一个说话人标签和一个风格类别标签输入到训练好的跨说话人语音风格模型中与语音合成系统一起得到音色与说话人标签一致、风格与风格标签一致的语音。得到具备跨说话人迁移能力的语音风格模型;通过基于块式组合的音频特征提取机制提高模型对于音色和风格建模结果的鲁棒性。

Description

一种跨说话人语音风格建模方法及计算机可读存储介质
技术领域
本发明涉语音合成技术领域,尤其涉及一种跨说话人语音风格建模方法及计算机可读存储介质。
背景技术
人类语音中除文本内容之外,通常还包含着语音中天然携带的说话人本身的音色信息和情感、语气、节奏等语音风格信息。其中,前者是标志着发音来源的核心属性,而后者是提高语音表现力的关键因素。在现代的智能语音交互场景中,为了提高交互体验,往往既需要适时切换合成语音中的音色以对不同虚拟实体进行区分;又需要对合成语音中的风格进行调控,提高合成语音的表现力。
然而,真实世界中的表现力语音数据集因为对语料内容、朗读效果的高要求而代价高昂,相比较中性语音数据集通常数据量较少且难以覆盖各类说话人的音色。为满足使用各类音色进行表现力语音合成的使用需求,往往需要覆盖不同风格种类的说话人以及高表现力说话人与中性说话人之间进行语音风格的迁移,这就要求有一个跨说话人的语音风格模块来将语音中的音色信息与风格信息进行解耦并为语音合成模型提供相关控制信息。
目前的跨说话人语音风格建模方法,通常面向的是目标风格被多个说话人音色覆盖或是进行风格迁移的两个说话人都覆盖了至少一个相同类型风格的场景。但是在其他更一般的数据情况下,其跨说话人风格的迁移效果以及音色与风格建模的准确性上还是有待提升。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
本发明为了解决现有的问题,提供一种跨说话人语音风格建模方法及计算机可读存储介质。
为了解决上述问题,本发明采用的技术方案如下所述:
一种跨说话人语音风格建模方法,包括如下步骤:S1:构建跨说话人语音风格模型,包括:音频特征提取模块、目标标签分类模块、目标域标签筛选模块、对抗标签分类模块依序连接,用于提取输入音频块的音色特征和风格特征;S2:构建多说话人多风格类别的数据集并采用所述数据集训练所述跨说话人语音风格模型直至提取的所述音色特征和所述风格特征的误差不再下降;S3:将任意一个说话人标签和一个风格类别标签输入到训练好的所述跨说话人语音风格模型中与语音合成系统一起得到音色与说话人标签一致、风格与风格标签一致的语音。
优选地,所述音频特征提取模块包括两个音频特征提取子模块,分别用于获取块级音频特征向量作为输入音频块的音色特征、输入音频块的风格特征,所述音色特征和所述风格特征两者构成了音频特征提取模块的全部输出。
优选地,所述音频特征提取子模块分别包括:3层卷积神经网络和2层门控循环网络;所述3层卷积神经网络接收音色、风格标签均相同的k条音频组成的音频块,k为音频数量,提取得到k个原始音频特征序列;每个所述原始音频特征序列分别被送入到第1层门控循环网络中,并分别取门控循环网络的最后一个时间步输出,得到k个句级音频特征向量;所述句级音频特征向量以随机顺序拼接在一起,得到长度为k的特征序列;所述特征序列被送入第2层门控循环网络中并取门控循环网络最后一个时间步输出,得到一个块级音频特征向量作为所述音频特征提取子模块的最终输出特征。
优选地,所述目标标签分类模块包括两个分类器,所述分类器均由2层全连接神经网络组成,分别用于接收所述音色特征、所述风格特征并分别得到输出一个dspker维的说话人身份预测概率向量Pspker、一个dstyle维的语音风格预测概率向量Pstyle;其中,dspker为训练数据集中说话人总人数,dstyle为训练数据集中风格标签类别数目。
优选地,所述身份预测向量和所述风格预测向量将通过交叉熵损失函数与原输入音频块的实际说话人身份Lspker、风格标签Lstyle计算误差并向所述音频特征提取模块回传梯度信息,误差计算公式为:
εspker=-Lspker·log(Pspker)
εstyle=-Lstyle·log(Pstyle)
其中,εspker是身份误差,εstyle是风格误差。
优选地,所述目标域标签筛选模块,一个说话人身份筛选机制和一个风格标签筛选机制;所述说话人身份筛选机制用于接收所述音频风格提取模块输出的所述音色特征和原输入的所述音频块的所述音色标签,并将所述音色特征转发到所述对抗标签分类模块中与所述音色标签对应的对抗风格标签分类器中,用于针对所述说话人的目标域从音色特征中剥离风格信息;所述风格标签筛选机制用于接收所述音频风格提取模块输出的所述风格特征和原输入的所述音频块的所述风格标签,并将所述风格特征转发到所述对抗标签分类模块中与所述风格标签对应的对抗说话人身份分类器中,用于针对所述风格标签的目标域从风格特征中剥离音色信息。
优选地,所述对抗标签分类模块由dstyle个对抗说话人身份分类器和dspker个对抗风格分类器组成,所述对抗说话人身份分类器和所述对抗风格分类器均包含1个梯度反转层和2层全连接神经网络;所述对抗说话人分类器与所述数据集中的风格标签配置为一一对应关系,所述对抗风格分类器与所述数据集中的说话人配置为一一对应关系。
优选地,所述对抗说话人身份分类器接收到输入的风格特征输出dt_spker维的说话人身份预测向量Qspker;其中,dt_spker为所述对抗说话人身份分类器对应的风格标签在所述数据集中涉及的说话人数目;所述对抗风格标签分类器接收到输入的音色特征输出dt_style维的风格标签预测向量Qstyle;其中,dt_style为所述对抗风格标签分类器对应的说话人在数据集中覆盖的风格标签数目。
优选地,所述说话人身份预测向量和所述风格标签预测向量将通过交叉熵损失函数与原输入所述音频块的实际说话人身份、风格标签计算误差,并向所述音频特征提取模块回传梯度信息,计算公式具体如下:
εspker_adv=-Lspker·log(Qspker)
εstyle_adv=-Lstyle·log(Qstyle)
其中,εspker_adv是对抗身份误差,εstyle_adv是对抗风格误差。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
本发明的有益效果为:提供一种跨说话人语音风格建模方法及计算机可读存储介质,通过基于面向目标域的对抗算法,针对实际数据情况作标签过滤以实现在复杂跨说话人数据情形下,对语音中所包含的说话人音色与风格之间进行解耦,从而得到具备跨说话人迁移能力的语音风格模型;同时通过基于块式组合的音频特征提取机制,来提高模型对于音色和风格建模结果的鲁棒性。
附图说明
图1是本发明实施例中一种跨说话人语音风格建模方法的示意图。
图2是本发明实施例中一种跨说话人语音风格模型的示意图。
图3是本发明实施例中一种跨说话人语音风格建模流程的示意图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接既可以是用于固定作用也可以是用于电路连通作用。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
梯度反转层:将传播到当前层神经网络的误差乘以一个负数,这样就会使得前后的网络训练目标相反,以实现对抗的效果。
针对现有技术中的缺乏针对不同数据情况具有普适性的说话人音色与风格解耦方案以及目前基于单条输入句子的音频特征提取方法存在准确性和鲁棒性的限制,本发明提出一种跨说话人语音风格建模方法,主要包括两个部分:面向目标域进行标签筛选的对抗解耦算法;基于块式组合的音频特征提取机制。
如图1所示,本发明提供一种跨说话人语音风格建模方法,包括如下步骤:
S1:构建跨说话人语音风格模型,包括:音频特征提取模块、目标标签分类模块、目标域标签筛选模块、对抗标签分类模块依序连接,用于提取输入音频块的音色特征和风格特征;
S2:构建多说话人多风格类别的数据集并采用所述数据集训练所述跨说话人语音风格模型直至提取的所述音色特征和所述风格特征的误差不再下降;
S3:将任意一个说话人标签和一个风格类别标签输入到训练好的所述跨说话人语音风格模型中与语音合成系统一起得到音色与说话人标签一致、风格与风格标签一致的语音。
面向目标域进行标签筛选的对抗解耦算法对应目标域标签筛选模块、对抗标签分类模块;块式组合的音频特征提取机制对应音频特征提取模块。
如图2所示,是本发明一种跨说话人语音风格模型的示意图。音频特征提取模块、目标标签分类模块、目标域标签筛选模块、对抗标签分类模块依序连接;本发明在普通的基于梯度反转的对抗解耦训练算法基础上,引入针对目标域标签分布的标签过滤算法,通过为特定目标域分配特定对抗分类器实现在各类数据场景下较为鲁棒的音色信息与风格信息解耦,提升跨说话人风格迁移的效果;而音频特征提取模块将同类风格、音色的音频组合成块来替代现有方法中作为音频特征提取模块输入的单条音频,从而扩大了音频特征提取模块的感受野,减小了单条音频中的文本与声学表现波动对提取结果带来的影响,最终提高了建模结果的准确性。
本发明的基于方法面向语音合成任务可以接收一条参考音频,从中提取出与该音频说话人身份相关但不受该音频风格影响的音色特征以及该音频的不包含说话人音色信息的风格特征;所得的音色特征和风格特征可以作为语音合成模型的额外输入来辅助控制合成语音中的音色与风格并通过灵活组合音色和风格特征实现跨说话人的语音风格迁移。
具体地,音频特征提取模块包括两个音频特征提取子模块,分别用于获取块级音频特征向量作为输入音频块的音色特征、输入音频块的风格特征,所述音色特征和所述风格特征两者构成了音频特征提取模块的全部输出。
在本发明的一种实施例中,音频特征提取子模块分别包括:3层卷积神经网络和2层门控循环网络;
所述3层卷积神经网络接收音色、风格标签均相同的k条音频组成的音频块,k为音频数量,提取得到k个原始音频特征序列;例如对于输入的一组均由说话人A发音且语音风格均为童话故事书朗读风格的k条音频;
每个所述原始音频特征序列分别被送入到第1层门控循环网络中,并分别取门控循环网络的最后一个时间步输出,得到k个句级音频特征向量;
所述句级音频特征向量以随机顺序拼接在一起,得到长度为k的特征序列;
所述特征序列被送入第2层门控循环网络中并取门控循环网络最后一个时间步输出,得到一个块级音频特征向量作为所述音频特征提取子模块的最终输出特征。
可以理解的是,音频特征提取模块中的卷积神经网络,也可采用其他结构的神经网络替代。
进一步地,关于音频特征提取模块中的门控反馈网络,也可采用其他结构的神经网络替代。
本发明的音频特征提取子模块分别输出块级音频特征向量作为输入音频块的音色特征、输入音频块的风格特征,两者构成了本模块的全部输出。实际训练中,可以将数据集中按照标签分组后,从某组中随机抽样k条音频得到单个输入音频块。
具体地,目标标签分类模块包括两个分类器,一个是说话人身份分类器,另一个风格标签分类器,所述分类器均由2层全连接神经网络组成,分别用于接收所述音色特征、所述风格特征并分别得到输出一个dspker维的说话人身份预测概率向量Pspker、一个dstyle维的语音风格预测概率向量Pstyle
其中,dspker为训练数据集中说话人总人数,dstyle为训练数据集中风格标签类别数目。
身份预测向量和风格预测向量将通过交叉熵损失函数与原输入音频块的实际说话人身份Lspker、风格标签Lstyle计算误差并向所述音频特征提取模块回传梯度信息,误差计算公式为:
εspker=-Lspker·log(Pspker)
εstyle=-Lstyle·log(Pstyle)
其中,εspker是身份误差,εstyle是风格误差。
具体地,目标域标签筛选模块包括一个说话人身份筛选机制和一个风格标签筛选机制;
所述说话人身份筛选机制用于接收所述音频风格提取模块输出的所述音色特征和原输入的所述音频块的所述音色标签,并将所述音色特征转发到所述对抗标签分类模块中与所述音色标签对应的对抗风格标签分类器中,用于针对所述说话人的目标域从音色特征中剥离风格信息;
所述风格标签筛选机制用于接收所述音频风格提取模块输出的所述风格特征和原输入的所述音频块的所述风格标签,并将所述风格特征转发到所述对抗标签分类模块中与所述风格标签对应的对抗说话人身份分类器中,用于针对所述风格标签的目标域从风格特征中剥离音色信息。
标域标签筛选模块根据输入标签,选取出对抗标签分类模块中特定的对抗分类器并将音频风格提取模块的输出特征转发给该特定对抗分类器,供其进行下一步操作。
具体地,对抗标签分类模块由dstyle个对抗说话人身份分类器和dspker个对抗风格分类器组成,所述对抗说话人身份分类器和所述对抗风格分类器均包含1个梯度反转层和2层全连接神经网络;
其中,所述对抗说话人分类器与所述数据集中的风格标签配置为一一对应关系,所述对抗风格分类器与所述数据集中的说话人配置为一一对应关系。
在训练阶段,某个对抗说话人身份分类器接收到输入的风格特征输出dt_spker维的说话人身份预测向量Qspker
其中,dt_spker为所述对抗说话人身份分类器对应的风格标签在所述数据集中涉及的说话人数目;
所述对抗风格标签分类器接收到输入的音色特征输出dt_style维的风格标签预测向量Qstyle
其中,dt_style为所述对抗风格标签分类器对应的说话人在数据集中覆盖的风格标签数目。
所述说话人身份预测向量和所述风格标签预测向量将通过交叉熵损失函数与原输入所述音频块的实际说话人身份、风格标签计算误差,并向所述音频特征提取模块回传梯度信息,计算公式具体如下:
εspker_adv=-Lspker·log(Qspker)
εstyle_adv=-Lstyle·log(Qstyle)
其中,εspker_adv是对抗身份误差,εstyle_adv是对抗风格误差。
可以理解的是,关于目标标签分类模块和对抗标签分类模块中的各分类器,也可采用其他结构的神经网络实现。
通过上述方法训练跨说话人语音风格模型,通过目标标签分类模块、目标域标签筛选模块、对抗标签分类模块向音色特征提取模块回传梯度信息,使提取的所述音色特征和所述风格特征的误差不再下降则模型训练结束。
进一步地,在训练阶段,本发明的模型中各模块与后端语音合成系统一同进行端到端训练;训练完毕后,可仅基于音频特征提取模块进行特征提取,以指导后端语音合成系统合成音频。
如图3所示,将上述训练好的模型与语音合成系统一起使用,用户只需提供数据集中的任意一个说话人标签和一个风格类别标签,所提出的跨说话人语音风格建模方法的音频特征提取模块可将其转化成一个音色特征和一个风格特征,两者可组合作为指导信息使后端的语音合成模型合成出音色与说话人标签一致,风格与风格标签一致的语音。
采用本发明的方法面向任意说话人及语音风格组合的数据场景,准确提取语音中的音色信息与风格信息,并将其互相解耦从而实现两者的灵活组合。针对不同目标域分配特定的对抗分类器进行解耦训练,提高了对抗解耦算法在不同数据情况下的普适性。相较于普通的解耦训练算法,在跨说话人的风格迁移任务上,将音色相似度的主观评分结果提高了51.3%。
将音频特征提取模块输入的感受野由单条音频扩展为音频块,提高了对于语音音色、风格建模的结果的鲁棒性与准确性。相较于基于单条音频的音频提取方法,在跨说话人的风格迁移任务上,将风格相似度的主观评分结果提高了5.3%。
本发明的方法对于人机交互行业有重要价值,可使用于虚拟人语音生成、有声小说生成等多种应用场景中。与现有技术相比,通过输入音频的块式组合和目标域标签过滤机制,实现了更鲁棒且适用于复杂数据条件的跨说话人语音风格建模方法。
本申请实施例还提供一种控制装置,包括处理器和用于存储计算机程序的存储介质;其中,处理器用于执行所述计算机程序时至少执行如上所述的方法。
本申请实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被执行时至少执行如上所述的方法。
本申请实施例还提供一种处理器,所述处理器执行计算机程序,至少执行如上所述的方法。
所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random AccessMemory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random AccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAMEnhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,Sync Link Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (10)

1.一种跨说话人语音风格建模方法,其特征在于,包括如下步骤:
S1:构建跨说话人语音风格模型,包括:音频特征提取模块、目标标签分类模块、目标域标签筛选模块、对抗标签分类模块依序连接,用于提取输入音频块的音色特征和风格特征;
S2:构建多说话人多风格类别的数据集并采用所述数据集训练所述跨说话人语音风格模型直至提取的所述音色特征和所述风格特征的误差不再下降;
S3:将任意一个说话人标签和一个风格类别标签输入到训练好的所述跨说话人语音风格模型中与语音合成系统一起得到音色与说话人标签一致、风格与风格标签一致的语音。
2.如权利要求1所述的跨说话人语音风格跨建模方法,其特征在于,所述音频特征提取模块包括两个音频特征提取子模块,分别用于获取块级音频特征向量作为输入音频块的音色特征、输入音频块的风格特征,所述音色特征和所述风格特征两者构成了音频特征提取模块的全部输出。
3.如权利要求2所述的跨说话人语音风格跨建模方法,其特征在于,所述音频特征提取子模块分别包括:3层卷积神经网络和2层门控循环网络;
所述3层卷积神经网络接收音色、风格标签均相同的k条音频组成的音频块,k为音频数量,提取得到k个原始音频特征序列;
每个所述原始音频特征序列分别被送入到第1层门控循环网络中,并分别取门控循环网络的最后一个时间步输出,得到k个句级音频特征向量;
所述句级音频特征向量以随机顺序拼接在一起,得到长度为k的特征序列;
所述特征序列被送入第2层门控循环网络中并取门控循环网络最后一个时间步输出,得到一个块级音频特征向量作为所述音频特征提取子模块的最终输出特征。
4.如权利要求3所述的跨说话人语音风格跨建模方法,其特征在于,所述目标标签分类模块包括两个分类器,所述分类器均由2层全连接神经网络组成,分别用于接收所述音色特征、所述风格特征并分别得到输出一个dspker维的说话人身份预测概率向量Pspker、一个dstyle维的语音风格预测概率向量Pstyle
其中,dspker为训练数据集中说话人总人数,dstyle为训练数据集中风格标签类别数目。
5.如权利要求3所述的跨说话人语音风格跨建模方法,其特征在于,所述身份预测向量和所述风格预测向量将通过交叉熵损失函数与原输入音频块的实际说话人身份Lspker、风格标签Lstyle计算误差并向所述音频特征提取模块回传梯度信息,误差计算公式为:
εspker=-Lspker·log(Pspker)
εstyle=-Lstyle·log(Pstyle)
其中,εspker是身份误差,εstyle是风格误差。
6.如权利要求5所述的跨说话人语音风格跨建模方法,其特征在于,所述目标域标签筛选模块,一个说话人身份筛选机制和一个风格标签筛选机制;
所述说话人身份筛选机制用于接收所述音频风格提取模块输出的所述音色特征和原输入的所述音频块的所述音色标签,并将所述音色特征转发到所述对抗标签分类模块中与所述音色标签对应的对抗风格标签分类器中,用于针对所述说话人的目标域从音色特征中剥离风格信息;
所述风格标签筛选机制用于接收所述音频风格提取模块输出的所述风格特征和原输入的所述音频块的所述风格标签,并将所述风格特征转发到所述对抗标签分类模块中与所述风格标签对应的对抗说话人身份分类器中,用于针对所述风格标签的目标域从风格特征中剥离音色信息。
7.如权利要求6所述的跨说话人语音风格跨建模方法,其特征在于,所述对抗标签分类模块由dstyle个对抗说话人身份分类器和dspker个对抗风格分类器组成,所述对抗说话人身份分类器和所述对抗风格分类器均包含1个梯度反转层和2层全连接神经网络;
所述对抗说话人分类器与所述数据集中的风格标签配置为一一对应关系,所述对抗风格分类器与所述数据集中的说话人配置为一一对应关系。
8.如权利要求7所述的跨说话人语音风格跨建模方法,其特征在于,所述对抗说话人身份分类器接收到输入的风格特征输出dt_spker维的说话人身份预测向量Qspker
其中,dt_spker为所述对抗说话人身份分类器对应的风格标签在所述数据集中涉及的说话人数目;
所述对抗风格标签分类器接收到输入的音色特征输出dt_style维的风格标签预测向量Qstyle
其中,dt_style为所述对抗风格标签分类器对应的说话人在数据集中覆盖的风格标签数目。
9.如权利要求8所述的跨说话人语音风格跨建模方法,其特征在于,所述说话人身份预测向量和所述风格标签预测向量将通过交叉熵损失函数与原输入所述音频块的实际说话人身份、风格标签计算误差,并向所述音频特征提取模块回传梯度信息,计算公式具体如下:
εspker_adv=-Lspker·log(Qspker)
εstyle_adv=-Lstyle·log(Qstyle)
其中,εspker_adv是对抗身份误差,εstyle_adv是对抗风格误差。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一所述方法的步骤。
CN202111535836.8A 2021-12-15 2021-12-15 一种跨说话人语音风格建模方法及计算机可读存储介质 Pending CN114242031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111535836.8A CN114242031A (zh) 2021-12-15 2021-12-15 一种跨说话人语音风格建模方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111535836.8A CN114242031A (zh) 2021-12-15 2021-12-15 一种跨说话人语音风格建模方法及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114242031A true CN114242031A (zh) 2022-03-25

Family

ID=80756459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111535836.8A Pending CN114242031A (zh) 2021-12-15 2021-12-15 一种跨说话人语音风格建模方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114242031A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746834A (zh) * 2024-02-21 2024-03-22 青岛海尔科技有限公司 基于大模型的语音生成方法及装置、存储介质、电子装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746834A (zh) * 2024-02-21 2024-03-22 青岛海尔科技有限公司 基于大模型的语音生成方法及装置、存储介质、电子装置
CN117746834B (zh) * 2024-02-21 2024-05-24 青岛海尔科技有限公司 基于大模型的语音生成方法及装置、存储介质、电子装置

Similar Documents

Publication Publication Date Title
US10410621B2 (en) Training method for multiple personalized acoustic models, and voice synthesis method and device
US11144597B2 (en) Computer generated emulation of a subject
Kinoshita et al. Integrating end-to-end neural and clustering-based diarization: Getting the best of both worlds
CN102270450B (zh) 多模型自适应和语音识别装置及其方法
Ye et al. Temporal modeling matters: A novel temporal emotional modeling approach for speech emotion recognition
CN110534113A (zh) 音频数据脱敏方法、装置、设备和存储介质
CN108959256A (zh) 短文本的生成方法、装置、存储介质和终端设备
GB2505400A (en) Text to speech system which outputs expression/emotion
CN113516968B (zh) 一种端到端长时语音识别方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN108899013A (zh) 语音搜索方法、装置和语音识别系统
CN108615525A (zh) 一种语音识别方法及装置
CN110335587A (zh) 语音合成方法、系统、终端设备和可读存储介质
CN109102796A (zh) 一种语音合成方法及装置
CN108228576A (zh) 文本翻译方法及装置
CN109783624A (zh) 基于知识库的答案生成方法、装置和智能会话系统
GB2574098A (en) Interactive systems and methods
KR20230159371A (ko) 음성 인식 방법 및 장치, 그리고 저장 매체
CN110600004A (zh) 一种语音合成播放方法、装置和存储介质
CN105161095A (zh) 语音识别语法树的构图方法及装置
CN108805260A (zh) 一种图说生成方法及装置
CN114242031A (zh) 一种跨说话人语音风格建模方法及计算机可读存储介质
Liu et al. Multistage deep transfer learning for emIoT-enabled human–computer interaction
Ng et al. Teacher-student training for text-independent speaker recognition
Dang et al. A method to reveal speaker identity in distributed asr training, and how to counter it

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination