CN116206591A - 模型训练和语音合成方法、装置、设备及介质 - Google Patents

模型训练和语音合成方法、装置、设备及介质 Download PDF

Info

Publication number
CN116206591A
CN116206591A CN202111451540.8A CN202111451540A CN116206591A CN 116206591 A CN116206591 A CN 116206591A CN 202111451540 A CN202111451540 A CN 202111451540A CN 116206591 A CN116206591 A CN 116206591A
Authority
CN
China
Prior art keywords
emotion
vector
data
model
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111451540.8A
Other languages
English (en)
Inventor
朱晓旭
张大成
李永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN202111451540.8A priority Critical patent/CN116206591A/zh
Publication of CN116206591A publication Critical patent/CN116206591A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种模型训练和语音合成方法、装置、设备及介质。由于可以根据训练完成的第一情感分类模型,获取情感提取模型,方便后续基于该情感提取模型,对原始语音合成模型进行训练,降低获取目标情感的语音合成模型的难度。通过该第一情感分类模型中包含的第一网络层所确定的该TTS数据对应的第一情感向量,是根据该TTS数据所具有的情感对应的情感权重向量和预先配置的各个情感关联参数确定的,从而实现结合非语音方面的信息确定该TTS数据所具有的情感的情感向量,提高了该情感向量的准确性,进而有利于后续基于将该情感向量结合到对原始语音合成模型进行训练的过程中,以提高用于合成带有情感的合成语音数据的语音合成模型的精度。

Description

模型训练和语音合成方法、装置、设备及介质
技术领域
本发明涉及语音合成技术领域,尤其涉及一种模型训练和语音合成方法、装置、设备及介质。
背景技术
现有技术中,为了合成情感自然的语音数据,在训练语音合成模型时,一般预先需要获取包含带有情感标签的文本转语音(Text to Speech,TTS)数据的样本集,以及对应的参考样本集,该参考样本集中存在带有不同情感标签的自然语音数据。其中,该情感标签用于标识语音数据(包括样本集中的TTS数据以及参考样本集中的自然语音数据)分别具有预先配置的每种情感的概率值,该TTS数据对应有文本特征样本以及第一声学特征。针对样本集中的每个TTS数据,根据该TTS数据对应的情感标签,从参考样本集中确定具有该TTS数据对应的情感标签的自然语音数据。基于每个TTS数据、每个TTS数据分别对应的文本特征样本、每个TTS数据分别对应的第一声学特征、以及每个TTS数据分别对应的自然语音数据,对原始语音合成模型、原始情感提取模型以及原始情感分类模型进行联合训练,以获取训练完成的语音合成模型以及情感提取模型。
对于该种方法,需要收集该样本集所对应的参考样本集,并对该参考样本集中包含的自然语音数据进行标注,增加了工作人员的工作量,且过于依赖收集到的语音样本的质量,从而无法保证获取到的目标情感的语音合成模型的语音合成的转换质量。
发明内容
本发明实施例提供了一种模型训练和语音合成方法、装置、设备及介质,用以解决现有目标情感的语音合成模型的训练过程复杂且难度大的问题。
本发明实施例提供了一种模型训练方法,所述方法包括:
针对第一样本集中的每个文本转语音TTS数据,该TTS数据对应有第一情感概率向量以及第一声学特征,其中,所述第一情感概率向量包括该TTS数据分别具有预先配置的每种情感的概率值;
对于任一TTS数据,通过第一情感分类模型中包含的第一网络层,确定该TTS数据所具有的情感对应的第一情感向量,其中,所述第一情感向量是基于该TTS数据所具有的情感对应的情感权重向量和预先配置的各个情感关联参数确定的,所述情感权重向量包含所述各个情感关联参数分别对应的权重值,所述各个情感关联参数为所述第一情感分类模型中用于确定该TTS数据所具有的情感的非语音方面的情感辅助向量;以及通过所述第一情感分类模型中包含的第二网络层,基于所述第一情感向量,确定该TTS数据对应的第二情感概率向量,其中,所述第二情感概率向量包括通过所述第一情感分类模型预测得到的该TTS数据分别具有预先配置的每种情感的概率值;
基于所述第二情感概率向量以及对应的第一情感概率向量,对所述第一情感分类模型进行训练,以得到训练完成的第一情感分类模型,并根据训练完成的第一情感分类模型中包含的第一网络层,确定情感提取模型。
本发明实施例提供了一种语音合成方法,所述方法包括:
基于目标情感对应的目标情感提取模型,获取所述目标情感的情感向量;
通过目标语音合成模型,基于待处理文本的文本特征以及所述情感向量,获取所述待处理文本对应的声学特征向量;
通过声码器,基于所述声学特征向量,获取所述待处理文本对应的具有所述目标情感的合成语音数据。
本发明实施例提供了一种模型训练装置,所述装置包括:
获取单元,用于针对第一样本集中的每个文本转语音TTS数据,该TTS数据对应有第一情感概率向量以及第一声学特征,其中,所述第一情感概率向量包括该TTS数据分别具有预先配置的每种情感的概率值;
训练单元,用于对于任一TTS数据,通过第一情感分类模型中包含的第一网络层,确定该TTS数据所具有的情感对应的第一情感向量,其中,所述第一情感向量是基于该TTS数据所具有的情感对应的情感权重向量和预先配置的各个情感关联参数确定的,所述情感权重向量包含所述各个情感关联参数分别对应的权重值,所述各个情感关联参数为所述第一情感分类模型中用于确定该TTS数据所具有的情感的非语音方面的情感辅助向量;以及通过所述第一情感分类模型中包含的第二网络层,基于所述第一情感向量,确定该TTS数据对应的第二情感概率向量,其中,所述第二情感概率向量包括通过所述第一情感分类模型预测得到的该TTS数据分别具有预先配置的每种情感的概率值;基于所述第二情感概率向量以及对应的第一情感概率向量,对所述第一情感分类模型进行训练,以得到训练完成的第一情感分类模型,并根据训练完成的第一情感分类模型中包含的第一网络层,确定情感提取模型。
本发明实施例提供了一种语音合成装置,所述装置包括:
获取模块,用于基于目标情感对应的目标情感提取模型,获取所述目标情感的情感向量;
第一处理模块,用于通过目标语音合成模型,基于待处理文本的文本特征以及所述情感向量,获取所述待处理文本对应的声学特征向量;
第二处理模块,用于通过声码器,基于所述声学特征向量,获取所述待处理文本对应的具有所述目标情感的合成语音数据。
本发明实施例提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述模型训练方法的步骤,或者,实现如上述语音合成方法的步骤。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述模型训练方法的步骤,或者,实现如上述语音合成方法的步骤。
由于可以通过第一样本集中的每个TTS数据,对第一情感分类模型进行预训练,从而根据训练完成的第一情感分类模型,获取情感提取模型,方便后续基于该情感提取模型,对原始语音合成模型进行训练,降低了获取目标情感的语音合成模型的难度。并且,在对TTS数据进行处理时,通过该第一情感分类模型中包含的第一网络层所确定的该TTS数据对应的第一情感向量,是根据该TTS数据所具有的情感对应的情感权重向量和预先配置的各个情感关联参数确定的,从而实现结合非语音方面的信息确定该TTS数据所具有的情感的情感向量,提高了该情感向量的准确性,进而有利于后续基于情感提取模型,获取TTS数据所具有的情感对应的情感向量,将该情感向量结合到在对原始语音合成模型进行训练的过程中,以提高用于合成带有情感的合成语音数据的语音合成模型的精度,并提高获取带有情感的合成语音数据的质量以及稳定性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种训练过程示意图;
图2为本发明实施例提供的具体的模型训练流程示意图;
图3为本发明实施例提供的一种语音合成过程示意图;
图4为本发明实施例提供的一种模型训练装置的结构示意图;
图5为本发明实施例提供的一种语音合成装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图;
图7为本发明实施例提供的再一种电子设备的结构示意图。
具体实施方式
下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了方便理解,下面对本发明实施例中涉及的部分概念进行解释:
BERT(Bidirectional Encoder Representation from Transformers)是GoogleAI团队在2018年提出来的文本预训练模型,是目前NLP领域任务涵盖范围最广的模型,并在各种任务上取得了非常卓越的效果。BERT的网络架构使用的是多层Transformer结构,其最大的特点是抛弃了传统的循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Networks,CNN),通过Attention机制将任意位置的两个单词的距离转换成1,有效地解决了NLP中棘手的长期依赖问题。BERT是一个多任务模型,由两个自监督任务组成,分别是MLM(Masked Language Model)和NSP(Next Sentence Prediction)。在经过大量语料预训练的BERT之后,便可以使用预训练的模型应用到NLP的各个任务中了。
为了提高情感合成和情感转换的质量,本发明实施例提供了一种模型训练和语音合成方法、装置、设备及介质。
实施例1:图1为本发明实施例提供的一种模型训练过程示意图,包括:
S101:针对第一样本集中的每个文本转语音TTS数据,该TTS数据对应有第一情感概率向量以及第一声学特征,其中,第一情感概率向量包括该TTS数据分别具有预先配置的每种情感的概率值。
本发明实施例提供的模型训练方法应用于电子设备,该电子设备可以是如机器人等智能设备,也可以是服务器。
在本申请中,可以训练情感提取模型,以通过该情感提取模型协助训练语音合成模型合成具有特定情感的语音数据的能力。为了训练该情感提取模型,可以预先获取用于训练该情感提取模型的样本集(记为第一样本集),该第一样本集中应包含有文本转语音(Text to Speech,TTS)数据,以通过该第一样本集中的TTS数据,训练该情感提取模型。
针对该第一样本集中的每个TTS数据,该TTS数据对应有情感概率向量(记为第一情感概率向量)以及声学特征(记为第一声学特征)。该第一情感概率向量包括该TTS数据分别具有预先配置的每种情感的概率值,根据该第一情感概率向量中包含的每个概率值,可以反映该TTS数据真实具有的情感。该第一声学特征可以是语音数据的梅尔倒谱系数MFCC,也可以是梅尔谱等,具体实施过程中,可以根据实际需求进行灵活设置。
例如,预先配置的情感分别有开心、悲伤及生气,某一TTS数据对应的第一情感概率向量为[0,1,0],该第一情感概率向量中从左到右的第一个0表示该TTS数据具有开心情感的概率值为0,该第一情感概率向量中的1表示该TTS数据具有悲伤情感的概率值为1,该第一情感概率向量中从左到右的第二个0表示该TTS数据具有生气情感的概率值为0,根据该第一情感概率向量中包含的每个概率值,可以确定该TTS数据真实具有的情感为悲伤。
在一种可能的实施方式中,该第一声学特征可以是通过模型获取的,比如,语音合成模型(TTS)模型,也可以是通过物理算法获取的。具体的第一声学特征的获取方法可以根据实际需求,进行灵活设置,在此不作具体限定。
在一种示例中,任一TTS数据对应的第一情感概率向量可以通过人工进行标注的方式获取,也可以通过模型获取的。具体的第一情感概率向量的获取方法可以根据实际需求进行灵活设置,在此不做具体赘述。
示例性的,若TTS数据对应的第一情感概率向量通过模型获取,则预先训练有在情感分类任务方面有着较高精度的情感分类模型(记为第二情感分类模型),以通过该第二情感分类模型,可以获取第一样本集中每个TTS数据分别对应的第一情感概率向量。具体的,针对第一样本集中的每个TTS数据,通过该第二情感分类模型,基于该TTS数据对应的第一声学特征,确定该TTS数据对应的第一情感概率向量,以方便后续对第一情感分类模型的训练,减少人工标注TTS数据对应的第一情感概率向量所需的工作量,实现无监督地获取TTS数据对应的第一情感概率向量,提高模型训练的效率。
S102:对于任一TTS数据,通过第一情感分类模型中包含的第一网络层,确定该TTS数据所具有的情感对应的第一情感向量,该第一情感向量是基于该TTS数据所具有的情感对应的情感权重向量和预先配置的各个情感关联参数确定的,情感权重向量包含各个情感关联参数分别对应的权重值,各个情感关联参数为第一情感分类模型中用于确定该TTS数据所具有的情感的非语音方面的情感辅助向量;以及通过第一情感分类模型中包含的第二网络层,基于第一情感向量,确定该TTS数据对应的第二情感概率向量,该第二情感概率向量包括通过第一情感分类模型预测得到的该TTS数据分别具有预先配置的每种情感的概率值。
在本申请中,预先获取有情感分类模型(记为第一情感分类模型),通过训练该第一情感分类模型,获取训练完成的第一情感分类模型,然后根据该训练完成的第一情感分类模型,获取情感提取模型。
具体实施过程中,获取该第一样本集中的任一TTS数据,将该TTS数据输入到第一情感分类模型。通过该第一情感分类模型,对该TTS数据进行相应的处理,获取该第一情感分类模型的输出结果,以根据该第一情感分类模型的输出结果,对该第一情感分类模型进行训练。
在一种示例中,该第一情感分类模型中包括第一网络层和第二网络层,以通过该第一情感分类模型中包括的第一网络层和第二网络层,对输入的TTS数据进行准确地处理。该第一网络层与该第二网络层连接。其中,该第一网络层用于对输入的TTS数据进行处理,获取该TTS数据所具有的情感对应的第一情感向量。该第二网络层用于对第一网络层获取到的第一情感向量进行处理,获取该TTS数据对应的情感概率向量(记为第二情感概率向量)。
在一种可能的实施方式中,一般可以通过语音、面部表情和身体姿态等方式进行情感表达,因此,人所表达的情感,不仅可以通过人发出的语音数据来确定,还可以通过非语音方面的因素来表达用户的情感,即通过除了人发出的语音数据之外的其它方式进行情感表达,比如,面部表情和身体姿态等是可以通过图像采集处理得到的。并且人在表达不同的情感时,不仅发出的语音数据会不同,人在说话时的非语音方面的因素也会有所不同。比如,相比于人在悲伤的说话时的表情和动作,人在兴奋的说话时人的表情会带有微笑,人在说话时也会带有手舞足蹈的动作。因此,在本发明实施例中,该第一网络层中可以配置有用于确定输入的TTS数据所具有的情感的非语音方面的情感辅助向量(记为情感关联参数),即第一情感分类模型中包括预先配置的各个情感关联参数,根据该预先配置的各个情感关联参数以及输入的TTS数据所具有的情感对应的情感权重向量,获取该第一情感向量,从而实现在输入的TTS数据的基础上结合非语音方面的因素,准确地提取到输入的TTS数据所具有的情感,提高提取到情感的准确性。其中,该各个情感关联参数为第一情感分类模型中该情感权重向量包含各个情感关联参数分别对应的权重值。
在一种示例中,该第一网络层中可以包含有特征提取层、第一编码子网络以及第二编码子网络。该第一编码子网络分别与特征提取层以及第二编码子网络连接。其中,该特征提取层中包含有多个子网络,且多个子网络之间是依次连接的,该特征提取层用于对输入的TTS数据对应的第一声学特征进行特征提取,且该特征提取层中最后一个子网络的输出数据为基于该TTS数据对应的第一声学特征提取到的情感特征。该第一编码子网络用于对特征提取层的输出数据进行处理,获取该TTS数据对应的基础情感向量,该基础情感向量包含用于确定该TTS数据所具有的情感的语音方面的情感辅助向量。该第二编码子网络中包含有预先配置的各个情感关联参数,第二编码子网络用于对第一编码子网络获取到的基础情感向量进行处理,获取该TTS数据所具有的情感对应的情感权重向量,并根据该情感权重向量以及预先配置的各个情感关联参数,确定该TTS数据所具有的情感对应的第一情感向量。
具体实施过程中,获取第一样本集中任一TTS数据,将该TTS数据对应的第一声学特征输入到第一情感分类模型中。通过该第一情感分类模型中包含的第一网络层包含的特征提取层,基于该TTS数据对应的第一声学特征,获取该特征提取层中最后一个子网络的输出数据。通过该第一网络层包含的第一编码子网络(如门循环单元(Gate Recurrent Unit,GRU)),基于该输出数据,获取该TTS数据对应的基础情感向量。然后通过该第一网络层包含的第二编码子网络,基于该基础情感向量,获取该TTS数据所具有的情感对应的情感权重向量(Attention),并根据该情感权重向量、以及该第二编码子网络中预先配置的各个情感关联参数(Emotional Token),确定该TTS数据所具有的情感对应的第一情感向量(EmotionEmbedding)。
在一种示例中,通过该第一网络层包含的第二编码子网络,基于该基础情感向量,获取该TTS数据所具有的情感对应的情感权重向量时,可以通过该第二编码子网络中的多头自注意力机制(multihead mlp attention)网络,基于该基础情感向量,获取该TTS数据所具有的情感对应的情感权重向量。
需要说明的是,每个情感关联参数在该情感权重向量中分别对应有一个权重值,以通过每个情感关联参数分别对应的权重值,表征每个情感关联参数在所要表达的情感中的强度。
在一种示例中,通过该第一网络层包含的第二编码子网络,根据该情感权重向量、以及该第二编码子网络中预先配置的各个情感关联参数,确定该TTS数据所具有的情感对应的第一情感向量时,确定该第二编码子网络中包含的每个情感关联参数在情感权重向量中分别对应有一个权重值。例如,第二编码子网络中包含的情感关联参数的数量有M个,每个情感关联参数在情感权重向量中分别对应有一个权重值,如第一个情感关联参数对应情感权重向量中的第一个权重值,第二个情感关联参数对应情感权重向量中的第二个权重值,以此类推。针对第二编码子网络中包含的每个情感关联参数,将该情感关联参数与该情感关联参数在情感权重向量中对应的权重值相乘,获取乘积向量。根据获取到的每个乘积向量,确定该TTS数据所具有的情感对应的第一情感向量。
基于上述实施例获取到第一情感向量后,通过第一情感分类模型中包含的第二网络层,基于第一情感向量,确定该TTS数据对应的第二情感概率向量。
在一种示例中,该第一情感分类模型中包含的第二网络层可以由深度神经网络(Deep Neural Networks,DNN)构成。通过该DNN,基于第一网络层确定的第一情感向量,获取该TTS数据对应的第二情感概率向量。其中,该第二情感概率向量包括通过该第一情感分类模型预测得到的该TTS数据分别具有预先配置的每种情感的概率值。
S103:基于第二情感概率向量以及对应的第一情感概率向量,对第一情感分类模型进行训练,以得到训练完成的第一情感分类模型,并根据训练完成的第一情感分类模型中包含的第一网络层,确定情感提取模型。
当基于上述的实施例获取到了第二情感概率向量之后,可以根据该第二情感概率向量以及对应的第一情感概率向量,确定损失值,然后根据该确定的损失值,对第一情感分类模型中的参数的参数值进行调整,以获取训练完成的第一情感分类模型。
由于模型的精度与该模型包含的参数量成正比,一般精度较高的模型所包含的参数的数量是非常大的,如几十万,几百万等。如采取让该第一情感分类模型包含有大量的参数,来提高该第一情感分类模型的精度,会导致第一情感分类模型在执行任务(如获取第二情感概率向量)的过程中会耗费大量的计算资源,不便于该第一情感分类模型的训练,也不便于应用该第一情感分类模型执行任务。因此,在本发明实施例中,可以采用知识蒸馏的方式,对包含大量参数且在情感分类任务方面有着较高精度的第二情感分类模型进行压缩,以实现在不影响该第二情感分类模型的精度的情况下,减少该第二情感分类模型所包含的参数量,然后根据压缩后的模型,获取第一情感分类模型,从而实现第一情感分类模型可以具有与该第二情感分类模型相同的精度,并且降低了对该第一情感分类模型的训练难度,以及该第一情感分类模型在执行任务的过程中所耗费的计算资源,也降低了将该第一情感分类模型部署到智能设备中的难度。
为了实现对第二情感分类模型的压缩,可以从第二情感分类模型中包含的网络中,确定各个第一目标网络。第一目标网络表征该第二情感分类模型中不可压缩的关键网络。并且如果要保证第一情感分类网络可以具有与第二情感分类网络中各第一目标网络相近的精度,则该第一情感分类网络中需要包含可以实现各第一目标网络的功能的各个子网络,即第一情感分类模型中的每一子网络分别对应第二情感分类模型中的一个第一目标网络,且每个子网络的输出数据要与对应的一个第一目标网络的输出数据相同。然后针对第一样本集中包含的每个TTS数据,将该TTS数据分别输入到第一情感分类模型以及第二情感分类模型,获取第一情感分类模型中每个子网络的输出数据以及第二情感分类模型中各个第一目标网络的输出数据。根据每个子网络的输出数据以及各个第一目标网络的输出数据,实现对第二情感分类模型的压缩。
在一种示例中,考虑到第二情感分类模型中一般包含有大量的参数是用于对输入的TTS数据进行特征提取的。因此,可以根据第二情感分类模型中用于特征提取的参数所归属的网络层,确定第二情感分类模型中包含的各个目标网络(记为第一目标网络)。
其中,在根据第二情感分类模型中用于特征提取的参数所归属的网络层,确定第二情感分类模型中包含的各个第一目标网络时,每相邻的两个第一目标网络在该第二情感分类模型中间隔的网络层的数量可以尽可能的均匀,以保证压缩后的模型的精度和稳定性。比如,第二情感分类模型中包含有12层用于特征提取的网络层,且该12层网络层依次连接,按照输入数据的传递方向,可以将其中的第3层、第6层、第9层以及第12层确定为各个第一目标网络,该各个第一目标网络分别为第一目标网络1、第一目标网络2、第一目标网络3和第一目标网络4,每相邻的两个第一目标网络之间间隔两层网络层。相应的,第一情感分类模型中的特征提取层包含有4层子网络,该4层子网络依次连接。其中,按照输入数据的传递方向,第1层子网络对应第二情感分类模型中的第一目标网络1,第2层子网络对应第二情感分类模型中的第二目标网络2、第3层子网络对应第二情感分类模型中的第二目标网络3、第4层子网络对应第二情感分类模型中的第二目标网络4。
需要说明的是,在设置第一目标网络的数量时,可以根据场景的不同,设置不同的值,如果希望尽可能压缩模型所包含的参数量,可以将该数量设置的少一些;如果希望尽可能保证压缩后的模型的精度,可以将该数量设置的多一些。具体在设置第一目标网络的数量时,可以根据实际需求进行灵活配置,在此不做具体限定。
具体实施过程中,针对第一样本集中包含的每个TTS数据,将该TTS数据分别输入到第一情感分类模型以及第二情感分类模型。通过预先训练的第二情感分类模型,基于该TTS数据对应的第一声学特征,获取该第二情感分类模型中包含的各个第一目标网络的输出数据;并通过第一情感分类模型,基于该TTS数据对应的第一声学特征,获取特征提取层中包含的各个子网络的输出数据。基于该TTS数据对应的第二情感概率向量及该TTS数据对应的第一情感概率向量,确定第一损失值。并根据各个子网络的输出数据及各个子网络分别对应的第一目标网络的输出数据,确定第二损失值。根据该第一损失值以及第二损失值,对该第一情感分类模型中的参数的参数值进行调整,以得到训练后的第一情感分类模型,从而实现第一情感分类模型在包含较少的参数的情况下,达到与第二情感分类模型相近的精度,降低第一情感分类模型的训练难度。
具体实施中,在根据该第一损失值以及第二损失值,对该第一情感分类模型中的参数的参数值进行调整时,可以采用梯度下降算法,对第一情感分类模型中的参数的梯度进行反向传播,从而对第一情感分类模型中参数的参数值进行更新。其中,可以根据该第一损失值与该第二损失值的权重和,对该第一情感分类模型中的参数的参数值进行调整。
在本发明实施例中,第一样本集中包含有大量的TTS数据,针对每个TTS数据,均执行上述的步骤,当满足预设的收敛条件(记为第一收敛条件)时,该第一情感分类模型训练完成。其中,满足预设的第一收敛条件可以为根据每个TTS数据在当前迭代分别对应的权重和小于设定的第一损失值阈值、对第一情感分类模型进行训练的迭代次数达到设置的第一最大迭代次数等。具体实施中可以灵活进行设置,在此不做具体限定。
在具体实施过程中,第一情感分类模型训练时,将第一样本集中的TTS数据分为训练样本和测试样本,先基于该训练样本对第一情感分类模型进行训练,再基于该测试样本对上述已训练的第一情感分类模型的可靠程度进行验证。
当基于上述的实施例获取到了训练完成的第一情感分类模型后,可以根据该训练完成的第一情感分类模型中包含的第一网络层,获取情感提取模型,以通过该情感提取模型输出的情感向量,协助语音合成模型的训练,从而提高语音合成模型合成具有情感的语音数据的能力和精度。
实施例2:为了提高语音合成模型合成具有情感的语音数据的能力,在上述实施例的基础上,在本发明实施例中,该方法还包括:
针对每个TTS数据,基于情感提取模型,获取该TTS数据所具有的情感的第二情感向量,该第二情感向量包含该TTS数据所具有的情感的情感特征;
基于TTS数据对应的文本特征样本、TTS数据的第一声学特征、以及第二情感向量,对原始语音合成模型和情感提取模型进行联合训练,以获取目标语音合成模型和目标情感提取模型。
具体实施中,当基于上述的实施例获取到了情感提取模型后,针对各个TTS数据,可以基于该情感提取模型,获取该TTS数据所具有的情感的情感向量(记为第二情感向量),即获取该TTS数据所具有的情感的情感特征。后续根据该第二情感向量以及该TTS数据,对原始语音合成模型进行训练。
在一种示例中,针对每个TTS数据,基于该情感提取模型,获取该TTS数据所具有的情感的第二情感向量的方式包括如下至少一种:
方式一、对于每个TTS数据,该TTS数据对应有情感标签(为了方便描述,记为目标情感标签),该情感标签用于标识该TTS数据所具有的情感。根据该TTS数据的情感标签,从第一样本集中,确定具有该TTS数据对应的情感标签的各个TTS数据(为了方便描述,记为参考TTS数据)。获取各个参考TTS数据分别对应的参考情感向量,然后根据各个参考情感向量,确定该TTS数据所具有的情感的第二情感向量,这样可以有效避免该情感提取模型对第一样本集之外的TTS数据无法精准识别,导致降低获取到的第二情感向量的精度的问题,提高了获取到的第二情感向量的精度,且无需再收集其它语音数据,减少工作人员的工作量。其中,任一参考TTS数据对应的参考情感向量是通过情感提取模型对该参考TTS数据进行处理得到的。其中,获取TTS数据对应的情感标签,可以是通过人工标注的,也可以是通过模型或物理算法进行识别的,比如情感识别模型等。
在本发明实施例中,该情感标签可以通过数字、字符串等形式进行表示,也可以采用其它形式进行表示,只要可以唯一标识情感的表示方式均可应用于本发明实施例。
需要说明的是,为了节省获取参考情感向量的时间,可以预先通过情感提取模型,对第一样本集中的每个TTS数据进行处理,获取每个TTS数据分别对应的参考情感向量并保存,后续根据保存的各个TTS数据分别对应的参考情感向量,获取各个参考TTS数据分别对应的参考情感向量,也可以为了节约电子设备的存储空间,在确定各个参考TTS数据后,通过情感提取模型,分别对各个参考TTS数据进行处理,获取各个参考TTS数据分别对应的参考情感向量。获取各个参考TTS数据分别对应的参考情感向量的方式,可以根据实际需求进行灵活设置,在此不做具体限定。
方式二、在收集语音数据时,也会收集不同情感的随机语音数据,该随机语音数据不为第一样本集中的TTS数据。获取各个随机语音数据的情感标签。针对每个TTS数据,根据该TTS数据的情感标签,获取任一具有该TTS数据对应的情感标签的随机语音数据。通过情感提取模型,对该随机语音数据进行处理,获取该随机语音数据对应的参考情感向量,并将该参考情感向量确定为第二情感向量,这样可以通过随机语音数据,可以增加获取到的第二情感向量的多样性,进而提高获取到的目标语音合成模型和目标情感提取模型的鲁棒性。
其中,获取情感标签的方式已在上述实施例中进行描述,在此不做赘述。
方式三、由于情感向量是根据情感权重向量以及各个情感关联参数确定的。因此,可以针对每个TTS数据,获取该TTS数据对应的情感标签,确定该TTS数据所具有的情感,并获取该情感对应的情感权重向量。然后对该情感权重向量中包含的至少一个权重值进行调整,基于调整后的情感权重向量以及情感提取模型中包含的各个情感关联参数,确定该TTS数据所具有的情感的第二情感向量,这样可以通过根据工作人员的需求,灵活对该情感权重向量中包含的权重值进行调整,从而可以提高获取到的第二情感向量的多样性,进而提高获取到的目标语音合成模型和目标情感提取模型的鲁棒性。
其中,为了节省获取情感权重向量的时间,可以预先通过情感提取模型,分别对第一样本集中的每种情感的一个TTS数据进行处理,获取每种情感分别对应的情感权重向量并保存,后续根据保存的每种情感分别对应的情感权重向量,获取该TTS数据所具有的情感的对应的情感权重向量,也可以为了节约电子设备的存储空间,在确定该TTS数据所具有的情感之后,从第一样本集中获取任一具有该情感的TTS数据(记为辅助TTS数据),通过情感提取模型,对该辅助TTS数据进行处理,获取该辅助TTS数据所具有的情感的对应的情感权重向量。获取情感权重向量的方式,可以根据实际需求进行灵活设置,在此不做具体限定。
需要说明的是,通过情感提取模型获取情感权重向量的过程与上述通过第一情感分类模型获取情感权重向量的过程类似,在此不做赘述。
在一种可能的实施方式中,可以根据人工经验,对该情感权重向量中包含的至少一个权重值进行调整。
方式四、可以人工经验或需求,预先设置有每种情感分别对应的情感权重向量(记为预设情感权重向量)。针对每个TTS数据,根据该TTS数据对应的情感标签,确定该TTS数据所具有的情感,并获取该情感对应的预设情感权重向量。根据该预设情感权重向量以及该情感提取模型中包含的各个情感关联参数,确定该TTS数据所具有的情感的第二情感向量,这样可以通过根据工作人员的需求,灵活配置获取到的第二情感向量,实现了根据工作人员需求生成任意情感的第二情感向量,提高了获取到的第二情感向量的多样性,进而提高获取到的目标语音合成模型和目标情感提取模型的鲁棒性。
当基于上述的实施例获取到第二情感向量后,可以将该第二情感向量应用到对原始语音合成模型的训练过程中,从而提高语音合成模型合成具有情感的语音数据的能力。由于语音合成模型的输入为文本特征,输出为声学特征。因此针对每个TTS数据,该TTS数据还对应有文本特征样本。针对每个TTS数据,将该TTS数据对应的文本特征样本以及该TTS数据对应的第二情感向量,输入到原始语音合成模型中。通过原始语音合成模型,获取输入的文本特征样本对应的声学特征。根据该声学特征以及对应的第一声学特征,确定第三损失值。根据该第三损失值,对该原始语音合成模型以及情感提取模型进行联合训练,及对该原始语音合成模型以及情感提取模型中参数的参数值进行调整,以获取目标语音合成模型和目标情感提取模型。
其中,该原始语音合成模型以及情感提取模型中参数的参数值进行调整的顺序,可以根据第二情感向量在原始语音合成模型中的输入位置确定,即第二情感向量在原始语音合成模型中的嵌入位置确定的。比如,该第二情感向量可以在原始语音合成模型中编码器(encoder)的输出之后,原始语音合成模型中映射层(projection layer)的输入之前的位置嵌入。
在本发明实施例中,第一样本集中包含有大量的TTS数据,针对每个TTS数据,均执行上述的步骤,当满足预设的收敛条件(记为第二收敛条件)时,该原始语音合成模型和情感提取模型训练完成。第二收敛条件为根据第二样本集中每个TTS数据在当前迭代分别对应的权重值的和小于设定的第二损失值阈值、对原始语音合成模型或情感提取模型进行训练的迭代次数达到设置的第二最大迭代次数等。具体实施中可以灵活进行设置,在此不做具体限定。
作为一种可能的实施方式,在进行原始语音合成模型训练时,可以把第一样本集中的TTS数据分为训练样本和测试样本,先基于该训练样本对原始语音合成模型和情感提取模型进行联合训练,再基于该测试样本对上述已训练的语音合成模型和情感提取模型的可靠程度进行验证。
实施例3:为了准确地获取第二情感分类模型,在上述各实施例的基础上,在本发明实施例中,该第二情感分类模型通过如下方式获取:
获取第二样本集中任一语音样本,其中,语音样本对应有第一情感标签以及语音类型标签,第一情感标签用于标识语音样本所具有的情感,语音类型标签用于标识语音样本所归属的语音类型,语音类型包括TTS类型以及语音情感识别SER类型中的至少一种;
通过原始情感分类模型,基于语音样本对应的第二声学特征,确定语音样本对应的第三情感概率向量以及类型概率向量,该第三情感概率向量包括通过原始情感分类模型确定出的语音样本分别具有预先配置的每种情感的概率值,类型概率向量包括通过原始情感分类模型确定出的语音样本分别归属于预先配置的每种语音类型的概率值;以及基于第三情感概率向量以及第一情感标签,和类型概率向量以及语音类型标签,对原始情感分类模型进行训练,以得到第二情感分类模型。
为了方便获取第一情感概率向量或各第一目标网络的输出数据,在本发明实施例中,预先收集有用于训练该第二情感分类模型的样本集(记为第二样本集),以通过该第二样本集中包括的语音样本,对原始情感分类模型进行训练,从而根据训练完成的情感分类模型,获取第二情感分类模型。其中,该语音样本对应有情感标签(记为第一情感标签)。该第一情感标签用于标识该语音样本所具有的情感。
在一种示例中,该第二样本集中的语音样本可以包含大量的TTS数据,以提高第二情感分类模型对TTS数据进行情感识别的能力。其中,该第二样本集中的TTS数据可以与第一样本集中的TTS数据完全相同,即第二样本集中包含有第一样本集中的所有TTS数据,且不包含除第一样本集中的TTS数据之外的其它TTS数据,也可以完全不同,即第二样本集中不包含有第一样本集中的任一TTS数据。当然,该第二样本集中的TTS数据与第一样本集中的TTS数据还可以部分相同,比如,第二样本集中包含有第一样本集中的所有TTS数据,且包含除第一样本集中的TTS数据之外的其它TTS数据,或第二样本集中包含有第一样本集中的部分TTS数据,且包含除第一样本集中的TTS数据之外的其它TTS数据,或第一样本集中包含有第二样本集中的所有TTS数据,且包含除第二样本集中的TTS数据之外的其它TTS数据。具体在收集第一样本集和第二样本集时,可以根据实际需求,进行灵活设置,在此不做具体限定。
在另一种示例中,由于获取大量的TTS数据的成本较高,难度较大,因此,在本发明实施例中,该第二样本集中的语音样本还可以包括语音情感识别(Speech EmotionRecognition,SER)数据,以降低获取大量的语音样本的难度和所耗费的成本。并为了区分第二样本集中语音样本的语音类型,任一语音样本还对应有语音类型标签,该语音类型标签用于标识该语音样本所归属的语音类型。比如,TTS数据对应的语音类型标签为TTS,SER数据对应的语音类型标签为SER。第二样本集中SER数据的数量可以大于或远大于TTS数据的数量。该语音类型标签可以通过数字、字符串的形式表示,也可以采用其它形式进行表示,只要可以唯一标识语音类型的表示方式均可应用于本发明实施例。
具体实施过程中,获取第二样本集中任一语音样本,将该语音样本对应的声学特征(记为第二声学特征)输入到原始情感分类模型中。通过该原始情感分类模型,对输入的语音样本对应的第二声学特征进行处理,获取该语音样本对应的情感概率向量(记为第三情感概率向量)。其中,该第三情感概率向量包括通过该原始情感分类模型确定出的该语音样本分别具有预先配置的每种情感的概率值。根据该第三情感概率向量以及该语音样本对应的第一情感标签,确定情感损失值。根据该情感损失值,对该原始情感分类模型中参数的参数值进行调整,以获取训练完成的情感分类模型。然后根据该训练完成的情感分类模型,确定第二情感分类模型。
在一种示例中,考虑到TTS数据是需要通过文本数据以及精度较高的TTS技术获取到的,而SER数据则是通过自然语音数据获取到的,导致收集大量的SER数据的难度较低,收集大量的TTS数据难度较高,且收集该TTS数据所耗费的成本要远高于收集SER数据所耗费的成本,使得第二样本集中SER数据的数量要大于TTS数据的,后续基于该第二样本集中的语音样本,所获取到的训练完成的情感分类模型,影响后续训练完成的情感分类模型处理SER数据的精度。而由于后续根据该训练完成的情感分类模型所确定的第二情感分类模型,主要是用于处理TTS数据的,因此,在通过该原始情感分类模型,对输入的语音样本对应的第二声学特征进行处理时,还可以获取到该语音样本对应的类型概率向量,以基于该类型概率向量以及对应的语音类型标签,对原始情感分类模型进行训练,从而进一步提高该训练完成的情感分类模型的精度。其中,该类型概率向量包括通过原始情感分类模型确定出的该语音样本分别归属于预先配置的每种语音类型的概率值。根据该类型概率向量以及该语音样本对应的语音类型标签,确定类型损失值。根据该情感损失值以及类型损失值,对该原始情感分类模型中参数的参数值进行调整,以获取训练完成的情感分类模型。然后根据该训练完成的情感分类模型,确定第二情感分类模型。
示例性的,该原始情感分类模型中可以包括特征提取层、类别识别层以及情感分类层。该特征提取层分别与类别识别层以及情感分类层连接。该特征提取层用于对输入的语音样本进行特征提取的,获取输入的语音样本对应的情感特征向量。该类别识别层用于对特征提取层获取到的情感特征向量进行处理,获取该语音样本对应的类型概率向量。该情感分类层用于对特征提取层获取到的情感特征向量进行处理,获取该语音样本对应的第三情感概率向量。具体实施过程中,通过该原始情感分类模型中的特征提取层,对输入的语音样本对应的第二声学特征进行特征提取,获取该语音样本对应的情感特征向量。通过该原始情感分类模型中的情感分类层,基于该情感特征向量,获取该语音样本对应的第三情感概率向量,并通过该原始情感分类模型中的类别识别层,基于该情感特征向量,获取该语音样本对应的类型概率向量。
为了提高训练完成的情感分类模型处理TTS数据的精度,需要训练完成的情感分类模型对输入的不同语音类型的语音样本进行无差别处理。在本发明实施例中,在根据该类型概率向量以及该语音样本对应的语音类型标签,确定类型损失值时,可以根据该类型概率向量以及该语音样本对应的语音类型标签,梯度反转最大化分类误差函数,确定类型损失值,即使训练完成的情感分类模型无法区分不同语音类型的语音样本,从而实现将该训练完成的情感分类模型对SER数据进行处理的能力,迁移到对TTS数据的处理上。
示例性的,当基于第三情感概率向量以及对应的第一情感标签,和类型概率向量以及对应的语音类型标签,对原始情感分类模型进行训练时,可以基于第三情感概率向量以及第一情感标签,利用交叉熵损失函数,确定情感损失值;并该类型概率向量以及该语音样本对应的语音类型标签,梯度反转最大化分类误差函数,确定类型损失值。然后根据该情感损失值以及类型损失值,对该原始情感分类模型中参数的参数值进行调整,以获取训练完成的情感分类模型。根据该训练完成的情感分类模型,确定第二情感分类模型。例如,根据该情感损失值与该类型损失值的权重和,对该原始情感分类模型中参数的参数值进行调整,以获取训练完成的情感分类模型。
由于第二样本集中包含有大量的语音样本,可以针对每个语音样本,均执行上述的步骤,当满足预设的收敛条件(记为第三收敛条件)时,该情感分类模型训练完成。第二收敛条件为根据每个语音样本在当前迭代分别对应的权重和小于设定的第三损失值阈值、对情感分类模型进行训练的迭代次数达到设置的第三最大迭代次数等。具体实施中可以灵活进行设置,在此不做具体限定。
作为一种可能的实施方式,进行情感分类模型训练时,可以把第二样本集中的语音样本分为训练样本和测试样本,先基于该训练样本对情感分类模型进行训练,再基于该测试样本对上述已训练的情感分类模型的可靠程度进行验证。
在一种可能的实施方式中,在根据该训练完成的情感分类模型,确定第二情感分类模型时,可以根据该训练完成的情感分类模型中包含的特征提取层以及情感分类层,确定第二情感分类模型。
当确定了第二情感分类模型后,可以根据该第二情感分类模型中特征提取层所包含的各个子网络,确定各个第一目标网络,即该第二情感分类模型中特征提取层包括各个第一目标网络。
实施例4:为了准确地获取第二情感分类模型,在上述各实施例的基础上,在本发明实施例中,原始情感分类模型通过如下方式获取:
获取第三样本集中的任意两个SER数据,其中,任一SER数据对应有第二情感标签;通过原始情感判别模型,基于上述两个SER数据分别对应的第三声学特征,确定两个SER数据分别具有的情感是否一致的第一结果;并基于两个SER数据分别对应的第二情感标签,确定上述两个SER数据分别具有的情感是否一致的第二结果;以及基于第一结果以及第二结果,对原始情感判别模型进行训练,以得到原始情感分类模型。
在本发明实施例中,原始情感分类模型可以根据工作经验进行设置,也可以通过训练的方式获取,具体实施过程中可以根据需求进行灵活设置。
在一种示例中,若原始情感分类模型是通过训练的方式获取到的,为了训练得到原始情感分类模型,预先收集有用于训练该原始情感分类模型的样本集(记为第三样本集),以基于该第三样本集中包含的大量的SER数据,对原始情感判别模型进行训练,再根据训练完成的情感判别模型,获取该原始情感分类模型,从而实现对原始情感分类模型中特征提取层中的参数的参数值进行预训练,提高该原始分类模型提取输入的语音数据(包括TTS数据以及SER数据)中的情感特征的能力。该第三样本集中的SER数据均对应有情感标签(记为第二情感标签)。该第二情感标签用于标识该SER数据所归属的语音类型。
需要说明的是,该第三样本集中的SER数据与第二样本集中的SER数据可以完全相同,即第三样本集中包含有第二样本集中的所有SER数据,且不包含除第二样本集中的SER数据之外的其它SER数据,也可以完全不同,即第三样本集中不包含有第二样本集中的任一SER数据。当然,该第三样本集中的SER数据与第二样本集中的SER数据还可以部分相同,比如,第三样本集中包含有第二样本集中的所有SER数据,且包含除第二样本集中的SER数据之外的其它SER数据,或,第三样本集中包含有第二样本集中的部分SER数据,且包含除第二样本集中的SER数据之外的其它SER数据,或,第二样本集中包含有第三样本集中的所有SER数据,且包含除第三样本集中的SER数据之外的其它SER数据。具体在收集第二样本集和第三样本集时,可以根据实际需求,进行灵活设置,在此不做具体限定。
具体实施过程中,获取第三样本集中任意两个SER数据,将该两个SER数据输入到原始情感判别模型。通过该原始情感判别模型,基于该两个SER数据分别对应的声学特征(记为第三声学特征),确定该两个SER数据分别具有的情感是否一致的结果(记为第一结果)。并基于该两个SER数据分别对应的第二情感标签,可以确定该两个SER数据分别具有的情感是否一致的结果(记为第二结果)。
示例性的,该原始情感判别模型可以包括特征提取层以及情感判别层。该特征提取层与该情感判别层连接。该特征提取层用于对输入的两个SER数据分别进行特征提取的,获取该两个SER数据分别对应的情感特征向量。该情感判别层用于对特征提取层获取到的该两个SER数据分别对应的情感特征向量进行处理,获取该两个SER数据分别具有的情感是否一致的第一结果。具体实施过程中,可以通过该原始情感判别模型中的特征提取层,基于该两个SER数据分别对应的第三声学特征,确定该两个SER数据分别对应的情感特征向量。通过该原始情感判别模型中的情感判别层,基于该两个情感特征向量,确定该两个SER数据分别具有的情感是否一致的第一结果。
在一种可能的实施方式中,可以通过该两个SER数据分别对应的第二情感标签是否相同,确定该两个SER数据分别具有的情感是否一致的第二结果。
当基于上述的实施例获取到第一结果和第二结果后,可以基于该第一结果和第二结果,确定损失值(记为第四损失值)。然后根据该第三损失值,对该原始情感判别模型中参数的参数值进行调整,以得到训练完成的情感判别模型。
由于第三样本集中包含有大量的SER数据,针对第三样本集中的任意两个SER数据,均执行上述的步骤。当满足预设的收敛条件(记为第四收敛条件)时,该情感判别模型训练完成。其中,满足预设的第二收敛条件可以为根据任意两个SER数据分别对应的第四损失值的和小于设定的第四损失值阈值、对情感判别模型进行训练的迭代次数达到设置的第四最大迭代次数等。具体实施中可以灵活进行设置,在此不做具体限定。
作为一种可能的实施方式,在进行情感判别模型训练时,将第三样本集中的SER数据分为训练样本和测试样本,先基于该训练样本对情感判别模型进行训练,再基于该测试样本对上述已训练的情感判别模型的可靠程度进行验证。
当基于上述的实施例获取到训练完成的情感判别模型后,可以根据该训练完成的情感判别模型中包含的特征提取层,确定原始情感分类模型。
示例性的,可以将情感分类层、类别识别层分别与该训练完成的情感判别模型中包含的特征提取层连接得到的模型确定为原始情感分类模型。
在一种可能的实施方式中,第一情感分类模型也可以是预先设置的,也可以通过预先训练的方式获取到的。为了降低后续对第一情感分类模型训练的难度以及所耗费的工作量,可以采用预先训练的方式获取该第一情感分类模型。
示例性的,当基于上述的实施例获取到训练完成的情感判别模型之后,可以基于第三样本集中包含的SER数据、以及预先训练的情感判别模型,对原始情感模型进行训练,从而获取训练完成的情感模型。然后根据该训练完成的情感模型,获取第一情感分类模型。这样可以减少第一情感分类模型在学习提取输入的语音数据中包含的情感特征的能力所耗费的工作量,降低第一情感分类模型准确地提取输入的语音数据中包含的情感特征的难度,并保证训练完成的情感模型对输入的语音数据提取情感特征的能力,与训练完成的情感判别模型提取对输入的语音数据提取情感特征的能力相同。
在一种可能的实施方式中,原始情感模型中包含有用于提取输入的SER数据的情感特征的特征提取层。该特征提取层中所包含的子网络的数量可以根据工作经验进行设置,也可以设置包含有不同数量的子网络的原始情感模型,然后通过分别对每个原始情感模型进行训练,根据每个训练结果,确定以哪一个训练完成的情感模型来确定第一情感分类模型,具体在设置原始情感模型所包含的子网络的数量的方式可以根据实际需求,进行灵活设置在此不作具体赘述。
需要说明的是,该原始情感模型所包含的子网络的数量小于预先训练的情感判别模型所包含的子网络的数量。
为了实现原始情感模型可以具有训练完成的情感判别模型相同的精度,即具有相同精度的提取情感特征的能力,可以根据原始情感模型中所包含的子网络(记为第三目标网络)的数量,从训练完成的情感判别模型所包含的各个子网络中,确定目标网络(记为第二目标网络)。其中,各个第三目标网络分别对应该预先训练的情感判别模型中的一个第二目标网络。
在一种示例中,考虑到预先训练的情感判别模型中一般包含有大量的参数是用于对输入的SER数据进行特征提取的。因此,可以根据原始情感模型中特征提取层所包含的第三目标网络的数量,从该情感判别模型中的特征提取层所包含的各个子网络(如稠密(dense)层)中,确定第二目标网络。其中,各个第三目标网络分别对应该预先训练的情感判别模型中的一个第二目标网络。
当确定了预先训练的情感判别模型中的第二目标网络之后,获取第三样本集中的任一SER数据,将该SER数据输入到预先训练的情感判别模型中。通过该预先训练的情感判别模型,基于输入的SER数据对应的第三声学特征,确定该情感判别模型中的特征提取层所包含的各个第二目标网络的输出数据。并通过原始情感模型,基于该SER数据对应的第三声学特征,确定该原始情感模型中的特征提取层包含的各个第三目标网络的输出数据。然后根据各个第三目标网络的输出数据及各个第三目标网络分别对应的第二目标网络的输出数据,确定损失值(记为第五损失值)。根据该第五损失值,对原始情感模型中的参数的参数值进行调整,以获取训练完成的情感模型。并根据训练完成的情感模型,获取第一情感分类模型。
由于第三样本集中包含有大量的SER数据,针对每个SER数据,均执行上述对原始情感模型进行训练的步骤。当满足预设的收敛条件(记为第五收敛条件)时,该情感模型训练完成。其中,满足预设的第五收敛条件可以为根据每个SER数据在当前迭代分别对应的第五损失值的和小于设定的第五损失值阈值、对情感模型进行训练的迭代次数达到设置的第五最大迭代次数等。具体实施中可以灵活进行设置,在此不做具体限定。
作为一种可能的实施方式,在进行情感模型训练时,可以把第三样本集中的SER数据分为训练样本和测试样本,先基于该训练样本对情感模型进行训练,再基于该测试样本对上述已训练的情感模型的可靠程度进行验证。
当基于上述的实施例获取到了训练完成的情感模型后,可以将情感分类层以及该训练完成的情感模型中的特征提取层进行拼接,将拼接后的模型确定为第一情感分类模型。
实施例5:下面通过具体的实施例对本发明实施例提供的模型训练方法进行描述,图2为本发明实施例提供的具体的模型训练流程示意图,该流程包括:
S201:获取训练完成的情感判别模型。
其中,该情感判别模型是基于第三样本集中带有第二情感标签的SER数据、以及原始情感判别模型获取到的。具体的训练过程已在上述实施例4中描述,重复之处不做赘述。
该原始情感判别模型可以是基于包含有大量的参数的大BERT(Big Bert)模型获取到的。例如,将情感判别层(Emotion Judgment)与该Big Bert模型进行连接,将连接有情感判别层的Big Bert模型确定为原始情感判别模型。
S202:基于S201获取到的情感判别模型,获取情感模型。
其中,该情感模型可以是基于第三样本集中的带有第二情感标签的SER数据、以及训练完成的情感判别模型获取到的。具体的训练过程已在上述实施例4中描述,重复之处不做赘述。
S203:基于S201获取到的情感判别模型,获取原始情感分类模型,并基于原始情感分类模型,获取第二情感分类模型。
在一种示例中,可以将情感分类层、类别识别层以及情感判别模型中的特征提取层进行拼接,将拼接后的模型确定为原始情感分类模型。例如,若情感判别模型中的特征提取层是由Big Bert模型所包含的网络确定的,则可以直接将情感分类层、类别识别层与该Big Bert模型连接,将连接后的模型确定为原始情感分类模型。其中,如何基于原始情感分类模型,获取第二情感分类模型的过程已在上述实施例3中进行描述,重复之处不做赘述。
S204:基于S202获取到的情感模型,获取第一情感分类模型,基于第一情感分类模型以及S203获取到的第二情感分类模型,获取训练完成的第二情感分类模型。
在一种示例中,可以将第一编码子网络(如BERT编码器(Encoder))、第二编码子网络(如情感编码器(Emotion Encoder))、该情感模型所包含的网络、以及第二网络层(如情感分类器(Emotion Classifier))依次连接,将连接后的模型确定为第一情感分类模型。其中,可根据第一编码子网络、第二编码子网络及该情感模型所包含的网络,确定该第一情感分类模型中的第一网络层。其中,基于第一情感分类模型以及S203获取到的第二情感分类模型,获取训练完成的第二情感分类模型已在上述实施例1-2中进行描述,重复之处不做赘述。
S205:基于S204获取到的第一情感分类模型,获取情感提取模型,并基于该情感提取模型及第一样本集中包含的TTS数据,对原始语音合成模型和该情感提取模型进行联合训练,以获取目标语音合成模型和目标情感提取模型。
具体的基于该情感提取模型、以及第一样本集中包含的TTS数据,对原始语音合成模型和该情感提取模型进行联合训练的过程已在上述实施例1-2中进行描述,重复之处不做赘述。
实施例6:本发明实施例还提供了一种基于上述实施例得到的模型的语音合成方法,图3为本发明实施例提供的一种语音合成过程示意图,包括:
S301:基于目标情感对应的目标情感提取模型,获取目标情感的情感向量。该目标情感为基于语音合成模型合成语音时,根据用户的需求,指定该合成语音所具有的情感。
本发明实施例提供的语音合成方法应用于电子设备,该电子设备可以为如机器人等智能设备,也可以为服务器。其中,本发明实施例中进行语音合成的电子设备可以与上述进行模型训练的电子设备相同,也可以不同。
在一种可能的实施方式中,由于在进行模型(包括目标情感的目标情感提取模型以及目标语音合成模型)训练的过程中,一般采用离线的方式,进行模型训练的。当获取到训练完成的模型后,将训练完成的模型保存在进行语音合成的电子设备。
需要说明的是,具体训练目标情感的目标情感提取模型以及目标语音合成模型的过程已在上述实施例1-5中进行描述,重复之处不做赘述。
当获取到需要基于文本信息合成该文本信息对应的具有目标情感的语音数据,即需要进行TTS处理时,可以获取预先训练的目标情感的目标情感提取模型。通过该目标情感提取模型,获取目标情感的情感向量。
其中,通过该目标情感提取模型,获取目标情感的情感向量的方式包括如下至少一种:
方式1、根据该目标情感对应的情感标签,从第一样本集包含的每个TTS数据中,确定具有该目标情感对应的情感标签的各个参考TTS数据。获取各个参考TTS数据分别对应的参考情感向量,然后根据各个参考情感向量,确定该目标情感的情感向量。其中,任一参考TTS数据对应的参考情感向量是通过目标情感提取模型对该参考TTS数据进行处理得到的。
需要说明的是,为了节省获取参考情感向量的时间,可以预先通过目标情感提取模型,对第一样本集中的每个TTS数据进行处理,获取每个TTS数据分别对应的参考情感向量并保存,后续根据保存的各个TTS数据分别对应的参考情感向量,获取各个参考TTS数据分别对应的参考情感向量,也可以为了节约电子设备的存储空间,在确定各个参考TTS数据后,通过目标情感提取模型,分别对各个参考TTS数据进行处理,获取各个参考TTS数据分别对应的参考情感向量。获取各个参考TTS数据分别对应的参考情感向量的方式,可以根据实际需求进行灵活设置,在此不做具体限定。
方式2、预先收集有不同情感的随机语音数据,该随机语音数据不为第一样本集中的TTS数据,各个随机语音数据均对应有情感标签。从所有随机语音数据中,确定任一具有目标情感对应的情感标签的随机语音数据。通过目标情感提取模型,对该随机语音数据进行处理,获取该随机语音数据对应的参考情感向量,并将该参考情感向量确定为目标情感的情感向量。
方式3、由于情感向量是根据情感权重向量以及各个情感关联参数确定的。因此,可以获取该目标情感对应的情感权重向量。然后对该情感权重向量中包含的至少一个权重值进行调整,基于调整后的情感权重向量以及目标情感提取模型中包含的各个情感关联参数,确定该目标情感的情感向量。
其中,为了节省获取情感权重向量的时间,可以预先通过目标情感提取模型,分别对第一样本集中的每种情感的一个TTS数据进行处理,获取每种情感分别对应的情感权重向量并保存,后续根据保存的每种情感分别对应的情感权重向量,获取该TTS数据所具有的情感的对应的情感权重向量,也可以为了节约电子设备的存储空间,在确定目标情感之后,从第一样本集包含的每个TTS数据中,获取任一具有该目标情感的辅助TTS数据,通过目标情感提取模型,对该辅助TTS数据进行处理,获取目标情感的对应的情感权重向量。获取情感权重向量的方式,可以根据实际需求进行灵活设置,在此不做具体限定。
需要说明的是,通过目标情感提取模型获取情感权重向量的过程与上述通过第一情感分类模型获取情感权重向量的过程类似,在此不做赘述。
在一种可能的实施方式中,可以根据人工经验,对该情感权重向量中包含的至少一个权重值进行调整。
方式4、可以人工经验或需求,预先设置有每种情感分别对应的预设情感权重向量。获取该目标情感对应的预设情感权重向量。根据该预设情感权重向量以及该目标情感提取模型中包含的各个情感关联参数,确定该目标情感的第二情感向量。
S302:通过目标语音合成模型,基于待处理文本的文本特征以及情感向量,获取待处理文本对应的至少一个声学特征向量。
由于通过上述的实施例预先训练得到了可以合成具有目标情感的语音数据的目标语音合成模型,则当获取到目标情感的情感向量后,将待处理文本的文本特征以及情感向量输入到该目标语音合成模型中。通过该目标语音合成模型,基于该文本特征以及情感向量,进行相应的处理,获取该文本特征对应的声学特征向量。
在一种示例中,考虑到自然的语音数据所具有的情感是有强度的,比如,不同强度的伤心包括伤心欲绝、悲伤等,以进一步区分语音数据所具有的情感。因此,预先配置有情感强度向量。当基于上述的实施例获取到了目标情感的情感向量(Emotion Embedding)之后,可以将Emotion Embedding与预先配置的情感强度向量(Emotion Scalar)相乘,获取向量乘积(Style Embedding)。然后根据Style Embedding对该目标情感的EmotionEmbedding进行更新。然后根据更新后的Emotion Embedding作为目标语音合成模型的输入数据,从而实现对合成语音数据所具有的情感的强度进行控制,使得获取到的合成语音数据更贴近自然语言。其中,该Emotion Embedding与该Emotion Scalar的维数相同。该Emotion Scalar可以是根据工作经验以及实际需求进行灵活的设置。
在一种可能的实施方式中,由于在对目标语音合成模型训练时,该目标语音合成模型所预测的声学特征向量为归一化处理后的声学特征向量,即声学特征向量中每个元素的元素值均在[0,1]之间,而在实际应用过程中,正常语音信息的声学特征向量是由一定的位深的。因此,当基于上述实施例获取到文本特征对应的声学特征向量后,需要通过预设的反归一化函数,如反minmax算法,反均值标准化算法等,对该声学特征向量进行反归一化处理,使得该声学特征向量中每个元素的元素值均可在预设的取值范围内,即在一定的位深范围内,以使后续获取到的语音信息更加自然。其中,反归一化后的声学特征向量也可以为规则化的minmax文件。
S303:通过声码器,基于声学特征向量,获取待处理文本对应的具有目标情感的合成语音数据。
基于获取到声学特征向量以及声码器,比如,WORLD声码器、线性预测LPC声码器等,确定目标发音人发出目标语言的文本信息时的音频数据。其中,基于声学特征向量以及声码器,属于现有技术,在此不做赘述。
实施例7:本发明实施例还提供了一种模型训练装置,图4为本发明实施例提供的一种模型训练装置的结构示意图,该装置包括:
获取单元41,用于针对第一样本集中的每个文本转语音TTS数据,该TTS数据对应有第一情感概率向量以及第一声学特征,其中,第一情感概率向量包括该TTS数据分别具有预先配置的每种情感的概率值;
训练单元42,用于对于任一TTS数据,通过第一情感分类模型中包含的第一网络层,确定该TTS数据所具有的情感对应的第一情感向量,该第一情感向量是基于该TTS数据所具有的情感对应的情感权重向量和预先配置的各个情感关联参数确定的,情感权重向量包含各个情感关联参数分别对应的权重值,各个情感关联参数为第一情感分类模型中用于确定该TTS数据所具有的情感的非语音方面的情感辅助向量;以及通过第一情感分类模型中包含的第二网络层,基于第一情感向量,确定该TTS数据对应的第二情感概率向量,该第二情感概率向量包括通过第一情感分类模型预测得到的该TTS数据分别具有预先配置的每种情感的概率值;基于第二情感概率向量以及对应的第一情感概率向量,对第一情感分类模型进行训练,以得到训练完成的第一情感分类模型,并根据训练完成的第一情感分类模型中包含的第一网络层,确定情感提取模型。
在一种可能的实施方式中,训练单元42,具体用于对于任一TTS数据,通过第一网络层包含的特征提取层,基于该TTS数据对应的第一声学特征,获取特征提取层中最后一个子网络的输出数据;其中,输出数据为基于该TTS数据对应的第一声学特征提取到的情感特征;通过第一网络层包含的第一编码子网络,基于输出数据,获取该TTS数据对应的基础情感向量;该基础情感向量包含用于确定该TTS数据所具有的情感的语音方面的情感辅助向量;通过第一网络层包含的第二编码子网络,基于基础情感向量,获取该TTS数据所具有的情感对应的情感权重向量,并根据情感权重向量及第二编码子网络中预先配置的各个情感关联参数,确定该TTS数据所具有的情感对应的第一情感向量。
在一种可能的实施方式中,获取单元41,具体用于通过如下方式获取每个TTS数据分别对应的第一情感概率向量:
针对每个TTS数据,通过预先训练的第二情感分类模型,基于该TTS数据对应的第一声学特征,确定该TTS数据对应的第一情感概率向量。
在一种可能的实施方式中,获取单元41还用于针对每个TTS数据,通过预先训练的第二情感分类模型,基于该TTS数据对应的第一声学特征,获取第二情感分类模型中包含的各个第一目标网络的输出数据;并通过第一情感分类模型,基于该TTS数据对应的第一声学特征,获取特征提取层中包含的各个子网络的输出数据;该第一目标网络为第二情感分类模型中的部分网络,第一情感分类模型中的每子网络分别对应第二情感分类模型中的一个第一目标网络;
训练单元42,具体用于基于第二情感概率向量及其对应的第一情感概率向量、和各个子网络的输出数据及各个子网络分别对应的第一目标网络的输出数据,对第一情感分类模型进行训练,以得到训练完成的第一情感分类模型。
在一种可能的实施方式中,获取单元41,还用于针对每个TTS数据,基于情感提取模型,获取该TTS数据所具有的情感的第二情感向量,其中,第二情感向量包含该TTS数据所具有的情感的情感特征;
训练单元42,还用于基于TTS数据对应的文本特征样本、TTS数据的第一声学特征、以及第二情感向量,对原始语音合成模型和情感提取模型进行联合训练,以获取目标语音合成模型和目标情感提取模型。
在一种可能的实施方式中,获取单元41,具体用于通过如下至少一种方式基于情感提取模型,获取该TTS数据所具有的情感的第二情感向量:
通过情感提取模型,对任一具有该TTS数据对应的情感标签的随机语音数据进行处理,获取随机语音数据对应的参考情感向量;并将参考情感向量确定为第二情感向量,其中,随机语音数据不为第一样本集中的TTS数据,情感标签用于标识该TTS数据所具有的情感;
根据所述第一样本集中具有该TTS数据对应的情感标签的各个TTS数据分别对应的参考情感向量,确定情感的第二情感向量,其中,参考情感向量是通过情感提取模型对具有情感的TTS数据进行处理得到的;
根据该TTS数据对应的情感标签,确定该TTS数据所具有的情感;获取情感对应的情感权重向量;其中,情感权重向量是通过情感提取模型,对具有情感的任一语音数据进行处理得到的;对情感权重向量中包含的至少一个权重值进行调整;基于调整后的情感权重向量以及情感提取模型中包含的各个情感关联参数,确定情感的第二情感向量,其中,语音数据包括随机语音数据以及第一样本集中的TTS数据中的任一种;
根据该TTS数据对应的情感标签,确定该TTS数据所具有的情感;基于情感对应的预设情感权重向量、以及情感提取模型中包含的各个情感关联参数,确定情感的第二情感向量。
在一种可能的实施方式中,获取单元41,还用于获取第二样本集中任一语音样本,其中,语音样本对应有第一情感标签以及语音类型标签,第一情感标签用于标识语音样本所具有的情感,语音类型标签用于标识语音样本所归属的语音类型,语音类型包括TTS类型以及语音情感识别SER类型中的至少一种;
训练单元42,还用于通过原始情感分类模型,基于语音样本对应的第二声学特征,确定语音样本对应的第三情感概率向量以及类型概率向量,其中,第三情感概率向量包括通过原始情感分类模型确定出的语音样本分别具有预先配置的每种情感的概率值,类型概率向量包括通过原始情感分类模型确定出的语音样本分别归属于预先配置的每种语音类型的概率值;基于第三情感概率向量以及第一情感标签,和类型概率向量以及语音类型标签,对原始情感分类模型进行训练,以得到第二情感分类模型。
在一种可能的实施方式中,训练单元42,具体用于基于第三情感概率向量以及第一情感标签,利用交叉熵损失函数,确定情感损失值;并基于类型概率向量以及语音类型标签,利用梯度反转最大化分类误差函数,确定类型损失值;基于情感损失值以及类型损失值,对原始情感分类模型进行训练。
在一种可能的实施方式中,获取单元41,还用于获取第三样本集中的任意两个SER数据;任一SER数据对应有第二情感标签;
训练单元42,还用于通过原始情感判别模型,基于两个SER数据分别对应的第三声学特征,确定两个SER数据分别具有的情感是否一致的第一结果;并基于两个SER数据分别对应的第二情感标签,确定两个SER数据分别具有的情感是否一致的第二结果;基于第一结果以及第二结果,对原始情感判别模型进行训练,以得到原始情感分类模型。
在一种可能的实施方式中,获取单元41,还用于获取第三样本集中任一SER数据;
训练单元42,还用于通过预先训练的情感判别模型,基于SER数据对应的第三声学特征,确定情感判别模型中的特征提取层所包含的各个第二目标网络的输出数据,其中,各个第二目标网络为特征提取层包含的部分网络;并通过原始情感模型,基于第三声学特征,确定原始情感模型中的特征提取层包含的各个第三目标网络的输出数据,其中,各个第三目标网络分别对应情感判别模型中的一个第二目标网络;基于各个第三目标网络的输出数据及各个第三目标网络分别对应的第二目标网络的输出数据,对原始情感模型进行训练,并根据训练完成的情感模型,获取第一情感分类模型。
实施例8:本发明实施例还提供了一种语音合成装置,图5为本发明实施例提供的一种语音合成装置的结构示意图,该装置包括:
获取模块51,用于基于目标情感对应的目标情感提取模型,获取目标情感的情感向量;
第一处理模块52,用于通过目标语音合成模型,基于待处理文本的文本特征以及情感向量,获取待处理文本对应的声学特征向量;
第二处理模块53,用于通过声码器,基于声学特征向量,获取待处理文本对应的具有目标情感的合成语音数据。
在一种可能的实施方式中,获取模块51,具体用于通过如下至少一种方式基于目标情感对应的目标情感提取模型,获取目标情感的情感向量:
通过目标情感提取模型,对任一具有该目标情感对应的情感标签的随机语音数据进行处理,获取该随机语音数据对应的参考情感向量;将该参考情感向量确定为该目标情感的情感向量;其中,该随机语音数据不为用于训练该目标情感提取模型的第一样本集中具有该目标情感的TTS数据;根据该第一样本集中具有该目标情感对应的情感标签的各个TTS数据分别对应的参考情感向量,确定该目标情感的情感向量;其中,参考情感向量是通过目标情感提取模型,对具有该目标情感的TTS数据进行处理得到的;获取目标情感对应的情感权重向量;其中,情感权重向量是通过目标情感提取模型,对具有目标情感的任一语音数据进行处理得到的;对情感权重向量中包含的至少一个权重值进行调整;基于调整后的情感权重向量以及目标情感提取模型中包含的各个情感关联参数,确定目标情感的情感向量;其中,情感权重向量包含各个情感关联参数分别对应的权重值;各个情感关联参数为目标情感提取模型中,用于确定目标情感的非语音方面的情感辅助向量;语音数据包括随机语音数据以及第一样本集中的TTS数据中的任一种;基于目标情感对应的预设情感权重向量、以及目标情感提取模型中包含的各个情感关联参数,确定目标情感的情感向量。
在一种可能的实施方式中,第一处理模块52,还用于基于目标情感对应的目标情感提取模型,获取目标情感的情感向量之后,通过目标语音合成模型,基于待处理文本的文本特征以及情感向量,获取待处理文本对应的声学特征向量之前,根据情感向量与预先配置的情感强度向量的向量乘积,对情感向量进行更新,并将更新后的情感向量作为目标语音合成模型的输入数据;其中,情感向量与情感强度向量的维数相同。
实施例9:在上述实施例的基础上,本发明实施例还提供了一种电子设备,图6为本发明实施例提供的一种电子设备的结构示意图,如图6所示,包括:处理器61、通信接口62、存储器63和通信总线64,其中,处理器61,通信接口62,存储器63通过通信总线64完成相互间的通信;
存储器63中存储有计算机程序,当程序被处理器61执行时,使得处理器61执行如下步骤:
针对第一样本集中的每个文本转语音TTS数据,该TTS数据对应有第一情感概率向量以及第一声学特征,其中,第一情感概率向量包括该TTS数据分别具有预先配置的每种情感的概率值;对于任一TTS数据,通过第一情感分类模型中包含的第一网络层,确定该TTS数据所具有的情感对应的第一情感向量,其中,第一情感向量是基于该TTS数据所具有的情感对应的情感权重向量和预先配置的各个情感关联参数确定的,情感权重向量包含各个情感关联参数分别对应的权重值,各个情感关联参数为第一情感分类模型中用于确定该TTS数据所具有的情感的非语音方面的情感辅助向量;以及通过第一情感分类模型中包含的第二网络层,基于第一情感向量,确定该TTS数据对应的第二情感概率向量,其中,第二情感概率向量包括通过第一情感分类模型预测得到的该TTS数据分别具有预先配置的每种情感的概率值;以及基于第二情感概率向量以及对应的第一情感概率向量,对第一情感分类模型进行训练,以得到训练完成的第一情感分类模型,并根据训练完成的第一情感分类模型中包含的第一网络层,确定情感提取模型。
由于上述电子设备解决问题的原理与模型训练方法相似,因此上述电子设备的实施可以参见方法的实施例1-5,重复之处不再赘述。
实施例10:在上述实施例的基础上,本发明实施例还提供了一种电子设备,图7为本发明实施例提供的再一种电子设备的结构示意图,如图7所示,包括:处理器71、通信接口72、存储器73和通信总线74,其中,处理器71,通信接口72,存储器73通过通信总线74完成相互间的通信;
存储器73中存储有计算机程序,当程序被处理器71执行时,使得处理器71执行如下步骤:基于目标情感对应的目标情感提取模型,获取目标情感的情感向量;通过目标语音合成模型,基于待处理文本的文本特征以及情感向量,获取待处理文本对应的声学特征向量;以及通过声码器,基于声学特征向量,获取待处理文本对应的具有目标情感的合成语音数据。
由于上述电子设备解决问题的原理与语音合成方法相似,因此上述电子设备的实施可以参见方法的实施例6,重复之处不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口72用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(RandomAccess Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例11:在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有可由处理器执行的计算机程序,当程序在处理器上运行时,使得处理器执行时实现如下步骤:
针对第一样本集中的每个文本转语音TTS数据,该TTS数据对应有第一情感概率向量以及第一声学特征,其中,第一情感概率向量包括该TTS数据分别具有预先配置的每种情感的概率值;
对于任一TTS数据,通过第一情感分类模型中包含的第一网络层,确定该TTS数据所具有的情感对应的第一情感向量,其中,第一情感向量是基于该TTS数据所具有的情感对应的情感权重向量和预先配置的各个情感关联参数确定的,情感权重向量包含各个情感关联参数分别对应的权重值,各个情感关联参数为第一情感分类模型中用于确定该TTS数据所具有的情感的非语音方面的情感辅助向量;以及通过第一情感分类模型中包含的第二网络层,基于第一情感向量,确定该TTS数据对应的第二情感概率向量,其中,第二情感概率向量包括通过第一情感分类模型预测得到的该TTS数据分别具有预先配置的每种情感的概率值;以及
基于第二情感概率向量以及对应的第一情感概率向量,对第一情感分类模型进行训练,以得到训练完成的第一情感分类模型,并根据训练完成的第一情感分类模型中包含的第一网络层,确定情感提取模型。
由于上述计算机可读存储介质解决问题的原理与模型训练方法相似,因此上述计算机可读存储介质的实施可以参见方法的实施1-5,重复之处不再赘述。
实施例12:在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有可由处理器执行的计算机程序,当程序在处理器上运行时,使得处理器执行时实现如下步骤:
基于目标情感对应的目标情感提取模型,获取目标情感的情感向量;通过目标语音合成模型,基于待处理文本的文本特征以及情感向量,获取待处理文本对应的声学特征向量;以及通过声码器,基于声学特征向量,获取待处理文本对应的具有目标情感的合成语音数据。
由于上述计算机可读存储介质解决问题的原理与语音合成方法相似,因此上述计算机可读存储介质的实施可以参见方法的实施6,重复之处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (18)

1.一种模型训练方法,其特征在于,所述方法包括:
针对第一样本集中的每个文本转语音TTS数据,该TTS数据对应有第一情感概率向量以及第一声学特征,其中,所述第一情感概率向量包括该TTS数据分别具有预先配置的每种情感的概率值;
对于任一TTS数据,通过第一情感分类模型中包含的第一网络层,确定该TTS数据所具有的情感对应的第一情感向量,其中,所述第一情感向量是基于该TTS数据所具有的情感对应的情感权重向量和预先配置的各个情感关联参数确定的,所述情感权重向量包含所述各个情感关联参数分别对应的权重值,所述各个情感关联参数为所述第一情感分类模型中用于确定该TTS数据所具有的情感的非语音方面的情感辅助向量;以及通过所述第一情感分类模型中包含的第二网络层,基于所述第一情感向量,确定该TTS数据对应的第二情感概率向量,其中,所述第二情感概率向量包括通过所述第一情感分类模型预测得到的该TTS数据分别具有预先配置的每种情感的概率值;
基于所述第二情感概率向量以及对应的第一情感概率向量,对所述第一情感分类模型进行训练,以得到训练完成的第一情感分类模型,并根据训练完成的第一情感分类模型中包含的第一网络层,确定情感提取模型。
2.根据权利要求1所述的方法,其特征在于,对于任一TTS数据,通过第一情感分类模型中包含的第一网络层,确定该TTS数据所具有的情感对应的第一情感向量,包括:
通过所述第一网络层包含的特征提取层,基于该TTS数据对应的第一声学特征,获取所述特征提取层中最后一个子网络的输出数据;其中,所述输出数据为基于该TTS数据对应的第一声学特征提取到的情感特征;
通过所述第一网络层包含的第一编码子网络,基于所述输出数据,获取该TTS数据对应的基础情感向量;其中,所述基础情感向量包含用于确定该TTS数据所具有的情感的语音方面的情感辅助向量;
通过所述第一网络层包含的第二编码子网络,基于所述基础情感向量,获取该TTS数据所具有的情感对应的情感权重向量,并根据所述情感权重向量、以及所述第二编码子网络中预先配置的各个情感关联参数,确定该TTS数据所具有的情感对应的第一情感向量。
3.根据权利要求1所述的方法,其特征在于,所述每个TTS数据分别对应的第一情感概率向量通过如下方式获取:
针对每个TTS数据,通过预先训练的第二情感分类模型,基于该TTS数据对应的第一声学特征,确定该TTS数据对应的第一情感概率向量。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
针对每个TTS数据,通过预先训练的第二情感分类模型,基于该TTS数据对应的第一声学特征,获取所述第二情感分类模型中包含的各个第一目标网络的输出数据;并通过所述第一情感分类模型,基于该TTS数据对应的第一声学特征,获取所述特征提取层中包含的各个子网络的输出数据;其中,所述第一目标网络为所述第二情感分类模型中的部分网络,所述第一情感分类模型中的每子网络分别对应所述第二情感分类模型中的一个所述第一目标网络;
所述基于所述第二情感概率向量以及对应的第一情感概率向量,对所述第一情感分类模型进行训练,包括:基于所述第二情感概率向量及其对应的第一情感概率向量、和所述各个子网络的输出数据及所述各个子网络分别对应的第一目标网络的输出数据,对所述第一情感分类模型进行训练,以得到训练完成的第一情感分类模型。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
针对每个TTS数据,基于所述情感提取模型,获取该TTS数据所具有的情感的第二情感向量,其中,所述第二情感向量包含该TTS数据所具有的情感的情感特征;
基于所述TTS数据对应的文本特征样本、所述TTS数据的第一声学特征、以及所述第二情感向量,对原始语音合成模型和所述情感提取模型进行联合训练,以获取目标语音合成模型和目标情感提取模型。
6.根据权利要求5所述的方法,其特征在于,通过如下至少一种方式基于所述情感提取模型,获取该TTS数据所具有的情感的第二情感向量:
通过所述情感提取模型,对任一具有该TTS数据对应的情感标签的随机语音数据进行处理,获取所述随机语音数据对应的参考情感向量;并将所述参考情感向量确定为所述第二情感向量,其中,所述随机语音数据不为所述第一样本集中的TTS数据,所述情感标签用于标识该TTS数据所具有的情感;
根据所述第一样本集中具有该TTS数据对应的情感标签的各个TTS数据分别对应的参考情感向量,确定所述情感的第二情感向量,其中,所述参考情感向量是通过所述情感提取模型对具有所述情感的TTS数据进行处理得到的;
根据该TTS数据对应的情感标签,确定该TTS数据所具有的情感;获取所述情感对应的情感权重向量;其中,所述情感权重向量是通过所述情感提取模型,对具有所述情感的任一语音数据进行处理得到的;对所述情感权重向量中包含的至少一个权重值进行调整;基于调整后的情感权重向量以及所述情感提取模型中包含的各个情感关联参数,确定所述情感的第二情感向量,其中,所述语音数据包括所述随机语音数据以及所述第一样本集中的TTS数据中的任一种;
根据该TTS数据对应的情感标签,确定该TTS数据所具有的情感;基于所述情感对应的预设情感权重向量、以及所述情感提取模型中包含的各个情感关联参数,确定所述情感的第二情感向量。
7.根据权利要求4所述的方法,其特征在于,所述第二情感分类模型通过如下方式获取:
获取第二样本集中任一语音样本,其中,所述语音样本对应有第一情感标签以及语音类型标签,所述第一情感标签用于标识所述语音样本所具有的情感,所述语音类型标签用于标识所述语音样本所归属的语音类型,所述语音类型包括TTS类型以及语音情感识别SER类型中的至少一种;
通过原始情感分类模型,基于所述语音样本对应的第二声学特征,确定所述语音样本对应的第三情感概率向量以及类型概率向量,其中,所述第三情感概率向量包括通过所述原始情感分类模型确定出的所述语音样本分别具有预先配置的每种情感的概率值,所述类型概率向量包括通过所述原始情感分类模型确定出的所述语音样本分别归属于预先配置的每种语音类型的概率值;
基于所述第三情感概率向量以及所述第一情感标签,和所述类型概率向量以及所述语音类型标签,对所述原始情感分类模型进行训练,以得到所述第二情感分类模型。
8.根据权利要求7所述的方法,其特征在于,所述第二情感分类模型包括训练完成的情感分类模型中包含的特征提取层以及情感分类层,所述特征提取层包括所述各个第一目标网络。
9.根据权利要求7所述的方法,其特征在于,所述基于所述第三情感概率向量以及所述第一情感标签,和所述类型概率向量以及所述语音类型标签,对所述原始情感分类模型进行训练,包括:
基于所述第三情感概率向量以及所述第一情感标签,利用交叉熵损失函数,确定情感损失值;并基于所述类型概率向量以及所述语音类型标签,利用梯度反转最大化分类误差函数,确定类型损失值;
基于所述情感损失值以及所述类型损失值,对所述原始情感分类模型进行训练。
10.根据权利要求7所述的方法,其特征在于,所述原始情感分类模型通过如下方式获取:
获取第三样本集中的任意两个SER数据,其中,任一所述SER数据对应有第二情感标签;
通过原始情感判别模型,基于所述两个SER数据分别对应的第三声学特征,确定所述两个SER数据分别具有的情感是否一致的第一结果;并
基于所述两个SER数据分别对应的第二情感标签,确定所述两个SER数据分别具有的情感是否一致的第二结果;
基于所述第一结果以及所述第二结果,对所述原始情感判别模型进行训练,以得到所述原始情感分类模型。
11.根据权利要求10所述的方法,其特征在于,所述原始情感分类模型包括情感分类层、类别识别层以及训练完成的情感判别模型中包含的特征提取层。
12.根据权利要求11所述的方法,其特征在于,所述第一情感分类模型通过如下方式获取:
获取所述第三样本集中任一SER数据;
通过预先训练的情感判别模型,基于所述SER数据对应的第三声学特征,确定所述情感判别模型中的特征提取层所包含的各个第二目标网络的输出数据,其中,所述各个第二目标网络为所述特征提取层包含的部分网络;并通过原始情感模型,基于所述第三声学特征,确定所述原始情感模型中的特征提取层包含的各个第三目标网络的输出数据,其中,所述各个第三目标网络分别对应所述情感判别模型中的一个第二目标网络;
基于所述各个第三目标网络的输出数据及所述各个第三目标网络分别对应的第二目标网络的输出数据,对所述原始情感模型进行训练,并根据训练完成的情感模型,获取所述第一情感分类模型。
13.一种基于如权利要求1-12任一项所述的模型训练方法得到的模型的语音合成方法,其特征在于,所述方法包括:
基于目标情感对应的目标情感提取模型,获取所述目标情感的情感向量;
通过目标语音合成模型,基于待处理文本的文本特征以及所述情感向量,获取所述待处理文本对应的声学特征向量;
通过声码器,基于所述声学特征向量,获取所述待处理文本对应的具有所述目标情感的合成语音数据。
14.根据权利要求13所述的方法,其特征在于,所述基于目标情感对应的目标情感提取模型,获取所述目标情感的情感向量之后,所述通过目标语音合成模型,基于待处理文本的文本特征以及所述情感向量,获取所述待处理文本对应的声学特征向量之前,所述方法还包括:
根据所述情感向量与预先配置的情感强度向量的向量乘积,对所述情感向量进行更新,并将更新后的情感向量作为所述目标语音合成模型的输入数据;其中,所述情感向量与所述情感强度向量的维数相同。
15.一种模型训练装置,其特征在于,所述装置包括:
获取单元,用于针对第一样本集中的每个文本转语音TTS数据,该TTS数据对应有第一情感概率向量以及第一声学特征,其中,所述第一情感概率向量包括该TTS数据分别具有预先配置的每种情感的概率值;
训练单元,用于对于任一TTS数据,通过第一情感分类模型中包含的第一网络层,确定该TTS数据所具有的情感对应的第一情感向量,其中,所述第一情感向量是基于该TTS数据所具有的情感对应的情感权重向量和预先配置的各个情感关联参数确定的,所述情感权重向量包含所述各个情感关联参数分别对应的权重值,所述各个情感关联参数为所述第一情感分类模型中用于确定该TTS数据所具有的情感的非语音方面的情感辅助向量;以及通过所述第一情感分类模型中包含的第二网络层,基于所述第一情感向量,确定该TTS数据对应的第二情感概率向量,其中,所述第二情感概率向量包括通过所述第一情感分类模型预测得到的该TTS数据分别具有预先配置的每种情感的概率值;基于所述第二情感概率向量以及对应的第一情感概率向量,对所述第一情感分类模型进行训练,以得到训练完成的第一情感分类模型,并根据训练完成的第一情感分类模型中包含的第一网络层,确定情感提取模型。
16.一种语音合成装置,其特征在于,所述装置包括:
获取模块,用于基于目标情感对应的目标情感提取模型,获取所述目标情感的情感向量;
第一处理模块,用于通过目标语音合成模型,基于待处理文本的文本特征以及所述情感向量,获取所述待处理文本对应的声学特征向量;
第二处理模块,用于通过声码器,基于所述声学特征向量,获取所述待处理文本对应的具有所述目标情感的合成语音数据。
17.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-12中任一所述模型训练方法的步骤,或者,实现如权利要求13-14中任一所述语音合成方法的步骤。
18.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-12中任一所述模型训练方法的步骤,或者,实现如权利要求13-14中任一所述语音合成方法的步骤。
CN202111451540.8A 2021-12-01 2021-12-01 模型训练和语音合成方法、装置、设备及介质 Pending CN116206591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111451540.8A CN116206591A (zh) 2021-12-01 2021-12-01 模型训练和语音合成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111451540.8A CN116206591A (zh) 2021-12-01 2021-12-01 模型训练和语音合成方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116206591A true CN116206591A (zh) 2023-06-02

Family

ID=86510005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111451540.8A Pending CN116206591A (zh) 2021-12-01 2021-12-01 模型训练和语音合成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116206591A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118588112A (zh) * 2024-08-06 2024-09-03 广东广信通信服务有限公司 一种针对非言语信号的交流状态分析方法、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118588112A (zh) * 2024-08-06 2024-09-03 广东广信通信服务有限公司 一种针对非言语信号的交流状态分析方法、设备及介质

Similar Documents

Publication Publication Date Title
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN108520741A (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
CN109147774B (zh) 一种改进的延时神经网络声学模型
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN113450765B (zh) 语音合成方法、装置、设备及存储介质
CN111462768A (zh) 基于共享训练的多尺度StarGAN的语音转换方法
CN113345454B (zh) 语音转换模型的训练、应用方法、装置、设备及存储介质
CN112837669B (zh) 语音合成方法、装置及服务器
KR20220130565A (ko) 키워드 검출 방법 및 장치
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
CN114333865A (zh) 一种模型训练以及音色转换方法、装置、设备及介质
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
CN114743539A (zh) 语音合成方法、装置、设备及存储介质
CN115171176A (zh) 对象情绪的分析方法、装置和电子设备
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN116206591A (zh) 模型训练和语音合成方法、装置、设备及介质
CN116863920B (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质
CN117592564A (zh) 问答交互方法、装置、设备及介质
CN117316140A (zh) 语音合成方法、装置、设备、存储介质及程序产品
CN113628608A (zh) 语音生成方法、装置、电子设备及可读存储介质
CN116844529A (zh) 语音识别方法、装置及计算机存储介质
CN115359780A (zh) 语音合成方法、装置、计算机设备及存储介质
CN115081459B (zh) 口语文本生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination