CN116312468A - 一种合成含有情感的语音的方法、装置、设备和存储介质 - Google Patents
一种合成含有情感的语音的方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN116312468A CN116312468A CN202310215328.4A CN202310215328A CN116312468A CN 116312468 A CN116312468 A CN 116312468A CN 202310215328 A CN202310215328 A CN 202310215328A CN 116312468 A CN116312468 A CN 116312468A
- Authority
- CN
- China
- Prior art keywords
- emotion
- voices
- text
- model
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 439
- 238000000034 method Methods 0.000 title claims abstract description 88
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 28
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 128
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 128
- 238000013145 classification model Methods 0.000 claims abstract description 71
- 239000013598 vector Substances 0.000 claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 62
- 230000033764 rhythmic process Effects 0.000 claims description 31
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 208000013875 Heart injury Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种合成含有情感的语音的方法、装置、设备和存储介质,该方法包括,通过预设的情感分类模型对待处理文本进行分类,得到分类结果,其中,情感分类模型是通过多个文本数据对应的多个向量和多个文本数据中每一文本数据对应的情感类别对基础情感分类模型进行训练得到的;将待处理文本和分类结果输入预设的语音合成模型,得到含有情感的合成语音,其中,语音合成模型是通过多个情感语音对应的多个情感文本和多个情感语音对基础语音合成模型进行训练得到的。通过该方法可以达到自动化生成含有丰富情感的语音的效果。
Description
技术领域
本申请涉及语音合成的领域,具体而言,涉及一种合成含有情感的语音的方法、装置、设备和存储介质。
背景技术
目前,随着互联网、大数据和云计算等相关技术陆续普及应用,在这个大背景下,智能化语音合成是必然的发展趋势,传统语音合成只是通过提取文本中的情感特征,根据情感特征合成语音。
上述语音合成存在很大的局限性,只是单纯的情感特征提取缺乏准确性,生成的音频比较僵硬,并且没有较好的韵律和丰富的情感,这样的语音会导致智能客服机器人拨通客户电话时,客户流失率增大。
因此,如何自动化生成含有丰富情感的语音,是一个需要解决的技术问题。
发明内容
本申请实施例的目的在于提供一种合成含有情感的语音的方法,通过本申请的实施例的技术方案可以达到缓解文本自动化生成含有丰富情感的语音的效果。
第一方面,本申请实施例提供了一种合成含有情感的语音的方法,包括,通过预设的情感分类模型对待处理文本进行分类,得到分类结果,其中,情感分类模型是通过多个文本数据对应的多个向量和多个文本数据中每一文本数据对应的情感类别对基础情感分类模型进行训练得到的;将待处理文本和分类结果输入预设的语音合成模型,得到含有情感的合成语音,其中,语音合成模型是通过多个情感语音对应的多个情感文本和多个情感语音对基础语音合成模型进行训练得到的。
本申请在上述实施例中,通过将待处理文本和待处理文本对应的情感分类共同输入语音合成模型,可以自动生成情感丰富的合成语音,并且,语音合成模型是通过情感语音和情感文本训练得到的,在合成带有情感的语音时,得到的语音更具有情感,可以达到自动化生成含有丰富情感的语音的效果。
在一些实施例中,在通过预设的情感分类模型对待处理文本进行分类,得到分类结果之前,还包括:
获取不同场景下不同的多个情感语音和多个情感语音对应的多个情感文本;
通过多个情感文本和多个情感语音对基础语音合成模型进行训练,得到语音合成模型。
本申请在上述实施例中,通过不同场景下的情感语音和情感文本对模型进行训练得到语音合成模型,可以考虑文本情感生成具有丰富情感的语音。
在一些实施例中,通过多个情感文本和多个情感语音对基础语音合成模型进行训练,得到语音合成模型,包括:
通过基础语音合成模型提取多个情感语音的情感特征、音调特征和韵律特征和多个情感文本的情感信息、音调信息和韵律信息;
将多个情感语音的情感特征、音调特征和韵律特征以及多个情感文本的情感信息、音调信息和韵律信息输入基础语音合成模型,得到多个情感合成语音;
计算多个情感合成语音和多个情感语音的实际损失;
通过损失调整基础语音合成模型的参数,得到语音合成模型。
本申请在上述实施例中,通过提取文本的情感信息、音调信息和韵律信息,可以通过基础的语音合成模型得到情感合成语音,通过计算情感合成语音和标准的情感语音的损失,可以调整模型的参数,得到标准的语音合成模型,通过该方法训练得到的语音合成模型,可以将文本转化成具有丰富情感的语音。
在一些实施例中,获取不同场景下不同的多个情感语音和多个情感语音对应的多个情感文本,包括:
获取不同场景下不同的多个初始情感语音;
对多个初始情感语音进行预处理,得到多个情感语音,其中,预处理的方法包括:除燥和标注中的至少一种;
获取多个情感语音对应的多个情感文本。
本申请在上述实施例中,对初始情感语音进行预处理之后,可以去除无关音素的影响,将处理后的语音作为标准样本对语音合成模型进行训练,可以更准确的训练得到语音合成模型。
在一些实施例中,在通过预设的情感分类模型对待处理文本进行分类,得到分类结果之前,还包括:
构建开源数据集内多个文本数据中每一文本数据的词向量,得到多个词向量;
通过多个向量和每一文本数据对应的情感类别对基础情感分类模型进行训练,得到情感分类模型。
本申请在上述实施例中,通过开源数据集中的文本以及文本对应的情感类别对基础情感分类模型进行训练,可以得到情感分类模型,该模型可以准确的对文本数据的情感类别进行判断或者对文本数据进行情感分类。
在一些实施例中,通过多个向量和每一文本数据对应的情感类别对基础情感分类模型进行训练,得到情感分类模型,包括:
将每一文本数据对应的情感类别转换转成向量,得到多个类别向量;
分别计算多个向量和多个类别向量的损失,得到多个损失值;
通过多个损失值调整基础情感分类模型的参数,得到情感分类模型。本申请在上述实施例中,将文本转换成向量之后,计算文本向量和对应的情感类别的向量损失,最终调整模型的参数使模型可以准确的将文本进行情感分类。
在一些实施例中,将待处理文本和分类结果输入预设的语音合成模型,得到含有情感的合成语音,包括:
通过语音合成模型提取待处理文本的情感特征、音调特征和韵律特征;
基于待处理文本对应的分类结果,通过语音合成模型将待处理文本的情感特征、音调特征和韵律特征合成含有情感的合成语音。
本申请在上述实施例中,通过语音合成模型提取待处理文本的情感特征、音调特征和韵律特征,可以直接合成带有上述情感特征、音调特征和韵律特征的语音,可以让最终的语音合成具有更丰富的情感。
第二方面,本申请实施例提供了一种合成含有情感的语音的装置,包括:
分类模块,用于通过预设的情感分类模型对待处理文本进行分类,得到分类结果,其中,情感分类模型是通过多个文本数据对应的多个向量和多个文本数据中每一文本数据对应的情感类别对基础情感分类模型进行训练得到的;
语音合成模块,用于将待处理文本和分类结果输入预设的语音合成模型,得到含有情感的合成语音,其中,语音合成模型是通过多个情感语音对应的多个情感文本和多个情感语音对基础语音合成模型进行训练得到的。
可选的,所述装置还包括:
第一训练模块,用于所述分类模块在通过预设的情感分类模型对待处理文本进行分类,得到分类结果之前,获取不同场景下不同的多个情感语音和多个情感语音对应的多个情感文本;
通过多个情感文本和多个情感语音对基础语音合成模型进行训练,得到语音合成模型。
可选的,第一训练模块具体用于:
通过基础语音合成模型提取多个情感语音的情感特征、音调特征和韵律特征和多个情感文本的情感信息、音调信息和韵律信息;
将多个情感语音的情感特征、音调特征和韵律特征以及多个情感文本的情感信息、音调信息和韵律信息输入基础语音合成模型,得到多个情感合成语音;
计算多个情感合成语音和多个情感语音的实际损失;
通过损失调整基础语音合成模型的参数,得到语音合成模型。
可选的,第一训练模块具体用于:
获取不同场景下不同的多个初始情感语音;
对多个初始情感语音进行预处理,得到多个情感语音,其中,预处理的方法包括:除燥和标注中的至少一种;
获取多个情感语音对应的多个情感文本。
可选的,所述装置还包括:
第二训练模块,用于所述分类模块在通过预设的情感分类模型对待处理文本进行分类,得到分类结果之前,构建开源数据集内多个文本数据中每一文本数据的词向量,得到多个词向量;
通过多个向量和每一文本数据对应的情感类别对基础情感分类模型进行训练,得到情感分类模型。
可选的,第二训练模块具体用于:
将每一文本数据对应的情感类别转换转成向量,得到多个类别向量;
分别计算多个向量和多个类别向量的损失,得到多个损失值;
通过多个损失值调整基础情感分类模型的参数,得到情感分类模型。
可选的,语音合成模块具体用于:
通过语音合成模型提取待处理文本的情感特征、音调特征和韵律特征;
基于待处理文本对应的分类结果,通过语音合成模型将待处理文本的情感特征、音调特征和韵律特征合成含有情感的合成语音。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种合成含有情感的语音的方法的流程图;
图2为本申请实施例提供的一种合成含有情感的语音的实施方法的流程图;
图3为本申请实施例提供的一种合成含有情感的语音的装置的示意框图;
图4为本申请实施例提供的一种合成含有情感的语音的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和显示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
首先对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
ReLU:线性整流函数(Linear rectification function),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),通常指代以斜坡函数及其变种为代表的非线性函数。
本申请应用于合成语音的场景,具体场景为首先通过分类模型对待合成语音进行情感分类,语音合成模型通过情感类型将文本转换成对应情感的语音。
但是目前,随着互联网、大数据和云计算等相关技术陆续普及应用,在这个大背景下,智能化语音合成是必然的发展趋势,传统语音合成只是通过提取文本中的情感特征,根据情感特征合成语音。上述语音合成存在很大的局限性,只是单纯的情感特征提取缺乏准确性,生成的音频比较僵硬,并且没有较好的韵律和丰富的情感,这样的语音会导致智能客服机器人拨通客户电话时,客户流失率增大。
为此本申请通过预设的情感分类模型对待处理文本进行分类,得到分类结果,其中,情感分类模型是通过多个文本数据对应的多个向量和多个文本数据中每一文本数据对应的情感类别对基础情感分类模型进行训练得到的;将待处理文本和分类结果输入预设的语音合成模型,得到含有情感的合成语音,其中,语音合成模型是通过多个情感语音对应的多个情感文本和多个情感语音对基础语音合成模型进行训练得到的。通过将待处理文本和待处理文本对应的情感分类共同输入语音合成模型,可以自动生成情感丰富的合成语音,并且,语音合成模型是通过情感语音和情感文本训练得到的,在合成带有情感的语音时,得到的语音更具有情感,可以达到自动化生成含有丰富情感的语音的效果。
本申请实施例中,执行主体可以为合成含有情感的语音系统中的合成含有情感的语音设备,实际应用中,合成含有情感的语音设备可以为终端设备和服务器等电子设备,在此不做限制。
下面结合图1对本申请实施例的合成含有情感的语音的方法进行详细描述。
请参看图1,图1为本申请实施例提供的一种合成含有情感的语音的方法的流程图,如图1所示的合成含有情感的语音的方法包括:
步骤110:通过预设的情感分类模型对待处理文本进行分类,得到分类结果。
其中,情感分类模型是通过多个文本数据对应的多个向量和多个文本数据中每一文本数据对应的情感类别对基础情感分类模型进行训练得到的。文本数据是通过收集情感分类的开源数据集,通过python(计算机编程语言)脚本在互联网上进行爬虫收集得到的初始文本数据,之后会对收集到的文本数据进行情感分类,对初始文本数据中无意义的特殊字符、空格、乱码的字符,使用正则的方式将这些噪音数据清洗掉得到文本数据。对文本数据对应的文本向量和每一文本对应的情感类别以预设比例分为训练集、验证集、测试集,其中,训练集用于情感分类模型的训练,验证集用与训练过程中情感分类模型效果的验证,测试集用于验证训练好的情感分类模型的最终效果。待处理文本可以是待合成语音的文本先通过情感分类模型分类得到分类结果,最后再进行语音的合成,分类结果可以是一些情感类型,例如,开心、伤心、沮丧、兴奋和无情感等情感类型。
在本申请的一些实施例中,在通过预设的情感分类模型对待处理文本进行分类,得到分类结果之前,图1所示的方法还包括:获取不同场景下不同的多个情感语音和多个情感语音对应的多个情感文本;通过多个情感文本和多个情感语音对基础语音合成模型进行训练,得到语音合成模型。
本申请在上述过程中,通过不同场景下的情感语音和情感文本对模型进行训练得到语音合成模型,可以考虑文本情感生成具有丰富情感的语音。
其中,不同场景可以是不同领域下的不同场景,例如,可以是保险领域下催收场景或者是销售场景等。情感语音可以是一些客服在和客户对话过程中产生的语音,可以包括一些带有情感的对话,也可以是一些不带有情感的对话,还可以是一些对话中含有表示情感的词,收集开源的情感音频数据集与不同场景下客户的不同情感音频。其中获取情感语音包括,首先对真实场景下客户的音频数据进行处理,将噪音过大音频过短并且无法区分情感的数据清除掉,然后对客户音频进行标注,将开源数据与真实场景下的数据混合到一起,得到多个情感语音,通过python脚本将多个情感语音对应的多个情感文本与多个情感语音一一对应,以预设比例分为训练集、验证集、测试集。其中,训练集用于语音合成模型的训练,验证集用与训练过程中语音合成模型效果的验证,测试集用于验证训练好的语音合成模型的最终效果。情感文本则是情感语音转换成文本之后得到的。通过情感文本和情感语音对基础语音合成模型进行训练,可以让语音合成模型学会根据不同类型情感合成对应的语音。
在本申请的一些实施例中,获取不同场景下不同的多个情感语音和多个情感语音对应的多个情感文本,包括:获取不同场景下不同的多个初始情感语音;对多个初始情感语音进行预处理,得到多个情感语音,其中,预处理的方法包括:除燥和标注中的至少一种;获取多个情感语音对应的多个情感文本。
本申请在上述过程中,对初始情感语音进行预处理之后,可以去除无关音素的影响,将处理后的语音作为标准样本对语音合成模型进行训练,可以更准确的训练得到语音合成模型。
在本申请的一些实施例中,通过多个情感文本和多个情感语音对基础语音合成模型进行训练,得到语音合成模型,包括:通过基础语音合成模型提取多个情感语音的情感特征、音调特征和韵律特征和多个情感文本的情感信息、音调信息和韵律信息;将多个情感语音的情感特征、音调特征和韵律特征以及多个情感文本的情感信息、音调信息和韵律信息输入基础语音合成模型,得到多个情感合成语音;计算多个情感合成语音和多个情感语音的实际损失;通过损失调整基础语音合成模型的参数,得到语音合成模型。
本申请在上述过程中,通过提取文本的情感信息、音调信息和韵律信息,可以通过基础的语音合成模型得到情感合成语音,通过计算情感合成语音和标准的情感语音的损失,可以调整模型的参数,得到标准的语音合成模型,通过该方法训练得到的语音合成模型,可以将文本转化成具有丰富情感的语音。
其中,在通过基础语音合成模型提取多个情感语音的情感特征、音调特征和韵律特征之前,首先将多个情感语音转化为梅尔频谱特征,然后通过语音合成模型中的局部韵律预测器(Local Prosody Predictor)中的一维卷积、ReLU激活函数和归一化过程的处理,最后通过全连接层提取多个情感语音的情感特征、音调特征和韵律特征。
一种实施例中,在得到多个情感文本的情感信息、音调信息和韵律信息之前,还包括,将多个情感文本通过语音合成模型中编码层(Encoder)的编码器进行编码得到文本信息,文本信息可以是文本中的内容共,对多个情感文本中的信息进行标注和提取,得到多个情感文本的情感信息、音调信息和韵律信息,情感信息可以是情感的类别,音调信息可以是具体声音的频率信息,韵律信息可以是文本中每一标点符号处的停顿时间、音量大小信息或者长短音等信息。
一种实施例中,将多个情感语音的情感特征、音调特征和韵律特征以及多个情感文本的情感信息、音调信息和韵律信息输入基础语音合成模型,得到多个情感合成语音,包括,将多个情感文本的文本信息、情感信息、音调信息和韵律信息输入基础语音合成模型中的注意力机制(attention层)做一个自注意力的操作(self-attention),然后通过解码层(Decoder)中的解码器进行解码,得到梅尔普特征,在通过声码器生成带有情感的多个情感合成语音。
一种实施例中,计算多个情感合成语音和多个情感语音的实际损失,包括,提取多个情感合成语音的情感特征、音调特征和韵律特征,计算多个情感合成语音的情感特征、音调特征和韵律特征和标准的情感语音的情感特征、音调特征和韵律特征损失,得到实际损失。
在本申请的一些实施例中,在通过预设的情感分类模型对待处理文本进行分类,得到分类结果之前,图1所示的方法还包括:构建开源数据集内多个文本数据中每一文本数据的词向量,得到多个词向量;通过多个向量和每一文本数据对应的情感类别对基础情感分类模型进行训练,得到情感分类模型。
本申请在上述过程中,通过开源数据集中的文本以及文本对应的情感类别对基础情感分类模型进行训练,可以得到情感分类模型,该模型可以准确的对文本数据的情感类别进行判断或者对文本数据进行情感分类。
其中,每一文本数据的词向量可以是文本数据直接转换的向量,也可以是文本数据中每一词语转换的向量。每一文本数据对应一个情感类别。
在本申请的一些实施例中,通过多个向量和每一文本数据对应的情感类别对基础情感分类模型进行训练,得到情感分类模型,包括:将每一文本数据对应的情感类别转换转成向量,得到多个类别向量;分别计算多个向量和多个类别向量的损失,得到多个损失值;通过多个损失值调整基础情感分类模型的参数,得到情感分类模型。
本申请在上述过程中,将文本转换成向量之后,计算文本向量和对应的情感类别的向量损失,最终调整模型的参数使模型可以准确的将文本进行情感分类。
其中,分别计算多个向量和多个类别向量的损失,得到多个损失值,包括,将多个向量输入到卷积层中进行操作,卷积操作通过矩阵与卷积核进行数学计算,得到特征图,也可以是卷积层之后的输出。将特征图进行最大池化(max-pooling)操作,在保持主要特征的情况下,最后将特征图的结果拼接起来,送入到归一化层中通过归一化指数函数(softmax)得到多个类别,计算多个类别对应的向量和多个类别向量的损失,得到多个损失值。
步骤120:将待处理文本和分类结果输入预设的语音合成模型,得到含有情感的合成语音。
其中,语音合成模型是通过多个情感语音对应的多个情感文本和多个情感语音对基础语音合成模型进行训练得到的。
本申请在上述过程中,通过自然语言处理技术可以识别输入文本的情感类别,将输出的情感类别与待处理文本一起送入到语音合成模型中,从而可以自动生成情感丰富的语音。本申请可以自动合成不同情感的语音,无需人工选择待合成语音的情感种类,实现了完全的自动化。本申请不仅可以合成不同情感的语音,而且合成的语音带有丰富的韵律。本申请可以代替人工客服应用到外呼机器人、客服机器人和催收机器人等众多公司的智能机器人中,大大降低公司的人工成本。
在本申请的一些实施例中,将待处理文本和分类结果输入预设的语音合成模型,得到含有情感的合成语音,包括:通过语音合成模型提取待处理文本的情感特征、音调特征和韵律特征;基于待处理文本对应的分类结果,通过语音合成模型将待处理文本的情感特征、音调特征和韵律特征合成含有情感的合成语音。
本申请在上述过程中,通过语音合成模型提取待处理文本的情感特征、音调特征和韵律特征,可以直接合成带有上述情感特征、音调特征和韵律特征的语音,可以让最终的语音合成具有更丰富的情感。
其中,含有情感的合成语音可以是含有待处理文本对应的分类结果中情感类型的语音。
在上述图1所示的过程中,本申请通过预设的情感分类模型对待处理文本进行分类,得到分类结果,其中,情感分类模型是通过多个文本数据对应的多个向量和多个文本数据中每一文本数据对应的情感类别对基础情感分类模型进行训练得到的;将待处理文本和分类结果输入预设的语音合成模型,得到含有情感的合成语音,其中,语音合成模型是通过多个情感语音对应的多个情感文本和多个情感语音对基础语音合成模型进行训练得到的。通过将待处理文本和待处理文本对应的情感分类共同输入语音合成模型,可以自动生成情感丰富的合成语音,并且,语音合成模型是通过情感语音和情感文本训练得到的,在合成带有情感的语音时,得到的语音更具有情感,可以达到自动化生成含有丰富情感的语音的效果。
下面结合图2对本申请实施例的合成含有情感的语音的实施方法进行详细描述。
请参看图2,图2为本申请实施例提供的一种合成含有情感的语音的实施方法的流程图,如图2所示的合成含有情感的语音的实施方法包括:
步骤210:获取待合成文本。
具体的:将需要合成的文本输入到智能客服机器人中。
步骤220:对待合成文本进行情感分类,得到分类结果。
具体的:情感分类模型对待合成文本进行判断得出相应的情感,用于控制语音合成时语音的情感。
步骤230:将待合成文本转换成带有情感的语音。
具体的:将待合成文本与分类结果一起送到语音合成模型中,得到带有情感的语音。
步骤240:智能客服机器人播放带有情感的语音。
具体的:语音合成模型合成的语音送入到前端,智能客服机器人进行播放。
此外,图2所示的具体方法和步骤可以参看图1所示的方法,此处不再过多赘述。
前文通过图1-图2描述了合成含有情感的语音的方法,下面结合图3-图4描述合成含有情感的语音的装置。
请参照图3,为本申请实施例中提供的一种合成含有情感的语音的装置300的示意框图,该装置300可以是电子设备上的模块、程序段或代码。该装置300与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置300具体的功能可以参见下文中的描述,为避免重复,此处适当省略详细描述。
可选的,所述装置300包括:
分类模块310,用于通过预设的情感分类模型对待处理文本进行分类,得到分类结果,其中,情感分类模型是通过多个文本数据对应的多个向量和多个文本数据中每一文本数据对应的情感类别对基础情感分类模型进行训练得到的;
语音合成模块320,用于将待处理文本和分类结果输入预设的语音合成模型,得到含有情感的合成语音,其中,语音合成模型是通过多个情感语音对应的多个情感文本和多个情感语音对基础语音合成模型进行训练得到的。
可选的,所述装置还包括:
第一训练模块,用于所述分类模块在通过预设的情感分类模型对待处理文本进行分类,得到分类结果之前,获取不同场景下不同的多个情感语音和多个情感语音对应的多个情感文本;通过多个情感文本和多个情感语音对基础语音合成模型进行训练,得到语音合成模型。
可选的,第一训练模块具体用于:
通过基础语音合成模型提取多个情感语音的情感特征、音调特征和韵律特征和多个情感文本的情感信息、音调信息和韵律信息;将多个情感语音的情感特征、音调特征和韵律特征以及多个情感文本的情感信息、音调信息和韵律信息输入基础语音合成模型,得到多个情感合成语音;计算多个情感合成语音和多个情感语音的实际损失;通过损失调整基础语音合成模型的参数,得到语音合成模型。
可选的,第一训练模块具体用于:
获取不同场景下不同的多个初始情感语音;对多个初始情感语音进行预处理,得到多个情感语音,其中,预处理的方法包括:除燥和标注中的至少一种;获取多个情感语音对应的多个情感文本。
可选的,所述装置还包括:
第二训练模块,用于所述分类模块在通过预设的情感分类模型对待处理文本进行分类,得到分类结果之前,构建开源数据集内多个文本数据中每一文本数据的词向量,得到多个词向量;通过多个向量和每一文本数据对应的情感类别对基础情感分类模型进行训练,得到情感分类模型。
可选的,第二训练模块具体用于:
将每一文本数据对应的情感类别转换转成向量,得到多个类别向量;分别计算多个向量和多个类别向量的损失,得到多个损失值;通过多个损失值调整基础情感分类模型的参数,得到情感分类模型。
可选的,语音合成模块具体用于:
通过语音合成模型提取待处理文本的情感特征、音调特征和韵律特征;基于待处理文本对应的分类结果,通过语音合成模型将待处理文本的情感特征、音调特征和韵律特征合成含有情感的合成语音。
请参照图4为本申请实施例中提供的一种合成含有情感的语音的装置的结构示意框图,该装置可以包括存储器410和处理器420。可选的,该装置还可以包括:通信接口430和通信总线440。该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见下文中的描述。
具体的,存储器410,用于存储计算机可读指令。
处理器420,用于处理存储器存储的可读指令,能够执行图1方法中的各个步骤。
通信接口430,用于与其他节点设备进行信令或数据的通信。例如:用于与服务器或者终端的通信,或者与其它设备节点进行通信,本申请实施例并不限于此。
通信总线440,用于实现上述组件直接的连接通信。
其中,本申请实施例中设备的通信接口430用于与其他节点设备进行信令或数据的通信。存储器410可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器410可选的还可以是至少一个位于远离前述处理器的存储装置。存储器410中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器420执行时,电子设备执行上述图1所示方法过程。处理器420可以用于装置300上,并且用于执行本申请中的功能。示例性地,上述的处理器420可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本申请实施例并不局限于此。
本申请实施例还提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本申请实施例提供一种合成含有情感的语音的方法、装置、电子设备和存储介质,该方法包括,通过预设的情感分类模型对待处理文本进行分类,得到分类结果,其中,情感分类模型是通过多个文本数据对应的多个向量和多个文本数据中每一文本数据对应的情感类别对基础情感分类模型进行训练得到的;将待处理文本和分类结果输入预设的语音合成模型,得到含有情感的合成语音,其中,语音合成模型是通过多个情感语音对应的多个情感文本和多个情感语音对基础语音合成模型进行训练得到的。通过该方法可以达到自动化生成含有丰富情感的语音的效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种合成含有情感的语音的方法,其特征在于,包括:
通过预设的情感分类模型对待处理文本进行分类,得到分类结果,其中,所述情感分类模型是通过多个文本数据对应的多个向量和所述多个文本数据中每一文本数据对应的情感类别对基础情感分类模型进行训练得到的;
将所述待处理文本和所述分类结果输入预设的语音合成模型,得到含有情感的合成语音,其中,所述语音合成模型是通过多个情感语音对应的多个情感文本和所述多个情感语音对基础语音合成模型进行训练得到的。
2.根据权利要求1所述的方法,其特征在于,在所述通过预设的情感分类模型对待处理文本进行分类,得到分类结果之前,所述方法还包括:
获取不同场景下不同的所述多个情感语音和所述多个情感语音对应的所述多个情感文本;
通过所述多个情感文本和所述多个情感语音对所述基础语音合成模型进行训练,得到所述语音合成模型。
3.根据权利要求2所述的方法,其特征在于,所述通过所述多个情感文本和所述多个情感语音对所述基础语音合成模型进行训练,得到所述语音合成模型,包括:
通过所述基础语音合成模型提取所述多个情感语音的情感特征、音调特征和韵律特征和所述多个情感文本的情感信息、音调信息和韵律信息;
将所述多个情感语音的情感特征、音调特征和韵律特征以及所述多个情感文本的情感信息、音调信息和韵律信息输入所述基础语音合成模型,得到多个情感合成语音;
计算所述多个情感合成语音和所述多个情感语音的实际损失;
通过所述损失调整所述基础语音合成模型的参数,得到所述语音合成模型。
4.根据权利要求2所述的方法,其特征在于,所述获取不同场景下不同的所述多个情感语音和所述多个情感语音对应的所述多个情感文本,包括:
获取不同场景下不同的多个初始情感语音;
对所述多个初始情感语音进行预处理,得到所述多个情感语音,其中,所述预处理的方法包括:除燥和标注中的至少一种;
获取所述多个情感语音对应的所述多个情感文本。
5.根据权利要求1-4任一项所述的方法,其特征在于,在所述通过预设的情感分类模型对待处理文本进行分类,得到分类结果之前,所述方法还包括:
构建开源数据集内所述多个文本数据中每一文本数据的词向量,得到所述词向量;
通过所述多个向量和所述每一文本数据对应的情感类别对所述基础情感分类模型进行训练,得到所述情感分类模型。
6.根据权利要求5所述的方法,其特征在于,所述通过所述多个向量和所述每一文本数据对应的情感类别对所述基础情感分类模型进行训练,得到所述情感分类模型,包括:
将所述每一文本数据对应的情感类别转换转成向量,得到多个类别向量;
分别计算所述多个向量和所述多个类别向量的损失,得到多个损失值;
通过所述多个损失值调整所述基础情感分类模型的参数,得到所述情感分类模型。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述待处理文本和所述分类结果输入预设的语音合成模型,得到含有情感的合成语音,包括:
通过所述语音合成模型提取所述待处理文本的情感特征、音调特征和韵律特征;
基于所述待处理文本对应的所述分类结果,通过所述语音合成模型将所述待处理文本的情感特征、音调特征和韵律特征合成所述含有情感的合成语音。
8.一种合成含有情感的语音的装置,其特征在于,包括:
分类模块,用于通过预设的情感分类模型对待处理文本进行分类,得到分类结果,其中,所述情感分类模型是通过多个文本数据对应的多个向量和所述多个文本数据中每一文本数据对应的情感类别对基础情感分类模型进行训练得到的;
语音合成模块,用于将所述待处理文本和所述分类结果输入预设的语音合成模型,得到含有情感的合成语音,其中,所述语音合成模型是通过多个情感语音对应的多个情感文本和所述多个情感语音对基础语音合成模型进行训练得到的。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7中任一项所述方法中的步骤。
10.一种计算机可读存储介质,其特征在于,包括:
计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310215328.4A CN116312468A (zh) | 2023-02-24 | 2023-02-24 | 一种合成含有情感的语音的方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310215328.4A CN116312468A (zh) | 2023-02-24 | 2023-02-24 | 一种合成含有情感的语音的方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116312468A true CN116312468A (zh) | 2023-06-23 |
Family
ID=86837334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310215328.4A Pending CN116312468A (zh) | 2023-02-24 | 2023-02-24 | 一种合成含有情感的语音的方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312468A (zh) |
-
2023
- 2023-02-24 CN CN202310215328.4A patent/CN116312468A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN111667812A (zh) | 一种语音合成方法、装置、设备及存储介质 | |
CN113239147A (zh) | 基于图神经网络的智能会话方法、系统及介质 | |
CN111785275A (zh) | 语音识别方法及装置 | |
CN111145719B (zh) | 将中英混合及语气标签化的数据标注方法及装置 | |
EP4078571A1 (en) | A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
CN112489629A (zh) | 语音转写模型、方法、介质及电子设备 | |
CN113205793B (zh) | 音频生成方法、装置、存储介质及电子设备 | |
CN114242033A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
CN112989822A (zh) | 识别对话中句子类别的方法、装置、电子设备和存储介质 | |
CN110930975A (zh) | 用于输出信息的方法和装置 | |
CN117496944B (zh) | 一种多情感多说话人语音合成方法和系统 | |
CN115269836A (zh) | 意图识别方法及装置 | |
WO2021169825A1 (zh) | 语音合成方法、装置、设备和存储介质 | |
CN116312468A (zh) | 一种合成含有情感的语音的方法、装置、设备和存储介质 | |
CN111048065B (zh) | 文本纠错数据生成方法及相关装置 | |
JP7010905B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN114627851A (zh) | 一种语音合成方法及系统 | |
CN113990286A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113763924B (zh) | 声学深度学习模型训练方法、语音生成方法及设备 | |
CN115910028A (zh) | 语音合成方法、模型生成方法 | |
CN116168684A (zh) | 训练文本韵律预测模型、预测文本韵律的方法及装置 | |
CN114203159A (zh) | 语音情感识别方法、终端设备及计算机可读存储介质 | |
CN118053415A (zh) | 语音合成方法及装置、电子设备及存储介质 | |
CN117746831A (zh) | 基于特定人物少样本情况下情感可控语音合成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |