CN110379409A - 语音合成方法、系统、终端设备和可读存储介质 - Google Patents
语音合成方法、系统、终端设备和可读存储介质 Download PDFInfo
- Publication number
- CN110379409A CN110379409A CN201910516181.6A CN201910516181A CN110379409A CN 110379409 A CN110379409 A CN 110379409A CN 201910516181 A CN201910516181 A CN 201910516181A CN 110379409 A CN110379409 A CN 110379409A
- Authority
- CN
- China
- Prior art keywords
- mood
- vector
- voice
- text
- meier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 162
- 230000036651 mood Effects 0.000 claims abstract description 134
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 22
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 54
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012790 confirmation Methods 0.000 claims description 13
- 238000012512 characterization method Methods 0.000 claims description 12
- 230000008451 emotion Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 238000004519 manufacturing process Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语音语义领域,具体涉及一种语音合成方法、系统、终端设备和可读存储介质,通过确认欲合成的目标语音所要表达的情绪标签,并根据所述情绪标签生成情绪标签向量,然后结合所述文本向量和所述情绪标签向量生成梅尔语谱图;再根据所述梅尔语谱图生成所述目标语音,且所述目标语音能够表达出不同的情绪,如高兴、愤怒以及悲伤,进而使基于深度学习的语音合成系统合成的语音富有情感色彩并且更有表现力。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音语义领域,具体涉及一种语音合成方法、系统、终端设备和可读存储介质。
背景技术
随着科技的发展,机器已经可以通过语音合成技术进行说话。所谓的语音合成技术,也被称为文语转换技术(Text to Speech,TTS),其目标是让机器通过识别和理解,把文本信息变成人造语音输出,是现代人工智能发展的重要分支。语音合成能够在质量检测、机器问答、残障辅助等领域发挥极大作用,方便人们的生活。
然而,现有的机器所能合成语音往往具有固定的模式,生成的语音在韵律方面较为生硬,从语音学来讲,同样一句话,使用不同的韵律去表达,其所能表现出的情感是有很大不同的。因此,如何使基于深度学习的语音合成系统合成的语音富有情感色彩且更加具有变现力,是目前亟待解决的问题。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种语音合成方法、系统、终端设备和可读存储介质,其能够使合成的语音富有情感色彩且更加具有变现力。
为了实现上述目的,本发明第一方面提供了一种语音合成方法,包括:
获取文本数据,并根据所述文本数据生成文本向量;
确认欲合成的目标语音所要表达的情绪标签,并根据所述情绪标签生成情绪标签向量;
结合所述文本向量和所述情绪标签向量生成梅尔语谱图;
根据所述梅尔语谱图生成所述目标语音。
本方案中,确认欲合成的目标语音所想表达的情绪,并根据所述情绪生成情绪标签向量,包括:
确认欲合成的目标语音的字数和所要表达的情绪,从中确认得到欲合成的目标语音的权重样本;
通过KNN算法从预训练的权重向量数据库寻找与所述权重样本相匹配的目标权重;
将所述目标权重与预训练得到的表征向量进行点乘,获取情绪标签向量。
本方案中,通过KNN算法从权重向量数据库寻找与所述权重样本相匹配的目标权重之前,还包括:
基于训练模型构建所述权重向量数据库。
本方案中,基于训练模型构建所述权重向量数据库,包括:
从训练用的语音数据库中抽取一语音文件输入训练模型中;
对所述语音文件进行音频编码处理;
基于注意力机制从音频编码数据中获取权重向量,并将所述权重向量与表征向量进行点乘生成情绪标签向量;
获取所述语音文件对应的文本数据,并通过文本嵌入的方式变换为文本向量;
将所述文本向量和所述情绪标签向量相加,预测出对应的梅尔语谱图和情绪值;
计算预测的梅尔语谱图和情绪值与真实的梅尔语谱图和情绪值的损失代价,再使用反向传播法使训练模型收敛;
待所述训练模型收敛完毕后,使用情绪标签生成模块分别对所述语音数据库中的所有语音文件进行处理,得到对应的权重向量,汇集所有权重向量与其相对应语音文件的长度数据、文字数据和情绪值并存储于权重向量数据库。
本方案中,所述目标语音表达出的情绪种类包括:高兴、愤怒以及悲伤。
本发明第二方面提供了一种语音合成系统,包括:
文本嵌入模块,用于获取文本数据,并根据所述文本数据生成文本向量;
情绪标签生成模块,用于确认欲合成的目标语音所要表达的情绪标签,并根据所述情绪标签生成情绪标签向量;
梅尔语谱生成模块,用于结合所述文本向量和所述情绪标签向量生成梅尔语谱图;
语音生成模块,根据所述梅尔语谱图生成所述目标语音。
本方案中,确认欲合成的目标语音所想表达的情绪,并根据所述情绪生成情绪标签向量,包括:
确认欲合成的目标语音的字数和所要表达的情绪,从中确认得到欲合成的目标语音的权重样本;
通过KNN算法从预训练的权重向量数据库寻找与所述权重样本相匹配的目标权重;
将所述目标权重与预训练得到的表征向量进行点乘,获取情绪标签向量。
本方案中,所述语音合成系统还包括:训练模型,其用于构建所述权重向量数据库,具体步骤为:
从训练用的语音数据库中抽取一语音文件输入训练模型中;
对所述语音文件进行音频编码处理;
基于注意力机制从音频编码数据中获取权重向量,并将所述权重向量与表征向量进行点乘生成情绪标签向量;
获取所述语音文件对应的文本数据,并通过文本嵌入的方式变换为文本向量;
将所述文本向量和所述情绪标签向量相加,预测出对应的梅尔语谱图和情绪值;
计算预测的梅尔语谱图和情绪值与真实的梅尔语谱图和情绪值的损失代价,再使用反向传播法使训练模型收敛;
待所述训练模型收敛完毕后,使用情绪标签生成模块分别对所述语音数据库中的所有语音文件进行处理,得到对应的权重向量,汇集所有权重向量与其相对应语音文件的长度数据、文字数据和情绪值并存储于权重向量数据库。
本发明第三方面还提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述语音合成方法的步骤。
本发明第四方面还提供了一种计算机可读存储介质,所述计算机可读存储介质中包括计算机程序,所述计算机程序被处理器执行时,实现如上述语音合成方法的步骤。
本发明通过确认欲合成的目标语音所要表达的情绪标签,并根据所述情绪标签生成情绪标签向量,然后结合所述文本向量和所述情绪标签向量生成梅尔语谱图;再根据所述梅尔语谱图生成所述目标语音,且所述目标语音能够表达出不同的情绪,如高兴、愤怒以及悲伤,进而使基于深度学习的语音合成系统合成的语音富有情感色彩并且更有表现力。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1示出了本发明一种语音合成方法的流程图。
图2示出了本发明一个实施例的情绪标签向量生成方法的流程图。
图3示出了本发明一个实施例的权重向量数据库生成方法的流程图。
图4示出了本发明一种语音合成系统的框图。
图5示出了本发明一个实施例的训练模型的运行示意图。
图6示出了本发明一种终端设备的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
语音合成的主流技术方案有三种:参数合成,波形拼接以及端到端,相较而言,端到端的技术方案能够使生成的语音具有极为卓越的质量。本发明提出的语音合成方法、系统和终端设备,也是基于端到端的技术方案。
图1为本发明一种语音合成方法的流程图。
如图1所示,本发明的第一方面提供了一种语音合成方法,包括:
S102,获取文本数据,并根据所述文本数据生成文本向量;
S104,确认欲合成的目标语音所要表达的情绪标签,并根据所述情绪标签生成情绪标签向量;
S106,结合所述文本向量和所述情绪标签向量生成梅尔语谱图;
S108,根据所述梅尔语谱图生成所述目标语音。
进一步的,结合所述文本向量和所述情绪标签向量生成梅尔语谱图过程中,将所述文本向量将作为局部条件,将所述情绪标签向量作为全局条件,并通过预训练的序列到序列模型(seq2seq)映射后,生成所述梅尔语谱图(又称梅尔频谱图)。可以理解,所述序列到序列模型(seq2seq)是一种基于条件概率生成的神经网络模型。
在本发明的实施例,结合所述文本向量和所述情绪标签向量生成梅尔语谱图,具体还包括:
结合所述文本向量和所述情绪标签向量生成声谱图;
对所述声谱图进行梅尔滤波以得到梅尔语谱图。
在本发明的实施例中,所述目标语音能够表达出不同的情绪,进而使合成的语音富有情感色彩并且更有表现力。优选的,所述目标语音表达出的情绪种类包括:高兴、愤怒以及悲伤,但不限于此。
图2示出了本发明一个实施例的情绪标签向量生成方法的流程图。
如图2所示,确认欲合成的目标语音所想表达的情绪,并根据所述情绪生成情绪标签向量,包括:
S202,确认欲合成的目标语音的字数和所要表达的情绪,从中确认得到欲合成的目标语音的权重样本;
S204,通过KNN算法从预训练的权重向量数据库寻找与所述权重样本相匹配的目标权重;
S206,将所述目标权重与预训练得到的表征向量进行点乘,获取情绪标签向量。
KNN(K-Nearest Neighbors)算法是机器学习的一种分类算法,其通过测量不同特征值之间的距离进行分类。具体原理为:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
本发明的实施例中,通过KNN算法从权重向量数据库寻找与所述权重样本相匹配的目标权重之前,还包括:
基于训练模型构建所述权重向量数据库。
在其他实施例中,上述步骤S204也可以采用朴素贝叶斯分类算法、支持向量机(Support Vector Machine,SVM)算法、决策树算法的一种或几种算法来寻找与所述权重样本相匹配的目标权重,但不限于此。
图3示出了本发明一个实施例的权重向量数据库生成方法的流程图。
如图3所示,基于训练模型构建所述权重向量数据库,包括:
S302,从训练用的语音数据库中抽取一语音文件输入训练模型中;
S304,对所述语音文件进行音频编码处理;
S306,基于注意力机制从音频编码数据中获取权重向量,并将所述权重向量与表征向量进行点乘生成情绪标签向量;
S308,获取所述语音文件对应的文本数据,并通过文本嵌入的方式变换为文本向量;
S310,将所述文本向量和所述情绪标签向量相加,预测出对应的梅尔语谱图和情绪值;
S312,计算预测的梅尔语谱图和情绪值与真实的梅尔语谱图和情绪值的损失代价,再使用反向传播法使训练模型收敛;
S314,待所述训练模型收敛完毕后,使用情绪标签生成模块分别对所述语音数据库中的所有语音文件进行处理,得到对应的权重向量,汇集所有权重向量与其相对应语音文件的长度数据、文字数据和情绪值并存储于权重向量数据库。
可以理解,基于注意力机制从音频编码数据中获取的权重向量,其中,所述权重向量的各个元素为基于表征向量中各个表征的注意力权重。
注意力函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射。具体计算注意力权重向量的方法为:
第一步,将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;
第二步,使用一个softmax函数对上一步计算得到的权重进行归一化;
第三步,将权重和相应的键值value进行加权求和得到最后的权重向量。
在本发明的实施例中,所述语音数据库为不公开文件,其包含了一位女性说话人(即源说话人)在安静环境下,用专用录音设备录制的总时长约30个小时的语音文件及对应的文本文件,语音文件及文本文件的数量为两万条,但不限于此。
可以理解,情绪值代表情绪种类,所述情绪种类包括高兴、愤怒以及悲伤。
图4示出了本发明一种语音合成系统的框图。
如图4所示,本发明第二方面还提供一种语音合成系统4,包括:
文本嵌入模块41,用于获取文本数据,并根据所述文本数据生成文本向量;
情绪标签生成模块42,用于确认欲合成的目标语音所要表达的情绪标签,并根据所述情绪标签生成情绪标签向量;
梅尔语谱生成模块43,用于结合所述文本向量和所述情绪标签向量生成梅尔语谱图;
语音生成模块44,根据所述梅尔语谱图生成所述目标语音。
本发明的实施例中,梅尔语谱生成模块43为一种序列到序列模型(seq2seq),所述序列到序列模型是一种基于条件概率生成的神经网络模型。具体的,所述文本向量和所述情绪标签向量将会被输入一个序列到序列模型,输入的文本向量将作为及局部条件,而输入的韵律向量将作为全局条件。最终通过该预训练的序列到序列模型映射后,即可得到梅尔语谱图。
所述语音生成模块获得了梅尔语谱图后,将梅尔语谱图作为条件输入,生成目标语音,优选的,所述语音生成模块为WaveNet声码器,其由一个非公开的语音数据库训练而成。
在本发明的实施例中,所述目标语音能够表达出不同的情绪,进而使合成的语音富有情感色彩并且更有表现力。优选的,所述目标语音表达出的情绪种类包括:高兴、愤怒以及悲伤,但不限于此。
在本发明的具体实施例中,所述确认欲合成的目标语音所想表达的情绪,并根据所述情绪生成情绪标签向量,还包括:
确认欲合成的目标语音的字数和所要表达的情绪,从中确认得到欲合成的目标语音的权重样本;
通过KNN算法从预训练的权重向量数据库寻找与所述权重样本相匹配的目标权重;
将所述目标权重与预训练得到的表征向量进行点乘,获取情绪标签向量。
KNN算法是通过测量不同特征值之间的距离进行分类。其原理为:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
进一步的,所述语音合成系统还包括:训练模型,其用于构建所述权重向量数据库,具体步骤为:
从训练用的语音数据库中抽取一语音文件输入训练模型中;
对所述语音文件进行音频编码处理;
基于注意力机制从音频编码数据中获取权重向量,并将所述权重向量与表征向量进行点乘生成情绪标签向量;
获取所述语音文件对应的文本数据,并通过文本嵌入的方式变换为文本向量;
将所述文本向量和所述情绪标签向量相加,预测出对应的梅尔语谱图和情绪值;
计算预测的梅尔语谱图和情绪值与真实的梅尔语谱图和情绪值的损失代价,再使用反向传播法使训练模型收敛;
待所述训练模型收敛完毕后,使用情绪标签生成模块分别对所述语音数据库中的所有语音文件进行处理,得到对应的权重向量,汇集所有权重向量与其相对应语音文件的长度数据、文字数据和情绪值并存储于权重向量数据库。
可以理解,基于注意力机制从音频编码数据中获取的权重向量,其中,所述权重向量的各个元素为基于表征向量中各个表征的注意力权重。
需要说明的是,所述语音生成模块、所述训练模型以及梅尔语谱生成模块中所使用的序列到序列模型使用了同一份不公开的语音数据库进行了联合训练。所述语音数据库为不公开文件,其包含了一位女性说话人(即源说话人)在安静环境下,用专用录音设备录制的总时长约30个小时的语音文件,以及每条语音文件所对应的文本文件,且所述语音文件和文本文件的数量均为两万条,但不限于此。
可以理解,情绪值代表情绪种类,所述情绪种类包括高兴、愤怒以及悲伤。
图5示出了本发明一个实施例的训练模型的运行示意图。
如图5所示,本发明的实施中,训练采用的语音数据库拥有两万条语音信息,且每条语音信息拥有文本信息以及情绪标签。
在训练的时候,我们会将音频输入,通过音频编码层和情绪标签生成模块生成出一个情绪标签向量。而文本信息也会通过文本嵌入的方法变换为文本向量。文本向量和情绪标签向量相加在一起,再输入一个序列到序列模型,预测出一个梅尔语谱图和一个情绪值(代表情绪种类)。我们通过计算预测的梅尔语谱图和情绪种类与真实的梅尔语谱图和情绪种类的损失代价,再使用反向传播法使整个模型收敛。在模型收敛完毕后,使用情绪标签生成模块对两万条语音进行处理,得到其相对应的权重向量,最后将这些权重向量与语音的长度信息,文字信息和情绪信息等一同存入权重向量数据库中。
本发明的实施中,序列到序列模型为一种神经网络模型,所述序列到序列模型的采用了Tacotron的架构,并使用了一份不公开的语音数据库进行了训练。该语音数据库包含了一位女性说话人(即源说话人)在安静环境下,用专用录音设备录制的总时长约30个小时的语音文件,以及每条语音所对应的文本文件。输入的文本向量以及情绪标签向量经过训练过的序列到序列模型映射之后,将会被转换为梅尔语谱图。
图6示出了本发明一种终端设备的示意图。
如图6所示,本发明第三方面还提供一种终端设备6,终端设备6包括:处理器61、存储器62以及存储在所述存储器62中并可在所述处理器61上运行的计算机程序63,例如程序。所述处理器61执行所述计算机程序63时实现上述各个语音合成方法实施例中的步骤。
本发明的实施例中,所述计算机程序63可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器62中,并由所述处理器61执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序63在所述终端设备6中的执行过程。例如,所述计算机程序63可以被分割成文本嵌入模块、情绪标签生成模块、梅尔语谱生成模块以及语音生成模块,各模块具体功能如下:
文本嵌入模块,用于获取文本数据,并根据所述文本数据生成文本向量;
情绪标签生成模块,用于确认欲合成的目标语音所要表达的情绪标签,并根据所述情绪标签生成情绪标签向量;
梅尔语谱生成模块,用于结合所述文本向量和所述情绪标签向量生成梅尔语谱图;
语音生成模块,根据所述梅尔语谱图生成所述目标语音。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端管理服务器等计算设备。所述终端设备6可包括,但不仅限于,处理器61、存储器62。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器61可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-ProgrammableGate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器62可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器62也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器62还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器62用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器62还可以用于暂时地存储已经输出或者将要输出的数据。
本发明第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括计算机程序,所述计算机程序被处理器执行时,实现如上述的语音合成方法的步骤。
本发明通过确认欲合成的目标语音所要表达的情绪标签,并根据所述情绪标签生成情绪标签向量,然后结合所述文本向量和所述情绪标签向量生成梅尔语谱图;再根据所述梅尔语谱图生成所述目标语音,且所述目标语音能够表达出不同的情绪,如高兴、愤怒以及悲伤,进而使基于深度学习的语音合成系统合成的语音富有情感色彩并且更有表现力。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
获取文本数据,并根据所述文本数据生成文本向量;
确认欲合成的目标语音所要表达的情绪标签,并根据所述情绪标签生成情绪标签向量;
结合所述文本向量和所述情绪标签向量生成梅尔语谱图;
根据所述梅尔语谱图生成所述目标语音。
2.根据权利要求1所述的语音合成方法,其特征在于,确认欲合成的目标语音所想表达的情绪,并根据所述情绪生成情绪标签向量,包括:
确认欲合成的目标语音的字数和所要表达的情绪,从中确认得到欲合成的目标语音的权重样本;
通过KNN算法从预训练的权重向量数据库寻找与所述权重样本相匹配的目标权重;
将所述目标权重与预训练得到的表征向量进行点乘,获取情绪标签向量。
3.根据权利要求2所述的语音合成方法,其特征在于,通过KNN算法从权重向量数据库寻找与所述权重样本相匹配的目标权重之前,还包括:
基于训练模型构建所述权重向量数据库。
4.根据权利要求3所述的语音合成方法,其特征在于,基于训练模型构建所述权重向量数据库,包括:
从训练用的语音数据库中抽取一语音文件输入训练模型中;
对所述语音文件进行音频编码处理;
基于注意力机制从音频编码数据中获取权重向量,并将所述权重向量与表征向量进行点乘生成情绪标签向量;
获取所述语音文件对应的文本数据,并通过文本嵌入的方式变换为文本向量;
将所述文本向量和所述情绪标签向量相加,预测出对应的梅尔语谱图和情绪值;
计算预测的梅尔语谱图和情绪值与真实的梅尔语谱图和情绪值的损失代价,再使用反向传播法使训练模型收敛;
待所述训练模型收敛完毕后,使用情绪标签生成模块分别对所述语音数据库中的所有语音文件进行处理,得到对应的权重向量,汇集所有权重向量与其相对应语音文件的长度数据、文字数据和情绪值并存储于权重向量数据库。
5.根据权利要求1所述的语音合成方法,其特征在于,所述目标语音表达出的情绪种类包括:高兴、愤怒以及悲伤。
6.一种语音合成系统,其特征在于,包括:
文本嵌入模块,用于获取文本数据,并根据所述文本数据生成文本向量;
情绪标签生成模块,用于确认欲合成的目标语音所要表达的情绪标签,并根据所述情绪标签生成情绪标签向量;
梅尔语谱生成模块,用于结合所述文本向量和所述情绪标签向量生成梅尔语谱图;
语音生成模块,根据所述梅尔语谱图生成所述目标语音。
7.根据权利要求6所述的语音合成系统,其特征在于,确认欲合成的目标语音所想表达的情绪,并根据所述情绪生成情绪标签向量,包括:
确认欲合成的目标语音的字数和所要表达的情绪,从中确认得到欲合成的目标语音的权重样本;
通过KNN算法从预训练的权重向量数据库寻找与所述权重样本相匹配的目标权重;
将所述目标权重与预训练得到的表征向量进行点乘,获取情绪标签向量。
8.根据权利要求6所述的语音合成系统,其特征在于,所述语音合成系统还包括:训练模型,其用于构建所述权重向量数据库,具体步骤为:
从训练用的语音数据库中抽取一语音文件输入训练模型中;
对所述语音文件进行音频编码处理;
基于注意力机制从音频编码数据中获取权重向量,并将所述权重向量与表征向量进行点乘生成情绪标签向量;
获取所述语音文件对应的文本数据,并通过文本嵌入的方式变换为文本向量;
将所述文本向量和所述情绪标签向量相加,预测出对应的梅尔语谱图和情绪值;
计算预测的梅尔语谱图和情绪值与真实的梅尔语谱图和情绪值的损失代价,再使用反向传播法使训练模型收敛;
待所述训练模型收敛完毕后,使用情绪标签生成模块分别对所述语音数据库中的所有语音文件进行处理,得到对应的权重向量,汇集所有权重向量与其相对应语音文件的长度数据、文字数据和情绪值并存储于权重向量数据库。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音合成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至5中任一项所述的语音合成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910516181.6A CN110379409B (zh) | 2019-06-14 | 2019-06-14 | 语音合成方法、系统、终端设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910516181.6A CN110379409B (zh) | 2019-06-14 | 2019-06-14 | 语音合成方法、系统、终端设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110379409A true CN110379409A (zh) | 2019-10-25 |
CN110379409B CN110379409B (zh) | 2024-04-16 |
Family
ID=68248782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910516181.6A Active CN110379409B (zh) | 2019-06-14 | 2019-06-14 | 语音合成方法、系统、终端设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110379409B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128118A (zh) * | 2019-12-30 | 2020-05-08 | 科大讯飞股份有限公司 | 语音合成方法、相关设备及可读存储介质 |
CN111161703A (zh) * | 2019-12-30 | 2020-05-15 | 深圳前海达闼云端智能科技有限公司 | 带语气的语音合成方法、装置、计算设备及存储介质 |
CN111627420A (zh) * | 2020-04-21 | 2020-09-04 | 升智信息科技(南京)有限公司 | 极低资源下的特定发音人情感语音合成方法及装置 |
CN111710326A (zh) * | 2020-06-12 | 2020-09-25 | 携程计算机技术(上海)有限公司 | 英文语音的合成方法及系统、电子设备及存储介质 |
CN112349272A (zh) * | 2020-10-15 | 2021-02-09 | 北京捷通华声科技股份有限公司 | 语音合成方法、装置、存储介质及电子装置 |
CN113096634A (zh) * | 2021-03-30 | 2021-07-09 | 平安科技(深圳)有限公司 | 语音合成方法、装置、服务器及存储介质 |
CN113115104A (zh) * | 2021-03-19 | 2021-07-13 | 北京达佳互联信息技术有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN113178200A (zh) * | 2021-04-28 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音转换方法、装置、服务器及存储介质 |
CN113192483A (zh) * | 2021-03-22 | 2021-07-30 | 联想(北京)有限公司 | 一种文本转换为语音的方法、装置、存储介质和设备 |
CN113192484A (zh) * | 2021-05-26 | 2021-07-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 基于文本生成音频的方法、设备和存储介质 |
CN113345411A (zh) * | 2021-05-31 | 2021-09-03 | 多益网络有限公司 | 一种变声方法、装置、设备和存储介质 |
CN114299915A (zh) * | 2021-11-09 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 语音合成方法及相关设备 |
WO2022105553A1 (zh) * | 2020-11-20 | 2022-05-27 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN114822495A (zh) * | 2022-06-29 | 2022-07-29 | 杭州同花顺数据开发有限公司 | 声学模型训练方法、装置及语音合成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015176592A (ja) * | 2014-03-18 | 2015-10-05 | Kddi株式会社 | アニメーション生成装置、アニメーション生成方法およびプログラム |
CN106773923A (zh) * | 2016-11-30 | 2017-05-31 | 北京光年无限科技有限公司 | 面向机器人的多模态情感数据交互方法及装置 |
CN108597492A (zh) * | 2018-05-02 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、系统及终端设备 |
CN109754778A (zh) * | 2019-01-17 | 2019-05-14 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置和计算机设备 |
CN109754779A (zh) * | 2019-01-14 | 2019-05-14 | 出门问问信息科技有限公司 | 可控情感语音合成方法、装置、电子设备及可读存储介质 |
-
2019
- 2019-06-14 CN CN201910516181.6A patent/CN110379409B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015176592A (ja) * | 2014-03-18 | 2015-10-05 | Kddi株式会社 | アニメーション生成装置、アニメーション生成方法およびプログラム |
CN106773923A (zh) * | 2016-11-30 | 2017-05-31 | 北京光年无限科技有限公司 | 面向机器人的多模态情感数据交互方法及装置 |
CN108597492A (zh) * | 2018-05-02 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、系统及终端设备 |
CN109754779A (zh) * | 2019-01-14 | 2019-05-14 | 出门问问信息科技有限公司 | 可控情感语音合成方法、装置、电子设备及可读存储介质 |
CN109754778A (zh) * | 2019-01-17 | 2019-05-14 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置和计算机设备 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128118B (zh) * | 2019-12-30 | 2024-02-13 | 科大讯飞股份有限公司 | 语音合成方法、相关设备及可读存储介质 |
CN111161703A (zh) * | 2019-12-30 | 2020-05-15 | 深圳前海达闼云端智能科技有限公司 | 带语气的语音合成方法、装置、计算设备及存储介质 |
CN111161703B (zh) * | 2019-12-30 | 2023-06-30 | 达闼机器人股份有限公司 | 带语气的语音合成方法、装置、计算设备及存储介质 |
CN111128118A (zh) * | 2019-12-30 | 2020-05-08 | 科大讯飞股份有限公司 | 语音合成方法、相关设备及可读存储介质 |
CN111627420A (zh) * | 2020-04-21 | 2020-09-04 | 升智信息科技(南京)有限公司 | 极低资源下的特定发音人情感语音合成方法及装置 |
CN111627420B (zh) * | 2020-04-21 | 2023-12-08 | 升智信息科技(南京)有限公司 | 极低资源下的特定发音人情感语音合成方法及装置 |
CN111710326A (zh) * | 2020-06-12 | 2020-09-25 | 携程计算机技术(上海)有限公司 | 英文语音的合成方法及系统、电子设备及存储介质 |
CN111710326B (zh) * | 2020-06-12 | 2024-01-23 | 携程计算机技术(上海)有限公司 | 英文语音的合成方法及系统、电子设备及存储介质 |
CN112349272A (zh) * | 2020-10-15 | 2021-02-09 | 北京捷通华声科技股份有限公司 | 语音合成方法、装置、存储介质及电子装置 |
WO2022105553A1 (zh) * | 2020-11-20 | 2022-05-27 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN113115104A (zh) * | 2021-03-19 | 2021-07-13 | 北京达佳互联信息技术有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN113115104B (zh) * | 2021-03-19 | 2023-04-07 | 北京达佳互联信息技术有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN113192483B (zh) * | 2021-03-22 | 2024-02-27 | 联想(北京)有限公司 | 一种文本转换为语音的方法、装置、存储介质和设备 |
CN113192483A (zh) * | 2021-03-22 | 2021-07-30 | 联想(北京)有限公司 | 一种文本转换为语音的方法、装置、存储介质和设备 |
CN113096634A (zh) * | 2021-03-30 | 2021-07-09 | 平安科技(深圳)有限公司 | 语音合成方法、装置、服务器及存储介质 |
CN113096634B (zh) * | 2021-03-30 | 2024-03-01 | 平安科技(深圳)有限公司 | 语音合成方法、装置、服务器及存储介质 |
CN113178200A (zh) * | 2021-04-28 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音转换方法、装置、服务器及存储介质 |
CN113178200B (zh) * | 2021-04-28 | 2024-03-01 | 平安科技(深圳)有限公司 | 语音转换方法、装置、服务器及存储介质 |
CN113192484A (zh) * | 2021-05-26 | 2021-07-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 基于文本生成音频的方法、设备和存储介质 |
CN113345411B (zh) * | 2021-05-31 | 2024-01-05 | 多益网络有限公司 | 一种变声方法、装置、设备和存储介质 |
CN113345411A (zh) * | 2021-05-31 | 2021-09-03 | 多益网络有限公司 | 一种变声方法、装置、设备和存储介质 |
CN114299915A (zh) * | 2021-11-09 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 语音合成方法及相关设备 |
CN114822495A (zh) * | 2022-06-29 | 2022-07-29 | 杭州同花顺数据开发有限公司 | 声学模型训练方法、装置及语音合成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110379409B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110379409A (zh) | 语音合成方法、系统、终端设备和可读存储介质 | |
Sigtia et al. | An end-to-end neural network for polyphonic piano music transcription | |
Noroozi et al. | Vocal-based emotion recognition using random forests and decision tree | |
Rong et al. | Acoustic feature selection for automatic emotion recognition from speech | |
CN110335587A (zh) | 语音合成方法、系统、终端设备和可读存储介质 | |
CN107526809A (zh) | 基于人工智能推送音乐的方法和装置 | |
Zhao et al. | Applications of deep learning to audio generation | |
Agarwal et al. | Recognition of emotions of speech and mood of music: a review | |
Lee et al. | Deep representation learning for affective speech signal analysis and processing: Preventing unwanted signal disparities | |
Noroozi et al. | Speech-based emotion recognition and next reaction prediction | |
CN115662435A (zh) | 一种虚拟教师拟真化语音的生成方法及终端 | |
Hacine-Gharbi et al. | On the optimal number estimation of selected features using joint histogram based mutual information for speech emotion recognition | |
Alamgir et al. | Hybrid multi-modal emotion recognition framework based on InceptionV3DenseNet | |
Papadopoulos et al. | Models for music analysis from a markov logic networks perspective | |
Tits et al. | The theory behind controllable expressive speech synthesis: A cross-disciplinary approach | |
Fahad et al. | Speaker adversarial neural network (SANN) for speaker-independent speech emotion recognition | |
Zhang et al. | Speech emotion recognition method in educational scene based on machine learning | |
Yang et al. | Study to speech emotion recognition based on TWINsSVM | |
Islam et al. | Capturing spectral and long-term contextual information for speech emotion recognition using deep learning techniques | |
Al-Hadithy et al. | A Real-Time Speaker Diarization System Based On Convolutional Neural Networks Architectures | |
Glüge et al. | SEGMENTED–MEMORY RECURRENT NEURAL NETWORKS VERSUS HIDDEN MARKOV MODELS IN EMOTION RECOGNITION FROM SPEECH | |
Alam et al. | Speech Emotion Recognition from Audio Files Using Feedforward Neural Network | |
Pathak et al. | Emotion-Aware Text to Speech: Bridging Sentiment Analysis and Voice Synthesis | |
Sheikh et al. | Development of a Bengali Speech-based Emotion Analysis System | |
Haque et al. | Hierarchical speech emotion recognition using the valence-arousal model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |