CN114333762B - 基于表现力的语音合成方法、系统、电子设备及存储介质 - Google Patents
基于表现力的语音合成方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114333762B CN114333762B CN202210218342.5A CN202210218342A CN114333762B CN 114333762 B CN114333762 B CN 114333762B CN 202210218342 A CN202210218342 A CN 202210218342A CN 114333762 B CN114333762 B CN 114333762B
- Authority
- CN
- China
- Prior art keywords
- model
- training
- style
- text
- tts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 25
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 25
- 238000001308 synthesis method Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 72
- 230000001537 neural effect Effects 0.000 claims abstract description 13
- 238000001228 spectrum Methods 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000003042 antagnostic effect Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000013508 migration Methods 0.000 description 6
- 230000005012 migration Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000252794 Sphinx Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于表现力的语音合成方法、系统、电子设备及存储介质。该合成系统由预训练后的ASR模型和改进的TTS模型联合组成;ASR模型用于将音频序列转换为文本序列,改进的TTS模型由改进的Tacotron模型和神经声码器组成,改进的Tacotron模型在原始Tacotron模型的基础上添加了共享层和风格编码器;共享层用于将TTS模型和ASR模型整合到一个网络中,风格编码器用于从参考音频中提取风格嵌入信息;神经声码器将声学特征重建音频。本发明提出的表现力语音合成系统有助于提取到理想状态的风格向量,解决了内容泄露的问题,显著提升了语音合成的表现力和准确率。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于表现力的语音合成方法、系统、电子设备及存储介质。
背景技术
语音合成(Speech synthesis)又称文语转换(Text-to-speech,TTS),目的是将输入的文本转换成流畅自然的语音。语音合成是实现智能人机语音交互的关键技术,并且在很多领域已经广泛使用,例如智能机器人,智能客户服务,会议助理等等。近几年来,随着深度神经网络技术的发展,端到端语音合成技术得到了迅速的发展,语音的自然度已经接近于真实人类的声音。但是目前大多数合成的语音缺乏表现力,由于没有情感的互动,听众常常觉得无聊或者不满意。目前越来越多的应用需要高表现力的合成语音。例如,有声读物,新闻阅读器,会议助理等。
现有技术中,关于表现力语音合成的研究主要是从参考音频中学习韵律和整体风格的潜在表示,然后将这种潜在表示与文本信息结合,实现合成语音风格的迁移和控制。在表现力语音合成的研究中,最近常用无监督的方法是基于全局风格标记(Global StyleTokens)。这个方法使得合成音频的风格模仿参考音频的风格。具体的说,参考音频经过一个风格编码器提取出风格信息,这个风格信息隐式的包含了例如节奏、时长、能量、基频等声学特征,但是这个提取的风格信息耦合了一定的内容信息,从而导致合成语音质量的下降。这是因为在模型训练阶段,输入的文本内容与参考音频的内容是一致的,导致风格编码器对参考音频中的一些内容进行编码。但是在推理阶段,当输入的文本内容与参考音频内容不一致时,解码器将从风格信息中得到内容,这将与实际输入的文本信息发生冲突。因此合成的语音将受到一定的影响,出现错词,漏词,模糊词等问题,这种现象称为“内容泄露”。内容泄露问题对合成语音的质量有显著的负面影响。
目前,实现风格信息和内容的信息的解耦主要有三种方法:第一种是对模型训练添加辅助任务,例如添加了语音识别(ASR)引导的模型训练任务,他们使用未配对的文本和参考音频对TTS模型进行训练,使用预训练的ASR模型的词错率作为TTS模型的额外的学习目标,来阻止参考编码器编码文本信息;第二种是使用对抗训练的方式解耦风格信息中内容信息;第三种是使用信息瓶颈的思想,迫使模型只关注风格信息。但是,上述方法并没有达到良好的解耦效果,合成的语音还是受到一定的影响。
发明内容
因此,本发明的目的在于提供一种基于表现力的语音合成方法、系统、电子设备及计算及存储介质,解决现有语音合成技术中存在的内容泄露的问题,实现风格信息和内容的信息的解耦。
为了实现上述目的,本发明的一种基于表现力的语音合成方法,包括以下步骤:
S1、将预训练的ASR模型和改进的TTS模型进行联合训练后,作为联合训练模型;
S2、获取输入文本和参考音频序列;作为联合训练模型的输入信息;
S3、利用预训练的ASR模型,从参考音频序列中提取高维的隐式特征;
S4、利用改进的TTS模型去除所述高维的隐式特征中的内容信息,生成纯净的风格嵌入信息;
S5、将输入文本生成文本嵌入信息,将所述文本嵌入信息与所述风格嵌入信息结合后,输入改进的TTS模型中的解码器,预测出声学特征梅尔谱和线性谱,利用神经声码器将预测的梅尔谱进行音频重构,得到目标风格的音频。
进一步,优选的,在S1中,所述联合训练模型,采用预训练的ASR模型和改进的TTS模型进行联合训练,包括如下步骤:
将输入文本和参考音频序列,按比例分割为训练集及测试集;
对ASR模型和改进的TTS模型分别进行预训练,使用改进的TTS模型中的共享层将预训练后的ASR模型添加到改进的TTS模型中,执行联合训练。
进一步,优选的,在S4中,利用改进的TTS模型去除所述高维的隐式特征中的内容信息,生成纯净的风格嵌入信息,采用如下方法:
将参考音频序列转换成梅尔谱,所述梅尔谱作为联合训练模型共享层的输入,在执行ASR模型的任务中,在梯度反向传播过程以对抗训练的方式执行梯度反转,去除内容信息,生成纯净的风格嵌入信息。
本发明一种基于表现力的语音合成系统,包括联合训练模型,所述联合训练模型包括预训练的ASR模型和改进的TTS模型;
所述ASR模型包括编码器和解码器,参考音频序列经由编码器和解码器得到预测的文本序列;
所述改进的TTS模型包括共享层、风格编码器和传统TTS模型;所述共享层用于嵌入上述ASR模型,所述风格编码器用于以参考音频序列为输入,使用上述ASR模型进行对抗训练和梯度反转,得到去除内容的风格嵌入信息;所述传统TTS模型,用于将输入文本信息经由文本编码器得到文本嵌入信息,将所得文本嵌入信息与风格嵌入系信息拼接作为解码器的输入,预测得到声学特征梅尔谱和线性谱,利用神经声码器进行音频重构,得到与参考音频序列相同风格的合成音频。
进一步,优选的,所述传统的TTS模型包括文本编码器、注意力机制和解码器;所述文本编码器用于将输入文本编码为文本嵌入信息,所述解码器用于将所述的文本嵌入信息和风格嵌入信息结合预测出声学特征,所述注意力机制用于学习所述文本嵌入信息与所述声学特征的对齐关系;所述神经声码器用于将预测的声学特征重建为音频。
进一步,优选的,所述ASR模型和TTS模型的预训练过程包括:将输入文本和参考音频序列按比例分割为训练集及测试集;对ASR模型和TTS模型分别进行预训练。
本发明还提供一种电子设备,包括处理器与存储器,所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序时,实现如上述基于表现力的语音合成方法的步骤。
本发明还提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述基于表现力的语音合成方法的步骤。
本申请公开的基于表现力的语音合成方法、系统、电子设备及存储介质,相比于现有技术,至少具有以下优点:
本申请提供的基于表现力的语音合成方法、系统、电子设备及存储介质,采用预训练好的ASR模型和TTS模型进行联合训练,进而合成出高表现力的语音。在联合训练中,ASR任务进行梯度反向传播并以对抗训练的方式执行梯度反转,使得参考音频不能被ASR模型很好的识别,从而达到了去除内容信息的目的,有助于提取到理想状态的风格嵌入,解决了内容泄露的问题,在主观评价和客观评价两个方面显著提升了语音合成的表现力和准确率。
附图说明
图1为本发明的基于表现力的语音合成方法的流程示意图;
图2为本发明的基于表现力的语音合成系统中改进TTS模型的结构图;
图3为本发明的基于表现力的语音合成系统中ASR模型的结构图;
图4为本发明的基于表现力的语音合成系统ASR模型和TTS模型联合训练的结构示意图;
图5为不同的总损失对应的词错率变化折线图。
具体实施方式
以下通过附图和具体实施方式对本发明作进一步的详细说明。
如图1所示,本发明一方面实施例提供的一种基于表现力的语音合成方法,包括以下步骤:
S1、将预训练的ASR模型和改进的TTS模型进行联合训练后,作为联合训练模型;
S2、获取输入文本和参考音频序列;作为联合训练模型的输入信息;
S3、利用预训练的ASR模型,从参考音频序列中提取高维的隐式特征;
S4、利用改进的TTS模型去除所述高维的隐式特征中的内容信息,生成纯净的风格嵌入信息;
S5、将输入文本生成文本嵌入信息,将所述文本嵌入信息与所述风格嵌入信息结合后,输入改进的TTS模型中的解码器,预测出声学特征梅尔谱和线性谱,利用神经声码器将预测的梅尔谱进行音频重构,得到目标风格的音频。
在S1中,所述联合训练模型,采用ASR模型和改进的TTS模型进行联合训练,包括如下步骤:
将输入文本和参考音频序列按比例分割为训练集及测试集;
对ASR模型和改进的TTS模型分别进行预训练。
本发明对TTS任务和声码器WaveRNN采用Blizzard Challenge 2013(BC2013)数据集作为模型的训练和测试数据集,本数据集包含多种说话风格,一共选取29679条文本音频对。其中,29479对用来训练,200对用来测试。数据参数:采样率为16kHZ、编码为16bitsigned-integer;对ASR任务采用VCTK数据集作为模型的训练和测试,数据参数:采样率为16kHZ、编码为16bit signed-integer。
所述TTS模型由改进Tacotron模型和神经声码器组成,所述改进Tacotron模型在原始Tacotron模型的基础上添加了共享层和风格编码器;风格编码器作用是从参考音频序列中提取风格嵌入信息,它由6个2D卷积层和一个GRU层组成,最后一个GRU状态通过一个全连接层生成一个128维的风格嵌入信息,然后这个风格嵌入信息与输入文本生成的文本嵌入信息结合,作为Tacotron的解码器的输入,最后合成出想要风格的音频;共享层是一个BLSTM结构,在联合训练中充当桥梁作用,将TTS模型和ASR模型整合到一个网络中。改进Tacotron模型的结构如图2所示。
ASR模型的预训练过程包括采用LAS模型作为ASR模型,所述LAS是一个带有注意力机制的序列到序列的语音识别模型,主要由两大部分组成:包括Listener模块(Listen)和Speller模块(包括Attend and Spell)。Listener模块为一个编码器,用于从音频序列中提取高维的隐式特征;Speller模块为一个解码器,用于将Listener模块提取的高维的隐式特征转换为字符序列。 LAS模型的结构如图3所示。
联合训练过程如图4所示,添加预训练好的ASR模型到改进的TTS模型,然后继续联合训练这两个模型,在联合训练过程中,保持ASR模型的参数不变。具体的,首先将参考音频序列转换成梅尔谱,然后将梅尔谱作为共享层的输入,将共享层的输出作为风格编码器的输入,提取纯净的风格嵌入信息,这也就意味着,此时的风格嵌入信息是不包含内容信息的。最后,风格嵌入信息与来自文本编码器的文本嵌入信息合并作为解码器的输入,预测出梅尔谱和线性谱。
在一个优选的实施例中,在S4中,去除参考音频序列中的内容信息得到纯净的风格信息,采用如下方法:
在预训练ASR任务中,我们在梯度反向传播过程中以对抗训练的方式执行梯度反转,目的是为了让参考音频序列不能被ASR模型很好的识别,保持此时的ASR模型的参数不变。然后使用共享层将预训练的ASR模型结合到改进的TTS模型继续执行联合训练,ASR模型将参考音频序列转换成梅尔谱,然后将梅尔谱作为共享层的输入,将共享层的输出作为风格编码器的输入,提取纯净的风格嵌入信息,这也就意味着,此时的风格嵌入信息是不包含内容信息的。最后,风格嵌入信息与来自文本编码器的文本嵌入信息合并作为解码器的输入,预测出梅尔谱和线性谱,最后使用声码器将梅尔谱重构成音频。
如图4为两个模型进行联合训练的示意图,在联合训练中,模型总损失包括TTS任务的重构损失和ASR任务的对抗损失。
所以我们的总损失为:
实验过程中,根据实验结果,我们设置=20。总损失定义为以上公式的原因是为了
防止模型崩溃。具体的,在实验中我们根据词错率(WER)的大小来选择重构损失和对抗损失
的组合权重,希望合成的语音有更少的错词模糊词出现。不同组合权重的实验结果,如图5
所示。与上述描述的是一致的。而 =。在实验中我们
发现当总损失为有很高的词错率并且模型最终会崩溃。同时,当有一个低的
权重值时,词错率越低,并且合成语音的质量也越好。因此我们使用了一个自适应对抗权重
策略来阻止模型崩塌。
神经声码器是把声学特征转成可播放的语音波形。声码器的好坏直接决定了音频的音质高低。这里选择是基于神经网络的声码器WaveRNN。使用BC2013数据集对模型进行训练和测试。
合成阶段,将输入文本和参考音频序列输入训练好的模型中,从参考音频序列中提取出该音频风格信息,通过解码器,声码器,可以合成出该风格的音频。此模型合成的音频比原始模型合成的音频在风格上更偏向于参考音频序列的风格。
实验的结果采用主观和客观测试进行评价。将本发明与其他两个基线系统进行对比。第一个基线系统是预训练的改进的TTS系统,第二个基线系统是指之前的研究对TTS模型训练使用添加辅助任务的办法(ASR_guide:在训练过程中,该模型使得生成的语音很好的被ASR识别,并利用ASR的任务不断引导TTS的训练,使得合成的语音更加清晰。)。
本发明使用了词错率(WER)和词信息丢失(WIL)(结果如表1所示)作为客观评价的指标,值越小,表明越少的错词、漏词、模糊词的情况出现。对于测试,本发明任意选择了60个合成的样本。本发明使用Sphinx API来识别不同模型的合成语音,然后调用jiwer包的wer和wil函数进行测试。
表1 每个模型合成语音的WER和WIL
本发明使用了如下表2所示的主观意见得分(MOS)和如下表3所示的ABX偏好测试来作为主观评价的指标。MOS测试评价合成语音的自然度和质量。MOS的评分标准为1-5分,1代表最差,5代表最好,得分越高表示结果的语音自然度和音色相似度越好。ABX偏好测试评价参考语音和合成语音的风格相似度。风格迁移包括平行风格迁移和非平行风格迁移,平行风格迁移指参考音频的内容和要合成文本的内容是一致的。非平行风格迁移指参考音频的内容和要合成文本的内容是不一致的。具体的,先让他们听真实参考音频,接下来让他们听此发明合成的音频和基线系统(ASR_guide)合成的音频,让他们判断,哪一个合成的音频风格更像真实参考音频的风格,如果很难判断哪一个更像,也可以不做判断。
表2 表现力TTS的语音自然度(95%的置信区间)
表3 ABX偏好测试来作为主观评价的指标
基线系统ASR | 中等 | 本方案 | |
平行 | 25.00% | 37.50% | 37.50% |
非平行 | 22.50% | 29.20% | 48.30% |
本发明还提供一种基于表现力的语音合成系统,用于实施上述方法,包括联合训练模型,所述联合训练模型包括预训练的ASR模型和预训练的改进的TTS模型;包括联合训练模型,所述联合训练模型包括预训练的ASR模型和改进的TTS模型;
所述ASR模型包括编码器和解码器,参考音频序列经由编码器和解码器得到预测的文本序列;
所述改进的TTS模型包括共享层、风格编码器和传统TTS模型;所述共享层用于嵌入上述ASR模型,所述风格编码器用于以参考音频序列为输入,使用上述ASR模型进行对抗训练和梯度反转,得到去除内容的风格嵌入信息;所述改进的TTS模型,用于将输入文本信息经由文本编码器得到文本嵌入信息,将所得文本嵌入信息与风格嵌入系信息拼接作为解码器的输入,预测得到声学特征梅尔谱和线性谱,利用神经声码器进行音频重构,得到与参考音频序列相同风格的合成音频。
改进的TTS模型包括文本编码器、注意力机制和解码器;所述文本编辑器用于将输入的文本序列编码为文本嵌入信息,所述解码器用于将所述的文本嵌入信息和风格嵌入信息结合预测出声学特征,所述注意力机制用于学习所述文本嵌入信息与所述声学特征的对齐关系;所述神经声码器用于将预测的声学特征重建为音频。
ASR模型和改进的TTS模型的预训练过程包括:将输入文本和参考音频序列按比例分割为训练集及测试集;对ASR模型和TTS模型分别进行预训练,具体训练过程,参见上述方法实施例,在此不再赘述。
本发明还提供一种电子设备,包括处理器与存储器,所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序时,实现如上述基于表现力的语音合成方法的步骤。
本发明还提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述基于表现力的语音合成方法的步骤。
显然,上述实施例仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (7)
1.一种基于表现力的语音合成方法,其特征在于,包括以下步骤:
S1、将预训练的ASR模型和改进的TTS模型进行联合训练后,作为联合训练模型;所述联合训练模型的训练总损失包括TTS任务的重构损失和ASR任务的对抗损失,在训练阶段,不断的更新TTS模型来最小化重构损失Lrecog,并最大化对抗损失Lgan;
所述TTS任务的重构损失的重构损失函数Lrecog按照如下公式进行计算:
所述ASR任务的对抗损失的对抗损失预测函数Lgan如下:
S2、获取输入文本和参考音频序列;作为联合训练模型的输入信息;
S3、利用预训练的ASR模型,从参考音频序列中提取高维的隐式特征;
S4、利用改进的TTS模型去除所述高维的隐式特征中的内容信息,生成纯净的风格嵌入信息;包括如下方法:将参考音频序列转换成梅尔谱,所述梅尔谱作为联合训练模型共享层的输入,在执行ASR模型的任务中,在梯度反向传播过程以对抗训练的方式执行梯度反转,去除内容信息,生成纯净的风格嵌入信息;
S5、将输入文本生成文本嵌入信息,将所述文本嵌入信息与所述风格嵌入信息结合后,输入改进的TTS模型中的解码器,预测出声学特征梅尔谱和线性谱,利用神经声码器将预测的梅尔谱进行音频重构,得到目标风格的音频。
2.根据权利要求1所述的基于表现力的语音合成方法,其特征在于,在S1中,所述联合训练模型,采用预训练的ASR模型和改进的TTS模型进行联合训练,包括如下步骤:将输入文本和参考音频序列,按比例分割为训练集及测试集;对ASR模型和改进的TTS模型分别进行预训练,使用改进的TTS模型中的共享层将预训练后的ASR模型添加到改进的TTS模型中,执行联合训练。
3.一种基于表现力的语音合成系统,其特征在于,用于执行上述权利要求1-2中任意一项所述的基于表现力的语音合成方法,包括联合训练模型,所述联合训练模型包括预训练的ASR模型和改进的TTS模型;
所述ASR模型包括编码器和解码器,参考音频序列经由编码器和解码器得到预测的文本序列;
所述改进的TTS模型包括共享层、风格编码器和传统TTS模型;所述共享层用于嵌入上述ASR模型,所述风格编码器用于以参考音频序列为输入,使用上述ASR模型进行对抗训练和梯度反转,得到去除内容的风格嵌入信息;所述传统TTS模型,用于将输入文本信息经由文本编码器得到文本嵌入信息,将所得文本嵌入信息与风格嵌入系信息拼接作为解码器的输入,预测得到声学特征梅尔谱和线性谱,利用神经声码器进行音频重构,得到与参考音频相同风格的合成音频。
4.根据权利要求3所述的基于表现力的语音合成系统,其特征在于,所述传统的TTS模型包括文本编码器、注意力机制和解码器;所述文本编码器用于将输入文本编码为文本嵌入信息,所述解码器用于将所述的文本嵌入信息和风格嵌入信息结合预测出声学特征,所述注意力机制用于学习所述文本嵌入信息与所述声学特征的对齐关系;所述神经声码器用于将预测的的声学特征重建为音频。
5.根据权利要求3所述的基于表现力的语音合成系统,其特征在于,所述ASR模型和TTS模型的预训练过程包括:将音频数据集按比例分割为训练集及测试集;对ASR模型和TTS模型分别进行预训练。
6.一种电子设备,其特征在于,包括处理器与存储器,所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序时,实现如权利要求1至2中任一项所述基于表现力的语音合成方法的步骤。
7.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至2中任一项所述基于表现力的语音合成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210218342.5A CN114333762B (zh) | 2022-03-08 | 2022-03-08 | 基于表现力的语音合成方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210218342.5A CN114333762B (zh) | 2022-03-08 | 2022-03-08 | 基于表现力的语音合成方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114333762A CN114333762A (zh) | 2022-04-12 |
CN114333762B true CN114333762B (zh) | 2022-11-18 |
Family
ID=81034082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210218342.5A Active CN114333762B (zh) | 2022-03-08 | 2022-03-08 | 基于表现力的语音合成方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114333762B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114822495B (zh) * | 2022-06-29 | 2022-10-14 | 杭州同花顺数据开发有限公司 | 声学模型训练方法、装置及语音合成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470615A (zh) * | 2020-03-13 | 2021-10-01 | 微软技术许可有限责任公司 | 跨讲话者风格转移语音合成 |
US20210335381A1 (en) * | 2019-05-17 | 2021-10-28 | Lg Electronics Inc. | Artificial intelligence apparatus for converting text and speech in consideration of style and method for the same |
US20220020356A1 (en) * | 2020-11-11 | 2022-01-20 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus of synthesizing speech, method and apparatus of training speech synthesis model, electronic device, and storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514888B2 (en) * | 2020-08-13 | 2022-11-29 | Google Llc | Two-level speech prosody transfer |
CN113822017A (zh) * | 2021-06-03 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 基于人工智能的音频生成方法、装置、设备及存储介质 |
-
2022
- 2022-03-08 CN CN202210218342.5A patent/CN114333762B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210335381A1 (en) * | 2019-05-17 | 2021-10-28 | Lg Electronics Inc. | Artificial intelligence apparatus for converting text and speech in consideration of style and method for the same |
CN113470615A (zh) * | 2020-03-13 | 2021-10-01 | 微软技术许可有限责任公司 | 跨讲话者风格转移语音合成 |
US20220020356A1 (en) * | 2020-11-11 | 2022-01-20 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus of synthesizing speech, method and apparatus of training speech synthesis model, electronic device, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN114333762A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782870B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
Alsayadi et al. | Arabic speech recognition using end‐to‐end deep learning | |
CN105654940B (zh) | 一种语音合成方法和装置 | |
WO2022148176A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
Yu et al. | Acoustic modeling based on deep learning for low-resource speech recognition: An overview | |
Zheng et al. | BLSTM-CRF Based End-to-End Prosodic Boundary Prediction with Context Sensitive Embeddings in a Text-to-Speech Front-End. | |
Mamyrbayev et al. | End-to-end speech recognition in agglutinative languages | |
CN112349289A (zh) | 一种语音识别方法、装置、设备以及存储介质 | |
Bluche et al. | Predicting detection filters for small footprint open-vocabulary keyword spotting | |
US20240331686A1 (en) | Relevant context determination | |
Alsayadi et al. | Non-diacritized Arabic speech recognition based on CNN-LSTM and attention-based models | |
Xu et al. | A comprehensive survey of automated audio captioning | |
CN114333762B (zh) | 基于表现力的语音合成方法、系统、电子设备及存储介质 | |
Radha et al. | Speech and speaker recognition using raw waveform modeling for adult and children’s speech: A comprehensive review | |
Barakat et al. | Deep learning-based expressive speech synthesis: a systematic review of approaches, challenges, and resources | |
Biswas et al. | Speech recognition using weighted finite-state transducers | |
Bai et al. | Integrating knowledge into end-to-end speech recognition from external text-only data | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
Lin et al. | Improving pronunciation erroneous tendency detection with multi-model soft targets | |
Qiu et al. | Context-aware neural confidence estimation for rare word speech recognition | |
Bhatia et al. | Speech-to-text conversion using GRU and one hot vector encodings | |
Liang | Multi-language datasets for speech recognition based on the end-to-end framework | |
Zheng et al. | Text-based sentential stress prediction using continuous lexical embedding for Mandarin speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |