CN112951201A - 一种营业厅环境下端到端的情感语音合成方法 - Google Patents
一种营业厅环境下端到端的情感语音合成方法 Download PDFInfo
- Publication number
- CN112951201A CN112951201A CN202110174057.3A CN202110174057A CN112951201A CN 112951201 A CN112951201 A CN 112951201A CN 202110174057 A CN202110174057 A CN 202110174057A CN 112951201 A CN112951201 A CN 112951201A
- Authority
- CN
- China
- Prior art keywords
- emotion
- voice
- emotional
- user
- business hall
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 81
- 238000001308 synthesis method Methods 0.000 title claims abstract description 9
- 230000002996 emotional effect Effects 0.000 claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 48
- 230000004044 response Effects 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 18
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000008909 emotion recognition Effects 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 25
- 238000001228 spectrum Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种营业厅环境下端到端的情感语音合成方法,涉及多人环境下带有情感的语音合成领域,包括(1)营业厅环境下对用户语音输入进行情感识别,构建应答语音的情感特征向量;(2)构建文本编码器,根据情感特征对应答文本进行编码;(3)构建注意力机制模型,提取数据的上下文特征;(4)构建解码器,根据上下文特征循环预测输出的声谱图;(5)对预测的声谱图进行优化,提高合成语音的质量;(6)对神经网络框架进行训练。本发明能够实现营业厅环境下根据用户的情绪快速而且具有针对性地合成对应情感的语音,实现与用户流利而富有情感的对话,提高用户体验。
Description
技术领域
本发明涉及语音合成领域,具体是一种在营业厅环境下,根据用户语音和应答文本实现情感语音合成的方法。
背景技术
在营业厅环境下,希望使用智能机器人代替人来完成一些工作。其中与用户进行自然流畅的语音对话是一个重点。传统的语音合成方法合成的语音语调机器感较强,缺少正常对话中所带有的情感,用户体验不佳。同时针对用户当前的情绪,合成带有合适情绪的语音能够更好地回答用户的问题,将内容和情绪结合来进行对话有助于提高信息交流的准确程度。
发明内容
本发明的目的在于解决营业厅环境下机器人与用户对话时合成的语音缺少情感,导致用户体验不佳或理解错误的问题,提出一种针对用户输入语音的情感进行情感语音合成的方法,实现营业厅的机器人根据用户情绪进行高效的情感语音合成,输出带合适情绪的语音进行对话的目的。
本发明的目的通过下述的技术方案实现:
1、一种营业厅环境下端到端的情感语音合成方法,包括以下步骤:
(1)营业厅环境下对预处理后的用户语音输入进行情感识别,构建应答语音的情感特征向量;
(2)构建文本编码器,根据情感特征对应答文本进行编码;
(3)构建注意力机制模型,提取数据的上下文特征;
(4)构建解码器,根据上下文特征循环预测声谱图;
(5)对预测的声谱图进行优化,提高合成语音的质量;
(6)对神经网络框架进行训练。
2、在步骤(1)中,营业厅环境下对预处理后的用户语音输入进行情感识别并构建应答语音的情感特征向量的具体方法为:
对收集的语音进行预处理,通过声纹识别模块去噪后提取用户的语音;通过情感特征提取模块从用户语音中提取情感特征,生成衡量用户情绪的情感特征向量,该情感特征向量处于从多个维度衡量情绪的情感特征空间中,情感特征空间能够描述情绪的强烈程度;通过情绪映射模块将生成的情感特征向量映射为适合应答语音的情感特征向量,实现智能化的情感语音合成。
3、在步骤(2)中,构建文本编码器,根据情感特征对应答文本进行编码的具体方法为:
对于问答系统生成的应答文本,通过词嵌入算法将文本映射为字符序列X=[x1,x2,x3,...,xi];词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个低维度的连续向量空间中,每个单词或词组被映射为实数域上的向量,词嵌入的结果就生成了词向量;通过编码器模块根据应答语音的情感特征向量重编码该字符序列,生成新的字符序列Y=[y1,y2,y3,...,yj],即通过情感特征将其更改为更符合情绪特点但表达意思的不变的文本。
4、在步骤(3)中,构建注意力机制模型,提取数据的上下文特征的具体方法为:
注意力机制能够在当前预测时从大量信息中筛选出少量重要信息并聚焦于这些重要信息上,根据权重分配来衡量信息的重要程度,从而提高解码器预测的效果;对常规语音合成的注意力机制模型进行修改,在混合注意力机制考虑位置、内容的基础上引入计算情感距离的函数;当两个词语所附带的情绪在情感特征空间中距离较近时,其情感距离接近0;当两个词在两个词语所附带的情绪在情感特征空间中距离较远时,其情感距离接近负无穷。
5、在步骤(4)中,构建解码器,根据上下文特征循环预测输出的声谱图的具体方法为:
将编码器生成的隐状态序列或上一轮预测的声谱图与注意力机制模型生成的上下文信息拼接后由解码器循环预测声谱图;在每次迭代中循环预测解码结束的概率,值为[0,1],若概率大于等于设定的阈值,则解码结束;若小于设定的阈值则继续进入下一轮循环进行解码。
6、在步骤(6)中,对神经网络框架进行训练的具体方法为:
使用目标函数进行优化。
其中,第一项是真实声谱yreal,i与解码器预测声谱yi之间的误差;第二项是真实声谱与后处理残差网络间的误差;第三项是目标情感特征向量emotiontarget,i与生成的情感特征向量emotioni间的误差;n为样本数,λ为正则化参数,w为神经网络中的参数,p为参数的数量,第四项是神经网络的训练误差。训练的目的是最小化损失函数,达到一定轮次直到收敛可停止训练。
7、进一步地,训练完成后的模型能在一定的时间的合成情感语音,从而实现与用户流利地进行对话;通过阈值的设定来实现语音合成的时间和语音合成的质量之间的取舍;根据用户的情绪动态调节阈值,达到自适应合成情感语音的效果;若用户情绪较急躁则减低阈值,加快语音合成的速度;若用户情绪较平和则增大阈值,增加语音合成的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例提供的一种营业厅环境下端到端的情感语音合成方法的总体流程图。
图2为实施例提供的一种营业厅环境下端到端的情感语音合成方法的注意力机制模型。
具体实施方式
下面结合实施例及附图对本发明作进一步的描述,此处描述的具体实施例仅用于解释本发明,并不局限于此。
实施例
如图1所示,描述的是一种营业厅环境下端到端的情感语音合成方法的主要流程和组成部分,总体的方法包括如下步骤:
(1)营业厅环境下对预处理后的用户语音输入进行情感识别,构建应答语音的情感特征向量。
(2)构建文本编码器,根据情感特征对应答文本进行编码。
(3)构建注意力机制模型,提取数据的上下文特征。
(4)构建解码器,根据上下文特征循环预测声谱图。
(5)对预测的声谱图进行优化,提高合成语音的质量。
(6)对神经网络框架进行训练。
在步骤(1)中,营业厅环境下对预处理后的用户语音输入进行情感识别并构建应答语音的情感特征向量的具体方法为:
对收集的语音进行预处理,通过声纹识别模块去噪后提取用户的语音;
优选地,使用基于X-VECTORS模型的声纹识别算法,从收集的语音中提取处属于用户输入的部分:
audio=X-VECTORS(raw_audio)
其中,audio是提取后得到的用户语音;raw_audio是麦克风收集到的原始语音。
通过神经网络构成的情感特征提取模块从用户语音中提取情感特征,生成衡量用户情绪的情感特征向量,该情感特征向量处于从多个维度衡量情绪的情感特征空间中,情感特征空间能够描述情绪的强烈程度;
input_emotion=Extract(audio)
其中,input_emotion是提取的情感特征向量;Extract的神经网络。
通过情绪映射模块将生成的情感特征向量映射为适合应答语音的情感特征向量,实现智能化的情感语音合成。
output_emotion=M×input_emotion
其中,output_emotion是适合应答语音的情感特征向量;M是训练好映射矩阵,将情感特征向量映射到合适的应答情感特征向量。
在步骤(2)中,构建文本编码器,根据情感特征对应答文本进行编码的具体方法为:
对于问答系统生成的应答文本,通过词嵌入算法将文本映射为字符序列X=[x1,x2,x3,...,xi];词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个低维度的连续向量空间中,每个单词或词组被映射为实数域上的向量,词嵌入的结果就生成了词向量。
优选地,使用word2vec算法进行词嵌入:
X=word2vec(text)
其中,text是问答系统提供的原始文本。
通过编码器模块根据应答语音的情感特征向量重编码该字符序列,生成新的字符序列Y=[y1,y2,y3,...,yj],即通过情感特征将其更改为更符合情绪特点但表达意思的不变的文本。
最后编码器将新生成的字符序列Y=[y1,y2,y3,...,yj]编码成代表隐状态的序列H=[h1,h2,h3,...,hj],hm之于相邻分量hn包含的信息等价于ym之于yn所包含的信息。
在步骤(3)中,构建注意力机制模型,提取数据的上下文特征的具体方法如图2所示:
注意力机制能够在当前预测时从大量信息中筛选出少量重要信息并聚焦于这些重要信息上,根据权重分配来衡量信息的重要程度,从而提高解码器预测的效果;
fi=F*cαi-1
其中,αi是生成的注意力权重;N是编码器生成的隐状态的个数;eij是得分函数,不同的得分函数决定了不同类型的注意力机制;si是当前解码器隐状态,表示内容特征;hj是当前编码器隐状态,表示输入的序列;Va、W、V、U、Z、F是神经网络中的待训练参数;tanh是神经网络的激活函数;fi,j表示位置特征;β表示情感特征;b是偏置值初始化为0。
对常规语音合成的注意力机制模型进行修改,在混合注意力机制考虑位置、内容的基础上引入计算情感距离的函数;当两个词语所附带的情绪在情感特征空间中距离较近时,其情感距离接近0;当两个词在两个词语所附带的情绪在情感特征空间中距离较远时,其情感距离接近负无穷。
优选地,使用余弦相似度来计算两个情感特征向量的情感距离:
其中,两个vector是计算情感距离的情感特征向量。
步骤(4)中,构建解码器,根据上下文特征循环预测输出的声谱图的具体方法为:
将编码器生成的隐状态序列或上一轮预测的声谱图与注意力机制模型生成的上下文信息拼接后由解码器循环预测声谱图;
Meli=Decoder(concat(ci,Meli-1))
其中,ci是注意力机制网络生成的上下文向量;concat将多个向量拼接起来;Meli是当前预测的梅尔频谱图。
在每次迭代中循环预测解码结束的概率,值为[0,1],若概率大于等于设定的阈值,则解码结束;若小于设定的阈值则继续进入下一轮循环进行解码。
在步骤(5)中,对声谱图进行优化,提高语音质量。具体地,使用卷积神经网络提高预测得到的声谱图的质量。通过残差块进行计算。
yfianl=y+yr
yr=PostNet(y)=Wpsfps+bps
fps=Fps,i*x
其中,y是原始声谱图;wps是待训练参数;Fps,i是卷积层;x是上一个卷积层的输出或解码器的输出;bps是偏置值。
在步骤(6)中,对神经网络框架进行训练。具体地,使用目标函数进行优化。
其中,第一项是真实声谱yreal,i与解码器预测声谱yi之间的误差;第二项是真实声谱与后处理残差网络间的误差;第三项是目标情感特征向量emotiontarget,i与生成的情感特征向量emotioni间的误差;n为样本数,λ为正则化参数,w为神经网络中的参数,p为参数的数量,第四项是神经网络的训练误差。训练的目的是最小化损失函数,达到一定轮次直到收敛可停止训练。
5、进一步地,训练完成后的模型能在一定的时间的合成情感语音,,从而实现与用户流利地进行对话;通过阈值的设定来实现语音合成的时间和语音合成的质量之间的取舍;根据用户的情绪动态调节阈值,达到自适应合成情感语音的效果;若用户情绪较急躁则减低阈值,加快语音合成的速度;若用户情绪较平和则增大阈值,增加语音合成的质量。
Claims (7)
1.一种营业厅环境下端到端的情感语音合成方法,其特征在于包括以下步骤:
(1)营业厅环境下对预处理后的用户语音输入进行情感识别,构建应答语音的情感特征向量;
(2)构建文本编码器,根据情感特征对应答文本进行编码;
(3)构建注意力机制模型,提取数据的上下文特征;
(4)构建解码器,根据上下文特征循环预测声谱图;(5)对预测的声谱图进行优化,提高合成语音的质量;
(6)对神经网络框架进行训练。
2.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法,其特征在于,步骤(1)中,营业厅环境下对预处理后的用户语音输入进行情感识别并构建应答语音的情感特征向量的具体方法为:
对收集的语音进行预处理,通过声纹识别模块去噪后提取用户的语音;从用户语音中提取情感特征,生成衡量用户情绪的情感特征向量,该情感特征向量处于从多个维度衡量情绪的情感特征空间中;将生成的情感特征向量映射为适合应答语音的情感特征向量。
3.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法,其特征在于,步骤(2)中,构建文本编码器,根据情感特征对应答文本进行编码的具体方法为:
对于问答系统生成的应答文本,通过词嵌入算法将文本映射为字符序列,即把文本转换为词向量;根据应答语音的情感特征向量重编码该词向量,生成新的字符序列,即通过情感特征将其更改为更符合情绪特点但表达的意思不变的文本。
4.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法,其特征在于,步骤(3)中,构建注意力机制模型,提取数据的上下文特征的具体方法为:
对常规语音合成的注意力机制模型进行修改,引入计算情感距离的函数;当两个词语所附带的情绪在情感特征空间中距离较近时,其情感距离接近0;当两个词在两个词语所附带的情绪在情感特征空间中距离较远时,其情感距离接近负无穷。
5.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法,其特征在于,步骤(4)中,构建解码器,根据上下文特征循环预测声谱图的具体方法为:
将编码器生成的隐状态序列或上一轮预测的声谱图与注意力机制模型生成的上下文信息拼接后由解码器循环预测声谱图;在每次迭代中循环预测解码结束的概率,值为[0,1],若概率大于等于设定的阈值,则解码结束;若小于设定的阈值则继续进入下一轮循环进行解码。
6.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法,其特征在于,步骤(6)中,对神经网络框架进行训练的具体方法为:
使用目标函数进行优化,
其中,第一项是真实声谱与解码器预测声谱之间的误差;第二项是真实声谱与后处理残差网络间的误差;第三项是目标情感特征向量与生成的情感特征向量间的误差;为样本数,为正则化参数,为神经网络中的参数,为参数的数量,第四项是神经网络的训练误差,训练的目的是最小化损失函数,达到一定轮次直到收敛可停止训练。
7.如权利要求1所述一种营业厅环境下端到端的情感语音合成方法,其特征在于训练完成后的模型能在一定的时间的合成情感语音,从而实现与用户流利地进行对话;能够通过调节判断解码是否结束的阈值来调节情感语音合成的速度;根据用户的情绪动态调节阈值,达到自适应合成情感语音的效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110174057.3A CN112951201A (zh) | 2021-02-07 | 2021-02-07 | 一种营业厅环境下端到端的情感语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110174057.3A CN112951201A (zh) | 2021-02-07 | 2021-02-07 | 一种营业厅环境下端到端的情感语音合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112951201A true CN112951201A (zh) | 2021-06-11 |
Family
ID=76244280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110174057.3A Pending CN112951201A (zh) | 2021-02-07 | 2021-02-07 | 一种营业厅环境下端到端的情感语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112951201A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688204A (zh) * | 2021-08-16 | 2021-11-23 | 南京信息工程大学 | 一种利用相似场景及混合注意力的多人会话情感预测方法 |
-
2021
- 2021-02-07 CN CN202110174057.3A patent/CN112951201A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688204A (zh) * | 2021-08-16 | 2021-11-23 | 南京信息工程大学 | 一种利用相似场景及混合注意力的多人会话情感预测方法 |
CN113688204B (zh) * | 2021-08-16 | 2023-04-25 | 南京信息工程大学 | 一种利用相似场景及混合注意力的多人会话情感预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Diffsinger: Singing voice synthesis via shallow diffusion mechanism | |
Cai et al. | A novel learnable dictionary encoding layer for end-to-end language identification | |
CN112037798B (zh) | 基于触发式非自回归模型的语音识别方法及系统 | |
CN111739508B (zh) | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 | |
CN112802448B (zh) | 一种新音色生成的语音合成方法和系统 | |
CN112184858B (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN111429889A (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN113920977A (zh) | 一种语音合成模型、模型的训练方法以及语音合成方法 | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN113505610B (zh) | 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备 | |
CN111862934A (zh) | 语音合成模型的改进方法和语音合成方法及装置 | |
CN112634918A (zh) | 一种基于声学后验概率的任意说话人语音转换系统及方法 | |
CN112184859A (zh) | 端到端的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN110992943B (zh) | 基于词混淆网络的语义理解方法及系统 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 | |
CN117437909B (zh) | 基于热词特征向量自注意力机制的语音识别模型构建方法 | |
CN112951201A (zh) | 一种营业厅环境下端到端的情感语音合成方法 | |
CN114360485A (zh) | 语音处理方法、系统、装置及介质 | |
Zhao et al. | Research on voice cloning with a few samples | |
CN113946670B (zh) | 一种面向对话情感识别的对比式上下文理解增强方法 | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
CN115169363A (zh) | 一种融合知识的增量编码的对话情感识别方法 | |
CN114822509A (zh) | 语音识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |