CN112951201A - 一种营业厅环境下端到端的情感语音合成方法 - Google Patents

一种营业厅环境下端到端的情感语音合成方法 Download PDF

Info

Publication number
CN112951201A
CN112951201A CN202110174057.3A CN202110174057A CN112951201A CN 112951201 A CN112951201 A CN 112951201A CN 202110174057 A CN202110174057 A CN 202110174057A CN 112951201 A CN112951201 A CN 112951201A
Authority
CN
China
Prior art keywords
emotion
voice
emotional
user
business hall
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110174057.3A
Other languages
English (en)
Inventor
李韫莛
梁东贵
曾宪毅
李紫楠
梁哲辉
陈敏
顾安朋
熊伟
陈光辉
李莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202110174057.3A priority Critical patent/CN112951201A/zh
Publication of CN112951201A publication Critical patent/CN112951201A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种营业厅环境下端到端的情感语音合成方法,涉及多人环境下带有情感的语音合成领域,包括(1)营业厅环境下对用户语音输入进行情感识别,构建应答语音的情感特征向量;(2)构建文本编码器,根据情感特征对应答文本进行编码;(3)构建注意力机制模型,提取数据的上下文特征;(4)构建解码器,根据上下文特征循环预测输出的声谱图;(5)对预测的声谱图进行优化,提高合成语音的质量;(6)对神经网络框架进行训练。本发明能够实现营业厅环境下根据用户的情绪快速而且具有针对性地合成对应情感的语音,实现与用户流利而富有情感的对话,提高用户体验。

Description

一种营业厅环境下端到端的情感语音合成方法
技术领域
本发明涉及语音合成领域,具体是一种在营业厅环境下,根据用户语音和应答文本实现情感语音合成的方法。
背景技术
在营业厅环境下,希望使用智能机器人代替人来完成一些工作。其中与用户进行自然流畅的语音对话是一个重点。传统的语音合成方法合成的语音语调机器感较强,缺少正常对话中所带有的情感,用户体验不佳。同时针对用户当前的情绪,合成带有合适情绪的语音能够更好地回答用户的问题,将内容和情绪结合来进行对话有助于提高信息交流的准确程度。
发明内容
本发明的目的在于解决营业厅环境下机器人与用户对话时合成的语音缺少情感,导致用户体验不佳或理解错误的问题,提出一种针对用户输入语音的情感进行情感语音合成的方法,实现营业厅的机器人根据用户情绪进行高效的情感语音合成,输出带合适情绪的语音进行对话的目的。
本发明的目的通过下述的技术方案实现:
1、一种营业厅环境下端到端的情感语音合成方法,包括以下步骤:
(1)营业厅环境下对预处理后的用户语音输入进行情感识别,构建应答语音的情感特征向量;
(2)构建文本编码器,根据情感特征对应答文本进行编码;
(3)构建注意力机制模型,提取数据的上下文特征;
(4)构建解码器,根据上下文特征循环预测声谱图;
(5)对预测的声谱图进行优化,提高合成语音的质量;
(6)对神经网络框架进行训练。
2、在步骤(1)中,营业厅环境下对预处理后的用户语音输入进行情感识别并构建应答语音的情感特征向量的具体方法为:
对收集的语音进行预处理,通过声纹识别模块去噪后提取用户的语音;通过情感特征提取模块从用户语音中提取情感特征,生成衡量用户情绪的情感特征向量,该情感特征向量处于从多个维度衡量情绪的情感特征空间中,情感特征空间能够描述情绪的强烈程度;通过情绪映射模块将生成的情感特征向量映射为适合应答语音的情感特征向量,实现智能化的情感语音合成。
3、在步骤(2)中,构建文本编码器,根据情感特征对应答文本进行编码的具体方法为:
对于问答系统生成的应答文本,通过词嵌入算法将文本映射为字符序列X=[x1,x2,x3,...,xi];词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个低维度的连续向量空间中,每个单词或词组被映射为实数域上的向量,词嵌入的结果就生成了词向量;通过编码器模块根据应答语音的情感特征向量重编码该字符序列,生成新的字符序列Y=[y1,y2,y3,...,yj],即通过情感特征将其更改为更符合情绪特点但表达意思的不变的文本。
4、在步骤(3)中,构建注意力机制模型,提取数据的上下文特征的具体方法为:
注意力机制能够在当前预测时从大量信息中筛选出少量重要信息并聚焦于这些重要信息上,根据权重分配来衡量信息的重要程度,从而提高解码器预测的效果;对常规语音合成的注意力机制模型进行修改,在混合注意力机制考虑位置、内容的基础上引入计算情感距离的函数;当两个词语所附带的情绪在情感特征空间中距离较近时,其情感距离接近0;当两个词在两个词语所附带的情绪在情感特征空间中距离较远时,其情感距离接近负无穷。
5、在步骤(4)中,构建解码器,根据上下文特征循环预测输出的声谱图的具体方法为:
将编码器生成的隐状态序列或上一轮预测的声谱图与注意力机制模型生成的上下文信息拼接后由解码器循环预测声谱图;在每次迭代中循环预测解码结束的概率,值为[0,1],若概率大于等于设定的阈值,则解码结束;若小于设定的阈值则继续进入下一轮循环进行解码。
6、在步骤(6)中,对神经网络框架进行训练的具体方法为:
使用目标函数进行优化。
Figure BDA0002939948780000021
其中,第一项是真实声谱yreal,i与解码器预测声谱yi之间的误差;第二项是真实声谱与后处理残差网络间的误差;第三项是目标情感特征向量emotiontarget,i与生成的情感特征向量emotioni间的误差;n为样本数,λ为正则化参数,w为神经网络中的参数,p为参数的数量,第四项是神经网络的训练误差。训练的目的是最小化损失函数,达到一定轮次直到收敛可停止训练。
7、进一步地,训练完成后的模型能在一定的时间的合成情感语音,从而实现与用户流利地进行对话;通过阈值的设定来实现语音合成的时间和语音合成的质量之间的取舍;根据用户的情绪动态调节阈值,达到自适应合成情感语音的效果;若用户情绪较急躁则减低阈值,加快语音合成的速度;若用户情绪较平和则增大阈值,增加语音合成的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例提供的一种营业厅环境下端到端的情感语音合成方法的总体流程图。
图2为实施例提供的一种营业厅环境下端到端的情感语音合成方法的注意力机制模型。
具体实施方式
下面结合实施例及附图对本发明作进一步的描述,此处描述的具体实施例仅用于解释本发明,并不局限于此。
实施例
如图1所示,描述的是一种营业厅环境下端到端的情感语音合成方法的主要流程和组成部分,总体的方法包括如下步骤:
(1)营业厅环境下对预处理后的用户语音输入进行情感识别,构建应答语音的情感特征向量。
(2)构建文本编码器,根据情感特征对应答文本进行编码。
(3)构建注意力机制模型,提取数据的上下文特征。
(4)构建解码器,根据上下文特征循环预测声谱图。
(5)对预测的声谱图进行优化,提高合成语音的质量。
(6)对神经网络框架进行训练。
在步骤(1)中,营业厅环境下对预处理后的用户语音输入进行情感识别并构建应答语音的情感特征向量的具体方法为:
对收集的语音进行预处理,通过声纹识别模块去噪后提取用户的语音;
优选地,使用基于X-VECTORS模型的声纹识别算法,从收集的语音中提取处属于用户输入的部分:
audio=X-VECTORS(raw_audio)
其中,audio是提取后得到的用户语音;raw_audio是麦克风收集到的原始语音。
通过神经网络构成的情感特征提取模块从用户语音中提取情感特征,生成衡量用户情绪的情感特征向量,该情感特征向量处于从多个维度衡量情绪的情感特征空间中,情感特征空间能够描述情绪的强烈程度;
input_emotion=Extract(audio)
其中,input_emotion是提取的情感特征向量;Extract的神经网络。
通过情绪映射模块将生成的情感特征向量映射为适合应答语音的情感特征向量,实现智能化的情感语音合成。
output_emotion=M×input_emotion
其中,output_emotion是适合应答语音的情感特征向量;M是训练好映射矩阵,将情感特征向量映射到合适的应答情感特征向量。
在步骤(2)中,构建文本编码器,根据情感特征对应答文本进行编码的具体方法为:
对于问答系统生成的应答文本,通过词嵌入算法将文本映射为字符序列X=[x1,x2,x3,...,xi];词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个低维度的连续向量空间中,每个单词或词组被映射为实数域上的向量,词嵌入的结果就生成了词向量。
优选地,使用word2vec算法进行词嵌入:
X=word2vec(text)
其中,text是问答系统提供的原始文本。
通过编码器模块根据应答语音的情感特征向量重编码该字符序列,生成新的字符序列Y=[y1,y2,y3,...,yj],即通过情感特征将其更改为更符合情绪特点但表达意思的不变的文本。
最后编码器将新生成的字符序列Y=[y1,y2,y3,...,yj]编码成代表隐状态的序列H=[h1,h2,h3,...,hj],hm之于相邻分量hn包含的信息等价于ym之于yn所包含的信息。
在步骤(3)中,构建注意力机制模型,提取数据的上下文特征的具体方法如图2所示:
注意力机制能够在当前预测时从大量信息中筛选出少量重要信息并聚焦于这些重要信息上,根据权重分配来衡量信息的重要程度,从而提高解码器预测的效果;
Figure BDA0002939948780000041
Figure BDA0002939948780000042
fi=F*cαi-1
其中,αi是生成的注意力权重;N是编码器生成的隐状态的个数;eij是得分函数,不同的得分函数决定了不同类型的注意力机制;si是当前解码器隐状态,表示内容特征;hj是当前编码器隐状态,表示输入的序列;Va、W、V、U、Z、F是神经网络中的待训练参数;tanh是神经网络的激活函数;fi,j表示位置特征;β表示情感特征;b是偏置值初始化为0。
对常规语音合成的注意力机制模型进行修改,在混合注意力机制考虑位置、内容的基础上引入计算情感距离的函数;当两个词语所附带的情绪在情感特征空间中距离较近时,其情感距离接近0;当两个词在两个词语所附带的情绪在情感特征空间中距离较远时,其情感距离接近负无穷。
优选地,使用余弦相似度来计算两个情感特征向量的情感距离:
Figure BDA0002939948780000043
其中,两个vector是计算情感距离的情感特征向量。
步骤(4)中,构建解码器,根据上下文特征循环预测输出的声谱图的具体方法为:
将编码器生成的隐状态序列或上一轮预测的声谱图与注意力机制模型生成的上下文信息拼接后由解码器循环预测声谱图;
Figure BDA0002939948780000044
Meli=Decoder(concat(ci,Meli-1))
其中,ci是注意力机制网络生成的上下文向量;concat将多个向量拼接起来;Meli是当前预测的梅尔频谱图。
在每次迭代中循环预测解码结束的概率,值为[0,1],若概率大于等于设定的阈值,则解码结束;若小于设定的阈值则继续进入下一轮循环进行解码。
在步骤(5)中,对声谱图进行优化,提高语音质量。具体地,使用卷积神经网络提高预测得到的声谱图的质量。通过残差块进行计算。
yfianl=y+yr
yr=PostNet(y)=Wpsfps+bps
fps=Fps,i*x
其中,y是原始声谱图;wps是待训练参数;Fps,i是卷积层;x是上一个卷积层的输出或解码器的输出;bps是偏置值。
在步骤(6)中,对神经网络框架进行训练。具体地,使用目标函数进行优化。
Figure BDA0002939948780000051
其中,第一项是真实声谱yreal,i与解码器预测声谱yi之间的误差;第二项是真实声谱与后处理残差网络间的误差;第三项是目标情感特征向量emotiontarget,i与生成的情感特征向量emotioni间的误差;n为样本数,λ为正则化参数,w为神经网络中的参数,p为参数的数量,第四项是神经网络的训练误差。训练的目的是最小化损失函数,达到一定轮次直到收敛可停止训练。
5、进一步地,训练完成后的模型能在一定的时间的合成情感语音,,从而实现与用户流利地进行对话;通过阈值的设定来实现语音合成的时间和语音合成的质量之间的取舍;根据用户的情绪动态调节阈值,达到自适应合成情感语音的效果;若用户情绪较急躁则减低阈值,加快语音合成的速度;若用户情绪较平和则增大阈值,增加语音合成的质量。

Claims (7)

1.一种营业厅环境下端到端的情感语音合成方法,其特征在于包括以下步骤:
(1)营业厅环境下对预处理后的用户语音输入进行情感识别,构建应答语音的情感特征向量;
(2)构建文本编码器,根据情感特征对应答文本进行编码;
(3)构建注意力机制模型,提取数据的上下文特征;
(4)构建解码器,根据上下文特征循环预测声谱图;(5)对预测的声谱图进行优化,提高合成语音的质量;
(6)对神经网络框架进行训练。
2.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法,其特征在于,步骤(1)中,营业厅环境下对预处理后的用户语音输入进行情感识别并构建应答语音的情感特征向量的具体方法为:
对收集的语音进行预处理,通过声纹识别模块去噪后提取用户的语音;从用户语音中提取情感特征,生成衡量用户情绪的情感特征向量,该情感特征向量处于从多个维度衡量情绪的情感特征空间中;将生成的情感特征向量映射为适合应答语音的情感特征向量。
3.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法,其特征在于,步骤(2)中,构建文本编码器,根据情感特征对应答文本进行编码的具体方法为:
对于问答系统生成的应答文本,通过词嵌入算法将文本映射为字符序列,即把文本转换为词向量;根据应答语音的情感特征向量重编码该词向量,生成新的字符序列,即通过情感特征将其更改为更符合情绪特点但表达的意思不变的文本。
4.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法,其特征在于,步骤(3)中,构建注意力机制模型,提取数据的上下文特征的具体方法为:
对常规语音合成的注意力机制模型进行修改,引入计算情感距离的函数;当两个词语所附带的情绪在情感特征空间中距离较近时,其情感距离接近0;当两个词在两个词语所附带的情绪在情感特征空间中距离较远时,其情感距离接近负无穷。
5.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法,其特征在于,步骤(4)中,构建解码器,根据上下文特征循环预测声谱图的具体方法为:
将编码器生成的隐状态序列或上一轮预测的声谱图与注意力机制模型生成的上下文信息拼接后由解码器循环预测声谱图;在每次迭代中循环预测解码结束的概率,值为[0,1],若概率大于等于设定的阈值,则解码结束;若小于设定的阈值则继续进入下一轮循环进行解码。
6.如权利要求1所述的一种电力营业厅环境下端到端的情感语音合成方法,其特征在于,步骤(6)中,对神经网络框架进行训练的具体方法为:
使用目标函数进行优化,
其中,第一项是真实声谱与解码器预测声谱之间的误差;第二项是真实声谱与后处理残差网络间的误差;第三项是目标情感特征向量与生成的情感特征向量间的误差;为样本数,为正则化参数,为神经网络中的参数,为参数的数量,第四项是神经网络的训练误差,训练的目的是最小化损失函数,达到一定轮次直到收敛可停止训练。
7.如权利要求1所述一种营业厅环境下端到端的情感语音合成方法,其特征在于训练完成后的模型能在一定的时间的合成情感语音,从而实现与用户流利地进行对话;能够通过调节判断解码是否结束的阈值来调节情感语音合成的速度;根据用户的情绪动态调节阈值,达到自适应合成情感语音的效果。
CN202110174057.3A 2021-02-07 2021-02-07 一种营业厅环境下端到端的情感语音合成方法 Pending CN112951201A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110174057.3A CN112951201A (zh) 2021-02-07 2021-02-07 一种营业厅环境下端到端的情感语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110174057.3A CN112951201A (zh) 2021-02-07 2021-02-07 一种营业厅环境下端到端的情感语音合成方法

Publications (1)

Publication Number Publication Date
CN112951201A true CN112951201A (zh) 2021-06-11

Family

ID=76244280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110174057.3A Pending CN112951201A (zh) 2021-02-07 2021-02-07 一种营业厅环境下端到端的情感语音合成方法

Country Status (1)

Country Link
CN (1) CN112951201A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688204A (zh) * 2021-08-16 2021-11-23 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688204A (zh) * 2021-08-16 2021-11-23 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
CN113688204B (zh) * 2021-08-16 2023-04-25 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法

Similar Documents

Publication Publication Date Title
Liu et al. Diffsinger: Singing voice synthesis via shallow diffusion mechanism
Cai et al. A novel learnable dictionary encoding layer for end-to-end language identification
CN112037798B (zh) 基于触发式非自回归模型的语音识别方法及系统
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
CN112802448B (zh) 一种新音色生成的语音合成方法和系统
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN111429889A (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN113920977A (zh) 一种语音合成模型、模型的训练方法以及语音合成方法
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
CN113505610B (zh) 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备
CN111862934A (zh) 语音合成模型的改进方法和语音合成方法及装置
CN112634918A (zh) 一种基于声学后验概率的任意说话人语音转换系统及方法
CN112184859A (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN110992943B (zh) 基于词混淆网络的语义理解方法及系统
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
CN117437909B (zh) 基于热词特征向量自注意力机制的语音识别模型构建方法
CN112951201A (zh) 一种营业厅环境下端到端的情感语音合成方法
CN114360485A (zh) 语音处理方法、系统、装置及介质
Zhao et al. Research on voice cloning with a few samples
CN113946670B (zh) 一种面向对话情感识别的对比式上下文理解增强方法
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
CN115169363A (zh) 一种融合知识的增量编码的对话情感识别方法
CN114822509A (zh) 语音识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination