CN112331183B - 基于自回归网络的非平行语料语音转换方法及系统 - Google Patents

基于自回归网络的非平行语料语音转换方法及系统 Download PDF

Info

Publication number
CN112331183B
CN112331183B CN202011161519.XA CN202011161519A CN112331183B CN 112331183 B CN112331183 B CN 112331183B CN 202011161519 A CN202011161519 A CN 202011161519A CN 112331183 B CN112331183 B CN 112331183B
Authority
CN
China
Prior art keywords
module
feature
voice
speech
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011161519.XA
Other languages
English (en)
Other versions
CN112331183A (zh
Inventor
连政
温正棋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Zhiji Technology Co ltd
Original Assignee
Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd filed Critical Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Priority to CN202011161519.XA priority Critical patent/CN112331183B/zh
Publication of CN112331183A publication Critical patent/CN112331183A/zh
Application granted granted Critical
Publication of CN112331183B publication Critical patent/CN112331183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于自回归网络的非平行语料语音转换方法及系统,方法包括:S1,音素后延概率抽取,从输入语音中抽取音素后延概率特征;S2,编码阶段,捕获音素后延概率特征中的上下文信息,从而获取融合上下文信息的文本特征表示;S3,利用自适应注意力机制,对当前时刻的文本特征和上一时刻的声学特征进行融合,获取增广的特征表示;S4,解码阶段,基于增广的特征表示,采用长短时记忆网络预测目标说话人的声学特征;S5,语音生成,基于预测的目标说话人的声学特征,利用声码器合成语音;系统包括:音素后延概率抽取模块、编码模块、语音生成模块,以及一组注意力模块和解码模块。

Description

基于自回归网络的非平行语料语音转换方法及系统
技术领域
本发明涉及语音转换领域,尤其是涉及了一种保持输入语音内容不变但是音色转换成目标说话人音色的方法及系统。
背景技术
语音转换旨在修改原说话人的声音,使得音色接近目标说话人,同时保证转换后语音内容不变。语音转换是人工智能领域一个很重要的研究课题,并具有广泛的应用,例如情感语音转换、歌唱转换、个性化转换等等。
传统语音转换技术通常需要平行语料,即原说话人和目标说话人讲述相同的内容。基于平行语料的语音转换框架,首先采用动态时间规整技术,获取源语音和目标语音声学特征的映射关系。然后采用转换模型,将源语音的声学特征映射到目标语音的声学特征上。最近,研究者提出基于序列到序列模型(seq2seq)的平行语料的语音转换框架,与传统方法相比,这种方法可以达到更好的自然度和说话人相似度。然而,也存在着发音错误和训练不稳定等问题。
当平行语料不可获取时,也有研究者提出基于非平行语料的语音转换框架。变分自编码器已成功应用于非平行语料的语音转换任务,但是变分自编码器转换得到的语音存在“过平滑”的问题。为了解决这个问题,研究者提出基于生成对抗网络的平行语料的语音转换框架,采用判别器减少转换语音和真实语音之间的差异。但是,这种方法较难训练,而且判别器学习到的区分能力可能和人的听感存在差异,从而降低转换语音的音质。最近,基于音素后延概率的非平行语料的语音转换框架得到了广泛应用。该语音转换框架主要包括两部分内容:转换模型和声码器。转换模型将音素后延概率转换为目标说话人的声学特征。声码器使用这些转换后的特征来合成语音波形。但是,在实际测试过程中,我们发现存在波形轨迹不平滑的问题,从而导致一些发音错误的情况。
发明内容
为解决现有技术的不足,实现提高转换语音的音质和说话人相似性的目的,本发明采用如下的技术方案:
基于自回归网络的非平行语料语音转换方法,包括如下步骤:
S1,音素后延概率抽取,利用预先训练好的说话人无关的语音识别模型,从输入语音中抽取音素后延概率特征,作为文本特征表示;
S2,编码阶段,利用卷积神经网络和门控循环单元,捕获音素后延概率特征中的上下文信息,从而获取融合上下文信息的文本特征表示;提升了转换后语音的自然度和说话人相似度;
S3,利用自适应注意力机制,对当前时刻的文本特征和上一时刻的声学特征进行融合,获取增广的特征表示;使得生成波形轨迹更加平滑,同时减少了发音错误的情况;
S4,解码阶段,基于增广的特征表示,采用长短时记忆网络预测目标说话人的声学特征;
S5,语音生成,基于预测的目标说话人的声学特征,利用声码器合成语音。
所述步骤S1,首先基于大规模语料,训练一套说话人无关的语音识别系统,然后将待测语音输入到语音识别系统中,获取音素后延概率,作为其文本特征表示。
所述步骤S2,包括如下步骤:
S21,将从语音中抽取的音素后延概率特征标记为X=[x1,x2,…,xN],其中xi表示语音中第i帧的音素后延概率;
S22,将X输入到多层感知机中进行特征变换:
X1=Dropout(XW1+b1)
X2=Dropout(X1W2+b2)
其中,W1,W2,b1,b2为可训练参数,Dropout(*)可以有效缓解过拟合问题,在一定程度上达到正则化的效果;
S23,将X2输入到多个一维卷积神经网络中,这些卷积神经网络的卷积核大小不同,从而能够提取不同长度的上下文信息,然后将多个卷积神经网络的输出结果堆叠起来,作为融合上下文信息的特征表示,上述操作标记为ConvBank(*),X3=ConvBank(X2);
S24,将X3输入到最大池化网络中,获取压缩后的特征表示,上述操作标记为MaxPooling(*),X4=MaxPooling(X3);
S25,将X4输入到highway模块,控制输出信息,并缓解过拟合问题,公式如下:
H=ReLU(X4WH)
T=sigmoid(X4WT)
C=1-T
X5=H⊙T+X4⊙C
其中WH,WT为可训练参数,ReLU(*)为线性整流函数,sigmoid(*)将特征映射到(0,1),⊙为点乘操作,即矩阵元素按对应位置相乘;
S26,将X5输入到双向门控循环单元网络中,进一步捕获文本中的上下文信息,设X5=[f1,f2,…,fN],其中fj表示第j帧的特征表示:
Figure BDA0002744481160000021
Figure BDA0002744481160000022
其中
Figure BDA0002744481160000023
表示正向门控循环单元的输出,
Figure BDA0002744481160000024
表示反向门控循环单元的输出,每个方向的门控循环单元,将上一时刻的隐层状态特征以及当前时刻的输入特征fj作为输入信息,将正向门控循环单元的输出
Figure BDA0002744481160000031
和反向门控循环单元的输出
Figure BDA0002744481160000032
拼接起来,作为融合上下文信息的特征表示:
Figure BDA0002744481160000033
S27,将编码阶段输出结果标记为R=[r1,r2,…,rN]。
所述步骤S3,包括如下步骤:
S31,设解码阶段预测的声学特征为O=[o1,o2,…,oN],其中oj表示预测的第j帧声学特征;
S32,对于第j帧而言,自适应注意力机制将当前时刻文本特征rj和上一时刻预测的声学特征oj-1进行融合,获取增广的特征表示,公式如下:
fcat=Concat(oj-1Wo,rjWr)
αatt=softmax(tanh(fcatWf)wf)
Figure BDA0002744481160000034
其中Wo,Wr,Wf,wf为可训练参数,Concat(*)为特征拼接操作,fcat表示拼接后的特征参数,tanh(*)表示双曲正切函数,αatt为两部分输入的权重系数,qj为加权融合后第j帧的输出结果;
S33,将注意力机制输出结果标记为Q=[q1,q2,…,qN]。
所述步骤S4,包括如下步骤:
S41,对于第j帧而言,长短时记忆网络的输入包括注意力机制第j帧的输出结果qj以及上一时刻的隐层状态特征
Figure BDA0002744481160000035
公式如下:
Figure BDA0002744481160000036
Figure BDA0002744481160000037
其中LSTM(*)表示长短时记忆网络,Wo,bo为可训练参数;
S42,解码阶段预测的声学特征为O=[o1,o2,…,oN]。
所述步骤S5,基于解码阶段的预测结果O=[o1,o2,…,oN],利用LPCNet声码器合成语音。提升了转换后语音的自然度和说话人相似度。
基于自回归网络的非平行语料语音转换系统,包括音素后延概率抽取模块、编码模块、语音生成模块,以及一组注意力模块和解码模块,编码模块分别与音素后延概率抽取模块和注意力模块连接,解码模块分别与注意力模块和语音生成模块,后一注意力模块和解码模块分别与前一解码模块连接。
所述编码模块,包括自上而下依次连接的多层感知机模块、卷积神经网络模块、最大池化网络模块、highway模块和双向门控循环单元网络模块,多层感知机模块与音素后延概率抽取模块连接,双向门控循环单元网络模块与注意力模块连接。
所述语音生成模块包括LPCNet声码器。
本发明的优势和有益效果在于:
本发明提出了基于自回归网络的非平行语料语音转换框架,该框架基于两部分输入信息来预测下一时刻的声学参数:(1)上一时刻预测的声学特征;(2)当前时刻的音素后延概率。与基于序列到序列模型(seq2seq)的平行语料的语音转换框架相比,本发明删除了基于注意力的时长预测模块,减少了发音错误,并提升了系统的稳定性。与基于音素后延概率的非平行语料语音转换框架相比,本发明将上一时刻预测的声学特征作为下一时刻的输入,使得生成波形轨迹更加平滑,并减少了发音错误的情况。
附图说明
图1是本发明的系统结构图。
图2是本发明中音素后延概率抽取模块的结构示意图。
图3是本发明中编码模块的结构示意图。
图4是本发明中注意力模块的结构示意图。
图5是本发明中解码模块的结构示意图。
图6是本发明中语音生成模块的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
基于自回归网络的非平行语料语音转换方法,通过预先训练好的语音识别模型获取音素后延概率,利用卷积神经网络和门控循环单元建模文本中的上下文信息,利用自适应注意力机制融合当前时刻的文本特征和上一时刻的声学特征,利用长短时记忆网络预测目标说话人的声学特征,以及通过LPCNet声码器合成语音,提升了转换后语音的自然度和说话人相似度。
如图1所示,基于自回归网络的非平行语料语音转换系统,包括:音素后延概率抽取模块,利用预先训练好的说话人无关的语音识别模型,从输入语音中抽取音素后延概率,作为文本特征表示;编码模块,与音素后延概率抽取模块相连,利用卷积神经网络和门控循环单元,捕获音素后延概率特征中的上下文信息,从而获取融合上下文信息的文本特征表示;注意力模块,利用自适应注意力机制,对当前时刻的文本特征和上一时刻的声学特征进行融合,获取增广的特征表示;解码模块,与注意力模块相连,基于注意力模块的输出结果,采用长短时记忆网络预测目标说话人的声学特征;语音生成模块,与解码模块相连,基于解码模块的预测结果,利用LPCNet声码器合成语音。采用转换语音的音质和说话人相似性,判断语音转换系统的性能。
如图2所示,音素后延概率抽取模块,首先基于大规模语料,训练一套说话人无关的语音识别系统,然后将待测语音输入到语音识别系统中,获取音素后延概率,作为其文本特征表示。
如图3所示,编码模块,利用卷积神经网络和门控循环单元,捕获音素后延概率特征中的上下文信息,包括如下步骤:
1、将从语音中抽取的音素后延概率特征标记为X=[x1,x2,…,xN],其中xi表示语音中第i帧的音素后延概率;
2、将X输入到多层感知机模块中进行特征变换:
X1=Dropout(XW1+b1)
X2=Dropout(X1W2+b2)
其中,W1,W2,b1,b2为可训练参数,Dropout(*)可以有效缓解过拟合问题,在一定程度上达到正则化的效果;
3、将X2输入到多个一维卷积神经网络模块中,这些卷积神经网络的卷积核大小不同,从而能够提取不同长度的上下文信息,然后将多个卷积神经网络的输出结果堆叠起来,作为融合上下文信息的特征表示,上述操作标记为ConvBank(*),X3=ConvBank(X2);
4、将X3输入到最大池化网络模块中,获取压缩后的特征表示,上述操作标记为MaxPooling(*),X4=MaxPooling(X3);
5、将X4输入到highway模块,控制输出信息,并缓解过拟合问题,公式如下:
H=ReLU(X4WH)
T=sigmoid(X4WT)
C=1-T
X5=H⊙T+X4⊙C
其中WH,WT为可训练参数,ReLU(*)为线性整流函数,sigmoid(*)将特征映射到(0,1),⊙为点乘操作,即矩阵元素按对应位置相乘;
6、将X5输入到双向门控循环单元网络模块中,进一步捕获文本中的上下文信息,设X5=[f1,f2,…,fN],其中fj表示第j帧的特征表示:
Figure BDA0002744481160000051
Figure BDA0002744481160000052
其中
Figure BDA0002744481160000053
表示正向门控循环单元的输出,
Figure BDA0002744481160000054
表示反向门控循环单元的输出,每个方向的门控循环单元,将上一时刻的隐层状态特征以及当前时刻的输入特征fj作为输入信息,将正向门控循环单元的输出
Figure BDA0002744481160000055
和反向门控循环单元的输出
Figure BDA0002744481160000056
拼接起来,作为融合上下文信息的特征表示:
Figure BDA0002744481160000061
7、将编码模块输出结果标记为R=[r1,r2,…,rN]。
如图4所示,注意力模块,利用自适应注意力机制,对当前时刻文本特征和上一时刻预测的声学特征进行融合,获取增广的特征表示,包括如下步骤:
1、设解码模块预测的声学特征为O=[o1,o2,…,oN],其中oj表示预测的第j帧声学特征;
2、对于第j帧而言,自适应注意力机制将当前时刻文本特征rj和上一时刻预测的声学特征oj-1进行融合,获取增广的特征表示,公式如下:
fcat=Concat(oj-1Wo,rjWr)
αatt=softmax(tanh(fcatWf)wf)
Figure BDA0002744481160000062
其中Wo,Wr,Wf,wf为可训练参数,Concat(*)为特征拼接操作,fcat表示拼接后的特征参数,tanh(*)表示双曲正切函数,αatt为两部分输入的权重系数,qj为加权融合后第j帧的输出结果;
3、将注意力模块输出结果标记为Q=[q1,q2,…,qN]。
如图5所示,解码模块,基于注意力模块的输出结果,采用长短时记忆网络预测目标说话人的声学特征,包括如下步骤:
1、对于第j帧而言,长短时记忆网络的输入包括注意力模块第j帧的输出结果qj以及上一时刻的隐层状态特征
Figure BDA0002744481160000063
公式如下:
Figure BDA0002744481160000064
Figure BDA0002744481160000065
其中LSTM(*)表示长短时记忆网络,Wo,bo为可训练参数;当q1没有上一时刻的隐层状态特征,采用正交初始化;
2、解码模块预测的声学特征为O=[o1,o2,…,oN]。
如图6所示,语音生成模块,基于解码模块的预测结果O=[o1,o2,…,oN],利用LPCNet声码器合成语音。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (9)

1.基于自回归网络的非平行语料语音转换方法,其特征在于包括如下步骤:
S1,音素后验概率抽取,利用预先训练好的说话人无关的语音识别模型,从输入语音中抽取音素后验概率特征,作为文本特征表示;
S2,编码阶段,利用卷积神经网络和门控循环单元,捕获音素后验概率特征中的上下文信息,从而获取融合上下文信息的文本特征表示;
S3,利用自适应注意力机制,对当前时刻的文本特征和上一时刻的声学特征进行融合,获取增广的特征表示;
S4,解码阶段,基于增广的特征表示,采用长短时记忆网络预测目标说话人的声学特征;
S5,语音生成,基于预测的目标说话人的声学特征,利用声码器合成语音。
2.如权利要求1所述的基于自回归网络的非平行语料语音转换方法,其特征在于所述步骤S1,首先基于大规模语料,训练一套说话人无关的语音识别系统,然后将待测语音输入到语音识别系统中,获取音素后验概率,作为其文本特征表示。
3.如权利要求1所述的基于自回归网络的非平行语料语音转换方法,其特征在于所述步骤S2,包括如下步骤:
S21,将从语音中抽取的音素后验概率特征标记为X=[x1,x2,…,xN],其中xi表示语音中第i帧的音素后验概率;
S22,将X输入到多层感知机中进行特征变换:
X1=Dropout(XW1+b1)
X2=Dropout(X1W2+b2)
其中,W1,W2,b1,b2为可训练参数;
S23,将X2输入到多个一维卷积神经网络中,这些卷积神经网络的卷积核大小不同,从而能够提取不同长度的上下文信息,然后将多个卷积神经网络的输出结果堆叠起来,作为融合上下文信息的特征表示,操作标记为ConυBank(*),X3=ConυBank(X2);
S24,将X3输入到最大池化网络中,获取压缩后的特征表示,操作标记为MaxPooling(*),X4=MaxPooling(X3);
S25,将X4输入到highway模块,控制输出信息,并缓解过拟合问题,公式如下:
H=ReLU(X4WH)
T=sigmoid(X4WT)
C=1-T
X5=H⊙T+X4⊙C
其中WH,WT为可训练参数,ReLU(*)为线性整流函数,sigmoid(*)将特征映射到(0,1),⊙为点乘操作,即矩阵元素按对应位置相乘;
S26,将X5输入到双向门控循环单元网络中,进一步捕获文本中的上下文信息,设X5=[f1,f2,…,fN],其中fj表示第j帧的特征表示:
Figure FDA0003464105090000021
Figure FDA0003464105090000022
其中
Figure FDA0003464105090000023
表示正向门控循环单元的输出,
Figure FDA0003464105090000024
表示反向门控循环单元的输出,每个方向的门控循环单元,将上一时刻的隐层状态特征以及当前时刻的输入特征fj作为输入信息,将正向门控循环单元的输出
Figure FDA0003464105090000025
和反向门控循环单元的输出
Figure FDA0003464105090000026
拼接起来,作为融合上下文信息的特征表示:
Figure FDA0003464105090000027
S27,将编码阶段输出结果标记为R=[r1,r2,…,rN]。
4.如权利要求3所述的基于自回归网络的非平行语料语音转换方法,其特征在于所述步骤S3,包括如下步骤:
S31,设解码阶段预测的声学特征为O=[o1,o2,…,oN],其中oj表示预测的第j帧声学特征;
S32,对于第j帧而言,自适应注意力机制将当前时刻文本特征rj和上一时刻预测的声学特征oj-1进行融合,获取增广的特征表示,公式如下:
fcat=Concat(oj-1Wo,rjWr)
αatt=softmax(tanh(fcatWf)wf)
Figure FDA0003464105090000028
其中Wo,Wr,Wf,wf为可训练参数,Concat(*)为特征拼接操作,fcat表示拼接后的特征参数,tanh(*)表示双曲正切函数,αatt为两部分输入的权重系数,qj为加权融合后第j帧的输出结果;
S33,将注意力机制输出结果标记为Q=[q1,q2,…,qN]。
5.如权利要求4所述的基于自回归网络的非平行语料语音转换方法,其特征在于所述步骤S4,包括如下步骤:
S41,对于第j帧而言,长短时记忆网络的输入包括注意力机制第j帧的输出结果qj以及上一时刻的隐层状态特征
Figure FDA0003464105090000029
公式如下:
Figure FDA00034641050900000210
Figure FDA00034641050900000211
其中LSTM(*)表示长短时记忆网络,Wo,bo为可训练参数;
S42,解码阶段预测的声学特征为O=[o1,o2,…,oN]。
6.如权利要求5所述的基于自回归网络的非平行语料语音转换方法,其特征在于所述步骤S5,基于解码阶段的预测结果O=[o1,o2,…,oN],利用LPCNet声码器合成语音。
7.基于自回归网络的非平行语料语音转换系统,其特征在于包括音素后验概率抽取模块、编码模块、语音生成模块,以及一组注意力模块和解码模块,编码模块分别与音素后验概率抽取模块和注意力模块连接,解码模块分别与注意力模块和语音生成模块,后一注意力模块和解码模块分别与前一解码模块连接;
所述音素后验概率抽取模块,利用预先训练好的说话人无关的语音识别模型,从输入语音中抽取音素后验概率特征,作为文本特征表示;
所述编码模块,利用卷积神经网络和门控循环单元,捕获音素后验概率特征中的上下文信息,从而获取融合上下文信息的文本特征表示;
所述注意力模块,利用自适应注意力机制,对当前时刻的文本特征和上一时刻的声学特征进行融合,获取增广的特征表示;
所述解码模块,基于增广的特征表示,采用长短时记忆网络预测目标说话人的声学特征;
所述语音生成模块,基于预测的目标说话人的声学特征,利用声码器合成语音。
8.如权利要求7所述的基于自回归网络的非平行语料语音转换系统,其特征在于所述编码模块,包括自上而下依次连接的多层感知机模块、卷积神经网络模块、最大池化网络模块、highway模块和双向门控循环单元网络模块,多层感知机模块与音素后验概率抽取模块连接,双向门控循环单元网络模块与注意力模块连接。
9.如权利要求7所述的基于自回归网络的非平行语料语音转换系统,其特征在于所述语音生成模块包括LPCNet声码器。
CN202011161519.XA 2020-10-27 2020-10-27 基于自回归网络的非平行语料语音转换方法及系统 Active CN112331183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011161519.XA CN112331183B (zh) 2020-10-27 2020-10-27 基于自回归网络的非平行语料语音转换方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011161519.XA CN112331183B (zh) 2020-10-27 2020-10-27 基于自回归网络的非平行语料语音转换方法及系统

Publications (2)

Publication Number Publication Date
CN112331183A CN112331183A (zh) 2021-02-05
CN112331183B true CN112331183B (zh) 2022-03-18

Family

ID=74310815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011161519.XA Active CN112331183B (zh) 2020-10-27 2020-10-27 基于自回归网络的非平行语料语音转换方法及系统

Country Status (1)

Country Link
CN (1) CN112331183B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687296B (zh) * 2021-03-10 2021-06-29 北京世纪好未来教育科技有限公司 音频不流利的识别方法、装置、设备及可读存储介质
CN113761841B (zh) * 2021-04-19 2023-07-25 腾讯科技(深圳)有限公司 将文本数据转换为声学特征的方法
CN113314101B (zh) * 2021-04-30 2024-05-14 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN113299270B (zh) * 2021-05-20 2024-05-31 平安科技(深圳)有限公司 语音合成系统的生成方法、装置、设备及存储介质
CN113393832B (zh) * 2021-06-03 2023-10-10 清华大学深圳国际研究生院 一种基于全局情感编码的虚拟人动画合成方法及系统
CN113345423B (zh) * 2021-06-24 2024-02-13 中国科学技术大学 语音端点检测方法、装置、电子设备和存储介质
CN113299267B (zh) * 2021-07-26 2021-10-15 北京语言大学 一种基于变分自编码器的语音刺激连续统合成方法及装置
CN113920362A (zh) * 2021-10-01 2022-01-11 上海梦象智能科技有限公司 一种基于注意力的非侵入式负荷分解方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063899B (zh) * 2010-10-27 2012-05-23 南京邮电大学 一种非平行文本条件下的语音转换方法
JP6773634B2 (ja) * 2017-12-15 2020-10-21 日本電信電話株式会社 音声変換装置、音声変換方法及びプログラム
CN111798832B (zh) * 2019-04-03 2024-09-20 北京汇钧科技有限公司 语音合成方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
CN112331183A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112331183B (zh) 基于自回归网络的非平行语料语音转换方法及系统
US11222620B2 (en) Speech recognition using unspoken text and speech synthesis
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN110210499B (zh) 一种图像语义描述的自适应生成系统
CN107545903B (zh) 一种基于深度学习的语音转换方法
Agarwalla et al. Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech
JP3529049B2 (ja) 学習装置及び学習方法並びにロボット装置
CN113822192A (zh) 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN113761841B (zh) 将文本数据转换为声学特征的方法
US11961515B2 (en) Contrastive Siamese network for semi-supervised speech recognition
CN114464182B (zh) 一种音频场景分类辅助的语音识别快速自适应方法
CN113823272A (zh) 语音处理方法、装置、电子设备以及存储介质
CN109671423A (zh) 训练数据有限情形下的非平行文本语音转换方法
CN111009235A (zh) 一种基于cldnn+ctc声学模型的语音识别方法
CN114385802A (zh) 一种融合主题预测和情感推理的共情对话生成方法
CN112597841A (zh) 一种基于门机制多模态融合的情感分析方法
CN115836300A (zh) 用于文本到语音的自训练WaveNet
KR102319753B1 (ko) 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치
Preethi Analyzing lower half facial gestures for lip reading applications: Survey on vision techniques
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN112863485A (zh) 口音语音识别方法、装置、设备及存储介质
CN117150320A (zh) 对话数字人情感风格相似度评价方法及系统
CN111009236A (zh) 一种基于dblstm+ctc声学模型的语音识别方法
WO2023183680A1 (en) Alignment prediction to inject text into automatic speech recognition training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240801

Address after: No. 3485, Room 101, 9th Floor, Building 19, Zone 16, No. 188 South Fourth Ring West Road, Fengtai District, Beijing 100071

Patentee after: Beijing Zhongke Zhiji Technology Co.,Ltd.

Country or region after: China

Address before: Room 1105, 11 / F, building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Patentee before: Zhongke extreme element (Hangzhou) Intelligent Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right