CN112382308A - 基于深度学习与简单声学特征的零次语音转换系统和方法 - Google Patents

基于深度学习与简单声学特征的零次语音转换系统和方法 Download PDF

Info

Publication number
CN112382308A
CN112382308A CN202011204478.8A CN202011204478A CN112382308A CN 112382308 A CN112382308 A CN 112382308A CN 202011204478 A CN202011204478 A CN 202011204478A CN 112382308 A CN112382308 A CN 112382308A
Authority
CN
China
Prior art keywords
speaker
audio
content
acoustic features
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011204478.8A
Other languages
English (en)
Inventor
魏建国
谭智元
路文焕
徐君海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011204478.8A priority Critical patent/CN112382308A/zh
Publication of CN112382308A publication Critical patent/CN112382308A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及机器学习、语音信号处理领域,为解决包含在内容隐表示中的源说话人基频信息与包含在说话人身份隐表示中的目标说话人基频信息之间存在冲突问题,本发明,基于深度学习与简单声学特征的零次语音转换系统和方法,包含以下几个模块:特征提取器:从音频文件中提取所需的声学特征;内容编码器:从声学特征中得到对应语句的内容隐表示;说话人身份编码器:从声学特征中得到对应说话人的隐表示;说话人身份矫正器:调整已有的说话人隐表示,提升其可用性;解码器:从重新组合的内容隐表示和说话人隐表示中发掘信息并重构声学特征;神经声码器即频谱反相器:利用重构后的声学特征重建音频。本发明主要应用于机器学习、语音信号处理场合。

Description

基于深度学习与简单声学特征的零次语音转换系统和方法
技术领域
本发明涉及机器学习、语音信号处理领域,具体是一种使用简单声学特征(梅尔倒谱系数MCEP+基音频率F0)与修正后的说话人隐表示(Speaker Embedding)进行零次语音转换的方法。
背景技术
语音转换的一个典型任务是在不改变句子语言信息的情况下,将源说话人的声音转换为目标说话人的声音。语音转换在许多应用领域显示出了强大的竞争力,如说话人信息隐藏和模仿、无障碍助听器、语音增强和语言学习等等。近年来,语音转换挑战赛(VoiceConversion Challenge)引起了广泛关注,充分展示了语音转换技术的应用潜力。
以往许多经典的研究都使用并行数据来实现一对一或多对一的语音转换,例如高斯混合模型(GMM),使用非负矩阵分解(NMF)的基于范例的语音转换和使用受限玻尔兹曼(Boltzmann)机的语音转换系统。这些使用并行数据的方法在实际应用中很不方便。一方面,并行数据难以获得。另一方面,在训练之前,往往需要手动进行时间对齐,这些因素限制了这些方法的应用范围。为了解决这些问题,不需要并行数据的无监督语音转换成为了更有价值的研究方向。
许多基于非并行数据的方法已经被提出,例如使用生成式对抗网络(GenerativeAdversarial Network)的语音转换系统已经被证明能够在非并行数据下实现多对多的语音转换。其他使用可变自动编码器(VAEs)和语音识别(ASR)的方法在大多数情况下也可以生成高质量的语音。然而以上所有方法只能用于训练数据集中出现过的有限的说话人之间的转换,因此零次语音转换(Zero-Shot Voice Conversion),即集中于训练数据集中看不见的说话人之间的转换,成为一个新的研究方向。
先前的方法通过分离说话人身份和语音内容,实现了零次语音转换。说话人隐表示(Speaker Embedding)被用来表示源说话人和目标说话人的身份。分离后的特征使得模型具有多对多的转换能力,而说话人嵌入使得模型可以泛化为看不见的说话人。使用自编码器(Auto-Encoder)将语音内容从说话人身份信息中分离出来,通过替换说话人嵌入生成语音。它具有类似生成对抗网络(GAN)的分布匹配特性,但训练却容易得多。
发明内容
为克服现有技术的不足,本发明旨在解决包含在内容隐表示中的源说话人基频信息与包含在说话人身份隐表示中的目标说话人基频信息之间存在冲突问题,为此,本发明采取的技术方案是,基于深度学习与简单声学特征的零次语音转换系统,包含以下几个模块:
(1)特征提取器:从音频文件中提取所需的声学特征;
(2)内容编码器:从声学特征中得到对应语句的内容隐表示;
(3)说话人身份编码器:从声学特征中得到对应说话人的隐表示;
(4)说话人身份矫正器:调整已有的说话人隐表示,提升其可用性;
(5)解码器:从重新组合的内容隐表示和说话人隐表示中发掘信息并重构声学特征;
(6)神经声码器即频谱反相器:利用重构后的声学特征重建音频。
基于深度学习与简单声学特征的零次语音转换方法,步骤如下:
(1)数据准备:准备音频数据集并按比例分割为训练集及测试集。
(2)特征提取:从音频中提取梅尔频谱(Mel-Spectrogram)、梅尔倒谱系数(MCEP)以及基频(F0)特征。
(3)模型训练:将提取出的声学特征作为输入,训练各模块。
(4)使用模型进行转换:使用内容编码器提取语句内容,与目标说话人的身份特征隐表示结合后输入给解码器,重构声学特征。
(5)重构音频:使用重构的声学特征,使用神经网络声码器进行音频重构,得到目标音频。
详细步骤如下:
步骤一,数据准备:
本发明采用数据库以及录制的人声音频作为模型训练和测试的数据集;
步骤二,特征提取:
提取梅尔频谱:
1)对音频信号预加重、分帧和加窗;
2)对每帧信号进行短时傅立叶变换(STFT),得到短时幅度谱;
3)短时幅度谱通过梅尔滤波器组得到梅尔频谱;
基频F0的计算:
1)使用不同的截止频率的低通滤波器,如果滤波后的信号只包含基频,那么它就是一个正弦波;
2)计算每一个滤波后的信号中的候选基频以及可信度,由于只包含基频的信号应该是一个正弦波,计算四个跨度的平均值,用倒数来表示候选基频。同时,使用四个跨度的标准差作为衡量基频可信度的指标,标准差越大,说明跨度长短差异较大,那么取此频率作为基频的可信度就较低;
3)选取可信度最高的候选基频作为最终的基频;
频谱包络的提取:
1)对信号添加汉宁窗,然后对加窗之后的信号计算其功率,公式如下所示;
Figure BDA0002756546850000021
2)使用矩形窗函数对功率谱进行平滑化,公式如下所示;
Figure BDA0002756546850000022
3)计算功率谱的倒谱,并做倒谱提升,公式如下所示;
Figure BDA0002756546850000023
Figure BDA0002756546850000031
最终得到的Pl(ω)就是频谱包络特征;
步骤三,模型训练:
在训练过程中,内容编码器和解码器一起训练,而说话人身份矫正器单独进行训练;内容编码器产生内容隐表示,与矫正后的该说话人的隐表示结合后馈入解码器,产生重构的音频特征,训练的目标是使该重构特征与原本的音频特征尽可能相似,这个过程称为自我重构(Self-Reconstruction)训练;
步骤四,使用模型进行转换:
将源音频和目标音频的特征分别输入给内容编码器和说话人身份编码器,得到源音频内容的隐表示以及目标说话人的隐表示,组合后输入给解码器,得到转换后的音频特征;
步骤五,重构音频:
使用神经网络声码器(WaveNet)进行由转换后的特征到音频的重构过程,最终得到转换后的音频。
步骤三,模型训练详细步骤如下。
内容编码器产生内容编码的过程表示为:
Cn=Ec(XnA,SA)
解码器进行自我重构的过程表示为:
Figure BDA0002756546850000032
说话人身份矫正器的工作过程表示为:
S′A=G(SnA)
整体训练目标表示为:
Figure BDA0002756546850000033
此外说话人身份编码器的训练目标是使同一说话人的任意语句都产生尽可能相同的说话人身份隐表示,对于不同的说话人则尽可能产生完全不同的说话人身份隐表示,以此将不同的说话人身份完全区分开。
本发明的特点及有益效果是:
本发明采用由梅尔倒谱系数(MCEP)和基音频率(F0)构成的简单声学特征(SimpleAcoustic Features),得到了更好的基频转换性能。
附图说明:
图1系统整体流程图。
图2系统训练过程框架图。
图3系统转换过程框架图。
图4各模块神经网络结构图。图中:
(a)说话人身份矫正器;
(b)内容编码器;
(c)解码器。
图5自我重构频谱结果图。图中:(a)原始,(b)重构。
图6基频转换性能。图中:
(a)女性到男性,(b)男性到女性。
图7系统转换结果主观评分(MOS)。
具体实施方式
对于零次语音转换系统来说,一个有效的目标说话人隐表示就显得尤为重要。然而,虽然假设同一说话人的不同话语的说话人隐表示是相同的,但实际上受限于说话人编码器的性能,这是不可能做到的。由说话人编码器产生的说话人隐表示可能会导致转换模型误判目标说话人的身份,因为每个说话人只有几段话语是可用的。因此,本发明包含一个新设计的生成器来调整未在训练集中出现过的说话人的身份表示,使其更加有效,提高了生成语音的相似度。
传统的方法使用梅尔频谱作为声学特征时,对基频的转换不够稳定。在合成语音中,特别是在跨性别转换中,经常会出现音调突变。说话人编码器产生的说话人身份隐表示和内容编码器产生的内容隐表示都包含基频信息。因此,包含在内容隐表示中的源说话人基频信息与包含在说话人身份隐表示中的目标说话人基频信息之间存在冲突。为了解决这一问题,本发明采用梅尔倒谱系数MCEP和基音频率F0构成的简单声学特征(SimpleAcoustic Features),得到了更好的基频转换性能。
本发明的发明内容在于此系统首先对零次语音转换系统中必要的说话人隐表示进行了优化和修正,使得语音转换模型在未见过的说话人上的性能和表现得到有效提升。其次,此系统使用简单声学特征替代了梅尔频谱作为整个系统的输入,得到了更好的基频转换性能,避免了转换后的语音中出现音高突变的问题。
此系统包含以下几个模块:
(1)特征提取器:从音频文件中提取所需的声学特征。
(2)内容编码器:从声学特征中得到对应语句的内容隐表示。
(3)说话人身份编码器:从声学特征中得到对应说话人的隐表示。
(4)说话人身份矫正器:调整已有的说话人隐表示,提升其可用性。
(5)解码器:从重新组合的内容隐表示和说话人隐表示中发掘信息并重构声学特征。
(6)神经声码器(频谱反相器):利用重构后的声学特征重建音频。
此系统的实现过程包含以下几个步骤:
(1)数据准备:准备音频数据集并按比例分割为训练集及测试集。
(2)特征提取:从音频中提取梅尔频谱(Mel-Spectrogram)、梅尔倒谱系数(MCEP)以及基频(F0)特征。
(3)模型训练:将提取出的声学特征作为输入,训练各模块。
(4)使用模型进行转换:使用内容编码器提取语句内容,与目标说话人的身份特征隐表示结合后输入给解码器,重构声学特征。
(5)重构音频:使用重构的声学特征,使用神经网络声码器进行音频重构,得到目标音频。
下面结合附图来描述本发明实施的基于深度学习与简单声学特征的零次语音转换系统,主要包含以下步骤:
步骤一,数据准备:
本发明采用VCTK数据库以及重新录制的人声音频作为模型训练和测试的数据集,数据参数:采样率为16kHz,编码为16bit signed-integer。
步骤二,特征提取:
提取梅尔频谱:
1)对音频信号预加重、分帧和加窗。
2)对每帧信号进行短时傅立叶变换,得到短时幅度谱。
3)短时幅度谱通过梅尔滤波器组得到梅尔频谱。
基频(F0)的计算:
1)使用不同的截止频率的低通滤波器,如果滤波后的信号只包含基频,那么它就是一个正弦波。
2)计算每一个滤波后的信号中的候选基频以及可信度,由于只包含基频的信号应该是一个正弦波,计算四个跨度的平均值,用倒数来表示候选基频。同时,使用四个跨度的标准差作为衡量基频可信度的指标,标准差越大,说明跨度长短差异较大,那么取此频率作为基频的可信度就较低。
3)选取可信度最高的候选基频作为最终的基频。
频谱包络的提取:
1)对信号添加汉宁窗,然后对加窗之后的信号计算其功率,公式如下所示;
Figure BDA0002756546850000051
2)使用矩形窗函数对功率谱进行平滑化,公式如下所示;
Figure BDA0002756546850000052
3)计算功率谱的倒谱,并做倒谱提升,公式如下所示;
Figure BDA0002756546850000054
Figure BDA0002756546850000053
Figure BDA0002756546850000061
最终得到的Pl(ω)就是我们所需要的频谱包络特征。
步骤三,模型训练:
主要模型训练的过程如图2所示,在训练过程中,内容编码器和解码器一起训练,而说话人身份矫正器单独进行训练。内容编码器产生内容隐表示,与矫正后的该说话人的隐表示结合后馈入解码器,产生重构的音频特征,训练的目标是使该重构特征与原本的音频特征尽可能相似,这个过程称为自我重构(Self-Reconstruction)训练。主要步骤如下。
内容编码器产生内容编码的过程可以表示为:
Cn=Ec(XnA,SA)
解码器进行自我重构的过程可以表示为:
Figure BDA0002756546850000062
说话人身份矫正器的工作过程表示为:
S′A=G(SnA)
整体训练目标表示为:
Figure BDA0002756546850000063
此外说话人身份编码器的训练目标是使同一说话人的任意语句都产生尽可能相同的说话人身份隐表示,对于不同的说话人则尽可能产生完全不同的说话人身份隐表示,以此将不同的说话人身份完全区分开。
步骤四,使用模型进行转换:
使用训练后的模型进行语音转换的过程如图3所示,将源音频和目标音频的特征分别输入给内容编码器和说话人身份编码器,得到源音频内容的隐表示以及目标说话人的隐表示,组合后输入给解码器,得到转换后的音频特征。
步骤五,重构音频:
使用神经网络声码器(WaveNet)进行由转换后的特征到音频的重构过程,最终得到转换后的音频。
实验的结果采用自我重构的频谱图(如图5所示)、基频的统计数据(如图6所示)以及听众的主观意见得分(MOS)(如图7所示)、进行评估。
自我重构的频谱图中和原始频谱越接近则证明系统的性能越好。基频的统计数据中,转换后的数据和目标说话人原数据越靠近代表结果越好。主观意见得分的标准为1-5分,1代表最差,5代表最好,得分越高表示结果的语音自然度和音色相似度越好。

Claims (4)

1.一种基于深度学习与简单声学特征的零次语音转换系统,其特征是,包含以下几个模块:
(1)特征提取器:从音频文件中提取所需的声学特征;
(2)内容编码器:从声学特征中得到对应语句的内容隐表示;
(3)说话人身份编码器:从声学特征中得到对应说话人的隐表示;
(4)说话人身份矫正器:调整已有的说话人隐表示,提升其可用性;
(5)解码器:从重新组合的内容隐表示和说话人隐表示中发掘信息并重构声学特征;
(6)神经声码器即频谱反相器:利用重构后的声学特征重建音频。
2.一种基于深度学习与简单声学特征的零次语音转换方法,其特征是,步骤如下:
(1)数据准备:准备音频数据集并按比例分割为训练集及测试集。
(2)特征提取:从音频中提取梅尔频谱(Mel-Spectrogram)、梅尔倒谱系数(MCEP)以及基频(F0)特征。
(3)模型训练:将提取出的声学特征作为输入,训练各模块。
(4)使用模型进行转换:使用内容编码器提取语句内容,与目标说话人的身份特征隐表示结合后输入给解码器,重构声学特征。
(5)重构音频:使用重构的声学特征,使用神经网络声码器进行音频重构,得到目标音频。
3.如权利要求2所述的基于深度学习与简单声学特征的零次语音转换方法,其特征是,详细步骤如下:
步骤一,数据准备:本发明采用数据库以及录制的人声音频作为模型训练和测试的数据集;
步骤二,特征提取:
提取梅尔频谱:
1)对音频信号预加重、分帧和加窗;
2)对每帧信号进行短时傅立叶变换(STFT),得到短时幅度谱;
3)短时幅度谱通过梅尔滤波器组得到梅尔频谱;
基频F0的计算:
1)使用不同的截止频率的低通滤波器,如果滤波后的信号只包含基频,那么它就是一个正弦波;
2)计算每一个滤波后的信号中的候选基频以及可信度,由于只包含基频的信号应该是一个正弦波,计算四个跨度的平均值,用倒数来表示候选基频。同时,使用四个跨度的标准差作为衡量基频可信度的指标,标准差越大,说明跨度长短差异较大,那么取此频率作为基频的可信度就较低;
3)选取可信度最高的候选基频作为最终的基频;
频谱包络的提取:
1)对信号添加汉宁窗,然后对加窗之后的信号计算其功率,公式如下所示;
Figure FDA0002756546840000021
2)使用矩形窗函数对功率谱进行平滑化,公式如下所示;
Figure FDA0002756546840000022
3)计算功率谱的倒谱,并做倒谱提升,公式如下所示;
Figure FDA0002756546840000023
Figure FDA0002756546840000024
Figure FDA0002756546840000025
Figure FDA0002756546840000026
最终得到的Pl(ω)就是频谱包络特征;
步骤三,模型训练:
在训练过程中,内容编码器和解码器一起训练,而说话人身份矫正器单独进行训练;内容编码器产生内容隐表示,与矫正后的该说话人的隐表示结合后馈入解码器,产生重构的音频特征,训练的目标是使该重构特征与原本的音频特征尽可能相似,这个过程称为自我重构(Self-Reconstruction)训练;
步骤四,使用模型进行转换:
将源音频和目标音频的特征分别输入给内容编码器和说话人身份编码器,得到源音频内容的隐表示以及目标说话人的隐表示,组合后输入给解码器,得到转换后的音频特征;
步骤五,重构音频:
使用神经网络声码器(WaveNet)进行由转换后的特征到音频的重构过程,最终得到转换后的音频。
4.如权利要求2所述的基于深度学习与简单声学特征的零次语音转换方法,其特征是,步骤三,模型训练详细步骤如下:
内容编码器产生内容编码的过程表示为:
Cn=Ec(XnA,SA)
解码器进行自我重构的过程表示为:
Figure FDA0002756546840000027
说话人身份矫正器的工作过程表示为:
S′A=G(SnA)
整体训练目标表示为:
Figure FDA0002756546840000028
Figure FDA0002756546840000029
Figure FDA00027565468400000210
L=Lrecon+λLcontent+μLadjust
此外说话人身份编码器的训练目标是使同一说话人的任意语句都产生尽可能相同的说话人身份隐表示,对于不同的说话人则尽可能产生完全不同的说话人身份隐表示,以此将不同的说话人身份完全区分开。
CN202011204478.8A 2020-11-02 2020-11-02 基于深度学习与简单声学特征的零次语音转换系统和方法 Pending CN112382308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011204478.8A CN112382308A (zh) 2020-11-02 2020-11-02 基于深度学习与简单声学特征的零次语音转换系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011204478.8A CN112382308A (zh) 2020-11-02 2020-11-02 基于深度学习与简单声学特征的零次语音转换系统和方法

Publications (1)

Publication Number Publication Date
CN112382308A true CN112382308A (zh) 2021-02-19

Family

ID=74577156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011204478.8A Pending CN112382308A (zh) 2020-11-02 2020-11-02 基于深度学习与简单声学特征的零次语音转换系统和方法

Country Status (1)

Country Link
CN (1) CN112382308A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767958A (zh) * 2021-02-26 2021-05-07 华南理工大学 一种基于零次学习的跨语种音色转换系统及方法
CN113689868A (zh) * 2021-08-18 2021-11-23 北京百度网讯科技有限公司 一种语音转换模型的训练方法、装置、电子设备及介质
CN114155883A (zh) * 2022-02-07 2022-03-08 北京清微智能信息技术有限公司 基于进阶式的语音深度神经网络训练读方法、装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
US20190341058A1 (en) * 2018-05-06 2019-11-07 Microsoft Technology Licensing, Llc Joint neural network for speaker recognition
US20190341054A1 (en) * 2018-05-07 2019-11-07 Microsoft Technology Licensing, Llc Multi-modal speech localization
CN111179905A (zh) * 2020-01-10 2020-05-19 北京中科深智科技有限公司 一种快速配音生成方法及装置
CN111223474A (zh) * 2020-01-15 2020-06-02 武汉水象电子科技有限公司 一种基于多神经网络的语音克隆方法和系统
CN111247584A (zh) * 2019-12-24 2020-06-05 深圳市优必选科技股份有限公司 语音转换方法、系统、装置及存储介质
CN111429894A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于SE-ResNet STARGAN的多对多说话人转换方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
US20190341058A1 (en) * 2018-05-06 2019-11-07 Microsoft Technology Licensing, Llc Joint neural network for speaker recognition
US20190341054A1 (en) * 2018-05-07 2019-11-07 Microsoft Technology Licensing, Llc Multi-modal speech localization
CN111247584A (zh) * 2019-12-24 2020-06-05 深圳市优必选科技股份有限公司 语音转换方法、系统、装置及存储介质
CN111179905A (zh) * 2020-01-10 2020-05-19 北京中科深智科技有限公司 一种快速配音生成方法及装置
CN111223474A (zh) * 2020-01-15 2020-06-02 武汉水象电子科技有限公司 一种基于多神经网络的语音克隆方法和系统
CN111429894A (zh) * 2020-03-12 2020-07-17 南京邮电大学 基于SE-ResNet STARGAN的多对多说话人转换方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAIZHI QIAN ET AL.: "《F0-Consistent Many-To-Many Non-Parallel Voice Conversion Via Conditional Autoencoder》", 《ICASSP 2020 - 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
鲍薇等: "声音伪造与防伪检测技术研究", 《信息技术与标准化》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767958A (zh) * 2021-02-26 2021-05-07 华南理工大学 一种基于零次学习的跨语种音色转换系统及方法
CN112767958B (zh) * 2021-02-26 2023-12-26 华南理工大学 一种基于零次学习的跨语种音色转换系统及方法
CN113689868A (zh) * 2021-08-18 2021-11-23 北京百度网讯科技有限公司 一种语音转换模型的训练方法、装置、电子设备及介质
CN114155883A (zh) * 2022-02-07 2022-03-08 北京清微智能信息技术有限公司 基于进阶式的语音深度神经网络训练读方法、装置

Similar Documents

Publication Publication Date Title
Kleijn et al. Generative speech coding with predictive variance regularization
CN112382308A (zh) 基于深度学习与简单声学特征的零次语音转换系统和方法
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN111862934B (zh) 语音合成模型的改进方法和语音合成方法及装置
CN111128211B (zh) 一种语音分离方法及装置
CN109616131B (zh) 一种数字实时语音变音方法
CN106448673B (zh) 一种汉语电子喉语音转换方法
CN110648684A (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN115294970B (zh) 针对病理嗓音的语音转换方法、装置和存储介质
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
CN113436606A (zh) 一种原声语音翻译方法
CN110265039B (zh) 一种基于字典学习和低秩矩阵分解的说话人识别方法
He et al. An improved StarGAN for emotional voice conversion: Enhancing voice quality and data augmentation
CN105845126A (zh) 一种英语有声影像资料自动加注英语字幕的方法
CN114283822A (zh) 一种基于伽马通频率倒谱系数的多对一语音转换方法
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Deiv et al. Automatic gender identification for hindi speech recognition
CN116665705A (zh) 基于跨语言特征解耦器的柬埔寨语说话人音色迁移方法
Deng et al. One-shot voice conversion algorithm based on representations separation
CN114550701A (zh) 一种基于深度神经网络的汉语电子喉语音转换装置及方法
Gonzales et al. Voice conversion of philippine spoken languages using deep neural networks
Xie et al. End-to-End Voice Conversion with Information Perturbation
Xie et al. Pitch transformation in neural network based voice conversion
Wang et al. Speech enhancement based on noise classification and deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210219

RJ01 Rejection of invention patent application after publication