CN111247585A - 语音转换方法、装置、设备及存储介质 - Google Patents

语音转换方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111247585A
CN111247585A CN201980003287.4A CN201980003287A CN111247585A CN 111247585 A CN111247585 A CN 111247585A CN 201980003287 A CN201980003287 A CN 201980003287A CN 111247585 A CN111247585 A CN 111247585A
Authority
CN
China
Prior art keywords
frequency spectrum
speaker
audio data
training
conversion model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980003287.4A
Other languages
English (en)
Other versions
CN111247585B (zh
Inventor
赵之源
黄东延
熊友军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubtech Robotics Corp
Original Assignee
Ubtech Robotics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubtech Robotics Corp filed Critical Ubtech Robotics Corp
Publication of CN111247585A publication Critical patent/CN111247585A/zh
Application granted granted Critical
Publication of CN111247585B publication Critical patent/CN111247585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开一种语音转换方法,该方法包括:获取源音频数据;接收选择的目标说话人编号和源音频数据对应的说话人编号;对源音频数据进行预处理,得到与源音频数据对应的频谱;将目标说话人编号、源音频数据对应的说话人编号和源音频数据对应的频谱作为语音转换模型的输入,获取语音转换模型输出的目标说话人的频谱;通过声码器将目标说话人的频谱转换为目标说话人的语音。对目标说话人进行编号,在实际转换过程中,通过编号来控制需要转换的目标说话人的频谱,实现了多说话人对多说话人语音转换的目的,提高了适用性。此外,本申请还公开一种语音转换装置、设备及存储介质。

Description

语音转换方法、装置、设备及存储介质
技术领域
本申请涉及信号处理领域,尤其涉及一种语音转换方法、装置、设备及储存介质。
背景技术
随着技术的发展,语音转换技术愈发成熟,通过语音转换模型可以实现音色转换的功能,具有广阔的应用场景。
技术问题
但现有的语音转换模型只支持单一说话人的转换。
技术解决方案
基于此,有必要针对上述问题,提供一种语音转换方法、装置、设备及存储介质。
第一方面,本申请实施例提供一种语音转换方法,该方法包括:
获取源音频数据;
接收选择的目标说话人编号和源音频数据对应的说话人编号;
对源音频数据进行预处理,得到与源音频数据对应的频谱;
将目标说话人编号、源音频数据对应的说话人编号和源音频数据对应的频谱作为语音转换模型的输入,获取语音转换模型输出的目标说话人的频谱;
通过声码器将目标说话人的频谱转换为目标说话人的语音。
在一个实施例中,语音转换模型包括:
仿射矩阵、编码器和解码器,仿射矩阵用于将输入的目标说话人编号和源音频数据对应的说话人编号编码为说话人向量,编码器用于根据说话人向量和源音频数据对应的频谱得到特征向量,解码器用于根据特征向量和说话人向量得到目标说话人的频谱。
在一个实施例中,语音转换模型的训练步骤如下:
获取训练样本集,训练样本集中包括多个训练样本,每个训练样本包括:训练目标说话人编号、训练音频数据对应的说话人编号、训练音频数据对应的频谱和训练目标说话人的频谱;
将训练说话人编号、训练音频数据对应的说话人编号和训练音频数据对应的频谱作为语音转换模型的输入,将训练目标说话人的频谱作为期望的输出;
根据语音转换模型的实际输出和期望输出的比对结果更新语音转换模型的权重参数,得到训练好的语音转换模型。
在一个实施例中,根据语音转换模型的实际输出和期望输出的比对结果更新语音转换模型的权重参数,得到训练好的语音转换模型,包括:
根据语音转换模型的实际输出和期望输出的比对差值计算得到损失值;
当损失值没有达到预设的收敛条件时,根据损失值更新语音转换模型的权重参数;
获取下一个训练样本,重新进入将训练说话人编号、训练音频数据对应的说话人编号和训练音频数据对应的频谱作为语音转换模型的输入,将训练目标说话人的频谱作为期望的输出的步骤,直至计算得到的损失值满足预设的收敛条件时,停止训练,得到训练好的语音转换模型。
在一个实施例中,根据语音转换模型的实际输出和期望输出的比对差值计算得到损失值,包括:
计算语音转换模型实际输出的频谱与训练目标说话人的频谱的第一差值;
将语音转换模型实际输出的频谱输入音素识别器,得到预测的音素信息,并与源音频数据对应的音素信息对比,计算得到第二差值;
根据第一差值与第二差值,得到损失值。
在一个实施例中,解码器的训练过程,包括:
获取预设的训练目标频谱帧和预设的训练目标说话人的平均频谱帧;
获取预设概率,根据预设概率确定每个频谱帧对应的参考帧;
当解码器输出频谱帧对应的参考帧为训练目标频谱帧时,根据训练目标频谱帧输出对应的频谱帧;
当解码器输出频谱帧对应的参考帧为平均频谱帧时,根据平均频谱帧输出对应的频谱帧。
在一个实施例中,对源音频数据进行预处理,得到与源音频数据对应的频谱,包括:
对源音频数据的首尾去掉空白部分、预加重、短时傅里叶变换,得到第一频谱;
将第一频谱通过梅尔滤波器组,得到梅尔频谱。
第二方面,本申请实施例提供一种语音转换装置,该装置包括:
获取模块,用于获取源音频数据;
接收模块,用于接收选择的目标说话人编号和源音频数据对应的说话人编号;
处理模块,用于对源音频数据进行预处理,得到与源音频数据对应的频谱;
频谱转换模块,用于将目标说话人编号、源音频数据对应的说话人编号和源音频数据对应的频谱作为语音转换模型的输入,获取语音转换模型输出的目标说话人的频谱;
语音生成模块,用于通过声码器将目标说话人的频谱转换为目标说话人的语音。
第三方面,本申请实施例提供一种语音转换设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行如下步骤:
获取源音频数据;
接收选择的目标说话人编号和源音频数据对应的说话人编号;
对源音频数据进行预处理,得到与源音频数据对应的频谱;
将目标说话人编号、源音频数据对应的说话人编号和源音频数据对应的频谱作为语音转换模型的输入,获取语音转换模型输出的目标说话人的频谱;
通过声码器将目标说话人的频谱转换为目标说话人的语音。
第四方面,本申请实施例提供一种存储介质,储存有计算机程序,计算机程序被处理器执行时,使得处理器执行如下步骤:
获取源音频数据;
接收选择的目标说话人编号和源音频数据对应的说话人编号;
对源音频数据进行预处理,得到与源音频数据对应的频谱;
将目标说话人编号、源音频数据对应的说话人编号和源音频数据对应的频谱作为语音转换模型的输入,获取语音转换模型输出的目标说话人的频谱;
通过声码器将目标说话人的频谱转换为目标说话人的语音。
有益效果
实施本申请实施例,将具有如下有益效果:
通过上述语音转换方法、装置、设备及存储介质,对说话人进行编号,在实际转换过程中,通过编号来控制需要转换的目标说话人的频谱,实现了多说话人对多说话人语音转换的目的,提高了适用性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本申请一个实施例中语音转换方法的流程图;
图2为本申请一个实施例中语音转换模型的训练流程图;
图3为本申请一个实施例中得到损失值的流程图;
图4为本申请一个实施例中根解码器参考目标频谱帧的具体流程图;
图5为本申请一个实施例中得到源音频数据对应的频谱的流程图;
图6为本申请一个实施例中语音转换的生成阶段的具体示意图;
图7为本申请一个实施例中语音转换的训练阶段的具体示意图;
图8为本申请一个实施例中语音转换装置的结构示意图;
图9为本申请一个实施例中语音转换设备的内部结构示意图。
本发明的实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,在一个实施例中,提出一种语音转换方法,该方法包括:
步骤102,获取源音频数据。
其中,源音频数据是指需要进行语音转换的音频,例如,当前需将一段‘A’说话人说出的‘a’话语转换为‘B’说话人说出的‘a’话语,该话语是指说话内容,也即音频中的文本信息,其中“‘A’说话人说出的‘a’话语”所属的音频数据即为源音频数据。
步骤104,接收选择的目标说话人编号和源音频数据对应的说话人编号。
其中,编号是指针对于不同说话人的代号,表示着说话人的音色,不同编号表示不同的音色。目标说话人编号即为需要转换为某个音色对应说话人的编号,如上述的‘B’;源音频数据对应的说话人编号是指源音频数据中包含的音色对应说话人的编号,也即待转换的音色对应说话人的编号,如上述的‘A’。
步骤106,对源音频数据进行预处理,得到与源音频数据对应的频谱。
其中,源音频数据是一段时域信号,是声音的幅度随着时间变化而变化的波形图,但时域信号中不能提取和分析语音特征,因此通过预处理将时域信号转换为频域信号得到与源音频数据对应的频谱。
步骤108,将目标说话人编号、源音频数据对应的说话人编号和源音频数据对应的频谱作为语音转换模型的输入,获取语音转换模型输出的目标说话人的频谱。
其中,语音转换模型是指能够将输入的频谱转换为目标频谱的虚拟程序模型。因此转换时通过将源音频数据对应的频谱输入,目标说话人编号以及源音频数据对应的说话人编号,得到目标说话人的频谱。输入转换前后说话人编号是为了将说话人作为一种可变特征,从而在需要指定说话人时基于该编号进行输出。
步骤110,通过声码器将目标说话人的频谱转换为目标说话人的语音。
其中,声码器是指语音信号某种模型的语音分析合成系统。在传输中只利用模型参数,在编译码时利用模型参数估计和语音合成技术的语音信号编译码器,一种对话音进行分析和合成的编、译码器,也称话音分析合成系统或话音频带压缩系统。它是压缩通信频带和进行保密通信的有力工具。在得到目标说话人的频谱后通过声码器即可将频谱转换为对应的语音。声码器可以采用World、Griff-Lim或WaveNet等。
通过对说话人进行编号,在实际转换过程中,通过编号来控制需要转换的目标说话人的频谱,实现了多说话人对多说话人语音转换的目的,提高了适用性。
在一个实施例中,语音转换模型包括:
仿射矩阵、编码器和解码器,仿射矩阵用于将输入的目标说话人编号和源音频数据对应的说话人编号编码为说话人向量,编码器(encoder)用于根据说话人向量和源音频数据对应的频谱得到特征向量,解码器(decoder)用于根据特征向量和说话人向量得到目标说话人的频谱。
其中,仿射矩阵是指Speaker Embedding(说话人嵌入),在Speaker Embedding中存有每个说话人和频谱间的对应关系;编码器具体的架构为CNN+Bi-LSTM+LinearProjection;解码器具体的架构为Pre-Net+Attention+LSTM+Post-Net。
其中,在语音转换模型内部具体的执行流程包括:
将目标说话人的编号和源音频数据对应的说话人编号输入到Speaker Embedding中,得到对应的说话人向量。将频谱输入到编码器中,经过CNN(Convolutional NeuralNetworks卷积神经网络),并在Bi-LSTM(Bi-directional Long Short-Term Memory,一种用于文本上下文建模的模型,包括前向和后向)中输入说话人向量,通过Linear线性化得到语音特征向量。将得到特征向量输入到解码器中,经过PreNet,并在Attention(注意力模型)中输入说话人向量,以及在LSTM(Long Short-Term Memory,一种用于文本上下文建模的模型,单向)中输入说话人向量。最后通过CNN(Convolutional Neural Networks卷积神经网络)输出与说话人向量对应的目标说话人的频谱。
采用将说话人向量输入到编解码器的中间值,使得编解码过程中携带了编号变量,从而最终根据编号变量输出对应的频谱。
如图2所示,在一个实施例中,语音转换模型的训练步骤如下:
步骤202,获取训练样本集,训练样本集中包括多个训练样本,每个训练样本包括:训练目标说话人编号、训练音频数据对应的说话人编号、训练音频数据对应的频谱和训练目标说话人的频谱。
其中,训练样本集中包含不同说话人的编号、频谱。例如,现需要将‘A’说话人说出的‘a’话语转换为‘B’说话人说出的‘a’话语,此时“‘A’说话人说出的‘a’话语”对应的频谱即为训练音频数据对应的频谱,“‘B’说话人说出的‘a’话语”对应的频谱即为训练目标说话人的频谱,‘A,B’即分别为训练音频数据对应的说话人编号和训练目标说话人编号。
样本训练是为了依据大数据,使得语音转换模型拟合出该样本群范围内转换语音特征的参数,使得后续实际生产过程中能依据训练拟合的参数,来进行语音特征的转换,训练样本越多,样本群范围越大,越有可能包含实际生产过程中输入的新语音。
步骤204,将训练说话人编号、训练音频数据对应的说话人编号和训练音频数据对应的频谱作为语音转换模型的输入,将训练目标说话人的频谱作为期望的输出。
其中,如上述举例中,将“‘A’说话人说出的‘a’话语”对应的频谱和编号‘A,B’作为输入,将“‘B’说话人说出的‘a’话语”对应的频谱作为期望输出,语音转换模型输出对应频谱时参考期望输出。
步骤206,根据语音转换模型的实际输出和期望输出的比对结果更新语音转换模型的权重参数,得到训练好的语音转换模型。
其中,在训练得到的实际输出后,根据与期望输出的比对结果进行分析,更新语音转换模型的权重参数,优化语音转换模型。
通过预设的输入和期望输出,对语音转换模型进行训练,得到训练好的语音转换模型,基于训练好的语音转换模型进行输出,使得语音转换的精度更高、效果更好。
在一个实施例中,根据语音转换模型的实际输出和期望输出的比对结果更新语音转换模型的权重参数,得到训练好的语音转换模型,包括:
根据语音转换模型的实际输出和期望输出的比对差值计算得到损失值。
当损失值没有达到预设的收敛条件时,根据损失值更新语音转换模型的权重参数。
获取下一个训练样本,重新进入将训练说话人编号、训练音频数据对应的说话人编号和训练音频数据对应的频谱作为语音转换模型的输入,将训练目标说话人的频谱作为期望的输出的步骤,直至计算得到的损失值满足预设的收敛条件时,停止训练,得到训练好的语音转换模型。
其中,损失值是指实际输出相比期望输出的失真的多少,具体的损失值可以指实际输出的频谱和期望输出的频谱的比对差值,也可以包括其他差值。训练时,不断循环训练训练样本集中的所有训练样本,并计算每次训练的损失值,检测损失值是否满足预设的收敛条件,当检测到损失值满足预设的收敛条件时,完成训练,得到训练好的语音转换模型。
通过不断的多次训练,并每次训练都根据损失值进行权重参数的调整,直至得到的损失值收敛,判定此时训练完成,得到训练好的语音转换模型,基于训练好的语音转换模型进行输出,使得语音转换的精度更高、效果更好。
如图3所示,在一个实施例中,根据语音转换模型的实际输出和期望输出的比对差值计算得到损失值,包括:
步骤302,计算语音转换模型实际输出的频谱与目标说话人的频谱的第一差值。
其中,损失值具体包含两部分,一部分即为实际输出的频谱与目标频谱之间的第一差值,另一部分为预测到的音素信息与源音素信息之间的第二差值。
步骤304,将语音转换模型实际输出的频谱输入音素识别器,得到预测的音素信息,并与源音频数据对应的音素信息对比,计算得到第二差值。
其中,音素识别器是指能够将频谱作为输入,输出频谱中的音素信息的虚拟程序模块,具体的音素识别器采用CTC算法(Connectionist Temporal Classification),其内部架构为Linear Projection+CTC Loss。源音素信息则是基于源音频数据提取获得的,具体的音素信息是指由音素编码形成的音素向量。CTC用于训练阶段。
步骤306,根据第一差值与第二差值,得到损失值。
其中,损失值具体为第一差值和第二差值的相加得到。
通过引入CTC算法,计算音素信息的比对差值,帮助训练过程中使语音转换模型加速对齐和收敛,提高了训练速度。
如图4所示,在一个实施例中,解码器的训练过程,包括:
步骤402,获取预设的训练目标频谱帧和预设的训练目标说话人的平均频谱帧。
其中,其中在现有的解码器在训练阶段输出频谱时,是参考给定的预设目标频谱进行输出,输出的每一帧都参考对应目标频谱的每一帧。但在实际生成过程中,并没有目标频谱可参考,因此训练阶段得到的结果与生成阶段得到的结果是存在偏差的。若完全参考目标频谱帧,则生成阶段无法得到如训练阶段一样的好结果,若完全不参考目标频谱帧,模型又难以收敛,所以通过解码器内部控制,设置参考概率,使得目标频谱帧随机分布在参考帧中,通过不完全参考目标频谱帧来使得生成阶段得到的结果接近真实情况。
上述中的训练目标频谱帧是指目标说话人的频谱中每一帧,而训练目标说话人的平均频谱帧则是指目标说话人对应的所有频谱中频谱帧的平均值。
步骤404,获取预设概率,根据预设概率确定每个频谱帧对应的参考帧。
其中,预设概率是预先设置,通过解码器中的teacher forcing rate和speakerglobal mean frame进行控制,在解码器输出频谱时,根据预设概率参考对应的频谱帧。在一个实施例中,预设概率为0.5;毫无疑问的,预设概率也可以为其他数值。
步骤406,当解码器输出频谱帧对应的参考帧为训练目标频谱帧时,根据训练目标频谱帧输出对应的频谱帧。
其中,具体的,根据预设概率,当确定的当前输出的频谱帧对应的参考帧为训练目标频谱帧时,就根据训练目标频谱帧进行输出。
步骤408,当解码器输出频谱帧对应的参考帧为平均频谱帧时,根据平均频谱帧输出对应的频谱帧。
其中,当确定的当前输出的频谱帧对应的参考帧为平均频谱帧时,就根据平均频谱帧进行输出。
通过引入teacher forcing rate和speaker global mean frame来控制参考目标频谱帧的概率,使得不完全参考目标频谱帧,接近实际生成的效果,改善了训练和生成过程不一样导致结果出现偏差的现象。
如图5所示,在一个实施例中,对源音频数据进行预处理,得到与源音频数据对应的频谱,包括:
步骤502,对源音频数据的首尾去掉空白部分、预加重、短时傅里叶变换,得到第一频谱。
其中,对源音频数据减去音频空白部分是为了让Attention模块更好地学习对齐;预加重给音频增添了高频信息,过滤了一部分噪音;STFT(短时傅里叶变换)将波形从时域转换到频域,得到第一频谱,方便提取语音特征
步骤504,将第一频谱通过梅尔滤波器组,得到梅尔频谱。
其中,得到的第一频谱的频率刻度是不符合人耳的听觉线性习惯的,因此将第一频谱通过梅尔滤波器组,得到梅尔频谱,梅尔频谱的频率刻度是符合人耳听觉习惯的。梅尔滤波器组则是分布在低频出的滤波器更密集,门限值大,反之分布在高频出滤波器更稀疏,门限值小。
通过预处理,将源音频数据进行了过滤、降噪、转换频域,使得进入语音转换模型的频谱是清晰、精准的,提高了语音转换的精度。
如图6所示,在一个实施例中,语音转换的生成阶段具体包括:通过对源音频数据进行预处理得到源说话人的梅尔频谱,将源说话人的梅尔频谱、目标说话人编号和源音频数据对应的说话人编号输入到语音转换模型中,得到目标说话人的梅尔频谱,具体的,将目标说话人的编号和源音频数据对应的说话人编号输入到Speaker Embedding中,得到对应的说话人向量。将频谱输入到编码器中,经过CNN(Convolutional Neural Networks卷积神经网络),并在Bi-LSTM(Bi-directional Long Short-Term Memory,一种用于文本上下文建模的模型,包括前向和后向)中输入说话人向量,通过Linear线性化得到语音特征向量。将得到特征向量输入到解码器中,经过PreNet,并在Attention(注意力模型)中输入编码向量,以及在LSTM(directional Long Short-Term Memory,一种用于文本上下文建模的模型,单向)中输入说话人向量,最后通过CNN(Convolutional Neural Networks卷积神经网络)输出与说话人向量对应的目标说话人的频谱。将得到的目标说话人的梅尔频谱通过声码器转换为目标说话人的语音。
如图7所示,在一个实施例中,语音转换的训练阶段具体包括:通过对训练音频数据进行预处理得到训练说话人的梅尔频谱,将训练说话人的梅尔频谱、训练目标说话人编号和训练音频数据对应的说话人编号输入到语音转换模型中,得到训练目标说话人的梅尔频谱。具体的,将训练目标说话人的编号和训练音频数据对应的说话人编号输入到SpeakerEmbedding中,得到对应的训练说话人向量。将频谱输入到编码器中,经过CNN(Convolutional Neural Networks卷积神经网络),并在Bi-LSTM(Bi-directional LongShort-Term Memory,一种用于文本上下文建模的模型,包括前向和后向)中输入训练说话人向量,通过Linear线性化得到语音特征向量。将得到特征向量输入到解码器中,经过PreNet,并在Attention(注意力模型)中输入训练说话人向量,以及在LSTM(directionalLong Short-Term Memory,一种用于文本上下文建模的模型,单向)中输入训练说话人向量。最后通过CNN(Convolutional Neural Networks卷积神经网络)输出与训练说话人向量对应的训练目标说话人的频谱。将得到的训练目标说话人的梅尔频谱输入到CTC中,得到预测的音素信息,将预测的音素信息与源音素信息进行比对,得到音素信息的对比误差,结合频谱的比对误差,反向传播更新语音转换模型的权重参数。此外将得到的训练目标说话人的梅尔频谱通过声码器转换为训练目标说话人的语音。
如图8所示,本申请提供一种语音转换装置,该装置包括:
获取模块802,用于获取源音频数据;
接收模块804,用于接收选择的目标说话人编号和源音频数据对应的说话人编号;
处理模块806,用于对源音频数据进行预处理,得到与源音频数据对应的频谱;
频谱转换模块808,用于将目标说话人编号、源音频数据对应的说话人编号和源音频数据对应的频谱作为语音转换模型的输入,获取语音转换模型输出的目标说话人的频谱;
语音生成模块810,用于通过声码器将目标说话人的频谱转换为目标说话人的语音。
在一个实施例中,语音转换模型包括:仿射矩阵、编码器和解码器,仿射矩阵用于将输入的目标说话人编号和源音频数据对应的说话人编号编码为说话人向量,编码器用于根据说话人向量和源音频数据对应的频谱得到特征向量,解码器用于根据特征向量和说话人向量得到目标说话人的频谱。
在一个实施例中,频谱转换模块还用于获取训练样本集,训练样本集中包括多个训练样本,每个训练样本包括:训练目标说话人编号、训练音频数据对应的说话人编号、训练音频数据对应的频谱和训练目标说话人的频谱;将训练说话人编号、训练音频数据对应的说话人编号和训练音频数据对应的频谱作为语音转换模型的输入,将训练目标说话人的频谱作为期望的输出;根据语音转换模型的实际输出和期望输出的比对结果更新语音转换模型的权重参数,得到训练好的语音转换模型。
在一个实施例中,频谱转换模块还用于根据语音转换模型的实际输出和期望输出的比对差值计算得到损失值;当损失值没有达到预设的收敛条件时,根据损失值更新语音转换模型的权重参数;获取下一个训练样本,重新进入将训练说话人编号、训练音频数据对应的说话人编号和训练音频数据对应的频谱作为语音转换模型的输入,将训练目标说话人的频谱作为期望的输出的步骤,直至计算得到的损失值满足预设的收敛条件时,停止训练,得到训练好的语音转换模型。
在一个实施例中,频谱转换模块还用于计算语音转换模型实际输出的频谱与训练目标说话人的频谱的第一差值;将语音转换模型实际输出的频谱输入音素识别器,得到预测的音素信息,并与源音频数据对应的音素信息对比,计算得到第二差值;根据第一差值与第二差值,得到损失值。
在一个实施例中,频谱转换模块还用于获取预设的训练目标频谱帧和预设的训练目标说话人的平均频谱帧;获取预设概率,根据预设概率确定每个频谱帧对应的参考帧;当解码器输出频谱帧对应的参考帧为训练目标频谱帧时,根据训练目标频谱帧输出对应的频谱帧;当解码器输出频谱帧对应的参考帧为平均频谱帧时,根据平均频谱帧输出对应的频谱帧。
在一个实施例中,处理模块还用于对源音频数据的首尾去掉空白部分、预加重、短时傅里叶变换,得到第一频谱;将第一频谱通过梅尔滤波器组,得到梅尔频谱。
在一个实施例中,本申请提供一种语音转换设备,该语音转换设备的内部结构图如图9所示。该语音转换设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该语音转换设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现语音转换方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行语音转换方法。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的语音转换设备的限定,具体的语音转换设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供的一种语音转换方法可以实现为一种计算机程序的形式,计算机程序可在如图9所示的语音转换设备上运行。语音转换设备的存储器中可存储组成一种语音转换装置的各个程序模块。比如,获取模块802、接收模块804、处理模块806、频谱转换模块808、语音生成模块810。
一种语音转换设备,包括处理器和存储器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行如下步骤:获取源音频数据;接收选择的目标说话人编号和源音频数据对应的说话人编号;对源音频数据进行预处理,得到与源音频数据对应的频谱;将目标说话人编号、源音频数据对应的说话人编号和源音频数据对应的频谱作为语音转换模型的输入,获取语音转换模型输出的目标说话人的频谱;通过声码器将目标说话人的频谱转换为目标说话人的语音。
在一个实施例中,语音转换模型包括:仿射矩阵、编码器和解码器,仿射矩阵用于将输入的目标说话人编号和源音频数据对应的说话人编号编码为说话人向量,编码器用于根据说话人向量和源音频数据对应的频谱得到特征向量,解码器用于根据特征向量和说话人向量得到目标说话人的频谱。
在一个实施例中,语音转换模型的训练步骤如下:获取训练样本集,训练样本集中包括多个训练样本,每个训练样本包括:训练目标说话人编号、训练音频数据对应的说话人编号、训练音频数据对应的频谱和训练目标说话人的频谱;将训练说话人编号、训练音频数据对应的说话人编号和训练音频数据对应的频谱作为语音转换模型的输入,将训练目标说话人的频谱作为期望的输出;根据语音转换模型的实际输出和期望输出的比对结果更新语音转换模型的权重参数,得到训练好的语音转换模型。
在一个实施例中,根据语音转换模型的实际输出和期望输出的比对结果更新语音转换模型的权重参数,得到训练好的语音转换模型,包括:根据语音转换模型的实际输出和期望输出的比对差值计算得到损失值;当损失值没有达到预设的收敛条件时,根据损失值更新语音转换模型的权重参数;获取下一个训练样本,重新进入将训练说话人编号、训练音频数据对应的说话人编号和训练音频数据对应的频谱作为语音转换模型的输入,将训练目标说话人的频谱作为期望的输出的步骤,直至计算得到的损失值满足预设的收敛条件时,停止训练,得到训练好的语音转换模型。
在一个实施例中,根据语音转换模型的实际输出和期望输出的比对差值计算得到损失值,包括:计算语音转换模型实际输出的频谱与训练目标说话人的频谱的第一差值;将语音转换模型实际输出的频谱输入音素识别器,得到预测的音素信息,并与源音频数据对应的音素信息对比,计算得到第二差值;根据第一差值与第二差值,得到损失值。
在一个实施例中,上述语音转换模型的训练过程,包括:获取预设的训练目标频谱帧和预设的训练目标说话人的平均频谱帧;获取预设概率,根据预设概率确定每个频谱帧对应的参考帧;当解码器输出频谱帧对应的参考帧为训练目标频谱帧时,根据训练目标频谱帧输出对应的频谱帧;当解码器输出频谱帧对应的参考帧为平均频谱帧时,根据平均频谱帧输出对应的频谱帧。
在一个实施例中,对源音频数据进行预处理,得到与源音频数据对应的频谱,包括:对源音频数据的首尾去掉空白部分、预加重、短时傅里叶变换,得到第一频谱;将第一频谱通过梅尔滤波器组,得到梅尔频谱。
在一个实施例中,本发提供一种存储介质,储存有计算机程序,计算机程序被处理器执行时,使得处理器执行如下步骤:获取源音频数据;接收选择的目标说话人编号和源音频数据对应的说话人编号;对源音频数据进行预处理,得到与源音频数据对应的频谱;将目标说话人编号、源音频数据对应的说话人编号和源音频数据对应的频谱作为语音转换模型的输入,获取语音转换模型输出的目标说话人的频谱;通过声码器将目标说话人的频谱转换为目标说话人的语音。
在一个实施例中,语音转换模型包括:仿射矩阵、编码器和解码器,仿射矩阵用于将输入的目标说话人编号和源音频数据对应的说话人编号编码为说话人向量,编码器用于根据说话人向量和源音频数据对应的频谱得到特征向量,解码器用于根据特征向量和说话人向量得到目标说话人的频谱。
在一个实施例中,语音转换模型的训练步骤如下:获取训练样本集,训练样本集中包括多个训练样本,每个训练样本包括:训练目标说话人编号、训练音频数据对应的说话人编号、训练音频数据对应的频谱和训练目标说话人的频谱;将训练说话人编号、训练音频数据对应的说话人编号和训练音频数据对应的频谱作为语音转换模型的输入,将训练目标说话人的频谱作为期望的输出;根据语音转换模型的实际输出和期望输出的比对结果更新语音转换模型的权重参数,得到训练好的语音转换模型。
在一个实施例中,根据语音转换模型的实际输出和期望输出的比对结果更新语音转换模型的权重参数,得到训练好的语音转换模型,包括:根据语音转换模型的实际输出和期望输出的比对差值计算得到损失值;当损失值没有达到预设的收敛条件时,根据损失值更新语音转换模型的权重参数;获取下一个训练样本,重新进入将训练说话人编号、训练音频数据对应的说话人编号和训练音频数据对应的频谱作为语音转换模型的输入,将训练目标说话人的频谱作为期望的输出的步骤,直至计算得到的损失值满足预设的收敛条件时,停止训练,得到训练好的语音转换模型。
在一个实施例中,根据语音转换模型的实际输出和期望输出的比对差值计算得到损失值,包括:计算语音转换模型实际输出的频谱与训练目标说话人的频谱的第一差值;将语音转换模型实际输出的频谱输入音素识别器,得到预测的音素信息,并与源音频数据对应的音素信息对比,计算得到第二差值;根据第一差值与第二差值,得到损失值。
在一个实施例中,语音转换模型的训练过程,包括:获取预设的训练目标频谱帧和预设的训练目标说话人的平均频谱帧;获取预设概率,根据预设概率确定每个频谱帧对应的参考帧;当解码器输出频谱帧对应的参考帧为训练目标频谱帧时,根据训练目标频谱帧输出对应的频谱帧;当解码器输出频谱帧对应的参考帧为平均频谱帧时,根据平均频谱帧输出对应的频谱帧。
在一个实施例中,对源音频数据进行预处理,得到与源音频数据对应的频谱,包括:对源音频数据的首尾去掉空白部分、预加重、短时傅里叶变换,得到第一频谱;将第一频谱通过梅尔滤波器组,得到梅尔频谱。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。请输入具体实施内容部分。

Claims (10)

1.一种语音转换方法,其特征在于,所述方法包括:
获取源音频数据;
接收选择的目标说话人编号和源音频数据对应的说话人编号;
对所述源音频数据进行预处理,得到与所述源音频数据对应的频谱;
将所述目标说话人编号、所述源音频数据对应的说话人编号和所述源音频数据对应的频谱作为语音转换模型的输入,获取所述语音转换模型输出的目标说话人的频谱;
通过声码器将所述目标说话人的频谱转换为所述目标说话人的语音。
2.根据权利要求1所述的方法,其特征在于,所述语音转换模型包括:
仿射矩阵、编码器和解码器,所述仿射矩阵用于将输入的所述目标说话人编号和所述源音频数据对应的说话人编号编码为说话人向量,所述编码器用于根据所述说话人向量和所述源音频数据对应的频谱得到特征向量,所述解码器用于根据所述特征向量和所述说话人向量得到所述目标说话人的频谱。
3.根据权利要求2所述的方法,其特征在于,所述语音转换模型的训练步骤如下:
获取训练样本集,所述训练样本集中包括多个训练样本,每个训练样本包括:训练目标说话人编号、训练音频数据对应的说话人编号、训练音频数据对应的频谱和训练目标说话人的频谱;
将所述训练说话人编号、所述训练音频数据对应的说话人编号和所述训练音频数据对应的频谱作为所述语音转换模型的输入,将所述训练目标说话人的频谱作为期望的输出;
根据所述语音转换模型的实际输出和期望输出的比对结果更新所述语音转换模型的权重参数,得到训练好的所述语音转换模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述语音转换模型的实际输出和期望输出的比对结果更新所述语音转换模型的权重参数,得到训练好的所述语音转换模型,包括:
根据所述语音转换模型的所述实际输出和期望输出的比对差值计算得到损失值;
当所述损失值没有达到预设的收敛条件时,根据所述损失值更新所述语音转换模型的权重参数;
获取下一个训练样本,重新进入所述将所述训练说话人编号、所述训练音频数据对应的说话人编号和所述训练音频数据对应的频谱作为所述语音转换模型的输入,将所述训练目标说话人的频谱作为期望的输出的步骤,直至计算得到的所述损失值满足所述预设的收敛条件时,停止训练,得到训练好的所述语音转换模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述语音转换模型的所述实际输出和期望输出的比对差值计算得到损失值,包括:
计算所述语音转换模型实际输出的频谱与所述目标说话人的频谱的第一差值;
将所述语音转换模型实际输出的频谱输入音素识别器,得到预测的音素信息,并与所述源音频数据对应的音素信息对比,计算得到第二差值;
根据所述第一差值与所述第二差值,得到所述损失值。
6.根据权利要求2所述的方法,其特征在于,所述解码器的训练过程,包括:
获取预设的训练目标频谱帧和预设的训练目标说话人的平均频谱帧;
获取预设概率,根据所述预设概率确定每个频谱帧对应的参考帧;
当所述解码器输出频谱帧对应的参考帧为所述训练目标频谱帧时,根据所述训练目标频谱帧输出对应的频谱帧;
当所述解码器输出频谱帧对应的参考帧为所述平均频谱帧时,根据所述平均频谱帧输出对应的频谱帧。
7.根据权利要求1所述的方法,其特征在于,所述对所述源音频数据进行预处理,得到与所述源音频数据对应的频谱,包括:
对所述源音频数据的首尾去掉空白部分、预加重、短时傅里叶变换,得到第一频谱;
将所述第一频谱通过梅尔滤波器组,得到梅尔频谱。
8.一种语音转换装置,其特征在于,所述装置包括:
获取模块,用于获取源音频数据;
接收模块,用于接收选择的目标说话人编号和源音频数据对应的说话人编号;
处理模块,用于对所述源音频数据进行预处理,得到与所述源音频数据对应的频谱;
频谱转换模块,用于将所述目标说话人编号、所述源音频数据对应的说话人编号和所述源音频数据对应的频谱作为语音转换模型的输入,获取所述语音转换模型输出的目标说话人的频谱;
语音生成模块,用于通过声码器将所述目标说话人的频谱转换为所述目标说话人的语音。
9.一种语音转换设备,包括存储器和处理器,所述存储器中储存有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-7所述任一种方法的步骤。
10.一种存储介质,储存有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1-7所述任一种方法的步骤。
CN201980003287.4A 2019-12-27 2019-12-27 语音转换方法、装置、设备及存储介质 Active CN111247585B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/129115 WO2021128256A1 (zh) 2019-12-27 2019-12-27 语音转换方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111247585A true CN111247585A (zh) 2020-06-05
CN111247585B CN111247585B (zh) 2024-03-29

Family

ID=70864468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980003287.4A Active CN111247585B (zh) 2019-12-27 2019-12-27 语音转换方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN111247585B (zh)
WO (1) WO2021128256A1 (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428867A (zh) * 2020-06-15 2020-07-17 深圳市友杰智新科技有限公司 基于可逆分离卷积的模型训练方法、装置和计算机设备
CN111862934A (zh) * 2020-07-24 2020-10-30 苏州思必驰信息科技有限公司 语音合成模型的改进方法和语音合成方法及装置
CN111883149A (zh) * 2020-07-30 2020-11-03 四川长虹电器股份有限公司 一种带情感和韵律的语音转换方法及装置
CN112164407A (zh) * 2020-09-22 2021-01-01 腾讯音乐娱乐科技(深圳)有限公司 音色转换方法及装置
CN112382297A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN112509550A (zh) * 2020-11-13 2021-03-16 中信银行股份有限公司 语音合成模型训练方法、语音合成方法、装置及电子设备
CN112562728A (zh) * 2020-11-13 2021-03-26 百果园技术(新加坡)有限公司 生成对抗网络训练方法、音频风格迁移方法及装置
CN112634919A (zh) * 2020-12-18 2021-04-09 平安科技(深圳)有限公司 语音转换方法、装置、计算机设备及存储介质
CN112634920A (zh) * 2020-12-18 2021-04-09 平安科技(深圳)有限公司 基于域分离的语音转换模型的训练方法及装置
CN112712812A (zh) * 2020-12-24 2021-04-27 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN112712789A (zh) * 2020-12-21 2021-04-27 深圳市优必选科技股份有限公司 跨语言音频转换方法、装置、计算机设备和存储介质
CN112767912A (zh) * 2020-12-28 2021-05-07 深圳市优必选科技股份有限公司 跨语言语音转换方法、装置、计算机设备和存储介质
CN112863529A (zh) * 2020-12-31 2021-05-28 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN113178200A (zh) * 2021-04-28 2021-07-27 平安科技(深圳)有限公司 语音转换方法、装置、服务器及存储介质
CN113345454A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 语音转换模型的训练、应用方法、装置、设备及存储介质
CN113362836A (zh) * 2021-06-02 2021-09-07 腾讯音乐娱乐科技(深圳)有限公司 训练声码器方法、终端及存储介质
CN113611324A (zh) * 2021-06-21 2021-11-05 上海一谈网络科技有限公司 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质
CN113808595A (zh) * 2020-06-15 2021-12-17 颜蔚 一种从源说话人到目标说话人的声音转换方法及装置
CN114283824A (zh) * 2022-03-02 2022-04-05 清华大学 一种基于循环损失的语音转换方法及装置
WO2022133630A1 (zh) * 2020-12-21 2022-06-30 深圳市优必选科技股份有限公司 跨语言音频转换方法、计算机设备和存储介质
CN115064177A (zh) * 2022-06-14 2022-09-16 中国第一汽车股份有限公司 基于声纹编码器的语音转换方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107464569A (zh) * 2017-07-04 2017-12-12 清华大学 声码器
CN109308892A (zh) * 2018-10-25 2019-02-05 百度在线网络技术(北京)有限公司 语音合成播报方法、装置、设备及计算机可读介质
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
CN110136690A (zh) * 2019-05-22 2019-08-16 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
CN110223705A (zh) * 2019-06-12 2019-09-10 腾讯科技(深圳)有限公司 语音转换方法、装置、设备及可读存储介质
CN110600047A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9431002B2 (en) * 2014-03-04 2016-08-30 Tribune Digital Ventures, Llc Real time popularity based audible content aquisition
CN107481735A (zh) * 2017-08-28 2017-12-15 中国移动通信集团公司 一种转换音频发声的方法、服务器及计算机可读存储介质
CN108847249B (zh) * 2018-05-30 2020-06-05 苏州思必驰信息科技有限公司 声音转换优化方法和系统
CN108922543B (zh) * 2018-06-11 2022-08-16 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107464569A (zh) * 2017-07-04 2017-12-12 清华大学 声码器
CN109308892A (zh) * 2018-10-25 2019-02-05 百度在线网络技术(北京)有限公司 语音合成播报方法、装置、设备及计算机可读介质
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
CN110136690A (zh) * 2019-05-22 2019-08-16 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
CN110223705A (zh) * 2019-06-12 2019-09-10 腾讯科技(深圳)有限公司 语音转换方法、装置、设备及可读存储介质
CN110600047A (zh) * 2019-09-17 2019-12-20 南京邮电大学 基于Perceptual STARGAN的多对多说话人转换方法

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428867A (zh) * 2020-06-15 2020-07-17 深圳市友杰智新科技有限公司 基于可逆分离卷积的模型训练方法、装置和计算机设备
CN113808595A (zh) * 2020-06-15 2021-12-17 颜蔚 一种从源说话人到目标说话人的声音转换方法及装置
CN111862934A (zh) * 2020-07-24 2020-10-30 苏州思必驰信息科技有限公司 语音合成模型的改进方法和语音合成方法及装置
CN111883149A (zh) * 2020-07-30 2020-11-03 四川长虹电器股份有限公司 一种带情感和韵律的语音转换方法及装置
CN111883149B (zh) * 2020-07-30 2022-02-01 四川长虹电器股份有限公司 一种带情感和韵律的语音转换方法及装置
CN112164407A (zh) * 2020-09-22 2021-01-01 腾讯音乐娱乐科技(深圳)有限公司 音色转换方法及装置
CN112382297A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN112509550A (zh) * 2020-11-13 2021-03-16 中信银行股份有限公司 语音合成模型训练方法、语音合成方法、装置及电子设备
CN112562728A (zh) * 2020-11-13 2021-03-26 百果园技术(新加坡)有限公司 生成对抗网络训练方法、音频风格迁移方法及装置
CN112634920B (zh) * 2020-12-18 2024-01-02 平安科技(深圳)有限公司 基于域分离的语音转换模型的训练方法及装置
CN112634919B (zh) * 2020-12-18 2024-05-28 平安科技(深圳)有限公司 语音转换方法、装置、计算机设备及存储介质
WO2022126904A1 (zh) * 2020-12-18 2022-06-23 平安科技(深圳)有限公司 语音转换方法、装置、计算机设备及存储介质
CN112634920A (zh) * 2020-12-18 2021-04-09 平安科技(深圳)有限公司 基于域分离的语音转换模型的训练方法及装置
CN112634919A (zh) * 2020-12-18 2021-04-09 平安科技(深圳)有限公司 语音转换方法、装置、计算机设备及存储介质
CN112712789A (zh) * 2020-12-21 2021-04-27 深圳市优必选科技股份有限公司 跨语言音频转换方法、装置、计算机设备和存储介质
CN112712789B (zh) * 2020-12-21 2024-05-03 深圳市优必选科技股份有限公司 跨语言音频转换方法、装置、计算机设备和存储介质
WO2022133630A1 (zh) * 2020-12-21 2022-06-30 深圳市优必选科技股份有限公司 跨语言音频转换方法、计算机设备和存储介质
CN112712812B (zh) * 2020-12-24 2024-04-26 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN112712812A (zh) * 2020-12-24 2021-04-27 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN112767912A (zh) * 2020-12-28 2021-05-07 深圳市优必选科技股份有限公司 跨语言语音转换方法、装置、计算机设备和存储介质
CN112863529B (zh) * 2020-12-31 2023-09-22 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
WO2022142115A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN112863529A (zh) * 2020-12-31 2021-05-28 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN113178200B (zh) * 2021-04-28 2024-03-01 平安科技(深圳)有限公司 语音转换方法、装置、服务器及存储介质
CN113178200A (zh) * 2021-04-28 2021-07-27 平安科技(深圳)有限公司 语音转换方法、装置、服务器及存储介质
CN113345454B (zh) * 2021-06-01 2024-02-09 平安科技(深圳)有限公司 语音转换模型的训练、应用方法、装置、设备及存储介质
CN113345454A (zh) * 2021-06-01 2021-09-03 平安科技(深圳)有限公司 语音转换模型的训练、应用方法、装置、设备及存储介质
CN113362836A (zh) * 2021-06-02 2021-09-07 腾讯音乐娱乐科技(深圳)有限公司 训练声码器方法、终端及存储介质
CN113611324A (zh) * 2021-06-21 2021-11-05 上海一谈网络科技有限公司 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质
CN113611324B (zh) * 2021-06-21 2024-03-26 上海一谈网络科技有限公司 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质
CN114283824A (zh) * 2022-03-02 2022-04-05 清华大学 一种基于循环损失的语音转换方法及装置
CN115064177A (zh) * 2022-06-14 2022-09-16 中国第一汽车股份有限公司 基于声纹编码器的语音转换方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111247585B (zh) 2024-03-29
WO2021128256A1 (zh) 2021-07-01

Similar Documents

Publication Publication Date Title
CN111247585A (zh) 语音转换方法、装置、设备及存储介质
Chou et al. One-shot voice conversion by separating speaker and content representations with instance normalization
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN113470615B (zh) 跨讲话者风格转移语音合成
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN111247584A (zh) 语音转换方法、系统、装置及存储介质
US11393452B2 (en) Device for learning speech conversion, and device, method, and program for converting speech
CN111261145B (zh) 语音处理装置、设备及其训练方法
Huang et al. Refined wavenet vocoder for variational autoencoder based voice conversion
WO2023001128A1 (zh) 音频数据的处理方法、装置及设备
CN111667834B (zh) 一种助听设备及助听方法
Oyamada et al. Non-native speech conversion with consistency-aware recursive network and generative adversarial network
CN112562655A (zh) 残差网络的训练和语音合成方法、装置、设备及介质
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
CN114333865A (zh) 一种模型训练以及音色转换方法、装置、设备及介质
Huang et al. Investigation of F0 Conditioning and Fully Convolutional Networks in Variational Autoencoder Based Voice Conversion.
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
Oura et al. Deep neural network based real-time speech vocoder with periodic and aperiodic inputs
CN114141237A (zh) 语音识别方法、装置、计算机设备和存储介质
CN113593588A (zh) 一种基于生成对抗网络的多唱歌人歌声合成方法和系统
CN112712789A (zh) 跨语言音频转换方法、装置、计算机设备和存储介质
Zhao et al. Research on voice cloning with a few samples
Xie et al. Pitch transformation in neural network based voice conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant