CN116959422B

CN116959422B - 多对多的实时语音变音方法、设备及存储介质

Info

Publication number: CN116959422B
Application number: CN202311220568.XA
Authority: CN
Inventors: 徐儒芳; 黄德安; 陈子文
Original assignee: Shenzhen Imyfone Technology Co ltd
Current assignee: Shenzhen Imyfone Technology Co ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-11-24
Anticipated expiration: 2043-09-21
Also published as: CN116959422A

Abstract

本发明涉及音频处理领域，公开了一种多对多的实时语音变音方法、设备及存储介质。该方法包括：检测到变声处理请求时，根据变声处理请求，获取待变声的音频数据流，并根据变声处理请求，确定待变目标的预设音色音频；提取音频数据流的768维网络特征，提取预设音色音频的梅尔特征信息，并提取预设音色音频的音色编码特征；根据预先训练的多头注意力模型，对768维网络特征、梅尔特征信息以及音色编码特征执行特征交叉操作，得到目标音频特征；将目标音频特征翻译成时域音频波形能量数据；根据时域音频波形能量数据，执行语音增强操作，以响应变声处理请求。本发明使得计算资源较为有限的设备使用实时变声技术的实时性变高。

Description

多对多的实时语音变音方法、设备及存储介质

技术领域

本发明涉及音频处理领域，尤其涉及一种多对多的实时语音变音方法、设备及存储介质。

背景技术

随着科技的发展，互联网用户日益增多，通过市场调研可以知道人们对变声是有强烈需求的，市场也是非常可观的，因此变声的质量是及其重要的。

实时变声技术是一种将音频信号进行实时处理，使其听起来像是来自不同声音特征的技术，实时变声需要在短时间内完成复杂的信号处理和转换操作。对于计算资源较为有限的设备来说，实时变声技术的实时性差。

发明内容

本发明的主要目的在于解决实时变声技术的实时性差的技术问题。

本发明第一方面提供了一种多对多的实时语音变音方法，所述多对多的实时语音变音方法包括：

检测到变声处理请求时，根据所述变声处理请求，获取待变声的音频数据流，并根据所述变声处理请求，确定待变目标的预设音色音频；

提取所述音频数据流的768维网络特征，提取所述预设音色音频的梅尔特征信息，并提取所述预设音色音频的音色编码特征；

根据预先训练的多头注意力模型，对所述768维网络特征、所述梅尔特征信息以及所述音色编码特征执行特征交叉操作，得到目标音频特征；

将所述目标音频特征翻译成时域音频波形能量数据；

根据所述时域音频波形能量数据，执行语音增强操作，以响应所述变声处理请求。

可选的，在本发明第一方面的第一种实现方式中，所述根据预先训练的多头注意力模型，对所述768维网络特征、所述梅尔特征信息以及所述音色编码特征执行特征交叉操作，得到目标音频特征的步骤包括：

将所述梅尔特征信息进行三次梯度网络得到第一频谱特征、第二频谱特征以及第三频谱特征，并根据预先训练的所述多头注意力模型，将所述768维网络特征转换为第一注意力特征；

根据所述多头注意力模型、所述音色编码特征、所述第三频谱特征以及所述第一注意力特征执行，生成第二注意力特征；

根据所述多头注意力模型，对所述第二注意力特征以及所述第二频谱特征执行所述特征交叉操作，得到第三注意力特征；

根据所述多头注意力模型，对所述第三注意力特征以及所述第一频谱特征执行所述特征交叉操作，得到第四注意力特征；

根据所述多头注意力模型，对所述第四注意力特征执行平滑处理，得到所述目标音频特征。

可选的，在本发明第一方面的第二种实现方式中，所述将所述目标音频特征翻译成时域音频波形能量数据的步骤包括：

将所述目标音频特征转换为时域信号；

计算所述时域信号的波形能量数据，得到所述时域音频波形能量数据。

可选的，在本发明第一方面的第三种实现方式中，所述将所述目标音频特征翻译成时域音频波形能量数据的步骤包括：

调用hifi-gan模型ResBlock网络，对所述目标音频特征执行特征矩阵转置操作，得到所述时域音频波形能量数据。

可选的，在本发明第一方面的第四种实现方式中，所述提取所述预设音色音频的梅尔特征信息的步骤包括：

根据1280个采样点的汉宁窗以960个采样点为重叠窗移的方式在所述预设音色音频上使用汉宁滤波，得到多个部分重叠的分时数据块；

对所述分时数据块使用离散快速傅利叶变换，得到基础梅尔频谱矩阵；

将预设的短时傅利叶频谱矩阵与所述基础梅尔频谱矩阵相乘，得到所述梅尔特征信息。

可选的，在本发明第一方面的第五种实现方式中，所述提取所述预设音色音频的音色编码特征的步骤包括：

将所述音色音频采用固定大小的汉宁窗进行数据分块，得到数据块集，并在所述音色音频上获取二维梅尔频谱；

对所述二维梅尔频谱执行合并降维计算，得到所述音色编码特征。

可选的，在本发明第一方面的第六种实现方式中，所述提取所述音频数据流的768维网络特征的步骤包括：

调用1层组标准转换网络层和6层组标准转换网络层，处理所述音频数据流，得到第一特征；

调用1层投影转换网络层，处理所述第一特征，得到第二特征；

调用encoder编码网络层中的音色嵌入层，处理所述第二特征，得到第三特征；

将所述第二特征与所述第三特征叠加，得到第四特征；

将所述第四特征与所述encoder编码网络层中的12层特征编码层进行计算，得到所述特征768维网络特征。

可选的，在本发明第一方面的第七种实现方式中，所述根据所述变声处理请求，确定待变目标的预设音色音频的步骤包括：

解析所述变声处理请求，得到解析结果；

获取所述解析结果中待变目标关键字；

根据所述目标关键字，在预设音色音频数据库中查询并获取所述预设音色音频。

本发明第二方面提供了一种多对多的实时语音变音设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述多对多的实时语音变音设备执行上述的多对多的实时语音变音方法。

本发明的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的多对多的实时语音变音方法。

在本发明实施例中，检测到变声处理请求时，根据所述变声处理请求，获取待变声的音频数据流，并根据所述变声处理请求，确定待变目标的预设音色音频；提取所述音频数据流的768维网络特征，提取所述预设音色音频的梅尔特征信息，并提取所述预设音色音频的音色编码特征；根据预先训练的多头注意力模型，对所述768维网络特征、所述梅尔特征信息以及所述音色编码特征执行特征交叉操作，得到目标音频特征；将所述目标音频特征翻译成时域音频波形能量数据；根据所述时域音频波形能量数据，执行语音增强操作，以响应所述变声处理请求。多对多的实时语音变音设备根据变声处理请求和预设音色音频，可以实现对音频数据流的变声处理，使其具有不同的音色特征。这样可以为用户提供更多样化、个性化的音频效果。其中，多对多的实时语音变音设备选择计算复杂度较低的特征提取方法，例如使用快速算法或减少特征维度的方法，以降低对设备计算资源的要求。设计简化的特征交叉模型，减少模型的参数量和计算量。可以采用轻量级的网络结构，如卷积神经网络中的小型卷积核或深度可分离卷积，以及适当减少模型的层数和神经元数量。使用优化算法和高效编码技术，以减少数据处理和传输的开销。例如，采用快速傅里叶变换（FFT）算法进行频谱分析，使用高效的音频编码格式进行数据压缩等。利用硬件加速技术，如GPU、FPGA或专用的音频处理芯片，以提高设备的计算性能和处理效率。将语音增强操作设计为流式处理的方式，即逐帧地处理输入音频数据，而不是一次性处理整个音频流。这样可以降低内存占用和计算需求，并实现实时或近实时的处理效果，使得计算资源较为有限的设备使用实时变声技术的实时性变高。

附图说明

图1为本发明实施例中多对多的实时语音变音方法的第一个实施例示意图；

图2为本发明实施例中多对多的实时语音变音方法的第一个实施例的参考图；

图3为本发明实施例中多对多的实时语音变音方法的第一个实施例的参考图；

图4为本发明实施例中多对多的实时语音变音方法的第一个实施例的参考图；

图5为本发明实施例中多对多的实时语音变音方法的第一个实施例的参考图；

图6为本发明实施例中多对多的实时语音变音方法的第一个实施例的参考图；

图7为本发明实施例中多对多的实时语音变音方法的第一个实施例的参考图；

图8为本发明实施例中多对多的实时语音变音设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种多对多的实时语音变音方法、设备及存储介质。

下面将参照附图更详细地描述本发明公开的实施例。虽然附图中显示了本发明公开的某些实施例，然而应当理解的是，本发明公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本发明公开的附图及实施例仅用于示例性作用，并非用于限制本发明公开的保护范围。

在本发明公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中多对多的实时语音变音方法的一个实施例包括：

101、检测到变声处理请求时，根据所述变声处理请求，获取待变声的音频数据流，并根据所述变声处理请求，确定待变目标的预设音色音频；

在本实施例中，当检测到变声处理请求时，从音频源中获取待变声的音频数据流。音频源可以是麦克风、文件输入或实时流媒体等。

根据变声处理请求，从预存的音色库中选择合适的预设音色音频作为待变声目标。预设音色音频是提前录制并存储的具有不同音色特征的音频样本。

将待变声的音频数据流和选择的预设音色音频进行必要的处理。这可能包括音频格式转换、采样率匹配、时域和频域处理等。

可选的，解析所述变声处理请求，得到解析结果；获取所述解析结果中待变目标关键字；根据所述目标关键字，在预设音色音频数据库中查询并获取所述预设音色音频。

102、提取所述音频数据流的768维网络特征，提取所述预设音色音频的梅尔特征信息，并提取所述预设音色音频的音色编码特征；

在本实施例中，根据1280个采样点的汉宁窗以960个采样点为重叠窗移的方式在所述预设音色音频上使用汉宁滤波，得到多个部分重叠的分时数据块；对所述分时数据块使用离散快速傅利叶变换，得到基础梅尔频谱矩阵；将预设的短时傅利叶频谱矩阵与所述基础梅尔频谱矩阵相乘，得到所述梅尔特征信息。具体的，对变音目标音色语音音频A（预设音色音频）采用图2所示的方式提取梅尔特征信息。步骤如下：

步骤1：使用1280个采样点的汉宁窗以960个采样点为重叠窗移的方式在目标音色音频（预设音色音频）的时域数据上使用汉宁滤波，得到多个部分重叠的分时数据块；

步骤2：对每块分时数据块使用离散快速傅利叶变换，得到音频数据的频域特征，为短时傅利叶频谱；

步骤3：将短时傅利叶频谱矩阵与基础梅尔频谱矩阵相乘，得到梅尔特征信息M1。

可选的，将所述音色音频采用固定大小的汉宁窗进行数据分块，得到数据块集，并在所述音色音频上获取二维梅尔频谱；对所述二维梅尔频谱执行合并降维计算，得到所述音色编码特征。具体的，对变音目标音色语音音频A采用图3所示的流程，提取说话人音色嵌入特征T。步骤有：

步骤1：将A采用固定大小的汉宁窗进行数据分块，得到数据块集Z；

步骤2：在A上获取二维梅尔频谱M2；

步骤3：通过对M2数据合并降维计算，得到目标音色音频的说话人音色嵌入特征T（音色编码特征）。

可选的，调用1层组标准转换网络层和6层组标准转换网络层，处理所述音频数据流，得到第一特征；调用1层投影转换网络层，处理所述第一特征，得到第二特征；调用encoder编码网络层中的音色嵌入层，处理所述第二特征，得到第三特征；将所述第二特征与所述第三特征叠加，得到第四特征；将所述第四特征与所述encoder编码网络层中的12层特征编码层进行计算，得到所述特征768维网络特征。具体的，对需要变音的音频数据流S采用图4所示的流程，进行变音前处理，得到语音片段S1，预处理步骤有：

步骤1：语音增强；

步骤2：说话语音端点检测。

对一个S1片段通过wav2vec2模型提取得到768维神经网络特征F，模型流程步骤图5所示。wav2vec2模型流程有：

步骤1：将S1通过1层组标准转换网络层和6层标准转换网络层得到网络特征F1；

步骤2：网络特征F1特征通过1层投影转换网络层，得到投影F2；

步骤3：F2通过encoder编码网络层中的音色嵌入层得到音色特征T1；

步骤4：将F2通过与T1叠加，并与encoder编码网络层中的12层特征编码层计算得到特征F（768维网络特征）。

103、根据预先训练的多头注意力模型，对所述768维网络特征、所述梅尔特征信息以及所述音色编码特征执行特征交叉操作，得到目标音频特征；

在本实施例中，将768维网络特征F经过FragmentVC模型（图6所示），通过M1、T得到目标音频特征F1。模型流程步骤有：

步骤1：将M1进行三次梯度网络得到频谱特征R1、R2、R3；

步骤2：将F经过1层多头注意力模型，得到注意力特征A1；

步骤3：将A1与T、R3通过一层多头注意力模型，得到交叉注意力特征A2；

步骤4：将A2与R2通过多头注意力模型交叉特征，得到特征A3；

步骤5：将A3与R1通过多头注意力模型交叉特征，得到特征A4；

步骤6：将A4使用注意力模型进行平滑特征，得到特征A5，即目标音频特征F1。

104、将所述目标音频特征翻译成时域音频波形能量数据；

可选的，将所述目标音频特征转换为时域信号；计算所述时域信号的波形能量数据，得到所述时域音频波形能量数据。时域信号是指信号在时间上的变化，包括信号的幅度和相位随时间的变化。在时域上表示的信号通常是一维的，横轴代表时间，纵轴代表信号的幅度。

时域信号可以用数学函数或数据序列来表示。对于连续时间信号，可以用函数表示，如s(t)；对于离散时间信号，可以用序列表示，如s[n]。时域信号的波形描述了信号在时间轴上的变化特征，可以通过观察波形来获取信号的时长、频率、振幅等信息。

时域分析是对信号在时间域上的性质进行研究和分析，常见的时域分析方法包括幅度图、相位图、自相关函数、互相关函数、平均功率等。

与时域相对的是频域，频域描述了信号的频率成分和相位信息。时域和频域是相互转换的，通过傅里叶变换可以将信号从时域转换到频域，而通过逆傅里叶变换可以将信号从频域转换回时域。

时域分析对于理解信号的时序特性以及进行许多信号处理任务（如滤波、降噪、特征提取等）都非常重要。

可选的，调用hifi-gan模型ResBlock网络，对所述目标音频特征执行特征矩阵转置操作，得到所述时域音频波形能量数据。

105、根据所述时域音频波形能量数据，执行语音增强操作，以响应所述变声处理请求；

在本实施例中，使用vocode hifi-gan模型方法将目标音频特征F1翻译成时域音频波形能量数据D。流程如图7所示，模型流程步骤有：

步骤1：将F1通过具有9层网络结构的hifi-gan模型ResBlock网络，得到音频时域音频波形能量数据D；

步骤2：对D进行语音增强。

本发明实施例中，检测到变声处理请求时，根据所述变声处理请求，获取待变声的音频数据流，并根据所述变声处理请求，确定待变目标的预设音色音频；提取所述音频数据流的768维网络特征，提取所述预设音色音频的梅尔特征信息，并提取所述预设音色音频的音色编码特征；根据预先训练的多头注意力模型，对所述768维网络特征、所述梅尔特征信息以及所述音色编码特征执行特征交叉操作，得到目标音频特征；将所述目标音频特征翻译成时域音频波形能量数据；根据所述时域音频波形能量数据，执行语音增强操作，以响应所述变声处理请求。多对多的实时语音变音设备根据变声处理请求和预设音色音频，可以实现对音频数据流的变声处理，使其具有不同的音色特征。这样可以为用户提供更多样化、个性化的音频效果。其中，多对多的实时语音变音设备选择计算复杂度较低的特征提取方法，例如使用快速算法或减少特征维度的方法，以降低对设备计算资源的要求。设计简化的特征交叉模型，减少模型的参数量和计算量。可以采用轻量级的网络结构，如卷积神经网络中的小型卷积核或深度可分离卷积，以及适当减少模型的层数和神经元数量。使用优化算法和高效编码技术，以减少数据处理和传输的开销。例如，采用快速傅里叶变换（FFT）算法进行频谱分析，使用高效的音频编码格式进行数据压缩等。利用硬件加速技术，如GPU、FPGA或专用的音频处理芯片，以提高设备的计算性能和处理效率。将语音增强操作设计为流式处理的方式，即逐帧地处理输入音频数据，而不是一次性处理整个音频流。这样可以降低内存占用和计算需求，并实现实时或近实时的处理效果，使得计算资源较为有限的设备使用实时变声技术的实时性变高。

图8是本发明实施例提供的一种多对多的实时语音变音设备的结构示意图，该多对多的实时语音变音设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）510（例如，一个或一个以上处理器）和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530（例如一个或一个以上海量存储设备）。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对多对多的实时语音变音设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在多对多的实时语音变音设备500上执行存储介质530中的一系列指令操作。

基于多对多的实时语音变音设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，Free BSD等等。本领域技术人员可以理解，图8示出的多对多的实时语音变音设备结构并不构成对基于多对多的实时语音变音设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述多对多的实时语音变音方法的步骤。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种多对多的实时语音变音方法，其特征在于，所述多对多的实时语音变音方法包括步骤：

将所述目标音频特征翻译成时域音频波形能量数据；

根据所述时域音频波形能量数据，执行语音增强操作，以响应所述变声处理请求；

其中，所述根据预先训练的多头注意力模型，对所述768维网络特征、所述梅尔特征信息以及所述音色编码特征执行特征交叉操作，得到目标音频特征的步骤包括：

将所述梅尔特征信息进行三次梯度网络转换得到第一频谱特征、第二频谱特征以及第三频谱特征，并根据预先训练的所述多头注意力模型，将所述768维网络特征转换为第一注意力特征；

根据所述多头注意力模型、所述音色编码特征、所述第三频谱特征以及所述第一注意力特征执行所述特征交叉操作，生成第二注意力特征；

根据所述多头注意力模型，对所述第四注意力特征执行平滑处理，得到所述目标音频特征；

所述提取所述音频数据流的768维网络特征的步骤包括：

将所述第二特征与所述第三特征叠加，得到第四特征；

将所述第四特征与所述encoder编码网络层中的12层特征编码层进行计算，得到所述768维网络特征。

2.根据权利要求1所述的多对多的实时语音变音方法，其特征在于，所述将所述目标音频特征翻译成时域音频波形能量数据的步骤包括：

将所述目标音频特征转换为时域信号；

3.根据权利要求1所述的多对多的实时语音变音方法，其特征在于，所述将所述目标音频特征翻译成时域音频波形能量数据的步骤包括：

4.根据权利要求1所述的多对多的实时语音变音方法，其特征在于，所述提取所述预设音色音频的梅尔特征信息的步骤包括：

5.根据权利要求1所述的多对多的实时语音变音方法，其特征在于，所述提取所述预设音色音频的音色编码特征的步骤包括：

6.根据权利要求1所述的多对多的实时语音变音方法，其特征在于，所述根据所述变声处理请求，确定待变目标的预设音色音频的步骤包括：

解析所述变声处理请求，得到解析结果；

获取所述解析结果中待变目标关键字；

7.一种多对多的实时语音变音设备，其特征在于，所述多对多的实时语音变音设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述多对多的实时语音变音设备执行如权利要求1-6中任一项所述的多对多的实时语音变音方法。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的多对多的实时语音变音方法。