CN111724757A

CN111724757A - 一种音频数据处理方法及相关产品

Info

Publication number: CN111724757A
Application number: CN202010603627.1A
Authority: CN
Inventors: 闫震海
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-09-29

Abstract

本申请公开了一种音频数据处理方法及相关产品。该方法包括：对待处理的音频数据进行信号分离，得到第一人声数据和音乐数据；使用头相关传输函数对所述第一人声数据进行滤波处理，获得第二人声数据；将所述第二人声数据与所述音乐数据进行叠加处理，得到目标音频数据。还公开了相应的装置。采用本方案可以实现对音乐歌曲的改编，无需依赖专业的音乐从业人员，提高改编音乐歌曲的创作效率。

Description

一种音频数据处理方法及相关产品

技术领域

本申请涉及数据处理技术领域，尤其涉及一种音频数据处理方法及相关产品。

背景技术

改编，是指在原有作品的基础上，通过改变作品的表现形式或者用途等，创作出具有独创性的作品。比如，对音乐歌曲进行改编可以创作出很多区别于该音乐歌曲的新的音乐风格的精彩作品，不仅丰富了同一音乐歌曲的不同风格的种类，还为听众在不同场景下的音乐风格需求提供了更多的选择。

然而，传统的对音乐歌曲的改编方式往往依赖于专业的音乐从业人员，普通用户无法完成改编这一创作；此外，并不是所有的音乐歌曲都有相应的改编作品，若要对大量的音乐歌曲进行改编，需要耗费大量的音乐从业人员的时间和精力，创作效率低。

发明内容

本申请提供一种音频数据处理方法及相关产品，可以提高改编音乐歌曲的创作效率。

第一方面，提供了一种音频数据处理方法，所述方法包括：对待处理的音频数据进行信号分离，得到第一人声数据和音乐数据；使用头相关传输函数对所述第一人声数据进行滤波处理，获得第二人声数据；将所述第二人声数据与所述音乐数据进行叠加处理，得到目标音频数据。

在该方面中，本申请首先通过对待处理的音频数据进行信号分离，得到第一人声数据和音乐数据；然后，使用头相关传输函数对第一人声数据进行滤波处理，获得第二人声数据，可以实现对人声部分的渲染；最后，将第二人声数据与音乐数据进行叠加处理，得到目标音频数据。采用本方案可以实现对音乐歌曲的改编，无需依赖专业的音乐从业人员，提高改编音乐歌曲的创作效率。

在一种可能实现的方式中，所述音乐数据包括第一音乐数据和第二音乐数据；所述对待处理的音频数据进行信号分离，得到第一人声数据和音乐数据，包括：对所述待处理的音频数据进行第一级信号分离，得到所述第一音乐数据和参考音频数据；对所述参考音频数据进行第二级信号分离，得到所述第二音乐数据和所述第一人声数据。

在该种可能实现的方式中，通过对待处理的音频数据进行第一级信号分离，可得到第一音乐数据和参考音频数据，进一步地，对参考音频数据进行第二级信号分离，可得到第二音乐数据和第一人声数据。经过上述两级信号分离，不仅得到两种音乐数据，还可以提升所得到的第一人声数据的纯净度。

在另一种可能实现的方式中，所述对所述待处理的音频数据进行第一级信号分离，得到所述第一音乐数据和参考音频数据，包括：对所述待处理的音频数据按照第一帧长进行短时傅里叶变换处理，获得所述待处理的音频数据的待处理时频分析数据；对所述待处理时频分析数据进行信号时频特征提取处理，获得第一时频分析数据和参考时频分析数据；对所述第一时频分析数据进行短时傅里叶逆变换处理，得到所述第一音乐数据；以及对所述参考时频分析数据进行短时傅里叶逆变换处理，得到所述参考音频数据。

在该种可能实现的方式中，通过对待处理的音频数据按照第一帧长进行短时傅里叶变换处理，获得待处理时频分析数据，然后对该待处理时频分析数据进行特征提取，从而实现时频域上的信号分离，最后通过短时傅里叶逆变换即可获得第一音乐数据和参考音频数据，实现从待处理的音频数据中分离出纯净的第一音乐数据。

在又一种可能实现的方式中，所述待处理时频分析数据包含所述待处理的音频数据在各个时刻的各个频率分量的信号幅值；所述对所述待处理时频分析数据进行信号时频特征提取处理，获得第一时频分析数据和参考时频分析数据，包括：对所述待处理时频分析数据中同一频率不同时刻的信号幅值进行中值滤波处理，获得第一时频特征数据；并对所述待处理时频分析数据中同一时刻不同频率的信号幅值进行中值滤波处理，获得参考时频特征数据；计算所述第一时频特征数据中的第一信号幅值和所述参考时频特征数据中的参考信号幅值之间所满足的第一关系式；所述第一信号幅值在所述第一时频特征数据中的对应时刻与所述参考信号幅值在所述参考时频特征数据中的对应时刻相同，所述第一信号幅值在所述第一时频特征数据中的对应频率与所述参考信号幅值在所述参考时频特征数据中的对应频率相同；根据所述第一关系式，确定第一时频掩模和参考时频掩模；使用所述第一时频掩模对所述待处理时频分析数据进行时频掩模计算，得到所述第一时频分析数据；并使用所述参考时频掩模对所述待处理时频分析数据进行时频掩模计算，得到所述参考时频分析数据。

在该种可能实现的方式中，通过对待处理时频分析数据进行不同方向上的中值滤波处理，获得两种时频特征数据，然后根据这两种时频特征数据的对应时刻对应频率的信号幅值之间所满足的关系式，确定两个时频掩模，最后，基于这两个时频掩模对待处理时频分析数据进行时频掩模计算，即可得到第一时频分析数据和参考时频分析数据，以便在后续处理过程中基于第一时频分析数据分离出纯净的第一音乐数据，以及基于参考时频分析数据实现下一级的信号分离。

在又一种可能实现的方式中，所述对所述参考音频数据进行第二级信号分离，得到所述第二音乐数据和所述第一人声数据，包括：对所述参考音频数据按照第二帧长进行短时傅里叶变换处理，得到所述参考音频数据的参考时频分析数据；所述第二帧长小于所述第一帧长；对所述参考时频分析数据进行信号时频特征提取处理，得到第二时频分析数据和人声时频分析数据；对所述第二时频分析数据进行短时傅里叶逆变换处理，获得所述第二音乐数据；对所述人声时频分析数据进行短时傅里叶逆变换处理，获得所述第一人声数据。

在该种可能实现的方式中，通过对参考音频数据按照第二帧长进行短时傅里叶变换处理，获得参考时频分析数据，并且第二帧长小于上述第一帧长；然后对该参考时频分析数据进行特征提取，从而实现时频域上的信号分离，最后通过短时傅里叶逆变换即可获得第二音乐数据和第一人声数据，实现从上述参考音频数据中分离出纯净的第二音乐数据并同时得到第一人声数据。

在又一种可能实现的方式中，所述参考时频分析数据包含所述参考音频数据在各个时刻的各个频率分量的信号幅值；所述对所述参考时频分析数据进行信号时频特征提取处理，得到第二时频分析数据和人声时频分析数据，包括：对所述参考时频分析数据中同一频率不同时刻的信号幅值进行中值滤波处理，得到人声时频特征数据；并对所述参考时频分析数据中同一时刻不同频率的信号幅值进行中值滤波处理，得到第二时频特征数据；计算所述人声时频特征数据中的人声信号幅值和所述第二时频特征数据中的第二信号幅值之间所满足的第二关系式；所述人声信号幅值在所述人声时频特征数据中的对应时刻与所述第二信号幅值在所述第二时频特征数据中的对应时刻相同，所述人声信号幅值在所述人声时频特征数据中的对应频率与所述第二信号幅值在所述第二时频特征数据中的对应频率相同；根据所述第二关系式，确定人声时频掩模和第二时频掩模；使用所述人声时频掩模对所述参考时频分析数据进行时频掩模计算，获得所述人声时频分析数据；以及使用所述第二时频掩模对所述参考时频分析数据进行时频掩模计算，获得所述第二时频分析数据。

在该种可能实现的方式中，通过对参考时频分析数据进行不同方向上的中值滤波处理，获得两种时频特征数据，然后根据这两种时频特征数据的对应时刻对应频率的信号幅值之间所满足的关系式，确定两个时频掩模，最后，基于这两个时频掩模对参考时频分析数据进行时频掩模计算，即可得到第二时频分析数据和人声时频分析数据，以实现后续过程中通过短时傅里叶逆变换获得两种时域信号。

在又一种可能实现的方式中，将所述第二人声数据与所述音乐数据进行叠加处理，得到目标音频数据，包括：将所述第一音乐数据按照第一比例系数、所述第二音乐数据按照第二比例系数与所述第二人声数据进行叠加处理，得到所述目标音频数据；所述第一比例系数与所述第二比例系数之和等于参考数值，所述参考数值大于自然数0。

在该种可能实现的方式中，通过将第一音乐数据按照第一比例系数、第二音乐数据按照第二比例系数与第二人声数据进行叠加处理，可以得到目标音频数据。该目标音频数据中既包含可产生“环绕感”的第二人声数据，又包含按照比例进行混合的两种背景音乐。可实现对音乐歌曲的改编，无需依赖专业的音乐从业人员，提高改编音乐歌曲的创作效率。

在又一种可能实现的方式中，所述使用头相关传输函数对所述第一人声数据进行滤波处理，获得第二人声数据之前，所述方法还包括：获取用户设置的参数信息；所述使用头相关传输函数对所述第一人声数据进行滤波处理，获得第二人声数据，包括：根据所述用户设置的参数信息，确定目标头相关传输函数；使用所述目标头相关传输函数对所述第一人声数据进行滤波处理，获得所述第二人声数据。

在该种可能实现的方式中，通过获取用户设置的参数信息，然后根据该参数信息来选择相应的目标头相关传输函数，并使用目标头相关传输函数对第一人声数据进行滤波处理，获得第二人声数据。可实现普通用户对音乐歌曲进行自定义方式的改编，进一步提高改编音乐歌曲的创作效率。

在又一种可能实现的方式中，所述第一人声数据包括左声道人声数据和右声道人声数据；所述使用头相关传输函数对所述第一人声数据进行滤波处理，得到第二人声数据，包括：计算所述左声道人声数据与所述右声道人声数据的平均值人声数据；使用头相关传输函数对所述平均值人声数据进行滤波处理，得到所述第二人声数据。

在该种可能实现的方式中，通过计算左声道人声数据与右声道人声数据的平均值人声数据，可进一步提纯人声数据，然后对该平均值人声数据进行后续滤波等处理，相应地可以提升得到的第二人声数据的纯净度。

第二方面，提供了一种音频数据处理方法，所述方法包括：对待处理的音频数据进行信号分离，得到人声数据和音乐数据，所述音乐数据包括第一音乐数据和第二音乐数据；将所述第一音乐数据按照第一比例系数、所述第二音乐数据按照第二比例系数与所述人声数据进行叠加处理，得到目标音频数据；所述第一比例系数与所述第二比例系数之和等于参考数值，所述参考数值大于自然数0。

在该方面中，本申请通过将第一音乐数据按照第一比例系数、第二音乐数据按照第二比例系数与上述人声数据进行叠加处理，所得到的目标音频数据包含上述待处理的音频数据中的人声数据，以及按照比例进行混合的两种背景音乐。可以实现通过调整上述第一比例系数与第二比例系数，来改变所得到的目标音频数据在听感上的音乐节奏感或沉浸感，进而实现对音乐歌曲的改编，无需依赖专业的音乐从业人员，提高改编音乐歌曲的创作效率。

第三方面，提供了一种音频数据处理装置，所述装置包括：信号分离单元，用于对待处理的音频数据进行信号分离，得到第一人声数据和音乐数据；滤波单元，用于使用头相关传输函数对所述第一人声数据进行滤波处理，获得第二人声数据；叠加单元，用于将所述第二人声数据与所述音乐数据进行叠加处理，得到目标音频数据。

在一种可能实现的方式中，所述音乐数据包括第一音乐数据和第二音乐数据；所述信号分离单元，具体用于：对所述待处理的音频数据进行第一级信号分离，得到所述第一音乐数据和参考音频数据；以及对所述参考音频数据进行第二级信号分离，得到所述第二音乐数据和所述第一人声数据。

在另一种可能实现的方式中，所述信号分离单元具体还用于：对所述待处理的音频数据按照第一帧长进行短时傅里叶变换处理，获得所述待处理的音频数据的待处理时频分析数据；对所述待处理时频分析数据进行信号时频特征提取处理，获得第一时频分析数据和参考时频分析数据；对所述第一时频分析数据进行短时傅里叶逆变换处理，得到所述第一音乐数据；以及对所述参考时频分析数据进行短时傅里叶逆变换处理，得到所述参考音频数据。

在又一种可能实现的方式中，所述待处理时频分析数据包含所述待处理的音频数据在各个时刻的各个频率分量的信号幅值；所述信号分离单元具体还用于：对所述待处理时频分析数据中同一频率不同时刻的信号幅值进行中值滤波处理，获得第一时频特征数据；并对所述待处理时频分析数据中同一时刻不同频率的信号幅值进行中值滤波处理，获得参考时频特征数据；计算所述第一时频特征数据中的第一信号幅值和所述参考时频特征数据中的参考信号幅值之间所满足的第一关系式；所述第一信号幅值在所述第一时频特征数据中的对应时刻与所述参考信号幅值在所述参考时频特征数据中的对应时刻相同，所述第一信号幅值在所述第一时频特征数据中的对应频率与所述参考信号幅值在所述参考时频特征数据中的对应频率相同；根据所述第一关系式，确定第一时频掩模和参考时频掩模；使用所述第一时频掩模对所述待处理时频分析数据进行时频掩模计算，得到所述第一时频分析数据；并使用所述参考时频掩模对所述待处理时频分析数据进行时频掩模计算，得到所述参考时频分析数据。

在又一种可能实现的方式中，所述信号分离单元具体还用于：对所述参考音频数据按照第二帧长进行短时傅里叶变换处理，得到所述参考音频数据的参考时频分析数据；所述第二帧长小于所述第一帧长；对所述参考时频分析数据进行信号时频特征提取处理，得到第二时频分析数据和人声时频分析数据；对所述第二时频分析数据进行短时傅里叶逆变换处理，获得所述第二音乐数据；对所述人声时频分析数据进行短时傅里叶逆变换处理，获得所述第一人声数据。

在又一种可能实现的方式中，所述参考时频分析数据包含所述参考音频数据在各个时刻的各个频率分量的信号幅值；所述信号分离单元具体还用于：对所述参考时频分析数据中同一频率不同时刻的信号幅值进行中值滤波处理，得到人声时频特征数据；并对所述参考时频分析数据中同一时刻不同频率的信号幅值进行中值滤波处理，得到第二时频特征数据；计算所述人声时频特征数据中的人声信号幅值和所述第二时频特征数据中的第二信号幅值之间所满足的第二关系式；所述人声信号幅值在所述人声时频特征数据中的对应时刻与所述第二信号幅值在所述第二时频特征数据中的对应时刻相同，所述人声信号幅值在所述人声时频特征数据中的对应频率与所述第二信号幅值在所述第二时频特征数据中的对应频率相同；根据所述第二关系式，确定人声时频掩模和第二时频掩模；使用所述人声时频掩模对所述参考时频分析数据进行时频掩模计算，获得所述人声时频分析数据；以及使用所述第二时频掩模对所述参考时频分析数据进行时频掩模计算，获得所述第二时频分析数据。

在又一种可能实现的方式中，所述叠加单元，具体用于：将所述第一音乐数据按照第一比例系数、所述第二音乐数据按照第二比例系数与所述第二人声数据进行叠加处理，得到所述目标音频数据；所述第一比例系数与所述第二比例系数之和等于参考数值，所述参考数值大于自然数0。

在又一种可能实现的方式中，所述装置还包括：获取单元，用于获取用户设置的参数信息；所述滤波单元具体用于：根据所述用户设置的参数信息，确定目标头相关传输函数；使用所述目标头相关传输函数对所述第一人声数据进行滤波处理，获得所述第二人声数据。

在又一种可能实现的方式中，所述第一人声数据包括左声道人声数据和右声道人声数据；所述滤波单元具体还用于：计算所述左声道人声数据与所述右声道人声数据的平均值人声数据；使用头相关传输函数对所述平均值人声数据进行滤波处理，获得所述第二人声数据。

第四方面，提供了一种音频数据处理装置，所述装置包括：信号分离单元，用于对待处理的音频数据进行信号分离，得到人声数据和音乐数据，所述音乐数据包括第一音乐数据和第二音乐数据；叠加单元，用于将所述第一音乐数据按照第一比例系数、所述第二音乐数据按照第二比例系数与所述人声数据进行叠加处理，得到目标音频数据；所述第一比例系数与所述第二比例系数之和等于参考数值，所述参考数值大于自然数0。

第五方面，提供了一种电子设备，包括：处理器、存储器；所述处理器被配置为支持所述电子设备执行上述第一方面、第二方面及其任一种可选的实现方式的方法中相应的功能。所述存储器保存所述电子设备必要的程序(指令)和数据。可选的，所述电子设备还可以包括输入/输出接口，用于支持所述电子设备与其他装置之间的通信。

第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面、第二方面及其任一种可选的实现方式的方法。

第七方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面、第二方面及其任一种可选的实现方式的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例提供的一种应用头相关传输函数的场景示意图；

图2为本申请实施例提供的另一种应用头相关传输函数的场景示意图；

图3为本申请实施例提供的一种音频数据处理方法的流程示意图；

图4为本申请实施例提供的另一种音频数据处理方法的流程示意图；

图5为本申请实施例提供的一种声源在空间中的虚拟旋转轨迹的场景示意图；

图6为本申请实施例提供的又一种音频数据处理方法的流程示意图；

图7为本申请实施例提供的一种对时频分析数据进行中值滤波处理的流程示意图；

图8为本申请实施例提供的另一种对时频分析数据进行中值滤波处理的流程示意图；

图9为本申请实施例提供的一种确定时频掩模的流程示意图；

图10为本申请实施例提供的另一种音频数据处理方法的流程示意图；

图11为本申请实施例提供的一种音频数据处理装置的结构示意图；

图12为本申请实施例提供的一种音频数据处理装置的硬件结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为更清楚地描述本申请实施例，下面先介绍一些“头相关传输函数”的相关知识。“头相关传输函数”(head related transfer functions，HRTF)是一种音效定位算法，它描述了声波从声源到双耳的传输过程。在实际应用中，利用耳机或扬声器重新发送使用HRTF处理过的信号，可以模拟空间中任意一个位置处的声源，从而虚拟出各种不同的空间听觉效果。

HRTF是虚拟声合成的核心技术，它描述的是自由场下声源到双耳之间的传输函数，是人体结构对声波综合滤波的结果，包含着关于声源定位的大部分信息。HRTF是与空间位置信息和人体参数有关的物理量。一方面，由于HRTF数据和人体生理参数关系联系比较紧密，不同的生理参数所对应的HRTF数据各不相同。它表征了声音从声源到双耳传输过程中人体的各个生理器官比如头部、耳廓、肩膀、躯干等对声音综合滤波的结果。不同听者具有不同的个性化生理参数，所以HRTF是一个因人而异的个性化物理量。个性化HRTF可以通过在实验室进行测量并计算获取，但是，对每一个人都进行实验来获取个性化HRTF数据十分耗时耗力，因此，在很多虚拟声的应用中都会使用固定单一的HRTF数据库。另一方面，现有的HRTF数据库大多都存在空间分辨率不高的问题。完整的HRTF数据测量需要对所有不同声源位置进行测量，即便是远场的HRTF，虽然测量时声源的距离是固定不变的，但对不同声源空间方向进行测量也是一个十分耗时的工作，通常需要对成百上千个空间方向进行测量，正是由于这种复杂性，HRFT数据的测量都是在一些事先设定好的有限方位上进行的。目前国内外多个机构已经完成HRTF数据的测量，如麻省理工学院多媒体实验室创建的人工头数据库。

通俗的解释是，如图1所示，假设空间中任意位置处的声源A分别经过传输路径A1、传输路径A2到达图中人物的左耳、右耳，传输路径A1和传输路径A2可以看作一组滤波器即滤波器A1和滤波器A2，图中人物左耳收到的信号为滤波器A1对声源A进行滤波处理后的信号，图中人物右耳收到的信号为滤波器A2对声源A进行滤波处理后的信号，图中人物根据左右耳收到的信号可以知道声源A相对自己的空间位置。声源B到达图中人物左右耳的过程与上述声源A到达图中人物左右耳的过程同理，此处不再赘述。那么，如果获取空间中任意位置处的声源到达图中人物左右耳的传输路径即很多组滤波器，就可以使用这很多组滤波器对任意音频信号进行滤波处理，利用耳机将滤波处理后的信号传输到人的左右耳，就可以模拟空间中任意一个位置处的声源。比如，如图2所示，对于任意的音频，使用滤波器A1对该音频进行滤波处理，然后使用耳机将滤波处理后的音频信号传输至图2中人物的左耳，同样地，使用滤波器A2对该音频进行滤波处理，然后使用耳机将滤波处理后的音频信号传输至图2中人物的右耳，那么，图2中人物从耳机收听到信号后会产生该音频是来自图1中声源A所处空间位置的感觉，也就是说，虚拟出了一种人耳根据收听到的信号判定该信号来自空间某一声源位置处的空间听觉效果。

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图3，图3是本申请实施例(一)提供的一种音频数据处理方法的流程示意图。

301、对待处理的音频数据进行信号分离，得到第一人声数据和音乐数据。

本申请实施例中，上述待处理的音频数据可以为在线音乐歌曲、下载好的离线音乐歌曲、各种录音或配音的音频文件、有声书(广播剧)等等，上述待处理的音频数据的音乐类型可以为流行音乐、古典音乐、摇滚音乐等等。上述第一人声数据可以是以人类自然语言作为载体的语音数据，比如，人在说话、歌唱、哭泣或喊叫时发出的声音，而上述音乐数据包括上述待处理的音频数据中除第一人声数据之外的所有背景音乐数据。比如，若上述待处理的音频数据为一首歌曲，那么相应地，第一人声数据为该歌曲中歌手唱歌所发出的声音即歌声，那么除歌手声音之外的背景音乐例如各种乐器伴奏声(钢琴声、笛子声、鼓声等等)都可以视为上述音乐数据；若上述待处理的音频数据为一部广播剧，那么相应地，第一人声数据为该广播剧中演员的说话声，那么除演员声音之外的随着剧情出现的各种背景音乐声都可以视为上述音乐数据。上述对待处理的音频数据进行信号分离，得到第一人声数据和音乐数据，可以近似看作是一个“一分为二”的过程，也就是说，通过对上述待处理的音频数据进行信号分离，得到了两种音频数据即第一人声数据和音乐数据。一种可能的实现方式是，使用机器学习算法比如卷积神经网络从待处理的音频数据中提取人声数据，那么剩余音频数据即为上述音乐数据；另一种可能的实现方式是使用中置声道来提取人声数据或音乐数据。

302、使用头相关传输函数对第一人声数据进行滤波处理，获得第二人声数据。

本申请实施例中，如上所述，头相关传输函数(head related transferfunctions，HRTF)描述了声波从声源到双耳的传输过程，一组传输函数即为一组滤波器，可以模拟空间中某一位置处的声源，多组传输函数即为多组滤波器，可以模拟空间中多个位置处的声源。HRTF是与空间位置信息和人体参数有关的物理量，在本申请实施例中，可以通过对实际应用场景中的用户进行实验和测量，获得该用户个性化的HRTF数据，也可以使用已经建立好的固定的HRTF数据库，具体使用依据何种方式获取到的HRTF数据，本申请不作限定。此外，一组头相关传输函数即为一组滤波器，具体包含两个滤波器，具体使用时是利用这两个滤波器分别对同一单声道人声数据进行滤波处理。一种可能的情况是，上述第一人声数据即为单通道人声数据，那么可以直接使用HRTF对该第一人声数据进行滤波处理；另一种可能的情况是，上述第一人声数据包括左声道人声数据和右声道人声数据，那么，在本申请实施例中，可以通过计算左声道人声数据与右声道人声数据的平均值人声数据，然后使用HRTF对该平均值人声数据进行滤波处理，比如，假设上述左声道人声数据为X1、右声道人声数据为X2，相应的平均值人声数据即为(X1+X2)/2。可选地，在上述第一人声数据包括左声道人声数据和右声道人声数据的情况下，也可以使用HRTF对左声道人声数据和右声道人声数据中的任意一种单声道人声数据进行滤波处理。

使用头相关传输函数对第一人声数据进行滤波处理，一种可能的实现方式是，将上述第一人声数据由时域转换为频域信号，然后将这一组HRTF分别与该频域信号进行乘积，得到一组人声数据(两通道的人声信号)，此时这一组人声数据仍为频域信号，将其转换为时域信号，即可得到上述第二人声数据。另一种可能的实现方式是，获得HRTF对应的时域信号即头相关脉冲响应(head related impulse response，HRIR)，然后使用一组HRIR分别与上述第一人声数据进行卷积，得到一组人声数据并且该人声数据为时域信号，即为上述第二人声数据。

303、将第二人声数据与音乐数据进行叠加处理，得到目标音频数据。

本申请实施例中，如302中所述，上述第二人声数据包含两通道的人声数据，若上述音乐数据为单通道信号，那么直接将这两通道的人声数据分别与该单通道的音乐数据进行叠加，得到两通道的音频数据；若上述音乐数据为两通道信号，那么将上述两通道的人声数据分别与对应通道的音乐数据进行叠加，同样得到两通道的音频数据。可以理解的是，上述两通道的音频数据即为上述目标音频数据，而该目标音频数据不仅包含使用HRTF处理过的人声数据，还包含音乐数据。如上所述，利用耳机重新发送使用HRTF处理过的信号，可以模拟空间中任意一个位置处的声源，那么，当使用耳机将上述目标音频数据传送到人的双耳时，也可以让人产生该目标音频数据中的人声数据来自空间某一声源位置的感觉。进一步地，若使用多组HRTF分别对不同时段的第一人声数据进行滤波处理，得到上述第二人声数据，那么，当使用耳机将上述目标音频数据传送到人的双耳时，可以让人产生该目标音频数据中的人声数据从空间某一声源位置移动到另一声源位置的感觉，甚至可以让人产生该目标音频数据中的人声数据在空间多个声源位置之间进行移动的感觉，虚拟出了一种“环绕感”。

本申请首先通过对待处理的音频数据进行信号分离，得到第一人声数据和音乐数据；然后，使用头相关传输函数对第一人声数据进行滤波处理，获得第二人声数据，可以实现对人声部分的渲染；最后，将第二人声数据与音乐数据进行叠加处理，得到目标音频数据。采用本方案可以实现对音乐歌曲的改编，无需依赖专业的音乐从业人员，提高改编音乐歌曲的创作效率。

请参阅图4，图4是本申请实施例(二)提供的另一种音频数据处理方法的流程示意图。

401、对待处理的音频数据进行第一级信号分离，得到第一音乐数据和参考音频数据；对参考音频数据进行第二级信号分离，得到第二音乐数据和第一人声数据。

根据上述待处理的音频数据的时频特性，可以将上述待处理的音频数据中包含的信号大致分为三类，即突变信号(如鼓点等节奏感较强的背景音乐数据)、周期信号(如钢琴等平缓的背景音乐数据)、短时周期信号(如人声数据)，其中，突变信号一般持续时间短且频率分量分布较多，而周期信号持续时间长且频率分量分布较少，短时周期信号既有一定的突变性，又具备一定的稳态特征。因此，短时周期信号即人声数据不容易从上述待处理的音频数据中直接分离出来。在本申请实施例中，通过对待处理的音频数据进行两个阶段的分离，得到突变信号和周期信号，将经过这两个阶段所剩余的信号作为上述短时周期信号即第一人声数据，其中，在第一阶段进行第一级信号分离主要得到周期信号即上述第一音乐数据，在第二阶段进行第二级信号分离主要得到突变信号即上述第二音乐数据。具体地，对待处理的音频数据进行第一级信号分离，得到第一音乐数据和参考音频数据，可以近似看作是一个“一分为二”的过程，也就是说，通过对上述待处理的音频数据进行第一级信号分离，得到了两种音频数据即第一音乐数据和参考音频数据，其中，第一音乐数据即上述周期信号，而参考音频数据仍为一种包含突变信号和短时周期信号的混合信号；进一步地，对参考音频数据进行第二级信号分离，得到第二音乐数据和第一人声数据，同样地，可以近似看作是一个“一分为二”的过程，也就是说，通过对上述参考音频数据进行第二级信号分离，得到了两种音频数据即第二音乐数据和第一人声数据，其中，第二音乐数据即上述突变信号，第一人声数据即上述短时周期信号。

402、获取用户设置的参数信息；根据用户设置的参数信息，确定目标头相关传输函数。

如前所述，HRFT数据的测量都是在一些事先设定好的多个方位上进行的，使用不同方位的HRFT数据会虚拟出各种不同的空间听觉效果。比如，如图2所示，图2中对于任意音频，是使用一组滤波器(包含滤波器A1和滤波器A2)即一组HRFT数据对该音频进行滤波处理，然后使用耳机将滤波处理后的音频信号传输至图2中人物的双耳，使图2中人物产生该音频是来自图1中声源A所处空间位置的感觉；那么，可以理解的是，若对图2中所示的任意音频，使用另一组滤波器(包含滤波器B1和滤波器B2)即另一组HRFT数据对该音频进行滤波处理，然后使用耳机将滤波处理后的音频信号传输至图2中人物的双耳，相应地，可以使图2中人物产生该音频是来自图1中声源B所处空间位置的感觉。进一步地，若对图2中所示的任意音频，在第一时间段使用一组滤波器(包含滤波器A1和滤波器A2)即一组HRFT数据对该音频进行滤波处理，在第二时间段使用另一组滤波器(包含滤波器B1和滤波器B2)即另一组HRFT数据对该音频进行滤波处理，其中，第一时间段时长与第二时间段时长之和小于或等于上述任意音频的总时长，那么，使用耳机将滤波处理后的音频信号传输至图2中人物的双耳，可以使图2中人物产生该音频是从图1中声源A所处空间位置移动至声源B所处空间位置的感觉。再进一步地扩展，若对图2中所示的任意音频，使用多个方位的多组滤波器即多组HRFT数据分别在多个细分时间段内对该音频进行滤波处理，然后使用耳机将滤波处理后的音频信号传输至图2中人物的双耳，相应地，可以使图2中人物产生该音频在空间多个声源位置之间进行移动的感觉，虚拟出了一种“环绕感”，可以理解的是，这种“环绕感”具体的轨迹取决于上述多个方位的多组滤波器即多组HRFT数据。

一种可能的实现方式是，用户可以对上述“环绕感”具体的形式进行设置，即获取用户设置的参数信息，该参数信息可以包括用户所希望虚拟出的声源在空间中旋转的轨迹。根据用户设置的参数信息，确定目标头相关传输函数，比如，用户设置以听者为中心，声源以“圆”型轨迹围绕该听者进行旋转，如图5所示，根据该轨迹相对听者的空间方位信息，确定对应方位的多组HRFT数据即上述目标头相关传输函数。可选地，上述参数信息还可以包括用户所希望虚拟出的声源在空间中旋转的速度、方向等参数，然后根据该速度和方向确定使用上述多组HRFT数据的顺序以及切换使用各组HRFT数据的速度。

403、使用目标头相关传输函数对第一人声数据进行滤波处理，获得第二人声数据。

本申请实施例中，根据402中所确定的目标头相关传输函数对第一人声数据进行滤波处理，从而获得第二人声数据，此处使用目标头相关传输函数对第一人声数据进行滤波处理的过程与302中相同，此处不再赘述。

404、将第一音乐数据按照第一比例系数、第二音乐数据按照第二比例系数与第二人声数据进行叠加处理，得到目标音频数据；第一比例系数与第二比例系数之和等于参考数值，该参考数值大于自然数0。

本申请实施例中，如上所述，第一音乐数据主要包含周期信号即节奏舒缓的背景音乐，第二音乐数据主要包含突变信号即节奏感较强的背景音乐。那么，将第一音乐数据按照第一比例系数、第二音乐数据按照第二比例系数与第二人声数据进行叠加处理，所得到的目标音频数据既包含可产生“环绕感”的第二人声数据，又包含按照比例进行混合的两种背景音乐。进一步地，在上述参考数值一定的情况下，若增大上述第一比例系数、减小上述第二比例系数，那么获得的目标音频数据在听感上会增加音乐的节奏感，可选地，在该基础上进一步增加该目标音频数据的“拍子数”(beat per minute，BPM，每分钟节拍数)，该目标音频数据会变得更具有节奏感，更加适用于车载和舞台等需要强音乐节奏感的场景；若减小上述第一比例系数、增大上述第二比例系数，那么获得的目标音频数据在听感上会增加音乐的沉浸感。

本申请通过获取用户设置的参数信息，然后根据该参数信息来选择相应的目标头相关传输函数，并使用目标头相关传输函数对第一人声数据进行滤波处理，获得第二人声数据；可实现普通用户对音乐歌曲进行自定义方式的改编，进一步提高改编音乐歌曲的创作效率。进一步地，通过将第一音乐数据按照第一比例系数、第二音乐数据按照第二比例系数与第二人声数据进行叠加处理，可以得到目标音频数据。该目标音频数据中既包含可产生“环绕感”的第二人声数据，又包含按照比例进行混合的两种背景音乐；在改编人声数据的基础上又进一步改编了音乐数据，无需依赖专业的音乐从业人员，提高改编音乐歌曲的创作效率。

请参阅图6，图6是本申请实施例(三)提供的实施例(二)中的401的一种可能实现的方式的流程示意图。

601、对待处理的音频数据按照第一帧长进行短时傅里叶变换处理，获得待处理的音频数据的待处理时频分析数据。

短时傅里叶变换是常用的一种时频分析方法，它通过时间窗内的一段信号来表示某一时刻的信号特征。在短时傅里叶变换过程中，窗的长度决定频谱图的时间分辨率和频率分辨率，窗长越长，截取的信号越长，信号越长，傅里叶变换后频率分辨率越高，时间分辨率越差；相反，窗长越短，截取的信号就越短，频率分辨率越差，时间分辨率越好，也就是说短时傅里叶变换中，时间分辨率和频率分辨率之间不能兼得，应该根据具体需求进行取舍。

在本申请实施例中，上述第一帧长为进行短时傅里叶变换处理所采用的窗函数的长度，对待处理的音频数据按照第一帧长进行短时傅里叶变换处理，所获得的待处理的音频数据的待处理时频分析数据包含时间、频率、幅值等信息。

602、对待处理时频分析数据进行信号时频特征提取处理，获得第一时频分析数据和参考时频分析数据。

在本申请实施例中，假设使用X(n,k)表示上述待处理时频分析数据，其中，n表示时间，k表示频率。上述待处理的音频数据所包含的不同成分在上述待处理时频分析数据中会表现出不同的特征，通过对待处理时频分析数据进行信号时频特征提取处理，可获得特征不同的时频域的信号成分即上述第一时频分析数据和参考时频分析数据。

具体地，一种可能的实现方式是，首先，对上述待处理时频分析数据中同一频率不同时刻的信号幅值进行中值滤波处理，获得第一时频特征数据；并对上述待处理时频分析数据中同一时刻不同频率的信号幅值进行中值滤波处理，获得参考时频特征数据。然后，计算上述第一时频特征数据中的第一信号幅值和上述参考时频特征数据中的参考信号幅值之间所满足的第一关系式；第一信号幅值在上述第一时频特征数据中的对应时刻与参考信号幅值在上述参考时频特征数据中的对应时刻相同，并且第一信号幅值在上述第一时频特征数据中的对应频率与参考信号幅值在上述参考时频特征数据中的对应频率相同。接着，根据上述第一关系式，确定第一时频掩模和参考时频掩模。最后，使用上述第一时频掩模对上述待处理时频分析数据进行时频掩模计算，得到上述第一时频分析数据；并使用上述参考时频掩模对上述待处理时频分析数据进行时频掩模计算，得到上述参考时频分析数据。

进一步地，举例说明通过中值滤波获得第一时频特征数据和参考时频特征数据的过程。比如，如图7所示，图7中的a图为待处理时频分析数据的一种实例性示意图，对上述待处理时频分析数据中同一频率不同时刻的信号幅值进行中值滤波处理，即沿着时间方向对信号幅值进行一维中值滤波处理，假设对待处理时频分析数据中时刻n2、频率k1所对应的信号幅值X(n2,k1)进行一维中值滤波，且中值滤波的长度为3，也就是说，在时间方向上采用以信号幅值X(n2,k1)为中心(包括该中心)的相邻几个信号幅值的中值代替该信号幅值X(n2,k1)，即选取信号幅值X(n1,k1)、X(n2,k1)、X(n3,k1)中的中值作为上述第一时频特征数据中时刻n2、频率k1所对应的信号幅值XH(n2,k1)，依次对待处理时频分析数据中每一时刻每一频率对应的信号幅值均进行时间方向上的一维中值滤波，即可获得上述第一时频特征数据，如图7中的b图所示，图7中的b图为第一时频特征数据的一种实例性示意图。再比如，如图8所示，图8中的a图为待处理时频分析数据的一种实例性示意图，对上述待处理时频分析数据中同一时刻不同频率的信号幅值进行中值滤波处理，即沿着频率方向对信号幅值进行一维中值滤波处理，假设对待处理时频分析数据中时刻n4、频率k2所对应的信号幅值X(n4,k2)进行一维中值滤波，且中值滤波的长度为3，也就是说，在频率方向上采用以信号幅值X(n4,k2)为中心(包括该中心)的相邻几个信号幅值的中值代替该信号幅值X(n4,k2)，即选取信号幅值X(n4,k1)、X(n4,k2)、X(n4,k3)中的中值作为上述参考时频特征数据中时刻n4、频率k2所对应的信号幅值XP(n4,k2)，依次对待处理时频分析数据中每一时刻每一频率对应的信号幅值均进行频率方向上的一维中值滤波，即可获得上述参考时频特征数据，如图8中的b图所示，图8中的b图为参考时频特征数据的一种实例性示意图。

再进一步地，举例说明计算上述第一时频特征数据中的第一信号幅值和上述参考时频特征数据中的参考信号幅值之间所满足的第一关系式以及根据该第一关系式，确定第一时频掩模和参考时频掩模的过程。一种可能的情况是，在第一信号幅值与参考信号幅值的比值大于常量数值的情况下，确定第一时频掩模在对应时刻对应频率处的二进制掩盖值为自然数1；在第一信号幅值与参考信号幅值的比值小于或等于该常量数值的情况下，确定第一时频掩模在对应时刻对应频率处的二进制掩盖值为自然数0。同样地，在参考信号幅值与第一信号幅值的比值大于该常量数值的情况下，确定参考时频掩模在对应时刻对应频率处的二进制掩盖值为自然数1；在参考信号幅值与第一信号幅值的比值小于或等于该常量数值的情况下，确定参考时频掩模在对应时刻对应频率处的二进制掩盖值为自然数0。其中，上述常量数值的设定取决于实际应用场景，本申请不作限定。比如，如图9所示，图9中的a图为第一时频特征数据的一种实例性示意图，b图为参考时频特征数据的一种实例性示意图，c图为第一时频掩模的一种实例性示意图，d图为参考时频掩模的一种实例性示意图。

假设第一信号幅值为XH(n2,k1)，对应的，参考信号幅值为XP(n2,k1)，若(XH(n2,k1)/XP(n2,k1))>belta，其中belta为上述常量数值，那么第一时频掩模对应位置处的二进制掩盖值MH(n2,k1)为自然数1，若(XH(n2,k1)/XP(n2,k1))≤belta，则MH(n2,k1)为自然数0。同样地，若(XP(n2,k1)/XH(n2,k1))>belta，则参考时频掩模对应位置处的二进制掩盖值MP(n2,k1)为自然数1，若(XP(n2,k1)/XH(n2,k1))≤belta，则MP(n2,k1)为自然数0。按照上述方式，可以确定第一时频掩模和参考时频掩模在各个时刻各个频率所对应的二进制掩盖值。

最后，使用上述第一时频掩模对上述待处理时频分析数据进行时频掩模计算，得到上述第一时频分析数据，也就是说，将上述第一时频掩模在各个时刻各个频率所对应的二进制掩盖值与上述待处理时频分析数据中的对应时刻对应频率的信号幅值进行相乘，获得的包含时间、频率、以及乘积后的信号幅值的数据即为上述第一时频分析数据。并使用上述参考时频掩模对上述待处理时频分析数据进行时频掩模计算，得到上述参考时频分析数据，同样地，将上述参考时频掩模在各个时刻各个频率所对应的二进制掩盖值与上述待处理时频分析数据中的对应时刻对应频率的信号幅值进行相乘，获得的包含时间、频率、以及乘积后的信号幅值的数据即为上述参考时频分析数据。

603、对第一时频分析数据进行短时傅里叶逆变换处理，得到第一音乐数据；以及对参考时频分析数据进行短时傅里叶逆变换处理，得到参考音频数据。

在本申请实施例中，上述第一时频分析数据和上述参考时频分析数据均为时频域的信号，因此，对第一时频分析数据进行短时傅里叶逆变换处理，可得到相应的第一时域信号，即上述第一音乐数据；同样地，对参考时频分析数据进行短时傅里叶逆变换处理，可得到相应的参考时域信号，即上述参考音频数据。

604、对参考音频数据按照第二帧长进行短时傅里叶变换处理，得到参考音频数据的参考时频分析数据；上述第二帧长小于上述第一帧长。

本申请实施例中，对参考音频数据按照第二帧长进行短时傅里叶变换处理，得到参考音频数据的参考时频分析数据的过程，与601中对待处理的音频数据按照第一帧长进行短时傅里叶变换处理，获得待处理的音频数据的待处理时频分析数据的过程原理相同，此处不再赘述。需要指出的是，601中是对待处理的音频数据进行短时傅里叶变换处理，而604中是对参考音频数据进行短时傅里叶变换处理，此外，601中进行短时傅里叶变换处理所采用的窗函数的长度为上述第一帧长，而604中进行短时傅里叶变换处理所采用的窗函数的长度为上述第二帧长，并且，该第二帧长小于该第一帧长。

605、对参考时频分析数据进行信号时频特征提取处理，得到第二时频分析数据和人声时频分析数据。

在本申请实施例中，上述参考时频分析数据包含上述参考音频数据在各个时刻的各个频率分量的信号幅值。上述参考音频数据所包含的不同成分在参考时频分析数据中会表现出不同的特征，通过对参考时频分析数据进行信号时频特征提取处理，可获得特征不同的时频域的信号成分即上述第二时频分析数据和人声时频分析数据。

具体地，一种可能的实现方式是，首先，对上述参考时频分析数据中同一频率不同时刻的信号幅值进行中值滤波处理，得到人声时频特征数据；并对上述参考时频分析数据中同一时刻不同频率的信号幅值进行中值滤波处理，得到第二时频特征数据。然后，计算上述人声时频特征数据中的人声信号幅值和上述第二时频特征数据中的第二信号幅值之间所满足的第二关系式；人声信号幅值在上述人声时频特征数据中的对应时刻与第二信号幅值在上述第二时频特征数据中的对应时刻相同，人声信号幅值在上述人声时频特征数据中的对应频率与第二信号幅值在上述第二时频特征数据中的对应频率相同。接着，根据上述第二关系式，确定人声时频掩模和第二时频掩模。最后，使用上述人声时频掩模对上述参考时频分析数据进行时频掩模计算，获得上述人声时频分析数据；并使用上述第二时频掩模对上述参考时频分析数据进行时频掩模计算，获得上述第二时频分析数据。具体实现过程与602中获得第一时频分析数据和参考时频分析数据的原理相同，此处不再赘述。

606、对第二时频分析数据进行短时傅里叶逆变换处理，获得第二音乐数据；对人声时频分析数据进行短时傅里叶逆变换处理，获得第一人声数据。

在本申请实施例中，上述第二时频分析数据和上述人声时频分析数据均为时频域的信号，因此，对第二时频分析数据进行短时傅里叶逆变换处理，可得到相应的第二时域信号，即上述第二音乐数据；同样地，对人声时频分析数据进行短时傅里叶逆变换处理，可得到相应的人声时域信号，即上述第一人声数据。

本申请通过对待处理的音频数据按照第一帧长进行短时傅里叶变换处理，获得待处理时频分析数据，然后对该待处理时频分析数据进行特征提取，从而实现时频域上的信号分离，最后通过短时傅里叶逆变换即可获得第一音乐数据和参考音频数据，实现从待处理的音频数据中分离出纯净的第一音乐数据。然后，通过对参考音频数据按照第二帧长进行短时傅里叶变换处理，获得参考时频分析数据，并且第二帧长小于上述第一帧长；并对该参考时频分析数据进行特征提取，从而实现时频域上的信号分离，最后通过短时傅里叶逆变换即可获得第二音乐数据和第一人声数据，实现从上述参考音频数据中分离出纯净的第二音乐数据并同时得到第一人声数据。

请参阅图10，图10是本申请实施例(四)提供的另一种音频数据处理方法的流程示意图。

1001、对待处理的音频数据进行信号分离，得到人声数据和音乐数据，该音乐数据包括第一音乐数据和第二音乐数据。

在本申请实施例中，如301所述，对待处理的音频数据进行信号分离，得到人声数据和音乐数据，可以近似看作是一个“一分为二”的过程，也就是说，通过对上述待处理的音频数据进行信号分离，得到了两种音频数据即人声数据和音乐数据。一种可能的实现方式是，使用机器学习算法比如卷积神经网络从待处理的音频数据中提取人声数据，那么剩余音频数据即为上述音乐数据；另一种可能的实现方式是使用中置声道来提取人声数据或音乐数据。进一步地，又一种可能的实现方式是，按照401中所述的过程，得到的上述音乐数据包括第一音乐数据和第二音乐数据。上述人声数据、音乐数据、第一音乐数据以及第二音乐数据的具体含义已在301和401中解释，此处不再赘述。

1002、将上述第一音乐数据按照第一比例系数、上述第二音乐数据按照第二比例系数与上述人声数据进行叠加处理，得到目标音频数据；第一比例系数与第二比例系数之和等于参考数值，该参考数值大于自然数0。

在本申请实施例中，如401中所述，第一音乐数据主要包含周期信号即节奏舒缓的背景音乐，第二音乐数据主要包含突变信号即节奏感较强的背景音乐。那么，将第一音乐数据按照第一比例系数、第二音乐数据按照第二比例系数与上述人声数据进行叠加处理，所得到的目标音频数据包含上述待处理的音频数据中的人声数据，以及按照比例进行混合的两种背景音乐。同样地，可以通过调整上述第一比例系数与第二比例系数，来改变所得到的目标音频数据在听感上的音乐节奏感或沉浸感。

本申请通过将第一音乐数据按照第一比例系数、第二音乐数据按照第二比例系数与上述人声数据进行叠加处理，所得到的目标音频数据包含上述待处理的音频数据中的人声数据，以及按照比例进行混合的两种背景音乐。可以实现通过调整上述第一比例系数与第二比例系数，来改变所得到的目标音频数据在听感上的音乐节奏感或沉浸感，进而实现对音乐歌曲的改编，无需依赖专业的音乐从业人员，提高改编音乐歌曲的创作效率。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参阅图11，图11为本申请实施例提供的一种音频数据处理装置的结构示意图，该装置1包括：信号分离单元11、滤波单元12以及叠加单元13。其中：

信号分离单元11，用于对待处理的音频数据进行信号分离，得到第一人声数据和音乐数据；

滤波单元12，用于使用头相关传输函数对上述第一人声数据进行滤波处理，获得第二人声数据；

叠加单元13，用于将上述第二人声数据与上述音乐数据进行叠加处理，得到目标音频数据。

在一种可能实现的方式中，上述音乐数据包括第一音乐数据和第二音乐数据；上述信号分离单元11，具体用于：对上述待处理的音频数据进行第一级信号分离，得到上述第一音乐数据和参考音频数据；以及对上述参考音频数据进行第二级信号分离，得到上述第二音乐数据和上述第一人声数据。

在另一种可能实现的方式中，上述信号分离单元11具体还用于：对上述待处理的音频数据按照第一帧长进行短时傅里叶变换处理，获得上述待处理的音频数据的待处理时频分析数据；对上述待处理时频分析数据进行信号时频特征提取处理，获得第一时频分析数据和参考时频分析数据；对上述第一时频分析数据进行短时傅里叶逆变换处理，得到上述第一音乐数据；以及对上述参考时频分析数据进行短时傅里叶逆变换处理，得到上述参考音频数据。

在又一种可能实现的方式中，上述待处理时频分析数据包含上述待处理的音频数据在各个时刻的各个频率分量的信号幅值；上述信号分离单元11具体还用于：对上述待处理时频分析数据中同一频率不同时刻的信号幅值进行中值滤波处理，获得第一时频特征数据；并对上述待处理时频分析数据中同一时刻不同频率的信号幅值进行中值滤波处理，获得参考时频特征数据；计算上述第一时频特征数据中的第一信号幅值和上述参考时频特征数据中的参考信号幅值之间所满足的第一关系式；上述第一信号幅值在上述第一时频特征数据中的对应时刻与上述参考信号幅值在上述参考时频特征数据中的对应时刻相同，上述第一信号幅值在上述第一时频特征数据中的对应频率与上述参考信号幅值在上述参考时频特征数据中的对应频率相同；根据上述第一关系式，确定第一时频掩模和参考时频掩模；使用上述第一时频掩模对上述待处理时频分析数据进行时频掩模计算，得到上述第一时频分析数据；并使用上述参考时频掩模对上述待处理时频分析数据进行时频掩模计算，得到上述参考时频分析数据。

在又一种可能实现的方式中，上述信号分离单元11具体还用于：对上述参考音频数据按照第二帧长进行短时傅里叶变换处理，得到上述参考音频数据的参考时频分析数据；上述第二帧长小于上述第一帧长；对上述参考时频分析数据进行信号时频特征提取处理，得到第二时频分析数据和人声时频分析数据；对上述第二时频分析数据进行短时傅里叶逆变换处理，获得上述第二音乐数据；对上述人声时频分析数据进行短时傅里叶逆变换处理，获得上述第一人声数据。

在又一种可能实现的方式中，上述参考时频分析数据包含上述参考音频数据在各个时刻的各个频率分量的信号幅值；上述信号分离单元11具体还用于：对上述参考时频分析数据中同一频率不同时刻的信号幅值进行中值滤波处理，得到人声时频特征数据；并对上述参考时频分析数据中同一时刻不同频率的信号幅值进行中值滤波处理，得到第二时频特征数据；计算上述人声时频特征数据中的人声信号幅值和上述第二时频特征数据中的第二信号幅值之间所满足的第二关系式；上述人声信号幅值在上述人声时频特征数据中的对应时刻与上述第二信号幅值在上述第二时频特征数据中的对应时刻相同，上述人声信号幅值在上述人声时频特征数据中的对应频率与上述第二信号幅值在上述第二时频特征数据中的对应频率相同；根据上述第二关系式，确定人声时频掩模和第二时频掩模；使用上述人声时频掩模对上述参考时频分析数据进行时频掩模计算，获得上述人声时频分析数据；以及使用上述第二时频掩模对上述参考时频分析数据进行时频掩模计算，获得上述第二时频分析数据。

在又一种可能实现的方式中，上述叠加单元13，具体用于：将上述第一音乐数据按照第一比例系数、上述第二音乐数据按照第二比例系数与上述第二人声数据进行叠加处理，得到上述目标音频数据；上述第一比例系数与上述第二比例系数之和等于参考数值，上述参考数值大于自然数0。

在又一种可能实现的方式中，上述装置还包括：获取单元14，用于获取用户设置的参数信息；上述滤波单元12具体用于：根据上述用户设置的参数信息，确定目标头相关传输函数；使用上述目标头相关传输函数对上述第一人声数据进行滤波处理，获得上述第二人声数据。

在又一种可能实现的方式中，上述第一人声数据包括左声道人声数据和右声道人声数据；上述滤波单元12具体还用于：计算上述左声道人声数据与上述右声道人声数据的平均值人声数据；使用头相关传输函数对上述平均值人声数据进行滤波处理，获得上述第二人声数据。

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图12为本申请实施例提供的一种音频数据处理装置的硬件结构示意图。该装置2包括处理器21，还可以包括输入装置22、输出装置23和存储器24。该输入装置22、输出装置23、存储器24和处理器21之间通过总线相互连接。

处理器21可以是一个或多个图形处理器(graphics processing unit，GPU)，在处理器21是一个GPU的情况下，该GPU可以是单核GPU，也可以是多核GPU。示例性的，处理器21可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。示例性的，该处理器还可以为其他类型的处理器等等，本申请实施例不作限定。应当理解，本申请的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

输入装置22用于输入数据和/或信号，以及输出装置23用于输出数据和/或信号。输出装置22和输入装置23可以是独立的器件，也可以是一个整体的器件。

存储器24可用于存储计算机程序指令，以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random accessmemory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

可以理解的是，图12仅仅示出了音频数据处理装置的简化设计。在实际应用中，音频数据处理装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本申请实施例的音频数据处理装置都在本申请的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本申请各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时，全部或部分地产生按照本申请实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatiledisc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存储存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种音频数据处理方法，其特征在于，包括：

对待处理的音频数据进行信号分离，得到第一人声数据和音乐数据；

使用头相关传输函数对所述第一人声数据进行滤波处理，获得第二人声数据；

将所述第二人声数据与所述音乐数据进行叠加处理，得到目标音频数据。

2.根据权利要求1所述的方法，其特征在于，所述对待处理的音频数据进行信号分离，得到第一人声数据和音乐数据，包括：

对所述待处理的音频数据进行第一级信号分离，得到第一音乐数据和参考音频数据；

对所述参考音频数据进行第二级信号分离，得到第二音乐数据和所述第一人声数据。

3.根据权利要求2所述的方法，其特征在于，所述对所述待处理的音频数据进行第一级信号分离，得到第一音乐数据和参考音频数据，包括：

对所述待处理的音频数据按照第一帧长进行短时傅里叶变换处理，获得所述待处理的音频数据的待处理时频分析数据；

对所述待处理时频分析数据进行信号时频特征提取处理，获得第一时频分析数据和参考时频分析数据；

对所述第一时频分析数据进行短时傅里叶逆变换处理，得到所述第一音乐数据；以及对所述参考时频分析数据进行短时傅里叶逆变换处理，得到所述参考音频数据。

4.根据权利要求3所述的方法，其特征在于，所述待处理时频分析数据包含所述待处理的音频数据在各个时刻的各个频率分量的信号幅值；

所述对所述待处理时频分析数据进行信号时频特征提取处理，获得第一时频分析数据和参考时频分析数据，包括：

对所述待处理时频分析数据中同一频率不同时刻的信号幅值进行中值滤波处理，获得第一时频特征数据；并对所述待处理时频分析数据中同一时刻不同频率的信号幅值进行中值滤波处理，获得参考时频特征数据；

计算所述第一时频特征数据中的第一信号幅值和所述参考时频特征数据中的参考信号幅值之间所满足的第一关系式；所述第一信号幅值在所述第一时频特征数据中的对应时刻与所述参考信号幅值在所述参考时频特征数据中的对应时刻相同，所述第一信号幅值在所述第一时频特征数据中的对应频率与所述参考信号幅值在所述参考时频特征数据中的对应频率相同；

根据所述第一关系式，确定第一时频掩模和参考时频掩模；

使用所述第一时频掩模对所述待处理时频分析数据进行时频掩模计算，得到所述第一时频分析数据；并使用所述参考时频掩模对所述待处理时频分析数据进行时频掩模计算，得到所述参考时频分析数据。

5.根据权利要求3所述的方法，其特征在于，所述对所述参考音频数据进行第二级信号分离，得到第二音乐数据和所述第一人声数据，包括：

对所述参考音频数据按照第二帧长进行短时傅里叶变换处理，得到所述参考音频数据的参考时频分析数据；所述第二帧长小于所述第一帧长；

对所述参考时频分析数据进行信号时频特征提取处理，得到第二时频分析数据和人声时频分析数据；

对所述第二时频分析数据进行短时傅里叶逆变换处理，获得所述第二音乐数据；对所述人声时频分析数据进行短时傅里叶逆变换处理，获得所述第一人声数据。

6.根据权利要求5所述的方法，其特征在于，所述参考时频分析数据包含所述参考音频数据在各个时刻的各个频率分量的信号幅值；

所述对所述参考时频分析数据进行信号时频特征提取处理，得到第二时频分析数据和人声时频分析数据，包括：

对所述参考时频分析数据中同一频率不同时刻的信号幅值进行中值滤波处理，得到人声时频特征数据；并对所述参考时频分析数据中同一时刻不同频率的信号幅值进行中值滤波处理，得到第二时频特征数据；

计算所述人声时频特征数据中的人声信号幅值和所述第二时频特征数据中的第二信号幅值之间所满足的第二关系式；所述人声信号幅值在所述人声时频特征数据中的对应时刻与所述第二信号幅值在所述第二时频特征数据中的对应时刻相同，所述人声信号幅值在所述人声时频特征数据中的对应频率与所述第二信号幅值在所述第二时频特征数据中的对应频率相同；

根据所述第二关系式，确定人声时频掩模和第二时频掩模；

使用所述人声时频掩模对所述参考时频分析数据进行时频掩模计算，获得所述人声时频分析数据；以及使用所述第二时频掩模对所述参考时频分析数据进行时频掩模计算，获得所述第二时频分析数据。

7.根据权利要求2所述的方法，其特征在于，将所述第二人声数据与所述音乐数据进行叠加处理，得到目标音频数据，包括：

将所述第一音乐数据按照第一比例系数、所述第二音乐数据按照第二比例系数与所述第二人声数据进行叠加处理，得到所述目标音频数据；所述第一比例系数与所述第二比例系数之和等于参考数值，所述参考数值大于自然数0。

8.根据权利要求1或7所述的方法，其特征在于，所述使用头相关传输函数对所述第一人声数据进行滤波处理，获得第二人声数据之前，所述方法还包括：获取用户设置的参数信息，所述参数信息用于表示目标音频数据的声源与人耳的期望相对位置；

所述使用头相关传输函数对所述第一人声数据进行滤波处理，获得第二人声数据，包括：

根据所述用户设置的参数信息，确定目标头相关传输函数；

使用所述目标头相关传输函数对所述第一人声数据进行滤波处理，获得所述第二人声数据。

9.根据权利要求1所述的方法，其特征在于，所述第一人声数据包括左声道人声数据和右声道人声数据；

所述使用头相关传输函数对所述第一人声数据进行滤波处理，得到第二人声数据，包括：

计算所述左声道人声数据与所述右声道人声数据的平均值人声数据；

使用头相关传输函数对所述平均值人声数据进行滤波处理，得到所述第二人声数据。

10.一种音频数据处理方法，其特征在于，包括：

对待处理的音频数据进行信号分离，得到人声数据和音乐数据，所述音乐数据包括第一音乐数据和第二音乐数据；

将所述第一音乐数据按照第一比例系数、所述第二音乐数据按照第二比例系数与所述人声数据进行叠加处理，得到目标音频数据；所述第一比例系数与所述第二比例系数之和等于参考数值，所述参考数值大于自然数0。

11.一种音频数据处理装置，其特征在于，包括：

信号分离单元，用于对待处理的音频数据进行信号分离，得到第一人声数据和音乐数据；

滤波单元，用于使用头相关传输函数对所述第一人声数据进行滤波处理，获得第二人声数据；

叠加单元，用于将所述第二人声数据与所述音乐数据进行叠加处理，得到目标音频数据。

12.根据权利要求11所述的装置，其特征在于，所述信号分离单元，具体用于：

以及对所述参考音频数据进行第二级信号分离，得到第二音乐数据和所述第一人声数据。

13.根据权利要求12所述的装置，其特征在于，所述信号分离单元具体还用于：

14.根据权利要求13所述的装置，其特征在于，所述待处理时频分析数据包含所述待处理的音频数据在各个时刻的各个频率分量的信号幅值；所述信号分离单元具体还用于：

根据所述第一关系式，确定第一时频掩模和参考时频掩模；

15.根据权利要求13所述的装置，其特征在于，所述信号分离单元具体还用于：

16.根据权利要求15所述的装置，其特征在于，所述参考时频分析数据包含所述参考音频数据在各个时刻的各个频率分量的信号幅值；所述信号分离单元具体还用于：

根据所述第二关系式，确定人声时频掩模和第二时频掩模；

17.根据权利要求12所述的装置，其特征在于，所述叠加单元，具体用于：

18.根据权利要求11所述的装置，其特征在于，所述装置还包括：获取单元，用于获取用户设置的参数信息，所述参数信息用于表示目标音频数据的声源与人耳的期望相对位置；所述滤波单元具体用于：

根据所述用户设置的参数信息，确定目标头相关传输函数；

19.根据权利要求11所述的装置，其特征在于，所述第一人声数据包括左声道人声数据和右声道人声数据；所述滤波单元具体还用于：

使用头相关传输函数对所述平均值人声数据进行滤波处理，获得所述第二人声数据。

20.一种音频数据处理装置，其特征在于，包括：

信号分离单元，用于对待处理的音频数据进行信号分离，得到人声数据和音乐数据，所述音乐数据包括第一音乐数据和第二音乐数据；

叠加单元，用于将所述第一音乐数据按照第一比例系数、所述第二音乐数据按照第二比例系数与所述人声数据进行叠加处理，得到目标音频数据；所述第一比例系数与所述第二比例系数之和等于参考数值，所述参考数值大于自然数0。

21.一种电子设备，其特征在于，包括：处理器和存储器，其中，所述存储器存储有程序指令，所述程序指令被所述处理器执行时，使所述处理器执行权利要求1至10任意一项所述的方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行权利要求1至10任意一项所述的方法。