CN114446316A

CN114446316A - 音频分离方法、音频分离模型的训练方法、装置及设备

Info

Publication number: CN114446316A
Application number: CN202210101338.0A
Authority: CN
Inventors: 罗艺; 李凯
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-06
Anticipated expiration: 2042-01-27
Also published as: CN114446316B

Abstract

本申请公开了一种音频分离方法、音频分离模型的训练方法、装置及设备，属于音频处理技术领域。所述方法包括：获取待处理的目标音频数据，目标音频数据中包括至少一个声源；确定目标音频数据的多个时频单元，时频单元用于表征目标音频数据中的声学信息；对于多个时频单元中的目标时频单元，基于目标时频单元对应的时频单元集合，确定目标时频单元对应的实值遮蔽信息；根据时频单元集合和实值遮蔽信息，确定目标时频单元对应的声源信息；基于多个时频单元分别对应的声源信息，从目标音频数据中确定目标声源目标音频数据。通过上述方法，在基本不改变音频分离过程的计算量的同时，能够提高音频分离模型的分离准确度性能。

Description

音频分离方法、音频分离模型的训练方法、装置及设备

技术领域

本申请涉及音频处理技术领域，特别涉及一种音频分离方法、音频分离模型的训练方法、装置及设备。

背景技术

通常情况下，在环境中录制得到的音频数据中包含目标声源和其他声源。音频数据中的其他声源会对目标声源的识别过程造成干扰。因此，需要对音频数据进行分离，以便得到清晰的目标声源。

相关技术中，为了提高音频分离方法的性能，使用复值时频遮蔽的频域模型对音频数据进行处理。在该过程中，需要将音频数据的每一个时频单元分别输入音频分离模型，通过音频分离模型中的分离器确定时频单元对应的复值时频遮蔽；其中，复值时频遮蔽能够同时改变时频单元的幅值信息和相位信息。通过复值时频遮蔽提取时频单元中与目标声源有关的特征信息。基于目标声源的特征信息，获得目标声源的音频数据。

然而，这种音频分离模型在确定复值遮蔽的过程中，需要同时考虑幅值信息和相位信息，计算机设备计算量较大，音频分离速度慢。

发明内容

本申请提供了一种音频分离方法、音频分离模型的训练方法、装置及设备。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种音频分离方法，所述方法包括：

获取待处理的目标音频数据，所述目标音频数据中包括至少一个声源；

确定所述目标音频数据的多个时频单元，所述时频单元用于表征所述目标音频数据中的声学信息；

对于所述多个时频单元中的目标时频单元，基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息；其中，所述时频单元集合包括所述目标时频单元和至少一个其他时频单元，所述实值遮蔽信息中包括至少两个实值遮蔽，所述实值遮蔽与所述时频单元集合中的时频单元存在对应关系；

根据所述时频单元集合和所述实值遮蔽信息，确定所述目标时频单元对应的声源信息；

基于多个所述时频单元分别对应的声源信息，从所述目标音频数据中确定目标声源的音频数据。

根据本申请实施例的一个方面，提供了一种音频分离模型的训练方法，所述方法，包括：

获取至少一个样本音频数据，所述样本音频数据中包括至少一个声源；

确定所述样本音频数据的多个时频单元，所述时频单元用于表征所述样本音频数据中的声学信息；

对于所述多个时频单元中的目标时频单元，通过所述音频分离模型基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息；其中，所述时频单元集合包括所述目标时频单元和至少一个其他时频单元，所述实值遮蔽信息中包括至少两个实值遮蔽，所述实值遮蔽与所述时频单元集合中的时频单元存在对应关系；

根据所述时频单元集合和所述实值遮蔽信息，确定所述目标时频单元对应的预测声源信息；

基于所述目标时频单元对应的预测声源信息，对所述音频分离模型进行训练。

根据本申请实施例的一个方面，提供了一种音频分离装置，所述装置包括：

音频数据获取模块，用于获取待处理的目标音频数据，所述目标音频数据中包括至少一个声源；

时频单元确定模块，用于确定所述目标音频数据的多个时频单元，所述时频单元用于表征所述目标音频数据中的声学信息；

实值遮蔽确定模块，用于对于所述多个时频单元中的目标时频单元，基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息；其中，所述时频单元集合包括所述目标时频单元和至少一个其他时频单元，所述实值遮蔽信息中包括至少两个实值遮蔽，所述实值遮蔽与所述时频单元集合中的时频单元存在对应关系；

声源信息确定模块，用于根据所述时频单元集合和所述实值遮蔽信息，确定所述目标时频单元对应的声源信息；

目标音频确定模块，用于基于多个所述时频单元分别对应的声源信息，从所述目标音频数据中确定目标声源的音频数据。

根据本申请实施例的一个方面，提供了一种音频分离模型的训练装置，所述装置包括：

样本数据获取模块，用于获取至少一个样本音频数据，所述样本音频数据中包括至少一个声源；

时频单元确定模块，用于确定所述样本音频数据的多个时频单元，所述时频单元用于表征所述样本音频数据中的声学信息；

实值遮蔽确定模块，用于对于所述多个时频单元中的目标时频单元，通过所述音频分离模型基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息；其中，所述时频单元集合包括所述目标时频单元和至少一个其他时频单元，所述实值遮蔽信息中包括至少两个实值遮蔽，所述实值遮蔽与所述时频单元集合中的时频单元存在对应关系；

声源信息确定模块，用于根据所述时频单元集合和所述实值遮蔽信息，确定所述目标时频单元对应的预测声源信息；

音频模型训练模块，用于基于所述目标时频单元对应的预测声源信息，对所述音频分离模型进行训练。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述音频分离方法，或者，实现上述音频分离模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述音频分离方法，或者，实现上述音频分离模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令以实现上述音频分离方法，或者，实现上述音频分离模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

首先，时频单元对应的声源信息是通过实值遮蔽确定的，因为实值遮蔽只改变语谱图的幅值信息，而不需要改变语谱图的相位信息，因此相比于通过复值遮蔽确定时频单元的声源信息，确定实值遮蔽的过程比确定复值遮蔽的过程的计算量更小，因此音频分离速度更快。

通过某个时频单元以及至少一个其他时频单元，确定该时频单元对应的声源信息的过程中，构成了一个欠定的线性系统(未知数的个数多于方程组的个数)，该系统存在无穷多个解，因此，一定存在一个属于该系统的完美解，通过该系统有机会将目标时频单元中的声源信息完美分离。因此，通过上述方法进行音频分离，分离出的音频的准确度上限较高，甚至没有理论上限对分离结果进行限制，通过提高目标时频单元对应的实值遮蔽信息的准确度，有机会实现音频的完美分离。换句话说，通过该方法对待处理的音频数据进行分离具有较高的准确度。

其次，本方法能够适用于通过实值遮蔽进行音频分离的所有音频分离模型，无需改变音频分离模型的现有结构，即可同时实现减少音频分离过程中的计算量，且提高音频分离模型的性能的技术效果，具有较好的普适性。

附图说明

图1是本申请一个示例性实施例提供的方案实施环境的示意图；

图2是本申请一个示例性实施例提供的音频分离方法的流程图；

图3是本申请另一个示例性实施例提供的音频分离方法的流程图；

图4是本申请一个示例性实施例提供的音频分离模型的训练方法的流程图；

图5是本申请一个示例性实施例提供的音频分离装置的框图；

图6是本申请一个示例性实施例提供的音频分离模型的训练装置的框图；

图7是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行介绍：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术，在本申请中，基于机器学习的方法对音频分离模型进行训练，使得音频分离模型能够确定待分离的音频数据的多个时频单元分别对应的实值遮蔽(realmask)，或者也称为实值掩码。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

理想二值遮蔽(Ideal Binary Mask，IBM)是指一种实值时频遮蔽评价标准，常用于模型训练流程，其计算方法依赖于目标声源的语谱图，

其中C为目标声源的个数。例如，实值理想二值遮蔽(IBM)通过目标声源的语谱图的能量计算：

其中，f，t为频率与时间维度的索引，S_i为目标声源的语谱图。

复值比例遮蔽(Complex Ratio Mask，CRM)通过目标声源与混合音频的复值语谱图的比值决定：

其中，f，t为频率与时间维度的索引，S_i为目标声源的语谱图，Y_i(f,t)待处理的音频数据的语谱图，函数T(x)用于将x的实部与虚部限制在[-1,1]范围内。

音频数据可以是包含语音的音频数据，也可以其他音频数据，例如混合乐器声的音频数据(如吉他，钢琴合奏)。

音频分离是指从混合音频数据中分离出至少一个声源对应的音频数据的过程。示例性地，在一种典型的场景下，音频分离是语音分离。

根据干扰的不同，语音分离任务可以分为三类：1.当干扰为噪声信号时，可以称为“语音增强”(Speech Enhancement)；2.当干扰为其他说话人时，可以称为“多说话人分离”(Speaker Separation)；3.当干扰为目标说话人自己声音的反射波时，可以称为“解混响”(De-reverberation)。

目前的音频增强与分离框架大致分为时域与频域两类：时域模型直接对带噪音频或混合音频的波形进行处理；频域模型首先对输入音频的波形进行时频变换，如短时傅里叶变换(Short-Time Fourier Transform，STFT)，之后在生成的时频特征(如语谱图，spectrogram)上进行处理。对频域模型而言，一类标准方法为使用时频遮蔽(TF mask)将音频增强或分离问题转换为针对时频特征的分类问题。然而，自2018年起，基于神经网络的时域模型在各类基准数据集上均获取了高于频域模型的性能，其主要的处理框架为“编码器-分离器-解码器”结构：编码器作为STFT的替代，将输入波形转化为二维的实值(real-valued)特征；分离器对编码器的输出进行建模，估计带噪输入或混合输入中待增强或分离的声源的对应二维实值特征；解码器作为反傅里叶变换的替代将分离器的输出重建成波形。相对于频域模型的固定的编码/解码过程(STFT/ISTFT)而言，基于神经网络的时域模型中的编码器与解码器为一组可以与分离器共同优化的参数，使其能够获得比传统频域模型更高的理论上限性能。

本申请通过包含时频单元a的多个时频单元，确定时频单元a对应的实值遮蔽信息，并利用该实值遮蔽信息和多个时频单元确定时频单元a中的声源信息。首先通过实值遮蔽进行音频分离，确定时频对应的实值遮蔽的计算量较小(只考虑时频单元的幅值信息，无需考虑时频单元的相位信息)。其次通过是个时频单元确定一个时频单元对应的声源信息的过程中，是一个欠定的线性系统求解的过程。在某个欠定系统可解的情况下，该欠定系统一定存在无穷多组解，因此本方法的不存在准确度的理论上限。

图1是本申请一个示例性实施例提供的方案实施环境的示意图。该方案实施环境可以包括：音频分离设备10和模型训练设备20。

音频分离设备10可以是诸如PC(Personal Computer，个人计算机)、平板电脑、手机、可穿戴设备、智能家电、车载终端、飞行器等电子设备。音频分离设备10上设置有音频分离模型。通过音频分离模型能够从待分离的音频数据中分离出目标声源对应的音频数据，以完成音频分离过程。

模型训练设备20用于训练音频分离模型。音频分离模型是指用于进行音频分离的模型(神经网络模型、信号处理模型或算法)，例如卷积神经网络模型。在本方案中，音频分离模型用于确定时频单元对应的实值遮蔽。将多个时频单元分别对应的复数信息输入音频分离模型，音频分离模型能够生成对应的上述多个时频单元分别对应的实值遮蔽。以便通过这些实值遮蔽确定上述多个时频单元中，某一个时频单元对应的声源信息。

在一个示例中，模型训练设备20和音频分离设备10是同一台设备，音频分离设备10通过训练得到音频分离模型，并使用训练好的音频分离模型从待分离的音频数据中分离出目标声源对应的音频数据。

在另一个示例中，模型训练设备20对音频分离模型进行训练，并将训练好的音频分离模型发送给音频分离设备10，使得音频分离设备10能够用该训练好的音频分离模型进行音频分离。

图2是本申请一个示例性实施例提供的音频分离方法的流程图。示例性地，该方法的执行主体可以是图1所示的方案实施环境中的音频分离设备10。如图2所示，该方法可以包括如下几个步骤(210～250)中的至少一个步骤：

步骤210，获取待处理的目标音频数据，目标音频数据中包括至少一个声源。

待处理的目标音频数据是指需要进行音频分离的混合音频数据。声源是指由于发声物体运动，引起空气振动产生的信号。不同发生物体运动产生的声源之间存在差距。即使同一种发声物体，由于运动的形式不同(如振动的频率不同)，产生的声音之间也会存在差别。因此，音频分离设备通过不同声源之间的差别，能够对待分离的目标音频数据进行分离。

在一些实施例中，待处理的目标音频数据中包括，目标声源和其他声源。其中，目标声源是指期望从待处理的目标音频数据中分离出的声源，其他声源是指待处理的目标音频数据中对识别或接收目标声源产生干扰的声源。在另一些实施例中，待处理的目标音频数据中包括一种声源(该声源即为音频分离的目标声源)，以及噪声或者回声。待处理的目标音频数据包括但不限于以下之一：音乐类音频数据、含有噪声的语音类音频数据。其中，音乐类音频数据中包括至少两种乐器声，或者包括歌声和至少一种乐器声。含有噪声的语音音频数据包括：包含至少两个语音声源的音频数据、至少一个语音声源和至少一个噪声的音频数据。噪声可以来自于环境中的其他声源，也可以是语音声源产生的回声。

在一些实施例中，在从待处理的目标音频数据中分离出目标声源之后，可以对目标声源对应的音频数据进行进一步的音频识别，也可以将目标声源对应的音频数据存储起来。

音频分离设备获取待处理的目标音频数据的方式包括但不限于以下至少一种：接收其他设备发送的音频数据，例如接收服务器发送的待处理的目标音频数据；通过查找音频数据库获取待处理的目标音频数据；通过现场录制等方式，主动获取待处理的目标音频分离数据。在获取到待处理的目标音频数据之后，音频分离设备需要对待处理的目标音频数据进行编码处理，待处理的目标音频数据转换其他形式，以便进行对待处理的目标音频数据进行音频分离。

步骤220，确定目标音频数据的多个时频单元，时频单元用于表征目标音频数据中的声学信息。

在一些实施例中，待处理的目标音频数据的表现形式为时域上的波形信息(该波形的横轴表示时间信息，纵轴表示振幅信息)，在使用频域的方法对待处理的目标音频数据进行分离的情况下，需要先对待处理的目标音频数据的波形进行时频变换，获得待处理的目标音频数据的声学信息。首先，需要提取待处理的目标音频数据中的声学信息(该声学信息能够表示待处理的目标音频数据的时频特征)。例如，通过傅里叶变换、小波变换、希尔伯特变换等方法，从待处理的目标音频数据中获取其对应的声学信息。

以对待处理的目标音频数据进行傅里叶变换为例，对上述时频变换过程进行介绍说明。由于待处理的目标音频数据(如乐器演奏音频数据、语音音频数据)往往不是平稳的音频数据，在一些时间范围内的音频数据是周期变换的，在另一些时间范围内的音频数据则失去周期性。因此，需要对目标音频数据进行短时傅里叶变换，通过分帧、加窗将待处理的目标音频数据分成若干个音频数据段，并对各个音频数据分别进行时频转换，获得各个音频数据段分别对应的频谱图。频谱图是指以时间为横轴，频率为纵轴的波动曲线，通过频谱图中的颜色信息表示幅值。在一些实施例中，在目标音频数据属于语音类音频数据的情况下，音频数据段对应的频谱信息也称为“语音频谱图”，简称“语谱图”。

频谱图中波动曲线上的转折点(曲线斜率发生正负变换的临界点)称为一个时频单元。对于频谱图中的任意一个时频单元，该时频单元对应一个复数信息，例如，某个时频单元对应的声学信息可以表示为a+bi，通过该复数信息可以确定该时频单元的相位信息和幅值信息，其中，a＝rcosθ，b＝rsinθ，r为幅值信息，θ为相角，i表示虚部。

在一些实施例中，一个语谱图中包含多个时频单元，例如，某个目标音频数据为语音数据，对该目标音频数据进行短时傅里叶变换，分帧长度为32ms，即每一个音频数据段的长度为32ms，对该目标音频数据的音频数据段分别进行傅里叶变换得到对应的语谱图，该语谱图中包含512个时频单元。在一些实施例中，时频单元中携带的声学信息可以通过：Y(f，t)表示，其中，f表示时频单元在频谱图中的频率信息，t表示时频单元在频谱图中的时间信息。

在一些实施例中，音频分离设备一次确定目标音频数据的全部时频单元，再进行下一步处理。在另一些实施例中，音频分离设备以音频数据段为单位，逐个或者分批确定音频数据段中的时频单元。

步骤230，对于多个时频单元中的目标时频单元，基于目标时频单元对应的时频单元集合，确定目标时频单元对应的实值遮蔽信息；其中，时频单元集合包括目标时频单元和至少一个其他时频单元，实值遮蔽信息中包括至少两个实值遮蔽，实值遮蔽与时频单元集合中的时频单元存在对应关系。

在一些实施例中，目标音频数据的多个时频单元是目标音频数据中包含的所有时频单元。在另一些实施例中，多个时频单元是指目标音频数据中的部分时频单元，例如上述多个时频单元来自相同的音频数据段。

在一些实施例中，目标时频单元对应的时频单元集合中包括至少两个时频单元，其中一个为目标时频单元。除目标时频单元之外，时频单元集合中还可以包括上述多个时频单元中的至少一个时频单元。在一些实施例中，出于方便音频分离设备选取时频单元，缩短选择时频单元所需时间的目的，时频单元集合中的除目标时频单元之外的时频单元是在频谱图上与目标时频单元相邻的时频单元。在另一些实施例中，音频分离设备从多个可选的时频单元中，任意选择若干个时频单元，并将上述选择的时频单元与目标时频单元组成目标时频单元对应的时频单元集合。关于时频单元集合中时频单元的具体选择方法，请参考下文实施例。

在一些实施例中，时频单元集合中包括n个时频单元，n为大于1的正整数，例如n＝2，3，4，6，8…。理论上，时频单元集合中可以包含目标时频单元和任意数目的其他时频单元，但是时频单元集合中包含的时频单元的数目越多，意味着音频分离设备对目标音频数据进行分离过程中的计算量越大。因此，需要适当控制时频单元集合中时频单元的数量，提高确定目标时频单元的对应的目标声源信息的速度，从而提高音频分离设备从待分离的目标音频中分离出目标声源对应的音频数据的速度。

在一些实施例中，不同目标时频单元分别对应的时频单元集合中包含的时频单元的数量相同，也即在对某个待处理的目标音频数据进行分离的过程中，该待处理的目标音频数据中各个时频单元的处理方法基本相同。可选地，不同目标时频单元分别对应的时频单元集合中，包括的时频单元不完全相同。例如，目标时频单元1对应的时频单元集合中还包括：时频单元1、时频单元2；目标时频单元2对应的时频单元集合中还包括：时频单元3、时频单元4；目标时频单元3对应的时频单元集合中还包括：时频单元5、目标时频单元1。

在确定目标音频数据的多个时频单元之后，音频分离设备需要分别确定各个时频单元中与目标声源有关的信息。在一些实施例中，音频分离设备基于实值遮蔽的思想，从各个时频单元中确定与目标声源有关的信息。在确定频谱图中各个时频单元对应的遮蔽之后，通过多个遮蔽对频谱图对应的音频数据进行处理，即可得到与目标声源有关的信息。

实值遮蔽用于改变频谱图的幅值(magnitude)信息，而无需改变频谱图的相位(phase)信息。也即，基于实值遮蔽，能够对各个时频单元对应的幅值信息进行滤波，在一些实施例中，实值遮蔽称为实值时频遮蔽。

在一些实施例中，实值遮蔽信息可以以实值遮蔽矩阵的形式表示。实值遮蔽矩阵是由至少两个实值遮蔽组成的多维矩阵。实值遮蔽矩阵中的实值遮蔽与时频单元集合中的时频单元集合之间存在对应关系。由于实值遮蔽用于改变时频单元对应的幅值信息，不同的时频单元中包含的声学信息不同，也即不同时频单元表征的幅值信息不完全相同。因此，即使对于来自同一个语谱图的两个或多个时频单元，这些时频单元分别对应的实值遮蔽也不完全相同。在一些实施例中，实值遮蔽信息中的实值遮蔽与时频单元集合中的时频单元是一一对应的关系，也即，时频单元集合中的一个时频单元对应一个实值遮蔽，同时，实值遮蔽信息中的一个实值遮蔽对应时频单元集合中的一个时频单元，若时频单元集合中包括n个时频单元，则实值遮蔽信息中包括n个实值遮蔽。

步骤240，根据时频单元集合和实值遮蔽信息，确定目标时频单元对应的声源信息。

声源信息中包含与目标音源有关的信息，目标声源是指期望从待分离的目标音频数据中分离出的声源。目标时频单元对应的目标声源信息用于表征目标音源的声学特征。

音频分离设备通过时频单元集合和实值遮蔽信息确定目标时频单元对应的声源信息，关于该过程的详细内容，请参考下文实施例。

步骤250，基于多个时频单元分别对应的声源信息，从目标音频数据中确定目标声源的音频数据。

在获得某个时频单元对应的声源信息之后，音频分离设备可以基于该声源信息进行反傅里叶变换，获得目标声源对应的音频数据段。在另一些实施例中，在确定多个时频单元分别对应的声源信息之后，音频分离设备可以将这些声源信息按照时间顺序进行排列，获得声源信息组合，并对该声源信息组合进行反傅里叶变换，获得目标声源对应的音频数据段。在通过上述方法获得多个目标声源对应的音频数据段之后，音频分离设备可以将多个目标声源对应的音频数据段进行拼接，得到目标声源的音频数据。

综上所述，首先，时频单元对应的声源信息是通过实值遮蔽确定的，因为实值遮蔽只改变语谱图的幅值信息，而不需要改变语谱图的相位信息，因此相比于通过复值遮蔽确定时频单元的声源信息，确定实值遮蔽的过程比确定复值遮蔽的过程的计算量更小，因此音频分离速度更快。

通过某个时频单元以及至少一个其他时频单元，确定该时频单元对应的声源信息的过程中，构成了一个欠定的线性系统(未知数的个数多于方程组的个数)，该系统若存在解，则存在无穷多组解，因此，一定存在一个属于该系统的完美解，通过该系统有机会将目标时频单元中的声源信息完美分离。因此，通过上述方法进行音频分离，分离出的音频的准确度上限较高，甚至没有理论上限对分离结果进行限制，通过提高目标时频单元对应的实值遮蔽信息的准确度，有机会实现音频的完美分离。换句话说，通过该方法对待处理的音频数据进行分离具有较高的准确度。

其次，本方法能够适用于通过实值遮蔽进行音频分离的所有音频分离模型，无需改变音频分离模型的结构，即可同时实现减少音频分离过程中的计算量，且提高音频分离模型的性能的技术效果，具有较好的普适性。

下面将通过以下几个实施例对实值遮蔽信息的确定过程进行介绍。示例性地，该方法的执行主体可以是图1所示的实施环境中的音频分离设备10。如图3所示，该方法可以包括如下几个步骤(310～380)中的至少一个步骤：

步骤310，获取待处理的目标音频数据，目标音频数据中包括至少一个声源。

步骤320，确定目标音频数据的多个时频单元，时频单元用于表征目标音频数据中的声学信息。

步骤330，对于多个时频单元中的目标时频单元，基于目标时频单元对应的时频单元集合，确定目标时频单元对应的实值遮蔽信息；其中，时频单元集合包括目标时频单元和至少一个其他时频单元，实值遮蔽信息中包括至少两个实值遮蔽，实值遮蔽与时频单元集合中的时频单元存在对应关系。

步骤340，分别获取时频单元集合中各个时频单元的复值信息；其中，复值信息用于表征时频单元的幅值信息和相位信息。

在一些实施例中，时频单元的复值信息可以采用Y(f，t)表示，其中，f表示该时频单元在频谱图中对应的频率信息，t表示该时频单元在频谱图中对应的时间信息。复数信息包括实部信息和虚部信息，Y(f，t)的实部信息可以使用Y_r表示，虚部信息可以使用Y_i表示。

音频分离设备分别确定时频单元集合中各个时频单元的复值信息。为了方便解释说明，以目标时频单元对应的其他时频单元为目标时频单元相邻的时频单元为例，其他时频单元分别对应的复值信息可以通过Y(f±τ,t±σ)表示，其中τ、σ为整数。在这种情况下，目标时频单元对应的时频单元集合中包括(2τ+2σ+1)个时频单元。例如τ＝0，σ＝2，该时频单元集合中包括5个时频单元，分别可以表示为Y(f₁,t-2)、Y(f₂,t-1)，Y(f,t)(目标时频单元)、Y(f₄,t+1)和Y(f₅,t+2)。

步骤350，将各个时频单元分别对应的复值信息进行拼接，得到预测矩阵。

预测矩阵用于确定目标时频单元对应的实值遮蔽信息。由于预测矩阵是根据各个时频单元分别对应的复值信息拼接得到的，因此预测矩阵为复值矩阵。按照上述实施例，若其他时频单元为目标时频单元相邻的时频单元Y(f±τ,t±σ)，则预测矩阵可表示为

下面对预测矩阵的获取过程进行介绍说明。

在一些实施例中，步骤350还可以包括以下几个子步骤(352～356)：

步骤352，提取各个复值信息中的第一信息，根据多个第一信息，得到预测矩阵的第一分量。

在一些实施例中，音频分离设备通过将第一信息进行拼接，能够得到预测矩阵的第一分量。在一些实施例中，第一信息是指时频单元的实部数据Y_r。在一些实施例中，第一信息是指时频单元的虚部数据Y_i。

下面以第一信息是指时频单元的实部数据Y_r为例，对获得预测矩阵的第一分量的过程进行计算介绍说明。音频分离设备通过将各个复值信息中的实部数据按照任意顺序进行拼接，可以得到预测矩阵的第一分量，也即实部分量

例如，时频单元中包括3个时频单元，其对应的第一信息(此时第一信息表示实部信息)分别为Y_r1、Y_r2、Y_r3，音频分离设备按照下标从小到大的顺序可以将上述三个第一信息拼接成第一分量[Y_r1,Y_r2,Y_r3]，获得按照其他拼接顺序将上述三个第一信息拼接成[Y_r2,Y_r1,Y_r3]等。在一些实施例中，拼接顺序可以是将不同第一信息进行不重复拼接的任意一种顺序，例如按照时频单元的时间信息从大到小拼接、按照时频单元的频率信息从大到小拼接、随意拼接等。拼接顺序不会对音频分离过程中的准确性产生影响。

步骤354，提取各个复值信息中的第二信息，根据多个第二信息，确定预测矩阵的第二分量；

在一些实施例中，第一信息是指时频单元的虚部数据Y_r，通过将各个复值信息中的虚部数据按照任意顺序进行拼接，可以得到预测矩阵的第二分量，也即虚部分量

例如，时频单元中包括3个时频单元，其对应的第一信息(此时第一信息表示实部信息)分别为Y_i1、Y_i2、Y_i3，音频分离设备按照下标从小到大的顺序可以将上述三个第二信息拼接成第二分量[Y_i1,Y_i2,Y_i3]，也可以将上述三个第一信息拼接成[Y_i2,Y_i1,Y_i3]等。

在第一信息为实部信息的情况下，第二信息为虚部信息。在第一信息为虚部信息的情况下，第二信息为实部信息。需要注意的是，第一信息的拼接顺序和第二信息的拼接顺序应当保持一致，以保证预测矩阵中，来自同一个时频单元的实部信息和虚部信息处于对应的位置。

步骤356，拼接第一分量和第二分量，得到预测矩阵。

在获得第一分量

和第二分量之后

音频分离设备将第一分量

和第二分量

进行拼接得到预测矩阵

步骤360，基于预测矩阵，预测得到目标时频单元对应的实值遮蔽信息。

在一些实施例中，步骤360还可以包括以下几个子步骤(362～366)：

步骤362，将预测矩阵输入至音频分离模型，音频分离模型是用于进行音频分离的模型。

在一些实施例中，音频分离模型用于根据预测矩阵，输出预测矩阵的各个时频单元分别对应的时频遮蔽。

按照上一个实施例，音频分离模型将预测矩阵

输入音频分离模型中。在一些实施例中，该音频分离模型也可以称为分离器，或分离网络，用于根据所述的预测矩阵产生至少一个的实值遮蔽。该音频分离模型可以是用于确定实值时频遮蔽的任意音频分离模型，如神经网络等机器学习模型，以及基于信号处理的原理进行音频分离的模型或算法。在一些实施例中，只需要在现有的音频分离模型的基础，将音频分离模型输出之前的最后一层激活函数删除，不限制音频分离模型输出的实值遮蔽的数量即可。在另一些实施例中，在现有模型的基础上，不需要对模型结构进行任何改动，只需调整模型的输出规模即可。例如，预测矩阵

(预测矩阵是由(2σ+2τ+1)个时频单元组成的)，那么只需要将模型的输出量设置成为2σ+2τ+1，而不对现有的模型进行任何改变。也即对于任意一个现有的，通过时频遮蔽进行音频分离的网络，只需要改变或调整该网络系统输出层对时频正比的估计和应用模式即可，不需要对任务或声源的类型进行限制。因此，本方案具有较好的普适性。

步骤364，通过音频分离模型对预测矩阵进行处理，得到至少两个实值遮蔽。

按照上文介绍，实值遮蔽用于改变时频单元的复值信息，即对时频单元的复值信息进行过滤，保留满足条件的复值信息，将其他复值信息进行删除。

音频分离模型产生的实值遮蔽与时频单元集合中的时频单元存在对应关系。在一些实施例中，音频分离模型对预测矩阵进行处理之后，能够产生与时频单元集合中时频单元数目相同的实值遮蔽，也即时频单元集合的一个时频单元对应由一个实值遮蔽。例如，时频单元集合中包括4个时频单元，则音频分离模型对由上述4个时频单元产生的预测矩阵进行处理后，生成4个实值遮蔽。在另一些实施例中，音频分离模型对预测矩阵进行处理之后，产生的实值遮蔽的数目小于时频单元集合中包括的时频单元的数目，以便减轻稍后通过时频单元集合和实值遮蔽信息确定目标时频单元的声源信息过程中的计算量。

步骤366，将至少两个实值遮蔽进行拼接，得到目标时频单元对应的实值遮蔽信息。

音频分离设备按照一定的拼接顺序对分离得到的至少两个实值遮蔽进行拼接，得到实值遮蔽矩阵F∈R^{1×(2τ+2σ+1)}(假设其他时频单元分别对应的复值信息通过Y(f±τ,t±σ)表示)。在一些实施例中，实值遮蔽信息的拼接顺序与第一信息的拼接顺序，以及第二信息的拼接顺序相同。例如，时频单元集合中包括三个时频单元，分别为Y₁、Y₂和Y₃。第一信息(第二信息)的拼接顺序为按照下角标大小顺序从左向右进行拼接。即预测矩阵为：

三个时频单元对应的实值遮蔽分别为F₁、F₂和F₃，则实值遮蔽信息也按照下角标大小顺序从左向右排列，具体为[F₁,F₂,F₃]。

步骤370，根据时频单元集合和实值遮蔽信息，确定目标时频单元对应的声源信息。

步骤380，基于多个时频单元分别对应的声源信息，从目标音频数据中确定目标声源的音频数据。

通过上述方法，只需要通过目标时频单元以及至少一个其他时频单元就可以从目标时频单元中确定声源信息。由于确定预测矩阵对应的实值遮蔽的计算量远(不需要考虑相位信息)远小于计算预测矩阵对应的复值遮蔽的计算量。因此通过该方法进行音频分离的音频分离速度更快。

下面对确定目标时频单元的声源信息的过程进行介绍说明。

在基于预测矩阵获取实值遮蔽信息之后，音频分离设备可以通过时频单元集合和实值遮蔽信息，确定目标时频单元中的声源信息。

在一些实施例中，根据时频单元集合和实值遮蔽信息，确定目标时频单元对应的声源信息，包括：将预测矩阵中的第一分量和实值遮蔽信息进行运算，确定第一目标信息；将预测矩阵中的第二分量和实值遮蔽信息进行运算，确定第二目标信息；将第一目标信息和第二目标信息进行拼接，得到目标时频单元对应的声源信息。

第一目标信息和第二目标信息分别是声源信息对应的实部信息和虚部信息。目标时频单元对应的声源信息可以通过X(f,t)表示，X(f,t)中包括实部信息

与虚部信息

按照上述实施例中的表示方式，通过

即可获得目标时频单元对应的声源信息，也即通过

确定

通过

确定

最终得到

为目标时频单元对应的声源信息。

上述方法中，由于

F∈R^{1×(2τ+2σ+1)}，因此

属于欠定系统，该系统由无数多个解，其中一定包含至少一个完美解。矩阵X一定能够被现有任意两个矩阵F和

表示。也即通过一个目标时频单元以及周围时频单元确定目标时频单元对应的声源信息的方法不存在理论上限。在用于确定预测矩阵对应的实值遮蔽信息的音频分离模型的性能不断提高的情况下，通过本方法能够不断减小分离音频数据过程中产生的误差，有机会实现对待处理的音频数据进行完美的分离(也即能将目标声源对应的音频数据中包含待处理的音频数据中全部的目标声源信息，并且不包含任意其他声源信息)。通过下文中的实验数据可以，通过本方法能够获得比传统实值遮蔽更好的性能(指音频数据分离的准确度)。

下面对时频单元集合中的其他时频单元的选择方式进行介绍说明。

在一些实施例，音频分离方法还包括：音频分离设备在多个时频单元中，选择满足候选条件的时频单元作为所述时频单元集合中的其他时频单元；其中，候选条件是根据与目标时频单元在频率或者时间的邻近度设定的。

其他时频单元是指时频单元集合中，除目标时频单元以外的时频单元。在一些实施例中，其他时频单元是根据候选条件从多个时频单元中选择的。

候选条件是指从多个时频单元中挑选其他时频单元的方法。在一些实施例中，候选条件与目标时频单元的时间或频率有关。在一些实施例中，时频单元的复值信息可以通过Y(f，t)表示，其中，f表示该时频单元在频谱图中对应的频率信息，t表示该时频单元在频谱图中对应的时间信息。假设目标时频单元的频率信息为f₀，时间信息为t₀，则候选条件可以是将频率信息属于f₀±τ范围内的时频单元作为其他时频单元，也即音频分离设备可以将与目标时频单元频率相近的时频单元作为其他时频单元。

在一些实施例中，候选条件包括与目标时频单元的频率之间的差值小于或等于第一阈值。

在一些实施例中，候选条件包括与目标时频单元的时间之间的差值小于或等于第二阈值。通过这样的候选候条件确定出的其他时频单元，是与目标时频单元在时间轴上相邻的时频单元。

在一些实施例中，音频分离设备按照时间顺序确定待处理的音频数据中的时频单元，因此，对于目标时频单元来说，时间信息大于目标时频单元的时频单元可能尚未确定。其他时频单元的时间信息与目标时频单元的时间信息均处于的第一时间范围可以是[t-σ，t]，对于每一个目标时频单元来说，其对应的时频单元集合中的其他时频单元都是已经确定的，方便音频分离设备选择其他时频单元，以便节省确定目标时频单元对应的时频单元集合的时间。

在一些实施例中，候选条件包括：与目标时频单元的频率之间的差值小于或等于第一阈值，以及，与目标时频单元的时间之间的差值小于或等于第二阈值。

在一些实施例中，候选条件除了和目标时频单元的信息有关之外，还与时频单元集合中包括的时频单元的最大数量有关。例如，时频单元集合中时频单元的最大数量为5(包括目标时频单元)，候选条件可以是在多个时频单元中，确定4个频率信息与目标时频单元的频率信息相近的时频单元，候选条件也可以是在多个时频单元中，确定4个时间信息与目标时频单元的时间信息相近的时频单元。

在一些实施例中，音频分离设备还可以在已经确定的多个时频单元中任意选择几个时频单元与目标时频单元共同组成时频单元集合。

在一些实施例中，音频分离设备还可以对现有的多个时频单元进行分析，将与目标时频单元适配的时频单元，作为其他时频单元。与目标时频单元适配的时频单元用于提高由目标时频单元确定出声源信息的准确度。其中，对多个时频单元进行分析通过分析模型完成，分析模型是神经网络模型。分析模型能够提取目标时频单元和多个时频单元分别对应的特征信息，通过对上述特征信息进行比对，从多个时频单元中，确定出若干个时频单元作为目标时频单元的其他时频单元。

下面，通过实施例对音频分离模型的训练流程进行介绍说明，有关音频分离模型的使用过程中涉及的内容和训练过程中涉及的内容是相互对应的，两者互通，如在一侧未作详细说明的地方，可以参考另一侧的描述说明。

请参考图4，其示出了本申请一个实施例提供的音频分离模型的训练方法的流程图。本方法各步骤的执行主体可以模型训练设备20，也可以是一台计算机，为了描述方便，下面以计算机设备作为执行主体。该方法可以包括如下几个步骤(410-450)中的至少一个步骤：

步骤410，获取至少一个样本音频数据，样本音频数据中包括至少一个声源；

步骤420，确定样本音频数据的多个时频单元，时频单元用于表征样本音频数据中的声学信息；

步骤430，对于多个时频单元中的目标时频单元，通过音频分离模型基于目标时频单元对应的时频单元集合，确定目标时频单元对应的实值遮蔽信息；其中，时频单元集合包括目标时频单元和至少一个其他时频单元，实值遮蔽信息中包括至少两个实值遮蔽，实值遮蔽与时频单元集合中的时频单元存在对应关系；

步骤440，根据时频单元集合和实值遮蔽信息，确定目标时频单元对应的预测声源信息；

步骤450，基于目标时频单元对应的预测声源信息，对音频分离模型进行训练。

在一些实施例中，基于目标时频单元对应的时频单元集合，确定目标时频单元对应的实值遮蔽信息，包括：分别获取时频单元集合中各个时频单元的复值信息；其中，复值信息用于表征时频单元的幅值信息和相位信息；将各个时频单元分别对应的复值信息进行拼接，得到预测矩阵；基于预测矩阵，预测得到目标时频单元对应的实值遮蔽信息。

在一些实施例中，基于预测矩阵，预测得到目标时频单元对应的实值遮蔽信息，包括：将预测矩阵输入至音频分离模型；通过音频分离模型对预测矩阵进行处理，得到至少两个实值遮蔽；将至少两个实值遮蔽进行拼接，得到目标时频单元对应的实值遮蔽信息。

在一些实施例中，基于目标时频单元对应的预测声源信息，对音频分离模型进行训练，包括：根据预测声源信息和真实声源信息，确定音频分离模型的训练损失；根据训练损失对音频分离模型的参数进行调整。

在另一些实施例中，在存在目标声源的情况下，计算机设备可以将分离声源对应的音频数据作为训练结构果，使用IBM等方法，计算音频分离模型的模型损失，根据模型损失对网络参数进行调整。

在一些实施例中，基于目标时频单元对应的预测声源信息，对音频分离模型进行训练，包括：计算预测声源信息和样本音频数据之间的干扰比例；根据干扰比例对音频分离模型的参数进行调整。

干扰比例用于表征分离声源在音频样本之间的占比程度。在一些实施例中，干扰比例包括信干比、信噪比等。在没有目标音频的情况下，可以通过预先设置的目标干扰比例(如目标信干比，或目标信噪比)作为训练目标，例如，计算分离声源与音频样本之间的训练信干比，将该训练信干比作为训练结果。计算机设备通过计算训练信干比和目标信号比之间的差距，确定音频模型的模型损失，并根据该模型损失，对模型参数进行调整(如使用梯度下降法等方法)。

通过上述方法，对于端到端(end-to-end)训练框架而言，无需预先计算理想实值区间滤波的值(目标声源的音频信息)，只需要使用单一训练目标(如模型输入与目标波形之间的信噪比或信干比，即可进行模型训练。

下面，通过传统实值遮蔽方法、复值遮蔽方法、以及本方案提供的音频分离方法进行实验，并验证各个音频分离方法对应的性能。

为了控制单一变量，使用相同的模型和样本集，利用上述三种方法对样本集中的音频进行分离，确定三种方法分别对应的性能。我们在单通道语音分离任务中对比传统实值时频遮蔽、时域模型与本发明提出的实值区间滤波(通过实值遮蔽信息对目标时频单元进行处理)对分离性能的影响。我们使用WSJ0-2mix的基准数据集，其中包含30小时、10小时与5小时的训练、验证、测试数据，采样率均为8k Hz。每一条混合语音均包含两个书画(说话)人，声源均从WSJ0数据中随机选取，说话人之间的相对能量从[-5,5]范围中随机选取。

我们使用基于DPRNN(Dual-path Recurrent Neural Network，双路递归神经网络)的神经网络模型进行性能测试。对于使用传统实值时频遮蔽、无限制实值时频遮蔽与本发明提出的实值区间滤波的模型而言，编码器与解码器使用STFT与ISTFT，分离器使用LPS(log power spectrogram，对数域能量语谱图)作为输入(不含相位信息)；对于时域模型而言，我们使用TasNet(Time-domain Audio Separation Network，时域音频分离网络)类框架，编码器与解码器使用可优化的一维卷积与反卷积模块(包含相位信息)。我们将所有模型的编码器与解码器中的窗长设为4ms或32ms，跳距(hop size)设为1ms或8ms(25％的窗长)。对于传统实值时频遮蔽而言，我们使用Sigmoid函数将分离器输出限制在[0,1]之间以模拟理想二值遮蔽的性质。对于无限制实值时频遮蔽而言，我们移除Sigmoid函数，不对分离器的输出进行限制。对于实值区间滤波模型，我们设置τ＝0，σ＝2，即使用频率维度上相邻各两时频单元作为区间信息，且同样不对分离器的输出进行限制。我们使用信干比作为衡量模型性能的客观评价指标。请参考表一，其示出了本次实验中，各种音频分离方法的性能评价。

表一

通过，上表可以看出，本方法(表一中“频域：实值区间滤波”一栏)，在相同窗长的情况下，本方法能达到和“时域”方法相近的准确度性能。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图5示出了本申请一个示例性实施例提供的音频分离装置的框图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。该装置500可以包括：音频数据获取模块510、时频单元确定模块520、实值遮蔽确定模块530、声源信息确定模块540和目标音频确定模块550。

音频数据获取模块510，用于获取待处理的目标音频数据，所述目标音频数据中包括至少一个声源。

时频单元确定模块520，用于确定所述目标音频数据的多个时频单元，所述时频单元用于表征所述目标音频数据中的声学信息。

实值遮蔽确定模块530，用于对于所述多个时频单元中的目标时频单元，基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息；其中，所述时频单元集合包括所述目标时频单元和至少一个其他时频单元，所述实值遮蔽信息中包括至少两个实值遮蔽，所述实值遮蔽与所述时频单元集合中的时频单元存在对应关系。

声源信息确定模块540，用于根据所述时频单元集合和所述实值遮蔽信息，确定所述目标时频单元对应的声源信息。

目标音频确定模块550，用于基于多个所述时频单元分别对应的声源信息，从所述目标音频数据中确定目标声源的音频数据。

在一些实施例中，所述实值遮蔽确定模块530，包括：复值信息获取单元，用于分别获取所述时频单元集合中各个所述时频单元的复值信息；其中，所述复值信息用于表征所述时频单元的幅值信息和相位信息；预测矩阵确定单元，用于将各个所述时频单元分别对应的复值信息进行拼接，得到预测矩阵；遮蔽矩阵预测单元，用于基于所述预测矩阵，预测得到所述目标时频单元对应的所述实值遮蔽信息。

在一些实施例中，所述预测矩阵确定单元，用于：提取各个所述复值信息中的第一信息，根据多个所述第一信息，得到所述预测矩阵的第一分量；提取各个所述复值信息中的第二信息，根据多个所述第二信息，确定所述预测矩阵的第二分量；拼接所述第一分量和所述第二分量，得到所述预测矩阵。

在一些实施例中，所述遮蔽矩阵预测单元，用于将所述预测矩阵输入至音频分离模型，所述音频分离模型是用于音频分离的模型；通过所述音频分离模型对所述预测矩阵进行处理，得到所述至少两个实值遮蔽；将所述至少两个实值遮蔽进行拼接，得到所述目标时频单元对应的所述实值遮蔽信息。

在一些实施例中，所述音频分离模型用于根据所述预测矩阵，输出所述预测矩阵的各个所述时频单元分别对应的时频遮蔽。

在一些实施例中，所述装置500还包括：时频单元选择模块，用于在所述多个时频单元中，选择满足候选条件的时频单元作为所述时频单元集合中的所述其他时频单元。

在一些实施例中，所述时频单元集合中的所述其他时频单元的频率与所述目标时频单元的频率均处于第一频率范围。

在一些实施例中，所述时频单元集合中的所述其他时频单元的时间与所述目标时频单元的时间均处于第一时间范围。

在一些实施例中，所述时频单元集合中的所述其他时频单元的频率与所述目标时频单元的频率均处于第二频率范围；并且，所述时频单元集合中的所述其他时频单元的时间与所述目标时频单元的时间均处于第二时间范围。

图6示出了本申请一个示例性实施例提供的音频分离装置的框图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分。该装置600可以包括：样本数据获取模块610、时频单元确定模块620、实值遮蔽确定模块630、声源信息确定模块640和音频模型训练装置650。

样本数据获取模块610，用于获取至少一个样本音频数据，所述样本音频数据中包括至少一个声源；

时频单元确定模块620，用于确定所述样本音频数据的多个时频单元，所述时频单元用于表征所述样本音频数据中的声学信息；

实值遮蔽确定模块630，用于对于所述多个时频单元中的目标时频单元，通过所述音频分离模型基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息；其中，所述时频单元集合包括所述目标时频单元和至少一个其他时频单元，所述实值遮蔽信息中包括至少两个实值遮蔽，所述实值遮蔽与所述时频单元集合中的时频单元存在对应关系；

声源信息确定模块640，用于根据所述时频单元集合和所述实值遮蔽信息，确定所述目标时频单元对应的预测声源信息；

音频模型训练模块650，用于基于所述目标时频单元对应的预测声源信息，对所述音频分离模型进行训练。

在一些实施例中，所述包括：复值信息获取单元，用于分别获取所述时频单元集合中各个所述时频单元的复值信息；其中，所述复值信息用于表征所述时频单元的幅值信息和相位信息；预测矩阵确定单元，用于将各个所述时频单元分别对应的复值信息进行拼接，得到预测矩阵；遮蔽矩阵预测单元，用于基于所述预测矩阵，预测得到所述目标时频单元对应的所述实值遮蔽信息。

在一些实施例中，遮蔽矩阵预测单元，用于将所述预测矩阵输入至所述音频分离模型；通过所述音频分离模型对所述预测矩阵进行处理，得到所述至少两个实值遮蔽；将所述至少两个实值遮蔽进行拼接，得到所述目标时频单元对应的所述实值遮蔽信息。

在一些实施例中，音频模型训练模块650，用于：根据所述预测声源信息和真实声源信息，确定所述音频分离模型的训练损失；根据所述训练损失对所述音频分离模型的参数进行调整。

在一些实施例中，音频模型训练模块650，用于：计算所述预测声源信息和所述样本音频数据之间的干扰比例；根据所述干扰比例对所述音频分离模型的参数进行调整。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法侧的实施例，这里不再赘述。上述实施例提供的装置的有益效果请参考方法侧实施例的描述，这里也不再赘述。

图7示出了本申请一个示例性实施例提供的计算机设备的结构框图。

通常，计算机设备700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质存储有计算机程序，该计算机程序由处理器701加载并执行以实现上述各方法实施例提供的音频分离方法，或者，实现上述各方法实施例提供的音频分离模型的训练方法。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述各方法实施例提供的音频分离方法，或者，实现上述各方法实施例提供的音频分离模型的训练方法。

该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM(RandomAccess Memory，随机存取存储器)、ROM(Read-Only Memory，只读存储器)、EPROM(ErasableProgrammable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(ElectricallyErasable Programmable Read-Only Memory，电可擦写可编程只读存储器)、闪存或其他固态存储技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。

本申请实施例还提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现上述各方法实施例提供的音频分离方法，或者，实现上述各方法实施例提供的音频分离模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同切换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频分离方法，其特征在于，所述方法包括:

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息，包括：

获取所述时频单元集合中各个所述时频单元分别对应的复值信息；其中，所述复值信息用于表征所述时频单元的幅值信息和相位信息；

将各个所述时频单元分别对应的复值信息进行拼接，得到预测矩阵；

基于所述预测矩阵，预测得到所述目标时频单元对应的所述实值遮蔽信息。

3.根据权利要求2所述的方法，其特征在于，所述将各个所述时频单元分别对应的复值信息进行拼接，得到预测矩阵，包括：

提取各个所述复值信息中的第一信息，根据多个所述第一信息，得到所述预测矩阵的第一分量；

提取各个所述复值信息中的第二信息，根据多个所述第二信息，确定所述预测矩阵的第二分量；

拼接所述第一分量和所述第二分量，得到所述预测矩阵。

4.根据权利要求2所述的方法，其特征在于，所述基于所述预测矩阵，预测得到所述目标时频单元对应的所述实值遮蔽信息，包括：

将所述预测矩阵输入至音频分离模型，所述音频分离模型是用于音频分离的模型；

通过所述音频分离模型对所述预测矩阵进行处理，得到所述至少两个实值遮蔽；

将所述至少两个实值遮蔽进行拼接，得到所述目标时频单元对应的所述实值遮蔽信息。

5.根据权利要求4所述的方法，其特征在于，所述音频分离模型用于根据所述预测矩阵，输出所述预测矩阵的各个所述时频单元分别对应的时频遮蔽。

6.根据权利要求3所述的方法，其特征在于，所述根据所述时频单元集合和所述实值遮蔽信息，确定所述目标时频单元对应的声源信息，包括：

将所述预测矩阵中的所述第一分量和所述实值遮蔽信息进行运算，确定第一目标信息；

将所述预测矩阵中的所述第二分量和所述实值遮蔽信息进行运算，确定第二目标信息；

将所述第一目标信息和所述第二目标信息进行拼接，得到所述目标时频单元对应的声源信息。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

在所述多个时频单元中，选择满足候选条件的时频单元作为所述时频单元集合中的所述其他时频单元；其中，所述候选条件是根据与所述目标时频单元在频率或者时间的邻近度设定的。

8.根据权利要求7所述的方法，其特征在于，所述候选条件包括与所述目标时频单元的频率之间的差值小于或等于第一阈值。

9.根据权利要求7所述的方法，其特征在于，所述候选条件包括与所述目标时频单元的时间之间的差值小于或等于第二阈值。

10.根据权利要求7所述的方法，其特征在于，所述候选条件包括：

与所述目标时频单元的频率之间的差值小于或等于第一阈值，以及，与所述目标时频单元的时间之间的差值小于或等于第二阈值。

11.一种音频分离模型的训练方法，其特征在于，所述方法包括：

12.根据权利要求11所述的方法，其特征在于，所述通过所述音频分离模型基于所述目标时频单元对应的时频单元集合，确定所述目标时频单元对应的实值遮蔽信息，包括：

通过所述音频分离模型基于所述预测矩阵，预测得到所述目标时频单元对应的所述实值遮蔽信息。

13.根据权利要求12所述的方法，其特征在于，所述通过所述音频分离模型基于所述预测矩阵，预测得到所述目标时频单元对应的所述实值遮蔽信息，包括：

将所述预测矩阵输入至所述音频分离模型；

将所述至少两个实值遮蔽进行拼接，得到所述目标时频单元对应的所述实值遮蔽矩阵。

14.根据权利要求11所述的方法，其特征在于，所述基于所述目标时频单元对应的预测声源信息，对所述音频分离模型进行训练，包括：

根据所述预测声源信息和真实声源信息，确定所述音频分离模型的训练损失；

根据所述训练损失对所述音频分离模型的参数进行调整。

15.根据权利要求11所述的方法，其特征在于，所述基于所述目标时频单元对应的预测声源信息，对所述音频分离模型进行训练，包括：

计算所述预测声源信息和所述样本音频数据之间的干扰比例；

根据所述干扰比例对所述音频分离模型的参数进行调整。

16.一种音频分离装置，其特征在于，所述装置包括：

17.一种音频分离模型的训练装置，其特征在于，所述装置包括：

18.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至10任一项所述的音频分离方法，或者，实现如权利要求11至15任一项所述的音频分离模型的训练方法。

19.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至10任一项所述的音频分离方法，或者，实现如权利要求11至15任一项所述的音频分离模型的训练方法。

20.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现如权利要求1至10任一项所述的音频分离方法，或者，实现如权利要求11至15任一项所述的音频分离模型的训练方法。