CN115881157A

CN115881157A - 音频信号的处理方法及相关设备

Info

Publication number: CN115881157A
Application number: CN202111156384.2A
Authority: CN
Inventors: 杨磊; 王维钦; 刘炜
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2023-03-31

Abstract

本申请实施例提供了一种音频信号的处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，涉及人工智能技术领域。其中，音频信号的处理方法包括：提取输入音频信号中的第一频域特征向量；基于第一频域特征向量确定输入音频信号的编码向量；基于编码向量确定输入音频信号中的设定声源的声源信号；该方法的实施有利于提升在输入音频信号中确定设定声源的声源信号的准确性。同时，由电子设备执行的上述音频信号的处理方法可以使用人工智能模型来执行。

Description

音频信号的处理方法及相关设备

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及一种音频信号的处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

在进行音频采集的过程中，由于环境条件的限制，一般采集到的音频信号除了声源对象的音频信号以外，还包括一些环境音的音频信号。为此，需要对所采集的音频信号中各个声源的音频信号进行处理，才可以获取得到仅包括所需声源对象的音频信号，以提高所采集音频信号的质量。

发明内容

本申请实施例提供了一种音频信号的处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，可以解决相关技术中所采集音频信号包括环境音的技术问题。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种音频信号的处理方法，该方法包括：

提取输入音频信号中的第一频域特征向量；

基于所述第一频域特征向量确定所述输入音频信号的编码向量；

基于所述编码向量确定所述输入音频信号中的设定声源的声源信号。

根据本申请实施例的另一个方面，提供了一种音频信号的处理装置，该装置包括：

提取模块，用于提取输入音频信号中的第一频域特征向量；

编码模块，用于基于所述第一频域特征向量确定所述输入音频信号的编码向量；

确定模块，用于基于所述编码向量确定所述输入音频信号中的设定声源的声源信号。

根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行上述音频信号的处理方法。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，所述计算机存储介质用于存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机可以执行上述音频信号的处理方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现上述音频信号的处理方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请提供一种音频信号的处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，具体地，本申请通过提取输入音频信号中的第一频域特征向量，基于第一频域特征向量确定输入音频信号的编码向量后，基于编码向量确定输入音频信号中的设定声源的声源信号。本申请方案的实施可以基于频域特征在输入音频信号中获取设定声源的声源信号，且有利于提高所获取声源信号的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种音频信号的处理方法的流程示意图；

图2为本申请实施例中提供的一种音频信号的处理方法应用基于多尺度的频域时域分离网络的流程示意图；

图3a为本申请实施例中提供的一种基于多尺度的频域时域分离网络的结构示意图；

图3b为本申请实施例中提供的一种网络结构示意图；

图4为本申请实施例中提供的一种基于多尺度的频域时域分离网络中编码器模块的结构框图；

图5为本申请实施例中提供的一种基于多尺度的频域时域分离网络中编码器模块的网络流程图；

图6为本申请实施例中提供的一种基于多尺度的频域时域分离网络中分离器模块的网络流程图；

图7为本申请实施例中提供的一种基于多尺度的频域时域分离网络中分离器的网络结构框图；

图8a为本申请实施例中提供的一种第一特征分析方式的结构示意图；

图8b为本申请实施例中提供的一种频率路径扫描的示意图；

图9a为本申请实施例中提供的一种第二特征分析方式的结构示意图；

图9b为本申请实施例中提供的一种时间路径扫描的示意图；

图10为本申请实施例中提供的一种特征向量数据结构示意图；

图11a为本申请实施例中提供的一种第三特征分析方式的结构示意图；

图11b为本申请实施例中提供的一种时频路径扫描的示意图；

图11c为本申请实施例中提供的一种时频路径扫描块的处理流程图；

图11d为本申请实施例中提供的另一种时频路径扫描块的处理流程图；

图12为本申请实施例中提供的一种基于多尺度的频域时域分离网络中解码器的网络流程图；

图13为本申请实施例中提供的一种心理声学Loss的网络结构模块框图；

图14为本申请实施例中提供的一种心理声学Loss的计算流程图；

图15为本申请实施例中提供的一种应用环境示意图；

图16为本申请实施例提供的一种音频信号的处理装置的结构示意图；

图17为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”指示实现为“A”，或者实现为“A”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面对本申请涉及的相关技术进行说明：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。在本申请中，可以涉及机器学习技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本申请中可以采用机器学习技术解决在输入音频信号中获取设定声源的声源信号的技术问题。以具体场景举例说明：在通话场景中，当用户处于嘈杂的环境中时，除用户自身作为声源外，还存在许多不同的声源，如多个人同时说话、环境噪声和音乐声等，因此，在用户采用手机或蓝牙耳机进行通话时，需要将环境中除用户以外的其他声源对应的信号分离出来并消除掉，也即需要获取用户作为声源对象所对应的声源信号，以提高用户的通话质量。

本申请实施例提出一种音频信号的处理方法、装置、电子设备、计算机可读存储介质和计算机程序产品；具体地，本申请的实施基于频域特征在输入音频信号中获取设定声源的声源信号，且有利于提高所获取声源信号的准确度。本申请实施例中，声源信号可以包括下述至少一种：语音、噪声、歌声、背景音乐、声音事件(如关门声，门铃声等)。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

本申请实施例中提供了一种音频信号的处理方法，如图1所示，图1示出了本申请实施例提供的一种音频信号的处理方法的流程示意图，其中，该方法可以由任一电子设备执行，如可以是用户终端，也可以是服务器，用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载设备等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，但本申请并不局限于此。

具体地，如图1所示，本申请实施例提供的音频信号的处理方法可以包括下述步骤S101-S103：

步骤S101：提取输入音频信号中的第一频域特征向量。

其中，输入音频信号可以是进行音频数据采集后的一段音频信号(如歌曲录制后，录制所得的歌曲片段)，也可以是在音频数据采集过程中音频信号(如语音或视频通话过程中的语音信号)。

其中，频域(frequency domain)可以是指对数学函数或物理信号进行分析时，分析其和频率有关部分。

具体地，在步骤S101中涉及的处理是数据特征提取，从原始的输入音频信号中提取与建模相关的有效特征来建立模型。其中，频域特征提取可以包括频带能量提取和特征频率提取；频带能量提取可以在频谱内指定的频段内提取对应的能量；特征频率提取可以在特定的频率点提取该点对应的幅值。

在一实施例中，步骤S101中提取输入音频信号中的第一频域特征向量包括：提取输入音频信号中的至少两种尺度的第一频域特征向量。

具体地，可以基于不同的每帧采样点数提取获得不同的第一频域特征向量。其中，本申请可以使用256点(每帧采样点数)和64点的FFT(fast Fourier transform，快速傅里叶变换)得到两种尺度的频域特征。

步骤S102：基于第一频域特征向量确定输入音频信号的编码向量。

具体地，可以基于第一频域特征向量进行建模，如特征编码encoder，确定出输入音频信号的编码向量。

在一实施例中，还可以针对输入音频信号提取时域特征。本申请实施例提供的音频信号的处理方法还包括：提取输入音频信号中的第一时域特征向量。

其中，时域(Time domain)可以用于描述数学函数或物理信号对时间的关系，如在本申请实施例中，一个信号的时域波形可以表达信号随着时间的变化。通过傅里叶变换可以将一个时域信号转换成在不同频率下对应的振幅和相位，而频谱是时域信号在频域下的表现。其中，所提取的时域特征可以包括的参数较多，如峰峰值、削度、均值、脉冲因数、波形因数、波峰因数等。

具体地，本申请实施例可以通过卷积网络CNN(Convolutional Neural Network)获得相应的时域特征。

在上述实施例的基础上，步骤S102中基于所述第一频域特征向量确定所述输入音频信号的编码向量，可以包括步骤：融合所述第一频域特征向量和所述第一时域特征向量得到所述输入音频信号的编码向量。

具体地，在获取得到第一时域特征向量和至少两种尺度的第一频域特征向量时，可以执行特征对齐操作，进而将获得的频域和时域特征融合进行同步建模。

本申请实施例提出，融合所述第一频域特征向量与第一时域特征向量得到所述输入音频信号的编码向量，可以包括：

在第一频域特征向量和所述第一时域特征向量中，获取预定基准特征向量，其中，该基准特征向量可以预先设定；对于除预定基准特征向量之外的其他至少一个特征向量，将至少一个特征向量和预定基准特征向量在帧级别进行对齐，得到对齐后的第二频域特征向量和第二时域特征向量，其中可以通过卷积操作实现特征向量在帧级别的对齐；融合第二频域特征向量与第二时域特征向量，得到输入音频信号的编码向量。

步骤S103：基于所述编码向量确定所述输入音频信号中的设定声源的声源信号。

具体地，可以通过分离网络基于编码向量预测出表征输入音频信号中所设定声源的概率(如掩码向量，mask vector，也可以称为掩码)，进而使用掩码向量与原始信号进行解码，得到设定声源的声源信号。

可选地，适应于不同的场景或处理任务，设定声源可以对应于不同的声源对象，如在语音分离任务中，设定声源可以是指输入音频信号中所包括的各个声源；在语音增强任务中，设定声源可以是目标声源，如在一段语音信号中，需要提取说话人的声源信号，则该说话人对应为目标声源。

在一实施例中，如图2、图3a和图3b所示，本申请实施例提供一种基于多尺度的频域时域分离网络，该网络包括多尺度时频域特征编码器(还可以是仅针对频域特征或时域特征的编码器)、分离器(又称分离网络)以及解码器。具体地，上述步骤S101-S102可以应用多尺度时频域特征编码器实施，步骤S103可以应用分离器和解码器实施。

下面针对各网络模块进行说明：

编码器模块：用于对输入音频信号编码出高维向量(编码向量)，以表征不同维度的特征。具体地，编码器可以针对输入音频信号的第一频域特征向量进行编码、针对多尺度的第一频域特征向量进行编码、还可以针对第一时域特征向量和第一频域特征向量融合后的特征向量进行编码。

分离器模块：可以基于DPRNN(DUAL-PATH Recurrent Neural Network，双路径循环神经网络)的分离网络实施，对输入的特征向量(如编码向量)进行建模，分离出每个目标声源的向量表示；在本申请实施例中可以分离出N个声源对象的掩码向量。其中，分离网络可以采用多个DPRNN模块串连，每一个模块都可以采用相同的网络配置，如可以包括Bi-LSTM(Bidirectional Long ShortTerm Memory，双向长短时记忆网络)，全连接层(fullconnection，FC)等。

解码器模块：用于基于掩码向量对原信号进行解码，输出N个声源对象分别对应的分离信号。

具体地，在分离网络的三个处理阶段中，针对输入音频信号首先采用编码器将输入的波形分段并转换为时频特征(time-frequency domain，T-F domain)，然后将相关的特征向量馈送到分离层，通过分离器为设定声源构造相应的掩模mask；进而，解码器通过转换掩蔽特征和iSTFT(Inverse Short-Time Fourier Transform，逆短时傅里叶变换)重构源波形，得到设定声源的声源信号。

下面针对本申请实施例中对输入音频信号进行编码的具体过程进行说明。

为了便于描述，在下面的各个实施例中，引用以输入采样率16k，长度4s的输入音频信号(如语音信号)为例说明。但在实际应用过程中可以使用任意长的信号。另外，以2个尺度的FFT(256点FFT和64点FFT)为例对多尺度的频域特征进行说明。

在一实施例中，步骤S101中提取输入音频信号中的第一频域特征向量，包括步骤S1011：

步骤S1011：对分帧加窗处理后的输入音频信号进行短时傅里叶变换处理，得到第一频域特征向量。

其中，如输入音频信号为语音信号时，基于语音信号整体上的不稳定性，可以将语音信号分为一段一段来分析其特征参数，其中每一段可以称为一帧，帧长可以去10至30ms；具体地，针对如语音信号的分帧可以采用可移动的有限长度窗口进行加权的方法来实现。其中，为了使语音的平稳过渡，在两帧之间一般存在重叠区域。

其中，可以通过加窗的方式对分帧后的信号变得连续，如每一帧可以表现出周期函数的特性。而针对不同的信号可以增加不同的窗函数，如语音信号处理中，可以增加汉明窗(也可以增加其他窗函数，本申请实施例对此不作限定)。

其中，短时傅里叶变换(STFT，short-time Fourier transform，或short-termFourier transform)可以用于确定时变信号局部区域正弦波的频率与相位。

下面结合图4和图5以具体的例子对步骤S1011进行说明：

具体地，针对输入音频信号s1进行分帧加窗及短时傅里叶变换。其中，输入音频信号为16k采样率n秒时长的信号，其具有采样点数据L＝n*16000个，进行尺度为s_n的FFT，即每帧采样点数为s_n，帧之间的重叠区域为s_n/2(50％重叠)；经过STFT后，帧数为k＝L/(s_n/2)-1；每帧的频点数为：f＝s_n/2+1；分别取出频域的实部和虚部,则可以输出特征向量f1_k的维度为[k，2*f]。

假设为4秒时长的输入音频信号，则针对256点的FFT，可以得到每帧频点数为s_n/2+1＝256/2+1＝129，得到特征向量f1_k维度为[499,258]，即有499帧，每帧129个频点，每个频点使用一个实部和一个虚部表示。针对64点的FFT，可以得到向量f2_k(维度为[1999,66]，即有1999帧，每帧33个频点，每个频点使用一个实部和一个虚部表示)。其中k＝{0,1,2,…,498}代表帧号。

在一实施例中，提取输入音频信号中的第一时域特征向量时，继续以上述例子进行说明：对输入音频信号s1进行1维卷积操作，输出通道为258，卷积核256*1，步长为128，计算得到时域特征向量t1_k(维度[499,258]，即有499个时域点，每个时域点用258维特征表示)。

经过上述操作，时域特征和256点FFT模块提取的频域特征，在第二维的时间维度上进行了对齐，都是499帧，而在第三维的特征维度上则分别表示时域空间的特征和频域空间的特征。

在上述实施例的基础上，对编码器中融合频域特征和时域特征的具体过程进行说明。

具体地，由于第一时域特征向量与不同尺度的第一频域特征向量可能在不同维度上所表达的含义不同，因此，为了提高网络性能，降低信号分离的误差，可以将各个特征向量在帧级别上执行对齐操作，在各维度对齐的基础上，在各维度上进行融合(如线性相加)以确定最终输出的编码向量。

在本申请实施例中，结合上述实施例对编码过程的说明，本申请提供的分离网络中的编码器encoder可以将输入音频信号y的T个采样点分段成L段，每段长度为Lw；通过STFT操作，输入音频信号y转换成频域Y(L*K*2)。其中，K表示DFT(Discrete FourierTransform，离散傅里叶变换)大小，最后一维表示频点的实部和虚部。如频域可以表示为Y＝STFT(y(t))。考虑到频谱图与语音结构高度相关，因此，频谱结构和分辨率对后续分离器的处理非常重要。本申请实施例在执行STFT之后，可采用1维卷积作为辅助编码。将复数信号视为2通道向量，以将2通道向量编码为高维向量。具体地，通过公式X＝ReLU(Conv1D(Y))的编码处理，维度为L*K*2的频域向量可以被编码为高维的特征向量L*K*H；其中X为编码器输出的编码向量。

在上述实施例的基础上，步骤S103中基于编码向量确定输入音频信号中的设定声源的声源信号，可以包括以下步骤S1031-S1032中的至少一项：

步骤S1031：基于所述编码向量分离所述输入音频信号中各声源分别对应的声源信号。

具体地，在音频信号的处理中，可以基于编码向量分离输入音频信号中所包括的所有声源分别对应的声源信号。如输入音频信号中，包括说话人、背景音乐两种声源对象时，可以分离出说话人对应的声源信号与背景音乐对应的声源信号。

步骤S1032：基于所述编码向量分离所述输入音频信号，得到目标声源对应的目标声源信号与其他声源对应的其他声源信号。

具体地，在音频信号的处理中，可以基于编码向量针对当前处理任务的需求，针对性地分离出目标声源与其他声源分别对应的声源信号。如在语音通话过程中，输入音频信号包括说话人、音乐声、动物叫声三种声源对象时，可以将说话人设置为目标声源，得到说话人对应的目标声源信号、音乐声叠加动物叫声共同对应的其他声源信号。

下面针对本申请实施例中基于编码向量进行信号分离的具体过程进行说明。

在一实施例中，步骤S103中基于所述编码向量确定所述输入音频信号中的设定声源的声源信号，包括以下步骤B1-B2：

步骤B1：对所述编码向量进行特征分析，确定所述输入音频信号中的设定声源的掩码向量。

具体地，如图3b所示，经过编码的表示(编码向量)输入到分离网络separator，并为设定声源估计出相应的掩码mask(M_s)。通过对应的掩码M_s和编码器输出的编码向量X进行处理(如相乘)，可以得到设定声源的掩码编码特征Z_s，也即Z_s＝X·M_s，作为分离器输出的掩码向量。图中的“混合”表示混合信号或混合特征。

其中，掩码M_s(分离向量)可以由几种时频域路径扫描TFPS(Time-Frequency pathscan)块来估计(也即进行特征分析的过程)，如图3b所示的2中扫描块中包含了3种路径扫描层。

在一实施例中，步骤B1中对所述编码向量进行特征分析，确定所述输入音频信号中的设定声源的掩码向量，包括以下步骤B11-B12：

步骤B11：基于第一特征分析方式、第二特征分析方式和第三特征分析方式中的至少一种，对所述编码向量执行至少一次特征分析得到分离向量。

步骤B12：基于所述分离向量确定所述输入音频信号中的设定声源的掩码向量。

其中，通过所述第一特征分析方式得到的分离向量表征帧内频点沿不同频率变化的第一特性。通过所述第二特征分析方式得到的分离向量表征在帧间频率相同时，时域变化的第二特性。通过所述第三特征分析方式得到的分离向量表征帧间频点时频变化的第三特性，其中，通过第三特征分析方式得到的分离向量可以具体表征帧间相邻频点时频变化的第三特性。

具体地，结合图3b、图6-11进行说明，本申请实施例采用的分离器可以通过以下三种路径中的至少一种建模T-F特征：

频率路径(第一特征分析方式，local)：如图8b所示，用于在一帧中对从频点0到频点K-1进行建模。它独立处理每帧中的T-F特征。通过图8b所示，可见在频率路径中是沿着横向方向进行扫描，扫描所得的分离向量可以表示为v_local。

时间路径(第二特征分析方式，global)：如图9b所示，沿时间轴对相同频点进行建模。它独立处理每个频点中的T-F特征。通过图9b所示，可见在时间路径中是沿着纵向方向进行扫描，扫描所得的分离向量可以表示为v_global。

时频路径(第三特征分析方式，diagonal)：如图11b所示，频率路径和时间路径实现了直接连接一帧中频点，和沿时间轴直接连接相同的频率单元。通过叠加频率路径和时间路径，则可以针对所有频率单元建立隐式连接。具体地，可以直接通过T-F路径对相邻帧的相邻频点进行建模。考虑到在语音信号处理中，语音基音和共振峰总是随着帧的变化而变化，因此可以通过T-F路径跟踪变化并对其建模。通过图11b所示，可见在时频路径中是沿着对角线方向进行扫描，扫描所得的分离向量可以表示为v_diagonal。

其中，如图11c和图11d所示，时频路径(TFPS)块可以包括两种种类，种类一是先经过频率扫描的transformer建模后经时间扫描的transformer建模；种类二是先经过频率扫描的transformer建模后经时频扫描的transformer建模。

考虑到Transformer在双路网络里有很好的性能，比如DPRNN，DPTNET，sepformer，transmask。本申请可以使用与DPTNet相同的Transformer结构来扫描这三种路径。它由三个核心模块组成：缩放的点积注意、多头注意和位置前馈网络。使用递归神经网络学习无位置编码语音序列的顺序信息。

在本申请实施例中，针对上述时频路径的模型训练时，可以通过下述方法进行损失函数的计算，以调整模型的相关参数。具体地，可以采用排列不变训练(uPIT)对提出的模型进行训练，以最大化尺度不变信号失真比(SISDR)。SISDR的定义如下公式(1)-公式(3)：

其中，x和

分别为纯净语音和估计出的语音，计算前均归一化为零平均值。

在本申请中沿频率路径和时间路径计算SISDR，而不是直接使用波形SISDR。通过T-F路径的loss方法，网络可以了解更多的频率结构细节。损失函数由三部分组成：

1.频率路径SISDR，如下公式(4)所示:

SISDR是为实数设计的，但频点是复数。为了沿频率路径使用SISDR，本申请交叉排列实部和虚部，重塑D_s得到C_s∈R^(L×2K)，

是2K维向量，第l帧的纯净语音的频域信号，

表示第l帧的估计出的语音的频域信号。本申请实施例中，公式中的A^B表示A^B。

2.时间路径SISDR，如下公式(5)所示：

为了在每个频率单元的频率路径上使用SISDR，本申请对D_s进行了转置和整形得到B_s，

是2L维向量，表示第k个频率单元的信号，表示纯净语音的频域信号，/>

表示估计出的语音的频域信号。

3.波形SISDR，如下公式(6)所示：

与端到端分离训练目标相同，如Tasnet网络，y_s表示纯净语音的时域信号，

表示估计出的语音的时域信号。

损失函数定义如下公式(7)所示：

L_TFW＝α·F_f+α·F_t+β·F_w ......公式(7)

可选地，其中α＝0.25，β＝0.5；也可以采用其他数值计算，本申请对此不作限定。

具体地，特征分析可以理解为将二维向量(编码向量)转换为三维向量(分离向量)的过程。

具体地，如图7所示，在对编码向量进行特征分析之前，还可以对所述编码向量进行降维操作。

具体地，对输入的特征向量进行降维包括对输入的编码向量e_outpurt,维度为[256*3,64371]，通过1维卷积操作得到新的编码向量s_intput，维度为[64,64371]。

具体地，在分离器中可以使用Bi-LSTM和Dense对编码向量进行建模，也可以采用如transformer等进行建模，本申请实施例对此不作限定。下面针对特征分析的具体过程给出一种可行的实施例：

步骤B11中对编码向量执行至少一次特征分析得到分离向量，可以包括以下步骤B111-B114：

步骤B111：基于采用第一特征分析方式对编码向量进行频率路径扫描，确定第一预测向量。

具体地，对2维向量s_intput以帧为单位，进行切割重排成3D向量。如图8a所示，1₀,1₁…1₄₉₈,分别表示第0帧，第1帧，第498帧的特征数据，每一帧数据包含129个频点特征。如1₀：包含第0帧的129个频点{s_0-0，s_0-1，s_0-2，...s_0-128}。对498帧数据切割得到3D向量v_local[129,499,64]。

在基于上述第一特征分析方式进行特征分析时，如图7所示，对输入分离向量s_intput采用local方式，可以构建出v_local向量，输入到local Bi-LSTM和Dense网络，并得到输出第一预测向量y0。

步骤B112：基于采用第二特征分析方式对所述第一预测向量进行时间路径扫描，确定第二预测向量。

具体地，对2维向量s_intput以帧为单位，进行切割重排成3D向量。如图9a所示，g₀,g₁…g₁₂₉共128块的特征数据，每一块数据包含每帧某一个频点的特征。如g₀：包含499帧数据里的第0个频点{s_0-0，s_1-0，s_2-0，...s_498-0}。对498帧数据切割得到3D向量v_local[499,129,64]。

在基于上述第二特征分析方式进行特征向量切割时，如图7所示，对y0采用global方式，可以构建v_global向量，输入到globalBi-LSTM和Dense网络，并得到输出第二预测向量y1。

步骤B113：基于采用第一特征分析方式对所述第二预测向量进行频率路径扫描，确定第三预测向量。

具体地，在基于上述第一特征分析方式进行特征分析时，对y1采用local方式，可以构建出v_local向量，输入到localBi-LSTM和Dense网络，并得到输出第三预测向量y2。

步骤B114：基于采用第三特征分析方式对所述第三预测向量进行时频路径扫描，确定第四预测向量。

具体地，对2维向量s_intput[64,64371]中的第二维进行展开，如图10所示，横轴表示频点数，纵轴表示帧数。为了对不同于local、global跨度的特征进行建模，采用对角线分割的方式，将不同帧上不同的频点特征进行重新组合。如图11a所示，将s_intput切割成了129个数据块{t₀,t₁…t₁₂₈}，每一块数据包含499帧数据，其中每帧有某一个频点的特征。如t₀包含499帧数据里共499个频点{s_0-0,s_1-1,s_2-2,...s_127-127,s_128-128,...s_497-11}。对498帧数据切割得到3D向量v_diagonal[499，129，64]。

基于上述第三特征分析方式进行特征分析时，对y2采用diagonal方式，可以构建出v_diagonal向量，输入到Bi-LSTM和Dense网络，并得到输出第四预测向量y3。此处所输出的第四预测向量可以视为分离向量。

在一实施例中，如图7所示，可以通过重复执行上述步骤B111-B1143次(可以基于频域特征的尺度或实验数据确定；如在上述例子中以两种尺度的频域特征进行举例说明，因此，在进行特征预测时，可以重复执行上述步骤B111-B1143次)，可以得到输出的分离向量dprnn_out[499,129,64]。

具体地，为提高模型的表达能力，步骤B12中基于所述分离向量确定输入音频信号中的设定声源的掩码向量，包括以下步骤B121-B123：

步骤B121：将所述输出分离向量经卷积与Tanh激活处理得到第一输出向量。

具体地，如图7所示，将输出分离向量输入卷积层和Tanh层后，可以得到第一输出向量[2，64，64371]。

步骤B122：将所述输出分离向量经卷积与sigmoid激活处理得到第二输出向量。

具体地，如图7所示，将输出分离向量输入卷积层和sigmoid层后，可以得到第二输出向量[2，64，64371]。

步骤B123：对基于所述第一输出向量与第二输出向量确定的各声源的掩码向量进行维度恢复处理，得到设定声源最终对应的掩码向量。

具体地，如图7所示，在得到第一输出向量和第二输出向量后，将2个输出向量进行相乘，得到设定声源的掩码向量y_mask[m，64，64371]，m为需要分离的声源个数。进而执行维度恢复操作：将y_mask通过卷积层，进行维度扩展，得到分离器模块的最终输出掩码向量s_output[m,256,64371]。

在上述实施例中，步骤B111-B114所示的部分仅作为一种可行的实施例对特征分析过程进行说明。在本申请实施例中，在对编码向量进行特征分析时，可以随机组合不同的特征分析方式进行处理。另外，为了提高特征分析所得分离向量的准确性，可以基于随机组合的特征分析方式对编码向量执行至少一次特征分析操作，如图7所示的一种实施例，则可以针对一种组合的特征分析方式重复执行三次得到最终的分离向量。

步骤B2：基于所述掩码向量与所述第一频域特征向量，确定输入音频信号中的设定声源的声源信号。

具体地，如图12所示，可以将各声源的掩码向量与第一时域特征向量相乘后得到的向量作为解码器的输入，进而由解码器输出预测的各声源分别对应的分离信号。

在一实施例中，步骤B2中基于掩码向量与所述第一时域特征向量，确定输入音频信号中的设定声源的声源信号，包括以下步骤B21-B22：

步骤B21：基于掩码向量与所述第一频域特征向量，确定输入音频信号中的设定声源的预测特征。

步骤B22：基于所述预测特征确定输入音频信号中的设定声源的声源信号。

具体地，将分离器模块预测出的掩码向量与第一频域特征向量进行乘积操作，计算出设定声源的预测特征。进而对预测特征降维：对计算得到的预测特征，使用一维卷积进行降维，维度由[m,256,64371]变成[m，2,64371]；对降维后的数据，进行去重叠操作，可以恢复出m个声源分别对应的声源信号。

可选地，步骤B21中，还可以基于掩码向量与第一时域特征向量、第一频域特征向量的融合向量确定预测特征。

在本申请实施例中，在解码器中，一种全连接层V∈R^(H×2)用于重构分离的语音频率信号d_s∈R^(L×K×2)；对于第s源可以通过D_s＝Z_s*V将H特征维度转换为二维。然后应用iSTFT获得最终波形y_s∈R^(1×T)；y_s＝iSTFT(D_s)。

下面针对本申请实施例所采用的基于多尺度的频域时域分离网络所构建的模型的参数优化过程进行具体说明。

在本申请实施例中，还考虑到相关技术中的语音分离网络采用SI-SDR(Scale-invariantsignal-to-distortionratio，尺度不变信号失真比)作为Loss损失来衡量网络输出的语音信号与目标语音信号之间的误差，但SI-SDR是从纯信号的角度考虑误差，和人的主观听感并不是一个线性关系。因此，本申请实施例提供一种考虑到心理声学的Loss计算方法，从而让网络学习到人耳对声音感知的特性，输出更贴近于人耳主观感受的目标语音。具体地，本申请实施例提供的心理声学LOSS计算方法中，当计算分离音频信号与目标音频信号的误差Loss时，考虑人耳听觉特性，包括：1，人耳对不同频率的响度感知不同，2，人耳对不同频率的频谱感知分辨率不同，3，人耳对相位的敏感性远低于对幅度的敏感度，4，一个大的声音信号可对其时频域附近位置的小信号产生掩蔽效应。

针对上述四个人耳听觉特性，本申请实施例的Loss计算分为四个功能，分别是：1，生成信号和网络信号的预加重；2，分频带，频带内的频谱共同计算Noise能量；3，分别使用两种计算Noise能量的方式，一种是复频谱的差值，既考虑相位又考虑幅度，一种频带能量的差值只考虑幅度，通过二者的加权求和生成最终的Noise能量谱；4，根据目标信号能量对上述步骤求得的Noise能量谱进行加权，降低被掩蔽的噪声的重要度。下面结合图13对本申请实施例计算心理声学Loss所采用的网络结构进行说明：

如图13所示，将预测声源信号produced speech与样本声源信号target speech作为STFT模块的输入，STFT模块执行短时傅里叶变换；信号预加重模块High frequencyemphasis用于对信号进行预加重；频带能量计算模块Band energy calculation用于根据人耳特性进行频带划分；第一噪声谱Band energy differ是只包含幅度信息的噪声谱；第二噪声谱Frequency bin differ是同时包含相位和幅度信息的噪声谱；第一噪声谱和第二噪声谱的加权相加值可以让噪声更关注于“幅度”而忽略“相位”；噪声权重计算模块Noiseweight calculation是用于针对听觉掩蔽效应的噪声谱加权值进行计算。噪声能量Noiseenergy模块得到加权后的噪声能量，最后和目标语音能量相比较计算SNR(SIGNAL-NOISERATIO，信噪比)，即为最终的目标Loss。

下面针对计算Loss所考虑的四个特性分别对应的特征处理过程进行说明：

第一：在不同的频率，人耳对响度的感受不同。

在本申请中，分离网络可以是为16kHz采样率的序列而设计，所以语音信号最大带宽是8kHz，在这个频率范围内，等响曲线可以大略看作单调递减，所以，可以使用预加重算法：使用一个预加重滤波器同时对网络生成的预测声源信号(生成语音)和样本声源信号(目标语音)进行滤波，从而突出高频部分的重要性，预加重滤波器的频率响应如下公式(8)所示：

在公式(8)中，λ是一个可调系数，在当前工作中设置为λ＝0.98。

第二：在不同的频率，人耳对频率分辨率的感知能力不同。

对应于人耳的这个特征，本申请计算生成的预测声源信号与样本声源信号之间的误差噪声能量时，按频带来进行计算，而不是按频点计算，换句话说，计算某个频带的误差噪声能量为预测声源信号和样本声源信号频带能量差的绝对值，如下公式(9)和(10)所示：

E_N(t,b)＝|E_P(t,b)-E_T(t,b)| ......公式(9)

在公式(9)和(10)中，t,b,f是时间下标，频带下标，频点下标；E_{Nor P or T}(t,b)是噪声频带能量或生成的预测声源信号频带能量或样本声源信号频带能量，X_{P or T}(t,f)是预加重后的频谱系数(复数)，b_l,b_h是频带b的下界和上界，本申请实施例使用“Bark刻度”来划分频带。

所以，如果某个频带内，预测声源信号和样本声源信号能量相等，可以得出噪声为零，在本申请中并不关心频带内的能量是由哪些频谱贡献的。

第三：人耳对语音相位的敏感度，小于对幅度的敏感度。

上述实施例计算E_N(t,b)时，明显并没有考虑相位差异的影响。即使相位信息对语音来说不是那么重要，但完全忽略相位会导致帧与帧之间的相位不稳定，进而影响听感。所以，需要把相位差加入到噪声能量的计算中，如下公式(11)所示：

上式中X_P(t,f)和X_T(t,f)是复数，所以公式的前半部分即包含相位信息又包含幅度信息，而后半部分只有幅度信息，把它们加权相加，加权系数α(f)和β(b)，可以得到绝大部分由幅度贡献，而小部分由相位贡献的噪声能量。

第四：听觉掩蔽效应。

考虑到一个频点不仅会在相同位置产生掩蔽效应，还会在相邻的位置产生掩蔽效应，所以首先使用一个平滑滤波器，把频点能量引入到附近位置，如下公式(12)所示：

在公式(12)中，w(m，n)是一组3x3的平滑滤波器系数。所以接下来就只需要考虑频点在相同位置的掩蔽效应。本申请实施例使用对误差噪声加权的方式来处理掩蔽效应，如果某个频点，目标信号的能量很大，则给这个频点位置的噪声一个小的加权，即本申请对这个位置的噪声容忍度很高，反之亦然。加权系数的计算如下公式(13)：

运算符<*>_t，f为同时在t，f方向上求平均，g是一个可调系数，g越小，G_F(t，f)越陡峭，对掩蔽效应的利用越激进，反之，g越大，G_F(t，f)越平滑，对掩蔽效应的利用越保守。

在一实施例中，采用音频信号处理模型执行所述音频信号的处理方法；所述音频信号处理模型通过真实的样本声源信号与模型输出的至少两种声源的预测声源信号之间的损失值调整网络参数。

其中，在计算损失值的过程中，由于针对处理的是包括至少两种声源对象的音频信号分离处理，因此，针对所包括的声源对象数量，同步采用相同数量的样本声源信号进行损失值的计算。如假设包括两种声源对象，则针对声源对象1对应有样本声源信号A1，针对声源对象2对应有样本声源信号A2；而模型输出的预测声源信号中，针对声源对象1对应有预测声源信号B1，针对声源对象2对应有预测声源信号B2。在此基础上，结合下述表1对损失值计算的过程进行说明：

表1

	样本声源信号A1	样本声源信号A2
			预测声源信号B1	Loss1-1	Loss1-2
预测声源信号B2	Loss2-1	Loss2-2

结合上述表1可见，将预测声源信号分别与各样本声源信号进行损失值计算，如针对预测声源信号B1获得损失值Loss 1-1和Loss 1-2，进而取较小的损失值作为最终计算所得的损失值。

下面结合图14所示，从数学计算角度对本申请实施例提供的损失值计算方式进行说明；其中，输入为时域的网络(还可以是频域的网络)生成语音序列x_P(t)和目标序列x_T(t)，输出为心理声学损失值；F.(X)代表公式X。

具体地，损失值通过下述步骤C1-C2计算而得：

步骤C1：将所述预测声源信号与样本声源信号分别进行短时傅里叶变换和信号的预加重处理，得到预测声源信号的预测频谱和样本声源信号的样本频谱。

可选地，若预测声源信号是基于频域建模所得的网络输出，则无需对预测声源信号和样本声源信号进行傅里叶变换处理。

其中，预加重是一种对输入信号高频分量进行补偿的信号处理方式。如考虑到随着信号速率的增加，信号在传输过程中受损很大，为了最终得到较好的信号波形，可以对受损的信号进行补偿。频谱是指频率谱密度。

具体地，分别把时域的网络生成的预测声源信号x_P(t)和样本声源信号x_T(t)进行分帧加窗(汉明窗)处理，其中帧长可以为256点，帧与帧之间可以叠加128点，然后经短时傅里叶变换STFT转换到129点长度的复数频谱信号，进而采用预定义的预加重系数γ(f)对应频点相乘，得到预加重后的预测频谱X_P(t,f)和样本频谱X_T(t,f)；其中，t,f分别是帧索引和频谱索引。

具体如下公式(14)所示：

X_{P or T}(t,f)＝γ(f)*STFT(x_{P or T}(t)) ......公式(14)

其中，γ(f)是公式(8)中H(z)的频域幅度增益值。

步骤C2：基于所述预测频谱和样本频谱确定噪声能量和。

具体地，步骤C2中基于所述预测频谱和样本频谱确定噪声能量和，包括以下步骤C21-C27：

步骤C21：基于所述预测频谱确定预测声源信号的预测频带能量。

具体地，预测频带能量E_P(t,b)可以采用如下公式(15)进行计算：

在上述公式(15)中，t,b分别是帧索引和频带索引；b_l,b_h是频带b的下边界和上边界。

步骤C22：基于所述样本频谱确定噪声频谱的第一加权值。

具体地，第一加权值(噪声频谱的听觉掩蔽加权值)G_F(t,f)可以采用如下公式(16)进行计算：

其中，

在上述公式(16)中，<*>_t,b为同时在t,b两个维度上求均值。g为掩蔽加权调节系数，其值越小，G_F(t,f)越趋向于陡峭，也就对听觉掩蔽效应的利用更激进，反之，其值越大，G_F(t,f)越趋向于平滑，也就对听觉掩蔽效应的利用更保守。在本申请实施例中，可以设置g＝0.5，也可以根据需求设置为其他数值，本申请实施例对此不作限定。

步骤C23：基于所述样本频谱确定样本声源信号的样本频带能量。

具体地，样本频带能量E_T(t,b)可以采用如下公式(17)进行计算：

在上述公式(3)中，t,b分别是帧索引和频带索引；b_l,b_h是频带b的下边界和上边界。

步骤C24：基于所述样本频带能量确定噪声频带能量的第二加权值。

具体地，第二加权值(噪声频带能量的听觉掩蔽加权值)G_B(t,b)可以采用如下公式(18)进行计算：

其中，

在上述公式(4)中各参数所表征的意义可以参考公式(2)的相关参数说明。

步骤C25：基于所述预测频谱、样本频谱与第一加权值确定频谱能量和。

具体地，频谱能量和(经过相位加权和基于第一加权值的两种加权后的频谱差的能量和)E1_N可以采用如下公式(20)进行计算：

E1_N＝∑_t,fα(f)*G_F(t,f)*|X_N(t,f)|² ......公式(20)

在上述公式(20)中，X_N(t,f)为两个复频谱的差值(如公式(9)所示)，G_F(t,b)为上面求得的听觉掩蔽加权值，α(f)和下述公式(6)中的β(b)共同决定某频带中相位和幅度各占多少比例。

步骤C26：基于所述预测频带能量、样本频带能量与第二加权值确定频带能量和。

具体地，频带能量和(经过幅度加权和基于第二加权值的两种加权后的频带能量差的能量和)E2_N可以采用如下公式(21)进行计算：

E2_N＝∑_t,bβ(b)*G_B(t,b)*|E_P(t,b)-E_T(t,b)| ......公式(21)

其中，α(f)和β(b)是公式(11)中的增益系数。

步骤C27：基于所述频谱能量和与频带能量和确定噪声能量和。

具体地，噪声能量和为E1_N+E2_N。

步骤C3：基于所述噪声能量和与样本声源信号的频带能量之间的信噪比，确定损失值。

具体地，损失值可以通过如下公式(22)进行计算：

在上述公式(22)中，将噪声能量和E1_N+E2_N与样本声源信号的频带能量E_T(t,b)相除，并转换到dB域，得到最终的信噪比，最后取负(信噪比和误差呈反比)，即得到最终的Loss值。

本申请实施例提供的音频信号处理方法对非平稳噪声以及低信噪比的情况具有较强的鲁棒性，且本申请实施例所应用的网络结构在适应不同的应用场景(如应用于语音分离任务或应用于语音增强任务)时，无需变动具体的网络架构，适应性广。

下面结合图15针对本申请实施例所提供的音频信号的处理方法给出一可行的应用例。

用户A采用终端100-1与用户B(采用终端100-N)进行通话，在通话的过程中，用户A正在搭乘地铁，此时在用户A和用户B进行通话的过程中，用户A一侧除用户A自身的说话音外，还包括大量的背景音，如其他人的说话音，地铁的报站音等，在此基础上，为提高用户A和用户B之间的通话质量，采用本申请实施例提供的音频信号的处理方法执行语音分离任务，即对用户A一侧采集的语音信号中多个声源对象分别对应的语音信号进行分离，并在通话中仅将分离得出的用户A对应的分离信号传输至用户B一侧。

其中，在通话过程中，可以直接由终端100-1完成语音分离任务，并仅将用户A对应的分离信号传输至终端100-N；也可以通过服务器200完成语音分离任务，即终端100-1将采集到的语音信号同步传输至服务器200，服务器200执行语音分离任务，同步将分离得到的用户A的分离信号传输至终端100-N。

本申请实施例提供了一种音频信号的处理装置，如图16所示，该音频信号的处理装置1600可以包括：提取模块1601、编码模块1602和确定模块1603。

其中，提取模块1601，用于提取输入音频信号中的第一频域特征向量；编码模块1602，用于基于所述第一频域特征向量确定所述输入音频信号的编码向量；确定模块1603，用于基于所述编码向量确定所述输入音频信号中的设定声源的声源信号。

在一实施例中，提取模块1601用于提取输入音频信号中的第一频域特征向量时，具体用于：

提取输入音频信号中的至少两种尺度的第一频域特征向量。

在一实施例中，提取模块1601还用于提取输入音频信号中的第一时域特征向量；

编码模块1602用于基于所述第一频域特征向量确定所述输入音频信号的编码向量时，具体用于：

融合所述第一频域特征向量和所述第一时域特征向量得到所述输入音频信号的编码向量。

在一实施例中，编码模块1602用于融合所述第一频域特征向量与第一时域特征向量得到所述输入音频信号的编码向量，包括：

在所述第一频域特征向量和所述第一时域特征向量中，获取预定基准特征向量；

对于除预定基准特征向量之外的其他至少一个特征向量，将所述至少一个特征向量和所述预定基准特征向量在帧级别进行对齐，得到对齐后的第二频域特征向量和第二时域特征向量；

融合所述第二频域特征向量与第二时域特征向量，得到所述输入音频信号的编码向量。

在一实施例中，确定模块1603用于基于所述编码向量确定所述输入音频信号中的设定声源的声源信号时，具体用于以下至少一项：

基于所述编码向量分离所述输入音频信号中各声源分别对应的声源信号；

基于所述编码向量分离所述输入音频信号，得到目标声源对应的目标声源信号与其他声源对应的其他声源信号。

在一实施例中，确定模块1603用于基于所述编码向量确定所述输入音频信号中的设定声源的声源信号时，具体用于：

对所述编码向量进行特征分析，确定所述输入音频信号中的设定声源的掩码向量；

基于所述掩码向量与所述第一频域特征向量，确定所述输入音频信号中的设定声源的声源信号。

在一实施例中，确定模块1603用于对所述编码向量进行特征分析，确定所述输入音频信号中的设定声源的掩码向量时，具体用于：

基于第一特征分析方式、第二特征分析方式和第三特征分析方式中的至少一种，对所述编码向量执行至少一次特征分析得到分离向量；

基于所述分离向量确定所述输入音频信号中的设定声源的掩码向量；

其中，通过所述第一特征分析方式得到的分离向量表征帧内频点沿不同频率变化的第一特性；

通过所述第二特征分析方式得到的分离向量表征在帧间频率相同时，时域变化的第二特性；

通过所述第三特征分析方式得到的分离向量表征帧间频点时频变化的第三特性。

在一实施例中，确定模块1603用于基于所述掩码向量与所述第一频域特征向量，确定所述输入音频信号中的设定声源的声源信号时，具体用于：

基于所述掩码向量与所述第一频域特征向量，确定所述输入音频信号中的设定声源的预测特征；

基于所述预测特征确定所述输入音频信号中的设定声源的声源信号。

在一实施例中，所述损失值通过下述步骤计算而得：

将所述预测声源信号与样本声源信号分别进行快速傅里叶变换和信号的预加重处理，得到预测声源信号的预测频谱和样本声源信号的样本频谱；

基于所述预测频谱和样本频谱确定噪声能量和；

基于所述噪声能量和与样本声源信号的频带能量之间的信噪比，确定损失值。

在一实施例中，所述基于所述预测频谱和样本频谱确定噪声能量和，包括：

基于所述预测频谱确定预测声源信号的预测频带能量；

基于所述样本频谱确定噪声频谱的第一加权值；

基于所述样本频谱确定样本声源信号的样本频带能量；

基于所述样本频带能量确定噪声频带能量的第二加权值；

基于所述预测频谱、样本频谱与第一加权值确定频谱能量和；

基于所述预测频带能量、样本频带能量与第二加权值确定频带能量和；

基于所述频谱能量和与频带能量和确定噪声能量和。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现音频信号的处理方法的步骤，与现有技术相比可实现：本申请通过提取输入音频信号中的第一频域特征向量，基于第一频域特征向量确定输入音频信号的编码向量后，基于编码向量确定输入音频信号中的设定声源的声源信号。本申请方案的实施可以基于频域特征在输入音频信号中获取设定声源的声源信号，且有利于提高所获取声源信号的准确度。

在一个可选实施例中提供了一种电子设备，如图17所示，图17所示的电子设备1700包括：处理器1701和存储器1703。其中，处理器1701和存储器1703相连，如通过总线1702相连。可选地，电子设备1700还可以包括收发器1704，收发器1704可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器1704不限于一个，该电子设备1700的结构并不构成对本申请实施例的限定。

处理器1701可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1701也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1702可包括一通路，在上述组件之间传送信息。总线1702可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线1702可以分为地址总线、数据总线、控制总线等。为便于表示，图17中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1703可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器1703用于存储执行本申请实施例的计算机程序，并由处理器1701来控制执行。处理器1701用于执行存储器1703中存储的计算机程序，以实现前述方法实施例所示的步骤。

其中，电子设备包括但不限于：智能手机、平板电脑、笔记本电脑、智能音箱、智能手表、车载设备等。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请所提供的实施例中，由电子设备执行的上述设备的位姿估计方法可以使用人工智能模型来执行。

根据本申请的实施例，在电子设备中执行的该方法可以通过使用图像数据或视频数据作为人工智能模型的输入数据来获得识别图像或图像中的图像特征的输出数据。人工智能模型可以通过训练获得。这里，“通过训练获得”意味着通过训练算法用多条训练数据训练基本人工智能模型来获得被配置成执行期望特征(或目的)的预定义操作规则或人工智能模型。人工智能模型可以包括多个神经网络层。多个神经网络层中的每一层包括多个权重值，并且通过在前一层的计算结果与多个权重值之间的计算来执行神经网络计算。

视觉理解是一种用于像人类视觉一样识别和处理事物的技术，并且包括例如对象识别、对象跟踪、图像检索、人类识别、场景识别、3D重建/定位或图像增强。

本申请所提供的音频信号的处理装置，可以通过AI模型来实现多个模块中的至少一个模块。可以通过非易失性存储器、易失性存储器和处理器来执行与AI相关联的功能。

该处理器可以包括一个或多个处理器。此时，该一个或多个处理器可以是通用处理器，(例如中央处理单元(CPU)、应用处理器(AP)等)、或者是纯图形处理单元，(例如，图形处理单元(GPU)、视觉处理单元(VPU)、和/或AI专用处理器，(例如，神经处理单元(NPU))。

该一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义的操作规则或人工智能(AI)模型来控制对输入数据的处理。通过训练或学习来提供预定义的操作规则或人工智能模型。

这里，通过学习来提供指的是通过将学习算法应用于多个学习数据来得到预定义的操作规则或具有期望特性的AI模型。该学习可以在其中执行根据实施例的AI的装置本身中执行，和/或可以通过单独的服务器/系统来实现。

该AI模型可以由包含多个神经网络层组成。每一层具有多个权重值，一个层的计算是通过前一层的计算结果和当前层的多个权重来执行的。神经网络的示例包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、生成对抗网络(GAN)、以及深度Q网络。

学习算法是一种使用多个学习数据训练预定目标装置(例如，机器人)以使得、允许或控制目标装置进行确定或预测的方法。该学习算法的示例包括但不限于监督学习、无监督学习、半监督学习、或强化学习。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种音频信号的处理方法，其特征在于，包括：

提取输入音频信号中的第一频域特征向量；

2.根据权利要求1所述的方法，其特征在于，提取输入音频信号中的第一频域特征向量，包括：

提取输入音频信号中的至少两种尺度的第一频域特征向量。

3.根据权利要求2所述的方法，其特征在于，还包括：提取输入音频信号中的第一时域特征向量；

基于所述第一频域特征向量确定所述输入音频信号的编码向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述融合所述第一频域特征向量与第一时域特征向量得到所述输入音频信号的编码向量，包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述基于所述编码向量确定所述输入音频信号中的设定声源的声源信号，包括以下至少一项：

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述基于所述编码向量确定所述输入音频信号中的设定声源的声源信号，包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述编码向量进行特征分析，确定所述输入音频信号中的设定声源的掩码向量，包括：

8.根据权利要求6所述的方法，其特征在于，所述基于所述掩码向量与所述第一频域特征向量，确定所述输入音频信号中的设定声源的声源信号，包括：

9.一种音频信号的处理装置，其特征在于，包括：

提取模块，用于提取输入音频信号中的第一频域特征向量；

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于：执行根据权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机可以执行上述权利要求1至8中任一项所述的方法。

12.一种计算机程序产品，包括计算机程序或指令，其特征在于，该计算机程序或指令被处理器执行时实现权利要求1至8中任一项所述方法的步骤。