CN116504264A

CN116504264A - 音频处理方法、装置、设备及存储介质

Info

Publication number: CN116504264A
Application number: CN202310789553.9A
Authority: CN
Inventors: 宋其岩; 吴宇轩
Original assignee: Xiaomi Automobile Technology Co Ltd
Current assignee: Xiaomi Automobile Technology Co Ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-07-28
Anticipated expiration: 2043-06-30
Also published as: CN116504264B

Abstract

本公开提出一种音频处理方法、装置、设备及存储介质，方法包括：获取传感器阵列采集的一段音频的初始频域信号，并基于初始频域信号进行方位估计，以确定n个目标声源的方位，其中，n为大于等于1的整数，并分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号，并基于预设规则分别对第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号，能够对波束形成得到的声音频域信号进行再次抑制处理，从而进一步提升声音干扰信号抑制效果。

Description

音频处理方法、装置、设备及存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种音频处理方法、装置、设备及存储介质。

背景技术

在语音应用场景中，为了准确获取目标声源的声音，通常需要进行声源分离处理（也可以称为声音降噪）。相关技术中，利用麦克风阵列的拓扑结构可以采集声源信号的空间信息，通过波束形成技术实现空域滤波，即：保留波束指向的信号，抑制波束主瓣之外的信号，从而实现声音降噪。然而，麦克风阵列的波束主瓣通常具有一定宽度，从而会存在干扰信号从波束主瓣渗漏的问题。因此，声音干扰信号抑制效果有待提升。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

本公开第一方面实施例提出了一种音频处理方法，包括：获取传感器阵列采集的一段音频的初始频域信号；基于初始频域信号进行方位估计，以确定n个目标声源的方位，其中，n为大于等于1的整数；分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号；基于预设规则分别对第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号。

本公开第二方面实施例提出了一种音频处理装置，包括：获取模块，用于获取传感器阵列采集的一段音频的初始频域信号；估计模块，用于基于初始频域信号进行方位估计，以确定n个目标声源的方位，其中，n为大于等于1的整数；第一处理模块，用于分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号；第二处理模块，用于基于预设规则分别对第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号。

本公开第三方面实施例提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本公开第一方面实施例提出的音频处理方法。

本公开第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开第一方面实施例提出的音频处理方法。

本公开第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行如本公开第一方面实施例提出的音频处理方法。

本实施例中，通过获取传感器阵列采集的一段音频的初始频域信号，并基于初始频域信号进行方位估计，以确定n个目标声源的方位，其中，n为大于等于1的整数，并分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号，并基于预设规则分别对第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号，能够对波束形成得到的声音频域信号进行再次抑制处理，从而进一步提升声音干扰信号抑制效果。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本公开一实施例提出的音频处理方法的流程示意图；

图2是本公开另一实施例提出的音频处理方法的流程示意图；

图3是本公开另一实施例提出的音频处理方法的流程示意图；

图4是本公开另一实施例提出的确定目标频点的流程示意图；

图5是本公开另一实施例提出的音频处理方法的流程示意图；

图6是本公开实施例提出的音频处理架构示意图；

图7是本公开另一实施例提出的音频处理装置的结构示意图；

图8示出了适于用来实现本公开实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本公开，而不能理解为对本公开的限制。相反，本公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

需要说明的是，本实施例的音频处理方法的执行主体可以为音频处理装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。

图1是本公开一实施例提出的音频处理方法的流程示意图，如图1所示，该音频处理方法，包括：

S101：获取传感器阵列采集的一段音频的初始频域信号。

其中，传感器阵列也可以被称为麦克风阵列，由多个声音传感器单元排列组成，用于采集音频信号。

本公开实施例中，利用传感器阵列采集的一段音频的频域信号可以被称为初始频域信号。其中，该音频可以是任意场景下采集的音频，例如，语音通话、会议等场景，对此不作限制。需要说明的是，在传感器阵列采集的声音信号为时域信号的情况下，本实施例需要将时域信号变换到频域，以得到初始频域信号。

举例而言，本实施例的传感器阵列例如由20个传感器单元组成，每个传感器单元在t秒内采集N个采样点的音频信号（或称为数据），该音频信号对应的初始频域信号例如表示为，/>表示维度为M*N的实数矩阵，M表示传感器单元数量，/>表示第i个传感器采集音频的初始频域信号，/>。

S102：基于初始频域信号进行方位估计，以确定n个目标声源的方位。

其中，产生该段音频的声源可以被称为目标声源，该目标声源的数量例如可以用n表示，n为大于等于1的整数，也即是说，确定该段音频的至少一个声源作为目标声源。一些实施例，例如可以将该音频的全部声源都作为目标声源；或者，还可以指定该音频中的部分声源作为目标声源，对此不作限制。

而本公开实施例，可以基于初始频域信号进行方位估计，以确定n个目标声源的方位。其中，例如可以采用波束形成技术（Conventional Beamforming, CBF）、最小方差无失真响应技术（Minimum Variance Distortionless Response, MVDR）、多重信号分类算法（Multiple Signal Classification, MUSIC）、压缩感知技术（Compressed Sensing, CS）以及其它任意可能的方位估计算法确定目标声源，对此不作限制。

举例而言，例如该段音频中存在两个目标声源，即：n=2，方位分别位于-50°和50°。

S103：分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号。

上述确定目标声源的方位后，进一步地，本公开实施例分别在每个方位进行波束形成处理，即：将波束主瓣指向每个方位进行空域滤波处理，以得到每个目标声源的频域信号，该频域信号被称为第一频域信号，也即是说，第一频域信号为波束形成的输出结果。关于波束形成的具体过程，本实施例不作具体限制。

举例而言，上述的2个目标声源分别位于-50°和50°，则本实施例分别在-50°和50°方位进行波束形成处理，以得到两个第一频域信号，例如分别表示为和/>。

S104：基于预设规则分别对第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号。

正如背景技术中所述的，通过波束形成技术进行空域滤波可以实现声音降噪，然而，麦克风阵列的波束主瓣通常具有一定宽度，从而会存在干扰信号从波束主瓣渗漏的问题。鉴于此，本公开实施例在波束形成处理得到的第一频域信号基础上，对第一频域信号中的干扰信号的能量再次进行抑制处理。

具体地，本实施例可以基于预设规则分别对第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号，也即是说，针对每个第一频域信号再次进行抑制处理，以得到每个目标声源的目标频域信号。

其中，每个第一频域信号中需要进行能量抑制处理的频点被称为目标频点，该目标频点可以是一个或者多个，并且，本实施例可以基于任意可能的规则确定该目标频点，对此不作限制。

而抑制处理也可以称为衰减处理，用于降低目标频点的能量，例如，成倍降低目标频点的能量以实现抑制处理，对此不做限制。

而对第一频域信号中目标频点的能量进行抑制处理后得到的频域信号可以被称为目标频域信号，例如，对中目标频点的能量进行抑制处理可以得到对应的目标频域信号，对/>中目标频点的能量进行抑制处理可以得到对应的目标频域信号。

一些实施例，在得到每个目标声源的目标频域信号后，可以将目标频域信号转化为对应的时域信号，以对该时域信号进行后续应用，例如：语音通话、语音识别等应用，对此不做限制。

图2是本公开另一实施例提出的音频处理方法的流程示意图，如图2所示，该音频处理方法，包括：

S201：获取传感器阵列采集的一段音频的初始频域信号。

S202：基于初始频域信号进行方位估计，以确定n个目标声源的方位。

S203：分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号。

S201-S203的具体说明参见上述实施例，此处不再赘述。

S204：分别对第一频域信号中能量小于等于能量阈值的目标频点的能量进行抑制处理。

在实际应用中，干扰信号通常为能量低的信号。鉴于此，本实施例针对每个第一频域信号中的每个频点可以配置对应的能量阈值。在对目标频点的能量进行抑制处理过程中，首先将第一频域信号中每个频点的能量与该频点对应的能量阈值进行比较，并将能量小于等于能量阈值的频点作为目标频点；进一步地，对目标频点的能量进行抑制处理。

其中，可以通过任意可能的方式确定每个第一频域信号中每个频点对应的能量阈值，对此不作限制。一些实施例，可以首先确定每个第一频域信号中每个频点对应的参考频点能量，其中，该参考频点能量可以通过任意可能的方式确定，对此不作限制；进一步地，将每个频点的参考频点能量乘以判决门限，该判决门限例如可以用表示，取值范围例如为0~0.5，从而得到每个频点对应的能量阈值。

一些实施例，在确定参考频点能量过程中，如果n等于1，即：存在一个目标声源，在这种情况下，本实施例可以将传感器阵列中任一传感器采集的初始频域信号中每个频点的能量作为参考频点能量。

举例而言，一个目标声源的第一频域信号例如为S₁，对应的初始频域信号例如为，则第一频域信号S₁中的每个频点的参考频点能量可以表示为/>，k表示每个频点的序号，而每个频点对应的能量阈值表示为/>。

另一些实施例，如果n大于等于2，即：存在至少两个目标声源。在这种情况下，本实施例可以将其它第一频域信号中在每个频点的最大能量作为参考频点能量。其中，其它第一频域信号指当前进行抑制处理的第一频域信号之外的全部第一频域信号。

举例而言，如果目标声源为两个，第一频域信号分别为S₁和S₂。如果当前处理的第一频域信号例如为S₁，则其它第一频域信号为S₂，在这种情况下，第一频域信号S₁中每个频点的参考频点能量可以表示为，第一频域信号S₁中每个频点的能量阈值表示为；同理，如果当前处理的第一频域信号例如为S₂，则其它第一频域信号为S₁，在这种情况下，第一频域信号S₂中每个频点的参考频点能量可以表示为/>，第一频域信号S₂中每个频点的能量阈值表示为/>。

又例如，如果目标声源为三个，第一频域信号分别为表示S₁、S₂以及S₃。在当前处理的第一频域信号为S₁的情况下，则其它第一频域信号为S₂和S₃，则第一频域信号S₁中每个频点的参考频点能量为S₂和S₃在每个频点的最大能量，表示为，而第一频域信号S₁中每个频点的能量阈值表示为/>；同理，在当前处理的第一频域信号为S₂的情况下，第一频域信号S₂中每个频点的参考频点能量表示为/>，第一频域信号S₂中每个频点的能量阈值表示为/>；同理，在当前处理的第一频域信号为S₃的情况下，第一频域信号S₃中每个频点的参考频点能量表示为，第一频域信号S₃中每个频点的能量阈值表示为/>。用统一公式表示当前处理的第一频域信号为/>，j表示第一频域信号的编号，/>中每个频点的参考频点能量表示为/>，能量阈值表示为/>，其中，/>表示除了第j个第一频域信号之外的其它第一频域信号。

一些实施例，在对每个第一频域信号中目标频点的能量进行抑制处理过程中，可以将目标频点的能量乘以第一衰减因子（也可以称为衰减系数），第一衰减因子例如可以用表示，/>取值范围为0~1。

例如，在一个目标声源的第一频域信号为S₁、初始频域信号为的情况下，对第一频域信号S₁中目标频点的能量进行衰减处理可以表示为：

又例如，在第一频域信号为S₁和S₂的情况下，对第一频域信号S₁和S₂中目标频点的能量进行衰减处理可以分别表示为：

又例如，在第一频域信号为S₁、S₂以及S₃的情况下，对第一频域信号S₁、S₂以及S₃中目标频点的能量进行衰减处理可以分别表示为：

从而，本公开实施例可以对第一频域信号中能量低的目标频点的能量进行抑制处理，因此达到对干扰信号抑制的效果。

本实施例中，通过获取传感器阵列采集的一段音频的初始频域信号，并基于初始频域信号进行方位估计，以确定n个目标声源的方位，其中，n为大于等于1的整数，并分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号，并基于预设规则分别对第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号，能够对波束形成得到的声音频域信号进行再次抑制处理，从而进一步提升声音干扰信号抑制效果。此外，本公开实施例可以对第一频域信号中能量低的目标频点的能量进行抑制处理，因此达到对干扰信号抑制的效果。

图3是本公开另一实施例提出的音频处理方法的流程示意图，如图3所示，该音频处理方法，包括：

S301：获取传感器阵列采集的一段音频的初始频域信号。

S302：基于初始频域信号进行方位估计，以确定n个目标声源的方位。

S303：分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号。

S301-S303的具体说明参见上述实施例，此处不再赘述。

S304：获取传感器阵列中任一传感器采集的初始频域信号作为每个第一频域信号对应的参考信号。

在实际应用中，干扰信号还可能是能量出现衰减的信号。鉴于此，本实施例的预设规则可以是对每个第一频域信号中能量衰减的目标频点进行抑制处理。

具体地，图4是本公开另一实施例提出的确定目标频点的流程示意图，如图4所示，本实施例针对每个第一频域信号，首先可以获取传感器阵列中任一传感器采集的初始频域信号作为其参考信号（即，图4中参考麦克风信号）。以下将以第一频域信号为S₁，参考信号为初始频域信号为例进行示例性说明。

S305：依次确定第一频域信号中当前语音帧和参考信号中当前语音帧。

本公开实施例，可以对第一频域信号中存在语音的语音帧进行降噪处理，其中，例如可以利用声音活动时间检测算法VAD获得语音存在的帧。

具体地，本实施例可以依次确定第一频域信号S₁中当前语音帧和参考信号中当前语音帧，并判断第一频域信号S₁中该当前语音帧是否满足抑制处理的要求，若满足则对该当前语音帧进行抑制处理，否则确定下一个语音帧作为当前语音帧。

S306：计算参考信号中当前语音帧的瞬时能量与第一频域信号中当前语音帧的瞬时能量的瞬时能量比。

在确定第一频域信号S₁中当前语音帧和参考信号中当前语音帧后，本实施例可以计算第一频域信号S1中当前语音帧的瞬时能量，其可以表示为/>，计算公式如下：

其中，j表示当前语音帧的编号；

并且，本实施例还计算参考信号中当前语音帧的瞬时能量，其可以用/>表示，计算公式如下：

而参考信号中当前语音帧的瞬时能量与第一频域信号中当前语音帧的瞬时能量/>的比值被称为瞬时能量比，其可以用/>表示，计算公式如下：

S307：计算参考信号中累计语音帧的积累能量与第一频域信号中累计语音帧的积累能量的积累能量比。

其中，第一频域信号S₁和参考信号的当前语音帧之前的全部语音帧被称为累计语音帧，例如，当前语音帧为第5帧，而之前的第1帧、第3帧存在语音，则累计语音帧为第1帧和第3帧。

而本公开实施例需要计算第一频域信号S1中累计语音帧的积累能量，该积累能量可以用表示，计算公式如下：

其中，T表示累计语音帧的总数。

并且，本实施例还计算参考信号中累计语音帧的积累能量，该积累能量可以用表示，计算公式如下：

参考信号中累计语音帧的积累能量与第一频域信号中累计语音帧的积累能量/>的比值被称为积累能量比，其可以用/>表示，计算公式如下：

一些实施例，在计算积累能量比和瞬时能量比/>之前，或者如图4所示在计算累积能量/>、累积能量/>、瞬时能量/>、瞬时能量之后，本实施例还可以判断累计语音帧的数量与第三阈值（/>）的关系，若累计语音帧的数量大于第三阈值，则计算积累能量比/>和瞬时能量比/>（即：图4中能量比值）；否则返回S305重新确定第一频域信号中当前语音帧和参考信号中当前语音帧，即：将下一个语音帧作为当前语音帧，并重新计算积累能量比/>和瞬时能量比，直至满足累计语音帧的数量大于第三阈值。其中，第三阈值/>可以根据实际应用场景灵活设定，例如，本实施例的第三阈值/>可以设定为200帧，对此不作限制。

可以理解的是，关于S306和S307的执行顺序，本实施例不做具体限定。

S308：若瞬时能量比与积累能量比的比值大于第一阈值，则将第一频域信号中当前语音帧的全部频点作为目标频点，并对目标频点的能量进行抑制处理；否则返回重新确定第一频域信号中当前语音帧和参考信号中当前语音帧。

进一步地，本公开实施例计算瞬时能量比与积累能量比/>的比值，并判断该比值与第一阈值（即，图4中门限/>）的关系，若该比值大于第一阈值/>，即：瞬时能量比/>大于积累能量比/>的/>倍，则将第一频域信号S1中当前语音帧的全部频点作为目标频点，并对目标频点的能量进行抑制处理；否则返回S305重新确定第一频域信号中当前语音帧和参考信号中当前语音帧，即：将下一个语音帧作为当前语音帧，并执行S306-S308，直至满足瞬时能量比/>与积累能量比/>的比值大于第一阈值/>。其中，第一阈值/>可以根据实际应用场景灵活设定，例如，本实施例的第一阈值/>可以设定为4.5，对此不作限制。

一些实施例，如图4所示，本公开实施例还可以预先设置累积衰减帧数。在满足瞬时能量比与积累能量比的比值大于第一阈值的情况下，进一步地，本实施例还可以对衰减帧数/>进行累加1处理，并返回S305重新确定第一频域信号中当前语音帧和参考信号中当前语音帧；而如果不满足瞬时能量比与积累能量比的比值大于第一阈值，则对衰减帧数/>清零并返回S305重新确定第一频域信号中当前语音帧和参考信号中当前语音帧。

进一步地，判断衰减帧数是否大于第二阈值（图4中门限/>，例如20帧），在衰减帧数/>大于该第二阈值/>，则将第一频域信号中当前语音帧的全部频点作为目标频点，并对目标频点的能量进行抑制处理。否则返回S305重新确定第一频域信号中当前语音帧和参考信号中当前语音帧。

另一些实施例，在对目标频点的能量进行抑制处理过程中，可以将目标频点的能量乘以第二衰减因子，该第二衰减因子可以用Y表示，Y取值范围为0~1，也即是说，将当前语音帧全频带能量衰减Y倍。

从而，本公开实施例还可以对衰减帧中全部的目标频点进行抑制处理，因此可以降低衰减帧对声音频域信号的干扰，提升声音干扰信号抑制效果。

本实施例中，通过获取传感器阵列采集的一段音频的初始频域信号，并基于初始频域信号进行方位估计，以确定n个目标声源的方位，其中，n为大于等于1的整数，并分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号，并基于预设规则分别对第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号，能够对波束形成得到的声音频域信号进行再次抑制处理，从而进一步提升声音干扰信号抑制效果。此外，本公开实施例还可以对衰减帧中全部的目标频点进行抑制处理，因此可以降低衰减帧对声音频域信号的干扰，提升声音干扰信号抑制效果。

图5是本公开另一实施例提出的音频处理方法的流程示意图，如图5所示，该音频处理方法，包括：

S501：获取传感器阵列采集的一段音频的初始频域信号。

S502：基于初始频域信号进行方位估计，以确定n个目标声源的方位。

S503：分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号。

S501-S303的具体说明参见上述实施例，此处不再赘述。

S504：分别对第一频域信号中能量小于等于能量阈值的第一频点的能量进行抑制处理，以得到每个目标声源的第二频域信号。

图6是本公开实施例提出的音频处理架构示意图，如图6所示，本公开实施例可以对波束形成处理得到的每个目标声源的第一频域信号进行两次抑制处理，即：后处理1和后处理2。

具体地，本实施例首先对每个第一频域信号中能量小于等于能量阈值的第一频点的能量进行抑制处理，以得到每个目标声源的第二频域信号。（步骤S504对应于后处理1）

其中，本实施例中第一频域信号中能量小于等于能量阈值的频点被称为第一频点，并且，本实施例将该第一频点作为目标频点进行抑制处理，而对第一频点的能量进行抑制处理后得到的频域信号被称为第二频域信号。其中，关于后处理1的具体过程同理于上述第二实施例，此处不再赘述。

一些实施例，在得到每个目标声源的第二频域信号后，还可以利用预设神经降噪网络对第二频域信号进行降噪处理。

S505：获取传感器阵列中任一传感器采集的初始频域信号作为每个第二频域信号对应的参考信号（图6中原始数据）。

S506：依次确定第二频域信号中当前语音帧和参考信号中当前语音帧。

S507：计算参考信号中当前语音帧的瞬时能量与第二频域信号中当前语音帧的瞬时能量的瞬时能量比。

S508：计算参考信号中累计语音帧的积累能量与第二频域信号中累计语音帧的积累能量的积累能量比。

S509：若瞬时能量比与积累能量比的比值大于第一阈值，则确定第二频域信号中当前语音帧中全部的第二频点；否则返回重新确定第二频域信号中当前语音帧和参考信号中当前语音帧。

S510：对第二频点的能量进行抑制处理，以得到每个目标声源的目标频域信号，其中，第一频点和第二频点被作为目标频点。

其中，当前语音帧中的全部频点可以被称为第二频点，并且，本实施例将该第二频点作为目标频点。也即是说，本公开实施例可以对抑制、降噪处理后的第二频域信号中的第二频点再次进行降噪处理，以得到每个目标声源最终的目标频域信号。其中，步骤S505-S510对应后处理2，关于后处理2的具体过程同理于上述第三实施例，此处不再赘述。

可以理解的是，本实施例关于后处理1和后处理2的执行顺序不作具体限制，也即是说，可以先执行后处理1，并在后处理1的结果基础上执行后处理2；或者，还可以先执行后处理2，并在后处理2的结果基础上执行后处理1，以得到最终的目标频域信号。

本公开实施例，可以对第一频域信号进行两次抑制处理，从而可以对第一频域信号中能量低的目标频点的能量进行抑制处理，并且对衰减帧中全部的目标频点进行抑制处理，进一步提升干扰信号抑制效果。

本实施例中，通过获取传感器阵列采集的一段音频的初始频域信号，并基于初始频域信号进行方位估计，以确定n个目标声源的方位，其中，n为大于等于1的整数，并分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号，并基于预设规则分别对第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号，能够对波束形成得到的声音频域信号进行再次抑制处理，从而进一步提升声音干扰信号抑制效果。此外，本公开实施例可以对第一频域信号进行两次抑制处理，从而可以对第一频域信号中能量低的目标频点的能量进行抑制处理，并对衰减帧中全部的目标频点进行抑制处理，进一步提升干扰信号抑制效果。

如图7所示，该音频处理装置70，包括：

获取模块701，用于获取传感器阵列采集的一段音频的初始频域信号；

估计模块702，用于基于初始频域信号进行方位估计，以确定n个目标声源的方位，其中，n为大于等于1的整数；

第一处理模块703，用于分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号；

第二处理模块704，用于基于预设规则分别对第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号。

一些实施例，第二处理模块704，具体用于：分别对第一频域信号中能量小于等于能量阈值的目标频点的能量进行抑制处理。

一些实施例，第二处理模块704，具体用于：获取传感器阵列中任一传感器采集的初始频域信号作为每个第一频域信号对应的参考信号；依次确定第一频域信号中当前语音帧和参考信号中当前语音帧；计算参考信号中当前语音帧的瞬时能量与第一频域信号中当前语音帧的瞬时能量的瞬时能量比；计算参考信号中累计语音帧的积累能量与第一频域信号中累计语音帧的积累能量的积累能量比，其中，累计语音帧为当前语音帧之前的语音帧；若瞬时能量比与积累能量比的比值大于第一阈值，则将第一频域信号中当前语音帧的全部频点作为目标频点，并对目标频点的能量进行抑制处理；否则返回重新确定第一频域信号中当前语音帧和参考信号中当前语音帧。

一些实施例，第二处理模块704，具体用于：确定每个第一频域信号中每个频点对应的参考频点能量；以及将每个频点的参考频点能量乘以判决门限，以得到每个频点对应的能量阈值。

一些实施例，第二处理模块704，具体用于：在n等于1的情况下，将传感器阵列中任一传感器采集的初始频域信号中每个频点的能量作为参考频点能量；或者在n大于等于2的情况下，将其它第一频域信号中在每个频点的最大能量作为参考频点能量，其中，其它第一频域信号不包括当前处理的第一频域信号。

一些实施例，第二处理模块704，具体用于：若瞬时能量比与积累能量比的比值大于第一阈值，则对衰减帧数进行累加并返回重新确定第一频域信号中当前语音帧和参考信号中当前语音帧；否则对衰减帧数清零并返回重新确定第一频域信号中当前语音帧和参考信号中当前语音帧；响应于衰减帧数大于第二阈值，将第一频域信号中当前语音帧的全部频点作为目标频点。

一些实施例，第二处理模块704，具体用于：若累计语音帧的数量大于第三阈值，计算瞬时能量比与积累能量比；否则返回重新确定第一频域信号中当前语音帧和参考信号中当前语音帧。

一些实施例，第二处理模块704，具体用于：将目标频点的能量乘以第二衰减因子。

一些实施例，第二处理模块704，具体用于：分别对第一频域信号中能量小于等于能量阈值的第一频点的能量进行抑制处理，以得到每个目标声源的第二频域信号；获取传感器阵列中任一传感器采集的初始频域信号作为每个第二频域信号对应的参考信号；依次确定第二频域信号中当前语音帧和参考信号中当前语音帧；计算参考信号中当前语音帧的瞬时能量与第二频域信号中当前语音帧的瞬时能量的瞬时能量比；计算参考信号中累计语音帧的积累能量与第二频域信号中累计语音帧的积累能量的积累能量比，其中，累计语音帧为当前语音帧之前的语音帧；以及若瞬时能量比与积累能量比的比值大于第一阈值，则确定第二频域信号中当前语音帧中全部的第二频点；否则返回重新确定第二频域信号中当前语音帧和参考信号中当前语音帧；以及对第二频点的能量进行抑制处理，以得到每个目标声源的目标频域信号，其中，第一频点和第二频点被作为目标频点。

一些实施例，第二处理模块704，具体用于：利用预设神经降噪网络对第二频域信号进行降噪处理。

一些实施例，装置70还包括：转化模块，用于将目标频域信号转化为对应的时域信号。

为了实现上述实施例，本公开还提出一种非临时性计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现如本公开前述实施例提出的音频处理方法。

为了实现上述实施例，本公开还提出一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行如本公开前述实施例提出的音频处理方法。

图8示出了适于用来实现本公开实施方式的示例性计算机设备的框图。图8显示的计算机设备12仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（Industry StandardArchitecture；以下简称：ISA）总线，微通道体系结构（Micro Channel Architecture；以下简称：MAC）总线，增强型ISA总线、视频电子标准协会（Video Electronics StandardsAssociation；以下简称：VESA）局域总线以及外围组件互连（Peripheral ComponentInterconnection；以下简称：PCI）总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（Random Access Memory；以下简称：RAM）30和/或高速缓存32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（图8未显示，通常称为“硬盘驱动器”）。尽管图8中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如：光盘只读存储器（Compact Disc Read OnlyMemory；以下简称：CD-ROM）、数字多功能只读光盘（Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM）或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络（例如局域网（Local Area Network；以下简称：LAN），广域网（Wide Area Network；以下简称：WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种音频处理方法，其特征在于，包括：

获取传感器阵列采集的一段音频的初始频域信号；

基于所述初始频域信号进行方位估计，以确定n个目标声源的方位，其中，n为大于等于1的整数；

分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号；以及

基于预设规则分别对所述第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号。

2.根据权利要求1所述的方法，其特征在于，所述基于预设规则分别对所述第一频域信号中目标频点的能量进行抑制处理，包括：

分别对所述第一频域信号中能量小于等于能量阈值的目标频点的能量进行抑制处理。

3.根据权利要求1所述的方法，其特征在于，所述基于预设规则分别对所述第一频域信号中目标频点的能量进行抑制处理，包括：

获取所述传感器阵列中任一传感器采集的初始频域信号作为每个第一频域信号对应的参考信号；

依次确定所述第一频域信号中当前语音帧和所述参考信号中当前语音帧；

计算所述参考信号中当前语音帧的瞬时能量与所述第一频域信号中当前语音帧的瞬时能量的瞬时能量比；

计算所述参考信号中累计语音帧的积累能量与所述第一频域信号中累计语音帧的积累能量的积累能量比，其中，所述累计语音帧为所述当前语音帧之前的语音帧；

若所述瞬时能量比与所述积累能量比的比值大于第一阈值，则将所述第一频域信号中当前语音帧的全部频点作为所述目标频点，并对所述目标频点的能量进行抑制处理；否则返回重新确定所述第一频域信号中当前语音帧和所述参考信号中当前语音帧。

4.根据权利要求2所述的方法，其特征在于，所述分别对所述第一频域信号中能量小于等于能量阈值的目标频点的能量进行抑制处理之前，还包括：

确定每个第一频域信号中每个频点对应的参考频点能量；以及

将每个频点的参考频点能量乘以判决门限，以得到每个频点对应的能量阈值。

5.根据权利要求4所述的方法，其特征在于，所述确定每个第一频域信号中每个频点对应的参考频点能量，包括：

在n等于1的情况下，将所述传感器阵列中任一传感器采集的初始频域信号中每个频点的能量作为所述参考频点能量；

或者

在n大于等于2的情况下，将其它第一频域信号中在每个频点的最大能量作为所述参考频点能量，其中，所述其它第一频域信号不包括当前处理的第一频域信号。

6.根据权利要求2所述的方法，其特征在于，所述分别对所述第一频域信号中能量小于等于能量阈值的目标频点的能量进行抑制处理，包括：

将所述目标频点的能量乘以第一衰减因子。

7.根据权利要求3所述的方法，其特征在于，所述若所述瞬时能量比与所述积累能量比的比值大于第一阈值，则将所述第一频域信号中当前语音帧的全部频点作为所述目标频点，包括：

若所述瞬时能量比与所述积累能量比的比值大于第一阈值，则对衰减帧数进行累加并返回重新确定所述第一频域信号中当前语音帧和所述参考信号中当前语音帧；否则对所述衰减帧数清零并返回重新确定所述第一频域信号中当前语音帧和所述参考信号中当前语音帧；

响应于所述衰减帧数大于第二阈值，将所述第一频域信号中所述当前语音帧的全部频点作为所述目标频点。

8.根据权利要求3所述的方法，其特征在于，所述计算所述参考信号中当前语音帧的瞬时能量与所述第一频域信号中当前语音帧的瞬时能量的瞬时能量比之前，还包括：

若所述累计语音帧的数量大于第三阈值，计算所述瞬时能量比与所述积累能量比；否则返回重新确定所述第一频域信号中当前语音帧和所述参考信号中当前语音帧。

9.根据权利要求3所述的方法，其特征在于，所述对所述目标频点的能量进行抑制处理，包括：

将所述目标频点的能量乘以第二衰减因子。

10.根据权利要求1所述的方法，其特征在于，所述基于预设规则分别对所述第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号，包括：

分别对所述第一频域信号中能量小于等于能量阈值的第一频点的能量进行抑制处理，以得到每个目标声源的第二频域信号；

获取所述传感器阵列中任一传感器采集的初始频域信号作为每个第二频域信号对应的参考信号；

依次确定所述第二频域信号中当前语音帧和所述参考信号中当前语音帧；

计算所述参考信号中当前语音帧的瞬时能量与所述第二频域信号中当前语音帧的瞬时能量的瞬时能量比；

计算所述参考信号中累计语音帧的积累能量与所述第二频域信号中累计语音帧的积累能量的积累能量比，其中，所述累计语音帧为所述当前语音帧之前的语音帧；以及

若所述瞬时能量比与所述积累能量比的比值大于第一阈值，则确定所述第二频域信号中所述当前语音帧中全部的第二频点；否则返回重新确定所述第二频域信号中当前语音帧和所述参考信号中当前语音帧；以及

对所述第二频点的能量进行抑制处理，以得到每个目标声源的目标频域信号，其中，所述第一频点和所述第二频点被作为所述目标频点。

11.根据权利要求10所述的方法，其特征在于，所述获取所述传感器阵列中任一传感器采集的初始频域信号作为每个第二频域信号对应的参考信号之前，还包括：

利用预设神经降噪网络对所述第二频域信号进行降噪处理。

12.根据权利要求1-11任一项所述的方法，其特征在于，所述得到每个目标声源的目标频域信号之后，还包括：

将所述目标频域信号转化为对应的时域信号。

13.一种音频处理装置，其特征在于，所述装置包括：

获取模块，用于获取传感器阵列采集的一段音频的初始频域信号；

估计模块，用于基于所述初始频域信号进行方位估计，以确定n个目标声源的方位，其中，n为大于等于1的整数；

第一处理模块，用于分别在每个方位进行波束形成处理，以得到每个目标声源的第一频域信号；

第二处理模块，用于基于预设规则分别对所述第一频域信号中目标频点的能量进行抑制处理，以得到每个目标声源的目标频域信号。

14.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-12中任一所述的音频处理方法。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-12中任一所述的音频处理方法。

16.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现如权利要求1-12中任一所述的音频处理方法。