CN111883151A

CN111883151A - 音频信号的处理方法、装置、设备和存储介质

Info

Publication number: CN111883151A
Application number: CN202010753656.6A
Authority: CN
Inventors: 刘青松
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-03
Anticipated expiration: 2040-07-30
Also published as: CN111883151B

Abstract

本发明提供一种音频信号的处理方法、装置、设备和存储介质，方法包括确定视频采集设备的视场范围；从采集的所有音频信号中选取位于视频采集设备的视场范围内的待处理音频信号后，对所述待处理音频信号进行增强处理，得到增强音频信号。本发明的技术方案实现了利用视场和声音结合的方式对特定目标、特定方向、特定区域范围的声源定位和增强处理，从而提高了音频信号处理的灵活性、准确性。

Description

音频信号的处理方法、装置、设备和存储介质

技术领域

本发明涉及信号处理技术领域，尤其涉及一种音频信号的处理方法、装置、设备和存储介质。

背景技术

通话设备在实际使用环境中容易受到背景噪音和混响等干扰，使音频信号的质量和可懂度受到影响，因此在许多通话应用中都需要进行有效的音频信号增强处理，以抑制噪声，提高音频的清晰度、可懂度和舒适度。

目前，最常用的麦克风阵列语音增强技术是利用麦克风阵列接收到的音频信号里包含的空间相位信息对输入语音进行空间滤波，形成具有指向性的空间波束，对指定方向上的音频信号进行增强。

但是，当使用环境中存在多个声源时，传统的来波方向估计只能选择声音最强的声源进行增强，而其他声源无法被增强，或者，无法对特定的声源信号、特定区域范围内的声源信号进行增强，从而降低了音频信号处理的灵活性、准确性。

发明内容

有鉴于此，本发明的目的在于提出一种音频信号的处理方法、装置、设备和存储介质，以解决音频信号处理的灵活性、准确性较低的问题。

基于上述目的，本发明提供了一种音频信号的处理方法，包括：

确定视频采集设备的视场范围；

从采集的所有音频信号中选取位于所述视场范围内的待处理音频信号；

对所述待处理音频信号进行增强处理，得到增强音频信号。

进一步地，上述所述的音频信号的处理方法中，确定视频采集设备的视场范围，包括：

获取所述视频采集设备的采集参数；

根据所述视频采集设备的采集参数，确定所述视场范围。

进一步地，上述所述的音频信号的处理方法中，所述视频采集设备的采集参数包括所述视频采集设备的拍摄方向和/或成像倍数。

进一步地，上述所述的音频信号的处理方法中，从采集的所有音频信号中选取位于所述视场范围内的待处理音频信号，包括：

根据视频采集设备和麦克风阵列的相对位置，确定所述视场范围对应的视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系；其中，所述麦克风阵列用于采集音频信号；

提取所述视频画面中唇部坐标；

根据像素坐标与麦克风阵列的来波方向之间的映射关系，确定所述唇部坐标对应的来波方向；

从所有音频信号的来波方向中选取与所述唇部坐标对应的来波方向一致的音频信号作为所述待处理音频信号。

进一步地，上述所述的音频信号的处理方法中，对所述待处理音频信号进行增强处理，得到增强音频信号，包括：

将所有待处理音频信号进行积分处理，得到目标音频信号；

根据所述目标音频信号和所有音频信号，确定待抑制音频信号；

根据所述目标音频信号和所述待抑制音频信号，确定所述目标音频信号的加权权重变换矩阵；

利用所述加权权重变换矩阵对所述目标音频信号进行增强处理，得到所述增强音频信号。

本发明还提供一种音频信号的处理装置，包括：

确定模块，用于确定视频采集设备的视场范围；

选取模块，用于从采集的所有音频信号中选取位于所述视场范围内的待处理音频信号；

增强处理模块，用于对所述待处理音频信号进行增强处理，得到增强音频信号。

进一步地，上述所述的音频信号的处理装置中，所述确定模块，具体用于：

获取所述视频采集设备的采集参数；

根据所述视频采集设备的采集参数，确定所述视场范围。

进一步地，上述所述的音频信号的处理装置中，所述增强处理模块，具体用于：

将所有待处理音频信号进行积分处理，得到目标音频信号；

本发明还提供一种音频信号的处理设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的音频信号的处理方法。

本发明还提供一种存储介质，所述存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任意一项所述的音频信号的处理方法。

从上面所述可以看出，本发明提供的音频信号的处理方法、装置、设备和存储介质，通过确定视频采集设备的视场范围；从采集的所有音频信号中选取位于视频采集设备的视场范围内的待处理音频信号后，对所述待处理音频信号进行增强处理，得到增强音频信号，实现了利用视场和声音结合的方式对特定目标、特定方向、特定区域范围的声源定位和增强处理。采用本发明的技术方案，能够提高音频信号处理的灵活性、准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的音频信号的处理方法实施例的流程图；

图2为本发明的音频信号的处理装置实施例的结构示意图；

图3为本发明的音频信号的处理设备实施例的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

图1为本发明的音频信号的处理方法实施例的流程图，如图1所示，本实施例的音频信号的处理方法具体可以包括如下步骤：

100、确定视频采集设备的视场范围；

具体地，本实施例中，可以获取视频采集设备的采集参数，例如，视频采集设备的拍摄方向和/或成像倍数。在采集到视频采集设备的采集参数后，可以根据视频采集设备的采集参数，确定视频采集设备的视场范围。其中，视频采集设备的拍摄方向可以为预设的，也可以是随着声源位置转动后得到的，本实施例不做具体限制。

例如，视频采集设备通常为摄像头，可以根据摄像头具体的拍摄方向，确定视频采集设备的视场范围，另外，还可以通过调整摄像头的焦距进行缩小或扩大，从而得到摄像头的成像倍数，并根据摄像头的成像倍数，确定视频采集设备的视场范围，从而可以灵活调整视场范围大小。再次，本实施例还可以将拍摄方向与成像倍数结合在一起，确定视频采集设备的视场范围。

101、从采集的所有音频信号中选取位于视场范围内的待处理音频信号；

在一个具体实现过程中，可以根据视频采集设备和麦克风阵列的相对位置，确定视场范围对应的视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系；并提取视频画面中唇部坐标后，根据像素坐标与麦克风阵列的来波方向之间的映射关系，确定唇部坐标对应的来波方向，然后将唇部坐标对应的来波方向与所有音频信号的来波方向进行比对，以便从所有音频信号的来波方向中选取与唇部坐标对应的来波方向一致的音频信号作为待处理音频信号。其中，麦克风阵列用于采集音频信号。

本实施例中，可以由于视频采集设备的视场范围是由视频采集设备的拍摄方向和/或成像倍数确定的，所以获取的待处理音频信号可以由用户自行设定，以便获取到特定目标或者特定方向的待处理音频信号。

例如，可以将视频采集设备的拍摄方向作为特定方向，还可通过调整成像倍数，以控制出现在视频画面中的人物数量，从而可以实现获取特定目标的待处理音频信号。例如，在直播过程中，只需获取主播的声音即可，此时，可以通过扩大焦距的方式，使得只有主播一人出现在视频画面中，这样，其它声源对应的音频信号则无法再作为待处理音频信号。

102、对待处理音频信号进行增强处理，得到增强音频信号。

本实施例中，可以按照如下方式得到增强音频信号：

a、将所有待处理音频信号进行积分处理，得到目标音频信号；

具体地，可以利用计算式(1)和(2)得到目标音频信号

其中，R_s为目标音频信号，θ为来波方向，R_s-θ为θ方向上的待处理音频信号；P(θ)为麦克风阵列的输出，v_θ为目标音频信号导向矢量，表示声源方向和麦克风之间的传递函数，

为v_θ的转置。

b、根据目标音频信号和所有音频信号，确定待抑制音频信号；

将所有音频信号排除目标音频信号后，即可得到待抑制音频信号。

c、根据目标音频信号和待抑制音频信号，确定目标音频信号的加权权重变换矩阵；

具体地，可以利用计算式(3)确定目标音频信号的加权权重变换矩阵：

其中，

为目标音频信号的加权权重变换矩阵，w为频域的加权权重变换矩阵，w^H为w的转置，R_n为待抑制音频信号。

d、利用得到的加权权重变换矩阵对目标音频信号进行增强处理，得到增强音频信号。

将加权权重变换矩阵与目标音频信号相乘即可得到增强音频信号。

本实施例的音频信号的处理方法，通过确定视频采集设备的视场范围；从采集的所有音频信号中选取位于视频采集设备的视场范围内的待处理音频信号后，对所述待处理音频信号进行增强处理，得到增强音频信号，实现了利用视场和声音结合的方式对特定目标、特定方向、特定区域范围的声源定位和增强处理。采用本发明的技术方案，能够提高音频信号处理的灵活性、准确性。

在一个具体实现过程中，视频采集设备的视场范围内的一些待处理音频信号可能并不需要增强，例如，在视频会议中，发言人的音频信号是必须增强的，但是在发言人发言过程中，可能存在部分人私下讨论一些内容，有时候可能会发出声音，该声音对应的音频信号也能够被采集到，但是这些音频信号实际上是不需要增强的，而是需要抑制的，因此，为了解决上述技术问题，本发明还提供了以下技术方案。

具体地，本实施例中，还可以利用机器学习技术，对视频画面中说话人的行为进行识别，以确定是否存在悄悄话行为，这样，若存在悄悄话行为，且采集到存在悄悄话行为对应的说话人的音频信号后，需要将存在悄悄话行为对应的说话人的音频信号排除，进一步提高了音频信号处理的灵活性、准确性。例如，可以预先构建一个行为识别模型，将采集的视频画面输入该行为识别模型后，对视频画面进行识别，从而确定视频画面中说话人的行为。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

图2为本发明的音频信号的处理装置实施例的结构示意图，如图2所示，本实施例的音频信号的处理装置包括确定模块20、选取模块21和增强处理模块22。

确定模块20，用于确定视频采集设备的视场范围；

具体地，可以获取所述视频采集设备的采集参数；根据所述视频采集设备的采集参数，确定所述视场范围。其中，视频采集设备的采集参数包括所述视频采集设备的拍摄方向和/或成像倍数。

选取模块21，用于从采集的所有音频信号中选取位于视频采集设备的视场范围内的待处理音频信号；

具体地，根据视频采集设备和麦克风阵列的相对位置，确定所述视场范围对应的视频画面中像素坐标与麦克风阵列的来波方向之间的映射关系；提取所述视频画面中唇部坐标；根据像素坐标与麦克风阵列的来波方向之间的映射关系，确定所述唇部坐标对应的来波方向；从所有音频信号的来波方向中选取与所述唇部坐标对应的来波方向一致的音频信号作为所述待处理音频信号。其中，所述麦克风阵列用于采集音频信号；

增强处理模块22，用于对待处理音频信号进行增强处理，得到增强音频信号。

具体地，将所有待处理音频信号进行积分处理，得到目标音频信号；根据所述目标音频信号和所有音频信号，确定待抑制音频信号；根据所述目标音频信号和所述待抑制音频信号，确定所述目标音频信号的加权权重变换矩阵；利用所述加权权重变换矩阵对所述目标音频信号进行增强处理，得到所述增强音频信号。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

本实施例的音频信号的处理装置，通过确定视频采集设备的视场范围；从采集的所有音频信号中选取位于视频采集设备的视场范围内的待处理音频信号后，对所述待处理音频信号进行增强处理，得到增强音频信号，实现了利用视场和声音结合的方式对特定目标或者方向的声源定位和增强处理。采用本发明的技术方案，能够提高音频信号处理的灵活性、准确性。

图3为本发明的音频信号的处理设备实施例的结构示意图，如图3所示，本实施例的音频信号的处理设备可以包括：处理器1010和存储器1020。本领域技术人员可知的，该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本发明还提供一种存储介质，其特征在于，所述存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述实施例的音频信号的处理方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频信号的处理方法，其特征在于，包括：

确定视频采集设备的视场范围；

对所述待处理音频信号进行增强处理，得到增强音频信号。

2.根据权利要求1所述的音频信号的处理方法，其特征在于，确定视频采集设备的视场范围，包括：

获取所述视频采集设备的采集参数；

根据所述视频采集设备的采集参数，确定所述视场范围。

3.根据权利要求2所述的音频信号的处理方法，其特征在于，所述视频采集设备的采集参数包括所述视频采集设备的拍摄方向和/或成像倍数。

4.根据权利要求1所述的音频信号的处理方法，其特征在于，从采集的所有音频信号中选取位于所述视场范围内的待处理音频信号，包括：

提取所述视频画面中唇部坐标；

5.根据权利要求1所述的音频信号的处理方法，其特征在于，对所述待处理音频信号进行增强处理，得到增强音频信号，包括：

将所有待处理音频信号进行积分处理，得到目标音频信号；

6.一种音频信号的处理装置，其特征在于，包括：

确定模块，用于确定视频采集设备的视场范围；

7.根据权利要求6所述的音频信号的处理装置，其特征在于，所述确定模块，具体用于：

获取所述视频采集设备的采集参数；

根据所述视频采集设备的采集参数，确定所述视场范围。

8.根据权利要求6所述的音频信号的处理装置，其特征在于，所述增强处理模块，具体用于：

将所有待处理音频信号进行积分处理，得到目标音频信号；

9.一种音频信号的处理设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任意一项所述的音频信号的处理方法。

10.一种存储介质，其特征在于，所述存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至5任意一项所述的音频信号的处理方法。