CN113345462A

CN113345462A - 一种拾音去噪方法、系统及介质

Info

Publication number: CN113345462A
Application number: CN202110534637.9A
Authority: CN
Inventors: 王瑞焕; 李健; 胡焱; 安静
Original assignee: Inspur Financial Information Technology Co Ltd
Current assignee: Inspur Financial Information Technology Co Ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-09-03
Anticipated expiration: 2041-05-17
Also published as: CN113345462B

Abstract

本发明公开了一种拾音去噪方法、系统及介质，所述方法包括以下步骤：设定屏蔽值，配置拾音阵列，定义拾音阵列的声源区间；配置波束形成算法，获取第一声源，基于波束形成算法识别第一声源的地址信息；基于声源区间和地址信息确定第一声源的声源类别；配置处理程序，基于屏蔽值、声源类别和处理程序对第一声源进行捕捉处理或屏蔽处理；本发明能够对声源进行定位，并按照预设的数据信息对定位后的声源进行针对性的屏蔽，使最终捕捉到的声源为高质量、高正确性的优质声源，进而提高了网络会议的效率，提升了用户的体验、智慧屏的适用性以及产品竞争力。

Description

一种拾音去噪方法、系统及介质

技术领域

本发明涉及麦克风拾音优化技术领域，特别是涉及一种拾音去噪方法、系统及介质。

背景技术

基于智慧屏的网络会议交互中，常常使用单阵列麦克风来对会议的声源进行捕捉并优化，这种优化方法只能适用于较为安静的环境，而在相对开放的场景下，此方法将会被多种声源进行干扰，最终导致捕捉到的声源质量较差，影响网络会议的进展，降低了智慧屏的适用性。

发明内容

本发明主要解决的是现有的麦克风的拾音去噪方法在开放环境下，无法捕捉高质量的声源，进而影响网络会议进展及降低智慧屏适用性的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种拾音去噪方法，包括以下步骤：

设定屏蔽值，配置拾音阵列，定义所述拾音阵列的声源区间；

配置波束形成算法，获取第一声源，基于所述波束形成算法识别所述第一声源的地址信息；

基于所述声源区间和所述地址信息确定所述第一声源的声源类别；

配置处理程序，基于所述屏蔽值、所述声源类别和所述处理程序对所述第一声源进行捕捉处理或屏蔽处理。

作为一种改进的方案，所述配置拾音阵列，定义所述拾音阵列的声源区间的步骤进一步包括：

设定阵列数量，按照所述阵列数量配置所述拾音阵列；

设定基准角度，按照所述基准角度设定所述拾音阵列的屏蔽区间和拾音区间，定义所述拾音区间为所述声源区间。

作为一种改进的方案，所述基于所述波束形成算法识别所述第一声源的地址信息的步骤进一步包括：

调用所述波束形成算法对所述第一声源进行定位，得到所述第一声源的定位信息；

按照所述基准角度将所述定位信息转换为所述地址信息。

作为一种改进的方案，所述基于所述声源区间和所述地址信息确定所述第一声源的声源类别的步骤进一步包括：

比对所述地址信息是否处于所述声源区间内；若处于，则确定所述声源类别为可增强声源；若未处于，则确定所述声源类别为可屏蔽声源。

作为一种改进的方案，所述基于所述屏蔽值、所述声源类别和所述处理程序对所述第一声源进行捕捉处理或屏蔽处理的步骤进一步包括：

当所述声源类别为所述可增强声源时，基于所述处理程序对所述第一声源进行所述捕捉处理；

当所述声源类别为所述可屏蔽声源时，基于所述屏蔽值和所述处理程序对所述第一声源进行所述屏蔽处理。

作为一种改进的方案，所述捕捉处理包括：

调用所述处理程序提取所述第一声源的音频数据，并对所述音频数据进行去噪处理；

提高经过所述去噪处理后的所述音频数据的分贝值。

作为一种改进的方案，所述屏蔽处理包括：

调用所述处理程序提取所述第一声源的音频数据，并降低所述音频数据的分贝值至所述屏蔽值。

作为一种改进的方案，所述按照所述基准角度将所述定位信息转换为所述地址信息的步骤进一步包括：

提取所述定位信息中的第一坐标信息；

根据所述基准角度将所述第一坐标信息转换为第二坐标信息，并设定所述第二坐标信息为所述地址信息。

本发明还提供一种拾音去噪系统，包括：

初始化模块、声源定位模块、类别确定模块和声源处理模块；

所述初始化模块用于设定屏蔽值，配置拾音阵列，并定义所述拾音阵列的声源区间；

所述声源定位模块用于配置波束形成算法，并获取第一声源；所述声源定位模块基于所述波束形成算法识别所述第一声源的地址信息；

所述类别确定模块用于根据所述声源区间和所述地址信息确定所述第一声源的声源类别；

所述声源处理模块用于配置处理程序，并基于所述屏蔽值、所述声源类别和所述处理程序对所述第一声源进行捕捉处理或屏蔽处理。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述拾音去噪方法的步骤。

本发明的有益效果是：

1、本发明所述的拾音去噪方法，可以实现对声源进行定位，并按照预设的数据信息对定位后的声源进行针对性的屏蔽，使最终捕捉到的声源为高质量、高正确性的优质声源，进而提高了网络会议的效率，提升了用户的体验、智慧屏的适用性以及产品竞争力。

2、本发明所述的拾音去噪系统，可以通过初始化模块、声源定位模块、类别确定模块和声源处理模块的相互配合，进而实现对声源进行定位，并按照预设的数据信息对定位后的声源进行针对性的屏蔽，使最终捕捉到的声源为高质量、高正确性的优质声源，进而提高了网络会议的效率，提升了用户的体验、智慧屏的适用性以及产品竞争力。

3、本发明所述的计算机可读存储介质，可以实现引导初始化模块、声源定位模块、类别确定模块和声源处理模块进行配合，进而实现对声源进行定位，并按照预设的数据信息对定位后的声源进行针对性的屏蔽，使最终捕捉到的声源为高质量、高正确性的优质声源，进而提高了网络会议的效率，提升了用户的体验、智慧屏的适用性以及产品竞争力，并且有效的提高了所述拾音去噪方法的可操作性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1所述拾音去噪方法的流程图；

图2是本发明实施例1所述拾音去噪方法的具体流程示意图；

图3是本发明实施例1所述拾音区间和所述屏蔽区间的示意图；

图4是本发明实施例2所述拾音去噪系统的架构图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

在本发明的描述中，需要说明的是，本发明所描述的实施例是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“拾音阵列”、“声源区间”、“波束形成算法”、“声源”、“地址信息”、“声源类别”、“处理程序”、“捕捉处理”、“屏蔽处理”、“阵列数量”、“基准角度”、“屏蔽区间”、“拾音区间”、“定位信息”、“可增强声源”、“可屏蔽声源”、“音频数据”、“去噪处理”、“分贝值”、“屏蔽值”、“坐标信息”、“初始化模块”、“声源定位模块”、“类别确定模块”、“声源处理模块”应做广义理解。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是：UART(Universal Asynchronous Recei ver/Transmitter)是通用异步收发传输器；UAC(User Account Contro)是一种控制程序。

实施例1

本实施例提供一种拾音去噪方法，如图1至图3所示，包括以下步骤：

首先，需要说明的是，本方法应用于通过智慧屏等设备开展企业会议的场景；对应的，智慧屏包括主控模块、显示终端以及会议终端，其负责控制现场收音、视频对接、语音以及数字信号的处理；针对上述场景，高质量的会议语音交互环境是主要的技术难题；现有技术中，相对于传统的单麦克风收音方法进行了改进，其采取在人工智能领域被广泛应用的单麦克风阵列对会议中的多种语音信号进行三维处理，进一步定位了声源且抑制了噪声；对应的，此种技术还存在一定的缺陷，通常单麦克风阵列会采用线性4麦或6麦的组合方案，并利用波束成形算法对声源进行了定位的追踪，其局限性太大，由于其本身的架构设计，导致其只能应用于室内相对安静的环境中，这大大降低了智慧屏的适用性；针对上述问题，本实施例所描述的方法针对无法在开放环境下捕捉高质量声源的问题进行了解决，步骤如下：

S100、设定屏蔽值，配置拾音阵列，定义所述拾音阵列的声源区间；

步骤S100具体包括：

S110、设定阵列数量，按照所述阵列数量配置所述拾音阵列；在本实施例中，拾音阵列指麦克风阵列；其阵列原理同样适用于包含但不限于麦克风在内的其他拾音设备；对应的，阵列数量包含但不限于2、3、4等；阵列数量越多，则可采取的拾音范围越大，效果越好，其可以根据所处于的开放环境质量进行具体设置；

S120、设定基准角度，按照所述基准角度设定所述拾音阵列的屏蔽区间和拾音区间，定义所述拾音区间为所述声源区间；在本实施例中，基准角度为0度，而对应的拾音区间为第一拾音阵列的0度至90度，第二拾音区间为第二拾音阵列的-90度至0度；对应的，在本实施例中，考虑到处于中部的声源为优质且主导声源，故将两个拾音阵列的中部向对称的部分设置为拾音区间，剩余部分则为屏蔽区间；

对应的，在本实施例中屏蔽值小于或等于0，当声源区间设置完毕后，可将其对应的区间信息存储至系统数据库中，方便接下来的调用；通过本步骤，进行了多步初始化操作，为后续的拾音和屏蔽提供了有效的数据基础。

S200、配置波束形成算法，获取第一声源，基于所述波束形成算法识别所述第一声源的地址信息；

步骤S200具体包括：

S210、调用所述波束形成算法对所述第一声源定位，得到所述第一声源的定位信息；对应的，在本实施例中，通过波束形成算法对第一声源的角度进行定位，对应得到的定位信息中包含有角度信息，因本实施例应用于智慧屏中，故通过智慧屏中的UART总线将该定位信息发送至主控模块；

S220、按照所述基准角度将所述定位信息转换为所述地址信息：在本实施例中，考虑到直接定位获取的信息与一开始设置的区间信息有所差别，故需要在同一基准下将定位信息转换为与区间信息相同格式的数据，具体步骤如下：

S221、提取所述定位信息中的第一坐标信息；在本实施例中，第一坐标信息为定位信息中的角度信息；该角度信息是以第一声源的声源出发点所生成的角度信息，故执行下一步：

S222、根据所述基准角度将所述第一坐标信息转换为第二坐标信息，并设定所述第二坐标信息为所述地址信息；在本实施例中，按照该基准角度0度对第一坐标信息的横纵坐标进行加减运算，得到新的第二坐标信息，该第二坐标信息为与上述声源区间相对应的信息。

通过本步骤，对声源进行了准确的定位，得到其定位信息后，根据步骤S100中保存至系统数据库中的区间信息即可对声源所对应的声源类别进行确定。

S300、基于所述声源区间和所述地址信息确定所述第一声源的声源类别；

步骤S300具体包括：

S310、比对所述地址信息是否处于所述声源区间内；在本实施例中，因步骤S100中设定了声源区间为拾音区间，故有以下结果：

S311、若处于，则确定所述声源类别为可增强声源；

S312、若未处于，则确定所述声源类别为可屏蔽声源；对应的，在本实施例中，同样可以将声源区间设置为屏蔽区间，则对应的结果为，若处于，则确定所述声源类别为可屏蔽声源；若未处于，则需要再次确定是否处于拾音区间，并进行再次判断；对应的，可增强声源代表该第一声源是会议中的必要声源，需要增强并捕捉；可屏蔽声源代表该第一声源是会议中的噪音或非必要声源，需要进行屏蔽以提升会议音频环境质量。

通过本步骤，对获取到的声源进行了准确的判断，并得到对应的判断结果，后续根据此判断结果进行对应的增强或屏蔽处理即可。

S400、配置处理程序，基于所述屏蔽值、所述声源类别和所述处理程序对所述第一声源进行捕捉处理或屏蔽处理。

步骤S400具体包括：

S410、当所述声源类别为所述可增强声源时，基于所述处理程序对所述第一声源进行所述捕捉处理；

S411、所述捕捉处理包括：调用所述处理程序提取所述第一声源的音频数据，并对所述音频数据进行去噪处理；增强经过去噪处理后的所述音频数据的分贝值；在本实施例中，处理程序内置于主控模块中，执行捕捉处理时，主控模块调用处理程序通过所述UART总线发送控制信号，将声源区间内所对应的该声源进行定向增强，对其音频数据进行去噪优化，并提高其音频数据的分贝值；主控模块通过UAC协议总线提取处理后的音频数据，并做保存或其他处理操作；

S420、当所述声源类别为所述可屏蔽声源时，基于所述屏蔽值和所述处理程序对所述第一声源进行所述屏蔽处理。

S421、所述屏蔽处理包括：调用所述处理程序提取所述第一声源的音频数据，并降低所述音频数据的分贝值至所述屏蔽值；在本实施例中，执行屏蔽处理时，主控模块调用处理程序通过所述UART总线发送控制信号，将屏蔽区间内所对应的该音频进行屏蔽发送处理，对应的，对其音频数据的分贝值降低至屏蔽值；对应的，捕捉处理和屏蔽处理在本实施例中的描述仅作为一种实施方式，在此不做限定；可以通过其他能够达到相同技术效果的技术进行替换。

通过本实施例所描述的拾音去噪方法，可以对任何开放环境下的声源进行准确的增强或屏蔽，使智慧屏操作下的网络会议处于高质量状态，极大的提高了智慧屏的适用性及产品竞争力，弥补了现有技术的不足。

实施例2

本实施例提供一种拾音去噪系统，如图4所示，包括：初始化模块、声源定位模块、类别确定模块和声源处理模块；

所述拾音去噪系统中，初始化模块用于设定屏蔽值，配置拾音阵列，并定义所述拾音阵列的声源区间；

具体的，初始化模块设定阵列数量，并按照所述阵列数量配置所述拾音阵列；初始化模块设定基准角度，并按照所述基准角度设定所述拾音阵列的屏蔽区间和拾音区间，初始化模块定义所述拾音区间为所述声源区间。

所述拾音去噪系统中，声源定位模块用于配置波束形成算法，并获取第一声源；所述声源定位模块基于所述波束形成算法识别所述第一声源的地址信息；

具体的，声源定位模块调用所述波束形成算法对所述第一声源定位，得到所述第一声源的定位信息；声源定位模块按照所述基准角度将所述定位信息转换为所述地址信息：声源定位模块提取所述定位信息中的第一坐标信息，并根据所述基准角度将所述第一坐标信息转换为第二坐标信息；声源定位模块设定所述第二坐标信息为所述地址信息。

所述拾音去噪系统中，类别确定模块用于根据所述声源区间和所述地址信息确定所述第一声源的声源类别；

具体的，类别确定模块比对所述地址信息是否处于所述声源区间内；若处于，则类别确定模块确定所述声源类别为可增强声源；若未处于，则类别确定模块确定所述声源类别为可屏蔽声源。

所述拾音去噪系统中，声源处理模块用于配置处理程序，并基于所述屏蔽值、所述声源类别和所述处理程序对所述第一声源进行捕捉处理或屏蔽处理；

具体的，当所述声源类别为所述可增强声源时，声源处理模块基于所述处理程序对所述第一声源进行所述捕捉处理；对应的，所述捕捉处理包括：声源处理模块调用所述处理程序提取所述第一声源的音频数据，并对所述音频数据进行去噪处理，声源处理模块增强经过去噪处理后的所述音频数据的分贝值；

具体的，当所述声源类别为所述可屏蔽声源时，声源处理模块基于所述屏蔽值和所述处理程序对所述第一声源进行所述屏蔽处理；对应的，所述屏蔽处理包括：声源处理模块调用所述处理程序提取所述第一声源的音频数据，并降低所述音频数据的分贝值至所述屏蔽值。

通过本实施例所描述的拾音去噪系统，通过各个模块间的相互配合，可以对任何开放环境下的声源进行准确的增强或屏蔽，使智慧屏操作下的网络会议处于高质量状态，极大的提高了智慧屏的适用性及产品竞争力，弥补了现有技术的不足。

实施例3

本实施例提供一种计算机可读存储介质，包括：

所述存储介质用于储存将上述实施例1所述的拾音去噪方法实现所用的计算机软件指令，其包含用于执行上述为所述拾音去噪方法所设置的程序；具体的，该可执行程序可以内置在实施例2所述的拾音去噪系统中，这样，拾音去噪系统就可以通过执行内置的可执行程序实现所述实施例1所述的拾音去噪方法。

此外，本实施例具有的计算机可读存储介质可以采用一个或多个可读存储介质的任意组合，其中，可读存储介质包括电、光、电磁、红外线或半导体的系统、装置或器件，或者以上任意组合。

区别于现有技术，采用本申请一种拾音去噪方法、系统及介质可以通过本方法对声源进行定位，并按照预设的数据信息对定位后的声源进行针对性的屏蔽，使最终捕捉到的声源为高质量、高正确性的优质声源，进而提高了网络会议的效率，通过本系统为本方法提供了有效的技术支撑，最终提升了用户的体验、智慧屏的适用性以及产品竞争力。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种拾音去噪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的拾音去噪方法，其特征在于，所述配置拾音阵列，定义所述拾音阵列的声源区间的步骤进一步包括：

设定阵列数量，按照所述阵列数量配置所述拾音阵列；

3.根据权利要求2所述的拾音去噪方法，其特征在于，所述基于所述波束形成算法识别所述第一声源的地址信息的步骤进一步包括：

按照所述基准角度将所述定位信息转换为所述地址信息。

4.根据权利要求1或2所述的拾音去噪方法，其特征在于，所述基于所述声源区间和所述地址信息确定所述第一声源的声源类别的步骤进一步包括：

5.根据权利要求4所述的拾音去噪方法，其特征在于，所述基于所述屏蔽值、所述声源类别和所述处理程序对所述第一声源进行捕捉处理或屏蔽处理的步骤进一步包括：

6.根据权利要求5所述的拾音去噪方法，其特征在于，所述捕捉处理包括：

提高经过所述去噪处理后的所述音频数据的分贝值。

7.根据权利要求5所述的拾音去噪方法，其特征在于，所述屏蔽处理包括：

8.根据权利要求3所述的拾音去噪方法，其特征在于，所述按照所述基准角度将所述定位信息转换为所述地址信息的步骤进一步包括：

提取所述定位信息中的第一坐标信息；

9.一种拾音去噪系统，其特征在于，包括：初始化模块、声源定位模块、类别确定模块和声源处理模块；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1～8中任一项所述拾音去噪方法的步骤。