CN112562730A

CN112562730A - 一种声源分析方法及系统

Info

Publication number: CN112562730A
Application number: CN202011333240.5A
Authority: CN
Inventors: 程佳; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-26

Abstract

本发明公开了一种声源分析方法及系统，方法包括：获取高信噪比音频角度，获取低信噪比音频角度；基于高信噪比音频角度进行投票统计，得到第一说话人位置；基于低信噪比音频角度和第一说话人位置进行投票统计，得到噪声位置。本发明能够有效的分析出声源中的说话人位置和噪声位置。

Description

一种声源分析方法及系统

技术领域

本发明涉及数据分析技术领域，尤其涉及一种声源分析方法及系统。

背景技术

传统的SRP(Steered Responser Power，可控响应功率)算法声源定位技术，对回声消除后的信号在空间各个方向做固定波束形成，波束输出功率最大的方向即为当前帧的声源方向，但是无法对声源类型做出判别。

因此，如何有效的对声源进行分析，以判别出声源的不同类型，是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种声源分析方法，能够有效的判别出声源的不同类型。

本发明提供了一种声源分析方法，包括：

获取高信噪比音频角度；

获取低信噪比音频角度；

基于所述高信噪比音频角度进行投票统计，得到第一说话人位置；

基于所述低信噪比音频角度和所述第一说话人位置进行投票统计，得到噪声位置。

优选地，所述方法还包括：

获取视频角度；

基于所述高信噪比音频角度和所述视频角度进行投票统计，得到第二说话人位置；

基于所述低信噪比音频角度和所述第二说话人位置进行投票统计，得到噪声位置。

优选地，所述获取高信噪比音频角度，包括：

获取原始角度；

当信噪比大于预设值时，基于信噪比高低对所述原始角度进行筛选，得到高信噪比音频角度。

优选地，所述获取低信噪比音频角度，包括：

获取原始角度；

基于信噪比高低对所述原始角度进行筛选，得到高信噪比音频角度。

优选地，所述获取视频角度包括：

基于人脸识别得到人脸坐标或基于骨架识别得到头部坐标；

将所述人脸坐标或头部坐标转化到与麦克风阵列统一的坐标系中，得到视频角度。

一种声源分析系统，包括：

第一获取模块，用于获取高信噪比音频角度；

第二获取模块，用于获取低信噪比音频角度；

第一分析模块，用于基于所述高信噪比音频角度进行投票统计，得到第一说话人位置；

第二分析模块，用于基于所述低信噪比音频角度和所述第一说话人位置进行投票统计，得到噪声位置。

优选地，所述系统还包括：

第三获取模块，用于获取视频角度；

第三分析模块，用于基于所述高信噪比音频角度和所述视频角度进行投票统计，得到第二说话人位置；

第四分析模块，用于基于所述低信噪比音频角度和所述第二说话人位置进行投票统计，得到噪声位置。

优选地，所述第一获取模块具体用于：

获取原始角度；

优选地，所述第二获取模块具体用于：

获取原始角度；

优选地，所述第三获取模块具体用于：

基于人脸识别得到人脸坐标或基于骨架识别得到头部坐标；

综上所述，本发明公开了一种声源分析方法，当需要对声源进行分析时，首先获取高信噪比音频角度，获取低信噪比音频角度；然后基于高信噪比音频角度进行投票统计，得到第一说话人位置；基于低信噪比音频角度和第一说话人位置进行投票统计，得到噪声位置。本发明能够有效的分析出声源中的说话人位置和噪声位置。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种声源分析方法实施例1的方法流程图；

图2为本发明公开的一种投票区间的划分示意图；

图3为本发明公开的一种投票统计示意示意图；

图4为本发明公开的仅使用高信噪比音频角度筛选出说话人角度的流程示意图；

图5为本发明公开的噪声角度统计的流程示意图；

图6为本发明公开的一种声源分析方法实施例2的方法流程图；

图7为本发明公开的结合视频角度判决说话人角度的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种声源分析方法实施例1的方法流程图，所述方法可以包括以下步骤：

S101、获取高信噪比音频角度；

当需要对声源进行分析，确定出说话人位置和噪声位置时，首先获取高高信噪比音频角度；其中，高信噪比音频角度由原始声源定位结果处理得到。

具体的，在获取高信噪比音频角度时，原始角度由波束形成方位估计得到，在求得波束输出的功率后，在所有可能的(0-360°)声源位置范围搜索波束输出功率最大值，从而求得声源定位的原始角度。本发明可以基于联合可控响应功率和相位变换(SRP-PHAT)进行声源定位，具有较好的抗噪性、抗混响性及较强的鲁棒性，在弱噪声和适度混响的环境下仍然有较好的表现。

高信噪比音频角度是在获得原始角度后，根据SNR(SIGNAL NOISE RATIO，信噪比)高低对角度进行筛选得到的。本发明的信噪比是根据预估信噪比和计算信号的倒谱距离得到的。当SNR大于n dB时，则认为存在有效语音信号输出，并输出当前帧的定位角度，若SNR小于n dB，则认为当前帧的信号是噪声，无有效语音信号，此时该角度不进行更新。

为了剔除输出角度中的噪声，可以将经过上述处理的角度缓存7帧，并进行中值滤波，输出得到场景分析需要的高信噪比音频角度，该高信噪比音频角度用于说话人方位统计。

S102、获取低信噪比音频角度；

同时，获取低信噪比音频角度；其中，低信噪比音频角度由原始声源定位结果处理得到。

具体的，在获取低信噪比音频角度时，与高信噪比音频角度的原始角度获得方式相同，不同的是，该角度有更宽松的筛选条件，即在宽松条件内的所有角度均认为是有效输出，否则不更新该角度的值。为了保留噪声的原始信息，该角度不经中值滤波直接进行输出，得到场景分析需要的低信噪比音频角度，该低信噪比音频角度用于噪声方位统计。

S103、基于高信噪比音频角度进行投票统计，得到第一说话人位置；

然后，根据获取到的高信噪比音频角度进行投票统计，得到说话人位置。

其中，投票统计可以以6路麦克风信号为自变量，波束形成角度为统计结果的集合，该集合范围为0-360°，为了使统计结果方差不至于过大，角度区间的划分不宜过大，所以，等间距划分角度区间，如图2所示，与波束形成角度搜索区间相对应。每帧统计一个角度，帧数随时间增加，在一段时间内，缓存定位的角度值，角度将落在不同的区间内。投票统计示例如图3所示，若角度落在第a个区间内，则对a区间进行投票，票数最高的区间为期望区间，假定计算角度在区间内呈均匀分布，进行数值平均得到期望角度，并抛弃其他区间的角度。

具体的，根据高信噪比音频角度进行投票统计，得到说话人位置的流程图如图4所示。

S104、基于低信噪比音频角度和第一说话人位置进行投票统计，得到噪声位置。

同时，根据获取到的低信噪比音频角度，以及基于高信噪比音频角度进行投票统计得到的说话人位置，进行投票统计，得到噪声位置。

具体的，基于低信噪比音频角度和说话人位置进行投票统计，得到噪声位置的流程图如图5所示：

第一步：用低信噪比音频角度对buffer进行更新，buffer使用循环buffer以提高效率。

第二步：缓存说话人角度并进行投票，用于从噪声的统计结果中去除说话人角度，以减少错误统计的结果。说话人角度存在的区间内，噪声角度不投票。

第三步：进行噪声方位投票统计。每次投票统计各区间：得票次数和该区间得票平均值。

第四步：当前角度与音频角度对比，差别在15°以内的剔除。

第五步：筛选有效角度占总区间段的比例，投票大于阈值的认为是有效的噪声角度，若统计角度无效，则使用历史噪声角度。

第六步：如果是有效的噪声角度，则用该角度对历史值进行更新。

综上所述，本实施例能够基于获取到的高信噪比音频角度和低信噪比音频角度，通过投票统计，分析出声源中的说话人位置和噪声位置。

如图6所示，为本发明公开的一种声源分析方法实施例2的方法流程图，所述方法可以包括以下步骤：

S601、获取视频角度；

当需要对声源进行分析，确定出说话人位置和噪声位置时，获取视频角度。

具体的，视频角度的获得共分为两个步骤:首先利用人脸识别得到人脸坐标或骨架识别得到头部坐标，然后再由该坐标转化到与麦克风阵列统一的坐标系中并计算从而得到视频角度。由于摄像头可视角度有一定范围，因此视频角度的范围大致在0-70°之间。

S602、获取高信噪比音频角度；

同时，获取高高信噪比音频角度；其中，高信噪比音频角度由原始声源定位结果处理得到。

S603、获取低信噪比音频角度；

S604、基于高信噪比音频角度和视频角度进行投票统计，得到第二说话人位置；

然后，根据获取到的高信噪比音频角度和视频角度进行投票统计，得到说话人位置。

具体的，根据高信噪比音频角度和视频角度进行投票统计，得到说话人位置的流程图如图7所示：

第一步：移动说话人投票的buffer。

第二步：判断在高信噪比角度是否在视频角度的范围内，若超出范围直接判定该角度为噪声。

第三步：如果高信噪比角度在视频角度范围内，则判定该角度为有效角度，并用该角度对buffer进行更新。

第四步：进行说话人角度投票统计。每次投票统计各区间的得票次数和该区间投票角度平均值。

第五步：如果投票选出的区间角度范围以内，得票次数n次以上，则选出纯音频角度筛选出的说话人角度。

第六步：结合视频角度判决说话人角度：当视频角度有效，且视频角度和音频估计角度相差小于等于15°时，视频角度和音频角度各占50％的权重，得到说话人角度；当视频角度和音频估计角度相差大于15°时，若音频角度测量的结果在有效范围内，则说话人角度全部采用音频角度估计结果，否则说话人角度采用缓存的说话人角度历史值。当视频角度无效时，直接判断音频角度测量的结果是否在有效范围内，若在有效范围内，说话人角度全部采用音频角度估计结果，并缓存说话人角度历史值，否则仍采用说话人角度历史值。

S605、基于低信噪比音频角度和第二说话人位置进行投票统计，得到噪声位置。

第四步：当前角度与音频角度对比，差别在15°以内的剔除。

综上所述，本实施例能够基于获取到的视频角度、高信噪比音频角度和低信噪比音频角度，通过投票统计，分析出声源中的说话人位置和噪声位置。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种声源分析方法，其特征在于，包括：

获取高信噪比音频角度；

获取低信噪比音频角度；

2.根据权利要求1所述的方法，其特征在于，还包括：

获取视频角度；

3.根据权利要求1或2所述的方法，其特征在于，所述获取高信噪比音频角度，包括：

获取原始角度；

4.根据权利要求1或2所述的方法，其特征在于，所述获取低信噪比音频角度，包括：

获取原始角度；

5.根据权利要求2所述的方法，其特征在于，所述获取视频角度包括：

基于人脸识别得到人脸坐标或基于骨架识别得到头部坐标；

6.一种声源分析系统，其特征在于，包括：

第一获取模块，用于获取高信噪比音频角度；

第二获取模块，用于获取低信噪比音频角度；

7.根据权利要求6所述的系统，其特征在于，还包括：

第三获取模块，用于获取视频角度；

8.根据权利要求6或7所述的系统，其特征在于，所述第一获取模块具体用于：

获取原始角度；

9.根据权利要求6或7所述的系统，其特征在于，所述第二获取模块具体用于：

获取原始角度；

10.根据权利要求7所述的系统，其特征在于，所述第三获取模块具体用于：

基于人脸识别得到人脸坐标或基于骨架识别得到头部坐标；