CN110047507B

CN110047507B - 一种声源识别方法及装置

Info

Publication number: CN110047507B
Application number: CN201910157659.0A
Authority: CN
Inventors: 宋雷鸣; 于坤宏
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2021-03-30
Anticipated expiration: 2039-03-01
Also published as: CN110047507A

Abstract

本申请提供了一种声源识别方法及装置，涉及声源识别技术领域，包括首先接收声源信号，其中，所述声源信号包含至少一种频率的信号，然后将声源信号由时域转换为频域，得到声源信号的信号频谱集合，利用预设的频谱变换倍数分别对信号频谱集合中的振幅频谱集合和相位频谱集合进行变换处理，将变换处理后的振幅频谱集合和相位频谱集合进行整合后，得到处理后的声源信号，并对处理后的声源信号进行识别，解决了现有技术中输出信号对某一指定方向入射的信号最大，达到空域滤波效果，但是声源识别性能较差的技术问题，可以提高声源识别准确性的技术效果。

Description

一种声源识别方法及装置

技术领域

本申请涉及声源识别技术领域，尤其是涉及一种声源识别方法及装置。

背景技术

声源识别方法是听觉系统对发声物体位置的判断过程，声源识别有助于从背景声中锁定声学目标，分离有用信息。

现有技术中声源识别方法主要是对入射声源中的声源信号进行延时、加权、求和处理，使得输出信号对某一指定方向入射的信号最大，达到空域滤波效果，但是该方法声源识别性能较差。

而且，声源识别方法在通过麦克风阵列中的麦克风或多个声学传感器进行采集数据，分析声源位置方法时，声源的频率大小会影响到声源识别的分辨率，进而导致声源识别结果不准确。

发明内容

有鉴于此，本申请的目的在于提供一种声源识别方法及装置，以提高对声源识别的准确性。

第一方面，本申请提供了一种声源识别方法，其中，包括：

接收声源信号，其中，所述声源信号包含至少一种频率的信号；

将所述声源信号由时域转换为频域，得到所述声源信号的信号频谱集合；其中，所述信号频谱集合包括振幅频谱集合和相位频谱集合；

基于所述声源信号所属的类型，查找与所述声源信号相匹配的固定声源信号，根据所述固定声源信号的频率，以及所述振幅频谱集合中每个信号的频率，确定所述声源信号中每个信号对应的频谱变换倍数；

根据所述声源信号中每个信号对应的频谱变换倍数，对所述相位频谱集合进行变换处理，得到变换处理后的相位频谱集合，并且根据所述固定声源信号的频率，对所述振幅频谱集合进行变换处理，得到变换处理后的振幅频谱集合；

将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后，得到处理后的声源信号，并对处理后的声源信号进行识别。

本申请的一实施例中，所述根据所述声源信号中每个信号对应的频谱变换倍数，对所述相位频谱集合进行变换处理，得到变换处理后的相位频谱集合，包括：

选择所述相位频谱集合中的任一相位频谱作为参考相位频谱，计算所述相位频谱集合中除所述参考相位频谱外的每一个相位频谱与所述参考相位频谱的相位差频谱，得到相位差频谱集合；

计算所述相位差频谱集合中每个信号的相位差频谱与该信号对应的频谱变换倍数的乘积，得到变换处理后的相位频谱集合。

本申请的一实施例中，根据所述固定声源信号的频率，对所述振幅频谱集合进行变换处理，得到变换处理后的振幅频谱集合；包括：

将所述振幅频谱集合的每一个幅值保持不变，将所述振幅频谱集合的每一个频率变换为所述固定声源信号的频率，得到变换处理后的振幅频谱集合。

本申请的一实施例中，所述将所述声源信号由时域转换为频域，得到所述声源信号的信号频谱集合，包括：

利用傅里叶变换算法将所述声源信号由时域转换为频域，得到所述声源信号的信号频谱集合。

本申请的一实施例中，所述将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后，得到处理后的声源信号，包括：

利用傅里叶逆变换算法对所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行逆变换处理，得到处理后的声源信号。

第二方面，本申请还提供一种声源识别装置，其中，包括：

接收模块，用于接收声源信号，其中，所述声源信号包含至少一种频率的信号；

转换模块，用于将所述声源信号由时域转换为频域，得到所述声源信号的信号频谱集合；其中，所述信号频谱集合包括振幅频谱集合和相位频谱集合；

处理模块，用于基于所述声源信号所属的类型，查找与所述声源信号相匹配的固定声源信号，根据所述固定声源信号的频率，以及所述振幅频谱集合中每个信号的频率，确定所述声源信号中每个信号对应的频谱变换倍数；

识别模块，用于将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后，得到处理后的声源信号，并对处理后的声源信号进行识别。

本申请的一实施例中，所述处理模块，包括：

选择单元，用于选择所述相位频谱集合中的任一相位频谱作为参考相位频谱，计算所述相位频谱集合中除所述参考相位频谱外的每一个相位频谱与所述参考相位频谱的相位差频谱，得到相位差频谱集合；

计算单元，用于计算所述相位差频谱集合中每个信号的相位差频谱与该信号对应的频谱变换倍数的乘积，得到变换处理后的相位频谱集合。本申请的一实施例中，所述处理模块，具体用于：

本申请的一实施例中，所述转换模块，具体用于：

本申请的一实施例中，所述识别模块，具体用于：

第三方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法的步骤。

本申请实施例提供的声源识别方法中，首先接收声源信号，其中，所述声源信号包含至少一种频率的信号，然后将声源信号由时域转换为频域，得到声源信号的信号频谱集合，根据所述固定声源信号的频率，以及所述振幅频谱集合中每个信号的频率，确定所述声源信号中每个信号对应的频谱变换倍数，根据所述声源信号中每个信号对应的频谱变换倍数，对所述相位频谱集合进行变换处理，得到变换处理后的相位频谱集合，将变换处理后的振幅频谱集合和相位频谱集合进行整合后，得到处理后的声源信号，并对处理后的声源信号进行识别，从而可以达到提高声源识别的准确性。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种声源识别方法的流程图；

图2为本申请实施例提供的另一种声源识别方法的部分流程图；

图3为本申请实施例提供的一种声源识别装置的结构示意图；

图4为本申请实施例提供的一种计算机设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前现有技术中声源识别方法主要是对入射声源中的声源信号进行延时、加权、求和处理，使得输出信号对某一指定方向入射的信号最大，达到空域滤波效果，但是该方法声源识别性能较差，基于此，本申请实施例提供的一种声源识别方法及装置，可以提高对声源识别的准确性。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种声源识别方法进行详细介绍，图1为本申请实施例提供的一种声源识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤101，接收声源信号。

具体的，接收需要进行声源识别的声源信号，其中，对不同类型的声源信号，经过声源识别检测实验得到其类型中可以达到较高识别声源的固定声源信号，将该固定声源信号作为预设声源信号，上述接收的声源信号可以是相对该预设声源信号的低频声源信号，也可以是相对该预设声源信号的高频声源信号。

上述声源信号可以是通过固体、液体或者气体中的任意一种作为传播声音介质得到的声源信号。声源信号可以是识别具有多种声源信号环境中的一种声源信号，也可以是单一声源信号环境中识别该声源信号。其中，声源信号可以是各种乐器、扬声器或爆炸声等产生的声源信号，但不限于上述声源信号。

示例性的，声源信号作为入射声源传输到由不同数量的声学传感器组成的各信号采集通道阵列后，采集该声源信号传输至计算机设备，通过计算机设备对该声源信号进行延迟、加权、求和计算，使得各信号采集通道阵列的输出信号可以聚集到指定声源位置，在该指定声源位置处的信号达到最大值，例如，入射声源信号为p₁、p₂...p_i，该信号进入到由i个声学传感器组成的阵列通道中，对该声源信号进行延迟、加权、求和计算，得到如下表达式：

其中,k_i-各通道加权系数；τ_i-各通道延迟时间，与声学传感器位置有关；f-声源信号的频率。

步骤102，将所述声源信号由时域转换为频域，得到所述声源信号的信号频谱集合；其中，所述信号频谱集合包括振幅频谱集合和相位频谱集合。

示例性的，上述公式(1)通过傅里叶变换算法，得到阵列输出的频域表达式：

其中，ω-声源信号中声源的角频率；η_i-各个声学传感器相对于预设的参考位置的时间差，且ωη_i为第i个声学传感器与预设的参考位置第r个声学传感器之间的相位差。

假设第i个声学传感器到预设的参考位置第r个声学传感器的距离为R_ir，那么第1个声学传感器到预设的参考位置第r个声学传感器的距离为R_1r，将第1个声学传感器和第i个声学传感器到预设的参考位置第r个声学传感器的距离差设定为d_i，那么η_i的计算公式如下所示：

其中，c-声的传播速度。

若阵列的输出信号方向和声源信号的方向相同时，阵列的输出信号将声源信号扩大∑k_i倍，在对声源信号进行延迟、加权、求和过程中，需要进行归一化处理，其中具体公式为：

其中，P_t-t时刻阵元接收到的信号。

当阵列的输出信号方向与声源信号的方向处于完全相同时，阵列的响应达到最大值，此时在阵列方向图中会出现主瓣，主瓣的宽度也即主瓣半功率点之间的宽度，也可以称为半功率带宽，对于等间距有N阵元的线阵列，半功率带宽的表达式如下：

K≈0.886λ/Nd_i (5)

其中，λ-声源信号的波长。

当阵列的位置固定不变时，主瓣的宽度与声源信号频率的高低有关，声源识别中分辨率的高低与主瓣的宽度的大小变化一致，其中，声源信号频率变高时，主瓣宽度会变小，从而分辨率变低，声源信号频率变低时，主瓣宽度会变大，从而分辨率变高。

步骤103，基于所述声源信号所属的类型，查找与所述声源信号相匹配的固定声源信号，根据所述固定声源信号的频率，以及所述振幅频谱集合中每个信号的频率，确定所述声源信号中每个信号对应的频谱变换倍数。

步骤104，根据所述声源信号中每个信号对应的频谱变换倍数，对所述相位频谱集合进行变换处理，得到变换处理后的相位频谱集合，并且根据所述固定声源信号的频率，对所述振幅频谱集合进行变换处理，得到变换处理后的振幅频谱集合。

具体的，信号频谱集合包括振幅频谱集合和相位频谱集合，选择相位频谱集合中的任一相位频谱作为参考相位频谱，计算相位频谱集合中除参考相位频谱外的每一个相位频谱与参考相位频谱的相位差频谱，得到相位差频谱集合。

其中，振幅频谱包括幅值和频率，相位频谱包括各信号采集通道采集的相位。

如图2所示，上述步骤104具体还包括如下步骤：

步骤201，针对所述振幅频谱集合，将所述振幅频谱集合的每一个幅值保持不变，将所述振幅频谱集合的每一个频率变换为所述固定声源信号的频率，得到变换处理后的振幅频谱集合。

步骤202，针对所述相位频谱集合，计算所述相位差频谱集合中每个信号的相位差频谱与该信号对应的频谱变换倍数的乘积，得到变换处理后的相位频谱集合。

示例性的，假设接收到的一种声源信号由时域转换为频域后，得到声源信号的频率值f₁、相位差值φ₁以及幅值A₁，其中保持幅值A₁不变，将声源信号的频率值f₁和相位差值φ₁分别变换为m倍数后，得到变换后的频率值f₂和相位差值φ₂，其中，f₂即为经过声源识别检测实验得到其类型中可以达到较高识别声源的固定声源信号经过时域到频域的转换后得到的频率，且f₂＝m*f₁，φ₂＝m*φ₁。

例如，假设声源信号的频率为f₁，通过对f₁进行频率变换倍数m倍的变换，得到预设的固定频率f₂，那么上述公式(2)变为：

式中：m-频率变换倍数,且m＝f₂/f₁,当声源信号频率值f₁大于相对预设的固定频率值f₂时，m取值范围为(0，1)，当声源信号频率值f₁小于相对预设的固定频率值f₂时，m的取值大于1。

将ω＝2πf及上述公式(3)代入公式(6)得：

式中ωη_i＝2πfd_i/c指第i个声学传感器与预设的参考位置第r个声学传感器之间的相位差，频率变换后相位差变为(2πfd_i/c)m＝2πmfd_i/c。

步骤105，将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后，得到处理后的声源信号，并对处理后的声源信号进行识别。

示例性的，利用傅里叶逆变换算法对处理后的声源信号进行逆变换处理；对逆变换处理后的声源信号进行识别。

识别方法可以是高分辨率算法、波束形成迭代反卷积算法、高阶累计循环量方法中的一种或多种。

其中，当声源信号是相对该预设声源信号的低频声源信号时，根据预设的频谱倍数进行的变换后，对于阵列中点扩散函数矩阵的元素差异会增大，从而可以通过减小逆向求解的病态，达到提高声源识别的准确性。

当声源信号是相对该预设声源信号的高频声源信号时，根据预设的频谱倍数进行的变换后，可以抑制“鬼影”(即其他杂音)，达到提高声源识别的准确性。

本申请通过对声源信号由时域转换为频域的变换，得到该信号的频率值、相位值以及幅值，保持该信号的幅值不变，将该信号的频率值和相位值扩大至m倍数后进行傅里叶逆变换得到变化后的声源信号。

本申请实施例提供了一种声源识别装置，如图3所示，该装置包括以下模块：

接收模块301，用于接收声源信号，其中，所述声源信号包含至少一种频率的信号；

转换模块302，用于将所述声源信号由时域转换为频域，得到所述声源信号的信号频谱集合；其中，所述信号频谱集合包括振幅频谱集合和相位频谱集合；

处理模块303，用于基于所述声源信号所属的类型，查找与所述声源信号相匹配的固定声源信号，根据所述固定声源信号的频率，以及所述振幅频谱集合中每个信号的频率，确定所述声源信号中每个信号对应的频谱变换倍数；

识别模块304，用于将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后，得到处理后的声源信号，并对处理后的声源信号进行识别。

可选地，所述处理模块303，包括：

计算单元，用于计算所述相位差频谱集合中每个信号的相位差频谱与该信号对应的频谱变换倍数的乘积，得到变换处理后的相位频谱集合。可选地，所述处理模块，具体用于：

将所述振幅频谱集合的每一个幅值保持不变，将所述振幅频谱集合的每一个频率变换为所述固定声源信号的频率，得到变换处理后的振幅频谱集合；

可选地，所述转换模块302，具体用于：

可选地，所述识别模块304，具体用于：

对应于图1中的声源识别方法，本申请实施例还提供了一种计算机设备400，如图4所示，该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序，其中，上述处理器402执行上述计算机程序时实现上述声源识别方法。

具体地，上述存储器401和处理器402能够为通用的存储器和处理器，这里不做具体限定，当处理器402运行存储器401存储的计算机程序时，能够执行上述声源识别方法，解决现有技术中声源识别通过麦克风阵列中的麦克风或多个声学传感器进行采集数据，分析声源位置方法时，声源的频率大小会影响到声源识别的分辨率，进而导致声源识别结果不准确的问题，其中，本申请通过接收声源信号，对声源信号进行傅里叶变换后得到声源信号的频率、相位以及幅值，通过保持幅值不变，将频率、相位差扩大至m倍数后，将变换后的频率、相位以及保持不变的幅值进行傅里叶逆变换，得到变换后的声源信号，对该变换后的声源信号进行识别，以提高对声源识别的准确性。

对应于图1中的声源识别方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述声源识别方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述声源识别方法，解决现有技术中声源识别通过麦克风阵列中的麦克风或多个声学传感器进行采集数据，分析声源位置方法时，声源的频率大小会影响到声源识别的分辨率，进而导致声源识别结果不准确的问题，其中，本申请通过接收声源信号，对声源信号进行傅里叶变换后得到声源信号的频率、相位以及幅值，通过保持幅值不变，将频率、相位差扩大至m倍数后，将变换后的频率、相位以及保持不变的幅值进行傅里叶逆变换，得到变换后的声源信号，对该变换后的声源信号进行识别，以提高对声源识别的准确性。

在本发明所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种声源识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述声源信号中每个信号对应的频谱变换倍数，对所述相位频谱集合进行变换处理，得到变换处理后的相位频谱集合，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述固定声源信号的频率，对所述振幅频谱集合进行变换处理，得到变换处理后的振幅频谱集合；包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述声源信号由时域转换为频域，得到所述声源信号的信号频谱集合，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述变换处理后的振幅频谱集合和所述变换处理后的相位频谱集合进行整合后，得到处理后的声源信号，包括：

6.一种声源识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述处理模块，包括：

计算单元，用于计算所述相位差频谱集合中每个信号的相位差频谱与该信号对应的频谱变换倍数的乘积，得到变换处理后的相位频谱集合。

8.根据权利要求6所述的装置，其特征在于，所述处理模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述转换模块，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述识别模块，具体用于：

11.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-5中任一项所述的方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-5中任一项所述的方法的步骤。