CN110148426B

CN110148426B - 一种啸叫检测方法及其设备、存储介质、电子设备

Info

Publication number: CN110148426B
Application number: CN201810863812.7A
Authority: CN
Inventors: 王天宝
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2024-01-26
Anticipated expiration: 2038-08-01
Also published as: CN110148426A

Abstract

本发明实施例公开一种啸叫检测方法及其设备、存储介质、电子设备，其中方法包括如下步骤：获取在第一指定时刻信号发送设备向第一信号接收设备传输的参考音频信号，并获取在第二指定时刻所述信号发送设备向第二信号接收设备传输的至少一个历史音频信号，所述第一指定时刻与所述第二指定时刻相距指定时长；分别获取所述参考音频信号的参考音频指纹和所述历史音频信号的历史音频指纹；当所述参考音频指纹与所述历史音频指纹相匹配时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫。采用本发明，可以通过比对两时刻音频信号的音频指纹的相似度进行啸叫的检测，避免出现漏检或误检，可以提高啸叫检测的准确率。

Description

一种啸叫检测方法及其设备、存储介质、电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种啸叫检测方法及其设备、存储介质、电子设备。

背景技术

在音频通信中，如果两个通信设备距离比较近，则容易出现啸叫。所谓啸叫，是指互通的设备A和设备B，A的扬声器所发出的声音被B采集到后又传回给A，A的扬声器又要把B传来的声音播出去，而播出去后又将被B采到并传回，这个闭合的声音回路如果使声音越来越大就发生了啸叫。

现有技术中，通常采用分析音频信号的频谱特征的方法判断啸叫，即当信号出现了高频窄带能量较大时，则认为存在啸叫。但实际通信设备参差不齐，并且越是采集播放失真大的，越不呈现“高频窄带”的特征，啸叫的频带可能并不窄，也可能频带并不高，而且有时会在几个频带上无规律的窜，而音频通信中出现“高频窄带”也并不意味着一定存在啸叫，例如口哨声或一些噪声的瞬间等。这使得采用频谱特征方法检测啸叫容易出现漏检或误检，降低了啸叫检测的准确率。

发明内容

本发明实施例提供了一种啸叫检测方法及其设备、存储介质、电子设备，可以通过比对两时刻音频信号的音频指纹的相似度进行啸叫的检测，避免出现漏检或误检，可以提高啸叫检测的准确率。

本发明实施例一方面提供一种啸叫检测方法，可包括：

获取在第一指定时刻信号发送设备向第一信号接收设备传输的参考音频信号，并获取在第二指定时刻所述信号发送设备向第二信号接收设备传输的至少一个历史音频信号，所述第一指定时刻与所述第二指定时刻相距指定时长；

分别获取所述参考音频信号的参考音频指纹和所述历史音频信号的历史音频指纹；

当所述参考音频指纹与所述历史音频指纹相匹配时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫。

可选的，还包括：

分别对所述参考音频信号和所述历史音频信号添加随机噪声信号。

可选的，所述获取所述参考音频信号的参考音频指纹，包括：

对所述参考音频信号进行分帧处理，得到分帧处理后的多帧参考子音频信号；

获取所述多帧参考子音频信号中每帧参考子音频信号的参考子音频指纹；

在所述每帧参考子音频信号的参考子音频指纹中选取设定数量的参考子音频指纹集合；

将所述参考子音频指纹集合合成为所述参考音频信号的参考音频指纹。

可选的，所述获取所述多帧参考子音频信号中每帧参考子音频信号的参考子音频指纹，包括：

对所述多帧参考子音频信号中每帧参考子音频信号进行采样处理，得到采样处理后的每帧参考子音频信号；

对所述采样处理后的每帧参考子音频信号进行频域变换处理，得到频域变换处理后的每帧参考子音频信号；

获取所述频域变换处理后的每帧参考子音频信号的参考音频能量，基于所述参考音频能量获取所述每帧参考子音频信号的参考子音频指纹。

可选的，所述以获取频域变换处理后的每帧参考子音频信号之后，还包括：

在所述频域变换处理后的每帧参考子音频信号中截取设定频率范围的目标参考音频频带；

将所述目标参考音频频带分为设定数量的参考音频子频带；

所述获取所述频域变换处理后的每帧参考子音频信号的参考音频能量，基于所述参考音频能量获取所述每帧参考子音频信号的参考子音频指纹，包括：

获取所述设定数量的参考音频子频带中各参考音频子频带的参考音频子能量；

基于所述各参考音频子频带的参考音频子能量获取所述各参考音频子频带的参考指纹值，将所述各参考音频子频带的参考指纹值合成为所述每帧参考子音频信号的参考子音频指纹。

可选的，所述基于所述各参考音频子频带的参考音频子能量获取所述各参考音频子频带的参考指纹值，包括：

在所述频域变换处理后的每帧参考子音频信号的当前帧参考子音频信号中，获取所述设定数量的参考音频子频带中当前参考音频子频带的第一参考音频子能量以及所述当前参考音频子频带的前一个参考音频子频带的第二参考音频子能量，获取所述第一参考音频子能量与所述第二参考音频子能量的第一差值；

在所述频域变换处理后的每帧参考子音频信号的当前帧参考子音频信号的前一帧参考子音频信号中，获取所述设定数量的参考音频子频带中当前参考音频子频带的第三参考音频子能量以及所述当前参考音频子频带的前一个参考音频子频带的第四参考音频子能量，获取所述第三参考音频子能量与所述第四参考音频子能量的第二差值；

基于所述第一差值与所述第二差值的差值确定所述各参考音频子频带的参考指纹值。

可选的，所述获取所述历史音频信号的历史音频指纹，包括：

对所述历史音频信号进行分帧处理，得到分帧处理后的多帧历史子音频信号；

获取所述多帧历史子音频信号中每帧历史子音频信号的历史子音频指纹；

在所述每帧历史子音频信号的历史子音频指纹中选取设定数量的历史子音频指纹集合；

将所述历史子音频指纹集合合成为所述历史音频信号的历史音频指纹。

可选的，所述获取所述多帧历史子音频信号中每帧历史子音频信号的历史子音频指纹，包括：

对所述多帧历史子音频信号中每帧历史子音频信号进行采样处理，得到采样处理后的每帧历史子音频信号；

对所述采样处理后的每帧历史子音频信号进行频域变换处理，得到频域变换处理后的每帧历史子音频信号；

获取所述频域变换处理后的每帧历史子音频信号的历史音频能量，基于所述历史音频能量获取所述每帧历史子音频信号的历史子音频指纹。

可选的，所述以获取频域变换处理后的每帧历史子音频信号之后，还包括：

在所述频域变换处理后的每帧历史子音频信号中截取设定频率范围的目标历史音频频带；

将所述目标历史音频频带分为设定数量的历史音频子频带；

所述获取所述频域变换处理后的每帧历史子音频信号的历史音频能量，基于所述历史音频能量获取所述每帧历史子音频信号的历史子音频指纹，包括：

获取所述设定数量的历史音频子频带中各历史音频子频带的历史音频子能量；

基于所述各历史音频子频带的历史音频子能量获取所述各历史音频子频带的历史指纹值，将所述各历史音频子频带的历史指纹值合成为所述每帧历史子音频信号的历史子音频指纹。

可选的，所述基于所述各历史音频子频带的历史音频子能量获取所述各历史音频子频带的历史指纹值，包括：

在所述频域变换处理后的每帧历史子音频信号的当前帧历史子音频信号中，获取所述设定数量的历史音频子频带中当前历史音频子频带的第一历史音频子能量以及所述当前历史音频子频带的前一个历史音频子频带的第二历史音频子能量，获取所述第一历史音频子能量与所述第二历史音频子能量的第三差值；

在所述频域变换处理后的每帧历史子音频信号的当前帧历史子音频信号的前一帧历史子音频信号中，获取所述设定数量的历史音频子频带中当前历史音频子频带的第三历史音频子能量以及所述当前历史音频子频带的前一个历史音频子频带的第四历史音频子能量，获取所述第三历史音频子能量与所述第四历史音频子能量的第四差值；

基于所述第三差值与所述第四差值的差值确定所述各历史音频子频带的历史指纹值。

可选的，所述当所述参考音频指纹与所述历史音频指纹相匹配时之前，还包括：

比对所述参考音频指纹与所述历史音频指纹，得到所述参考音频指纹与所述历史音频指纹的相似度；

所述当所述参考音频指纹与所述历史音频指纹相匹配时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫，包括：

当所述相似度大于或者等于相似度阈值时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫。

可选的，所述获取在第二指定时刻所述信号发送设备向第二信号接收设备传输的至少一个历史音频信号，包括：

获取时间范围，所述时间范围内的各第二指定时刻与所述第一指定时刻之间的时间差均属于系统传输时长范围；

获取在所述时间范围内的各第二指定时刻所述信号发送设备向第二信号接收设备传输的多个历史音频信号；

所述分别获取所述参考音频信号的参考音频指纹和所述历史音频信号的历史音频指纹，包括：

分别获取所述参考音频信号的参考音频指纹和所述多个历史音频信号中各历史音频信号的历史音频指纹；

当所述各历史音频信号的历史音频指纹中存在与所述参考音频指纹相匹配的第一历史音频指纹时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫。

本发明实施例一方面提供一种啸叫检测设备，可包括：

音频获取单元，用于获取在第一指定时刻信号发送设备向第一信号接收设备传输的参考音频信号，并获取在第二指定时刻所述信号发送设备向第二信号接收设备传输的至少一个历史音频信号，所述第一指定时刻与所述第二指定时刻相距指定时长；

指纹获取单元，用于分别获取所述参考音频信号的参考音频指纹和所述历史音频信号的历史音频指纹；

啸叫确定单元，用于当所述参考音频指纹与所述历史音频指纹相匹配时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫。

可选的，还包括：

噪声添加单元，用于分别对所述参考音频信号和所述历史音频信号添加随机噪声信号。

可选的，所述指纹获取单元，包括：

音频分帧子单元，用于对所述参考音频信号进行分帧处理，得到分帧处理后的多帧参考子音频信号；

子指纹获取子单元，用于获取所述多帧参考子音频信号中每帧参考子音频信号的参考子音频指纹；

子指纹选取子单元，用于在所述每帧参考子音频信号的参考子音频指纹中选取设定数量的参考子音频指纹集合；

子指纹合成子单元，用于将所述参考子音频指纹集合合成为所述参考音频信号的参考音频指纹。

可选的，所述子指纹获取子单元，具体用于：

可选的，所述子指纹获取子单元，还用于：

将所述目标参考音频频带分为设定数量的参考音频子频带；

所述子指纹获取子单元，具体用于：

可选的，所述子指纹获取子单元，具体用于：

可选的，所述指纹获取单元，包括：

音频分帧子单元，用于对所述历史音频信号进行分帧处理，以获取分帧处理后的多帧历史子音频信号；

子指纹获取子单元，用于获取所述多帧历史子音频信号中每帧历史子音频信号的历史子音频指纹；

子指纹选取子单元，用于在所述每帧历史子音频信号的历史子音频指纹中选取设定数量的历史子音频指纹集合；

子指纹合成子单元，用于将所述历史子音频指纹集合合成为所述历史音频信号的历史音频指纹。

可选的，所述子指纹获取子单元，具体用于：

可选的，所述子指纹获取子单元，还用于：

将所述目标历史音频频带分为设定数量的历史音频子频带；

所述子指纹获取子单元，具体用于：

可选的，所述子指纹获取子单元，具体用于：

可选的，还包括：

相似度获取单元，用于比对所述参考音频指纹与所述历史音频指纹，得到所述参考音频指纹与所述历史音频指纹的相似度；

所述啸叫确定单元，具体用于当所述相似度大于或者等于相似度阈值时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫。

可选的，所述音频获取单元具体用于：

所述指纹获取单元具体用于：

所述啸叫确定单元具体用于：

本发明实施例一方面提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

本发明实施例一方面提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

在本发明实施例中，通过获取在第一指定时刻信号发送设备向第一信号接收设备传输的参考音频信号，并获取在距离第一指定时刻一定时长的第二指定时刻信号发送设备向第二信号接收设备传输的历史音频信号，获取参考音频信号的参考音频指纹，并获取历史音频信号的历史音频指纹，当参考音频指纹与历史音频指纹相匹配时，确定信号发送设备与第一信号接收设备和第二信号接收设备之间发生啸叫。可以通过比对两时刻音频信号的音频指纹的相似度进行啸叫的检测，避免出现漏检或误检，可以提高啸叫检测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种网络架构的结构示意图；

图2是本发明实施例提供的一种啸叫检测方法的流程示意图；

图3是本发明实施例提供的一种参考音频信号的分帧处理的效果示意图；

图4是本发明实施例提供的一种分帧处理后的参考子音频信号的示意图；

图5是本发明实施例提供的一种参考子音频信号的采样的效果示意图；

图6是本发明实施例提供的一种参考子音频信号的频域变换处理的效果示意图；

图7本发明实施例提供的一种参考子音频信号的子频带分割效果示意图；

图8是本发明实施例提供的一种啸叫检测方法的流程示意图；

图9是本发明实施例提供的一种啸叫检测方法的流程示意图；

图10是本发明实施例提供的一种啸叫检测方法的流程示意图；

图11是本发明实施例提供的一种啸叫检测方法的流程示意图；

图12是本发明实施例提供的一种啸叫检测方法的流程示意图；

图13是本发明实施例提供的一种啸叫检测设备的结构示意图；

图14是本发明实施例提供的一种啸叫检测设备的结构示意图；

图15是本发明实施例提供的一种指纹获取单元的结构示意图；

图16是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，为本发明实施例提供的一种网络架构的结构示意图。如图1所示，所述网络架构可以包括服务器2000以及用户终端集群；所述用户终端集群可以包括多个用户终端，如图1所示，具体包括用户终端3000a、用户终端3000b、…、用户终端3000n。本发明实施例可以图1所示的多个用户终端中任意一个用户终端作为本方案的执行主体(啸叫检测设备)，也可以图1所示的服务器作为本方案的执行主体(啸叫检测设备)。为便于理解，本发明实施例可以图1中的用户终端3000a为例进行描述。

如图1所示，所述用户终端3000a，用于获取在第一指定时刻信号发送设备向第一信号接收设备传输的参考音频信号，并获取在第二指定时刻所述信号发送设备向第二信号接收设备传输的至少一个历史音频信号，所述第一指定时刻与所述第二指定时刻相距指定时长；

其中，所述第一指定时刻可以为当前时刻，也可以为某一历史时刻。当所述第一指定时刻为当前时刻时，所述第二指定时刻为距离当前时刻指定时长的历史时刻，当所述第一指定时刻为历史时刻时，所述第二指定时刻为距离该历史时刻指定时长的另一历史时刻。所述指定时长通常属于系统传输时长范围。

在第一指定时刻所采集到的音频信号为参考音频信号，在第二指定时刻所采集到的音频信号为历史音频信号。当第二指定时刻包括多个时，在每个第二指定时刻均可以采集到一个历史音频信号。

其中，所述用户终端3000a，还用于分别对所述参考音频信号和所述历史音频信号添加随机噪声信号。为了避免当两信号均为静音信号时而导致检测结果错误，通过添加随机噪声以对参考音频信号和历史音频信号进行区分以保证两信号为不同的信号。

所述用户终端3000a，还用于分别获取所述参考音频信号的参考音频指纹和所述历史音频信号的历史音频指纹；

其中，所述用户终端3000a可以先对所述参考音频信号进行分帧处理，得到分帧处理后的多帧参考子音频信号，再对每帧参考子音频信号进行采样处理，采样处理完成后再进行频域变化处理，从而可以基于频域中每帧参考子音频信号的能量得到每帧参考子音频信号的参考子音频指纹，然后获取所述多帧参考子音频信号中每帧参考子音频信号的参考子音频指纹，在所述每帧参考子音频信号的参考子音频指纹中选取设定数量的参考子音频指纹集合，再将所述参考子音频指纹集合合成为所述参考音频信号的参考音频指纹。

同时也可以相同的方式得到历史音频指纹。

所述用户终端3000a，还用于当所述参考音频指纹与所述历史音频指纹相匹配时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫。

其中，可通过参考音频指纹与历史音频指纹的相似度进行检测。也就是说，当参考音频指纹与历史音频指纹的相似度超过相似度阈值时，确定设备之间发生啸叫。若采集到的历史音频指纹包括多个，则需要进行多次指纹的匹配，只要匹配到与参考音频指纹相似的历史音频指纹就可确定设备之间发生啸叫。

其中，所述啸叫检测设备可以是所述信号发送设备、第一信号接收设备或所述第二信号接收设备中的任一设备，也可以是所述信号发送设备、第一信号接收设备以及所述第二信号接收设备组成的系统，还可以是独立于所述信号发送设备、第一信号接收设备以及所述第二信号接收设备的终端设备。所述啸叫检测设备可以为用户终端，包括平板电脑、个人计算机(PC)、智能手机、掌上电脑以及移动互联网设备(MID)等具备音频信号处理功能的终端设备；所述啸叫检测设备还可以为具备音频信号处理功能的服务器。所述信号发送设备、第一信号接收设备以及第二信号接收设备均可以为具备通信功能的终端设备。

下面将结合附图2-附图12，对本发明实施例提供的啸叫检测方法进行详细介绍。其中，本发明实施例中的啸叫检测设备可以是图1所示的用户终端3000a、3000b、…、3000n中的任一个，所述啸叫检测设备还可以是图1所示的服务器2000，所述啸叫检测设备还可以是图1所示的用户终端与服务器组成的系统。

请参见图2，为本发明实施例提供了一种啸叫检测方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S103。

S101，获取在第一指定时刻信号发送设备向第一信号接收设备传输的参考音频信号，并获取在第二指定时刻所述信号发送设备向第二信号接收设备传输的至少一个历史音频信号，所述第一指定时刻与所述第二指定时刻相距指定时长；

可以理解的是，在音频通信系统中，如果两个通信设备距离比较近，则容易出现啸叫。在本发明实施例中，利用信号发送设备向信号接收设备所传输的信号的相关性特征来检测是否有啸叫发生。

在音频通信系统中，由信号发送设备在第一指定时刻向第一信号接收设备所发送的信号为参考音频信号，由信号发送设备在第二指定时刻(另一时刻)向第二信号接收设备所发送的信号为历史音频信号。所述第一信号接收设备与所述第二信号接收设备可以为同一设备，也可以为不同设备，但信号发送设备、第一信号接收设备和第二信号接收设备在同一个音频通信系统中。所述第一指定时刻可以为当前时刻，也可以为历史时刻，所述第二指定时刻为历史时刻。

需要说明的是，参考音频信号与历史音频信号是在同一音频通信系统中由同一信号发送设备所发送的信号，只是对应的发送时刻不同。可以理解为，参考音频信号为信号发送设备当前待播信号，而历史音频信号为距离当前时刻指定时长的目标时刻由所述信号发送设备已播信号。当然，参考音频信号还可以为信号在某一历史时刻所发送的已播信号，而历史音频信号为距离该时刻指定时长的另一历史时刻由所述信号发送设备所发送的已播信号。

具体的，啸叫检测设备采集由信号发送设备在第一指定时刻向第一信号接收设备播放的参考音频信号x(n1)，并采集由所述信号发送设备在距离所述第一指定时刻指定时长的第二指定时刻向第二信号接收设备传输的历史音频信号x(n2)。所述x(n1)和x(n2)均为离散信号，所述x(n1)对应设定时刻，所述x(n2)对应目标时刻。

S102，分别获取所述参考音频信号的参考音频指纹和所述历史音频信号的历史音频指纹；

可以理解的是，一帧参考音频信号对应一个参考音频指纹，一个参考音频指纹由多个参考子音频指纹组成。同样的，一帧历史音频信号对应一个历史音频指纹，一个历史音频指纹由多个历史子音频指纹组成。在本发明实施例中，获取参考音频指纹与获取历史音频指纹的方式相同，下面以获取参考音频指纹为例进行说明。

具体的，啸叫检测设备对所述参考音频信号进行分帧处理，以获取分帧处理后的多帧参考子音频信号，获取所述多帧参考子音频信号中每帧参考子音频信号的参考子音频指纹，在所述每帧参考子音频信号的参考子音频指纹中选取设定数量的参考子音频指纹集合，将所述参考子音频指纹集合合成为所述参考音频信号的参考音频指纹。其中，获取所述多帧参考子音频信号中每帧参考子音频信号的参考子音频指纹，可以理解为，对所述多帧参考子音频信号中每帧参考子音频信号进行采样处理，以获取采样处理后的每帧参考子音频信号，对所述采样处理后的每帧参考子音频信号进行频域变换处理，以获取频域变换处理后的每帧参考子音频信号，获取所述频域变换处理后的每帧参考子音频信号的参考音频能量，基于所述参考音频能量获取所述每帧参考子音频信号的参考子音频指纹。

所述分帧处理包括加窗处理和分段处理。随着窗口的往右(假设向右代表时间向前)推移，对加窗后的信号逐步展开处理。需要定义窗口长度是多少wlen(window length)；每次窗口往右移动多长step；窗口选什么类型(窗口函数)。时域上的加窗就是把原始信号x(t)与窗口w(t)相乘，频域上的加窗就是把原始信号x(t)与窗口w(t)进行卷积。每一帧长度也宜太大，太长的分帧无法体现音频信号的特性随时间而变化的细微现象，同时计算量也会变大。

采样是将时间上、幅值上都连续的模拟信号，在采样脉冲的作用下转换成时间上离散(时间上有固定间隔)、但幅值上仍连续的离散模拟信号。所以采样又称为波形的离散化过程。每秒钟的采样样本数叫做采样频率。采样位数可以理解为采集卡处理声音的解析度。当然，所述采样还可以是对已经离散的模拟信号的再次采样过程。在本发明实施例中，所述采样是指对分帧后的多帧参考子音频信号按照设定的采样规则重新采样的过程。所述采样规则包括采样点个数、采样频率等的设置。

例如，如图3所示，假设按照每分帧信号时长为Ts且每相邻两帧信号之间重叠3/4对参考音频信号x(n1)(或x(n1)+x(n00))进行分帧处理，从而得到多帧参考子音频信号x(n11)、x(n12)、x(n13)、x(n14)…，如图4所示，再以相同的采样率fs分别对x(n11)、x(n12)、x(n13)、x(n14)…采样至N点(如图5所示为对x(n11)采样后的x(n11)的示意图)，并对采样后的x(n11)、x(n12)、x(n13)、x(n14)…进行频域变换处理(如傅里叶变换FFT)，从而得到x(k11)、x(k12)、x(k13)、x(k14)…(如图6所示为x(n11)对应的频域信号x(k11)的示意图)，进而截取x(k11)、x(k12)、x(k13)、x(k14)…中设定频率范围Fmin～Fmax的频带，并该所截取的频带根据f(m)＝exp(logF_min+(m-1)((logF_max-logF_min)/M)),m＝1,2...M+1分为多个(M+1个)子频带，其中，f(m)表示每个子频带的频率范围，如图7所示，然后采用计算每个子频带的能量，其中，k表示每个子频带中所包含的点的个数，依此方法可以得到x(n11)、x(n12)、x(n13)、x(n14)…的所有子频带的能量。再通过比较相邻帧(如x(n11)、x(n12))的相邻子频带(M,M+1)的能量差变化趋势F(n12,M)＝E(n12,M)-E(n12,M+1)-(E(n11,M)-E(n11,M+1))>0得到x(n12)第M个子频带的指纹值为1。(其中，F(n12，M)>0，设x(n12)第M个子频带的指纹值为1，若F(n12，M)<0，设x(n12)第M个子频带的指纹值为0)。

由于每帧子频带的数量非常多，可通过选取其中设定个数(如前32个)子频带的指纹值作为该帧的子音频指纹(32bit)。

同样的，由于对参考音频信号x(n1)进行分帧处理时，所得到的参考子音频信号的数量也很多，因此，也可以选择设定个数(如前10帧)参考子音频信号x(n11)～x(n110)组合后代表x(n1)。那么，所得到的x(n1)的音频指纹为32*10＝320bit的二进制码。

同样的，按照上述方式对历史音频信号x(n2)(或x(n2)+x(n01))处理后，得到x(n2)的历史音频指纹也是320bit的二进制码。

S103，当所述参考音频指纹与所述历史音频指纹相匹配时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫。

具体的，啸叫检测设备比对所述参考音频指纹与所述历史音频指纹，以获取所述参考音频指纹与所述历史音频指纹的相似度，当所述相似度大于或者等于相似度阈值时，确定所述参考音频指纹与所述历史音频指纹相匹配，进而确定所述参考音频信号与所述历史音频信号具有相关性，即在所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生了啸叫。

可选的，当确定发生了啸叫时，将所述参考音频信号与所述历史音频信号的时间差作为啸叫周期。

可选的，当所述参考音频指纹与所述历史音频指纹不匹配时，可采集另一时刻的历史音频信号，并将该历史音频信号的历史音频指纹与设定时刻的参考音频信号的参考音频指纹进行比对，以确定在所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间是否发生啸叫。所述另一时刻的选择是大于目标时刻同时小于系统上限时延。例如，对于viop系统，所选择的设定时长为120ms，上限时延为600ms，那么此时可以在距离设定时刻120ms～600ms的范围内多次选择历史音频信号与所述设定时刻的参考音频信号进行比较，若在设定范围内找到与参考音频信号最相似的且相似度达到阈值的历史音频信号，则确定发生了啸叫，并且可以有效提高检测的准确率。当然，在实际工程中系统的时延范围并不限于此范围。

请参见图8，为本发明实施例提供了一种啸叫检测方法的流程示意图。如图8所示，本发明实施例的所述方法可以包括以下步骤S201-步骤S212。

S201，获取在第一指定时刻信号发送设备向第一信号接收设备传输的参考音频信号，并获取在第二指定时刻所述信号发送设备向第二信号接收设备传输的至少一个历史音频信号，所述第一指定时刻与所述第二指定时刻相距指定时长；

需要说明的是，参考音频信号与历史音频信号是在同一音频通信系统中由同一信号发送设备所发送的信号，只是对应的发送时刻不同。可以理解为，参考音频信号为信号发送设备当前待播信号，而历史音频信号为距离当前时刻设定时长的目标时刻由所述信号发送设备已播信号。当然，参考音频信号还可以为信号在某一历史时刻所发送的已播信号，而历史音频信号为距离该时刻指定时长的另一历史时刻由所述信号发送设备所发送的已播信号。

例如，所述信号发送设备与所述第一信号接收设备以及所述第二信号接收设备进行通信需要播放100帧音频信号，若当前播放到了第30帧音频信号，而在距离当前时刻设定时长的目标时刻播放了第14帧音频信号，则将第30帧音频信号作为参考音频信号，第14帧音频信号作为历史音频信号。

其中，所述设定时长为预先设定，所设定的依据是信号发送设备与信号接收设备之间的信号传输时延，也就是说，所设定的时长大于或者等于两设备之间的信号传输时延。例如，在voip通信中，音频信号从信号接收设备回传到信号发送设备一般至少需要100ms，那么，所设置的时长为大于或者等于100ms。

当然，信号发送设备与信号接收设备之间传输信号的时延也存在上限，那么所设定的时长也同时需要小于或者等于最大传输时延。例如，在voip通信中，其最大传输时延为600ms，那么，所设定的时长要小于或者等于600ms。

具体的，啸叫检测设备采集由信号发送设备在设定时刻向第一信号接收设备播放的参考音频信号x(n1)，并采集由所述信号发送设备在距离所述设定时刻设定时长的目标时刻向第二信号接收设备传输的历史音频信号x(n2)。所述x(n1)和x(n2)均为离散信号，所述x(n1)对应设定时刻，所述x(n2)对应目标时刻。

S202，分别对所述参考音频信号和所述历史音频信号添加随机噪声信号；

可以理解的是，当参考音频信号和历史音频信号均为静音信号时，所采集到的两个静音信号处处一致，而静音信号对齐无意义。因此，为了避免静音干扰，需要对这两个信号添加极低随机噪声，而极低随机噪声的添加对两个信号的指纹差距影响可忽略，通过添加随机噪声以对参考音频信号和历史音频信号进行区分。可以理解为所得到的参考音频信号为x(n1)+x(n00)，所得到的历史音频信号为x(n2)+x(n01)，x(n00)为参考音频信号添加的随机噪声信号，x(n01)为历史音频信号添加的随机噪声信号。

S203，对所述参考音频信号进行分帧处理，得到分帧处理后的多帧参考子音频信号；

可以理解的是，所述分帧处理包括加窗处理和分段处理。随着窗口的往右(假设向右代表时间向前)推移，对加窗后的信号逐步展开处理。需要定义窗口长度是多少wlen；每次窗口往右移动多长step；窗口选什么类型(窗口函数)，如矩形窗、三角窗、Hanning窗、Hamming窗、Blackman窗、Kaiser窗等。时域上的加窗就是把原始信号x(t)与窗口函数w(t)相乘，频域上的加窗就是把原始信号x(t)与窗口函数w(t)进行卷积。每一帧长度也宜太大，太长的分帧无法抓到音频信号的特性随时间而变化的细微现象，同时计算量也会变大。

例如，如图3所示，假设按照窗口长度(每分帧信号时长)为Ts且移动步长为1/4Ts(每相邻两帧信号之间重叠3/4)的任意窗口函数对参考音频信号x(n1)+x(n00)进行分帧处理，从而得到多帧参考子音频信号x(n11)、x(n12)、x(n13)、x(n14)…，如图4所示。

S204，获取所述多帧参考子音频信号中每帧参考子音频信号的参考子音频指纹；

可以理解的是，一帧参考音频信号对应一个参考音频指纹，一帧参考音频信号又可以分为多帧参考子音频信号，每帧参考子音频信号对应一个参考子音频指纹，那么一个参考音频指纹由多个参考子音频指纹组成。

在一种具体的实现方式中，所述获取所述多帧参考子音频信号中每帧参考子音频信号的参考子音频指纹，可以包括以下步骤，如图9所示：

S301，对所述多帧参考子音频信号中每帧参考子音频信号进行采样处理，以获取采样处理后的每帧参考子音频信号；

可以理解的是，采样是将时间上、幅值上都连续的模拟信号，在采样脉冲的作用下按照采样频率转换成时间上离散(时间上有固定间隔)、但幅值上仍连续的离散模拟信号。每秒钟的采样样本数叫做采样频率。采样位数可以理解为采集卡处理声音的解析度。当然，所述采样还可以是对已经离散的模拟信号的再次采样过程。在本发明实施例中，所述采样是指对分帧后的多帧参考子音频信号按照设定的采样规则重新采样的过程，以保证每帧参考子音频信号的采样率相同。

具体的，以相同的采样率fs分别对x(n11)、x(n12)、x(n13)、x(n14)…采样至N点，从而得到采样处理后的每帧参考子音频信号。其中，每帧参考子音频信号的采样方式相同，如图5所示为对x(n11)采样后的示意图。

S302，对所述采样处理后的每帧参考子音频信号进行频域变换处理，得到频域变换处理后的每帧参考子音频信号；

可以理解的是，所述频域变换处理是指将采样处理后的每帧参考子音频信号从时域变换到频域，从而可以用有限的参数对信号进行准确的描述，并且，频域分析可以将复杂信号分解为简单信号的叠加，可以更加精确的了解每帧参考子音频信号。所述频域变换处理可以包括傅里叶分析、拉普拉斯变换以及z变换等。

具体的，对采样后的x(n11)、x(n12)、x(n13)、x(n14)…分别进行频域变换处理，从而得到x(k11)、x(k12)、x(k13)、x(k14)…。如图6所示为x(n11)对应的频域信号x(k11)的示意图。

S303，在所述频域变换处理后的每帧参考子音频信号中截取设定频率范围的目标参考音频频带；

可以理解的是，假设设定频率范围为Fmin～Fmax，每帧参考子音频信号中Fmin～Fmax范围对应的频带为目标参考音频频带。通常，在保证信号采样率为5kHz时，所设定的频率范围为300Hz～2000Hz。

具体的，分别截取x(k11)、x(k12)、x(k13)、x(k14)…中设定频率范围的频带，从而得到每帧参考子音频信号的目标参考音频频带。

S304，将所述目标参考音频频带分为设定数量的参考音频子频带；

具体的，采用f(m)＝exp(logF_min+(m-1)((logF_max-logF_min)/M)),m＝1,2...M+1将每个目标参考音频频带分为M+1个子频带，其中，f(m)表示每个子频带的频率范围。

例如，如图7所示，将m、Fmin以及Fmax分别代入上式中，可分别得到f(1)、f(2)、…、f(M+1)的频率宽度，进而可得到每个子频带的频率范围。如，x(k11)中第一个子频带的频率范围为Fmin～Fmin+f(1)。

S305，获取所述设定数量的参考音频子频带中各参考音频子频带的参考音频子能量；

具体的，采用计算每个子频带的能量，其中，k表示每个子频带中所包含的点的个数。例如，在m＝1的子频带中包含5个采样点，那么对应的/>依此方法可以得到x(n11)、x(n12)、x(n13)、x(n14)…的所有子频带的能量E(1)、E(2)、E(3)、…、E(M+1)。

S306，基于所述各参考音频子频带的参考音频子能量获取所述各参考音频子频带的参考指纹值，将所述各参考音频子频带的参考指纹值合成为所述每帧参考子音频信号的参考子音频指纹。

可以理解的是，一帧参考子音频信号对应一个参考子音频指纹，而一参考子音频信号中包括多个子频带，每个子频带包括一个参考指纹值，那么，一个参考子音频指纹由每个子频带的参考指纹值组成。若每个子频带的参考指纹值为1bit的二进制码，一帧参考子音频信号包括32个子频带，那么一个参考子音频指纹就是32bit的二进制码。

在一种具体的实现方式中，所述基于所述各参考音频子频带的参考音频子能量获取所述各参考音频子频带的参考指纹值，可以包括以下步骤，如图10所示：

S401，在所述频域变换处理后的每帧参考子音频信号的当前帧参考子音频信号中，获取所述设定数量的参考音频子频带中当前参考音频子频带的第一参考音频子能量以及所述当前参考音频子频带的前一个参考音频子频带的第二参考音频子能量，获取所述第一参考音频子能量与所述第二参考音频子能量的第一差值；

可以理解的是，假设在对参考音频信号进行分帧处理后所截取了前10帧参考子音频信号，每帧参考子音频信号包括32个参考音频子频带。若当前帧参考子音频信号为第2帧参考子音频信号(n12)，当前参考音频子频带为第5个(m＝5)参考音频子频带，前一个参考音频子频带为第4个(m＝4)参考音频子频带，那么n12的第5个子频带的第一参考音频子能量为E(n12,5)，n12的第4个子频带的第一参考音频子能量为E(n12,4)，因此，第一差值C1＝E(n12,5)-E(n11,4)。

S402，在所述频域变换处理后的每帧参考子音频信号的当前帧参考子音频信号的前一帧参考子音频信号中，获取所述设定数量的参考音频子频带中当前参考音频子频带的第三参考音频子能量以及所述当前参考音频子频带的前一个参考音频子频带的第四参考音频子能量，获取所述第三参考音频子能量与所述第四参考音频子能量的第二差值；

可以理解的是，假设在对参考音频信号进行分帧处理后所截取了前10帧参考子音频信号，每帧参考子音频信号包括32个参考音频子频带。若当前帧参考子音频信号为第2帧参考子音频信号(n12)，那么当前帧参考子音频信号的前一帧参考子音频信号为第1帧参考子音频信号(n11)。当前参考音频子频带为第5个(m＝5)参考音频子频带，前一个参考音频子频带为第4个(m＝4)参考音频子频带，那么n11的第5个子频带的第三参考音频子能量为E(n11,5)，n12的第4个子频带的第四参考音频子能量为E(n11,4)，因此，第二差值C2＝E(n11,5)-E(n11,4)。

S403，基于所述第一差值与所述第二差值的差值确定所述各参考音频子频带的参考指纹值。

具体的，通过比较相邻帧(如x(n11)、x(n12))的相邻子频带(4，5)的能量差变化趋势F(n12,5)＝C1-C2得到x(n12)第M个子频带的指纹值。其中，F(n12，5)>0，设x(n12)第5个子频带的指纹值为1，若F(n12，5)<0，设x(n12)第5个子频带的指纹值为0。

采用上述方式依次进行比较，从而得到各参考音频子频带的参考指纹值。

S205，在所述每帧参考子音频信号的参考子音频指纹中选取设定数量的参考子音频指纹集合；

可以理解的是，由于对参考音频信号x(n1)进行分帧处理时，所得到的参考子音频信号的数量也很多，因此，也可以选择设定个数(如前10帧)参考子音频信号x(n11)～x(n110)作为参考子音频指纹集合。

S206，将所述参考子音频指纹集合合成为所述参考音频信号的参考音频指纹；

具体的，按照设定的合成规则(如合成顺序)对x(n11)～x(n110)(10组参考子音频指纹，每组32bit)进行排列组合，从而得到320bit的二进制码，将该二进制码作为参考音频信号的参考音频指纹。

S207，对所述历史音频信号进行分帧处理，得到分帧处理后的多帧历史子音频信号；

例如，假设按照窗口长度(每分帧信号时长)为Ts且移动步长为1/4Ts(每相邻两帧信号之间重叠3/4)的任意窗口函数对参考音频信号x(n2)+x(n01)进行分帧处理，从而得到多帧参考子音频信号x(n21)、x(n22)、x(n23)、x(n24)…。

S208，获取所述多帧历史子音频信号中每帧历史子音频信号的历史子音频指纹；

可以理解的是，一帧历史音频信号对应一个历史音频指纹，一帧历史音频信号又可以分为多帧历史子音频信号，每帧历史子音频信号对应一个历史子音频指纹，那么一个历史音频指纹由多个历史子音频指纹组成。

所述获取所述多帧历史子音频信号中每帧历史子音频信号的历史子音频指纹，可以包括以下步骤，如图11所示：

S501，对所述多帧历史子音频信号中每帧历史子音频信号进行采样处理，以获取采样处理后的每帧历史子音频信号；

可以理解的是，采样是将时间上、幅值上都连续的模拟信号，在采样脉冲的作用下按照采样频率转换成时间上离散(时间上有固定间隔)、但幅值上仍连续的离散模拟信号。每秒钟的采样样本数叫做采样频率。采样位数可以理解为采集卡处理声音的解析度。当然，所述采样还可以是对已经离散的模拟信号的再次采样过程。在本发明实施例中，所述采样是指对分帧后的多帧历史子音频信号按照设定的采样规则重新采样的过程，以保证每帧历史子音频信号的采样率相同。

具体的，以相同的采样率fs分别对x(n21)、x(n22)、x(n23)、x(n24)…采样至N点，从而得到采样处理后的每帧历史子音频信号。其中，每帧历史子音频信号的采样方式相同。

S502，对所述采样处理后的每帧历史子音频信号进行频域变换处理，得到频域变换处理后的每帧历史子音频信号；

可以理解的是，所述频域变换处理是指将采样处理后的每帧历史子音频信号从时域变换到频域，从而可以用有限的参数对信号进行准确的描述，并且，频域分析可以将复杂信号分解为简单信号的叠加，可以更加精确的了解每帧历史子音频信号。所述频域变换处理可以包括傅里叶分析、拉普拉斯变换以及z变换等。

具体的，对采样后的x(n21)、x(n22)、x(n23)、x(n24)…分别进行频域变换处理，从而得到x(k21)、x(k22)、x(k23)、x(k24)…。

S503，在所述频域变换处理后的每帧历史子音频信号中截取设定频率范围的目标历史音频频带；

可以理解的是，假设设定频率范围为Fmin～Fmax，每帧历史子音频信号中Fmin～Fmax范围对应的频带为目标历史音频频带。通常，在保证信号采样率为5kHz时，所设定的频率范围为300Hz～2000Hz。

具体的，分别截取x(k21)、x(k22)、x(k23)、x(k24)…中设定频率范围的频带，从而得到每帧历史子音频信号的目标历史音频频带。

S504，将所述目标历史音频频带分为设定数量的历史音频子频带；

具体的，采用f(m)＝exp(logF_min+(m-1)((logF_max-logF_min)/M)),m＝1,2...M+1将每个目标历史音频频带分为M+1个子频带，其中，f(m)表示每个子频带的频率范围。

例如，将m、Fmin以及Fmax分别代入上式中，可分别得到f(1)、f(2)、…、f(M+1)的频率宽度，进而可得到每个子频带的频率范围。如，x(k21)中第一个子频带的频率范围为Fmin～Fmin+f(1)。

S505，获取所述设定数量的历史音频子频带中各历史音频子频带的历史音频子能量；

S506，基于所述各历史音频子频带的历史音频子能量获取所述各历史音频子频带的历史指纹值，将所述各历史音频子频带的历史指纹值合成为所述每帧历史子音频信号的历史子音频指纹。

可以理解的是，一帧历史子音频信号对应一个历史子音频指纹，而一历史子音频信号中包括多个子频带，每个子频带包括一个历史指纹值，那么，一个历史子音频指纹由每个子频带的历史指纹值组成。若每个子频带的历史指纹值为1bit的二进制码，一帧参考子音频信号包括32个子频带，那么一个历史子音频指纹就是32bit的二进制码。

在一种具体的实现方式中，所述基于所述各历史音频子频带的历史音频子能量获取所述各历史音频子频带的历史指纹值，可以包括以下步骤，如图12所示：

S601，在所述频域变换处理后的每帧历史子音频信号的当前帧历史子音频信号中，获取所述设定数量的历史音频子频带中当前历史音频子频带的第一历史音频子能量以及所述当前历史音频子频带的前一个历史音频子频带的第二历史音频子能量，获取所述第一历史音频子能量与所述第二历史音频子能量的第三差值；

可以理解的是，假设在对历史音频信号进行分帧处理后所截取了前10帧历史子音频信号，每帧历史子音频信号包括32个历史音频子频带。若当前帧历史子音频信号为第2帧历史子音频信号(n22)，当前历史音频子频带为第5个(m＝5)历史音频子频带，前一个历史音频子频带为第4个(m＝4)历史音频子频带，那么n22的第5个子频带的第一历史音频子能量为E(n22,5)，n22的第4个子频带的第一历史音频子能量为E(n22,4)，因此，第三差值C3＝E(n22,5)-E(n22,4)。

S602，在所述频域变换处理后的每帧历史子音频信号的当前帧历史子音频信号的前一帧历史子音频信号中，获取所述设定数量的历史音频子频带中当前历史音频子频带的第三历史音频子能量以及所述当前历史音频子频带的前一个历史音频子频带的第四历史音频子能量，获取所述第三历史音频子能量与所述第四历史音频子能量的第四差值；

可以理解的是，假设在对历史音频信号进行分帧处理后所截取了前10帧历史子音频信号，每帧历史子音频信号包括32个历史音频子频带。若当前帧历史子音频信号为第2帧历史子音频信号(n22)，那么当前帧历史子音频信号的前一帧历史子音频信号为第1帧历史子音频信号(n21)。当前历史音频子频带为第5个(m＝5)历史音频子频带，前一个历史音频子频带为第4个(m＝4)历史音频子频带，那么n11的第5个子频带的第三历史音频子能量为E(n21,5)，n12的第4个子频带的第四历史音频子能量为E(n21,4)，因此，第四差值C4＝E(n21,5)-E(n21,4)。

S603，基于所述第三差值与所述第四差值的差值确定所述各历史音频子频带的历史指纹值。

具体的，通过比较相邻帧(如x(n21)、x(n22))的相邻子频带(4，5)的能量差变化趋势F(n22,5)＝C3-C4得到x(n22)第5个子频带的指纹值。其中，F(n22，5)>0，设x(n22)第5个子频带的指纹值为1，若F(n22，5)<0，设x(n22)第5个子频带的指纹值为0。

采用上述方式依次进行比较，从而得到各历史音频子频带的参考指纹值。

S209，在所述每帧历史子音频信号的历史子音频指纹中选取设定数量的历史子音频指纹集合；

可以理解的是，由于对历史音频信号x(n2)进行分帧处理时，所得到的历史子音频信号的数量也很多，因此，也可以选择设定个数(如前10帧)历史子音频信号x(n21)～x(n210)作为历史子音频指纹集合。

S210，将所述历史子音频指纹集合合成为所述历史音频信号的历史音频指纹。

具体的，按照设定的合成规则(如合成顺序)对x(n21)～x(n210)(10组历史子音频指纹，每组32bit)进行排列组合，从而得到320bit的二进制码，将该二进制码作为历史音频信号的历史音频指纹。

S211，比对所述参考音频指纹与所述历史音频指纹，得到所述参考音频指纹与所述历史音频指纹的相似度；

具体的，通过按位数一一比对参考音频指纹以及所述历史音频指纹，从而确定出有多少个bit是一致的，将一致的个数与总位数的比值确定为参考音频指纹与所述历史音频指纹的相似度。

S212，当所述相似度大于或者等于相似度阈值时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫。

例如，通过比对两组320bit的二进制码中有多少个bit是一致的，比如有70％是一致的，而相似度阈值为65％，那么可以认为两音频指纹对应的声音听起来很相像，就确定发生了啸叫。

可选的，在另一种具体的实现方式中，获取时间范围，所述时间范围内的各第二指定时刻与所述第一指定时刻之间的时间差均属于系统传输时长范围；

具体的，当所述参考音频指纹与所述其中一个历史音频指纹不匹配时，可将所获取的多个历史音频信号中下一个历史音频信号的历史音频指纹与该参考音频信号的参考音频指纹进行比对，只要在这多个历史音频指纹中存在与参考音频指纹相匹配的历史音频指纹，就可以确定在所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生了啸叫。

其中，所述系统传输时长范围即为信号发送设备与第一信号接收设备或第二信号接收设备之间的信号传输时延范围。而所选取的时间范围内的各第二指定时刻与所述第一指定时刻之间的时间差均属于系统传输时长范围。例如，对于由所述信号发送设备、第一信号接收设备和第二信号接收设备组成的viop系统，系统传输时长范围为120ms～600ms，那么此时可以在距离120ms～600ms的范围内多次选择历史音频信号与所述第一指定时刻的参考音频信号进行比较，可以有效提高检测的准确率。

在本发明实施例中，通过获取在第一指定时刻信号发送设备向第一信号接收设备传输的参考音频信号，并获取在距离第一指定时刻一定时长的第二指定时刻信号发送设备向第二信号接收设备传输的历史音频信号，分部获取参考音频信号的参考音频指纹和历史音频信号的历史音频指纹，当参考音频指纹与历史音频指纹相匹配时，确定信号发送设备与第一信号接收设备和第二信号接收设备之间发生啸叫。可以通过比对两时刻音频信号的音频指纹的相似度进行啸叫的检测，避免出现漏检或误检，可以提高啸叫检测的准确率，同时，采用该方法还可以扩大音频通信的啸叫检测范围。

下面将结合附图13-附图16，对本发明实施例提供的啸叫检测设备进行详细介绍。需要说明的是，附图13-附图16所示的啸叫检测设备，用于执行本发明图2-图12所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图2-图12所示的实施例。

请参见图13，为本发明实施例提供了一种啸叫检测设备的结构示意图。如图13所示，本发明实施例的所述啸叫检测设备1可以包括：音频获取单元11、指纹获取单元12和啸叫确定单元13。

音频获取单元11，用于获取在第一指定时刻信号发送设备向第一信号接收设备传输的参考音频信号，并获取在第二指定时刻所述信号发送设备向第二信号接收设备传输的至少一个历史音频信号，所述第一指定时刻与所述第二指定时刻相距指定时长；

指纹获取单元12，用于分别获取所述参考音频信号的参考音频指纹和所述历史音频信号的历史音频指纹；

啸叫确定单元13，用于当所述参考音频指纹与所述历史音频指纹相匹配时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫。

在本发明实施例中，通过获取在第一指定时刻信号发送设备向第一信号接收设备传输的参考音频信号，并获取在距离第一指定时刻一定时长的第二指定时刻信号发送设备向第二信号接收设备传输的至少一个历史音频信号，获取参考音频信号的参考音频指纹，并获取历史音频信号的历史音频指纹，当参考音频指纹与历史音频指纹相匹配时，确定信号发送设备与第一信号接收设备和第二信号接收设备之间发生啸叫。可以通过比对两时刻音频信号的音频指纹的相似度进行啸叫的检测，避免出现漏检或误检，可以提高啸叫检测的准确率。

请参见图14，为本发明实施例提供了一种啸叫检测设备的结构示意图。如图14所示，本发明实施例的所述啸叫检测1可以包括：音频获取单元11、指纹获取单元12、啸叫确定单元13和噪声添加单元14。

噪声添加单元14，用于分别对所述参考音频信号和所述历史音频信号添加随机噪声信号。

可选的，如图15所示，所述指纹获取单元12，包括：

音频分帧子单元121，用于对所述参考音频信号进行分帧处理，得到分帧处理后的多帧参考子音频信号；

子指纹获取子单元122，用于获取所述多帧参考子音频信号中每帧参考子音频信号的参考子音频指纹；

子指纹选取子单元123，用于在所述每帧参考子音频信号的参考子音频指纹中选取设定数量的参考子音频指纹集合；

子指纹合成子单元124，用于将所述参考子音频指纹集合合成为所述参考音频信号的参考音频指纹。

可选的，所述子指纹获取子单元122，具体用于：

可选的，所述子指纹获取子单元122，还用于：

将所述目标参考音频频带分为设定数量的参考音频子频带；

所述子指纹获取子单元122，具体用于：

可选的，所述子指纹获取子单元122，具体用于：

可选的，如图15所示，所述指纹获取单元12，包括：

音频分帧子单元121，用于对所述历史音频信号进行分帧处理，得到分帧处理后的多帧历史子音频信号；

子指纹获取子单元122，用于获取所述多帧历史子音频信号中每帧历史子音频信号的历史子音频指纹；

子指纹选取子单元123，用于在所述每帧历史子音频信号的历史子音频指纹中选取设定数量的历史子音频指纹集合；

子指纹合成子单元124，用于将所述历史子音频指纹集合合成为所述历史音频信号的历史音频指纹。

可选的，所述子指纹获取子单元122，具体用于：

可选的，所述子指纹获取子单元122，还用于：

将所述目标历史音频频带分为设定数量的历史音频子频带；

所述子指纹获取子单元122，具体用于：

可选的，所述子指纹获取子单元122，具体用于：

相似度获取单元15，用于比对所述参考音频指纹与所述历史音频指纹，得到所述参考音频指纹与所述历史音频指纹的相似度；

所述啸叫确定单元13，具体用于当所述相似度大于或者等于相似度阈值时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫。

可选的，所述音频获取单元11具体用于：

所述指纹获取单元12具体用于：

所述啸叫确定单元13具体用于：

可选的，当所述参考音频指纹与所述历史音频指纹不匹配时，可采集另一时刻的历史音频信号，并将该历史音频信号的历史音频指纹与设定时刻的参考音频信号的参考音频指纹进行比对，以确定在所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间是否发生啸叫。所述另一时刻的选择是大于目标时刻同时小于系统上限时延。

在本发明实施例中，通过获取在设定时刻信号发送设备向第一信号接收设备传输的参考音频信号，并获取在距离设定时刻一定时长的目标时刻信号发送设备向第二信号接收设备传输的历史音频信号，获取参考音频信号的参考音频指纹，并获取历史音频信号的历史音频指纹，当参考音频指纹与历史音频指纹相匹配时，确定信号发送设备与第一信号接收设备和第二信号接收设备之间发生啸叫。可以通过比对两时刻音频信号的音频指纹的相似度进行啸叫的检测，避免出现漏检或误检，可以提高啸叫检测的准确率，同时，采用该方法还可以扩大音频通信的啸叫检测范围。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图2-图12所示实施例的方法步骤，具体执行过程可以参见图2-图12所示实施例的具体说明，在此不进行赘述。

请参见图16，为本发明实施例提供了一种电子设备的结构示意图。如图16所示，所述电子设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图16所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及啸叫检测应用程序。

在图16所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的啸叫检测应用程序，并具体执行以下操作：

分别获取所述参考音频信号的参考音频指纹和获取所述历史音频信号的历史音频指纹；

在一个实施例中，所述处理器1001还执行以下操作：

在一个实施例中，所述处理器1001在执行获取所述参考音频信号的参考音频指纹，具体执行以下操作：

在一个实施例中，所述处理器1001在执行获取所述多帧参考子音频信号中每帧参考子音频信号的参考子音频指纹时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行以获取频域变换处理后的每帧参考子音频信号之后，还执行以下操作：

将所述目标参考音频频带分为设定数量的参考音频子频带；

所述处理器1001在执行获取所述频域变换处理后的每帧参考子音频信号的参考音频能量，基于所述参考音频能量获取所述每帧参考子音频信号的参考子音频指纹时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行基于所述各参考音频子频带的参考音频子能量获取所述各参考音频子频带的参考指纹值时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行获取所述历史音频信号的历史音频指纹时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行获取所述多帧历史子音频信号中每帧历史子音频信号的历史子音频指纹时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行以获取频域变换处理后的每帧历史子音频信号之后，还执行以下操作：

将所述目标历史音频频带分为设定数量的历史音频子频带；

所述处理器1001在执行获取所述频域变换处理后的每帧历史子音频信号的历史音频能量，基于所述历史音频能量获取所述每帧历史子音频信号的历史子音频指纹时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行基于所述各历史音频子频带的历史音频子能量获取所述各历史音频子频带的历史指纹值时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行当所述历史音频指纹与所述历史音频指纹相匹配时之前，还执行以下操作：

比对所述历史音频指纹与所述历史音频指纹，以获取所述历史音频指纹与所述历史音频指纹的相似度；

所述处理器1001在执行所述参考音频指纹与所述历史音频指纹相匹配时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫时，具体执行以下操作：

当所述相似度大于或者等于相似度阈值时，，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫。

在一个实施例中，所述处理器1001在执行获取在第二指定时刻所述信号发送设备向第二信号接收设备传输的至少一个历史音频信号时，具体执行以下操作：

所述处理器1001在执行分别获取所述参考音频信号的参考音频指纹和所述历史音频信号的历史音频指纹时，具体执行以下操作：

所述处理器1001在执行当所述参考音频指纹与所述历史音频指纹相匹配时，确定所述信号发送设备与所述第一信号接收设备和所述第二信号接收设备之间发生啸叫时，具体执行以下操作：

在本发明实施例中，通过获取在第一指定时刻信号发送设备向第一信号接收设备传输的参考音频信号，并获取在距离第一指定时刻一定时长的第二指定时刻信号发送设备向第二信号接收设备传输的至少一个历史音频信号，获取参考音频信号的参考音频指纹，并获取历史音频信号的历史音频指纹，当参考音频指纹与历史音频指纹相匹配时，确定信号发送设备与第一信号接收设备和第二信号接收设备之间发生啸叫。可以通过比对两时刻音频信号的音频指纹的相似度进行啸叫的检测，避免出现漏检或误检，可以提高啸叫检测的准确率，同时，采用该方法还可以扩大音频通信的啸叫检测范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种啸叫检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述获取所述参考音频信号的参考音频指纹，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述多帧参考子音频信号中每帧参考子音频信号的参考子音频指纹，包括：

5.根据权利要求4所述的方法，其特征在于，所述得到频域变换处理后的每帧参考子音频信号之后，还包括：

将所述目标参考音频频带分为设定数量的参考音频子频带；

6.根据权利要求5所述的方法，其特征在于，所述基于所述各参考音频子频带的参考音频子能量获取所述各参考音频子频带的参考指纹值，包括：

7.根据权利要求1或2所述的方法，其特征在于，所述获取所述历史音频信号的历史音频指纹，包括：

8.根据权利要求7所述的方法，其特征在于，所述获取所述多帧历史子音频信号中每帧历史子音频信号的历史子音频指纹，包括：

9.根据权利要求8所述的方法，其特征在于，所述得到频域变换处理后的每帧历史子音频信号之后，还包括：

将所述目标历史音频频带分为设定数量的历史音频子频带；

10.根据权利要求9所述的方法，其特征在于，所述基于所述各历史音频子频带的历史音频子能量获取所述各历史音频子频带的历史指纹值，包括：

11.根据权利要求1所述的方法，其特征在于，所述当所述参考音频指纹与所述历史音频指纹相匹配时之前，还包括：

12.根据权利要求1所述的方法，其特征在于，所述获取在第二指定时刻所述信号发送设备向第二信号接收设备传输的至少一个历史音频信号，包括：

13.一种啸叫检测设备，其特征在于，包括：

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～12任意一项的方法步骤。

15.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～12任意一项的方法步骤。