CN114627899A

CN114627899A - 声音信号检测方法及装置、计算机可读存储介质、终端

Info

Publication number: CN114627899A
Application number: CN202210283475.0A
Authority: CN
Inventors: 魏孜宸; 杨可欣
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-14

Abstract

一种声音信号检测方法及装置、计算机可读存储介质、终端，所述方法包括：确定由多个麦克风在第一预设时长内对同一输入信号采集得到的多路声音信号；确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值；如果满足以下条件中的一项或多项，则确定所述输入信号中存在风噪：所述相关性系数至少一项小于预设相关性阈值、所述误差能量累积值至少一项大于第一预设差值、以及所述能量差累积值至少一项大于第二预设差值。本发明能够准确判断麦克风采集的声音信号中是否存在风噪，减少因环境风噪过大导致的非必要语音活动检测。

Description

声音信号检测方法及装置、计算机可读存储介质、终端

技术领域

本发明涉及语音处理技术领域，尤其涉及一种声音信号检测方法及装置、计算机可读存储介质、终端。

背景技术

语音活动检测，又可以称为语音活性检测(Voice activity detection，VAD)，是一项用于语音处理的技术。具体而言，语音活动检测是指从声音信号流里识别和消除长时间的静默段，该技术具有广泛的应用性，例如，可用于简化语音处理，也可在互联网电话应用中去除非语音片段，避免对对非语音数据包的编码和传输，从而实现在不降低业务质量的情况下节省计算时间和带宽资源目的。因此，研究如何提升从声音信号流中提取出语音信号的准确性具有重要价值。

在现有技术中，语音活动检测通常有两个阶段：第一阶段是初步门限判决，即对麦克风采集到的声音信号进行初步的门限值判断，若声音信号高于门限值则触发第二阶段；第二阶段是语音检测，例如可以逐帧对声音信号进行语音检测，检测到语音后，触发后续的语音识别等功能。然而，上述现有技术的缺点在于：在第一阶段进行初步门限判决的过程中，如若环境中风噪过大，即便所采集的声音信号中不存在语音信号，风噪信号仍然可以很容易高于门限值而触发第二阶段，导致第二阶段对风噪信号进行语音检测，从而降低检测准确性，造成资源浪费及功耗的增大。其他的现有技术还采用直接将第一阶段的门限值增大的方法，但此种方案可能出现因门限值设置太大导致即便是真正的语音信号也无法高于门限值的现象，同样无法保证检测准确性。

因此，亟需一种声音信号检测方法，能够准确判断麦克风在一段时间内采集到的声音信号是否为风噪信号，减少因环境风噪过大导致的非必要语音活动检测，在提升检测准确性的同时，减少带宽资源的浪费、降低功耗。

发明内容

本发明解决的技术问题是如何准确判断麦克风采集到的声音信号是否为风噪信号，避免环境风噪过大场景下的非必要语音活动检测，提升语音信号检测的准确性、减少带宽资源浪费、降低功耗。

为解决上述技术问题，本发明实施例提供一种声音信号检测方法，包括以下步骤：确定由多个麦克风在第一预设时长内对同一输入信号采集得到的多路声音信号；确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值，其中，所述相关性系数用于指示声音信号之间的相似程度；如果满足以下条件中的一项或多项，则确定所述输入信号中存在风噪：所述多路声音信号中每两路声音信号之间的相关性系数至少一项小于预设相关性阈值、所述多路声音信号中每两路声音信号之间的误差能量累积值至少一项大于第一预设差值、以及所述多路声音信号中每两路声音信号之间的能量差累积值至少一项大于第二预设差值；其中，当采集所述声音信号时，各个麦克风的空间位置不同。

可选的，所述声音信号检测方法还包括：当确定所述输入信号中不存在风噪且所述输入信号的幅值的极值超出预设门限范围时，确定所述输入信号为语音信号。

可选的，在确定所述输入信号为语音信号之后，所述方法还包括：对所述输入信号提取关键词并进行检索。

可选的，确定所述多路声音信号中每两路声音信号之间的相关性系数包括：对于每路声音信号，采用第二预设时长进行分帧处理，得到多帧对应于不同采集时间段的声音子信号；分别计算每两路声音信号中对应于相同采集时间段的声音子信号之间的初始相关性系数；根据所得到的多个初始相关性系数确定该两路声音信号之间的相关性系数。

可选的，采用下述公式，分别计算每两路声音信号中对应于相同采集时间段的声音子信号之间的初始相关性系数：

其中：corrcoef用于指示两路声音信号中对应于相同采集时间段的声音子信号之间的初始相关性系数，x_{1_frame}，x2_{_frame}分别用于指示两路声音信号中对应于相同采集时间段的两帧声音子信号，cov()用于指示协方差计算函数，var()用于指示方差计算函数。

可选的，根据所得到的多个初始相关性系数确定该两路声音信号之间的相关性系数包括：将所得到的多个初始相关性系数的平均值，作为该两路声音信号之间的相关性系数；或者，将所得到的多个初始相关性系数的中位值，作为该两路声音信号之间的相关性系数。

可选的，每路声音信号是采用预设采样频率采集的，确定所述多路声音信号中每两路声音信号之间的误差能量累积值包括：对于所述多路声音信号中的每两路声音信号，确定该两路声音信号中属于相同采集时刻的采样点之间的声音信号差值；根据所述声音信号差值确定所述属于相同采集时刻的采样点之间的误差能量，并计算该两路信号中属于相同采集时刻的多对采样点之间的误差能量之和，作为该两路声音信号之间的误差能量累积值。

可选的，采用下述公式，根据所述声音信号差值确定所述属于相同采集时刻的采样点之间的误差能量，并计算该两路信号中属于相同采集时刻的多对采样点之间的误差能量之和：

Delta＝x₁(t)-x₂(t)；

Delta_RSSI＝[x₁(t)-x₂(t)]²；

其中，t用于指示不同的采集时刻，x₁(t)，x₂(t)分别用于指示两路声音信号中属于相同采集时刻的采样点的声音信号；Delta用于指示两路声音信号中属于相同采集时刻的各对采样点之间的声音信号差值；Delta_RSSI用于指示两路声音信号中属于相同采集时刻的各对采样点之间的误差能量；S_RSSI用于指示两路声音信号中属于相同采集时刻的n对采样点之间的误差能量之和，n用于指示两路声音信号中属于相同采集时刻的采样点的对数。

可选的，每路声音信号是采用预设采样频率采集的；确定所述多路声音信号中每两路声音信号之间的能量差累积值包括：对于所述多路声音信号中的每两路声音信号，确定该两路声音信号中属于相同采集时刻的采样点的能量值；计算该两路声音信号中属于相同采集时刻的采样点之间的能量值之差，再计算该两路信号中属于相同采集时刻的多对采样点之间的能量值之差的和，作为该两路声音信号之间的能量差累积值。

可选的，采用下述公式，对于所述多路声音信号中的每两路声音信号，计算该两路声音信号中属于相同采集时刻的采样点之间的能量值之差，再计算该两路声音信号中属于相同采集时刻的多对采样点之间的能量值之差的和：

RSSI_x₁(t)＝x₁(t)²；

RSSI_x₂(t)＝x₂(t)²；

RSSI_Delta(t)＝RSSI_x₁(t)-RSSI_x₂(t)；

其中，t用于指示不同的采集时刻，x₁(t)，x₂(t)分别用于指示两路声音信号中属于相同采集时刻的采样点的声音信号；RSSI_x₁(t)，RSSI_x₂(t)分别用于指示两路声音信号中属于相同采集时刻的各对采样点的能量值；RSSI_Delta(t)用于指示两路声音信号中属于相同采集时刻的各对采样点之间的能量值之差；RSSI_S用于指示两路声音信号中属于相同采集时刻的n对采样点之间的能量值之差的和，n用于指示两路声音信号中属于相同采集时刻的采样点的对数。

可选的，根据以下一项或多项，确定所述预设相关性阈值、所述第一预设差值以及所述第二预设差值：采集空间中的风噪强度、声波入射角、麦克风的空间位置、麦克风的频响。

可选的，在确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值之前，所述方法还包括：对各路声音信号分别进行降采样处理。

本发明实施例还提供一种声音信号检测装置，包括：多路声音信号确定模块，用于确定由多个麦克风在第一预设时长内对同一输入信号采集得到的多路声音信号；风噪判决系数确定模块，用于确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值，其中，所述相关性系数用于指示声音信号之间的相似程度；风噪检测模块，用于在满足以下条件中的一项或多项时，确定所述输入信号中存在风噪：所述多路声音信号中每两路声音信号之间的相关性系数至少一项小于预设相关性阈值、所述多路声音信号中每两路声音信号之间的误差能量累积值至少一项大于第一预设差值、以及所述多路声音信号中每两路声音信号之间的能量差累积值至少一项大于第二预设差值。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述声音信号检测方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述声音信号方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在本发明实施例中，首先确定由多个麦克风在第一预设时长内对同一输入信号采集得到的多路声音信号；然后确定三项风噪判决系数，即所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值；再采用前述三项风噪判决系数判断所述输入信号中是否存在风噪，即如果满足以下条件中的一项或多项，则确定所述输入信号中存在风噪：所述多路声音信号中每两路声音信号之间的相关性系数至少一项小于预设相关性阈值、误差能量累积值至少一项大于第一预设差值、能量差累积值至少一项大于第二预设差值。相比于现有技术采用初步门限值判决方法进行语音活动检测，缺点在于若环境中风噪过大，风噪信号仍然可以很容易高于门限值，导致将风噪信号误判为语音信号，检测的准确性不足，容易造成资源浪费及功耗增大；本发明实施例对由多个麦克风对同一输入信号采集得到的多路声音信号，分别计算三项风噪判决系数，并基于所述风噪判决系数与各个预设阈值的比较结果，可以准确判断输入信号中是否存在风噪(主要为风噪信号)，减少因环境风噪过大导致的非必要语音活动检测，提升检测的准确性，减少带宽资源浪费、降低功耗。

进一步，所述声音信号检测方法还包括：当确定所述输入信号中不存在风噪且所述输入信号的幅值的极值超出预设门限范围时，确定所述输入信号为语音信号。相比于现有技术采用初步门限值判决和语音检测“两步法”，在环境风噪过大的场景中，风噪信号容易高于门限值而触发第二阶段，导致第二阶段对风噪信号进行语音检测，从而降低检测准确性，造成资源浪费；本发明的实施例采用“三步法”：在进行门限值判决之前，先对输入信号进行风噪信号检测，当确定输入信号中不存在风噪时，才进行门限值判决，最终将不存在风噪且幅值的极值超出预设门限范围的输入信号确定为真正的语音信号，从而可以有效提升语音信号检测的准确性。

进一步，确定所述多路声音信号中每两路声音信号之间的相关性系数包括：对于每路声音信号，采用第二预设时长进行分帧处理，得到多帧对应于不同采集时间段的声音子信号；分别计算每两路声音信号中对应于相同采集时间段的声音子信号之间的初始相关性系数；根据所得到的多个初始相关性系数确定该两路声音信号之间的相关性系数。其中，可以将所得到的多个初始相关性系数的平均值或中位值，作为该两路声音信号之间的相关性系数。在本发明实施例中，通过对各路声音信号进行分帧处理，再计算所述相关性系数，可以有效提高计算效率和计算准确性。

进一步，根据以下一项或多项，确定所述预设相关性阈值、所述第一预设差值以及所述第二预设差值：采集空间中的风噪强度、声波入射角、麦克风的空间位置、麦克风的频响。在本发明实施例中，进行风噪判决过程中与三项风噪判决系数进行比较的各个预设阈值或预设差值，是综合考虑采集环境、采集设备、声波特征等因素中的一项或多项因素确定的，由此可以降低误差，提升风噪判决的准确性。

进一步，在确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值之前，所述方法还包括：对各路声音信号分别进行降采样处理。由于采集到的原始声音信号的数据量较大，如果直接基于所述原始声音信号进行判决系数的计算，将会占用较大存储空间且降低计算效率，本发明实施例先对采集到的原始声音信号进行降采样处理，可以压缩数据量，从而提升后续计算(检测)效率，减少数据占用的存储空间，降低运算开销。

附图说明

图1是本发明实施例中第一种声音信号检测方法的流程图；

图2是图1中步骤S12的一种具体实施方式的流程图；

图3是图1中步骤S12的另一种具体实施方式的流程图；

图4是图1中步骤S12的又一种具体实施方式的流程图；

图5是本发明实施例中第二种声音信号检测方法的流程图；

图6是本发明实施例中一种声音信号检测装置的结构示意图。

具体实施方式

如前所述，研究如何提升从声音信号流中提取出语音信号的准确性具有重要价值。

在现有技术中，语音活动检测通常有两个阶段：第一阶段是初步门限判决，即对麦克风采集到的声音信号进行初步的门限值判断，若声音信号高于门限值则触发第二阶段；第二阶段是语音检测，例如可以逐帧对声音信号进行语音检测，检测到语音后，触发后续的语音识别等功能。其他的现有技术还采用直接将第一阶段的门限值增大的方法，从声音信号中检测出语音信号。

本发明的发明人经研究发现，上述现有技术的缺点在于：在第一阶段进行初步门限判决的过程中，如若环境中风噪过大，即便所采集的声音信号中不存在语音信号，风噪信号仍然可以很容易高于门限值而触发第二阶段，导致第二阶段对风噪信号进行语音检测，从而降低检测准确性，造成资源浪费及功耗增大；而采用直接增大门限值的方法，可能因门限值设置太大导致真正的语音信号也无法高于门限值，因此也无法保证检测准确性。

因此，亟需一种声音信号检测方法，能够准确判断麦克风在一段时间内采集到的声音信号中是否存在风噪，减少因环境风噪过大导致的非必要语音活动检测，在提升检测准确性的同时，减少带宽资源的浪费、降低功耗。

在本发明实施例中，首先确定由多个麦克风在第一预设时长内对同一输入信号采集得到的多路声音信号；然后确定三项风噪判决系数，即所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值；再采用前述三项风噪判决系数判断所述输入信号中是否存在风噪，即如果满足以下条件中的一项或多项，则确定所述输入信号中存在风噪：所述多路声音信号中每两路声音信号之间的相关性系数至少一项小于预设相关性阈值、误差能量累积值至少一项大于第一预设差值、能量差累积值至少一项大于第二预设差值。相比于现有技术采用初步门限值判决方法进行语音活动检测，缺点在于若环境中风噪过大，风噪信号仍然可以很容易高于门限值，导致将风噪信号误判为语音信号，检测的准确性不足，容易造成资源浪费及功耗增大；本发明实施例对由多个麦克风对同一输入信号采集得到的多路声音信号，分别计算三项风噪判决系数，并基于所述风噪判决系数与各个预设阈值的比较结果，可以准确判断输入信号中是否存在风噪，减少因环境风噪过大导致的非必要语音活动检测，提升检测的准确性，减少带宽资源浪费、降低功耗。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细说明。

参照图1，图1是本发明实施例中第一种声音信号检测方法的流程图。所述第一种声音信号检测方法可以包括步骤S11至步骤S13：

步骤S11：确定由多个麦克风在第一预设时长内对同一输入信号采集得到的多路声音信号；

步骤S12：确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值；

步骤S13：如果满足以下条件中的一项或多项，则确定所述输入信号中存在风噪：所述多路声音信号中每两路声音信号之间的相关性系数至少一项小于预设相关性阈值、所述多路声音信号中每两路声音信号之间的误差能量累积值至少一项大于第一预设差值、以及所述多路声音信号中每两路声音信号之间的能量差累积值至少一项大于第二预设差值。

其中，当采集所述声音信号时，各个麦克风的空间位置不同。

可以理解的是，在具体实施中，所述方法可以采用软件程序的方式实现，该软件程序运行于芯片或芯片模组内部集成的处理器中；或者，该方法可以采用硬件或者软硬结合的方式来实现。

在步骤S11的具体实施中，所述声音信号在广义上可以是用于描述自然界的物体震动产生的各种类型的声音信息的一种模拟信号，是随着时间连续不断变化着的。声音信号可以分为语音信号、风噪信号或噪音信号等；语音信号作为声音信号的一种主要类型，已成为人类社会生活中获取信息和传播信息的重要手段。语音的形成过程如下：空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，形成语音。

在具体实施中，当采集所述声音信号时，所述麦克风的个数至少为两个，也可以根据不同应用场景的需要，采用三个或三个以上麦克风进行声音信号的采集。在一些非限制性的实施例中，所述麦克风可以是现有的常规耳机芯片中的两个麦克风，其中一个为参考麦克风，另一个为误差麦克风；也可以是现有的常规智能手机、平板电脑、智能语音对话机器人、智能翻译设备等具有语音通信功能或语音检测(识别)功能的电子设备中的麦克风或麦克风阵列(通常而言，在智能手机芯片的非低功耗模式中，是通过麦克风阵列实现语音检测的，而在低功耗模式中则往往只有一路麦克风)。

需要指出的是，每个麦克风在第一预设时长内对同一输入信号进行采集得到一路声音信号，多个麦克风在第一预设时长内对同一输入信号进行采集就得到多路声音信号，麦克风的个数与采集到的声音信号的路数是相同的。

其中，所述第一预设时长的长短直接与采集得到的各路声音信号的数据量大小有关，可以理解的是，所述第一预设时长不应当设置过长，否则采集得到的各路声音信号包含的声音信息内容太多，数据量太大，可能会降低检测的效率；所述第一预设时长也不应当设置过短，否则采集得到的各路声音包含的声音信息内容太少，数据量太小，可能会降低检测的准确性。在一些非限制性的实施例中，可以将所述第一预设时长设置为40毫秒中左右。

在步骤S12的具体实施中，所述相关性系数可以用于表示声音信号之间的相似程度；所述误差能量累积值可以用于表示声音信号之间的能量差异，可以是根据声音信号之间的信号差值确定的；所述能量差累积值也可以用于表示各路声音信号之间的能量差异，是可以根据声音信号的能量值确定的。

进一步，在确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值之前，所述方法还包括：对各路声音信号分别进行降采样处理。由于采集到的原始声音信号的数据量较大，如果直接基于所述原始声音信号进行判决系数的计算，将会占用较大存储空间且降低计算效率；在本发明实施例中，先对采集到的原始声音信号进行降采样处理，可以压缩数据量，从而提升后续计算(检测)效率，减少数据占用的存储空间，降低运算开销。

在步骤S13的具体实施中，可以理解的是，当采集所述声音信号时，由于各个麦克风所处的空间位置不同(例如人戴耳机讲电话场景中，两个麦克风分别位于人的左耳位置和右耳位置)，并且由于环境中的风噪具有一定的随机性，因此当所述输入信号中主要为风噪时，各个麦克风采集到的声音信号差别会较大，相关性较低，声音信号的能量差异也会较大，所述误差能量累积值与所述能量差累积值会较大；当风噪较弱或不存在风噪时，各个麦克风采集到的声音信号在有效带宽内近似，相关性会比较高，所述误差能量累积值与所述能量差累积值会较小。由此，在通过合理设定上述三项判决系数的阈值，可以准确确定输入信号中是否存在风噪(即是否主要或全部为风噪信号)，避免将语音信号误判为风噪。

进一步，在一些非限制性的实施例中，可以根据以下影响因素中的一项或多项中确定所述预设相关性阈值、所述第一预设差值以及所述第二预设差值：采集空间中的风噪强度、声波入射角、麦克风的空间位置、麦克风的频响。

其中，风噪强度用于指示采集所述声音信号的特定空间中的噪声强度，所述噪声可以指语音之外的其他声音(例如风声、走路声、关门声、车辆行驶过程的机动噪音)；声波入射角可以是声波从一种介质进入另一种介质时，与所述另一种介质水平面形成的夹角；麦克风的空间位置可以指采集时刻麦克风的绝对位置，或者在采集时刻麦克风相对于所述终端的相对位置；麦克风的频响，也可以称为有效频率范围，它体现了麦克风工作的主要频率范围，是衡量麦克风对高、中、低各频段信号均匀再现的能力。

在具体实施中，为了尽可能合理设置各项阈值，降低误差，提高风噪判决的准确性，应当注意：当采集所述多路声音信号，采集空间中的风噪强度越大，和/或各个麦克风的声波入射角差别越大，和/或各个麦克房的空间位置相差越远，和/或各个麦克风的频响相差越大，则：各个麦克风采集到的各路声音信号之间的差别越大，相关性系数越小，误差能量累积值和能量差累积值都会越大；此种情况下设置的所述相关性阈值就越小、所述第一预设差值就越大、所述第二预设差值就越大。

进一步，在确定所述输入信号中存在风噪之后，可以直接将所述输入信号舍弃；也可以综合考虑所述相关性系数与预设相关性阈值之间的差值、所述误差能量累积值与第一预设差值之间的差值、以及所述能量差累积值与第二预设差值之间的差值，整体进行平均或加权运算后与预设的合理误差范围做比较，最终决定所述输入信号的取舍。

在本发明实施例中，相比于现有技术采用初步门限值判决方法进行语音活动检测，缺点在于若环境中风噪过大，风噪信号仍然可以很容易高于门限值，导致将风噪信号误判为语音信号，检测的准确性不足，容易造成资源浪费及功耗增大；本发明实施例对由多个麦克风对同一输入信号采集得到的多路声音信号，分别计算三项风噪判决系数，并基于所述风噪判决系数与各个预设阈值或预设差值的比较结果，可以准确判断输入信号中是否存在风噪(主要为风噪信号)，减少因环境风噪过大导致的非必要语音活动检测，提升检测的准确性，减少带宽资源浪费、降低功耗。

参照图2，图2是图1中步骤S12的一种具体实施方式的流程图，所述确定所述多路声音信号中每两路声音信号之间的相关性系数可以包括步骤S21至步骤S23，以下对各个步骤进行说明。

在步骤S21中，对于每路声音信号，采用第二预设时长进行分帧处理，得到多帧对应于不同采集时间段的声音子信号。

在本发明实施例中，通过采用第二预设时长对各路声音信号进行分帧处理，再计算所述相关性系数，可以有效提高计算效率和计算准确性。

在步骤S22中，分别计算每两路声音信号中对应于相同采集时间段的声音子信号之间的初始相关性系数。

进一步，采用下述公式，分别计算每两路声音信号中对应于相同采集时间段的声音子信号之间的初始相关性系数：

作为一个非限制性的实施例，采集得到的两路声音信号中每路声音信号的持续时长为40毫秒，采用4毫秒作为所述第二预设时长，则分帧处理后每路声音信号被划分为若干帧帧声音子信号(需要说明的是，在分帧时，除了可以采用1～4毫秒为第一帧、5～8毫秒为第二帧、9～12毫秒为第三帧……的划分方式，还可以采用1～4毫秒为第一帧、2～5毫秒为第二帧、3～6毫秒为第三帧……的划分方式)，假设其中有20帧声音子信号的采集时间段一一对应且相同(两路声音信号中有20对声音子信号属于相同采集时间段)，那么在上述步骤中，计算这20对声音子信号之间的初始相关性系数。

在步骤S23中，根据所得到的多个初始相关性系数确定该两路声音信号之间的相关性系数。

在一些非限制性的实施例中，可以将所得到的多个初始相关性系数的平均值或中位值，作为该两路声音信号之间的相关性系数。

在具体实施中，有关步骤S21至步骤S23的更多详细内容请参照前文以及图1中的步骤描述进行执行，此处不再赘述。

参照图3，图3是图1中步骤S12的另一种具体实施方式的流程图。所述确定所述多路声音信号中每两路声音信号之间的误差能量累积值可以包括步骤S31至步骤S32，以下对各步骤进行说明。

在步骤S31中，对于所述多路声音信号中的每两路声音信号，确定该两路声音信号中属于相同采集时刻的采样点之间的声音信号差值。

其中，每路声音信号是采用预设采样频率采集的。可以理解的是，采样的过程是将连续的模拟信号转换为数字信号的一个步骤，通过采用所述预设采样频率对连续的输入信号(一种模拟信号)进行采集，可以得到在时间上离散的数字信号，从效果来看，采样频率越高所得的离散信号就越接近原始的模拟信号，但采样频率过高则对实际电路的要求就更高，也会给带来大量的计算与存储；而采样频率过低会导致信息丢失，严重时导致信息失真，无法使用。作为一个非限制性的实施例，每路声音信号可以8K采样率作为所述预设采样频率，从而得到若干数量的采样点，每个采样点代表原来连续的模拟信号在某个时刻的瞬时值，可以用二进制数来表示。

在步骤S32中，根据所述声音信号差值确定所述属于相同采集时刻的采样点之间的误差能量，并计算该两路信号中属于相同采集时刻的多对采样点之间的误差能量之和，作为该两路声音信号之间的误差能量累积值。

进一步，采用下述公式，根据所述声音信号差值确定所述属于相同采集时刻的采样点之间的误差能量，并计算该两路信号中属于相同采集时刻的多对采样点之间的误差能量之和：

Delta＝x₁(t)-x₂(t)；

Delta_RSSI＝[x₁(t)-x₂(t)]²；

作为一个非限制性的实施例，采集得到的两路声音信号中的每路声音信号各有300个采样点，如果其中200个采样点的采集时刻一一对应且相同(两路声音信号有200对采样点属于相同采集时刻)，那么在上述步骤中，对于该两路声音信号，确定这200对采样点之间的声音信号差值，然后分别确定这200对采样点之间的误差能量，并计算这200对采样点之间的误差能量之和，作为该两路声音信号之间的误差能量累积值。

参照图4，图4是图1中步骤S12的又一种具体实施方式的流程图。所述确定所述多路声音信号中每两路声音信号之间的能量差累积值可以包括步骤S41至步骤S42，以下对各步骤进行说明。

在步骤S41中，对于所述多路声音信号中的每两路声音信号，确定该两路声音信号中属于相同采集时刻的采样点的能量值。

其中，每路声音信号可以是采用预设采样频率采集的。

在步骤S42中，计算该两路声音信号中属于相同采集时刻的采样点之间的能量值之差，再计算该两路信号中属于相同采集时刻的多对采样点之间的能量值之差的和，作为该两路声音信号之间的能量差累积值。

进一步，采用下述公式，计算该两路声音信号中属于相同采集时刻的采样点之间的能量值之差，再计算该两路信号中属于相同采集时刻的多对采样点之间的能量值之差的和：

RSSI_x₁(t)＝x₁(t)²；

RSSI_x₂(t)＝x₂(t)²；

RSSI_Delta(t)＝RSSI_x₁(t)-RSSI_x₂(t)；

作为一个非限制性的实施例，采集得到的两路声音信号中的每路声音信号各有200个采样点，如果其中150个采样点的采集时刻一一对应且相同(两路声音信号有150对采样点属于相同采集时刻)，那么在上述步骤中，对于该两路声音信号，确定这150对采样点之间的能量值之差，再计算这150对采样点之间的能量值之差的和，作为该两路声音信号之间的能量差累积值。

参照图5，图5是本发明实施例中第二种声音信号检测方法的流程图。所述第二种声音信号检测方法可以包括步骤S51至步骤S55，以下对各步骤进行说明。

在步骤S51中，确定由多个麦克风在第一预设时长内对同一输入信号采集得到的多路声音信号。

在步骤S52中，确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值。

在具体实施中，在确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值的过程中，可以是通过将连续的模拟信号转换为离散的数字信号进行计算的，有关模数转换的过程可以参照图3中关于步骤S31的相关说明，此处不再赘述。

在步骤S53中，如果满足以下条件中的一项或多项，则确定所述输入信号中存在风噪：所述多路声音信号中每两路声音信号之间的相关性系数至少一项小于预设相关性阈值、所述多路声音信号中每两路声音信号之间的误差能量累积值至少一项大于第一预设差值、以及所述多路声音信号中每两路声音信号之间的能量差累积值至少一项大于第二预设差值。

在步骤S54中，确定所述输入信号中不存在风噪以及所述输入信号的幅值的极值超出预设门限范围。

在具体实施中，当步骤S53中的三项条件都不满足时，可以确定所述输入信号中不存在风噪(在具体实施中，可能在风噪较弱、语音信号为主的情况下，上述步骤S53的三项条件也都不会满足，此时可以将这种风噪较弱的情形归为不存在风噪的情形)，然后再进行门限值判断，以检测出真正的语音信号。

在步骤S55中，将所述输入信号确定为语音信号。

在本发明实施例中，相比于现有技术采用初步门限值判决和语音检测“两步法”，在环境风噪过大的场景中，风噪信号容易高于门限值而触发第二阶段，导致第二阶段对风噪信号进行语音检测，从而降低检测准确性，造成资源浪费；本发明的实施例采用“三步法”：在进行门限值判决之前，先对输入信号进行风噪信号检测，当确定输入中不存在风噪(或者风噪很弱)时，才进行门限值判决，最终将不存在风噪且幅值的极值超出预设门限范围的输入信号确定为真正的语音信号，从而可以有效提升语音信号检测的准确性。

进一步，在确定所述输入信号为语音信号之后，可以触发不同应用场景中的各个功能，例如在智能语音机器人的应用中，可以对所述输入信号提取关键词并进行检索，然后向用户反馈检索结果(如播放检索到的音乐，阅读检索到的新闻或网页等)。

参照图6，图6是本发明实施例中一种声音信号检测装置的结构示意图。所述声音信号检测装置可以包括：

多路声音信号确定模块61，用于确定由多个麦克风在第一预设时长内对同一输入信号采集得到的多路声音信号；

风噪判决系数确定模块62，用于确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值，其中，所述相关性系数用于指示声音信号之间的相似程度；

风噪检测模块63，用于在满足以下条件中的一项或多项时，确定所述输入信号中存在风噪：所述多路声音信号中每两路声音信号之间的相关性系数至少一项小于预设相关性阈值、所述多路声音信号中每两路声音信号之间的误差能量累积值至少一项大于第一预设差值、以及所述多路声音信号中每两路声音信号之间的能量差累积值至少一项大于第二预设差值。

在具体实施中，上述声音信号检测装置可以对应于声音信号检测功能的芯片；或者对应于终端中具有声音信号检测功能的芯片模组，或者对应于终端。

在具体实施中，关于该声音信号检测装置的原理、具体实现和有益效果请参照前文及图1至图5示出的关于声音信号检测方法的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述声音信号检测方法的步骤。所述计算机可读存储介质可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器，还可以包括光盘、机械硬盘、固态硬盘等。

具体地，在本发明实施例中，所述处理器可以为中央处理单元(centralprocessing unit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，简称DSP)、专用集成电路(application specificintegrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述声音信号检测方法的步骤。所述终端可以包括但不限于手机、计算机、平板电脑等终端设备，还可以为服务器、云平台等。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于终端的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于终端内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于终端内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

需要指出的是，本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种声音信号检测方法，其特征在于，包括：

确定由多个麦克风在第一预设时长内对同一输入信号采集得到的多路声音信号；

确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值，其中，所述相关性系数用于指示声音信号之间的相似程度；

如果满足以下条件中的一项或多项，则确定所述输入信号中存在风噪：

所述多路声音信号中每两路声音信号之间的相关性系数至少一项小于预设相关性阈值、所述多路声音信号中每两路声音信号之间的误差能量累积值至少一项大于第一预设差值、以及所述多路声音信号中每两路声音信号之间的能量差累积值至少一项大于第二预设差值；

2.根据权利要求1所述的声音信号检测方法，其特征在于，所述方法还包括：当确定所述输入信号中不存在风噪且所述输入信号的幅值的极值超出预设门限范围时，确定所述输入信号为语音信号。

3.根据权利要求2所述的声音信号检测方法，其特征在于，在确定所述输入信号为语音信号之后，所述方法还包括：

对所述输入信号提取关键词并进行检索。

4.根据权利要求1所述的声音信号检测方法，其特征在于，确定所述多路声音信号中每两路声音信号之间的相关性系数包括：

对于每路声音信号，采用第二预设时长进行分帧处理，得到多帧对应于不同采集时间段的声音子信号；

分别计算每两路声音信号中对应于相同采集时间段的声音子信号之间的初始相关性系数；

根据所得到的多个初始相关性系数确定该两路声音信号之间的相关性系数。

5.根据权利要求4所述的声音信号检测方法，其特征在于，采用下述公式，分别计算每两路声音信号中对应于相同采集时间段的声音子信号之间的初始相关性系数：

其中：corrcoef用于指示两路声音信号中对应于相同采集时间段的声音子信号之间的初始相关性系数，x_{1_frame}，x_{2_frame}分别用于指示两路声音信号中对应于相同采集时间段的两帧声音子信号，cov()用于指示协方差计算函数，var()用于指示方差计算函数。

6.根据权利要求4所述的方法，根据所得到的多个初始相关性系数确定该两路声音信号之间的相关性系数包括：

将所得到的多个初始相关性系数的平均值或中位值，作为该两路声音信号之间的相关性系数。

7.根据权利要求1所述的声音信号检测方法，其特征在于，每路声音信号是采用预设采样频率采集的，确定所述多路声音信号中每两路声音信号之间的误差能量累积值包括：

对于所述多路声音信号中的每两路声音信号，确定该两路声音信号中属于相同采集时刻的采样点之间的声音信号差值；

根据所述声音信号差值确定所述属于相同采集时刻的采样点之间的误差能量，并计算该两路信号中属于相同采集时刻的多对采样点之间的误差能量之和，作为该两路声音信号之间的误差能量累积值。

8.根据权利要求7所述的声音信号检测方法，其特征在于，采用下述公式，根据所述声音信号差值确定所述属于相同采集时刻的采样点之间的误差能量，并计算该两路信号中属于相同采集时刻的多对采样点之间的误差能量之和：

Delta＝x₁(t)-x₂(t)；

Delta_RSSI＝[x₁(t)-x₂(t)²；

9.根据权利要求1所述的声音信号检测方法，其特征在于，每路声音信号是采用预设采样频率采集的；确定所述多路声音信号中每两路声音信号之间的能量差累积值包括：

对于所述多路声音信号中的每两路声音信号，确定该两路声音信号中属于相同采集时刻的采样点的能量值；

计算该两路声音信号中属于相同采集时刻的采样点之间的能量值之差，再计算该两路信号中属于相同采集时刻的多对采样点之间的能量值之差的和，作为该两路声音信号之间的能量差累积值。

10.根据权利要求9所述的方法，其特征在于，采用下述公式，计算该两路声音信号中属于相同采集时刻的采样点之间的能量值之差，再计算该两路信号中属于相同采集时刻的多对采样点之间的能量值之差的和：

RSSI_x₁(t)＝x₁(t)²；

RSSI_x₂(t)＝x₂(t)²；

RSSI_Delta(t)＝RSSI_x₁(t)-RSSI_x₂(t)；

11.根据权利要求1所述的方法，其特征在于，根据以下一项或多项，确定所述预设相关性阈值、所述第一预设差值以及所述第二预设差值：

采集空间中的风噪强度、声波入射角、麦克风的空间位置、麦克风的频响。

12.根据权利要求1所述的声音信号检测方法，其特征在于，在确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值之前，所述方法还包括：

对各路声音信号分别进行降采样处理。

13.一种声音信号检测装置，其特征在于，包括：

多路声音信号确定模块，用于确定由多个麦克风在第一预设时长内对同一输入信号采集得到的多路声音信号；

风噪判决系数确定模块，用于确定所述多路声音信号中每两路声音信号之间的相关性系数、误差能量累积值以及能量差累积值，其中，所述相关性系数用于指示声音信号之间的相似程度；

风噪检测模块，用于在满足以下条件中的一项或多项时，确定所述输入信号中存在风噪：所述多路声音信号中每两路声音信号之间的相关性系数至少一项小于预设相关性阈值、所述多路声音信号中每两路声音信号之间的误差能量累积值至少一项大于第一预设差值、以及所述多路声音信号中每两路声音信号之间的能量差累积值至少一项大于第二预设差值。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至12任一项所述声音信号检测方法的步骤。

15.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至12任一项所述声音信号检测方法的步骤。