CN111683329B

CN111683329B - 麦克风检测方法、装置、终端及存储介质

Info

Publication number: CN111683329B
Application number: CN202010480790.3A
Authority: CN
Inventors: 张东魁; 陈孝良; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-05-30
Filing date: 2020-05-30
Publication date: 2022-02-08
Anticipated expiration: 2040-05-30
Also published as: CN111683329A

Abstract

本申请公开了一种麦克风检测方法、装置、终端及存储介质，属于智能终端技术领域。本申请实施例通过确定所述终端上多个麦克风所采集的语音信号的能量值，基于该多个能量值之间的相对差异值，准确的衡量出该多个语音信号之间的相对差异程度，进一步基于所述相对差异值来确定麦克风是否信号异常，基于多个麦克风的语音信号之间的相对差异情况进行检测，避免了环境中噪音等的影响，检测过程的可靠性较高，提高了麦克风检测的准确性。

Description

麦克风检测方法、装置、终端及存储介质

技术领域

本申请涉及智能终端技术领域，特别涉及一种麦克风检测方法、装置、终端及存储介质。

背景技术

智能音箱已逐渐成为时下流行的智能产品之一。使用智能音箱时，用户无需接触智能音箱，而是通过发出语音便可唤醒智能音箱，以控制智能音箱播放音乐、讲故事等。然而，如果智能音箱的麦克风的信号异常，例如，麦克风故障，则会导致唤醒失败，因此，本领域中，通常需要对智能音箱的麦克风进行检测。

相关技术中，麦克风检测过程可以包括：获取智能音箱上每个麦克风所采集的语音信号的能量值，将每个麦克风语音信号的能量值与目标阈值范围进行比较，来判断麦克风采集的语音信号是否异常，如果麦克风语音信号的能量值不位于该目标阈值范围内，则该麦克风信号异常，否则未发生信号异常。

上述过程实际上仅基于目标阈值范围进行判断，且麦克风采集语音时极易受到环境影响，安静环境下和噪音环境下，所采集的语音信号的能量值变化很大，极易判断错误，上述检测过程可靠性较差，从而导致麦克风检测的准确性较低。

发明内容

本申请实施例提供了一种麦克风检测方法、装置、终端及存储介质，可以提高麦克风检测的准确性。所述技术方案如下：

一方面，提供了一种麦克风检测方法，所述方法包括：

响应于终端的检测指令，确定所述终端上多个麦克风所采集的语音信号的能量值，所述检测指令用于指示检测所述多个麦克风是否存在信号异常；

基于所述多个麦克风所采集的语音信号的能量值，确定所述多个麦克风所采集的语音信号之间的相对差异值，所述相对差异值用于表示所述多个麦克风所采集的语音信号之间的差别程度；

基于所述相对差异值，确定所述多个麦克风的检测结果，所述检测结果用于指示所述多个麦克风是否信号异常。

在一种可能实现方式中，所述响应于终端的检测指令，确定所述终端上多个麦克风所采集的语音信号的能量值包括：

响应于所述终端上语音接收事件所触发的检测指令，获取所述多个麦克风在目标时段内所采集的周围环境中的语音信号；

根据每个麦克风的采样频率和所述目标时段的时长，确定所述多个麦克风在所述目标时段内所采集语音信号的能量值。

所述根据每个麦克风的采样频率和所述目标时段的时长，确定所述多个麦克风在所述目标时段内所采集语音信号的能量值包括：

对于每个麦克风，将所述麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为所述当前帧语音数据所包括语音信号的能量值，一帧语音数据用于存储按照采样频率采集一次时间片段的语音信号；

将所述目标时段内所采集的多帧语音数据对应的多个能量值之间的平均值，确定为所述目标时段内所采集语音信号的能量值。

在一种可能实现方式中，所述目标时段为距离当前时间不超过目标时长的时段；所述将所述麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为所述当前帧语音数据所包括语音信号的能量值之后，所述方法还包括：

根据已存储的多个能量值所对应的多帧语音数据的采集时间，删除采集时间距离所述当前帧语音数据的采集时间超过目标时长的语音数据的能量值；

按照所述当前帧语音数据的采集顺序，将所述当前帧语音数据的能量值存储在前一帧语音数据的能量值之后。

在一种可能实现方式中，所述目标时段为采集顺序距离当前所采集的语音数据的采集顺序不超过最大存储量的多帧语音数据对应的采集时段；所述将所述麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为所述当前帧语音数据所包括语音信号的能量值之后，所述方法还包括：

当已存储的能量值的数目不小于环形队列的最大存储量时，将环形队列中采集顺序最早的一帧语音数据所包括语音信号的能量值，替换为所述当前帧语音数据所包括语音信号的能量值，每个麦克风对应一个环形队列，所述环形队列用于按照语音数据的采集顺序存储对应麦克风所采集的多帧语音数据的多个能量值；

当已存储的能量值的数目小于环形队列的最大存储量时，按照所述当前帧语音数据的采集顺序，将所述当前帧语音数据的能量值存储在前一帧语音数据的能量值之后。

在一种可能实现方式中，所述语音接收事件为所述终端上任一麦克风接收到任意语音信号，或者，所述语音接收事件为所述多个麦克风检测到周围环境中的唤醒语音信号。

在一种可能实现方式中，所述响应于所述终端上语音接收事件所触发的检测指令，获取所述多个麦克风在目标时段内所采集的周围环境中的语音信号包括：

响应于所述终端上语音接收事件所触发的检测指令，获取所述多个麦克风在目标时段内所采集的第一语音信号，以及，获取所述终端上扬声器在目标时段内所发出的第二语音信号；

根据所述第二语音信号，对所述第一语音信号进行回声消除处理，将回声消除处理后的第一语音信号确定为所述周围环境中的语音信号。

在一种可能实现方式中，所述基于所述多个麦克风所采集的语音信号的能量值，确定所述多个麦克风所采集的语音信号之间的相对差异值包括以下任一项：

确定所述多个麦克风所采集的语音信号的能量值中，最大能量值与最小能量值之间的差值，将所述差值与任一麦克风所采集的语音信号的能量值之间的比值确定为所述相对差异值；

将所述多个麦克风所采集的语音信号的能量值之间的方差确定为所述相对差异值；

将所述多个麦克风所采集的语音信号的能量值中，最大能量值与最小能量值之间的差值确定为所述相对差异值。

在一种可能实现方式中，所述基于所述相对差异值，确定所述多个麦克风的检测结果包括：

响应于所述相对差异值大于目标阈值，确定所述多个麦克风的检测结果为所述多个麦克风的信号异常；

响应于所述相对差异值不大于目标阈值，获取所述多个麦克风所采集的语音信号所包括的至少一个关键字，响应于所述至少一个关键字包括目标关键字，确定所述多个麦克风的检测结果为所述多个麦克风的信号正常。

在一种可能实现方式中，所述基于所述相对差异值，确定所述多个麦克风的检测结果之后，所述方法还包括：

如果所述检测结果指示所述多个麦克风信号异常，控制所述终端关闭，向所述终端的目标关联设备发送提醒消息，所述提醒消息用于提醒所述终端的麦克风信号异常；

如果所述检测结果指示所述多个麦克风信号正常，控制所述终端继续运行。

在一种可能实现方式中，所述方法还包括：

响应于所述检测指令，启动所述终端的第一线程执行对所述多个麦克风的检测过程，得到所述多个麦克风的检测结果；

启动所述终端的第二线程对所述多个麦克风所采集的语音信号进行降噪处理；

基于所述检测结果和降噪处理后的语音信号，确定所述终端的唤醒结果，所述唤醒结果用于指示是否对所述终端的目标运行过程进行唤醒。

另一方面，提供了一种麦克风检测装置，其特征在于，所述装置包括：

第一确定模块，用于响应于终端的检测指令，确定所述终端上多个麦克风所采集的语音信号的能量值，所述检测指令用于指示检测所述多个麦克风是否存在信号异常；

第二确定模块，用于基于所述多个麦克风所采集的语音信号的能量值，确定所述多个麦克风所采集的语音信号之间的相对差异值，所述相对差异值用于表示所述多个麦克风所采集的语音信号之间的差别程度；

第三确定模块，用于基于所述相对差异值，确定所述多个麦克风的检测结果，所述检测结果用于指示所述多个麦克风是否信号异常。

在一种可能实现方式中，所述第一确定模块，用于响应于所述终端上语音接收事件所触发的检测指令，获取所述多个麦克风在目标时段内所采集的周围环境中的语音信号；根据每个麦克风的采样频率和所述目标时段的时长，确定所述多个麦克风在所述目标时段内所采集语音信号的能量值。

在一种可能实现方式中，所述第一确定模块，用于对于每个麦克风，将所述麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为所述当前帧语音数据所包括语音信号的能量值，一帧语音数据用于存储按照采样频率采集一次时间片段的语音信号；将所述目标时段内所采集的多帧语音数据对应的多个能量值之间的平均值，确定为所述目标时段内所采集语音信号的能量值。

在一种可能实现方式中，所述目标时段为距离当前时间不超过目标时长的时段；所述装置还包括：

删除模块，用于根据已存储的多个能量值所对应的多帧语音数据的采集时间，删除采集时间距离所述当前帧语音数据的采集时间超过目标时长的语音数据的能量值；

第一存储模块，用于按照所述当前帧语音数据的采集顺序，将所述当前帧语音数据的能量值存储在前一帧语音数据的能量值之后。

在一种可能实现方式中，所述目标时段为采集顺序距离当前所采集的语音数据的采集顺序不超过最大存储量的多帧语音数据对应的采集时段；所述装置还包括：

替换模块，用于当已存储的能量值的数目不小于环形队列的最大存储量时，将环形队列中采集顺序最早的一帧语音数据所包括语音信号的能量值，替换为所述当前帧语音数据所包括语音信号的能量值，每个麦克风对应一个环形队列，所述环形队列用于按照语音数据的采集顺序存储对应麦克风所采集的多帧语音数据的多个能量值；

第二存储模块，用于当已存储的能量值的数目小于环形队列的最大存储量时，按照所述当前帧语音数据的采集顺序，将所述当前帧语音数据的能量值存储在前一帧语音数据的能量值之后。

在一种可能实现方式中，所述第一确定模块，用于响应于所述终端上语音接收事件所触发的检测指令，获取所述多个麦克风在目标时段内所采集的第一语音信号，以及，获取所述终端上扬声器在目标时段内所发出的第二语音信号；

在一种可能实现方式中，所述第二确定模块，用于以下任一项：

在一种可能实现方式中，所述第三确定模块，用于响应于所述相对差异值大于目标阈值，确定所述多个麦克风的检测结果为所述多个麦克风的信号异常；响应于所述相对差异值不大于目标阈值，获取所述多个麦克风所采集的语音信号所包括的至少一个关键字，响应于所述至少一个关键字包括目标关键字，确定所述多个麦克风的检测结果为所述多个麦克风的信号正常。

在一种可能实现方式中，所述装置还包括：

控制模块，用于如果所述检测结果指示所述多个麦克风信号异常，控制所述终端关闭，向所述终端的目标关联设备发送提醒消息，所述提醒消息用于提醒所述终端的麦克风信号异常；如果所述检测结果指示所述多个麦克风信号正常，控制所述终端继续运行。

在一种可能实现方式中，所述装置还包括：

第一启动模块，用于响应于所述检测指令，启动所述终端的第一线程执行对所述多个麦克风的检测过程，得到所述多个麦克风的检测结果；

第二启动模块，用于启动所述终端的第二线程对所述多个麦克风所采集的语音信号进行降噪处理；

第四确定模块，用于基于所述检测结果和降噪处理后的语音信号，确定所述终端的唤醒结果，所述唤醒结果用于指示是否对所述终端的目标运行过程进行唤醒。

另一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述的麦克风检测方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述的麦克风检测方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：

通过确定所述终端上多个麦克风所采集的语音信号的能量值，基于该多个能量值之间的相对差异值，准确的衡量出该多个语音信号之间的相对差异程度，进一步基于所述相对差异值来确定麦克风是否信号异常，基于多个麦克风的语音信号之间的相对差异情况进行检测，避免了环境中噪音等的影响，检测过程的可靠性较高，提高了麦克风检测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种麦克风检测方法的实施环境示意图；

图2是本申请实施例提供的一种麦克风检测方法的流程图；

图3是本申请实施例提供的一种麦克风检测方法的流程图；

图4是本申请实施例提供的一种一帧语音数据的示意图；

图5是本申请实施例提供的一种麦克风检测过程的示意图；

图6是本申请实施例提供的一种多线程执行过程示意图；

图7是本申请实施例提供的一种麦克风检测装置的结构示意图；

图8是本申请实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的一种麦克风检测方法的实施环境示意图。参见图1，该实施环境包括终端101和计算机设备102。该终端101和该计算机设备102之间建立通信连接。该终端101上安装有多个麦克风，该终端101可以对该多个麦克风进行检测，以确定该多个麦克风是否存在信号异常。

在一种可能场景中，用户可以通过发出语音信号与该终端101进行人机交互，例如，用户可以说目标唤醒词来唤醒该终端101启动进入工作状态，或说一句“播放歌曲”的短句来控制终端101播放一首歌曲等。本申请实施例中，该终端101可以通过多个麦克风采集用户的语音信号，并基于多个麦克风所采集的语音信号之间的信号差异情况，来检测该多个麦克风是否信号异常。

在一个可能示例中，该计算机设备102可以为与该终端101建立通信连接的另一终端，该终端101对多个麦克风进行检测后，还可以基于与计算机设备102之间的通信连接，将该检测结果发送至该计算机设备102。该计算机设备102与该终端101之间的通信连接可以为蓝牙连接、Wi-Fi(Wireless Fidelity，无线保真)网络连接等。例如，该终端101可以为智能音箱、智能电视机、智能冰箱等安装有多个麦克风的任一终端。该计算机设备102可以为智能手机、个人计算机、笔记本电脑等，图1仅以建立通信连接的智能手机与智能音箱的实施环境为例进行示出。

在另一种可能场景中，该计算机设备102还可以为服务器，该计算机设备102与该终端101之间可以建立网络通信连接。该终端101可以基于该网络通信连接与该计算机设备之间进行信息交互，从而实现对该多个麦克风的检测过程。在一个可能示例中，该计算机设备102可以基于该网络通信连接，实时控制该终端101执行上述麦克风检测过程，或者，该终端101还可以将该多个麦克风所采集的语音信号的能量值发送至计算机设备102，由该计算机设备102基于该多个语音信号的能量值，来确定该多个麦克风的检测结果。该计算机设备102可以与一个或多个终端101之间建立网络通信连接，例如，该终端101可以为智能机器人，服务器基于所在的局域网，与同一局域网内的多个智能机器人建立网络连接。

图2是本申请实施例提供的一种麦克风检测方法的流程图。该申请实施例的执行主体为终端，例如，该终端可以为智能音箱、智能电视机等安装麦克风的任一终端。参见图2，该方法包括：

201、响应于终端的检测指令，确定该终端上多个麦克风所采集的语音信号的能量值，该检测指令用于指示检测该多个麦克风是否存在信号异常；

202、基于该多个麦克风所采集的语音信号的能量值，确定该多个麦克风所采集的语音信号之间的相对差异值，该相对差异值用于表示该多个麦克风所采集的语音信号之间的差别程度；

203、基于该相对差异值，确定该多个麦克风的检测结果，该检测结果用于指示该多个麦克风是否信号异常。

在一种可能实现方式中，该响应于终端的检测指令，确定该终端上多个麦克风所采集的语音信号的能量值包括：

响应于该终端上语音接收事件所触发的检测指令，获取该多个麦克风在目标时段内所采集的周围环境中的语音信号；

根据每个麦克风的采样频率和该目标时段的时长，确定该多个麦克风在该目标时段内所采集语音信号的能量值。

该根据每个麦克风的采样频率和该目标时段的时长，确定该多个麦克风在该目标时段内所采集语音信号的能量值包括：

对于每个麦克风，将该麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为该当前帧语音数据所包括语音信号的能量值，一帧语音数据用于存储按照采样频率采集一次时间片段的语音信号；

将该目标时段内所采集的多帧语音数据对应的多个能量值之间的平均值，确定为该目标时段内所采集语音信号的能量值。

在一种可能实现方式中，该目标时段为距离当前时间不超过目标时长的时段；该将该麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为该当前帧语音数据所包括语音信号的能量值之后，该方法还包括：

根据已存储的多个能量值所对应的多帧语音数据的采集时间，删除采集时间距离该当前帧语音数据的采集时间超过目标时长的语音数据的能量值；

按照该当前帧语音数据的采集顺序，将该当前帧语音数据的能量值存储在前一帧语音数据的能量值之后。

在一种可能实现方式中，该目标时段为采集顺序距离当前所采集的语音数据的采集顺序不超过最大存储量的多帧语音数据对应的采集时段；该将该麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为该当前帧语音数据所包括语音信号的能量值之后，该方法还包括：

当已存储的能量值的数目不小于环形队列的最大存储量时，将环形队列中采集顺序最早的一帧语音数据所包括语音信号的能量值，替换为该当前帧语音数据所包括语音信号的能量值，每个麦克风对应一个环形队列，该环形队列用于按照语音数据的采集顺序存储对应麦克风所采集的多帧语音数据的多个能量值；

当已存储的能量值的数目小于环形队列的最大存储量时，按照该当前帧语音数据的采集顺序，将该当前帧语音数据的能量值存储在前一帧语音数据的能量值之后。

在一种可能实现方式中，该语音接收事件为该终端上任一麦克风接收到任意语音信号，或者，该语音接收事件为该多个麦克风检测到周围环境中的唤醒语音信号。

在一种可能实现方式中，该响应于该终端上语音接收事件所触发的检测指令，获取该多个麦克风在目标时段内所采集的周围环境中的语音信号包括：

响应于该终端上语音接收事件所触发的检测指令，获取该多个麦克风在目标时段内所采集的第一语音信号，以及，获取该终端上扬声器在目标时段内所发出的第二语音信号；

根据该第二语音信号，对该第一语音信号进行回声消除处理，将回声消除处理后的第一语音信号确定为该周围环境中的语音信号。

在一种可能实现方式中，该基于该多个麦克风所采集的语音信号的能量值，确定该多个麦克风所采集的语音信号之间的相对差异值包括以下任一项：

确定该多个麦克风所采集的语音信号的能量值中，最大能量值与最小能量值之间的差值，将该差值与任一麦克风所采集的语音信号的能量值之间的比值确定为该相对差异值；

将该多个麦克风所采集的语音信号的能量值之间的方差确定为该相对差异值；

将该多个麦克风所采集的语音信号的能量值中，最大能量值与最小能量值之间的差值确定为该相对差异值。

在一种可能实现方式中，该基于该相对差异值，确定该多个麦克风的检测结果包括：

响应于该相对差异值大于目标阈值，确定该多个麦克风的检测结果为该多个麦克风的信号异常；

响应于该相对差异值不大于目标阈值，获取该多个麦克风所采集的语音信号所包括的至少一个关键字，响应于该至少一个关键字包括目标关键字，确定该多个麦克风的检测结果为该多个麦克风的信号正常。

在一种可能实现方式中，该基于该相对差异值，确定该多个麦克风的检测结果之后，该方法还包括：

如果该检测结果指示该多个麦克风信号异常，控制该终端关闭，向该终端的目标关联设备发送提醒消息，该提醒消息用于提醒该终端的麦克风信号异常；

如果该检测结果指示该多个麦克风信号正常，控制该终端继续运行。

在一种可能实现方式中，该方法还包括：

响应于该检测指令，启动该终端的第一线程执行对该多个麦克风的检测过程，得到该多个麦克风的检测结果；

启动该终端的第二线程对该多个麦克风所采集的语音信号进行降噪处理；

基于该检测结果和降噪处理后的语音信号，确定该终端的唤醒结果，该唤醒结果用于指示是否对该终端的目标运行过程进行唤醒。

本申请实施例中，通过确定该终端上多个麦克风所采集的语音信号的能量值，基于该多个能量值之间的相对差异值，准确的衡量出该多个语音信号之间的相对差异程度，进一步基于该相对差异值来确定麦克风是否信号异常，基于多个麦克风的语音信号之间的相对差异情况进行检测，避免了环境中噪音等的影响，检测过程的可靠性较高，提高了麦克风检测的准确性。

图3是本申请实施例提供的一种麦克风检测方法的流程图。该申请实施例的执行主体为终端，例如，该终端可以为智能音箱、智能电视机、智能机器人等安装有多个麦克风的任一终端。参见图3，该方法包括：

301、响应于终端上语音接收事件所触发的检测指令，该终端获取该多个麦克风在目标时段内所采集的周围环境中的语音信号。

该检测指令用于指示检测该多个麦克风是否存在信号异常；该终端上安装有多个麦克风，该语音接收事件是指该终端上的麦克风采集语音信号的事件；该语音信号可以为任一信号源发出的语音信号。在一个示例中，麦克风采集周围环境中用户发出的人声信号；在另一个示例中，麦克风采集周围环境中其他信号源发出的模仿人声的语音信号等，例如，当激光信号源将激光照射到某一麦克风上，以模拟人声发出的语音信号时，该麦克风可能采集到利用该激光所模拟的语音信号。本申请实施例中，该终端可以控制该多个麦克风采集周围环境中的语音信号，当终端上的多个麦克风采集到周围环境中的语音信号时，触发该终端的检测指令，该终端可以控制该多个麦克风继续采集周围环境中的语音信号，并获取每个麦克风在目标时段内所采集的语音信号。

在一种可能实施方式中，该终端可以实时采集语音信号，也可以从该终端的本地存储空间中获取已有的语音信号。该终端可以按照一定频率多次采集一定时长内的语音信号，从而得到目标时段内的语音信号。以实时采集语音信号为例，在麦克风采集语音信号过程中，该终端可以按照采样频率，获取该目标时段内的语音信号。该过程可以包括：该终端根据该采样频率，通过多次获取过程，分别获取该目标时段内多个时间片段的子语音信号。该时间片段是指每次采集的子语音信号的时长。例如，该采样频率可以为16k，该时间片段可以为16ms，也即是，该终端按照16k采样频率进行语音信号的采集，每次采集16ms的语音信号。在一个可能示例中，该终端根据该目标时段和采样频率，确定该目标时段内的多个采样点，该终端根据该多个采样点，分别获取该目标时段内多个时间片段的子语音信号。例如，该终端可以将该采样频率和该目标时段之间的乘积，确定为该目标时段内采样点的数目。例如，以计算每个时间片段包括的采样点数目为例，该采样频率可以为16k、时间片段可以为16ms，每个时间片段内对应有256个采样点。另外，该终端还可以将一个时间片段内的语音信号作为一帧语音数据进行存储。例如，如图4所示，该终端上可以安装有4个麦克风和一个扬声器，mic1、mic2、mic3、mic4分别代表4个麦克风，该ref1代表一个扬声器，如图4所示，该帧语音数据内4个麦克风采集的语音信号从左到右依次排列存储，该扬声器发出的语音信号排列在麦克风采集的语音信号之后，另外，该帧语音数据中剩余字节位置可以置0。例如，以采样频率为16k、时间片段可以为16ms为例，每帧语音数据中包括256个采样点对应的256个如图4所示的数据单元，每个数据单元对应存储一个采样点的语音信号，也即是，每个数据单元对应存储该4个麦克风在该数据单元所对应的采样点所采集的语音信号，以及1个扬声器在该数据单元所对应的采样点采样点所发出的语音信号。当然，如果该终端获取已存储的语音信号，则该终端可以按照语音数据的数据存储格式，从每帧语音数据中提取每个麦克风所采集的语音信号。该数据存储格式用于指示每个麦克风所采集的语音信号在该帧语音数据的存储位置。在一个可能示例中，该目标时段可以基于需要进行设置，例如，该目标时段可以为距离当前时间最近的3秒或1分钟，或者也可以为麦克风开始检测到语音信号之后的5秒内时段等。

在一种可能实施方式中，用户可以通过语音信号与终端进行人机交互，该终端可以通过麦克风采集用户的语音信号，例如，终端可以通过麦克风获取到用户发出的“打开音箱”、“播放音乐”等语音信号，并基于该语音信号对应的指令执行相应过程。另外，该终端还可以安装有扬声器，该终端可以通过该扬声器发出语音信号，例如，播放一首钢琴曲；则该终端还可以结合该扬声器，进一步识别出麦克风所采集的人声信号。在一个可能示例中，该终端获取多个麦克风采集的周围环境中的语音信号的过程可以包括：响应于该终端上语音接收事件所触发的检测指令，该终端获取该多个麦克风在目标时段内所采集的第一语音信号，以及，该终端获取该终端上扬声器在目标时段内所发出的第二语音信号；该终端根据该第二语音信号，对该第一语音信号进行回声消除处理，将回声消除处理后的第一语音信号确定为该周围环境中的语音信号。其中，该回声消除处理是指将第一语音信号中的第二语音信号进行消除的处理过程。该终端可以通过该回声消除处理，将终端本身所发出的第二语音信号进行消除，获取到更为准确的来自周围环境的人声信号。

需要说明的是，终端上的麦克风主要用于采集用户发出的语音信号，以更好的实现用户语音控制终端的过程。本申请实施例中，结合扬声器采集的第二语音信号，对第一语音信号进行回声消除处理，从而更为精准的获取到麦克风所能采集到的人声信号，基于麦克风采集的人声信号来检测麦克风是否存在信号异常，避免终端发出的其他声音的影响，从而能够大大提高检测的准确率。

在一些可能场景中，周围环境中可能存在激光，例如，当激光照射到某一麦克风上，该麦克风可能会采集到模拟人声信号的激光，该终端可以会误将该激光作为用户的语音信号，发生错误的人机交互过程，从而大大影响了终端与用户之间的人机交互过程的稳定性、准确性等。此时，该终端也可以通过对麦克风的检测过程，来确定麦克风是否信号异常。因此，在一个可能示例中，该语音接收事件可以为该终端上任一麦克风接收到任意语音信号。当终端上任一麦克风接收到任意语音信号时，该终端便通过本申请实施例的麦克风检测过程进行检测，避免单一麦克风被激光照射后而误唤醒终端，增加了通过激光照射破解终端与用户之间的人机交互过程，避免该终端上的语音唤醒、语音助手等功能被破解，保证终端的正常运行，提高终端的安全性和可靠性。

在另一可能场景中，用户可以通过语音唤醒终端，例如，用户发出“打开音箱”、“播放音乐”等控制智能音箱执行相关过程；此时，该终端也可以通过对麦克风的检测过程，以保证多个麦克风正常工作，终端正常运行。因此，在另一个可能示例中，该语音接收事件还可以为该多个麦克风检测到周围环境中的唤醒语音信号。该唤醒语音信号是指包含有目标关键词的目标语音信号，用于唤醒终端执行目标运行过程。例如，唤醒智能音箱启动进入工作状态，或者唤醒智能音箱播放音乐等。该目标关键词可以基于需要进行预先配置，例如，包括目标关键词可以为该终端的标识、例如事先配置的终端名称，或者，该目标关键词也可以为“开启智能音箱”、“打开电视机”等。本申请实施例对此不做具体限定。

302、该终端根据每个麦克风的采样频率和该目标时段的时长，确定该多个麦克风在该目标时段内所采集语音信号的能量值。

对于每个麦克风所采集的语音信号，该终端可以按照该麦克风的采样频率，确定该目标时段内的多个采样点，确定每个采样点的语音信号的能量值，该终端将该多个采样点的语音信号的能量值的平均值，确定为该麦克风在该目标时段内采集的语音信号的能量值。

在一个可能示例中，当该终端可以按照采样频率和时间片段采集语音信号时，该终端可以根据该采样频率和该时间片段，确定每个时间片段所包括的每个采样点的语音信号的能量值；对于每个时间片段，该终端根据该时间片段所包括的多个采样点的语音信号的能量值之间的平均值，确定为该时间片段的语音信号的能量值，得到多个时间片段的语音信号的能量值，该终端将该目标时段所包括的多个时间片段的语音信号的能量值之间的平均值，确定为该麦克风在该目标时段内采集的语音信号的能量值。

在一个可能示例中，该终端可以实时存储所采集的语音信号，例如，该终端将每个时间片段的语音信号存储至一帧语音数据，则该终端还可以基于所存储的语音数据进行能量值的确定，则该终端根据每个麦克风的采样频率和该目标时段的时长，确定该多个麦克风在该目标时段内所采集语音信号的能量值的步骤可以包括：对于每个麦克风，该终端将该麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为该当前帧语音数据所包括语音信号的能量值，一帧语音数据用于存储按照采样频率采集一次时间片段的语音信号；该终端将该目标时段内所采集的多帧语音数据对应的多个能量值之间的平均值，确定为该目标时段内所采集语音信号的能量值。

例如，以麦克风的采样频率为16k、每帧语音数据的存储通道数为8、时间片段为16ms为例，也即是，一帧语音数据对应为16ms的语音信号，如图4所示，该终端上安装的麦克风数量为4，扬声器数量为1，每帧语音数据存储有4个麦克风在16ms内采集的语音信号和1个扬声器在16ms内发出的语音信号，则对于每帧语音数据，每个麦克风的采样点数量为16×16，也即是256个采样点，该终端分别计算每个采样点的语音信号的能量值，并计算每个采样点的语音信号的能量值的绝对值，将多个采样点的语音信号的能量值的绝对值进行求和，再计算出该多个采样点的语音信号的能量值的绝对值的平均值，将该平均值作为该麦克风在16ms内采集的语音信号的能量值。例如，该目标时段可以为3.2s，该终端可以将该3.2s内按照16k采样频率所采集的多个16ms的语音信号的能量值的平均值，作为该3.2s的语音信号的能量值。

在一种可能的实施方式中，该终端可以基于该目标时段对每个麦克风采集的语音信号的能量值进行实时更新。在一个可能示例中，该目标时段为距离当前时间不超过目标时长的时段，在麦克风采集语音信号过程中，该计算机设备可以实时存储距离当前时间不超过目标时长的语音信号的能量值。例如，对于每个麦克风，该终端可以每采集一帧语音数据时，将所存储的多个能量值更新为距离当前时间不超过目标时长的语音信号的能量值，实时删除距离当前时间超过目标时长的语音信号的能量值。则该终端将该麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为该当前帧语音数据所包括语音信号的能量值之后，该终端存储该当前帧语音数据的能量值的过程可以包括：该终端根据已存储的多个能量值所对应的多帧语音数据的采集时间，删除采集时间距离该当前帧语音数据的采集时间超过目标时长的语音数据的能量值；该终端按照该当前帧语音数据的采集顺序，将该当前帧语音数据的能量值存储在前一帧语音数据的能量值之后，从而将多帧语音数据的能量值按照采集时间的先后进行存储，采集时间越早，能量值排序越靠前。

在另一个可能示例中，对于每个麦克风，该终端还可以采用环形队列的存储方式存储该麦克风采集的多帧语音信号的多个能量值，该终端可以直接按照该环形队列所对应的最大存储量进行更新，目标时段还可以为采集顺序距离当前所采集的语音数据的采集顺序不超过最大存储量的多帧语音数据对应的采集时段；该多帧语音数据对应的采集时段可以为从该多帧语音数据中第一帧语音数据的开始采集时间到最后一帧语音数据的采集结束时间之间的时长。则该终端存储当前帧语音数据的能量值的过程可以包括：当已存储的能量值的数目不小于环形队列的最大存储量时，该终端将环形队列中采集顺序最早的一帧语音数据所包括语音信号的能量值，替换为该当前帧语音数据所包括语音信号的能量值，每个麦克风对应一个环形队列，该环形队列用于按照语音数据的采集顺序存储对应麦克风所采集的多帧语音数据的多个能量值；当已存储的能量值的数目小于环形队列的最大存储量时，该终端按照该当前帧语音数据的采集顺序，将该当前帧语音数据的能量值存储在前一帧语音数据的能量值之后。需要说明的是，该环形队列的最大存储量可以基于需要进行设置，例如，该最大存储量可以为200，则终端可以存储最新采集的200帧语音数据的能量值。通过环形队列的存储方式，当存储的能量值的个数达到环形队列的最大存储量时，每采集一帧语音数据，该终端删除采集顺序最早，也即是采集时间距当前时间最远的一帧语音数据的能量值，从而保证该终端能够对实时更新的能量值进行准确存储。

在一个可能示例中，该终端还可以基于最新存储的一帧语音数据的能量值，更新目标时段内语音信号的能量值，则该终端存储当前帧语音数据的能量值之后，该终端确定当前所存储的多帧语音数据的多个能量值之间的平均值，该终端将该目标时段内采集的语音信号的能量值更新为该确定为当前所存储的多帧语音数据的多个能量值之间的平均值。例如，该终端可以根据上述方式，实时更新距离当前时间最近的3.2s内的语音信号的能量值，或者，实时更新最新存储的200帧语音数据对应的采集时段的能量值。

如图5所示，该终端可以配置有异常检测模块，通过该异常检测模块实现本申请的麦克风检测过程。图5中举例示出该异常检测模块所执行的麦克风检测过程。以该终端可以通过环形队列方式存储最近的200帧语音数据中每帧语音数据对应的能量值为例，如图5所示，对于每个麦克风，每当采集一帧语音数据时，该终端确定该帧语音数据中，该麦克风所采集语音信号的能量值，从而得到4个麦克风当前采集的语音信号的能量值。对于每个麦克风，该终端再基于环形队列的存储方式，存储每个麦克风200帧语音数据对应的能量值，基于该200帧语音数据对应的能量值，从而计算出该麦克风在该200帧语音数据对应的采集时段内采集的语音信号的能量值。例如，终端在距离当前时间最近的3.2s内采集了共200帧的语音数据，则该终端可以基于该200帧语音数据对应的能量值，计算得到最近3.2s内语音信号的能量值。

需要说明的是，上述步骤301-302实际上是步骤“响应于终端的检测指令，确定该终端上多个麦克风所采集的语音信号的能量值”的一种具体实现方式，上述实现方式实际上是先获取目标时段的语音信号，再根据语音信号的采样频率、目标时段的时长来计算该目标时段内语音信号的能量值。在另一种可能示例中，该终端还可以实时计算采集的语音信号的能量值。或者，该终端还可以在未接收到检测指令时，也可以实时计算麦克风所采集语音信号的能量值并存储，则该终端还可以响应于该检测指令，直接从该终端的本地存储空间中获取已存储的语音信号的能量值。

303、该终端基于该多个麦克风所采集的语音信号的能量值，确定该多个麦克风所采集的语音信号之间的相对差异值。

该相对差异值用于表示该多个麦克风所采集的语音信号之间的差别程度。本申请实施例中，该终端可以采用两个能量值之间比值、多个能量值之间的方差或者能量值之间的差值等形式，来表示该相对差异值，相应的，本步骤可以包括以下三种实现方式。

第一种方式、该终端确定该多个麦克风所采集的语音信号的能量值中，最大能量值与最小能量值之间的差值，将该差值与任一麦克风所采集的语音信号的能量值之间的比值确定为该相对差异值。

该终端可以采用相对比值来衡量该多个语音信号之间的相对差异。在一种可能示例中，每个麦克风对应一个能量值，该终端可以计算出该多个能量值中最大能量值与最小能量值之间的差值，该终端可以将该差值与该最大能量值之间的比值，作为相对差异值。例如，该终端计算出4个麦克风对应的4个能量值中最大值与最小值的差值，再计算该差值与该最大值之间的比值λ，该比值λ的取值范围为：0<λ<1。

第二种方式、该终端将该多个麦克风所采集的语音信号的能量值之间的方差确定为该相对差异值。

该终端也可以采用方差来衡量该多个语音信号之间的差异波动情况，例如，该终端可以基于方差公式，直接计算该4个能量值之间的方差作为该4个麦克风所采集语音信号的相对差异值。

第三种方式、该终端将该多个麦克风所采集的语音信号的能量值中，最大能量值与最小能量值之间的差值确定为该相对差异值。

该终端也可以直接采用差值表示多个能量值之间的差异。

在一种可能示例中，该终端还可以结合上述三种方式中任两种或三种，来确定该相对差异值，例如，该终端可以采用第一种方式确定出该比值，采用第二种方式确定出方差，根据该比值和该方差，确定出该相对差异值，例如，终端计算比值与第一权重的第一乘积，终端计算方差与第二权重的第二乘积，将第一乘积与第二乘积之和，确定为该相对差异值。

在一种可能示例中，对于每个麦克风所采集的语音信号，该终端还可以根据该麦克风在多个目标时段内的语音信号的能量值，确定该多个目标时段内语音信号的能量值的均值，从而得到该麦克风的能量值的均值，将多个麦克风对应的多个均值，来确定该相对差异值。例如，如图5所示，该终端分别确定每个麦克风最近200帧语音数据的能量值的均值，基于该均值计算该相对差异值，从而判断该麦克风是否信号异常。

需要说明的是，该终端可以通过确定该多个能量值之间的相对差异值，从而表示出多个语音信号之间的相对差距程度，从而进一步衡量每个麦克风相对于其他麦克风的是否有信号差异，另外，该终端还可以采用比值、方差或者差值等多种形式或多种形式的结合，来表示该相对差异值，从而更进一步的提高该多个语音信号之间相对差距值的准确性，更加精准的衡量出该多个麦克风所采集语音信号之间的相对差异。

304、该终端基于该相对差异值，确定该多个麦克风的检测结果。

该检测结果用于指示该多个麦克风是否信号异常，响应于该相对差异值大于目标阈值，该终端确定该多个麦克风的检测结果为该多个麦克风的信号异常；例如，麦克风发生故障，或者某一麦克风被激光照射等。响应于该相对差异值不大于目标阈值，该终端确定该多个麦克风的检测结果为该多个麦克风的信号正常。

在一个可能示例中，该终端还可以通过该语音信号是否包括唤醒词，进一步检测麦克风信号是否正常，该过程可以包括：响应于该相对差异值不大于目标阈值，该终端获取该多个麦克风所采集的语音信号所包括的至少一个关键字，响应于该至少一个关键字包括目标关键字，确定该多个麦克风的检测结果为该多个麦克风的信号正常；响应于该至少一个关键字不包括目标关键字，确定该多个麦克风的检测结果为该多个麦克风的信号异常。该目标关键字可以基于需要进行设置，例如，该目标关键词可以包括：“打开”、“播放”等，本申请实施例对此不做具体限定。

当该终端确定该多个麦克风的检测结果为该多个麦克风的信号正常时，该终端还可以继续运行目标运行过程。在一个可能场景中，该终端可以在被唤醒时对麦克风进行检测，则该目标关键字可以包括用于唤醒终端的关键字，该目标运行过程可以为唤醒终端的过程。相应的，响应于该至少一个关键字包括目标关键字，该终端确定该多个麦克风的检测结果为该多个麦克风的信号正常之后，该终端还可以对自身进行唤醒。例如，该终端可以为智能音箱，当该语音信号的至少一个关键字包括“打开音箱”时，该音箱可以从睡眠状态进入工作状态，后续该音箱还可以基于用户的“播放xx歌曲”等语音指令，为用户播放对应歌曲。

在另一个可能场景中，在终端已被开启之后的正常运行过程中，当检测到任意的语音信号时，该终端也可以对该多个麦克风进行检测，该目标运行过程可以为该语音信号所包括的至少一个关键字对应的运行过程。该过程可以包括：在该终端正常运行过程中，当该终端接收到任一语音信号时，该终端基于上述步骤301-304的过程，对该多个麦克风进行检测。当终端确定该多个麦克风的检测结果为该多个麦克风的信号正常时，该终端可以获取该语音信号所包括的至少一个关键字，执行该至少一个关键字对应的目标运行过程。例如，当该至少一个关键字包括“播放xx歌曲”时，该终端可以运行对xx歌曲的搜索并播放的过程。

在另一个可能场景中，在该终端正常运行的过程中，该终端也可以随时基于需要触发对麦克风实时检测过程。在一个可能示例中，用户可以预先配置在目标运行过程之前对麦克风的检测流程。该终端可以基于目标运行过程来触发检测麦克风，上述步骤301可以被替换为：响应于终端上的目标运行过程所触发的检测指令，该终端控制该多个麦克风开始采集周围环境中的语音信号，直至采集到目标时段的语音信号时停止采集。相应的，该终端基于上述步骤302-304的过程，对该多个麦克风进行检测。当终端确定该多个麦克风的检测结果为该多个麦克风的信号正常时，该终端运行该目标运行过程，当终端确定该多个麦克风的检测结果为该多个麦克风的信号异常时，该终端不运行该目标运行过程。该目标运行过程可以为该基于需要设置的任一过程，例如，该目标运行过程可以为30分钟之后关闭音箱的过程、双语翻译的过程、与该终端上的智能机器人聊天的过程等。

在另一个可能场景中，该终端还可以随时基于该终端的麦克风配置信息进行麦克风检测，该麦克风配置信息包括用于触发麦克风检测过程的触发条件，例如，该触发条件可以包括但不限于：该终端运行30分钟之后、每隔目标检测周期检测一次等。则该终端还可以实时获取该终端的运行状态，当该终端的运行状态符合该触发条件时，该终端控制该多个麦克风开始采集周围环境中的语音信号，直至采集到目标时段的语音信号时停止采集，并基于上述步骤302-304的过程，对该多个麦克风进行检测。则该目标运行过程可以为该终端的运行状态符合该触发条件时，该终端正在运行的过程，另外，该终端也可以同步执行该目标运行过程和对麦克风的检测过程，当终端确定该多个麦克风的检测结果为该多个麦克风的信号异常时，该终端不运行该目标运行过程；否则，该终端继续运行该目标运行过程。

需要说明的是，该终端可以通过唤醒模块检测多个麦克风所采集的语音信号是否包括目标关键字。通过终端通过基于麦克风的语音信号的能量值之间的相对差异值，对麦克风采集的语音信号进行的物理特性的检测，并且，在该麦克风通过了基于语音信号物理特性的检测时，该终端还可以将语音信号送入唤醒模块进行唤醒，以基于语音信号是否包括目标关键字，进一步检测麦克风是否信号异常，如果不能唤醒，也即是，不包括目标关键字，则麦克风信号可能被损坏，无法识别唤醒词，从而大大提高了麦克风检测的准确性。

在一个可能示例中，该终端可以采用状态值的形式表示并存储该检测结果，例如，该终端可以配置麦克风状态值，并实时基于检测结果更新该麦克风状态值，当该检测结果为该多个麦克风的信号异常时，该终端将麦克风状态值置为异常值，例如，置为0，当该检测结果为该多个麦克风的信号正常时，该终端将麦克风状态值置为正常值，例如，置为1。

在一种可能实施方式中，该终端确定该多个麦克风的检测结果之后，该终端还可以基于该检测结果执行该终端的后续过程。该过程可以包括：如果该检测结果指示该多个麦克风信号异常，该终端控制该终端关闭，该终端向该终端的目标关联设备发送提醒消息，该提醒消息用于提醒该终端的麦克风信号异常；如果该检测结果指示该多个麦克风信号正常，该终端控制该终端继续运行。其中，该目标关联设备可以为与该终端建立通信连接设备，例如，与该终端基于同一家庭网络建立网络连接的手机，或者与该终端建立蓝牙连接的手机、笔记本电脑等。

在一种可能实施方式中，该终端还可以通过多个线程，同时执行对麦克风的检测过程和对语音的降噪过程，从而提高终端的处理效率。该过程可以包括：响应于该检测指令，该终端启动该终端的第一线程执行对该多个麦克风的检测过程，得到该多个麦克风的检测结果；该终端启动该终端的第二线程对该多个麦克风所采集的语音信号进行降噪处理；该终端基于该检测结果和降噪处理后的语音信号，确定该终端的唤醒结果，该唤醒结果用于指示是否对该终端的目标运行过程进行唤醒。该异常检测模块可以位于第一线程，该降噪模块可以位于第二线程。该异常检测模块和该降噪模块之间通过该两个线程并行处理麦克风的检测过程和降噪处理过程。如图6所示，该异常检测模块和降噪模块可以分别处于不同的线程，该终端基于多个麦克风采集到原始的语音数据，采用多线程并行处理的方式，同步执行为异常检测模块所在线程执行对麦克风的检测过程，以及降噪模块所在线程执行对原始的语音数据的降噪处理过程，再将该检测结果和降噪处理后的语音数据发送至唤醒模块，由该唤醒模块基于该检测结果来判断是否唤醒该终端，执行该终端的后续过程，从而采取多线程的设计方案，将模块之间分离开来，提高了CPU(Central Processing Unit，中央处理器)的处理效率，在不影响用户体验的情况下，提升了设备的稳定性安全性。

本申请实施例提供的方法，通过确定该终端上多个麦克风所采集的语音信号的能量值，基于该多个能量值之间的相对差异值，准确的衡量出该多个语音信号之间的相对差异程度，进一步基于该相对差异值来确定麦克风是否信号异常，基于多个麦克风的语音信号之间的相对差异情况进行检测，避免了环境中噪音等的影响，检测过程的可靠性较高，提高了麦克风检测的准确性。

图7是本申请实施例提供的一种麦克风检测装置的结构示意图。参见图7，该装置包括：

第一确定模块701，用于响应于终端的检测指令，确定该终端上多个麦克风所采集的语音信号的能量值，该检测指令用于指示检测该多个麦克风是否存在信号异常；

第二确定模块702，用于基于该多个麦克风所采集的语音信号的能量值，确定该多个麦克风所采集的语音信号之间的相对差异值，该相对差异值用于表示该多个麦克风所采集的语音信号之间的差别程度；

第三确定模块703，用于基于该相对差异值，确定该多个麦克风的检测结果，该检测结果用于指示该多个麦克风是否信号异常。

在一种可能实现方式中，该第一确定模块701，用于响应于该终端上语音接收事件所触发的检测指令，获取该多个麦克风在目标时段内所采集的周围环境中的语音信号；根据每个麦克风的采样频率和该目标时段的时长，确定该多个麦克风在该目标时段内所采集语音信号的能量值。

在一种可能实现方式中，该第一确定模块701，用于对于每个麦克风，将该麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为该当前帧语音数据所包括语音信号的能量值，一帧语音数据用于存储按照采样频率采集一次时间片段的语音信号；将该目标时段内所采集的多帧语音数据对应的多个能量值之间的平均值，确定为该目标时段内所采集语音信号的能量值。

在一种可能实现方式中，该目标时段为距离当前时间不超过目标时长的时段；该装置还包括：

删除模块，用于根据已存储的多个能量值所对应的多帧语音数据的采集时间，删除采集时间距离该当前帧语音数据的采集时间超过目标时长的语音数据的能量值；

第一存储模块，用于按照该当前帧语音数据的采集顺序，将该当前帧语音数据的能量值存储在前一帧语音数据的能量值之后。

在一种可能实现方式中，该目标时段为采集顺序距离当前所采集的语音数据的采集顺序不超过最大存储量的多帧语音数据对应的采集时段；该装置还包括：

替换模块，用于当已存储的能量值的数目不小于环形队列的最大存储量时，将环形队列中采集顺序最早的一帧语音数据所包括语音信号的能量值，替换为该当前帧语音数据所包括语音信号的能量值，每个麦克风对应一个环形队列，该环形队列用于按照语音数据的采集顺序存储对应麦克风所采集的多帧语音数据的多个能量值；

第二存储模块，用于当已存储的能量值的数目小于环形队列的最大存储量时，按照该当前帧语音数据的采集顺序，将该当前帧语音数据的能量值存储在前一帧语音数据的能量值之后。

在一种可能实现方式中，该第一确定模块，用于响应于该终端上语音接收事件所触发的检测指令，获取该多个麦克风在目标时段内所采集的第一语音信号，以及，获取该终端上扬声器在目标时段内所发出的第二语音信号；

在一种可能实现方式中，该第二确定模块，用于以下任一项：

在一种可能实现方式中，该第三确定模块703，用于响应于该相对差异值大于目标阈值，确定该多个麦克风的检测结果为该多个麦克风的信号异常；响应于该相对差异值不大于目标阈值，获取该多个麦克风所采集的语音信号所包括的至少一个关键字，响应于该至少一个关键字包括目标关键字，确定该多个麦克风的检测结果为该多个麦克风的信号正常。

在一种可能实现方式中，该装置还包括：

控制模块，用于如果该检测结果指示该多个麦克风信号异常，控制该终端关闭，向该终端的目标关联设备发送提醒消息，该提醒消息用于提醒该终端的麦克风信号异常；如果该检测结果指示该多个麦克风信号正常，控制该终端继续运行。

在一种可能实现方式中，该装置还包括：

第一启动模块，用于响应于该检测指令，启动该终端的第一线程执行对该多个麦克风的检测过程，得到该多个麦克风的检测结果；

第二启动模块，用于启动该终端的第二线程对该多个麦克风所采集的语音信号进行降噪处理；

第四确定模块，用于基于该检测结果和降噪处理后的语音信号，确定该终端的唤醒结果，该唤醒结果用于指示是否对该终端的目标运行过程进行唤醒。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的麦克风检测装置在麦克风检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的麦克风检测装置与麦克风检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本申请实施例提供的一种终端的结构示意图。该终端800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的麦克风检测方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种存储有至少一条程序代码的计算机可读存储介质，例如存储有至少一条程序代码的存储器，上述至少一条程序代码由处理器加载并执行，以实现上述实施例中的麦克风检测方法。例如，该计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种麦克风检测方法，其特征在于，所述方法包括：

响应于终端上语音接收事件所触发的检测指令，获取多个麦克风在目标时段内所采集的第一语音信号，以及，获取所述终端上扬声器在所述目标时段内所发出的第二语音信号；

根据所述第二语音信号，对所述第一语音信号进行回声消除处理，将回声消除处理后的第一语音信号确定为周围环境中的语音信号，根据每个麦克风的采样频率和所述目标时段的时长，确定所述多个麦克风在所述目标时段内所采集语音信号的能量值，所述检测指令用于指示检测所述多个麦克风是否存在信号异常，所述回声消除处理用于消除所述第二语音信号；

确定所述多个麦克风所采集的语音信号的能量值中，最大能量值与最小能量值之间的差值，将所述差值与任一麦克风所采集的语音信号的能量值之间的比值确定为相对差异值；或，

将所述多个麦克风所采集的语音信号的能量值之间的方差确定为所述相对差异值；或，

将所述多个麦克风所采集的语音信号的能量值中，最大能量值与最小能量值之间的差值确定为所述相对差异值，所述相对差异值用于表示所述多个麦克风所采集的语音信号之间的差别程度；

2.根据权利要求1所述的方法，其特征在于，所述根据每个麦克风的采样频率和所述目标时段的时长，确定所述多个麦克风在所述目标时段内所采集语音信号的能量值包括：

对于每个麦克风，将所述麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为所述当前帧语音数据所包括语音信号的能量值，一帧语音数据用于存储按照所述采样频率采集一次时间片段的语音信号；

3.根据权利要求2所述的方法，其特征在于，所述目标时段为距离当前时间不超过目标时长的时段；所述将所述麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为所述当前帧语音数据所包括语音信号的能量值之后，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述目标时段为采集顺序距离当前所采集的语音数据的采集顺序不超过最大存储量的多帧语音数据对应的采集时段；所述将所述麦克风当前所采集的当前帧语音数据内多个采样点的语音信号的能量值之间的平均值，确定为所述当前帧语音数据所包括语音信号的能量值之后，所述方法还包括：

当已存储的能量值的数目不小于环形队列的最大存储量时，将所述环形队列中采集顺序最早的一帧语音数据所包括语音信号的能量值，替换为所述当前帧语音数据所包括语音信号的能量值，每个麦克风对应一个环形队列，所述环形队列用于按照语音数据的采集顺序存储对应麦克风所采集的多帧语音数据的多个能量值；

当已存储的能量值的数目小于所述环形队列的最大存储量时，按照所述当前帧语音数据的采集顺序，将所述当前帧语音数据的能量值存储在前一帧语音数据的能量值之后。

5.根据权利要求1所述的方法，其特征在于，所述语音接收事件为所述终端上任一麦克风接收到任意语音信号，或者，所述语音接收事件为所述多个麦克风检测到周围环境中的唤醒语音信号。

6.根据权利要求1所述的方法，其特征在于，所述基于所述相对差异值，确定所述多个麦克风的检测结果包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述相对差异值，确定所述多个麦克风的检测结果之后，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种麦克风检测装置，其特征在于，所述装置包括多个功能模块，所述多个功能模块用于执行如权利要求1至权利要求8任一项所述的麦克风检测方法。

10.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求8任一项所述的麦克风检测方法所执行的操作。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的麦克风检测方法所执行的操作。