CN107767880B

CN107767880B - 一种语音检测方法、摄像机和智能家居看护系统

Info

Publication number: CN107767880B
Application number: CN201610671146.8A
Authority: CN
Inventors: 苏辉; 栾国良; 金升阳; 蒋海青
Original assignee: Hangzhou Ezviz Network Co Ltd
Current assignee: Hangzhou fluorite Network Co.,Ltd.
Priority date: 2016-08-16
Filing date: 2016-08-16
Publication date: 2021-04-16
Anticipated expiration: 2036-08-16
Also published as: CN107767880A

Abstract

本发明实施例提供了一种语音检测方法、摄像机和智能家居看护系统，语音检测方法包括：获得目标音频信息，其中，所述目标音频信息为通过视频监控设备自带的音频传感器所采集的音频信息；对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征；判断所述目标音频信息所对应的所述音频特征是否满足预设婴幼儿啼哭条件；当判断结果为是时，输出提示消息，所述提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容。应用本发明实施例，利用家庭中所具有的设备，对婴幼儿啼哭进行检测以及向监护人发出提示，不增加较多的家庭消费成本。

Description

一种语音检测方法、摄像机和智能家居看护系统

技术领域

本发明涉及智能检测技术领域，特别是涉及一种语音检测方法、摄像机和智能家居看护系统。

背景技术

当家庭中有婴幼儿时，监护人常常会由于某种原因不在婴幼儿旁边，如果此时婴幼儿啼哭，监护人极有可能无法及时听到婴幼儿的啼哭声。而为了保证监护人能够在婴幼儿啼哭时及时采取措施，监护人存在获知婴幼儿是否发生啼哭的需求。从家庭消费成本的角度考虑，人们迫切希望在不增加较多成本的前提下，使得获知婴幼儿是否发生啼哭的需求得到满足。

而随着生活水平的提高，普通家庭中常设置有视频监控设备和移动终端等设备，其中，移动终端包括但不局限于智能手机或电脑等智能设备。因此，如何利用家庭中所具有的设备，来对婴幼儿啼哭进行检测以及向监护人发出提示，以不增加较多的家庭消费成本，是一个亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种语音检测方法、摄像机和智能家居看护系统，以利用家庭中常配备的摄像头和台式电脑等智能设备实现对婴幼儿哭声的检测，并向监护人进行提示。具体技术方案如下：

第一方面，本发明实施例提供了一种语音检测方法，所述方法可以包括：

获得目标音频信息，其中，所述目标音频信息为通过视频监控设备自带的音频传感器所采集的音频信息；

对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征；

判断所述目标音频信息所对应的所述音频特征是否满足预设婴幼儿啼哭条件；

当判断结果为是时，输出提示消息，所述提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容。

可选地，所述输出提示消息，包括：

通过移动终端输出提示消息。

可选地，在所述对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征之前，所述方法还包括：

判断所述目标音频信息是否属于人声，若是，执行对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征的步骤。

可选地，所述判断所述目标音频信息是否属于人声，包括：

基于预设的平均背景噪音计算公式，计算所述目标音频信息的平均背景噪音；

基于预设的比率值计算公式，计算所述目标音频信息中大于第一阈值的语音点数占所有语音点总数的比率值，其中，所述第一阈值不小于所述平均背景噪音；

判断所述比率值是否大于预设第二阈值，若是，确定所述目标音频信息属于人声，若否，确定所述目标音频信息不属于人声；

可选地，所述预设的平均背景噪音计算公式为：

其中，所述N为所述目标音频信息中所包含的语音点总数，a^k为第k个语音点的声音幅度，Model_Avg为所述目标音频信息的平均背景噪音。

其中，所述预设的比率值计算公式为：

其中，所述N为所述目标音频信息中所包含的语音点总数，a^k为第k个语音点的声音幅度，所述T1为所述第一阈值，所述count为所述目标音频信息中大于所述第一阈值的语音点数，所述Percentage为所述目标音频信息中大于第一阈值的语音点数占所有语音点总数的比率值。

可选地，所述对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征，包括：

对所述目标音频信息进行频谱分析，得到所述目标音频信息的频率分布；

相应地，所述判断所述目标音频信息所对应的所述音频特征是否满足预设婴幼儿啼哭条件，包括：

判断所述频率分布是否窄于预设第三阈值，如果是，表明满足预设婴幼儿啼哭条件，并执行所述输出提示消息的步骤。

可选地，输出提示消息，包括：

获得所述视频监控设备采集到的与所述目标音频信息相对应的目标帧画面；

判断所述目标帧画面是否满足预设的婴幼儿哭闹条件，如果是，输出用于提示当前发生婴幼儿啼哭事件的提示内容和所述目标帧画面，如果否，输出用于提示当前发生婴幼儿啼哭事件的提示内容。

可选地，判断所述目标帧画面是否满足预设的婴幼儿哭闹条件，包括：

判断所述目标帧画面与预设帧画面对应位置的像素差值绝对值之和是否大于预设第四阈值，若是，表明满足预设的婴幼儿哭闹条件。

可选地，计算所述目标帧画面与预设帧画面对应位置的像素差值绝对值之和的公式为：

其中，所述x(j,i,t₀)为t₀时间点的一帧画面，所述x(j,i,t₁)为t₁时间点的一帧画面，其中，所述x(j,i,t₀)和所述x(j,i,t₁)两帧画面中至少有一帧画面为目标帧画面，且另一帧为预设帧画面，所述j为画面中的水平坐标，所述i为画面中的垂直坐标，所述MM为画面的图像高度，所述NN为画面的图像宽度，所述Threshold为所述目标帧画面与预设帧画面对应位置的像素差值绝对值之和。

第二方面，本发明实施例提供了一种摄像机，所述摄像机包括：

音频传感器、处理器和网络模块，所述处理器分别与所述音频传感器和所述网络模块相连接；其中，

所述音频传感器，用于采集目标音频信息；

所述处理器，用于获得所述音频传感器所采集的目标音频信息，对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征；判断所述目标音频信息所对应的所述音频特征是否满足预设婴幼儿啼哭条件；当判断结果为是时，通过所述网络模块输出提示消息，所述提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容；

所述网络模块，用于输出所述提示消息。

可选地，所述处理器包括：

第一获取单元，用于获得目标音频信息，其中，所述目标音频信息为通过摄像机自带的音频传感器所采集的音频信息；

第二获取单元，用于对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征；

第一判断单元，用于判断所述目标音频信息所对应的所述音频特征是否满足预设婴幼儿啼哭条件；

输出单元，用于当判断结果为是时，通过所述网络模块输出提示消息，所述提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容。

可选地，所述网络模块具体用于发送所述提示消息至移动终端，以通过所述移动终端输出所述提示消息。

可选地，所述处理器还包括：

第二判断单元，用于在利用所述第二获取单元对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征之前，判断所述目标音频信息是否属于人声，若是，触发所述第二获取单元。

可选地，所述第二判断单元包括：

平均噪音计算子单元，用于基于预设的平均背景噪音计算公式，计算所述目标音频信息的平均背景噪音；

比率值计算子单元，用于基于预设的比率值计算公式，计算所述目标音频信息中大于第一阈值的语音点数占所有语音点总数的比率值，其中，所述第一阈值不小于所述平均背景噪音；

比率值判断子单元，用于判断所述比率值是否大于预设第二阈值，若是，确定所述目标音频信息属于人声，若否，确定所述目标音频信息不属于人声。

可选地，所述平均噪音计算子单元所利用的所述预设的平均背景噪音计算公式为：

其中，所述N为所述目标音频信息中所包含的语音点总数，a^k为第k个语音点的声音幅度，Model_Avg为所述目标音频信息的平均背景噪音；

其中，所述预设的比率值计算公式为：

可选地，所述第二获取单元包括：

频率分布获得子单元，用于对所述目标音频信息进行频谱分析，得到所述目标音频信息的频率分布；

相应地，所述第一判断单元，包括：

频率分布处理子单元，用于判断所述频率分布是否窄于预设第三阈值，如果是，表明满足预设婴幼儿啼哭条件。

可选地，所述摄像机还包括：图像采集模块，所述处理器与所述图像采集模块相连接；

所述图像采集模块，用于采集视频数据；

所述输出单元包括：

帧画面获得子单元，用于获得所述图像采集模块所采集的、与所述目标音频信息相对应的目标帧画面；

帧画面判断子单元，用于判断所述目标帧画面是否满足预设的婴幼儿哭闹条件，如果是，触发第一输出子单元，否则，触发第二输出子单元；

所述第一输出子单元，用于通过所述网络模块输出用于提示当前发生婴幼儿啼哭事件的提示内容和所述目标帧画面；

所述第二输出子单元，用于通过所述网络模块输出用于提示当前发生婴幼儿啼哭事件的提示内容。

可选地，所述帧画面判断子单元具体用于判断所述目标帧画面与预设帧画面对应位置的像素差值绝对值之和是否大于预设第四阈值，若是，表明满足预设的婴幼儿哭闹条件。

可选地，所述帧画面判断子单元计算所述目标帧画面与预设帧画面对应位置的像素差值绝对值之和的公式为：

第三方面，本发明实施例还提供了一种智能家居看护系统，所述智能家居看护系统包括：

摄像机、网关设备和移动终端，所述网关设备通过网络连接所述摄像机和所述移动终端；其中，

所述摄像机，用于获得自身的音频传感器所采集的目标音频信息；对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征；判断所述目标音频信息所对应的所述音频特征是否满足预设婴幼儿啼哭条件；当判断结果为是时，通过所述网关设备向移动终端发送提示消息，所述提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容；

所述网关设备，用于在接收到所述提示消息后，将所述提示消息转发至所述移动终端；

所述移动终端，用于在接收到所述网关设备发送的提示消息后，输出所述提示消息。

可选地，所述摄像机还用于在对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征之前，判断所述目标音频信息是否属于人声，若是，执行所述对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征的步骤。

可选地，所述摄像机具体用于：

基于预设的平均背景噪音计算公式，计算所述目标音频信息的平均背景噪音；基于预设的比率值计算公式，计算所述目标音频信息中大于第一阈值的语音点数占所有语音点总数的比率值，其中，所述第一阈值不小于所述平均背景噪音；判断所述比率值是否大于预设第二阈值，若是，确定所述目标音频信息属于人声，若否，确定所述目标音频信息不属于人声。

可选地，所述预设的平均背景噪音计算公式为：

其中，所述预设的比率值计算公式为：

可选地，所述摄像机具体用于对所述目标音频信息进行频谱分析，得到所述目标音频信息的频率分布；并且，判断所述频率分布是否窄于预设第三阈值，如果是，表明满足预设婴幼儿啼哭条件。

可选地，所述摄像机具体用于：

获得所述自身的图像采集模块采集到的与所述目标音频信息相对应的目标帧画面；

可选地，所述摄像机具体用于：判断所述目标帧画面与预设帧画面对应位置的像素差值绝对值之和是否大于预设第四阈值，若是，表明满足预设的婴幼儿哭闹条件。

可选地，所述摄像机计算所述目标帧画面与预设帧画面对应位置的像素差值绝对值之和的公式为：

本发明实施例中，获得通过视频监控设备自带的音频传感器采集的目标音频信息，并对该目标音频信息进行分析，获得该目标音频信息所对应的音频特征；判断该目标音频信息所对应的该音频特征是否满足预设婴幼儿啼哭条件；当判断结果为是时，输出提示消息，该提示消息至少用于提示当前发生婴幼儿啼哭事件。可见，本方案中，无需专门的婴幼儿啼哭检测设备，便可以实现婴幼儿啼哭检测以及提示，达到了利用家庭中所具有的设备，来对婴幼儿啼哭进行检测以及向监护人发出提示，以不增加较多的家庭消费成本的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音检测方法流程图；

图2为本发明实施例提供的另一种语音检测方法流程图；

图3为本发明实施例提供的又一种语音检测方法流程图；

图4为本发明实施例提供的一种摄像机的结构示意图；

图5为本发明实施例提供的一种智能家居看护系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术问题，本发明实施例提供了一种语音检测方法、摄像机和智能家居看护系统。

下面首先对本发明实施例提供的语音检测方法进行介绍。

需要说明的是，该语音检测方法的执行主体可为语音检测系统，其中，该语音检测系统可以为设置于视频监控设备或移动终端中的专门软件，也可以为设置于视频监控设备或移动终端中的现有软件的功能插件，其中，该移动终端为与视频监控设备相通信的设备。其中，该视频监控设备可以是摄像头，该移动终端可以是电脑、智能电视和智能手机等智能设备，当然并不局限于此。

如图1所示，本发明实施例提供的语音检测方法，可以包括如下步骤：

S101：获得目标音频信息，其中，该目标音频信息为通过视频监控设备自带的音频传感器所采集的音频信息；

其中，视频监控设备可在用户预设的时间段内，或者按照预设获取频率，通过自带的音频传感器采集目标音频信息，相应的，该语音检测系统可以获得该目标音频信息，具体的，可以定时获得，或者，按照预设频率获得。例如：在17:00-19:00时间段，一般是用户做晚饭的时间段，此时基本感觉不到客厅或者房间内发生的情况，可在此时间段内开启语音检测，并利用家用视频监控设备自带的音频传感器采集该时间段内客厅或者房间内所发出的声音。当然并不局限于此。

S102：对该目标音频信息进行分析，获得该目标音频信息所对应的音频特征；

其中，在该视频监控设备自带的音频传感器采集到目标音频信息后，为了判断该目标音频信息是否为婴幼儿的啼哭声，该语音检测系统可以对该目标音频信息进行分析，获得该目标音频信息所对应的音频特征，进而利用该音频特征执行后续的处理。

S103：判断该目标音频信息所对应的该音频特征是否满足预设婴幼儿啼哭条件，如果判断结果为是，执行S104；

其中，在分析得到目标音频信息对应的音频特征后，可以判断分析得到的音频特征是否满足预设的婴幼儿啼哭条件，并根据不同的判断结果执行不同的动作，其中，预设婴幼儿啼哭条件与所提取的音频特征具有对应性，也就是说，预设婴幼儿啼哭条件为基于所提取的音频特征的特征类型设定的条件，以保证判断动作的合理性和可行性。具体的，当判断结果为是时，表明所采集的目标音频信息是婴幼儿啼哭声，此时，可以执行S104，以提示相关人员；而当判断结果为否时，表明所采集的目标音频信息不是婴幼儿啼哭声，此时可以不作处理。

S104：输出提示消息，该提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容。

其中，当判断分析得到的音频特征满足预设的婴幼儿啼哭条件时，为了提示用户，可以输出提示消息，该提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容。

具体的，对于语音检测系统设置于视频监控设备的情况，所述输出提示消息具体可以为：发出蜂鸣声或预设语音提示消息(例如：宝宝哭啦)，以提示用户婴幼儿啼哭；当然，该视频监控设备也可以给移动终端(例如手机)发送提示婴幼儿啼哭的信息，其中，该移动终端可以在视频监控设备中预先注册过。

具体的，对于语音检测系统设置于移动终端的情况，所述输出提示消息具体可以为：输出预设语音提示消息(例如：宝宝哭啦)；当然，该移动终端(如电脑)也可以给另一终端(如手机)发送提示婴幼儿啼哭的信息，其中，该终端(如手机)可以在视频监控设备中预先注册过。

需要强调的是，无论语音检测系统设置于移动终端还是设置于视频监控设备，均可以通过移动终端输出提示消息。

作为本发明的一种实施例，为了避免分析资源的浪费，如图2所示，在执行步骤S102：该对该目标音频信息进行分析，获得该目标音频信息所对应的音频特征之前，该方法还可以包括：

步骤S105：判断该目标音频信息是否属于人声，若是，执行步骤S102。

可以理解的是，在该种实现方式中，当用户需要检测婴幼儿是否发生啼哭时，可以在获取目标音频信息的音频特征之前，语音检测系统可以判断该目标音频信息是否属于人声。若不属于人声，则不再分析该目标音频信息的音频特征，避免了分析资源的浪费。当判断该目标音频信息属于人声时，分析该目标音频信息的音频特征，进而分析该音频特征是否属于婴幼儿啼哭。

具体的，在一种实现方式中，该判断该目标音频信息是否属于人声，可以包括：

基于预设的平均背景噪音计算公式，计算该目标音频信息的平均背景噪音；

基于预设的比率值计算公式，计算该目标音频信息中大于第一阈值的语音点数占所有语音点总数的比率值，其中，该第一阈值不小于该平均背景噪音；

判断该比率值是否大于预设第二阈值，若是，确定该目标音频信息属于人声，若否，确定该目标音频信息不属于人声。

可以理解的是，在该种实现方式中，可以根据预设的平均背景噪音计算公式，计算目标音频信息的平均背景噪音，即计算得到该目标音频信息所对应的环境的平均声音幅度。

由于环境背景噪音一般较为稳定，而在有婴幼儿哭啼的情况下，啼哭声音幅度较高，此时可计算该目标音频信息中的语音大于预设的第一阈值的语音点总数占用的语音点总数的比率值，来判断环境背景噪音是否出现过多的波动。其中，第一阈值应大于等于平均背景噪音。

当计算得到的比率值大于预设的第二阈值时，确定出现的大于第一阈值的语音点总数较多，以此来判断环境背景噪音出现过多的波动，即判断该目标音频信息中出现了人声，进而可判断该目标音频信息属于人声，否则判断不属于人声。

需要强调的是，该第一阈值和第二阈值可以由本领域技术人员根据具体情况进行设定，在此不做限定。

其中，该预设的平均背景噪音计算公式为：

其中，该N为该目标音频信息中所包含的语音点总数，a^k为第k个语音点的声音幅度，Model_Avg为该目标音频信息的平均背景噪音；

其中，该预设的比率值计算公式为：

其中，该N为该目标音频信息中所包含的语音点总数，a^k为第k个语音点的声音幅度，该T1为该第一阈值，该count为该目标音频信息中大于该第一阈值的语音点数，该Percentage为该目标音频信息中大于第一阈值的语音点数占所有语音点总数的比率值。

可以理解的是，在该种实现方式中，可以利用上述的平均背景噪音计算公式计算平均背景噪音，并利用上述的比率值计算公式计算目标音频信息中大于第一阈值的语音点数占所有语音点总数的比率值，当然并不局限于此。

在一种具体实现方式中，该对该目标音频信息进行分析，获得该目标音频信息所对应的音频特征，可以包括：

对该目标音频信息进行频谱分析，得到该目标音频信息的频率分布；

相应地，该判断该目标音频信息所对应的该音频特征是否满足预设婴幼儿啼哭条件，可以包括：

判断该频率分布是否窄于预设第三阈值，如果是，表明满足预设婴幼儿啼哭条件，并执行该输出提示消息的步骤。

可以理解的是，在该种实现方式中，可以对目标音频信息进行频谱分析，从而得到该目标音频信息的频率分布。由于婴幼儿啼哭声音较为单一，其所对应的频率分布比较窄，因此在判断该目标音频信息的频率分布窄于预设的第三阈值时，表明满足婴幼儿的啼哭条件，此时输出提示该婴幼儿啼哭的信息。

需要强调的是，该第三阈值可以由本领域技术人员根据具体情况进行设定，在此不做限定。

在一种具体实现方式中，如图3所示，所述输出提示消息(即步骤S104)，可以包括如下步骤：

S1041：获得该视频监控设备采集到的与该目标音频信息相对应的目标帧画面；

S1042：判断该目标帧画面是否满足预设的婴幼儿哭闹条件，如果是，执行步骤S1043，否则，执行S1044；

S1043：输出用于提示当前发生婴幼儿啼哭事件的提示内容和该目标帧画面；

S1044：输出用于提示当前发生婴幼儿啼哭事件的提示内容。

可以理解的是，在该种实现方式中，当检测到婴幼儿啼哭后，可以获取目标帧画面，其中，该目标帧画面为视频监控设备采集到的与目标音频信息对应一帧或多帧画面。然后判断该目标帧画面是否满足预设的婴幼儿哭闹的画面，是的话，则可以输出用于提示婴幼儿啼哭的提示内容和该目标帧画面。当然也可以输出用于提示婴幼儿哭闹的提示内容。如果判断婴幼儿未出现哭闹，则输出用于提示婴幼儿啼哭的提示内容。

具体的，判断该目标帧画面是否满足预设的婴幼儿哭闹条件，可以包括：

判断该目标帧画面与预设帧画面对应位置的像素差值绝对值之和是否大于预设第四阈值，若是，表明满足预设的婴幼儿哭闹条件。

可以理解的是，在检测到婴幼儿未啼哭时，利用该视频监控设备采集预设帧画面，当检测到婴幼儿啼哭时，采集目标帧画面，计算该目标帧画面与预设帧画面的总像素差，即计算该目标帧画面与预设帧画面对应位置的像素差值，并判断各个位置的像素差值的绝对值之和是否大于预设第四阈值，当判断大于第四阈值时，表明婴幼儿哭闹。

需要强调的是，该第四阈值可以由本领域技术人员根据具体情况进行设定，在此不做限定。

具体的，计算该目标帧画面与预设帧画面对应位置的像素差值绝对值之和的公式为：

其中，该x(j,i,t₀)为t₀时间点的一帧画面，该x(j,i,t₁)为t₁时间点的一帧画面，其中，该x(j,i,t₀)和该x(j,i,t₁)两帧画面中至少有一帧画面为目标帧画面，且另一帧为预设帧画面，该j为画面中的水平坐标，该i为画面中的垂直坐标，该MM为画面的图像高度，该NN为画面的图像宽度，该Threshold为该目标帧画面与预设帧画面对应位置的像素差值绝对值之和。

可以理解的是，在该种实现方式中，可以利用上述公式计算该目标帧画面与预设帧画面对应位置的像素差值绝对值之和。

另外，本发明实施例还提供了一种摄像机，如图4所示，该摄像机可以包括：音频传感器401、处理器402和网络模块403，该处理器402分别与该音频传感器401和该网络模块403相连接；其中，

该音频传感器401，用于采集目标音频信息；

该处理器402，用于获得该音频传感器401所采集的目标音频信息，对该目标音频信息进行分析，获得该目标音频信息所对应的音频特征；判断该目标音频信息所对应的该音频特征是否满足预设婴幼儿啼哭条件；当判断结果为是时，通过该网络模块输出提示消息，该提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容；

该网络模块403，用于输出该提示消息。

可选地，该处理器402包括：

第一获取单元，用于获得目标音频信息，其中，该目标音频信息为通过摄像机自带的音频传感器所采集的音频信息；

第二获取单元，用于对该目标音频信息进行分析，获得该目标音频信息所对应的音频特征；

第一判断单元，用于判断该目标音频信息所对应的该音频特征是否满足预设婴幼儿啼哭条件；

输出单元，用于当判断结果为是时，通过该网络模块输出提示消息，该提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容。

可选地，该网络模块403具体用于发送该提示消息至移动终端，以通过该移动终端输出该提示消息。

可选地，该处理器402还包括：

第二判断单元，用于在利用该第二获取单元对该目标音频信息进行分析，获得该目标音频信息所对应的音频特征之前，判断该目标音频信息是否属于人声，若是，触发该第二获取单元。

可选地，该第二判断单元包括：

平均噪音计算子单元，用于基于预设的平均背景噪音计算公式，计算该目标音频信息的平均背景噪音；

比率值计算子单元，用于基于预设的比率值计算公式，计算该目标音频信息中大于第一阈值的语音点数占所有语音点总数的比率值，其中，该第一阈值不小于该平均背景噪音；

比率值判断子单元，用于判断该比率值是否大于预设第二阈值，若是，确定该目标音频信息属于人声，若否，确定该目标音频信息不属于人声。

可选地，该平均噪音计算子单元所利用的该预设的平均背景噪音计算公式为：

其中，该预设的比率值计算公式为：

可选地，该第二获取单元包括：

频率分布获得子单元，用于对该目标音频信息进行频谱分析，得到该目标音频信息的频率分布；

相应地，该第一判断单元，包括：

频率分布处理子单元，用于判断该频率分布是否窄于预设第三阈值，如果是，表明满足预设婴幼儿啼哭条件。

可选地，该摄像机还包括：图像采集模块，该处理器402与该图像采集模块相连接；

该图像采集模块，用于采集视频数据；

该输出单元包括：

帧画面获得子单元，用于获得该图像采集模块所采集的、与该目标音频信息相对应的目标帧画面；

帧画面判断子单元，用于判断该目标帧画面是否满足预设的婴幼儿哭闹条件，如果是，触发第一输出子单元，否则，触发第二输出子单元；

该第一输出子单元，用于通过该网络模块输出用于提示当前发生婴幼儿啼哭事件的提示内容和该目标帧画面；

该第二输出子单元，用于通过该网络模块输出用于提示当前发生婴幼儿啼哭事件的提示内容。

可选地，该帧画面判断子单元具体用于判断该目标帧画面与预设帧画面对应位置的像素差值绝对值之和是否大于预设第四阈值，若是，表明满足预设的婴幼儿哭闹条件。

可选地，该帧画面判断子单元计算该目标帧画面与预设帧画面对应位置的像素差值绝对值之和的公式为：

本发明实施例还提供了一种智能家居看护系统，如图5所示，该智能家居看护系统包括：

摄像机501、网关设备502和移动终端503，该网关设备502通过网络连接该摄像机501和该移动终端503；其中，

该摄像机501，用于获得自身的音频传感器所采集的目标音频信息；对该目标音频信息进行分析，获得该目标音频信息所对应的音频特征；判断该目标音频信息所对应的该音频特征是否满足预设婴幼儿啼哭条件；当判断结果为是时，通过该网关设备向移动终端发送提示消息，该提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容；

该网关设备502，用于在接收到该提示消息后，将该提示消息转发至该移动终端503；

该移动终端503，用于在接收到该网关设备502发送的提示消息后，输出该提示消息。

其中，摄像头通过网络模块将提示消息输出给网关设备，网关设备可以将该提示消息转发至移动终端。

可选地，该摄像机501还用于在对该目标音频信息进行分析，获得该目标音频信息所对应的音频特征之前，判断该目标音频信息是否属于人声，若是，执行该对该目标音频信息进行分析，获得该目标音频信息所对应的音频特征的步骤。

可选地，该摄像机501具体用于：

基于预设的平均背景噪音计算公式，计算该目标音频信息的平均背景噪音；基于预设的比率值计算公式，计算该目标音频信息中大于第一阈值的语音点数占所有语音点总数的比率值，其中，该第一阈值不小于该平均背景噪音；判断该比率值是否大于预设第二阈值，若是，确定该目标音频信息属于人声，若否，确定该目标音频信息不属于人声。

可选地，该预设的平均背景噪音计算公式为：

其中，该预设的比率值计算公式为：

可选地，该摄像机501具体用于对该目标音频信息进行频谱分析，得到该目标音频信息的频率分布；并且，判断该频率分布是否窄于预设第三阈值，如果是，表明满足预设婴幼儿啼哭条件。

可选地，该摄像机501具体用于：

获得该自身的图像采集模块采集到的与该目标音频信息相对应的目标帧画面；

判断该目标帧画面是否满足预设的婴幼儿哭闹条件，如果是，输出用于提示当前发生婴幼儿啼哭事件的提示内容和该目标帧画面，如果否，输出用于提示当前发生婴幼儿啼哭事件的提示内容。

可选地，该摄像机501具体用于：判断该目标帧画面与预设帧画面对应位置的像素差值绝对值之和是否大于预设第四阈值，若是，表明满足预设的婴幼儿哭闹条件。

可选地，该摄像机501计算该目标帧画面与预设帧画面对应位置的像素差值绝对值之和的公式为：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种语音检测方法，应用于摄像机，所述摄像机为视频监控设备，其特征在于，包括：

若所述目标音频信息属于人声，对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征；

当判断结果为是时，输出提示消息，所述提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容；

所述输出提示消息，包括：

2.根据权利要求1所述的方法，其特征在于，所述输出提示消息，包括：

通过移动终端输出提示消息。

3.根据权利要求1所述的方法，其特征在于，所述预设的平均背景噪音计算公式为：

其中，所述预设的比率值计算公式为：

4.根据权利要求1所述的方法，其特征在于，所述对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征，包括：

判断所述频率分布是否窄于预设第三阈值，如果是，表明满足预设婴幼儿啼哭条件。

5.根据权利要求1所述的方法，其特征在于，所述判断所述目标帧画面是否满足预设的婴幼儿哭闹条件，包括：

6.根据权利要求5所述的方法，其特征在于，计算所述目标帧画面与预设帧画面对应位置的像素差值绝对值之和的公式为：

7.一种摄像机，其特征在于，包括：音频传感器、处理器和网络模块，所述处理器分别与所述音频传感器和所述网络模块相连接；其中，

所述音频传感器，用于采集目标音频信息；

所述网络模块，用于输出所述提示消息；

所述处理器包括：

第二判断单元，包括：平均噪音计算子单元，用于基于预设的平均背景噪音计算公式，计算所述目标音频信息的平均背景噪音；比率值计算子单元，用于基于预设的比率值计算公式，计算所述目标音频信息中大于第一阈值的语音点数占所有语音点总数的比率值，其中，所述第一阈值不小于所述平均背景噪音；比率值判断子单元，用于判断所述比率值是否大于预设第二阈值，若是，确定所述目标音频信息属于人声且触发第二获取单元，若否，确定所述目标音频信息不属于人声；

第二获取单元，用于在所述目标音频信息属于人声时，对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征；

输出单元，用于当判断结果为是时，通过所述网络模块输出提示消息，所述提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容；

所述摄像机还包括：图像采集模块，所述处理器与所述图像采集模块相连接；

所述图像采集模块，用于采集视频数据；

所述输出单元包括：

8.根据权利要求7所述的摄像机，其特征在于，所述网络模块具体用于发送所述提示消息至移动终端，以通过所述移动终端输出所述提示消息。

9.根据权利要求7所述的摄像机，其特征在于，所述第二获取单元包括：

相应地，所述第一判断单元，包括：

10.根据权利要求7所述的摄像机，其特征在于，所述帧画面判断子单元具体用于判断所述目标帧画面与预设帧画面对应位置的像素差值绝对值之和是否大于预设第四阈值，若是，表明满足预设的婴幼儿哭闹条件。

11.一种智能家居看护系统，其特征在于，包括：摄像机、网关设备和移动终端，所述网关设备通过网络连接所述摄像机和所述移动终端；其中，

所述摄像机，用于获得自身的音频传感器所采集的目标音频信息；基于预设的平均背景噪音计算公式，计算所述目标音频信息的平均背景噪音；基于预设的比率值计算公式，计算所述目标音频信息中大于第一阈值的语音点数占所有语音点总数的比率值，其中，所述第一阈值不小于所述平均背景噪音；判断所述比率值是否大于预设第二阈值，若是，确定所述目标音频信息属于人声，若否，确定所述目标音频信息不属于人声；若所述目标音频信息属于人声，对所述目标音频信息进行分析，获得所述目标音频信息所对应的音频特征；判断所述目标音频信息所对应的所述音频特征是否满足预设婴幼儿啼哭条件；当判断结果为是时，通过所述网关设备向移动终端发送提示消息，所述提示消息至少包括用于提示当前发生婴幼儿啼哭事件的提示内容；获得所述自身的图像采集模块采集到的与所述目标音频信息相对应的目标帧画面；判断所述目标帧画面是否满足预设的婴幼儿哭闹条件，如果是，输出用于提示当前发生婴幼儿啼哭事件的提示内容和所述目标帧画面，如果否，输出用于提示当前发生婴幼儿啼哭事件的提示内容；