CN110875042B

CN110875042B - 指定人群监控方法、装置和存储介质

Info

Publication number: CN110875042B
Application number: CN201810925574.8A
Authority: CN
Inventors: 齐昕
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2022-08-16
Anticipated expiration: 2038-08-14
Also published as: CN110875042A

Abstract

本发明公开了一种指定人群监控方法、装置和存储介质，属于计算机处理领域。方法包括：采集第一终端周围环境的声音，得到第一语音信号；通过第一声音检测模块，检测所述第一语音信号中是否有指定类型的声音，以及通过第一声纹识别模型，检测所述第一语音信号是否为指定用户的声音；当所述第一语音信号为所述指定用户的语音信号，且所述第一语音信号中有指定类型的声音时，向第二终端发送提醒信息。本发明只有检测到指定用户的指定类型的第一语音信号时，才会进行提醒操作，避免了检测到他人指定类型的语音信号造成的误操作，提高了监控的准确性。

Description

指定人群监控方法、装置和存储介质

技术领域

本发明涉及计算机处理领域，特别涉及一种指定人群监控方法、装置和存储介质。

背景技术

由于现在的年轻父母大多都有自己的工作，并且，家里的老人上了年纪。因此，年轻父母往往聘请保姆来照顾自己的孩子。然而由于近年来保姆虐童事件的频繁发生,如何有效的对孩子的状态进行实时监控,成为了家长的迫切需求。

由于孩子日常生活的活动性导致传统的固定监控无法长时间有效的进行移动式的监控。因此，往往通过孩子身上佩戴的穿戴设备对孩子进行监控，该过程可以为：穿戴设备采集周围环境的声音，检测周围环境的声音中是否有孩子的哭声；如果有，向指定终端发送提醒信息。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

上述方法中只有检测到孩子的哭声，就向指定指定发送提醒消息，导致上述监控方法的准确性差。

发明内容

为了解决现有技术的问题，本发明提供了一种指定人群监控方法、装置和存储介质。技术方案如下：

第一方面，本发明实施例提供了一种指定人群监控方法，所述方法包括：

采集第一终端周围环境的声音，得到第一语音信号；

通过第一声音检测模块，检测所述第一语音信号中是否有指定类型的声音，以及通过第一声纹识别模型，检测所述第一语音信号是否为指定用户的声音；

当所述第一语音信号为所述指定用户的语音信号，且所述第一语音信号中有指定类型的声音时，向第二终端发送提醒信息。

在一个可能的实现方式中，当所述第一语音信号为所述指定用户的语音信号，且所述第一语音信号中有指定类型的声音时，所述方法还包括：

采集指定时长的第二语音信号，将所述第二语音信号发送至服务器，所述第二语音信号用于所述服务器更新所述第一声音检测模块和所述第一声纹识别模型，得到第二声音检测模块和第二声纹识别模型。

在另一个可能的实现方式中，所述方法还包括：

接收所述服务器的所述第二声音检测模块和所述第二声纹识别模型；

将所述第一声音检测模块替换为所述第二声音检测模块，以及将所述第一声纹识别模型替换为所述第二声纹识别模型。

在另一个可能的实现方式中，所述采集第一终端周围环境的声音，得到第一语音信号，包括：

采集所述第一终端周围环境的声音，得到第三语音信号；

当所述第三语音信号中包括多路音频信号时，从所述第三语音信号中剥离出指定用户类型的第一语音信号，所述指定用户类型为所述指定用户的监控用户类型。

在另一个可能的实现方式中，所述从所述第三语音信号中剥离出指定用户类型的第一语音信号，包括：

从所述第三语音信号中剥离出每路音频信号，并提取所述第三语音信号中的每路音频信号的音频特征；

确定所述每路音频信号的音频特征与指定用户类型的基准音频特征之间的相似度；

根据所述每路音频信号的音频特征与指定用户类型的基准音频特征之间的相似度，从所述每路音频信号中选择匹配度最高的音频信号作为第一语音信号。

在另一个可能的实现方式中，所述通过第一声纹识别模型，检测所述第一语音信号是否为指定用户的声音，包括：

从所述第一语音信号中提取声纹信息；

通过所述第一声纹识别模型，确定所述声纹信息与所述指定用户的基准声纹信息之间的匹配度；

当所述匹配度超过预设阈值时，确定所述第一语音信号为所述指定用户的声音。

在另一个可能的实现方式中，所述方法还包括：

在所述监控用户进行注册时，采集所述指定用户的声音，得到第四语音信号；

提取所述第四语音信号的声纹信息作为所述基准声纹信息。

在另一个可能的实现方式中，所述采集第一终端周围环境的声音，得到第一语音信号之前，所述方法还包括：

当接收到所述第二终端的监控指令时，或者达到指定监控时刻时，执行所述采集第一终端周围环境的声音，得到第一语音信号的步骤。

第二方面，本发明实施例提供了一种指定人群监控装置，所述装置包括：

第一采集模块，用于采集第一终端周围环境的声音，得到第一语音信号；

检测模块，用于通过第一声音检测模块，检测所述第一语音信号中是否有指定类型的声音，以及通过第一声纹识别模型，检测所述第一语音信号是否为指定用户的声音；

第一发送模块，用于当所述第一语音信号为所述指定用户的语音信号，且所述第一语音信号中有指定类型的声音时，向第二终端发送提醒信息。

在一个可能的实现方式中，所述装置还包括：

第二采集模块，还用于采集指定时长的第二语音信号；

第二发送模块，还用于将所述第二语音信号发送至服务器，所述第二语音信号用于所述服务器更新所述第一声音检测模块和所述第一声纹识别模型，得到第二声音检测模块和第二声纹识别模型。

在另一个可能的实现方式中，所述装置还包括：

接收模块，用于接收所述服务器的所述第二声音检测模块和所述第二声纹识别模型；

更新模块，用于将所述第一声音检测模块替换为所述第二声音检测模块，以及将所述第一声纹识别模型替换为所述第二声纹识别模型。

在另一个可能的实现方式中，所述第一采集模块，包括：

采集单元，用于采集所述第一终端周围环境的声音，得到第三语音信号；

剥离单元，用于当所述第三语音信号中包括多路音频信号时，从所述第三语音信号中剥离出指定用户类型的第一语音信号，所述指定用户类型为所述指定用户的监控用户类型。

在另一个可能的实现方式中，所述剥离单元，还用于从所述第三语音信号中剥离出每路音频信号，并提取所述第三语音信号中的每路音频信号的音频特征；确定所述每路音频信号的音频特征与指定用户类型的基准音频特征之间的相似度；根据所述每路音频信号的音频特征与指定用户类型的基准音频特征之间的相似度，从所述每路音频信号中选择匹配度最高的音频信号作为第一语音信号。

在另一个可能的实现方式中，所述检测模块，包括：

提取单元，用于从所述第一语音信号中提取声纹信息；

确定单元，用于通过所述第一声纹识别模型，确定所述声纹信息与所述指定用户的基准声纹信息之间的匹配度；

所述确定单元，还用于当所述匹配度超过预设阈值时，确定所述第一语音信号为所述指定用户的声音。

在另一个可能的实现方式中，所述装置还包括：

第三采集模块，用于在所述监控用户进行注册时，采集所述指定用户的声音，得到第四语音信号；

作为模块，用于提取所述第四语音信号的声纹信息作为所述基准声纹信息。

在另一个可能的实现方式中，所述第一采集模块，还用于当接收到所述第二终端的监控指令时，或者达到指定监控时刻时，采集第一终端周围环境的声音，得到第一语音信号。

第三方面，本发明实施例提供了一种指定人群监控装置，所述装置包括

至少一个处理器；和

至少一个存储器；

所述至少一个存储器存储有一个或多个程序，所述一个或多个程序被配置成由所述至少一个处理器执行，所述一个或多个程序包含用于进行如第一方面或者第一方面任一可能实现方式中所述的方法的指令。

第四方面，本发明实施例提供了一种非易失性计算机可读存储介质，用于存储计算机程序，所述计算机程序通过处理器进行加载来执行如第一方面或者第一方面任一可能实现方式中所述的方法的指令。

在本发明实施例中，通过第一声音检测模型检测采集到的第一语音信号中是否有指定类型的声音，以及通过第一声纹识别模型，检测第一语音信号是否为指定用户的声音。当第一语音信号为指定用户的语音信号且第一语音信号中有指定类型的声音时，才向第二终端发送提醒信息。因此，只有检测到指定用户的指定类型的第一语音信号时，才会进行提醒操作，避免了检测到他人指定类型的语音信号造成的误操作，提高了监控的准确性。

附图说明

图1是本发明实施例提供的一种指定人群监控方法的实施环境示意图；

图2是本发明实施例提供的另一种指定人群监控方法的实施环境示意图；

图3是本发明实施例提供的另一种指定人群监控方法的实施环境示意图；

图4是本发明实施例提供的一种第一声音检测模型的示意图；

图5是本发明实施例提供的另一种第一声音检测模型的示意图；

图6是本发明实施例提供的一种指定人群监控方法的方法流程图；

图7是本发明实施例提供的一种指定人群监控装置的结构示意图；

图8是本发明实施例提供的另一种指定人群监控装置的结构示意图；

图9是本发明实施例提供的另一种指定人群监控装置的结构示意图；

图10是本发明实施例提供的另一种指定人群监控装置的结构示意图；

图11是本发明实施例提供的另一种指定人群监控装置的结构示意图；

图12是本发明实施例提供的另一种指定人群监控装置的结构示意图；

图13是本发明实施例提供的一种终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种实施环境示意图，参见图1，该实施环境包括：第一终端101与第二终端102。第一终端101和第二终端之间通过网络连接。第一终端101和第二终端102中运行相同的应用，基于该应用进行数据交互。第一终端101可以为穿戴设备，例如，手环、手表、眼镜、戒指等。第二终端102可以为手机终端、PAD(Portable AndroidDevice，平板电脑)终端或者电脑终端等任一安装该应用的设备。

参见图2，该实施环境还包括服务器103，服务器103基于大数据分析训练得到第一声音检测模块和第一声纹识别模型。第一终端101从服务器103中获取第一声音检测模块和第一声纹识别模型，存储第一声音检测模块和第一声纹识别模型。

当第一终端101进行监控时，第一终端101采集周围环境的声音，得到第一语音信号，通过第一声音检测模块，检测所述第一语音信号中是否有指定类型的声音，以及通过第一声纹识别模型，检测所述第一语音信号是否为指定用户的声音；当所述第一语音信号是所述目标监控用户的第一语音信号，且所述第一语音信号中有指定类型的声音时，向第二终端102发送提醒信息，从而实现对指定用户进行监控。

当第一语音信号是指定用户的语音信号，且第一语音信号中有指定类型的声音时，第一终端101采集指定时长的第二语音信号，将第二语音信号发送至服务器103。服务器103根据该第二语音信号，更新第一声音检测模块和第一声纹识别模型，得到第二声音检测模块和第二声纹识别模型。第一终端101从服务器103中获取第二声音检测模块和第二声纹识别模型，以便于继续对该指定用户进行监控。其中，指定用户可以为儿童、婴儿、老人或者病人等。指定类型的声音可以为哭声、笑声、打嗝声、求救声或者呐喊声等。

参见图3，第一终端101包括：电源组件、声音采集组件、核心处理器、通信组件和显示屏。电源组件、声音采集组件、通信组件和显示屏分别与核心处理器连接。其中，核心处理器包括模型管理模块、监控用户管理模块、声音检测模块和声纹检测模块。

声音采集组件，用于采集周围环境的声音，得到第一语音信号，并对提取第一语音信号中的音频特征，该音频特征可以为Fbank、Mfcc或者Fft特征等。该音频特征用于后续进行声音识别和声纹识别。

声音检测模块，用于基于第一语音信号中的音频特征，通过第一声音检测模型，检测第一语音信号中是否存在指定类型的声音。其中，第一声音检测模型为服务器103基于待训练的第六语音信号，通过深度学习网络训练得到的通用模型或者专属模型，第六语音信号可以为服务器103收集的非该指定用户的语音信号，也可以为第一终端101事先发送的该指定用户的语音信号。当第六语音信号为服务器103收集的非该指定用户的语音信号时，第一声音检测模型为通用模型，当该第六语音信号为第一终端101事先发送的该指定用户的语音信号时，第一声音检测模型为专属模型。

在一个可能的实现方式中，由于服务器103的计算能力强，且判决过程不需要实时性，因此采用比较复杂的深度学习网络来训练得到通用模型或者专属模型。该深度学习网络可以为CLDNN(Compute Library for Deep Neural Networks，高性能深度神经网络计算)网络。参见图4，第一声音检测模型(通用模型或者专属模型)包括第一卷积层、第一LSTM(Long Short-Term Memory，长短期记忆网络)层和第一MLP(Multi-Layer Perceptron，多层感知器)层。第一卷积层的输出端与第一LSTM层的输入端相连，第一LSTM层的输出端与第一MLP层的输入端相连。第一卷积层用于接收第一语音信号音频特征，对音频特征进行卷积运算，将卷积运算结果输出至第一LSTM层。第一LSTM层接收该卷积运算结果，从该卷积运算结果中提取该第一语音信号的时序特征，并将该时序特征输出至第一MLP层。第一MLP层接收该时序特征，基于该时序特征确定该第一语音信号中是否存在指定类型的声音。

在另一个可能的实现方式中，为了提高实时性，服务器也可以采用比较简单的深度学习网络来训练得到通用模型或者专属模型。相应的，该深度学习网络可以为DNN(DeepNeural Network，深层神经网络)。参见图5，第一声音检测模型(通用模型或者专属模型)包括第一节点隐层、第二节点隐层、第一节点输出层和第二节点输出层。第一节点隐层的输出端与第二节点隐层的输入端相连，第二节点隐层的输出端分别与第一节点输出层和第二节点输出层相连。第一节点隐层用于接收第一语音信号中的音频特征，对该音频特征进行预处理，将预处理后的音频特征输出至第二节点隐层。第二节点隐层接收预处理后的音频特征，对预处理后的音频特征再次进行处理，将再次处理后的音频特征分别输出至第一节点输出层和第二节点输出层。第一节点输出层和第二节点输出层，分别基于该再次处理后的音频特征确定该第一语音信号存在指定类型的声音的概率，基于该概率确定该第一语音信号是否存在指定类型的声音。

需要说明的一点是，第一节点隐层和第二节点隐层可以相同，也可以不相同；在本申请实施例中，对此不作具体限定。例如，第一节点隐层和第二节点隐层可以相同，均为256全连接节点。同样，第一节点输出层和第二节点输出层可以相同，也可以不相同；在本申请实施例中，对此不作具体限定。例如，第一节点输出层和第二节点输出层相同，均为softmax(归一化指数)输出层。

声纹识别模块，用于基于第一语音信号中的音频特征，通过第一声纹识别模型，检测第一语音信号是否为指定用户的语音信号。其中，第一声纹识别模型为服务器103基于待训练的第七语音信号，通过深度学习网络训练得到的通用模型或者专属模型，第七语音信号可以为服务器103收集的非该指定用户的语音信号，也可以为第一终端101事先发送的该指定用户的语音信号。同样，当第七语音信号为服务器103收集的非该指定用户的语音信号时，第一声纹识别模型为通用模型，当该第七语音信号为第一终端101事先发送的该指定用户的语音信号时，第一声纹识别模型为专属模型。另外，第七语音信号和第六语音信号可以为相同的语音信号或者不同的语音信号。

同样，服务器103训练得到第一声纹识别模型的深度学习网络可以为CLDNN网络或者DNN。当该深度学习网络为CLDNN网络时，第一声纹识别模型包括第二卷积层、第二LSTM(Long Short-Term Memory，长短期记忆网络)层和第二MLP(Multi-Layer Perceptron，多层感知器)层。第二卷积层的输出端与第二LSTM层的输入端相连，第二LSTM层的输出端与第二MLP层的输入端相连。第二卷积层用于接收第一语音信号声纹信息，对声纹信息进行卷积运算，将卷积运算结果输出至第二LSTM层。第二LSTM层接收该卷积运算结果，从该卷积运算结果中提取该第一语音信号的时序特征，并将该时序特征输出至第二MLP层。第二MLP层接收该时序特征，基于该时序特征确定该第一语音信号是否为指定用户的语音信号。

当该深度学习网络为DNN时，第一声纹识别模型包括第三节点隐层、第四节点隐层、第三节点输出层和第四节点输出层。第三节点隐层的输出端与第四节点隐层的输入端相连，第四节点隐层的输出端分别与第三节点输出层和第四节点输出层相连。第三节点隐层用于接收第一语音信号中的声纹信息，对该声纹信息进行预处理，将预处理后的声纹信息输出至第四节点隐层。第四节点隐层接收预处理后的声纹信息，对预处理后的声纹信息再次进行处理，将再次处理后的声纹信息分别输出至第三节点输出层和第四节点输出层。第三节点输出层和第四节点输出层，分别基于该再次处理后的声纹信息确定该第一语音信号为指定用户的语音信号的概率，基于该概率确定该第一语音信号是否为指定用户的语音信号。

同样，第三节点隐层和第四节点隐层可以相同，也可以不相同；在本申请实施例中，对此不作具体限定。例如，第三节点隐层和第四节点隐层可以相同，均为256全连接节点。同样，第三节点输出层和第四节点输出层可以相同，也可以不相同；在本申请实施例中，对此不作具体限定。例如，第三节点输出层和第四节点输出层相同，均为softmax输出层。

声音采集组件，还用于当第一语音信号中存在指定类型的声音，且第一语音信号为指定用户的语音信号时，采集指定时长的第二语音信号，将第二语音信号发送给服务器103，由服务器103更新第一声音检测模型和第一声纹识别模型，得到第二声音检测模型和第二声纹识别模型。

模型管理模块，用于从服务器103中获取第一声音检测模型和第一声纹识别模型，将定时从服务器103中获取更新的第二声音检测模型和第二声纹识别模型，将第一声音检测模型更新为第二声音检测模型，将第一声纹识别模型更新为第二声纹识别模型。

监控用户管理模块，用于存储第二终端的终端标识，第二终端的终端标识可以为监控用户在服务器103中注册的监控用户账户。

电源组件，用于为第一终端101提供电源。

通信组件，用于与第二终端102和服务器103进行通信。并且，该通信组件主要包括wifi(无线保真)模块和3G/4G(第三代移动通信/第四代移动通信)无线通信模块，主要负责环境声音数据的上传以及模型更新。

显示屏，用于提供显示界面。

本发明实施例提供了一种指定人群监控方法，该方法应用在第一终端、第二终端和服务器之间。参见图6，该方法包括：

步骤601：第一终端采集第一终端周围环境的声音，得到第一语音信号。

第一终端用于对指定用户进行监控。当达到监控条件时，第一终端开始采集第一终端周围环境的声音。该监控条件可以为接收到第二终端的监控指令或者达到监控时刻。该监控指令可以为由用户触发或者第二终端主动触发。当该监控指令由第二终端主动触发时，第二终端可以在检测到第一终端与第二终端不在同一个区域范围内或者到达指定时刻时，向第一终端发送监控指令。本发明实施例可以实现基于第二终端的控制，对指定用户进行监控或者基于监控时刻对指定用户进行监控。

在一个可能的实现方式中，第一终端可以将采集到的第一终端周围环境的音频信号作为第一语音信号。在另一个可能的实现方式中，由于第一终端周围环境中可能不仅仅有指定用户，可能还有其他用户。因此，第一终端周围环境的声音可能包括多路音频信号。相应的，本步骤可以为：

第一终端采集第一终端周围环境的声音，得到第三语音信号；检测第三语音信号中是否包括多路音频信号，当第三语音信号中包括多路音频信号时，从第三语音信号中剥离出第一语音信号。

第一终端从第三语音信号中剥离出每路音频信号，将每路音频信号作为一个第一语音信号。由于本发明是对指定用户进行监控，指定用户往往为儿童、婴儿、老人或者病人等。因此，第一终端可以从第三语音信号中剥离出最有可能是指定用户声音的语音信号。相应的，第一终端从第三语音信号中剥离出第一语音信号的步骤可以为：

第一终端从第三语音信号中剥离出每路音频信号，并提取第三语音信号中的每路音频信号的音频特征；确定每路音频信号的音频特征与指定用户类型的基准音频特征之间的相似度；根据每路音频信号的音频特征与指定用户类型的基准音频特征之间的相似度，从每路音频信号中选择匹配度最高的音频信号作为第一语音信号。

第一终端采集到第一语音信号之后，第一终端可以直接执行步骤602进行声音识别。在另一个可能的实现方式中，由于第一语音信号中可能存在噪声，此，第一终端采集到第一语音信号之后，对第一语音信号进行滤波处理，然后执行步骤602对滤波后的第一语音信号进行声音识别。

步骤602：第一终端通过第一声音检测模型，检测第一语音信号中是否有指定类型的声音。

第一终端获取第一声音检测模型，第一声音检测模型用于检测声音类型。第一终端将第一语音信号输入第一声音检测模型中，第一声音模型输出第一语音信号的类型。当第一语音信号的类型为指定类型时，第一终端确定第一语音信号中有指定类型的声音。当第一语音信号的类型不是指定类型时，第一终端确定第一语音信号中没有指定类型的声音。其中，指定类型可以为哭、笑、打嗝、求救或者呐喊等。

在一个可能的实现方式中，在本步骤之前，第一终端从服务器中获取第一声音检测模型，存储该第一声音检测模型。相应的，第一终端获取第一声音检测模型的步骤可以为：第一终端获取已存储的第一声音检测模型，第一声音检测模型为服务器基于深度学习网络训练得到的通用模型，或者基于第六语音信号和深度学习网络训练得到的用于检测指定用户的专属模型，第六语音信号为第一终端事先发送的该指定用户的语音信号。

在另一个可能的实现方式中，由于服务器会定期更新第一声音检测模型，因此为了获取到最新的第一声音检测模型，在本步骤中第一终端从服务器中请求第一声音检测模型。相应的，第一终端获取第一声音检测模型的步骤可以为：

第一终端向服务器发送第一获取请求，第一获取请求用于获取第一声音检测模型。服务器接收第一终端的第一获取请求，获取最新的第一声音检测模型，向第一终端发送第一声音检测模型。第一终端接收服务器的第一声音检测模型。

当第一语音信号中有指定类型的声音时，执行步骤603；当第一语音信号中没有指定类型的声音时，执行步骤601，第一终端继续对第一终端周围环境的声音进行采集，直到采集到有指定类型的声音的第一语音信号，执行步骤603。

步骤603：第一终端通过第一声纹识别模型，检测第一语音信号是否为指定用户的声音。

本步骤可以通过以下步骤(1)至(3)实现，包括：

(1)：第一终端从第一语音信号中提取声纹信息。

(2)：第一终端获取第一声纹识别模型，通过第一声纹识别模型，确定该声纹信息与该指定用户的基准声纹信息之间的匹配度。

本步骤可以通过以下步骤(2-1)至(2-3)实现，包括：

(2-1)：第一终端获取第一声纹识别模型。

在一个可能的实现方式中，第一终端从服务器中获取第一声纹识别模型，存储该第一声纹识别模型。相应的，本步骤可以为：第一终端获取已存储的第一声纹识别模型。在另一个可能的实现方式中，由于服务器会定期更新第一声纹识别模型。因此为了获取到最新的第一声纹识别模型，在本步骤中，第一终端从服务器中请求第一声纹识别模型。相应的，本步骤可以为：

第一终端想服务器发送第二获取请求，第二获取请求用于获取第一声纹识别模型。服务器接收第一终端的第二获取请求，获取最新的第一声纹识别模型，向第一终端发送第一声纹识别模型。第一终端接收服务器的第一声纹识别模型。

(2-2)：第一终端获取该指定用户的基准声纹信息。

在本步骤之前，第一终端对指定用户进行注册操作，从而获取并存储该指定用户的基准声纹信息。相应的，本步骤可以为：第一终端获取已存储的该指定用户的基准声纹信息。

第一终端对该指定用户进行注册操作的步骤可以为：第一终端采集该指定用户的声音，得到第四语音信号，提取该第四语音信号的声纹信息作为该指定用户的基准声纹信息。

(2-3)：第一终端通过第一声纹识别模型，确定该声纹信息与该指定用户的基准声纹信息之间的匹配度。

第一终端将该声纹信息和该指定用户的基准声纹信息输入第一声纹识别模型中。第一声纹识别模型确定该声纹信息和该指定用户的基准声纹信息之间的匹配度，输出该匹配度给第一终端。第一终端接收该第一声纹识别模型输出的该匹配度。

需要说明的一点是，该声纹信息和该指定用户的基准声纹信息之间的匹配度即为该第一语音信号是指定用户的声音的概率。

(3)：当该匹配度超过预设阈值时，第一终端确定第一语音信号为指定用户的声音。当该匹配度不超过预设阈值时，第一终端确定第一语音信号不为指定用户的声音。

预设阈值可以根据需要进行设置并更改，在本发明实施例中，对预设阈值不作具体限定；例如，预设阈值可以为80％或者85％等。

需要说明的一点是，当第一终端确定第一语音信号为指定用户的声音时，执行步骤604，当第一终端确定第一语音信号不为指定用户的声音时，继续执行步骤601，第一终端继续对第一终端周围环境的声音进行采集，直到采集到有指定类型的声音且为指定用户的声音的第一语音信号，执行步骤604。

需要说明的另一点是，步骤602和步骤603没有严格的先后顺序，可以先执行步骤602，再执行步骤603；也可以先执行步骤603，再执行步骤602，也即第一终端通过第一声纹识别模型，检测第一语音信号是否为指定用户的声音，当第一语音信号为指定用户的声音时，执行步骤602，通过第一声音检测模型，检测第一语音信号中是否有指定类型的声音。当然，步骤602和步骤603可以同时执行，当通过第一声音检测模块，检测第一语音信号中有指定类型的声音，通过第一声纹检测模块，检测第一语音信号为指定用户的声音时，执行步骤604。

步骤604：当第一语音信号为指定用户的语音信号，且第一语音信号中有指定类型的声音时，第一终端向第二终端发送提醒消息。

第一终端通过路由器或者服务器向第二终端发送提醒消息。该提醒消息用于指示监控到指定用户的指定类型的声音。并且，该提醒消息中可以携带第一语音信号或者指定用户的监控用户标识。例如，指定用户为儿童A，指定类型的声音为哭声，则该提醒消息可以为“监控到儿童A的哭声”。

在一个可能的实现方式中，当第一终端通过路由器向第二终端发送提醒消息时，第一终端向第二终端发送提醒消息的步骤可以为：第一终端通过通信组件向路由器发送该提醒消息。路由器接收第一终端的该提醒消息，向第二终端转发该提醒消息。

在另一个可能的实现方式中，当第一终端通过服务器向第二终端发送提醒消息时，第一终端向第二终端发送提醒消息的步骤可以为：第一终端通过通信组件向服务器发送该提醒消息，该提醒消息携带第二终端的终端标识。服务器接收第一终端的该提醒消息，根据第二终端的终端标识，向第二终端转发该提醒消息。第二终端的终端标识可以为监控用户在服务器中注册的监控用户账号。

步骤605：第一终端采集指定时长的第二语音信号，将第二语音信号发送至服务器。

当第一终端检测到第一语音信号为指定用户的语音信号，且第一语音信号中有指定类型的声音时，第一终端可以采集指定时长的第二预设信号，将第二语音信号发送至服务器，由服务器更新第一声音检测模型和第一声纹识别模型。由于第二语音信号为该指定用户的语音信号。因此服务器根据第二语音信号，自适应更新第一声音检测模型和第一声纹识别模型，能够提高对指定用户的指定类型的声音的检测效果，提高了检测准确性。

需要说明的一点是，第一终端检测到第一语音信号为指定用户的语音信号，且第一语音信号中有指定类型的声音时，第一终端可以不重新采集第二语音信号，可以直接将第一语音信号发送至服务器，由服务器根据第一语音信号进行模型的更新。

需要说明的另一点是，步骤604和步骤605并没有严格的先后顺序，可以先执行步骤604，再执行步骤605；也可以先执行步骤605，再执行步骤604；当然，步骤604和步骤605还可以同时执行。

在本发明实施例中，当检测到第一语音信号为指定用户的语音信号，且第一语音信号中有指定类型的声音时，第一终端才激活设备进行音频录制得到第二语音信号，有效的降低了数据传输量及数据后处理的资源消耗。

步骤606：服务器接收第二语音信号，根据第二语音信号，更新第一声音检测模型和第一声纹检测模块，得到第二声音检测模型和第二声纹识别模型。

服务器从第二语音信号中提取语音特征，根据该语音特征，更新第一声音检测模型和第一声纹识别模型，得到第二声音检测模型和第二声纹识别模型。

需要说明的是，服务器不仅为第一终端提供声音检测模型和声纹识别模型，还为其他终端提供声音检测模型和声纹识别模型。因此，服务器在更新第一声音检测模型和第一声纹识别模型时，还会结合其他终端发送的第五语音信号。相应的，本步骤可以为：

服务器接收第二语音信号，根据第二语音信号和其他终端的第五语音信号，更新第一声音检测模型和第一声纹识别模型，得到第二声音检测模型和第二声纹识别模型。

步骤607：服务器将第二声音检测模型和第二声纹识别模型发送至第一终端。

步骤608：第一终端接收服务器的第二声音检测模型和第二声纹识别模型，将第一声音检测模型更新为第二声音检测模型，以及将第一声纹识别模型更新为第二声纹识别模型。

第一终端将第一声音检测模型更新为第二声音检测模型，以及将第一声纹识别模型更新为第二声纹识别模型之后，后续第一终端通过第二声音检测模型和第二声纹识别模型对指定用户进行监控，具体监控过程与上述通过第一声音检测模型和第一声纹识别模型对指定用户进行监控的步骤相似，只是将第一声音检测模型替换为第二声音检测模型，将第一声纹识别模型替换为第二声纹识别模型，具体过程在此不再赘述。

本发明实施例中，通过对采集到的第二语音信号更新第一声音检测模型和第一声纹识别模型，得到第二声音检测模型和第二声纹识别模型，并定期将第二声音检测模型和第二声纹识别模型更新至本地。从而能够在服务器端进行自适应训练，提升对指定用户的指定类型的声音的检测效果。

本发明实施例提供了一种指定人群监控装置，该装置应用在第一终端中，用于执行上述指定人权监控方法中的第一终端执行的步骤。参见图7，所述装置包括：

第一采集模块701，用于采集第一终端周围环境的声音，得到第一语音信号；

检测模块702，用于通过第一声音检测模块，检测所述第一语音信号中是否有指定类型的声音，以及通过第一声纹识别模型，检测所述第一语音信号是否为指定用户的声音；

第一发送模块703，用于当所述第一语音信号为所述指定用户的语音信号，且所述第一语音信号中有指定类型的声音时，向第二终端发送提醒信息。

在一个可能的实现方式中，参见图8，所述装置还包括：

第二采集模块704，还用于采集指定时长的第二语音信号；

第二发送模块705，还用于将所述第二语音信号发送至服务器，所述第二语音信号用于所述服务器更新所述第一声音检测模块和所述第一声纹识别模型，得到第二声音检测模块和第二声纹识别模型。

在一个可能的实现方式中，参见图9，所述装置还包括：

接收模块706，用于接收所述服务器的所述第二声音检测模块和所述第二声纹识别模型；

更新模块707，用于将所述第一声音检测模块替换为所述第二声音检测模块，以及将所述第一声纹识别模型替换为所述第二声纹识别模型。

在一个可能的实现方式中，参见图10，所述第一采集模块701，包括：

采集单元7011，用于采集所述第一终端周围环境的声音，得到第三语音信号；

剥离单元7012，用于当所述第三语音信号中包括多路音频信号时，从所述第三语音信号中剥离出指定用户类型的第一语音信号，所述指定用户类型为所述指定用户的监控用户类型。

在一个可能的实现方式中，所述剥离单元7012，还用于从所述第三语音信号中剥离出每路音频信号，并提取所述第三语音信号中的每路音频信号的音频特征；确定所述每路音频信号的音频特征与指定用户类型的基准音频特征之间的相似度；根据所述每路音频信号的音频特征与指定用户类型的基准音频特征之间的相似度，从所述每路音频信号中选择匹配度最高的音频信号作为第一语音信号。

在一个可能的实现方式中，参见图11，所述检测模块702，包括：

提取单元7021，用于从所述第一语音信号中提取声纹信息；

确定单元7022，用于通过所述第一声纹识别模型，确定所述声纹信息与所述指定用户的基准声纹信息之间的匹配度；

所述确定单元7021，还用于当所述匹配度超过预设阈值时，确定所述第一语音信号为所述指定用户的声音。

在一个可能的实现方式中，参见图12，所述装置还包括：

第三采集模块708，用于在所述监控用户进行注册时，采集所述指定用户的声音，得到第四语音信号；

作为模块709，用于提取所述第四语音信号的声纹信息作为所述基准声纹信息。

在一个可能的实现方式中，所述第一采集模块701，还用于当接收到所述第二终端的监控指令时，或者达到指定监控时刻时，采集第一终端周围环境的声音，得到第一语音信号。

需要说明的是：上述实施例提供的指定人群监控装置在指定人群监控时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的指定人群监控装置与指定人群监控方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图13示出了本发明一个示例性实施例提供的终端1300的结构框图。该终端1300可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1301所执行以实现本申请中方法实施例提供的指定人群监控方法。

在一些实施例中，终端1300还可选包括有：外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地，外围设备包括：射频电路1304、触摸显示屏1305、摄像头1306、音频电路1307、定位组件1308和电源1309中的至少一种。

外围设备接口1303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时，显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1305可以为一个，设置终端1300的前面板；在另一些实施例中，显示屏1305可以为至少两个，分别设置在终端1300的不同表面或呈折叠设计；在再一些实施例中，显示屏1305可以是柔性显示屏，设置在终端1300的弯曲表面上或折叠面上。甚至，显示屏1305还可以设置成非矩形的不规则图形，也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1306用于采集图像或视频。可选地，摄像头组件1306包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1307还可以包括耳机插孔。

定位组件1308用于定位终端1300的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1308可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1309用于为终端1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于：加速度传感器1313、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。

加速度传感器1313可以检测以终端1300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1313可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1313采集的重力加速度信号，控制触摸显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1313还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1312可以检测终端1300的机体方向及转动角度，陀螺仪传感器1312可以与加速度传感器1313协同采集用户对终端1300的3D动作。处理器1301根据陀螺仪传感器1312采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1313可以设置在终端1300的侧边框和/或触摸显示屏1305的下层。当压力传感器1313设置在终端1300的侧边框时，可以检测用户对终端1300的握持信号，由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在触摸显示屏1305的下层时，由处理器1301根据用户对触摸显示屏1305的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1314用于采集用户的指纹，由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份，或者，由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1301授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置终端1300的正面、背面或侧面。当终端1300上设置有物理按键或厂商Logo时，指纹传感器1314可以与物理按键或厂商Logo集成在一起。

光学传感器1315用于采集环境光强度。在一个实施例中，处理器1301可以根据光学传感器1315采集的环境光强度，控制触摸显示屏1305的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1305的显示亮度；当环境光强度较低时，调低触摸显示屏1305的显示亮度。在另一个实施例中，处理器1301还可以根据光学传感器1315采集的环境光强度，动态调整摄像头组件1306的拍摄参数。

接近传感器1316，也称距离传感器，通常设置在终端1300的前面板。接近传感器1316用于采集用户与终端1300的正面之间的距离。在一个实施例中，当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变小时，由处理器1301控制触摸显示屏1305从亮屏状态切换为息屏状态；当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变大时，由处理器1301控制触摸显示屏1305从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图13中示出的结构并不构成对终端1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本发明实施例提供了一种非易失性计算机可读存储介质，用于存储计算机程序，所述计算机程序通过处理器进行加载来执行上述指定人群监控方法的指令。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种指定人群监控方法，其特征在于，所述方法包括：

当接收到第二终端的监控指令时，采集第一终端周围环境的声音，得到第三语音信号，所述监控指令为所述第二终端检测到所述第二终端与所述第一终端不在同一个区域范围内时发送的；

当所述第三语音信号中包括多路音频信号时，从所述第三语音信号中剥离出每路音频信号，并提取所述第三语音信号中的每路音频信号的音频特征；

根据所述每路音频信号的音频特征与指定用户类型的基准音频特征之间的相似度，从所述每路音频信号中选择匹配度最高的音频信号作为第一语音信号；

通过第一声音检测模块，检测所述第一语音信号中是否有指定类型的声音，以及通过第一声纹识别模型，检测所述第一语音信号是否为指定用户的声音，所述第一声音检测模块为基于所述指定用户的语音信号进行训练得到的；

2.根据权利要求1所述的方法，其特征在于，当所述第一语音信号为所述指定用户的语音信号，且所述第一语音信号中有指定类型的声音时，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述通过第一声纹识别模型，检测所述第一语音信号是否为指定用户的声音，包括：

从所述第一语音信号中提取声纹信息；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在监控用户进行注册时，采集所述指定用户的声音，得到第四语音信号；

提取所述第四语音信号的声纹信息作为所述基准声纹信息。

6.一种指定人群监控装置，其特征在于，所述装置包括：

第一采集模块，用于当接收到第二终端的监控指令时，采集第一终端周围环境的声音，得到第三语音信号，所述监控指令为所述第二终端检测到所述第二终端与所述第一终端不在同一个区域范围内时发送的；当所述第三语音信号中包括多路音频信号时，从所述第三语音信号中剥离出每路音频信号，并提取所述第三语音信号中的每路音频信号的音频特征；确定所述每路音频信号的音频特征与指定用户类型的基准音频特征之间的相似度；根据所述每路音频信号的音频特征与指定用户类型的基准音频特征之间的相似度，从所述每路音频信号中选择匹配度最高的音频信号作为第一语音信号；

检测模块，用于通过第一声音检测模块，检测所述第一语音信号中是否有指定类型的声音，以及通过第一声纹识别模型，检测所述第一语音信号是否为指定用户的声音，所述第一声音检测模块为基于所述指定用户的语音信号进行训练得到的；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二采集模块，还用于采集指定时长的第二语音信号；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求6-8任一所述的装置，其特征在于，所述检测模块，包括：

提取单元，用于从所述第一语音信号中提取声纹信息；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

第三采集模块，用于在监控用户进行注册时，采集所述指定用户的声音，得到第四语音信号；

11.一种指定人群监控装置，其特征在于，所述装置包括

至少一个处理器；和

至少一个存储器；

所述至少一个存储器存储有一个或多个程序，所述一个或多个程序被配置成由所述至少一个处理器执行，所述一个或多个程序包含用于进行如权利要求1至5任一项权利要求所述的方法的指令。

12.一种非易失性计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序通过处理器进行加载来执行如权利要求1至5任一项权利要求所述的方法的指令。