CN111739558B

CN111739558B - 监控系统、方法、装置、服务器及存储介质

Info

Publication number: CN111739558B
Application number: CN201910219098.2A
Authority: CN
Inventors: 李婉瑜; 陈展
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2023-03-28
Anticipated expiration: 2039-03-21
Also published as: CN111739558A; WO2020187300A1

Abstract

本申请公开了一种监控系统、方法、装置、服务器及存储介质，属于监控技术领域。系统包括：语音采集设备、情感识别服务器和数据管理服务器，语音采集设备，用于采集语音信号，将语音信号和与语音采集设备具有关联关系的用户的身份标识发送给情感识别服务器；情感识别服务器，用于基于身份标识调用用户的所有情感识别模型，每个情感识别模型与用户的一种情感状态对应；基于语音信号，通过调用的情感识别模型确定用户当前的情感状态信息；将确定的情感状态信息发送给数据管理服务器；数据管理服务器，用于对情感状态信息进行管理。该监控系统可以对用户的情感状态进行监控，增加了监控系统的管理性能。

Description

监控系统、方法、装置、服务器及存储介质

技术领域

本申请涉及监控技术领域，特别涉及一种监控系统、方法、装置、服务器及存储介质。

背景技术

目前，监控系统在各个领域得到广泛应用，监控系统可以用于对用户、动物等目标进行监控管理，比如可以应用于对留守儿童或老年人等弱势群体的监护管理。

在针对弱势群体的应用场景中，监控系统一般包括安全手环和数据管理服务器，该安全手环可以用于向该数据管理服务器上报用户的位置信息，该数据管理服务器可以用于存储各个用户的基本信息和该各个用户配带的安全手环上报的位置信息，以便于管理人员对需要监护管理的人员进行监护管理。

然而，在上述实现方式中，由于监控系统具备的功能仅仅在于对用户的位置信息和基本信息进行管理，导致监控系统的管理性能较差。

发明内容

本申请实施例提供了一种监控系统、方法、装置、服务器及存储介质，可以解决相关技术中监控系统的管理性能较差的问题。所述技术方案如下：

第一方面，提供了一种监控系统，所述系统包括：语音采集设备、情感识别服务器和数据管理服务器，所述情感识别服务器分别与所述语音采集设备和所述数据管理服务器建立通信连接；

所述语音采集设备，用于采集语音信号，将所述语音信号和与所述语音采集设备具有关联关系的用户的身份标识发送给所述情感识别服务器；

所述情感识别服务器，用于基于所述身份标识调用所述用户的所有情感识别模型，每个情感识别模型与所述用户的一种情感状态对应；基于所述语音信号，通过调用的情感识别模型确定所述用户当前的情感状态信息；将确定的情感状态信息发送给所述数据管理服务器；

所述数据管理服务器，用于对所述情感状态信息进行管理。

可选地，所述情感识别服务器，用于基于所述身份标识调用所述用户的所有情感识别模型，包括：

所述情感识别服务器，用于基于所述身份标识，从存储的参考对应关系中确定对应的所有情感识别模型标识，所述参考对应关系用于存储多个用户中每个用户的身份标识与所述每个用户的所有情感识别模型标识之间的对应关系；调用所确定的所有情感识别模型标识对应的情感识别模型。

可选地，所述情感识别服务器，用于基于所述语音信号，通过调用的情感识别模型确定所述用户当前的情感状态信息，包括：

所述情感识别服务器，用于提取所述语音信号的声纹特征；分别将所述声纹特征输入至调用的所有情感识别模型中的每个情感识别模型，由所述每个情感识别模型对所述声纹特征进行识别处理并输出情感相似度；基于输出的所有情感相似度，确定最大情感相似度对应的情感识别模型；将确定的情感识别模型对应的情感状态信息确定为所述用户当前的情感状态信息。

可选地，所述情感识别服务器基于所述身份标识调用所述用户的所有情感识别模型之前，还用于：

基于所述身份标识，调用所述用户对应的语音验证模型；通过所述语音验证模型对所述语音信号进行语音验证；对应的，当对所述语音信号验证通过时，执行所述基于所述身份标识调用所述用户的所有情感识别模型的操作。

可选地，所述情感识别服务器基于所述语音信号，通过调用的情感识别模型确定所述用户当前的情感状态信息之后，还用于：

将所述语音信号和所述情感状态信息保存为训练样本，所述训练样本用于对所述情感状态信息对应的情感识别模型继续训练。

可选地，所述将确定的情感状态信息发送给所述数据管理服务器，包括：

将所述语音信号和所述确定的情感状态信息发送给所述数据管理服务器；

对应的，所述数据管理服务器，用于对所述情感状态信息进行管理，包括：

所述数据管理服务器，用于对所述语音信号和所述情感状态信息进行管理。

第二方面，提供了一种监控方法，所述方法应用于监控系统的情感识别服务器中，所述监控系统还包括语音采集设备和数据管理服务器，所述情感识别服务器分别与所述语音采集设备和所述数据管理服务器建立通信连接；

接收所述语音采集设备采集的语音信号和与所述语音采集设备具有关联关系的用户的身份标识；

基于所述身份标识调用所述用户的所有情感识别模型，每个情感识别模型与所述用户的一种情感状态对应；

基于所述语音信号，通过调用的情感识别模型确定所述用户当前的情感状态信息；

将确定的情感状态信息发送给所述数据管理服务器进行管理。

可选地，所述基于所述身份标识调用所述用户的所有情感识别模型，包括：

基于所述身份标识，从存储的参考对应关系中确定对应的所有情感识别模型标识，所述参考对应关系用于存储多个用户中每个用户的身份标识与所述每个用户的所有情感识别模型标识之间的对应关系；

调用所确定的所有情感识别模型标识对应的情感识别模型。

可选地，所述基于所述语音信号，通过调用的情感识别模型确定所述用户当前的情感状态信息，包括：

提取所述语音信号的声纹特征；

分别将所述声纹特征输入至调用的所有情感识别模型中的每个情感识别模型，由所述每个情感识别模型对所述声纹特征进行识别处理并输出情感相似度；

基于输出的所有情感相似度，确定最大情感相似度对应的情感识别模型；

将确定的情感识别模型对应的情感状态信息确定为所述用户当前的情感状态信息。

可选地，所述基于所述身份标识调用所述用户的所有情感识别模型之前，还包括：

基于所述身份标识，调用所述用户对应的语音验证模型；

通过所述语音验证模型对所述语音信号进行语音验证；

对应的，当对所述语音信号验证通过时，执行所述基于所述身份标识调用所述用户的所有情感识别模型的操作。

可选地，所述基于所述语音信号，通过调用的情感识别模型确定所述用户当前的情感状态信息之后，还包括：

将所述语音信号和所述确定的情感状态信息发送给所述数据管理服务器进行管理。

第三方面，提供了一种监控装置，配置于监控系统的情感识别服务器中，所述监控系统还包括语音采集设备和数据管理服务器，所述情感识别服务器分别与所述语音采集设备和所述数据管理服务器建立通信连接；所述装置包括：

接收模块，用于接收所述语音采集设备采集的语音信号和与所述语音采集设备具有关联关系的用户的身份标识；

调用模块，用于基于所述身份标识调用所述用户的所有情感识别模型，每个情感识别模型与所述用户的一种情感状态对应；

确定模块，用于基于所述语音信号，通过调用的情感识别模型确定所述用户当前的情感状态信息；

发送模块，用于将确定的情感状态信息发送给所述数据管理服务器进行管理。

可选地，所述调用模块用于：

调用所确定的所有情感识别模型标识对应的情感识别模型。

可选地，所述确定模块用于：

提取所述语音信号的声纹特征；

可选地，所述调用模块还用于：

基于所述身份标识，调用所述用户对应的语音验证模型；

通过所述语音验证模型对所述语音信号进行语音验证；

当对所述语音信号验证通过时，基于所述身份标识调用所述用户的所有情感识别模型。

可选地，所述装置还包括：

存储模块，用于将所述语音信号和所述情感状态信息保存为训练样本，所述训练样本用于对所述情感状态信息对应的情感识别模型继续训练。

可选地，所述发送模块用于：

第四方面，提供了一种情感识别服务器，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为实现上述第二方面所述的监控方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述第二方面所述的监控方法。

第六方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第二方面所述的监控方法。

本申请实施例提供的技术方案带来的有益效果是：

语音采集设备采集语音信号，并将该语音信号和与该语音采集设备具有关联关系的用户的身份标识发送给情感服务器。该情感服务器调用该身份标识对应的所有情感识别模型，即调用该用户的所有情感识别模型。然后基于该语音信号，通过调用的所有情感识别模型确定用户当前的情感状态信息，并发给数据管理服务器进行管理。即该监控系统可以对用户的情感状态进行监控，增加了监控系统的管理性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种监控系统的框架图；

图2是根据一示例性实施例示出的一种监控方法的流程图；

图3是根据另一示例性实施例示出的一种语音验证的原理示意图；

图4根据另一示例性实施例示出的一种情感识别的基本原理示意图；

图5是根据一示例性实施例示出的一种监控装置的结构示意图；

图6是根据另一示例性实施例示出的一种监控装置的结构示意图；

图7是根据一示例性实施例示出的一种服务器700的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例提供的应用场景进行简单介绍。

近几年，随着大数据和互联网等信息技术的发展创新以及政府对留守儿童心理和人身安全的逐渐重视，部分地区引入“留守儿童工作大数据平台”，通过为中小学阶段留守儿童配发安全手环实现儿童信息与公安机关报警平台的无缝对接。其中，该“留守儿童工作大数据平台”又可称为监控系统。然而，目前的监控系统仅仅具备对留守儿童的信息不全提醒、GPS(Global Positioning System，全球定位系统)定位、自动生成报表等功能，且儿童佩戴的安全手环的功能有限，仅仅可用来定位、存储基本信息，所以很难对留守儿童的心理和人身健康作更具针对性的动态监测，更无法及时有效把握儿童的情感动向。为此，本申请实施例提供了一种监控系统，该监控系统可以对儿童的情感动向进行监测和管理，增加了监控系统的管理性能。其具体实现请参见如下各个实施例。

接下来，请参考图1，该图1是根据一示例性实施例示出的一种监控系统的框架图，该监控系统主要包括：语音采集设备110、情感识别服务器120和数据管理服务器130，该情感识别服务器120分别与语音采集设备110和数据管理服务器130建立通信连接。

其中，该语音采集设备110具有语音采集功能，用于采集用户的语音信号，并将该语音信号发送给情感识别服务器120。在一些实施例中，该语音采集设备110可以配置有可配带部件，以便于用户可以利用该可配带部件将其配带在身上。或者，该语音采集设备110也可以为配置有语音采集器的可穿戴设备，譬如，可以为配置有语音采集器的手环、手表等，本申请实施例对此不限定。另外，该语音采集设备110除了具有语音采集功能外，还可以具有定位等功能。

其中，该情感识别服务器120可以用于基于用户的语音信号对该用户进行情感识别，以确定用户当前的情感状态。在一些实施例中，该情感识别服务器120可以为一台服务器。进一步地，该情感识别服务器120还可以为由多台服务器组成的服务器集群，比如，请继续参考图1，该情感识别服务器120可以包括声纹认证算法服务器120a、情感识别算法服务器120b和情感管理库120c。其中，该声纹认证算法服务器120a可以用于对用户的语音信号进行语音验证，并在语音验证通过后触发该情感管理库120c获取用户的情感识别模型；也即是，该情感管理库120c可以用于存储每个用户的所有情感识别模型，并将获取的情感识别模型共享给该情感识别算法服务器120b；情感识别算法服务器120b可以用于使用情感管理库120c共享的情感识别模型，对用户的情感进行识别，并将识别出的情感状态信息发送给数据管理服务器130。

其中，该数据管理服务器130可以用于对情感状态信息进行动态管理，以便于监管人员可以根据数据管理服务器130中的管理信息，及时对用户的情感动向进行监控。在一些实施例中，该数据管理服务器130可以为一台服务器，或者，也可以为由多台服务器组成的服务器集群，本申请实施例对此不做限定。

进一步地，请参考图1，该监控系统还可以包括虚拟服务器140，该虚拟服务器140分别与语音采集设备110和情感识别服务器120连接，以将该语音采集设备110传输的语音信号传递给情感识别服务器120。在一些实施例中，该虚拟服务器140可以称为交换机。

另外，该监控系统还可以包括远程监控服务器150，该远程监控服务器150分别与情感识别服务器120和数据管理服务器130连接，以将该情感识别服务器120传输的数据传递给数据管理服务器130。

接下来将结合图1所示的监控系统，对监控系统的监测过程进行详细介绍。请参考图2，该图2是根据一示例性实施例示出的一种监控方法的流程图，该监控方法可以包括如下几个步骤：

步骤201：语音采集设备采集语音信号，将该语音信号和与该语音采集设备具有关联关系的用户的身份标识发送给该情感识别服务器。

其中，与语音采集设备具有关联关系的用户可以是指使用该语音采集设备的用户，或者，也可以是指该语音采集设备的拥有者等，另外，该身份标识可以用于唯一的标识一个用户。

以该监控系统应用于对某个村的留守儿童进行监控管理为例，在该种应用场景中，可以为每个留守儿童配发语音采集设备，比如，该语音采集设备可以为嵌有语音采集器的安全手环等，以通过该语音采集设备采集语音信号。

在一种可能的实现方式中，该语音采集设备可以实时执行采集操作，在另一种可能的实现方式中，该语音采集设备也可以每隔参考时长进行一次采集操作。其中，该参考时长可以由用户根据实际需求进行设置，或者，也可以由该语音采集设备默认设置，本申请实施例对此不作限定。

该语音采集设备采集语音信号后，将该语音信号和与该语音采集设备具有关联关系的用户的身份标识发送给该情感识别服务器，以便于该情感识别服务器对该用户的情感状态进行识别。

进一步地，请参考图1，当该监控系统还包括虚拟服务器时，该语音采集设备将采集的语音信号和与该语音采集设备具有关联关系的用户的身份标识发送给虚拟服务器。在一些实施例中，该虚拟服务器可以确定该语音信号的频谱能量，当该频谱能量大于或等于频谱能量阈值时，将该语音信号和与该语音采集设备具有关联关系的用户的身份标识转发给情感识别服务器，否则，当该频谱能量小于频谱能量阈值时，可以不将该语音信号和与该语音采集设备具有关联关系的用户的身份标识转发给情感识别服务器。

也就是说，当该监控系统还包括虚拟服务器时，可以由该虚拟服务器抉择是否将该语音采集设备采集的语音信号和与该语音采集设备具有关联关系的用户的身份标识发送给情感识别服务器。一般来说，不同情感表达的语音信号在其时间构造、振幅构造、基频构造和共振峰构造等特征方面也有着不同的构造特点和分布规律。当该语音信号的频谱能量大于或等于频谱能量阈值时，一般可以说明该用户说话语气不平稳，进一步可以说明该用户情绪可能比较激动，因为，需要将该语音信号和与该语音采集设备具有关联关系的用户的身份标识发送给情感识别服务器作进一步情感识别。而当该语音信号的频谱能量小于频谱能量阈值时，一般可以说明该用户说话语气比较平稳，进一步可以说明该用户情绪可能比较稳定，因为，可以不将该语音信号和与该语音采集设备具有关联关系的用户的身份标识转发给情感识别服务器，即可以丢弃该语音信号，并继续等待或处理语音采集设备发送的下一个语音信号等数据，如此可以减小情感识别服务器的运算量。

其中，该频谱能量阈值可以由用户根据实际需求自定义设置，也可以由该虚拟服务器默认设置，本申请实施例对此不做限定。

步骤202：情感识别服务器基于该身份标识，调用该用户对应的语音验证模型，通过该语音验证模型对该语音信号进行语音验证。

在一种可能的实现方式中，语音采集设备发送至情感识别服务器的语音信号可能并不是与该语音采集设备具有关联关系的用户的，譬如，某个留守儿童A配带的语音采集设备发送给情感识别服务器的语音信号可能来自与留守儿童A发生争执的留守儿童B。针对该种情况，为了避免监控管理出错，该情感识别服务器接收该语音采集设备发送的语音信号和身份标识用户后，可以基于该身份标识对语音信号进行验证，即验证该语音信号是否属于该用户的。

在一种可能的实现方式中，该情感识别服务器可以预先存储有各个用户的身份标识与语音验证模型之间的对应关系，即每个用户可以对应一个语音验证模型。如此，情感识别服务器可以基于该身份标识，调用该用户对应的语音验证模型，并使用该语音验证模型进行语音验证。在实施中，该情感识别服务器可以提取该语音信号的声纹特征，将该声纹特征输入至该语音验证模型中，由该语音验证模型进行验证处理，输出语音相似度。进一步地，当该语音相似度大于或等于语音相似度阈值时，可以确定该语音信号验证通过，否则，当该语音相似度小于该语音相似度阈值时，可以确定该语音信号验证未通过。

其中，语音相似度阈值可以由用户根据实际需求自定义设置，也可以由情感识别服务器默认设置，本申请实施例对此不做限定。

值得一提的是，在接收到语音信号后，该情感识别服务器先对该语音信号进行语音验证，以确定该语音信号是否真正属于该用户，从而可以提高监控管理的准确性。

需要说明的是，每个用户的语音验证模型可以预先通过训练得到。进一步地，每个用户的语音验证模型可以基于大量的训练样本对待训练的网络模型进行训练得到。譬如，请参考图3，在实施中，针对每个用户，建立待训练的语音验证模型，获取该每个用户的多个语音片段，提取该多个语音片段中每个语音片段的声纹特征，将提取的声纹特征输入至待训练的语音验证模型中进行深度学习，得到训练后的语音验证模型。进一步地，可以使用该每个用户的测试样本对训练后的语音验证模型进行性能评估，即提取测试样本的声纹特征，将该声纹特征输入至训练后的语音验证模型中，当语音验证输出结果大于或等于第一性能阈值时，存储训练后的语音验证模型与每个用户的身份标识之间的对应关系。反之，当该语音验证输出结果小于该第一性能阈值时，可以继续获取该每个用户的训练样本进行深度学习。

其中，该第一性能阈值可以由用户根据实际需求自定设置，也可以由该情感识别服务器默认设置，本申请实施例对此不做限定。

步骤203：当对该语音信号验证通过时，情感识别服务器基于该身份标识调用该用户的所有情感识别模型，每个情感识别模型与该用户的一种情感状态对应。

当对该语音信号验证通过时，说明该语音信号确实是来自于与该语音采集设备具有关联关系的用户，此时该情感识别服务器基于该身份标识调用该用户的所有情感识别模型。

在一种可能的实现方式中，基于该身份标识调用该用户的所有情感识别模型的具体实现可以包括：基于该身份标识，从存储的参考对应关系中确定对应的所有情感识别模型标识，该参考对应关系用于存储多个用户中每个用户的身份标识与该每个用户的所有情感识别模型标识之间的对应关系；调用所确定的所有情感识别模型标识对应的情感识别模型。

其中，每个情感识别模型标识可以用于唯一发标识一种情感识别模型，每个用户可以对应有一个或者多个情感识别模型，每种情感识别模型对应该用户的一种情感状态。譬如，假设每个用户的情感识别模型可以包括第一情感识别模型、第二情感识别模型和第三情感识别模型，该第一情感识别模型对应的情感状态可以定义为“恐惧”，该第二情感识别模型对应的情感状态可以定义为“恸哭”，该第三情感识别模型对应的情感状态可以定义为“悲愤”等极端情感状态。基于用户的语音信号，通过情感识别模型可以输出该语音信号表达的情感与该情感识别模型对应的情感状态之间的相似度。

在一些实施例中，该情感识别服务器可以预先存储有每个用户的所有情感识别模型，并存储有每个用户的身份标识与该用户对应的所有情感识别模型标识之间的参考对应关系，如此情感识别服务器即可基于用户的身份标识和参考对应关系，调用用户的所有情感识别模型。

需要说明的是，每个用户的每种情感识别模型可以预先通过训练得到。在一种可能的实现方式中，每个用户的情感识别模型可以基于大量的训练样本对待训练的网络模型进行训练得到。譬如，请参考图4，在实施中，针对每个用户的每种情感状态，建立待训练的情感识别模型，获取该每个用户针对该种情感状态的多个语音片段，对该多个语音片段中每个语音片段依次进行数字化及预处理、端点检测处理、特征提取处理，得到每个语音片段的声纹特征，将提取的声纹特征输入至待训练的情感识别模型中进行深度学习，得到每种情感状态对应的情感识别模型。进一步地，可以使用该每个用户的测试样本对训练后的情感识别模型进行性能评估，即可以对测试样本依次进行数字化及预处理、端点检测处理、特征提取处理，得到测试样本的声纹特征，将该声纹特征输入至训练后的情感识别模型中，当情感识别的输出结果大于或等于第二性能阈值时，存储训练后的情感识别模型与每个用户的身份标识之间的对应关系，并记录该情感识别模型对应的情感状态信息。反之，当情感识别的输出结果小于该第二性能阈值时，可以继续获取训练样本进行深度学习。

需要说明的是，本申请实施例是以在情感识别服务器基于该身份标识调用该用户的所有情感识别模型之前，情感识别服务器对情感识别服务器基于该身份标识，调用该用户对应的语音验证模型，通过该语音验证模型对该语音信号进行语音验证为例进行说明。在另一实施例中，也可以不对语音信号进行语音验证，即情感识别服务器接收到语音信号和身份标识后，可以直接基于该身份标识调用该用户的所有情感识别模型，本申请实施例对此不作限定。

步骤204：情感识别服务器基于该语音信号，通过调用的情感识别模型确定该用户当前的情感状态信息。

在一种可能的实现方式中，提取该语音信号的声纹特征，分别将该声纹特征输入至调用的所有情感识别模型中的每个情感识别模型，由该每个情感识别模型对该声纹特征进行识别处理并输出情感相似度，基于输出的所有情感相似度，确定最大情感相似度对应的情感识别模型，将确定的情感识别模型对应的情感状态信息确定为该用户当前的情感状态信息。

进一步地，在提取该语音信号的声纹特征之前，还可以对该语音信号依次进行数字化及预处理、端点检测处理，然后提取声纹特征输入至每个情感识别模型中。其中，由于每种情感识别模型对应一种情感状态，因此，可以根据每个情感识别模型输出的识别结果来确定该用户当前的情感状态。即可以判断该语音信号通过哪个情感识别模型输出的情感相似度最大，情感识别模型输出的情感相似度越大，说明该语音信号所表达的情感与该情感识别模型对应的情感状态越接近，因此，确定最大情感相似度对应的情感识别模型，将确定的情感识别模型对应的情感状态信息确定为该用户当前的情感状态信息。

进一步地，确定该用户当前的情感状态信息之后，情感识别服务器将该语音信号和该情感状态信息保存为训练样本，该训练样本用于对该情感状态信息对应的情感识别模型继续训练。

在本申请的一种可能实现方式中，当该情感识别服务器包括声纹认证算法服务器、情感识别算法服务器和情感管理库时，每个用户的语音验证模型可以存储在声纹认证算法服务器中，且每个用户的所有情感识别模型可以存储在该情感管理库中。在该种情况下，声纹认证算法服务器对语音信号进行验证，并在验证通过后，可以向该情感管理库发送验证成功消息，进一步，该验证成功消息中可以携带有该用户的身份标识。该情感管理库接收到该验证成功消息后，基于该身份标识获取该用户的所有情感识别模型，并分享给情感识别算法服务器，该情感识别算法服务器通过该情感管理库分享的所有情感识别模型，对该用户的语音信号进行情感识别。

进一步地，情感识别算法服务器确定该用户当前的情感状态信息之后，可以将该语音信号和该情感状态信息作为训练样本存储至对应的情感管理库中，以通过不断收集不同用户的特定情感语音信息，不断完善每个用户的情感识别模型，从而增加情感识别的准确率。

步骤205：情感识别服务器将确定的情感状态信息发送给该数据管理服务器。

在一些实施例中，该情感识别服务器将确定的情感状态信息和身份标识发送给该数据管理服务器。进一步地，该情感识别服务器可以将该语音信号和该确定的情感状态信息发送给该数据管理服务器。也就是说，该情感识别服务器除了将确定的情感状态信息发送给该数据管理服务器外，还可以将该语音信号也一同发送给该数据管理服务器。

进一步地，在上述各个实现步骤中传输的数据还可以包括用户当前的位置信息和身份标识等，这里对此不做具体限定。

在一种可能的实现方式中，当该监控系统包括远程监控服务器时，该情感识别服务器可以将要发送给数据管理服务器的数据发送至远程监控服务器，以由该远程监控服务器将数据共享给数据管理服务器。

步骤206：数据管理服务器对该情感状态信息进行管理。

进一步地，当情感识别服务器将该语音信号和该确定的情感状态信息发送给该数据管理服务器时，该数据管理服务器对该语音信号和该情感状态信息进行管理。

在一种可能的实现方式中，数据管理服务器根据接收的数据，更新该身份标识对应的用户的情绪状态发生时间、频度及发生地点等要素的记录，村委会成员或政府监管人员利用大数据分析技术定期梳理分析以上数据管理服务器上的留守儿童相关数据，对于一些短期内情绪波动较为频繁的儿童信息单独标记并及时反馈给家长及监护人，当然对于留守儿童情绪极端所在的位置或场所通过大数据分析后，可适当增加摄像头等监管措施，从源头上保护留守儿童的行为安全和心理健康。

需要说明的是，上述仅是以该监控系统应用于对留守儿童的情感状态进行监控的场景中为例进行说明，此外，该监控系统还可以应用于任何需要情感监控的场景中，本申请实施例对此不做限定。

在本申请实施例中，语音采集设备采集语音信号，并将该语音信号和与该语音采集设备具有关联关系的用户的身份标识发送给情感服务器。该情感服务器调用该身份标识对应的所有情感识别模型，即调用该用户的所有情感识别模型。然后基于该语音信号，通过调用的所有情感识别模型确定用户当前的情感状态信息，并发给数据管理服务器进行管理。即该监控系统可以对用户的情感状态进行监控，增加了监控系统的管理性能。

图5是根据一示例性实施例示出的一种监控装置的结构示意图，该监控装置可以配置于情感识别服务器中。该监控装置可以包括：

接收模块510，用于接收所述语音采集设备采集的语音信号和与所述语音采集设备具有关联关系的用户的身份标识；

调用模块520，用于基于所述身份标识调用所述用户的所有情感识别模型，每个情感识别模型与所述用户的一种情感状态对应；

确定模块530，用于基于所述语音信号，通过调用的情感识别模型确定所述用户当前的情感状态信息；

发送模块540，用于将确定的情感状态信息发送给所述数据管理服务器进行管理。

可选地，所述调用模块520用于：

调用所确定的所有情感识别模型标识对应的情感识别模型。

可选地，所述确定模块530用于：

提取所述语音信号的声纹特征；

可选地，所述调用模块520还用于：

基于所述身份标识，调用所述用户对应的语音验证模型；

通过所述语音验证模型对所述语音信号进行语音验证；

可选地，请参考图6，所述装置还包括：

存储模块550，用于将所述语音信号和所述情感状态信息保存为训练样本，所述训练样本用于对所述情感状态信息对应的情感识别模型继续训练。

可选地，所述发送模块540用于：

需要说明的是：上述实施例提供的监控装置在实现监控方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的监控装置与监控方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本申请实施例提供的一种服务器700的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现上述各个方法实施例提供的监控方法。

当然，该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器700还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述各个实施例提供的监控方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个实施例提供的监控方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种监控系统，其特征在于，所述系统包括：语音采集设备、虚拟服务器、情感识别服务器和数据管理服务器，所述情感识别服务器分别与所述虚拟服务器和所述数据管理服务器建立通信连接；

所述语音采集设备，用于采集语音信号，将所述语音信号和与所述语音采集设备具有关联关系的用户的身份标识发送给所述虚拟服务器；

所述虚拟服务器用于确定所述语音信号的频谱能量，当所述频谱能量大于或等于频谱能量阈值时，将所述语音信号和所述身份标识转发给所述情感识别服务器；当所述频谱能量小于频谱能量阈值时，不将所述语音信号和所述身份标识转发给所述情感识别服务器，直接丢弃所述语音信号，并继续等待或处理语音采集设备发送的下一个语音信号；不同情感表达的语音信号在时间构造、振幅构造、基频构造以及共振峰构造方面具有不同的构造特点和分布规律；

所述数据管理服务器，用于对所述情感状态信息进行管理。

2.如权利要求1所述的系统，其特征在于，所述情感识别服务器，用于基于所述身份标识调用所述用户的所有情感识别模型，包括：

3.如权利要求1或2所述的系统，其特征在于，所述情感识别服务器，用于基于所述语音信号，通过调用的情感识别模型确定所述用户当前的情感状态信息，包括：

4.如权利要求1所述的系统，其特征在于，所述情感识别服务器基于所述身份标识调用所述用户的所有情感识别模型之前，还用于：

5.如权利要求1所述的系统，其特征在于，所述情感识别服务器基于所述语音信号，通过调用的情感识别模型确定所述用户当前的情感状态信息之后，还用于：

6.如权利要求1所述的系统，其特征在于，所述将确定的情感状态信息发送给所述数据管理服务器，包括：

7.一种监控方法，其特征在于，所述方法应用于监控系统的情感识别服务器中，所述监控系统还包括语音采集设备、虚拟服务器和数据管理服务器，所述情感识别服务器分别与所述虚拟服务器和所述数据管理服务器建立通信连接；

接收所述虚拟服务器转发的的语音信号和与所述语音采集设备具有关联关系的用户的身份标识，所述语音信号和所述身份标识是所述虚拟服务器在确定所述语音采集设备采集的语音信号的频谱能量大于或等于频谱能量阈值时转发的，不同情感表达的语音信号在时间构造、振幅构造、基频构造以及共振峰构造方面具有不同的构造特点和分布规律；

8.如权利要求7所述的方法，其特征在于，所述基于所述身份标识调用所述用户的所有情感识别模型，包括：

调用所确定的所有情感识别模型标识对应的情感识别模型。

9.如权利要求7或8所述的方法，其特征在于，所述基于所述语音信号，通过调用的情感识别模型确定所述用户当前的情感状态信息，包括：

提取所述语音信号的声纹特征；

10.如权利要求7所述的方法，其特征在于，所述基于所述身份标识调用所述用户的所有情感识别模型之前，还包括：

基于所述身份标识，调用所述用户对应的语音验证模型；

通过所述语音验证模型对所述语音信号进行语音验证；

11.如权利要求7所述的方法，其特征在于，所述基于所述语音信号，通过调用的情感识别模型确定所述用户当前的情感状态信息之后，还包括：

12.如权利要求7所述的方法，其特征在于，所述将确定的情感状态信息发送给所述数据管理服务器，包括：

13.一种监控装置，其特征在于，配置于监控系统的情感识别服务器中，所述监控系统还包括语音采集设备、虚拟服务器和数据管理服务器，所述情感识别服务器分别与所述虚拟服务器和所述数据管理服务器建立通信连接；所述装置包括：

接收模块，用于接收所述虚拟服务器转发的语音信号和与所述语音采集设备具有关联关系的用户的身份标识，所述语音信号和所述身份标识是所述虚拟服务器在确定所述语音采集设备采集的语音信号的频谱能量大于或等于频谱能量阈值时转发的，不同情感表达的语音信号在时间构造、振幅构造、基频构造以及共振峰构造方面具有不同的构造特点和分布规律；

14.如权利要求13所述的装置，其特征在于，所述调用模块用于：

调用所确定的所有情感识别模型标识对应的情感识别模型。

15.如权利要求13或14所述的装置，其特征在于，所述确定模块用于：

提取所述语音信号的声纹特征；

16.如权利要求13所述的装置，其特征在于，所述调用模块还用于：

基于所述身份标识，调用所述用户对应的语音验证模型；

通过所述语音验证模型对所述语音信号进行语音验证；

17.如权利要求13所述的装置，其特征在于，所述装置还包括：

18.如权利要求13所述的装置，其特征在于，所述发送模块用于：

19.一种情感识别服务器，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为实现权利要求7-12所述的任一项方法的步骤。

20.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求7-12所述的任一项方法的步骤。