CN112825553A

CN112825553A - 一种监控系统、方法、装置、设备和介质

Info

Publication number: CN112825553A
Application number: CN201911146940.0A
Authority: CN
Inventors: 王浩东; 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2021-05-21

Abstract

本申请公开了一种监控系统、方法、装置、设备和介质，属于监控技术领域，该方法包括，对周边音频进行采集，获得周边环境的音频数据；获得对音频数据进行音频识别的音频识别结果，当音频识别结果表示存在异常时，启动摄像；根据接收的跟踪视频，向管控终端发送异常通知消息。这样，降低了异常监控时的人力成本和物力成本。

Description

一种监控系统、方法、装置、设备和介质

技术领域

本申请涉及监控技术领域，尤其涉及一种监控系统、方法、装置、设备和介质。

背景技术

随着监控技术以及互联网技术的发展，监控技术的应用范围也越来越广。对于高铁以及电影院等大流量人群的场所进行监控，可以获取监控视频，以便及时解决发生的异常事件。

现有技术下，管理人员通常实时查看监控视频，当出现冲突等异常时，确定发生异常的地点，进而解决异常问题。

但是，这需要管理人员实时查看监控视频，会耗费大量的人力，并且需要实时进行摄像，这会耗费大量的监控资源。

由此，亟待一种可以降低监控时的人力成本和物力成本的监控方案。

发明内容

本申请实施例提供一种监控系统、方法、装置、设备和介质，用以在进行异常监控时，降低监控时的人力成本和物力成本。

一方面，提供一种监控系统，包括：服务器、多个音频采集设备以及多个图像采集设备，其中，

每一音频采集设备，用于对周边音频进行采集，获得周边环境的音频数据，并通过预先训练的音频识别模型对音频数据进行音频识别得到音频识别结果，当音频识别结果表示存在异常时，向图像采集设备发送唤醒指令；或者，用于对周边音频进行采集，获得周边环境的音频数据，并向服务器发送音频数据；

每一图像采集设备，用于根据接收的唤醒指令启动摄像，并将获得的跟踪视频发送至服务器；

服务器，用于通过音频识别模型对接收的音频数据进行音频识别，当音频识别结果表示存在异常时，向图像采集设备发送唤醒指令，以及用于接收图像采集设备发送的跟踪视频，并向管控终端发送异常通知消息。

较佳的，音频识别模型是采用深度学习对语音样本进行训练获得的。

较佳的，每一音频采集设备用于：

当音频识别结果表示存在异常时，根据音频数据，进行声源定位，获得定位信息；

根据定位信息，确定待唤醒的图像采集设备；

向待唤醒的图像采集设备，发送包含定位信息的唤醒指令。

较佳的，每一图像采集设备用于：

获取接收的唤醒指令中包含的定位信息；

启动摄像并根据定位信息，调整摄像角度，获得跟踪视频。

较佳的，服务器用于：

对接收的跟踪视频进行人脸识别；

分别将识别出的每一视频人脸图像与获取的合规人员信息集合中的各合规人员图像进行匹配；

根据匹配成功的视频人脸图像，确定该跟踪视频中的合规的异常人员信息；

根据匹配失败的视频人员图像，确定该跟踪视频中的违规的异常人员信息。

较佳的，还包括多个监控设备，每一监控设备用于：实时监控，并将监控视频发送至服务器；

服务器还用于：对接收的监控视频进行人脸识别，并分别将识别出的每一视频人脸图像与获取的合规人员信息集合中的各合规人员图像进行匹配，以及根据匹配失败的视频人脸图像，确定违规人员信息。

较佳的，服务器用于：

将匹配失败的视频人脸图像，确定为违规人员的视频人脸图像；

对接收的每一监控视频进行人脸识别，当存在监控视频包含匹配失败的视频人脸图像时，获取该监控视频对应的监控设备的位置信息和时间信息；

将获取的位置信息、时间信息以及违规人员的视频人脸图像，确定为违规人员信息；

将包含违规人员信息的违规提醒消息发送至管控终端。

较佳的，服务器还用于分别针对接收的监控视频中的每一座位的视频人脸图像，执行以下步骤：

将该座位的合规人员图像与该座位的视频人脸图像进行比对，其中，合规人员图像为根据合规人员信息集合获得的；

当比对结果表示不匹配时，向管控终端发送表示座位不匹配的座位通知消息。

一方面，提供一种监控方法，包括：

对周边音频进行采集，获得周边环境的音频数据；

通过预先训练的音频识别模型对音频数据进行音频识别，获得音频识别结果，当音频识别结果表示存在异常时启动摄像；或者，向服务器发送音频数据，并根据接收的服务器返回的唤醒指令启动摄像，其中，唤醒指令是服务器通过预先训练的音频识别模型对音频数据进行音频识别后，确定获得的音频识别结果表示存在异常时发送的；

根据接收的跟踪视频，向管控终端发送异常通知消息。

较佳的，当音频识别结果表示存在异常时，启动摄像，包括：

根据定位信息，启动摄像并调整摄像角度，获得跟踪视频。

较佳的，还包括：

对跟踪视频进行人脸识别；

较佳的，还包括：

获取实时监控的监控视频；

对监控视频进行人脸识别，并分别将识别出的每一视频人脸图像与获取的合规人员信息集合中的各合规人员图像进行匹配；

根据匹配失败的视频人脸图像，确定违规人员信息。

较佳的，根据匹配失败的视频人脸图像，确定违规人员信息，包括：

对接收的每一监控视频进行人脸识别，当存在监控视频包含匹配失败的视频人脸图像时，获取该监控视频对应的位置信息和时间信息；

将包含违规人员信息的违规提醒消息发送至管控终端。

较佳的，还包括：

分别针对获取的监控视频中的每一座位的视频人脸图像，将该座位的合规人员图像与该座位的视频人脸图像进行比对，当比对结果表示不匹配时，向管控终端发送表示座位不匹配的座位通知消息；

其中，合规人员图像为根据合规人员信息集合获得的。

一方面，提供一种监控装置，包括：

采集单元，用于对周边音频进行采集，获得周边环境的音频数据；

摄像单元，用于通过预先训练的音频识别模型对音频数据进行音频识别，获得音频识别结果，当音频识别结果表示存在异常时启动摄像；或者，向服务器发送音频数据，并根据接收的服务器返回的唤醒指令启动摄像，其中，唤醒指令是服务器通过预先训练的音频识别模型对音频数据进行音频识别后，确定获得的音频识别结果表示存在异常时发送的；

通知单元，用于根据接收的跟踪视频，向管控终端发送异常通知消息。

较佳的，摄像单元用于：

根据定位信息，启动摄像并调整摄像角度，获得跟踪视频。

较佳的，通知单元还用于：

对跟踪视频进行人脸识别；

较佳的，通知单元还用于：

获取实时监控的监控视频；

根据匹配失败的视频人脸图像，确定违规人员信息。

较佳的，通知单元还用于：

将包含违规人员信息的违规提醒消息发送至管控终端。

较佳的，还包括：

其中，合规人员图像为根据合规人员信息集合获得的。

一方面，提供一种控制设备，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用存储器中存储的程序指令，按照获得的程序指令执行上述任一种监控方法的步骤。

一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种监控方法的步骤。

本申请实施例提供的一种监控系统、方法、装置、设备和介质中，对周边音频进行采集，获得周边环境的音频数据；获得对音频数据进行音频识别的音频识别结果，当音频识别结果表示存在异常时，启动摄像；根据接收的跟踪视频，向管控终端发送异常通知消息。这样，降低了异常监控时的人力成本和物力成本。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例方式中一种监控系统示意图；

图2为本申请实施例方式中一种监控方法的实施流程图；

图3为本申请实施例方式中一种违规人员检测方法的实施流程图；

图4为本申请实施例方式中一种座位匹配检测方法的实施流程图；

图5为本申请实施例方式中一种监控装置的结构示意图；

图6为本申请实施例方式中一种控制设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

为了在进行人员检查时，降低人员检查的人力成本和时间成本，本申请实施例提供了一种监控系统、方法、装置、设备和介质。

本申请实施例可以应用于人员检查、异常事件监控以及占座事件监控的应用场景，如，高铁以及电影院等，在此不作限制。本申请实施例中，仅以应用于高铁的应用场景为例进行说明，在此不再赘述。

参阅图1所示，为本申请提供的一种监控系统示意图。监控系统包括服务器101、多个采集设备102，多个监控设备103、以及多个管控终端104。

其中，采集设备102中包含音频采集设备1021和图像采集设备1022。音频采集设备1021中内置有多个音频采集装置，如麦克风。

本申请实施例中，图1中仅以音频采集设备1021和图像采集设备1022位于同一采集设备102中为例进行说明。实际应用中，音频采集设备1021和图像采集设备1022可以位于同一采集设备中，也可以位于不同的采集设备，在此不作限制。

音频采集设备1021用于：对周边音频进行采集，获得周边环境的音频数据，并通过预先训练的音频识别模型对音频数据进行音频识别得到音频识别结果，当音频识别结果表示存在异常时，向图像采集设备1022发送唤醒指令；或者，用于对周边音频进行采集，获得周边环境的音频数据，并向服务器101发送音频数据。

图像采集设备1022用于：根据接收的唤醒指令启动摄像，并将获得的跟踪视频发送至服务器101。

监控设备103用于：实时监控，并将监控视频发送至服务器101。

服务器101：用于当接收到音频采集设备1021发送的音频数据时，通过音频识别模型对接收的音频数据进行音频识别，当音频识别结果表示存在异常时，向图像采集设备发送唤醒指令；还用于接收图像采集设备1022发送的跟踪视频，对跟踪视频进行人脸识别，确定跟踪视频中出现的异常人员信息，并向管控终端104发送异常通知消息；还用于接收监控设备103发送的监控视频，并对监控视频进行人脸识别，确定违规人员信息，并向管控终端104发送违规提醒消息；还用于分别针对接收的监控视频中的每一座位的视频人脸图像进行识别，确定座位不匹配信息，并向管控终端104发送表示座位不匹配的座位通知消息。

需要说明的是，实际应用中，确定音频识别结果时，为避免资源浪费，可以仅采用音频采集设备1021对音频数据进行音频识别，或者，仅采用服务器对音频数据进行音频识别。

本申请实施例中，可以通过音频采集设备1021确定发生异常的地点，并在发生异常时唤醒相应图像采集设备1022，也可以通过服务器确定发生异常的地点，并在发生异常时唤醒相应图像采集设备1022。这样，可以保留证据，以及通过实时监控的监控视频，可以识别违规人员以及座位不匹配人员，管理人员可以根据收到的消息及时处理各种事件，不需要人工实时查看监控视频，也不需要开启所有的图像采集设备1022，极大地降低了人力成本和物力成本。

下面采用三个应用场景对上述实施例进行详细说明。第一个应用场景为异常事件监控场景。执行主体为监控系统。参阅图2所示，为本申请提供的一种监控方法的实施流程图。该方法的具体实施流程如下：

步骤200：对周边音频进行采集，获得周边环境的音频数据。

具体的，音频采集设备中内置有多个音频采集装置，如麦克风，通过各音频采集装置对周边音频进行采集，分别获得每一音频采集装置采集的周边环境的音频数据。

需要说明的是，采用多个音频采集装置进行音频采集，用于在后续的步骤中进行声源定位。

步骤201：获得对音频数据进行音频识别的音频识别结果。

具体的，执行步骤201时，可以采用以下两种方式中的任意一种：

第一种方式为：音频采集设备通过预先训练的音频识别模型对音频数据进行音频识别，获得音频识别结果。

第二种方式为：音频采集设备将音频数据发送至服务器，服务器通过预先训练的音频识别模型对音频数据进行音频识别，获得音频识别结果。

也就是说，音频识别结果是音频采集设备或服务器通过预先训练的音频识别模型对音频数据进行音频识别后获得的。

其中，音频识别模型是采用深度学习对语音样本进行训练获得的。语音样本包括异常语音样本和非异常语音样本。异常语音样本为脏话、争吵以及威胁性语句等。

实际应用中，音频识别模型也可以根据实际应用场景采用其它方式(如，卷积神经网络)训练获得，在此不作限制。

这样，就可以对音频数据进行识别，以判断是否存在异常。

步骤202：当音频识别结果表示存在异常时，启动摄像，获得跟踪视频。

具体的，执行步骤202时，可以采用以下步骤：

S2021：当音频识别结果表示存在异常时，启动摄像。

具体的，执行S2021时，可以采用以下两种方式：

第一种方式为：当音频设备没有向服务器发送音频数据时，音频采集设备根据音频数据，进行声源定位，获得定位信息，并根据定位信息，向待唤醒的图像采集设备，发送包含定位信息的唤醒指令。

第二种方式为：当音频设备向服务器发送音频数据时，服务器根据音频数据，进行声源定位，获得定位信息，并根据定位信息，向待唤醒的图像采集设备，发送包含定位信息的唤醒指令。

若图像采集设备为多个，则根据定位信息以及图像采集设备的位置信息，确定待唤醒的图像采集设备，并向待唤醒的图像采集设备发送包含定位信息的唤醒指令。

其中，声源定位的定位原理可以采用仿双耳的声源定位原理、基于到达时间差的声源定位原理以及基于声压幅度比的定位原理等，在此不做限制。声源定位是听觉系统对发声物体位置的判断过程，它包括水平声源定位和垂直声源定位的识别。在多声源的复杂声场中，声源定位功能有助于从背景声中锁定声学目标，分离有用信息。

例如，音频采集设备或服务器通过多个麦克风采集的各音频数据，确定发生异常的定位信息。

S2022：图像采集设备获取接收的唤醒指令中包含的定位信息，并启动摄像以及根据定位信息，调整摄像角度，获得跟踪视频。

具体的，图像采集设备启动摄像，并根据实时接收的发生异常的定位信息，确定图像采集设备与发生异常的位置之间的角度，并调整摄像的旋转角度等，获得跟踪视频。

需要说明的是，当定位信息发生改变时，图像采集设备根据定位信息实时进行相应调整，以实现对异常事件的跟踪摄像。

进一步地，当音频识别结果表示预设时长内不存在异常时，音频采集设备向图像采集设备发送停止摄像指令，控制图像采集设备停止摄像。

其中，预设时长可以根据实际应用场景进行设置，如，10s，在此不作限制。

这样，可以仅在发生异常时，唤醒图像采集设备进行摄像，节省监控系统资源。

步骤203：对跟踪视频进行分析，确定异常人员信息。

具体的，执行步骤203时，可以采用以下步骤：

S2031：图像采集设备将获得的跟踪视频发送至服务器。

S2032：服务器图像采集设备发送的跟踪视频。

S2033：服务器对跟踪视频进行人脸识别，分别将识别出的每一视频人脸图像与获取的合规人员信息集合中的各合规人员图像进行匹配，并根据匹配成功的视频人脸图像，确定该跟踪视频中的合规的异常人员信息，以及根据匹配失败的视频人员图像，确定该跟踪视频中的违规的异常人员信息。

其中，合规人员信息集合为符合指定规则(如，有票人员)的合规人员的信息的集合，合规人员信息集合中包含合规人员的合规人员图像以及座位信息。

例如，高铁上的有票人员为合规人员，违规人员则为高铁上的无票人员。

异常人员为跟踪视频中出现的人员，针对任一人脸图像，若匹配成功，则说明该人脸图像对应的异常人员是合规的，如为有票人员，则合规的异常人员信息可以包括：视频人脸图像、合规人脸图像、人员记录信息(如，姓名、身份证号以及座号等)，以及发生异常的位置信息等。

若匹配成功，则说明该人脸图像对应的异常人员是违规的，如，无票人员，则合规的异常人员信息可以包括：视频人脸图像以及发生异常的位置信息等。

这样，就可以获取异常事件中出现的异常人员信息。

进一步地，服务器还将异常人员信息以及监控视频存储。

步骤204：向管控终端发送异常通知消息。

具体的，服务器向管控终端发送包含异常人员信息的异常通知消息。

这样，在发生异常事件时，就可以及时唤醒图像采集设备进行摄像，保留异常证据，以便后续事件处理，以及可以使得管理人员及时到达现场，对异常事件进行处理，提高处理效率，以及避免事态严重化。

下面采用一个违规人员检测的应用场景对上述实施例进行进一步说明，执行主体的监控系统。参阅图3所示，为本申请提供的一种违规人员检测方法的实施流程图。该方法的具体实施流程如下：

步骤300：获取实时监控的监控视频。

具体的，执行步骤300时，可以采用以下步骤：

S3001：每一监控设备实时监控，并将监控视频发送至服务器。

例如，在高铁的每节车厢的入口处安装监控设备，监控设备将监控视频发送至服务器。

S3002：服务器接收监控视频。

步骤301：对监控视频进行人脸识别，并分别将识别出的每一视频人脸图像与获取的合规人员信息集合中的各合规人员图像进行匹配。

具体的，服务器对监控视频进行人脸识别，并分别将识别出的每一视频人脸图像与获取的合规人员信息集合中的各合规人员图像进行匹配。

步骤302：根据匹配失败的视频人脸图像，确定违规人员信息。

具体的，执行步骤302时，服务器可以采用以下步骤：

S3021：将匹配失败的视频人脸图像，确定为违规人员的视频人脸图像。

这是由于当监控视频中的视频人脸图像不存在于合规人员信息集合中时，说明该视频人脸图像对应的人员为不符合指定规则的人员，即为违规人员。

S3022：对接收的每一监控视频进行人脸识别，当存在监控视频包含匹配失败的视频人脸图像时，获取该监控视频对应的监控设备的位置信息和时间信息。

具体的，分别针对每一监控视频，对该监控视频进行人脸识别，判断该监控视频中是否出现匹配失败的视频人脸图像，若是，则获取该监控视频对应的监控设备所在的位置信息以及监控视频中出现匹配失败的视频人脸图像的时间信息。

S3023：将获取的位置信息、时间信息以及相应的违规人员的视频人脸图像，作为违规人员信息。

步骤303：将包含违规人员信息的违规提醒消息发送至管控终端。

具体的，服务器在确定违规人员信息之后，存储违规人员信息，并将包含违规人员信息的违规提醒消息发送至管控终端。

这样，就可以根据监控视频对违规人员进行检查，获得违规人员信息，并通知管理人员，管理人员可以通过服务器或管控终端，查看违规人员的视频人脸图像，以及最近出现的位置，进而迅速找到违规人员，请违规人员下车或补票等。不需要人工进行检查，降低了人力成本，提高了检查效率，减少了人工检查时，对合规人员的打扰，提高了用户体验。

下面采用一个座位匹配检测的应用场景对上述实施例进行进一步说明，执行主体为监控系统。参阅图4所示，为本申请提供的一种座位匹配检测方法的实施流程图。该方法的具体实施流程如下：

步骤400：服务器接收监控视频。

步骤401：服务器对接收的监控视频进行人脸识别，获得各座位的视频人脸图像。

步骤402：服务器分别针对获取的监控视频中的每一座位的视频人脸图像，将该座位的合规人员图像与该座位的视频人脸图像进行比对。

具体的，服务器分别针对监控视频中的每一座位的视频人脸图像，执行以下步骤：

获取监控视频中在该座位上坐着的人员的视频人脸图像，以及将获得的合规人员图像与视频人脸图像进行比对。

步骤403：当比对结果表示不匹配时，服务器向管控终端发送表示座位不匹配的座位通知消息。

具体的，当比对结果表示不匹配时，说明当前在该座位坐着的人员与购买该座位的合规人员并非同一人，即购买该座位的合规人员可能被占座或换座，则通知管理人员来进行问询，以保证合规人员不被占座，减少人员由于占座问题引起的异常。

可选的，表示座位不匹配的座位通知消息中可以包含比对结果表示不匹配的座位信息、视频人脸图像以及合规人员图像等。

这样，就可以通过服务器检测每一座位实际乘坐的用户与购买该座位的合规人员是否为同一人，方便了管理人员对人员的管理，可以找到私自换位置的人员进行纠正，以及减少了被占座的事件。

本申请实施例中，将语音识别、声源定位、图像处理应用到监控场景中，可以通过音频采集设备确定发生异常的地点，并在发生异常时，唤醒相应图像采集设备拍摄以识别异常人员，以及通过实时监控的监控视频，可以识别违规人员以及座位不匹配人员，管理人员可以根据收到的消息及时处理各种事件，不需要人工实时查看监控视频，也不需要开启所有的监控设备，极大地降低了人力成本和物力成本，还为异常事件调查提供了有力的现场证据。

基于同一发明构思，本申请实施例中还提供了一种监控装置，由于上述装置及设备解决问题的原理与一种监控方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图5所示，其为本申请实施例提供的一种监控装置的结构示意图，包括：

采集单元501，用于对周边音频进行采集，获得周边环境的音频数据；

摄像单元502，用于通过预先训练的音频识别模型对所述音频数据进行音频识别，获得音频识别结果，当所述音频识别结果表示存在异常时启动摄像；或者，向服务器发送所述音频数据，并根据接收的所述服务器返回的唤醒指令启动摄像，其中，所述唤醒指令是所述服务器通过预先训练的音频识别模型对所述音频数据进行音频识别后，确定获得的音频识别结果表示存在异常时发送的；

通知单元503，用于根据接收的跟踪视频，向管控终端发送异常通知消息。

较佳的，摄像单元502用于：

根据定位信息，启动摄像并调整摄像角度，获得跟踪视频。

较佳的，通知单元503还用于：

对跟踪视频进行人脸识别；

较佳的，通知单元503还用于：

获取实时监控的监控视频；

根据匹配失败的视频人脸图像，确定违规人员信息。

较佳的，通知单元503还用于：

将包含违规人员信息的违规提醒消息发送至管控终端。

较佳的，还包括：

其中，合规人员图像为根据合规人员信息集合获得的。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

基于上述实施例，参阅图6所示，本申请实施例中，一种控制设备的结构示意图。

本申请实施例提供了一种控制设备，该控制设备可以包括处理器610(CenterProcessing Unit，CPU)、存储器620，还可以包括输入设备630和输出设备640等，输入设备630可以包括键盘、鼠标、触摸屏等，输出设备640可以包括显示设备，如液晶显示器(LiquidCrystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器620可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器610提供存储器620中存储的程序指令和数据。在本申请实施例中，存储器620可以用于存储本申请实施例中监控的程序。

处理器610通过调用存储器620存储的程序指令，处理器610用于执行图2所示的实施例提供的一种监控的方法。

本申请实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意方法实施例中的监控的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种监控系统，其特征在于，包括服务器、多个音频采集设备以及多个图像采集设备，其中，

每一音频采集设备，用于对周边音频进行采集，获得周边环境的音频数据，并通过预先训练的音频识别模型对所述音频数据进行音频识别得到音频识别结果，当所述音频识别结果表示存在异常时，向图像采集设备发送唤醒指令；或者，用于对周边音频进行采集，获得周边环境的音频数据，并向所述服务器发送所述音频数据；

每一图像采集设备，用于根据接收的唤醒指令启动摄像，并将获得的跟踪视频发送至所述服务器；

所述服务器，用于通过所述音频识别模型对接收的音频数据进行音频识别，当所述音频识别结果表示存在异常时，向图像采集设备发送唤醒指令，以及用于接收图像采集设备发送的跟踪视频，并向管控终端发送异常通知消息。

2.如权利要求1所述的系统，其特征在于，所述音频识别模型是采用深度学习对语音样本进行训练获得的。

3.如权利要求1所述的系统，其特征在于，每一音频采集设备用于：

当所述音频识别结果表示存在异常时，根据所述音频数据，进行声源定位，获得定位信息；

根据所述定位信息，确定待唤醒的图像采集设备；

向所述待唤醒的图像采集设备，发送包含所述定位信息的唤醒指令。

4.如权利要求3所述的系统，其特征在于，每一图像采集设备用于：

获取接收的唤醒指令中包含的定位信息；

启动摄像并根据所述定位信息，调整摄像角度，获得跟踪视频。

5.如权利要求1所述的系统，其特征在于，所述服务器用于：

对接收的跟踪视频进行人脸识别；

6.如权利要求1-5任一项所述的系统，其特征在于，还包括多个监控设备，每一监控设备用于：实时监控，并将监控视频发送至所述服务器；

所述服务器还用于：对接收的监控视频进行人脸识别，并分别将识别出的每一视频人脸图像与获取的合规人员信息集合中的各合规人员图像进行匹配，以及根据匹配失败的视频人脸图像，确定违规人员信息。

7.如权利要求6所述的系统，其特征在于，所述服务器用于：

将所述匹配失败的视频人脸图像，确定为违规人员的视频人脸图像；

对接收的每一监控视频进行人脸识别，当存在监控视频包含所述匹配失败的视频人脸图像时，获取该监控视频对应的监控设备的位置信息和时间信息；

将获取的位置信息、时间信息以及所述违规人员的视频人脸图像，确定为违规人员信息；

将包含所述违规人员信息的违规提醒消息发送至管控终端。

8.如权利要求6所述的系统，其特征在于，所述服务器还用于分别针对接收的监控视频中的每一座位的视频人脸图像，执行以下步骤：

将该座位的合规人员图像与该座位的视频人脸图像进行比对，其中，所述合规人员图像为根据所述合规人员信息集合获得的；

9.一种监控方法，其特征在于，包括：

对周边音频进行采集，获得周边环境的音频数据；

通过预先训练的音频识别模型对所述音频数据进行音频识别，获得音频识别结果，当所述音频识别结果表示存在异常时启动摄像；或者，向服务器发送所述音频数据，并根据接收的所述服务器返回的唤醒指令启动摄像，其中，所述唤醒指令是所述服务器通过预先训练的音频识别模型对所述音频数据进行音频识别后，确定获得的音频识别结果表示存在异常时发送的；

根据接收的跟踪视频，向管控终端发送异常通知消息。

10.如权利要求9所述的方法，其特征在于，所述音频识别模型是采用深度学习对语音样本进行训练获得的。

11.如权利要求9所述的方法，其特征在于，当所述音频识别结果表示存在异常时，启动摄像，包括：

根据所述定位信息，启动摄像并调整摄像角度，获得跟踪视频。

12.如权利要求9所述的方法，其特征在于，还包括：

对所述跟踪视频进行人脸识别；

13.如权利要求9-12任一项所述的方法，其特征在于，还包括：

获取实时监控的监控视频；

对所述监控视频进行人脸识别，并分别将识别出的每一视频人脸图像与获取的合规人员信息集合中的各合规人员图像进行匹配；

根据匹配失败的视频人脸图像，确定违规人员信息。

14.如权利要求13所述的方法，其特征在于，根据匹配失败的视频人脸图像，确定违规人员信息，包括：

对接收的每一监控视频进行人脸识别，当存在监控视频包含所述匹配失败的视频人脸图像时，获取该监控视频对应的位置信息和时间信息；

将包含所述违规人员信息的违规提醒消息发送至管控终端。

15.如权利要求13所述的方法，其特征在于，还包括：

其中，所述合规人员图像为根据所述合规人员信息集合获得的。

16.一种监控装置，其特征在于，包括：

摄像单元，用于通过预先训练的音频识别模型对所述音频数据进行音频识别，获得音频识别结果，当所述音频识别结果表示存在异常时启动摄像；或者，向服务器发送所述音频数据，并根据接收的所述服务器返回的唤醒指令启动摄像，其中，所述唤醒指令是所述服务器通过预先训练的音频识别模型对所述音频数据进行音频识别后，确定获得的音频识别结果表示存在异常时发送的；

17.如权利要求16所述的装置，其特征在于，所述音频识别模型是采用深度学习对语音样本进行训练获得的。

18.如权利要求16所述的装置，其特征在于，所述摄像单元用于：

19.如权利要求16所述的装置，其特征在于，所述通知单元还用于：

对所述跟踪视频进行人脸识别；

20.如权利要求16-19任一项所述的装置，其特征在于，所述通知单元还用于：

获取实时监控的监控视频；

根据匹配失败的视频人脸图像，确定违规人员信息。

21.如权利要求20所述的装置，其特征在于，所述通知单元还用于：

将包含所述违规人员信息的违规提醒消息发送至管控终端。

22.如权利要求20所述的装置，其特征在于，还包括：

23.一种控制设备，其特征在于，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述权利要求9-15任一项所述的方法的步骤。

24.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求9～15任一所述方法的步骤。