CN110659542A

CN110659542A - 监控方法及装置

Info

Publication number: CN110659542A
Application number: CN201810701223.9A
Authority: CN
Inventors: 范娜娜; 陈展; 周洪伟
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-01-07
Anticipated expiration: 2038-06-29
Also published as: CN110659542B

Abstract

本发明公开了一种监控方法及装置，属于监控技术领域。所述方法包括：获取考场的目标监控图像和目标声音信息；调用违规动作识别模型，将目标监控图像输入到违规动作识别模型；调用违规声音识别模型，将目标声音信息输入到所述违规声音识别模型；若通过违规动作识别模型识别出违规动作，且通过违规声音识别模型识别出违规声音，则确定该考场存在疑似作弊行为。本发明通过利用违规动作识别模型和违规声音模型，分别对考场图像中的违规动作和考场声音中的违规声音进行识别，提高了监考效率和检测作弊行为的准确度。

Description

监控方法及装置

技术领域

本发明涉及监控技术领域，特别涉及一种监控方法及装置。

背景技术

传统监考方式中，需要多名监考人员在考场上巡查监考，这样不仅会对考生造成干扰，而且，也不易准确发现作弊行为，为此，需要在考场上设置电子化的监控系统，以通过监控系统对考场进行准确监考。

相关技术中，监控系统通常包括设置在考场上的摄像头以及后台的监控终端，摄像头可以将采集的监控图像发送给监控终端，由监控终端进行显示，监考人员通过查看监控终端显示的监控图像，来识别考场上的作弊行为。

但是，这种由监考人员通过查看考场的监控图像，来识别作弊行为的方法，不仅浪费人力资源，且容易出现人为识别错误，准确性较低。

发明内容

本发明实施例提供了一种监控方法及装置，可以用于解决相关技术中存在的浪费人力资源，以及监考准确性较低的问题。所述技术方案如下：

一方面，提供了一种监控方法，所述方法包括：

获取考场的目标监控图像和目标声音信息；

调用违规动作识别模型，将所述目标监控图像输入到所述违规动作识别模型，所述违规动作识别模型用于根据任一考场图像的图像特征，对所述考场图像中的违规动作进行识别；

调用违规声音识别模型，将所述目标声音信息输入到所述违规声音识别模型，所述违规声音识别模型用于根据任一考场声音信息的声音特征，对所述考场声音信息中的违规声音进行识别；

若通过所述违规动作识别模型识别出违规动作，且通过所述违规声音识别模型识别出违规声音，则确定所述考场存在疑似作弊行为。

可选地，所述获取考场的目标监控图像和目标声音信息，包括：

获取所述考场的监控图像和声音信息；

当检测到所述监控图像中出现大幅度动作时，对所述大幅度动作进行动作定位，以确定第一区域，对所述监控图像中所述第一区域所在的图像进行放大处理，得到所述目标监控图像，所述第一区域是指所述大幅度动作的发生区域，所述大幅度动作是指动作幅度大于预设幅度阈值的动作；

当检测到所述声音信息中出现高音量声音时，对所述高音量声音进行声源定位，以确定第二区域，对所述声音信息中所述第二区域产生的区域声音信息进行放大处理，得到所述目标声音信息，所述第二区域是指所述高音量声音的产生区域，所述高音量声音是指音量大于预设音量阈值的声音。

可选地，所述若通过所述违规动作识别模型识别出违规动作，且通过所述违规声音识别模型识别出违规声音，则确定所述考场存在疑似作弊行为，包括：

若所述第一区域和所述第二区域为相同区域，且通过所述违规动作识别模型识别出违规动作，通过所述违规声音识别模型识别出违规声音，则确定所述第一区域或所述第二区域存在疑似作弊行为。

可选地，所述确定所述考场存在作弊行为之后，还包括：

若所述目标监控图像中存在人脸图像，则对所述目标监控图像进行人脸识别，将识别出的人脸图像与所述考场中的多个考生的人脸图像进行匹配，以确定疑似作弊考生的身份；

若所述目标声音信息中存在人声信息，则对所述目标声音信息进行人声识别，将识别出的人声信息与所述考场中的多个考生的人声信息进行匹配，以确定疑似作弊考生的身份。

可选地，所述调用违规动作识别模型之前，还包括：

获取多种违规动作的样本图像；

根据所述多种违规动作的样本图像，对待训练违规动作识别模型进行训练，得到所述违规动作识别模型。

可选地，所述多种违规动作包括站立、伸出手臂、扭头、转身和弯腰。

可选地，所述调用违规声音识别模型，包括：

获取多种违规声音的样本声音信息；

根据所述多种违规声音的样本声音信息，对待训练违规声音识别模型进行训练，得到所述违规声音识别模型。

可选地，所述多种违规声音包括人声、敲击物体的声音、脚步声和电子设备发出的声音。

第二方面，提供了一种监控系统，所述监控系统包括至少一个监控设备、至少一个声音采集设备和处理设备；

所述至少一个监控设备用于采集考场的目标监控图像，将所述目标监控图像发送给处理设备；

所述至少一个声音采集设备用于采集所述考场的目标声音信息，将所述目标声音信息发送给处理设备；

所述处理设备用于接收所述目标监控图像和所述目标声音信息；调用违规动作识别模型，将所述目标监控图像输入到所述违规动作识别模型，所述违规动作识别模型用于根据任一考场图像的图像特征，对所述考场图像中的违规动作进行识别；调用违规声音识别模型，将所述目标声音信息输入到所述违规声音识别模型，所述违规声音识别模型用于根据任一考场声音信息的声音特征，对所述考场声音信息中的违规声音进行识别；若通过所述违规动作识别模型识别出违规动作，且通过所述违规声音识别模型识别出违规声音，则确定所述考场存在疑似作弊行为。

第三方面，提供了一种监控装置，所述装置包括：

第一获取模块，用于获取考场的目标监控图像和目标声音信息；

第一识别模块，用于调用违规动作识别模型，将所述目标监控图像输入到所述违规动作识别模型，所述违规动作识别模型用于根据任一考场图像的图像特征，对所述考场图像中的违规动作进行识别；

第二识别模块，用于调用违规声音识别模型，将所述目标声音信息输入到所述违规声音识别模型，所述违规声音识别模型用于根据任一考场声音信息的声音特征，对所述考场声音信息中的违规声音进行识别；

确定模块，用于若通过所述违规动作识别模型识别出违规动作，且通过所述违规声音识别模型识别出违规声音，则确定所述考场存在疑似作弊行为。

可选地，所述获取模块包括：

获取单元，用于获取所述考场的监控图像和声音信息；

第一放大单元，用于当检测到所述监控图像中出现大幅度动作时，对所述大幅度动作进行动作定位，以确定第一区域，对所述监控图像中所述第一区域所在的图像进行放大处理，得到所述目标监控图像，所述第一区域是指所述大幅度动作的发生区域，所述大幅度动作是指动作幅度大于预设幅度阈值的动作；

第二放大单元，用于当检测到所述声音信息中出现高音量声音时，对所述高音量声音进行声源定位，以确定第二区域，对所述声音信息中所述第二区域产生的区域声音信息进行放大处理，得到所述目标声音信息，所述第二区域是指所述高音量声音的产生区域，所述高音量声音是指音量大于预设音量阈值的声音。

可选地，所述确定模块用于：

可选地，所述装置还包括：

第一确定模块，用于若所述目标监控图像中存在人脸图像，则对所述目标监控图像进行人脸识别，将识别出的人脸图像与所述考场中的多个考生的人脸图像进行匹配，以确定疑似作弊考生的身份；

第二确定模块，用于若所述目标声音信息中存在人声信息，则对所述目标声音信息进行人声识别，将识别出的人声信息与所述考场中的多个考生的人声信息进行匹配，以确定疑似作弊考生的身份。

可选地，所述装置还包括：

第二获取模块，用于获取多种违规动作的样本图像；

第一训练模块，用于根据所述多种违规动作的样本图像，对待训练违规动作识别模型进行训练，得到所述违规动作识别模型。

可选地，所述装置包括：

第三获取模块，用于获取多种违规声音的样本声音信息；

第二训练模块，用于根据所述多种违规声音的样本声音信息，对待训练违规声音识别模型进行训练，得到所述违规声音识别模型。

第四方面，提供了一种监控装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述任一种监控方法的步骤。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现上述任一种监控方法的步骤。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，可以获取考场的目标监控图像和目标声音信息，然后通过违规动作识别模型，对目标监控图像中的违规动作进行识别，并通过违规声音识别模型，对目标声音信息中的违规声音进行识别，若通过规动作识别模型识别出违规动作，且通过违规声音识别模型识别出违规声音，则确定考场存在疑似作弊行为。也即是，本发明可以结合考场的监控图像和声音信息，自动检测考场的作弊行为，提高了监考的效率和准确度。而且，通过利用违规动作识别模型和违规声音模型，分别对考场图像和考场声音进行识别，可以提高识别考场中违规动作和违规声音的准确度，通过在同时识别出违规动作和违规声音，确定考场存在疑似作弊行为，提高了确定作弊行为的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种监控系统的示意图；

图2是本发明实施例提供的另一种监控系统的示意图；

图3是本发明实施例提供的一种违规动作识别模型的训练方法流程图；

图4是本发明实施例提供的一种违规声音识别模型的训练方法流程图；

图5是本发明实施例提供的一种监控方法的流程图；

图6是本发明实施例提供的一种示例性的监控方法的流程图；

图7是本发明实施例提供的一种考生身份的识别方法的流程图；

图8是本发明实施例提供的一种监控装置的结构示意图；

图9是本发明实施例提供的处理设备900的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，先对本发明实施例的实施环境进行介绍。

本发明实施例提供的监控方法应用于监控系统中，图1是本发明实施例提供的一种监控系统的示意图，如图1所示，该监控系统包括设置在考场上的至少一个监控设备10和处理设备20，这至少一个监控设备10可以分别通过有线网络或无线网络和处理设备20进行连接。

其中，监控设备10用于对考场进行监控，得到考场的监控视频，该监控视频包括监控图像和声音信息。也即是，图1所述的监控设备10既具有图像采集功能，也具有声音采集功能。具体地，监控设备10可以为摄像头或球机等。

其中，处理设备20用于对监控视频中的监控图像和声音信息进行识别，或者，根据监控设备10的识别结果存储监控视频，以作为考生作弊的证据。具体地，处理设备20可以为手机、平板电脑或计算机等终端，也可以为服务器，而且，处理设备20可以设置在考场内，也可以设置在考场外，本发明实施例对此不做限定。

需要说明的是，图1仅是以监控系统中包括两个监控设备为例进行说明，而实际应用中，监控系统中还可以包括更多或更少的监控设备，本发明实施例对在考场上设置的监控设备的数量不做具体限定。

在一个实施例中，至少一个监控设备10可以将监控视频发送给处理设备20，由处理设备20通过违规动作识别模型，对监控图像中的违规动作进行识别，并通过违规声音识别模型，对声音信息中的违规声音进行识别，然后根据两个模型的识别结果，确定考场识别存在疑似作弊行为。具体地，可以在通过违规动作识别模型识别出违规动作，且通过违规声音识别模型识别出违规声音时，确定考场存在疑似作弊行为。

在另一实施例中，监控设备10可以存储有违规动作识别模型和违规声音识别模型的算法逻辑。监考过程中，监控设备20采集到监控视频后，可以由监控设备20自身通过违规动作识别模型，对监控图像中的违规动作进行识别，并通过违规声音识别模型，对声音信息中的违规声音进行识别，然后将两个模型的识别结果发送给处理设备20，由处理设备20根据这两个模型的识别结果，确定考场是否存在疑似作弊行为。或者，也可以由监控设备10自身直接根据两个模型的识别结果，确定考场是否存在疑似作弊行为，当确定存在疑似作弊行为时，将检测结果和监控视频发送给处理设备20。

需要说明的是，图1的监控系统中，通过采用具有图像采集功能和声音采集功能的监控设备进行监控，减小了监控系统的复杂度，便于部署和维护。

图2是本发明实施例提供的另一种监控系统的示意图，如图2所示，该监控系统包括至少一个监控设备10、至少一个声音采集设备30和处理设备20，至少一个监控设备10和个声音采集设备30可以分别与处理设备20通过有线网络或无线网络进行连接。

其中，至少一个监控设备10用于采集考场的监控图像，至少一个声音采集设备30用于采集考场的声音信息，处理设备20用于对监控图像和声音信息进行识别，或者，根据监控设备10和至少一个声音采集设备30的识别结果存储监控图像和声音信息，以作为考生作弊的证据。

具体地，监控设备10可以为摄像头或球机等，声音采集设备30可以为麦克风、话筒等，处理设备20可以为手机、平板电脑或计算机等终端，也可为服务器等。

需要说明的是，图2仅是以监控系统中包括两个监控设备和两个声音采集设备为例进行说明，而实际应用中，监控系统中还可以包括更多或更少的监控设备和声音采集设备，本发明实施例对在考场上设置的监控设备和声音采集设备的数量不做具体限定。

在一个实施例中，至少一个监控设备10可以将采集的监控图像发送给处理设备20，由处理设备20通过违规动作识别模型，对监控图像中的违规动作进行识别，至少一个声音采集设备30可以将采集的声音信息发送给处理设备20，由处理设备20通过违规声音识别模型，对声音信息中的违规声音进行识别，然后根据这两个模型的识别结果，确定考场识别存在疑似作弊行为。

在另一实施例中，监控设备10可以存储有违规动作识别模型的算法逻辑，声音采集设备可以存储有违规声音识别模型的算法逻辑。监考过程中，可以由监控设备10自身通过违规动作识别模型，对监控图像中的违规动作进行识别，并将识别结果发送给处理设备20，由声音采集设备30自身通过违规声音识别模型，对声音信息中的违规声音进行识别，并将识别结果发送给处理设备20，然后，由处理设备20根据两个模型的识别结果，确定考场是否存在疑似作弊行为。

需要说明的是，图2的监控系统中，通过采用专门的声音采集设备30采集考场的声音信息，可以提高声音信息的采集效果和质量，进而提高了监考的准确度。

接下来对本发明实施例提供的监控方法需要用到的违规动作识别模型和违规声音识别模型进行介绍。

违规动作识别模型

违规动作识别模型用于根据任一考场图像的图像特征，对考场图像中的违规动作进行识别，也即是，能够识别出任一考场图像中是否存在违规动作。

违规声音识别模型

违规声音识别模型用于根据任一考场声音信息的声音特征，对考场声音信息中的违规声音进行识别，也即是，能够识别出任一考场声音信息中是否存在违规声音。

为了得到上述两种识别模型，需要预先获取样本数据，并根据样本数据对待训练识别模型进行训练，也即是，需要基于大数据机器学习的方法训练得到这两种识别模型，接下来将在图3和图4实施例中对这两种识别模型的训练方法分别进行详细介绍。

图3是本发明实施例提供的一种违规动作识别模型的训练方法流程图，该方法可以应用于任一电子设备，如图3所示，该方法包括：

步骤301：获取多种违规动作的样本图像。

考生在考试中进行作弊时，一般会出现考生之间的肢体接触，如前后左右互相抄袭、传纸条、敲击物体或通过电子设备查找答案等，这些动作都是考生在正常考试过程中不会出现的违规动作，因此，本发明实施例可以通过准确识别各种违规动作，来确定考生是否出现作弊行为。而为了准确识别考场上的违规动作，需要先收集考生的违规动作数据，即多种违规动作的样本图像。

其中，违规动作是指考生在正常考试过程中不会出现的动作，具体可以包括考生的站立、伸出手臂、扭头、转身或弯腰的动作等。站立包括完全站立和不完全站立，伸出手臂包括向除自己考试范围之外的区域伸出手臂，扭头包括向前后左右各个方向扭头。

需要说明的是，每种违规动作的样本图像是指包括每种违规动作的图像，且这多种违规动作的样本图像可以从图像数据库中查找得到，或者从考场的监控视频中获取得到，也可以通过其他方式获取得到，本发明实施例对此不做限定。而且，上述几种违规动作仅是本发明实施例提供的示例性动作，实际应用中，还可以包括其他违规动作，本发明实施例对此也不做限定。

步骤302：根据多种违规动作的样本图像，对待训练违规动作识别模型进行训练，得到违规动作识别模型。

在根据多种违规动作的样本图像，对待训练违规动作识别模型进行训练的过程中，待训练违规动作识别模型可以学习到各种违规动作的样本图像的图像特征，对待训练违规动作识别模型进行充分训练之后，即可得到能够根据任一考场图像的图像特征，对考场图像中的违规动作进行识别，即识别出任一考场图像中是否具有违规动作的违规动作识别模型。

具体地，获取多张违规动作的样本图像之后，可以将多种违规动作的样本动作图像的样本标签均设置为违规动作标签，也即是，将这多种违规动作的样本图像均标记为违规动作图像，以指示对应样本图像中的动作均属于违规动作，然后根据该多种违规动作的样本图像以及每张样本图像的样本动作标签，对待训练违规动作识别模型进行训练，得到该违规动作识别模型。

在一种可能的实施例中，可以将该多种违规动作的样本图像输入待训练违规动作识别模型，通过待训练违规动作识别模型得到每张样本图像的动作标签，然后将每张样本图像的动作标签和样本动作标签进行比较，并根据比较结果对待训练违规动作识别模型的模型参数进行调整，以使得调整后的待训练违规动作识别模型输出的每张样本图像的动作标签逐渐趋向于样本动作标签，然后将参数调整后的待训练违规动作识别模型确定为该违规动作识别模型。

进一步地，将多种违规动作的样本图像的样本动作标签均设置为违规动作标签时，还可以根据多种违规动作的类型，为多种违规动作的样本图像的违规动作标签进行分类，以使训练得到的规动作识别模型不仅可以识别出任一考场图像中是否包括违规动作，还可以识别出包括的违规动作的类型，即识别出包括的违规动作属于哪种违规动作。如此，进一步提高了违规动作识别模型的识别精度。

图4是本发明实施例提供的一种违规声音识别模型的训练方法流程图，该方法可以应用于任一电子设备，如图4所示，该方法包括：

步骤401：获取多种违规声音的样本声音信息。

考生在考试中进行作弊时，一般会发出一些异常声音，如说话的声音、敲击桌面的声音或使用电子设备的声音等，这些声音都是考生在正常考试过程中不会出现的违规声音，因此，本发明实施例可以通过准确识别各种违规声音，来确定考生是否出现作弊行为。而为了准确识别考场上的违规声音，需要先收集考生的违规声音数据，即多种违规声音的声音信息。

其中，违规声音是指考生在正常考试过程中一般不会发出的声音，如人声、敲击物体的声音、脚步声和电子设备发出的声音等。人声包括大声说话的声音或小声说话的声音，敲击物体的声音包括敲击桌面的声音、敲击座椅的声音或敲击人体的声音等，电子设备包括手机、电子手表或其他考场不允许携带的袋子设备。

需要说明的是，每种违规声音的样本声音信息是指包括每种违规声音的声音信息，如包括每种违规声音的音频等，且这多种违规声音的样本声音信息可以从声音数据库中查找得到，或者从考场的监控视频中获取得到，或者通过考场的声音采集设备采集得到，也可以通过其他方式获取得到，本发明实施例对此不做限定。而且，上述几种违规声音仅是本发明实施例提供的示例性声音，实际应用中，还可以包括其他违规声音，本发明实施例对此也不做限定。

步骤402：根据多种违规声音的样本声音信息，对待训练违规声音识别模型进行训练，得到违规声音识别模型。

在根据多种违规声音的样本声音信息，对待训练违规声音识别模型进行训练的过程中，待训练违规声音识别模型可以学习到各种违规声音的样本声音信息的声音特征，对待训练违规声音识别模型进行充分训练之后，即可得到能够根据任一考场声音信息的声音特征，对考场声音信息中的违规声音进行识别，即识别出任一考场声音信息中是否存在违规声音的违规声音识别模型。

具体地，获取多张违规声音的样本声音信息之后，可以将多种违规声音的样本声音信息的样本标签均设置为违规声音标签，也即是，将这多种违规声音的样本声音信息均标记为违规声音信息，以指示对应样本声音信息中的声音均属于违规声音，然后根据该多种违规声音的样本声音信息以及每种样本图像的样本声音标签，对待训练违规声音识别模型进行训练，得到违规声音识别模型。

在一种可能的实施例中，可以将多种违规声音的样本声音信息输入待训练违规声音识别模型，通过待训练违规声音识别模型得到每种样本声音信息的声音标签，然后将每种样本声音信息的声音标签和样本声音标签进行比较，并根据比较结果对待训练违规声音识别模型的模型参数进行调整，以使得调整后的待训练违规声音识别模型输出的每种样本声音信息的声音标签逐渐趋向于样本声音标签，然后将参数调整后的待训练违规声音识别模型确定为该违规声音识别模型。

进一步地，将多种违规声音的样本声音信息的样本动作标签均设置为违规声音标签时，还可以根据多种违规声音的类型，为多种违规声音的样本声音信息的违规声音标签进行分类，以使训练得到的违规声音识别模型不仅可以识别出任一考场声音信息中是否包括违规声音，还可以识别出包括的违规声音的类型，即识别出包括的违规声音属于哪种违规声音。如此，进一步提高了违规声音识别模型的识别精度。

图5是本发明实施例提供的一种监控方法的流程图，该方法用于上述图1或图2所示的监控系统中，具体可以由上述监控系统中的多个设备交互执行，也可以由上述监控系统中的处理设备执行。参见图5，该方法包括：

步骤501：获取考场的目标监控图像和目标声音信息。

其中，目标监控图像可以根据考场的监控视频获取得到，比如，从监控视频中的任一帧监控画面中获取得到。目标声音信息可以根据考场的监控视频获取得到，也可以根据考场中专门设置的声音采集设备采集的声音信息获取得到，本发明实施例对此不做限定。

在一个实施例中，获取考场的目标监控图像和目标声音信息包括如下步骤：

1)获取考场的监控图像和声音信息。

具体地，可以实时采集考场的监控图像和声音信息，也可以周期性地获取考场的监控图像和声音信息，而且，可以同时获取考场的监控图像和声音信息。

在一种可能的实施例中，可以在考场中设置至少一个监控设备和至少一个图像采集设备，然后通过至少一个监控设备实时采集监控图像，并通过至少一个图像采集设备实时采集声音信息，然后将实时采集的监控图像和声音信息发送给处理设备，由处理设备对监控图像和声音信息分别进行检测。

2)当检测到监控图像中出现大幅度动作时，对该大幅度动作进行动作定位，以确定第一区域，根据监控图像中第一区域所在的图像，确定目标监控图像。

其中，第一区域是指该大幅度动作的发生区域，大幅度动作是指动作幅度大于预设幅度阈值的动作。该预设幅度阈值可以由检测设备默认设置，也可以由技术人员根据实际判定需要进行设置。

由于考生在正常考试过程中一般不会出现大幅度动作，因此，当出现大幅度动作时，极有可能存在违规动作，通过对该大幅度动作进行动作定位，可以对可能存在违规动作的区域进行定位，通过根据监控图像中第一区域所在的图像，确定目标监控图像，缩小了图像识别范围，提高识别效率。

具体地，根据监控图像中第一区域所在的图像，确定目标监控图像包括以下两种实现方式：

第一种实现方式：将监控图像中第一区域所在的图像确定为目标监控图像。

通过直接将第一区域所在的图像确定为目标监控图像，然后仅对目标监控图像做违规动作识别处理，减小了图像处理的复杂度，处理效率较高。

第二种实现方式：对监控图像中第一区域所在的图像进行放大处理，得到目标监控图像。

通过对监控图像中第一区域所在的图像进行放大处理，然后将放大处理后的第一区域所在的图像确定为目标监控图像，可以便于对目标监控图像的识别处理，提高了识别精度。

3)当检测到声音信息中出现高音量声音时，对该高音量声音进行声源定位，以确定第二区域，根据该声音信息中第二区域产生的区域声音信息，确定目标声音信息。

其中，第二区域是指高音量声音的产生区域，高音量声音是指音量大于预设音量阈值的声音。该预设音量阈值可以由检测设备默认设置，也可以由技术人员根据实际判定需要进行设置。

由于考生在正常考试过程中一般不会出现高音量声音，因此，当出现高音量声音时，极有可能存在违规声音，通过对该高音量声音进行声源定位，可以对可能产生违规声音的区域进行定位，通过根据该声音信息中第二区域产生的区域声音信息，确定目标声音信息，可以缩小声音识别范围，提高识别效率。

在一个实施例中，当通过多个声音采集设备分别采集考场的初始声音信息时，可以根据该多个声音采集设备的位置和该多个声音信息采集设备分别采集的初始声音信息，对考场中的高音量声音进行声源定位。具体地，当考场中出现高音量声音，该多个声音信息采集设备中将有至少一个声音采集设备采集到的初始声音信息会出现音频抖动的现象，当有至少一个声音采集设备采集到的初始声音信息出现音频抖动的现象时，可以根据该至少一个声音采集设备的位置以及每个声音采集设备采集到的初始声音信息的音频抖动幅度，来对高音量声音进行声源定位，以确定该第二区域。

而且，当通过多个声音采集设备分别采集考场的初始声音信息时，通常可以对该多个声音采集设备分别采集考场的初始声音信息进行加权处理，得到该声音信息。

具体地，根据该声音信息中第二区域产生的区域声音信息，确定目标声音信息可以包括以下两种实现方式：

第一种实现方式：将该声音信息中第二区域产生的区域声音信息确定为目标声音信息。

具体地，当通过多个声音采集设备分别采集初始声音信息时，可以将多个声音采集设备分别采集到的初始声音信息中的音频抖动部分的声音信息进行加权处理，得到目标声音信息。

通过直接将第二区域产生的区域声音信息确定为目标声音信息，然后仅对目标声音信息做违规声音识别处理，减小了声音处理的复杂度，处理效率较高。

第二种实现方式：对该声音信息中第二区域产生的区域声音信息进行放大处理，得到目标声音信息。

具体地，对该声音信息中第二区域产生的初始声音信息进行放大处理包括：当通过多个声音采集设备分别采集初始声音信息时，在对高音量声音进行声源定位之后，可以根据第二区域重新确定各个声音采集设备采集的初始声音信息的权重，然后根据各个声音采集设备采集的初始声音信息的权重，对该多个声音采集设备采集的初始声音信息进行加权处理，得到目标声音信息。比如，可以将靠近第二区域的声音采集设备采集的初始声音信息的权重增大，将远离第二区域的声音采集设备采集的初始声音信息的权重减小，然后根据重新确定的权重，对该多个声音采集设备采集的初始声音信息进行加权处理，如此即可实现将第二区域产生的区域声音信息进行放大。

通过对声音信息中第二区域产生的区域声音信息进行放大处理，然后将放大处理后的声音信息确定为目标声音信息，可以便于对目标声音信息的识别处理，提高了识别精度。

步骤502：调用违规动作识别模型，将目标监控图像输入到违规动作识别模型。

将目标监控图像输入到违规动作识别模型之后，该违规动作识别模型即可对目标监控图像进行识别，以确定目标监控图像中是否存在违规动作。

具体地，在将目标监控图像输入到违规动作识别模型之后，若违规动作识别模型输出违规动作标签，则确定目标监控图像中存在违规动作，即通过违规动作识别模型识别出违规动作；若违规动作识别模型输出正常动作标签，则确定目标监控图像中不存在违规动作，即通过违规动作识别模型未识别出违规动作。

步骤503：调用违规声音识别模型，将目标声音信息输入到违规声音识别模型。

将目标声音信息输入到违规声音识别模型之后，该违规声音识别模型即可对目标声音信息进行识别，以确定目标声音信息中是否存在违规声音。

具体地，将目标声音信息输入到违规声音识别模型之后，若违规声音识别模型输出违规声音标签，则确定目标声音信息中存在违规声音，即通过违规声音识别模型识别出违规声音；若违规声音识别模型输出正常声音标签，则确定目标声音信息中不存在违规声音，即通过违规声音识别模型未识别出违规声音。

需要说明的是，本发明实施例对违规动作识别模型和违规声音识别模型的调用时序的先后不做限定，可以先调用违规动作识别模型对违规动作进行识别，再调用违规声音识别模型对违规声音进行识别，也可以先调用违规声音识别模型对违规声音进行识别，再调用违规动作识别模型对违规动作进行识别，当然，也可以同时调用违规动作识别模型和违规声音识别模型，以同时对违规动作和违规声音进行识别。

步骤504：若通过违规动作识别模型识别出违规动作，且通过违规声音识别模型识别出违规声音，则确定考场存在疑似作弊行为。

也即是，本发明实施例可以对动作和声音进行双重检测，在检测到考场中同时出现违规动作和违规声音时，确定考场存在疑似作弊行为。由于考生在同时做出违规动作和发出违规声音的情况下，作弊的可能性较高，而只做出违规动作或只发出违规声音的情况下，作弊的可能性较低，因此在检测到考场中同时出现违规动作和违规声音时，确定考场存在疑似作弊行为，可以提高检测作弊行为的准确度，避免了对考生作弊行为的误检。

进一步地，若目标监控图像是根据第一区域所在的图像确定得到，且目标声音信息是根据第二区域产生的区域声音信息确定得到时，还需要检测该第一区域和第二区域是否为相同区域，若第一区域和第二区域为相同区域，且通过违规动作识别模型识别出违规动作，通过违规声音识别模型识别出违规声音，则确定第一区域或第二区域存在疑似作弊行为。

进一步地，确定考场存在疑似作弊行为之后，还可以发出报警提示信息，以提示监考人员检测到疑似作弊行为。

进一步地，确定考场存在疑似作弊行为之后，还可以记录此处疑似作弊事件，并将疑似作弊行为的监控视频段和识别结果作为证据进行保存或上传，以留作后续处理或仲裁的资料。比如，在确定考场存在疑似作弊行为之后，可以将目标监控图像和目标声音信息，或监控图像和声音信息，或疑似作弊行为发生的时间段内的监控视频和声音信息，作为作弊证据进行保存和上传。

进一步地，确定考场存在作弊行为之后，还可以对疑似作弊考生的身份进行识别。具体地，若目标监控图像中存在人脸图像，则对目标监控图像进行人脸识别，将识别出的人脸图像与考场中的多个考生的人脸图像进行匹配，以确定疑似作弊考生的身份；若目标声音信息中存在人声信息，则对目标声音信息进行人声识别，将识别出的人声信息与考场中的多个考生的人声信息进行匹配，以确定疑似作弊考生的身份。

其中，考场中的多个考生的人脸图像和多个考生的人声信息可以在考生考试之前预先采集得到。若目标监控图像中不存在人脸图像，且目标声音信息中不存在人声信息，还可以将目标监控图像和目标声音信息提交至仲裁处，由仲裁人员人工识别疑似作弊考生的身份。

在一个实施例中，在考生考试之前，可以采集每个考生的人脸图像和人声信息，并将采集到的每个考生的人脸图像和人声信息存储在考生数据库中。当确定考场存在作弊行为之后，先判断目标监控图像中是否存在人脸图像，若目标监控图像中存在人脸图像，则对目标监控图像进行人脸识别，并将识别出的人脸图像与预先采集的该考场中的多个考生的人脸图像依次进行匹配，当匹配成功时，确定匹配的考生的身份，并将匹配的考生确定为疑似作弊考生。若目标监控图像不存在人脸图像，则判断目标声音信息中是否存在人声信息，若目标声音信息中存在人声信息，则对目标声音信息进行人声识别，将识别出的人声信息与预先采集的考场中的多个考生的人声信息依次进行匹配，当匹配成功时，确定匹配的考生的身份，并将匹配的考生确定为疑似作弊考生。

相关技术中，一般由监考人员根据监控画面中疑似作弊考生的座位号来确定疑似作弊考生的身份，但是座位号通常都较小，而且容易被遮挡，因此很难准确确认疑似作弊考生的身份。本发明实施例中，通过采用人脸识别或声音识别技术来识别疑似作弊考生的身份，不仅节省了人力资源，且提高了识别的准确度和识别效率，使得整个监控系统的可靠性更高。

本发明实施例中，可以获取考场的目标监控图像和目标声音信息，然后通过违规动作识别模型，对目标监控图像中的违规动作进行识别，并通过违规声音识别模型，对目标声音信息中的违规声音进行识别，若通过规动作识别模型识别出违规动作，且通过违规声音识别模型识别出违规声音，则确定考场存在疑似作弊行为。也即是，本发明可以结合考场的监控图像和声音信息，自动检测考场的作弊行为，提高了监考的效率和准确度。而且，通过利用违规动作识别模型和违规声音模型，分别对考场图像和考场声音进行识别，提高了识别考场中违规动作和违规声音的准确度，通过在同时识别出违规动作和违规声音，确定考场存在疑似作弊行为，提高了确定作弊行为的准确度。

下面将结合图2所示的监控系统，对本发明时实施例提供的监控方法进行详细介绍，图6是本发明实施例提供的一种示例性的监控方法的流程图，该方法应用于监控系统中的处理设备，如图6所示，该方法包括：

步骤601：开始监测。

步骤602：控制多个监控设备和多个声音采集设备开启。

步骤603：通过多个监控设备采集监控图像，并对监控图像进行实时动作检测，通过多个声音采集设备采集声音信息，并对声音信息进行实时声音检测。

步骤604：检测监控图像中是否出现大幅度动作，以及检测声音信息中是否出现高音量声音。

步骤605：若监控图像中出现大幅度动作，则对大幅度动作的发生区域的图像进行放大处理，得到目标监控图像，并对目标监控图像进行违规动作识别；若声音信息中出现高音量声音，则对高音量声音的声源进行定位，对放大声源方向的声音信息进行发动处理，得到目标声音信息，并对目标声音信息进行违规声音识别。

步骤606：判断是否满足联合条件，该联合条件是指从目标监控图像中识别出违规动作，且从目标声音信息中识别出违规声音。

步骤607：若满足该联合条件，则确定考场中存在疑似作弊行为。

步骤608：保留并上传目标监控图像和目标声音信息。

步骤609：继续监测。

本发明实施例中，通过采用图像加声音的双重检测机制来检测作弊行为，使得检测的准确率相对于传统单一的方法提高很多，而且无论是图像检测还是声音检测，都是基于事先根据大数据训练的识别模型进行检测，检测作弊行为的准确率较高，且其容错性也较好。

图7是本发明实施例提供的一种考生身份的识别方法的流程图，该方法应用于任一电子设备，如图7所示，该方法包括：

步骤701：开始。

步骤702：获取目标监控图像和目标声音信息。

步骤703：判断目标监控图像中是否存在人脸图像。

步骤704：若目标监控图像中存在人脸图像，则对目标监控图像进行人脸识别。

步骤705：若目标监控图像中不存在人脸图像，则判断目标声音信息中是否存在人声。

步骤706：若目标声音信息中存在人声信息，则对目标声音信息进行人声识别。

步骤707：将识别出的信息与考生资料进行匹配。

其中，识别出的信息可以为识别出的人脸图像或人声信息，考生资料包括考场中的多个考生的人脸图像或人声信息。具体地，若识别出人脸图像，可以将识别出人脸图像与多个考生的人脸图像进行匹配，若识别出人声信息，可以将识别出的人声信息与多个考生的人声信息进行匹配。

步骤708：判断是否匹配成功。

步骤709：若匹配成功，则确认匹配的考生的身份。

而且，可以将匹配的考生的身份确定为疑似作弊考生的身份。

步骤710：若未匹配成功，或目标声音信息中不存在人声信息，则对目标监控图像和目标声音信息进行人工识别，以通过人工识别来确认疑似作弊考生的分别。

步骤711：结束。

本发明实施例中，通过基于人脸识别和人声识别技术，能够自动识别出作弊考生的身份，比依靠座位号等方式进行识别的可行性要高。

图8是本发明实施例提供的一种监控装置的结构示意图，如图8所示，该装置包括第一获取模块801、第一识别模型802、第二识别模块803和确定模块804。

第一获取模块801，用于获取考场的目标监控图像和目标声音信息；

第一识别模块802，用于调用违规动作识别模型，将所述目标监控图像输入到所述违规动作识别模型，所述违规动作识别模型用于根据任一考场图像的图像特征，对所述考场图像中的违规动作进行识别；

第二识别模块803，用于调用违规声音识别模型，将所述目标声音信息输入到所述违规声音识别模型，所述违规声音识别模型用于根据任一考场声音信息的声音特征，对所述考场声音信息中的违规声音进行识别；

确定模块804，用于若通过所述违规动作识别模型识别出违规动作，且通过所述违规声音识别模型识别出违规声音，则确定所述考场存在疑似作弊行为。

可选地，所述获取模块801包括：

获取单元，用于获取所述考场的监控图像和声音信息；

可选地，所述确定模块804用于：

可选地，所述装置还包括：

第二获取模块，用于获取多种违规动作的样本图像；

可选地，所述装置包括：

第三获取模块，用于获取多种违规声音的样本声音信息；

需要说明的是：上述实施例提供的监控装置在对考场进行监考时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的监控装置与监控方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本发明实施例提供的处理设备900的结构示意图。该处理设备900可以是智能手机、平板电脑、笔记本电脑或台式电脑等终端，也可以是服务器。示例的，处理设备900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，处理设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的监控方法。

在一些实施例中，处理设备900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、触摸显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它处理设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置处理设备900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在处理设备900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在处理设备900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在处理设备的前面板，后置摄像头设置在处理设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在处理设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位处理设备900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源909用于为处理设备900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，处理设备900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以处理设备900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测处理设备900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对处理设备900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在处理设备900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在处理设备900的侧边框时，可以检测用户对处理设备900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时，由处理器901根据用户对触摸显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置处理设备900的正面、背面或侧面。当处理设备900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制触摸显示屏905的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏905的显示亮度；当环境光强度较低时，调低触摸显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在处理设备900的前面板。接近传感器916用于采集用户与处理设备900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与处理设备900的正面之间的距离逐渐变小时，由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与处理设备900的正面之间的距离逐渐变大时，由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对处理设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种监控方法，其特征在于，所述方法包括：

获取考场的目标监控图像和目标声音信息；

2.如权利要求1所述的方法，其特征在于，所述获取考场的目标监控图像和目标声音信息，包括：

获取所述考场的监控图像和声音信息；

3.如权利要求2所述的方法，其特征在于，所述若通过所述违规动作识别模型识别出违规动作，且通过所述违规声音识别模型识别出违规声音，则确定所述考场存在疑似作弊行为，包括：

4.如权利要求1所述的方法，其特征在于，所述确定所述考场存在作弊行为之后，还包括：

5.一种监控系统，其特征在于，所述监控系统包括至少一个监控设备、至少一个声音采集设备和处理设备；

6.一种监控装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述获取模块包括：

获取单元，用于获取所述考场的监控图像和声音信息；

8.如权利要求7所述的装置，其特征在于，所述确定模块用于：

9.如权利要求6所述的装置，其特征在于，所述装置还包括：

10.一种监控装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-4所述的任一项方法的步骤。

11.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-4所述的任一项方法的步骤。