CN112270671B

CN112270671B - 图像检测方法、装置、电子设备及存储介质

Info

Publication number: CN112270671B
Application number: CN202011247283.1A
Authority: CN
Inventors: 李红运
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2023-06-02
Anticipated expiration: 2040-11-10
Also published as: CN112270671A

Abstract

本申请实施例提供了图像检测方法、装置、电子设备及存储介质，在检测图像中的事件时，还考虑了目标的种类及位置，因为目标的位置为有效确定的位置，因此目标的标注能够准确标注目标的区域，有效体现出事件中目标的相互关系，从而减少深度学习模型误检的情况；并且相比于抽象的事件，目标有明确的概念及位置，标注目标能够有效减少无法确定框定范围及框定多少个框情况，从而减少深度学习模型输出的事件位置不准确的情况；同时利用目标种类可以有效区分不同事件，例如，人员聚集事件不包括管制刀具目标，而聚众斗殴事件包括管制刀具目标等，以减少深度学习模型输出的事件种类不准确的情况。可见通过本申请实施例能够增加图像中事件检测的准确率。

Description

图像检测方法、装置、电子设备及存储介质

技术领域

本申请涉及图像检测技术领域，特别是涉及图像检测方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的发展，尤其是深度学习算法的出现，使得基于图像的事件检测成为可能。

现有的基于图像的事件检测技术中，首先需要对深度学习模型进行训练，包括：1.收集包含指定事件(即需要检测的事件)的图像；2.标注出图像中事件的位置，得到样本图像；3.将样本图像输入到深度学习模型中进行训练，直至深度学习模型输出的预测事件位置与标注的事件位置的损失收敛，得到训练好的深度学习模型。在得到训练好的深度学习模型后，便可以利用深度学习模型对图像进行事件检测，例如图1所示，将图像输入到深度学习模型中，深度学习模型对图像进行事件检测，并输出检测到的事件框。

由于事件是通过不同目标之间的相互关系体现出来的，现有技术中直接框定事件发生的区域不能很好体现目标之间的相互关系，导致深度学习模型对于学习的目标不清晰，从而使深度学习模型的误检率较高；并且事件是一种抽象概念，直接对事件发生区域进行框定会存在无法确定框定范围及框定多少个框的问题(比如一个标定框中的子区域有可能同样认定为该事件或其他事件)，导致深度学习模型输出的事件位置不准确，并且不同事件互相之间可能会存在许多的特征重合，例如，人员聚集事件与聚众斗殴事件的特征重合较高，导致深度学习模型输出的事件种类不准确。总之，现有技术中图像事件检测准确率有待提高。

发明内容

本申请实施例的目的在于提供一种图像检测方法、装置、电子设备及存储介质，以实现增加图像中事件检测的准确率。具体技术方案如下：

第一方面，本申请实施例提供了一种图像检测方法，所述方法包括：

获取待检测数据；

利用预先训练的目标检测深度学习网络，对所述待检测数据进行预设目标类型的目标检测，得到所述待检测数据中所包含的目标对象的目标框；

利用预先训练的事件搜索深度学习网络，对所述待检测数据进行预设事件的发生区域预测，得到多个事件候选预测框，其中，所述事件候选预测框用于标记发生所述预设事件的预测区域范围，所述多个事件候选预测框所标记的预测区域范围不同；

利用预先训练的事件特征提取深度学习网络，提取各所述事件候选预测框中的特征及所述目标框中的特征，得到各所述事件候选预测框的综合特征信息；其中，针对任一事件候选预测框，该事件候选预测框的综合特征信息包括用于表征该候选预测框内的各目标框之间相互关系的空间关系特征及特征图关系特征；

利用预先训练的事件分析深度学习网络，分别对各所述事件候选预测框的综合特征信息进行分析，得到各所述事件候选预测框内是否发生预设事件的事件检测结果；

针对任一事件候选预测框，若该事件候选预测框的事件检测结果表示该候选预测框内发生了所述预设事件，则将该事件候选预测框标记为事件输出框，其中，所述事件输出框用于表示筛选出的发生所述预设事件的区域。

在一种可能的实施方式中，所述利用预先训练的事件搜索深度学习网络，对所述待检测数据进行预设事件的发生区域预测，得到多个事件候选预测框，包括：

将所述目标框输入到预先训练的事件搜索深度学习网络，由所述事件搜索深度学习网络根据输入的目标框对所述待检测数据中预设事件的发生区域进行预测，并输出所述多个事件候选预测框，其中，任一所述事件候选预测框中包括至少两个目标框。

在一种可能的实施方式中，所述利用预先训练的事件特征提取深度学习网络，提取各所述事件候选预测框中的特征及所述目标框中的特征，得到各所述事件候选预测框的综合特征信息，包括：

将所述目标框和所述事件候选预测框输入到预先训练的事件特征提取深度学习网络，针对任一事件候选预测框，利用所述事件特征提取深度学习网络对该事件候选预测框中包括的目标框进行特征提取，分别得到该事件候选预测框中各目标框中的特征图特征；

针对任一事件候选预测框，根据该事件候选预测框中各目标框在所述待检测数据中的位置，分别确定该事件候选预测框中各目标框的属性特征；

针对任一目标框，确定与该目标框满足预设位置条件的待关联目标框；

针对任一目标框，根据该目标框与该目标框的待关联目标框的属性特征及特征图特征，确定该目标框的空间关系特征及特征图关系特征；

针对任一事件候选预测框，将该事件候选预测框中的各目标框的空间关系特征及特征图关系特征进行拼接，得到该事件候选预测框的综合特征信息。

在一种可能的实施方式中，所述针对任一目标框，确定与该目标框满足预设位置条件的待关联目标框，包括：

针对任一目标框，在该目标框所在的事件候选预测框中，选取与该目标框距离最近的K个目标框作为待关联目标框，其中，K为预设的正整数。

在一种可能的实施方式中，所述利用所述事件分析深度学习网络，分别对各所述事件候选预测框的综合特征信息进行分析，得到各所述事件候选预测框中是否发生预设事件类型的事件检测结果，包括：

针对每一事件候选预测框，将该事件候选预测框的综合特征信息输入到所述事件分析深度学习网络，由所述事件分析深度学习网络对该事件候选预测框的综合特征信息进行分析，得到该事件候选预测框内是否发生所述预设事件的标记信息，其中，针对任一事件候选预测框，该事件候选预测框的标记信息用于表示是否发生所述预设事件。

在一种可能的实施方式中，所述标记信息为置信度值，其中，在所述置信度值大于预设阈值的情况下，表示发生了所述预设事件，否则表示未发生所述预设事件。

在一种可能的实施方式中，所述标记信息为标志值，其中，所述标志值为第一数值时表示发生了所述预设事件，所述标志值为第二数值时表示未发生所述预设事件。

第二方面，本申请实施例提供了一种图像检测装置，所述装置包括：

待检测数据获取模块，用于获取待检测数据；

目标检测模块，用于利用预先训练的目标检测深度学习网络，对所述待检测数据进行预设目标类型的目标检测，得到所述待检测数据中所包含的目标对象的目标框；

事件搜索模块，用于利用预先训练的事件搜索深度学习网络，对所述待检测数据进行预设事件的发生区域预测，得到多个事件候选预测框，其中，所述事件候选预测框用于标记发生所述预设事件的预测区域范围，所述多个事件候选预测框所标记的预测区域范围不同；

事件特征提取模块，用于利用预先训练的事件特征提取深度学习网络，提取各所述事件候选预测框中的特征及所述目标框中的特征，得到各所述事件候选预测框的综合特征信息；其中，针对任一事件候选预测框，该事件候选预测框的综合特征信息包括用于表征该候选预测框内的各目标框之间相互关系的空间关系特征及特征图关系特征；

事件分析模块，用于利用预先训练的事件分析深度学习网络，分别对各所述事件候选预测框的综合特征信息进行分析，得到各所述事件候选预测框内是否发生预设事件的事件检测结果；

事件输出模块，用于针对任一事件候选预测框，若该事件候选预测框的事件检测结果表示该候选预测框内发生了所述预设事件，则将该事件候选预测框标记为事件输出框，其中，所述事件输出框用于表示筛选出的发生所述预设事件的区域。

在一种可能的实施方式中，所述事件搜索模块，具体用于：将所述目标框输入到预先训练的事件搜索深度学习网络，由所述事件搜索深度学习网络根据输入的目标框对所述待检测数据中预设事件的发生区域进行预测，并输出所述多个事件候选预测框，其中，任一所述事件候选预测框中包括至少两个目标框。

在一种可能的实施方式中，所述事件特征提取模块，具体用于：将所述目标框和所述事件候选预测框输入到预先训练的事件特征提取深度学习网络，针对任一事件候选预测框，利用所述事件特征提取深度学习网络对该事件候选预测框中包括的目标框进行特征提取，分别得到该事件候选预测框中各目标框中的特征图特征；针对任一事件候选预测框，根据该事件候选预测框中各目标框在所述待检测数据中的位置，分别确定该事件候选预测框中各目标框的属性特征；针对任一目标框，确定与该目标框满足预设位置条件的待关联目标框；针对任一目标框，根据该目标框与该目标框的待关联目标框的属性特征及特征图特征，确定该目标框的空间关系特征及特征图关系特征；针对任一事件候选预测框，将该事件候选预测框中的各目标框的空间关系特征及特征图关系特征进行拼接，得到该事件候选预测框的综合特征信息。

在一种可能的实施方式中，所述事件分析模块，具体用于：针对每一事件候选预测框，将该事件候选预测框的综合特征信息输入到所述事件分析深度学习网络，由所述事件分析深度学习网络对该事件候选预测框的综合特征信息进行分析，得到该事件候选预测框内是否发生所述预设事件的标记信息，其中，针对任一事件候选预测框，该事件候选预测框的标记信息用于表示是否发生所述预设事件。

第三方面，本申请实施例提供了一种电子设备，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一所述图像检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述图像检测方法。

本申请实施例提供的图像检测方法、装置、电子设备及存储介质。获取待检测数据；利用预先训练的图像检测模型的目标检测模块，对待检测数据进行目标检测，得到待检测数据的目标信息，其中，目标信息包括目标种类及目标位置；利用图像检测模型的事件搜索模块，对待检测数据进行事件位置预测，得到待检测数据中的事件位置；根据目标信息及事件位置，利用图像检测模型的事件特征提取模块，提取事件位置处的特征及事件位置中包括的目标的特征，得到综合特征信息；利用图像检测模型的事件分析模块，对综合特征信息进行分析，得到待检测数据的事件检测结果。在检测图像中的事件时，还考虑了目标的种类、位置及相互关系，因为目标的位置为有效确定的位置，因此目标的标注能够准确标注目标的区域，能够有效体现出事件中目标的相互关系，从而减少深度学习模型的误检情况；并且相比于抽象的事件，目标有明确的概念及位置，标注目标能够有效减少无法确定框定范围及框定多少个框情况，从而减少深度学习模型输出的事件位置不准确的情况；同时利用目标种类可以有效区分不同事件，例如，人员聚集事件不包括管制刀具目标，而聚众斗殴事件可能包括管制刀具目标等，从而减少深度学习模型输出的事件种类不准确的情况。可见通过本申请实施例能够增加图像中事件检测的准确率。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为相关技术中图像检测方法的一种示意图；

图2为本申请实施例的图像检测装置的第一种示意图；

图3为本申请实施例的深度学习模型的训练过程输入输出的一种示意图；

图4为本申请实施例的深度学习模型的验证过程输入输出的一种示意图；

图5为本申请实施例的深度学习模型训练方法的一种示意图；

图6为本申请实施例的图像检测方法的一种示意图；

图7为图6所示的实施例中步骤S24具体实现方式的一种示意图；

图8为本申请实施例的图像检测装置的第二种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对本申请实施例中的技术术语进行说明：

事件：人为或自然因素导致的各种现象或行为。

目标：构成事件的各独立单元。

视觉检测：在图像中检测感兴趣对象的位置与范围。

计算机视觉与模式识别：计算机领域的一门学科，旨在教会机器如何看懂世界，并执行一些任务，如识别，检测，跟踪等。

机器学习：一种涉及概率论，统计学，优化等领域的交叉学科，旨在研究计算机如何模拟或实现人类的学习行为，以获取知识或技能。

深度学习：一种专注于多层神经网络的机器学习分支。

范式：经典的、通用的处理方法。

NN：神经网络，一种机器学习分支。

CNN：卷积神经网络，一种神经网络模型。

RNN：循环神经网络，一种神经网络模型。

LSTM：长短时记忆机，一种改进的循环神经网络模型。

GCN：图卷积神经网络，一种图模型与卷积神经网络的交叉模型。

SVM：支撑向量机，一种经典的机器学习模型。

Adaboost：自适应提升算法，一种经典的机器学习模型。

Lightgbm：轻量化的梯度提升树，一种新兴的机器学习模型。

本申请实施例提供了一种图像检测装置，可以有效解决传统检测方案应用在事件检测领域面临的学习目标不清晰，类别混淆，误检率高，标注不准确等问题。例如图2所示，上述图像检测装置包括目标检测模块，事件搜索模块，事件特征提取模块与事件分析模块。

目标检测模块可以使用任意的机器学习或深度学习模型(例如CNN，Adaboost等)对图像中具体事件所相关的目标进行检测。例如，针对街头违规散发小广告事件，其目标可以包括人、单个或多个小广告等，目标检测模型检测的目标为人、小广告，输出可以为人体框及小广告框。

事件搜索模块可以使用任意的策略遍历图像中的区域，生成事件候选预测框或根据目标检测模块输出的目标位置生成事件候选预测框。并将事件候选预测框传送给事件特征提取模块。事件特征提取模块用以提取对应区域的特征，如果对应区域提取的特征被事件分析模块认为存在事件，则事件搜索模块输出的事件候选预测框即为作为最终的事件预测框。

事件特征提取模块接收事件搜索模块传递的事件候选预测框，并在该事件候选预测框区域内构造可能对于事件判定起决定作用的特征。其可以使用专家系统或任何机器学习或深度学习(关系学习，表示学习)方法(如RNN，LSTM，GCN等)进行特征提取。例如聚众斗殴事件，其起决定作用的特征可能是目标的种类(人、管制刀具等)，目标的数量(人数、管制刀具数目)，目标相互之间的空间关系(如管制刀具是被握在手里还在摆在地上，如果摆在地上有可能是街头违规经营事件)等。

事件分析模块使用任意的机器学习或深度学习模型(如SVM，Lightgbm，NN等)对事件特征提取模块提取到的特征进行分析，从而对事件的发生与否进行判断，并将该判断作为决策信息，用以控制事件搜索模块是否将对应事件候选预测框作为最终事件预测框输出。

该方案使用任意的标注手段和标注形式对数据进行目标与事件两种级别的标注。目标级别的标注用于准确标注目标的区域，事件级别的标注用于框定事件发生的范围。

图像检测装置中的模块可以存在训练与测试两个阶段。其中训练是指使用标注有真值的图像引导模型学习到输入数据与标注之间的映射关系。

其中，目标检测模块在训练阶段的输入是图像与人工标定的目标框及目标种类，在测试阶段输入是图像，输出是目标的预测目标框及预测目标种类。事件搜索模块在训练阶段不需要使用，在测试阶段输入是目标检测模块的输出，输出是可能发生事件的事件候选预测框。事件特征提取模块在训练阶段的输入是人工标定的目标框、目标种类及事件框，测试阶段输入的是目标检测模块的输出与事件搜索模块的输出；事件特征提取模块在训练阶段输出的是与判断事件相关的特征及其对应的事件是否发生的标签，在测试阶段输出的是与判断事件相关的特征。事件分析模块在训练阶段输入的是事件特征提取模块的输出特征与标签，在测试阶段输入的是事件特征提取模块的输出特征；训练阶段与测试阶段输出的均为判断事件发生与否的置信度(连续)或标志值(离散)。

具体的，例如图3所示，训练阶段的实施流程为：

步骤1，数据采集与标注。对使用任意电子设备获取到的图像进行目标与事件两种级别的标注。

步骤2，训练目标检测模块。以图像与目标的标注作为输入，训练目标检测模块。

步骤3，训练事件特征提取。以目标的标注与事件的标注作为输入，事件特征提取模块对每一个事件框，通过事件特征提取模型对在事件框内的目标属性以及其互相之间的关系进行特征提取，并生成对应的事件发生标签1。

步骤4，训练事件分析模块。以事件特征提取模块提取的特征与标签作为输入，训练事件分析模型。

例如图4所示，测试阶段的实施流程为：

步骤1，测试目标检测模块。以图像作为输入，通过目标检测模块输出各目标的预测目标框。

步骤2，测试事件搜索模块。以目标检测模块的输出作为输入，采用一定的策略生成事件的事件候选预测框。

步骤3，测试事件特征提取。以目标检测模块输出的预测目标框与事件搜索模块输出的事件候选预测框作为输入，对事件候选预测框内的目标框属性及其相互间关系进行特征提取。

步骤4，测试事件分析模块。以事件特征提取模块提取特征作为输入，通过事件分析模型输出事件发生的置信度或标志值。

步骤5，通过事件分析模块的事件发生置信度或标志位决定是否将测试事件搜索模块生成的事件候选预测框作为结果输出。

在本申请实施例中，在检测图像中的事件时，还考虑了目标的种类及位置，因为目标的位置为有效确定的位置，因此目标的标注能够准确标注目标的区域，能够有效体现出事件中目标的相互关系，从而减少深度学习模型的误检情况；并且相比于抽象的事件，目标有明确的概念及位置，标注目标能够有效减少无法确定框定范围及框定多少个框情况，从而减少深度学习模型输出的事件位置不准确的情况；同时利用目标种类可以有效区分不同事件，在标注样本数据时，同时进行目标与事件的标注，在事件检测时，将事件检测分解为目标与事件两个级别的检测，采用目标属性及目标间的关系作为事件检测特征而不仅是目标本身，能够增加图像中事件检测的准确率。例如，人员聚集事件不包括管制刀具目标，而聚众斗殴事件包括管制刀具目标等，从而减少深度学习模型输出的事件种类不准确的情况。可见通过本申请实施例能够增加图像中事件检测的准确率。

本申请实施例提供了一种图像检测模型的训练方法，参见图5，该方法包括：

S11，获取待训练的图像检测模型，其中，上述图像检测模型包括目标检测深度学习网络、事件搜索深度学习网络、事件特征提取深度学习网络及事件分析深度学习网络。

本申请实施例的图像检测模型的训练方法可以通过电子设备实现，具体的，该电子设备可以为个人电脑或服务器设备等。

图像检测模型包括目标检测深度学习网络、事件搜索深度学习网络、事件特征提取深度学习网络及事件分析深度学习网络。

其中，目标检测深度学习网络可以使用任意的机器学习网络或深度学习模型，例如CNN，Adaboost等，目标检测深度学习网络用于对图像中事件相关的目标进行检测。例如，针对街头违规散发小广告事件，目标可以为人、单个或多个小广告等，目标检测模型检测的目标为人、小广告，输出可以为人体框及小广告框。

事件搜索深度学习网络可以使用任意的策略遍历图像中的区域，生成预测事件信息，例如，事件候选预测框等。事件搜索深度学习网络还可以根据目标检测深度学习网络输出的目标信息得到预测事件信息，其中，目标信息可以包括目标框，还可以包括目标种类等属性信息。

事件特征提取深度学习网络接收事件搜索深度学习网络传递的预测事件信息(例如事件候选预测框)及目标检测深度学习网络的目标信息，并在预测事件信息表示的区域内构造可能对于事件判定起决定作用的特征。事件特征提取深度学习网络可以使用专家系统或任何机器学习或深度学习(关系学习，表示学习)方法(如RNN，LSTM，GCN等)进行特征提取。

事件分析深度学习网络使用任意的机器学习网络或深度学习模型(如SVM，Lightgbm，NN等)对事件特征提取深度学习网络提取到的特征进行分析，从而对事件的发生与否进行判断，并将该判断作为决策信息，用以控制事件搜索深度学习网络是否将相应的预测事件信息作为最终输出结果。

S12，获取多个样本图像，将多个上述样本图像划分为训练集及测试集，其中，上述样本图像标注有真值目标信息及真值事件信息。

真值目标信息包括真实的目标种类及目标位置。真值事件信息至少包括真实的事件位置，还可以包括真实的事件种类。

S13，利用上述训练集中的样本图像及相应的真值目标信息对目标检测深度学习网络进行训练，利用上述样本集中的样本图像及相应的真值目标信息对训练后目标检测深度学习网络进行验证，得到训练好的目标检测深度学习网络。

目标检测深度学习网络在训练阶段的输入是图像与人工标定的目标框及目标种类，在测试阶段输入是图像，输出是目标的预测目标框及预测目标种类。事件搜索深度学习网络可以不用训练，在测试阶段输入是目标检测深度学习网络的输出，输出是可能发生事件的事件候选预测框。

S14，利用上述训练集中的样本图像、相应的真值目标信息及真值事件信息对事件特征提取深度学习网络及事件分析深度学习网络进行训练，利用上述训练集中的样本图像、相应的真值事件信息、相应的目标检测深度学习网络输出的预测目标信息及相应的事件搜索深度学习网络输出的预测事件信息对训练后的事件特征提取深度学习网络及事件分析深度学习网络进行验证，得到训练好的事件特征提取深度学习网络及事件分析深度学习网络。

事件特征提取深度学习网络在训练阶段的输入是人工标定的真值目标信息及真值事件信息，测试阶段输入的是目标检测深度学习网络的输出与事件搜索深度学习网络的输出；事件特征提取深度学习网络在训练阶段输出的是与判断事件相关的综合特征信息及其对应的事件是否发生的标签，在测试阶段输出的是与判断事件相关的综合特征信息。事件分析深度学习网络在训练阶段输入的是事件特征提取深度学习网络输出的综合特征信息与标签，在测试阶段输入的是事件特征提取深度学习网络输出的综合特征信息；训练阶段与测试阶段输出的均为判断事件发生与否的置信度(连续)或标志位(离散)。

在一种可能的实施方式中，上述利用上述训练集中的样本图像及相应的真值目标信息对目标检测深度学习网络进行训练，利用上述样本集中的样本图像及相应的真值目标信息对训练后目标检测深度学习网络进行验证，得到训练好的目标检测深度学习网络，包括：

S1301，在上述训练集中选取一个样本图像。

当训练集中样本图像的数量足够多时，可以在训练集中选取一个为选取过的样本图像。

S1302，将当前选取的样本图像输入到目标检测深度学习网络中，得到预测目标信息。

S1303，根据当前选取的样本图像的预测目标信息及其真值目标信息，计算目标检测深度学习网络当前的损失。

S1304，根据目标检测深度学习网络当前的损失，调整目标检测深度学习网络的训练参数。

S1305，判断本阶段训练过程中目标检测深度学习网络训练的样本图像的数量是否达到预设第一数量。

S1306，若未达到预设第一数量，返回执行上述步骤：在各上述训练集中选取一个样本图像。

S1307，若达到预设第一数量，在上述验证集中选取指定数量的样本图像，得到各第一验证图像。

S1308，将各上述第一验证图像分别输入到训练后的目标检测深度学习网络中，得到各上述第一验证图像各自的预测目标信息。

S1309，针对每个第一验证图像，根据该第一验证图像的预测目标信息及真值目标信息，计算该第一验证图像对应的损失。

S1310，判断各上述第一验证图像对应的损失是否收敛。

S1311，若各上述第一验证图像对应的损失不收敛，进入下一训练阶段，返回执行上述步骤：在各上述训练集中选取一个样本图像。

S1312，若各上述第一验证图像对应的损失收敛，则得到训练后的目标检测深度学习网络。

在一种可能的实施方式中，上述利用上述训练集中的样本图像、相应的真值目标信息及真值事件信息对事件特征提取深度学习网络及事件分析深度学习网络进行训练，利用上述训练集中的样本图像、相应的真值事件信息、相应的目标检测深度学习网络输出的预测目标信息及相应的事件搜索深度学习网络输出的预测事件信息对训练后的事件特征提取深度学习网络及事件分析深度学习网络进行验证，得到训练好的事件特征提取深度学习网络及事件分析深度学习网络，包括：

S1401，在上述训练集中选取一个样本图像。

S1402，将当前选取的样本图像、当前选取的样本图像的真值目标信息及真值事件信息输入到事件特征提取深度学习网络中，得到第一综合特征信息；将上述第一综合特征信息输入到事件分析深度学习网络中，得到预测事件信息。

第一综合特征信息可以包括目标的属性特征和用于表征这各目标之间相互关系的空间关系特征。真值目标信息中可以包括真值目标框，真值事件信息可以包括真值事件框，则第一综合特征信息的生成过程可以包括：

步骤一，将当前选取的样本图像的真值目标框和真值事件框输入到事件特征提取深度学习网络，针对任一真值事件框，利用事件特征提取深度学习网络对该真值事件框中包括的真值目标框进行特征提取，分别得到该真值事件框中各真值目标框中的特征图特征。

一个真值事件框中可以包括多个真值目标框。可以利用事件特征提取深度学习网络的卷积层，提取各真值目标框中的特征图特征。

步骤二，针对任一真值事件框，根据该真值事件框中各真值目标框在待检测数据中的位置，分别确定该真值事件框中各真值目标框的属性特征。

真值目标框的属性特征表示真值目标框的位置、大小等属性。一个例子中，真值目标框左上角坐标为[x1，y1]，右下角坐标为[x2，y2]，目标置信度为conf，则真值目标框的属性特征可以包括以上几个特征以及构造特征，例如可以包括：真值目标框高h＝y2-y1，宽w＝x2-x1，中心x坐标center_x＝(x1+x2)/2，中心y坐标center_y＝(y1+y2)/2，长宽比：h_ratio＝h/w，w_ratio＝w/h，目标面积：area＝h*w，最长边长max_len＝max(h，w)，最短边长min_len＝min(h，w)，对角线长度diag_len＝(h^2+w^2)^(0.5)等，构造特征可以是冗余的特征，最终将这些特征组合成一维向量得到属性特征attri＝[x1，y1，x2，y2，conf，center_x，center_y，h，w，h_ratio，w_ratio，area，max_len，min_len，diag_len，…]。

步骤三，针对任一真值目标框，确定与该真值目标框满足预设位置条件的待关联真值目标框。

真值目标框的空间关系特征可以通过同一真值事件框内的相同或不同类别值目标框的特征图特征进行关联关系提取或相关等操作得到。显然由于检测场景中一个事件候选预测框内目标框数目是不确定的，而构造特征的长度与区域内目标框数目相关，所以在计算相关特征时，可以选取指定的目标框来构建相关特征。具体的，可以通过该真值目标框与其待关联真值目标框的特征图特征进行关联关系提取或相关等操作得到。

预设位置条件可以根据实际情况进行设置，例如可以选取中心与该真值目标框中心的距离小于预设距离阈值的真值目标框，作为待关联真值目标框；例如可以选取中心与该真值目标框中心的距离最小的K个真值目标框，作为待关联真值目标框等，其中，K为正整数。

步骤四，针对任一真值目标框，根据该真值目标框与该真值目标框的待关联真值目标框的属性特征及特征图特征，确定该真值目标框的属性关系特征及特征图关系特征。

例如，针对真值目标框a，其待关联真值目标框包括真值目标框b。a的特征图特征表示为feat_a，属性特征表示为attri_a；b的特征图特征表示为feat_b，属性特征表示为attri_b。则针对待关联真值目标框b，a的特征图关系特征可以为feat_ab＝feat_a^T*feat_b，其中，feat向量在此处默认为行向量，feat^T为列向量，feat_a^T*feat_b得到的是相关矩阵。对a，b的属性特征分别增加后缀a，b，以横坐标x举例，针对待关联真值目标框b，a的空间关系特征可以为:x1_ab＝x1_a–x1_b，x2_ab＝x2_a-x2_b，center_x_ab＝center_x_a–center_x_b。还可构造面积关系特征area_ab＝area_a/area_b等。属性关系特征至少包括空间关系特征，还可以包括面积关系特征等。若a的待关联真值目标框还包括真值目标框c，则还可以构建feat_ac及x1_ac、x2_ac、center_x_ac等。

步骤五，针对任一真值事件框，将该真值事件框中的各真值目标框的属性关系特征及特征图关系特征进行拼接，得到该真值事件框的综合特征信息。

针对任一真值事件框，将该真值事件框中所有的真值目标框的属性关系特征及特征图关系特征都转换为1维向量，然后将各1维向量连接起来，构成综合特征信息。例如，对a而言Feat＝[feat_a，attri_a，feat_ab，x1_ab，y1_ab，x2_ab，y2_ab，center_x_ab，center_y_ab，area_ab]等等，对b而言同理。如果存在目标c，目标d等，则对a而言Feat＝[自身特征，与b相关特征，与c相关特征，与d相关特征，…]。

S1403，根据当前选取的样本图像的预测事件信息及其真值事件信息，计算事件特征提取深度学习网络及事件分析深度学习网络当前的损失。

S1404，根据事件特征提取深度学习网络及事件分析深度学习网络当前的损失，调整事件特征提取深度学习网络及事件分析深度学习网络的训练参数。

S1405，判断本阶段训练过程中事件特征提取深度学习网络及事件分析深度学习网络训练的样本图像的数量是否达到预设第二数量。

S1406，若未达到预设第二数量，返回执行上述步骤：在各上述训练集中选取一个样本图像。

S1407，若达到预设第二数量，在上述验证集中选取指定数量的样本图像，得到各第二验证图像。

S1408，将各上述第二验证图像分别输入到训练好的目标检测深度学习网络中，得到各上述第二验证图像各自的预测目标信息。

S1409，针对每一个第二验证图像，将该第二验证图像及该第二验证图像的预测目标信息输入到事件搜索深度学习网络中，得到该第二验证图像的预测事件信息。

S1410，针对每一个第二验证图像，将该第二验证图像、该第二验证图像的预测目标信息及预设事件信息输入到训练后的事件特征提取深度学习网络中提取特征，并将提取的特征输入到训练后的事件分析深度学习网络中，得到该第二验证图像的事件预测结果。

S1411，针对每一个第二验证图像，根据该第二验证图像的事件预测结果及真值事件信息，计算该第二验证图像对应的损失。

S1412，判断各上述第二验证图像对应的损失是否收敛。

S1413，若各上述第二验证图像对应的损失不收敛，进入下一训练阶段，返回执行上述步骤：在各上述验证集中选取一个样本图像。

S1414，若各上述第二验证图像对应的损失收敛，则得到训练好的事件特征提取深度学习网络及事件分析深度学习网络。

事件搜索深度学习网络可以不用训练，直接采用相关技术中的事件检测网络即可，当然也可以利用样本图像训练得到，均在本申请的保护范围内。

在一种可能的实施方式中，上述方法还包括：利用上述样本图像对上述事件搜索深度学习网络进行训练，直至上述事件搜索深度学习网络输出的预测事件位置与上述样本图像标注的真值事件信息的损失收敛。

为了提高事件搜索深度学习网络的训练速度及准确度，还可以将目标信息作为输入，可选的，上述利用上述样本图像对上述事件搜索深度学习网络进行训练，直至上述事件搜索深度学习网络输出的预测事件信息与上述样本图像标注的真值事件信息的损失收敛，包括：利用上述目标检测深度学习网络输出的预测目标信息及上述样本图像对上述事件搜索深度学习网络进行训练，直至上述事件搜索深度学习网络输出的预测事件信息与上述样本图像标注的真值事件信息的损失收敛。

在本申请实施例中，在检测图像中的事件时，还考虑了目标的种类及位置，因为目标的位置为有效确定的位置，因此目标的标注能够准确标注目标的区域，能够有效体现出事件中目标的相互关系，从而减少深度学习模型的误检情况；并且相比于抽象的事件，目标有明确的概念及位置，标注目标能够有效减少无法确定框定范围及框定多少个框情况，从而减少深度学习模型输出的事件位置不准确的情况；同时利用目标种类可以有效区分不同事件，例如，人员聚集事件不包括管制刀具目标，而聚众斗殴事件包括管制刀具目标等，从而减少深度学习模型输出的事件种类不准确的情况。可见通过本申请实施例能够增加图像中事件检测的准确率。

本申请实施例还提供了一种图像检测方法，参见图6，该方法包括：

S21，获取待检测数据。

本申请实施例的图像检测方法可以通过电子设备实现，该电子设备可以为智能摄像机、硬盘录像机、个人电脑、智能手机或服务器设备等。待检测数据为需要进行事件检测的数据，可以为图像或视频等。

S22，利用预先训练的目标检测深度学习网络，对待检测数据进行预设目标类型的目标检测，得到待检测数据中所包含的目标对象的目标框。

预设目标类型为希望检测的目标类型，与训练时样本中所标定的目标类型相同。目标检测深度学习网络、事件搜索深度学习网络、事件特征提取深度学习网络、事件分析深度学习网络的训练方法可以参见上述图像检测装置及图像检测模型的训练方法的相关描述，此处不再赘述。

S23，利用预先训练的事件搜索深度学习网络，对待检测数据进行预设事件的发生区域预测，得到多个事件候选预测框，其中，事件候选预测框用于标记发生预设事件的预测区域范围，多个事件候选预测框所标记的预测区域范围不同。

利用事件搜索深度学习网络对待检测数据进行事件位置的预测，从而得到待检测数据中的多个事件候选预测框。可选的，通过事件搜索深度学习网络，还可以得到待检测数据中事件的事件类型。预设事件与预设目标类型具有关联关系，例如，预设事件为摆摊事件，则具有关联关系的预设目标类型可以为摊位类型等；例如，预设事件为斗殴事件，则具有关联关系的预设目标类型可以为刀具类型等。

为了增加事件搜索深度学习网络检测的准确度及检测速度，还可以将待检测数据的目标框输入到事件搜索深度学习网络中。在一种可能的实施方式中，上述利用预先训练的事件搜索深度学习网络，对待检测数据进行预设事件的发生区域预测，得到多个事件候选预测框，包括：将上述目标框输入到预先训练的事件搜索深度学习网络，由上述事件搜索深度学习网络根据输入的目标框对上述待检测数据中预设事件的发生区域进行预测，并输出上述多个事件候选预测框，其中，任一上述事件候选预测框中包括至少两个目标框。

S24，利用预先训练的事件特征提取深度学习网络，提取各事件候选预测框中的特征及目标框中的特征，得到各事件候选预测框的综合特征信息；其中，针对任一事件候选预测框，该事件候选预测框的综合特征信息包括用于表征该候选预测框内的各目标框之间相互关系的空间关系特征及特征图关系特征。

根据目标框及事件候选预测框，分别确定各事件候选预测框中包括的目标框，进而利用事件特征提取深度学习网络提取各事件候选预测框的属性关系特征及特征图关系特征，得到综合特征信息。属性关系特征至少包括空间关系特征，还可以包括面积关系特征等特征。

S25，利用预先训练的事件分析深度学习网络，分别对各事件候选预测框的综合特征信息进行分析，得到各事件候选预测框内是否发生预设事件的事件检测结果。

事件分析深度学习网络对事件特征提取深度学习网络提取到的综合特征信息进行分析，从而对事件的发生与否进行判断，例如，聚众斗殴事件，其起决定作用的特征可能是目标的种类(人、管制刀具等)，目标的数量(人数、管制刀具数目)，目标相互之间的空间关系(如管制刀具是被握在手里还在摆在地上，如果摆在地上有可能是街头违规经营事件)等。事件分析深度学习网络将事件的发生与否的判断作为决策信息，用以控制事件搜索深度学习网络是否将对应事件候选预测框作为最终的事件输出框。

事件分析深度学习网络直接得到的数据可以为事件候选预测框的标记信息。一种实施方式中，上述利用事件分析深度学习网络，分别对各事件候选预测框的综合特征信息进行分析，得到各事件候选预测框中是否发生预设事件类型的事件检测结果，包括：针对每一事件候选预测框，将该事件候选预测框的综合特征信息输入到事件分析深度学习网络，由事件分析深度学习网络对该事件候选预测框的综合特征信息进行分析，得到该事件候选预测框内是否发生预设事件的标记信息，其中，针对任一事件候选预测框，该事件候选预测框的标记信息用于表示是否发生预设事件。一个例子中，标记信息为置信度值，其中，在置信度值大于预设阈值的情况下，表示发生了预设事件，否则表示未发生预设事件。一个例子中，标记信息为标志值，其中，标志值为第一数值时表示发生了预设事件，标志值为第二数值时表示未发生预设事件。

在事件分析深度学习网络直接得到的标记信息为置信度的情况下，当置信度大于预设置信度阈值时，判定事件搜索深度学习网络输出的结果(包括事件位置，还可以包括事件种类)可信，并将事件搜索深度学习网络输出的结果作为最终的事件检测结果。

在事件分析深度学习网络直接得到的标记信息为标志值时，根据标志值表示的结果得到待检测数据的事件检测结果，例如，标志值1表示结果为真，标志值0表示结果为假，当标志值为1时，判定事件搜索深度学习网络输出的结果(包括事件位置，还可以包括事件种类)可信，并将事件搜索深度学习网络输出的结果作为最终的事件检测结果；当标志值为0时，判断事件搜索深度学习网络当前输出的结果不可信，并输出事件搜索深度学习网络的当前事件框中不包括预设事件的事件检测结果。

S26，针对任一事件候选预测框，若该事件候选预测框的事件检测结果表示该候选预测框内发生了预设事件，则将该事件候选预测框标记为事件输出框，其中，事件输出框用于表示筛选出的发生预设事件的区域。

针对任一事件候选预测框，若该事件候选预测框的事件检测结果表示该候选预测框内发生了预设事件，则将该事件候选预测框标记为事件输出框，即作为最终处输出的事件输出框；若该事件候选预测框的事件检测结果表示该候选预测框内未发生预设事件，则丢弃该事件候选预测框。

在本申请实施例中，在检测图像中的事件时，还考虑了目标的种类及位置，因为目标的位置为有效确定的位置，因此目标的标注能够准确标注目标的区域，能够有效体现出事件中目标的相互关系，从而减少深度学习模型的误检的情况；并且相比于抽象的事件，目标有明确的概念及位置，标注目标能够有效减少无法确定框定范围及框定多少个框情况，从而减少深度学习模型输出的事件位置不准确的情况；同时利用目标种类可以有效区分不同事件，在标注样本数据时，同时进行目标与事件的标注，在事件检测时，将事件检测分解为目标与事件两个级别的检测，采用目标属性及目标间的关系作为事件检测特征而不仅是目标本身，能够增加图像中事件检测的准确率。例如，人员聚集事件不包括管制刀具目标，而聚众斗殴事件包括管制刀具目标等，从而减少深度学习模型输出的事件种类不准确的情况。可见通过本申请实施例能够增加图像中事件检测的准确率。

在一种可能的实施方式中，参见图7，上述利用预先训练的事件特征提取深度学习网络，提取各事件候选预测框中的特征及目标框中的特征，得到各事件候选预测框的综合特征信息，包括：

S241，将目标框和事件候选预测框输入到预先训练的事件特征提取深度学习网络，针对任一事件候选预测框，利用事件特征提取深度学习网络对该事件候选预测框中包括的目标框进行特征提取，分别得到该事件候选预测框中各目标框中的特征图特征。

一个事件候选预测框中可以包括至少两个目标框。可以利用事件特征提取深度学习网络的卷积层，提取各目标框中的特征图特征。

S242，针对任一事件候选预测框，根据该事件候选预测框中各目标框在待检测数据中的位置，分别确定该事件候选预测框中各目标框的属性特征。

目标框的属性特征包括该目标框的位置、大小等属性。一个例子中，目标框左上角坐标为[x1，y1]，右下角坐标为[x2，y2]，目标框对应的目标置信度为conf，则该目标框的属性特征可以包括以上几个特征以及构造特征，例如可以包括：该目标框的高h＝y2-y1，宽w＝x2-x1，中心x坐标center_x＝(x1+x2)/2，中心y坐标center_y＝(y1+y2)/2，长宽比：h_ratio＝h/w，w_ratio＝w/h，面积：area＝h*w，最长边长max_len＝max(h，w)，最短边长min_len＝min(h，w)，对角线长度diag_len＝(h^2+w^2)^(0.5)等，构造特征可以是冗余的特征，最终将这些特征组合成一维向量得到该目标框的属性特征：attri＝[x1，y1，x2，y2，conf，center_x，center_y，h，w，h_ratio，w_ratio，area，max_len，min_len，diag_len，…]。

S243，针对任一目标框，确定与该目标框满足预设位置条件的待关联目标框。

预设位置条件可以根据实际情况进行设置，例如可以选取中心与该真值目标框中心的距离小于预设距离阈值的真值目标框，作为待关联真值目标框。一种实施方式中，上述针对任一目标框，确定与该目标框满足预设位置条件的待关联目标框，包括：针对任一目标框，在该目标框所在的事件候选预测框中，选取与该目标框距离最近的K个目标框作为待关联目标框，其中，K为预设的正整数。例如，针对一目标框，选取该目标框所在的事件候选预测框中除该目标框以为的各其他目标框，计算各其他目标框的中心与该目标框中心的距离，选取距离最小的K个其他目标框，作为该目标框待关联真值目标框等。此处距离最小的K个其他目标框，是指按照距离由小到大对各其他目标框进行排序，选取排序中的前K个其他目标框。

S244，针对任一目标框，根据该目标框与该目标框的待关联目标框的属性特征及特征图特征，确定该目标框的空间关系特征及特征图关系特征。

例如，针对目标框a，其待关联目标框包括目标框b。a的特征图特征表示为feat_a，属性特征表示为attri_a；b的特征图特征表示为feat_b，属性特征表示为attri_b。则针对待关联目标框b，a的特征图关系特征可以为feat_ab＝feat_a^T*feat_b，其中，feat向量在此处默认为行向量，feat^T为列向量，feat_a^T*feat_b得到的是相关矩阵。对a，b的属性特征分别增加后缀a，b，以横坐标x举例，针对待关联目标框b，a的空间关系特征可以为:x1_ab＝x1_a–x1_b，x2_ab＝x2_a-x2_b，center_x_ab＝center_x_a–center_x_b。还可构造面积关系特征area_ab＝area_a/area_b等。属性关系特征至少包括空间关系特征，还可以包括面积关系特征等。若a的待关联目标框还包括目标框c，则还可以构建feat_ac及x1_ac、x2_ac、center_x_ac等。

S245，针对任一事件候选预测框，将该事件候选预测框中的各目标框的空间关系特征及特征图关系特征进行拼接，得到该事件候选预测框的综合特征信息。

针对任一事件候选预测框，将该事件候选预测框中所有的目标框的属性关系特征及特征图关系特征都转换为1维向量，然后将各1维向量连接起来，构成综合特征信息。例如，对a而言Feat＝[feat_a，attri_a，feat_ab，x1_ab，y1_ab，x2_ab，y2_ab，center_x_ab，center_y_ab，area_ab]等等，对b而言同理。如果存在目标c，目标d等，则对a而言Feat＝[自身特征，与b相关特征，与c相关特征，与d相关特征，…]。

在本申请实施例中，通过空间关系特征及特征图关系特征构建综合特征信息，采用目标属性及目标间的关系作为事件检测特征而不仅是目标本身，能够增加图像中事件检测的准确率。

本申请实施例还提供了一种图像检测装置，参见图8，上述装置包括：

待检测数据获取模块801，用于获取待检测数据；

目标检测模块802，用于利用预先训练的目标检测深度学习网络，对上述待检测数据进行预设目标类型的目标检测，得到上述待检测数据中所包含的目标对象的目标框；

事件搜索模块803，用于利用预先训练的事件搜索深度学习网络，对上述待检测数据进行预设事件的发生区域预测，得到多个事件候选预测框，其中，上述事件候选预测框用于标记发生上述预设事件的预测区域范围，上述多个事件候选预测框所标记的预测区域范围不同；

事件特征提取模块804，用于利用预先训练的事件特征提取深度学习网络，提取各上述事件候选预测框中的特征及上述目标框中的特征，得到各上述事件候选预测框的综合特征信息；其中，针对任一事件候选预测框，该事件候选预测框的综合特征信息包括用于表征该候选预测框内的各目标框之间相互关系的空间关系特征及特征图关系特征；

事件分析模块805，用于利用预先训练的事件分析深度学习网络，分别对各上述事件候选预测框的综合特征信息进行分析，得到各上述事件候选预测框内是否发生预设事件的事件检测结果；

事件输出模块806，用于针对任一事件候选预测框，若该事件候选预测框的事件检测结果表示该候选预测框内发生了上述预设事件，则将该事件候选预测框标记为事件输出框，其中，上述事件输出框用于表示筛选出的发生上述预设事件的区域。

本申请实施例中的目标检测模块802相当于图2所示的实施例中的目标检测模块，本申请实施例中的事件搜索模块803相当于图2所示的实施例中的事件搜索模块，本申请实施例中的事件特征提取模块804相当于图2所示的实施例中的事件特征提取模块，本申请实施例中的事件分析模块805相当于图2所示的实施例中的事件分析模块。

在一种可能的实施方式中，上述事件搜索模块，具体用于：将上述目标框输入到预先训练的事件搜索深度学习网络，由上述事件搜索深度学习网络根据输入的目标框对上述待检测数据中预设事件的发生区域进行预测，并输出上述多个事件候选预测框，其中，任一上述事件候选预测框中包括至少两个目标框。

在一种可能的实施方式中，上述事件特征提取模块，具体用于：将上述目标框和上述事件候选预测框输入到预先训练的事件特征提取深度学习网络，针对任一事件候选预测框，利用上述事件特征提取深度学习网络对该事件候选预测框中包括的目标框进行特征提取，分别得到该事件候选预测框中各目标框中的特征图特征；针对任一事件候选预测框，根据该事件候选预测框中各目标框在上述待检测数据中的位置，分别确定该事件候选预测框中各目标框的属性特征；针对任一目标框，确定与该目标框满足预设位置条件的待关联目标框；针对任一目标框，根据该目标框与该目标框的待关联目标框的属性特征及特征图特征，确定该目标框的空间关系特征及特征图关系特征；针对任一事件候选预测框，将该事件候选预测框中的各目标框的空间关系特征及特征图关系特征进行拼接，得到该事件候选预测框的综合特征信息。

在一种可能的实施方式中，上述事件分析模块，具体用于：针对每一事件候选预测框，将该事件候选预测框的综合特征信息输入到上述事件分析深度学习网络，由上述事件分析深度学习网络对该事件候选预测框的综合特征信息进行分析，得到该事件候选预测框内是否发生上述预设事件的标记信息，其中，针对任一事件候选预测框，该事件候选预测框的标记信息用于表示是否发生上述预设事件。

在一种可能的实施方式中，上述装置还包括：

待训练模型获取模块，用于获取待训练的图像检测模型，其中，上述图像检测模型包括目标检测深度学习网络、事件搜索深度学习网络、事件特征提取深度学习网络及事件分析深度学习网络。

样本图像型获取模块，用于获取多个样本图像，将多个上述样本图像划分为训练集及测试集，其中，上述样本图像标注有真值目标信息及真值事件信息。

第一训练模块，用于利用上述训练集中的样本图像及相应的真值目标信息对目标检测深度学习网络进行训练，利用上述样本集中的样本图像及相应的真值目标信息对训练后目标检测深度学习网络进行验证，得到训练好的目标检测深度学习网络。

第二训练模块，用于利用上述训练集中的样本图像、相应的真值目标信息及真值事件信息对事件特征提取深度学习网络及事件分析深度学习网络进行训练，利用上述训练集中的样本图像、相应的真值事件信息、相应的目标检测深度学习网络输出的预测目标信息及相应的事件搜索深度学习网络输出的预测事件信息对训练后的事件特征提取深度学习网络及事件分析深度学习网络进行验证，得到训练好的事件特征提取深度学习网络及事件分析深度学习网络。

在一种可能的实施方式中，上述第一训练模块，具体用于：

在上述训练集中选取一个样本图像。

将当前选取的样本图像输入到目标检测深度学习网络中，得到预测目标信息。

根据当前选取的样本图像的预测目标信息及其真值目标信息，计算目标检测深度学习网络当前的损失。

根据目标检测深度学习网络当前的损失，调整目标检测深度学习网络的训练参数。

判断本阶段训练过程中目标检测深度学习网络训练的样本图像的数量是否达到预设第一数量。

若未达到预设第一数量，返回执行上述步骤：在各上述训练集中选取一个样本图像。

若达到预设第一数量，在上述验证集中选取指定数量的样本图像，得到各第一验证图像。

将各上述第一验证图像分别输入到训练后的目标检测深度学习网络中，得到各上述第一验证图像各自的预测目标信息。

针对每个第一验证图像，根据该第一验证图像的预测目标信息及真值目标信息，计算该第一验证图像对应的损失。

判断各上述第一验证图像对应的损失是否收敛。

若各上述第一验证图像对应的损失不收敛，进入下一训练阶段，返回执行上述步骤：在各上述训练集中选取一个样本图像。

若各上述第一验证图像对应的损失收敛，则得到训练后的目标检测深度学习网络。

在一种可能的实施方式中，上述第二训练模块，具体用于：

样本图像选取子模块，用于在上述训练集中选取一个样本图像。

第一事件信息获取子模块，用于将当前选取的样本图像、当前选取的样本图像的真值目标信息及真值事件信息输入到事件特征提取深度学习网络中，得到第一综合特征信息；将上述第一综合特征信息输入到事件分析深度学习网络中，得到预测事件信息。

第一损失计算子模块，用于根据当前选取的样本图像的预测事件信息及其真值事件信息，计算事件特征提取深度学习网络及事件分析深度学习网络当前的损失。

训练参数调整子模块，用于根据事件特征提取深度学习网络及事件分析深度学习网络当前的损失，调整事件特征提取深度学习网络及事件分析深度学习网络的训练参数。

第二数量判断子模块，用于判断本阶段训练过程中事件特征提取模块及事件分析模块训练的样本图像的数量是否达到预设第二数量。

第一返回执行子模块，用于若未达到预设第二数量，返回执行上述步骤：在各上述训练集中选取一个样本图像。

验证图像选取子模块，用于若达到预设第二数量，在上述验证集中选取指定数量的样本图像，得到各第二验证图像。

目标信息获取子模块，用于将各上述第二验证图像分别输入到训练好的目标检测深度学习网络中，得到各上述第二验证图像各自的预测目标信息。

第二事件信息获取子模块，用于针对每一个第二验证图像，将该第二验证图像及该第二验证图像的预测目标信息输入到事件搜索深度学习网络中，得到该第二验证图像的预测事件信息。

预测结果获取子模块，用于针对每一个第二验证图像，将该第二验证图像、该第二验证图像的预测目标信息及预设事件信息输入到训练后的事件特征提取深度学习网络中提取特征，并将提取的特征输入到训练后的事件分析深度学习网络中，得到该第二验证图像的事件预测结果。

第二损失计算子模块，用于针对每一个第二验证图像，根据该第二验证图像的事件预测结果及真值事件信息，计算该第二验证图像对应的损失。

收敛判断子模块，用于判断各上述第二验证图像对应的损失是否收敛。

第二返回执行子模块，用于若各上述第二验证图像对应的损失不收敛，进入下一训练阶段，返回执行上述步骤：在各上述验证集中选取一个样本图像。

训练完成判定子模块，用于若各上述第二验证图像对应的损失收敛，则得到训练好的事件特征提取深度学习网络及事件分析深度学习网络。

在一种可能的实施方式中，第一事件信息获取子模块，具体用于：将当前选取的样本图像的真值目标框和真值事件框输入到事件特征提取深度学习网络，针对任一真值事件框，利用事件特征提取深度学习网络对该真值事件框中包括的真值目标框进行特征提取，分别得到该真值事件框中各真值目标框中的特征图特征。针对任一真值事件框，根据该真值事件框中各真值目标框在待检测数据中的位置，分别确定该真值事件框中各真值目标框的属性特征。针对任一真值目标框，确定与该真值目标框满足预设位置条件的待关联真值目标框。针对任一真值目标框，根据该真值目标框与该真值目标框的待关联真值目标框的属性特征及特征图特征，确定该真值目标框的属性关系特征及特征图关系特征。针对任一真值事件框，将该真值事件框中的各真值目标框的属性关系特征及特征图关系特征进行拼接，得到该真值事件框的第一综合特征信息。将第一综合特征信息输入到事件分析深度学习网络中，得到预测事件信息。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；

上述存储器，用于存放计算机程序；

上述处理器用于执行上述存储器存放的计算机程序时，实现上述任一图像检测方法。

可选的，本申请实施例的电子设备还包括通信接口和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现上述任一图像检测方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一图像检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种图像检测方法，其特征在于，所述方法包括：

获取待检测数据；

2.根据权利要求1所述的方法，其特征在于，所述利用预先训练的事件搜索深度学习网络，对所述待检测数据进行预设事件的发生区域预测，得到多个事件候选预测框，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用预先训练的事件特征提取深度学习网络，提取各所述事件候选预测框中的特征及所述目标框中的特征，得到各所述事件候选预测框的综合特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述针对任一目标框，确定与该目标框满足预设位置条件的待关联目标框，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用所述事件分析深度学习网络，分别对各所述事件候选预测框的综合特征信息进行分析，得到各所述事件候选预测框中是否发生预设事件类型的事件检测结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述标记信息为置信度值，其中，在所述置信度值大于预设阈值的情况下，表示发生了所述预设事件，否则表示未发生所述预设事件。

7.根据权利要求1所述的方法，其特征在于，所述标记信息为标志值，其中，所述标志值为第一数值时表示发生了所述预设事件，所述标志值为第二数值时表示未发生所述预设事件。

8.一种图像检测装置，其特征在于，所述装置包括：

待检测数据获取模块，用于获取待检测数据；

9.根据权利要求8所述的装置，其特征在于，所述事件搜索模块，具体用于：将所述目标框输入到预先训练的事件搜索深度学习网络，由所述事件搜索深度学习网络根据输入的目标框对所述待检测数据中预设事件的发生区域进行预测，并输出所述多个事件候选预测框，其中，任一所述事件候选预测框中包括至少两个目标框。

10.根据权利要求8所述的装置，其特征在于，所述事件特征提取模块，具体用于：将所述目标框和所述事件候选预测框输入到预先训练的事件特征提取深度学习网络，针对任一事件候选预测框，利用所述事件特征提取深度学习网络对该事件候选预测框中包括的目标框进行特征提取，分别得到该事件候选预测框中各目标框中的特征图特征；针对任一事件候选预测框，根据该事件候选预测框中各目标框在所述待检测数据中的位置，分别确定该事件候选预测框中各目标框的属性特征；针对任一目标框，确定与该目标框满足预设位置条件的待关联目标框；针对任一目标框，根据该目标框与该目标框的待关联目标框的属性特征及特征图特征，确定该目标框的空间关系特征及特征图关系特征；针对任一事件候选预测框，将该事件候选预测框中的各目标框的空间关系特征及特征图关系特征进行拼接，得到该事件候选预测框的综合特征信息。

11.根据权利要求8所述的装置，其特征在于，所述事件分析模块，具体用于：针对每一事件候选预测框，将该事件候选预测框的综合特征信息输入到所述事件分析深度学习网络，由所述事件分析深度学习网络对该事件候选预测框的综合特征信息进行分析，得到该事件候选预测框内是否发生所述预设事件的标记信息，其中，针对任一事件候选预测框，该事件候选预测框的标记信息用于表示是否发生所述预设事件。

12.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-7任一所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法。