CN114638973A

CN114638973A - 目标图像检测方法及图像检测模型训练方法

Info

Publication number: CN114638973A
Application number: CN202210329135.7A
Authority: CN
Inventors: 庄磊; 毛晓蛟; 章勇; 曹李军
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-06-17

Abstract

本申请是关于一种目标图像检测方法及图像检测模型训练方法，具体涉及计算机视觉技术领域。所述方法包括：获取目标图像以及目标支撑图像；分别对目标图像以及目标支撑图像进行特征提取，对应获得目标特征以及目标支撑特征；基于目标特征与目标支撑特征之间的相似度，生成注意力特征；对目标特征进行目标检测处理，获得候选查询特征；对注意力特征进行目标检测处理，获得候选支撑特征；基于候选查询特征与候选支撑特征之间的匹配关系，在目标图像中确定目的物体。上述方案在样本较小的情况下，也使得计算机设备在处理过程中更容易注意到目标物体对应的特征，从而提高了目标检测的准确性。

Description

目标图像检测方法及图像检测模型训练方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种目标图像检测方法及图像检测模型训练方法。

背景技术

目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体)，确定它们的类别和位置，是计算机视觉领域的核心问题之一。

目前目标检测算法已经发展的相对成熟，在一些现实任务中可以取得较好的检测效果。现有技术中，为了保证目标检测算法的准确率，需要使用海量已标注的数据，对设计好的深度学习模型进行长时间的训练，从而获得深度学习模型中，具有较好的识别效果模型参数，从而使得深度学习模型具有较好的区域检测以及分类能力。

上述方案中，在实际应用场景时，可能存在现场数据采集难度较大、采集耗时较长、图片数量不足、图片不便对外大量提供等问题，导致算法缺乏训练数据，在样本数量较少的情况下难以保证模型的检测效果。

发明内容

本申请提供了一种目标图像检测方法及图像检测模型训练方法，提高了目标检测的准确性，该技术方案如下。

一方面，提供了一种目标图像检测方法，所述方法包括：

获取目标图像以及目标支撑图像；所述目标支撑图像中包含目的物体；

分别对目标图像以及目标支撑图像进行特征提取，对应获得目标特征以及目标支撑特征；

基于所述目标特征与所述目标支撑特征之间的相似度，生成注意力特征；

对所述目标特征进行目标检测处理，获得候选查询特征；

对所述注意力特征进行目标检测处理，获得候选支撑特征；

基于候选查询特征与候选支撑特征之间的匹配关系，在所述目标图像中确定所述目的物体。

又一方面，提供了一种目标图像检测方法，所述方法包括：

获取样本图像以及样本支撑图像；所述样本支撑图像中包含目的物体；所述样本图像中存在目的标注区域；

通过图像检测模型中的特征提取模块，分别对所述样本图像以及样本支撑图像进行特征提取，对应获得样本特征以及样本支撑特征；

基于所述样本特征与样本支撑特征之间的相似度，生成样本注意力特征；

通过所述图像检测模型中的目标检测模块对所述样本特征进行目标检测处理，获得样本候选查询特征；

通过所述目标检测模块对所述样本注意力特征进行目标检测处理，获得样本候选支撑特征；

通过图像检测模型中的多头选择模块，获取候选查询特征与候选支撑特征之间的匹配关系，并基于匹配关系输出所述样本图像中的预测物体区域；

根据所述预测物体区域与所述样本图像中的目的标注区域，对所述图像检测模型进行训练，以通过训练后的图像检测模型对目标图像进行检测。

再一方面，提供了一种目标图像检测装置，所述装置包括：

目标图像获取模块，用于获取目标图像以及目标支撑图像；所述目标支撑图像中包含目的物体；

特征提取模块，用于分别对目标图像以及目标支撑图像进行特征提取，对应获得目标特征以及目标支撑特征；

注意力特征生成模块，用于基于所述目标特征与所述目标支撑特征之间的相似度，生成注意力特征；

第一检测模块，用于对所述目标特征进行目标检测处理，获得候选查询特征；

第二检测模块，用于对所述注意力特征进行目标检测处理，获得候选支撑特征；

目标物体确定模块，用于基于候选查询特征与候选支撑特征之间的匹配关系，在所述目标图像中确定所述目的物体。

在一种可能的实现方式中，所述特征提取模块，还用于，

通过图像检测模型中的特征提取模块，对所述目标图像进行特征提取，获得所述目标特征；

通过所述特征提取模块，对至少两张所述目标支撑图像进行特征提取，获得至少两个中间特征；

将所述至少两个中间特征的均值，获取为所述目标支撑特征。

在一种可能的实现方式中，所述注意力特征生成模块，还用于，

将所述目标特征与所述目标支撑特征在各个维度上进行卷积处理，并将各个维度的卷积结果构建为所述注意力特征。

在一种可能的实现方式中，所述目标物体确定模块，还用于，

将所述候选查询特征与所述候选支撑特征之间的相似度，获取为所述候选支撑特征的置信度；

当所述候选支撑特征的置信度大于置信阈值时，将所述候选支撑特征确定为所述目的物体的区域，并将所述置信度获取为所述目的物体的存在概率。

再一方面，提供了一种图像检测模型训练装置，所述装置包括：

样本图像获取模块，用于获取样本图像以及样本支撑图像；所述样本支撑图像中包含目的物体；所述样本图像中存在目的标注区域；

样本提取模块，用于通过图像检测模型中的特征提取模块，分别对所述样本图像以及样本支撑图像进行特征提取，对应获得样本特征以及样本支撑特征；

样本注意力特征生成模块，用于基于所述样本特征与样本支撑特征之间的相似度，生成样本注意力特征；

第一样本检测模块，用于通过所述图像检测模型中的目标检测模块对所述样本特征进行目标检测处理，获得样本候选查询特征；

第二样本检测模块，用于通过所述目标检测模块对所述样本注意力特征进行目标检测处理，获得样本候选支撑特征；

区域预测模块，用于通过图像检测模型中的多头选择模块，获取候选查询特征与候选支撑特征之间的匹配关系，并基于匹配关系输出所述样本图像中的预测物体区域；

模型训练模块，用于根据所述预测物体区域与所述样本图像中的目的标注区域，对所述图像检测模型进行训练，以通过训练后的图像检测模型对目标图像进行检测。

在一种可能的实现方式中，所述模型训练模块，还用于，

根据所述预测物体区域，与所述目的标注区域，获取第一损失函数值，以对所述目标检测模块进行反向传播更新；

根据所述预测物体区域，与所述目的标注区域，获取第二损失函数值，以对所述多头选择模块进行反向传播更新。

再一方面，提供了一种计算机设备，所述计算机设备中包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述目标图像检测方法；

或者，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述图像检测模型训练方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的目标图像检测方法；

或者所述至少一条指令由处理器加载并执行以实现上述的图像检测模型训练方法。

再一方面，提供了一种计算机程序产品还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的目标图像检测方法或图像检测模型训练方法。

本申请提供的技术方案可以包括以下有益效果：

在对目标图像进行检测时，由于现场的样本数据较少，此时计算机设备可以获取到目标支撑图像，同时对目标图像以及目标支撑图像进行特征提取，再将目标特征与目标支撑特征之间的相似度，生成注意力特征。计算机设备对注意力特征进行目标检测处理，此时目标检测模型在对注意力特征进行目标检测时，同时除了考虑目标支撑图像中的目的物体，还考虑了目标图像中与目标物体相似的部分，因此该候选支撑特征，更容易注意到与目标图像中相似的部分；而候选查询特征，则是根据目标特征进行目标检测得到的，是目标图像中可能有目标物体的位置的特征；计算机设备根据候选查询特征与候选支撑特征之间的匹配关系，在检测目标图像中的目标物体时，还通过与目标支撑图像中的目标物体的相似度进行辅助判断，即使在样本较小的情况下，也使得计算机设备在处理过程中更容易注意到目标物体对应的特征，从而提高了目标检测的准确性。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种目标图像检测系统的结构示意图。

图2是根据一示例性实施例示出的目标图像检测方法的方法流程图。

图3是根据一示例性实施例示出的目标图像检测方法的方法流程图。

图4是根据一示例性实施例示出的图像检测模型训练方法的方法流程图。

图5示出了本申请实施例涉及的一种图像检测模型的结构示意图。

图6是根据一示例性实施例示出的目标图像检测方法的流程框图。

图7是根据一示例性实施例示出的目标图像检测装置的结构方框图。

图8是根据一示例性实施例示出的图像检测模型训练装置的结构方框图。

图9是根据本申请一示例性实施例提供的一种计算机设备示意图。

具体实施方式

下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应理解，在本申请的实施例中提到的“指示”可以是直接指示，也可以是间接指示，还可以是表示具有关联关系。举例说明，A指示B，可以表示A直接指示B，例如B可以通过A获取；也可以表示A间接指示B，例如A指示C，B可以通过C获取；还可以表示A和B之间具有关联关系。

在本申请实施例的描述中，术语“对应”可表示两者之间具有直接对应或间接对应的关系，也可以表示两者之间具有关联关系，也可以是指示与被指示、配置与被配置等关系。

本申请实施例中，“预定义”可以通过在设备(例如，包括终端设备和网络设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现，本申请对于其具体的实现方式不做限定。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍。

1)AI(Artificial Intelligence，人工智能)

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。

用来研究人工智能的主要物质基础以及能够实现人工智能技术平台的机器就是计算机。除了计算机科学以外，人工智能还涉及信息论、控制论、自动化、仿生学、生物学、心理学、数理逻辑、语言学、医学和哲学等多门学科。人工智能学科研究的主要内容包括：知识表示、自动推理和搜索方法、机器学习和知识获取、知识处理系统、自然语言理解、计算机视觉、智能机器人、自动程序设计等方面。

2)CV(Computer Vision，计算机视觉)

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

3)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例中提供的目标图像检测方法可以应用于具有较强数据处理能力的计算机设备中。该目标图像检测方法可以是对图像检测模型的训练后，通过图像检测模型对目标图像识别并检测出目的物体的方法，该图像检测模型可以实现对输入特征进行处理，得到对应于输入特征的目的物体所在的区域以及目标物体的类别。在一种可能的实现方式中，本申请实施例提供的目标图像检测方法可以应用于个人计算机、工作站或服务器中，并且可以通过个人计算机、工作站以及服务器中至少一者进行图像检测模型的训练。

图1是根据一示例性实施例示出的一种目标图像检测系统的结构示意图。该目标图像检测系统中包含服务器110以及终端120。其中，终端120与服务器110之间通过通信网络进行数据通信，该通信网络可以是有线网络也可以是无线网络。

可选的，终端120中安装有具有图像处理功能的应用程序，该应用程序可以是专业图像处理应用程序、社交类应用程序，虚拟现实类应用程序、或者具有图像处理功能的AI应用程序，本申请实施例对此不做限定。

可选的，该终端120可以是具有图像采集组件的终端设备，该图像采集组件用于获取图像并存储与终端120中的数据存储模块中；该终端120还可以是具有数据传输接口的终端设备，该数据传输接口用于接收具有图像采集组件的图像采集设备所采集到的图像数据。

可选的，该终端120可以是智能手机、平板电脑，膝上便携式笔记本电脑等移动终端，也可以是台式电脑、投影式电脑等终端，或是具有数据处理组件的智能终端，本申请实施例对此不设限制。

服务器110可以实现为一台服务器，也可以实现为一组服务器构成的服务器集群，其可以是物理服务器，也可以实现为云服务器。在一种可能的实现方式中，服务器110是终端120中应用程序的后台服务器。

在本申请实施例的一种可能的实现方式中，服务器110通过预先设置的训练样本集(包括各个训练样本图像)对图像检测模型进行训练，其中训练样本集中可以包含不同类别的样本图像，各个训练样本图像均存在各自的类别标注信息(即标签值)。当服务器110对该图像检测模型的训练过程完成后，通过有线网络或无线网络，将该训练好的图像检测模型发送至终端120中。

终端120接收到该训练好的分类网络模型，并将该图像检测模型所对应的数据信息(例如权重信息)发送至具有识别分类功能的应用程序中，以便用户使用该应用程序时，可以对输入的图像进行识别分类处理。

可选的，上述服务器可以是独立的物理服务器，也可以是由多个物理服务器构成的服务器集群或者是分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等技术运计算服务的云服务器。

可选的，该系统还可以包括管理设备，该管理设备用于对该系统进行管理(如管理各个模块与服务器之间的连接状态等)，该管理设备与服务器之间通过通信网络相连。可选的，该通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网，但也可以是其他任何网络，包括但不限于局域网、城域网、广域网、移动、有限或无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言、可扩展标记语言等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层、传输层安全、虚拟专用网络、网际协议安全等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

图2是根据一示例性实施例示出的目标图像检测方法的方法流程图。该方法由计算机设备执行，该计算机设备可以是如图1所示的目标图像检测系统中的服务器或终端。如图2所示，该目标图像检测方法可以包括如下步骤：

步骤201，获取目标图像以及目标支撑图像。

在本申请实施例中，目标支撑图像中包含目的物体，而本申请实施例的方案最终需要实现的，是在目标图像中，对目的物体的存在与否以及存在位置进行检测。

因此在本申请实施例中，可以认为目标图像是待检测的图像，而目标支撑图像是预先准备好的，在目标图像的检测过程中起辅助作用的图像。

步骤202，分别对目标图像以及目标支撑图像进行特征提取，对应获得目标特征以及目标支撑特征。

在计算机设备获取到目标图像以及目标支撑图像后，计算机设备可以对目标图像进行特征提取处理，从而获得目标图像对应的目标特征；计算机设备还可以对目标支撑图像进行特征提取处理，从而获得目标支撑特征。

在一种可能的实现方式中，计算机设备可以使用预先训练好的特征提取网络，如ResNet-50，分别对目标图像以及目标支撑图像进行特征提取。

由于在本申请实施例中，最终的检测目标是目标图像中目的物体的存在与否以及可能存在的位置，因此在特征提取网络，提取出的特征，也应该是聚焦于目的物体的。因此在一种可能的实现方式中，该特征提取网络可以是通过将图像作为样本，将图像上目的物体的位置作为标注，对特征提取网络进行训练，此时训练好的特征提取网络对更容易注意到目的物体的特征，在特征提取过程中更偏向于提取出目的物体的特征。

步骤203，基于该目标特征与该目标支撑特征之间的相似度，生成注意力特征。

在获取到目标特征后，以及目标支撑特征后，计算机设备可以获取目标特征与目标支撑特征之间的相似度，并基于相似度生成注意力特征。

可选的，计算目标特征与目标支撑特征之间的相似度可以通过深度卷积方式得到。即将目标特征与目标支撑特征之间，按照各个通道进行分别卷积处理，从而得到各个通道的特征图，以构成注意力特征。

此时，注意力特征中的数值，不同于原目标支撑特征，并不只关注于目的物体的部分，而是更关注于目标特征与目标支撑特征之间的相似部分，也就是目标特征与目的物体的相似部分。

步骤204，对该目标特征进行目标检测处理，获得候选查询特征。

可选的，计算机设备可以通过训练好的目标检测模型，对目标特征进行目标检测处理，在目标特征中生成候选框，并将候选框中的特征获取为候选查询特征，此时该候选查询特征即指示的是通过目标特征所判断出的目的物体可能存在的区域。

步骤205，对该注意力特征进行目标检测处理，获得候选支撑特征。

可选的，计算机设备同样通过训练好的目标检测模型，对注意力特征进行目标检测处理，从而在注意力特征中生成候选框，并将候选框中的特征获取为候选支撑特征，此时该候选支撑特征即指示的，按照注意力特征所判断出的目的物体可能存在的区域。

步骤206，基于候选查询特征与候选支撑特征之间的匹配关系，在该目标图像中确定该目的物体。

在一种可能的实现方式中，当获取到候选查询特征以及候选支撑特征后，则可以根据候选支撑特征与候选支撑特征之间的匹配关系，确定出各个候选查询特征的可信度，并将可信度高于阈值的候选查询特征所对应的区域确定为目的物体所对应的区域，以实现在目标图像中确定目的物体。

由于候选支撑特征是依赖目标支撑图像与目标图像的相似关系所得到的检测框内的特征，因此从逻辑上可以认为，候选支撑特征表征着通过目标支撑图像中提取到的目标支撑特征(即目的物体的特征)，找寻到的目标图像中相似区域的特征。

而候选查询特征是只依赖目标图像所得到的检测框内的特征，当候选查询特征与候选支撑特征的匹配程度高时，可以认为是候选查询特征中的特征，与目的物体的相似度高，因此可以将该候选查询特征所在的区域作为目的物体所在的区域。

综上所述，在对目标图像进行检测时，由于现场的样本数据较少，此时计算机设备可以获取到目标支撑图像，同时对目标图像以及目标支撑图像进行特征提取，再将目标特征与目标支撑特征之间的相似度，生成注意力特征。计算机设备对注意力特征进行目标检测处理，此时目标检测模型在对注意力特征进行目标检测时，同时除了考虑目标支撑图像中的目的物体，还考虑了目标图像中与目标物体相似的部分，因此该候选支撑特征，更容易注意到与目标图像中相似的部分；而候选查询特征，则是根据目标特征进行目标检测得到的，是目标图像中可能有目标物体的位置的特征；计算机设备根据候选查询特征与候选支撑特征之间的匹配关系，在检测目标图像中的目标物体时，还通过与目标支撑图像中的目标物体的相似度进行辅助判断，即使在样本较小的情况下，也使得计算机设备在处理过程中更容易注意到目标物体对应的特征，从而提高了目标检测的准确性。

图3是根据一示例性实施例示出的目标图像检测方法的方法流程图。该方法由计算机设备执行，该计算机设备可以是如图1所示的目标图像检测系统中的服务器或终端。如图3所示，该目标图像检测方法可以包括如下步骤：

步骤301，获取目标图像以及目标支撑图像。

在本申请实施例的一种可能的实现方式中，该目标图像是需要进行检测的，在工程场景中采集到的图像，此时计算机设备需要对该目标图像进行检测，判断该目标图像中是否存在目的物体。

而目标支撑图像为在与目标图像类似的工程场景中采集到的图像，在该目标支撑图像中包含目的物体。

可选的，该目标支撑图像可以是多个目标支撑图像；通过多个目标支撑图像中的特征，在后续流程中辅助目标图像的检测，可以进一步提高目标图像的检测准确性。

步骤302，通过图像检测模型中的特征提取模块，对该目标图像进行特征提取，获得该目标特征。

在本申请实施例的一种可能的实现方式中，该特征提取模块可以是预先训练好的。

进一步的，在该特征提取模块，可以是通过与目标支撑图像类似的工程场景中采集到的样本图像训练得到的。

例如，当需要对特征提取模块进行训练时，可以先构建包含特征提取模块的机器学习模型(如基于特征提取模块构建目标检测模型)，计算机设备将样本图像，以及样本图像上目的物体的标注框，对目标检测模型进行训练，并将训练完成后的目标检测模块的特征提取模块的参数取出，作为该目标检测模型中的特征提取模块的参数。

通过上述方式训练出的特征提取模型，更容易注意到目的物体的特征，提取出的特征与目的物体的相关度更高。

步骤303，通过该特征提取模块，对至少两张该目标支撑图像进行特征提取，获得至少两个中间特征。

在本申请实施例中，当存在多个目标支撑图像时，计算机设备可以通过特征提取模块，分别对各个目标支撑图像进行特征提取，从而获得各个中间特征，此时该中间特征则代表着各个目标支撑图像中目的物体的特征。

步骤304，将该至少两个中间特征的均值，获取为该目标支撑特征。

当获取到各个目标支撑图像所对应的中间特征时，由于在实际应用场景(即工程场景中)，相同类似的目的物体之间仍然存在差异，为了提高在不同场景下对目的物体的检测的准确性，此时获取目标支撑特征时，可以将从不同目标支撑图像提取到的中间特征进行融合，即将中间特征的均值获取为目标支撑特征，从而使得获取到的目标支撑特征，是同时考虑到的不同场景内的目的物体的图像情况所得到的。

步骤305，将该目标特征与该目标支撑特征在各个维度上进行卷积处理，并将各个维度的卷积结果构建为该注意力特征。

通过特征提取模块提取出目标特征，以及目标支撑特征后，此时计算机设备可以将该目标特征以及目标支撑特征，分别在各个维度(即各个通道上，如RGB三通道)进行卷积处理，从而计算出目标特征与目标支撑特征之间的相似度，并将卷积结果构建为注意力特征。

例如，该注意力特征的生成原理公式如下所示：

其中，X∈t^S×S×C表示support特征；X∈t^H×W×C表示query特征；因此根据上述卷积公式，可以生成特征矩阵G_h,w,c，即注意力特征。

步骤306，对该目标特征进行目标检测处理，获得候选查询特征。

当通过特征提取模块，对目标图像进行特征提取，所得到目标特征后，计算机设备可以通过目标检测算法对目标特征进行目标检测，即通过训练好的区域生成网络，对目标特征进行数据处理，从而输出目标特征所对应的候选框(即感兴趣的区域)，此时候选框中的特征即为候选查询特征。

在一种可能的实现方式中，该区域生成网络是将样本图像作为样本，将样本图像上的目的物体的标注框作为标注训练得到的。

因此该区域生成网络也更容易注意到目的物体所对应的区域，并生成对应的候选框，此时候选框中的特征即为根据目标特征所预测得到的目的物体的特征，并将该特征作为候选查询特征。

步骤307，对该注意力特征进行目标检测处理，获得候选支撑特征。

在一种可能的实现方式中，计算机设备可以通过训练好的区域生成网络，对注意力特征也进行数据处理，从而输出目标特征所对应的候选框，此时候选框中的特征为候选支撑特征。

此时由于该候选支撑特征是根据注意力特征确定的，而注意力特征的数据更趋向于表征目标图像中，与目标支撑图像的各个区域的相似度的特征。

因此通过区域生成网络，对注意力特征进行数据处理所得到的候选框，更趋向于选择目标图像中，与目标支撑图像的目的物体的相似区域。

步骤308，基于候选查询特征与候选支撑特征之间的匹配关系，在该目标图像中确定该目的物体。

基于上述步骤，当候选查询特征与候选支撑特征的匹配关系满足条件时(例如当候选查询特征与候选支撑特征匹配时)，说明此时候选查询特征，与通过目标支撑图像以及目标图像之间的相似度所得到的候选支撑特征相符合，候选查询特征有较大的可能为目的物体所对应的特征。

因此计算机设备可以将目标图像中，候选查询特征所对应的区域，确定为目的物体所在的区域，从而在目标图像中确定目的物体。

在一种可能的实现方式中，将该候选查询特征与该候选支撑特征之间的相似度，获取为该候选支撑特征的置信度；当该候选支撑特征的置信度大于置信阈值时，将该候选支撑特征确定为该目的物体的区域，并将该置信度获取为该目的物体的存在概率。

当候选查询特征与候选支撑特征之间的相似度较大时，则说明候选查询特征更有可能为目的物体所对应的特征，因此将该候选查询特征与该候选支撑特征之间的相似度，获取为该候选支撑特征的置信度，当置信度较大的候选支撑特征的区域中有较大可能存在目的物体，因此将该区域确定为目的物体的区域。

在一种可能的实现方式中，根据该候选查询特征与该候选支撑特征之间的全局相关性、局部相关性以及图像块匹配关系中的至少一者，获取该候选查询特征与该候选支撑特征之间的相似度。

其中，该候选查询特征与该候选支撑特征之间的全局相关性为，将将候选查询特征和候选支撑特征进行向量变换维度后堆叠在一起，输入到全连接层中得到的。

该候选查询特征与该候选支撑特征之间的局部相关性为，分别将该候选查询特征与该候选支撑特征送入卷积层进一步提取特征，接着将所得查询特征在所得支撑特征上滑动，计算协相关特征并进行非线性化，计算得到局部相似度。

该候选查询特征与该候选支撑特征之间的图像块匹配关系为，将候选查询特征与该候选支撑特征进行向量变换维度后堆叠在一起，输入到卷积层、非线性层、池化层后，计算得到的图像块相似度。

在一种可能的实现方式中，分别获取候选查询特征与该候选支撑特征之间的全局相似度、局部相似度以及图像块匹配关系，并进行加权求和，从而获得候选查询特征与该候选支撑特征之间的相似度。

图4是根据一示例性实施例示出的图像检测模型训练方法的方法流程图。该方法由计算机设备执行，该计算机设备可以是如图1所示的目标图像检测系统中的服务器或终端。如图4所示，该图像检测模型训练方法可以包括如下步骤：

步骤401，获取样本图像以及样本支撑图像。

该样本支撑图像中包含目标物体。该样本图像中存在目的标注区域；

步骤402，通过图像检测模型中的特征提取模块，分别对该样本图像以及样本支撑图像进行特征提取，对应获得样本特征以及样本支撑特征。

步骤403，基于该样本特征与样本支撑特征之间的相似度，生成样本注意力特征。

步骤404，通过该图像检测模型中的目标检测模块对该样本特征进行目标检测处理，获得样本候选查询特征。

步骤405，通过该目标检测模块对该样本注意力特征进行目标检测处理，获得样本候选支撑特征。

步骤406，通过图像检测模型中的多头选择模块，获取候选查询特征与候选支撑特征之间的匹配关系，并基于匹配关系输出该样本图像中的预测物体区域。

其中，步骤401与步骤406，为与图3所示实施例中的模型运用过程相对于的模型训练过程，由于模型应用过程与模型训练过程的数据处理方式类似，此处不再赘述。

步骤407，根据该预测物体区域与该样本图像中的目的标注区域，对该图像检测模型进行训练，以通过训练后的图像检测模型对目标图像进行检测。

在一种可能的实现方式中，根据该预测物体区域，与该目的标注区域，获取第一损失函数值，以对该目标检测模块进行反向传播更新；

根据该预测物体区域，与该目的标注区域，获取第二损失函数值，以对该多头选择模块进行反向传播更新。

请参考图5，其示出了本申请实施例涉及的一种图像检测模型的结构示意图。如图5所示，该图像检测模型所使用的网络基础结构为ResNet-50。RPN部分采用Faster R-CNN中使用的标准RPN，具体包括1个3x3的卷积层和2个1x1的卷积层。Head部分计算每个候选区域特征时，对于support图像直接通过GT(ground truth，即标注框)检测框选取出特征区域，并经过ROI-Align后使用Res5 block提取特征；对于query图像，通过RPN网络确定出预测检测框位置，并在预测检测框位置经过ROI-Align后使用Res5block提取特征；预测检测框位置和目标类别时，采用多个卷积层和全连接层，分别计算support特征和query特征的全局关系、局部关系和图像块匹配关系，最终置信度取3者的和。

上述模型在训练时，RPN阶段定位损失选取为smooth l1 loss，分类损失选取为二元交叉熵损失(通过smooth l1 loss以及二元交叉熵损失可以得到第一损失函数值)，Head部分分类损失选取为softmax交叉熵损失，检测框回归损失选取为smooth l1 loss(通过smooth l1 loss以及softmax交叉熵损失可以得到第一损失函数值)。训练过程中的优化器使用带动量的SGD算法，设置BatchSize为4，总迭代次数为120000次，初始学习率为0.002，在第80000次、100000次处学习率分别除以10。训练过程在2块RTX2080显卡上进行训练，通过反向传播算法来更新网络参数。

并且在本申请实施例所训练出的模型，相比较于常规的目标检测模型，在检测出候选框的前提下，通过目标特征与目标支撑特征的相似度所形成的注意力特征，生成作为参考的候选框，并通过参考的候选框中的特征，对目标图像的候选框中的特征进行验证，从而进一步提高目标检测的准确性。

图6是根据一示例性实施例示出的目标图像检测方法的流程框图。该方法由计算机设备执行，该计算机设备可以是如图1所示的目标图像检测系统中的服务器或终端，本申请实施例中，该目标图像检测方法中包括图像检测模型的训练方法。如图6所示，以该目标图像检测方法运用于工程中的垃圾倾倒检测场景为例，该目标图像检测方法如下所示。

首先，本申请实施例中，计算机设备在COCO开源图像数据集上训练算法模型。

在实际场景测试阶段，首先，采集20张建筑垃圾倾倒图片作为support图片，并利用已训练好的模型提取support特征；接着，将监控摄像头拍摄到的视频抽帧为图像后，经ResNet-50提取query特征、计算query特征与support特征的相似度、输入RPN产生候选框、Head部分计算检测置信度，最终输出建筑垃圾检测情况，据此高效地判断是否存在建筑垃圾倾倒的情况。本申请中涉及的代码使用Python3语言进行编写，使用Pytorch深度学习框架进行训练。

本申请实施例的处理流程图如图6所示。具体实施步骤如下：

1)数据集的预处理

在COCO开源图像数据集上进行算法模型训练，为使得训练所得网络模型有较好的泛化能力，对训练数据进行数据增强。首先，缩放图像尺寸为512*288。接着，进行随机平移、旋转和尺度变换。具体为：

其中：(x,y,1)表示图像平移前的矩阵；(x',y',1)表示图像平移后的矩阵；d_x和d_y分别

为图像在x轴和y轴上的平移像素量；

其中：(x,y,1)表示图像尺度变换前的矩阵；(x”,y”,1)表示图像尺度变换后的矩阵；

s_x和s_y分别为图像在x轴和y轴上的尺度变换因子；

其中：(x,y,1)表示图像旋转前的矩阵；(x”',y”',1)表示图像旋转后的矩阵；

为旋转角度。

2)算法网络的搭建

本发明所使用的网络基础结构为ResNet-50。RPN部分采用Faster R-CNN中使用的标准RPN，具体包括1个3x3的卷积层和2个1x1的卷积层。Head部分计算每个候选区域特征时，在经过ROI-Align后使用Res5block提取特征；预测检测框位置和目标类别时，采用多个卷积层和全连接层，分别计算support特征和query特征的全局关系、局部关系和图像块匹配关系，最终置信度取3者的和。

3)算法网络的训练

本发明的算法模型在训练时，RPN阶段定位损失选取为smooth l1 loss，分类损失选取为二元交叉熵损失，Head部分分类损失选取为softmax交叉熵损失，检测框回归损失选取为smooth l1 loss。训练过程中的优化器使用带动量的SGD算法，设置BatchSize为4，总迭代次数为120000次，初始学习率为0.002，在第80000次、100000次处学习率分别除以10。训练过程在2块RTX2080显卡上进行训练，通过反向传播算法来更新网络参数。

4)support图像的采集

在与现场使用类似的场景下，采集20张建筑垃圾倾倒图片作为support图片。

5)提取support特征

借助算法模型训练所得的模型，分别提取20张support图片对应的support特征，取所有图片的特征的均值作为建筑垃圾类别的最终support特征。

6)测试图像预处理

将监控摄像头拍摄到的视频抽帧为图像后，将图像尺寸归一化到640x640，便于模型更快推断，提高算法性能。

7)测试图像输入模型

将640x640尺寸的测试图像和已构造的support特征送入已训练好的模型中，模型输出该测试图像中建筑垃圾的检测结果。

8)判断是否存在建筑垃圾倾倒

根据建筑垃圾检测结果和置信度，判断是否存在建筑垃圾倾倒的情况。

所述装置包括：

目标图像获取模块701，用于获取目标图像以及目标支撑图像；所述目标支撑图像中包含目的物体；

特征提取模块702，用于分别对目标图像以及目标支撑图像进行特征提取，对应获得目标特征以及目标支撑特征；

注意力特征生成模块703，用于基于所述目标特征与所述目标支撑特征之间的相似度，生成注意力特征；

第一检测模块704，用于对所述目标特征进行目标检测处理，获得候选查询特征；

第二检测模块705，用于对所述注意力特征进行目标检测处理，获得候选支撑特征；

目标物体确定模块706，用于基于候选查询特征与候选支撑特征之间的匹配关系，在所述目标图像中确定所述目的物体。

在一种可能的实现方式中，所述特征提取模块，还用于，

图8是根据一示例性实施例示出的图像检测模型训练装置的结构方框图。所述装置包括：

样本图像获取模块801，用于获取样本图像以及样本支撑图像；所述样本支撑图像中包含目的物体；所述样本图像中存在目的标注区域；

样本提取模块802，用于通过图像检测模型中的特征提取模块，分别对所述样本图像以及样本支撑图像进行特征提取，对应获得样本特征以及样本支撑特征；

样本注意力特征生成模块803，用于基于所述样本特征与样本支撑特征之间的相似度，生成样本注意力特征；

第一样本检测模块804，用于通过所述图像检测模型中的目标检测模块对所述样本特征进行目标检测处理，获得样本候选查询特征；

第二样本检测模块805，用于通过所述目标检测模块对所述样本注意力特征进行目标检测处理，获得样本候选支撑特征；

区域预测模块806，用于通过图像检测模型中的多头选择模块，获取候选查询特征与候选支撑特征之间的匹配关系，并基于匹配关系输出所述样本图像中的预测物体区域；

模型训练模块807，用于根据所述预测物体区域与所述样本图像中的目的标注区域，对所述图像检测模型进行训练，以通过训练后的图像检测模型对目标图像进行检测。

在一种可能的实现方式中，所述模型训练模块，还用于，

请参阅图9，其是根据本申请一示例性实施例提供的一种计算机设备示意图，所述计算机设备包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述方法。

其中，处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施方式中的方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施方式中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

在一示例性实施例中，还提供了一种计算机可读存储介质，用于存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现上述方法中的全部或部分步骤。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种目标图像检测方法，其特征在于，所述方法包括：

对所述目标特征进行目标检测处理，获得候选查询特征；

对所述注意力特征进行目标检测处理，获得候选支撑特征；

2.根据权利要求1所述的方法，其特征在于，所述对目标图像以及目标支撑图像进行特征提取，对应获得目标特征以及目标支撑特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标特征与所述目标支撑特征之间的相似度，生成注意力特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于候选查询特征与候选支撑特征之间的匹配关系，在所述目标图像中确定所述目的物体，包括：

5.一种图像检测模型训练方法，其特征在于，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述预测物体区域与所述样本图像中的目的标注区域，对所述图像检测模型进行训练，包括：

7.一种目标图像检测装置，其特征在于，所述装置包括：

8.一种图像检测模型训练装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备中包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求1至4任一所述的目标图像检测方法；

或者，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求5或6任一所述的图像检测模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至4任一所述的目标图像检测方法；

或者，所述至少一条指令由处理器加载并执行以实现如权利要求5或6任一所述的图像检测模型训练方法。