CN114926666A

CN114926666A - 一种图像数据处理方法及装置

Info

Publication number: CN114926666A
Application number: CN202210642575.8A
Authority: CN
Inventors: 万纬韬; 孙冲; 李琛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-08-19

Abstract

本申请提供了一种图像数据处理方法以及相关装置。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。其方法包括：获取待检测图像以及目标对象图像；对待检测图像以及目标对象图像进行特征提取，得到两个特征图像数据；根据特征图像数据生成相关矩阵；通过相关矩阵，生成像素级空间位置矩阵；根据像素级空间位置矩阵在待检测图像中生成包含目标对象的目标对象检测框。本申请实施例提供图像数据处理方法，通过相关矩阵建立待检测图像的特征图中的像素与目标对象图像的特征图中像素的相似程度，通过像素级空间位置矩阵建立待检测图像与目标对象图像的相似像素的空间位置关系，提高了从待检测图像中检测出目标对象的准确率。

Description

一种图像数据处理方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像数据方法及装置。

背景技术

随着科技的发展，目标检测技术被越来越广泛的使用。基于图像的目标检测技术是指检测出图像所包括的目标对象的技术，是一种常见的图像处理的方式，其广泛地应用于对商品、地标、宠物等对象的检测任务。

现有的基于图像的目标检测方法主要分为两类，一类是通过基于深度神经网络的端到端目标对象检测方法，另一类是图像区域预测与图像检索相结合的目标对象检测方法。但是，这两种方法均存在检测准确率较低的问题。

发明内容

本申请实施例提供了一种图像数据处理方法以及相关装置，首先，通过相关矩阵建立待检测图像的特征图中的像素与目标对象图像的特征图中像素的相似程度，然后根据像素级空间位置矩阵建立待检测图像与目标对象图像的相似像素的空间位置关系，最后根据像素级空间位置矩阵在待检测图像中检测出目标对象，提高目标对象的检测准确率。

本申请的一方面提供一种图像数据处理方法，包括：

获取待检测图像以及目标对象图像；

分别将待检测图像以及目标对象图像作为单样本检测模型中的特征提取网络的输入，通过特征提取网络分别输出第一特征图像以及第二特征图像，其中，第一特征图像为特征提取网络根据待检测图像生成的，第一特征图像包括K个第一特征像素，第二特征图像为特征提取网络根据目标对象图像生成的，第二特征图像包括L个第二特征像素，K为大于1的整数，L为大于1的整数；

根据第一特征图像以及第二特征图像，生成相关矩阵，其中，相关矩阵包括K×L个相似度值，K×L个相似度值表示K个第一特征像素与L个第二特征像素的相似程度；

将相关矩阵作为单样本检测模型中的变换网络的输入，通过变换网络输出像素级空间位置矩阵，其中，像素级空间位置矩阵包括K×L×2个元素，K×L×2个元素表示以K个第一特征像素中任一个为锚点时，L个第二特征像素在第一特征图像中的对应位置坐标；

根据像素级空间位置矩阵，在待检测图像中生成T个目标对象检测框，其中，T个目标对象检测框包括T个目标对象，T个目标对象检测框对应的T个置信度值均满足置信度阈值，T为大于等于0的整数。

本申请的另一方面提供了一种图像数据处理装置，包括：

图像获取模块，用于获取待检测图像以及目标对象图像；

特征提取模块，用于分别将待检测图像以及目标对象图像作为单样本检测模型中的特征提取网络的输入，通过特征提取网络分别输出第一特征图像以及第二特征图像，其中，第一特征图像为特征提取网络根据待检测图像生成的，第一特征图像包括K个第一特征像素，第二特征图像为特征提取网络根据目标对象图像生成的，第二特征图像包括L个第二特征像素，K为大于1的整数，L为大于1的整数；

相关矩阵生成模块，用于根据第一特征图像以及第二特征图像，生成相关矩阵，其中，相关矩阵包括K×L个相似度值，K×L个相似度值表示K个第一特征像素与L个第二特征像素的相似程度；

像素级空间位置矩阵生成模块，用于将相关矩阵作为单样本检测模型中的变换网络的输入，通过变换网络输出像素级空间位置矩阵，其中，像素级空间位置矩阵包括K×L×2个元素，K×L×2个元素表示以K个第一特征像素中任一个为锚点时，L个第二特征像素在第一特征图像中的对应位置坐标；

检测框生成模块，用于根据像素级空间位置矩阵，在待检测图像中生成T个目标对象检测框，其中，T个目标对象检测框包括T个目标对象，T个目标对象检测框对应的T个置信度值均满足置信度阈值，T为大于等于0的整数。

在本申请实施例的另一种实现方式中，K个第一特征像素对应K个以第一特征像素为锚点生成的检测框；图像数据处理装置，还包括：置信度矩阵计算模块用于：

根据像素级空间位置矩阵对相关矩阵进行重采样处理，生成重采样矩阵，其中，重采样矩阵包括U个维度，U为大于等于2的整数；

对重采样矩阵中的U个维度进行平均池化处理，得到置信度矩阵，其中，置信度矩阵包括K个置信度值，K个置信度值对应于K个检测框。

在本申请实施例的另一种实现方式中，检测框生成模块包括：检测框第一生成子模块，用于：

根据像素级空间位置矩阵，在待检测图像中生成T个对应网格，对应网格为待检测图像与目标对象图像的相似像素的对应网格；

根据T个对应网格生成T个目标对象检测框，其中，每个目标对象检测框为每个对应网格的外接矩形。

在本申请实施例的另一种实现方式中，检测框生成模块包括：检测框第二生成子模块用于：

根据像素级空间位置矩阵，在待检测图像中确定目标对象的顶点坐标；

根据目标对象的顶点坐标生成目标对象检测框。

在本申请实施例的另一种实现方式中，特征提取网络包括卷积子网络以及字典子网络，字典子网络携带字典矩阵；特征提取模块还用于：

将待检测图像作为卷积子网络的输入，通过卷积子网络输出第一中间矩阵；

将第一中间矩阵输入至字典子网络，通过字典子网络将第一中间矩阵与字典矩阵进行特征交叉，生成待检测图像特征矩阵；

将待检测图像特征矩阵进行归一化处理，得到第一特征矩阵；

根据第一特征矩阵，生成第一特征图像；

将目标对象图像作为卷积子网络的输入，通过卷积子网络输出第二中间矩阵；

将第二中间矩阵输入至字典子网络，通过字典子网络将第二中间矩阵与字典矩阵进行特征交叉，生成目标对象图像特征矩阵；

将目标对象图像特征矩阵进行归一化处理，得到第二特征矩阵；

根据第二特征矩阵，生成第二特征图像。

在本申请实施例的另一种实现方式中，图像数据处理装置还包括模型训练模块，模型训练模块包括：

训练图像获取子模块，用于获取第一训练样本图像、第二训练样本图像以及训练对象图像，其中，第一训练样本图像包括T_B个训练对象标注框，T_B个训练对象标注框包括T_B个训练对象，T_B个训练对象标注框对应于T_B个标注框数据，第二训练样本图像不包括训练对象，训练对象图像包括训练对象，T_B为大于等于1的整数；

训练特征提取子模块，用于分别将第一训练样本图像、第二训练样本图像以及训练对象图像作为单样本检测模型中的特征提取网络的输入，通过特征提取网络分别输出第一训练特征图像、第二训练特征图像以及第三训练特征图像，其中，第一训练特征图像为特征提取网络根据第一训练样本图像生成的，第一训练特征图像包括K_X1个第一训练特征像素，第二训练特征图像为特征提取网络根据第二训练样本图像生成的，第二训练特征图像包括K_X2个第二训练特征像素，第三训练特征图像为特征提取网络根据训练对象图像生成的，第三训练特征图像包括L_X个第三训练特征像素，K_X1为大于1的整数，K_X2为大于1的整数，L_X为大于1的整数；

训练相关矩阵生成子模块，用于根据第一训练特征图像以及第三训练特征图像，生成第一训练相关矩阵，其中，第一训练相关矩阵包括K_X1×L_X个相似度值，K_X1×L_X个相似度值为K_X1个第一训练特征像素与L_X个第三训练特征像素的相似程度；

训练相关矩阵生成子模块，还用于根据二训练特征图像以及第三训练特征图像，生成第二训练相关矩阵，其中，第二训练相关矩阵包括K_X2×L_X个相似度值，K_X2×L_X个相似度值为K_X2个第二训练特征像素与L_X个第三训练特征像素的相似程度；

训练像素级空间位置矩阵生成子模块，用于将第一训练相关矩阵作为单样本检测模型中的变换网络的输入，通过变换网络输出第一训练像素级空间位置矩阵，其中，第一训练像素级空间位置矩阵包括K_X1×K_X×2个第一训练元素，K_X1×L_X×2个第一训练元素表示以K_X1个第一训练特征像素中任一个为锚点时，L_X个第三训练特征像素在第一训练特征图像中的对应位置坐标；

训练像素级空间位置矩阵生成子模块，还用于将第二训练相关矩阵作为单样本检测模型中的变换网络的输入，通过变换网络输出第二训练像素级空间位置矩阵，其中，第二训练像素级空间位置矩阵包括K_X2×L_X×2个第二训练元素，K_X2×L_X×2个第二训练元素表示以K_X2个第二训练特征像素中任一个为锚点时，L_X个第三训练特征像素在第二训练特征图像中的对应位置坐标；

训练检测框生成子模块，用于根据第一训练像素级空间位置矩阵，在第一训练样本图像中生成T_X1个训练对象第一检测框，其中，T_X1个训练对象第一检测框包括T_X1个训练对象，T_X1个训练对象第一检测框对应T_X1个第一训练置信度，T_X1个训练对象第一检测框对应T_X1个第一检测框数据；

训练检测框生成子模块，还用于根据第二训练像素级空间位置矩阵，在第二训练样本图像中生成T_X2个训练对象第二检测框，其中，T_X2个训练对象第二检测框对应T_X2个第二训练置信度，T_X2个训练对象第二检测框对应T_X2个第二检测框数据；

损失结果生成子模块，用于根据T_X1个第一训练置信度、T_X1个第一检测框数据、T_X2个第二训练置信度、T_X2个第二检测框数据以及T_B个标注框数据，生成单样本检测模型损失结果；

模型训练子模块，用于根据单样本检测模型损失结果对单样本检测模型进行训练。

在本申请实施例的另一种实现方式中，第一训练样本图像对应第一置信度参考值，第二训练样本图像对应第二置信度参考值；损失结果生成子模块还用于：

根据T_X1个第一训练置信度、T_X1个第一检测框数据、T_X2个第二训练置信度、T_X2个第二检测框数据以及T_B个标注框数据，生成单样本检测模型损失结果，包括：

根据T_X1个第一训练置信度与第一置信度参考值，生成第一分类损失结果；

根据T_X2个第二训练置信度与第二置信度参考值，生成第二分类损失结果；

根据T_X1个第一检测框数据、T_X2个第二检测框数据以及T_B个标注框数据，生成定位损失结果；

根据第一分类损失结果、第二分类损失结果以及定位损失结果，生成单样本检测模型损失结果。

本申请的另一方面提供了一种计算机设备，包括：

存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括执行上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供了一种图像数据处理方法以及相关装置,其方法包括：首先，获取待检测图像以及含有目标对象的目标对象图像；接着，分别对待检测图像以及目标对象图像进行特征提取，得到第一特征图像以及第二特征图像；然后，根据第一特征图像以及第二特征图像，生成用于表示第一特征图像中的像素以及第二特征图像中的像素相似程度的相关矩阵；再次，通过相关矩阵，生成用于表示待检测图像中的像素与目标对象图像中的像素的相似程度以及位置关系的像素级空间位置矩阵；最后，根据像素级空间位置矩阵在待检测图像中生成包含目标对象的目标对象检测框。本申请某一实施例提供图像数据处理方法，通过相关矩阵建立待检测图像的特征图中的像素与目标对象图像的特征图中像素的相似程度，通过像素级空间位置矩阵建立待检测图像与目标对象图像的相似像素的空间位置关系，提高了从待检测图像中检测出目标对象的准确率；本申请某一实施例提供图像数据处理方法，可以检测任意的目标对象，并且仅通过一张目标对象图像便可实现从待检测图像中对目标对象的检测。

附图说明

图1为本申请某一实施例提供的图像数据处理系统的一个架构示意图；

图2为本申请某一实施例提供的图像数据处理方法的流程图；

图3为本申请某一实施例提供的待检测图像和目标对象图像的部分相似像素的坐标位置的对应关系示意图；

图4为本申请某一实施例提供的在待检测图像中生成目标对象检测框的示意图；

图5为本申请另一实施例提供的图像数据处理方法的流程图；

图6为本申请另一实施例提供的图像数据处理方法的流程图；

图7为本申请某一实施例提供的对应网格确定过程的示意图；

图8为本申请另一实施例提供的图像数据处理方法的流程图；

图9为本申请某一实施例提供的顶点坐标确定过程的示意图；

图10为本申请另一实施例提供的图像数据处理方法的流程图；

图11为本申请某一实施例提供的单样本检测模型中的特征提取网络的结构示意图；

图12为本申请另一实施例提供的图像数据处理方法的流程图；

图13为本申请又一实施例提供的图像数据处理方法的流程图；

图14为本申请某一实施例提供的应用于小猫检测的图像数据处理方法的流程图；

图15为本申请某一实施例提供的图像数据处理装置的结构示意图；

图16为本申请另一实施例提供的图像数据处理装置的结构示意图；

图17为本申请又一实施例提供的图像数据处理装置的结构示意图；

图18为本申请某一实施例提供的服务器结构示意图。

具体实施方式

本申请实施例提供了一种图像数据处理方法，通过相关矩阵建立待检测图像的特征图中的像素与目标对象图像的特征图中像素的相似程度，通过像素级空间位置矩阵建立待检测图像与目标对象图像的相似像素的空间位置关系，提高了从待检测图像中检测出目标对象的准确率。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

目标检测技术是视觉智能领域的使用较多并且应用较广的技术，可以应用于对图像中目标对象的检测，或是应用于对视频中目标对象的检测。例如，对商品货架中某一商品进行定位时，可以通过基于图像的目标检测方法对货架图像进行处理，从而对目标商品进行快速定位。又如，在电商直播中，对包含某一商品的直播片段进行锁定及截取时，可以通过基于视频的目标检测方法对完整的直播视频进行处理，从完整的直播视频中锁定包含目标商品的视频片段，进而进行截取。

针对现有的基于图像的目标检测方法检测准确率较低的问题，本申请实施例提供了一种图像数据处理方法以及相关装置，首先，通过相关矩阵建立待检测图像的特征图中的像素与目标对象图像的特征图中像素的相似程度，然后根据像素级空间位置矩阵建立待检测图像与目标对象图像的相似像素的空间位置关系，最后根据像素级空间位置矩阵在待检测图像中检测出目标对象，提高目标对象的检测准确率。

为了便于理解，请参阅图1，图1为本申请实施例中图像数据处理方法的应用环境图，如图1所示，本申请实施例中图像数据处理方法应用于图像数据处理系统。图像数据处理系统包括：服务器和终端设备；其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端设备和服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

服务器首先获取终端发送的待检测图像以及含有目标对象的目标对象图像；其次，服务器分别对待检测图像以及目标对象图像进行特征提取，得到第一特征图像以及第二特征图像；接着，服务器根据第一特征图像以及第二特征图像，生成用于表示第一特征图像中的像素以及第二特征图像中的像素相似程度的相关矩阵；再次，服务器通过相关矩阵，生成用于表示待检测图像中的像素与目标对象图像中的像素的相似程度以及位置关系的像素级空间位置矩阵；然后，服务器根据像素级空间位置矩阵在待检测图像中生成包含目标对象的目标对象检测框；最后，服务器将含有目标对象检测框的待检测图像发送至终端。终端将含有目标对象检测框的待检测图像进行显示。

下面将从服务器的角度，对本申请中图像数据处理方法进行介绍。请参阅图2，本申请实施例提供的图像数据处理方法包括：步骤S110至步骤S150。

具体的：

S110、获取待检测图像以及目标对象图像。

其中，待检测图像包括M个第一原始像素，目标对象图像包括N个第二原始像素，目标对象图像包括目标对象，M为大于1的整数，N为大于1的整数。

需要说明的是，本申请实施例目的在于从待检测图像中检测是否包含目标对象，以及确定待检测图像中目标对象的位置。目标对象图像中包括至少一个目标对象。像素是指在由一个数字序列表示的图像中的一个最小单位，每个像素均具有确的位置和被分配的色彩数值。

S120、分别将待检测图像以及目标对象图像作为单样本检测模型中的特征提取网络的输入，通过特征提取网络分别输出第一特征图像以及第二特征图像。

其中，第一特征图像为特征提取网络根据待检测图像生成的，第一特征图像包括K个第一特征像素，第二特征图像为特征提取网络根据目标对象图像生成的，第二特征图像包括L个第二特征像素，K为大于1的整数，L为大于1的整数。

需要说明的是，单样本检测(One-shot Detection，OSD)模型的特点包括：第一，OSD的类别扩展性更强，并且代价很小。对一个新的待检测类别，只需要提供一张图像，OSD技术就能够对其进行检测。第二，OSD技术能够产生更准确的检测结果，因为它充分提取了类别样本的图像特征，并以此为先验在待检测图像中进行检测，最终能够准确地挖掘与待检测类别图像相似的物体区域并对其定位。特征提取网络是用于对输入的图像进行特征提取、归一化等处理的网络层。

可以理解的是，通过单样本检测模型中的特征提取网络，对待检测图像进行特征提取、归一化等处理，得到第一特征图像。第一特征图像中包括K个第一特征像素。若第一特征图像的大小为h₁×w₁，则K＝h₁×w₁，h₁为第一特征图像的高度值，w₁为第一特征图像的长度值。

通过单样本检测模型中的特征提取网络，对目标对象图像以进行特征提取、归一化等处理，得到第二特征图像。第二特征图像中包括L个第二特征像素。若第二特征图像的大小为h₂×w₂，则L＝h₂×w₂，h₂为第二特征图像的高度值，w₂为第二特征图像的长度值。

S130、根据第一特征图像以及第二特征图像，生成相关矩阵。

其中，相关矩阵包括K×L个相似度值，K×L个相似度值表示K个第一特征像素与L个第二特征像素的相似程度。

需要说明的是，相似度值为0至1之间的数值，数值越高表示相似程度越大。

可以理解的是，将与第一特征图像对应的第一特征矩阵和与第二特征图像对应的第二特征矩阵进行矩阵乘法运算，并在矩阵乘法运算之前对其中任意一个矩阵先进行矩阵转置运算。若第一特征图像的大小为h₁×w₁，第二特征图像的大小为h₂×w₂，则相关矩阵的大小为h₁w₁×h₂w₂。

S140、将相关矩阵作为单样本检测模型中的变换网络的输入，通过变换网络输出像素级空间位置矩阵。

其中，像素级空间位置矩阵包括K×L×2个元素，K×L×2个元素表示以K个第一特征像素中任一个为锚点时，L个第二特征像素在第一特征图像中的对应位置坐标。

需要说明的是，变换网络(TransformNet)是用于第一特征图像中的每一第一特征像素与第二特征图像中的每一第二特征像素的对应位置坐标，其输出结果为像素级空间位置矩阵。像素级空间位置矩阵包括K×L×2个元素，每个元素包括预测得到的两两像素之间的坐标位置。锚点是指目标点。以K个第一特征像素中任一个为锚点时，L个第二特征像素在第一特征图像中的对应位置坐标是指，在第一特征图像中找到与L个第二特征像素相似的像素点对应的位置坐标。若第一特征图像的大小为h₁×w₁，第二特征图像的大小为h₂×w₂，相关矩阵的大小为h₁w₁×h₂w₂，则像素级空间位置矩阵的大小为h₁×w₁×h₂×w₂×2。

S150、根据像素级空间位置矩阵，在待检测图像中生成T个目标对象检测框。

其中，T个目标对象检测框包括T个目标对象，T个目标对象检测框对应的T个置信度值均满足置信度阈值，T为大于等于0的整数。

可以理解的是，通过像素级空间位置矩阵在待检测图像中找到与目标对象图像中的目标对象像素相似的T个像素组，根据T个像素组代表T个目标对象，进而在待检测图像中生成T个目标对象检测框。

为了便于理解，请参阅图3和4，图3为待检测图像和目标对象图像的部分相似像素的坐标位置的对应关系示意图，图4为在待检测图像中生成目标对象检测框的示意图。如图3所示，10为待检测图像，20为目标对象图像，根据目标对象图像20可知，目标对象为“A”，待检测图像10中每个像素与目标对象图像20中每个像素的相似程度，建立像素坐标位置之间的联系，像素坐标位置之间的联系是一种像素级空间位置矩阵的直观表现形式；如图4所示，根据像素坐标位置之间的联系在待检测图像中生成2个目标对象检测框。

本申请实施例提供图像数据处理方法，通过相关矩阵建立待检测图像的特征图中的像素与目标对象图像的特征图中像素的相似程度，通过像素级空间位置矩阵建立待检测图像与目标对象图像的相似像素的空间位置关系，提高了从待检测图像中检测出目标对象的准确率，并且，通过像素级空间位置矩阵建立待检测图像与目标对象图像的相似像素的空间位置关系，还能预测目标对象的仿射变换。

在本申请的图2对应的实施例提供的图像数据处理方法的一个可选实施例中，请参阅图5，K个第一特征像素对应K个以第一特征像素为锚点生成的检测框。步骤S140之后包括：步骤S141至步骤S142。具体的：

S141、根据像素级空间位置矩阵对相关矩阵进行重采样处理，生成重采样矩阵。

其中，重采样矩阵包括U个维度，U为大于等于2的整数。

需要说明的是，本申请实施例提到的重采样处理是指图像重采样处理。

可以理解的是，重采样矩阵可以通过像素级空间位置矩阵与相关矩阵进行矩阵运算得到。若第一特征图像的大小为h₁×w₁，第二特征图像的大小为h₂×w₂，相关矩阵的大小为h₁w₁×h₂w₂，像素级空间位置矩阵的大小为h₁×w₁×h₂×w₂×2，则重采样矩阵

可通过一下公式计算：

其中，k为第二特征图像中每一像素的横坐标，即每一第二特征像素的横坐标，l为第二特征图像中每一像素的纵坐标，即每一第二特征像素的纵坐标，p第一特征图像中每一像素的横坐标，即每一第一特征像素的横坐标，q为第一特征图像中每一像素的纵坐标，即每一第一特征像素的纵坐标，c为相关矩阵，g为像素级空间位置矩阵。

S142、对重采样矩阵中的U个维度进行平均池化处理，得到置信度矩阵。

其中，置信度矩阵包括K个置信度值，K个置信度值对应于K个检测框。

需要说明的是，对重采样矩阵中的U个维度进行平均池化处理可以是沿着这U个维度计算平均值，置信度值代表以第一特征图像中每一像素的位置为锚点所得到的检测框的置信度。

可以理解的是，然后对重采样矩阵

中的p,q两个维度做平均池化，即沿着这两个维度计算平均值，得到置信度矩阵。

本申请实施例提供图像数据处理方法，通过像素级空间位置矩阵以及相关矩阵得到重采样矩阵，然后通过重采样矩阵得到置信度矩阵，从而计算以第一特征图像中每一像素的位置为锚点所得到的检测框的置信度，通过检测框置信度提高了检测框中包含目标对象的准确性。

在本申请的图2或图5对应的实施例提供的图像数据处理方法的一个可选实施例中，请参阅图6，步骤S150进一步包括：步骤S1501至步骤S1503。

具体地：

S1501、根据像素级空间位置矩阵，在待检测图像中生成T个对应网格，对应网格为待检测图像与目标对象图像的相似像素的对应网格。

可以理解的是，首先，通过像素级空间位置矩阵在待检测图像中的M个第一原始像素中，确定与目标对象图像的目标对象的像素相似程度大于相似度阈值的相似像素；然后，确定每个相似像素中与其相关联程度大于相关度阈值的相关像素；接着，将每个相似像素与其对应的相关像素进行两两之间连线，得到对应网格。每个对应网格为目标对象的近似轮廓。

S1503、根据T个对应网格生成T个目标对象检测框，其中，每个目标对象检测框为每个对应网格的外接矩形。

可以理解的是，根据对应网格的外接矩形生成矩形的目标对象检测框。

为便于理解，请参阅图3与图7，图7是对应网格的示意图。如图3所示，在待检测图像10中确定了2组与目标对象图像的目标对象的像素相似程度大于相似度阈值的相似像素，如图7所示，确定每个相似像素的关联像素，将每个相似像素与其关联像素进行两两之间连线，得到对应网格，最后根据对应网格确定目标对象检测框。

本申请实施例提供图像数据处理方法，通过对应网格的方式确定目标对象检测框，提高了目标对象检测框生成的准确性。

在本申请的图2或图5对应的实施例提供的图像数据处理方法的一个可选实施例中，请参阅图8，步骤S150进一步包括：步骤S1502至步骤S1504。

具体地：

S1502、根据像素级空间位置矩阵，在待检测图像中确定目标对象的顶点坐标。

可以理解的是，首先，通过像素级空间位置矩阵在待检测图像中的M个第一原始像素中，确定与目标对象图像的目标对象的像素相似程度大于相似度阈值的相似像素；然后，确定每个相似像素中与其相关联程度大于相关度阈值的相关像素；接着，根据每个相似像素与其相关像素，得到目标对象像素集合，在目标对象像素集合中确定在x轴和y轴上的最大值和最小值，从而得到为目标对象的顶点坐标。

S1504、根据目标对象的顶点坐标生成目标对象检测框。

可以理解的是，根据四个方向坐标值最大值生成目标对象检测框。

为便于理解，请参阅图3与图9，图9是顶点坐标确定过程的示意图。如图3所示，在待检测图像10中确定了2组与目标对象图像的目标对象的像素相似程度大于相似度阈值的相似像素，如图9所示，确定目标对象像素集合中在x轴和y轴上的最大值和最小值对应的像素的坐标，从而得到目标对象的顶点坐标，根据顶点坐标生成目标对象检测框。

本申请实施例提供图像数据处理方法，通过确定目标对象的顶点坐标的方式确定目标对象检测框，提高了目标对象检测框生成的准确性。

在本申请的图2对应的实施例提供的图像数据处理方法的一个可选实施例中，请参阅图10，特征提取网络包括卷积子网络以及字典子网络，字典子网络携带字典矩阵。步骤S120进一步包括步骤S1201至步骤S1208。具体地：

S1201、将待检测图像作为卷积子网络的输入，通过卷积子网络输出第一中间矩阵。

可以理解的是，通过卷积子网络对待检测图像进行处理，得到第一中间矩阵。

S1203、将第一中间矩阵输入至字典子网络，通过字典子网络将第一中间矩阵与字典矩阵进行特征交叉，生成待检测图像特征矩阵。

需要说明的是，特征交叉也称特征组合，是一种合成特征的方法，可以在多维特征数据集上，进行非线性特征拟合。

可以理解的是，将第一中间矩阵与字典矩阵进行特征交叉，可以是将第一中间矩阵与字典矩阵进行矩阵乘法运算，得到待检测图像特征矩阵。

S1205、将待检测图像特征矩阵进行归一化处理，得到第一特征矩阵。

需要说明的是，为了数据处理方便提出来的，把数据映射到0～1范围之内处理，称之为归一化处理。

可以理解的是，将待检测图像特征矩阵进行归一化处理不改变矩阵的维度，即待检测图像特征矩阵与第一特征矩阵具有相同的维度。可通过softmax函数实现归一化处理。

S1207、根据第一特征矩阵，生成第一特征图像。

步骤S1201至步骤S1207为将待检测图像作为单样本检测模型中的特征提取网络的输入，通过特征提取网络输出第一特征图像的过程。

S1202、将目标对象图像作为卷积子网络的输入，通过卷积子网络输出第二中间矩阵。

可以理解的是，通过卷积子网络对目标对象图像进行处理，得到第二中间矩阵。

S1204、将第二中间矩阵输入至字典子网络，通过字典子网络将第二中间矩阵与字典矩阵进行特征交叉，生成目标对象图像特征矩阵。

可以理解的是，将第二中间矩阵与字典矩阵进行特征交叉，可以是将第二中间矩阵与字典矩阵进行矩阵乘法运算，得到目标对象图像特征矩阵。

S1206、将目标对象图像特征矩阵进行归一化处理，得到第二特征矩阵。

可以理解的是，将目标对象图像特征矩阵进行归一化处理不改变矩阵的维度，即目标对象图像特征矩阵与第二特征矩阵具有相同的维度。可通过softmax函数实现归一化处理。

S1208、根据第二特征矩阵，生成第二特征图像。

步骤S1202至步骤S1208为将目标对象图像作为单样本检测模型中的特征提取网络的输入，通过特征提取网络输出第二特征图像的过程。

为便于理解，请参阅图11，图11是本申请实施例提供的单样本检测模型中的特征提取网络的结构示意图。对待检测图像进行处理的过程包括：首先，将待检测图像输入至卷积子网络，通过卷积子网络输出第一中间矩阵；接着，将第一中间矩阵输入至字典子网络，使第一中间矩阵与字典子网络中的字典矩阵进行特征交叉，得到待检测图像特征矩阵；然后，对待检测图像特征矩阵进行归一化处理，得到第一特征图像。对目标对象图像进行处理的过程包括：首先，将目标对象图像输入至卷积子网络，通过卷积子网络输出第二中间矩阵；接着，将第二中间矩阵输入至字典子网络，使第二中间矩阵与字典子网络中的字典矩阵进行特征交叉，得到目标对象图像特征矩阵；然后，对目标对象图像特征矩阵进行归一化处理，得到第二特征图像。特征提取网络的输出矩阵可通过以下公式表示：

f_a＝f_s(FD)D^T；

其中，f_a为特征提取网络的输出矩阵，f_s为归一化函数，F为卷积子网络的输出矩阵，D为字典矩阵。例如，f_s可以是softmax函数。

本申请实施例提供图像数据处理方法，为了使单样本检测模型更好地学习输入的目标对象图像中包含的特征基元(feature primitives)，在单样本检测模型中引入了字典子网络，能以较低的计算增量换取更强的目标对象泛化能力，从而更准确地检测训练时未见过的新的目标对象。

在本申请的图2对应的实施例提供的图像数据处理方法的一个可选实施例中，请参阅图12，图像数据处理方法还包括步骤S210至步骤S270。具体的：

S210、获取第一训练样本图像、第二训练样本图像以及训练对象图像。

其中，第一训练样本图像包括M_X1个第一训练原始像素，第一训练样本图像包括T_B个训练对象标注框，T_B个训练对象标注框包括T_B个训练对象，T_B个训练对象标注框对应于T_B个标注框数据，第二训练样本图像包括M_X2个第二训练原始像素，第二训练样本图像不包括训练对象，训练对象图像包括N_X个第三训练原始像素，训练对象图像包括训练对象，M_X1为大于1的整数，M_X2为大于1的整数，N_X为大于1的整数，T_B为大于等于1的整数。

需要说明的是，本申请实施例的目的在于，通过输入训练对象图像、含有训练对象以及训练对象标注框的第一训练样本图像(正样本)、以及不含有训练对象的第二训练样本图像(负样本)，对单样本检测模型进行训练。标注框数据包括标注框的坐标编码。训练对象图像中至少包括一个训练对象，第一训练样本图像中至少包括一个训练对象，第二训练样本图像不包括训练对象。

S220、分别将第一训练样本图像、第二训练样本图像以及训练对象图像作为单样本检测模型中的特征提取网络的输入，通过特征提取网络分别输出第一训练特征图像、第二训练特征图像以及第三训练特征图像。

其中，第一训练特征图像为特征提取网络根据第一训练样本图像生成的，第一训练特征图像包括K_X1个第一训练特征像素，第二训练特征图像为特征提取网络根据第二训练样本图像生成的，第二训练特征图像包括K_X2个第二训练特征像素，第三训练特征图像为特征提取网络根据训练对象图像生成的，第三训练特征图像包括L_X个第三训练特征像素，K_X1为大于1的整数，K_X2为大于1的整数，L_X为大于1的整数。

可以理解的是，通过单样本检测模型中的特征提取网络，对第一训练样本图像进行特征提取、归一化等处理，得到第一训练特征矩阵，根据第一训练特征矩阵生成第一训练特征图像。第一训练特征图像包括K_X1个第一训练特征像素。若第一训练特征图像的大小为h_X1×w_X1,则K_X1＝h_X1×w_X1,h_X1为第一训练特征图像的高度值，w_X1为第一训练特征图像的长度值。

通过单样本检测模型中的特征提取网络，对第二训练样本图像进行特征提取、归一化等处理，得到第二训练特征矩阵，根据第二训练特征矩阵生成第二训练特征图像。第二训练特征图像包括K_X2个第二训练特征像素。若第二训练特征图像的大小为h_X2×w_X2,则K_X2＝h_X2×w_X2,h_X2为第二训练特征图像的高度值，w_X2为第二训练特征图像的长度值。

通过单样本检测模型中的特征提取网络，对训练对象图像进行特征提取、归一化等处理，得到第三训练特征矩阵，根据第三训练特征矩阵生成第三训练特征图像。第三训练特征图像包括L_X个第三训练特征像素。若第三训练特征图像的大小为h_X3×w_X3,则L_X＝h_X3×w_X3,h_X3为第三训练特征图像的高度值，w_X3为第三训练特征图像的长度值。

S231、根据第一训练特征图像以及第三训练特征图像，生成第一训练相关矩阵。

其中，第一训练相关矩阵包括K_X1×L_X个相似度值，K_X1×L_X个相似度值为K_X1个第一训练特征像素与L_X个第三训练特征像素的相似程度。

可以理解的是，将与第一训练特征图像对应的第一训练特征矩阵和与第三训练特征图像对应的第三训练特征矩阵进行矩阵乘法运算，并在矩阵乘法运算之前对其中任意一个矩阵先进行矩阵转置运算。若第一特征图像的大小为h_X1×w_X1，第三特征图像的大小为h_X3×w_X3，则相关矩阵的大小为h_X1w_X1×h_X3w_X3。

S232、根据第二训练特征图像以及第三训练特征图像，生成第二训练相关矩阵。

其中，第二训练相关矩阵包括K_X2×L_X个相似度值，K_X2×L_X个相似度值为K_X2个第二训练特征像素与L_X个第三训练特征像素的相似程度。

可以理解的是，将与第二训练特征图像对应的第二训练特征矩阵和与第三训练特征图像对应的第三训练特征矩阵进行矩阵乘法运算，并在矩阵乘法运算之前对其中任意一个矩阵先进行矩阵转置运算。若第二特征图像的大小为h_X2×w_X2，第三特征图像的大小为h_X3×w_X3，则相关矩阵的大小为h_X2w_X2×h_X3w_X3。

S241、将第一训练相关矩阵作为单样本检测模型中的变换网络的输入，通过变换网络输出第一训练像素级空间位置矩阵。

其中，第一训练像素级空间位置矩阵包括K_X1×L_X×2个第一训练元素，M_X1×N_X×2个第一训练元素表示以K_X1个第一训练特征像素中任一个为锚点时，L_X个第三训练特征像素在第一训练特征图像中的对应位置坐标。

需要说明的是，变换网络(TransformNet)用于计算第一训练特征图像中的每一第一训练特征像素与第三训练特征图像中的每一第三训练特征像素的对应位置坐标，其输出结果为第一训练像素级空间位置矩阵。第一训练像素级空间位置矩阵包括K_X1×L_X×2个第一训练元素，每个第一训练元素包括预测得到的两两像素之间的坐标位置。锚点是指目标点。以K_X1个第一训练特征像素中任一个为锚点时，L_X个第三训练特征像素在第一训练特征图像中的对应位置坐标是指，在第一训练特征图像中找到与L_X个第三训练特征像素相似的像素点对应的位置坐标。若第一特征图像的大小为h_X1×w_X1，第三特征图像的大小为h_X3×w_X3，相关矩阵的大小为h_X1w_X1×h_X3w_X3，则第一训练像素级空间位置矩阵的大小为h_X1×w_X1×h_X3×w_X3×2。

S242、将第二训练相关矩阵作为单样本检测模型中的变换网络的输入，通过变换网络输出第二训练像素级空间位置矩阵。

其中，第二训练像素级空间位置矩阵包括K_X2×L_X×2个第二训练元素，K_X2×L_X×2个第二训练元素表示以K_X2个第二训练特征像素中任一个为锚点时，L_X个第三训练特征像素在第二训练特征图像中的对应位置坐标。

需要说明的是，变换网络(TransformNet)用于计算第二训练特征图像中的每一第二训练特征像素与第三训练特征图像中的每一第三训练特征像素的对应位置坐标，其输出结果为第二训练像素级空间位置矩阵。第二训练像素级空间位置矩阵包括K_X2×L_X×2个第二训练元素，每个第二训练元素包括预测得到的两两像素之间的坐标位置。锚点是指目标点。以K_X2个第二训练特征像素中任一个为锚点时，L_X个第三训练特征像素在第二训练特征图像中的对应位置坐标是指，在第二训练特征图像中找到与L_X个第三训练特征像素相似的像素点对应的位置坐标。若第二特征图像的大小为h_X2×w_X2，第三特征图像的大小为h_X3×w_X3，相关矩阵的大小为h_X2w_X2×h_X3w_X3，则第二训练像素级空间位置矩阵的大小为h_X2×w_X2×h_X3×w_X3×2。

S251、根据第一训练像素级空间位置矩阵，在第一训练样本图像中生成T_X1个训练对象第一检测框。

其中，T_X1个训练对象第一检测框包括T_X1个训练对象，T_X1个训练对象第一检测框对应T_X1个第一训练置信度，T_X1个训练对象第一检测框对应T_X1个第一检测框数据，其中，T_X1为大于等于1的整数。

可以理解的是，通过第一训练像素级空间位置矩阵在第一训练样本图像中找到与训练对象图像中的训练对象像素相似的T_X1个像素组，T_X1个像素组代表T_X1个训练对象，进而在第一训练样本图像中生成T_X1个训练对象第一检测框，每个训练对象第一检测框对应一个第一检测框数据。

S252、根据第二训练像素级空间位置矩阵，在第二训练样本图像中生成T_X2个训练对象第二检测框。

其中，T_X2个训练对象第二检测框对应T_X2个第二训练置信度，T_X2个训练对象第二检测框对应T_X2个第二检测框数据，其中，T_X2为大于等于0的整数。

可以理解的是，通过第二训练像素级空间位置矩阵在第二训练样本图像中找到与训练对象图像中的训练对象像素相似的T_X1个像素组，T_X1个像素组代表T_X1个训练对象，进而在第二训练样本图像中生成T_X1个训练对象第二检测框，每个训练对象第二检测框对应一个第二检测框数据。

S260、根据T_X1个第一训练置信度、T_X1个第一检测框数据、T_X2个第二训练置信度、T_X2个第二检测框数据以及T_B个标注框数据，生成单样本检测模型损失结果。

可以理解的是，将训练得到的数据与标注数据进行拟合，得到损失结果。

S270、根据单样本检测模型损失结果对单样本检测模型进行训练。

可以理解的是，通过正负样本图像对单样本检测模型进行训练，并在训练过程中调整模型参数，使得损失结果满足预设损失结果，完成对模型的训练。

需要说明的是，上述步骤S210至步骤S270为一次训练过程，一次训练过程需要一张训练对象图像、一张正样本图像以及两张负样本图像，在实际训练过程中，需要多次训练，且正样本图像的总数与负样本图像的总数满足为1：2的关系。

本申请实施例提供图像数据处理方法，通过对模型训练中调整模型参数，使得模型在测试中的目标对象检测框的输出结果更为准确。

在本申请的图12对应的实施例提供的图像数据处理方法的一个可选实施例中，请参阅图13，步骤S260进一步包括步骤S2601至步骤S2604。具体的：

S2601、根据T_X1个第一训练置信度与第一置信度参考值，生成第一分类损失结果。

可以理解的是，第一分类损失结果为正样本的分类损失结果。第一分类损失结果可通过以下公式进行表示：

其中，

为第一分类损失结果，m_pos为第一置信度参考值，可设定m_pos＝0.7，s₁为第一训练置信度，max为最大值函数。

S2602、根据T_X2个第二训练置信度与第二置信度参考值，生成第二分类损失结果。

可以理解的是，第二分类损失结果为负样本的分类损失结果。第二分类损失结果可通过以下公式进行表示：

其中，

为第二分类损失结果，m_neg为第二置信度参考值，可设定m_neg＝0.3，s₂为第一训练置信度，max为最大值函数。

S2603、根据T_X1个第一检测框数据、T_X2个第二检测框数据以及T_B个标注框数据，生成定位损失结果。

可以理解的是，定位损失结果为正样本和负样本综合的定位损失结果。定位损失结果可通过以下公式进行表示：

其中，l_loc(x,y)为定位损失结果，x_i表示第一检测框数据或第二检测框数据，y_i表示标注框数据。

S2604、根据第一分类损失结果、第二分类损失结果以及定位损失结果，生成单样本检测模型损失结果。

可以理解的是，将第一分类损失结果、第二分类损失结果以及定位损失结果进行相加，得到单样本检测模型损失结果。单样本检测模型损失结果可通过以下公式进行表示：

其中，l为单样本检测模型损失结果，

为第一分类损失结果，

为第二分类损失结果，l_loc(x,y)定位损失结果。

为了便于理解，下面将结合图14介绍一种应用于小猫检测的图像数据处理方法，其目的在于从待检测图像11中检测出与目标对象图像21中相同的小猫，图12为小猫检测的图像数据处理方法的示意图包括：

步骤1：图像获取。

具体的：获取待检测图像以及目标对象图像。

其中，待检测图像的大小为500×600，待检测图像包括300000个第一原始像素。目标对象图像大小为150×200，目标对象图像包括30000个第二原始像素。

步骤2：图像特征提取。

具体的：将待检测图像作为单样本检测模型中的特征提取网络的输入，通过特征提取网络输出第一特征图像。将目标对象图像作为单样本检测模型中的特征提取网络的输入，通过特征提取网络分别输出第二特征图像。

其中，第一特征图像包括1000个第一特征像素。第二特征图像包括100个第二特征像素。

步骤3：计算相关矩阵。

具体的：根据与第一特征图像对应的第一特征矩阵以及与第二特征图像对应的第二特征图像，生成相关矩阵。

其中，相关矩阵包括1000×100个相似度值，1000×100个相似度值表示1000个第一特征像素与100个第二特征像素的相似程度。

步骤4：计算像素级空间位置矩阵。

具体的：将相关矩阵作为单样本检测模型中的变换网络的输入，通过变换网络输出像素级空间位置矩阵。

其中，像素级空间位置矩阵包括1000×100×2个元素，1000×100×2个元素表示以1000个第一原始像素为锚点时，100个第二特征像素在第一特征图像中的对应位置坐标。

步骤5：计算置信度矩阵。

具体的：根据像素级空间位置矩阵对相关矩阵进行重采样处理，生成重采样矩阵；对重采样矩阵中进行平均池化处理，得到置信度矩阵。

步骤6：生成目标检测框。

具体的：根据像素级空间位置矩阵，在待检测图像中生成1个目标对象检测框。

下面对本申请中的图像数据处理装置进行详细描述，请参阅图15。图15为本申请实施例中图像数据处理装置100的一个实施例示意图，图像数据处理装置100包括：

图像获取模块110，用于获取待检测图像以及目标对象图像，其中，待检测图像包括M个第一原始像素，目标对象图像包括N个第二原始像素，目标对象图像包括目标对象，M为大于1的整数，N为大于1的整数。

特征提取模块120，用于分别将待检测图像以及目标对象图像作为单样本检测模型中的特征提取网络的输入，通过特征提取网络分别输出第一特征图像以及第二特征图像，其中，第一特征图像为特征提取网络根据待检测图像生成的，第一特征图像包括K个第一特征像素，第二特征图像为特征提取网络根据目标对象图像生成的，第二特征图像包括L个第二特征像素，K为大于1的整数，L为大于1的整数。

相关矩阵生成模块130，用于根据第一特征图像以及第二特征图像，生成相关矩阵，其中，相关矩阵包括K×L个相似度值，K×L个相似度值表示K个第一特征像素与L个第二特征像素的相似程度。

像素级空间位置矩阵生成模块140，用于将相关矩阵作为单样本检测模型中的变换网络的输入，通过变换网络输出像素级空间位置矩阵，其中，像素级空间位置矩阵包括M×N×2个元素，M×N×2个元素表示以K个第一特征像素中任一个为锚点时，L个第二特征像素在第一特征图像中的对应位置坐标。

检测框生成模块150，用于根据像素级空间位置矩阵，在待检测图像中生成T个目标对象检测框，其中，T个目标对象检测框包括T个目标对象，T个目标对象检测框对应的T个置信度值均满足置信度阈值，T为大于等于0的整数。

本申请实施例提供图像数据处理装置，通过相关矩阵建立待检测图像的特征图中的像素与目标对象图像的特征图中像素的相似程度，通过像素级空间位置矩阵建立待检测图像与目标对象图像的相似像素的空间位置关系，提高了从待检测图像中检测出目标对象的准确率，并且，通过像素级空间位置矩阵建立待检测图像与目标对象图像的相似像素的空间位置关系，还能预测目标对象的仿射变换。

在本申请的图15对应的实施例提供的图像数据处理装置的一个可选实施例中，请参阅图16，K个第一特征像素对应K个以第一特征像素为锚点生成的检测框。图像数据处理装置100还包括置信度矩阵计算模块141，用于：

本申请实施例提供图像数据处理装置，通过像素级空间位置矩阵以及相关矩阵得到重采样矩阵，然后通过重采样矩阵得到置信度矩阵，从而计算以第一特征图像中每一像素的位置为锚点所得到的检测框的置信度，通过检测框置信度提高了检测框中包含目标对象的准确性。

在本申请的图15或图16对应的实施例提供的图像数据处理装置的一个可选实施例中，检测框生成模块150包括：检测框第一生成子模块，用于：

本申请实施例提供图像数据处理装置，通过对应网格的方式确定目标对象检测框，提高了目标对象检测框生成的准确性。

在本申请的图15或图16对应的实施例提供的图像数据处理装置的一个可选实施例中，检测框生成模块150包括：检测框第二生成子模块用于：

根据目标对象的顶点坐标生成目标对象检测框。

本申请实施例提供图像数据处理装置，通过确定目标对象的顶点坐标的方式确定目标对象检测框，提高了目标对象检测框生成的准确性。

在本申请的图15对应的实施例提供的图像数据处理装置的一个可选实施例中，特征提取网络包括卷积子网络以及字典子网络，字典子网络携带字典矩阵；特征提取模块120还用于：

根据第一特征矩阵，生成第一特征图像。

根据第二特征矩阵，生成第二特征图像。

本申请实施例提供图像数据处理装置，为了使单样本检测模型更好地学习输入的目标对象图像中包含的特征基元(feature primitives)，在单样本检测模型中引入了字典子网络，能以较低的计算增量换取更强的目标对象泛化能力，从而更准确地检测训练时未见过的新的目标对象。

在本申请的图15对应的实施例提供的图像数据处理装置的一个可选实施例中，请参阅图17，图像数据处理装置100还包括模型训练模块200，模型训练模块200包括：

训练图像获取子模块，用于获取第一训练样本图像、第二训练样本图像以及训练对象图像，其中，第一训练样本图像包括M_X1个第一训练原始像素，第一训练样本图像包括T_B个训练对象标注框，T_B个训练对象标注框包括T_B个训练对象，T_B个训练对象标注框对应于T_B个标注框数据，第二训练样本图像包括M_X2个第二训练原始像素，第二训练样本图像不包括训练对象，训练对象图像包括N_X个第三训练原始像素，训练对象图像包括训练对象，M_X1为大于1的整数，M_X2为大于1的整数，N_X为大于1的整数；

训练像素级空间位置矩阵生成子模块，用于将第一训练相关矩阵作为单样本检测模型中的变换网络的输入，通过变换网络输出第一训练像素级空间位置矩阵，其中，第一训练像素级空间位置矩阵包括K_X1×L_X×2个第一训练元素，K_X1×L_X×2个第一训练元素表示以K_X1个第一训练特征像素中任一个为锚点时，L_X个第三训练特征像素在第一训练特征图像中的对应位置坐标；

本申请实施例提供图像数据处理装置，通过对模型训练中调整模型参数，使得模型在测试中的目标对象检测框的输出结果更为准确。

在本申请的图17对应的实施例提供的图像数据处理装置的一个可选实施例中，第一训练样本图像对应第一置信度参考值，第二训练样本图像对应第二置信度参考值；损失结果生成子模块还用于：

图18是本申请实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图18所示的服务器结构。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像数据处理方法，其特征在于，包括：

获取待检测图像以及目标对象图像；

分别将所述待检测图像以及所述目标对象图像作为单样本检测模型中的特征提取网络的输入，通过所述特征提取网络分别输出第一特征图像以及第二特征图像，其中，所述第一特征图像为所述特征提取网络根据所述待检测图像生成的，所述第一特征图像包括K个第一特征像素，所述第二特征图像为所述特征提取网络根据所述目标对象图像生成的，所述第二特征图像包括L个第二特征像素，K为大于1的整数，L为大于1的整数；

根据所述第一特征图像以及所述第二特征图像，生成相关矩阵，其中，所述相关矩阵包括K×L个相似度值，K×L个所述相似度值表示K个所述第一特征像素与L个所述第二特征像素的相似程度；

将所述相关矩阵作为所述单样本检测模型中的变换网络的输入，通过所述变换网络输出像素级空间位置矩阵，其中，所述像素级空间位置矩阵包括K×L×2个元素，K×L×2个所述元素表示以K个所述第一特征像素中任一个为锚点时，L个所述第二特征像素在所述第一特征图像中的对应位置坐标；

根据所述像素级空间位置矩阵，在所述待检测图像中生成T个目标对象检测框，其中，T个所述目标对象检测框包括T个所述目标对象，T个所述目标对象检测框对应的T个置信度值均满足置信度阈值，T为大于等于1的整数。

2.如权利要求1所述的图像数据处理方法，其特征在于，K个所述第一特征像素对应K个以所述第一特征像素为锚点生成的检测框；

所述通过所述变换网络输出像素级空间位置矩阵之后，还包括：

根据所述像素级空间位置矩阵对所述相关矩阵进行重采样处理，生成重采样矩阵，其中，所述重采样矩阵包括U个维度，U为大于等于2的整数；

对所述重采样矩阵中的U个维度进行平均池化处理，得到置信度矩阵，其中，所述置信度矩阵包括K个置信度值，K个所述置信度值对应于K个所述检测框。

3.如权利要求1-2任一所述的图像数据处理方法，其特征在于，所述根据所述像素级空间位置矩阵，在所述待检测图像中生成T个目标对象检测框，包括：

根据所述像素级空间位置矩阵，在所述待检测图像中生成T个对应网格，所述对应网格为所述待检测图像与所述目标对象图像的相似像素的对应网格；

根据T个所述对应网格生成T个所述目标对象检测框，其中，每个所述目标对象检测框为每个所述对应网格的外接矩形。

4.如权利要求1-2任一所述的图像数据处理方法，其特征在于，所述根据所述像素级空间位置矩阵，在所述待检测图像中生成T个目标对象检测框，包括：

根据所述像素级空间位置矩阵，在所述待检测图像中确定所述目标对象的顶点坐标；

根据所述目标对象的顶点坐标生成所述目标对象检测框。

5.如权利要求1所述的图像数据处理方法，其特征在于，所述特征提取网络包括卷积子网络以及字典子网络，所述字典子网络携带字典矩阵；

所述分别将所述待检测图像以及所述目标对象图像作为单样本检测模型中的特征提取网络的输入，通过所述特征提取网络分别输出第一特征图像以及第二特征图像，包括：

将所述待检测图像作为所述卷积子网络的输入，通过所述卷积子网络输出第一中间矩阵；

将第一中间矩阵输入至所述字典子网络，通过所述字典子网络将所述第一中间矩阵与所述字典矩阵进行特征交叉，生成待检测图像特征矩阵；

将所述待检测图像特征矩阵进行归一化处理，得到所述第一特征矩阵；

根据所述第一特征矩阵，生成所述第一特征图像；

将所述目标对象图像作为所述卷积子网络的输入，通过所述卷积子网络输出第二中间矩阵；

将第二中间矩阵输入至所述字典子网络，通过所述字典子网络将所述第二中间矩阵与所述字典矩阵进行特征交叉，生成目标对象图像特征矩阵；

将所述目标对象图像特征矩阵进行归一化处理，得到所述第二特征矩阵；

根据所述第二特征矩阵，生成所述第二特征图像。

6.如权利要求1所述的图像数据处理方法，其特征在于，所述方法还包括：

获取第一训练样本图像、第二训练样本图像以及训练对象图像，其中，所述第一训练样本图像包括T_B个训练对象标注框，T_B个训练对象标注框包括T_B个训练对象，T_B个所述训练对象标注框对应于T_B个标注框数据，所述第二训练样本图像不包括所述训练对象，所述训练对象图像包括所述训练对象，T_B为大于等于1的整数；

分别将所述第一训练样本图像、所述第二训练样本图像以及所述训练对象图像作为单样本检测模型中的特征提取网络的输入，通过所述特征提取网络分别输出第一训练特征图像、第二训练特征图像以及第三训练特征图像，其中，所述第一训练特征图像为所述特征提取网络根据所述第一训练样本图像生成的，所述第一训练特征图像包括K_X1个第一训练特征像素，所述第二训练特征图像为所述特征提取网络根据所述第二训练样本图像生成的，所述第二训练特征图像包括K_X2个第二训练特征像素，所述第三训练特征图像为所述特征提取网络根据所述训练对象图像生成的，所述第三训练特征图像包括L_X个第三训练特征像素，K_X1为大于1的整数，K_X2为大于1的整数，L_X为大于1的整数；

根据所述第一训练特征图像以及所述第三训练特征图像，生成第一训练相关矩阵，其中，所述第一训练相关矩阵包括K_X1×L_X个相似度值，K_X1×L_X个所述相似度值为K_X1个所述第一训练特征像素与L_X个第三训练特征像素的相似程度；

根据所述第二训练特征图像以及所述第三训练特征图像，生成第二训练相关矩阵，其中，所述第二训练相关矩阵包括K_X2×L_X个相似度值，K_X2×L_X个所述相似度值为K_X2个所述第二训练特征像素与L_X个第三训练特征像素的相似程度；

将所述第一训练相关矩阵作为所述单样本检测模型中的变换网络的输入，通过所述变换网络输出第一训练像素级空间位置矩阵，其中，所述第一训练像素级空间位置矩阵包括K_X1×L_X×2个第一训练元素，K_X1×L_X×2个第一训练元素表示以K_X1个所述第一训练特征像素中任一个为锚点时，L_X个所述第三训练特征像素在所述第一训练特征图像中的对应位置坐标；

将所述第二训练相关矩阵作为所述单样本检测模型中的变换网络的输入，通过所述变换网络输出第二训练像素级空间位置矩阵，其中，所述第二训练像素级空间位置矩阵包括K_X2×L_X×2个第二训练元素，K_X2×L_X×2个第二训练元素表示以K_X2个所述第二训练特征像素中任一个为锚点时，L_X个所述第三训练特征像素在所述第二训练特征图像中的对应位置坐标；

根据所述第一训练像素级空间位置矩阵，在所述第一训练样本图像中生成T_X1个训练对象第一检测框，其中，T_X1个所述训练对象第一检测框包括T_X1个所述训练对象，T_X1个所述训练对象第一检测框对应T_X1个第一训练置信度，T_X1个所述训练对象第一检测框对应T_X1个第一检测框数据，其中，T_X1为大于等于1的整数；

根据所述第二训练像素级空间位置矩阵，在所述第二训练样本图像中生成T_X2个训练对象第二检测框，其中，T_X2个所述训练对象第二检测框对应T_X2个第二训练置信度，T_X2个所述训练对象第二检测框对应T_X2个第二检测框数据，其中，T_X2为大于等于1的整数；

根据T_X1个所述第一训练置信度、T_X1个所述第一检测框数据、T_X2个第二训练置信度、T_X2个第二检测框数据以及T_B个标注框数据，生成单样本检测模型损失结果；

根据所述单样本检测模型损失结果对所述单样本检测模型进行训练。

7.如权利要求6所述的图像数据处理方法，其特征在于，所述第一训练样本图像对应第一置信度参考值，所述第二训练样本图像对应第二置信度参考值；

所述根据T_X1个所述第一训练置信度、T_X1个所述第一检测框数据、T_X2个第二训练置信度、T_X2个第二检测框数据以及T_B个标注框数据，生成单样本检测模型损失结果，包括：

根据T_X1个所述第一训练置信度与所述第一置信度参考值，生成第一分类损失结果；

根据T_X2个所述第二训练置信度与所述第二置信度参考值，生成第二分类损失结果；

根据T_X1个所述第一检测框数据、T_X2个第二检测框数据以及T_B个标注框数据，生成定位损失结果；

根据所述第一分类损失结果、所述第二分类损失结果以及所述定位损失结果，生成所述单样本检测模型损失结果。

8.一种图像数据处理装置，其特征在于，包括：

图像获取模块，用于获取待检测图像以及目标对象图像；

特征提取模块，用于分别将所述待检测图像以及所述目标对象图像作为单样本检测模型中的特征提取网络的输入，通过所述特征提取网络分别输出第一特征图像以及第二特征图像，其中，所述第一特征图像为所述特征提取网络根据所述待检测图像生成的，所述第一特征图像包括K个第一特征像素，所述第二特征图像为所述特征提取网络根据所述目标对象图像生成的，所述第二特征图像包括L个第二特征像素，K为大于1的整数，L为大于1的整数；

相关矩阵生成模块，用于根据所述第一特征图像以及所述第二特征图像，生成相关矩阵，其中，所述相关矩阵包括K×L个相似度值，K×L个所述相似度值表示K个所述第一特征像素与L个所述第二特征像素的相似程度；

像素级空间位置矩阵生成模块，用于将所述相关矩阵作为所述单样本检测模型中的变换网络的输入，通过所述变换网络输出像素级空间位置矩阵，其中，所述像素级空间位置矩阵包括K×L×2个元素，K×L×2个所述元素表示以K个所述第一特征像素中任一个为锚点时，L个所述第二特征像素在所述第一特征图像中的对应位置坐标；

检测框生成模块，用于根据所述像素级空间位置矩阵，在所述待检测图像中生成T个目标对象检测框，其中，T个所述目标对象检测框包括T个所述目标对象，T个所述目标对象检测框对应的T个置信度值均满足置信度阈值，T为大于等于0的整数。

9.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如权利要求1至7中任一项所述的图像数据处理方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至7中任一项所述的图像数据处理方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行如权利要求1至7中任一项所述的图像数据处理方法。