CN116580268B

CN116580268B - 图像目标定位模型的训练方法、图像处理方法及相关产品

Info

Publication number: CN116580268B
Application number: CN202310846105.8A
Authority: CN
Inventors: 朱城
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-10-03
Anticipated expiration: 2043-07-11
Also published as: CN116580268A

Abstract

本申请公开了一种图像目标定位模型的训练方法、图像处理方法及相关产品，方法包括：由原图处理网络对样本图像进行特征提取，得到第一特征提取结果，由原图处理网络在第一特征提取结果的基础上进行处理得到样本图像的第一组类别定位特征。由扩增图处理网络对样本扩增图像进行特征提取，得到第二特征提取结果，由扩增图处理网络在第二特征提取结果的基础上进行处理得到样本扩增图像对应的第二组类别定位特征。通过对比学习，获得对比学习损失，根据对比学习损失调整待训练模型的参数，得到图像目标定位模型。本申请提供的方法通过对比学习的方式充分考虑到空间特征信息，最终训练出的图像目标定位模型的定位效果更佳。

Description

图像目标定位模型的训练方法、图像处理方法及相关产品

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像目标定位模型的训练方法、图像处理方法及相关产品。

背景技术

在科技不断发展的今天，人工智能被越来越多的应用在生活的各个角落。人工智能的其中一个分支是图像识别，具体的应用场景不同，图像识别的用处也不同。例如在一种场景下，可以利用提前训练好的模型在图像中定位目标的位置，图像中的目标可以是例如刀具，烟草等物品。

现有技术对于图像中目标的定位一般以分类为指导。在对图像中的目标进行定位时，使用训练好的分类模型对图像进行分类，对图像进行分类之后，以对图像的分类结果为指导，将这张图像转化为热力图，通过热力图获得图像中目标的定位结果。

但是通过现有技术提供的方法对图像中的目标进行定位，往往定位效果不佳。为此，如何对图像中的目标进行定位以获得更好的定位效果成为了本领域技术人员亟需解决的技术问题。

发明内容

本申请实施例提供了一种图像目标定位模型的训练方法、图像处理方法及相关产品，旨在解决现有技术对图像中的目标进行定位的效果不佳的问题。

本申请第一方面提供了一种图像目标定位模型的训练方法，本申请提供的方法中，待训练模型包括原图处理网络和扩增图处理网络，所述原图处理网络和所述扩增图处理网络各自包含前后连接的主干网络和定位网络；本申请第一方面提供的图像目标定位模型的训练方法包括：

由所述原图处理网络中的主干网络对样本图像进行特征提取，得到第一特征提取结果，并由所述原图处理网络中的定位网络在所述第一特征提取结果的基础上进行图像内容类别的空间定位并映射到所述样本图像，得到所述样本图像对应的第一组类别定位特征；

由所述扩增图处理网络中的主干网络对样本扩增图像进行特征提取，得到第二特征提取结果，并由所述扩增图处理网络中的定位网络在所述第二特征提取结果的基础上进行图像内容类别的空间定位并映射到所述样本扩增图像，得到所述样本扩增图像对应的第二组类别定位特征；所述样本扩增图像为根据所述样本图像扩增得到的图像；

根据所述第一特征提取结果、所述第一组类别定位特征、所述第二特征提取结果和所述第二组类别定位特征进行对比学习，获得对比学习损失；

根据所述对比学习损失调整所述待训练模型的网络参数，直至训练完毕得到图像目标定位模型。

本申请第二方面提供了一种图像处理方法，本申请提供的方法中包括：

获取待处理图像，所述待处理图像为有待进行目标定位的图像；

将所述待处理图像输入至图像目标定位模型中，通过所述图像目标定位模型的原图处理网络对所述待处理图像进行图像处理，得到所述待处理图像的第一组类别定位特征；其中，所述图像目标定位模型为经过本申请第一方面提供的一种图像目标定位模型的训练方法训练得到的模型；

基于所述待处理图像的第一组类别定位特征，获得所述待处理图像的目标定位结果。

本申请第三方面提供了一种图像目标定位模型的训练设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行第一方面提供的图像目标定位模型的训练方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被图像目标定位模型的训练设备执行时实现第一方面提供的图像目标定位模型的训练方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请技术方案将图像目标定位作为主要的训练目标，通过原图处理网络对原图进行处理，通过原图处理网络中的定位网络捕捉样本图像中结构化的空间特征，通过特征图处理网络中的定位网络捕捉样本扩增图像中结构化的空间特征，在训练图像目标定位模型的过程中更加注重结构化的空间特征，使得最终训练出的图像目标定位模型的性能更强。在训练图像目标定位模型的过程中，除了考虑到样本图像和样本扩增图像中结构化的空间特征外，还利用第一特征提取结果、第一组类别定位特征、第二特征提取结果和第二组类别定位特征进行对比学习，通过对比学习的方式，使得模型可以对比学习到样本图像中目标的空间特征和样本扩增图像中目标的空间特征，进一步的提高训练好的图像目标定位模型对于目标的定位能力，获得性能更优秀的图像目标定位模型。

附图说明

图1为本申请实施例提供的一种图像目标定位模型的训练方法的场景架构图；

图2为本申请实施例提供的一种图像目标定位模型的训练方法的流程图；

图3为本申请实施例提供的一种resnet50的基本结构图；

图4为本申请实施例提供的一个ResBlock的结构示意图；

图5为本申请实施例提供的一种进行模糊处理后的实际效果图；

图6为本申请实施例提供的另一种图像目标定位模型的训练方法的流程图；

图7为本申请实施例提供的一种图像目标定位模型的训练过程示意图；

图8为本申请实施例提供的另一种图像目标定位模型的训练过程示意图；

图9为本申请实施例提供的一种图像目标定位模型的训练装置的结构示意图；

图10为本申请实施例中服务器的一个结构示意图；

图11为本申请实施例中终端设备的一个结构示意图。

具体实施方式

在一些应用的场景下，例如在内容审核的场景下，需要对图像中的某些类别对应的物品进行精确的定位。例如刀具，玻璃制品，烟草和打火机等类别在一些场景下是重点审核的对象，在内容审核的场景下存在，在样本图像中准确定位类别对应的物品位置的需求。

为了满足定位的需求，相关技术中往往采用分类模型作为定位的指导。先使用分类模型进行分类，分类模型会识别待分类图像属于何种类别，例如待分类图像中存在刀具，将待分类图像输入分类模型后，分类模型可以识别到待分类图像中存在刀具，分类模型会将刀具作为这张待分类图像的分类结果。当需要定位这张图像中刀具的位置时，以刀具这个分类结果为指导，将这张图像转化为与刀具相关的热力图，通过热力图获得图像中刀具的定位结果。

可以理解的是，分类模型的目的是分类，在训练分类模型的过程中考虑的也是分类的准确性，而不会考虑类别对应物体具体的位置。这里同样以刀具这一类别为例，训练分类模型时，对于刀具这一类别，需要重点考虑的是刀具是否存在于图像中，而非刀具具体的空间位置。在一种可能的情况下，使用分类模型进行目标定位，待定位图像中存在刀具，但是刀具在待定位图像中只占据非常小的一个区域，这时分类模型可以识别到待定位图像的类别属于刀具，并且分类模型可以识别到待定位图像中刀具的大致区域，但是刀具可能只占待定位图像的二十个像素，而分类模型定位到的区域可能是八百个像素。在以刀具这个分类结果为指导，将这张图像转化为与刀具相关的热力图时，热力图定位到的区域虽然包括刀具，但是定位到的区域与刀具实际存在的区域往往存在较大的差异，最终对于刀具的定位效果往往很差。

鉴于以上问题，在本申请中提供了一种图像目标定位模型的训练方法、图像处理方法及相关产品，旨在提供定位效果更好的图像目标定位模型，通过定位效果更好的图像目标定位模型对图像中的目标进行定位，获得更好的对图像中的目标进行定位的定位效果。在本申请提供的技术方案中，首先对本申请下文的实施例中可能涉及的若干个名词术语进行解释。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的图像目标定位模型的训练方法的执行主体可以为终端设备。例如在终端设备上进行对比学习，获得对比学习损失。作为示例，终端设备具体可以包括但不限于手机、台式电脑、平板电脑、笔记本电能、掌上电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本申请实施例提供的图像目标定位模型的训练方法的执行主体也可以是服务器，即可以在服务器上利用原图处理网络对样本图像进行处理，利用扩增图处理网络对样本扩增图像进行处理。本申请实施例提供的图像目标定位模型的训练方法也可以由终端设备和服务器协同执行。故本申请实施例中对于执行本申请技术方案的实现主体不做限定。

图1示例性地展示了一种图像目标定位模型的训练方法的场景架构图。图中包括服务器以及多种形式的终端设备。图1所示的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。另外，服务器还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

图2为本申请实施例提供的一种图像目标定位模型的训练方法的流程图。如图2所示的图像目标定位模型的训练方法中，待训练模型包括原图处理网络和扩增图处理网络，原图处理网络和扩增图处理网络各自包含前后连接的主干网络和定位网络；图像目标定位模型的训练方法包括以下步骤：

S201：由原图处理网络中的主干网络对样本图像进行特征提取，得到第一特征提取结果，并由原图处理网络中的定位网络在第一特征提取结果的基础上进行图像内容类别的空间定位并映射到所述样本图像，得到所述样本图像对应的第一组类别定位特征。

本申请提供的方法中，原图处理网络和扩增图处理网络各自包含前后连接的主干网络和定位网络，主干网络在前，定位网络在后。

在一种可能的实现方式中，原图处理网络和扩增图处理网络中的主干网络可以使用相同的神经网络，这里以resnet50作为原图处理网络和扩增图处理网络中的主干网络为例。resnet50的编码器采用的是卷积神经网络，在原图处理网络中，主干网络对样本图像进行特征提取时，样本图像需要经过三个卷积层和六个ResBlock。图3为resnet50的基本结构图，其中I为一张样本图像，w是这张图像的宽，h是这张图像的高，这张图像的通道数为3，也就是图中的w*h*3。这张图像在经过三个卷积层后，宽变为w/4，高变为h/4，通道数变为128，图中以w/4* h/4*128的三维图形表示。之后将w/4* h/4*128的特征图输入六个ResBlock组成的网络，也就是图中的6xResBlock。宽由w/4变为w/64，高由h/4变为h/64，通道数由128变为1024，图中w/64* h/64*1024的三维图形表示的就是将w*h*3的样本图像输入resnet50最终得到的特征图。

图4为本申请提供的一个ResBlock的结构示意图，其中两个矩形为两个卷积层，其中的weight layer表示输入ResBlock的特征图的参数。在图中，x表示样本图像对应的特征图，也就是宽为w/4；高为h/4；通道数为128的特征图。identity表示跨层连接，图中的曲线可以将输入的x直接跨层传递，进行同等映射，之后与经过卷积操作的结果相加。输入ResBlock的特征图为x，经过中间两个卷积层后的结果为F（x），ResBlock最后的输出结果为F（x）+x。图中的relu表示线性整流函数，图中标有relu的箭头表示使用relu函数进行计算。

w/64* h/64*1024的特征图最后经过一个降维层，将w/64* h/64*1024的特征图输入降维层进行降维后，得到w/64*h/64*K的张量，w/64* h/64*1024的特征图中的通道数为1024，一个通道对应一个维度，可以将第一特征提取结果中的1024个通道理解为1024个维度，降维层的规格可以是1*1*K，1*1*K表示降维层不改变特征图的宽和高，改变特征图的通道数，K为待训练模型学习预测的类别的数目，K个通道与K个类别一一对应，一般来说待训练模型学习预测的类别的数目小于1024，将w/64*h/64*1024的特征图输入降维层后可以得到w/64*h/64*k的张量，w/64*h/64*k的张量可以理解为第一特征提取结果。

终端设备将样本图像输入到原图处理网络后，样本图像经过主干网络得到第一特征提取结果，之后终端设备将第一特征提取结果输入原图处理网络中的定位网络，由原图处理网络中的定位网络在第一特征提取结果的基础上进行图像内容类别的空间定位并映射到样本图像，得到样本图像对应的第一组类别定位特征。

在K个维度中，每个维度对应有w*h个像素的数据，每个维度对应一个通道，同样可以理解为每个通道对应有w*h个像素的数据。终端设备对于一共K个通道中的每个通道，在通道对应的w*h个像素中逐个像素进行sigmoid函数处理，得到通道对应的处理后数据。对K个通道中的每个通道都进行上述处理后，可以得到K个通道对应的处理后数据，利用K个通道对应的处理后数据构建第一特征处理结果。

在第一特征处理结果中，每个通道的每一个像素点都有对应的响应值，响应值表示对类别的相关程度，例如，K个类别中有一类是刀具，那么在对应刀具这个类别的通道中，存在w*h个像素的数据，对应刀具这个类别的w*h个像素每个像素进行sigmoid函数处理后，得到刀具这个类别对应通道的处理后数据，对应刀具这个类别的w*h个像素中的每个像素都有响应值，响应值表示像素对刀具的相关程度，在一种可能的实现方式中，这个响应值可以是0-1之间的数。在一般情况下，定位基本只考虑样本图像对应同一个类别的一个目标。在样本图像中，对应刀具这个类别只考虑一个目标，在对应刀具这个类别的w*h个像素中，将响应最高的点作为中心点。可以理解的是，一共存在K个类别，刀具为K个类别中的一个，在刀具对应的类别中，w*h个像素的响应是对应于刀具这个类别的，K个类别中还可能存在烟草，那么在烟草这个类别对应的通道中，w*h个像素的响应是对应于烟草这个类别的。终端设备对于第一特征处理结果的每个通道确定响应最高的像素点作为中心点。

在终端设备得到每个通道的中心点后，对于每个通道的中心点分别进行模糊处理，得到每个通道对应的模糊处理后数据，在一种可能的实现方式中，模糊处理可以使用高斯模糊处理，使用的高斯模糊处理的公式可以是：

其中，（x，y）表示样本图像中的像素点的坐标，（，/>）为中心点的坐标，σ_p为标准差，σ_p的最大取值可以是：

w/64和h/64对应了第一特征提取结果的宽和高，max函数中的前两项为w/64和h/64取四分之一后的结果，（，/>）表示离中心点（/>，/>）最远的高响应点。

这里对高响应点进行解释，每个像素都有对应的响应，中心点响应最高，响应值一般是0-1之间的数，把响应值大于0.5的点作为高响应点。

图5为本申请提供的一种进行模糊处理后的实际效果图，可以看到，在图中存在一个高亮的区域，这个区域就是基于模糊处理后数据得到的，这个高亮的区域可以对应类别在样本图像中的空间位置。

终端设备可以根据每个通道的模糊处理后数据生成该通道对应类别的热力图，将每个类别对应的高亮的区域映射到样本图像中，可以得到样本图像对应的第一组类别定位特征，第一组类别定位特征包括K个类别中每一个类别的定位特征。

本申请提供的方法中，找到每个类别对应的通道中响应最高的像素点，并把响应最高的像素点作为中心点，中心点可以代表对应的类别，通过确定中心点的方式准确的定位类别在样本图像中的大概位置，确定中心点之后通过模糊处理生成通道对应类别的热力图，根据各个类别的热力图定位类别具体的空间位置。中心点是可以最好的代表类别的点，通过中心点确定的模糊处理后数据可以更好的代表类别对应的区域，将所有类别的空间位置分别映射到样本图像中则可以在样本图像中确定最能代表类别的区域，通过对获得的中心点进行处理最终得到的第一组类别定位特征可以保留结构化的空间特征信息，使得通过本申请提供的方法训练得到的图像目标定位模型更好的考虑空间因素，使用本申请提供的方法训练得到的图像目标定位模型进行定位可以获得更佳的定位效果。

S202：由扩增图处理网络中的主干网络对样本扩增图像进行特征提取，得到第二特征提取结果，并由扩增图处理网络中的定位网络在第二特征提取结果的基础上进行图像内容类别的空间定位并映射到样本扩增图像，得到样本扩增图像对应的第二组类别定位特征；样本扩增图像为根据样本图像扩增得到的图像。

这里先对图像扩增进行说明，在S101中，原图处理网络可以处理得到各类别对应的热力图，在一种可能的实现方式中，可以对原图处理网络处理得到各类别对应的热力图进行切图和放大的处理，得到一类样本扩增图像。在另一种可能的实现方式中，可以对原图处理网络处理得到各类别对应的热力图进行切图、放大和模糊的处理，得到另一类样本扩增图像。在再一种可能的实现方式中，可以是切图、翻转和模糊任意两种处理的组合。每一类图像扩增得到的样本扩增图像都会由对应的扩增图处理网络进行处理。

本申请提供的方法不单单使用样本图像，通过原图处理网络处理得到各类别对应的热力图，并利用热力图对样本图像进行扩增得到样本扩增图像，相同的类别在样本扩增图像与样本图像之间存在的空间维度的联系更加紧密，使用样本图像和样本扩增图像作为训练数据训练出的图像目标定位模型性能更强，对图像目标定位可以更多的注意到结构化的空间维度的信息，对图像目标定位更加准确。

扩增图处理网络的主干网络和原图处理网络中的主干网络可以是相同的，扩增图处理网络的主干网络同样可以使用resnet50，对resnet50的描述可以详见上文，这里不再赘述。

每一类样本扩增图像对应一个扩增图处理网络，至少存在一类样本扩增图像和这一类样本扩增图像对应的扩增图处理网络。将样本扩增图像输入扩增图处理网络的主干网络中，之后经过降维层，可以得到w/64*h/64*K的第二特征提取结果，K为待训练模型学习预测的类别的数目，K个通道与K个类别一一对应。

终端设备对于一共K个通道中的每个通道，在通道对应的w*h个像素中逐个像素进行sigmoid函数处理，得到通道对应的处理后数据。对K各通道中的每个通道都进行上述处理后，可以得到K个通道对应的处理后数据，利用K个通道对应的处理后数据构建第二特征处理结果。终端设备对于第二特征处理结果的每个通道确定响应最高的像素点作为中心点。

在终端设备得到每个通道的中心点后，对于每个通道的中心点分别进行模糊处理，得到每个通道对应的模糊处理后数据，终端设备可以根据每个通道的模糊处理后数据生成该通道对应类别的热力图。将每个类别对应的高亮的区域映射到样本扩增图像中，可以得到样本扩增图像对应的第二组类别定位特征，第二组类别定位特征包括K个类别中每一个类别的定位特征。

S203：根据第一特征提取结果、第一组类别定位特征、第二特征提取结果和第二组类别定位特征进行对比学习，获得对比学习损失。

终端设备根据第一特征提取结果、第一组类别定位特征、第二特征提取结果和第二组类别定位特征进行对比学习，获得对比学习损失。

一种图像扩增策略对应一类扩增图处理网络，在一种可能的实现方式中，只存在一种扩增策略和这种扩增策略对应的扩增图处理网络。终端设备根据第一组类别定位特征和第二特征提取结果，得到第一特征相似度损失，第一特征相似度损失表示以第一类别为目标，类别之间的特征相似度损失。第一组类别定位特征包括K个类别在样本图像中每一个类别的定位特征，例如，在K个类别中存在刀具，刀具可以为第一类别。第一组类别定位特征中包括了对应于刀具的定位特征，这里以刀具为目标，利用第二特征提取结果中K个通道中每个通道对应的特征数据和第一组类别定位特征中对应于刀具的定位特征进行对比学习，得到第一特征相似度损失。

根据第二组类别定位特征和第一特征提取结果，得到第二特征相似度损失，第二特征相似度损失表示以第二类别为目标，类别之间的特征相似度损失。第二组类别定位特征包括K个类别在样本扩增图像中每一个类别的定位特征，例如，在K个类别中存在烟草，烟草可以为第二类别。第二组类别定位特征中包括了对应于烟草的定位特征，这里以烟草为目标，利用第一特征提取结果中K个通道中每个通道对应的特征数据和第二组类别定位特征中对应于烟草的定位特征进行对比学习，得到第二特征相似度损失。

在本申请提供的方法中，对相同类别的定位在样本图像和样本扩增图像中的空间位置大致不变，通过样本扩增图像可以将样本图像中类别对应的物体分隔开。本申请提供的方法结合使用对比学习的方式，考虑了不同扩增策略下的特征及预测结果，对于同一个类别对应的物体，使得对同一类别对应的物体的相似性最大化，使得对不同类别对应的物体的相似性最小化，提高了模型的鲁棒性，使最终训练得到的模型的性能更佳。

终端设备根据第一特征相似度损失和第二特征相似度损失，得到对比学习损失。

在一种可能的实现方式中，对比学习损失可以通过如下公式计算：

其中，L_dcls表示对比学习损失，K为类别的总数目，i为类别序号，i是不大于K的整数。其中的表示第一特征相似度损失，/>表示第二特征相似度损失，/>对应原图处理网络中的相关参数，ξ对应扩增图处理网络中的相关参数。

第一特征相似度损失可以通过如下公式计算：

其中，表示第一特征相似度损失，/>对应原图处理网络中的相关参数，ξ对应扩增图处理网络中的相关参数，/>表示以第一类别为目标，第一类别与第二类别的特征距离相似度度量值。/>表示以第一类别为目标，第一类别与第i类别的特征距离相似度度量值。

第二特征相似度损失可以通过如下公式计算：

其中，表示第二特征相似度损失，/>对应原图处理网络中的相关参数，ξ对应扩增图处理网络中的相关参数，/>表示以第二类别为目标，第二类别与第一类别的特征距离相似度度量值。/>表示以第二类别为目标，第二类别与第i类别的特征距离相似度度量值。

以第一类别为目标，第一类别与第二类别的特征距离相似度度量值可以通过如下公式计算：

其中，α为相关系数，表示以第一类别为目标，第一类别与第二类别的特征距离相似度度量值，/>表示通过原图处理网络中的降维层处理后得到的第一特征提取结果，表示原图处理网络中对应第一类别的特征提取结果。/>表示扩增图处理网络中对应第二类别的特征提取结果。

以第二类别为目标，第二类别与第一类别的特征距离相似度度量值可以通过如下公式计算：

其中，α为相关系数，表示以第二类别为目标，第二类别与第一类别的特征距离相似度度量值，/>表示通过原图处理网络中的降维层处理后得到的第一特征提取结果，表示原图处理网络中对应第二类别的特征提取结果。/>表示扩增图处理网络中对应第一类别的特征提取结果。

在上述通过公式得到对比学习损失的过程中，表示以第一类别为目标，第一类别与第二类别的特征距离相似度度量值，这里的第一类别可以是确定的类别，例如刀具，第二类别可以是K个类别中除刀具外的任意的类别，如烟草或者玻璃制品等。

表示以第二类别为目标，第二类别与第一类别的特征距离相似度度量值，这里的第二类别同样是K个类别中除第一类别外的任意的类别，如烟草或者玻璃制品等，第一类别可以是刀具。终端设备将K个类别分别对应的特征相似度损失的和求平均，得到所述对比学习损失。

本申请提供的方法中，考虑到了不同类别之间的空间差异，以第一类别为目标时，确定除第一类别外任意一个第二类别与第一类别的特征距离相似度度量值，以除第一类别外任意一个第二类别为目标时，确定与第一类别的特征距离相似度度量值。通过以不同的类别为目标，使训练好的模型对不同类别的目标具有更好的定位能力，对目标的定位更准确。

S204：根据对比学习损失调整待训练模型的网络参数，直至训练完毕得到图像目标定位模型。

终端设备根据对比学习损失调整待训练模型的神经网络参数，直至达到训练截止条件，训练截止条件可以是预先设定好的训练轮次，或者是训练完毕的模型达到预设的精度，当满足训练截止条件时停止训练，将训练完毕的图像目标定位模型用于图像目标定位。

在使用训练完毕的图像目标定位模型对图像目标进行定位时可以先获取待处理图像，待处理图像为有待进行目标定位的图像，例如，含有刀具的图像或含有烟草的图像等，这些图像都可以作为待处理图像。

在实际使用时，获取待处理图像后可以将待处理图像输入训练完毕的图像目标定位模型中，可以将待处理图像输入训练完毕的图像目标定位模型的原图处理网络中，也可以将待处理图像输入训练完毕的图像目标定位模型的扩增图处理网络中。将待处理图像输入原图处理网络还是扩增图处理网络可以根据实际的使用需求进行选择，但是一般情况下会将待处理图像输入训练完毕的图像目标定位模型的原图处理网络中。

将待处理图像输入训练完毕的图像目标定位模型的原图处理网络后，通过训练完毕的图像目标定位模型的原图处理网络对待处理图像进行图像处理，得到待处理图像的第一组类别定位特征，之后基于待处理图像的第一组类别定位特征，获得待处理图像的目标定位结果。

例如，将含有刀具的图像输入训练完毕的图像目标定位模型的原图处理网络后，经过训练完毕的图像目标定位模型对含有刀具的图像进行处理之后，可以得到对图像中刀具进行定位的定位结果。

本申请提供的方法通过对样本图像进行至少一种策略的扩展，并使用对应于扩增策略的扩增网络对样本扩增图像进行处理，基于经过原图处理网络处理样本图像后得到的第一特征提取结果和第一组类别定位特征，经过扩增图处理网络处理后样本扩增图像后得到的第二特征提取结果和第二组类别定位特征进行对比学习，通过对比学习的方式让模型可以准确的学习到每个类别在图像中对应物体的空间特征信息，通过本申请提供的方法训练得到的图像目标定位模型并非直接顶用分类的结果，对应不同的类别，模型充分的学习到了每个类别在图像中对应物体的空间特征信息，与相关技术相比使用本申请提供的方法训练出的图像目标定位模型的定位效果更佳。

在对图像目标定位模型的训练过程中，除了使用对比学习损失调整待训练模型的网络参数外，为了进一步的增加训练结束的图像目标定位模型的性能，还可以结合使用其他的损失对待训练模型的网络参数进行调整。图6为本申请实施例提供的另一种图像目标定位模型的训练方法的流程图。图6所示的另一种图像目标定位模型的训练方法包括以下步骤：

S601：将第一组类别定位特征中多个类别的定位特征拉平，得到拉平后的第一张量。

特征拉平，一般通过Flatten函数实现，第一组类别定位特征中多个类别的定位特征是多维的，终端设备将多维的第一组类别定位特征中多个类别的定位特征通过Flatten函数进行特征拉平，得到拉平后的一维的第一张量。

S602：基于第一张量进行类别预测，得到第一预测结果。

终端设备基于第一张量进行类别预测，得到第一预测结果。第一预测结果可以表示第一张量对于不同类别的预测置信度。

S603：根据第一预测结果与样本图像的类别标签的差异，得到第一类别预测损失。

样本图像的类别标签用于表示样本图像的类别，在实际的训练过程中，第一类别预测损失通过交叉熵损失函数或者其他损失函数计算得到。

S604：将第二组类别定位特征中多个类别的定位特征拉平，得到拉平后的第二张量。

第二组类别定位特征中多个类别的定位特征同样是多维的，终端设备将多维的第二组类别定位特征中多个类别的定位特征通过Flatten函数进行特征拉平，得到拉平后的一维的第二张量。

S605：基于第二张量进行类别预测，得到第二预测结果。

终端设备基于第二张量进行类别预测，得到第二预测结果。第二预测结果可以表示第二张量对于不同类别的预测置信度。

S606：根据第二预测结果与样本图像的类别标签的差异，得到第二类别预测损失。

第二预测结果是对应于不同的扩增策略的，对一张样本图像进行扩增得到的扩增样本图像的类别标签与样本图像的类别标签相同。第二类别预测损失同样可以使用相关技术中的损失函数计算得到，例如通过交叉熵损失函数计算得到第二类别预测损失。

S607：根据第一类别预测损失、第二类别预测损失和对比学习损失调整待训练模型的网络参数。

这里结合实际的使用场景进行说明，对于一张样本图像，通过不同的扩增策略可以得到不同的样本扩增图像。如果对于一张样本图像只有一种扩增策略，那么第二组类别定位特征中也仅会存在对应于这种扩增策略的多个类别的定位特征，如果存在多个扩增策略，如存在三种不同的扩增策略，那么第二组类别定位特征中会存在对应于三种不同的扩增策略的多个类别的定位特征，第二预测结果中也会存在对应三种不同扩增策略的损失。

在本申请提供的方法中，不仅考虑到了对比学习的损失，还使用样本图像和不同扩增策略下的样本扩增图像对应的损失综合的对待训练模型进行调整。既可以通过对比学习的损失让待训练模型不断地学习图像目标的空间结构，又可以通过第一类别预测损失和第二类别预测损失让待训练模型不断地学习对于不同物体的分类能力，从而使得训练出的图像目标定位模型具有更好的性能。

在实际训练的过程中，对于不同的样本图像，模型的学习速度是不同的，对于简单的样本图像，模型的学习速度较快，对于复杂的样本图像，模型的学习速度较慢。同时存在复杂的样本图像和简单的样本图像最终会导致模型的收敛速度较慢。模型训练是一个不断迭代的过程，例如存在类别刀具，每一轮迭代训练得到的待训练模型都可以对这一轮迭代输入的样本图像给出对应于刀具这个类别的预测值。对于不存在刀具的样本图像，在较少的迭代轮次后，对应于刀具这个类别的预测值就会快速收敛趋近于零。对于存在刀具的样本图像，往往需要很多轮次的迭代才能逐渐收敛趋于平稳。上述仅为对刀具这个类别进行举例说明，在实际训练的过程中存在多个类别，如刀具，烟草和玻璃制品等，每一轮次迭代训练得到的待训练模型对输入的任意一张样本图像都可以得到对应于任意类别的预测值。

随着迭代的不断进行，可以根据相邻两轮迭代训练同一类别的预测值的关联关系，可以利用如下公式得到相邻两轮迭代训练轮次中，靠后一个迭代轮次训练得到的待训练模型对任意一个类别的预测值：

K表示待训练模型学习预测的类别的数目，i为类别序号。t表示迭代的轮次，t为大于等于1的整数。包含了所有的/>，/>。

表示第t轮迭代训练得到的待训练模型对第i个类别的预测结果，即为对应于第t轮次的第一预测结果。/>表示第t-1轮迭代训练得到的待训练模型对第i个类别的预测值。B为批量大小，指的是一轮迭代训练所使用的样本图像数量，b是在B个样本图像中的序号，b为不大于B的整数，/>表示第一预设权重参数值，/>表示第二预设权重参数，第一预设权重参数与第二预设权重参数之和为1。/>表示第t-1轮迭代训练得到的待训练模型对K个类别进行预测得到的预测值的均值。当t=1时，表示迭代训练刚开始，不存在上一轮的迭代，这时将输入的第b张样本图像对应于第i个类别的预测值设定为/>。

判断第t轮迭代训练中B个样本图像的第一预测结果是否满足预设置信度条件，第t轮迭代训练中样本图像的第一预测结果包括样本图像的K个类别的预测值。例如，对于第b张样本图像，对于K个不同的类别有K个预测值，一般来说，一张样本图像仅对应一个类别，在第t轮次的损失，可以使用如下公式进行计算：

其中，L_fcls表示对应第t轮次的损失，L_cls为总的损失函数，B为批量大小，指的是一轮迭代训练所使用的样本图像数量，b是在B个样本图像中的序号，b为不大于B的整数，为样本系数。/>表示第b张样本图像的第一预测结果中最大的一个， />表示预设置信度条件，当第b张样本图像的第一预测结果中最大的一个大于预设置信度条件时，则将第b张样本图像考虑入总的损失函数中。如果第b张样本图像的第一预测结果中最大的都小于预设置信度条件，则基本证明了这张样本图像不属于K个类别中的任意一个，这张样本图片则不被考虑入总的损失函数中。将满足预设置信度条件的样本图像的第一预测结果与该样本图像的类别标签的差异，得到第t轮迭代训练的第一类别损失。

本申请提供的方法通过判断第t轮迭代训练中各个样本图像的第一预测结果是否满足预设置信度条件，将不满足预设置信度条件的样本图像筛除，根据满足预设置信度条件的样本图像的第一预测结果与该样本图像的类别标签的差异，得到第t轮迭代训练的第一类别损失，本申请提供的方法每一个不同的迭代训练轮次的第一类别损失并非一成不变的，而是根据实际的训练情况发生变化的。本申请提供的方法将不满足预设置信度条件的样本图像筛除，让这部分样本图像不参与损失的计算中，随着迭代的不断进行而不断的剔除样本图像，以此来大幅提升模型的收敛速度。

图7为本申请提供的一种图像目标定位模型的训练过程示意图，图7对应仅有一种扩增策略的图像目标定位模型的训练过程。图7的上方分支对应原图处理网络，下方分支对应扩增图处理网络。上方分支经过定位网络得到的第一特征提取结果结合切图加放大的扩增策略得到样本扩增图像。

在上方的分支中，样本图像经过主干网络后可以得到第一特征提取结果，原图处理网络中的定位网络在第一特征提取结果的基础上进行图像内容类别的空间定位并映射到样本图像，得到样本图像对应的第一组类别定位特征。

在下方的分支中，样本扩增图像经过主干网络后可以得到第二特征提取结果，这里主干网络之间的箭头表示主干网络使用相同的resnet50网络。扩增图处理网络中的定位网络在第二特征提取结果的基础上进行图像内容类别的空间定位并映射到样本扩增图像，得到样本扩增图像对应的第二组类别定位特征。

每一个分支都对应一个L_fcls，L_fcls可以通过上文记载的方法和公式进行计算，两个分支之间的双向箭头表示对比学习损失L_dcls。

图8为本申请提供的另一种图像目标定位模型的训练过程示意图，图7对应有两种扩增策略的图像目标定位模型的训练过程。图8的上方分支对应原图处理网络，中间和下方分支对应不同扩增策略下的扩增图处理网络。经过上方分支定位网络得到的第一特征提取结果结合切图加放大的扩增策略得到中间分支的样本扩增图像，经过上方分支定位网络得到的第一特征提取结果结合切图、放大加模糊的扩增策略得到下方分支的样本扩增图像。

图8的上方分支与图7的上方分支相同，这里不再赘述。在中间的分支中，样本扩增图像经过主干网络后可以得到第二特征提取结果，这里三个主干网络之间的箭头表示三个分支的主干网络都使用相同的resnet50网络。扩增图处理网络中的定位网络在第二特征提取结果的基础上进行图像内容类别的空间定位并映射到样本扩增图像，得到样本扩增图像对应的第二组类别定位特征。

下方的分支与中间的分支类似，下方的分支为对应切图、放大加模糊这种扩增策略的扩增图处理网络。中下两个分支虽然对应不同的扩增策略，但都是通过样本图像进行扩展得到的，最终得到的均为第二组类别定位特征。每一个分支都对应一个L_fcls，L_fcls可以通过上文记载的方法和公式进行计算。这里的对比学习损失L_dcls是中间分支和下方分支之间的，对比学习损失L_dcls可以是任意两条分支之间的对比学习损失，可以是上方分支与中间分支之间的，也可以上方分支与下方分支之间的。

在训练结束后，使用训练结束的图像目标定位模型对图像中的目标进行定位时，一般使用最上方的分支，也就是原图处理网络进行定位。

基于前文实施例提供的图像目标定位模型的训练方法，本申请中还相应提供了一种图像目标定位模型的训练装置。以下结合图9进行说明。图9为本申请实施例提供的一种图像目标定位模型的训练装置的结构示意图。如图9所示的图像目标定位模型的训练装置9000包括：

第一图像处理模块9001，用于由所述原图处理网络中的主干网络对样本图像进行特征提取，得到第一特征提取结果，并由所述原图处理网络中的定位网络在所述第一特征提取结果的基础上进行图像内容类别的空间定位并映射到所述样本图像，得到所述样本图像对应的第一组类别定位特征；

第二图像处理模块9002，用于由所述扩增图处理网络中的主干网络对样本扩增图像进行特征提取，得到第二特征提取结果，并由所述扩增图处理网络中的定位网络在所述第二特征提取结果的基础上进行图像内容类别的空间定位并映射到所述样本扩增图像，得到所述样本扩增图像对应的第二组类别定位特征；所述样本扩增图像为根据所述样本图像扩增得到的图像；

损失获取模块9003，用于根据所述第一特征提取结果、所述第一组类别定位特征、所述第二特征提取结果和所述第二组类别定位特征进行对比学习，获得对比学习损失；

参数调整模块9004，用于根据所述对比学习损失调整所述待训练模型的网络参数，直至训练完毕得到图像目标定位模型。

在一种可能的实现方式中，所述图像目标定位模型的训练装置还可以包括以下模块：

第一组类别定位特征拉平模块，用于将所述第一组类别定位特征中多个类别的定位特征拉平，得到拉平后的第一张量。

第一预测模块，用于基于所述第一张量进行类别预测，得到第一预测结果。

第一类别预测损失获取模块，用于根据所述第一预测结果与所述样本图像的类别标签的差异，得到第一类别预测损失。

第二组类别定位特征拉平模块，用于将所述第二组类别定位特征中多个类别的定位特征拉平，得到拉平后的第二张量。

第二预测模块，用于基于所述第二张量进行类别预测，得到第二预测结果。

第二类别预测损失获取模块，用于根据所述第二预测结果与所述样本图像的类别标签的差异，得到第二类别预测损失。

所述参数调整模块，具体用于：

根据所述第一类别预测损失、所述第二类别预测损失和所述对比学习损失调整所述待训练模型的网络参数。

在一种可能的实现方式中，所述第一特征提取结果、所述第一组类别定位特征、所述第二特征提取结果和所述第二组类别定位特征均包括K个通道的特征数据，K为所述待训练模型学习预测的类别的数目，所述K个通道与K个类别一一对应；

所述参数调整模块，具体用于：

根据所述第一组类别定位特征和所述第二特征提取结果，得到第一特征相似度损失；以及，根据所述第二组类别定位特征和所述第一特征提取结果，得到第二特征相似度损失；其中，所述第一特征相似度损失表示以第一类别为目标，类别之间的特征相似度损失；所述第二特征相似度损失表示以第二类别为目标，类别之间的特征相似度损失；所述第一类别和所述第二类别为所述K个类别中需要相互区分的两个类别；

根据所述第一特征相似度损失和所述第二特征相似度损失，得到所述对比学习损失。

在一种可能的实现方式中，所述第一类别预测损失获取模块具体用于：

根据所述第一组类别定位特征中所述第一类别对应的特征数据和所述第二特征提取结果中所述第二类别对应的特征数据，得到以所述第一类别为目标，所述第一类别与所述第二类别的特征距离相似度度量值；

通过归一化指数函数对以第一类别为目标，分别对第一类别与K个类别的特征距离相似度度量值进行归并计算，得到所述第一特征相似度损失；

所述第二类别预测损失获取模块具体用于：

根据所述第二组类别定位特征中所述第二类别对应的特征数据和所述第一特征提取结果中所述第一类别对应的特征数据，得到以所述第二类别为目标，所述第二类别与所述第一类别的特征距离相似度度量值；

通过归一化指数函数对以第二类别为目标，分别对第二类别与K个类别的特征距离相似度度量值进行归并计算，得到所述第二特征相似度损失。

在一种可能的实现方式中，损失获取模块具体用于：

将以第i个类别作为所述第二类别得到的第一特征相似度损失和第二特征相似度损失求和，得到第i个类别对应的特征相似度损失和；所述第i类别为所述K个类别之一；

将K个类别分别对应的特征相似度损失和求平均，得到所述对比学习损失。

在一种可能的实现方式中，所述第一特征提取结果包括K个通道的特征数据，K为所述待训练模型学习预测的类别的数目，所述K个通道与K个类别一一对应；所述第一特征提取结果中每个通道对应有w*h个像素的数据；

第一图像处理模块具体用于：

对于每个通道，在通道对应的w*h个像素中逐个像素进行sigmoid函数处理，得到通道对应的处理后数据；

根据所述K个通道分别对应的处理后数据构建第一特征处理结果；所述第一特征处理结果包括K个通道对应的处理后数据；

对于所述第一特征处理结果的每个通道确定响应最高的像素点作为中心点；

对于每个通道的中心点分别进行模糊处理，得到每个通道对应的模糊处理后数据；

根据每个通道的模糊处理后数据生成该通道对应类别的热力图；

根据各个类别的热力图定位类别的空间位置；

将K个类别的空间位置分别映射到所述样本图像中，得到所述样本图像对应的第一组类别定位特征；所述第一组类别定位特征包括K个类别的定位特征。

在一种可能的实现方式中，目标定位模型的训练装置还包括图像扩增模块，所述图像扩增模块用于根据所述原图处理网络处理得到的各类别的热力图，以所述扩增图处理网络对应的图像扩增方式对所述样本图像进行扩增处理，得到所述样本扩增图像。

在一种可能的实现方式中，所述待训练模型至少包括两个扩增图处理网络，所述两个扩增图处理网络为第一扩增图处理网络和第二扩增图处理网络；其中，所述第一扩增图处理网络对应于第一图像扩增方式，所述第二扩增图处理网络对应于第二图像扩增方式；

图像扩增模块具体用于：

根据所述原图处理网络处理得到所述样本图像的各类别的热力图，以所述第一图像扩增方式对所述样本图像进行处理，得到第一样本扩增图像；所述第一图像扩增方式包括：切图并放大；

根据所述第一扩增图处理网络处理所述第一样本扩增图像得到的所述第一样本扩增图像的各类别的热力图，以所述第二图像扩增方式对所述第一样本扩增图像或者所述样本图像进行处理，得到第二样本扩增图像；所述第二图像扩增方式包括：切图、放大并模糊处理。

在一种可能的实现方式中，第一类别预测损失获取模块具体用于：

获得第t-1轮迭代训练所述待训练模型对第i个类别的预测值；所述第i个类别为所述待训练模型学习预测的类别之一；

根据相邻两轮迭代训练同一类别的预测值的关联关系，得到第t轮迭代训练所述待训练模型对第i个类别的预测值；

判断第t轮迭代训练中各个样本图像的第一预测结果是否满足预设置信度条件；第t轮迭代训练中样本图像的第一预测结果包括样本图像的K个类别的预测值；

将不满足预设置信度条件的样本图像筛除，根据满足预设置信度条件的样本图像的第一预测结果与该样本图像的类别标签的差异，得到第t轮迭代训练的第一类别损失。

在一种可能的实现方式中，若t=1，则第t轮迭代训练所述待训练模型对第p个类别的预测值为1/K；若t为大于1的整数，则所述根据相邻两轮迭代训练同一类别的预测值的关联关系，得到第t轮迭代训练所述待训练模型对第i个类别的预测值，第一类别预测损失获取模块具体用于：

获取第t-1轮迭代训练中各个样本图像的第i个类别的预测值的均值；

根据第一预设权重参数值和第t-1轮迭代训练所述待训练模型对第i个类别的预测值，得到第一乘积结果；

根据第二预设权重参数和所述第t-1轮迭代训练中各个样本图像的第i个类别的预测值的均值，得到第二乘积结果；其中，所述第一预设权重参数与所述第二预设权重参数之和为1；

将所述第一乘积结果和所述第二乘积结果之和作为第t轮迭代训练所述待训练模型对第p个类别的预测值。

判断所述第t轮迭代训练中所述目标样本图像的K个类别的预测值之中最大预测值是否超出第t轮迭代训练的置信度阈值，如果超出所述第t轮迭代训练的置信度阈值，则确定第t轮迭代训练中目标样本图像的第一预测结果满足预设置信度条件。

第一类别预测损失获取模块具体用于：

获取第t轮迭代训练中同一批输入至所述待训练模型的多个样本图像中，每个样本图像各自K个类别的预测值之中的最大预测值；

将所述多个样本图像对应的最大预测值求平均，得到所述第t轮训练的置信度阈值。

基于前文实施例提供的图像处理方法，本申请中还相应提供了一种图像处理装置，本申请提供的图像处理装置包括：

待处理图像获取模块，用于获取待处理图像，所述待处理图像为有待进行目标定位的图像；

待处理图像输入模块，用于将所述待处理图像输入至图像目标定位模型中，通过所述图像目标定位模型的原图处理网络对所述待处理图像进行图像处理，得到所述待处理图像的第一组类别定位特征；其中，所述图像目标定位模型为经过本申请第一方面提供的一种图像目标定位模型的训练方法训练得到的模型；

目标定位结果获取模块，用于基于所述待处理图像的第一组类别定位特征，获得所述待处理图像的目标定位结果。

本申请实施例提供了一种图像目标定位模型的训练设备，该图像目标定位模型的训练设备可以为服务器。图10是本申请实施例提供的一种服务器结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（centralprocessing units，CPU）922（例如，一个或一个以上处理器）和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930（例如一个或一个以上海量存储设备）。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作系统941，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

其中，CPU 922用于执行如下步骤：

本申请实施例还提供了另一种图像目标定位模型的训练设备，该图像目标定位模型的训练设备可以为终端设备。如图11所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理（英文全称：Personal Digital Assistant，英文缩写：PDA）、销售终端（英文全称：Point of Sales，英文缩写：POS）、车载电脑等任意终端设备，以终端为手机为例：

图11示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图11，手机包括：射频（英文全称：Radio Frequency，英文缩写：RF）电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真（英文全称：wirelessfidelity，英文缩写：WiFi）模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图11中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（英文全称：LowNoise Amplifier，英文缩写：LNA）、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（英文全称：Global System of Mobile communication，英文缩写：GSM）、通用分组无线服务（英文全称：General Packet Radio Service，GPRS）、码分多址（英文全称：CodeDivision Multiple Access，英文缩写：CDMA）、宽带码分多址（英文全称：Wideband CodeDivision Multiple Access, 英文缩写：WCDMA）、长期演进（英文全称：Long TermEvolution，英文缩写：LTE）、电子邮件、短消息服务（英文全称：Short Messaging Service，SMS）等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器（英文全称：Liquid Crystal Display，英文缩写：LCD）、有机发光二极管（英文全称：Organic Light-Emitting Diode，英文缩写：OLED）等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图11中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体数据及信息收集。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090（比如电池），优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1080还具有以下功能：

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序在图像目标定位模型的训练设备上运行时，使得该图像目标定位模型的训练设备执行前述各个实施例所述的一种图像目标定位模型的训练方法中的任意一种实施方式。

本申请实施例还提供一种包括计算机程序的计算机程序产品，当其在图像目标定位模型的训练设备上运行时，使得图像目标定位模型的训练设备执行前述各个实施例所述的一种图像目标定位模型的训练方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述系统的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个系统可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的系统可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（英文全称：Read-OnlyMemory，英文缩写：ROM）、随机存取存储器（英文全称：Random Access Memory，英文缩写：RAM）、磁碟或者光盘等各种可以存储计算机程序的介质。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像目标定位模型的训练方法，其特征在于，待训练模型包括原图处理网络和扩增图处理网络，所述原图处理网络和所述扩增图处理网络各自包含前后连接的主干网络和定位网络；所述方法包括：

由所述原图处理网络中的主干网络对样本图像进行特征提取，得到第一特征提取结果，并由所述原图处理网络中的定位网络在所述第一特征提取结果的基础上进行图像内容类别的空间定位并映射到所述样本图像，得到所述样本图像对应的第一组类别定位特征；所述第一组类别定位特征包括K个类别在所述样本图像中每一类别的定位特征；

由所述扩增图处理网络中的主干网络对样本扩增图像进行特征提取，得到第二特征提取结果，并由所述扩增图处理网络中的定位网络在所述第二特征提取结果的基础上进行图像内容类别的空间定位并映射到所述样本扩增图像，得到所述样本扩增图像对应的第二组类别定位特征；所述样本扩增图像为根据所述样本图像扩增得到的图像；所述第二组类别定位特征包括K个类别在所述样本扩增图像中每一个类别的定位特征；

根据所述对比学习损失调整所述待训练模型的网络参数，直至训练完毕得到图像目标定位模型；

所述第一特征提取结果、所述第一组类别定位特征、所述第二特征提取结果和所述第二组类别定位特征均包括K个通道的特征数据，K为所述待训练模型学习预测的类别的数目，所述K个通道与K个类别一一对应；

所述根据所述第一特征提取结果、所述第一组类别定位特征、所述第二特征提取结果和所述第二组类别定位特征进行对比学习，获得对比学习损失，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述第一组类别定位特征中多个类别的定位特征拉平，得到拉平后的第一张量；

基于所述第一张量进行类别预测，得到第一预测结果；

根据所述第一预测结果与所述样本图像的类别标签的差异，得到第一类别预测损失；

将所述第二组类别定位特征中多个类别的定位特征拉平，得到拉平后的第二张量；

基于所述第二张量进行类别预测，得到第二预测结果；

根据所述第二预测结果与所述样本图像的类别标签的差异，得到第二类别预测损失；

所述根据所述对比学习损失调整所述待训练模型的网络参数，包括：

3.根据权利要求1所述的方法，其特征在于，

所述根据所述第一组类别定位特征和所述第二特征提取结果，得到第一特征相似度损失，包括：

所述根据所述第二组类别定位特征和所述第一特征提取结果，得到第二特征相似度损失，包括：

4.根据权利要求1或3所述的方法，其特征在于，所述根据所述第一特征相似度损失和所述第二特征相似度损失，得到所述对比学习损失，包括：

5.根据权利要求1所述的方法，其特征在于，所述第一特征提取结果包括K个通道的特征数据，K为所述待训练模型学习预测的类别的数目，所述K个通道与K个类别一一对应；所述第一特征提取结果中每个通道对应有w*h个像素的数据；

所述由所述原图处理网络中的定位网络在所述第一特征提取结果的基础上进行图像内容类别的空间定位并映射到所述样本图像，得到所述样本图像对应的第一组类别定位特征，包括：

根据各个类别的热力图定位类别的空间位置；

6.根据权利要求5所述的方法，其特征在于，根据所述样本图像扩增得到所述样本扩增图像，包括：

根据所述原图处理网络处理得到的各类别的热力图，以所述扩增图处理网络对应的图像扩增方式对所述样本图像进行扩增处理，得到所述样本扩增图像。

7.根据权利要求5所述的方法，其特征在于，所述待训练模型至少包括两个扩增图处理网络，所述两个扩增图处理网络为第一扩增图处理网络和第二扩增图处理网络；其中，所述第一扩增图处理网络对应于第一图像扩增方式，所述第二扩增图处理网络对应于第二图像扩增方式；

根据所述样本图像扩增得到所述样本扩增图像，包括：

8.根据权利要求2所述的方法，其特征在于，所述根据所述第一预测结果与所述样本图像的类别标签的差异，得到第一类别预测损失，包括：

9.根据权利要求8所述的方法，其特征在于，若t=1，则第t轮迭代训练所述待训练模型对第p个类别的预测值为1/K；若t为大于1的整数，则所述根据相邻两轮迭代训练同一类别的预测值的关联关系，得到第t轮迭代训练所述待训练模型对第i个类别的预测值，包括：

10.根据权利要求8或9所述的方法，其特征在于，目标样本图像为第t轮迭代训练同一批输入至所述待训练模型的多个样本图像之一；判断第t轮迭代训练中目标样本图像的第一预测结果是否满足预设置信度条件，包括：

11.根据权利要求10所述的方法，其特征在于，所述第t轮迭代训练的置信度阈值为通过以下方式确定：

将所述多个样本图像对应的最大预测值求平均，得到所述第t轮迭代训练的置信度阈值。

12.一种图像处理方法，其特征在于，包括：

将所述待处理图像输入至图像目标定位模型中，通过所述图像目标定位模型的原图处理网络对所述待处理图像进行图像处理，得到所述待处理图像的第一组类别定位特征；其中，所述图像目标定位模型为经过权利要求1-11任一项所述的图像目标定位模型的训练方法训练得到的模型；

13.一种图像目标定位模型的训练装置，其特征在于，待训练模型包括原图处理网络和扩增图处理网络，所述原图处理网络和所述扩增图处理网络各自包含前后连接的主干网络和定位网络，所述装置包括：

第一图像处理模块，用于由所述原图处理网络中的主干网络对样本图像进行特征提取，得到第一特征提取结果，并由所述原图处理网络中的定位网络在所述第一特征提取结果的基础上进行图像内容类别的空间定位并映射到所述样本图像，得到所述样本图像对应的第一组类别定位特征；所述第一组类别定位特征包括K个类别在所述样本图像中每一类别的定位特征；

第二图像处理模块，用于由所述扩增图处理网络中的主干网络对样本扩增图像进行特征提取，得到第二特征提取结果，并由所述扩增图处理网络中的定位网络在所述第二特征提取结果的基础上进行图像内容类别的空间定位并映射到所述样本扩增图像，得到所述样本扩增图像对应的第二组类别定位特征；所述样本扩增图像为根据所述样本图像扩增得到的图像；所述第二组类别定位特征包括K个类别在所述样本扩增图像中每一个类别的定位特征；

损失获取模块，用于根据所述第一特征提取结果、所述第一组类别定位特征、所述第二特征提取结果和所述第二组类别定位特征进行对比学习，获得对比学习损失；

参数调整模块，用于根据所述对比学习损失调整所述待训练模型的网络参数，直至训练完毕得到图像目标定位模型；

所述损失获取模块，具体用于：

14.根据权利要求13所述的装置，其特征在于，还包括：

第一组类别定位特征拉平模块，用于将所述第一组类别定位特征中多个类别的定位特征拉平，得到拉平后的第一张量；

第一预测模块，用于基于所述第一张量进行类别预测，得到第一预测结果；

第一类别预测损失获取模块，用于根据所述第一预测结果与所述样本图像的类别标签的差异，得到第一类别预测损失；

第二组类别定位特征拉平模块，用于将所述第二组类别定位特征中多个类别的定位特征拉平，得到拉平后的第二张量；

第二预测模块，用于基于所述第二张量进行类别预测，得到第二预测结果；

第二类别预测损失获取模块，用于根据所述第二预测结果与所述样本图像的类别标签的差异，得到第二类别预测损失；

所述参数调整模块，具体用于：

15.根据权利要求14所述的装置，其特征在于，所述第一类别预测损失获取模块具体用于：

所述第二类别预测损失获取模块具体用于：

16.根据权利要求13或15所述的装置，其特征在于，损失获取模块具体用于：

17.根据权利要求13所述的装置，其特征在于，所述第一特征提取结果包括K个通道的特征数据，K为所述待训练模型学习预测的类别的数目，所述K个通道与K个类别一一对应；所述第一特征提取结果中每个通道对应有w*h个像素的数据；第一图像处理模块具体用于：

根据各个类别的热力图定位类别的空间位置；

18.根据权利要求17所述的装置，其特征在于，还包括图像扩增模块：

所述图像扩增模块用于根据所述原图处理网络处理得到的各类别的热力图，以所述扩增图处理网络对应的图像扩增方式对所述样本图像进行扩增处理，得到所述样本扩增图像。

19.根据权利要求16所述的装置，其特征在于，

所述待训练模型至少包括两个扩增图处理网络，所述两个扩增图处理网络为第一扩增图处理网络和第二扩增图处理网络；其中，所述第一扩增图处理网络对应于第一图像扩增方式，所述第二扩增图处理网络对应于第二图像扩增方式；

图像扩增模块具体用于：

20.根据权利要求14所述的装置，其特征在于，第一类别预测损失获取模块具体用于：

21.根据权利要求20所述的装置，其特征在于，若t=1，则第t轮迭代训练所述待训练模型对第p个类别的预测值为1/K；若t为大于1的整数，则所述根据相邻两轮迭代训练同一类别的预测值的关联关系，得到第t轮迭代训练所述待训练模型对第i个类别的预测值，第一类别预测损失获取模块具体用于：

22.根据权利要求20或21所述的装置，其特征在于，目标样本图像为第t轮迭代训练同一批输入至所述待训练模型的多个样本图像之一；第一类别预测损失获取模块具体用于：

23.根据权利要求20所述的装置，其特征在于，第一类别预测损失获取模块具体用于：

24.一种图像处理装置，其特征在于，包括：

待处理图像输入模块，用于将所述待处理图像输入至图像目标定位模型中，通过所述图像目标定位模型的原图处理网络对所述待处理图像进行图像处理，得到所述待处理图像的第一组类别定位特征；其中，所述图像目标定位模型为经过权利要求1-11任一项所述的图像目标定位模型的训练方法训练得到的模型；

25.一种电子设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述计算机程序中的指令执行权利要求1至11中任一项所述的图像目标定位模型的训练方法的步骤，或者执行权利要求12所述的图像处理方法的步骤。

26.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被图像目标定位模型的训练设备执行时实现权利要求1至11任一项所述的图像目标定位模型的训练方法的步骤，或者执行时实现权利要求12所述的图像处理方法的步骤。