CN115115825B

CN115115825B - 图像中的对象检测方法、装置、计算机设备和存储介质

Info

Publication number: CN115115825B
Application number: CN202210590692.4A
Authority: CN
Inventors: 陈威; 任玉强; 鄢科
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2024-05-03
Anticipated expiration: 2042-05-27
Also published as: CN115115825A

Abstract

本申请涉及一种图像中的对象检测方法、装置、计算机设备、存储介质和计算机程序产品。本方法涉及地图领域，所述方法需要通过对象定位网络来对目标图像中的对象进行定位，找到目标图像中对象所在的对象定位区域，由于对象定位网络的泛化性，可以从目标图像中检测出包括基础类别样本在内的各种类别的对象，而后再确定每一对象定位区域各自对应的对象特征。并从更新样本图像中提取的对象支持特征。在类别检测时，则基于类别检测网络来对对象定位区域中的对象进行类别检测处理。通过该类别检测网络来进行类别检测时，可以有效地对从每一对象定位区域内对象所属的类别进行检测，从而确定对象类型，实现对图像中对象的精准检测。

Description

图像中的对象检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像中的对象检测方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术与人工智能的发展，出现了基于人工智能的计算机视觉(Computer Vision,CV)技术。而在计算机视觉众多的技术领域中，目标检测(ObjectDetection)是一项非常基础的任务，图像分割、关键点检测等通常都要依赖于目标检测。在目标检测时，传统的方法需要大量的标注数据训练检测模型，以保证它的性能。

然而面临新的任务时，往往需要添加新的类别，因此目标检测的模型网络需要重新训练，这就导致了模型训练的时间较长，计算资源的开销较大。虽然传统方法在提升已知类别的精度上有了很大的进步，但模型对于未知类别的检测始终非常困难，模型无法对训练数据中还没有出现过的“相似”的类别做出反应。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效实现对新增类别目标进行定位与分类识别的目标检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种图像中的对象检测方法。所述方法包括：

基于对象定位网络，对目标图像进行对象定位，识别所述目标图像中的对象定位区域；所述对象定位网络，是基于携带有对象定位标注的历史样本图像训练得到的网络，所述历史样本图像为包含基础类别的对象的图像；

基于包括所述历史样本图像和新增样本图像的更新样本图像，确定所述更新样本图像中所包含对象类别的对象支持特征；所述新增样本图像为包含新增类别的对象的图像；

按照每一所述对象定位区域各自对应的对象特征、以及每一所述对象类别的对象支持特征，基于类别检测网络，对所述对象定位区域中的对象进行类别检测处理，得到所述目标图像的对象检测结果；

其中，所述类别检测网络，是基于所述更新样本图像对预训练类别检测网络进行参数调整得到的网络；所述更新样本图像，携带有对象类别标注和对象定位标注。

第二方面，本申请还提供了一种图像中的对象检测装置。所述装置包括：

对象定位模块，用于基于对象定位网络，对目标图像进行对象定位，识别所述目标图像中的对象定位区域；所述对象定位网络，是基于携带有对象定位标注的历史样本图像训练得到的网络，所述历史样本图像为包含基础类别的对象的图像；

特征获取模块，用于基于包括所述历史样本图像和新增样本图像的更新样本图像，确定所述更新样本图像中所包含对象类别的对象支持特征；所述新增样本图像为包含新增类别的对象的图像；

类别检测模块，用于按照每一所述对象定位区域各自对应的对象特征、以及每一所述对象类别的对象支持特征，基于类别检测网络，对所述对象定位区域中的对象进行类别检测处理，得到所述目标图像的对象检测结果；

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述图像中的对象检测方法、装置、计算机设备、存储介质和计算机程序产品，在进行图像中的对象检测时，首先需要通过对象定位网络来对目标图像中的对象进行定位，找到目标图像中对象所在的对象定位区域，其中对象定位网络基于携带有对象定位标注的历史样本图像训练得到的网络，历史样本图像为包含基础类别的对象的图像，由于对象定位网络的泛化性，可以从目标图像中检测出包括基础类别样本在内的各种类别的对象，而后再确定每一对象定位区域各自对应的对象特征。并从包括历史样本图像和新增样本图像的更新样本图像中提取的对象支持特征，从而可以将每一对象定位区域各自对应的对象特征与每一对象类别的对象支持特征作为后续过程对象类别检测的依据。而在类别检测时，则基于类别检测网络来对对象定位区域中的对象进行类别检测处理。其中类别检测网络基于更新样本图像对预训练类别检测网络进行参数调整得到的网络；其中更新样本图像，携带有对象类别标注和对象定位标注，因此通过该类别检测网络来进行类别检测时，可以有效地对从每一对象定位区域内对象所属的类别进行检测，从而确定每一对象定位区域内的对象是属于基础类别或新增类别中的哪种对象类型，能够在新增检测的类别时，有效实现对图像中对象的精准检测。

附图说明

图1为一个实施例中图像中的对象检测方法的应用环境图；

图2为一个实施例中图像中的对象检测方法的流程示意图；

图3为一个实施例中骨干网络的模块结构示意图；

图4为一个实施例中特征金字塔网络处理流程的示意图；

图5为一个实施例中区域生成网络的结构示意图；

图6为一个实施例中图像中的对象检测方法对图像中的物品进行识别的处理过程；

图7为一个实施例中对象定位网络训练过程的流程示意图；

图8为一个实施例中类别检测网络训练过程的流程示意图；

图9为一个实施例中图像中的对象检测方法的实施流程示意图；

图10为一个实施例中图像中的对象检测方法应用于超市铺市时的流程示意图；

图11为一个实施例中图像中的对象检测装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请具体涉及到人工智能(Artificial Intelligence,AI)技术，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。而本申请的方案具体涉及到了人工智能技术中的计算机视觉技术以及机器学习(Machine Learning,ML)方面的内容。

计算机视觉技术是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。而机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。本申请中通过机器学习的方法来实现对计算机视觉处理，从而实现对目标图像的对象检测。

此外，本申请中涉及到的技术术语包括：

目标检测技术(Object Detection)：是指将图片中的每个物体都定位出来并给出其类别信息。

少样本目标检测技术(Few Shot Object Detection，FSOD)：少样本目标检测的是目标检测技术的子领域，少样本目标检测一般分为2阶段，第一阶段利用大量已知类别来训练网络模型；第二阶段利用少部分新类别的数据进行微调，达到检测到新类别的物体的效果。少样本目标检测技术也称为K-shot N-way少样本目标检测，其中N-way代表训练的类别有N个，K-shot代表每个类别在第二阶段各有K个实例。

泛化少样本目标检测技术(Generalization Few Shot Object Detecton)：泛化少样本目标检测技术，是指在检测到新类别的条件下，使得微调后的新网络模型不会遗忘第一阶段中的类别，从而提高网络的泛化性。

开放世界目标定位技术(Open World Object Localization)：是指在已有类别的定位网络模型的基础上，对开放世界中未知的类别进行定位。

更快的区域卷积神经网络(Faster R-CNN)：更快的区域卷积神经网络，一种经典的基于锚框(anchor)两阶段的目标检测网络，由主干网络(Backbone)，区域生成网络(RPN)以及感兴趣区域头(RoI Head)组成。

锚框(Anchor)：，在原图上每个像素的预设了不同大小的框辅助训练。

区域生成网络(Region Proposal Network，RPN)：在更快的区域卷积神经网络中，筛选出可能会有目标的框。

感兴趣区域对齐模块(RoI Align)：在区域生成网络找到的得分较高的候选框(proposals)后，将其按照相应比例裁剪下来。

感兴趣区域头(Region of Interest Head，RoI Head)：对区域生成网络阶段得到的候选框进行裁剪，并通过若干全连接层(FC)输出候选框回归和分类的预测值。

特征金字塔网络(Features Pyramid Network，FPN)：用于和残差网络(Resnet)网络一起组成骨干网络，来提取输入图像的多尺度特征。

基础类别(Base Classes)：利用基础类别的物体来训练检测模型。

新增类别(Novel Classes)：又称未知类别，是指在少样本/开集目标检测第一阶段中没有出现的类别。

支持图片(Support Images)：组成支持集(Support Set)的图片，从训练集每个类别所在的图片中，随机挑选出若干经过缩放后的图片(共有N个类别，每个类别共K张，每一次训练中，每个类别各挑选一张)，用于辅助N-way K-shot少样本目标检测的训练。

待检测图像(Query Imageas)：组成检测集(Query Set)的图像，也就是需要检测的目标图像。

微调技术(Fine Tune)：是指在已有的模型上进行调整，微调可以省下一定的计算资源和时间，提高计算效率。

预训练模型(Pre-trained Model)：是指已经用数据集训练好的模型。

全卷积网络(Fully convolutional network)：图像分割技术最常用的一种卷积网络，完全由卷积层和池化层组成。

特征图(Feature map)：图像和滤波器进行卷积后得到的特征图。特征图可以和滤波器进行卷积生成新的特征图。

本申请实施例提供的图像中的对象检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上，首先，当终端102方的用户需要对目标图像中的对象进行检测，以确定对象的位置以及类别时，可以通过将目标图像发送至服务器104，通过服务器104来实现对目标图像的对象检测。目标图像中包含有用于进行对象检测的机器学习模型，机器学习模型包括了对象定位网络以及类别检测网络，分别用于对目标图像进行对象定位，以及对定位出的对象进行类别检测。在进行对象检测时，服务器104首先基于对象定位网络，对目标图像进行对象定位，识别目标图像中的对象定位区域；对象定位网络，是基于携带有对象定位标注的历史样本图像训练得到的网络，历史样本图像为包含基础类别的对象的图像；基于包括历史样本图像和新增样本图像的更新样本图像，确定更新样本图像中所包含对象类别的对象支持特征；新增样本图像为包含新增类别的对象的图像；按照每一对象定位区域各自对应的对象特征、以及每一对象类别的对象支持特征，基于类别检测网络，对对象定位区域中的对象进行类别检测处理，得到目标图像的对象检测结果；其中，类别检测网络，是基于更新样本图像对预训练类别检测网络进行参数调整得到的网络；更新样本图像，携带有对象类别标注和对象定位标注。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种图像中的对象检测方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤201，基于对象定位网络，对目标图像进行对象定位，识别目标图像中的对象定位区域；对象定位网络，是基于携带有对象定位标注的历史样本图像训练得到的网络，历史样本图像为包含基础类别的对象的图像。

其中，对象定位网络基于携带有对象定位标注的历史样本图像训练得到，用于实现对目标图像中的对象进行定位。对象定位网络具体可以为深度神经网络，其包括了骨干网络以及高层网络，其中骨干网络用于特征提取，而高层网络则可以基于骨干网络提取到的特征来实现对象对位。目标图像是指从终端102提交到服务器104的识别对象，目标图像中包含有待识别的对象，对象的检测的目的就在于从图表图像中识别出所有待识别对象的位置信息以及类别信息。对象定位是指通过对象定位网络识别出其中对象所处的大致位置，一般对于目标图像中的每个对象，可以通过对象定位网络检测出对象位置的一个检测框，该检测框框出的位置即为对象定位区域，在确定对象的对象定位区域后，可以从对象定位区域中提取出相应的对象特征。历史样本图像中仅包含有基础类别的对象，而定位标注指的也是对历史样本图像中基础类别对象的位置进行标注。基础类别是指相对于新增类别而言的对象，是对象检测过程中主要检测的对象。基础类别的数据相对于新增类别的数据而言数据量更大。在对象定位网络的训练过程中，可以将一批带有定位标注的历史样本图像作为模型训练数据，这些历史样本图像中携带有需要识别的基础类别的对象。因此，在通过对象定位网络进行图像中的对象检测时，可以有效地对目标图像中的基础类别对象进行对位，得到目标图像中的对象定位区域。同时，由于对象定位网络具有一定的泛用性，不会只在基础类别的对象对应位置生成对象定位区域，而是其他类别的对象位置处也会生成相应的对象定位区域，从而实现对图像中的对象检测。

具体地，本申请的图像中的对象检测方法用于实现图像中的各类对象进行检测。当终端102在通过网络提交目标图像到服务器104后。服务器104会先通过服务器104内已经训练完成的对象定位网络来对目标图像中的各个目标进行对象定位，确定每个对象对应的对象定位区域。并输出这些对象定位区域以供后续检测过程使用。对象定位网络具体可以包括骨干网络以及后续的高层网络。在一个具体的实施例中，对象定位网络中的骨干网络(backbone)具体可以由残差网络101(ResNet101)和特征金字塔网络(FPN)所组成，残差网络101的结构如下表1所示。其中，C3和C4的第一层的步长(stride)都为2。每个卷积层之后都接有带泄露随机线性整流(Linear rectification，ReLU)层和批标准化(BatchNormalization)层。每个模块(block)的结构如图3所示。特征金字塔网络的模型示意图如下表2所示，其处理过程则可以参照图4所示。特征金字塔网络具体由P2，P3，P4，P5，P6层组成，其中P2，P3，P4，P5层分别和残差网络101的C2，C3，C4，C5层相连。P6层由P5经过最大池化操作得到。残差网路101和特征金字塔网络组成的骨干网络结构可以提取多尺度的特征，将P2～P6得到的特征作为后续高层网络的输入。而高层网络则由区域生成网络(RPN)以及感兴趣区域定位头(Localization Region of Interest Head，L-RoI Head)组成。其中区域生成网络用于筛选出可能会有目标的框，其结构可以参照图5所示，感兴趣区域定位头则用于实现对象定位，它可以从区域生成网络筛选出的框中识别出包含有对象的框，而后将其作为目标图像中的对象定位区域。在其中一个实施例中，本申请的图像中的对象检测方法具体用于对货架图像中各个商品的商品类别进行识别。此时，用户可以通过终端拍摄货架的图像，而后将得到的图像发送给服务器104。服务器104在接收到货架图像后，可以通过用于商品检测模型来进行对象检测，先通过商品检测模型中的对象定位网络对货架图像中的商品进行定位，得到每一个商品所对应的对象定位区域，后续则可以再通过商品检测模型中的类别检测网络，对各个位置的商品进行类别检测，从而得到最终的检测结果。

表1：残差网络101结构表

表2：特征金字塔网络结构表

步骤203，基于包括历史样本图像和新增样本图像的更新样本图像，确定更新样本图像中所包含对象类别的对象支持特征；新增样本图像为包含新增类别的对象的图像。

其中，新增样本图像是相对于历史样本图像而言的，是与历史样本图像中所包含的对象类别不同的其它对象。如对于目标图像为货架图像，而检测对象为货架上商品的实施例，历史样本图像具体可以为历史数据中的商品图像，其包括基础类别下商品A、商品B以及商品C。而新增样本图像同样可以为商品图像，但其具体包括商品D以及商品E的图像，与历史样本图像中基础类别的对象的图像相区别。新增样本图像中包含的新增类别的对象在对象定位网络训练时未出现，但是为了在对象检测时可以同时检测出基础类别的对象以及新增类别的对象，可以将新增类别的对象与基础类别的对象一起作为更新样本图像来作为类别检测的基础数据。更新样本图像即支持图像(Support Images)，所有的更新样本图像组成支持集(Support Set)，更新样本图像具体可以由从历史样本图像和新增样本图像中每个类别所在的图像中，随机挑选出若干经过缩放后的图片。可以通过更新样本图像来辅助本申请中的类别检测过程。对象支持特征则指的是指从更新样本图像中所提取出的图像特征，其具体可以通过与对象定位网络中骨干网络相同的特征提取网络提取得到。如对于对象定位网络使用残差网络101加特征金字塔网络作为骨干网络的实施例，更新样本图像也需要采用残差网络101加特征金字塔网络作为骨干网络来提取特征。同时，在提取对象支持特征时，需要将对象定位网络中骨干网络的权重共享至更新样本图像对应的骨干网络中来提取到图像特征，再通过感兴趣区域对齐模块(RoI Align)对提取出的图像特征进行裁剪，得到对象支持特征。

具体地，为了实现对象定位区域中对象所属的类别进行检测，可以预先得到需要检测的基础类别的对象的图像以及新增类别的对象的图像，即历史样本图像和新增样本图像，来构建用于进行对象类型检测的支持集数据，在通过与对象定位网络相同的特征提取网络进行特征提取后，可以得到支持特征，而这些支持特征可以作为对对象定位区域内对象进行分类的依据。在其中一个实施例中，本申请的方案用于对货架图像上的商品进行对象检测，以确定商品是否达到了铺市要求。此时，在获取对象支持特征时，可以将货架上可能出现的商品(不包含训练对象定位网络时所使用的商品类型)作为新增样本图像，将其与训练对象定位网络时所涉及到的商品类型一起作为更新样本图像，来提取得到对象支持特征。

步骤205，按照每一对象定位区域各自对应的对象特征、以及每一对象类别的对象支持特征，基于类别检测网络，对对象定位区域中的对象进行类别检测处理，得到目标图像的对象检测结果；其中，类别检测网络，是基于更新样本图像对预训练类别检测网络进行参数调整得到的网络；更新样本图像，携带有对象类别标注和对象定位标注。

其中，对象特征是指从目标图像的对象定位区域中提取出的图像特征，针对目标图像中所定位出的每一个对象定位区域，都可以提取出其对应的对象特征。而对象支持特征则是针对每一类别的对象，从更新样本图像中提取到的特征。类别检测网络是与对象定位网络相连接的一个深度神经网络，对象定位网络的输出即为类别检测网络的输入。将类别检测网络是与对象定位网络组合起来即为对图像中的对象进行检测的对象检测模型。类别检测网络具体用于对对象定位区域中对象所属的类型进行检测。类别检测网络具体可以将对象特征与各个类别下的对象支持特征进行对比，来识别对象特征所属的对象类别。类别检测网络，是基于更新样本图像对预训练类别检测网络进行参数调整得到的网络。在进行图像中的对象检测之前，可以先构建出一个预训练类别检测网络，它采用包含各种类别标注的图片来进行训练。而当需要针对某些类别的对象进行识别时，可以基于少部分且全部类别标注的来对预训练得到的类别检测网络进行参数调整，这里参数调整具体可以通过微调(Fine Tune)来对预训练类别检测网络处理，微调技术是指在已有的模型上进行调整，微调可以省下一定的计算资源和时间，提高计算效率。更新样本图像中携带有对象类别标注和对象定位标注，而在对类别检测网络进行微调处理时，具体是指通过携带有对象类别标注和对象定位标注的更新样本图像对对象定位网络以及类别检测网络所构成的对象检测模型进行训练，同时在训练过程中冻结对象定位网络的权重，仅对类别检测网络进行调整。

具体地，当得到每一对象定位区域各自对应的对象特征、以及每一对象类别的对象支持特征后，这些特征可以作为对象检测的依据，可以通过类别检测网络来对这两类特征进行处理。最终输出的结果是各个对象定位区域所对应的对象定位框回归坐标以及对象的类别得分。对象定位框回归坐标可以用于对目标图像中的对象进行定位，而类别得分则可以用于对定位后的对象进行类型识别。在其中一个实施例中，可以将对象的类别得分进行排序，将得分最高的类别作为检测得到的对象类别。在另一个实施例中，还可以判断得分最高的类别是否高于预设的类别检测阈值，只有大于或等于阈值才会输出对应的类别检测结果，而未达到阈值则会输出对象类型识别失败的结果。在其中一个实施例中，本申请的方案具体用于对货架图像上的商品进行对象检测，以确定各类型的商品是否达到了铺市要求。当得到了实时货架图像中各个对象定位区域所对应的对象特征以及货架可能存在的各种类别商品对应的对象支持特征后，可以将这两种特征都输入到类别检测网络中，而后基于类别检测网络对实时货架中存在的商品类别进行识别，确定货架图像中各个位置的商品对应的商品类别，判断货架上的商品是否达到了铺市要求。在另一个实施例中，本申请的方法在对图像中的物品进行识别的处理过程具体可以参照图6所示，首先用户输入一个包含有汽车的图像，在定位检测的过程中，定位出多个不同对象对应的检测框。通过置信度去除部分检测框后，得出包含有汽车的对象定位区域。而后通过类别检测网络检测后，识别得出保留的框中的对象为汽车的可能性为71％。

上述图像中的对象检测方法，在进行图像中的对象检测时，首先需要通过对象定位网络来对目标图像中的对象进行定位，找到目标图像中对象所在的对象定位区域，其中对象定位网络基于携带有对象定位标注的历史样本图像训练得到的网络，历史样本图像为包含基础类别的对象的图像，由于对象定位网络的泛化性，可以从目标图像中检测出包括基础类别样本在内的各种类别的对象，而后再确定每一对象定位区域各自对应的对象特征。并从包括历史样本图像和新增样本图像的更新样本图像中提取的对象支持特征，从而可以将每一对象定位区域各自对应的对象特征与每一对象类别的对象支持特征作为后续过程对象类别检测的依据。而在类别检测时，则基于类别检测网络来对对象定位区域中的对象进行类别检测处理。其中类别检测网络基于更新样本图像对预训练类别检测网络进行参数调整得到的网络；其中更新样本图像，携带有对象类别标注和对象定位标注，因此通过该类别检测网络来进行类别检测时，可以有效地对从每一对象定位区域内对象所属的类别进行检测，从而确定每一对象定位区域内的对象是属于基础类别或新增类别中的哪种对象类型，能够在新增检测的类别时，有效实现对图像中对象的精准检测。

在一个实施例中，对象定位网络包括区域生成网络以及感兴趣区域定位头；步骤201包括：通过区域生成网络，得到目标图像中的定位候选框，通过区域生成网络的定位置信度分支，得到定位候选框对应的定位置信度分数；基于定位置信度分数对定位候选框进行筛选；通过感兴趣区域定位头对筛选后的定位候选框进行对象定位处理，确定目标图像中的对象定位区域。

其中，定位置信度分支即用于预测定位置信度的分支，置信度又称置信水平，是指总体参数值落在样本统计值某一区内的概率。本申请的方案中，通过区域生成网络来对目标图像中的对象进行定位，得到一个定位框，而后再通过定位置信度分支得到定位框的定位置信度。而感兴趣区域定位头即L-RoI Head，是指携带有定位置信度分支的感兴趣区域头，其主要用于对区域生成网络得到的候选框进行裁剪，并通过若干全连接层输出候选框回归和定位的预测值。

具体地，对象定位网络中除了用于提取特征的骨干网络外，还包括了高层网络。具体包括区域生成网络以及感兴趣区域定位头，其中区域生成网络用于根据骨干网路提取的多尺度特征，从目标图像中识别出可能含有目标的定位框，即定位候选框，同时区域生成网络还包括定位置信度分支，用于得到定位候选框对应的定位置信度分数。接着可以基于定位置信度分数对定位候选框进行筛选，识别出其中置信度较高的部分定位候选框传入到感兴趣区域定位头中，通过感兴趣区域定位头中的感兴趣区域对齐模块以及全连接层等网络结构，得到对于图中对象的定位框，即对象定位区域。这些数据都将作为后续类别检测过程的输入数据。在其中一个实施例中，本申请的方案具体用于对货架图像中各个商品的商品类别进行识别，从而实现铺市检测。在识别货架图像中各个商品对应的对象定位区域时，首先需要将货架图像输入到区域生成网络中，而后由区域生成网络中的骨干网络提取出货架图像的多尺度特征，而后基于区域生成网络提取出货架图像中各个商品对应的定位候选框。但是由于可能存在检测错误的情况，可以通过区域生成网络的定位置信度分支对各个定位候选框进行定位置信度的估计，而后基于预先确定的置信度阈值，筛选出部分定位置信度较高的定位候选框作为后续的输入，将这些定位候选框输入到感兴趣区域定位头汇总，通过感兴趣区域定位头中的感兴趣区域对齐模块以及全连接层等网络结构，对定位候选框进行裁剪等后续操作，精准的得到货架上商品所对应的对象定位区域。本实施例中，通过区域生成网络以及感兴趣区域定位头，来对目标图像进行定位，可以准确地检测出目标图像中检测对象所在的对象定位区域。

在其中一个实施例中，方法还包括：获取携带有对象定位标注的基础类别样本图像以及初始区域生成网络，初始区域生成网络包括分类置信度分支；将初始区域生成网络的分类置信度分支替换为定位置信度分支；根据分支替换后的初始区域生成网络构建初始对象定位网络；通过携带有对象定位标注的基础类别样本图像对初始对象定位网络进行训练，得到对象定位网络。

其中，初始区域生成网络是指现在有的区域生成网络，其主要包含有区域生成网络本体、一个分类置信度分支和一个边框回归分支。由于区域生成网络只需要实现区域定位的功能，因此将分类置信度分支替换为了定位置信度分支。

具体地，本申请具体可以采用携带定位标注，但是无类别的基础类别样本图像来训练定位网络，首先通过将初始区域生成网络的分类置信度分支替换为定位置信度分支，再与骨干网络以及感兴趣区域定位头等组成初始对象定位网络。再通过携带有对象定位标注的基础类别样本图像对初始对象定位网络进行训练，可以得到可用的对象定位网络。在一个实施例中，对象定位网络训练过程具体可以参照图7所示，首先通过骨干网络获取基础类别样本图像的多尺度特征，接着使用区域生成网络层筛选出定位置信度较高的预测框，并输入至感兴趣区域定位头。最后利用感兴趣区域定位头输出预测框的回归坐标和定位置信度得分，使得网络能够定位训练数据中出现的对象以及潜在的未知物体。其中，携带有对象定位标注的基础类别样本图像具体可以是指较大批量的训练数据，如本申请的方案可以采用已经公开的上下文中的常见对象(The Microsoft Common Objects in Context，MSCOCO)目标检测数据集来进行模型训练。这个数据集中包含有80个类别的数据，可以将其中的60个类别作为基础类别，其它20个类别作为新增类别，此处训练时，采用60个基础类别的数据训练对象定位网络。本实施例中，先将初始区域生成网络的分类置信度分支替换为定位置信度分支，而后基于该初始区域生成网络来构建初始对象定位网络，再通过携带有对象定位标注的基础类别样本图像对初始对象定位网络进行训练，可以得到对象定位网络，并保证对象定位网络的定位准确性。

在一个实施例中，类别检测网络包括感兴趣区域检测头。步骤205具体包括：基于每一对象定位区域各自对应的对象特征，通过感兴趣区域检测头对对象定位区域进行检测，得到感兴趣区域检测特征；根据感兴趣区域检测特征以及每一对象类别的对象支持特征，得到预测框回归坐标以及预测框回归坐标对应的类别得分；基于预测框回归坐标以及预测框回归坐标对应的类别得分，确定目标图像的对象检测结果。

其中，感兴趣区域检测特征是指通过感兴趣区域检测头对对象定位区域进行检测后得到的一组特征，将对象定位网络识别得到的对象定位区域的定位框输入感兴趣区域检测头，得到即可得到相应的感兴趣区域检测特征，感兴趣区域检测头包含有分类置信度分支，用于获取对象定位区域的分类置信度分数。感兴趣区域检测头与感兴趣区域定位头相比，预测框回归分支不变，只是将感兴趣区域定位头中的定位置信度分支替换为分类置信度分支。

具体地，类别检测网络中包括有感兴趣区域检测头，感兴趣区域检测头用于进行类别检测的处理，首选对于输入的对象定位区域，感兴趣区域检测头可以基于每一对象定位区域各自对应的对象特征进行处理，得到感兴趣区域检测特征(D-RoI features)，同时可以将感兴趣区域检测特征与每一对象类别的对象支持特征进行处理，来分析出每一个对象定位区域所对应的预测框回归坐标以及预测框回归坐标对应的类别得分，进而确定相应的对象检测结果。在其中一个实施例中，具体可以将感兴趣区域检测特征与对象支持特征按通道进行点乘(Channel-Wise Product)，将点乘得到的特征经过回归和分类全连接层，输出预测框回归坐标以及预测框回归坐标对应的类别得分，进而基于预测框回归坐标对应的类别得分，确定各个预测框回归坐标所对应对象的具体类别。在其中一个实施例中，可以将类别得分最高的一个类别作为对象的类别，而在另一个实施例中，还可以判断类别得分最高的类别是否达到了预设的类别识别阈值，只有达到了类别识别阈值的对象才会输出相应的类别识别结果，否则输出类别识别失败的消息。在一个具体的实施例中，本申请的方案用于对货架图像上商品的类别进行分析，此时类别检测网络可以对输出的货架图像中的每一个检测框进行识别，确定各个检测框对应的类别分析结果，而后基于该类别分析结果以及检测框坐标，在原货架图像中进行标注，并输出标注后的货架图像作为最终的目标检测结果，工作人员可以基于货架图像的标注判断货架铺市是否达标。本实施例中，通过感兴趣区域检测头可以有效地对对象定位区域中对象的类别进行分析，保证类别检测的准确性。

在其中一个实施例中，根据感兴趣区域检测特征以及每一对象类别的对象支持特征获取预测框回归坐标以及预测框回归坐标对应的类别得分包括：根据感兴趣区域检测特征以及每一所述对象类别的对象支持特征，确定预测框回归坐标以及不同预测框回归坐标所对应预测框之间的距离；通过感兴趣区域检测头中的对比头对预测框之间的距离进行处理，以缩小相同类别的预测框之间的距离，并增大不同类别的预测框之间的距离；基于处理后的预测框之间的距离，得到各个预测框回归坐标对应的类别得分。

其中，预测框之间的距离表征了不同预测框内对象类别的相似性，距离越近说明预测框类别越接近，而距离越远说明预测框类别差异越大。而感兴趣区域检测头除了类别置信度分支外，还新增了对比头(Contrastive Head)辅助类别识别，对比头可以缩小相同类别的预测框之间的距离，增大不同类别的预测框之间的距离。

具体地，在根据感兴趣区域检测特征以及对象支持特征获取预测框回归坐标以及预测框回归坐标对应的类别得分时，首先可以基于感兴趣区域检测特征以及对象支持特征，通过感兴趣检测头来确定预测框回归坐标以及不同预测框回归坐标所对应预测框之间的距离；再通过对比头对预测框之间的距离进行处理，从而缩小相同类别的预测框之间的距离，并增大不同类别的预测框之间的距离，以增强不同类别预测框之间的对比度。之后，可以基于处理后的预测框之间的距离，得到各个预测框回归坐标对应的类别得分。本实施例中，通过感兴趣区域检测头中的对比头小相同类别的预测框之间的距离，并增大不同类别的预测框之间的距离，从而提高预测框之间的对比性，保证类别检测的准确率。

在一个实施例中，方法还包括：获取携带有对象类别标注和对象定位标注的基础类别样本图像、携带有对象类别标注和对象定位标注的新增类别样本图像以及预训练类别检测网络；将预训练类别检测网络中的感兴趣区域检测头的定位置信度分支替换为分类置信度分支；通过携带有对象类别标注和对象定位标注的基础类别样本图像，和携带有对象类别标注和对象定位标注的新增类别样本图像对分支替换后的感兴趣区域检测头进行参数调整，得到类别检测网络。

其中，预训练类别检测网络是指已经通过各种类别下样本图像训练得到的类别检测网络。由于已经通过区域生成网络实现了区域定位了功能，因此类别检测网络只需要实现类别检测的功能，因此将感兴趣区域定位头中的定位置信度分支替换为了检测置信度分支。

具体地，本申请具体可以采用携带有对象类别标注和对象定位标注的基础类别样本图像、携带有对象类别标注和对象定位标注的新增类别样本图像两种数据来对检测网络进行参数调整，这部分携带有对象类别标注和对象定位标注的基础类别样本图像、携带有对象类别标注和对象定位标注的新增类别样本图像仅仅是少量数据，因此可以有效减少模型训练过程中用于数据标注过程的工作量。首先通过将感兴趣区域定位头中的定位置信度分支替换为了检测置信度分支，得到感兴趣区域检测头。再通过携带有对象类别标注和对象定位标注的基础类别样本图像、携带有对象类别标注和对象定位标注的新增类别样本图像对包含有感兴趣区域检测头的类别检测网络进行微调，可以得到可用的类别检测网络，在这个过程中具体可以将类别检测网络与训练完成的区域定位网络组成一个完整的对象检测模型，而后将携带有对象类别标注和对象定位标注的基础类别样本图像、携带有对象类别标注和对象定位标注的新增类别样本图像直接输入到区域定位网络，区域定位网络的输入会输入到类别检测网络中实现对类别检测网络的参数调整，在这个过程中区域定位网络会被冻结，以防止对微调过程的干扰。在一个实施例中，模型训练过程具体可以参照图8所示，首先通过骨干网络获取基础类别样本图像的多尺度特征，接着使用区域生成网络层筛选出定位置信度较高的预测框，并输入至感兴趣区域定位头。最后利用感兴趣区域定位头输出预测框的回归坐标和定位置信度得分，使得网络能够定位训练数据中出现的对象以及潜在的未知物体。而后，感兴趣区域定位头输出预测框的回归坐标和定位置信度得分会输入到感兴趣区域检测头中，同时感兴趣区域检测头还会获取从支持集(更新样本图像)中提取到的对象支持特征，这些更新样本图像经过与区域定位模块相同的骨干网络提取多尺度特征，并使用感兴趣区域对齐模块裁剪得到对象支持特征，这些对象支持特征用于辅助进行类别检测，感兴趣区域检测模块除了检测头以及检测框回归头之外，还包括一个对比头，其用于辅助训练，可以缩小相同类别的预测框之间的距离，增大不同类别的预测框之间的距离。训练过程中，携带有对象类别标注和对象定位标注的基础类别样本图像、携带有对象类别标注和对象定位标注的新增类别样本图像具体可以是指较小批量的训练数据，如本申请的方案可以采用已经公开的上下文中的常见对象目标检测数据集来进行模型训练。这个数据集中包含有80个类别的数据，可以将其中的60个类别作为基础类别，其它20个类别作为新增类别，此处训练时，采用60个基础类别和20个类别的新增类别的数据训练类别检测网络。本实施例中，先将预训练类别检测网络中的感兴趣区域检测头的定位置信度分支替换为分类置信度分支，而后对预训练类别检测网络进行参数调整，来得到类别检测网络，可以保证类别检测网络的检测准确性。

在一个实施例中，基于包括历史样本图像和新增样本图像的更新样本图像，确定更新样本图像中所包含对象类别的对象支持特征包括：获取包括历史样本图像和新增样本图像的更新样本图像，更新样本图像携带有类别标注；提取更新样本图像的多尺度特征；根据类别标注，对同一类别更新样本图像的多尺度特征进行取平均操作，得到对象支持特征。

其中，多尺度特征是指通过骨干网络从图像中提取到的特征，现阶段的目标检测网络通常允许任意大小的输入，所以可以使用多尺度训练，提高检测器对目标尺度变化的鲁棒性。在测试阶段使用多尺度测试时，检测器会选择更加合适的大小的物体，从而提高对不同尺寸目标的检测准确度。

具体地，在获取支持特征时，为了保证所获取的支持特征的泛用性，对于每一个类别的所有支持特征，可以对其进行取平均操作，将取平均后所得到的特征作为该类别数据的支持特征。如在一个实施例中，本申请的方案用于对货架图像进行目标检测，从而识别货架图像中各个商品的类别。此时，作为支持特征，可以根据货架可能摆放商品的图像来构建一个支持集数据，而后提取出该支持集数据中的支持特征，同时对于每种商品所对应的支持特征都进行一个取平均操作，从而可以有效得到各类商品所对应的支持特征，并依据各类商品所对应的支持特征来实现货架上商品类型的识别处理。本实施例中，通过取平均操作，可以有效地保证所用支持特征的有效性，提高类别检测的准确率。

在其中一个实施例中，目标图像包括货架图像，目标图像的对象检测结果包括货架商品检测结果；步骤205之后还包括：对比货架商品检测结果以及预设铺市目标信息，得到货架图像对应的货架铺市达标信息，预设铺市目标信息为货架图像对应货架的铺市目标信息；反馈货架铺市达标信息。

其中，货架图像是指通过拍摄设备对货架进行拍照后所得到的实时图片，可以反映货架上实时的商品信息，而货架商品检测结果则是指针对货架图像进行目标检测后所得到的检测结果，货架商品检测结果具体包括了货架图像对应货架上所包含的商品的类型，各类型商品所处的位置以及所类型商品的数量等等。预设铺市目标信息则是指货架图像对应货架上各种商品的数量是否达到铺市的目标数量，或者各种商品的位置是否摆放正确等。

具体地，本申请的图像中目标检测具体可以用于实现对货架图像的检测。比如对于超市场景，由于超市商品数量较多，一般需要工作人员去检查各个货架的铺市是否达标。而通过本申请的图像中目标检测方法，只需要通过拍摄超市内的货架图像，即可对货架上的商品进行检测。服务器104在通过检测得到货架图像的检测结果之后，还可以进一步地判断货架上的商品是否达到了预设铺市目标。具体地，可以将货架图像中的商品一一与预设铺市目标信息中各商品对应的铺市数量目标以及铺市位置进行对比，判断各种商品是否达到了预设铺市目标。在对所有商品都校验完成后，即可建立一个达标信息表，用于记录各个商品是否达到铺市目标，同时还可以显示货架上各个商品的实时数量。当服务器104通过对比得到货架铺市达标信息后，即可反馈货架铺市达标信息至工作人员的终端，工作人员可以根据货架铺市达标信息将商品上架到货架。本实施例中，通过对比货架商品检测结果以及预设铺市目标信息，可以有效地判断货架商品是否铺市完成，从而有效提高货架铺市过程的效率。

本申请还提供一种应用场景，该应用场景应用上述的图像中目标检测方法。具体地，该图像中目标检测方法在该应用场景的应用如下：

本申请的图像中目标检测方法应用于大型超市的处理服务器，每天超市都需要针对货架进行铺市。因此，可以通过本申请中的图像中目标检测方法来对超市中货架的铺市情况进行检测。确定商品铺市情况，从而确定如何补充商品到超市的货架上。本申请方法的实施流程可以参照图9所示，用户通过前端A向后端服务器输入目标图像，而后端对图像中的目标进行定位与检测，并将定位结果与检测结果反馈给前端B。当应用于铺市时，具体操作流程可以参照图10所示，首先拍照工作人员在需要进行检测的货架前进行拍照，得到货架图像。而后再通过终端将货架图像上传到处理服务器中，同时还可以填写货架的编号，或者直接填写货架中商品的铺市目标。处理服务器包括有用于对图像中进行检测的对象检测模型。首先，服务器会基于对象检测模型中的对象定位网络，对货架图像进行对象定位，确定图像中各个商品所对应的对象定位区域。而后基于货架中各种可能存在的商品的图像，构建一组更新样本图像，并从特征提取操作，从更新样本图像中提取出其所包含对象类别的对象支持特征。而后即可进行各个对象定位区域内商品类型的检测，服务器会按照每一对象定位区域各自对应的对象特征、以及每一对象类别的对象支持特征，基于类别检测网络，对对象定位区域中的对象进行类别检测处理，得到货架图像的商品检测结果，确定货架图像中所包含商品的类别。在通过对象定位网络，对货架图像中的商品进行定位时，具体为通过区域生成网络，得到目标图像中的定位候选框，通过区域生成网络的定位置信度分支，得到定位候选框对应的定位置信度分数；基于定位置信度分数对定位候选框进行筛选；通过感兴趣区域定位头对筛选后的定位候选框进行对象定位处理，确定货架图像中商品的对象定位区域。而基于类别检测网络，对对象定位区域中的商品进行类别检测处理，得到货架图像的商品检测结果则具体包括：首先基于每一对象定位区域各自对应的对象特征，通过感兴趣区域检测头对对象定位区域进行检测，得到感兴趣区域检测特征；根据感兴趣区域检测特征以及每一对象类别的对象支持特征，得到预测框回归坐标以及预测框回归坐标对应的类别得分；最后基于预测框回归坐标以及预测框回归坐标对应的类别得分，确定货架图像的商品检测结果。在确定感兴趣区域检测特征以及对象支持特征获取预测框回归坐标以及预测框回归坐标对应的类别得分时，具体可以根据所述感兴趣区域检测特征以及所述每一所述对象类别的对象支持特征，确定预测框回归坐标以及不同预测框回归坐标所对应预测框之间的距离；通过感兴趣区域检测头中的对比头对预测框之间的距离进行处理，以缩小相同类别的预测框之间的距离，并增大不同类别的预测框之间的距离；基于处理后的预测框之间的距离，得到各个预测框回归坐标对应的类别得分。此外方法还包含模型训练的过程，对于对象定位网络，具体可以获取携带有商品定位标注的货架图像以及初始区域生成网络，初始区域生成网络包括分类置信度分支；将初始区域生成网络的分类置信度分支替换为定位置信度分支；根据分支替换后的初始区域生成网络构建初始对象定位网络；再通过携带有商品定位标注的货架图像对初始对象定位网络进行训练，得到对象定位网络。而对于类别检测网络，则可以获取携带有商品类别标注和商品定位标注的基础类别货架样本图像、携带有商品类别标注和商品定位标注的新增类别货架样本图像以及预训练类别检测网络；再将预训练类别检测网络中的感兴趣区域检测头的定位置信度分支替换为分类置信度分支；通过携带有商品类别标注和商品定位标注的基础类别货架样本图像、和携带有商品类别标注和商品定位标注的新增类别货架样本图像对分支替换后的感兴趣区域检测头进行参数调整，得到类别检测网络。服务器获得货架图像的商品检测结果后，可以根据用户填入的数据，获得预设铺市目标信息。而后通过对比货架商品检测结果以及预设铺市目标信息，得到货架图像对应的货架铺市达标信息，再将货架铺市达标信息反馈给铺市工作人员的终端，铺市工作人员可以根据货架铺市达标信息进行货架补货。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的图像中的对象检测方法的图像中的对象检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图像中的对象检测装置实施例中的具体限定可以参见上文中对于图像中的对象检测方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种图像中的对象检测装置，包括：对象定位模块1102、特征获取模块1104和类别检测模块1106，其中：

对象定位模块1102，用于基于对象定位网络，对目标图像进行对象定位，识别目标图像中的对象定位区域；对象定位网络，是基于携带有对象定位标注的历史样本图像训练得到的网络，历史样本图像为包含基础类别的对象的图像。

特征获取模块1104，用于基于包括历史样本图像和新增样本图像的更新样本图像，确定更新样本图像中所包含对象类别的对象支持特征；新增样本图像为包含新增类别的对象的图像。

类别检测模块1106，用于按照每一对象定位区域各自对应的对象特征、以及每一对象类别的对象支持特征，基于类别检测网络，对对象定位区域中的对象进行类别检测处理，得到目标图像的对象检测结果。其中，类别检测网络，是基于更新样本图像对预训练类别检测网络进行参数调整得到的网络；更新样本图像，携带有对象类别标注和对象定位标注。

在一个实施例中，对象定位网络包括区域生成网络以及感兴趣区域定位头；对象定位模块1102具体用于：通过区域生成网络，得到目标图像中的定位候选框，通过区域生成网络的定位置信度分支，得到定位候选框对应的定位置信度分数；基于定位置信度分数对定位候选框进行筛选；通过感兴趣区域定位头对筛选后的定位候选框进行对象定位处理，确定目标图像中的对象定位区域。

在一个实施例中，还包括定位网络训练模块，用于：获取携带有对象定位标注的基础类别样本图像以及初始区域生成网络，初始区域生成网络包括分类置信度分支；将初始区域生成网络的分类置信度分支替换为定位置信度分支；根据分支替换后的初始区域生成网络构建初始对象定位网络；通过携带有对象定位标注的基础类别样本图像对初始对象定位网络进行训练，得到对象定位网络。

在一个实施例中，类别检测网络包括感兴趣区域检测头，类别检测模块1106具体用于：基于每一对象定位区域各自对应的对象特征，通过感兴趣区域检测头对对象定位区域进行检测，得到感兴趣区域检测特征；根据感兴趣区域检测特征以及每一对象类别的对象支持特征，得到预测框回归坐标以及预测框回归坐标对应的类别得分；基于预测框回归坐标以及预测框回归坐标对应的类别得分，确定目标图像的对象检测结果。

在一个实施例中，类别检测模块1106还用于：根据感兴趣区域检测特征以及每一对象类别的对象支持特征，确定预测框回归坐标以及不同预测框回归坐标所对应预测框之间的距离；通过感兴趣区域检测头中的对比头对预测框之间的距离进行处理，以缩小相同类别的预测框之间的距离，并增大不同类别的预测框之间的距离；基于处理后的预测框之间的距离，得到各个预测框回归坐标对应的类别得分。

在一个实施例中，还包括类别检测网络训练模块，用于：获取携带有对象类别标注和对象定位标注的基础类别样本图像、携带有对象类别标注和对象定位标注的新增类别样本图像以及预训练类别检测网络；将预训练类别检测网络中的感兴趣区域检测头的定位置信度分支替换为分类置信度分支；通过携带有对象类别标注和对象定位标注的基础类别样本图像，和携带有对象类别标注和对象定位标注的新增类别样本图像对分支替换后的感兴趣区域检测头进行参数调整，得到类别检测网络。

在一个实施例中，还包括支持特征提取模块，用于：获取包括历史样本图像和新增样本图像的更新样本图像，更新样本图像携带有类别标注；提取更新样本图像的多尺度特征；根据类别标注，对同一类别更新样本图像的多尺度特征进行取平均操作，得到对象支持特征。

在一个实施例中，目标图像包括货架图像，目标图像的对象检测结果包括货架商品检测结果；还包括铺市信息反馈模块，用于：对比货架商品检测结果以及预设铺市目标信息，得到货架图像对应的货架铺市达标信息，预设铺市目标信息为货架图像对应货架的铺市目标信息；反馈货架铺市达标信息。

上述图像中的对象检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标检测相关的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像中的对象检测方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图像中的对象检测方法，其特征在于，所述方法包括：

基于对象定位网络，对目标图像进行对象定位，识别所述目标图像中每个对象的位置，得到对象定位区域；所述对象定位网络，是基于携带有对象定位标注的历史样本图像训练得到的网络，所述历史样本图像为包含基础类别的对象的图像；

获取包括所述历史样本图像和新增样本图像的更新样本图像，所述更新样本图像携带有类别标注，所述新增样本图像为包含新增类别的对象的图像；

提取所述更新样本图像的多尺度特征；

根据所述类别标注，对同一类别更新样本图像的多尺度特征进行取平均操作，得到对象支持特征；

按照每一所述对象定位区域各自对应的对象特征、以及每一对象类别的对象支持特征，基于类别检测网络，对所述对象定位区域中的对象进行类别检测处理，确定所述对象定位区域内的对象所属的基础类别或新增类别，得到所述目标图像的对象检测结果；

2.根据权利要求1所述的方法，其特征在于，所述对象定位网络包括区域生成网络以及感兴趣区域定位头；所述基于对象定位网络，对目标图像进行对象定位，识别所述目标图像中每个对象的位置，得到对象定位区域包括：

通过所述区域生成网络，得到所述目标图像中的定位候选框，通过所述区域生成网络的定位置信度分支，得到所述定位候选框对应的定位置信度分数；

基于所述定位置信度分数对所述定位候选框进行筛选；

通过所述感兴趣区域定位头对筛选后的所述定位候选框进行对象定位处理，确定所述目标图像中每个对象的位置，得到对象定位区域。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取携带有对象定位标注的基础类别样本图像以及初始区域生成网络，所述初始区域生成网络包括分类置信度分支；

将所述初始区域生成网络的分类置信度分支替换为定位置信度分支；

根据分支替换后的所述初始区域生成网络构建初始对象定位网络；

通过所述携带有对象定位标注的基础类别样本图像对所述初始对象定位网络进行训练，得到对象定位网络。

4.根据权利要求1所述的方法，其特征在于，所述类别检测网络包括感兴趣区域检测头；

所述按照每一所述对象定位区域各自对应的对象特征、以及每一对象类别的对象支持特征，基于类别检测网络，对所述对象定位区域中的对象进行类别检测处理，得到所述目标图像的对象检测结果包括：

基于每一所述对象定位区域各自对应的对象特征，通过感兴趣区域检测头对所述对象定位区域进行检测，得到感兴趣区域检测特征；

根据所述感兴趣区域检测特征以及所述每一对象类别的对象支持特征，得到预测框回归坐标以及所述预测框回归坐标对应的类别得分；

基于所述预测框回归坐标以及所述预测框回归坐标对应的类别得分，确定所述目标图像的对象检测结果。

5.根据权利要求4所述的方法，其特征在于，所述根据所述感兴趣区域检测特征以及所述每一对象类别的对象支持特征，得到预测框回归坐标以及所述预测框回归坐标对应的类别得分包括：

根据所述感兴趣区域检测特征以及所述每一对象类别的对象支持特征，确定预测框回归坐标以及不同预测框回归坐标所对应预测框之间的距离；

通过所述感兴趣区域检测头中的对比头对所述预测框之间的距离进行处理，所述对比头用于缩小相同类别的预测框之间的距离，并增大不同类别的预测框之间的距离；

基于处理后的预测框之间的距离，得到各个预测框回归坐标对应的类别得分。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取携带有对象类别标注和对象定位标注的基础类别样本图像、携带有对象类别标注和对象定位标注的新增类别样本图像以及预训练类别检测网络；

将所述预训练类别检测网络中的感兴趣区域检测头的定位置信度分支替换为分类置信度分支；

通过所述携带有对象类别标注和对象定位标注的基础类别样本图像，和携带有对象类别标注和对象定位标注的新增类别样本图像对分支替换后的所述感兴趣区域检测头进行参数调整，得到类别检测网络。

7.根据权利要求1-6任意一项所述的方法，其特征在于，所述目标图像包括货架图像，所述目标图像的对象检测结果包括货架商品检测结果；

所述得到所述目标图像的对象检测结果之后还包括：

对比所述货架商品检测结果以及预设铺市目标信息，得到所述货架图像对应的货架铺市达标信息，所述预设铺市目标信息为所述货架图像对应货架的铺市目标信息；

反馈所述货架铺市达标信息。

8.一种图像中的对象检测装置，其特征在于，所述装置包括：

对象定位模块，用于基于对象定位网络，对目标图像进行对象定位，识别所述目标图像中每个对象的位置，得到对象定位区域；所述对象定位网络，是基于携带有对象定位标注的历史样本图像训练得到的网络，所述历史样本图像为包含基础类别的对象的图像；

特征获取模块，用于获取包括所述历史样本图像和新增样本图像的更新样本图像，所述更新样本图像携带有类别标注，所述新增样本图像为包含新增类别的对象的图像；提取所述更新样本图像的多尺度特征；根据所述类别标注，对同一类别更新样本图像的多尺度特征进行取平均操作，得到对象支持特征；

类别检测模块，用于按照每一所述对象定位区域各自对应的对象特征、以及每一对象类别的对象支持特征，基于类别检测网络，对所述对象定位区域中的对象进行类别检测处理，确定所述对象定位区域内的对象所属的基础类别或新增类别，得到所述目标图像的对象检测结果；

9.根据权利要求8所述的装置，其特征在于，所述对象定位网络包括区域生成网络以及感兴趣区域定位头；所述对象定位模块具体用于：通过所述区域生成网络，得到所述目标图像中的定位候选框，通过所述区域生成网络的定位置信度分支，得到所述定位候选框对应的定位置信度分数；基于所述定位置信度分数对所述定位候选框进行筛选；通过所述感兴趣区域定位头对筛选后的所述定位候选框进行对象定位处理，确定所述目标图像中每个对象的位置，得到对象定位区域。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括定位网络训练模块，用于：获取携带有对象定位标注的基础类别样本图像以及初始区域生成网络，所述初始区域生成网络包括分类置信度分支；将所述初始区域生成网络的分类置信度分支替换为定位置信度分支；根据分支替换后的所述初始区域生成网络构建初始对象定位网络；通过所述携带有对象定位标注的基础类别样本图像对所述初始对象定位网络进行训练，得到对象定位网络。

11.根据权利要求8所述的装置，其特征在于，所述类别检测网络包括感兴趣区域检测头；所述类别检测模块具体用于：基于每一所述对象定位区域各自对应的对象特征，通过感兴趣区域检测头对所述对象定位区域进行检测，得到感兴趣区域检测特征；根据所述感兴趣区域检测特征以及所述每一对象类别的对象支持特征，得到预测框回归坐标以及所述预测框回归坐标对应的类别得分；基于所述预测框回归坐标以及所述预测框回归坐标对应的类别得分，确定所述目标图像的对象检测结果。

12.根据权利要求11所述的装置，其特征在于，所述类别检测模块还用于：根据所述感兴趣区域检测特征以及所述每一对象类别的对象支持特征，确定预测框回归坐标以及不同预测框回归坐标所对应预测框之间的距离；通过所述感兴趣区域检测头中的对比头对所述预测框之间的距离进行处理，所述对比头用于缩小相同类别的预测框之间的距离，并增大不同类别的预测框之间的距离；基于处理后的预测框之间的距离，得到各个预测框回归坐标对应的类别得分。

13.根据权利要求8所述的装置，其特征在于，所述装置还包括类别检测网络训练模块，用于：获取携带有对象类别标注和对象定位标注的基础类别样本图像、携带有对象类别标注和对象定位标注的新增类别样本图像以及预训练类别检测网络；将所述预训练类别检测网络中的感兴趣区域检测头的定位置信度分支替换为分类置信度分支；通过所述携带有对象类别标注和对象定位标注的基础类别样本图像，和携带有对象类别标注和对象定位标注的新增类别样本图像对分支替换后的所述感兴趣区域检测头进行参数调整，得到类别检测网络。

14.根据权利要求8-13任意一项所述的装置，其特征在于，所述目标图像包括货架图像，所述目标图像的对象检测结果包括货架商品检测结果；所述装置还包括铺市信息反馈模块，用于：对比所述货架商品检测结果以及预设铺市目标信息，得到所述货架图像对应的货架铺市达标信息，所述预设铺市目标信息为所述货架图像对应货架的铺市目标信息；反馈所述货架铺市达标信息。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

17.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。