CN114332586A

CN114332586A - 小目标检测方法及其装置、设备、介质、产品

Info

Publication number: CN114332586A
Application number: CN202111591509.4A
Authority: CN
Inventors: 兴百桥
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-12

Abstract

本申请公开一种小目标检测方法及其装置、设备、介质、产品，所述方法包括：获取待检测的广告图片；采用已训练至收敛的目标检测模型对所述广告图片进行目标检测，根据检测结果截取所述广告图片中的目标区域图像；接着采用已训练至收敛的、添加了可抑制弱神经元的分类头的图像识别模型针对所述广告图片及所述目标区域图像分别进行图像识别，获得相应的识别结果组合构成小目标识别序列；最后辨识实例应用场景的实际需求，根据所述实际需求从所述小目标识别序列中获取最终概率值，进行最终判别，输出结果。本申请能对构成上述模型训练集的相关图片进行高效筛选和数据增强，以便用于训练相关模型，使相关模型更精准，具有广泛适应性。

Description

小目标检测方法及其装置、设备、介质、产品

技术领域

本申请涉及图像检测技术领域，尤其涉及一种小目标检测方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

随着技术的快速发展，采用人工神经网络模型进行目标检测已是技术主流。对于电商平台之类的应用场景来说，每天都会产生海量的广告图片。由于风控制度的影响，在电商平台上发布广告消息必须符合相关规定。出于电商平台对广告图片中敏感物品的有关限制，如香烟等，一般都需要对用户上传的广告图片中的目标检测和识别，然后做进一步的处理。

对于电商平台这样的应用场景而言，如果商家上传的用于展示广告信息的广告图片中包含小目标敏感物品等，目前主要的做法是进行人工排查，其耗时耗力、且易因人工疲劳和目标小导致漏检误检问题。其次，现存的目标识别模型和目标检测模型在相关应用实例中的应用也都存在着误检率高或漏检率高的问题，尤其在小目标的检测和识别问题上。这对于电商平台而言，会导致用户发布的符合相关规定的广告被误检为具有敏感物品、或用户发布的不符合相关规定的广告被漏检为正常的，这都将为电商平台造成很大的困扰。

此外，完全依靠人工排查更是不现实的，其耗费时间长。如今，电商平台上的商品快速迭代，其对应的广告信息亦如此，因此要求电商用户需满足在短时间内迅速更新广告信息，方能在电商市场中争夺销售份额。

因此，如何准确高效地从包含了各类敏感物品的待检测的广告图片中识别出小目标物品，使识别结果更精确，成为本领域需要解决的技术问题。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种小目标检测方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。

为满足本申请的各个目的，本申请采用如下技术方案：

一种小目标检测方法，包括如下操作：获取待检测的广告图片；

采用已训练至收敛的目标检测模型对所述广告图片进行目标检测，获得目标区域图像；

采用已训练至收敛的、添加了可抑制弱神经元的分类头的图像识别模型针对所述广告图片和目标区域图像进行图像识别，获得小目标识别序列；

采用所述小目标识别序列针对特定实例场景的预设条件输出相对应的小目标识别结果。

深化的实施例中，获取待检测的广告图片，包括如下步骤：

响应用户触发的广告发布请求，获取其相对应提交的广告发布信息，所述广告发布信息包含广告图片；

从所述广告发布信息中获取其中的广告图片。

深化的实施例中，采用已训练至收敛的目标检测模型对所述广告图片进行目标检测，获得目标区域图像，包括如下步骤：

采用卷积主干网络针对所述广告图片进行特征提取，获得多层不同尺度的特征图；

采用区域生成网络针对所述多层不同尺度的特征图生成多个候选感兴趣区域，然后进行感兴趣区域对齐操作；

采用头部网络针对经感兴趣区域对齐后的特征图进行三个分支处理，即边界框回归处理、识别处理和掩码图预测，获得检测结果；

根据所述检测结果，截取所述广告图片中的目标区域，获得相对应的目标区域图像。

深化的实施例中，采用已训练至收敛的、添加了可抑制弱神经元的分类头的图像识别模型针对所述广告图片和目标区域图像进行图像识别，获得小目标识别序列，包括如下步骤：

针对输入图像进行图像块嵌入，获得多个图像块向量，同时增加一个分类向量，构成多个嵌入向量；

针对所述多个嵌入向量添加位置编码向量构成输入向量，所述位置编码向量可保持图像块之间的空间位置信息；

针对上述输入向量堆叠多个编码模块进行特征提取，所述编码模块中包括多头注意力和多层感知机；

采用普通分类头针对最后得到的深度分类向量作进一步的分类空间变换，同时采用新增分类头抑制弱神经元针对深度分类向量进行分类空间变换，得到两个分类概率；

针对所述广告图片及所述目标区域图像分别进行上述步骤操作，获得相对应的多个识别结果，构成所述广告图片的小目标识别序列。

深化的实施例中，采用所述小目标识别序列针对特定实例场景的预设条件输出相对应的小目标识别结果，包括如下步骤：

针对所述小目标识别序列进行排序，获取其最大值与最小值；

辨识实例应用场景的实际需求，在高准确场景下以最小值作为所述广告图片是否包含所述小目标物品的概率值，在高召回场景下以最大值作为所述广告图片是否包含所述小目标物品的概率值；

比较所述概率值与预设阈值的大小，当所述概率值大于预设阈值时，判定所述广告图片包含所述小目标物品，否则判定不包含所述小目标物品。

较佳的实施例中，所述目标检测模型为Mask-RCNN模型，所述图像识别模型为添加了可抑制弱神经元的分类头的ViT模型，所述目标检测模型的基础网络架构为Mask-RCNN模型，所述图像识别模型的基础网络架构为添加了可抑制弱神经元的分类头的ViT模型，所述目标物品为香烟。

适应本申请的目的之一而提供的一种小目标检测装置，包括图像获取模块、目标检测模块、图像识别模块以及目标判别模块，其中，所述图像获取模块，用于从所述广告发布信息中获取其中的广告图片；所述目标检测模块，被配置为采用已训练至收敛的目标检测模型对所述广告图片进行目标检测，获得目标区域图像；所述图像识别模块，被配置为采用已训练至收敛的、添加了可抑制弱神经元的分类头的图像识别模型针对所述广告图片和目标区域图像进行图像识别，获得小目标识别序列；所述目标判别模块，用于采用所述小目标识别序列针对特定实例场景的预设条件输出相对应的小目标识别结果。

深化的实施例中，所述图像获取模块，包括：响应子模块，用于响应用户触发的广告发布请求，获取其相对应提交的广告发布信息，所述广告发布信息包含广告图片；获取子模块；用于从所述广告发布信息中获取其中的广告图片，用于识别其小目标物品的待检测图片。

深化的实例中，所述目标检测模块，包括：卷积主干子模块，采用卷积主干网络针对所述广告图片进行特征提取，获得多层不同尺度的特征图；感兴趣区域子模块，采用区域生成网络针对所述多层不同尺度的特征图生成多个候选感兴趣区域，然后进行感兴趣区域对齐操作；检测子模块，采用头部网络针对经感兴趣区域对齐后的特征图进行三个分支处理，即边界框回归处理、识别处理和掩码图预测，获得检测结果；截取子模块，用于根据所述检测结果，截取所述广告图片中的目标区域，获得相对应的目标区域图像。

深化的实例中，所述图像识别模块，包括嵌入子模块，用于针对输入图像进行图像块嵌入，获得多个图像块向量，同时增加一个分类向量，构成多个嵌入向量；位置编码子模块，用于针对所述多个嵌入向量添加位置编码向量构成输入向量，所述位置编码向量可保持图像块之间的空间位置信息；特征提取子模块，用于针对上述输入向量堆叠多个编码模块进行特征提取，所述编码模块中包括多头注意力和多层感知机；分类子模块，采用普通分类头针对最后得到的深度分类向量作进一步的分类空间变换，同时采用新增分类头抑制弱神经元针对深度分类向量进行分类空间变换，得到两个分类概率；序列生成子模块，针对所述广告图片及所述目标区域图像分别进行上述步骤操作，获得相对应的多个识别结果，构成所述广告图片的小目标识别序列。

深化的实例中，所述目标判别模块，包括：排序子模块，用于针对所述小目标识别序列进行排序，获取其最大值与最小值；概率值计算子模块，用于辨识实例应用场景的实际需求，在高准确场景下以最小值作为所述广告图片是否包含所述小目标物品的概率值，在高召回场景下以最大值作为所述广告图片是否包含所述小目标物品的概率值；判别子模块，用于比较所述概率值与预设阈值的大小，当所述概率值大于预设阈值时，判定所述广告图片包含所述小目标物品，否则判定不包含所述小目标物品。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的小目标检测方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的小目标检测方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请的优势如下：

本申请获取待检测的广告图片；采用已训练至收敛的目标检测模型对所述广告图片进行目标检测，根据检测结果截取所述广告图片中的目标区域图像；接着采用已训练至收敛的、添加了可抑制弱神经元的分类头的图像识别模型针对所述广告图片及所述目标区域图像分别进行图像识别，进而获得相应的识别结果，将所述识别结果组合构成小目标识别序列，该序列反映所述广告图片中包含小目标物品的多个概率值；最后辨识实例应用场景的实际需求，根据所述实际需求从所述小目标识别序列中获取预设条件下的概率值作为广告图片是否包含小目标物品的最终概率值，进行最终判别，输出结果。

本申请采用检测、识别和场景条件的加强式检测，同时采用添加了可抑制弱神经元的分类头的图像识别模型进行小目标物品的识别。一方面，图像识别模型中添加了的分类头利用动态激活神经元的方法抑制住了弱神经元对分类空间变换的干扰，实现小目标不同类别间特征的解耦，最终提高小目标物品识别的准确率；另一方面，加强式检测通过层级条件限制能够更大程度地提高小目标物品识别的准确率，解决电商平台实例应用场景中高准确和高召回的业务需求。最终助力电商平台更有效的排除违反相关规定的广告图片，同时大力减少时间成本和人工成本。

综上所述，本申请对广告图片中是否包含小目标物品所做出的判决结果具有更高可置信度，可被高度信赖，适于电商平台之类的应用场景中对广告图片等是否存在敏感性的目标物品进行检测。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的小目标检测方法的典型实施例的流程示意图；

图2为本申请实施例中针对广告图片进行目标检测的流程示意图；

图3为本申请实施例中针对输入图像进行图像识别的流程示意图；

图4为本申请实施例中普通分类头和新增分类头的结构示意图；

图5为本申请实施例中针对实例场景输出小目标识别结果的流程示意图；

图6为本申请的小目标检测装置的原理框图；

图7为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种小目标检测方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，藉此可以通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。

请参阅图1，本申请的小目标检测方法在其典型实施例中，包括如下步骤：

步骤S1100、获取待检测的广告图片；

本申请用于辅助说明的一个示例性应用场景中，所述待检测的广告图片可以是电商平台中包含物品的广告图片，所述图片中展示的物品一般是非敏感物品，而本申请的实施，在于从广告图片中识别出敏感物品，即预先设定的、具有敏感性的小目标物品，如香烟等；因此需要在广告图片中识别出是否包含小敏感物品，以做进一步处理。

所述小目标物品一般指的是目标物品在图片中的成像尺寸属性，即所述目标物品在图片中所占的像素面积较小。据国际相关领域的权威组织SPIE(International Societyfor Optical Engineering)的定义，所述小目标物品指的是在256*256图像中目标物品的面积小于80个像素值的物品，即小于256*256的0.12％的目标即为小目标。在本申请实施例中，所述小目标物品是为电商平台的广告图片中出现的较小的目标物品，如香烟等，所述目标物品在图像中的面积比例一般小于所述图像面积的0.12％，由该领域的相关技术人员可知，在不同的场景图像中，目标物品的图像面积比例不一，如特写图像等；因此，所述图像应为一般情况下的场景图片。

在所述电商平台的应用场景中，如需获取待检测图片，一种实施方式是接收电商平台用户的输入，特别是商家实例用户配置广告信息时的输入，将广告信息中的广告图片作为所述的待检测图片；另一种方式中，所述电商平台的服务器可以在后台批量地处理电商平台数据库中的广告图片，将这些广告图片作为所述的待检测图片进行目标检测。

步骤S1200、采用已训练至收敛的目标检测模型对所述广告图片进行目标检测，获得目标区域图像；

所述目标检测模型是以广告图片为输入，以所述目标物品标签及其指示所述目标区域图像位置的边界框为输出的模型。

所述目标检测模型为优选神经网络模型实现，例如，在本申请实施例中，所述目标检测模型为已训练至收敛的Mask-RCNN。可替换的，所述神经网络模型可选用多种现有技术中比较优秀的目标检测模型，包括但不限于：YOLO系列模型、其他R-CNN系列模型，SSD模型、DETR等，诸如此类，均为成熟的目标检测模型。

本实施例中，所述已训练至收敛的目标检测模型包括三个网络构件，第一个网络构件为卷积主干网络，所述卷积主干网络用于针对所述广告图片进行特征提取，获得多层不同尺度的特征图；第二个网络构件为区域生成网络,所述区域生成网络用于对所述多层不同尺度的特征图生成多个候选感兴趣区域，然后进行感兴趣区域对齐操作；第三个网络构件为头部网络，所述头部网络用于针对经感兴趣区域对齐后的特征图进行三个分支处理，即边界框回归处理、识别处理和掩码图预测，获得检测结果。

所述检测结果中包括指示所述广告图片中目标物品所在区域的边界框，根据所述边界框截取所述广告图片中其指示的目标区域，获得相对应的目标区域图像。所述边界框数量根据实际场景应用中检测的结果而定，可能没有、可能有一个或多个，相对应的，所述目标区域图像的数量与所述边界框数量一致。将所述广告图片和所述目标区域图像输出到下一步骤中做进一步处理。

步骤S1300、采用已训练至收敛的、添加了可抑制弱神经元的分类头的图像识别模型针对所述广告图片和目标区域图像进行图像识别，获得小目标识别序列；

所述图像识别模型是以所述广告图片或所述目标区域图像为输入，以包含目标物品的概率值为输出的模型。

在本申请实施例中，所述图像识别模型为已训练至收敛的、添加了可抑制弱神经元的分类头的ViT。所述图像识别模型为优选神经网络模型实现，可替换的，所述神经网络模型可选用多种现有技术中比较优秀的图像识别模型，包括但不限于：VGG系列模型、Inception系列模型，ResNet系列模型、EfficientNet系列模型、HRNet等，诸如此类，均为成熟的图像识别模型，只要添加了所述可抑制弱神经元的分类头的、采用足量的相应训练样本对其实施训练至收敛，均可用做本申请的图像识别模型。

所述图像识别模型中包括三个构件，第一个构件为嵌入构件，用于针对输入图像进行图像块嵌入，获得多个图像块向量，同时增加一个分类向量，构成多个嵌入向量，接着针对所述多个嵌入向量添加位置编码向量构成输入向量。所述位置编码向量可保持图像块之间的空间位置信息；第二构件为特征提取构件，用于针对上述输入向量堆叠多个编码模块进行特征提取，所述编码模块中包括多头注意力和多层感知机；第三个构件为分类构件，被配置为采用普通分类头针对最后得到的深度分类向量作进一步的分类空间变换，同时采用新增分类头抑制弱神经元针对深度分类向量进行分类空间变换，得到两个分类概率；

使用所述图像识别模型针对所述广告图片以及上一步骤获得的所述目标区域图像分别进行上述的图像识别操作，获得相对应的多个识别结果，即每一个输入图像相对应的生成一个识别结果，即是否包含目标物品的概率值，由此构成所述广告图片的目标识别序列。

步骤S1400、采用所述小目标识别序列针对特定实例场景的预设条件输出相对应的小目标识别结果；

所述目标识别序列中包括针对所述广告图片中是否包含目标物品的多个概率值，针对所述小目标识别序列进行排序，获取其最大值与最小值；然后辨识实例应用场景的实际需求，在高准确场景下以最小值作为所述广告图片是否包含所述小目标物品的概率值，在高召回场景下以最大值作为所述广告图片是否包含所述小目标物品的概率值；最后比较所述概率值与预设阈值的大小，当所述概率值大于预设阈值时，判定所述广告图片包含所述小目标物品，否则判定不包含所述小目标物品。

概括而言，本典型实施例显示，本申请获取待检测的广告图片；采用已训练至收敛的目标检测模型对所述广告图片进行目标检测，根据检测结果截取所述广告图片中的目标区域图像；接着采用已训练至收敛的、添加了可抑制弱神经元的分类头的图像识别模型针对所述广告图片及所述目标区域图像分别进行图像识别，进而获得相应的识别结果，将所述识别结果组合构成小目标识别序列，该序列反映所述广告图片中包含小目标物品的多个概率值；最后辨识实例应用场景的实际需求，根据所述实际需求从所述小目标识别序列中获取预设条件下的概率值作为广告图片是否包含小目标物品的最终概率值，进行最终判别，输出结果。

综上所述，本申请对广告图片中是否包含小目标物品所做出的判决结果具有更高可置信度，可被高度信赖，适于电商平台之类的应用场景中对广告图片等是否存在敏感性的小目标物品进行检测。

请参阅图2，深化的实施例中，所述步骤S1200、采用已训练至收敛的目标检测模型对所述广告图片进行目标检测，获得目标区域图像，包括如下步骤：

步骤S1210、采用卷积主干网络针对所述广告图片进行特征提取，获得多层不同尺度的特征图；

所述卷积主干网络采用ResNet-FPN的结构，具体包括两个部分，第一个部分以ResNet-101作为骨架网络自下而上进行特征提取，第二个以FPN结构，即特征金字塔网络自上而下传递强语义信息。ResNet-FPN可将各个层级的特征进行融合，使其同时具有强语义信息和强空间信息，从而增强所述不同尺度特征图上的语义表达和位置表达。

所述ResNet-101骨架网络对所述广告图片进行特征提取，根据提取的特征图的大小可分为5个阶段，其中阶段1、阶段2、阶段3、阶段4、阶段5输出的特征层定义为C1、C2、C3、C4、C5。

所述FPN结构采用具有横向连接的自顶向下结构，融合浅层到深层的各层特征图，充分利用各个阶段的语义特征和位置特征。所述FPN结构从所述骨架网络最上层C5经1*1卷积得到预设通道数的特征层P5；再针对所述P5进行上采样，得到特征层一，所述特征层一与特征层C4的分辨率一致；下一层特征层C4经1*1卷积得到预设通道数的特征层二；所述所述特征层一与所述特征层二相加融合得到特征层P4；以此类推，由特征层C5、C4、C3、C2得到特征层P5、P4、P3、P2。此外，P5做进一步特征提取，得到特征层P6。所述P2-P6用于区域生成网络构件、所述P2-P5用于头部网络构件。

通过上采样得到的更大的尺寸的特征图是缺少边缘细节信息的，通过池化操作得到的特征图也必然会损失一些边缘特征。所述ResNet-FPN同时利用浅层特征图的高分辨率和深层特征图的高语义信息，融合这些不同层的特征图相当于融合强语义信息和强边缘信息，从而提高特征提取的效果。

步骤S1220、采用区域生成网络针对所述多层不同尺度的特征图生成多个候选感兴趣区域，然后进行感兴趣区域对齐操作；

所述区域生成网络采用滑动窗口逐一滑动所述P2-P6四个特征图，在每个滑动窗口的点上初始化参考区域；即根据滑动窗口的坐标计算相应的每个基础锚框的具体坐标；在每个特征层上生成1k个基础锚框。针对每个基础锚框，生成两个置信度，一个为前景置信度，一个为后景置信度；同时生成4个坐标偏差回归值。

所述感兴趣区域对齐操作RolAlign是对感兴趣区域池化RolPool的改进；所述RolPool从特征图还原到原图规格大小时采用两次取整操作，这将导致多个像素点的偏差结果；而RolAlign直接取消取整操作，通过双线性插值得到固定四个点坐标的像素值，减少还原误差。

所述区域生成网络，可生成多个候选感兴趣区域，配备RolAlign，可实现感兴趣区域的对齐操作。

步骤S1230、采用头部网络针对经感兴趣区域对齐后的特征图进行三个分支处理，即边界框回归处理、识别处理和掩码图预测，获得检测结果。

采用头部网络针对上述经感兴趣区域对齐后的特征图进行最终的检测，该检测分为三个分支，其中边界框回归处理分支和识别处理分支采用卷积深度为1024的卷积层代替全连接层而进行预测，可更充分的利用特征信息；掩码图预测分支则通过全卷积网络FCN(Fully Convolution Network)进行，实现语义分割。每个ROI的掩码图有80类，可减弱类别间的竞争，从而获得更好的效果。

因此，头部网络的检测结果中包括，目标物品的置信度，及其指示的目标区域图像的边界框和掩码图。

步骤S1240、根据所述检测结果，截取所述广告图片中的目标区域，获得相对应的目标区域图像。

所述检测结果中包括指示广告图片中包含目标物品的目标区域图像的边界框、掩码图及其置信度。在本申请实施例中，只调用检测结果中的边界框信息。根据边界框信息指示的目标区域图像位置，从广告图片中截取出来，即获得相同数量得目标区域图像，所述数量在实例应用场景中可为0个、1个、或多个，具体数值由实例应用中所得。

将所述目标区域图像和所述广告图片一同输出到步骤S1300中做进一步处理。

综上所述，所述目标检测模型采用Mask-RCNN模型，使用ResNet-FPN结构，同时融合深层特征的强语义信息和浅层特征的强边缘信息；在感兴趣区域生成中采用RolAlign操作实现像素对齐，以减少边界框的位置偏差估计；进而有效地增强目标的检测效果。

请参阅图3，深化的实例中，所述步骤S1300、采用已训练至收敛的、添加了可抑制弱神经元的分类头的图像识别模型针对所述广告图片和目标区域图像进行图像识别，获得小目标识别序列，包括如下步骤：

步骤S1310、针对输入图像进行图像块嵌入，获得多个图像块向量，同时增加一个分类向量，构成多个嵌入向量；

所述图像识别模型为添加了可抑制弱神经元的分类头的、已训练至收敛的ViT。所述模型是基于应用于NLP问题的Transformer模型做进一步完善而作用于图像领域的模型。其第一个步骤即将图像领域中的一张张图像转换成自然语言处理中的词结构，该步骤称之为图像块嵌入。具体上，将图片进行标准化处理获得标准尺寸大小的图片，可当成是一个完整的句子；然后将其分割成固定尺寸的小块，称之为Patch，铺平每个小块的像素值即可成为句子当中的一个词。随后，将每一个Patch再经过一个全连接网络压缩成一个一定维度的向量，从而获得多个图像块向量，该过程即为图像块嵌入，称之为Patch Embedding。在本申请的实例应用场景中，所述标准尺寸大小为224*224，Patch的固定尺寸为16*16，向量的维度为768。

在获得多个图像块向量后，再拼接一个相同维度的分类向量，顾名思义，该向量用于模型训练过程中的类别信息学习，所述分类向量为可学习的嵌入向量。

步骤S1320、针对所述多个嵌入向量添加位置编码向量构成输入向量，所述位置编码向量可保持图像块之间的空间位置信息；

由步骤S1310可获得多个嵌入向量，但所述嵌入向量缺少位置信息，即除了分类向量之外其他向量在图片中是有其对应的位置信息的。因此，为了保持输入图像中各个Patch之间的空间位置信息，需要在这多个嵌入向量中添加位置编码向量。具体上，直接采用一维可学习的位置嵌入向量，将所述位置嵌入向量直接与所述嵌入向量相加构成输入向量。

因此，输入图像在此即完成了向量嵌入工作，可放入Transformer中进行训练和特征学习。

步骤S1330、针对上述输入向量堆叠多个编码模块进行特征提取，所述编码模块中包括多头注意力和多层感知机；

针对上述输入向量堆叠多个编码模块，所述编码模块主要包括多头注意力和多层感知机。具体上，编码模块包括两部分，第一部分是层规范化(Layer Norm)->多头注意力(Multi-Head Attention)->Dropout->Short Cut。第二部分为层规范化(Layer Norm)->多层感知机(Multi-Layer Perception)->Dropout->Short Cut。所述多层感知机包括全连接(Linear)->激活函数(GELU)->Dropout->全连接(Linear)->Dropout。

所述层规范化是对单个数据的指定维度进行规范化处理。

所述特征提取使得分类向量能够融合所有图像块的语义特征。

步骤S1340、采用普通分类头针对最后得到的深度分类向量作进一步的分类空间变换，同时采用新增分类头抑制弱神经元针对深度分类向量进行分类空间变换，得到两个分类概率；

请参阅图4，同时采用普通分类头和新增分类头。

经过上述步骤的多个编码模块之后，分类向量已然提取到图像中各个图像块的特征信息。此时采用普通分类头针对最后得到的深度分类向量作进一步的分类空间变换，即层规范化(Layer Norm)->全连接(Linear)输出分类概率；除此之外，同时新增分类头，即在原先的全连接(Linear)后接上一个阈值激活函数，再连接一个全连接输出分类概率，即：全连接(Linear)->阈值激活函数->全连接(Linear)输出分类概率。所述激活函数可动态激活能够表征所述小目标物品特征的强神经元，相反，可抑制干扰所述小目标识别的弱神经元；在本申请的实施例中，判定为强弱神经元的阈值为人为预设，该预设阈值为本领域相关技术人员在实际应用中经过试验分析和经验判断所设。将小于所述阈值的神经元的激活状态置为0，即抑制该神经元；将不小于该阈值的神经元的激活状态置为1，即激活该神经元。紧接着，被激活的神经元接入后续的全连接层中进行分类空间变换，得到其概率值。

该步骤最终获得都指示输入图像是否包含目标物品的两个概率值，即两个分类概率。

步骤S1350、针对所述广告图片及所述目标区域图像分别进行上述步骤操作，获得相对应的多个识别结果，构成所述广告图片的小目标识别序列。

针对所述广告图片及所述目标区域图像，分别进行上述步骤，即图像识别模型的处理，获得相对应的多个分类概率，其中输入的每一张图像对应能够获得两个分类概率。将所述的多个分类概率组合构成一个序列，称为小目标识别序列，即所述广告图片是否包含小目标物品的小目标识别序列，供下一步骤做进一步处理。

综上所述，本申请实施例采用添加了可抑制弱神经元的分类头的ViT作为图像识别模型的网络架构，将图像分成图像块，完成图像块嵌入和位置编码嵌入，进而利用Transformer的强语义特征提取方式提取所述图像的语义特征，最后通过对两个分类头做进一步的分类空间变换实现最后的分类概率预测。所述可抑制弱神经元的分类头能够根据识别任务动态激活能够表征小目标物品深度特征的强神经元，有利于增强所述图像识别模型的泛化能力，使得图像识别的效果显著由于其他图像识别模型，从而获得更好的检测效果。

请参阅图5，在深化的实例中，步骤S1400、采用所述小目标识别序列针对特定实例场景的预设条件输出相对应的小目标识别结果，包括如下步骤：

步骤S1410、针对所述小目标识别序列进行排序，获取其最大值与最小值；

所述小目标识别序列包括多个分类概率，其各个分类概率的值的范围为0到1之间。所述目标识别序列是由对多个输入图像进行图像识别得到的多个概率值直接组成的，其排列是乱序的。因此，首先针对所述目标识别序列进行排序，使其序列中的分类概率从大到小排列。然后获取其最大值和最小值：

Prob_min＝min(VitList)

Prob_max＝max(VitList)

其中，VitList表示小目标识别序列；Prob_min表示小目标识别序列中的最小值；Prob_max表示小目标识别序列中的最大值。

步骤S1420、辨识实例应用场景的实际需求，在高准确场景下以最小值作为所述广告图片是否包含所述小目标物品的概率值，在高召回场景下以最大值作为所述广告图片是否包含所述小目标物品的概率值；

辨识实例应用场景的实际需求，在不同应用场景下，其对检测结果的概率输出不同；具体上，在本申请实施例中，在需要高准确的实例应用场景下，采用小目标识别序列中的最小值作为所述广告图片是否包含所述目标物品的最终概率值；在需要高召回的实例应用场景下，采用小目标识别序列中的最大值作为所述广告图片是否包含所述目标物品的最终概率值。

步骤S1430、比较所述概率值与预设阈值的大小，当所述概率值大于预设阈值时，判定所述广告图片包含所述小目标物品，否则判定不包含所述小目标物品。

根据上一步骤，获得实例应用场景下的概率值，比较所述概率值与预设阈值的大小，如果所述概率值大于预设阈值，则判定广告图片中包含目标物品；如果所述概率值不大于预设阈值，则可判定广告图片中不包含目标人物。在实例应用场景中，可根据判定结果对所述广告图片做进一步的业务处理。

所述预设阈值是判定概率值是否表示所述广告图片包含小目标物品的分界值，该值的设定直接影响判定的准确率，若设置过高，则本不包含小目标物品的广告图片将被判定为包含，若设置过低，则本包含小目标物品的广告图片将判定为不包含；因此，该阈值需由相关技术人员根据试验结果比较、运用先验知识进行设定。综上所述，本申请实施例针对获得的小目标识别序列，根据不同的实例应用场景选择不同的概率值作为所述广告图片是否包含目标物品的最终概率估计值并进行最终判定。所述步骤的实施能够有效提高电商平台在特定应用场景特定业务需求下目标物品识别的准确率，助力电商平台更有效的排除违反相关规定的广告图片。

请参阅图6，适应本申请的目的之一而提供的一种小目标检测装置，包括图像获取模块1100、目标检测模块1200、图像识别模块1300以及目标判别模块1400，其中，所述图像获取模块1100，用于从所述广告发布信息中获取其中的广告图片；所述目标检测模块1200，被配置为采用已训练至收敛的目标检测模型对所述广告图片进行目标检测，获得目标区域图像；所述图像识别模块1300，被配置为采用已训练至收敛的、添加了可抑制弱神经元的分类头的图像识别模型针对所述广告图片和目标区域图像进行图像识别，获得小目标识别序列；所述目标判别模块1400，用于采用所述小目标识别序列针对特定实例场景的预设条件输出相对应的小目标识别结果。

深化的实施例中，所述图像获取模块1100，包括：响应子模块，用于响应用户触发的广告发布请求，获取其相对应提交的广告发布信息，所述广告发布信息包含广告图片；获取子模块；用于从所述广告发布信息中获取其中的广告图片，用于识别其小目标物品的待检测图片。

深化的实例中，所述目标检测模块1200，包括：卷积主干子模块，采用卷积主干网络针对所述广告图片进行特征提取，获得多层不同尺度的特征图；感兴趣区域子模块，采用区域生成网络针对所述多层不同尺度的特征图生成多个候选感兴趣区域，然后进行感兴趣区域对齐操作；检测子模块，采用头部网络针对经感兴趣区域对齐后的特征图进行三个分支处理，即边界框回归处理、识别处理和掩码图预测，获得检测结果；截取子模块，用于根据所述检测结果，截取所述广告图片中的目标区域，获得相对应的目标区域图像。

深化的实例中，所述图像识别模块1300，包括嵌入子模块，用于针对输入图像进行图像块嵌入，获得多个图像块向量，同时增加一个分类向量，构成多个嵌入向量；位置编码子模块，用于针对所述多个嵌入向量添加位置编码向量构成输入向量，所述位置编码向量可保持图像块之间的空间位置信息；特征提取子模块，用于针对上述输入向量堆叠多个编码模块进行特征提取，所述编码模块中包括多头注意力和多层感知机；分类子模块，采用普通分类头针对最后得到的深度分类向量作进一步的分类空间变换，同时采用新增分类头抑制弱神经元针对深度分类向量进行分类空间变换，得到两个分类概率；序列生成子模块，针对所述广告图片及所述目标区域图像分别进行上述步骤操作，获得相对应的多个识别结果，构成所述广告图片的小目标识别序列。

深化的实例中，所述目标判别模块1400，包括：排序子模块，用于针对所述小目标识别序列进行排序，获取其最大值与最小值；概率值计算子模块，用于辨识实例应用场景的实际需求，在高准确场景下以最小值作为所述广告图片是否包含所述小目标物品的概率值，在高召回场景下以最大值作为所述广告图片是否包含所述小目标物品的概率值；判别子模块，用于比较所述概率值与预设阈值的大小，当所述概率值大于预设阈值时，判定所述广告图片包含所述小目标物品，否则判定不包含所述小目标物品。

为解决上述技术问题，本申请实施例还提供计算机设备。如图7所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种小目标检测方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的小目标检测方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图6中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的小目标检测装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的小目标检测方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请采用目标检测模型对广告图片进行目标检测，获得目标区域图像，然后针对所述广告图片和目标区域图像分别进行图像识别，获得目标识别序列，再根据不同的实例应用场景选择不同的概率值作为所述广告图片是否包含目标物品的最终概率估计值进行判定。很大程度地提高目标物品识别的准确率，助力电商平台更有效的排除违反相关规定的广告图片，同时大力减少时间成本和人工成本。

本申请采用检测、识别和场景条件的加强式检测，同时采用添加了可抑制弱神经元的分类头的图像识别模型进行小目标物品的识别。实现小目标不同类别间特征的解耦，同时利用层级条件限制更大程度地提高小目标物品识别的准确率，解决电商平台实例应用场景中高准确和高召回的业务需求。最终助力电商平台更有效的排除违反相关规定的广告图片，同时大力减少时间成本和人工成本

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种小目标检测方法，其特征在于，包括如下步骤：

获取待检测的广告图片；

2.根据权利要求1所述的小目标检测方法，其特征在于，获取待检测的广告图片，包括如下步骤：

从所述广告发布信息中获取其中的广告图片。

3.根据权利要求1所述的小目标检测方法，其特征在于，采用已训练至收敛的目标检测模型对所述广告图片进行目标检测，获得目标区域图像，包括如下步骤：

4.根据权利要求1所述的小目标检测方法，其特征在于，采用已训练至收敛的、添加了可抑制弱神经元的分类头的图像识别模型针对所述广告图片和目标区域图像进行图像识别，获得小目标识别序列，包括如下步骤：

5.根据权利要求1所述的小目标检测方法，其特征在于，采用所述小目标识别序列针对特定实例场景的预设条件输出相对应的小目标识别结果，包括如下步骤：

6.根据权利要求1至5所述的小目标检测方法，其特征在于：所述目标检测模型的基础网络架构为Mask-RCNN模型，所述图像识别模型的基础网络架构为添加了可抑制弱神经元的分类头的ViT模型，所述目标物品为香烟。

7.一种小目标检测装置，其特征在于，包括：

图像获取模块，用于从所述广告发布信息中获取其中的广告图片；

目标检测模块，被配置为采用已训练至收敛的目标检测模型对所述广告图片进行目标检测，获得目标区域图像；

图像识别模块，被配置为采用已训练至收敛的、添加了可抑制弱神经元的分类头的图像识别模型针对所述广告图片和目标区域图像进行图像识别，获得小目标识别序列；

目标判别模块，用于采用所述小目标识别序列针对特定实例场景的预设条件输出相对应的小目标识别结果。

8.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至6中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至6任意一项中所述方法的步骤。