CN112949631A

CN112949631A - 用于目标检测的预训练图片合成方法和装置

Info

Publication number: CN112949631A
Application number: CN202110227613.9A
Authority: CN
Inventors: 张宇; 李杨; 张鸿
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-11
Anticipated expiration: 2041-03-01
Also published as: CN112949631B

Abstract

本发明提供一种用于目标检测的预训练图片合成方法和装置，该用于目标检测的预训练图片合成方法包括：获取带目标位置标注的训练图片，在所述训练图片的目标位置生成至少一个候选框；按照预设算法滤除所述目标位置上重叠的所述候选框，以及聚合相互接近的所述候选框；根据预设单元尺寸对预设算法处理后的所述候选框进行尺寸规范化处理，获得规范化候选框；截取所述训练图片上所述规范化候选框的图片块，合成预训练图片。本发明的用于目标检测的预训练图片合成方法，通过利用带目标位置标注的训练图片选取正样本的候选框，进行候选框的滤除、聚合以及规范化后，可以合成规范的预训练图片，从而提高预训练模型的精确度以及预训练模型的预训练效率。

Description

用于目标检测的预训练图片合成方法和装置

技术领域

本发明涉及图像识别技术领域，具体而言，涉及一种用于目标检测的预训练图片合成方法、装置、计算机设备和可读存储介质。

背景技术

现有的图像识别模型在建立时会通过提前的预训练过程来提高模型建立的效率与稳定性。但是现有的预训练方法需要前置的图像分类过程，该图像分类过程比较费时，导致预训练过程效率较低，从而导致整体的图像识别模型在建立时效率较低。

发明内容

鉴于上述问题，本发明提供了一种用于目标检测的预训练图片合成方法、装置、计算机设备和可读存储介质，以提高预训练模型的精确度以及预训练模型的预训练效率。

为了实现上述目的，本发明采用如下的技术方案：

一种用于目标检测的预训练图片合成方法，包括：

获取带目标位置标注的训练图片，在所述训练图片的目标位置生成至少一个候选框；

按照预设算法滤除所述目标位置上重叠的所述候选框，以及聚合相互接近的所述候选框；

根据预设单元尺寸对预设算法处理后的所述候选框进行尺寸规范化处理，获得规范化候选框；

截取所述训练图片上所述规范化候选框的图片块，合成预训练图片。

优选地，所述的用于目标检测的预训练图片合成方法中，所述按照预设算法滤除所述目标位置上重叠的所述候选框，以及聚合相互接近的所述候选框包括：

计算所述候选框与目标候选框重叠面积的比例值，滤除所述比例值大于预设比例值的所述候选框；

以剩余的所述候选框的中心点作为聚类点，采用层次聚类算法聚合相互接近的多个所述候选框。

优选地，所述的用于目标检测的预训练图片合成方法中，所述比例值的计算算式包括：

式中，A()表示求面积，T_bbox表示目标候选框，R_bbox表示与所述目标候选框重叠的候选框，IoF为重叠的比例值。

优选地，所述的用于目标检测的预训练图片合成方法中，所述根据预设单元尺寸对预设算法处理后的所述候选框进行尺寸规范化处理，获得规范化候选框包括：

确定所述候选框的尺寸小于所述预设单元尺寸时，扩大所述候选框至所述预设单元尺寸；

确定所述候选框的尺寸大于所述预设单元尺寸时，扩大所述候选框至所述预设单元尺寸的整数倍。

优选地，所述的用于目标检测的预训练图片合成方法中，所述规范化候选框的算式包括：

式中，h₂和w₂为规范化候选框的长度和宽度，h₁和w₁为规范化前候选框的长度和宽度，[]为取整运算，G为预设单元尺寸对应的像素值，H和W为所述训练图片的长度和宽度。

优选地，所述的用于目标检测的预训练图片合成方法中，还包括：

确定所述预训练图片的尺寸大于预设尺寸时，根据所述预训练图片的最大边与所述预设尺寸计算出缩放因子；

根据所述缩放因子对所述预训练图片进行缩小处理。

对所述预训练图片进行归一化处理后输入至预设模型，对所述预设模型进行预训练。

本发明还提供一种用于目标检测的预训练图片合成装置，包括：

候选框生成模块，用于获取带目标位置标注的训练图片，在所述训练图片的目标位置生成至少一个候选框；

候选框滤除模块，用于按照预设算法滤除所述目标位置上重叠的所述候选框，以及聚合相互接近的所述候选框；

候选框规范模块，用于根据预设单元尺寸对预设算法处理后的所述候选框进行尺寸规范化处理，获得规范化候选框；

预训练图片合成模块，用于截取所述训练图片上所述规范化候选框的图片块，合成预训练图片。

本发明还提供一种计算机设备，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行所述的用于目标检测的预训练图片合成方法。

本发明还提供一种可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行所述的用于目标检测的预训练图片合成方法。

本发明提供一种用于目标检测的预训练图片合成方法，该用于目标检测的预训练图片合成方法包括：获取带目标位置标注的训练图片，在所述训练图片的目标位置生成至少一个候选框；按照预设算法滤除所述目标位置上重叠的所述候选框，以及聚合相互接近的所述候选框；根据预设单元尺寸对预设算法处理后的所述候选框进行尺寸规范化处理，获得规范化候选框；截取所述训练图片上所述规范化候选框的图片块，合成预训练图片。本发明的用于目标检测的预训练图片合成方法，通过利用带目标位置标注的训练图片选取正样本的候选框，进行候选框的滤除、聚合以及规范化后，可以合成规范的预训练图片，从而提高预训练模型的精确度以及预训练模型的预训练效率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1是本发明实施例1提供的一种用于目标检测的预训练图片合成方法的流程图；

图2是本发明实施例2提供的一种滤除以及聚合候选框的流程图；

图3是本发明实施例3提供的一种规范化处理候选框的流程图；

图4是本发明实施例4提供的一种用于目标检测的预训练图片合成方法的流程图；

图5是本发明实施例4提供的另一种用于目标检测的预训练图片合成方法的流程图；

图6是本发明实施例5提供的一种用于目标检测的预训练图片合成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

实施例1

图1是本发明实施例1提供的一种用于目标检测的预训练图片合成方法的流程图，该方法包括如下步骤：

步骤S11：获取带目标位置标注的训练图片，在所述训练图片的目标位置生成至少一个候选框。

本发明实施例中，上述训练图片来自检测数据集，该检测数据集中包括有大量已经标注好目标位置以及目标信息的训练图片，例如可以在该训练图片中预先标注出的目标为苹果，则训练图片上具有苹果的图片位置信息。其中，上述训练图片中的目标位置标注的过程为前期过程，可以由人工来进行标注工作，也可以使用其它检测项目中产生的检测数据集，这些检测数据集可以用于对新建立的视觉检测模型进行预训练。

本发明实施例中，在训练图片的目标位置上生成至少一个候选框的过程可以利用算法或应用程序来实现，例如可以在计算机设备中设置有生成候选框的应用程序，在获取到带目标位置标注的训练图片后，可以输入至该应用程序中，以便在训练图片目标位置上生成多个候选框。其中，该多个候选框的尺寸可以固定在预设范围内，多个候选框的尺寸并不一定相同，并且每个候选框的中心点与目标位置标注的距离也在一定的预设范围内，因此在目标位置标注上以及附近生成多个不同尺寸以及不同位置的候选框，以便后续筛选出合适的候选框。

步骤S12：按照预设算法滤除所述目标位置上重叠的所述候选框，以及聚合相互接近的所述候选框。

本发明实施例中，上述滤除目标位置上重叠的候选框也即可以以其中一个目标候选框作为目标，滤除与目标候选框重叠较大的其余候选框。而存在多个候选框重叠较小且相互接近时，则可以相互接近的候选框的中心点作为聚类点，聚合相互接近的候选框。

本发明实施例中，上述滤除重叠候选框以及聚合候选框的过程可以利用算法或应用程序来实现，例如可以在计算机设备中设置有滤除重叠候选框以及聚合候选框的应用程序，在训练图片上生成候选框后可以输入至该应用程序中，以便获得滤除以及聚合后的候选框。

步骤S13：根据预设单元尺寸对预设算法处理后的所述候选框进行尺寸规范化处理，获得规范化候选框。

本发明实施例中，为了提高预训练的效率，预训练使用的预训练图片的尺寸需要规范化，也即可以固定预训练图片的大小，因此也需要保证候选框尺寸的规范化。例如预训练图片可以划分为多个单元格时，而候选框的尺寸则为单元格的整数倍，如预训练图片为90×90尺寸并划分9格单元格时，则单元格的尺寸为10×10，而候选框的尺寸可以为10×10、20×10、10×20以及20×20等，最终确保可以合成90×90尺寸的预训练图片。

本发明实施例中，上述尺寸规范化处理的过程可以利用算法或应用程序来实现，例如可以在计算机设备中设置有规范化处理的应用程序，在获得滤除以及聚合后的候选框后，可以输入至该应用程序中，以获得规范化候选框。

步骤S14：截取所述训练图片上所述规范化候选框的图片块，合成预训练图片。

本发明实施例中，在获取到规范化候选框后，可以根据该规范化候选框截取训练图片上相应的图片块，合成预训练图片。利用该预训练图片可以使训练模型在进行正式的训练学习前，隐式学习通用的识别知识。利用大量的预训练图片进行预训练的视觉检测模型，在进行后续的微调后可以快速获得最终所需的视觉检测模型。并且，通过规范化候选框截取图片块后可以有效降低图片数据的大小，从而提高后续预训练的速度。

本发明实施例中，通过利用带目标位置标注的训练图片选取正样本的候选框，进行候选框的滤除、聚合以及规范化后，可以合成规范的预训练图片，从而提高预训练模型的精确度以及预训练模型的预训练效率。

实施例2

图2是本发明实施例2提供的一种滤除以及聚合候选框的流程图，包括如下步骤：

步骤S21：计算所述候选框与目标候选框重叠面积的比例值，滤除所述比例值大于预设比例值的所述候选框。

本发明实施例中，所述比例值的计算算式包括：

本发明实施例汇总，上述预设比例值可以为90％或95％等，这里不做限定，在计算机设备汇总可以设置有算法获应用程序进行比例值与预设比例值的对比。

步骤S22：以剩余的所述候选框的中心点作为聚类点，采用层次聚类算法聚合相互接近的多个所述候选框。

本发明实施例中，上述聚类点的点数最小为1，在计算机设备中可以设置有基于层次聚类算法的应用程序，以便将剩余的候选框中相接近的候选框进行聚合。

实施例3

图3是本发明实施例3提供的一种规范化处理候选框的流程图，包括如下步骤：

步骤S31：确定所述候选框的尺寸小于所述预设单元尺寸时，扩大所述候选框至所述预设单元尺寸。

步骤S32：确定所述候选框的尺寸大于所述预设单元尺寸时，扩大所述候选框至所述预设单元尺寸的整数倍。

本发明实施例中，所述规范化候选框的算式包括：

本发明实施例中，通过规范化的候选框进行图片块的截取，除了可以降低图片数据，还可以规范化预训练图片的尺寸，在后续利用大量预训练图片进行预训练的过程中应用归一化处理生成的预训练模型，在微调过程中可以固定归一化的过程参数，提高预训练模型微调的效率。

实施例4

图4是本发明实施例4提供的一种用于目标检测的预训练图片合成方法的流程图，该方法包括如下步骤：

步骤S41：获取带目标位置标注的训练图片，在所述训练图片的目标位置生成至少一个候选框。

此步骤与上述步骤S11一致，在此不再赘述。

步骤S42：按照预设算法滤除所述目标位置上重叠的所述候选框，以及聚合相互接近的所述候选框。

此步骤与上述步骤S12一致，在此不再赘述。

步骤S43：根据预设单元尺寸对预设算法处理后的所述候选框进行尺寸规范化处理，获得规范化候选框。

此步骤与上述步骤S13一致，在此不再赘述。

步骤S44：截取所述训练图片上所述规范化候选框的图片块，合成预训练图片。

此步骤与上述步骤S14一致，在此不再赘述。

步骤S45：确定所述预训练图片的尺寸大于预设尺寸时，根据所述预训练图片的最大边与所述预设尺寸计算出缩放因子。

步骤S46：根据所述缩放因子对所述预训练图片进行缩小处理。

本发明实施例中，由于规范化候选框的尺寸可以为预设单元尺寸的整数倍，因此最终合成的预训练图片可能会存在尺寸大于预设尺寸的情况，这时可以利用缩放因子对预训练图片进行缩小处理。其中，在进行缩小时，预训练图片可以仅缩小超出预设尺寸的边，或者同时按照缩放因子缩小长和宽，而同时缩小长和宽后还可以对预训练图片进行预设颜色的填充，时其达到预设尺寸，这里的预设颜色可以为黑色等，这里不做限定。

本发明实施例中，上述预训练图片还可以进行图片水平翻转等图像处理，从而获得其它预训练图片，从而增加预训练图片的图片，在利用大量预训练图片进行预训练后的预训练模型，其精确度更高。

图5是本发明实施例4提供的另一种用于目标检测的预训练图片合成方法的流程图，该方法还包括如下步骤：

步骤S47：对所述预训练图片进行归一化处理后输入至预设模型，对所述预设模型进行预训练。

本发明实施例中，上述归一化处理的过程可以由一下算式描述：

式中，y为归一化输出，x为输入，E(x)为输入的张量平均值，Var[x]为输入的张量方差，ε为预设的极小值，用于避免除零错误，γ和β为自适应参数，在预训练的过程中自适应改变，在预训练模型微调时固定不变，从而提高微调效率。

本发明实施例中，进行预训练后的预设模型，其参数均可以进行迁移，以及克服仅能迁移至主干网络的限制。

实施例5

该用于目标检测的预训练图片合成装置600包括：

候选框生成模块610，用于获取带目标位置标注的训练图片，在所述训练图片的目标位置生成至少一个候选框；

候选框滤除模块620，用于按照预设算法滤除所述目标位置上重叠的所述候选框，以及聚合相互接近的所述候选框；

候选框规范模块630，用于根据预设单元尺寸对预设算法处理后的所述候选框进行尺寸规范化处理，获得规范化候选框；

预训练图片合成模块640，用于截取所述训练图片上所述规范化候选框的图片块，合成预训练图片。

本发明实施例中，上述各个模块更加详细的功能描述可以参考前述实施例中相应部分的内容，在此不再赘述。

此外，本发明还提供了一种计算机设备，该计算机设备包括存储器和处理器，存储器可用于存储计算机程序，处理器通过运行所述计算机程序，从而使计算机设备执行上述方法或者上述用于目标检测的预训练图片合成装置中的各个模块的功能。

存储器可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本实施例还提供了一种计算机存储介质，用于储存上述计算机设备中使用的计算机程序。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种用于目标检测的预训练图片合成方法，其特征在于，包括：

2.根据权利要求1所述的用于目标检测的预训练图片合成方法，其特征在于，所述按照预设算法滤除所述目标位置上重叠的所述候选框，以及聚合相互接近的所述候选框包括：

3.根据权利要求2所述的用于目标检测的预训练图片合成方法，其特征在于，所述比例值的计算算式包括：

4.根据权利要求1所述的用于目标检测的预训练图片合成方法，其特征在于，所述根据预设单元尺寸对预设算法处理后的所述候选框进行尺寸规范化处理，获得规范化候选框包括：

5.根据权利要求4所述的用于目标检测的预训练图片合成方法，其特征在于，所述规范化候选框的算式包括：

6.根据权利要求1所述的用于目标检测的预训练图片合成方法，其特征在于，还包括：

根据所述缩放因子对所述预训练图片进行缩小处理。

7.根据权利要求1所述的用于目标检测的预训练图片合成方法，其特征在于，还包括：

8.一种用于目标检测的预训练图片合成装置，其特征在于，包括：

用于目标检测的预训练图片合成模块，用于截取所述训练图片上所述规范化候选框的图片块，合成预训练图片。

9.一种计算机设备，其特征在于，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器上运行时执行根据权利要求1至7中任一项所述的用于目标检测的预训练图片合成方法。

10.一种可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至7中任一项所述的用于目标检测的预训练图片合成方法。