CN113674142A

CN113674142A - 图像中目标物的消融方法、装置、计算机设备及介质

Info

Publication number: CN113674142A
Application number: CN202111003756.8A
Authority: CN
Inventors: 佟玲玲; 李玉惠; 井雅琪; 任博雅; 段东圣; 段运强; 时磊; 傅强; 蔡琳; 阿曼太; 梁彧; 马寒军; 田野; 王杰; 杨满智; 金红; 陈晓光
Original assignee: National Computer Network and Information Security Management Center; Eversec Beijing Technology Co Ltd
Current assignee: National Computer Network and Information Security Management Center; Eversec Beijing Technology Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-19
Anticipated expiration: 2041-08-30
Also published as: CN113674142B

Abstract

本发明实施例公开了一种图像中目标物的消融方法、装置、计算机设备及介质。该方法包括：获取多个训练样本图像，并根据各训练样本图像中预先标注的标识框的长宽值和DIou损失函数的损失值，计算得到至少一个锚点框的长宽值；根据各锚点框的长宽值，对YoLoV5改进模型进行参数设置，并使用各训练样本图像对参数设置后的模型进行训练，得到目标检测模型；将待处理的目标图像输入至目标检测模型中，获取针对目标图像输出的至少一个目标物标识框；根据目标物标识框所限定的图像区域进行消融处理，得到目标消融图像。通过本发明实施例的技术方案，能够实现快速准确地对图像中的特定内容进行定位消融，提高了方法的运行效率，节约了硬件成本。

Description

图像中目标物的消融方法、装置、计算机设备及介质

技术领域

本发明实施例涉及图像处理技术领域，主要涉及图像处理基础、模式识别、机器学习和深度学习技术，尤其涉及一种图像中目标物的消融方法、装置、计算机设备及介质。

背景技术

在日常生活或者工作中，人们经常会有将一批图像中的特定目标进行去除的想法，尤其是在工业制作或者大批量图像使用的情况下，针对某些不宜被公开或者不需要的信息进行消除是十分必要的。

现有技术中，大多数情况下，人们都是通过手动使用一些图像处理软件(Photoshop，PS)进行人工操作来实现的。

然而，现有技术存在着耗时耗力，并且耗费硬件成本的问题。

发明内容

本发明实施例提供一种图像中目标物的消融方法、装置、计算机设备及介质，以实现快速、准确地对图像中的特定内容进行定位消融。

第一方面，本发明实施例提供了一种图像中目标物的消融方法，包括：

获取多个训练样本图像，并根据各训练样本图像中预先标注的标识框的长宽值和距离重叠度(Distance Intersection over Union,DIou)损失函数的损失值，计算得到至少一个锚点框的长宽值；

根据各锚点框的长宽值，对YoLoV5改进模型进行参数设置，并使用各训练样本图像对参数设置后的YoLoV5改进模型进行训练，得到目标检测模型；

将待处理的目标图像输入至目标检测模型中，获取目标检测模型针对目标图像输出的至少一个目标物标识框；

根据目标物标识框所限定的图像区域进行消融处理，得到目标消融图像。

第二方面，本发明实施例还提供了一种图像中目标物的消融装置，该装置包括：

锚点框长宽计算模块，用于获取多个训练样本图像，并根据各训练样本图像中预先标注的标识框的长宽值和DIou损失函数的损失值，计算得到至少一个锚点框的长宽值；

目标检测模型获取模块，用于根据各锚点框的长宽值，对YoLoV5改进模型进行参数设置，并使用各训练样本图像对参数设置后的YoLoV5改进模型进行训练，得到目标检测模型；

标识框获取模块，用于将待处理的目标图像输入至目标检测模型中，获取目标检测模型针对目标图像输出的至少一个目标物标识框；

目标消融图像获取模块，用于根据目标物标识框所限定的图像区域进行消融处理，得到目标消融图像。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的图像中目标物的消融方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明任一实施例所述的图像中目标物的消融方法。

本发明实施例的技术方案，通过根据获取的多个训练样本图像中预先标注的标识框的长宽值和DIou损失函数的损失值，计算得到至少一个锚点框的长宽值，再利用各锚点框的长宽值对YoLoV5改进模型进行参数设置，并使用各训练样本图像对参数设置后的YoLoV5改进模型进行训练，之后，将待处理的目标图像输入至获取到的目标检测模型中，获取至少一个目标物标识框，最终，根据目标物标识框所限定的图像区域进行消融处理，即得到目标消融图像，能够实现快速准确地对图像中的特定内容进行定位消融，提高了方法的运行效率，节约了硬件成本。

附图说明

图1a是本发明实施例一所适用的一种图像中目标物的消融方法的整体系统流程图；

图1b是本发明实施例一中的一种图像中目标物的消融方法的流程图；

图1c是本发明实施例一所适用的一种网络结构图；

图2a是本发明实施例二中的一种图像中目标物的消融方法的流程图；

图2b是本发明实施例二所适用的一种Mixup算法处理后的混合样本图像；

图2c是本发明实施例二所适用的一种Mixup-Mosaci算法处理后的训练样本图像；

图3a是本发明实施例三中的一种图像中目标物的消融方法的流程图；

图3b是本发明实施例三所适用的一种图像中目标物的消融效果示意图；

图4是本发明实施例四中的一种图像中目标物的消融装置的结构示意图；

图5是本发明实施例五中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1a为本发明实施例一所适用的一种图像中目标物的消融方法的整体系统流程图；图1b为本发明实施例一提供的图像中目标物的消融方法的流程图，本实施例可适用于对图像中目标物进行定位消融的情况，该方法可以由图像中目标物的消融装置来执行，该装置可采用硬件和/或软件的方式实现,并一般可以集成在对图像中的目标物具有消融功能的计算机设备中，例如，终端或者服务器，该方法具体包括如下步骤：

S110、获取多个训练样本图像，并根据各训练样本图像中预先标注的标识框的长宽值和DIou损失函数的损失值，计算得到至少一个锚点框的长宽值。

其中，训练样本图像也可以称为学习样本图像，将该训练样本图像输入至模型中对模型进行训练，可使训练后的模型的输出与预期值相符。该训练样本图像中通常含有训练模型所需的标注，本发明实施例中所适用的训练样本图像可以为公共数据集中的样本图像，也可以为申请人员根据本发明技术方案自行标注的样本图像，本实施例对此不进行限制。

其中，锚点框指的是以训练样本图像中的每个像素为中心，生成的多个大小和宽高比不同的边界框。锚点框可以为模型输出结果提供一种参考,使得模型输出的范围大大缩小，同时降低了预测难度。

现有技术中，可以通过k-means聚类方法自动计算出锚点框的大小，原始的k-means算法一般通过欧式距离进行判断，但使用该方法在锚点计算过程中会导致更大的边界，产生更多的误差。

在本发明实施例的技术方案中，选择了计算类中心和对象的DIou损失函数作为评判标准。该方法解决了广义重叠度(Generalized Intersection over union，GIou)损失函数在与目标不重叠的时候不能提供参考价值的问题，也可以直接最小化两个目标的距离，从而无论在水平方向还是垂直方向都可以收敛的很快，避免了GIou损失函数退化成重叠度(Intersection over Union，Iou)损失函数的情况。

S120、根据各锚点框的长宽值，对YoLoV5改进模型进行参数设置，并使用各训练样本图像对参数设置后的YoLoV5改进模型进行训练，得到目标检测模型。

其中，目标检测模型指的是训练后的YoLoV5改进模型，用以对图像中的目标进行准确定位检测。

具体的，根据各计算出的锚点框的长宽值对YoLoV5改进模型进行参数的设置，并将训练样本图像作为输入，对参数设置后的YoLoV5改进模型进行训练，如果YoLoV5改进模型输出的结果可以与训练样本图像的标识框基本重合，则证明此时的YoLoV5改进模型可以满足对目标物的检测，可以将其作为目标检测模型。

可选的，所述YoLoV5改进模型中包括：依次相连的主干网络、特征提取网络以及预测输出网络；

其中，所述特征提取网络中包括按照特征金字塔网络(Path AggregationNetwork，PANet)组织构建的多个跨阶段CSP瓶颈层(BottleneckCSP)，每个CSP瓶颈层用于形成设定维度下的单维度特征提取结果输出至所述预测输出网络；

所述特征提取网络还包括：特征合并层，所述特征合并层的输入端分别与各所述跨阶段CSP瓶颈层的输出端相连；

所述特征合并层，用于将各维度下的单维度特征提取结果进行特征拼接，得到组合维度特征提取结果输出至所述预测输出网络；

所述预测输出网络，用于根据各所述单维度特征提取结果，以及所述组合维度特征提取结果，得到对目标物标识框的预测结果。

图1c为本发明实施例一所适用的一种网络结构图。在本发明实施例中，改进了原有的神经网络架构，使得网络结构之间传输的数据更加紧密并且特征区分更显著。基于原始的网络结构在输出前进行了一次特征融合，网络结构中所添加的部分如图中虚线部分所示，其他关节点的特征融合能够有效的解决浅层特征到深层被消耗掉的问题，该节点的特征融合解决的问题是原有神经网络没有考虑到经过深层卷积处理后特征之间的关系的问题。

S130、将待处理的目标图像输入至目标检测模型中，获取目标检测模型针对目标图像输出的至少一个目标物标识框。

其中，待处理的目标图像指的是需要对其进行目标物定位处理的图像，所要进行定位的目标物可以为图像中不宜公开或不需要的图像内容，也可以为图像中不宜公开或不需要的文本内容，本实施例对此不进行限制。

其中，目标物标识框指的是对待处理的目标图像中的目标物进行框选的标识框，用以对该目标物进行标识，便于下一步的操作。

具体的，将待处理的目标图像输入至目标检测模型中，即可根据用户的需要将其所要检测的目标物进行框选识别。

上述技术方案摒弃了对文本和目标分别进行训练得出并使用两个模型的方法，从两个模型降至一个模型，使得在前馈测试过程中节约了时间成本以及硬件成本。

S140、根据目标物标识框所限定的图像区域进行消融处理，得到目标消融图像。

其中，目标物标识框所限定的图像区域指的是目标物标识框框选出的目标图像中的目标物所在的图像区域。

其中，消融处理指的是对目标物标识框所限定的图像区域进行处理，以使其中的目标物消失的手段。目标消融图像指的是经过消融处理后的目标图像。

实施例二

图2a为本发明实施例二提供的图像中目标物的消融方法的流程图，本实施例以上述实施例为基础进行细化或者追加，其中，将根据各训练样本图像中预先标注的标识框的长宽值和DIou损失函数的损失值，计算得到至少一个锚点框的长宽值具体化为:获取多个初始化的聚类中心，所述聚类中心为初始化的锚点框的长宽值；通过计算各标识框的长宽值与各聚类中心之间的DIou损失函数的损失值，将各所述标识框的长宽值聚类至匹配的聚类中心处，得到多个聚类类别；重新计算与每个聚类类别分别对应的新的聚类中心后，返回执行通过计算各标识框的长宽值与各聚类中心之间的DIou损失函数的损失值，将各所述标识框的长宽值聚类至匹配的聚类中心处，得到多个聚类类别的操作，直至满足结束聚类条件；将结束聚类后的各聚类中心，作为各锚点框的长宽值。

相应的，在使用各训练样本图像对参数设置后的YoLoV5改进模型进行训练，得到目标检测模型之前，还包括：基于Mixup算法，将各所述训练样本图像两两之间进行比例混合，得到混合样本图像，并为各所述新的训练样本图像分配匹配的标识框；基于Mosaci算法，将各所述混合训练样本图像进行拼接处理，得到多个拼接样本图像，作为新的训练样本图像。

如图2a所示，该方法包括以下具体步骤：

S210、获取多个训练样本图像，并获取多个初始化的聚类中心，所述聚类中心为初始化的锚点框的长宽值。

其中，聚类中心指的是随机选取的锚点框的长宽值。聚类中心的个数可以由选用的k-means算法中代表聚类个数的k值决定，示例性的，若k值为2，则在所有的锚点框的长宽值中随机选择两组锚点框的长宽值作为聚类中心。

S220、通过计算各标识框的长宽值与各聚类中心之间的DIou损失函数的损失值，将各所述标识框的长宽值聚类至匹配的聚类中心处，得到多个聚类类别。

其中，聚类类别指的是根据聚类中心所代表的锚点框的长宽值及聚类至该聚类中心处的标识框的长宽值而设定的，用以对各个标识框的长宽值进行划分的类别，也就是一个聚类中心与聚类至该聚类中心处的标识框的长宽值共同组成一个聚类类别。

S230、重新计算与每个聚类类别分别对应的新的聚类中心后，返回执行通过计算各标识框的长宽值与各聚类中心之间的DIou损失函数的损失值，将各所述标识框的长宽值聚类至匹配的聚类中心处，得到多个聚类类别的操作，直至满足结束聚类条件。

具体的，得到多个聚类类别后，重新计算每个聚类类别的新聚类中心，再通过计算各标识框的长宽值与各聚类中心之间的DIou损失函数的损失值，将各标识框的长宽值划聚类至与其相距最近的新聚类中心，形成新的多个聚类类别，直到聚类中心不再改变，则证明完成了聚类操作，可执行下一步操作。

S240、将结束聚类后的各聚类中心，作为各锚点框的长宽值。

S250、根据各锚点框的长宽值，对YoLoV5改进模型进行参数设置。

S260、基于Mixup算法，将各所述训练样本图像两两之间进行比例混合，得到混合样本图像，并为各所述新的训练样本图像分配匹配的标识框。

其中，混合样本图像指的由Mixup算法将各训练样本图像两两之间进行比例混合后所得的样本图像。Mixup算法可以将随机的两张训练样本图像按比例进行插值混合，分类的结果也会按比例分配。如图2b所示，即为依靠Mixup算法处理后的混合样本图像。在本发明实施例中，将圆圈A所在的训练样本图像、方框B所在的训练样本图像、菱形C所在的训练样本图像和椭圆D所在的训练样本图像作为随机的四张训练样本图像的简易图，最终混合样本图像即为两张，一张是由圆圈A所在的训练样本图像和方框B所在的训练样本图像进行混合所得，另一张是由菱形C所在的训练样本图像和椭圆D所在的训练样本图像进行混合所得。

S270、基于Mosaci算法，将各所述混合训练样本图像进行拼接处理，得到多个拼接样本图像，作为新的训练样本图像。

由于在自然场景下拍摄的图像中文字往往会重叠在背景上，还有可能含有透视的部分，因此，发明实施例使用了改进的Mixup方法，提出了Mixup-Mosaci的图像增强方法，该方法首先对所需进行Mosaci的两两图像进行Mixup，然后再将Mixup后的不同的若干图像进行Mosaci处理，该方法可以有效地解决在检出标识框后分类易出错的问题。其中，Mosaci算法可以对获取的各个混合训练样本图像进行翻转、缩放及色域变化等操作，并按照四个方向位置进行混合训练样本图像的拼接。如图2c所示为Mixup-Mosaci算法处理后的训练样本图像，在本实施例中以上述示例中获取的混合样本图像为例，进行Mosaci算法拼接。

S280、使用各训练样本图像对参数设置后的YoLoV5改进模型进行训练，得到目标检测模型。

S290、将待处理的目标图像输入至目标检测模型中，获取目标检测模型针对目标图像输出的至少一个目标物标识框。

S2100、根据目标物标识框所限定的图像区域进行消融处理，得到目标消融图像。

本实施例未尽详细解释之处请参见前述实施例，在此不再赘述。

本发明实施例的技术方案，通过利用聚类的方式从获取的多个训练样本图像中得到多个聚类中心，作为各锚点框的长宽值，再利用各锚点框的长宽值对YoLoV5改进模型进行参数设置，并利用Mixup-Mosaci算法生成新的训练样本图像，使用各新的训练样本图像对参数设置后的YoLoV5改进模型进行训练，之后，将待处理的目标图像输入至获取到的目标检测模型中，获取至少一个目标物标识框，最终，根据目标物标识框所限定的图像区域进行消融处理，即得到目标消融图像，能够实现快速准确地对图像中的特定内容进行定位消融，解决了在检出标识框后分类易出错的问题，提高了方法的运行效率，节约了硬件成本。

实施例三

图3a为本发明实施例三提供的图像中目标物的消融方法的流程图，本实施例以上述实施例为基础进行追加或者细化，其中，在获取目标检测模型针对目标图像输出的至少一个目标物标识框之后，还包括：如果确定与所述目标图像匹配的消融需求为目标类别的图像内容，则在所述目标检测模型输出的各目标物标识框中，仅保留与所述目标类别匹配的目标物标识框。

相应的，在获取目标检测模型针对目标图像输出的至少一个目标物标识框之后，还包括：如果确定与所述目标图像匹配的消融需求为目标文本内容，则分别对所述目标检测模型输出的各目标物标识框所限定的图像区域进行光学字符识别，获取与各所述图像区域分别对应的图像识别结果；仅保留图像识别结果中包括目标文本内容的目标物识别框，并根据所述目标文本内容在图像识别结果中的位置，对保留的各目标物识别框进行重定位。

相应的，将对目标物标识框所限定的图像区域进行消融处理，得到目标消融图像，具体化为:将所述目标物标识框所限定的图像区域进行外扩处理，得到扩张图像区域；将所述扩张图像区域等分为多个网格，每个网格中包括设定数量的像素点；根据每个网格中包括的各像素点的像素值，计算与每个网络分别对应的平均像素值，并将每个网格中的各像素点的像素值重新赋值为所述平均像素值；使用跟进差值修补算法对所述扩张图像区域进行图像消融处理，得到目标消融图像。

如图3a所示，该方法包括以下具体步骤：

S310、获取多个训练样本图像，并获取多个初始化的聚类中心，所述聚类中心为初始化的锚点框的长宽值。

S320、通过计算各标识框的长宽值与各聚类中心之间的DIou损失函数的损失值，将各所述标识框的长宽值聚类至匹配的聚类中心处，得到多个聚类类别。

S330、重新计算与每个聚类类别分别对应的新的聚类中心后，返回执行通过计算各标识框的长宽值与各聚类中心之间的DIou损失函数的损失值，将各所述标识框的长宽值聚类至匹配的聚类中心处，得到多个聚类类别的操作，直至满足结束聚类条件。

S340、将结束聚类后的各聚类中心，作为各锚点框的长宽值。

S350、根据各锚点框的长宽值，对YoLoV5改进模型进行参数设置。

S360、基于Mixup算法，将各所述训练样本图像两两之间进行比例混合，得到混合样本图像，并为各所述新的训练样本图像分配匹配的标识框。

S370、基于Mosaci算法，将各所述混合训练样本图像进行拼接处理，得到多个拼接样本图像，作为新的训练样本图像。

S380、使用各训练样本图像对参数设置后的YoLoV5改进模型进行训练，得到目标检测模型。

S390、将待处理的目标图像输入至目标检测模型中，获取目标检测模型针对目标图像输出的至少一个目标物标识框。

S3100、判断与所述目标图像匹配的消融需求是否为目标类别的图像内容。若是，执行S3110；若否，执行S3120。

其中，消融需求指的是用户需要对目标图像中的内容进行消融处理的需求，消融处理的内容可以为目标图像中的图像内容，也可以为目标图像中的文本内容，本实施例对此不进行限制。目标类别指的是与用户需求相对应的类别，在YoLoV5改进模型的输出结果中会对各个图像内容进行标注类别，例如，若图像内容为小鸟，则标注“Bird”；若图像内容为小狗，则标注“Dog”。因此，只需对与用户需求相匹配的目标类别的图像内容进行消融处理，其他类别的图像内容无需进行任何操作。

S3110、在所述目标检测模型输出的各目标物标识框中，仅保留与所述目标类别匹配的目标物标识框，并继续执行S3140。

具体的，当与目标图像匹配的消融需求为目标类别的图像内容，则将与目标类别匹配的目标物标识框进行提取，仅保留目标图像中与目标类别匹配的目标物标识框。

通过上述技术方案既可以识别出符合用户消融需求的图像内容，又可以节约硬件成本，加快算法的处理速度。

S3120、分别对所述目标检测模型输出的各目标物标识框所限定的图像区域进行光学字符识别，获取与各所述图像区域分别对应的图像识别结果。

其中，图像识别结果指的是对目标物标识框所限定的图像区域进行光学字符识别后所得的文本内容。

S3130、仅保留图像识别结果中包括目标文本内容的目标物识别框，并根据所述目标文本内容在图像识别结果中的位置，对保留的各目标物识别框进行重定位。

其中，目标文本内容指的是与用户需求相对应的文本内容，即用户想要消融的文本内容。

具体的，若与目标图像匹配的消融需求为目标文本内容，则分别对目标检测模型输出的各目标物标识框所限定的图像区域进行光学字符识别，将识别结果中包含目标文本内容的目标物识别框进行保留，并根据目标文本内容在图像识别结果中的位置，对保留的各目标物识别框进行重定位。

通过上述技术方案既可以识别出符合用户消融需求的文本内容，又可以节约硬件成本，加快算法的处理速度。

S3140、将所述目标物标识框所限定的图像区域进行外扩处理，得到扩张图像区域。

由于直接对目标物标识框所限定的图像区域进行消融操作，会使错误信息外溢，因此，本发明实施例将目标物标识框所限定的图像区域的边框信息进行外扩，通过加入边缘颜色信息的方式防止错误信息外溢，保证了最终结果的准确性。

S3150、将所述扩张图像区域等分为多个网格，每个网格中包括设定数量的像素点。

为解决在原始计算梯度的过程中出现的现实像素的不平衡演变问题，本发明实施例首先对扩张后的图像区域进行等分打码操作，采用最小间隔策略将扩张后的图像区域等分为包括设定数量像素点的多个网格，以进行更好的消融。

S3160、根据每个网格中包括的各像素点的像素值，计算与每个网络分别对应的平均像素值，并将每个网格中的各像素点的像素值重新赋值为所述平均像素值。

S3170、使用跟进差值修补算法对所述扩张图像区域进行图像消融处理，得到目标消融图像。

具体的，本发明实施例的技术方案使用领域归一化加权和更新像素，再使用跟进差值修补法，先消融扩张图像区域的边界，依据边界外正常的像素向内消融。示例性的，从扩张图像区域的边界上选取一个像素点，同时以该点为中心，根据图像的纹理特征，选择大小合适的网格，然后根据每个网格中包括的各像素点的像素值，计算与每个网络分别对应的平均像素值，并将每个网格中的各像素点的像素值重新赋值为平均像素值，最后，在扩张图像区域的周围寻找与该网格像素值最相近的网格来替代该网格，以此类推，由扩张图像区域的边界向内进行消融处理。解决了原始方法在逐层向内消融的过程中颜色信息会出现横向或者纵向跨度较大的问题。

如图3b所示，为本发明实施例三所适用的一种图像中目标物的消融效果示意图。在本发明实施例中，以将目标文本内容进行消融为例进行示意图展示，在本示意图中，目的是将上方图中的“ABCDEFG”进行消融，得到最终的目标消融图像即为下方图像所示。

本发明实施例的技术方案，通过利用聚类的方式从获取的多个训练样本图像中得到多个聚类中心，作为各锚点框的长宽值，再利用各锚点框的长宽值对YoLoV5改进模型进行参数设置，并利用Mixup-Mosaci算法生成新的训练样本图像，使用各新的训练样本图像对参数设置后的YoLoV5改进模型进行训练，之后，将待处理的目标图像输入至获取到的目标检测模型中，获取至少一个目标物标识框，最终，将目标物标识框所限定的图像区域进行外扩处理、等分打码以及跟进差值修补得到目标消融图像，能够实现快速准确地对图像中的特定内容进行定位消融，解决了在检出标识框后分类易出错的问题，提高了方法的运行效率，节约了硬件成本，并且，解决了原始方法在逐层向内消融的过程中颜色信息会出现横向或者纵向跨度较大的问题。

实施例四

图4为本发明实施例四提供的一种图像中目标物的消融装置的结构示意图，该装置可以执行上述各实施例中涉及到的图像中目标物的消融方法。该装置可采用软件和/或硬件的方式实现，如图4所示，所述图像中目标物的消融装置具体包括：锚点框长宽计算模块410、目标检测模型获取模块420、标识框获取模块430、目标消融图像获取模块440。

其中，锚点框长宽计算模块410，用于获取多个训练样本图像，并根据各训练样本图像中预先标注的标识框的长宽值和距离重叠度DIou损失函数的损失值，计算得到至少一个锚点框的长宽值。

目标检测模型获取模块420，用于根据各锚点框的长宽值，对YoLoV5改进模型进行参数设置，并使用各训练样本图像对参数设置后的YoLoV5改进模型进行训练，得到目标检测模型。

标识框获取模块430，用于将待处理的目标图像输入至目标检测模型中，获取目标检测模型针对目标图像输出的至少一个目标物标识框。

目标消融图像获取模块440，用于根据目标物标识框所限定的图像区域进行消融处理，得到目标消融图像。

可选的，锚点框长宽计算模块410具体可以用于，获取多个初始化的聚类中心，所述聚类中心为初始化的锚点框的长宽值；通过计算各标识框的长宽值与各聚类中心之间的DIou损失函数的损失值，将各所述标识框的长宽值聚类至匹配的聚类中心处，得到多个聚类类别；重新计算与每个聚类类别分别对应的新的聚类中心后，返回执行通过计算各标识框的长宽值与各聚类中心之间的DIou损失函数的损失值，将各所述标识框的长宽值聚类至匹配的聚类中心处，得到多个聚类类别的操作，直至满足结束聚类条件；将结束聚类后的各聚类中心，作为各锚点框的长宽值。

可选的，图像中目标物的消融装置还可以包括新训练样本图像获取模块，用于在使用各训练样本图像对参数设置后的YoLoV5改进模型进行训练，得到目标检测模型之前，基于Mixup算法，将各所述训练样本图像两两之间进行比例混合，得到混合样本图像，并为各所述新的训练样本图像分配匹配的标识框；基于Mosaci算法，将各所述混合训练样本图像进行拼接处理，得到多个拼接样本图像，作为新的训练样本图像。

可选的，所述YoLoV5改进模型中包括：依次相连的主干网络、特征提取网络以及预测输出网络；其中，所述特征提取网络中包括按照特征金字塔网络PANet组织构建的多个跨阶段CSP瓶颈层，每个CSP瓶颈层用于形成设定维度下的单维度特征提取结果输出至所述预测输出网络；所述特征提取网络还包括：特征合并层，所述特征合并层的输入端分别与各所述跨阶段CSP瓶颈层的输出端相连；所述特征合并层，用于将各维度下的单维度特征提取结果进行特征拼接，得到组合维度特征提取结果输出至所述预测输出网络；所述预测输出网络，用于根据各所述单维度特征提取结果，以及所述组合维度特征提取结果，得到对目标物标识框的预测结果。

可选的，图像中目标物的消融装置还可以包括目标图像内容识别模块，用于在获取目标检测模型针对目标图像输出的至少一个目标物标识框之后，如果确定与所述目标图像匹配的消融需求为目标类别的图像内容，则在所述目标检测模型输出的各目标物标识框中，仅保留与所述目标类别匹配的目标物标识框。

可选的，图像中目标物的消融装置还可以包括目标文本内容识别模块，用于在获取目标检测模型针对目标图像输出的至少一个目标物标识框之后，如果确定与所述目标图像匹配的消融需求为目标文本内容，则分别对所述目标检测模型输出的各目标物标识框所限定的图像区域进行光学字符识别，获取与各所述图像区域分别对应的图像识别结果；仅保留图像识别结果中包括目标文本内容的目标物识别框，并根据所述目标文本内容在图像识别结果中的位置，对保留的各目标物识别框进行重定位。

可选的，目标消融图像获取模块440具体可以用于，将所述目标物标识框所限定的图像区域进行外扩处理，得到扩张图像区域；将所述扩张图像区域等分为多个网格，每个网格中包括设定数量的像素点；根据每个网格中包括的各像素点的像素值，计算与每个网络分别对应的平均像素值，并将每个网格中的各像素点的像素值重新赋值为所述平均像素值；使用跟进差值修补算法对所述扩张图像区域进行图像消融处理，得到目标消融图像。

本发明实施例所提供的图像中目标物的消融装置可执行本发明任意实施例所提供的图像中目标物的消融方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种计算机设备的结构示意图，如图5所示，该计算机设备包括处理器510、存储器520、输入装置530和输出装置540；计算机设备中处理器510的数量可以是一个或多个，图5中以一个处理器510为例；计算机设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的图像中目标物的消融方法对应的程序指令/模块(例如，图像中目标物的消融装置中的锚点框长宽计算模块410、目标检测模型获取模块420、标识框获取模块430和目标消融图像获取模块440)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的图像中目标物的消融方法。

该方法包括：

获取多个训练样本图像，并根据各训练样本图像中预先标注的标识框的长宽值和DIou损失函数的损失值，计算得到至少一个锚点框的长宽值；

存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器520可进一步包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

实施例六

本发明实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种图像中目标物的消融方法，该方法包括：

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的图像中目标物的消融方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述图像中目标物的消融装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图像中目标物的消融方法，其特征在于，包括：

获取多个训练样本图像，并根据各训练样本图像中预先标注的标识框的长宽值和距离重叠度DIou损失函数的损失值，计算得到至少一个锚点框的长宽值；

2.根据权利要求1所述的方法，其特征在于，根据各训练样本图像中预先标注的标识框的长宽值和DIou损失函数的损失值，计算得到至少一个锚点框的长宽值，包括：

获取多个初始化的聚类中心，所述聚类中心为初始化的锚点框的长宽值；

通过计算各标识框的长宽值与各聚类中心之间的DIou损失函数的损失值，将各所述标识框的长宽值聚类至匹配的聚类中心处，得到多个聚类类别；

重新计算与每个聚类类别分别对应的新的聚类中心后，返回执行通过计算各标识框的长宽值与各聚类中心之间的DIou损失函数的损失值，将各所述标识框的长宽值聚类至匹配的聚类中心处，得到多个聚类类别的操作，直至满足结束聚类条件；

将结束聚类后的各聚类中心，作为各锚点框的长宽值。

3.根据权利要求1所述的方法，其特征在于，在使用各训练样本图像对参数设置后的YoLoV5改进模型进行训练，得到目标检测模型之前，还包括：

基于Mixup算法，将各所述训练样本图像两两之间进行比例混合，得到混合样本图像，并为各所述新的训练样本图像分配匹配的标识框；

基于Mosaci算法，将各所述混合训练样本图像进行拼接处理，得到多个拼接样本图像，作为新的训练样本图像。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述YoLoV5改进模型中包括：依次相连的主干网络、特征提取网络以及预测输出网络；

其中，所述特征提取网络中包括按照特征金字塔网络PANet组织构建的多个跨阶段CSP瓶颈层，每个CSP瓶颈层用于形成设定维度下的单维度特征提取结果输出至所述预测输出网络；

5.根据权利要求1所述的方法，其特征在于，在获取目标检测模型针对目标图像输出的至少一个目标物标识框之后，还包括：

如果确定与所述目标图像匹配的消融需求为目标类别的图像内容，则在所述目标检测模型输出的各目标物标识框中，仅保留与所述目标类别匹配的目标物标识框。

6.根据权利要求1所述的方法，其特征在于，在获取目标检测模型针对目标图像输出的至少一个目标物标识框之后，还包括：

如果确定与所述目标图像匹配的消融需求为目标文本内容，则分别对所述目标检测模型输出的各目标物标识框所限定的图像区域进行光学字符识别，获取与各所述图像区域分别对应的图像识别结果；

仅保留图像识别结果中包括目标文本内容的目标物识别框，并根据所述目标文本内容在图像识别结果中的位置，对保留的各目标物识别框进行重定位。

7.根据权利要求5或6所述的方法，其特征在于，对目标物标识框所限定的图像区域进行消融处理，得到目标消融图像，包括：

将所述目标物标识框所限定的图像区域进行外扩处理，得到扩张图像区域；

将所述扩张图像区域等分为多个网格，每个网格中包括设定数量的像素点；

根据每个网格中包括的各像素点的像素值，计算与每个网络分别对应的平均像素值，并将每个网格中的各像素点的像素值重新赋值为所述平均像素值；

使用跟进差值修补算法对所述扩张图像区域进行图像消融处理，得到目标消融图像。

8.一种图像中目标物的消融装置，其特征在于，包括：

锚点框长宽计算模块，用于获取多个训练样本图像，并根据各训练样本图像中预先标注的标识框的长宽值和距离重叠度DIou损失函数的损失值，计算得到至少一个锚点框的长宽值；

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的图像中目标物的消融方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的图像中目标物的消融方法。