CN117710994A

CN117710994A - 目标检测模型训练方法、装置、设备及存储介质

Info

Publication number: CN117710994A
Application number: CN202311801517.6A
Authority: CN
Inventors: 李林超; 权家新; 周凯; 田彦
Original assignee: Zhejiang Zhuoyun Intelligent Technology Co ltd
Current assignee: Zhejiang Zhuoyun Intelligent Technology Co ltd
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-03-15

Abstract

本发明公开了一种目标检测模型训练方法、装置、设备及存储介质。该方法包括：根据第一公开数据集和第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型；根据第二公开数据集和第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型；将第二样本数据集输入至开集检测模型进行目标检测，得到预测检测框、预测文本描述信息和预测得分；根据第二样本数据集，基于开集检测模型和开集分类模型，确定的目标损失；根据预测检测框、预测文本描述信息和预测得分，基于目标损失，对开集检测模型进行模型训练，得到目标检测模型。

Description

目标检测模型训练方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种目标检测模型训练方法、装置、设备及存储介质。

背景技术

快递作为一项服务型行业，为人们的生活提供了便利，但随之带来的快递隐藏的危害也在不断扩大。因此，对快递包裹内的物品进行安全检测成为必不可缺的快递检验过程之一。而随着快递包裹内的违禁品的检测种类愈来愈多，现有的目标物品检测方式已无法满足当前大量违禁品种类的目标识别和检测，对越来越多的违禁品存在着类别的识别限制，无法实现对违禁品的精准检测。

发明内容

本发明提供了一种目标检测模型训练方法、装置、设备及存储介质，以提高对目标检测模型的模型训练精准度，从而实现对目标物品的精准检测。

根据本发明的一方面，提供了一种目标检测模型训练方法，所述方法包括：

确定包括多张带有目标样本标签的第一X射线图片的第一样本数据集；

获取包括多张带有公开检测样本标签的公开检测样本图片的第一公开数据集，以及获取包括多张带有公开分类样本标签的公开分类样本图片的第二公开数据集；

根据所述第一公开数据集和所述第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型；以及，

根据所述第二公开数据集和所述第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型；

获取包括多张第二X射线图片的第二样本数据集，并将所述第二样本数据集输入至所述开集检测模型进行目标检测，得到预测检测框、预测文本描述信息和预测得分；

根据所述第二样本数据集，基于所述开集检测模型和所述开集分类模型，确定用于进行开集检测模型训练的目标损失；

根据所述模型输出的预测检测框、预测文本描述信息和预测得分，基于的目标损失，对所述开集检测模型进行模型训练，得到目标检测模型，用于进行X射线场景下的目标检测。

根据本发明的另一方面，提供了一种目标检测模型训练装置，包括：

第一数据集确定模块，用于确定包括多张带有目标样本标签的第一X射线图片的第一样本数据集；

公开数据集获取模块，用于获取包括多张带有公开检测样本标签的公开检测样本图片的第一公开数据集，以及获取包括多张带有公开分类样本标签的公开分类样本图片的第二公开数据集；

检测模型训练模块，用于根据所述第一公开数据集和所述第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型；以及，

分类模型训练模块，用于根据所述第二公开数据集和所述第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型；

第二数据集获取模块，用于获取包括多张第二X射线图片的第二样本数据集，并将所述第二样本数据集输入至所述开集检测模型进行目标检测，得到预测检测框、预测文本描述信息和预测得分；

目标损失确定模块，用于根据所述第二样本数据集，基于所述开集检测模型和所述开集分类模型，确定所述用于进行开集检测模型训练的目标损失；

目标检测模型训练模块，用于根据所述模型输出的预测检测框、预测文本描述信息和预测得分，基于所述目标损失，对所述开集检测模型进行模型训练，得到目标检测模型，用于进行X射线场景下的目标检测。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的目标检测模型训练方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的目标检测模型训练方法。

本发明实施例技术方案通过确定第一样本数据集，获取第一公开数据集和第二公开数据集；根据第一公开数据集和第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型；以及，根据第二公开数据集和第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型；获取第二样本数据集，并将第二样本数据集输入至开集检测模型进行目标检测，得到预测检测框、预测文本描述信息和预测得分；根据第二样本数据集，基于开集检测模型和开集分类模型，确定用于进行开集检测模型训练的目标损失；根据模型输出的预测检测框、预测文本描述信息和预测得分，基于目标损失，对开集检测模型进行模型训练，直到满足预设的模型训练结束条件，得到目标检测模型，用于进行X射线场景下的目标检测。上述技术方案结合半监督学习方式对损失函数进行选取，实现在X射线场景下，目标检测模型和目标分类模型的生成，实现对X射线图片不限类别的检测和分类；由分类模型辅助检测模型的模型训练，并在检测模型训练的过程中不断迭代更新，从而使得两个模型均在训练过程中不断地优化，提高了目标检测模型检测性能，从而实现了对目标违禁品的高性能检测。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种目标检测模型训练方法的流程图；

图2是根据本发明实施例二提供的一种目标检测模型训练方法的流程图；

图3是根据本发明实施例三提供的一种目标检测模型训练方法的流程图；

图4A是根据本发明实施例四提供的一种目标检测模型训练方法的流程图；

图4B是根据本发明实施例四提供的一种目标检测方法的流程图；

图5是根据本发明实施例五提供的一种目标检测模型训练装置的结构示意图；

图6是实现本发明实施例的目标检测模型训练方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供的一种目标检测模型训练方法的流程图，本实施例可适用于对快递场景下包裹内的违禁品进行目标检测的情况，该方法可以由目标检测模型训练装置来执行，该目标检测模型训练装置可以采用硬件和/或软件的形式实现，该目标检测模型训练装置可配置于电子设备中。如图1所示，该方法包括：

S110、确定包括多张带有目标样本标签的第一X射线图片的第一样本数据集。

其中，第一X射线图片可以是存在违禁品图像的X射线图片；第一样本数据集中的第一X射线图片的数量可以由相关技术人员进行预先设定，例如可以是2万张。本实施例所述的违禁品可以为禁止和限制快递邮寄的物品；例如，违禁品可以是烟花爆竹等，本实施例对此不进行限制，具体可以由相关技术人员结合实际场景确定。

其中，第一X射线图片为带有目标样本标签的图片；目标样本标签可以包括目标检测框和目标文本描述信息。其中，目标检测框可以是射线图片中违禁品所在区域框部分；目标检测框具有检测框信息，检测框信息可以包括检测框坐标信息。目标文本描述信息可以是对目标检测框内的违禁品图像的图像描述信息，例如，图像描述信息可以为相应违禁品图像的违禁品类别信息等。

示例性的，获取多张第一X射线图片，并采用人工、半自动或全自动的方式对各第一X射线图片进行样本标注，生成各第一X射线图片分别对应的目标样本标签。

S120、获取包括多张带有公开检测样本标签的公开检测样本图片的第一公开数据集，以及获取包括多张带有公开分类样本标签的公开分类样本图片的第二公开数据集。

其中，第一公开数据集可以是公开发布的带有检测样本标签的相关数据集；第一公开数据集中可以包括多张公开检测样本图片，具体可以是具有不同目标检测图像类别的图片；各公开检测样本图片分别具有相应的公开检测样本标签。公开检测样本标签中可以包括公开目标检测框、公开检测文本描述信息和公开检测得分。

其中，第二公开数据集可以是公开发布的带有分类样本标签的相关数据集；第二公开数据集中可以包括多张公开分类样本图片，具体可以是具有不同目标类别属性的图片；各公开分类样本图片分别具有相应的公开分类样本标签。公开分类样本标签中可以包括公开文本描述信息和公开文本信息得分。

需要说明的是，第一公开数据集和第二公开数据集均为公开的样本数据集，可以直接获取得到。

S130、根据第一公开数据集和第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型。

其中，检测网络模型可以是用于进行目标检测的网络模型，具体可以由相关技术人员预先设定。例如，检测网络模型可以是GLIP(Grounded Language-Image Pretraining，多模态语言-图像)模型。

示例性的，可以将第一公开数据集和第一样本数据集作为检测网络模型的训练样本，并输入至预设的检测网络模型中进行模型训练，直到模型收敛，得到完成训练的开集检测模型。

需要说明的是，由于第一公开数据集的样本数据量较大，为减少计算资源和时间耗时，以及，减少噪声和错误标注影响的同时能够提高模型的准确性和泛化能力；同时，考虑本申请的快递违禁品目标检测场景，为使得数据集中的样本类别更具有丰富性和多样性，可以从第一公开数据集中筛选出部分第一样本数据集中目标文本描述信息较少或没有描述的样本，从而基于筛选后的样本进行模型训练。

在一个可选实施例中，根据第一公开数据集和第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型，包括：采用第一公开数据集对预设的检测网络模型进行模型训练，得到参考检测模型；参考检测模型包括文本特征提取子模块和视觉特征提取子模块；根据第一样本数据集中各第一X射线图片的目标样本标签中的目标文本描述信息，以及第一公开数据集中各公开检测样本图片的公开检测样本标签中的公开检测文本描述信息，对第一公开数据集中的各公开检测样本图片进行图片筛选，得到筛选公开数据集；生成包括筛选公开数据集和第一样本数据集的第一混合样本数据集；采用第一混合样本数据集对参考检测模型中的视觉特征提取子模块进行模型训练，得到开集检测模型。

示例性的，采用第一公开数据集对预设的检测网络模型进行模型训练，得到模型收敛的参考检测模型；参考检测模型可以作为预训练模型，对参考检测模型中的文本特征提取子模块和视觉特征提取子模块进行权重赋值初始化。其中，文本特征提取子模块用于文本特征提取；视觉特征提取子模块用于图片信息特征提取。

需要说明的是，为实现有针对性的对第一公开数据集中的样本图片的图片筛选，可以从第一公开数据集中选取第一样本数据集中目标文本描述信息较少或没有描述的样本。具体的，对第一样本数据集中各第一X射线图片的目标样本标签中的目标文本描述信息，以及第一公开数据集中各公开检测样本图片的公开检测样本标签中的公开检测文本描述信息进行描述信息比较，从第一公开数据集中选取与公开检测文本描述信息完全不同或者相似度不高的公开检测样本图片，作为筛选公开数据集中的筛选样本图片，并生成包括筛选公开数据集和第一样本数据集的第一混合样本数据集。

示例性的，冻结参考检测模型中的文本特征提取子模块的模型参数，以保持文本特征提取子模块的语义表达能力，不对其进行进一步的训练；采用第一混合样本数据集对参考检测模型中的视觉特征提取子模块进行模型训练，直到模型收敛，得到完成训练的开集检测模型。

上述技术方案通过对第一公开数据集中的样本图片进行筛选，使得用于模型训练的样本数据集的样本类别更具有丰富性和多样性，实现了对高质量训练样本的提取和筛选，减少了计算资源和时间耗时，进一步提高了模型的泛化能力。冻结文本特征提取子模块，仅对视觉特征提取子模块进行训练的方式，保证文本特征提取子模块语言表达能力的同时，提高了视觉特征提取子模块的检测准确度。

S140、根据第二公开数据集和第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型。

其中，分类网络模型可以是用于进行类别描述信息预测的网络模型，具体可以由相关技术人员进行预先设定。例如，分类网络模型可以是CLIP(Contrastive Language-Image Pretraining，对比式语言-图像预训练)模型。

示例性的，可以对第一样本数据集进行目标图像提取，得到各第一X射线图片对应的图像提取图片，并将第二公开数据集中的公开分类样本图片和图像提取图片作为分类网络模型的训练样本，并输入至预设的分类网络模型中进行模型训练，直到模型收敛，得到完成训练的开集分类模型。

在一个可选实施例中，根据第二公开数据集和第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型，包括：基于第一样本数据集中的各第一X射线图片的目标检测框，对各第一X射线图片进行图像提取，得到第一图像提取图片；采用预设的分类网络模型对第一图像提取图片进行图像文本描述，得到第一图像提取图片对应的第一图像文本描述信息，并生成包括带有第一图像文本描述信息的第一图像提取图片的第一提取样本数据集；生成包括第一提取样本数据集和第二公开数据集的第二混合样本数据集；采用第二混合样本数据集对分类网络模型进行模型训练，得到开集分类模型。

示例性的，基于第一样本数据集中的各第一X射线图片的目标检测框，对各第一X射线图片中的目标图像进行图像提取，得到各第一X射线图片分别对应的第一图像提取图片。采用预设的分类网络模型对第一图像提取图片进行图像文本描述，得到第一图像提取图片分别对应的第一图像文本描述信息，也即，第一图像文本描述信息为第一图像提取图片的样本标签。生成包括带有第一图像文本描述信息的第一图像提取图片的第一提取样本数据集。生成包括第一提取样本数据集和第二公开数据集的第二混合样本数据集，并采用第二混合样本数据集对分类网络模型进行模型训练，直到模型收敛，得到完成训练的开集分类模型。

上述实施例通过对第一样本数据集中的图像进行图像提取，得到第一提取样本数据集，并将第一提取样本数据集和第二公开数据集作为用于模型训练的样本数据集，增加了样本多样性，缓解了样本不平均问题，从而提高了模型的稳定性和鲁棒性，使其泛化能力得以提升。

S150、获取包括多张第二X射线图片的第二样本数据集，并将第二样本数据集输入至开集检测模型进行目标检测，得到模型输出的预测检测框、预测文本描述信息和预测得分。

其中，第二X射线图片可以是存在违禁品图像的X射线图片；第二样本数据集中的第二X射线图片的数量可以由相关技术人员进行预先设定，例如可以是100万张。

示例性的，第二样本数据集输入至开集检测模型进行目标检测，也即模型训练，得到当前迭代次数下，模型输出的预测检测框、预测文本描述信息和预测得分。

S160、根据第二样本数据集，基于开集检测模型和开集分类模型，确定用于进行开集检测模型训练的目标损失。

示例性的，将第二样本数据集中的第二X射线图片进行目标图像提取，并将提取得到的提取图片输入至开集分类模型进行图像文本描述，得到分类模型输出的第二图像文本描述信息；将开集检测模型输出的预测文本描述信息和开集分类模型输出的第二图像文本描述信息进行文本相似度计算，并根据文本相似度计算结果，确定目标损失函数，并基于目标损失函数确定目标损失。

S170、根据模型输出的预测检测框、预测文本描述信息和预测得分，基于目标损失，对开集检测模型进行模型训练，直到满足预设的模型训练结束条件，得到目标检测模型，用于进行X射线场景下的目标检测。

其中，模型训练结束条件可以是目标损失趋于稳定或在预设损失范围内波动，也可以是达到预设的模型迭代次数阈值。模型迭代次数阈值可以由相关技术人员进行预先设定，例如可以是100000次，本实施例对此不进行限制。

示例性的，根据模型输出的预测检测框、预测文本描述信息和预测得分，基于当前迭代次数下的目标损失，对开集检测模型进行模型训练，并确定当前迭代次数是否满足模型训练结束条件；若是，则结束训练，得到完成训练的目标检测模型；若否，则继续下一轮迭代训练，直到满足模型训练结束条件，得到目标检测模型。

需要说明的是，目标检测模型可以用于对快递场景下，存在违禁品的X射线图片进行目标检测。在一个具体实施例中，获取图像采集设备采集得到的待检测物品的待检测X射线图片，并将待检测X射线图片输入至目标检测模型中进行违禁品目标检测，得到模型输出的目标检测结果。

本发明实施例技术方案通过确定第一样本数据集，获取第一公开数据集和第二公开数据集；根据第一公开数据集和第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型；以及，根据第二公开数据集和第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型；获取第二样本数据集，并将第二样本数据集输入至开集检测模型进行目标检测，得到预测检测框、预测文本描述信息和预测得分；根据第二样本数据集，基于开集检测模型和开集分类模型，确定用于进行开集检测模型训练的目标损失；根据模型输出的预测检测框、预测文本描述信息和预测得分，基于目标损失，对开集检测模型进行模型训练，得到目标检测模型，用于进行X射线场景下的目标检测。上述技术方案结合半监督学习方式对损失函数进行选取，实现在X射线场景下，目标检测模型和目标分类模型的生成，实现对X射线图片不限类别的检测和分类；由分类模型辅助检测模型的模型训练，并在检测模型训练的过程中不断迭代更新，从而使得两个模型均在训练过程中不断地优化，提高了目标检测模型的模型检测性能，从而实现了对目标违禁品的高性能检测。

实施例二

图2为本发明实施例二提供的一种目标检测模型训练方法的流程图，本实施例在上述各技术方案的基础上，进行了优化改进。

进一步的，将步骤“确定包括多张带有目标样本标签的第一X射线图片的第一样本数据集”细化为“获取第一样本数据集中的各第一X射线图片的样本人工标签；样本人工标签包括人工标注检测框和人工标注描述信息；采用预设的检测网络模型对第一样本数据集中的各第一X射线图片进行目标检测，生成各第一X射线图片分别对应的样本伪标签；样本伪标签包括伪检测框、伪文本描述信息和伪得分；根据相应第一X射线图片的人工标注检测框和伪检测框之间的框相似度，确定各第一X射线图片的目标样本标签，并生成包括多张带有所述目标样本标签的第一X射线图片的第一样本数据集。”以完善对第一样本数据集的确定方式。

进一步的，在步骤“获取包括多张第二X射线图片的第二样本数据集”之后，添加步骤“将第二样本数据集输入至所述开集检测模型，得到开集检测模型的视觉特征提取子模块输出的各第二X射线图片的视觉特征图；根据各第二X射线图片的视觉特征图，确定各第二X射线图片的图片相似度；根据各图片相似度，对第二样本数据集中的第二X射线图片进行图片筛选，得到筛选后的第二样本数据集。”以完善对第二样本数据集的筛选方式。

需要说明的是，在本发明实施例中未详述的部分，可参见其他实施例的表述。如图2所示，该方法包括以下具体步骤：

S210、获取第一样本数据集中的各第一X射线图片的样本人工标签；样本人工标签包括人工标注检测框和人工标注描述信息。

其中，样本人工标签可以是有相关技术人员人工手动对第一X射线图片进行标注的样本标签。人工标注检测框可以是相关技术人员人工标注的目标所在区域的检测框；人工标注描述信息可以是相关技术人员人工标注的对目标的相关描述信息，例如可以是目标的类别描述信息等。

第一样本数据集中的第一X射线图片的样本人工标签可以有相关技术人员进行预先标注并直接获取得到。

S220、采用预设的检测网络模型对第一样本数据集中的各第一X射线图片进行目标检测，生成各第一X射线图片分别对应的样本伪标签；样本伪标签包括伪检测框、伪文本描述信息和伪得分。

其中，检测网络模型可以由相关技术人员进行预先设定，检测网络模型可以是现有的开集自然场景下的检测模型，例如，检测网络模型可以是GLIP模型。

示例性的，采用预设的检测网络模型对第一样本数据集中的各第一X射线图片进行目标检测，得到模型输出的检测结果；检测结果可以包括对第一X射线图片的预测检测框、预测文本描述信息和预测得分，并将预测检测框作为相应第一X射线图片的伪检测框，将预测文本描述信息作为相应第一X射线图片的伪文本描述信息以及将伪文本描述信息作为相应第一X射线图片的伪得分，并生成包括伪检测框、伪文本描述信息和伪得分的样本伪标签。

S230、根据相应第一X射线图片的人工标注检测框和伪检测框之间的框相似度，确定各第一X射线图片的目标样本标签，并生成包括多张带有目标样本标签的第一X射线图片的第一样本数据集。

其中，框相似度可以是两个检测框之间的匹配程度，例如，框相似度可以基于IoU算法(Intersection over Union，交并比)进行确定。

可以根据框相似度，能够进一步评估人工标注和模型标注两种标注方式哪一种更加精确，从而根据精确度进一步确定各第一X射线图片的目标样本标签。

在一个可选实施例中，根据相应第一X射线图片的人工标注检测框和伪检测框之间的框相似度，确定各第一X射线图片的目标样本标签，包括：确定相应第一X射线图片的人工标注检测框和伪检测框之间的交并比值；若交并比值大于预设的交并比阈值，则将相应第一X射线图片的样本伪标签确定为目标样本标签；以及，若交并比值不大于预设的交并比阈值，则采用预设的分类网络模型对相应第一X射线图片的样本人工标签进行标签更新，得到各第一X射线图片的目标样本标签。

需要说明的是，由于第一X射线图片中可能存在一个或多个检测目标，也即可能存在一个或多个人工标注检测框和伪检测框。因此，需要将第一X射线图片中的各人工检测框和伪检测框进行两两匹配，分别均确定检测框之间的交并比值。

示例性的，若交并比值大于预设的交并比阈值，则可以确定两个检测框之间的匹配程度较高，可以确定人工标注检测框和伪检测框是属于同一目标的检测框，则可以采用相应第一X射线图片的样本伪标签代替样本人工标签，将样本伪标签确定为目标样本标签。其中，交并比阈值可以由相关技术人员根据实际需求进行预先设定，例如，交并比阈值可以设置为0.55。

示例性的，若交并比值不大于预设的交并比阈值，则可能存在同一第一X射线图片的伪检测框和人工标注检测框数量不统一的情况，或者存在数量相同但两种检测框的匹配程度较低的情况。例如，若第一X射线图片M存在伪检测框a1、伪检测框b1和伪检测框c1，存在人工标注检测框a2和人工标注检测框b2，其中，a1与a2相匹配且匹配度较高，b1和b2相匹配且匹配度较高，而c1与a2和b2均不匹配(匹配度较低)，则可以认为伪检测框c1可能是模型检测出的结果而人工未检测出的结果。因此，针对交并比值不大于预设的交并比阈值的伪标签，可以进行人工检查，确定该标签是否准确，并在检测标签错误的情况下对错误标签进行修改。

需要说明的是，上述所述的样本标签中的目标检测框均为人工标定检测框，但其对应的目标文本描述信息可以根据目标检测框的变化而进行相应改变。

针对另一种情况，若第一X射线图片M存在伪检测框a1和伪检测框b1，存在人工标注检测框a2、人工标注检测框b2和人工标注检测框c2，a1与a2相匹配且匹配度较高，b1和b2相匹配且匹配度较高，而c2与a1和b1均不匹配(匹配度较低)，则可以认为样本人工标签可能是人工检测出而模型未检测出的结果。因此，针对交并比小于阈值的样本人工标签，基于人工标注检测框，对第一X射线图片进行抠图，也即目标图像提取，得到提取后的至少一张图像提取图片。采用预设的分类网络模型对至少一张图像提取图片进行文本描述信息预测，得到对图像提取图片的语义表达信息；人工检查模型生成的语义表达信息，并在检查无误之后，采用语义表达信息更新相应第一X射线图片的人工标注描述信息，以更新样本人工标签，得到各第一X射线图片的目标样本标签。

针对又一种情况，若第一X射线图片M存在伪检测框a1和伪检测框b1，存在人工标注检测框a2和人工标注检测框b2，a1与a2相匹配且匹配度较高，b1和b2相匹配且匹配度较低，则采用上述方式人工更新第一X射线图片M的伪标签，以及采用分类网络模型更新第一X射线图片M的样本人工标签。

上述技术方案通过确定相应第一X射线图片的人工标注检测框和伪检测框之间的交并比值；若交并比值大于预设的交并比阈值，则将相应第一X射线图片的样本伪标签确定为目标样本标签；以及，若交并比值不大于预设的交并比阈值，则采用预设的分类网络模型对相应第一X射线图片的样本人工标签进行标签更新，得到各第一X射线图片的目标样本标签，实现了对第一X射线图片的目标样本标签的准确更新，采用交并比值的方式，对模型标注结果和人工标注结果进行匹配，有效保留了两者的准确标注结果，以及更正了两者的不准确标注结果，从而使得X射线图片的样本标签更加准确。

S240、获取包括多张带有公开检测样本标签的公开检测样本图片的第一公开数据集，以及获取包括多张带有公开分类样本标签的公开分类样本图片的第二公开数据集。

S250、根据第一公开数据集和第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型。

S260、根据第二公开数据集和第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型。

S270、获取包括多张第二X射线图片的第二样本数据集，将第二样本数据集输入至开集检测模型，得到开集检测模型的视觉特征提取子模块输出的各第二X射线图片的视觉特征图。

示例性的，将第二样本数据集中的第二X射线图片输入至开集检测模型，提取开集检测模型的视觉特征提取子模块部分的主干网络输出的输出特征图，也即视觉特征图。

S280、根据各第二X射线图片的视觉特征图，确定各第二X射线图片的图片相似度。

示例性的，可以根据各第二X射线图片的视觉特征图，进行PCA(PrincipalComponent Analysis，主成分分析)降维提取有效特征值，并对有效特征值进行点乘，得到余弦值，余弦值越大越相似。具体的图片相似度的确定方式可以如下：

其中，score_ret表示图片1和图片2的图片相似度；Feature_1表示图片1的视觉特征图；Feature_1表示图片2的视觉特征图；PCA(·)表示PCA算法。

S290、根据各图片相似度，对第二样本数据集中的第二X射线图片进行图片筛选，得到筛选后的第二样本数据集。

示例性的，对图片相似度不小于相似度阈值的图片进行删除。在图片相似度的确定过程中，可以是逐一将图片依次输入至模型进相似度计算，依次进行图片相似度的两两确定，若相似度不小于相似度阈值，则将后输入的图片进行删除，得到筛选后的第二样本数据集。

S2100、将筛选后的第二样本数据集输入至开集检测模型进行目标检测，得到模型输出的预测检测框、预测文本描述信息和预测得分。

S2110、根据筛选后的第二样本数据集，基于开集检测模型和开集分类模型，确定用于进行开集检测模型训练的目标损失。

S2120、根据模型输出的预测检测框、预测文本描述信息和预测得分，基于目标损失，对开集检测模型进行模型训练，得到目标检测模型，用于进行X射线场景下的目标检测。

本实施例技术方案通过采用预设的检测网络模型对第一样本数据集中的各第一X射线图片进行目标检测，生成各第一X射线图片分别对应的样本伪标签，并根据相应第一X射线图片的人工标注检测框和伪检测框之间的框相似度，确定各第一X射线图片的目标样本标签，并生成包括多张带有目标样本标签的第一X射线图片的第一样本数据集，实现了对第一样本数据集中的样本图片的准确生成，提高了样本图片的目标样本标签的生成准确度，从而进一步提高了后续对检测模型和分类模型的模型训练准确度。通过将第二样本数据集输入至开集检测模型，得到开集检测模型的视觉特征提取子模块输出的各第二X射线图片的视觉特征图，根据各第二X射线图片的视觉特征图，确定各第二X射线图片的图片相似度，根据各图片相似度，对第二样本数据集中的第二X射线图片进行图片筛选，得到筛选后的第二样本数据集，实现了对第二样本数据集的有效筛选，有效的识别和去除重复的图片，从而减少了数据冗余，提高了第二样本数据集的质量，从而进一步提高后续模型的检测性能。

实施例三

图3为本发明实施例三提供的一种目标检测模型训练方法的流程图，本实施例在上述各技术方案的基础上，进行了优化改进。

进一步的，将步骤“根据第二样本数据集，基于开集检测模型和开集分类模型，确定用于进行开集检测模型训练的目标损失”细化为“基于开集检测模型输出的各第二X射线图片的预测检测框，对各第二X射线图片进行图像提取，得到第二图像提取图片；将第二图像提取图片输入至开集分类模型中进行图像文本描述，得到模型输出的第二图像提取图片对应的第二图像文本描述信息；将预测文本描述信息和第二图像文本描述信息，输入至开集检测模型中，得到开集检测模型中的文本特征提取子模块输出的预测文本描述信息对应的第一特征序列和第二图像文本描述信息对应的第二特征序列；根据第一特征序列和第二特征序列，确定文本特征相似度；根据文本特征相似度，确定用于进行开集检测模型训练的目标损失。”以完善对目标损失的确定方式。

需要说明的是，在本发明实施例中未详述的部分，可参见其他实施例的表述。如图3所示，该方法包括以下具体步骤：

S310、确定包括多张带有目标样本标签的第一X射线图片的第一样本数据集。

S320、获取包括多张带有公开检测样本标签的公开检测样本图片的第一公开数据集，以及获取包括多张带有公开分类样本标签的公开分类样本图片的第二公开数据集。

S330、根据第一公开数据集和第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型。

S340、根据第二公开数据集和第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型。

S350、获取包括多张第二X射线图片的第二样本数据集，并将第二样本数据集输入至开集检测模型进行目标检测，得到预测检测框、预测文本描述信息和预测得分。

S360、基于开集检测模型输出的各第二X射线图片的预测检测框，对各第二X射线图片进行图像提取，得到第二图像提取图片。

示例性的，可以基于第二X射线图片的预测检测框，对第二X射线图片进行图像提取，也即基于预测检测框进行抠图，得到第二X射线图片对应的第二图像提取图片。

S370、将第二图像提取图片输入至开集分类模型中进行图像文本描述，得到模型输出第二图像提取图片对应的第二图像文本描述信息。

S380、将预测文本描述信息和第二图像文本描述信息，输入至开集检测模型中，得到开集检测模型中的文本特征提取子模块输出的预测文本描述信息对应的第一特征序列和第二图像文本描述信息对应的第二特征序列。

示例性的，将预测文本描述信息和第二图像文本描述信息，输入至开集检测模型中，提取文本特征提取子模块的主干网络输出的预测文本描述信息对应的第一特征序列和第二图像文本描述信息对应的第二特征序列。

S390、根据第一特征序列和第二特征序列，确定文本特征相似度。

示例性的，根据第一特征序列和第二特征序列，确定文本特征相似度的方式可以如下：

其中，seq_1表示第一特征序列，seq_2表示第二特征序列，sim_text表示文本特征相似度。

S3100、根据文本特征相似度，确定用于进行开集检测模型训练的目标损失。

示例性的，可以根据文本特征相似度，确定当前迭代次数下用于进行开集检测模型训练的目标损失，也即，通过文本特征相似度，选取用于模型训练的目标损失函数。例如，若文本特征相似度大于某一设定阈值时，选取不带权重的分类损失和/或文本损失作为目标损失；若文本特征相似度不大于某一设定阈值时，选取带有权重的分类损失和/或文本损失作为目标损失。设定阈值可以由相关技术人员进行预先设定，本实施例对此不进行限制。

S3110、根据模型输出的预测检测框、预测文本描述信息和预测得分，基于目标损失，对开集检测模型进行模型训练，得到目标检测模型，用于进行X射线场景下的目标检测。

本实施例技术方案通过将预测文本描述信息和第二图像文本描述信息，输入至开集检测模型中，得到开集检测模型中的文本特征提取子模块输出的预测文本描述信息对应的第一特征序列和第二图像文本描述信息对应的第二特征序列，根据第一特征序列和第二特征序列，确定文本特征相似度，根据文本特征相似度，确定用于进行开集检测模型训练的目标损失。上述技术方案在进行目标损失函数的选取过程中考虑了检测模型输出的文本描述信息和分类模型输出的文本描述信息之间的文本特征相似度，通过文本特征相似度的方式确定目标损失函数，提高了模型检测性能和鲁棒性，提高了模型的泛化能力，加速了模型迭代训练周期。

实施例四

图4A为本发明实施例四提供的一种目标检测模型训练方法的流程图，本实施例在上述各技术方案的基础上，进行了优化改进。

进一步的，将步骤“根据文本特征相似度，确定用于进行开集检测模型训练的目标损失”细化为“若文本特征相似度不小于预设的第一相似度阈值，则获取当前迭代次数下，开集检测模型基于第二X射线图片输出的第一模型输出结果，以及开集分类模型基于第二图像提取图片输出的第二模型输出结果；根据第一模型输出结果、第二模型输出结果和文本特征相似度，确定目标损失；若文本特征相似度小于预设的第一相似度阈值，则获取历史迭代次数下，开集检测模型基于第二X射线图片输出的历史第一输出结果；根据历史第一输出结果和所述第一模型输出结果，确定目标损失。”以完善对目标损失的确定方式。

需要说明的是，在本发明实施例中未详述的部分，可参见其他实施例的表述。如图4A所示，该方法包括以下具体步骤：

S410、确定包括多张带有目标样本标签的第一X射线图片的第一样本数据集。

S420、获取包括多张带有公开检测样本标签的公开检测样本图片的第一公开数据集，以及获取包括多张带有公开分类样本标签的公开分类样本图片的第二公开数据集。

S430、根据第一公开数据集和第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型。

S440、根据第二公开数据集和第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型。

S450、获取包括多张第二X射线图片的第二样本数据集，并将第二样本数据集输入至开集检测模型进行目标检测，得到预测检测框、预测文本描述信息和预测得分。

S460、基于开集检测模型输出的各第二X射线图片的预测检测框，对各第二X射线图片进行图像提取，得到第二图像提取图片。

S470、将第二图像提取图片输入至开集分类模型中进行图像文本描述，得到模型输出的第二图像提取图片对应的第二图像文本描述信息。

S480、将预测文本描述信息和第二图像文本描述信息，输入至开集检测模型中，得到开集检测模型中的文本特征提取子模块输出的预测文本描述信息对应的第一特征序列和第二图像文本描述信息对应的第二特征序列。

S490、根据第一特征序列和第二特征序列，确定文本特征相似度。

S4100A、若文本特征相似度不小于预设的第一相似度阈值，则获取当前迭代次数下，开集检测模型基于第二X射线图片输出的第一模型输出结果，以及开集分类模型基于第二图像提取图片输出的第二模型输出结果。

其中，第一相似度阈值可以由相关技术人员预先设定，例如，第一相似度阈值可以设定为0.35。

S4110A、根据第一模型输出结果、第二模型输出结果和文本特征相似度，确定目标损失。

其中，第一模型输出结果可以包括预测检测框、预测文本描述信息和预测得分等；第二模型输出结果可以包括预测文本描述信息和预测得分等。

在一个可选实施例中，根据第一模型输出结果、第二模型输出结果和文本特征相似度，确定目标损失，包括：若文本特征相似度不小于第二相似度阈值，则根据第一模型输出结果中的预测检测框和预测检测框的坐标信息，确定第一回归损失；以及根据第一模型输出结果中的相似度得分和目标文本信息，确定第一文本损失；根据第一回归损失和第一文本损失，确定目标损失；以及，若文本特征相似度小于第二相似度阈值且不小于第一相似度阈值，则将第一模型输出结果中的预测得分确定为第一预测得分，以及将第二模型输出结果中的预测得分确定为第二预测得分；根据第一预测得分、第二预测得分和文本特征相似度，确定损失权重值；根据第一回归损失、第一文本损失和损失权重值，确定目标损失。

其中，第二相似度阈值可以由相关技术人员根据实际需求进行预先设定，例如，第二相似度阈值可以设定为0.85。

示例性的，若文本特征相似度不小于第二相似度阈值，则根据第一模型输出结果中的预测检测框和预测检测框的坐标信息，基于预设的回归损失函数，确定第一回归损失。其中，预测检测框的坐标信息可以是表征检测框在图片中的像素位置的信息。根据第一模型输出结果中的相似度得分和目标文本信息，基于预设的文本损失函数，确定第一文本损失。具体的，根据第一回归损失和第一文本损失，确定目标损失loss₁的方式如下。

loss₁＝weight₁*(loss_bbos(obj,arget_obj)+loss_cls(S_ground,T))；

其中，loss_bbos(·)表示回归损失函数；obj表示预测检测框；weight₁为预先设定的权重值，例如，该权重值可以设定为1；arget_obj表示预测检测框的坐标信息；loss_cls(·)表示文本损失函数；S_ground表示相似度得分；T表示目标文本信息。其中，S_ground为模型输出的特征向量和文本语义向量之间的相似度，分布在0至1区间范围内；T为目标匹配的文本信息。

示例性的，若文本特征相似度小于第二相似度阈值且不小于第一相似度阈值，则将第一模型输出结果中的预测得分确定为第一预测得分，以及将第二模型输出结果中的预测得分确定为第二预测得分，并根据第一预测得分、第二预测得分和文本特征相似度，确定损失权重值。具体的，损失权重值的确定方式可以如下。

weight₂＝sim_text×obj_score×cls_score；

其中，weight₂表示损失权重值；sim_text表示文本特征相似度；obj_score表示第一预测得分；cls_score表示第二预测得分。

示例性的，根据第一回归损失、第一文本损失和损失权重值，确定目标损失loss₂的方式可以如下。

loss₂＝weight₂*(loss_bbos(obj,arget_obj)+loss_cls(S_ground,T))；

其中，loss_bbos(·)表示回归损失函数；obj表示预测检测框；weight₂为损失权重值，例如，该权重值可以设定为1；arget_obj表示预测检测框的坐标信息；loss_cls(·)表示文本损失函数；S_ground表示相似度得分；T表示目标文本信息。其中，S_ground为模型输出的特征向量和文本语义向量之间的相似度，分布在0至1区间范围内；T为目标匹配的文本信息。

S4100B、若文本特征相似度小于预设的第一相似度阈值，则获取历史迭代次数下，开集检测模型基于第二X射线图片输出的历史第一输出结果。

其中，历史迭代次数可以是相对于当前迭代次数下的上一迭代次数。历史第一输出结果可以是上一迭代周期下的模型输出结果。

S4110B、根据历史第一输出结果和第一模型输出结果，确定目标损失。

示例性的可以根据历史第一输出结果和第一模型输出结果中的检测框的匹配度或相似度，确定用于进行损失值计算的损失函数。

在一个可选实施例中，根据历史第一输出结果和第一模型输出结果，确定目标损失，包括：确定历史第一输出结果中的历史检测框和第一模型输出结果中的预测检测框之间的框匹配度；若框匹配度不小于预设的匹配度阈值，则根据历史第一输出结果和第一模型输出结果，确定第二回归损失和第二文本损失；根据第二回归损失和第二文本损失，确定目标损失。

示例性的，可以确定历史第一输出结果中的历史检测框和第一模型输出结果中的预测检测框之间的交并比值，并将交并比值作为框相似度。其中，匹配度阈值可以有相关技术人员进行预先设定，例如，匹配度阈值可以为0.55。若框匹配度小于预设的匹配度阈值，则不计算目标损失；若框匹配度不小于预设的匹配度阈值，则根据历史第一输出结果和第一模型输出结果，确定目标损失。具体的，可以根据历史第一输出结果和第一模型输出结果，确定第二回归损失和第二文本损失，并将第二回归损失和第二文本损失的损失和确定为目标损失。

在一个可选实施例中，根据历史第一输出结果和第一模型输出结果，确定第二回归损失和第二文本损失，包括：根据第一模型输出结果中的预测得分、预测检测框和预测检测框的坐标，以及历史第一输出结果中的历史得分，确定第二回归损失；以及，根据第一模型输出结果中预测文本描述信息对应的第一特征序列、预测得分、相似度得分和目标文本信息，以及历史第一输出结果中的预测文本描述信息对应的历史特征序列和历史得分，确定第二文本损失。

示例性的，根据预测得分、预测检测框、预测检测框的坐标和历史得分，确定第二回归损失loss_3-obj的方式可以如下。

loss_3-obj＝score_n×score_n-1×loss_bbox(obj,arget_obj)；

其中，score_n为当前迭代周期下的预测得分；score_n-1为历史迭代周期下的历史得分；loss_bbos(·)表示回归损失函数；obj表示预测检测框；arget_obj表示预测检测框的坐标信息。

示例性的，根据第一模型输出结果中预测文本描述信息对应的第一特征序列、预测得分、相似度得分和目标文本信息，以及历史第一输出结果中的预测文本描述信息对应的历史特征序列和历史得分，确定第二文本损失的方式如下。

其中，seq_n表示第一特征序列；seq_n-1表示历史特征序列；score_n为当前迭代周期下的预测得分；score_n-1为历史迭代周期下的历史得分；loss_cls(·)表示文本损失函数；S_ground表示相似度得分；T表示目标文本信息。

S4120、根据模型输出的预测检测框、预测文本描述信息和预测得分，基于目标损失，对开集检测模型进行模型训练，得到目标检测模型，用于进行X射线场景下的目标检测。

本实施例技术方案通过确定文本特征相似度不小于预设的第一相似度阈值时，获取当前迭代次数下，开集检测模型基于第二X射线图片输出的第一模型输出结果，以及开集分类模型基于所述第二图像提取图片输出的第二模型输出结果，根据第一模型输出结果、第二模型输出结果和文本特征相似度，确定目标损失。确定文本特征相似度小于预设的第一相似度阈值时，获取历史迭代次数下，开集检测模型基于第二X射线图片输出的历史第一输出结果；根据历史第一输出结果和第一模型输出结果，确定目标损失。上述技术方案通过文本特征相似度进行阈值比较的方式筛选确定目标损失函数，能够更好地指导模型的训练，提高模型性能和泛化能力。

在检测模型的模型训练过程中，分类模型充当辅助作用，且分类模型也在辅助的过程中不断地优化自身模型。而模型收敛的目标分类模型也可以在后续用于对样本的目标进行更加准确的语义文本信息预测。因此，本实施例还提供一种目标分类模型的训练方式，与目标检测模型的训练过程相辅相成，二者均在迭代训练过程中不断优化着自身模型。

在一个可选实施例中，在将第二图像提取图片输入至开集分类模型中进行图像文本描述，得到模型输出的第二图像提取图片对应的第二图像文本描述信息之后，还包括：根据文本特征相似度，确定用于进行开集分类模型训练的优选损失；根据模型输出的第二图像提取图片对应的第二图像文本描述信息，基于优选损失，对开集分类模型进行模型训练，直到满足预设的模型训练结束条件，得到目标分类模型，并采用目标分类模型更新开集分类模型。

其中，模型训练结束条件可以有相关技术人员进行预先设定，例如，模型训练结束条件可以是优选损失趋于稳定或在预设损失范围内波动，也可以是达到预设的模型迭代次数阈值。

示例性的，若文本特征相似度大于预设的第三相似度阈值，例如，第三相似度阈值可以设定为0.85，则优化损失loss_cls-1的确定方式如下。

loss_cls-1＝loss_cls(S_ground,T)；

其中，loss_cls(·)表示文本损失函数；S_ground表示相似度得分；T表示目标文本信息。

示例性的，若文本特征相似度大于预设的第四相似度阈值且不大于第三相似度阈值，例如，第四相似度阈值可以设定为0.35，则优化损失loss_cls-2的确定方式如下。

loss_cls-2＝weight₂*loss_cls(S_ground,T)

其中，weight₂为损失权重值，与上述实施例中损失权重相同，此处对weight₂的确定方式不再进行赘述；loss_cls(·)表示文本损失函数；S_ground表示相似度得分；T表示目标文本信息。

示例性的，若文本特征相似度不大于第四相似度阈值，则确定第二图像文本描述信息与上一轮第二图像文本描述信息是否一致，若否，则不进行优化损失计算，若是，则优化损失loss_cls-3的确定方式如下。

其中，seq_n表示第一特征序列；seq_n-1表示历史特征序列；score_cn为当前迭代周期下的预测得分；score_cn-1为历史迭代周期下的历史预测得分；loss_cls(·)表示文本损失函数；S_ground表示相似度得分；T表示目标文本信息。

基于上述各实施例所述的目标检测模型训练方法，本发明还提供一种目标检测方法。图4B为本发明实施例四提供的一种目标检测方法的流程图，本实施例可适用于对快递场景下包裹内的违禁品进行目标检测的情况，该方法可以由目标检测装置来执行，该目标检测装置可以采用硬件和/或软件的形式实现，该目标检测装置可配置于电子设备中。如图4B所示，该方法包括：

S41、获取待检测X射线图片。

其中，待检测X射线图片可以是待进行违禁品检测的X射线图片。

S42、将待检测X射线图片输入至目标检测模型中，得到模型输出的待检测X射线图片的目标检测框和目标文本描述信息。

示例性的，可以将待检测X射线图片输入至目标检测模型中，得到模型对待检测X射线图片进行目标检测后输出的违禁品所在区域的目标检测框，以及对目标检测框内的违禁品的目标文本描述信息。

其中，目标检测模型采用上述实施例所述的目标检测模型训练方法生成，可参见上述实施例对目标检测模型训练方法的详细描述，本实施例对此不再进行赘述。

实施例五

图5为本发明实施例五提供的一种目标检测模型训练装置的结构示意图。本发明实施例所提供的一种目标检测模型训练装置，该装置可适用于对快递场景下包裹内的违禁品进行目标检测的情况，该目标检测模型训练装置可以采用硬件和/或软件的形式实现，如图5所示，该装置具体包括：第一数据集确定模块501、公开数据集获取模块502、检测模型训练模块503、分类模型训练模块504、第二数据集获取模块505、目标损失确定模块506和目标检测模型训练模块507。其中，

第一数据集确定模块501，用于确定包括多张带有目标样本标签的第一X射线图片的第一样本数据集；

公开数据集获取模块502，用于获取包括多张带有公开检测样本标签的公开检测样本图片的第一公开数据集，以及获取包括多张带有公开分类样本标签的公开分类样本图片的第二公开数据集；

检测模型训练模块503，用于根据所述第一公开数据集和所述第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型；以及，

分类模型训练模块504，用于根据所述第二公开数据集和所述第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型；

第二数据集获取模块505，用于获取包括多张第二X射线图片的第二样本数据集，并将所述第二样本数据集输入至所述开集检测模型进行目标检测，得到预测检测框、预测文本描述信息和预测得分；

目标损失确定模块506，用于根据所述第二样本数据集，基于所述开集检测模型和所述开集分类模型，确定用于进行开集检测模型训练的目标损失；

目标检测模型训练模块507，用于根据所述模型输出的预测检测框、预测文本描述信息和预测得分，基于目标损失，对所述开集检测模型进行模型训练，得到目标检测模型，用于进行X射线场景下的目标检测。

本发明实施例技术方案通过确定第一样本数据集，获取第一公开数据集和第二公开数据集；根据第一公开数据集和第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型；以及，根据第二公开数据集和第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型；获取第二样本数据集，并将第二样本数据集输入至开集检测模型进行目标检测，得到预测检测框、预测文本描述信息和预测得分；根据第二样本数据集，基于开集检测模型和开集分类模型，确定用于进行开集检测模型训练的目标损失；根据模型输出的预测检测框、预测文本描述信息和预测得分，基于目标损失，对开集检测模型进行模型训练，直到满足预设的模型训练结束条件，得到目标检测模型，用于进行X射线场景下的目标检测。上述技术方案结合半监督学习方式对损失函数进行选取，实现在X射线场景下，目标检测模型和目标分类模型的生成，实现对X射线图片不限类别的检测和分类；由分类模型辅助检测模型的模型训练，并在检测模型训练的过程中不断迭代更新，从而使得两个模型均在训练过程中不断地优化，提高了目标检测模型的模型检测性能，从而实现了对目标违禁品的高性能检测。

可选的，所述第一数据集确定模块501，包括：

人工标签确定单元，用于获取所述第一样本数据集中的各所述第一X射线图片的样本人工标签；所述样本人工标签包括人工标注检测框和人工标注描述信息；

伪标签确定单元，用于采用预设的检测网络模型对所述第一样本数据集中的各所述第一X射线图片进行目标检测，生成各所述第一X射线图片分别对应的样本伪标签；所述样本伪标签包括伪检测框、伪文本描述信息和伪得分；

第一数据集确定单元，用于根据相应第一X射线图片的人工标注检测框和伪检测框之间的框相似度，确定各所述第一X射线图片的目标样本标签，并生成包括多张带有所述目标样本标签的第一X射线图片的第一样本数据集。

可选的，所述第一数据集确定单元，包括：

交并比值确定子单元，用于确定相应第一X射线图片的人工标注检测框和伪检测框之间的交并比值；

第一样本标签确定子单元，用于若所述交并比值大于预设的交并比阈值，则将相应第一X射线图片的样本伪标签确定为目标样本标签；以及，

第二样本标签确定子单元，用于若所述交并比值不大于预设的交并比阈值，则采用预设的分类网络模型对相应第一X射线图片的样本人工标签进行标签更新，得到各所述第一X射线图片的目标样本标签。

可选的，所述检测模型训练模块503，包括：

视觉特征提取子模块训练单元，用于采用所述第一公开数据集对预设的检测网络模型进行模型训练，得到参考检测模型；所述参考检测模型包括文本特征提取子模块和视觉特征提取子模块；

公开数据集筛选单元，用于根据所述第一样本数据集中各所述第一X射线图片的目标样本标签中的目标文本描述信息，以及所述第一公开数据集中各所述公开检测样本图片的公开检测样本标签中的公开检测文本描述信息，对所述第一公开数据集中的各公开检测样本图片进行图片筛选，得到筛选公开数据集；

第一混合数据集生成单元，用于生成包括所述筛选公开数据集和所述第一样本数据集的第一混合样本数据集；

检测模型训练单元，用于采用所述第一混合样本数据集对所述参考检测模型中的视觉特征提取子模块进行模型训练，得到开集检测模型。

可选的，分类模型训练模块504，包括：

第一图像提取单元，用于基于所述第一样本数据集中的各所述第一X射线图片的目标检测框，对各所述第一X射线图片进行图像提取，得到第一图像提取图片；

第一提取数据集确定单元，用于采用预设的分类网络模型对所述第一图像提取图片进行图像文本描述，得到所述第一图像提取图片对应的第一图像文本描述信息，并生成包括带有所述第一图像文本描述信息的第一图像提取图片的第一提取样本数据集；

第二混合数据集生成单元，用于生成包括所述第一提取样本数据集和所述第二公开数据集的第二混合样本数据集；

分类模型训练单元，用于采用所述第二混合样本数据集对所述分类网络模型进行模型训练，得到开集分类模型。

可选的，所述装置还包括：

视觉特征图确定模块，用于在所述获取包括多张第二X射线图片的第二样本数据集之后，将所述第二样本数据集输入至所述开集检测模型，得到所述开集检测模型的视觉特征提取子模块输出的各所述第二X射线图片的视觉特征图；

图片相似度确定模块，用于根据各所述第二X射线图片的视觉特征图，确定各所述第二X射线图片的图片相似度；

第二样本筛选模块，用于根据各所述图片相似度，对所述第二样本数据集中的第二X射线图片进行图片筛选，得到筛选后的第二样本数据集。

可选的，所述目标损失确定模块506，包括：

第二图像提取单元，用于基于开集检测模型输出的各所述第二X射线图片的预测检测框，对各所述第二X射线图片进行图像提取，得到第二图像提取图片；

图像文本描述单元，用于将所述第二图像提取图片输入至所述开集分类模型中进行图像文本描述，得到模型输出的第二图像提取图片对应的第二图像文本描述信息；

特征序列确定单元，用于将所述预测文本描述信息和所述第二图像文本描述信息，输入至所述开集检测模型中，得到所述开集检测模型中的文本特征提取子模块输出的预测文本描述信息对应的第一特征序列和第二图像文本描述信息对应的第二特征序列；

文本特征相似度确定单元，用于根据所述第一特征序列和所述第二特征序列，确定文本特征相似度；

目标损失确定单元，用于根据所述文本特征相似度，确定用于进行开集检测模型训练的目标损失。

可选的，所述目标损失确定单元，包括：

模型输出结果确定子单元，用于若所述文本特征相似度不小于预设的第一相似度阈值，则获取当前迭代次数下，开集检测模型基于第二X射线图片输出的第一模型输出结果，以及开集分类模型基于所述第二图像提取图片输出的第二模型输出结果；

第一目标损失确定子单元，用于根据所述第一模型输出结果、所述第二模型输出结果和所述文本特征相似度，确定目标损失；

历史第一输出结果确定子单元，用于若所述文本特征相似度小于预设的第一相似度阈值，则获取历史迭代次数下，开集检测模型基于第二X射线图片输出的历史第一输出结果；

第二目标损失确定子单元，用于根据所述历史第一输出结果和所述第一模型输出结果，确定目标损失。

可选的，所述第一目标损失确定子单元，具体用于：

若所述文本特征相似度不小于第二相似度阈值，则根据所述第一模型输出结果中的预测检测框和预测检测框的坐标信息，确定第一回归损失；以及根据所述第一模型输出结果中的相似度得分和目标文本信息，确定第一文本损失；

根据所述第一回归损失和所述第一文本损失，确定目标损失；以及，

若所述文本特征相似度小于第二相似度阈值且不小于第一相似度阈值，则将所述第一模型输出结果中的预测得分确定为第一预测得分，以及将所述第二模型输出结果中的预测得分确定为第二预测得分；

根据所述第一预测得分、所述第二预测得分和所述文本特征相似度，确定损失权重值；

根据所述第一回归损失、所述第一文本损失和所述损失权重值，确定目标损失。

可选的，所述第二目标损失确定子单元，具体用于：

确定所述历史第一输出结果中的历史检测框和所述第一模型输出结果中的预测检测框之间的框匹配度；

若所述框匹配度不小于预设的匹配度阈值，则根据所述历史第一输出结果和所述第一模型输出结果，确定第二回归损失和第二文本损失；

根据所述第二回归损失和所述第二文本损失，确定目标损失。

可选的，根据所述历史第一输出结果和所述第一模型输出结果，确定第二回归损失和第二文本损失，包括：

根据第一模型输出结果中的预测得分、预测检测框和预测检测框的坐标，以及历史第一输出结果中的历史得分，确定第二回归损失；以及，

根据所述第一模型输出结果中预测文本描述信息对应的第一特征序列、预测得分、相似度得分和目标文本信息，以及历史第一输出结果中的预测文本描述信息对应的历史特征序列和历史得分，确定第二文本损失。

可选的，所述装置还包括：

优化损失确定模块，用于在所述将所述第二图像提取图片输入至所述开集分类模型中进行图像文本描述，得到模型输出的第二图像提取图片对应的第二图像文本描述信息之后，根据所述文本特征相似度，确定用于进行开集分类模型训练的优选损失；

开集分类模型更新模块，用于根据模型输出的第二图像提取图片对应的第二图像文本描述信息，基于所述优选损失，对所述开集分类模型进行模型训练，直到满足预设的模型训练结束条件，得到目标分类模型，并采用所述目标分类模型更新所述开集分类模型。

本发明实施例所提供的目标检测模型训练装置可执行本发明任意实施例所提供的目标检测模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6示出了可以用来实施本发明的实施例的电子设备60的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备60包括至少一个处理器61，以及与至少一个处理器61通信连接的存储器，如只读存储器(ROM)62、随机访问存储器(RAM)63等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器61可以根据存储在只读存储器(ROM)62中的计算机程序或者从存储单元68加载到随机访问存储器(RAM)63中的计算机程序，来执行各种适当的动作和处理。在RAM 63中，还可存储电子设备60操作所需的各种程序和数据。处理器61、ROM 62以及RAM 63通过总线64彼此相连。输入/输出(I/O)接口65也连接至总线64。

电子设备60中的多个部件连接至I/O接口65，包括：输入单元66，例如键盘、鼠标等；输出单元67，例如各种类型的显示器、扬声器等；存储单元68，例如磁盘、光盘等；以及通信单元69，例如网卡、调制解调器、无线通信收发机等。通信单元69允许电子设备60通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器61可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器61的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器61执行上文所描述的各个方法和处理，例如目标检测模型训练方法。

在一些实施例中，目标检测模型训练方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元68。在一些实施例中，计算机程序的部分或者全部可以经由ROM 62和/或通信单元69而被载入和/或安装到电子设备60上。当计算机程序加载到RAM 63并由处理器61执行时，可以执行上文描述的目标检测模型训练方法的一个或多个步骤。备选地，在其他实施例中，处理器61可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标检测模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种目标检测模型训练方法，其特征在于，包括：

根据所述模型输出的预测检测框、预测文本描述信息和预测得分，基于所述目标损失，对所述开集检测模型进行模型训练，得到目标检测模型，用于进行X射线场景下的目标检测。

2.根据权利要求1所述的方法，其特征在于，所述确定包括多张带有目标样本标签的第一X射线图片的第一样本数据集，包括：

获取所述第一样本数据集中的各所述第一X射线图片的样本人工标签；所述样本人工标签包括人工标注检测框和人工标注描述信息；

采用预设的检测网络模型对所述第一样本数据集中的各所述第一X射线图片进行目标检测，生成各所述第一X射线图片分别对应的样本伪标签；所述样本伪标签包括伪检测框、伪文本描述信息和伪得分；

根据相应第一X射线图片的人工标注检测框和伪检测框之间的框相似度，确定各所述第一X射线图片的目标样本标签，并生成包括多张带有所述目标样本标签的第一X射线图片的第一样本数据集。

3.根据权利要求2所述的方法，其特征在于，所述根据相应第一X射线图片的人工标注检测框和伪检测框之间的框相似度，确定各所述第一X射线图片的目标样本标签，包括：

确定相应第一X射线图片的人工标注检测框和伪检测框之间的交并比值；

若所述交并比值大于预设的交并比阈值，则将相应第一X射线图片的样本伪标签确定为目标样本标签；以及，

若所述交并比值不大于预设的交并比阈值，则采用预设的分类网络模型对相应第一X射线图片的样本人工标签进行标签更新，得到各所述第一X射线图片的目标样本标签。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一公开数据集和所述第一样本数据集，对预设的检测网络模型进行模型训练，得到开集检测模型，包括：

采用所述第一公开数据集对预设的检测网络模型进行模型训练，得到参考检测模型；所述参考检测模型包括文本特征提取子模块和视觉特征提取子模块；

根据所述第一样本数据集中各所述第一X射线图片的目标样本标签中的目标文本描述信息，以及所述第一公开数据集中各所述公开检测样本图片的公开检测样本标签中的公开检测文本描述信息，对所述第一公开数据集中的各公开检测样本图片进行图片筛选，得到筛选公开数据集；

生成包括所述筛选公开数据集和所述第一样本数据集的第一混合样本数据集；

采用所述第一混合样本数据集对所述参考检测模型中的视觉特征提取子模块进行模型训练，得到开集检测模型。

5.根据权利要求1所述的方法，其特征在于，所述根据所述第二公开数据集和所述第一样本数据集，对预设的分类网络模型进行模型训练，得到开集分类模型，包括：

基于所述第一样本数据集中的各所述第一X射线图片的目标检测框，对各所述第一X射线图片进行图像提取，得到第一图像提取图片；

采用预设的分类网络模型对所述第一图像提取图片进行图像文本描述，得到所述第一图像提取图片对应的第一图像文本描述信息，并生成包括带有所述第一图像文本描述信息的第一图像提取图片的第一提取样本数据集；

生成包括所述第一提取样本数据集和所述第二公开数据集的第二混合样本数据集；

采用所述第二混合样本数据集对所述分类网络模型进行模型训练，得到开集分类模型。

6.根据权利要求1所述的方法，其特征在于，在所述获取包括多张第二X射线图片的第二样本数据集之后，还包括：

将所述第二样本数据集输入至所述开集检测模型，得到所述开集检测模型的视觉特征提取子模块输出的各所述第二X射线图片的视觉特征图；

根据各所述第二X射线图片的视觉特征图，确定各所述第二X射线图片的图片相似度；

根据各所述图片相似度，对所述第二样本数据集中的第二X射线图片进行图片筛选，得到筛选后的第二样本数据集。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第二样本数据集，基于所述开集检测模型和所述开集分类模型，确定用于进行开集检测模型训练的目标损失，包括：

基于开集检测模型输出的各所述第二X射线图片的预测检测框，对各所述第二X射线图片进行图像提取，得到第二图像提取图片；

将所述第二图像提取图片输入至所述开集分类模型中进行图像文本描述，得到模型输出的第二图像提取图片对应的第二图像文本描述信息；

将所述预测文本描述信息和所述第二图像文本描述信息，输入至所述开集检测模型中，得到所述开集检测模型中的文本特征提取子模块输出的预测文本描述信息对应的第一特征序列和第二图像文本描述信息对应的第二特征序列；

根据所述第一特征序列和所述第二特征序列，确定文本特征相似度；

根据所述文本特征相似度，确定用于进行开集检测模型训练的目标损失。

8.根据权利要求7所述的方法，其特征在于，所述根据所述文本特征相似度，确定用于进行开集检测模型训练的目标损失，包括：

若所述文本特征相似度不小于预设的第一相似度阈值，则获取当前迭代次数下，开集检测模型基于第二X射线图片输出的第一模型输出结果，以及开集分类模型基于所述第二图像提取图片输出的第二模型输出结果；

根据所述第一模型输出结果、所述第二模型输出结果和所述文本特征相似度，确定目标损失；

若所述文本特征相似度小于预设的第一相似度阈值，则获取历史迭代次数下，开集检测模型基于第二X射线图片输出的历史第一输出结果；

根据所述历史第一输出结果和所述第一模型输出结果，确定目标损失。

9.根据权利要求8所述的方法，其特征在于，所述根据所述第一模型输出结果、所述第二模型输出结果和所述文本特征相似度，确定目标损失，包括：

10.根据权利要求8所述的方法，其特征在于，所述根据所述历史第一输出结果和所述第一模型输出结果，确定目标损失，包括：

11.根据权利要求10所述的方法，其特征在于，所述根据所述历史第一输出结果和所述第一模型输出结果，确定第二回归损失和第二文本损失，包括：

12.根据权利要求7所述的方法，其特征在于，在所述将所述第二图像提取图片输入至所述开集分类模型中进行图像文本描述，得到模型输出的第二图像提取图片对应的第二图像文本描述信息之后，还包括：

根据所述文本特征相似度，确定用于进行开集分类模型训练的优选损失；

根据模型输出的第二图像提取图片对应的第二图像文本描述信息，基于所述优选损失，对所述开集分类模型进行模型训练，得到目标分类模型，并采用所述目标分类模型更新所述开集分类模型。

13.一种目标检测方法，其特征在于，包括：

获取待检测X射线图片；

将所述待检测X射线图片输入至目标检测模型中，得到模型输出的待检测X射线图片的目标检测框和目标文本描述信息；

其中，所述目标检测模型采用权利要求1-12任一项所述的方法生成。

14.一种目标检测模型训练装置，其特征在于，包括：

15.一种目标检测装置，其特征在于，包括：

待检测图片获取模块，用于获取待检测X射线图片；

目标检测模块，用于将所述待检测X射线图片输入至目标检测模型中，得到模型输出的待检测X射线图片的目标检测框和目标文本描述信息；

16.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12和/或权利要求13中任一项所述的目标检测模型训练方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-12和/或权利要求13中任一项所述的目标检测模型训练方法。