CN113469176B

CN113469176B - 一种目标检测模型训练方法、目标检测方法及其相关设备

Info

Publication number: CN113469176B
Application number: CN202110723057.4A
Authority: CN
Inventors: 江毅; 杨朔; 孙培泽; 袁泽寰; 王长虎
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2023-06-02
Anticipated expiration: 2041-06-28
Also published as: CN113469176A; WO2023273570A1

Abstract

本申请公开了一种目标检测模型训练方法、目标检测方法及其相关设备，先对样本图像的实际目标文本标识进行文本特征提取，得到该样本图像的目标文本特征；再利用该样本图像、该样本图像的目标文本特征和该样本图像的实际目标位置对目标检测模型进行训练，以使该目标检测模型能够在该样本图像的目标文本特征和该样本图像的实际目标位置的约束下进行目标检测学习，从而使得训练好的目标检测模型具有较好的目标检测性能，以便后续能够利用该训练好的目标检测模型针对待检测图像进行更准确地目标检测，得到并输出该待检测图像的目标检测结果，以使该待检测图像的目标检测结果更准确，如此有利于提高目标检测准确性。

Description

一种目标检测模型训练方法、目标检测方法及其相关设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种目标检测模型训练方法、目标检测方法及其相关设备。

背景技术

目标检测(也称，目标提取)是一种基于目标几何统计及特征的图像分割技术；而且目标检测的应用领域十分广泛(如，目标检测可以应用于机器人或者自动驾驶等领域)。

然而，因现有的目标检测技术依旧存在一些缺陷，使得如何提高目标检测准确性仍是一个亟待解决的技术问题。

发明内容

为了解决现有技术中存在的以上技术问题，本申请提供了一种目标检测模型训练方法、目标检测方法及其相关设备，能够有效地提高目标检测准确性。

为了实现上述目的，本申请实施例提供的技术方案如下：

本申请实施例提供一种目标检测模型训练方法，所述方法包括：

获取样本图像、所述样本图像的实际目标文本标识和所述样本图像的实际目标位置；

对所述样本图像的实际目标文本标识进行文本特征提取，得到所述样本图像的目标文本特征；

将所述样本图像输入目标检测模型，得到所述目标检测模型输出的所述样本图像的图像特征和所述样本图像的预测目标位置；

根据所述样本图像的预测目标位置、所述样本图像的实际目标位置、以及所述样本图像的图像特征与所述样本图像的目标文本特征之间的相似度，更新所述目标检测模型，并继续执行所述将所述样本图像输入目标检测模型的步骤，直至达到第一停止条件。

在一种可能的实施方式中，所述对所述样本图像的实际目标文本标识进行文本特征提取，得到所述样本图像的目标文本特征，包括：

将所述样本图像的实际目标文本标识输入预先训练的语言模型，得到所述语言模型输出的所述样本图像的目标文本特征；其中，所述语言模型是根据样本文本和所述样本文本的实际文本特征进行训练的。

在一种可能的实施方式中，在达到第一停止条件之后，所述方法还包括：

在获取到新增图像、所述新增图像的实际目标文本标识和所述新增图像的实际目标位置之后，对所述新增图像的实际目标文本标识进行文本特征提取，得到所述新增图像的目标文本特征；所述新增图像的实际目标文本标识不同于所述样本图像的实际目标文本标识；

将历史样例图像和所述新增图像输入目标检测模型，得到所述目标检测模型输出的所述历史样例图像的图像特征、所述历史样例图像的预测目标位置、所述新增图像的图像特征和所述新增图像的预测目标位置；其中，所述历史样例图像是根据所述样本图像确定的；

根据所述历史样例图像的预测目标位置、所述历史样例图像的实际目标位置、所述历史样例图像的图像特征与所述历史样例图像的目标文本特征之间的相似度、所述新增图像的预测目标位置、所述新增图像的实际目标位置、以及所述新增图像的图像特征与所述新增图像的目标文本特征之间的相似度，更新所述目标检测模型，并继续执行所述将所述历史样例图像和所述新增图像输入目标检测模型的步骤，直至达到第二停止条件。

在一种可能的实施方式中，所述历史样例图像的确定过程，包括：

根据所述样本图像，确定所述目标检测模型对应的训练已使用图像；

根据所述训练已使用图像的实际目标文本标识，确定至少一个历史目标类别；

根据所述训练已使用图像的实际目标文本标识，从所述目标检测模型对应的训练已使用图像中确定属于各个历史目标类别的训练已使用图像；

分别从所述属于各个历史目标类别的训练已使用图像中抽取所述各个历史目标类别对应的历史样例图像。

在一种可能的实施方式中，所述根据所述历史样例图像的预测目标位置、所述历史样例图像的实际目标位置、所述历史样例图像的图像特征与所述历史样例图像的目标文本特征之间的相似度、所述新增图像的预测目标位置、所述新增图像的实际目标位置、以及所述新增图像的图像特征与所述新增图像的目标文本特征之间的相似度，更新所述目标检测模型，包括：

根据所述历史样例图像的预测目标位置、所述历史样例图像的实际目标位置、以及所述历史样例图像的图像特征与所述历史样例图像的目标文本特征之间的相似度，确定历史图像损失值；

根据所述新增图像的预测目标位置、所述新增图像的实际目标位置、以及所述新增图像的图像特征与所述新增图像的目标文本特征之间的相似度，确定新增图像损失值；

将所述历史图像损失值和所述新增图像损失值进行加权求和，得到所述目标检测模型的检测损失值；其中，所述历史图像损失值对应的加权权重高于所述新增图像损失值对应的加权权重；

根据所述目标检测模型的检测损失值，更新所述目标检测模型。

在一种可能的实施方式中，所述将所述样本图像输入目标检测模型，得到所述目标检测模型输出的所述样本图像的图像特征和所述样本图像的预测目标位置，包括：

将所述样本图像输入目标检测模型，得到所述目标检测模型输出的所述样本图像的图像特征、所述样本图像的预测目标文本标识和所述样本图像的预测目标位置；

所述根据所述样本图像的预测目标位置、所述样本图像的实际目标位置、以及所述样本图像的图像特征与所述样本图像的目标文本特征之间的相似度，更新所述目标检测模型，包括：

根据所述样本图像的预测目标文本标识、所述样本图像的实际目标文本标识、所述样本图像的预测目标位置、所述样本图像的实际目标位置、以及所述样本图像的图像特征与所述样本图像的目标文本特征之间的相似度，更新所述目标检测模型。

本申请实施例还提供了一种目标检测方法，所述方法包括：

获取待检测图像；

将所述待检测图像输入预先训练的目标检测模型，得到所述目标检测模型输出的所述待检测图像的目标检测结果；其中，所述目标检测模型是利用本申请实施例提供的目标检测模型训练方法的任一实施方式进行训练的。

本申请实施例还提供了一种目标检测模型训练装置，所述装置包括：

第一获取单元，用于获取样本图像、所述样本图像的实际目标文本标识和所述样本图像的实际目标位置；

第一提取单元，用于对所述样本图像的实际目标文本标识进行文本特征提取，得到所述样本图像的目标文本特征；

第一预测单元，用于将所述样本图像输入目标检测模型，得到所述目标检测模型输出的所述样本图像的图像特征和所述样本图像的预测目标位置；

第一更新单元，用于根据所述样本图像的预测目标位置、所述样本图像的实际目标位置、以及所述样本图像的图像特征与所述样本图像的目标文本特征之间的相似度，更新所述目标检测模型，并返回所述第一预测单元执行所述将所述样本图像输入目标检测模型，直至达到第一停止条件。

本申请实施例还提供了一种目标检测装置，所述装置包括：

第二获取单元，用于获取待检测图像；

目标检测单元，用于将所述待检测图像输入预先训练的目标检测模型，得到所述目标检测模型输出的所述待检测图像的目标检测结果；其中，所述目标检测模型是利用本申请实施例提供的目标检测模型训练方法的任一实施方式进行训练的。

本申请实施例还提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行本申请实施例提供的目标检测模型训练方法的任一实施方式，或者执行本申请实施例提供的目标检测方法的任一实施方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行本申请实施例提供的目标检测模型训练方法的任一实施方式，或者执行本申请实施例提供的目标检测方法的任一实施方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行本申请实施例提供的目标检测模型训练方法的任一实施方式，或者执行本申请实施例提供的目标检测方法的任一实施方式。

与现有技术相比，本申请实施例至少具有以下优点：

本申请实施例提供的技术方案中，先对样本图像的实际目标文本标识进行文本特征提取，得到该样本图像的目标文本特征；再利用该样本图像、该样本图像的目标文本特征和该样本图像的实际目标位置对目标检测模型进行训练，以使该目标检测模型能够在该样本图像的目标文本特征和该样本图像的实际目标位置的约束下进行目标检测学习，从而使得训练好的目标检测模型具有较好的目标检测性能，以便后续能够利用该训练好的目标检测模型针对待检测图像进行更准确地目标检测，得到并输出该待检测图像的目标检测结果，以使该待检测图像的目标检测结果更准确，如此有利于提高目标检测准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种目标检测模型训练方法的流程图；

图2为本申请实施例提供的一种目标检测模型的结构示意图；

图3为本申请实施例提供的一种目标检测方法的流程图；

图4为本申请实施例提供的一种目标检测模型训练装置的结构示意图；

图5为本申请实施例提供的一种目标检测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请的技术方案，下面先介绍目标检测模型的训练过程(也就是，目标检测模型训练方法)，再介绍目标检测模型的应用过程(也就是，目标检测方法)。

方法实施例一

参见图1，该图为本申请实施例提供的一种目标检测模型训练方法的流程图。

本申请实施例提供的目标检测模型训练方法，包括S101-S105：

S101：获取样本图像、该样本图像的实际目标文本标识和该样本图像的实际目标位置。

其中，样本图像是指训练目标检测模型所需使用的图像。另外，本申请实施例不限定样本图像的个数，例如，样本图像的个数可以是N(也就是，利用N个样本图像训练目标检测模型)。

样本图像的实际目标文本标识用于唯一表示该样本图像中目标物体。另外，本申请实施例不限定样本图像的实际目标文本标识，例如，该样本图像的实际目标文本标识可以是物体类别(或者，物体名称等)。例如，若样本图像中包括猫，则该样本图像的实际目标文本标识可以是猫。

样本图像的实际目标位置用于表示该样本图像中目标物体在该样本图像内实际所占区域。另外，本申请不限定样本图像的实际目标位置的表示方式，可以采用现有的或者未来出现的任一种能够表示出一个物体在图像中所占区域的表示方式进行实施。

S102：对样本图像的实际目标文本标识进行文本特征提取，得到该样本图像的目标文本特征。

其中，样本图像的目标文本特征用于描述该样本图像的实际目标文本标识所携带的文本信息(如，语义信息等)，以使该样本图像的目标文本特征能够表示出该样本图像中目标物体在该样本图像中实际呈现的特征。

另外，本申请实施例不限定样本图像的目标文本特征的提取方式(也就是，S102的实施方式)，可以采用现有的或者未来出现的任一种能够针对一个文本进行特征提取的方法进行实施。为了便于理解，下面结合示例进行说明。

作为示例，S102具体可以包括：将样本图像的实际目标文本标识输入预先训练的语言模型，得到该语言模型输出的该样本图像的目标文本特征。

其中，语言模型用于进行文本特征提取；而且本申请实施例不限定语言模型，可以采用现有的或者未来出现的任一种语言模型进行实施。

另外，语言模型可以预先根据样本文本和该样本文本的实际文本特征进行训练。其中，样本文本是指训练语言模型所需使用的文本；而且该样本文本的实际文本特征用于描述该样本文本实际携带的文本信息(如，语义信息等)。

此外，本申请实施例不限定语言模型的训练过程，可以采用现有的或者未来出现的任一种能够依据样本文本和该样本文本的实际文本特征对语言模型进行训练的方法进行实施。

基于上述S102的相关内容可知，若样本图像的个数为N，则在获取到第i个样本图像的实际目标文本标识之后，可以利用预先训练的语言模型针对该第i个样本图像的实际目标文本标识进行文本特征提取，得到并输出该第i个样本图像的目标文本特征，以使该第i个样本图像的目标文本特征能够准确地表征出该第i个样本图像的实际目标文本标识所携带的文本信息，以便后续利用该第i个样本图像的目标文本特征约束目标检测模型的训练更新过程。其中，i为正整数，i≤N，N为正整数。

可见，因预先训练的语言模型能够准确地提取出一个文本所携带的文本信息(尤其是语义信息)，使得该语言模型能够描述的文本个数是无限的，从而使得利用该语言模型针对不同文本输出的这些不同文本的文本特征中任意两者之间均是高度可分性的，如此能够有效地保证任意两个文本的文本特征之间(如，N个样本图像的目标文本特征中任意两个之间)不存在重叠，从而能够有效地提高目标检测模型的检测准确性。另外，还因语言模型在训练过程能够学习到不同文本之间的语义相关性(例如，“猫”与“老虎”之间的语义相关性高于“猫”与“汽车”之间的语义相关)，使得训练好的语言模型能够更好地进行文本特征提取，如此能够有效地提高目标检测模型的检测准确性。

S103：将样本图像输入目标检测模型，得到该目标检测模型输出的该样本图像的图像特征和该样本图像的预测目标位置。

其中，样本图像的图像特征用于表示该样本图像中目标物体在该样本图像中预测呈现的特征。

样本图像的预测目标位置用于表示该样本图像中目标物体在该样本图像内预测所占区域。

目标检测模型用于进行目标检测(如，检测目标物体所属类别和目标物体的图像位置)。另外，本申请实施例不限定目标检测模型，例如，如图2所示，目标检测模型200可以包括图像特征提取层201、目标类别预测层202和目标位置预测层203。其中，目标类别预测层202的输入数据包括图像特征提取层201的输出数据，而且目标位置预测层203的输入数据包括图像特征提取层201的输出数据。

为了便于理解目标检测模型200的工作原理，下面结合样本图像进行说明。

作为示例，在将样本图像输入目标检测模型200之后，该目标检测模型200的工作过程可以包括步骤11-步骤13：

步骤11：将样本图像输入图像特征提取层201，得到该图像特征提取层201输出的该样本图像的图像特征。

其中，图像特征提取层201用于针对该图像特征提取层201的输入数据进行图像特征提取。另外，本申请实施例不限定图像特征提取层201的实施方式，可以采用现有的或者未来出现的任一种能够进行图像特征提取的方案进行实施。

步骤12：将样本图像的图像特征输入目标类别预测层202，得到该目标类别预测层202输出的该样本图像的预测目标文本标识。

其中，目标类别预测层202用于针对该目标类别预测层202的输入数据进行物体类别预测。另外，本申请实施例不限定目标类别预测层202的实施方式，可以采用现有的或者未来出现的任一种能够进行物体类别预测的方案进行实施。

样本图像的预测目标文本标识用于表示样本图像中目标物体的预测标识(如，预测类别)。

步骤13：将样本图像的图像特征输入目标位置预测层203，得到该目标位置预测层203输出的该样本图像的预测目标位置。

其中，目标位置预测层203用于针对该目标位置预测层203的输入数据进行物体位置预测。另外，本申请实施例不限定目标位置预测层203的实施方式，可以采用现有的或者未来出现的任一种能够进行物体位置预测的方案进行实施。

基于上述步骤11至步骤13的相关内容可知，对于图2所示的目标检测模型200来说，在将样本图像输入到该目标检测模型200之后，可以利用图像特征提取层201、目标类别预测层202和目标位置预测层203分别生成并输出该样本图像的图像特征、该样本图像的预测目标文本标识以及该样本图像的预测目标位置，以便后续能够基于这些预测信息来确定该目标检测模型200的目标检测性能。

需要说明的是，对于图2所示的目标检测模型200来说，在一些情况下，图像特征提取层201输出的样本图像的图像特征的数据维度可能与该样本图像的目标文本特征的数据维度不一致，故为了保证后续能够顺利地计算该样本图像的图像特征与该样本图像的目标文本特征之间的相似度，可以在图2所示的目标检测模型200中增加一个数据维度变换层，而且该数据维度变换层的输入数据包括图像特征提取层201的输出数据，以使该数据维度变换层能够针对该图像特征提取层201的输出数据(如，样本图像的图像特征)进行数据维度变换，从而使得该数据维度变换层的输出数据能够与上文样本图像的目标文本特征的数据维度保持一致，如此有利于提高样本图像的图像特征与该样本图像的目标文本特征之间的相似度的计算准确性。

基于上述S103的相关内容可知，若样本图像的个数为N，则在获取到第i个样本图像(或者，针对目标检测模型完成一次更新)之后，可以将第i个样本图像输入目标检测模型，以使该目标检测模型针对该第i个样本图像进行目标检测处理，得到并输出该第i个样本图像的图像特征和该第i个样本图像的预测目标位置，以便后续能够基于该第i个样本图像的图像特征及其预测目标位置，确定该目标检测模型的目标检测性能。其中，i为正整数，i≤N，N为正整数。

S104：判断是否达到第一停止条件，若是，则执行预设动作；若否，则执行S105。

其中，第一停止条件可以预先设定，而且本申请实施例不限定第一停止条件，例如，该第一停止条件可以为目标检测模型的预测损失值低于第一预设损失阈值，也可以为目标检测模型的预测损失值的变化率低于第一变化率阈值，还可以为目标检测模型的更新次数达到第一次数阈值。

需要说明的是，目标检测模型的预测损失值用于表示该目标检测模型针对上文N个样本图像的目标检测性能；而且本申请实施例不限定目标检测模型的预测损失值的计算方式，可以采用现有的或者未来出现的任一种模型预测损失值计算方法进行实施。

预设动作可以预先设定。例如，预设动作可以为结束目标检测模型的训练过程(也就是，结束目标检测模型针对N个样本图像的目标检测学习过程)。又如，对于需要向已训练好的目标检测模型增加新物体检测功能(也就是，针对目标检测模型进行增量式学习)时，该预设动作可以包括下文S106-S109。

基于上述S104的相关内容可知，对于当前轮的目标检测模型来说，可以判断当前轮的目标检测模型是否达到第一停止条件；若达到第一停止条件，则表示当前轮的目标检测模型针对上述N个样本图像具有较好的目标检测性能，从而表示当前轮的目标检测模型的目标检测性能较好，故可以保存当前轮的目标检测模型，以便后续能够利用保存的目标检测模型进行后续工作(如，进行目标检测工作或者进行向目标检测模型增加新物体检测功能的工作)；若未达到第一停止条件，则表示当前轮的目标检测模型针对上述N个样本图像的目标检测性能依旧比较差，故可以依据该N个样本图像对应的标签信息以及由当前轮的目标检测模型针对该N个样本图像输出的预测信息对目标检测模型进行模型更新处理。

S105：根据样本图像的预测目标位置、该样本图像的实际目标位置、以及该样本图像的图像特征与该样本图像的目标文本特征之间的相似度，更新目标检测模型，并返回执行S103。

其中，样本图像的图像特征与该样本图像的目标文本特征之间的相似度用于表示样本图像的图像特征与该样本图像的目标文本特征之间的相似程度。另外，本申请实施例不限定样本图像的图像特征与该样本图像的目标文本特征之间的相似度的计算方式，例如，可以采用欧式距离进行计算。

另外，目标检测模型的训练目标可以包括样本图像的预测目标位置尽可能地接近于该样本图像的实际目标位置，以及该样本图像的图像特征尽可能地接近于该样本图像的目标文本特征(也就是，样本图像的图像特征与该样本图像的目标文本特征之间的相似度尽可能地大)。

基于上述S105的相关内容可知，若样本图像的个数为N，则在确定当前轮的目标检测模型没有达到第一停止条件之后，可以先依据该第i个样本图像的预测目标位置与该样本图像的实际目标位置之间的差距、以及该第i个样本图像的图像特征与该第i个样本图像的目标文本特征之间的相似程度，更新目标检测模型，以使更新后的目标检测模型具有更好的目标检测性能，以便后续继续执行上文S103及其后续步骤。其中，i为正整数，i≤N，N为正整数。

基于上述S101至S105的相关内容可知，在本申请实施例提供的目标检测模型训练方法中，可以先对样本图像的实际目标文本标识进行文本特征提取，得到该样本图像的目标文本特征；再利用该样本图像、该样本图像的目标文本特征和该样本图像的实际目标位置对目标检测模型进行训练，得到训练好的目标检测模型。其中，因样本图像的目标文本特征能够更准确地表示出该样本图像的实际目标文本标识，使得在该样本图像的目标文本特征的约束下训练好的目标检测模型具有更好的目标检测功能，如此有利于提高目标检测性能。

方法实施例二

实际上，训练好的目标检测模型针对其已经学习过的目标物体具有较好的目标检测性能，故为了进一步提高目标检测模型的预测性能，可以让训练好的目标检测模型进一步学习一些其仍未学习过的目标物体(也就是，可以针对目标检测模型进行类别增量式学习)。基于此，本申请实施例还提供了目标检测模型训练方法的一种可能的实施方式，在该实施方式中，该目标检测模型训练方法除了包括上述S101-S105以外，还包括S106-S109：

S106：在获取到新增图像、该新增图像的实际目标文本标识和该新增图像的实际目标位置之后，对该新增图像的实际目标文本标识进行文本特征提取，得到该新增图像的目标文本特征。

其中，新增图像是指针对已训练好的目标检测模型进行类别增量式学习所需使用的图像。

另外，本申请实施例不限定新增图像的个数，例如，新增图像的个数为M；其中，M为正整数。此时，S106-S109可以用于实现目标检测模型在保持已学习到的目标物体的前提下进一步学习如何针对M个新增图像进行目标检测。

另外，新增图像的实际目标文本标识、新增图像的实际目标位置、以及新增图像的目标文本特征的相关内容请分别参见上文S101中样本图像的实际目标文本标识、样本图像的实际目标位置、以及上文S102中样本图像的目标文本特征的相关内容，只需将上文S101中样本图像的实际目标文本标识、样本图像的实际目标位置、以及上文S102中样本图像的目标文本特征的相关内容中“样本图像”替换为“新增图像”即可。

基于上述S106的相关内容可知，对于已训练好的目标检测模型(如，可以是利用上文S101-S105所示的训练过程训练好的目标检测模型，也可以是在利用上文S101-S105所示的训练过程训练好之后又至少一次利用S106-S109所示的训练过程进行类别增量式学习得到的目标检测模型)来说，在获取到新增图像、该新增图像的实际目标文本标识和该新增图像的实际目标位置之后，可以确定需要针对该已训练好的目标检测模型进行一次类别增量式学习，故可以针对该新增图像的实际目标文本标识进行文本特征提取，得到该新增图像的目标文本特征，以便后续能够利用该新增图像的目标文本特征约束该目标检测模型的类别增量式学习过程，以使再次训练好的目标检测模型能够在保持已学习到的目标物体的前提下进一步学习如何针对这些新增图像进行目标检测。

S107：将历史样例图像和新增图像输入目标检测模型，得到该目标检测模型输出的该历史样例图像的图像特征、该历史样例图像的预测目标位置、该新增图像的图像特征和该新增图像的预测目标位置。

其中，历史样例图像可以包括目标检测模型的历史训练过程所使用的全部或者部分图像。

目标检测模型的历史训练过程是指在针对目标检测模型进行当前次类别增量式学习过程之前该目标检测模型已经经历过的类别学习过程。例如，若已训练好的目标检测模型只经历过上文S101-S105所示的类别学习过程，则该目标检测模型的历史训练过程就是指上文S101-S105所示的训练过程。又如，若已训练好的目标检测模型经历过一次上文S101-S105所示的类别学习过程和Q次S106-S109所示的类别增量式学习过程，则该目标检测模型的历史训练过程可以包括上文S101-S105所示的训练过程、第1次S106-S109所示的训练过程至第Q次S106-S109所示的训练过程。

另外，本申请实施例不限定历史样例图像的确定过程，例如，在一种可能的实施方式下，历史样例图像的确定过程的确定过程可以包括步骤21-步骤24：

步骤21：根据样本图像，确定目标检测模型对应的训练已使用图像。

其中，目标检测模型对应的训练已使用图像是指在该目标检测模型的历史训练过程中使用过的图像。为了便于理解，下面结合两个示例进行说明。

示例1，若目标检测模型的历史训练过程包括上文S101-S105所示的训练过程，则该目标检测模型对应的训练已使用图像可以包括上文N个样本图像。

示例2，若目标检测模型的历史训练过程可以包括上文S101-S105所示的训练过程、第1次S106-S109所示的训练过程至第Q次S106-S109所示的训练过程，第q次S106-S109所示的训练过程中使用G_q个新增图像进行类别增量式学习，且q为正整数，q≤Q，则该目标检测模型对应的训练已使用图像可以包括上文N个样本图像、G₁个新增图像、G₂个新增图像、……、G_Q个新增图像。

基于上述步骤21的相关内容可知，在确定需要对已训练好的目标检测模型进行增量式学习之后，可以先依据在该目标检测模型的历史训练过程中涉及的图像，确定该目标检测模型对应的训练已使用图像，以使该训练已使用图像能够准确地表示出在该目标检测模型的历史学习过程中已经使用过的图像。

步骤22：根据训练已使用图像的实际目标文本标识，确定至少一个历史目标类别。

其中，历史目标类别是指目标检测模型在该目标检测模型的历史训练过程中已经学习到的物体类别。为了便于理解，下面结合两个示例进行说明。

示例一，若目标检测模型的历史训练过程包括上文S101-S105所示的训练过程，且上文S101-S105所示的训练过程中N个样本图像对应于R₀个物体类别，则可以将该R₀个物体类别均确定为历史物体类别。

示例二，若目标检测模型的历史训练过程可以包括上文S101-S105所示的训练过程、以及第1次S106-S109所示的训练过程至第Q次S106-S109所示的训练过程，该上文S101-S105所示的训练过程中N个样本图像对应于R₀个物体类别、第q次S106-S109所示的训练过程中G_q个新增图像对应于R_q个物体类别，且q为正整数，q≤Q，则可以将R₀个物体类别、R₁个物体类别、R₂个物体类别、……、R_Q个物体类别均确定为历史物体类别。

需要说明的是，R₀个物体类别、R₁个物体类别、R₂个物体类别、……、R_Q个物体类别中不存在重复出现的物体类别。也就是，R₀个物体类别、R₁个物体类别、R₂个物体类别、……、R_q-1个物体类别中任意两个物体类别均不相同。

基于上述步骤22的相关内容可知，在获取到目标检测模型对应的训练已使用图像之后，可以利用各个训练已使用图像的实际目标文本标识，确定该目标检测模型对应的历史物体类别，以使该历史物体类别能够准确地表示出在该目标检测模型的历史学习过程中已经学到的物体类别。

步骤23：根据训练已使用图像的实际目标文本标识，从目标检测模型对应的训练已使用图像中确定属于各个历史目标类别的训练已使用图像。

作为示例，若历史目标类别的个数为M，而且目标检测模型对应的训练已使用图像中存在Y₁个图像属于第1个历史目标类别、Y₂个图像属于第2个历史目标类别、……、以及Y_M个图像属于第M个历史目标类别，则步骤23具体可以包括：将目标检测模型对应的训练已使用图像中属于第1个历史目标类别的Y₁个图像均确定为属于第1个历史目标类别的训练已使用图像，将目标检测模型对应的训练已使用图像中属于第2个历史目标类别的Y₂个图像均确定为属于第2个历史目标类别的训练已使用图像，……(以此类推)，将目标检测模型对应的训练已使用图像中属于第M个历史目标类别的Y_M个图像均确定为属于第M个历史目标类别的训练已使用图像。

步骤24：分别从属于各个历史目标类别的训练已使用图像中抽取各个历史目标类别对应的历史样例图像。

需要说明的是，本申请实施例不限定步骤24中“抽取”的实施方式，例如，可以参照预先设定的抽取比例(或者，抽取个数等)进行抽取。

例如，若抽取比例为10％，且历史目标类别的个数为M，则步骤24具体可以包括：从属于第1个历史目标类别的训练已使用图像中按照10％的抽取比例进行随机抽取，得到第1个历史目标类别对应的各个历史样例图像，以使该第1个历史目标类别对应的各个历史样例图像的实际目标文本标识均为该第1个历史目标类别；从属于第2个历史目标类别的训练已使用图像中按照10％的抽取比例进行随机抽取，得到第2个历史目标类别对应的各个历史样例图像，以使该第2个历史目标类别对应的各个历史样例图像的实际目标文本标识均为该第2个历史目标类别；……(以此类推)；从属于第M个历史目标类别的训练已使用图像中按照10％的抽取比例进行随机抽取，得到第M个历史目标类别对应的各个历史样例图像，以使该第M个历史目标类别对应的各个历史样例图像的实际目标文本标识均为该第M个历史目标类别。

基于上述步骤21至步骤24的相关内容可知，在确定需要对已训练好的目标检测模型进行增量式学习之后，可以从该目标检测模型的历史训练过程所涉及的图像中抽取一些历史样例图像，以使这些历史样例图像能够代表该在该目标检测模型的历史学习过程中已经学习到的物体类别。

另外，历史样例图像的图像特征、历史样例图像的预测目标位置的相关内容请分别参见上文S103中“样本图像的图像特征”和“样本图像的预测目标位置”的相关内容，只需将上文S103中“样本图像的图像特征”和“样本图像的预测目标位置”的相关内容中“样本图像”替换为“历史样例图像”即可。

此外，新增图像的图像特征、新增图像的预测目标位置的相关内容请分别参见上文S103中“样本图像的图像特征”和“样本图像的预测目标位置”的相关内容，只需将上文S103中“样本图像的图像特征”和“样本图像的预测目标位置”的相关内容中“样本图像”替换为“新增图像”即可。

基于上述S103的相关内容可知，在获取到历史样例图像和新增图像之后，可以将该历史样例图像和新增图像分别输入目标检测模型，以使该目标检测模型分别针对该历史样例图像和该新增图像进行目标检测，得到并输出该历史样例图像的图像特征以及预测目标位置、该新增图像的图像特征以及预测目标位置，以便后续能够基于这些预测信息确定目标检测模型的目标检测性能。

S108：判断是否达到第二停止条件，若是，则执行预设步骤；若否，则执行S109。

其中，第二停止条件可以预先设定，而且本申请实施例不限定第二停止条件，例如，该第二停止条件可以为目标检测模型的检测损失值低于第二预设损失阈值，也可以为目标检测模型的检测损失值的变化率低于第二变化率阈值，还可以为目标检测模型的更新次数达到第二次数阈值。

需要说明的是，目标检测模型的检测损失值用于表示该目标检测模型针对历史样例图像和新增图像的目标检测性能；而且本申请实施例不限定目标检测模型的检测损失值的计算方式，可以采用现有的或者未来出现的任一种模型检测损失值计算方法进行实施。

实际上，因各个历史目标类别对应的历史样例图像的个数通常比较少，故为了提高这些历史样例图像针对目标检测模型的影响，本申请实施例还提供了一种目标检测模型的检测损失值的计算方式，其具体可以包括步骤31-步骤33：

步骤31：根据历史样例图像的预测目标位置、该历史样例图像的实际目标位置、以及该历史样例图像的图像特征与该历史样例图像的目标文本特征之间的相似度，确定历史图像损失值。

其中，历史图像损失值是指目标检测模型针对历史样例图像进行目标检测时所产生的损失值，以使该历史图像损失值用于表示该目标检测模型针对历史样例图像的目标检测性能。

另外，本申请实施例不限定历史图像损失值的计算方式，可以采用现有的或者未来出现的任一种预测损失值计算方法进行实施。

步骤32：根据新增图像的预测目标位置、该新增图像的实际目标位置、以及该新增图像的图像特征与该新增图像的目标文本特征之间的相似度，确定新增图像损失值。

其中，新增图像损失值是指目标检测模型针对新增图像进行目标检测时所产生的损失值，以使该新增图像损失值用于表示该目标检测模型针对新增图像的目标检测性能。

另外，本申请实施例不限定新增图像损失值的计算方式，可以采用现有的或者未来出现的任一种预测损失值计算方法进行实施。

步骤33：将历史图像损失值和新增图像损失值进行加权求和，得到目标检测模型的检测损失值。其中，该历史图像损失值对应的加权权重高于该新增图像损失值对应的加权权重。

其中，历史图像损失值对应的加权权重是指在步骤33的“加权求和”中该历史图像损失值所需乘以的权重值。另外，历史图像损失值对应的加权权重可以预先设定。

新增图像损失值对应的加权权重是指在步骤33的“加权求和”中该新增图像损失值所需乘以的权重值。另外，新增图像损失值对应的加权权重可以预先设定。

基于上述步骤31至步骤33的相关内容可知，为了提高少量历史样例图像及其标签信息对目标检测模型的训练更新过程所产生的约束力，可以在计算目标检测模型的检测损失值的过程中提升历史图像损失值对应的加权权重，以使基于该历史图像损失值对应的加权权重训练好的目标检测模型不仅能够实现针对该目标检测模型对应的新增图像进行准确地目标检测，也能够实现依旧针对该目标检测模型对应的训练已使用图像进行准确地目标检测，如此有利于提高类别增量式学习的准确性。

预设步骤可以预先设定。例如，预设步骤可以为结束目标检测模型的当前次的类别增量式学习过程。又如，对于需要再次向已训练好的目标检测模型增加新物体检测功能(也就是，针对目标检测模型进行下一次的类别增量式学习)时，该预设步骤可以包括上文S106-S109。

基于上述S108的相关内容可知，对于当前轮的目标检测模型来说，可以判断当前轮的目标检测模型是否达到第二停止条件；若达到第二停止条件，则表示当前轮的目标检测模型针对上述历史样例图像以及新增图像均具有较好的目标检测性能，从而表示当前轮的目标检测模型的目标检测性能较好，故可以保存当前轮的目标检测模型，以便后续能够利用保存的目标检测模型进行后续工作(如，进行目标检测工作或者进行向目标检测模型再次增加新物体检测功能的工作)；若未达到第二停止条件，则表示当前轮的目标检测模型针对上述历史样例图像以及新增图像的目标检测性能依旧比较差，故可以依据历史样例图像对应的标签信息、新增图像对应的标签信息、以及由当前轮的目标检测模型针对该历史样例图像和该新增图像输出的预测信息对目标检测模型进行更新处理。

S109：根据历史样例图像的预测目标位置、该历史样例图像的实际目标位置、该历史样例图像的图像特征与该历史样例图像的目标文本特征之间的相似度、新增图像的预测目标位置、该新增图像的实际目标位置、以及该新增图像的图像特征与该新增图像的目标文本特征之间的相似度，更新目标检测模型，并返回执行S107。

其中，目标检测模型的训练目标可以包括历史样例图像的预测目标位置尽可能地接近于该历史样例图像的实际目标位置、该历史样例图像的图像特征尽可能地接近于该历史样例图像的目标文本特征(也就是，历史样例图像的图像特征与该历史样例图像的目标文本特征之间的相似度尽可能地大)、新增图像的预测目标位置尽可能地接近于该新增图像的实际目标位置，以及该新增图像的图像特征尽可能地接近于该新增图像的目标文本特征(也就是，新增图像的图像特征与该新增图像的目标文本特征之间的相似度尽可能地大)。

另外，本申请实施例不限定S109的实施方式，例如，S109具体可以包括S1091-S1094：

S1091：根据历史样例图像的预测目标位置、该历史样例图像的实际目标位置、以及该历史样例图像的图像特征与该历史样例图像的目标文本特征之间的相似度，确定历史图像损失值。

S1092：根据新增图像的预测目标位置、该新增图像的实际目标位置、以及该新增图像的图像特征与该新增图像的目标文本特征之间的相似度，确定新增图像损失值。

S1093：将历史图像损失值和新增图像损失值进行加权求和，得到目标检测模型的检测损失值。其中，该历史图像损失值对应的加权权重高于该新增图像损失值对应的加权权重。

需要说明的是，S1091-S1093的相关内容请分别参见上文步骤31-步骤33的相关内容。

S1094：根据目标检测模型的检测损失值，更新该目标检测模型。

需要说明的是，本申请实施例不限定S1094的实施方式，可以采用现有的任一种依据损失值进行模型更新的方法进行实施。

基于上述S106至S109的相关内容可知，在本申请实施例提供的目标检测模型训练方法中，对于已训练好的目标检测模型来说，若需要向该目标检测模型中增加新物体检测功能，则可以利用新增图像及其标签信息针对该目标检测模型进行类别增量式学习，以使学习好的目标检测模型能够在保持原有目标检测功能的前提下新增针对新增图像的目标检测功能，如此有利于不断地提高目标检测模型的目标检测性能。

方法实施例三

为了进一步提高目标检测模型的目标检测性能，本申请实施例还提供了目标检测模型训练方法的一种可能的实施方式，其具体包括步骤41-步骤45：

步骤41：获取样本图像、该样本图像的实际目标文本标识和该样本图像的实际目标位置。

步骤42：对样本图像的实际目标文本标识进行文本特征提取，得到该样本图像的目标文本特征。

需要说明的是，步骤41-步骤42的相关内容分别参见上文S101-S102。

步骤43：将样本图像输入目标检测模型，得到该目标检测模型输出的该样本图像的图像特征、该样本图像的预测目标文本标识和该样本图像的预测目标位置。

其中，样本图像的预测目标文本标识用于表示该样本图像中目标物体的预测标识(如，预测类别)。

需要说明的是，步骤43可以采用上文S103的任一实施方式进行实施，只需将上文S103中目标检测模型的输出数据由“样本图像的图像特征和该样本图像的预测目标位置”替换为“样本图像的图像特征、该样本图像的预测目标文本标识和该样本图像的预测目标位置”即可。

步骤44：判断是否达到第一停止条件，若是，则执行预设动作；若否，则执行步骤45。

需要说明的是，步骤44的相关内容请参见上文S104的相关内容。另外，步骤44中“目标检测模型的预测损失值”是根据样本图像的预测目标文本标识、该样本图像的实际目标文本标识、该样本图像的预测目标位置、该样本图像的实际目标位置、以及该样本图像的图像特征与该样本图像的目标文本特征之间的相似度进行计算的。

步骤45：根据样本图像的预测目标文本标识、该样本图像的实际目标文本标识、该样本图像的预测目标位置、该样本图像的实际目标位置、以及该样本图像的图像特征与该样本图像的目标文本特征之间的相似度，更新目标检测模型，并返回执行步骤43。

需要说明的是，步骤45可以采用上文S105的任一实施方式进行实施，只需将上文S105的任一实施方式中“样本图像的预测目标位置、该样本图像的实际目标位置、以及该样本图像的图像特征与该样本图像的目标文本特征之间的相似度”替换为“样本图像的预测目标文本标识、该样本图像的实际目标文本标识、该样本图像的预测目标位置、该样本图像的实际目标位置、以及该样本图像的图像特征与该样本图像的目标文本特征之间的相似度”即可。

也就是，步骤45中目标检测模型的更新过程是根据样本图像的预测目标文本标识、该样本图像的实际目标文本标识、该样本图像的预测目标位置、该样本图像的实际目标位置、以及该样本图像的图像特征与该样本图像的目标文本特征之间的相似度进行实施。

基于上述步骤41至步骤45的相关内容可知，在本申请实施例提供的目标检测模型训练方法中，可以先对样本图像的实际目标文本标识进行文本特征提取，得到该样本图像的目标文本特征；再利用该样本图像、该样本图像的目标文本特征、该样本图像的实际目标文本标识、以及该样本图像的实际目标位置对目标检测模型进行训练，得到训练好的目标检测模型。其中，因目标检测模型是在样本图像的目标文本特征、实际目标文本标识以及实际目标位置这三种标签信息的约束下进行训练的，使得训练好的目标检测模型具有更好的目标检测功能，如此有利于提高目标检测性能。

方法实施例四

为了进一步提高目标检测模型的预测性能，本申请实施例还提供了目标检测模型训练方法的一种可能的实施方式，在该实施方式中，该目标检测模型训练方法除了包括上述步骤41-步骤45以外，还包括步骤46-步骤49：

步骤46：在获取到新增图像、该新增图像的实际目标文本标识和该新增图像的实际目标位置之后，对该新增图像的实际目标文本标识进行文本特征提取，得到该新增图像的目标文本特征。

需要说明的是，步骤46的相关内容可以参见上文S106的相关内容。

步骤47：将历史样例图像和新增图像输入目标检测模型，得到该目标检测模型输出的该历史样例图像的图像特征、该历史样例图像的预测目标文本标识、该历史样例图像的预测目标位置、该新增图像的图像特征、该新增图像的预测目标文本标识和该新增图像的预测目标位置。

其中，历史样例图像的预测目标文本标识用于表示该历史样例图像中目标物体的预测标识(如，预测类别)。

新增图像的预测目标文本标识用于表示该新增图像中目标物体的预测标识(如，预测类别)。

需要说明的是，步骤47的相关内容可以采用上文S107的任一实施方式进行实施，只需将上文S107中目标检测模型的输出数据由“历史样例图像的图像特征、该历史样例图像的预测目标位置、新增图像的图像特征和该新增图像的预测目标位置”替换为“历史样例图像的图像特征、该历史样例图像的预测目标文本标识、该历史样例图像的预测目标位置、新增图像的图像特征、该新增图像的预测目标文本标识和该新增图像的预测目标位置”即可。

步骤48：判断是否达到第二停止条件，若是，则执行预设步骤；若否，则执行步骤49。

需要说明的是，步骤48的相关内容可以参见上文S108的相关内容。另外，步骤48中“目标检测模型的检测损失值”是根据历史样例图像的预测目标文本标识、该历史样例图像的实际目标文本标识、该历史样例图像的预测目标位置、该历史样例图像的实际目标位置、新增图像的预测目标文本标识、该新增图像的实际目标文本标识、该新增图像的预测目标位置、该新增图像的实际目标位置、该历史样例图像的图像特征与该历史样例图像的目标文本特征之间的相似度、以及该新增图像的图像特征与该新增图像的目标文本特征之间的相似度进行计算的。

步骤49：根据历史样例图像的预测目标文本标识、该历史样例图像的实际目标文本标识、该历史样例图像的预测目标位置、该历史样例图像的实际目标位置、新增图像的预测目标文本标识、该新增图像的实际目标文本标识、该新增图像的预测目标位置、该新增图像的实际目标位置、该历史样例图像的图像特征与该历史样例图像的目标文本特征之间的相似度、以及该新增图像的图像特征与该新增图像的目标文本特征之间的相似度，更新目标检测模型，并返回执行步骤47。

需要说明的是，步骤49可以采用上文S109的任一实施方式进行实施，只需将上文S109的任一实施方式中“历史样例图像的预测目标位置、该历史样例图像的实际目标位置、新增图像的预测目标位置、该新增图像的实际目标位置、该历史样例图像的图像特征与该历史样例图像的目标文本特征之间的相似度、以及该新增图像的图像特征与该新增图像的目标文本特征之间的相似度”替换为“历史样例图像的预测目标文本标识、该历史样例图像的实际目标文本标识、该历史样例图像的预测目标位置、该历史样例图像的实际目标位置、新增图像的预测目标文本标识、该新增图像的实际目标文本标识、该新增图像的预测目标位置、该新增图像的实际目标位置、该历史样例图像的图像特征与该历史样例图像的目标文本特征之间的相似度、以及该新增图像的图像特征与该新增图像的目标文本特征之间的相似度”即可。

基于上述步骤46至步骤49的相关内容可知，在本申请实施例提供的目标检测模型训练方法中，对于已训练好的目标检测模型来说，若需要向该目标检测模型中增加新物体检测功能，则可以利用新增图像及其三项标签信息(也就是，目标文本特征、实际目标文本标识和实际目标位置)针对该目标检测模型进行增量式学习，以使学习好的目标检测模型能够在保持原有目标检测功能的前提下新增针对新增图像的目标检测功能，如此有利于不断地提高目标检测模型的目标检测性能。

在训练好目标检测模型之后，可以利用该目标检测模型进行目标检测。基于此，本申请实施例还提供了一种目标检测方法，下面结合附图进行说明。

方法实施例五

参见图3，该图为本申请实施例提供的一种目标检测方法的流程图。

本申请实施例提供的目标检测方法，包括S301-S302：

S301：获取待检测图像。

其中，待检测图像是指需要进行目标检测处理的图像。

S302：将待检测图像输入预先训练的目标检测模型，得到该目标检测模型输出的该待检测图像的目标检测结果。

其中，目标检测模型是利用本申请实施例提供的目标检测模型训练方法的任一实施方式进行训练的。

待检测图像的目标检测结果是由目标检测模型针对该待检测图像进行目标检测得到的。另外，本申请实施例不限定待检测图像的目标检测结果，例如，待检测图像的目标检测结果可以包括该待检测图像中目标物体的预测目标文本标识(如，预测目标类别)和/或该待检测图像中目标物体在该待检测图像内所占区域。

基于上述S301至S302的相关内容可知，在获取到待检测图像之后，可以利用已训练好的目标检测模型针对该待检测图像进行目标检测，得到并输出该待检测图像的目标检测结果，以使该待检测图像的目标检测结果能够准确地表示出该待检测图像中目标物体的相关信息(如，目标类别信息以及目标位置信息等)。其中，因已训练好的目标检测模型具有较好的目标检测性能，使得利用该目标检测模型确定的待检测图像的目标检测结果更准确，如此有利于提高目标检测准确性。

基于上述方法实施例提供的目标检测模型训练方法，本申请实施例还提供了一种目标检测模型训练装置，下面结合附图进行解释和说明。

装置实施例一

装置实施例一提供的目标检测模型训练装置的技术详情，请参照上述方法实施例。

参见图4，该图为本申请实施例提供的一种目标检测模型训练装置的结构示意图。

本申请实施例提供的目标检测模型训练装置400，包括：

第一获取单元401，用于获取样本图像、所述样本图像的实际目标文本标识和所述样本图像的实际目标位置；

第一提取单元402，用于对所述样本图像的实际目标文本标识进行文本特征提取，得到所述样本图像的目标文本特征；

第一预测单元403，用于将所述样本图像输入目标检测模型，得到所述目标检测模型输出的所述样本图像的图像特征和所述样本图像的预测目标位置；

第一更新单元404，用于根据所述样本图像的预测目标位置、所述样本图像的实际目标位置、以及所述样本图像的图像特征与所述样本图像的目标文本特征之间的相似度，更新所述目标检测模型，并返回所述第一预测单元403执行所述将所述样本图像输入目标检测模型，直至达到第一停止条件。

在一种可能的实施方式中，所述第一提取单元402，具体用于：

在一种可能的实施方式中，所述目标检测模型训练装置400还包括：

第二提取单元，用于在达到第一停止条件且获取到新增图像、所述新增图像的实际目标文本标识和所述新增图像的实际目标位置之后，对所述新增图像的实际目标文本标识进行文本特征提取，得到所述新增图像的目标文本特征；

第二预测单元，用于将历史样例图像和所述新增图像输入目标检测模型，得到所述目标检测模型输出的所述历史样例图像的图像特征、所述历史样例图像的预测目标位置、所述新增图像的图像特征和所述新增图像的预测目标位置；其中，所述历史样例图像是根据所述样本图像确定的；

第二更新单元，用于根据所述历史样例图像的预测目标位置、所述历史样例图像的实际目标位置、所述历史样例图像的图像特征与所述历史样例图像的目标文本特征之间的相似度、所述新增图像的预测目标位置、所述新增图像的实际目标位置、以及所述新增图像的图像特征与所述新增图像的目标文本特征之间的相似度，更新所述目标检测模型，并返回所述第二预测单元执行所述将所述历史样例图像和所述新增图像输入目标检测模型，直至达到第二停止条件。

在一种可能的实施方式中，所述第二更新单元，包括：

第一确定子单元，用于根据所述历史样例图像的预测目标位置、所述历史样例图像的实际目标位置、以及所述历史样例图像的图像特征与所述历史样例图像的目标文本特征之间的相似度，确定历史图像损失值；

第二确定子单元，用于根据所述新增图像的预测目标位置、所述新增图像的实际目标位置、以及所述新增图像的图像特征与所述新增图像的目标文本特征之间的相似度，确定新增图像损失值；

第三确定子单元，用于将所述历史图像损失值和所述新增图像损失值进行加权求和，得到所述目标检测模型的检测损失值；其中，所述历史图像损失值对应的加权权重高于所述新增图像损失值对应的加权权重；

模型更新子单元，用于根据所述目标检测模型的检测损失值，更新所述目标检测模型。

在一种可能的实施方式中，所述第一预测单元403，具体用于：

所述第一更新单元404，具体用于：

根据所述样本图像的预测目标文本标识、所述样本图像的实际目标文本标识、所述样本图像的预测目标位置、所述样本图像的实际目标位置、以及所述样本图像的图像特征与所述样本图像的目标文本特征之间的相似度，更新所述目标检测模型，并返回所述第一预测单元403执行所述将所述样本图像输入目标检测模型，直至达到第一停止条件。

基于上述目标检测模型训练装置400的相关内容可知，对于目标检测模型训练装置400来说，先对样本图像的实际目标文本标识进行文本特征提取，得到该样本图像的目标文本特征；再利用该样本图像、该样本图像的目标文本特征和该样本图像的实际目标位置对目标检测模型进行训练，得到训练好的目标检测模型。其中，因样本图像的目标文本特征能够更准确地表示出该样本图像的实际目标文本标识，使得基于该样本图像的目标文本特征训练好的目标检测模型具有更好的目标检测功能，如此有利于提高目标检测性能。

基于上述方法实施例提供的目标检测方法，本申请实施例还提供了一种目标检测装置，下面结合附图进行解释和说明。

装置实施例二

装置实施例二提供的目标检测装置的技术详情，请参照上述方法实施例。

参见图5，该图为本申请实施例提供的一种目标检测装置的结构示意图。

本申请实施例提供的目标检测装置500，包括：

第二获取单元501，用于获取待检测图像；

目标检测单元502，用于将所述待检测图像输入预先训练的目标检测模型，得到所述目标检测模型输出的所述待检测图像的目标检测结果；其中，所述目标检测模型是利用本申请实施例提供的目标检测模型训练方法的任一实施方式进行训练的。

基于上述目标检测装置500的相关内容可知，对于目标检测装置500来说，在获取到待检测图像之后，可以利用已训练好的目标检测模型针对该待检测图像进行目标检测，得到并输出该待检测图像的目标检测结果，以使该待检测图像的目标检测结果能够准确地表示出该待检测图像中目标物体的相关信息(如，目标类别信息以及目标位置信息等)。其中，因已训练好的目标检测模型具有较好的目标检测性能，使得利用该目标检测模型确定的待检测图像的目标检测结果更准确，如此有利于提高目标检测准确性。

进一步地，本申请实施例还提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行本申请实施例提供的目标检测模型训练方法的任一实施方式，或者执行本申请实施例提供的目标检测方法的任一实施方式。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行本申请实施例提供的目标检测模型训练方法的任一实施方式，或者执行本申请实施例提供的目标检测方法的任一实施方式。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种目标检测模型训练方法，其特征在于，所述方法包括：

根据所述样本图像的预测目标位置、所述样本图像的实际目标位置、以及所述样本图像的图像特征与所述样本图像的目标文本特征之间的相似度，更新所述目标检测模型，并继续执行所述将所述样本图像输入目标检测模型的步骤，直至达到第一停止条件；所述目标检测模型的训练目标包括所述样本图像的图像特征接近所述样本图像的目标文本特征。

2.根据权利要求1所述的方法，其特征在于，所述对所述样本图像的实际目标文本标识进行文本特征提取，得到所述样本图像的目标文本特征，包括：

将所述样本图像的实际目标文本标识输入预先训练的语言模型，得到所述语言模型输出的所述样本图像的目标文本特征。

3.根据权利要求1所述的方法，其特征在于，在达到第一停止条件之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述历史样例图像的确定过程，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述历史样例图像的预测目标位置、所述历史样例图像的实际目标位置、所述历史样例图像的图像特征与所述历史样例图像的目标文本特征之间的相似度、所述新增图像的预测目标位置、所述新增图像的实际目标位置、以及所述新增图像的图像特征与所述新增图像的目标文本特征之间的相似度，更新所述目标检测模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述样本图像输入目标检测模型，得到所述目标检测模型输出的所述样本图像的图像特征和所述样本图像的预测目标位置，包括：

7.一种目标检测方法，其特征在于，所述方法包括：

获取待检测图像；

将所述待检测图像输入预先训练的目标检测模型，得到所述目标检测模型输出的所述待检测图像的目标检测结果；其中，所述目标检测模型是利用权利要求1-6任一项所述的目标检测模型训练方法进行训练的。

8.一种目标检测模型训练装置，其特征在于，所述装置包括：

第一更新单元，用于根据所述样本图像的预测目标位置、所述样本图像的实际目标位置、以及所述样本图像的图像特征与所述样本图像的目标文本特征之间的相似度，更新所述目标检测模型，并返回所述第一预测单元执行所述将所述样本图像输入目标检测模型，直至达到第一停止条件；所述目标检测模型的训练目标包括所述样本图像的图像特征接近所述样本图像的目标文本特征。

9.一种目标检测装置，其特征在于，所述装置包括：

第二获取单元，用于获取待检测图像；

目标检测单元，用于将所述待检测图像输入预先训练的目标检测模型，得到所述目标检测模型输出的所述待检测图像的目标检测结果；其中，所述目标检测模型是利用权利要求1-6任一项所述的目标检测模型训练方法进行训练的。

10.一种设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1-6中任一项所述的目标检测模型训练方法，或者执行权利要求7所述的目标检测方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-6中任一项所述的目标检测模型训练方法，或者执行权利要求7所述的目标检测方法。