CN115546590B

CN115546590B - 一种基于多模态预训练持续学习的目标检测优化方法

Info

Publication number: CN115546590B
Application number: CN202211545371.9A
Authority: CN
Inventors: 张倩倩; 张璐; 赵天成; 陆骁鹏
Original assignee: Honglong Technology Hangzhou Co ltd; Hangzhou Linker Technology Co ltd
Current assignee: Honglong Technology Hangzhou Co ltd; Hangzhou Linker Technology Co ltd
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-04-28
Anticipated expiration: 2042-12-05
Also published as: CN115546590A

Abstract

本发明公开了一种基于多模态预训练持续学习的目标检测优化方法，其包括以下步骤：S1、提取表征向量；S2、计算平均距离；S3、目标检测结果过滤优化；S4、持续学习。本方案可以对目标检测结果进行优化，从而达到在不需要更新上游大模型的基础上，以极低的成本提升预训练大模型在目标识别的精准度，节省模型重新训练迭代的成本，消除基础模型的频繁更新对下游任务造成的影响。本方案适用于计算机视觉领域。

Description

一种基于多模态预训练持续学习的目标检测优化方法

技术领域

本发明涉及图像识别领域，尤其是涉及一种基于多模态预训练持续学习的目标检测优化方法。

背景技术

近年来，目标检测模型已经在各个领域得到广泛应用。然而，大部分目标检测模型都遵循数据收集-模型训练评估-模型部署上线的流程。一般情况下，模型在部署上线之后不会继续更新，对线上发生的误报及对目标检测结果需要优化的情况，只能通过重新训练的方式优化模型。在这样的背景下，频繁训练或微调模型，以及后续的模型评估上线会带来巨大的迭代成本，如果能够在检测完成后对结果进行优化，就不需要频繁调整或训练上游模型，可以低成本提升结果准确度。

发明内容

本发明主要是解决现有技术所存在的目标检测结果缺乏有效准确的优化手段的技术问题，提供一种基于多模态预训练持续学习的目标检测优化方法。

本发明针对上述技术问题主要是通过下述技术方案得以解决的：一种基于多模态预训练持续学习的目标检测优化方法，包括以下步骤：

S1、提取表征向量：将对图片i进行目标检测所得到的包含目标j的结果输入训练后的表征提取模型，获得目标j的表征向量；目标检测得到的结果可以包含若干个目标，j是其中之一，一轮只处理一个目标；

S2、计算平均距离：知识库包括正表征库和负表征库；计算目标j的表征向量与正表征库中的每个表征向量的余弦距离，并取最大的前K个计算平均值得到正平均距离d_ij_pos；计算目标j的表征向量与负表征库中的每个表征向量的余弦距离，并取最大的前K个计算平均值得到负平均距离d_ij_neg；K为预设的超参数；

S3、目标检测结果过滤优化：比较d_ij_pos和d_ij_neg，如果d_ij_pos<d_ij_neg，则将此目标j的检测结果过滤；如果d_ij_pos>d_ij_neg，则将此目标j的检测结果保留；

S4、持续学习：对于正表征库的每个表征向量，计算其与正表征库中其它表征向量的余弦距离，并取最大的前K个计算平均值得到此表征向量的平均距离，对正表征库的所有表征向量的平均距离再求平均值得到正库平均距离c_pos；对于负表征库的每个表征向量，计算其与负表征库中其它表征向量的余弦距离，并取最大的前K个计算平均值得到此表征向量的平均距离，对负表征库的所有表征向量的平均距离再求平均值得到负库平均距离c_neg；对每个被保留的目标j, 如果d_ij_pos<c_pos且 d_ij_neg>c_neg , 则将此目标j的表征向量纳入正表征库；对每个被过滤的目标j, 如果d_ij_neg<c_neg 且d_ij_pos>c_pos, 则将此目标j的表征向量纳入负表征库。

通过持续学习，可以不断更新知识库，从而不断提升目标检测结果优化的准确度。

作为优选，所述表征提取模型包括图像编码器和特征金字塔网络（FPN），图像编码器为主干部分；图像编码器为任意的基于图像的神经网络模型，例如resnet、 convnext、vision transformer等；目标检测所得到的包含目标j的结果包括图片i和目标j区域图片；图片i一般为3个颜色通道的自然图像；目标j区域图片理解为从图片i中截取的目标j所在区域的图像，具体形式可以是若干个坐标围成的范围；

目标j的表征向量提取过程具体为：

S101、将图片i输入到作为主干部分的图像编码器，抽取每个输出层输出的特征得到图片i的整体多层特征图；

S102、依据目标j区域图片在图片i中的位置，从整体多层特征图中截取得到目标多层特征图；

S103、使用特征金字塔网络对目标多层特征图进行提取池化，例如ROIAlign，得到目标j的表征向量。

作为优选，表征提取模型的训练时引入文本编码器和教师图像编码器，文本编码器为现有的文本特征提取模型，教师图像编码器为现有的训练后的图像特征提取模型（可以采用表征提取模型中的图像编码器，然后用现有公开的训练库进行训练后作为教师图像编码器）；

表征提取模型的训练时的损失函数为：

L=L_cntrst+L_dist+L_cntrst-img

其中，L_cntrst为目标图文对比损失，计算公式如下：

式中，N为训练所用的样本总数，训练所用的样本包括整体图像、整体图像的描述文本、目标区域图片和目标的描述文本，v_m是第m个样本的目标区域图片经过表征提取模型后得到的图像表征，l_m是第m个样本的目标的描述文本经过文本编码器后得到的文本表征，文本编码器一般可以采用Bert、 Roberta等，文本编码器参与训练但不会被更新，p(v_m,l_m)的计算公式如下：

式中，S为计算括号中两个对象的相似度，τ为温度超参数，Nri为同一批训练所用样本中除第m个样本之外的其它样本的目标的描述文本经过文本编码器后得到的文本表征集合，即文本描述k和图片目标i不匹配，但是和同一个batch（训练样本集）中的其他目标k匹配；

S的计算公式为：

式中，T表示转置，双竖线表示求向量长度，即norm2；

L_dist为图片自监督蒸馏损失，计算公式如下：

式中，L_KL表示计算Kullback-Leibler散度，q_m为第m个样本的整体图像经过图像编码器后再经过指数归一化（softmax）得到的被识别为同一批训练样本中每个整体图像所属类别的概率；q_m_t为第m个样本中的整体图像经过教师图像编码器后再经过指数归一化得到的被识别为整体图像自身所属类别的概率；教师图像编码器的网络权重不更新，即教师图像编码器参与训练但不被训练；

L_cntrst-img为图片级别自监督对比损失：

p(v_m_img)为第m个样本的整体图像输入图像编码器后得到的整图表征（区别于之前的多层表征），l_m_img为第m个样本的整体图像的描述文本输入文本编码器后得到的整图描述文本表征；

通过上述训练任务，模型通过反向传播的方式进行训练优化。表征提取模型中的图像编码器可以选择在公开的大规模预训练数据上进行预训练的模型作为初始模型。

作为优选，步骤S02中，余弦距离的计算公式为：

其中，x=(x₁,x₂,…,x_n)表示目标表征向量，y=(y₁,y₂,…,y_n)表示知识库中的表征向量，n是向量的维度。

作为优选，知识库的原始建立来源于上游目标检测模型对图像的目标推理以及用户对识别结果的反馈。

本发明带来的实质性效果是，可以对目标检测结果进行优化，从而达到在不需要更新上游大模型的基础上，以极低的成本提升预训练大模型在目标识别的精准度，节省模型重新训练迭代的成本，消除基础模型的频繁更新对下游任务造成的影响。

附图说明

图1是本发明的一种目标检测优化过程的流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：本实施例的一种基于多模态预训练持续学习的目标检测优化方法，如图1所示，包括以下步骤：

S2、计算平均距离：知识库包括正表征库和负表征库；计算目标j的表征向量与正表征库中的每个表征向量的余弦距离，并取最大的前K个计算平均值得到正平均距离d_ij_pos；计算目标j的表征向量与负表征库中的每个表征向量的余弦距离，并取最大的前K个计算平均值得到负平均距离d_ij_neg；K为预设的超参数，一般可以取值为50；

所述表征提取模型包括图像编码器和特征金字塔网络，图像编码器为主干部分；图像编码器为任意的基于图像的神经网络模型，例如resnet、 convnext、visiontransformer等；目标检测所得到的包含目标j的结果包括图片i和目标j区域图片；图片i一般为3个颜色通道的自然图像；目标j区域图片理解为从图片i中截取的目标j所在区域的图像，具体形式可以是若干个坐标围成的范围；

目标j的表征向量提取过程具体为：

具体操作如下：对图像编码器中conv2，conv3，conv4和conv5输出层的输出{C2,C3,C4,C5}作为FPN的特征，分别对应于输入图片的下采样倍数为{4，8，16，32}，自顶向下的过程通过上采样(up-sampling)的方式将顶层的小特征图放大到上一个阶段的特征图一样的大小；C5 通过1X1卷积与上采样，加上C4 1X1卷积之后的特征图得到融合层M4，并依次类推得到M3，M2；通过3X3卷积得到最终的FPN特征{P2,P3,P4,P5}；在经过FPN进行特征提取之后，一个非线性变换（神经网络全连接层）被用来将特征表示映射到对比损失的空间；对图像i的目标j来说,就是通过图像区域编码器将目标j抽取为一个表征向量v_ij。

表征提取模型的训练时引入文本编码器和教师图像编码器，文本编码器为现有的文本特征提取模型，教师图像编码器为现有的训练后的图像特征提取模型，可以采用与表征提取模型中相同的图像编码器，然后用现有公开的训练库进行训练后作为教师图像编码器；

表征提取模型的训练时的损失函数为：

L=L_cntrst+L_dist+L_cntrst-img

其中，L_cntrst为目标图文对比损失，计算公式如下：

式中，N为训练所用的样本总数，训练所用的样本包括整体图像、整体图像的描述文本、目标区域图片和目标的描述文本，v_m是第m个样本的目标区域图片经过表征提取模型后得到的图像表征，l_m是第m个样本的目标的描述文本经过文本编码器后得到的文本表征，文本编码器采用Bert或Roberta，文本编码器参与训练但不会被更新，p(v_m,l_m)的计算公式如下：

S的计算公式为：

式中，T表示转置，双竖线表示求向量长度，即norm2；

L_dist为图片自监督蒸馏损失，计算公式如下：

L_cntrst-img为图片级别自监督对比损失；

通过上述训练任务，模型通过反向传播的方式进行训练优化。表征提取模型中的图像编码器可以选择在大规模预训练数据上进行预训练的模型作为初始模型。

步骤S02中，余弦距离的计算公式为：

知识库的原始建立来源于上游目标检测模型对图像的目标推理以及用户对识别结果的反馈。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了表征向量、平均距离等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种基于多模态预训练持续学习的目标检测优化方法，其特征在于，包括以下步骤：

S1、提取表征向量：将对图片i进行目标检测所得到的包含目标j的结果输入训练后的表征提取模型，获得目标j的表征向量；表征提取模型的训练时引入文本编码器和教师图像编码器，文本编码器为现有的文本特征提取模型，教师图像编码器为现有的训练后的图像特征提取模型；

S3、目标检测结果过滤优化：比较 d_ij_pos和d_ij_neg，如果d_ij_pos<d_ij_neg，则将此目标j的检测结果过滤；如果d_ij_pos>d_ij_neg，则将此目标j的检测结果保留；

S4、持续学习：对于正表征库的每个表征向量，计算其与正表征库中其它表征向量的余弦距离，并取最大的前K个计算平均值得到此表征向量的平均距离，对正表征库的所有表征向量的平均距离再求平均值得到正库平均距离c_pos；对于负表征库的每个表征向量，计算其与负表征库中其它表征向量的余弦距离，并取最大的前K个计算平均值得到此表征向量的平均距离，对负表征库的所有表征向量的平均距离再求平均值得到负库平均距离c_neg；对每个被保留的目标j, 如果d_ij_pos<c_pos且 d_ij_neg>c_neg , 则将此目标j的表征向量纳入正表征库；对每个被过滤的目标j, 如果d_ij_neg<c_neg 且d_ij_pos>c_pos ,则将此目标j的表征向量纳入负表征库。

2.根据权利要求1所述的一种基于多模态预训练持续学习的目标检测优化方法，其特征在于，所述表征提取模型包括图像编码器和特征金字塔网络，图像编码器为主干部分，目标检测所得到的包含目标j的结果包括图片i和目标j区域图片；

目标j的表征向量提取过程具体为：

S103、使用特征金字塔网络对目标多层特征图进行提取池化，得到目标j的表征向量。

3.根据权利要求1或2所述的一种基于多模态预训练持续学习的目标检测优化方法，其特征在于，表征提取模型的训练时的损失函数为：

L=L_cntrst+L_dist+L_cntrst-img

其中，L_cntrst为目标图文对比损失，计算公式如下：

式中，N为训练所用的样本总数，训练所用的样本包括整体图像、整体图像的描述文本、目标区域图片和目标的描述文本，v_m是第m个样本的目标区域图片经过表征提取模型后得到的图像表征，l_m是第m个样本的目标的描述文本经过文本编码器后得到的文本表征，p(v_m,l_m)的计算公式如下：

式中，S为计算括号中两个对象的相似度，τ为温度超参数，Nri为同一批训练所用样本中除第m个样本之外的其它样本的目标的描述文本经过文本编码器后得到的文本表征集合；

S的计算公式为：

式中，T表示转置，双竖线表示求向量长度，即norm2；

L_dist为图片自监督蒸馏损失，计算公式如下：

式中，L_KL表示计算Kullback-Leibler散度，q_m为第m个样本的整体图像经过图像编码器后再经过指数归一化得到的被识别为同一批训练样本中每个整体图像所属类别的概率；q_m_t为第m个样本中的整体图像经过教师图像编码器后再经过指数归一化得到的被识别为整体图像自身所属类别的概率；

L_cntrst-img为图片级别自监督对比损失：

p(v_m_img)为第m个样本的整体图像输入图像编码器后得到的整图表征，l_m_img为第m个样本的整体图像的描述文本输入文本编码器后得到的整图描述文本表征；

通过上述训练任务，模型通过反向传播的方式进行训练优化。

4.根据权利要求1或2所述的一种基于多模态预训练持续学习的目标检测优化方法，其特征在于，步骤S02中，余弦距离的计算公式为：

5.根据权利要求3所述的一种基于多模态预训练持续学习的目标检测优化方法，其特征在于，知识库的原始建立来源于上游目标检测模型对图像的目标推理以及用户对识别结果的反馈。