CN115546590B - 一种基于多模态预训练持续学习的目标检测优化方法 - Google Patents

一种基于多模态预训练持续学习的目标检测优化方法 Download PDF

Info

Publication number
CN115546590B
CN115546590B CN202211545371.9A CN202211545371A CN115546590B CN 115546590 B CN115546590 B CN 115546590B CN 202211545371 A CN202211545371 A CN 202211545371A CN 115546590 B CN115546590 B CN 115546590B
Authority
CN
China
Prior art keywords
characterization
target
vector
training
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211545371.9A
Other languages
English (en)
Other versions
CN115546590A (zh
Inventor
张倩倩
张璐
赵天成
陆骁鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honglong Technology Hangzhou Co ltd
Hangzhou Linker Technology Co ltd
Original Assignee
Honglong Technology Hangzhou Co ltd
Hangzhou Linker Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honglong Technology Hangzhou Co ltd, Hangzhou Linker Technology Co ltd filed Critical Honglong Technology Hangzhou Co ltd
Priority to CN202211545371.9A priority Critical patent/CN115546590B/zh
Publication of CN115546590A publication Critical patent/CN115546590A/zh
Application granted granted Critical
Publication of CN115546590B publication Critical patent/CN115546590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态预训练持续学习的目标检测优化方法,其包括以下步骤:S1、提取表征向量;S2、计算平均距离;S3、目标检测结果过滤优化;S4、持续学习。本方案可以对目标检测结果进行优化,从而达到在不需要更新上游大模型的基础上,以极低的成本提升预训练大模型在目标识别的精准度,节省模型重新训练迭代的成本,消除基础模型的频繁更新对下游任务造成的影响。本方案适用于计算机视觉领域。

Description

一种基于多模态预训练持续学习的目标检测优化方法
技术领域
本发明涉及图像识别领域,尤其是涉及一种基于多模态预训练持续学习的目标检测优化方法。
背景技术
近年来,目标检测模型已经在各个领域得到广泛应用。然而,大部分目标检测模型都遵循数据收集-模型训练评估-模型部署上线的流程。一般情况下,模型在部署上线之后不会继续更新,对线上发生的误报及对目标检测结果需要优化的情况,只能通过重新训练的方式优化模型。在这样的背景下,频繁训练或微调模型,以及后续的模型评估上线会带来巨大的迭代成本,如果能够在检测完成后对结果进行优化,就不需要频繁调整或训练上游模型,可以低成本提升结果准确度。
发明内容
本发明主要是解决现有技术所存在的目标检测结果缺乏有效准确的优化手段的技术问题,提供一种基于多模态预训练持续学习的目标检测优化方法。
本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种基于多模态预训练持续学习的目标检测优化方法,包括以下步骤:
S1、提取表征向量:将对图片i进行目标检测所得到的包含目标j的结果输入训练后的表征提取模型,获得目标j的表征向量;目标检测得到的结果可以包含若干个目标,j是其中之一,一轮只处理一个目标;
S2、计算平均距离:知识库包括正表征库和负表征库;计算目标j的表征向量与正表征库中的每个表征向量的余弦距离,并取最大的前K个计算平均值得到正平均距离d_ij_pos;计算目标j的表征向量与负表征库中的每个表征向量的余弦距离,并取最大的前K个计算平均值得到负平均距离d_ij_neg;K为预设的超参数;
S3、目标检测结果过滤优化:比较d_ij_pos和d_ij_neg,如果d_ij_pos<d_ij_neg,则将此目标j的检测结果过滤;如果d_ij_pos>d_ij_neg,则将此目标j的检测结果保留;
S4、持续学习:对于正表征库的每个表征向量,计算其与正表征库中其它表征向量的余弦距离,并取最大的前K个计算平均值得到此表征向量的平均距离,对正表征库的所有表征向量的平均距离再求平均值得到正库平均距离c_pos;对于负表征库的每个表征向量,计算其与负表征库中其它表征向量的余弦距离,并取最大的前K个计算平均值得到此表征向量的平均距离,对负表征库的所有表征向量的平均距离再求平均值得到负库平均距离c_neg;对每个被保留的目标j, 如果d_ij_pos<c_pos且 d_ij_neg>c_neg , 则将此目标j的表征向量纳入正表征库;对每个被过滤的目标j, 如果d_ij_neg<c_neg 且d_ij_pos>c_pos, 则将此目标j的表征向量纳入负表征库。
通过持续学习,可以不断更新知识库,从而不断提升目标检测结果优化的准确度。
作为优选,所述表征提取模型包括图像编码器和特征金字塔网络(FPN),图像编码器为主干部分;图像编码器为任意的基于图像的神经网络模型,例如resnet、 convnext、vision transformer等;目标检测所得到的包含目标j的结果包括图片i和目标j区域图片;图片i一般为3个颜色通道的自然图像;目标j区域图片理解为从图片i中截取的目标j所在区域的图像,具体形式可以是若干个坐标围成的范围;
目标j的表征向量提取过程具体为:
S101、将图片i输入到作为主干部分的图像编码器,抽取每个输出层输出的特征得到图片i的整体多层特征图;
S102、依据目标j区域图片在图片i中的位置,从整体多层特征图中截取得到目标多层特征图;
S103、使用特征金字塔网络对目标多层特征图进行提取池化,例如ROIAlign,得到目标j的表征向量。
作为优选,表征提取模型的训练时引入文本编码器和教师图像编码器,文本编码器为现有的文本特征提取模型,教师图像编码器为现有的训练后的图像特征提取模型(可以采用表征提取模型中的图像编码器,然后用现有公开的训练库进行训练后作为教师图像编码器);
表征提取模型的训练时的损失函数为:
L=Lcntrst+Ldist+Lcntrst-img
其中,Lcntrst为目标图文对比损失,计算公式如下:
式中,N为训练所用的样本总数,训练所用的样本包括整体图像、整体图像的描述文本、目标区域图片和目标的描述文本,v_m是第m个样本的目标区域图片经过表征提取模型后得到的图像表征,l_m是第m个样本的目标的描述文本经过文本编码器后得到的文本表征,文本编码器一般可以采用Bert、 Roberta等,文本编码器参与训练但不会被更新,p(v_m,l_m)的计算公式如下:
式中,S为计算括号中两个对象的相似度,τ为温度超参数,Nri为同一批训练所用样本中除第m个样本之外的其它样本的目标的描述文本经过文本编码器后得到的文本表征集合,即文本描述k和图片目标i不匹配,但是和同一个batch(训练样本集)中的其他目标k匹配;
S的计算公式为:
式中,T表示转置,双竖线表示求向量长度,即norm2;
Ldist为图片自监督蒸馏损失,计算公式如下:
式中,LKL表示计算Kullback-Leibler散度,q_m为第m个样本的整体图像经过图像编码器后再经过指数归一化(softmax)得到的被识别为同一批训练样本中每个整体图像所属类别的概率;q_m_t为第m个样本中的整体图像经过教师图像编码器后再经过指数归一化得到的被识别为整体图像自身所属类别的概率;教师图像编码器的网络权重不更新,即教师图像编码器参与训练但不被训练;
Lcntrst-img为图片级别自监督对比损失:
p(v_m_img)为第m个样本的整体图像输入图像编码器后得到的整图表征(区别于之前的多层表征),l_m_img为第m个样本的整体图像的描述文本输入文本编码器后得到的整图描述文本表征;
通过上述训练任务,模型通过反向传播的方式进行训练优化。表征提取模型中的图像编码器可以选择在公开的大规模预训练数据上进行预训练的模型作为初始模型。
作为优选,步骤S02中,余弦距离的计算公式为:
其中,x=(x1,x2,…,xn)表示目标表征向量,y=(y1,y2,…,yn)表示知识库中的表征向量,n是向量的维度。
作为优选,知识库的原始建立来源于上游目标检测模型对图像的目标推理以及用户对识别结果的反馈。
本发明带来的实质性效果是,可以对目标检测结果进行优化,从而达到在不需要更新上游大模型的基础上,以极低的成本提升预训练大模型在目标识别的精准度,节省模型重新训练迭代的成本,消除基础模型的频繁更新对下游任务造成的影响。
附图说明
图1是本发明的一种目标检测优化过程的流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种基于多模态预训练持续学习的目标检测优化方法,如图1所示,包括以下步骤:
S1、提取表征向量:将对图片i进行目标检测所得到的包含目标j的结果输入训练后的表征提取模型,获得目标j的表征向量;目标检测得到的结果可以包含若干个目标,j是其中之一,一轮只处理一个目标;
S2、计算平均距离:知识库包括正表征库和负表征库;计算目标j的表征向量与正表征库中的每个表征向量的余弦距离,并取最大的前K个计算平均值得到正平均距离d_ij_pos;计算目标j的表征向量与负表征库中的每个表征向量的余弦距离,并取最大的前K个计算平均值得到负平均距离d_ij_neg;K为预设的超参数,一般可以取值为50;
S3、目标检测结果过滤优化:比较d_ij_pos和d_ij_neg,如果d_ij_pos<d_ij_neg,则将此目标j的检测结果过滤;如果d_ij_pos>d_ij_neg,则将此目标j的检测结果保留;
S4、持续学习:对于正表征库的每个表征向量,计算其与正表征库中其它表征向量的余弦距离,并取最大的前K个计算平均值得到此表征向量的平均距离,对正表征库的所有表征向量的平均距离再求平均值得到正库平均距离c_pos;对于负表征库的每个表征向量,计算其与负表征库中其它表征向量的余弦距离,并取最大的前K个计算平均值得到此表征向量的平均距离,对负表征库的所有表征向量的平均距离再求平均值得到负库平均距离c_neg;对每个被保留的目标j, 如果d_ij_pos<c_pos且 d_ij_neg>c_neg , 则将此目标j的表征向量纳入正表征库;对每个被过滤的目标j, 如果d_ij_neg<c_neg 且d_ij_pos>c_pos, 则将此目标j的表征向量纳入负表征库。
所述表征提取模型包括图像编码器和特征金字塔网络,图像编码器为主干部分;图像编码器为任意的基于图像的神经网络模型,例如resnet、 convnext、visiontransformer等;目标检测所得到的包含目标j的结果包括图片i和目标j区域图片;图片i一般为3个颜色通道的自然图像;目标j区域图片理解为从图片i中截取的目标j所在区域的图像,具体形式可以是若干个坐标围成的范围;
目标j的表征向量提取过程具体为:
S101、将图片i输入到作为主干部分的图像编码器,抽取每个输出层输出的特征得到图片i的整体多层特征图;
S102、依据目标j区域图片在图片i中的位置,从整体多层特征图中截取得到目标多层特征图;
S103、使用特征金字塔网络对目标多层特征图进行提取池化,例如ROIAlign,得到目标j的表征向量。
具体操作如下:对图像编码器中conv2,conv3,conv4和conv5输出层的输出{C2,C3,C4,C5}作为FPN的特征,分别对应于输入图片的下采样倍数为{4,8,16,32},自顶向下的过程通过上采样(up-sampling)的方式将顶层的小特征图放大到上一个阶段的特征图一样的大小;C5 通过1X1卷积与上采样,加上C4 1X1卷积之后的特征图得到融合层M4,并依次类推得到M3,M2;通过3X3卷积得到最终的FPN特征{P2,P3,P4,P5};在经过FPN进行特征提取之后,一个非线性变换(神经网络全连接层)被用来将特征表示映射到对比损失的空间;对图像i的目标j来说,就是通过图像区域编码器将目标j抽取为一个表征向量v_ij。
表征提取模型的训练时引入文本编码器和教师图像编码器,文本编码器为现有的文本特征提取模型,教师图像编码器为现有的训练后的图像特征提取模型,可以采用与表征提取模型中相同的图像编码器,然后用现有公开的训练库进行训练后作为教师图像编码器;
表征提取模型的训练时的损失函数为:
L=Lcntrst+Ldist+Lcntrst-img
其中,Lcntrst为目标图文对比损失,计算公式如下:
式中,N为训练所用的样本总数,训练所用的样本包括整体图像、整体图像的描述文本、目标区域图片和目标的描述文本,v_m是第m个样本的目标区域图片经过表征提取模型后得到的图像表征,l_m是第m个样本的目标的描述文本经过文本编码器后得到的文本表征,文本编码器采用Bert或Roberta,文本编码器参与训练但不会被更新,p(v_m,l_m)的计算公式如下:
式中,S为计算括号中两个对象的相似度,τ为温度超参数,Nri为同一批训练所用样本中除第m个样本之外的其它样本的目标的描述文本经过文本编码器后得到的文本表征集合,即文本描述k和图片目标i不匹配,但是和同一个batch(训练样本集)中的其他目标k匹配;
S的计算公式为:
式中,T表示转置,双竖线表示求向量长度,即norm2;
Ldist为图片自监督蒸馏损失,计算公式如下:
式中,LKL表示计算Kullback-Leibler散度,q_m为第m个样本的整体图像经过图像编码器后再经过指数归一化(softmax)得到的被识别为同一批训练样本中每个整体图像所属类别的概率;q_m_t为第m个样本中的整体图像经过教师图像编码器后再经过指数归一化得到的被识别为整体图像自身所属类别的概率;教师图像编码器的网络权重不更新,即教师图像编码器参与训练但不被训练;
Lcntrst-img为图片级别自监督对比损失;
p(v_m_img)为第m个样本的整体图像输入图像编码器后得到的整图表征(区别于之前的多层表征),l_m_img为第m个样本的整体图像的描述文本输入文本编码器后得到的整图描述文本表征;
通过上述训练任务,模型通过反向传播的方式进行训练优化。表征提取模型中的图像编码器可以选择在大规模预训练数据上进行预训练的模型作为初始模型。
步骤S02中,余弦距离的计算公式为:
其中,x=(x1,x2,…,xn)表示目标表征向量,y=(y1,y2,…,yn)表示知识库中的表征向量,n是向量的维度。
知识库的原始建立来源于上游目标检测模型对图像的目标推理以及用户对识别结果的反馈。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了表征向量、平均距离等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims (5)

1.一种基于多模态预训练持续学习的目标检测优化方法,其特征在于,包括以下步骤:
S1、提取表征向量:将对图片i进行目标检测所得到的包含目标j的结果输入训练后的表征提取模型,获得目标j的表征向量;表征提取模型的训练时引入文本编码器和教师图像编码器,文本编码器为现有的文本特征提取模型,教师图像编码器为现有的训练后的图像特征提取模型;
S2、计算平均距离:知识库包括正表征库和负表征库;计算目标j的表征向量与正表征库中的每个表征向量的余弦距离,并取最大的前K个计算平均值得到正平均距离d_ij_pos;计算目标j的表征向量与负表征库中的每个表征向量的余弦距离,并取最大的前K个计算平均值得到负平均距离d_ij_neg;K为预设的超参数;
S3、目标检测结果过滤优化:比较 d_ij_pos和d_ij_neg,如果d_ij_pos<d_ij_neg,则将此目标j的检测结果过滤;如果d_ij_pos>d_ij_neg,则将此目标j的检测结果保留;
S4、持续学习:对于正表征库的每个表征向量,计算其与正表征库中其它表征向量的余弦距离,并取最大的前K个计算平均值得到此表征向量的平均距离,对正表征库的所有表征向量的平均距离再求平均值得到正库平均距离c_pos;对于负表征库的每个表征向量,计算其与负表征库中其它表征向量的余弦距离,并取最大的前K个计算平均值得到此表征向量的平均距离,对负表征库的所有表征向量的平均距离再求平均值得到负库平均距离c_neg;对每个被保留的目标j, 如果d_ij_pos<c_pos且 d_ij_neg>c_neg , 则将此目标j的表征向量纳入正表征库;对每个被过滤的目标j, 如果d_ij_neg<c_neg 且d_ij_pos>c_pos ,则将此目标j的表征向量纳入负表征库。
2.根据权利要求1所述的一种基于多模态预训练持续学习的目标检测优化方法,其特征在于,所述表征提取模型包括图像编码器和特征金字塔网络,图像编码器为主干部分,目标检测所得到的包含目标j的结果包括图片i和目标j区域图片;
目标j的表征向量提取过程具体为:
S101、将图片i输入到作为主干部分的图像编码器,抽取每个输出层输出的特征得到图片i的整体多层特征图;
S102、依据目标j区域图片在图片i中的位置,从整体多层特征图中截取得到目标多层特征图;
S103、使用特征金字塔网络对目标多层特征图进行提取池化,得到目标j的表征向量。
3.根据权利要求1或2所述的一种基于多模态预训练持续学习的目标检测优化方法,其特征在于,表征提取模型的训练时的损失函数为:
L=Lcntrst+Ldist+Lcntrst-img
其中,Lcntrst为目标图文对比损失,计算公式如下:
式中,N为训练所用的样本总数,训练所用的样本包括整体图像、整体图像的描述文本、目标区域图片和目标的描述文本,v_m是第m个样本的目标区域图片经过表征提取模型后得到的图像表征,l_m是第m个样本的目标的描述文本经过文本编码器后得到的文本表征,p(v_m,l_m)的计算公式如下:
式中,S为计算括号中两个对象的相似度,τ为温度超参数,Nri为同一批训练所用样本中除第m个样本之外的其它样本的目标的描述文本经过文本编码器后得到的文本表征集合;
S的计算公式为:
式中,T表示转置,双竖线表示求向量长度,即norm2;
Ldist为图片自监督蒸馏损失,计算公式如下:
式中,LKL表示计算Kullback-Leibler散度,q_m为第m个样本的整体图像经过图像编码器后再经过指数归一化得到的被识别为同一批训练样本中每个整体图像所属类别的概率;q_m_t为第m个样本中的整体图像经过教师图像编码器后再经过指数归一化得到的被识别为整体图像自身所属类别的概率;
Lcntrst-img为图片级别自监督对比损失:
p(v_m_img)为第m个样本的整体图像输入图像编码器后得到的整图表征,l_m_img为第m个样本的整体图像的描述文本输入文本编码器后得到的整图描述文本表征;
通过上述训练任务,模型通过反向传播的方式进行训练优化。
4.根据权利要求1或2所述的一种基于多模态预训练持续学习的目标检测优化方法,其特征在于,步骤S02中,余弦距离的计算公式为:
其中,x=(x1,x2,…,xn)表示目标表征向量,y=(y1,y2,…,yn)表示知识库中的表征向量,n是向量的维度。
5.根据权利要求3所述的一种基于多模态预训练持续学习的目标检测优化方法,其特征在于,知识库的原始建立来源于上游目标检测模型对图像的目标推理以及用户对识别结果的反馈。
CN202211545371.9A 2022-12-05 2022-12-05 一种基于多模态预训练持续学习的目标检测优化方法 Active CN115546590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211545371.9A CN115546590B (zh) 2022-12-05 2022-12-05 一种基于多模态预训练持续学习的目标检测优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211545371.9A CN115546590B (zh) 2022-12-05 2022-12-05 一种基于多模态预训练持续学习的目标检测优化方法

Publications (2)

Publication Number Publication Date
CN115546590A CN115546590A (zh) 2022-12-30
CN115546590B true CN115546590B (zh) 2023-04-28

Family

ID=84722384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211545371.9A Active CN115546590B (zh) 2022-12-05 2022-12-05 一种基于多模态预训练持续学习的目标检测优化方法

Country Status (1)

Country Link
CN (1) CN115546590B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487822A (zh) * 2020-11-04 2021-03-12 杭州电子科技大学 一种基于深度学习的跨模态检索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220284321A1 (en) * 2021-03-03 2022-09-08 Adobe Inc. Visual-semantic representation learning via multi-modal contrastive training
CN114445201A (zh) * 2022-02-16 2022-05-06 中山大学 一种基于多模态预训练模型的组合商品检索方法及系统
CN115393606A (zh) * 2022-08-11 2022-11-25 支付宝(杭州)信息技术有限公司 图像识别的方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487822A (zh) * 2020-11-04 2021-03-12 杭州电子科技大学 一种基于深度学习的跨模态检索方法

Also Published As

Publication number Publication date
CN115546590A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN110443818B (zh) 一种基于涂鸦的弱监督语义分割方法与系统
CN106845529B (zh) 基于多视野卷积神经网络的影像特征识别方法
CN112380921A (zh) 一种基于车联网的道路检测方法
CN110956185A (zh) 一种图像显著目标的检测方法
CN111339988B (zh) 基于动态间隔损失函数和概率特征的视频人脸识别方法
CN114241273B (zh) 基于Transformer网络和超球空间学习的多模态图像处理方法及系统
CN110533024B (zh) 基于多尺度roi特征的双二次池化细粒度图像分类方法
CN109543502A (zh) 一种基于深度多尺度神经网络的语义分割方法
CN111160533A (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN113674334B (zh) 基于深度自注意力网络和局部特征编码的纹理识别方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN109871885A (zh) 一种基于深度学习和植物分类学的植物识别方法
CN111161244B (zh) 基于FCN+FC-WXGBoost的工业产品表面缺陷检测方法
CN112381763A (zh) 一种表面缺陷检测方法
CN108229432A (zh) 人脸标定方法及装置
CN116543269B (zh) 基于自监督的跨域小样本细粒度图像识别方法及其模型
CN114510594A (zh) 一种基于自注意力机制的传统纹样子图检索方法
CN112084895A (zh) 一种基于深度学习的行人重识别方法
CN112288701A (zh) 一种智慧交通图像检测方法
CN117710841A (zh) 一种无人机航拍图像的小目标检测方法、装置
CN115546590B (zh) 一种基于多模态预训练持续学习的目标检测优化方法
CN117011515A (zh) 基于注意力机制的交互式图像分割模型及其分割方法
US20220366242A1 (en) Information processing apparatus, information processing method, and storage medium
KR102656662B1 (ko) 리셉티브 필드의 차이 정보를 활용한 딥러닝 기반 키포인트 검출 장치 및 방법
CN111882563B (zh) 一种基于方向性全卷积网络的语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant