CN115546590A - 一种基于多模态预训练持续学习的目标检测优化方法 - Google Patents
一种基于多模态预训练持续学习的目标检测优化方法 Download PDFInfo
- Publication number
- CN115546590A CN115546590A CN202211545371.9A CN202211545371A CN115546590A CN 115546590 A CN115546590 A CN 115546590A CN 202211545371 A CN202211545371 A CN 202211545371A CN 115546590 A CN115546590 A CN 115546590A
- Authority
- CN
- China
- Prior art keywords
- target
- characterization
- image
- vector
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态预训练持续学习的目标检测优化方法,其包括以下步骤:S1、提取表征向量;S2、计算平均距离;S3、目标检测结果过滤优化;S4、持续学习。本方案可以对目标检测结果进行优化,从而达到在不需要更新上游大模型的基础上,以极低的成本提升预训练大模型在目标识别的精准度,节省模型重新训练迭代的成本,消除基础模型的频繁更新对下游任务造成的影响。本方案适用于计算机视觉领域。
Description
技术领域
本发明涉及图像识别领域,尤其是涉及一种基于多模态预训练持续学习的目标检测优化方法。
背景技术
近年来,目标检测模型已经在各个领域得到广泛应用。然而,大部分目标检测模型都遵循数据收集-模型训练评估-模型部署上线的流程。一般情况下,模型在部署上线之后不会继续更新,对线上发生的误报及对目标检测结果需要优化的情况,只能通过重新训练的方式优化模型。在这样的背景下,频繁训练或微调模型,以及后续的模型评估上线会带来巨大的迭代成本,如果能够在检测完成后对结果进行优化,就不需要频繁调整或训练上游模型,可以低成本提升结果准确度。
发明内容
本发明主要是解决现有技术所存在的目标检测结果缺乏有效准确的优化手段的技术问题,提供一种基于多模态预训练持续学习的目标检测优化方法。
本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种基于多模态预训练持续学习的目标检测优化方法,包括以下步骤:
S1、提取表征向量:将对图片i进行目标检测所得到的包含目标j的结果输入训练后的表征提取模型,获得目标j的表征向量;目标检测得到的结果可以包含若干个目标,j是其中之一,一轮只处理一个目标;
S2、计算平均距离:知识库包括正表征库和负表征库;计算目标j的表征向量与正表征库中的每个表征向量的余弦距离,并取最大的前K个计算平均值得到正平均距离d_ij_pos;计算目标j的表征向量与负表征库中的每个表征向量的余弦距离,并取最大的前K个计算平均值得到负平均距离d_ij_neg;K为预设的超参数;
S3、目标检测结果过滤优化:比较d_ij_pos和d_ij_neg,如果d_ij_pos<d_ij_neg,则将此目标j的检测结果过滤;如果d_ij_pos>d_ij_neg,则将此目标j的检测结果保留;
S4、持续学习:对于正表征库的每个表征向量,计算其与正表征库中其它表征向量的余弦距离,并取最大的前K个计算平均值得到此表征向量的平均距离,对正表征库的所有表征向量的平均距离再求平均值得到正库平均距离c_pos;对于负表征库的每个表征向量,计算其与负表征库中其它表征向量的余弦距离,并取最大的前K个计算平均值得到此表征向量的平均距离,对负表征库的所有表征向量的平均距离再求平均值得到负库平均距离c_neg;对每个被保留的目标j, 如果d_ij_pos<c_pos且 d_ij_neg>c_neg , 则将此目标j的表征向量纳入正表征库;对每个被过滤的目标j, 如果d_ij_neg<c_neg 且d_ij_pos>c_pos, 则将此目标j的表征向量纳入负表征库。
通过持续学习,可以不断更新知识库,从而不断提升目标检测结果优化的准确度。
作为优选,所述表征提取模型包括图像编码器和特征金字塔网络(FPN),图像编码器为主干部分;图像编码器为任意的基于图像的神经网络模型,例如resnet、 convnext、vision transformer等;目标检测所得到的包含目标j的结果包括图片i和目标j区域图片;图片i一般为3个颜色通道的自然图像;目标j区域图片理解为从图片i中截取的目标j所在区域的图像,具体形式可以是若干个坐标围成的范围;
目标j的表征向量提取过程具体为:
S101、将图片i输入到作为主干部分的图像编码器,抽取每个输出层输出的特征得到图片i的整体多层特征图;
S102、依据目标j区域图片在图片i中的位置,从整体多层特征图中截取得到目标多层特征图;
S103、使用特征金字塔网络对目标多层特征图进行提取池化,例如ROIAlign,得到目标j的表征向量。
作为优选,表征提取模型的训练时引入文本编码器和教师图像编码器,文本编码器为现有的文本特征提取模型,教师图像编码器为现有的训练后的图像特征提取模型(可以采用表征提取模型中的图像编码器,然后用现有公开的训练库进行训练后作为教师图像编码器);
表征提取模型的训练时的损失函数为:
L=Lcntrst+Ldist+Lcntrst-img
其中,Lcntrst为目标图文对比损失,计算公式如下:
式中,N为训练所用的样本总数,训练所用的样本包括整体图像、整体图像的描述文本、目标区域图片和目标的描述文本,v_m是第m个样本的目标区域图片经过表征提取模型后得到的图像表征,l_m是第m个样本的目标的描述文本经过文本编码器后得到的文本表征,文本编码器一般可以采用Bert、 Roberta等,文本编码器参与训练但不会被更新,p(v_m,l_m)的计算公式如下:
式中,S为计算括号中两个对象的相似度,τ为温度超参数,Nri为同一批训练所用样本中除第m个样本之外的其它样本的目标的描述文本经过文本编码器后得到的文本表征集合,即文本描述k和图片目标i不匹配,但是和同一个batch(训练样本集)中的其他目标k匹配;
S的计算公式为:
式中,T表示转置,双竖线表示求向量长度,即norm2;
Ldist为图片自监督蒸馏损失,计算公式如下:
式中,LKL表示计算Kullback-Leibler散度,q_m为第m个样本的整体图像经过图像编码器后再经过指数归一化(softmax)得到的被识别为同一批训练样本中每个整体图像所属类别的概率;q_m_t为第m个样本中的整体图像经过教师图像编码器后再经过指数归一化得到的被识别为整体图像自身所属类别的概率;教师图像编码器的网络权重不更新,即教师图像编码器参与训练但不被训练;
Lcntrst-img为图片级别自监督对比损失:
p(v_m_img)为第m个样本的整体图像输入图像编码器后得到的整图表征(区别于之前的多层表征),l_m_img为第m个样本的整体图像的描述文本输入文本编码器后得到的整图描述文本表征;
通过上述训练任务,模型通过反向传播的方式进行训练优化。表征提取模型中的图像编码器可以选择在公开的大规模预训练数据上进行预训练的模型作为初始模型。
作为优选,步骤S02中,余弦距离的计算公式为:
其中,x=(x1,x2,…,xn)表示目标表征向量,y=(y1,y2,…,yn)表示知识库中的表征向量,n是向量的维度。
作为优选,知识库的原始建立来源于上游目标检测模型对图像的目标推理以及用户对识别结果的反馈。
本发明带来的实质性效果是,可以对目标检测结果进行优化,从而达到在不需要更新上游大模型的基础上,以极低的成本提升预训练大模型在目标识别的精准度,节省模型重新训练迭代的成本,消除基础模型的频繁更新对下游任务造成的影响。
附图说明
图1是本发明的一种目标检测优化过程的流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种基于多模态预训练持续学习的目标检测优化方法,如图1所示,包括以下步骤:
S1、提取表征向量:将对图片i进行目标检测所得到的包含目标j的结果输入训练后的表征提取模型,获得目标j的表征向量;目标检测得到的结果可以包含若干个目标,j是其中之一,一轮只处理一个目标;
S2、计算平均距离:知识库包括正表征库和负表征库;计算目标j的表征向量与正表征库中的每个表征向量的余弦距离,并取最大的前K个计算平均值得到正平均距离d_ij_pos;计算目标j的表征向量与负表征库中的每个表征向量的余弦距离,并取最大的前K个计算平均值得到负平均距离d_ij_neg;K为预设的超参数,一般可以取值为50;
S3、目标检测结果过滤优化:比较d_ij_pos和d_ij_neg,如果d_ij_pos<d_ij_neg,则将此目标j的检测结果过滤;如果d_ij_pos>d_ij_neg,则将此目标j的检测结果保留;
S4、持续学习:对于正表征库的每个表征向量,计算其与正表征库中其它表征向量的余弦距离,并取最大的前K个计算平均值得到此表征向量的平均距离,对正表征库的所有表征向量的平均距离再求平均值得到正库平均距离c_pos;对于负表征库的每个表征向量,计算其与负表征库中其它表征向量的余弦距离,并取最大的前K个计算平均值得到此表征向量的平均距离,对负表征库的所有表征向量的平均距离再求平均值得到负库平均距离c_neg;对每个被保留的目标j, 如果d_ij_pos<c_pos且 d_ij_neg>c_neg , 则将此目标j的表征向量纳入正表征库;对每个被过滤的目标j, 如果d_ij_neg<c_neg 且d_ij_pos>c_pos, 则将此目标j的表征向量纳入负表征库。
所述表征提取模型包括图像编码器和特征金字塔网络,图像编码器为主干部分;图像编码器为任意的基于图像的神经网络模型,例如resnet、 convnext、visiontransformer等;目标检测所得到的包含目标j的结果包括图片i和目标j区域图片;图片i一般为3个颜色通道的自然图像;目标j区域图片理解为从图片i中截取的目标j所在区域的图像,具体形式可以是若干个坐标围成的范围;
目标j的表征向量提取过程具体为:
S101、将图片i输入到作为主干部分的图像编码器,抽取每个输出层输出的特征得到图片i的整体多层特征图;
S102、依据目标j区域图片在图片i中的位置,从整体多层特征图中截取得到目标多层特征图;
S103、使用特征金字塔网络对目标多层特征图进行提取池化,例如ROIAlign,得到目标j的表征向量。
具体操作如下:对图像编码器中conv2,conv3,conv4和conv5输出层的输出{C2,C3,C4,C5}作为FPN的特征,分别对应于输入图片的下采样倍数为{4,8,16,32},自顶向下的过程通过上采样(up-sampling)的方式将顶层的小特征图放大到上一个阶段的特征图一样的大小;C5 通过1X1卷积与上采样,加上C4 1X1卷积之后的特征图得到融合层M4,并依次类推得到M3,M2;通过3X3卷积得到最终的FPN特征{P2,P3,P4,P5};在经过FPN进行特征提取之后,一个非线性变换(神经网络全连接层)被用来将特征表示映射到对比损失的空间;对图像i的目标j来说,就是通过图像区域编码器将目标j抽取为一个表征向量v_ij。
表征提取模型的训练时引入文本编码器和教师图像编码器,文本编码器为现有的文本特征提取模型,教师图像编码器为现有的训练后的图像特征提取模型,可以采用与表征提取模型中相同的图像编码器,然后用现有公开的训练库进行训练后作为教师图像编码器;
表征提取模型的训练时的损失函数为:
L=Lcntrst+Ldist+Lcntrst-img
其中,Lcntrst为目标图文对比损失,计算公式如下:
式中,N为训练所用的样本总数,训练所用的样本包括整体图像、整体图像的描述文本、目标区域图片和目标的描述文本,v_m是第m个样本的目标区域图片经过表征提取模型后得到的图像表征,l_m是第m个样本的目标的描述文本经过文本编码器后得到的文本表征,文本编码器采用Bert或Roberta,文本编码器参与训练但不会被更新,p(v_m,l_m)的计算公式如下:
式中,S为计算括号中两个对象的相似度,τ为温度超参数,Nri为同一批训练所用样本中除第m个样本之外的其它样本的目标的描述文本经过文本编码器后得到的文本表征集合,即文本描述k和图片目标i不匹配,但是和同一个batch(训练样本集)中的其他目标k匹配;
S的计算公式为:
式中,T表示转置,双竖线表示求向量长度,即norm2;
Ldist为图片自监督蒸馏损失,计算公式如下:
式中,LKL表示计算Kullback-Leibler散度,q_m为第m个样本的整体图像经过图像编码器后再经过指数归一化(softmax)得到的被识别为同一批训练样本中每个整体图像所属类别的概率;q_m_t为第m个样本中的整体图像经过教师图像编码器后再经过指数归一化得到的被识别为整体图像自身所属类别的概率;教师图像编码器的网络权重不更新,即教师图像编码器参与训练但不被训练;
Lcntrst-img为图片级别自监督对比损失;
p(v_m_img)为第m个样本的整体图像输入图像编码器后得到的整图表征(区别于之前的多层表征),l_m_img为第m个样本的整体图像的描述文本输入文本编码器后得到的整图描述文本表征;
通过上述训练任务,模型通过反向传播的方式进行训练优化。表征提取模型中的图像编码器可以选择在大规模预训练数据上进行预训练的模型作为初始模型。
步骤S02中,余弦距离的计算公式为:
其中,x=(x1,x2,…,xn)表示目标表征向量,y=(y1,y2,…,yn)表示知识库中的表征向量,n是向量的维度。
知识库的原始建立来源于上游目标检测模型对图像的目标推理以及用户对识别结果的反馈。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了表征向量、平均距离等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。
Claims (5)
1.一种基于多模态预训练持续学习的目标检测优化方法,其特征在于,包括以下步骤:
S1、提取表征向量:将对图片i进行目标检测所得到的包含目标j的结果输入训练后的表征提取模型,获得目标j的表征向量;
S2、计算平均距离:知识库包括正表征库和负表征库;计算目标j的表征向量与正表征库中的每个表征向量的余弦距离,并取最大的前K个计算平均值得到正平均距离d_ij_pos;计算目标j的表征向量与负表征库中的每个表征向量的余弦距离,并取最大的前K个计算平均值得到负平均距离d_ij_neg;K为预设的超参数;
S3、目标检测结果过滤优化:比较 d_ij_pos和d_ij_neg,如果d_ij_pos<d_ij_neg,则将此目标j的检测结果过滤;如果d_ij_pos>d_ij_neg,则将此目标j的检测结果保留;
S4、持续学习:对于正表征库的每个表征向量,计算其与正表征库中其它表征向量的余弦距离,并取最大的前K个计算平均值得到此表征向量的平均距离,对正表征库的所有表征向量的平均距离再求平均值得到正库平均距离c_pos;对于负表征库的每个表征向量,计算其与负表征库中其它表征向量的余弦距离,并取最大的前K个计算平均值得到此表征向量的平均距离,对负表征库的所有表征向量的平均距离再求平均值得到负库平均距离c_neg;对每个被保留的目标j, 如果d_ij_pos<c_pos且 d_ij_neg>c_neg , 则将此目标j的表征向量纳入正表征库;对每个被过滤的目标j, 如果d_ij_neg<c_neg 且d_ij_pos>c_pos ,则将此目标j的表征向量纳入负表征库。
2.根据权利要求1所述的一种基于多模态预训练持续学习的目标检测优化方法,其特征在于,所述表征提取模型包括图像编码器和特征金字塔网络,图像编码器为主干部分,目标检测所得到的包含目标j的结果包括图片i和目标j区域图片;
目标j的表征向量提取过程具体为:
S101、将图片i输入到作为主干部分的图像编码器,抽取每个输出层输出的特征得到图片i的整体多层特征图;
S102、依据目标j区域图片在图片i中的位置,从整体多层特征图中截取得到目标多层特征图;
S103、使用特征金字塔网络对目标多层特征图进行提取池化,得到目标j的表征向量。
3.根据权利要求1或2所述的一种基于多模态预训练持续学习的目标检测优化方法,其特征在于,表征提取模型的训练时引入文本编码器和教师图像编码器,文本编码器为现有的文本特征提取模型,教师图像编码器为现有的训练后的图像特征提取模型;表征提取模型的训练时的损失函数为:
L=Lcntrst+Ldist+Lcntrst-img
其中,Lcntrst为目标图文对比损失,计算公式如下:
式中,N为训练所用的样本总数,训练所用的样本包括整体图像、整体图像的描述文本、目标区域图片和目标的描述文本,v_m是第m个样本的目标区域图片经过表征提取模型后得到的图像表征,l_m是第m个样本的目标的描述文本经过文本编码器后得到的文本表征,p(v_m,l_m)的计算公式如下:
式中,S为计算括号中两个对象的相似度,τ为温度超参数,Nri为同一批训练所用样本中除第m个样本之外的其它样本的目标的描述文本经过文本编码器后得到的文本表征集合;
S的计算公式为:
式中,T表示转置,双竖线表示求向量长度,即norm2;
Ldist为图片自监督蒸馏损失,计算公式如下:
式中,LKL表示计算Kullback-Leibler散度,q_m为第m个样本的整体图像经过图像编码器后再经过指数归一化得到的被识别为同一批训练样本中每个整体图像所属类别的概率;q_m_t为第m个样本中的整体图像经过教师图像编码器后再经过指数归一化得到的被识别为整体图像自身所属类别的概率;
Lcntrst-img为图片级别自监督对比损失:
p(v_m_img)为第m个样本的整体图像输入图像编码器后得到的整图表征,l_m_img为第m个样本的整体图像的描述文本输入文本编码器后得到的整图描述文本表征;
通过上述训练任务,模型通过反向传播的方式进行训练优化。
5.根据权利要求3所述的一种基于多模态预训练持续学习的目标检测优化方法,其特征在于,知识库的原始建立来源于上游目标检测模型对图像的目标推理以及用户对识别结果的反馈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211545371.9A CN115546590B (zh) | 2022-12-05 | 2022-12-05 | 一种基于多模态预训练持续学习的目标检测优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211545371.9A CN115546590B (zh) | 2022-12-05 | 2022-12-05 | 一种基于多模态预训练持续学习的目标检测优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115546590A true CN115546590A (zh) | 2022-12-30 |
CN115546590B CN115546590B (zh) | 2023-04-28 |
Family
ID=84722384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211545371.9A Active CN115546590B (zh) | 2022-12-05 | 2022-12-05 | 一种基于多模态预训练持续学习的目标检测优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546590B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487822A (zh) * | 2020-11-04 | 2021-03-12 | 杭州电子科技大学 | 一种基于深度学习的跨模态检索方法 |
CN114445201A (zh) * | 2022-02-16 | 2022-05-06 | 中山大学 | 一种基于多模态预训练模型的组合商品检索方法及系统 |
US20220284321A1 (en) * | 2021-03-03 | 2022-09-08 | Adobe Inc. | Visual-semantic representation learning via multi-modal contrastive training |
CN115393606A (zh) * | 2022-08-11 | 2022-11-25 | 支付宝(杭州)信息技术有限公司 | 图像识别的方法和系统 |
-
2022
- 2022-12-05 CN CN202211545371.9A patent/CN115546590B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487822A (zh) * | 2020-11-04 | 2021-03-12 | 杭州电子科技大学 | 一种基于深度学习的跨模态检索方法 |
US20220284321A1 (en) * | 2021-03-03 | 2022-09-08 | Adobe Inc. | Visual-semantic representation learning via multi-modal contrastive training |
CN114445201A (zh) * | 2022-02-16 | 2022-05-06 | 中山大学 | 一种基于多模态预训练模型的组合商品检索方法及系统 |
CN115393606A (zh) * | 2022-08-11 | 2022-11-25 | 支付宝(杭州)信息技术有限公司 | 图像识别的方法和系统 |
Non-Patent Citations (2)
Title |
---|
姚义等: "基于深度学习的结构化图像标注研究", 《电脑知识与技术》 * |
陈兴: "基于多模态神经网络生成图像中文描述", 《计算机系统应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115546590B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106845529B (zh) | 基于多视野卷积神经网络的影像特征识别方法 | |
CN107529650B (zh) | 闭环检测方法、装置及计算机设备 | |
CN112837330B (zh) | 基于多尺度双注意力机制和全卷积神经网络的叶分割方法 | |
CN107563433B (zh) | 一种基于卷积神经网络的红外小目标检测方法 | |
WO2018112900A1 (zh) | 一种车牌识别方法及装置、用户设备 | |
CN110728224A (zh) | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 | |
CN111339988B (zh) | 基于动态间隔损失函数和概率特征的视频人脸识别方法 | |
CN109033994B (zh) | 一种基于卷积神经网络的人脸表情识别方法 | |
CN113705769A (zh) | 一种神经网络训练方法以及装置 | |
CN106339753A (zh) | 一种有效提升卷积神经网络稳健性的方法 | |
JP6892606B2 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
CN111598182A (zh) | 训练神经网络及图像识别的方法、装置、设备及介质 | |
CN112381763A (zh) | 一种表面缺陷检测方法 | |
CN111126278A (zh) | 针对少类别场景的目标检测模型优化与加速的方法 | |
JP2010157118A (ja) | パターン識別装置及びパターン識別装置の学習方法ならびにコンピュータプログラム | |
CN112084895A (zh) | 一种基于深度学习的行人重识别方法 | |
CN111539456B (zh) | 一种目标识别方法及设备 | |
CN110598737A (zh) | 一种深度学习模型的在线学习方法、装置、设备及介质 | |
CN115564983A (zh) | 目标检测方法、装置、电子设备、存储介质及其应用 | |
CN112364747A (zh) | 一种有限样本下的目标检测方法 | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
Ahmed et al. | Design and implementation of a neural network for real-time object tracking | |
CN110837787B (zh) | 一种三方生成对抗网络的多光谱遥感图像检测方法及系统 | |
CN117710841A (zh) | 一种无人机航拍图像的小目标检测方法、装置 | |
KR102656662B1 (ko) | 리셉티브 필드의 차이 정보를 활용한 딥러닝 기반 키포인트 검출 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |