CN115601553B - 一种基于多层级图片描述数据的视觉模型预训练方法 - Google Patents

一种基于多层级图片描述数据的视觉模型预训练方法 Download PDF

Info

Publication number
CN115601553B
CN115601553B CN202211278249.XA CN202211278249A CN115601553B CN 115601553 B CN115601553 B CN 115601553B CN 202211278249 A CN202211278249 A CN 202211278249A CN 115601553 B CN115601553 B CN 115601553B
Authority
CN
China
Prior art keywords
picture
training
visual
level
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211278249.XA
Other languages
English (en)
Other versions
CN115601553A (zh
Inventor
赵天成
陆骁鹏
蒋轲磊
刘全
张璐
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honglong Technology Hangzhou Co ltd
Hangzhou Linker Technology Co ltd
Original Assignee
Honglong Technology Hangzhou Co ltd
Hangzhou Linker Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honglong Technology Hangzhou Co ltd, Hangzhou Linker Technology Co ltd filed Critical Honglong Technology Hangzhou Co ltd
Publication of CN115601553A publication Critical patent/CN115601553A/zh
Application granted granted Critical
Publication of CN115601553B publication Critical patent/CN115601553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多层级图片描述数据的视觉模型预训练算法。该方法的过程为:首先通过图片级别文字描述数据进行图级的视觉语言预训练,然后再在第一步的基础上,利用区域级别文字描述数据进行第二阶段预训练。最后上述两步反向传播训练后,获得的视觉模块可以直接被应用到各类视觉识别任务当中,并且可以抽取图片任意区域语义特征的特征抽取模型。本方面能够对各种机器视觉任务提供基础特征平台,例如图片分类,目标检测、语义分割等,提高这些任务的识别精准度。

Description

一种基于多层级图片描述数据的视觉模型预训练方法
技术领域
本发明涉及图片识别和机器学习领域,尤其是涉及多模态大规模预训练的方法,主要应用于适用于图片分类,目标检测等图像识别领域,可显著提高图像识别的准确率和小样本学习效率。
背景技术
视觉模型预训练是提高图像识别准确率的一种常见手段,传统视觉模型预训练基于大规模图片分类数据集(例如ImageNet),但是基于图片分类的预训练方法具有如下局限性:(1)图片分类数据只关注全图信息,而不会关注到区域信息;(2)最大的图片分类数据集只关于物体类型,并且物体类型数量有限(比如1000),无法让视觉模型在预训练阶段学到更加细致的语义信息,例如物体的颜色、关系、动作等。
发明内容
本发明主要是解决现有技术所存在的关注面有限、难以获取更为细致的语义信息等的技术问题,提供一种可显著提高图像识别的准确率和小样本学习效率的基于多层级图片描述数据的视觉模型预训练方法。
本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种基于多层级图片描述数据的视觉模型预训练方法,所述视觉模型包括视觉编码器V、文本编码器L和池化模块P,所述预训练方法包括至少一轮图片级别预训练和至少一轮区域级别预训练,所述图片级别预训练为:
S101、随机从图片描述数据库中选择一批图片以及和图片配对的文字描述,被选择的图片数量为B;
S102、利用视觉编码器V对所选图片进行编码,得到{v_i_1,v_i_2,...,v_i_B},v_i_1为第1张图片的编码输出,v_i_2为第2张图片的编码输出,以此类推;
S103、利用池化模块P对{v_i_1,v_i_2,...,v_i_B}进行特征抽取,抽取的区域范围为全图坐标(0,0:W,H),W和H分别是图片的宽度和高度,得到{f_i_1,f_i_2,...,f_i_B},f_i_1是第1张图片抽取到的特征,f_i_2是第2张图片抽取到的特征,以此类推;
S104、利用文本编码器L对所有和图片配对的文字描述进行编码,得到{f_t_1,f_t_2,...,f_t_B},f_t_1为第1张图片的文字描述的编码输出,f_t_2为第2张图片的文字描述的编码输出,以此类推;
S105、利用以下公式计算损失函数,最大化匹配文字和图片的特征的概率:
最终的损失函数为(L1+L2)/2,α为预设参数,优选值为0.07;
图片级别预训练在迭代数量到最大目标数量时结束,最大目标数量可以自行设置,一般可选100万次迭代。
作为优选,所述区域级别预训练为:
S201、随机从图片描述数据库中选择一批图片以及和所选图片配对的文字描述,批次大小为B’;
S202、利用视觉编码器V对所选批次中的图片进行编码,得到{v’_i_1,v’_i_2,...,v’_i_B’},v’_i_1为第1张图片的编码输出,v’_i_2为第2张图片的编码输出,以此类推;
S203、对每个图片区域的坐标信息添加噪音,进行数据增强;
S204、利用池化模块P对{v’_i_1,v’_i_2,...,v’_i_B’}进行特征抽取,抽取的区域范围为每张图片的每个区域坐标,得到{f’_i_1,f’_i_2,...,f’_i_Z},Z为B’张图片的区域总数;例如一共10张图片,每张图均为5个区域(每张图片的区域数量不一定相同),此时Z为10*5=50。
S205、利用文本编码器对配对文字进行编码,得到{f’_t_1,f’_t_2,...,f’_t_Z};
S206、利用以下公式计算损失函数,最大化匹配文字和图片的特征的概率:
最终的损失函数为(L’1+L’2)/2,α’为预设参数,α’的优选值为0.07;
区域级别预训练在迭代数量到最大目标数量时结束,区域级别预训练的迭代次数也为预设值,优选为100万次。
作为优选,所述步骤S203具体为:
随机从-5%到5%选择噪音大小,然后对区域矩型坐标的长度和宽度按照所选的噪音进行变形,保持区域矩型的中心坐标点不变。
作为优选,所述图片级别预训练和区域级别预训练穿插进行。例如图片级别训练迭代一共100万次,区域级别训练迭代100万次,这两个100万次在进行中是穿插进行,随机进行若干次图片级别训练迭代,再随机进行若干次区域级别训练迭代,再随机进行若干次图片级别训练迭代,再随机进行若干次区域级别训练迭代,不断重复,直至两种训练的迭代次数均达到目标值。
作为优选,所述视觉编码器V为先通过CNN卷积神经网络主干或视觉Transformer主干在每个输出层生成较低分辨率的视觉特征图f_i∈RC×H×W,然后利用特征金字塔网络从上到下聚合信息,输出一组视觉特征图{P2,P3,P4,P5};
所述文本编码器L对输入的句子t进行编码,并输出一组包含上下文信息的词嵌入向量,即{t1,t2,...,tk}=f_t(w1,w2,...,wk)∈RK×d,其中d是上下文词嵌入维度大小;
所述池化模块P采用区域特征池化机制完成特征抽取。
作为优选,所述池化模块P采用ROIAlign池化方式。
作为优选,所述图片描述数据库中用于图片级别预训练的每个图片都至少配有1句文字描述;用于区域级别预训练的每个图片都包含若干个区域,每个区域至少配有1句文字描述。
训练后,获得的视觉模块可以直接被应用到各类视觉识别任务当中,并且可以抽取图片任意区域语义特征的特征抽取模型。本方案能够对各种机器视觉任务提供基础特征平台,例如图片分类,目标检测、语义分割等,提高这些任务的识别精准度。
附图说明
图1是本发明的一种图片级别预训练方法流程图;
图2是本发明的一种区域级别预训练方法流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
1. 数据描述:
a)图片文字描述数据:
i.每个图片至少配有1句的文字描述;
ii. 定义每个图片为i,配对的文字描述为t;
b)区域文字描述数据:
i.每个图片会有N个区域信息(方框坐标x,y,w,h);
ii. 每个区域至少配有1个文字描述;
iii. 定义图片i的区域为i_1,...i_N;
iv. 定义对应的文字描述为rt_1,...,rt_N;
2. 模型定义:
a)视觉编码模块:从初始图像i∈R3×H0×W0(具有3个颜色通道)开始,让视觉编码器V成为传统的CNN卷积神经网络主干(例如ResNet50)或视觉Transformer主干(例如SwinTransformer)生成较低分辨率的视觉特征图f_i∈RC×H×W在每个输出层。然后利用特征金字塔网络(FPN)从上到下聚合信息,输出一组视觉特征图{P2,P3,P4,P5}。
b)文本编码器(文字编码模块):t∈RK×V是一个由K个单词组成自然语言描述。然后让文本编码器L是一个Transformer模型,它对于输入的句子t进行编码,并输出一组包含上下文信息的词嵌入向量,即{t1,t2,...,tk}=f_t(w1,w2,...,wk)∈RK×d,其中d是上下文词嵌入维度大小。注意,优选采用已经完成预训练的文本编码器,比如BERT,Roberta等。
c)区域特征池化模块:P可以采用任意区域特征池化机制,例如优选ROIAlign,具体步骤如下:
i.假如原图800x800,视觉特征图为25x25xH,H为特征大小;
ii. 假设输入候选框bbox大小为665x665,那么在特征图的大小为665/32=20.78;
iii. 假设pooled_w=7,pooled_h=7,即pooler输出7x7的池化后特征图,所以将特征图20.79x20.78分割为49个同等大小的区域,每个区域大小为20.78/7=2.97;
iv. 假设采样点为4,即每个2.97x2.97的区域里平分4份,每一份取中心点位置,采用双线性插值法计算,会得到4个像素点,最后取4个像素值最大值作为这个小区域的像素值,如此类推,得到49个像素值,成为7x7的特征图;
v. ROIAlign出处如下:He, Kaiming, et al. "Mask r-cnn." Proceedings ofthe IEEE international conference on computer vision. 2017. APA
3. 图片级别预训练:
a)如图1所示,训练步骤如下:
i.随机从图片描述数据库中随机选择一批图片和他们配对的文字描述,批次大小B一般为100~10000之间。
ii. 利用V对于所有批次中的图片进行编码,得到{v_i_1,...,v_i_B}。
iii. 利用池化模块P对于{v_i_1,...,v_i_B}进行特征抽取,抽取的区域范围为全图坐标(0,0,W,H),W和H是图片大小,得到{f_i_1,...,f_i_B};
iv. 利用文本编码器L对于所有配对文字t进行编码,得到{f_t_1,...,f_t_B}。
v.利用如下函数计算损失函数,最大化匹配文字和图片特征的概率:
1.
2.
3.最终优化的损失函数为(L1+L2)/2,α一般为0.07;
4.训练迭代数量到最大目标数量结束,比如为100万次迭代。
4. 区域级别预训练:
a)如图2所示,训练步骤如下:
i.随机从图片描述数据库中随机选择一批图片和他们配对的文字描述,批次大小B一般为32~1000之间。
ii. 利用V对于所有批次中的图片进行编码,得到{v’_i_1,...,v’_i_B}。
iii. 对于每个图片区域的坐标信息添加噪音,进行数据增强。具体方法是随机从-5%到5%选择噪音大小,然后对区域矩型坐标的长宽进行变形,保持区域矩型的中心坐标点不变。
iv. 利用池化模块P对于{v’_i_1,...,v’_i_B}进行特征抽取,抽取的区域范围为每个图片配对区域坐标,假设B个图片一共有Z个区域,得到{f’_i_1,...,f’_i_Z}
v.利用文本编码器L对于所有配对文字t进行编码,得到{f’_t_1,...,f’_t_Z}。
vi. 利用如下函数计算损失函数,最大化匹配文字和图片特征的概率:
1.
2.
3. 最终优化的损失函数为(L’1+L’2)/2,α’一般为0.07
4.训练迭代数量到最大目标数量结束,比如为100万次迭代。
注意!图片训练迭代可以和区域训练进行穿插,不一定为串联关系。
5. 模型应用:
a)根据如上两个步骤之后,我们获得了V,P和L三个模块。V,P模块是众多视觉应用模型的核心组成部分,例如:Faster-RCNN,Mask-RCNN等著名目标检测、实例分割模型,在V和P的基础上添加额外检测模块即可使用。具体流程如下:
b)选择任务类型,例如目标检测。
c)根据任务类型,在V和P的基础上添加额外模块,比如Faster-RCNN需要额外的RPN模块。
d)准备应用具体的训练数据,比如目标检测训练数据。
e)让模型载入预训练好的V和P参数,作为参数初始化。
对模型进行训练,得到具体应用模型。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了视觉编码器、文本编码器等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims (7)

1.一种基于多层级图片描述数据的视觉模型预训练方法,其特征在于,所述视觉模型包括视觉编码器V、文本编码器L和池化模块P,所述预训练方法包括至少一轮图片级别预训练和至少一轮区域级别预训练,所述图片级别预训练为:
S101、随机从图片描述数据库中选择一批图片以及和图片配对的文字描述,被选择的图片数量为B;
S102、利用视觉编码器V对所选图片进行编码,得到{v_i_1,v_i_2,...,v_i_B},v_i_1为第1张图片的编码输出,v_i_2为第2张图片的编码输出,以此类推;
S103、利用池化模块P对{v_i_1,v_i_2,...,v_i_B}进行特征抽取,抽取的区域范围为全图坐标(0,0:W,H),W和H分别是图片的宽度和高度,得到{f_i_1,f_i_2,...,f_i_B},f_i_1是第1张图片抽取到的特征,f_i_2是第2张图片抽取到的特征,以此类推;
S104、利用文本编码器L对所有和图片配对的文字描述进行编码,得到{f_t_1,f_t_2,...,f_t_B},f_t_1为第1张图片的文字描述的编码输出,f_t_2为第2张图片的文字描述的编码输出,以此类推;
S105、利用以下公式计算损失函数,最大化匹配文字和图片的特征的概率:
最终的损失函数为(L1+L2)/2,α为预设参数;
图片级别预训练在迭代数量到最大目标数量时结束。
2.根据权利要求1所述的一种基于多层级图片描述数据的视觉模型预训练方法,其特征在于,所述区域级别预训练为:
S201、随机从图片描述数据库中选择一批图片以及和所选图片配对的文字描述,批次大小为B’;
S202、利用视觉编码器V对所选批次中的图片进行编码,得到{v’_i_1,v’_i_2,...,v’_i_B’},v’_i_1为第1张图片的编码输出,v’_i_2为第2张图片的编码输出,以此类推;
S203、对每张图片的每个图片区域的坐标信息添加噪音,进行数据增强;
S204、利用池化模块P对{v’_i_1,v’_i_2,...,v’_i_B’}进行特征抽取,抽取的区域范围为每张图片的每个区域坐标,得到{f’_i_1,f’_i_2,...,f’_i_Z},Z为B’张图片的区域总数;
S205、利用文本编码器对配对文字进行编码,得到{f’_t_1,f’_t_2,...,f’_t_Z};
S206、利用以下公式计算损失函数,最大化匹配文字和图片的特征的概率:
最终的损失函数为(L’1+L’2)/2,α’为预设参数;
区域级别预训练在迭代数量到最大目标数量时结束。
3.根据权利要求2所述的一种基于多层级图片描述数据的视觉模型预训练方法,其特征在于,所述步骤S203具体为:
随机从-5%到5%选择噪音大小,然后对区域矩型坐标的长宽进行变形,保持区域矩型的中心坐标点不变。
4.根据权利要求1或2所述的一种基于多层级图片描述数据的视觉模型预训练方法,其特征在于,所述图片级别预训练和区域级别预训练穿插进行。
5.根据权利要求1所述的一种基于多层级图片描述数据的视觉模型预训练方法,其特征在于,所述视觉编码器V为先通过CNN卷积神经网络主干或视觉Transformer主干在每个输出层生成较低分辨率的视觉特征图f_i∈RC×H×W,然后利用特征金字塔网络从上到下聚合信息,输出一组视觉特征图{P2,P3,P4,P5};
所述文本编码器L对输入的句子t进行编码,并输出一组包含上下文信息的词嵌入向量,即{t1,t2,...,tk}=f_t(w1,w2,...,wk)∈RK×d,其中d是上下文词嵌入维度大小;K是组成自然语言描述的单词个数;
所述池化模块P采用区域特征池化机制完成特征抽取。
6.根据权利要求5所述的一种基于多层级图片描述数据的视觉模型预训练方法,其特征在于,所述池化模块P采用ROIAlign池化方式。
7.根据权利要求1或2所述的一种基于多层级图片描述数据的视觉模型预训练方法,其特征在于,所述图片描述数据库中用于图片级别预训练的每个图片都至少配有1句文字描述;用于区域级别预训练的每个图片都包含若干个区域,每个区域至少配有1句文字描述。
CN202211278249.XA 2022-08-15 2022-10-19 一种基于多层级图片描述数据的视觉模型预训练方法 Active CN115601553B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210975032 2022-08-15
CN2022109750328 2022-08-15

Publications (2)

Publication Number Publication Date
CN115601553A CN115601553A (zh) 2023-01-13
CN115601553B true CN115601553B (zh) 2023-08-18

Family

ID=84849119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211278249.XA Active CN115601553B (zh) 2022-08-15 2022-10-19 一种基于多层级图片描述数据的视觉模型预训练方法

Country Status (1)

Country Link
CN (1) CN115601553B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516530A (zh) * 2019-07-09 2019-11-29 杭州电子科技大学 一种基于非对齐多视图特征增强的图像描述方法
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN112651448A (zh) * 2020-12-29 2021-04-13 中山大学 一种面向社交平台表情包的多模态情感分析方法
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN113836354A (zh) * 2021-02-08 2021-12-24 宏龙科技(杭州)有限公司 一种跨模态视觉与文本信息匹配方法和装置
CN114298158A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于图文线性组合的多模态预训练方法
CN114386534A (zh) * 2022-01-29 2022-04-22 安徽农业大学 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法
CN114863407A (zh) * 2022-07-06 2022-08-05 宏龙科技(杭州)有限公司 一种基于视觉语言深度融合的多任务冷启动目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11720651B2 (en) * 2021-01-28 2023-08-08 Adobe Inc. Text-conditioned image search based on transformation, aggregation, and composition of visio-linguistic features

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN110516530A (zh) * 2019-07-09 2019-11-29 杭州电子科技大学 一种基于非对齐多视图特征增强的图像描述方法
CN112651448A (zh) * 2020-12-29 2021-04-13 中山大学 一种面向社交平台表情包的多模态情感分析方法
CN113836354A (zh) * 2021-02-08 2021-12-24 宏龙科技(杭州)有限公司 一种跨模态视觉与文本信息匹配方法和装置
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN114298158A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于图文线性组合的多模态预训练方法
CN114386534A (zh) * 2022-01-29 2022-04-22 安徽农业大学 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法
CN114863407A (zh) * 2022-07-06 2022-08-05 宏龙科技(杭州)有限公司 一种基于视觉语言深度融合的多任务冷启动目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一致性协议匹配的跨模态图像文本检索方法;宫大汉;《智能系统学报》;第16卷(第6期);1143-1150 *

Also Published As

Publication number Publication date
CN115601553A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN112991354B (zh) 一种基于深度学习的高分辨率遥感影像语义分割方法
CN110390638B (zh) 一种高分辨率三维体素模型重建方法
CN113657388B (zh) 一种融合图像超分辨率重建的图像语义分割方法
CN110533737A (zh) 基于结构引导汉字字体生成的方法
CN110929665B (zh) 一种自然场景曲线文本检测方法
CN110033054B (zh) 基于协同笔画优化的个性化手写体迁移方法和系统
CN108985317A (zh) 一种基于可分离卷积和注意力机制的图像分类方法
CN108804397A (zh) 一种基于少量目标字体的汉字字体转换生成的方法
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN113256649B (zh) 一种基于深度学习的遥感图像选站选线语义分割方法
CN109447897B (zh) 一种真实场景图像合成方法及系统
CN113516133B (zh) 一种多模态图像分类方法及系统
CN117529755A (zh) 图像识别系统中的迁移学习
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN112734789A (zh) 一种基于半监督学习和点渲染的图像分割方法及系统
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN116958827A (zh) 一种基于深度学习的撂荒区域提取方法
CN114066871A (zh) 一种新冠肺炎病灶区域分割模型训练的方法
CN114565789B (zh) 一种基于集合预测的文本检测方法、系统、装置及介质
CN110633706B (zh) 一种基于金字塔网络的语义分割方法
CN114359902B (zh) 基于多尺度特征融合的三维点云语义分割方法
CN110851627A (zh) 一种用于描述全日面图像中太阳黑子群的方法
CN117557856A (zh) 一种基于自监督学习的病理全切片特征学习方法
CN117934524A (zh) 建筑物轮廓提取方法及装置
CN117523333A (zh) 一种基于注意力机制的地表覆盖分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant