CN112732967B - 图像自动标注方法、系统及电子设备 - Google Patents

图像自动标注方法、系统及电子设备 Download PDF

Info

Publication number
CN112732967B
CN112732967B CN202110023565.1A CN202110023565A CN112732967B CN 112732967 B CN112732967 B CN 112732967B CN 202110023565 A CN202110023565 A CN 202110023565A CN 112732967 B CN112732967 B CN 112732967B
Authority
CN
China
Prior art keywords
image
level
network
feature map
image feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110023565.1A
Other languages
English (en)
Other versions
CN112732967A (zh
Inventor
陈灯
吴琼
魏巍
张彦铎
吴云韬
于宝成
刘玮
段功豪
周华兵
彭丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Yinxing Technology Co ltd
Wuhan Institute of Technology
Original Assignee
Wuhan Yinxing Technology Co ltd
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Yinxing Technology Co ltd, Wuhan Institute of Technology filed Critical Wuhan Yinxing Technology Co ltd
Priority to CN202110023565.1A priority Critical patent/CN112732967B/zh
Publication of CN112732967A publication Critical patent/CN112732967A/zh
Application granted granted Critical
Publication of CN112732967B publication Critical patent/CN112732967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种图像自动标注方法、系统及电子设备,接收待标记图像,将待标记图像输入到自动图像标注模型中,以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理,得到第K级第三图像特征图,并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理,得到所述待标记图像的语义标签,其中K为正整数。利用自动图像标注模型对待标记图像进行处理,可以方便快捷地对待标记图像进行标注,还可以在进行图像标注时能够提供不同比例的图像特征来对图像进行标注,从而使得对图像的注释更为全面。

Description

图像自动标注方法、系统及电子设备
技术领域
本发明涉及计算机视觉和人工智能技术领域,尤其涉及一种图像自动标注方法、系统及电子设备。
背景技术
自动图像标注方法被认为是解决原始图像及其语义信息之间语义鸿沟问题的一种有效方案,它是通过利用已经标注好关键词的训练集图像自动学习语义概念空间与视觉特征空间之间的潜在对应关系或映射模型,然后可以通过构造的映射模型来预测未标注的图像的语义信息。
现有的一些方法都是通过传统的机器学习和深度学习算法来构建语义概念空间到视觉特征空间的映射,例如,通过利用改进的FCM聚类算法将不同语义的图像数据集划分为不同的类,然后通过计算找到图像到类中聚类中心距离最近的一个类,统计类中出现次数最多的标注词即为图像的标注词;再例如,通过卷积神经网络提取图像特征,然后根据视觉距离计算邻域图像各个标签的贡献值并排序得到语义的关键词。
传统基于机器学习的图像注释方法中使用的图像特征无法表示不同抽象级别的视觉概念。而对于基于深度学习的图像注释方法,研究人员使用预训练的卷积神经网络提取图像特征进行图像标注,或者对图像标注基准数据集上的预训练卷积神经网络进行微调,以共同获得特征表示和分类器。研究人员使用的所有基本卷积神经网络都是为单标签图像分类任务设计的,也就是说,在这些卷积神经网络中,仅最后一层的输出特征用作分类器的输入,与卷积神经网络计算的底层特征图相比,顶层特征图对应于更高级别的抽象视觉概念。这意味着现有模型中仅分类器使用了最抽象的功能。
对于图像注释,使用的标签应是多种多样的,并且应具有不同的抽象级别。同时,在图像标注中,图像中物体的大小是不同的,并且相应的特征在不同的尺度上。例如,“云”和“苹果”可以用卷积神经网路底部区域的纹理和颜色来描述,但是需要从卷积神经网络的顶层学习更抽象的特征,例如“水果”和“花”。也就是说,现有的自动图像标注方法在进行图像标注时,仅能标注出最抽象的特征,不能提供不同维度的图像特征来对图像进行一个更全面的注释。
发明内容
为了克服现有的针对自动图像标注方法不能提供不同维度的图像特征来对图像进行一个更全面的注释的问题,本发明提供了一种图像自动标注方法、系统及电子设备。
第一方面,为了解决上述技术问题,本发明提供了一种图像自动标注方法,包括以下步骤:
接收待标记图像;
将待标记图像输入到自动图像标注模型中,以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理,得到第K级第三图像特征图,并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理,得到所述待标记图像的语义标签,其中K为正整数。
本发明提供的图像自动标注方法的有益效果是:通过利用自动图像标注模型对待标记图像进行处理,可以方便快捷地对待标记图像进行标注,此外,通过自动图像标注模型中含有的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络以及第二标签预测网络对待标记图像进行处理,使得在进行图像标注时能够提供不同比例的图像特征来对图像进行标注,从而使得对图像的注释更为全面。
在上述技术方案的基础上,本发明的一种图像自动标注方法还可以做如下改进。
进一步,还包括:
获取实验数据集和预训练模型,所述实验数据集包括多个语义标签;
根据卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络构建自动图像标注网络;
将所述预训练模型加载到所述自动图像标注网络中的主干卷积神经网络中,得到第一主干卷积神经网络;
利用所述实验数据集对所述自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络共同进行训练,得到第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络;
利用所述实验数据集对含有所述第一主干卷积神经网络、第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络的自动图像标注网络进行训练,得到含有第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络和第二标签预测网络的自动图像标注模型。
其中,预训练模型可以直接从现有的资源中下载得到,也可以利用现有的数据集对卷积神经网络进行训练得到。
采用上述进一步方案的有益效果是:利用实验数据集对自动图像标注网络进行训练,可以使得自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络均具有合适的权重,从而得到一个各个网络之间有机结合的自动图像标注模型,同时使得在后续能使用更多不同的图像特征来对图像进行标注。
进一步,使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理,得到第K级第三图像特征图,包括:
利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码,得到第1级第一图像特征图至第K级第一图像特征图;
利用所述自动图像标注模型中的第二卷积注意力网络分别对所述第1级第一图像特征图至第K级第一图像特征图进行处理,得到第1级第二图像特征图至第K级第二图像特征图;
根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图,得到第2级第三图像特征图至第K级第三图像特征图,其中,K为正整数。
采用上述进一步方案的有益效果是:通过第二主干卷积神经网络对待标记图像进行编码,可以提取出待标记图像在不同维度的特征;通过第二卷积注意力网络对第二主干卷积神经网络提取出的不同维度的特征图进行处理,可以减少待标记图像中的干扰,在提高模型的识别能力的同时提高模型的鲁棒性;利用第二多尺度特征融合分支网络对第二卷积注意力网络处理后的特征图进行才处理,可以得到最终融合形成的第K级第三图像特征图,从而方便后续得到待标记图像在不同维度上的语义标签。
进一步,利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码,得到第1级第一图像特征图至第K级第一图像特征图,包括:
根据第一公式对所述待标记图像进行编码,得到第1级第一图像特征图至第K级第一图像特征图,所述第一公式为:Fn=Mn(Fn-1),
其中,1≤n≤K,n为正整数,Fn为第n级第一图像特征图,Fn-1为第n-1级第一图像特征图,当n=1时,Fn-1即F0为待标记图像的图像特征图,Mn表示的由卷积、池化、批归一化和激活函数组成的第一复合函数。
采用上述进一步方案的有益效果是:利用第一公式的第一复合函数对待标记图像进行处理,其中,卷积和池化可以提取出待标记图像多维度的特征并进行计算,批归一化可以提高处理的精度和速度,激活函数为模型加入非线性因素,从而使得能够提高对特征进行分类的准确性。
进一步,所述自动图像标注模型中的第二卷积注意力网络分别对所述1至K级第一图像特征图进行处理,得到第1级第一图像特征图至第K级第二图像特征图,包括:
根据第二公式得到第m级一维通道注意力图MC(Fm),所述第二公式为:MC(Fm)=σ(MLP(AvgPool(Fm)+MLP(MaxPool(Fm));
根据第三公式得到第m级通道注意特征Fm′,所述第三公式为:Fm'=Fm×MC(Fm);
根据第四公式得到第m级二维空间注意力图MS(Fm'),所述第四公式为:MS(Fm')=σ(f7×7([AvgPool(Fm'),MaxPool(Fm')]));
根据第五公式得到第m级第二图像特征图Fm″,所述第五公式为:Fm″=Fm'×MS(Fm');
直至得到第K级第二图像特征图;
其中,MLP表示多层感知器,AvgPool表示平均池化,MaxPool表示最大池化,σ表示sigmoid函数,f7×7为一个卷积核大小为7×7的卷积层,1≤m≤K,m为正整数,K为正整数,Fm为第m级第一图像特征图。
采用上述进一步方案的有益效果是:通过第二卷积注意力网络的第二公式和第三公式,可以使得在对所有第一图像特征图进行处理时,自动图像标注模型能够选择出更有益于后续标注的图像特征信息;通过第二卷积注意力网络的第四公式和第五公式,可以减少图像背景对标注的干扰,提高自动图像标注模型的识别精度及鲁棒性。
进一步,根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图,得到第2级第三图像特征图至第K级第三图像特征图,包括:
根据第六公式将第k-1级第三图像特征图与第k级第二图像特征图进行融合,所述第六公式为:
Figure GDA0003547265770000061
直至得到第K级第三图像特征图,其中,
Figure GDA0003547265770000062
表示第k级第三图像特征图,F″k表示第k级第二图像特征图,
Figure GDA0003547265770000063
表示第k-1级第三图像特征图,2≤k≤K,且当k=2时,
Figure GDA0003547265770000064
即第1级第三图像特征图为第1级第二图像特征图,
Figure GDA0003547265770000065
Figure GDA0003547265770000066
表示由卷积,批归一化和激活函数组成的第二复合函数,
Figure GDA0003547265770000067
表示由卷积,批归一化和激活函数组成的第三复合函数。
采用上述进一步方案的有益效果是:通过第六公式将第二图像特征图和第三图像特征图进行层层维度的融合,可以减少随着网络加深而导致的特征信息丢失,在提高检测精度的同时也方便后续得到待标记图像在不同维度上的语义标签。
进一步,所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理,得到所述待标记图像的语义标签,包括:
利用所述自动图像标注模型中第二标签预测网络的平均池化层提取所述第K级第三图像特征图的图像特征向量
利用所述自动图像标注模型中第二标签预测网络的全连接层和sigmoid函数对所述第K级第三图像特征图的图像特征向量进行处理,计算出所述自动图像标注模型中第二标签预测网络的每个语义标签的标注概率,并判断所述每个语义标签的标注概率是否大于或等于第一预设标签阈值;
若是,则将该标注概率对应的语义标签作为所述待标记图像的语义标签,直至得到所有的语义标签。
采用上述进一步方案的有益效果是:在平均池化层提取出图像特征向量后,通过全连接层和sigmoid函数可以对进行图像特征向量逻辑回归,也就是计算第二标签预测网络的每个语义标签的标注概率,并判断每个标注概率是否符合预设条件,从而得到待标记图像的语义标签。
第二方面,本发明提供了一种图像自动标注系统,包括接收模块和标注模块;
所述接收模块用于接收待标记图像;
所述标注模块用于将待标记图像输入到自动图像标注模型中,以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理,得到第K级第三图像特征图,并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理,得到所述待标记图像的语义标签,其中K为正整数。
本发明提供的图像自动标注系统的有益效果是:通过利用标注模块中的自动图像标注模型对待标记图像进行处理,可以方便快捷地对待标记图像进行标注,此外,通过自动图像标注模型中含有的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络以及第二标签预测网络对待标记图像进行处理,使得在进行图像标注时能够提供不同比例的图像特征来对图像进行标注,从而使得对图像的注释更为全面。
在上述技术方案的基础上,本发明的一种图像自动标注系统还可以做如下改进。
进一步,还包括训练模块,
所述训练模块用于获取实验数据集和预训练模型,所述实验数据集包括多个语义标签;
根据卷积注意力网络、多尺度特征融合分支网络和标签预测网络和主干卷积神经网络构建自动图像标注网络;
将所述预训练模型加载到所述自动图像标注网络中的主干卷积神经网络中,得到第一主干卷积神经网络;
利用所述实验数据集对所述自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络共同进行训练,得到第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络;
利用所述实验数据集对含有所述第一主干卷积神经网络、第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络的自动图像标注网络进行训练,得到含有第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络和第二标签预测网络的自动图像标注模型。
采用上述进一步方案的有益效果是:训练模块利用实验数据集对自动图像标注网络进行训练,可以使得自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络均具有合适的权重,从而得到一个各个网络之间有机结合的自动图像标注模型,同时使得在后续能使用更多不同的图像特征来对图像进行标注。
第三方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,所述处理器执行所述程序时实现上述任一项所述的一种图像自动标注方法的步骤。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面结合附图和实施例对本发明作进一步说明。
图1为本发明实施例的一种图像自动标注方法的流程示意图;
图2为本发明实施例的另一种图像自动标注方法的流程示意图;
图3为本发明实施例的一种图像自动标注系统的结构示意图;
图4为本发明实施例的训练模块的结构示意图;
图5为本发明实施例的一种电子设备的结构示意图。
具体实施方式
下列实施例是对本发明的进一步解释和补充,对本发明不构成任何限制。
以下结合附图描述本发明实施例的图像自动标注方法。
如图1所示,本发明实施例的一种图像自动标注方法,包括如下步骤:
S1、接收待标记图像;
S2、将待标记图像输入到自动图像标注模型中,以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理,得到第K级第三图像特征图,并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理,得到所述待标记图像的语义标签,其中K为正整数。
通过利用自动图像标注模型对待标记图像进行处理,可以方便快捷地对待标记图像进行标注,此外,通过自动图像标注模型中含有的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络以及第二标签预测网络对待标记图像进行处理,使得在进行图像标注时能够提供不同比例的图像特征来对图像进行标注,从而使得对图像的注释更为全面。
优选地,还包括:
S01、获取实验数据集和预训练模型,所述实验数据集包括多个语义标签;
S02、根据卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络构建自动图像标注网络;
S03、将所述预训练模型加载到所述自动图像标注网络中的主干卷积神经网络中,得到第一主干卷积神经网络;
S04、利用所述实验数据集对所述自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络共同进行训练,得到第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络;
S05、利用所述实验数据集对含有所述第一主干卷积神经网络、第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络的自动图像标注网络进行训练,得到含有第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络和第二标签预测网络的自动图像标注模型。
利用实验数据集对自动图像标注网络进行训练,可以使得自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络均具有合适的权重,从而得到一个各个网络之间有机结合的自动图像标注模型,同时使得在后续能使用更多不同的图像特征来对图像进行标注
其中,实验数据集为MSCOCO数据集等现有的公开的图像数据集,预训练模型可以直接从现有的资源中下载得到,也可以利用现有的数据集对卷积神经网络进行训练得到。
具体地,如图2所示,在本实施例中,获取的实验数据集包括ImageNet数据集和MSCOCO数据集,
1)根据卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络构建形成自动图像标注网络,其中主干卷积神经网络为卷积神经网络ResNet101;
2)利用ImageNet数据集对另一卷积神经网络ResNet101进行训练,得到ResNet101预训练模型;
3)将ResNet101预训练模型加载到自动图像标注网络的主干卷积神经网络中,该主干卷积神经网络因此具有了一定的初始权重,此时具有一定初始权重的主干卷积神经网络为第一主干卷积神经网络;
4)利用MSCOCO数据集对自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络共同进行训练,当训练到第一阈值时,停止训练,此时卷积注意力网络、多尺度特征融合分支网络、标签预测网络均具有了一定的初始权重,为第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络。
其中,第一阈值是通过观察训练数据而人为设定的,是可以根据实际情况而更改的;
5)利用所述MSCOCO数据集对含有第一主干卷积神经网络、第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络的自动图像标注网络进行训练,在训练中,第一主干卷积神经网络、第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络不断更新着自身的权重,当自动图像标注网络达到预设状态时,停止训练,得到含有第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络和第二标签预测网络的自动图像标注模型。在得到自动图像标注模型后,如图2所示,将待标记图像输入到自动图像标注模型中,最后输出语义标签。
其中,当自动图像标注网络趋于稳定时即为达到预设状态,而自动图像标注网络趋于稳定的状态是通过训练数据观察而得来的,因此预设状态也是人为设定的;
在训练过程中,本实施例中还同时使用了混类数据增强函数mixup提升自动图像标注模型的精度以及降低自动图像标注模型的过拟合;此外,在训练过程中,还可以使用交叉熵损失函数对自动图像标注模型进行优化。
优选地,S2包括:
S21、利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码,得到第1级第一图像特征图至第K级第一图像特征图;
S22、利用所述自动图像标注模型中的第二卷积注意力网络分别对所述第1级第一图像特征图至第K级第一图像特征图进行处理,得到第1级第二图像特征图至第K级第二图像特征图;
S23、根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图,得到第2级第三图像特征图至第K级第三图像特征图,其中,K为正整数。
通过第二主干卷积神经网络对待标记图像进行编码,可以提取出待标记图像在不同维度的特征;通过第二卷积注意力网络对第二主干卷积神经网络提取出的不同维度的特征图进行处理,可以减少待标记图像中的干扰,在提高模型的识别能力的同时提高模型的鲁棒性;利用第二多尺度特征融合分支网络对第二卷积注意力网络处理后的特征图进行才处理,可以得到最终融合形成的第K级第三图像特征图,从而方便后续得到待标记图像在不同维度上的语义标签。
具体地,S21包括:
根据第一公式对待标记图像进行编码,得到第1级第一图像特征图至第K级第一图像特征图,第一公式为:
Fn=Mn(Fn-1)
其中,1≤n≤K,n为正整数,Fn为第n级第一图像特征图,Fn-1为第n-1级第一图像特征图,当n=1时,Fn-1即F0为待标记图像的图像特征图,Mn表示的由卷积、池化、批归一化和激活函数组成的第一复合函数。
利用第一公式的第一复合函数对待标记图像进行处理,其中,卷积和池化可以提取出待标记图像多维度的特征并进行计算,批归一化可以提高处理的精度和速度,激活函数为模型加入非线性因素,从而使得能够提高对特征进行分类的准确性。
具体地,S22包括:
将步骤S21中提取出的所有第一图像特征图依次输入到第二卷积注意力网络的通道注意力模块中,根据第二公式对第m级第一图像特征图进行平均池化和最大池化来聚合第m级第一图像特征图空间信息,然后将聚合后得到的第m级第一图像特征图空间信息转发到共享网络,共享网络通过逐元素求和进行合并,得到第m级一维通道注意力图MC(Fm),第二公式为:
MC(Fm)=σ(MLP(AvgPool(Fm)+MLP(MaxPool(Fm))
然后,根据第三公式将第m级一维通道注意力图MC(Fm)与第m级第一图像特征图相乘,得到第m级通道注意特征Fm′,第三公式为:
Fm'=Fm×MC(Fm)
将第m级通道注意特征Fm′输入到第二卷积注意力网络的空间注意力模块中,根据第四公式使用平均池化和最大池化来聚合第m级通道注意特征Fm′,并将聚合后的特征连接起来,通过卷积层得到第m级二维空间注意力图MS(Fm'),第四公式为:
MS(Fm')=σ(f7×7([AvgPool(Fm'),MaxPool(Fm')]));
根据第五公式将第m级二维空间注意力图MS(Fm')与第m级通道注意特征Fm'相乘得到第m级第二图像特征图Fm″,第五公式为:
Fm″=Fm'×MS(Fm')
直至得到第K级第二图像特征图。
其中,共享网络由一个具有一个隐藏层的多层感知器MLP组成,MLP表示多层感知器,AvgPool表示平均池化,MaxPool表示最大池化,σ表示sigmoid函数,f7×7为一个卷积核大小为7×7的卷积层,1≤m≤K,m为正整数,K为正整数,Fm为第m级第一图像特征图。
通过第二卷积注意力网络的第二公式和第三公式,可以使得在对所有第一图像特征图进行处理时,自动图像标注模型能够选择出更有益于后续标注的图像特征信息;通过第二卷积注意力网络的第四公式和第五公式,可以减少图像背景对标注的干扰,提高自动图像标注模型的识别精度及鲁棒性。
具体地,S23包括:
根据第六公式将第k-1级第三图像特征图与第k级第二图像特征图进行融合,第六公式为:
Figure GDA0003547265770000141
直至得到第K级第三图像特征图,
其中,
Figure GDA00035472657700001411
表示第k级第三图像特征图,F″k表示第k级第二图像特征图,
Figure GDA0003547265770000143
表示第k-1级第三图像特征图,2≤k≤K;
当k=2时,
Figure GDA0003547265770000144
也就是说,第1级第三图像特征图就是第1级第二图像特征图;
Figure GDA0003547265770000145
Figure GDA0003547265770000146
表示由卷积,批归一化和激活函数组成的第二复合函数,
Figure GDA0003547265770000147
表示由卷积,批归一化和激活函数组成的第三复合函数,其中,
Figure GDA00035472657700001412
中使用3×3的卷积核来使F″k
Figure GDA0003547265770000149
具有相同维度的大小,
Figure GDA00035472657700001410
中使用1×1的卷积核,不仅可以增加通道数量和非线性特性,还可以减少参数数量,方便计算。
通过第六公式将第二图像特征图和第三图像特征图进行层层维度的融合,可以减少随着网络加深而导致的特征信息丢失,在提高检测精度的同时也方便后续得到待标记图像在不同维度上的语义标签。
优选地,还包括:
S24、利用所述自动图像标注模型中第二标签预测网络的平均池化层提取所述第K级第三图像特征图的图像特征向量
利用所述自动图像标注模型中第二标签预测网络的全连接层和sigmoid函数对所述第K级第三图像特征图的图像特征向量进行处理,计算出所述自动图像标注模型中第二标签预测网络的每个语义标签的标注概率,并判断所述每个语义标签的标注概率是否大于或等于第一预设标签阈值;
若是,则将该标注概率对应的语义标签作为所述待标记图像的语义标签,直至得到所有的语义标签。
在平均池化层提取出图像特征向量后,通过全连接层和sigmoid函数可以对进行图像特征向量逻辑回归,也就是计算第二标签预测网络的每个语义标签的标注概率,并判断每个标注概率是否符合预设条件,从而得到待标记图像的语义标签。其中,第一预设标签阈值是人为设定的,可以根据具体情况改变。
在上述各实施例中,虽然对步骤进行了编号,如S1、S2等,但只是本申请给出的具体实施例,本领域的技术人员可根据实际情况对调整S1、S2等的执行顺序,此也在本发明的保护范围内,可以理解,在一些实施例中,可以包含如上述各实施方式中的部分或全部。
如图3所示,本发明实施例的一种图像自动标注系统,包括接收模块210和标注模块220,
接收模块210用于接收待标记图像;
标注模块220用于将待标记图像输入到自动图像标注模型中,以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理,得到第K级第三图像特征图,并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理,得到所述待标记图像的语义标签,其中K为正整数。
通过利用标注模块中的自动图像标注模型对待标记图像进行处理,可以方便快捷地对待标记图像进行标注,此外,通过自动图像标注模型中含有的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络以及第二标签预测网络对待标记图像进行处理,使得在进行图像标注时能够提供不同比例的图像特征来对图像进行标注,从而使得对图像的注释更为全面。
进一步,还包括训练模块200,
所述训练模块200用于获取实验数据集和预训练模型,所述实验数据集包括多个语义标签;
根据卷积注意力网络、多尺度特征融合分支网络和标签预测网络和主干卷积神经网络构建自动图像标注网络;
将所述预训练模型加载到所述自动图像标注网络中的主干卷积神经网络中,得到第一主干卷积神经网络;
利用所述实验数据集对所述自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络共同进行训练,得到第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络;
利用所述实验数据集对含有所述第一主干卷积神经网络、第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络的自动图像标注网络进行训练,得到含有第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络和第二标签预测网络的自动图像标注模型。
优选地,如图4所示,所述训练模块200中还包括第一训练模块201、第二训练模块202、第三训练模块203,标签预测模块204;
第一训练模块201用于利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码,得到第1级第一图像特征图至第K级第一图像特征图;
具体地,根据第一公式对所述待标记图像进行编码,得到第1级第一图像特征图至第K级第一图像特征图,第一公式为:
Fn=Mn(Fn-1)
其中,1≤n≤K,n为正整数,Fn为第n级第一图像特征图,Fn-1为第n-1级第一图像特征图,当n=1时,Fn-1即F0为待标记图像的图像特征图,Mn表示的由卷积、池化、批归一化和激活函数组成的第一复合函数。
第二训练模块202用于利用所述自动图像标注模型中的第二卷积注意力网络分别对所述第1级第一图像特征图至第K级第一图像特征图进行处理,得到第1级第二图像特征图至第K级第二图像特征图。
具体地,根据第二公式得到第m级一维通道注意力图MC(Fm),第二公式为:
MC(Fm)=σ(MLP(AvgPool(Fm)+MLP(MaxPool(Fm))
根据第三公式得到第m级通道注意特征Fm′,第三公式为:
Fm'=Fm×MC(Fm)
根据第四公式得到第m级二维空间注意力图MS(Fm'),第四公式为:
MS(Fm')=σ(f7×7([AvgPool(Fm'),MaxPool(Fm')]));
根据第五公式得到第m级第二图像特征图Fm″,第五公式为:
Fm″=Fm'×MS(Fm');
直至得到第K级第二图像特征图;
其中,MLP表示多层感知器,AvgPool表示平均池化,MaxPool表示最大池化,σ表示sigmoid函数,f7×7为一个卷积核大小为7×7的卷积层,1≤m≤K,m为正整数,K为正整数,Fm为第m级第一图像特征图。
第三训练模块203用于根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图,得到第2级第三图像特征图至第K级第三图像特征图,其中,K为正整数。
具体地,根据第六公式将第k-1级第三图像特征图与第k级第二图像特征图进行融合,第六公式为:
Figure GDA0003547265770000181
直至得到第K级第三图像特征图,其中,
Figure GDA0003547265770000182
表示第k级第三图像特征图,F″k表示第k级第二图像特征图,
Figure GDA0003547265770000183
表示第k-1级第三图像特征图,2≤k≤K,且当k=2时,
Figure GDA0003547265770000184
即第1级第三图像特征图为第1级第二图像特征图,
Figure GDA0003547265770000185
Figure GDA0003547265770000186
表示由卷积,批归一化和激活函数组成的第二复合函数,
Figure GDA0003547265770000187
表示由卷积,批归一化和激活函数组成的第三复合函数。
标签预测模块204用于利用所述自动图像标注模型中第二标签预测网络的平均池化层提取所述第K级第三图像特征图的图像特征向量;
利用所述自动图像标注模型中第二标签预测网络的全连接层和sigmoid函数对所述第K级第三图像特征图的图像特征向量进行处理,计算出所述自动图像标注模型中第二标签预测网络的每个语义标签的标注概率,并判断所述每个语义标签的标注概率是否大于或等于第一预设标签阈值;
若是,则将该标注概率对应的语义标签作为所述待标记图像的语义标签,直至得到所有的语义标签。
上述关于本发明的一种图像自动标注系统中的各参数和各个单元模块实现相应功能的步骤,可参考上文中关于一种图像自动标注方法的实施例中的各参数和步骤,在此不做赘述。
如图5所示,本发明实施例的一种电子设备300,包括存储器310、处理器320及存储在所述存储器310上并在所述处理器320上运行的程序330,所述处理器320执行所述程序330时实现上述任一图像自动标注方法的部分或全部步骤。
其中,电子设备300可以选用电脑、手机等,相对应地,其程序330为电脑软件或手机APP等,且上述关于本发明的一种电子设备300中的各参数和步骤,可参考上文中一种图像自动标注方法的实施例中的各参数和步骤,在此不做赘述。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种图像自动标注方法,其特征在于,包括以下步骤:
接收待标记图像;
将待标记图像输入到自动图像标注模型中,以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理,得到第K级第三图像特征图,并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理,得到所述待标记图像的语义标签,其中K为正整数;
使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理,得到第K级第三图像特征图,包括:
利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码,得到第1级第一图像特征图至第K级第一图像特征图;
利用所述自动图像标注模型中的第二卷积注意力网络分别对所述第1级第一图像特征图至第K级第一图像特征图进行处理,得到第1级第二图像特征图至第K级第二图像特征图;
根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图,得到第2级第三图像特征图至第K级第三图像特征图,其中,K为正整数;
根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图,得到第2级第三图像特征图至第K级第三图像特征图,包括:
根据第六公式将第k-1级第三图像特征图与第k级第二图像特征图进行融合,所述第六公式为:
Figure FDA0003547265760000011
直至得到第K级第三图像特征图,其中,
Figure FDA0003547265760000012
表示第k级第三图像特征图,F”k表示第k级第二图像特征图,
Figure FDA0003547265760000021
表示第k-1级第三图像特征图,2≤k≤K,且当k=2时,F1 f=F1”即第1级第三图像特征图为第1级第二图像特征图,
Figure FDA0003547265760000022
Figure FDA0003547265760000023
表示由卷积,批归一化和激活函数组成的第二复合函数,
Figure FDA0003547265760000024
表示由卷积,批归一化和激活函数组成的第三复合函数。
2.根据权利要求1所述的一种图像自动标注方法,其特征在于,还包括:
获取实验数据集和预训练模型,所述实验数据集包括多个语义标签;
根据卷积注意力网络、多尺度特征融合分支网络、标签预测网络和主干卷积神经网络构建自动图像标注网络;
将所述预训练模型加载到所述自动图像标注网络中的主干卷积神经网络中,得到第一主干卷积神经网络;
利用所述实验数据集对所述自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络共同进行训练,得到第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络;
利用所述实验数据集对含有所述第一主干卷积神经网络、第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络的自动图像标注网络进行训练,得到含有第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络和第二标签预测网络的自动图像标注模型。
3.根据权利要求1所述的一种图像自动标注方法,其特征在于,利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码,得到第1级第一图像特征图至第K级第一图像特征图,包括:
根据第一公式对所述待标记图像进行编码,得到第1级第一图像特征图至第K级第一图像特征图,所述第一公式为:Fn=Mn(Fn-1),
其中,1≤n≤K,n为正整数,Fn为第n级第一图像特征图,Fn-1为第n-1级第一图像特征图,当n=1时,Fn-1即F0为待标记图像的图像特征图,Mn表示的由卷积、池化、批归一化和激活函数组成的第一复合函数。
4.根据权利要求3所述的一种图像自动标注方法,其特征在于,所述自动图像标注模型中的第二卷积注意力网络分别对所述1至K级第一图像特征图进行处理,得到第1级第一图像特征图至第K级第二图像特征图,包括:
根据第二公式得到第m级一维通道注意力图MC(Fm),所述第二公式为:MC(Fm)=σ(MLP(AvgPool(Fm)+MLP(MaxPool(Fm));
根据第三公式得到第m级通道注意特征Fm’,所述第三公式为:Fm'=Fm×MC(Fm);
根据第四公式得到第m级二维空间注意力图MS(Fm'),所述第四公式为:MS(Fm')=σ(f7×7([AvgPool(Fm'),MaxPool(Fm')]));
根据第五公式得到第m级第二图像特征图Fm”,所述第五公式为:Fm”=Fm'×MS(Fm');
直至得到第K级第二图像特征图;
其中,MLP表示多层感知器,AvgPool表示平均池化,MaxPool表示最大池化,σ表示sigmoid函数,f7×7为一个卷积核大小为7×7的卷积层,1≤m≤K,m为正整数,K为正整数,Fm为第m级第一图像特征图。
5.根据权利要求1-4任一项所述的一种图像自动标注方法,其特征在于,所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理,得到所述待标记图像的语义标签,包括:
利用所述自动图像标注模型中第二标签预测网络的平均池化层提取所述第K级第三图像特征图的图像特征向量
利用所述自动图像标注模型中第二标签预测网络的全连接层和sigmoid函数对所述第K级第三图像特征图的图像特征向量进行处理,计算出所述自动图像标注模型中第二标签预测网络的每个语义标签的标注概率,并判断所述每个语义标签的标注概率是否大于或等于第一预设标签阈值;
若是,则将该标注概率对应的语义标签作为所述待标记图像的语义标签,直至得到所有的语义标签。
6.一种图像自动标注系统,其特征在于,包括接收模块和标注模块;
所述接收模块用于接收待标记图像;
所述标注模块用于将待标记图像输入到自动图像标注模型中,以使所述自动图像标注模型中的第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络依次对所述待标记图像进行处理,得到第K级第三图像特征图,并使所述自动图像标注模型中的第二标签预测网络对所述第K级第三图像特征图进行处理,得到所述待标记图像的语义标签,其中K为正整数;
还包括训练模块;
所述训练模块用于利用所述自动图像标注模型中的第二主干卷积神经网络对所述待标记图像进行编码,得到第1级第一图像特征图至第K级第一图像特征图;利用所述自动图像标注模型中的第二卷积注意力网络分别对所述第1级第一图像特征图至第K级第一图像特征图进行处理,得到第1级第二图像特征图至第K级第二图像特征图;根据所述自动图像标注模型中的第二多尺度特征融合分支网络和所述第1级第二图像特征图至第K级第二图像特征图,得到第2级第三图像特征图至第K级第三图像特征图,其中,K为正整数;
所述训练模块具体用于根据第六公式将第k-1级第三图像特征图与第k级第二图像特征图进行融合,所述第六公式为:
Figure FDA0003547265760000051
直至得到第K级第三图像特征图,其中,
Figure FDA0003547265760000052
表示第k级第三图像特征图,F”k表示第k级第二图像特征图,
Figure FDA0003547265760000053
表示第k-1级第三图像特征图,2≤k≤K,且当k=2时,F1 f=F1”即第1级第三图像特征图为第1级第二图像特征图,
Figure FDA0003547265760000054
Figure FDA0003547265760000055
表示由卷积,批归一化和激活函数组成的第二复合函数,
Figure FDA0003547265760000056
表示由卷积,批归一化和激活函数组成的第三复合函数。
7.根据权利要求6所述的一种图像自动标注系统,其特征在于,
所述训练模块还用于获取实验数据集和预训练模型,所述实验数据集包括多个语义标签;
根据卷积注意力网络、多尺度特征融合分支网络和标签预测网络和主干卷积神经网络构建自动图像标注网络;
将所述预训练模型加载到所述自动图像标注网络中的主干卷积神经网络中,得到第一主干卷积神经网络;
利用所述实验数据集对所述自动图像标注网络中的卷积注意力网络、多尺度特征融合分支网络、标签预测网络共同进行训练,得到第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络;
利用所述实验数据集对含有所述第一主干卷积神经网络、第一卷积注意力网络、第一多尺度特征融合分支网络和第一标签预测网络的自动图像标注网络进行训练,得到含有第二主干卷积神经网络、第二卷积注意力网络、第二多尺度特征融合分支网络和第二标签预测网络的自动图像标注模型。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的一种图像自动标注方法的步骤。
CN202110023565.1A 2021-01-08 2021-01-08 图像自动标注方法、系统及电子设备 Active CN112732967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110023565.1A CN112732967B (zh) 2021-01-08 2021-01-08 图像自动标注方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110023565.1A CN112732967B (zh) 2021-01-08 2021-01-08 图像自动标注方法、系统及电子设备

Publications (2)

Publication Number Publication Date
CN112732967A CN112732967A (zh) 2021-04-30
CN112732967B true CN112732967B (zh) 2022-04-29

Family

ID=75591310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110023565.1A Active CN112732967B (zh) 2021-01-08 2021-01-08 图像自动标注方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN112732967B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579524B (zh) * 2022-05-06 2022-07-15 成都大学 一种处理图像数据的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250915A (zh) * 2016-07-22 2016-12-21 福州大学 一种融合深度特征和语义邻域的自动图像标注方法
CN108416384A (zh) * 2018-03-05 2018-08-17 苏州大学 一种图像标签标注方法、系统、设备及可读存储介质
CN108595558A (zh) * 2018-04-12 2018-09-28 福建工程学院 一种数据均衡策略和多特征融合的图像标注方法
CN110516098A (zh) * 2019-08-26 2019-11-29 苏州大学 基于卷积神经网络及二进制编码特征的图像标注方法
CN111079840A (zh) * 2019-12-17 2020-04-28 太原科技大学 基于卷积神经网络和概念格的图像语义完备标注方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679330B2 (en) * 2018-01-15 2020-06-09 Tata Consultancy Services Limited Systems and methods for automated inferencing of changes in spatio-temporal images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250915A (zh) * 2016-07-22 2016-12-21 福州大学 一种融合深度特征和语义邻域的自动图像标注方法
CN108416384A (zh) * 2018-03-05 2018-08-17 苏州大学 一种图像标签标注方法、系统、设备及可读存储介质
CN108595558A (zh) * 2018-04-12 2018-09-28 福建工程学院 一种数据均衡策略和多特征融合的图像标注方法
CN110516098A (zh) * 2019-08-26 2019-11-29 苏州大学 基于卷积神经网络及二进制编码特征的图像标注方法
CN111127493A (zh) * 2019-11-12 2020-05-08 中国矿业大学 基于注意力多尺度特征融合的遥感图像语义分割方法
CN111079840A (zh) * 2019-12-17 2020-04-28 太原科技大学 基于卷积神经网络和概念格的图像语义完备标注方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Semi-Supervised CNN Learning Method with Pseudo-class Labels for Atherosclerotic Vascular Calcification Detection;Jiamin Liu等;《IEEE》;20190711;第780-783页 *
基于卷积神经网络和概念格的图像语义完备标注;李雯莉等;《小型微型计算机系统》;20200904(第09期);第189-196页 *
基于卷积神经网络的多标签图像自动标注;黎健成等;《计算机科学》;20160715(第07期);第48-52页 *
基于深度学习的结构化图像标注研究;姚义等;《电脑知识与技术》;20191125(第33期);第193-195页 *
结合深度特征与多标记分类的图像语义标注;李志欣等;《计算机辅助设计与图形学学报》;20180215(第02期);第130-138页 *

Also Published As

Publication number Publication date
CN112732967A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
US20120219186A1 (en) Continuous Linear Dynamic Systems
CN112966691A (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN112927209B (zh) 一种基于cnn的显著性检测系统和方法
JP2011248879A (ja) テスト画像内のオブジェクトを分類するための方法
CN113806580B (zh) 基于层次语义结构的跨模态哈希检索方法
CN115937655A (zh) 多阶特征交互的目标检测模型及其构建方法、装置及应用
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN116310563A (zh) 一种贵金属库存的管理方法及系统
CN112069892A (zh) 一种图像识别方法、装置、设备及存储介质
CN112732967B (zh) 图像自动标注方法、系统及电子设备
CN113869234A (zh) 人脸表情识别方法、装置、设备及存储介质
CN114462290A (zh) 一种生成预训练人工智能模型的方法及装置
CN114170484B (zh) 图片属性预测方法、装置、电子设备和存储介质
CN115205573A (zh) 图像处理方法、装置及设备
CN114913339A (zh) 特征图提取模型的训练方法和装置
CN114841887A (zh) 一种基于多层次差异学习的图像恢复质量评价方法
CN111815658B (zh) 一种图像识别方法及装置
CN114117037A (zh) 意图识别方法、装置、设备和存储介质
CN112084371A (zh) 一种电影多标签分类方法、装置、电子设备以及存储介质
CN116129198B (zh) 一种多域轮胎花纹图像分类方法、系统、介质及设备
CN114332884B (zh) 文档元素的识别方法、装置、设备及存储介质
CN113971743B (zh) 一种基于先验信息的语义补充网络的多标签图像分类方法
US20240104915A1 (en) Long duration structured video action segmentation
CN116433974A (zh) 一种标签分类的方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant