CN109754015B - 用于画作多标签识别的神经网络及相关方法、介质和设备 - Google Patents

用于画作多标签识别的神经网络及相关方法、介质和设备 Download PDF

Info

Publication number
CN109754015B
CN109754015B CN201910001380.3A CN201910001380A CN109754015B CN 109754015 B CN109754015 B CN 109754015B CN 201910001380 A CN201910001380 A CN 201910001380A CN 109754015 B CN109754015 B CN 109754015B
Authority
CN
China
Prior art keywords
label
network
feature map
convolution layers
outputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910001380.3A
Other languages
English (en)
Other versions
CN109754015A (zh
Inventor
王婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Art Cloud Technology Co Ltd
BOE Art Cloud Suzhou Technology Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201910001380.3A priority Critical patent/CN109754015B/zh
Publication of CN109754015A publication Critical patent/CN109754015A/zh
Priority to PCT/CN2019/097089 priority patent/WO2020140422A1/en
Priority to US16/626,560 priority patent/US20210295089A1/en
Application granted granted Critical
Publication of CN109754015B publication Critical patent/CN109754015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种用于画作多标签识别的神经网络及相关方法、介质和设备。本发明实施例的神经网络包括:残差注意力网络,用于接收画作图像并学习图像的注意力区域从而输出特征图;内容标签网络,用于接收特征图并输出内容标签的预测概率;题材标签网络,用于接收特征图并输出题材标签的预测概率;类别标签网络,用于接收特征图并输出类别标签的预测概率。该实施方式可实现画作图像的内容多标签识别、题材多标签识别及类别单标签识别。

Description

用于画作多标签识别的神经网络及相关方法、介质和设备
技术领域
本发明涉及图像处理技术领域,特别涉及用于画作多标签识别的神经网络、利用该神经网络进行训练的方法、利用该神经网络进行多标签识别的方法、存储介质以及计算机设备。
背景技术
深度学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。在ImageNet数据集上,ResNet的top-5error仅为3.75%,与传统识别方法相比指标得到了大大的提高。卷积神经网络具有强大的学习能力和高效的特征表达能力,在单标签识别中获得了很好效果。但真实的一幅图像中不仅只包含一个场景和物体,所以图像多标签识别问题亟需解决。
目前已有的方法均是基于普通照片图片,生成对应的内容标签或者场景标签,没有针对画作的特点(需要多类标签,包括多标签和单标签;而普通照片图片识别不需要类似画作的多类标签)生成标签的方法,也没有将单标签与多标签的生成放在一个网络、同时生成标签的方法。
因此,需要提供一种解决上述问题的网络、方法和装置。
发明内容
本发明的目的在于提供一种用于画作多标签识别的神经网络以及相关方法和装置,以解决现有技术存在的问题中的至少之一。
为达到上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种用于画作多标签识别的神经网络,包括:
残差注意力网络,用于接收画作图像并输出第一特征图;
内容标签网络,用于接收所述第一特征图并输出内容标签的预测概率;
题材标签网络,用于接收所述第一特征图并输出题材标签的预测概率;以及
类别标签网络,用于接收所述第一特征图并输出类别标签的预测概率。
可选地,所述神经网络还包括残差网络,用于接收所述第一特征图并输出降维的第二特征图。
可选地,所述内容标签网络包括:
空间正则化子网络,用于接收所述第一特征图并输出内容标签的第一预测概率;
第一子网络,用于接收所述第二特征图并输出内容标签的第二预测概率;
其中所述第一预测概率和第二预测概率通过取平均值计算得到所述内容标签的预测概率。
可选地,所述第一子网络包括:
第一卷积层,用于接收所述第二特征图并输出第三特征图;
第一平均池化层,用于接收第三特征图并输出第四特征图;
第一全连接层,用于接收第四特征图并输出所述第二预测概率。
可选地,所述题材标签网络包括:
第一加权模块,用于对所述第二特征图的每个通道生成权重并将所述权重加权到所述第二特征图的特征上,从而生成第五特征图;
标签相关性网络,包括顺序连接的多个卷积层,用于对所述第五特征图进行卷积输出第六特征图;
第二全连接层,用于接收第六特征图并输出所述题材标签的预测概率。
可选地,所述类别标签网络包括:
第二加权模块,用于对所述第二特征图的每个通道生成权重并将所述权重加权到所述第二特征图的特征上,从而生成第七特征图;
第二卷积层,用于接收第七特征图并输出第八特征图;
第二平均池化层,用于接收第八特征图并输出第九特征图;
第三全连接层,用于接收第九特征图并输出所述类别标签的预测概率。
可选地,
所述残差网络包括1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层,所述第一特征图连续经过1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层输出7*7*2048大小的第二特征图;
所述第一卷积层由2048个3*3大小步长为2的卷积层组成;
所述第一平均池化层为3*3大小,所述第四特征图具有2048维特征向量。
可选地,
所述残差网络包括1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层,所述第一特征图连续经过1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层输出7*7*2048大小的第二特征图;
所述第五特征图为7*7*2048大小;
所述多个卷积层包括K个1*1*2048卷积层,512个1*1*K卷积层,512个1*1*512卷积层以及2048个7*7*1大小并且分为512组每组4个卷积核的卷积层,所述第五特征图连续经过所述多个卷积层,输出所述第六特征图,其中K为题材标签种类个数。
可选地,
所述残差网络包括1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层,所述第一特征图连续经过1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层输出7*7大小的第二特征图;
所述第二卷积层为3*3大小步长为2的卷积层;
所述第二平均池化层为3*3大小,所述第九特征图具有2048维特征向量;
所述第三全连接层为Softmax层。
本发明第二方面提供了一种利用本发明第一方面提供的神经网络进行多标签识别的训练方法,包括:使用类别标签训练数据集对残差注意力网络和类别标签网络进行训练;
使用内容标签训练数据集进行训练,调整所述残差注意力网络参数并对内容标签网络进行训练,同时保持类别标签子网络参数不变;
使用题材标签训练数据集进行训练,保持残差注意力网络、内容标签网络和类别标签网络参数不变,调整题材标签网络参数;以及
使用类别标签训练数据集进行训练,仅对类别网络进行训练。
本发明第三方面提供了一种利用神经网络进行多标签识别的方法,包括:
将画作图像输入到经过本发明第二方面所述的训练方法训练过的神经网络,从而输出内容标签的预测概率、题材标签的预测概率以及类别标签的预测概率。
可选地,所述识别方法还包括
为内容标签和题材标签中的每个标签设置不同的最优概率阈值,其中
所述内容标签的预测概率和题材标签的预测概率是通过与对应的最优概率阈值比较得到的。
可选地,所述识别方法还包括
对每个标签设置多个概率阈值;
利用所述多个概率阈值中的每一个概率阈值,得到标签的对应准确率;
选择最高的准确率对应的概率阈值作为所述最优概率阈值。
可选地,所述画作图像在输入到所述神经网络之前,所述方法还包括:对所述画作图像进行数据增强。
可选地,所述数据增强采用多尺度裁剪方法。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明第二方面提供的训练方法或者如本发明第三方面提供的识别方法。
本发明第五方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第二方面提供的训练方法或者如本发明第三方面提供的识别方法。
本发明的有益效果如下:
本发明所述网络、方法以及装置可实现针对画作图像的多标签识别,并且实现了将单标签与多标签的生成在一个网络、同时生成标签的目的。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明;
图1示出根据本发明的一个实施例提供的用于画作多标签识别的神经网络的网络模型示意图。
图2示出根据本发明的一个实施例的残差注意力网络示意图。
图3示出根据本发明的一个实施例的空间正则化子网络的网络模型示意图。
图4示出根据本发明的一个实施例的SE单元的网络模型示意图。
图5示出根据本发明的另一个实施例提供的神经网络进行多标签识别的训练方法的流程图。
图6示出根据本发明实施例提供的计算机设备的结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
画作的标签可以归为单标签和多标签两种:一种是单标签,即每张图片仅对应一类,如画作的类别标签(国画、油画、素描、水粉水彩等),类别标签是针对整幅图像的特征进行判断与分类,倾向于整体的区分;另一种是多标签,即每张图片对应多个标签,如内容标签(天空、房子、山、水、马等)和题材标签。内容标签侧重图像的局部特征,多基于注意力机制,通过局部关键特征和位置信息进行标签的识别,适用于对两个相似的主题通过各个局部比较来识别标签。
本发明的一个实施例提供一种用于画作多标签识别的神经网络,如图1所示,包括:作为主网络的残差注意力网络(Residual Attention Network)1,用于接收画作图像并学习图像的注意力区域从而输出第一特征图;以及三个涉及内容标签、题材标签以及类别标签的子网络,即内容标签网络,用于接收第一特征图并输出内容标签的预测概率;题材标签网络,用于接收第一特征图并输出题材标签的预测概率;以及类别标签网络,用于接收第一特征图并输出类别标签的预测概率。
残差注意力网络
在一个具体示例中,以输入尺寸为224*224*3大小(以RGB三通道为例)的画作图像为例输入残差注意力网络1。
如图2所示,本方案仅取Residual Attention Network网络模型的前3级作为主网络。
该网络主要学习特征图的注意力区域。Residual Attention Network是在每个残值单元(Residual Unit)之间加入注意力模块(Attention Module)。每个注意力模块分两支,一支是仅含有Residual Unit的trunk branch,这一支的作用是学习得到图像特征,与普通Residual Net一样。另一支是含有bottom-up top-down结构的mask branch,bottom-up结构是几个Residual unit后执行最大池化(max pooling)完成采样,这样加大感受野。因为高层特征种所激活的像素能反应Attention所在区域,因此图像分辨率降到最低后执行上采样和Residual unit,结合不同尺度信息,恢复到原特征图大小,这样Attention的区域对应到输入的每个像素上,用此结果加权特征,达到增强有意义的特征,抑制无效信息的目的。
关于特征图的大小计算方法可以具体如下:
输入图像大小为W1*H1*D1,其中W1、H1和D1分别为图像宽度、高度和深度,指定超参数:滤波器个数(K),滤波器大小(F),步长(S),边界填充(P),则
输出特征图大小为:W2=(W1-F+2P)/S+1;H2=(H1-F+2P)/S+1;D2=K。
对于本示例中的输入尺寸为224*224*3大小的画作图像,经过残差注意力网络1后输出14*14*1024大小的第一特征图。
内容标签网络
在残差注意力网络1之后连接的是针对画作打标签的网络结构。
在作为主网络的残差注意力网络1之后连接的是内容标签网络,其包括两个分支,一是空间正则化子网络(SRN Net)20,另一分支为第一子网络。
上述示例中的14*14*1024的第一特征图输入到空间正则化子网络20。
SRN Net是适用于图像数据集图像的多标签识别的,目前在coco数据集上此种模型是效果最优的。
本方案借鉴SRN模块来进行画作内容识别。内容标签是三种标签中最复杂的,因为标签之间存在相关性,而且空间位置也有对应关系。Residual Attention Network网络中已对特征图进行了注意力提取,但是标签之间的相关性没有涉及。因此SRN网络目的是获取多标签之间存在的语义相关性。如图3所示,本实施例的SRN Net分为两个分支:一个分支抽取特征层(14*14*1024),经过fatt(3个卷积层1*1*512;3*3*512;1*1*C)得到注意力图A(14*14*C),其中C为总标签数目。对上述得到的特征图(图中以X表示)使用注意力A进行加权,得到每个标签的加权平均视觉特征vl并进行分类,引入置信度图S把vl转化为使用X特征进行分类;另一分支通过conv1卷积层得到分类置信度S图,再经Sigmoid函数与A图进行加权;加权结果经fsr(3个卷积1*1*C;1*1*512,2048个14*14*1大小并且分为512组每组4个卷积核)学习得到标签之间的语义联系(从SRN模型本身得出)和空间联系(从残差注意力模型得出)。最终,空间正则化子网络(SRN Net)20输出所述内容标签的第一预测概率,即所述画作是否存在某种内容标签(也即需要标记某种内容标签)的第一预测概率。
第一子网络包括残差网络(Residual Net)22、第一卷积层24、第一平均池化层26以及第一全连接层(图中未示出)。
接上面的示例,将来自残差注意力网络1的14*14*1024大小的第一特征图输入到残差网络22。
相比于上述残差注意力网络1,残差网络22仅存在分支trunk branch,即不包括mask branch。
这一模块为连续3个(1*1*512;3*3*512;1*1*2048)操作,输出为7*7*2048大小的第二特征图。
在现有的Residual Net方案中,Residual Net最后面接7*7的平均池化层得到2028维的特征,这样特征图尺寸由7*7*2028一步缩小到1*1*2028,损失了太多信息。
为此,在本发明的实施例中,在Residual Net后顺序连接第一卷积层24、第一平均池化层26以及第一全连接层。
所述第一卷积层由2048个3*3大小步长为2的卷积层(即通道数为2048,3*3大小步长为2的卷积层)组成,接收由残差网络22输出的维度为7*7*2048大小的第二特征图并输出第三特征图。
所述第一平均池化层26为3*3大小,输入第三特征图并输出第四特征图。所述第四特征图具有2048维特征向量。
第一全连接层接收第四特征图对内容多标签进行预测并输出所述第二预测概率。
注意内容是多标签,loss(损失函数)计算时每个全连接的节点均为二分类器,单个样本的loss计算公式:
Figure BDA0001933706950000071
C为标签类别总数,yl为第l个标签的Ground Truth,
Figure BDA0001933706950000072
为该标签的预测概率。
将从SRN Net得到的第一预测概率和从残差网络得到的第二预测概率取平均值得到所述内容标签的预测概率。
本实施例中,对于画作的内容标签识别,由于结合了残差注意力网络1和内容标签网络,利用了注意力机制和标签之间相关性(语义相关性和空间相关性),实现了画作图像的内容多标签识别。
题材标签网络
对于画作图像的题材标签,在残差注意力网络1之后连接的是残差网络22。请注意,在图1所示的实施例中,本部分的残差网络与内容标签网络部分中的残差网络共享,然而本发明不限于此,可以是独立的残差网络。
仍接上述示例,来自残差注意力网络1的14*14*1024的第一特征图输入到残差网络22并输出为7*7*2048大小的第二特征图。
在残差网络22之后,题材标签网络还包括第一加权模块(SE单元)30,模型如图4所示。
题材标签同样也是多标签,但是和内容标签不同在于题材从画作整体把握,不需要提取画作物体的注意力,因此题材的标签的网络仅使用提取标签之间相关性。从残差网络22输出的7*7*2048大小的第二特征图(图中以W*H*C维度示出)经过SE单元。每次卷积后得到三维响应W*H*C,W*H为特征图大小,C为通道数。进行空间池化sum-pooling,得到C维向量。之后经过激活层(Excitation)操作,它是一个类似于循环神经网络中门的机制。C1层(激活函数为Relu)和C2(激活函数为Sigmoid)层来为每个特征通道生成权重,其中参数被学习用来显式地建模特征通道间的相关性。之后经过Reweight的操作(图中以
Figure BDA0001933706950000081
示出),将Excitation的输出的权重看作是进过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定。这一模块可以加载到任意卷积层后区分不同通道对特征图影响。
这个单元的作用与Residual Attention Net作用类似,只是实现方法不一样。SE单元通过学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征,经过SE单元之后输出7*7*2048大小的第五特征图。
多标签比单标签识别问题复杂,因为多标签不仅和图像中的物体的布局有关,而且标签与标签之间也有关联,例如“天空”标签一般在图像上方,“草地”标签在图像下方,而且“天空”与“白云”标签相关性比较大,经常会出现。多标签识别问题与目标检测问题也有很大区别,目标检测是数据集中GroundTruth已经标注了物体类别和所在位置区域,但是多标签识别问题中是没有标注目标区域的,因此相当于弱监督问题。
因此,在本发明的实施例中在SE单元之后连接标签相关性网络(Label relationNet)32。其借鉴SRN思想但仅用来学习标签之间相关性,取SRN模型中的一个模块fsr(见图3)。K为题材标签种类,Label relation Net包含卷积1(K个1*1*2048卷积层),卷积2(512个1*1*K卷积层),卷积3(512个1*1*512卷积层),卷积4(2048个7*7*1大小并且分为512组每组4个卷积核的卷积层)。标签相关性网络32输出第六特征图。
接着,将第六特征图输入第二全连接层(图中未示出),对题材多标签进行预测,得到题材标签的预测概率,即所述画作是否存在某种题材标签(也即需要标记某种题材标签)的概率。
其中的loss函数与内容标签的loss函数相同。
本实施例中,通过标签相关性网络学习标签的相关性,实现了画作图像的题材多标签识别。
类别标签网络
在残差注意力网络1之后连接的是残差网络22。请注意,在图1所示的实施例中,本部分的残差网络与内容标签网络部分中的残差网络共享,然而本发明不限于此,可以是独立的残差网络。
仍接上述示例,来自残差注意力网络1的14*14*1024大小的第一特征图输入到残差网络22并输出维度为7*7*2048的第二特征图。
在残差网络22之后,类别标签网络还包括第二加权模块(SE单元)40,模型如图4所示、第二卷积层42、第二平均池化层44和第三全连接层(图中未示出)。
第二加权模块40,用于对所述第二特征图的每个通道生成权重并将所述权重加权到所述第二特征图的特征上,从而生成第七特征图。
第二卷积层42,用于接收第七特征图并输出第八特征图。
第二平均池化层44,用于接收第八特征图并输出第九特征图。
第三全连接层,用于接收第八特征图并输出所述类别标签的预测概率,即所述画作是否存在某种类别标签(也即需要标记某种类别标签)的概率。
在优选示例中,所述第二卷积层42为3*3大小步长为2的卷积层。
在优选示例中,所述第二平均池化层44为3*3大小,所述第九特征图具有2048维特征向量;
在优选示例中,由于类别时是单标签,所述第三全连接层可以为Softmax层。
本发明所述神经网络可实现针对画作图像的多标签识别,并且实现了将单标签与多标签的生成在一个网络、同时生成标签的目的。
训练方法
本发明的另一个实施例提供一种利用上述实施例中的神经网络进行画作多标签识别的训练,如图5所示,包括
使用类别标签训练数据集对残差注意力网络和类别标签网络进行训练;
使用内容标签训练数据集进行训练,调整所述残差注意力网络参数并对内容标签网络进行训练,同时保持类别标签子网络参数不变;
使用题材标签训练数据集进行训练,保持残差注意力网络、内容标签网络和类别标签网络参数不变,调整题材标签网络参数;以及
使用类别标签训练数据集进行训练,仅对类别网络进行训练。
相比于常规的对主网络、内容标签网络、题材标签网络、类别标签网络的单独训练方法,本发明的实施例采用整体训练的方法,先训练残差注意力网络和类别标签网络,再调整残差注意力网络参数,对内容标签网络进行训练并保持类别标签网络参数不变;进而训练题材标签网络,保持其余三个网络参数不变;最后再次对类别标签网络进行训练并保持其它三个网络参数不变,从而节省了网络的收敛时间,提高了预测的准确率。
识别方法
本发明的另一个实施例提供利用神经网络进行多标签识别的方法,包括
将画作图像输入到经过上述训练方法训练过的神经网络,从而输出内容标签的预测概率、题材标签的预测概率以及类别标签的预测概率。
对于内容标签和题材标签这样的多标签,在一个优选实施例中,为内容标签和题材标签中的每个标签设置不同的最优概率阈值,其中所述内容标签的预测概率和题材标签的预测概率是通过与对应的最优概率阈值比较得到的,超过所述最优概率阈值,则输出存在的标签(意味着存在此标签),小于所述最优概率阈值,则不输出标签(意味着不存在此标签)。
更优选地,该识别方法还包括
对内容标签和题材标签的每个标签设置多个0-1之间的概率阈值,以内容标签中的一个标签为例,设置例如P1、P2…P9。
利用内容标签测试集对神经网络进行测试,得到该标签的预测概率C1,分别计算阈值P1、P2…P9下的准确率K1、K2…K9,取准确率K1到K9中最高准确率对应的阈值作为最优阈值。
其他标签也经类似操作获得对应标签的最优阈值。
至于类别标签,由于属于单标签,取预测概率最大的即可。
在本实施例的一些可选的实现方式中,所述画作图像在输入到所述神经网络之前,所述方法还包括对所述画作图像进行数据增强。
数据增强的目的提高样本的多样性,例如由于拍照拍斜了、光线不好等原因,多增加一些样本。使用的方法有颜色抖动,左右翻转,多尺度裁剪等,但是本申请应用在画作上,因此不采用色彩方面的增强。由于画作类别中油画和水彩很难区分,需要从图像细节着手,所以优选采用多尺度裁剪放大细节。
如图6所示,适于用来实现上述训练方法或识别方法的计算机设备,包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有计算机系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括有形地包含在计算机可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
附图中的流程图和示意图,图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器,包括残差注意力网络训练单元、类别标签网络训练单元等。
作为另一方面,本实施例还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质,也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备实现上述训练方法或识别方法。
需要说明的是,在本发明的描述中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (16)

1.一种利用神经网络进行多标签识别的训练方法,其特征在于,
所述神经网络包括:
残差注意力网络,用于接收画作图像并输出第一特征图;
内容标签网络,用于接收所述第一特征图并输出内容标签的预测概率;
题材标签网络,用于接收所述第一特征图并输出题材标签的预测概率;以及
类别标签网络,用于接收所述第一特征图并输出类别标签的预测概率;
所述训练方法包括:
使用类别标签训练数据集对残差注意力网络和类别标签网络进行训练;
使用内容标签训练数据集进行训练,调整所述残差注意力网络参数并对内容标签网络进行训练,同时保持类别标签网络参数不变;
使用题材标签训练数据集进行训练,保持残差注意力网络、内容标签网络和类别标签网络参数不变,调整题材标签网络参数;以及
使用类别标签训练数据集进行训练,仅对类别网络进行训练。
2.根据权利要求1所述的训练方法,其特征在于,还包括:
残差网络,用于接收所述第一特征图并输出降维的第二特征图。
3.根据权利要求2所述的训练方法,其特征在于,所述内容标签网络包括:
空间正则化子网络,用于接收所述第一特征图并输出内容标签的第一预测概率;
第一子网络,用于接收所述第二特征图并输出内容标签的第二预测概率;
其中所述第一预测概率和第二预测概率通过取平均值计算得到所述内容标签的预测概率。
4.根据权利要求3所述的训练方法,其特征在于,所述第一子网络包括:
第一卷积层,用于接收所述第二特征图并输出第三特征图;
第一平均池化层,用于接收第三特征图并输出第四特征图;
第一全连接层,用于接收第四特征图并输出所述第二预测概率。
5.根据权利要求2所述的训练方法,其特征在于,所述题材标签网络包括:
第一加权模块,用于对所述第二特征图的每个通道生成权重并将所述权重加权到所述第二特征图的特征上,从而生成第五特征图;
标签相关性网络,包括顺序连接的多个卷积层,用于对所述第五特征图进行卷积输出第六特征图;
第二全连接层,用于接收第六特征图并输出所述题材标签的预测概率。
6.根据权利要求2所述的训练方法,其特征在于,所述类别标签网络包括:
第二加权模块,用于对所述第二特征图的每个通道生成权重并将所述权重加权到所述第二特征图的特征上,从而生成第七特征图;
第二卷积层,用于接收第七特征图并输出第八特征图;
第二平均池化层,用于接收第八特征图并输出第九特征图;
第三全连接层,用于接收第九特征图并输出所述类别标签的预测概率。
7.根据权利要求4所述的训练方法,其特征在于,
所述残差网络包括1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层,所述第一特征图连续经过1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层输出7*7*2048大小的第二特征图;
所述第一卷积层由2048个3*3大小步长为2的卷积层组成;
所述第一平均池化层为3*3大小,所述第四特征图具有2048维特征向量。
8.根据权利要求5所述的训练方法,其特征在于,
所述残差网络包括1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层,所述第一特征图连续经过1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层输出7*7*2048大小的第二特征图;
所述第五特征图为7*7*2048大小;
所述多个卷积层包括K个1*1*2048卷积层,512个1*1*K卷积层,512个1*1*512卷积层以及2048个7*7*1大小并且分为512组每组4个卷积核的卷积层,所述第五特征图连续经过所述多个卷积层,输出所述第六特征图,其中K为题材标签种类个数。
9.根据权利要求6所述的训练方法,其特征在于,
所述残差网络包括1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层,所述第一特征图连续经过1*1*512卷积层、3*3*512卷积层和1*1*2048卷积层输出7*7*2048大小的第二特征图;
所述第二卷积层为3*3大小步长为2的卷积层;
所述第二平均池化层为3*3大小,所述第九特征图具有2048维特征向量;
所述第三全连接层为Softmax层。
10.一种用于画作多标签的识别方法,其特征在于,包括:
将画作图像输入到经过权利要求1所述的训练方法训练过的神经网络,从而输出内容标签的预测概率、题材标签的预测概率以及类别标签的预测概率。
11.根据权利要求10所述的识别方法,其特征在于,还包括
为内容标签和题材标签中的每个标签设置不同的最优概率阈值,其中
所述内容标签的预测概率和题材标签的预测概率是通过与对应的最优概率阈值比较得到的。
12.根据权利要求11所述的识别方法,其特征在于,还包括
对每个标签设置多个概率阈值;
利用所述多个概率阈值中的每一个概率阈值,得到标签的对应准确率;
选择最高的准确率对应的概率阈值作为所述最优概率阈值。
13.根据权利要求10所述的识别方法,其特征在于,
所述画作图像在输入到所述神经网络之前,所述方法还包括:
对所述画作图像进行数据增强。
14.根据权利要求13所述的识别方法,其特征在于,所述数据增强采用多尺度裁剪方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一项所述的训练方法或者如权利要求10-14中任一项所述的识别方法。
16.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中任一项所述的训练方法或者如权利要求10-14中任一项所述的识别方法。
CN201910001380.3A 2019-01-02 2019-01-02 用于画作多标签识别的神经网络及相关方法、介质和设备 Active CN109754015B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910001380.3A CN109754015B (zh) 2019-01-02 2019-01-02 用于画作多标签识别的神经网络及相关方法、介质和设备
PCT/CN2019/097089 WO2020140422A1 (en) 2019-01-02 2019-07-22 Neural network for automatically tagging input image, computer-implemented method for automatically tagging input image, apparatus for automatically tagging input image, and computer-program product
US16/626,560 US20210295089A1 (en) 2019-01-02 2019-07-22 Neural network for automatically tagging input image, computer-implemented method for automatically tagging input image, apparatus for automatically tagging input image, and computer-program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910001380.3A CN109754015B (zh) 2019-01-02 2019-01-02 用于画作多标签识别的神经网络及相关方法、介质和设备

Publications (2)

Publication Number Publication Date
CN109754015A CN109754015A (zh) 2019-05-14
CN109754015B true CN109754015B (zh) 2021-01-26

Family

ID=66405133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910001380.3A Active CN109754015B (zh) 2019-01-02 2019-01-02 用于画作多标签识别的神经网络及相关方法、介质和设备

Country Status (3)

Country Link
US (1) US20210295089A1 (zh)
CN (1) CN109754015B (zh)
WO (1) WO2020140422A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754015B (zh) * 2019-01-02 2021-01-26 京东方科技集团股份有限公司 用于画作多标签识别的神经网络及相关方法、介质和设备
US11494616B2 (en) * 2019-05-09 2022-11-08 Shenzhen Malong Technologies Co., Ltd. Decoupling category-wise independence and relevance with self-attention for multi-label image classification
CN110210572B (zh) * 2019-06-10 2023-02-07 腾讯科技(深圳)有限公司 图像分类方法、装置、存储介质及设备
CN110427867B (zh) * 2019-07-30 2021-11-19 华中科技大学 基于残差注意力机制的面部表情识别方法及系统
CN112348045B (zh) * 2019-08-09 2024-08-09 北京地平线机器人技术研发有限公司 神经网络的训练方法、训练装置和电子设备
CN110704650B (zh) * 2019-09-29 2023-04-25 携程计算机技术(上海)有限公司 Ota图片标签的识别方法、电子设备和介质
CN111091045B (zh) * 2019-10-25 2022-08-23 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111243729B (zh) * 2020-01-07 2022-03-08 同济大学 一种肺部x线胸片检查报告自动生成方法
US11537818B2 (en) * 2020-01-17 2022-12-27 Optum, Inc. Apparatus, computer program product, and method for predictive data labelling using a dual-prediction model system
CN111667468A (zh) * 2020-05-28 2020-09-15 平安科技(深圳)有限公司 基于神经网络的oct图像病灶检测方法、装置及介质
US11664090B2 (en) * 2020-06-11 2023-05-30 Life Technologies Corporation Basecaller with dilated convolutional neural network
CN111582409B (zh) * 2020-06-29 2023-12-26 腾讯科技(深圳)有限公司 图像标签分类网络的训练方法、图像标签分类方法及设备
CN111797763A (zh) * 2020-07-02 2020-10-20 北京灵汐科技有限公司 一种场景识别方法和系统
CN112232479B (zh) * 2020-09-11 2024-06-14 湖北大学 基于深度级联神经网络的建筑能耗时空因子表征方法及相关产品
CN112232232B (zh) * 2020-10-20 2022-09-27 城云科技(中国)有限公司 一种目标检测方法
CN112257601B (zh) * 2020-10-22 2023-02-21 福州大学 基于弱监督学习的数据增强网络的细粒度车辆识别方法
CN112562819B (zh) * 2020-12-10 2022-06-17 清华大学 一种针对先心病的超声多切面数据的报告生成方法
CN112732871B (zh) * 2021-01-12 2023-04-28 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN112836076B (zh) * 2021-01-27 2024-07-19 京东方科技集团股份有限公司 一种图像标签生成方法、装置及设备
CN112494063B (zh) * 2021-02-08 2021-06-01 四川大学 一种基于注意力机制神经网络的腹部淋巴结分区方法
CN113470001B (zh) * 2021-07-22 2024-01-09 西北工业大学 一种用于红外图像的目标搜索方法
CN117893839B (zh) * 2024-03-15 2024-06-07 华东交通大学 一种基于图注意力机制的多标记分类方法及系统
CN118378178B (zh) * 2024-06-24 2024-08-23 三峡金沙江川云水电开发有限公司 基于残差图卷积神经网络的变压器故障识别方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316042A (zh) * 2017-07-18 2017-11-03 盛世贞观(北京)科技有限公司 一种绘画图像检索方法及装置
CN108171254A (zh) * 2017-11-22 2018-06-15 北京达佳互联信息技术有限公司 图像标签确定方法、装置及终端
CN108509775B (zh) * 2018-02-08 2020-11-13 暨南大学 一种基于机器学习的恶意png图像识别方法
CN108985314A (zh) * 2018-05-24 2018-12-11 北京飞搜科技有限公司 目标检测方法及设备
CN109754015B (zh) * 2019-01-02 2021-01-26 京东方科技集团股份有限公司 用于画作多标签识别的神经网络及相关方法、介质和设备

Also Published As

Publication number Publication date
US20210295089A1 (en) 2021-09-23
WO2020140422A1 (en) 2020-07-09
CN109754015A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN109754015B (zh) 用于画作多标签识别的神经网络及相关方法、介质和设备
CN109711481B (zh) 用于画作多标签识别的神经网络、相关方法、介质和设备
CN111178183B (zh) 人脸检测方法及相关装置
CN108229519B (zh) 图像分类的方法、装置及系统
CN110309856A (zh) 图像分类方法、神经网络的训练方法及装置
WO2020077940A1 (en) Method and device for automatic identification of labels of image
CN109033107A (zh) 图像检索方法和装置、计算机设备和存储介质
CN112308862A (zh) 图像语义分割模型训练、分割方法、装置以及存储介质
CN109657715B (zh) 一种语义分割方法、装置、设备及介质
Wang et al. Deep learning-based visual detection of marine organisms: A survey
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN112132145B (zh) 一种基于模型扩展卷积神经网络的图像分类方法及系统
Li et al. Image manipulation localization using attentional cross-domain CNN features
CN111680757A (zh) 一种基于自编码器的零样本图像识别算法及系统
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
Malav et al. DHSGAN: An end to end dehazing network for fog and smoke
CN115563327A (zh) 基于Transformer网络选择性蒸馏的零样本跨模态检索方法
CN116844032A (zh) 一种海洋环境下目标检测识别方法、装置、设备及介质
CN116977633A (zh) 地物要素分割模型训练方法、地物要素分割方法及装置
CN115358952A (zh) 一种基于元学习的图像增强方法、系统、设备和存储介质
CN112750128B (zh) 图像语义分割方法、装置、终端及可读存储介质
CN116912484A (zh) 图像语义分割方法、装置、电子设备和可读存储介质
CN116416212A (zh) 路面破损检测神经网络训练方法及路面破损检测神经网络
CN115205624A (zh) 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210519

Address after: Room 2305, luguyuyuan venture building, 27 Wenxuan Road, high tech Development Zone, Changsha City, Hunan Province, 410005

Patentee after: BOE Yiyun Technology Co.,Ltd.

Address before: 100015 No. 10, Jiuxianqiao Road, Beijing, Chaoyang District

Patentee before: BOE TECHNOLOGY GROUP Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210823

Address after: 215200 No. 501, Bixiang South Road, Taihu Lake ecotourism Resort (Taihu new town), Wujiang District, Suzhou City, Jiangsu Province

Patentee after: BOE Yiyun (Suzhou) Technology Co.,Ltd.

Patentee after: BOE Yiyun Technology Co.,Ltd.

Address before: Room 2305, luguyuyuan venture building, 27 Wenxuan Road, high tech Development Zone, Changsha City, Hunan Province, 410005

Patentee before: BOE Yiyun Technology Co.,Ltd.