CN111079840A - 基于卷积神经网络和概念格的图像语义完备标注方法 - Google Patents

基于卷积神经网络和概念格的图像语义完备标注方法 Download PDF

Info

Publication number
CN111079840A
CN111079840A CN201911300499.7A CN201911300499A CN111079840A CN 111079840 A CN111079840 A CN 111079840A CN 201911300499 A CN201911300499 A CN 201911300499A CN 111079840 A CN111079840 A CN 111079840A
Authority
CN
China
Prior art keywords
image
label
concept
semantic
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911300499.7A
Other languages
English (en)
Other versions
CN111079840B (zh
Inventor
张素兰
李雯莉
胡立华
张继福
杨海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Science and Technology
Original Assignee
Taiyuan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Science and Technology filed Critical Taiyuan University of Science and Technology
Priority to CN201911300499.7A priority Critical patent/CN111079840B/zh
Publication of CN111079840A publication Critical patent/CN111079840A/zh
Application granted granted Critical
Publication of CN111079840B publication Critical patent/CN111079840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积神经网络和概念格的图像语义完备标注方法,首先构建自适应CNN网络,分割待标注图像并提取其特征,以此来获得近邻图像集与其一系列相对应的标签集合;然后利用概念格进行标签本身潜在的语义分析,有效地改善了标注效果,并保证了语义标注的完备性;最后利用投票的方式,得到最优语义标签。采用基准数据集Corel5k进行实验,验证了该方法能有效地丰富图像标签语义,提高标签召回率,并提高图像语义检索效率。

Description

基于卷积神经网络和概念格的图像语义完备标注方法
技术领域
本文发明一种基于卷积神经网络和概念格的图像语义完备标注方法,属于图像处理领域。
背景技术
网络图像数据的爆炸性增长以及图像标记的主观性和随意性,造成大量图像的标签缺失和语义噪声,不能很好地描述图像内容。而且这些海量的图像数据通常都包含着丰富的语义内容,但标签的不完备却给基于文本的图像检索带来了巨大挑战,影响了其他相关产业的发展。为丰富图像标签内容,提高图像检索准确率,许多研究者对缺失标签进行自动补全的图像标签完备方法展开深入研究,但同时也存在以下不足:1)需要选择组合图像底层特征,不能主动学习图像特征,可能会导致图像部分视觉信息缺失,导致标注不精确;2)缺失了语义标签本身的相关性的研究,将图像不同贡献程度的标签内容同等权重处理,忽视了标签语义分布的不均匀性和相关性。
发明内容
本发明就是针对上述问题,提出了一种基于卷积神经网络和概念格的图像语义完备方法,以解决现有的图像底层组合特征繁琐、缺少标签语义相关性等图像标注问题。
本发明提供一种基于卷积神经网络和概念格的图像语义完备标注方法,结合上述通用CNN模型以及概念格语义相关度计算规则,给出算法具体步骤。
具体步骤如下:
输入:待完备图像,初始标签集合,已训练好卷积神经网络CNN;
输出:待完备图像缺失的标签集合;
Step1.预处理。利用Ncut算法对图像进行分块,每块图像为不同聚类区域;
Step2.图像特征提取。对每块图像进行选择性搜索,得到每一块子图像感兴趣区域,利用CNN得到抽象特征图;
Step3.初始候选标签获取。将特征图做softmax线性回归,根据权利要求2计算得到标记图像的标签概率,以及输出初始标签集合W0
Step4.标签丰富。去掉卷积神经网络中的softmax层,根据权利要求3计算相似图像块权重并排序得到近邻图像集,利用基于概念格的语义相关度计算对标签-图像相关度计算,将与待标注图像语义最相关的近邻图像标签传播给待标注图像的候选标签集W0';
Step5.标签预测。根据权利要求4,计算并选取每个关键词tgi对待标注图像的支持度高的标签对其进行标注,更新候选标签集W0'={tg1,tg2,...,tgn};
Step6.输出待完备图像I0缺失的标签集合W0'。
本文涉及的定义及名词如下:
定义1.在概念格理论之中,一般会将形式背景作为一个三元组C=(U,A,R),在这之中,对象集即为U,属性集即为A,及一个二元关系。若对于一个对象与任意属性,存在关系R,那么称为“对象u具有属性a”,记为uRa,用“x”标记出对象与属性之间的映射关系。
定义2.对于任意一个二元组z=(I,T),
Figure BDA0002321650440000021
在对象集和属性集上分别满足如下运算:
Figure BDA0002321650440000022
Figure BDA0002321650440000023
若f(I)=T,g(T)=I,则定义z=(I,T)是基于形式背景C(U,A,R)这一基础之上的形式概念,所以形式概念z的外延即为I,而形式概念z的内涵即为T。
定义3.设z1=(I1,T1)、z2=(I2,T2)表示形式背景C(U,A,R)上的两个形式概念,若
Figure BDA0002321650440000024
则z1是z2的子类节点,z2是z1父类节点。将用这种偏序关系组成的集合称为C上的概念格,记为<L(U,A,R),≤>,其中≤表示概念格内节点之间的偏序关系,同时,根据形式背景C中的偏序关系可以得到相应概念格的Hasse图。
定义4.概念-概念相关度Rel(dist(zi,zj)).由图4可知,两个概念之间形成的通路越短,则概念间的相似度越大,若Dist(zi,zj)表示一个格结构中两个概念之间形成通路的最短路径长度,则基于概念-概念之间的相关度计算公式如(1)定义如下:
Rel(dist(zi,zj))=τ/(τ+Dist(zi,zj)) (1)
其中,Rel(dist(zi,zj))表示概念zi和概念zj间的语义相关度;τ为大于0的实数,这里取τ=1。
定义5.外延-概念相关度Rel(I,z)。随着深度的增加,由定义2可知,概念节点中外延数逐渐减少,共同拥有的内涵数就会越具体,概念之间的相似度也会随之减小。因此,本文通过考虑概念节点间的关系和概念节点所处的深度对图像语义相关度的影响,给出基于外延-概念的相关度计算公式如式(2)定义如下:
Figure BDA0002321650440000031
其中,Rel(I,z)表示的是基于外延-概念的相关度,|Ii|∩|Ij|表示的是概念zi=(Ii,Ti)和概念zj=(Ij,Tj)间相同的外延个数;dep1和dep2分别代表的是概念节点zi和概念节点zj所处的深度,设概念格顶层概念的层次为1,其节点深度为上邻节点概念层数加1;σ是为体现概念节点深度对其影响的修正参数,这里取σ=0.1。
定义6.内涵-概念相关度Rel(T,z)。概念格结构中,概念与概念之间距离越远,则外延所共同拥有的内涵数越少。由此可以得出,随着概念格Hasse图概念节点的深度增大,概念外延的语义相关度与外延共同拥有的内涵数成正相关性。因此,本文通过考虑概念节点间的关系和概念节点所处的深度对相关度的影响,提出基于内涵-概念的相关度计算公式如式(3)定义如下:
Figure BDA0002321650440000032
其中,Rel(T,z)表示的是概念-内涵的相关度,|Ti|∩|Tj|表示的是概念节点zi和概念节点zj所拥有共同内涵数的个数;σ是修正参数,作用同定义5。
名词1:标签映射关系
标签映射关系指的是在构建概念格形式背景的过程中,通常,将该图像拥有某标签称为该图像与此标签具有某种标签映射关系,即图像具有某标签。
具体实施方案
采用VGG19模型进行卷积神经网络通用模型预训练方法包括下述步骤:
步骤1:将大型数据集ImageNet作为进行卷积神经网络通用模型训练的训练集;
步骤2:数据增强;
步骤3:确定感受野的大小;
步骤4:构建8个卷积层、2个全连接层以及1个softmax输出层;卷积层CONV大小为3*3*3,步长数为1,边界填充padding采用“same”方式,为保持图片形状不变,每次卷积完之后采用最大池化操作,池化大小为2*2*3,步长数扩大至2,进行下采样,减小图片尺寸,加快计算速度;
步骤5:参数共享;
步骤6:提取低阶/高阶特征;
步骤7:采用激活函数层ReLu对每层特征非线性化处理;
步骤8:归一化BN层,防止梯度爆炸和梯度弥散,加快网络的收敛速度;
提取待标注图像的初始标注词和深度特征包括下述步骤:
步骤1:初始化图像标签数量,其Normalized cut聚类分割,为不陷入局部最优,减少过拟合,将初始化图像标签数量作为深度网络有效的监督信息,标签个数为Ncut聚类因子,扩大4倍原始聚类数为Ncut聚类输入,其中,N_cluster=4*inti_labels,N_cluster为扩大后的聚类数,inti_labels为初始标签数;
步骤2:分割后得到的区域利用选择性搜索算法得到图像的候选区域然后分割出图像,输入卷积神经网络,将高维的输入图像转化为低维的抽象的信号特征,将边缘特征抽象组合成更为简单的特征输出,进行计算;
步骤3:采用最大池化操作,减少卷积操作后存在的冗余信息及降低特征维数,即,设第i层为池化层,输入的图像值为fi,分割成的图像块区域为Rk(k=1,2,...,k),计算如下:
Figure BDA0002321650440000051
步骤4:进行全连接层计算。对倒数第二个全连接层输出的4096*1的向量做softmax回归,得到特征向量Zi,由深度学习网络得到最大的20个标签概率f(Zi),从中选择最大概率对应的标签作为相应图像块的标签,计算如式(4)所示,重复该步骤直至所有图像块被标记,得到初始标注集合W0
Figure BDA0002321650440000052
概念格改善初始标注结果包括下述步骤:
步骤1:将卷积神经网络模型去掉softmax层,作为一个图像通用特征提取器,为每个图像保存由全连接层第二层输出的4096维特征向量,再使用主成分分析法进行维数缩减以保持80%的特征差异,最终输出对应的图像特征;对得到的图像特征归一化之后转换为向量,若选择性搜索后得到的图像个数为N,则图像转换成大小为65535*N的向量矩阵。后对该矩阵奇异值分解,得到降序排列的特征值,利用特征值计算权值wi,得到相似图像的权重,wi的计算公式如:
Figure BDA0002321650440000053
其中,λi表示图像的特征值;
步骤2:假设待标注图像I0,将图像块的权重值wi大于0.5对应图像构成近邻图像集合I,得到k张(假设k=5)与待标注图像I0最相似的近邻图像I1-I5,得到近邻图像集合I={I0,I1,I2,I3,I4,I5},然后获取图像I0及近邻图像集合I中所有图像的标签并入标签集合T中,则
T={“sky”、“grass”、“river”、“tree”、“ground”、“people”、“bird”、“animal”、“dog”、“car”},用以生成形式背景G。例如,当图像A具有标签a时,我们认为图像A与标签a存在标签映射关系“x”。因此,根据概念格相关知识(定义1-3),得到近邻图像与标签映射关系并进行0-1归一化处理,即将图像与标签词之间存在映射关系“x”,置换为1,反之,若图像与标签之间不存在映射关系“x”,则置换为0,构造出形式背景G,共包含16个概念节点。为方便表示,分别用“t1-t10”按序表示标签集合中的词,并依形式背景G构造Hasse图,如图1所示,记录节点的深度dep1和dep2
步骤3:根据定义4-6,依据式(1)、式(2)、式(3)分别计算出概念-概念相关度Rel(dist(zi,zj))、外延-概念相关度Rel(I,z)、内涵-概念相关度Rel(T,z),综合考虑概念-概念、外延-概念、内涵-概念以上三者对图像语义相关度的影响,得到每个概念节点之间的相关度Rel(zi,zj),计算公式如下:
Rel(zi,zj)=Rel(I,z)×α+Rel(T,z)+Rel(dist(zi,zj))×γ,其中,α、β、γ是各部分所占的权重比,且α+β+γ=1。由于内涵和外延在概念对中具有同等大小的权重比,根据概念格的对偶原则,这里取α=β=0.25,则γ=0.5。
步骤4:据此计算所有概念之间的语义相关度,随后,降序排列得到近邻图像对其图像语义的支持度并将其归一化,利用相似图像之间的语义相关度,进一步衡量图像之间相似程度,大大减少噪声图像标签的加入。
利用候选标签集进行标签预测:
通过计算图像标签之间的语义相关度Rel(zi,zj),获取一系列同待标注图像关联密切的近邻图像标签作为候选标签,对初始预测标签进行语义扩展,融合CNN标注结果并结合近邻图像与待标注图像的语义相关度,从视觉和语义两个角度,筛选候选标签集中关联程度强的候选标签,从而保留支持度更高的标签标记图像,计算候选标签集中每个关键词对待标注图像的支持度sup(tgj,Ii),公式如(4)所示:
Figure BDA0002321650440000061
其中,
Figure BDA0002321650440000062
是近邻图像Ik与标签tj的所属关系,若近邻图像Ik被赋予标签tj,则
Figure BDA0002321650440000063
反之为
Figure BDA0002321650440000064
计算sup(tgj,Ii)并得到每个标签词的分数之后,将sup(tgj,Ii)进行归一化处理,为减少不相关的标签语义词,本文将支持度大于0.01的候选标签词保留,去除标签噪声后,作为待标注图像最终标注标签词。
附图说明
图1是形式背景G的Hasse图;
图2是在利用大数据集训练卷积神经网络时模型的收敛情况以及损失函数图;
图3是数据集MS Coco在不同深度训练模型VGG16和VGG19的ROC-AUC曲线对比图;
图4是数据集VOC2012在不同深度训练模型VGG16和VGG19的ROC-AUC曲线对比图。
图5展示了一组不同预测个数对Precision以及Recall影响的P-R曲线图;
图6是实验结果对比图。
具体实施方式
下面结合具体实施例对本发明做进一步的详细说明,但是本发明的保护范围并不限于这些实施例,凡是不背离本发明构思的改变或等同替代均包括在本发明的保护范围之内。
本发明基于卷积神经网络和概念格的图像语义完备标注方法,包括采用VGG19模型进行卷积神经网络通用模型预训练方法;提取待标注图像的初始标注词和深度特征;概念格改善初始标注结果;利用候选标签集进行标签预测四个部分,具体如下:
本发明选用VGG19网络结构作为模型初始标注的预训练模型。首先将测试集图像调整为256×256,然后从每幅图像中随机提取224×224(及其水平映射),通过减去每个提取的图像块的平均值进行预处理,输入CNN的第一卷积层,直至最后输出softmax层产生1000类的概率分布,选取候选标签集中Top-5作为图像的最终标签。训练网络时,使用动量为0.9且重量衰减为0.0005的随机梯度下降来训练网络。为了克服过度拟合,对全连接层中前两层都进行丢失率为50%的删除操作。将所有层的学习率均初始化为0.01,每20步下降到当前速率的十分之一(总共90步),训练完成后保存网络模型。
第一阶段、采用VGG19模型进行卷积神经网络通用模型预训练方法包括下述步骤:
步骤1:将大型数据集ImageNet作为进行卷积神经网络通用模型训练的训练集;
步骤2:数据增强;
步骤3:确定感受野的大小;
步骤4:构建8个卷积层、2个全连接层以及1个softmax输出层;卷积层CONV大小为3*3*3,步长数为1,边界填充padding采用“same”方式,为保持图片形状不变,每次卷积完之后采用最大池化操作,池化大小为2*2*3,步长数扩大至2,进行下采样,减小图片尺寸,加快计算速度;
步骤5:参数共享;
步骤6:提取低阶/高阶特征;
步骤7:采用激活函数层ReLu对每层特征非线性化处理;
步骤8:归一化BN层,防止梯度爆炸和梯度弥散,加快网络的收敛速度;第二阶段、提取待标注图像的初始标注词和深度特征包括下述步骤:
步骤1:初始化图像标签数量,其Normalized cut聚类分割,为不陷入局部最优,减少过拟合,将初始化图像标签数量作为深度网络有效的监督信息,标签个数为Ncut聚类因子,扩大4倍原始聚类数为Ncut聚类输入,其中,N_cluster=4*inti_labels,N_cluster为扩大后的聚类数,inti_labels为初始标签数;
步骤2:分割后得到的区域利用选择性搜索算法得到图像的候选区域然后分割出图像,输入卷积神经网络,将高维的输入图像转化为低维的抽象的信号特征,将边缘特征抽象组合成更为简单的特征输出,进行计算;
步骤3:采用最大池化操作,减少卷积操作后存在的冗余信息及降低特征维数,即,设第i层为池化层,输入的图像值为fi,分割成的图像块区域为Rk(k=1,2,...,k),计算如下:
Figure BDA0002321650440000081
步骤4:进行全连接层计算。对倒数第二个全连接层输出的4096*1的向量做softmax回归,得到特征向量Zi,由深度学习网络得到最大的20个标签概率f(Zi),从中选择最大概率对应的标签作为相应图像块的标签,计算如式(4)所示,重复该步骤直至所有图像块被标记,得到初始标注集合W0
Figure BDA0002321650440000091
第三阶段、概念格改善初始标注结果包括下述步骤:
步骤1:将卷积神经网络模型去掉softmax层,作为一个图像通用特征提取器,为每个图像保存由全连接层第二层输出的4096维特征向量,再使用主成分分析法进行维数缩减以保持80%的特征差异,最终输出对应的图像特征;对得到的图像特征归一化之后转换为向量,若选择性搜索后得到的图像个数为N,则图像转换成大小为65535*N的向量矩阵。后对该矩阵奇异值分解,得到降序排列的特征值,利用特征值计算权值wi,得到相似图像的权重,wi的计算公式如:
Figure BDA0002321650440000092
其中,λi表示图像的特征值;
步骤2:假设待标注图像I0,将图像块的权重值wi大于0.5对应图像构成近邻图像集合I,得到k张(假设k=5)与待标注图像I0最相似的近邻图像I1-I5,得到近邻图像集合I={I0,I1,I2,I3,I4,I5},然后获取图像I0及近邻图像集合I中所有图像的标签并入标签集合T中,则
T={“sky”、“grass”、“river”、“tree”、“ground”、“people”、“bird”、“animal”、“dog”、“car”},用以生成形式背景G。例如,当图像A具有标签a时,我们认为图像A与标签a存在标签映射关系“x”。因此,根据概念格相关知识(定义1-3),得到近邻图像与标签映射关系并进行0-1归一化处理,即将图像与标签词之间存在映射关系“x”,置换为1,反之,若图像与标签之间不存在映射关系“x”,则置换为0,构造出形式背景G,共包含16个概念节点。为方便表示,分别用“t1-t10”按序表示标签集合中的词,并依形式背景G构造Hasse图,如图1所示,记录节点的深度dep1和dep2
步骤3:根据定义4-6,依据式(1)、式(2)、式(3)分别计算出概念-概念相关度Rel(dist(zi,zj))、外延-概念相关度Rel(I,z)、内涵-概念相关度Rel(T,z),综合考虑概念-概念、外延-概念、内涵-概念以上三者对图像语义相关度的影响,得到每个概念节点之间的相关度Rel(zi,zj),计算公式如下:
Rel(zi,zj)=Rel(I,z)×α+Rel(T,z)+Rel(dist(zi,zj))×γ,其中,α、β、γ是各部分所占的权重比,且α+β+γ=1。由于内涵和外延在概念对中具有同等大小的权重比,根据概念格的对偶原则,这里取α=β=0.25,则γ=0.5。
步骤4:据此计算所有概念之间的语义相关度,随后,降序排列得到近邻图像对其图像语义的支持度并将其归一化,利用相似图像之间的语义相关度,进一步衡量图像之间相似程度,大大减少噪声图像标签的加入。
在形式背景G中,从节点#2和#3、#3和#4存在上下位关系,节点#2和#15为同层次概念,由式(9)可以得出如下关系,
Rel(z2,z3)=(1/2+3/6)×0.25×(1+0.1)3+4+1/2×0.5≈0.737
Rel(z2,z15)=(0+1/6)×0.25×(1+0.1)4+4+1/(1+2)×0.5≈0.257
Rel(z3,z4)=(2/4+1/3)×0.25×(1+0.1)2+3+1/2×0.5≈0.585
Rel(z2,z15)<Rel(z3,z4)<Rel(z2,z3)
由此可知,父节点的语义相似度要比同层次概念节点的高,同时,随着概念格层次的逐渐加深,父子节点之间的语义相似度也会随之增大。
将包含同一对象的不同概念节点相关度叠加得到图像之间的语义相关度,由节点#2、#3、#4可知待标注图像I0与图像I1的语义相关度为1.322,与图像I5的语义相关度为0.257。由此可得,待标注图像Ii与训练集Ij视觉相似度。当待标注图像Ii越高时,图像Ij与Ii的语义相关度越高时,其标签贡献值越大,越有可能被标记。
第四阶段、利用候选标签集进行标签预测:
通过计算图像标签之间的语义相关度Rel(zi,zj),获取一系列同待标注图像关联密切的近邻图像标签作为候选标签,对初始预测标签进行语义扩展,融合CNN标注结果并结合近邻图像与待标注图像的语义相关度,从视觉和语义两个角度,筛选候选标签集中关联程度强的候选标签,从而保留支持度更高的标签标记图像,计算候选标签集中每个关键词对待标注图像的支持度sup(tgj,Ii),公式如(4)所示:
Figure BDA0002321650440000111
其中,
Figure BDA0002321650440000112
是近邻图像Ik与标签tj的所属关系,若近邻图像Ik被赋予标签tj,则
Figure BDA0002321650440000113
反之为
Figure BDA0002321650440000114
计算sup(tgj,Ii)并得到每个标签词的分数之后,将sup(tgj,Ii)进行归一化处理,为减少不相关的标签语义词,本文将支持度大于0.01的候选标签词保留,去除标签噪声后,作为待标注图像最终标注标签词。
本发明选用数据集Corel5k作为对比实验的验证数据集,它拥有50个类别,每张图片大小为192*128,每张图片均有1~5个标签,由于深度网络是针对单标签进行训练,所以在进行深度学习时,后选取Corel5k中的500张测试集(263个标签)进行测试,与之前的一些经典的图像标注算法进行对比实验,对比方法包括:TMC标注模型、特征融合和语义相似(Feature Fusion and Semantic Similarity,FFSS)和标签传播算法(Tag Propagation,TagProp)、Muti-Label CNN方法。
表2是实验结果对比表,通过图6(或表2)可以看出,与算法(TMC标注模型、标签传播算法(Tag Propagation,TagProp)、FFSS)相比,基于CNN和概念格的图像完备方法在准确率和召回率上分别达到40%、51%,有着不错的表现。在传统的标签传播算法中,大多需要手工选择特征进行融合寻找视觉近邻,而深度学习网络摒弃了复杂的特征融合方法,利用大数据集辅助特征学习迁移微调网络,有更强的区分效果。同时通过与Muti-Label CNN算法比较的实验结果可以看出,虽然准确率相差不大,但进行语义扩展改善后的算法比多标签排序策略的深度卷积神经网络的召回率提高了16%,改进效果明显。这是由于当待标注图像Ii与训练集Ij视觉相似度越高时,图像Ij与Ii拥有的共同标签数越多,标签贡献值越大,支持度更高;由于图像集I是根据图像底层特征搜索降序而得,并且同时考虑了底层特征与高层语义的相似性,兼顾近邻语义对标注结果的影响,从而避免某些标签过少或过多,改善标注结果,丰富图像的语义内容。
图3和图4分别给出了数据集MS Coco、数据集VOC2012不同深度训练模型VGG16和VGG19在上的ROC-AUC曲线对比图,由图3、图4可知,虽然两个卷积网络模型均表现出良好的学习能力,但VGG19的曲线更靠近左上方,模型的泛化能力要更强,预测精度可达91%,证明VGG19模型在训练数据上的损失函数值更小,拥有更好的抽象特征的能力,这可以为下一步提取训练集通用特征提供可靠的保障。因此,本文选用VGG19网络结构作为模型初始标注的预训练模型。
图5展示了一组不同个数预测个数对Precision以及Recall影响的P-R曲线图。为验证概念格语义扩展的有效性,针对候选标签集中最终标记的不同标签个数,本发明设置两组实验进行对比,一组基于VGG19模型对待标注图像进行多标签排序标注,另一组在获得初始标注之后,利用概念格对CNN标注结果进行语义扩展改善。首先将测试集图像调整为256×256,然后从每幅图像中随机提取224×224(及其水平映射),通过减去每个提取的图像块的平均值进行预处理,输入CNN的第一卷积层,直至最后输出softmax层产生1000类的概率分布,选取候选标签集中Top-5作为图像的最终标签。训练网络时,本文使用动量为0.9且重量衰减为0.0005的随机梯度下降来训练网络。为了克服过度拟合,对全连接层中前两层都进行丢失率为50%的删除操作。将所有层的学习率均初始化为0.01,每20步下降到当前速率的十分之一(总共90步),训练完成后保存网络模型。实验结果如图2所示。
由图5可以得出,曲线刚开始无明显变化,随着图像召回率Recall的增加,基于VGG-net网络多标签排序算法标注精度率先开始下降,而本文方法在保证准确率的基础上,召回率更高,说明本文方法更优。该实验表明,采用概念格对图像进行语义相关度分析对提高图像标注标签的召回率具有重要意义。当召回率达到54.74%,准确率开始下降,这是因为在概念格对标签进行语义扩展时,当候选标签集预测个数不断增大,会有一部分噪声标签被标记图像,造成过度标注。由于很多标签词存在关联性,利用图像-标签之间的上下位关系,在视觉近邻的基础上,可以得出图像之间的语义关联程度。在预测标准个数一定的情况下,若仅根据图像的边界特征进行分类识别和标注,不足以丰富图像的标签语义内容,且准确率和召回率显然不如本文中的方法,这证明了本文方法对标签改善的有效性,在某种程度上提高标签标记的可能性。
表1形式背景G表
Figure BDA0002321650440000131

Claims (4)

1.基于卷积神经网络和概念格的图像语义完备标注方法,包括采用VGG19模型进行卷积神经网络通用模型预训练方法;提取待标注图像的初始标注词和深度特征;概念格改善初始标注结果;利用候选标签集进行标签预测。
2.根据权利要求1提出的基于卷积神经网络和概念格的图像语义完备标注方法,其特征在于,提取待标注图像的初始标注词和深度特征包括下述步骤:
步骤1:初始化图像标签数量,对待标注图像进行归一化聚类分割,为不陷入局部最优,减少过拟合,将图像标签数量作为深度网络有效的监督信息,标签个数为Ncut聚类因子,扩大4倍原始聚类数为Ncut聚类输入,即N_cluster=4*inti_labels,N_cluster为扩大后的聚类数,inti_labels为初始标签数;
步骤2:分割后得到的区域利用选择性搜索算法得到图像的候选区域,输入卷积神经网络,将高维的输入图像转化为低维的抽象信号特征,将边缘特征抽象组合成更为简单的特征输出,用以计算;
步骤3:采用最大池化操作,减少卷积操作后存在的冗余信息及降低特征维数,即,设第i层为池化层,输入的图像值为fi,分割成的图像块区域为Rk(k=1,2,...,k),计算如下:
Figure FDA0002321650430000011
步骤4:进行全连接层计算。对倒数第二个全连接层输出的4096*1的向量做softmax回归,得到特征向量,从深度学习网络得到最大的20个标签的概率中选择最大概率对应的标签作为相应图像块的标签,计算如式(4)所示,重复该步骤直至所有图像块被标记,得到初始标注集合W0
Figure FDA0002321650430000012
3.根据权利要求1提出的基于卷积神经网络和概念格的图像语义完备标注方法,其特征在于:概念格改善初始标注结果,分析标签语义关系,具体为:
步骤1:将卷积神经网络模型去掉softmax层,作为一个图像通用特征提取器,为每个图像保存由全连接层第二层输出的4096维特征向量,再使用主成分分析法进行维数缩减以保持80%的特征差异,最终输出对应的图像特征;对得到的图像特征归一化之后转换为向量,若选择性搜索后得到的图像个数为N,则图像转换成大小为65535*N的向量矩阵。后对该矩阵奇异值分解,得到降序排列的特征值,利用特征值计算权值wi,得到相似图像的权重,wi的计算公式如:
Figure FDA0002321650430000021
其中,λi表示图像的特征值;
步骤2:假设待标注图像I0,将图像块的权重值wi大于0.5对应图像构成近邻图像集合I,得到若干张与待标注图像I0最相似的近邻图像I1-I5,得到近邻图像集合I={I0,I1,I2,I3,I4,I5},然后获取图像I0及近邻图像集合I中所有图像的标签并入标签集合T中,则
T={“sky”、“grass”、“river”、“tree”、“ground”、“people”、“bird”、“animal”、“dog”、“car”},用以生成形式背景G,并得到近邻图像与标签映射关系并进行归一化处理;
步骤3:分别计算出概念-概念相关度Rel(dist(zi,zj))、外延-概念相关度Rel(I,z)、内涵-概念相关度Rel(T,z),综合考虑概念-概念、外延-概念、内涵-概念以上三者对图像语义相关度的影响,得到每个概念节点之间的相关度Rel(zi,zj):Rel(zi,zj)=Rel(I,z)×α+Rel(T,z)+Rel(dist(zi,zj))×γ,其中,α、β、γ是各部分所占的权重比,且α+β+γ=1;α=β=0.25,则γ=0.5;
步骤4:计算所有概念之间的语义相关度,降序排列得到近邻图像对其图像语义的支持度并将其归一化,利用相似图像之间的语义相关度,进一步衡量图像之间相似程度,减少噪声图像标签的加入;
步骤5:将包含同一对象的不同概念节点相关度叠加得到图像之间的语义相关度,待标注图像I0与图像I1的语义相关度为1.322,且与图像I5的语义相关度为0.257;得到待标注图像Ii与训练集Ij视觉相似度。
4.根据权利要求1提出的基于卷积神经网络和概念格的图像语义完备标注方法,其特征在于,利用候选标签集进行标签预测方法,具体为:通过计算图像标签之间的语义相关度,获取一系列同待标注图像关联密切的近邻图像标签作为候选标签,对初始预测标签进行语义扩展,本文融合CNN标注结果并结合近邻图像与待标注图像的语义相关度,从视觉和语义两个角度,筛选候选标签集中关联程度强的候选标签,保留支持度更高的标签标记图像,计算候选标签集中每个关键词对待标注图像的支持度sup(tgj,Ii)
Figure FDA0002321650430000031
其中,
Figure FDA0002321650430000032
是近邻图像Ik与标签tj的所属关系,若近邻图像Ik被赋予标签tj,则
Figure FDA0002321650430000033
反之为
Figure FDA0002321650430000034
计算sup(tgj,Ii)并得到每个标签词的分数之后,将sup(tgj,Ii)进行归一化处理,将支持度大于0.01且去除标签噪声后的候选标签词,作为待标注图像最终标记标签。
CN201911300499.7A 2019-12-17 2019-12-17 基于卷积神经网络和概念格的图像语义完备标注方法 Active CN111079840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911300499.7A CN111079840B (zh) 2019-12-17 2019-12-17 基于卷积神经网络和概念格的图像语义完备标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911300499.7A CN111079840B (zh) 2019-12-17 2019-12-17 基于卷积神经网络和概念格的图像语义完备标注方法

Publications (2)

Publication Number Publication Date
CN111079840A true CN111079840A (zh) 2020-04-28
CN111079840B CN111079840B (zh) 2022-07-01

Family

ID=70314845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911300499.7A Active CN111079840B (zh) 2019-12-17 2019-12-17 基于卷积神经网络和概念格的图像语义完备标注方法

Country Status (1)

Country Link
CN (1) CN111079840B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308115A (zh) * 2020-09-25 2021-02-02 安徽工业大学 一种多标签图像深度学习分类方法及设备
CN112732967A (zh) * 2021-01-08 2021-04-30 武汉工程大学 图像自动标注方法、系统及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003900520A0 (en) * 2003-02-06 2003-02-20 Email Analysis Pty Ltd Information classification and retrieval using concept lattices
CN102306275A (zh) * 2011-06-29 2012-01-04 西安电子科技大学 基于模糊概念格的视频纹理特征提取方法
CN106021251A (zh) * 2015-09-16 2016-10-12 展视网(北京)科技有限公司 一种基于背景知识的层次语义模型图像检索方法
CN106250915A (zh) * 2016-07-22 2016-12-21 福州大学 一种融合深度特征和语义邻域的自动图像标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003900520A0 (en) * 2003-02-06 2003-02-20 Email Analysis Pty Ltd Information classification and retrieval using concept lattices
CN102306275A (zh) * 2011-06-29 2012-01-04 西安电子科技大学 基于模糊概念格的视频纹理特征提取方法
CN106021251A (zh) * 2015-09-16 2016-10-12 展视网(北京)科技有限公司 一种基于背景知识的层次语义模型图像检索方法
CN106250915A (zh) * 2016-07-22 2016-12-21 福州大学 一种融合深度特征和语义邻域的自动图像标注方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ANNE-MARIE TOUSCH 等: ""Semantic Lattices for Multiple Annotation of Images"", 《HTTP://CERTIS.ENPC.FR/~AUDIBERT/MES%20ARTICLES/MIR08.PDF》 *
张素兰等: "基于形式概念分析的图像场景语义标注模型", 《计算机应用》 *
李雯莉 等: ""基于卷积神经网络和概念格的图像语义完备标注"", 《小型微型计算机系统》 *
王凯等: "基于多层次概念格的图像场景语义分类方法", 《山西师范大学学报(自然科学版)》 *
郭海凤: "FAC算法在图像检索中的应用", 《计算机工程》 *
钟利华等: "基于概念格层次分析的视觉词典生成方法", 《计算机辅助设计与图形学学报》 *
顾广华 等: ""基于形式概念分析和语义关联规则的目标图像标注"", 《自动化学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308115A (zh) * 2020-09-25 2021-02-02 安徽工业大学 一种多标签图像深度学习分类方法及设备
CN112308115B (zh) * 2020-09-25 2023-05-26 安徽工业大学 一种多标签图像深度学习分类方法及设备
CN112732967A (zh) * 2021-01-08 2021-04-30 武汉工程大学 图像自动标注方法、系统及电子设备
CN112732967B (zh) * 2021-01-08 2022-04-29 武汉工程大学 图像自动标注方法、系统及电子设备

Also Published As

Publication number Publication date
CN111079840B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
Yu et al. Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop
CN109614979B (zh) 一种基于选择与生成的数据增广方法及图像分类方法
CN110851645B (zh) 一种基于深度度量学习下相似性保持的图像检索方法
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN113190699A (zh) 一种基于类别级语义哈希的遥感图像检索方法及装置
CN101561805A (zh) 文档分类器生成方法和系统
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN112214335B (zh) 基于知识图谱和相似度网络的Web服务发现方法
CN110866134B (zh) 一种面向图像检索的分布一致性保持度量学习方法
CN111125411A (zh) 一种深度强相关哈希学习的大规模图像检索方法
CN111460200B (zh) 基于多任务深度学习的图像检索方法、模型及其构建方法
CN113378913A (zh) 一种基于自监督学习的半监督节点分类方法
CN113360675A (zh) 一种基于互联网开放世界的知识图谱特定关系补全方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN111079840B (zh) 基于卷积神经网络和概念格的图像语义完备标注方法
CN108470025A (zh) 局部话题概率生成正则化自编码文本嵌入表示方法
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN114580638A (zh) 基于文本图增强的知识图谱表示学习方法及系统
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
CN113076490B (zh) 一种基于混合节点图的涉案微博对象级情感分类方法
CN112132059B (zh) 一种基于深度条件随机场的行人重识别方法和系统
CN114626530A (zh) 一种基于双边路径质量评估的强化学习知识图谱推理方法
CN114564579A (zh) 一种基于海量知识图谱及图嵌入的实体分类方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant