CN106250915B - 一种融合深度特征和语义邻域的自动图像标注方法 - Google Patents

一种融合深度特征和语义邻域的自动图像标注方法 Download PDF

Info

Publication number
CN106250915B
CN106250915B CN201610585022.8A CN201610585022A CN106250915B CN 106250915 B CN106250915 B CN 106250915B CN 201610585022 A CN201610585022 A CN 201610585022A CN 106250915 B CN106250915 B CN 106250915B
Authority
CN
China
Prior art keywords
image
layer
semantic
keyword
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610585022.8A
Other languages
English (en)
Other versions
CN106250915A (zh
Inventor
柯逍
周铭柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201610585022.8A priority Critical patent/CN106250915B/zh
Publication of CN106250915A publication Critical patent/CN106250915A/zh
Application granted granted Critical
Publication of CN106250915B publication Critical patent/CN106250915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种融合深度特征和语义邻域的自动图像标注方法:针对传统图像标注方法中人工选取特征费时费力,以及传统标签传播算法忽视语义近邻,导致视觉相似而语义不相似进而影响标注效果等问题,提出了融合深度特征和语义邻域的自动图像标注方法,该方法首先构建基于深度卷积神经网络(CNN)的统一、自适应深度特征提取框架,接着对训练集划分语义组并建立待标注图像的邻域图像集,最后根据视觉距离计算邻域图像各标签的贡献值并排序得到标注关键词。本发明简单灵活,具有较强的实用性。

Description

一种融合深度特征和语义邻域的自动图像标注方法
技术领域
本发明涉及一种融合深度特征和语义邻域的自动图像标注方法。
背景技术
随着多媒体影像技术快速发展,互联网上图像信息呈爆炸性增长。这些数字图像的应用非常广泛,如商业、新闻媒体、医学、教育等方面。因此,如何帮助用户快速、准确地找到需要的图像成为近年来多媒体研究的热点课题之一。而解决这一课题最重要的技术就是图像检索和自动图像标注技术。
自动图像标注是图像检索与图像理解的关键步骤,它是一种给未知图像添加能够描述该图像语义内容的关键词的技术。该技术主要利用已经标注好关键词的图像训练集训练标注模型,再用训练好的模型标注未知图像。一方面,自动图像标注试图给高层语义特征和底层视觉特征之间建立一座桥梁,因此,它可以一定程度解决大多数基于内容图像检索方法存在的语义鸿沟问题,并且具有较好的客观性。另一方面,自动图像标注可以生成与图像内容相关的文字信息,具有更好的准确性。如果能实现自动图像标注,那么现有的图像检索问题实际上可以转化成较成熟的文本检索问题。因此,图像自动标注技术可以很方便地实现基于关键字的图像检索,符合人们的检索习惯。总的来说,自动图像标注涉及计算机视觉、机器学习、信息检索等多方而的内容,具有很强的研究价值和潜在的商业应用,如图像分类、图像检索、图像理解以及智能图像分析等。
传统图像标注方法几乎都采用人工特征,不同方法需要提取不同特征,不仅难以应用于实际图像环境,而且选取过程费时费力。基于标签传播的图像标注方法在图像标注的各种方法中,属于效果较好的一类方法,是解决图像标注问题较为理想的方法,然而传统标签传播算法仅靠视觉相似度来实现标注过程,容易受到视觉相似而语义不相似的图像的干扰,影响了标注效果。
发明内容
有鉴于此,本发明的目的在于提供一种融合深度特征和语义邻域的自动图像标注方法,以克服现有技术中存在的缺陷,并解决针对多对象多标签的自动图像标注问题。
为实现上述目的,本发明采用如下技术方案:一种融合深度特征和语义邻域的自动图像标注方法,其特征在于,包括以下步骤:
步骤S1:对训练图像进行语义分组,将一个标签所包含的所有图像作为一个语义组,并按组将所述训练图像输入训练好的CNN深度网络;
步骤S2:通过逐层卷积和逐层采样将训练图像转化为特征向量,并提取每个语义组的训练图像的特征;
步骤S3:将待标注图像输入所述训练好的CNN深度网络,按步骤S2对所述待标注图像进行特征提取;
步骤S4:计算所述待标注图像和每一个语义组中所有训练图像的视觉相似度,并构建邻域图像集;
步骤S5:计算待标注图像的标签的贡献值,并根据贡献值大小得到预测关键词。
进一步的,所述步骤S2的具体内容如下:
步骤S21:构建AlexNet网络,并用训练集充分训练整个网络,以得到训练好的网络模型;
步骤S22:对待提取特征的图像进行尺寸缩放,令I={I0,I1,…,IN-1}为尺寸缩放后的图像集;其中N为图像数,Ii=[f1,f2,…,fV]T为图像Ii的原始像素,V为像素数;
步骤S23:用训练好的卷积核执行前馈卷积运算,输出卷积层特征图;设第i层神经元的输入特征为I(i),第i层神经元和第i+1层神经元间的卷积核为K(i+1),则第i+1层神经元的输入,即第i层卷积层的输出为:其中,为卷积运算,b(i+1)为第i层和第i+1层间的偏置,f(·)为激活函数;
步骤S24:对所述卷积层特征图执行下采样运算,输出简化后的特征图;将I(i)划分为区域Rk,k=1,…,m,m为划分出来的总的区域数,计算方法如下:令I(i)为n×n的特征图,则采样操作可按如下方式实现:pool(Rk)表示对区域Rk中的像素点取最大值;
步骤S25:执行全连接运算,输出图像特征;设第l层为全连接层,所述全连接层的权重为Wl,则图像特征F为:F=f(Wl·Il-1+b(l));其中,I(l-1)为全连接层的前一层输出,b(l)为全连接层的偏置,f(·)为激活函数。
进一步的,所述激活函数取ReLu函数,即f(x)=max(0,x)。
进一步的,所述步骤S4的具体内容如下:
步骤S41:首先对图像标注问题进行符号定义,用NI={NI1,NI2…NIn},NIi∈Rd表示训练图像,其中n为训练图像数,并用W={w1,w2,…,wM}表示训练集中包含的关键词,M为关键词数;则图像标注问题的训练集可以记为:Ω={(NI1,W1),(NI2,W2),…,(NIn,Wn)},这里的Wi为M维向量Wi∈{0,1}M,当Wi j=1时,表示图像i包含关键词wj;而当Wi j=0时,表示图像i不含关键词wj
步骤S42:定义图像的语义邻域,将每个关键词所包含的所有图像看成一个语义组,那么,所有关键词对应的语义组集按如下方式表示:其中,wj为关键词,为和关键词wj关联的所有图像,
步骤S43:构建待标注图像的邻域图像集;令为关键词wj对应的语义组,对待标注图像TI,我们从Gi中选出与待标注图像TI视觉相似度最高的l幅图像得到局部子集其中,l为正整数且3≤l≤8;当所有语义组的局部子集都获取到后,对它们进行合并,最终得到针对待标注图像I的邻域图像集:
进一步的,所述步骤S5的具体内容如下:
步骤S51:将图像标注的预测问题转化为求后验概率的问题,首先定义条件概率P(I|wj),它表示关键词wj和图像I的概率关系;由概率转换公式可知,图像关键词的预测值可按如下式子计算:其中,P(wj)和P(I)为先验概率;因此,给定一幅待标注图像TI,它的预测关键词可以通过对所有关键词的预测值排序得到,即:
步骤S52:根据公式可知,对P(wj|I)的计算就转化为对P(I|wj)的计算;对于给定关键词wj∈W,它与图像I构成的概率关系定义如下:其中,P(wj|Ii)∈{0,1}用于控制在图像Ii中哪些关键词需要增加贡献值,哪些不需要增加贡献值,具体表示为:即,当图像Ii包含关键词wj时,P(wj|Ii)=1,当图像Ii不包含关键词wj时,P(wj|Ii)=0;
步骤S53:公式中的为图像Ii对于图像I的贡献值,计算方法定义如下:其中,χ为固定常数,β为正整数,Dis(I,Ii)为图像I和图像Ii间的归一化后的视觉距离,计算方法如下:其中,L(.)表示为两个向量间的距离公式。
进一步的,所述步骤S53中,固定常数的取值为:χ=1.0;β的取值为5≤β≤30。
本发明与现有技术相比具有以下有益效果:本发明构建通用、精简、有效的深度CNN特征提取框架,通过卷积保留有效信息、通过采样缩减特征维度,自适应提取特征,解决人工选取特征的问题;本发明还提出划分语义邻域的方法,构建视觉和语义均相近的近邻图像集来改善视觉相邻而语义不相邻的问题,并根据视觉相似度来确定每幅邻域图像的标签的贡献值,从而提升标注效果;该方法简单,实现灵活,实用性较强。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本发明提供一种融合深度特征和语义邻域的自动图像标注方法,如图1所示,针对人工选取特征费时费力以及传统标签传播算法忽视语义相似性,导致标注模型难以应用于真实图像环境中,提出一种融合深度特征和语义邻域的的图像标注方法。该方法首先利用多层的CNN深度特征提取网络,实现通用、有效的深度特征的提取。接着根据关键词划分语义组,将视觉近邻限定在语义组中,保证邻域图像集中的图像语义相邻视觉也相邻。最后将待测图像作为出发点,根据深度特征的视觉距离计算预测关键词的贡献值,通过对贡献值排序得到最终的标注关键词,具体步骤如下:
步骤S1:对训练图像进行语义分组,将一个标签所包含的所有图像作为一个语义组,并按组将所述训练图像输入训练好的CNN深度网络;
步骤S2:通过逐层卷积和逐层采样将高分辨率的训练图像转化为简单、高效的特征向量,并提取每个语义组的训练图像的特征;
步骤S3:将待标注图像输入所述训练好的CNN深度网络,按步骤S2对所述待标注图像进行特征提取,即将步骤S2中的训练图像替换为未标注图像并进行相同的处理;
步骤S4:计算所述待标注图像和每一个语义组中所有训练图像的视觉相似度,并构建邻域图像集;
步骤S5:计算待标注图像的标签的贡献值,并根据贡献值大小得到预测关键词。
进一步的,所述步骤S2的具体内容如下:
步骤S21:构建AlexNet网络,并用ILSVRC竞赛所用ImageNet训练集充分训练整个网络,以得到训练好的网络模型;
步骤S22:对待提取特征的图像进行尺寸缩放,使图像的尺寸符合输入要求,令I={I0,I1,…,IN-1}为尺寸缩放后的图像集;其中N为图像数,Ii=[f1,f2,…,fV]T为图像Ii的原始像素,V为像素数;
步骤S23:用训练好的卷积核执行前馈卷积运算,输出卷积层特征图;设第i层神经元的输入特征为I(i),第i层神经元和第i+1层神经元间的卷积核为K(i+1),则第i+1层神经元的输入,即第i层卷积层的输出为:其中,为卷积运算,b(i+1)为第i层和第i+1层间的偏置,f(·)为激活函数;
步骤S24:对所述卷积层特征图执行下采样运算,输出简化后的特征图;将I(i)划分为区域Rk,k=1,…,m,m为划分出来的总的区域数,计算方法如下:令I(i)为n×n的特征图,则采样操作可按如下方式实现:pool(Rk)表示对区域Rk中的像素点取最大值;
步骤S25:执行全连接运算,输出图像特征;设第l层为全连接层,所述全连接层的权重为Wl,则图像特征F为:F=f(Wl·Il-1+b(l));其中,I(l-1)为全连接层的前一层输出,b(l)为全连接层的偏置,f(·)为激活函数。
进一步的,所述激活函数取ReLu函数,即f(x)=max(0,x)。
进一步的,所述步骤S4的具体内容如下:
步骤S41:首先对图像标注问题进行符号定义,用NI={NI1,NI2…NIn},NIi∈Rd表示训练图像,其中n为训练图像数,并用W={w1,w2,…,wM}表示训练集中包含的关键词,M为关键词数;则图像标注问题的训练集可以记为:Ω={(NI1,W1),(NI2,W2),…,(NIn,Wn)},这里的Wi为M维向量Wi∈{0,1}M,当Wi j=1时,表示图像i包含关键词wj;而当Wi j=0时,表示图像i不含关键词wj
步骤S42:定义图像的语义邻域,将每个关键词所包含的所有图像看成一个语义组,那么,所有关键词对应的语义组集按如下方式表示:其中,wj为关键词,为和关键词wj关联的所有图像,
步骤S43:构建待标注图像的邻域图像集;令为关键词wj对应的语义组,对待标注图像TI,我们从Gi中选出与待标注图像TI视觉相似度最高的l幅图像得到局部子集其中,l为正整数且3≤l≤8;当所有语义组的局部子集都获取到后,对它们进行合并,最终得到针对待标注图像I的邻域图像集:
进一步的,所述步骤S5的具体内容如下:
步骤S51:将图像标注的预测问题转化为求后验概率的问题,首先定义条件概率P(I|wj),它表示关键词wj和图像I的概率关系;由概率转换公式可知,图像关键词的预测值可按如下式子计算:其中,P(wj)和P(I)为先验概率;因此,给定一幅待标注图像TI,它的预测关键词可以通过对所有关键词的预测值排序得到,即:
步骤S52:根据公式可知,对P(wj|I)的计算就转化为对P(I|wj)的计算;对于给定关键词wj∈W,它与图像I构成的概率关系定义如下:其中,P(wj|Ii)∈{0,1}用于控制在图像Ii中哪些关键词需要增加贡献值,哪些不需要增加贡献值,具体表示为:即,当图像Ii包含关键词wj时,P(wj|Ii)=1,当图像Ii不包含关键词wj时,P(wj|Ii)=0;
步骤S53:公式中的为图像Ii对于图像I的贡献值,计算方法定义如下:其中,χ为固定常数,β为正整数,Dis(I,Ii)为图像I和图像Ii间的归一化后的视觉距离,计算方法如下:其中,L(.)表示为两个向量间的距离公式。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (6)

1.一种融合深度特征和语义邻域的自动图像标注方法,其特征在于,包括以下步骤:
步骤S1:对训练图像进行语义分组,将一个标签所包含的所有图像作为一个语义组,并按组将所述训练图像输入训练好的CNN深度网络;
步骤S2:通过逐层卷积和逐层采样将训练图像转化为特征向量,并提取每个语义组的训练图像的特征;
步骤S3:将待标注图像输入所述训练好的CNN深度网络,按步骤S2对所述待标注图像进行特征提取;
步骤S4:计算所述待标注图像和每一个语义组中所有训练图像的视觉相似度,并构建邻域图像集;
步骤S5:计算待标注图像的标签的贡献值,并根据贡献值大小得到预测关键词。
2.根据权利要求1所述的融合深度特征和语义邻域的自动图像标注方法,其特征在于:所述步骤S2的具体内容如下:
步骤S21:构建AlexNet网络,并用训练集充分训练整个网络,以得到训练好的网络模型;
步骤S22:对待提取特征的图像进行尺寸缩放,令I={I0,I1,…,IN-1}为尺寸缩放后的图像集;其中N为图像数,Ii=[f1,f2,…,fV]T为图像Ii的原始像素,V为像素数;
步骤S23:用训练好的卷积核执行前馈卷积运算,输出卷积层特征图;设第i层神经元的输入特征为I(i),第i层神经元和第i+1层神经元间的卷积核为K(i+1),则第i+1层神经元的输入,即第i层卷积层的输出为:其中,为卷积运算,b(i+1)为第i层和第i+1层间的偏置,f(·)为激活函数;
步骤S24:对所述卷积层特征图执行下采样运算,输出简化后的特征图;将I(i)划分为区域Rk,k=1,…,m,m为划分出来的总的区域数,计算方法如下:令I(i)为n×n的特征图,则采样操作可按如下方式实现:pool(Rk)表示对区域Rk中的像素点取最大值;
步骤S25:执行全连接运算,输出图像特征;设第l层为全连接层,所述全连接层的权重为Wl,则图像特征F为:F=f(Wl·Il-1+b(l));其中,I(l-1)为全连接层的前一层输出,b(l)为全连接层的偏置,f(·)为激活函数。
3.根据权利要求2所述的融合深度特征和语义邻域的自动图像标注方法,其特征在于:所述激活函数取ReLu函数,即f(x)=max(0,x)。
4.根据权利要求2所述的融合深度特征和语义邻域的自动图像标注方法,其特征在于:所述步骤S4的具体内容如下:
步骤S41:首先对图像标注问题进行符号定义,用NI={NI1,NI2…NIn},NIi∈Rd表示训练图像,其中n为训练图像数,并用W={w1,w2,…,wM}表示训练集中包含的关键词,M为关键词数;则图像标注问题的训练集可以记为:Ω={(NI1,W1),(NI2,W2),…,(NIn,Wn)},这里的Wi为M维向量Wi∈{0,1}M,当Wi j=1时,表示图像i包含关键词wj;而当Wi j=0时,表示图像i不含关键词wj
步骤S42:定义图像的语义邻域,将每个关键词所包含的所有图像看成一个语义组,那么,所有关键词对应的语义组集按如下方式表示:其中,wj为关键词,为和关键词wj关联的所有图像,
步骤S43:构建待标注图像的邻域图像集;令为关键词wj对应的语义组,对待标注图像TI,我们从Gi中选出与待标注图像TI视觉相似度最高的l幅图像得到局部子集其中,l为正整数且3≤l≤8;当所有语义组的局部子集都获取到后,对它们进行合并,最终得到针对待标注图像TI的邻域图像集:
5.根据权利要求4所述的融合深度特征和语义邻域的自动图像标注方法,其特征在于:所述步骤S5的具体内容如下:
步骤S51:将图像标注的预测问题转化为求后验概率的问题,首先定义条件概率P(I|wj),它表示关键词wj和图像I的概率关系;由概率转换公式可知,图像关键词的预测值可按如下式子计算:其中,P(wj)和P(I)为先验概率;因此,给定一幅待标注图像TI,它的预测关键词可以通过对所有关键词的预测值排序得到,即:
步骤S52:根据公式可知,对P(wj|I)的计算就转化为对P(I|wj)的计算;对于给定关键词wj∈W,它与图像I构成的概率关系定义如下:其中,P(wj|Ii)∈{0,1}用于控制在图像Ii中哪些关键词需要增加贡献值,哪些不需要增加贡献值,具体表示为:即,当图像Ii包含关键词wj时,P(wj|Ii)=1,当图像Ii不包含关键词wj时,P(wj|Ii)=0;
步骤S53:公式中的为图像Ii对于图像I的贡献值,计算方法定义如下:其中,χ为固定常数,β为正整数,Dis(I,Ii)为图像I和图像Ii间的归一化后的视觉距离,计算方法如下:其中,L(.)表示为两个向量间的距离公式。
6.根据权利要求5所述的融合深度特征和语义邻域的自动图像标注方法,其特征在于:所述步骤S53中,固定常数的取值为:χ=1.0;β的取值为5≤β≤30。
CN201610585022.8A 2016-07-22 2016-07-22 一种融合深度特征和语义邻域的自动图像标注方法 Active CN106250915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610585022.8A CN106250915B (zh) 2016-07-22 2016-07-22 一种融合深度特征和语义邻域的自动图像标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610585022.8A CN106250915B (zh) 2016-07-22 2016-07-22 一种融合深度特征和语义邻域的自动图像标注方法

Publications (2)

Publication Number Publication Date
CN106250915A CN106250915A (zh) 2016-12-21
CN106250915B true CN106250915B (zh) 2019-08-09

Family

ID=57604672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610585022.8A Active CN106250915B (zh) 2016-07-22 2016-07-22 一种融合深度特征和语义邻域的自动图像标注方法

Country Status (1)

Country Link
CN (1) CN106250915B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110574041B (zh) * 2017-02-23 2023-06-20 诺基亚技术有限公司 针对深度学习领域的协同激活
CN107622104B (zh) * 2017-09-11 2020-03-06 中央民族大学 一种文字图像识别标注方法及系统
CN108595558B (zh) * 2018-04-12 2022-03-15 福建工程学院 一种数据均衡策略和多特征融合的图像标注方法
CN109086690B (zh) * 2018-07-13 2021-06-22 北京旷视科技有限公司 图像特征提取方法、目标识别方法及对应装置
CN109271539B (zh) * 2018-08-31 2020-11-24 华中科技大学 一种基于深度学习的图像自动标注方法及装置
CN109543557B (zh) * 2018-10-31 2021-01-05 百度在线网络技术(北京)有限公司 视频帧的处理方法、装置、设备以及存储介质
CN109740541B (zh) * 2019-01-04 2020-08-04 重庆大学 一种行人重识别系统与方法
CN110197200B (zh) * 2019-04-23 2022-12-09 东华大学 一种基于机器视觉的服装电子标签生成方法
CN110070091B (zh) * 2019-04-30 2022-05-24 福州大学 用于街景理解的基于动态插值重建的语义分割方法及系统
CN110110800B (zh) * 2019-05-14 2023-02-03 长沙理工大学 自动图像标注方法、装置、设备及计算机可读存储介质
CN110490236B (zh) * 2019-07-29 2021-08-24 武汉工程大学 基于神经网络的自动图像标注方法、系统、装置和介质
CN111090763B (zh) * 2019-11-22 2024-04-05 北京视觉大象科技有限公司 一种图片自动标签方法及装置
CN111080551B (zh) * 2019-12-13 2023-05-05 太原科技大学 基于深度卷积特征和语义近邻的多标签图像补全方法
CN111079840B (zh) * 2019-12-17 2022-07-01 太原科技大学 基于卷积神经网络和概念格的图像语义完备标注方法
CN111241309B (zh) * 2020-01-07 2021-09-07 腾讯科技(深圳)有限公司 多媒体资源搜索方法、装置及存储介质
CN111613299A (zh) * 2020-06-15 2020-09-01 山东搜搜中医信息科技有限公司 中医数据的多标签分析技术
CN112732967B (zh) * 2021-01-08 2022-04-29 武汉工程大学 图像自动标注方法、系统及电子设备
CN114399731B (zh) * 2021-12-31 2022-12-20 中国科学院大学 一种单粗点监督下的目标定位方法
WO2024113287A1 (zh) * 2022-11-30 2024-06-06 华为技术有限公司 标注方法与标注装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317912A (zh) * 2014-10-28 2015-01-28 华中师范大学 基于邻域与距离度量学习的图像语义自动标注方法
CN104572940A (zh) * 2014-12-30 2015-04-29 中国人民解放军海军航空工程学院 一种基于深度学习与典型相关分析的图像自动标注方法
CN105678340A (zh) * 2016-01-20 2016-06-15 福州大学 一种基于增强型栈式自动编码器的自动图像标注方法
CN105701502A (zh) * 2016-01-06 2016-06-22 福州大学 一种基于蒙特卡罗数据均衡的图像自动标注方法
CN105740894A (zh) * 2016-01-28 2016-07-06 北京航空航天大学 一种高光谱遥感图像的语义标注方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317912A (zh) * 2014-10-28 2015-01-28 华中师范大学 基于邻域与距离度量学习的图像语义自动标注方法
CN104572940A (zh) * 2014-12-30 2015-04-29 中国人民解放军海军航空工程学院 一种基于深度学习与典型相关分析的图像自动标注方法
CN105701502A (zh) * 2016-01-06 2016-06-22 福州大学 一种基于蒙特卡罗数据均衡的图像自动标注方法
CN105678340A (zh) * 2016-01-20 2016-06-15 福州大学 一种基于增强型栈式自动编码器的自动图像标注方法
CN105740894A (zh) * 2016-01-28 2016-07-06 北京航空航天大学 一种高光谱遥感图像的语义标注方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Semantic Distance Based Nearest Neighbor Method for Image Annotation;Wei Wu;《JOURNAL OF COMPUTERS》;20141030;第9卷(第10期);第2274-2280页 *
Image annotation based on feature fusion and semantic similarity;Xiaochun Zhang;《Neurocomputing》;20140821;第1658-1671页 *
Multi-scale salient region and relevant visual keywords based model for automatic image annotation;Xiao Ke;《Multimed Tools Appl》;20141021;第12477-12498页 *
基于相关视觉关键词的图像自动标注方法研究;柯逍;《计算机研究与发展》;20120415(第4期);第846-855页 *

Also Published As

Publication number Publication date
CN106250915A (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
CN106250915B (zh) 一种融合深度特征和语义邻域的自动图像标注方法
CN109344288B (zh) 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
KR101865102B1 (ko) 시각 문답을 위한 시스템 및 방법
CN105631479B (zh) 基于非平衡学习的深度卷积网络图像标注方法及装置
Huang et al. A visual–textual fused approach to automated tagging of flood-related tweets during a flood event
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN108536856A (zh) 基于双边网络结构的混合协同过滤电影推荐模型
CN108985370B (zh) 图像标注语句自动生成方法
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
CN110046353B (zh) 一种基于多语言层次机制的方面级情感分析方法
Gao et al. Question-Led object attention for visual question answering
Hao Multimedia English teaching analysis based on deep learning speech enhancement algorithm and robust expression positioning
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN112949622A (zh) 融合文本与图像的双模态性格分类方法及装置
Zhang et al. Recurrent attention network using spatial-temporal relations for action recognition
Liu et al. Fact-based visual question answering via dual-process system
Miah et al. Hand gesture recognition for multi-culture sign language using graph and general deep learning network
Takimoto et al. Image aesthetics assessment based on multi-stream CNN architecture and saliency features
Liu et al. Learning explicit shape and motion evolution maps for skeleton-based human action recognition
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN104700410A (zh) 基于协同过滤的教学视频标注方法
CN117313709B (zh) 一种基于统计信息和预训练语言模型的生成文本检测方法
Jiang et al. Semantic segmentation of remote sensing images combined with attention mechanism and feature enhancement U-Net
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant