CN108132968B - 网络文本与图像中关联语义基元的弱监督学习方法 - Google Patents

网络文本与图像中关联语义基元的弱监督学习方法 Download PDF

Info

Publication number
CN108132968B
CN108132968B CN201711248543.5A CN201711248543A CN108132968B CN 108132968 B CN108132968 B CN 108132968B CN 201711248543 A CN201711248543 A CN 201711248543A CN 108132968 B CN108132968 B CN 108132968B
Authority
CN
China
Prior art keywords
image
text
semantic
region
semantic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711248543.5A
Other languages
English (en)
Other versions
CN108132968A (zh
Inventor
杜友田
黄鑫
崔云博
王航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201711248543.5A priority Critical patent/CN108132968B/zh
Publication of CN108132968A publication Critical patent/CN108132968A/zh
Application granted granted Critical
Publication of CN108132968B publication Critical patent/CN108132968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5862Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种网络文本与图像中关联语义基元的弱监督学习方法,首先,针对异构模态数据内容进行特征提取与表达,从而分别获得文本、图像两者单独模态下语义基元的特征向量空间;其次,以图像中的每个区域作为结点,以结点之间的多种关系作为边,构建图像‑文本语义信息传播模型;再次,构建图上的学习算法,将图像级别对应的文本语义信息有效地传播到这些图像区域上去,形成大量表征客观世界的语义基本单元集合;本发明针对目前网络中数量居多的文本、图像两种模态的数据进行相关性建模和学习,通过基于图的文本图像关联语义基元学习算法,获得大量在高层语义相匹配的文本‑图像语义基元对,从高层语义上将二者实现关联,在跨媒体检索等领域价值巨大。

Description

网络文本与图像中关联语义基元的弱监督学习方法
技术领域
本发明属于跨媒体检索技术领域,特别涉及一种网络文本与图像中关联语义基元的弱监督学习方法。
背景技术
随着互联网技术的高速发展和多媒体设备的日益普及与应用,网络上的文本、图像、音频、视频等多媒体数据的规模越来越庞大,尤其是近年来,社交网站的快速繁荣发展使得广大互联网用户能够随时随地上传、分享各类数据,这进一步加剧了多媒体数据的爆炸式增长趋势。例如,Flicker图片社交网站2015年用户上传图片达7.28亿张,平均每天约200万张的上传量。同时,异构模态的数据经常混合并存于同一文档中,从不同的角度来描述同一主题内容。例如新浪微博,用户上传的照片与其给出的文本配字很有可能表达了同一语义。
这些趋势给网络信息检索技术带来了许多问题和挑战。一方面,网络异构数据具有“高层语义相关,底层特征异构”的特点,因此,对异构媒体数据的底层特征直接进行相似性度量非常困难;另一方面,用户如今不仅对检索速度和匹配度提出要求,更希望能够通过一次简单的输入操作获取到包含文本、图像、音频、视频等多种媒体在内的返回结果,以便对某一事物形成更加完整的认知。这些问题的不断产生和解决推动了信息检索技术的不断发展。
姚涛等人提出了一种基于映射字典学习的跨模态哈希检索方法(CN107256271A),该方法的核心是利用映射字典学习分别为图像和文本模态学习一个共享子空间。裴廷睿等人提出一种基于局部敏感哈希算法和神经网络的跨媒体检索方法(CN107103076A),该方法通过局部敏感哈希算法处理图像数据,利用哈希函数学习处理文本数据,然后对处理后的图像和文档进行编码建立索引,从而实现更加精确的检索。白亮等人提出一种基于类马氏相关性度量的跨媒体检索方法(CN106649715A),该方法的核心是通过W-CCA算法找到文本和图像的特征数据集的公共最大特征子空间,然后将文本和图像的特征集的数据统一到同一子空间。王文敏等人则提出了两种不同的跨媒体检索方法(CN106202413A、CN106095893A),这两种方法分别是通过基于逻辑回归的语义匹配方法找到图像、文本这两种异构特征之间的关联以及基于耦合的特征映射、同种媒体内和不同媒体间的关联挖掘来进行跨媒体检索的。
由此可见,检索技术正在逐渐从单一模态的方向朝着跨模态检索的方向发展,从基于文本标注的检索方向朝着基于高层语义的检索方向发展,而实现这一发展目标的基础和关键问题就是要研究解决如何建立异构数据之间的相关关系。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种网络文本与图像中关联语义基元的弱监督学习方法,针对目前网络中数量居多的文本、图像两种模态的数据进行相关性建模和学习,通过基于图的文本图像关联语义基元学习算法,获得大量在高层语义相匹配的文本-图像语义基元对,从高层语义上将二者实现关联,从而在跨媒体检索等领域发挥一定价值。
为了实现上述目的,本发明采用的技术方案是:
一种网络文本与图像中关联语义基元的弱监督学习方法,首先,针对异构模态数据内容进行特征提取与表达,从而分别获得文本、图像两者单独模态下语义基元的特征向量空间;其次,以图像中的每个区域作为节点,以节点之间的多种关系作为边,构建图像-文本语义信息传播模型;再次,构建图上的学习算法,将图像级别对应的文本语义信息有效地传播到这些图像区域上去,形成大量表征客观世界的语义基本单元集合。
本发明采用了如下技术手段来实现的:
首先,针对输入的原始文本数据经过文本分词、过滤停用词、特征选择等通用的文本模态数据预处理流程后,利用向量空间模型(VSM)完成文本到特征向量的映射,实现文本模态的特征表示;针对输入的原始图像经过图像分割、滤波去噪、底层特征提取后,利用视觉词袋模型(BOVW)进行图像特征的量化编码,获得区域块特征矩阵。
其次,将整幅图像映射为一个带权无向图G=(V,E,W),其中结点集合V中的每个元素对应于图像中具有典型语义的一个区域,边的集合E对应于区域之间的多种关系,边上的权值W则用来衡量子区域块在视觉特征上的相似性和相关性。
然后,定义需要优化的目标函数,其中包括损失项、结点之间的互斥项、结点之间的平滑项以及稀疏约束;通过投影梯度法来对上述目标函数进行迭代优化,实现图像级别的文本标签到子区域上的有效传播,以获得高层语义相匹配的文本-图像语义基元对。
与现有技术相比,本发明基于互联网上大规模图像数据和文本数据之间的关联性,让计算机自动地学习自主得到描述客观世界的语义基本概念,语义基本概念的生成对于网络内容检索、语义理解、知识表示等应用具有重要作用。
附图说明
图1为本发明基于图的文本图像关联语义基元学习算法框图。
图2为本发明一个简单的图结构示例。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明网络文本与图像中关联语义基元的弱监督学习方法,包括如下步骤:
步骤1:文本数据和图像数据的特征提取与表示。
(1)针对文本数据,首先进行数据预处理,其流程主要包括文本分词、过滤停用词和特征选择。而对于文本数据进行特征表示时,本发明采用向量空间模型(VSM),将文本数据映射到特征向量空间中。其中,每个特征项的权重由TF-IDF方法表示。
(2)针对图像数据,首先进行数据预处理和特征提取,其流程主要包括图像分割、滤波去噪和底层特征提取。其中,在进行图像分割时,本发明采用Ncut算法将图像分成若干个具有独特性质的区域。该算法将整幅图像映射为一个带权无向图,并把图像分割问题转化为求解极小值的问题。而在进行底层特征提取时,本发明主要提取了图像的颜色、纹理以及SIFT特征。针对颜色特征,通过构建RGB颜色直方图将每个颜色通道细化为32个小区间,故可得到96维的颜色特征向量;针对纹理特征,采用二维Gabor滤波器的方法将整幅图像进行滤波,并对滤波器设置了4个尺度和4个方向,故可得到16维的纹理特征向量;而针对SIFT特征,通过关键点检测、关键点描述、关键点匹配、消除错配点四个步骤实现了对图像的SIFT特征提取。
关于图像数据的特征表示,本发明采用视觉词袋模型(BOVW)。该模型把整幅图像看作一个文档,将图像集合上提取到的特征向量看作文档中的词汇,然后对这些特征向量进行聚类,构成视觉词典,最后统计视觉词典中各词汇的数量,即对视觉词典进行量化编码。其中,上述聚类过程用K-means算法。该算法首先随机选择空间中的k个对象作为初始的聚类中心,对其余的对象则计算它们与各中心的距离并就近归类,然后通过迭代的方式,多次更新聚类中心,直至获取到满意的聚类结果,即同一个簇中的对象相似度高,不同簇中的对象相似度低。
步骤2:基于图的方法对文本-图像中的关联语义基元进行学习
本发明提出了一种基于图的文本图像关联语义基元学习算法,来获得语义一致的文本-图像跨媒体语义基元。算法的输入为上述步骤提取到的特征。之后的学习过程主要分为三步:首先,通过步骤1所介绍的方法对文本和图像分别进行特征的提取与表示,形成异构模态语义基元的特征向量空间;然后,以图像模态语义基元(图像的区域块特征向量)为结点,以结点之间的复合关系为边构建图;最后,通过图上的学习将图像级别的文本标签有效地传播到这些区域上去。最终算法的输出为大量的跨媒体语义基元。整个算法的流程如图1所示。
(1)图的构建
为了便于表述,首先引入一系列公式标记。假设待学习的图像数据集为{I1,…,Ik,…,Im},其中Ik表示第k幅图像,m为图像总数。数据集中相应的图像级语义信息矩阵为
Figure BDA0001491192630000051
其中c为文本词典的大小,即数据集中出现的不重复标签的个数。
Figure BDA0001491192630000052
为图像Ik的标签向量,一幅图像通常包含若干个文本标签,如果图像Ik被打上标签i那么
Figure BDA0001491192630000053
否则为0。
对于每幅原始的输入图像,经过图像分割、滤波去噪后被划分为若干个图像区域块,对每个图像区域进行内容特征提取和表达得到一个d维的特征向量。假设n为数据集中所有区域块的总和,则可以用
Figure BDA0001491192630000054
表示区域块特征矩阵,X=[x1,…,xi,…xn],该矩阵中的每一列为一个图像子区域的视觉特征向量。类似于完整图像数据集的表示,这里用
Figure BDA0001491192630000055
表示相应的区域级语义信息矩阵,该矩阵中的数据是未知的,有待通过算法学习预测。
图2为一个简单的图结构示例,同一个虚线圈中的节点代表来源于同一幅图像的子区域,节点之间的细实线代表视觉上的相似度,粗实线代表因共存而产生的相关性。
(2)图上语义信息的相关性建模
本发明的目标是输出在高层语义上具有一致性的图像区域和文本标签,也就是说需要实现将一幅图像上原始的多个标签按照语义的相关性分配给相应的子区域。为了实现上述图像的语义信息传播,主要考虑从以下三个方面对结点信息进行约束。
第一,语义信息损失小,即一幅图像中各区域估计出来的语义信息总和应与整幅图像原始的对应文本信息尽可能接近,对应的函数约束项称之为损失项。可以想象,如果一幅图像的文本标签是较为准确和完整的,那么它应该是其子区域标签的组合,这样一来,虽然原图像的标签信息不能直接赋给其子区域,但却提供了一个已经相对优良的标签候选集,以弱监督的方式实现了语义信息的约束。
从特征空间的角度来讲,来自同一幅图像的子区域因为具有共存性,它们在图像特征空间中对应的点具有一种近邻关系,因此每幅图像都可以看作是由若干个子区域线性组合而成;类似地,这幅图像原本的文本标签也因为共同描述了该图而具有一种上下文关系,它们在文本特征空间中对应的点也应该相互比较临近,每幅图的文本文档可以看作是由若干个单个词汇的线性组合。期望来自同一幅图的子区域能被赋予具有上下文相关性的文本,也就是说,文本空间与图像空间的局部线性结构应尽量保持一致。假设第i幅图经过分割预处理得到k个子区域,本发明通过最小化如下的损失函数实现这一目标:
Figure BDA0001491192630000061
式中:
Figure BDA0001491192630000062
是一个常系数矩阵,包含图像空间的邻域信息,若子区域xj属于图像Ii,那么mij=1,否则mij=0;子区域xj待预测的语义特征向量为yj
第二,每幅图像种的各个区域对应的语义信息具有互斥性,即一幅图像中各区域块的语义信息应尽量覆盖原文档、避免集中重复,对应函数约束项称为互斥项。也就是在文本特征空间中,期望同一邻域中的点信息应尽量分散。因此,本发明通过给这些子区域语义信息的相似性加以惩罚来实现此项约束。当且仅当子区域xi和xj属于同一幅图像时,计算其相应的语义特征向量之间的相似度yi Tyj并加以惩罚,使得当yi某一维分量数值增大时,yj在该分量上的数值有减小的趋势。在整个数据集上,最小化下式:
Figure BDA0001491192630000063
式中:i~j表示yi和yj对应的子区域来自于同一幅图像,即它们在特征空间中属于同一邻域:
Figure BDA0001491192630000064
为一常系数矩阵,约束仅对具有邻域关系的点进行相似度计算,若yi和yj有邻域关系,那么cij=1,否则cij=0。
第三,区域块语义信息在图上光滑,即视觉特征相似的区域其语义信息也应相似,对应函数约束项称为平滑项。通过前述的损失项和互斥项,约束了图像级别的标签信息较为均匀地传播给它的子区域,但如何将相应的标签信息传递给语义一致的子区域却无从约束。因此这两项仅限于一幅图像内部的语义信息关系,反映的是图上的局部信息,而本发明的第三种约束——平滑项则跨越了多幅图像,能反映图上的全局信息。
图上的数据点可以看作是高维数据流形中的采样,根据流形学习中的聚类假设,图上的分类函数应尽可能光滑。对于本发明所构建的图,即文本作为图像的标签应尽量光滑,也就是说越相似的样本越可能具有相同的语义标签。为实现这一约束,先计算视觉特征相似的k近邻,如果子区域xi和xj相似度足够高,那么数据点xi和xj之间存在一条边eij,边上的权值为:
Figure BDA0001491192630000071
式中:σ是一个和数据集相关的尺度因子;若xi和xj之间不存在边,那么wij=0,从而得到数据图的权矩阵
Figure BDA0001491192630000072
然后最小化下式:
Figure BDA0001491192630000073
式中:L=D-W为图上的拉普拉斯算子;
Figure BDA0001491192630000074
是该图的度数矩阵,它是一个对角矩阵,对角线上第i个元素是W矩阵第i行所有元素的和,即Dii=∑jWij
可以看出,如果子区域xi和xj相似度足够高,数据点xi和xj距离够近时,那么它们之间边的权值wij会比较大,当约束
Figure BDA0001491192630000075
的值在一个较小的范围内时,||yi-yj||2的值则会相应减小,即两个子区域的语义信息会逐渐接近,从而实现了图上语义信息的平滑。
另外,从计算效率的角度考虑,带预测的区域级语义信息矩阵
Figure BDA0001491192630000076
可能会比较稠密,矩阵中的大多数元素都是非零的,当图像数据集规模较大时计算效率就会比较低。同时,希望每个区域能仅被标注上几个可能的语义标签。因此,可以给语义信息矩阵Y引入L1范数正则化(L1regularization)来使矩阵稀疏化,对应函数约束项称为稀疏项:
Figure BDA0001491192630000081
因为矩阵Y中的元素表示了某个区域与某个文本在语义上具有相关性的概率,概率值非负,因此约束Y≥0。
将上述的损失项、互斥项、平滑项以及稀疏约束综合考虑,便得到了如下计算区域语义信息矩阵Y的目标函数:
Figure BDA0001491192630000082
式中:α,λ,η>0是平衡参数,参数的数值大小决定了三个函数约束项之间的权衡,进而影响算法的预测性能,参数值的大小可根据实际要求进行调整。
(3)图上语义信息模型的优化求解
上节最后给出了图上学习的目标函数J(Y),这是一个带约束的优化问题,本发明通过投影梯度法(Projected Gradient Method)来对目标函数进行优化。该方法从一个基本可行解出发,由约束条件确定出凸约束集边界上梯度的投影,在每次更新搜索方向和步长后,都要检验解的可行性,若不满足约束条件则需要将当前解投影到可行域内,不断迭代直至结果满足精度要求为止。
针对该目标函数,先推导求其梯度函数,其中前三项都是可导的:
Figure BDA0001491192630000083
Figure BDA0001491192630000084
Figure BDA0001491192630000085
最后一个稀疏项为L1范数不可微,但是存在次梯度,即是次微分的,因此稀疏项的次梯度如下:
Figure BDA0001491192630000086
式中sign(Y)的定义为:
Figure BDA0001491192630000091
最终目标函数完整的梯度函数为:
Figure BDA0001491192630000092
式中:符号
Figure BDA0001491192630000093
代表sign(Y)。
假设当前的迭代次数为t,此时的搜索步长为st,则当前解Yt的更新规则如下:
Figure BDA0001491192630000096
其中:P是投影算子,其一般定义为:
Figure BDA0001491192630000097
本算法中投影算子的定义为:
Figure BDA0001491192630000094
区域级语义信息矩阵Y初始化时,将属于同一幅图像的子区域初始语义信息都设置为:所属图像的语义信息与图像中包含子区域个数的比值。因此,初始时损失函数项的数值为零。
通过上述的迭代过程,在每次迭代结束后进行解的合理性检验,将解约束在可行范围内,并对变量根据问题需要进行min-max标准化处理,实现了本发明目标函数的优化。
最终,通过以上学习过程,能够得到由
Figure BDA0001491192630000095
所表示的相应的区域级语义信息矩阵,形成描述客观世界的视觉基本语义概念。

Claims (5)

1.网络文本与图像中关联语义基元的弱监督学习方法,其特征在于,包括如下步骤:
步骤1,针对异构模态数据内容进行特征提取与表达,从而分别获得文本、图像两者单独模态下语义基元的特征向量空间;
步骤2,以图像中的每个区域作为结点,以结点之间的多种关系作为边,构建图像-文本语义信息传播模型;其中,将整幅图像映射为一个带权无向图G=(V,E,W),即所述图像-文本语义信息传播模型,结点集合V中的每个元素对应于图像中具有典型语义的一个区域,边的集合E对应于区域之间的多种关系,边上的权值W则用来衡量子区域块在视觉特征上的相似性和相关性;
步骤3,构建图上的学习算法,将图像级别对应的文本语义信息有效地传播到这些图像区域上去,形成大量表征客观世界的语义基本单元集合,其中图上的学习算法流程为:定义需要优化的目标函数,其中包括损失项、结点之间的互斥项、结点之间的平滑项以及稀疏约束;通过投影梯度法对所述目标函数进行迭代优化,实现图像级别的文本标签到子区域上的有效传播,以获得高层语义相匹配的文本-图像语义基元对;
待学习的图像数据集为{I1,…,Ik,…,Im},其中Ik表示第k幅图像,m为图像总数,数据集中相应的图像级语义信息矩阵为
Figure FDA0002519382950000011
其中c为文本词典的大小,即数据集中出现的不重复标签的个数,
Figure FDA0002519382950000012
为图像Ik的标签向量,一幅图像包含若干个文本标签,如果图像Ik被打上标签i那么
Figure FDA0002519382950000013
否则为0;对于每幅原始的输入图像,经过图像分割、滤波去噪后被划分为若干个图像区域块,对每个图像区域进行内容特征提取和表达得到一个d维的特征向量,假设n为数据集中所有区域块的总和,则用
Figure FDA0002519382950000014
表示区域块特征矩阵,X=[x1,…,xi,…xn],该矩阵中的每一列为一个图像子区域的视觉特征向量,用
Figure FDA0002519382950000015
表示相应的区域级语义信息矩阵,该矩阵中的数据是未知的,有待通过算法学习预测;
所述图像-文本语义信息传播模型表示为如下计算区域语义信息矩阵Y的目标函数:
Figure FDA0002519382950000021
s.t Y≥0
式中:α,λ,η>0是平衡参数,其中,α对应损失项,λ对应互斥项,η对应平滑项,而参数的数值大小则决定了三个函数约束项之间的权衡,进而影响算法的预测性能;
损失项定义:语义信息损失小,即一幅图像中各区域估计出来的语义信息总和应与整幅图像原始的对应文本信息尽可能接近,对应的函数约束项称为损失项,假设第i幅图经过分割预处理得到k个子区域,则通过最小化如下的损失函数实现这一目标:
Figure FDA0002519382950000022
式中:
Figure FDA0002519382950000023
是一个常系数矩阵,包含图像空间的邻域信息,若子区域xj属于图像Ii,那么mij=1,否则mij=0;子区域xj待预测的语义特征向量为yj
互斥项定义:每幅图像种的各个区域对应的语义信息具有互斥性,即一幅图像中各区域块的语义信息应尽量覆盖原文档、避免集中重复,对应函数约束项称为互斥项,当且仅当子区域xi和xj属于同一幅图像时,计算其相应的语义特征向量之间的相似度yi Tyj并加以惩罚,使得当yi某一维分量数值增大时,yj在该分量上的数值有减小的趋势,在整个数据集上,最小化下式:
Figure FDA0002519382950000024
式中:i~j表示yi和yj对应的子区域来自于同一幅图像,即它们在特征空间中属于同一邻域:
Figure FDA0002519382950000025
为一常系数矩阵,约束仅对具有邻域关系的点进行相似度计算,若yi和yj有邻域关系,那么cij=1,否则cij=0;
平滑项定义:区域块语义信息在图上光滑,即视觉特征相似的区域其语义信息也应相似,对应函数约束项称为平滑项;最小化下式:
Figure FDA0002519382950000031
式中:L=D-W为图上的拉普拉斯算子;
Figure FDA0002519382950000032
是该图的度数矩阵,它是一个对角矩阵,对角线上第i个元素是W矩阵第i行所有元素的和,即Dii=∑jWij,如果子区域xi和xj相似度足够高,那么数据点xi和xj之间存在一条边eij,wij为边上的权值
Figure FDA0002519382950000033
σ是一个和数据集相关的尺度因子;若xi和xj之间不存在边,那么wij=0,从而得到数据图的权矩阵
Figure FDA0002519382950000034
‖Y‖1表示稀疏项,指给语义信息矩阵Y引入L1范数正则化(L1regularization)来使矩阵稀疏化;
Figure FDA0002519382950000035
所述目标函数J(Y)是一个带约束的优化问题,通过投影梯度法(Projected GradientMethod)对其进行优化,先从一个基本可行解出发,由约束条件确定出凸约束集边界上梯度的投影,在每次更新搜索方向和步长后,都要检验解的可行性,若不满足约束条件则需要将当前解投影到可行域内,不断迭代直至结果满足精度要求为止,最终目标函数完整的梯度函数为:
Figure FDA0002519382950000036
s.t Y≥0
式中:符号
Figure FDA0002519382950000037
代表sign(Y);
假设当前的迭代次数为t,此时的搜索步长为st,则当前解Yt的更新规则如下:
Figure FDA0002519382950000041
其中:P是投影算子,其定义为:
Figure FDA0002519382950000042
区域级语义信息矩阵Y初始化时,将属于同一幅图像的子区域初始语义信息都设置为:所属图像的语义信息与图像中包含子区域个数的比值,因此,初始时损失函数项的数值为零。
2.根据权利要求1所述网络文本与图像中关联语义基元的弱监督学习方法,其特征在于,所述步骤1中,对原始文本数据进行文本模态数据预处理后,利用向量空间模型(VSM)完成文本到特征向量的映射,实现文本模态的特征表示;对原始图像进行数据预处理和特征提取,然后利用视觉词袋模型(BOVW)进行图像特征的量化编码,获得区域块特征矩阵。
3.根据权利要求2所述网络文本与图像中关联语义基元的弱监督学习方法,其特征在于,所述步骤1中,所述文本模态数据预处理包括文本分词、过滤停用词以及特征选择,文本模态的特征表示中,每个特征项的权重由TF-IDF方法表示;所述原始图像进行数据预处理和特征提取的流程主要包括图像分割、滤波去噪和底层特征提取;所述视觉词袋模型(BOVW)是把整幅图像看作一个文档,将图像集合上提取到的特征向量看作文档中的词汇,然后对这些特征向量进行聚类,构成视觉词典,最后统计视觉词典中各词汇的数量,即对视觉词典进行量化编码。
4.根据权利要求3所述网络文本与图像中关联语义基元的弱监督学习方法,其特征在于,所述图像分割是采用Ncut算法将图像分成若干个具有独特性质的区域,该算法将整幅图像映射为一个带权无向图,并把图像分割问题转化为求解极小值的问题;所述底层特征提取的对象为图像的颜色、纹理以及SIFT特征,针对颜色特征,通过构建RGB颜色直方图将每个颜色通道细化为32个小区间,得到96维的颜色特征向量;针对纹理特征,采用二维Gabor滤波器的方法将整幅图像进行滤波,并对滤波器设置4个尺度和4个方向,得到16维的纹理特征向量;针对SIFT特征,通过关键点检测、关键点描述、关键点匹配、消除错配点四个步骤实现对图像的SIFT特征提取;所述聚类过程用K-means算法,首先随机选择空间中的k个对象作为初始的聚类中心,对其余的对象则计算它们与各中心的距离并就近归类,然后通过迭代的方式,多次更新聚类中心,直至获取到满意的聚类结果,即同一个簇中的对象相似度高,不同簇中的对象相似度低。
5.根据权利要求1所述网络文本与图像中关联语义基元的弱监督学习方法,其特征在于,通过所述迭代过程,在每次迭代结束后进行解的合理性检验,将解约束在可行范围内,并对变量根据问题需要进行min-max标准化处理,实现了目标函数的优化;最终,通过所述学习过程,得到由
Figure FDA0002519382950000051
所表示的相应的区域级语义信息矩阵,形成描述客观世界的视觉基本语义概念。
CN201711248543.5A 2017-12-01 2017-12-01 网络文本与图像中关联语义基元的弱监督学习方法 Active CN108132968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711248543.5A CN108132968B (zh) 2017-12-01 2017-12-01 网络文本与图像中关联语义基元的弱监督学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711248543.5A CN108132968B (zh) 2017-12-01 2017-12-01 网络文本与图像中关联语义基元的弱监督学习方法

Publications (2)

Publication Number Publication Date
CN108132968A CN108132968A (zh) 2018-06-08
CN108132968B true CN108132968B (zh) 2020-08-04

Family

ID=62389058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711248543.5A Active CN108132968B (zh) 2017-12-01 2017-12-01 网络文本与图像中关联语义基元的弱监督学习方法

Country Status (1)

Country Link
CN (1) CN108132968B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764459B (zh) * 2018-05-16 2020-06-16 西安电子科技大学 基于语义定义的目标识别网络设计方法
CN110929744B (zh) * 2018-09-20 2023-04-28 成都图必优科技有限公司 一种基于层次联合卷积网络特征弱监督图像语义分割方法
CN109739991A (zh) * 2018-11-22 2019-05-10 国网天津市电力公司 基于共享特征空间的模态异质电力数据统一语义主题建模方法
CN110532456B (zh) * 2019-06-14 2023-06-27 平安科技(深圳)有限公司 案件查询方法、装置、计算机设备和存储介质
CN112529024A (zh) * 2019-09-17 2021-03-19 株式会社理光 一种样本数据的生成方法、装置及计算机可读存储介质
CN110781319B (zh) * 2019-09-17 2022-06-21 北京邮电大学 跨媒体大数据的公共语义表示、搜索方法和装置
CN110909778B (zh) * 2019-11-12 2023-07-21 北京航空航天大学 一种基于几何一致性的图像语义特征匹配方法
CN111062438B (zh) * 2019-12-17 2023-06-16 大连理工大学 基于相关学习的图传播的弱监督细粒度图像分类算法
CN111324752B (zh) * 2020-02-20 2023-06-16 中国科学技术大学 基于图神经网络结构建模的图像与文本检索方法
CN111652102A (zh) * 2020-05-27 2020-09-11 国网山东省电力公司东营供电公司 一种输电通道目标物辨识方法及系统
CN111753190A (zh) * 2020-05-29 2020-10-09 中山大学 一种基于元学习的无监督跨模态哈希检索方法
CN112235182B (zh) * 2020-08-29 2021-11-16 上海量明科技发展有限公司 基于斗图的图像对抗方法、装置及即时通信客户端
CN112348911B (zh) * 2020-10-28 2023-04-18 山东师范大学 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN112417097B (zh) * 2020-11-19 2022-09-16 中国电子科技集团公司电子科学研究院 一种用于舆情解析的多模态数据特征提取与关联方法
CN112464638B (zh) * 2020-12-14 2022-12-30 上海爱数信息技术股份有限公司 一种基于改进谱聚类算法的文本聚类方法
CN112989218B (zh) * 2021-03-12 2022-06-28 西华大学 基于多级属性嵌入和约束典型相关分析的身份链接方法
CN113256555A (zh) * 2021-03-26 2021-08-13 东北大学 一种基于机器学习的外观异常gui控件检测方法
CN113159035B (zh) * 2021-05-10 2022-06-07 北京世纪好未来教育科技有限公司 图像处理方法、装置、设备及存储介质
CN113191357B (zh) * 2021-05-18 2023-01-17 中国石油大学(华东) 基于图注意力网络的多层次图像-文本匹配方法
CN113377990B (zh) * 2021-06-09 2022-06-14 电子科技大学 基于元自步学习的视频/图片-文本跨模态匹配训练方法
CN113763391B (zh) * 2021-09-24 2024-03-19 华中科技大学 一种基于视觉元素关系的智能化图像剪裁方法和系统
CN113627151B (zh) * 2021-10-14 2022-02-22 北京中科闻歌科技股份有限公司 跨模态数据的匹配方法、装置、设备及介质
CN115422949B (zh) * 2022-11-04 2023-01-13 文灵科技(北京)有限公司 一种高保真文本主语义提取系统及方法
CN115825944B (zh) * 2022-12-22 2023-05-16 中国人民解放军军事科学院系统工程研究院 基于外辐射源雷达的单快拍多目标来波方向估计方法
CN116484878B (zh) * 2023-06-21 2023-09-08 国网智能电网研究院有限公司 电力异质数据的语义关联方法、装置、设备及存储介质
CN116611452B (zh) * 2023-07-19 2023-10-24 青岛大学 一种根据自然语言描述推荐api的方法
CN116665228B (zh) * 2023-07-31 2023-10-13 恒生电子股份有限公司 图像处理方法及装置
CN117075778B (zh) * 2023-10-12 2023-12-26 北京智文创想科技有限公司 一种图片文字的信息处理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336969A (zh) * 2013-05-31 2013-10-02 中国科学院自动化研究所 一种基于弱监督学习的图像语义解析方法
CN103679192A (zh) * 2013-09-30 2014-03-26 中国人民解放军理工大学 基于协方差特征的图像场景类型判别方法
CN105701225A (zh) * 2016-01-15 2016-06-22 北京大学 一种基于统一关联超图规约的跨媒体检索方法
US9720934B1 (en) * 2014-03-13 2017-08-01 A9.Com, Inc. Object recognition of feature-sparse or texture-limited subject matter
AU2016256764A1 (en) * 2016-01-13 2017-08-03 Adobe Inc. Semantic natural language vector space for image captioning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336969A (zh) * 2013-05-31 2013-10-02 中国科学院自动化研究所 一种基于弱监督学习的图像语义解析方法
CN103679192A (zh) * 2013-09-30 2014-03-26 中国人民解放军理工大学 基于协方差特征的图像场景类型判别方法
US9720934B1 (en) * 2014-03-13 2017-08-01 A9.Com, Inc. Object recognition of feature-sparse or texture-limited subject matter
AU2016256764A1 (en) * 2016-01-13 2017-08-03 Adobe Inc. Semantic natural language vector space for image captioning
CN105701225A (zh) * 2016-01-15 2016-06-22 北京大学 一种基于统一关联超图规约的跨媒体检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning semantic correlation of web images and text with mixture of local linear mappings;Youtian Du,Kai Yang;《MM "15: Proceedings of the 23rd ACM international conference on Multimedia》;20151031;1259-1262 *
融合异构信息的网络视频在线半监督分类方法;杜友田等;《西安交通大学学报》;20130731;第47卷(第7期);96-101 *

Also Published As

Publication number Publication date
CN108132968A (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
CN108132968B (zh) 网络文本与图像中关联语义基元的弱监督学习方法
Han et al. A unified metric learning-based framework for co-saliency detection
CN105912611B (zh) 一种基于cnn的快速图像检索方法
Jiao et al. SAR images retrieval based on semantic classification and region-based similarity measure for earth observation
Wang et al. Building extraction from remote sensing images using deep residual U-Net
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
dos Santos et al. A relevance feedback method based on genetic programming for classification of remote sensing images
CN108897791B (zh) 一种基于深度卷积特征和语义相似度量的图像检索方法
Feng et al. A color image segmentation method based on region salient color and fuzzy c-means algorithm
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
Xu et al. Weakly supervised deep semantic segmentation using CNN and ELM with semantic candidate regions
US20240037750A1 (en) Generating improved panoptic segmented digital images based on panoptic segmentation neural networks that utilize exemplar unknown object classes
Zhang et al. Boosting cross-media retrieval via visual-auditory feature analysis and relevance feedback
Zhang et al. Saliency detection via local structure propagation
CN113569895A (zh) 图像处理模型训练方法、处理方法、装置、设备及介质
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
Zamiri et al. Image annotation based on multi-view robust spectral clustering
CN109034953B (zh) 一种电影推荐方法
Bouchakwa et al. A review on visual content-based and users’ tags-based image annotation: methods and techniques
Lu et al. A novel multi-graph framework for salient object detection
Dharani et al. Content based image retrieval system using feature classification with modified KNN algorithm
CN109284414A (zh) 基于语义保持的跨模态内容检索方法和系统
Tadepalli et al. Content‐based image retrieval using Gaussian–Hermite moments and firefly and grey wolf optimization
Wei et al. Food image classification and image retrieval based on visual features and machine learning
Wu Application of improved boosting algorithm for art image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant