CN108132968B

CN108132968B - 网络文本与图像中关联语义基元的弱监督学习方法

Info

Publication number: CN108132968B
Application number: CN201711248543.5A
Authority: CN
Inventors: 杜友田; 黄鑫; 崔云博; 王航
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2020-08-04
Anticipated expiration: 2037-12-01
Also published as: CN108132968A

Abstract

一种网络文本与图像中关联语义基元的弱监督学习方法，首先，针对异构模态数据内容进行特征提取与表达，从而分别获得文本、图像两者单独模态下语义基元的特征向量空间；其次，以图像中的每个区域作为结点，以结点之间的多种关系作为边，构建图像‑文本语义信息传播模型；再次，构建图上的学习算法，将图像级别对应的文本语义信息有效地传播到这些图像区域上去，形成大量表征客观世界的语义基本单元集合；本发明针对目前网络中数量居多的文本、图像两种模态的数据进行相关性建模和学习，通过基于图的文本图像关联语义基元学习算法，获得大量在高层语义相匹配的文本‑图像语义基元对，从高层语义上将二者实现关联，在跨媒体检索等领域价值巨大。

Description

网络文本与图像中关联语义基元的弱监督学习方法

技术领域

本发明属于跨媒体检索技术领域，特别涉及一种网络文本与图像中关联语义基元的弱监督学习方法。

背景技术

随着互联网技术的高速发展和多媒体设备的日益普及与应用，网络上的文本、图像、音频、视频等多媒体数据的规模越来越庞大，尤其是近年来，社交网站的快速繁荣发展使得广大互联网用户能够随时随地上传、分享各类数据，这进一步加剧了多媒体数据的爆炸式增长趋势。例如，Flicker图片社交网站2015年用户上传图片达7.28亿张，平均每天约200万张的上传量。同时，异构模态的数据经常混合并存于同一文档中，从不同的角度来描述同一主题内容。例如新浪微博，用户上传的照片与其给出的文本配字很有可能表达了同一语义。

这些趋势给网络信息检索技术带来了许多问题和挑战。一方面，网络异构数据具有“高层语义相关，底层特征异构”的特点，因此，对异构媒体数据的底层特征直接进行相似性度量非常困难；另一方面，用户如今不仅对检索速度和匹配度提出要求，更希望能够通过一次简单的输入操作获取到包含文本、图像、音频、视频等多种媒体在内的返回结果，以便对某一事物形成更加完整的认知。这些问题的不断产生和解决推动了信息检索技术的不断发展。

姚涛等人提出了一种基于映射字典学习的跨模态哈希检索方法(CN107256271A)，该方法的核心是利用映射字典学习分别为图像和文本模态学习一个共享子空间。裴廷睿等人提出一种基于局部敏感哈希算法和神经网络的跨媒体检索方法(CN107103076A)，该方法通过局部敏感哈希算法处理图像数据，利用哈希函数学习处理文本数据，然后对处理后的图像和文档进行编码建立索引，从而实现更加精确的检索。白亮等人提出一种基于类马氏相关性度量的跨媒体检索方法(CN106649715A)，该方法的核心是通过W-CCA算法找到文本和图像的特征数据集的公共最大特征子空间，然后将文本和图像的特征集的数据统一到同一子空间。王文敏等人则提出了两种不同的跨媒体检索方法(CN106202413A、CN106095893A)，这两种方法分别是通过基于逻辑回归的语义匹配方法找到图像、文本这两种异构特征之间的关联以及基于耦合的特征映射、同种媒体内和不同媒体间的关联挖掘来进行跨媒体检索的。

由此可见，检索技术正在逐渐从单一模态的方向朝着跨模态检索的方向发展，从基于文本标注的检索方向朝着基于高层语义的检索方向发展，而实现这一发展目标的基础和关键问题就是要研究解决如何建立异构数据之间的相关关系。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种网络文本与图像中关联语义基元的弱监督学习方法，针对目前网络中数量居多的文本、图像两种模态的数据进行相关性建模和学习，通过基于图的文本图像关联语义基元学习算法，获得大量在高层语义相匹配的文本-图像语义基元对，从高层语义上将二者实现关联，从而在跨媒体检索等领域发挥一定价值。

为了实现上述目的，本发明采用的技术方案是：

一种网络文本与图像中关联语义基元的弱监督学习方法，首先，针对异构模态数据内容进行特征提取与表达，从而分别获得文本、图像两者单独模态下语义基元的特征向量空间；其次，以图像中的每个区域作为节点，以节点之间的多种关系作为边，构建图像-文本语义信息传播模型；再次，构建图上的学习算法，将图像级别对应的文本语义信息有效地传播到这些图像区域上去，形成大量表征客观世界的语义基本单元集合。

本发明采用了如下技术手段来实现的：

首先，针对输入的原始文本数据经过文本分词、过滤停用词、特征选择等通用的文本模态数据预处理流程后，利用向量空间模型(VSM)完成文本到特征向量的映射，实现文本模态的特征表示；针对输入的原始图像经过图像分割、滤波去噪、底层特征提取后，利用视觉词袋模型(BOVW)进行图像特征的量化编码，获得区域块特征矩阵。

其次，将整幅图像映射为一个带权无向图G＝(V,E,W)，其中结点集合V中的每个元素对应于图像中具有典型语义的一个区域，边的集合E对应于区域之间的多种关系，边上的权值W则用来衡量子区域块在视觉特征上的相似性和相关性。

然后，定义需要优化的目标函数，其中包括损失项、结点之间的互斥项、结点之间的平滑项以及稀疏约束；通过投影梯度法来对上述目标函数进行迭代优化，实现图像级别的文本标签到子区域上的有效传播，以获得高层语义相匹配的文本-图像语义基元对。

与现有技术相比，本发明基于互联网上大规模图像数据和文本数据之间的关联性，让计算机自动地学习自主得到描述客观世界的语义基本概念，语义基本概念的生成对于网络内容检索、语义理解、知识表示等应用具有重要作用。

附图说明

图1为本发明基于图的文本图像关联语义基元学习算法框图。

图2为本发明一个简单的图结构示例。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明网络文本与图像中关联语义基元的弱监督学习方法，包括如下步骤：

步骤1：文本数据和图像数据的特征提取与表示。

(1)针对文本数据，首先进行数据预处理，其流程主要包括文本分词、过滤停用词和特征选择。而对于文本数据进行特征表示时，本发明采用向量空间模型(VSM)，将文本数据映射到特征向量空间中。其中，每个特征项的权重由TF-IDF方法表示。

(2)针对图像数据，首先进行数据预处理和特征提取，其流程主要包括图像分割、滤波去噪和底层特征提取。其中，在进行图像分割时，本发明采用Ncut算法将图像分成若干个具有独特性质的区域。该算法将整幅图像映射为一个带权无向图，并把图像分割问题转化为求解极小值的问题。而在进行底层特征提取时，本发明主要提取了图像的颜色、纹理以及SIFT特征。针对颜色特征，通过构建RGB颜色直方图将每个颜色通道细化为32个小区间，故可得到96维的颜色特征向量；针对纹理特征，采用二维Gabor滤波器的方法将整幅图像进行滤波，并对滤波器设置了4个尺度和4个方向，故可得到16维的纹理特征向量；而针对SIFT特征，通过关键点检测、关键点描述、关键点匹配、消除错配点四个步骤实现了对图像的SIFT特征提取。

关于图像数据的特征表示，本发明采用视觉词袋模型(BOVW)。该模型把整幅图像看作一个文档，将图像集合上提取到的特征向量看作文档中的词汇，然后对这些特征向量进行聚类，构成视觉词典，最后统计视觉词典中各词汇的数量，即对视觉词典进行量化编码。其中，上述聚类过程用K-means算法。该算法首先随机选择空间中的k个对象作为初始的聚类中心，对其余的对象则计算它们与各中心的距离并就近归类，然后通过迭代的方式，多次更新聚类中心，直至获取到满意的聚类结果，即同一个簇中的对象相似度高，不同簇中的对象相似度低。

步骤2：基于图的方法对文本-图像中的关联语义基元进行学习

本发明提出了一种基于图的文本图像关联语义基元学习算法，来获得语义一致的文本-图像跨媒体语义基元。算法的输入为上述步骤提取到的特征。之后的学习过程主要分为三步：首先，通过步骤1所介绍的方法对文本和图像分别进行特征的提取与表示，形成异构模态语义基元的特征向量空间；然后，以图像模态语义基元(图像的区域块特征向量)为结点，以结点之间的复合关系为边构建图；最后，通过图上的学习将图像级别的文本标签有效地传播到这些区域上去。最终算法的输出为大量的跨媒体语义基元。整个算法的流程如图1所示。

(1)图的构建

为了便于表述，首先引入一系列公式标记。假设待学习的图像数据集为{I₁,…,I_k,…,I_m}，其中I_k表示第k幅图像，m为图像总数。数据集中相应的图像级语义信息矩阵为

其中c为文本词典的大小，即数据集中出现的不重复标签的个数。

为图像I_k的标签向量，一幅图像通常包含若干个文本标签，如果图像I_k被打上标签i那么

否则为0。

对于每幅原始的输入图像，经过图像分割、滤波去噪后被划分为若干个图像区域块，对每个图像区域进行内容特征提取和表达得到一个d维的特征向量。假设n为数据集中所有区域块的总和，则可以用

表示区域块特征矩阵，X＝[x₁,…,x_i,…x_n]，该矩阵中的每一列为一个图像子区域的视觉特征向量。类似于完整图像数据集的表示，这里用

表示相应的区域级语义信息矩阵，该矩阵中的数据是未知的，有待通过算法学习预测。

图2为一个简单的图结构示例，同一个虚线圈中的节点代表来源于同一幅图像的子区域，节点之间的细实线代表视觉上的相似度，粗实线代表因共存而产生的相关性。

(2)图上语义信息的相关性建模

本发明的目标是输出在高层语义上具有一致性的图像区域和文本标签，也就是说需要实现将一幅图像上原始的多个标签按照语义的相关性分配给相应的子区域。为了实现上述图像的语义信息传播，主要考虑从以下三个方面对结点信息进行约束。

第一，语义信息损失小，即一幅图像中各区域估计出来的语义信息总和应与整幅图像原始的对应文本信息尽可能接近，对应的函数约束项称之为损失项。可以想象，如果一幅图像的文本标签是较为准确和完整的，那么它应该是其子区域标签的组合，这样一来，虽然原图像的标签信息不能直接赋给其子区域，但却提供了一个已经相对优良的标签候选集，以弱监督的方式实现了语义信息的约束。

从特征空间的角度来讲，来自同一幅图像的子区域因为具有共存性，它们在图像特征空间中对应的点具有一种近邻关系，因此每幅图像都可以看作是由若干个子区域线性组合而成；类似地，这幅图像原本的文本标签也因为共同描述了该图而具有一种上下文关系，它们在文本特征空间中对应的点也应该相互比较临近，每幅图的文本文档可以看作是由若干个单个词汇的线性组合。期望来自同一幅图的子区域能被赋予具有上下文相关性的文本，也就是说，文本空间与图像空间的局部线性结构应尽量保持一致。假设第i幅图经过分割预处理得到k个子区域，本发明通过最小化如下的损失函数实现这一目标：

式中：

是一个常系数矩阵，包含图像空间的邻域信息，若子区域x_j属于图像I_i，那么m_ij＝1，否则m_ij＝0；子区域x_j待预测的语义特征向量为y_j。

第二，每幅图像种的各个区域对应的语义信息具有互斥性，即一幅图像中各区域块的语义信息应尽量覆盖原文档、避免集中重复，对应函数约束项称为互斥项。也就是在文本特征空间中，期望同一邻域中的点信息应尽量分散。因此，本发明通过给这些子区域语义信息的相似性加以惩罚来实现此项约束。当且仅当子区域x_i和x_j属于同一幅图像时，计算其相应的语义特征向量之间的相似度y_i ^Ty_j并加以惩罚，使得当y_i某一维分量数值增大时，y_j在该分量上的数值有减小的趋势。在整个数据集上，最小化下式：

式中：i～j表示y_i和y_j对应的子区域来自于同一幅图像，即它们在特征空间中属于同一邻域:

为一常系数矩阵，约束仅对具有邻域关系的点进行相似度计算，若y_i和y_j有邻域关系，那么c_ij＝1，否则c_ij＝0。

第三，区域块语义信息在图上光滑，即视觉特征相似的区域其语义信息也应相似，对应函数约束项称为平滑项。通过前述的损失项和互斥项，约束了图像级别的标签信息较为均匀地传播给它的子区域，但如何将相应的标签信息传递给语义一致的子区域却无从约束。因此这两项仅限于一幅图像内部的语义信息关系，反映的是图上的局部信息，而本发明的第三种约束——平滑项则跨越了多幅图像，能反映图上的全局信息。

图上的数据点可以看作是高维数据流形中的采样，根据流形学习中的聚类假设，图上的分类函数应尽可能光滑。对于本发明所构建的图，即文本作为图像的标签应尽量光滑，也就是说越相似的样本越可能具有相同的语义标签。为实现这一约束，先计算视觉特征相似的k近邻，如果子区域x_i和x_j相似度足够高，那么数据点x_i和x_j之间存在一条边e_ij，边上的权值为：

式中：σ是一个和数据集相关的尺度因子；若x_i和x_j之间不存在边，那么w_ij＝0，从而得到数据图的权矩阵

然后最小化下式：

式中：L＝D-W为图上的拉普拉斯算子；

是该图的度数矩阵，它是一个对角矩阵，对角线上第i个元素是W矩阵第i行所有元素的和，即D_ii＝∑_jW_ij。

可以看出，如果子区域x_i和x_j相似度足够高，数据点x_i和x_j距离够近时，那么它们之间边的权值w_ij会比较大，当约束

的值在一个较小的范围内时，||y_i-y_j||²的值则会相应减小，即两个子区域的语义信息会逐渐接近，从而实现了图上语义信息的平滑。

另外，从计算效率的角度考虑，带预测的区域级语义信息矩阵

可能会比较稠密，矩阵中的大多数元素都是非零的，当图像数据集规模较大时计算效率就会比较低。同时，希望每个区域能仅被标注上几个可能的语义标签。因此，可以给语义信息矩阵Y引入L₁范数正则化(L₁regularization)来使矩阵稀疏化，对应函数约束项称为稀疏项：

因为矩阵Y中的元素表示了某个区域与某个文本在语义上具有相关性的概率，概率值非负，因此约束Y≥0。

将上述的损失项、互斥项、平滑项以及稀疏约束综合考虑，便得到了如下计算区域语义信息矩阵Y的目标函数：

式中：α,λ,η>0是平衡参数，参数的数值大小决定了三个函数约束项之间的权衡，进而影响算法的预测性能，参数值的大小可根据实际要求进行调整。

(3)图上语义信息模型的优化求解

上节最后给出了图上学习的目标函数J(Y)，这是一个带约束的优化问题，本发明通过投影梯度法(Projected Gradient Method)来对目标函数进行优化。该方法从一个基本可行解出发，由约束条件确定出凸约束集边界上梯度的投影，在每次更新搜索方向和步长后，都要检验解的可行性，若不满足约束条件则需要将当前解投影到可行域内，不断迭代直至结果满足精度要求为止。

针对该目标函数，先推导求其梯度函数，其中前三项都是可导的：

最后一个稀疏项为L1范数不可微，但是存在次梯度，即是次微分的，因此稀疏项的次梯度如下：

式中sign(Y)的定义为：

最终目标函数完整的梯度函数为：

式中：符号

代表sign(Y)。

假设当前的迭代次数为t，此时的搜索步长为s_t，则当前解Y_t的更新规则如下：

其中：P是投影算子，其一般定义为：

本算法中投影算子的定义为：

区域级语义信息矩阵Y初始化时，将属于同一幅图像的子区域初始语义信息都设置为：所属图像的语义信息与图像中包含子区域个数的比值。因此，初始时损失函数项的数值为零。

通过上述的迭代过程，在每次迭代结束后进行解的合理性检验，将解约束在可行范围内，并对变量根据问题需要进行min-max标准化处理，实现了本发明目标函数的优化。

最终，通过以上学习过程，能够得到由

所表示的相应的区域级语义信息矩阵，形成描述客观世界的视觉基本语义概念。

Claims

1.网络文本与图像中关联语义基元的弱监督学习方法，其特征在于，包括如下步骤：

步骤1，针对异构模态数据内容进行特征提取与表达，从而分别获得文本、图像两者单独模态下语义基元的特征向量空间；

步骤2，以图像中的每个区域作为结点，以结点之间的多种关系作为边，构建图像-文本语义信息传播模型；其中，将整幅图像映射为一个带权无向图G＝(V,E,W)，即所述图像-文本语义信息传播模型，结点集合V中的每个元素对应于图像中具有典型语义的一个区域，边的集合E对应于区域之间的多种关系，边上的权值W则用来衡量子区域块在视觉特征上的相似性和相关性；

步骤3，构建图上的学习算法，将图像级别对应的文本语义信息有效地传播到这些图像区域上去，形成大量表征客观世界的语义基本单元集合，其中图上的学习算法流程为：定义需要优化的目标函数，其中包括损失项、结点之间的互斥项、结点之间的平滑项以及稀疏约束；通过投影梯度法对所述目标函数进行迭代优化，实现图像级别的文本标签到子区域上的有效传播，以获得高层语义相匹配的文本-图像语义基元对；

待学习的图像数据集为{I₁,…,I_k,…,I_m}，其中I_k表示第k幅图像，m为图像总数，数据集中相应的图像级语义信息矩阵为

其中c为文本词典的大小，即数据集中出现的不重复标签的个数，

为图像I_k的标签向量，一幅图像包含若干个文本标签，如果图像I_k被打上标签i那么

否则为0；对于每幅原始的输入图像，经过图像分割、滤波去噪后被划分为若干个图像区域块，对每个图像区域进行内容特征提取和表达得到一个d维的特征向量，假设n为数据集中所有区域块的总和，则用

表示区域块特征矩阵，X＝[x₁,…,x_i,…x_n]，该矩阵中的每一列为一个图像子区域的视觉特征向量，用

表示相应的区域级语义信息矩阵，该矩阵中的数据是未知的，有待通过算法学习预测；

所述图像-文本语义信息传播模型表示为如下计算区域语义信息矩阵Y的目标函数：

s.t Y≥0

式中：α,λ,η>0是平衡参数，其中，α对应损失项，λ对应互斥项，η对应平滑项，而参数的数值大小则决定了三个函数约束项之间的权衡，进而影响算法的预测性能；

损失项定义：语义信息损失小，即一幅图像中各区域估计出来的语义信息总和应与整幅图像原始的对应文本信息尽可能接近，对应的函数约束项称为损失项，假设第i幅图经过分割预处理得到k个子区域，则通过最小化如下的损失函数实现这一目标：

式中：

是一个常系数矩阵，包含图像空间的邻域信息，若子区域x_j属于图像I_i，那么m_ij＝1，否则m_ij＝0；子区域x_j待预测的语义特征向量为y_j；

互斥项定义：每幅图像种的各个区域对应的语义信息具有互斥性，即一幅图像中各区域块的语义信息应尽量覆盖原文档、避免集中重复，对应函数约束项称为互斥项，当且仅当子区域x_i和x_j属于同一幅图像时，计算其相应的语义特征向量之间的相似度y_i ^Ty_j并加以惩罚，使得当y_i某一维分量数值增大时，y_j在该分量上的数值有减小的趋势，在整个数据集上，最小化下式：

为一常系数矩阵，约束仅对具有邻域关系的点进行相似度计算，若y_i和y_j有邻域关系，那么c_ij＝1，否则c_ij＝0；

平滑项定义：区域块语义信息在图上光滑，即视觉特征相似的区域其语义信息也应相似，对应函数约束项称为平滑项；最小化下式：

式中：L＝D-W为图上的拉普拉斯算子；

是该图的度数矩阵，它是一个对角矩阵，对角线上第i个元素是W矩阵第i行所有元素的和，即D_ii＝∑_jW_ij，如果子区域x_i和x_j相似度足够高，那么数据点x_i和x_j之间存在一条边e_ij，w_ij为边上的权值

σ是一个和数据集相关的尺度因子；若x_i和x_j之间不存在边，那么w_ij＝0，从而得到数据图的权矩阵

‖Y‖₁表示稀疏项，指给语义信息矩阵Y引入L₁范数正则化(L₁regularization)来使矩阵稀疏化；

所述目标函数J(Y)是一个带约束的优化问题，通过投影梯度法(Projected GradientMethod)对其进行优化，先从一个基本可行解出发，由约束条件确定出凸约束集边界上梯度的投影，在每次更新搜索方向和步长后，都要检验解的可行性，若不满足约束条件则需要将当前解投影到可行域内，不断迭代直至结果满足精度要求为止，最终目标函数完整的梯度函数为：

s.t Y≥0

式中：符号

代表sign(Y)；

其中：P是投影算子，其定义为：

区域级语义信息矩阵Y初始化时，将属于同一幅图像的子区域初始语义信息都设置为：所属图像的语义信息与图像中包含子区域个数的比值，因此，初始时损失函数项的数值为零。

2.根据权利要求1所述网络文本与图像中关联语义基元的弱监督学习方法，其特征在于，所述步骤1中，对原始文本数据进行文本模态数据预处理后，利用向量空间模型(VSM)完成文本到特征向量的映射，实现文本模态的特征表示；对原始图像进行数据预处理和特征提取，然后利用视觉词袋模型(BOVW)进行图像特征的量化编码，获得区域块特征矩阵。

3.根据权利要求2所述网络文本与图像中关联语义基元的弱监督学习方法，其特征在于，所述步骤1中，所述文本模态数据预处理包括文本分词、过滤停用词以及特征选择，文本模态的特征表示中，每个特征项的权重由TF-IDF方法表示；所述原始图像进行数据预处理和特征提取的流程主要包括图像分割、滤波去噪和底层特征提取；所述视觉词袋模型(BOVW)是把整幅图像看作一个文档，将图像集合上提取到的特征向量看作文档中的词汇，然后对这些特征向量进行聚类，构成视觉词典，最后统计视觉词典中各词汇的数量，即对视觉词典进行量化编码。

4.根据权利要求3所述网络文本与图像中关联语义基元的弱监督学习方法，其特征在于，所述图像分割是采用Ncut算法将图像分成若干个具有独特性质的区域，该算法将整幅图像映射为一个带权无向图，并把图像分割问题转化为求解极小值的问题；所述底层特征提取的对象为图像的颜色、纹理以及SIFT特征，针对颜色特征，通过构建RGB颜色直方图将每个颜色通道细化为32个小区间，得到96维的颜色特征向量；针对纹理特征，采用二维Gabor滤波器的方法将整幅图像进行滤波，并对滤波器设置4个尺度和4个方向，得到16维的纹理特征向量；针对SIFT特征，通过关键点检测、关键点描述、关键点匹配、消除错配点四个步骤实现对图像的SIFT特征提取；所述聚类过程用K-means算法，首先随机选择空间中的k个对象作为初始的聚类中心，对其余的对象则计算它们与各中心的距离并就近归类，然后通过迭代的方式，多次更新聚类中心，直至获取到满意的聚类结果，即同一个簇中的对象相似度高，不同簇中的对象相似度低。

5.根据权利要求1所述网络文本与图像中关联语义基元的弱监督学习方法，其特征在于，通过所述迭代过程，在每次迭代结束后进行解的合理性检验，将解约束在可行范围内，并对变量根据问题需要进行min-max标准化处理，实现了目标函数的优化；最终，通过所述学习过程，得到由