CN105930873A

CN105930873A - 一种基于子空间的自步跨模态匹配方法

Info

Publication number: CN105930873A
Application number: CN201610274436.9A
Authority: CN
Inventors: 赫然; 孙哲南; 李志航; 梁坚; 曹冬
Original assignee: Tianjin Zhongke Intelligent Identification Industry Technology Research Institute Co Ltd
Current assignee: Tianjin Zhongke Intelligent Identification Co ltd
Priority date: 2016-04-27
Filing date: 2016-04-27
Publication date: 2016-09-07
Anticipated expiration: 2036-04-27
Also published as: CN105930873B

Abstract

本发明公开一种基于子空间的自步跨模态匹配方法。该方法通过提取数据集中不同模态数据的特征向量；利用子空间自步学习得到训练集中与不同模态对应的不同映射矩阵，利用该映射矩阵将测试集中数据样本的不同模态类别映射到同一空间，使训练集与测试集的数据映射到统一空间，然后度量测试集中的查询数据和目标数据间的相似度从而得到跨模态匹配的结果。本发明可将不同模态的数据映射到统一空间度量，且在映射同时进行样本选择和特征学习，提高了匹配的鲁棒性和准确性。

Description

一种基于子空间的自步跨模态匹配方法

技术领域

本发明涉及模式识别技术领域，尤其是一种基于子空间的自步跨模态匹配方法。

背景技术

现实中的数据往往具有多种模态。比如网页数据既包含图片信息，又包含文本信息；视频数据同时包含音频信息和图片信息。跨模态匹配的根本任务是以一种模态作为查询条件，匹配出与之相似的异质模态信息。传统跨模态匹配方法大多是监督学习方法，它们都是通过语义标签来减少异质模态之间的鸿沟，但是无法处理无标签信息，人工标记数据又是一个费时费力的工作。此外，有些无监督的方法没有考虑特征的判定性和相关性和样本间的语义相似性，无法满足人们的日常需求。因此亟需一种高效的无监督跨模态匹配方法。

发明内容

本发明目的在于解决上述技术问题而提供一种基于子空间的无监督自步跨模态匹配方法，能有效地跨越不同模态媒体之间的语义鸿沟，进而使得跨媒体搜索引擎返回的结果更加准确。

本发明是这样实现的，一种基于子空间的自步跨模态匹配方法，包括步骤：

S1，收集不同模态的数据样本建立跨模态数据库，并将所述跨模态数据库分为训练集和测试集；

S2，提取所述跨模态数据库中不同模态数据样本的特征向量；

S3，基于所述训练集中不同模态数据的特征向量，得到与所述不同模态分别对应的映射矩阵；

S4，利用所述映射矩阵将所述测试集中数据样本的模态类别映射到同一空间；

S5，将映射到同一空间的测试集中同一模态类别的数据作为查询集，另一模态类别的数据作为目标集；

S6，通过度量数据间的相似度，在所述目标集中查询与所述查询集中的一个数据样本相匹配的数据，从而得到跨模态匹配的结果。

根据本发明的方法，可以将不同模态的多媒体数据映射入统一空间进行度量，且在映射的同时进行了样本选择与特征学习，从而提高了检索的鲁棒性和准确性，具有良好的运用前景。

附图说明

图1是本发明提供的基于子空间的自步跨模态匹配方法的流程图；

图2是在图像和文本两个模态下子空间匹配的具体模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明通过学习两个映射矩阵，将不同模态的数据映射到同一个子空间中去，并在映射的同时进行样本选择和特征学习，并使用多模态图约束保持数据模态内和模态间的相似性；在学习到的子空间中度量不同模态的数据的相似性，以此来实现跨模态匹配。

参见图1所示，一种基于子空间的自步跨模态匹配方法，包括以下步骤：

步骤S1，收集不同模态的数据样本，建立跨模态数据库，并将所述跨模态数据库分为训练集和测试集；

需要说明的是，本发明中所述不同模态可以为文本、图像等模态。

为了便于说明，下面以文本和图像两个模态的数据为例进行解释本发明。

具体的，将所述跨模态数据库分为训练集和测试集时，可根据实际需要进行划分，如可将所述跨模态数据库中的80％的数据划分为训练集，剩下的20％的数据划分为测试集，形成训练样本库与测试样本库。

步骤S2，提取所述跨模态数据库中不同模态数据样本的特征向量，形成相应的不同模态数据特征库；

本步骤中，不但要提取训练集的训练样本库中不同模态数据样本的特征向量，也要提取测试集的测试样本库中不同模态数据样本的特征向量，从而形成训练集与测试集的文本特征库与图片特征库；

本发明中，对于文本数据库中的文本模态数据样本和图像数据库的图像模态数据样本，可分别使用LDA算法与SIFT算法进行特征提取；

LDA算法即隐狄雷克雷分布(Latent Dirichlet Allocation,LDA)算法，SIFT算法即尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)算法。

步骤S3，基于所述训练集中提取的不同模态数据的特征向量，通过子空间自步学习(即通过建立目标函数并通过迭代算法求解目标函数)，得到与所述不同模态分别对应的特征映射矩阵；

对步骤S3详细介绍前，先介绍矩阵运算符：对于矩阵第i行和第j列分别为m_i和m^j，M_i,j是矩阵的第i行和第j列元素。矩阵M的Frobenius范数为矩阵M的迹为Tr(M)＝Σ_iM_i,i。

假设有图片和文本两个特征集，其中d_i是第i个模态的维度，n是训练图像-文本对的数目。每一对图像-文本对具有相同的隐含内容，且属于相同类别，即硬配对约束，但每个图像-文本对的离散标签是未知的。

所述步骤S3包括以下步骤：

步骤S31，基于所述训练集中不同模态数据的特征向量建立目标函数：

\min_{U {a, b}, v, Y} \underset{p &Element; {a, b}}{Σ} | | (U_{p}^{T} X_{p} - Y) d i a g (v) | |_{F}^{2} + α \underset{p, q &Element; {a, b}}{Σ} T r (U_{p}^{T} X_{p} L_{p q} X_{q}^{T} U_{q}) + β \underset{p &Element; {a, b}}{Σ} | | U_{p} | |_{F}^{2} - \frac{1}{k} \underset{i}{Σ} v_{i}

\begin{matrix} s . t . & Y &Element; {0, 1}^{c \times n}, Σ_{i = 1}^{c} Y_{i, j} = 1, &ForAll; j &Element; [1, n] . \end{matrix}

其中，α和β为权重参数，取值范围为10^-6～10²；

其中，a,b分别代表两种模态,p,q的取值分别为a,b两种模态中的一种，U_p是p模态对应的映射矩阵，U_p ^T是矩阵U_p的转置，X_p是p模态数据特征，U_q是q模态对应的映射矩阵，X_q是q模态数据特征，X_q ^T是矩阵X_q的转置，Y是聚类标记，代表损失项权重，v_i是向量v的第i个元素，k为常量，代表自步学习的学习率，α和β为权重参数，||·||_F为求取F-范数操作，Tr(·)是矩阵的迹，L_pq是模态p和模态q的拉普拉斯矩阵，c,n分别为矩阵Y的行数和列数，Y_i,j是矩阵Y的第i行、第j列的元素。

步骤S32，求解所述目标函数(如通过迭代算法)得到与所述不同模态分别对应的特征映射矩阵：

所述步骤S32进一步包括以下步骤：

步骤S321，使用k均值算法对文本特征聚类以初始化聚类标记Y，然后计算多模态图约束拉普拉斯矩阵L，设置映射矩阵U_p,p∈{a,b}的初始值为单位矩阵，设置最大迭代次数N，迭代次数的初始值为1；

使用k均值算法对文本特征聚类以初始化聚类标记Y，是指先对文本特征聚类，然后将文本特征聚类结果作为聚类标记Y的初始值；

多模态图由两部分组成：一是不同模态样本特征之间的相似性；二是同一模态内不同样本特征之间的相似性。前者相似性的计算是根据聚类标签Y得到；后者是通过计算高斯核函数得到。

步骤S322，计算每个样本的经验损失，将其与阈值k比较，得出损失项权重v_i；

v_{i} = \{\begin{matrix} 1 & i f & l_{i} \leq \frac{1}{k} \\ 0 & i f & l_{i} &GreaterEqual; \frac{1}{k} \end{matrix},

其中，是第i个样本的损失函数。

步骤S323，通过求解下式中的线性问题来求得映射矩阵U_p：

\begin{matrix} (X_{p} {VV}^{T} X_{p}^{T} + {αX}_{p} L_{p p} X_{p}^{T} + β I) U_{p} \\ = X_{p} {VV}^{T} Y^{T} - {αX}_{p} L_{p q} X_{q}^{T} U_{q} \end{matrix},

其中，Y∈{0,1}^c×n为类别标签矩阵，n为特征向量的个数，c为模态类别的个数，I为单位矩阵，V＝diag(v)，代表损失项的权重，V^T是矩阵V的转置；

步骤S324，一列一列地优化Y，即优化Y的其中一列时，固定其它所有列，一次学习Y的一列。求解Y的目标函数等价于：

\begin{matrix} \min_{Y} T r (V^{T} V^{T} Y V) + α T r ({EY}^{T} {YF}^{T}) \\ - T r ({GY}^{T}) - T r ({HY}^{T}) \\ \begin{matrix} s . t . & Y &Element; {0, 1}^{c \times n}, Σ_{i}^{c} Y_{i, j} = 1, &ForAll; j &Element; [1, n] . \end{matrix} \end{matrix},

其中通过计算，将上式转化为：

\begin{matrix} \underset{y}{m i n} y^{T} (2 {YV}^{T} &upsi; + {αYF}^{T} e + {αYE}^{T} f - g - h) \\ \begin{matrix} s . t . & y &Element; {1, 0}^{c \times 1}, Σ_{i}^{c} y_{i} = 1 \end{matrix} \end{matrix},

其中，υ是矩阵V的第i列，V是矩阵V移出第i列后得到的矩阵；e是矩阵E的第i列，E是矩阵E移出第i列后得到的矩阵；f是矩阵F的第i列，F是矩阵F移出第i列后得到的矩阵；g是矩阵G的第i列，G是矩阵G移出第i列后得到的矩阵；h是矩阵H的第i列，H是矩阵H移出第i列后得到的矩阵。以上对y的优化使用如下公式解决：

y_{i} = \{\begin{matrix} 1 & i = h (m) \\ 0 & o t h e r w i s e \end{matrix},

其中m＝2YV^Tυ+αYE^Te+αYE^Tf-g-h，h(m)返回m中最大值的索引。经过2～3内部迭代，可以获得完整的Y。

步骤S325，W为多模态图的相似性矩阵，通过下式计算W：

W = [\begin{matrix} {γW}^{a} & W^{a b} \\ W^{b a} & {γW}^{b} \end{matrix}],

其中，γ为模态间的相似性矩阵与同一模态内的局部相似性的权重参数，取γ＝1，W^ab＝W^ba＝Y^TY是模态间的相似性矩阵，W^a和W^b为同一模态内的局部相似性，采用高斯核函数度量局部相似性：

W_{i j}^{p} = \{\begin{matrix} d (x_{i}^{p}, x_{p}^{j}) & \begin{matrix} i f & x_{p}^{i} &Element; N_{r} (x_{p}^{j}) o r x_{p}^{j} &Element; N_{r} (x_{p}^{i}), \end{matrix} \\ 0 & o t h e r w i s e \end{matrix},

其中N_r(·)是最邻近的r个样本的集合。

步骤S326，判断此时的迭代次数是否小于最大迭代次数N，若是则转向步骤S322继续迭代；若否则停止迭代，得到所述映射矩阵U_a和U_b。

步骤S4，将所述测试集中多模态数据样本的模态类别，利用步骤S3得到的特征映射矩阵映射到同一子空间；

步骤S5，将映射到同一子空间后的测试集中同一模态类别的数据作为查询集，另一模态类别的数据作为目标集；

步骤S6，对于所述查询集中的一个数据样本，通过度量数据间的相似度，得到所述目标集中与查询集中的一个数据样本相匹配的数据，从而得到跨模态匹配结果。

本发明中，所述数据之间的相似度可以使用余弦距离来度量，对于余弦距离来说，距离越近说明这两个数据越相似。

附图2中，图片提取SIFT特征后形成相应的方框图，文本提取LDA特征后形成相应的柱状图，在图片提取SIFT特征之后形成的特征空间中，方块代表每个图片的SIFT特征在图像特征空间下的点，虚线圈表示圈中的这些方块点属于同一个聚类标记。文本提取LDA特征之后的文本特征空间中，虚线圈中的圆圈代表每个文本的LDA特征在特征空间下的点。虚线圈是表示圈中的这些点属于同一个聚类标记，语义组带箭头虚线表示指向的图像特征空间与文本特征空间中分别属于同一个聚类标记的对应的特征点对应具有相同的聚类标签，配对带箭头实线表示分别属于同一个聚类标记的对应形成的图像-文本数据对，在图片特征空间和文本特征空间投影后的公共子间中，通过自步学习选出来训练的样本对，形成自步学习对。

为了验证本发明方法的有效性，接下来将本发明方法应用于Wiki多模态数据库。该数据库中包含10个语义范畴的多模态数据，包括2866对相同语义信息的文本和图像，随机选取其中1300对文本和图像样本作为训练集，选取其中1566对文本和图像样本作为测试集，应用本发明方法的步骤如下：参见图2所示；

1)对于所述数据库中的数据，根据模态类别的不同提取不同的特征向量：对于文本模态提取10维LDA语义特征，对于图像模态提取128维SIFT特征；

2)将所述训练集中文本模态特征矩阵和图像模态特征矩阵，构造目标函数，通过最小化目标函数学习得到文本和图像对应的两个映射矩阵，所述映射矩阵的学习过程通过迭代过程实现；

3)根据所述模态类别的不同，将测试集中的文本数据的特征向量和图像数据的特征向量通过学习得到的映射矩阵映射到同一子空间中；

4)将测试集中的文本数据作为查询集，图像数据作为目标集，在查询集中给定一个文本文档，能够得到目标集中和文本文档最相似(即余弦距离最近)的图像。

综上，本发明提出的基于子空间的自步跨模态匹配方法，能有效地跨越了不同模态数据之间的语义鸿沟，与传统跨模态方法比较，易于实现、性能稳定，识别准确率高。另外，本方法用自步学习框架，即按简单到复杂的顺序选择样本进行学习(简单和复杂的定义根据每个样本的经验损失确定)，避免目标函数陷入局部极小值，提高聚类精度；同时使用多模态图约束，保持数据映射前后结构的相似性，挖掘出一个判别的隐空间，从而实现跨模态匹配。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于子空间的自步跨模态匹配方法，其特征在于，包括步骤：

S3，基于所述训练集中不同模态数据的特征向量建立目标函数并求解目标函数，得到与所述不同模态分别对应的映射矩阵；

S6，通过度量数据间的相似度在所述目标集中查询与所述查询集中的一个数据样本相匹配的数据，从而得到跨模态匹配的结果。

2.根据权利要求1所述方法，其特征在于，所述不同模态为双模态。

3.根据权利要求2所述方法，其特征在于，所述双模态为文本和图像。

4.根据权利要求3所述方法，其特征在于，对于文本模态数据样本提取隐狄雷克雷分布特征向量；对于图像多媒体数据样本提取尺度不变特征变换特征向量。

5.根据权利要求1所述方法，其特征在于，步骤S3包括以下步骤：

S31，基于所述训练集中不同模态数据的特征向量建立目标函数；

S32，使用迭代算法求解所述目标函数，得到与所述不同模态分别对应的映射矩阵；

所述目标函数为：

\begin{matrix} \min_{U {a, b}, v, Y} \underset{p &Element; {a, b}}{Σ} | | (U_{p}^{T} X_{p} - Y) d i a g (v) | |_{F}^{2} + α \underset{p, q &Element; {a, b}}{Σ} T r (U_{p}^{T} X_{p} L_{p q} X_{q}^{T} U_{q}) + β \underset{p &Element; {a, b}}{Σ} | | U_{p} | |_{F}^{2} - \frac{1}{k} \underset{i}{Σ} v_{i} \\ \begin{matrix} s . t . & Y &Element; {0, 1}^{c \times n}, Σ_{i = 1}^{c} Y_{i, j} = 1, &ForAll; j &Element; [1, n] . \end{matrix} \end{matrix}

6.根据权利要求7所述方法，其特征在于，步骤S32包括步骤：

S321，使用k均值算法对文本特征聚类以初始化聚类标记Y，然后创建多模态图，多模态图是由不同模态数据特征之间的语义聚类标记和同一模态中数据特征之间的相似性构建；再计算多模态图约束拉普拉斯矩阵L,设置映射矩阵U_p,p∈{a,b}初始值都为单位矩阵，设置最大迭代次数N，迭代次数的初始值为1；

S322，计算每个样本的经验损失并与阈值k比较，得出每个样本的损失项权重v_i；

其中，是第i个样本的损失函数；

S323，通过求解下式中的线性问题求得映射矩阵U_p：

\begin{matrix} (X_{p} {VV}^{T} X_{p}^{T} + {αX}_{p} L_{p p} X_{p}^{T} + β I) U_{p} \\ = X_{p} {VV}^{T} Y^{T} - {αX}_{p} L_{p q} X_{q}^{T} U_{q} \end{matrix},

S324，一列一列地优化聚类标记Y，即优化聚类标记Y其中一列时，固定其它所有列，一次学习Y的一列，求解Y的目标函数等价于：

\begin{matrix} \min_{Y} T r (V^{T} V^{T} Y V) + α T r ({EY}^{T} {YF}^{T}) \\ - T r ({GY}^{T}) - T r ({HY}^{T}) \\ \begin{matrix} s . t . & Y &Element; {0, 1}^{c \times n}, Σ_{i}^{c} Y_{i, j} = 1, &ForAll; j &Element; [1, n] . \end{matrix} \end{matrix},

其中通过计算，将上式转化为：

\begin{matrix} \underset{y}{m i n} y^{T} (2 {YV}^{T} &upsi; + {αYF}^{T} e + {αYE}^{T} f - g - h) \\ \begin{matrix} s . t . & y &Element; {1, 0}^{c \times 1}, Σ_{i}^{c} y_{i} = 1 \end{matrix} \end{matrix},

其中，υ是矩阵V的第i列，V是矩阵V移除第i列后得到的矩阵；e是矩阵E的第i列，E是矩阵E移除第i列后得到的矩阵；f是矩阵F的第i列，F是矩阵F移除第i列后得到的矩阵；g是矩阵G的第i列，G是矩阵G移除第i列后得到的矩阵；h是矩阵H的第i列，H是矩阵H移除第i列后得到的矩阵，以上对y的优化使用如下公式解决：

y_{i} = \{\begin{matrix} 1 & i = h (m) \\ 0 & o t h e r w i s e \end{matrix},

其中m＝2YV^Tυ+αYE^Te+αYE^Tf-g-h，h(m)返回m中最大值的索引，经过2～3内部迭代，可以获得完整的Y；

S325，W为多模态图的相似性矩阵，通过下式计算W：

W = [\begin{matrix} {γW}^{a} & W^{a b} \\ W^{b a} & {γW}^{b} \end{matrix}],

W_{i j}^{p} = \{\begin{matrix} d (x_{i}^{p}, x_{p}^{j}) & \begin{matrix} i f & x_{p}^{i} &Element; N_{r} (x_{p}^{j}) o r x_{p}^{j} &Element; N_{r} (x_{p}^{i}), \end{matrix} \\ 0 & o t h e r w i s e \end{matrix},

其中N_r(·)是最邻近的r个样本的集合；

S326，判断此时的迭代次数是否小于最大迭代次数N，若是则转向S322继续迭代；若否则停止迭代，得到所述映射矩阵U_a和U_b。

7.根据权利要求1所述方法，其特征在于，度量数据样本之间的相似度使用余弦距离来度量。