CN109213853A

CN109213853A - 一种基于cca算法的中文社区问答跨模态检索方法

Info

Publication number: CN109213853A
Application number: CN201810935656.0A
Authority: CN
Inventors: 苏磊; 刘浠
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-16
Filing date: 2018-08-16
Publication date: 2019-01-15
Anticipated expiration: 2038-08-16
Also published as: CN109213853B

Abstract

本发明公开了一种基于CCA算法的中文社区问答跨模态检索方法，首先从中文社区的问答对中提取数据集，数据集中包括文本数据和图像数据，然后分别采用LDA主题模型提取文本数据的特征向量、采用卷积神经网络特征提取方法和K‑means聚类方法提取图像数据的特征向量，分别得到文本数据的特征向量集X和图像数据的特征向量集Y，用CCA算法将X和Y映射到同一个特征空间，然后计算文本和图像的相似度，构建图像和文本跨模态检索模型，利用跨模态检索模型进行跨模态检索，实现图文交叉检索，本发明能够为提问者的问题匹配到更合理的答案，提高了问答系统中问题检索答案的性能以及准确性。

Description

一种基于CCA算法的中文社区问答跨模态检索方法

技术领域

本发明涉及一种基于CCA算法的中文社区问答跨模态检索方法，属于信息检索技术领域。

背景技术

随着中文问答社区的发展，如知乎、百度知道等中文问答社区网站每天发布有数以万计的问题，问答社区的搜索引擎一般返回给用户一系列的相关问题推荐。推荐的问题也是以前用户提出过并已得到回答而组成的问答对。但问答对数目庞大，答案中可能含有文字、图片、音视频等多模态数据。如何为提问者的问题匹配到更合理的答案，是中文社区问答平台需要解决的关键问题。近年来在中文问答系统中关于提问问题和问答对相关性的研究主要是基于统计方法或机器学习方法来进行的，多是对答案中的词对齐、词匹配、主题特征及词向量特征等来完成答案选择，大多数是对文本特征进行的研究，忽略了回答中对其他模态数据的分析。综合回答中文字和图片等跨模态信息的研究，有利于为提问者匹配到更合理的答案，解决跨模态信息检索问题。

发明内容

本发明的目的在于提供一种基于CCA算法的中文社区问答跨模态检索方法，用于解决现有社区问答答案质量层次不齐和跨模态信息检索的问题，为用户匹配到更合理的答案。

本发明的技术方案是：一种基于CCA算法的中文社区问答跨模态检索方法，其特征在于，具体步骤如下：

(1)从中文社区的问答对中提取数据集，数据集中包括文本数据和图像数据，然后分别采用LDA主题模型提取文本数据的特征向量、采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量，分别得到文本数据的特征向量集X和图像数据的特征向量集Y；

(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间，然后计算文本和图像的相似度，构建图像和文本跨模态检索模型。

(3)利用步骤(2)得到的跨模态检索模型进行跨模态检索，实现图文交叉检索。

所述步骤(1)采用LDA主题模型提取文本数据的特征向量，具体步骤如下：

Stepl：将数据集中文本数据进行预处理，预处理包括分词、去除停用词、词干提取；

Step2：将预处理后的所有文本数据即问答对中的单词作为行，文本问答对中各单词出现的频率作为列，构建文本词频矩阵；

Step3：将步骤(2)的文本词频矩阵转化为一个向量列表，该列表包括单词以及单词出现的频率；

Step4：利用LDA主题模型计算每个单词对应文本数据中每条问答对的概率，设所有问答对组成的集合为D，集合D中的第k条问答对为d_k，设主题的集合为T，集合T中第i个主题为t_i，设每条问答对d_k由一个以上的单词组成，单词集合为{w₁，w₂，，，w_j，，，w_n}，则D中涉及的所有的不同的单词组成词典VOC，则每条问答对对应主题集合T中的第i个主题的概率p_ti为：

其中，n_ti表示每条问答对中对应第i个主题的单词的数目，n是问答对中所有单词的总数；

计算主题集合T中的主题t生成词典VOC中第j个单词的概率p_wj：

其中，N_ti表示主题t对应到词典VOC中第j个单词出现的数目，N表示主题t下所有单词的总数；

则第k条问答对d_k中的第j个单词w_j对应主题t_i的概率P_i(w_j|d_k)为：

P_i(w_j|d_k)＝p_ti*p_wj；

然后对主题集合T中的所有主题求概率，得到问答对中的第j个单词w_j对应的所有主题的概率，并将概率最大的作为第j个单词w_j最终对应的主题；

将问答对集合D中所有的问答对分别重复以上步骤，得到分类主题，即完成用LDA模型对文本数据进行分类，分类后的结果作为文本数据的特征向量集X；

所述步骤(1)采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量的具体步骤如下：

Step1：首采用opencv图像处理方法将原始图像在不改变像素的基础上调整为统一大小的图像，并将处理后的图片作为卷积神经网络的输入层；

Step2：图像数据集经过卷积神经网络进行特征提取，卷积神经网络模型输出图像数据集的特征向量空间集，且特征向量空间集中的每个特征向量列表表示每张图像的局部特征；

Step3：然后采用K-means聚类方法将Step2得到的特征向量空间集中的所有的特征向量进行聚类分析，聚类后得到的特征向量集为图像数据的特征向量集Y。

所述步骤(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间，然后计算文本和图像的相似度，并对图文进行交叉检索，具体步骤如下：

Step1：分别计算文本数据的特征向量集X、图像数据的特征向量集Y的均值

Step2：然后根据计算数据集的协方差矩阵C_w(X，Y)：

Step3：将文本数据的特征向量集X进行线性表示，投影到一维，并定义μ＝a^TX，将图像数据的特征向量集Y进行线性表示，投影到一维，并定义v＝b^TY，其中a^T，b^T分别为特征向量的转置，然后最大化μ和v的相关性，μ和v的相关性表示如下：

对该公式进行求解，首先固定分母，求解分子，将Corr(μ，v)的求解条件重写为：

Maximize：a^TC_w(X，Y)b

subject to：a^TC_w(X，X)a＝1，b^TC_w(Y，Y)b＝1

对其求解的方式是构造Lagrangian等式：

其中，λ和θ为参数，对λ和θ分别求导，并令导数为0，得到方程组：

求导，令导数为0，得到方程组：

C_w(X，Y)b-λC_w(X，X)a＝0 (1)

C_w(Y，X)a-θC_w(Y，Y)b＝0 (2)

再将其转换为：

a^T(C_w(X，Y)b-λC_w(X，X)a)＝0

b^T(C_w(Y，X)a-θC_w(Y，Y)b)＝0

根据已知条件中a^TC_w(X，X)a＝1，b^TC_w(Y，Y)b＝1，得到：

λ＝θ＝a^TC_w(X，Y)b

求出的λ即为Corr(μ，v)，故只需计算λ的最大值，将上面的方程(1)(2)进一步简化，得到

C_w(X，X)^-1C_w(X，Y)b＝λa (3)

C_w(Y，Y)^-1C_w(Y，X)b＝λb (4)

其矩阵的表示形式为：

最终求解结果为：

C_w(X，X)^-1C_w(X，Y)C_w(Y，Y)^-1C_w(Y，X)＝λ²a

对其求解特征值λ²和特征向量a，再根据上述等式(3)求得b，故得到了文本数据X和图像数据Y的替代变量u和v，λ是u和v的相关系数；

Step4：令向量ρ_D作为文本特征向量集X映射到u的最大子空间上的一个空间坐标，令向量ρ_I作为图像特征空间Y映射到v的最大子空间上的一个空间坐标，给定一个查询问答对d_k和它的文本特征投影向量ρ_D，求出文本特征投影向量ρ_D与所有的图像数据特征投影向量之间的距离d(ρ_T，ρ_I)，将计算的d(ρ_r，ρ_I)最小值的图像作为与文本特征投影向量ρ_D最匹配的检索图像，通过文本数据的投影向量与图像数据的投影向量得到文本数据集中的问答对与图像数据集中的最匹配的图像；同理，给定一个查询图像I和它的投影ρ_I，求出图像的投影ρ_I与所有的文本数据的投影ρ_D之间的距离d(ρ_I，ρ_D)，将计算的d(ρ_I，ρ_D)的最小值的问答对作为与图像投影最匹配的问答对，从而实现图像和文本间的交叉检索，构建了图像和文本的跨模态检索模型。

与现有技术相比，本发明的有益效果是：本发明通过LDA方法进行文本特征提取、运用卷积神经网络及K-means聚类方法进行图片的特征提取后，运用CCA方法进行相关性分析，利用文字和图片等跨模态信息，能够为提问者的问题匹配到更合理的答案，提高了问答系统中问题检索答案的性能以及准确性。

附图说明

图1为本发明方法的总体流程图；

图2为本发明的图像检索文本和文本检索图像示例图(Sogou数据集)；

图3为本发明的中文社区问答跨模态检索构建过程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。

实施例1：如图1～3所示，本基于CCA算法的中文社区问答跨模态检索方法具体步骤如下：

Step1：将数据集中文本数据进行预处理，预处理包括分词、去除停用词、词干提取；

计算主题集合T中的主题t生成词典VOC中第j个单词的概率p_wj：

P_i(w_j|d_k)＝p_ti*p_wj；

将问答对集合D中所有的问答对分别重复以上步骤，得到分类主题，即完成用LDA模型对文本数据进行分类，分类后的结果作为文本数据的特征向量集X：

Step2：然后根据计算数据集的协方差矩阵C_w(X，Y)：

Maximize：a^TC_w(X，Y)b

subject to：a^TC_w(X，X)a＝1，b^TC_w(Y，Y)b＝1

对其求解的方式是构造Lagrangian等式：

求导，令导数为0，得到方程组：

C_w(X，Y)b-λC_w(X，X)a＝0 (1)

C_w(Y，X)a-θC_w(Y，Y)b＝0 (2)

再将其转换为：

a^T(C_w(X，Y)b-λC_w(X，X)a)＝0

b^T(C_w(Y，X)a-θC_w(Y，Y)b)＝0

根据已知条件中a^TC_w(X，X)a＝1，b^TC_w(Y，Y)b＝1，得到：

λ＝θ＝a^TC_w(X，Y)b

C_w(X，X)^-1C_w(X，Y)b＝λa (3)

C_w(Y，Y)^-1C_w(Y，X)b＝λb (4)

其矩阵的表示形式为：

最终求解结果为：

C_w(X，X)^-1C_w(X，Y)C_w(Y，Y)^-1C_w(Y，X)＝λ²a

Step4：令向量ρ_D作为文本特征向量集X映射到u的最大子空间上的一个空间坐标，令向量ρ_I作为图像特征空间Y映射到v的最大子空间上的一个空间坐标，给定一个查询问答对d_k和它的文本特征投影向量ρ_D，求出文本特征投影向量ρ_D与所有的图像数据特征投影向量之间的距离d(ρ_T，ρ_I)，将计算的d(ρ_T，ρ_I)最小值的图像作为与文本特征投影向量ρ_D最匹配的检索图像，通过文本数据的投影向量与图像数据的投影向量得到文本数据集中的问答对与图像数据集中的最匹配的图像；同理，给定一个查询图像I和它的投影ρ_I，求出图像的投影ρ_I与所有的文本数据的投影ρ_D之间的距离d(ρ_I，ρ_D)，将计算的d(ρ_I，ρ_D)的最小值的问答对作为与图像投影最匹配的问答对，从而实现图像和文本间的交叉检索，构建了图像和文本的跨模态检索模型。

本实施例将所提出的图像和文本跨模态检索模型在Sogou自然语言数据集与图片数据集上进行跨模态语义相关检索实验，具体结果如图2所示。假设Sogou自然语言数据集中的文本是问答社区中用户所提出的问题，而Sogou图片数据集中的图片是问答社区中回答中所包含的图片，图2中分别展示了基于主题模型和卷积神经网络结合起来的模型用于图像检索文本或者文本检索图像的实例。在图2(a)和2(b)示意图中的X轴代表语义类别的id，Y轴代表跨模态检索任务在对应语义类别上的排序值归一化的结果。在图2(a)中以“体育”类别中的橄榄球体育运动为例进行跨模态检索，返回的结果文本都是描述该运动比赛所对应的文本，从图2(a)中的直方图中也同样可以看出检索出来的结果与图像非常相关。在文本检索图像任务中如图2(b)所示，在该图中的上部分是以文检图任务所得到与文本对应的图像，下半部分是文本检索图像所对应的不同语义结果分布直方图。该直方图中的X轴和Y轴都和图2(a)中的直方图中的X轴和Y轴意义相同。图2(b)中是以“地理”类别中的山水语义主题的文本进行检索图像。从上面的实验结果分可以分析出，跨模态检索任务返回的检索结果与输入语料属于同一类别中的相似度还是比较高的。因此，可以通过本发明所提出的方法分析问答社区中的问题文本与回答中的图片的相似性，从而调整返回答案的顺序，为用户返回更加合理的答案。

本发明创新性地引入了跨模态CCA方法，将问答社区中用户提出问题的文本特征与答案中的图片特征映射到同一特征空间中，计算它们的最大相似度，为用户提出的问题匹配更合理的答案。首先用常规PageRank方法对答案进行初始排序，但是该方法“投票”选出的答案排序并不一定是最合理的答案。因此在该排序上使用CCA方法进行进一步的调整，优化答案的排序，从而为用户返回更合理的答案。本发明有现有技术相比，对答案的排序进行改进后，能够为提问者的问题匹配到更合理的答案，提高了问答系统中问题检索答案的性能以及准确性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于CCA算法的中文社区问答跨模态检索方法，其特征在于，具体步骤如下：

(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间，然后计算文本和图像的相似度，构建图像和文本跨模态检索模型；

2.根据权利要求1所述的基于CCA算法的中文社区问答跨模态检索方法，其特征在于：所述步骤(1)采用LDA主题模型提取文本数据的特征向量，具体步骤如下：

计算主题集合T中的主题t生成词典VOC中第j个单词的概率p_wj：

P_i(w_j|d_k)＝p_ti*p_wj；

将问答对集合D中所有的问答对分别重复以上步骤，得到分类主题，即完成用LDA模型对文本数据进行分类，分类后的结果作为文本数据的特征向量集X。

3.根据权利要求1所述的基于CCA算法的中文社区问答跨模态检索方法，其特征在于：所述步骤(1)采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量的具体步骤如下：

4.根据权利要求1所述的基于CCA算法的中文社区问答跨模态检索方法，其特征在于：所述步骤(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间，然后计算文本和图像的相似度，并对图文进行交叉检索，具体步骤如下：

Step2：然后根据计算数据集的协方差矩阵C_w(X，Y)：

Maximize：a^TC_w(X，Y)b

subject to：a^TC_w(X，X)a＝1，b^TC_w(Y，Y)b＝1

对其求解的方式是构造Lagrangian等式：

C_w(X，Y)b-λC_w(X，X)a＝0 (1)

C_w(Y，X)a-θC_w(Y，Y)b＝0 (2)

再将其转换为：

a^T(C_w(X，Y)b-λC_w(X，X)a)＝0

b^T(C_w(Y，X)a-θC_w(Y，Y)b)＝0

根据已知条件中a^TC_w(X，X)a＝1，b^TC_w(Y，Y)b＝1，得到：

λ＝θ＝a^TC_w(X，Y)b

C_w(X，X)^-1C_w(X，Y)b＝λa(3)

C_w(Y，Y)^-1C_w(Y，X)b＝λb(4)

其矩阵的表示形式为：

最终求解结果为：

C_w(X，X)^-1C_w(X，Y)C_w(Y，Y)^-1C_w(Y，X)＝λ²a