CN109213853A - 一种基于cca算法的中文社区问答跨模态检索方法 - Google Patents
一种基于cca算法的中文社区问答跨模态检索方法 Download PDFInfo
- Publication number
- CN109213853A CN109213853A CN201810935656.0A CN201810935656A CN109213853A CN 109213853 A CN109213853 A CN 109213853A CN 201810935656 A CN201810935656 A CN 201810935656A CN 109213853 A CN109213853 A CN 109213853A
- Authority
- CN
- China
- Prior art keywords
- text
- answer
- question
- image
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 12
- 238000003064 k means clustering Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 241001269238 Data Species 0.000 claims description 5
- 238000009795 derivation Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000386 athletic effect Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000003643 water by type Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于CCA算法的中文社区问答跨模态检索方法,首先从中文社区的问答对中提取数据集,数据集中包括文本数据和图像数据,然后分别采用LDA主题模型提取文本数据的特征向量、采用卷积神经网络特征提取方法和K‑means聚类方法提取图像数据的特征向量,分别得到文本数据的特征向量集X和图像数据的特征向量集Y,用CCA算法将X和Y映射到同一个特征空间,然后计算文本和图像的相似度,构建图像和文本跨模态检索模型,利用跨模态检索模型进行跨模态检索,实现图文交叉检索,本发明能够为提问者的问题匹配到更合理的答案,提高了问答系统中问题检索答案的性能以及准确性。
Description
技术领域
本发明涉及一种基于CCA算法的中文社区问答跨模态检索方法,属于信息检索技术领域。
背景技术
随着中文问答社区的发展,如知乎、百度知道等中文问答社区网站每天发布有数以万计的问题,问答社区的搜索引擎一般返回给用户一系列的相关问题推荐。推荐的问题也是以前用户提出过并已得到回答而组成的问答对。但问答对数目庞大,答案中可能含有文字、图片、音视频等多模态数据。如何为提问者的问题匹配到更合理的答案,是中文社区问答平台需要解决的关键问题。近年来在中文问答系统中关于提问问题和问答对相关性的研究主要是基于统计方法或机器学习方法来进行的,多是对答案中的词对齐、词匹配、主题特征及词向量特征等来完成答案选择,大多数是对文本特征进行的研究,忽略了回答中对其他模态数据的分析。综合回答中文字和图片等跨模态信息的研究,有利于为提问者匹配到更合理的答案,解决跨模态信息检索问题。
发明内容
本发明的目的在于提供一种基于CCA算法的中文社区问答跨模态检索方法,用于解决现有社区问答答案质量层次不齐和跨模态信息检索的问题,为用户匹配到更合理的答案。
本发明的技术方案是:一种基于CCA算法的中文社区问答跨模态检索方法,其特征在于,具体步骤如下:
(1)从中文社区的问答对中提取数据集,数据集中包括文本数据和图像数据,然后分别采用LDA主题模型提取文本数据的特征向量、采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量,分别得到文本数据的特征向量集X和图像数据的特征向量集Y;
(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间,然后计算文本和图像的相似度,构建图像和文本跨模态检索模型。
(3)利用步骤(2)得到的跨模态检索模型进行跨模态检索,实现图文交叉检索。
所述步骤(1)采用LDA主题模型提取文本数据的特征向量,具体步骤如下:
Stepl:将数据集中文本数据进行预处理,预处理包括分词、去除停用词、词干提取;
Step2:将预处理后的所有文本数据即问答对中的单词作为行,文本问答对中各单词出现的频率作为列,构建文本词频矩阵;
Step3:将步骤(2)的文本词频矩阵转化为一个向量列表,该列表包括单词以及单词出现的频率;
Step4:利用LDA主题模型计算每个单词对应文本数据中每条问答对的概率,设所有问答对组成的集合为D,集合D中的第k条问答对为dk,设主题的集合为T,集合T中第i个主题为ti,设每条问答对dk由一个以上的单词组成,单词集合为{w1,w2,,,wj,,,wn},则D中涉及的所有的不同的单词组成词典VOC,则每条问答对对应主题集合T中的第i个主题的概率pti为:
其中,nti表示每条问答对中对应第i个主题的单词的数目,n是问答对中所有单词的总数;
计算主题集合T中的主题t生成词典VOC中第j个单词的概率pwj:
其中,Nti表示主题t对应到词典VOC中第j个单词出现的数目,N表示主题t下所有单词的总数;
则第k条问答对dk中的第j个单词wj对应主题ti的概率Pi(wj|dk)为:
Pi(wj|dk)=pti*pwj;
然后对主题集合T中的所有主题求概率,得到问答对中的第j个单词wj对应的所有主题的概率,并将概率最大的作为第j个单词wj最终对应的主题;
将问答对集合D中所有的问答对分别重复以上步骤,得到分类主题,即完成用LDA模型对文本数据进行分类,分类后的结果作为文本数据的特征向量集X;
所述步骤(1)采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量的具体步骤如下:
Step1:首采用opencv图像处理方法将原始图像在不改变像素的基础上调整为统一大小的图像,并将处理后的图片作为卷积神经网络的输入层;
Step2:图像数据集经过卷积神经网络进行特征提取,卷积神经网络模型输出图像数据集的特征向量空间集,且特征向量空间集中的每个特征向量列表表示每张图像的局部特征;
Step3:然后采用K-means聚类方法将Step2得到的特征向量空间集中的所有的特征向量进行聚类分析,聚类后得到的特征向量集为图像数据的特征向量集Y。
所述步骤(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间,然后计算文本和图像的相似度,并对图文进行交叉检索,具体步骤如下:
Step1:分别计算文本数据的特征向量集X、图像数据的特征向量集Y的均值
Step2:然后根据计算数据集的协方差矩阵Cw(X,Y):
Step3:将文本数据的特征向量集X进行线性表示,投影到一维,并定义μ=aTX,将图像数据的特征向量集Y进行线性表示,投影到一维,并定义v=bTY,其中aT,bT分别为特征向量的转置,然后最大化μ和v的相关性,μ和v的相关性表示如下:
对该公式进行求解,首先固定分母,求解分子,将Corr(μ,v)的求解条件重写为:
Maximize:aTCw(X,Y)b
subject to:aTCw(X,X)a=1,bTCw(Y,Y)b=1
对其求解的方式是构造Lagrangian等式:
其中,λ和θ为参数,对λ和θ分别求导,并令导数为0,得到方程组:
求导,令导数为0,得到方程组:
Cw(X,Y)b-λCw(X,X)a=0 (1)
Cw(Y,X)a-θCw(Y,Y)b=0 (2)
再将其转换为:
aT(Cw(X,Y)b-λCw(X,X)a)=0
bT(Cw(Y,X)a-θCw(Y,Y)b)=0
根据已知条件中aTCw(X,X)a=1,bTCw(Y,Y)b=1,得到:
λ=θ=aTCw(X,Y)b
求出的λ即为Corr(μ,v),故只需计算λ的最大值,将上面的方程(1)(2)进一步简化,得到
Cw(X,X)-1Cw(X,Y)b=λa (3)
Cw(Y,Y)-1Cw(Y,X)b=λb (4)
其矩阵的表示形式为:
最终求解结果为:
Cw(X,X)-1Cw(X,Y)Cw(Y,Y)-1Cw(Y,X)=λ2a
对其求解特征值λ2和特征向量a,再根据上述等式(3)求得b,故得到了文本数据X和图像数据Y的替代变量u和v,λ是u和v的相关系数;
Step4:令向量ρD作为文本特征向量集X映射到u的最大子空间上的一个空间坐标,令向量ρI作为图像特征空间Y映射到v的最大子空间上的一个空间坐标,给定一个查询问答对dk和它的文本特征投影向量ρD,求出文本特征投影向量ρD与所有的图像数据特征投影向量之间的距离d(ρT,ρI),将计算的d(ρr,ρI)最小值的图像作为与文本特征投影向量ρD最匹配的检索图像,通过文本数据的投影向量与图像数据的投影向量得到文本数据集中的问答对与图像数据集中的最匹配的图像;同理,给定一个查询图像I和它的投影ρI,求出图像的投影ρI与所有的文本数据的投影ρD之间的距离d(ρI,ρD),将计算的d(ρI,ρD)的最小值的问答对作为与图像投影最匹配的问答对,从而实现图像和文本间的交叉检索,构建了图像和文本的跨模态检索模型。
与现有技术相比,本发明的有益效果是:本发明通过LDA方法进行文本特征提取、运用卷积神经网络及K-means聚类方法进行图片的特征提取后,运用CCA方法进行相关性分析,利用文字和图片等跨模态信息,能够为提问者的问题匹配到更合理的答案,提高了问答系统中问题检索答案的性能以及准确性。
附图说明
图1为本发明方法的总体流程图;
图2为本发明的图像检索文本和文本检索图像示例图(Sogou数据集);
图3为本发明的中文社区问答跨模态检索构建过程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。
实施例1:如图1~3所示,本基于CCA算法的中文社区问答跨模态检索方法具体步骤如下:
(1)从中文社区的问答对中提取数据集,数据集中包括文本数据和图像数据,然后分别采用LDA主题模型提取文本数据的特征向量、采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量,分别得到文本数据的特征向量集X和图像数据的特征向量集Y;
(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间,然后计算文本和图像的相似度,构建图像和文本跨模态检索模型。
(3)利用步骤(2)得到的跨模态检索模型进行跨模态检索,实现图文交叉检索。
所述步骤(1)采用LDA主题模型提取文本数据的特征向量,具体步骤如下:
Step1:将数据集中文本数据进行预处理,预处理包括分词、去除停用词、词干提取;
Step2:将预处理后的所有文本数据即问答对中的单词作为行,文本问答对中各单词出现的频率作为列,构建文本词频矩阵;
Step3:将步骤(2)的文本词频矩阵转化为一个向量列表,该列表包括单词以及单词出现的频率;
Step4:利用LDA主题模型计算每个单词对应文本数据中每条问答对的概率,设所有问答对组成的集合为D,集合D中的第k条问答对为dk,设主题的集合为T,集合T中第i个主题为ti,设每条问答对dk由一个以上的单词组成,单词集合为{w1,w2,,,wj,,,wn},则D中涉及的所有的不同的单词组成词典VOC,则每条问答对对应主题集合T中的第i个主题的概率pti为:
其中,nti表示每条问答对中对应第i个主题的单词的数目,n是问答对中所有单词的总数;
计算主题集合T中的主题t生成词典VOC中第j个单词的概率pwj:
其中,Nti表示主题t对应到词典VOC中第j个单词出现的数目,N表示主题t下所有单词的总数;
则第k条问答对dk中的第j个单词wj对应主题ti的概率Pi(wj|dk)为:
Pi(wj|dk)=pti*pwj;
然后对主题集合T中的所有主题求概率,得到问答对中的第j个单词wj对应的所有主题的概率,并将概率最大的作为第j个单词wj最终对应的主题;
将问答对集合D中所有的问答对分别重复以上步骤,得到分类主题,即完成用LDA模型对文本数据进行分类,分类后的结果作为文本数据的特征向量集X:
所述步骤(1)采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量的具体步骤如下:
Step1:首采用opencv图像处理方法将原始图像在不改变像素的基础上调整为统一大小的图像,并将处理后的图片作为卷积神经网络的输入层;
Step2:图像数据集经过卷积神经网络进行特征提取,卷积神经网络模型输出图像数据集的特征向量空间集,且特征向量空间集中的每个特征向量列表表示每张图像的局部特征;
Step3:然后采用K-means聚类方法将Step2得到的特征向量空间集中的所有的特征向量进行聚类分析,聚类后得到的特征向量集为图像数据的特征向量集Y。
所述步骤(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间,然后计算文本和图像的相似度,并对图文进行交叉检索,具体步骤如下:
Step1:分别计算文本数据的特征向量集X、图像数据的特征向量集Y的均值
Step2:然后根据计算数据集的协方差矩阵Cw(X,Y):
Step3:将文本数据的特征向量集X进行线性表示,投影到一维,并定义μ=aTX,将图像数据的特征向量集Y进行线性表示,投影到一维,并定义v=bTY,其中aT,bT分别为特征向量的转置,然后最大化μ和v的相关性,μ和v的相关性表示如下:
对该公式进行求解,首先固定分母,求解分子,将Corr(μ,v)的求解条件重写为:
Maximize:aTCw(X,Y)b
subject to:aTCw(X,X)a=1,bTCw(Y,Y)b=1
对其求解的方式是构造Lagrangian等式:
其中,λ和θ为参数,对λ和θ分别求导,并令导数为0,得到方程组:
求导,令导数为0,得到方程组:
Cw(X,Y)b-λCw(X,X)a=0 (1)
Cw(Y,X)a-θCw(Y,Y)b=0 (2)
再将其转换为:
aT(Cw(X,Y)b-λCw(X,X)a)=0
bT(Cw(Y,X)a-θCw(Y,Y)b)=0
根据已知条件中aTCw(X,X)a=1,bTCw(Y,Y)b=1,得到:
λ=θ=aTCw(X,Y)b
求出的λ即为Corr(μ,v),故只需计算λ的最大值,将上面的方程(1)(2)进一步简化,得到
Cw(X,X)-1Cw(X,Y)b=λa (3)
Cw(Y,Y)-1Cw(Y,X)b=λb (4)
其矩阵的表示形式为:
最终求解结果为:
Cw(X,X)-1Cw(X,Y)Cw(Y,Y)-1Cw(Y,X)=λ2a
对其求解特征值λ2和特征向量a,再根据上述等式(3)求得b,故得到了文本数据X和图像数据Y的替代变量u和v,λ是u和v的相关系数;
Step4:令向量ρD作为文本特征向量集X映射到u的最大子空间上的一个空间坐标,令向量ρI作为图像特征空间Y映射到v的最大子空间上的一个空间坐标,给定一个查询问答对dk和它的文本特征投影向量ρD,求出文本特征投影向量ρD与所有的图像数据特征投影向量之间的距离d(ρT,ρI),将计算的d(ρT,ρI)最小值的图像作为与文本特征投影向量ρD最匹配的检索图像,通过文本数据的投影向量与图像数据的投影向量得到文本数据集中的问答对与图像数据集中的最匹配的图像;同理,给定一个查询图像I和它的投影ρI,求出图像的投影ρI与所有的文本数据的投影ρD之间的距离d(ρI,ρD),将计算的d(ρI,ρD)的最小值的问答对作为与图像投影最匹配的问答对,从而实现图像和文本间的交叉检索,构建了图像和文本的跨模态检索模型。
本实施例将所提出的图像和文本跨模态检索模型在Sogou自然语言数据集与图片数据集上进行跨模态语义相关检索实验,具体结果如图2所示。假设Sogou自然语言数据集中的文本是问答社区中用户所提出的问题,而Sogou图片数据集中的图片是问答社区中回答中所包含的图片,图2中分别展示了基于主题模型和卷积神经网络结合起来的模型用于图像检索文本或者文本检索图像的实例。在图2(a)和2(b)示意图中的X轴代表语义类别的id,Y轴代表跨模态检索任务在对应语义类别上的排序值归一化的结果。在图2(a)中以“体育”类别中的橄榄球体育运动为例进行跨模态检索,返回的结果文本都是描述该运动比赛所对应的文本,从图2(a)中的直方图中也同样可以看出检索出来的结果与图像非常相关。在文本检索图像任务中如图2(b)所示,在该图中的上部分是以文检图任务所得到与文本对应的图像,下半部分是文本检索图像所对应的不同语义结果分布直方图。该直方图中的X轴和Y轴都和图2(a)中的直方图中的X轴和Y轴意义相同。图2(b)中是以“地理”类别中的山水语义主题的文本进行检索图像。从上面的实验结果分可以分析出,跨模态检索任务返回的检索结果与输入语料属于同一类别中的相似度还是比较高的。因此,可以通过本发明所提出的方法分析问答社区中的问题文本与回答中的图片的相似性,从而调整返回答案的顺序,为用户返回更加合理的答案。
本发明创新性地引入了跨模态CCA方法,将问答社区中用户提出问题的文本特征与答案中的图片特征映射到同一特征空间中,计算它们的最大相似度,为用户提出的问题匹配更合理的答案。首先用常规PageRank方法对答案进行初始排序,但是该方法“投票”选出的答案排序并不一定是最合理的答案。因此在该排序上使用CCA方法进行进一步的调整,优化答案的排序,从而为用户返回更合理的答案。本发明有现有技术相比,对答案的排序进行改进后,能够为提问者的问题匹配到更合理的答案,提高了问答系统中问题检索答案的性能以及准确性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.一种基于CCA算法的中文社区问答跨模态检索方法,其特征在于,具体步骤如下:
(1)从中文社区的问答对中提取数据集,数据集中包括文本数据和图像数据,然后分别采用LDA主题模型提取文本数据的特征向量、采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量,分别得到文本数据的特征向量集X和图像数据的特征向量集Y;
(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间,然后计算文本和图像的相似度,构建图像和文本跨模态检索模型;
(3)利用步骤(2)得到的跨模态检索模型进行跨模态检索,实现图文交叉检索。
2.根据权利要求1所述的基于CCA算法的中文社区问答跨模态检索方法,其特征在于:所述步骤(1)采用LDA主题模型提取文本数据的特征向量,具体步骤如下:
Step1:将数据集中文本数据进行预处理,预处理包括分词、去除停用词、词干提取;
Step2:将预处理后的所有文本数据即问答对中的单词作为行,文本问答对中各单词出现的频率作为列,构建文本词频矩阵;
Step3:将步骤(2)的文本词频矩阵转化为一个向量列表,该列表包括单词以及单词出现的频率;
Step4:利用LDA主题模型计算每个单词对应文本数据中每条问答对的概率,设所有问答对组成的集合为D,集合D中的第k条问答对为dk,设主题的集合为T,集合T中第i个主题为ti,设每条问答对dk由一个以上的单词组成,单词集合为{w1,w2,,,wj,,,wn},则D中涉及的所有的不同的单词组成词典VOC,则每条问答对对应主题集合T中的第i个主题的概率pti为:
其中,nti表示每条问答对中对应第i个主题的单词的数目,n是问答对中所有单词的总数;
计算主题集合T中的主题t生成词典VOC中第j个单词的概率pwj:
其中,Nti表示主题t对应到词典VOC中第j个单词出现的数目,N表示主题t下所有单词的总数;
则第k条问答对dk中的第j个单词wj对应主题ti的概率Pi(wj|dk)为:
Pi(wj|dk)=pti*pwj;
然后对主题集合T中的所有主题求概率,得到问答对中的第j个单词wj对应的所有主题的概率,并将概率最大的作为第j个单词wj最终对应的主题;
将问答对集合D中所有的问答对分别重复以上步骤,得到分类主题,即完成用LDA模型对文本数据进行分类,分类后的结果作为文本数据的特征向量集X。
3.根据权利要求1所述的基于CCA算法的中文社区问答跨模态检索方法,其特征在于:所述步骤(1)采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量的具体步骤如下:
Step1:首采用opencv图像处理方法将原始图像在不改变像素的基础上调整为统一大小的图像,并将处理后的图片作为卷积神经网络的输入层;
Step2:图像数据集经过卷积神经网络进行特征提取,卷积神经网络模型输出图像数据集的特征向量空间集,且特征向量空间集中的每个特征向量列表表示每张图像的局部特征;
Step3:然后采用K-means聚类方法将Step2得到的特征向量空间集中的所有的特征向量进行聚类分析,聚类后得到的特征向量集为图像数据的特征向量集Y。
4.根据权利要求1所述的基于CCA算法的中文社区问答跨模态检索方法,其特征在于:所述步骤(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间,然后计算文本和图像的相似度,并对图文进行交叉检索,具体步骤如下:
Step1:分别计算文本数据的特征向量集X、图像数据的特征向量集Y的均值
Step2:然后根据计算数据集的协方差矩阵Cw(X,Y):
Step3:将文本数据的特征向量集X进行线性表示,投影到一维,并定义μ=aTX,将图像数据的特征向量集Y进行线性表示,投影到一维,并定义v=bTY,其中aT,bT分别为特征向量的转置,然后最大化μ和v的相关性,μ和v的相关性表示如下:
对该公式进行求解,首先固定分母,求解分子,将Corr(μ,v)的求解条件重写为:
Maximize:aTCw(X,Y)b
subject to:aTCw(X,X)a=1,bTCw(Y,Y)b=1
对其求解的方式是构造Lagrangian等式:
其中,λ和θ为参数,对λ和θ分别求导,并令导数为0,得到方程组:
Cw(X,Y)b-λCw(X,X)a=0 (1)
Cw(Y,X)a-θCw(Y,Y)b=0 (2)
再将其转换为:
aT(Cw(X,Y)b-λCw(X,X)a)=0
bT(Cw(Y,X)a-θCw(Y,Y)b)=0
根据已知条件中aTCw(X,X)a=1,bTCw(Y,Y)b=1,得到:
λ=θ=aTCw(X,Y)b
求出的λ即为Corr(μ,v),故只需计算λ的最大值,将上面的方程(1)(2)进一步简化,得到
Cw(X,X)-1Cw(X,Y)b=λa(3)
Cw(Y,Y)-1Cw(Y,X)b=λb(4)
其矩阵的表示形式为:
最终求解结果为:
Cw(X,X)-1Cw(X,Y)Cw(Y,Y)-1Cw(Y,X)=λ2a
对其求解特征值λ2和特征向量a,再根据上述等式(3)求得b,故得到了文本数据X和图像数据Y的替代变量u和v,λ是u和v的相关系数;
Step4:令向量ρD作为文本特征向量集X映射到u的最大子空间上的一个空间坐标,令向量ρI作为图像特征空间Y映射到v的最大子空间上的一个空间坐标,给定一个查询问答对dk和它的文本特征投影向量ρD,求出文本特征投影向量ρD与所有的图像数据特征投影向量之间的距离d(ρT,ρI),将计算的d(ρT,ρI)最小值的图像作为与文本特征投影向量ρD最匹配的检索图像,通过文本数据的投影向量与图像数据的投影向量得到文本数据集中的问答对与图像数据集中的最匹配的图像;同理,给定一个查询图像I和它的投影ρI,求出图像的投影ρI与所有的文本数据的投影ρD之间的距离d(ρI,ρD),将计算的d(ρI,ρD)的最小值的问答对作为与图像投影最匹配的问答对,从而实现图像和文本间的交叉检索,构建了图像和文本的跨模态检索模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810935656.0A CN109213853B (zh) | 2018-08-16 | 2018-08-16 | 一种基于cca算法的中文社区问答跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810935656.0A CN109213853B (zh) | 2018-08-16 | 2018-08-16 | 一种基于cca算法的中文社区问答跨模态检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109213853A true CN109213853A (zh) | 2019-01-15 |
CN109213853B CN109213853B (zh) | 2022-04-12 |
Family
ID=64988633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810935656.0A Active CN109213853B (zh) | 2018-08-16 | 2018-08-16 | 一种基于cca算法的中文社区问答跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109213853B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840287A (zh) * | 2019-01-31 | 2019-06-04 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种基于神经网络的跨模态信息检索方法和装置 |
CN110209784A (zh) * | 2019-04-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 消息交互方法、计算机设备及存储介质 |
CN110298395A (zh) * | 2019-06-18 | 2019-10-01 | 天津大学 | 一种基于三模态对抗网络的图文匹配方法 |
CN111159366A (zh) * | 2019-12-05 | 2020-05-15 | 重庆兆光科技股份有限公司 | 一种基于正交主题表示的问答优化方法 |
CN112749718A (zh) * | 2019-10-31 | 2021-05-04 | 北京京东尚科信息技术有限公司 | 多模态特征选择与图像数据分类方法、装置及计算机设备 |
CN112825109A (zh) * | 2019-11-20 | 2021-05-21 | 南京贝湾信息科技有限公司 | 一种句子对齐方法及计算设备 |
CN113392196A (zh) * | 2021-06-04 | 2021-09-14 | 北京师范大学 | 一种基于多模态交叉比较的题目检索方法和系统 |
CN117370506A (zh) * | 2023-07-21 | 2024-01-09 | 中图科信数智技术(北京)有限公司 | 一种支持多模态和多轮对话的农业智能问答方法和系统 |
CN117932161A (zh) * | 2024-03-22 | 2024-04-26 | 成都数据集团股份有限公司 | 一种多源多模态数据的可视化搜索方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101986298A (zh) * | 2010-10-28 | 2011-03-16 | 浙江大学 | 用于在线论坛的信息实时推荐方法 |
CN102567483A (zh) * | 2011-12-20 | 2012-07-11 | 华中科技大学 | 多特征融合的人脸图像搜索方法和系统 |
CN103870447A (zh) * | 2014-03-11 | 2014-06-18 | 北京优捷信达信息科技有限公司 | 一种基于隐含狄利克雷模型的关键词抽取方法 |
CN104504087A (zh) * | 2014-12-25 | 2015-04-08 | 中国科学院电子学研究所 | 一种基于低秩分解的精细主题挖掘方法 |
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
CN105760507A (zh) * | 2016-02-23 | 2016-07-13 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN108334601A (zh) * | 2018-01-31 | 2018-07-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 基于标签主题模型的歌曲推荐方法、装置及存储介质 |
-
2018
- 2018-08-16 CN CN201810935656.0A patent/CN109213853B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101986298A (zh) * | 2010-10-28 | 2011-03-16 | 浙江大学 | 用于在线论坛的信息实时推荐方法 |
CN102567483A (zh) * | 2011-12-20 | 2012-07-11 | 华中科技大学 | 多特征融合的人脸图像搜索方法和系统 |
CN103870447A (zh) * | 2014-03-11 | 2014-06-18 | 北京优捷信达信息科技有限公司 | 一种基于隐含狄利克雷模型的关键词抽取方法 |
CN104504087A (zh) * | 2014-12-25 | 2015-04-08 | 中国科学院电子学研究所 | 一种基于低秩分解的精细主题挖掘方法 |
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
CN105760507A (zh) * | 2016-02-23 | 2016-07-13 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN108334601A (zh) * | 2018-01-31 | 2018-07-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 基于标签主题模型的歌曲推荐方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
DAVID M. BLEI等: "Latent Dirichlet Allocation", 《JOURNAL OF MACHINE LEARNING RESEARCH》 * |
XI LIU等: "Cross-modal Retrieval of Chinese-CQA Based on CCA Algorithm", 《SIMULATION AND MATHEMATICAL STATISTICS (CMSMS 2018)》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840287A (zh) * | 2019-01-31 | 2019-06-04 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种基于神经网络的跨模态信息检索方法和装置 |
CN109840287B (zh) * | 2019-01-31 | 2021-02-19 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种基于神经网络的跨模态信息检索方法和装置 |
CN110209784A (zh) * | 2019-04-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 消息交互方法、计算机设备及存储介质 |
CN110209784B (zh) * | 2019-04-26 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 消息交互方法、计算机设备及存储介质 |
CN110298395A (zh) * | 2019-06-18 | 2019-10-01 | 天津大学 | 一种基于三模态对抗网络的图文匹配方法 |
CN110298395B (zh) * | 2019-06-18 | 2023-04-18 | 天津大学 | 一种基于三模态对抗网络的图文匹配方法 |
CN112749718A (zh) * | 2019-10-31 | 2021-05-04 | 北京京东尚科信息技术有限公司 | 多模态特征选择与图像数据分类方法、装置及计算机设备 |
CN112825109B (zh) * | 2019-11-20 | 2024-02-23 | 南京贝湾信息科技有限公司 | 一种句子对齐方法及计算设备 |
CN112825109A (zh) * | 2019-11-20 | 2021-05-21 | 南京贝湾信息科技有限公司 | 一种句子对齐方法及计算设备 |
CN111159366A (zh) * | 2019-12-05 | 2020-05-15 | 重庆兆光科技股份有限公司 | 一种基于正交主题表示的问答优化方法 |
CN113392196A (zh) * | 2021-06-04 | 2021-09-14 | 北京师范大学 | 一种基于多模态交叉比较的题目检索方法和系统 |
CN117370506A (zh) * | 2023-07-21 | 2024-01-09 | 中图科信数智技术(北京)有限公司 | 一种支持多模态和多轮对话的农业智能问答方法和系统 |
CN117932161A (zh) * | 2024-03-22 | 2024-04-26 | 成都数据集团股份有限公司 | 一种多源多模态数据的可视化搜索方法及系统 |
CN117932161B (zh) * | 2024-03-22 | 2024-05-28 | 成都数据集团股份有限公司 | 一种多源多模态数据的可视化搜索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109213853B (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109213853A (zh) | 一种基于cca算法的中文社区问答跨模态检索方法 | |
Karpathy et al. | Deep visual-semantic alignments for generating image descriptions | |
Xian et al. | Latent embeddings for zero-shot classification | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN108171184A (zh) | 基于Siamese网络的用于行人重识别的方法 | |
CN110413783B (zh) | 一种基于注意力机制的司法文本分类方法及系统 | |
Bruni et al. | Distributional semantics from text and images | |
CN107145514B (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN108804595B (zh) | 一种基于word2vec的短文本表示方法 | |
CN111539452B (zh) | 多任务属性的图像识别方法、装置、电子设备及存储介质 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN102663447B (zh) | 基于判别相关分析的跨媒体检索方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN108846047A (zh) | 一种基于卷积特征的图片检索方法及系统 | |
Li et al. | Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes | |
Jolly et al. | How do convolutional neural networks learn design? | |
Cheng et al. | RiFeGAN2: Rich feature generation for text-to-image synthesis from constrained prior knowledge | |
CN106227836B (zh) | 基于图像与文字的无监督联合视觉概念学习系统及方法 | |
CN110334724A (zh) | 基于lstm的遥感对象自然语言描述及多尺度矫正方法 | |
CN111858896A (zh) | 一种基于深度学习的知识库问答方法 | |
CN104978569A (zh) | 一种基于稀疏表示的增量人脸识别方法 | |
CN102609715B (zh) | 一种结合多个兴趣点检测子的物体类识别方法 | |
CN108268883B (zh) | 基于开放数据的移动端信息模板自构建系统 | |
Putra et al. | Analysis K-Nearest Neighbor Method in Classification of Vegetable Quality Based on Color | |
CN109543512A (zh) | 图文摘要的评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |