CN104298776B

CN104298776B - 基于lda模型的搜索引擎结果优化系统

Info

Publication number: CN104298776B
Application number: CN201410611981.3A
Authority: CN
Inventors: 严建峰; 刘志强; 高阳; 杨璐; 曾嘉
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-11-04
Filing date: 2014-11-04
Publication date: 2017-12-22
Anticipated expiration: 2034-11-04
Also published as: CN104298776A

Abstract

本发明公开了一种基于LDA模型的搜索引擎结果优化系统，优化方法为：用户给定查询，使用搜索引擎，得到搜索引擎结果，再根据用户提供的文档，将该文档以及搜索引擎结果作为LDA模型的输入，其中LDA模型是使用主题模型算法，此时的LDA模型已经根据训练集训练好，可直接用于对文档进行预测；其预测的结果，可以变为两种向量，分别是p(t|d)以及p(w|d)，通过文档与文档间的相似度计算并排序，即可输出与用户文档相关的最终结果。本发明在现有搜索引擎结果的基础上，进行语义的再次匹配，找到用户真正感兴趣、与语义内容相关的搜索结果，提高搜索效率和搜索精度。

Description

基于LDA模型的搜索引擎结果优化系统

技术领域

本发明属于计算机及互联网技术领域，具体地说，涉及一种基于LDA模型的搜索引擎结果优化系统。

背景技术

搜索引擎指自动从因特网、企业内部网等处搜集信息，经过一定整理以后，提供给用户进行查询的系统。在进行论文写作、文档整理等创造性工作中，经常利用搜索引擎从网络中搜索感兴趣的信息作为文档材料的证明材料、参考文献或直接信息来源。根据搜索引擎搜索源的不同，可以将搜索引擎分成两大类：因特网(Internet)搜索引擎和企业内部网(Intranet)搜索引擎。常见的因特网搜索引擎有Google、Bing、Baidu等。它们都是通过从互联网上提取各个网站的信息而创建的数据库目前，这类搜索引擎主要采用的技术是关键词匹配，他们通过检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。常见的企业内部网搜索引擎有Google Mini、Search Engine Studio、Zilverline等，其采用与因特网搜索引擎类似的关键词匹配技术，但搜索规模相对较小，主要从企业内部数据库中进行几十万个至几百万个文档左右规模的搜索。

然而，虽然用户想要搜索的内容往往与所写作文档的语义(即上下文内容，context)有较大的相关性，但是目前的所有搜索引擎并不支持对文档语义内容的搜索，因此搜索引擎返回的搜索结果与用户目前编辑的文档语义关联性不大，导致用户发现搜索引擎返回的大量结果并不是自己所需要的内容。用户必须重新选择更合适的关键词或者人工对搜索结果进行分析来找到自己所感兴趣的内容。而且，用户也不能将整篇文档当作搜索内容输入到搜索引擎中，一方面如果进行模糊匹配则搜索关键词太多将返回大量无意义的内容，另一方面，若进行精确匹配，则搜索引擎将搜不到合适的结果。因此，需要一种能够表达用户所写作文档的语义的方法，在此基础上进行语义的再次匹配，找到用户真正感兴趣、与语义内容相关的搜索结果。

潜在狄利克雷分配(latent Dirichlet allocation，LDA)是一种主题模型，能够较好的表达文档的内容，是对文档内容的一种高度压缩模型。它可以将文档集中每篇文档的主题按照概率分布的形式给出。LDA基于词袋模型，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。同时它是一种无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量即可。此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述它。LDA目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。

发明内容

本发明要解决的技术问题是克服上述缺陷，提供一种基于LDA模型的搜索引擎结果优化系统，在现有搜索引擎结果的基础上，进行语义的再次匹配，找到用户真正感兴趣、与语义内容相关的搜索结果，提高搜索效率和搜索精度。

为解决上述问题，本发明所采用的技术方案是：

基于LDA模型的搜索引擎结果优化系统，其特征在于：所述搜索引擎结果优化系统的优化方法为：用户给定查询，使用搜索引擎，得到搜索引擎结果，再根据用户提供的文档，将该文档以及搜索引擎结果作为LDA模型的输入，其中LDA模型是使用主题模型算法，此时的LDA模型已经根据训练集训练好，可直接用于对文档进行预测；其预测的结果，可以变为两种向量，分别是p(t|d)以及p(w|d)，通过文档与文档间的相似度计算并排序，即可输出与用户文档相关的最终结果。

作为一种优化的的技术方案，

LDA模型是假设一篇文档是一些主题的分布，而一个主题是单词表上单词的分布，则一篇文档的生成过程如下所示，其中Dir代表狄利克雷分布：

θ_d～Dir(α),φ_k～Dir(β),z_i～θ_d,

首先从一个基于α的狄利克雷先验中获得一篇文档d的分布θ_d，从一个基于β的狄利克雷先验中获得每个主题k的分布φ_k，从θ_d中获得一个主题z_i，再从主题单词分布中获得一个单词x_i，重复这样的过程直到得到所有的文档，并且其后验概率的计算公式：

作为一种优化的的技术方案，所述LDA模型中LDA主题模型算法的包括吉布斯采样GS算法，MCMC的一种，以及VB算法，BP算法。

作为一种优化的的技术方案，所述变量p(t|d)是给出文本上的主题解释，文本上的主题解释即通过LDA来解释原始的文本，把一篇文本变成几个主题概率的组成；

p(w|d)是另一种使用LDA来解释文本的方法是文本上的单词表示，即p(w|t)p(t|d)；从一篇文本的主题概率分布中选择概率最大的前n个主题，再从每个主题的单词概率分布中选择概率最大的前m个单词，将这几个单词的概率向量作为原文本的特征向量，构成文本的单词重构；

相比文本上的主题解释方法p(t|d)，p(w|d)文本解释方法可以获取原文本与新文本的单词组成，可以直观的看出原文本与新文本的差别；而由于LDA是聚类算法，其主题解释无法知道每个类具体是什么样的标签，无法知道具体的含义，即无法从p(t|d)的概率分布中知道原始文本的实际意义，而p(w|d)能够具体地表示。

由于采用了上述技术方案，与现有技术相比，本发明是对搜索引擎结果，以及用户提供的相关文档，进行LDA模型预测，并对LDA的输出进行相似度计算与排名，得到优化后的最终结果。

本发明在现有搜索引擎结果的基础上，进行语义的再次匹配，找到用户真正感兴趣、与语义内容相关的搜索结果，提高搜索效率和搜索精度。

同时下面结合附图和具体实施方式对本发明作进一步说明。

附图说明

图1为本发明一种实施例中LDA图模型的原理示意图；

图2为本发明一种实施例中基于因子图的置信传播的原理示意图；

图3为本发明一种实施例中LDA模型的流程图；

图4为本发明一种实施例中p(t|d)和p(w|d)的结果对比图，分别表示为BP_p(zd)和BP_p(wd)。

具体实施方式

实施例：

如图1、图2、图3、图4所示，基于LDA模型的搜索引擎结果优化系统，优化方法为：用户给定查询，使用搜索引擎，得到搜索引擎结果，再根据用户提供的文档，将该文档以及搜索引擎结果作为LDA模型的输入，其中LDA模型是使用主题模型算法，此时的LDA模型已经根据训练集训练好，可直接用于对文档进行预测；其预测的结果，可以变为两种向量，分别是p(t|d)以及p(w|d)，通过文档与文档间的相似度计算并排序，即可输出与用户文档相关的最终结果。

θ_d～Dir(α),φ_k～Dir(β),z_i～θ_d,

所述LDA模型中LDA主题模型算法的包括吉布斯采样GS算法，MCMC的一种，以及VB算法，BP算法。

不同的推导算法在时间，空间以及精度方面差别较大。从空间内存消耗方面考虑，GS算法所需要的内存是VB和BP的1K，其中K是设定的文档的主题数。从时间角度，在K较低的情况下，相比如VB算法，GS和BP算法消耗的时间较少，在K较大的情况下，GS算法需要最少的时间，速度上是其他两种的近1K。从精度方面来看，BP算法有着较大的优势。

由于本发明具有针对性，而且搜索引擎的结果包含的主题较小，所以可以采用LDA的BP算法来进行聚类分析。

置信传播(Belief Propagation，BP)最重要的意义在于提出了一种很有效的求解条件边缘概率的方法，使用马尔科夫网络(Markov Network)之间相互影响的关系，将全局的积分变成了局部的消息传递，即网络中的每个节点通过与邻近节点交换信息，对自身的概率状况进行评估。BP算法具体是使用和积算法(sum-product algorithm)，应用于因子图(factor graph)中来求解的。

马尔科夫网络是反映变量间的相互影响关系，而另一种网络，即贝叶斯网络(Bayesian Network)，是反映因果推断关系，即贝叶斯网络是有向无环图，一个变量是因，另一个变量是果。对于有向无环的贝叶斯网络，数学上可以证明，通过BP得到的解和严格积分计算得到的结果是一致的。然而，对于无向的马尔科夫网络，这种传播过程得到的解是近似的。

如图2所示，一篇文档d的一个单词w受到同一篇文档中不同的单词对w的影响记为x_-w,dμ(z_-w,d＝k)，以及受到不同文档中的同一单词对w的影响记为x_w,-dμ(z_w,-d＝k)。其中x_w,d是指文档d中单词w出现的个数，-w是指除w以外的其他单词，-d是指除d以外的其他文档。

则一篇文档d的一个单词w被分配给第k个主题的概率为：

其中，

由此得到的文档主题分布以及主题单词分布的计算公式为：

当通过BP算法获得LDA模型之后，即可用LDA模型来对测试文档(本发明中即用户所要写作的文档以及搜索引擎结果文档集)进行测试，得到测试文档的主题分布，以及每个主题上的单词分布。其他推理LDA模型的算法也可以用于本发明，例如吉布斯采样(GS)算法以及变分贝叶斯(VB)算法，但是不同推理LDA的算法会导致精度上的区别，实际应用时，可根据算法的时间复杂度与空间复杂度等来选择具体的推理算法。

此时与搜索引擎下的基于相似度排序的方法类似，通过计算LDA语义向量之间的相似度，对搜索引擎结果文档集进行再排序。LDA语义向量可以是文档的主题分布，也可以是文档主题分布与主题单词分布的乘积。

向量空间模型(VSM)是基于TF-IDF的，主要利用了文本的词频信息。以词在文本中出现的频率以及在文本集中出现的该词的频率来表征词的权重，通过计算向量之间的余弦相似度来计算文本的相似度。该模型只考虑到了词频信息，无法从语义的角度来理解查询或文本。词袋模型从词频和字符串比较两方面对信息检索中的查询和文本进行匹配，却忽略了词与词之间的关系，例如近义词，同义词，有的词语通常成对出现等等情况。LDA能够更好地理解用户所要表达的意图，使用LDA模型来解释查询与文本，从大量的查询中训练得到LDA模型，选择查询作为训练集的原因在于精简短小的查询很好的表达了用户的意图，并且包含的语义比较全面。

所述变量p(t|d)是给出文本上的主题解释，文本上的主题解释即通过LDA来解释原始的文本，把一篇文本变成几个主题概率的组成。

p(w|d)是另一种使用LDA来解释文本的方法是文本上的单词表示，即p(w|t)p(t|d)；从一篇文本的主题概率分布中选择概率最大的前n个主题，再从每个主题的单词概率分布中选择概率最大的前m个单词，将这几个单词的概率向量作为原文本的特征向量，构成文本的单词重构。

本发明不局限于上述的优选实施方式，任何人应该得知在本发明的启示下做出的结构变化，凡是与本发明具有相同或者相近似的技术方案，均属于本发明的保护范围。

Claims

1.基于LDA模型的搜索引擎结果优化系统，其特征在于：所述搜索引擎结果优化系统的功能为，

用户给定查询，使用搜索引擎，得到搜索引擎结果，再根据用户提供的文档，将该文档以及搜索引擎结果作为LDA模型的输入，其中LDA模型是使用主题模型算法，此时的LDA模型已经根据训练集训练好，可直接用于对文档进行预测；其预测的结果，可以变为两种变量，分别是p(t|d)以及p(w|d)，通过文档与文档间的相似度计算并排序，即可输出与用户文档相关的最终结果，

，

所述LDA模型中LDA主题模型算法为吉布斯采样GS算法、MCMC算法、VB算法、BP算法中的一种，

所述变量p(t|d)是给出文本上的主题解释，文本上的主题解释即通过LDA来解释原始的文本，把一篇文本变成几个主题概率的组成；

p(w|d)是另一种使用LDA来解释文本的方法，即p(w|t)p(t|d)；从一篇文本的主题概率分布中选择概率最大的前n个主题，再从每个主题的单词概率分布中选择概率最大的前m个单词，将这几个单词的概率向量作为原文本的特征向量，构成文本的单词重构；