CN104298776B - 基于lda模型的搜索引擎结果优化系统 - Google Patents

基于lda模型的搜索引擎结果优化系统 Download PDF

Info

Publication number
CN104298776B
CN104298776B CN201410611981.3A CN201410611981A CN104298776B CN 104298776 B CN104298776 B CN 104298776B CN 201410611981 A CN201410611981 A CN 201410611981A CN 104298776 B CN104298776 B CN 104298776B
Authority
CN
China
Prior art keywords
document
text
lda
search
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410611981.3A
Other languages
English (en)
Other versions
CN104298776A (zh
Inventor
严建峰
刘志强
高阳
杨璐
曾嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201410611981.3A priority Critical patent/CN104298776B/zh
Publication of CN104298776A publication Critical patent/CN104298776A/zh
Application granted granted Critical
Publication of CN104298776B publication Critical patent/CN104298776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于LDA模型的搜索引擎结果优化系统,优化方法为:用户给定查询,使用搜索引擎,得到搜索引擎结果,再根据用户提供的文档,将该文档以及搜索引擎结果作为LDA模型的输入,其中LDA模型是使用主题模型算法,此时的LDA模型已经根据训练集训练好,可直接用于对文档进行预测;其预测的结果,可以变为两种向量,分别是p(t|d)以及p(w|d),通过文档与文档间的相似度计算并排序,即可输出与用户文档相关的最终结果。本发明在现有搜索引擎结果的基础上,进行语义的再次匹配,找到用户真正感兴趣、与语义内容相关的搜索结果,提高搜索效率和搜索精度。

Description

基于LDA模型的搜索引擎结果优化系统
技术领域
本发明属于计算机及互联网技术领域,具体地说,涉及一种基于LDA模型的搜索引擎结果优化系统。
背景技术
搜索引擎指自动从因特网、企业内部网等处搜集信息,经过一定整理以后,提供给用户进行查询的系统。在进行论文写作、文档整理等创造性工作中,经常利用搜索引擎从网络中搜索感兴趣的信息作为文档材料的证明材料、参考文献或直接信息来源。根据搜索引擎搜索源的不同,可以将搜索引擎分成两大类:因特网(Internet)搜索引擎和企业内部网(Intranet)搜索引擎。常见的因特网搜索引擎有Google、Bing、Baidu等。它们都是通过从互联网上提取各个网站的信息而创建的数据库目前,这类搜索引擎主要采用的技术是关键词匹配,他们通过检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。常见的企业内部网搜索引擎有Google Mini、Search Engine Studio、Zilverline等,其采用与因特网搜索引擎类似的关键词匹配技术,但搜索规模相对较小,主要从企业内部数据库中进行几十万个至几百万个文档左右规模的搜索。
然而,虽然用户想要搜索的内容往往与所写作文档的语义(即上下文内容,context)有较大的相关性,但是目前的所有搜索引擎并不支持对文档语义内容的搜索,因此搜索引擎返回的搜索结果与用户目前编辑的文档语义关联性不大,导致用户发现搜索引擎返回的大量结果并不是自己所需要的内容。用户必须重新选择更合适的关键词或者人工对搜索结果进行分析来找到自己所感兴趣的内容。而且,用户也不能将整篇文档当作搜索内容输入到搜索引擎中,一方面如果进行模糊匹配则搜索关键词太多将返回大量无意义的内容,另一方面,若进行精确匹配,则搜索引擎将搜不到合适的结果。因此,需要一种能够表达用户所写作文档的语义的方法,在此基础上进行语义的再次匹配,找到用户真正感兴趣、与语义内容相关的搜索结果。
潜在狄利克雷分配(latent Dirichlet allocation,LDA)是一种主题模型,能够较好的表达文档的内容,是对文档内容的一种高度压缩模型。它可以将文档集中每篇文档的主题按照概率分布的形式给出。LDA基于词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。
发明内容
本发明要解决的技术问题是克服上述缺陷,提供一种基于LDA模型的搜索引擎结果优化系统,在现有搜索引擎结果的基础上,进行语义的再次匹配,找到用户真正感兴趣、与语义内容相关的搜索结果,提高搜索效率和搜索精度。
为解决上述问题,本发明所采用的技术方案是:
基于LDA模型的搜索引擎结果优化系统,其特征在于:所述搜索引擎结果优化系统的优化方法为:用户给定查询,使用搜索引擎,得到搜索引擎结果,再根据用户提供的文档,将该文档以及搜索引擎结果作为LDA模型的输入,其中LDA模型是使用主题模型算法,此时的LDA模型已经根据训练集训练好,可直接用于对文档进行预测;其预测的结果,可以变为两种向量,分别是p(t|d)以及p(w|d),通过文档与文档间的相似度计算并排序,即可输出与用户文档相关的最终结果。
作为一种优化的的技术方案,
LDA模型是假设一篇文档是一些主题的分布,而一个主题是单词表上单词的分布,则一篇文档的生成过程如下所示,其中Dir代表狄利克雷分布:
θd~Dir(α),φk~Dir(β),zi~θd,
首先从一个基于α的狄利克雷先验中获得一篇文档d的分布θd,从一个基于β的狄利克雷先验中获得每个主题k的分布φk,从θd中获得一个主题zi,再从主题单词分布中获得一个单词xi,重复这样的过程直到得到所有的文档,并且其后验概率的计算公式:
作为一种优化的的技术方案,所述LDA模型中LDA主题模型算法的包括吉布斯采样GS算法,MCMC的一种,以及VB算法,BP算法。
作为一种优化的的技术方案,所述变量p(t|d)是给出文本上的主题解释,文本上的主题解释即通过LDA来解释原始的文本,把一篇文本变成几个主题概率的组成;
p(w|d)是另一种使用LDA来解释文本的方法是文本上的单词表示,即p(w|t)p(t|d);从一篇文本的主题概率分布中选择概率最大的前n个主题,再从每个主题的单词概率分布中选择概率最大的前m个单词,将这几个单词的概率向量作为原文本的特征向量,构成文本的单词重构;
相比文本上的主题解释方法p(t|d),p(w|d)文本解释方法可以获取原文本与新文本的单词组成,可以直观的看出原文本与新文本的差别;而由于LDA是聚类算法,其主题解释无法知道每个类具体是什么样的标签,无法知道具体的含义,即无法从p(t|d)的概率分布中知道原始文本的实际意义,而p(w|d)能够具体地表示。
由于采用了上述技术方案,与现有技术相比,本发明是对搜索引擎结果,以及用户提供的相关文档,进行LDA模型预测,并对LDA的输出进行相似度计算与排名,得到优化后的最终结果。
本发明在现有搜索引擎结果的基础上,进行语义的再次匹配,找到用户真正感兴趣、与语义内容相关的搜索结果,提高搜索效率和搜索精度。
同时下面结合附图和具体实施方式对本发明作进一步说明。
附图说明
图1为本发明一种实施例中LDA图模型的原理示意图;
图2为本发明一种实施例中基于因子图的置信传播的原理示意图;
图3为本发明一种实施例中LDA模型的流程图;
图4为本发明一种实施例中p(t|d)和p(w|d)的结果对比图,分别表示为BP_p(zd)和BP_p(wd)。
具体实施方式
实施例:
如图1、图2、图3、图4所示,基于LDA模型的搜索引擎结果优化系统,优化方法为:用户给定查询,使用搜索引擎,得到搜索引擎结果,再根据用户提供的文档,将该文档以及搜索引擎结果作为LDA模型的输入,其中LDA模型是使用主题模型算法,此时的LDA模型已经根据训练集训练好,可直接用于对文档进行预测;其预测的结果,可以变为两种向量,分别是p(t|d)以及p(w|d),通过文档与文档间的相似度计算并排序,即可输出与用户文档相关的最终结果。
LDA模型是假设一篇文档是一些主题的分布,而一个主题是单词表上单词的分布,则一篇文档的生成过程如下所示,其中Dir代表狄利克雷分布:
θd~Dir(α),φk~Dir(β),zi~θd,
首先从一个基于α的狄利克雷先验中获得一篇文档d的分布θd,从一个基于β的狄利克雷先验中获得每个主题k的分布φk,从θd中获得一个主题zi,再从主题单词分布中获得一个单词xi,重复这样的过程直到得到所有的文档,并且其后验概率的计算公式:
所述LDA模型中LDA主题模型算法的包括吉布斯采样GS算法,MCMC的一种,以及VB算法,BP算法。
不同的推导算法在时间,空间以及精度方面差别较大。从空间内存消耗方面考虑,GS算法所需要的内存是VB和BP的1K,其中K是设定的文档的主题数。从时间角度,在K较低的情况下,相比如VB算法,GS和BP算法消耗的时间较少,在K较大的情况下,GS算法需要最少的时间,速度上是其他两种的近1K。从精度方面来看,BP算法有着较大的优势。
由于本发明具有针对性,而且搜索引擎的结果包含的主题较小,所以可以采用LDA的BP算法来进行聚类分析。
置信传播(Belief Propagation,BP)最重要的意义在于提出了一种很有效的求解条件边缘概率的方法,使用马尔科夫网络(Markov Network)之间相互影响的关系,将全局的积分变成了局部的消息传递,即网络中的每个节点通过与邻近节点交换信息,对自身的概率状况进行评估。BP算法具体是使用和积算法(sum-product algorithm),应用于因子图(factor graph)中来求解的。
马尔科夫网络是反映变量间的相互影响关系,而另一种网络,即贝叶斯网络(Bayesian Network),是反映因果推断关系,即贝叶斯网络是有向无环图,一个变量是因,另一个变量是果。对于有向无环的贝叶斯网络,数学上可以证明,通过BP得到的解和严格积分计算得到的结果是一致的。然而,对于无向的马尔科夫网络,这种传播过程得到的解是近似的。
如图2所示,一篇文档d的一个单词w受到同一篇文档中不同的单词对w的影响记为x-w,dμ(z-w,d=k),以及受到不同文档中的同一单词对w的影响记为xw,-dμ(zw,-d=k)。其中xw,d是指文档d中单词w出现的个数,-w是指除w以外的其他单词,-d是指除d以外的其他文档。
则一篇文档d的一个单词w被分配给第k个主题的概率为:
其中,
由此得到的文档主题分布以及主题单词分布的计算公式为:
当通过BP算法获得LDA模型之后,即可用LDA模型来对测试文档(本发明中即用户所要写作的文档以及搜索引擎结果文档集)进行测试,得到测试文档的主题分布,以及每个主题上的单词分布。其他推理LDA模型的算法也可以用于本发明,例如吉布斯采样(GS)算法以及变分贝叶斯(VB)算法,但是不同推理LDA的算法会导致精度上的区别,实际应用时,可根据算法的时间复杂度与空间复杂度等来选择具体的推理算法。
此时与搜索引擎下的基于相似度排序的方法类似,通过计算LDA语义向量之间的相似度,对搜索引擎结果文档集进行再排序。LDA语义向量可以是文档的主题分布,也可以是文档主题分布与主题单词分布的乘积。
向量空间模型(VSM)是基于TF-IDF的,主要利用了文本的词频信息。以词在文本中出现的频率以及在文本集中出现的该词的频率来表征词的权重,通过计算向量之间的余弦相似度来计算文本的相似度。该模型只考虑到了词频信息,无法从语义的角度来理解查询或文本。词袋模型从词频和字符串比较两方面对信息检索中的查询和文本进行匹配,却忽略了词与词之间的关系,例如近义词,同义词,有的词语通常成对出现等等情况。LDA能够更好地理解用户所要表达的意图,使用LDA模型来解释查询与文本,从大量的查询中训练得到LDA模型,选择查询作为训练集的原因在于精简短小的查询很好的表达了用户的意图,并且包含的语义比较全面。
所述变量p(t|d)是给出文本上的主题解释,文本上的主题解释即通过LDA来解释原始的文本,把一篇文本变成几个主题概率的组成。
p(w|d)是另一种使用LDA来解释文本的方法是文本上的单词表示,即p(w|t)p(t|d);从一篇文本的主题概率分布中选择概率最大的前n个主题,再从每个主题的单词概率分布中选择概率最大的前m个单词,将这几个单词的概率向量作为原文本的特征向量,构成文本的单词重构。
相比文本上的主题解释方法p(t|d),p(w|d)文本解释方法可以获取原文本与新文本的单词组成,可以直观的看出原文本与新文本的差别;而由于LDA是聚类算法,其主题解释无法知道每个类具体是什么样的标签,无法知道具体的含义,即无法从p(t|d)的概率分布中知道原始文本的实际意义,而p(w|d)能够具体地表示。
本发明不局限于上述的优选实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或者相近似的技术方案,均属于本发明的保护范围。

Claims (1)

1.基于LDA模型的搜索引擎结果优化系统,其特征在于:所述搜索引擎结果优化系统的功能为,
用户给定查询,使用搜索引擎,得到搜索引擎结果,再根据用户提供的文档,将该文档以及搜索引擎结果作为LDA模型的输入,其中LDA模型是使用主题模型算法,此时的LDA模型已经根据训练集训练好,可直接用于对文档进行预测;其预测的结果,可以变为两种变量,分别是p(t|d)以及p(w|d),通过文档与文档间的相似度计算并排序,即可输出与用户文档相关的最终结果,
LDA模型是假设一篇文档是一些主题的分布,而一个主题是单词表上单词的分布,则一篇文档的生成过程如下所示,其中Dir代表狄利克雷分布:
首先从一个基于α的狄利克雷先验中获得一篇文档d的分布θd,从一个基于β的狄利克雷先验中获得每个主题k的分布φk,从θd中获得一个主题zi,再从主题单词分布中获得一个单词xi,重复这样的过程直到得到所有的文档,并且其后验概率的计算公式:
所述LDA模型中LDA主题模型算法为吉布斯采样GS算法、MCMC算法、VB算法、BP算法中的一种,
所述变量p(t|d)是给出文本上的主题解释,文本上的主题解释即通过LDA来解释原始的文本,把一篇文本变成几个主题概率的组成;
p(w|d)是另一种使用LDA来解释文本的方法,即p(w|t)p(t|d);从一篇文本的主题概率分布中选择概率最大的前n个主题,再从每个主题的单词概率分布中选择概率最大的前m个单词,将这几个单词的概率向量作为原文本的特征向量,构成文本的单词重构;
相比文本上的主题解释方法p(t|d),p(w|d)文本解释方法可以获取原文本与新文本的单词组成,可以直观的看出原文本与新文本的差别;而由于LDA是聚类算法,其主题解释无法知道每个类具体是什么样的标签,无法知道具体的含义,即无法从p(t|d)的概率分布中知道原始文本的实际意义,而p(w|d)能够具体地表示。
CN201410611981.3A 2014-11-04 2014-11-04 基于lda模型的搜索引擎结果优化系统 Active CN104298776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410611981.3A CN104298776B (zh) 2014-11-04 2014-11-04 基于lda模型的搜索引擎结果优化系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410611981.3A CN104298776B (zh) 2014-11-04 2014-11-04 基于lda模型的搜索引擎结果优化系统

Publications (2)

Publication Number Publication Date
CN104298776A CN104298776A (zh) 2015-01-21
CN104298776B true CN104298776B (zh) 2017-12-22

Family

ID=52318501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410611981.3A Active CN104298776B (zh) 2014-11-04 2014-11-04 基于lda模型的搜索引擎结果优化系统

Country Status (1)

Country Link
CN (1) CN104298776B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991891B (zh) * 2015-07-28 2018-03-30 北京大学 一种短文本特征提取方法
CN106815244B (zh) * 2015-11-30 2020-02-07 北京国双科技有限公司 文本向量表示方法及装置
CN106815252B (zh) * 2015-12-01 2020-08-25 阿里巴巴集团控股有限公司 一种搜索方法和设备
CN106919997B (zh) * 2015-12-28 2020-12-22 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
CN106407316B (zh) * 2016-08-30 2020-05-15 北京航空航天大学 基于主题模型的软件问答推荐方法和装置
CN106503044B (zh) * 2016-09-21 2020-02-28 北京小米移动软件有限公司 兴趣特征分布获取方法及装置
CN109522409A (zh) * 2018-11-06 2019-03-26 广州大学 一种词汇分布敏感的话题表示模型生成方法及装置
CN109597893A (zh) * 2019-01-21 2019-04-09 北京工业大学 基于搜索引擎的主题分类方法
CN111475603B (zh) * 2019-01-23 2023-07-04 百度在线网络技术(北京)有限公司 企业标识识别方法、装置、计算机设备及存储介质
CN110147798B (zh) * 2019-04-18 2020-06-30 北京彼维网络技术有限公司 一种可用于网络信息检测的语义相似度学习方法
CN113032575B (zh) * 2021-05-28 2022-05-17 北京明略昭辉科技有限公司 一种基于主题模型的文档血缘关系挖掘的方法及装置
CN113343104A (zh) * 2021-06-29 2021-09-03 深圳前海微众银行股份有限公司 信息推荐方法、装置、设备及计算机存储介质
CN113988087A (zh) * 2021-10-26 2022-01-28 北京智谱华章科技有限公司 技术主题多指标计算及趋势预测方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020851A (zh) * 2013-01-10 2013-04-03 山东地纬计算机软件有限公司 一种支持商品评论数据多维分析的度量计算方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202555A1 (en) * 2010-01-28 2011-08-18 IT.COM, Inc. Graphical User Interfaces Supporting Method And System For Electronic Discovery Using Social Network Analysis
US8176067B1 (en) * 2010-02-24 2012-05-08 A9.Com, Inc. Fixed phrase detection for search
CN103425799B (zh) * 2013-09-04 2016-06-15 北京邮电大学 基于主题的个性化研究方向推荐系统和推荐方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020851A (zh) * 2013-01-10 2013-04-03 山东地纬计算机软件有限公司 一种支持商品评论数据多维分析的度量计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于LDA的文本语义检索模型;刘启华;《情报科学》;20140831;第32卷(第8期);第38-43页 *
基于文本聚类与LDA相融合的微博主题检索模型研究;唐晓波等;《情报理论与实践》;20131231;第36卷(第8期);第85-90页 *

Also Published As

Publication number Publication date
CN104298776A (zh) 2015-01-21

Similar Documents

Publication Publication Date Title
CN104298776B (zh) 基于lda模型的搜索引擎结果优化系统
Tang et al. A discriminative approach to topic-based citation recommendation
CN111386524B (zh) 促进特定于域和客户端的应用程序接口推荐
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN111344695B (zh) 促进特定于域和客户端的应用程序接口推荐
SzymańSki Comparative analysis of text representation methods using classification
Lavanya et al. Twitter sentiment analysis using multi-class SVM
Brochier et al. Inductive document network embedding with topic-word attention
Wang et al. KGBoost: A classification-based knowledge base completion method with negative sampling
Tallapragada et al. Improved Resume Parsing based on Contextual Meaning Extraction using BERT
Suresh Kumar et al. Sentiment Analysis of Short Texts Using SVMs and VSMs-Based Multiclass Semantic Classification
Mejia et al. Assessing the sentiment of social expectations of robotic technologies
Qi et al. Application of LDA and word2vec to detect English off-topic composition
Li et al. Semi-supervised gender classification with joint textual and social modeling
Jiang An efficient semantic retrieval method for network education information resources
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
Tamrakar et al. Student sentiment analysis using classification with feature extraction techniques
Wang et al. Predicting best answerers for new questions: An approach leveraging convolution neural networks in community question answering
Imran et al. Twitter Sentimental Analysis using Machine Learning Approaches for SemeVal Dataset
Balasundaram et al. Social Media Monitoring Of Airbnb Reviews Using AI: A Sentiment Analysis Approach For Immigrant Perspectives In The UK
Pushpa Rani et al. An optimized topic modeling question answering system for web-based questions
Karpovich et al. Classification of text documents based on a probabilistic topic model
Wang Topic Modeling: A Complete Introductory Guide
Chen et al. Hybrid Method for Short Text Topic Modeling
Tostrup et al. Massive patent data mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant