CN103064945B - 基于本体的情境搜索方法 - Google Patents
基于本体的情境搜索方法 Download PDFInfo
- Publication number
- CN103064945B CN103064945B CN201210575284.8A CN201210575284A CN103064945B CN 103064945 B CN103064945 B CN 103064945B CN 201210575284 A CN201210575284 A CN 201210575284A CN 103064945 B CN103064945 B CN 103064945B
- Authority
- CN
- China
- Prior art keywords
- user
- situation
- word
- context
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于本体的情境搜索方法,旨在克服现有技术存在精准度不够、个性化不足、智能性缺失与情境被忽视等问题。该方法的步骤为:1.由网页情境解析与表示模块对采集到的网页进行解析并表示网页情境信息;2.由用户情境挖掘与表示模块实现用户情境挖掘与表示并和第1步骤同时进行,3.由情境索引模块设计融入网页情境信息的索引结构;4.由情境扩展模块实现情境扩展即形成查询情境,所述的情境扩展是指利用用户情境,在情境级别上对查询词进行扩展,限定查询词所属的语境,形成查询情境;5.由情境查询处理模块实现情境查询处理:其步骤为:1)情境推荐;2)情境检索;3)情境排序;排序之后的结果就可以提供到用户查询界面中。
Description
技术领域
本发明涉及一种搜索引擎领域的搜索方法,更确切地说,本发明涉及一种基于通用本体的情境搜索方法。
背景技术
现如今,海量的信息资源以网络为载体,人们已习惯于通过搜索获得信息。搜索改变了我们寻找答案、文章、广告、产品、人物和地点等诸多事物的方式,影响着我们的学习、工作和生活,为我们的决策提供参考信息。然而人们在获得丰富信息同时,也面临着信息选择方面的困惑,且通常需要反复修改查询词来重新定位自己所需要的信息。
搜索引擎是指根据一定的策略、运用特定的计算机程序从特定网络如互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。
现在搜索引擎所面临的问题并不是信息量不足,而是信息资源的泛滥让人们无法快捷、精确的找到真正符合自己需要的信息,大量用户认为传统的搜索引擎返回的结果中垃圾信息太多,无法提供优质的搜索服务,其不足主要体现在:
1.精准度不够
据权威统计,40%的搜索结果不能回答用户的问题,50%的查询需在搜索过程中不断调整查询词以试探最佳结果。
2.个性化不足
传统搜索引擎没有综合考虑用户的搜索历史、当前搜索内容、兴趣、所处位置和时间,千人一面,无法提供个性化的搜索服务。
3.智能性缺失
传统搜索引擎很少动态追踪用户行为、挖掘检索词背后隐含兴趣和意图,无法智能化完善用户查询以辅助用户完成搜索任务,不能向用户自动推荐其所需信息。
4.语境被忽视
传统搜索引擎忽略了词汇的语境扩展,只能根据查询词与网页词汇的匹配进行简单地匹配和检索。
传统搜索引擎将网页简单表示为若干词汇的向量,这种表示缺少网页情境信息(如:词、语境词、网页地点、更新时间等)。另外,传统搜索引擎在搜索过程中没有考虑用户情境(如:与搜索行为有关的时间、地点、用户兴趣和查询意图),目前获取用户情境的主要方法有两种:
一是由用户明确提供,这种方法直接有效,但会增加用户负担,研究表明,用户并不愿意提供这种反馈信息;
二是通过系统对交互数据进行计算推理获得,这种方法符合搜索智能化发展战略目标,但如何自动获取准确有效的用户情境也是一个不可回避的问题。另一方面当前搜索系统多数采用词到文档的倒排索引,这种索引结构简单、操作方便、检索快速、吞吐开销较小,但缺少网页情境信息,且不利于用户情境的应用,在传统索引基础上进行检索只能遵循“先搜索、再过滤”的技术路线,效率低,效果差,且传统索引基础上进行检索的过程中大部分用户情境信息都不能直接影响检索结果,通常用户提交的搜索词是多义的,例如:对于搜索词apple,可能有水果、电子产品、电影等多种释义,在该情况下,传统检索模型会返回很多冗余记录。在传统结果排序方法中,比较流行的是词频统计法和超链接分析法。这些方法忽略了搜索个体之间搜索情境的差异,导致当不同用户提交相同查询时,返回相同的搜索结果,且不能依据用户的后续行为,重新调整搜索结果。
由此可见传统搜索引擎脱离情境是以上诸多问题产生的根源。因此,如何将情境融入搜索是一个亟待解决的问题。当前,较完整的情境搜索定义是:情境搜索包含7个要素(6W&1H),它强调“以人(Who)为本”,也就是以用户为中心,根据其搜索行为的时间(When)、地点(Where)、输入(What)、需求(Want)、习惯(How)、背景(Why)等因素,得到最适合的搜索结果,再将这一结果直接呈现给用户。情境具有多维性、多样性、动态性和延展性等特征:
1.多维性
用户情境包括与搜索行为有关的时间、地点、兴趣、意图等,网页情境包括词、语境词、网页地点、更新时间等,这些信息可以全方位多角度地描述情境,体现了情境的多维性;
2.多样性
情境搜索的服务对象千差万别,情境搜索要针对不同用户提供个性化的检索服务;
3.动态性
用户情境中兴趣、意图的漂移,网页情境中信息、热点的更新,体现出了情境明显的动态性;
4.延展性
在用户情境中,当前查询意图通常与其前数次查询意图相关,即用户查询意图具有短期延展性。
目前信息表示的主要方法有词袋、向量和图,但均不足以应对用户情境表示面临的各种挑战,而本体是关于领域知识的概念化、形式化的明确规范,定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则。经过仔细分析,本方法采用的本体技术作为一种通用工具,特别适合情境搜索问题。
发明内容
本发明所要解决的技术问题是克服了现有技术存在精准度不够、个性化不足、智能性缺失与情境被忽视等问题,提供了一种基于本体的情境搜索方法。
为解决上述技术问题,本发明是采用如下技术方案实现的:所述的基于本体的情境搜索方法包括如下步骤:
1.由网页情境解析与表示模块对采集到的网页进行解析并表示网页情境信息:
(1)使用网络爬虫即Crawler采集网页并存入网页数据库;
(2)建立DOM树进行网页解析,并使用实时搜索爬虫提取网页最近更新时间;
(3)实现网页情境解析,步骤如下:
a.如果网页是中文网页,则对网页进行分词;
b.利用通用本体和自然语言处理技术构建语义关联图,对词进行词义标注;
c.确定语义关联图中语义关系权重;语义关系权重的确定采用如下公式:
其中:maxr、minr是赋予关系r的最大权重与最小权重,nr(Sen1)是在语义关联图中从词义Sen1出发的关系r的边的个数;
d.计算词W的每个义项和上下文词集的关联度,公式为:
其中:WSi为词W的第i个义项,CS为满足以下条件的义项集合:①出现在语义关联图中,②为上下文词集中词的一个义项,WCR(WSi,CSj)为基于语义关联图和语义关系权重计算义项WSi和CSj的关联度函数;
e.选取关联度最大的义项作为词W在上下文中的释义,并提取释义的直接上位概念作为语境词,获取W的语境,从而实现网页的情境解析;
(4)利用命名实体识别技术获取网页内的时间与地点信息,并将网页表示为网页情境形式:
PC=<{<W,C>},PG,PT>
其中:W为词,C为语境词,PG为网页内的地点信息,PT为网页时间信息,包含创建时间、更新时间与网页内时间。
2.由用户情境挖掘与表示模块实现用户情境挖掘与表示并和第1步骤同时进行:
(1)用户兴趣挖掘;
(2)查询意图预测;
(3)基于步骤(1)与步骤(2)中得到的处理结果,使用本体技术给出用户情境说明和描述;用户情境包括用户兴趣、查询意图以及搜索时间和地点;将用户情境表示为:
UC=<L,S,I,Q,UG,UT>
其中:L为用户长期兴趣,S为用户短期兴趣,I为用户的查询意图,Q为查询词,UG为用户提交查询时的地理位置,UT为用户的查询时间;
3.由情境索引处理模块设计融入网页情境信息的索引结构:
(1)构建情境正向索引;
(2)构建情境倒排索引;
4.由情境扩展模块利用第2步骤获得的用户情境,实现对查询词的情境扩展,即形成查询情境;
5.由情境查询处理模块利用第4步骤获得的查询情境,实现情境查询处理。
技术方案中所述的用户兴趣挖掘包括如下步骤:
1)对用户搜索日志进行挖掘,获取用户点击的网页类别;
2)量化用户点击各类网页的会话数和频度;
3)设定阈值,依据频度,提取用户长期兴趣概念集CL和短期兴趣概念集CS;
用户长期兴趣与短期兴趣分别用通用本体的局部来表示,针对用户兴趣的漂移性,其含义是:随着时间的变化,用户兴趣不是一成不变的,会发生变化甚至是根本性改变;用户的长期兴趣漂移和短期兴趣漂移表示为:
L’=long_term_interest_drift(L,S,H)
S’=short_term_interest_drift(S,L,H)
其中:long_term_interest_drift表示基于增量学习的长期兴趣漂移函数,用于获得漂移后的用户长期兴趣;short_term_interest_drift表示基于增量学习的短期兴趣漂移函数,用于获得漂移后的用户短期兴趣;L为用户长期兴趣,S为用户短期兴趣,H为查询历史数据,L’和S’分别为用户兴趣增量学习过程获得的长期兴趣和短期兴趣;
4)以用户兴趣为基础,基于通用本体,提取CL和CS中的上下位词汇链,将各词汇链衔接在一起,即得用户兴趣模型。
技术方案中所述的查询意图预测包括如下步骤:
1)根据用户本次的查询词,从用户连续的搜索行为中预测查询意图,并实现用户情境获取确定用户的查询意图;采用动态贝叶斯网络推断当前用户查询的搜索意图,形式化表示为:
I=Intent_infer(L,S,P,Q)=<SI1(p1),SI2(p2),…,SIn(pn)>
其中:I为用户的查询意图,p1,p2,…,pn分别为查询子意图SI1,SI2,…,SIn的概率,L为用户的长期兴趣,S为用户的短期兴趣,P为点击网页,Q为查询词,Intent_infer为基于动态贝叶斯网络的查询意图推测函数;
2)通过动态贝叶斯网络,利用搜索系统的先验知识,计算用户当前查询意图的后验概率分布;根据已有的经验知识,定义了①用户的查询意图I、②用户长期兴趣L、③用户短期兴趣S、④点击网页P与⑤查询词Q五个数据变量,并找出了数据变量之间的因果关系,获得动态贝叶斯网络;
查询意图预测涉及的主要概率计算公式如下:
其中:It表示第t次查询的意图,It-1表示第t-1次查询的意图,Lt表示第t次查询时的用户长期兴趣,St表示第t次查询时的用户短期兴趣,Pt-1表示第t-1次查询时的点击网页,Qt表示第t次查询词。
技术方案中所述的构建情境正向索引是指:在传统正向索引的基础上,设计融入了语境词和时间、空间信息的情境正向索引结构;其中,传统正向索引为网页到词的索引结构;
技术方案中所述的构建情境倒排索引是指:利用情境正向索引,设计了<词,语境词>到网页列表的语境索引结构,并借助时空数据库技术,建立基于R*树的空间索引和基于B+树的时间索引,最后将语境索引与时空索引有机地结合在一起,得到支持情境检索的索引结构。
技术方案中所述的情境扩展是指利用用户情境,在情境级别上对查询词进行扩展,限定查询词所属的语境,形成查询情境;
利用通用本体结合查询词和所述用户的查询意图I获得相应语境词,实现情境扩展,形式化表示为:
SearchContext=ContextExpansion(Q,O,I,UG,UT)
其中:Q为查询词,O为通用本体,I为用户的查询意图,UG为用户提交查询时的地理位置,UT为用户的查询时间。
所述的情境扩展包括如下步骤:
1)根据用户提供的查询词和在所述用户情境挖掘与表示模块所获得的用户情境信息,使用通用本体提取查询词Q的若干释义<QS1,QS2,…,QSm>及相应的若干语境<C1,C2,…Cm>;
2)在所述查询子意图SI1,SI2,…,SIn的基础上,利用朴素贝叶斯模型计算语境词Ci的后验概率p(Ci|SI1,SI2,…,SIn),并按照语境词的后验概率的降序向用户推荐相应语境的情境扩展,其中后验概率最大的语境词为最佳语境词,其次为次佳语境词。
3)若用户选择某情境扩展,则取相应语境为最终确认结果,否则自动选取p(Ci|SI1,SI2,…,SIn)值最大的语境为最终确认结果,且以次佳匹配的语境词为备选。用户选定扩展的语境词后,如果用户选定的语境词与情境扩展模块提供的最佳语境词不一致,需要更新该用户的兴趣和查询意图;
4)最后获取查询词Q的同义词集Syn,查询情境形式化表示为:<{<Q,Syn,C>},UG,UT>,其中:Q为查询词,Syn为Q的同义词集,C为Q的语境词,UG为用户提交查询时的地理位置,UT为用户的查询时间。
技术方案中所述的情境查询处理模块实现情境查询处理,步骤如下:
1)情境推荐:
在用户打开查询界面但是没有进行查询操作时对于所述网页数据库中的网页,根据网页情境与用户情境的匹配程度及网页权威性,以合理的顺序向用户主动推荐网页,达到“不搜亦得”的智能化检索目标;情境推荐的形式化表示为:
Result=Recommend(Pages,UT,UG,A,RSL)
其中:Pages表示新抓取的网页集合,UT表示用户的查询时间,UG表示用户提交查询时的地理位置,A表示网页权威性,RSL表示用户兴趣与网页情境的相关性。
情境推荐形式化表示中的各项的计算方法如下:
a.网页权威性A的计算采用经典的基于网页链接的PageRank静态排序算法;
b.用户兴趣与网页情境的相关性RSL=m×RS+n×RL;其中:m和n是权衡系数,RS表示短期兴趣与网页情境的相关性,RL表示长期兴趣与网页情境的相关性;
其中:Sset表示短期兴趣概念集合,Lset表示长期兴趣概念集合,Cset表示网页情境中的语境词集;
2)情境检索:
此过程发生在用户提交了此次查询的查询词之后。
(1)经所述情境扩展模块处理获得语境词、地理位置、时间信息,利用这些信息,在所述融入网页情境信息的索引结构中进行检索;
(2)同时访问所述网页数据库,得到相匹配的网页,形式化表示为:
Result=Search(Index,Q,C,Syn,UG,UT)
其中,Syn为Q的同义词集;用“C和Q”或“C和Syn”在索引Index中的第一层语境索引CI中进行检索,用用户提交查询时的地理位置UG在第二层空间索引GI中进行检索,用用户的查询时间UT在第三层时间索引TI中进行检索;在每一层检索的具体过程描述如下:
a.在语境层检索:
构建查询词的语境检索项,语境检索既利用消解歧义后的语境词实现精准检索,又通过查询词的同义词集实现语义相关检索,同义词与查询词具有共同的语境词,这样每个查询词Qi产生的语境检索项表示为:{<Qi,Ci>,<Syni1,Ci>,…,<Synik,Ci>}。
其次,在语境索引中,通过查询词的语境检索项检索相应的语境索引项,进而在空间索引中继续检索;
b.在空间层检索:
借助地理学本体和地理信息系统将查询中涉及空间信息的查询词项映射为区域或坐标,并采用自然语言处理技术识别出与空间信息相关的语义信息,从而实现查询词空间敏感信息的检测;
根据检测结果进一步判断,若查询词不具有空间敏感性,检索的内容包括语境索引项下的所有空间索引项;否则,利用用户提交查询时的地理位置UG,确定适合空间检索的窗口大小,从而在空间索引GI中检索符合用户空间信息需求的相关索引项,进而在时间索引中继续检索;
c.在时间层检索:
对于时间不敏感查询,其检索范围为整个时间轴;对于时间敏感查询,检索范围为[st,et]表达的时间区间,st为起始时间,et为终止时间,此时间区间为1小时或1天或1周或1月或1年,是通过情境扩展模块处理用户提交的查询词、用户的查询时间信息分析后得到的,用UT在B+树TI中进行检索,将落在UT范围内的网页作为返回结果;
3)情境排序:
对于在情境检索返回的结果,依据情境相关性及网页权威性进行排序,排序之后的结果提供到用户查询界面中,情境排序的形式化表示为:
Result’=Rank(Result,A,R)
其中:A为网页权威性,采用经典的基于网页链接的PageRank静态排序算法,R为情境相关性,是用户情境表示UC=<L,S,I,Q,UG,UT>与网页情境表示PC=<{<W,C>},PG,PT>匹配的结果,即:R=Match(UC,PC)。该公式基于Q与W的匹配、I与C的匹配、UG与PG的匹配、UT与PT匹配,返回相应网页的情境相关性值;
情境排序通过实验确定参数A和R在最终排序算法中的权重,并依据该权重对经典排序结果进行调整;
(1)采用经典的基于网页链接的PageRank静态排序算法,确定网页权威性A的值;
(2)使用BM25概率检索模型,通过计算网页情境中的语境词与查询意图间的相关性概率,获得网页文档与查询词之间的概念相关性得分Rc。即在查询词扩展所得的各上位概念,与网页情境解析所得的各上位概念之间,计算相关性概率。文档的分值匹配到各概念项概率求和;
(3)网页情境解析的某上位概念HCx的概率,由相关集合中所有扩展出HCx的词的频率相加求和得到;
(4)通过比对UG与PG中各地理位置信息,获得UG和PG的匹配度得分Rg,计算与查询词匹配之后所得向量的分量进行加权求和得出,即Σgi×wi,gi表示地理位置信息的向量各分量,wi为对应的权重,取值区间为[0,1];
(5)索引项的时间信息得分Rt,由网页情境时间信息是否匹配查询意图要求的信息,如果匹配取值为1,否则取值为0,乘以权值常数0.85以保证其影响力,再加上由查询时间和网页发布时间差值函数f(t)确定的网页新鲜程度得分,其中f(t)=DecayRate(St-Pt),St为查询时间,Pt为网页发布时间,DecayRate取值为0.5;
(6)最终由Rc+Rg+Rt得出R的值;
(7)根据计算结果进行排序,排序之后的结果提供到用户查询界面中。
与现有技术相比本发明的有益效果是:
1.本发明所述的基于本体的情境搜索方法给出了清晰、明确、可计算的网页情境和用户情境信息表示。根据词在网页中的上下文,基于通用本体,利用词义消歧技术,确定词的情境,对文档在语境层面上进行解析,基于本体表示用户情境,给出网页情境和用户情境的形式化表示。情境信息对于提高搜索性能至关重要,情境信息必须以恰当的形式表示出来,才能方便检索使用。而传统搜索引擎将网页内容表示为若干词汇的文本向量,这种表示方法缺少词的语境和时间、空间信息等网页情境信息。另外,传统搜索引擎在搜索过程中没有考虑用户兴趣和查询意图等用户情境信息。而本发明所提出的情境搜索就是要将这些情境信息融入搜索,在情境级别上进行匹配,提高用户对搜索服务的满意度。
2.本发明所述的基于本体的情境搜索方法构建的情境索引从根本上解决目前索引结构不支持情境搜索的问题,摒弃先检索再过滤的传统做法,实现所搜即所需,提高效率和搜索精度。传统搜索引擎的索引结构包括网页到词的正向索引和词到网页的倒排索引,缺少网页情境信息,不利于用户情境的应用,并且如果想在传统索引基础上进行个性化情境搜索,则必须对返回结果进一步做过滤处理,导致效率低、效果差。面对传统索引的不足和情境搜索带来的挑战,需要将网页情境信息融入索引结构。该结构可以在不过多提升空间代价的情况下,保证索引更新快捷方便,满足实时响应要求,提高检索系统的服务效果,彻底摒弃“先搜索、再过滤”的传统检索方式。
3.本发明所述的基于本体的情境搜索方法提出了一个新概念,情境扩展,是指利用用户情境,通过一定的方法和策略,在情境级别上对查询词进行扩展,限定查询词所属的语境(词释义的直接上位概念),形成查询情境<{<Q,Syn,C>},UG,UT>,其中,Q为查询词,Syn为Q的同义词集,C为Q的语境词,UG为查询地点,UT为查询时间。从而弥补用户查询信息不足的缺陷。例如,对“苹果电脑”感兴趣的用户提交查询词“apple”,情境扩展会限定语境词为“电子产品”,这样返回结果中就不再出现诸如“水果”、“电影”类网页。根据用户的查询意图和查询词,利用本体和情境索引中的语境词,以及用户地理位置和时间检索区间,实现情境扩展,情境扩展与查询扩展有着本质的不同,区别在于:查询扩展中的扩展词作为查询词序列的一部分,必然出现在查询结果网页中;而情境扩展中限定的语境词一般并不出现在结果网页中,它只给出查询所属的概念范畴。通过情境扩展,可以更加有效地引导用户快速定位并得到所期望的搜索结果。
4.情境检索
传统检索模型利用基于词的倒排索引处理查询,在检索过程中未涉及查询情境,不能直接提供个性化检索服务。通常用户提交的搜索词是多义的,例如:对于搜索词apple,可能有水果、电子产品、电影等多种释义,在该情况下,传统检索模型会返回很多冗余记录。与之不同的是,情境检索在情境索引的基础上,利用查询情境检索网页,直接获得满足用户需求的查询结果,无需过滤。这也是本发明突出的特点和贡献之一。
5.情境排序
能否将与用户需求最相关的高质量网页排在返回结果的最前面,是衡量搜索引擎性能的重要指标。目前搜索引擎使用的排序算法主要包括词频位置加权排序算法和超链接分析排序算法。这些方法在排序过程中未涉及用户情境,忽略了搜索个体之间搜索情境的差异,导致当不同用户提交相同查询时,返回相同的搜索结果。另外,由于用户的思维状态是动态变化的,查询意图的预测不能保证完全正确,因此,需要依据用户后续的浏览行为修整返回结果,而目前的搜索引擎所使用的排序算法不能依据用户的后续行为,重新调整搜索结果。简言之,传统结果排序方法无法根据用户情境实现情境排序。本发明的情境排序既考虑了网页的权威性,又考虑了网页情境与用户情境,增加了排序的相关性。通过对用户交互行为进行分析,推测用户在当前查询会话中对多个交叠任务的偏重程度,进一步明确用户的信息需求,实现动态的搜索结果修整。
6.情境推荐
与当前搜索引擎提供的导航不同,情境推荐并非是单纯结合用户历史点击、浏览行为数据向用户推送网址,而是以用户当前情境(包括用户长期兴趣、短期兴趣、当前时间、所处地点等信息)为推测依据,结合网页情境,向用户自动推荐一定时段内最新抓取的、具有一定权威性的、与用户情境相匹配的网页,实现“不搜变搜”、“不搜亦得”的个性化、智能化搜索目标。
综上所述,本发明是针对情境的多维性、多样性、动态性和延展性等特征,在数据结构级别上重新设计搜索引擎,而不是在现有搜索引擎数据结构基础上进行增补和改进,从基础上解决情境搜索问题,从而实现情境化智能的搜索引擎。
附图说明
下面结合附图对本发明作进一步的说明:
图1是实施本发明所述的基于本体的情境搜索方法的计算机程序的各组成模块的功能、连接关系示意框图;
图2是本发明所述的基于本体的情境搜索方法的流程框图;
图3是本发明所述的基于本体的情境搜索方法中由网页情境解析与表示模块对采集到的网页进行解析并表示网页情境信息的流程框图;
图4是本发明所述的基于本体的情境搜索方法中由用户情景挖掘与表示模块实现用户情境挖掘与表示的流程框图;
图5是本发明所述的基于本体的情境搜索方法中由情境索引处理模块设计并实现融入网页情境信息的索引结构的示意框图;
图6是本发明所述的基于本体的情境搜索方法中由情境查询扩展模块通过情境扩展更加有效地引导用户快速定位并得到所期望的搜索结果的流程框图;
图7是本发明所述的基于本体的情境搜索方法中由情境查询处理模块实现情境推荐、情境检索,并使用情境排序子模块对情境检索结果加工处理,最后将所得结果返回到用户的查询界面的流程框图;
图8是基于本体的情境搜索方法中经过用户兴趣挖掘而得到的某用户兴趣图;
图9是本发明所述的基于本体的情境搜索方法中实现网页情境解析与表示以及构建情境索引过程中处理的一个中文网页实例,该网页的网址为http://tech.sina.com.cn/mobile/n/apple/2012-12-11/08377875411.shtml。
具体实施方式
下面结合附图对本发明作详细的描述:
本发明所述的基于本体的情境搜索方法所要解决的技术问题是克服了现有技术的不足,基于本体提出网页情境解析与表示、用户情境挖掘与表示、情境索引处理、情境扩展、情境查询处理等情境搜索中的关键问题,提出并实现一系列面向情境搜索的新技术与新方法,可有效地解决面向情境的搜索问题,提高搜索的精准性,实现个性化搜索,达到所得即所需的服务目标,为新一代搜索引擎提供支持。其中本体是关于领域知识的概念化、形式化的明确规范,定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则。经过仔细分析,本方法采用的本体技术作为一种通用工具,特别适合情境搜索问题。本发明所使用的本体是在现有本体的基础上进一步扩充和完善后所生成的通用本体。
参阅图1,为实现基于本体的情境搜索方法这一目的自行编制了计算机程序,其包括有五个功能模块,即包括网页情境解析与表示模块、用户情境挖掘与表示模块、情境索引处理模块、情境查询扩展模块和情境查询处理模块,各个模块功能:
1.网页情境解析与表示模块
所述的网页情境解析与表示模块分为网页情境解析和网页情境表示两部分,网页情境包括词、语境词、网页地点、更新时间等。首先进行网页采集,对采集到的网页建立DOM树,实现网页去噪、提取正文等网页解析操作,然后通过自然语言处理技术和通用本体进行词义消歧,实现网页的情境解析,利用命名实体识别技术获取文档内的时间和地点信息,最终将获取到的信息组织输出为网页情境表示形式。
(1)网页情境解析:
为了支持基于情境的检索,必须确定文档中多义实词的唯一释义,网页情境解析根据文档上下文信息确定多义实词的唯一释义,本发明采用基于本体的词义消歧技术来实现。由于词的一个释义可以存在多层上位概念,本发明中采用词的直接上位概念作为其语境。
(2)网页情境表示:
网页情境表示是构建情境索引的基础,也是实现情境检索的保障。传统搜索引擎将网页内容表示为文本向量,不含有词的语境和时间、空间信息。本发明提出的网页情境包括:(1)词和语境词;(2)网页内的地点信息;(3)网页时间信息;包括网页创建时间、最近更新时间、网页内时间。
本发明中利用通用本体表示网页情境,并结合函数描述,给出了其形式化表示。
2.用户情境挖掘与表示模块
所述的用户情境挖掘与表示模块分为用户情境挖掘和用户情境表示两部分,负责使用本体技术给出清晰、明确、可计算的用户情境说明和描述。用户情境包括用户兴趣、查询意图以及搜索时间和地点等。通过挖掘用户兴趣、从用户连续的搜索行为中预测查询意图,同时考虑用户搜索时所处的时间和空间因素,形成用户情境表示,为情境扩展和排序提供依据。情境搜索强调以“人”为本,深层挖掘用户情境,准确定位用户需求。具体研究内容包括:
(1)用户情境挖掘:
用户情境包括用户兴趣、查询意图以及搜索时间和地点,其中,提交查询的时间和地点易于获得,而通过用户搜索日志挖掘用户兴趣,并在此基础上推断查询意图,则是用户情境发现的难点。用户兴趣包括长期兴趣和短期兴趣。长期兴趣描述了用户搜索需求的长期特征,通常与爱好、专业或职业等有关,具有相对稳定的特性;短期兴趣刻画了用户短时间内关注的内容,是对短期检索需求的反映,具有随时间漂移的特性。本发明以用户兴趣为基础,从用户连续的搜索行为中预测查询意图,实现零负荷、高精度的用户情境获取,这对于情境搜索来说至关重要。由于用户行为变量和意图标签数量庞大,在用户搜索过程中,直接模型化表示用户行为动态或用户意图动态是非常困难的。鉴于贝叶斯网络具有以下特点:
①可以处理不完整和带有噪声的数据集;
②用图形的方法描述数据间的相互关系,语义清晰,可理解性强;
③易将先验知识和概率相结合,具有因果和概率性语义。
本发明基于贝叶斯网络推断用户搜索过程中的查询意图。
(2)用户情境表示:
系统充分理解用户情境是实现情境搜索服务目标的重要前提,因此给出清晰、明确、可计算的用户情境说明和描述是十分必要的。目前信息表示的主要方法有词袋、向量和图,但均不足以应对用户情境表示面临的各种挑战,本发明采用本体技术组织和描述用户情境。
3.情境索引处理模块
所述的情境索引处理模块是在网页情境解析与表示的基础上进行的,负责调用网页情境解析模块,并根据分析结果,设计融入了语境词和时间、空间信息的情境正向索引结构,并将语境索引与时空索引有机地结合在一起,建立真正直接支持情境检索的索引结构。传统搜索引擎的索引结构包括网页到词的正向索引和词到网页的倒排索引,如果在该索引结构的基础上实现个性化情境搜索,则必须对返回结果进一步过滤处理。面对传统索引的不足和情境搜索带来的挑战,需要将网页情境信息融入索引结构。该结构可以在不过多提升空间代价的情况下,设计情境正向索引和情境倒排索引。
(1)情境正向索引:
传统搜索引擎的正向索引记录了网页到词的对应关系。这种正向索引结构简单,在其基础上可以方便快捷地构建词到网页的倒排索引,但缺少语境信息。本发明利用网页情境表示,在传统正向索引的基础上,设计融入了语境词和时间、空间信息的情境正向索引结构。
(2)情境倒排索引:
传统搜索引擎的倒排索引记录了词到网页的对应关系。这种倒排索引的并不直接支持情境检索。本发明利用情境正向索引,设计了<词,语境词>到网页列表的语境索引结构,并借助时空数据库技术,建立基于R*树的空间索引和基于B+树的时间索引,最后将语境索引与时空索引有机地结合在一起,得到真正直接支持情境检索的索引结构。
4.情境查询扩展模块
情境扩展是本发明中提出的一个新概念,该模块根据用户提供的查询词和用户情境挖掘与表示模块中表示出来的用户情境信息相结合,在通用本体中选取恰当的语境词作为情境扩展提供给用户,完善用户查询,准确概括和描述用户信息和需求,从而弥补用户查询信息不足的缺陷。对于多个语境词要按匹配情况进行排序,用户选定扩展的语境词后,本发明可以根据需要更新该用户所对应的兴趣和查询意图。值得注意的是“情境扩展”与当前搜索引擎,如百度、google等,提供的“查询扩展”存在本质不同,本发明中提出的“情境扩展”所限定的语境词一般并不需要出现在返回的结果网页中,它只给出查询所属的概念范畴,而“查询扩展”所扩展的内容作为查询词序列的一部分,必须出现在返回的结果网页中。
5.情境查询处理模块
所述的情境查询处理模块包括情境推荐、情境检索和情境排序三个子模块:
1)情境推荐子模块负责将网页数据库中存储的最新的网页,根据网页情境与用户情境的匹配程度,按照匹配分值高的网页主动推荐(推送)给用户,达到“不搜亦得”的智能化检索目标,这与当前搜索引擎提供的导航不同,情境推荐并非单纯结合用户点击浏览行为数据向用户推送网址,而是以用户当前情境(包括用户的长期兴趣、短期兴趣、当前时间、所处地点等信息)为推测依据,结合网页情境,向用户自动推荐一定时段内最新抓取的、具有一定权威性的、与用户情境相匹配的网页;
2)情境检索子模块发生在用户提交查询词之后,负责在情境索引的基础上,利用经情境扩展获得的查询情境信息检索网页,直接获得满足用户需求的查询结果,无需过滤。在实际检索中,检索提问涉及的查询词往往不只一个,而同一个查询词通常又涉及多个同义词或相关词,查询所处的用户情境更是千差万别,如何有效查找到符合用户情境的网页,是情境检索子模块的主要任务;
3)情境排序子模块负责对情境检索返回的结果,结合用户情境和网页情境增加排序的相关性,并且依据情境相关性(语境相关性、网页权威性、地理位置、时间等)进行排序,目前搜索引擎使用的排序算法主要包括词频位置加权排序算法和链接分析排序算法,排序过程未涉及用户情境。
参阅图2,本发明所述的基于本体的情境搜索方法的步骤如下:
1.参阅图3,由网页情境解析与表示模块对采集到的网页进行解析并表示网页情境信息,步骤如下:
1)使用网络爬虫(Crawler)采集网页并存入网页数据库;
2)建立DOM树进行网页解析,并使用实时搜索爬虫提取网页最近更新时间;
3)实现网页情境解析:
(1)如果网页是中文网页,则对网页进行分词;
(2)利用通用本体和自然语言处理技术构建语义关联图,从而对词或术语进行词义标注。
构建语义关联图的过程为:
歧义词W的往往有多个意义,每个意义就是一个义项,利用通用本体,以歧义词W的各义项为中心,构建半径为N(本发明中取值为3)的包含如下关系的语义关联图:
a.义项描述关系(is-gloss);
b.实例关系(is-sample);
c.结构化语义关系:上位、下位、整体、部分、同义、反义、蕴含、因果、近似、附属等;
d.领域属性关系(is-domain);
语义关联图以边为单位用三元组方式存储,即每一条语义关系作为一个记录存储,语义关系是有向关系,表示方法为:{left,right,RelationName},例如:{bus#1,publictransport#1,kind-of}。
(3)确定语义关联图中语义关系权重;语义关系权重的确定采用如下公式:
其中:maxr、minr是赋予关系r的最大权重与最小权重,nr(Sen1)是在语义关联图中从词义Sen1出发的关系r的边的个数。
(4)计算歧义词W的每个义项和上下文词集的关联度,公式为:
其中:WSi为歧义词W的第i个义项,CS为满足以下条件的义项集合:①出现在语义关联图中,②为上下文词集中词的一个义项,WCR(WSi,CSj)为基于语义关联图和语义关系权重计算义项WSi和CSj的关联度函数;
(5)选取关联度最大的义项作为词W在上下文中的释义,并提取释义的直接上位概念作为语境词,获取W的语境,从而实现文档的情境解析。
4)利用命名实体识别技术获取文档内的时间与地点信息,并将文档表示为网页情境形式:
PC=<{<W,C>},PG,PT>
其中:W为词或术语,C为语境词,PG为网页内的地点信息,PT为网页时间信息(包含创建时间、更新时间、网页内时间)。
语义标注是网页情境解析的关键问题,本发明采用Senseval会议提供的测试语料集进行词义标注实验,该会议为参加者提供了统一的评测语料、词义目录和评测标准,已经成为了词义消歧领域事实上的测试标准。
2.参阅图4,由用户情境挖掘与表示模块实现用户情境挖掘与表示并和第1步骤同时进行,步骤如下:
1)用户兴趣挖掘:
借助通用本体,通过分析历史数据获得用户长期和短期兴趣,建立用户兴趣模型;
(1)对用户搜索日志进行挖掘,获取用户点击的网页类别;
(2)量化用户点击各类网页的会话(session)数和频度;
(3)设定阈值,依据频度,提取用户长期兴趣概念集CL和短期兴趣概念集CS;
用户长期兴趣与短期兴趣分别用通用本体的局部来表示,并可动态漂移。针对用户兴趣的漂移性,用户的长期兴趣和短期兴趣漂移表示为:
L’=long_term_interest_drift(L,S,H)
S’=short_term_interest_drift(S,L,H)
其中:L为用户长期兴趣,S为用户短期兴趣,H为查询历史数据,L’和S’分别为用户兴趣增量学习过程获得的长期兴趣和短期兴趣。
(4)以用户兴趣为基础,基于通用本体,提取CL和CS中的上下位词汇链,将各词汇链衔接在一起,即得用户兴趣模型。
词汇链是由一组概念通过语义关系连接形成的概念语义链,它表示了概念在语义上的内聚关系。以不同语义关系连接概念,可形成不同的词汇链。在此,本发明以上下位关系连接CL和CS中的概念,构建上下位词汇链。依次合并CL中蕴含的上下位词汇链,构造长期兴趣模型。同上,依次合并CS中蕴含的上下位词汇链,构造短期兴趣模型。
2)查询意图预测:
用户当前的查询意图,可能和上次查询意图相同(如:当前查询是重复查询),也可能属于用户长期关注的领域,亦有可能属于用户最近关注的领域。
(1)根据用户本次的查询词,从用户连续的搜索行为中预测查询意图,并实现用户情境获取确定用户的查询意图。采用动态贝叶斯网络推断当前用户查询的搜索意图,形式化表示为:
I=Intent_infer(L,S,P,Q)=<I1(p1),I2(p2),…,In(pn)>
其中,p1,p2,…,pn分别为查询子意图I1,I2,…,In的概率(可信度),I为用户的查询意图,L为用户的长期兴趣,S为用户的短期兴趣,P为点击网页,Q为查询,Intent_infer为基于动态贝叶斯网洛的查询意图推测函数。
(2)通过动态贝叶斯网络,利用搜索系统的先验知识,计算用户当前查询意图的后验概率分布。本发明根据已有的经验知识,定义了①用户的查询意图I、②用户的长期兴趣L、③用户的短期兴趣S、④点击网页P与⑤查询Q五个数据变量,并找出了数据变量之间的因果关系,获得动态贝叶斯网络。
查询意图预测涉及的主要概率计算公式如下:
其中:It表示第t次查询的意图,It-1表示第t-1次查询的意图,Lt表示第t次查询时的用户长期兴趣,St表示第t次查询时的用户短期兴趣,Pt-1表示第t-1次查询时的点击的网页,Qt表示第t次查询。
3)基于步骤1)和步骤2)的计算,使用本体技术给出清晰、明确、可计算的用户情境说明和描述。用户情境包括用户兴趣、查询意图以及搜索时间和地点。可以将用户情境表示为:
UC=<L,S,I,Q,UG,UT>
其中:L为用户长期兴趣,S为用户短期兴趣,I为当前查询意图,Q为查询词,UG为用户地理位置,UT为用户查询时间。
3.由情境索引处理模块设计融入网页情境信息的索引结构,步骤如下:
参阅图5,在实现了网页情境解析和表示之后,根据步骤1中获得的网页情境信息进行情境正向索引和情境倒排索引的创建,由所述的情境索引处理模块设计并实现融入网页情境信息的索引结构,该结构可以在不过多提升空间代价的情况下,保证索引更新快捷方便,满足实时响应要求,提高检索系统的服务效果,可以摒弃“先搜索、再过滤”的传统检索方式。
1)构建情境正向索引:
根据网页情境解析的结果,构造文档到<词,语境词>以及时间与空间信息之间的索引,同时附着索引项的相应特征信息,包括词在网页中位置、词频、权重等。本发明将情境正向索引表示为:
docid→<{<wordid,context>,{pos},freq,weight},{Time},{Geo}>
其中docid表示文档号,wordid表示词号,context表示语境词,pos表示词在网页中的位置,frep表示词在网页中的词频,weight表示词在网页中的权重,Time表示时间信息,Geo表示空间信息。
情境正向索引主要分为三个部分:语境信息、时间信息和空间信息,来自于网页情境解析与表示模块处理后得到的结果信息,每一部分信息描述如下:
a.语境信息:
表达式中的{<wordid,context>,{pos},freq,weight}部分合称为语境信息,是在网页情境解析后,将词和语境词绑定供检索匹配时使用,一个词的语境词用该词在本体中的直接上位概念表示,由于语境词本身可能也是检索词,因而在本体和倒排索引中也有其上位概念,如此可以找到一串上位词(语境词),称作“词汇链”,供检索匹配时使用。本发明中将wordid与context绑定,以方便构造倒排索引;
b.时间信息:表达式中的{Time}部分,由网页创建时间、更新时间和网页内容时间等构成,并以标准日期、时间格式表示;
c.空间信息:表达式中的{Geo}部分,表示网页内容中所涉及的地点信息,并以经度和纬度形式表示。
这样,情境正向索引实现了将网页解析后各种情境信息表示成索引项的形式,以便在下面的步骤2)中构建情境倒排索引。
2)构建情境倒排索引:
情境倒排索引是在传统搜索引擎倒排索引技术基础上,融入了语境信息、时间信息和空间信息,得到真正直接支持情境检索的索引结构。
(1)首先利用情境正向索引,构造<词,语境词>到文档集合的索引,即:
<wordid,context>→{<docid>}
本发明中将wordid与context绑定,以方便情境检索与情境扩展。注意在检索时,用检索词对倒排索引中的wordid进行匹配,将用户情境与context进行匹配。
与通常搜索引擎索引结构相比,本发明设计并实现的情境索引增加了语境词(context)。由于一个词的释义一般不超过5个,多在2-3个之间,只考虑语境词的索引存储规模的增加不会超过5倍,因此,本发明设计的情境索引是非常简洁而有效的。
(2)为支持对时间和空间敏感的查询,需要借鉴时空数据库的索引结构对上述提出的索引进行进一步的改进,空间索引GI用R*树构建,时间索引TI用B+树构建,语境索引CI用倒排形式构建,对CI中的docid列表先按地理位置,再按时间进行索引。三层索引表示为Index=CI→GI→TI,注意CI中的doclist(文档序列)已被GI和TI进一步索引。
4.由情境扩展模块实现情境扩展并形成查询情境,步骤如下:
参阅图6,根据步骤2即用户情境挖掘与表示模块中得到的用户情境信息,利用通用本体实现情境扩展,本发明提出的情境扩展是一个新概念,是指利用用户情境,通过一定的方法和策略,在情境级别上对查询词进行扩展,限定查询词所属的语境,形成查询情境,从而弥补用户查询信息不足的缺陷。例如,当对“苹果电脑”感兴趣的用户提交查询词“apple”时,情境扩展会限定语境词为“电子产品”,这样返回结果中就不再出现诸如“水果”、“电影”类网页。情境扩展与查询扩展有着本质的不同,区别在于:查询扩展中的扩展词作为查询词序列的一部分,必然出现在查询结果网页中;而情境扩展中限定的语境词一般并不需要出现在结果网页中,它只给出查询所属的概念范畴。通过情境扩展,可以更加有效地引导用户快速定位并得到所期望的搜索结果。
本发明利用通用本体选取恰当的语境词作为情境扩展提供给用户,由于一个术语在通用本体中可能有多个语境词与之对应,因此需要依据用户情境信息选取最佳匹配的语境词。本发明中,利用通用本体结合查询词和步骤2中得到的查询意图获得相应语境词,实现情境扩展,形式化表示为:
SearchContext=ContextExpansion(Q,O,I,UG,UT)
其中:Q为查询词,O为通用本体,I为查询意图,UG为查询地点,UT为查询时间。在绝大多数情况下,本发明推荐的语境词是恰当的,但当用户意图发生突变时,最佳匹配的语境词不一定是本次搜索所期望的,此时本发明将提供次佳匹配的语境词。因此,需要将多个语境词按匹配情况进行排序。
1)根据用户提供的查询词和在所述用户情境挖掘与表示模块所获得的用户情境信息,使用通用本体提取查询Q的若干释义<QS1,QS2,…,QSm>及相应的若干语境<C1,C2,…Cm>。
2)在所述查询子意图SI1,SI2,…,SIn的基础上,利用朴素贝叶斯模型计算语境词Ci的后验概率p(Ci|I1,I2,…,In),并按照语境词的后验概率的降序向用户推荐相应语境的情境扩展,其中后验概率最大的语境词为最佳语境词,其次为次佳语境词。
3)若用户选择某情境扩展,则取相应语境为最终确认结果,否则自动选取p(Ci|I1,I2,…,In)值最大的语境为最终确认结果,且以次佳匹配的语境词为备选。用户选定扩展的语境词后,如果用户选定的语境词与本发明提供的最佳语境词不一致,需要更新该用户的兴趣和查询意图。
4)最后获取查询词Q的同义词集Syn,查询情境形式化表示为:<{<Q,Syn,C>},UG,UT>,其中:Q为查询词,Syn为Q的同义词集,C为Q的语境词,UG为查询地点,UT为查询时间。
5.由情境查询处理模块实现情境查询处理,步骤如下:
使用步骤1中网页情境挖掘和表示模块所得到的网页数据库,以及步骤3中情境索引处理模块所创建的索引数据库,结合步骤3中获得的用户情境表示,并调用步骤4情境扩展模块得到的查询扩展结果,实现情境推荐、情境检索,并由情境排序子模块对情境检索结果加工处理,最后将所得结果返回到用户的查询界面。
1)情境推荐:
此步骤发生在用户打开查询界面但是没有进行查询操作时,对于所述网页数据库中的网页,根据网页情境与用户情境的匹配程度及网页权威性,以合理的顺序向用户主动推荐网页,达到“不搜亦得”的智能化检索目标。情境推荐的形式化表示为:
Result=Recommend(Pages,UT,UG,A,RSL)
其中:Pages表示新抓取的网页集合,UT表示用户最近查询时间,UG表示用户所处地点,A表示网页权威性,RSL表示用户兴趣与网页情境的相关性。
情境推荐形式化表示中的各项的计算方法如下:
a.网页权威性A的计算采用经典的基于网页链接的PageRank静态排序算法。
b.用户兴趣与网页情境的相关性RSL=m×RS+n×RL。其中:m和n是权衡系数,RS表示短期兴趣与网页情境的相关性,RL表示长期兴趣与网页情境的相关性。
其中:Sset表示短期兴趣概念集合,Lset表示长期兴趣概念集合,Cset表示网页情境中的语境词集。
2)情境检索:
此过程发生在用户提交了此次查询的查询词之后。
(1)经所述情境扩展模块处理获得语境词、地理位置、时间信息,利用这些信息,在所述融入网页情境信息的索引结构中进行检索。
(2)同时访问所述网页数据库,得到相匹配的网页,形式化表示为:
Result=Search(Index,Q,C,Syn,UG,UT)
其中,Syn为Q的同义词集;用C和Q或C和Syn在索引Index中的第一层语境索引CI中进行检索,用用户所处地点UG在第二层空间索引GI中进行检索,用用户最近检索时间UT在第三层索引时间TI中进行检索。由于采用了恰当的数据结构,保证快速定位检索信息。
在每一层检索的具体过程描述如下:
a.在语境层检索:
首先,构建查询词的语境检索项,语境检索既可以利用消解歧义后的语境词实现精准检索,又可以通过查询词的同义词集实现语义相关检索,同义词与查询词具有共同的语境词,这样每个查询词Qi产生的语境检索项表示为:{<Qi,Ci>,<Syni1,Ci>,…,<Synik,Ci>}。
其次,在语境索引中,通过查询词的语境检索项检索相应的语境索引项,进而在空间索引中继续检索。
b.在空间层检索:
首先,借助地理学本体和地理信息系统将查询中涉及空间信息的查询词项映射为区域或坐标,并采用自然语言处理技术识别出与空间信息相关的语义信息,从而实现查询词空间敏感信息的检测。
然后,根据检测结果进一步判断,若查询词不具有空间敏感性,检索的内容包括语境索引项下的所有空间索引项;否则,利用用户所在位置的空间信息UG和查询词项涉及的空间敏感信息,确定适合空间检索的窗口大小,从而在空间索引GI中检索符合用户空间信息需求的相关索引项,进而在时间索引中继续检索。
c.在时间层检索:
对于时间不敏感查询,其检索范围为整个时间轴;对于时间敏感查询,检索范围为[st,et]表达的时间区间,st为起始时间,et为终止时间,此时间区间为1小时或1天或1周或1月或1年,是通过情境扩展模块处理用户提交的查询词、用户的查询时间信息分析后得到的。用UT在B+树TI中进行检索,将落在UT范围内的网页作为返回结果。
3)情境排序:
此步骤发生在经情境检索取得返回结果之后,对于情境检索返回的结果,依据情境相关性(语境相关性、地理位置、时间等)及网页权威性进行排序,排序之后的结果就可以提供到用户查询界面中了,情境排序的形式化表示为:
Result’=Rank(Result,A,R)
其中:A为网页权威性,采用经典的基于网页链接的PageRank静态排序算法,R为情境相关性,是用户情境表示UC=<L,S,I,Q,UG,UT>与网页情境表示PC=<{<W,C>},PG,PT>匹配的结果,即:R=Match(UC,PC)。该公式基于Q与W的匹配、I与C的匹配、UG与PG的匹配、UT与PT匹配,返回相应网页的情境相关性值。
本发明通过实验确定参数A和R在最终排序算法中的权重,并依据该权重对经典排序结果进行调整。
(1)采用经典的基于网页链接的PageRank静态排序算法,确定网页权威性A的值;
(2)使用BM25概率检索模型,通过计算网页情境中的语境词与查询意图间的相关性概率,获得网页文档与查询词之间的概念相关性得分Rc。即在查询词扩展所得的各上位概念,与网页情境解析所得的各上位概念之间,计算相关性概率。文档的分值可以匹配到各概念项概率求和。
(3)网页情境解析的某上位概念HCx的概率,由相关集合中所有扩展出HCx的词的频率相加求和得到。
(4)通过比对UG与PG中各地理位置信息,获得UG和PG的匹配度得分Rg,计算与查询词匹配之后所得向量的分量进行加权求和得出,即Σgi×wi,gi表示地理位置信息的向量各分量,wi为对应的权重,取值区间为[0,1]。
(5)索引项的时间信息得分Rt,由网页情境时间信息是否匹配查询意图要求的信息,如果匹配取值为1,否则取值为0,乘以权值常数0.85以保证其影响力,再加上由查询时间和网页发布时间差值函数f(t)确定的网页新鲜程度得分,其中f(t)=DecayRate(St-Pt),St为查询时间,Pt为网页发布时间,DecayRate取值为0.5。
(6)最终由Rc+Rg+Rt得出R的值。
(7)根据计算结果进行排序,排序之后的结果就可以提供到用户查询界面中。
由于用户的思维状态是动态变化的,查询意图的预测不能保证完全正确,因此,需要依据用户后续的浏览行为,调整结果顺序,或对次佳情境扩展所对应的检索结果执行情境排序操作。依据用户后续的浏览行为调整结果顺序的形式化表示为:
Result”=Adjust(Result’,Behavior)
其中:Behavior为用户后续的浏览行为。
实施例:
参阅图2,本发明所述的基于本体的情境搜索方法的步骤如下:
1.参阅图3,由网页情境解析与表示模块对采集到的网页进行解析并表示网页情境信息,步骤如下:
1)使用网络爬虫(Crawler)采集网页并存入网页数据库;
2)建立DOM树进行网页解析;
3)实现网页情境解析:
(1)以网址为
http://tech.sina.com.cn/mobile/n/apple/2012-12-11/08377875411.shtml的中文网页为例,如图9中网页所示。.
需要对该网页进行分词,结果如下:
Jefferies/x分析师/nPeterMisek/x昨日/t称/v,苹果/n下一代/niPhone/x明年/t六月/t发布/v,拥有/v多种/m机身颜色/n,提升/v摄像头/n,支持/vNFC/x功能/n。
分析师/nPeterMisek/x认为/viPhone/x5S/x拥有/v6-8/m种q不同/a机身颜色/n,而/cc这/rzv似乎/d有/vyou意向/niPod/xtouch/x靠拢/v。此前/t苹果/niPhone/x除了/p黑白/n两种/m配色/v,从未有过/vl其它/rz任何/rz颜色/n。除此之外/c,iPhone/x5S/x将/d采用/vIGZO/x超级/b视网膜/n屏幕/n,新增/v128GB/x机身/n容量/n,拥有/v更好/a待机/vn,支持/vNFC/x功能/n。PeterMisek/x称/viPhone/x5S/x面世/vi时间/n明年/t六月/t或/c七月/t。
而/cc针对/piPhone/x6/vg,分析师/n称/v已经/d有/vyou了/y多/m部/n原型机/n。iPhone/x6/vg原型机/n拥有/v4.8/m英寸/q屏幕/n,采用/vIGZO/x材质/nRetina/x+/q超级/b视网膜/n屏幕/n,并且/c搭载/vA7/x四核/n处理器/n,取消/v实体/nHOME/x按键/n。
此前/t台湾/nsDigiTimes/x曾/d报道/v称/v,iPhone/x5S/x将/d在/p本月/t进行/vn小规模/d试产/v,预计/v5-10/m万/m台/n,2013年/t第一季度/n推出/v。并/d有/vyou消息/n称/v,由于/piPhone5/x采用/vincell/x面板/n良/d率/v不佳/a,苹果/n很有可能/n下一代/niPhone/x中/f采用/vOGS/x触控/v面板/n,明年/t上半年/t正式/ad推出/v。(琪/ng欣/vg)
(2)利用通用本体和语义关联图对词或术语进行消歧;
(3)确定语义关联图中语义关系权重;语义关系权重的确定采用如下公式:
其中:maxr、minr是赋予关系r的最大权重与最小权重,本发明中分别取maxr、minr的值为1和0;nr(Sen1)是在语义关联图中从词义Sen1出发的关系r的边的个数。关系r包括①义项描述关系(is-gloss);②实例关系(is-sample);③结构化语义关系:上位、下位、整体、部分、同义、反义、蕴含、因果、近似、附属等;④领域属性关系(is-domain)。
(4)计算歧义词“苹果”的每个义项和上下文词集的关联度,公式为:
其中,WSi为歧义词W的第i个义项,歧义词“苹果”的义项分别为:
WS1:苹果,一种常见的水果。
WS2:苹果公司,一家著名的电子产品生产厂商,原名苹果电脑。
WS3:苹果日报,一份由香港上市公司壹传媒集团旗下的正体中文报纸。
WS4:苹果(电影),一部在2007年上映的中国电影。
WS5:苹果(产品),iphone、ipad等。
CS为满足以下条件的义项集合:①出现在语义关联图中②为上下文词集中词的一个义项;
(5)经过(4)中的关联度计算,可以得出关联度最大的义项为WS5,将其作为词“苹果”在上下文中的释义,并提取该释义的直接上位概念“电子产品”作为语境词。
4)利用命名实体识别技术获取文档内的时间与地点信息,并将文档表示为网页情境形式:
图9中所示的网页可以表示为以下的情境形式,网页PC=<{<苹果,Dp03>,<下一代,Bc05>,<iPhone,Wd05>,<明年,Ca02>,<六月,Ca04>,<发布,Hc11>…,<明年,Ca02>,<上半年,Ca02>,<正式,Ed21>,<推出,Hd29>},{台湾},{明年六月,七月,上半年}>,其中Dp03、Bc05等代表词所对应的语境词在通用本体中的编号。
2.参阅图4,由用户情境挖掘与表示模块实现用户情境挖掘与表示并和第1步骤同时进行,步骤如下:
1)用户兴趣挖掘:
(1)对某一指定用户两个月内的搜索日志进行挖掘,经过分析,获取该用户点击的网页的主题向量描述,向量分量分属于不同的网页类别,包括:数码产品、体育、新闻、政治等。
对该用户所点击的网页类别出现的频度和持续的时间进行量化,设定阈值,依据频度,提取用户短期兴趣概念集CS,并进一步学习得出长期兴趣概念集CL。
短期兴趣概念集CS为{政治,选举,总统,…,美国}。
长期兴趣概念集CL为{linux,编程工具,编程语言,搜索引擎,社会网,手机,计算机,…,篮球,球类比赛,职业比赛}。
(2)以用户兴趣为基础,基于通用本体,提取CL和CS中的上下位词汇链,将各词汇链衔接在一起,即得用户兴趣模型。
参阅图8,图中为经过用户兴趣挖掘而得到的某用户兴趣模型图,O1,O2是用户长期兴趣,O3是该用户的短期兴趣。由图可见,该用户的长期兴趣主要为电脑、手机等电子产品和体育方面。通过从本体中揭示它们的之间的相互关系,可以推断用户的兴趣倾向不仅仅局限于电脑和手机,对与电子设备有关的其他产品,如数码相机、psp等方面的网页和信息,该用户亦有可能存在兴趣。另外,用户短期内对奥巴马,美国大选等新闻事件的兴趣并未持续很久,在后续探测过程中,其对应的网页出现次数较少,不能满足成为长期兴趣的阈值要求,因此只能作为用户的短期兴趣。
2)查询意图预测:
例如:用户本次的检索词“苹果”,根据用户兴趣的挖掘,得知该用户的长期兴趣如图8中所示的O1和O2,短期兴趣如图8中的O3所示,而采用动态贝叶斯网络推断当前用户查询的搜索意图,形式化表示为:
I=Intent_infer({O1,O2},O3,P,苹果)=<电子产品(p1),公司(p2),电影(p3),水果(p4)……>。
从用户连续的搜索行为和主要概率计算公式:
其中:It表示第t次查询的意图,It-1表示第t-1次查询的意图,Lt表示第t次查询时的用户长期兴趣,St表示第t次查询时的用户短期兴趣,Pt-1表示第t-1次查询时的点击的网页,Qt表示第t次查询。
计算并推断出用户查询的搜索意图为:
I=<电子产品(0.7),公司(0.2),电影(0.08),水果(0.016)…>,其中各子意图概率之和为1。
3)基于步骤1)和步骤2)的计算,使用本体技术给出清晰、明确、可计算的用户情境说明和描述,可以得知该用户的情境表示为:
UC=<{O1,O2},O3,<电子产品(0.7),公司(0.2),电影(0.08),水果(0.016)……>,{苹果},{吉林省长春市吉林大学},{2012-12-11}>。
3.根据第1步骤中实现的网页情境表示设计融入网页情境信息的索引结构并保存到索引数据库中,步骤如下:
1)构建情境正向索引:
图9中所示的网页所对应的情境正向索引表示为:
2029->{<Jefferies,Wa11>,0,0.005,0.112}->{<分析师,Db01>,1,0.02,0.169}->……->{<苹果,Dp03>,6,0.08,0.721}->……
其中Wa11、Db01等代表词所对应的语境词在通用本体中的编号。
2)构建情境倒排索引
利用情境正向索引,构造<词,语境词>与文档集合之间的索引,例如在第1步骤中实现的网页情境解析基础上,图9中所示的网页中的苹果一词可表示为:
<苹果,Dp03>->……->[2029]->[125451]->[184573]->……
其中Dp03代表词“苹果”所对应的语境词在通用本体中的编号。
为支持对时间和空间敏感的查询,需要借鉴时空数据库的索引结构对上述提出的索引进行进一步的改进,空间索引GI用R*树构建,时间索引TI用B+树构建,语境索引CI用倒排形式构建。
将构建好的情境索引保存到索引数据库中。
4.由情境扩展模块实现情境扩展并形成查询情境,步骤如下:
根据用户提供的查询词为“苹果”,结合在步骤2中用户情境挖掘与表示模块所获得的用户情境信息,使用通用本体提取查询词“苹果”的若干释义为<QS1,QS2,QS3,QS4,QS5>;
QS1:苹果,一种常见的水果。
QS2:苹果公司,一家著名的电子产品生产厂商,原名苹果电脑。
QS3:苹果日报,一份由香港上市公司壹传媒集团旗下的正体中文报纸。
QS4:苹果(电影),一部在2007年上映的中国电影。
QS5:苹果(产品),iphone、ipad等。
及其相应的若干语境<C1,C2,C3,C4,C5>为:
C1:水果,C2:组织,C3:读物,C4:电影,C5:电子设备。
2)参阅图8,基于步骤2中用户情境挖掘与表示模块得到的某用户情境信息,其长期兴趣为图中的O1和O2,短期兴趣为图中的O3,当该用户提交查询词“苹果”时,利用朴素贝叶斯模型计算语境词Ci的后验概率p(Ci|I1,I2,…,In),经过计算,限定最佳语境词为“电子产品”
3)若用户选择某情境扩展,则取相应语境为最终确认结果,否则自动选取p(Ci|I1,I2,…,In)值最大的语境词“电子产品”为最终确认结果。用户选定扩展的语境词后,如果用户选定的语境词与本发明提供的最佳语境词不一致,需要更新该用户的兴趣和查询意图。
4)这样搜索结果页中就不再出现诸如“水果”、“电影”类网页。最后得到的查询情境为:
<{<苹果,{苹果},{电子产品}>,吉林省长春市吉林大学,2012-12-11}
5.由情境查询处理模块实现情境查询处理,步骤如下:
1)情境推荐:
此步骤发生在用户打开查询界面但是没有进行查询操作时,对于经步骤1网页采集存储在网页数据库中网页,根据网页情境与用户情境的匹配程度及网页权威性,以合理的顺序向用户主动推荐网页,达到“不搜亦得”的智能化检索目标。情境推荐的形式化表示为:
Result=Recommend(Pages,UT,UG,A,RSL)
其中:Pages表示新抓取的网页集合,UT表示用户最近查询时间,UG表示用户所处地点,A表示网页权威性,RSL表示用户兴趣与网页情境的相关性。
参阅图8,通过上述用户情境挖掘与表示模块中得到的某用户情境信息,其长期兴趣为O1和O2,短期兴趣为O3,所以根据网页情境与用户情境的匹配程度、用户兴趣与网页情境的相关性以及网页权威性,本发明将主动推荐电子产品类的网页和与当前的体育比赛相关信息的网页,以及有关美国总统奥巴马最近的新闻事件。
对于该用户,本发明所给出的情境推荐明细如表1所示:
表1情境推荐明细
2)情境检索:
此过程发生在用户提交了此次查询的查询词之后。
(1)经步骤4情境扩展模块处理获得查询情境信息为:<{<苹果,{苹果},{电子产品}>,吉林大学,2012-12-11},利用这些信息,在本发明构建的情境索引数据库中进行检索。
(2)同时访问步骤1建立的网页数据库,得到相匹配的网页,形式化表示为:
Result=Search(Index,苹果,电子产品,苹果,吉林省长春市吉林大学,2012-12-11)。
用“电子产品”和“苹果”在索引Index中的第一层语境索引CI中进行检索,用用户所处地点“吉林省长春市吉林大学”在第二层空间索引GI中进行检索,用用户最近检索时间“2012-12-11”在第三层索引时间TI中进行检索。
3)情境排序:
此步骤发生在情境检索取得返回结果之后,对于该返回结果,依据情境相关性(语境相关性、地理位置、时间等)及网页权威性进行排序,排序之后的结果就可以提供到用户查询界面中了,情境排序的形式化表示为:
Result’=Rank(Result,A,R)
其中:A为网页权威性,采用经典的基于网页链接的PageRank静态排序算法,R为情境相关性,是用户情境UC与网页情境PC匹配的结果,即:R=Match(UC,PC)。该公式基于Q与W的匹配、I与C的匹配、UG与PG的匹配、UT与PT匹配,返回相应网页的情境相关性值。
例如:通过上面的分析,可以得知该用户对电子产品感兴趣,当用户的查询词为“苹果”时,那么通过UC和PC中的情境信息匹配情况,与电子产品相关的网页的排序位置会相应得到提升。
如果该用户的兴趣是水果,则那么通过UC和PC中的情境信息匹配情况,并且考虑到该用户的IP地址是吉林省长春市,则查询返回的结果中应该将反映“最新吉林苹果价格”的网页信息(网页1)显示在其他结果前面。
网页1
Claims (6)
1.一种基于本体的情境搜索方法,其特征在于,所述的基于本体的情境搜索方法包括如下步骤:
1)由网页情境解析与表示模块对采集到的网页进行解析并表示网页情境信息:
(1)使用网络爬虫即Crawler采集网页并存入网页数据库;
(2)建立DOM树进行网页解析,并使用实时搜索爬虫提取网页最近更新时间;
(3)实现网页情境解析,步骤如下:
a.如果网页是中文网页,则对网页进行分词;
b.利用通用本体和自然语言处理技术构建语义关联图,对词进行词义标注;
c.确定语义关联图中语义关系权重;语义关系权重的确定采用如下公式:
其中:maxr、minr是赋予关系r的最大权重与最小权重,nr(Sen1)是在语义关联图中从词义Sen1出发的关系r的边的个数;
d.计算词W的每个义项和上下文词集的关联度,公式为:
其中:WSi为词W的第i个义项,CS为满足以下条件的义项集合:①出现在语义关联图中,②为上下文词集中词的一个义项,WCR(WSi,CSj)为基于语义关联图和语义关系权重计算义项WSi和CSj的关联度函数;
e.选取关联度最大的义项作为词W在上下文中的释义,并提取释义的直接上位概念作为语境词,获取W的语境,从而实现网页的情境解析;
(4)利用命名实体识别技术获取网页内的时间与地点信息,并将网页表示为网页情境形式:
PC=<{<W,C>},PG,PT>
其中:W为词,C为语境词,PG为网页内的地点信息,PT为网页时间信息,包含创建时间、更新时间与网页内时间;
2)由用户情境挖掘与表示模块实现用户情境挖掘与表示并和第1)步骤同时进行:
(1)用户兴趣挖掘;
(2)查询意图预测;
(3)基于步骤(1)与步骤(2)中得到的处理结果,使用本体技术给出用户情境说明和描述;用户情境包括用户兴趣、查询意图以及搜索时间和地点;将用户情境表示为:
UC=<L,S,I,Q,UG,UT>
其中:L为用户长期兴趣,S为用户短期兴趣,I为用户的查询意图,Q为查询词,UG为用户提交查询时的地理位置,UT为用户的查询时间;
3)由情境索引处理模块设计融入网页情境信息的索引结构:
(1)构建情境正向索引;
(2)构建情境倒排索引;
4)由情境扩展模块利用第2)步骤获得的用户情境,实现对查询词的情境扩展,即形成查询情境;
5)由情境查询处理模块利用第4)步骤获得的查询情境,实现情境查询处理。
2.按照权利要求1所述的基于本体的情境搜索方法,其特征在于,所述的用户兴趣挖掘包括如下步骤:
1)对用户搜索日志进行挖掘,获取用户点击的网页类别;
2)量化用户点击各类网页的会话数和频度;
3)设定阈值,依据频度,提取用户长期兴趣概念集CL和短期兴趣概念集CS;
用户长期兴趣与短期兴趣分别用通用本体的局部来表示,针对用户兴趣的漂移性,用户的长期兴趣漂移和短期兴趣漂移表示为:
L’=long_term_interest_drift(L,S,H)
S’=short_term_interest_drift(S,L,H)
其中:long_term_interest_drift表示基于增量学习的长期兴趣漂移函数,用于获得漂移后的用户长期兴趣;short_term_interest_drift表示基于增量学习的短期兴趣漂移函数,用于获得漂移后的用户短期兴趣;L为用户长期兴趣,S为用户短期兴趣,H为查询历史数据,L’和S’分别为用户兴趣增量学习过程获得的长期兴趣和短期兴趣;
4)以用户兴趣为基础,基于通用本体,提取CL和CS中的上下位词汇链,将各词汇链衔接在一起,即得用户兴趣模型。
3.按照权利要求1所述的基于本体的情境搜索方法,其特征在于,所述的查询意图预测包括如下步骤:
1)根据用户本次的查询词,从用户连续的搜索行为中预测查询意图,并实现用户情境获取确定用户的查询意图;采用动态贝叶斯网络推断当前用户查询的搜索意图,形式化表示为:
I=Intent_infer(L,S,P,Q)=<SI1(p1),SI2(p2),…,SIn(pn)>
其中:I为用户的查询意图,p1,p2,…,pn分别为查询子意图SI1,SI2,…,SIn的概率,L为用户长期兴趣,S为用户短期兴趣,P为点击网页,Q为查询词,Intent_infer为基于动态贝叶斯网络的查询意图推测函数;
2)通过动态贝叶斯网络,利用搜索系统的先验知识,计算用户当前查询意图的后验概率分布;根据已有的经验知识,定义了①用户的查询意图I、②用户长期兴趣L、③用户短期兴趣S、④点击网页P与⑤查询词Q五个数据变量,并找出了数据变量之间的因果关系,获得动态贝叶斯网络;
查询意图预测涉及的主要概率计算公式如下:
其中:It表示第t次查询的意图,It-1表示第t-1次查询的意图,Lt表示第t次查询时的用户长期兴趣,St表示第t次查询时的用户短期兴趣,Pt-1表示第t-1次查询时的点击网页,Qt表示第t次查询词。
4.按照权利要求1所述的基于本体的情境搜索方法,其特征在于,所述的构建情境正向索引是指:在正向索引的基础上,设计融入了语境词和时间、空间信息的情境正向索引结构;其中,正向索引为网页到词的索引结构;
所述的构建情境倒排索引是指:利用情境正向索引,设计了<词,语境词>到网页列表的语境索引结构,并借助时空数据库技术,建立基于R*树的空间索引和基于B+树的时间索引,最后将语境索引与时空索引有机地结合在一起,得到支持情境检索的索引结构。
5.按照权利要求3所述的基于本体的情境搜索方法,其特征在于,所述的情境扩展是指利用用户情境,在情境级别上对查询词进行扩展,限定查询词所属的语境,形成查询情境;
利用通用本体结合查询词和所述用户的查询意图I获得相应语境词,实现情境扩展,形式化表示为:
SearchContext=ContextExpansion(Q,O,I,UG,UT)
其中:Q为查询词,O为通用本体,I为用户的查询意图,UG为用户提交查询时的地理位置,UT为用户的查询时间;
所述的情境扩展包括如下步骤:
1)根据用户提供的查询词和在所述用户情境挖掘与表示模块所获得的用户情境信息,使用通用本体提取查询词Q的若干释义<QS1,QS2,…,QSm>及相应的若干语境<C1,C2,…Cm>;
2)在所述查询子意图SI1,SI2,…,SIn的基础上,利用朴素贝叶斯模型计算语境词Ci的后验概率p(Ci|SI1,SI2,…,SIn),并按照语境词的后验概率的降序向用户推荐相应语境的情境扩展,其中后验概率最大的语境词为最佳语境词,其次为次佳语境词;
3)若用户选择某情境扩展,则取相应语境为最终确认结果,否则自动选取p(Ci|SI1,SI2,…,SIn)值最大的语境为最终确认结果,且以次佳匹配的语境词为备选,用户选定扩展的语境词后,如果用户选定的语境词与情境扩展模块提供的最佳语境词不一致,需要更新该用户的兴趣和查询意图;
4)最后获取查询词Q的同义词集Syn,查询情境形式化表示为:<{<Q,Syn,C>},UG,UT>,其中:Q为查询词,Syn为Q的同义词集,C为Q的语境词,UG为用户提交查询时的地理位置,UT为用户的查询时间。
6.按照权利要求1所述的基于本体的情境搜索方法,其特征在于,所述的情境查询处理模块实现情境查询处理,步骤如下:
1)情境推荐:
在用户打开查询界面但是没有进行查询操作时,对于所述网页数据库中的网页,根据网页情境与用户情境的匹配程度及网页权威性,以合理的顺序向用户主动推荐网页,达到“不搜亦得”的智能化检索目标;情境推荐的形式化表示为:
Result=Recommend(Pages,UT,UG,A,RSL)
其中:Pages表示新抓取的网页集合,UT表示用户的查询时间,UG表示用户提交查询时的地理位置,A表示网页权威性,RSL表示用户兴趣与网页情境的相关性;
情境推荐形式化表示中的各项的计算方法如下:
a.网页权威性A的计算采用经典的基于网页链接的PageRank静态排序算法;
b.用户兴趣与网页情境的相关性RSL=m×RS+n×RL;其中:m和n是权衡系数,RS表示短期兴趣与网页情境的相关性,RL表示长期兴趣与网页情境的相关性;
其中:Sset表示短期兴趣概念集合,Lset表示长期兴趣概念集合,Cset表示网页情境中的语境词集;
2)情境检索:
此过程发生在用户提交了此次查询的查询词之后,
(1)经所述情境扩展模块处理获得语境词、地理位置、时间信息,利用这些信息,在所述融入网页情境信息的索引结构中进行检索;
(2)同时访问所述网页数据库,得到相匹配的网页,形式化表示为:
Result=Search(Index,Q,C,Syn,UG,UT)
其中,Syn为Q的同义词集;用“C和Q”或“C和Syn”在索引Index中的第一层语境索引CI中进行检索,用用户提交查询时的地理位置UG在第二层空间索引GI中进行检索,用用户的查询时间UT在第三层时间索引TI中进行检索;在每一层检索的具体过程描述如下:
a.在语境层检索:
构建查询词的语境检索项,语境检索既利用消解歧义后的语境词实现精准检索,又通过查询词的同义词集实现语义相关检索,同义词与查询词具有共同的语境词,这样每个查询词Qi产生的语境检索项表示为:{<Qi,Ci>,<Syni1,Ci>,…,<Synik,Ci>},
其次,在语境索引中,通过查询词的语境检索项检索相应的语境索引项,进而在空间索引中继续检索;
b.在空间层检索:
借助地理学本体和地理信息系统将查询中涉及空间信息的查询词项映射为区域或坐标,并采用自然语言处理技术识别出与空间信息相关的语义信息,从而实现查询词空间敏感信息的检测;
根据检测结果进一步判断,若查询词不具有空间敏感性,检索的内容包括语境索引项下的所有空间索引项;否则,利用用户提交查询时的地理位置UG和查询词项涉及的空间敏感信息,确定适合空间检索的窗口大小,从而在空间索引GI中检索符合用户空间信息需求的相关索引项,进而在时间索引中继续检索;
c.在时间层检索:
对于时间不敏感查询,其检索范围为整个时间轴;对于时间敏感查询,检索范围为[st,et]表达的时间区间,st为起始时间,et为终止时间,此时间区间为1小时或1天或1周或1月或1年,是通过情境扩展模块处理用户提交的查询词、用户的查询时间信息分析后得到的,用UT在B+树TI中进行检索,将落在UT范围内的网页作为返回结果;
3)情境排序:
在经情境检索取得返回结果之后,对于情境检索返回的结果,依据情境相关性及网页权威性进行排序,排序之后的结果提供到用户查询界面中,情境排序的形式化表示为:
Result’=Rank(Result,A,R)
其中:A为网页权威性,采用经典的基于网页链接的PageRank静态排序算法,R为情境相关性,是用户情境表示UC=<L,S,I,Q,UG,UT>与网页情境表示PC=<{<W,C>},PG,PT>匹配的结果,即:R=Match(UC,PC),该公式基于Q与W的匹配、I与C的匹配、UG与PG的匹配、UT与PT匹配,返回相应网页的情境相关性值;
情境排序通过实验确定参数A和R在最终排序算法中的权重,并依据该权重对经典排序结果进行调整;
(1)采用经典的基于网页链接的PageRank静态排序算法,确定网页权威性A的值;
(2)使用BM25概率检索模型,通过计算网页情境中的语境词与查询意图间的相关性概率,获得网页文档与查询词之间的概念相关性得分Rc,即在查询词扩展所得的各上位概念,与网页情境解析所得的各上位概念之间,计算相关性概率,文档的分值匹配到各概念项概率求和;
(3)网页情境解析的某上位概念HCx的概率,由相关集合中所有扩展出HCx的词的频率相加求和得到;
(4)通过比对UG与PG中各地理位置信息,获得UG和PG的匹配度得分Rg,计算与查询词匹配之后所得向量的分量进行加权求和得出,即Σgi×wi,gi表示地理位置信息的向量各分量,wi为对应的权重,取值区间为[0,1];
(5)索引项的时间信息得分Rt,由网页情境时间信息是否匹配查询意图要求的信息,如果匹配取值为1,否则取值为0,乘以权值常数0.85以保证其影响力,再加上由查询时间和网页发布时间差值函数f(t)确定的网页新鲜程度得分,其中f(t)=DecayRate(St-Pt),St为查询时间,Pt为网页发布时间,DecayRate取值为0.5;
(6)最终由Rc+Rg+Rt得出R的值;
(7)根据计算结果进行排序,排序之后的结果提供到用户查询界面中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210575284.8A CN103064945B (zh) | 2012-12-26 | 2012-12-26 | 基于本体的情境搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210575284.8A CN103064945B (zh) | 2012-12-26 | 2012-12-26 | 基于本体的情境搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103064945A CN103064945A (zh) | 2013-04-24 |
CN103064945B true CN103064945B (zh) | 2016-01-06 |
Family
ID=48107575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210575284.8A Expired - Fee Related CN103064945B (zh) | 2012-12-26 | 2012-12-26 | 基于本体的情境搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103064945B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631887B (zh) * | 2013-11-15 | 2017-04-05 | 北京奇虎科技有限公司 | 浏览器侧进行网络搜索的方法与浏览器 |
US10290125B2 (en) * | 2014-07-02 | 2019-05-14 | Microsoft Technology Licensing, Llc | Constructing a graph that facilitates provision of exploratory suggestions |
KR101469523B1 (ko) * | 2014-08-29 | 2014-12-05 | 한국지질자원연구원 | 상황인지에 기반한 사용자 관심정보 서비스를 제공하기 위한 상황인식 온톨로지 구현방법 |
CN104915428B (zh) * | 2015-06-15 | 2018-08-17 | 广东小天才科技有限公司 | 一种智能腕带设备信息查询、推送的方法、装置及智能腕带设备 |
CN104978409B (zh) * | 2015-06-19 | 2018-11-20 | 百度在线网络技术(北京)有限公司 | 一种基于状态影响因子的智能搜索方法及装置 |
US10891106B2 (en) * | 2015-10-13 | 2021-01-12 | Google Llc | Automatic batch voice commands |
CN106874298A (zh) * | 2015-12-14 | 2017-06-20 | 北京国双科技有限公司 | 网页检测方法和装置 |
CN105426535A (zh) * | 2015-12-18 | 2016-03-23 | 北京奇虎科技有限公司 | 基于搜索提示的搜索方法及装置 |
CN106921513B (zh) * | 2015-12-28 | 2019-05-24 | 上海财经大学 | 一种移动普适计算环境中基于情境信息的服务准备方法 |
US9684693B1 (en) * | 2016-04-05 | 2017-06-20 | Google Inc. | On-device query rewriting |
CN107436893A (zh) * | 2016-05-26 | 2017-12-05 | 北京搜狗科技发展有限公司 | 一种网页推荐方法和装置 |
CN106126632A (zh) * | 2016-06-22 | 2016-11-16 | 北京小米移动软件有限公司 | 推荐方法及装置 |
CN106649668A (zh) * | 2016-12-14 | 2017-05-10 | 华南师范大学 | 一种基于向量模型的海量时空数据检索方法及系统 |
CN108319614A (zh) * | 2017-01-18 | 2018-07-24 | 百度在线网络技术(北京)有限公司 | 信息获取方法、装置和系统 |
CN108346075B (zh) * | 2017-01-24 | 2024-06-18 | 北京京东尚科信息技术有限公司 | 信息推荐方法和装置 |
CN106840166B (zh) * | 2017-02-15 | 2020-07-10 | 北京大学深圳研究生院 | 一种基于词袋树群模型的机器人定位和导航方法 |
CN107193873A (zh) * | 2017-04-17 | 2017-09-22 | 吉林工程技术师范学院 | 一种基于语义网技术的网络搜索方法 |
CN110709828A (zh) * | 2017-06-08 | 2020-01-17 | 北京嘀嘀无限科技发展有限公司 | 使用条件随机域模型确定文本属性的系统及方法 |
CN107391883A (zh) * | 2017-08-29 | 2017-11-24 | 广东省科技基础条件平台中心 | 一种基于场境感知的智能导学系统及其实现方法 |
CN110019710A (zh) * | 2017-11-27 | 2019-07-16 | 厦门快商通信息技术有限公司 | 一种主题森林式人机对话方法及系统 |
CN108108405B (zh) * | 2017-12-08 | 2021-01-05 | 华中师范大学 | 基于本体的双情境匹配方法及系统 |
CN108536763B (zh) * | 2018-03-21 | 2021-02-05 | 创新先进技术有限公司 | 一种下拉提示方法和装置 |
CN108549667B (zh) * | 2018-03-23 | 2022-04-08 | 绍兴诺雷智信息科技有限公司 | 一种结构化工程设计知识的语义检索方法 |
CN108710672B (zh) * | 2018-05-17 | 2020-04-14 | 南京大学 | 一种基于增量贝叶斯算法的主题爬虫方法 |
CN109086389A (zh) * | 2018-07-26 | 2018-12-25 | 国信优易数据有限公司 | 一种信息查询方法、推送方法、装置及电子设备 |
CN109410650B (zh) * | 2018-10-10 | 2020-05-19 | 中国电子科技集团公司第二十八研究所 | 面向全系统信息管理的基于情景与语义的信息聚合方法 |
CN109582866A (zh) * | 2018-11-23 | 2019-04-05 | 北京字节跳动网络技术有限公司 | 个性化推荐词的显示方法、装置、存储介质及电子设备 |
CN110083677B (zh) * | 2019-05-07 | 2021-09-17 | 北京字节跳动网络技术有限公司 | 联系人的搜索方法、装置、设备及存储介质 |
CN110298043B (zh) * | 2019-07-03 | 2023-04-07 | 吉林大学 | 一种车辆命名实体识别方法及系统 |
CN110990696B (zh) * | 2019-11-25 | 2023-04-14 | 腾讯科技(深圳)有限公司 | 搜索意图推荐的方法及装置 |
CN111897927B (zh) * | 2020-08-04 | 2022-08-26 | 广西财经学院 | 融合Copulas理论和关联规则挖掘的中文查询扩展方法 |
CN112749162B (zh) * | 2020-12-31 | 2021-08-17 | 浙江省方大标准信息有限公司 | 一种基于es的检验检测机构快速检索排序方法 |
CN115827829B (zh) * | 2023-02-08 | 2023-05-02 | 广州极天信息技术股份有限公司 | 一种基于本体的搜索意图优化方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7779004B1 (en) * | 2006-02-22 | 2010-08-17 | Qurio Holdings, Inc. | Methods, systems, and products for characterizing target systems |
CN102467541A (zh) * | 2010-11-11 | 2012-05-23 | 腾讯科技(深圳)有限公司 | 一种情境搜索方法及系统 |
CN102722498A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8463812B2 (en) * | 2009-12-18 | 2013-06-11 | Electronics And Telecommunications Research Institute | Apparatus for providing social network service using relationship of ontology and method thereof |
-
2012
- 2012-12-26 CN CN201210575284.8A patent/CN103064945B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7779004B1 (en) * | 2006-02-22 | 2010-08-17 | Qurio Holdings, Inc. | Methods, systems, and products for characterizing target systems |
CN102467541A (zh) * | 2010-11-11 | 2012-05-23 | 腾讯科技(深圳)有限公司 | 一种情境搜索方法及系统 |
CN102722498A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
Non-Patent Citations (2)
Title |
---|
基于本体的Web信息抽取系统;王志华 等;《计算机工程与设计》;20120731;第33卷(第7期);第2636页-2638页 * |
基于用户情境本体的个性化知识服务研究;蒋祥杰;《中国优秀硕士学位论文全文数据库信息科技辑》;20120315(第03期);第16页-22页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103064945A (zh) | 2013-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103064945B (zh) | 基于本体的情境搜索方法 | |
CN102243647B (zh) | 从结构化数据中提取高阶知识 | |
Kuo et al. | Building and evaluating a location-based service recommendation system with a preference adjustment mechanism | |
CN103177090B (zh) | 一种基于大数据的话题检测方法及装置 | |
CN102902806B (zh) | 一种利用搜索引擎进行查询扩展的方法及系统 | |
Cao et al. | Ontology-based customer preference modeling for concept generation | |
CN112765480B (zh) | 一种信息推送方法、装置及计算机可读存储介质 | |
CN101408886A (zh) | 通过分析文档的段落来选择该文档的标签 | |
CN104361102A (zh) | 一种基于群组匹配的专家推荐方法及系统 | |
CN103186574A (zh) | 一种搜索结果的生成方法和装置 | |
Tai et al. | Effective e‐learning recommendation system based on self‐organizing maps and association mining | |
CN103853831A (zh) | 一种基于用户兴趣的个性化搜索实现方法 | |
CN104484431A (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
CN105917364A (zh) | 对问答论坛中讨论话题的排名 | |
CN101685456B (zh) | 一种搜索的方法、系统和装置 | |
CN102456064B (zh) | 在社会网络中实现社区发现的方法 | |
CN103198072A (zh) | 一种流行检索词的挖掘、推荐方法及装置 | |
Cruz et al. | Polarityrank: Finding an equilibrium between followers and contraries in a network | |
Miklosik et al. | A framework for constructing optimisation models to increase the visibility of organizations' information in search engines | |
Zhuhadar et al. | A hybrid recommender system guided by semantic user profiles for search in the e-learning domain. | |
CN105677838A (zh) | 基于用户需求的用户档案创建、个性化搜索排名方法和系统 | |
Sasson et al. | Improving similarity measures of relatedness proximity: Toward augmented concept maps | |
Basile et al. | Populating a knowledge base with object-location relations using distributional semantics | |
Hao et al. | An Algorithm for Generating a Recommended Rule Set Based on Learner's Browse Interest | |
Fukazawa et al. | Automatic modeling of user's real world activities from the web for semantic IR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160106 Termination date: 20191226 |
|
CF01 | Termination of patent right due to non-payment of annual fee |