CN105095270B - 检索装置和检索方法 - Google Patents

检索装置和检索方法 Download PDF

Info

Publication number
CN105095270B
CN105095270B CN201410197261.7A CN201410197261A CN105095270B CN 105095270 B CN105095270 B CN 105095270B CN 201410197261 A CN201410197261 A CN 201410197261A CN 105095270 B CN105095270 B CN 105095270B
Authority
CN
China
Prior art keywords
model
document
query
knowledge
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410197261.7A
Other languages
English (en)
Other versions
CN105095270A (zh
Inventor
强闰伟
费跃
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201410197261.7A priority Critical patent/CN105095270B/zh
Publication of CN105095270A publication Critical patent/CN105095270A/zh
Application granted granted Critical
Publication of CN105095270B publication Critical patent/CN105095270B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种检索装置和检索方法,其中,检索方法包括:在接收到查询语句和微博文档时,对查询语句和微博文档进行预处理,并创建原始查询模型和原始文档模型;从外部知识数据库中获取与原始查询模型相关联的知识条目,并根据原始查询模型和知识条目确定知识查询语句;根据知识查询语句创建知识查询模型,并根据知识查询模型和原始查询模型确定扩展查询模型;在微博文档中包含社交标签时,根据社交标签从语料集中查找出微博文档对应的社交邻居文档,并创建社交邻居文档模型;根据社交邻居文档模型、原始文档模型和语料集得到扩展文档模型,并确定目标检索结果。通过本发明的技术方案,可以使用户在微博上快速地查询到大量准确的实时性信息。

Description

检索装置和检索方法
技术领域
本发明涉及检索技术领域,具体而言,涉及一种检索装置和一种检索方法。
背景技术
微博是一个基于用户关系的轻量级信息传播平台,用户可以广播并分享关于他的活动及状态信息。微博的流行带来了对微博检索的需求,用户也逐渐习惯在微博上进行各种内容的搜索。相比传统的博客平台,微博平台有如下特点:(1)微博文本很短(通常被限制在140字之内),使得用户可以随时随地发布关于他们的活动,观点和状态。(2)为了扩充短小的微博所表示的内容,用户经常会给一个短链接来指向更丰富的网页内容。(3)用户在发布微博时还可以给微博指定一个话题,用‘#’符号将话题包围起来。(4)用户还可以利用‘@’符号提及其他用户,使得让微博具有更好的交互性。
与传统的Web检索不同,微博环境下的检索面临很大的挑战。作为一种互动性和传播性极强的轻量级博客平台,微博的数量通常随着新闻事件呈爆炸性的增长。由于微博文本很短,导致了微博检索中严重的词汇不匹配问题,即文档虽然和查询相关,但是其使用的词与查询词不同。用户有时候使用专业性较强的专有名词或缩写进行查询时,这种问题更加的突出。此外,由于每个字在文本中一般只出现一次,这又给传统模型的模型估计带来了困难,比如对文档的语言模型建模。
因此,如何使用户快速检索到更加丰富、准确的实时相关内容成为亟待解决的问题。
发明内容
本发明正是基于上述问题,提出了一种新的技术方案,包括一种检索装置和一种检索方法,可以解决现有技术中微博检索匹配率低的问题,使用户在使用微博进行信息检索时,快速检索到丰富准确的实时性信息。
有鉴于此,本发明提出了一种检索装置,包括:建模单元,用于在接收到查询语句和微博文档时,对所述查询语句和所述微博文档进行预处理,并根据预处理后的查询语句和微博文档创建原始查询模型和原始文档模型;确定单元,连接至所述建模单元,用于从外部知识数据库中获取与所述原始查询模型相关联的知识条目,并根据所述原始查询模型和所述知识条目确定知识查询语句;查询扩展单元,连接至所述确定单元,用于根据所述知识查询语句创建知识查询模型,并根据所述知识查询模型和所述原始查询模型确定扩展查询模型;查找单元,连接至所述查询扩展单元,用于在所述微博文档中包含社交标签时,根据所述社交标签从语料集中查找出所述微博文档对应的社交邻居文档,并创建社交邻居文档模型;文档扩展单元,连接至所述查找单元,用于根据所述社交邻居文档模型、所述原始文档模型和所述语料集得到扩展文档模型,并根据所述扩展文档模型确定目标检索结果。
在该技术方案中,用户在微博上进行一般性查询时,分词工具将接收到的查询语句进行分词(预处理),以建立原始的查询模型,但该原始的查询模型对应的检索结果比较少,甚至还不包含用户需要检索的信息,因此,需要从外部知识数据库中获取与该原始查询模型相关联的信息,但这些相关信息数量可能过于庞大,同时又包含很多用户不需要的信息,所以,通过根据原始查询模型对相关联信息进一步筛选,可以使用户检索到大量的有用的信息量;用户在微博上搜索文档时,检索装置将依据该文档中包含的社会标签(包括:话题标签(#)、短链接、提及标签(@)),查询至少包含一个相同社交标签的最近的文档,并建立扩展文档模型,这样用户在查询文档时,也会检索到大量的相关文档。因此,通过本技术方案,用户在微博上进行检索时,可以快速地查询到大量准确的实时性信息。
在上述技术方案中,优选地,还包括:结果确定单元,用于计算所述扩展查询模型和所述扩展文档模型之间的相似度,并根据所述相似度排行重新确定目标检索结果。
在该技术方案中,扩展查询模型对用户的查询进行扩展后,用户已能检索到大量的信息,扩展文档模型对该信息进行进一步扩展后,用户检索到的信息量进一步增大,但是这部分信息量中可能包含很多用户不太关注的信息或这些信息量没有按照一定的优先次序进行排列,即用户不太关注的信息可能会排在用户非常关注的信息之前,因此,计算扩展查询模型和扩展文档模型之间的相似度,并根据该相似度的高低重新确定目标检索结果,可以过滤掉很多不重要、关联性较小或用户不太关注的信息,因此,该技术方案,可以提高检索结果的匹配准确率,进一步提高用户体验。
在上述技术方案中,优选地,所述确定单元还包括:计算单元,计算所述原始查询模型和所述原始文档模型之间的相似度,并根据所述相似度确定所述查询语句对应的伪相关文档;打分单元,所述打分单元连接至所述计算单元,用于根据所述伪相关文档中每个文档的查询时间、发布时间和/或刻画时间先验重要性为所述知识条目中的候选扩展词打分,并根据打分结果确定所述知识查询语句。
在该技术方案中,为知识条目中的语句打分的标准中包含了伪相关文档中每个文档的发布时间和查询时间,所以据此确定出的得分较高的知识条目都是实时性较强的,使用较为频繁的知识查询语句。因此,该技术方案,可以使用户能够检索出实时的、频繁使用的、比较流行的信息。
在上述技术方案中,优选地,所述打分单元依据下列公式为所述知识条目中的所述候选扩展词打分:
其中,P(D)为文档的先验概率,PRD为所述伪相关文档,P(w|D)为词w在文档D中出现的概率,P(qi|D)为查询词qi在文档D中出现的概率。
在上述技术方案中,优选地,所述查询扩展单元依据下列公式计算得到所述扩展查询模型:
其中,为扩展查询模型,为原始查询模型,为知识查询模型,α为权重值。
在该技术方案中,对应用户的原始查询信息,对应用户的关联查询信息,对应用户最终查询出的信息,从公式中,可以明显地看出用户最终看到的查询信息量是原始查询信息量与关联查询信息量的线性结合。所以,本技术方案可以扩展用户的查询信息量,丰富用户的查询结果。
在上述技术方案中,优选地,所述文档扩展单元依据下列公式计算得到所述扩展文档模型:
其中,为扩展查询模型,为语料集对应的语料模型,为社交邻居文档模型,为原始文档模型,η和r为平滑参数。
在该技术方案中,对应用户的原始文档信息,对应关联文档(社交邻居文档),对应用户最终搜索到的文档,从公式中,可以明显地看出用户最终搜索到的文档远远多于原始文档。所以,本技术方案可以使用户检索到更多的文档,丰富用户的检索结果。
本发明的另一方面提出了一种检索方法,包括:在接收到查询语句和微博文档时,对所述查询语句和所述微博文档进行预处理,并根据预处理后的查询语句和微博文档创建原始查询模型和原始文档模型;从外部知识数据库中获取与所述原始查询模型相关联的知识条目,并根据所述原始查询模型和所述知识条目确定知识查询语句;根据所述知识查询语句创建知识查询模型,并根据所述知识查询模型和所述原始查询模型确定扩展查询模型;在所述微博文档中包含社交标签时,根据所述社交标签从语料集中查找出所述微博文档对应的社交邻居文档,并创建社交邻居文档模型;根据所述社交邻居文档模型、所述原始文档模型和所述语料集得到扩展文档模型,并根据所述扩展文档模型确定目标检索结果。
在该技术方案中,用户在微博上进行一般性查询时,分词工具将接收到的查询语句进行分词(预处理),以建立原始的查询模型,但该原始的查询模型对应的检索结果比较少,甚至还不包含用户需要检索的信息,因此,需要从外部知识数据库中获取与该原始查询模型相关联的信息,但这些相关信息数量可能过于庞大,同时又包含很多用户不需要的信息,所以,通过根据原始查询模型对相关联信息进一步筛选,可以使用户检索到大量的有用的信息量;用户在微博上搜索文档时,检索装置将依据该文档中包含的社会标签(包括:话题标签(#)、短链接、提及标签(@)),查询至少包含一个相同社交标签的最近的文档,并建立扩展文档模型,这样用户在查询文档时,也会检索到大量的相关文档。因此,通过本技术方案,用户在微博上进行检索时,可以快速地查询到大量准确的实时性信息。
在上述技术方案中,优选地,还包括:计算所述扩展查询模型和所述扩展文档模型之间的相似度,并根据所述相似度排行重新确定目标检索结果。
在该技术方案中,扩展查询模型对用户的查询进行扩展后,用户已能检索到大量的信息,扩展文档模型对该信息进行进一步扩展后,用户检索到的信息量进一步增大,但是这部分信息量中可能包含很多用户不太关注的信息或这些信息量没有按照一定的优先次序进行排列,即用户不太关注的信息可能会排在用户非常关注的信息之前,因此,计算扩展查询模型和扩展文档模型之间的相似度,并根据该相似度的高低重新确定目标检索结果,可以过滤掉很多不重要、关联性较小或用户不太关注的信息,因此,该技术方案,可以提高检索结果的匹配准确率,进一步提高用户体验。
在上述技术方案中,优选地,从外部知识数据库中获取与所述原始查询模型相关联的知识条目,并根据所述原始查询模型和所述知识条目确定知识查询语句,具体包括:计算所述原始查询模型和所述原始文档模型之间的相似度,并根据所述相似度确定所述查询语句对应的伪相关文档;根据所述伪相关文档中每个文档的查询时间、发布时间和/或刻画时间先验重要性为所述知识条目中的候选扩展词打分,并根据打分结果确定所述知识查询语句。
在该技术方案中,为知识条目中的语句打分的标准中包含了伪相关文档中每个文档的发布时间和查询时间,所以据此确定出的得分较高的知识条目都是实时性较强的,使用较为频繁的知识查询语句。因此,该技术方案,可以使用户能够检索出实时的、频繁使用的、比较流行的信息。
在上述技术方案中,优选地,根据下列公式为所述知识条目中的所述候选扩展词打分:
其中,P(D)为文档的先验概率,PRD为所述伪相关文档,P(w|D)为词w在文档D中出现的概率,P(qi|D)为查询词qi在文档D中出现的概率。
在上述技术方案中,优选地,根据下列公式计算得到所述扩展查询模型:
其中,为扩展查询模型,为原始查询模型,为知识查询模型,α为权重值。
在该技术方案中,对应用户的原始查询信息,对应用户的关联查询信息,对应用户最终查询出的信息,从公式中,可以明显地看出用户最终看到的查询信息量是原始查询信息量与关联查询信息量的线性结合。所以,本技术方案可以扩展用户的查询信息量,丰富用户的查询结果。
在上述技术方案中,优选地,根据下列公式计算得到所述扩展文档模型:
其中,为扩展查询模型,为语料集对应的语料模型,为社交邻居文档模型,为原始文档模型,η和r为平滑参数。
在该技术方案中,对应用户的原始文档信息,对应关联文档(社交邻居文档),对应用户最终搜索到的文档,从公式中,可以明显地看出用户最终搜索到的文档远远多于原始文档。所以,本技术方案可以使用户检索到更多的文档,丰富用户的检索结果。
通过上述技术方案,用户在使用微博进行信息检索时,可以快速地检索到丰富准确的实时性信息。
附图说明
图1示出了根据本发明的实施例的检索装置结构图;
图2示出了根据本发明的实施例的检索方法的流程图;
图3示出了根据本发明的实施例的检索方法的具体流程图;
图4示出了根据本发明的实施例的基于外部知识数据库的查询扩展流程图;
图5示出了根据本发明的实施例的基于社交邻居文档扩展的流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的检索装置结构图。
如图1所示,根据本发明的实施例的检索装置100,包括:建模单元102,用于在接收到查询语句和微博文档时,对所述查询语句和所述微博文档进行预处理,并根据预处理后的查询语句和微博文档创建原始查询模型和原始文档模型;
确定单元104,连接至所述建模单元102,用于从外部知识数据库中获取与所述原始查询模型相关联的知识条目,并根据所述原始查询模型和所述知识条目确定知识查询语句;查询扩展单元106,连接至所述确定单元104,用于根据所述知识查询语句创建知识查询模型,并根据所述知识查询模型和所述原始查询模型确定扩展查询模型;查找单元108,连接至所述查询扩展单元106,用于在所述微博文档中包含社交标签时,根据所述社交标签从语料集中查找出所述微博文档对应的社交邻居文档,并创建社交邻居文档模型;文档扩展单元110,连接至所述查找单元108,用于根据所述社交邻居文档模型、所述原始文档模型和所述语料集得到扩展文档模型,并根据所述扩展文档模型确定目标检索结果。
在该技术方案中,用户在微博上进行一般性查询时,分词工具将接收到的查询语句进行分词(预处理),以建立原始的查询模型,但该原始的查询模型对应的检索结果比较少,甚至还不包含用户需要检索的信息,因此,需要从外部知识数据库中获取与该原始查询模型相关联的信息,但这些相关信息数量可能过于庞大,同时又包含很多用户不需要的信息,所以,通过根据原始查询模型对相关联信息进一步筛选,可以使用户检索到大量的有用的信息量;用户在微博上搜索文档时,检索装置100将依据该文档中包含的社会标签(包括:话题标签(#)、短链接、提及标签(@)),查询至少包含一个相同社交标签的最近的文档,并建立扩展文档模型,这样用户在查询文档时,也会检索到大量的相关文档。因此,通过本技术方案,用户在微博上进行检索时,可以快速地查询到大量准确的实时性信息。
在上述技术方案中,优选地,还包括:结果确定单元112104,用于计算所述扩展查询模型和所述扩展文档模型之间的相似度,并根据所述相似度排行重新确定目标检索结果。
在该技术方案中,扩展查询模型对用户的查询进行扩展后,用户已能检索到大量的信息,扩展文档模型对该信息进行进一步扩展后,用户检索到的信息量进一步增大,但是这部分信息量中可能包含很多用户不太关注的信息或这些信息量没有按照一定的优先次序进行排列,即用户不太关注的信息可能会排在用户非常关注的信息之前,因此,计算扩展查询模型和扩展文档模型之间的相似度,并根据该相似度的高低重新确定目标检索结果,可以过滤掉很多不重要、关联性较小或用户不太关注的信息,因此,该技术方案,可以提高检索结果的匹配准确率,进一步提高用户体验。
在上述技术方案中,优选地,所述确定单元104还包括:计算单元1042,计算所述原始查询模型和所述原始文档模型之间的相似度,并根据所述相似度确定所述查询语句对应的伪相关文档;打分单元1044,所述打分单元1044连接至所述计算单元1042,用于根据所述伪相关文档中每个文档的查询时间、发布时间和/或刻画时间先验重要性为所述知识条目中的候选扩展词打分,并根据打分结果确定所述知识查询语句。
在该技术方案中,为知识条目中的语句打分的标准中包含了伪相关文档中每个文档的发布时间和查询时间,所以据此确定出的得分较高的知识条目都是实时性较强的,使用较为频繁的知识查询语句。因此,该技术方案,可以使用户能够检索出实时的、频繁使用的、比较流行的信息。
在上述技术方案中,优选地,所述打分单元1044依据下列公式为所述知识条目中的所述候选扩展词打分:
其中,Score(w)为所述候选扩展词得分,P(D)为文档的先验概率,PRD为所述伪相关文档,P(w|D)为词w在文档D中出现的概率,P(qi|D)为查询词qi在文档D中出现的概率。
在上述技术方案中,优选地,所述查询扩展单元106依据下列公式计算得到所述扩展查询模型:
其中,为扩展查询模型,为原始查询模型,为知识查询模型,α为权重值。
在该技术方案中,对应用户的原始查询信息,对应用户的关联查询信息,对应用户最终查询出的信息,从公式中,可以明显地看出用户最终看到的查询信息量是原始查询信息梁与关联查询信息量的线性结合。所以,本技术方案可以扩展用户的查询信息量,丰富用户的查询结果。
在上述技术方案中,优选地,所述文档扩展单元110依据下列公式计算得到所述扩展文档模型:
其中,为扩展查询模型,为语料集对应的语料模型,为社交邻居文档模型,为原始文档模型,n和r为平滑参数。
在该技术方案中,对应用户的原始文档信息,对应关联文档(社交邻居文档),对应用户最终搜索到的文档,从公式中,可以明显地看出用户最终搜索到的文档远远多于原始文档。所以,本技术方案可以使用户检索到更多的文档,丰富用户的检索结果。
图2示出了根据本发明的实施例的检索方法的流程图。
如图2所示,根据本发明的实施例的检索方法,包括以下步骤:步骤202,在接收到查询语句和微博文档时,对所述查询语句和所述微博文档进行预处理,并根据预处理后的查询语句和微博文档创建原始查询模型和原始文档模型;步骤204,从外部知识数据库中获取与所述原始查询模型相关联的知识条目,并根据所述原始查询模型和所述知识条目确定知识查询语句;步骤206,根据所述知识查询语句创建知识查询模型,并根据所述知识查询模型和所述原始查询模型确定扩展查询模型;步骤208,在所述微博文档中包含社交标签时,根据所述社交标签从语料集中查找出所述微博文档对应的社交邻居文档,并创建社交邻居文档模型;步骤210,根据所述社交邻居文档模型、所述原始文档模型和所述语料集得到扩展文档模型,并根据所述扩展文档模型确定目标检索结果。
在该技术方案中,用户在微博上进行一般性查询时,分词工具将接收到的查询语句进行分词(预处理),以建立原始的查询模型,但该原始的查询模型对应的检索结果比较少,甚至还不包含用户需要检索的信息,因此,需要从外部知识数据库中获取与该原始查询模型相关联的信息,但这些相关信息数量可能过于庞大,同时又包含很多用户不需要的信息,所以,通过根据原始查询模型对相关联信息进一步筛选,可以使用户检索到大量的有用的信息量;用户在微博上搜索文档时,检索装置将依据该文档中包含的社会标签(包括:话题标签(#)、短链接、提及标签(@)),查询至少包含一个相同社交标签的最近的文档,并建立扩展文档模型,这样用户在查询文档时,也会检索到大量的相关文档。因此,通过本技术方案,用户在微博上进行检索时,可以快速地查询到大量准确的实时性信息。
在上述技术方案中,优选地,还包括:计算所述扩展查询模型和所述扩展文档模型之间的相似度,并根据所述相似度排行重新确定目标检索结果。
在该技术方案中,扩展查询模型对用户的查询进行扩展后,用户已能检索到大量的信息,扩展文档模型对该信息进行进一步扩展后,用户检索到的信息量进一步增大,但是这部分信息量中可能包含很多用户不太关注的信息或这些信息量没有按照一定的优先次序进行排列,即用户不太关注的信息可能会排在用户非常关注的信息之前,因此,计算扩展查询模型和扩展文档模型之间的相似度,并根据该相似度的高低重新确定目标检索结果,可以过滤掉很多不重要、关联性较小或用户不太关注的信息,因此,该技术方案,可以提高检索结果的匹配准确率,进一步提高用户体验。
在上述技术方案中,优选地,从外部知识数据库中获取与所述原始查询模型相关联的知识条目,并根据所述原始查询模型和所述知识条目确定知识查询语句,具体包括:计算所述原始查询模型和所述原始文档模型之间的相似度,并根据所述相似度确定所述查询语句对应的伪相关文档;根据所述伪相关文档中每个文档的查询时间、发布时间和/或刻画时间先验重要性为所述知识条目中的候选扩展词打分,并根据打分结果确定所述知识查询语句。
在该技术方案中,为知识条目中的语句打分的标准中包含了伪相关文档中每个文档的发布时间和查询时间,所以据此确定出的得分较高的知识条目都是实时性较强的,使用较为频繁的知识查询语句。因此,该技术方案,可以使用户能够检索出实时的、频繁使用的、比较流行的信息。
在上述技术方案中,优选地,根据下列公式为所述知识条目中的所述候选扩展词打分:
其中,Score(w)为所述候选扩展词得分,P(D)为文档的先验概率,PRD为所述伪相关文档,P(w|D)为词w在文档D中出现的概率,P(qi|D)为查询词qi在文档D中出现的概率。
在上述技术方案中,优选地,根据下列公式计算得到所述扩展查询模型:
其中,为扩展查询模型,为原始查询模型,为知识查询模型,α为权重值。
在该技术方案中,对应用户的原始查询信息,对应用户的关联查询信息,对应用户最终查询出的信息,从公式中,可以明显地看出用户最终看到的查询信息量是原始查询信息梁与关联查询信息量的线性结合。所以,本技术方案可以扩展用户的查询信息量,丰富用户的查询结果。
在上述技术方案中,优选地,根据下列公式计算得到所述扩展文档模型:
其中,为扩展文档模型,为语料集对应的语料模型,为社交邻居文档模型,为原始文档模型,n和r为平滑参数。
在该技术方案中,对应用户的原始文档信息,对应关联文档(社交邻居文档),对应用户最终搜索到的文档,从公式中,可以明显地看出用户最终搜索到的文档远远多于原始文档。所以,本技术方案可以使用户检索到更多的文档,丰富用户的检索结果。
图3示出了根据本发明的实施例的检索方法的具体流程图。
如图3所示,根据本发明的实施例的检索方法的具体包括以下步骤:
步骤302,在接收到查询语句和微博文档时,对查询语句和微博文档进行预处理,具体操作包括:分词、停用词过滤、词性变化。
步骤304,根据预处理后的查询语句和微博文档,用最大似然估计法分别执行步骤304和步骤306。
步骤304,根据预处理后的查询语句,用最大似然估计法建立原始的查询模型。
步骤306,根据预处理后的微博文档,用最大似然估计法建立原始的文档模型。
步骤308,利用外部知识数据库Freebase,对原始查询模型对应的知识条目进行扩展查询,并根据扩展知识条目和原始的查询模型,建立扩展查询模型。
步骤310,根据原始的文档模型,创建社交邻居文档模型,并根据这两个模型创建扩展文档模型。
步骤312,利用KL距离公式,计算扩展后的查询模型和扩展后的文档模型的KL距离,得到最相近的前N个文档,作为最后的检索结果。
其中,KL距离公式如下:
上述KL距离公式中,为扩展后的查询语言模型,为扩展后的文档模型,Q,D分别为查询和文档。
图4示出了根据本发明的实施例的基于外部知识数据库的查询扩展流程图。
如图4所示,查询扩展利用外部知识数据库获取与原始查询相关信息,并从中选择合适的词用于扩展。在此,结合一个实际的例子,说明查询扩展的步骤:
步骤402,在接收到查询语句时,利用分词工具对原始查询进行分词,并对分出来的词进行词性标注以得到所有的名词短语。例如:查询“周杰伦新电影”,分词后得到[“周杰伦”,“新”,“电影”],经过最大似然估计创建原始文档模型,p(周杰伦)=0.33,p(新)=0.33,p(电影)=0.33,并得到名词“周杰伦”和“电影”。
步骤404,利用Freebase API(Application Programming Interface,应用程序编程接口)搜索所有名词短语,若有返回,则选取列表最前(分数最高)的一个条目作为查询相关的知识条目。例如,利用Freebase API查询“周杰伦”和“电影”,可以得到条目“周杰伦”和“电影”的相关信息。
步骤406,获取相关知识条目,对于每个获取的知识条目,提取所有简短元属性(比如名称、别名、以何著称)的字段直接作为扩展词也即相关知识条目,例如,可以将“周杰伦”条目中的“周董”,“伦宝”,“台湾流行音乐”作为相关条目;将“音乐家”和“电影”条目中的“媒体类型”作为相关条目。
步骤408,在获取相关条目时,如果获取的为描述属性(基于维基百科的简短描述),则其相关词会很多,需要使用相关性模型进行选词,包括如下步骤:1)分别用最大似然估计的方法来对原始查询和文档建模,并利用KL距离计算查询与各文档的初始语义相似度获得排名靠前的N个PRD(Product Requirement Document,伪相关文档)。2)利用伪相关文档,根据如下公式给每个候选扩展词打分:
其中P(D)为微博文档的先验概率;为了体现微博检索系统的实时性,赋予每个文档一个时间先验,最近发布的微博文档有更大的文档先验:
其中TQ是查询时间,TD是微博D的发布时间,r是刻画时间先验重要性的因子。因此,利用上述公式选择的最高得分的扩展词既能满足与原始查询在本地文档集上语义相关性,也是最近相关文档中使用最频繁的词。例如:可以使用原始查询模型获取前100个伪相关文档,对于所有从维基描述元属性中获得的候选扩展词,则利用上述公式对每个候选扩展词计算分数,然后选取得分最高的5个词作为知识扩展查询,如将上述事例中的“台湾”,“导演”,“演员”,“音乐”,“专辑”作为知识扩展查询。
步骤410,利用最大似然估计对知识扩展查询进行建模以得到知识查询模块。
步骤412,将得到的知识查询模型与原始查询模型进行线性结合,以得到扩展后的查询模型具体公式如下:
图5示出了根据本发明的实施例的基于社交邻居文档扩展的流程图。
如图5所示,文档扩展利用具有相同社交标签的社交邻居文档来扩展原始文档。结合一个实际文档的例子,说明文档扩展的具体步骤:
步骤502,在接收到微博文档时,如果该文档包含社交标签(话题标签(#)、短链接、提及标签(@)),则直接从语料集查找距离查询最近的M个至少包含一个相同社交标签的文档,作为该文档的社交邻居。例如,查询文档D为:“@周杰伦,加油![酷]哦,对了。你的新电影#天台爱情#喊你回家宣传啦~[嘻嘻]”包含社交话题标签“天台爱情”和用户提及标签“周杰伦”,可以将至少包含一个相同标签的微博文档,如文档“@周杰伦我自己一个人去广州看了你的新电影听了演唱会,超级无敌大满足!”和“周杰伦音乐网贵州歌迷会7月11日第一波#天台爱情#贵阳集体观影留念晒票”作为文档D的社交邻居。
步骤504,对社交邻居进行置信度计算,并选取置信度高的文档作为该文档的社交邻居,其中,定义微博文档D的邻居文档Di的置信度为:
在上述公式中,cos(Di,D)为微博文档Di和D在向量空间中的余弦相似度,r是控制时间因素的影响因子。而且,从上述公式中可以看出,在建立社交邻居模型时,偏好最新发布的邻居文档,且与原文档语义上相近的文档也可以获得更高的置信度。
步骤506,利用获得的社交邻居,获得社交邻居模型。
步骤508,利用社交邻居模型,配合原始的文档模型与背景语料模型得到新的文档模型
其中,是背景语料模型,是社交邻居模型,是使用最大似然估计模型建立的文档语言模型,η和r是平滑参数且社交邻居模型采用如下公式估计:
其中c(w,Di)表示词w在微博文档Di中出现的频次,NConf(Di,D)定义了D邻居文件中文档Di的归一化置信度。
步骤510,调节上述文档模型的平滑参数η和r,以得到准确的扩展文档模型。
为了让传统的检索模型(如语言模型)适用于微博检索,本发明利用外部知识数据库(Freebase)和微博的结构化信息来推断更多文本上下文背景信息。Freebase是一个类似维基百科(Wikipedia)的创作共享类网站。两者的最大不同在于Freebase的条目均采用结构化数据的形式,而维基百科采用的是半结构化的文本。Freebase中的每个条目有一套指定的格式,相同类型的条目有固定的一些字段,从而能数据很好地连接起来,也给进行查询的处理提供了很大方便。特别的,本发明在进行扩展词选择的时候,结合了伪相关文档,并偏好一些经常在近期微博中用到的“新词”,从而在一定程度上也体现了实时性。扩展了查询以后,能让搜索引擎更好地理解用户的检索需求。因此,利用Freebase知识库来扩展原始的查询,并通过微博中的社交标签来找到谈论相关话题的微博来扩展原始微博语义,从而建立一个针对微博环境的检索模型是非常重要的,能够给用户带来更加准确和丰富的实时搜索结果。
以上结合附图详细说明了本发明的技术方案,通过本技术方案,可以提高微博检索的匹配率,使用户在微博上进行检索时,可以快速地查询到大量准确的实时性信息。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种检索装置,其特征在于,包括:
建模单元,用于在接收到查询语句和微博文档时,对所述查询语句和所述微博文档进行预处理,并根据预处理后的查询语句和微博文档创建原始查询模型和原始文档模型;
确定单元,连接至所述建模单元,用于从外部知识数据库中获取与所述原始查询模型相关联的知识条目,并根据所述原始查询模型和所述知识条目确定知识查询语句;
查询扩展单元,连接至所述确定单元,用于根据所述知识查询语句创建知识查询模型,并根据所述知识查询模型和所述原始查询模型确定扩展查询模型;
查找单元,连接至所述查询扩展单元,用于在所述微博文档中包含社交标签时,根据所述社交标签从语料集中查找出所述微博文档对应的社交邻居文档,并创建社交邻居文档模型;
文档扩展单元,连接至所述查找单元,用于根据所述社交邻居文档模型、所述原始文档模型和所述语料集得到扩展文档模型,并根据所述扩展文档模型确定目标检索结果;
其中,所述社交邻居文档为关联文档。
2.根据权利要求1所述的检索装置,其特征在于,还包括:
结果确定单元,用于计算所述扩展查询模型和所述扩展文档模型之间的相似度,并根据所述相似度排行重新确定目标检索结果。
3.根据权利要求1所述的检索装置,其特征在于,所述确定单元还包括:
计算单元,计算所述原始查询模型和所述原始文档模型之间的相似度,并根据所述相似度确定所述查询语句对应的伪相关文档;
打分单元,所述打分单元连接至所述计算单元,用于根据所述伪相关文档中每个文档的查询时间、发布时间和/或刻画时间先验重要性为所述知识条目中的候选扩展词打分,并根据打分结果确定所述知识查询语句。
4.根据权利要求3所述的检索装置,其特征在于,所述打分单元依据下列公式为所述知识条目中的所述候选扩展词打分:
其中,Score(w)为所述候选扩展词得分,P(D)为文档的先验概率,PRD为所述伪相关文档,P(w|D)为任一候选扩展词w在文档D中出现的概率,P(qi|D)为查询语句qi在文档D中出现的概率。
5.根据权利要求1所述的检索装置,其特征在于,所述查询扩展单元依据下列公式计算得到所述扩展查询模型:
其中,为所述扩展查询模型,为所述原始查询模型,为所述知识查询模型,α为权重值。
6.根据权利要求1至5中任一项所述的检索装置,其特征在于,所述文档扩展单元依据下列公式计算得到所述扩展文档模型:
其中,为所述扩展查询模型,为所述语料集对应的背景语料模型,为所述社交邻居文档模型,为所述原始文档模型,η和r为平滑参数。
7.一种检索方法,其特征在于,包括:
在接收到查询语句和微博文档时,对所述查询语句和所述微博文档进行预处理,并根据预处理后的查询语句和微博文档创建原始查询模型和原始文档模型;
从外部知识数据库中获取与所述原始查询模型相关联的知识条目,并根据所述原始查询模型和所述知识条目确定知识查询语句;
根据所述知识查询语句创建知识查询模型,并根据所述知识查询模型和所述原始查询模型确定扩展查询模型;
在所述微博文档中包含社交标签时,根据所述社交标签从语料集中查找出所述微博文档对应的社交邻居文档,并创建社交邻居文档模型;
根据所述社交邻居文档模型、所述原始文档模型和所述语料集得到扩展文档模型,并根据所述扩展文档模型确定目标检索结果;
其中,所述社交邻居文档为关联文档。
8.根据权利要求7所述的检索方法,其特征在于,还包括:
计算所述扩展查询模型和所述扩展文档模型之间的相似度,并根据所述相似度排行重新确定目标检索结果。
9.根据权利要求7所述的检索方法,其特征在于,从外部知识数据库中获取与所述原始查询模型相关联的知识条目,并根据所述原始查询模型和所述知识条目确定知识查询语句,具体包括:
计算所述原始查询模型和所述原始文档模型之间的相似度,并根据所述相似度确定所述查询语句对应的伪相关文档;
根据所述伪相关文档中每个文档的查询时间、发布时间和/或刻画时间先验重要性为所述知识条目中的候选扩展词打分,并根据打分结果确定所述知识查询语句。
10.根据权利要求9所述的检索方法,其特征在于,根据下列公式为所述知识条目中的所述候选扩展词打分:
其中,Score(w)为所述候选扩展词得分,P(D)为文档的先验概率,PRD为所述伪相关文档,P(w|D)为词w在文档D中出现的概率,P(qi|D)为查询词qi在文档D中出现的概率。
11.根据权利要求7所述的检索方法,其特征在于,根据下列公式计算得到所述扩展查询模型:
其中,为所述扩展查询模型,为所述原始查询模型,为所述知识查询模型,α为权重值。
12.根据权利要求7至11中任一项所述的检索方法,其特征在于,根据下列公式计算得到所述扩展文档模型:
其中,为所述扩展文档模型,为所述语料集对应的语料模型,为所述社交邻居文档模型,为所述原始文档模型,η和r为平滑参数。
CN201410197261.7A 2014-05-12 2014-05-12 检索装置和检索方法 Expired - Fee Related CN105095270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410197261.7A CN105095270B (zh) 2014-05-12 2014-05-12 检索装置和检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410197261.7A CN105095270B (zh) 2014-05-12 2014-05-12 检索装置和检索方法

Publications (2)

Publication Number Publication Date
CN105095270A CN105095270A (zh) 2015-11-25
CN105095270B true CN105095270B (zh) 2019-02-26

Family

ID=54575724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410197261.7A Expired - Fee Related CN105095270B (zh) 2014-05-12 2014-05-12 检索装置和检索方法

Country Status (1)

Country Link
CN (1) CN105095270B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109074353B (zh) * 2016-10-10 2022-11-08 微软技术许可有限责任公司 用于信息检索的方法、装置和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622443A (zh) * 2012-03-13 2012-08-01 北京邮电大学 一种面向微博的定制化筛选系统及方法
CN102955849A (zh) * 2012-10-29 2013-03-06 新浪技术(中国)有限公司 基于标签推荐文档的方法及文档推荐装置
CN103164415A (zh) * 2011-12-09 2013-06-19 富士通株式会社 基于微博平台的扩展关键词获取方法和设备
CN103377226A (zh) * 2012-04-25 2013-10-30 中国移动通信集团公司 一种智能检索方法及其系统
CN103544242A (zh) * 2013-09-29 2014-01-29 广东工业大学 面向微博的情感实体搜索系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767438B2 (en) * 2009-07-14 2017-09-19 Bitvore Corp. Presentation and sorting of email
US20140039995A1 (en) * 2012-08-01 2014-02-06 Timothy Ngo System and Method of Customer Acquisition Leveraging Social Media and Automating Billing Reflecting Rewards for Customer Acquisition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164415A (zh) * 2011-12-09 2013-06-19 富士通株式会社 基于微博平台的扩展关键词获取方法和设备
CN102622443A (zh) * 2012-03-13 2012-08-01 北京邮电大学 一种面向微博的定制化筛选系统及方法
CN103377226A (zh) * 2012-04-25 2013-10-30 中国移动通信集团公司 一种智能检索方法及其系统
CN102955849A (zh) * 2012-10-29 2013-03-06 新浪技术(中国)有限公司 基于标签推荐文档的方法及文档推荐装置
CN103544242A (zh) * 2013-09-29 2014-01-29 广东工业大学 面向微博的情感实体搜索系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种面向微博的查询扩展方法;唐晓波 等;《图书情报工作》;20140131;第58卷(第1期);130-135
基于后缀树的Web检索结果聚类标签生成方法;骆雄武 等;《中文信息学报》;20090315;第23卷(第2期);83-88

Also Published As

Publication number Publication date
CN105095270A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
CN106446148B (zh) 一种基于聚类的文本查重方法
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
JP6515624B2 (ja) 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体
CN109408622B (zh) 语句处理方法及其装置、设备和存储介质
CN110188168A (zh) 语义关系识别方法和装置
WO2018049960A1 (zh) 一种为文本信息匹配资源的方法及装置
US8312022B2 (en) Search engine optimization
CN109376309A (zh) 基于语义标签的文档推荐方法和装置
CN105095433B (zh) 实体推荐方法及装置
CN105302810B (zh) 一种信息搜索方法和装置
CN108509474A (zh) 搜索信息的同义词扩展方法及装置
JP6381775B2 (ja) 情報処理システム及び情報処理方法
CN106227714A (zh) 一种基于人工智能的获取生成诗词的关键词的方法和装置
CN103455487B (zh) 一种搜索词的提取方法及装置
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN105068661A (zh) 基于人工智能的人机交互方法和系统
CN103064956A (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
JP6769140B2 (ja) 学習素材のセグメントのランク付け
CN105740448B (zh) 面向话题的多微博时序文摘方法
CN103914513A (zh) 一种实体输入方法和装置
CN102314440B (zh) 利用网络维护语言模型库的方法和系统
US11158349B2 (en) Methods and systems of automatically generating video content from scripts/text
CN105468790B (zh) 一种评论信息检索方法和装置
CN102955848A (zh) 一种基于语义的三维模型检索系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220621

Address after: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee after: Peking University

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871 No. 5, the Summer Palace Road, Beijing, Haidian District

Patentee before: Peking University

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190226