CN102567326B - 一种信息搜索、及信息搜索排序装置和方法 - Google Patents
一种信息搜索、及信息搜索排序装置和方法 Download PDFInfo
- Publication number
- CN102567326B CN102567326B CN201010587800.XA CN201010587800A CN102567326B CN 102567326 B CN102567326 B CN 102567326B CN 201010587800 A CN201010587800 A CN 201010587800A CN 102567326 B CN102567326 B CN 102567326B
- Authority
- CN
- China
- Prior art keywords
- document
- search
- section
- search content
- framework
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息搜索排序装置和方法,用以提高用户获取目标搜索结果的效率,从而降低搜索引擎中相关设备的开销,提高系统性能。所述信息搜索排序装置包括:确定单元,用于根据用户提交的搜索内容,确定每一篇搜索文档针对搜索内容的相关性参数值;预测单元,用于根据组织架构内各用户的搜索日志信息、组织架构信息,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重;排序单元,用于根据每一篇搜索文档的相关性参数值、以及用户及组织架构推荐点击权重,确定每一篇搜索文档的排序参数值;返回按照搜索文档的排序参数值进行排序的搜索结果。本发明还公开了一种信息搜索装置和方法,用以提高搜索结果的准确性。
Description
技术领域
本发明涉及搜索技术领域,尤其涉及一种信息搜索、及信息搜索排序装置和方法。
背景技术
随着商用搜索引擎使用的普及,如何把用户个性化特点良好地融入到搜索引擎中是当前搜索技术领域的研究热点。现有技术中,基于Web的搜索引擎采用传统向量空间模型的相似性匹配方法,查找与用户输入的关键词相匹配的文档,然后根据用户搜索的历史记录,重新评价文档的权重,并向用户返回搜索结果。
一方面,基于Web的搜索引擎采用向量空间模型,向量空间模型是基于相似性的排序方法,不能准确反映搜索内容与搜索文档的相关性,直接将相似等同于相关,显然这个前提并不一定成立,因此得到的搜索结果不准确,无法满足用户的需要。如果用户对搜索结果不满意便会将搜索内容变化组合后再次发起搜索,这样,占用了搜索引擎的系统资源,增加了搜索引擎中相关设备的开销,影响了系统的性能。
如何提高信息搜索结果的准确性,以减少用户发起搜索的次数,从而达到降低搜索引擎中相关设备的开销,提升系统性能的目的,成为现有技术中亟待解决的技术问题。
另一方面,基于Web的搜索引擎无法针对特定的领域提供搜索服务,对于一些特定的行业,如通信行业,信息系统沉淀积累的数据信息繁多,组织架构信息相对保密,数据信息集中在组织架构局域网内,普通基于Web的搜索引擎无法搜索到,不能满足组织架构内部搜索的需要,不利于组织架构组织间知识转移和学习。另外,组织架构内不同部门、不同权限组的用户获取数据信息的需求也不相同,而基于Web的搜索引擎无法针对组织架构内部用户搜索的个性化需求,对搜索结果进行准确排序,使得用户需点击每一篇搜索结果文档确定是否满足自身需要,同样占用了搜索引擎的系统资源,增加了搜索引擎中相关设备的开销,影响了系统的性能。
如何提高用户获取目标搜索结果的效率,以降低搜索引擎中相关设备的开销,提升系统性能,成为现有技术中亟需解决的技术问题。
发明内容
本发明实施例提供了一种信息搜索排序装置和方法,用以提高用户获取目标搜索结果的效率,从而降低搜索引擎中相关设备的开销,提升系统性能。
本发明实施例提供了一种信息搜索装置和方法,用以提高搜索结果的准确性,从而降低搜索引擎中相关设备的开销,提升系统性能。
本发明实施例提供一种信息搜索排序装置,包括:
确定单元,用于根据用户提交的搜索内容,确定每一篇搜索文档与搜索内容的邻近度参数值、以及每一篇搜索文档的搜索内容权重;根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值;
预测单元,用于根据组织架构内各用户的搜索日志信息、以及组织架构信息,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重;
排序单元,用于根据每一篇搜索文档的相关性参数值、以及用户及组织架构推荐点击权重,确定每一篇搜索文档的排序参数值;向用户返回按照搜索文档的排序参数值进行排序的搜索结果。
本发明实施例提供一种信息搜索装置,包括:
分词单元,用于对用户提交的搜索内容进行分词处理得到若干搜索关键词;
第一确定单元,用于根据各搜索关键词确定每一篇搜索文档的搜索内容权重,以及根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的邻近度参数值;
第二确定单元,用于根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值;
返回单元,用于基于每一篇搜索文档针对搜索内容的相关性参数值,向用户返回搜索结果。
本发明实施例提供一种信息搜索排序方法,包括:
根据用户提交的搜索内容,确定每一篇搜索文档与搜索内容的邻近度参数值、以及每一篇搜索文档的搜索内容权重;
根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值;
根据组织架构内各用户的搜索日志信息、以及组织架构信息,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重;
根据每一篇搜索文档的相关性参数值、以及用户及组织架构推荐点击权重,确定每一篇搜索文档的排序参数值;
向用户返回按照搜索文档的排序参数值进行排序的搜索结果。
本发明实施例提供一种信息搜索方法,包括:
对用户提交的搜索内容进行分词处理得到若干搜索关键词;
根据各搜索关键词确定每一篇搜索文档的搜索内容权重,以及根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的临近度参数值;
根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值;并
基于每一篇搜索文档针对搜索内容的相关性参数值,向用户返回搜索结果。
本发明实施例提供的信息搜索排序装置和方法,基于用户提交的搜索内容,确定每一篇搜索文档与搜索内容的邻近度参数值和每一篇搜索文档的搜索内容权重,并据此确定每一篇搜索文档针对搜索内容的相关性参数值;在此基础上,结合用户所在的组织架构内各用户的搜索日志信息、组织架构信息,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重,确定每一篇搜索文档的排序参数值,并基于该排序参数值对各搜索文档进行排序。由于确定了每一篇搜索文档针对搜索内容的相关性参数值,并预测用户及组织架构推荐点击权重,使得排序参数值更加准确,也更能体现用户的需求,从而提高了用户获取目标搜索结果的效率,降低了搜索引擎中各相关设备的开销,提升了系统性能。
本发明实施例提供的信息搜索装置和方法,基于用户提交的搜索内容,确定每一篇搜索文档与搜索内容的邻近度参数值和每一篇搜索文档的搜索内容权重,并据此确定每一篇搜索文档针对搜索内容的相关性参数值,基于该相关性参数值向用户返回搜索结果,这样,得到的搜索结果同时考虑了每一篇搜索文档与搜索内容的邻近度参数值和每一篇搜索文档的搜索内容权重,提高了搜索结果的准确性,从而减少了用户发起搜索的次数,达到了降低搜索引擎中相关设备的开销,提升系统性能的目的。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本发明实施例中,信息搜索排序装置的一种可能的结构示意图;
图2为本发明实施例中,信息搜索装置的一种可能的结构示意图;
图3为本发明实施例中,信息搜索排序方法实施流程示意图;
图4为本发明实施例中,信息搜索方法实施流程示意图;
图5为本发明实施例中,信息搜索排序装置应用于某一信息系统中的详细架构图;
图6为本发明实施例中,信息搜索排序方法在某一信息系统中的实施流程示意图。
具体实施方式
本发明实施例提供了一种信息搜索排序装置和方法,用以提高用户获取目标搜索结果的效率,从而降低搜索引擎中相关设备的开销,提升系统性能。
本发明实施例提供了一种信息搜索装置和方法,用以提高搜索结果的准确性,从而降低搜索引擎中相关设备的开销,提升系统性能。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
如图1所示,为本发明实施例提供的信息搜索排序装置的一种可能的结构示意图,包括:
确定单元101,用于根据用户提交的搜索内容,确定每一篇搜索文档与搜索内容的邻近度参数值、以及每一篇搜索文档的搜索内容权重;根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值;
预测单元102,用于根据组织架构内各用户的搜索日志信息、以及组织架构信息,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重;
排序单元103,用于根据每一篇搜索文档的相关性参数值、以及用户及组织架构推荐点击权重,确定每一篇搜索文档的排序参数值;向用户返回按照搜索文档的排序参数值进行排序的搜索结果。
具体实施中,确定单元101包括分词子单元,第一确定子单元和第二确定子单元,其中:
分词子单元1011,用于对用户提交的搜索内容进行分词处理得到若干搜索关键词;
第一确定子单元1012,用于根据各搜索关键词确定每一篇搜索文档的搜索内容权重,以及根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的临近度参数值;
第二确定子单元1013,用于根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值。
具体实施中,第一确定子单元1012可以用于根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定两两相邻的搜索关键词在同一结构区域中的最小距离;根据两两相邻的搜索关键词在同一结构区域中的最小距离,确定两两相邻的搜索关键词在同一区域结构中的邻近度;根据两两相邻的搜索关键词在同一区域结构中的邻近度、及预先配置的各结构区域的权重参数,确定每一篇搜索文档与搜索内容的临近度参数值。
具体的,搜索文档的各结构区域可以包括单不限于每一篇搜索文档的标题、摘要、正文和路径等。假设根据用户提交的搜索内容q得到的搜索关键词为t={ti,ti+1Λtx},在搜索文档d的某一结构区域f中搜索关键词ti的位置记为Pos(ti,f),搜索关键词ti+1的位置记为Pos(ti+1,f),f满足条件:f∈d。
假设ti与ti+1在结构区域f中的最小距离记为Dismin(ti,ti+1,f),其邻近度记为prox(ti,ti+1,f),且:
Dismin(ti,ti+1,f)=min|Pos(ti+1,f)-Pos(ti,f)| (1)
即ti与ti+1在结构区域f中的最小距离为搜索关键词ti的位置与搜索关键词ti+1的位置的差值绝对值。
即关键词ti与关键词ti+1在区域结构f中的邻近度为搜索关键词ti的位置与搜索关键词ti+1的位置的差值绝对值加1后的倒数。
若f的权重参数为w(f),w(f)为预先设置的值,搜索内容q对应搜索文档d的邻近度参数值记为Prox(q,d),那么Prox(q,d)可以通过如下公式计算:
具体的,搜索内容q对应搜索文档d的邻近度参数值可以表示为:首先计算两两相邻的搜索关键词在搜索文档的同一结构区域中的邻近度参数值后,结合不同区域的区域权重参数,得到搜索文档每个结构针对搜索内容的相关性参数值,最后将每个区域相关性参数值进行加权计算后,得到每一篇搜索文档针对搜索内容的相关性参数值。
具体实施中,第一确定子单元1012可以用于统计每一个搜索关键词在各搜索文档中出现的频次;统计包含每一个搜索关键词的搜索文档的数量,或者包含每一个搜索关键词的搜索文档的数量占搜索文档总量的比例;根据每一个搜索关键词在各搜索文档中出现的频次、以及包含每一个搜索关键词的搜索文档的数量或者包含每一个搜索关键词的搜索文档的数量占搜索文档总量的比例,确定每一篇搜索文档的搜索内容权重。
具体的,每一篇搜索文档的搜索内容权重可以通过基于布尔和向量空间模型的加权评分Scorer(q,d)确定:
其中,fd(t)表示搜索关键词t(t∈q)在某一搜索文档d中出现的频次,fT(t)表示含该搜索关键词t的搜索文档的数量,或者包含该搜索关键词t的搜索文档的数量占搜索文档总量的比例。即每一篇搜索文档的搜索内容权重可以根据搜索关键词在某一搜索文档中出现的频次与包含该搜索关键词的搜索文档的数量的平方点乘后求和;或者根据搜索关键词在某一搜索文档中出现的频次与该搜索关键词的搜索文档的数量的平方点乘后求和。
具体实施中,可以通过如下公式来确定每一篇搜索文档d针对搜索内容q的相关性参数值ExtendScorer(q,d):
ExtendScorer(q,d)=Scorer(q,d)·Prox(q,d) (5)
即相关性参数值为每一篇搜索文档针对搜索内容的相关性参数与每一篇搜索文档的搜索内容权重之积。
具体实施中,预测单元102可以包括存储子单元1021、第一统计子单元1022、预处理子单元1023、第二统计子单元1024和预测子单元1025,其中:
存储子单元1021,用于存储组织架构内各用户的搜索日志信息、以及组织架构信息;
第一统计子单元1022,用于根据组织架构内各用户的搜索日志信息,确定提交搜索内容的用户对所述搜索内容的实际点击文档集合中各文档的点击量;
预处理子单元1023,用于根据组织架构内各用户的搜索日志信息、以及组织架构信息,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合;
第二统计子单元1024,用于确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述频繁点击文档集合的点击总量;
预测子单元1025,用于根据所述用户对实际点击文档集合中各文档的点击量、以及所述用户群对频繁点击文档集合中各文档的点击总量,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重。
具体的,第一统计子单元1022可以根据预先设置的统计周期,定期根据提交搜索内容的用户的搜索日志信息确定出该用户实际点击文档集合Hi,并定期统计用户对Hi中每一篇搜索文档的点击量F(hj)。具体实施中,预先设置的统计周期根据搜索引擎的使用频繁程度设置,可以为一天执行一次,两天执行一次,也可以为一周执行一次等。
具体实施中,预处理子单元1023可以用于根据组织架构内各用户的搜索日志信息,分别确定提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合和用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合;根据提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定横向组织架构对应的用户群对实际点击文档集合的支持度;并根据提交搜索内容的用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定纵向组织架构对应的用户群对实际点击文档集合的支持度;根据横向组织架构对应的用户群对实际点击文档集合的支持度确定横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合;以及根据纵向组织架构对应的用户群对实际点击文档集合的支持度确定纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合;根据所述横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合和纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合。
具体的,搜索引擎系统可以采用数据库存储用户的搜索日志信息和用户的组织架构信息;数据中存储的用户的组织架构信息来源于组织架构信息系统内部的组织架构,一般用户所在的横向组织架构为部门,用户所在的纵向组织架构为权限组,可以按照决策者,管理者,普通用户等对部门内的用户进行权限组的划分,数据库存储的权限组信息可以包括用户标识、以及该用户归属的权限组、部门等。依据用户所在的横向组织架构与用户所在的纵向组织架构可以构成用户与组织架构的二元组,每个用户在二元组内都有自身的定位,通过分析组织架构信息与各用户的搜索日志信息,可以确定出用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合。
具体的,预处理子单元1023可以用于根据提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定横向组织架构对应的用户群对实际点击文档集合中每一篇实际点击文档的支持度;根据横向组织架构对应的用户群对实际点击文档集合中每一篇实际点击文档的支持度确定横向组织架构对应的用户群对实际点击文档集合的支持度。
具体的,预处理子单元1023可以用于根据提交搜索内容的用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定纵向组织架构对应的用户群对实际点击文档集合中每一篇实际点击文档的支持度;根据纵向组织架构对应的用户群对实际点击文档集合中每一篇实际点击文档的支持度确定纵向组织架构对应的用户群对实际点击文档集合的支持度。
预处理子单元根据组织架构内各用户的搜索日志信息,可以提取:用户标识号、提交的搜索内容、点击项的索引编号、点击时间、点击项所在的页面编码、页面上该点击项的序号,为了便于描述,通过表1来说明各项的具体含义。
表1
名称 | 说明 | 数据类型 |
UserID | 用户标识号,包括其权限及与组织架构的关联 | Varchar(32) |
Query | 用户提交的搜索内容 | Varchar(100) |
DocID | 用户实际点击文档的索引编号 | Varchar(32) |
HitTime | 用户点击实际点击文档的时间 | Datetime |
Page | 该用户实际点击文档所在的页面编码 | Int |
Rank | 该用户实际点击文档在页面上的序号 | Int |
具体实施中,用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合,可以包括两个部分的内容:
用户所在的横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合:
具体的,假设根据用户提交的搜索内容q得到的搜索文档集合表示为I={i1,i2,......,im},im表示为第m个搜索文档,用户所在的横向组织架构对应的用户群中某一用户实际点击文档集合为Hi={h1,h2,......,hk},hk表示为第k个实际点击文档,显然k≤m且对于用户所在的横向组织架构对应的用户群中所有的u个用户,可以得到u个不同的实际点击文档集合Dt={H1,H2,......,Hu}。假设Dt中包含的所有n个实际点击文档集合Ht={h1,h2,......,hn}的支持度St={s1,s2,......,sn},其中hi(1≤i≤n)表示Ht的一项,si(1≤i≤n)表示St的一项,设某一用户对第hi项搜索文档的点击量为T(hi),u个用户对第hi项搜索文档总点击量为T(hi,u),那么,对第hi项的支持度si可以表示为:
即每一篇用户实际点击文档hi的支持度为:用户对hi的总点击量除以组织架构内u个用户对hi的总点击量。
则n≤m,0<si<1且将区间[0,1]划分为n个等份,用户所在的横向组织架构对应的用户群各用户对实际点击文档的支持度St分布在该区间各个子区间段上,那么求得用户所在的横向组织架构对应的用户群对实际点击文档集合的支持度E(St)为:
即用户所在的横向组织架构对应的用户群对实际点击文档集合的支持度为所有n个实际点击文档集合中每一篇实际点击文档
根据E(St)可以得到用户所在横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合Ct,假设共有j项,即Ct={c1,c2,......,cj}。Dt中包含集合Ct,Dt中任意一子项集中任一项搜索文档支持度大于等于E(St)时,即确定为频繁点击文档,j≤k。
用户所在的纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合:
用户所在的纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合与用户所在的横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合的确定方法相似,同样源于搜索结果文档集合I,用户所在的纵向组织架构对应的用户群包含a个用户,则可以得到a个不同的实际点击文档集合Gp={H1,H2,......,Ha},假设Gp中包含的所有l个实际点击文档集合Hl={h1,h2,......,hl}的支持度St={s1,s2,......,sl},hl表示为第l个实际点击文档,显然l≤m且同理,可以得到用户所在的纵向组织架构对应的用户群对实际点击文档集合的支持度E(Sr),根据E(Sr)可以得到用户所在纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合C′r,假设共有s项,即C′r={c′1,c′2,......,c′s}。
Ct与C′r交集记为Vrt,即CtIC′r=Vrt,如果Vrt集合为空,则Vrt参考集合Ct作为系统推荐点击项。如果Vrt集合不为空,Vrt可构成矩阵,这里,假设矩阵列表示横向组织架构,行表示纵向组织架构。那么,提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合A可以表示为:
具体实施中,预先设置的统计周期根据搜索引擎的使用频繁程度设置,可以为一天执行一次,两天执行一次,也可以为一周执行一次等。
具体实施中,由于各用户所在的横向组织架构和纵向组织结构不同,各用户实际点击文档分布特征也不同,因此,组织架构内不同横向组织架构和纵向组织架构确定出的对所述搜索内容的频繁点击文档集合Vrt呈现较大的变化。
具体实施中,第二统计子单元1024用于根据预处理子单元1023确定出的提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述频繁点击文档集合的点击总量。
具体实施中,预测子单元1025可以用于根据所述用户对实际点击文档集合中各文档的点击量、以及所述用户群对频繁点击文档集合中各文档的点击总量,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重。
具体的,Hi与Vrt之间不存在包属关系,但HiIVrt≠Φ。初始化时,可以设置用户实际点击文档集合与频繁点击文档集合的权值比为常量θ=50%(0<θ<1),当θ=0时,忽略实际的用户实际点击文档集合,向用户呈现的是根据频繁点击文档集合确定的搜索结果;当θ=100%时,忽略频繁点击文档集合,向用户呈现的是根据用户实际点击文档集合确定的搜索结果文档。当0<θ<100%时,向用户呈现的是结合了用户实际点击文档集合和频繁点击文档集合确定的搜索结果。每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重W(q,d)可以表示为:
其中F(hj)表示提交搜索内容的用户对第hj项实际点击文档的点击量,表示提交搜索内容的用户对实际点击文档集合的点击总量;F′(vij)表示用户所在的纵向组织架构对应的用户群对第vij项频繁点击文档的点击总量,表示用户所在的纵向组织架构对应的用户群对频繁点击文档集合的点击总量。当hj=vij时,用户及组织架构推荐点击权重可以通过提交搜索内容的用户对第hj项实际点击文档的点击量与提交搜索内容的用户对实际点击文档集合的点击总量的比值并与用户实际点击文档集合与频繁点击文档集合的权值比相乘后,加上用户所在的纵向组织架构对应的用户群对第vij项频繁点击文档的点击总量与用户所在的纵向组织架构对应的用户群对频繁点击文档集合的点击总量的比值乘以频繁点击文档集合与用户实际点击文档集合的权值比。公式(9-2)和公式(9-3)分别为用户实际点击文档集合与频繁点击文档集合权值比θ=0时和θ=100%时的情况。即θ=0时,用户及组织架构推荐点击权重可以通过提交搜索内容的用户对第hj项实际点击文档的点击量与提交搜索内容的用户对实际点击文档集合的点击总量的比值确定;θ=100%时,用户及组织架构推荐点击权重可以通过用户所在的纵向组织架构对应的用户群对第vij项频繁点击文档的点击总量与用户所在的纵向组织架构对应的用户群对频繁点击文档集合的点击总量的比值确定。
具体实施中,假设搜索结果集合为D,用户及组织架构推荐点击权重W(q,d)影响集合D中各搜索结果的排序参数值,原始项权重值为1,由公式(5)和公式(9)确定每一篇搜索文档的排序参数值为:
具体实施中,每一篇搜索文档的排序参数值通过每一篇搜索文档针对搜索内容的相关性参数值乘以用户及组织架构权重与原始项权重的和。
基于同一技术构思,本发明实施例中还提供了一种信息搜索排序方法,由于该方法和信息搜索排序装置解决技术问题的原理相似,因此该方法的实施可以参见信息搜索排序装置的实施,重复之处不再赘述。
如图2所示,信息搜索排序方法实施流程示意图,包括如下步骤:
S201、根据用户提交的搜索内容,确定每一篇搜索文档与搜索内容的邻近度参数值、以及每一篇搜索文档的搜索内容权重;
S202、根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值;
S203、根据组织架构内各用户的搜索日志信息、以及组织架构信息,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重;
S204、根据每一篇搜索文档的相关性参数值、以及用户及组织架构推荐点击权重,确定每一篇搜索文档的排序参数值;
S205、向用户返回按照搜索文档的排序参数值进行排序的搜索结果。
具体的,根据用户提交的搜索内容,确定每一篇搜索文档与搜索内容的邻近度参数值、以及每一篇搜索文档的搜索内容权重,包括:
对用户提交的搜索内容进行分词处理得到若干搜索关键词;
根据各搜索关键词确定每一篇搜索文档的搜索内容权重,以及根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的临近度参数值。
具体的,根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的临近度参数值,包括:
根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定两两相邻的搜索关键词在同一结构区域中的最小距离;
根据两两相邻的搜索关键词在同一结构区域中的最小距离,确定两两相邻的搜索关键词在同一结构区域中的的邻近度;
根据两两相邻的搜索关键词在同一结构区域中的的邻近度、及预先配置的各结构区域的权重参数,确定每一篇搜索文档与搜索内容的临近度参数值。
具体的,根据各搜索关键词确定每一篇搜索文档的搜索内容权重,包括:
统计每一个搜索关键词在各搜索文档中出现的频次;以及
统计包含每一个搜索关键词的搜索文档的数量,或者包含每一个搜索关键词的搜索文档的数量占搜索文档总量的比例;
根据每一个搜索关键词在各搜索文档中出现的频次、以及包含每一个搜索关键词的搜索文档的数量或者包含每一个搜索关键词的搜索文档的数量占搜索文档总量的比例,确定每一篇搜索文档的搜索内容权重。
具体实施中,根据组织架构内各用户的搜索日志信息、以及组织架构信息,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重,包括:
根据组织架构内各用户的搜索日志信息,分别确定提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合、以及用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合;
根据提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定横向组织架构对应的用户群对实际点击文档集合的支持度;以及根据提交搜索内容的用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定纵向组织架构对应的用户群对实际点击文档集合的支持度;
根据横向组织架构对应的用户群对实际点击文档集合的支持度确定横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合;以及根据纵向组织架构对应的用户群对实际点击文档集合的支持度确定纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合;
根据所述横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合、以及纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合。
具体的,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合,包括:
根据组织架构内各用户的搜索日志信息,分别确定提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合、以及用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合;
根据提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定横向组织架构对应的用户群对实际点击文档集合的支持度;以及根据提交搜索内容的用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定纵向组织架构对应的用户群对实际点击文档集合的支持度;
根据横向组织架构对应的用户群对实际点击文档集合的支持度确定横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合;以及根据纵向组织架构对应的用户群对实际点击文档集合的支持度确定纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合;
根据所述横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合、以及纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合。
具体的,根据提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定横向组织架构对应的用户群对实际点击文档集合的支持度,包括:
确定横向组织架构对应的用户群对实际点击文档集合中每一篇实际点击文档的支持度;
根据横向组织架构对应的用户群对实际点击文档集合中每一篇实际点击文档的支持度,确定横向组织架构对应的用户群对实际点击文档集合的支持度。
具体的,根据横向组织架构对应的用户群对实际点击文档集合的支持度确定横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合,包括;将实际点击文档的支持度不低于横向组织架构对应的用户群对实际点击文档集合的支持度的实际点击文档确定为横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合。
具体的,所述根据提交搜索内容的用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定纵向组织架构对应的用户群对实际点击文档集合的支持度,包括:
确定纵向组织架构对应的用户群对实际点击文档集合中每一篇实际点击文档的支持度;
根据纵向组织架构对应的用户群对实际点击文档集合中每一篇实际点击文档的支持度确定纵向组织架构对应的用户群对实际点击文档集合的支持度。
具体的,根据纵向组织架构对应的用户群对实际点击文档集合的支持度确定纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合,包括:
将实际点击文档的支持度不低于纵向组织架构对应的用户群对实际点击文档集合的支持度的实际点击文档确定为横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合。
具体的,根据所述横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合、以及纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合,包括:
在所述横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合于纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合的交集不为空时,确定横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合于纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合的交集为用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合;
在所述横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合于纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合的交集为空时,确定横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合或者纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合为用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合。
如图3所示,为本发明实施例中,信息搜索装置的一种可能的结构示意图,包括:
分词单元301,用于对用户提交的搜索内容进行分词处理得到若干搜索关键词;
第一确定单元302,用于根据各搜索关键词确定每一篇搜索文档的搜索内容权重,以及根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的邻近度参数值;
第二确定单元303,用于根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值;
返回单元304,用于基于每一篇搜索文档针对搜索内容的相关性参数值,向用户返回搜索结果。
具体的,第一确定子单元302用于根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定两两相邻的搜索关键词在同一结构区域中的最小距离;根据两两相邻的搜索关键词在同一结构区域中的最小距离,确定两两相邻的搜索关键词的邻近度;根据两两相邻的搜索关键词的邻近度、及预先配置的各结构区域的权重参数,确定每一篇搜索文档与搜索内容的临近度参数值。
具体的,第一确定子单元302用于针对每一个搜索关键词和每一篇搜索文档,统计该搜索关键词在该篇搜索文档中出现的频次;统计包含该搜索关键词的搜索文档的数量,或者包含该搜索关键词的搜索文档的数量占搜索文档总量的比例;根据各搜索关键词在搜索文档中出现的频次、以及包含该搜索关键词的搜索文档的数量或者包含该搜索关键词的搜索文档的数量占搜索文档总量的比例,确定每一篇搜索文档的搜索内容权重。
基于同一技术构思,本发明实施例中还提供了一种信息搜索方法,由于信息搜索方法解决技术问题的原理与信息搜索装置相似,因此信息搜索方法的实施可以参见信息搜索装置的实施,重复之处不再赘述。
如图4所示,为本发明实施例提供的信息搜索方法实施流程示意图,包括如下步骤:
S401、对用户提交的搜索内容进行分词处理得到若干搜索关键词;
S402、根据各搜索关键词确定每一篇搜索文档的搜索内容权重,以及根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的临近度参数值;
S403、根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值;并
S404、基于每一篇搜索文档针对搜索内容的相关性参数值,向用户返回搜索结果。
具体的,根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的临近度参数值,包括:
根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定两两相邻的搜索关键词在同一结构区域中的最小距离;
根据两两相邻的搜索关键词在同一结构区域中的最小距离,确定两两相邻的搜索关键词的邻近度;
根据两两相邻的搜索关键词的邻近度、及预先配置的各结构区域的权重参数,确定每一篇搜索文档与搜索内容的临近度参数值。
具体的,根据各搜索关键词确定每一篇搜索文档的搜索内容权重,包括:
统计每一个搜索关键词在各篇搜索文档中出现的频次;以及
统计包含每一个搜索关键词的搜索文档的数量,或者包含每一个搜索关键词的搜索文档的数量占搜索文档总量的比例;
根据每一个搜索关键词在各搜索文档中出现的频次、以及包含每一个搜索关键词的搜索文档的数量或者包含每一个搜索关键词的搜索文档的数量占搜索文档总量的比例确定每一篇搜索文档的搜索内容权重。
本发明实施例提供的信息搜索、及信息搜索排序装置和方法可以适用于特定行业的信息系统内的搜索引擎系统,也适用于互联网搜索引擎系统。
为了更好的理解本发明实施例的实施方式,下面通过具体的实施例对本发明的实施过程进行说明。
如图5所示,为本发明实施例提供的信息搜索排序装置应用于某一信息系统中的详细架构图,其中:
用户输入接口接收用户输入的搜索内容,并将用户所有的搜索行为信息存储到用户基本信息数据源中,其中,用户基本信息数据源中,至少包含用户的搜索日志信息,这里不限制用户基本信息数据源的存储形式,可以是文件,也可以是数据库等;应用展示接口用于输出信息搜索、及信息搜索排序后的搜索结果,可以采用基于浏览器的方式显示搜索结果;组织架构信息数据源包括信息系统对应的用户的组织架构信息。
如图6所示,为本发明实施例提供的信息搜索排序方法在某一信息系统中的实施流程示意图,包括如下步骤:
S601、接收用户提交的搜索内容,并将用户输入的搜索内容通过用户输入接口提交给分词子单元进行分词处理;
具体的,假设用户提交的搜索内容为q,通过分词子单元进行分词处理后,得到搜索关键词集合{ti}(ti表示q中的第i个搜索关键词),ti∈q。
S602、分词子单元将分词处理得到的搜索关键词提交给第一确定子单元;
S603、第一确定子单元根据接收到的搜索关键词确定每一篇搜索文档的搜索内容权重、每一篇搜索文档与搜索内容的临近度参数值;
具体的,第一确定子单元根据各搜索关键词确定每一篇搜索文档的搜索内容权重,具体实施中,每一篇搜索文档的搜索内容权重可以通过基于布尔和向量空间模型的加权评分Scorer(q,d)确定:
其中,fd(t)表示搜索关键词t(t∈q)在某一搜索文档d中出现的频次,fT(t)含该搜索关键词t的搜索文档的数量,或者包含该搜索关键词t的搜索文档的数量占搜索文档总量的比例。
另外,第一确定子单元根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的临近度参数值。具体的,搜索文档的各结构区域包括每一篇搜索文档的标题、摘要、正文和路径等。假设在搜索文档d的某一结构区域f中关键词ti的位置记为Pos(ti,f),关键词ti+1的位置记为Pos(ti+1,f),f满足条件:f∈d。
假设ti与ti+1在结构区域f中的最小距离记为Dismin(ti,f),其邻近度记为prox(ti,ti+1,f),且:
Dismin(ti,ti+1,f)=min|Pos(ti+1,f)-Pos(ti,f)| (12)
若f的权重参数为w(f),w(f)为预先设置的值,搜索文档d与搜索内容q的邻近度参数值记为Prox(q,d),那么Prox(q,d)可以通过如下公式计算:
S604、第一确定子单元将确定出的搜索内容权重及每一篇搜索文档与搜索内容的临近度参数值提交给第二确定子单元;
S605、第二确定子单元根据每一篇搜索文档与搜索内容的临近度参数值确定每一篇搜索文档针对搜索内容的相关性参数值;
本发明实施例中,可以通过如下公式来确定每一篇搜索文档d针对搜索内容q的相关性参数值ExtendScorer(q,d):
ExtendScorer(q,d)=Scorer(q,d)·Prox(q,d) (15)
S606、第二确定子单元将确定出来的每一篇搜索文档针对搜索内容的相关性参数值提交给排序单元;
S607、第一统计子单元确定提交搜索内容的用户对所述搜索内容的实际点击文档集合中各文档的点击量;
具体的,可以根据预先设置的统计周期,定期根据用户的搜索日志信息确定出用户实际点击过的搜索文档集合Hi,并定期统计用户对Hi中每一篇搜索结果文档的点击量F(hj)。具体实施中,预先设置的统计周期根据搜索引擎的使用频繁程度设置,可以为一天执行一次,两天执行一次,也可以为一周执行一次等。
S608、第一统计子单元将提交搜索的用户对所述搜索内容的实际点击文档集合中各文档的点击量分别提交给预测子单元和存储子单元;
S609、存储子单元存储接收到的用户对所述搜索内容的实际点击文档集合中各文档的点击量;
S610、预处理子单元根据根据组织架构内各用户的搜索日志信息、以及组织架构信息,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合;
用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合,可以包括两个部分的内容:
用户所在的横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合:
具体的,假设根据用户提交的搜索内容q得到的搜索文档集合表示为I={i1,i2,......,im},im表示为第m个搜索文档,用户所在的横向组织架构对应的用户群中某一用户实际点击文档集合为Hi={h1,h2,......,hk},hk表示为第k个实际点击文档,显然k≤m且对于用户所在的横向组织架构对应的用户群中所有的u个用户,可以得到u个不同的实际点击文档集合Dt={H1,H2,......,Hu}。假设Dt中包含的所有n个实际点击文档集合Ht={h1,h2,......,hn}的支持度St={s1,s2,......,sn},其中hi(1≤i≤n)表示Ht的一项,si(1≤i≤n)表示St的一项,设某一用户对第hi项搜索文档的点击量为T(hi),u个用户对第hi项搜索文档总点击量为T(hi,u),那么,对第hi项的支持度si可以表示为:
则n≤m,0<si<1且将区间[0,1]划分为n个等份,用户所在的横向组织架构对应的用户群各用户对实际点击文档的支持度St分布在该区间各个子区间段上,那么求得用户所在的横向组织架构对应的用户群对实际点击文档集合的支持度E(St)为:
根据E(St)可以得到用户所在横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合Ct,假设共有j项,即Ct={c1,c2,......,cj}。Dt中包含集合Ct中任意一项的所有子项集的数量占u项的比例大于等于E(St)且在所有点击频繁项中为最频繁的,且j≤k。
用户所在的纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合:
用户所在的纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合与用户所在的横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合的确定方法相似,同样源于搜索结果文档集合I,用户所在的纵向组织架构对应的用户群包含a个用户,则可以得到a个不同的实际点击文档集合Gp={H1,H2,......,Ha},假设Gp中包含的所有l个实际点击文档集合Hl={h1,h2,......,hl}的支持度St={s1,s2,......,sl},hl表示为第l个实际点击文档,显然l≤m且同理,可以得到用户所在的纵向组织架构对应的用户群对实际点击文档集合的支持度E(Sr),根据E(Sr)可以得到用户所在纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合C′r,假设共有s项,即C′r={c′1,c′2,......,c′s}。
Ct与C′r交集记为Vrt,即CtIC′r=Vrt,如果Vrt集合为空,则Vrt参考集合Ct作为系统推荐点击项。如果Vrt集合不为空,Vrt可构成矩阵,这里,假设矩阵列表示横向组织架构,行表示纵向组织架构。那么,提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合A可以表示为:
S611、预处理子单元将确定出的频繁点击文档集合提交给第二统计子单元;
S612、第二统计子单元确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述频繁点击文档集合的点击总量F′(vij);
S613、第二统计子单元将提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述频繁点击文档集合的点击总量F′(vij)提交给预测子单元和存储子单元;
S614、存储子单元存储接收到的提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述频繁点击文档集合的点击总量F′(vij);预测子单元根据接收到提交搜索内容的用户对实际点击文档集合中各文档的点击量、以及所述用户群对频繁点击文档集合中各文档的点击总量,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重。
Hi与Vrt之间不存在包属关系,但HiIVrt≠Φ。初始化时,可以设置用户实际点击文档集合与频繁点击文档集合的权值比为常量θ=50%(0<θ<1),当θ=0时,忽略实际的用户实际点击文档集合,向用户呈现的是根据频繁点击文档集合确定的搜索结果;当θ=100%时,忽略频繁点击文档集合,向用户呈现的是根据用户实际点击文档集合确定的搜索结果文档。当0<θ<100%时,向用户呈现的是结合了用户实际点击文档集合和频繁点击文档集合确定的搜索结果。每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重W(q,d)可以表示为:
其中F(hj)表示提交搜索内容的用户对第hj项实际点击文档的点击量,表示提交搜索内容的用户对实际点击文档集合的点击总量;F′(vij)表示用户所在的纵向组织架构对应的用户群对第vij项频繁点击文档的点击总量,表示用户所在的纵向组织架构对应的用户群对频繁点击文档集合的点击总量。公式(8-2)和公式(8-3)分别为用户实际点击文档集合与频繁点击文档集合权值比θ=0时和θ=100%时的情况。
S615、预测子单元将确定出的用户及组织架构推荐点击权重W(q,d)提交给排序单元;
S616、排序单元根据每一篇搜索结果文档针对搜索内容的相关性参数值、以及用户及组织架构推荐点击权重,确定每一篇搜索结果文档的排序参数值;并基于每一篇搜索结果文档的排序参数值对各搜索结果文档进行排序。
具体的,假设搜索结果集合为D,用户及组织架构推荐点击权重W(q,d)影响集合D中各搜索结果的排序参数值,原始项权重值为1,由公式(5)和公式(9)确定每一篇搜索文档的排序参数值为:
由上述过程确定出的排序参数值,在体现用户行为特征的同时,也向用户推荐了用户所在的横向组织架构和纵向组织架构内其他用户关注的内容,排序结果更加符合用户需求,从而提高了用户获取目标结果文档的效率,减少了用户与搜索引擎相关设备的交互次数,从而提升了系统性能。
由于组织架构内的横向组织架构、纵向组织架构的用户关注的内容不同,点击密度随时间、横向组织架构和纵向组织架构有较大变化,因此,搜索结果文档排序更符合个性化的特点。而且用户及组织架构推荐点击权重可以离线计算,定期更新用户实际点击结果文档集合与用户及组织架构推荐点击权重,不影响检索速度。
本发明实施例提供的信息搜索排序装置和方法,基于用户提交的搜索内容,确定每一篇搜索文档与搜索内容的邻近度参数值和每一篇搜索文档的搜索内容权重,并据此确定每一篇搜索文档针对搜索内容的相关性参数值;在此基础上,结合用户所在的组织架构内各用户的搜索日志信息、组织架构信息,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重,确定每一篇搜索文档的排序参数值,并基于该排序参数值对各搜索文档进行排序。由于确定了每一篇搜索文档针对搜索内容的相关性参数值,并预测用户及组织架构推荐点击权重,使得排序参数值更加准确,也更能体现用户的需求,从而提高了用户获取目标搜索结果的效率,降低了搜索引擎中各相关设备的开销,提升了系统性能。
本发明实施例提供的信息搜索装置和方法,基于用户提交的搜索内容,确定每一篇搜索文档与搜索内容的邻近度参数值和每一篇搜索文档的搜索内容权重,并据此确定每一篇搜索文档针对搜索内容的相关性参数值,基于该相关性参数值向用户返回搜索结果,这样,得到的搜索结果同时考虑了每一篇搜索文档与搜索内容的邻近度参数值和每一篇搜索文档的搜索内容权重,提高了搜索结果的准确性,从而减少了用户发起搜索的次数,达到了降低搜索引擎中相关设备的开销,提升系统性能的目的。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (23)
1.一种信息搜索排序装置,其特征在于,包括:
确定单元,用于根据用户提交的搜索内容,确定每一篇搜索文档与搜索内容的邻近度参数值、以及每一篇搜索文档的搜索内容权重;根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值;
预测单元,用于根据组织架构内各用户的搜索日志信息、以及组织架构信息,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重;
排序单元,用于根据每一篇搜索文档的相关性参数值、以及用户及组织架构推荐点击权重,确定每一篇搜索文档的排序参数值;向用户返回按照搜索文档的排序参数值进行排序的搜索结果。
2.如权利要求1所述的装置,其特征在于,所述确定单元包括分词子单元,第一确定子单元和第二确定子单元,其中:
所述分词子单元,用于对用户提交的搜索内容进行分词处理得到若干搜索关键词;
所述第一确定子单元,用于根据各搜索关键词确定每一篇搜索文档的搜索内容权重,以及根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的邻近度参数值;
所述第二确定子单元,用于根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值。
3.如权利要求2所述的装置,其特征在于,
所述第一确定子单元,具体用于根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定两两相邻的搜索关键词在同一结构区域中的最小距离;根据两两相邻的搜索关键词在同一结构区域中的最小距离,确定两两相邻的搜索关键词在同一结构区域中的邻近度;根据两两相邻的搜索关键词在同一结构区域中的邻近度、及预先配置的各结构区域的权重参数,确定每一篇搜索文档与搜索内容的邻近度参数值。
4.如权利要求2所述的装置,其特征在于,
所述第一确定子单元,具体用于统计每一个搜索关键词在各搜索文档中出现的频次;统计包含每一个搜索关键词的搜索文档的数量,或者包含每一个搜索关键词的搜索文档的数量占搜索文档总量的比例;根据每一个搜索关键词在各搜索文档中出现的频次、以及包含每一个搜索关键词的搜索文档的数量或者包含每一个搜索关键词的搜索文档的数量占搜索文档总量的比例,确定每一篇搜索文档的搜索内容权重。
5.如权利要求1所述的装置,其特征在于,所述预测单元包括存储子单元、第一统计子单元、预处理子单元、第二统计子单元和预测子单元,其中:
存储子单元,用于存储组织架构内各用户的搜索日志信息、以及组织架构信息;
所述第一统计子单元,用于根据组织架构内各用户的搜索日志信息,确定提交搜索内容的用户对所述搜索内容的实际点击文档集合中各文档的点击量;
所述预处理子单元,用于根据组织架构内各用户的搜索日志信息、以及组织架构信息,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合;
所述第二统计子单元,用于确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述频繁点击文档集合中各文档的点击总量;
所述预测子单元,用于根据所述用户对实际点击文档集合中各文档的点击量、以及所述用户群对频繁点击文档集合中各文档的点击总量,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重。
6.如权利要求5所述的装置,其特征在于,
所述预处理子单元,具体用于根据组织架构内各用户的搜索日志信息,分别确定提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合、以及用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合;根据提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定横向组织架构对应的用户群对实际点击文档集合的支持度,以及根据提交搜索内容的用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定纵向组织架构对应的用户群对实际点击文档集合的支持度;根据横向组织架构对应的用户群对实际点击文档集合的支持度确定横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合,以及根据纵向组织架构对应的用户群对实际点击文档集合的支持度确定纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合;根据所述横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合、以及纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合。
7.一种信息搜索排序方法,其特征在于,包括:
根据用户提交的搜索内容,确定每一篇搜索文档与搜索内容的邻近度参数值、以及每一篇搜索文档的搜索内容权重;
根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值;
根据组织架构内各用户的搜索日志信息、以及组织架构信息,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重;
根据每一篇搜索文档的相关性参数值、以及用户及组织架构推荐点击权重,确定每一篇搜索文档的排序参数值;
向用户返回按照搜索文档的排序参数值进行排序的搜索结果。
8.如权利要求7所述的方法,其特征在于,所述根据用户提交的搜索内容,确定每一篇搜索文档与搜索内容的邻近度参数值、以及每一篇搜索文档的搜索内容权重,具体包括:
对用户提交的搜索内容进行分词处理得到若干搜索关键词;
根据各搜索关键词确定每一篇搜索文档的搜索内容权重,以及根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的邻近度参数值。
9.如权利要求8所述的方法,其特征在于,所述根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的邻近度参数值,具体包括:
根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定两两相邻的搜索关键词在同一结构区域中的最小距离;
根据两两相邻的搜索关键词在同一结构区域中的最小距离,确定两两相邻的搜索关键词的在同一结构区域中的邻近度;
根据两两相邻的搜索关键词在同一结构区域中的邻近度、及预先配置的各结构区域的权重参数,确定每一篇搜索文档与搜索内容的邻近度参数值。
10.如权利要求8所述的方法,其特征在于,所述根据各搜索关键词确定每一篇搜索文档的搜索内容权重,具体包括:
统计每一个搜索关键词在各搜索文档中出现的频次;以及
统计包含每一个搜索关键词的搜索文档的数量,或者包含每一个搜索关键词的搜索文档的数量占搜索文档总量的比例;
根据每一个搜索关键词在各搜索文档中出现的频次、以及包含每一个搜索关键词的搜索文档的数量或者包含每一个搜索关键词的搜索文档的数量占搜索文档总量的比例,确定每一篇搜索文档的搜索内容权重。
11.如权利要求7所述的方法,其特征在于,根据组织架构内各用户的搜索日志信息、以及组织架构信息,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重,具体包括:
根据组织架构内各用户的搜索日志信息,确定提交搜索内容的用户对所述搜索内容的实际点击文档集合中各文档的点击量;
根据组织架构内各用户的搜索日志信息、以及组织架构信息,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合中各文档的点击总量;
根据所述用户对实际点击文档集合中各文档的点击量、以及所述用户群对频繁点击文档集合中各文档的点击总量,预测每一篇搜索文档针对搜索内容的用户及组织架构推荐点击权重。
12.如权利要求11所述的方法,其特征在于,所述确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合,具体包括:
根据组织架构内各用户的搜索日志信息,分别确定提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合、以及用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合;
根据提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定横向组织架构对应的用户群对实际点击文档集合的支持度;以及根据提交搜索内容的用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定纵向组织架构对应的用户群对实际点击文档集合的支持度;
根据横向组织架构对应的用户群对实际点击文档集合的支持度确定横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合;以及根据纵向组织架构对应的用户群对实际点击文档集合的支持度确定纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合;
根据所述横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合、以及纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合。
13.如权利要求12所述的方法,其特征在于,所述根据提交搜索内容的用户所在的横向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定横向组织架构对应的用户群对实际点击文档集合的支持度,具体包括:
确定横向组织架构对应的用户群对实际点击文档集合中每一篇实际点击文档的支持度;
根据横向组织架构对应的用户群对实际点击文档集合中每一篇实际点击文档的支持度,确定横向组织架构对应的用户群对实际点击文档集合的支持度。
14.如权利要求13所述的方法,其特征在于,所述根据横向组织架构对应的用户群对实际点击文档集合的支持度确定横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合,具体包括;
将实际点击文档的支持度不低于横向组织架构对应的用户群对实际点击文档集合的支持度的实际点击文档确定为横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合。
15.如权利要求12所述的方法,其特征在于,所述根据提交搜索内容的用户所在的纵向组织架构对应的用户群对所述搜索内容的实际点击文档集合确定纵向组织架构对应的用户群对实际点击文档集合的支持度,具体包括:
确定纵向组织架构对应的用户群对实际点击文档集合中每一篇实际点击文档的支持度;
根据纵向组织架构对应的用户群对实际点击文档集合中每一篇实际点击文档的支持度确定纵向组织架构对应的用户群对实际点击文档集合的支持度。
16.如权利要求15所述的方法,其特征在于,根据纵向组织架构对应的用户群对实际点击文档集合的支持度确定纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合,具体包括:
将实际点击文档的支持度不低于纵向组织架构对应的用户群对实际点击文档集合的支持度的实际点击文档确定为纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合。
17.如权利要求12所述的方法,其特征在于,所述根据所述横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合、以及纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合,确定提交搜索内容的用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合,具体包括:
在所述横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合与纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合的交集不为空时,确定横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合与纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合的交集为用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合;
在所述横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合与纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合的交集为空时,确定横向组织架构对应的用户群对所述搜索内容的频繁点击文档集合、或者纵向组织架构对应的用户群对所述搜索内容的频繁点击文档集合为用户所在的横向组织架构与纵向组织架构二元组对应的用户群对所述搜索内容的频繁点击文档集合。
18.一种信息搜索装置,其特征在于,包括:
分词单元,用于对用户提交的搜索内容进行分词处理得到若干搜索关键词;
第一确定单元,用于根据各搜索关键词确定每一篇搜索文档的搜索内容权重,以及根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的邻近度参数值;
第二确定单元,用于根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值;
返回单元,用于基于每一篇搜索文档针对搜索内容的相关性参数值,向用户返回搜索结果。
19.如权利要求18所述的装置,其特征在于,
所述第一确定单元,具体用于根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定两两相邻的搜索关键词在同一结构区域中的最小距离;根据两两相邻的搜索关键词在同一结构区域中的最小距离,确定两两相邻的搜索关键词在同一结构区域中的邻近度;根据两两相邻的搜索关键词的邻近度、及预先配置的各结构区域的权重参数,确定每一篇搜索文档与搜索内容的邻近度参数值。
20.如权利要求18所述的装置,其特征在于,
所述第一确定单元,具体用于针对每一个搜索关键词和每一篇搜索文档,统计该搜索关键词在该篇搜索文档中出现的频次;统计包含该搜索关键词的搜索文档的数量,或者包含该搜索关键词的搜索文档的数量占搜索文档总量的比例;根据各搜索关键词在搜索文档中出现的频次、以及包含该搜索关键词的搜索文档的数量或者包含该搜索关键词的搜索文档的数量占搜索文档总量的比例,确定每一篇搜索文档的搜索内容权重。
21.一种信息搜索方法,其特征在于,包括:
对用户提交的搜索内容进行分词处理得到若干搜索关键词;
根据各搜索关键词确定每一篇搜索文档的搜索内容权重,以及根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的邻近度参数值;
根据每一篇搜索文档的搜索内容权重、以及每一篇搜索文档与搜索内容的邻近度参数值,确定每一篇搜索文档针对搜索内容的相关性参数值;并
基于每一篇搜索文档针对搜索内容的相关性参数值,向用户返回搜索结果。
22.如权利要求21所述的方法,其特征在于,所述根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定每一篇搜索文档与搜索内容的邻近度参数值,具体包括:
根据各搜索关键词在每一篇搜索文档的各结构区域中的位置,确定两两相邻的搜索关键词在同一结构区域中的最小距离;
根据两两相邻的搜索关键词在同一结构区域中的最小距离,确定两两相邻的搜索关键词的邻近度;
根据两两相邻的搜索关键词的邻近度、及预先配置的各结构区域的权重参数,确定每一篇搜索文档与搜索内容的邻近度参数值。
23.如权利要求21所述的方法,其特征在于,所述根据各搜索关键词确定每一篇搜索文档的搜索内容权重,具体包括:
统计每一个搜索关键词在该篇搜索文档中出现的频次;以及
统计包含每一个搜索关键词的搜索文档的数量,或者包含每一个搜索关键词的搜索文档的数量占搜索文档总量的比例;
根据每一个搜索关键词在各搜索文档中出现的频次、以及包含每一个搜索关键词的搜索文档的数量或者包含每一个搜索关键词的搜索文档的数量占搜索文档总量的比例确定每一篇搜索文档的搜索内容权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010587800.XA CN102567326B (zh) | 2010-12-14 | 2010-12-14 | 一种信息搜索、及信息搜索排序装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010587800.XA CN102567326B (zh) | 2010-12-14 | 2010-12-14 | 一种信息搜索、及信息搜索排序装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102567326A CN102567326A (zh) | 2012-07-11 |
CN102567326B true CN102567326B (zh) | 2014-09-03 |
Family
ID=46412767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010587800.XA Active CN102567326B (zh) | 2010-12-14 | 2010-12-14 | 一种信息搜索、及信息搜索排序装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102567326B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104252456B (zh) * | 2013-06-25 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 一种权重估计方法、装置及系统 |
US11238056B2 (en) | 2013-10-28 | 2022-02-01 | Microsoft Technology Licensing, Llc | Enhancing search results with social labels |
CN104794135B (zh) * | 2014-01-21 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 一种对搜索结果进行排序的方法和装置 |
US11645289B2 (en) | 2014-02-04 | 2023-05-09 | Microsoft Technology Licensing, Llc | Ranking enterprise graph queries |
US9870432B2 (en) | 2014-02-24 | 2018-01-16 | Microsoft Technology Licensing, Llc | Persisted enterprise graph queries |
US11657060B2 (en) | 2014-02-27 | 2023-05-23 | Microsoft Technology Licensing, Llc | Utilizing interactivity signals to generate relationships and promote content |
US10757201B2 (en) | 2014-03-01 | 2020-08-25 | Microsoft Technology Licensing, Llc | Document and content feed |
US10255563B2 (en) | 2014-03-03 | 2019-04-09 | Microsoft Technology Licensing, Llc | Aggregating enterprise graph content around user-generated topics |
US10394827B2 (en) * | 2014-03-03 | 2019-08-27 | Microsoft Technology Licensing, Llc | Discovering enterprise content based on implicit and explicit signals |
US10061826B2 (en) | 2014-09-05 | 2018-08-28 | Microsoft Technology Licensing, Llc. | Distant content discovery |
CN105574015A (zh) * | 2014-10-13 | 2016-05-11 | 阿里巴巴集团控股有限公司 | 搜索推荐方法和装置 |
CN107908653A (zh) * | 2017-10-12 | 2018-04-13 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN112100529B (zh) * | 2020-11-17 | 2021-03-19 | 北京三快在线科技有限公司 | 搜索内容排序方法、装置、存储介质和电子设备 |
CN117235242B (zh) * | 2023-11-15 | 2024-02-06 | 浙江力石科技股份有限公司 | 一种基于智能问答数据库的热点信息筛选方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1755678A (zh) * | 2004-09-30 | 2006-04-05 | 微软公司 | 在排序搜索结果时引入锚文本用的系统和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8131731B2 (en) * | 2007-12-27 | 2012-03-06 | Microsoft Corporation | Relevancy sorting of user's browser history |
-
2010
- 2010-12-14 CN CN201010587800.XA patent/CN102567326B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1755678A (zh) * | 2004-09-30 | 2006-04-05 | 微软公司 | 在排序搜索结果时引入锚文本用的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102567326A (zh) | 2012-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102567326B (zh) | 一种信息搜索、及信息搜索排序装置和方法 | |
Bornmann et al. | The application of bibliometrics to research evaluation in the humanities and social sciences: An exploratory study using normalized G oogle S cholar data for the publications of a research institute | |
US7895235B2 (en) | Extracting semantic relations from query logs | |
Carterette et al. | Minimal test collections for retrieval evaluation | |
CN103092856B (zh) | 搜索结果排序方法及设备、搜索方法及设备 | |
CN104063523B (zh) | 一种电子商务搜索评分与排名的方法及系统 | |
US7783630B1 (en) | Tuning of relevancy ranking for federated search | |
CN104933100B (zh) | 关键词推荐方法和装置 | |
CN102056335B (zh) | 移动搜索方法、装置和系统 | |
US20100281023A1 (en) | Relevancy scoring using query structure and data structure for federated search | |
CN103207881B (zh) | 查询方法和装置 | |
US8185536B2 (en) | Rank-order service providers based on desired service properties | |
CN110674318A (zh) | 一种基于引文网络社区发现的数据推荐方法 | |
CN102122295A (zh) | 包括确信结果的突出显示的文档搜索引擎 | |
CN102253982A (zh) | 一种基于查询语义和点击流数据的查询建议方法 | |
CN104361102A (zh) | 一种基于群组匹配的专家推荐方法及系统 | |
CN103593425A (zh) | 基于偏好的智能检索方法及系统 | |
CN112364151B (zh) | 一种基于图、引文和内容的论文混合推荐方法 | |
CN104252456A (zh) | 一种权重估计方法、装置及系统 | |
CN101916294A (zh) | 一种利用语义分析实现精确搜索的方法 | |
CN102156747B (zh) | 一种引入社会化标签的协作过滤评分预测方法及装置 | |
Bar-Yossef et al. | Mining search engine query logs via suggestion sampling | |
CN101661490B (zh) | 搜索引擎、其客户端及搜索网页的方法 | |
Zhang et al. | Click-based evidence for decaying weight distributions in search effectiveness metrics | |
CN103136213A (zh) | 一种提供相关词的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |