CN105512122B - 信息检索系统的排序方法及装置 - Google Patents
信息检索系统的排序方法及装置 Download PDFInfo
- Publication number
- CN105512122B CN105512122B CN201410489472.8A CN201410489472A CN105512122B CN 105512122 B CN105512122 B CN 105512122B CN 201410489472 A CN201410489472 A CN 201410489472A CN 105512122 B CN105512122 B CN 105512122B
- Authority
- CN
- China
- Prior art keywords
- document
- collection
- sort
- ordering rule
- initially
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明公开了一种信息检索系统的排序方法及装置,该方法包括:接收查询信息;根据查询信息进行检索得到初始排序的文档集合,初始排序的文档集合是按照检索结果文档与查询信息的相关性的大小,将检索结果文档进行排序后的文档集合;在排序规则库中,获取与查询信息、初始排序的文档集合相关联的排序规则集合;根据初始排序的文档集合和排序规则集合进行后排序,生成最终排序的文档集合。通过上述方式,本发明能够满足复杂多样且动态变化的检索需求,且能够自动化的管理和维护规则库。
Description
技术领域
本发明涉及信息检索技术领域,特别是涉及一种信息检索系统的排序方法及装置。
背景技术
信息检索系统在现实中有着广泛的应用,例如互联网搜索引擎、垂直领域搜索引擎(如购物搜索、视频搜索)等。同时,信息检索系统也是构成其它很多系统的重要组件,例如智能问答系统、企业知识管理系统、移动应用商店等。
排序是信息检索系统的关键问题之一,以文档搜索为例,用户向信息检索系统提交查询关键词,系统检索返回若干个候选文档,并根据每个候选文档与查询关键词的相关性进行打分,然后按照该分值对候选文档进行排序,相关性越高的文档排位越靠前,最后将该排序后的文档序列返回给用户。在实际的信息检索应用中,在初始相关性排序之后,还需要根据每个查询上特有的知识和规则对排序进行调整,即后排序。例如:商业搜索引擎中在相关性排序之后,加入一系列人工编写的代码规则,控制最终的排序结果;规则之间通常以链式串联,在获得相关性排序的文档序列,即初始排序文档集合后,按照人工规则,逐个对排序进行调整,并将最终的序列返回给用户。
在实际应用中,上述基于人工知识规则的方案由于规则固定、规则之间的顺序固定,因此难以满足复杂多样且动态变化的需求,且难以自动化的管理和维护规则库。
发明内容
本发明主要解决的技术问题是提供一种信息检索系统的排序方法及装置,能够满足复杂多样且动态变化的检索需求,且能够自动化的管理和维护规则库。
第一方面,本发明提供一种信息检索系统的排序方法,所述方法包括:接收查询信息;根据所述查询信息进行检索得到初始排序的文档集合,所述初始排序的文档集合是按照检索结果文档与所述查询信息的相关性的大小,将所述检索结果文档进行排序后的文档集合;在排序规则库中,获取与所述查询信息、所述初始排序的文档集合相关联的排序规则集合;根据所述初始排序的文档集合和所述排序规则集合进行后排序,生成最终排序的文档集合。
在第一方面的第一种可能的实现方式中,所述根据所述初始排序的文档集合和所述排序规则集合进行后排序,生成最终排序的文档集合,包括:根据所述初始排序的文档集合和所述排序规则集合,利用最优化方法进行后排序,生成最终排序的文档集合。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述根据所述初始排序的文档集合和所述排序规则集合,利用最优化方法进行后排序,生成最终排序的文档集合,包括:通过融合所述初始排序的文档集合和所述排序规则集合,构造优化目标函数;求解所述优化目标函数,获得所述优化目标函数的最优解;根据所述优化目标函数的最优解确定所述最终排序的文档集合。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述通过融合所述初始排序的文档集合和所述排序规则集合,构造优化目标函数,包括:获取所述排序规则集合中各个排序规则的优先级别;通过融合所述初始排序的文档集合、所述排序规则集合中各个排序规则以及所述各个排序规则的优先级别,构造优化目标函数。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述通过融合所述初始排序的文档集合、所述排序规则集合中各个排序规则以及所述各个排序规则的优先级别,构造优化目标函数,包括:根据Bradley-Terry模型,通过融合所述初始排序的文档集合、所述排序规则集合中各个排序规则以及所述各个排序规则的优先级别,构造优化目标函数,所述优化目标函数是:
其中,所述C是所述排序规则集合,所述c是所述排序规则集合C中的各个排序规则,所述σ(i),σ(j)是所述初始排序的文档集合中N个文档各自的初始排序得分,所述Θ是优化向量,且Θ=(θ1,...,θN),所述θ1,...,θN分别表示所述初始排序的文档集合中N个文档各自的最终排序得分,所述Θ=(θ1,...,θN)表示将所述初始排序的文档集合中N个文档按照所述得分排序后生成的最终排序的文档集合,所述ρ是所述排序规则集合C中各个排序规则的优先级别,所述P表示排序规则集合导出的所有文档间的偏序关系的集合,1≤i≤N,1≤j≤N。
结合第一方面、第一方面的第一至第四种中任一种可能的实现方式,在第一方面的第五种可能的实现方式中,所述方法还包括:在用户界面,展示所述最终排序的文档集合。
第二方面,本发明提供一种信息检索系统的排序装置,所述装置包括:接收模块、初始文档集合获取模块、排序规则集合获取模块以及最终文档集合生成模块;所述接收模块用于接收查询信息;所述初始文档集合获取模块用于根据所述接收模块接收的所述查询信息进行检索得到初始排序的文档集合,所述初始排序的文档集合是按照检索结果文档与所述查询信息的相关性的大小,将所述检索结果文档进行排序后的文档集合;所述排序规则集合获取模块用于在排序规则库中,获取与所述接收模块接收的查询信息、所述初始文档集合获取模块得到的初始排序的文档集合相关联的排序规则集合;所述最终文档集合生成模块用于根据所述初始文档集合获取模块得到的初始排序的文档集合和所述排序规则集合获取模块获取的排序规则集合进行后排序,生成最终排序的文档集合。
在第二方面的第一种可能的实现方式中,所述最终文档集合生成模块具体用于根据所述初始排序的文档集合和所述排序规则集合,利用最优化方法进行后排序,生成最终排序的文档集合。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述最终文档集合生成模块包括:构造单元、求解单元以及确定单元;所述构造单元用于通过融合所述初始排序的文档集合和所述排序规则集合,构造优化目标函数;所述求解单元用于求解所述构造单元构造的优化目标函数,获得所述优化目标函数的最优解;所述确定单元用于根据所述求解单元获得的优化目标函数的最优解确定所述最终排序的文档集合。
结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述构造单元具体用于:获取所述排序规则集合中各个排序规则的优先级别;通过融合所述初始排序的文档集合、所述排序规则集合中各个排序规则以及所述各个排序规则的优先级别,构造优化目标函数。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述构造单元具体用于根据Bradley-Terry模型,通过融合所述初始排序的文档集合、所述排序规则集合中各个排序规则以及所述各个排序规则的优先级别,构造优化目标函数,所述优化目标函数是:
其中,所述C是所述排序规则集合,所述c是所述排序规则集合C中的各个排序规则,所述σ(i),σ(j)是所述初始排序的文档集合中N个文档各自的初始排序得分,所述Θ是优化向量,且Θ=(θ1,...,θN),所述θ1,...,θN分别表示所述初始排序的文档集合中N个文档各自的最终排序得分,所述Θ=(θ1,...,θN)表示将所述初始排序的文档集合中N个文档按照所述得分排序后生成的最终排序的文档集合,所述ρ是所述排序规则集合C中各个排序规则的优先级别,所述P表示排序规则集合导出的所有文档间的偏序关系的集合,1≤i≤N,1≤j≤N。
结合第二方面、第二方面的第一至第四种中任一种可能的实现方式,在第二方面的第五种可能的实现方式中,所述装置还包括展示模块,所述展示模块用于在用户界面,展示所述最终排序的文档集合。
本发明的有益效果是:区别于现有技术的情况,本发明根据查询信息进行检索得到初始排序的文档集合;在排序规则库中,获取与查询信息、初始排序的文档集合相关联的排序规则集合;根据初始排序的文档集合和排序规则集合进行后排序,生成最终排序的文档集合。由于进行后排序所需要的排序规则集合可以从排序规则库中获取,且与查询信息、初始排序的文档集合相关联,即排序规则集合不是固定不变的,能够根据查询信息、初始排序的文档集合的变化而变化,通过这种方式,能够使排序规则集合满足复杂多样且动态变化的需求,且排序规则库是独立存在的,能够实现排序规则库的自动化的管理和维护。
附图说明
图1是本发明信息检索系统的排序方法一实施方式的流程图;
图2是 本发明信息检索系统的排序方法另一实施方式的流程图;
图3是本发明信息检索系统的排序方法又一实施方式的流程图;
图4是本发明信息检索系统的排序方法又一实施方式的流程图;
图5是本发明信息检索系统的排序装置一实施方式的结构示意图;
图6是本发明信息检索系统的排序装置另一实施方式的结构示意图;
图7是本发明信息检索系统的排序装置一实施方式的实体结构示意图。
具体实施方式
下面结合附图和实施方式对本发明进行详细说明。
参阅图1,图1是本发明信息检索系统的排序方法一实施方式的流程图,该方法包括:
步骤S101:接收查询信息。
查询信息是指用户为了某种需求进行查询时输入的信息,例如:关键词、关键词组合等等。
步骤S102:根据查询信息进行检索得到初始排序的文档集合,初始排序的文档集合是按照检索结果文档与查询信息的相关性的大小,将检索结果文档进行排序后的文档集合。
信息检索系统接收查询信息后,根据该查询信息进行检索,获得候选的检索结果文档,同时根据候选的检查结果文档与查询信息的相关性的大小,对检索结果文档进行排序,例如,检查结果文档与查询信息的相关性越大,该检查结果文档在排序时越靠前,据此获得的排序后的文档集合即为初始排序的文档集合。需要说明的是,此处的信息检索系统包括但不限于互联网搜索、垂直领域搜索、企业知识搜索等,以及任何以信息检索为组件的系统,包括但不限于自动问答系统、移动应用商店等。另外,如果检索结果小于等于一个,则无所谓排序问题,因此本方案不考虑该集合中子集为空或者为1情况。
步骤S103:在排序规则库中,获取与查询信息、初始排序的文档集合相关联的排序规则集合。
排序规则库是指为满足各种需求所需要考虑的有关规则和知识的数据库,它是根据不同的信息检索的业务需要,由人工或者数据挖掘的方法产生的。比如,在网页搜索反作弊的业务中,排序规则库可能保存的是一些不同程度的作弊或有安全隐患的网页的统一资源定位符(Uniform Resource Locator,URL),以及将它们的排序位置置后的位置说明(比如,置于第5位以后、或第10位以后等)。又比如,在网页搜索多样性的业务中,排序规则库中保留一系列具有多样性的查询词,以及这些查询词对应的前10位置必须覆盖的主题:比如,对于“苹果”这个查询词,排在前10结果中必须包含“苹果”作为IT品牌的网页,也必须包括“苹果”作为水果的网页。在实际系统中,排序规则库通常包括多个业务维度上的规则。因此,该排序规则库能够满足实际应用中复杂多变且动态变化的需求。另外,由于排序规则库能够独立存在,因此排序规则库在建立后,可以单独对排序规则库进行自动化的管理和维护,可以根据实际应用情况进行动态调整的,例如,可以新增有关的规则和知识,可以修改有关的规则和知识,可以删除有关的规则和知识等。
输入查询信息和初始排序的文档集合,根据相关性分析,即可在排序规则库中查询到与查询信息、初始排序的文档集合相关联的排序规则集合。排序规则集合中的各个规则之间没有任何顺序要求,只要与查询信息、初始排序的文档集合相关联,该规则即可选择进入排序规则集合中。
步骤S104:根据初始排序的文档集合和排序规则集合进行后排序,生成最终排序的文档集合。
后排序(post ranking)是指在经过初始相关性排序获得初始排序的文档集合之后,根据知识和规则对初始排序的文档集合进行的后处理。例如:对于某些具有多种含义的查询词,为了提升搜索结果的多样性,在相关性排序的基础上,需要排在前面的文档覆盖尽可能多的子话题,比如,以“病毒”作为查询词,可能是指生物学中的病毒,或者是计算机病毒,因此,在进行后排序时,需要在前面的搜索结果中尽量同时覆盖这两种概念的文档。又比如:在互联网搜索中,为了保护用户的隐私和安全,在进行后排序时,需要把恶意页面(恶意收集用户隐私、攻击用户计算机等)排在后面的位置,而不论其相关性的好坏。与初始相关性排序不同,后排序能够考虑到如多样性、安全、运营、商业等诸多方面的需求。
根据初始排序的文档集合和排序规则集合进行后排序,生成最终排序的文档集合,该最终排序的文档集合是在综合考虑排序规则集合中的各个规则后,对初始排序的文档集合进行后处理,即进行第二次排序后的结果。因此最终排序的文档集合能够满足实际应用中复杂多变且动态变化的需求。
本发明实施方式根据查询信息进行检索得到初始排序的文档集合;在排序规则库中,获取与查询信息、初始排序的文档集合相关联的排序规则集合;根据初始排序的文档集合和排序规则集合进行后排序,生成最终排序的文档集合。由于进行后排序所需要的排序规则集合可以从排序规则库中获取,且与查询信息、初始排序的文档集合相关联,即排序规则集合不是固定不变的,能够根据查询信息、初始排序的文档集合的变化而变化,这样使得整个后排序成为一个动态的过程,而非固定的链式策略,能够自动适应排序规则的变更,通过这种方式,能够使排序规则集合满足复杂多样且动态变化的需求;而且,在查询信息、初始排序的文档集合发生变化后,各个规则能够自然解耦,这样使得规则管理和维护的成本大大降低;进一步,由于排序规则库是独立存在的,能够实现排序规则库的自动化的管理和维护。
参见图2,其中,步骤S104,即根据初始排序的文档集合和排序规则集合进行后排序,生成最终排序的文档集合,可以具体是如下内容:
步骤S104a:根据初始排序的文档集合和排序规则集合,利用最优化方法进行后排序,生成最终排序的文档集合。
最优化方法是近几十年形成的,它主要运用数学方法研究各种系统的优化途径及方案,从数学意义上说,最优化方法是一种求极值的方法,即在一组约束条件下,使系统的目标函数达到极值,即最大值或最小值。本发明实施方式中,采用最优化方法的目的在于针对所研究的系统,求得一个从全局角度考虑的、将各种排序需求进行综合和折衷的方案,从而以最低成本解决各个排序规则之间的冲突,最终达到系统的最优目标。最优化方法包括但不限于:梯度下降法,牛顿法,线性规划、二次规划、遗传算法等等。
在本发明实施方式中,不需要将排序规则“排列”,而是将排序规则集合中的规则,全部输入,利用最优化方法统筹优化。在现有技术中的串联规则中,规则之间通常以链式串联,后面的规则一定会覆盖之前的规则,而在本发明实施方式中,不会有这种情况出现,而是折衷选择出对排序规则集合中所有规则集体最优的排序,也因此认为是规则的冲突被最大程度的解决了;在串联规则情况下,新增、修改、或删除一条规则都需要考虑对前后规则的影响,而在本发明实施方式中,每个规则在实时排序之前都是独立的,故维护时只需要考虑单独的每个规则。
图2中与图1相同的步骤请参见图1以及相应的文字说明,在此不再赘叙。
参阅图3,图3是本发明信息检索系统的排序方法又一实施方式的流程图,本实施方式和图1、图2的实施方式基本相同,相同之处请参见图1、图2以及相关的文字说明,不同之处在于:图2中步骤S104a,即根据初始排序的文档集合和排序规则集合,利用最优化方法进行后排序,生成最终排序的文档集合,还可进一步包括:
步骤S201:通过融合初始排序的文档集合和排序规则集合,构造优化目标函数。
将初始排序的文档集合和排序规则集合作为自变量,构建一个目标函数,即为优化目标函数。
步骤S202:求解优化目标函数,获得优化目标函数的最优解。
需要说明的是,优化目标函数可以有多种形式,每一种形式的优化目标函数都有其对应的最优解,本方案的优化目标函数不是唯一形式,本方案获取的最优解也不是唯一最优解。
步骤S203:根据优化目标函数的最优解确定最终排序的文档集合。
优化目标函数的最优解即为初始排序的文档集合中各个文档的最终排序得分,按照该最终排序得分排序即可以生成最终排序的文档集合。
由于本实施方式将初始排序的文档集合和排序规则集合同时纳入一个优化目标函数中,所以能够从全局考虑各种排序需求的综合和折衷,并以最低成本解决各个规则间的冲突。
其中,参阅图4,图3中步骤S201中的通过融合初始排序的文档集合和排序规则集合,构造优化目标函数,可以进一步包括:
步骤S301:获取排序规则集合中各个排序规则的优先级别。
步骤S302:通过融合初始排序的文档集合、排序规则集合中各个排序规则以及各个排序规则的优先级别,构造优化目标函数。
每个排序规则的优先级是通过业务的重要性、数据可信度等综合权衡的。如果排序规则库中已经预设了每个排序规则的优先级,则可以直接获取。如果预先没有设置每个排序规则的优先级,则在获取排序规则集合中各个排序规则的优先级别之前,可以基于检索业务的需求事先确定每个排序规则的优先级别。规则间的优先关系可以通过权重表示。
例如:需要了解一位多产作家的思想变化,该作家的作品包括不同时期的小说、散文、诗歌等,在查询到该作家所有的作品之后,如果确定的排序规则优先级是:时间顺序的优先级大于不同作品的优先级,则后排序的结果是按照该作家发表作品的先后顺序排列,如,越是新发表的作品越是排在前面,如果确定的排序规则优先级是:不同作品的优先级大于时间顺序的优先级,即首先考虑散文的优先级大于诗歌的优先级,诗歌的优先级大于小说,然后考虑在同一种类作品中按照时间顺序排列,如,散文排在前面,小说排在最后面,其中,属于同一种类的散文中,越是新发表的散文越是排在前面,属于同一种类的小说中,越是新发表的散文越是排在前面。
上面只是一个简单的例子,在实际应用中,排序规则很多,即最终排序的结果需要满足很多方面的需求,针对不同的用户、或者不同的需求,对排序规则集合中各个规则的考虑的优先级别是不一样的,由于本实施方式将各个排序规则的优先级也以参数形式加入该优化的目标函数中,从而能够灵活而有效控制不同优先级的排序规则对最终排序的影响。
下面以一个具体的例子来说明本发明信息检索系统的排序方法,例如:在通过融合初始排序的文档集合、排序规则集合中各个排序规则以及各个排序规则的优先级别,构造优化目标函数,可以是:
根据Bradley-Terry模型,通过融合初始排序的文档集合、排序规则集合中各个排序规则以及各个排序规则的优先级别,构造优化目标函数,优化目标函数是:
其中,C是排序规则集合,c是排序规则集合C中的各个排序规则,σ(i),σ(j)是初始排序的文档集合中N个文档各自的初始排序得分,Θ是优化向量,且Θ=(θ1,...,θN),θ1,...,θN分别表示初始排序的文档集合中N个文档各自的最终排序得分,Θ=(θ1,...,θN)表示将初始排序的文档集合中N个文档按照得分排序后生成的最终排序的文档集合,ρ是排序规则集合C中各个排序规则的优先级别,P表示排序规则集合导出的所有文档间的偏序关系的集合,1≤i≤N,1≤j≤N。
Bradley-Terry模型是一个参数化的概率模型,用来刻画N个文档在排序上的概率分布。设初始排序的文档集合中N个文档按照得分排序后生成的最终排序为Θ=(θ1,...,θN),且满足θi>0,i=1,...,N,且则在Bradley-Terry模型中,一个偏序对(i,j)(表示文档i排在文档j之前)的概率定义为:
对于N个文档上的全排序σ,Bradley-Terry模型定义整个全排序的概率正比于该全排序诱导出的所有偏序关系(或者偏序对)的概率的乘积,即:
对于某个排序规则c,它诱导(或者说规定)了文档集合上的一组偏序关系,由此构成一个偏序关系的集合(记为Pc),这时根据Bredley-Terry模型,也能推出其概率为:
不难看出,优化目标函数就是在Bradley-Terry模型的基础上构建的,它其实从初始排序σ和排序规则集合C的角度两次用到Bradley-Terry模型的原始形式,并通过对概率取log的方式将乘积转化为加和。
该优化函数中ρc表示某个排序规则c所对应的优先级。对于每个排序规则c,它诱
导(或者说规定)了文档集合上的一组偏序关系,由此构成一个偏序关系的集合(记为Pc)。
对于其中每个偏序关系(或者说偏序对)(i,j),其在优化目标函数的贡献即为其log-概率,
即
求解上述目标函数的最优解的过程如下:
初始输入:初始排序的文档集合σ,排序规则集合C,学习率0<α<1;
1:S(0),随机初始化
2:t←1
3:循环
4:其中,
5:γ←1,用回溯法搜索最优步长
6:当时,进入7
7:γ←αγ
8:S(t-1)←S(t)-γ▽S
9:t←t+1
10:直到收敛
11:返回其中
通过上述方式,能够获得该优化目标函数唯一的最优解,从而获得最终排序的文档集合。
其中,本发明信息检索系统的排序方法还可以包括:在用户界面,展示最终排序的文档集合。通过这种方式,可以最大程度使用户获得满足自己需求的文档集合。
参阅图5,图5是本发明信息检索系统的排序装置100一实施方式的结构示意图,该装置100包括:接收模块101、初始文档集合获取模块102、排序规则集合获取模块103以及最终文档集合生成模块104。
需要说明的是,本实施方式的装置可以执行上述方法实施方式中的相应步骤。
接收模块101用于接收查询信息。
查询信息是指用户为了某种需求进行查询时输入的信息,例如:关键词、关键词组合等等。
初始文档集合获取模块102用于根据接收模块101接收的查询信息进行检索得到初始排序的文档集合,初始排序的文档集合是按照检索结果文档与查询信息的相关性的大小,将检索结果文档进行排序后的文档集合。
信息检索系统接收查询信息后,根据该查询信息进行检索,获得候选的检索结果文档,同时根据候选的检索结果文档与查询信息的相关性的大小,对检索结果文档进行排序,例如,检查结果文档与查询信息的相关性越大,该检查结果文档在排序时越靠前,据此获得的排序后的文档集合即为初始排序的文档集合。需要说明的是,此处的信息检索系统包括但不限于互联网搜索、垂直领域搜索、企业知识搜索等,以及任何以信息检索为组件的系统,包括但不限于自动问答系统、移动应用商店等。另外,如果检索结果小于等于一个,则无所谓排序问题,因此本方案不考虑该集合中子集为空或者为1情况。
排序规则集合获取模块103用于在排序规则库中,获取与接收模块101接收的查询信息、初始文档集合获取模块102得到的初始排序的文档集合相关联的排序规则集合。
排序规则库是指为满足各种需求所需要考虑的有关规则和知识的数据库,它是根据不同的信息检索的业务需要,由人工或者数据挖掘的方法产生的。比如,在网页搜索反作弊的业务中,排序规则库可能保存的是一些不同程度的作弊或有安全隐患的网页的统一资源定位符(Uniform Resource Locator,URL),以及将它们的排序位置置后的位置说明(比如,置于第5位以后、或第10位以后等)。又比如,在网页搜索多样性的业务中,排序规则库中保留一系列具有多样性的查询词,以及这些查询词对应的前10位置必须覆盖的主题:比如,对于“苹果”这个查询词,排在前10结果中必须包含“苹果”作为IT品牌的网页,也必须包括“苹果”作为水果的网页。在实际系统中,排序规则库通常包括多个业务维度上的规则。因此,该排序规则库能够满足实际应用中复杂多变且动态变化的需求。另外,由于排序规则库能够独立存在,因此排序规则库在建立后,可以单独对排序规则库进行自动化的管理和维护,可以根据实际应用情况进行动态调整的,例如,可以新增有关的规则和知识,可以修改有关的规则和知识,可以删除有关的规则和知识等。
输入查询信息和初始排序的文档集合,根据相关性分析,即可在排序规则库中查询到与该查询信息,初始排序的文档集合相关联的排序规则集合。排序规则集合中的各个规则之间没有任何顺序要求,只要与查询信息、初始排序的文档集合相关联,该规则即可选择进入排序规则集合中。
最终文档集合生成模块104用于根据初始文档集合获取模块102得到的初始排序的文档集合和排序规则集合获取模块103获取的排序规则集合进行后排序,生成最终排序的文档集合。
后排序是指在经过初始相关性排序获得初始排序的文档集合之后,根据知识和规则对初始排序的文档集合进行的后处理。与初始相关性排序不同,后排序能够考虑到如多样性、安全、运营、商业等诸多方面的需求。
根据初始排序的文档集合和排序规则集合进行后排序,生成最终排序的文档集合,该最终排序的文档集合是在综合考虑排序规则集合中的各个规则后,对初始排序的文档集合进行后处理,即进行第二次排序后的结果。因此最终排序的文档集合能够满足实际应用中复杂多变且动态变化的需求。
本发明实施方式根据查询信息进行检索得到初始排序的文档集合;在排序规则库中,获取与查询信息、初始排序的文档集合相关联的排序规则集合;根据初始排序的文档集合和排序规则集合进行后排序,生成最终排序的文档集合。由于进行后排序所需要的排序规则集合可以从排序规则库中获取,且与查询信息、初始排序的文档集合相关联,即排序规则集合不是固定不变的,能够根据查询信息、初始排序的文档集合的变化而变化,这样使得整个后排序成为一个动态的过程,而非固定的链式策略,能够自动适应排序规则的变更,通过这种方式,能够使排序规则集合满足复杂多样且动态变化的需求;而且,在查询信息、初始排序的文档集合发生变化后,各个规则能够自然解耦,这样使得规则管理和维护的成本大大降低;进一步,由于排序规则库是独立存在的,能够实现排序规则库的自动化的管理和维护。
其中,图1中的最终文档集合生成模块104具体用于根据初始排序的文档集合和排序规则集合,利用最优化方法进行后排序,生成最终排序的文档集合。
本发明实施方式中,采用最优化方法的目的在于针对所研究的系统,求得一个从全局角度考虑的、将各种排序需求进行综合和折衷的方案,从而以最低成本解决各个排序规则之间的冲突,最终达到系统的最优目标。最优化方法包括但不限于:梯度下降法,牛顿法,线性规划、二次规划、遗传算法等等。
在本发明实施方式中,不需要将排序规则“排列”,而是将排序规则集合中的规则,全部输入,利用最优化方法统筹优化。在现有技术中的串联规则中,规则之间通常以链式串联,后面的规则一定会覆盖之前的规则,而在本发明实施方式中,不会有这种情况出现,而是折衷选择出对排序规则集合中所有规则集体最优的排序,也因此认为是规则的冲突被最大程度的解决了;在串联规则情况下,新增、修改、或删除一条规则都需要考虑对前后规则的影响,而在本发明实施方式中,每个规则在实时排序之前都是独立的,故维护时只需要考虑单独的每个规则。
参阅图6,图6是本发明信息检索系统的排序装置另一实施方式的结构示意图,本实施方式的装置和图5的装置基本相同,相同之处请参见图5以及相关的文字说明,不同之处在于:在最终文档集合生成模块104具体用于根据初始排序的文档集合和排序规则集合,利用最优化方法进行后排序,生成最终排序的文档集合时,图5中的最终文档集合生成模块104包括:构造单元201、求解单元202以及确定单元203。
构造单元201用于通过融合初始排序的文档集合和排序规则集合,构造优化目标函数。
将初始排序的文档集合和排序规则集合作为自变量,构建一个目标函数,即为优化目标函数。
求解单元202用于求解构造单元201构造的优化目标函数,获得优化目标函数的最优解。
需要说明的是,优化目标函数可以有多种形式,每一种形式的优化目标函数都有其对应的最优解,本方案的优化目标函数不是唯一形式,本方案获取的最优解也不是唯一最优解。
确定单元203用于根据求解单元202获得的优化目标函数的最优解确定最终排序的文档集合。
优化目标函数的最优解即为初始排序的文档集合中各个文档的最终排序得分,按照该最终排序得分排序即可以生成最终排序的文档集合。
由于本实施方式将初始排序的文档集合和排序规则集合同时纳入一个优化目标函数中,所以能够从全局考虑各种排序需求的综合和折衷,并以最低成本解决各个规则间的冲突。
其中,图6中构造单元201具体可以用于:获取排序规则集合中各个排序规则的优先级别;通过融合初始排序的文档集合、排序规则集合中各个排序规则以及各个排序规则的优先级别,构造优化目标函数。
每个排序规则的优先级是通过业务的重要性、数据可信度等综合权衡的。如果排序规则库中已经预设了每个排序规则的优先级,则可以直接获取。如果预先没有设置每个排序规则的优先级,则在获取排序规则集合中各个排序规则的优先级别之前,可以基于检索业务的需求事先确定每个排序规则的优先级别。规则间的优先关系可以通过权重表示。
针对不同的用户、或者不同的需求,对排序规则集合中各个规则的考虑的优先级别是不一样的,由于本实施方式将各个排序规则的优先级也以参数形式加入该优化的目标函数中,从而能够灵活而有效控制不同优先级的排序规则对最终排序的影响。
其中,构造单元201具体用于根据Bradley-Terry模型,通过融合初始排序的文档集合、排序规则集合中各个排序规则以及各个排序规则的优先级别,构造优化的目标函数,优化目标函数是:
其中,C是排序规则集合,c是排序规则集合C中的各个排序规则,σ(i),σ(j)是初始排序的文档集合中N个文档各自的初始排序得分,Θ是优化向量,且Θ=(θ1,...,θN),θ1,...,θN分别表示初始排序的文档集合中N个文档各自的最终排序得分,Θ=(θ1,...,θN)表示将初始排序的文档集合中N个文档按照得分排序后生成的最终排序的文档集合,ρ是排序规则集合C中各个排序规则的优先级别,P表示排序规则集合导出的所有文档间的偏序关系的集合,1≤i≤N,1≤j≤N。
其中,本装置100还可以包括展示模块,展示模块用于在用户界面,展示最终排序的文档集合。通过这种方式,可以最大程度使用户获得满足自己需求的文档集合。
参阅图7,图7是本发明信息检索系统的排序装置一实施方式的实体结构示意图,该装置包括接收器11、处理器12、与处理器12耦联的存储器13以及连接接收器11、处理器12和存储器13的数据线14。
接收器11用于接收查询信息,并将接收的查询信息存储在存储器13中。
所述存储器13还用于存储排序规则库。
处理器12用于调取所述存储器13中的查询信息,根据所述查询信息进行检索得到初始排序的文档集合,所述初始排序的文档集合是按照检索结果文档与所述查询信息的相关性的大小,将所述检索结果文档进行排序后的文档集合;调取所述存储器13的排序规则库,在排序规则库中,获取与所述查询信息、所述初始排序的文档集合相关联的排序规则集合;根据所述初始排序的文档集合和所述排序规则集合进行后排序,生成最终排序的文档集合。
其中,处理器12还用于根据所述初始排序的文档集合和所述排序规则集合,利用最优化方法进行后排序,生成最终排序的文档集合。
进一步地,处理器12用于通过融合所述初始排序的文档集合和所述排序规则集合,构造优化目标函数;求解所述优化目标函数,获得所述优化目标函数的最优解;根据所述优化目标函数的最优解确定所述最终排序的文档集合。
其中,处理器12还用于获取所述排序规则集合中各个排序规则的优先级别;通过融合所述初始排序的文档集合、所述排序规则集合中各个排序规则以及所述各个排序规则的优先级别,构造优化目标函数。
其中,处理器12还用于根据Bradley-Terry模型,通过融合所述初始排序的文档集合、所述排序规则集合中各个排序规则以及所述各个排序规则的优先级别,构造优化目标函数,所述优化目标函数是:
其中,所述C是所述排序规则集合,所述c是所述排序规则集合C中的各个排序规则,所述σ(i),σ(j)是所述初始排序的文档集合中N个文档各自的初始排序得分,所述Θ是优化向量,且Θ=(θ1,...,θN),所述θ1,...,θN分别表示所述初始排序的文档集合中N个文档各自的最终排序得分,所述Θ=(θ1,...,θN)表示将所述初始排序的文档集合中N个文档按照所述得分排序后生成的最终排序的文档集合,所述ρ是所述排序规则集合C中各个排序规则的优先级别,所述P表示排序规则集合导出的所有文档间的偏序关系的集合,1≤i≤N,1≤j≤N。
所述装置还包括显示器15,所述显示器15用于在用户界面,展示所述最终排序的文档集合。
本发明实施方式接收用户输入的查询信息;根据查询信息获取初始排序的文档集合;在排序规则库中,通过查询信息和初始排序的文档集合,获取在查询信息下、与初始排序的文档集合相关联的排序规则集合;通过优化算法,融合初始排序的文档集合和排序规则集合,自动生成最终排序的文档集合。由于采用优化算法且融合初始排序的文档集合和排序规则集合,因而能够从全局考虑各种排序需求的综合和折衷,并以最低成本解决各个规则间的冲突;由于排序规则库中获取的是在查询信息下、与初始排序的文档集合相关联的排序规则集合,即不同的查询信息,不同的初始排序的文档集合,获取的排序规则集合是不同的,这样使得整个后排序成为一个动态的优化过程,而非固定的链式策略,因此能够自动适应排序规则的变更,由此各个规则也能够自然解耦,使得规则管理和维护的成本也大大降低。
在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (4)
1.一种信息检索系统的排序方法,其特征在于,所述方法包括:
接收查询信息;
根据所述查询信息进行检索得到初始排序的文档集合,所述初始排序的文档集合是按照检索结果文档与所述查询信息的相关性的大小,将所述检索结果文档进行排序后的文档集合;
在排序规则库中,获取与所述查询信息、所述初始排序的文档集合相关联的排序规则集合;
根据所述初始排序的文档集合和所述排序规则集合进行后排序,生成最终排序的文档集合;
其中,所述根据所述初始排序的文档集合和所述排序规则集合进行后排序,生成最终排序的文档集合,包括:
根据所述初始排序的文档集合和所述排序规则集合,利用最优化方法进行后排序,生成最终排序的文档集合;
其中,所述根据所述初始排序的文档集合和所述排序规则集合,利用最优化方法进行后排序,生成最终排序的文档集合,包括:
通过融合所述初始排序的文档集合和所述排序规则集合,构造优化目标函数;
求解所述优化目标函数,获得所述优化目标函数的最优解;
根据所述优化目标函数的最优解确定所述最终排序的文档集合;
其中,所述通过融合所述初始排序的文档集合和所述排序规则集合,构造优化目标函数,包括:
获取所述排序规则集合中各个排序规则的优先级别;
通过融合所述初始排序的文档集合、所述排序规则集合中各个排序规则以及所述各个排序规则的优先级别,构造优化目标函数;
其中,所述通过融合所述初始排序的文档集合、所述排序规则集合中各个排序规则以及所述各个排序规则的优先级别,构造优化目标函数,包括:
根据Bradley-Terry模型,通过融合所述初始排序的文档集合、所述排序规则集合中各个排序规则以及所述各个排序规则的优先级别,构造优化目标函数,所述优化目标函数是:
其中,所述C是所述排序规则集合,所述c是所述排序规则集合C中的各个排序规则,所述σ(i),σ(j)是所述初始排序的文档集合中N个文档各自的初始排序得分,所述Θ是优化向量,且Θ=(θ1,...,θN),所述θ1,...,θN分别表示所述初始排序的文档集合中N个文档各自的最终排序得分,所述Θ=(θ1,...,θN)表示将所述初始排序的文档集合中N个文档按照所述最终排序得分排序后生成的最终排序的文档集合,所述ρ是所述排序规则集合C中各个排序规则的优先级别,所述P表示排序规则集合导出的所有文档间的偏序关系的集合,1≤i≤N,1≤j≤N,所述偏序关系是指偏序对,所述偏序对表示文档i排在文档j之前,所述根据排序规则集合导出的所有文档间的偏序关系的集合是指排序规则集合规定文档集合上的一组偏序关系,由此构成一个偏序关系的集合。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在用户界面,展示所述最终排序的文档集合。
3.一种信息检索系统的排序装置,其特征在于,所述装置包括:接收模块、初始文档集合获取模块、排序规则集合获取模块以及最终文档集合生成模块;
所述接收模块用于接收查询信息;
所述初始文档集合获取模块用于根据所述接收模块接收的所述查询信息进行检索得到初始排序的文档集合,所述初始排序的文档集合是按照检索结果文档与所述查询信息的相关性的大小,将所述检索结果文档进行排序后的文档集合;
所述排序规则集合获取模块用于在排序规则库中,获取与所述接收模块接收的查询信息、所述初始文档集合获取模块得到的初始排序的文档集合相关联的排序规则集合;
所述最终文档集合生成模块用于根据所述初始文档集合获取模块得到的初始排序的文档集合和所述排序规则集合获取模块获取的排序规则集合进行后排序,生成最终排序的文档集合;
其中,所述最终文档集合生成模块具体用于根据所述初始排序的文档集合和所述排序规则集合,利用最优化方法进行后排序,生成最终排序的文档集合;
其中,所述最终文档集合生成模块包括:构造单元、求解单元以及确定单元;
所述构造单元用于通过融合所述初始排序的文档集合和所述排序规则集合,构造优化目标函数;
所述求解单元用于求解所述构造单元构造的优化目标函数,获得所述优化目标函数的最优解;
所述确定单元用于根据所述求解单元获得的优化目标函数的最优解确定所述最终排序的文档集合;
其中,所述构造单元具体用于:
获取所述排序规则集合中各个排序规则的优先级别;
通过融合所述初始排序的文档集合、所述排序规则集合中各个排序规则以及所述各个排序规则的优先级别,构造优化目标函数;
其中,所述构造单元具体用于根据Bradley-Terry模型,通过融合所述初始排序的文档集合、所述排序规则集合中各个排序规则以及所述各个排序规则的优先级别,构造优化目标函数,所述优化目标函数是:
其中,所述C是所述排序规则集合,所述c是所述排序规则集合C中的各个排序规则,所述σ(i),σ(j)是所述初始排序的文档集合中N个文档各自的初始排序得分,所述Θ是优化向量,且Θ=(θ1,...,θN),所述θ1,...,θN分别表示所述初始排序的文档集合中N个文档各自的最终排序得分,所述Θ=(θ1,...,θN)表示将所述初始排序的文档集合中N个文档按照所述最终排序得分排序后生成的最终排序的文档集合,所述ρ是所述排序规则集合C中各个排序规则的优先级别,所述P表示排序规则集合导出的所有文档间的偏序关系的集合,1≤i≤N,1≤j≤N,所述偏序关系是指偏序对,所述偏序对表示文档i排在文档j之前,所述根据排序规则集合导出的所有文档间的偏序关系的集合是指排序规则集合规定文档集合上的一组偏序关系,由此构成一个偏序关系的集合。
4.根据权利要求3所述的排序装置,其特征在于,所述装置还包括展示模块,所述展示模块用于在用户界面,展示所述最终排序的文档集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410489472.8A CN105512122B (zh) | 2014-09-22 | 2014-09-22 | 信息检索系统的排序方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410489472.8A CN105512122B (zh) | 2014-09-22 | 2014-09-22 | 信息检索系统的排序方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105512122A CN105512122A (zh) | 2016-04-20 |
CN105512122B true CN105512122B (zh) | 2019-05-24 |
Family
ID=55720113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410489472.8A Active CN105512122B (zh) | 2014-09-22 | 2014-09-22 | 信息检索系统的排序方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105512122B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106572255B (zh) * | 2016-10-28 | 2020-02-18 | 努比亚技术有限公司 | 一种信息智能化排序装置、方法及移动终端 |
CN108509414B (zh) * | 2018-03-09 | 2021-09-03 | 黑龙江工程学院 | 基于排序的抄袭检测文本匹配方法 |
CN110134716A (zh) * | 2019-04-12 | 2019-08-16 | 平安城市建设科技(深圳)有限公司 | 信息查询方法、信息查询平台、设备及可读存储介质 |
CN110399540B (zh) * | 2019-07-22 | 2021-08-24 | 浙江工业大学 | 一种融合关联函数和d-hs索引的实例检索方法 |
CN112100482A (zh) * | 2020-07-31 | 2020-12-18 | 咪咕文化科技有限公司 | 搜索结果排序方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320382A (zh) * | 2008-05-07 | 2008-12-10 | 索意互动(北京)信息技术有限公司 | 基于上下文对搜索结果重新排序的方法和系统 |
CN102402539A (zh) * | 2010-09-15 | 2012-04-04 | 倪毅 | 对象级个性化垂直搜索引擎设计技术 |
CN102968419A (zh) * | 2011-08-31 | 2013-03-13 | 微软公司 | 交互式互联网实体名称的消歧方法 |
CN103793388A (zh) * | 2012-10-29 | 2014-05-14 | 阿里巴巴集团控股有限公司 | 搜索结果的排序方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130185304A1 (en) * | 2012-01-17 | 2013-07-18 | International Business Machines | Rule-driven runtime customization of keyword search engines |
-
2014
- 2014-09-22 CN CN201410489472.8A patent/CN105512122B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101320382A (zh) * | 2008-05-07 | 2008-12-10 | 索意互动(北京)信息技术有限公司 | 基于上下文对搜索结果重新排序的方法和系统 |
CN102402539A (zh) * | 2010-09-15 | 2012-04-04 | 倪毅 | 对象级个性化垂直搜索引擎设计技术 |
CN102968419A (zh) * | 2011-08-31 | 2013-03-13 | 微软公司 | 交互式互联网实体名称的消歧方法 |
CN103793388A (zh) * | 2012-10-29 | 2014-05-14 | 阿里巴巴集团控股有限公司 | 搜索结果的排序方法和装置 |
Non-Patent Citations (3)
Title |
---|
"MM ALGORITHMS FOR GENERALIZED BRADLEY–TERRY MODELS";DAVID R. HUNTER;《The Annals of Statistics》;20041231;全文 |
"The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries";Jaime Carbonell ET AL;《In Proceedings of the 21st Annual International ACM SIGIR Conference, SIGIR’98》;19981231;第1页 |
"信息检索多样化排序算法研究综述";刘兴林;《基础及前沿》;20140831;全文 |
Also Published As
Publication number | Publication date |
---|---|
CN105512122A (zh) | 2016-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9268826B2 (en) | System and method for crowdsourced template based search | |
CN106339383B (zh) | 一种搜索排序方法及系统 | |
CN105512122B (zh) | 信息检索系统的排序方法及装置 | |
CN102236663B (zh) | 一种基于垂直搜索的查询方法、系统和装置 | |
CN106250385A (zh) | 用于文档的自动化信息抽象处理的系统和方法 | |
CN100442284C (zh) | 用于按类别提供关键字输入频率信息的搜索系统及其方法 | |
CN110175895B (zh) | 一种物品推荐方法及装置 | |
CN105701216A (zh) | 一种信息推送方法及装置 | |
CN110929166B (zh) | 一种内容推荐的方法、电子设备和存储介质 | |
CN103309869A (zh) | 数据对象的展示关键词推荐方法及系统 | |
CN109636430A (zh) | 对象识别方法及其系统 | |
WO2011087904A1 (en) | Matching of advertising sources and keyword sets in online commerce platforms | |
CN103294692A (zh) | 一种信息推荐方法及系统 | |
CN108898351A (zh) | 配送方选择方法、系统、介质和计算设备 | |
CN109597899A (zh) | 媒体个性化推荐系统的优化方法 | |
CN106294358A (zh) | 一种信息的检索方法及系统 | |
Ben-Shimon et al. | An ensemble method for top-N recommendations from the SVD | |
WO2014107194A1 (en) | Identifying relevant user content | |
Tu et al. | Inferring correspondences from multiple sources for microblog user tags | |
CN101840438B (zh) | 面向源文献元关键词的检索系统 | |
CN116383458B (zh) | 信息推送的方法及装置 | |
KR20120079630A (ko) | 멀티 모달리티 데이터 색인 및 검색 방법, 그 시스템 | |
CN116070028A (zh) | 基于页面的内容信息推送方法、装置、设备及存储介质 | |
CN116431895A (zh) | 安全生产知识个性化推荐方法及系统 | |
CN109885651A (zh) | 一种问题推送方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210428 Address after: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040 Patentee after: Honor Device Co.,Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. |
|
TR01 | Transfer of patent right |