CN104021125A - 一种搜索引擎排序的方法、系统以及一种搜索引擎 - Google Patents

一种搜索引擎排序的方法、系统以及一种搜索引擎 Download PDF

Info

Publication number
CN104021125A
CN104021125A CN201310064582.5A CN201310064582A CN104021125A CN 104021125 A CN104021125 A CN 104021125A CN 201310064582 A CN201310064582 A CN 201310064582A CN 104021125 A CN104021125 A CN 104021125A
Authority
CN
China
Prior art keywords
search results
subset
search
aggregation features
default
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310064582.5A
Other languages
English (en)
Other versions
CN104021125B (zh
Inventor
卢中县
韩小梅
冯景华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310064582.5A priority Critical patent/CN104021125B/zh
Publication of CN104021125A publication Critical patent/CN104021125A/zh
Priority to HK15101745.9A priority patent/HK1201346A1/zh
Application granted granted Critical
Publication of CN104021125B publication Critical patent/CN104021125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本申请提供了一种搜索引擎排序的方法、系统以及一种搜索引擎,其中所述方法包括获取候选搜索结果集,所述候选搜索结果集包括一个或多个搜索结果;将所述一个或多个搜索结果划分到多个子集中;分别从所述子集中抽取搜索结果生成展示页,本发明可以实现搜索结果全局排序最优化,以及精确控制某一种或几种特征的数量、位置和比例。

Description

一种搜索引擎排序的方法、系统以及一种搜索引擎
技术领域
本申请涉及数据搜索的技术领域,特别是涉及一种搜索引擎排序的方法,以及,一种搜索引擎排序的系统,以及,一种搜索引擎。
背景技术
目前的大型搜索引擎为了提升搜索效率,往往是采用分布式检索的方案,即有多个搜索服务器(searcher)负责实际的检索工作,同时还有一台总控服务器(merger)负责查询串解析,任务分发和最终的结果合并。而目前大多数搜索引擎在merger端的结果合并操作都非常简单,都是按照各个searcher返回结果的得分,做简单排序后,取排序在前的N个结果进行展示,这种方式主要存在以下两方面的不足:
一方面,大多数搜索引擎采用qurey(搜索关键词)扩展的方式,结合不同类别的索引库,对多种检索结果进行聚合(如淘宝搜索会将淘宝商城的搜索和淘宝集市的搜索进行聚合;百度搜索会将文本,视频,问答等形式搜索的多种结果进行聚合)。这种方式的主要思想是建立多个不同的专题索引库,将所述多个专题索引库的检索结果进行聚合。因此所述聚合的粒度只能是专题级别的,而针对某一个特定的专题索引库,在排序上可能有N个影响排序的特征因子,这种方式很难精确控制具备某一种或某几种特征的专题搜索结果在合并后的搜索结果中的数量,位置或比例,从而无法做到对这个特定的专题索引库的某一个或多个特征因子进行全局调控。
另一方面,在searcher端通过调整各特征的拟合权重,来控制总体的结果比例。由于大部分大型搜索引擎都是分布式搜索,存在多个searcher(假设为N),每个searcher只保存1/N的索引内容,因而不管在searcher上怎么调整,也只能做到排序局部上的把控,无法从整体上进行调控。
因此,本领域技术人员迫切需要解决的问题是:提供一种搜索引擎排序的机制,用以实现搜索结果全局排序最优化,以及精确控制某一种或几种特征的数量、位置和比例。
发明内容
本申请所要解决的技术问题是提供一种搜索引擎排序的方法,用以实现搜索结果全局排序最优化,以及精确控制某一种或几种特征的数量、位置和比例。
相应的,本申请还提供了一种搜索引擎排序的系统,以及一种搜索引擎,用以保证上述方法在实际中的应用。
为了解决上述问题,本申请公开了一种搜索引擎排序的方法,包括:
获取候选搜索结果集,所述候选搜索结果集包括一个或多个搜索结果;
将所述一个或多个搜索结果划分到多个子集中;
分别从所述子集中抽取搜索结果生成展示页。
优选地,所述候选搜索结果集中还包括所述一个或多个搜索结果对应的聚合特征,所述获取候选搜索结果集的步骤包括:
接收搜索请求;
将所述搜索请求分发至一个或多个搜索服务器中;
接收所述搜索服务器返回的预设格式的搜索结果以及对应的聚合特征,所述聚合特征为所述搜索服务器对接收到的搜索请求进行搜索,得到一个或多个搜索结果后,依据所述一个或多个搜索结果计算得到的指定的聚合特征;
对所述预设格式的搜索结果以及对应的聚合特征进行解析,得到处理后的搜索结果及对应的聚合特征。
优选地,所述候选搜索结果集由按照预设格式组织前N个搜索结果以及对应的聚合特征生成,其中N为正整数。
优选地,所述方法还包括:
在对所述预设格式的搜索结果以及对应的聚合特征进行解析后,对所述预设格式的搜索结果以及对应的聚合特征进行归一化处理。
优选地,所述将一个或多个搜索结果划分到多个子集中的步骤包括:
提取所述一个或多个搜索结果的聚合特征;
针对所述聚合特征按照预设属性进行分类,生成具有对应分类属性的子集;
将所述一个或多个搜索结果划分到对应分类属性的子集中。
优选地,所述聚合特征包括点击率和/或转化率,所述针对聚合特征按照预设属性进行分类,生成具有对应分类属性的子集的子步骤包括:
按不同聚合特征的范围值分类,生成对应不同范围值的子集;
所述将的一个或多个搜索结果划分到对应分类属性的子集中的子步骤包括:
将所述点击率和/或转化率在对应阈值范围内的搜索结果分别划分至对应子集中。
优选地,所述分别从子集中抽取搜索结果生成展示页的步骤包括:
分别对所述子集内的搜索结果进行排序;
获取每个展示页的预设抽取策略,所述预设抽取策略包括每个子集抽取的顺序以及抽取比例;
按照所述每个子集抽取的顺序以及抽取比例从每个子集中抽取相应数量的搜索结果生成对应的展示页。
优选地,所述方法还包括:
对所述展示页中的搜索结果进行全局调整,所述全局调整包括展示页内同公司的检索数据打散。
优选地,所述子集为逻辑桶。
本发明还公开了一种搜索引擎排序的系统,包括:
候选搜索结果集获取模块,用于获取候选搜索结果集,所述候选搜索结果集包括一个或多个搜索结果;
子集分类模块,用于将所述一个或多个搜索结果划分到多个子集中;
展示页生成模块,用于分别从所述子集中抽取搜索结果生成展示页。
优选地,所述候选搜索结果集中还包括所述一个或多个搜索结果对应的聚合特征,所述候选搜索结果集获取模块包括:
搜索请求接收子模块,用于接收搜索请求;
搜索请求分发子模块,用于将所述搜索请求分发至一个或多个搜索服务器中;
搜索结果接收子模块,用于接收所述搜索服务器返回的预设格式的搜索结果以及对应的聚合特征,所述聚合特征为所述搜索服务器对接收到的搜索请求进行搜索,得到一个或多个搜索结果后,依据所述一个或多个搜索结果计算得到的指定的聚合特征;
解析子模块,用于对所述预设格式的搜索结果以及对应的聚合特征进行解析,得到处理后的搜索结果及对应的聚合特征。
优选地,所述候选搜索结果集由按照预设格式组织前N个搜索结果以及对应的聚合特征生成,其中N为正整数。
优选地,所述候选搜索结果集获取模块还包括:
归一化处理子模块,用于在对所述预设格式的搜索结果以及对应的聚合特征进行解析后,对所述预设格式的搜索结果以及对应的聚合特征进行归一化处理。
优选地,所述子集分类模块包括:
聚合特征提取子模块,用于提取所述一个或多个搜索结果的聚合特征;
子集生成子模块,用于针对所述聚合特征按照预设属性进行分类,生成具有对应分类属性的子集;
搜索结果划分子模块,用于将所述一个或多个搜索结果划分到对应分类属性的子集中。
优选地,所述聚合特征包括点击率和/或转化率,所述子集生成子模块包括:
不同范围值子集生成单元,用于按不同聚合特征的范围值分类,生成对应不同范围值的子集;
所述搜索结果划分子模块包括:
搜索结果划分单元,用于将所述点击率和/或转化率在对应阈值范围内的搜索结果分别划分至对应子集中。
优选地,所述展示页生成模块包括:
子集内排序子模块,用于分别对所述子集内的搜索结果进行排序;
预设抽取策略获取子模块,用于获取每个展示页的预设抽取策略,所述预设抽取策略包括每个子集抽取的顺序以及抽取比例;
展示页生成子模块,用于按照所述每个子集抽取的顺序以及抽取比例从每个子集中抽取相应数量的搜索结果生成对应的展示页。
优选地,所述系统还包括:
全局调整模块,用于对所述展示页中的搜索结果进行全局调整,所述全局调整包括展示页内同公司的检索数据打散。
优选地,所述子集为逻辑桶。
本发明还公开了一种搜索引擎,包括一台主控服务器以及多台搜索服务器,其中,所述主控服务器包括:
候选搜索结果集获取模块,用于获取候选搜索结果集,所述候选搜索结果集包括一个或多个搜索结果;
子集分类模块,用于将所述一个或多个搜索结果划分到多个子集中;
展示页生成模块,用于分别从所述子集中抽取搜索结果生成展示页。
与现有技术相比,本申请具有以下优点:
首先,在本申请中,各searher端在依据搜索请求得到搜索结果后,在searher端内计算好merger端需要用到的聚合特征并按照预设格式返回,由于在searcher端所述聚合特征(点击率,转化率等)大多已经计算过,可以避免在merger端重复计算,大大减少merger端计算量;另一方面,由于searcher端能够获取更详细的qurey,检索数据,所以更便于计算聚合特征。
其次,merger端按照预设的分类属性将候选搜索结果集(包括预埋的聚合特征)划分到不同的子集中,这样每个子集的属性都是不同的,在每个子集内进行排序后,依据预定义的抽取策略从各个子集中抽取搜索结果生成每个展示页,这样可以精确控制每个子集的抽取数量和顺序,从而实现在全局范围内使不同属性的搜索结果的数量、位置或比例得到精确控制。
再次,在按照抽取策略从多个子集中进行全局搜索结果抽取生成展示页后,按照用户需求进行每个展示页的页内处理,从而提高用户体验。
附图说明
图1是本申请一种搜索引擎排序的方法实施例的步骤流程图;
图2是本申请一种搜索引擎排序的方法实施例中的抽取策略展示图;
图3是本申请一种搜索引擎排序的系统实施例的结构框图;
图4是本申请一种搜索引擎实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的核心构思之一在于,各searher端在依据搜索请求得到搜索结果后,在searher端内计算好merger端需要用到的聚合特征并按照预设格式返回,merger端依据各searher端返回的搜索结果组成候选搜索结果集,并通过分桶以及多桶抽取策略精确控制不同属性的搜索结果的在每个展示页中的数量、位置和比例。
参照图1,示出了一种搜索引擎排序的方法实施例的步骤流程图,具体可以包括以下步骤:
步骤101:获取候选搜索结果集,所述候选搜索结果集包括一个或多个搜索结果;
目前大型搜索引擎为了提升搜索效率,往往采用分布式检索的方法。具体而言,利用分布式检索的搜索引擎的原理是根据地域、主题、IP地址及其它的划分标准将全网分成若干个自治区域,在每个自治区域内设立一个或多个搜索服务器,每个搜索服务器可以由信息搜索机器人、索引搜索软件数据库和代理三部分组成。因此,在大型搜索引擎中有多个搜索服务器(searcher)负责实际检索工作。除此之外,在大型搜索引擎中还有一台总控服务器(merger)负责查询串解析,任务分发和最终的结果合并。
需要说明的是,在本申请中的搜索引擎包括垂直搜索引擎,垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
在本申请的一种优选实施例中,所述候选搜索结果集可以包括一个或多个搜索结果,以及,所述一个或多个搜索结果对应的聚合特征,具体而言,所述搜索结果集由按照预设格式组织前N个搜索结果以及对应的聚合特征生成,其中N为正整数。所述候选搜索结果集由merger端获取,所述步骤101可以包括如下子步骤:
子步骤S11:接收搜索请求;
在具体实现中,所述搜索请求可以包括在搜索引擎中提交的搜索关键词qurey,搜索引擎前端可以将搜索请求以URL的形式发送给merger。
子步骤S12:将所述搜索请求分发至一个或多个搜索服务器searcher中;
在实际中,merger可以对所述接收到的搜索请求进行一定的转换改写之后(例如语义归一等),按照预设策略(负载均衡load-balance策略等)分发至多个searcher中,所述searcher在接到merger的请求后会根据搜索请求中的查询字句进行搜索,其中所述每个searcher可以包括与其对应的专题索引库。
子步骤S13:接收所述搜索服务器返回的预设格式的搜索结果以及对应的聚合特征,所述聚合特征为所述搜索服务器对接收到的搜索请求进行搜索,得到一个或多个搜索结果后,依据所述一个或多个搜索结果计算得到的指定的聚合特征;
具体而言,所述指定的聚合特征可以为merger端指定的聚合特征,即merger端将需要用到的聚合特征,所述聚合特征可以起到对相应的搜索结果调序的作用,可以包括点击率(点击率是指网站页面上某一内容被点击的次数与被显示次数之比)、转化率(转化率是指一个统计周期内,完成转化行为的次数占推广信息总点击次数的比率。在电子商务网站中,转化率一般指的交易转化率,即完成交易的次数占推广信息总点击次数的比率)等。
在具体实现中,所述聚合特征可以视具体需求而定,本申请实施例在此不作限制,例如如果想要控制搜索结果展示页的前几页同一公司的Offer(电商网站卖家填写的描述其产品的信息)数量,则聚合特征就包括该公司的公司ID。
在本申请实施例中,在searcher端预埋全局调序的聚合特征,searcher端将merger端指定的聚合特征在searcher端预先计算好,并按照预设格式返回merger端。这样做的好处是,一方面由于在searcher端所述聚合特征(点击率,转化率等)大多已经计算过,可以避免在merger端重复计算,大大减少merger端计算量;另一方面,由于searcher端能够获取更详细的qurey,检索数据,所以更便于计算聚合特征。
在实际中,所述预设格式可以为searcher端和merger端预先协商好的内存存储方式,即存储所述聚合特征的数据结构,具体的预设格式本申请在此不作限制。
子步骤S14:对所述预设格式的搜索结果以及对应的聚合特征进行解析及归一化处理,得到处理后的搜索结果及对应的聚合特征。
在具体实现中,在merger端接收到searcher端计算好并返回的聚合特征后,将对所述预设格式的聚合特征进行解析,其实,所述解析过程为上述预设格式返回聚合特征的逆向过程,解析后得到能够被merger端识别的搜索结果以及对应的聚合特征。
merger对聚合特征进行解析后,并做一些预处理工作,作为本实施例的一种优选示例,所述预处理过程可以包括特征归一化的过程,即在merge端小集合上的归一过程。具体而言,归一化是一种无量纲处理手段,使物理系统数值的绝对值变成某种相对值关系,是简化计算、缩小量值的有效办法。例如某一聚合特征原来的值域是[a,b],由于merger端的结果是各个searcher端排序在前的N个结果的集合,所以所述聚合特征在这个集合上的值域范围可能就会变小,假设为[c,d](c>=a,d<=b),归一化一般是用聚合特征的值除以集合的最大值,即上面所说的d。这是排序中聚合特征预处理的常用手段,主要是为了在后续搜索结果排序时容易确定该聚合特征的权重。当然,上述归一化处理只是本实施例中预处理的一种示例,实际上,所述预处理工作可以视具体的聚合特征而定,本申请实施例在此不作限制。
步骤102:将所述一个或多个搜索结果划分到多个子集中;
在本申请的一种优选实施例中,所述步骤102可以包括如下子步骤:
子步骤S21:提取所述一个或多个搜索结果的聚合特征;
子步骤S22:针对所述聚合特征按照预设属性进行分类,生成具有对应分类属性的子集;
子步骤S23:将所述一个或多个搜索结果划分到对应分类属性的子集中。
具体而言,merger端在接收到searcher端发送的一个或多个搜索结果以及对应的聚合特征后,将所述聚合特征按照预设属性进行分类,生成具有对应分类属性的子集,并将所述一个或多个搜索结果划分到对应分类属性的子集中。作为本实施例的一种优选示例,所述子集可以称为逻辑桶,逻辑桶可以认为是具有某一种或某一类聚合特征的搜索结果的集合。
在本申请的一种优选实施例中,所述子步骤S22可以进一步包括如下子步骤:
子步骤S221:按不同聚合特征的范围值分类,生成对应不同范围值的子集;
所述子步骤S23可以进一步包括如下子步骤:
子步骤S231:将所述点击率和/或转化率在对应阈值范围内的搜索结果分别划分至对应子集中。
具体而言,所述按照预设属性进行分类生成的子集中包括具有某一种或某一类聚合特征的搜索结果的集合,例如按照点击率和/或转化率小于预设阈值的范围生成一个子集,并将所述点击率和/或转化率小于预设阈值的搜索结果划分到该子集中,这样就很容易在后续处理时,精确控制每个属性的子集的搜索结果在每一个搜索结果展示页中的位置,顺序和比例。
在具体实现中,当所述子集称为逻辑桶时,所述预设属性可以称为预设分桶策略,每个子集的分类属性可以称为所述逻辑桶的定义,继而按照各个逻辑桶的定义,将候选搜索结果集划分到不同的逻辑桶中。
步骤103:分别从所述子集中抽取搜索结果生成展示页;
在本申请的一种优选实施例中,所述步骤103可以包括如下子步骤:
子步骤S31:分别对所述子集内的搜索结果进行排序;
具体而言,merger将划分好的逻辑桶在桶内按照预设的排序逻辑排序,以便排在前面的搜索结果将会优先展现,比如点击率低于某一阈值的逻辑桶内的搜索结果按照相关性原始分进行排序。所述预设的排序逻辑可以根据具体需求而变化,本申请在此不作具体限制。
子步骤S32:获取每个展示页的预设抽取策略,所述预设抽取策略包括每个子集抽取的顺序以及抽取比例;
子步骤S33:按照所述每个子集抽取的顺序以及抽取比例从每个子集中抽取相应数量的搜索结果生成对应的展示页。
具体而言,当满足搜索请求的搜索结果较多时,为了便于用户查看,搜索引擎在展示时可以采取分页的方式,每一个展示页只展示固定数量的搜索结果。
每个展示页具有预设的抽取策略,所述抽取策略可以为每个展示页中的各个逻辑桶的抽取顺序和抽取比例。在具体实现中,每个展示页的抽取策略可能会不一样,这个是由不同的需求来确定的,例如,某一展示页的抽取策略为“前3页同一家公司的搜索结果不能超过2条”、“首页的低点击率的逻辑桶的搜索结果比例不能超过5%”,这两个需求可能导致前3页的抽取策略和其他的不同,首页的抽取策略又和其他的不同。
在每个展示页中,按照抽取策略,不同属性的逻辑桶中的搜索结果都可以被抽取到并得到展示,从而可以在全局上精确控制每个逻辑桶中的搜索结果的数量、位置和比例。
参考图2所示的抽取策略展示图,merger先从候选搜索结果集中按照分类属性进行分桶(分成m个逻辑桶),然后按照每个展示页预设的桶抽取策略,精确控制每个逻辑桶的抽取数量和顺序,从而依次生成每一页(展现页)的搜索结果。
另外,merger端在抽取搜索结果在展示页中进行展示时,可以按需对每个展示页中的搜索结果进行全局调整。
具体而言,merger根据实际需要进行全局调整,所述全局调整可以包括按需进行的页内处理,例如页内同公司的检索数据打散等处理,页内同公司的检索数据打散处理的目的是防止同一公司的两条检索数据相邻展现(同一公司的检索数据往往售卖的是相同的产品,甚至连图片也是相同的),从而提高买家体验。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请所必须的。
参照图3,示出了一种搜索引擎排序的系统实施例的结构框图,具体可以包括以下模块:
候选搜索结果集获取模块201,用于获取候选搜索结果集,所述候选搜索结果集包括一个或多个搜索结果;
在本申请的一种优选实施例中,所述搜索结果集中还可以包括所述一个或多个搜索结果对应的聚合特征,所述搜索结果集由按照预设格式组织前N个搜索结果以及对应的聚合特征生成,其中N为正整数。所述候选搜索结果集获取模块201可以包括以下子模块:
搜索请求接收子模块,用于接收搜索请求;
作为本实施例的一种优选示例,所述搜索请求可以包括用户在搜索引擎中提交的搜索关键词qurey。
搜索请求分发子模块,用于将所述搜索请求分发至一个或多个搜索服务器中;
实际上,在大型搜索引擎中有多个搜索服务器(searcher)负责实际检索工作,还有一台总控服务器(merger)负责查询串解析,任务分发和最终的结果合并。在本申请中,merger首先将需要用到的聚合特征发送至searcher端,由searcher进行聚合特征获取和计算。作为本实施例的一种优选示例,所述聚合特征可以包括点击率(点击率是指网站页面上某一内容被点击的次数与被显示次数之比)、转化率(转化率是指一个统计周期内,完成转化行为的次数占推广信息总点击次数的比率。在电子商务网站中,转化率一般指的交易转化率,即完成交易的次数占推广信息总点击次数的比率)等。在具体实现中,所述聚合特征可以视具体需求而定,本申请实施例在此不作限制,例如如果想要控制搜索结果展示页的前几页同一公司的Offer(电商网站卖家填写的描述其产品的信息)数量,则聚合特征就包括该公司的公司ID。
搜索结果接收子模块,用于接收所述搜索服务器返回的预设格式的搜索结果以及对应的聚合特征,所述聚合特征为所述搜索服务器对接收到的搜索请求进行搜索,得到一个或多个搜索结果后,依据所述一个或多个搜索结果计算得到的指定的聚合特征;
解析子模块,用于对所述预设格式的搜索结果以及对应的聚合特征进行解析,得到处理后的搜索结果及对应的聚合特征;
归一化处理子模块,用于在对所述预设格式的搜索结果以及对应的聚合特征进行解析后,对所述预设格式的搜索结果以及对应的聚合特征进行归一化处理。
子集分类模块202,用于将所述一个或多个搜索结果划分到多个子集中;
在本申请的一种优选实施例中,所述子集分类模块202可以包括如下子模块:
聚合特征提取子模块,用于提取所述一个或多个搜索结果的聚合特征;
子集生成子模块,用于针对所述聚合特征按照预设属性进行分类,生成具有对应分类属性的子集;
在本申请的一种优选实施例中,所述子集生成子模块可以包括如下单元:
不同范围值子集生成单元,用于按不同聚合特征的范围值分类,生成对应不同范围值的子集。
搜索结果划分子模块,用于将所述一个或多个搜索结果划分到对应分类属性的子集中。
在本申请的一种优选实施例中,所述搜索结果划分子模块可以包括如下单元:
搜索结果划分单元,用于将所述点击率和/或转化率在对应阈值范围内的搜索结果分别划分至对应子集中。
展示页生成模块203,用于分别从所述子集中抽取搜索结果生成展示页。
在本申请的一种优选实施例中,所述展示页生成模块203可以包括如下子模块:
子集内排序子模块,用于分别对所述子集内的搜索结果进行排序;
预设抽取策略获取子模块,用于获取每个展示页的预设抽取策略,所述预设抽取策略包括每个子集抽取的顺序以及抽取比例;
展示页生成子模块,用于按照所述每个子集抽取的顺序以及抽取比例从每个子集中抽取相应数量的搜索结果生成对应的展示页。
全局调整模块204,用于对所述展示页中的搜索结果进行全局调整,所述全局调整包括展示页内同公司的检索数据打散。
由于所述图3的系统实施例基本相应于前述图1方法实施例,故本实施例的描述中未详尽之处,可以参见前述图1实施例中的相关说明,在此就不赘述了。
参照图4,示出了一种搜索引擎实施例的结构框图,具体可以包括一台主控服务器30以及多台搜索服务器40,
其中,所述主控服务器30可以包括如下模块:
候选搜索结果集获取模块301,用于获取候选搜索结果集,所述候选搜索结果集包括一个或多个搜索结果;
在本申请的一种优选实施例中,所述搜索结果集中还可以包括所述一个或多个搜索结果对应的聚合特征,所述候选搜索结果集获取模块301可以包括以下子模块:
搜索请求接收子模块,用于接收搜索请求;
作为本实施例的一种优选示例,所述搜索请求可以包括用户在搜索引擎中提交的搜索关键词qurey。
搜索请求分发子模块,用于将所述搜索请求分发至一个或多个搜索服务器40中;
实际上,在大型搜索引擎中有多个搜索服务器(searcher)负责实际检索工作,还有一台总控服务器(merger)负责查询串解析,任务分发和最终的结果合并。在本申请中,merger首先将需要用到的聚合特征发送至searcher端,由searcher进行聚合特征获取和计算。作为本实施例的一种优选示例,所述聚合特征可以包括点击率(点击率是指网站页面上某一内容被点击的次数与被显示次数之比)、转化率(转化率是指一个统计周期内,完成转化行为的次数占推广信息总点击次数的比率。在电子商务网站中,转化率一般指的交易转化率,即完成交易的次数占推广信息总点击次数的比率)等。在具体实现中,所述聚合特征可以视具体需求而定,本申请实施例在此不作限制,例如如果想要控制搜索结果展示页的前几页同一公司的Offer(电商网站卖家填写的描述其产品的信息)数量,则聚合特征就包括该公司的公司ID。
搜索结果接收子模块,用于接收所述搜索服务器40返回的预设格式的搜索结果以及对应的聚合特征;
解析子模块,用于对所述预设格式的搜索结果以及对应的聚合特征进行解析及归一化处理,得到处理后的搜索结果及对应的聚合特征。
子集分类模块302,用于将所述一个或多个搜索结果划分到多个子集中;
在本申请的一种优选实施例中,所述子集分类模块302可以包括如下子模块:
聚合特征提取子模块,用于提取所述一个或多个搜索结果的聚合特征;
子集生成子模块,用于针对所述聚合特征按照预设属性进行分类,生成具有对应分类属性的子集;
在本申请的一种优选实施例中,所述子集生成子模块可以包括如下单元:
不同范围值子集生成单元,用于按不同聚合特征的范围值分类,生成对应不同范围值的子集。
搜索结果划分子模块,用于将所述一个或多个搜索结果划分到对应分类属性的子集中。
在本申请的一种优选实施例中,所述搜索结果划分子模块可以包括如下单元:
搜索结果划分单元,用于将所述点击率和/或转化率在对应阈值范围内的搜索结果分别划分至对应子集中。
展示页生成模块303,用于分别从所述子集中抽取搜索结果生成展示页。
在本申请的一种优选实施例中,所述展示页生成模块303可以包括如下子模块:
子集内排序子模块,用于分别对所述子集内的搜索结果进行排序;
预设抽取策略获取子模块,用于获取每个展示页的预设抽取策略,所述预设抽取策略包括每个子集抽取的顺序以及抽取比例;
展示页生成子模块,用于按照所述每个子集抽取的顺序以及抽取比例从每个子集中抽取相应数量的搜索结果生成对应的展示页。
全局调整模块304,用于对所述展示页中的搜索结果进行全局调整,所述全局调整包括展示页内同公司的检索数据打散。
另外,所述搜索服务器40可以包括如下模块:
搜索模块401,用于依据接收到的搜索请求进行搜索,得到一个或多个搜索结果;
聚合特征获取模块402,用于依据所述一个或多个搜索结果计算指定的聚合特征;
结果返回模块403,用于按照预设格式返回前N个搜索结果以及对应的聚合特征,其中N为正整数。
具体而言,在本申请实施例中,搜索引擎可以有多个搜索服务器(searcher)负责实际检索工作以及聚合特征获取或计算的工作,在searcher端由于有更详细的query及检索数据,因此更便于计算聚合特征。
搜索引擎中还有一台总控服务器(merger)负责任务分发、搜索结果汇集、候选搜索结果集解析,分桶、桶内排序、多桶抽取、页内搜索结果全局调整等工作。由于merger得到的候选搜索结果集中包括经过计算的聚合特征,因此merger端不用重复计算这些特征,减少了merger端的工作量;并且,通过按照搜索结果的分类属性分桶、在每个逻辑桶内排序使得排序在前的搜索结果优先展示、进行多桶抽取等工作,使得merger端可以精确控制每个展示页中每种属性的逻辑桶的抽取数量和顺序。
需要说明的是,在实际应用中,本申请的技术方案可以作为独立的模块,嵌入到现有的搜索引擎中,从而实现搜索引擎改动最小化和系统的高拓展性。
由于所述图4的实施例基本相应于前述图1或图2的实施例,故本实施例的描述中未详尽之处,可以参见前述图1或图2实施例中的相关说明,在此就不赘述了。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种搜索引擎排序的方法,以及,一种搜索引擎排序的系统,以及,一种搜索引擎进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (19)

1.一种搜索引擎排序的方法,其特征在于,包括:
获取候选搜索结果集,所述候选搜索结果集包括一个或多个搜索结果;
将所述一个或多个搜索结果划分到多个子集中;
分别从所述子集中抽取搜索结果生成展示页。
2.根据权利要求1所述的方法,其特征在于,所述候选搜索结果集中还包括所述一个或多个搜索结果对应的聚合特征,所述获取候选搜索结果集的步骤包括:
接收搜索请求;
将所述搜索请求分发至一个或多个搜索服务器中;
接收所述搜索服务器返回的预设格式的搜索结果以及对应的聚合特征,所述聚合特征为所述搜索服务器对接收到的搜索请求进行搜索,得到一个或多个搜索结果后,依据所述一个或多个搜索结果计算得到的指定的聚合特征;
对所述预设格式的搜索结果以及对应的聚合特征进行解析,得到处理后的搜索结果及对应的聚合特征。
3.根据权利要求2所述的方法,其特征在于,所述候选搜索结果集由按照预设格式组织前N个搜索结果以及对应的聚合特征生成,其中N为正整数。
4.根据权利要求2所述的方法,其特征在于,还包括:
在对所述预设格式的搜索结果以及对应的聚合特征进行解析后,对所述预设格式的搜索结果以及对应的聚合特征进行归一化处理。
5.根据权利要求2所述的方法,其特征在于,所述将一个或多个搜索结果划分到多个子集中的步骤包括:
提取所述一个或多个搜索结果的聚合特征;
针对所述聚合特征按照预设属性进行分类,生成具有对应分类属性的子集;
将所述一个或多个搜索结果划分到对应分类属性的子集中。
6.根据权利要求5所述的方法,其特征在于,所述聚合特征包括点击率和/或转化率,所述针对聚合特征按照预设属性进行分类,生成具有对应分类属性的子集的子步骤包括:
按不同聚合特征的范围值分类,生成对应不同范围值的子集;
所述将的一个或多个搜索结果划分到对应分类属性的子集中的子步骤包括:
将所述点击率和/或转化率在对应阈值范围内的搜索结果分别划分至对应子集中。
7.根据权利要求1-6任一权利要求所述的方法,其特征在于,所述分别从子集中抽取搜索结果生成展示页的步骤包括:
分别对所述子集内的搜索结果进行排序;
获取每个展示页的预设抽取策略,所述预设抽取策略包括每个子集抽取的顺序以及抽取比例;
按照所述每个子集抽取的顺序以及抽取比例从每个子集中抽取相应数量的搜索结果生成对应的展示页。
8.根据权利要求7所述的方法,其特征在于,还包括:
对所述展示页中的搜索结果进行全局调整,所述全局调整包括展示页内同公司的检索数据打散。
9.根据权利要求1-6任一权利要求所述的方法,其特征在于,所述子集为逻辑桶。
10.一种搜索引擎排序的系统,其特征在于,包括:
候选搜索结果集获取模块,用于获取候选搜索结果集,所述候选搜索结果集包括一个或多个搜索结果;
子集分类模块,用于将所述一个或多个搜索结果划分到多个子集中;
展示页生成模块,用于分别从所述子集中抽取搜索结果生成展示页。
11.根据权利要求10所述的系统,其特征在于,所述候选搜索结果集中还包括所述一个或多个搜索结果对应的聚合特征,所述候选搜索结果集获取模块包括:
搜索请求接收子模块,用于接收搜索请求;
搜索请求分发子模块,用于将所述搜索请求分发至一个或多个搜索服务器中;
搜索结果接收子模块,用于接收所述搜索服务器返回的预设格式的搜索结果以及对应的聚合特征,所述聚合特征为所述搜索服务器对接收到的搜索请求进行搜索,得到一个或多个搜索结果后,依据所述一个或多个搜索结果计算得到的指定的聚合特征;
解析子模块,用于对所述预设格式的搜索结果以及对应的聚合特征进行解析,得到处理后的搜索结果及对应的聚合特征。
12.根据权利要求11所述的系统,其特征在于,所述候选搜索结果集由按照预设格式组织前N个搜索结果以及对应的聚合特征生成,其中N为正整数。
13.根据权利要求11所述的系统,其特征在于,所述候选搜索结果集获取模块还包括:
归一化处理子模块,用于在对所述预设格式的搜索结果以及对应的聚合特征进行解析后,对所述预设格式的搜索结果以及对应的聚合特征进行归一化处理。
14.根据权利要求11所述的系统,其特征在于,所述子集分类模块包括:
聚合特征提取子模块,用于提取所述一个或多个搜索结果的聚合特征;
子集生成子模块,用于针对所述聚合特征按照预设属性进行分类,生成具有对应分类属性的子集;
搜索结果划分子模块,用于将所述一个或多个搜索结果划分到对应分类属性的子集中。
15.根据权利要求14所述的系统,其特征在于,所述聚合特征包括点击率和/或转化率,所述子集生成子模块包括:
不同范围值子集生成单元,用于按不同聚合特征的范围值分类,生成对应不同范围值的子集;
所述搜索结果划分子模块包括:
搜索结果划分单元,用于将所述点击率和/或转化率在对应阈值范围内的搜索结果分别划分至对应子集中。
16.根据权利要求10-15任一权利要求所述的系统,其特征在于,所述展示页生成模块包括:
子集内排序子模块,用于分别对所述子集内的搜索结果进行排序;
预设抽取策略获取子模块,用于获取每个展示页的预设抽取策略,所述预设抽取策略包括每个子集抽取的顺序以及抽取比例;
展示页生成子模块,用于按照所述每个子集抽取的顺序以及抽取比例从每个子集中抽取相应数量的搜索结果生成对应的展示页。
17.根据权利要求16所述的系统,其特征在于,还包括:
全局调整模块,用于对所述展示页中的搜索结果进行全局调整,所述全局调整包括展示页内同公司的检索数据打散。
18.根据权利要求10-15任一权利要求所述的系统,其特征在于,所述子集为逻辑桶。
19.一种搜索引擎,其特征在于,包括一台主控服务器以及多台搜索服务器,其中,所述主控服务器包括:
候选搜索结果集获取模块,用于获取候选搜索结果集,所述候选搜索结果集包括一个或多个搜索结果;
子集分类模块,用于将所述一个或多个搜索结果划分到多个子集中;
展示页生成模块,用于分别从所述子集中抽取搜索结果生成展示页。
CN201310064582.5A 2013-02-28 2013-02-28 一种搜索引擎排序的方法、系统以及一种搜索引擎 Active CN104021125B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310064582.5A CN104021125B (zh) 2013-02-28 2013-02-28 一种搜索引擎排序的方法、系统以及一种搜索引擎
HK15101745.9A HK1201346A1 (zh) 2013-02-28 2015-02-17 種搜索引擎排序的方法、系統以及種搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310064582.5A CN104021125B (zh) 2013-02-28 2013-02-28 一种搜索引擎排序的方法、系统以及一种搜索引擎

Publications (2)

Publication Number Publication Date
CN104021125A true CN104021125A (zh) 2014-09-03
CN104021125B CN104021125B (zh) 2018-04-06

Family

ID=51437882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310064582.5A Active CN104021125B (zh) 2013-02-28 2013-02-28 一种搜索引擎排序的方法、系统以及一种搜索引擎

Country Status (2)

Country Link
CN (1) CN104021125B (zh)
HK (1) HK1201346A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183913A (zh) * 2015-10-12 2015-12-23 广州神马移动信息科技有限公司 一种查询处理方法、装置及设备
CN105404688A (zh) * 2015-12-11 2016-03-16 北京奇虎科技有限公司 搜索方法和搜索设备
CN108205572A (zh) * 2016-12-20 2018-06-26 百度在线网络技术(北京)有限公司 一种搜索方法、装置及设备
CN108845996A (zh) * 2018-04-02 2018-11-20 北京大学 一种聚合安卓应用程序内部搜索功能的元搜索引擎实现方法和总控系统
CN109062946A (zh) * 2018-06-21 2018-12-21 深圳市彬讯科技有限公司 一种基于多网页的突出显示方法及装置
CN109614515A (zh) * 2018-10-30 2019-04-12 北京奇艺世纪科技有限公司 视频搜索评价方法和系统
CN110020094A (zh) * 2017-07-14 2019-07-16 阿里巴巴集团控股有限公司 一种搜索结果的展示方法和相关装置
CN110020142A (zh) * 2017-11-17 2019-07-16 上海宝信软件股份有限公司 一种面向钢铁电商综合检索的快速分类聚合方法及系统
CN110674387A (zh) * 2018-06-15 2020-01-10 伊姆西Ip控股有限责任公司 用于数据搜索的方法、装置和计算机存储介质
CN112035732A (zh) * 2020-08-25 2020-12-04 深圳乐信软件技术有限公司 一种搜索结果的扩展方法、系统、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385602B1 (en) * 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
CN1716255A (zh) * 2004-07-01 2006-01-04 微软公司 通过使用页类别信息分散搜索引擎结果
CN1781100A (zh) * 2003-04-29 2006-05-31 国际商业机器公司 用于为一组搜索结果生成精细化类别的系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385602B1 (en) * 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
CN1781100A (zh) * 2003-04-29 2006-05-31 国际商业机器公司 用于为一组搜索结果生成精细化类别的系统和方法
CN1716255A (zh) * 2004-07-01 2006-01-04 微软公司 通过使用页类别信息分散搜索引擎结果

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183913A (zh) * 2015-10-12 2015-12-23 广州神马移动信息科技有限公司 一种查询处理方法、装置及设备
CN105404688A (zh) * 2015-12-11 2016-03-16 北京奇虎科技有限公司 搜索方法和搜索设备
CN108205572A (zh) * 2016-12-20 2018-06-26 百度在线网络技术(北京)有限公司 一种搜索方法、装置及设备
CN110020094A (zh) * 2017-07-14 2019-07-16 阿里巴巴集团控股有限公司 一种搜索结果的展示方法和相关装置
CN110020142A (zh) * 2017-11-17 2019-07-16 上海宝信软件股份有限公司 一种面向钢铁电商综合检索的快速分类聚合方法及系统
CN108845996A (zh) * 2018-04-02 2018-11-20 北京大学 一种聚合安卓应用程序内部搜索功能的元搜索引擎实现方法和总控系统
CN110674387A (zh) * 2018-06-15 2020-01-10 伊姆西Ip控股有限责任公司 用于数据搜索的方法、装置和计算机存储介质
CN110674387B (zh) * 2018-06-15 2023-09-22 伊姆西Ip控股有限责任公司 用于数据搜索的方法、装置和计算机存储介质
CN109062946A (zh) * 2018-06-21 2018-12-21 深圳市彬讯科技有限公司 一种基于多网页的突出显示方法及装置
CN109614515A (zh) * 2018-10-30 2019-04-12 北京奇艺世纪科技有限公司 视频搜索评价方法和系统
CN112035732A (zh) * 2020-08-25 2020-12-04 深圳乐信软件技术有限公司 一种搜索结果的扩展方法、系统、设备和存储介质

Also Published As

Publication number Publication date
HK1201346A1 (zh) 2015-08-28
CN104021125B (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
CN104021125A (zh) 一种搜索引擎排序的方法、系统以及一种搜索引擎
US8380697B2 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
CN104794242B (zh) 一种搜索方法
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN103577462B (zh) 一种文档分类方法及装置
CN101847161A (zh) 搜索网页的方法和建立数据库的方法
CN102043833A (zh) 一种基于查询词进行搜索的方法和搜索装置
CN105022827A (zh) 一种面向领域主题的Web新闻动态聚合方法
CN104077407A (zh) 一种智能数据搜索系统及方法
CN104123366A (zh) 一种搜索方法及搜索服务器
CN104077415A (zh) 搜索方法及装置
US11789946B2 (en) Answer facts from structured content
CN103077254A (zh) 网页获取方法和装置
CN104834736A (zh) 构建索引库的方法、装置及检索的方法、装置和系统
CN102968419A (zh) 交互式互联网实体名称的消歧方法
CN102214183A (zh) 按页面反馈内容与固定排名相结合的搜索引擎查询方法
Dias et al. Automating the extraction of static content and dynamic behaviour from e-commerce websites
CN102214182A (zh) 一种根据ip地址进行精确查询的搜索方法
CN103902549A (zh) 搜索数据排序的方法和装置,数据搜索的方法和装置
CN104615723B (zh) 查询词权重值的确定方法和装置
CN105159898A (zh) 一种搜索的方法和装置
CN103455491A (zh) 对查询词分类的方法及装置
CN103823847A (zh) 一种关键词的扩充方法及装置
CN102222067A (zh) 一种根据关键字ip地址进行精确查询的搜索方法
CN103164407A (zh) 一种信息搜索方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1201346

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant