CN101930438B - 一种搜索结果生成方法及信息搜索系统 - Google Patents

一种搜索结果生成方法及信息搜索系统 Download PDF

Info

Publication number
CN101930438B
CN101930438B CN200910146331.5A CN200910146331A CN101930438B CN 101930438 B CN101930438 B CN 101930438B CN 200910146331 A CN200910146331 A CN 200910146331A CN 101930438 B CN101930438 B CN 101930438B
Authority
CN
China
Prior art keywords
match information
model
information
search
nonlinear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200910146331.5A
Other languages
English (en)
Other versions
CN101930438A (zh
Inventor
郭宁
邢飞
谢宇恒
侯磊
张勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN200910146331.5A priority Critical patent/CN101930438B/zh
Priority to US12/802,816 priority patent/US8346765B2/en
Priority to JP2012516058A priority patent/JP5341253B2/ja
Priority to PCT/US2010/001720 priority patent/WO2010147645A1/en
Priority to EP10789859.5A priority patent/EP2443546A4/en
Publication of CN101930438A publication Critical patent/CN101930438A/zh
Priority to US13/691,157 priority patent/US8782040B2/en
Priority to US14/296,191 priority patent/US9471643B2/en
Application granted granted Critical
Publication of CN101930438B publication Critical patent/CN101930438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor

Abstract

本申请公开了一种搜索结果生成方法及信息搜索系统。一种搜索结果生成方法,包括:信息搜索系统接收搜索请求,通过检索获得与所述搜索请求相匹配的各条匹配信息;使用线性排序模型对所述各条匹配信息中的N1条匹配信息进行排序,得到第一排序结果;使用非线性排序模型对所述第一排序结果中的前N2条匹配信息进行排序,得到第二排序结果,其中N2<N1;根据所述第二排序结果,生成搜索结果。应用以上技术方案,可以有效减小使用非线性排序模型所处理的数据量,从而提高对匹配信息排序的整体处理速度。

Description

一种搜索结果生成方法及信息搜索系统
技术领域
本申请涉及计算机应用领域,特别是涉及一种搜索结果生成方法及信息搜索系统。
背景技术
信息搜索系统是一种能够为用户提供信息检索服务的系统,以互联网中常用的搜索引擎为例,作为应用在互联网领域的搜索系统,搜索引擎目前已经成为用户上网必不可少的辅助工具之一。从用户的角度看,搜索引擎一般提供一个包含搜索框的页面,用户在搜索框输入关键词或其他搜索条件,通过浏览器提交给搜索引擎后,搜索引擎就会返回与用户输入的关键词内容相匹配的信息。
针对同样的用户搜索请求(例如用户在搜索时所输入的搜索关键词),搜索引擎往往能够检索到多条匹配信息,这个数量可能会达到数十至数万。而从用户的角度来讲,往往只会重点关注在搜索结果中排序比较靠前的信息。这样,在搜索引擎向用户提供搜索结果时,如何对这些信息进行排序就显得尤为重要,搜索结果的排序是否合理将直接影响着用户的体验。
搜索引擎在对信息进行排序时,会综合考虑一种或多种因素(例如:搜索关键词在匹配信息中出现的次数、搜索关键词在匹配信息中所处的位置等等),构建形如y=f(x1,x2,...,xn)的排序模型,根据该模型为每条匹配信息进行打分,最后依据分值高低对每条匹配信息进行排序。其中,上述模型的输入参量,即函数自变量x1,x2,...,xn,分别表示所考虑的各种因素,称为匹配信息的特征,模型的输出即应变量y表示匹配信息的得分值。
根据y=f(x1,x2,...,xn)具体形式的不同,可以将排序模型分为线性排序模型和非线性排序模型两大类。一般而言,相对于线性排序模型,非线性排序模型的拟合能力更强,因此使用非线性排序模型可以实现更好的搜索效果(即匹配信息的排列顺序更符合用户的实际需求,或者与用户期待的顺序更趋于一致)。但是,由于非线性排序模型的复杂度高,因此,其处理速度较为缓慢。特别是在对大量匹配信息进行排序处理时,需要占用很长的时间来生成搜索结果,对用户体验造成了影响。
发明内容
为解决上述技术问题,本申请提供一种搜索结果生成方法及信息搜索系统,以提高对匹配信息排序的处理速度,提升用户体验,技术方案如下:
本申请提供一种搜索结果生成方法,包括:
信息搜索系统接收搜索请求,通过检索获得与所述搜索请求相匹配的各条匹配信息;
使用线性排序模型对所述各条匹配信息中的N1条匹配信息进行排序,得到第一排序结果,其中,N1≤所检索到的匹配信息的总数目;
使用非线性排序模型对所述第一排序结果中的前N2条匹配信息进行排序,得到第二排序结果,其中N2<N1;
根据所述第二排序结果,生成搜索结果。
本申请还提供一种信息搜索系统,其特征在于,包括:
信息检索单元,用于接收搜索请求,通过检索获得与所述搜索请求相匹配的各条匹配信息;
线性排序单元,用于使用线性排序模型对所述信息检索单元检索获得的各条匹配信息中的N1条匹配信息进行排序,得到第一排序结果,其中,N1≤所检索到的匹配信息的总数目;
非线性排序单元,用于使用非线性排序模型对所述线性排序单元排序得到的第一排序结果中的前N2条匹配信息进行排序,得到第二排序结果,其中N2<N1;
与现有技术相比,本申请实施例所提供的技术方案,首先使用线性排序模型对N1条匹配信息进行排序处理,然后对排序结果的前N2条再使用非线性排序模型进行排序处理。由于线性排序模型的处理速度是能够保证的,因此对于大量(N1条)的匹配信息,首先利用线性排序模型进行预处理,然后通过设置N2<N1,可以有效减小使用非线性排序模型所处理的数据量,从而提高对匹配信息排序的整体处理速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一的搜索结果生成方法的流程图;
图2为本申请实施例二的搜索结果生成方法的流程图;
图3为本申请实施例二的搜索效果示意图;
图4为本申请实施例信息搜索系统的结构示意图;
图5为本申请实施例信息搜索系统的另一种结构示意图。
具体实施方式
首先对本申请实施例的一种搜索结果生成方法进行说明,包括:
信息搜索系统接收搜索请求,通过检索获得与所述搜索请求相匹配的各条匹配信息;
使用线性排序模型对所述各条匹配信息中的N1条匹配信息进行排序,得到第一排序结果;
使用非线性排序模型对所述第一排序结果中的前N2条匹配信息进行排序,得到第二排序结果,其中N2<N1;
根据所述第二排序结果,生成搜索结果。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
下面以网络搜索应用为例,对本申请所提供的技术方案进行详细说明,图1所示为本申请实施例的一种搜索结果生成方法的流程图,包括以下步骤:
S101,搜索引擎接收搜索请求,通过检索获得与所述搜索请求相匹配的各条匹配信息;
当用户需要在网络上搜索信息时,会输入一个或多个搜索条件,一般最为常用的搜索条件是搜索关键词,根据具体搜索应用场景的不同,有些搜索引擎还可以支持更多类型的搜索条件,例如信息发布时间、信息属性等等,本申请实施例中,将各种搜索条件统称为搜索请求。搜索引擎接收到搜索请求之后,检索与搜索请求相匹配的信息。对应不同的搜索应用场景,检索到的信息类型也有所不同,例如:在网页搜索中,检索到的信息为网页;在电子商务搜索中,检索到的信息为商品;在文献搜索中,检索到的信息为期刊或论文等等。其中,根据搜索请求检索与之相匹配的信息,其实现方法与现有技术相同,本申请实施例对此不再进行详细说明。
S102,使用线性排序模型对所述各条匹配信息进行排序,得到第一排序结果;
本步骤中,使用线性模型为每条匹配信息进行打分,然后依据分值高低对每条匹配信息进行排序。
线性排序模型的数学表达式形式如下:
y=f(x1,x2,...,xn)
=a1x1+a2x2+...+anxn
在上述模型中,应变量y与每个自变量分别构成一次函数关系,其中,模型的输入参量x1,x2,...,xn,分别表示在排序时需要考虑的各种因素,称为匹配信息的特征;a1,a2,...,an分别为每个特征的加权系数,an的大小反映xn对应特征对于排序的重要程度。模型的输出y表示匹配信息的排序分值。
根据具体的搜索应用需求,系统会根据匹配信息的一个或多个特征,来计算每条匹配信息的排序分值大小。这些特征可能涉及多个方面,举例如下:
1)搜索关键词在匹配信息中出现的次数。
一般认为,搜索关键词在某条匹配信息中出现的次数越多,则该条匹配信息应该获得越高的排序分值。
2)搜索关键词在匹配信息中所处的位置。
一般认为,如果搜索关键词出现在某条匹配信息的标题、摘要等重要部分,则该条匹配信息应该获得较高的排序分值。
3)匹配信息的用户反馈量。
用户反馈量能够反映用户对某条信息关注程度,搜索引擎可以通过读取用户反馈日志,获得各条匹配信息所对应的用户反馈量,并根据用户反馈量为各条匹配信息打分,其基本原则是:用户对某条匹配信息的关注程度越高,则该条匹配信息应该获得越高的排序分值。
4)匹配信息的来源。
匹配信息的来源也可以作为确定其排列顺序的因素,例如,对于网页搜索来说,如果匹配信息来源于大型门户网站或官方网站,则可获得较高的排序分值。
以上仅仅列举了几种常用的匹配信息特征,匹配信息还具有很多可以用来计算排序分值的特征,这里不再一一说明。
当一个排序模型确定以后,该模型所要使用的特征种类以及数量也就确定了。系统在对匹配信息进行排序时,首先要获取每条匹配信息的每个特征值,然后根据排序模型计算出每条匹配信息的排序分值,最后根据排序分值大小对每条匹配信息进行排序。
举例说明,假设排序模型为y=f(x1,x2,x3),则其使用的特征数量为3,待排序的匹配信息数量为10,则系统需要分别获取10组(x1,x2,x3)的特征值,然后分别计算出10个y值,最后根据10个y值的大小对这10条匹配信息进行排序。
S103,使用非线性排序模型对所述第一排序结果做进一步排序,得到第二排序结果;
本步骤的执行方法与S102类似,不同之处在于,本步骤所依据的排序模型为非线性模型。
对匹配信息进行排序的目的,是希望最终展现给用户的搜索结果能够更加符合用户的实际需求。可以想象的是,匹配信息的各个特征与其最终的排序得分在客观上是存在某种对应关系的。建立排序模型的目的,就是尽量去拟合这种对应关系。本领域技术人员所公知的是,线性函数的拟合能力是有限的,而非线性函数在理论上可以拟合任何形式的关系。因此,在多数情况下,使用非线性排序模型,可以实现更好的搜索效果,即匹配信息的排列顺序更符合用户的实际需求。
由于非线性函数的计算复杂度高于线性函数,因此,在同等条件下,使用非线性模型进行排序,其处理速度一般会远远低于线性模型。这里所述的同等条件,包括:使用同样的特征值、处理相同数量的匹配信息。
为了实现更高的排序速度,同时保证搜索效果,本实施例所采用的方案是:先使用线性模型对匹配信息进行第一次排序,得到第一排序结果,然后再使用非线性模型对第一排序结果进行第二次排序。其中,第二次排序所处理的匹配信息数量小于第一次排序所处理的匹配信息数量。
假设第一次排序所处理的匹配信息数量为N1,可以理解的是,从整体上看,经过第一次排序处理后,排在前面的匹配信息基本上都是比较符合用户需求的,但是由于线性模型的局限性,其具体的排列顺序与用户的实际区别需求可能还有较大的差距。那么,对于这部分信息,可以进一步使用非线性排序模型进行排序处理,即:对于在第一排序结果中靠前的N2条匹配信息,使用非线性排序模型进行排序处理,得到第二排序结果。
其中,N2的取值,可以根据具体的搜索需求确定,考虑到一般用户只会关注搜索结果的前几页,因此,可以根据每页可显示的匹配信息条数,为N2选取一个较小的值(相对于N1),例如200、400等;或者,也可以根据N1来设定N2,例如,将N2的值取为N1的1/10、1/20等。
本领域技术人员可以理解的是,相对于线性排序模型,在非线性排序模型中,可以适当减少一些细节特征以提高第二次排序的处理速度,或者适当增加一些细节特征以实现更好的搜索效果。但是,为了保证第一次排序和第二次排序的结果在整体上的一致性,线性排序模型和非线性排序模型所使用的主要特征应该是相同的,当然,线性排序模型和非线性排序模型也可以使用完全相同的特征。
S104,根据所述第二排序结果,生成搜索结果。
搜索引擎根据使用第二次排序的结果,生成最终的搜索结果展现给用户。
在本实施例中,首先使用线性排序模型对N1条匹配信息进行排序处理,然后对排序结果的前N2条再使用非线性排序模型进行排序处理。由于线性排序模型的处理速度是能够保证的,因此对于大量(N1条)的匹配信息,首先利用线性排序模型进行预处理,然后通过设置N2<N1,可以有效减小使用非线性排序模型所处理的数据量,从而提高对匹配信息排序的整体处理速度。
实施例二:
传统的排序方法,是由人工设计排序模型,其局限性在于只能处理一些简单的特征组合。Learning to Rank(排序学习)是目前比较流行的一种排序方法,与传统的排序方法相比,Learning to Rank方法可以把更多的特征列入考虑。其原理是使用数据样本对排序模型进行训练,令模型学习用户的实际需求,从而使得排序结果更符合用户的实际需求。特别是对于非线性模型,通过训练,可以使排序结果与用户期待的排序结果基本趋于一致。
在本申请的优选实施方案中,可以将经训练所确定的线性模型和非线性模型用于第一次排序和第二次排序,由于这类模型所涉及的特征往往比较多,计算复杂度高,因此,为了保证处理速度,可以在第一次排序之前,再增加一个排序预处理的步骤。参见图2所示,本实施例所提供的一种搜索结果生成方法包括以下步骤:
S201,搜索引擎接收搜索请求,通过检索获得与所述搜索请求相匹配的各条匹配信息;
S202,对各条匹配信息进行排序预处理。
S203,使用线性排序模型对经过排序预处理的匹配信息进行排序,得到第一排序结果;
S204,使用非线性排序模型对所述第一排序结果做进一步排序,得到第二排序结果;
S205,根据所述第二排序结果,生成搜索结果。
本实施例与实施例一相比,主要的区别是增加了一个预处理的步骤S202,其目的是减小使用线性排序模型所处理的数据量。所述预处理,可以是过滤操作,例如滤掉一些过期的、链接无效的匹配信息;也可以是简单的排序操作,一般是采用一些简单传统排序算法,例如TF-IDF,BM25等,这些算法所使用的排序模型由人工设计,所涉及的特征也很少。其特点是速度快,但是相应的排序效果也比较差。
可见,从原理上讲,S202对于S203的作用,相当于S203对于S204的作用。排序预处理的速度比线性模型要快很多,而效果也比较差。假设S201中共检索到N0条匹配信息,S202的作用是通过预处理,从N0条信息中选择出N1条匹配信息(或者将N1条匹配信息排在前面),以供线性排序模型处理。从数量上来讲,N1一般是远小于N0的,因而可以显著提高第一次排序的处理速度。
下面以一个简单的示意图,说明排序预处理、第一次排序,第二次排序的关系及效果。首先做一个假设:将所有的匹配信息按照用户的实际需求分为两类:真正相关的匹配信息和一般匹配信息。排序的目的,就是尽量将所有真正相关的匹配信息排在前面。如图3所示,实心圆代表真正相关的匹配信息,空心圆代表一般匹配信息。
1)假设N0=100,在100条匹配信息中共有5条真正相关的匹配信息,经过排序预处理之后,将5条匹配信息全部排在了前10位,如图3a所示。
2)取N1=10,经过第一次排序处理后,排序结果如图3b所示,可见,相对于图3a,5条匹配信息都排在了更为靠前的位置。
3)取N2=6,经过第二次排序处理后,排序结果如图3c所示,可见,5条匹配信息全部被排在了最前面。
当然,以上例子仅用于示意性说明,在实际的应用中,N值可能会达到几十万、几百万或更多。而N1和N2的值可以结合排序的模型的复杂程度和实际需求(包括总数据量、用户习惯等)确定,例如,可以将N1设为2000-5000,N2设为100-1000,等等。
实施例三:
下面将结合一个具体的应用实例,对本申请的搜索结果生成方法进行说明。
S301,信息搜索系统接收搜索请求,通过检索获得与所述搜索请求相匹配的各条匹配信息;
S302,对各条匹配信息进行排序预处理。
S303,使用线性排序模型对经过排序预处理的匹配信息进行排序,得到第一排序结果;
本实施例中,取N1=3000,即预处理结果的前3000条,使用线性模型进行第一次排序,所采用的线性模型为:
y1=0.15x1+0.1732x2+0.873x3+0.245x4+0.042x5
其中x1至x5为第一次排序时所考虑的匹配信息的特征,含义如下:
x1:考虑的特征为:搜索关键词在匹配信息文本中出现的次数,将该次数做归一化处理后即为x1的值。由模型可知,该值越高,则最终计算得到的排序分值越高。
x2:考虑的特征为:搜索关键词在匹配信息标题中出现的次数,将该次数做归一化处理后即为x2的值。由模型可知,该值越高,则最终计算得到的排序分值越高。
x3:考虑的特征为:搜索关键词在匹配信息标题中的距离。有时,用户会采用多个关键词进行搜索,这种情况下认为,多个关键词在标题中的距离越小,则越符合用户的需求。x3值的计算方法为:
其中,搜索关键词的距离,是以“词”为单位计算的。根据一定的划词规则,可以将任意的词组或短句划分为若干个“词”。举例说明,如果某条匹配信息的标题为“电脑主机和显示器的选购方法”,则根据划词规则,可以将其划分为:电脑/主机/和/显示器/的/选购/方法,共7个词。如果用户搜索的关键词为“电脑”和“显示器”,则在上述标题中,这两个关键词之间隔了两个词,即距离为2,相应的x3值为1-(2/7)=5/7。
可以理解的,如果搜索关键词与标题完全匹配,则关键词的距离为0,x3值取1,如果搜索关键词在标题中没有出现,则x3值取0。
x4:考虑的特征为:搜索关键词和匹配信息标题的编辑距离。搜索关键词和匹配信息的标题的相似程度,也可以作为计算匹配信息排序得分的一个因素。该相似程度可以以“编辑距离”来衡量。该编辑距离也是以“词”为单位计算的。例如,用户搜索的关键词为:“显示器”,则与标题“电脑主机和显示器的选购方法”的编辑距离为6,相应的x4值为1-(6/7)=1/7
可以理解的是,如果搜索关键词与标题完全匹配,则编辑距离为0,x4值取1,如果搜索关键词在标题中没有出现,则编辑距离为∞,x4值取0。
x5:考虑的特征为,搜索关键词在匹配信息文本中的IDF(InverseDocumentFrequency,反文档频率)值,将IDF做归一化处理后即为x5的值。
需要说明的是,为了模型计算方便,上述的x1至x5都是经过归一化处理后的值(即取值在[0,1]区间内),对于归一化处理的具体方法,本申请实施例不做限定。
S304,使用非线性排序模型对所述第一排序结果做进一步排序,得到第二排序结果;
本实施例中,取N2=600,即第一排序结果的前600条,使用非线性模型进行第二次排序,所采用的非线性模型为:
y 2 = 1 1 + e - ( 0.23 x 1 + 0.122 x 2 + 0.7653 x 3 + 0.189 x 4 + 0.156 x 5 )
其中x1至x5为第二次排序时所考虑的匹配信息的特征,与第一次排序时所考虑的匹配信息的特征相同。
S305,根据所述第二排序结果,生成搜索结果。
本实施例中,所采用的线性模型及非线性模型均为通过训练所确定的模型。本实施例是基于网页搜索或电子商务搜索等应用需求所提出。可以理解的是,这只是本申请技术方案的一种具体的实施方式。事实上,通过选择不同的排序模型,可以将本申请技术方案应用于各类搜索需求,例如图书数据库搜索、文献数据库搜索等。并且应用范围也不局限于互联网领域,其他如单机、局域网中的搜索,都可以应用本申请所提供的技术方案。
相应于上面的方法实施例,本申请还提供一种信息搜索系统,参见图4所示,包括:
信息检索单元410,用于接收搜索请求,通过检索获得与所述搜索请求相匹配的各条匹配信息;
线性排序单元420,用于使用线性排序模型对所述信息检索单元410检索获得的各条匹配信息中的N1条匹配信息进行排序,得到第一排序结果,其中,N1≤所检索到的匹配信息的总数目;
非线性排序单元430,用于使用非线性排序模型对所述线性排序单元420排序得到的第一排序结果中的前N2条匹配信息进行排序,得到第二排序结果,其中N2<N1;
结果生成单元440,用于根据所述第二排序结果,生成搜索结果。
本申请所提供的信息搜索,首先由线性排序单元420使用线性排序模型对N1条匹配信息进行排序处理,然后由非线性排序单元430对排序结果的前N2条再使用非线性排序模型进行排序处理。由于线性排序模型的处理速度是能够保证的,因此对于大量(N1条)的匹配信息,首先利用线性排序模型进行预处理,然后通过设置N2<N1,可以有效减小使用非线性排序模型所处理的数据量,从而提高对匹配信息排序的整体处理速度。
参见图5所示,上述的信息搜索系统,还可以包括:
排序预处理单元411,用于在所述信息检索单元410获得所述各条匹配信息之后,对所述各条匹配信息进行排序预处理,由所述各条匹配信息中选取N1条匹配信息作为所述线性排序单元420排序的对象;其中,N1小于所检索到的匹配信息的总数目。
使用排序预处理单元411,可以使线性排序单元420减少数据处理量,在不影响最终搜索效果的情况下,进一步提高整个系统的搜索处理速度。
以上所提供的信息搜索系统,可以是应用于互联网搜索的搜索引擎,也可以是应用于单机、局域网络的搜索的信息搜索系统。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基 于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种搜索结果生成方法,其特征在于,包括:
信息搜索系统接收搜索请求,通过检索获得与所述搜索请求相匹配的各条匹配信息;
使用线性排序模型对所述各条匹配信息中的N1条匹配信息进行排序,得到第一排序结果,其中,N1≤所检索到的匹配信息的总数目;
使用非线性排序模型对所述第一排序结果中的前N2条匹配信息进行排序,得到第二排序结果,其中N2<N1;
根据所述第二排序结果,生成搜索结果以便展现;
其中,所述线性排序模型和所述非线性排序模型所使用的主要搜索特征相同。
2.根据权利要求1所述的方法,其特征在于,在通过检索获得与所述搜索请求相匹配的各条匹配信息之后,还包括:
对所述各条匹配信息进行排序预处理,由所述各条匹配信息中选取N1条匹配信息作为后续步骤排序的对象;其中,N1<所检索到的匹配信息的总数目。
3.根据权利要求1或2所述的方法,其特征在于,
所述线性排序模型或非线性排序模型的输入为匹配信息的至少一个特征值,输出为匹配的信息的排序分值,所述排序分值,用于确定匹配信息的排列顺序。
4.根据权利要求3所述的方法,其特征在于,
所述线性排序模型所使用的特征,与所述非线性模型所使用的特征完全相同或部分相同。
5.根据权利要求4所述的方法,其特征在于,
所述匹配信息的特征值,由匹配信息自身所确定,或者由匹配信息与所述搜索请求共同确定。
6.根据权利要求1或2所述的方法,其特征在于,
所述线性排序模型或非线性排序模型,是通过训练所确定的模型。
7.一种信息搜索系统,其特征在于,包括:
信息检索单元,用于接收搜索请求,通过检索获得与所述搜索请求相匹配的各条匹配信息;
线性排序单元,用于使用线性排序模型对所述信息检索单元检索获得的各条匹配信息中的N1条匹配信息进行排序,得到第一排序结果,其中,N1≤所检索到的匹配信息的总数目;
非线性排序单元,用于使用非线性排序模型对所述线性排序单元排序得到的第一排序结果中的前N2条匹配信息进行排序,得到第二排序结果,其中N2<N1;
结果生成单元,用于根据所述第二排序结果,生成搜索结果以便展现;
其中,所述线性排序模型和所述非线性排序模型所使用的主要搜索特征相同。
8.根据权利要求7所述的系统,其特征在于,还包括:
排序预处理单元,用于在所述信息检索单元获得所述各条匹配信息之后,对所述各条匹配信息进行排序预处理,由所述各条匹配信息中选取N1条匹配信息作为所述线性排序单元排序的对象;其中,N1<所检索到的匹配信息的总数目。
9.根据权利要求7或8所述的系统,其特征在于,
所述线性排序模型或非线性排序模型的输入为匹配信息的至少一个特征值,输出为匹配的信息的排序分值,所述排序分值,用于确定匹配信息的排列顺序。
10.根据权利要求7或8所述的系统,其特征在于,
所述线性排序模型或非线性排序模型,是通过训练所确定的模型。
CN200910146331.5A 2009-06-19 2009-06-19 一种搜索结果生成方法及信息搜索系统 Active CN101930438B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN200910146331.5A CN101930438B (zh) 2009-06-19 2009-06-19 一种搜索结果生成方法及信息搜索系统
US12/802,816 US8346765B2 (en) 2009-06-19 2010-06-14 Generating ranked search results using linear and nonlinear ranking models
PCT/US2010/001720 WO2010147645A1 (en) 2009-06-19 2010-06-15 Generating ranked search results using linear and nonlinear ranking models
EP10789859.5A EP2443546A4 (en) 2009-06-19 2010-06-15 GENERATION OF RESEARCH RESULTS CLASSIFIED USING LINEAR AND NON-LINEAR CLASSIFICATION MODELS
JP2012516058A JP5341253B2 (ja) 2009-06-19 2010-06-15 線形および非線形のランキングモデルを用いるランク付けされた検索結果の生成
US13/691,157 US8782040B2 (en) 2009-06-19 2012-11-30 Generating ranked search results using linear and nonlinear ranking models
US14/296,191 US9471643B2 (en) 2009-06-19 2014-06-04 Generating ranked search results using linear and nonlinear ranking models

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910146331.5A CN101930438B (zh) 2009-06-19 2009-06-19 一种搜索结果生成方法及信息搜索系统

Publications (2)

Publication Number Publication Date
CN101930438A CN101930438A (zh) 2010-12-29
CN101930438B true CN101930438B (zh) 2016-08-31

Family

ID=43355159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910146331.5A Active CN101930438B (zh) 2009-06-19 2009-06-19 一种搜索结果生成方法及信息搜索系统

Country Status (5)

Country Link
US (3) US8346765B2 (zh)
EP (1) EP2443546A4 (zh)
JP (1) JP5341253B2 (zh)
CN (1) CN101930438B (zh)
WO (1) WO2010147645A1 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9317599B2 (en) * 2008-09-19 2016-04-19 Nokia Technologies Oy Method, apparatus and computer program product for providing relevance indication
CN101930438B (zh) * 2009-06-19 2016-08-31 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索系统
JP5699743B2 (ja) * 2011-03-30 2015-04-15 カシオ計算機株式会社 検索方法、検索装置、ならびに、コンピュータプログラム
CN102737018A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 基于非线性统一权值对检索结果进行排序的方法及装置
JP5737079B2 (ja) * 2011-08-31 2015-06-17 カシオ計算機株式会社 テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
US20130179418A1 (en) * 2012-01-06 2013-07-11 Microsoft Corporation Search ranking features
CN102810117B (zh) * 2012-06-29 2016-02-24 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN103593373B (zh) * 2012-08-16 2018-09-07 北京百度网讯科技有限公司 一种用于搜索结果排序的方法与设备
CN103885979B (zh) * 2012-12-21 2018-06-05 深圳市世纪光速信息技术有限公司 推送信息的方法和装置
US9514191B2 (en) 2013-03-14 2016-12-06 Microsoft Technology Licensing, Llc Visualizing ranking factors for items in a search result list
CN104424291B (zh) * 2013-09-02 2018-12-21 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法及装置
US11238056B2 (en) 2013-10-28 2022-02-01 Microsoft Technology Licensing, Llc Enhancing search results with social labels
US9542440B2 (en) 2013-11-04 2017-01-10 Microsoft Technology Licensing, Llc Enterprise graph search based on object and actor relationships
US11645289B2 (en) 2014-02-04 2023-05-09 Microsoft Technology Licensing, Llc Ranking enterprise graph queries
US9870432B2 (en) 2014-02-24 2018-01-16 Microsoft Technology Licensing, Llc Persisted enterprise graph queries
US11657060B2 (en) 2014-02-27 2023-05-23 Microsoft Technology Licensing, Llc Utilizing interactivity signals to generate relationships and promote content
US10757201B2 (en) 2014-03-01 2020-08-25 Microsoft Technology Licensing, Llc Document and content feed
US10169457B2 (en) 2014-03-03 2019-01-01 Microsoft Technology Licensing, Llc Displaying and posting aggregated social activity on a piece of enterprise content
US10394827B2 (en) 2014-03-03 2019-08-27 Microsoft Technology Licensing, Llc Discovering enterprise content based on implicit and explicit signals
US10255563B2 (en) 2014-03-03 2019-04-09 Microsoft Technology Licensing, Llc Aggregating enterprise graph content around user-generated topics
US11809434B1 (en) 2014-03-11 2023-11-07 Applied Underwriters, Inc. Semantic analysis system for ranking search results
US20150356523A1 (en) * 2014-06-07 2015-12-10 ChainID LLC Decentralized identity verification systems and methods
US20160041982A1 (en) * 2014-08-05 2016-02-11 Facebook, Inc. Conditioned Search Ranking Models on Online Social Networks
RU2580516C2 (ru) * 2014-08-19 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ формирования персонализированной модели ранжирования, способ формирования модели ранжирования, электронное устройство и сервер
US10061826B2 (en) 2014-09-05 2018-08-28 Microsoft Technology Licensing, Llc. Distant content discovery
JP6263461B2 (ja) * 2014-09-26 2018-01-17 日立オートモティブシステムズ株式会社 撮像装置
US10387431B2 (en) * 2015-08-24 2019-08-20 Google Llc Video recommendation based on video titles
CN105335493B (zh) 2015-10-21 2017-08-29 广州神马移动信息科技有限公司 一种分层过滤文档的方法及装置
CN105302898B (zh) * 2015-10-23 2019-02-19 车智互联(北京)科技有限公司 一种基于点击模型的搜索排序方法及装置
US10534780B2 (en) * 2015-10-28 2020-01-14 Microsoft Technology Licensing, Llc Single unified ranker
US10437841B2 (en) * 2016-10-10 2019-10-08 Microsoft Technology Licensing, Llc Digital assistant extension automatic ranking and selection
CN106777088A (zh) * 2016-12-13 2017-05-31 飞狐信息技术(天津)有限公司 快速迭代的搜索引擎排序方法及系统
CN108520002A (zh) * 2018-03-12 2018-09-11 平安科技(深圳)有限公司 数据处理方法、服务器及计算机存储介质
CN110222260A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 一种搜索方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1335574A (zh) * 2001-09-05 2002-02-13 罗笑南 智能语义搜索方法
CN1710560A (zh) * 2005-06-22 2005-12-21 浙江大学 基于链接分析的个性化搜索引擎方法
CN101233513A (zh) * 2005-07-29 2008-07-30 雅虎公司 对结果集进行重排序的系统和方法

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6236768B1 (en) * 1997-10-14 2001-05-22 Massachusetts Institute Of Technology Method and apparatus for automated, context-dependent retrieval of information
US6490579B1 (en) * 1998-07-16 2002-12-03 Perot Systems Corporation Search engine system and method utilizing context of heterogeneous information resources
JP3347088B2 (ja) 1999-02-12 2002-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 関連情報検索方法およびシステム
US6327590B1 (en) * 1999-05-05 2001-12-04 Xerox Corporation System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis
US6249784B1 (en) * 1999-05-19 2001-06-19 Nanogen, Inc. System and method for searching and processing databases comprising named annotated text strings
US6353825B1 (en) * 1999-07-30 2002-03-05 Verizon Laboratories Inc. Method and device for classification using iterative information retrieval techniques
JP2001126074A (ja) * 1999-08-17 2001-05-11 Atl Systems:Kk パターンマッチングによるデータ検索方法及びそのプログラムを記録した記録媒体
US6751612B1 (en) * 1999-11-29 2004-06-15 Xerox Corporation User query generate search results that rank set of servers where ranking is based on comparing content on each server with user query, frequency at which content on each server is altered using web crawler in a search engine
US6560600B1 (en) 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US6526440B1 (en) * 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
US20020194166A1 (en) * 2001-05-01 2002-12-19 Fowler Abraham Michael Mechanism to sift through search results using keywords from the results
US6738764B2 (en) 2001-05-08 2004-05-18 Verity, Inc. Apparatus and method for adaptively ranking search results
US6947924B2 (en) * 2002-01-07 2005-09-20 International Business Machines Corporation Group based search engine generating search results ranking based on at least one nomination previously made by member of the user group where nomination system is independent from visitation system
US7206780B2 (en) 2003-06-27 2007-04-17 Sbc Knowledge Ventures, L.P. Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values
US8600963B2 (en) * 2003-08-14 2013-12-03 Google Inc. System and method for presenting multiple sets of search results for a single query
US7761447B2 (en) 2004-04-08 2010-07-20 Microsoft Corporation Systems and methods that rank search results
US7617176B2 (en) 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
CN101601032A (zh) 2005-01-18 2009-12-09 雅虎公司 结合万维网搜索技术和万维网内容的被赞助搜索条目的匹配和排名
US9092458B1 (en) * 2005-03-08 2015-07-28 Irobot Corporation System and method for managing search results including graphics
US7849070B2 (en) 2005-08-03 2010-12-07 Yahoo! Inc. System and method for dynamically ranking items of audio content
US8489614B2 (en) 2005-12-14 2013-07-16 Google Inc. Ranking academic event related search results using event member metrics
US7617199B2 (en) * 2006-01-31 2009-11-10 Northwestern University Characterizing context-sensitive search results as non-spam
US20070192293A1 (en) 2006-02-13 2007-08-16 Bing Swen Method for presenting search results
US7603350B1 (en) 2006-05-09 2009-10-13 Google Inc. Search result ranking based on trust
US20080028308A1 (en) 2006-07-31 2008-01-31 Black Fin Software Limited Visual display method for sequential data
US8086600B2 (en) * 2006-12-07 2011-12-27 Google Inc. Interleaving search results
US7792883B2 (en) 2006-12-11 2010-09-07 Google Inc. Viewport-relative scoring for location search queries
JP4573358B2 (ja) * 2007-03-23 2010-11-04 日本電信電話株式会社 評判情報検索装置、その方法およびプログラム
KR100892248B1 (ko) * 2007-07-24 2009-04-09 주식회사 디엠에스 플라즈마 반응기의 실시간 제어를 실현하는 종말점 검출장치 및 이를 포함하는 플라즈마 반응기 및 그 종말점 검출방법
US20090037401A1 (en) * 2007-07-31 2009-02-05 Microsoft Corporation Information Retrieval and Ranking
US7779019B2 (en) * 2007-10-19 2010-08-17 Microsoft Corporation Linear combination of rankers
US7801876B1 (en) * 2008-01-11 2010-09-21 Google Inc. Systems and methods for customizing behavior of multiple search engines
US8247694B2 (en) * 2008-03-14 2012-08-21 Yazaki Corporation Protector structure for electric power feeding apparatus
US20090276414A1 (en) 2008-04-30 2009-11-05 Microsoft Corporation Ranking model adaptation for searching
CN101359331B (zh) * 2008-05-04 2014-03-19 索意互动(北京)信息技术有限公司 对搜索结果重新排序的方法和系统
US8060456B2 (en) * 2008-10-01 2011-11-15 Microsoft Corporation Training a search result ranker with automatically-generated samples
US8515950B2 (en) * 2008-10-01 2013-08-20 Microsoft Corporation Combining log-based rankers and document-based rankers for searching
US8620900B2 (en) * 2009-02-09 2013-12-31 The Hong Kong Polytechnic University Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface
EP2408249B1 (en) * 2009-03-09 2016-01-06 Nec Corporation Rank estimation apparatus, receiver, communication system, rank estimation method, and program recording medium
US8661030B2 (en) * 2009-04-09 2014-02-25 Microsoft Corporation Re-ranking top search results
CN101930438B (zh) * 2009-06-19 2016-08-31 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索系统
US20110289088A1 (en) * 2010-05-19 2011-11-24 Frank N. Magid Associates, Inc. System and method for ranking content interest
US8600979B2 (en) * 2010-06-28 2013-12-03 Yahoo! Inc. Infinite browse

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1335574A (zh) * 2001-09-05 2002-02-13 罗笑南 智能语义搜索方法
CN1710560A (zh) * 2005-06-22 2005-12-21 浙江大学 基于链接分析的个性化搜索引擎方法
CN101233513A (zh) * 2005-07-29 2008-07-30 雅虎公司 对结果集进行重排序的系统和方法

Also Published As

Publication number Publication date
EP2443546A1 (en) 2012-04-25
US8782040B2 (en) 2014-07-15
US20130166544A1 (en) 2013-06-27
EP2443546A4 (en) 2014-07-09
US8346765B2 (en) 2013-01-01
US9471643B2 (en) 2016-10-18
JP5341253B2 (ja) 2013-11-13
WO2010147645A1 (en) 2010-12-23
CN101930438A (zh) 2010-12-29
US20100325105A1 (en) 2010-12-23
US20140351246A1 (en) 2014-11-27
JP2012530963A (ja) 2012-12-06

Similar Documents

Publication Publication Date Title
CN101930438B (zh) 一种搜索结果生成方法及信息搜索系统
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
CN103514299B (zh) 信息搜索方法和装置
US9659248B1 (en) Machine learning and training a computer-implemented neural network to retrieve semantically equivalent questions using hybrid in-memory representations
US8874581B2 (en) Employing topic models for semantic class mining
US11720761B2 (en) Systems and methods for intelligent routing of source content for translation services
CN106663124A (zh) 生成和使用知识增强型模型
Ma et al. Course recommendation based on semantic similarity analysis
US10572473B2 (en) Optimized data visualization according to natural language query
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN102597991A (zh) 文档分析与关联系统及方法
CN106294330A (zh) 一种科技文本挑选方法及装置
Semerikov et al. Automation of the Export Data from Open Journal Systems to the Russian Science Citation Index
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
CN108960917A (zh) 网络营销推广方法及装置
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN105095271A (zh) 微博检索方法和微博检索装置
CN112184021B (zh) 一种基于相似支持集的答案质量评估方法
Lytvyn et al. Content Formation Method in the Web Systems.
Chatti et al. Learner modeling in academic networks
CN109189955A (zh) 一种自动检索关键词的确定方法和装置
CN108920492A (zh) 一种网页分类方法、系统、终端及存储介质
Fitria Information Retrieval Performance in Text Generation using Knowledge from Generative Pre-trained Transformer (GPT-3)
Noor et al. Automatic cv ranking using document vector and word embedding
US20210042867A1 (en) System, Method and computer program product for evaluating admissions related data and compute comprehensible scores for further determination, evaluation, and conclusion of applicant-fit in a college or university system.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1148368

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1148368

Country of ref document: HK