CN103902687B - 一种搜索结果的生成方法及装置 - Google Patents
一种搜索结果的生成方法及装置 Download PDFInfo
- Publication number
- CN103902687B CN103902687B CN201410114576.0A CN201410114576A CN103902687B CN 103902687 B CN103902687 B CN 103902687B CN 201410114576 A CN201410114576 A CN 201410114576A CN 103902687 B CN103902687 B CN 103902687B
- Authority
- CN
- China
- Prior art keywords
- webpage
- keyword
- equal
- search results
- webpages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供了一种搜索结果的生成方法及装置,该方法包括:接收客户端发送的关键词;依据所述关键词,获得M个第一网页,M为正整数;依据所述关键词和所述M个第一网页中的前N个第一网页,获得所述前N个第一网页中,每个所述第一网页所对应的P个第二网页;每个所述第一网页所对应的P个第二网页为与该第一网页具有相同知识主体且发布时间距离当前时间最近的网页;N为小于或等于M的正整数,P为大于或等于0的整数;依据每个所述第一网页所对应的P个第二网页,或者每个所述第一网页所对应的P个第二网页和所述M个第一网页,获得搜索结果;向所述客户端发送所述搜索结果。本发明实施例提供的技术方案用以实现提高搜索结果的时效性。
Description
【技术领域】
本发明涉及互联网应用技术,尤其涉及一种搜索结果的生成方法及装置。
【背景技术】
互联网的搜索引擎能够依据客户端发送的关键词(Query),获得对应的搜索结果,搜索结果与关键词的相关性、搜索结果的内容质量和搜索结果的时效性是衡量搜索引擎质量的重要指标。
然而,传统的搜索方法中,搜索引擎都利用网页排名(PageRank)算法计算网页质量,获得网页的排序结果,然后依据网页的点击数据对搜索结果中网页的排序进行调整;其中PageRank算法是依据网页的入链数获得网页在搜索结果中排名的算法,对于某网页而言,入链指的是该网页的统一资源定位符(Uniform Resource Locator,URL)出现在其他网页内容中的次数;因此,传统的搜索方法会导致可以满足用户的搜索需求的新网页,由于网页的入链数较少或点击次数较少,在搜索结果中排序较低,甚至不会出现在搜索结果中的问题,因此,搜索结果的时效性较差。
【发明内容】
有鉴于此,本发明实施例提供了一种搜索结果的生成方法及装置,以实现提高搜索结果的时效性。
本发明实施例提供了一种搜索结果的生成方法,包括:
接收客户端发送的关键词;
依据所述关键词,获得M个第一网页,M为正整数;
依据所述关键词和所述M个第一网页中的前N个第一网页,获得所述前N个第一网页中,每个所述第一网页所对应的P个第二网页;每个所述第一网页所对应的P个第二网页为与该第一网页具有相同知识主体且发布时间距离当前时间最近的网页;N为小于或等于M的正整数,P为大于或等于0的整数;
依据每个所述第一网页所对应的P个第二网页,或者每个所述第一网页所对应的P个第二网页和所述M个第一网页,获得搜索结果;
向所述客户端发送所述搜索结果。
上述方法中,所述依据所述关键词和所述M个第一网页中的前N个第一网页,获得所述前N个第一网页中,每个所述第一网页所对应的P个第二网页,包括:
获得所述前N个第一网页中每个所述第一网页所对应的K个第二网页,K为大于或等于P的整数;
依据所述关键词、所述K个第二网页和所述K个第二网页中每个第二网页的发布时间,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页。
上述方法中,所述依据所述关键词、所述K个第二网页和所述K个第二网页中每个第二网页的发布时间,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页,包括:
依据预设的所述K个第二网页中每个所述第二网页的质量权重值和预设的权重阈值,获得R个第二网页;所述R个第二网页中每个所述第二网页的质量权重值大于所述权重阈值;R为小于或等于K,且大于或等于P的整数;
依据所述R个第二网页中每个所述第二网页的发布时间,按照发布时间距离当前时间由近至远的顺序,对所述R个第二网页排序,以获得排序结果;
获得所述R个第二网页中排序靠前的L个第二网页;L为小于或等于R,且大于或者等于P的整数;
获得所述关键词与所述L个第二网页中每个所述第二网页的相关度;
依据所述相关度和预设的相关度阈值,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页,每个所述第一网页所对应的P个第二网页中每个所述第二网页与所述关键词的相关度大于所述相关度阈值。
上述方法中,所述依据每个所述第一网页所对应的P个第二网页,或者每个所述第一网页所对应的P个第二网页和所述M个第一网页,包括:
依据预设的每个所述第一网页所对应的P个第二网页中每个所述第二网页的质量权重值、所述关键词与每个所述第一网页所对应的P个第二网页中每个所述第二网页的相关度和每个所述第一网页所对应的P个第二网页中每个所述第二网页的发布时间,获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值;
按照所述结果权重值由大到小的顺序,对每个所述第一网页所对应的P个第二网页排序,以获得排序结果;
依据所述排序结果,获得排序靠前的T个第二网页,所述T为小于或等于P的正整数;
依据所述T个第二网页,或者所述T个第二网页和所述M个第一网页,获得所述搜索结果。
上述方法中,所述获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值,包括:
利用如下公式获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值W(total):
W(total)=a×Wb+b×Wr+c×Wt
其中,Wb为依据所述第二网页的质量权重值获得的第一中间权重值,Wr为依据关键词与所述第二网页的相关度获得的第二中间权重值,Wt为依据所述第二网页的发布时间获得的第三中间权重值,a、b和c为预设的调权因子。
上述方法中,所述依据所述T个第二网页,或者所述T个第二网页和所述M个第一网页,获得所述搜索结果,包括:
若所述T个第二网页不包括所述M个第一网页中任意一个第一网页,依据所述T个第二网页和所述M个第一网页,获得所述搜索结果,其中,所述T个第二网页的排序位置高于所述M个第一网页的排序位置;或者,
若所述T个第二网页包括所述M个第一网页中的全部第一网页,依据所述T个第二网页,获得所述搜索结果;或者,
若所述T个第二网页包括M个第一网页中W个第一网页,W为大于或等于1,且小于M的整数,在所述M个第一网页中删除所述W个第一网页,以获得Q个第一网页,Q等于M减去W;依据所述T个第二网页和所述Q个第一网页,获得所述搜索结果;其中,所述T个第二网页的排序位置高于所述Q个第一网页的排序位置。
本发明实施例还提供了一种搜索结果的生成装置,包括:
接收单元,用于接收客户端发送的关键词;
第一处理单元,用于依据所述关键词,获得M个第一网页,M为正整数;
第二处理单元,用于依据所述关键词和所述M个第一网页中的前N个第一网页,获得所述前N个第一网页中,每个所述第一网页所对应的P个第二网页;每个所述第一网页所对应的P个第二网页为与该第一网页具有相同知识主体且发布时间距离当前时间最近的网页;N为小于或等于M的正整数,P为大于或等于0的整数;
搜索生成单元,用于依据每个所述第一网页所对应的P个第二网页,或者每个所述第一网页所对应的P个第二网页和所述M个第一网页,获得搜索结果;
发送单元,用于向所述客户端发送所述搜索结果。
上述装置中,所述第二处理单元,具体用于:
获得所述前N个第一网页中每个所述第一网页所对应的K个第二网页,K为大于或等于P的整数;
依据所述关键词、所述K个第二网页和所述K个第二网页中每个第二网页的发布时间,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页。
上述装置中,所述第二处理单元,具体用于:
依据预设的所述K个第二网页中每个所述第二网页的质量权重值和预设的权重阈值,获得R个第二网页;所述R个第二网页中每个所述第二网页的质量权重值大于所述权重阈值;R为小于或等于K,且大于或等于P的整数;
依据所述R个第二网页中每个所述第二网页的发布时间,按照发布时间距离当前时间由近至远的顺序,对所述R个第二网页排序,以获得排序结果;
获得所述R个第二网页中排序靠前的L个第二网页;L为小于或等于R,且大于或者等于P的整数;
获得所述关键词与所述L个第二网页中每个所述第二网页的相关度;
依据所述相关度和预设的相关度阈值,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页,每个所述第一网页所对应的P个第二网页中每个所述第二网页与所述关键词的相关度大于所述相关度阈值。
上述装置中,所述搜索生成单元,具体用于:
依据预设的每个所述第一网页所对应的P个第二网页中每个所述第二网页的质量权重值、所述关键词与每个所述第一网页所对应的P个第二网页中每个所述第二网页的相关度和每个所述第一网页所对应的P个第二网页中每个所述第二网页的发布时间,获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值;
按照所述结果权重值由大到小的顺序,对每个所述第一网页所对应的P个第二网页排序,以获得排序结果;
依据所述排序结果,获得排序靠前的T个第二网页,所述T为小于或等于P的正整数;
依据所述T个第二网页,或者所述T个第二网页和所述M个第一网页,获得所述搜索结果。
上述装置中,所述搜索生成单元,具体用于:
利用如下公式获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值W(total):
W(total)=a×Wb+b×Wr+c×Wt
其中,Wb为依据所述第二网页的质量权重值获得的第一中间权重值,Wr为依据关键词与所述第二网页的相关度获得的第二中间权重值,Wt为依据所述第二网页的发布时间获得的第三中间权重值,a、b和c为预设的调权因子。
上述装置中,所述搜索生成单元,具体用于:
若所述T个第二网页不包括所述M个第一网页中任意一个第一网页,依据所述T个第二网页和所述M个第一网页,获得所述搜索结果,其中,所述T个第二网页的排序位置高于所述M个第一网页的排序位置;或者,
若所述T个第二网页包括所述M个第一网页中的全部第一网页,依据所述T个第二网页,获得所述搜索结果;或者,
若所述T个第二网页包括M个第一网页中W个第一网页,W为大于或等于1,且小于M的整数,在所述M个第一网页中删除所述W个第一网页,以获得Q个第一网页,Q等于M减去W;依据所述T个第二网页和所述Q个第一网页,获得所述搜索结果;其中,所述T个第二网页的排序位置高于所述Q个第一网页的排序位置。
由以上技术方案可以看出,本发明实施例具有以下有益效果:
本发明实施例中依据关键词对应的第一网页,获得与其中部分第一网页具有相同知识主体,且发布时间距离当前时间最近的第二网页,并依据第二网页或者第二网页和第一网页,获得搜索结果;由于第二网页与对应的第一网页的知识主体相同,因此能够保证第二网页与关键词的相关性,同时,第二网页是发布时间距离当前时间最近的网页,因此,能够保证获得的搜索结果的时效性;与传统技术方案相比,能够实现将时间较近的网页排在搜索结果中靠前的位置,以便于用户能够及时获得时间较近的网页,可以满足用户的搜索需求,提高搜索结果的时效性。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的技术方案使用的系统;
图2是本发明实施例所提供的搜索结果的生成方法的流程示意图;
图3是本发明实施例所提供的S203的具体实现方法的流程示意图;
图4是本发明实施例所提供的依据知识主体获得网页集合的示例图;
图5是本发明实施例所提供的S204的具体实现方法的流程示意图;
图6是本发明实施例所提供的搜索结果的生成装置的功能方块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例所提供的技术方案使用的系统如图1所示,主要由客户端和搜索引擎组成,本发明实施例所提供的方法和装置可以在搜索引擎中实现,主要用于接收客户端发送的关键词,然后向客户端发送该关键词对应的搜索结果,以便于客户端显示搜索结果。本发明实施例对客户端的功能没有进行变更,即客户端接收用户输入的关键词,并向搜索引擎发送该关键词,最后将来自搜索引擎的搜索结果展现给用户。其中,所述客户端可以为浏览器,所述浏览器包括所有用户设备上运行的浏览器,所述用户设备可以包括个人计算机(Personal Computer,PC)、笔记本电脑、手机或平板电脑。
本发明实施例给出一种搜索结果的生成方法,请参考图2,其为本发明实施例所提供的搜索结果的生成方法的流程示意图,如图所示,该方法包括以下步骤:
S201,接收客户端发送的关键词。
具体的,客户端显示关键词的输入框,用户在输入框输入关键词后,客户端可以接收到输入的关键词,并向搜索引擎发送该关键词,搜索引擎接收客户端发送的关键词。
S202,依据所述关键词,获得M个第一网页,M为正整数。
具体的,搜索引擎依据获得的关键词,并利用PageRank算法计算M个第一网页中每个第一网页的网页质量,并依据网页质量对M个第一网页进行排序,然后依据排序后获得的M个第一网页中每个第一网页的点击数据,对M个第一网页的排序进行调整,以获得排序结果。
需要说明的是,传统的搜索方法中,搜索引擎在获得排序后的M个第一网页后,将该M个第一网页作为所述关键词的搜索结果,发送给客户端,完成本次搜索任务,但是,本发明实施例的技术方案需要对该M个第一网页进一步处理,以生成搜索结果,具体参见S203~S204。
S203,依据所述关键词和所述M个第一网页中的前N个第一网页,获得所述前N个第一网页中,每个所述第一网页所对应的P个第二网页;每个所述第一网页所对应的P个第二网页为与该第一网页具有相同知识主体且发布时间距离当前时间最近的网页;N为小于或等于M的正整数,P为大于或等于0的整数。
S204,依据每个所述第一网页所对应的P个第二网页,或者每个所述第一网页所对应的P个第二网页和所述M个第一网页,获得搜索结果。
S205,向所述客户端发送所述搜索结果。
具体的,搜索引擎在获得搜索结果后,向客户端发送该搜索结果,以便于客户端显示收到的搜索结果,以向用户提供关键词对应的搜索结果。
请参见图3,其为本发明实施例所提供的S203的具体实现方法的流程示意图,如图所示,S203的具体实现方法包括以下步骤:
S301,获得所述前N个第一网页中每个所述第一网页所对应的K个第二网页,K为大于或等于P的整数。
具体的,本发明实施例的技术方案中,需要预先在搜索引擎上配置网页集合的标识与网页集合的对应关系、以及网页集合的标识与网页的对应关系。
其中,网页集合指的是由具有相同知识主体的网页组成的集合,知识主体指的是网页陈述的主要实体信息,例如,网页标题为“国庆节放假安排”,则知识主体为“国庆节”和“放假”,知识主体相当于该网页的关键词。
本发明实施例中,生成网页集合的方法是:首先,网页数据库中有海量的网页,可以依据这些网页的标题(Title)或者网页的元信息所包括的关键词(Keywords)信息,获得知识主体;其中,关键词信息是预先配置好的网页信息,其中包括用户依据网页的内容确定的关键词,因此,可以依据关键词信息直接获得知识主体;还可以对网页的标题进行分词处理,以获得至少一个词条,对至少一个词条进行筛选,保留其中属于名词或属性词的至少一个词条,然后计算至少一个词条中每个词条的权重值,依据每个词条的权重值对至少一个词条进行排序,依据排序结果,将权重值最高的至少一个词条作为知识主体;这里,若至少一个词条中存在至少一个词条与关键词信息中的关键词相同,则通过提高相应词条的权重值,来保留这些词条,使得这些词条作为知识主体,这是因为对网页的标题进行分词处理时可能会产生误差,使得词条中与关键词信息中相同的关键词没有被选为知识主体,而关键词信息中的关键词是比较准确的关键词,应该作为知识主体被保留,因此,可以通过提高相应词条的权重值,来保证标题中的词条被选为知识主体。
然后,在获得知识主体后,将具有相同知识主体的网页归为同一个网页集合,从而生成网页集合。网页集合包括具有相同知识主体的网页,这些网页是对应同一知识主体但发布时间不同的网页。例如,请参考图4,其为本发明实施例所提供的依据知识主体获得网页集合的示例图,如图所示,图4中三个网页的标题中都包括知识主体“苏州”、“宽带”和“多少钱”,因此,可以由这三个网页组成一个网页集合,该网页集合中的三个网页具有相同的知识主体“苏州”、“宽带”和“多少钱”,且这三个网页的发布时间不同。
最后,随机为网页集合生成网页集合的标识,如网页集合ID,以获得网页集合的标识与网页集合的对应关系,例如,网页集合的标识与网页集合的对应关系可以为:网页集合ID网页集合(包括网页的URL、网页的质量权重值、网页的发布时间);对于每个网页集合中的每个网页,可以生成该网页与该网页所属网页集合的标识的对应关系,例如,网页与网页集合的标识的对应关系可以为:网页的URL网页集合ID,以便于在获得某网页后,可以很快查询到该网页是否有对应的网页集合。其中,网页集合中还包括每个网页的质量权重值和发布时间;网页的质量权重值可以依据网页的入链数、内容质量、网页内容丰富度和网站的权重值获得。需要说明的是,一个网页只能属于一个网页集合,不能同时属于两个以上网页集合。
由于预先生成网页集合的标识与网页集合的对应关系、以及网页集合的标识与网页的对应关系,因此,搜索引擎在获得M个第一网页后,依据M个第一网页中的前N个第一网页、以及网页集合的标识与网页的对应关系,获得前N个第一网页中每个第一网页所对应的网页集合的标识,然后依据该网页集合的标识、以及网页集合的标识与网页集合的对应关系,获得网页集合,由于第一网页与网页集合有对应关系,因此该第一网页属于对应的网页集合,网页集合包括第一网页和K个第二网页,因此在获得网页集合后,可以获得前N个第一网页中每个第一网页所对应的K个第二网页,K个第二网页与第一网页同属于一个网页集合,因此,K个第二网页为与第一网页就有相同知识主体的网页。
这里,对于依据关键词获得的M个第一网页,可以不依据每个第一网页都获得K个第二网页,而是依据M个第一网页中的前N个第一网页,获得对应的K个第二网页,这样,可以降低搜索引擎的计算量,同时由于M个第一网页中前N个第一网页的网页质量比较高,M个第一网页中后面的第一网页的网页质量较低,因此,获得后面的第一网页的网页集合的意义不大。
S302,依据所述关键词、所述K个第二网页和所述K个第二网页中每个第二网页的发布时间,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页。
具体的,首先,在获得前N个第一网页中每个所述第一网页所对应的K个第二网页后,搜索引擎将前N个第一网页中每个所述第一网页所对应的K个第二网页中每个所述第二网页的质量权重值与预设的权重阈值进行比较,获得质量权重值大于权重阈值的R个第二网页;R为小于或等于K,且大于或等于P的整数。
然后,搜索引擎依据所述R个第二网页中每个所述第二网页的发布时间,按照发布时间距离当前时间由近至远的顺序,对所述R个第二网页排序,以获得排序结果;依据R个第二网页的排序结果,获得所述R个第二网页中排序靠前的L个第二网页;L为小于或等于R,且大于或者等于P的整数。
最后,对于获得的L个第二网页,搜索引擎可以利用相关度算法,计算关键词与所述L个第二网页中每个所述第二网页的相关度;比较所述相关度与预设的相关度阈值的大小,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页,该P个第二网页中,每个第二网页与关键词的相关度都大于预设的相关度阈值。在确定知识主体的过程中,由于对网页的标题或内容提取关键词,可能会丢失一些附属信息,因此,这里再次校验第二网页与关键词的相关度,可以最大程度保证搜索结果的质量。
对于每个网页集合,搜索引擎都执行S301和S302的处理过程,这样,依据M个第一网页中的前N个第一网页和关键词,可以获得前N个第一网页中每个第一网页所对应的P个第二网页;由于S302中按照发布时间距离当前时间由近至远的顺序对第二网页进行排序,并提取其中排序靠前的第二网页,因此P个第二网页就是与第一网页具有相同知识主体且发布时间距离当前时间最近的网页。
请参见图5,其为本发明实施例所提供的S204的具体实现方法的流程示意图,如图所示,S204的具体实现方法包括以下步骤:
S501,依据预设的每个所述第一网页所对应的P个第二网页中每个所述第二网页的质量权重值、所述关键词与每个所述第一网页所对应的P个第二网页中每个所述第二网页的相关度和每个所述第一网页所对应的P个第二网页中每个所述第二网页的发布时间,获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值。
具体的,搜索引擎可以依据预设的每个所述第一网页所对应的P个第二网页中每个所述第二网页的质量权重值、所述关键词与每个所述第一网页所对应的P个第二网页中每个所述第二网页的相关度和每个所述第一网页所对应的P个第二网页中每个所述第二网页的发布时间,并利用如下公式,获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值W(total):
W(total)=a×Wb+b×Wr+c×Wt
其中,Wb为依据第二网页的质量权重值获得的第一中间权重值,Wr为依据关键词与所述第二网页的相关度获得的第二中间权重值,Wt为依据所述第二网页的发布时间获得的第三中间权重值,a、b和c为调权因子;结果权重值W(total)<100。
例如,第一中间权重值Wb=currentBasicWeight/MaxBasicWeight×100,其中,currentBasicWeight为第二网页的质量权重值,MaxBasicWeight为预设的最大质量权重值,currentBasicWeight的取值范围是[0,MaxBasicWeight]。
例如,第二中间权重值Wr=currentRelateWeight×100,其中,currentRelateWeight为关键词与所述第二网页的相关度,currentRelateWeight的取值范围是[0,1]。
例如,第三中间权重值Wt=100-ΔT,其中,ΔT等于当前时间与第二网页的发布时间之间间隔的天数。
其中,所述a+b+c=1。
S502,按照所述结果权重值由大到小的顺序,对每个所述第一网页所对应的P个第二网页排序,以获得排序结果。
具体的,在获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值后,搜索引擎按照结果权重值由大到小的顺序,对每个所述第一网页所对应的P个第二网页排序,以获得所有第二网页的排序结果。
S503,依据所述排序结果,获得排序靠前的T个第二网页,所述T为小于或等于P的正整数。
具体的,搜索引擎依据排序结果,在获得的所有第二网页中获得排序靠前的T个第二网页,T为小于或等于P的正整数。
S504,依据所述T个第二网页,或者所述T个第二网页和所述M个第一网页,获得所述搜索结果。
具体的,搜索引擎依据获得的T个第二网页,判断T个第二网页与M个第一网页是否存在相同的网页。
若所述T个第二网页不包括所述M个第一网页中任意一个第一网页,则搜索引擎依据所述T个第二网页和所述M个第一网页,获得所述搜索结果,其中,所述T个第二网页的排序位置高于所述M个第一网页的排序位置。也就是说,当T个第二网页与M个第一网页之间不存在相同的网页时,搜索引擎获得的搜索结果包括T个网页和M个第一网页,为了提高利用传统方法获得的搜索结果的时效性,可以在搜索结果中,将T个网页放在M个第一网页的前面,用以优先显示T个网页。
若所述T个第二网页包括所述M个第一网页中的全部第一网页,依据所述T个第二网页,获得所述搜索结果;也就是说,M个第一网页全部位于T个第二网页中,则需要删除相同的网页,因此,这里将M个第一网页全部删除,仅依据T个第二网页获得搜索结果,搜索结果中只包括T个第二网页。例如,依据关键词获得1个第一网页,依据第一网页获得10个第二网页,第二网页中包括该第一网页,在删除该1个第一网页,直接依据10个第二网页获得搜索结果。
若所述T个第二网页包括M个第一网页中W个第一网页,W大于或等于1且小于M,且W为整数,在所述M个第一网页中删除所述W个第一网页,以获得Q个第一网页,Q等于M减去W;依据所述T个第二网页和所述Q个第一网页,获得所述搜索结果;其中,所述T个第二网页的排序位置高于所述Q个第一网页的排序位置。也就是说,当T个第二网页与M个第一网页存在部分相同的网页时,需要在M个第一网页中删除与T个第二网页相同的部分网页,从而获得Q个第一网页,搜索引擎获得的搜索结果包括T个网页和Q个第一网页,为了提高利用传统方法获得的搜索结果的时效性,可以在搜索结果中,将T个网页放在Q个第一网页的前面,用以优先显示T个网页。
本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
请参考图6,其为本发明实施例所提供的搜索结果的生成装置的功能方块图,该搜索结果的生成装置通常为图1所示的搜索引擎。如图6所示,该装置包括:接收单元60、第一处理单元61、第二处理单元62、搜索生成单元63和发送单元64。
接收单元60用于接收客户端发送的关键词。
第一处理单元61用于依据所述关键词,获得M个第一网页,M为正整数。
第二处理单元62用于依据所述关键词和所述M个第一网页中的前N个第一网页,获得所述前N个第一网页中,每个所述第一网页所对应的P个第二网页;每个所述第一网页所对应的P个第二网页为与该第一网页具有相同知识主体且发布时间距离当前时间最近的网页;N为小于或等于M的正整数,P为大于或等于0的整数。
具体的,所述第二处理单元62可以获得所述前N个第一网页中,每个所述第一网页所对应的K个第二网页,K为大于或等于P的整数;依据所述关键词、所述K个第二网页和所述K个第二网页中每个第二网页的发布时间,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页。
其中,所述第二处理单元62依据所述关键词、所述K个第二网页和所述K个第二网页中每个第二网页的发布时间,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页具体为:
依据预设的所述K个第二网页中每个所述第二网页的质量权重值和预设的权重阈值,获得R个第二网页;所述R个第二网页中每个所述第二网页的质量权重值大于所述权重阈值;R为小于或等于K,且大于或等于P的整数;
依据所述R个第二网页中每个所述第二网页的发布时间,按照发布时间距离当前时间由近至远的顺序,对所述R个第二网页排序,以获得排序结果;
获得所述R个第二网页中排序靠前的L个第二网页;L为小于或等于R,且大于或者等于P的整数;
获得所述关键词与所述L个第二网页中每个所述第二网页的相关度;
依据所述相关度和预设的相关度阈值,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页,每个所述第一网页所对应的P个第二网页中每个所述第二网页与所述关键词的相关度大于所述相关度阈值。
搜索生成单元63用于依据每个所述第一网页所对应的P个第二网页,或者每个所述第一网页所对应的P个第二网页和所述M个第一网页,获得搜索结果。
具体的,所述搜索生成单元63可以依据预设的每个所述第一网页所对应的P个第二网页中每个所述第二网页的质量权重值、所述关键词与每个所述第一网页所对应的P个第二网页中每个所述第二网页的相关度和每个所述第一网页所对应的P个第二网页中每个所述第二网页的发布时间,获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值;按照所述结果权重值由大到小的顺序,对每个所述第一网页所对应的P个第二网页排序,以获得排序结果;依据所述排序结果,获得排序靠前的T个第二网页,所述T为小于或等于P的正整数;依据所述T个第二网页,或者所述T个第二网页和所述M个第一网页,获得所述搜索结果。
其中,所述搜索生成单元63获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值具体为:
利用如下公式获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值W(total):
W(total)=a×Wb+b×Wr+c×Wt
其中,Wb为依据所述第二网页的质量权重值获得的第一中间权重值,Wr为依据关键词与所述第二网页的相关度获得的第二中间权重值,Wt为依据所述第二网页的发布时间获得的第三中间权重值,a、b和c为预设的调权因子。
其中,所述搜索生成单元63可以依据所述T个第二网页,或者所述T个第二网页和所述M个第一网页,获得所述搜索结果具体为:
若所述T个第二网页不包括所述M个第一网页中任意一个第一网页,依据所述T个第二网页和所述M个第一网页,获得所述搜索结果,其中,所述T个第二网页的排序位置高于所述M个第一网页的排序位置;或者,
若所述T个第二网页包括所述M个第一网页中的全部第一网页,依据所述T个第二网页,获得所述搜索结果;或者,
若所述T个第二网页包括M个第一网页中W个第一网页,W为大于或等于1,且小于M的整数,在所述M个第一网页中删除所述W个第一网页,以获得Q个第一网页,Q等于M减去W;依据所述T个第二网页和所述Q个第一网页,获得所述搜索结果;其中,所述T个第二网页的排序位置高于所述Q个第一网页的排序位置。
发送单元64用于向所述客户端发送所述搜索结果。
由于本实施例中的生成装置能够执行图2所示的方法,本实施例未详细描述的部分,可参考对图2的相关说明。
由以上描述可以看出,本发明实施例所提供的方法和装置具备以下优点:
本发明实施例所提供的技术方案中,依据关键词对应的第一网页,获得与其中部分第一网页具有相同知识主体,且发布时间距离当前时间最近的第二网页,并依据第二网页或者第二网页和第一网页,获得搜索结果;由于第二网页与对应的第一网页的知识主体相同,因此能够保证第二网页与关键词的相关性,同时,第二网页是发布时间距离当前时间最近的网页,因此,能够保证获得的搜索结果的时效性;与传统技术方案中,仅依据点击次数和入链数获得搜索结果的方法相比,能够实现将时间较近的网页排在搜索结果中靠前的位置,以便于用户能够及时获得时间较近的网页,可以满足用户的搜索需求,用以解决传统技术方案中,由于网页的入链数较少或点击次数较少,在搜索结果中排序较低或不会出现在搜索结果中的问题,因此,本发明实施例所提供的技术方案能够提高搜索结果的时效性,从而提高搜索引擎质量,提升用户体验。
在本发明所提供的技术方案中,应该理解到,所披露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分不到多个网络单元上,可以依据实际的需求选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)或处理器执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:通用串行总线(Universal Serial Bus,USB)闪存驱动器、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁盘或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (12)
1.一种搜索结果的生成方法,其特征在于,所述方法包括:
接收客户端发送的关键词;
依据所述关键词,获得M个第一网页,M为正整数;
依据所述关键词和所述M个第一网页中的前N个第一网页,获得所述前N个第一网页中,每个所述第一网页所对应的P个第二网页;每个所述第一网页所对应的P个第二网页为与该第一网页具有相同知识主体且发布时间距离当前时间最近的网页;N为小于或等于M的正整数,P为大于或等于0的整数;
依据每个所述第一网页所对应的P个第二网页,或者每个所述第一网页所对应的P个第二网页和所述M个第一网页,获得搜索结果;
向所述客户端发送所述搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述依据所述关键词和所述M个第一网页中的前N个第一网页,获得所述前N个第一网页中,每个所述第一网页所对应的P个第二网页,包括:
获得所述前N个第一网页中每个所述第一网页所对应的K个第二网页,K为大于或等于P的整数;
依据所述关键词、所述K个第二网页和所述K个第二网页中每个第二网页的发布时间,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页。
3.根据权利要求2所述的方法,其特征在于,所述依据所述关键词、所述K个第二网页和所述K个第二网页中每个第二网页的发布时间,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页,包括:
依据预设的所述K个第二网页中每个所述第二网页的质量权重值和预设的权重阈值,获得R个第二网页;所述R个第二网页中每个所述第二网页的质量权重值大于所述权重阈值;R为小于或等于K,且大于或等于P的整数;
依据所述R个第二网页中每个所述第二网页的发布时间,按照发布时间距离当前时间由近至远的顺序,对所述R个第二网页排序,以获得排序结果;
获得所述R个第二网页中排序靠前的L个第二网页;L为小于或等于R,且大于或者等于P的整数;
获得所述关键词与所述L个第二网页中每个所述第二网页的相关度;
依据所述相关度和预设的相关度阈值,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页,每个所述第一网页所对应的P个第二网页中每个所述第二网页与所述关键词的相关度大于所述相关度阈值。
4.根据权利要求1所述的方法,其特征在于,所述依据每个所述第一网页所对应的P个第二网页,或者每个所述第一网页所对应的P个第二网页和所述M个第一网页,包括:
依据预设的每个所述第一网页所对应的P个第二网页中每个所述第二网页的质量权重值、所述关键词与每个所述第一网页所对应的P个第二网页中每个所述第二网页的相关度和每个所述第一网页所对应的P个第二网页中每个所述第二网页的发布时间,获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值;
按照所述结果权重值由大到小的顺序,对每个所述第一网页所对应的P个第二网页排序,以获得排序结果;
依据所述排序结果,获得排序靠前的T个第二网页,所述T为小于或等于P的正整数;
依据所述T个第二网页,或者所述T个第二网页和所述M个第一网页,获得所述搜索结果。
5.根据权利要求4所述的方法,其特征在于,所述获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值,包括:
利用如下公式获得每个所述第一网页所对应的P个第二网页中每个所述第 二网页的结果权重值W(total):
W(total)=a×Wb+b×Wr+c×Wt
其中,Wb为依据所述第二网页的质量权重值获得的第一中间权重值,Wr为依据关键词与所述第二网页的相关度获得的第二中间权重值,Wt为依据所述第二网页的发布时间获得的第三中间权重值,a、b和c为预设的调权因子。
6.根据权利要求4或5所述的方法,其特征在于,所述依据所述T个第二网页,或者所述T个第二网页和所述M个第一网页,获得所述搜索结果,包括:
若所述T个第二网页不包括所述M个第一网页中任意一个第一网页,依据所述T个第二网页和所述M个第一网页,获得所述搜索结果,其中,所述T个第二网页的排序位置高于所述M个第一网页的排序位置;或者,
若所述T个第二网页包括所述M个第一网页中的全部第一网页,依据所述T个第二网页,获得所述搜索结果;或者,
若所述T个第二网页包括M个第一网页中W个第一网页,W为大于或等于1,且小于M的整数,在所述M个第一网页中删除所述W个第一网页,以获得Q个第一网页,Q等于M减去W;依据所述T个第二网页和所述Q个第一网页,获得所述搜索结果;其中,所述T个第二网页的排序位置高于所述Q个第一网页的排序位置。
7.一种搜索结果的生成装置,其特征在于,所述装置包括:
接收单元,用于接收客户端发送的关键词;
第一处理单元,用于依据所述关键词,获得M个第一网页,M为正整数;
第二处理单元,用于依据所述关键词和所述M个第一网页中的前N个第一网页,获得所述前N个第一网页中,每个所述第一网页所对应的P个第二网页;每个所述第一网页所对应的P个第二网页为与该第一网页具有相同知识主体且发布时间距离当前时间最近的网页;N为小于或等于M的正整数,P为大于或等于0的整数;
搜索生成单元,用于依据每个所述第一网页所对应的P个第二网页,或者每个所述第一网页所对应的P个第二网页和所述M个第一网页,获得搜索结果;
发送单元,用于向所述客户端发送所述搜索结果。
8.根据权利要求7所述的装置,其特征在于,所述第二处理单元,具体用于:
获得所述前N个第一网页中每个所述第一网页所对应的K个第二网页,K为大于或等于P的整数;
依据所述关键词、所述K个第二网页和所述K个第二网页中每个第二网页的发布时间,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页。
9.根据权利要求8所述的装置,其特征在于,所述第二处理单元,具体用于:
依据预设的所述K个第二网页中每个所述第二网页的质量权重值和预设的权重阈值,获得R个第二网页;所述R个第二网页中每个所述第二网页的质量权重值大于所述权重阈值;R为小于或等于K,且大于或等于P的整数;
依据所述R个第二网页中每个所述第二网页的发布时间,按照发布时间距离当前时间由近至远的顺序,对所述R个第二网页排序,以获得排序结果;
获得所述R个第二网页中排序靠前的L个第二网页;L为小于或等于R,且大于或者等于P的整数;
获得所述关键词与所述L个第二网页中每个所述第二网页的相关度;
依据所述相关度和预设的相关度阈值,获得所述前N个第一网页中每个所述第一网页所对应的P个第二网页,每个所述第一网页所对应的P个第二网页中每个所述第二网页与所述关键词的相关度大于所述相关度阈值。
10.根据权利要求7所述的装置,其特征在于,所述搜索生成单元,具体用于:
依据预设的每个所述第一网页所对应的P个第二网页中每个所述第二网页的质量权重值、所述关键词与每个所述第一网页所对应的P个第二网页中每个所述第二网页的相关度和每个所述第一网页所对应的P个第二网页中每个所述第二网页的发布时间,获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值;
按照所述结果权重值由大到小的顺序,对每个所述第一网页所对应的P个第二网页排序,以获得排序结果;
依据所述排序结果,获得排序靠前的T个第二网页,所述T为小于或等于P的正整数;
依据所述T个第二网页,或者所述T个第二网页和所述M个第一网页,获得所述搜索结果。
11.根据权利要求10所述的装置,其特征在于,所述搜索生成单元,具体用于:
利用如下公式获得每个所述第一网页所对应的P个第二网页中每个所述第二网页的结果权重值W(total):
W(total)=a×Wb+b×Wr+c×Wt
其中,Wb为依据所述第二网页的质量权重值获得的第一中间权重值,Wr为依据关键词与所述第二网页的相关度获得的第二中间权重值,Wt为依据所述第二网页的发布时间获得的第三中间权重值,a、b和c为预设的调权因子。
12.根据权利要求10或11所述的装置,其特征在于,所述搜索生成单元,具体用于:
若所述T个第二网页不包括所述M个第一网页中任意一个第一网页,依据所述T个第二网页和所述M个第一网页,获得所述搜索结果,其中,所述T个第二网页的排序位置高于所述M个第一网页的排序位置;或者,
若所述T个第二网页包括所述M个第一网页中的全部第一网页,依据所述T 个第二网页,获得所述搜索结果;或者,
若所述T个第二网页包括M个第一网页中W个第一网页,W为大于或等于1,且小于M的整数,在所述M个第一网页中删除所述W个第一网页,以获得Q个第一网页,Q等于M减去W;依据所述T个第二网页和所述Q个第一网页,获得所述搜索结果;其中,所述T个第二网页的排序位置高于所述Q个第一网页的排序位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410114576.0A CN103902687B (zh) | 2014-03-25 | 2014-03-25 | 一种搜索结果的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410114576.0A CN103902687B (zh) | 2014-03-25 | 2014-03-25 | 一种搜索结果的生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103902687A CN103902687A (zh) | 2014-07-02 |
CN103902687B true CN103902687B (zh) | 2017-07-04 |
Family
ID=50994009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410114576.0A Active CN103902687B (zh) | 2014-03-25 | 2014-03-25 | 一种搜索结果的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103902687B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679820A (zh) * | 2014-12-29 | 2015-06-03 | 厦门欣欣信息有限公司 | 一种搜索结果排序方法及装置 |
CN109213922B (zh) * | 2017-06-30 | 2020-07-10 | 武汉斗鱼网络科技有限公司 | 一种对搜索结果排序的方法和装置 |
CN111125322B (zh) * | 2019-11-19 | 2021-02-12 | 北京金堤科技有限公司 | 信息搜索方法和装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350032A (zh) * | 2008-09-23 | 2009-01-21 | 胡辉 | 判断网页内容是否相同的方法 |
CN101499098A (zh) * | 2009-03-04 | 2009-08-05 | 阿里巴巴集团控股有限公司 | 一种网页评估值的确定及运用的方法、系统 |
CN102236655A (zh) * | 2010-04-26 | 2011-11-09 | 北京大学 | 一种Web新网页推荐方法 |
-
2014
- 2014-03-25 CN CN201410114576.0A patent/CN103902687B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350032A (zh) * | 2008-09-23 | 2009-01-21 | 胡辉 | 判断网页内容是否相同的方法 |
CN101499098A (zh) * | 2009-03-04 | 2009-08-05 | 阿里巴巴集团控股有限公司 | 一种网页评估值的确定及运用的方法、系统 |
CN102236655A (zh) * | 2010-04-26 | 2011-11-09 | 北京大学 | 一种Web新网页推荐方法 |
Non-Patent Citations (1)
Title |
---|
基于链接分析的PageRank排序算法的改进研究;刘先明;《中国优秀硕士学位论文全文数据库信息科技辑》;20120315(第3期);第I138-2724页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103902687A (zh) | 2014-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7519588B2 (en) | Keyword characterization and application | |
US7664744B2 (en) | Query categorizer | |
CN102043833B (zh) | 一种基于查询词进行搜索的方法和搜索装置 | |
US7930286B2 (en) | Federated searches implemented across multiple search engines | |
CN103870461B (zh) | 主题推荐方法、装置和服务器 | |
CN104077415B (zh) | 搜索方法及装置 | |
CN102663064B (zh) | 一种收藏夹数据的处理方法及装置 | |
US20160171052A1 (en) | Method and system for document indexing and data querying | |
CN102163234A (zh) | 一种基于纠错相关度对查询序列进行纠错的设备和方法 | |
CN102402619A (zh) | 一种搜索方法和装置 | |
CN102184185A (zh) | 一种用于多媒体资源搜索的方法与设备 | |
CN101727447A (zh) | 基于url的正则表达式的生成方法和装置 | |
CN106021418B (zh) | 新闻事件的聚类方法及装置 | |
CN103631794A (zh) | 一种用于对搜索结果进行排序的方法、装置与设备 | |
CN103186666B (zh) | 基于收藏进行搜索的方法、装置与设备 | |
CN103377240B (zh) | 信息提供方法、处理服务器及合并服务器 | |
US11249993B2 (en) | Answer facts from structured content | |
CN105302876A (zh) | 基于正则表达式的url过滤方法 | |
CN104834736A (zh) | 构建索引库的方法、装置及检索的方法、装置和系统 | |
CN106777143A (zh) | 一种新闻聚合方法及新闻聚合服务器 | |
CN104503988A (zh) | 搜索方法及装置 | |
CN105574030A (zh) | 一种信息搜索方法及装置 | |
WO2016137690A1 (en) | Efficient retrieval of fresh internet content | |
CN104281619A (zh) | 搜索结果排序系统及方法 | |
CN103902687B (zh) | 一种搜索结果的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |