CN103631794B - 一种用于对搜索结果进行排序的方法、装置与设备 - Google Patents

一种用于对搜索结果进行排序的方法、装置与设备 Download PDF

Info

Publication number
CN103631794B
CN103631794B CN201210301231.7A CN201210301231A CN103631794B CN 103631794 B CN103631794 B CN 103631794B CN 201210301231 A CN201210301231 A CN 201210301231A CN 103631794 B CN103631794 B CN 103631794B
Authority
CN
China
Prior art keywords
page
search result
class
sequence
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210301231.7A
Other languages
English (en)
Other versions
CN103631794A (zh
Inventor
林冠辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210301231.7A priority Critical patent/CN103631794B/zh
Priority to PCT/CN2012/085464 priority patent/WO2014029173A1/zh
Priority to US14/412,372 priority patent/US20150234827A1/en
Publication of CN103631794A publication Critical patent/CN103631794A/zh
Application granted granted Critical
Publication of CN103631794B publication Critical patent/CN103631794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Abstract

本发明的目的是提供一种用于对搜索结果进行排序的方法、装置与设备。其中网络设备根据来自移动终端的查询序列进行匹配查询,获取与所述查询序列相匹配的多个搜索结果以及所述查询序列与所述多个搜索结果的相关度信息;确定所述多个搜索结果中至少一个搜索结果,其中,所述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二类页面;根据所述至少一个搜索结果中每个搜索结果指向的第二类页面的特征度,来确定所述至少一个搜索结果分别对应的排序调整信息;根据所述查询序列与所述多个搜索结果的相关度信息以及所述至少一个搜索结果分别对应的排序调整信息,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果。

Description

一种用于对搜索结果进行排序的方法、装置与设备
技术领域
本发明涉及搜索结果排序技术领域,尤其涉及一种用于对搜索结果进行排序的方法、装置与设备。
背景技术
当今,移动互联网在人们的生活中扮演越来越重要的角色,人们可随时随地通过移动终端在互联网中进行信息搜索。现有技术中,移动终端一般根据用户输入的查询序列,向用户呈现搜索引擎基于查询序列获得并排序后提供给移动终端的多个搜索结果项。
然而,用户无法知晓大量的搜索结果项中哪些搜索结果项对应的搜索结果页面能够以较优的展现效果在移动终端上呈现、用户通过浏览该搜索结果页面是否能够得到较好浏览体验,故其需要通过点击每一搜索结果中的页面链接进入搜索结果页面,分别浏览每一搜索结果网页以进行判断,因此,用户在此过程中操作繁琐,影响用户浏览体验;同时,由于访问了相当数量的不适于在移动终端屏幕中展示的搜索结果页面,不仅降低了用户信息获取效率,也带来了很多不必要的通信流量。
发明内容
本发明的目的是提供一种用于对搜索结果进行排序的方法、装置与设备。
根据本发明的一个方面,提供了一种用于对搜索结果进行排序的方法,该方法包括以下步骤:
a根据来自移动终端的查询序列进行匹配查询,获取与所述查询序列相匹配的多个搜索结果以及所述查询序列与所述多个搜索结果的相关度信息;
其中,该方法还包括:
w确定所述多个搜索结果中至少一个搜索结果,其中,所述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二类页面,其中第二类页面为适于在移动终端上显示的页面;
x根据所述至少一个搜索结果中每个搜索结果指向的第二类页面的特征度,来确定所述至少一个搜索结果分别对应的排序调整信息;
y根据所述查询序列与所述多个搜索结果的相关度信息以及所述至少一个搜索结果分别对应的排序调整信息,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果。
根据本发明的另一方面,还提供了一种用于对搜索结果进行排序的排序装置,该排序装置包括:
搜索结果获取装置,用于根据来自移动终端的查询序列进行匹配查询,获取与所述查询序列相匹配的多个搜索结果以及所述查询序列与所述多个搜索结果的相关度信息;
其中,该排序装置还包括:
搜索结果确定装置,用于确定所述多个搜索结果中至少一个搜索结果,其中,所述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二类页面,其中第二类页面为适于在移动终端上显示的页面;
调整信息确定装置,用于根据所述至少一个搜索结果中每个搜索结果指向的第二类页面的特征度,来确定所述至少一个搜索结果分别对应的排序调整信息;
第一排序装置,用于根据所述查询序列与所述多个搜索结果的相关度信息以及所述至少一个搜索结果分别对应的排序调整信息,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果。
与现有技术相比,本发明具有以下优点:通过根据每个搜索结果与查询序列的相关度信息及具有页面对应关系的至少一个搜索结果分别对应的排序调整信息,对该多个搜索结果进行排序处理,以使得多个搜索结果的排序方式不仅与用户输入的查询序列的匹配程度相关,而且该排序方式也与搜索结果页面是否适于在移动终端上呈现相关联,实现了将适于在移动终端上呈现的具有较高页面质量的第二类页面对应的搜索结果以及适于在移动终端上呈现的具有较高页面相似度信息的第二类页面与第一类页面的对应的搜索结果能够排于搜索结果页的较高位置,用户可在其最易获取信息的视觉区域内点击排序较高的几个搜索结果,就可获取适于其在移动终端浏览的搜索结果网页,从而提高用户浏览体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于对搜索结果进行排序的排序装置的结构示意图;
图2示出根据本发明一个优选实施例的确定所述每个搜索结果指向的第一类页面与第二类页面的页面相似度信息的排序装置的结构示意图;
图3示出根据本发明另一个方面的用于对搜索结果进行排序的方法流程图;
图4示出根据本发明一个优选实施例的确定所述每个搜索结果指向的第一类页面与第二类页面的页面相似度信息的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于对搜索结果进行排序的排序装置的结构示意图。本实施例的排序装置包含于网络设备中;该排序装置包括搜索结果获取装置1、搜索结果确定装置2、调整信息确定装置3和第一排序装置4。
所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
首先,搜索结果获取装置1根据来自移动终端的查询序列进行匹配查询,获取与所述查询序列相匹配的多个搜索结果以及所述查询序列与所述多个搜索结果的相关度信息。
其中,所述移动终端包括但不限于任何可适用于本发明的能够通过键盘、触摸屏等与用户进行交互的移动式电子产品,诸如手机、PDA、掌上电脑(PPC)、游戏机(PSP)等。在此,所述网络设备和移动终端均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件可包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
本领域技术人员应能理解上述移动终端以及网络设备仅为举例,其他现有的或今后可能出现的移动终端以及网络设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,所述移动终端与所述网络设备之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。所述移动终端与所述网络设备之间连接的网络包括但不限于:互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。
具体地,搜索结果获取装置1根据来自移动终端的用户输入的查询序列进行匹配查询,并基于接收到的查询序列进行搜索。一般地,搜索过程如下:查询序列中包含一个或多个关键词,优选地,还包括关键词之间的关联词,搜索结果获取装置1将提取这些关键词,优选地,还提取关联词,并在网络索引库中根据所述关键词、或关键词与关联词进行匹配查询从而获得多个搜索结果,其中每个搜索结果与该查询序列的相关度信息可根据各种搜索算法确定,例如根据传统的点击率算法确定该相关度信息、根据Google的“PageRank”搜索算法(参见美国专利US6285699,“Method for node ranking in a linked database”)确定该相关度信息、根据百度的“超链”搜索算法确定该相关度信息,搜索结果获取装置1基于上述搜索算法来获得每个搜索结果与该查询序列的相关度信息。其中,所述相关度信息指通过“PageRank”、“超链”等基本搜索算法确定的搜索结果与查询序列的匹配程度分值。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据来自移动终端的查询序列进行匹配查询,来获取与所述查询序列相匹配的多个搜索结果及每个搜索结果与所述查询序列的相关度信息的实现方式,均应包含在本发明的范围内。
搜索结果确定装置2确定已获取的多个搜索结果中至少一个搜索结果,其中,所述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二类页面,其中第二类页面为适于在移动终端上显示的页面。
其中,所述第一类页面意指适于在计算机设备上显示的页面,例如,WEB页面,也即在万维网上的基于HTML、XML、XHTML等标识语言的文件,当用户通过万维网进行信息查询时,以信息页面的形式出现,可包括图形、文字、声音和视像等信息。
其中,所述第二类页面意指适于在移动终端上显示的页面,例如,WAP页面,也即基于无线标识语言(WML)的文件,可由移动终端基于可基于无线应用协议(WAP)访问WAP网站,该文件适于在屏幕较小的移动终端上显示。
其中,搜索结果确定装置2所述确定多个搜索结果中至少一个搜索结果方式包括但不限于:
-根据每个搜索结果的链接信息,在页面对应列表中进行匹配查询,来确定多个搜索结果中至少一个搜索结果,其中,所述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二类页面。
在一示例中,搜索结果确定装置2将每个搜索结果的链接信息在预定的页面对应列表中进行匹配查询,来确定每个搜索结果是否指向具有页面对应关系的第一类页面与第二类页面;其中,所述页面对应列表中包括指向具有页面对应关系的第一类页面与第二类页面的多个搜索结果链接信息;优选地,所述多个搜索结果是否指向具有页面对应关系的第一类页面与第二类页面可通过网络设备预先对海量互联网中的页面进行挖掘来确定。
优选地,搜索结果确定装置2包括标签提取装置(图未示),标签提取装置通过提取所述多个搜索结果分别对应的第一类页面的标记语言文件中的预定标签,来确定所述多个搜索结果中的具有页面对应关系的至少一个搜索结果。
具体地,标签提取装置提取多个搜索结果分别对应的第一类页面的标记语言文件中的预定标签;接着,通过读取预定标签中的预定属性信息来确定多个搜索结果中的具有页面对应关系的至少一个搜索结果。
其中,所述标记语言文件包括但不限于:1)HTML(超文本标记语言)文件;2)XML(可扩展标记语言)文件;3)XHTML(可扩展超文本标记语言)文件;4)XAML(可扩展应用程序标记语言)文件等。
在一示例中,一个搜索结果对应的第一类页面,如WEB页面的HTML文件为:
<head>
<meta name=″mobile-agent″content=″format=html5;url=http://3g.abc.com.cn/″>
……
</head>;
标签提取装置提取该HTML文件的预定的<meta>标签,接着读取该<meta>标签中的content的属性值为“format=html5;url=http://3g.abc.com.cn/”,来确定该搜索结果对应的WAP页面的对应的链接信息为“http://3g.abc.com.cn/”且该WAP页面的标记语言文件为HTML5,即确定该搜索结果为具有页面对应关系的搜索结果。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何通过提取所述多个搜索结果分别对应的第一类页面的标记语言文件中的预定标签,来确定所述多个搜索结果中的具有页面对应关系的至少一个搜索结果的实现方式,均应包含在本发明的范围内。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何确定多个搜索结果中至少一个搜索结果的实现方式,均应包含在本发明的范围内,其中,所述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二类页面,其中第二类页面为适于在移动终端上显示的页面。
接着,调整信息确定装置3根据已确定的至少一个搜索结果中每个搜索结果指向的第二类页面的特征度,来确定所述至少一个搜索结果分别对应的排序调整信息。
其中,所述第二类页面的特征度包括以下至少任一项:
1)每个搜索结果指向的第二类页面的页面质量;
2)每个搜索结果指向的第二类页面与第一类页面的页面相似度信息。
本领域技术人员应能理解上述第二类页面的特征度仅为举例,其他现有的或今后可能出现的第二类页面的特征度如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
具体地,调整信息确定装置3确定每个搜索结果的排序调整信息的方式包括但不限于:
1)首先,从预置的特征度数据库中获取预存的每个搜索结果指向的第二类页面的页面质量及该搜索结果指向的第二类页面与第一类页面的页面相似度信息;接着,根据该页面质量和页面相似度信息,通过简单加和或加权计算等方式,确定该搜索结果的排序调整信息;其中,所述调整信息库包括但不限于关系数据库、Key-Value存储系统或文件系统等。
在一示例中,至少一个搜索结果为A1、A2,调整信息确定装置3根据A1及A2的链接信息,在预置的特征度数据库中进行匹配查询,以获取预存的A1及A2分别指向的WAP页面的页面质量的分值为QA1及QA2,且A1及A2分别指向的WAP页面与WEB页面的页面相似度信息的分值为SA1及SA2
2)首先,提取所述至少一个搜索结果中每个搜索结果指向的第一类页面与第二类页面的主要页面内容块;接着,对每个搜索结果的第一类页面与第二类页面的主要页面内容块进行文本相似度计算,以确定所述每个搜索结果指向的第一类页面与第二类页面的页面相似度信息;该方式将在图2所示的实施例中给予详述。
其中,根据以下至少任一项来确定所述至少一个搜索结果分别指向的第二类页面的页面质量:
a第二类页面的页面丰富度;
b第二类页面的标题信息与第二类页面的内容信息的相关性信息。
本领域技术人员应能理解上述确定至少一个搜索结果分别指向的第二类页面的页面质量的方式仅为举例,其他现有的或今后可能出现的确定至少一个搜索结果分别指向的第二类页面的页面质量的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
具体地,确定第二类页面的页面丰富度的方式包括但不限于:
1)提取搜索结果指向的第二类页面的标记语言文件中的页面内容块,例如正文内容块,并对正文内容块中的文本信息长度进行计算,根据正文内容块中的文本信息的字符数,基于第一预定丰富度规则,确定该第二类页面的页面丰富度;例如,第二类页面中正文内容块中的文本信息的字符数越多,该第二类页面的页面丰富度越高;
其中,所述的标记语言文件中的页面内容块包括该的标记语言文件中的由一个或多个标签标识的内容区域,其与页面中显示的特定内容相对应,例如,与标题、图片、正文内容等相对应。
2)提取第二类页面的标记语言文件中的页面内容块,根据页面内容块的类型数量,基于第二预定丰富度规则,确定该第二类页面的页面丰富度;例如,第二类页面中包括的页面内容块的类型数越多,如正文内容块、标题内容块、图片内容块、留言内容块等,其页面丰富度越高。
在一示例中,页面内容块标识信息存储于搜索结果A1指向的WAP页面的标记语言文件XHTML文件的标签属性中,如段落标签<p>的标签属性中,排序装置通过对该XHTML文件进行解析,在该XHTML文件中确定用于标注正文内容块的段落标签属性<p tc_type=“TEXT”>,则对该段落标签<p tc_type=“TEXT”>与</p>之间的XHTML文件部分进行提取,以获取该页面的正文内容块,接着对正文内容块中的文本信息的字符数进行计算,以获取文本信息的字符数为100个字符,基于第一预定丰富度规则示出的当正文内容块中的文本信息的字符数大于100个字符时,对该WAP页面的页面丰富度的分值加1;同时,排序装置通过对该XHTML文件进行解析,确定A1指向的WAP页面中包括4种类型的页面内容块,分别为正文内容块、标题内容块、目录内容块和图片内容块,基于第二预定丰富度规则示出的当第二类页面中包括4种类型以上的页面内容块时,对该第二类页面的页面丰富度的分值加1,即A1指向的WAP页面的页面丰富度的分值rA1为2。
具体地,确定第二类页面的标题信息与第二类页面的内容信息的相关性信息的方式包括但不限于:
-根据第二类页面的标题信息以及第二类页面的内容信息,通过TF-IDF算法,来确定该两者的相关性信息;其中,TF-IDF是一种统计方法,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。
在一示例中,排序装置对搜索结果A1指向的WAP页面的标题信息“鲜花快递”进行分词处理,以获取两个分词片段为p1“鲜花”及p2“快递”;接着,在预置的语料库中进行查询,以确定该两个分词片段在该预置的语料库中的出现频次TP为100次和200次,并将该出现频次的倒数作为每个分词片段的逆向文本频率IDF为0.01和0.005;并确定该两个分词片段在该WAP页面的正文内容块的文本信息中分别的出现频率TF为10次和20次;随后,通过公式1)进行计算:
pn=TFn×IDFn 1)
其中,pn为每个分词片段与WAP页面的内容信息的相关性信息的分值,
TFn为每个分词片段在WAP页面的正文内容块的文本信息中分别的出现频率,
IDFn为每个分词片段在预置的语料库中的出现频次的倒数;
以确定每个分词片段与WAP页面的内容信息的相关性信息的分值为:
p1:0.01×10=0.1;
p2:0.005×20=0.1;
将两个分词片段与WAP页面的内容信息的相关性信息的分值进行加和计算,以获取搜索结果A1指向的WAP页面的标题信息与该WAP页面的内容信息的相关性信息的分值cA1(=p1+p2)为0.2。
优选地,将每个搜索结果指向的第二类页面的页面丰富度的分值rAn与第二类页面的标题信息与第二类页面的内容信息的相关性信息的分值cAn进行简单加和或加权计算等,例如通过下式2):
QAn=rAn+cAn
其中,QAn为第二类页面的页面质量的分值,
rAn为第二类页面的页面丰富度的分值,
cAn为第二类页面的页面丰富度的分值;
以获取至少一个搜索结果中每个搜索结果指向的第二类页面的页面质量的分值QAn
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据已确定的至少一个搜索结果中每个搜索结果指向的第二类页面的特征度,来确定所述至少一个搜索结果分别对应的排序调整信息的实现方式,均应包含在本发明的范围内。
随后,第一排序装置4根据所述查询序列与所述多个搜索结果的相关度信息以及所述至少一个搜索结果分别对应的排序调整信息,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果。
其中,第一排序装置4对多个搜索结果进行排序处理以获取排序后的多个搜索结果的方式包括但不限于:
-根据每个搜索结果与查询序列的相关度信息的分值、具有页面对应关系的至少一个搜索结果分别指向的第二类页面的页面质量的分值及具有页面对应关系的至少一个搜索结果分别指向的第二类页面与第一类页面的页面相似度信息的分值,简单进行加和计算,并根据加和结果进行排序操作。
在一示例中,多个搜索结果为A1、A2、A3和A4,搜索结果获取装置1获取的四个搜索结果与查询序列的相关度信息的分值分别为RA1:10、RA2:5、RA3:4、RA4:3,该四个搜索结果中A1与A4为具有页面对应关系的搜索结果,且调整信息确定装置3获取的A1与A4分别指向的第二类页面的页面质量的分值分别为QA1:1及QA4:4,调整信息获取装置3获取的A1与A4分别指向的第二类页面与第一类页面的页面相似度信息的分值分别为SA1:0.5、及SA4:0.9;第一排序装置4将A1和A4的相关度信息、第二类页面的页面质量的分值和第二类页面与第一类页面的页面相似度信息的分值进行加和计算,即通过公式3):
sn=RAn+QAn+SAn 3)
其中,sn为加和结果,
RAn为每个搜索结果与查询序列的相关度信息的分值,
QAn为每个搜索结果指向的第二类页面的页面质量的分值,
SAn为每个搜索结果指向的第二类页面与第一类页面的页面相似度信息的分值;
获取的加和结果为:
s1:=10+1+0.5=11.5;
s4:=3+4+0.9=7.9;
则第一排序装置4根据A2、A3的相关度信息以及该等加和结果,对该四个所述搜索结果进行排序获得排序后的该四个搜索结果为A1、A4、A2和A3。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述查询序列与所述多个搜索结果的相关度信息以及所述至少一个搜索结果分别对应的排序调整信息,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果的实现方式,均应包含在本发明的范围内。
通过根据每个搜索结果与查询序列的相关度信息及具有页面对应关系的至少一个搜索结果分别对应的排序调整信息,对该多个搜索结果进行排序处理,以使得多个搜索结果的排序方式不仅与用户输入的查询序列的匹配程度相关,而且该排序方式也与搜索结果页面是否适于在移动终端上呈现相关联,实现了将适于在移动终端上呈现的具有较高页面质量的第二类页面对应的搜索结果以及适于在移动终端上呈现的具有较高页面相似度信息的第二类页面与第一类页面的对应的搜索结果能够排于搜索结果页的较高位置,用户可在其最易获取信息的视觉区域内点击排序较高的几个搜索结果,就可获取适于其在移动终端浏览的搜索结果网页,从而提高用户浏览体验。
优选地,第一排序装置4还包括加权装置(图未示)和第二排序装置(图未示)。加权装置根据所述查询序列与所述多个搜索结果的相关度信息及所述至少一个搜索结果分别对应的排序调整信息,并结合所述相关度信息及所述排序调整信息的预定权重,进行加权计算,以确定每个搜索结果的加权排序结果;第二排序装置根据所述每个搜索结果的加权排序结果,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果。
在一示例中,多个搜索结果为A1、A2、A3和A4,搜索结果获取装置1获取的四个搜索结果与查询序列的相关度信息的分值分别为RA1:10、RA2:5、RA3:4、RA4:3,该四个搜索结果中A1与A4为具有页面对应关系的搜索结果,且调整信息确定装置3获取的A1与A4分别指向的第二类页面的页面质量的分值分别为QA1:1及QA4:4,调整信息获取装置3获取的A1与A4分别指向的第二类页面与第一类页面的页面相似度信息的分值分别为SA1:0.5、及SA4:0.9;同时,相关度信息的预定权重为W1:1;搜索结果指向的第二类页面的页面质量的预定权重为W2:0.4,搜索结果指向的第二类页面与第一类页面的页面相似度信息的预定权重为W3:0.3;则加权确定装置将A1与A4的相关度信息、第二类页面的页面质量的分值和第二类页面与第一类页面的页面相似度信息的分值进行加权计算,即通过公式4):
Sn=RAn×W1+QAn×W2+SAn×W3 4)
以获取的加权结果为:
S1:=10×1+1×0.4+0.5×0.3=10.55;
S4:=3×1+4×0.4+0.9×0.3=4.87;
则第二排序装置根据A2和A3的相关度信息及该等加权结果,对该四个所述搜索结果进行排序获得排序后的该四个搜索结果为A1、A2、A4和A3。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述查询序列与所述多个搜索结果的相关度信息及所述至少一个搜索结果分别对应的排序调整信息,并结合所述相关度信息及所述排序调整信息的预定权重,进行加权计算,以确定每个搜索结果的加权排序结果,接着根据所述每个搜索结果的加权排序结果,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果的实现方式,均应包含在本发明的范围内。
由于对具有页面对应关系的至少一个搜索结果进行排序的不同排序维度对搜索结果在适于在移动终端上呈现的影响程度不同,因此根据各个排序维度的重要程度对其分别赋予不同权重,从而使得最终获取的排序后的多个搜索结果对应的搜索结果页面既与查询序列具有较高匹配度又适于在移动终端上呈现,使得用户能够获得同时符合其查询需求及其浏览体验的排序后的多个搜索结果。
作为本实施例的优选方案之一,图2示出根据本发明一个优选实施例的确定所述每个搜索结果指向的第一类页面与第二类页面的页面相似度信息的排序装置的结构示意图。其中,该排序装置包括搜索结果获取装置1、搜索结果确定装置2、调整信息确定装置3、第一排序装置4、提取装置5和相似度确定装置6。
其中,搜索结果获取装置1、搜索结果确定装置2、调整信息确定装置3和第一排序装置4已在参照图1所示实施例中予以详述,在此不再赘述。
提取装置5提取所述至少一个搜索结果中每个搜索结果指向的第一类页面与第二类页面的主要页面内容块。
其中,所述页面内容块标注信息在搜索结果指向的第一类页面与第二类页面的标记语言文件中的存储方式包括但不限于以下至少任一项方式:
1)存储于标记语言文件的注释中;
例如,利用JSON格式,页面内容块标识信息存储于XHTML文件注释中,如<!--tcblock_begin:{type:″TITLE″}--><!--tc block_end-->;提取装置5通过对该XHTML文件进行解析,在该XHTML文件中确定用于标注标题内容块的注释,从而将该注释<!--tc block_begin:{type:″TITLE″}-->及<!--tc block_end-->之间的HTML文件部分进行提取,以提取该页面的标题内容块;其中,JSON格式是一种轻量级的数据交换格式,其一般采用“名称/值”对的方式表示数据,名称和值之间使用“:”隔开。
2)存储于标记语言文件的定制标签中;
例如,页面内容块标识信息存储于XHTML文件的定制标签<tc></tc>中,提取装置5通过对该XHTML文件进行解析,在该XHTML文件中确定用于标注图片内容块的定制标签<tctype=“photo”>,从而将<tc type=“photo”>与</tc>之间的HTML文件部分进行提取,以获取该页面的图片内容块。
3)存储于标记语言文件的标签属性中;
例如,页面内容块标识信息存储于XHTML文件的标签属性中,如段落标签<p>的标签属性中,提取装置5通过对该XHTML文件进行解析,在该XHTML文件中确定用于标注正文内容块的段落标签属性<p tc_type=“TEXT”>,则对该段落标签<p tc_type=“TEXT”>与</p>之间的XHTML文件部分进行提取,以获取该页面的正文内容块。
在一示例中,具有页面对应关系的搜索结果为A5,提取装置5在每个搜索结果指向的第一类页面与第二类页面的标记语言文件中进行提取,以提取获得A5的第一类页面及第二类页面中分别包括标题内容块及正文内容块作为该两个页面的主要页面内容块。
随后,相似度确定装置6对每个搜索结果的第一类页面与第二类页面的主要页面内容块进行文本相似度计算,以确定该每个搜索结果指向的第一类页面与第二类页面的页面相似度信息。
其中,确定每个搜索结果指向的第一类页面与第二类页面的页面相似度的方式包括但不限于:
1)通过TF-IDF算法进行计算以确定;例如提取第一类页面的主要页面内容块中的多个关键词,接着确定该多个关键词分别在第二类页面的主要内容块中的出现频率,通过TF-IDF算法,以确定第一类页面与第二类页面的页面相似度;
2)基于空间向量的余弦算法;其中,该算法的处理过程包括对文本信息进行分词等预处理,接着过滤去除文本信息中的常用副词、助词等频度高的词之后,根据剩余分词片段的频度确定若干关键词,随后通过TF-IDF公式进行加权计算,从而生成向量空间模型后计算余弦,以确定第一类页面与第二类页面中主要页面内容块中文本信息的相似度。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何提取所述至少一个搜索结果中每个搜索结果指向的第一类页面与第二类页面的主要页面内容块,接着对每个搜索结果的第一类页面与第二类页面的主要页面内容块进行文本相似度计算,以确定所述每个搜索结果指向的第一类页面与第二类页面的页面相似度信息的实现方式,均应包含在本发明的范围内。
图3示出根据本发明另一个方面的用于对搜索结果进行排序的方法流程图。本发明的方法主要通过网络设备来实现;其中,根据本优选实施例的方法包括步骤S1、步骤S2、步骤S3和步骤S4。
所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
首先,在步骤S1中,网络设备根据来自移动终端的查询序列进行匹配查询,获取与所述查询序列相匹配的多个搜索结果以及所述查询序列与所述多个搜索结果的相关度信息。
其中,所述移动终端包括但不限于任何可适用于本发明的能够通过键盘、触摸屏等与用户进行交互的移动式电子产品,诸如手机、PDA、掌上电脑(PPC)、游戏机(PSP)等。在此,所述网络设备和移动终端均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件可包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
本领域技术人员应能理解上述移动终端以及网络设备仅为举例,其他现有的或今后可能出现的移动终端以及网络设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,所述移动终端与所述网络设备之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。所述移动终端与所述网络设备之间连接的网络包括但不限于:互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。
具体地,在步骤S1中,网络设备根据来自移动终端的用户输入的查询序列进行匹配查询,并基于接收到的查询序列进行搜索。一般地,搜索过程如下:查询序列中包含一个或多个关键词,优选地,还包括关键词之间的关联词,网络设备将提取这些关键词,优选地,还提取关联词,并在网络索引库中根据所述关键词、或关键词与关联词进行匹配查询从而获得多个搜索结果,其中每个搜索结果与该查询序列的相关度信息可根据各种搜索算法确定,例如根据传统的点击率算法确定该相关度信息、根据Google的“PageRank”搜索算法(参见美国专利US6285699,“Method for node ranking in a linked database”)确定该相关度信息、根据百度的“超链”搜索算法确定该相关度信息,网络设备基于上述搜索算法来获得每个搜索结果与该查询序列的相关度信息。其中,所述相关度信息指通过“PageRank”、“超链”等基本搜索算法确定的搜索结果与查询序列的匹配程度分值。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据来自移动终端的查询序列进行匹配查询,来获取与所述查询序列相匹配的多个搜索结果及每个搜索结果与所述查询序列的相关度信息的实现方式,均应包含在本发明的范围内。
在步骤S2中,网络设备确定已获取的多个搜索结果中至少一个搜索结果,其中,所述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二类页面,其中第二类页面为适于在移动终端上显示的页面。
其中,所述第一类页面意指适于在计算机设备上显示的页面,例如,WEB页面,也即在万维网上的基于HTML、XML、XHTML等标识语言的文件,当用户通过万维网进行信息查询时,以信息页面的形式出现,可包括图形、文字、声音和视像等信息。
其中,所述第二类页面意指适于在移动终端上显示的页面,例如,WAP页面,也即基于无线标识语言(WML)的文件,可由移动终端基于可基于无线应用协议(WAP)访问WAP网站,该文件适于在屏幕较小的移动终端上显示。
其中,在步骤S2中,网络设备所述确定多个搜索结果中至少一个搜索结果方式包括但不限于:
-根据每个搜索结果的链接信息,在页面对应列表中进行匹配查询,来确定多个搜索结果中至少一个搜索结果,其中,所述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二类页面。
在一示例中,在步骤S2中,网络设备将每个搜索结果的链接信息在预定的页面对应列表中进行匹配查询,来确定每个搜索结果是否指向具有页面对应关系的第一类页面与第二类页面;其中,所述页面对应列表中包括指向具有页面对应关系的第一类页面与第二类页面的多个搜索结果链接信息;优选地,所述多个搜索结果是否指向具有页面对应关系的第一类页面与第二类页面可通过网络设备预先对海量互联网中的页面进行挖掘来确定。
优选地,该方法还包括步骤S7,(图未示),在步骤S7中,网络设备通过提取所述多个搜索结果分别对应的第一类页面的标记语言文件中的预定标签,来确定所述多个搜索结果中的具有页面对应关系的至少一个搜索结果。
具体地,在步骤S7中,网络设备提取多个搜索结果分别对应的第一类页面的标记语言文件中的预定标签;接着,通过读取预定标签中的预定属性信息来确定多个搜索结果中的具有页面对应关系的至少一个搜索结果。
其中,所述标记语言文件包括但不限于:1)HTML(超文本标记语言)文件;2)XML(可扩展标记语言)文件;3)XHTML(可扩展超文本标记语言)文件;4)XAML(可扩展应用程序标记语言)文件等。
在一示例中,一个搜索结果对应的第一类页面,如WEB页面的HTML文件为:
<head>
<meta name=″mobile-agent″content=″format=html5;url=http://3g.abc.com.cn/″>
……
</head>;
在步骤S7中,网络设备提取该HTML文件的预定的<meta>标签,接着读取该<meta>标签中的content的属性值为“format=html5;url=http://3g.abc.com.cn/”,来确定该搜索结果对应的WAP页面的对应的链接信息为“http://3g.abc.com.cn/”且该WAP页面的标记语言文件为HTML5,即确定该搜索结果为具有页面对应关系的搜索结果。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何通过提取所述多个搜索结果分别对应的第一类页面的标记语言文件中的预定标签,来确定所述多个搜索结果中的具有页面对应关系的至少一个搜索结果的实现方式,均应包含在本发明的范围内。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何确定多个搜索结果中至少一个搜索结果的实现方式,均应包含在本发明的范围内,其中,所述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二类页面,其中第二类页面为适于在移动终端上显示的页面。
接着,在步骤S3中,网络设备根据已确定的至少一个搜索结果中每个搜索结果指向的第二类页面的特征度,来确定所述至少一个搜索结果分别对应的排序调整信息。
其中,所述第二类页面的特征度包括以下至少任一项:
1)每个搜索结果指向的第二类页面的页面质量;
2)每个搜索结果指向的第二类页面与第一类页面的页面相似度信息。
本领域技术人员应能理解上述第二类页面的特征度仅为举例,其他现有的或今后可能出现的第二类页面的特征度如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
具体地,在步骤S3中,网络设备确定每个搜索结果的排序调整信息的方式包括但不限于:
1)首先,从预置的特征度数据库中获取预存的每个搜索结果指向的第二类页面的页面质量及该搜索结果指向的第二类页面与第一类页面的页面相似度信息;接着,根据该页面质量和页面相似度信息,通过简单加和或加权计算等方式,确定该搜索结果的排序调整信息;其中,所述调整信息库包括但不限于关系数据库、Key-Value存储系统或文件系统等。
在一示例中,至少一个搜索结果为A1、A2,在步骤S3中,网络设备根据A1及A2的链接信息,在预置的特征度数据库中进行匹配查询,以获取预存的A1及A2分别指向的WAP页面的页面质量的分值为QA1及QA2,且A1及A2分别指向的WAP页面与WEB页面的页面相似度信息的分值为SA1及SA2
2)首先,提取所述至少一个搜索结果中每个搜索结果指向的第一类页面与第二类页面的主要页面内容块;接着,对每个搜索结果的第一类页面与第二类页面的主要页面内容块进行文本相似度计算,以确定所述每个搜索结果指向的第一类页面与第二类页面的页面相似度信息;该方式将在图4所示的实施例中给予详述。
其中,根据以下至少任一项来确定所述至少一个搜索结果分别指向的第二类页面的页面质量:
a第二类页面的页面丰富度;
b第二类页面的标题信息与第二类页面的内容信息的相关性信息。
本领域技术人员应能理解上述确定至少一个搜索结果分别指向的第二类页面的页面质量的方式仅为举例,其他现有的或今后可能出现的确定至少一个搜索结果分别指向的第二类页面的页面质量的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
具体地,确定第二类页面的页面丰富度的方式包括但不限于:
1)提取搜索结果指向的第二类页面的标记语言文件中的页面内容块,例如正文内容块,并对正文内容块中的文本信息长度进行计算,根据正文内容块中的文本信息的字符数,基于第一预定丰富度规则,确定该第二类页面的页面丰富度;例如,第二类页面中正文内容块中的文本信息的字符数越多,该第二类页面的页面丰富度越高;
其中,所述的标记语言文件中的页面内容块包括该的标记语言文件中的由一个或多个标签标识的内容区域,其与页面中显示的特定内容相对应,例如,与标题、图片、正文内容等相对应。
2)提取第二类页面的标记语言文件中的页面内容块,根据页面内容块的类型数量,基于第二预定丰富度规则,确定该第二类页面的页面丰富度;例如,第二类页面中包括的页面内容块的类型数越多,如正文内容块、标题内容块、图片内容块、留言内容块等,其页面丰富度越高。
在一示例中,页面内容块标识信息存储于搜索结果A1指向的WAP页面的标记语言文件XHTML文件的标签属性中,如段落标签<p>的标签属性中,网络设备通过对该XHTML文件进行解析,在该XHTML文件中确定用于标注正文内容块的段落标签属性<p tc_type=“TEXT”>,则对该段落标签<p tc_type=“TEXT”>与</p>之间的XHTML文件部分进行提取,以获取该页面的正文内容块,接着对正文内容块中的文本信息的字符数进行计算,以获取文本信息的字符数为100个字符,基于第一预定丰富度规则示出的当正文内容块中的文本信息的字符数大于100个字符时,对该WAP页面的页面丰富度的分值加1;同时,网络设备通过对该XHTML文件进行解析,确定A1指向的WAP页面中包括4种类型的页面内容块,分别为正文内容块、标题内容块、目录内容块和图片内容块,基于第二预定丰富度规则示出的当第二类页面中包括4种类型以上的页面内容块时,对该第二类页面的页面丰富度的分值加1,即A1指向的WAP页面的页面丰富度的分值rA1为2。
具体地,确定第二类页面的标题信息与第二类页面的内容信息的相关性信息的方式包括但不限于:
-根据第二类页面的标题信息以及第二类页面的内容信息,通过TF-IDF算法,来确定该两者的相关性信息;其中,TF-IDF是一种统计方法,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。
在一示例中,网络设备对搜索结果A1指向的WAP页面的标题信息“鲜花快递”进行分词处理,以获取两个分词片段为p1“鲜花”及p2“快递”;接着,在预置的语料库中进行查询,以确定该两个分词片段在该预置的语料库中的出现频次TP为100次和200次,并将该出现频次的倒数作为每个分词片段的逆向文本频率IDF为0.01和0.005;并确定该两个分词片段在该WAP页面的正文内容块的文本信息中分别的出现频率TF为10次和20次;随后,通过公式1)进行计算:
pn=TFn×IDFn 1)
其中,pn为每个分词片段与WAP页面的内容信息的相关性信息的分值,
TFn为每个分词片段在WAP页面的正文内容块的文本信息中分别的出现频率,
IDFn为每个分词片段在预置的语料库中的出现频次的倒数;
以确定每个分词片段与WAP页面的内容信息的相关性信息的分值为:
p1:0.01×10=0.1;
p2:0.005×20=0.1;
将两个分词片段与WAP页面的内容信息的相关性信息的分值进行加和计算,以获取搜索结果A1指向的WAP页面的标题信息与该WAP页面的内容信息的相关性信息的分值cA1(=p1+p2)为0.2。
优选地,将每个搜索结果指向的第二类页面的页面丰富度的分值rAn与第二类页面的标题信息与第二类页面的内容信息的相关性信息的分值cAn进行简单加和或加权计算等,例如通过下式2):
QAn=rAn+cAn
其中,QAn为第二类页面的页面质量的分值,
rAn为第二类页面的页面丰富度的分值,
cAn为第二类页面的页面丰富度的分值;
以获取至少一个搜索结果中每个搜索结果指向的第二类页面的页面质量的分值QAn
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据已确定的至少一个搜索结果中每个搜索结果指向的第二类页面的特征度,来确定所述至少一个搜索结果分别对应的排序调整信息的实现方式,均应包含在本发明的范围内。
随后,在步骤S4中,网络设备根据所述查询序列与所述多个搜索结果的相关度信息以及所述至少一个搜索结果分别对应的排序调整信息,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果。
其中,在步骤S4中,网络设备对多个搜索结果进行排序处理以获取排序后的多个搜索结果的方式包括但不限于:
-根据每个搜索结果与查询序列的相关度信息的分值、具有页面对应关系的至少一个搜索结果分别指向的第二类页面的页面质量的分值及具有页面对应关系的至少一个搜索结果分别指向的第二类页面与第一类页面的页面相似度信息的分值,简单进行加和计算,并根据加和结果进行排序操作。
在一示例中,多个搜索结果为A1、A2、A3和A4,已获取的四个搜索结果与查询序列的相关度信息的分值分别为RA1:10、RA2:5、RA3:4、RA4:3,该四个搜索结果中A1与A4为具有页面对应关系的搜索结果,且已获取的A1与A4分别指向的第二类页面的页面质量的分值分别为QA1:1及QA4:4,已获取的A1与A4分别指向的第二类页面与第一类页面的页面相似度信息的分值分别为SA1:0.5、及SA4:0.9;在步骤S4中,网络设备将A1和A4的相关度信息、第二类页面的页面质量的分值和第二类页面与第一类页面的页面相似度信息的分值进行加和计算,即通过公式3):
sn=RAn+QAn+SAn 3)
其中,sn为加和结果,
RAn为每个搜索结果与查询序列的相关度信息的分值,
QAn为每个搜索结果指向的第二类页面的页面质量的分值,
SAn为每个搜索结果指向的第二类页面与第一类页面的页面相似度信息的分值;
获取的加和结果为:
s1:=10+1+0.5=11.5;
s4:=3+4+0.9=7.9;
则网络设备根据A2、A3的相关度信息以及该等加和结果,对该四个所述搜索结果进行排序获得排序后的该四个搜索结果为A1、A4、A2和A3。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述查询序列与所述多个搜索结果的相关度信息以及所述至少一个搜索结果分别对应的排序调整信息,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果的实现方式,均应包含在本发明的范围内。
通过根据每个搜索结果与查询序列的相关度信息及具有页面对应关系的至少一个搜索结果分别对应的排序调整信息,对该多个搜索结果进行排序处理,以使得多个搜索结果的排序方式不仅与用户输入的查询序列的匹配程度相关,而且该排序方式也与搜索结果页面是否适于在移动终端上呈现相关联,实现了将适于在移动终端上呈现的具有较高页面质量的第二类页面对应的搜索结果以及适于在移动终端上呈现的具有较高页面相似度信息的第二类页面与第一类页面的对应的搜索结果能够排于搜索结果页的较高位置,用户可在其最易获取信息的视觉区域内点击排序较高的几个搜索结果,就可获取适于其在移动终端浏览的搜索结果网页,从而提高用户浏览体验。
优选地,该方法还包括步骤S41(图未示)和步骤S42(图未示)。在步骤S41中,网络设备根据所述查询序列与所述多个搜索结果的相关度信息及所述至少一个搜索结果分别对应的排序调整信息,并结合所述相关度信息及所述排序调整信息的预定权重,进行加权计算,以确定每个搜索结果的加权排序结果;在步骤S42中,网络设备根据所述每个搜索结果的加权排序结果,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果。
在一示例中,多个搜索结果为A1、A2、A3和A4,已获取的四个搜索结果与查询序列的相关度信息的分值分别为RA1:10、RA2:5、RA3:4、RA4:3,该四个搜索结果中A1与A4为具有页面对应关系的搜索结果,且已获取的A1与A4分别指向的第二类页面的页面质量的分值分别为QA1:1及QA4:4,已获取的A1与A4分别指向的第二类页面与第一类页面的页面相似度信息的分值分别为SA1:0.5、及SA4:0.9;同时,相关度信息的预定权重为W1:1;搜索结果指向的第二类页面的页面质量的预定权重为W2:0.4,搜索结果指向的第二类页面与第一类页面的页面相似度信息的预定权重为W3:0.3;则在步骤S41中,网络设备将A1与A4的相关度信息、第二类页面的页面质量的分值和第二类页面与第一类页面的页面相似度信息的分值进行加权计算,即通过公式4):
Sn=RAn×W1+QAn×W2+SAn×W3 4)
以获取的加权结果为:
S1:=10×1+1×0.4+0.5×0.3=10.55;
S4:=3×1+4×0.4+0.9×0.3=4.87;
则在步骤S42中,网络设备根据A2和A3的相关度信息及该等加权结果,对该四个所述搜索结果进行排序获得排序后的该四个搜索结果为A1、A2、A4和A3。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述查询序列与所述多个搜索结果的相关度信息及所述至少一个搜索结果分别对应的排序调整信息,并结合所述相关度信息及所述排序调整信息的预定权重,进行加权计算,以确定每个搜索结果的加权排序结果,接着根据所述每个搜索结果的加权排序结果,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果的实现方式,均应包含在本发明的范围内。
由于对具有页面对应关系的至少一个搜索结果进行排序的不同排序维度对搜索结果在适于在移动终端上呈现的影响程度不同,因此根据各个排序维度的重要程度对其分别赋予不同权重,从而使得最终获取的排序后的多个搜索结果对应的搜索结果页面既与查询序列具有较高匹配度又适于在移动终端上呈现,使得用户能够获得同时符合其查询需求及其浏览体验的排序后的多个搜索结果。
作为本实施例的优选方案之一,图4示出根据本发明一个优选实施例的确定所述每个搜索结果指向的第一类页面与第二类页面的页面相似度信息的方法流程图。其中,根据本优选实施例的方法包括步骤S1、步骤S2、步骤S3、步骤S4、步骤S5和步骤S6。
其中,步骤S1、步骤S2、步骤S3和步骤S4已在参照图3所示实施例中予以详述,在此不再赘述。
在步骤S5中,网络设备提取所述至少一个搜索结果中每个搜索结果指向的第一类页面与第二类页面的主要页面内容块。
其中,所述页面内容块标注信息在搜索结果指向的第一类页面与第二类页面的标记语言文件中的存储方式包括但不限于以下至少任一项方式:
1)存储于标记语言文件的注释中;
例如,利用JSON格式,页面内容块标识信息存储于XHTML文件注释中,如<!--tcblock_begin:{type:″TITLE″}--><!--tc block_end-->;在步骤S5中,网络设备通过对该XHTML文件进行解析,在该XHTML文件中确定用于标注标题内容块的注释,从而将该注释<!--tc block_begin:{type:″TITLE″}-->及<!--tc block_end-->之间的HTML文件部分进行提取,以提取该页面的标题内容块;其中,JSON格式是一种轻量级的数据交换格式,其一般采用“名称/值”对的方式表示数据,名称和值之间使用“:”隔开。
2)存储于标记语言文件的定制标签中;
例如,页面内容块标识信息存储于XHTML文件的定制标签<tc></tc>中,在步骤S5中,网络设备通过对该XHTML文件进行解析,在该XHTML文件中确定用于标注图片内容块的定制标签<tc type=“photo”>,从而将<tc type=“photo”>与</tc>之间的HTML文件部分进行提取,以获取该页面的图片内容块。
3)存储于标记语言文件的标签属性中;
例如,页面内容块标识信息存储于XHTML文件的标签属性中,如段落标签<p>的标签属性中,在步骤S5中,网络设备通过对该XHTML文件进行解析,在该XHTML文件中确定用于标注正文内容块的段落标签属性<p tc_type=“TEXT”>,则对该段落标签<p tc_type=“TEXT”>与</p>之间的XHTML文件部分进行提取,以获取该页面的正文内容块。
在一示例中,具有页面对应关系的搜索结果为A5,在步骤S5中,网络设备在每个搜索结果指向的第一类页面与第二类页面的标记语言文件中进行提取,以提取获得A5的第一类页面及第二类页面中分别包括标题内容块及正文内容块作为该两个页面的主要页面内容块。
随后,在步骤S6中,网络设备对每个搜索结果的第一类页面与第二类页面的主要页面内容块进行文本相似度计算,以确定该每个搜索结果指向的第一类页面与第二类页面的页面相似度信息。
其中,确定每个搜索结果指向的第一类页面与第二类页面的页面相似度的方式包括但不限于:
1)通过TF-IDF算法进行计算以确定;例如提取第一类页面的主要页面内容块中的多个关键词,接着确定该多个关键词分别在第二类页面的主要内容块中的出现频率,通过TF-IDF算法,以确定第一类页面与第二类页面的页面相似度;
2)基于空间向量的余弦算法;其中,该算法的处理过程包括对文本信息进行分词等预处理,接着过滤去除文本信息中的常用副词、助词等频度高的词之后,根据剩余分词片段的频度确定若干关键词,随后通过TF-IDF公式进行加权计算,从而生成向量空间模型后计算余弦,以确定第一类页面与第二类页面中主要页面内容块中文本信息的相似度。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何提取所述至少一个搜索结果中每个搜索结果指向的第一类页面与第二类页面的主要页面内容块,接着对每个搜索结果的第一类页面与第二类页面的主要页面内容块进行文本相似度计算,以确定所述每个搜索结果指向的第一类页面与第二类页面的页面相似度信息的实现方式,均应包含在本发明的范围内。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现本发明中的装置。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他装置或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (13)

1.一种用于对搜索结果进行排序的方法,该方法包括以下步骤:
a根据来自移动终端的查询序列进行匹配查询,获取与所述查询序列相匹配的多个搜索结果以及所述查询序列与所述多个搜索结果的相关度信息;
其中,该方法还包括:
w确定所述多个搜索结果中至少一个搜索结果,其中,所述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二类页面,其中,所述第一类页面为适于在计算机设备上显示的页面,所述第二类页面为适于在移动终端上显示的页面;
x根据所述至少一个搜索结果中每个搜索结果指向的第二类页面的特征度,来确定所述至少一个搜索结果分别对应的排序调整信息;
y根据所述查询序列与所述多个搜索结果的相关度信息以及所述至少一个搜索结果分别对应的排序调整信息,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果。
2.根据权利要求1所述的方法,其中,所述步骤w包括:
w’通过提取所述多个搜索结果分别对应的第一类页面的标记语言文件中的预定标签,来确定所述多个搜索结果中的所述至少一个搜索结果。
3.根据权利要求1或2所述的方法,其中,所述步骤y包括:
-根据所述查询序列与所述多个搜索结果的相关度信息及所述至少一个搜索结果分别对应的排序调整信息,并结合所述相关度信息及所述排序调整信息的预定权重,进行加权计算,以确定每个搜索结果的加权排序结果;
-根据所述每个搜索结果的加权排序结果,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果。
4.根据权利要求1所述的方法,其中,所述第二类页面的特征度包括以下至少任一项:
-每个搜索结果指向的第二类页面的页面质量;
-每个搜索结果指向的第二类页面与第一类页面的页面相似度信息。
5.根据权利要求4所述的方法,其中,该方法还包括根据以下至少任一项来确定所述至少一个搜索结果分别指向的第二类页面的页面质量:
-第二类页面的页面丰富度;
-第二类页面的标题信息与第二类页面的内容信息的相关性信息。
6.根据权利要求4或5任一项所述的方法,其中,该方法还包括:
-提取所述至少一个搜索结果中每个搜索结果指向的第一类页面与第二类页面的主要页面内容块;
-对每个搜索结果的第一类页面与第二类页面的主要页面内容块进行文本相似度计算,以确定所述每个搜索结果指向的第一类页面与第二类页面的页面相似度信息。
7.一种用于对搜索结果进行排序的排序装置,该排序装置包括:
搜索结果获取装置,用于根据来自移动终端的查询序列进行匹配查询,获取与所述查询序列相匹配的多个搜索结果以及所述查询序列与所述多个搜索结果的相关度信息;
其中,该排序装置还包括:
搜索结果确定装置,用于确定所述多个搜索结果中至少一个搜索结果,其中,所述至少一个搜索结果中的每个搜索结果指向具有页面对应关系的第一类页面与第二类页面,其中,所述第一类页面为适于在计算机设备上显示的页面,所述第二类页面为适于在移动终端上显示的页面;
调整信息确定装置,用于根据所述至少一个搜索结果中每个搜索结果指向的第二类页面的特征度,来确定所述至少一个搜索结果分别对应的排序调整信息;
第一排序装置,用于根据所述查询序列与所述多个搜索结果的相关度信息以及所述至少一个搜索结果分别对应的排序调整信息,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果。
8.根据权利要求7所述的排序装置,其中,所述搜索结果确定装置包括:
标签提取装置,用于通过提取所述多个搜索结果分别对应的第一类页面的标记语言文件中的预定标签,来确定所述多个搜索结果中的所述至少一个搜索结果。
9.根据权利要求7或8所述的排序装置,其中,所述第一排序装置包括:
加权装置,用于根据所述查询序列与所述多个搜索结果的相关度信息及所述至少一个搜索结果分别对应的排序调整信息,并结合所述相关度信息及所述排序调整信息的预定权重,进行加权计算,以确定每个搜索结果的加权排序结果;
第二排序装置,用于根据所述每个搜索结果的加权排序结果,对所述多个搜索结果进行排序处理,以获取排序后的多个搜索结果。
10.根据权利要求7所述的排序装置,其中,所述第二类页面的特征度包括以下至少任一项:
-每个搜索结果指向的第二类页面的页面质量;
-每个搜索结果指向的第二类页面与第一类页面的页面相似度信息。
11.根据权利要求10所述的排序装置,其中,该排序装置还用于根据以下至少任一项来确定所述至少一个搜索结果分别指向的第二类页面的页面质量:
-第二类页面的页面丰富度;
-第二类页面的标题信息与第二类页面的内容信息的相关性信息。
12.根据权利要求10或11任一项所述的排序装置,其中,该排序装置还包括:
提取装置,用于提取所述至少一个搜索结果中每个搜索结果指向的第一类页面与第二类页面的主要页面内容块;
相似度确定装置,用于对每个搜索结果的第一类页面与第二类页面的主要页面内容块进行文本相似度计算,以确定所述每个搜索结果指向的第一类页面与第二类页面的页面相似度信息。
13.一种网络设备,包括如权利要求7至12中任一项所述的排序装置。
CN201210301231.7A 2012-08-22 2012-08-22 一种用于对搜索结果进行排序的方法、装置与设备 Active CN103631794B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210301231.7A CN103631794B (zh) 2012-08-22 2012-08-22 一种用于对搜索结果进行排序的方法、装置与设备
PCT/CN2012/085464 WO2014029173A1 (zh) 2012-08-22 2012-11-28 一种用于对搜索结果进行排序的方法、装置与设备
US14/412,372 US20150234827A1 (en) 2012-08-22 2012-11-28 Method, apparatus, and device for ranking search results

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210301231.7A CN103631794B (zh) 2012-08-22 2012-08-22 一种用于对搜索结果进行排序的方法、装置与设备

Publications (2)

Publication Number Publication Date
CN103631794A CN103631794A (zh) 2014-03-12
CN103631794B true CN103631794B (zh) 2019-05-07

Family

ID=50149375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210301231.7A Active CN103631794B (zh) 2012-08-22 2012-08-22 一种用于对搜索结果进行排序的方法、装置与设备

Country Status (3)

Country Link
US (1) US20150234827A1 (zh)
CN (1) CN103631794B (zh)
WO (1) WO2014029173A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838881B (zh) * 2014-03-28 2017-04-05 北京奇虎科技有限公司 自定义搜索结果页的方法及装置
WO2016107353A1 (zh) * 2014-12-29 2016-07-07 北京奇虎科技有限公司 确定pc网页与移动网页自适应关系的系统及方法
US10534810B1 (en) * 2015-05-21 2020-01-14 Google Llc Computerized systems and methods for enriching a knowledge base for search queries
US10275495B2 (en) * 2015-11-24 2019-04-30 Sap Se User-dependent ranking of data items
US10289622B2 (en) * 2015-11-24 2019-05-14 Sap Se Ranking using data of continuous scales
US10366089B2 (en) * 2015-11-24 2019-07-30 Sap Se Ranking based on dynamic contextual information
US10255239B2 (en) 2015-11-24 2019-04-09 Sap Se Ranking based on object data
CN105808737B (zh) * 2016-03-10 2021-04-06 腾讯科技(深圳)有限公司 一种信息检索方法及服务器
WO2018023429A1 (zh) * 2016-08-02 2018-02-08 步晓芳 一种搜索结果显示的技术数据采集方法以及搜索引擎
WO2018023430A1 (zh) * 2016-08-02 2018-02-08 步晓芳 一种根据目的显示搜索结果时的信息推送方法以及搜索引擎
CN106294786A (zh) * 2016-08-12 2017-01-04 北京创新乐知信息技术有限公司 一种代码搜索方法和系统
CN108197125B (zh) * 2016-12-08 2020-10-09 腾讯科技(深圳)有限公司 网页抓取方法及装置
CN108763332A (zh) * 2018-05-10 2018-11-06 北京奇艺世纪科技有限公司 一种搜索提示词的生成方法和装置
CN111460272B (zh) * 2019-01-22 2024-02-13 北京国双科技有限公司 一种文本页面的排序方法及相关设备
CN110377831B (zh) * 2019-07-25 2022-05-17 拉扎斯网络科技(上海)有限公司 检索方法、装置、可读存储介质和电子设备
CN110516062B (zh) * 2019-08-26 2022-11-04 腾讯科技(深圳)有限公司 一种文档的搜索处理方法及装置
CN112632383A (zh) * 2020-12-26 2021-04-09 中国农业银行股份有限公司 一种信息推荐方法及装置
CN113254810B (zh) * 2021-06-17 2021-10-29 浙江口碑网络技术有限公司 搜索结果输出方法、装置、计算机设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101437039A (zh) * 2007-11-15 2009-05-20 华为技术有限公司 一种移动搜索的方法、系统和设备
CN101636737A (zh) * 2007-01-24 2010-01-27 谷歌公司 混合移动搜索结果

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308643B1 (en) * 2003-07-03 2007-12-11 Google Inc. Anchor tag indexing in a web crawler system
JP2007188352A (ja) * 2006-01-13 2007-07-26 National Institute Of Information & Communication Technology ページリランキング装置、ページリランキングプログラム
US20070208730A1 (en) * 2006-03-02 2007-09-06 Microsoft Corporation Mining web search user behavior to enhance web search relevance
US7974957B2 (en) * 2007-04-05 2011-07-05 Microsoft Corporation Assessing mobile readiness of a page using a trained scorer
US8332379B2 (en) * 2010-06-11 2012-12-11 International Business Machines Corporation System and method for identifying content sensitive authorities from very large scale networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101636737A (zh) * 2007-01-24 2010-01-27 谷歌公司 混合移动搜索结果
CN101437039A (zh) * 2007-11-15 2009-05-20 华为技术有限公司 一种移动搜索的方法、系统和设备

Also Published As

Publication number Publication date
WO2014029173A1 (zh) 2014-02-27
CN103631794A (zh) 2014-03-12
US20150234827A1 (en) 2015-08-20

Similar Documents

Publication Publication Date Title
CN103631794B (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN107145496B (zh) 基于关键词将图像与内容项目匹配的方法
US7739221B2 (en) Visual and multi-dimensional search
JP6423845B2 (ja) 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム
JP6266080B2 (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
US7917514B2 (en) Visual and multi-dimensional search
US7475074B2 (en) Web search system and method thereof
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN103744887B (zh) 一种用于人物搜索的方法、装置和计算机设备
CN107784059A (zh) 用于搜索和选择图像的方法和系统以及机器可读媒体
CN104679783B (zh) 一种网络搜索方法和装置
CN107766399A (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
CN104503988B (zh) 搜索方法及装置
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
CN103631793B (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
JP5197680B2 (ja) 特徴情報作成装置、方法及びプログラム
CN107766398A (zh) 用于使图像与内容项目匹配的方法、装置和数据处理系统
CN107622125B (zh) 一种信息爬取方法和装置、电子设备
CN107784061B (zh) 确定基于图像的内容样式的方法和系统及机器可读介质
CN106326353A (zh) 一种用于提供呈现信息的方法与设备
Wang et al. Data Crawling and Research Based on Topic Web Crawler
JP2007323554A (ja) ネットワーク検索方法,クライアント,サーバ,システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant