CN105550359A - 一种基于垂直搜索的网页排序方法、装置及服务器 - Google Patents
一种基于垂直搜索的网页排序方法、装置及服务器 Download PDFInfo
- Publication number
- CN105550359A CN105550359A CN201511030021.9A CN201511030021A CN105550359A CN 105550359 A CN105550359 A CN 105550359A CN 201511030021 A CN201511030021 A CN 201511030021A CN 105550359 A CN105550359 A CN 105550359A
- Authority
- CN
- China
- Prior art keywords
- webpage
- theme
- content
- lexical item
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例公开了一种基于垂直搜索的网页排序方法、装置及服务器。该方法包括:根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,其中,M和N均为大于等于1的整数;获取所述N个主题词项在所述主题字典中分别对应的相关度分值;获取预设的与所述N个主题词项的标签对应的权重值;根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值;按照计算出的各网页的相关度加权值对所述M个网页进行排序。采用本发明实施例,能够更加精准的匹配用户搜索主题,从而提高了垂直搜索的匹配结果精确度。
Description
技术领域
本发明涉及页面搜索技术领域,尤其涉及一种基于垂直搜索的网页排序方法、装置及服务器。
背景技术
随着互联网相关技术的日益成熟,搜索引擎作为检索互联网数据的主要手段,可根据用户的搜索需求分为传统的通用搜索引擎或针对某一领域细化的垂直搜索引擎。通用搜索引擎搜索的数据冗余量大,查询精度低。而面向主题、专业化的垂直搜索引擎逐步被应用到越来越多的领域中。垂直搜索引擎的目的是找到与主题密切相关的资源,这需要预测所查找的网页的页面内容的相关性,并按照其相关度对网页进行排序。其中,可通过计算网页与用户搜索输入的关键字的匹配度确定该网页与用户搜索主题的相关度。然而,目前的基于网页与关键字的匹配度的网页排序方法不够精准,如排名第一的网页中的页面内容未必为与用户搜索主题匹配度最高,导致垂直搜索的匹配结果精准度较低。
发明内容
本发明实施例提供了一种基于垂直搜索的网页排序方法、装置及服务器。能够解决垂直搜索的匹配结果精准度较低的技术问题。
本发明的实施例第一方面提供了一种基于垂直搜索的网页排序方法,该方法可包括:
根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,其中,M和N均为大于等于1的整数;
获取所述N个主题词项在所述主题字典中分别对应的相关度分值;
获取预设的与所述N个主题词项的标签对应的权重值;
根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值;
按照计算出的各网页的相关度加权值对所述M个网页进行排序。
作为可选的实施例,所述根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项之前还包括:
当检测到垂直搜索引擎搜索出与搜索主题相关的P个网页后,确定所述P个网页中各网页的内容类型,其中,所述内容类型包括主题类型、图片类型和超链类型,其中,P为大于等于1的整数;
从所述P个网页中筛选出所述内容类型为主题类型的所述M个网页;
其中,所述根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项包括:
根据预设的主题字典将所述内容类型为主题类型的所述M个网页中每一个网页的内容分词为N个主题词项。
作为可选的实施例,所述确定所述P个网页中各网页的内容类型包括:
获取所述P个网页中各网页中间位置的内容块;
统计所述内容块中的内容词项数、图片数及超链词项数;
若所述内容词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为主题类型;
若所述图片数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为图片类型;
若所述超链词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为超链类型。
作为可选的实施例,所述确定所述P个网页中各网页的内容类型包括:
获取所述P个网页中各网页中间位置的内容块;
获取所述内容块中的内容信息、图片信息及超链信息;
从预设的网页权重分布表中获取所述内容信息、图片信息及超链信息分别对应的权重值;
若所述内容信息的权重值最大,则确定网页的内容类型为主题类型;
若所述图片信息的权重值最大,则确定网页的内容类型为图片类型;
若所述超链信息的权重值最大,则确定网页的内容类型为超链类型。
作为可选的实施例,所述根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,包括:
读取所述M个网页中每一个网页的内容;
将所述每一个网页的内容按照逆向最大匹配法分词为Q个词项,其中,Q为大于等于1的整数;
从所述Q个词项中通过所述预设的主题字典筛选出N个主题词项。
作为可选的实施例,所述根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值包括:
将所述N个主题词项中每一个主题词项对应的相关度分值与权重值进行乘积;
将所述N个主题词项分别对应的乘积结果求和;
将所述相关度加权值赋值为求和结果与所述N个主题词项分别对应的相关度分值之和的比值。
本发明的实施例第二方面提供了一种基于垂直搜索的网页排序装置,该装置可包括:
分词模块,用于根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,其中,M和N均为大于等于1的整数;
相关度获取模块,用于获取所述N个主题词项在所述主题字典中分别对应的相关度分值;
权重获取模块,用于获取预设的与所述N个主题词项的标签对应的权重值;
计算模块,用于根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值;
排序模块,用于按照计算出的各网页的相关度加权值对所述M个网页进行排序。
作为可选的实施例,还包括:
确定模块,用于所述分词模块根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项之前,当检测到垂直搜索引擎搜索出与搜索主题相关的P个网页后,确定所述P个网页中各网页的内容类型,其中,所述内容类型包括主题类型、图片类型和超链类型,其中,P为大于等于1的整数;
网页筛选模块,用于从所述P个网页中筛选出所述内容类型为主题类型的所述M个网页;
其中,所述分词模块还用于:
根据预设的主题字典将所述内容类型为主题类型的所述M个网页中每一个网页的内容分词为N个主题词项。
作为可选的实施例,所述确定模块包括:
第一内容块获取单元,用于获取所述P个网页中各网页中间位置的内容块;
统计单元,用于统计所述内容块中的内容词项数、图片数及超链词项数;
第一确定单元,用于:
若所述内容词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为主题类型;
若所述图片数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为图片类型;
若所述超链词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为超链类型。
作为可选的实施例,所述确定模块包括:
第二内容块获取单元,用于获取所述P个网页中各网页中间位置的内容块;
信息获取单元,用于获取所述内容块中的内容信息、图片信息及超链信息;
权重值获取单元,用于从预设的网页权重分布表中获取所述内容信息、图片信息及超链信息分别对应的权重值;
第二确定单元,用于:
若所述内容信息的权重值最大,则确定网页的内容类型为主题类型;
若所述图片信息的权重值最大,则确定网页的内容类型为图片类型;
若所述超链信息的权重值最大,则确定网页的内容类型为超链类型。
作为可选的实施例,所述分词模块包括:
读取单元,用于读取所述M个网页中每一个网页的内容;
分词单元,用于将所述每一个网页的内容按照逆向最大匹配法分词为Q个词项,其中,Q为大于等于1的整数;
词项筛选单元,用于从所述Q个词项中通过所述预设的主题字典筛选出N个主题词项。
作为可选的实施例,所述计算模块包括:
乘积单元,用于将所述N个主题词项中每一个主题词项对应的相关度分值与权重值进行乘积;
求和单元,用于将所述N个主题词项分别对应的乘积结果求和;
赋值单元,用于将所述相关度加权值赋值为求和结果与所述N个主题词项分别对应的相关度分值之和的比值。
本发明的实施例第三方面提供了一种服务器,该服务器可包括收发器、存储器及处理器,其中,所述存储器中存储一组程序代码,且所述处理器调用所述存储器中存储的程序代码,用于执行以下操作:
根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,其中,M和N均为大于等于1的整数;
获取所述N个主题词项在所述主题字典中分别对应的相关度分值;
获取预设的与所述N个主题词项的标签对应的权重值;
根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值;
按照计算出的各网页的相关度加权值对所述M个网页进行排序。
本发明实施例中,通过预设的主题字典,可将垂直搜索引擎搜索出的M个网页中的没一个网页的内容分词为N个主题词项,并且预设的主题字典中各主题词项可设置对应的相关度分数,从而,可从主题字典中获取分词出的N个主题词项对应的相关段分值,并可获取与该N个主题词项的标签对应的权重值,当获取到该网页N个主题词项的相关度分值及权重值后,可计算出该网页的相关度加权值,相关度加权值越大,表明与搜索主题的相关度越高,从而可按照计算出的各网页的相关度加权值对所述M个网页进行排序。通过上述方式进行排序的网页能够更加精准的匹配用户搜索主题,从而提高了垂直搜索的匹配结果精确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明中的一种基于垂直搜索的网页排序方法的一实施例的流程图;
图2是本发明中的一种基于垂直搜索的网页排序方法的另一实施例的流程图;
图3是本发明中的一种基于垂直搜索的网页排序装置的一实施例的结构示意图;
图4是本发明中的一种基于垂直搜索的网页排序装置的另一实施例的结构示意图;
图5是本发明中的一种服务器的一实施例的结构示意图;
图6是本发明中的一种预设的主题字典的一实施例的示意图;
图7是本发明中的一种搜索系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面参考附图对本发明的实施例进行描述。其中,本发明实施例所述装置或服务器配置有垂直搜索引擎,并可对垂直搜索引擎的搜索结果进行网页相关度排序,还可根据客户端的请求,反馈搜索的相关度高的网页,也可接收客户端发送的搜索主题。
参见图1,图1是本发明中的一种基于垂直搜索的网页排序方法的一实施例的流程图。该方法可由对应装置或服务器实现。该方法可包括以下步骤。
步骤S101,根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,其中,M和N均为大于等于1的整数。
在一个实施例中,当垂直搜索引擎搜索出与搜索主题相关的M个网页后,可根据预设的主题字典对M个网页中的每一个网页的内容进行分词,将其分词为N个主题词项。具体的,预设的主题词项可参见图6。其中,图6为搜索主题为医学或心脏的示例性的主题字典,其他主题可参照图6的结构方式预设主题字典。其中,主题字典以哈希树结构存储在内存中。可选的,还可从外部存储器调用与搜索主题相关的主题字典,在此不作限定。图6中每个主题词项均对应预设的相关度分值,相关度分值越大,表明该词项与搜索主题越匹配。可选的,可通过正向最大匹配法或逆向最大匹配法或其他对汉字进行分词的方法对M个网页中任意一个网页的内容进行分词,并可将分词后形成的词组通过预设的主题词项进行过滤,从而可过滤出在主题字典中存在的N个主题词项。
步骤S102,获取所述N个主题词项在所述主题字典中分别对应的相关度分值。
在一个实施例中,当通过预设的主题字典将网页内容分词为N个主题词项后,可在该主题字典中分别获取主题词项对应的相关度分值。具体的,可参见图6中,其中,该主题字典以哈希树的结构存储在内存中,每个节点对应一个主题词项,并且每个节点对应一个相关度分值。其中,该相关度分值可根据用户输入的搜索关键词设定,也可根据历史记录的该主题词项在该搜索主题下被需求的次数或其他方式进行设定,也可通过人为判断该主题词项在该搜索主题下的相关度确定其相关度分值。举例说明,当搜索主题为心脏病时,如图6中的主题字典,若网页中包含心律不齐,则可获取其对应的相关度分值为5分,若网页中还包括临时,则可获取器对应的相关度分值为1分等。其中,图6所示的主题字典相关度分值最小单位为1分,还可设置相关度分值最小单位为0.5分或其他分值,在此不作限定。
步骤S103,获取预设的与所述N个主题词项的标签对应的权重值。
在一个实施例中,还可获取预设的与该N个主题词项的标签对应的N个权重值。其中,标签用于标识主题词项所在网页中的重要度。具体的,可对网页构建标签树,其中,标签树中的每个节点对应一个标签,通过查找主题词项在标签树的节点,可获取该主题词项的标签,其中,标签可标识该主题词项的位置信息,如当标签为<title>时,则表明该主题词项在网页的标题中,若标签为<h1>时,则表明该主题词项在网页文章的大标题中;标签也可标识该主题词项的格式信息,如当标签为<b>时,则表明该主题词项的显示格式为加粗字体。其中,可预设不同的标签对应不同的权重值,即根据标签确定主题词项在网页中的重要性,如当主题词项的标签为<title>时,其对应的权重值为10,当主题词项的标签为<h1>时,其对应的权重值为5,当主题词项的标签为<b>时,其对应的权重值为2。从而根据主题词项标签的不同,可获取器预设的与主题词项的标签对应的权重值。
步骤S104,根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值。
在一个实施例中,可通过获取到的N个主题词项对应的N个相关度分值及N个权重值,可计算出M个网页中任意一个网页的相关度加权值。具体的,可确定相关度加权值为权重值与相关度分值乘积的总和与相关度分值的总和的比值。需要说明的是,通过其他方式确定相关度权重比等能够确定网页相关度匹配度的参数,能够完成网页相关度排序的方式也在本发明的保护范围之内。
步骤S105,按照计算出的各网页的相关度加权值对所述M个网页进行排序。
在一个实施例中,当计算出M个网页中各网页的相关度加权值后,可按照加权值由大到小的顺序或由小到大的顺序对该M个网页进行排序。从而从网页排序即可得知与搜索主题的相关度的高低。
可选的,还可根据客户端的需求,从M个网页中截选相关度高的多个网页的URL信息反馈给客户端,从而在客户端上可按相关度由高到低的顺序显示反馈的多个网页链接。
本发明实施例中,通过预设的主题字典,可将垂直搜索引擎搜索出的M个网页中的没一个网页的内容分词为N个主题词项,并且预设的主题字典中各主题词项可设置对应的相关度分数,从而,可从主题字典中获取分词出的N个主题词项对应的相关段分值,并可获取与该N个主题词项的标签对应的权重值,当获取到该网页N个主题词项的相关度分值及权重值后,可计算出该网页的相关度加权值,相关度加权值越大,表明与搜索主题的相关度越高,从而可按照计算出的各网页的相关度加权值对所述M个网页进行排序。通过上述方式进行排序的网页能够更加精准的匹配用户搜索主题,从而提高了垂直搜索的匹配结果精确度。
参见图2,图2是本发明中的一种基于垂直搜索的网页排序方法的另一实施例的流程图。该方法可由对应装置或服务器实现。该方法可包括以下步骤。
步骤S201,当检测到垂直搜索引擎搜索出与搜索主题相关的P个网页后,确定所述P个网页的内容类型,其中,所述内容类型包括主题类型、图片类型和超链类型,其中,P为大于等于1的整数。
在一个实施例中,当检测到垂直搜索引擎搜索出与搜索主题相关的P个网页后,可确定该P个网页的内容类型。其中,内容类型可包括主题类型、图片类型和超链类型。主题类型的网页中主体为文字描述、图片类型的网页中主体为图片描述、超链类型的网页中主体为超链链接。
可选的,可通过以下方式中的一种确定网页的内容类型:
方式一,获取所述P个网页中各网页中间位置的内容块;
统计所述内容块中的内容词项数、图片数及超链词项数;
若所述内容词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为主题类型;
若所述图片数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为图片类型;
若所述超链词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为超链类型。具体的,通常网页作者将重要内容放在网页的中间部分,因此,网页中间内容块的内容类型可代表该网页的内容类型。其中,可构造网页的标签树,网页中内容的位置信息在标签树中通过内容块的属性记录下来,因此,可通过构造的网页标签树获取到位于网页中间位置的内容块,并统计该内容块中的内容词项数、图片数及超链词项数,通过统计的各类型内容的数量,可确定内容词项数、图片数及超链词项数分别占内容块的数量比值,其中可根据数量比值最大的一项确定该网页的内容类型。若内容词项数所占内容块的数量比值最大,则确定网页的内容类型为主题类型,若图片数所占内容块的数量比值最大,则确定网页的内容类型为图片类型,若超链词项数所占内容块的数量比值最大,则确定网页的内容类型为超链类型。
方式二,获取所述P个网页中各网页中间位置的内容块;
获取所述内容块中的内容信息、图片信息及超链信息;
从预设的网页权重分布表中获取所述内容信息、图片信息及超链信息分别对应的权重值;
若所述内容信息的权重值最大,则确定网页的内容类型为主题类型;
若所述图片信息的权重值最大,则确定网页的内容类型为图片类型;
若所述超链信息的权重值最大,则确定网页的内容类型为超链类型。
具体的,方式二的重点在于获取内容块中内容信息、图片信息及超链信息分别对应的权重值。其中,可通过预设达的网页权重分布表获取到内容块中的内容信息、图片信息及超链信息对应的权重。具体的,该网页权重分布表可为网页的标签树,每个标签树中的一个节点对应一个内容块,该节点记录了内容块的属性,包括内容块内不同内容信息包含的重要信息标签等,从而可根据内容块记录的属性获取内容信息、图片信息及超链信息分别对应的权重值。若所述内容信息的权重值最大,则确定网页的内容类型为主题类型;若所述图片信息的权重值最大,则确定网页的内容类型为图片类型;若所述超链信息的权重值最大,则确定网页的内容类型为超链类型。
方式三,还可通过网页中的重点内容块确定该网页的内容类型。具体的,也可构建网页的标签树,其中,标签树的每个节点对应一个内容块,并且每个内容块包括属性集,属性集中包含超链个数,重点信息、权重、位置、格式信息等多个用于描述内容块的信息。从而可根据属性集解析出重点内容块,通过统计重点内容块中的内容词项数、图片数及超链词项数分别占用的权重比,确定网页的内容类型。
步骤S202,从所述P个网页中筛选出所述内容类型为主题类型的所述M个网页。
在一个实施例中,当确定P个网页中各网页的内容类型后,可从P个网页中筛选出内容类型为主题类型的M个网页。即以下的方式重点应用于内容类型为主题类型的网页中,该类型的网页通常包含的主题信息量较大。
步骤S203,读取所述M个网页中每一个网页的内容。
在一个实施例中,当筛选出内容类型为主题类型的M个网页后,可读取该M个网页中每一个网页的内容。具体的,可在垂直搜索引擎搜索到多个网页后,通过读取网页对应的URL信息,解析出其中的HTML头的文本类型信息,若文本类型信息为WORD或PDF等,则可以WORD或PDF的形式读取网页中的内容,若文本类型信息为默认HTML类型,则可以文本形式读取网页中的内容。
步骤S204,将所述每一个网页的内容按照逆向最大匹配法分词为Q个词项,其中,Q为大于等于1的整数。
在一个实施例中,当读取中M个网页中每一个网页的内容后,可将该内容按照逆向最大匹配法分词为Q个词项。可选的,还可通过其他分词方式对内容进行分词,本发明实施例采用逆向最大匹配法能够更加准确的对内容进行分词。具体的,从内容的末端开始匹配扫描,每次取设定长度的字符作为匹配字段,若匹配失败,则可去掉匹配字段最前面的一个字继续匹配,直到找到正确的分词。其中,检测切分的词组是否为一个正确词项时,可通过预设的逆向匹配字典,该逆向匹配字典作为通用的词项字典,在本发明实施例中有别于专用的主题字典。
步骤S205,从所述Q个词项中通过所述预设的主题字典筛选出N个主题词项。
在一个实施例中,当对任意一个网页中的内容进行分词后,可从分词后的Q个词项中通过预设的主题字典筛选出N个主题词项。具体的,预设的主题词项可参见图6。其中,图6为搜索主题为医学或心脏的示例性的主题字典,其他主题可参照图6的结构方式预设主题字典。其中,主题字典以哈希树结构存储在内存中。可选的,还可从外部存储器调用与搜索主题相关的主题字典,在此不作限定。图6中每个主题词项均对应预设的相关度分值,相关度分值越大,表明该词项与搜索主题越匹配。
步骤S206,获取所述N个主题词项在所述主题字典中分别对应的相关度分值。
在一个实施例中,当通过预设的主题字典将网页内容分词为N个主题词项后,可在该主题字典中分别获取主题词项对应的相关度分值。具体的,可参见图6中,其中,该主题字典以哈希树的结构存储在内存中,每个节点对应一个主题词项,并且每个节点对应一个相关度分值。其中,该相关度分值可根据用户输入的搜索关键词设定,也可根据历史记录的该主题词项在该搜索主题下被需求的次数或其他方式进行设定,也可通过人为判断该主题词项在该搜索主题下的相关度确定其相关度分值。举例说明,当搜索主题为心脏病时,如图6中的主题字典,若网页中包含心律不齐,则可获取其对应的相关度分值为5分,若网页中还包括临时,则可获取器对应的相关度分值为1分等。其中,图6所示的主题字典相关度分值最小单位为1分,还可设置相关度分值最小单位为0.5分或其他分值,在此不作限定。
步骤S207,获取预设的与所述N个主题词项的标签对应的权重值。
在一个实施例中,还可获取预设的与该N个主题词项的标签对应的权重值。其中,标签用于标识主题词项所在网页中的重要度。具体的,可对网页构建标签树,其中,标签树中的每个节点对应一个标签,通过查找主题词项在标签树的节点,可获取该主题词项的标签,其中,标签可标识该主题词项的位置信息,如当标签为<title>时,则表明该主题词项在网页的标题中,若标签为<h1>时,则表明该主题词项在网页文章的大标题中;标签也可标识该主题词项的格式信息,如当标签为<b>时,则表明该主题词项的显示格式为加粗字体。其中,可预设不同的标签对应不同的权重值,即根据标签确定主题词项在网页中的重要性,如当主题词项的标签为<title>时,其对应的权重值为10,当主题词项的标签为<h1>时,其对应的权重值为5,当主题词项的标签为<b>时,其对应的权重值为2。从而根据主题词项标签的不同,可获取器预设的与主题词项的标签对应的权重值。
步骤S208,根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值。
在一个实施例中,可通过获取到的N个主题词项对应的N个相关度分值及N个权重值,可计算出M个网页中任意一个网页的相关度加权值。具体的,将所述N个主题词项中每一个主题词项对应的相关度分值与权重值进行乘积;将所述N个主题词项分别对应的乘积结果求和;将所述相关度加权值赋值为求和结果与所述N个主题词项分别对应的相关度分值之和的比值。即通过以下公式即可计算出任意一个网页的相关段的加权值:
其中,λ为所述任意一个网页的相关度加权值,kn为所述任意一个网页中第n个主题词项的权重值,pn为所述第n个主题词项的相关度分值。
步骤S209,按照计算出的各网页的相关度加权值对所述M个网页进行排序。
在一个实施例中,当计算出M个网页中各网页的相关度加权值后,可按照加权值由大到小的顺序或由小到大的顺序对该M个网页进行排序。从而从网页排序即可得知与搜索主题的相关度的高低。
可选的,还可根据客户端的需求,从M个网页中截选相关度高的多个网页的URL信息反馈给客户端,从而在客户端上可按相关度由高到低的顺序显示反馈的多个网页链接。
本发明实施例中,通过预设的主题字典,可将垂直搜索引擎搜索出的M个网页中的没一个网页的内容分词为N个主题词项,并且预设的主题字典中各主题词项可设置对应的相关度分数,从而,可从主题字典中获取分词出的N个主题词项对应的相关段分值,并可获取与该N个主题词项的标签对应的权重值,当获取到该网页N个主题词项的相关度分值及权重值后,可计算出该网页的相关度加权值,相关度加权值越大,表明与搜索主题的相关度越高,从而可按照计算出的各网页的相关度加权值对所述M个网页进行排序。通过上述方式进行排序的网页能够更加精准的匹配用户搜索主题,从而提高了垂直搜索的匹配结果精确度。
参见图3,图3是本发明中的一种基于垂直搜索的网页排序装置的一实施例的结构示意图。该装置可包括分词模块301、相关度获取模块302、权重获取模块303、计算模块304、排序模块305。
其中,分词模块301,用于根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,其中,M和N均为大于等于1的整数。
在一个实施例中,当垂直搜索引擎搜索出与搜索主题相关的M个网页后,分词模块301可根据预设的主题字典对M个网页中的每一个网页的内容进行分词,将其分词为N个主题词项。具体的,预设的主题词项可参见图6。其中,图6为搜索主题为医学或心脏的示例性的主题字典,其他主题可参照图6的结构方式预设主题字典。其中,主题字典以哈希树结构存储在内存中。可选的,还可从外部存储器调用与搜索主题相关的主题字典,在此不作限定。图6中每个主题词项均对应预设的相关度分值,相关度分值越大,表明该词项与搜索主题越匹配。可选的,可通过正向最大匹配法或逆向最大匹配法或其他对汉字进行分词的方法对M个网页中任意一个网页的内容进行分词,并可将分词后形成的词组通过预设的主题词项进行过滤,从而可过滤出在主题字典中存在的N个主题词项。
相关度获取模块302,用于获取所述N个主题词项在所述主题字典中分别对应的相关度分值。
在一个实施例中,当分词模块301通过预设的主题字典将网页内容分词为N个主题词项后,相关度获取模块302可在该主题字典中分别获取主题词项对应的相关度分值。具体的,可参见图6中,其中,该主题字典以哈希树的结构存储在内存中,每个节点对应一个主题词项,并且每个节点对应一个相关度分值。其中,该相关度分值可根据用户输入的搜索关键词设定,也可根据历史记录的该主题词项在该搜索主题下被需求的次数或其他方式进行设定,也可通过人为判断该主题词项在该搜索主题下的相关度确定其相关度分值。举例说明,当搜索主题为心脏病时,如图6中的主题字典,若网页中包含心律不齐,则可获取其对应的相关度分值为5分,若网页中还包括临时,则可获取器对应的相关度分值为1分等。其中,图6所示的主题字典相关度分值最小单位为1分,还可设置相关度分值最小单位为0.5分或其他分值,在此不作限定。
权重获取模块303,用于获取预设的与所述N个主题词项的标签对应的权重值。
在一个实施例中,还可通过权重获取模块303获取预设的与该N个主题词项的标签对应的N个权重值。其中,标签用于标识主题词项所在网页中的重要度。具体的,可对网页构建标签树,其中,标签树中的每个节点对应一个标签,通过查找主题词项在标签树的节点,可获取该主题词项的标签,其中,标签可标识该主题词项的位置信息,如当标签为<title>时,则表明该主题词项在网页的标题中,若标签为<h1>时,则表明该主题词项在网页文章的大标题中;标签也可标识该主题词项的格式信息,如当标签为<b>时,则表明该主题词项的显示格式为加粗字体。其中,可预设不同的标签对应不同的权重值,即根据标签确定主题词项在网页中的重要性,如当主题词项的标签为<title>时,其对应的权重值为10,当主题词项的标签为<h1>时,其对应的权重值为5,当主题词项的标签为<b>时,其对应的权重值为2。从而根据主题词项标签的不同,可获取器预设的与主题词项的标签对应的权重值。
计算模块304,用于根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值。
在一个实施例中,可通过相关度获取模块302获取到的N个主题词项对应的N个相关度分值及权重获取模块303获取到的N个权重值,计算模块304可计算出M个网页中任意一个网页的相关度加权值。具体的,可确定相关度加权值为权重值与相关度分值乘积的总和与相关度分值的总和的比值。需要说明的是,通过其他方式确定相关度权重比等能够确定网页相关度匹配度的参数,能够完成网页相关度排序的方式也在本发明的保护范围之内。
排序模块305,用于按照计算出的各网页的相关度加权值对所述M个网页进行排序。
在一个实施例中,当计算模块304计算出M个网页中各网页的相关度加权值后,排序模块305可按照加权值由大到小的顺序或由小到大的顺序对该M个网页进行排序。从而从网页排序即可得知与搜索主题的相关度的高低。
可选的,还可根据客户端的需求,从M个网页中截选相关度高的多个网页的URL信息反馈给客户端,从而在客户端上可按相关度由高到低的顺序显示反馈的多个网页链接。
本发明实施例中,通过预设的主题字典,可将垂直搜索引擎搜索出的M个网页中的没一个网页的内容分词为N个主题词项,并且预设的主题字典中各主题词项可设置对应的相关度分数,从而,可从主题字典中获取分词出的N个主题词项对应的相关段分值,并可获取与该N个主题词项的标签对应的权重值,当获取到该网页N个主题词项的相关度分值及权重值后,可计算出该网页的相关度加权值,相关度加权值越大,表明与搜索主题的相关度越高,从而可按照计算出的各网页的相关度加权值对所述M个网页进行排序。通过上述方式进行排序的网页能够更加精准的匹配用户搜索主题,从而提高了垂直搜索的匹配结果精确度。
参见图4,图4是本发明中的一种基于垂直搜索的网页排序装置的另一实施例的结构示意图。该装置可包括确定模块401、网页筛选模块402、分词模块403、相关度获取模块404、权重获取模块405、计算模块406、排序模块407。
其中,确定模块401,用于当检测到垂直搜索引擎搜索出与搜索主题相关的P个网页后,确定所述P个网页中各网页的内容类型,其中,所述内容类型包括主题类型、图片类型和超链类型,其中,P为大于等于1的整数。
在一个实施例中,当检测到垂直搜索引擎搜索出与搜索主题相关的P个网页后,可确定该P个网页的内容类型。其中,内容类型可包括主题类型、图片类型和超链类型。主题类型的网页中主体为文字描述、图片类型的网页中主体为图片描述、超链类型的网页中主体为超链链接。
本发明实施例中,可通过以下单元确定各网页的内容类型:
第一内容块获取单元,用于获取所述P个网页中各网页中间位置的内容块;
统计单元,用于统计所述内容块中的内容词项数、图片数及超链词项数;
第一确定单元,用于:
若所述内容词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为主题类型;
若所述图片数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为图片类型;
若所述超链词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为超链类型。
具体的,通常网页作者将重要内容放在网页的中间部分,因此,网页中间内容块的内容类型可代表该网页的内容类型。其中,可构造网页的标签树,网页中内容的位置信息在标签树中通过内容块的属性记录下来,因此,第一内容块获取单元可通过构造的网页标签树获取到位于网页中间位置的内容块,并统计单元统计该内容块中的内容词项数、图片数及超链词项数,通过统计的各类型内容的数量,可确定内容词项数、图片数及超链词项数分别占内容块的数量比值,其中可根据数量比值最大的一项确定该网页的内容类型。若内容词项数所占内容块的权重比值最大,则第一确定单元确定网页的内容类型为主题类型,若图片数所占内容块的权重比值最大,则第一确定单元确定网页的内容类型为图片类型,若超链词项数所占内容块的权重比值最大,则第一确定单元确定网页的内容类型为超链类型。
本发明实施例中,还可通过以下单元确定各网页的内容类型:
第二内容块获取单元,用于获取所述P个网页中各网页中间位置的内容块;
信息获取单元,用于获取所述内容块中的内容信息、图片信息及超链信息;
权重值获取单元,用于从预设的网页权重分布表中获取所述内容信息、图片信息及超链信息分别对应的权重值;
第二确定单元,用于:
若所述内容信息的权重值最大,则确定网页的内容类型为主题类型;
若所述图片信息的权重值最大,则确定网页的内容类型为图片类型;
若所述超链信息的权重值最大,则确定网页的内容类型为超链类型。
具体的,方式二的重点在于获取内容块中内容信息、图片信息及超链信息分别对应的权重值。其中,信息获取单元可通过预设达的网页权重分布表获取到内容块中的内容信息、图片信息及超链信息对应的权重。具体的,该网页权重分布表可为网页的标签树,每个标签树中的一个节点对应一个内容块,该节点记录了内容块的属性,包括内容块内不同内容信息包含的重要信息标签等,从而权重值获取单元可根据内容块记录的属性获取内容信息、图片信息及超链信息分别对应的权重值。若所述内容信息的权重值最大,则确第二确定单元定网页的内容类型为主题类型;若所述图片信息的权重值最大,则第二确定单元确定网页的内容类型为图片类型;若所述超链信息的权重值最大,则第二确定单元确定网页的内容类型为超链类型。
网页筛选模块402,用于从所述P个网页中筛选出所述内容类型为主题类型的所述M个网页。
在一个实施例中,当确定模块401确定P个网页中各网页的内容类型后,网页筛选模块402可从P个网页中筛选出内容类型为主题类型的M个网页。即以下的方式重点应用于内容类型为主题类型的网页中,该类型的网页通常包含的主题信息量较大。
分词模块403,用于根据预设的主题字典将所述内容类型为主题类型的M个网页中每一个网页的内容分词为N个主题词项。
本发明实施例中,分词模块403包括以下单元:
读取单元4031,用于读取所述M个网页中任意一个网页的内容。
在一个实施例中,当网页筛选模块402筛选出内容类型为主题类型的M个网页后,读取单元4031可读取该M个网页中每一个网页的内容。具体的,可在垂直搜索引擎搜索到多个网页后,通过读取网页对应的URL信息,解析出其中的HTML头的文本类型信息,若文本类型信息为WORD或PDF等,则可以WORD或PDF的形式读取网页中的内容,若文本类型信息为默认HTML类型,则可以文本形式读取网页中的内容。
分词单元4032,用于将所述每一个网页的内容按照逆向最大匹配法分词为Q个词项,其中,Q为大于等于1的整数。
在一个实施例中,当读取单元4031读取中M个网页中每一个网页的内容后,分词单元4032可将该内容按照逆向最大匹配法分词为Q个词项。可选的,还可通过其他分词方式对内容进行分词,本发明实施例采用逆向最大匹配法能够更加准确的对内容进行分词。具体的,从内容的末端开始匹配扫描,每次取设定长度的字符作为匹配字段,若匹配失败,则可去掉匹配字段最前面的一个字继续匹配,直到找到正确的分词。其中,检测切分的词组是否为一个正确词项时,可通过预设的逆向匹配字典,该逆向匹配字典作为通用的词项字典,在本发明实施例中有别于专用的主题字典。
词项筛选单元4033,用于从所述Q个词项中通过所述预设的主题字典筛选出N个主题词项。
在一个实施例中,当分词单元4032对任意一个网页中的内容进行分词后,词项筛选单元4033可从分词后的Q个词项中通过预设的主题字典筛选出N个主题词项。具体的,预设的主题词项可参见图6。其中,图6为搜索主题为医学或心脏的示例性的主题字典,其他主题可参照图6的结构方式预设主题字典。其中,主题字典以哈希树结构存储在内存中。可选的,还可从外部存储器调用与搜索主题相关的主题字典,在此不作限定。图6中每个主题词项均对应预设的相关度分值,相关度分值越大,表明该词项与搜索主题越匹配。
相关度获取模块404,用于获取所述N个主题词项在所述主题字典中分别对应的相关度分值。
在一个实施例中,当词项筛选单元4033从Q个词项中通过预设的主题字典筛选出N个主题词项后,相关度获取模块404可在该主题字典中分别获取主题词项对应的相关度分值。具体的,可参见图6中,其中,该主题字典以哈希树的结构存储在内存中,每个节点对应一个主题词项,并且每个节点对应一个相关度分值。其中,该相关度分值可根据用户输入的搜索关键词设定,也可根据历史记录的该主题词项在该搜索主题下被需求的次数或其他方式进行设定,也可通过人为判断该主题词项在该搜索主题下的相关度确定其相关度分值。举例说明,当搜索主题为心脏病时,如图6中的主题字典,若网页中包含心律不齐,则可获取其对应的相关度分值为5分,若网页中还包括临时,则可获取器对应的相关度分值为1分等。其中,图6所示的主题字典相关度分值最小单位为1分,还可设置相关度分值最小单位为0.5分或其他分值,在此不作限定。
权重获取模块405,用于获取预设的与所述N个主题词项的标签对应的权重值。
在一个实施例中,权重获取模块405还可获取预设的与该N个主题词项的标签对应的N个权重值。其中,标签用于标识主题词项所在网页中的重要度。具体的,可对网页构建标签树,其中,标签树中的每个节点对应一个标签,通过查找主题词项在标签树的节点,可获取该主题词项的标签,其中,标签可标识该主题词项的位置信息,如当标签为<title>时,则表明该主题词项在网页的标题中,若标签为<h1>时,则表明该主题词项在网页文章的大标题中;标签也可标识该主题词项的格式信息,如当标签为<b>时,则表明该主题词项的显示格式为加粗字体。其中,可预设不同的标签对应不同的权重值,即根据标签确定主题词项在网页中的重要性,如当主题词项的标签为<title>时,其对应的权重值为10,当主题词项的标签为<h1>时,其对应的权重值为5,当主题词项的标签为<b>时,其对应的权重值为2。从而根据主题词项标签的不同,可获取器预设的与主题词项的标签对应的权重值。
计算模块406,用于根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值。
在一个实施例中,通过相关度获取模块404获取到的N个主题词项对应的N个相关度分值及权重获取模块405获取到的N个权重值,计算模块406可计算出M个网页中任意一个网页的相关度加权值。具体的,计算模块406可包括以下单元:
乘积单元,用于将所述N个主题词项中每一个主题词项对应的相关度分值与权重值进行乘积;
求和单元,用于将所述N个主题词项分别对应的乘积结果求和;
赋值单元,用于将所述相关度加权值赋值为求和结果与所述N个主题词项分别对应的相关度分值之和的比值。
即通过以下公式即可计算出任意一个网页的相关段的加权值:
其中,λ为所述任意一个网页的相关度加权值,kn为所述任意一个网页中第n个主题词项的权重值,pn为所述第n个主题词项的相关度分值。
排序模块407,用于按照计算出的各网页的相关度加权值对所述M个网页进行排序。
在一个实施例中,当计算模块406计算出M个网页中各网页的相关度加权值后,排序模块407可按照加权值由大到小的顺序或由小到大的顺序对该M个网页进行排序。从而从网页排序即可得知与搜索主题的相关度的高低。
可选的,还可根据客户端的需求,从M个网页中截选相关度高的多个网页的URL信息反馈给客户端,从而在客户端上可按相关度由高到低的顺序显示反馈的多个网页链接。
本发明实施例中,通过预设的主题字典,可将垂直搜索引擎搜索出的M个网页中的没一个网页的内容分词为N个主题词项,并且预设的主题字典中各主题词项可设置对应的相关度分数,从而,可从主题字典中获取分词出的N个主题词项对应的相关段分值,并可获取与该N个主题词项的标签对应的权重值,当获取到该网页N个主题词项的相关度分值及权重值后,可计算出该网页的相关度加权值,相关度加权值越大,表明与搜索主题的相关度越高,从而可按照计算出的各网页的相关度加权值对所述M个网页进行排序。通过上述方式进行排序的网页能够更加精准的匹配用户搜索主题,从而提高了垂直搜索的匹配结果精确度。
参见图5,是本发明中的一种电子设备的一实施例的结构示意图。该电子设备可以包括:至少一个处理器501,如CPU,至少一个收发器503,存储器504以及至少一个通信总线502。其中,通信总线502用于实现这些组件之间的连接通信,收发器503可以包括标准的有线接口及无线接口,存储器504可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),如至少一个磁盘存储器,可选的,存储器504还可以是至少一个位于远离前述处理器501的存储装置。其中,存储器504中存储一组程序代码,且处理器501调用存储器504中存储的程序代码,用于执行以下操作:
根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,其中,M和N均为大于等于1的整数;
获取所述N个主题词项在所述主题字典中分别对应的相关度分值;
获取预设的与所述N个主题词项的标签对应的权重值;
根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值;
按照计算出的各网页的相关度加权值对所述M个网页进行排序。
作为可选的实施例,所述根据预设的主题字典将垂直搜索引擎搜索出的M个网页中任意一个网页的内容分词为N个主题词项之前,处理器501还调用存储器504中存储的程序代码以执行以下操作:
当检测到垂直搜索引擎搜索出与搜索主题相关的P个网页后,确定所述P个网页中各网页的内容类型,其中,所述内容类型包括主题类型、图片类型和超链类型,其中,P为大于等于1的整数;
从所述P个网页中筛选出所述内容类型为主题类型的所述M个网页;
其中,所述根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项包括:
根据预设的主题字典将所述内容类型为主题类型的所述M个网页中每一个网页的内容分词为N个主题词项。
作为可选的实施例,所述确定所述P个网页中各网页的内容类型包括:
获取所述P个网页中各网页中间位置的内容块;
统计所述内容块中的内容词项数、图片数及超链词项数;
若所述内容词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为主题类型;
若所述图片数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为图片类型;
若所述超链词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为超链类型。
作为可选的实施例,所述确定所述P个网页中各网页的内容类型包括:
获取所述P个网页中各网页中间位置的内容块;
获取所述内容块中的内容信息、图片信息及超链信息;
从预设的网页权重分布表中获取所述内容信息、图片信息及超链信息分别对应的权重值;
若所述内容信息的权重值最大,则确定网页的内容类型为主题类型;
若所述图片信息的权重值最大,则确定网页的内容类型为图片类型;
若所述超链信息的权重值最大,则确定网页的内容类型为超链类型。
作为可选的实施例,
所述根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,包括:
读取所述M个网页中每一个网页的内容;
将所述每一个网页的内容按照逆向最大匹配法分词为Q个词项,其中,Q为大于等于1的整数;
从所述Q个词项中通过所述预设的主题字典筛选出N个主题词项。
作为可选的实施例,
所述根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值包括:
将所述N个主题词项中每一个主题词项对应的相关度分值与权重值进行乘积;
将所述N个主题词项分别对应的乘积结果求和;
将所述相关度加权值赋值为求和结果与所述N个主题词项分别对应的相关度分值之和的比值。
本发明实施例中,通过预设的主题字典,可将垂直搜索引擎搜索出的M个网页中的没一个网页的内容分词为N个主题词项,并且预设的主题字典中各主题词项可设置对应的相关度分数,从而,可从主题字典中获取分词出的N个主题词项对应的相关段分值,并可获取与该N个主题词项的标签对应的权重值,当获取到该网页N个主题词项的相关度分值及权重值后,可计算出该网页的相关度加权值,相关度加权值越大,表明与搜索主题的相关度越高,从而可按照计算出的各网页的相关度加权值对所述M个网页进行排序。通过上述方式进行排序的网页能够更加精准的匹配用户搜索主题,从而提高了垂直搜索的匹配结果精确度。
参见图7,图7本发明实施例还提供了一种搜索系统,其中包括服务器701及客户端702,服务器的具体结构可参见图3-图5所述结构。服务器与客户端可通过局域网或互联网建立通信连接。其中,客户端可与用户进行信息交互,可显示搜索页面,用户能够在搜索页面上输入搜索主题,客户端接收到用户输入的搜索主题后,可向服务器发送搜索请求,其中,搜索请求中包含搜索主题,服务器可接收该请求,并通过垂直搜索引擎进行搜索,当搜索出与搜索主题相关的网页后,可参见图1或图2所述的方法对网页进行排序。并可根据客户端的要求反馈要求数量的网页,其中,该网页为排序中相关度高的多个网页。通过该搜索系统搜索出的网页能够更加精准的匹配用户搜索主题,从而提高了垂直搜索的匹配结果精确度。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例终端或设备中的单元或子单元可以根据实际需要进行合并、划分和删减。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所述的实施方式,并不构成对该技术方案保护范围的限定。任何在上述实施方式的精神和原则之内所作的修改、等同替换和改进等,均应包含在该技术方案的保护范围之内。
Claims (10)
1.一种基于垂直搜索的网页排序方法,其特征在于,包括:
根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,其中,M和N均为大于等于1的整数;
获取所述N个主题词项在所述主题字典中分别对应的相关度分值;
获取预设的与所述N个主题词项的标签对应的权重值;
根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值;
按照计算出的各网页的相关度加权值对所述M个网页进行排序。
2.如权利要求1所述方法,其特征在于,所述根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项之前还包括:
当检测到垂直搜索引擎搜索出与搜索主题相关的P个网页后,确定所述P个网页中各网页的内容类型,其中,所述内容类型包括主题类型、图片类型和超链类型,其中,P为大于等于1的整数;
从所述P个网页中筛选出所述内容类型为主题类型的所述M个网页;
其中,所述根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项包括:
根据预设的主题字典将所述内容类型为主题类型的所述M个网页中每一个网页的内容分词为N个主题词项。
3.如权利要求2所述方法,其特征在于,所述确定所述P个网页中各网页的内容类型包括:
获取所述P个网页中各网页中间位置的内容块;
统计所述内容块中的内容词项数、图片数及超链词项数;
若所述内容词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为主题类型;
若所述图片数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为图片类型;
若所述超链词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为超链类型。
4.如权利要求2所述方法,其特征在于,所述确定所述P个网页中各网页的内容类型包括:
获取所述P个网页中各网页中间位置的内容块;
获取所述内容块中的内容信息、图片信息及超链信息;
从预设的网页权重分布表中获取所述内容信息、图片信息及超链信息分别对应的权重值;
若所述内容信息的权重值最大,则确定网页的内容类型为主题类型;
若所述图片信息的权重值最大,则确定网页的内容类型为图片类型;
若所述超链信息的权重值最大,则确定网页的内容类型为超链类型。
5.如权利要求1-4任一项所述方法,其特征在于,所述根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,包括:
读取所述M个网页中每一个网页的内容;
将所述每一个网页的内容按照逆向最大匹配法分词为Q个词项,其中,Q为大于等于1的整数;
从所述Q个词项中通过所述预设的主题字典筛选出N个主题词项。
6.如权利要求5所述方法,其特征在于,所述根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值包括:
将所述N个主题词项中每一个主题词项对应的相关度分值与权重值进行乘积;
将所述N个主题词项分别对应的乘积结果求和;
将所述相关度加权值赋值为求和结果与所述N个主题词项分别对应的相关度分值之和的比值。
7.一种基于垂直搜索的网页排序装置,其特征在于,包括:
分词模块,用于根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,其中,M和N均为大于等于1的整数;
相关度获取模块,用于获取所述N个主题词项在所述主题字典中分别对应的相关度分值;
权重获取模块,用于获取预设的与所述N个主题词项的标签对应的权重值;
计算模块,用于根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值;
排序模块,用于按照计算出的各网页的相关度加权值对所述M个网页进行排序。
8.如权利要求7所述装置,其特征在于,还包括:
确定模块,用于所述分词模块根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项之前,当检测到垂直搜索引擎搜索出与搜索主题相关的P个网页后,确定所述P个网页中各网页的内容类型,其中,所述内容类型包括主题类型、图片类型和超链类型,其中,P为大于等于1的整数;
网页筛选模块,用于从所述P个网页中筛选出所述内容类型为主题类型的所述M个网页;
其中,所述分词模块还用于:
根据预设的主题字典将所述内容类型为主题类型的所述M个网页中每一个网页的内容分词为N个主题词项。
9.如权利要求8所述装置,其特征在于,所述确定模块包括:
第一内容块获取单元,用于获取所述P个网页中各网页中间位置的内容块;
统计单元,用于统计所述内容块中的内容词项数、图片数及超链词项数;
第一确定单元,用于:
若所述内容词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为主题类型;
若所述图片数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为图片类型;
若所述超链词项数占所述内容块的内容词项数、图片数及超链词项数的总和最大,则确定网页的内容类型为超链类型。
10.一种服务器,其特征在于,包括收发器、存储器及处理器,其中,所述存储器中存储一组程序代码,且所述处理器调用所述存储器中存储的程序代码,用于执行以下操作:
根据预设的主题字典将垂直搜索引擎搜索出的M个网页中每一个网页的内容分词为N个主题词项,其中,M和N均为大于等于1的整数;
获取所述N个主题词项在所述主题字典中分别对应的相关度分值;
获取预设的与所述N个主题词项的标签对应的权重值;
根据所述相关度分值与所述权重值计算出所述每一个网页的相关度加权值;
按照计算出的各网页的相关度加权值对所述M个网页进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511030021.9A CN105550359B (zh) | 2015-12-31 | 2015-12-31 | 一种基于垂直搜索的网页排序方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511030021.9A CN105550359B (zh) | 2015-12-31 | 2015-12-31 | 一种基于垂直搜索的网页排序方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105550359A true CN105550359A (zh) | 2016-05-04 |
CN105550359B CN105550359B (zh) | 2019-04-26 |
Family
ID=55829548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511030021.9A Active CN105550359B (zh) | 2015-12-31 | 2015-12-31 | 一种基于垂直搜索的网页排序方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105550359B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657005A (zh) * | 2017-09-22 | 2018-02-02 | 山东浪潮云服务信息科技有限公司 | 一种主题网页的检索方法及装置 |
CN108063974A (zh) * | 2017-12-12 | 2018-05-22 | 深圳市雷鸟信息科技有限公司 | 电视活动页面数据传输方法、电视设备、系统及存储介质 |
CN109145195A (zh) * | 2017-06-28 | 2019-01-04 | 南宁富桂精密工业有限公司 | 信息推荐方法、电子装置及计算机可读存储介质 |
CN110188300A (zh) * | 2019-05-30 | 2019-08-30 | 吉林大学 | 一种面向汽车领域的采购信息的处理方法及装置 |
CN110609794A (zh) * | 2019-09-12 | 2019-12-24 | 中国联合网络通信集团有限公司 | 页面检测方法及装置 |
CN111597412A (zh) * | 2020-04-27 | 2020-08-28 | 必圈信息技术(湖北)有限公司 | 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385585A (zh) * | 2010-08-27 | 2012-03-21 | 阿里巴巴集团控股有限公司 | 网页数据库的建立方法、网页搜索方法以及相关装置 |
CN102929962A (zh) * | 2012-10-11 | 2013-02-13 | 中国科学技术大学 | 一种搜索引擎的评测方法 |
CN103186574A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种搜索结果的生成方法和装置 |
WO2015196909A1 (zh) * | 2014-06-27 | 2015-12-30 | 北京奇虎科技有限公司 | 一种分词方法和装置 |
-
2015
- 2015-12-31 CN CN201511030021.9A patent/CN105550359B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385585A (zh) * | 2010-08-27 | 2012-03-21 | 阿里巴巴集团控股有限公司 | 网页数据库的建立方法、网页搜索方法以及相关装置 |
CN103186574A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种搜索结果的生成方法和装置 |
CN102929962A (zh) * | 2012-10-11 | 2013-02-13 | 中国科学技术大学 | 一种搜索引擎的评测方法 |
WO2015196909A1 (zh) * | 2014-06-27 | 2015-12-30 | 北京奇虎科技有限公司 | 一种分词方法和装置 |
Non-Patent Citations (1)
Title |
---|
张思发,马永格: ""面向地学信息领域垂直搜索引擎设计与实现"", 《计算机工程与应用》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145195A (zh) * | 2017-06-28 | 2019-01-04 | 南宁富桂精密工业有限公司 | 信息推荐方法、电子装置及计算机可读存储介质 |
CN107657005A (zh) * | 2017-09-22 | 2018-02-02 | 山东浪潮云服务信息科技有限公司 | 一种主题网页的检索方法及装置 |
CN107657005B (zh) * | 2017-09-22 | 2020-03-20 | 浪潮云信息技术有限公司 | 一种主题网页的检索方法及装置 |
CN108063974A (zh) * | 2017-12-12 | 2018-05-22 | 深圳市雷鸟信息科技有限公司 | 电视活动页面数据传输方法、电视设备、系统及存储介质 |
CN108063974B (zh) * | 2017-12-12 | 2021-08-06 | 深圳市雷鸟网络传媒有限公司 | 电视活动页面数据传输方法、电视设备、系统及存储介质 |
CN110188300A (zh) * | 2019-05-30 | 2019-08-30 | 吉林大学 | 一种面向汽车领域的采购信息的处理方法及装置 |
CN110609794A (zh) * | 2019-09-12 | 2019-12-24 | 中国联合网络通信集团有限公司 | 页面检测方法及装置 |
CN111597412A (zh) * | 2020-04-27 | 2020-08-28 | 必圈信息技术(湖北)有限公司 | 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法 |
CN111597412B (zh) * | 2020-04-27 | 2023-08-22 | 必圈信息技术(湖北)有限公司 | 一种基于ElasticSearch实现多维度智能搜索相关数据的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105550359B (zh) | 2019-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105550359A (zh) | 一种基于垂直搜索的网页排序方法、装置及服务器 | |
US8060501B1 (en) | Document ranking based on semantic distance between terms in a document | |
CN105045781B (zh) | 查询词相似度计算方法及装置、查询词搜索方法及装置 | |
CN101950312B (zh) | 一种互联网网页内容解析方法 | |
US9519718B2 (en) | Webpage information detection method and system | |
CN101963965B (zh) | 基于搜索引擎的文档索引方法、数据查询方法及服务器 | |
US20020021838A1 (en) | Adaptively weighted, partitioned context edit distance string matching | |
US20120284270A1 (en) | Method and device to detect similar documents | |
CN102411617B (zh) | 一种对海量url进行存储和查询方法 | |
JP2009104591A (ja) | ウェブ文書クラスタリング方法およびシステム | |
WO2015047920A1 (en) | Title and body extraction from web page | |
CN103136228A (zh) | 一种图片搜索方法以及图片搜索装置 | |
CN105786951A (zh) | 一种网页中内容块的提取方法、装置及服务器 | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
CN110377796B (zh) | 基于dom树的正文抽取方法、装置、设备及存储介质 | |
US20150161179A1 (en) | Automatic determination of whether a document includes an image gallery | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
CN105528357A (zh) | 一种基于url和网页文档结构的相似性的网页内容提取方法 | |
CN109062876A (zh) | 一种基于dom网页剪枝的相似网页查找方法及系统 | |
CN106202349B (zh) | 网页分类字典生成方法及装置 | |
CN113568940A (zh) | 数据查询的方法、装置、设备以及存储介质 | |
CN113420219A (zh) | 用于查询信息纠错的方法、装置、电子设备及可读存储介质 | |
KR20220116086A (ko) | 텍스트 데이터의 수집·정제 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |