CN101908071B

CN101908071B - 一种提高搜索引擎搜索效率的方法及其系统

Info

Publication number: CN101908071B
Application number: CN 201010250103
Authority: CN
Inventors: 章正道; 林胜通; 刘祥南
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2010-08-10
Filing date: 2010-08-10
Publication date: 2012-09-05
Anticipated expiration: 2030-08-10
Also published as: CN101908071A

Abstract

本发明公开了一种提高搜索引擎搜索效率的方法及其系统，包括搜索结果预处理模块、网页url分析模块、网页爬虫模块、网页结构分析模块、网页正文分析模块、分类搜索结果库和分类显示模块；它将搜索引擎的返回结果进行预处理，获取网页url、命中关键字；再对网页url进行分析，并保存到分类搜索结果库中，其中包括对属于网站首页类型的网页进行过滤，对其余的网页进行下载，并根据文字链接比，判断是否属于目录型网页，对非网站首页类型和非目录网页类型的网页进行正文抽取，提取正文字数，并判断正文中是否包含关键字；最后对保存到分类搜索结果库中的分析结果进行分类显示。通过本发明，能够大幅提高用户的搜索效率，减少其劳动强度。

Description

一种提高搜索引擎搜索效率的方法及其系统

技术领域

本发明涉及计算机网络技术领域，特别是涉及一种提高搜索引擎搜索效率的方法及其系统。

背景技术

搜索引擎(search engine)是一种根据一定的策略、运用特定的计算机程序搜集互联网上的信息，并在对信息进行组织和处理后，将处理后的信息显示给用户，以为用户提供检索服务的系统。目前，随着互联网的迅速发展，搜索引擎已成为互联网的重要应用之一。为了在互联网上数以百亿计的网页中寻找信息，人们往往求助于搜索引擎。

如今搜索引擎索引的网页越来越多，已经达到上百亿。加上搜索引擎排名优化技术(SEO)可以使一些相关性不大的网页出现在搜索结果中，使得用户在输入查询词之后，往往返回大量的结果；因此，用户在搜索信息的过程中，往往需要付出大量的劳动，才能从搜索引擎返回的大量结果中，找到自己想要的信息。这是因为搜索引擎需要在查全率和查准率中找寻一个平衡，并且根据网页流行度进行排序，加上搜索引擎排名优化技术(SEO)的干扰，使得搜索结果难以准确匹配用户需求。

发明内容

本发明的目的在于克服现有技术之不足，提供一种提高搜索引擎搜索效率的方法及其系统，通过对搜索引擎返回的结果进行分析，并加以归类和排序，从而方便用户快速定位到目标网页，提高搜索效率，减少人工劳动。

本发明解决其技术问题所采用的技术方案是：一种提高搜索引擎搜索效率的方法，包括如下步骤：

对搜索引擎的搜索结果进行预处理，获取网页url、命中关键字；

对网页url进行分析，过滤出属于网站首页的url，将本步骤过滤出的搜索结果标记为首页型并存入分类搜索结果库；

对上一步骤之后余下的网页进行下载；

对所下载的网页进行结构分析，过滤出属于目录型网页，将本步骤过滤出的搜索结果标记为目录型并存入分类搜索结果库；

将上一步骤之后余下的网页认定为内容型网页，对内容型网页进行正文分析，判断正文中是否包含关键字，并将分析结果存入分类搜索结果库；

对保存到分类搜索结果库中的分析结果进行分类显示，并对用户提供分类浏览和排序的步骤。

所述的对搜索引擎的搜索结果进行预处理而获取网页url、命中关键字的步骤，是通过分析搜索结果的html代码，使用模板匹配方式，提取每一条搜索结果的属性。

所述的对网页url进行分析而过滤出属于网站首页的url的步骤，是将url中的协议之后，以域名结束，或者以首个“/”分隔符结束来定义为网站首页。

所述的对网页url进行分析而过滤出属于网站首页的url的步骤，还包括将url中的协议之后，以第二个或第三个“/”分隔符结束来定义为二级网站首页或三级网站首页。

所述的对网页进行结构分析而过滤出属于目录型网页，是根据文字链接比，来判断是否属于目录型网页，其包括如下步骤：

a1.使用正则匹配获取所有超链接，并在去除空格后，计算全部超链接文本的字数L；

a2.去除html标记、脚本代码、样式代码，得到纯文本，并在去除空格后，计算全部纯文本字数T；

a3.计算L/T的值，在该L/T的值超过预设阈值时，则认定为目录型网页，并将此类型的网页标记为目录型并保存到分类搜索结果库。

所述的对内容型网页进行正文分析，判断正文中是否包含关键字，其包括如下步骤：

b1.根据html网页源代码建立标签树的模型；

b2.遍历该树，计算每个叶子节点的父节点所包含的文字字数；

b3.比较各父节点的文字字数，抽取出父节点中所包含的文字字数最多的一个为该网页的正文，判断该正文中是否包含关键字，对包含关键字的作出对应的标记，并保存到分类搜索结果库。

一种提高搜索引擎搜索效率的系统，包括：

搜索结果预处理模块，用于对搜索引擎的返回结果进行分析处理，并提取每一条搜索结果的属性；

网页url分析模块，用于对所提取的网页url进行分析；

网页爬虫模块，用于下载非网站首页类型的网页；

网页结构分析模块，用于分析网页结构；

网页正文分析模块：用于进行正文抽取，获取正文字数，并判断正文中是否包括搜索的关键字；

分类搜索结果库，用于保存分析后的搜索结果；

分类显示模块，用于分类显示分析后的搜索结果；

其中，搜索结果预处理模块的输出接至网页url分析模块的输入，前者将提取的每一条搜索结果的属性输出给后者；网页url分析模块的输出分别接至网页爬虫模块和分类搜索结果库，网页url分析模块将属于网站首页类型的url输出给分类搜索结果库，将属于非网站首页类型的url输出给网页爬虫模块；网页爬虫模块的输出接至网页结构分析模块的输入，前者将所下载的网页内容输出给后者；网页结构分析模块的输出分别接至网页正文分析模块和分类搜索结果库，网页结构分析模块将属于目录型的网页url输出给分类搜索结果库，将属于其他网页类型的网页内容输出给网页正文分析模块；网页正文分析模块的输出接至分类搜索结果库模块，前者将分析的结果输出给后者；分类搜索结果库模块的输出接至分类显示模块，前者将保存后的分析结果输出给后者。

本发明的一种提高搜索引擎搜索效率的方法及其系统，可以将网页区分为三种类型：网站首页类型，指一个网站的首页或二级首页，其url特征为：以域名结束或者目录结束；目录型网页类型，当一个网页的内容，相当大一部分属于超链接时，这种网页一般是起到导航作用，归属到目录型网页类型；内容型网页类型，不属于网站首页类型和目录型网页类型的网页，归属到内容网页类型。

本发明的有益效果是，由于采用搜索结果预处理模块对搜索引擎的返回结果进行分析，并提取搜索结果的属性；采用网页url分析模块对所提取的网页url进行分析，并过滤出网站首页类型的网页，保存到分类搜索结果库；采用网页爬虫模块对非网站首页类型的网页进行下载，采用网页结构分析模块对所下载的非网站首页类型的网页进行分析，并过滤出目录型网页，保存到分类搜索结果库；采用网页正文分析模块对非网站首页类型和非目录型的网页进行正文抽取，获取正文字数，并判断正文中是否包括搜索的关键字，保存到分类搜索结果库；采用分类显示模块对分析后的搜索结果进行分类显示和排序，使得用户可以将搜索结果进一步进行分析和分类，并通过类别导航和排序规则，实现快速浏览、定位到最匹配的信息。因此，本发明能大幅提高用户的检索效率，减少用户的劳动强度；本发明还可将分析结果保存到数据库中，从而提供给多用户使用，减少网络流量。

以下结合附图及实施例对本发明作进一步详细说明；但本发明的一种提高搜索引擎搜索效率的方法及其系统不局限于实施例。

附图说明

图1是本发明的原理框图；

图2是本发明的流程示意图；

图3是本发明的html标签树的结构示意图。

具体实施方式

实施例，请参见图1所示，本发明的一种提高搜索引擎搜索效率的系统，包括：

搜索结果预处理模块1，用于对搜索引擎的返回结果进行分析处理，并提取每一条搜索结果的属性，包括网页url、命中关键字；

网页url分析模块2，用于对所提取的网页url进行分析，以过滤出网站首页类型的url和非网站首页类型的url；

网页爬虫模块3，用于下载非网站首页类型的网页；

网页结构分析模块4，用于分析网页结构，以根据文字链接比分离出目录型网页；

网页正文分析模块5：用于进行正文抽取，获取正文字数，并判断正文中是否包括搜索的关键字；

分类搜索结果库6，用于保存分析后的搜索结果；

分类显示模块7，用于分类显示分析后的搜索结果；

其中，搜索结果预处理模块1的输出接至网页url分析模块2的输入，前者将提取的每一条搜索结果的属性输出给后者；网页url分析模块2的输出分别接至网页爬虫模块3和分类搜索结果库4，网页url分析模块2将属于网站首页类型的url输出给分类搜索结果库6，将属于非网站首页类型的url输出给网页爬虫模块3；网页爬虫模块3的输出接至网页结构分析模块4，前者将所下载的网页内容输出给后者；网页结构分析模块4的输出分别接至网页正文分析模块5和分类搜索结果库6，网页结构分析模块4将属于目录型的网页url输出给分类搜索结果库6，将属于其他网页类型的网页内容输出给网页正文分析模块5；网页正文分析模块5的输出接至分类搜索结果库模块6，前者将分析的结果输出给后者；分类搜索结果库模块6的输出接至分类显示模块7，前者将保存后的分析结果输出给后者。

本发明的一种用于提供搜索引擎搜索效率的系统，可以将网页区分为三种类型：网站首页类型，指一个网站的首页或二级首页，其url特征为：以域名结束或者目录结束，如http://www.abc.com和http://www.abc.com/123/；目录型网页类型，当一个网页的内容，相当大一部分属于超链接时，这种网页一般是起到导航作用，归属到目录型网页类型；内容型网页类型，不属于网站首页类型和目录型网页类型的网页，归属到内容网页类型。

本发明的一种提高搜索引擎搜索效率的方法，请参见图2所示，它包括以下步骤：

步骤S1，搜索引擎按用户输入的关键字进行搜索，并把搜索结果输出给搜索结果预处理模块1；执行步骤S2；

步骤S2，搜索结果预处理模块1对搜索结果进行预处理，分拆出每一条搜索结果，提取其属性：网页url、关键字(即用户输入的查询关键字，搜索引擎对这些关键字使用颜色标记)，并把每一条搜索结果的属性输出给网页url分析模块2；执行步骤S3；

步骤S3，网页url分析模块2对提取的url进行分析，执行步骤S4；

步骤S4，网页url分析模块2对提取的url首先判断是否是网站首页类型或用户自定义类型的网页url，如是则将其直接送入分类搜索结果库模块6中，并执行步骤S9，否则将其送入网页爬虫模块3，并执行步骤S5；

步骤S5，网页爬虫模块3对排除网站首页类型的网页url或者用户自定义类型的网页url后的剩余网页进行下载，并将下载结果输出给网页结构分析模块4；执行步骤S6；

步骤S6，网页结构分析模块4对网页爬虫模块3所下载的网页进行分析，提取下载网页的文字链接比；执行步骤S7；

步骤S7，网页结构分析模块4根据所提取的文字链接比，判断是否为目录型网页，如是则将属于目录型的网页送入分类搜索结果库模块6中，并执行步骤S9，否则将属于非目录型的网页送入网页正文分析模块5，并执行步骤S8；

步骤S8，网页正文分析模块5对排除目录型的网页进行正文分析，抽取正文，计算正文字数，并判断正文中是否包含步骤S2所提取的关键字，将分析的结果送入分类搜索结果库模块6中；执行步骤S9；

步骤S9，分类搜索结果库模块6分别对步骤S4、步骤S7、步骤S8输送过来的结果进行保存，并输出给分类显示模块7；执行步骤S10；

步骤S10，分类显示模块7对分类搜索结果库所保存的结果进行分类显示。

其中，

上述步骤S2中，由于搜索引擎返回页的结果集都是按照一定的规则排列的，因此通过分析其html代码，使用模板匹配的方法，即可提取每条结果的属性。

上述步骤S3、S4中，url即统一资源定位符，其构成为：protocol://hostname[:port]/path/[；parameters][？query]#fragment

例如：http://www.abc.com/home/welcome.html，其中http://表示协议，www.abc.com表示域名，home表示路径，welcome.html表示文件。在协议之后，以域名结束，或者以首个“/”分隔符结束的url属于网站首页类型。对于网站首页型不再分析，直接入搜索结果库，并标记为首页型。

在此步骤，可提供用户设定多种规则，过滤出更多类型。例如在协议之后，以第二个“/”分割符号结束的url属于二级网站首页。

上述步骤S6、S7中，是对下载的网页进行分析，提取下载网页的文字链接比。

网页源代码包括四部分：html标记、脚本代码、样式代码和文本，浏览器通过html标记、脚本代码、样式代码使文本呈现不同的表现形式，其中，使用<a>和</a>标记的文本表示超链接文本；文字链接比是全部超链接文本占全部文本的比例。

首先是使用正则匹配的方法获取所有超链接，其表达式为：<a.*？>(.*？)</a>。其中，(.*)部分即超链接所包含的文本；<a.*？>表示匹配<a开头，任意字符后，第一个>结束，并且将“任意字符”保存到一个变量group(1)。例如该表达式能匹配到<a>我是一个超链接</a>，并且将“我是一个超链接”这个超链接文本存储到group(1)变量，由此可以获取全部超链接文本，计算全部超链接字数L(不包含空格)。

其次，为了得到纯文本，需去除html标记、脚本代码、样式代码：先将<script.*？></script>替换为空，去除脚本代码；然后将<style.*？></style>替换为空，去除样式代码；最后将<.*？>替换为空，去除html标记，余下的部分即为纯文本。此时，即可计算全部纯文本的字数T(不包括空格)。

最后，计算L/T的值，即超链接所占的比例。如L/T超过预设阈值，则认为是目录型网页，将此类型网页入分类搜索结果库，并标记为目录型。

上述步骤S8中，是对排除目录型网页后，对剩余的网页进行正文抽取。

目前，虽然进行正文抽取比较成熟和稳定的方式是模板匹配，其提取准确性高，但该方法只适用于既定的网页类型。因此，对于未知类型的内容网页，本发明采用结合html标签树的方法，判断文本密度最大的节点，进行正文抽取。

利于html标签树进行正文抽取的具体做法为：

首先根据html网页代码建立标签树的模型。标签树，是表示网页源代码层次关系的一个树状结构，根据网页源代码中html标签之间的嵌套关系，以<html>为根节点，它内嵌的下一级标签为子节点，若子节点还内嵌标签，则作为子节点的子节点，以此类推形成树状结构。每个子节点的上一级节点为父节点，每个子节点只有一个父节点；一个节点可能是一个或几个标签的父节点，同时又是另一个标签的子节点；最后一级节点是叶子节点，包含文本，叶子节点没有子节点。

如图3所示，是一个普通的html标签树，其叶子节点包含文字段落。在图3中，html下为head和body的根节点，head又包含meta和title两个子节点，其中meta和title均为叶子节点，表示文字段落；body为Table1、Table2、Table3的父节点，其中Table1的叶子节点为Div1，Table2的叶子节点为Div2、Div3、Div4，Table3的叶子节点为Div5；这里，叶子节点Div1、Div2、Div3、Div4、Div5均表示文字段落。

其次，遍历该树，计算每个叶子节点的父节点所包含的文字字数，字数最多的，即表示文本密度最大，可认为是正文部分(图3中，文本密度最大的部分是Table2)。

最后，比较各父节点的文字字数，抽取出父节点中所包含的文字字数最多的一个为该网页的正文(即Table2)，判断该正文中是否包含步骤S2所提取的关键字，对包含关键字的作出对应的标记，并保存到分类搜索结果库。

上述步骤S10中，其分类包括：网站首页类型、目录网页类型，内容网页类型，其中，内容网页类型又可分为关键字是否匹配。在每个类别内，都可以进行排序，以便用户快速定位到所需要的信息。例如根据网页url进行排序，或者根据网页正文长度进行排序等等。

本发明的一种用于提高搜索引擎搜索效率的方法及其系统，可以将搜索结果进行进一步分析和分类，通过类别导航和排序规则，可以使用户快速浏览、定位到最匹配的信息。如将本发明的系统结合元搜索，则能大幅提高检索效率，减少用户的劳动强度；如将本发明的分析结果保存到数据库中，则可提供给多用户使用，从而减少网络流量。

上述实施例仅用来进一步说明本发明的一种用于提高搜索引擎搜索效率的方法及其系统，但本发明并不局限于实施例，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均落入本发明技术方案的保护范围内。

Claims

1.一种提高搜索引擎搜索效率的方法，其特征在于：包括如下步骤：

对上一步骤之后余下的网页进行下载；

对保存到分类搜索结果库中的分析结果进行分类显示，并对用户提供分类浏览和排序的步骤；

所述的对搜索引擎的搜索结果进行预处理而获取网页url、命中关键字的步骤，是通过分析搜索结果的html代码，使用模板匹配方式，提取每一条搜索结果的属性；

所述的对网页url进行分析而过滤出属于网站首页的url的步骤，是将url中的协议之后，以域名结束，或者以首个“/”分隔符结束来定义为网站首页；

2.根据权利要求l所述的提高搜索引擎搜索效率的方法，其特征在于：所述的对网页url进行分析而过滤出属于网站首页的url的步骤，还包括将url中的协议之后，以第二个或第三个“/”分隔符结束来定义为二级网站首页或三级网站首页。

3.根据权利要求1所述的提高搜索引擎搜索效率的方法，其特征在于：所述的对内容型网页进行正文分析，判断正文中是否包含关键字，其包括如下步骤：

b1.根据html网页源代码建立标签树的模型；

4.一种提高搜索引擎搜索效率的系统，其特征在于：包括：

搜索结果预处理模块，用于对搜索引擎的返回结果进行分析处理，并提取每一条搜索结果的属性；该搜索结果预处理模块是通过分析搜索结果的html代码，使用模板匹配方式，提取每一条搜索结果的属性；

网页url分析模块，用于对所提取的网页url进行分析；该网页url分析模块是将url中的协议之后，以域名结束，或者以首个“/”分隔符结束来定义为网站首页；

网页爬虫模块，用于下载非网站首页类型的网页；

网页结构分析模块，用于分析网页结构；

存储模块，用于将分析后的搜索结果保存到分类搜索结果库；

分类显示模块，用于分类显示分析后的搜索结果；

其中，搜索结果预处理模块的输出接至网页url分析模块的输入，前者将提取的每一条搜索结果的属性输出给后者；网页url分析模块的输出分别接至网页爬虫模块和分类搜索结果库，网页url分析模块将属于网站首页类型的url输出给分类搜索结果库，将属于非网站首页类型的url输出给网页爬虫模块；网页爬虫模块的输出接至网页结构分析模块的输入，前者将所下载的网页内容输出给后者；网页结构分析模块的输出分别接至网页正文分析模块和分类搜索结果库，网页结构分析模块将属于目录型的网页url输出给分类搜索结果库，将属于其他网页类型的网页内容输出给网页正文分析模块；网页正文分析模块的输出接至分类搜索结果库模块，前者将分析的结果输出给后者；分类搜索结果库模块的输出接至分类显示模块，前者将保存后的分析结果输出给后者；

网页结构分析模块在分析网页结构时，是根据文字链接比，来判断是否属于目录型网页，其包括如下步骤：