CN101908071B - 一种提高搜索引擎搜索效率的方法及其系统 - Google Patents

一种提高搜索引擎搜索效率的方法及其系统 Download PDF

Info

Publication number
CN101908071B
CN101908071B CN 201010250103 CN201010250103A CN101908071B CN 101908071 B CN101908071 B CN 101908071B CN 201010250103 CN201010250103 CN 201010250103 CN 201010250103 A CN201010250103 A CN 201010250103A CN 101908071 B CN101908071 B CN 101908071B
Authority
CN
China
Prior art keywords
webpage
search results
url
module
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010250103
Other languages
English (en)
Other versions
CN101908071A (zh
Inventor
章正道
林胜通
刘祥南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN 201010250103 priority Critical patent/CN101908071B/zh
Publication of CN101908071A publication Critical patent/CN101908071A/zh
Application granted granted Critical
Publication of CN101908071B publication Critical patent/CN101908071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种提高搜索引擎搜索效率的方法及其系统,包括搜索结果预处理模块、网页url分析模块、网页爬虫模块、网页结构分析模块、网页正文分析模块、分类搜索结果库和分类显示模块;它将搜索引擎的返回结果进行预处理,获取网页url、命中关键字;再对网页url进行分析,并保存到分类搜索结果库中,其中包括对属于网站首页类型的网页进行过滤,对其余的网页进行下载,并根据文字链接比,判断是否属于目录型网页,对非网站首页类型和非目录网页类型的网页进行正文抽取,提取正文字数,并判断正文中是否包含关键字;最后对保存到分类搜索结果库中的分析结果进行分类显示。通过本发明,能够大幅提高用户的搜索效率,减少其劳动强度。

Description

一种提高搜索引擎搜索效率的方法及其系统
技术领域
本发明涉及计算机网络技术领域,特别是涉及一种提高搜索引擎搜索效率的方法及其系统。
背景技术
搜索引擎(search engine)是一种根据一定的策略、运用特定的计算机程序搜集互联网上的信息,并在对信息进行组织和处理后,将处理后的信息显示给用户,以为用户提供检索服务的系统。目前,随着互联网的迅速发展,搜索引擎已成为互联网的重要应用之一。为了在互联网上数以百亿计的网页中寻找信息,人们往往求助于搜索引擎。
如今搜索引擎索引的网页越来越多,已经达到上百亿。加上搜索引擎排名优化技术(SEO)可以使一些相关性不大的网页出现在搜索结果中,使得用户在输入查询词之后,往往返回大量的结果;因此,用户在搜索信息的过程中,往往需要付出大量的劳动,才能从搜索引擎返回的大量结果中,找到自己想要的信息。这是因为搜索引擎需要在查全率和查准率中找寻一个平衡,并且根据网页流行度进行排序,加上搜索引擎排名优化技术(SEO)的干扰,使得搜索结果难以准确匹配用户需求。
发明内容
本发明的目的在于克服现有技术之不足,提供一种提高搜索引擎搜索效率的方法及其系统,通过对搜索引擎返回的结果进行分析,并加以归类和排序,从而方便用户快速定位到目标网页,提高搜索效率,减少人工劳动。
本发明解决其技术问题所采用的技术方案是:一种提高搜索引擎搜索效率的方法,包括如下步骤:
对搜索引擎的搜索结果进行预处理,获取网页url、命中关键字;
对网页url进行分析,过滤出属于网站首页的url,将本步骤过滤出的搜索结果标记为首页型并存入分类搜索结果库;
对上一步骤之后余下的网页进行下载;
对所下载的网页进行结构分析,过滤出属于目录型网页,将本步骤过滤出的搜索结果标记为目录型并存入分类搜索结果库;
将上一步骤之后余下的网页认定为内容型网页,对内容型网页进行正文分析,判断正文中是否包含关键字,并将分析结果存入分类搜索结果库;
对保存到分类搜索结果库中的分析结果进行分类显示,并对用户提供分类浏览和排序的步骤。
所述的对搜索引擎的搜索结果进行预处理而获取网页url、命中关键字的步骤,是通过分析搜索结果的html代码,使用模板匹配方式,提取每一条搜索结果的属性。
所述的对网页url进行分析而过滤出属于网站首页的url的步骤,是将url中的协议之后,以域名结束,或者以首个“/”分隔符结束来定义为网站首页。
所述的对网页url进行分析而过滤出属于网站首页的url的步骤,还包括将url中的协议之后,以第二个或第三个“/”分隔符结束来定义为二级网站首页或三级网站首页。
所述的对网页进行结构分析而过滤出属于目录型网页,是根据文字链接比,来判断是否属于目录型网页,其包括如下步骤:
a1.使用正则匹配获取所有超链接,并在去除空格后,计算全部超链接文本的字数L;
a2.去除html标记、脚本代码、样式代码,得到纯文本,并在去除空格后,计算全部纯文本字数T;
a3.计算L/T的值,在该L/T的值超过预设阈值时,则认定为目录型网页,并将此类型的网页标记为目录型并保存到分类搜索结果库。
所述的对内容型网页进行正文分析,判断正文中是否包含关键字,其包括如下步骤:
b1.根据html网页源代码建立标签树的模型;
b2.遍历该树,计算每个叶子节点的父节点所包含的文字字数;
b3.比较各父节点的文字字数,抽取出父节点中所包含的文字字数最多的一个为该网页的正文,判断该正文中是否包含关键字,对包含关键字的作出对应的标记,并保存到分类搜索结果库。
一种提高搜索引擎搜索效率的系统,包括:
搜索结果预处理模块,用于对搜索引擎的返回结果进行分析处理,并提取每一条搜索结果的属性;
网页url分析模块,用于对所提取的网页url进行分析;
网页爬虫模块,用于下载非网站首页类型的网页;
网页结构分析模块,用于分析网页结构;
网页正文分析模块:用于进行正文抽取,获取正文字数,并判断正文中是否包括搜索的关键字;
分类搜索结果库,用于保存分析后的搜索结果;
分类显示模块,用于分类显示分析后的搜索结果;
其中,搜索结果预处理模块的输出接至网页url分析模块的输入,前者将提取的每一条搜索结果的属性输出给后者;网页url分析模块的输出分别接至网页爬虫模块和分类搜索结果库,网页url分析模块将属于网站首页类型的url输出给分类搜索结果库,将属于非网站首页类型的url输出给网页爬虫模块;网页爬虫模块的输出接至网页结构分析模块的输入,前者将所下载的网页内容输出给后者;网页结构分析模块的输出分别接至网页正文分析模块和分类搜索结果库,网页结构分析模块将属于目录型的网页url输出给分类搜索结果库,将属于其他网页类型的网页内容输出给网页正文分析模块;网页正文分析模块的输出接至分类搜索结果库模块,前者将分析的结果输出给后者;分类搜索结果库模块的输出接至分类显示模块,前者将保存后的分析结果输出给后者。
本发明的一种提高搜索引擎搜索效率的方法及其系统,可以将网页区分为三种类型:网站首页类型,指一个网站的首页或二级首页,其url特征为:以域名结束或者目录结束;目录型网页类型,当一个网页的内容,相当大一部分属于超链接时,这种网页一般是起到导航作用,归属到目录型网页类型;内容型网页类型,不属于网站首页类型和目录型网页类型的网页,归属到内容网页类型。
本发明的有益效果是,由于采用搜索结果预处理模块对搜索引擎的返回结果进行分析,并提取搜索结果的属性;采用网页url分析模块对所提取的网页url进行分析,并过滤出网站首页类型的网页,保存到分类搜索结果库;采用网页爬虫模块对非网站首页类型的网页进行下载,采用网页结构分析模块对所下载的非网站首页类型的网页进行分析,并过滤出目录型网页,保存到分类搜索结果库;采用网页正文分析模块对非网站首页类型和非目录型的网页进行正文抽取,获取正文字数,并判断正文中是否包括搜索的关键字,保存到分类搜索结果库;采用分类显示模块对分析后的搜索结果进行分类显示和排序,使得用户可以将搜索结果进一步进行分析和分类,并通过类别导航和排序规则,实现快速浏览、定位到最匹配的信息。因此,本发明能大幅提高用户的检索效率,减少用户的劳动强度;本发明还可将分析结果保存到数据库中,从而提供给多用户使用,减少网络流量。
以下结合附图及实施例对本发明作进一步详细说明;但本发明的一种提高搜索引擎搜索效率的方法及其系统不局限于实施例。
附图说明
图1是本发明的原理框图;
图2是本发明的流程示意图;
图3是本发明的html标签树的结构示意图。
具体实施方式
实施例,请参见图1所示,本发明的一种提高搜索引擎搜索效率的系统,包括:
搜索结果预处理模块1,用于对搜索引擎的返回结果进行分析处理,并提取每一条搜索结果的属性,包括网页url、命中关键字;
网页url分析模块2,用于对所提取的网页url进行分析,以过滤出网站首页类型的url和非网站首页类型的url;
网页爬虫模块3,用于下载非网站首页类型的网页;
网页结构分析模块4,用于分析网页结构,以根据文字链接比分离出目录型网页;
网页正文分析模块5:用于进行正文抽取,获取正文字数,并判断正文中是否包括搜索的关键字;
分类搜索结果库6,用于保存分析后的搜索结果;
分类显示模块7,用于分类显示分析后的搜索结果;
其中,搜索结果预处理模块1的输出接至网页url分析模块2的输入,前者将提取的每一条搜索结果的属性输出给后者;网页url分析模块2的输出分别接至网页爬虫模块3和分类搜索结果库4,网页url分析模块2将属于网站首页类型的url输出给分类搜索结果库6,将属于非网站首页类型的url输出给网页爬虫模块3;网页爬虫模块3的输出接至网页结构分析模块4,前者将所下载的网页内容输出给后者;网页结构分析模块4的输出分别接至网页正文分析模块5和分类搜索结果库6,网页结构分析模块4将属于目录型的网页url输出给分类搜索结果库6,将属于其他网页类型的网页内容输出给网页正文分析模块5;网页正文分析模块5的输出接至分类搜索结果库模块6,前者将分析的结果输出给后者;分类搜索结果库模块6的输出接至分类显示模块7,前者将保存后的分析结果输出给后者。
本发明的一种用于提供搜索引擎搜索效率的系统,可以将网页区分为三种类型:网站首页类型,指一个网站的首页或二级首页,其url特征为:以域名结束或者目录结束,如http://www.abc.comhttp://www.abc.com/123/;目录型网页类型,当一个网页的内容,相当大一部分属于超链接时,这种网页一般是起到导航作用,归属到目录型网页类型;内容型网页类型,不属于网站首页类型和目录型网页类型的网页,归属到内容网页类型。
本发明的一种提高搜索引擎搜索效率的方法,请参见图2所示,它包括以下步骤:
步骤S1,搜索引擎按用户输入的关键字进行搜索,并把搜索结果输出给搜索结果预处理模块1;执行步骤S2;
步骤S2,搜索结果预处理模块1对搜索结果进行预处理,分拆出每一条搜索结果,提取其属性:网页url、关键字(即用户输入的查询关键字,搜索引擎对这些关键字使用颜色标记),并把每一条搜索结果的属性输出给网页url分析模块2;执行步骤S3;
步骤S3,网页url分析模块2对提取的url进行分析,执行步骤S4;
步骤S4,网页url分析模块2对提取的url首先判断是否是网站首页类型或用户自定义类型的网页url,如是则将其直接送入分类搜索结果库模块6中,并执行步骤S9,否则将其送入网页爬虫模块3,并执行步骤S5;
步骤S5,网页爬虫模块3对排除网站首页类型的网页url或者用户自定义类型的网页url后的剩余网页进行下载,并将下载结果输出给网页结构分析模块4;执行步骤S6;
步骤S6,网页结构分析模块4对网页爬虫模块3所下载的网页进行分析,提取下载网页的文字链接比;执行步骤S7;
步骤S7,网页结构分析模块4根据所提取的文字链接比,判断是否为目录型网页,如是则将属于目录型的网页送入分类搜索结果库模块6中,并执行步骤S9,否则将属于非目录型的网页送入网页正文分析模块5,并执行步骤S8;
步骤S8,网页正文分析模块5对排除目录型的网页进行正文分析,抽取正文,计算正文字数,并判断正文中是否包含步骤S2所提取的关键字,将分析的结果送入分类搜索结果库模块6中;执行步骤S9;
步骤S9,分类搜索结果库模块6分别对步骤S4、步骤S7、步骤S8输送过来的结果进行保存,并输出给分类显示模块7;执行步骤S10;
步骤S10,分类显示模块7对分类搜索结果库所保存的结果进行分类显示。
其中,
上述步骤S2中,由于搜索引擎返回页的结果集都是按照一定的规则排列的,因此通过分析其html代码,使用模板匹配的方法,即可提取每条结果的属性。
上述步骤S3、S4中,url即统一资源定位符,其构成为:protocol://hostname[:port]/path/[;parameters][?query]#fragment
例如:http://www.abc.com/home/welcome.html,其中http://表示协议,www.abc.com表示域名,home表示路径,welcome.html表示文件。在协议之后,以域名结束,或者以首个“/”分隔符结束的url属于网站首页类型。对于网站首页型不再分析,直接入搜索结果库,并标记为首页型。
在此步骤,可提供用户设定多种规则,过滤出更多类型。例如在协议之后,以第二个“/”分割符号结束的url属于二级网站首页。
上述步骤S6、S7中,是对下载的网页进行分析,提取下载网页的文字链接比。
网页源代码包括四部分:html标记、脚本代码、样式代码和文本,浏览器通过html标记、脚本代码、样式代码使文本呈现不同的表现形式,其中,使用<a>和</a>标记的文本表示超链接文本;文字链接比是全部超链接文本占全部文本的比例。
首先是使用正则匹配的方法获取所有超链接,其表达式为:<a.*?>(.*?)</a>。其中,(.*)部分即超链接所包含的文本;<a.*?>表示匹配<a开头,任意字符后,第一个>结束,并且将“任意字符”保存到一个变量group(1)。例如该表达式能匹配到<a>我是一个超链接</a>,并且将“我是一个超链接”这个超链接文本存储到group(1)变量,由此可以获取全部超链接文本,计算全部超链接字数L(不包含空格)。
其次,为了得到纯文本,需去除html标记、脚本代码、样式代码:先将<script.*?></script>替换为空,去除脚本代码;然后将<style.*?></style>替换为空,去除样式代码;最后将<.*?>替换为空,去除html标记,余下的部分即为纯文本。此时,即可计算全部纯文本的字数T(不包括空格)。
最后,计算L/T的值,即超链接所占的比例。如L/T超过预设阈值,则认为是目录型网页,将此类型网页入分类搜索结果库,并标记为目录型。
上述步骤S8中,是对排除目录型网页后,对剩余的网页进行正文抽取。
目前,虽然进行正文抽取比较成熟和稳定的方式是模板匹配,其提取准确性高,但该方法只适用于既定的网页类型。因此,对于未知类型的内容网页,本发明采用结合html标签树的方法,判断文本密度最大的节点,进行正文抽取。
利于html标签树进行正文抽取的具体做法为:
首先根据html网页代码建立标签树的模型。标签树,是表示网页源代码层次关系的一个树状结构,根据网页源代码中html标签之间的嵌套关系,以<html>为根节点,它内嵌的下一级标签为子节点,若子节点还内嵌标签,则作为子节点的子节点,以此类推形成树状结构。每个子节点的上一级节点为父节点,每个子节点只有一个父节点;一个节点可能是一个或几个标签的父节点,同时又是另一个标签的子节点;最后一级节点是叶子节点,包含文本,叶子节点没有子节点。
如图3所示,是一个普通的html标签树,其叶子节点包含文字段落。在图3中,html下为head和body的根节点,head又包含meta和title两个子节点,其中meta和title均为叶子节点,表示文字段落;body为Table1、Table2、Table3的父节点,其中Table1的叶子节点为Div1,Table2的叶子节点为Div2、Div3、Div4,Table3的叶子节点为Div5;这里,叶子节点Div1、Div2、Div3、Div4、Div5均表示文字段落。
其次,遍历该树,计算每个叶子节点的父节点所包含的文字字数,字数最多的,即表示文本密度最大,可认为是正文部分(图3中,文本密度最大的部分是Table2)。
最后,比较各父节点的文字字数,抽取出父节点中所包含的文字字数最多的一个为该网页的正文(即Table2),判断该正文中是否包含步骤S2所提取的关键字,对包含关键字的作出对应的标记,并保存到分类搜索结果库。
上述步骤S10中,其分类包括:网站首页类型、目录网页类型,内容网页类型,其中,内容网页类型又可分为关键字是否匹配。在每个类别内,都可以进行排序,以便用户快速定位到所需要的信息。例如根据网页url进行排序,或者根据网页正文长度进行排序等等。
本发明的一种用于提高搜索引擎搜索效率的方法及其系统,可以将搜索结果进行进一步分析和分类,通过类别导航和排序规则,可以使用户快速浏览、定位到最匹配的信息。如将本发明的系统结合元搜索,则能大幅提高检索效率,减少用户的劳动强度;如将本发明的分析结果保存到数据库中,则可提供给多用户使用,从而减少网络流量。
上述实施例仅用来进一步说明本发明的一种用于提高搜索引擎搜索效率的方法及其系统,但本发明并不局限于实施例,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围内。

Claims (4)

1.一种提高搜索引擎搜索效率的方法,其特征在于:包括如下步骤:
对搜索引擎的搜索结果进行预处理,获取网页url、命中关键字;
对网页url进行分析,过滤出属于网站首页的url,将本步骤过滤出的搜索结果标记为首页型并存入分类搜索结果库;
对上一步骤之后余下的网页进行下载;
对所下载的网页进行结构分析,过滤出属于目录型网页,将本步骤过滤出的搜索结果标记为目录型并存入分类搜索结果库;
将上一步骤之后余下的网页认定为内容型网页,对内容型网页进行正文分析,判断正文中是否包含关键字,并将分析结果存入分类搜索结果库;
对保存到分类搜索结果库中的分析结果进行分类显示,并对用户提供分类浏览和排序的步骤;
所述的对搜索引擎的搜索结果进行预处理而获取网页url、命中关键字的步骤,是通过分析搜索结果的html代码,使用模板匹配方式,提取每一条搜索结果的属性;
所述的对网页url进行分析而过滤出属于网站首页的url的步骤,是将url中的协议之后,以域名结束,或者以首个“/”分隔符结束来定义为网站首页;
所述的对网页进行结构分析而过滤出属于目录型网页,是根据文字链接比,来判断是否属于目录型网页,其包括如下步骤:
a1.使用正则匹配获取所有超链接,并在去除空格后,计算全部超链接文本的字数L;
a2.去除html标记、脚本代码、样式代码,得到纯文本,并在去除空格后,计算全部纯文本字数T;
a3.计算L/T的值,在该L/T的值超过预设阈值时,则认定为目录型网页,并将此类型的网页标记为目录型并保存到分类搜索结果库。
2.根据权利要求l所述的提高搜索引擎搜索效率的方法,其特征在于:所述的对网页url进行分析而过滤出属于网站首页的url的步骤,还包括将url中的协议之后,以第二个或第三个“/”分隔符结束来定义为二级网站首页或三级网站首页。
3.根据权利要求1所述的提高搜索引擎搜索效率的方法,其特征在于:所述的对内容型网页进行正文分析,判断正文中是否包含关键字,其包括如下步骤:
b1.根据html网页源代码建立标签树的模型;
b2.遍历该树,计算每个叶子节点的父节点所包含的文字字数;
b3.比较各父节点的文字字数,抽取出父节点中所包含的文字字数最多的一个为该网页的正文,判断该正文中是否包含关键字,对包含关键字的作出对应的标记,并保存到分类搜索结果库。
4.一种提高搜索引擎搜索效率的系统,其特征在于:包括:
搜索结果预处理模块,用于对搜索引擎的返回结果进行分析处理,并提取每一条搜索结果的属性;该搜索结果预处理模块是通过分析搜索结果的html代码,使用模板匹配方式,提取每一条搜索结果的属性;
网页url分析模块,用于对所提取的网页url进行分析;该网页url分析模块是将url中的协议之后,以域名结束,或者以首个“/”分隔符结束来定义为网站首页;
网页爬虫模块,用于下载非网站首页类型的网页;
网页结构分析模块,用于分析网页结构;
网页正文分析模块:用于进行正文抽取,获取正文字数,并判断正文中是否包括搜索的关键字;
存储模块,用于将分析后的搜索结果保存到分类搜索结果库;
分类显示模块,用于分类显示分析后的搜索结果;
其中,搜索结果预处理模块的输出接至网页url分析模块的输入,前者将提取的每一条搜索结果的属性输出给后者;网页url分析模块的输出分别接至网页爬虫模块和分类搜索结果库,网页url分析模块将属于网站首页类型的url输出给分类搜索结果库,将属于非网站首页类型的url输出给网页爬虫模块;网页爬虫模块的输出接至网页结构分析模块的输入,前者将所下载的网页内容输出给后者;网页结构分析模块的输出分别接至网页正文分析模块和分类搜索结果库,网页结构分析模块将属于目录型的网页url输出给分类搜索结果库,将属于其他网页类型的网页内容输出给网页正文分析模块;网页正文分析模块的输出接至分类搜索结果库模块,前者将分析的结果输出给后者;分类搜索结果库模块的输出接至分类显示模块,前者将保存后的分析结果输出给后者;
网页结构分析模块在分析网页结构时,是根据文字链接比,来判断是否属于目录型网页,其包括如下步骤:
a1.使用正则匹配获取所有超链接,并在去除空格后,计算全部超链接文本的字数L;
a2.去除html标记、脚本代码、样式代码,得到纯文本,并在去除空格后,计算全部纯文本字数T;
a3.计算L/T的值,在该L/T的值超过预设阈值时,则认定为目录型网页,并将此类型的网页标记为目录型并保存到分类搜索结果库。
CN 201010250103 2010-08-10 2010-08-10 一种提高搜索引擎搜索效率的方法及其系统 Active CN101908071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010250103 CN101908071B (zh) 2010-08-10 2010-08-10 一种提高搜索引擎搜索效率的方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010250103 CN101908071B (zh) 2010-08-10 2010-08-10 一种提高搜索引擎搜索效率的方法及其系统

Publications (2)

Publication Number Publication Date
CN101908071A CN101908071A (zh) 2010-12-08
CN101908071B true CN101908071B (zh) 2012-09-05

Family

ID=43263530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010250103 Active CN101908071B (zh) 2010-08-10 2010-08-10 一种提高搜索引擎搜索效率的方法及其系统

Country Status (1)

Country Link
CN (1) CN101908071B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855251B (zh) * 2011-06-30 2015-07-01 北京百度网讯科技有限公司 一种需求识别的方法及装置
CN103886017B (zh) * 2011-07-29 2016-02-24 百度在线网络技术(北京)有限公司 一种用于在搜索结果中提供相关子链接的方法和装置
CN103049454B (zh) * 2011-10-16 2016-04-20 同济大学 一种基于多标签分类的中英文搜索结果可视化系统
CN103778164A (zh) * 2012-10-26 2014-05-07 广州市邦富软件有限公司 一种网页链接特征模式识别算法
CN103838797A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种移动搜索引擎优化方法
CN102968510B (zh) * 2012-12-21 2016-05-11 厦门市美亚柏科信息股份有限公司 互联网人物信息的搜索方法及系统
CN103064827A (zh) * 2013-01-16 2013-04-24 盘古文化传播有限公司 一种网页内容抽取的方法及装置
CN103942203A (zh) * 2013-01-18 2014-07-23 北大方正集团有限公司 一种信息处理方法及主题信息库制作系统
CN103294815B (zh) * 2013-06-08 2017-06-06 北京邮电大学 基于关键字分类并有多种呈现方式的搜索引擎装置与方法
CN103778238B (zh) * 2014-01-27 2015-03-04 西安交通大学 一种从维基百科半结构化数据自动构建分类树的方法
CN103873597B (zh) * 2014-04-15 2017-10-10 厦门市美亚柏科信息股份有限公司 分布式网页下载方法和系统
CN104102697B (zh) * 2014-06-27 2018-07-31 深信服网络科技(深圳)有限公司 管理web应用中外链的方法及装置
CN104965934A (zh) * 2015-08-04 2015-10-07 时代新媒体出版社有限责任公司 一种基于互联网内容挖掘的一搜成书方法
EP3384660B1 (en) * 2015-12-04 2021-11-24 ViaSat, Inc. Accelerating connections to a host server
CN105740389A (zh) * 2016-01-27 2016-07-06 上海晶赞科技发展有限公司 一种分类方法及装置
CN105893581A (zh) * 2016-04-03 2016-08-24 北京设集约科技有限公司 一种有效分享收藏的方法及系统
CN106168977B (zh) * 2016-07-15 2019-07-02 山谷网安科技股份有限公司 一种用于网站安全监测的栏目识别方法
CN110472126A (zh) * 2018-05-10 2019-11-19 中国移动通信集团浙江有限公司 一种页面数据的获取方法、装置和设备
CN111831948B (zh) * 2019-04-18 2024-06-14 阿里巴巴集团控股有限公司 网页类型的检测方法、装置及计算机设备
CN110704761A (zh) * 2019-09-25 2020-01-17 恩亿科(北京)数据科技有限公司 网页信息的获取方法和计算机存储介质
CN111796922B (zh) * 2020-07-10 2022-02-01 四川长虹电器股份有限公司 一种基于编程语言分批调度任务的方法
CN113076164B (zh) * 2021-04-16 2024-04-16 北京沃东天骏信息技术有限公司 一种网页语言管理方法和装置
CN114443928B (zh) * 2022-01-25 2023-03-17 西藏民族大学 一种网络文本数据爬虫方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN101520798A (zh) * 2009-03-06 2009-09-02 苏州锐创通信有限责任公司 基于垂直搜索和聚焦爬虫的网页分类技术
CN101630330A (zh) * 2009-08-14 2010-01-20 苏州锐创通信有限责任公司 一种网页分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003012576A2 (en) * 2001-07-27 2003-02-13 Quigo Technologies Inc. System and method for automated tracking and analysis of document usage
US20040215608A1 (en) * 2003-04-25 2004-10-28 Alastair Gourlay Search engine supplemented with URL's that provide access to the search results from predefined search queries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN101520798A (zh) * 2009-03-06 2009-09-02 苏州锐创通信有限责任公司 基于垂直搜索和聚焦爬虫的网页分类技术
CN101630330A (zh) * 2009-08-14 2010-01-20 苏州锐创通信有限责任公司 一种网页分类方法

Also Published As

Publication number Publication date
CN101908071A (zh) 2010-12-08

Similar Documents

Publication Publication Date Title
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
KR100505848B1 (ko) 검색 시스템
CN101246499B (zh) 网络信息搜索方法及系统
US6148289A (en) System and method for geographically organizing and classifying businesses on the world-wide web
CN100394427C (zh) 网络搜寻系统及方法
US7664767B2 (en) System and method for geographically organizing and classifying businesses on the world-wide web
CN101079064B (zh) 一种网页排序方法及装置
CN101329687B (zh) 一种新闻网页定位方法
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN102760151B (zh) 开源软件获取与搜索系统的实现方法
CN102968465B (zh) 网络信息服务平台及其基于该平台的搜索服务方法
CN104391978B (zh) 用于浏览器的网页收藏处理方法及装置
CN101477554A (zh) 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN102567494B (zh) 网站分类方法及装置
CN102270331A (zh) 基于可视化搜索的网络购物导航方法
CN103116635B (zh) 面向领域的暗网资源采集方法和系统
CN104268148A (zh) 一种基于时间串的论坛页面信息自动抽取方法及系统
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选系统
CN100357942C (zh) 一种移动互联网智能信息搜索引擎的搜索方法
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
Ganguly et al. Performance optimization of focused web crawling using content block segmentation
CN102890715A (zh) 一种特定领域信息自动化组织的装置及其方法
Shaker et al. Information extraction from hypertext mark-up language web pages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20101208

Assignee: XIAMEN SECURITY INTELLIGENCE INFORMATION TECHNOLOGY CO.,LTD.

Assignor: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

Contract record no.: X2023350000020

Denomination of invention: A method and system for improving search efficiency of search engine

Granted publication date: 20120905

License type: Common License

Record date: 20230223

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20101208

Assignee: Xiaoma Baoli (Xiamen) Network Technology Co.,Ltd.

Assignor: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

Contract record no.: X2023350000078

Denomination of invention: A Method and System for Improving Search Efficiency of Search Engines

Granted publication date: 20120905

License type: Common License

Record date: 20230313

EE01 Entry into force of recordation of patent licensing contract