CN101944093A - 一种网络信息的搜索方法和系统 - Google Patents
一种网络信息的搜索方法和系统 Download PDFInfo
- Publication number
- CN101944093A CN101944093A CN2009101581580A CN200910158158A CN101944093A CN 101944093 A CN101944093 A CN 101944093A CN 2009101581580 A CN2009101581580 A CN 2009101581580A CN 200910158158 A CN200910158158 A CN 200910158158A CN 101944093 A CN101944093 A CN 101944093A
- Authority
- CN
- China
- Prior art keywords
- search
- search results
- address
- source
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种网络信息的搜索方法和系统,包括:获取不同搜索引擎的搜索结果页面;对搜索结果页面进行解析处理后获取搜索结果;对搜索结果的来源地址进行对比去除来源地址重复的搜索结果;对去除来源地址重复的搜索结果整合后进行展示。通过本发明使用户通过一个搜索框即可以同时搜索到内部和外部互联网多个WEB搜索引擎的丰富知识,方便用户对信息的一站式获取。
Description
技术领域
本发明涉及互联网应用技术领域,特别是指一种网络信息的搜索方法和系统。
背景技术
企业内部往往存在多个基于环球网(WEB)的信息系统,不同的信息系统有不同的WEB搜索页面。同时,企业内部信息系统与外部互联网搜索引擎是各自独立的。而目前主流的外部互联网搜索引擎就有Google、百度、Live、Yahoo、中搜、有道等多个。搜索网站Dogpile.com、美国匹兹堡大学和宾夕法尼亚州大学联合组织了一次调查,随机抽取了10316个搜索关键词,结果发现,Ask Jeeves、Google和雅虎提供的336232个结果中只有3%,即10712个结果是相同的,有12%的搜索结果两家是相同的,其余85%的搜索结果三家各不相同,存在很大的差异。因此,用户查找信息时要分别打开不同的页面进行查找,信息的查找非常繁琐,查看起来也非常不直观。
另外,由于外部互联网信息的丰富,企业内部信息系统往往受到冷落,用户往往只查询外部互联网的知识,导致内部信息系统的利用率很低,内部信息系统的作用没有得到充分的发挥。
发明内容
有鉴于此,本发明的目的在于提出一种网络信息的搜索方法和系统,使用户通过一个搜索框即可以同时搜索到内部和外部互联网多个WEB搜索引擎的丰富知识,方便用户对信息的一站式获取。
基于上述目的本发明提供的一种网络信息的搜索方法,包括:
获取不同搜索引擎的搜索结果页面;
对搜索结果页面进行解析处理后获取搜索结果;
对搜索结果的来源地址进行对比去除来源地址重复的搜索结果;
对去除来源地址重复的搜索结果整合后进行展示。
可选的,该方法所述获取不同搜索引擎的搜索结果页面过程进一步包括:获取搜索地址,根据搜索地址获取页面的内容并保存。
可选的,该方法所述获取搜索地址前还包括:预先定义搜索引擎地址+关键字+指定页数的组合;
每次只依次解析一个搜索结果页面获取搜索结果;
在完成去除来源地址重复的搜索结果步骤后,进一步判断当前搜索结果页面是否达到指定页数,若已达到则展示整合后的搜索结果,否则返回获取不同搜索引擎的搜索结果页面的步骤;或者在完成获取搜索结果的步骤后,进一步判断当前搜索结果页面是否达到指定页数,若已达到则执行去除来源地址重复的搜索结果的步骤,否则返回获取不同搜索引擎的搜索结果页面的步骤。
可选的,该方法所述对搜索结果页面进行解析处理后获取搜索结果的过程中,若搜索结果返回的页面为超文本链接标示语言html文件,则该过程包括:对html文件进行字符串的正则表达式匹配得到结果信息。
可选的,该方法所述搜索结果信息包括:标题、摘要、来源地址。
可选的,该方法所述搜索引擎包括:外部互联网搜索引擎和内部信息系统的搜索引擎。
可选的,该方法还包括:预先设置对各外部互联网和内部信息系统进行了单点登录的集成;或者
利用统一的搜索引擎,直接获取各外部互联网和内部信息系统的数据,分别处理,在执行完所述去除来源地址重复的搜索结果后,对去除来源地址重复的搜索结果整合后进行展示。
可选的,该方法所述的搜索地址和来源地址都可以是统一资源定位符(URL)。
基于上述目的本发明还提供了一种网络信息搜索系统,包括:
搜索页面获取模块,用于获取不同搜索引擎的搜索结果页面;
搜索结果获取模块,用于对搜索结果页面进行解析处理后获取搜索结果;
去重处理模块,用于对搜索结果的来源地址进行对比去除来源地址重复的搜索结果;
展示模块,用于对去除来源地址重复的搜索结果整合后进行展示。
从上面所述可以看出,本发明提供的网络信息的搜索方法和系统,通过通用的可伸缩的搜索结果整合方案将多个WEB搜索引擎的查询结果进行整合并集中展示。这样,用户通过一个搜索框即可以同时搜索到内部和外部互联网多个WEB搜索引擎的丰富知识,极大地方便了用户对信息的一站式获取。
本发明适用于任何基于WEB的搜索引擎,不需要了解WEB搜索引擎的底层技术,通过分析查询结果的WEB页面即能将不同的搜索结果整合到一个页面上面,打破了企业内部WEB搜索引擎和外部互联网搜索引擎的分隔,方便用户的查询,具有很好的灵活性和扩展性。其中,对于互联网搜索引擎的搜索结果,由于用户通常只会查询前10页左右的数据,因此,可以根据需要适当获取一定页数的搜索结果,这样需要对比的数据量并不会非常多。
附图说明
图1为本发明实施例网络信息搜索方法的流程示意图;
图2为本发明网络信息搜索方法第一个较佳实施例的流程示意图;
图3为本发明网络信息搜索方法第二个较佳实施例的流程示意图;
图4为本发明实施例网络信息搜索系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明网络信息的搜索方法和系统的技术方案主要包括:获取不同搜索引擎的搜索结果页面;对搜索结果页面进行解析处理后获取搜索结果;对搜索结果的来源地址进行对比去除来源地址重复的搜索结果;对去除来源地址重复的搜索结果整合后进行展示。
参见图1所示,具体过程如下:
步骤101,获取搜索地址,该搜索地址对于因特网来说是统一资源定位符(URL)。
本步骤中,首先,可列出需要整合的各个WEB搜索系统供用户选择。当用户指定了多个WEB搜索系统,并输入搜索主题进行搜索时,需要将搜索主题分别与各个WEB搜索系统URL组合成搜索命令并指定页数,形成搜索引擎地址+关键字+指定页数的组合,其中不同的搜索引擎命令和其他参数会有所不同。
如:”http://www.google.cn/search?q=″+关键字+指定页数+其他参数。
然后,执行搜索获取搜索结果。
因为不同WEB搜索系统的命令格式是不同的,因此需要在本发明网络信息的搜索系统中预先定义好所述搜索引擎地址+关键字+指定页数的组合,以便系统根据命令格式自动生成搜索命令。
当然,也可以不设置指定页数,这样网络信息的搜索系统会对所有搜索到的页面都进行处理。
步骤102,根据关键字分别获取不同搜索引擎的搜索结果页面。
具体为根据搜索地址URL获取页面的内容并保存。
如:利用搜索地址URL通过HttpWebRequest对象建立连接,通过WebResponse对象获得搜索引擎的反馈,通过StreamReader对象(C#)获取页面内容,并保存在字符串中。
步骤103,解析搜索结果页面获取搜索结果。
分别针对不同搜索引擎搜索结果页面的超文本链接标示语言(HTML)标签分析页面内容,获得结果列表,列表的每一个搜索结果包含标题、摘要、来源地址等属性。
如google采用div标签标识每一条搜索结果,可根据div标签来抽取每条搜索结果。
具体包括如下内容:
搜索结果返回的是页面的html文件。
对html文件进行字符串的正则表达式匹配,得到标题、摘要、来源地址等信息。
正则表达式是根据html文件中的具体内容分布得到的。
例如:
(1)对百度的返回结果使用正则表达式,可以获得百度返回页面的所有结果的内容的集合。
string resultTableRegex=″<table border=\″0\″cellpadding=\″0\″cellspacing=\″0/″>((?!</?table>).)*</table>″;
MatchCollection resultMC =Regex.Matches(pageHTML,resultTableRegex);
(2)再对每一个结果,使用正则表达式AnchorRegex进行匹配获得第一个链接。
AnchorRegex=″<a[^>]*>((?!</?a>).)*</a>″
MatchCollection anchorMC =Regex.Matches(resultMC[i].toString(),AnchorRegex);
string anchor=mc[0].ToString();
然后,对这个链接再进一步匹配linkRegex和titleRegext获得一个结果的url和标题:
linkRegex=″href=([″″′])?(?<link>[^\s]+?)\1?(\s|>)″;
titleRegext=″<a.*?>(?<text>.*?)</a>″;
Match m1=Regex.Match(anchor,@″href=(linkRegex,RegexOptions.IgnoreCase);
String Url=m1.Groups[″link″].Value;
获得搜索结果的来源url.
Match m2=Regex.Match(anchor,@″href=(titleRegext,RegexOptions.IgnoreCase);
String Title=m1.Groups[″link″].Value;
获得搜索结果的标题
(3)对每一个结果,使用正则表达式ContentRegex可以获得每个结果的具体内容Content和Discription大小等相关信息。
ContentRegex=″<br>(?<content>.*?)<br>(?<discription>.*?)<a″
String Content=m.Groups[″content″].Value;
String Discription=m.Groups[″discription″].Value;
再对Discription再进一步匹配,可以获得Size和Date信息。
String Size =Regex.Match(m.Groups[″discription″].Value,@″\d+[kK]″).Value;
String date =Regex.Match(m.Groups[″discription″].Value,@″\d{4}-\d\d?-\d\d?″).Value;
通过以上(1)-(3)三个步骤操作可以得到所有结果的url、title、content、size、date信息。最后可将这些信息分类保存在所述结果列表中。
步骤104,对不同搜索引擎的搜索结果进行去重处理。
对不同搜索引擎的结果列表进行对比,没有重复的则写入新列表中,有重复的则选择其中一个搜索引擎的结果写入新列表。
具体可根据文章的来源URL判断:
例如:查3g,google和baidu得到的来源都是:http://baike.baidu.com/view/808.htm
就可以选择任意一个搜索引擎的搜索结果写入新列表。
步骤105,展示整合后的搜索结果。
将最后新列表的内容通过一个HTML页面展示出来,可以根据需要进行分页。
在定义的指定页数的情况下,上述步骤101-105具体可以有两种实现方式:
参见图2所示,步骤103中每次只依次解析一个搜索结果页面获取搜索结果,当完成步骤104去重处理操作后,判断当前搜索结果页面是否达到所述指定的搜索页面的页数,若已达到则执行步骤105展示整合后的搜索结果,否则返回步骤101继续搜索。
参见图3所示,还可以在步骤103中每次只依次解析一个搜索结果页面获取搜索结果,当完成步骤103获取搜索结果的操作后,判断当前搜索结果页面是否达到所述指定的搜索页面的页数,若已达到则执行步骤104去重处理操作,否则返回步骤101继续搜索。
基于上述方法,本发明还提出了一种网络信息的搜索系统,至少包括:搜索页面获取模块,用于获取不同搜索引擎的搜索结果页面;
搜索结果获取模块,用于对搜索结果页面进行解析处理后获取搜索结果;
去重处理模块,用于对搜索结果的来源地址进行对比去除来源地址重复的搜索结果;
展示模块,用于对去除来源地址重复的搜索结果整合后进行展示。
以上所述的具体实施例仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种网络信息的搜索方法,其特征在于,包括:
获取不同搜索引擎的搜索结果页面;
对搜索结果页面进行解析处理后获取搜索结果;
对搜索结果的来源地址进行对比去除来源地址重复的搜索结果;
对去除来源地址重复的搜索结果整合后进行展示。
2.根据权利要求1所述的方法,其特征在于,所述获取不同搜索引擎的搜索结果页面过程进一步包括:获取搜索地址,根据搜索地址获取页面的内容并保存。
3.根据权利要求2所述的方法,其特征在于,所述获取搜索地址前还包括:预先定义搜索引擎地址+关键字+指定页数的组合;
每次只依次解析一个搜索结果页面获取搜索结果;
在完成去除来源地址重复的搜索结果步骤后,进一步判断当前搜索结果页面是否达到指定页数,若已达到则展示整合后的搜索结果,否则返回获取不同搜索引擎的搜索结果页面的步骤;或者在完成获取搜索结果的步骤后,进一步判断当前搜索结果页面是否达到指定页数,若已达到则执行去除来源地址重复的搜索结果的步骤,否则返回获取不同搜索引擎的搜索结果页面的步骤。
4.根据权利要求1所述的方法,其特征在于,所述对搜索结果页面进行解析处理后获取搜索结果的过程中,若搜索结果返回的页面为超文本链接标示语言html文件,则该过程包括:对html文件进行字符串的正则表达式匹配得到结果信息。
5.根据权利要求1或4所述的方法,其特征在于,所述搜索结果信息包括:标题、摘要、来源地址。
6.根据权利要求1所述的方法,其特征在于,所述搜索引擎包括:外部互联网搜索引擎和内部信息系统的搜索引擎。
7.根据权利要求6所述的方法,其特征在于,该方法还包括:预先设置对各外部互联网和内部信息系统进行了单点登录的集成;或者
利用统一的搜索引擎,直接获取各外部互联网和内部信息系统的数据,分别处理,在执行完所述去除来源地址重复的搜索结果后,对去除来源地址重复的搜索结果整合后进行展示。
8.根据权利要求1所述的方法,其特征在于,所述搜索地址和来源地址是统一资源定位符URL。
9.一种基于权利要求1-8任意一项所述方法的网络信息搜索系统,其特征在于,包括:
搜索页面获取模块,用于获取不同搜索引擎的搜索结果页面;
搜索结果获取模块,用于对搜索结果页面进行解析处理后获取搜索结果;
去重处理模块,用于对搜索结果的来源地址进行对比去除来源地址重复的搜索结果;
展示模块,用于对去除来源地址重复的搜索结果整合后进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101581580A CN101944093A (zh) | 2009-07-03 | 2009-07-03 | 一种网络信息的搜索方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101581580A CN101944093A (zh) | 2009-07-03 | 2009-07-03 | 一种网络信息的搜索方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101944093A true CN101944093A (zh) | 2011-01-12 |
Family
ID=43436087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101581580A Pending CN101944093A (zh) | 2009-07-03 | 2009-07-03 | 一种网络信息的搜索方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101944093A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514282A (zh) * | 2013-09-29 | 2014-01-15 | 北京奇虎科技有限公司 | 一种视频搜索结果展示方法及装置 |
CN103984753A (zh) * | 2014-05-28 | 2014-08-13 | 北京京东尚科信息技术有限公司 | 一种网络爬虫去重特征值的提取方法和装置 |
CN106302797A (zh) * | 2016-08-31 | 2017-01-04 | 北京锐安科技有限公司 | 一种cookie访问去重方法和装置 |
CN106844389A (zh) * | 2015-12-07 | 2017-06-13 | 阿里巴巴集团控股有限公司 | 网络资源地址url的处理方法和装置 |
CN108701160A (zh) * | 2016-03-01 | 2018-10-23 | 微软技术许可有限责任公司 | 混合企业内容和Web结果 |
CN110929493A (zh) * | 2020-02-16 | 2020-03-27 | 广州信安数据有限公司 | 数据管理方法、冗余数据检测方法、存储介质及数据系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1245937A (zh) * | 1998-08-26 | 2000-03-01 | 英业达股份有限公司 | 同时进行多个搜寻引擎检索的方法 |
US7346613B2 (en) * | 2004-01-26 | 2008-03-18 | Microsoft Corporation | System and method for a unified and blended search |
-
2009
- 2009-07-03 CN CN2009101581580A patent/CN101944093A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1245937A (zh) * | 1998-08-26 | 2000-03-01 | 英业达股份有限公司 | 同时进行多个搜寻引擎检索的方法 |
US7346613B2 (en) * | 2004-01-26 | 2008-03-18 | Microsoft Corporation | System and method for a unified and blended search |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514282A (zh) * | 2013-09-29 | 2014-01-15 | 北京奇虎科技有限公司 | 一种视频搜索结果展示方法及装置 |
CN103984753A (zh) * | 2014-05-28 | 2014-08-13 | 北京京东尚科信息技术有限公司 | 一种网络爬虫去重特征值的提取方法和装置 |
CN103984753B (zh) * | 2014-05-28 | 2018-02-09 | 北京京东尚科信息技术有限公司 | 一种网络爬虫去重特征值的提取方法和装置 |
CN106844389A (zh) * | 2015-12-07 | 2017-06-13 | 阿里巴巴集团控股有限公司 | 网络资源地址url的处理方法和装置 |
CN106844389B (zh) * | 2015-12-07 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 网络资源地址url的处理方法和装置 |
CN108701160A (zh) * | 2016-03-01 | 2018-10-23 | 微软技术许可有限责任公司 | 混合企业内容和Web结果 |
CN108701160B (zh) * | 2016-03-01 | 2021-09-24 | 微软技术许可有限责任公司 | 混合企业内容和Web结果 |
CN106302797A (zh) * | 2016-08-31 | 2017-01-04 | 北京锐安科技有限公司 | 一种cookie访问去重方法和装置 |
CN110929493A (zh) * | 2020-02-16 | 2020-03-27 | 广州信安数据有限公司 | 数据管理方法、冗余数据检测方法、存储介质及数据系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Madhavan et al. | Harnessing the deep web: Present and future | |
CN103699700B (zh) | 一种搜索引导的生成方法、系统及相关服务器 | |
CN104462575B (zh) | 音乐综合搜索的实现方法和装置 | |
CN101359332A (zh) | 具有语义分类功能的可视化搜索界面的设计方法 | |
US20150088846A1 (en) | Suggesting keywords for search engine optimization | |
CN101944093A (zh) | 一种网络信息的搜索方法和系统 | |
CN102999625A (zh) | 一种检索请求语义扩展方法 | |
CN104615627B (zh) | 一种基于微博平台的事件舆情信息提取方法及系统 | |
CN106021392A (zh) | 一种新闻关键信息的提取方法及系统 | |
Hoeber | Web information retrieval support systems: The future of web search | |
US20110219017A1 (en) | System and methods for citation database construction and for allowing quick understanding of scientific papers | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
KR20150018880A (ko) | 정보 취합 분류의 디스플레이 방법 및 시스템 | |
US20150161279A1 (en) | Displaying Local Site Name Information with Search Results | |
JP2009015495A (ja) | キーワード分類装置 | |
JP2006331292A (ja) | Weblogコミュニティ検索支援方法、検索支援装置および検索支援方法のプログラムを記録した記録媒体 | |
CN102073734A (zh) | 搜索引擎提供结构化查询的方法 | |
WO2015198114A1 (en) | Processing search queries and generating a search result page including search object information | |
Dorn et al. | Structuring meta-search research by design patterns | |
JP2006513470A5 (zh) | ||
CN113407678A (zh) | 知识图谱构建方法、装置和设备 | |
JP2006195535A (ja) | 情報抽出装置及び情報抽出方法並びに情報抽出プログラム | |
WO2015198115A1 (en) | Method of and a system for determining linked objects | |
CN107463570B (zh) | 一种文献检索/分析方法和装置 | |
Michelson et al. | Phoebus: A System for Extracting and Integrating Data from Unstructured and Ungrammatical Sources. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110112 |