CN102567473A - 网络信息检索系统及检索方法 - Google Patents
网络信息检索系统及检索方法 Download PDFInfo
- Publication number
- CN102567473A CN102567473A CN2011104181407A CN201110418140A CN102567473A CN 102567473 A CN102567473 A CN 102567473A CN 2011104181407 A CN2011104181407 A CN 2011104181407A CN 201110418140 A CN201110418140 A CN 201110418140A CN 102567473 A CN102567473 A CN 102567473A
- Authority
- CN
- China
- Prior art keywords
- webpage
- webpages
- those
- information
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 11
- 230000000295 complement effect Effects 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 4
- 238000009434 installation Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种网络信息检索系统及检索方法。该网络信息检索系统包括输入确定模块用于确认用户输入的搜索关键字;检索模块在网络中搜索与该搜索关键字内容相匹配的网页;内容提取模块对检索到的所有网页的地址及网页记载的文字信息和图片信息进行提取;去重处理模块获取该内容提取模块提取的该些网页的地址及该些网页记载的文字信息和图片信息,并根据该提取出的文字信息判断该些网页是否引用了源地址,若确定该网页中的文字信息和图片信息引用自一源地址,则该去重处理模块将该引用了源地址的网页去除,只保留该源地址对应的网页。
Description
技术领域
本发明涉及一种网络信息检索系统及检索方法。
背景技术
随着信息技术的发展,搜索引擎作为一个辅助用户检索信息的工具,在人们的日常生活中变得不可或缺。搜索引擎一般是将搜索到的所有与用户输入关键词相关的资料全部显示给用户,从而使得搜索结果往往有数十页甚至数百页之多。在数量庞大的搜索结果中,由于不同资源之间的相互引用,或不同网页之间相同内容的复制导致搜索结果中存在大量重复信息,这些重复信息不但造成了资源的浪费,也给用户的检索工作带来诸多不便。
发明内容
为了解决上述问题,本发明提供一种网络信息检索系统,该网络信息检索系统包括一输入确定模块,用于响应用户的输入操作,确认用户输入的搜索关键字;一检索模块,用于根据该用户输入的搜索关键字在网络中搜索与该搜索关键字内容相匹配的网页;一内容提取模块,用于从该检索模块检索到的所有网页中提取网页的地址及网页记载的文字信息和图片信息;一去重处理模块,用于获取该内容提取模块提取的该些网页的网址及该些网址对应的文字信息和图片信息,并根据该提取出的文字信息判断该些网页中的内容是否引用了源地址,若确定该网页中的内容引用自一源地址,则该去重处理模块将该引用了该源地址的网页去除,只保留该源地址对应的网页。
本发明还提供一种网络信息检索方法,包括步骤:响应用户的输入操作,确认用户输入的搜索关键字;根据该用户输入的搜索关键字在网络中搜索与该搜索关键字内容相匹配的网页;对检索到的所有网页的地址及网页记载的文字信息和图片信息进行提取;获取提取的该些网页的网址及该些网页记载的文字信息和图片信息,并根据该提取出的文字信息判断该些网页中的内容是否引用了源地址;当该些网页引用了源地址时,将引用该源地址的网页去除,只保留该网页内容所引用的源地址对应的网页作为最终显示的网页。
本发明中的网络信息检索系统及检索方法,去除了检索结果中大量的重复资源,方便用户快速的找到所需内容。
附图说明
图1为本发明一实施方式中网络信息检索系统的功能模块示意图。
图2为本发明一实施方式中网络信息检索方法流程图。
主要元件符号说明
网络信息检索系统 | 100 |
输入确定模块 | 10 |
检索模块 | 20 |
内容提取模块 | 30 |
去重处理模块 | 40 |
显示模块 | 50 |
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
下面结合附图,对本发明中的网络信息检索系统及检索方法作进一步的详细描述。
请参考图1,本发明一较佳实施方式中的网络信息检索系统100用于根据用户输入的搜索关键字在网络中检索与该搜索关键字相关内容,并对检索到的内容中重复的部分去除,从而减少了网络资源的浪费,同时也方便用户快捷的找到所需内容。在本实施方式中,该网络信息检索系统100可以运行于个人电脑、智能手机等作为客户终端的电子装置中,也可以运行于服务商的服务器中。在本实施方式中,该网络信息检索系统包括一输入确定模块10、一检索模块20、一内容提取模块30、一去重处理模块40以及一显示模块50。
该输入确定模块10用于响应用户通过键盘等输入装置进行的输入操作,确定用户输入的搜索关键字。该检索模块20用于根据该用户输入的搜索信息在网络中搜索与该搜索关键字内容相匹配的网页。
该内容提取模块30用于从该检索模块20检索到的所有网页中提取网页的地址及网页记载的文字信息和图片信息。在本实施方式中,该内容提取模块30通过预先构建的内容解析器将网页的网址、该网页中的文字和图片信息及该些信息引用的源地址提取出来。
该去重处理模块40获取该内容提取模块30提取的该些网页的网址及该些网页记载的文字信息和图片信息,并根据该提取出的文字信息判断该些网页中的内容是否引用了源地址,若该去重处理模块40确定该网页中的内容引用自一源地址,则该去重处理模块40将该引用了源地址的网页去除,只保留源地址对应的网页。例如,当网址为www.abc.com的网页中注明其文字信息和图片信息引用自一网页www.xyz.com时,该去重处理模块40将该网址为www.abc.com的网页去除,只保留网址为www.xyz.com的网页。当该去重处理模块40确定该些保留的网页中的内容没有引用其他源地址时,再将该些保留的网页中的文字信息和图片信息进行比较,并判断该些保留网页中的文字信息和图片信息的相似度是否超过一预先设定的阈值,其中,所述的相似度以网页内容中文字和图片的重复程度来表征。当该去重处理模块40确定该些保留的网页中至少两个网页内容的相似度超过该阈值时,则保留该些网页中文字内容最多的一个网页或时间最早的一个网页,将其他与该网页内容相似的网页去除,直到该去重处理模块40确定该些保留的网页中任何两个网页内容的相似度没有超过该阈值,则确认该些保留的网页为最终显示的网页。显然,若该去重处理模块40在去除掉引用源地址的网页后,确认在剩下的网页中任意两个网页内容的相似度均小于该阈值,则确定该些剩下的网页均为最终显示的网页。在其他实施方式中,该去重处理模块40根据用户的设置确定保留和去除网页的条件,从而确定最终显示的网页。
该显示模块50显示该去重处理模块40确定的该些最终显示的网页。在其他实施方式中,该显示模块50还用于根据用户输入命令确定是否显示被去除的网页。
请参阅图2,一种网络信息检索方法,应用于一网络信息检索系统中,该方法包括如下步骤:
S201:该输入确定模块10响应用户通过键盘等输入装置进行的输入操作,确定用户输入的搜索关键字。
S202:该检索模块20根据该用户输入的搜索关键字在网络中搜索与该搜索关键字相匹配的网页。
S203:该内容提取模块30提取该检索模块20检索到的所有网页的网址及网页记载的文字信息和图片信息。
S204:该去重处理模块40获取该内容提取模块30提取的该些网页的网址及该些网址对应的文字信息和图片信息,并根据该提取出的网页中记载的文字信息判断该些网页中的内容是否引用了源地址,若是,则执行步骤S205;若否,则执行步骤S208。
S205:该去重处理模块40将该引用了源地址的网页去除,只保留该源地址对应的网页。
S206:该去重处理模块40继续将当前保留的网页中的文字信息和图片信息进行比较,并判断该些保留网页中的任意两个网页记载的文字信息和图片信息的相似度是否超过一预先设定的阈值,其中,所述的相似度以网页内容中文字和图片的重复程度来表征。若是,则执行步骤S207;若否,则执行步骤S208。
S207:该去重处理模块40控制保留该些网页中文字内容最多的一个网页或时间最早的一个网页作为最终显示的网页,将其他与该网页内容相似的网页去除。在其他实施方式中,该去重处理模块40根据用户设置的条件确定保留和去除网页。
S208:该去重处理模块40控制该显示模块50最终保留的网页显示给用户。
Claims (10)
1.一种网络信息检索系统,其特征在于,该网络信息检索系统包括:
一输入确定模块,用于响应用户的输入操作,确认用户输入的搜索关键字;
一检索模块,用于根据该用户输入的搜索关键字在网络中搜索与该搜索关键字内容相匹配的网页;
一内容提取模块,用于从该检索模块检索到的所有网页中提取网页的地址及网页记载的文字信息和图片信息;
一去重处理模块,用于获取该内容提取模块提取的该些网页的网址及该些网址对应的文字信息和图片信息,并根据该提取出的文字信息判断该些网页中的内容是否引用了源地址,若确定该网页中的内容引用自一源地址,则该去重处理模块将该引用了该源地址的网页去除,只保留该源地址对应的网页。
2.如权利要求1所述的网络信息检索系统,其特征在于,该去重处理模块还用于将该些保留的网页中的文字信息和图片信息进行比较,并判断该些保留网页中的文字信息和图片信息的相似度是否超过一预先设定的阈值,所述的相似度以网页中文字信息和图片信息的重复程度来表征;当该些保留的网页中至少两个网页中文字信息和图片信息的相似度超过该阈值时,则显示该些网页中文字内容最多的一个网页或时间最早的一个网页,将其他与该网页内容相似的网页去除;直到该些保留的网页中任何两个网页内容的相似度都没有超过该阈值,则确定该些被保留的网页为最终显示的网页。
3.如权利要求2所述的网络信息检索系统,其特征在于,该网络信息检索系统还包括一显示模块用于显示该去重处理模块确定最终显示的网页。
4.如权利要求3所述的网络信息检索系统,其特征在于,该网络信息检索系统为运行于作为客户终端的电子装置中。
5.如权利要求3所述的网络信息检索系统,其特征在于,该网络信息检索系统运行于服务商的服务器中。
6.如权利要求1所述的网络信息检索系统,其特征在于,该内容提取模块通过预先构建的内容解析器将网页的地址、该网页中的文字和图片信息及该些信息引用的源地址提取出来。
7.如权利要求2所述的网络信息检索系统,其特征在于,该去重处理模块根据用户的设置确定保留和去除网页的条件。
8.一种网络信息检索方法,应用于一网络信息检索系统中,其特征在于,该方法包括如下步骤:
响应用户的输入操作,确认用户输入的搜索关键字;
根据该用户输入的搜索关键字在网络中搜索与该搜索关键字内容相匹配的网页;
对检索到的所有网页的地址及网页记载的文字信息和图片信息进行提取;
获取提取的该些网页的网址及该些网页记载的文字信息和图片信息,并根据该提取出的文字信息判断该些网页中的内容是否引用了源地址;
当该些网页引用了源地址时,将引用该源地址的网页去除,只保留该网页内容所引用的源地址对应的网页作为最终显示的网页。
9.如权利要求8所述的网络信息检索方法,其特征在于,该方法还包括步骤:
将该些保留的网页中的文字信息和图片信息进行比较,并判断该些保留网页中的文字和图片信息的相似度是否超过一预先设定的阈值,其中,所述的相似度以网页中记载的文字信息和图片信息的重复程度来表征;
当两个或两个以上网页中文字信息和图片信息的相似度超过该阈值时,控制显示该些网页中文字内容最多的一个网页或时间最早的一个网页,将其他与该网页内容相似的网页去除。
10.如权利要求9所述的网络信息检索方法,其特征在于,将确定最终显示的网页显示给用户。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104181407A CN102567473A (zh) | 2011-12-14 | 2011-12-14 | 网络信息检索系统及检索方法 |
TW100147228A TW201324210A (zh) | 2011-12-14 | 2011-12-19 | 網路資訊檢索系統及檢索方法 |
US13/572,713 US20130159275A1 (en) | 2011-12-14 | 2012-08-13 | Information searching system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011104181407A CN102567473A (zh) | 2011-12-14 | 2011-12-14 | 网络信息检索系统及检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102567473A true CN102567473A (zh) | 2012-07-11 |
Family
ID=46412883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011104181407A Pending CN102567473A (zh) | 2011-12-14 | 2011-12-14 | 网络信息检索系统及检索方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20130159275A1 (zh) |
CN (1) | CN102567473A (zh) |
TW (1) | TW201324210A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544283A (zh) * | 2013-10-24 | 2014-01-29 | 青岛英网资讯股份有限公司 | 网站信息合并去重方法 |
CN103984776A (zh) * | 2014-06-05 | 2014-08-13 | 北京奇虎科技有限公司 | 一种识别重复图片的方法、图片搜索去重方法及其装置 |
CN105991312A (zh) * | 2015-01-30 | 2016-10-05 | 深圳市腾讯计算机系统有限公司 | 一种网络资源的排重方法及装置 |
CN106095771A (zh) * | 2016-05-07 | 2016-11-09 | 深圳职业技术学院 | 写作辅助方法及装置 |
CN106126616A (zh) * | 2016-06-21 | 2016-11-16 | 东软集团股份有限公司 | 汇聚网络素材的方法和装置 |
CN107291916A (zh) * | 2017-06-28 | 2017-10-24 | 上海尚工机器人技术有限公司 | 网络信息整合引擎 |
CN108460098A (zh) * | 2018-02-01 | 2018-08-28 | 北京百度网讯科技有限公司 | 信息推荐方法、装置和计算机设备 |
CN109376317A (zh) * | 2015-10-22 | 2019-02-22 | 丁义荣 | 一种浏览器中切换网址链接的装置 |
CN110532489A (zh) * | 2019-08-30 | 2019-12-03 | 百度在线网络技术(北京)有限公司 | 页面的展示方法、装置、设备及介质 |
CN113918804A (zh) * | 2020-07-08 | 2022-01-11 | 上海会麦信息科技有限公司 | 商品信息检索系统及方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881470B (zh) * | 2015-05-28 | 2018-05-08 | 暨南大学 | 一种面向海量图片数据的重复数据删除方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004027706A1 (en) * | 2002-09-20 | 2004-04-01 | Board Of Regents, University Of Texas System | Computer program products, systems and methods for information discovery and relational analyses |
CN101645082A (zh) * | 2009-04-17 | 2010-02-10 | 华中科技大学 | 基于并行编程模式的相似网页去重系统 |
CN102063498A (zh) * | 2010-12-31 | 2011-05-18 | 百度在线网络技术(北京)有限公司 | 基于内容特征信息对链接进行去重处理的方法与设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5913208A (en) * | 1996-07-09 | 1999-06-15 | International Business Machines Corporation | Identifying duplicate documents from search results without comparing document content |
US7158961B1 (en) * | 2001-12-31 | 2007-01-02 | Google, Inc. | Methods and apparatus for estimating similarity |
US7185088B1 (en) * | 2003-03-31 | 2007-02-27 | Microsoft Corporation | Systems and methods for removing duplicate search engine results |
US8145630B1 (en) * | 2007-12-28 | 2012-03-27 | Google Inc. | Session-based dynamic search snippets |
US8380722B2 (en) * | 2010-03-29 | 2013-02-19 | Microsoft Corporation | Using anchor text with hyperlink structures for web searches |
-
2011
- 2011-12-14 CN CN2011104181407A patent/CN102567473A/zh active Pending
- 2011-12-19 TW TW100147228A patent/TW201324210A/zh unknown
-
2012
- 2012-08-13 US US13/572,713 patent/US20130159275A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004027706A1 (en) * | 2002-09-20 | 2004-04-01 | Board Of Regents, University Of Texas System | Computer program products, systems and methods for information discovery and relational analyses |
CN101645082A (zh) * | 2009-04-17 | 2010-02-10 | 华中科技大学 | 基于并行编程模式的相似网页去重系统 |
CN102063498A (zh) * | 2010-12-31 | 2011-05-18 | 百度在线网络技术(北京)有限公司 | 基于内容特征信息对链接进行去重处理的方法与设备 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544283A (zh) * | 2013-10-24 | 2014-01-29 | 青岛英网资讯股份有限公司 | 网站信息合并去重方法 |
CN103544283B (zh) * | 2013-10-24 | 2017-02-01 | 青岛英网资讯股份有限公司 | 网站信息合并去重方法 |
CN103984776A (zh) * | 2014-06-05 | 2014-08-13 | 北京奇虎科技有限公司 | 一种识别重复图片的方法、图片搜索去重方法及其装置 |
CN105991312A (zh) * | 2015-01-30 | 2016-10-05 | 深圳市腾讯计算机系统有限公司 | 一种网络资源的排重方法及装置 |
CN105991312B (zh) * | 2015-01-30 | 2019-06-18 | 深圳市腾讯计算机系统有限公司 | 一种网络资源的排重方法及装置 |
CN109376317A (zh) * | 2015-10-22 | 2019-02-22 | 丁义荣 | 一种浏览器中切换网址链接的装置 |
CN109376317B (zh) * | 2015-10-22 | 2021-10-15 | 潍坊久宝智能科技有限公司 | 一种浏览器中切换网址链接的装置 |
CN106095771A (zh) * | 2016-05-07 | 2016-11-09 | 深圳职业技术学院 | 写作辅助方法及装置 |
CN106126616A (zh) * | 2016-06-21 | 2016-11-16 | 东软集团股份有限公司 | 汇聚网络素材的方法和装置 |
CN107291916A (zh) * | 2017-06-28 | 2017-10-24 | 上海尚工机器人技术有限公司 | 网络信息整合引擎 |
CN108460098A (zh) * | 2018-02-01 | 2018-08-28 | 北京百度网讯科技有限公司 | 信息推荐方法、装置和计算机设备 |
CN110532489A (zh) * | 2019-08-30 | 2019-12-03 | 百度在线网络技术(北京)有限公司 | 页面的展示方法、装置、设备及介质 |
CN113918804A (zh) * | 2020-07-08 | 2022-01-11 | 上海会麦信息科技有限公司 | 商品信息检索系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
US20130159275A1 (en) | 2013-06-20 |
TW201324210A (zh) | 2013-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102567473A (zh) | 网络信息检索系统及检索方法 | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN103428662B (zh) | 短信信息处理方法及装置 | |
US20110246462A1 (en) | Method and System for Prompting Changes of Electronic Document Content | |
US20090276378A1 (en) | System and Method for Identifying Document Structure and Associated Metainformation and Facilitating Appropriate Processing | |
CN106959976B (zh) | 一种搜索处理方法以及装置 | |
CN105468583A (zh) | 一种实体关系的获取方法及装置 | |
WO2011085562A1 (en) | System and method for automatically extracting metadata from unstructured electronic documents | |
CN112163072B (zh) | 基于多数据源的数据处理方法以及装置 | |
CN104486495A (zh) | 在终端上显示新消息的提示信息的方法和装置 | |
CN111310693A (zh) | 图像中文本的智能标注方法、装置及存储介质 | |
CN104750791A (zh) | 一种图像检索方法及装置 | |
CN103077234A (zh) | 语音网址导航系统及方法 | |
CN104915359A (zh) | 主题标签推荐方法及装置 | |
CN103399855A (zh) | 基于多数据源的行为意图确定方法及装置 | |
WO2015043532A1 (en) | Information processing method, apparatus, and system | |
CN102194000A (zh) | 一种信息处理方法、装置及终端 | |
CN103455572A (zh) | 获取网页中影视主体的方法及装置 | |
CN103853777A (zh) | 通过关键字访问网站的方法及装置 | |
CN103064839A (zh) | 一种Pdf全文在线检索方法 | |
CN104240107A (zh) | 社群数据筛选系统及其方法 | |
CN111368693A (zh) | 一种身份证信息的识别方法和装置 | |
CN111666522A (zh) | 信息处理方法、装置、设备和存储介质 | |
CN101808296B (zh) | 一种编辑并群发彩信的自动实现方法及自动实现系统 | |
CN103716419A (zh) | 一种跨终端的域名处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120711 |