CN102567473A - 网络信息检索系统及检索方法 - Google Patents

网络信息检索系统及检索方法 Download PDF

Info

Publication number
CN102567473A
CN102567473A CN2011104181407A CN201110418140A CN102567473A CN 102567473 A CN102567473 A CN 102567473A CN 2011104181407 A CN2011104181407 A CN 2011104181407A CN 201110418140 A CN201110418140 A CN 201110418140A CN 102567473 A CN102567473 A CN 102567473A
Authority
CN
China
Prior art keywords
webpage
webpages
those
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104181407A
Other languages
English (en)
Inventor
杨宏宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2011104181407A priority Critical patent/CN102567473A/zh
Priority to TW100147228A priority patent/TW201324210A/zh
Publication of CN102567473A publication Critical patent/CN102567473A/zh
Priority to US13/572,713 priority patent/US20130159275A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网络信息检索系统及检索方法。该网络信息检索系统包括输入确定模块用于确认用户输入的搜索关键字;检索模块在网络中搜索与该搜索关键字内容相匹配的网页;内容提取模块对检索到的所有网页的地址及网页记载的文字信息和图片信息进行提取;去重处理模块获取该内容提取模块提取的该些网页的地址及该些网页记载的文字信息和图片信息,并根据该提取出的文字信息判断该些网页是否引用了源地址,若确定该网页中的文字信息和图片信息引用自一源地址,则该去重处理模块将该引用了源地址的网页去除,只保留该源地址对应的网页。

Description

网络信息检索系统及检索方法
技术领域
本发明涉及一种网络信息检索系统及检索方法。
背景技术
随着信息技术的发展,搜索引擎作为一个辅助用户检索信息的工具,在人们的日常生活中变得不可或缺。搜索引擎一般是将搜索到的所有与用户输入关键词相关的资料全部显示给用户,从而使得搜索结果往往有数十页甚至数百页之多。在数量庞大的搜索结果中,由于不同资源之间的相互引用,或不同网页之间相同内容的复制导致搜索结果中存在大量重复信息,这些重复信息不但造成了资源的浪费,也给用户的检索工作带来诸多不便。
发明内容
为了解决上述问题,本发明提供一种网络信息检索系统,该网络信息检索系统包括一输入确定模块,用于响应用户的输入操作,确认用户输入的搜索关键字;一检索模块,用于根据该用户输入的搜索关键字在网络中搜索与该搜索关键字内容相匹配的网页;一内容提取模块,用于从该检索模块检索到的所有网页中提取网页的地址及网页记载的文字信息和图片信息;一去重处理模块,用于获取该内容提取模块提取的该些网页的网址及该些网址对应的文字信息和图片信息,并根据该提取出的文字信息判断该些网页中的内容是否引用了源地址,若确定该网页中的内容引用自一源地址,则该去重处理模块将该引用了该源地址的网页去除,只保留该源地址对应的网页。
本发明还提供一种网络信息检索方法,包括步骤:响应用户的输入操作,确认用户输入的搜索关键字;根据该用户输入的搜索关键字在网络中搜索与该搜索关键字内容相匹配的网页;对检索到的所有网页的地址及网页记载的文字信息和图片信息进行提取;获取提取的该些网页的网址及该些网页记载的文字信息和图片信息,并根据该提取出的文字信息判断该些网页中的内容是否引用了源地址;当该些网页引用了源地址时,将引用该源地址的网页去除,只保留该网页内容所引用的源地址对应的网页作为最终显示的网页。
本发明中的网络信息检索系统及检索方法,去除了检索结果中大量的重复资源,方便用户快速的找到所需内容。
附图说明
图1为本发明一实施方式中网络信息检索系统的功能模块示意图。
图2为本发明一实施方式中网络信息检索方法流程图。
主要元件符号说明
  网络信息检索系统   100
  输入确定模块   10
  检索模块   20
  内容提取模块   30
  去重处理模块   40
  显示模块   50
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
下面结合附图,对本发明中的网络信息检索系统及检索方法作进一步的详细描述。
请参考图1,本发明一较佳实施方式中的网络信息检索系统100用于根据用户输入的搜索关键字在网络中检索与该搜索关键字相关内容,并对检索到的内容中重复的部分去除,从而减少了网络资源的浪费,同时也方便用户快捷的找到所需内容。在本实施方式中,该网络信息检索系统100可以运行于个人电脑、智能手机等作为客户终端的电子装置中,也可以运行于服务商的服务器中。在本实施方式中,该网络信息检索系统包括一输入确定模块10、一检索模块20、一内容提取模块30、一去重处理模块40以及一显示模块50。
该输入确定模块10用于响应用户通过键盘等输入装置进行的输入操作,确定用户输入的搜索关键字。该检索模块20用于根据该用户输入的搜索信息在网络中搜索与该搜索关键字内容相匹配的网页。
该内容提取模块30用于从该检索模块20检索到的所有网页中提取网页的地址及网页记载的文字信息和图片信息。在本实施方式中,该内容提取模块30通过预先构建的内容解析器将网页的网址、该网页中的文字和图片信息及该些信息引用的源地址提取出来。
该去重处理模块40获取该内容提取模块30提取的该些网页的网址及该些网页记载的文字信息和图片信息,并根据该提取出的文字信息判断该些网页中的内容是否引用了源地址,若该去重处理模块40确定该网页中的内容引用自一源地址,则该去重处理模块40将该引用了源地址的网页去除,只保留源地址对应的网页。例如,当网址为www.abc.com的网页中注明其文字信息和图片信息引用自一网页www.xyz.com时,该去重处理模块40将该网址为www.abc.com的网页去除,只保留网址为www.xyz.com的网页。当该去重处理模块40确定该些保留的网页中的内容没有引用其他源地址时,再将该些保留的网页中的文字信息和图片信息进行比较,并判断该些保留网页中的文字信息和图片信息的相似度是否超过一预先设定的阈值,其中,所述的相似度以网页内容中文字和图片的重复程度来表征。当该去重处理模块40确定该些保留的网页中至少两个网页内容的相似度超过该阈值时,则保留该些网页中文字内容最多的一个网页或时间最早的一个网页,将其他与该网页内容相似的网页去除,直到该去重处理模块40确定该些保留的网页中任何两个网页内容的相似度没有超过该阈值,则确认该些保留的网页为最终显示的网页。显然,若该去重处理模块40在去除掉引用源地址的网页后,确认在剩下的网页中任意两个网页内容的相似度均小于该阈值,则确定该些剩下的网页均为最终显示的网页。在其他实施方式中,该去重处理模块40根据用户的设置确定保留和去除网页的条件,从而确定最终显示的网页。
该显示模块50显示该去重处理模块40确定的该些最终显示的网页。在其他实施方式中,该显示模块50还用于根据用户输入命令确定是否显示被去除的网页。
请参阅图2,一种网络信息检索方法,应用于一网络信息检索系统中,该方法包括如下步骤:
S201:该输入确定模块10响应用户通过键盘等输入装置进行的输入操作,确定用户输入的搜索关键字。
S202:该检索模块20根据该用户输入的搜索关键字在网络中搜索与该搜索关键字相匹配的网页。
S203:该内容提取模块30提取该检索模块20检索到的所有网页的网址及网页记载的文字信息和图片信息。
S204:该去重处理模块40获取该内容提取模块30提取的该些网页的网址及该些网址对应的文字信息和图片信息,并根据该提取出的网页中记载的文字信息判断该些网页中的内容是否引用了源地址,若是,则执行步骤S205;若否,则执行步骤S208。
S205:该去重处理模块40将该引用了源地址的网页去除,只保留该源地址对应的网页。
S206:该去重处理模块40继续将当前保留的网页中的文字信息和图片信息进行比较,并判断该些保留网页中的任意两个网页记载的文字信息和图片信息的相似度是否超过一预先设定的阈值,其中,所述的相似度以网页内容中文字和图片的重复程度来表征。若是,则执行步骤S207;若否,则执行步骤S208。
S207:该去重处理模块40控制保留该些网页中文字内容最多的一个网页或时间最早的一个网页作为最终显示的网页,将其他与该网页内容相似的网页去除。在其他实施方式中,该去重处理模块40根据用户设置的条件确定保留和去除网页。
S208:该去重处理模块40控制该显示模块50最终保留的网页显示给用户。

Claims (10)

1.一种网络信息检索系统,其特征在于,该网络信息检索系统包括:
一输入确定模块,用于响应用户的输入操作,确认用户输入的搜索关键字;
一检索模块,用于根据该用户输入的搜索关键字在网络中搜索与该搜索关键字内容相匹配的网页;
一内容提取模块,用于从该检索模块检索到的所有网页中提取网页的地址及网页记载的文字信息和图片信息;
一去重处理模块,用于获取该内容提取模块提取的该些网页的网址及该些网址对应的文字信息和图片信息,并根据该提取出的文字信息判断该些网页中的内容是否引用了源地址,若确定该网页中的内容引用自一源地址,则该去重处理模块将该引用了该源地址的网页去除,只保留该源地址对应的网页。
2.如权利要求1所述的网络信息检索系统,其特征在于,该去重处理模块还用于将该些保留的网页中的文字信息和图片信息进行比较,并判断该些保留网页中的文字信息和图片信息的相似度是否超过一预先设定的阈值,所述的相似度以网页中文字信息和图片信息的重复程度来表征;当该些保留的网页中至少两个网页中文字信息和图片信息的相似度超过该阈值时,则显示该些网页中文字内容最多的一个网页或时间最早的一个网页,将其他与该网页内容相似的网页去除;直到该些保留的网页中任何两个网页内容的相似度都没有超过该阈值,则确定该些被保留的网页为最终显示的网页。
3.如权利要求2所述的网络信息检索系统,其特征在于,该网络信息检索系统还包括一显示模块用于显示该去重处理模块确定最终显示的网页。
4.如权利要求3所述的网络信息检索系统,其特征在于,该网络信息检索系统为运行于作为客户终端的电子装置中。
5.如权利要求3所述的网络信息检索系统,其特征在于,该网络信息检索系统运行于服务商的服务器中。
6.如权利要求1所述的网络信息检索系统,其特征在于,该内容提取模块通过预先构建的内容解析器将网页的地址、该网页中的文字和图片信息及该些信息引用的源地址提取出来。
7.如权利要求2所述的网络信息检索系统,其特征在于,该去重处理模块根据用户的设置确定保留和去除网页的条件。
8.一种网络信息检索方法,应用于一网络信息检索系统中,其特征在于,该方法包括如下步骤:
响应用户的输入操作,确认用户输入的搜索关键字;
根据该用户输入的搜索关键字在网络中搜索与该搜索关键字内容相匹配的网页;
对检索到的所有网页的地址及网页记载的文字信息和图片信息进行提取;
获取提取的该些网页的网址及该些网页记载的文字信息和图片信息,并根据该提取出的文字信息判断该些网页中的内容是否引用了源地址;
当该些网页引用了源地址时,将引用该源地址的网页去除,只保留该网页内容所引用的源地址对应的网页作为最终显示的网页。
9.如权利要求8所述的网络信息检索方法,其特征在于,该方法还包括步骤:
将该些保留的网页中的文字信息和图片信息进行比较,并判断该些保留网页中的文字和图片信息的相似度是否超过一预先设定的阈值,其中,所述的相似度以网页中记载的文字信息和图片信息的重复程度来表征;
当两个或两个以上网页中文字信息和图片信息的相似度超过该阈值时,控制显示该些网页中文字内容最多的一个网页或时间最早的一个网页,将其他与该网页内容相似的网页去除。
10.如权利要求9所述的网络信息检索方法,其特征在于,将确定最终显示的网页显示给用户。
CN2011104181407A 2011-12-14 2011-12-14 网络信息检索系统及检索方法 Pending CN102567473A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2011104181407A CN102567473A (zh) 2011-12-14 2011-12-14 网络信息检索系统及检索方法
TW100147228A TW201324210A (zh) 2011-12-14 2011-12-19 網路資訊檢索系統及檢索方法
US13/572,713 US20130159275A1 (en) 2011-12-14 2012-08-13 Information searching system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104181407A CN102567473A (zh) 2011-12-14 2011-12-14 网络信息检索系统及检索方法

Publications (1)

Publication Number Publication Date
CN102567473A true CN102567473A (zh) 2012-07-11

Family

ID=46412883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104181407A Pending CN102567473A (zh) 2011-12-14 2011-12-14 网络信息检索系统及检索方法

Country Status (3)

Country Link
US (1) US20130159275A1 (zh)
CN (1) CN102567473A (zh)
TW (1) TW201324210A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544283A (zh) * 2013-10-24 2014-01-29 青岛英网资讯股份有限公司 网站信息合并去重方法
CN103984776A (zh) * 2014-06-05 2014-08-13 北京奇虎科技有限公司 一种识别重复图片的方法、图片搜索去重方法及其装置
CN105991312A (zh) * 2015-01-30 2016-10-05 深圳市腾讯计算机系统有限公司 一种网络资源的排重方法及装置
CN106095771A (zh) * 2016-05-07 2016-11-09 深圳职业技术学院 写作辅助方法及装置
CN106126616A (zh) * 2016-06-21 2016-11-16 东软集团股份有限公司 汇聚网络素材的方法和装置
CN107291916A (zh) * 2017-06-28 2017-10-24 上海尚工机器人技术有限公司 网络信息整合引擎
CN108460098A (zh) * 2018-02-01 2018-08-28 北京百度网讯科技有限公司 信息推荐方法、装置和计算机设备
CN109376317A (zh) * 2015-10-22 2019-02-22 丁义荣 一种浏览器中切换网址链接的装置
CN110532489A (zh) * 2019-08-30 2019-12-03 百度在线网络技术(北京)有限公司 页面的展示方法、装置、设备及介质
CN113918804A (zh) * 2020-07-08 2022-01-11 上海会麦信息科技有限公司 商品信息检索系统及方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881470B (zh) * 2015-05-28 2018-05-08 暨南大学 一种面向海量图片数据的重复数据删除方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004027706A1 (en) * 2002-09-20 2004-04-01 Board Of Regents, University Of Texas System Computer program products, systems and methods for information discovery and relational analyses
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN102063498A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 基于内容特征信息对链接进行去重处理的方法与设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913208A (en) * 1996-07-09 1999-06-15 International Business Machines Corporation Identifying duplicate documents from search results without comparing document content
US7158961B1 (en) * 2001-12-31 2007-01-02 Google, Inc. Methods and apparatus for estimating similarity
US7185088B1 (en) * 2003-03-31 2007-02-27 Microsoft Corporation Systems and methods for removing duplicate search engine results
US8145630B1 (en) * 2007-12-28 2012-03-27 Google Inc. Session-based dynamic search snippets
US8380722B2 (en) * 2010-03-29 2013-02-19 Microsoft Corporation Using anchor text with hyperlink structures for web searches

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004027706A1 (en) * 2002-09-20 2004-04-01 Board Of Regents, University Of Texas System Computer program products, systems and methods for information discovery and relational analyses
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN102063498A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 基于内容特征信息对链接进行去重处理的方法与设备

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544283A (zh) * 2013-10-24 2014-01-29 青岛英网资讯股份有限公司 网站信息合并去重方法
CN103544283B (zh) * 2013-10-24 2017-02-01 青岛英网资讯股份有限公司 网站信息合并去重方法
CN103984776A (zh) * 2014-06-05 2014-08-13 北京奇虎科技有限公司 一种识别重复图片的方法、图片搜索去重方法及其装置
CN105991312A (zh) * 2015-01-30 2016-10-05 深圳市腾讯计算机系统有限公司 一种网络资源的排重方法及装置
CN105991312B (zh) * 2015-01-30 2019-06-18 深圳市腾讯计算机系统有限公司 一种网络资源的排重方法及装置
CN109376317A (zh) * 2015-10-22 2019-02-22 丁义荣 一种浏览器中切换网址链接的装置
CN109376317B (zh) * 2015-10-22 2021-10-15 潍坊久宝智能科技有限公司 一种浏览器中切换网址链接的装置
CN106095771A (zh) * 2016-05-07 2016-11-09 深圳职业技术学院 写作辅助方法及装置
CN106126616A (zh) * 2016-06-21 2016-11-16 东软集团股份有限公司 汇聚网络素材的方法和装置
CN107291916A (zh) * 2017-06-28 2017-10-24 上海尚工机器人技术有限公司 网络信息整合引擎
CN108460098A (zh) * 2018-02-01 2018-08-28 北京百度网讯科技有限公司 信息推荐方法、装置和计算机设备
CN110532489A (zh) * 2019-08-30 2019-12-03 百度在线网络技术(北京)有限公司 页面的展示方法、装置、设备及介质
CN113918804A (zh) * 2020-07-08 2022-01-11 上海会麦信息科技有限公司 商品信息检索系统及方法

Also Published As

Publication number Publication date
US20130159275A1 (en) 2013-06-20
TW201324210A (zh) 2013-06-16

Similar Documents

Publication Publication Date Title
CN102567473A (zh) 网络信息检索系统及检索方法
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN103428662B (zh) 短信信息处理方法及装置
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
US20090276378A1 (en) System and Method for Identifying Document Structure and Associated Metainformation and Facilitating Appropriate Processing
CN106959976B (zh) 一种搜索处理方法以及装置
CN105468583A (zh) 一种实体关系的获取方法及装置
WO2011085562A1 (en) System and method for automatically extracting metadata from unstructured electronic documents
CN112163072B (zh) 基于多数据源的数据处理方法以及装置
CN104486495A (zh) 在终端上显示新消息的提示信息的方法和装置
CN111310693A (zh) 图像中文本的智能标注方法、装置及存储介质
CN104750791A (zh) 一种图像检索方法及装置
CN103077234A (zh) 语音网址导航系统及方法
CN104915359A (zh) 主题标签推荐方法及装置
CN103399855A (zh) 基于多数据源的行为意图确定方法及装置
WO2015043532A1 (en) Information processing method, apparatus, and system
CN102194000A (zh) 一种信息处理方法、装置及终端
CN103455572A (zh) 获取网页中影视主体的方法及装置
CN103853777A (zh) 通过关键字访问网站的方法及装置
CN103064839A (zh) 一种Pdf全文在线检索方法
CN104240107A (zh) 社群数据筛选系统及其方法
CN111368693A (zh) 一种身份证信息的识别方法和装置
CN111666522A (zh) 信息处理方法、装置、设备和存储介质
CN101808296B (zh) 一种编辑并群发彩信的自动实现方法及自动实现系统
CN103716419A (zh) 一种跨终端的域名处理方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120711