CN105574100A - 一种自动构建分布式分类搜索引擎的方法 - Google Patents

一种自动构建分布式分类搜索引擎的方法 Download PDF

Info

Publication number
CN105574100A
CN105574100A CN201510921658.0A CN201510921658A CN105574100A CN 105574100 A CN105574100 A CN 105574100A CN 201510921658 A CN201510921658 A CN 201510921658A CN 105574100 A CN105574100 A CN 105574100A
Authority
CN
China
Prior art keywords
information
user
search
search engine
catalogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510921658.0A
Other languages
English (en)
Inventor
黄理灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yu Zhu Science And Technology Ltd
Original Assignee
Hangzhou Yu Zhu Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yu Zhu Science And Technology Ltd filed Critical Hangzhou Yu Zhu Science And Technology Ltd
Priority to CN201510921658.0A priority Critical patent/CN105574100A/zh
Publication of CN105574100A publication Critical patent/CN105574100A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种自动构建分布式分类搜索引擎的方法,其特征在于:1)建立具有根节点的信息分类目录的步骤;2)对网站进行分布式信息采取并进行信息分类的步骤;3)用户自动将本地计算机的信息发布到分类目录的步骤;4)用户采用语义P2P网络方式搜索加入领域的所有用户的信息的步骤。本发明方法比之目前市场上的搜索引擎,具有查找信息的准确率比较高;可以在不清晰知道要查找的关键词时找到用户所需的信息;并且可以搜索到用户本机(局域网IP)的信息。

Description

一种自动构建分布式分类搜索引擎的方法
技术领域
信息技术,分布式分类搜索引擎。
背景技术
搜索引擎主要分为全文搜索引擎和目录分类搜索。全文搜索引擎是目前主流搜索引擎,国外代表搜索是Google,国内是百度。全文搜索引擎利用“蜘蛛”(Spider)程序或“机器人”(Robot)程序从互联网提取各个网站的信,建立起数据库。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
目录分类搜索按目录分类将网站进行分类链接。用户可以按照分类目录找到所需要的信息,不依靠关键词进行查询。分类搜索如Yahoo、新浪分类等。与全文搜索引擎相比,目录索引则完全依赖手工操作。这种引擎的特点是找的准确率比较高。
全文搜索引擎和目录分类搜索各有优缺点。目录索引则完全依赖手工操作,费时,信息不全。当目录很长时,用户需要逐级查找下一级目录,用户体验差。但查找的准确率比较高。全文搜索引擎属于自动网站检索。这种引擎的特点是搜全率比较高。但是查找的结果不精确。当不知道关键词时,则不能搜索结果。用户如果清晰知道要查找的关键词,全文搜索引擎是最好的选择,但用户不清晰知道要查找的关键词,则目录分类搜索适合用户。当用户从天空看“森林“时,选择使用目录分类搜索,当用户查找具体的”树“时,全文搜索引擎是好的选择。
目前的搜索引擎仅仅搜索网页的内容,对用户的本地信息则不能搜索。然而。用户本地信息巨大,如何将用户本地的信息搜索出来,也是需要解决的课题。
本发明提出一种自动构建分布式分类搜索引擎的方法,解决以上两种搜索引擎存在的以上问题。
发明内容
一种自动构建分布式分类搜索引擎的方法,其特征在于:1)建立具有根节点的信息分类目录的步骤;2)对网站进行分布式信息采取并进行信息分类的步骤;3)用户自动将本地计算机的信息发布到分类目录的步骤;4)用户采用语义P2P网络方式(专利:一种基于p2p的查找有关节点子集合的方法CN200910096247.7)搜索加入领域的所有用户的信息的步骤。
根据权利要求1所述的建立具有根节点的信息分类目录的步骤,自动建立全领域的信息分类目录,涵盖社会、科学、技术、生活等各领域,这些目录从根节点到页节点逐步对应详细的目录。
根据权利要求1所述的对网站进行分布式信息采取并进行信息分类的步骤,大量计算机对网站进行分类信息抓取,可以人工设定信息分类和抓取模式,也可以对抓取的信息用程序自动分类。
根据权利要求1所述的用户自动将本地计算机的信息发布到分类目录的步骤,用户开放本地计算机的文件目录,可以将这些文件目录的链接发布到分类目录中,也可以将这些文件目录中的内容复制带搜索引擎的分录目录中。
根据权利要求1所述的用户自动将本地计算机的信息发布到分类目录的步骤,用户可以将桌面搜索的索引的链接发布到搜索引擎的分录目录中,用户可以通过NAT穿透技术访问用户本地的文件。
根据权利要求1所述的用户采用语义P2P网络方式搜索加入领域的所有用户的信息的步骤,用户通过程序向所有加入相关领域的用户发出请求,所有加入用户的计算机将自己的相关领域的信息搜索出来并返回到请求计算机。
建立具有根节点的信息分类目录,可以是专门领域的组织或专家进行的分类;也可以是用户自己根据喜好建立的分类;可以是学术的,也可以是通俗的分类。目录建立既有高权限人员的集中建立;也有普通用户自己建立后,管理员进行审核的目录建立。有灵活的增、删、改、查询等功能。
用户自动将本地计算机的信息发布到分类目录,用户设置自己本地计算机的开放文件目录,分布式搜索引擎将这些文件目录的链接自动发布到分类目录中;如果还设置为复制,这些文件目录中的内容将复制到搜索引擎的分录目录中。
分布式搜索引擎将这些文件目录的链接自动发布到分类目录中,由于用户的本地计算机可能是局域网;用户访问时,用户的分布式搜索引擎将通过NAT技术将这些内容传送到用户本地计算机的一个规定的目录,打开浏览器浏览此目录的内容,从而访问NAT背后的内容;在此种情况下,分布式搜索引擎的浏览器并不采用http协议,也不采用ftp协议,而是采用基于UDP的自定义协议。
本地计算机通过桌面搜索形成索引,分布式搜索引擎通过语义P2P网络,不通过网站服务器进行搜索。在分布式搜索程序中,用类似域名的id搜索某一领域的信息。
本发明具有以下优点:1.能够提高搜索精度;2.当不知道关键词时,还能搜索到所需要的结果;3.可以对用户的本地信息进行搜索。
本案实施方案1:服务器搜索程序自动检索与发布。
本案实施方案1中,服务器搜索程序对网站内容进行抓取并分类后加入分类索引文件或数据库中。比如,对http://sports.163.com/nba/网页进行抓取摘要及链接,并加入“总根.体育.篮球.NBA”分类目录索引文件。
本案实施方案2:客户端搜索程序自动检索与发布。
本案实施方案2中,客户端搜索程序抓取网页进行分类,通过接口程序发布到搜索引擎网站中。客户端搜索程序可以有很多用户同时使用。如A公司网页需要发布到搜索引擎网站,A公司运行客户端搜索程序从A公司网页中抓取文摘和链接,通过接口自动发布到搜索引擎网站。发布接口可以设定目录ID号以及需要发布的网页链接范围和网页模式。本案实施方案2可以方便用户自动发布搜索链接。
本案实施方案3:本地计算机目录自动发布。
本案实施方案3中,本地计算机建立公开的文件目录,将需要发布的文件拷贝到此目录下。客户端搜索程序通过NAT技术将文件的链接发布到搜索引擎网站。例如,小王本地计算机含有教育考试相关文件、医药卫生保健相关文件、工艺品等文件,小王希望发布这些信息并被互联网用户搜索到,小王先在本地计算机建立公开的文件目录(引擎公开),并建立教育考试、医药卫生保健以及工艺品子目录;然后,小王通过客户端搜索程序将这些文件的链接分别发布到相应选择的分类目中。比如教育考试中的文件(GRE学习.html)发布到“总根.网友分类.教育.教育考试”中,文件链接为“小王总根.网友分类.教育.教育考试/GRE学习.html”。当用户小张在“总根.网友分类.教育.教育考试”分类目录查到有“小王总根.网友分类.教育.教育考试/GRE学习.html”链接时,小张客户端搜索程序通过NAT技术链接小王计算机并将小王的GRE学习.html文件通过UDP协议传输到小张的临时目录,小张客户端搜索程序打开浏览器显示GRE学习.html的内容。其他文件类型如doc、PDF等做类似处理。如果小王同时设置复制到引擎网站为真时,GRE学习.html将复制到网站,并产生URL链接,比如,http://yvsou.com/28.9937.218.181806/0/postview.html,小张直接用浏览器就能打开GRE学习.html的内容。
本案实施方案4:P2P分布式检索。
本案实施方案4中,本地计算机的文件和链接不发布到搜索引擎网站,而是通过客户端搜索程序通过P2P技术直接返回搜索的信息。本地计算机加入类似DNS组,这些组具有信息分类的语义。客户查询某一目录的信息,将向加入这个组的用户计算机发出请求查询,这些加入这个组的计算机接到查询请求后,将自己计算机的相关领域的信息摘要和链接发送到请求者计算机。请求者计算机如果要打开某一链接,将通过NAT技术与信息提供者进行文件传输并打开。比如,小张希望搜索到“总根.网友分类.教育.教育考试”分类目录相关的所有在线用户的相关信息;小张通过语义P2P搜索程序向语义P2P网络发出请求“search总根.网友分类.教育.教育考试”;请求信息将通过语义P2P网络技术转发到所有加入“总根.网友分类.教育.教育考试“组的在线用户,这些用户将相应的文件链接(如小王的GRE学习.html)返回到小张语义P2P搜索程序,小张语义P2P搜索程序将产生搜索到的信息列表;如果小张打开其中一条,则采用NAT技术将文件传输到小张的临时目录,然后用浏览器打开本地文件方式打开(和本案实施方案3中相似)。

Claims (6)

1.一种自动构建分布式分类搜索引擎的方法,其特征在于:1)建立具有根节点的信息分类目录的步骤;2)对网站进行分布式信息采取并进行信息分类的步骤;3)用户自动将本地计算机的信息发布到分类目录的步骤;4)用户采用语义P2P网络方式搜索加入领域的所有用户的信息的步骤。
2.根据权利要求1所述的建立具有根节点的信息分类目录的步骤,自动建立全领域的信息分类目录,涵盖社会、科学、技术、生活等各领域,这些目录从根节点到页节点逐步对应详细的目录。
3.根据权利要求1所述的对网站进行分布式信息采取并进行信息分类的步骤,大量计算机对网站进行分类信息抓取,可以人工设定信息分类和抓取模式,也可以对抓取的信息用程序自动分类。
4.根据权利要求1所述的用户自动将本地计算机的信息发布到分类目录的步骤,用户开放本地计算机的文件目录,可以将这些文件目录的链接发布到分类目录中,也可以将这些文件目录中的内容复制带搜索引擎的分录目录中。
5.根据权利要求1所述的用户自动将本地计算机的信息发布到分类目录的步骤,用户可以将桌面搜索的索引的链接发布到搜索引擎的分录目录中,用户可以通过NAT穿透技术访问用户本地的文件。
6.根据权利要求1所述的用户采用语义P2P网络方式搜索加入领域的所有用户的信息的步骤,用户通过程序向所有加入相关领域的用户发出请求,所有加入用户的计算机将自己的相关领域的信息搜索出来并返回到请求计算机。
CN201510921658.0A 2015-12-14 2015-12-14 一种自动构建分布式分类搜索引擎的方法 Pending CN105574100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510921658.0A CN105574100A (zh) 2015-12-14 2015-12-14 一种自动构建分布式分类搜索引擎的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510921658.0A CN105574100A (zh) 2015-12-14 2015-12-14 一种自动构建分布式分类搜索引擎的方法

Publications (1)

Publication Number Publication Date
CN105574100A true CN105574100A (zh) 2016-05-11

Family

ID=55884231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510921658.0A Pending CN105574100A (zh) 2015-12-14 2015-12-14 一种自动构建分布式分类搜索引擎的方法

Country Status (1)

Country Link
CN (1) CN105574100A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106686050A (zh) * 2016-08-18 2017-05-17 北京泰尔英福网络科技有限责任公司 基于域名的分类信息发布方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001046776A2 (en) * 1999-10-22 2001-06-28 Dash Directory, Inc. Method for local business advertising on the internet
CN101505272A (zh) * 2009-03-02 2009-08-12 浙江理工大学 一种基于p2p的查找有关节点子集合的方法
CN101616182A (zh) * 2009-07-16 2009-12-30 浙江理工大学 一种构建具有语义的p2p网络的方法
CN103812915A (zh) * 2012-11-15 2014-05-21 中兴通讯股份有限公司 资源共享方法、装置、系统及终端、资源管理中心
CN104660488A (zh) * 2014-09-29 2015-05-27 杭州域竹科技有限公司 基于语义p2p网络技术的树形群组即时消息通讯方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001046776A2 (en) * 1999-10-22 2001-06-28 Dash Directory, Inc. Method for local business advertising on the internet
CN101505272A (zh) * 2009-03-02 2009-08-12 浙江理工大学 一种基于p2p的查找有关节点子集合的方法
CN101616182A (zh) * 2009-07-16 2009-12-30 浙江理工大学 一种构建具有语义的p2p网络的方法
CN103812915A (zh) * 2012-11-15 2014-05-21 中兴通讯股份有限公司 资源共享方法、装置、系统及终端、资源管理中心
CN104660488A (zh) * 2014-09-29 2015-05-27 杭州域竹科技有限公司 基于语义p2p网络技术的树形群组即时消息通讯方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106686050A (zh) * 2016-08-18 2017-05-17 北京泰尔英福网络科技有限责任公司 基于域名的分类信息发布方法及系统
CN106686050B (zh) * 2016-08-18 2020-02-07 中国信息通信研究院 基于域名的分类信息发布方法及系统

Similar Documents

Publication Publication Date Title
US9448992B2 (en) Natural language search results for intent queries
AU2008327678B2 (en) Federated search implemented across multiple search engines
WO2011153807A1 (zh) 一种个性化元搜索的方法及其应用终端
EP2771823A1 (en) Relevance of name and other search queries with social network features
WO2007002620A2 (en) Regulating access to shared content using visibility tokens
CN107766399A (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
Tarakeswar et al. Search engines: a study
CN107103063B (zh) 基于大数据的科技信息资源检索查询系统
CN102214207A (zh) 一种用于对信息实体中的属性集合进行排序的方法与设备
CN103390000A (zh) 一种网页搜索方法及网页搜索系统
US20130041884A1 (en) Method and system for resolving search queries that are inclined towards social activities
CN105224555A (zh) 一种搜索的方法、装置和系统
CN104216901B (zh) 信息搜索的方法和系统
CN105574100A (zh) 一种自动构建分布式分类搜索引擎的方法
Lee et al. Searching Steiner trees for web graph query
CN102957721B (zh) 一种用于基于标识信息对用户进行分类的设备和方法
CN106649883B (zh) 一种跨语言的主题网站自动发现方法
WO2017113324A1 (zh) 基于正则表达式的url过滤方法
CN103514237A (zh) 一种获取用户和文档个性化特征的方法和系统
KR101363497B1 (ko) Foaf 데이터 관리 방법 및 장치
Pirnau Considerations on the functions and importance of a web crawler
Joshi et al. An overview study of personalized web search
Veilumuthu et al. Intent based clustering of search engine query log
Wu et al. A quality analysis of keyword searching in different search engines projects
Saritha et al. Domain and keyword specific data extraction from invisible web databases

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160511

WD01 Invention patent application deemed withdrawn after publication