CN107451289A - 基于垂直搜索引擎的数字内容查询系统 - Google Patents
基于垂直搜索引擎的数字内容查询系统 Download PDFInfo
- Publication number
- CN107451289A CN107451289A CN201710690520.3A CN201710690520A CN107451289A CN 107451289 A CN107451289 A CN 107451289A CN 201710690520 A CN201710690520 A CN 201710690520A CN 107451289 A CN107451289 A CN 107451289A
- Authority
- CN
- China
- Prior art keywords
- node server
- webpage
- index
- digital content
- sublink
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于垂直搜索引擎的数字内容查询系统,该系统包括主节点服务器和多个从节点服务器,主节点服务器包括管理器和查询器,从节点服务器包括爬行器和索引器;管理器用于分割待爬行的网页的网页链接得到多个网页子链接,并将网页子链接分配给多个从节点服务器;爬行器用于按照分割的网页子链接抓取网页文本数据,并将网页子链接和网页文本数据绑定后保存到网页数据库中:索引器用于对网页数据库中的网页数据进行分词,并按照分词执行全文索引得到索引结果;查询器用于解析用户的查询请求得到查询关键词和查询条件,根据查询关键词和查询条件生成查询任务,并执行查询任务获得查询结果。本发明能够大幅提高用户的查询性能。
Description
技术领域
本发明涉及搜索引擎技术领域,特别是涉及一种基于垂直搜索引擎的数字内容查询系统。
背景技术
随着互联网时代的快速推进,人们接触的信息资源呈爆炸性发展的趋势,同时,人们获得信息的方式和途径也呈现多元化发展的态势。如何从这些错综复杂的信息中全面、准确无误地提取自己所需信息,帮助用户收集自己所感兴趣的资料成为当前信息科技领域的一大研究热点。为了实现这一目的,目前所采取的技术手段是使用搜索引擎,而现有技术中应用较为广泛的搜索引擎包括Sphider、RiSearch PHP、XQEngine、JXTA Search等的查询性能均不理想。
发明内容
本发明主要解决的技术问题是提供一种基于垂直搜索引擎的数字内容查询系统,能够大幅提高用户的查询性能。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于垂直搜索引擎的数字内容查询系统,包括主节点服务器和多个从节点服务器,所述主节点服务器包括管理器和查询器,所述从节点服务器包括爬行器和索引器;所述管理器用于分割待爬行的网页的网页链接得到多个网页子链接,并将分割后的网页子链接按照预定策略分配给多个从节点服务器;所述爬行器用于漫游于网络中按照分割的网页子链接抓取网页文本数据,并将所述网页子链接和网页文本数据绑定后保存到网页数据库中:所述索引器用于对所述网页数据库中的网页数据进行分词,并按照所述分词执行全文索引得到索引结果;所述查询器用于解析用户的查询请求得到查询关键词和查询条件,根据所述查询关键词和查询条件生成查询任务,并执行所述查询任务获得查询结果,将所述查询结果返回给用户。
其中,所述索引器还用于在索引结束后根据评分策略对网页进行评分;所述查询器还用于在将查询结果返回给用户时,将查询结果根据网页评分分值由高到低的顺序进行排序。
其中,所述索引器还用于在执行全文索引时对部分倒排文档进行增量索引。
其中,所述管理器还用于将索引结果分散存储在多个从节点服务器上。
其中,所述管理器用于选定存储空间最大的从节点服务器,将索引结果分散存储在所述选定的从节点服务器上。
其中,所述管理器具体用于选定最近最少使用的从节点服务器,将分割后的网页子链接分配给所述选定的从节点服务器。
本发明的有益效果是:区别于现有技术的情况,本发明通过构建主节点服务器和多个从节点服务器,多个从节点服务器的爬行器获取网页文本数据、索引器进行全文索引,主节点服务器的查询器建立查询任务,而网页文本数据分布式存储在多个从节点服务器中,且执行查询任务进行分布式查询,从而能够大幅提高用户的查询性能。
附图说明
图1是本发明实施例的基于垂直搜索引擎的数字内容查询系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,是本发明实施例的基于垂直搜索引擎的数字内容查询系统的结构示意图。本发明实施例的数字内容查询系统包括主节点服务器1和多个从节点服务器2,主节点服务器1包括管理器11和查询器12,多个从节点服务器2包括爬行器21和索引器22。
管理器11用于分割待爬行的网页的网页链接得到多个网页子链接,并将分割后的网页子链接按照预定策略分配给多个从节点服务器2。在本实施例中,管理器11具体用于选定最近最少使用的从节点服务器2,将分割后的网页子链接分配给选定的从节点服务器2。由于从节点服务器2按照最近最少使用的策略来选定,因此,可以有效降低磁盘的输入输出次数,满足更多用户的并发访问,从而提高系统的整体性能和应用效率。
爬行器21用于漫游于网络中按照分割的网页子链接抓取网页文本数据,并将网页子链接和网页文本数据绑定后保存到网页数据库中。
索引器22用于对网页数据库中的网页数据进行分词,并按照分词执行全文索引得到索引结果。在本实施例中,索引器22还用于在执行全文索引时对部分倒排文档进行增量索引。索引器22在进行增量索引时过程中会锁定部分倒排文档,当索引完成后解锁对倒排文档的锁定。索引器22还对索引结果进行缓存,当缓存数量超过阈值时,将索引结果保存到倒排索引数据库中。进一步的,管理器11还用于将索引结果分散存储在多个从节点服务器2上。具体而言,管理器11用于选定存储空间最大的从节点服务器2,将索引结果分散存储在选定的从节点服务器2上。
查询器12用于解析用户的查询请求得到查询关键词和查询条件,根据查询关键词和查询条件生成查询任务,并执行查询任务获得查询结果,将查询结果返回给用户:在本实施例中,索引器22还用于在索引结束后根据评分策略对网页进行评分;查询器12还用于在将查询结果返回给用户时,将查询结果根据网页评分分值由高到低的顺序进行排序。其中吗,评分策略可以是关键词出现的词频,词频越高网页评分分值越高。
本发明实施例的数字内容查询系统的主节点服务器1主要用于协调从节点服务器2的分布式处理,而其本身不参与到任务处理中,这样看似浪费了1个节点的计算量,但是也带来了许多其他并行计算模型所没有的优点:整个系统更容易协调运行和扩展。
通过上述方式,本发明的基于垂直搜索引擎的数字内容查询系统通过构建主节点服务器和多个从节点服务器,多个从节点服务器的爬行器获取网页文本数据、索引器进行全文索引,主节点服务器的查询器建立查询任务,而网页文本数据分布式存储在多个从节点服务器中,且执行查询任务进行分布式查询,从而能够大幅提高用户的查询性能。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种基于垂直搜索引擎的数字内容查询系统,其特征在于,包括主节点服务器和多个从节点服务器,所述主节点服务器包括管理器和查询器,所述从节点服务器包括爬行器和索引器;所述管理器用于分割待爬行的网页的网页链接得到多个网页子链接,并将分割后的网页子链接按照预定策略分配给多个从节点服务器;所述爬行器用于漫游于网络中按照分割的网页子链接抓取网页文本数据,并将所述网页子链接和网页文本数据绑定后保存到网页数据库中:所述索引器用于对所述网页数据库中的网页数据进行分词,并按照所述分词执行全文索引得到索引结果;所述查询器用于解析用户的查询请求得到查询关键词和查询条件,根据所述查询关键词和查询条件生成查询任务,并执行所述查询任务获得查询结果,将所述查询结果返回给用户。
2.根据权利要求1所述的数字内容查询系统,其特征在于,所述索引器还用于在索引结束后根据评分策略对网页进行评分;所述查询器还用于在将查询结果返回给用户时,将查询结果根据网页评分分值由高到低的顺序进行排序。
3.根据权利要求1所述的数字内容查询系统,其特征在于,所述索引器还用于在执行全文索引时对部分倒排文档进行增量索引。
4.根据权利要求1所述的数字内容查询系统,其特征在于,所述管理器还用于将索引结果分散存储在多个从节点服务器上。
5.根据权利要求4所述的数字内容查询系统,其特征在于,所述管理器用于选定存储空间最大的从节点服务器,将索引结果分散存储在所述选定的从节点服务器上。
6.根据权利要求1所述的数字内容查询系统,其特征在于,所述管理器具体用于选定最近最少使用的从节点服务器,将分割后的网页子链接分配给所述选定的从节点服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710690520.3A CN107451289A (zh) | 2017-08-14 | 2017-08-14 | 基于垂直搜索引擎的数字内容查询系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710690520.3A CN107451289A (zh) | 2017-08-14 | 2017-08-14 | 基于垂直搜索引擎的数字内容查询系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107451289A true CN107451289A (zh) | 2017-12-08 |
Family
ID=60492246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710690520.3A Pending CN107451289A (zh) | 2017-08-14 | 2017-08-14 | 基于垂直搜索引擎的数字内容查询系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107451289A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113934911A (zh) * | 2021-10-20 | 2022-01-14 | 国网江苏省电力有限公司镇江供电分公司 | 一种文件爬取与搜索方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060004716A1 (en) * | 2004-07-01 | 2006-01-05 | Microsoft Corporation | Presentation-level content filtering for a search result |
CN1822005A (zh) * | 2006-04-07 | 2006-08-23 | 张天山 | 基于网站自动生成和搜索引擎的信息推送系统及方法 |
CN102073683A (zh) * | 2010-12-22 | 2011-05-25 | 四川大学 | 一种分布式的实时新闻信息采集系统 |
CN102436513A (zh) * | 2012-01-18 | 2012-05-02 | 中国电子科技集团公司第十五研究所 | 分布式检索方法和系统 |
-
2017
- 2017-08-14 CN CN201710690520.3A patent/CN107451289A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060004716A1 (en) * | 2004-07-01 | 2006-01-05 | Microsoft Corporation | Presentation-level content filtering for a search result |
CN1822005A (zh) * | 2006-04-07 | 2006-08-23 | 张天山 | 基于网站自动生成和搜索引擎的信息推送系统及方法 |
CN102073683A (zh) * | 2010-12-22 | 2011-05-25 | 四川大学 | 一种分布式的实时新闻信息采集系统 |
CN102436513A (zh) * | 2012-01-18 | 2012-05-02 | 中国电子科技集团公司第十五研究所 | 分布式检索方法和系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113934911A (zh) * | 2021-10-20 | 2022-01-14 | 国网江苏省电力有限公司镇江供电分公司 | 一种文件爬取与搜索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10452691B2 (en) | Method and apparatus for generating search results using inverted index | |
Rekabsaz et al. | Exploration of a threshold for similarity based on uncertainty in word embedding | |
US9460117B2 (en) | Image searching | |
US20150234927A1 (en) | Application search method, apparatus, and terminal | |
CN103020123B (zh) | 一种搜索不良视频网站的方法 | |
CN106844640A (zh) | 一种网页数据分析处理方法 | |
WO2009059480A1 (en) | Url and anchor text analysis for focused crawling | |
US20120254148A1 (en) | Serving multiple search indexes | |
CN105808773A (zh) | 一种新闻推送方法及装置 | |
CN102004772A (zh) | 一种用于根据检索词进行搜索结果排序的方法及设备 | |
JP2022137281A (ja) | データ照会方法、装置、電子デバイス、記憶媒体、及びプログラム | |
CN107977420A (zh) | 一种演进式文档的摘要提取方法、装置及可读存储介质 | |
CN104462390B (zh) | 一种提高网页自适应布局效率的方法和系统 | |
KR101931859B1 (ko) | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 | |
US20160034589A1 (en) | Method and system for search term whitelist expansion | |
CN113360895B (zh) | 站群检测方法、装置及电子设备 | |
US20150161205A1 (en) | Identifying an image for an entity | |
CN107451289A (zh) | 基于垂直搜索引擎的数字内容查询系统 | |
CN102799686A (zh) | 基于云平台的水利信息垂直搜索方法 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
CN110442696B (zh) | 查询处理方法及装置 | |
CN103902687B (zh) | 一种搜索结果的生成方法及装置 | |
CN103745004B (zh) | 一种基于云计算的桌面搜索方法、云服务器及终端 | |
Podnar et al. | Beyond term indexing: A P2P framework for web information retrieval | |
CN103258012A (zh) | 一种获取图片信息的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171208 |