CN102799686A - 基于云平台的水利信息垂直搜索方法 - Google Patents
基于云平台的水利信息垂直搜索方法 Download PDFInfo
- Publication number
- CN102799686A CN102799686A CN2012102669957A CN201210266995A CN102799686A CN 102799686 A CN102799686 A CN 102799686A CN 2012102669957 A CN2012102669957 A CN 2012102669957A CN 201210266995 A CN201210266995 A CN 201210266995A CN 102799686 A CN102799686 A CN 102799686A
- Authority
- CN
- China
- Prior art keywords
- webpage
- water conservancy
- search
- water resource
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于云平台的水利信息垂直搜索方法,包括如下步骤:构建种子站点列表;利用网络爬虫抓取种子站点的水利网页并保存到本地网页库;构建水利术语标准集,将标准集中出现的所有水利术语组织成水利领域词典;对本地网页库中的网页进行解析和文本抽取,将网页的半结构化数据抽取成便于存储和索引的结构化数据;为网页的结构化数据建立倒排索引,将索引结果存储于索引库;根据用户提交的搜索请求搜索索引库并返回搜索结果。本发明对水利网页进行质量优化,提高检索质量;实现分布式搜索,提高检索效率。
Description
技术领域
本发明涉及一种数据搜索方法,特别涉及一种基于云平台的水利信息垂直搜索方法。
背景技术
随着信息技术的迅猛发展,“信息雪崩”(Information Avalanche)现象愈发严重,如何让用户,特别是特定领域的专业用户,在海量的信息资源中快速检索到最为准确、有用的信息成为研究热点之一。
垂直搜索引擎是相对通用搜索引擎存在的信息量大、查询不准确、搜索深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供具备一定价值的信息和相关服务。当前,垂直搜索引擎已经在IT、招聘、购物、旅游等诸多领域得到一定的应用。
水利行业属于信息密集型行业,该领域的信息资源种类、内容繁多,专业性强,而且分布散乱。当前,通用搜索引擎在水利信息资源的覆盖范围、水利信息数据的挖掘深度以及对水利术语的识别能力等方面均有所欠缺,不能有效地满足水利工作者的专业化检索需求。目前国内对水利领域专业信息检索的研究比较少,虽然有研究人员提出过建设水利专业搜索引擎的设想,但没有给出比较具体和完善的技术实现。可以说目前在水利领域尚未有一个比较成熟的、应用广泛的、高质量的专业检索工具。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种基于云平台的水利信息垂直搜索方法,向水利领域工作者提供一个能及时、全面、系统地了解水利领域信息资源的平台。
技术方案:为实现上述发明目的,本发明利用一个可定制化的网络爬虫,定向抓取目标站点的信息资源,抓取范围可根据用户需求进行相应扩展;根据水利行业标准和专家认定机制,应用情报学中的相关理论,对水利网页进行质量优化处理,提高检索质量;充分利用已有的云平台资源实现分布式搜索,使其具备更强的计算能力、更高的稳定性和更好的可扩展性,提高检索效率。
本系统包括基础设施层、虚拟化层、服务层和客户端层四个层次。服务层描述了本系统的工作机制,由抓取器、索引器、搜索器三部分组成,主要实现步骤如下:
步骤1:构建种子站点列表;
步骤2:利用网络爬虫抓取种子站点的水利网页并保存到本地网页库;
步骤3:构建水利术语标准集,将标准集中出现的所有水利术语组织成水利领域词典;
步骤4:对本地网页库中的网页进行解析和文本抽取,将网页的半结构化数据抽取成便于存储和索引的结构化数据;
步骤5:为网页的结构化数据建立倒排索引,将索引结果存储于索引库;
步骤6:根据用户提交的搜索请求搜索索引库并返回搜索结果。
为了提高检索质量和效率,在建立索引之前对已抓取的水利网页进行质量优化。即所述步骤5中,在为网页的结构化数据建立倒排索引之前,还包括应用齐普夫定律构建出水利领域停用词典,应用布拉德福定律筛选出水利核心网站的步骤。
优选地,所述步骤6中,根据用户提交的搜索请求分布式搜索索引库并返回搜索结果。
有益效果:将齐普夫定律、布拉德福定律等情报学理论应用于水利信息领域,对水利网页进行质量优化,提高检索质量;充分利用已有的云平台资源组建更为庞大的计算网络,实现分布式搜索,提高检索效率。
附图说明
图1是本发明的体系结构图;
图2(A)是本发明前10条搜索结果的实验对比图,图2(B)是本发明前30搜索结果的实验对比图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本系统包括4个层次,分别是基础设施层、虚拟化层、服务层和客户端层。在虚拟化层中,将一个Hadoop集群部署在云平台虚拟机上,应用Map/Reduce编程模型分布式处理任务,并在HDFS(分布式文件系统)中存储数据。服务层描述了系统的工作机制,由抓取器、索引器、搜索器三部分组成,具体的技术方案包括如下步骤:
步骤1:选取中国水利部、中国水网等30余个水利行业的代表性政府和科研机构网站,将其入口地址组织成种子站点列表。
步骤2:使用Heritrix技术实现了一个针对水利特定业务的网络爬虫,从种子站点开始沿网页中的链接向下进行搜索、过滤、抓取和存储操作,将已抓取的网页保存到本地网页库。
步骤3:为了尽可能提高水利专业词汇的分词精度、消除歧义切分,需要构建水利领域词典辅助分词。将以《水利水电工程技术术语标准》(SL26—92)、《农村水利技术术语》(SL56-2005)为代表的12个门类,具体40个水利行业标准,组织成水利术语标准集。针对不同格式的文档,以手工录入、jxl解析Excel、DOM解析Xml等方式,将标准集中出现的所有水利术语汇总入数据库。利用数据库对水利术语进行去重处理后导出到dic文档,构建出相对比较完备的水利领域词典,并将其配置到IKAnalyzer中文分词工具中。
步骤4:利用HTMLParser工具遍历网页文件的文本节点,对网页库中的网页进行解析,抽取出网页标题、内容等文本信息,可对这些结构化数据建立索引。这种将网页的半结构化数据抽取成便于存储和索引的结构化数据的过程,是垂直搜索引擎与通用网页搜索引擎的重要区别之一。
步骤5:应用齐普夫定律构建出水利领域停用词典,并将其配置到IKAnalyzer中文分词工具中,提高对检索和鉴别最具意义的水利关键词的密度,提高检索的效率和质量;应用布拉德福定律筛选出水利核心网站,对水利核心网站中的网页增加更新频次并提高文档评分,重点突出包含更多水利信息的网页资源,提高实用价值和用户体验。
步骤6:利用Lucene工具为网页的结构化信息建立倒排索引,其中包括了初始化索引、向索引添加文档、索引优化、编码转换、调整动态URL、关闭索引等一系列具体工作。
步骤7:利用JavaEE相关技术实现了一个具备搜索和显示功能的Web交互界面,根据用户提交的搜索请求分布式搜索索引库,将进行相关度排序后的搜索结果分页显示给用户。
搜索引擎的第一页和前三页搜索结果对于一般用户来说是最具实际价值的。在百度、谷歌以及本系统中分别输入相同的水利关键词进行检索。分别统计前10个和前30个搜索结果中,对水利工作者更具价值的水利相关文本网页的个数,部分实验结果如图2(A)和图2(B)所示。根据实验分析结果和专家认定机制,本系统在水利词汇检索上相比通用搜索引擎优势较为明显,可以向用户提供对水利信息资源的高质量、高效率检索服务。
Claims (3)
1.一种基于云平台的水利信息垂直搜索方法,包括如下步骤:
步骤1:构建种子站点列表;
步骤2:利用网络爬虫抓取种子站点的水利网页并保存到本地网页库;
步骤3:构建水利术语标准集,将标准集中出现的所有水利术语组织成水利领域词典;
步骤4:对本地网页库中的网页进行解析和文本抽取,将网页的半结构化数据抽取成便于存储和索引的结构化数据;
步骤5:为网页的结构化数据建立倒排索引,将索引结果存储于索引库;
步骤6:根据用户提交的搜索请求搜索索引库并返回搜索结果。
2.根据权利要求1所述一种基于云平台的水利信息垂直搜索方法,其特征在于:所述步骤5中,在为网页的结构化数据建立倒排索引之前,还包括应用齐普夫定律构建出水利领域停用词典,应用布拉德福定律筛选出水利核心网站的步骤。
3.根据权利要求1所述一种基于云平台的水利信息垂直搜索方法,其特征在于:所述步骤6中,根据用户提交的搜索请求分布式搜索索引库并返回搜索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102669957A CN102799686A (zh) | 2012-07-30 | 2012-07-30 | 基于云平台的水利信息垂直搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102669957A CN102799686A (zh) | 2012-07-30 | 2012-07-30 | 基于云平台的水利信息垂直搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102799686A true CN102799686A (zh) | 2012-11-28 |
Family
ID=47198796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102669957A Pending CN102799686A (zh) | 2012-07-30 | 2012-07-30 | 基于云平台的水利信息垂直搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102799686A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927342A (zh) * | 2014-03-28 | 2014-07-16 | 苏州中炎工贸有限公司 | 基于大数据的垂直搜索引擎系统 |
CN104077402A (zh) * | 2014-07-04 | 2014-10-01 | 用友软件股份有限公司 | 数据处理方法和数据处理系统 |
CN110032612A (zh) * | 2019-04-10 | 2019-07-19 | 珠海市岭南大数据研究院 | 信息推送方法和装置 |
CN110134851A (zh) * | 2019-05-05 | 2019-08-16 | 北京科技大学 | 一种基于领域内网的搜索引擎系统及构建方法 |
CN111859067A (zh) * | 2020-06-30 | 2020-10-30 | 中国地质大学(武汉) | 一种基于网络爬虫技术的水文水质数据采集方法及系统 |
-
2012
- 2012-07-30 CN CN2012102669957A patent/CN102799686A/zh active Pending
Non-Patent Citations (5)
Title |
---|
周远超等: ""水利垂直搜索引擎的研究"", 《计算机与数字工程》 * |
王伟: ""Dhawan期刊筛选模型的确立——选择核心期刊方法述评"", 《技术与市场》 * |
王花等: ""基于语料的哈萨克语词频统计研究"", 《计算机工程》 * |
金婵鸣: ""垂直搜索引擎系统的研究"", 《武汉理工大学硕士学位论文》 * |
陈诚: ""基于云计算的智慧城市垂直搜索技术研究"", 《软件产业与工程》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927342A (zh) * | 2014-03-28 | 2014-07-16 | 苏州中炎工贸有限公司 | 基于大数据的垂直搜索引擎系统 |
CN104077402A (zh) * | 2014-07-04 | 2014-10-01 | 用友软件股份有限公司 | 数据处理方法和数据处理系统 |
CN104077402B (zh) * | 2014-07-04 | 2018-01-19 | 用友网络科技股份有限公司 | 数据处理方法和数据处理系统 |
CN110032612A (zh) * | 2019-04-10 | 2019-07-19 | 珠海市岭南大数据研究院 | 信息推送方法和装置 |
CN110134851A (zh) * | 2019-05-05 | 2019-08-16 | 北京科技大学 | 一种基于领域内网的搜索引擎系统及构建方法 |
CN111859067A (zh) * | 2020-06-30 | 2020-10-30 | 中国地质大学(武汉) | 一种基于网络爬虫技术的水文水质数据采集方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102073692B (zh) | 基于农业领域本体库的语义检索系统和方法 | |
Cafarella et al. | Structured data on the web | |
CN103838785A (zh) | 一种专利领域的垂直搜索引擎 | |
CN101963965B (zh) | 基于搜索引擎的文档索引方法、数据查询方法及服务器 | |
CN101196898A (zh) | 将词组索引技术应用在互联网搜索引擎中的方法 | |
CN104376406A (zh) | 一种基于大数据的企业创新资源管理与分析系统和方法 | |
CN103389998A (zh) | 一种基于云服务的新型互联网商业情报语义分析技术 | |
CN102799686A (zh) | 基于云平台的水利信息垂直搜索方法 | |
CN104050235A (zh) | 基于集合选择的分布式信息检索方法 | |
CN102270331A (zh) | 基于可视化搜索的网络购物导航方法 | |
CN105183884A (zh) | 一种基于大数据技术的搜索引擎系统及搜索引擎方法 | |
CN105335487A (zh) | 基于农业技术信息本体库的农业专家信息检索系统及方法 | |
CN102163226A (zh) | 基于映射-化简和分词及邻接排序去重方法 | |
CN103744954A (zh) | 一种词关联网模型的构建方法及其构建器 | |
CN103116635A (zh) | 面向领域的暗网资源采集方法和系统 | |
CN104915405A (zh) | 一种基于多层次的微博查询扩展方法 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN102156749B (zh) | 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统 | |
TW201426357A (zh) | 搜索資料排序的方法和裝置,資料搜索的方法和裝置 | |
CN104572720A (zh) | 一种网页信息排重的方法、装置及计算机可读存储介质 | |
CN103309962A (zh) | 一种基于内容相关度和社交影响力的微博服务专家定位方法 | |
JP2013168177A (ja) | 情報提供プログラム、情報提供装置および検索サービスの提供方法 | |
Deng | Research on the focused crawler of mineral intelligence service based on semantic similarity | |
CN103235784A (zh) | 一种用于获取搜索结果的方法与设备 | |
CN103530344A (zh) | 一种基于改进的tf-idf方法的检索词实时修正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121128 |