CN108932327A - 一种页面信息提取系统及提取方法 - Google Patents
一种页面信息提取系统及提取方法 Download PDFInfo
- Publication number
- CN108932327A CN108932327A CN201810716173.1A CN201810716173A CN108932327A CN 108932327 A CN108932327 A CN 108932327A CN 201810716173 A CN201810716173 A CN 201810716173A CN 108932327 A CN108932327 A CN 108932327A
- Authority
- CN
- China
- Prior art keywords
- information
- page
- server
- module
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种页面信息提取系统及提取方法,涉及数据处理领域。本发明的一种页面信息提取方法包括如下步骤:步骤S001:页面获取;步骤S002:信息提取;步骤S003:信息去重;步骤S004:获取公告内容;步骤S005:自动分类;步骤S006:生成索引;步骤S007:信息分析提取;步骤S008:保存至数据库。本发明通过异步访问多个服务器同时采集多个网站页面数据,利用互联网的技术手段进行数据分析,为用户匹配感知信息,并对完成用户信息的智能分拣及过滤,实时为用户推送精准的匹配信息,提高了网页信息采集速度以及精准度,极大的增加了用户体验度。
Description
技术领域
本发明属于数据提取领域,特别是涉及一种页面信息提取系统及提取方法。
背景技术
按照预估计,全国公共采购招标网站在4000个以上,如果计入大型企业网站发布的招标信息在内可能在10000家以上。有些企业网站需要注册以后才能登录访问招标信息;要快速采集全国各招标网站最新发布的招标信息,必须对这几千上万的网站相关页面进行多线程并行自动访问。
在现有技术中,由于网页采集招标信息需要从几百上千个网站上获取,导致招标信息采集过慢、采集信息不准确,影响了用户快速了解招标信息。
本发明提出一种信息提取方法,根据需要进行多服务器同时采集。同一个网页采集线程需要管理几百上千个网站页面的获取,因此网页获取要采用异步访问模式,加快获取的速度。
发明内容
本发明的目的在于提供一种页面信息提取系统及提取方法,通过异步访问多个服务器同时采集多个网站页面数据,利用互联网的技术手段进行数据分析,为用户匹配感知信息,并对完成用户信息的智能分拣及过滤,实时为用户推送精准的匹配信息,解决了现有的网页信息采集过慢、信息精准度不足、用户体验不佳的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种页面信息提取方法,包括如下步骤:
步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;
步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取;
步骤S003信息去重:抽取信息完成后,将重复的信息删除;
步骤S004获取公告内容:通过线程获取公告内容;
步骤S005自动分类:对获取的公告内容进行分类;
步骤S006生成索引:对分类完成的公告内容创建索引;
步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;
步骤S008保存至数据库:将发送的信息保存到系统数据库。
优选地,所述步骤S002中,页面信息抽取包括以下步骤:
步骤T001页面预处理:通过Java HTML Parser组件将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备;
步骤T002解析DOM结构:页面预处理完成后,通过解析器把处理完成的网页文档分解成一个语法树;
步骤T003加载页面抽取规格:根据需求加载对应的抽取规则;
步骤T004页面文本分析:对特定的名词短语和动词短语进行语义和语法分析;
步骤T005按抽取规则搜索DOM节点:通过模式匹配识别指定的信息模式的各个部分;
步骤T006提取公告各部分信息:通过上下文分析和推理,确定信息的最终形式;
步骤T007输出结构化公告信息组:将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。
优选地,所述步骤T003中,抽取规格通过正则表达式进行制定。
本发明为一种页面信息提取方法的提取系统,包括手机APP、交换机和应用服务器;
所述手机APP通过互联网与交换机无线连接;所述互联网和应用服务器之间设有一安全设备;
所述交换机用于为多个网络节点提供独享的电性通路;
所述应用服务器包括存储模块、消息推送模块、检索模块、日志模块、推荐模块、消息采集模块、分析模块和通信模块;
所述存储模块用于存储采集信息、日志信息和推送信息;
所述检索模块用于用户通过关键字进行全文检索;
所述日志模块用于对用户的操作生成日志;
所述推荐模块用于根据用户的使用习惯,用户查询时优先显示其喜好的信息;
所述消息采集模块用于采集页面信息和推送信息;
所述通信模块用于应用服务器与交换机之间通信连接。
优选地,所述检索模块采用全文检索技术,公告标题和正文组合构成待检索的文本,事先构建文本的词汇检索索引,建立与文本的映射关系,构建成全文检索数据库。
优选地,所述应用服务器为多个;所述应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器;
其中,所述公告采集服务器、推送信息生成、分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器均匀交换机通信连接;所述手机APP应用服务器通过反向代理或负载均衡服务器与交换机通信连接。
优选地,所述应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器均统一部署、配置。
本发明具有以下有益效果:
本发明通过异步访问多个服务器同时采集多个网站页面数据,利用互联网的技术手段进行数据分析,为用户匹配感知信息,并对完成用户信息的智能分拣及过滤,实时为用户推送精准的匹配信息,提高了网页信息采集速度以及精准度,极大的增加了用户体验度。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种页面信息提取方法步骤图;
图2为页面信息抽取步骤图;
图3为发明的一种页面信息提取系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种页面信息提取方法,包括如下步骤:
步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;例如一批可以同时异步访问100个页面,一个采集循环分10批完成,具体运行几个采集线程,分几批,每批并发获取多少页面需要实际选择不同参数试验来确定;
步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取,抽取的信息包括招标信息和中标信息等等;
步骤S003信息去重:抽取信息完成后,将重复的信息删除,只保留最新的信息;
步骤S004获取公告内容:通过线程获取公告内容,获取公告内容只需1-2个线程获取,然后将获取的信息提交的数据产生模块和自动分类模块;
步骤S005自动分类:对获取的公告内容进行分类;
步骤S006生成索引:对分类完成的公告内容创建索引;
步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;
步骤S008保存至数据库:将发送的信息保存到系统数据库,使用一线程专门负责信息到数据库的保存。
请参阅图2所示,步骤S002中,页面信息抽取包括以下步骤:
步骤T001页面预处理:通过Java HTML Parser组件将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备;
步骤T002解析DOM结构:页面预处理完成后,通过解析器把处理完成的网页文档分解成一个语法树;
步骤T003加载页面抽取规格:根据需求加载对应的抽取规则;
步骤T004页面文本分析:对特定的名词短语和动词短语进行语义和语法分析;
步骤T005按抽取规则搜索DOM节点:通过模式匹配识别指定的信息模式的各个部分;
步骤T006提取公告各部分信息:通过上下文分析和推理,确定信息的最终形式;
步骤T007输出结构化公告信息组:将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。
其中,步骤T003中,抽取规格通过正则表达式制定。
请参阅图3所示,本发明为一种页面信息提取系统,包括手机APP、交换机和应用服务器;
手机APP通过互联网与交换机无线连接;互联网和应用服务器之间设有一安全设备;
交换机用于为多个网络节点提供独享的电性通路;
应用服务器包括存储模块、消息推送模块、检索模块、日志模块、推荐模块、消息采集模块、分析模块和通信模块;
存储模块用于存储采集信息、日志信息和推送信息;
检索模块用于用户通过关键字进行全文检索,使用SQL语句在关系数据库字段中查询关键词和关键词组合是可以实现功能,但它的速度和准确性却很差,用户访问量大一些时就无法达到合适的响应速度,而且关键词组合查询无法直接满足匹配优先级排序;最理想的办法就是采用全文检索技术,构建本系统的垂直搜索子系统;将公告标题和正文组合构成待检索的文本,事先构建文本的词汇检索索引,建立与文本的映射关系,构建成全文检索数据库;关键词及其组合查询在全文检索系统有成熟匹配度模型,基于相关模型对搜索的结果排序;最后按匹配度顺序展示给用户;本系统的全文检索基本组件可以基于Lucene开放源代码的全文检索引擎工具包,其中中文分词可以采用基于java的综合效果较好的成熟分词软件;
日志模块用于对用户的操作生成日志;
推荐模块用于根据用户的使用习惯,用户查询时优先显示其喜好的信息,它的功能原理是分析用户长期使用习惯,如经常访问的功能,使用查询关键词,形成统计判断结果,在用户查询时加以推荐;
消息采集模块用于采集页面信息和推送信息;
通信模块用于应用服务器与交换机之间通信连接。
其中,检索模块采用全文检索技术,公告标题和正文组合构成待检索的文本,事先构建文本的词汇检索索引,建立与文本的映射关系,构建成全文检索数据库。
其中,应用服务器为多个,因为非大规模用户情况下的用户数增多时一台Web应用服务器不能满足用户的访问要求;应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器;
其中,公告采集服务器、推送信息生成、分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器均匀交换机通信连接;手机APP应用服务器通过反向代理或负载均衡服务器与交换机通信连接。
其中,应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器均统一部署、配置,前端增加一个反向代理服务器软件或负载均衡器软件,对于用户会话信息可以保存在一个缓存服务器上;如果反向代理服务器或负载均衡器按照固定的算法进行负载均,这样一个用户固定访问同一个应用服务器,保存用户会话信息的缓存服务器就不需要。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (7)
1.一种页面信息提取方法,其特征在于,包括如下步骤:
步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;
步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取;
步骤S003信息去重:抽取信息完成后,将重复的信息删除;
步骤S004获取公告内容:通过线程获取公告内容;
步骤S005自动分类:对获取的公告内容进行分类;
步骤S006生成索引:对分类完成的公告内容创建索引;
步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;
步骤S008保存至数据库:将发送的信息保存到系统数据库。
2.根据权利要求1所述的一种页面信息提取方法,其特征在于,所述步骤S002中,页面信息抽取包括以下步骤:
步骤T001页面预处理:通过Java HTML Parser组件将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备;
步骤T002解析DOM结构:页面预处理完成后,通过解析器把处理完成的网页文档分解成一个语法树;
步骤T003加载页面抽取规格:根据需求加载对应的抽取规则;
步骤T004页面文本分析:对特定的名词短语和动词短语进行语义和语法分析;
步骤T005按抽取规则搜索DOM节点:通过模式匹配识别指定的信息模式的各个部分;
步骤T006提取公告各部分信息:通过上下文分析和推理,确定信息的最终形式;
步骤T007输出结构化公告信息组:将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。
3.根据权利要求2所述的一种页面信息提取方法,其特征在于,所述步骤T003中,抽取规格通过正则表达式制定。
4.如根据权利要求1-3任意一所述的一种页面信息提取方法的提取系统,包括手机APP、交换机和应用服务器,其特征在于:
所述手机APP通过互联网与交换机无线连接;所述互联网和应用服务器之间设有一安全设备;
所述交换机用于为多个网络节点提供独享的电性通路;
所述应用服务器包括存储模块、消息推送模块、检索模块、日志模块、推荐模块、消息采集模块、分析模块和通信模块;
所述存储模块用于存储采集信息、日志信息和推送信息;
所述检索模块用于用户通过关键字进行全文检索;
所述日志模块用于对用户的操作生成日志;
所述推荐模块用于根据用户的使用习惯,用户查询时优先显示其喜好的信息;
所述消息采集模块用于采集页面信息和推送信息;
所述通信模块用于应用服务器与交换机之间通信连接。
5.根据权利要求4所述的一种页面信息提取方法的提取系统,其特征在于,所述检索模块采用全文检索技术,公告标题和正文组合构成待检索的文本,事先构建文本的词汇检索索引,建立与文本的映射关系,构建成全文检索数据库。
6.根据权利要求4所述的一种页面信息提取方法的提取系统,其特征在于,所述应用服务器为多个;所述应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器;
其中,所述公告采集服务器、推送信息生成、分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器均匀交换机通信连接;所述手机APP应用服务器通过反向代理或负载均衡服务器与交换机通信连接。
7.根据权利要求6所述的一种页面信息提取方法的提取系统,其特征在于,所述应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器均统一部署、配置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810716173.1A CN108932327A (zh) | 2018-07-03 | 2018-07-03 | 一种页面信息提取系统及提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810716173.1A CN108932327A (zh) | 2018-07-03 | 2018-07-03 | 一种页面信息提取系统及提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108932327A true CN108932327A (zh) | 2018-12-04 |
Family
ID=64446608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810716173.1A Withdrawn CN108932327A (zh) | 2018-07-03 | 2018-07-03 | 一种页面信息提取系统及提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108932327A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110244886A (zh) * | 2019-05-20 | 2019-09-17 | 北京百度网讯科技有限公司 | 信息显示方法、装置、计算机设备及存储介质 |
CN112685619A (zh) * | 2020-12-29 | 2021-04-20 | 江苏乐道胡巴投资管理有限公司 | 一种网页表格数据通用抓取方法 |
-
2018
- 2018-07-03 CN CN201810716173.1A patent/CN108932327A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110244886A (zh) * | 2019-05-20 | 2019-09-17 | 北京百度网讯科技有限公司 | 信息显示方法、装置、计算机设备及存储介质 |
CN112685619A (zh) * | 2020-12-29 | 2021-04-20 | 江苏乐道胡巴投资管理有限公司 | 一种网页表格数据通用抓取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103136360B (zh) | 一种互联网行为标注引擎及对应该引擎的行为标注方法 | |
CN100405371C (zh) | 一种提取新词的方法和系统 | |
WO2016112679A1 (zh) | 实现智能问答的方法、系统和存储介质 | |
KR101605430B1 (ko) | 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법 | |
CN106126648B (zh) | 一种基于重做日志的分布式商品信息爬虫方法 | |
CN106682147A (zh) | 一种基于海量数据的查询方法及装置 | |
US20120136649A1 (en) | Natural Language Interface | |
CN109670163A (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
CN105630907A (zh) | 一种基于应用内容的安卓应用组装方法 | |
CN109829045A (zh) | 一种问答方法和装置 | |
CN1936893A (zh) | 基于互联网信息的输入法词频库的生成方法和系统 | |
CN110188291B (zh) | 基于代理日志的文档处理 | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
Elshater et al. | godiscovery: Web service discovery made efficient | |
CN103116635A (zh) | 面向领域的暗网资源采集方法和系统 | |
CN110852095A (zh) | 语句热点提取方法及系统 | |
CN110059237A (zh) | 一种基于搜索引擎的爱好信息采集系统及其推荐方法 | |
CN108932327A (zh) | 一种页面信息提取系统及提取方法 | |
CN103226601A (zh) | 一种图片搜索的方法和装置 | |
CN116226494B (zh) | 一种用于信息搜索的爬虫系统及方法 | |
CN106202312A (zh) | 一种用于移动互联网的兴趣点搜索方法和系统 | |
Almoqhim et al. | Improving on popularity as a proxy for generality when building tag hierarchies from folksonomies | |
Zhao et al. | Integrating ontologies using ontology learning approach | |
Rizvi et al. | A preliminary review of web-page recommendation in information retrieval using domain knowledge and web usage mining | |
KR20130045425A (ko) | 소셜 온톨로지 기반 지식 전문가 추천방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181204 |