CN106327039A - 周报信息处理方法及装置 - Google Patents
周报信息处理方法及装置 Download PDFInfo
- Publication number
- CN106327039A CN106327039A CN201510359653.3A CN201510359653A CN106327039A CN 106327039 A CN106327039 A CN 106327039A CN 201510359653 A CN201510359653 A CN 201510359653A CN 106327039 A CN106327039 A CN 106327039A
- Authority
- CN
- China
- Prior art keywords
- weekly
- weekly information
- information
- web page
- designated order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种周报信息处理方法及装置,其中,该方法包括:从指定网页中获取周报信息;获取指定指令;根据指定指令从周报信息中筛选出指定周报信息。通过本发明解决了相关技术中无法实现周报信息的自动获取、智能分析等二次处理的问题,进而实现了网页上海量项目周报相关数据的自动采集、智能分析,达到了满足用户可定制需求。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种周报信息处理方法及装置。
背景技术
随着信息化技术的发展,政府、企业单位的信息化程度日益提高。大企业的项目数量与项目信息增长迅速,部门内部、部门之间的项目进展信息共享需求迫切,项目管理信息化、自动化是企业信息化建设的重点工作方向之一。
网络爬虫是一种按照一定的规则,自动的抓取互联网信息的程序。它从一个初始的网页集出发,遍历自动的采集网络信息。当爬虫打开某个HTML页面后,它会分析HTML标记结构来获取信息,并获取指向其它页面的超级链接,然后通过既定的搜索策略选择下一个要访问的站点。
数据挖掘是指从大量的数据中通过算法搜索信息的过程。数据挖掘与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。分析方法包括分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、复杂数据类型挖掘(Text,Web,图形图像,视频,音频)等。
目前很多企业项目管理过程中,需要每周在网页上填写项目周报,一般由各项目的负责人填写,并且每个项目有一个独立的周报。为达到部门间项目信息共享的目的,需每周汇总周报,共享给各个部门。数以千计的周报普遍采用专人人工汇总周报信息方式,耗时间耗人力,并且无法实现数以千计的项目周报信息定期的自动更新,项目管理效率低下。
网络爬虫技术虽然能实现网页上信息的获取,但无法实现信息的二次处理及智能分析,需结合数据挖掘技术来实现数以千计周报信息的自动获取、智能分析处理、定制化输出及定期更新。
针对相关技术中,无法实现周报信息的自动获取、智能分析等二次处理的问题,还未提出有效的解决方案。
发明内容
本发明提供了一种周报信息处理方法及装置,以至少解决相关技术中无法实现周报信息的自动获取、智能分析等二次处理的问题。
根据本发明的一个方面,提供了一种周报信息处理方法,包括:从指定网页中获取周报信息;获取指定指令;根据所述指定指令从所述周报信息中筛选出指定周报信息。
可选地,从所述指定网页中获取所述周报信息之后包括:将所述周报信息的编码格式转换为指定编码格式;将转换为指定编码格式的所述周报信息进行存储。
可选地,获取所述指定指令包括:通过预先配置的所述周报信息的清洗和对比规则获取所述指定指令。
可选地,将所述周报信息的编码格式转换为指定编码格式之前包括:采用字节流的方式对所述周报信息进行读取。
可选地,从所述指定网页中获取所述周报信息包括:通过HTML工具从所述指定网页中获取所述周报信息。
根据本发明的另一个方面,还提供了一种周报信息处理装置,所述装置包括:第一获取模块,用于从指定网页中获取周报信息;第二获取模块,用于获取指定指令;处理模块,用于根据所述指定指令从所述周报信息中筛选出指定周报信息。
可选地,所述装置还包括:转换模块,用于将所述周报信息的编码格式转换为指定编码格式;存储模块,用于将转换为指定编码格式的所述周报信息进行存储。
可选地,所述第二获取模块还用于通过预先配置的所述周报信息的清洗和对比规则获取所述指定指令。
可选地,所述装置还包括:读取模块,用于采用字节流的方式对所述周报信息进行读取。
可选地,所述第一获取模块还用于通过HTML工具从所述指定网页中获取所述周报信息。
通过本发明,采用从指定网页中获取周报信息;获取指定指令;根据指定指令从周报信息中筛选出指定周报信息。解决了相关技术中无法实现周报信息的自动获取、智能分析等二次处理的问题,进而实现了网页上海量项目周报相关数据的自动采集、智能分析,达到了满足用户可定制需求。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的周报信息处理方法的流程图;
图2是根据本发明实施例的周报信息处理装置的结构框图;
图3是根据本发明实施例的周报信息处理装置的结构框图(一);
图4是根据本发明实施例的周报信息处理装置的结构框图(二);
图5是根据本发明实施例的可定制的项目管理周报自动获取流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种周报信息处理方法,图1是根据本发明实施例的周报信息处理方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,从指定网页中获取周报信息;
步骤S104,获取指定指令;
步骤S106,根据指定指令从周报信息中筛选出指定周报信息。
通过上述步骤,首先从指定网页中获取周报相关信息,然后根据用户输入的指定指令从获取到的上述周报相关信息中筛选出用户需求的指定周报信息,相比于相关技术中,需要人工定期汇总、更新项目周报,解决了相关技术中无法实现周报信息的自动获取、智能分析等二次处理的问题,进而实现了网页上海量项目周报相关数据的自动采集、智能分析,达到了满足用户可定制需求。
在从指定网页中获取周报信息之后,在一个可选实施例中,将上述周报信息的编码格式转换为指定编码格式,将转换为指定编码格式的周报信息进行存储。进一步地,从转换为指定编码格式的周报信息中筛选出上述的指定周报信息。
上述步骤S104中涉及到获取指定指令,需要说明的是,可以通过多种方式获取上述的指定指令,下面对此进行举例说明。在一个可选实施例中,通过预先配置的上述周报信息的清洗和对比规则获取上述指定指令。其中,清洗和对比规则是描述周报信息字段的字段类型是否符合定义,字段取值是否符合定义,可否有值,数据是否一致等。
在一个可选实施例中,将上述周报信息的编码格式转换为指定编码格式之前,采用字节流的方式对周报信息进行读取。
上述步骤S102中涉及到从上述指定网页中获取上述周报信息,需要说明的是,可以通过多种方式从指定网页中获取上述周报信息,下面对此进行举例说明。在一个可选实施例中,通过HTML工具从指定网页中获取上述周报信息。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例上述的方法。
在本实施例中还提供了一种周报信息处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本发明实施例的周报信息处理装置的结构框图,如图2所示,该装置包括:第一获取模块22,用于从指定网页中获取周报信息;第二获取模块24,用于获取指定指令;处理模块26,用于根据指定指令从周报信息中筛选出指定周报信息。
图3是根据本发明实施例的周报信息处理装置的结构框图(一),如图3所示,该装置还包括:转换模块32,用于将周报信息的编码格式转换为指定编码格式;存储模块34,用于将转换为指定编码格式的上述周报信息进行存储。
可选地,第二获取模块24还用于通过预先配置的上述周报信息的清洗和对比规则获取上述指定指令。
图4是根据本发明实施例的周报信息处理装置的结构框图(二),如图4所示,该装置还包括:读取模块42,用于采用字节流的方式对周报信息进行读取。
可选地,第一获取模块22还用于通过HTML工具从指定网页中获取周报信息。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述模块分别位于多个处理器中。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,从指定网页中获取周报信息;
S2,获取指定指令;
S3,根据指定指令从周报信息中筛选出指定周报信息。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
本发明可选实施例的目的是提供一种自动化、智能化的数据统计分析应用系统和方法,实现网页上海量项目周报相关数据的自动采集、智能分析、定制查询、灵活展现等功能。
为实现上述目的,本发明可选实施例提供了一种可定制的项目管理周报自动获取的应用系统,包括:
1、信息采集子系统:构造高效的自动获取HTML工具获取网页上的项目周报相关内容信息。
2、数据处理子系统:对采集的数据进行数据抽取,采用字节流的方式进行读取,然后转换成指定的编码格式。
3、数据存储子系统:对所有抽取的数据进行入库存储,作为数据的载体,提供稳定高效的海量数据存储以及供应用访问的数据接口。
4、智能分析子系统:根据用户可定制的规则智能分析和筛选数据库同步到的周报信息。系统提供可视化界面配置数据源的清洗和比对规则,支持清洗和比对规则的增、删、改、查。
周报自动获取系统按用户可定制的格式批量输出筛选后的项目周报信息结果。系统可提供应用接口,以库函数和API编程接口的形式供第三方平台使用。
图5是根据本发明实施例的可定制的项目管理周报自动获取流程图,如图5所示,该流程包括如下步骤:
步骤一:采用开源的基于Java的开源Web抽取工具网络爬虫Web-Harvest,收集指定的Web页面,并从这些页面中提取所需的数据。
步骤二:根据周围内容的相对路径进行数据定位,选取与网页内容相关、格式无关的属性。
步骤三:将HTML文件映射为XML文件,构造HashMap散列表,键对应XML标签,值对应标签内容。
步骤四:经过处理后的数据入库存储,数据存储子系统完成数据定义、装入、存储、查询、备份和恢复等功能。
步骤五:根据输入所需关键索引字段属性的映射关系,进行同目录ID下的数据清洗和数据比对。清洗和数据比对规则是描述数据源字段的字段类型是否符合定义,字段取值是否符合定义,可否有值,数据是否一致等。
步骤六:根据用户输入的项目关联关键字,按照可定制的格式批量输出筛选后的定制化项目周报信息结果,实现可定期自动更新周报内容。
综上所述,通过本发明提供的一种自动化、智能化的数据统计分析应用系统和方法,实现网页上海量项目周报相关数据的自动采集、智能分析,达到了满足用户可定制需求,自动获取所需查看的项目周报信息的定期自动更新,极大缩短了数以千计的项目周报的定期人工汇总、更新的时间的效果,提升项目管理工作效率。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种周报信息处理方法,其特征在于,包括:
从指定网页中获取周报信息;
获取指定指令;
根据所述指定指令从所述周报信息中筛选出指定周报信息。
2.根据权利要求1所述的方法,其特征在于,从所述指定网页中获取所述周报信息之后包括:
将所述周报信息的编码格式转换为指定编码格式;
将转换为指定编码格式的所述周报信息进行存储。
3.根据权利要求1所述的方法,其特征在于,获取所述指定指令包括:
通过预先配置的所述周报信息的清洗和对比规则获取所述指定指令。
4.根据权利要求2所述的方法,其特征在于,将所述周报信息的编码格式转换为指定编码格式之前包括:
采用字节流的方式对所述周报信息进行读取。
5.根据权利要求1至4中任一项所述的方法,其特征在于,从所述指定网页中获取所述周报信息包括:
通过HTML工具从所述指定网页中获取所述周报信息。
6.一种周报信息处理装置,其特征在于,所述装置包括:
第一获取模块,用于从指定网页中获取周报信息;
第二获取模块,用于获取指定指令;
处理模块,用于根据所述指定指令从所述周报信息中筛选出指定周报信息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
转换模块,用于将所述周报信息的编码格式转换为指定编码格式;
存储模块,用于将转换为指定编码格式的所述周报信息进行存储。
8.根据权利要求6所述的装置,其特征在于,所述第二获取模块还用于通过预先配置的所述周报信息的清洗和对比规则获取所述指定指令。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
读取模块,用于采用字节流的方式对所述周报信息进行读取。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述第一获取模块还用于通过HTML工具从所述指定网页中获取所述周报信息。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510359653.3A CN106327039A (zh) | 2015-06-25 | 2015-06-25 | 周报信息处理方法及装置 |
PCT/CN2016/074245 WO2016206395A1 (zh) | 2015-06-25 | 2016-02-22 | 周报信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510359653.3A CN106327039A (zh) | 2015-06-25 | 2015-06-25 | 周报信息处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106327039A true CN106327039A (zh) | 2017-01-11 |
Family
ID=57584578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510359653.3A Pending CN106327039A (zh) | 2015-06-25 | 2015-06-25 | 周报信息处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN106327039A (zh) |
WO (1) | WO2016206395A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829729A (zh) * | 2018-05-10 | 2018-11-16 | 河海大学常州校区 | 一种网页解析并采集新闻的方法 |
CN109978511A (zh) * | 2019-04-09 | 2019-07-05 | 艾伯资讯(深圳)有限公司 | 基于网页爬取的项目管理检查系统及方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111103847B (zh) * | 2019-12-31 | 2023-01-24 | 中国兵器装备集团自动化研究所 | 一种用于数控机床实时数据流的分析系统和分析方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226599B (zh) * | 2013-04-23 | 2018-09-28 | 翁杰 | 一种精确提取网页内容的方法及系统 |
CN103235827B (zh) * | 2013-05-13 | 2016-04-20 | 政和科技股份有限公司 | 一种科技信息自动分类筛选的方法 |
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
CN104281680B (zh) * | 2014-09-30 | 2018-08-21 | 百度在线网络技术(北京)有限公司 | 用于获取网站资源的数据处理系统、方法及装置 |
CN104537097B (zh) * | 2015-01-09 | 2017-08-11 | 成都布林特信息技术有限公司 | 微博舆情监测系统 |
-
2015
- 2015-06-25 CN CN201510359653.3A patent/CN106327039A/zh active Pending
-
2016
- 2016-02-22 WO PCT/CN2016/074245 patent/WO2016206395A1/zh active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829729A (zh) * | 2018-05-10 | 2018-11-16 | 河海大学常州校区 | 一种网页解析并采集新闻的方法 |
CN109978511A (zh) * | 2019-04-09 | 2019-07-05 | 艾伯资讯(深圳)有限公司 | 基于网页爬取的项目管理检查系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2016206395A1 (zh) | 2016-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Srivastava et al. | Operator placement for in-network stream query processing | |
US10031942B2 (en) | Query optimization with zone map selectivity modeling | |
US9659265B2 (en) | Methods and systems for collecting and analyzing enterprise activities | |
US8959091B2 (en) | Keyword assignment to a web page | |
US9361343B2 (en) | Method for parallel mining of temporal relations in large event file | |
CN108549569B (zh) | 一种搜索应用程序内信息的方法及设备 | |
CN108090104B (zh) | 用于获取网页信息的方法和装置 | |
CN104951512A (zh) | 一种基于互联网的舆情数据采集方法及系统 | |
CN104714755A (zh) | 一种快照管理方法及装置 | |
CN102025559B (zh) | 用于基于分级来进行死链检测和处理的方法和网络设备 | |
JP2009104591A (ja) | ウェブ文書クラスタリング方法およびシステム | |
CN102521232B (zh) | 一种互联网元数据的分布式采集处理系统及方法 | |
JP2009099124A (ja) | データ構築方法とシステム | |
KR20120000638A (ko) | 만년력 형태의 웹문서 트랩 검출 및 이를 이용한 검색 데이터베이스 구축 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
CN102760058A (zh) | 面向大规模协作开发的海量软件项目共享方法 | |
CN104598536B (zh) | 一种分布式网络信息结构化处理方法 | |
CN110069693A (zh) | 用于确定目标页面的方法和装置 | |
CN114118192A (zh) | 用户预测模型的训练方法、预测方法、装置及存储介质 | |
Aly et al. | Kangaroo: Workload-aware processing of range data and range queries in hadoop | |
CN106327039A (zh) | 周报信息处理方法及装置 | |
Aspert et al. | A graph-structured dataset for Wikipedia research | |
Macko et al. | Local clustering in provenance graphs | |
CN112506999B (zh) | 基于云计算和人工智能的大数据挖掘方法及数字内容服务器 | |
US9977836B2 (en) | Storing method and apparatus for data acquisition | |
CN109614535B (zh) | 一种基于Scrapy框架的网络数据的采集方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170111 |