CN106126554A - 一种基于科技资源大数据的采集方法 - Google Patents
一种基于科技资源大数据的采集方法 Download PDFInfo
- Publication number
- CN106126554A CN106126554A CN201610429122.1A CN201610429122A CN106126554A CN 106126554 A CN106126554 A CN 106126554A CN 201610429122 A CN201610429122 A CN 201610429122A CN 106126554 A CN106126554 A CN 106126554A
- Authority
- CN
- China
- Prior art keywords
- data
- packet
- scientific
- information
- district
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于科技资源大数据的采集方法,在合理的硬件支持下完成大数据的采集,提高系统的数据兼容性和更新能力,以便于后期的数据存储和处理。本发明数据包设定格式主要基于json数组,通过维护操作区中的状态信息(“新增”、“修改”或“删除”),能够实时更新数据区和流数据区的操作对象;充分考虑了科技资源数据源的权限安全,设置了多重校验,不仅对身份合法进行校验,还对时间合法甚至地点合法进行校验。对于具有一定数据开发能力的数据源主体(高校、科研院所以及部分企业等),只需提供相应的API接口,即可按照本发明基于HTTP协议实现API采集,信息传输实时性高,状态实时更新,且对硬件配置要求不高。
Description
技术领域
本发明涉及信息化技术领域,具体涉及一种复杂大数据的采集方法。
背景技术
在当今信息技术时代,每年的信息量成几何增长,各个行业和运营主体出于信息整合的需要,建立了诸多数据库。但这些数据库往往局限于本行业、甚至特定小群体专用,缺乏社会层面各相关部门、供需方之间的交流和沟通,更没有形成社会共享服务体系;国家各类科技计划项目所产生的科学数据,也没能得到有效的管理和利用。这样就导致了各种科技资源及其数据库标准化、规范化、体系化程度低,更新维护不便,相当一部分数据库根本没有标准可循。
针对科技资源的共享,需要建立一种大区域的信息化服务系统,来促进企业及整个社会的科技创新能力。中国专利文献CN104835082A即提出了一种科技资源的信息共享服务系统,该系统的终端设备用于采集科技资源信息,采集后的数据储存在数据库中进行汇集、分类,数据库将信息通过互联网上传至政策法规服务平台、项目申报指导平台、科技成果展示平台、科技人才数据平台等,从而将不同类型、不同主题、不同功能的科技资源汇集,通过互联网提供政策法规查询、企业成果展示、项目申报规范指导等服务。
不过,上述专利文献提出的系统架构在实际操作过程中存在一些技术障碍和问题,导致难以有效实现大数据的科技资源整合。这其中最主要的问题就是科技资源数据来源不同,结构不一致,不同应用平台间不可共享数据,数据同步困难,应用平台间数据交换标准不统一等,要实现后期的平台服务,在采集阶段就需要做大量的数据整合工作;而如果人为介入进行辨识、管理,则效率难免降低。
发明内容
本发明提出一种基于科技资源大数据的采集方法,在合理的硬件支持下完成大数据的采集(整合),提高系统的数据兼容性和更新能力,以便于后期的数据存储和处理。
本发明的技术方案如下:
该基于科技资源大数据的采集方法,包括以下步骤:
1)基于HTTP协议接收数据包;
2)解析数据包:
2.1)格式校验:
检验所接收到的数据包是否满足设定格式,所述设定格式包括校验区和数据集合,其中数据集合主要由操作区以及数据区和/或流数据区组成,操作区用于存放状态信息,数据区、流数据区用于存放操作对象及身份信息;若操作对象属于业务数据,则操作对象及身份信息以json数据格式存入数据区;若操作对象为文档、图片和/或视频,则操作对象及身份信息存入流数据区;所述操作对象的更新通过改变操作区中的状态信息来实现;
如果满足设定格式,则进行步骤2.2),否则拒绝接收该数据包;
2.2)安全校验:
2.2.1)从数据包中的校验区提取校验信息,所述校验信息包含身份信息;
2.2.2)将校验信息与系统的用户库中预先录入的用户信息进行比对:
若校验信息与用户信息一致,执行步骤2.3),否则拒绝接收该数据包;
2.3)采集
2.3.1)业务校验及业务数据采集
如果数据包设定有数据区,则从数据区中提取业务数据,并与系统的业务模型库中模型数据进行比对,若一致,则完成API采集过程,存入系统;否则拒绝接收该数据包;
2.3.2)流数据采集
如果数据包设定有流数据区,则从流数据区中提取文档、图片和/或视频,完成API采集过程,存入系统。
在以上方案的基础上,本发明还进一步作了以下补充和优化:
该采集方法另针对数据库形式的数据源且数据库不满足所述设定格式时,主动定期请求获得更新后的数据。
该采集方法另针对离线的数据源,采用移动存储介质取得数据。
上述步骤2.1)在检验所接收到的数据包是否满足设定格式后,还对数据区和/或流数据区中的身份信息进行解密;如果解密得到身份信息,才执行步骤2.2);否则拒绝接收该数据包。而且,对数据区和/或流数据区中的身份信息进行解密失败后,拒绝接收该数据包的同时,还可以提示拒绝接收的原因。
上述用户库中预先录入的用户信息包含有设定的信息来源和信息发送时间,甚至还可以设定信息发送地点。
本发明具有以下技术效果:
1、对于具有一定数据开发能力的数据源主体(高校、科研院所以及部分企业等),只需提供相应的API接口,即可按照本发明基于HTTP协议实现API采集,信息传输实时性高,状态实时更新,且对硬件配置要求不高。
2、本发明数据包设定格式主要基于json数组,通过维护操作区中的状态信息(可分为三种类型:“新增”、“修改”、“删除”),能够实时更新数据区和流数据区的操作对象。
3、除了API采集外,本发明还针对不同情况的数据源主体,结合数据库采集(直接从源头数据库采集,可增量采集)和离线文件采集(数据形式可能是不规则的零散数据,如简单的Excel表格记录的信息),采集方式多样化,满足各种杂乱的科技资源数据,能够容纳各种不同数据源。
4、充分考虑了科技资源数据源的权限安全,设置了多重校验,不仅对身份合法进行校验,还对时间合法甚至地点合法进行校验。
具体实施方式
该基于科技资源大数据的采集方法作为数据服务提供方案的前端,需要在合理的硬件支持下完成大数据的采集(整合),提高系统的数据兼容性和更新能力,以便于在后建立标准企业表,提供数据信息服务,作为行政决策参考。
该采集方法兼顾了三类数据源,分别采用不同的信息采集模式。
一、对于具有一定数据开发能力的数据源主体,进行基于HTTP协议的API采集;
二、对于数据库形式的数据源且数据库不满足所述设定格式时,主动定期请求获得更新后的数据。
三、针对离线的数据源,采用移动存储介质取得数据。
本发明着重研究了在线实时采集的方案,每一包数据中只有一类数据,例如A企业的a(财务系统)数据,该数据属于业务数据,应以json数组格式存放在数据包的数据区中。
在接收、解析数据包的过程中设置了三重校验:格式校验、安全性校验以及业务校验。
1)格式校验:
i)检验所接收到的数据包是否满足设定格式;
所述设定格式包括校验区和数据集合,其中数据集合主要由操作区以及数据区和/或流数据区组成,操作区用于存放状态信息,数据区、流数据区用于存放操作对象及身份信息;若操作对象属于业务数据,则操作对象及身份信息以Json数据格式存入数据区;若操作对象为文档、图片和/或视频,则操作对象及身份信息存入流数据区;所述操作对象的更新通过改变操作区中的状态信息来实现;
ii)对数据区和/或流数据区中的身份信息进行解密;如果解密得到身份信息,再进行下一步安全性校验;否则拒绝接收该数据包,并提示拒绝接收的原因。
2)安全性校验:
从数据包中的校验区提取校验信息,所述校验信息包含身份信息(用户名、密码、IP地址、发送时间等);将校验信息与系统的用户库中预先录入的用户信息进行比对。
3)业务校验:
如果数据包设定有数据区,则从数据区中提取业务数据,并与系统的业务模型库中模型数据进行比对。
只有校验完全通过,系统才按照设定的数据格式接收数据包,存入系统,完成API采集。
Claims (6)
1.一种基于科技资源大数据的采集方法,其特征在于,包括以下步骤:
1)基于HTTP协议接收数据包;
2)解析数据包:
2.1)格式校验:
检验所接收到的数据包是否满足设定格式,所述设定格式包括校验区和数据集合,其中数据集合主要由操作区以及数据区和/或流数据区组成,操作区用于存放状态信息,数据区、流数据区用于存放操作对象及身份信息;若操作对象属于业务数据,则操作对象及身份信息以json数据格式存入数据区;若操作对象为文档、图片和/或视频,则操作对象及身份信息存入流数据区;所述操作对象的更新通过改变操作区中的状态信息来实现;
如果满足设定格式,则进行步骤2.2),否则拒绝接收该数据包;
2.2)安全校验:
2.2.1)从数据包中的校验区提取校验信息,所述校验信息包含身份信息;
2.2.2)将校验信息与系统的用户库中预先录入的用户信息进行比对:
若校验信息与用户信息一致,执行步骤2.3),否则拒绝接收该数据包;
2.3)采集
2.3.1)业务校验及业务数据采集
从数据区中提取业务数据,并与系统的业务模型库中模型数据进行比对,若一致,则完成API采集过程,存入系统;否则拒绝接收该数据包;
和/或
2.3.2)流数据采集
从流数据区中提取文档、图片和/或视频,完成API采集过程,存入系统。
2.根据权利要求1所述的基于科技资源大数据的采集方法,其特征在于:该采集方法另针对数据库形式的数据源且数据库不满足所述设定格式时,主动定期请求获得更新后的数据。
3.根据权利要求1所述的基于科技资源大数据的采集方法,其特征在于:该采集方法另针对离线的数据源,采用移动存储介质取得数据。
4.根据权利要求1至3任一所述的基于科技资源大数据的采集方法,其特征在于:步骤2.1)在检验所接收到的数据包是否满足设定格式后,还对数据区和/或流数据区中的身份信息进行解密;如果解密得到身份信息,才执行步骤2.2);否则拒绝接收该数据包。
5.根据权利要求4所述的基于科技资源大数据的采集方法,其特征在于:对数据区和/或流数据区中的身份信息进行解密失败后,拒绝接收该数据包的同时,还提示拒绝接收的原因。
6.根据权利要求1至3任一所述的基于科技资源大数据的采集方法,其特征在于:所述用户库中预先录入的用户信息包含有设定的信息来源和信息发送时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610429122.1A CN106126554A (zh) | 2016-06-16 | 2016-06-16 | 一种基于科技资源大数据的采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610429122.1A CN106126554A (zh) | 2016-06-16 | 2016-06-16 | 一种基于科技资源大数据的采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106126554A true CN106126554A (zh) | 2016-11-16 |
Family
ID=57470272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610429122.1A Pending CN106126554A (zh) | 2016-06-16 | 2016-06-16 | 一种基于科技资源大数据的采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126554A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194804A (zh) * | 2017-05-27 | 2017-09-22 | 国家计算机网络与信息安全管理中心 | 一种p2p网贷数据自动化核验方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870698A (zh) * | 2014-03-20 | 2014-06-18 | 上海华力微电子有限公司 | 一种校验工程数据收集正确性的方法 |
CN103902671A (zh) * | 2014-03-19 | 2014-07-02 | 北京科技大学 | 一种异构多源数据的动态集成方法及系统 |
CN104111983A (zh) * | 2014-06-30 | 2014-10-22 | 中国科学院信息工程研究所 | 一种开放式的多源数据采集系统及方法 |
CN104991817A (zh) * | 2015-06-25 | 2015-10-21 | 国网山东省电力公司 | 一种信息系统可配置集成方法及系统 |
CN105554133A (zh) * | 2015-12-21 | 2016-05-04 | 世纪龙信息网络有限责任公司 | Http远程数据访问系统和方法 |
-
2016
- 2016-06-16 CN CN201610429122.1A patent/CN106126554A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902671A (zh) * | 2014-03-19 | 2014-07-02 | 北京科技大学 | 一种异构多源数据的动态集成方法及系统 |
CN103870698A (zh) * | 2014-03-20 | 2014-06-18 | 上海华力微电子有限公司 | 一种校验工程数据收集正确性的方法 |
CN104111983A (zh) * | 2014-06-30 | 2014-10-22 | 中国科学院信息工程研究所 | 一种开放式的多源数据采集系统及方法 |
CN104991817A (zh) * | 2015-06-25 | 2015-10-21 | 国网山东省电力公司 | 一种信息系统可配置集成方法及系统 |
CN105554133A (zh) * | 2015-12-21 | 2016-05-04 | 世纪龙信息网络有限责任公司 | Http远程数据访问系统和方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194804A (zh) * | 2017-05-27 | 2017-09-22 | 国家计算机网络与信息安全管理中心 | 一种p2p网贷数据自动化核验方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729168A (zh) | 一种基于区块链的数据共享交换系统及方法 | |
CN113438084B (zh) | 一种基于r-pbft共识算法和时间戳的绿电溯源方法及系统 | |
US8700560B2 (en) | Populating a multi-relational enterprise social network with disparate source data | |
CN105184144B (zh) | 一种多系统权限管理方法 | |
CN103139164B (zh) | 一种基于涉密信息系统的邮件发送方法及装置 | |
CN105912691B (zh) | 基于分布式存储的电网模型多版本多租户管理系统和方法 | |
CN104202236A (zh) | 建立协作群组的方法和系统以及相应的即时通信方法 | |
CN104951524B (zh) | 一种用于数据库运维的移动平台及其使用方法 | |
CN103413384A (zh) | 电子储物柜箱格共享系统及方法 | |
CN103023921A (zh) | 一种认证接入方法和认证系统 | |
CN103607418B (zh) | 基于云服务数据特征的大规模数据分割系统及分割方法 | |
CN107786343A (zh) | 一种私有镜像仓库的访问方法和系统 | |
CN102880897A (zh) | 一种智能卡的应用数据共享方法和智能卡 | |
CN102843256A (zh) | 一种基于轻型目录访问协议(ldap)的it系统管理方法 | |
CN107895039B (zh) | 一种校园网认证系统日志数据库的构建方法 | |
CN104298761A (zh) | 一种异构软件系统间主数据匹配的实现方法 | |
CN113821500A (zh) | 一种基于政务服务场景的业务对象构建方法 | |
CN106126554A (zh) | 一种基于科技资源大数据的采集方法 | |
CN106485471A (zh) | 合作伙伴关系的实现方法及其实现系统 | |
CN106612300A (zh) | 一种消息推送方法及推送服务器 | |
CN101114373B (zh) | 一种法院网络委托执行系统 | |
CN101267405A (zh) | 即时通讯监测方法及系统 | |
CN112667986A (zh) | 一种基于区块链架构下的不动产证查询处理系统及方法 | |
CN111091486B (zh) | 一种基于区块链的分布式政务架构的统一方法 | |
CN103220172A (zh) | 一种基于ldap用户权限管理的装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161116 |
|
RJ01 | Rejection of invention patent application after publication |