CN104660715A - 一种基于数据服务的开放接口实现方法 - Google Patents
一种基于数据服务的开放接口实现方法 Download PDFInfo
- Publication number
- CN104660715A CN104660715A CN201510113609.4A CN201510113609A CN104660715A CN 104660715 A CN104660715 A CN 104660715A CN 201510113609 A CN201510113609 A CN 201510113609A CN 104660715 A CN104660715 A CN 104660715A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- oapi
- backstage
- orest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/30—Definitions, standards or architectural aspects of layered protocol stacks
- H04L69/32—Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
- H04L69/321—Interlayer communication protocols or service data unit [SDU] definitions; Interfaces between layers
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于数据服务的开放接口实现方法,该方法采用oGather模块、oReapCln模块和oRest模块;将oRest模块定义为oAPI前端:负责将数据分享给用户;将oGather模块和oReapCln模块统称定义为oAPI后台;负责数据采集、存储、清洗以及整理的过程。本发明和现有技术相比,解决了互联网非结构数据的采集、采集数据的整理与汇总、以及面向大众的数据开放接口等难题;不但能看到大众背后的行为,而且能通过数据开放接口,分享成果、降低社会协助壁垒。
Description
技术领域
本发明涉及互联网数据处理技术领域,具体地说是一种基于数据服务的开放接口实现方法。
背景技术
当今已经是数据大爆炸的时代,各个行业面临着以下部分问题:
1)集中管理互联网数据,从无规则、无行业分类的互联网获取到针对性的行业价值的信息。
2)主流的Nutch等很难原生的满足多任务,并且定制采集和加工数据的需求,同时还需要解决大型互联网公司的反爬机制。
3)采集到的互联网数据如何自动收割和语义化存储,并与内部数据做共享与整合。
4)海量数据的存储,快速读写与容灾。
5)集群管理维护难,原有系统没有一个从硬件到软件到服务状态的整体监控和管理系统。
6)数据分享,通过文件方式、数据库等重型方式分享数据。
发明内容
本发明的技术任务是提供一种基于数据服务的开放接口实现方法。
本发明的技术任务是按以下方式实现的,该方法采用oGather模块、oReapCln模块 和 oRest模块;
将oRest模块定义为oAPI前端:负责将数据分享给用户;将oGather模块和 oReapCln模块统称定义为oAPI后台;负责数据采集、存储、清洗以及整理的过程。
所述的基于数据服务的开放接口实现方法的平台搭建步骤如下:
第一步,搭建分布式存储系统,并预留oAPI后台采割系统与存储系统的接口,让采集后的数据直接存储到该系统里;
第二步,搭建采割系统的依赖环境,具有MapReduce分布式计算环境,并部署Nutch爬虫环境;
第三步,搭建oAPI后台采割系统,在相应规划的机器上部署:a、执行节点程序和收割模块,b、调度节点程序,c、oAPI后台适配程序;
第四步,搭建oRest服务接口系统,oRest节点程序分机器负责部署,将oAdapter适配汇总模块和oAuth权限认证系统分别部署到独立的节点;独立部署oNoSQL模块,同时需要内存数据库的配置文件指向该模块。
所述的基于数据服务的开放接口实现方法的步骤如下:
步骤1:oAPI后台根据配置参数,自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求;
步骤2:确定任务模板,oAPI后台接收到任务模板,将模板分解为多个采集任务,并将每个任务分配给调度监控集群;
步骤3:调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况;
步骤4:执行节点融合Nutch思路,按独立网址维护采集周期;并纳入oAPI后台语义化采集模块进行采集,解决主要反爬宿主的数据采集;
步骤5:在执行完成采集以后,执行节点主动心跳状态,oAPI后台收割模块负责异构收割;
步骤6:第三方用户发送获取oAPI的数据服务请求,通过oAuth协议进行权限认证,验证是否为合法用户 ,是否有相应的数据权限;
步骤7:通过oAdapter将用户的请求分解并适配到对应主题所在的节点上,在主题节点分为两部分:oRest模块接口程序和接口依赖的内存库;
步骤8:oNoSQL模块提供内存数据库和分布式数据库的转换和调度。
本发明的一种基于数据服务的开放接口实现方法和现有技术相比,解决了互联网非结构数据的采集、采集数据的整理与汇总、以及面向大众的数据开放接口等难题;通过实现该方法的互联网行业数据采集,能看到大众背后的行为;通过叠加政府企业内部组织数据以融合数据,透过数据分析出市场与趋势;通过数据开放接口,分享成果、降低社会协助壁垒。
附图说明
附图1为一种基于数据服务的开放接口实现方法的oAPI前端oRest系统核心流程图。
附图2为一种基于数据服务的开放接口实现方法的oAPI后台系统核心流程图。
具体实施方式
实施例1:
该方法采用oGather模块、oReapCln模块 和 oRest模块;
将oRest模块定义为oAPI前端:负责将数据分享给用户;将oGather模块和 oReapCln模块统称定义为oAPI后台;负责数据采集、存储、清洗以及整理的过程。
所述的基于数据服务的开放接口实现方法的平台搭建步骤如下:
第一步,搭建分布式存储系统,并预留oAPI后台采割系统与存储系统的接口,让采集后的数据直接存储到该系统里;
第二步,搭建采割系统的依赖环境,具有MapReduce分布式计算环境,并部署Nutch爬虫环境;
第三步,搭建oAPI后台采割系统,在相应规划的机器上部署:a、执行节点程序和收割模块,b、调度节点程序,c、oAPI后台适配程序;
第四步,搭建oRest服务接口系统,oRest节点程序分机器负责部署,将oAdapter适配汇总模块和oAuth权限认证系统分别部署到独立的节点;独立部署oNoSQL模块,同时需要内存数据库的配置文件指向该模块。
所述的基于数据服务的开放接口实现方法的步骤如下:
步骤1:oAPI后台根据配置参数,自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求;
步骤2:确定任务模板,oAPI后台接收到任务模板,将模板分解为多个采集任务,并将每个任务分配给调度监控集群;
步骤3:调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况;
步骤4:执行节点融合Nutch思路,按独立网址维护采集周期;并纳入oAPI后台语义化采集模块进行采集,解决主要反爬宿主的数据采集;
步骤5:在执行完成采集以后,执行节点主动心跳状态,oAPI后台收割模块负责异构收割;
步骤6:第三方用户发送获取oAPI的数据服务请求,通过oAuth协议进行权限认证,验证是否为合法用户 ,是否有相应的数据权限;
步骤7:通过oAdapter将用户的请求分解并适配到对应主题所在的节点上,在主题节点分为两部分:oRest模块接口程序和接口依赖的内存库;
步骤8:oNoSQL模块提供内存数据库和分布式数据库的转换和调度。
名词解释:
oGather模块:主从式数据采集模块;
oReapCln模块:数据异步收割与清洗模块;
oRest模块:数据REST接口服务模块;
oAPI:是基于主从式大数据采集,并以互联网开放接口方式将数据提供给第三方和大众用户的方法。
MapReduce是一种编程模型,用于大规模数据集的并行运算。
Nutch是一个开源Java 实现的搜索引擎,包括全文搜索和Web爬虫。
oAuth协议:是Open Authorization的简写,OAUTH协议为用户资源的授权提供了一个安全的、开放而又简易的标准。同时,任何第三方都可以使用OAUTH认证服务,任何服务提供商都可以实现自身的OAUTH认证服务,因而OAUTH是开放的。
oAdapter:定义为将一个类的接口变换成客户端所期待的一种接口,从而使原本因接口不匹配而无法在一起工作的两个类能够在一起工作。
oNoSQL模块:提供内存数据库模块。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
Claims (3)
1.一种基于数据服务的开放接口实现方法,其特征在于,该方法采用oGather模块、oReapCln模块 和 oRest模块;
将oRest模块定义为oAPI前端:负责将数据分享给用户;将oGather模块和 oReapCln模块统称定义为oAPI后台;负责数据采集、存储、清洗以及整理的过程。
2.根据权利要求1所述的一种基于数据服务的开放接口实现方法,其特征在于,所述的基于数据服务的开放接口实现方法的平台搭建步骤如下:
第一步,搭建分布式存储系统,并预留oAPI后台采割系统与存储系统的接口,让采集后的数据直接存储到该系统里;
第二步,搭建采割系统的依赖环境,具有MapReduce分布式计算环境,并部署Nutch爬虫环境;
第三步,搭建oAPI后台采割系统,在相应规划的机器上部署:a、执行节点程序和收割模块,b、调度节点程序,c、oAPI后台适配程序;
第四步,搭建oRest服务接口系统,oRest节点程序分机器负责部署,将oAdapter适配汇总模块和oAuth权限认证系统分别部署到独立的节点;独立部署oNoSQL模块,同时需要内存数据库的配置文件指向该模块。
3.根据权利要求1所述的一种基于数据服务的开放接口实现方法,其特征在于,所述的基于数据服务的开放接口实现方法的步骤如下:
步骤1:oAPI后台根据配置参数,自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求;
步骤2:确定任务模板,oAPI后台接收到任务模板,将模板分解为多个采集任务,并将每个任务分配给调度监控集群;
步骤3:调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况;
步骤4:执行节点融合Nutch思路,按独立网址维护采集周期;并纳入oAPI后台语义化采集模块进行采集,解决主要反爬宿主的数据采集;
步骤5:在执行完成采集以后,执行节点主动心跳状态,oAPI后台收割模块负责异构收割;
步骤6:第三方用户发送获取oAPI的数据服务请求,通过oAuth协议进行权限认证,验证是否为合法用户 ,是否有相应的数据权限;
步骤7:通过oAdapter将用户的请求分解并适配到对应主题所在的节点上,在主题节点分为两部分:oRest模块接口程序和接口依赖的内存库;
步骤8:oNoSQL模块提供内存数据库和分布式数据库的转换和调度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510113609.4A CN104660715A (zh) | 2015-03-16 | 2015-03-16 | 一种基于数据服务的开放接口实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510113609.4A CN104660715A (zh) | 2015-03-16 | 2015-03-16 | 一种基于数据服务的开放接口实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104660715A true CN104660715A (zh) | 2015-05-27 |
Family
ID=53251402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510113609.4A Pending CN104660715A (zh) | 2015-03-16 | 2015-03-16 | 一种基于数据服务的开放接口实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104660715A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096181A (zh) * | 2015-07-23 | 2015-11-25 | 浪潮软件集团有限公司 | 一种大数据的电商交易方法及电商交易系统 |
CN106202399A (zh) * | 2016-07-11 | 2016-12-07 | 浪潮软件集团有限公司 | 一种大数据的数据管理系统实现方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455597A (zh) * | 2013-09-03 | 2013-12-18 | 山东省计算中心 | 面向海量web图像的分布式信息隐藏检测方法 |
CN103605764A (zh) * | 2013-11-26 | 2014-02-26 | Tcl集团股份有限公司 | 一种网络爬虫系统及网络爬虫多任务执行和调度方法 |
CN104135516A (zh) * | 2014-07-29 | 2014-11-05 | 浪潮软件集团有限公司 | 一种基于行业数据采集的分布式云存储方法 |
CN104391990A (zh) * | 2014-12-16 | 2015-03-04 | 浪潮软件集团有限公司 | 一种基于垂直行业的多任务式采集与收割方法 |
-
2015
- 2015-03-16 CN CN201510113609.4A patent/CN104660715A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455597A (zh) * | 2013-09-03 | 2013-12-18 | 山东省计算中心 | 面向海量web图像的分布式信息隐藏检测方法 |
CN103605764A (zh) * | 2013-11-26 | 2014-02-26 | Tcl集团股份有限公司 | 一种网络爬虫系统及网络爬虫多任务执行和调度方法 |
CN104135516A (zh) * | 2014-07-29 | 2014-11-05 | 浪潮软件集团有限公司 | 一种基于行业数据采集的分布式云存储方法 |
CN104391990A (zh) * | 2014-12-16 | 2015-03-04 | 浪潮软件集团有限公司 | 一种基于垂直行业的多任务式采集与收割方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096181A (zh) * | 2015-07-23 | 2015-11-25 | 浪潮软件集团有限公司 | 一种大数据的电商交易方法及电商交易系统 |
CN106202399A (zh) * | 2016-07-11 | 2016-12-07 | 浪潮软件集团有限公司 | 一种大数据的数据管理系统实现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018014657A1 (zh) | 一种统一门户方法、装置及系统 | |
CN103064742B (zh) | 一种hadoop集群的自动部署系统及方法 | |
Müller-Birn et al. | Work-to-rule: the emergence of algorithmic governance in Wikipedia | |
CN110083455B (zh) | 图计算处理方法、装置、介质及电子设备 | |
CN106934060B (zh) | 智慧城市公共信息管理方法及智慧城市公共信息管理系统 | |
CN103946831A (zh) | 用于模板的成本感知的选择以供应共享资源的系统、方法和程序产品 | |
CN103930875A (zh) | 用于加速业务数据处理的软件虚拟机 | |
CN105488186A (zh) | 一种去中心化的分布式信用征信查询发布方法 | |
CN111625510A (zh) | 一种基于云映射的多源数据共享系统及方法 | |
CN105096181A (zh) | 一种大数据的电商交易方法及电商交易系统 | |
CN101188624A (zh) | 基于虚拟机的网格中间件系统 | |
CN102917006A (zh) | 一种实现计算资源和对象权限的统一控制管理方法及装置 | |
Ellis et al. | Computer science and office information systems | |
US20160274874A1 (en) | Method and apparatus for processing request | |
CN110874272A (zh) | 资源配置方法及装置、计算机可读存储介质、电子设备 | |
CN110716975A (zh) | 一种数据接口生成方法以及数据接口共享平台 | |
Mahtout et al. | Using machine learning for intent-based provisioning in high-speed science networks | |
CN106202399A (zh) | 一种大数据的数据管理系统实现方法 | |
CN104391990A (zh) | 一种基于垂直行业的多任务式采集与收割方法 | |
DE112021004577T5 (de) | Verwalten eines aufgabenablaufs in einer edge-datenverarbeitungsumgebung | |
CN104660715A (zh) | 一种基于数据服务的开放接口实现方法 | |
CN102541563A (zh) | 一种监控界面生成方法及系统 | |
US20120311594A1 (en) | Program, device, and method for building and managing web services | |
US8856152B2 (en) | Apparatus and method for visualizing data | |
CN103092622A (zh) | 一种智能的报表与消息桌面推送工具 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150527 |
|
WD01 | Invention patent application deemed withdrawn after publication |