CN105096181A - 一种大数据的电商交易方法及电商交易系统 - Google Patents

一种大数据的电商交易方法及电商交易系统 Download PDF

Info

Publication number
CN105096181A
CN105096181A CN201510436472.6A CN201510436472A CN105096181A CN 105096181 A CN105096181 A CN 105096181A CN 201510436472 A CN201510436472 A CN 201510436472A CN 105096181 A CN105096181 A CN 105096181A
Authority
CN
China
Prior art keywords
data
module
acquisition
electric business
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510436472.6A
Other languages
English (en)
Inventor
王诗华
王传超
国丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201510436472.6A priority Critical patent/CN105096181A/zh
Publication of CN105096181A publication Critical patent/CN105096181A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种大数据的电商交易方法及交易系统,属于数据采集、存储领域。所述大数据的电商交易方法将客户定义的采集需求智能的匹配采集源和数据元素;将定义好的需求主题进行多任务化为任务集合,集合中任意一个任务可再按维度细化成子任务,按照主从心跳模式由调度节点分配给执行节点执行采集;对于执行完采集的节点,调度节点主动进行收割,采取分布式存储,并与行业内部组织数据进行整合分析,同时,将采集到的互联网数据结合权限方式以轻量级方式分享给用户。与现有技术相比,本发明的大数据的电商交易方法及系统具有良好的分享模式,且可以实现分布式数据采集和处理清洗功能,提供丰富的数据内容,具有很好的推广应用价值。

Description

一种大数据的电商交易方法及电商交易系统
技术领域
本发明涉及数据采集、存储领域,具体地说是一种大数据的电商交易方法及电商交易系统。
背景技术
当今已经是数据大爆炸的时代,在数据采集等方面,各个行业都面临着以下难题:一、难以从无规则、无行业分类的互联网获取到针对性的行业价值的信息;二、主流的Nutch等很难原生的满足多任务,并且定制采集和加工数据的需求,同时还需要解决大型互联网公司的反爬机制;三、采集到的互联网数据如何自动收割和语义化存储,并与内部数据做共享与整合;四、海量数据的存储,快速读写与容灾;五、集群管理维护难:原有系统没有一个从硬件到软件到服务状态的整体监控和管理系统;六、数据分享:通过文件方式、数据库等重型方式分享数据。
发明内容
本发明的技术任务是针对上述现有技术的不足,提供一种大数据的电商交易方法。
本发明进一步的技术任务是提供一种用于实现上述方法的电商交易系统。
本发明的技术任务是按以下方式实现的:一种大数据的电商交易方法,其特点是基于“主从式大数据采集,以互联网开放接口方式分享”,将客户定义的采集需求智能的匹配采集源和数据元素;将定义好的需求主题进行多任务化为任务集合,集合中任意一个任务可再按维度细化成子任务,按照主从心跳模式由调度节点分配给执行节点执行采集;对于执行完采集的节点,调度节点主动进行收割,采取分布式存储,并与行业内部组织数据进行整合分析,同时,将采集到的互联网数据结合权限方式以轻量级方式分享给用户。
作为优选,上述方法包括以下步骤:
a、根据配置参数,自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求,如果不符合,提供给用户自定义数据模板和采割方法,以便按需提供实现数据和内容的交付;
b、确定任务模板,将模板分解为多个采集任务(如按电商平台分),并将每个任务分配给调度监控集群;
c、调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况,对于异常进行动态迁移到正常执行节点;
d、按独立网址维护采集周期,进行采集;
e、在执行完成采集以后,执行节点主动心跳状态,进行异构收割,并按照一定的规则进行数据预处理,进行收割库归档,以备后续数据分析;
f、第三方用户发送获取数据服务请求,首先进行权限认证,验证是否为合法用户,是否有相应的数据权限;
g、将用户的请求分解并适配到对应主题所在的节点上,在主题节点分为两部分:oRest接口程序和接口依赖的内存库;
h、以oNoSQL数据调度转换模块提供内存数据库和分布式nosql数据库的转换和调度。
步骤c中,调度节点与执行节点优选通过MapReduce计算模型实现。
一种大数据的电商交易系统,包括适配模块、主从式数据采集模块(oGather)、数据收割模块(oReap)、数据清洗与整理(oClean)模块、调度与监控模块(oMonitor)、数据存储与处理模块(oDataHouse)、权限认证模块、请求适配与结果汇总模块(oAdapter)、数据调度转换模块(oNoSQL),其中:
适配模块、主从式数据采集(oGather)模块、数据收割模块(oReap)、数据清洗与整理模块(oClean)、调度与监控模块(oMonitor)、数据存储与处理模块(oDataHouse)构成采集与整理系统(ga-Reap):负责数据采集、存储、清洗以及整理的过程;
权限认证模块、请求适配与结果汇总模块(oAdapter)、数据调度转换模块(oNoSQL)构成服务接口系统(oRest):负责将数据分享给用户。
作为优选,主从式数据采集模块(oGather)用于根据配置参数自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求,如果不符合,提供给用户自定义数据模型和采割方法,以便按需提供实现数据和内容的交付。
适配模块用于将接收到模板分解为多个采集任务并将每个任务分配给调度监控集群。
调度监控集群中的调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况,对于异常进行动态迁移到正常执行节点。
调度监控集群中的执行节点按独立网址维护采集周期,并纳入主从式数据采集模块进行采集。
在执行完成采集以后,执行节点主动心跳状态,数据收割模块(oReap)负责异构收割,数据清洗与整理模块(oClean)按照一定的规则进行数据预处理,数据存储与处理模块(oDataHouse)进行收割库归档,以备后续数据分析。
与现有技术相比,本发明的大数据的电商交易方法及电商交易系统具有以下有益效果:
(1)分享模式:通用数据之间的传递主要是通过硬件(物理)介质,而且是一对一的方式,本发明方法可以通过结合权限的API接口,做到发布一次到处分享;通过APISDK可以快速进行二次开放定制。
(2)结构化的互联网数据:通用网页内容都离散的,而且获取到的数据内容丰富度较低。而本发明方法可以实现分布式数据采集和处理清洗功能,提供丰富的数据内容。
附图说明
附图1是本发明大数据的电商交易系统中采集与整理系统(ga-Reap)的流程图;
附图2是本发明大数据的电商交易系统中服务接口系统(oRest)的流程图。
具体实施方式
参照说明书附图以具体实施例对本发明的大数据的电商交易方法作以下详细地说明。
实施例:
由于各个行业的网站规则不一,用户采集的主题需求不统一等难点,对采集造成了一些困难。因此给客户端提供了各个行业的采集模板口径,采集模块等均部署在云服务器上。
分以下四步搭建该平台:
第一步,搭建分布式存储系统,并预留采集与整理系统(ga-Reap)与存储系统的接口,让采集后的数据直接存储到该系统里。
第二步,搭建采集与整理系统(ga-Reap)的依赖环境,具有MapReduce分布式计算环境,并部署Nutch爬虫环境。
第三步,搭建采集与整理系统(ga-Reap)。在相应规划的机器上部署:1、执行节点程序和收割模块、2、调度节点程序、3、ga-Reap适配程序。
第四步,服务接口系统(oRest)。oRest节点程序分机器负责部署,将请求适配与结果汇总模块(oAdapter)和oAuth权限认证模块分别部署到独立的节点。独立部署数据调度转换模块(oNoSQL),同时需要内存数据库的配置文件指向该模块。
如附图1、2所示,本发明的大数据的电商交易方法包括以下步骤:
a、主从式数据采集(oGather)模块根据配置参数,自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求,如果不符合,提供给用户自定义数据模板和采割方法,以便电商交易系统后台(ga-Reap)按需提供实现数据和内容的交付;
b、确定任务模板,适配模块首先接收到这个模板,将模板分解为多个采集任务(如按电商平台分),并将每个任务分配给调度监控集群;
c、调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况。对于异常进行动态迁移到正常执行节点。调度节点与执行节点优选通过MapReduce计算模型实现;
d、执行节点融合Nutch思路,按独立网址维护采集周期。并纳入主从式数据采集模块(oGather)进行采集,该模块可以解决主要反爬宿主的数据采集;
e、在执行完成采集以后,执行节点主动心跳状态,数据收割模块(oReap)进行异构收割,数据清洗与整理模块(oClean)按照一定的规则进行数据预处理,数据存储与处理模块(oDataHouse)进行收割库归档,以备后续数据分析;
f、第三方用户发送获取数据服务请求,首先通过oAuth进行权限认证,验证是否为合法用户,是否有相应的数据权限;
g、请求适配与结果汇总模块(oAdapter)将用户的请求分解并适配到对应主题所在的节点上,在主题节点分为两部分:oRest接口程序和接口依赖的内存库;
h、以数据调度转换模块(oNoSQL)提供内存数据库和分布式nosql数据库的转换和调度。

Claims (9)

1.一种大数据的电商交易方法,其特征在于:将客户定义的采集需求智能的匹配采集源和数据元素;将定义好的需求主题进行多任务化为任务集合,集合中任意一个任务可再按维度细化成子任务,按照主从心跳模式由调度节点分配给执行节点执行采集;对于执行完采集的节点,调度节点主动进行收割,采取分布式存储,并与行业内部组织数据进行整合分析,同时,将采集到的互联网数据结合权限方式以轻量级方式分享给用户。
2.根据权利要求1所述的大数据的电商交易方法,其特征在于,包括以下步骤:
a、根据配置参数,自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求,如果不符合,提供给用户自定义数据模板和采割方法,以便按需提供实现数据和内容的交付;
b、确定任务模板,将模板分解为多个采集任务,并将每个任务分配给调度监控集群;
c、调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况,对于异常进行动态迁移到正常执行节点;
d、按独立网址维护采集周期,进行采集;
e、在执行完成采集以后,执行节点主动心跳状态,进行异构收割,并按照一定的规则进行数据预处理,进行收割库归档,以备后续数据分析;
f、第三方用户发送获取数据服务请求,首先进行权限认证,验证是否为合法用户,是否有相应的数据权限;
g、将用户的请求分解并适配到对应主题所在的节点上,在主题节点分为两部分:oRest接口程序和接口依赖的内存库;
h、以oNoSQL数据调度转换模块提供内存数据库和分布式nosql数据库的转换和调度。
3.根据权利要求2所述的大数据的电商交易方法,其特征在于,步骤c中,调度节点与执行节点通过MapReduce计算模型实现。
4.一种大数据的电商交易系统,其特征在于,包括适配模块、主从式数据采集模块、数据收割模块、数据清洗与整理模块、调度与监控模块、数据存储与处理模块、权限认证模块、请求适配与结果汇总模块、数据调度转换模块,其中:
适配模块、主从式数据采集模块、数据收割模块、数据清洗与整理模块、调度与监控模块、数据存储与处理模块构成采集与整理系统:负责数据采集、存储、清洗以及整理的过程;
权限认证模块、请求适配与结果汇总模块、数据调度转换模块构成服务接口系统:负责将数据分享给用户。
5.根据权利要求4所述的大数据的电商交易系统,其特征在于,主从式数据采集模块用于根据配置参数自动匹配行业模板及其采割方法,并回馈给客户以验证是否符合要求,如果不符合,提供给用户自定义数据模型和采割方法,以便按需提供实现数据和内容的交付。
6.根据权利要求4所述的大数据的电商交易系统,其特征在于,适配模块用于将接收到模板分解为多个采集任务并将每个任务分配给调度监控集群。
7.根据权利要求4所述的大数据的电商交易系统,其特征在于,调度监控集群中的调度节点根据任务进行按维度划分,并负责将各个子任务分配给执行节点,同时监控执行情况,对于异常进行动态迁移到正常执行节点。
8.根据权利要求4所述的大数据的电商交易系统,其特征在于,调度监控集群中的执行节点按独立网址维护采集周期,并纳入主从式数据采集模块进行采集。
9.根据权利要求4所述的大数据的电商交易系统,其特征在于,在执行完成采集以后,执行节点主动心跳状态,数据收割模块负责异构收割,数据清洗与整理模块按照一定的规则进行数据预处理,数据存储与处理模块进行收割库归档,以备后续数据分析。
CN201510436472.6A 2015-07-23 2015-07-23 一种大数据的电商交易方法及电商交易系统 Pending CN105096181A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510436472.6A CN105096181A (zh) 2015-07-23 2015-07-23 一种大数据的电商交易方法及电商交易系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510436472.6A CN105096181A (zh) 2015-07-23 2015-07-23 一种大数据的电商交易方法及电商交易系统

Publications (1)

Publication Number Publication Date
CN105096181A true CN105096181A (zh) 2015-11-25

Family

ID=54576541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510436472.6A Pending CN105096181A (zh) 2015-07-23 2015-07-23 一种大数据的电商交易方法及电商交易系统

Country Status (1)

Country Link
CN (1) CN105096181A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105959115A (zh) * 2016-07-19 2016-09-21 贵州大学 面向多方容错授权的公开可验证大数据交易方法
CN106202399A (zh) * 2016-07-11 2016-12-07 浪潮软件集团有限公司 一种大数据的数据管理系统实现方法
CN106408388A (zh) * 2016-09-25 2017-02-15 安徽辛普信息科技有限公司 一种电商系统配置方法
CN107346489A (zh) * 2016-05-04 2017-11-14 湖南易分销电子商务有限公司 Mec移动四合一电商解决处理系统及其方法
CN108153789A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种交易平台数据处理方法
CN109981731A (zh) * 2019-02-15 2019-07-05 联想(北京)有限公司 一种数据处理方法和设备
CN111488508A (zh) * 2020-04-10 2020-08-04 长春博立电子科技有限公司 一种支持多协议分布式高并发的互联网信息采集系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391990A (zh) * 2014-12-16 2015-03-04 浪潮软件集团有限公司 一种基于垂直行业的多任务式采集与收割方法
CN104660715A (zh) * 2015-03-16 2015-05-27 浪潮集团有限公司 一种基于数据服务的开放接口实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391990A (zh) * 2014-12-16 2015-03-04 浪潮软件集团有限公司 一种基于垂直行业的多任务式采集与收割方法
CN104660715A (zh) * 2015-03-16 2015-05-27 浪潮集团有限公司 一种基于数据服务的开放接口实现方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346489A (zh) * 2016-05-04 2017-11-14 湖南易分销电子商务有限公司 Mec移动四合一电商解决处理系统及其方法
CN106202399A (zh) * 2016-07-11 2016-12-07 浪潮软件集团有限公司 一种大数据的数据管理系统实现方法
CN105959115A (zh) * 2016-07-19 2016-09-21 贵州大学 面向多方容错授权的公开可验证大数据交易方法
CN105959115B (zh) * 2016-07-19 2019-05-14 贵州大学 面向多方容错授权的公开可验证大数据交易方法
CN106408388A (zh) * 2016-09-25 2017-02-15 安徽辛普信息科技有限公司 一种电商系统配置方法
CN108153789A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种交易平台数据处理方法
CN109981731A (zh) * 2019-02-15 2019-07-05 联想(北京)有限公司 一种数据处理方法和设备
CN111488508A (zh) * 2020-04-10 2020-08-04 长春博立电子科技有限公司 一种支持多协议分布式高并发的互联网信息采集系统及方法

Similar Documents

Publication Publication Date Title
CN105096181A (zh) 一种大数据的电商交易方法及电商交易系统
CN111400326B (zh) 一种智慧城市数据管理系统及其方法
CN103516807B (zh) 一种云计算平台服务器负载均衡系统及方法
CN103064742B (zh) 一种hadoop集群的自动部署系统及方法
CN106230987A (zh) 一种基于电力PaaS云平台的信息集成系统及方法
CN111327681A (zh) 一种基于Kubernetes的云计算数据平台构建方法
CN105045832B (zh) 一种数据采集方法及装置
CN105677836A (zh) 一种同时支持离线数据和实时在线数据的大数据处理解决系统
Tao et al. Dynamic resource allocation algorithm for container-based service computing
CN104239555B (zh) 基于mpp的并行数据挖掘系统及其实现方法
Levitin et al. Service reliability and performance in grid system with star topology
CN102999800A (zh) 业务流程模型中对准用户的片断的自动识别
CN104123182A (zh) 基于主从架构的MapReduce任务跨数据中心调度系统及方法
CN106951444A (zh) 建筑工程信息处理方法及装置
CN105893158A (zh) 私有云条件下的大数据混合调度模型
CN106202399A (zh) 一种大数据的数据管理系统实现方法
CN101256599B (zh) 基于网格的分布仿真平台数据收集系统
EP3118784A1 (en) Method and system for enabling dynamic capacity planning
CN109614227A (zh) 任务资源调配方法、装置、电子设备及计算机可读介质
Tao et al. Job scheduling optimization for multi-user MapReduce clusters
CN104391990A (zh) 一种基于垂直行业的多任务式采集与收割方法
CN110795233B (zh) 分布式资源配给方法、装置和电子设备
CN111427678A (zh) 汽车诊断云平台中的虚拟化资源调度系统、方法
CN102831102A (zh) 一种在计算机集群上进行矩阵乘积运算的方法和系统
CN103380608A (zh) 在计算环境中汇聚队列信息及作业信息的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151125

WD01 Invention patent application deemed withdrawn after publication