CN105468735A - 基于移动互联网海量信息的流式预处理系统及其方法 - Google Patents

基于移动互联网海量信息的流式预处理系统及其方法 Download PDF

Info

Publication number
CN105468735A
CN105468735A CN201510818371.5A CN201510818371A CN105468735A CN 105468735 A CN105468735 A CN 105468735A CN 201510818371 A CN201510818371 A CN 201510818371A CN 105468735 A CN105468735 A CN 105468735A
Authority
CN
China
Prior art keywords
data
node
cluster
imp
kafka
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510818371.5A
Other languages
English (en)
Inventor
严雄伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN
Original Assignee
HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN filed Critical HONGXU INFORMATION TECHNOLOGY Co Ltd WUHAN
Priority to CN201510818371.5A priority Critical patent/CN105468735A/zh
Publication of CN105468735A publication Critical patent/CN105468735A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于移动互联网海量信息的流式预处理系统及其方法,属于大数据领域。本系统是移动互联网(000)、接口机(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群(400)依次连通。本方法主要是:控制模块通过Zookeeper连接Kafka集群,读取Kafka集群中缓存的数据;预处理模块按照指定的处理流程处理数据,最终写入HBase数据库。本发明弥补了MapReduce不支持流式数据处理的不足;处理速度快,且具有容错性;通过整合分布式消息系统、分布式流式处理框架、hadoop分布式文件系统三种大数据领域的技术,为其它大数据技术之间的模块化整合提供了参考;能够对所有移动互联网的海量信息进行实时处理,可以为运营商的实时业务提供技术支持。

Description

基于移动互联网海量信息的流式预处理系统及其方法
技术领域
本发明属于大数据领域,具体涉及基于移动互联网海量信息的流式预处理系统及其方法。
背景技术
近年来,移动运营商网络已成为了天然的大数据贮存和流动的载体。移动互联网拥有的数据源丰富多样,包括上网行为数据、位置数据、信令数据、微博数据、即时通信数据、网页、音频数据、视频文件和图片等,且这些数据会不断产生。为了能从这些流式数据中实时地提取有用的信息,过滤掉无用的信息,往往需要对其进行快速处理,接着再以规范化的形式存入数据中心,用以提供高效的查询服务。
这类大数据服务对比一般的数据服务,有其自身的特点:首先,业务数据为大数据,新到来的流式数据规模小,结构简单;其次,数据流持续到达,业务数据持续增长,定期更新;最后,需在大数据之上对流式数据作出快速处理。
目前,比较流行的数据处理技术方案是使用Hadoop的MapReduce编程模型,MapReduce不仅能并行处理大规模数据,而且扩展性很好,每增加一台服务器,其就能将差不多的计算能力接入到集群中。然而,MapReduce仅支持离线数据计算,即数据要处理,必须先存储,因此它并不适合海量流式信息的预处理这种对实时性要求很高的应用。
在流式数据处理方面,S4是一个受MapReduce启发的分布式流式数据处理系统,但是它主要用于解决搜索,错误探测,网络交友等现实应用,并不适合移动互联网海量信息的提取、过滤操作。
发明内容
本发明的目的在于克服现有技术存在的缺点和不足,提供一种基于移动互联网海量信息的流式预处理系统及其方法,用以解决当前技术无法实时、可靠地处理流式数据的问题。
实现本发明目的的技术方案是:
一、基于移动互联网海量信息的流式预处理系统(简称系统)
本系统包括移动互联网,设置有接口机、Kafka集群、Spark集群和Hadoop集群;
移动互联网、接口机、Kafka集群、Spark集群和Hadoop集群依次连通。
二、基于移动互联网海量信息的流式预处理方法(简称方法)
本方法包括以下步骤:
①移动互联网海量数据以文件的形式通过FTP的方式上传到接口机指定目录;
②接口机文件轮询模块定时扫描接口机指定目录,获取目录中的文件列表,发送至文件解析模块;
③文件解析模块解析文件并格式化其内容,将其发送至流数据缓存模块;
④流数据缓存模块通过Zookeeper连接Kafka集群,将数据批量写入Kafka集群;
⑤Spark主节点中的SparkStreaming控制模块通过Zookeeper连接Kafka集群,读取Kafka集群中缓存的数据,存入HDFS日志存储目录,生成预处理任务分发至各个Spark工作节点,并周期性地设置检查点,如果任务执行失败,可以通过读取HDFS存储的日志重新执行任务;
⑥预处理模块按照指定的处理流程处理数据,最终写入HBase数据库。
本发明具有下列优点和积极效果:
①弥补了MapReduce不支持流式数据处理的不足;
②处理速度快,且具有容错性;
③通过整合分布式消息系统、分布式流式处理框架、hadoop分布式文件系统三种大数据领域的技术,为其它大数据技术之间的模块化整合提供了参考。
总之,本发明能够对所有移动互联网的海量信息进行实时处理,可以为运营商的实时业务提供技术支持。
附图说明
图1是本系统的结构方框图;
图2是SparkStreaming控制模块3A1读取Kafka集群200中缓存的数据并生成预处理任务的流程图;
图3是预处理模块311按照指定流程处理数据的流程图
其中:
000—移动互联网;
100—接口机,
110—第1接口机,
120—第2接口机……
1M0—第M接口机,
M是自然数,1≤M≤5;
101—文件轮询模块,102—文件解析模块,103—流数据缓存模块;
200—Kafka集群,
210—第1Kafka节点,
220—第2Kafka节点……
2N0—第NKafka节点,
N为自然数,1≤N≤10;
300—Spark集群,
3A0—Spark主节点,
3A1—SparkStreaming控制模块;
310—第1Spark工作节点,
320—第2Spark工作节点……
3O0—第OSpark工作节点,O为自然数,1≤O≤10;
311—预处理模块;
400—Hadoop集群,
410—第1Hadoop节点,
420—第2Hadoop节点,……
4P0—第PHadoop节点,P为自然数,1≤P≤10,
401—HDFS日志存储目录,402—HBase数据库。
英译汉
FTP:FileTransferProtocol,文件传输协议;
Zookeeper:是一个分布式的,开放源码的分布式应用程序协调服务,它是一个为分布式应用提供一致性服务的软件;
Linux:一种操作系统
Kafka:一种高吞吐量的分布式发布订阅消息系统;
Spark:一种快速的大数据分布式处理引擎;
SparkStreaming:建立在Spark上的实时计算框架,用于大规模流式数据处理;
Hadoop:一个能够对大量数据进行分布式处理的软件框架;
HDFS:Hadoop的分布式文件系统;
MapReduce:MapReduce是一种编程模型,用于大规模数据集的并行运算;
HBase:一个分布式的,面向列的Hadoop数据库;
RDD:ResilientDistributed,DataSet弹性分布式数据集,Spark核心的数据结构;
DStream:SparkStreaming特有的数据结构,连续的RDDs。
具体实施方式
以下结合附图和实施例详细说明:
一、系统
1、总体
如图1,本系统包括移动互联网000,设置有接口机100、Kafka集群200、Spark集群300和Hadoop集群400;
依次连通的移动互联网000、接口机100、Kafka集群200、Spark集群300和Hadoop集群400。
2、功能部件
0)移动互联网000
移动互联网000指互联网的技术、平台、商业模式和应用与移动通信技术结合并实践的活动的总称。
1)接口机100
接口机100包括第1接口机110、第2接口机120……第M接口机1M0;
每个接口机包括依次交互的文件轮询模块101、文件解析模块102和数据缓存模块103。
(1)文件轮询模块101是一种定时扫描ftp目录、获取文件列表的模块,它将文件列表发送至文件解析模块102;
(2)文件解析模块102是一种解析文件内容并将其格式化的模块,它将内容发送至数据缓存模块103;
(3)数据缓存模块103是一种通过Zookeeper连接Kafka集群200,将数据批量写入集群中缓存的模块。
2)Kafka集群200
Kafka集群200包括第1Kafka节点210、第2Kafka节点220……第NKafka节点2N0;
每个Kafka节点是一种内嵌有Kafka开源消息系统的Linux服务器,各节点之间使用Zookeeper协调管理。
3)Spark集群300
Spark集群300包括Spark主节点3A0和分别与其(Spark主节点3A0)连接的第1Spark工作节点310、第2Spark工作节点320……第OSpark工作节点3O0;
每个节点是一种内嵌有Spark开源消息系统的Linux服务器,各节点之间使用Zookeeper协调管理。
(1)Spark主节点3A0内嵌有SparkStreaming控制模块3A1;
SparkStreaming控制模块3A1读取Kafka集群中的数据,生成预处理任务分发给工作节点,自动控制预处理日志,写入HDFS日志存储目录401;
(2)每个工作节点内嵌有数据预处理模块311;
数据预处理模块311按照指定的流程处理数据,最终写入HBase数据库402。
4)Hadoop集群400
Hadoop集群400包括第1Hadoop节点410、第2Hadoop节点420……第NHadoop节点4P0;
每个节点是一种Hadoop开源软件的Linux服务器,内嵌有预处理的HDFS日志存储目录401和HBase数据库402。
3、工作机理
接口机100接收到移动互联网000的数据文件之后,将其解析并格式化存入到Kafka集群200进行缓存,同时,Spark集群300中的主节点在SparkStreaming控制模块的控制下从kafka缓存中读取数据,自动写入HDFS日志存储目录,生成预处理任务,分发给工作节点处理,并自动地周期性地设置检查点,保证零数据丢失,预处理完成之后,数据存入Hadoop集群40中的HBase数据库。
二、方法
*步骤⑤
如图2,SparkStreaming控制模块3A1读取Kafka集群200中缓存的数据并生成预处理任务的工作流程如下:
A、SparkStreaming初始化,设置预处理日志存储目录-51;
B、连接Kafka集群Zookeeper,获取Kafka集群的连接-52;
C、SparkStreaming循环读取Kafka中的数据-53;
D、判断是否有数据-54,是则进入步骤E,否则暂停60s-58后跳转到步骤C;
E、将数据转换成DStream-55;
F、将DStream重新分区-56;
G、将重新分区的DStream以分区为单位转换成一个新的DStream,分发任务给Spark工作节点-57。
*步骤⑥
如图3,预处理模块处理数据的工作流程如下:
a、数据解析-61;
b、根据提取规则提取业务数据-62;
c、判断是否有异常-63,是则跳转到步骤b,否则进入步骤d;
d、根据过滤规则过滤海量数据-64;
e、判断是否有异常-65,是则跳转到步骤b,否则进入步骤f;
f、将业务数据和海量原始数据入库-66;
g、判断是否有异常-67,是则跳转到步骤b,否则流程结束;
h、流程结束-68。

Claims (8)

1.一种基于移动互联网海量信息的流式预处理系统,包括移动互联网000,其特征在于:
设置有接口机(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群(400);
移动互联网(000)、接口机(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群(400)依次连通。
2.按权利要求1所述的流式预处理系统,其特征在于:
所述的接口机(100)包括第1接口机(110)、第2接口机(120)……第M接口机(1M0),M是自然数,1≤M≤5;
每个接口机内嵌有依次交互的文件轮询模块(101)、文件解析模块(102)和数据缓存模块(103)。
3.按权利要求1所述的流式预处理系统,其特征在于:
所述的Kafka集群(200)包括第1Kafka节点(210)、第2Kafka节点(220)……第NKafka节点(2N0),N为自然数,1≤N≤10;;
每个Kafka节点是一种内嵌有Kafka开源消息系统的Linux服务器,各节点之间使用Zookeeper协调管理。
4.按权利要求1所述的流式预处理系统,其特征在于:
所述的Spark集群(300)包括Spark主节点(3A0)和分别与其连接的第1Spark工作节点(310)、第2Spark工作节点(320)……第OSpark工作节点(3O0),O为自然数,1≤O≤10;
每个节点是一种内嵌有Spark开源计算系统的Linux服务器,各节点之间使用Zookeeper协调管理;
Spark主节点(3A0)内嵌有SparkStreaming控制模块(3A1);
SparkStreaming控制模块(3A1)读取Kafka集群中的数据,生成预处理任务分发给工作节点,自动控制预处理日志,写入HDFS;
每个工作节点内嵌有数据预处理模块(311);
数据预处理模块(311)按照指定的流程处理数据,最终写入HBase。
5.按权利要求1所述的流式预处理系统,其特征在于:
所述的Hadoop集群(400)包括第1Hadoop节点(410)、第2Hadoop节点(420)……第PHadoop节点(4P0),P为自然数,1≤P≤10;
每个节点是一种Hadoop开源软件的Linux服务器,内嵌有预处理的HDFS日志存储目录(401)和HBase数据库(402)。
6.基于权利要求1-5所述系统的流式预处理方法,其特征在于包括以下步骤:
①移动互联网海量数据以文件的形式通过FTP的方式上传到接口机指定目录;
②接口机文件轮询模块定时扫描接口机指定目录,获取目录中的文件列表,发送至文件解析模块;
③文件解析模块解析文件并格式化其内容,将其发送至流数据缓存模块;
④流数据缓存模块通过Zookeeper连接Kafka集群,将数据批量写入Kafka集群;
⑤Spark主节点中的SparkStreaming控制模块通过Zookeeper连接Kafka集群,读取Kafka集群中缓存的数据,存入HDFS日志存储目录,生成预处理任务分发至各个Spark工作节点,并周期性地设置检查点,如果任务执行失败,可以通过读取HDFS存储的日志重新执行任务;
⑥预处理模块按照指定的处理流程处理数据,最终写入HBase数据库。
7.按权利要求6所述的流式预处理方法,其特征在于步骤⑤的工作流程是:
A、SparkStreaming初始化,设置预处理日志存储目录(51);
B、连接Kafka集群Zookeeper,获取Kafka集群的连接(52);
C、SparkStreaming循环读取Kafka中的数据(53);
D、判断是否有数据(54),是则进入步骤E,否则暂停60s(58)后跳转到步骤C;
E、将数据转换成DStream(55);
F、将DStream重新分区(56);
G、将重新分区的DStream以分区为单位转换成一个新的DStream,分发任务给Spark工作节点(57)。
8.按权利要求6所述的流式预处理方法,其特征在于步骤⑥的工作流程是:
a、数据解析(61);
b、根据提取规则提取业务数据(62);
c、判断是否有异常(63),是则跳转到步骤b,否则进入步骤d;
d、根据过滤规则过滤海量数据(64);
e、判断是否有异常(65),是则跳转到步骤(b),否则进入步骤f;
f、将业务数据和海量原始数据入库(66);
g、判断是否有异常(67),是则跳转到步骤b,否则流程结束;
h、流程结束(68)。
CN201510818371.5A 2015-11-23 2015-11-23 基于移动互联网海量信息的流式预处理系统及其方法 Pending CN105468735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510818371.5A CN105468735A (zh) 2015-11-23 2015-11-23 基于移动互联网海量信息的流式预处理系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510818371.5A CN105468735A (zh) 2015-11-23 2015-11-23 基于移动互联网海量信息的流式预处理系统及其方法

Publications (1)

Publication Number Publication Date
CN105468735A true CN105468735A (zh) 2016-04-06

Family

ID=55606436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510818371.5A Pending CN105468735A (zh) 2015-11-23 2015-11-23 基于移动互联网海量信息的流式预处理系统及其方法

Country Status (1)

Country Link
CN (1) CN105468735A (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869396A (zh) * 2016-04-28 2016-08-17 泰华智慧产业集团股份有限公司 基于大数据平台的过车指数统计方法及系统
CN105933736A (zh) * 2016-04-18 2016-09-07 天脉聚源(北京)传媒科技有限公司 一种日志处理方法及装置
CN105959151A (zh) * 2016-06-22 2016-09-21 中国工商银行股份有限公司 一种高可用的流式处理系统及方法
CN106101090A (zh) * 2016-06-07 2016-11-09 中国建设银行股份有限公司 用于规则引擎的操作方法以及规则引擎系统
CN106126643A (zh) * 2016-06-23 2016-11-16 北京百度网讯科技有限公司 流式数据的分布式处理方法和装置
CN106202324A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN106371366A (zh) * 2016-09-22 2017-02-01 南京中新赛克科技有限责任公司 基于arm架构的大数据采集与分析平台
CN106533791A (zh) * 2016-12-12 2017-03-22 武汉烽火信息集成技术有限公司 一种基于大数据平台的端到端业务质量优化装置及方法
CN107294801A (zh) * 2016-12-30 2017-10-24 江苏号百信息服务有限公司 基于海量实时互联网dpi数据的流式处理方法及系统
CN107391719A (zh) * 2017-07-31 2017-11-24 南京邮电大学 一种云环境中分布式流数据处理方法及系统
CN107463706A (zh) * 2017-08-18 2017-12-12 国网上海市电力公司 一种基于Hadoop的海量录波数据存储和解析方法及系统
CN107748800A (zh) * 2017-11-15 2018-03-02 北京易讯通信息技术股份有限公司 一种分布式实时数据处理政务服务数据的融合与共享方法
CN107766147A (zh) * 2016-08-23 2018-03-06 上海宝信软件股份有限公司 分布式的数据分析任务调度系统
CN107766214A (zh) * 2017-10-12 2018-03-06 南京熊猫电子股份有限公司 基于spark技术的移动终端数据流处理方法及系统
CN108665174A (zh) * 2018-05-16 2018-10-16 中国平安人寿保险股份有限公司 风险预警方法、装置、计算机设备以及存储介质
CN108737483A (zh) * 2017-04-24 2018-11-02 百度在线网络技术(北京)有限公司 一种基于流式计算的数据连通率实时计算方法及装置
CN108737543A (zh) * 2018-05-21 2018-11-02 天津中兴智联科技有限公司 一种分布式物联网中间件及工作方法
CN109241007A (zh) * 2018-07-19 2019-01-18 北京亿赛通网络安全技术有限公司 一种网络环境下email大数据的预处理系统及方法
CN109327509A (zh) * 2018-09-11 2019-02-12 武汉魅瞳科技有限公司 一种主/从架构的低耦合的分布式流式计算框架
CN109618308A (zh) * 2018-12-28 2019-04-12 济南浪潮高新科技投资发展有限公司 一种基于Spark Streaming处理物联网数据的方法
CN109656981A (zh) * 2018-11-19 2019-04-19 南京国通智能科技有限公司 一种数据统计方法及系统
CN109828953A (zh) * 2019-01-30 2019-05-31 武汉虹旭信息技术有限责任公司 基于分布式内存数据库的图片检索系统及其方法
CN110287172A (zh) * 2019-07-01 2019-09-27 四川新网银行股份有限公司 一种格式化HBase数据的方法
CN111147664A (zh) * 2019-12-18 2020-05-12 广东南方海岸科技服务有限公司 移动终端大数据处理方法、装置、大数据架构及存储介质
CN112995263A (zh) * 2019-12-18 2021-06-18 中国移动通信集团陕西有限公司 网优流数据处理系统
CN114844898A (zh) * 2022-04-29 2022-08-02 中国光大银行股份有限公司 一种互联网接入方法、装置及系统
CN112506960B (zh) * 2020-12-17 2024-03-19 青岛以萨数据技术有限公司 基于ArangoDB引擎的多模型数据存储方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678519A (zh) * 2013-11-29 2014-03-26 中国科学院计算技术研究所 一种支持Hive DML增强的混合存储系统及其方法
WO2015004421A1 (en) * 2013-07-08 2015-01-15 Qatar Foundation A method of performing a matrix operation in a distributed processing system
CN104391989A (zh) * 2014-12-16 2015-03-04 浪潮电子信息产业股份有限公司 一种分布式etl一体机系统
CN104579823A (zh) * 2014-12-12 2015-04-29 国家电网公司 一种基于大数据流的网络流量异常检测系统及方法
CN104715039A (zh) * 2015-03-23 2015-06-17 星环信息科技(上海)有限公司 基于硬盘和内存的列式存储和查询方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015004421A1 (en) * 2013-07-08 2015-01-15 Qatar Foundation A method of performing a matrix operation in a distributed processing system
CN103678519A (zh) * 2013-11-29 2014-03-26 中国科学院计算技术研究所 一种支持Hive DML增强的混合存储系统及其方法
CN104579823A (zh) * 2014-12-12 2015-04-29 国家电网公司 一种基于大数据流的网络流量异常检测系统及方法
CN104391989A (zh) * 2014-12-16 2015-03-04 浪潮电子信息产业股份有限公司 一种分布式etl一体机系统
CN104715039A (zh) * 2015-03-23 2015-06-17 星环信息科技(上海)有限公司 基于硬盘和内存的列式存储和查询方法及设备

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105933736A (zh) * 2016-04-18 2016-09-07 天脉聚源(北京)传媒科技有限公司 一种日志处理方法及装置
CN105869396A (zh) * 2016-04-28 2016-08-17 泰华智慧产业集团股份有限公司 基于大数据平台的过车指数统计方法及系统
CN106101090A (zh) * 2016-06-07 2016-11-09 中国建设银行股份有限公司 用于规则引擎的操作方法以及规则引擎系统
CN105959151A (zh) * 2016-06-22 2016-09-21 中国工商银行股份有限公司 一种高可用的流式处理系统及方法
CN105959151B (zh) * 2016-06-22 2019-05-07 中国工商银行股份有限公司 一种高可用的流式处理系统及方法
CN106126643A (zh) * 2016-06-23 2016-11-16 北京百度网讯科技有限公司 流式数据的分布式处理方法和装置
CN106202324B (zh) * 2016-06-30 2020-10-30 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN106202324A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN107766147A (zh) * 2016-08-23 2018-03-06 上海宝信软件股份有限公司 分布式的数据分析任务调度系统
CN106371366A (zh) * 2016-09-22 2017-02-01 南京中新赛克科技有限责任公司 基于arm架构的大数据采集与分析平台
CN106533791A (zh) * 2016-12-12 2017-03-22 武汉烽火信息集成技术有限公司 一种基于大数据平台的端到端业务质量优化装置及方法
CN106533791B (zh) * 2016-12-12 2019-10-25 武汉烽火信息集成技术有限公司 一种基于大数据平台的端到端业务质量优化装置及方法
CN107294801A (zh) * 2016-12-30 2017-10-24 江苏号百信息服务有限公司 基于海量实时互联网dpi数据的流式处理方法及系统
CN107294801B (zh) * 2016-12-30 2020-03-31 江苏号百信息服务有限公司 基于海量实时互联网dpi数据的流式处理方法及系统
CN108737483A (zh) * 2017-04-24 2018-11-02 百度在线网络技术(北京)有限公司 一种基于流式计算的数据连通率实时计算方法及装置
CN107391719A (zh) * 2017-07-31 2017-11-24 南京邮电大学 一种云环境中分布式流数据处理方法及系统
CN107463706B (zh) * 2017-08-18 2020-06-23 国网上海市电力公司 一种基于Hadoop的海量录波数据存储和解析方法及系统
CN107463706A (zh) * 2017-08-18 2017-12-12 国网上海市电力公司 一种基于Hadoop的海量录波数据存储和解析方法及系统
CN107766214A (zh) * 2017-10-12 2018-03-06 南京熊猫电子股份有限公司 基于spark技术的移动终端数据流处理方法及系统
CN107748800A (zh) * 2017-11-15 2018-03-02 北京易讯通信息技术股份有限公司 一种分布式实时数据处理政务服务数据的融合与共享方法
CN108665174A (zh) * 2018-05-16 2018-10-16 中国平安人寿保险股份有限公司 风险预警方法、装置、计算机设备以及存储介质
CN108737543A (zh) * 2018-05-21 2018-11-02 天津中兴智联科技有限公司 一种分布式物联网中间件及工作方法
CN108737543B (zh) * 2018-05-21 2021-09-24 高新兴智联科技有限公司 一种分布式物联网中间件及工作方法
CN109241007B (zh) * 2018-07-19 2021-08-13 北京亿赛通网络安全技术有限公司 一种网络环境下email大数据的预处理系统及方法
CN109241007A (zh) * 2018-07-19 2019-01-18 北京亿赛通网络安全技术有限公司 一种网络环境下email大数据的预处理系统及方法
CN109327509A (zh) * 2018-09-11 2019-02-12 武汉魅瞳科技有限公司 一种主/从架构的低耦合的分布式流式计算框架
CN109656981A (zh) * 2018-11-19 2019-04-19 南京国通智能科技有限公司 一种数据统计方法及系统
CN109656981B (zh) * 2018-11-19 2023-09-15 南京国通智能科技有限公司 一种数据统计方法及系统
CN109618308A (zh) * 2018-12-28 2019-04-12 济南浪潮高新科技投资发展有限公司 一种基于Spark Streaming处理物联网数据的方法
CN109828953A (zh) * 2019-01-30 2019-05-31 武汉虹旭信息技术有限责任公司 基于分布式内存数据库的图片检索系统及其方法
CN110287172B (zh) * 2019-07-01 2023-05-02 四川新网银行股份有限公司 一种格式化HBase数据的方法
CN110287172A (zh) * 2019-07-01 2019-09-27 四川新网银行股份有限公司 一种格式化HBase数据的方法
CN112995263A (zh) * 2019-12-18 2021-06-18 中国移动通信集团陕西有限公司 网优流数据处理系统
CN111147664A (zh) * 2019-12-18 2020-05-12 广东南方海岸科技服务有限公司 移动终端大数据处理方法、装置、大数据架构及存储介质
CN112506960B (zh) * 2020-12-17 2024-03-19 青岛以萨数据技术有限公司 基于ArangoDB引擎的多模型数据存储方法及系统
CN114844898A (zh) * 2022-04-29 2022-08-02 中国光大银行股份有限公司 一种互联网接入方法、装置及系统
CN114844898B (zh) * 2022-04-29 2024-06-11 中国光大银行股份有限公司 一种互联网接入方法、装置及系统

Similar Documents

Publication Publication Date Title
CN105468735A (zh) 基于移动互联网海量信息的流式预处理系统及其方法
CN111400326B (zh) 一种智慧城市数据管理系统及其方法
CN107332719A (zh) 一种cdn系统内日志实时分析的方法
CN109491859A (zh) 针对Kubernetes集群中容器日志的收集方法
CN110908788B (zh) 基于Spark Streaming的数据处理方法、装置、计算机设备及存储介质
CN111090699A (zh) 业务数据的同步方法和装置、存储介质、电子装置
CN110321359B (zh) 一种基于cmsp的空间数据增量更新方法
CN108683877A (zh) 基于Spark的分布式海量视频解析系统
CN103516802A (zh) 一种实现跨异构虚拟交换机无缝迁移的方法和装置
CN110019267A (zh) 一种元数据更新方法、装置、系统、电子设备及存储介质
JP7084691B2 (ja) 地図上で実時間のソーシャルデータを処理及び提示するための方法
CN103297807A (zh) 一种基于hadoop平台的提高视频转码效率的方法
CN104935618B (zh) 一种集群部署方法
CN105138561B (zh) 一种暗网空间数据采集方法及装置
CN110502583A (zh) 分布式数据同步方法、装置、设备及可读存储介质
CN107169143B (zh) 一种高效的海量舆情数据信息集群匹配方法
CN104935951A (zh) 一种基于分布式的视频转码方法
Zhuang et al. Hoplite: efficient and fault-tolerant collective communication for task-based distributed systems
CN106777142A (zh) 基于移动互联网海量数据的服务层系统及其方法
CN104866528B (zh) 多平台数据采集方法及系统
CN102508886A (zh) 一种基于xml的空间数据增量同步更新方法
CN109408501A (zh) 一种位置数据的处理方法、装置、服务器及存储介质
CN108629016B (zh) 支持实时流计算面向大数据数据库控制系统、计算机程序
Smid et al. Case study on data communication in microservice architecture
CN111597157A (zh) 一种改进日志处理系统架构的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160406

WD01 Invention patent application deemed withdrawn after publication