CN108268468A

CN108268468A - 一种大数据的分析方法及系统

Info

Publication number: CN108268468A
Application number: CN201611254475.9A
Authority: CN
Inventors: 白云骐
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10
Anticipated expiration: 2036-12-30
Also published as: CN108268468B

Abstract

本发明公开了一种大数据的分析方法及系统，本发明实施例在将大数据按时间分片存储在分布式数据库的同时，在服务器本地缓存中设置缓存大数据的原始数据临时表及索引表，索引表中设置了对应大数据在原始数据临时表中的位置信息，在进行大数据分析时，直接根据服务器中的索引表从原始数据临时表调用大数据即可，由于在分析大数据时，采用的是二级索引方式，得到分析结果存储在分布式数据库的分析结果表中，不需要到分布式数据库中海量的大数据中获取大数据，所以耗时短且易于实现。更进一步地，大数据在原始数据临时表中的位置信息为远程过程调用大数据的信息，是唯一标识且反映了大数据被调用的过程。

Description

一种大数据的分析方法及系统

技术领域

本发明涉及计算机网络技术，特别涉及一种大数据的分析方法及系统。

背景技术

随着计算机网络技术的发展，在网络中的数据存储量越来越大，称为大数据的存储。在计算机网络中，需要对存储的大数据进行大数据分析，这时，就需要准确且快速的获取到对应的大数据。大数据分析已经越来越多的应用在计算机网络中，通过大数据分析能够将看似不相干的存储在不同设备中的零散数据转化成和业务息息相关的信息，例如系统间调用关系或用户购买习惯等，如何更快地在大数据分析出想要的结果，就成为了大数据分析的关键，更快地分析意味着能更快的提供确定的大数据给大数据使用者，能更快地知道问题点或业务发展的方向，在计算机网络这个快速发展的行业，快就意味着效益。

在计算机网络中，为了准确获取大数据且保证大数据的获取效率，对大数据的分析可以采用各种方式，具体地说，一般采用以下几种大数据的分析方式：

第一种大数据分析方式，对大数据进行拆分后，分库分表存储在计算机网络中的关系型数据库中，比如Oracle、MySql数据库等，根据业务编写存储过程从数据库中获取数据并进行分析，形成结果存储在结果表中。关系型数据库实际上就是由关系模式和关系实例组成，关系模式用来描述关系表中的列，关系实例为关系中的各行，因此，是采用一张张具有行和列的表来存储大数据并后续根据表来获取并分析大数据。

第二种大数据分析方式，将大数据存储在开源的分布式文件系统中，简称HDFS，也就是按照时间先后顺序以流的形式将大数据逐条读入到设置的分析程序中，然后汇总存储在HDFS。在获取时，也是运行分析程序，然后按照时间顺序以流的形式将大数据逐条读出。

第三种大数据存储方式，将大数据存储在Hbase数据库中，编写MapReduce程序对大数据进行分析计算，并将分析计算结果存储到结果表中，Hbase数据库是基于HDFS的一个分布式的、面向列的开源数据库，它提供给用户的是一个高可靠性、高性能、列存储、可伸缩及实时读写的数据库系统。

采用上述三种大数据分析的方式，都不能保证根据分析结果能够准实时的将大数据分析给用户，准实时的时长为1分钟到5分钟，特别是第一种方式，在大数据场景下，比如几十上百个G的数据，使用存储过程的方式，通常会耗时几十分钟到几天的时间不等，分析大数据的时间比较长。

采用第二种方式或第三种方式需要的一个前提条件是，在基础大数据已经全部准备完成的情况下，才能够进行分析计算，得到分析结果。在特定场景下，不能保证在用户查询时，大数据就一定能够全部准备完成，例如：用户查询计算机网络中的客户端和服务器端的一个业务相应调用关系，比如调用耗时和网络耗时等，如果此时服务器端一直在处理大数据并没有返回客户端，那么这次查询需要的大数据就没有准备好，也就不能进行大数据分析并输出分析结果，这为大数据存储带来了时间成本和资源成本。

采用第三种方式的开发及维护的成本是相当高的，采用第一种方式对于关系型数据库要求非常高，例如MySQL数据库，通常在处理海量大数据时，需要使用集群技术，而MySQL数据库一般并不支持集群的，维护这样一个集群需要相当专业的维护人员及开发人员；而采用第二种方式及第三种方式也需要额外学习开发维护流式计算机框架及MapReduce执行程序，这些都是在学习使用Hbase数据库之外的开发使用及维护成本。

综上，采用上述三种方式对大数据进行分析，存在着时效长且不容易实现的问题。

发明内容

有鉴于此，本发明实施例提供一种大数据的分析方法，该方法能够在分析大数据时，耗时短且易于实现。

本发明实施例还提供一种大数据的分析系统，该系统能够在分析大数据时，耗时短且易于实现。

根据上述目的，本发明是这样实现的：

一种大数据的分析方法，包括：

将大数据按时间分片存储在分布式数据库；

在分布式数据库设置缓存大数据的原始数据临时表及索引表，索引表中设置了对应大数据在原始数据临时表中的位置信息；

在进行大数据分析时，根据服务器中的索引表中存储的对应大数据在原始数据临时表中的位置信息，从原始数据临时表调用大数据进行分析，得到分析结果，存储在分布式数据库中。

所述分布式数据库为Hbase数据库。

在所述大数据存储到分布式数据库之前，还包括对大数据的完整性验证及合法性验证，其中，完整性验证是由网络系统中的redis完成的，通过后，将大数据发送给服务器本地完成合法性验证。

所述缓存大数据的原始数据临时表缓存大数据的方式为：

行键rowkey采用远程过程调用追溯标识traceID、入口方法名entrace及时间设置，列名设置为任意值，键值对中的键值采用spanID和大数据值roleID拼接而成。

所述索引表中设置了对应大数据在原始数据临时表中的位置信息为远程过程调用大数据的信息。

所述索引表中设置了对应大数据在原始数据临时表中的位置信息的过程为：将入口方法名及时间作为rowkey，列名设置为任意值，键值对中的键值采用原始数据表中的rowkey。

所述将大数据存储在Hbase中包括：rowkey采用traceID、入口方法名及时间设置，列名设置为任意值，键值对中的键值采用spanID和大数据值roleID拼接而成。

一种大数据的分析系统，包括：存储单元、设置单元、分布式数据库及分析单元，其中，

存储单元，用于将大数据按时间分片存储在分布式数据库；

设置单元，用于在分布式数据库设置缓存大数据的原始数据临时表及索引表，索引表中设置了对应大数据在原始数据临时表中的位置信息；

分布式数据库，用于按照时间分片存储大数据，存储原始数据临时表及索引表，及分析结果表；

分析单元，用于根据服务器中的索引表中存储的对应大数据在原始数据临时表中的位置信息，从原始数据临时表调用大数据进行分析，得到分析结果，存储在分布式数据库中。

所述分布式数据库为Hbase数据库。

还包括验证单元，用于在所述大数据存储到分布式数据库之前，对大数据的完整性验证及合法性验证。

由上述方案可以看出，本发明实施例在将大数据按时间分片存储在分布式数据库的同时，在服务器本地缓存中设置缓存大数据的原始数据临时表及索引表，索引表中设置了对应大数据在原始数据临时表中的位置信息，在进行大数据分析时，直接根据服务器中的索引表从原始数据临时表调用大数据即可，由于在分析大数据时，采用的是二级索引方式，得到分析结果存储在分布式数据库的分析结果表中，不需要到分布式数据库中海量的大数据中获取大数据，所以耗时短且易于实现。更进一步地，大数据在原始数据临时表中的位置信息为远程过程调用大数据的信息，是唯一标识且反映了大数据被调用的过程。

附图说明

图1为本发明实施例提供的大数据分析的方法流程图；

图2为本发明实施例提供的RPC的示意图；

图3为本发明实施例提供的大数据分析具体例子流程图；

图4为本发明实施例提供的查询大数据的方法流程图；

图5为本发明实施例提供的大数据分析的系统结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举例，对本发明作进一步详细说明。

本发明实施例为了解决背景技术中在分析大数据时，直接编写程序从存储海量的大数据的数据库提取大数据并分析，造成的时效长且不容易实现的问题，采用了二级索引技术，即将大数据按时间分片存储在分布式数据库的同时，在服务器本地缓存中设置缓存大数据的原始数据临时表及索引表，索引表中设置了对应大数据在原始数据临时表中的位置信息，在进行大数据分析时，直接根据服务器中的索引表从原始数据临时表调用大数据，得到分析结果，存储在分布式数据库中的分析结果表中。这样，就不需要如背景技术那样直接编写分析程序从存储海量的大数据库中查找并提取数据库中的大数据，不需要对数据库的存储结构考虑，本发明实施例耗时短且易于实现。

更进一步地，大数据在原始数据临时表中的位置信息为远程过程调用大数据的信息，是唯一标识且反映了大数据被调用的过程。

图1为本发明实施例提供的大数据分析方法流程图，其具体步骤为：

步骤101、将大数据按时间分片存储在分布式数据库；

在本步骤中，时间分片是设置的，可以设置为一周，一周后，服务器调用的大数据则被新的大数据覆盖；

在将大数据存储在分布式数据库时，经过了完整性验证；

步骤102、在分布式数据库设置缓存大数据的原始数据临时表及索引表，索引表中设置了对应大数据在原始数据临时表中的位置信息；

步骤103、在进行大数据分析时，根据服务器中的索引表中存储的对应大数据在原始数据临时表中的位置信息，从原始数据临时表调用大数据进行分析，得到分析结果，存储在分布式数据库中。

在该方法中，所述分布式数据库为Hbase数据库，采用行键(rowkey)和列名的方式存储大数据。

在该方法中，在存储到分布式数据库之前，还包括对大数据的完整性验证及合法性验证，其中，完整性验证是由网络系统中的redis完成的，通过后，将大数据发送给服务器本地完成合法性验证。其中，Redis是网络系统中的一个开源的，支撑网络，可基于内存亦可持久化的日志型、键值数据库。

在该方法中，大数据在原始数据临时表中的位置信息为远程过程调用大数据的信息。远程过程调用(RPC，Remote Procedure Call)，远程过程调用与过程调用是两个概念，所谓过程调用，就是将控制A传递到另一个过程B，返回时过程B将控制进程交给过程A。在目前大多数系统中，调用者和被调用者都在给定主机系统中的一个进程中，它们是在生成可执行文件时由链接器连接起来的，这类过程调用称为本地过程调用。RPC指的是由本地系统上的进程激活远程系统上的进程，将此称为过程调用是因为它对程序员来说表现为常规过程调用。处理远程过程调用的进程有两个，一个是本地客户进程，一个是远程服务器进程。对本地客户进程来说，RPC表现为对本地客户进程的控制，然后由客户进程生成一个消息，通过网络系统调用发往远程服务器，调用信息中包括调用所需的参数，远程服务器接到消息后调用相应进程，然后将调用结果发送到本地客户端进程，再由客户端进程将结果返回给调用进程。因此，远程服务器调用对本地客户表现为本地过程调用，但实际上是调用了远程系统上的过程。

在该方法中，在原始数据临时表中存储大数据采用的是rowkey、列名及键值对的方式，其中rowkey及键值对采用的是调用信息，具体为RPC信息，包括：RPC调用追溯标识(TraceID)、PRC中间调用标识(SpanID)及PRC调用日志；而列名可以为任意值。

如图2所示，图2为本发明实施例提供的RPC的示意图，如图所示，一次完整的RPC经过了服务器A、服务器B及服务器C，在每个服务器中都具有服务器接收(SR，ServerReceive)、服务器发送(SS，ServerSend)、客户端发送(CS，ClientSend)及客户端接收(CR，ClientReceive)，将一次完整的RPC，即服务器A调用服务器B，服务器B调用服务器C，称为一次追溯(Trace)，一次Trace有一个全局唯一编号，即TraceID，每一次中间调用，比如服务器A调用服务器B称为一次Span，如图中的Span1及Span2，Span也存在SpanID。服务器A、服务器B及服务器C中的服务器和客户端分别输出两条日志，一共四条日志，分别在SR、SS、CS及CR位置输出日志；服务器上层的节点间的调用关系采用prantID来表示。

在该方法中，具体地说，所述原始数据临时表中的大数据存储采用的形式为：其中的行键(rowkey)采用traceID、入口方法名(entrace)及时间设置，列名任意，键值对中的键值采用spanID和大数据值(roleID)拼接而成；在索引表中，将入口方法名及时间作为rowkey，列名任意，键值对中的键值采用原始数据表中的rowkey。可以看出，在索引表中包含了原始数据临时表中的rowkey，通过对大数据的分级保存验证，即redis-本地缓存队列-Hbase数据库，实现了大数据的完整性验证，只有当判断数据到齐之后，才被缓存到本地缓存队列进行下一步处理，以设定的时间分片进行二级索引的建立。

在该方法中，将大数据存储在Hbase中时，也采用rowkey、列名及键值对的方式，其中，rowkey采用traceID、入口方法名(entrace)及时间设置，列名任意，键值对中的键值采用spanID和大数据值(roleID)拼接而成。

在该方法中，在原始数据临时表中存储大数据时，由于数据量巨大，处于对网络系统资源的合理利用考虑，数据有效时间可以设置为很短时间，比如一周，一周后，原始数据临时表中的数据就会被新的大数据覆盖，索引表中的信息也同理。

图3为本发明实施例提供的大数据分析具体例子流程图，其具体步骤为：

步骤301、服务器接收到日志数据；

在本步骤中，所述日志数据为上述的大数据，携带有日志；

步骤302、服务器将日志数据按照时间缓存至redis中；

步骤303、服务器查询redis，判断日志数据是否完整为完整数据，如果是，执行步骤305；如果否，执行步骤304；

在本步骤中，判断是根据设置的数据计数器值确定的；

步骤304、服务器将数据计数器加1后，返回执行步骤301；

步骤305、服务器删除redis中的记录，并将数据保存至本地缓存队列中；

步骤306、服务器的本地定时线程每隔设定时间从缓存队列中获取数据；

在本步骤中，所述设定时间可以为1秒；

步骤307、服务器判断所获取的数据是否合法，如果否，执行步骤308；如果是，执行步骤309和312；

在这里，合法性认证根据设置的规则进行判断；

步骤308、丢弃该日志数据，并输出错误日志信息，返回步骤306执行；

步骤309、获取本地缓存入口方法名对比日志数据中的入口方法名；

步骤310、判断日志数据的入口方法名是否存在且与本地缓存入口方法名相同，如果是，执行步骤312；如果否，则执行步骤311；

步骤311、将入口方法名缓存到本地，如果不存在入口方法名，则插入入口方法名，返回步骤306；

步骤312、将获取的日志数据，拼装rowkey及数据结构，执行步骤313及步骤314；

步骤313、保存至Hbase数据库，返回步骤306继续执行；

步骤314、得到原始数据临时表及索引表。

图4为本发明实施例提供的查询大数据的方法流程图，其具体步骤为：

步骤401、定时任务启动；

步骤402、从索引表中根据入口方法名及时间查询需要大数据在原始数据临时表的rowkey；

步骤403、根据查询到的rowkey分条查询原始数据临时表中存储的大数据；

步骤404、将得到的大数据按照设定规则进行串联。

从图4可以看出，本发明实施例只需要根据入口方法及时间查询索引表，得到对应的在原始数据临时表的rowkey，就能够得到原始数据临时表存储的大数据，避免了大范围的在Hbase数据库中的扫描和验证，为准实时数据分析节约了查询数据的时间，随着大数据的数据量的发展，可以将时间分片缩小到30秒或10秒，利于未来业务的扩展而不必大范围的改动代码及设计。在这里，是采用原始数据临时表的rowkey查询时，涉及到了查询方式，Hbase数据库提供了多种数据过滤查询方式，效率最高的是get方式，可设置范围查询及设置过滤其进行查询，由于会对某一个或几个分区的数据进行扫描过滤，所以在大多数情况下，查询效率会受到影响，所以本发明实施例不会采用过多的过滤器作为查询条件。

在本发明实施例中，采用索引表调用原始数据临时表中的数据，得到分析后的结果数据，保存至结果表中，方便前端查询。

图5为本发明实施例提供的大数据分析的系统结构示意图，包括：存储单元、设置单元、分布式数据库及分析单元，其中，

存储单元，用于将大数据按时间分片存储在分布式数据库；

在结构中，还包括验证单元，用于在所述大数据存储到分布式数据库之前，对大数据的完整性验证及合法性验证。

以上举较佳实施例，对本发明的目的、技术方案和优点进行了进一步详细说明，所应理解的是，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大数据的分析方法，其特征在于，包括：

将大数据按时间分片存储在分布式数据库；

2.如权利要求1所述的方法，其特征在于，所述分布式数据库为Hbase数据库。

3.如权利要求1所述的方法，其特征在于，在所述大数据存储到分布式数据库之前，还包括对大数据的完整性验证及合法性验证，其中，完整性验证是由网络系统中的redis完成的，通过后，将大数据发送给服务器本地完成合法性验证。

4.如权利要求1所述的方法，其特征在于，所述缓存大数据的原始数据临时表缓存大数据的方式为：

5.如权利要求4所述的方法，其特征在于，所述索引表中设置了对应大数据在原始数据临时表中的位置信息为远程过程调用大数据的信息。

6.如权利要求4或5所述的方法，其特征在于，所述索引表中设置了对应大数据在原始数据临时表中的位置信息的过程为：将入口方法名及时间作为rowkey，列名设置为任意值，键值对中的键值采用原始数据表中的rowkey。

7.如权利要求1所述的方法，其特征在于，所述将大数据存储在Hbase中包括：rowkey采用traceID、入口方法名及时间设置，列名设置为任意值，键值对中的键值采用spanID和大数据值roleID拼接而成。

8.一种大数据的分析系统，其特征在于，包括：存储单元、设置单元、分布式数据库及分析单元，其中，

存储单元，用于将大数据按时间分片存储在分布式数据库；

9.如权利要求8所述的系统，其特征在于，所述分布式数据库为Hbase数据库。

10.如权利要求1所述的方法，其特征在于，还包括验证单元，用于在所述大数据存储到分布式数据库之前，对大数据的完整性验证及合法性验证。