CN108335075B

CN108335075B - 一种面向物流大数据的处理系统及方法

Info

Publication number: CN108335075B
Application number: CN201810220773.9A
Authority: CN
Inventors: 刘发贵; 秦政; 郑景中
Original assignee: Guangdong Yizhan Network Technology Co ltd; PG Logistics Enterprise Group Co ltd; South China University of Technology SCUT
Current assignee: Guangdong Yizhan Network Technology Co ltd; PG Logistics Enterprise Group Co ltd; South China University of Technology SCUT
Priority date: 2018-03-02
Filing date: 2018-03-16
Publication date: 2020-12-11
Anticipated expiration: 2038-03-16
Also published as: CN108335075A

Abstract

本发明公开了一种面向物流大数据的处理系统及方法，涉及物流数据处理技术领域。物流产生的数据量庞大，包含结构化、半结构化和非结构化数据，并且实时不断产生，迫切需要高效、稳定的大数据处理方法对数据进行处理。一种面向物流大数据的处理方法，其特征在于提供一个大数据处理平台对物流大数据进行处理，包括：数据采集模块、数据通信模块、数据存储模块、数据处理模块和可视化管理模块。本技术方案针对物流大数据的实时性、多种数据结构类型的特性进行设计，通过实时数据流处理技术对实时数据进行计算处理，通过多种数据持久化方案对结构化、半结构化和非结构化数据进行持久化。

Description

一种面向物流大数据的处理系统及方法

技术领域

本发明涉及物流数据处理技术领域，尤其是一种面向物流大数据的处理系统方法。

背景技术

随着现代科学技术的不断发展，电子商务领域的不断成熟，物流领域信息化的不断完善，物流领域对物流数据处理的需求越来越大。物流产生的数据量庞大，包含结构化、半结构化和非结构化数据，并且实时不断产生，迫切需要高效、稳定的大数据处理方法对数据进行处理。大数据处理需要很多先进的科学技术结合起来应用以在可以容忍的时间内处理数据得到结果。目前应用广泛的大数据技术包括数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测与结果呈现。

大数据处理平台一般由数据聚合层、消息中间件、分布式应用程序协调服务、实时计算集群、离线计算集群、分布式数据库、分布式文件系统、算法与模型、可视化管理系统组成。大数据处理平台在大数据时代能够为用户提供所需要的数据处理能力，帮助用户更好地做出决策。

物流数据处理包括对实时产生的订单数据、仓储数据、货运车辆产生的GPS信息、车辆信息等进行实时处理，还包括对已有的历史车辆轨迹、历史订单数据等进行大数据分析及预测。

现有的物流数据信息平台能对结构化物流数据进行处理，但大多对半结构化和非结构化数据没有处理能力。并且很多物流数据信息平台都缺少大数据处理能力，即使有的接入了类似MapReduce的分布式大数据处理框架，满足对历史数据进行大数据分析的需求，但是对大量实时产生的物流数据仍然缺乏高效的实时数据处理能力。

发明内容

本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进，提供一种面向物流大数据的处理方法。为此，本发明采取以下技术方案。

本发明是一种面向物流大数据的处理系统，包括：

数据采集模块：由数据聚合层组成。通过数据聚合层采集物流系统与设备的物流数据进行数据聚合；

数据通信模块：由消息中间件组成。平台的各部分通过消息中间件进行物流数据的发布/订阅；

数据存储模块：由分布式非关系型数据库、分布式关系数据库和分布式文件系统组成。分布式关系型数据库用于持久化结构化数据。分布式非关系型数据库用于持久化半结构化和非结构化数据。分布式文件系统可以持久化历史数据与日志文件；

数据处理模块：由实时计算集群和离线计算集群组成，负责对数据进行计算处理。该模块可以通过数据通信模块获取需要计算的物流数据流进行实时数据流处理，也可以通过数据存储模块获取物流数据进行离线大数据处理；

可视化管理模块：由数据监测单元、任务控制单元、数据查询单元组成。通过该模块，系统管理员可以对处理系统的资源使用情况、计算处理过程与结果、任务运行情况进行查看、监测与管理。

本技术方案针对物流大数据的实时性、多种数据结构类型的特性进行设计，通过实时数据流处理技术对实时数据进行计算处理，通过多种数据持久化方案对结构化、半结构化和非结构化数据进行持久化。

作为对上述技术方案的进一步完善和补充，本发明还包括以下附加技术特征。

所述的数据采集模块包括Flume、物流系统、手机应用、车载传感器；其中Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，在处理系统中充当物流数据聚合的作用；物流系统、手机应用、车载传感器实时产生大量物流数据，通过Flume按照规定的方式进行数据聚合，形成物流数据流并发布到Kafka供处理系统相关部分进行订阅消费。

所述的数据通信模块包括Kafka消息中间件。处理系统其他部分要与Kafka进行通信需要接入Kafka API并在通信过程中充当数据生产者或消费者。

所述的数据存储模块所使用的关系型数据库为MySQL，MySQL负责对订单数据、车辆数据、GPS数据等结构化的物流数据进行持久化，为实时和离线计算集群提供数据资源访问支持；所使用的非关系型数据库为Hbase，Hbase负责持久化电子回单和提供实时计算集群需要的数据资源的访问支持；所使用的分布式文件系统为HDFS，HDFS负责持久化历史数据与日志文件，为离线计算集群提供数据资源的访问支持。

所述的数据处理模块包含实时与离线大数据处理，其中实时数据流处理部分采用Samza进行分布式实时计算，包括对物流订单数据进行计数、对实时产生的订单进行车辆匹配、对车辆进行实时的货运路径规划等物流相关部分；离线大数据处理部分采用MapReduce方法对批量订单进行车辆匹配、对未来订单产生量进行预测分析、依据车辆轨迹进行网点规划等物流相关部分。

所述的可视化管理模块根据各个计算集群的状态数据与计算结果进行可视化的界面展示，处理系统管理员也可以随时查阅系统日志，监控处理系统的运行状态，同时可以根据需要手动更改计算任务的配置以适应不同场景的需求，也可以手动开启和关闭任务对处理系统进行调度管理。

本发明还提供利用所述处理系统的面向物流大数据的处理方法，包括以步骤：

1)Flume将采集到的物流数据进行聚合，发送到Kafka消息中间件；

2)实时计算部分：Samza集群订阅Kafka数据流进行实时数据流处理，处理内容包括实时应用任务与持久化物流数据两部分，处理时需求的资源可以来自Hbase数据库、MySQL数据库或其他系统，其中其他系统如GIS系统等；离线计算部分：MapReduce集群可以通过访问MySQL数据库、Hbase数据库、HDFS文件系统或其他系统获取数据进行离线大数据处理；

3)Samza集群与MapReduce集群在计算过程中将过程数据与计算结果存储于数据库中；Samza集群中的任务将计算结果以流的形式返回Kafka供其他任务、应用或系统订阅消费；

4)系统管理员可以从可视化管理模块查看资源使用情况、任务运行情况、计算处理过程与结果并进行监测与管理。

在步骤1)中，外部源以Flume源识别的格式向Flume发送事件。当Flume源接收到一个事件时，它将其存储到一个或多个通道。该通道是一个被动存储，保持事件，直到它被Flume sink消耗。Kafka拥有一个主题的概念，每一个主题是一些被预定义好的记录的分类。每个主题都可以拥有多个分区来进行维护，使系统稳定。Kafka集群需要依赖Zookeeper集群进行分布式应用程序协调。

在步骤2)中，Samza是一个分布式流处理框架。Samza使用Kafka进行消息传递，Hadoop YARN提供容错，处理器隔离，安全性和资源管理。Samza处理数据流时，会分别按次处理每条收到的消息。Samza的执行与数据流模块都是可插拔式的。

与现有技术相比，本发明具有如下优点和技术效果：

(1)针对物流大数据的实时性，在处理系统中加入实时计算集群进行实时计算

利用Samza高效的实时计算处理能力对海量物流数据进行分布式实时处理，提升物流信息系统整体计算速度，支持高时间要求的应用，能实时进行预警。以往的数据处理需要先将数据存储在数据库中，再将数据取出进行计算，但在实时数据流计算中，数据一旦生成直接发送到实时计算集群进行计算，过程中数据都保持在内存中，不需要把数据写入磁盘，省去了大量的磁盘I/O开销，也免去了物流系统或计算集群与数据库交互所需要的通信时间开销。保留传统大数据平台的MapReduce部分，处理系统可以同时执行实时计算和离线计算任务，任务之间相互独立，也可以共同协作。

(2)针对物流大数据多种数据结构类型的特性，在处理系统中加入多种数据持久化方式

物流大数据具有多种数据结构类型，包括结构化、半结构化、非结构化数据。管理这些不同结构的数据非常困难。针对不同的数据结构类型，本发明中使用了相应的数据库持久化方案分别对不同的数据结构类型的物流数据进行持久化。

(3)在处理系统中加入可视化管理模块，系统管理员可以随时进行查看、监测与管理

传统的大数据平台信息处理过程不透明，对于不熟悉系统的操作人员来说交互困难。本发明加入了可视化管理模块，系统管理员无需关心底层的架构与应用实现，只需通过该模块即可随时对平台进行查看、监测与管理。

(4)本方法具有高效、稳定、独立的特点

本方法所使用的框架技术均是分布式形式的，具有负载均衡、并行计算、分布存储、故障重启、灾难恢复的优点。其中Zookeeper集群为Hadoop集群、Hbase集群、Kafka集群提供一致性服务；Hadoop YARN向Samza提供容错、处理器隔离、安全性和资源管理。处理系统提供的物流大数据处理平台为物流信息平台提供大数据存储与处理服务，与物流信息平台相互独立。

附图说明

图1为面向物流大数据处理系统结构图。

图2为本发明系统逻辑架构图。

图3为本发明数据处理架构图。

图4为本发明物理架构图。

图5为车货匹配应用逻辑架构图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，下面结合附图，进行进一步的详细说明，但本发明的实施和保护不限于此，需指出的是，以下文字或附图中若有未特别详细说明之处如字符均是本领域及人员可参照现有技术理解或实现的。

面向物流大数据处理系统的结构，如图1所示。

1. 处理系统组成说明

处理系统包括数据采集模块、数据通信模块、数据处理模块、数据存储模块和可视化管理模块。

数据通信模块：由消息中间件组成。处理系统的各部分通过消息中间件进行物流数据的发布/订阅；

可视化管理模块：由数据监测单元、任务控制单元、数据查询单元组成。通过该模块，系统管理员可以对平台系统的资源使用情况、计算处理过程与结果、任务运行情况进行查看、监测与管理。

2. 处理系统中各组件关系说明

数据聚合层对手机应用、传感器设备和物流系统的物流数据进行数据聚合，形成物流数据流并传输至消息中间件；物流系统则既能通过数据聚合层向消息中间件传输数据，又能直接与消息中间件进行数据交互。

实时计算集群通过订阅消息中间件获取数据流运行所需任务：1.将各数据结构类型数据存入相应结构数据库；2.根据传入的数据进行实时计算任务，并在计算中向数据库存入过程信息与结果。

离线计算集群从分布式文件系统取出所需数据进行离线大数据计算任务，并将过程信息与计算结果存入分布式文件系统。

实时计算集群与离线计算集群若需要获取额外的资源，可以通过资源接口获取其他系统的资源。

数据库中的历史数据会向分布式文件系统进行数据迁移。

数据监测单元通过实时计算集群中的监测任务进行大数据平台监测。该单元能对设备宕机、数据异常、流量异常等异常情况进行监测及预警。

任务控制单元可以对实时计算集群与离线计算集群进行任务控制，包括修改任务配置、对任务开启、暂停、恢复以及停止。

数据查询单元与各数据库相连，系统管理员可以通过该单元进行数据查询。

本发明系统逻辑架构，如图2所示。本发明系统逻辑架构图说明：

设备层：包括移动设备、传感器设备等。这些设备会实时产生物流数据，并将数据通过通信层发送至实时服务层。

通信层：包括GPRS、WiFi、ZigBee、V2X、WSN、电缆、光纤等网络通信协议与方式。

实时服务层：包括分布式中间件集群与实时数据流处理单元两部分。分布式中间件集群用于数据分发，并与实时数据流处理单元通信。实时数据流处理单元向应用层提供实时服务，并向存储与服务层存储数据。

存储与服务层：包括数据存储单元与数据服务单元两部分。数据存储单元包括分布式数据库与HDFS文件系统，分布式数据库中的历史数据会向HDFS文件系统进行数据迁移。数据存储单元向数据服务单元与实时数据流处理单元提供数据资源的访问支持。数据服务单元包括离线数据计算和离线数据挖掘与分析，并向应用层提供服务。

应用层：包括订单处理、车货匹配、GPS监测与其他物流应用。应用层内的物流应用是物流信息平台需要借助物流大数据处理方法的应用。

本发明数据处理架构，如图3所示。

本发明数据处理架构图说明：

1. 网络应用（WebApp）或手机应用（MobileApp）提起消息队列并通过Flume中的Agent进行数据聚合后发送至Kafka消息中间件中的Broker节点，其中Agent是Flume中的信息处理单元，Broker是Kafka集群中的节点；

2. Samza实时计算集群通过Task任务来订阅消费物流数据流，一方面可以将数据流发送至数据库，另一方面可以对数据流进行实时计算并将结果返回至Kafka消息中间件让相应应用进行订阅，其中Task是Samza中运行的任务；

3. HDFS、HBase、MySQL承担数据持久化任务，MapReduce任务进行离线大数据分析；

4. 平台的组件与接口提供平台的一些功能：Phoenix能为HBase提供SQL访问支持； Sqoop用于数据迁移；Pig用于大数据分析；Hive用于统计查询；Impala用于数据查询。

本发明物理架构，如图4所示：

本发明物理架构图说明：

1. 本物流大数据处理方法从物理上可分为数据来源设备、处理平台、应用平台三部分组成。

2. 数据来源设备是提供实时物流信息的设备，主要包括移动设备、传感器设备、物流服务器。

3. 处理平台主要由消息中间件服务器(包括Flume集群、Kafka集群)、实时处理流服务器（即Samza集群）、数据与文件系统服务器（包括Hadoop集群与数据库集群）以及协调服务器（Zookeeper集群）组成。

4. 应用平台主要由可视化管理系统和物流系统组成。

车货匹配应用逻辑架构，如图5所示：

车货匹配应用逻辑架构图说明：

以车货匹配实际应用为例说明本方法，其逻辑如下：

1. 司机手机实时将位置传输至Flume数据聚合层，Flume对数据进行聚合形成车辆位置数据流并传输至Kafka消息中间件；

2. 物流系统将生成的货物订单以订单数据流的形式发送至Kafka消息中间件；

3. Samza实时计算集群对上述两条数据流进行订阅消费，进行实时计算；

4. Samza实时计算集群将计算结果以结果流的形式返回值Kafka消息中间件；

5. 物流系统通过订阅结果流获取实时计算结果进行处理；

6. 物流系统通知司机运货。

Claims

1.一种面向物流大数据的处理系统，其特征在于包括：

数据采集模块：用于通过数据聚合层采集物流系统与设备的物流数据进行数据聚合；

数据通信模块，提供物流数据的发布/订阅所需的消息中间件；

数据存储模块，包括分布式非关系型数据库、分布式关系数据库和分布式文件系统；分布式关系型数据库用于持久化结构化数据；分布式非关系型数据库用于持久化半结构化和非结构化数据；分布式文件系统能持久化历史数据与日志文件；

数据处理模块，由实时计算集群和离线计算集群组成，负责对数据进行计算处理；通过数据通信模块获取需要计算的物流数据流进行实时数据流处理，或通过数据存储模块获取物流数据进行离线大数据处理；

可视化管理模块，包括数据监测单元、任务控制单元和数据查询单元；通过该模块，系统管理员能对处理系统的资源使用情况、计算处理过程与结果、任务运行情况进行查看、监测与管理；所述数据采集模块包括Flume、物流系统、手机应用、车载传感器；其中Flume是分布式的海量日志采集、聚合和传输的系统，在处理系统中充当物流数据聚合的作用；物流系统、手机应用、车载传感器实时产生大量物流数据，通过Flume按照规定的方式进行数据聚合，形成物流数据流并发布到Kafka供处理系统进行订阅消费；所述数据通信模块包括Kafka消息中间件；处理系统中的组成部分要与Kafka进行通信需要接入Kafka API并在通信过程中充当数据生产者或消费者；

面向物流大数据的处理系统的处理过程包括以步骤：

1)Flume将采集到的物流数据进行聚合，发送到Kafka消息中间件；外部源以Flume源识别的格式向Flume发送事件；当Flume源接收到一个事件时，它将其存储到一个或多个通道；该通道是一个被动存储，保持事件，直到它被Flume sink消耗；Kafka拥有一个主题的概念，每一个主题是一些被预定义好的记录的分类；每个主题都可以拥有多个分区来进行维护，使系统稳定；Kafka集群需要依赖Zookeeper集群进行分布式应用程序协调；

2)实时计算部分：Samza集群订阅Kafka数据流进行实时数据流处理，处理内容包括实时应用任务与持久化物流数据两部分，处理时需求的资源来自Hbase数据库、MySQL数据库或其他系统，所述其他系统包括GIS系统；离线计算部分：MapReduce集群能通过访问MySQL数据库、Hbase数据库、HDFS文件系统或其他系统获取数据进行离线大数据处理；Samza是一个分布式流处理框架；Samza使用Kafka进行消息传递；Hadoop YARN提供容错、处理器隔离、安全性和资源管理；Samza处理数据流时，会分别按次处理每条收到的消息；Samza的执行与数据流模块都是可插拔式的；

4)管理员能从可视化管理模块查看资源使用情况、任务运行情况、计算处理过程与结果并进行监测与管理。

2.根据权利要求1所述的一种面向物流大数据的处理系统，其特征在于：所述数据存储模块所使用的关系型数据库为MySQL，MySQL负责对订单数据、车辆数据、GPS数据的结构化的物流数据进行持久化，为实时和离线计算集群提供数据资源访问支持；所使用的非关系型数据库为Hbase，Hbase负责持久化电子回单和提供实时计算集群需要的数据资源的访问支持；所使用的分布式文件系统为HDFS，HDFS负责持久化历史数据与日志文件，为离线计算集群提供数据资源的访问支持。

3.根据权利要求1所述的一种面向物流大数据的处理系统，其特征在于：所述数据处理模块用于实时与离线大数据处理，其中实时数据流处理部分采用Samza进行分布式实时计算，包括对物流订单数据进行计数、对实时产生的订单进行车辆匹配、对车辆进行实时的货运路径规划；离线大数据处理部分采用MapReduce方法对批量订单进行车辆匹配、对未来订单产生量进行预测分析、依据车辆轨迹进行网点规划。

4.根据权利要求1所述的一种面向物流大数据的处理系统，其特征在于：所述可视化管理模块根据各个计算集群的状态数据与计算结果进行可视化的界面展示，管理员能随时查阅系统日志，监控大数据平台的运行状态，同时能根据需要手动更改计算任务的配置以适应不同场景的需求，也能手动开启和关闭任务对平台进行调度管理。

5.利用权利要求1～4任一项所述的一种面向物流大数据的处理系统的面向物流大数据的处理方法，其特征在于包括以步骤：

2)实时计算部分：Samza集群订阅Kafka数据流进行实时数据流处理，处理内容包括实时应用任务与持久化物流数据两部分，处理时需求的资源来自Hbase数据库、MySQL数据库或其他系统，所述其他系统包括GIS系统；离线计算部分：MapReduce集群能通过访问MySQL数据库、Hbase数据库、HDFS文件系统或其他系统获取数据进行离线大数据处理；

6.根据权利要求5所述的面向物流大数据的处理方法，其特征在于：步骤1)中，外部源以Flume源识别的格式向Flume发送事件；当Flume源接收到一个事件时，它将其存储到一个或多个通道；该通道是一个被动存储，保持事件，直到它被Flume sink消耗；Kafka拥有一个主题的概念，每一个主题是一些被预定义好的记录的分类；每个主题都可以拥有多个分区来进行维护，使系统稳定；Kafka集群需要依赖Zookeeper集群进行分布式应用程序协调。

7.根据权利要求6所述的面向物流大数据的处理方法，其特征在于：步骤2)中，Samza是一个分布式流处理框架；Samza使用Kafka进行消息传递；Hadoop YARN提供容错、处理器隔离、安全性和资源管理；Samza处理数据流时，会分别按次处理每条收到的消息；Samza的执行与数据流模块都是可插拔式的。