CN108804347A

CN108804347A - 一种用于工业大数据汇聚的缓存层、汇聚系统及方法

Info

Publication number: CN108804347A
Application number: CN201710311580.XA
Authority: CN
Inventors: 惠恩明; 杨建中; 冯冰艳; 李沈; 董放
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-05-05
Filing date: 2017-05-05
Publication date: 2018-11-13

Abstract

本发明公开了一种用于基于分布式计算技术的数据汇聚系统中的缓存层，包括：用于存储采集层所采集的数据的一级缓存；与所述一级缓存通信连接的二级缓存，用于拉取所述一级缓存中达到设定阈值的数据。本发明还提供一种用于基于分布式计算技术的数据汇聚系统及数据汇聚方法。本发明在采集层与分布式计算存储层之间设置两级缓存层，并在分布式计算存储层的写入端集成分布式计算框架实现数据的并行拉取与写入，是为智能工厂大数据中心建设进行指导的根本性方案。由此解决现有技术中数控设备或系统的数据采集仍然处于离散状态，无法形成一个有机整体的技术问题和采集/存储速度低下的效率问题。

Description

一种用于工业大数据汇聚的缓存层、汇聚系统及方法

技术领域

本发明属于数控系统数据采集与存储技术领域，更具体地，涉及一种用于基于分布式计算技术的数据汇聚系统中的缓存层、基于分布式计算技术的数据汇聚系统及数据汇聚方法。

背景技术

在新一代信息技术的推动下，以“工业4.0”、工业互联网等创新风潮为代表的德国、美国等制造强国，纷纷掀起以智能制造为特征的新一轮产业革命。中国也相继提出了“中国制造2025”战略规划促进其制造业从低端向中高端转型升级。“工业4.0”、“互联网+”和“中国制造2025”的核心都是智能工厂，智能工厂的构建首先是以信息物理系统(Cyber-physical System，CPS)为核心的，而各系统中采集、保存、运行的数据又是构成信息物理系统的基础，所以工业大数据是实现智能制造的根本，在智能工厂的构建中起着基础性、决定性的作用。

在传统制造转型为智能制造的过程中，数控机床、机器人、智能汽车、无人机等数控设备及系统已成为了制造业中最基础的制造装备。数控设备可产生多种多样的数据信息，除了设备上集成的各类传感器采集到的数据，还有数控系统加工过程中所产生的海量电控数据，包括加工程序信息、运动轴状态数据、主轴状态数据、数控设备操作状态数据和运行状态数据等，这些数据在生产状态实时监控、数控设备故障诊断及预警、产品加工质量分析及优化等方面都发挥着关键作用，并且能帮助管理者更好地分析、决策生产信息，及时预判并解决生产故障，实现智能工厂生产过程的智能管理，因此，对数控设备加工过程中的海量数据进行有效的收集与存储对实现智能制造至关重要。

工业数据具有产生频率高、单条数据量小、时序性严格、数据海量等特点。目前，大部分数控厂家采集架构一般如图1所示，包括设备层1、采集层2、数据存储层3和管理层4，各层之间通过网络进行交互，其中，设备层1是具有同类数控系统的数控设备集群，采集层2负责收集生产线各类数据信息，存储层3负责工业数据的存储，管理层4集成了对工厂生产过程的监视、管理、统计分析等各种应用。这种基于网络的数据采集方式较传统的基于串口的数据采集方式有一定的先进性，但在工业级数据的处理上，依然存在有很多弊端：第一，工业大数据单条数据量小、采集频率高、数据密度极大的特点，导致采用传统的数据采集技术会产生过高的响应延迟；第二，频繁的网络交互也会导致严重的网络拥塞，不利于整个系统资源的充分利用，采集效率低下；第三，工业大数据对数据完备性的要求很高，而生产线环境复杂，网络性能波动较大，上述方案难以保证数据传输的完整性，数据丢失的可能性很大，导致管理层做出错误的决策，影响生产线的正常运行；第四，目前这种即采即存的方式形成频繁的磁盘I/O交互，系统抵抗数据波动的能力差，也会造成数据的丢失。数据汇聚技术可以为上述问题提供有效的解决方法，数据汇聚有较强的针对性，对不同的数据量、数据密度、汇聚内容都应采取不同的汇聚系统架构，其中所涉及的数据采集方式、数据传输方式、中间缓存方式、数据存储方式都不尽相同。当前，数据汇聚技术在互联网领域应用较多，但是在工业场景下还没有得到深度应用，因此针对数控领域工业级的海量数据，设计高效的大数据采集与汇聚系统是将数据科学引入制造行业的第一步，对推进传统制造业转型升级具有十分重要的意义。

另外，由于各种各样的加工需求，各企业的数控设备，尤其是数控系统也往往由多个厂家所提供，而不同系统的开放性并不一致，其通信接口、交互协议、以及各类数据的采集实时性也存在差异，导致企业对不同类的数控设备必需使用不同的数据采集方案，甚至由于不同部门间对同一类数据的需求差异，也需采用不同的数据收集与存储方式。所以，目前这种各类数据信息的“私有化”、不透明、需求多样等特点，形成了以实际应用为导向的各种工业数据采集方案孤立并存的现象，导致数控设备的管理仍然处于离散状态，无法形成一个有机的整体，因此智能工厂的构建亟需为异构的数控系统集群实现一种高效统一的大数据采集与汇聚方法。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种用于数据汇聚系统的缓存层、数据汇聚系统及汇聚方法，在采集层与分布式计算存储层之间设置两级缓存层，并在分布式计算存储层的写入端集成分布式计算框架实现数据的并行拉取与写入，为智能工厂异构数控设备的数据采集与管理提供了一种高效统一的可实施方案。由此解决现有技术中数控设备的数据采集仍然处于离散状态，无法形成一个有机整体的技术问题和采集/存储速度低下的效率问题。

为实现上述目的，按照本发提供了：(1)一种用于基于分布式计算技术的数据汇聚系统中的缓存层，包括：一级缓存，用于存储采集层所采集的数据；二级缓存，所述二级缓存与所述一级缓存通信连接，用于拉取所述一级缓存中达到设定阈值的数据。

(2)根据(1)所述的缓存层，其特征在于：所述一级缓存能够根据数控设备/数控系统的唯一的标识信息识别所述采集层所采集的数据的来源。

(3)根据(2)所述的缓存层，其特征在于：所述一级缓存包括多个第一数据库，每一个所述第一数据库根据所述识别的结果对应的所述数据的来源存储所述采集层所采集的数据。

(4)根据(1)或(2)任意一项所述的缓存层，其特征在于：所述一级缓存，还用于将所述采集层所采集的数据分为固有数据、热数据和冷数据。

(5)根据(4)所述的缓存层，其特征在于：所述二级缓存，用于将所述一级缓存中所述采集层所采集的数据分为覆盖型数据和累计型数据；其中，所述覆盖型数据为始终保持最后一次的采集状态的数据，所述累计型数据为随着采集时间的推移而不断追加的数据。

(6)根据(5)所述的缓存层，其特征在于：所述二级缓存，还用于监控所述一级缓存中各第一数据库中的累计型数据的数据量大小，并在所述第一数据库中所述累计型数据的数据量达到预设阈值时，将所述第一数据库中的所述累计型数据从所述一级缓存中拉取出来并持久化化至分布式计算存储层中。

(7)根据(5)所述的缓存层，其特征在于：所述累计型数据以管道的方式在所述一级缓存和所述二级缓存之间传输。

(8)根据(5)所述的缓存层，其特征在于：所述一级缓存在所述缓存层退出或数据量波动时将所述累计型数据固化至本地磁盘一次，待系统恢复后，再将所述累计型数据上传至分布式计算存储层。

本发明另一方面提供了(9)一种基于分布式计算技术的数据汇聚系统，包括：采集层，用于从设备层中获取各数控设备的加工数据，并向缓存层传输各数控设备的加工数据；如第(1)～(8)项所述的缓存层；分布式计算存储层，接收并存储所述缓存层写入的各数控设备的加工数据。

(10)根据(9)所述的数据汇聚系统，其特征在于：所述采集层能够兼容地对多个具有不同通信方式、采集协议和/或数据结构等的数控设备采集所述加工数据。

(11)根据(9)～(10)任意一项所述的数据汇聚系统，其特征在于：所述分布式计算存储层与所述缓存层的二级缓存位于分布式计算存储集群中；其中，所述分布式计算存储集群包括多个节点；所述第二数据库用于拉取对应所述第一数据库中的累计型数据，并将所述累计型数据传输至分布式计算存储层进行持久存储。

(12)根据(11)所述的数据汇聚系统，其特征在于：所述分布式计算存储集群能够将数据从所述一级缓存向所述分布式计算存储层的汇聚任务分成多个子任务同时进行，每个子任务划分为两个线程同时进行，其中一个线程将所述一级缓存中各第一数据库中达到预设阈值的累计型数据拉取到所述二级缓存的第二数据库中，另一个线程将所述二级缓存的第二数据库中的数据持久化到所述分布式计算存储层的磁盘中。

(13)根据(12)所述的数据汇聚系统，其特征在于：所述二级缓存根据固有数据、热数据和冷数据的数据量的增长速度，将所述一级缓存中所述采集层所采集的数据分为覆盖型数据和累计型数据；所述累计型数据以管道的方式在所述一级缓存、所述二级缓存和所述分布式计算存储层之间流动；其中，所述一级缓存到所述二级缓存的管道流速取决于所述节点间的网络带宽，所述二级缓存到所述分布式计算存储层的管道流速取决于磁盘写入速度。

本发明再一方面还提供了(14)一种基于分布式计算技术的数据汇聚方法，包括：根据每一台数控设备或者数控系统的唯一的标识信息识别所采集的数据的来源；将所述所识别的数据发送给缓存层，其中所述缓存层中的一级缓存接收所述所识别的数据并存储在相应的第一数据库中，所述缓存层中的二级缓存监视所述一级缓存的第一数据库中的累计型数据；当所述一级缓存的第一数据库中的所述累计型数据达到预设阈值时，所述二级缓存从所述一级缓存拉取所述累计型数据并持久化到分布式计算存储层中。

(15)根据(14)所述的数据汇聚方法，其特征在于：

所述一级缓存具有多个所述第一数据库，并根据数据的来源的识别结果，将所述数据存储到对应的所述第一数据库中；所述二级缓存将从所述一级缓存中达到设定阈值的累计型数据拉取到所述第二数据库中。

(16)根据(15)所述的数据汇聚方法，其特征在于：

所述二级缓存将所存储的所述读取的累计型数据传输至分布式计算存储层传输，根据所述累计型数据的来源的识别结果将所述累计型数据永久化至磁盘中。

(17)根据(16)所述的数据汇聚方法，其特征在于：将数据从所述一级缓存向所述分布式计算存储层的汇聚任务分成多个子任务同时进行，每个子任务划分为两个线程同时进行，其中一个线程将所述一级缓存中各第一数据库中达到预设阈值的累计型数据拉取到所述二级缓存的第二数据库中，另一个线程将所述二级缓存的第二数据库中的数据持久化到所述分布式计算存储层中。

(18)根据(14)～(17)任意一项所述的数据汇聚方法，其特征在于：采集设备层中的数控设备所产生的数据；其中，采集层能够兼容地对多个具有不同通信方式、采集协议和/或数据结构等的数控设备进行数据采集。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，主要有以下的技术优点：

(1)缓存层基于两层内存数据库，减少了数据传输过程中的网络阻塞，避免了频繁的磁盘I/O操作，提升了整个数据汇聚系统的效率与稳定性。

(2)本发明中的分布式计算存储集群集成了分布式并行计算引擎，实现了大数据汇聚任务(包括数据拉取和持久化)的并行化执行，极大的提升了工业级大数据的汇聚速度。

(3)本发明的工业大数据汇聚系统，将智能工厂加工设备的数据采集速度提高到了ms级，并提供7×24小时的不间断服务，实现了工业数据采集的高密度和大数据量，真正做到了工业级海量数据的管理，这在目前常用的数据采集方案中是难以达到的。

(4)采集层可以兼容多种类型的数控设备或系统，包括各类国产数控系统、FUNUC、SIEMENS、机器人等，即本发明可以兼容各种数控设备或系统的各种二次开发接口与采集协议等，为智能工厂异构数控系统群提供了一种统一的数据采集和汇聚方法，该方法也是对智能工厂大数据中心建设进行指导的根本性方法。

附图说明

图1为现有技术的数控系统数据采集系统的结构示意图；

图2为本发明实施例的基于分布式计算技术的工业大数据汇聚系统的结构示意图；

图3为本发明实施例的另一种基于分布式计算技术的工业大数据汇聚系统的结构示意图；

图4为本发明实施例所涉及的几种典型数据类型示意图；

图5为本发明实施例的基于分布式计算技术的工业大数据汇聚系统架构示意图；

图6为本发明实施例的基于分布式计算技术的工业大数据汇聚系统的数据流动示意图；

图7为本发明实施例的基于分布式计算技术的工业大数据汇聚系统的数据采集流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图2所示为本发明实施例的基于分布式计算技术的工业大数据汇聚系统的结构示意图。如图2所示，本发明的工业大数据汇聚系统包括：设备层21、采集层22、缓存层23、分布式计算存储层25以及服务管理层24。其中，上述设备层21和上述采集层22、上述采集层22和上述缓存层23、上述缓存层23和上述服务管理层24、以及上述缓存层23和上述分布式计算存储层25之间分别进行相互通信连接，使得相关层之间能够进行数据交互。上述的通信连接包括但不限于计算机通信网络、移动通信网络、例如射频和蓝牙等无线通信、以及有线通信等中的一种或者他们之间的任意组合方式。

在本发明的上述实施例中，上述设备层21用于集成多个类型相同和/或不同的数控设备或系统。优选地，每个数控设备或系统具有唯一的标识信息。其中，各类数控设备可以包括但不限于普通机床、加工中心和机器人等，数控设备所采用的数控系统可以包括但不限于各类国产数控系统、FUNUC、SIEMENS、Mazak等。

在本发明的上述实施例中，上述采集层22用于从上述设备层21中获取各数控设备的加工数据，并向上述缓存层23传输各数控设备或系统的加工数据。优选地，上述采集层22可以兼容任何数控设备、任何采集协议和任何采集接口等。在现有技术中，由于各类数控设备的采集协议存在不同，使用现有技术中的采集层2，设备层1只能选用具有相同采集协议的单一类型的数控设备或系统，从而使得针对具有不同采集协议的不同数控设备或系统使用不同的工业数据汇聚系统，限制了设备层1的数控设备或系统的采购范围，增加了工业成本。然而，在本发明中，上述采集层22可以兼容任何数控设备或系统、任何采集协议和任何采集接口等，从而解决了现有技术中所存在的上述问题，大大降低了成本。

在本发明的上述实施例中，上述缓存层23用于分别对来自上述采集层22的每个数控设备或系统的加工数据进行累计缓存，并在对单个数控设备或系统累计缓存的数据量达到预设阈值时，将该数控设备或系统的加工数据拉取出来并持久化至分布式计算存储层25。

在本发明的上述实施例中，上述分布式计算存储层25接收并存储上述缓存层23写入的各数控设备或系统的加工数据，主要用于工业级海量数据的持久化存储，所述分布式计算存储层利用分布式并行计算技术，实现了数据储存流程的并行化执行。

在本发明的上述实施例中，上述服务管理层24用于从上述缓存层23读取加工数据作为各种智能化模块的源数据。优选地，上述各种智能化模块可以根据用户的需求进行集成，其从上述缓存层23中读取数据信息，必要时进行分析输出，实现工业大数据的可视化应用。

如图3所示，为本发明实施例的另一种基于分布式计算技术的工业大数据汇聚系统的结构示意图。如图3所示，上述缓存层23包括一级缓存231和二级缓存232。上述一级缓存231和上述二级缓存232之间可以进行相互通信连接，从而两者之间能够进行数据交互；上述一级缓存231与上述服务管理层24进行相互通信连接，从而两者之间进行数据交互，使得上述服务管理层24能够直接地从上述一级缓存231中读取数据；上述二级缓存232与上述分布式计算存储层25之间可以进行相互通信连接，从而两者之间能够进行数据交互，使得上述分布式计算存储层25能够直接从上述二级缓存232中读取数据。上述的通信连接包括但不限于计算机通信网络、移动通信网络、例如射频和蓝牙等无线通信、以及有线通信等中的一种或者他们之间的任意组合方式。

工业大数据具有多设备来源的特点，每一类数控系统都有其独有的数据信息和数据结构，如何将待采集的海量数据进行统一分类，是实现异构数控系统中形成各类数据信息有效整合的关键，也是工业大数据汇聚系统的基础。

如图4所示的本发明实施例所涉及的几种典型数据类型，上述一级缓存231根据数据的实时性要求可以将数据分为固有数据(Once Data)、热数据(Hot Data)和冷数据(ColdData)三类。其中，固有数据类是数控设备或系统的固有信息，包括IP地址、SN码、NCK版本号、DRV版本号、PLC版本号、CNC版本号、NC版本号等，只在系统上电后读取一次；热数据类的数据实时性较强，包括轴信息、报警信息、寄存器值、采样数据、通道数据等，采用遍历的方式进行循环不间断采集；冷数据类数据的实时性低，包括PLC信息、刀具信息、G代码等，采集周期可由用户自行设置。以上三类数据可以覆盖智能工厂可能涉及的所有数据类型。

以下返回图3。上述二级缓存232根据固有数据、热数据以及冷数据的数据量的增长速度，将上述一级缓存231中的数据分为覆盖型数据和累计型数据，覆盖型数据始终保持最后一次的采集状态(如刀具信息)，增长速度极慢，而累计型数据会随着采集时间的推移而不断追加(如采样数据)，增长速度极快，为了使上述一级缓存231避免因内存溢出而导致系统崩溃，上述二级缓存232便负责拉取上述一级缓存231中各数据库中达到预设阈值(以下称为block阈值)的累计型数据，避免上述一级缓存231因内存溢出而崩溃，并将数据持久化至上述分布式计算存储层25。上述二级缓存232的一个重要作用是实现数据拉取与持久化的双线程操作。

图5为本发明实施例的基于分布式计算技术的工业大数据汇聚系统架构图。如图5所示，本发明的大数据汇聚系统与传统的数据采集系统最大的区别是：上述采集层22的高度兼容性、上述缓存层23的引入、以及分布式计算存储集群7的设计。其中，上述分布式计算存储集群7包括上述二级缓存232和分布式计算存储层25。

在本发明的上述实施例中，上述采集层22可以兼容各种数控设备或系统，也就是说适用于各种采集协议、各种数据接口、各种数据结构等，有效的将所有异构数控设备或系统形成有机整体，实现智能工厂工业大数据的统一采集，将采集到的数据分别写入上述一级缓存231相应的数据库。

在本发明的上述实施例中，上述缓存层23的实质是两层内存数据库，目的是应对工业大数据采集的难点，因为工业大数据具有单条数据量小、采集频率高、数据密度大的特点，现有技术中的主流数据采集方案一般采用频繁的磁盘读写，但是频繁的磁盘读写会严重影响并发随机访问的响应速度，采用基于磁盘的数据库技术便会导致很高的响应延迟，严重影响数据汇聚的效率，所以传统的工业数据采集方案不能满足海量数据汇聚的要求，这也凸显了本发明中的上述缓存层23的特有结构设计的作用与优势：一是基于内存的数据读写速度远远高于磁盘读写，系统的数据流速快；二是数据缓存和批量持久化的策略有效减少了网络阻塞，系统的稳定性高；三是数据采集服务不会因后端存储设备故障立即中断，系统的容错性较高，数据丢失率小；四是上述一级缓存231会在上述缓存层23退出或大数据量波动时将累计型数据固化至本地磁盘一次，待系统恢复后，再将数据上传至上述分布式计算存储层25，数据的完备性高。

在本发明的上述实施例中，为了保证数控设备或系统的数据不被混淆，上述一级缓存2331为上述设备层21的每一个数控设备或系统都设置有一个唯一的数据库(Database)，即不同数控设备或系统的数据通过不同的数据库(内存数据库DB1、DB2、DB3、……、DBn)进行隔离，单台数控设备或系统的数据在一个数据库中以时序关系链式存储至一个“清单(List)”中以保证数据的时序性，上述服务管理层24与上述二级缓存232都是从这些数据库(内存数据库DB1、DB2、DB3、……、DBn)中拉取相应的数据。

前文提到，本发明中的上述一级缓存231有覆盖型数据和累计型数据，对于覆盖型数据而言，新采集周期的数据会不断覆盖前一个采集周期的数据，数据量不会有很大的起伏，而累积型数据的数据量则会不断增加，如果不及时处理就会引起上述缓存层23内存溢出，导致整个大数据汇聚系统崩溃，因此本发明实施例中基于超高速缓冲存储机制(memorycache)将高频密集的累计型数据缓存成单个的数据块(即block块)，汇聚系统运行过程中始终监控上述一级缓存231中各个数据库的大小，当其累计型数据量达到设定的数据块阈值后，这部分数据便被上述二级缓存232拉取出来并持久化至分布式计算存储层中。上述二级缓存232的主要作用是实现数据拉取与写入的双线程执行。

上述分布式计算存储集群7作为上述二级缓存232和上述分布式计算存储层25的载体，由多个节点1、2、3、……、m通过可通信互连而成，所述节点1、2、3、……、m可以是真实的物理个体(包括服务器、台式电脑、笔记本电脑等)，也可以是虚拟机等。物理上，上述二级缓存232设置在上述分布式计算存储集群7；逻辑上，上述二级缓存232位于上述一级缓存231和上述分布式计算存储层232之间，其主要作用是实现数据拉取与持久化的双线程运作，即其中一个线程将上述一级缓存231的内存数据库DB1、DB2、DB3、……、DBn中达到数据块阈值的累计型数据拉取到上述二级缓存232中；另一个线程将上述二级缓存232中所有节点上对应的内存数据库持久化到上述分布式计算存储层25中，即一级缓存231的多个内存数据库DB1、DB2、DB3、……、DBn中的达到设定阈值的累计型数据，通过调度算法随机被拉取到所述二级缓存232所在的节点上，也就是说上述二级缓存232的每个节点拉取的所述一级缓存231的内存数据库(DB1、DB2、DB3、……、DBn)及其数量都是由上述调度算法随机调度的。为了保证大数据汇聚的效率，上述调度算法会使上述二级缓存232的所有节点尽量均参与汇聚运算。经试验验证显示，数据拉取和写入并行操作的效率比顺序执行提高了20％-30％。

上述分布式计算存储集群7利用分布式并行计算技术，为大数据汇聚系统提供强大的数据计算能力，实现了大数据汇聚任务的并行化执行，也就是将数据从上述二级缓存232向上述分布式计算存储层25的拉取与持久化任务分成多个子任务(Task)同时进行。另外，针对工业数据的数据量大、增长速度快等特点，本发明实施例中的上述分布式计算存储层25的后端采用了分布式存储技术，上述分布式计算存储集群7所有节点对应的磁盘为二级缓存拉取的所有累计型数据形成分布式存储系统，为汇聚系统提供了海量并可弹性扩展的存储资源池，其故障切换与规避机制、副本机制等可保证数据存储的安全、稳定、灵活。

上述服务管理层24是本发明实现智能制造大数据挖掘的可视化实施手段，服务管理层可以是各种智能化软件，如生产线智能管理系统、生产线实时监控系统、G代码管理系统等，有数据需求时，其直接从一级缓存中读取数据，这在保持很高的数据获取速度的同时，也减少了与分布式计算存储层的交互，有效提高了存储系统的稳定性。

图6为本发明实施例的基于分布式计算技术的工业大数据汇聚系统的数据流动示意图。如图6所示，累计型数据由上述设备层21通过上述采集层22采集至上述一级缓存231，然后刷新至上述二级缓存232，并从上述二级缓存232持久化至上述分布式计算存储层25。即汇聚系统的数据是以管道的方式在流动，那么汇聚系统的数据汇聚能力便取决于数据管道的流速。其中，上述一级缓存231到上述二级缓存232的管道流速取决于上述节点间的网络带宽，上述二级缓存232到上述分布式计算存储层25的管道流速取决于磁盘写入速度。因此，汇聚系统数据管道的最大流速遵循以下法则：管道最大流速＝min{网络带宽，磁盘最大写入速度}。

图7为本发明实施例的基于分布式计算技术的工业大数据汇聚系统的数据采集流程图。如图7所示，上述采集层22采集上述设备层21中的数控设备或系统所产生的数据(步骤S1)，上述采集层22根据每一台数控设备或系统的唯一的标识信息识别所采集的数据的来源(步骤S2)。上述采集层22将上述所识别的数据发送给上述缓存层23，上述缓存层23中的上述一级缓存231接收上述所识别的数据，并将上述所接收的数据根据识别的结果分别存储在相应的内存数据库DB1、DB2、DB3、……、DBn(步骤S3)。上述二级缓存232监视上述一级缓存231中的累计型数据，并分别判断上述内存数据库DB1、DB2、DB3、……、DBn中的数据量是否超过预设阈值(数据块阈值)(步骤S4)。如果上述内存数据库DB1、DB2、DB3、……、DBn中任一个的数据量未超过上述预设阈值(步骤S4：否)，则上述二级缓存232不从上述一级缓存231拉取上述数据；如果上述内存数据库DB1、DB2、DB3、……、DBn中任一个的数据量超过上述预设阈值(步骤S4：是)，则上述二级缓存232将超过预设阈值的数据库中的数据从上述一级缓存231中拉取出来(步骤S5)。然后，上述二级缓存232将拉取出来的数据向上述分布式计算存储层25传输，上述分布式计算存储层25将所收到的数据永久化至磁盘中(步骤S6)。

在上述步骤S2中，由上述采集层22根据每一台数控设备或系统的唯一的标识信息识别所采集的数据的来源。但是，在本发明中并不限于此，在上述步骤S2中，可以由上述一级缓存231根据每一台数控设备或系统的唯一的标识信息识别所采集的数据的来源。

本发明公开的基于分布式计算技术的工业大数据汇聚系统为智能工厂提供了一种统一的数据采集与管理方法，可以为生产设备提供7×24小时不间断的数据采集服务，是可以在异构数控设备或系统集群中有效实施的，彻底打破工厂信息化孤岛，成功将大数据采集的频率提高至ms级。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于基于分布式计算技术的数据汇聚系统中的缓存层，其特征在于，包括：

一级缓存，用于存储采集层所采集的数据；

二级缓存，所述二级缓存与所述一级缓存通信连接，用于拉取所述一级缓存中达到设定阈值的数据。

2.根据权利要求1所述的缓存层，其特征在于：所述一级缓存能够根据数控设备/数控系统的唯一的标识信息识别所述采集层所采集的数据的来源。

3.根据权利要求2所述的缓存层，其特征在于：所述一级缓存包括多个第一数据库，每一个所述第一数据库根据所述识别的结果对应的所述数据的来源存储所述采集层所采集的数据。

4.根据权利要求1或2所述的缓存层，其特征在于：所述一级缓存，还用于将所述采集层所采集的数据分为固有数据、热数据和冷数据。

5.根据权利要求4所述的缓存层，其特征在于：所述二级缓存，用于将所述一级缓存中所述采集层所采集的数据分为覆盖型数据和累计型数据；其中，所述覆盖型数据为始终保持最后一次的采集状态的数据，所述累计型数据为随着采集时间的推移而不断追加的数据。

6.根据权利要求5所述的缓存层，其特征在于：所述二级缓存，还用于监控所述一级缓存中各第一数据库中的累计型数据的数据量大小，并在所述第一数据库中所述累计型数据的数据量达到预设阈值时，将所述第一数据库中的所述累计型数据从所述一级缓存中拉取出来并持久化化至分布式计算存储层中。

7.根据权利要求5所述的缓存层，其特征在于，所述累计型数据以管道的方式在所述一级缓存和所述二级缓存之间传输。

8.根据权利要求5所述的缓存层，其特征在于：所述一级缓存在所述缓存层退出或数据量波动时将所述累计型数据固化至本地磁盘一次，待系统恢复后，再将所述累计型数据上传至分布式计算存储层。

9.一种基于分布式计算技术的数据汇聚系统，其特征在于，包括：采集层、权利要求1至8任意一项所述的缓存层以及分布式计算存储层；

所述采集层，用于从设备层中获取各数控设备的加工数据，并向所述缓存层传输各数控设备的加工数据；

分布式计算存储层，用于接收并存储所述缓存层写入的各数控设备的加工数据。

10.根据权利要求9所述的数据汇聚系统，其特征在于：所述采集层能够兼容地对多个具有不同通信方式、采集协议和/或数据结构的数控设备采集所述加工数据。

11.根据权利要求9～10任意一项所述的数据汇聚系统，其特征在于：所述分布式计算存储层与所述缓存层的二级缓存位于分布式计算存储集群中；其中，所述分布式计算存储集群包括多个节点；所述第二数据库用于拉取对应所述第一数据库中的累计型数据。

12.根据权利要求11所述的数据汇聚系统，其特征在于：所述分布式计算存储集群能够将数据从所述一级缓存向所述分布式计算存储层的汇聚任务分成多个子任务同时进行，每个子任务划分为两个线程，其中一个线程将所述一级缓存中各第一数据库中达到预设阈值的累计型数据拉取到所述二级缓存中，另一个线程将所述二级缓存中的数据持久化到所述分布式计算存储层的磁盘中。

13.根据权利要求12所述的数据汇聚系统，其特征在于：所述二级缓存根据固有数据、热数据和冷数据的数据量的增长速度，将所述一级缓存中所述采集层所采集的数据分为覆盖型数据和累计型数据；所述累计型数据以管道的方式在所述一级缓存、所述二级缓存和所述分布式计算存储层之间流动；其中，所述一级缓存到所述二级缓存的管道流速取决于所述节点间的网络带宽，所述二级缓存到所述分布式计算存储层的管道流速取决于磁盘写入速度。

14.一种基于分布式计算技术的数据汇聚方法，其特征在于，包括：

根据每一台数控设备或者数控系统的唯一的标识信息识别所采集的数据的来源；

将所述所识别的数据发送给缓存层，其中所述缓存层中的一级缓存接收所述所识别的数据并存储在相应的第一数据库中，所述缓存层中的二级缓存监视所述一级缓存的第一数据库中的累计型数据；

当所述一级缓存的第一数据库中的所述累计型数据达到预设阈值时，所述二级缓存从所述一级缓存读取所述累计型数据并持久化到分布式计算存储层中。

15.根据权利要求14所述的数据汇聚方法，其特征在于，

所述一级缓存具有多个所述第一数据库，并根据所述累计型数据的来源的识别结果，将所述累计型数据存储到对应的所述第一数据库中；

所述二级缓将从所述一级缓存中达到设定阈值的累计型数据拉取到所述二级缓存中。

16.根据权利要求15所述的数据汇聚方法，其特征在于，

所述二级缓存将所拉取的累计型数据传输至分布式计算存储层传输，其中所述分布式计算存储层具有多个用于存储所述累计型数据的磁盘，根据所述累计型数据的来源的识别结果将所述累计型数据永久化至磁盘中。

17.根据权利要求16所述的数据汇聚方法，其特征在于，将数据从所述一级缓存向所述分布式计算存储层的汇聚任务分成多个子任务同时进行，每个子任务划分为两个线程，其中一个线程将所述一级缓存中各第一数据库中达到预设阈值的累计型数据拉取到所述二级缓存中，另一个线程将所述二级缓存中的数据持久化到所述分布式计算存储层中。

18.根据权利要求14～17任意一项所述的数据汇聚方法，其特征在于，所述方法还包括：

采集设备层中的数控设备所产生的数据；其中，采集层能够兼容地对多个具有不同通信方式、采集协议和/或数据结构的数控设备进行数据采集。