CN106547857A

CN106547857A - 结合心跳和粒度的数据挖掘方法及装置

Info

Publication number: CN106547857A
Application number: CN201610915162.7A
Authority: CN
Inventors: 盛益强; 李超鹏; 王劲林
Original assignee: Institute of Acoustics CAS
Current assignee: Zhengzhou Xinrand Network Technology Co ltd
Priority date: 2016-10-20
Filing date: 2016-10-20
Publication date: 2017-03-29
Anticipated expiration: 2036-10-20
Also published as: CN106547857B

Abstract

本发明涉及一种结合心跳和粒度的数据挖掘方法及装置，方法包括：第一节点获取第一数据集并将所述第一数据集输入到预设模型，对预设模型训练获得第一权重集；依据由粒度约束计算出的心跳频率，第一节点向第二节点发送心跳包后，接收所述第二节点发送的数据请求消息；第一节点根据数据请求消息，向第二节点发送第二数据集以及第一权重集，其中，第二数据集是根据第一数据集稀疏采样获得的；第一节点接收第二节点发送的根据第一权重集部分初始化后再训练的整体模型参数集，并根据整体模型参数集更新所述第一权重集，改善了广域网络环境下大规模数据挖掘的个性化和扩展性，提高了响应精度。

Description

结合心跳和粒度的数据挖掘方法及装置

技术领域

本发明涉及通信领域，尤其涉及一种结合心跳和粒度的数据挖掘方法及装置。

背景技术

随着通信技术的快速发展，特别是随着网络资源的不断丰富，处于网络边缘的用户产生的分布式数据正在快速增加。对于这些大规模的分布式数据，依赖个人经验和手工操作来标注数据、提取特征和挖掘数据的传统方法，已经很难满足快速增长的数据挖掘需求；各种现有的基于单机的数据挖掘方法，受到单机系统内存和计算能力的限制，处理效率低；基于云的数据挖掘方法，受网络带宽资源和数据传输能力的限制，处理效率不高。因此，如何高效处理大规模的分布式数据已经成为一个亟待解决的难题。

深度学习的研究，为解决大数据挖掘问题指出了一个值得探索的方向。深度学习可以从大量数据中自动提取特征，并通过更多的样本训练来获得更好的处理效果。深度学习与大数据是相辅相成的，一方面大数据的快速增长需要一种高效处理海量数据的方法，另一方面深度学习系统的训练需要海量的样本数据。但是，现有的深度学习系统仍然存在很多严重的问题，包括模型难以扩展、参数优化困难、推理效率低下等，特别是如何扩展现有的分布式系统和数据集规模，是目前深度学习系统所面临的最大的挑战之一。

目前的分布式深度学习方法可以分为数据分布式和模型分布式。数据分布式是将训练数据进行划分，在集群内不同的机器上使用不同的数据对同一模型进行训练，训练完成后将各自训练得到的模型参数进行汇聚、处理后得到完整的模型参数。模型分布式是将一个大规模的深度学习模型按照层次或者神经元数目对一个完整的模型进行划分，在集群内的每一个机器负责训练模型中的一部分，训练完成后将各个部分训练得到的模型参数进行汇聚，最后得到一个完整的深度学习模型。分布式深度学习方法，解决了单个计算节点内存不足的问题，并且利用多机并行，降低模型的训练时间。但是，在广域分布式的网络环境中，需要通过网络来进行训练数据和模型参数的传输，如何保障传输数据的安全，并降低通信代价，提高通信效率，对分布式深度学习系统的效率至关重要。

现有的Spark分布式框架、Apache开发的Hadoop架构、百度开发的参数服务器架构、腾讯开发的Mariana架构等，就是针对大规模数据挖掘而做出的一些尝试。然而，以上的这些分布式学习系统的多机之间存在大量的数据通信，导致这些系统目前很难应用于地理分布式的广域网络。终端用户想要获得响应必须先将数据传输到中心集群上，然后中心集群再将生成的响应发送给终端用户，因此针对用户端的响应延迟很长且通信代价也难以降低。特别是，当使用深度学习方法处理分布式数据时，由于很多分布式数据会带有个性化特征，而导致针对个性化用户的响应精度难以改善。

发明内容

本发明的目的是解决分布式数据带有个性化特征时，个性用户的响应精度低的问题。

第一方面，本发明提供了一种结合心跳和粒度的数据挖掘方法，所述方法包括：第一节点获取第一数据集并将第一数据集输入到预设模型，对预设模型训练获得第一权重集；依据由粒度约束计算出的心跳频率，所述第一节点向第二节点发送心跳包后，接收所述第二节点发送的数据请求消息；第一节点根据数据请求消息，向第二节点发送第二数据集以及第一权重集，其中，第二数据集是根据所述第一数据集稀疏采样获得的；第一节点接收第二节点发送的根据第一权重集部分初始化后训练的整体模型参数集，并根据整体模型参数集更新第一权重集。

优选地，所述第一节点获取第一数据集具体包括：第一节点设定采集频率和/或采集网络数据类型；第一节点根据所述采集频率和/或采集网络数据类型，获取数据链路层源数据；第一节点通过IP重组以及TCP/IP协议，获取网络层源数据以及应用层源数据；第一节点对所述数据链路层源数据、网络层源数据以及应用层源数据进行解析，获取所述数据链路层源数据、网络层源数据以及应用层源数据分别对应的流量特征参数；根据所述数据链路层源数据、网络层源数据以及应用层源数据分别对应的流量特征参数，所述第一节点对所述数据链路层源数据、网络层源数据以及应用层源数据进行清洗、归一化处理，获得第一数据集。

优选地，第一节点根据所述数据请求消息，向所述第二节点发送第二数据集以及第一权重集，其中，所述第二数据集是根据所述第一数据集稀疏采样获得的具体包括：第一节点根据时间维度，稀疏化采样所述第一数据集，生成第二数据集；第一节点按照类型-长度-值TLV格式封装所述第二数据集、第一权重集；所述第一节点将封装后的所述第二数据集、第一权重集发送给第二节点。

优选地，所述第一节点接收所述第二节点发送的根据所述第一权重集部分初始化后训练的整体模型参数集，并根据所述整体模型参数集更新所述第一权重集之后还包括：根据所述整体模型参数集，所述第一节点更新所述预设模型，并根据更新后的所述预设模型，训练得到第二权重集。

优选地，利用公式判断所述预设模型是否满足粒度约束，当G大于1时，所述预设模型满足粒度约束；当G不大于1时，所述预设模型不满足粒度约束；其中，G为分布式深度学习系统的粒度；T_cal为在单机上进行模型计算的时间；T_com为在不同机器之间进行数据和参数传输的时间。

第二方面，本发明提供了一种结合心跳和粒度的数据挖掘装置，其特征在于，所述装置包括：获取单元，第一接收单元，发送单元，第二接收单元；其中，所述获取单元，用于获取第一数据集并将所述第一数据集输入到预设模型，以利用所述预设模型训练获得第一权重集；所述第一接收单元，用于依据由粒度约束计算出的心跳频率，向第二节点发送心跳包后，接收所述第二节点发送的数据请求消息；所述发送单元，用于根据所述数据请求消息，向所述第二节点发送第二数据集以及第一权重集，其中，所述第二数据集是根据所述第一数据集稀疏采样获得的；所述第二接收单元，用于接收所述第二节点发送的根据所述第一权重集部分初始化后训练的整体模型参数集，并根据所述整体模型参数集更新所述第一权重集。

优选地，所述获取单元具体用于，设定采集频率和/或采集网络数据类型；根据所述采集频率和/或采集网络数据类型，获取数据链路层源数据；通过IP重组以及TCP/IP协议，获取网络层源数据以及应用层源数据；对所述数据链路层源数据、网络层源数据以及应用层源数据进行解析，获取所述数据链路层源数据、网络层源数据以及应用层源数据分别对应的流量特征参数；根据所述数据链路层源数据、网络层源数据以及应用层源数据分别对应的流量特征参数，对所述数据链路层源数据、网络层源数据以及应用层源数据进行清洗、归一化处理，获得第一数据集。

优选地，所述发送单元具体用于，根据时间维度，稀疏化采样所述第一数据集，生成第二数据集；按照TLV格式封装所述第二数据集、第一权重集；将封装后的所述第二数据集、第一权重集发送给第二节点。

优选地，所述装置还包括：更新单元；所述更新单元具体用于，根据所述整体模型参数集，更新所述预设模型，并根据更新后的所述预设模型，训练得到第二权重集。

应用本发明实施例提供的结合心跳和粒度的数据挖掘方法，第一节点获取第一数据集并将所述第一数据集输入到预设模型，对预设模型训练获得第一权重集；依据由粒度约束计算出的心跳频率，第一节点向第二节点发送心跳包后，接收所述第二节点发送的数据请求消息；第一节点根据数据请求消息，向第二节点发送第二数据集以及第一权重集，其中，第二数据集是根据第一数据集稀疏采样获得的；第一节点接收第二节点发送的根据第一权重集部分初始化后再训练的整体模型参数集，并根据整体模型参数集更新所述第一权重集，改善了广域网络环境下大规模数据挖掘的个性化和扩展性，提高了响应精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明实施例提供的一种结合心跳和粒度的数据挖掘方法流程图；

图2为本发明实施例提供的第二节点训练整体模型参数集的流程图；

图3为本发明实施例提供的外部环境、边缘节点、中心节点的交互图；

图4为本发明实施例提供的结合心跳和粒度的数据挖掘装置示意图；

图5为本发明实施例提供的又一结合心跳和粒度的数据挖掘装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

当本发明实施例提及“第一”、“第二”等序数词时，除非根据上下文其确实表达顺序之意，应当理解为仅仅起区分的作用。

图1为本发明实施例提供的一种结合心跳和粒度的数据挖掘方法流程图，图1的应用场景为广域分布式网络。如图1所示，本实施例包括以下步骤。

S110，第一节点获取第一数据集并将第一数据集输入到预设模型，对预设模型训练获得第一权重集。

其中，第一节点包括但不限于边缘服务器，边缘路由器、手机终端中的一个或其任意组合。

具体地，首先第一节点设定采集频率和/或采集网络数据类型；再根据采集频率和/或采集网络数据类型，获取数据链路层源数据；再通过IP重组以及TCP/IP协议，获取网络层源数据以及应用层源数据；再对数据链路层源数据、网络层源数据以及应用层源数据进行解析，获取数据链路层源数据、网络层源数据以及应用层源数据分别对应的流量特征参数；再根据数据链路层源数据、网络层源数据以及应用层源数据分别对应的流量特征参数，对数据链路层源数据、网络层源数据以及应用层源数据进行清洗、归一化处理，获得第一数据集。

其中，流量特征参数包括但不限于平均流量、到达率、最大包长。

下面将对预设模型训练得到第一权重集进行进一步的说明。

其中，预设模型包括但不限于受限波尔兹曼机(RBM)模型，下面，以预设模型为RBM模型为例进行说明。

第一数据集X{X1,X2,X3,…,Xn}包括n种多源异构数据，其中Xn为一段时间内采集的某一类网络数据。以X作为输入采用RBM模型进行无监督特征提取时，首先初始化m个RBM模型，将m个RBM模型中每个模型的节点权重W_E全部置零；然后以吉布斯采样后自由能最小化为目标函数，以第一数据集X中的多源数据分别作为m个RBM模型的输入，训练采样权重W_E；当目标函数值达到既定值，停止训练，最后等到训练后第一权重集W’，W’_i为第i个RBM模型训练后的权重。第一权重集记为W’＝{W’₁,W’₂,W’₃,…,W’_m}，其中W’_m为第m个RBM模型的训练后权重。

S120，依据由粒度约束计算出的心跳频率，第一节点向第二节点发送心跳包后，接收第二节点发送的数据请求消息。

其中，第二节点包括但不限于云服务器、数字中心服务器中的任意一种。

第一节点向第二节点发送心跳包以确认该第一节点是否处于在线状态，以确保链接的有效性。其中，第一节点依据由粒度约束计算出的心跳频率，向第二节点发送心跳包，该心跳包是自定义的结构体，该心跳包也可以是心跳帧，本发明对此并不做限制。

S130，第一节点根据数据请求消息，向第二节点发送第二数据集以及第一权重集，其中，所述第二数据集是根据所述第一数据集稀疏采样获得的。

当第一节点确认和第二节点链接有效后，第一节点根据时间维度，稀疏化采样第一数据集，生成第二数据集；并按照类型-长度-值(Type-Length-Value，TLV)格式封装第二数据集、第一权重集；最后将封装后的第二数据集、第一权重集发送给第二节点。

其中，第一数据集X可以按照时间维度进行稀疏采样，采样后的第一数据集X，即第二数据集X’，可以表示为获得分为{X’_0,m，X’_1,m，X’_2,m,…，X’_t,m}，一共t时刻。

S140，第一节点接收第二节点发送的根据第一权重集部分初始化后再训练的整体模型参数集，并根据整体模型参数集更新所述第一权重集。

具体地，如图2所示，图2为本发明实施例提供的第二节点训练整体模型参数集的流程图，第二节点通过以下步骤获得整体模型参数集。

S210，第二节点解析第一节点发送的封装后的第二数据集以及封装后的第一权重集，获得第二数据集和第一权重集。

其中，第二节点解析并同步封装后的第二数据集以及封装后的第一权重集，第二数据集X’＝{X’_0,m，X’_1,m，X’_2,m,…，X’_t,m}，第一权重集W’＝{W’₁,W’₂,W’₃,…,W’_m}。

S220，第二节点建立深度学习模型。

其中，深度学习模型包含上层模型W_H与下层模型W_L，上层模型权重集W_H初始化为0，下层模型权重集W_L的初始值为第一权重集W’。

S230，第二节点进行深度学习模型训练。

其中，深度学习模型训练时的输入为第二数据集X’和第一权重集W’，目标函数为cost(X’_t+1,M(X’_t,m,W_Dm))，Cost()函数为训练时的效用函数，具体根据不同使用场景而设定。

S240，当目标函数值达到预设值，第二节点停止训练，训练后得到整体模型参数集。

其中，训练后得到整体模型参数集W_D，W_D包含上层模型参数W_H’和下层模型参数W_l,m’{W_L1,W_L2,W_L3,…,W_Lm}，其中m为第一节点个数。

S250，将整体模型参数集封装后，发送给第一节点。

第一节点接收到第二节点发送的整体模型参数集后，根据整体模型参数集，更新第一权重集，根据更新后的第一权重集，更新预设模型，并依据更新后的预设模型，训练得到第二权重集，然后进行S120-S140的数据挖掘。

需要说明的是，在S110和S140中，都涉及到使用模型进行训练，S110中涉及到预设模型，S140中涉及到深度学习模型。其中，利用公式判断用到的预设模型以及深度训练模型是否合适，该公式即为粒度约束，当G大于1时，预设模型以及深度训练模型合适，满足粒度约束，可以适用于广域网络；当G不大于1时，预设模型以及深度训练模型不合适，不满足粒度约束，不适用于广域网络；其中，G为分布式深度学习系统的粒度，即时间粒度；T_cal为在单机上进行模型计算的时间；T_com为在不同机器之间进行数据和参数传输的时间。单机，平均而言，指的是在单一节点上，即第一节点和第二节点的平均值。该粒度保证了第一节点向第二节点发送心跳包的频率，同时保证了预设模型和深度学习模型适用于广域网络。

图3为本发明实施例提供的外部环境、边缘节点、中心节点的交互图。在图3中，边缘节点为第一节点，中心节点为第二节点，下面通过外部环境、边缘节点、中心节点的交互，对本发明做进一步的描述。如图3所示，本实施例包括以下步骤：

S301，边缘节点网络初始化以及中心节点网络初始化。

S302，边缘节点从外部环境获取源数据。

S303，边缘节点采集数据。

S304，边缘节点数据预处理。

S305，边缘节点无监督式模型训练。

S306，边缘节点得到模型参数。

S307，边缘节点传输模型参数和采样后源数据。

S308，边缘节点和中心节点保持心跳连接，向中心节点传输稀疏采样后数据与模型参数。

S309，中心节点接收并同步数据。

S310，中心节点监督式深度模型训练。

S311，边缘节点下传训练后模型参数。

S312，边缘节点中心节点和边缘节点保持心跳连接，传输训练后模型参数。

S313，边缘节点接收训练后模型参数并更新。

S314，边缘节点执行新模型。

S315，边缘节点发送相关指令或输出相关结果。

S316，边缘节点对外部环境就近响应。

通过应用本发明实施例提供的结合心跳和粒度的数据挖掘方法，第一节点获取第一数据集并将所述第一数据集输入到预设模型，对预设模型训练获得第一权重集；依据由粒度约束计算出的心跳频率，第一节点向第二节点发送心跳包后，接收所述第二节点发送的数据请求消息；第一节点根据数据请求消息，向第二节点发送第二数据集以及第一权重集，其中，第二数据集是根据第一数据集稀疏采样获得的；第一节点接收第二节点发送的根据第一权重集部分初始化后再训练的整体模型参数集，并根据整体模型参数集更新所述第一权重集，改善了广域网络环境下大规模数据挖掘的个性化和扩展性，提高了响应精度。

图4为本发明实施例提供的结合心跳和粒度的数据挖掘装置示意图。图4的应用场景为广域分布式网络。如图4所示，该装置包括：获取单元410，第一接收单元420，发送单元430，第二接收单元440。

其中，获取单元410用于获取第一数据集并将第一数据集输入到预设模型，对所述预设模型训练获得第一权重集。

第一接收单元420用于依据由粒度约束计算出的心跳频率，向第二节点发送心跳包后，接收所述第二节点发送的数据请求消息。

发送单元430用于根据数据请求消息，向第二节点发送第二数据集以及第一权重集，其中，第二数据集是根据第一数据集稀疏采样获得的。

第二接收单元440用于接收第二节点发送的根据第一权重集部分初始化后再训练的整体模型参数集，并根据整体模型参数集更新第一权重集。

获取单元410具体用于，设定采集频率和/或采集网络数据类型；根据所述采集频率和/或采集网络数据类型，获取数据链路层源数据；通过IP重组以及TCP/IP协议，获取网络层源数据以及应用层源数据；对所述数据链路层源数据、网络层源数据以及应用层源数据进行解析，获取所述数据链路层源数据、网络层源数据以及应用层源数据分别对应的流量特征参数；根据所述数据链路层源数据、网络层源数据以及应用层源数据分别对应的流量特征参数，对所述数据链路层源数据、网络层源数据以及应用层源数据进行清洗、归一化处理，获得第一数据集。

发送单元430具体用于根据时间维度，稀疏化采样所述第一数据集，生成第二数据集；按照TLV格式封装所述第二数据集、第一权重集；将封装后的所述第二数据集、第一权重集发送给第二节点。

如图5所示，图5为本发明实施例提供的又一结合心跳和粒度的数据挖掘装置示意图。该结合心跳和粒度的数据挖掘装置还包可以包括：更新单元450。

更新单元450具体用于根据整体模型参数集，更新所述预设模型，并根据更新后的所述预设模型，训练得到第二权重集。

利用公式判断用到的预设模型以及深度训练模型是否合适，该公式即为粒度约束，当G大于1时，预设模型以及深度训练模型合适，满足粒度约束，可以适用于广域网络；当G不大于1时，预设模型以及深度训练模型不合适，不满足粒度约束，不适用于广域网络；其中，G为分布式深度学习系统的粒度，即时间粒度；T_cal为在单机上进行模型计算的时间；T_com为在不同机器之间进行数据和参数传输的时间。单机，平均而言，指的是在单一节点上，即第一节点和第二节点的平均值。该粒度保证了第一节点向第二节点发送心跳包的频率，同时保证了预设模型和深度学习模型适用于广域网络。

应用本发明实施例提供的结合心跳和粒度的数据挖掘装置，获取单元获取第一数据集并将第一数据集输入到预设模型，对预设模型训练获得第一权重集；第一接收单元依据由粒度约束计算出的心跳频率，向第二节点发送心跳包后后，接收所述第二节点发送的数据请求消息；发送单元根据所述数据请求消息，向第二节点发送第二数据集以及第一权重集，其中，第二数据集是根据第一数据集稀疏采样获得的；第二接收单元接收所述第二节点发送的根据第一权重集部分初始化后再训练的整体模型参数集，并根据整体模型参数集更新第一权重集，改善了广域网络环境下大规模数据挖掘的个性化和扩展性，提高了响应精度。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合心跳和粒度的数据挖掘方法，其特征在于，所述方法包括：

第一节点获取第一数据集并将所述第一数据集输入到预设模型，对所述预设模型训练获得第一权重集；

依据由粒度约束计算出的心跳频率，所述第一节点向第二节点发送心跳包后，接收所述第二节点发送的数据请求消息；

所述第一节点根据所述数据请求消息，向所述第二节点发送第二数据集以及第一权重集，其中，所述第二数据集是根据所述第一数据集稀疏采样获得的；

所述第一节点接收所述第二节点发送的根据所述第一权重集部分初始化后训练的整体模型参数集，并根据所述整体模型参数集更新所述第一权重集。

2.根据权利要求1所述的方法，其特征在于，所述第一节点获取第一数据集具体包括：

所述第一节点设定采集频率和/或采集网络数据类型；

所述第一节点根据所述采集频率和/或采集网络数据类型，获取数据链路层源数据；

所述第一节点通过IP重组以及TCP/IP协议，获取网络层源数据以及应用层源数据；

所述第一节点对所述数据链路层源数据、网络层源数据以及应用层源数据进行解析，获取所述数据链路层源数据、网络层源数据以及应用层源数据分别对应的流量特征参数；

根据所述数据链路层源数据、网络层源数据以及应用层源数据分别对应的流量特征参数，所述第一节点对所述数据链路层源数据、网络层源数据以及应用层源数据进行清洗、归一化处理，获得第一数据集。

3.根据权利要求1所述的方法，其特征在于，所述第一节点根据所述数据请求消息，向所述第二节点发送第二数据集以及第一权重集，其中，所述第二数据集是根据所述第一数据集稀疏采样获得的具体包括：

所述第一节点根据时间维度，稀疏化采样所述第一数据集，生成第二数据集；

所述第一节点按照类型-长度-值TLV格式封装所述第二数据集、第一权重集；

所述第一节点将封装后的所述第二数据集、第一权重集发送给第二节点。

4.根据权利要求1所述的方法，其特征在于，所述第一节点接收所述第二节点发送的根据所述第一权重集部分初始化后训练的整体模型参数集，并根据所述整体模型参数集更新所述第一权重集之后还包括：

根据所述整体模型参数集，所述第一节点更新所述预设模型，并根据更新后的所述预设模型，训练得到第二权重集。

5.根据权利要求1所述的方法，其特征在于，利用公式判断所述预设模型是否满足粒度约束，当G大于1时，所述预设模型满足粒度约束；当G不大于1时，所述预设模型不满足粒度约束；其中，G为分布式深度学习系统的粒度；T_cal为在单机上进行模型计算的时间；T_com为在不同机器之间进行数据和参数传输的时间。

6.一种结合心跳和粒度的数据挖掘装置，其特征在于，所述装置包括：获取单元，第一接收单元，发送单元，第二接收单元；

所述获取单元，用于获取第一数据集并将所述第一数据集输入到预设模型，对所述预设模型训练获得第一权重集；

所述第一接收单元，用于依据由粒度约束计算出的心跳频率，向第二节点发送心跳包后，接收所述第二节点发送的数据请求消息；

所述发送单元，用于根据所述数据请求消息，向所述第二节点发送第二数据集以及第一权重集，其中，所述第二数据集是根据所述第一数据集稀疏采样获得的；

所述第二接收单元，用于接收所述第二节点发送的根据所述第一权重集部分初始化后训练的整体模型参数集，并根据所述整体模型参数集更新所述第一权重集。

7.根据权利要求6所述的装置，其特征在于，所述获取单元具体用于，

设定采集频率和/或采集网络数据类型；

根据所述采集频率和/或采集网络数据类型，获取数据链路层源数据；

通过IP重组以及TCP/IP协议，获取网络层源数据以及应用层源数据；

对所述数据链路层源数据、网络层源数据以及应用层源数据进行解析，获取所述数据链路层源数据、网络层源数据以及应用层源数据分别对应的流量特征参数；

根据所述数据链路层源数据、网络层源数据以及应用层源数据分别对应的流量特征参数，对所述数据链路层源数据、网络层源数据以及应用层源数据进行清洗、归一化处理，获得第一数据集。

8.根据权利要求6所述的装置，其特征在于，所述发送单元具体用于，

根据时间维度，稀疏化采样所述第一数据集，生成第二数据集；

按照TLV格式封装所述第二数据集、第一权重集；

将封装后的所述第二数据集、第一权重集发送给第二节点。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：更新单元；

所述更新单元具体用于，根据所述整体模型参数集，更新所述预设模型，并根据更新后的所述预设模型，训练得到第二权重集。

10.根据权利要求6所述的装置，其特征在于，利用公式判断所述预设模型是否满足粒度约束，当G大于1时，所述预设模型满足粒度约束；当G不大于1时，所述预设模型不满足粒度约束；其中，G为分布式深度学习系统的粒度；T_cal为在单机上进行模型计算的时间；T_com为在不同机器之间进行数据和参数传输的时间。