CN109358959A

CN109358959A - 基于预测的数据分布式协同处理方法

Info

Publication number: CN109358959A
Application number: CN201811236441.6A
Authority: CN
Inventors: 王锐; 罗光春; 田玲; 张栗粽; 王晓雪
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-02-19

Abstract

本发明属于任务调度技术领域，本发明的基于预测的数据分布式协同处理方法首先对数据进行预处理，包括清理和定义数据向量。然后采用级联的LSTM分步预测，通过训练不断调整网络参数，获取数据预测函数。最后根据训练获得的预测函数，来预测即将到来的任务所需的数据。若所预测的数据已经存在于资源节点上面，那么将数据本地化；否则将数据处理完提前发送到资源节点上。在对任务进行资源调度时，首先将任务分发到拥有所需数据的资源节点上，若过任务执行时间上限还未被执行，则将其重新分发到负载较低的节点上，并从拥有任务所需数据的资源节点上获取所需数据。本发明省去了现有任务在总任务时间中的数据处理时间和数据传输时间，从而有效提高系统效率。

Description

基于预测的数据分布式协同处理方法

技术领域

本发明属于任务调度技术领域，具体涉及一个能够通过数据预测来决策数据分发和数据本地化的警务数据处理技术。

背景技术

在警务系统中，执行任务的征用机与数据是分离的，如图1所示，当任务被提交以后，根据征用机的资源情况，基于任务调度策略将任务分发给合适的征用机执行，同时将对应的数据发送给该征用机，即任务需要在数据传输给征用机之后方能执行，但是因为警务数据量较大，而任务所需数据只为其中的一部分，因此数据发送之前，需要进行处理，由此得出任务的执行时间受数据处理时间和数据发送时间的制约。如果征用机上已经具有任务所需数据，那么将会省去数据处理时间和数据传输时间，有效提高系统效率。

征用机上具有数据有两种方式，第一种是数据本地化，将处理过的数据保存在征用机上，但是如果没有限制的将数据保存在征用机上，会导致内存爆炸；第二种是提前将所需的数据发送给征用机，前提是能够预知即将使用哪些数据。通过数据预测能够将上述两种方法的问题都能解决。

发明内容

本发明的发明目的在于：通过数据预测来决策警务数据调度的智能处理方法，针对任务数据是时间序列里的特征进行捕捉，从而决定任务数据本地化或提前处理发送。

本发明的基于预测的数据分布式协同处理方法，包括下列步骤：

S1.数据预处理。首先对数据进行预处理，方便对数据进行训练。主要包括下面两个步骤：

S11.数据清理。警务数据是由一张一张数据表(table)组成，数据表记录了各类警务信息，如人口信息；每张数据表里包含了很多表项(field)，例如人口信息中的身份证号码等，但是有些数据表和表项几乎不会用到，需要将这些数据表和表项去除，避免数据太过稀疏。

S12.定义数据向量。对任务所用的数据建立二维向量，第一维是数据根据数据表字典所对应的向量，第二维是数据根据所在数据表和表项字典所对应的向量。

S2.分步训练。需要预测的数据包括数据表和表项，为了不丢失关联性又能同时预测，采用级联的LSTM分步预测，首先初始化LSTM的网络参数(包括权重矩阵和偏量)，通过训练不断调整网络参数，最后得到网络参数作为函数集，这个函数集就是预测函数。主要分为以下三步：

S21.训练数据表。将数据向量的第一维按照时刻作为输入，通过训练，获得数据表的预测结果，即数据表的预测函数，此时暂停第一步训练。

S22.训练表项。启动第二步训练，第二步的训练过程与第一步是一样的，不同的是，第一步的输入作为第二步输入的筛选条件，对数据向量的第二维数据进行筛选，最终训练获得表项的预测结果，即表项的预测函数。

S23.将两步训练的结果合并实际上是一次训练的结果。

然后基于训练结果判断是否满足训练停止条件(迭代次数达到是上限或训练结果满足误差阈值)，若是，则将当前得到的网络参数作为函数集；否则继续执行步骤S21至步骤S23；

S3.数据预测。根据训练获得的预测函数，来预测即将到来的任务(当前待执行任务)所需的数据。

S4.数据本地化。长期将数据保存在资源节点上，会导致资源节点内存爆炸，因此根据预测的结果，来调进行数据本地化。

S41.如果预测的数据已经存在于资源节点上面，那么将数据本地化。

S42.如果预测的数据不在资源节点上，那么将数据处理完提前发送到资源节点上。

S5.任务调度策略。结合数据本地化，来进行任务调度，最大程度上减少数据传输时间，优化调度。

S51.任务所需的数据资源节点上已经存在了，那么在选择资源节点的时候优先选择。

S511.如果含有所需数据的资源节点上负载已经有任务在排队了，那么选择负载轻的节点。

综上所述，由于采用了上述技术方案，本发明的有益效果是：采用级联的LSTM预测模型实现对任务所需数据的准确预测，从而提前将数据处理完并发送至对应的征用机(资源节点)上，省去现有任务在总任务时间中的数据处理时间和数据传输时间，从而有效提高系统效率。也避免了无限制的将数据保存在征用机上，所导致内存爆炸的技术问题。

附图说明

图1为任务流程简图；

图2为LSTM记忆单元；

图3为级联的LSTM；

图4基于数据预测的任务流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

长短时记忆网络(Long Short-Term Memory，LSTM)因增加了遗忘和保存机制，解决了循环神经网络梯度消失的技术问题，能够很好地处理长期依赖问题。有鉴于此，本发明针对警务系统任务调度数据的特点，利用神经网络中的LSTM建立级联的LSTM，同一个预测过程分为两步，通过第一步的预测结果既作为结果的一部分又作为第一步输入的筛选条件，两步预测的结果共同构成了最终的预测结果，这样做不仅没有同时预测了所需的数据又没有丢失数据之间的关联性。

即本发明的基于预测的数据分布式协同处理方法首先对数据进行预处理，包括清理和定义数据向量。然后采用级联的LSTM分步预测，通过训练不断调整网络参数，获取数据预测函数。最后根据训练获得的预测函数，来预测即将到来的任务所需的数据。若所预测的数据已经存在于征用机(资源节点)上，则判定数据是否最新，若是，则将数据本地化，等待征用机处理当前任务；否则，数据中心处理数据(当前任务所需的)，将处理完的数据提前发送到征用机上，如图4所示。在对任务进行资源调度时，首先将任务分发到拥有所需数据的资源节点上，若过任务执行时间上限还未被执行，则将其重新分发到负载较低的节点上，并从拥有任务所需数据的资源节点上获取所需数据。

本发明的基于预测的数据分布式协同处理方法的具体实现步骤如下：

S1.预处理。对数据进行数据预处理，为了方便对数据进行训练。主要包含以下两个步骤。

S11.数据清理。警务数据非常庞杂，并且更新非常迅速，因此警务数据中含有很多的无效数据，这些数据不仅会对LSTM训练造成干扰，而且会使得数据非常稀疏，因此首先分别针对table和field定义门限λ₁,λ₂，当table出现的概率低于λ₁时，将此table不纳入table字典的范围，对table中的field出现的概率低于λ₂时，将此filed不作为字典向量的一部分，为了保证使得网络输入不会太稀疏，将门限λ₁和λ₂均设为10％。

S12.数据向量建立。警务数据是指table和table中的field，本发明需要预测这两项，因此需要建立table和table对应的field字典，然后对每个任务中出现的警务数据建立二维向量，第一维向量指的是table对应字典的向量，对应的值为0或者1，第二维是对每个table的field根据field字典建立的向量。

S2.分步训练。因为table和field是一体的，需要同时预测，为了不丢失关联性，采用级联的LSTM来分步预测。

先简单介绍LSTM，如图2，主要是通过LSTM的记忆单元来将之前的输入与当前的输入链接起来，从而找到特征，根据前面的数据来预测当前的数据。

记忆元是整个记忆单元的中心，在图中用大圆表示，输入表示为x_t，最终输出表示为h_t，三个方框分别是输入门、遗忘门、输出门，tanh是激活函数，小圆叉叉表示的是乘法，虚线表示的之前的状态对当前状态的影响，状态的更新和记忆单元的输出通过下列公式实现：

i_t＝σ(W_ixx_t+W_ihh_t-1+b_i)

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)

i_t,f_t,o_t分别是输入门、遗忘门、输出门的输出，是记忆元的新状态，c_t是记忆元的最终状态，h_t是整个记忆单元的输出，σ(·)为阈值函数，符号表示向量的点乘；W_ix,W_ih,W_fx,W_fh,W_ox,W_oh,W_cx,W_ch分别是输入门与输入层、输入门与隐藏层、遗忘门与输入层、遗忘门与隐藏层、输出门与输入层、输出门与隐藏层、记忆元与输入层、记忆元与隐藏层之间的权重矩阵；b_i,b_f,b_o,b_c分别是输入门、遗忘门、输出门和记忆元的偏置向量。LSTM训练实际上就是训练权重矩阵和偏置向量，要找到最好的权重矩阵和偏置向量，需要定义损失函数C，表示的是输出与期待的输出之间的差距，C越小表示输出越正确。

S21.Table训练。训练是分步的，在t时刻首先将数据二维向量的第一维取出作为输入，首先初始化权重矩阵和偏置向量，求损失函数对权重矩阵的偏导，采用梯度下降(gradient descent)的方法，但是神经网络中参数非常多，一个个推导计算量非常大，因此采取一种比较有效率的方式——往后传播(back propagation)，从最后一层通过损失函数对输出进行求导，再往前推导，直到第一层，不断的调整权重矩阵使得这个偏导数越来越接近于0，偏置向量也是同样的，通过不断的调整最终找到最好的一组参数即是训练的结果。

S22.Field训练。t时刻第一步训练完后先暂停第一步的训练，将第一步训练的结果作为数据二维向量的第二维的筛选条件，获得第二步的输入，进行训练，从而获得field的训练结果。

图3表示了级联的LSTM来进行table和filed的预测，在图中，B_t是二维数组的集合，B_t中每一个二维数组表示的是一个任务中使用的一个table及table中使用到的field，和分别是两个网络的输入，其中和分别表示的是两个网络期望的预测值，M是LSTM的记忆单元，[y_1,t,y_2,t,…,y_b,t,…]和分别是两个网络的输出，∩是表达第一步网络的输出结果对第二个网络的输入进行的处理。第一步的结果获取到以后，第一步的结果直接关系到第二步的输入，根据第一步的输出，可对应到其使用到的field向量，处理后得到第二步的输入，每一个table都对应的field向量，但是并非所有的都需要，本发明通过∩使得第二个网络中每次的输入都是第一步预测结果处理后的field数据，即只包含所有在第一步t_f中field数据，通过对这些field数据进行预测，可以获得t_f可能出现的field。

S23.两步的训练是一次的预测结果，按照时间不断的进行这样的预测，从而获得最后的预测结果。

S3.数据预测。根据训练得到的预测函数在警务系统上进行预测，将输入按照任务进行处理获得标准输入，在预测函数上进行预测，获得预测结果。

S4.数据本地化。在征用机上初始的时候会分配一些数据，每次任务执行完后，数据都会暂放在征用机上，它的好处节省了数据传输的时间，但是数据一直存放到征用机，长此以往会导致内存爆炸。在效率和内存之间寻找一个平衡，需要适当的本地化策略。

S4.1征用机上维护固定大小的数据，在数据中心有一个表，记录征用机数据的情况，表里有数据更新标志，如果数据更新了，需要相应的更新征用机上的数据。根据预测的数据结果，查看资源节点上是否有该数据，如果有的话，将该数据本地化下来。

S4.2如果接下来要使用的数据在征用机上都没有，那么将数据分发到征用机负载比较轻的征用机上面。

S5.任务调度策略。根据数据是否本地化来决定调度策略，实际上调度策略需要考虑很多方面，比如公平性，当任务到来时是否给每个任务公平的资源，也需要考虑任务能否在最短时间内完成等，考虑不同的因素对应不同的策略，导致不同的结果(系统负载比较均衡、任务响应快、批量任务成功执行率高)。在本发明中综合考虑这些因素，但是结合本地话来达到较好的效果。

S51.在分发任务的时候，首先考虑的是征用机上是否已经存在所需数据了，如果存在，那么首先考虑该征用机，但是会存在该征用机负载非常重的情况，那么将任务分发到该资源节点上任务的等待时间比重新发送数据的时间还要长，因此采用一种动态调度策略。先将任务分发到该资源节点上，当超过限定时间(根据任务的平均执行时间，将限定时间定为0.5s)，该任务还没有被执行的话，将任务进行重新分发。

S511.在考虑重新分发的时候优先考虑负载低的节点，从已有数据的资源节点上获取数据，然后执行任务，让任务尽快完成。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.基于预测的数据分布式协同处理方法，其特征在于，包括下列步骤：

S1.数据预处理：

S11.警务数据数据清理：清除出现的概率低于第一门限的数据表，得到数据表字典；以及将数据表字典中的各数据表中出现概率低于第二门限的表项清楚，得到表项字典；

S12.定义数据向量：对警务任务所用的数据建立二维向量，第一维是数据根据数据表字典所对应的向量，第二维是数据根据所在数据表和表项字典所对应的向量；

S2.分步训练，采用级联的LSTM进行分步预测，首先初始化LSTM的网络参数，通过训练不断调整网络参数，将最后得到网络参数作为函数集：

S21.训练数据表；将数据向量的第一维按照时刻作为输入，通过训练，获得数据表的预测结果，然后进入步骤S22；

S22.训练表项：将步骤S21的输入作为训练表项的输入的筛选条件，对数据向量的第二维数据进行筛选，最终训练获得表项的预测结果；

S23.合并步骤S21和S22的训练所得的预测结果得到一次训练结果；

基于训练结果判断是否满足训练停止条件，若是，则将当前得到的网络参数作为函数集；否则继续执行步骤S21至步骤S23；

S3.数据预测：根据训练获得的预测函数，预测当前待执行任务所需的数据；

S4.数据本地化处理；

S41.若步骤S3预测的数据已经存在于资源节点上，则将所预测的数据本地化；

S42.若步骤S3预测的数据不在资源节点上，则将所预测的数据处理完提前发送到资源节点上；

S5.任务调度策略：

首先将任务分发到拥有所需数据的资源节点上，当超过任务执行时间上限，当前任务还未被执行，则将当前任务重新分发到负载低于负载阈值的节点上，并从拥有任务所需数据的资源节点上获取所需数据。

2.如权利要求1所述的方法，其特征在于，第一门限和第二门限的优选值均为10％。

3.如权利要求1所述的方法，其特征在于，任务执行时间上限的优选值为0.5秒。