CN106339072A

CN106339072A - 一种基于左右脑模型的分布式大数据实时处理系统及方法

Info

Publication number: CN106339072A
Application number: CN201510400600.1A
Authority: CN
Inventors: 盛益强; 王劲林; 李超鹏; 邓浩江; 王玲芳; 卓煜; 刘学
Original assignee: Institute of Acoustics CAS; Shanghai 3Ntv Network Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Shanghai 3Ntv Network Technology Co Ltd
Priority date: 2015-07-09
Filing date: 2015-07-09
Publication date: 2017-01-18
Anticipated expiration: 2035-07-09
Also published as: CN106339072B

Abstract

本发明涉及一种基于左右脑模型的分布式大数据实时处理系统，包括：由m个边缘左脑模块组成的边缘左脑模块集合{B⁽ⁱ⁾ _EL}、由m个边缘右脑模块组成的边缘右脑模块集合{B⁽ⁱ⁾ _ER}、中心左脑模块B_CL和中心右脑模块B_CR，其中，1≤i≤m，所述m为边缘服务器的个数；第i个用户群与第i个边缘左脑模块B⁽ⁱ⁾ _EL之间为双向连接，从第i个用户群到第i个边缘右脑模块B⁽ⁱ⁾ _ER为单向连接，第i个边缘左脑模块B⁽ⁱ⁾ _EL与第i个边缘右脑模块B⁽ⁱ⁾ _ER之间为双向连接，中心左脑模块B_CL与第i个边缘左脑模块B⁽ⁱ⁾ _EL为双向连接，从第i个边缘右脑模块B⁽ⁱ⁾ _ER到中心右脑模块B_CR为单向连接，中心左脑模块B_CL与中心右脑模块B_CR之间为双向连接。

Description

一种基于左右脑模型的分布式大数据实时处理系统及方法

技术领域

本发明涉及大数据实时处理领域，特别涉及一种基于左右脑模型的分布式大数据实时处理系统及方法。

背景技术

随着网络技术的快速发展，数据的容量和多样性快速增加，而处理数据的算法复杂度却难以改善，依赖个人经验和手工操作来描述数据、标注数据、选择特征、提取特征、处理数据的方法，已经很难满足大数据快速增长的需求，如何高效处理大数据已经成为一个紧迫的难题。在现有的分布式大数据处理技术中，诸如基于MapReduce的Hadoop分布式文件系统及其数据处理方法，绝大部分的资源都会浪费在计算机集群之间的数据传输上，如何降低分布式系统的通信代价，已经成为了一个必须解决的问题。

深度学习方法的研究突破，为解决大数据处理问题指明了一个值得探索的方向。在参考文献1“G.E.Hinton and R.R.Salakhutdinov,"Reducing the dimensionality ofdata with neural networks,"Science,vol.313,no.5786,pp.504-507,2006”中，Hinton等人在2006年提出了用于深度置信网的逐层初始化训练方法，这是深度学习方法的研究起点，该方法打破了持续了几十年的深度学习系统训练困难且效果不好的局面。深度学习是通过模拟人脑分层次的抽象，将底层数据逐层映射而获得更抽象的特征，它可以从大数据中自动提取特征，并通过海量的样本训练获得很好的处理效果。实际上，大数据的快速增长和深度学习的研究是相辅相成的，一方面大数据的快速增长需要一种高效处理海量数据的方法，另一方面深度学习系统的训练需要海量的样本数据。简而言之，大数据可以使深度学习的性能达到极致。

但是，现有的深度学习系统仍然存在很多严重的问题，例如：模型难以扩展、参数优化困难、推理效率低下等。在2013年Bengio的一篇综述论文中(参见参考文献2“Y.Bengio,A.Courville,and P.Vincent,"Representation Learning:A Review andNew Perspectives,"IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.35,Issue.8,pp.1798-1828,2013”)，总结了目前深度学习系统所面临的挑战和难点，包括如何扩展现有的深度学习系统和数据集的规模，如何减小参数优化困难，如何避免昂贵的推理和采样，以及如何解开变化因素等。

发明内容

本发明的目的在于克服现有的分布式大数据实时处理系统的传输代价高的问题，以及克服现有的深度学习方法中存在的模型难以扩展的问题

为了实现上述目的，本发明提供了一种基于左右脑模型的分布式大数据实时处理系统，包括：由m个边缘左脑模块组成的边缘左脑模块集合{B⁽ⁱ⁾ _EL}、由m个边缘右脑模块组成的边缘右脑模块集合{B⁽ⁱ⁾ _ER}、中心左脑模块B_CL和中心右脑模块B_CR，其中，1≤i≤m，所述m为边缘服务器的个数；

第i个用户群与第i个边缘左脑模块B⁽ⁱ⁾ _EL之间为双向连接，从第i个用户群到第i个边缘右脑模块B⁽ⁱ⁾ _ER为单向连接，第i个边缘左脑模块B⁽ⁱ⁾ _EL与第i个边缘右脑模块B⁽ⁱ⁾ _ER之间为双向连接，中心左脑模块B_CL与第i个边缘左脑模块B⁽ⁱ⁾ _EL为双向连接，从第i个边缘右脑模块B⁽ⁱ⁾ _ER到中心右脑模块B_CR为单向连接，中心左脑模块B_CL与中心右脑模块B_CR之间为双向连接；

所述中心左脑模块B_CL和中心右脑模块B_CR形成中心左右脑模型；所述中心左脑模块B_CL设置在中心服务器上，它是一个用于全局高精度响应并保持训练状态的深度学习模型；中心左脑模块B_CL的输入是重构数据，输出是标签；中心右脑模块B_CR是设置在中心服务器上的一个由m个纵向切片组成的带有全局记忆的深度学习模型；中心右脑模块B_CR的输入是标签，输出是重构后的数据；

所述边缘左脑模块B⁽ⁱ⁾ _EL和边缘右脑模块B⁽ⁱ⁾ _ER形成边缘左右脑模型；边缘左脑模块B⁽ⁱ⁾ _EL是设置在边缘服务器上的第i个用于局部实时响应的训练后的深度学习模型，其输入是现场收集到的用户数据，模型输出结果作为对用户的实时响应；边缘右脑模块B⁽ⁱ⁾ _ER是设置在边缘服务器上的第i个用于局部短期记忆并保持训练状态的深度学习模型，其输入是标签，输出是重构后的数据。

上述技术方案中，所述中心左脑模块B_CL以及所述边缘左脑模块B⁽ⁱ⁾ _EL采用如下列深度学习模型中的任意一种，多层感知器、深度玻尔兹曼机、深度置信网。

上述技术方案中，所述中心右脑模块B_CR的每一个切片以及所述边缘右脑模块B⁽ⁱ⁾ _ER都采用逆转后的现有的无向模型或混合模型，包括逆转后的深度玻尔兹曼机、逆转后的深度置信网。

本发明还提供了基于所述的分布式大数据实时处理系统所实现的分布式大数据实时处理方法，包括：

步骤1)、将现场收集到的来自用户的数据x^t _i，输入到与用户距离最近的边缘服务器的边缘左脑B⁽ⁱ⁾ _EL中，得到对用户的实时响应；

步骤2)、通过边缘左脑B⁽ⁱ⁾ _EL、来自用户的数据、标签对边缘右脑B⁽ⁱ⁾ _ER进行增量训练，如果出现新标签，则将其上传到中心服务器的中心左脑模块B_CL上；

步骤3)、返回步骤1)，直到边缘右脑B⁽ⁱ⁾ _ER的训练次数达到第一阈值为止；

步骤4)、将边缘右脑B⁽ⁱ⁾ _ER的增量参数上传到中心服务器的中心右脑B_CR上，更新B_CR的m个纵向切片中与B⁽ⁱ⁾ _ER对应的纵向切片的增量参数；

步骤5)、在中心服务器上用中心右脑B_CR和标签来训练中心左脑B_CL，直到中心左脑B_CL的训练误差小于第二阈值为止；

步骤6)、将中心左脑B_CL的增量参数下发到m个边缘服务器上，更新m个边缘左脑B⁽ⁱ⁾ _EL的所有增量参数，并输出数据处理结果。

上述技术方案中，所述步骤2)具体包括：

步骤2-1)、如果输入的来自用户的数据x^t _i带有标签y^t _i，则先将数据x^t _i反向输入到边缘右脑B⁽ⁱ⁾ _ER，得到与标签y^t _i的格式相同的输出y_i，与标签y^t _i相比较，y_i与标签y^t _i之间存在误差│y_i-y^t _i│²/2，该误差记为训练误差E_t；根据所得到的训练误差E_t以较高的学习率来调整边缘右脑B⁽ⁱ⁾ _ER的正向参数，再将标签y^t _i正向输入到边缘右脑B⁽ⁱ⁾ _ER，而得到重构数据x^r _i，然后与来自用户的原有数据x^t _i相比较而得到重构误差E_r；根据所得到的重构误差E_r，调整边缘右脑B⁽ⁱ⁾ _ER的正向参数和反向参数；其中，边缘右脑的正向参数θ⁺包括正向的连接权重{w_i ⁺}和偏置权重{b_i ⁺}；边缘右脑的反向参数θ^-包括反向的连接权重{w_i ^-}和偏置权重{b_i ^-}；

如果来自用户的标签是新的，还要将新标签上传到中心服务器的中心右脑B_CR上；

步骤2-2)、如果输入的来自用户的数据没有标签，则将数据输入到边缘左脑B⁽ⁱ⁾ _EL而得到的输出，并将该输出作为边缘右脑B_ER的输入，而得到重构数据x^r _i，然后与原有的输入数据x^t _i相比较而得到重构误差E_r，并以较低的学习率来调整边缘右脑B⁽ⁱ⁾ _ER的正向参数。

上述技术方案中，根据训练误差E_t调整边缘右脑的正向参数包括：当E_t＝0，不调整正向参数，当E_t>0，减小正向参数的值，当E_t<0，增加正向参数的值。

上述技术方案中，根据重构误差E_r调整边缘右脑的正向参数和反向参数包括：当E_r＝0时，不调整参数，当E_r>0时，减小参数的值，当E_r<0时，增加参数的值。

上述技术方案中，较高的学习率取值为0.1，较低的学习率取值为0.01。

上述技术方案中，所述步骤5)具体包括：

如果出现新标签，则将新标签输入到中心右脑B_CR，生成重构数据，然后将重构数据输入中心左脑B_CL，生成标签，将该标签与所述新标签相比较，得到训练误差E_t，根据训练误差E_t以较高的学习率来调整中心左脑B_CL的参数；所述中心左脑B_CL的参数包括：连接权重{w_i}和偏置权重{b_i}；

如果没有新标签，则在存储于中心左脑模块的旧标签列表中随机选择一个标签输入到中心右脑B_CR，得到重构数据，然后将重构数据输入中心左脑B_CL而得到输出，将该输出与之前随机选择出的标签相比较而得到训练误差E_t，根据训练误差E_t以较低的学习率来调整中心左脑B_CL的参数。

上述技术方案中，所述第一阈值根据收敛条件来设定；所述第二阈值根据批量平均的收敛条件来设定。

本发明的优点在于：

本发明的系统及方法对现有的深度学习系统进行了扩展，将其应用到更大的数据集上，并通过将原有的大数据的传输变为部分模型参数的传输，以并行计算代价弥补通信代价，实现了高性能的分布式大数据实时处理，大幅改善了现有的分布式大数据实时处理系统的传输代价。

附图说明

图1为本发明的基于左右脑模型的分布式大数据实时处理系统的示意图；

图2为本发明的中心左右脑模型的示意图；

图3为本发明的边缘左右脑模型的示意图；

图4为本发明的基于左右脑模型的分布式大数据实时处理方法的流程图。

具体实施方式

在对本发明的方法做详细说明之前，首先对本发明中所涉及的概念做简要说明。

标签：在本申请中的标签是指当一个模型的输入为x^t _i时的理想输出y^t _i，它来自现有的数据集{x^t _i,y^t _i}，标签格式和输出格式一致，不同模块的标签都属于同一个标签集合{y^t _i}。例如，在快速人脸识别中的应用中，输入是任何一张人脸的图片，标签就是该人脸所对应的人的正确姓名，而模型的输出是一个和标签格式相同的姓名，但不一定总是正确的，会有一定程度的识别错误率。

现结合附图对本发明作进一步的描述。

如图1所示，本发明的基于左右脑模型的分布式大数据实时处理系统包括：2m+2个模块；具体包括由m个边缘左脑模块组成的边缘左脑模块集合{B⁽ⁱ⁾ _EL}、由m个边缘右脑模块组成的边缘右脑模块集合{B⁽ⁱ⁾ _ER}、中心左脑模块B_CL和中心右脑模块B_CR，其中，1≤i≤m，所述m为边缘服务器的个数。

模块之间的连接方式如下：第i个用户群与第i个边缘左脑模块B⁽ⁱ⁾ _EL之间为双向连接，从第i个用户群到第i个边缘右脑模块B⁽ⁱ⁾ _ER为单向连接，第i个边缘左脑模块B⁽ⁱ⁾ _EL与第i个边缘右脑模块B⁽ⁱ⁾ _ER之间为双向连接，中心左脑模块B_CL与第i个边缘左脑模块B⁽ⁱ⁾ _EL为双向连接，从第i个边缘右脑模块B⁽ⁱ⁾ _ER到中心右脑模块B_CR为单向连接，中心左脑模块B_CL与中心右脑模块B_CR之间为双向连接。

如图2所示，在本发明中，中心左脑模块B_CL和中心右脑模块B_CR形成中心左右脑模型；所述中心左脑模块B_CL设置在中心服务器上，它是一个用于全局高精度响应并保持训练状态的深度学习模型，如下列深度学习模型中的任意一种，多层感知器、深度玻尔兹曼机、深度置信网；中心左脑模块B_CL的输入是重构数据，输出是标签；中心右脑模块B_CR是指设置在中心服务器上的一个由m个纵向切片组成的带有全局记忆的深度学习模型。中心右脑模块的每一个切片都是逆转后的现有的无向模型或混合模型，如逆转后的深度玻尔兹曼机、逆转后的深度置信网。中心右脑模块B_CR的输入是标签，输出是重构后的数据。

如图3所示，在本发明中，边缘左脑模块B⁽ⁱ⁾ _EL和边缘右脑模块B⁽ⁱ⁾ _ER形成边缘左右脑模型；边缘左脑模块B⁽ⁱ⁾ _EL是指设置在边缘服务器上的第i个用于局部实时响应的训练后的深度学习模型，如下列深度学习模型中的任意一种，多层感知器、深度玻尔兹曼机、深度置信网；其输入是现场收集到的用户数据，模型输出结果作为对用户的实时响应；边缘右脑模块B⁽ⁱ⁾ _ER是指设置在边缘服务器上的第i个用于局部短期记忆并保持训练状态的深度学习模型，此类深度学习模型是逆转后的现有的无向模型或混合模型，如逆转后的深度玻尔兹曼机、逆转后的深度置信网；其输入是标签，输出是重构后的数据。

如图4所示，本发明提供了基于左右脑模型的分布式大数据实时处理方法，所述方法包括：

所述步骤2)具体包括：

如果输入的来自用户的数据x^t _i带有标签y^t _i，则先将数据x^t _i反向输入到边缘右脑B⁽ⁱ⁾ _ER，得到与标签y^t _i的格式相同的输出y_i，与标签y^t _i相比较，y_i与标签y^t _i之间存在误差│y_i-y^t _i│²/2，其中│.│是指对矢量取模，该误差记为训练误差E_t，根据所得到的训练误差E_t以较高的学习率来调整边缘右脑B⁽ⁱ⁾ _ER的正向参数，再将标签y^t _i正向输入到边缘右脑B⁽ⁱ⁾ _ER，而得到重构数据x^r _i，然后与来自用户的原有数据x^t _i相比较而得到重构误差E_r，根据所得到的重构误差E_r，调整边缘右脑B⁽ⁱ⁾ _ER的正向参数和反向参数，如果来自用户的标签是新的(即不在原有的标签集合中)，则将新标签上传到中心服务器的中心右脑B_CR上。其中，边缘右脑的正向参数θ⁺包括正向的连接权重{w_i ⁺}和偏置权重{b_i ⁺}。根据训练误差E_t调整边缘右脑的正向参数包括：当E_t＝0，不调整正向参数，当E_t>0，减小正向参数的值，当E_t<0，增加正向参数的值。所述学习率是指根据误差来改变参数的幅度，作为一种优选实现方式，较高的学习率取值为0.1，较低的学习率取值为0.01。边缘右脑的反向参数θ^-包括反向的连接权重{w_i ^-}和偏置权重{b_i ^-}。根据重构误差E_r调整边缘右脑的正向参数和反向参数包括：当E_r＝0时，不调整参数，当E_r>0时，减小参数的值，当E_r<0时，增加参数的值。

如果输入的来自用户的数据没有标签，则将数据输入到边缘左脑B⁽ⁱ⁾ _EL而得到的输出，并将该输出作为边缘右脑B_ER的输入，而得到重构数据x^r _i，然后与原有的输入数据x^t _i相比较而得到重构误差E_r，并以较低的学习率来调整边缘右脑B⁽ⁱ⁾ _ER的正向参数。

步骤3)、返回步骤1)，直到边缘右脑B⁽ⁱ⁾ _ER的训练次数达到第一阈值为止；其中，所述第一阈值根据收敛条件来设定，在一个实施例中，当连续10次的训练前后的误差变化都小于0.01％时，则判定为满足第一阈值。

步骤4)、将边缘右脑B⁽ⁱ⁾ _ER的增量参数(即训练前后有变化的参数)上传到中心服务器的中心右脑B_CR上，更新B_CR的m个纵向切片中与B⁽ⁱ⁾ _ER对应的纵向切片的增量参数；

步骤5)、在中心服务器上用中心右脑B_CR和标签来训练中心左脑B_CL，直到中心左脑B_CL的训练误差小于第二阈值为止；所述第二阈值根据批量平均的收敛条件来设定，在一个实施例中，当连续10个批量的训练前后的平均误差变化都小于0.001％时，则判定为满足第二阈值。

所述步骤5)具体包括：

如果出现新标签，则将新标签输入到中心右脑B_CR，生成重构数据，然后将重构数据输入中心左脑B_CL，生成标签，将该标签与所述新标签相比较，得到训练误差E_t，根据训练误差E_t以较高的学习率来调整中心左脑B_CL的参数；所述中心左脑B_CL的参数包括：连接权重{w_i}和偏置权重{b_i}。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于左右脑模型的分布式大数据实时处理系统，其特征在于，包括：由m个边缘左脑模块组成的边缘左脑模块集合{B⁽ⁱ⁾ _EL}、由m个边缘右脑模块组成的边缘右脑模块集合{B⁽ⁱ⁾ _ER}、中心左脑模块B_CL和中心右脑模块B_CR，其中，1≤i≤m，所述m为边缘服务器的个数；

2.根据权利要求1所述的基于左右脑模型的分布式大数据实时处理系统，其特征在于，所述中心左脑模块B_CL以及所述边缘左脑模块B⁽ⁱ⁾ _EL采用如下列深度学习模型中的任意一种，多层感知器、深度玻尔兹曼机、深度置信网。

3.根据权利要求1所述的基于左右脑模型的分布式大数据实时处理系统，其特征在于，所述中心右脑模块B_CR的每一个切片以及所述边缘右脑模块B⁽ⁱ⁾ _ER都采用逆转后的现有的无向模型或混合模型，包括逆转后的深度玻尔兹曼机、逆转后的深度置信网。

4.基于权利要求1-3之一的分布式大数据实时处理系统所实现的分布式大数据实时处理方法，包括：

5.根据权利要求4所述的分布式大数据实时处理方法，其特征在于，所述步骤2)具体包括：

6.根据权利要求5所述的分布式大数据实时处理方法，其特征在于，根据训练误差E_t调整边缘右脑的正向参数包括：当E_t＝0，不调整正向参数，当E_t>0，减小正向参数的值，当E_t<0，增加正向参数的值。

7.根据权利要求5所述的分布式大数据实时处理方法，其特征在于，根据重构误差E_r调整边缘右脑的正向参数和反向参数包括：当E_r＝0时，不调整参数，当E_r>0时，减小参数的值，当E_r<0时，增加参数的值。

8.根据权利要求5所述的分布式大数据实时处理方法，其特征在于，较高的学习率取值为0.1，较低的学习率取值为0.01。

9.根据权利要求4所述的分布式大数据实时处理方法，其特征在于，所述步骤5)具体包括：

10.根据权利要求4所述的分布式大数据实时处理方法，其特征在于，所述第一阈值根据收敛条件来设定；所述第二阈值根据批量平均的收敛条件来设定。