CN107977456A

CN107977456A - 一种基于多任务深度网络的多源大数据分析方法

Info

Publication number: CN107977456A
Application number: CN201711353319.2A
Authority: CN
Inventors: 龙明盛; 王建民; 陈新阳; 黄向东
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-05-01
Anticipated expiration: 2037-12-15
Also published as: CN107977456B

Abstract

本发明实施例提供了一种基于多任务深度网络的多源大数据分析方法及系统，所述方法包括：将待分析多源大数据输入训练好的多任务深度网络，得到所述待分析多源大数据的多个任务的分析结果；其中，所述训练好的多任务深度网络分类层的前一层具有与所述多个任务一一对应的多个网络参数，用于根据所述分类层前一层的输入特征得到所述分类层中每个分类器的输入特征。在训练得到用于多源大数据分析的多任务深度网络的过程中，将分类层的前一层设为不共享网络参数的特定任务相关层，更好的挖掘了不同任务之间的联系；利用张量正态分布作为先验概率来挖掘特定任务相关层网络参数之间的关系；使得训练后的多任务深度网络对多源大数据的分析更加快速准确。

Description

一种基于多任务深度网络的多源大数据分析方法

技术领域

本发明实施例涉及大数据分析技术领域，更具体地，涉及一种基于多任务深度网络的多源大数据分析方法及系统。

背景技术

如今正处于大数据时代，互联网技术在日常生活、学习、工作中应用得越来越广泛，由此产生了大量数据，然而由于数据源多样、记录不规范等原因，数据绝大多数都是像图片、文本、视频等非结构数据，因此针对这类数据的分析和处理的方法就显得尤其重要。这类非结构化数据最大的特点就是缺少标签，而传统的机器学习方法往往需求大量的标记数据，如果强行应用在这类缺少标签的非结构化数据很容易造成过拟合，即很好的拟合了训练数据的特征，但由于泛化能力差在预测数据上表现往往不好。而如今应用广泛的深度神经网络技术，同样需求大量的有标签数据，才能通过大规模分布式并行计算获得理想的准确率。标记数据的稀缺，让人们开始思考新的解决方案：设计通用的算法来减少对标签数据的需求，尤其是利用从相关任务标记数据中挖掘出的现成信息。本发明所属的多任务学习即是基于这个思想：一个任务表现的性能可以通过利用相关任务的知识得到提高，即通过挖掘多源数据的可迁移特征以及任务间的联系满足数据分析的需求。知道任务之间的关系就可以将共享的知识从相关的任务迁移到所学任务中，因此只需要学习与特定任务相关的特征。任务关联的基本想法，激发了以下几种方法的产生：可以学习共享特征表示的多任务特征学习，以及可以学习任务之间固有关系的多任务关系学习。

现有技术可以通过利用外部数据源，学习可转移的特性，并通过这些特性来减少归纳偏差的转移，从而使不同的任务能够更有效地关联起来。但是这些深度多任务学习方法不能很好地将任务关系建模，由于知识不能很好地从不同的分类器中迁移，可能会造成分类器层的负迁移，即迁移的知识对预测不能起到正面的效果。进而造成现有技术中的深度多任务学习方法得到的训练好的多任务深度网络，存在无法对多源大数据进行准确快速的分析的问题。

发明内容

本发明实施例提供了一种克服上述问题或者至少部分地解决上述问题的基于多任务深度网络的多源大数据分析方法及系统。

一方面本发明实施例提供了一种基于多任务深度网络的多源大数据分析方法，所述方法包括：

将待分析多源大数据输入至训练好的多任务深度网络，输出所述待分析多源大数据的多个任务的分析结果；其中，所述训练好的多任务深度网络的分类层的前一层具有多个网络参数，且所述多个网络参数与所述多个任务一一对应，所述分类层的前一层用于根据所述多个网络参数和所述分类层前一层的输入特征，得到所述分类层中每个分类器的输入特征。

进一步地，在所述将待分析多源大数据输入至训练好的多任务深度网络之前，所述方法还包括：

获取所述待分析多源大数据对应的训练数据集，并利用所述训练数据集自底向上对所述多任务深度网络的每层网络进行训练，得到每层网络的参数，再利用反向传播算法对每层网络的网络参数进行更新；

重复上述步骤直至预设损失函数的值处于预设范围，得到所述训练好的多任务深度网络。

进一步地，所述预设损失函数为特定任务相关层的网络参数的最大后验估计与所述多任务深度网络的经验损失之和，其中所述特定任务相关层的网络参数的最大后验估计通过以张量正态分布为先验概率对特定任务相关层的网络参数进行最大后验估计得到，所述特定任务相关层包括所述分类层和所述分类层的前一层。

进一步地，所述多任务深度网络的经验损失为：

其中，J为交叉熵损失函数，为第t个任务的样本，为第t个任务的标签，N_t为第t个任务的样本数，为将转换为的条件概率。

进一步地，所述特定任务相关层中的每一层的网络参数张量的先验概率为：

其中，为第层特定任务相关层的特征协方差矩阵，为第层特定任务相关层的标签协方差矩阵，为第层特定任务相关层的任务协方差矩阵，为的维度，为的维度，T为的维度，为总协方差矩阵维度为的张量正态分布，O为张量正态分布的均值。

进一步地，所述特定任务相关层的网络参数的最大后验估计为：

其中，为第t个任务的样本，为第t个任务的标签，为第层特定任务相关层的网络参数矩阵，为特定任务相关层的集合，N_t为第t个任务的样本数。

进一步地，所述方法还包括：

在利用反向传播算法对每层网络的网络参数进行更新时，利用flip-flop算法及克罗内克积来计算以及

另一方面本发明实施例提供了一种基于多任务深度网络的多源大数据分析系统，所述系统包括：

多源大数据分析模块，用于将待分析多源大数据输入至训练好的多任务深度网络，输出所述待分析多源大数据的多个任务的分析结果；其中，所述训练好的多任务深度网络的分类层的前一层具有多个网络参数，且所述多个网络参数与所述多个任务一一对应，所述分类层的前一层用于根据所述多个网络参数和所述分类层前一层的输入特征，得到所述分类层中每个分类器的输入特征。

第三方面发明实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述方法。

第四方面发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述方法。

本发明实施例提供的一种基于多任务深度网络的多源大数据分析方法及系统，通过训练好的多任务深度网络分类层的前一层中与每个任务对应的网络参数，得到分类层中每个分类器的输入特征，更好的挖掘了多源大数据多个任务之间的关系，避免了在分类层中发生知识负迁移的情况，使得对多源大数据的分析更加快速准确。

附图说明

图1为本发明实施例提供的一种于多任务深度网络的多源大数据分析方法的流程图；

图2为本发明实施例中基于AlexNet的多任务深度网络的结构示意图；

图3为本发明实施例中基于AlexNet的多任务深度网络的训练流程示意图；

图4为本发明实施例提供的一种基于多任务深度网络的多源大数据分析系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种基于多任务深度网络的多源大数据分析方法的流程图，如图1所示，所述方法包括：S1，将待分析多源大数据输入至训练好的多任务深度网络，输出所述待分析多源大数据的多个任务的分析结果；其中，所述训练好的多任务深度网络的分类层的前一层具有多个网络参数，且所述多个网络参数与所述多个任务一一对应，所述分类层的前一层用于根据所述多个网络参数和所述分类层前一层的输入特征，得到所述分类层中每个分类器的输入特征。

具体地，由于大多数多任务学习方法只在分类器层使用多个独立的分类器，而在所有特征层中均共享网络参数，大多数多任务学习方法只在分类器层使用多个独立的分类器，而在所有特征层中均共享参数，所以在分类器层的前一层或者前多层对于每个任务采用不同的网络参数，可以挖掘多任务之间的相互关系。其中，所述分类层、所述分类层的前一层或者前多层作为特定任务相关层。

本发明实施例提供的一种基于多任务深度网络的多源大数据分析方法，通过训练好的多任务深度网络分类层的前一层中与每个任务对应的网络参数，得到分类层中每个分类器的输入特征，更好的挖掘了多源大数据多个任务之间的关系，避免了在分类层中发生知识负迁移的情况，使得对多源大数据的分析更加快速准确。

基于上述实施例，在所述将待分析多源大数据输入至训练好的多任务深度网络之前，所述方法还包括：

具体地，在使用所述多任务深度网络之前，需对其进行训练得到适用于多源大数据分析的多任务深度网络，其中训练后的多任务深度网络各层网络参数主要由所采用的训练数据集和损失函数决定。在本发明实施例中所采用的损失函数除了常规的经验损失之外，还有关于特定任务相关层的多个网络参数的损失函数。通过损失函数的设置，可以在训练过程中得出反应多个任务之间关系的特定任务相关层的网络参数。

基于上述实施例，所述预设损失函数为特定任务相关层的网络参数的最大后验估计与所述多任务深度网络的经验损失之和，其中所述特定任务相关层的网络参数的最大后验估计通过以张量正态分布为先验概率对特定任务相关层的网络参数进行最大后验估计得到，所述特定任务相关层包括所述分类层和所述分类层的前一层。

进一步地，所述多任务深度网络的经验损失的表达式为：

进一步地，所述方法还包括：

在利用反向传播算法对每层网络的网络参数进行更新时，利用触发器算法flip-flop算法及克罗内克积来计算以及

具体地，本发明实施例所采用的多任务深度网络是对某种深度网络进行扩展，其结构包括特征层和分类器层，本发明实施例中采用AlexNet为例来进行说明，但本发明实施例并不以此为限，如图2、3所示，对其训练的具体过程如下：

(1)预处理图像数据并分组：找到T个任务的训练数据第t个任务包含N_t条标记数据，其中和其中，也就是说特征空间为D维，标签为C维基数空间，即C维数据，每维可取0或1。对这些图像进行数据增强：通过旋转、平移、尺度变换等方式，对训练样本进行增强，迫使模型学习到的具有旋转、平移、尺度变换等具有鲁棒性的特征；

(2)使用5个卷积层和2个全连接层来提取图像特征，并用一个全连接层作为分类器层。具体的网络结构为：

(2-1)输入层大小为227*227*3,即输入图像为长宽均为227像素的RGB图像。

(2-2)第一个隐含层由卷积层、Max Pooling和局部响应归一化层(LRN)组成：首先用96个大小规格为11*11、步长为4的卷积核(三通道)进行特征提取，其次使用RELU激励函数，来确保特征图的值范围在合理范围之内，用核尺寸为3，步长为2的Pooling层进行MaxPooling操作，LRN层利用相邻5个卷积核进行归一化，最终输出数据大小为27*27*96。

(2-3)第二个隐含层由卷积层、Max Pooling和局部响应归一化层(LRN)组成：首先用256个大小规格为5*5的卷积核进行特征提取，其次使用RELU激励函数，来确保特征图的值范围在合理范围之内，用核尺寸为3，步长为2的Pooling层进行Max Pooling操作，LRN层利用相邻5个卷积核进行归一化，最终输出数据大小为13*13*256。

(2-4)第三、第四个隐含层均使用384个大小规格为3*3的卷积核进行特征提取，然后使用RELU激励函数，来确保特征图的值范围在合理范围之内，最终输出数据大小均为13*13*384。

(2-5)第五个隐含层由卷积层和Max Pooling组成：首先用256个大小规格为3*3的卷积核进行特征提取，其次使用RELU激励函数，来确保特征图的值范围在合理范围之内，用核尺寸为3，步长为2的Pooling层进行Max Pooling操作，最终输出数据大小为6*6*256。

(2-6)第六到第八层网络均为全连接层，每个全连接层对第t个学习一个非线性映射其中是第t个任务中样本x_i在第层的隐含特征表示，和是训练第t个任务时第层的权重参数和偏置参数，其中和分别对应其行和列数,是第层的激活函数，对隐藏层取整流线性函数(ReLU)对输出层取softmax函数用y＝f_t(x)来表示第t个任务的CNN分类器，则CNN网络f在数据{x_t,y_t}上的经验错误率为：

其中J是交叉熵损失函数，即是CNN将样本转换为的条件概率。

(3)由于深度网络在前几层往往学习通用特征，在高层中往往学习到特定任务的特征，在AlexNet中将最后一层特征层fc7和分类器层fc8中定为特定任务相关层，将前6层定为通用特征层，也就是说前6层在不同的任务中将共享网络参数。为了从所有T个任务中的网络参数中捕捉任务之间的联系，我们将T个任务在第层的权重参数组合成一个张量，记为为所有特征任务相关层的参数张量。故若给定训练数据{x,y},则网络参数的最大后验估计MAP(Maximum a Posteriori)是：

这里我们假设先验概率为，每层的参数矩阵和其他层的参数矩阵相互独立。其中，先验概率是多任务学习的关键，应能对参数张量的多线性关系进行建模。本发明用张量正态分布(tensor normal distribution)来定义第层的参数张量的先验概率:

其中分别是模式1、模式2以及模式3协方差矩阵，这些矩阵等价于：将向量化，记为然后将其协方差矩阵以克罗内克积形式分解，即在第层的网络参数中，是特征协方差矩阵，描述的是特征之间的关系；是类别标签协方差，描述的是类别标签之间的关系；则描述了任务之间的关系。

(4)将卷积网络的标记数据经验损失和最大后验估计MAP(先验概率取为张量正态分布并总体取负对数)集成到深度网络中形成正则化优化问题：

其中对参数张量，其模式数为K＝3；是特征协方差矩阵标签协方差矩阵以及任务协方差矩阵的克罗内克积。其中我们假设不同层之间共享任务间的关系，即不同层之间共享任务协方差这样增强了任务间关系在特征层fc7和分类器层fc8之间的关联。

(5)每次迭代中需要通过反向传播算法更新网络参数即将损失函数(记为O)对在点的梯度求出来：

其中是张量第t个任务的切片，它与相关；在每个时间点上，在更新完之后用flip-flop算法更新三个协方差矩阵参数

为了数值稳定性，每一个更新方程的最后一项增加了一个小的惩罚项。但是，上述更新公式的计算开销过大，如即为维。利用克罗内克积下述性质来加速计算：

以为例进行计算：

其中代表按模式3展开后的第i行，表示的第(:,:,j)切片，即张量按第三个模式值为j分解后的矩阵。

(6)将数据输入到上述网络架构中，正向传播，计算出损失函数的值，再按上述公式利用反向传播算法对训练参数进行更新，重复本步骤将损失函数稳定在可以接受的范围内，必要时可调整超参数；

(7)在(6)中得到合理的结果后，可以将不再训练并将训练结果保存下来，以便以后的应用。

图4为本发明实施例提供的一种基于多任务深度网络的多源大数据分析系统的结构框图，如图4所示，所述系统包括：多源大数据分析模块1。其中：

多源大数据分析模块1用于将待分析多源大数据输入至训练好的多任务深度网络，输出所述待分析多源大数据的多个任务的分析结果；其中，所述训练好的多任务深度网络的分类层的前一层具有多个网络参数，且所述多个网络参数与所述多个任务一一对应，所述分类层的前一层用于根据所述多个网络参数和所述分类层前一层的输入特征，得到所述分类层中每个分类器的输入特征。

本发明实施例提供的一种基于多任务深度网络的多源大数据分析系统，通过训练好的多任务深度网络分类层的前一层中与每个任务对应的网络参数，得到分类层中每个分类器的输入特征，更好的挖掘了多源大数据多个任务之间的关系，避免了在分类层中发生知识负迁移的情况，使得对多源大数据的分析更加快速准确。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：将待分析多源大数据输入至训练好的多任务深度网络，输出所述待分析多源大数据的多个任务的分析结果；其中，所述训练好的多任务深度网络的分类层的前一层具有多个网络参数，且所述多个网络参数与所述多个任务一一对应，所述分类层的前一层用于根据所述多个网络参数和所述分类层前一层的输入特征，得到所述分类层中每个分类器的输入特征。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：将待分析多源大数据输入至训练好的多任务深度网络，输出所述待分析多源大数据的多个任务的分析结果；其中，所述训练好的多任务深度网络的分类层的前一层具有多个网络参数，且所述多个网络参数与所述多个任务一一对应，所述分类层的前一层用于根据所述多个网络参数和所述分类层前一层的输入特征，得到所述分类层中每个分类器的输入特征。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多任务深度网络的多源大数据分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述方法，其特征在于，在所述将待分析多源大数据输入至训练好的多任务深度网络之前，所述方法还包括：

3.根据权利要求2所述方法，其特征在于，所述预设损失函数为特定任务相关层的网络参数的最大后验估计与所述多任务深度网络的经验损失之和，其中所述特定任务相关层的网络参数的最大后验估计通过以张量正态分布为先验概率对特定任务相关层的网络参数进行最大后验估计得到，所述特定任务相关层包括所述分类层和所述分类层的前一层。

4.根据权利要求3所述方法，其特征在于，所述多任务深度网络的经验损失为：

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <msub> <mi>f</mi> <mi>t</mi> </msub> </munder> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>t</mi> </msub> </msubsup> <mi>J</mi> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>t</mi> </msub> <mo>(</mo> <msubsup> <mi>x</mi> <mi>n</mi> <mi>t</mi> </msubsup> <mo>)</mo> <mo>,</mo> <msubsup> <mi>y</mi> <mi>n</mi> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> </mrow>

5.根据权利要求3所述方法，其特征在于，所述特定任务相关层中的每一层的网络参数张量的先验概率为：

其中，为第l层特定任务相关层的特征协方差矩阵，为第l层特定任务相关层的标签协方差矩阵，为第l层特定任务相关层的任务协方差矩阵，为的维度，为的维度，T为的维度，为总协方差矩阵维度为的张量正态分布，O为张量正态分布的均值。

6.根据权利要求5所述方法，其特征在于，所述特定任务相关层的网络参数的最大后验估计为：

其中，为第t个任务的样本，为第t个任务的标签，为第l层特定任务相关层的网络参数矩阵，为特定任务相关层的集合，N_t为第t个任务的样本数。

7.根据权利要求6所述方法，其特征在于，所述方法还包括：

8.一种基于多任务深度网络的多源大数据分析系统，其特征在于，所述系统包括：

9.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如权利要求1至7任一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一项所述的方法。