CN107563407A

CN107563407A - 一种面向网络空间多模态大数据的特征表示学习系统

Info

Publication number: CN107563407A
Application number: CN201710645116.4A
Authority: CN
Inventors: 黄震华
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-08-01
Filing date: 2017-08-01
Publication date: 2018-01-09
Anticipated expiration: 2037-08-01
Also published as: CN107563407B

Abstract

本发明涉及一种面向网络空间多模态大数据的特征表示学习系统，主要包括七个部件：一个多模态样本生成部件、三个同质的特征抽取部件、一个数据分类部件、一个特征度量部件以及一个多任务损失函数集成部件。多模态样本生成部件构造具有四分量的训练样本集合；三个同质的特征抽取部件分别负责处理训练样本的前三个分量数据，并产生三个一维的特征向量；数据分类部件对训练样本前三个分量数据进行分类学习，并基于第四分量数据构造分类任务损失函数；特征度量部件对训练样本前三个分量数据进行特征度量学习，并构造度量任务损失函数；而多任务损失函数集成部件实现不同任务的加权合成，并优化系统参数。与现有方法相比，本发明具有模态多样、准确度高、泛化能力强、实施便捷等优点，能够有效应用于舆情监控、互联网医疗、个性化推荐以及智能问答等领域。

Description

一种面向网络空间多模态大数据的特征表示学习系统

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种多模态大数据的特征表示学习技术。

背景技术

近些来，随着物联网、云计算和社交网络等技术的迅猛发展，网络空间中的大数据越发显现4“V”(Volume、Velocity、Variety、Veracity)特性。Google公司每月需处理的数据量超过500PB；百度每天大约要处理几十PB数据；Facebook注册用户超过15亿，每月上传的照片超过20亿张，每天生成400TB以上的日志数据。根据国际数据公司IDC的测算，2017年网络空间将产生2000EB的数据，2018年会增长40％，达到2800EB，截至2020年，将会达到35000EB，超出了目前磁盘空间的存储能力。

随着日积月累，网络空间大数据，特别是来源于社交网络平台的大数据，蕴含着丰富的社会信息，其中包含着大量重要社会事件线索信息的网络映射，而这些网络映射信息通常看似杂乱无章的。深度分析和挖掘网络空间大数据，快速精准地发现其中所暗含的隐性线索与规律，进而在现有被发现线索的基础上，有效预测社会事件未来发展的态势，是促进国家社会治安稳定和知识经济可持续发展的重要手段。研究人员发现，特征抽取和表示是网络空间大数据内容理解的语义基础，其合理性和正确性将很大程度影响隐性线索与规律挖掘的准确性。

目前，学术界和工业界通常采用基于统计学习或基于浅层机器学习的方法来提取和表示网络空间大数据的特征，这些方法在一定程度上能够对网络空间大数据进行内容理解。然而，我们发现现有的这些方法基本上都是针对网络空间中的某一类单模态大数据，如结构化数据、文本数据、图片数据或视频数据，而没有涉及同时处理多个模态并存的网络空间大数据，并且当网络空间大数据包括噪声时，现有方法的准确度和泛化能力都比较差。

发明内容

本发明的目的就是为了解决上述现有方法存在的缺陷，提出一种面向网络空间多模态大数据的特征表示学习系统。与现有方法相比，本发明具有模态多样、准确度高、泛化能力强、实施便捷等优点，能够有效应用于舆情监控、互联网医疗、个性化推荐以及智能问答等领域。

本发明可以通过以下技术方案来实现:

本发明提出一种面向网络空间多模态大数据的特征表示学习系统，其逻辑结构如图1所示，包括七个部件：一个多模态样本生成部件、三个同质的特征抽取部件、一个数据分类部件、一个特征度量部件以及一个多任务损失函数集成部件。

1.多模态样本生成部件，产生特征表示学习需要的训练样本集合，所构造的每个训练样本均具有四个分量，其中前三个分量的每一分量可以是如下四个模态类型的任意一类数据：结构化数据、文本数据、图片数据以及视频数据，而第四分量为该训练样本对应的类标签。同时，每个训练样本的前两个分量所对应的数据具有强相关性，而第三个分量所对应的数据与前两个分量所对应的数据具有弱相关性。(如果两个数据项描述的是同一个对象，那么称这两个数据项是强相关性的。如果两个数据项描述的是不同的对象，那么称这两个数据项是弱相关性的。因此，技术方案中涉及的“强相关性”、“强相关性”是清楚、明确的)

2.三个特征抽取部件(特征抽取部件1-3)是同质的，即具有相同的逻辑结构。

每一个特征抽取部件负责处理训练样本中一个分量数据，并将它所处理的分量数据编码成一维特征向量。

每一个特征抽取部件主要包括四个与模态类型相关的特征抽取子部件：结构化数据特征抽取子部件、文本数据特征抽取子部件、图片数据特征抽取子部件以及视频数据特征抽取子部件。在这四个特征抽取子部件中，本发明每次只激活与分量数据具有相同模态类型的特征抽取子部件，而其它三个特征抽取子部件不工作。另外，在这同质的三个特征抽取部件中，三个相同模态类型的特征抽取子部件共享模型参数，即三个结构化数据特征抽取子部件共享模型参数，三个文本数据特征抽取子部件共享模型参数，三个图片数据特征抽取子部件共享模型参数，三个视频数据特征抽取子部件共享模型参数。

3.数据分类部件，是以三个特征抽取部件产生的三个输出一维特征向量以及训练样本的第四分量数据(即类标签)为输入，对训练样本的每一分量数据分别进行分类学习，并对三个分类结果进行合成，从而产生分类任务损失函数。分类任务损失函数刻画数据分类部件对训练样本三个分量数据进行分类的平均准确度。

4.特征度量部件，是以三个特征抽取部件产生的三个输出一维特征向量为输入，对训练样本的三个分量数据进行特征度量学习，并产生度量任务损失函数。度量任务损失函数刻画特征度量部件对训练样本前两个分量数据相似性以及对后两个分量数据相异性度量的准确度。

5.多任务损失函数集成部件，是对分类任务损失函数和度量任务损失函数进行加权合成，并利用随机优化算法对系统的所有参数进行迭代调整并优化。

本发明具有以下优点：

1、本发明能够处理多种不同模态的数据，从而有效扩充大数据特征表示学习的适用范围。

2、本发明针对不同模态的数据采用不同的特征抽取方法，同时针对相同模态的数据使用模型参数共享策略，从而有效提高大数据特征表示学习的准确性。

3、本发明构造4分量的训练样本进行特征表示学习，并使用多任务损失函数进行参数优化，能够显著提高特征表示学习的泛化能力。

附图说明

图1本发明的逻辑结构图

图2结构化数据特征抽取子部件实施的逻辑结构图

图3文本数据特征抽取子部件实施的逻辑结构图

图4图片数据特征抽取子部件实施的逻辑结构图

图5视频数据特征抽取子部件实施的逻辑结构图

图6数据分类部件实施的逻辑结构图

图7特征度量部件实施的逻辑结构图

具体实施方式

本发明技术方案包括七个部件：一个多模态样本生成部件、三个同质的特征抽取部件、一个数据分类部件、一个特征度量部件以及一个多任务损失函数集成部件。多模态样本生成部件构造具有四分量的训练样本集合；三个同质的特征抽取部件分别负责处理训练样本的前三个分量数据，并产生三个一维的特征向量；数据分类部件对训练样本前三个分量数据进行分类学习，并基于第四分量数据构造分类任务损失函数；特征度量部件对训练样本前三个分量数据进行特征度量学习，并构造度量任务损失函数；而多任务损失函数集成部件实现不同任务的加权合成，并优化系统参数。

深度神经网络模仿人的“神经元”对数据进行感知和学习，为了学习到数据之间非线性的复杂关系，可以将网络设置为多隐层的训练结构。本发明应用了该深度神经网络技术。因此，例如“全连接隐藏层”、“全连接输出层”、“Sigmoid函数”、“ReLU函数”、“Tanh函数”、“LRN局部响应归一化”等，都为“深度神经网络”下的已知概念及结构。

CNN(Convolutional Neural Network：卷积神经网络)在本领域也为熟知的技术。

以下对本发明技术方案中各个部件以实例方式进一步详细说明。

一、多模态样本生成部件

在多模态样本集生成部件中，本发明首先从网络空间中爬取20万个数据项，其中包含4万个为结构化数据、5万个文本数据、8万个图片数据以及3万个视频数据。然后对于每个爬取的数据项u，本发明做如下处理：

基于u的数据内容，从网络空间中获取2个数据内容与u具有强相关性的数据项和并从网络空间中获取3个数据内容与u具有弱相关性的数据项从而得到6个具有4个分量的训练样本，即其中为u的正确类标签，为u的错误类标签。特别，为了提高特征表示学习的准确性和泛化能力，u、这6个数据项的模态类型不要求是一样的。最终，本发明在多模态样本集生成部件中构造的训练样本集合T总共包含120万个训练样本，每个训练样本具有4个分量。

二、特征抽取部件

对于每个训练样本t＝<u⁺,u,u^-,l>，特征抽取部件1负责处理t的第一个分量数据u⁺，特征抽取部件2负责处理t的第二个分量数据u，而特征抽取部件3负责处理t的第三个分量数据u^-。这三个特征抽取部件具有相同的逻辑结构，均包含四个与模态类型相关的特征抽取子部件：结构化数据特征抽取子部件、文本数据特征抽取子部件、图片数据特征抽取子部件以及视频数据特征抽取子部件。如果特征抽取部件负责处理的分量数据是结构化数据，那么将该分量数据输入到结构化数据特征抽取子部件中，如果特征抽取部件负责处理的分量数据是文本数据，那么将该分量数据输入到文本数据特征抽取子部件中，如果特征抽取部件负责处理的分量数据是图片数据时，那么将该分量数据输入到图片数据特征抽取子部件中，如果特征抽取部件负责处理的分量数据是视频数据，那么将该分量数据输入到视频数据特征抽取子部件中。

这四个特征抽取子部件分别实施如下。

1)结构化数据特征抽取子部件实施的逻辑结构如图2所示：

在结构化数据特征抽取子部件中，本发明首先将多维结构化数据(假定为n维)的每一维取值利用word2vec工具(该工具在本领域已为现有技术)转换成长度为300的一维中间向量，然后对得到的n个一维中间向量进行平均池化处理(“平均池化”技术本身在本领域已为现有技术)，从而得到长度为300的平均池化向量av，其第i(1≤i≤300)个分量的取值为：

其中v^x为第x维数据所对应的中间向量。

当得到平均池化向量av之后，本发明将它输入到神经元个数为1000的全连接隐藏层中，然后将全连接隐藏层中的神经元所获得的值输入到神经元个数为2000的全连接输出层中，最终得到长度为2000的一维特征向量。其中，全连接隐藏层中神经元的激活函数取Sigmoid(S型生长曲线)函数，而全连接输出层中神经元的激活函数取ReLU(RectifiedLinear Unit：修正线性单元)函数。

2)文本数据特征抽取子部件实施的逻辑结构如图3所示：

在文本数据特征抽取子部件中，本发明首先将文本数据的每个词利用word2vec工具转换成长度为300的一维中间向量，并利用双向LSTM(Long Short-Term Memory：长短期记忆)循环神经网络(“LSTM循环神经网络”在本领域为现有技术)将文本数据转换成两个长度为1000的一维输出向量，然后分别将这两个LSTM一维输出向量输入到两个神经元个数为1200的全连接隐藏层中，然后将这两个全连接隐藏层中的神经元所获得的值输入到神经元个数为2000的全连接输出层中，最终得到长度为2000的一维特征向量。其中，全连接隐藏层中神经元的激活函数取Tanh(双曲正切)函数，而全连接输出层中神经元的激活函数取ReLU(Rectified Linear Unit：修正线性单元)函数。

3)图片数据特征抽取子部件实施的逻辑结构如图4所示：

在图片数据特征抽取子部件中，本发明首先将RBG三通道图片数据进行4种尺寸大小的缩放，包括512*512、227*227、120*84以及80*60，然后对于每个尺寸大小的图片，利用CNN(Convolutional Neural Network：卷积神经网络)结构，将该尺寸大小的图片转换成长度为1024的一维输出向量。CNN结构我们采用Alexnet来实施，即本发明的CNN结构一共具有11层，包含5个卷积层、3个最大池化层以及3个全连接层，顺序为<1个卷积层→1个最大池化层→1个卷积层→1个最大池化层→3个卷积层→1个最大池化层→3个全连接层>，其中在每一个卷积层中包含了激励函数ReLU(Rectified Linear Unit：修正线性单元)和LRN(LocalResponse Normalization：局部响应归一化)处理。在此基础上，本发明分别将所获得的4个CNN一维输出向量输入到4个神经元个数为512的全连接隐藏层中，然后将这两个全连接隐藏层中的神经元所获得的值输入到神经元个数为2000的全连接输出层中，最终得到长度为2000的一维特征向量。其中，全连接隐藏层中神经元的激活函数取Tanh(双曲正切)函数，而全连接输出层中神经元的激活函数取ReLU(Rectified Linear Unit：修正线性单元)函数。

4)视频数据特征抽取子部件实施的逻辑结构如图5所示：

在图片数据特征抽取子部件中，本发明首先对视频数据提取关键帧序列，包含k个关键帧，实施过程为：基于光流计算视频数据每个帧的运动能力强度值(Motion EnergyIntensity)，进而在“帧-运动能力强度值”二维平面上画出视频数据的运动能力强度值曲线，然后在该曲线上选出运动能力强度值处于波峰和波谷的所有视频帧，并按先后顺序组成关键帧序列。在此基础上，针对序列中的每一个关键帧，使用图片数据特征抽取子部件来获取它的一维中间向量，然后利用双向GRU(Gated Recurrent Unit：门控循环单元)循环神经网络(为本领域已知技术)将文本数据转换成两个长度为1024的一维输出向量，然后分别将这两个GRU一维输出向量输入到两个神经元个数为2048的全连接隐藏层中，然后将这两个全连接隐藏层中的神经元所获得的值输入到神经元个数为2000的全连接输出层中，最终得到长度为2000的一维特征向量。其中，全连接隐藏层中神经元的激活函数取Tanh(双曲正切)函数，而全连接输出层中神经元的激活函数取PReLU(Parametric Rectified LinearUnit：带参数的修正线性单元)函数。

三、数据分类部

数据分类部件实施的逻辑结构如图6所示：

另外，数据分类部件的分类任务损失函数表示为：

其中T为训练样本的集合，|T|为T所包含训练样本的数量，log为对数函数，max为取最大值函数。

四、特征度量部件

特征度量部件实施的逻辑结构如图7所示：

在特征度量部件中，本发明首先针对三个特征抽取部件中的每个特征抽取部件，将它所产生的一维特征向量v_j(1≤j≤3，)输入到一个神经元个数为2000的归一化隐藏层中，归一化隐藏层的第i(1≤i≤2000)个神经元x_i与v_j的第i个分量v_j[i]相连接，并且它的激活函数为归一化函数，即：

在此基础上，本发明将前两个归一化隐藏层的输出值输入到一个神经元个数为2000的相异性隐藏层中，该相异性隐藏层的第i(1≤i≤2000)个神经元y_i与前两个归一化隐藏层的第i个神经元输出值g₁[i]和g₂[i]相连接，并且它的激活函数为：

f(y_i)＝(g₁[i]-g₂[i])²。

同样，本发明将后两个归一化隐藏层的输出值输入到另外一个神经元个数为2000的相异性隐藏层中，该相异性隐藏层的第i(1≤i≤2000)个神经元z_i与后两个归一化隐藏层的第i个神经元输出值g₂[i]和g₃[i]相连接，并且它的激活函数为：

f(z_i)＝(g₂[i]-g₃[i])²。

最后，本发明将两个相异性隐藏层的输出值输入到一个神经元个数为2的特征度量输出层中，该特征度量输出层的每个神经元分别与一个相异性隐藏层中的所有2000个神经元输出值相连接，并且它的激活函数为：

其中t为特征抽取部件所负责处理的训练样本，s_i[h]为第i个相异性隐藏层的第h个神经元输出值。

此外，特征度量部件的度量任务损失函数表示为：

其中T为训练样本的集合，|T|为T所包含训练样本的数量。

五、多任务损失函数集成部件

在多任务损失函数集成部件中，本发明对分类任务损失函数和度量任务损失函数进行加权合成，得到两个任务联合的损失函数L_join：

L_join＝αL_cl+(1-α)L_cm，

其中α为平衡因子，取值范围为(0,1)。在此基础上，本发明基于训练样本集合T，分别利用全量梯度下降(BGD：Batch Gradient Descent)、随机梯度下降(SGD：StochasticGradient Descent)、小批量梯度下降(MGD：Mini-batch Gradient Descent)、自适应矩估计(Adam：Adaptive Moment Estimation)、以及自适应梯度(AG：Adaptive Gradient)这5种优化方法对最小化损失函数L_join的取值进行100000次迭代优化，并且每次迭代的最小批处理样本为200个，从而分别得出这5种优化方法所对应的损失函数值，然后选择具有最小损失函数值的优化方法作为系统的参数优化方法。

Claims

1.一种面向网络空间多模态大数据的特征表示学习系统，其特征在于，包括七个部件：一个多模态样本生成部件、三个同质的特征抽取部件、一个数据分类部件、一个特征度量部件以及一个多任务损失函数集成部件。

所述多模态样本生成部件，产生特征表示学习需要的训练样本集合，所构造的每个训练样本均具有四个分量，其中前三个分量的每一分量可以是如下四个模态类型的任意一类数据：结构化数据、文本数据、图片数据以及视频数据，而第四分量为该训练样本对应的类标签。同时，每个训练样本的前两个分量所对应的数据具有强相关性，而第三个分量所对应的数据与前两个分量所对应的数据具有弱相关性。

三个特征抽取部件具有相同的逻辑结构。每一个特征抽取部件负责处理训练样本中一个分量数据，并将它所处理的分量数据编码成一维特征向量。每一个特征抽取部件主要包括四个与模态类型相关的特征抽取子部件：结构化数据特征抽取子部件、文本数据特征抽取子部件、图片数据特征抽取子部件以及视频数据特征抽取子部件。在这四个特征抽取子部件中，本发明每次只激活与分量数据具有相同模态类型的特征抽取子部件，而其它三个特征抽取子部件不工作。另外，在这同质的三个特征抽取部件中，三个相同模态类型的特征抽取子部件共享模型参数，即三个结构化数据特征抽取子部件共享模型参数，三个文本数据特征抽取子部件共享模型参数，三个图片数据特征抽取子部件共享模型参数，三个视频数据特征抽取子部件共享模型参数。

所述数据分类部件，是以三个特征抽取部件产生的三个输出一维特征向量以及训练样本的第四分量数据(即类标签)为输入，对训练样本的每一分量数据分别进行分类学习，并对三个分类结果进行合成，从而产生分类任务损失函数。分类任务损失函数刻画数据分类部件对训练样本三个分量数据进行分类的平均准确度。

所述特征度量部件，是以三个特征抽取部件产生的三个输出一维特征向量为输入，对训练样本的三个分量数据进行特征度量学习，并产生度量任务损失函数。度量任务损失函数刻画特征度量部件对训练样本前两个分量数据相似性以及对后两个分量数据相异性度量的准确度。

所述多任务损失函数集成部件，是对分类任务损失函数和度量任务损失函数进行加权合成，并利用随机优化算法对系统的所有参数进行迭代调整并优化。