CN107122472A

CN107122472A - 大规模非结构化数据提取方法、其系统、分布式数据管理平台

Info

Publication number: CN107122472A
Application number: CN201710301596.2A
Authority: CN
Inventors: 江有归; 封雷; 刘东升
Original assignee: HANGZHOU ADTIME TECHNOLOGY Co Ltd
Current assignee: HANGZHOU ADTIME TECHNOLOGY Co Ltd
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2017-09-01

Abstract

本发明公开了大规模非结构化数据提取方法、其系统、分布式数据管理平台。所述方法包括：获取若干非结构化数据对象，并将所述非结构化数据对象的特征抽象为属性；使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象；将所述多维向量作为卷积神经网络输入的基本单元；通过卷积神经网络的卷积层学习所述训练数据的局部属性；通过卷积神经网络的池化层将所述局部属性进行统计操作，获得第二特征向量；将所述第二特征向量输入所述卷积神经网络的全连接层，利用分类器获得非结构化数据分类结果。

Description

大规模非结构化数据提取方法、其系统、分布式数据管理平台

技术领域

本发明涉及数据处理技术领域，尤其涉及大规模非结构化数据提取方法、其系统、分布式数据管理平台。

背景技术

随着社会的飞速发展，如今各个行业的信息、数据量都呈现爆炸性增长的趋势。在企业和公共事业中，各类业务变得越来越复杂，信息化水平迅速提高，进入了数据化时代。因此，数据成为了最重要的资产之一，其不仅仅体现在常规业务的操作需求，更为事业发展的方向提供数据支持，起到了重要的决策作用。

与此同时，传统的数据类型的占比已逐渐下降。随着业务需求以及功能多样化意味着非结构化数据已经占据了较大比例。现有对非结构化数据的提取通常使用文件服务器系统记性管理，并人工筛选统筹分类等初级解决方案。

该类方案操作复杂、准确度低，仅能应对简单的数据存储需求，且对非结构化数据的索引、分类、属性等高级特性的几乎无法支持。由于大数据具有数量大、运行速度快、分类多等特点，造成了大量异构和非结构化问题，使得许多现有的数据分析和挖掘的优秀算法工具，无法适用于非结构化大数据。这对于非结构化大数据的数据挖掘和利用造成了障碍。

深度学习作为当前流行的通用工具适合解决上述大规模非结构化数据提取问题。在深度学习中，可以按照输入自动进行特征的学习，神经网络中的每层都将学习到对应的特征，低层网络学习到的特征抽象化组合后构成高层网络出入。这种深度学习的方法可以应用在图片分析等其他领域都体现出了超强的性能，近几年，深度学习及其神经网络模型已成为了特征抽取的重要方法。非结构化数据可以将其维度作为神经网络模型的输入，最后将高效地提取出特征并进行分类。

为了更好的实现大规模非结构化数据的分析，对于大规模的非结构化数据按照特征类别进行提取分类的需求越来越强烈。如何结合深度学习的强大功能，以满足这样的提取分类需求是一个有待解决的问题。

发明内容

鉴于上述现有技术的不足之处，本发明的目的在于提供大规模非结构化数据提取方法、其系统、分布式数据管理平台，旨在解决现有技术中大规模非结构化数据的提取分类的问题。

为了达到上述目的，本发明采取了以下技术方案：

一种大规模非结构化数据提取方法，其中，所述方法包括：

获取若干非结构化数据对象，并将所述非结构化数据对象的特征抽象为属性；

使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象；

将所述多维向量作为卷积神经网络输入的基本单元；

通过卷积神经网络的卷积层学习所述训练数据的局部属性；

通过卷积神经网络的池化层将所述局部属性进行统计操作，获得第二特征向量；

将所述第二特征向量输入所述卷积神经网络的全连接层，利用分类器获得非结构化数据分类结果。

所述的方法，其中，所述方法还包括：训练所述卷积神经网络；

所述训练所述卷积神经网络具体包括：

设卷积神经网络中可训练参数为：θ＝(W¹,W²)，其中W¹为卷积核的参数，应用如下优化目标函数：

其中，T为训练的样本数量；

构建p(i|x,θ)作为似然函数，在给定x,θ的情况下，输出提取的数据的属性类别为i的概率通过如下算式计算：

使用梯度下降的方法求解可训练参数，W¹，W²的值随机初始化，通过向后传播算法求导。

所述的方法，其中，所述通过卷积神经网络的卷积层学习所述训练数据的局部属性，具体包括：

通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征；

其中，卷积过程通过如下算式表示：

c_i＝f(W¹d_i+b),i＝1,2,...,n

其中，W¹表示卷积单元的权重，b表示其偏移量，f为非线性激活函数；

对输入的所有多维向量均进行所述卷积过程，获得第一特征向量；所述第一特征向量为：c＝[c₁,c₂,…,c_i,...,c_n]。

所述的方法，其中，所述通过卷积神经网络的池化层将所述局部属性进行统计操作，获得第二特征向量，具体包括：

进行最大池化操作，获取所述第一特征向量的特征值，所述特征值为：

对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量；所述第二特征向量为：

一种大规模非结构化数据提取系统，其中，所述系统包括：

属性生成模块，用于获取若干非结构化数据对象，并将所述非结构化数据对象的特征抽象为属性；使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象；

卷积神经网络模块，用于将所述多维向量作为卷积神经网络输入的基本单元；通过卷积神经网络的卷积层学习所述训练数据的局部属性；通过卷积神经网络的池化层将所述局部属性进行统计操作，获得第二特征向量；以及将所述第二特征向量输入所述卷积神经网络的全连接层，利用分类器获得非结构化数据分类结果。

所述的系统，其中，所述系统还包括：训练模块，用于训练所述卷积神经网络；所述训练过程具体包括：

其中，T为训练的样本数量；

所述的系统，其中，所述卷积神经网路模块具体用于：通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征；

其中，卷积过程通过如下算式表示：

c_i＝f(W¹d_i+b),i＝1,2,…,n

对输入的所有多维向量均进行所述卷积过程，获得第一特征向量；所述第一特征向量为：c＝[c₁,c₂,…,c_i,…,c_n]。

所述的系统，其中，所述卷积神经网路模块具体用于：进行最大池化操作，获取所述第一特征向量的特征值，所述特征值为：

一种分布式数据平台，其中，包括：若干个存储设备组成的分布式存储集群以及如上所述的大规模非结构化数据提取系统；

所述大规模非结构化数据提取系统用于根据用户指令，在所述分布式存储集群中的存储数据中提取与用户指令对应的数据。

一种分布式数据管理方法，其中，包括：

以分布式技术存储的大规模非结构化数据；

通过如上所述的大规模非结构化数据提取方法，构建所述大规模非结构化数据的属性维度；

接收用户指令并根据所述属性维度查询与所述用户指令对应的数据。

有益效果：本发明提供的大规模非结构化数据提取方法、其系统、分布式数据管理平台，基于卷积神经网络的深度学习方法，有效克服了现有信息抽取算法，在应用进行大规模文本数据分析前，需要人工制定数据维度的弊端，对于结构化分析大规模非结构化文本数据这样的复杂问题具有较好的效果。

附图说明

图1为本发明实施例提供的大规模非结构化数据提取方法的方法流程图；

图2为本发明实施例提供的非结构化数据的属性分类示意图；

图3为本发明实施例提供的非结构化数据与属性之间的关系示意图；

图4为本发明实施例提供的卷积神经网络模型的示意图；

图5为本发明实施例提供的大规模非结构化数据提取系统的功能框图；

图6为本发明实施例提供的分布式数据平台的系统架构图。

具体实施方式

本发明提供大数据异常点检测方法及其系统。为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，为本发明实施例提供的大规模非结构化数据提取方法。所述方法包括如下步骤：

100：获取若干非结构化数据对象，并将所述非结构化数据对象的特征抽象为属性。通常，大规模非结构化数据主要可以包括四种类型：文本数据、图片数据、音频数据以及视频数据。在本实施例中，将上述非结构化数据的每一种特征抽象为一个属性。该属性既可以是通过非结构化数据本身特征抽象得到，也可以是与另一个非结构化数据相关联之后抽象得到的属性。

200：使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象。

具体的，所述多维向量可以表示为：D＝R^m＝(x₁,x₂,…，x_m)＝d。其中，D表示一个非结构话数据对象，R^m表示一个多维数据空间，(x₁,x₂,…，x_m)表示m维数据空间中的坐标。如图2和3所示，每一个属性为一个坐标轴。每个坐标x_i表示该非结构数据的其中一个属性。这样的，可以用空间中唯一的多维向量表示D这个非结构数据的属性，为了适应卷积神经网络模型的特性，将这个多维向量用d表示。

300：将所述多维向量作为卷积神经网络输入的基本单元。图4为本发明实施例提供的卷积神经网络模型的示意图，典型的可以包括卷积层、池化层以及全连接层。其中，该卷积神经网络模型的输入为上述多维的属性向量d。

400：通过卷积神经网络的卷积层学习所述训练数据的局部属性。

在本实施例中，具体可以通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征。

设数据总量为n，卷积过程通过算式(1)表示：

c_i＝f(W¹d_i+b),i＝1,2,…,n (1)

其中，W¹表示卷积单元的权重，b表示其偏移量，f为非线性激活函数。该非线性激活函数具体可以采用多种合适的函数，包括sigmoid、tanh或ReLU(Rectified LinearUnits)等。在本实施例中，可以采用ReLU作为激活函数，其函数定义为：f(x)＝max(0,x)。

然后对输入的所有多维向量均进行所述卷积过程，获得第一特征向量。所述第一特征向量为：c＝[c₁,c₂,…,c_i,…,c_n]。此时，相当于学习了输入的所有非结构化数据的局部属性。

500：通过卷积神经网络的池化层将所述局部属性进行统计操作，获得第二特征向量。池化是指对步骤400中卷积后的局部属性结果进行统计操作。具体可以采用平均池化或者最大池化的方法。在本实施例中，使用最大池化(max-over-time pooling)，以保留属性的最显著的特征值具体的，所述最显著的特征值为：

然后对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量。所述第二特征向量为：

600：将所述第二特征向量输入所述卷积神经网络的全连接层，利用分类器获得非结构化数据分类结果。将该第二特征向量输入至全连接层后，可以利用分类器(例如softmax分类器)得到最终结果。

具体通过算式(2)计算：

O＝W²z (2)

其中，W²∈R^l×j是一个转移矩阵，l是对非结构化数据对象的属性分类的数量，输出O是一个l维的向量，第i维就表示属于第i类数据属性的概率。

在本发明实施例中，使用所述卷积神经网络模型前，还需要使用样本数据对其进行训练。其具体的训练过程为：

设卷积神经网络中可训练参数为：θ＝(W¹,W²)，其中W¹为卷积核的参数，应用算式(3)所示的优化目标函数：

其中，T为训练的样本数量；

使用梯度下降的方法求解可训练参数，W¹，W²的值随机初始化。求导的过程通过向后传播算法，如算式(4)所示：

其中，η为学习效率。

图5为本发明实施例提供的大规模非结构化数据提取系统。所述系统包括：属性生成模块100，用于获取若干非结构化数据对象，并将所述非结构化数据对象的特征抽象为属性；使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象；以及卷积神经网络模块200，用于将所述多维向量作为卷积神经网络输入的基本单元；通过卷积神经网络的卷积层学习所述训练数据的局部属性；通过卷积神经网络的池化层将所述局部属性进行统计操作，获得第二特征向量；以及将所述第二特征向量输入所述卷积神经网络的全连接层，利用分类器获得非结构化数据分类结果。

具体的，如图5所示，所述系统还包括：训练模块300，用于训练所述卷积神经网络。所述训练过程具体包括：

其中，T为训练的样本数量；

具体的，所述卷积神经网路模块200具体用于：通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征；

其中，卷积过程通过如下算式表示：

c_i＝f(W¹d_i+b),i＝1,2,...,n

对输入的所有多维向量均进行所述卷积过程，获得第一特征向量；所述第一特征向量为：c＝[c₁,c₂,...,c_i,...,c_n]。

更具体的，所述卷积神经网路模块100具体用于：进行最大池化操作，获取所述第一特征向量的特征值，所述特征值为：

图6为本发明实施例提供的一种分布式数据平台的系统架构图。在该系统中，包括用户端10、主控制节点20以及若干个存储设备组成的分布式存储集群30。该分布式存储集群使用如上所述的大规模非结构化数据提取系统，对各个数据节点存储的数据进行查询或者调用。所述大规模非结构化数据提取系统可以根据用户指令，在所述分布式存储集群中的存储数据中提取与用户指令对应的数据。

本发明实施例还进一步提供一种与图6所示的分布式数据平台对应的分布式数据管理方法。其包括：以云计算或者分布式等相类似的技术存储或者管理大规模非结构化数据。然后，在运行过程中，通过如上所述的大规模非结构化数据提取方法，构建所述大规模非结构化数据的属性维度。从而最终实现接收用户指令并根据所述属性维度查询与所述用户指令对应的数据，使得非结构化数据为可查询数据及确定其属性。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及本发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种大规模非结构化数据提取方法，其特征在于，所述方法包括：

将所述多维向量作为卷积神经网络输入的基本单元；

通过卷积神经网络的卷积层学习所述训练数据的局部属性；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：训练所述卷积神经网络；

所述训练所述卷积神经网络具体包括：

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <mi>log</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <msup> <mi>O</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow>

其中，T为训练的样本数量；

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>|</mo> <mi>x</mi> <mo>,</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <msub> <mi>O</mi> <mi>i</mi> </msub> </msup> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msup> <mi>e</mi> <msub> <mi>O</mi> <mi>k</mi> </msub> </msup> </mrow>

3.根据权利要求1所述的方法，其特征在于，所述通过卷积神经网络的卷积层学习所述训练数据的局部属性，具体包括：

其中，卷积过程通过如下算式表示：

c_i＝f(W¹d_i+b),i＝1,2,...,n

4.根据权利要求3所述的方法，其特征在于，所述通过卷积神经网络的池化层将所述局部属性进行统计操作，获得第二特征向量，具体包括：

5.一种大规模非结构化数据提取系统，其特征在于，所述系统包括：

6.根据权利要求5所述的系统，其特征在于，所述系统还包括：训练模块，用于训练所述卷积神经网络；所述训练过程具体包括：

其中，T为训练的样本数量；

7.根据权利要求5所述的系统，其特征在于，所述卷积神经网路模块具体用于：通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征；

其中，卷积过程通过如下算式表示：

c_i＝f(W¹d_i+b),i＝1,2,...,n

8.根据权利要求7所述的系统，其特征在于，所述卷积神经网路模块具体用于：进行最大池化操作，获取所述第一特征向量的特征值，所述特征值为：

9.一种分布式数据平台，其特征在于，包括：若干个存储设备组成的分布式存储集群以及如权利要求5-8任一所述的大规模非结构化数据提取系统；

10.一种分布式数据管理方法，其特征在于，包括：

以分布式技术存储的大规模非结构化数据；

通过如权利要求1-4任一所述的大规模非结构化数据提取方法，构建所述大规模非结构化数据的属性维度；