CN107122472A - 大规模非结构化数据提取方法、其系统、分布式数据管理平台 - Google Patents

大规模非结构化数据提取方法、其系统、分布式数据管理平台 Download PDF

Info

Publication number
CN107122472A
CN107122472A CN201710301596.2A CN201710301596A CN107122472A CN 107122472 A CN107122472 A CN 107122472A CN 201710301596 A CN201710301596 A CN 201710301596A CN 107122472 A CN107122472 A CN 107122472A
Authority
CN
China
Prior art keywords
mrow
convolutional neural
neural networks
data
unstructured data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710301596.2A
Other languages
English (en)
Inventor
江有归
封雷
刘东升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU ADTIME TECHNOLOGY Co Ltd
Original Assignee
HANGZHOU ADTIME TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU ADTIME TECHNOLOGY Co Ltd filed Critical HANGZHOU ADTIME TECHNOLOGY Co Ltd
Priority to CN201710301596.2A priority Critical patent/CN107122472A/zh
Publication of CN107122472A publication Critical patent/CN107122472A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了大规模非结构化数据提取方法、其系统、分布式数据管理平台。所述方法包括:获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;将所述多维向量作为卷积神经网络输入的基本单元;通过卷积神经网络的卷积层学习所述训练数据的局部属性;通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。

Description

大规模非结构化数据提取方法、其系统、分布式数据管理平台
技术领域
本发明涉及数据处理技术领域,尤其涉及大规模非结构化数据提取方法、其系统、分布式数据管理平台。
背景技术
随着社会的飞速发展,如今各个行业的信息、数据量都呈现爆炸性增长的趋势。在企业和公共事业中,各类业务变得越来越复杂,信息化水平迅速提高,进入了数据化时代。因此,数据成为了最重要的资产之一,其不仅仅体现在常规业务的操作需求,更为事业发展的方向提供数据支持,起到了重要的决策作用。
与此同时,传统的数据类型的占比已逐渐下降。随着业务需求以及功能多样化意味着非结构化数据已经占据了较大比例。现有对非结构化数据的提取通常使用文件服务器系统记性管理,并人工筛选统筹分类等初级解决方案。
该类方案操作复杂、准确度低,仅能应对简单的数据存储需求,且对非结构化数据的索引、分类、属性等高级特性的几乎无法支持。由于大数据具有数量大、运行速度快、分类多等特点,造成了大量异构和非结构化问题,使得许多现有的数据分析和挖掘的优秀算法工具,无法适用于非结构化大数据。这对于非结构化大数据的数据挖掘和利用造成了障碍。
深度学习作为当前流行的通用工具适合解决上述大规模非结构化数据提取问题。在深度学习中,可以按照输入自动进行特征的学习,神经网络中的每层都将学习到对应的特征,低层网络学习到的特征抽象化组合后构成高层网络出入。这种深度学习的方法可以应用在图片分析等其他领域都体现出了超强的性能,近几年,深度学习及其神经网络模型已成为了特征抽取的重要方法。非结构化数据可以将其维度作为神经网络模型的输入,最后将高效地提取出特征并进行分类。
为了更好的实现大规模非结构化数据的分析,对于大规模的非结构化数据按照特征类别进行提取分类的需求越来越强烈。如何结合深度学习的强大功能,以满足这样的提取分类需求是一个有待解决的问题。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供大规模非结构化数据提取方法、其系统、分布式数据管理平台,旨在解决现有技术中大规模非结构化数据的提取分类的问题。
为了达到上述目的,本发明采取了以下技术方案:
一种大规模非结构化数据提取方法,其中,所述方法包括:
获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;
使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;
将所述多维向量作为卷积神经网络输入的基本单元;
通过卷积神经网络的卷积层学习所述训练数据的局部属性;
通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;
将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。
所述的方法,其中,所述方法还包括:训练所述卷积神经网络;
所述训练所述卷积神经网络具体包括:
设卷积神经网络中可训练参数为:θ=(W1,W2),其中W1为卷积核的参数,应用如下优化目标函数:
其中,T为训练的样本数量;
构建p(i|x,θ)作为似然函数,在给定x,θ的情况下,输出提取的数据的属性类别为i的概率通过如下算式计算:
使用梯度下降的方法求解可训练参数,W1,W2的值随机初始化,通过向后传播算法求导。
所述的方法,其中,所述通过卷积神经网络的卷积层学习所述训练数据的局部属性,具体包括:
通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征;
其中,卷积过程通过如下算式表示:
ci=f(W1di+b),i=1,2,...,n
其中,W1表示卷积单元的权重,b表示其偏移量,f为非线性激活函数;
对输入的所有多维向量均进行所述卷积过程,获得第一特征向量;所述第一特征向量为:c=[c1,c2,…,ci,...,cn]。
所述的方法,其中,所述通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量,具体包括:
进行最大池化操作,获取所述第一特征向量的特征值,所述特征值为:
对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量;所述第二特征向量为:
一种大规模非结构化数据提取系统,其中,所述系统包括:
属性生成模块,用于获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;
卷积神经网络模块,用于将所述多维向量作为卷积神经网络输入的基本单元;通过卷积神经网络的卷积层学习所述训练数据的局部属性;通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;以及将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。
所述的系统,其中,所述系统还包括:训练模块,用于训练所述卷积神经网络;所述训练过程具体包括:
设卷积神经网络中可训练参数为:θ=(W1,W2),其中W1为卷积核的参数,应用如下优化目标函数:
其中,T为训练的样本数量;
构建p(i|x,θ)作为似然函数,在给定x,θ的情况下,输出提取的数据的属性类别为i的概率通过如下算式计算:
使用梯度下降的方法求解可训练参数,W1,W2的值随机初始化,通过向后传播算法求导。
所述的系统,其中,所述卷积神经网路模块具体用于:通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征;
其中,卷积过程通过如下算式表示:
ci=f(W1di+b),i=1,2,…,n
其中,W1表示卷积单元的权重,b表示其偏移量,f为非线性激活函数;
对输入的所有多维向量均进行所述卷积过程,获得第一特征向量;所述第一特征向量为:c=[c1,c2,…,ci,…,cn]。
所述的系统,其中,所述卷积神经网路模块具体用于:进行最大池化操作,获取所述第一特征向量的特征值,所述特征值为:
对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量;所述第二特征向量为:
一种分布式数据平台,其中,包括:若干个存储设备组成的分布式存储集群以及如上所述的大规模非结构化数据提取系统;
所述大规模非结构化数据提取系统用于根据用户指令,在所述分布式存储集群中的存储数据中提取与用户指令对应的数据。
一种分布式数据管理方法,其中,包括:
以分布式技术存储的大规模非结构化数据;
通过如上所述的大规模非结构化数据提取方法,构建所述大规模非结构化数据的属性维度;
接收用户指令并根据所述属性维度查询与所述用户指令对应的数据。
有益效果:本发明提供的大规模非结构化数据提取方法、其系统、分布式数据管理平台,基于卷积神经网络的深度学习方法,有效克服了现有信息抽取算法,在应用进行大规模文本数据分析前,需要人工制定数据维度的弊端,对于结构化分析大规模非结构化文本数据这样的复杂问题具有较好的效果。
附图说明
图1为本发明实施例提供的大规模非结构化数据提取方法的方法流程图;
图2为本发明实施例提供的非结构化数据的属性分类示意图;
图3为本发明实施例提供的非结构化数据与属性之间的关系示意图;
图4为本发明实施例提供的卷积神经网络模型的示意图;
图5为本发明实施例提供的大规模非结构化数据提取系统的功能框图;
图6为本发明实施例提供的分布式数据平台的系统架构图。
具体实施方式
本发明提供大数据异常点检测方法及其系统。为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明实施例提供的大规模非结构化数据提取方法。所述方法包括如下步骤:
100:获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性。通常,大规模非结构化数据主要可以包括四种类型:文本数据、图片数据、音频数据以及视频数据。在本实施例中,将上述非结构化数据的每一种特征抽象为一个属性。该属性既可以是通过非结构化数据本身特征抽象得到,也可以是与另一个非结构化数据相关联之后抽象得到的属性。
200:使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象。
具体的,所述多维向量可以表示为:D=Rm=(x1,x2,…,xm)=d。其中,D表示一个非结构话数据对象,Rm表示一个多维数据空间,(x1,x2,…,xm)表示m维数据空间中的坐标。如图2和3所示,每一个属性为一个坐标轴。每个坐标xi表示该非结构数据的其中一个属性。这样的,可以用空间中唯一的多维向量表示D这个非结构数据的属性,为了适应卷积神经网络模型的特性,将这个多维向量用d表示。
300:将所述多维向量作为卷积神经网络输入的基本单元。图4为本发明实施例提供的卷积神经网络模型的示意图,典型的可以包括卷积层、池化层以及全连接层。其中,该卷积神经网络模型的输入为上述多维的属性向量d。
400:通过卷积神经网络的卷积层学习所述训练数据的局部属性。
在本实施例中,具体可以通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征。
设数据总量为n,卷积过程通过算式(1)表示:
ci=f(W1di+b),i=1,2,…,n (1)
其中,W1表示卷积单元的权重,b表示其偏移量,f为非线性激活函数。该非线性激活函数具体可以采用多种合适的函数,包括sigmoid、tanh或ReLU(Rectified LinearUnits)等。在本实施例中,可以采用ReLU作为激活函数,其函数定义为:f(x)=max(0,x)。
然后对输入的所有多维向量均进行所述卷积过程,获得第一特征向量。所述第一特征向量为:c=[c1,c2,…,ci,…,cn]。此时,相当于学习了输入的所有非结构化数据的局部属性。
500:通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量。池化是指对步骤400中卷积后的局部属性结果进行统计操作。具体可以采用平均池化或者最大池化的方法。在本实施例中,使用最大池化(max-over-time pooling),以保留属性的最显著的特征值具体的,所述最显著的特征值为:
然后对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量。所述第二特征向量为:
600:将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。将该第二特征向量输入至全连接层后,可以利用分类器(例如softmax分类器)得到最终结果。
具体通过算式(2)计算:
O=W2z (2)
其中,W2∈Rl×j是一个转移矩阵,l是对非结构化数据对象的属性分类的数量,输出O是一个l维的向量,第i维就表示属于第i类数据属性的概率。
在本发明实施例中,使用所述卷积神经网络模型前,还需要使用样本数据对其进行训练。其具体的训练过程为:
设卷积神经网络中可训练参数为:θ=(W1,W2),其中W1为卷积核的参数,应用算式(3)所示的优化目标函数:
其中,T为训练的样本数量;
构建p(i|x,θ)作为似然函数,在给定x,θ的情况下,输出提取的数据的属性类别为i的概率通过如下算式计算:
使用梯度下降的方法求解可训练参数,W1,W2的值随机初始化。求导的过程通过向后传播算法,如算式(4)所示:
其中,η为学习效率。
图5为本发明实施例提供的大规模非结构化数据提取系统。所述系统包括:属性生成模块100,用于获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;以及卷积神经网络模块200,用于将所述多维向量作为卷积神经网络输入的基本单元;通过卷积神经网络的卷积层学习所述训练数据的局部属性;通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;以及将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。
具体的,如图5所示,所述系统还包括:训练模块300,用于训练所述卷积神经网络。所述训练过程具体包括:
设卷积神经网络中可训练参数为:θ=(W1,W2),其中W1为卷积核的参数,应用如下优化目标函数:
其中,T为训练的样本数量;
构建p(i|x,θ)作为似然函数,在给定x,θ的情况下,输出提取的数据的属性类别为i的概率通过如下算式计算:
使用梯度下降的方法求解可训练参数,W1,W2的值随机初始化,通过向后传播算法求导。
具体的,所述卷积神经网路模块200具体用于:通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征;
其中,卷积过程通过如下算式表示:
ci=f(W1di+b),i=1,2,...,n
其中,W1表示卷积单元的权重,b表示其偏移量,f为非线性激活函数;
对输入的所有多维向量均进行所述卷积过程,获得第一特征向量;所述第一特征向量为:c=[c1,c2,...,ci,...,cn]。
更具体的,所述卷积神经网路模块100具体用于:进行最大池化操作,获取所述第一特征向量的特征值,所述特征值为:
对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量;所述第二特征向量为:
图6为本发明实施例提供的一种分布式数据平台的系统架构图。在该系统中,包括用户端10、主控制节点20以及若干个存储设备组成的分布式存储集群30。该分布式存储集群使用如上所述的大规模非结构化数据提取系统,对各个数据节点存储的数据进行查询或者调用。所述大规模非结构化数据提取系统可以根据用户指令,在所述分布式存储集群中的存储数据中提取与用户指令对应的数据。
本发明实施例还进一步提供一种与图6所示的分布式数据平台对应的分布式数据管理方法。其包括:以云计算或者分布式等相类似的技术存储或者管理大规模非结构化数据。然后,在运行过程中,通过如上所述的大规模非结构化数据提取方法,构建所述大规模非结构化数据的属性维度。从而最终实现接收用户指令并根据所述属性维度查询与所述用户指令对应的数据,使得非结构化数据为可查询数据及确定其属性。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及本发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种大规模非结构化数据提取方法,其特征在于,所述方法包括:
获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;
使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;
将所述多维向量作为卷积神经网络输入的基本单元;
通过卷积神经网络的卷积层学习所述训练数据的局部属性;
通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;
将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:训练所述卷积神经网络;
所述训练所述卷积神经网络具体包括:
设卷积神经网络中可训练参数为:θ=(W1,W2),其中W1为卷积核的参数,应用如下优化目标函数:
<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <mi>log</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <msup> <mi>O</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow>
其中,T为训练的样本数量;
构建p(i|x,θ)作为似然函数,在给定x,θ的情况下,输出提取的数据的属性类别为i的概率通过如下算式计算:
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>|</mo> <mi>x</mi> <mo>,</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <msub> <mi>O</mi> <mi>i</mi> </msub> </msup> <mo>/</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msup> <mi>e</mi> <msub> <mi>O</mi> <mi>k</mi> </msub> </msup> </mrow>
使用梯度下降的方法求解可训练参数,W1,W2的值随机初始化,通过向后传播算法求导。
3.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络的卷积层学习所述训练数据的局部属性,具体包括:
通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征;
其中,卷积过程通过如下算式表示:
ci=f(W1di+b),i=1,2,...,n
其中,W1表示卷积单元的权重,b表示其偏移量,f为非线性激活函数;
对输入的所有多维向量均进行所述卷积过程,获得第一特征向量;所述第一特征向量为:c=[c1,c2,...,ci,...,cn]。
4.根据权利要求3所述的方法,其特征在于,所述通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量,具体包括:
进行最大池化操作,获取所述第一特征向量的特征值,所述特征值为:
对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量;所述第二特征向量为:
5.一种大规模非结构化数据提取系统,其特征在于,所述系统包括:
属性生成模块,用于获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;
卷积神经网络模块,用于将所述多维向量作为卷积神经网络输入的基本单元;通过卷积神经网络的卷积层学习所述训练数据的局部属性;通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;以及将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。
6.根据权利要求5所述的系统,其特征在于,所述系统还包括:训练模块,用于训练所述卷积神经网络;所述训练过程具体包括:
设卷积神经网络中可训练参数为:θ=(W1,W2),其中W1为卷积核的参数,应用如下优化目标函数:
<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>T</mi> </munderover> <mi>log</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <msup> <mi>O</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow>
其中,T为训练的样本数量;
构建p(i|x,θ)作为似然函数,在给定x,θ的情况下,输出提取的数据的属性类别为i的概率通过如下算式计算:
<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>|</mo> <mi>x</mi> <mo>,</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <msub> <mi>O</mi> <mi>i</mi> </msub> </msup> <mo>/</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msup> <mi>e</mi> <msub> <mi>O</mi> <mi>k</mi> </msub> </msup> </mrow>
使用梯度下降的方法求解可训练参数,W1,W2的值随机初始化,通过向后传播算法求导。
7.根据权利要求5所述的系统,其特征在于,所述卷积神经网路模块具体用于:通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征;
其中,卷积过程通过如下算式表示:
ci=f(W1di+b),i=1,2,...,n
其中,W1表示卷积单元的权重,b表示其偏移量,f为非线性激活函数;
对输入的所有多维向量均进行所述卷积过程,获得第一特征向量;所述第一特征向量为:c=[c1,c2,...,ci,...,cn]。
8.根据权利要求7所述的系统,其特征在于,所述卷积神经网路模块具体用于:进行最大池化操作,获取所述第一特征向量的特征值,所述特征值为:
对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量;所述第二特征向量为:
9.一种分布式数据平台,其特征在于,包括:若干个存储设备组成的分布式存储集群以及如权利要求5-8任一所述的大规模非结构化数据提取系统;
所述大规模非结构化数据提取系统用于根据用户指令,在所述分布式存储集群中的存储数据中提取与用户指令对应的数据。
10.一种分布式数据管理方法,其特征在于,包括:
以分布式技术存储的大规模非结构化数据;
通过如权利要求1-4任一所述的大规模非结构化数据提取方法,构建所述大规模非结构化数据的属性维度;
接收用户指令并根据所述属性维度查询与所述用户指令对应的数据。
CN201710301596.2A 2017-05-02 2017-05-02 大规模非结构化数据提取方法、其系统、分布式数据管理平台 Pending CN107122472A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710301596.2A CN107122472A (zh) 2017-05-02 2017-05-02 大规模非结构化数据提取方法、其系统、分布式数据管理平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710301596.2A CN107122472A (zh) 2017-05-02 2017-05-02 大规模非结构化数据提取方法、其系统、分布式数据管理平台

Publications (1)

Publication Number Publication Date
CN107122472A true CN107122472A (zh) 2017-09-01

Family

ID=59726882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710301596.2A Pending CN107122472A (zh) 2017-05-02 2017-05-02 大规模非结构化数据提取方法、其系统、分布式数据管理平台

Country Status (1)

Country Link
CN (1) CN107122472A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428617A (zh) * 2020-03-20 2020-07-17 广东电网有限责任公司 一种基于视频图像的配网违规检修行为的识别方法和系统
CN112200139A (zh) * 2020-10-30 2021-01-08 杭州泰一指尚科技有限公司 一种基于变阶分数多层卷积神经网络的用户图像识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408469A (zh) * 2014-11-28 2015-03-11 武汉大学 基于图像深度学习的烟火识别方法及系统
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106503729A (zh) * 2016-09-29 2017-03-15 天津大学 一种基于顶层权值的图像卷积特征的生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408469A (zh) * 2014-11-28 2015-03-11 武汉大学 基于图像深度学习的烟火识别方法及系统
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
CN106503729A (zh) * 2016-09-29 2017-03-15 天津大学 一种基于顶层权值的图像卷积特征的生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RONAN COLLOBERT等: "Natural Language Processing (almost) from Scratch", 《ARXIV》 *
YJL9122: "卷积神经网络——输入层、卷积层、激活函数、池化层、全连接层", 《CSDN》 *
刘加: "低资源语音识别若干关键技术研究进展", 《数据采集与处理》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428617A (zh) * 2020-03-20 2020-07-17 广东电网有限责任公司 一种基于视频图像的配网违规检修行为的识别方法和系统
CN112200139A (zh) * 2020-10-30 2021-01-08 杭州泰一指尚科技有限公司 一种基于变阶分数多层卷积神经网络的用户图像识别方法
CN112200139B (zh) * 2020-10-30 2022-05-03 杭州泰一指尚科技有限公司 一种基于变阶分数多层卷积神经网络的用户图像识别方法

Similar Documents

Publication Publication Date Title
CN107563422B (zh) 一种基于半监督卷积神经网络的极化sar分类方法
Du et al. Achieving 100x acceleration for N-1 contingency screening with uncertain scenarios using deep convolutional neural network
CN110046671A (zh) 一种基于胶囊网络的文本分类方法
CN106372648A (zh) 基于多特征融合卷积神经网络的浮游生物图像分类方法
CN109816032A (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
CN108875076B (zh) 一种基于Attention机制和卷积神经网络的快速商标图像检索方法
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN109582782A (zh) 一种基于用弱监督深度学习的文本聚类方法
CN109272332B (zh) 一种基于递归神经网络的客户流失预测方法
CN111401156B (zh) 基于Gabor卷积神经网络的图像识别方法
CN108416535A (zh) 基于深度学习的专利价值评估的方法
CN113962358A (zh) 一种基于时序超图注意力神经网络的信息扩散预测方法
CN111241301A (zh) 一种面向知识图谱表示学习的分布式框架构建方法
CN107122472A (zh) 大规模非结构化数据提取方法、其系统、分布式数据管理平台
CN113449878B (zh) 数据分布式的增量学习方法、系统、设备及存储介质
CN107451617A (zh) 一种图转导半监督分类方法
CN109359542A (zh) 基于神经网络的车辆损伤级别的确定方法及终端设备
CN108564134A (zh) 数据处理方法、装置、计算设备和介质
CN112668633A (zh) 一种基于细粒度领域自适应的图迁移学习方法
Fatahi et al. An FPA and GA-based hybrid evolutionary algorithm for analyzing clusters
CN109697511B (zh) 数据推理方法、装置及计算机设备
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
CN110378356A (zh) 基于多目标拉格朗日正则的细粒度图像识别方法
CN106156256A (zh) 一种用户信息分类透传方法及系统
Zhang et al. End‐to‐end generation of structural topology for complex architectural layouts with graph neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170901

RJ01 Rejection of invention patent application after publication