CN106777006A - 一种基于Spark下并行超网络的分类算法 - Google Patents

一种基于Spark下并行超网络的分类算法 Download PDF

Info

Publication number
CN106777006A
CN106777006A CN201611115832.3A CN201611115832A CN106777006A CN 106777006 A CN106777006 A CN 106777006A CN 201611115832 A CN201611115832 A CN 201611115832A CN 106777006 A CN106777006 A CN 106777006A
Authority
CN
China
Prior art keywords
super
value
network
text data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611115832.3A
Other languages
English (en)
Other versions
CN106777006B (zh
Inventor
王进
赵蕊
卜亚楠
孙开伟
孟小敏
李智星
陈乔松
邓欣
胡峰
雷大江
高选人
余薇
欧阳卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201611115832.3A priority Critical patent/CN106777006B/zh
Publication of CN106777006A publication Critical patent/CN106777006A/zh
Application granted granted Critical
Publication of CN106777006B publication Critical patent/CN106777006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于Spark下并行超网络的分类算法,具体包括以下步骤:步骤S1.把文本数据部署到Spark平台上;步骤S2.在Spark平台上对文本数据进行并行化预处理;步骤S3.在Spark平台上,对超网络算法的演化学习进行并行化实现。本发明主要解决在大规模文本数据量的情况下,演化超网络分类算法的并行处理问题,通过分布式数据存储阶段,数据预处理阶段,并且通过改变超边结构以及超网络演化计算方式,修改目标函数,完成对超网络算法的并行化处理,提高传统超网络的分类算法性能和效率,解决在海量数据中,传统的超网络模型已经难以满足时间和空间的限制。

Description

一种基于Spark下并行超网络的分类算法
技术领域
本发明涉及机器学习、大数据处理技术领域,尤其一种基于Spark对演化超网络文本分类方法的并行化实现。
背景技术
随着信息技术的发展,互联网数据及资源已实现了爆炸性的增长。由于基于内容的信息检索和数据挖掘方法能够有效地管理和利用这些海量信息,因此在近年来备受关注。在数据量不断增大的同时,数据的标注结构复杂程度也在增加,传统的机器学习方法的研究成果已经不能满足技术发展的需要。因此,对传统机器学习方法并行化处理成为了当今研究的一个热点,其在现实生活中的重要性逐渐凸显,已广泛应用于在海量文本分类、大规模图像视频的语义标注、海量基因功能组以及超规模音乐情感分类等方面。与传统的机器学习任务相比,传统机器学习的并行化难点在于如何有效处理对标签数量呈指数增长的标签空间、海量数据无法进行正确的分类处理以及提高分类效率的问题。
超网络是受到生物分子网络的启发而提出的一种概率图论模型。它是一种特殊的超图,由大量的超边组成,其中每条超边可以连接任意数量的顶点,能很好的表示数据之间和特征之间的高阶关联性。超网络模型弥补了传统机器学习算法表现形式复杂、学习结构可读性差的缺点,能有效地进行数据挖掘和知识发现,提供可读性强的学习结果,解决目前机器学习和数据挖掘领域存在的问题。超网络模型已经在疾病诊断、多模态信息检索、股票预测等方面取得很好的成绩。
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的算法。
发明内容
有鉴于此,本发明的目的在于提供一种基于Spark下并行超网络的分类算法。
本发明的目的是通过以下技术方案来实现的,一种基于Spark下并行超网络的分类算法,具体包括以下步骤:步骤S101.把文本数据部署到Spark平台上;步骤S102.在Spark平台上对文本数据进行并行化预处理;步骤S103.在Spark平台上,对超网络算法的演化学习进行并行化实现。
进一步,所述步骤S102具体为:先将原始数据通过缺失数据处理、然后进行离散化处理或计算超边阈值ζ;
超边阈值匹配为超边与样本的距离小于ζ*d′,其中d′为超边的维度,超边阈值ζ的计算公式如公式(1)所示;
其中对于样本数据x来说,Gx表示样本数据x近邻的集合,d代表训练样本维度,x’表示样本数据x的近邻样本。
进一步,步骤S103具体包括以下子步骤:
S1031.对训练集中每条文本数据生成p条超边,k条数据的超边构成N条超边库,并初始化每条超边的权值wj=1(j=1,2,…,N),形成对应的超边权重向量W={w1,w2,…,wN};
S1032.把训练集中每一条文本数据与超边进行匹配,根据匹配原则形成一个k*N的稀疏矩阵A;
S1033.利用稀疏矩阵A进行并行化随机梯度下降演化学习;
S1034.用演化学习后的超网络对文本数据进行分类。
进一步,本方法将超网络并行梯度下降演化学习转化为矩阵并行运算,并行化实现是指:进行HDFS读入文本数据以后,并行化生成超边库和匹配矩阵,并行化实现具体包括以下子步骤:
S1041读取预处理后的文本数据,生成具有p个partition的RDDa;(由于和后面的样本个数一样因此需要用不同的字母表示)
S1042对RDDa的每一个partition中的文本数据并行生成超边集合库,超边集合库放入含有相同数量partition的RRDb,并用RDDa.persist()方法缓存数据集,生成RDDc;
S1043通过RDDc.cartesion(RDDb)方法笛卡尔积生成RDDd,其中每一个键值对为(k,e),其中k为样本,e为超边;
S1044通过RDDd.reduce()方法合并匹配结果为RDDe,其中每个k-value值的组成为(ki,((e1,y1),(e2,y2),…,(eN,yN))),其中ki表示键值对的k,其值为第i条文本数据,键值对的value值存储该条文本数据对于其他全部超边的匹配结果,e1表示第1条超边,y1表示根据匹配原则的匹配结果;
S1045对RDDe中的数据进行map操作,形成匹配矩阵存储在RDDf中。
进一步,在并行梯度下降演化学习过程中,由于存在部分超边未能与文本数据匹配,超网络模型认为这部分超边对当前的分类不产生影响,因而其权重不发生改变,仅仅对样本匹配的超边的权重进行更新,根据更新公式(2)进行并行化调优,具体步骤为:
S1051把初始化权重根据broadcast()方法,广播给匹配的矩阵。
S1052根据compute()方法计算RDDf中每个partition梯度,并通过reduce()方法合并梯度值;
S1053根据update()方法更新超边权重的权重向量W的权重值;
S1054根据iterator()方法进行重复步骤S1051-S1053,进行迭代更新权重值;其中,梯度计算方法为:
其中,
Wj表示超边j的权重值,η表示学习速率,J(w)表示目标函数,Si表示预测概率值,yi表示真实标签值,mi表示i样本对于超网络的中间预测结果,cij表示匹配矩阵中第i行第j列的值,E表示超边条数。wj表示第j个标签对应的权重值。
进一步,用演化学习后的超网络对文本数据进行分类是指对每一个测试文本数据按照公式(3)与公式(4)计算Si的值,并按照公式(5)进行预测标签yt *
其中,C为匹配矩阵,
目标函数J(w)是指:
其中,yi为真实标签值,si为预测概率值;
m表示超网络的中间预测向量,w表示超边权重,n表示训练集的样本个数,Sn表示超网络对第n条样本的预测概率值,,St表示向量s的第t个值。
由于采用以上技术方案,本发明具有以下优点:
本发明旨在解决在大规模数据量的情况下,超网络算法的并行处理问题,通过并行化数据存储阶段,数据预处理阶段,并且通过改变超边结构以及超网络演化计算方式,修改目标函数,完成对超网络算法的并行化处理,提高传统超网络的分类算法性能和效率,解决在海量数据中,传统的超网络模型已经难以满足时间和空间的限制。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明实施例一提供在Spark下超网络分类算法生成超边的流程图;
图2为本发明实施例一提供在Spark下超网络分类算法并行化随机梯度下降流程图;
图3为本发明实施例一提供基于Spark下对超网络分类算法的并行化实现算法。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
参考图3,图3为本发明实施例提供的一种基于Spark超网络文本数据分类算法的并行化实现具体包括:
文本数据集具有高维大样本、高噪声、高冗余以及样本分布不均衡等特点,由于互联网的高速发展,无时无刻不产生大量的文本数据,这些海量的文本数据对传统的机器学习带来了极大的挑战。因此,本实施例中,主要采用文本数据来展开讨论。参考图1,图1为在Spark下超网络分类算法生成超边的流程图。
由于考虑到Spark平台擅长迭代计算,并且适合并行处理矩阵运算,因此,本方法将文本数据形成的超边与文本数据匹配结果放到一个矩阵中,对超边权重进行并行化梯度下降演化学习,由于Spark擅长迭代计算,并且擅长采用并行处理方式用于矩阵运算,可以体现Spark对于解决海量数据在超网络分类上的优势。
步骤一:把文本数据部署到Spark平台上:将原始实验样本按行存储于HDFS(Hadoop分布式文件系统)分布式存储系统。
步骤二:在Spark平台上对文本数据进行并行化预处理:由于受到超网络模型结构的制约,含有连续性特征的文本数据并不适合传统的超网络模型,因而,先将文本数据通过缺失数据预处理、然后进行离散化处理或对超边匹配阈值ζ的计算。
(1)缺失文本数据处理:用连续性文本特征值的均值(或中位数)来填补缺失值。
(2)离散化处理:离散化可以分为无监督和有监督离散化,无监督包含等频度、等宽度等方法,有监督离散化方法包含基于卡方和信息熵等方法。
(3)超边阈值的匹配计算:为超边与样本的距离小于ζ*d′,其中d′为超边的维度,阈值ζ的计算公式如公式(1)所示。
其中Gx表示对于文本数据x来说,Gx表示样本数据x近邻的集合,d代表训练样本维度。
步骤三:在Spark平台上,对超网络算法的演化学习进行并行化实现,包括:
(1)在文本数据集合中对每条文本数据并行化生成p条超边,k条数据的超边构成N(其中N=k*n)条超边库,并初始化每条超边的权值wj=1(j=1,2,…,N),形成对应的超边权重向量W={w1,w2,…,wN},参考图1所示;
读取预处理后的文本数据,生成具有p个partition的RDDa,这里p等于10,表示HDFS(Hadoop分布式文件系统)读入文本文件以后,用10个partition来存放所有的文本数据。
对RDDa的每一个partition中的文本数据并行生成超边集合库,超边集合库中放入和RDDa中含有相同数量partition的RRDb,并用RDDa.persist()方法缓存数据集,生成RDDc,用于下一步的使用;
通过RDDc.cartesion(RDDb)方法笛卡尔积生成RDDd,其中每每一个键值对为(k,e)其中k为文本数据,e为每一条文本数据生成的超边;
通过RDDd.reduce()方法合并匹配结果为RDDe,其中每个k-value值的组成为(ki,((e1,y1),(e2,y2),…,(eN,yN))),其中ki表示键值对的k,其值为第i条文本数据,键值对的value值存储该条文本数据对于全部超边的匹配结果,e1表示第1条超边,y1表示根据匹配原则的匹配结果;
匹配矩阵是指:根据第i条样本数据删除与第j条超边对应的标签来设定稀疏矩阵A的值:
如果第i条样本数据与第j条超边匹配且超边标签为-1,则对应的稀疏矩阵A中的aij取值为-1;
如果第i条样本数据与第j条超边匹配且超边标签为+1,则对应的稀疏矩阵A中的aij取值为+1;
如果第i条样本数据与第j条超边不匹配,则对应的稀疏矩阵A中的aij取值为0;
样本与超边的匹配为:a.若为标称型数据则完全匹配;b.若为连续型数据则距离小于ζ,则说明样本与超边匹配。
(2)把文本数据集合中每个文本数据与超边库中的超边进行匹配,根据匹配原则形成一个k*N的稀疏矩阵A,参考图1所示;
对RDDe中的数据进行map操作,形成稀疏矩阵A存储在RDDf中;
(3)利用稀疏矩阵A进行并行化随机梯度下降演化学习,不断地动态调整超边的权重,调整超边库的结构,使得权值不同的超边对文本数据分类结果的影响产生不同的效果,使得超网络分类方法更加符合实际的应用情况。
在随机生成超边的过程中,并不能保证所有的超边都具有很高的适应值,为了保证留下适应值高的超边以提高超边库的整体适应性,本发明对以下两种情况的超边进行删除:
a.在稀疏矩阵A中,删除匹配最差的超边,例如第i条超边的匹配值全部为0的超边,即api=0(p=1,2,…,k)进行删除;
b.在稀疏矩阵A中,删除适应值大于σ的超边,即进行删除,其中σ代表适应值的阈值;
并行化梯度下降演化学习是指:为了最大限度地降低对样本错分概率,即减小目标函数的值。在权值更新的过程中,由于存在部分超边未能与样本匹配,超网络模型认为这部分超边对当前的分类不产生影响,因而其权重不发生改变,仅仅对样本匹配的超边的权重进行更新,根据更新公式(2)根据进行并行化调优,具体步骤为:
1、把初始化权重根据broadcast()方法,广播给匹配的矩阵。
2、根据compute()方法计算RDDf中每个partition梯度,并通过reduce()方法合并梯度值。
3、根据update()方法更新权重向量W的权重值。
4、根据iterator()方法进行重复步骤(1)-(3),进行迭代更新权重值。
所述梯度计算方法为:
其中,
(4)在测试阶段,对每一个测试的文本数据按照公式(3)与公式(4)计算Si的值,并按照公式(5)进行预测标签yt *
其中,C为匹配矩阵,W为代表每条超边权重的权重向量。
所述目标函数J(w)是指:
其中,yi为文本数据的真实标签,si为预测值。
本发明通过并行化数据存储阶段,数据预处理阶段,并且通过改变超边结构以及超网络演化计算方式,修改目标函数,完成对超网络算法的并行化处理,提高传统超网络的分类算法性能和效率,解决在海量数据中,传统的超网络模型已经难以满足时间和空间的限制。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (6)

1.一种基于Spark下并行超网络的分类算法,其特征在于:具体包括以下步骤:
步骤S101.把文本数据部署到Spark平台上;
步骤S102.在Spark平台上对文本数据进行并行化预处理;
步骤S103.在Spark平台上,对超网络算法的演化学习进行并行化实现。
2.根据权利要求1所述的基于Spark下并行超网络的分类算法,其特征在于:所述步骤S102具体为:
先将原始数据通过缺失数据处理、然后进行离散化处理或计算超边阈值ζ;
超边阈值匹配为超边与样本的距离小于ζ*d′,其中d′为超边的维度,超边阈值ζ的计算公式如公式(1)所示;
ζ = 1 | d | 1 | G x | Σ x ′ ∈ G x | | x - x ′ | | - - - ( 1 )
其中对于样本数据x来说,Gx表示样本数据x近邻的集合,d代表训练样本维度,x’表示样本数据x的近邻样本。
3.根据权利要求2所述的基于Spark下并行超网络的分类算法,其特征在于:步骤S103具体包括以下子步骤:
S1031.对训练集中每条文本数据生成p条超边,k条数据的超边构成N条超边库,并初始化每条超边的权值wj=1(j=1,2,…,N),形成对应的超边权重向量W={w1,w2,…,wN};
S1032.把训练集中每一条文本数据与超边进行匹配,根据匹配原则形成一个k*N的稀疏矩阵A;
S1033.利用稀疏矩阵A进行并行化随机梯度下降演化学习;
S1034.用演化学习后的超网络对文本数据进行分类。
4.根据权利要求3所述的基于Spark下并行超网络的分类算法,其特征在于:本方法将超网络并行梯度下降演化学习转化为矩阵并行运算,并行化实现是指:进行HDFS读入文本数据以后,并行化生成超边库和匹配矩阵,并行化实现具体包括以下子步骤:
S1041读取预处理后的文本数据,生成具有p个partition的RDDa;(由于和后面的样本个数一样因此需要用不同的字母表示)
S1042对RDDa的每一个partition中的文本数据并行生成超边集合库,超边集合库放入含有相同数量partition的RRDb,并用RDDa.persist()方法缓存数据集,生成RDDc;
S1043通过RDDc.cartesion(RDDb)方法笛卡尔积生成RDDd,其中每一个键值对为(k,e),其中k为样本,e为超边;
S1044通过RDDd.reduce()方法合并匹配结果为RDDe,其中每个k-value值的组成为(ki,((e1,y1),(e2,y2),…,(eN,yN))),其中ki表示键值对的k,其值为第i条文本数据,键值对的value值存储该条文本数据对于其他全部超边的匹配结果,e1表示第1条超边,y1表示根据匹配原则的匹配结果;
S1045对RDDe中的数据进行map操作,形成匹配矩阵存储在RDDf中。
5.根据权利要求4所述的基于Spark下并行超网络的分类算法,其特征在于:在并行梯度下降演化学习过程中,由于存在部分超边未能与文本数据匹配,超网络模型认为这部分超边对当前的分类不产生影响,因而其权重不发生改变,仅仅对样本匹配的超边的权重进行更新,根据更新公式(2)进行并行化调优,具体步骤为:
S1051把初始化权重根据broadcast()方法,广播给匹配的矩阵。
S1052根据compute()方法计算RDDf中每个partition梯度,并通过reduce()方法合并梯度值;
S1053根据update()方法更新超边权重的权重向量W的权重值;
S1054根据iterator()方法进行重复步骤S1051-S1053,进行迭代更新权重值;
其中,梯度计算方法为:
w j = w j - η ∂ J ( w ) ∂ w j - - - ( 2 )
其中,
∂ m i ∂ w j = ∂ Σ j = 1 | E | c i j w j ∂ w j = c i j ;
Wj表示超边j的权重值,η表示学习速率,J(w)表示目标函数,Si表示预测概率值,yi表示真实标签值,mi表示i样本对于超网络的中间预测结果,cij表示匹配矩阵中第i行第j列的值,E表示超边条数。wj表示第j个标签对应的权重值。
6.根据权利要求5所述的基于Spark下并行超网络的分类算法,其特征在于:用演化学习后的超网络对文本数据进行分类是指对每一个测试文本数据按照公式(3)与公式(4)计算Si的值,并按照公式(6)进行预测标签yt *
m = C w , m i = Σ j = 1 | E | c i j w j - - - ( 3 )
其中,C为匹配矩阵,
目标函数J(w)是指:
J ( w ) = 1 2 Σ i = 1 n ( y i - s i ) 2 - - - ( 4 )
其中,yi为真实标签值,si为预测概率值;
s = ( s 1 , s 2 , ... , s n ) T , s i = 2 1 + e - m - 1 - - - ( 5 )
y t * = + 1 , s t ≥ 0 - 1 , o t h e r w i s e - - - ( 6 ) ;
m表示超网络的中间预测向量,w表示超边权重,n表示训练集的样本个数,sn表示超网络对第n条样本的预测概率值,,st表示向量s的第t个值。
CN201611115832.3A 2016-12-07 2016-12-07 一种基于Spark下并行超网络的分类方法 Active CN106777006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611115832.3A CN106777006B (zh) 2016-12-07 2016-12-07 一种基于Spark下并行超网络的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611115832.3A CN106777006B (zh) 2016-12-07 2016-12-07 一种基于Spark下并行超网络的分类方法

Publications (2)

Publication Number Publication Date
CN106777006A true CN106777006A (zh) 2017-05-31
CN106777006B CN106777006B (zh) 2020-10-23

Family

ID=58881208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611115832.3A Active CN106777006B (zh) 2016-12-07 2016-12-07 一种基于Spark下并行超网络的分类方法

Country Status (1)

Country Link
CN (1) CN106777006B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182243A (zh) * 2017-12-28 2018-06-19 大连理工大学 一种基于Spark的分布式进化算法岛模型并行化方法
CN108536838A (zh) * 2018-04-13 2018-09-14 重庆邮电大学 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
WO2019041708A1 (zh) * 2017-08-29 2019-03-07 武汉斗鱼网络科技有限公司 一种分类模型训练系统及其实现方法
CN110795460A (zh) * 2019-11-01 2020-02-14 浪潮云信息技术有限公司 一种前端页面数据缓存方法及系统
CN111125358A (zh) * 2019-12-17 2020-05-08 北京工商大学 一种基于超图的文本分类方法
CN111340220A (zh) * 2020-02-25 2020-06-26 北京百度网讯科技有限公司 用于训练预测模型的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070050388A1 (en) * 2005-08-25 2007-03-01 Xerox Corporation Device and method for text stream mining
CN103136377A (zh) * 2013-03-26 2013-06-05 重庆邮电大学 一种基于演化超网络的中文文本分类方法
CN103955489A (zh) * 2014-04-15 2014-07-30 华南理工大学 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN105701223A (zh) * 2016-01-15 2016-06-22 中国人民解放军国防科学技术大学 基于Spark Streaming的财经信息情感趋势分析方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070050388A1 (en) * 2005-08-25 2007-03-01 Xerox Corporation Device and method for text stream mining
CN103136377A (zh) * 2013-03-26 2013-06-05 重庆邮电大学 一种基于演化超网络的中文文本分类方法
CN103955489A (zh) * 2014-04-15 2014-07-30 华南理工大学 基于信息熵特征权重量化的海量短文本分布式knn分类算法及系统
CN105701223A (zh) * 2016-01-15 2016-06-22 中国人民解放军国防科学技术大学 基于Spark Streaming的财经信息情感趋势分析方法
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李涛 等: "Spark平台下的高效Web文本分类系统的研究", 《计算机应用于软件》 *
王进 等: "基于演化超网络的中文文本分类方法", 《江苏大学学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019041708A1 (zh) * 2017-08-29 2019-03-07 武汉斗鱼网络科技有限公司 一种分类模型训练系统及其实现方法
CN108182243A (zh) * 2017-12-28 2018-06-19 大连理工大学 一种基于Spark的分布式进化算法岛模型并行化方法
CN108182243B (zh) * 2017-12-28 2020-07-14 大连理工大学 一种基于Spark的分布式进化算法岛模型并行化方法
CN108536838A (zh) * 2018-04-13 2018-09-14 重庆邮电大学 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
CN108536838B (zh) * 2018-04-13 2021-10-19 重庆邮电大学 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
CN110795460A (zh) * 2019-11-01 2020-02-14 浪潮云信息技术有限公司 一种前端页面数据缓存方法及系统
CN111125358A (zh) * 2019-12-17 2020-05-08 北京工商大学 一种基于超图的文本分类方法
CN111340220A (zh) * 2020-02-25 2020-06-26 北京百度网讯科技有限公司 用于训练预测模型的方法和装置
CN111340220B (zh) * 2020-02-25 2023-10-20 北京百度网讯科技有限公司 用于训练预测模型的方法和装置

Also Published As

Publication number Publication date
CN106777006B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
Chen et al. Scalable graph neural networks via bidirectional propagation
US10713597B2 (en) Systems and methods for preparing data for use by machine learning algorithms
CN106777006A (zh) 一种基于Spark下并行超网络的分类算法
Shao et al. Online multi-view clustering with incomplete views
US20180096219A1 (en) Neural network combined image and text evaluator and classifier
Chen et al. General functional matrix factorization using gradient boosting
WO2018227800A1 (zh) 一种神经网络训练方法及装置
CN105308631A (zh) 使用从统计信息中导出的特征来预测行为
CN111127246A (zh) 一种输电线路工程造价的智能预测方法
CN111178399A (zh) 数据处理方法及装置、电子设备和计算机可读存储介质
Yan et al. A clustering algorithm for multi-modal heterogeneous big data with abnormal data
CN111144500A (zh) 基于解析高斯机制的差分隐私深度学习分类方法
US11829442B2 (en) Methods and systems for efficient batch active learning of a deep neural network
Unceta et al. Sampling unknown decision functions to build classifier copies
US20220121924A1 (en) Configuring a neural network using smoothing splines
Jensen et al. Semi-supervised fuzzy-rough feature selection
Karimi et al. A new method of mining data streams using harmony search
Alam Recurrent neural networks in electricity load forecasting
Xu et al. Deep convolutional neural networks for feature extraction of images generated from complex networks topologies
Liu et al. Multimodal learning based approaches for link prediction in social networks
US20220383145A1 (en) Regression and Time Series Forecasting
Kaushal et al. Comparative analysis to highlight pros and cons of data mining techniques-clustering, neural network and decision tree
US20210256374A1 (en) Method and apparatus with neural network and training
Chandra et al. Stream mining using statistical relational learning
Ji et al. An improved random walk based community detection algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230517

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongqing Nan'an District huangjuezhen pass Chongwen Road No. 2

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS