CN105740424A - 一种基于 Spark 平台的高效率文本分类方法 - Google Patents

一种基于 Spark 平台的高效率文本分类方法 Download PDF

Info

Publication number
CN105740424A
CN105740424A CN201610066429.XA CN201610066429A CN105740424A CN 105740424 A CN105740424 A CN 105740424A CN 201610066429 A CN201610066429 A CN 201610066429A CN 105740424 A CN105740424 A CN 105740424A
Authority
CN
China
Prior art keywords
rdd
data
spark platform
file system
spark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610066429.XA
Other languages
English (en)
Inventor
唐卓
鲁彬
李肯立
李巧巧
陈建国
熊燎特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201610066429.XA priority Critical patent/CN105740424A/zh
Publication of CN105740424A publication Critical patent/CN105740424A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明提供了一种基于Spark平台的高效率文本分类方法,该方法包括:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;Spark平台从HDFS文件系统中读取数据,将数据转换为RDD并将其存储在内存;将所有任务分为不同的stage,然后运行各个任务;对RDD进行预处理;进行训练;测试分类模型。本发明弥补了朴素贝叶斯模型的缺点与不足,还提高了处理的速度;还对数据挖掘和机器学习起到了有效地促进作用:促进了传统的数据挖掘算法向并行的数据挖掘算法转变;对贝叶斯算的改进提高了分类的精度;促进了以Spark平台为基础的算法的改进;最后提高了集群资源利用率。

Description

一种基于 Spark 平台的高效率文本分类方法
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种基于Spark平台的高效率文本分类方法。
背景技术
随着信息技术的快速发展和互联网逐渐的被广泛应用,现在互联网已经成为最重要的信息来源了。特别是云计算和大数据时代的来临,互联网上的数据正在呈指数级增长。它们具有如下特点:数据量大、维度高、结构复杂不规则,而且包含大量的噪声数据,但是他们蕴含着大量的商业价值。面对如此庞大、复杂的信息,如何快速的组织、管理、利用、挖掘出有价值的信息是一些非常重大的挑战。
现今大部分的数据都是以文本的形式存贮在互联网的。文本分类技术是信息检索和文本挖掘的重要基础。它的主要工作是根据先前定义的规则自动的将文本分成不同的类别。
朴素贝叶斯算法常用的十大经典的数据挖掘算法之一。经常应用于文本分类,数据挖掘等方面。它简单、运行速度快、易于实现,并且分类效果好。贝叶斯分类算法主要有两种模型:多变量伯努利模型和多项式模型。多变量伯努利模型将每一个特征项规看做是一个变量,且每个变量为二元变量,多项式模型的特征项取值规定为特征项在文本中出现的频率。由于多变量伯努利模型仅考虑了特征性是否在文档中出现,没有考虑出现的次数对文档类别的影响。而多项式模型将特征项在文档中出现的次数作为特征项的权重。所以最近许多学者都将多项式模型作为文本分类的研究基础。
ApacheSpark作为一种当今最流行的分布式计算框架之一,它是基于内存计算和并行计算的,非常适合大数据挖掘和机器学习。在速度方面,它是基于内存计算的,而Hadoop将中间计算结果写到HDFS文件系统,每次读写操作都要读写HDFS文件系统,所以Spark比Hadoop要快上100倍;而访问磁盘的速度比Hadoop快10倍。所以Spark更适合运行更复杂的算法,例如:迭代计算、图计算等。不仅如此,Spark支持对数据集的多种操作,如:map,filter,flatmap,reduceByKey等;而MapRduce只支持两种操作map和reduce。
自2009年,Spark诞生于加州伯克利大学AMPLab以来,到2013年成为Apache基金项目,它一直在快速的发展。在大数据挖掘领域,一直走在前沿。从数据处理的层面上来看,它包含批处理,交互式处理、流式处理等多种数据处理方式。从支持的云平台来看,有Hadoop,Cassandra,Mesos等多家云供平台应商。除了伯克利大学及Databricks公司自身外,Intel,IBM,Yahoo,Amazon等也一直在研究、利用、改进、发展它,国内腾讯、淘宝、优酷土豆等都在用Spark进行数据分析和机器学习,例如:进行数据的存储、清洗、聚类分析、协同过滤等。
(1)特征项
在分类模型中每一个特征项代表了一个对分类有用的特征属性,其值称为特征项权重,其计算方法有TF(单一词频)、TFIDF(词频反转文档)等。
(2)先验概率
根据历史记录和资料,分析得到的概率,如全概率中的“因”。在此分类模型中,它表示为类先验概率。
(3)条件概率
条件概率又称后验概率,是某事件在已知事件发生的前提下发生的概率。在此分类模型中,它表示为已知某个文档属于某个类的概率。
(4)VSM(向量空间模型)
将文本经过一系列的处理后,转换为对应的向量,向量的维度为文档中对应的特征项的数量,每一位的值为特征项的权重。每一个文档都转换成一个向量,最后会形成一个矩阵,由于文档中的特征各不相同,所以对应的向量取值也不同,这样就导致向量的稀疏性,从而形成的矩阵为稀疏矩阵。
(5)分类模型
根据贝叶斯公式及定理,然后根据TFIDF权重计算方法将文本转换成对应的向量,建立分类模型,此模型用于分类器参数的确定,和分类结果的测试。
(6)RDD(弹性分布式数据集)
RDD是Spark中一个容错的、并行的数据结构,可以根据用户的要求将数据存储到磁盘和内存中,并且能根据用户的设定设置分区数量。不仅如此,RDD还提供了一组丰富的操作来操作数据集。
(7)Job
一个job对应一个工作任务,它包含了很多的task,每一个task是一个能单独运行的线程。
(8)Task
被Driver端送到worker端上的executor上的工作单元,一个task通常会处理一个数据分片。
(9)Worker
集群中实际运行应用程序的代码与处理数据的工作节点,相当于Hadoop的slave节点。
(10)ClusterManager
集群资源管理的外部服务,支持Spark集群的资源管理器主要有Standalone、Yarn、Mesos等。其中Standalone是Spark自带的资源管理器,它能满足大部分计算环境中的资源管理。Yarn是Hadoop2.0的升级版,能够支持资源的和管理。Mesos提供了有效,跨分布式应用或框架的资源隔离和共享,可以运行Hadoop、MPI、Hypertable、Spark。使用了ZooKeeper实现容错复制,使用LinuxContainer来隔离任务,支持多种资源计划分配。
目前大多数的机器学习算法还是串行的,当数据量不大时,可以用串行的;但随着云计算和大数据时代的来临,数据呈指数增长,传统的串行算法显然不能满足处理的要求,而且之前的网格计算和并行计算资源利用率不高,导致成本很大,而且要求专门的服务器,不能将普通的PC机利用起来,Hadoop虽然可以满足一部分的大数据处理,但是它是通过map函数和reduce函数来实现功能的,map函数和reduce函数之间的通信都是通过HDFS文件系统的。这样Hadoop的读写HDFS文件系统的次数增加了,导致网络传输增加。而Spark是基于内存计算的分布式框架,它将要计算的数据和中间计算结果缓存到内存中,这样可以减少读写磁盘的次数,降低了网络传输带来的代价。
总之将数据挖掘算在Spark上运行实现既能够提升效率,又能有效地利用资源。
发明内容
本发明的目的在于提供一种基于Spark平台的高效率文本分类方法,将朴素贝叶斯算法加以改进并在Spark上实现,克服以多项式为基础的贝叶斯分类模型只考虑了文本中特征项占类中的比例、而没有考虑特征项所述类在整个训练集所占比例和含有该特征项的文档数占所有文档数的比例的缺陷。
本发明的目的是通过以下技术方案实现的。
一种基于Spark平台的高效率文本分类方法,包括:
(1)在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;
(2)通过客户端向Spark平台提交作业,Spark平台从HDFS文件系统中读取数据,将读取的数据转换为弹性分布式数据集RDD,并将其存储在内存中;
(3)根据所述RDD中的分区partition之间的依赖关系,Spark平台将所有任务分为不同的任务组stage,然后运行各个stage中的任务。
(4)在所述Spark平台上,对所述RDD进行预处理并将结果输出到HDFS文件系统上;
(5)进行训练,将步骤(4)中缓存的RDD中的文本内容进行向量化,转化为分布式行向量;并且通过特征项的权重计算,计算每一个特征项的权重。然后根据改进的条件概率公式,计算条件概率、weightsPerFeature(训练集特征项频率之和向量)和weightsPerLab(训练集标识频率向量),并且这些参数广播到各个工作节点;
(6)测试分类模型,各工作节点通过L(d)=argmax[h0jfjW0,j]计算出文本在所有类中最大概率,最后将结果输出。
其中,所述步骤(2)中,根据用户程序设定的RDD中partition数目来启动一定数目的并发线程数读取数据。
其中,所述步骤(4)中,在所述Spark平台上对所述RDD进行预处理并将结果输出到HDFS文件系统上的方法进一步包括:
各个工作节点从RDD中读取数据进行转换操作,先进行filter操作,过滤掉其中的停用词,以去除文本中的一些对分类无实际作用的噪声数据;然后对数据集中的特征项按照信息增益方法过滤掉一些信息增益很小的特征项,并将此时的RDD拷贝一份缓存起来;接着对数据集中的特征项进行聚合操作,最后在将各工作节点的结果输出到HDFS文件系统上。
其中,所述Spark平台由低层至高层依次包括:存储系统、资源管理器、计算框架及应用层。
本发明实施例与现有技术相比,本发明具有以下优点:
本发明提出的基于Spark平台的高效率文本分类方法,通过去除噪声算法和信息增益算法达到降噪、降维的目的,然后以多项式模型为基础建立分类模型,将文档转换成向量,计算其TFIDF权重后转换成分布式行向量。在计算条件概率时将特征项的全局影响因素和局部影响因素综合起来考虑,提高了分类的精度。本分类方法在Spark上实现,实现了大数据的快速并行处理,极大地提高了处理的速度。
本发明弥补了以多项式模型为基础的朴素贝叶斯模型的缺点与不足,同时还提高了处理的速度。此外还对数据挖掘和机器学习起到了有效地促进作用:第一促进了传统的数据挖掘算法向并行的数据挖掘算法转变;第二、对贝叶斯算的改进提高了分类的精度;第三、促进了以Spark平台为基础的算法的改进;最后提高了集群资源利用率。
附图说明
图1是本发明实施例提供的基于Spark平台的高效率文本分类方法流程图;
图2是本发明所述方法依赖的Spark生态系统架构图;
图3是本发明实施例提供的大数据的预处理流程图;
图4是本发明实施例提供的训练和测试图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本实施例中基于Spark平台的高效率文本分类方法包括以下步骤:
步骤101:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中。
步骤102:通过客户端向Spark集群提交作业,Spark从HDFS文件系统中读取数据,将输入数据转换为弹性分布式数据集(RDD)并根据用户程序设定的RDD中partition数目来启动一定数目的并发线程数读取数据,并将它存储在内存中。
步骤103:Spark的DAGScheduler根据RDD中的partition之间的依赖关系,将任务分为不同的stage,从Job的逻辑执行图中,从后往前推算,遇到ShuffleDependency就将其加入该stage。每个stage里面task数目由该stage最后一个RDD中的partition个数决定。如果stage最后要产生result,那么该stage将被划分为ResultTask,否则都是ShuffleMapTask。然后将stage作为tasksets提交给底层的TaskScheduler,TaskScheduler负责向cluster发送tasksets,并且调用backend来运行task。
步骤104:对数据集进行预处理,各个worker节点从RDD中读取数据进行transformation操作,先进行filter操作,过滤掉一些停用词,这样可以去除文本中的一些对分类无实际作用的噪声数据。此时数据集转换为FilteredRDD1,然后对数据集中的特征项按照信息增益方法过滤掉一些信息增益很小的特征项,已达到降维的目的,数据集转换为FilteredRDD2,并将此时的RDD拷贝一份缓存起来。接着执行reduceByKey操作对数据集中的特征项进行聚合操作,最后在将各工作节点的的结果发送到Driver端,输出到HDFS文件系统上。
步骤105:进行训练,将步骤三缓存的RDD中的文本内容进行向量化,转化为分布式行向量。并且通过特征项的权重计算,计算每一个特征项的权重。然后根据改进的条件概率公式,计算条件概率、weightsPerFeature和weightsPerLab,并且这些参数广播到各个工作节点。
步骤六:测试分类模型,各工作节点通过L(d)=argmax[h0jfjW0,j]计算出文本在所有类中最大概率,最后将结果输出。
图2描述了Spark生态系统架构图。Spark的底层存储系统可以为HDFS分布式文件系统、AmazonS3文件系统、Hypertable、Hbase、本地文件系统等。它的上层是各种支持的资源管理器,如:LocalModel,Standalone,EC2,Mesos,Yarn等,资源管理器管理整个系统的资源分配和调度,如:对各工作节点分配的cpu数,内存大小,网络带宽等。Spark的计算框架是在资源管理器的上层,与资源管理器协同配合实现计算操作完成用户的计算任务。最上层是各种应用,如:Bagel,Shark,StremingSpark,MachineLearning等。它们能为用户提供各种功能需求,实现各种复杂的工作任务等。
图3描述了在Spark上的预处理过程中数据集的变化形式。
步骤1:从HDFS上读取数据集,将数据集存储到RDD中。
步骤2:将上一步形成的ParallelCollectionRDD通过filter操作过滤掉一些对分类有害的噪声数据,此时,数据集转换为FilteredRDD。
步骤3:通过信息增益法将那些信息增益低于一定阈值的特征词去除,此时RDD的形式还是FilteredRDD。并且将这一步中的RDD复制一份留着以后用。
步骤4:通过reduceByKey对单词进行计数,并按照预先定义的规则进行编码。此时RDD转换成了ShffuledRDD。
步骤5:将各工作节点的值进行汇总统计,并传送到Driver端,最后输出到HDFS文件系统上。
所述整个过程都在内存中进行,除了最后一步将结果保存到HDFS文件系统上,其它步骤都是运行在内存中的。这样极大地提高了运算速度。
图3描述了贝叶斯分类器的训练和测试过程。
步骤1:将预处理过程中复制的RDD通过map函数给每一个文本添加一个类别。
步骤2:对上一步RDD进行计算,计算的方法为TFIDF权重计算方法,将文本转换成分布式行向量。此时RDD编程MappedRDD。
步骤3:训练模型,根据改进的条件概率公式训练模型的参数,计算出weightsPerFeature,weightsPerLab等参数,并将它们设为全局变量,广播到各工作节点。
步骤4:测试,计算文档在各类中的概率,将概率最大的类作为最后的类别。并将结果输出。
为了验证本发明所述方法的可靠性,将此方法与其它方法进行了对比,我们选取了20newsgroup,Reuters21578,SogouLab_Reduce,Fudancopora四种数据集,并且随机地选取了60%作为训练集,40%作为测试集。
从下表1中可以看出改进的贝叶斯方法在四种数据集上的分类精确度是最高的,相比TF权重计算的且没有改进的贝叶斯方法有很大的提高。相比TFIDF权重且没有改进的贝叶斯算法也有一定的改进。
表1各种分类方法在不同数据集上的精确度
Accuracy TF TFIDF Improved Bayesian
20news-18828 0.68 0.879 0.908
Reuters21578 0.911 0.923 0.939
SogouLab_Reduced 0.649 0.809 0.822
Fudan corpora 0.776 0.832 0.84
下表2中F1值也反映出了改进的贝叶斯算法在四种数据集上的综合性能是最好的,改进的贝叶斯算法在相比单一TF权重和TFIDF权重算法有一定的改进。在20newsgroup数据集上InprovedBayesian的F1值比TF的高14.4%,比TFIDF高2.7%,在其它数据集上也是一样。
表2各种分类方法在不同数据集上的F1值
F1 TF TFIDF Improved Bayesian
20news-18828 0.764 0.881 0.908
Reuters21578 0.92 0.928 0.939
SogouLab_Reduced 0.723 0.821 0.83
Fudan corpora 0.762 0.823 0.831
综上,本发明应用HDFS文件系统的高容错性、高数据访问吞吐量,将大量的数据集上传到HDFS文件系统中,然后将Spark数据预处理程序通过客户端提交到Spark集群,Spark是基于并行计算和内存计算的云平台,它会将提交的工作化分为一系列的子任务,接着根据数据就近和本地性原则将任务分发到各工作节点,预处理完后,各工作节点利用改进的贝叶斯算法,训练数据,计算各个类别下的特征项的权重,建立贝叶斯分类模型,获得到模型参数,最后利用改进的分类模型测试分类精度。各个任务并行的运行在工作节点上,提高了任务的并行度,减少了数据的处理时间,且大部分数据都驻留在内存中,减少了读写HDFS文件系统的次数,也减少了数据传输的网络开销。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于Spark平台的高效率文本分类方法,其特征在于,该方法包括:
(1)在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;
(2)通过客户端向Spark平台提交作业,Spark平台从HDFS文件系统中读取数据,将读取的数据转换为弹性分布式数据集RDD,并将其存储在内存中;
(3)根据所述RDD中的分区partition之间的依赖关系,Spark平台将所有任务分为不同的任务组stage,然后运行各个stage中的任务;
(4)在所述Spark平台上,对所述RDD进行预处理并将结果输出到HDFS文件系统上;
(5)进行训练,将步骤(4)中缓存的RDD中的文本内容进行向量化,转化为分布式行向量;并且通过特征项的权重计算,计算每一个特征项的权重;然后根据改进的条件概率公式,计算条件概率、训练集特征项频率之和向量、训练集标识频率向量,并且将这些参数广播到各个工作节点;
(6)测试分类模型,各工作节点计算出文本在所有类中最大概率,最后将结果输出。
2.如权利要求1所述的基于Spark平台的高效率文本分类方法,其特征在于,所述步骤(2)中,根据用户程序设定的RDD中partition数目来启动一定数目的并发线程数读取数据。
3.如权利要求1所述的基于Spark平台的高效率文本分类方法,其特征在于,所述步骤(4)中,在所述Spark平台上对所述RDD进行预处理并将结果输出到HDFS文件系统上的方法进一步包括:
各个工作节点从RDD中读取数据进行转换操作,先进行filter操作,过滤掉其中的停用词,以去除文本中的一些对分类无实际作用的噪声数据;然后对数据集中的特征项按照信息增益方法过滤掉一些信息增益很小的特征项,并将此时的RDD拷贝一份缓存起来;接着对数据集中的特征项进行聚合操作,最后在将各工作节点的结果输出到HDFS文件系统上。
4.如权利要求1所述的基于Spark平台的高效率文本分类方法,其特征在于,所述Spark平台由低层至高层依次包括:存储系统、资源管理器、计算框架及应用层。
CN201610066429.XA 2016-01-29 2016-01-29 一种基于 Spark 平台的高效率文本分类方法 Pending CN105740424A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610066429.XA CN105740424A (zh) 2016-01-29 2016-01-29 一种基于 Spark 平台的高效率文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610066429.XA CN105740424A (zh) 2016-01-29 2016-01-29 一种基于 Spark 平台的高效率文本分类方法

Publications (1)

Publication Number Publication Date
CN105740424A true CN105740424A (zh) 2016-07-06

Family

ID=56248059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610066429.XA Pending CN105740424A (zh) 2016-01-29 2016-01-29 一种基于 Spark 平台的高效率文本分类方法

Country Status (1)

Country Link
CN (1) CN105740424A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202556A (zh) * 2016-07-28 2016-12-07 中国电子科技集团公司第二十八研究所 一种基于Spark的海量文本关键词快速提取方法
CN106339458A (zh) * 2016-08-26 2017-01-18 华为技术有限公司 一种基于弹性分布式数据集的Stage划分方法和终端
CN106777006A (zh) * 2016-12-07 2017-05-31 重庆邮电大学 一种基于Spark下并行超网络的分类算法
CN106886569A (zh) * 2017-01-13 2017-06-23 重庆邮电大学 一种基于mpi的ml‑knn多标签中文文本分类方法
CN106951407A (zh) * 2017-03-15 2017-07-14 南京理工大学 基于Spark平台的快速高精度语义相关度计算方法
CN107038244A (zh) * 2017-04-24 2017-08-11 北京北信源软件股份有限公司 一种数据挖掘方法和装置、一种可读介质和存储控制器
KR101772108B1 (ko) 2016-07-15 2017-08-28 한국항공대학교산학협력단 스파크 기반의 메모리 관리 시스템 및 방법
CN107145548A (zh) * 2017-04-26 2017-09-08 武汉大学 一种基于Spark平台的并行序列模式挖掘方法
CN107193900A (zh) * 2017-05-10 2017-09-22 上海交通大学 一种可疑手机短信的识别系统及其使用方法
CN107480071A (zh) * 2017-08-25 2017-12-15 深圳大学 缓存数据迁移方法及装置
CN107577708A (zh) * 2017-07-31 2018-01-12 北京北信源软件股份有限公司 基于SparkMLlib文档分类的类库构建方法及系统
CN107870949A (zh) * 2016-09-28 2018-04-03 腾讯科技(深圳)有限公司 数据分析作业依赖关系生成方法和系统
CN107948227A (zh) * 2016-10-13 2018-04-20 北京国双科技有限公司 分布式系统平台的性能优化方法及装置
CN107967335A (zh) * 2017-12-04 2018-04-27 华中科技大学 一种分布式sql处理方法及系统
CN107993151A (zh) * 2018-01-17 2018-05-04 平安科技(深圳)有限公司 基金交易清算方法、装置、设备及计算机可读存储介质
CN108021679A (zh) * 2017-12-07 2018-05-11 国网山东省电力公司电力科学研究院 一种并行化的电力设备缺陷文本分类方法
CN108427775A (zh) * 2018-06-04 2018-08-21 成都市大匠通科技有限公司 一种基于多项贝叶斯的工程造价清单分类方法
CN108446375A (zh) * 2018-03-16 2018-08-24 湘潭大学 一种基于Spark平台的多尺度关联规则方法
CN108710802A (zh) * 2018-06-08 2018-10-26 南京大学 一种特征优选的Android勒索软件检测方法
CN108846128A (zh) * 2018-06-30 2018-11-20 合肥工业大学 一种基于自适应噪音降噪编码器的跨领域文本分类方法
WO2019037091A1 (zh) * 2017-08-25 2019-02-28 深圳大学 缓存数据迁移方法及装置
CN109408574A (zh) * 2018-10-18 2019-03-01 国网山东省电力公司电力科学研究院 基于文本挖掘技术的投诉责任认定系统
CN109408711A (zh) * 2018-09-29 2019-03-01 北京三快在线科技有限公司 数据过滤方法、装置、电子设备及存储介质
CN109669987A (zh) * 2018-12-13 2019-04-23 国网河北省电力有限公司石家庄供电分公司 一种大数据存储优化方法
CN109981367A (zh) * 2019-03-28 2019-07-05 湖南大学 基于内网穿透的虚机paas服务管理的方法
CN110750251A (zh) * 2019-09-25 2020-02-04 成都品果科技有限公司 读写通信方法、读写器装置及存储介质
CN111061565A (zh) * 2019-12-12 2020-04-24 湖南大学 一种Spark环境下的两段式流水线任务调度方法及系统
CN111126422A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 行业模型的建立及行业的确定方法、装置、设备及介质
CN111274796A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 向量获取方法、装置、电子设备以及计算机可读存储介质
CN111368076A (zh) * 2020-02-27 2020-07-03 中国地质大学(武汉) 一种基于随机森林的伯努利朴素贝叶斯文本分类方法
CN112782469A (zh) * 2021-01-13 2021-05-11 公诚管理咨询有限公司 一种基于分布式计算的智能电网计量处理方法
CN113590710A (zh) * 2021-06-30 2021-11-02 南京财经大学 一种基于Spark内存计算的粮食质量分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810293A (zh) * 2014-02-28 2014-05-21 广州云宏信息科技有限公司 基于Hadoop的文本分类方法及装置
CN104239501A (zh) * 2014-09-10 2014-12-24 中国电子科技集团公司第二十八研究所 一种基于Spark的海量视频语义标注方法
CN104598631A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 分布式数据处理平台
CN105183792A (zh) * 2015-08-21 2015-12-23 东南大学 一种基于局部敏感哈希的分布式快速文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810293A (zh) * 2014-02-28 2014-05-21 广州云宏信息科技有限公司 基于Hadoop的文本分类方法及装置
CN104239501A (zh) * 2014-09-10 2014-12-24 中国电子科技集团公司第二十八研究所 一种基于Spark的海量视频语义标注方法
CN104598631A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 分布式数据处理平台
CN105183792A (zh) * 2015-08-21 2015-12-23 东南大学 一种基于局部敏感哈希的分布式快速文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鲁彬: "基于Spark的贝叶斯文本分类算法研究与实现", 《HTTP://WWW.WANFANGDATA.COM.CN/DETAILS/DETAIL.DO?_TYPE=DEGREE&ID=Y3095379》 *

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101772108B1 (ko) 2016-07-15 2017-08-28 한국항공대학교산학협력단 스파크 기반의 메모리 관리 시스템 및 방법
CN106202556B (zh) * 2016-07-28 2019-08-30 中国电子科技集团公司第二十八研究所 一种基于Spark的海量文本关键词快速提取方法
CN106202556A (zh) * 2016-07-28 2016-12-07 中国电子科技集团公司第二十八研究所 一种基于Spark的海量文本关键词快速提取方法
CN106339458A (zh) * 2016-08-26 2017-01-18 华为技术有限公司 一种基于弹性分布式数据集的Stage划分方法和终端
CN106339458B (zh) * 2016-08-26 2020-01-21 华为技术有限公司 一种基于弹性分布式数据集的Stage划分方法和终端
CN107870949A (zh) * 2016-09-28 2018-04-03 腾讯科技(深圳)有限公司 数据分析作业依赖关系生成方法和系统
CN107870949B (zh) * 2016-09-28 2021-09-07 腾讯科技(深圳)有限公司 数据分析作业依赖关系生成方法和系统
CN107948227A (zh) * 2016-10-13 2018-04-20 北京国双科技有限公司 分布式系统平台的性能优化方法及装置
CN107948227B (zh) * 2016-10-13 2021-06-08 北京国双科技有限公司 分布式系统平台的性能优化方法及装置
CN106777006A (zh) * 2016-12-07 2017-05-31 重庆邮电大学 一种基于Spark下并行超网络的分类算法
CN106777006B (zh) * 2016-12-07 2020-10-23 重庆邮电大学 一种基于Spark下并行超网络的分类方法
CN106886569A (zh) * 2017-01-13 2017-06-23 重庆邮电大学 一种基于mpi的ml‑knn多标签中文文本分类方法
CN106886569B (zh) * 2017-01-13 2020-05-12 重庆邮电大学 一种基于mpi的ml-knn多标签中文文本分类方法
CN106951407A (zh) * 2017-03-15 2017-07-14 南京理工大学 基于Spark平台的快速高精度语义相关度计算方法
CN107038244A (zh) * 2017-04-24 2017-08-11 北京北信源软件股份有限公司 一种数据挖掘方法和装置、一种可读介质和存储控制器
CN107145548B (zh) * 2017-04-26 2019-08-20 武汉大学 一种基于Spark平台的并行序列模式挖掘方法
CN107145548A (zh) * 2017-04-26 2017-09-08 武汉大学 一种基于Spark平台的并行序列模式挖掘方法
CN107193900A (zh) * 2017-05-10 2017-09-22 上海交通大学 一种可疑手机短信的识别系统及其使用方法
CN107577708A (zh) * 2017-07-31 2018-01-12 北京北信源软件股份有限公司 基于SparkMLlib文档分类的类库构建方法及系统
WO2019037091A1 (zh) * 2017-08-25 2019-02-28 深圳大学 缓存数据迁移方法及装置
CN107480071A (zh) * 2017-08-25 2017-12-15 深圳大学 缓存数据迁移方法及装置
CN107967335A (zh) * 2017-12-04 2018-04-27 华中科技大学 一种分布式sql处理方法及系统
CN107967335B (zh) * 2017-12-04 2020-10-16 华中科技大学 一种分布式sql处理方法及系统
CN108021679A (zh) * 2017-12-07 2018-05-11 国网山东省电力公司电力科学研究院 一种并行化的电力设备缺陷文本分类方法
CN107993151B (zh) * 2018-01-17 2020-12-29 平安科技(深圳)有限公司 基金交易清算方法、装置、设备及计算机可读存储介质
CN107993151A (zh) * 2018-01-17 2018-05-04 平安科技(深圳)有限公司 基金交易清算方法、装置、设备及计算机可读存储介质
CN108446375A (zh) * 2018-03-16 2018-08-24 湘潭大学 一种基于Spark平台的多尺度关联规则方法
CN108427775A (zh) * 2018-06-04 2018-08-21 成都市大匠通科技有限公司 一种基于多项贝叶斯的工程造价清单分类方法
CN108710802A (zh) * 2018-06-08 2018-10-26 南京大学 一种特征优选的Android勒索软件检测方法
CN108846128B (zh) * 2018-06-30 2021-09-14 合肥工业大学 一种基于自适应噪音降噪编码器的跨领域文本分类方法
CN108846128A (zh) * 2018-06-30 2018-11-20 合肥工业大学 一种基于自适应噪音降噪编码器的跨领域文本分类方法
CN109408711A (zh) * 2018-09-29 2019-03-01 北京三快在线科技有限公司 数据过滤方法、装置、电子设备及存储介质
CN109408574A (zh) * 2018-10-18 2019-03-01 国网山东省电力公司电力科学研究院 基于文本挖掘技术的投诉责任认定系统
CN109408574B (zh) * 2018-10-18 2021-08-31 国网山东省电力公司电力科学研究院 基于文本挖掘技术的投诉责任认定系统
CN111126422A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 行业模型的建立及行业的确定方法、装置、设备及介质
CN111126422B (zh) * 2018-11-01 2023-10-31 百度在线网络技术(北京)有限公司 行业模型的建立及行业的确定方法、装置、设备及介质
CN111274796A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 向量获取方法、装置、电子设备以及计算机可读存储介质
CN111274796B (zh) * 2018-12-04 2023-04-07 北京嘀嘀无限科技发展有限公司 向量获取方法、装置、电子设备以及计算机可读存储介质
CN109669987A (zh) * 2018-12-13 2019-04-23 国网河北省电力有限公司石家庄供电分公司 一种大数据存储优化方法
CN109981367B (zh) * 2019-03-28 2021-05-07 湖南大学 基于内网穿透的虚机paas服务管理的方法
CN109981367A (zh) * 2019-03-28 2019-07-05 湖南大学 基于内网穿透的虚机paas服务管理的方法
CN110750251B (zh) * 2019-09-25 2023-03-24 成都品果科技有限公司 读写通信方法、读写器装置及存储介质
CN110750251A (zh) * 2019-09-25 2020-02-04 成都品果科技有限公司 读写通信方法、读写器装置及存储介质
CN111061565A (zh) * 2019-12-12 2020-04-24 湖南大学 一种Spark环境下的两段式流水线任务调度方法及系统
CN111061565B (zh) * 2019-12-12 2023-08-25 湖南大学 一种Spark环境下的两段式流水线任务调度方法及系统
CN111368076A (zh) * 2020-02-27 2020-07-03 中国地质大学(武汉) 一种基于随机森林的伯努利朴素贝叶斯文本分类方法
CN111368076B (zh) * 2020-02-27 2023-04-07 中国地质大学(武汉) 一种基于随机森林的伯努利朴素贝叶斯文本分类方法
CN112782469A (zh) * 2021-01-13 2021-05-11 公诚管理咨询有限公司 一种基于分布式计算的智能电网计量处理方法
CN113590710A (zh) * 2021-06-30 2021-11-02 南京财经大学 一种基于Spark内存计算的粮食质量分类方法

Similar Documents

Publication Publication Date Title
CN105740424A (zh) 一种基于 Spark 平台的高效率文本分类方法
CN105550374A (zh) Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN106874478A (zh) 基于Spark的并行化随机标签子集多标签文本分类方法
KR102134952B1 (ko) 데이터 처리 방법 및 시스템
Du et al. Parallel processing of improved KNN text classification algorithm based on Hadoop
CN103336790A (zh) 基于Hadoop的邻域粗糙集快速属性约简方法
CN102737126A (zh) 云计算环境下的分类规则挖掘方法
CN103336791A (zh) 基于Hadoop的粗糙集快速属性约简方法
CN104077280A (zh) 社区发现并行化方法和系统、主节点和运算节点设备
Jiang et al. Parallel K-Medoids clustering algorithm based on Hadoop
Wang et al. Design and Application of a Text Clustering Algorithm Based on Parallelized K-Means Clustering.
Zhu et al. A classification algorithm of CART decision tree based on MapReduce attribute weights
Xu Research and implementation of improved random forest algorithm based on Spark
Han et al. SlimML: Removing non-critical input data in large-scale iterative machine learning
CN104636814A (zh) 一种随机森林模型的优化方法及系统
CN108334532B (zh) 一种基于Spark的Eclat并行化方法、系统及装置
CN115795131B (zh) 基于人工智能的电子档案分类方法、装置及电子设备
Chen et al. DBSCAN-PSM: an improvement method of DBSCAN algorithm on Spark
Bai et al. Association rule mining algorithm based on Spark for pesticide transaction data analyses
Shang et al. Research on the application of artificial intelligence and distributed parallel computing in archives classification
Lakshmi et al. Machine learning approaches on map reduce for Big Data analytics
Townsend et al. k-NN text classification using an FPGA-based sparse matrix vector multiplication accelerator
US20220383036A1 (en) Clustering data using neural networks based on normalized cuts
Feng et al. Web Service QoS Classification Based on Optimized Convolutional Neural Network
CN114266653A (zh) 集成学习的客户贷款风险预估方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160706

RJ01 Rejection of invention patent application after publication