CN113590710A - 一种基于Spark内存计算的粮食质量分类方法 - Google Patents

一种基于Spark内存计算的粮食质量分类方法 Download PDF

Info

Publication number
CN113590710A
CN113590710A CN202110731588.8A CN202110731588A CN113590710A CN 113590710 A CN113590710 A CN 113590710A CN 202110731588 A CN202110731588 A CN 202110731588A CN 113590710 A CN113590710 A CN 113590710A
Authority
CN
China
Prior art keywords
grain
spark
rice
grade
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110731588.8A
Other languages
English (en)
Inventor
曹杰
王有权
马福民
申冬琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Finance and Economics
Original Assignee
Nanjing University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Finance and Economics filed Critical Nanjing University of Finance and Economics
Priority to CN202110731588.8A priority Critical patent/CN113590710A/zh
Publication of CN113590710A publication Critical patent/CN113590710A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Agronomy & Crop Science (AREA)
  • Animal Husbandry (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于Spark内存计算的粮食质量分类方法,包括两个步骤,即粮库质量评价指标体系构建和基于Spark内存计算的粮食质量分类方法,具体内容如下:粮库质量评价指标体系构建,粮库中粮食(包括小麦、早籼稻谷、晚籼稻谷、籼糯稻谷、粳稻谷、粳糯稻谷)进行质量评价体系构建,然后,针对不同种类粮食存在等级严重不均衡以及数据量比较大的问题,提出了基于Spark内存计算的粮食质量分类方法,主要通过合成少数过采样技术解决每个Spark节点中类别的不均衡问题,并行计算则采用并行k最近邻方法;最后,通过不断的迭代实现每个未知粮库中不同仓中粮食的类别分类。

Description

一种基于Spark内存计算的粮食质量分类方法
技术领域
本发明涉及粮食大数据云平台粮食监管领域,尤其涉及到基于Spark内存计算的粮食质量分类方法。
背景技术
目前我国粮库粮食的质量水平检测多来自于抽样检测,即基于不同性质的粮食来对不同的粮食质量,评判标准也各有差异,这导致各地各粮库的粮食很难有统一的标准来进行评判。因此粮库管理人员容易通过陈粮化处理、转圈粮、差粮换好粮等方式来欺骗粮情监控部门。因此,如何通过粮食大数据平台以及抽检的各种粮食质量质量指标来对粮库的粮食进行质量分类是当前我国粮食粮情监管的重要组成部分。
目前的国家和地方粮食的检测方法多针对不同的粮食的质量指标的阈值来定义,如小麦质量标准判定,则通常根据容重、不完善粒比例、杂质总含量比例、矿物质含量比例、水分比例、色泽、气味等进行评判,然后针对不同等级的粮食采用不同的阈值划分,但每个粮库的粮食在某些质量标准上达到某一等级,而在某些质量指标上达不到这一等级或超过这一等级,使得阈值划分方法既耗费了大量的人力物力,同时也很难实时、准确、全面地掌握各粮库实际的粮食质量信息。
本发明从每个粮库中包含的稻谷以及小麦的质量入手,通过抽样采集的各粮食的质量指标来研究基于Spark内存计算的粮食质量分类方法。具体的说,通过调研江苏省政策性粮食信息服务云平台采集到粮食粮情指标数据,对不同粮食采用不同的分级标准,通过人工的界定的一些标记粮食质量分类选择范围。目前有少量的粮食质量分类方法,但真实的粮情大数据中通常存在着大量的无标记数据以及少量的人工标记的粮食粮情等级数据。各等级的粮食数量通常存在很大的差异,如高等级和低等级的粮食存在的比例较少,大多是中间比例的粮食,即各等级粮食质量分类存在严重的类别不平衡性。此外,由于粮库粮情信息随着年份季节等因素的影响,需要处理不断增长的规模、复杂性等分区,以及现代数据集的不平衡性,这些为粮库粮食质量分类带来了巨大的困扰。
由于数据量太大,无法使用标准计算机来实现粮食质量分类,高性能计算平台的兴起,如GPU和集群来实现。为此,本发明提出了一种基于Spark内存计算的粮食质量分类方法,通过分析每个类中存在的实例级困难来分析和理解多类不平衡数据集的特性。首先通过粮食质量评价指标体系构建实现粮食质量分类的指标构建工作,接着从多类不平衡的大数据学习方法,解决类不均衡问题和分类器学习构建等工作。
现有的Spark内存模型如下述
1堆内和堆外内存规划
Spark执行器(Executor)的内存管理建立在JVM的内存管理之上,Spark对JVM的空间(OnHeap+Off-heap)进行了更为详细的分配,以充分利用内存。同时,Spark引入了Off-heap内存模式,使之可以直接在工作节点的系统内存中开辟空间,进一步优化了内存的使用(可以理解为是独立于JVM托管的Heap之外利用c-style的malloc从os分配到的memory。由于不再由JVM托管,通过高效的内存管理,可以避免JVM object overhead和Garbagecollection的开销)。
运行于Executor中的Task同时可使用JVM(OnHeap+Off-heap)和Off-heap两种模式的内存。
·JVM OnHeap内存:大小由”--executor-memory”(即spark.executor.memory)参数指定。Executor中运行的并发任务共享JVM堆内内存。
·JVM OffHeap内存:大小由”spark.yarn.executor.memoryOverhead”参数指定,主要用于JVM自身,字符串,NIO Buffer等开销。
·Off-heap模式:默认情况下Off-heap模式的内存并不启用,可以通过”spark.memory.offHeap.enabled”参数开启,并由spark.memory.offHeap.size指定堆外内存的大小(占用的空间划归JVM OffHeap内存)。
spark对数据的核心抽象——弹性分布数据集(Resilient DistributedDataSet,简称RDD),RDD其实就是分布式的元素集合。
在spark中,对数据的所有操作不外乎创建RDD,转化已有的RDD以及调用RDD操作进行求职,而这一切的背后,spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。
发明内容
本发明目的是,提出一种Spark内存计算的粮食质量分类方法。针对各种粮食的6个等级存在显著的类别不均衡性问题,本发明提出在每个RDD数据上采用局部数据过采样来解决,抽样可以通过添加或删除一些类别的样本,使少数类的大小更接近多数类;从而得到更科学的分类。
本发明的技术方案是,包括通过实施方式提供一种基于Spark内存计算的粮食质量分类方法,该方法包括两个部分,第一部分为粮库质量评价指标体系构建,第二部分为基于Spark内存计算的粮食质量分类方法,并解决粮食质量分类的不平衡问题。本发明的具体内容如下:
1)粮库质量评价指标体系构建
粮库中粮食(包括小麦、早籼稻谷、晚籼稻谷、籼糯稻谷、粳稻谷、粳糯稻谷)进行质量评价体系构建,具体如下:
(1)粮食质量指标
主要针对粮库中每个粮食仓中:1)容重;2)不完善粒比例;3)杂质总含量比例;4)矿物质含量比例5)水分比例;6)色泽正常与否;7)气味正常与否进行采集,并上传到粮食信息服务云平台,主要将粮食质量分为6类:等级一、等级二、等级三、等级四、等级五、等级外。
(2)质量指标
主要针对粮库中每个粮食(稻谷)仓中的:1)出糙率;2)整精米率;3)杂质含量百分比;4)水分含量百分比;5)黄粒米含量百分比;6)谷外糙米含量百分比;7)互混率百分比;8)色泽正常与否;9)气味正常与否进行采集,并上传到粮食信息服务云平台,质量分为6类:等级一、等级二、等级三、等级四、等级五、等级外。
2)基于Spark内存计算的粮食质量分类方法
输入的麦子或稻子分别构建Spark分类器,Spark尽可能在主内存中存储Map/Reduce步骤之间的结果。Spark能够直接在内存中复用中间结果,不要反复读取HDFS(Hadoop分布式文件系统),能够提高对分类方法的处理性能。Spark从驱动节点创建一个Spark上下文对象,然后Spark上下文从集群管理器请求资源,并获取集群节点上的执行器,执行器进程则管理一个或多个CPU线程上的任务计算。本发明主要采用弹性分布式数据集(RDD)数据结构来抽象数据以进行并行计算。RDD将数据集存储为分区,这些分区可以在一个或多个集群节点上拆分。这种抽象允许用户执行相同的操作,而不管数据是如何分布的。Map、Filter和Reduce等函数可以直接在RDD上运行,类似SQL的表操作可以通过进一步抽象的数据帧(DataFrame)和数据集的数据结构来实现。
有益效果:针对各种粮食的6个等级存在显著的类别不均衡性问题,本发明提出在每个RDD数据上采用局部数据过采样来解决,抽样可以通过添加或删除一些类别的样本,使少数类的大小更接近多数类。具体来说,通过合成少数过采样技术来实现,即:通过复制随机选择的实例并将其添加到当前数据集来执行,则可能需要使用替换重新采样来平衡这些类,然后将采样的实例连接到现有的数据帧以形成平衡的数据集。本发明解决粮食质量分类的不平衡问题。
附图说明
图1为本发明的整体框架图;
具体实施方式
本发明的整体框架图如图1所示,首先选取基于各粮库的各种粮食的质量指标,然后基于这些特征使用基于Spark内存计算的粮食质量分类方法对不同的粮库中的粮食进行分类。具体实施方式如下所示:
步骤1:粮库质量评价指标体系构建,根据各粮库数据,计算每个粮库中仓中包含的不同种类粮的质量指标值,根据人工标记的一些样本数据作为训练数据集(仓中粮食质量类别是已知的),其他未标记的数据作为测试数据集(仓中粮食质量类别是未知的)。针对(1)小麦;(2)早籼稻谷、晚籼稻谷、籼糯稻谷;(3)粳稻谷、粳糯稻谷分别建立不同的数据集。
本发明主要针对江苏省粮库中存在的(1)小麦;(2)早籼稻谷、晚籼稻谷、籼糯稻谷;(3)粳稻谷、粳糯稻谷进行质量评价体系构建,具体如下:
(1)小麦质量指标
主要针对粮库中每个小麦仓中:1)容重;2)不完善粒比例;3)杂质总含量比例;4)矿物质含量比例5)水分比例;6)色泽正常与否;7)气味正常与否进行采集,并上传到粮食信息服务云平台,主要将小麦质量分为6类:等级一、等级二、等级三、等级四、等级五、等级外。
(2)早籼稻谷、晚籼稻谷、籼糯稻谷质量指标
主要针对粮库中每个早籼稻谷、晚籼稻谷、籼糯稻谷仓中的:1)出糙率;2)整精米率;3)杂质含量百分比;4)水分含量百分比;5)黄粒米含量百分比;6)谷外糙米含量百分比;7)互混率百分比;8)色泽正常与否;9)气味正常与否进行采集,并并上传到粮食信息服务云平台,主要将早籼稻谷、晚籼稻谷、籼糯稻谷质量分为6类:等级一、等级二、等级三、等级四、等级五、等级外。
(3)粳稻谷、粳糯稻谷质量指标
主要针对粮库中每个粳稻谷、粳糯稻谷仓中的:1)出糙率;2)整精米率;3)杂质含量百分比;4)水分含量百分比;5)黄粒米含量百分比;6)谷外糙米含量百分比;7)互混率百分比;8)色泽正常与否;9)气味正常与否进行采集,并上传到粮食信息服务云平台,主要将粳稻谷、粳糯稻谷质量分为6类:等级一、等级二、等级三、等级四、等级五、等级外。
步骤2:本发明输入数据以文件块(Block)形式存储在粮食信息服务云平台的HDFS上,并将这些数据从HDFS上加载到RDD。由于Spark仅仅是计算框架,其本身不具有文件系统功能,而HDFS则具有高容错性和安全备份特征,可以实现高吞吐量的分布式计算。
步骤3:初始化分类结果,这一步主要在主节点完成,主要是将具有分类标记的数据集作为初始化类别。然后通过K最近邻方法从RDD中选取出这些数据作为分发数据,并将这些数据广播分发到各个RDD数据集中。
步骤4:由于每种粮食的6个等级存在严重的类别不均衡性,本发明拟人工少数类过采样法来实现少数类别样本的补充,即每创建一个新的样本,将随机选取5个当前类的样本,然后对每个特征分别进行平均,从而生成一个新的合成样本,通过这种方式使得类别的样本数量上在每个RDD上基本达到平衡。
步骤5:为了计算每个现有样本的少数类状态,本发明首先执行并行k最近邻,k设置为5。并行k最近邻算法对所有RDD分别执行k最近邻,同时从返回的邻居中排除查询点本身。每个实例都会根据属于自己类的相邻实例的数量给出一个类标签,然后为每个实例生成的少数类型标签存储为数据帧,该数据帧也可以保存到RDD中,以便将来可以重用。
步骤6:利用Spark算法来实现分类结果汇总,总体上采用MapReduce思想,在每次迭代时,先用Map类在每个RDD并行化执行k最近邻,然后再用类Reduce操作将每个的k最近邻分类最好的类别收集在一起,以便获取更多的未标记数据样本的预测类别,并将所有具有相同类别的点汇总到一个形成一个新的RDD,最后把类别置信度比较高的未标记样本标记为预测的类别,最后把所有具有标记的样本再次广播到每个结点上进行迭代,直至目标函数收敛或者满足迭代结束条件。

Claims (6)

1.一种基于Spark内存计算的粮食质量分类方法,其特征是,包括两个步骤,即粮库质量评价指标体系构建和基于Spark内存计算的粮食质量分类方法,具体内容如下:
1)粮库质量评价指标体系构建
粮库中粮食包括小麦、早籼稻谷、晚籼稻谷、籼糯稻谷、粳稻谷、粳糯稻谷进行质量评价体系构建,具体如下:
(1)粮食质量指标
主要针对粮库中每个粮食仓中:1)容重;2)不完善粒比例;3)杂质总含量比例;4)矿物质含量比例5)水分比例;6)色泽正常与否;7)气味正常与否进行采集,并上传到粮食信息服务云平台,主要将粮食质量分为6类:等级一、等级二、等级三、等级四、等级五、等级外。
(2)质量指标
针对粮库中每个粮食仓中的:1)出糙率;2)整精米率;3)杂质含量百分比;4)水分含量百分比;5)黄粒米含量百分比;6)谷外糙米含量百分比;7)互混率百分比;8)色泽正常与否;9)气味正常与否进行采集,并上传到粮食信息服务云平台,质量分为6类:等级一、等级二、等级三、等级四、等级五、等级外。
2)基于Spark内存计算的粮食质量分类方法
输入的麦子或稻子分别构建Spark分类器,Spark在主内存中存储Map/Reduce步骤之间的结果;Spark能够直接在内存中复用中间结果,不要反复读取HDF;Spark从驱动节点创建一个Spark上下文对象,然后Spark上下文从集群管理器请求资源,并获取集群节点上的执行器,执行器进程则管理一个或多个CPU线程上的任务计算;用弹性分布式数据集RDD数据结构来抽象数据以进行并行计算;RDD将数据集存储为分区,这些分区在一个或多个集群节点上拆分;这种抽象允许用户执行相同的操作,而不管数据是如何分布的;Map、Filter和Reduce函数直接在RDD上运行,SQL的表操作通过进一步抽象的数据帧(DataFrame)和数据集的数据结构来实现。
2.根据权利要求2所述的基于Spark内存计算的粮食质量分类方法,其特征是,粮食包括小麦、早籼稻谷、晚籼稻谷、籼糯稻谷、粳稻谷、粳糯稻谷。
3.根据权利要求1所述的基于Spark内存计算的粮食质量分类方法,其特征是,输入数据以文件块(Block)形式存储在粮食信息服务云平台的HDFS上,并将这些数据从HDFS上加载到RDD实现高吞吐量的分布式计算;
分类结果中将具有分类标记的数据集作为初始化类别。然后通过K最近邻方法从RDD中选取出这些数据作为分发数据,并将这些数据广播分发到各个RDD数据集中。
4.根据权利要求1所述的基于Spark内存计算的粮食质量分类方法,其特征是,首先执行并行k最近邻,k设置为5。并行k最近邻算法对所有RDD分别执行k最近邻,同时从返回的邻居中排除查询点本身。每个实例都会根据属于自己类的相邻实例的数量给出一个类标签,然后为每个实例生成的少数类型标签存储为数据帧,该数据帧也可以保存到RDD中,以便将来可以重用。
5.根据权利要求4所述的基于Spark内存计算的粮食质量分类方法,其特征是,每种粮食的6个等级存在类别不均衡性,人工少数类过采样法来实现少数类别样本的补充,即每创建一个新的样本,将随机选取5个当前类的样本,然后对每个特征分别进行平均,从而生成一个新的合成样本,通过这种方式使得类别的样本数量上在每个RDD上基本达到平衡。
6.根据权利要求4所述的基于Spark内存计算的粮食质量分类方法,其特征是,利用Spark算法来实现分类结果汇总,总体上采用MapReduce思想,在每次迭代时,先用Map类在每个RDD并行化执行k最近邻,然后再用类Reduce操作将每个的k最近邻分类最好的类别收集在一起,以便获取更多的未标记数据样本的预测类别,并将所有具有相同类别的点汇总到一个形成一个新的RDD,最后把类别置信度比较高的未标记样本标记为预测的类别,最后把所有具有标记的样本再次广播到每个结点上进行迭代,直至目标函数收敛或者满足迭代结束条件。
CN202110731588.8A 2021-06-30 2021-06-30 一种基于Spark内存计算的粮食质量分类方法 Pending CN113590710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110731588.8A CN113590710A (zh) 2021-06-30 2021-06-30 一种基于Spark内存计算的粮食质量分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110731588.8A CN113590710A (zh) 2021-06-30 2021-06-30 一种基于Spark内存计算的粮食质量分类方法

Publications (1)

Publication Number Publication Date
CN113590710A true CN113590710A (zh) 2021-11-02

Family

ID=78245100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110731588.8A Pending CN113590710A (zh) 2021-06-30 2021-06-30 一种基于Spark内存计算的粮食质量分类方法

Country Status (1)

Country Link
CN (1) CN113590710A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117611927A (zh) * 2024-01-22 2024-02-27 中储粮成都储藏研究院有限公司 一种稻谷互混率检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243394A (zh) * 2015-11-03 2016-01-13 中国矿业大学 一种类不平衡对分类模型性能影响程度的评价方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法
CN106874478A (zh) * 2017-02-17 2017-06-20 重庆邮电大学 基于Spark的并行化随机标签子集多标签文本分类方法
US20180300631A1 (en) * 2015-06-30 2018-10-18 Arizona Technology Enterprises Method and apparatus for large scale machine learning
CN109582706A (zh) * 2018-11-14 2019-04-05 重庆邮电大学 基于Spark大数据平台的邻域密度不平衡数据混合采样方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300631A1 (en) * 2015-06-30 2018-10-18 Arizona Technology Enterprises Method and apparatus for large scale machine learning
CN105243394A (zh) * 2015-11-03 2016-01-13 中国矿业大学 一种类不平衡对分类模型性能影响程度的评价方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法
CN106874478A (zh) * 2017-02-17 2017-06-20 重庆邮电大学 基于Spark的并行化随机标签子集多标签文本分类方法
CN109582706A (zh) * 2018-11-14 2019-04-05 重庆邮电大学 基于Spark大数据平台的邻域密度不平衡数据混合采样方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
安冯竞;喻曦;孟秋晴;: "大数据中农产品质量特征分类效果评估仿真", 计算机仿真, no. 08, pages 445 - 448 *
曹瑜等: "Spark框架结合分布式KNN分类器的网络大数据分类处理方法", 《计算机应用研究》, vol. 36, no. 11, pages 3274 - 3277 *
李宏志;李苋兰;赵生慧;: "基于Spark的大规模文本KNN并行分类算法", 湖南科技大学学报(自然科学版), no. 01, pages 95 - 102 *
李莉等: "泄露电流数据的Spark-KNN并行模式识别方法", 《系统仿真学报》, vol. 30, no. 4, pages 1473 - 1481 *
王进;夏翠萍;欧阳卫华;王鸿;邓欣;陈乔松;: "Spark下的并行多标签最近邻算法", 计算机工程与科学, no. 02, pages 17 - 25 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117611927A (zh) * 2024-01-22 2024-02-27 中储粮成都储藏研究院有限公司 一种稻谷互混率检测方法及装置
CN117611927B (zh) * 2024-01-22 2024-04-16 中储粮成都储藏研究院有限公司 一种稻谷互混率检测方法及装置

Similar Documents

Publication Publication Date Title
CN106528874B (zh) 基于Spark内存计算大数据平台的CLR多标签数据分类方法
CN112241494B (zh) 基于用户行为数据的关键信息推送方法及装置
CN108319987A (zh) 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN110689368B (zh) 一种移动应用内广告点击率预测系统设计方法
CN113688558B (zh) 一种基于大数据库样本的汽车行驶工况构建方法及系统
CN105389480A (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
US7890705B2 (en) Shared-memory multiprocessor system and information processing method
CN110706015A (zh) 一种面向广告点击率预测的特征选取方法
CN110347602A (zh) 多任务脚本执行方法及装置、电子设备及可读存储介质
CN113590710A (zh) 一种基于Spark内存计算的粮食质量分类方法
CN107193940A (zh) 大数据优化分析方法
CN107066328A (zh) 大规模数据处理平台的构建方法
CN108681505A (zh) 一种基于决策树的测试用例排序方法和装置
CN107229234A (zh) 面向航空电子数据的分布式挖掘系统及方法
CN112217908B (zh) 基于迁移学习的信息推送方法、装置及计算机设备
US7272583B2 (en) Using supervised classifiers with unsupervised data
CN105095382B (zh) 样本分布式聚类计算方法及装置
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
CN109740750B (zh) 数据收集方法及装置
CN106648891A (zh) 基于MapReduce模型的任务执行方法和装置
CN106874927A (zh) 一种随机强分类器的构建方法和系统
CN113282568B (zh) 一种iot大数据实时时序流分析应用技术方法
CN107103095A (zh) 基于高性能网络架构的数据计算方法
CN111737371B (zh) 可动态预测的数据流量检测分类方法及装置
CN115879046A (zh) 基于改进特征选择和分层模型的物联网异常数据检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination