CN113590710A

CN113590710A - 一种基于Spark内存计算的粮食质量分类方法

Info

Publication number: CN113590710A
Application number: CN202110731588.8A
Authority: CN
Inventors: 曹杰; 王有权; 马福民; 申冬琴
Original assignee: Nanjing University of Finance and Economics
Current assignee: Nanjing University of Finance and Economics
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-11-02

Abstract

一种基于Spark内存计算的粮食质量分类方法，包括两个步骤，即粮库质量评价指标体系构建和基于Spark内存计算的粮食质量分类方法，具体内容如下：粮库质量评价指标体系构建，粮库中粮食(包括小麦、早籼稻谷、晚籼稻谷、籼糯稻谷、粳稻谷、粳糯稻谷)进行质量评价体系构建，然后，针对不同种类粮食存在等级严重不均衡以及数据量比较大的问题，提出了基于Spark内存计算的粮食质量分类方法，主要通过合成少数过采样技术解决每个Spark节点中类别的不均衡问题，并行计算则采用并行k最近邻方法；最后，通过不断的迭代实现每个未知粮库中不同仓中粮食的类别分类。

Description

一种基于Spark内存计算的粮食质量分类方法

技术领域

本发明涉及粮食大数据云平台粮食监管领域，尤其涉及到基于Spark内存计算的粮食质量分类方法。

背景技术

目前我国粮库粮食的质量水平检测多来自于抽样检测，即基于不同性质的粮食来对不同的粮食质量，评判标准也各有差异，这导致各地各粮库的粮食很难有统一的标准来进行评判。因此粮库管理人员容易通过陈粮化处理、转圈粮、差粮换好粮等方式来欺骗粮情监控部门。因此，如何通过粮食大数据平台以及抽检的各种粮食质量质量指标来对粮库的粮食进行质量分类是当前我国粮食粮情监管的重要组成部分。

目前的国家和地方粮食的检测方法多针对不同的粮食的质量指标的阈值来定义，如小麦质量标准判定，则通常根据容重、不完善粒比例、杂质总含量比例、矿物质含量比例、水分比例、色泽、气味等进行评判，然后针对不同等级的粮食采用不同的阈值划分，但每个粮库的粮食在某些质量标准上达到某一等级，而在某些质量指标上达不到这一等级或超过这一等级，使得阈值划分方法既耗费了大量的人力物力，同时也很难实时、准确、全面地掌握各粮库实际的粮食质量信息。

本发明从每个粮库中包含的稻谷以及小麦的质量入手，通过抽样采集的各粮食的质量指标来研究基于Spark内存计算的粮食质量分类方法。具体的说，通过调研江苏省政策性粮食信息服务云平台采集到粮食粮情指标数据，对不同粮食采用不同的分级标准，通过人工的界定的一些标记粮食质量分类选择范围。目前有少量的粮食质量分类方法，但真实的粮情大数据中通常存在着大量的无标记数据以及少量的人工标记的粮食粮情等级数据。各等级的粮食数量通常存在很大的差异，如高等级和低等级的粮食存在的比例较少，大多是中间比例的粮食，即各等级粮食质量分类存在严重的类别不平衡性。此外，由于粮库粮情信息随着年份季节等因素的影响，需要处理不断增长的规模、复杂性等分区，以及现代数据集的不平衡性，这些为粮库粮食质量分类带来了巨大的困扰。

由于数据量太大，无法使用标准计算机来实现粮食质量分类，高性能计算平台的兴起，如GPU和集群来实现。为此，本发明提出了一种基于Spark内存计算的粮食质量分类方法，通过分析每个类中存在的实例级困难来分析和理解多类不平衡数据集的特性。首先通过粮食质量评价指标体系构建实现粮食质量分类的指标构建工作，接着从多类不平衡的大数据学习方法，解决类不均衡问题和分类器学习构建等工作。

现有的Spark内存模型如下述

1堆内和堆外内存规划

Spark执行器(Executor)的内存管理建立在JVM的内存管理之上，Spark对JVM的空间(OnHeap+Off-heap)进行了更为详细的分配，以充分利用内存。同时，Spark引入了Off-heap内存模式，使之可以直接在工作节点的系统内存中开辟空间，进一步优化了内存的使用(可以理解为是独立于JVM托管的Heap之外利用c-style的malloc从os分配到的memory。由于不再由JVM托管，通过高效的内存管理，可以避免JVM object overhead和Garbagecollection的开销)。

运行于Executor中的Task同时可使用JVM(OnHeap+Off-heap)和Off-heap两种模式的内存。

·JVM OnHeap内存：大小由”--executor-memory”(即spark.executor.memory)参数指定。Executor中运行的并发任务共享JVM堆内内存。

·JVM OffHeap内存：大小由”spark.yarn.executor.memoryOverhead”参数指定，主要用于JVM自身，字符串,NIO Buffer等开销。

·Off-heap模式：默认情况下Off-heap模式的内存并不启用，可以通过”spark.memory.offHeap.enabled”参数开启，并由spark.memory.offHeap.size指定堆外内存的大小(占用的空间划归JVM OffHeap内存)。

spark对数据的核心抽象——弹性分布数据集(Resilient DistributedDataSet,简称RDD)，RDD其实就是分布式的元素集合。

在spark中，对数据的所有操作不外乎创建RDD,转化已有的RDD以及调用RDD操作进行求职，而这一切的背后，spark会自动将RDD中的数据分发到集群上，并将操作并行化执行。

发明内容

本发明目的是，提出一种Spark内存计算的粮食质量分类方法。针对各种粮食的6个等级存在显著的类别不均衡性问题，本发明提出在每个RDD数据上采用局部数据过采样来解决，抽样可以通过添加或删除一些类别的样本，使少数类的大小更接近多数类；从而得到更科学的分类。

本发明的技术方案是，包括通过实施方式提供一种基于Spark内存计算的粮食质量分类方法，该方法包括两个部分，第一部分为粮库质量评价指标体系构建，第二部分为基于Spark内存计算的粮食质量分类方法，并解决粮食质量分类的不平衡问题。本发明的具体内容如下：

1)粮库质量评价指标体系构建

粮库中粮食(包括小麦、早籼稻谷、晚籼稻谷、籼糯稻谷、粳稻谷、粳糯稻谷)进行质量评价体系构建，具体如下：

(1)粮食质量指标

主要针对粮库中每个粮食仓中：1)容重；2)不完善粒比例；3)杂质总含量比例；4)矿物质含量比例5)水分比例；6)色泽正常与否；7)气味正常与否进行采集，并上传到粮食信息服务云平台，主要将粮食质量分为6类：等级一、等级二、等级三、等级四、等级五、等级外。

(2)质量指标

主要针对粮库中每个粮食(稻谷)仓中的：1)出糙率；2)整精米率；3)杂质含量百分比；4)水分含量百分比；5)黄粒米含量百分比；6)谷外糙米含量百分比；7)互混率百分比；8)色泽正常与否；9)气味正常与否进行采集，并上传到粮食信息服务云平台，质量分为6类：等级一、等级二、等级三、等级四、等级五、等级外。

2)基于Spark内存计算的粮食质量分类方法

输入的麦子或稻子分别构建Spark分类器，Spark尽可能在主内存中存储Map/Reduce步骤之间的结果。Spark能够直接在内存中复用中间结果，不要反复读取HDFS(Hadoop分布式文件系统)，能够提高对分类方法的处理性能。Spark从驱动节点创建一个Spark上下文对象，然后Spark上下文从集群管理器请求资源，并获取集群节点上的执行器，执行器进程则管理一个或多个CPU线程上的任务计算。本发明主要采用弹性分布式数据集(RDD)数据结构来抽象数据以进行并行计算。RDD将数据集存储为分区，这些分区可以在一个或多个集群节点上拆分。这种抽象允许用户执行相同的操作，而不管数据是如何分布的。Map、Filter和Reduce等函数可以直接在RDD上运行，类似SQL的表操作可以通过进一步抽象的数据帧(DataFrame)和数据集的数据结构来实现。

有益效果：针对各种粮食的6个等级存在显著的类别不均衡性问题，本发明提出在每个RDD数据上采用局部数据过采样来解决，抽样可以通过添加或删除一些类别的样本，使少数类的大小更接近多数类。具体来说，通过合成少数过采样技术来实现，即：通过复制随机选择的实例并将其添加到当前数据集来执行，则可能需要使用替换重新采样来平衡这些类，然后将采样的实例连接到现有的数据帧以形成平衡的数据集。本发明解决粮食质量分类的不平衡问题。

附图说明

图1为本发明的整体框架图；

具体实施方式

本发明的整体框架图如图1所示，首先选取基于各粮库的各种粮食的质量指标，然后基于这些特征使用基于Spark内存计算的粮食质量分类方法对不同的粮库中的粮食进行分类。具体实施方式如下所示：

步骤1：粮库质量评价指标体系构建，根据各粮库数据，计算每个粮库中仓中包含的不同种类粮的质量指标值，根据人工标记的一些样本数据作为训练数据集(仓中粮食质量类别是已知的)，其他未标记的数据作为测试数据集(仓中粮食质量类别是未知的)。针对(1)小麦；(2)早籼稻谷、晚籼稻谷、籼糯稻谷；(3)粳稻谷、粳糯稻谷分别建立不同的数据集。

本发明主要针对江苏省粮库中存在的(1)小麦；(2)早籼稻谷、晚籼稻谷、籼糯稻谷；(3)粳稻谷、粳糯稻谷进行质量评价体系构建，具体如下：

(1)小麦质量指标

主要针对粮库中每个小麦仓中：1)容重；2)不完善粒比例；3)杂质总含量比例；4)矿物质含量比例5)水分比例；6)色泽正常与否；7)气味正常与否进行采集，并上传到粮食信息服务云平台，主要将小麦质量分为6类：等级一、等级二、等级三、等级四、等级五、等级外。

(2)早籼稻谷、晚籼稻谷、籼糯稻谷质量指标

主要针对粮库中每个早籼稻谷、晚籼稻谷、籼糯稻谷仓中的：1)出糙率；2)整精米率；3)杂质含量百分比；4)水分含量百分比；5)黄粒米含量百分比；6)谷外糙米含量百分比；7)互混率百分比；8)色泽正常与否；9)气味正常与否进行采集，并并上传到粮食信息服务云平台，主要将早籼稻谷、晚籼稻谷、籼糯稻谷质量分为6类：等级一、等级二、等级三、等级四、等级五、等级外。

(3)粳稻谷、粳糯稻谷质量指标

主要针对粮库中每个粳稻谷、粳糯稻谷仓中的：1)出糙率；2)整精米率；3)杂质含量百分比；4)水分含量百分比；5)黄粒米含量百分比；6)谷外糙米含量百分比；7)互混率百分比；8)色泽正常与否；9)气味正常与否进行采集，并上传到粮食信息服务云平台，主要将粳稻谷、粳糯稻谷质量分为6类：等级一、等级二、等级三、等级四、等级五、等级外。

步骤2：本发明输入数据以文件块(Block)形式存储在粮食信息服务云平台的HDFS上，并将这些数据从HDFS上加载到RDD。由于Spark仅仅是计算框架，其本身不具有文件系统功能，而HDFS则具有高容错性和安全备份特征，可以实现高吞吐量的分布式计算。

步骤3：初始化分类结果，这一步主要在主节点完成，主要是将具有分类标记的数据集作为初始化类别。然后通过K最近邻方法从RDD中选取出这些数据作为分发数据，并将这些数据广播分发到各个RDD数据集中。

步骤4：由于每种粮食的6个等级存在严重的类别不均衡性，本发明拟人工少数类过采样法来实现少数类别样本的补充，即每创建一个新的样本，将随机选取5个当前类的样本，然后对每个特征分别进行平均，从而生成一个新的合成样本，通过这种方式使得类别的样本数量上在每个RDD上基本达到平衡。

步骤5：为了计算每个现有样本的少数类状态，本发明首先执行并行k最近邻，k设置为5。并行k最近邻算法对所有RDD分别执行k最近邻，同时从返回的邻居中排除查询点本身。每个实例都会根据属于自己类的相邻实例的数量给出一个类标签，然后为每个实例生成的少数类型标签存储为数据帧，该数据帧也可以保存到RDD中，以便将来可以重用。

步骤6：利用Spark算法来实现分类结果汇总，总体上采用MapReduce思想，在每次迭代时，先用Map类在每个RDD并行化执行k最近邻，然后再用类Reduce操作将每个的k最近邻分类最好的类别收集在一起，以便获取更多的未标记数据样本的预测类别，并将所有具有相同类别的点汇总到一个形成一个新的RDD，最后把类别置信度比较高的未标记样本标记为预测的类别，最后把所有具有标记的样本再次广播到每个结点上进行迭代，直至目标函数收敛或者满足迭代结束条件。

Claims

1.一种基于Spark内存计算的粮食质量分类方法，其特征是，包括两个步骤，即粮库质量评价指标体系构建和基于Spark内存计算的粮食质量分类方法，具体内容如下：

1)粮库质量评价指标体系构建

粮库中粮食包括小麦、早籼稻谷、晚籼稻谷、籼糯稻谷、粳稻谷、粳糯稻谷进行质量评价体系构建，具体如下：

(1)粮食质量指标

(2)质量指标

针对粮库中每个粮食仓中的：1)出糙率；2)整精米率；3)杂质含量百分比；4)水分含量百分比；5)黄粒米含量百分比；6)谷外糙米含量百分比；7)互混率百分比；8)色泽正常与否；9)气味正常与否进行采集，并上传到粮食信息服务云平台，质量分为6类：等级一、等级二、等级三、等级四、等级五、等级外。

2)基于Spark内存计算的粮食质量分类方法

输入的麦子或稻子分别构建Spark分类器，Spark在主内存中存储Map/Reduce步骤之间的结果；Spark能够直接在内存中复用中间结果，不要反复读取HDF；Spark从驱动节点创建一个Spark上下文对象，然后Spark上下文从集群管理器请求资源，并获取集群节点上的执行器，执行器进程则管理一个或多个CPU线程上的任务计算；用弹性分布式数据集RDD数据结构来抽象数据以进行并行计算；RDD将数据集存储为分区，这些分区在一个或多个集群节点上拆分；这种抽象允许用户执行相同的操作，而不管数据是如何分布的；Map、Filter和Reduce函数直接在RDD上运行，SQL的表操作通过进一步抽象的数据帧(DataFrame)和数据集的数据结构来实现。

2.根据权利要求2所述的基于Spark内存计算的粮食质量分类方法，其特征是，粮食包括小麦、早籼稻谷、晚籼稻谷、籼糯稻谷、粳稻谷、粳糯稻谷。

3.根据权利要求1所述的基于Spark内存计算的粮食质量分类方法，其特征是，输入数据以文件块(Block)形式存储在粮食信息服务云平台的HDFS上，并将这些数据从HDFS上加载到RDD实现高吞吐量的分布式计算；

分类结果中将具有分类标记的数据集作为初始化类别。然后通过K最近邻方法从RDD中选取出这些数据作为分发数据，并将这些数据广播分发到各个RDD数据集中。

4.根据权利要求1所述的基于Spark内存计算的粮食质量分类方法，其特征是，首先执行并行k最近邻，k设置为5。并行k最近邻算法对所有RDD分别执行k最近邻，同时从返回的邻居中排除查询点本身。每个实例都会根据属于自己类的相邻实例的数量给出一个类标签，然后为每个实例生成的少数类型标签存储为数据帧，该数据帧也可以保存到RDD中，以便将来可以重用。

5.根据权利要求4所述的基于Spark内存计算的粮食质量分类方法，其特征是，每种粮食的6个等级存在类别不均衡性，人工少数类过采样法来实现少数类别样本的补充，即每创建一个新的样本，将随机选取5个当前类的样本，然后对每个特征分别进行平均，从而生成一个新的合成样本，通过这种方式使得类别的样本数量上在每个RDD上基本达到平衡。

6.根据权利要求4所述的基于Spark内存计算的粮食质量分类方法，其特征是，利用Spark算法来实现分类结果汇总，总体上采用MapReduce思想，在每次迭代时，先用Map类在每个RDD并行化执行k最近邻，然后再用类Reduce操作将每个的k最近邻分类最好的类别收集在一起，以便获取更多的未标记数据样本的预测类别，并将所有具有相同类别的点汇总到一个形成一个新的RDD，最后把类别置信度比较高的未标记样本标记为预测的类别，最后把所有具有标记的样本再次广播到每个结点上进行迭代，直至目标函数收敛或者满足迭代结束条件。