CN109800815A

CN109800815A - 基于随机森林模型的训练方法、小麦识别方法和训练系统

Info

Publication number: CN109800815A
Application number: CN201910070915.2A
Authority: CN
Inventors: 李旭青; 刘世盟; 金永涛; 李龙
Original assignee: North China Institute of Aerospace Engineering
Current assignee: North China Institute of Aerospace Engineering
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-05-24
Anticipated expiration: 2039-01-24
Also published as: CN109800815B

Abstract

本发明提供了一种基于随机森林模型的训练方法、小麦识别方法和训练系统，涉及计算机应用技术的技术领域，包括：获取随机森林模型，其中，随机森林模型包括多颗决策树；获取多个训练样本数据，训练样本数据包括类别数据和特征样本数据；依次将多个训练样本数据输入随机森林模型，获得多个预测数据；根据多个预测数据和多个类别数据计算随机森林模型的精度；根据精度对随机森林模型进行优化，获得调优随机森林模型，缓解了利用遥感技术对地物识别效率低的技术问题。

Description

基于随机森林模型的训练方法、小麦识别方法和训练系统

技术领域

本发明涉及计算机应用技术的技术领域，尤其是涉及一种基于随机森林模型的训练方法、小麦识别方法和训练系统。

背景技术

近年来，利用遥感技术对小麦提取的研究取得了很大的进步，最先出现的识别和提取技术是图像目视解译，被广泛地应用于各类地物的信息提取工作中。图像目视解译虽然应用场景较多，但该方法定位不准确，时效性差，可重复性差，且存在个人差异，难以满足日益增长的用户需求。

针对利用遥感技术对地物识别效率低的问题，目前尚未提出有效的解决方案。

发明内容

有鉴于此，本发明的目的在于提供一种基于随机森林模型的训练方法、小麦识别方法和训练系统，以缓解了利用遥感技术对地物识别效率低的技术问题。

第一方面，本发明实施例提供了一种基于随机森林模型的训练方法，包括：

获取随机森林模型，其中，随机森林模型包括多颗决策树；

获取多个训练样本数据，训练样本数据包括类别数据和特征样本数据；

依次将多个训练样本数据输入随机森林模型，获得多个预测数据；

根据多个预测数据和多个类别数据计算随机森林模型的精度；

根据精度对随机森林模型进行优化，获得调优随机森林模型。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，根据多个预测数据和多个类别数据计算随机森林模型的精度的步骤，包括：

计算多个预测数据的相关性和/或误差；

根据相关性和/或误差得到随机森林模型的精度。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，根据精度对随机森林模型进行优化，获得调优随机森林模型的步骤，包括：

根据随机森林模型的精度和优化规则调整随机森林模型的模型参数，获得调优模型参数；

根据调优模型参数训练随机森林模型，获得调优随机森林模型。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，获取随机森林模型的步骤，包括：

获取学习样本数据集；

根据学习样本数据集获取多个学习样本数据子集；

根据多个学习样本数据子集和分类回归方法分别生成多颗决策树，多颗决策树构成随机森林模型。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，根据学习样本数据集获取多个学习样本数据子集的步骤，包括重复执行以下处理：

从学习样本数据集中有放回的随机获取多个样本数据，组成第l个样本数据子集。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，根据多个学习样本数据子集和分类回归方法分别生成多颗决策树的步骤，包括重复执行以下处理，直至样本库中的样本数据子集都被遍历：从多个识别特征中不放回的抓取多个识别特征，组成第l个识别特征组，l>0；根据第l个识别特征组和第l个学习样本数据子集，并采用分类回归方法生成第l颗决策树。

结合第一方面的第五种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，包括：

获取多个影像样本和多个识别特征；

根据多个影像样本和多个识别特征获得多个样本数据；将多个样本数据随机分为多个学习样本数据和多个训练样本数据，多个学习样本数据组成学习样本数据集，多个训练样本数据组成训练样本数据集。

结合第一方面的第六种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，根据多个影像样本和多个识别特征获得多个样本数据的步骤，包括重复执行以下处理直至多个影像样本都被遍历：

根据多个识别特征对第k个影像样本进行裁剪，得到第k个影像样本对应的多个特征影像样本，k＞0；

对多个特征影像样本进行变换处理对应获得多个特征样本数据；

根据多个特征样本数据和类别数据，获得与第k个影像样本对应的第k个样本数据。

第二方面，本发明实施例还提供一种基于随机森林模型的小麦识别方法，包括：

将样本数据输入调优随机森林模型，得到样本数据的预测数据。

第三方面，本发明实施例还提供一种基于随机森林模型的训练系统，包括：

随机森林模型获取模块，用于获取随机森林模型，其中，随机森林模型包括多颗决策树；

训练样本数据获取模块，用于获取多个训练样本数据，训练样本数据包括特征样本数据和类别数据；

预测模块，用于依次将多个样本数据输入随机森林模型，获得多个预测数据；

精度计算模块，用于根据多个预测数据和多个类别数据计算随机森林模型的精度；

优化模块，用于根据精度对随机森林模型进行优化，获得调优随机森林模型。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种基于随机森林模型的训练方法、小麦识别方法和训练系统，包括：获取随机森林模型，其中，随机森林模型包括多颗决策树；获取多个预测样本数据，预测样本数据包括类别数据和特征样本数据；依次将多个预测样本数据输入随机森林模型，获得多个预测数据；根据多个预测数据和多个类别数据计算随机森林模型的精度；根据精度对随机森林模型进行优化，获得调优随机森林模型，缓解了利用遥感技术对地物识别效率低的技术问题。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于随机森林模型的训练方法流程图；

图2为本发明实施例提供了一种随机森林模型精度随决策树数量的变化图；

图3为本发明实施例提供了一种随机森林模型精度随随机输入特征数目的变化图；

图4为本发明实施例提供的一种基于随机森林模型的训练系统的结构框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

目前利用遥感技术对地物识别效率低，基于此，本发明实施例提供的一种基于随机森林模型的训练方法、小麦识别方法和训练系统，可以提高利用遥感技术对地物识别效率。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于随机森林模型的训练方法进行详细介绍。

实施例1

如图1所示，为本发明实施例提供的一种基于随机森林模型的训练方法流程图，该方法包括步骤S101-S104，具体如下：

步骤S101，获取随机森林模型，其中，随机森林模型包括多颗决策树，该随机森林(Random Forest，RF)模型是小麦的机器学习的分类识别模型,用于根据地物是否为小麦进行分类，可以分为小麦和非小麦。随机森林模型由多个决策树组建而成，多个决策树之间互相是不关联的。决策树(tree)是一个树状的构造形式，可以是非二叉树结构，也可以为二叉树结构，本发明实施例中的随机森林模型为二叉树结构，且每颗决策树根据分类回归(Classification And Regression Tree，CART)算法生成，即决策树的每个节点的取值只有两个，可以分别为“是”和“否”，分别对应左分支和右分支，分别代表是小麦和非小麦。

步骤S102，获取多个训练样本数据，预测样本数据包括类别数据和特征样本数据。一个训练样本数据为将一片地物的遥感影像预处理后生成的数据，多片地物的遥感影像对应多个训练样本数据。对多片地物的面积、形状不做要求，只需确定每片地物的类别，即是否为小麦。类别数据用于标记小麦样本数据和非小麦样本数据，可以用1代表小麦，0代表非小麦。根据小麦的影像样本的一个识别特征对应生成一个特征样本数据，多个识别特征对应多个特征样本数据。

步骤S103，依次将多个训练样本数据输入随机森林模型，获得多个预测数据。一个训练样本数据中的多个特征样本数据输入上述随机森林模型的全部的决策树，一个训练样本数据历遍每个决策树的多个节点，生成一个决策数据，多个决策树对应生成多个决策数据，对多个决策数据根据多数表决的方法生成一个预测数据，对应的预测数据与类别数据之间可能存在偏差。多个训练样本数据依次输入上述随机森林模型的多个决策树对应得到多个预测数据。

步骤S104，根据多个预测数据和多个类别数据计算随机森林模型的精度。多个训练样本数据历遍随机森林模型对应生成多个预测数据，对应的预测数据与类别数据之间的相似度越高则随机森林模型的精度越高。

步骤S105，根据精度对随机森林模型进行优化，获得调优随机森林模型。根据随机森林模型的精度调节随机森林模型的参数，本发明实施例中主要涉及到模型中两个参数的调整，一个为随机森林所包括的决策树的数量a，另一个为每个树节点分裂时的识别特征的数目，即随机输入特征数目b，其他参数可以不做刻意调整，直接默认即可。通过对两个参数的反复对应调整，以使随机森林模型的精度逐渐提高，并逐渐稳定，对应获得调优随机森林模型。

步骤S104还包括：计算多个预测数据的相关性和/或误差，根据相关性和/或误差得到随机森林模型的精度。可以通过计算多个预测数据的复相关系数计算多个预测数据的相关性，复相关系数是测量一个变量与其他多个变量之间线性相关程度的指标，则复相关系数rsq：

可以通过计算多个预测数据的均方误差计算多个预测数据的误差，均方误差mse：

在以上两个公式当中，n代表多个训练数据的数量，x_i代表第i个训练样本数据(i＝1，2，3，…，n)，F(x_i)代表随机森林模型根据第i个训练样本数据输出的预测数据，y_i代表第i个训练样本数据对应的分类数据，代表多个分类数据的平均大小。根据伪复相关系数和均方误差得到随机森林模型的精度，复相关系数rsq的值越大，并且均方误差mse的值越小，就说明构建的随机森林模型性能越好，一般分别稳定在0.90以上和0.10以下即可认为优良。

步骤S105还包括：根据随机森林模型的精度和优化规则调整随机森林模型的模型参数，获得调优模型参数。优化规则为数据的相关性越高且误差越小，本发明实施例中优化规则为复相关系数rsq的值越大，并且均方误差mse的值越小，可以先确定一个参数，通过随机森林模型的精度随另一个参数的变化情况，确定另一参数的优选区域。调整步骤如下：

如图2所示，本发明实施例提供了一种随机森林模型精度随决策树数量的变化图，当随机输入特征数目b＝4时，且决策树的个数a在1000附近时，随机森林模型的精度会逐渐稳定，但在1600左右处仍有较小的波动。

如图3所示，本发明实施例提供了一种随机森林模型精度随随机输入特征数目的变化图，设置a＝100，b＝1-6进行测试依次获得随机森林模型的精度，经分析可知在决策树的数量a确定的情况下，随机输入特征数目b的取值在4至6之间，随机森林模型的精度比较高。一般说来随机森林模型的决策树数量越多则模型精度越高，但是若决策树数量过大无疑会加大算法运算量，因此为保证算法性能，经过上述对两个参数的调整分析，可以把模型中决策树的数量a设置为2000，随机输入特征的数目b设为4。根据调优模型参数训练随机森林模型，获得调优随机森林模型。

获取多个影像样本和多个识别特征，影像样本为地物的遥感影像，且地物是否为小麦可确定。根据小麦与其它地物的影像的差异性确定小麦的识别特征，本发明实施例中识别特征的个数为6个，采用2个植被指数和4个多光谱波段作的反射值，这些特征分别是NIR(近红外灰度值)、R(红波段灰度值)、G(绿波段灰度值)、B(蓝波段灰度值)、RVI(比值植被指数)、NDVI(归一化植被指数)。

然后，根据多个影像样本和多个识别特征获得多个样本数据，步骤包括重复执行以下处理直至所有影像样本都被遍历：

根据多个识别特征对第k个影像样本进行裁剪，得到第k个影像样本对应的多个特征影像样本。通过遥感图像处理软件对第k个影像样本进行波段分割和波段运算处理，最终得到第k个影像样本的六个小麦的特征样本影像，k＞0。

对多个特征影像样本进行变换处理对应获得多个特征样本数据。将第k个影像样本的多个特征影像样本依次转换为ASCII格式，得到对应特征的像元值，接着在MATLAB软件中对像元值进行有规律的变换处理，形成单列数据，该单列数据对应为特征样本数据，6个特征的像元值分别对应6个特征样本数据。

根据多个特征样本数据和类别数据，获得第k个影像样本对应的样本数据。此外，需要在样本数据中加入一列类别数据，指定对应的样本数据是否为小麦，1值代表小麦，0值代表非小麦，由此得到样本数据。

将多个样本数据随机分为多个学习样本数据和多个训练样本数据，多个学习样本数据组成学习样本数据集，多个训练样本数据组成训练样本数据集。可以在多个样本数据中不放回的选取三分之二的样本数据组成学习样本数据集，剩下的样本数据组成训练样本数据集。

根据学习样本数据集获取多个学习样本数据子集的步骤，包括重复执行以下处理：从学习样本数据集中有放回的随机获取多个样本数据，组成第l个样本数据子集，l＞0。

因为是随机有放回的抓取所以每个学习样本数据子集中可能包括相同样本数据，采用此方法的原因是能尽可能避免随机森林中模型中的决策树仅生成部分区域的最优解，每个学习样本数据子集对应可以生成一颗决策树，所以学习样本数据子集的数目与决策树的数目相等。

根据多个学习样本数据子集和分类回归方法分别生成多颗决策树的步骤，包括重复执行以下处理，直至样本库中的样本数据子集都被遍历：

从多个识别特征中不放回的抓取多个识别特征，组成第l个识别特征组，每个决策树对应的特征组中识别特征的数目相同、具体的识别特征不一定相同。

根据第l个识别特征组和第l个学习样本数据子集，并采用分类回归方法生成第l颗决策树。一个样本数据子集和对应的识别特征组根据分类回归方法生成一个决策树，多个样本数据子集和对应的识别特征组根据分类回归方法生成多个决策树，多颗决策树构成随机森林模型。

本发明实施例提供了一种基于随机森林模型的训练方法，包括：获取随机森林模型，其中，随机森林模型包括多颗决策树；获取多个训练样本数据，训练样本数据包括类别数据和特征样本数据；依次将多个训练样本数据输入随机森林模型，获得多个预测数据；根据多个预测数据和多个类别数据计算随机森林模型的精度；根据精度对随机森林模型进行优化，获得调优随机森林模型，缓解了利用遥感技术对地物识别效率低的技术问题。

实施例2

一种基于随机森林模型的小麦识别方法，包括：

将样本数据输入调优随机森林模型，得到样本数据的预测数据。利用MATLAB软件把这些预测数据及排列形式重新还原为最初的文本存储类型，用遥感影像处理软件打开，即可查看小麦分布图。对上述分布图进行图像处理操作，图像处理操作可以包括：对小麦分布图二值化处理得到小麦分布二值图，剔除图像中的“噪声”；将小麦分布二值图转换为小麦分布矢量图像，以剔除干扰区，即将小麦分布矢量图像中面积较小的区域删除。最终得到精度较高的小麦空间分布图。

实施例3

如图4所示，为本发明实施例提供的一种基于随机森林模型的训练系统的结构框架图，包括：

随机森林模型获取模块S401，用于获取随机森林模型，其中，随机森林模型包括多颗决策树；

训练样本数据获取模块S402，用于获取多个训练样本数据，训练样本数据包括特征样本数据和类别数据；

预测模块S403，用于依次将多个样本数据输入随机森林模型，获得多个预测数据；

精度计算模块S404，用于根据多个预测数据和多个类别数据计算随机森林模型的精度；

优化模块S405，用于根据精度对随机森林模型进行优化，获得调优随机森林模型。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于随机森林模型的训练方法，其特征在于，包括：

获取所述随机森林模型，其中，所述随机森林模型包括多颗决策树；

获取多个训练样本数据，所述训练样本数据包括类别数据和特征样本数据；

依次将多个所述训练样本数据输入所述随机森林模型，获得多个预测数据；

根据多个所述预测数据和多个所述类别数据计算所述随机森林模型的精度；

根据所述精度对所述随机森林模型进行优化，获得调优随机森林模型。

2.根据权利要求1所述的基于随机森林模型的训练方法，其特征在于，所述根据多个所述预测数据和多个所述类别数据计算所述随机森林模型的精度的步骤，包括：

计算多个所述预测数据的相关性和/或误差；

根据所述相关性和/或所述误差得到所述随机森林模型的所述精度。

3.根据权利要求1所述的基于随机森林模型的训练方法，其特征在于，所述根据所述精度对所述随机森林模型进行优化，获得调优随机森林模型的步骤，包括：

根据所述随机森林模型的所述精度和优化规则调整所述随机森林模型的模型参数，获得调优模型参数；

根据所述调优模型参数训练所述随机森林模型，获得所述调优随机森林模型。

4.根据权利要求1所述的基于随机森林模型的训练方法，其特征在于，所述获取所述随机森林模型的步骤，包括：

获取学习样本数据集；

根据所述学习样本数据集获取多个学习样本数据子集；

根据多个所述学习样本数据子集和分类回归方法分别生成多颗所述决策树，多颗所述决策树构成所述随机森林模型。

5.根据权利要求4所述的基于随机森林模型的训练方法，其特征在于，所述根据所述学习样本数据集获取多个学习样本数据子集的步骤，包括重复执行以下处理：

从所述学习样本数据集中有放回的随机获取多个样本数据，组成第l个样本数据子集，l>0。

6.根据权利要求5所述的基于随机森林模型的训练方法，其特征在于，所述根据多个所述学习样本数据子集和分类回归方法分别生成多颗所述决策树的步骤，包括重复执行以下处理，直至样本库中的所述样本数据子集都被遍历：

从多个识别特征中不放回的抓取多个所述识别特征，组成第l个识别特征组，l>0；

根据所述第l个识别特征组和所述第l个学习样本数据子集，并采用所述分类回归方法生成第l颗所述决策树。

7.根据权利要求6所述的基于随机森林模型的训练方法，其特征在于，包括：

获取多个影像样本和多个所述识别特征；

根据多个所述影像样本和多个所述识别特征获得多个所述样本数据；将多个所述样本数据随机分为多个学习样本数据和多个所述训练样本数据，多个所述学习样本数据组成所述学习样本数据集，多个所述训练样本数据组成训练样本数据集。

8.根据权利要求7所述的基于随机森林模型的训练方法，其特征在于，所述根据多个所述影像样本和多个所述识别特征获得多个所述样本数据的步骤，包括重复执行以下处理直至多个所述影像样本都被遍历：

根据多个所述识别特征对第k个影像样本进行裁剪，得到所述第k个影像样本对应的多个特征影像样本，k＞0；

对多个所述特征影像样本进行变换处理对应获得多个所述特征样本数据；

根据多个所述特征样本数据和所述类别数据，获得与所述第k个影像样本对应的第k个样本数据。

9.一种基于随机森林模型的小麦识别方法，其特征在于，包括：

将样本数据输入调优随机森林模型，得到所述样本数据的预测数据。

10.一种基于随机森林模型的训练系统，其特征在于，包括：

随机森林模型获取模块，用于获取所述随机森林模型，其中，所述随机森林模型包括多颗决策树；

训练样本数据获取模块，用于获取多个训练样本数据，所述训练样本数据包括特征样本数据和类别数据；

预测模块，用于依次将多个所述样本数据输入所述随机森林模型，获得多个预测数据；

精度计算模块，用于根据多个所述预测数据和多个所述类别数据计算所述随机森林模型的精度；

优化模块，用于根据所述精度对所述随机森林模型进行优化，获得调优随机森林模型。