CN113033599A

CN113033599A - 面向露头地质体岩层分层的空间随机森林算法

Info

Publication number: CN113033599A
Application number: CN202110139104.0A
Authority: CN
Inventors: 陈建华; 陶鲭宇; 王炳乾; 卢健; 王峰; 侯明才; 胡作维
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-06-25
Anticipated expiration: 2041-02-01
Also published as: CN113033599B

Abstract

本发明公开了一种面向露头地质体岩层分层的空间随机森林算法，涉及地质勘探技术领域；方法包括：基于倾斜摄影测量数据构建露头岩层三维点云模型，对露头岩层三维点云模型进行体元分割，构建岩层体元空间特征与属性特征集成表达模型，以表达模型构建空间决策树，通过空间决策树构建空间随机森林算法，将体元带入空间随机森林算法进行预测，得到体元匹配的岩层类别。以地理信息科学为理论基础，结合地质体岩层特性从点云数据中提取其属性特征和空间特征，基于经典随机森林算法提出了空间随机森林算法，并将之应用于露头地质体岩层类别识别，以实现对露头地质体的自动化岩层分层，为露头地质体的进一步研究奠定基础。

Description

面向露头地质体岩层分层的空间随机森林算法

技术领域

本发明涉及地质勘探技术领域，尤其涉及一种面向露头地质体岩层分层的空间随机森林算法。

背景技术

露头地质体是地上地质结构具有代表性的研究对象之一，常常作为地质研究工作的首要目标。岩层划分是分析露头地质体结构的基础，对岩层的准确划分有助于分析地质体的尖灭位置、与其它地质体的叠置关系、空间展布规律等信息。

人工野外地质考察是岩层划分的主要方法，但地质结构的复杂性导致资料获取难度大、时间长、效率低，资料本身连续性差、局部精度差异大；岩层划分常常依赖于研究人员的知识与经验，不同研究人员的分层结果和其精度往往有一定差异。而且，传统方法针对地势陡峭的岩层划分显得极为困难，甚至于不可行。虽然目前出现了一些地层分层、岩层分层的新方法，但仍旧缺少能够得到高精度分层结果的自动化分层方法。

倾斜摄影测量技术是指通过多台传感器，从不同视角对同一地物进行多次影像数据采集的测量方法。倾斜摄影测量技术能够最大化获取到地物带有空间位置信息的倾斜影像数据，这些数据具有很高的准确性和完整性，它颠覆了传统摄影测量技术。点云数据是倾斜摄影测量数据的衍生数据，特征提取是点云分类的前提，提取出的特征是得到理想分类结果的关键之一。强度信息、几何信息、表面粗糙度等属性信息是分类的常用特征；由于点云携带有坐标信息，因此基于点的空间结构和空间关系得到的空间特征也逐渐应用于分类中，但其仍旧处于初级阶段。

随机森林(Random Forest，RF)算法能够训练样本并预测输入数据类别，即对数据进行分类。随机森林具有良好的性能表现，且其抗干扰能力很强；理论上的随机森林不会产生过拟合现象，且即使在现实中存在不可忽略的噪声影响，随机森林也有较强的抗过拟合能力。随着机器学习的高速发展和对随机森林算法的深入研究，随机森林算法也逐渐应用于地学领域，如裂缝预测、地学知识图谱的建立、地上生物量和森林冠层覆盖度估算、不连续林地叶面积指数反演、地震属性中河道砂体识别等。随机森林算法的核心是数据的特征，但目前这些使用随机森林算法来分类的特征主要是基于应用领域内的专业知识而提取的属性特征，缺乏空间特征，而地学研究对象内或对象间普遍存在着空间关系、空间场景、空间邻近等空间特征，挖掘并集成这些空间特征，进一步开展集成空间语义计算的随机森林算法研究，来解决这些研究对象的分类问题是一个有价值且较新的研究方向。

发明内容

本发明提供了一种面向露头地质体岩层分层的空间随机森林算法，用以解决现有技术存在的上述问题。方法包括：

步骤S11，基于倾斜摄影测量数据构建露头岩层三维点云模型；

步骤S12，对露头岩层三维点云模型进行体元分割；

步骤S13，构建岩层体元空间特征与属性特征集成表达模型；

步骤S14，以表达模型构建空间决策树，通过空间决策树构建空间随机森林算法；

步骤S15，将体元带入空间随机森林算法进行预测，得到体元匹配的岩层类别。

优选地，所述基于倾斜摄影测量数据构建露头岩层三维点云模型包括如下步骤：

步骤S111，获取倾斜摄影测量数据；

步骤S112，设置坐标值范围，去除倾斜摄影测量数据中的无关地物数据；

步骤S113，通过去除无关地物数据后的倾斜摄影测量数据构建露头岩三维点云模型。

优选地，对露头岩层三维点云模型进行体元分割采用八叉树构建算法，包括如下步骤：

步骤S121，将露头地质体所在的三维空间作为一个体元，并设定一个长度阈值，该长度阈值表示最小体元的边长；

步骤S122，将当前体元分割成八个相同的子体元，子体元具有相同的级别和大小；

步骤S123，依次判断当前级别体元是否包含点云数据，若不包含则忽略该体元，则该体元不再参与计算；

步骤S124，将当前级别体元的边长与设定的长度阈值相比较，若大于长度阈值，则继续分割；若小于长度阈值，则结束当前级别体元的分割；

步骤S125，递归地调用步骤S122～步骤S124直到所有体元都结束分割。

优选地，所述岩层体元空间特征与属性特征集成表达模型构建包括如下步骤：

基于倾斜摄影测量数据获取体元所包含点云数据的R、G、B各自的平均值，和露头剖面在体元所在区域的表面粗糙度作为属性特征；

获取空间场景特征和空间度量关系特征作为空间特征。

优选地，所述露头剖面在体元所在区域的表面粗糙度，具体为对体元内所有点云数据使用总体最小二乘法得到一个拟合平面，所有点云数据到拟合平面的标准差设为该体元的粗糙程度。

优选地，所述空间度量关系特征以每个体元中心点的空间坐标值(x，y，z)以及该体元所在位置的产状信息表示，产状信息的获取包括如下步骤：

从露头岩层表面任选不共线的三点，即确定一平面，此平面作为岩层层面，其产状为

通过所选取的三点求得该岩层层面的单位法向量

法向量与产状的关系由公式(1)表示：

式中，

表示该坐标位置岩层层面的倾角，α表示该坐标位置岩层层面的倾向；体元V表示为式(2)：

V＝(ID,X,Y,Z,R,G,B,A,E,C) (2)

式中，ID表示体元的索引，id为其值；用X、Y、Z表示三维空间，x、y、z分别为其对应的值，则(x,y,z)表示一个体元的位置；用R、G、B表示颜色空间，r、g、b 分别为其对应的值，则(r,g,b)表示一个体元的颜色；用A表示粗糙度，a表示其对应的值；用E表示产状，

表示其对应的值；用C表示类别，c表示体元所在岩层的类别值，当体元类别未知时，e＝(-1,-1)，表示值无意义；c＝0，表示类别未知。

优选地，统计所有样本的产状，用es表示，若共有Λ组产状，则

若体元V_f(x_f,y_f,z_f)为常量，则每组产状和V_f(x_f,y_f,z_f)确定其对应的唯一法向量，则es对应一组法向量值

设每个体元都有与es相对应的一组垂直距离值h＝(h¹,h²,K,h^Λ)，则对于样本，由于其有确定的产状，则h中只有一个分量有意义；对于待分类体元，由于其产状未知，则h中每个分量都有意义；

待分类体元VW和所有样本VS，待分类体元VW的空间度量关系特征值的求取方法为：

步骤S131，对于体元VW的垂直距离值h_VW的每一个分量

1≤p≤Λ，有对应

有意义的若干个样本，依次计算

并将差值按正负分别统计，

和

至少有1个成立；

步骤S132，若有且仅有

成立，则体元VW在产状为e^p的岩层的下方， VW在其法向量

的垂直正方向上有一个最近的样本，记VW与该样本的垂直距离为 +Δh；

步骤S133，若有且仅有

成立，则体元VW在产状为e^p的岩层的上方， VW在其法向量

的垂直负方向上有一个最近的样本，记VW与该样本的垂直距离为 -Δh；

步骤S134，若

和

都成立，则体元VW在产状为e^p的岩层的中间，VW在其法向量

的垂直正方向和负方向上分别有一个最近的样本，分别记VW 与这两个样本的垂直距离为+Δh和-Δh；

步骤S135，根据步骤S134～步骤S134，在VW垂直正方向和垂直负方向上分别获得至多Λ组(+Δh,c)和(-Δh,c)，将这Λ组值记作类别集cs，则至多包含(2×Λ)个类别c，则VW所属类别在类别集cs中；

步骤S136，设置阈值Ω，Ω须大于地质体最大岩层真厚度，则满足条件|±Δh|>Ω的+Δh或-Δh对应的类别不为VW所属的类别，从类别集cs中删除对应的组；

步骤S137，对于所有+Δh和-Δh，分别有最小绝对值|+Δh|_min和|-Δh|_min，体元VW到最小绝对值对应类别的所有样本分别有最小水平距离

和

体元VW到类别集cs中其它类别的所有样本也分别有最小水平距离，将这些最小水平距离与

和

比较，只要大于

和

就从类别集cs中删除对应的组；

步骤S138，使类别集cs中只留下类别值，并对其进行去重，最后得到的类别集cs包含VW所属类别；

用M表示空间度量关系特征，m表示其值，则待分类体元的空间度量关系特征值 m＝cs；当共Λ组产状，Γ个类别时，待分类体元的空间度量关系特征值m至少有1个分量，至多有Λ(Λ≤Γ)个分量或Γ(Γ<Λ)个分量，当分量个数为1时，该分量的值即为该体元类别；对于样本，其类别为c_k，则其空间度量关系特征值m＝c_k，k＝ 1,2,…,Γ；

则，对于任意一个体元V，都有表达式(3)：

V＝(ID,X,Y,Z,R,G,B,A,E,M,C) (3)

当体元V在特征M的值m只有一个分量时，其类别值c＝m；当值m有多个分量时，其类别值c∈m。

优选地，所述空间场景特征采用FPFH表示，FPFH计算过程包括如下步骤：

步骤S231，对点云模型中的任意一个点P求取其切平面的法向量；

步骤S232，找到距离点P最近的k个点，这k个点称为点P的k邻近集；

步骤S233，对于点P与其k邻近集点中的点P_δ(1≤δ≤k)，选取二者中一点为坐标系原点O，另一点作为目标点Q；为确保坐标系的唯一性，原点法向量与两点连线的夹角应当最小，即需满足式(4)：

其中，

表示原点位置切平面法向量，

为目标点位置切平面法向量，

表示从原点指向目标点的向量，

表示从目标点指向原点的向量；

步骤S234，根据原点O得到其坐标系(κ,ρ,ι)的表达式(5)：

步骤S235，平移原点O的坐标系(κ,ρ,ι)到目标点Q，点O与点Q的空间关系用一组角度相关的值来表示，见公式(6)：

其中，θ为目标点Q的法向量

与坐标轴ρ之间的夹角，

表示原点O的法向量

与原点O和目标点Q的连线的夹角，β表示目标点Q的法向量

在坐标轴平面 ιQκ上的投影与坐标轴κ之间的夹角，则求出θ、

和β，见公式(7)：

其中，

表示坐标轴ι的单位向量与目标点Q处切平面的法向量

的内积，

表示坐标轴κ的单位向量与目标点Q处切平面的法向量

的内积；则点P与其邻域k个点的空间关系由三元组

表示，且

与

的取值范围为[-1,1]，

的取值范围为[0,2π]；

步骤S236，对点P与其k邻近集中每个点都进行S233～S235的运算，得到k个三元组

将

和

进行τ等分，对于

则将[-1,1]等分为τ个区间，统计每个区间中有多少个

值，某个区间

的频率为该区间

值的个数与k的比值；用同样的方法统计

和

的区间频率；

步骤S237，点P在

和

总共有(3×τ)个区间，对其从1开始依次进行编号，这个编号则为点P的空间结构子空间序号，则得到频率分布折线图和直方图；这个频率分布直方图就是点P周围的空间结构；点云间的相似则表现为每个子空间相似，也即是需要比较每个子空间序号的频率，在频率分布折线图上表现为图形的整体相似和峰值的相似；这(3×τ)个频率值组成的(3×τ)元组被称为点P的简单点特征直方图(Simple PointFeature Histograms，SPFH)；

步骤S238，对体元中每个点都进行步骤S231～步骤S237，则体元内的每个点都得到一个SPFH；对于任意一个体元V，通过公式(8)得到其快速点特征直方图FPFH：

其中，P为体元的中心点，η为体元内除中心点的点的数量，P_δ为体元内除中心点外的一点，δ＝1,2,…,η，ω_η为点P_δ到中心点P的距离；式中SPFH的相加是指对应的子空间的频率相加；

每个体元根据上述步骤都得到一个自己的FPFH频率分布图，每个FPFH共有τ个区间，用s＝(s¹,s²,K,s^τ)表示其纵值，则分量序号与直方图横轴序号一一对应；则体元FPFH的纵值s＝(s¹,s²,K,s^τ)表征了体元的空间场景；用S表示空间场景特征，则 s＝(s¹,s²,K,s^τ)为特征值，该特征和特征值都满足决策树和随机森林的特征性质；因此，对于任意一个体元V，都有表达式(9)：

V＝(ID,X,Y,Z,R,G,B,A,E,M,S,C) (9)

其中，各标识的含义与公式(2)相同，S＝s。

优选地，每一个体元为随机森林的输入数据，体元的属性特征和空间特征为输入特征，如式(10)所示：

V＝(R,G,B,A,M,S) (10)

定义以空间度量关系特征为根结点构建的决策树为空间决策树，对于训练样本集VTS、空间度量关系特征M和所有数据在空间度量关系特征M的取值m、其它特征组成的特征集FS，建立空间决策树ST的算法为：

步骤S141，输入训练样本集VTS、所有体元在空间度量关系特征M的取值m、空间度量关系特征M和特征集FS；

步骤S142，构建根结点，将训练样本集放在根结点；

步骤S143，判断训练样本集VTS是否为同一类，若为同一类，则类别值为根结点值，根结点也为叶结点，返回决策树；

步骤S144，若不为同一类，则设置空间度量关系特征M为根结点值，将所有数据在空间度量关系特征M的取值m放在根结点；

步骤S145，根据所有取值m建立根结点的分支，每一个取值对应一个分支；

步骤S146，若第i个取值mⁱ中只有一个分量，则建立该分支对应的子结点，该结点为叶结点，结点值为分量值；

步骤S147，若第i个取值mⁱ中有多个分量，则找到训练样本集VTS中类别值属于 mⁱ的分量的所有样本，这些样本即为mⁱ分支对应的子训练样本集，以子训练样本集和特征集FS为输入样本和特征，按照前述的步骤构建mⁱ分支对应的子决策树；

步骤S148，对m的所有分支按步骤S146～步骤S147建立叶结点或子决策树后，返回决策树。

优选地，所述将体元带入空间随机森林算法进行预测，得到体元匹配的岩层类别具体为：对随机森林中的每棵决策树，递归地根据决策树的结点找到体元对应的特征值，根据该特征值进入决策树中该结点对应的分支，最终得到体元的类别；统计随机森林中所有决策树对体元的分类结果，数量最多的类别即是随机森林对体元预测的类别。

本发明的有益效果为：

倾斜摄影测量数据中提取三维点云数据并构建体元模型，以地理信息科学为理论基础，结合地质体岩层特性从点云数据中提取其属性特征和空间特征，基于经典随机森林算法提出了空间随机森林算法，并将之应用于露头地质体岩层类别识别，以实现对露头地质体的自动化岩层分层，为露头地质体的进一步研究奠定基础。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的面向露头地质体岩层分层的空间随机森林算法的流程图；

图2为本发明实施例提供的研究区露头地质体位置图；

图3为本发明实施例提供的点云模型去除无关地物前的图像；

图4为本发明实施例提供的点云模型去除无关地物后的图像；

图5为本发明实施例提供的八叉树算法示意图；

图6为本发明实施例提供的地质体的产状及其与法向量的关系示意图；

图7为本发明实施例提供的体元间垂直距离的转换示意图；

图8为本发明实施例提供的空间度量关系特征在决策树中的应用示意图；

图9为本发明实施例提供的点P与其k邻近集的示意图；

图10为本发明实施例提供的原点与目标点的空间关系的示意图；

图11为本发明实施例提供的点P与其k邻近集在

的三分区、频率分布折线图和频率分布直方图；

图12为本发明实施例提供的特征S在空间随机森林中的应用方式；

图13为本发明实施例提供的体元模型局部示意图；

图14为本发明实施例提供的露头模型样本选择示意图；

图15为本发明实施例提供的基于属性特征的经典随机森林岩层分层结果图；

图16为本发明实施例提供的基于空间场景替代特征的经典随机森林岩层分层结果图；

图17为本发明实施例提供的基于属性特征和空间场景替代特征的经典随机森林岩层分层结果图；

图18为本发明实施例提供的基于属性特征和空间度量关系替代特征的经典随机森林岩层分层结果图；

图19为本发明实施例提供的基于属性特征、空间度量关系替代特征和空间场景替代特征的经典随机森林岩层分层结果图；

图20为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景特征的空间随机树种森林岩层分层结果图(保守预测)；

图21为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景特征的空间随机树种森林岩层分层结果图(激进预测)；

图22为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景替代特征的完全空间随机森林岩层分层结果图(保守预测)；

图23为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景替代特征的完全空间随机森林岩层分层结果图(激进预测)；

图24为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景特征的完全空间随机森林岩层分层结果图(保守预测)；

图25为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景特征的完全空间随机森林岩层分层结果图(激进预测)；

图26为本发明实施例提供的通过空间随机森林算法得到的露头地质体岩层分界线与实际岩层分界线对比图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

请参阅图1，为本发明实施提供的一种面向露头地质体岩层分层的空间随机森林算法的流程图。本实施例中，所述面向露头地质体岩层分层的空间随机森林算法包括如下步骤：

步骤S12，对露头岩层三维点云模型进行体元分割；

步骤S13，构建岩层体元空间特征与属性特征集成表达模型；

优选地，所述基于倾斜摄影测量数据构建露头岩三维点云模型包括如下步骤：

步骤S111，获取倾斜摄影测量数据；

如图2所示；露头剖面所在的地质体为研究对象，该区域地层主要为上古生界二叠系中统下石盒子组，露头地质体没有植被覆盖，岩层露头良好，可观察到大套的含砾中粗砂岩、含砾粗砂岩、粉砂岩、泥质粉砂岩，间夹薄层的细砂岩、泥岩。千里山剖面所在地质体顶、底高程差约45m，剖面宽度约430m，地层走向为北西-南东，各岩层相互平行，平均倾向为62°，平均倾角为33°。研究该露头地质体的岩层分层有助于研究该区域地层展布情况，为该区域的露头地质体精细研究、储层地质知识库建立等提供基本资料。

使用搭载一台相机传感器的DJI Phantom 4Pro无人机对研究区域进行倾斜摄影测量数据获取，航高60米，飞行5架次，相机倾角20°，影像航向重叠率80％、旁向重叠率70％，最终获得的影像分辨率为1.90厘米，共获得746张影像。

通过ContextCapture Center(Smart3D)软件，将影像数据生成高密度三维点云数据，即，点云模型。每个点都含有三维坐标值和颜色信息。

在当前点云模型中，除了要研究的露头地质体外，还存在部分无关地物：道路和房屋。由于这些无关地物在露头地质体周围，且距离露头地质体有明显距离，因此直接设置坐标值范围进行去除。去除无关地物前后的点云模型如图3和图4所示。

步骤S113，通过去除地物数据后的倾斜摄影测量数据构建露头岩层三维点云模型。

优选地，为了建立空间索引系统并简化点云数据，又不失去太多信息，本发明实施例采用八叉树方法将露头地质体所在的三维空间分成细小的单元，这些单元称之为体元。对露头岩层三维点云模型进行体元分割采用八叉树构建算法，包括如下步骤：

步骤S125，递归地调用步骤S122～步骤S124直到所有体元都结束分割。八叉树分割如图5所示。

获取空间场景特征和空间度量关系特征作为空间特征。

对于每一个体元，其内部都包含至少一个点。取体元内中心点(体元内所有点的中心点)的坐标为体元的坐标；体元内所有点RGB颜色值的均值为体元的颜色值。对体元内所有点使用总体最小二乘法得到一个拟合平面，这些点到拟合平面的标准差即为该体元的粗糙度，表示这个体元对应的局部剖面的粗糙程度。

通过所选取的三点求得该岩层层面的单位法向量

法向量与产状的关系由公式(1)表示：

式中，

V＝(ID,X,Y,Z,R,G,B,A,E,C) (2)

在地质学中，岩层在空间中的产出状态用岩层产状来表示，岩层产状包含走向、倾向和倾角，但一般用倾向α(0°≤α≤360°)和倾角

来表示产状。对于已知类别的体元(即样本)，可以获取其产状：一种方法是在野外踏勘时测量体元所在岩层层面的产状；另一种方法是根据样本与同一岩层面上其它体元构成的平面求得：根据这多个体元的坐标可以求得所构成的平面的法向量，法向量和产状的关系如图6所示，图中，面OBEC为岩层层面，其产状为

向量

为岩层层面的法向量，用

表示；Y轴为正北方向，平面XOY为水平面，平面YOZ为垂直面，假设面OBEC过原点O(0,0,0)，则OA为岩层层面的单位法向量

其长度为1，OA与垂直面的夹角即为倾角

OA在水平方向的投影OF与正北方向的夹角即为倾向α。根据该图可以得到公式(1)，则可求得该体元对应的产状。而对于未知类别的体元，由于其类别未知，即其所在岩层未知，因此其产状未知，用(-1,-1)表示，表征为其值无意义。

如此，在下文中，每个体元都为参与随机森林算法的一个数据，在三维空间中表现为一个点。

岩层分层是一个典型的分类问题，根据已知类别体元的特征进行归纳学习并建立规则，然后根据该规则预测每个未知体元的类别，最后将同一类别的体元归为一个整体，即是一个岩层。

式(2)表达了体元的所有属性，对于随机森林的输入特征：ID为体元的索引，每个体元有独特的值；根据八叉树算法可知，每个体元具有独特的坐标值；由于RGB颜色空间对不同颜色的物体具有区分性，同一岩层的体元有相似的值，不同岩层的体元有不同的值；由于风化剥蚀等地质作用，同一岩层的体元对应的剖面有近似的粗糙程度，不同岩层的体元对应的剖面有不同的粗糙程度。因此，红光波段R、绿光波段G、蓝光波段B、表面粗糙度A可以作为经典随机森林算法的输入特征，将它们统称为体元的属性特征。

体元为空间数据，因此，可以根据体元内和体元间的空间结构和空间关系挖掘并提取其空间特征。

根据地理学第一定律，对体元类别预测时，可以认为：两个体元间的距离越近，其类别越可能相同。

岩层在空间中的产出状态用产状来表示，根据图6和公式(1)可知，当岩层产状确定，岩层层面的法向量则确定。因此，过地质体上任意一点的岩层层面有且仅有一个，其由所在岩层的产状和该点坐标共同确定；地质体上两点之间的空间度量关系与两点所在岩层层面有关。

将岩层层面所在平面的法向量方向称为该岩层层面上的体元的垂直方向，其中指向 +Z方向的单位法向量的方向为正方向；将平面的延展方向称为在该岩层层面上的体元的水平方向，平面沿+Y方向的延展方向为正方向。则地质体中体元的垂直方向和水平方向的数量与地质体的岩层产状数量相同。

定义地质体上一点V到另一点V₀的空间度量关系为：点V到过V₀的岩层层面所在平面的距离，以及V在该平面上的投影点V′与V₀的直线距离所构成的二元组。因此可知：对于V和V₀，若其所在岩层产状相同，V到V₀的空间度量关系与V₀到V的空间度量关系值相同；否则则不同。

地理学第一定律中的“远近”在地质体的体元上既表现为垂直方向上的远近，又表现为水平方向上的远近。可以理解为：在地质体上，体元V到V₀的垂直距离越小，越可能在同一岩层上；体元V到V₀的水平距离越小，越可能在同一岩层上。不过，由于岩层具有层叠特性，虽然在岩层分界线周围的体元的垂直距离非常小，但也可能不属于同一岩层；由于岩层具有延展特性，虽然可能在同一岩层层面的体元间的水平距离非常大，但仍旧属于同一岩层。因此，对于一个待分类体元，在地质体的每个垂直正方向、垂直负方向、水平方向上都有距离最小的样本，该待分类体元的类别必然在这些最小距离样本的类别中，且优先考虑垂直方向上最近的样本。

随机森林算法的样本和待分类体元需具有相同特征，且体元与体元之间、特征的值与值之间必须性质相同且相互独立。空间度量关系虽然可以作为判断体元类别的一个特征，但空间度量关系是根据两个体元而获得的，因此必须对空间度量关系进行转化才能将之作为随机森林算法的特征。将一个待分类体元与所有样本进行比较，找到其垂直正方向、垂直负方向和水平方向上距离最小的样本，这些样本的类别组成的类别集作为该待分类体元的特征值；对于样本，其类别值即为特征值；这些特征值满足条件，且该特征与其他特征相互独立，可以作为随机森林算法的特征，将这个特征称为空间度量关系特征。

为了便于计算，将两个体元间的垂直距离转换为两个体元分别与第三个体元的垂直距离的差，如图7所示。在图7(1)中，在地质体上有体元V和V₀，过V₀的岩层层面所在的平面为SP，V在SP上的投影为V′，V到SP的距离为h，V′到V₀的距离为d； (2)中，V_f(x_f,y_f,z_f)是三维空间中地质体包围盒(以地质体中X、Y、Z坐标的最大绝对值为坐标值构成的长方体)外沿-Z方向的任意一点(体元V_f中心点)，平面ψ是平面SP沿-Z方向平移、过点V_f(x_f,y_f,z_f)的平面，则平面ψ与平面SP法向量相同，且与地质体相离，V和V0在平面ψ上的投影分别为V″和V″₀，V和V0到平面ψ的距离分别为h和h₀。

因此，统计所有样本的产状，用es表示，若共有Λ组产状，则

这可以认为是露头地质体的所有产状。若图7中体元V_f(x_f,y_f,z_f)为常量，则每组产状和V_f(x_f,y_f,z_f)可以确定其对应的唯一法向量，则es对应一组法向量值

设每个体元都有与es相对应的一组垂直距离值h＝(h¹,h²,K,h^Λ)，则对于样本，由于其有确定的产状，则h中只有一个分量有意义；对于待分类体元，由于其产状未知，则h中每个分量都有意义。

步骤S131，对于体元VW的垂直距离值h_VW的每一个分量

1≤p≤Λ，有对应

有意义的若干个样本，依次计算

并将差值按正负分别统计，

和

至少有1个成立；

步骤S132，若有且仅有

成立，则体元VW在产状为e^p的岩层的下方， VW在其法向量

的垂直正方向上有一个最近的样本，记VW与该样本的垂直距离为 +Δh，VW在e^p方向上最可能与该样本类别相同；

步骤S133，若有且仅有

成立，则体元VW在产状为e^p的岩层的上方， VW在其法向量

的垂直负方向上有一个最近的样本，记VW与该样本的垂直距离为 -Δh，VW在e^p方向上最可能与该样本类别相同；

步骤S134，若

和

都成立，则体元VW在产状为e^p的岩层的中间，VW在其法向量

的垂直正方向和负方向上分别有一个最近的样本，分别记VW 与这两个样本的垂直距离为+Δh和-Δh，VW在e^p方向上最可能与这两个样本的类别相同；

步骤S135，根据步骤S134～步骤S134，在VW垂直正方向和垂直负方向上分别获得至多Λ组(+Δh,c)和(-Δh,c)，将这Λ组值记作类别集cs，则至多包含(2×Λ)个类别c，cs中可能有重复类别，可以知道，VW所属类别一定在类别集cs中；

和

和

比较，只要大于

和

就从类别集cs中删除对应的组；

步骤S138，使类别集cs中只留下类别值，并对其进行去重，最后得到的类别集cs包含VW所属类别。

用M表示空间度量关系特征，m表示其值，则待分类体元的空间度量关系特征值 m＝cs；当共Λ组产状，Γ个类别时，待分类体元的空间度量关系特征值m至少有1个分量，至多有Λ(Λ≤Γ)个分量或Γ(Γ<Λ)个分量，当分量个数为1时，该分量的值即为该体元类别；对于样本，其类别为c_k，则其空间度量关系特征值m＝c_k，k＝ 1,2,…,Γ；则，对于任意一个体元V，都有表达式(3)：

V＝(ID,X,Y,Z,R,G,B,A,E,M,C) (3)

其中，各标识的含义与公式(2)相同。当体元V在特征M的值m只有一个分量时，其类别值c＝m；当值m有多个分量时，其类别值c∈m。

使类别集cs中只留下类别值，并对其进行去重，最后得到的类别集cs一定包含VW所属类别。

根据空间度量关系特征值的特征可知，空间度量关系特征不能直接用于经典决策树算法和经典随机森林算法。在决策树和随机森林中，建立决策树的目的是判断待分类数据的类别；特征的本质作用为对样本集划分子集，使子集中的样本尽可能属于同一类别；对待分类数据的预测，则是根据数据的特征值与决策树进行比对，直到得到待分类数据的类别。空间度量关系特征直接表达了数据的类别或类别的范围，因此虽然样本在空间度量关系特征的取值不完全包含待分类体元在空间度量关系特征的取值，但待分类体元在空间度量关系特征的取值已经直接对样本集划分了子集。也即是：所有待分类体元在空间度量关系特征的取值即是样本子集中包含的类别，有多少个取值则有多少个样本子集；对于任一取值，所有样本中类别在其分量中的样本都被划分到该取值对应的样本子集中，则一个样本可能存在于多个样本子集中，如图8所示。且空间度量关系特征值一定包含了体元的类别，因此空间度量关系特征应该作为决策树的根结点。

对于露头地质体，同一岩层的岩体性质相同，其所在环境相同，风化剥蚀程度基本一致；不同岩层的岩体性质不同，虽然所在环境相同，但风化剥蚀程度具有差异性。因此，对于由点云构成的体元，相同岩层的体元具有相似的空间结构和空间关系；不同岩层的体元具有不同的空间结构和空间关系。

快速点特征直方图(Fast Point Feature Histograms，FPFH)是一种基于点的表面法线和曲率的姿态不变的空间局部特征，它考虑估计法线之间的相互作用，通过统计的方法获得点与邻域点的空间几何关系，并形成一个多维直方图。

优选地，所述空间场景特征采用FPFH表示，FPFH计算过程包括如下步骤。

步骤S231，对点云模型中的任意一个点P求取其切平面的法向量。

步骤S232，找到距离点P最近的k个点，这k个点称为点P的k邻近集，将点P 与其k邻近集中的点两两连线，如图9所示；点P与其k邻近集(如k＝5，(1)为点 P的5邻近，(2)为点P和P₁的5邻近，P到P₁的箭头表示P₁是P的5邻近，但P 不是P₁的5邻近)。

其中，

表示原点位置切平面法向量，

为目标点位置切平面法向量，

表示从原点指向目标点的向量，

表示从目标点指向原点的向量。

步骤S234，根据原点O得到其坐标系(κ,ρ,ι)的表达式(5)：

步骤S235，平移原点O的坐标系(κ,ρ,ι)到目标点Q，则有图10(原点与目标点的空间关系)；点O与点Q的空间关系可以用一组角度相关的值来表示，见公式 (6)：

其中，θ为目标点Q的法向量

与坐标轴ρ之间的夹角，

表示原点O的法向量

与原点O和目标点Q的连线的夹角，β表示目标点Q的法向量

在坐标轴平面ιQκ上的投影与坐标轴κ之间的夹角，则可求出θ、

和β，见公式(7)：

其中，

表示坐标轴ι的单位向量与目标点Q处切平面的法向量

的内积，

表示坐标轴κ的单位向量与目标点Q处切平面的法向量

的内积；则点P与其邻域k个点的空间关系可由三元组

表示，且

与

的取值范围为[-1,1]，

的取值范围为[0,2π]。

步骤S236，对点P与其k邻近集中每个点都进行步骤(3)～(5)的运算，可以得到k个三元组

将

和

进行τ等分，对于

则将[-1,1]等分为τ个区间，统计每个区间中有多少个

值，某个区间

的频率为该区间

值的个数与k的比值，如图11(点P与其k邻近集在

的三分区、频率分布折线图和频率分布直方图 (k＝20))，用同样的方法统计

和

的区间频率。

步骤S237，点P在

和

总共有(3×τ)个区间，对其从1开始依次进行编号，这个编号则为点P的空间结构子空间序号，则可以得到类似于图11(2)、9(3)所示的频率分布折线图和直方图；这个频率分布直方图就是点P周围的空间结构；点云间的相似则表现为每个子空间相似，也即是需要比较每个子空间序号的频率，在频率分布折线图上表现为图形的整体相似和峰值的相似；这(3×τ)个频率值组成的(3×τ)元组被称为点P的简单点特征直方图(Simple Point Feature Histograms，SPFH)。

步骤S238，对体元中每个点都进行步骤S231～步骤S237，则体元内的每个点都可以得到一个SPFH；对于任意一个体元V，通过公式(8)可以得到其快速点特征直方图 FPFH：

其中，P为体元的中心点，η为体元内除中心点的点的数量，P_δ为体元内除中心点外的一点，δ＝1,2,…,η，ω_η为点P_δ到中心点P的距离；式中SPFH的相加是指对应的子空间的频率相加。

每个体元根据上述步骤都可以得到一个自己的FPFH频率分布图，每个FPFH共有τ个区间，用s＝(s¹,s²,K,s^τ)表示其纵值，则分量序号与直方图横轴序号一一对应。地理信息科学中，空间场景是体的一种内部结构表现，地质体点云的空间场景表现为体元中不同点与其邻域的相对位置关系，则体元FPFH的纵值s＝(s¹,s²,K,s^τ)表征了体元的空间场景。用S表示空间场景特征，则s＝(s¹,s²,K,s^τ)为特征值，该特征和特征值都满足决策树和随机森林的特征性质。因此，对于任意一个体元V，都有表达式(9)：

V＝(ID,X,Y,Z,R,G,B,A,E,M,S,C) (9)

其中，各标识的含义与公式(2)相同，S＝s。

对于体元的空间场景特征而言，对体元进行比较，可以对体元空间场景特征中的部分依次进行比较，因此可以使用信息增益比准则来依次选择最优分量。虽然空间场景特征有多个分量，但它是一个特征，因此在决策树和随机森林中对应一个结点，当与其它特征一起构建决策树和随机森林时，使用信息增益比准则的定义来选择最优特征。空间场景特征在决策树和随机森林中的构建方式如图12所示。

V＝(R,G,B,A,M,S) (10)

步骤S142，构建根结点，将训练样本集放在根结点；

以空间决策树为基础的随机森林为空间随机森林，空间随机森林中包含至少一棵空间决策树。因此，空间随机森林共有两种构成方式：完全空间随机森林和空间随机树种森林。其中，完全空间随机森林中只有空间决策树，构建方法与经典随机森林构建方法相同，但由于空间决策树的根结点为空间度量关系特征，因此空间度量关系特征不参与特征随机；空间随机树种森林中除了有空间决策树，还有经典决策树，构建空间决策树的特征集为空间特征，构建经典决策树的特征集为属性特征，在构建每棵决策树前，要先随机判断该棵决策树的性质，然后根据其性质从对应特征集中随机抽取特征。

对空间随机森林进行建立以及对分类结果进行验证也使用分层抽样方法，且方法与经典随机森林算法完全相同。

使用空间随机森林对任意一个样本VS进行验证的方法为：

(1)获取空间度量关系特征M所有取值中分量个数大于1的取值，这些取值即为森林中所有决策树不能直接通过空间度量关系特征得到类别的分支集；

(2)在分支集中找到包含VS类别的取值，得到VS对应的分支集，将VS的空间度量关系特征值依次设置为VS对应分支集中的取值，得到VS的副本集，则副本集中每个副本体元的空间度量关系特征值与VS对应分支集中的值一一对应，其它特征值与VS 的特征值相同；

(3)若副本集为空，则说明空间随机森林对样本的类别预测即为样本的实际类别，认为得到正确的分类结果；

(4)否则，对每一个副本按照空间随机森林对体元进行类别预测的方法得到其类别，并将该类别与VS的真实类别进行比较，若相同则说明该副本分类正确，若不同则说明分类错误。对于所有副本，可得到全部副本分类正确、至少一个副本分类正确和综合分类正确比例三个结果。其中，全部副本分类正确用0或1表示，0表示至少有一个副本分类错误，1表示全部副本分类正确；至少一个副本分类正确也用0或1表示，0表示全部副本分类错误，1表示至少有一个副本分类正确；综合分类正确比例是一个在0与 1之间的值，为分类正确的副本数与副本集的总数的比值。

因此，对于所有验证样本，分别对全部副本分类正确、至少一个副本分类正确和综合分类正确比例进行累加后，空间随机森林根据公式(11)得到的精度是三个不同意义的精度值，其中通过全部副本分类正确得到的精度称为保守精度，通过至少一个副本分类正确得到的精度称为激进精度，通过综合分类正确比例得到的精度称为一般精度。经典随机森林只有一个精度值，其意义与一般精度等价。

其中，pre为精度值；VVSR为要求取的精度值所对应的验证样本集，|VVSR|为验证样本集VVSR的容量；VVS为总体验证样本集，|VVS|为VVS的容量。

精度评价指标：

空间随机森林算法对露头地质体体元进行分类后，每个类别即对应一个岩层，即实现了露头地质体的岩层分层。公式(11)只能对随机森林算法的分层结果进行简单对比分析，算法是否有效还需要用适当的精度评价方法来评价。

本发明基于混淆矩阵，使用总体分类精度OA(Overall Accuracy)、Kappa系数(Kappa Coefficient)、精确率P(Precision)、召回率R(Recall)、精确率和召回率的加权调和平均F-Measure作为评价指标。

实验方案：

结合研究区岩层的厚度及所构建三维模型的精度，设置八叉树体元分割的阈值为0.1米，快速点特征直方图SPFH中点云局部结构为50邻近、等分区间为11(则空间场景特征共有33个分量)，空间度量关系特征中地质体最大岩层真厚度阈值25米。对研究区域按八叉树算法进行分割后的体元模型局部示例如图13所示，点云体元化后共有 2496240个体元。

地质露头共有6个岩层，即6种类别；分层抽样时，训练样本占总样本的比率为0.7，对实验对象的样本选择见表1和图14(露头模型样本选择)。

表1各类别样本容量及对应颜色

设置随机森林中决策树个数为120。为了更准确地对空间特征和空间随机森林算法进行分析，需要保证每棵决策树的样本和特征保持一致：

(1)对于每种随机森林中索引相同的树都有相同的样本；

(2)对于同一种随机森林算法，特征集不完全相同，且不相同的特征越少越好；

(3)对于不同随机森林算法，特征集基本一致(空间度量关系特征用于经典随机森林时只能转换为相近的属性特征，因此有一定差异；空间场景特征用于经典随机森林和空间随机森林的特征选取准则不同)。

体元共有6个特征参与随机森林算法运算：红光值R、绿光值G、蓝光值B、表面粗糙度A、空间度量关系特征M、空间场景特征S。根据它们的性质可分为3组：

(1)属性特征R、G、B、A；

(2)空间度量关系特征M或

(3)空间场景特征S或

其中，空间度量关系特征

(其值为

)为空间度量关系特征M(其值为m)参与经典随机森林算法的替代特征：对于只有1个分量的m，有

对于有多个分量的m，

为m的任意一个分量；在程序实现上，空间度量关系特征M的值m为字符串，空间度量关系特征

的值为整型。空间场景特征S表示33个特征分量为一个整体，不可分割，用于空间随机森林算法中，是空间场景特征在随机森林算法中的体现；空间场景特征

表示33个特征作为普通特征，相互独立，既可以用于经典随机森林算法也可以用于空间随机森林算法，这样使用空间场景特征的随机森林算法只能作为对比实验，而不是真实的随机森林算法表达方式。

由于随机森林中每棵决策树的特征数量必须远远少于随机森林总特征的数量，而随机森林共6个特征，难以满足条件。因此，在对随机森林中的每棵决策树进行特征选择时，使用以下原则：

(1)属性特征中共4个特征，特征数量太少，则随机选择

个特征，为小数时向上取整；

(2)为满足决策树特征的数量远远小于随机森林总特征的数量，对空间场景特征S(或空间场景特征

)随机选择

个分量，为小数时向下取整。

综合上述分析，实验共有120组随机数据，每组随机数据对应一棵决策树，不同森林中这棵决策树索引相同，每棵决策树包含以下五部分数据：

(1)训练样本集：48108个训练样本；

(2)属性特征：j个，j＝2,3,4；

(3)是否有空间度量关系特征的转换特征

是、否；

(4)空间场景特征分量：随机5个；

(5)树种名称：经典决策树、空间决策树。

如此，在一组实验中，不同随机森林在同一索引的树具有最小变量，这样可以最大程度地比较不同随机森林算法的差异。

结果与讨论：

本发明以16GB运行内存的Windows10系统为实验平台，Visual Studio2017为开发工具，C#为随机森林算法实现语言，C++为模型展示语言，PostgreSQL为数据库，以体元为随机森林算法的输入对象，将不同特征与不同随机森林算法进行组合，开展了8种对比实验。

(1)使用经典随机森林算法，特征集FS＝{R,G,B,A}，即只有属性特征，因此每棵决策树中包含上述(1)、(2)部分数据。实验结果如表2和图15所示，算法精度为24.81％。从结果可以看出，类别3在属性特征上的取值基本上包括了其它所有类别的取值，且在每个取值上都占多数，所以预测结果中类别3占绝大多数，造成这种情况的最大可能是属性特征值的精度太低。因此，使用这样属性特征的经典随机森林算法不能进行岩层分层。

表2基于属性特征的经典随机森林岩层分层统计表

(2)使用经典随机森林算法，特征集

即只有空间场景特征在经典随机森林算法中的替代特征，因此每棵决策树包含前述(1)、(4)部分数据。实验结果如表3 和图16所示，算法精度为26.55％。从结果可以看出，空间场景特征在不同局部空间结构的表现不同，局部空间结构平缓的地方被预测为类别3，局部空间结构破碎情况较轻但起伏较多的地方被预测为类别4，局部空间结构破碎严重的地方被预测为类别5，因此空间场景特征能够用于识别不同局部空间结构的体元。但是，只使用空间场景特征的经典随机森林算法不能进行岩层分层。

表3基于空间场景替代特征的经典随机森林岩层分层统计表

(3)使用经典随机森林算法，特征集

即有属性特征和空间场景特征在经典随机森林算法中的替代特征，因此每棵决策树包含前述(1)、(2)、(4)部分数据。实验结果如表4和图17所示，算法精度为26.98％。从结果可以看出，使用属性特征和空间场景替代特征的算法结果与仅使用空间场景替代特征的结果基本相同，可以认为空间场景替代特征基本上完全抑制了属性特征对体元类别预测的作用，在决策树上一定表现为空间场景分量对应的结点比属性特征对应的结点深度更小，即更靠近根结点，因此更应该先根据该特征对训练样本集划分子集或分类。使用属性特征和空间场景替代特征的经典随机森林算法不能进行岩层分层。

表4基于属性特征和空间场景替代特征的经典随机森林岩层分层统计表

(4)使用经典随机森林算法，特征集

即有属性特征和空间度量关系特征在经典随机森林算法中的替代特征，因此每棵决策树包含前述(1)、(2)、(3)部分数据。实验结果如表5和图18所示，算法精度为25.22％。从结果可以看出，使用属性特征和空间度量关系替代特征的算法结果与只使用属性特征的结果基本相同，可以认为属性特征在极大程度上抑制了空间度量关系特征的替代特征对体元类别预测的作用。使用属性特征和空间度量关系替代特征的经典随机森林算法不能进行岩层分层。

表5基于属性特征和空间度量关系替代特征的经典随机森林岩层分层统计表

(5)使用经典随机森林算法，特征集

即有属性特征、空间度量关系特征在经典随机森林算法中的替代特征和空间场景特征在经典随机森林算法中的替代特征，因此每棵决策树包含前述(1)、(2)、(3)、(4)部分数据。实验结果如表 6和图19所示，算法精度为80.49％。从结果可以看出，使用所有特征的经典随机森林算法能够进行一定程度的分层，但每一层含有较多其它类别，若要实现岩层分层还需进行进一步处理。从上文的分析，可以推断当空间场景特征存在时，由于空间场景特征对属性特征基本上完全抑制，空间度量关系特征的替代特征反而对体元类别预测有了巨大作用，甚至可以对地质体进行初步的岩层分层。

表6基于属性特征、空间度量关系替代特征和空间场景替代特征的经典随机森林岩层分层统计表

(6)使用空间随机树种森林算法，特征集FS＝{R,G,B,A,M,S}，森林中有两种决策树，一种为经典决策树，一种为空间决策树，因此每棵决策树都包含前述第(5)部分数据，决定当前决策树的算法；经典决策树中包含前述(1)、(2)部分数据，空间决策树中包含第(1)、(4)部分数据。实验结果如表7、图20和图21所示；图20为保守预测结果，保守验证精度为40.06％，图21为激进预测结果，激进验证精度为68.31％；一般精度为54.57％。从结果可以看出，使用所有特征的经典随机森林算法能够进行一定程度的分层，但每一层含有较多其它类别，若要实现岩层分层还需进行进一步处理。但是，空间随机树种森林是经典决策树和空间决策树的结合，它的结果由经典决策树和空间决策树共同决定。由于经典决策树和空间决策树在森林中的出现是随机的，只有森林中决策树数量足够多时才可能满足1：1，而森林中实际上并不需要那么多树，因此它们的比例是未知的，而实验1表明经典决策树不能进行岩层分层，若空间决策树可以进行岩层分层，那么基于这两种树得到的空间随机树种森林算法是否能够用于分层并不能够确定，这个算法得到的结果并不是稳定的。

表7基于属性特征、空间度量关系特征和空间场景特征的空间随机树种森林岩层分层统计表

(7)使用完全空间随机森林算法，特征集

此处使用空间场景特征在经典随机森林算法中的替代特征，因此每棵决策树都包含前述(1)、(2)、(4) 部分数据。实验结果如表8、图22和图23所示；图22为保守预测结果，保守验证精度为79.60％；图23为激进预测结果，激进验证精度为99.74％；一般精度为89.65％。从结果可以看出，分层效果较理想。但这组实验中空间场景特征并不是一个特征，而是其分量都为独立特征，因此只能作为对比实验。

表8基于属性特征、空间度量关系特征和空间场景替代特征的完全空间随机森林岩层分层统计表

(8)使用完全空间随机森林算法，特征集FS＝{R,G,B,A,M,S}，每种特征根据自己的性质用于随机森林，因此每棵决策树都包含前述(1)、(2)、(4)部分数据。实验结果如表9、图24和图25所示；图24为保守预测结果，保守验证精度为79.90％；图25 为激进预测结果，激进验证精度为99.74％；一般精度为89.98％。从结果可以看出，分层效果很理想。这组实验与第7组实验的结果差异较小，差异主要集中在边界附近，而它们的算法差异主要在空间场景特征的使用方法(空间场景特征的使用方法不同导致属性特征在决策树中对应结点的深度也不同)，因此可以推断：空间度量关系特征在极大程度上决定了空间随机森林算法的类别预测效果，但在边界附近的体元类别主要受其它特征影响。两组实验结果的激进精度完全相同，但实验8的保守精度高0.3％，一般精度高0.33％，这说明空间场景特征根据其本质参与随机森林算法的运算结果好于空间场景特征以经典决策树学习方法的特征选择方式参与随机森林算法的运算结果。

表9基于属性特征、空间度量关系特征和空间场景特征的完全空间随机森林岩层分层统计表

在这8种对比实验中，根据每种特征自己的性质将其用于随机森林算法中的只有实验5、实验6和实验8，这三种实验中，实验8的结果是最优的；其他5种对比实验与实验8相比，实验8的结果也是最优的。将实验8的分层结果岩层分界线，与实际岩层分界线进行对比(图26，蓝色表示实际岩层分界线，红色表示实验8确定的岩层分界线，绿色为二者重叠部分)，可以看到二者差异较小，表明了根据特征自己的性质将之用于随机森林算法中，可以得到理想的岩层分层结果。

对实验8的保守验证结果和激进验证结果进行统计，可以得到表10和表11两个混淆矩阵，根据混淆矩阵可以得到表12的精度评价结果。

表10完全空间随机森林(实验8)的混淆矩阵(保守)

表11完全空间随机森林(实验8)的混淆矩阵(激进)

表12完全空间随机森林(实验8)的算法评价精度

对表10、表11和表12进行分析，可以得出以下结论：

(1)算法的总体预测效果理想。保守验证总体精度为79.8990％，Kappa系数为0.7508，表示刚好得到理想分类结果；激进总体精度为99.7427％，Kappa系数为0.9968，表示分类效果极为理想；且一般分类精度为89.98％；因此，算法的总体预测结果是很理想的；

(2)算法对类别3的预测效果最好；

(3)从精确率看，在保守验证中，其它类别都可能被预测为类别1、类别2、类别3、类别4或类别5，在这5种类别中，被错误预测为类别5的概率最大，被错误预测为类别3的概率最小；不可能有其它类别被错误预测为类别6。在激进验证中，其它类别都可能被预测为类别2、类别4或类别5，被错误预测概率差不多，不可能有其它类别被错误预测为类别1、类别3和类别6；

(4)从召回率看，在保守验证中，每种类别都可能被预测为其它类别(类别6除外)，尤其是类别1，被预测为其它类别的概率非常大，类别3被预测为其它类别的概率最小。在激进验证中，类别1、类别5和类别6都可能被预测为其它类别，被错误预测概率差不多，类别2、类别3和类别4都不可能被预测为其它类别；

(5)根据F-Measure综合分析，可以知道算法对类别3有极为理想的预测结果，对类别2和类别4有非常理想的预测结果，对类别5和类别6有较为理想的预测结果，对类别1有一般的预测结果，因此实验8得到的岩层分层结果是理想的。

对8种实验进行综合分析，可以得出结论：经典决策树具有类别越多，错分概率越大的特点；相比于经典决策树和经典随机森林算法仅使用属性特征，引入空间特征的空间决策树在很大程度上减小了这种错分概率。因此，本发明提出的完全空间随机森林算法能够显著提高分类正确率，也就能显著提高对岩层正确分层的概率。空间随机森林算法能够更好地对体元进行分类，并且这种用于露头地质体岩层分层的空间随机森林算法是合理的。

本发明不局限于上述可选实施方式，任何人在本发明的启示下都可得出其它各种形式的方案，但不论在其结构上作何种变化，凡是落入本发明权利要求界定范围内的技术方案，均落在本发明的保护范围之内。

Claims

1.一种面向露头地质体岩层分层的空间随机森林算法，其特征在于，方法包括：

步骤S12，对露头岩层三维点云模型进行体元分割；

步骤S13，构建岩层体元空间特征与属性特征集成表达模型；

2.根据权利要求1所述的面向露头地质体岩层分层的空间随机森林算法，其特征在于，所述基于倾斜摄影测量数据构建露头岩层三维点云模型包括如下步骤：

步骤S111，获取倾斜摄影测量数据；

步骤S113，通过去除无关地物数据后的倾斜摄影测量数据构建露头岩层三维点云模型。

3.根据权利要求2所述的面向露头地质体岩层分层的空间随机森林算法，其特征在于，对露头岩层三维点云模型进行体元分割采用八叉树构建算法，包括如下步骤：

4.根据权利要求3所述的面向露头地质体岩层分层的空间随机森林算法，其特征在于，所述岩层体元空间特征与属性特征集成表达模型构建包括如下步骤：

获取空间场景特征和空间度量关系特征作为空间特征。

5.根据权利要求4所述的面向露头地质体岩层分层的空间随机森林算法，其特征在于，所述露头剖面在体元所在区域的表面粗糙度，具体为对体元内所有点云数据使用总体最小二乘法得到一个拟合平面，所有点云数据到拟合平面的标准差设为该体元的粗糙程度。

6.根据权利要求5所述的面向露头地质体岩层分层的空间随机森林算法，其特征在于，所述空间度量关系特征以每个体元中心点的空间坐标值(x，y，z)以及该体元所在位置的产状信息表示，产状信息的获取包括如下步骤：

通过所选取的三点求得该岩层层面的单位法向量

法向量与产状的关系由公式(1)表示：

式中，

V＝(ID,X,Y,Z,R,G,B,A,E,C) (2)

式中，ID表示体元的索引，id为其值；用X、Y、Z表示三维空间，x、y、z分别为其对应的值，则(x,y,z)表示一个体元的位置；用R、G、B表示颜色空间，r、g、b分别为其对应的值，则(r,g,b)表示一个体元的颜色；用A表示粗糙度，a表示其对应的值；用E表示产状，

7.根据权利要求6所述的面向露头地质体岩层分层的空间随机森林算法，其特征在于，统计所有样本的产状，用es表示，若共有Λ组产状，则

步骤S131，对于体元VW的垂直距离值h_VW的每一个分量

1≤p≤Λ，有对应

有意义的若干个样本，依次计算

并将差值按正负分别统计，

和

至少有1个成立；

步骤S132，若有且仅有

成立，则体元VW在产状为e^p的岩层的下方，VW在其法向量

的垂直正方向上有一个最近的样本，记VW与该样本的垂直距离为+Δh；

步骤S133，若有且仅有

成立，则体元VW在产状为e^p的岩层的上方，VW在其法向量

的垂直负方向上有一个最近的样本，记VW与该样本的垂直距离为-Δh；

步骤S134，若

和

都成立，则体元VW在产状为e^p的岩层的中间，VW在其法向量

的垂直正方向和负方向上分别有一个最近的样本，分别记VW与这两个样本的垂直距离为+Δh和-Δh；

和

和

比较，只要大于

和

就从类别集cs中删除对应的组；

用M表示空间度量关系特征，m表示其值，则待分类体元的空间度量关系特征值m＝cs；当共Λ组产状，Γ个类别时，待分类体元的空间度量关系特征值m至少有1个分量，至多有Λ(Λ≤Γ)个分量或Γ(Γ<Λ)个分量，当分量个数为1时，该分量的值即为该体元类别；对于样本，其类别为c_k，则其空间度量关系特征值m＝c_k，k＝1,2,…,Γ；

则，对于任意一个体元V，都有表达式(3)：

V＝(ID,X,Y,Z,R,G,B,A,E,M,C) (3)

8.根据权利要求7所述的面向露头地质体岩层分层的空间随机森林算法，其特征在于，所述空间场景特征采用FPFH表示，FPFH计算过程包括如下步骤：

其中，

表示原点位置切平面法向量，

为目标点位置切平面法向量，

表示从原点指向目标点的向量，

表示从目标点指向原点的向量；

步骤S234，根据原点O得到其坐标系(κ,ρ,ι)的表达式(5)：

其中，θ为目标点Q的法向量

与坐标轴ρ之间的夹角，

表示原点O的法向量

与原点O和目标点Q的连线的夹角，β表示目标点Q的法向量

在坐标轴平面ιQκ上的投影与坐标轴κ之间的夹角，则求出θ、

和β，见公式(7)：

其中，

表示坐标轴ι的单位向量与目标点Q处切平面的法向量

的内积，

表示坐标轴κ的单位向量与目标点Q处切平面的法向量

的内积；则点P与其邻域k个点的空间关系由三元组

表示，且

与

的取值范围为[-1,1]，

的取值范围为[0,2π]；

将

和

进行τ等分，对于

则将[-1,1]等分为τ个区间，统计每个区间中有多少个

值，某个区间

的频率为该区间

值的个数与k的比值；用同样的方法统计

和

的区间频率；

步骤S237，点P在

和

总共有(3×τ)个区间，对其从1开始依次进行编号，这个编号则为点P的空间结构子空间序号，则得到频率分布折线图和直方图；这个频率分布直方图就是点P周围的空间结构；点云间的相似则表现为每个子空间相似，也即是需要比较每个子空间序号的频率，在频率分布折线图上表现为图形的整体相似和峰值的相似；这(3×τ)个频率值组成的(3×τ)元组被称为点P的简单点特征直方图(Simple Point FeatureHistograms，SPFH)；

每个体元根据上述步骤都得到一个自己的FPFH频率分布图，每个FPFH共有τ个区间，用s＝(s¹,s²,...,s^τ)表示其纵值，则分量序号与直方图横轴序号一一对应；则体元FPFH的纵值s＝(s¹,s²,...,s^τ)表征了体元的空间场景；用S表示空间场景特征，则s＝(s¹,s²,...,s^τ)为特征值，该特征和特征值都满足决策树和随机森林的特征性质；因此，对于任意一个体元V，都有表达式(9)：

V＝(ID,X,Y,Z,R,G,B,A,E,M,S,C) (9)

其中，各标识的含义与公式(2)相同，S＝s。

9.根据权利要求8所述的面向露头地质体岩层分层的空间随机森林算法，其特征在于，每一个体元为随机森林的输入数据，体元的属性特征和空间特征为输入特征，如式(10)所示：

V＝(R,G,B,A,M,S) (10)

步骤S142，构建根结点，将训练样本集放在根结点；

步骤S147，若第i个取值mⁱ中有多个分量，则找到训练样本集VTS中类别值属于mⁱ的分量的所有样本，这些样本即为mⁱ分支对应的子训练样本集，以子训练样本集和特征集FS为输入样本和特征，按照前述的步骤构建mⁱ分支对应的子决策树；

10.根据权利要求4所述的面向露头地质体岩层分层的空间随机森林算法，其特征在于，所述将体元带入空间随机森林算法进行预测，得到体元匹配的岩层类别具体为：对随机森林中的每棵决策树，递归地根据决策树的结点找到体元对应的特征值，根据该特征值进入决策树中该结点对应的分支，最终得到体元的类别；统计随机森林中所有决策树对体元的分类结果，数量最多的类别即是随机森林对体元预测的类别。