CN113033599A - 面向露头地质体岩层分层的空间随机森林算法 - Google Patents

面向露头地质体岩层分层的空间随机森林算法 Download PDF

Info

Publication number
CN113033599A
CN113033599A CN202110139104.0A CN202110139104A CN113033599A CN 113033599 A CN113033599 A CN 113033599A CN 202110139104 A CN202110139104 A CN 202110139104A CN 113033599 A CN113033599 A CN 113033599A
Authority
CN
China
Prior art keywords
voxel
spatial
value
point
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110139104.0A
Other languages
English (en)
Other versions
CN113033599B (zh
Inventor
陈建华
陶鲭宇
王炳乾
卢健
王峰
侯明才
胡作维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110139104.0A priority Critical patent/CN113033599B/zh
Publication of CN113033599A publication Critical patent/CN113033599A/zh
Application granted granted Critical
Publication of CN113033599B publication Critical patent/CN113033599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Image Generation (AREA)

Abstract

本发明公开了一种面向露头地质体岩层分层的空间随机森林算法,涉及地质勘探技术领域;方法包括:基于倾斜摄影测量数据构建露头岩层三维点云模型,对露头岩层三维点云模型进行体元分割,构建岩层体元空间特征与属性特征集成表达模型,以表达模型构建空间决策树,通过空间决策树构建空间随机森林算法,将体元带入空间随机森林算法进行预测,得到体元匹配的岩层类别。以地理信息科学为理论基础,结合地质体岩层特性从点云数据中提取其属性特征和空间特征,基于经典随机森林算法提出了空间随机森林算法,并将之应用于露头地质体岩层类别识别,以实现对露头地质体的自动化岩层分层,为露头地质体的进一步研究奠定基础。

Description

面向露头地质体岩层分层的空间随机森林算法
技术领域
本发明涉及地质勘探技术领域,尤其涉及一种面向露头地质体岩层分层的空间随机 森林算法。
背景技术
露头地质体是地上地质结构具有代表性的研究对象之一,常常作为地质研究工作的首要目标。岩层划分是分析露头地质体结构的基础,对岩层的准确划分有助于分析地 质体的尖灭位置、与其它地质体的叠置关系、空间展布规律等信息。
人工野外地质考察是岩层划分的主要方法,但地质结构的复杂性导致资料获取难度大、时间长、效率低,资料本身连续性差、局部精度差异大;岩层划分常常依赖于研 究人员的知识与经验,不同研究人员的分层结果和其精度往往有一定差异。而且,传统 方法针对地势陡峭的岩层划分显得极为困难,甚至于不可行。虽然目前出现了一些地层 分层、岩层分层的新方法,但仍旧缺少能够得到高精度分层结果的自动化分层方法。
倾斜摄影测量技术是指通过多台传感器,从不同视角对同一地物进行多次影像数据采集的测量方法。倾斜摄影测量技术能够最大化获取到地物带有空间位置信息的倾斜影像数据,这些数据具有很高的准确性和完整性,它颠覆了传统摄影测量技术。点云数 据是倾斜摄影测量数据的衍生数据,特征提取是点云分类的前提,提取出的特征是得到 理想分类结果的关键之一。强度信息、几何信息、表面粗糙度等属性信息是分类的常用 特征;由于点云携带有坐标信息,因此基于点的空间结构和空间关系得到的空间特征也 逐渐应用于分类中,但其仍旧处于初级阶段。
随机森林(Random Forest,RF)算法能够训练样本并预测输入数据类别,即对数据进行分类。随机森林具有良好的性能表现,且其抗干扰能力很强;理论上的随机森林 不会产生过拟合现象,且即使在现实中存在不可忽略的噪声影响,随机森林也有较强的 抗过拟合能力。随着机器学习的高速发展和对随机森林算法的深入研究,随机森林算法 也逐渐应用于地学领域,如裂缝预测、地学知识图谱的建立、地上生物量和森林冠层覆 盖度估算、不连续林地叶面积指数反演、地震属性中河道砂体识别等。随机森林算法的 核心是数据的特征,但目前这些使用随机森林算法来分类的特征主要是基于应用领域内 的专业知识而提取的属性特征,缺乏空间特征,而地学研究对象内或对象间普遍存在着 空间关系、空间场景、空间邻近等空间特征,挖掘并集成这些空间特征,进一步开展集 成空间语义计算的随机森林算法研究,来解决这些研究对象的分类问题是一个有价值且 较新的研究方向。
发明内容
本发明提供了一种面向露头地质体岩层分层的空间随机森林算法,用以解决现有技 术存在的上述问题。方法包括:
步骤S11,基于倾斜摄影测量数据构建露头岩层三维点云模型;
步骤S12,对露头岩层三维点云模型进行体元分割;
步骤S13,构建岩层体元空间特征与属性特征集成表达模型;
步骤S14,以表达模型构建空间决策树,通过空间决策树构建空间随机森林算法;
步骤S15,将体元带入空间随机森林算法进行预测,得到体元匹配的岩层类别。
优选地,所述基于倾斜摄影测量数据构建露头岩层三维点云模型包括如下步骤:
步骤S111,获取倾斜摄影测量数据;
步骤S112,设置坐标值范围,去除倾斜摄影测量数据中的无关地物数据;
步骤S113,通过去除无关地物数据后的倾斜摄影测量数据构建露头岩三维点云模型。
优选地,对露头岩层三维点云模型进行体元分割采用八叉树构建算法,包括如下步骤:
步骤S121,将露头地质体所在的三维空间作为一个体元,并设定一个长度阈值,该长度阈值表示最小体元的边长;
步骤S122,将当前体元分割成八个相同的子体元,子体元具有相同的级别和大小;
步骤S123,依次判断当前级别体元是否包含点云数据,若不包含则忽略该体元,则该体元不再参与计算;
步骤S124,将当前级别体元的边长与设定的长度阈值相比较,若大于长度阈值,则继续分割;若小于长度阈值,则结束当前级别体元的分割;
步骤S125,递归地调用步骤S122~步骤S124直到所有体元都结束分割。
优选地,所述岩层体元空间特征与属性特征集成表达模型构建包括如下步骤:
基于倾斜摄影测量数据获取体元所包含点云数据的R、G、B各自的平均值,和露 头剖面在体元所在区域的表面粗糙度作为属性特征;
获取空间场景特征和空间度量关系特征作为空间特征。
优选地,所述露头剖面在体元所在区域的表面粗糙度,具体为对体元内所有点云数据使用总体最小二乘法得到一个拟合平面,所有点云数据到拟合平面的标准差设为该体元的粗糙程度。
优选地,所述空间度量关系特征以每个体元中心点的空间坐标值(x,y,z)以及 该体元所在位置的产状信息表示,产状信息的获取包括如下步骤:
从露头岩层表面任选不共线的三点,即确定一平面,此平面作为岩层层面,其产状为
Figure BDA0002928046500000031
通过所选取的三点求得该岩层层面的单位法向量
Figure BDA0002928046500000032
法向量与产状 的关系由公式(1)表示:
Figure BDA0002928046500000033
式中,
Figure BDA0002928046500000034
表示该坐标位置岩层层面的倾角,α表示该坐标位置岩层层面的倾向;体元V表示为式(2):
V=(ID,X,Y,Z,R,G,B,A,E,C) (2)
式中,ID表示体元的索引,id为其值;用X、Y、Z表示三维空间,x、y、z分别 为其对应的值,则(x,y,z)表示一个体元的位置;用R、G、B表示颜色空间,r、g、b 分别为其对应的值,则(r,g,b)表示一个体元的颜色;用A表示粗糙度,a表示其对应 的值;用E表示产状,
Figure BDA0002928046500000035
表示其对应的值;用C表示类别,c表示体元所在岩层 的类别值,当体元类别未知时,e=(-1,-1),表示值无意义;c=0,表示类别未知。
优选地,统计所有样本的产状,用es表示,若共有Λ组产状,则
Figure BDA0002928046500000036
若体元Vf(xf,yf,zf)为常量,则每组产状和Vf(xf,yf,zf)确定其对应的唯一法向量,则es对应一组法向量值
Figure BDA0002928046500000037
设每个体元都有与es相对应的一组垂直距离值h=(h1,h2,K,hΛ),则对于样本,由于其有确定的产状,则h中只有一个分量有意义;对于待分类体元,由于其产状未知, 则h中每个分量都有意义;
待分类体元VW和所有样本VS,待分类体元VW的空间度量关系特征值的求取方 法为:
步骤S131,对于体元VW的垂直距离值hVW的每一个分量
Figure BDA0002928046500000041
1≤p≤Λ,有对应
Figure BDA0002928046500000042
有意义的若干个样本,依次计算
Figure BDA0002928046500000043
并将差值按正负分别统计,
Figure BDA0002928046500000044
Figure BDA0002928046500000045
至少有1个成立;
步骤S132,若有且仅有
Figure BDA0002928046500000046
成立,则体元VW在产状为ep的岩层的下方, VW在其法向量
Figure BDA0002928046500000047
的垂直正方向上有一个最近的样本,记VW与该样本的垂直距离为 +Δh;
步骤S133,若有且仅有
Figure BDA0002928046500000048
成立,则体元VW在产状为ep的岩层的上方, VW在其法向量
Figure BDA0002928046500000049
的垂直负方向上有一个最近的样本,记VW与该样本的垂直距离为 -Δh;
步骤S134,若
Figure BDA00029280465000000410
Figure BDA00029280465000000411
都成立,则体元VW在产状为ep的岩层的 中间,VW在其法向量
Figure BDA00029280465000000412
的垂直正方向和负方向上分别有一个最近的样本,分别记VW 与这两个样本的垂直距离为+Δh和-Δh;
步骤S135,根据步骤S134~步骤S134,在VW垂直正方向和垂直负方向上分别获 得至多Λ组(+Δh,c)和(-Δh,c),将这Λ组值记作类别集cs,则至多包含(2×Λ)个类别c,则VW所属类别在类别集cs中;
步骤S136,设置阈值Ω,Ω须大于地质体最大岩层真厚度,则满足条件|±Δh|>Ω的+Δh或-Δh对应的类别不为VW所属的类别,从类别集cs中删除对应的组;
步骤S137,对于所有+Δh和-Δh,分别有最小绝对值|+Δh|min和|-Δh|min,体元VW到最小绝对值对应类别的所有样本分别有最小水平距离
Figure BDA00029280465000000413
Figure BDA00029280465000000414
体元VW到类 别集cs中其它类别的所有样本也分别有最小水平距离,将这些最小水平距离与
Figure BDA00029280465000000415
Figure BDA00029280465000000416
比较,只要大于
Figure BDA00029280465000000417
Figure BDA00029280465000000418
就从类别集cs中删除对应的组;
步骤S138,使类别集cs中只留下类别值,并对其进行去重,最后得到的类别集cs包含VW所属类别;
用M表示空间度量关系特征,m表示其值,则待分类体元的空间度量关系特征值 m=cs;当共Λ组产状,Γ个类别时,待分类体元的空间度量关系特征值m至少有1个 分量,至多有Λ(Λ≤Γ)个分量或Γ(Γ<Λ)个分量,当分量个数为1时,该分量的 值即为该体元类别;对于样本,其类别为ck,则其空间度量关系特征值m=ck,k= 1,2,…,Γ;
则,对于任意一个体元V,都有表达式(3):
V=(ID,X,Y,Z,R,G,B,A,E,M,C) (3)
当体元V在特征M的值m只有一个分量时,其类别值c=m;当值m有多个分量 时,其类别值c∈m。
优选地,所述空间场景特征采用FPFH表示,FPFH计算过程包括如下步骤:
步骤S231,对点云模型中的任意一个点P求取其切平面的法向量;
步骤S232,找到距离点P最近的k个点,这k个点称为点P的k邻近集;
步骤S233,对于点P与其k邻近集点中的点Pδ(1≤δ≤k),选取二者中一点为坐 标系原点O,另一点作为目标点Q;为确保坐标系的唯一性,原点法向量与两点连线的 夹角应当最小,即需满足式(4):
Figure RE-GDA0003075454560000055
其中,
Figure RE-GDA0003075454560000056
表示原点位置切平面法向量,
Figure RE-GDA0003075454560000057
为目标点位置切平面法向量,
Figure RE-GDA0003075454560000058
表示从原点指向目标点的向量,
Figure RE-GDA0003075454560000059
表示从目标点指向原点的向量;
步骤S234,根据原点O得到其坐标系(κ,ρ,ι)的表达式(5):
Figure RE-GDA00030754545600000510
步骤S235,平移原点O的坐标系(κ,ρ,ι)到目标点Q,点O与点Q的空间关系用 一组角度相关的值来表示,见公式(6):
Figure RE-GDA0003075454560000061
其中,θ为目标点Q的法向量
Figure RE-GDA0003075454560000062
与坐标轴ρ之间的夹角,
Figure RE-GDA0003075454560000063
表示原点O的法向量
Figure RE-GDA0003075454560000064
与原点O和目标点Q的连线的夹角,β表示目标点Q的法向量
Figure RE-GDA0003075454560000065
在坐标轴平面 ιQκ上的投影与坐标轴κ之间的夹角,则求出θ、
Figure RE-GDA0003075454560000066
和β,见公式(7):
Figure RE-GDA0003075454560000067
其中,
Figure RE-GDA0003075454560000068
表示坐标轴ι的单位向量与目标点Q处切平面的法向量
Figure RE-GDA0003075454560000069
的内积,
Figure RE-GDA00030754545600000610
表 示坐标轴κ的单位向量与目标点Q处切平面的法向量
Figure RE-GDA00030754545600000611
的内积;则点P与其邻域k个 点的空间关系由三元组
Figure RE-GDA00030754545600000612
表示,且
Figure RE-GDA00030754545600000613
Figure RE-GDA00030754545600000614
的取值范围为[-1,1],
Figure RE-GDA00030754545600000615
的取值范 围为[0,2π];
步骤S236,对点P与其k邻近集中每个点都进行S233~S235的运算,得到k个三 元组
Figure BDA00029280465000000610
Figure BDA00029280465000000611
Figure BDA00029280465000000612
进行τ等分,对于
Figure BDA00029280465000000613
则将[-1,1]等分为τ个区间, 统计每个区间中有多少个
Figure BDA00029280465000000614
值,某个区间
Figure BDA00029280465000000615
的频率为该区间
Figure BDA00029280465000000616
值的个数与k的比值; 用同样的方法统计
Figure BDA00029280465000000617
Figure BDA00029280465000000618
的区间频率;
步骤S237,点P在
Figure BDA00029280465000000619
Figure BDA00029280465000000620
总共有(3×τ)个区间,对其从1开始依次进行编号,这个编号则为点P的空间结构子空间序号,则得到频率分布折线图和直方图;这个 频率分布直方图就是点P周围的空间结构;点云间的相似则表现为每个子空间相似,也 即是需要比较每个子空间序号的频率,在频率分布折线图上表现为图形的整体相似和峰 值的相似;这(3×τ)个频率值组成的(3×τ)元组被称为点P的简单点特征直方图(Simple PointFeature Histograms,SPFH);
步骤S238,对体元中每个点都进行步骤S231~步骤S237,则体元内的每个点都得到一个SPFH;对于任意一个体元V,通过公式(8)得到其快速点特征直方图FPFH:
Figure BDA00029280465000000621
其中,P为体元的中心点,η为体元内除中心点的点的数量,Pδ为体元内除中心点外的一点,δ=1,2,…,η,ωη为点Pδ到中心点P的距离;式中SPFH的相加是指对应的 子空间的频率相加;
每个体元根据上述步骤都得到一个自己的FPFH频率分布图,每个FPFH共有τ个 区间,用s=(s1,s2,K,sτ)表示其纵值,则分量序号与直方图横轴序号一一对应;则体元FPFH的纵值s=(s1,s2,K,sτ)表征了体元的空间场景;用S表示空间场景特征,则 s=(s1,s2,K,sτ)为特征值,该特征和特征值都满足决策树和随机森林的特征性质;因此, 对于任意一个体元V,都有表达式(9):
V=(ID,X,Y,Z,R,G,B,A,E,M,S,C) (9)
其中,各标识的含义与公式(2)相同,S=s。
优选地,每一个体元为随机森林的输入数据,体元的属性特征和空间特征为输入特征,如式(10)所示:
V=(R,G,B,A,M,S) (10)
定义以空间度量关系特征为根结点构建的决策树为空间决策树,对于训练样本集VTS、空间度量关系特征M和所有数据在空间度量关系特征M的取值m、其它特征组 成的特征集FS,建立空间决策树ST的算法为:
步骤S141,输入训练样本集VTS、所有体元在空间度量关系特征M的取值m、空 间度量关系特征M和特征集FS;
步骤S142,构建根结点,将训练样本集放在根结点;
步骤S143,判断训练样本集VTS是否为同一类,若为同一类,则类别值为根结点值,根结点也为叶结点,返回决策树;
步骤S144,若不为同一类,则设置空间度量关系特征M为根结点值,将所有数据 在空间度量关系特征M的取值m放在根结点;
步骤S145,根据所有取值m建立根结点的分支,每一个取值对应一个分支;
步骤S146,若第i个取值mi中只有一个分量,则建立该分支对应的子结点,该结 点为叶结点,结点值为分量值;
步骤S147,若第i个取值mi中有多个分量,则找到训练样本集VTS中类别值属于 mi的分量的所有样本,这些样本即为mi分支对应的子训练样本集,以子训练样本集和 特征集FS为输入样本和特征,按照前述的步骤构建mi分支对应的子决策树;
步骤S148,对m的所有分支按步骤S146~步骤S147建立叶结点或子决策树后, 返回决策树。
优选地,所述将体元带入空间随机森林算法进行预测,得到体元匹配的岩层类别具体为:对随机森林中的每棵决策树,递归地根据决策树的结点找到体元对应的特征值,根据该特征值进入决策树中该结点对应的分支,最终得到体元的类别;统计随机森林中 所有决策树对体元的分类结果,数量最多的类别即是随机森林对体元预测的类别。
本发明的有益效果为:
倾斜摄影测量数据中提取三维点云数据并构建体元模型,以地理信息科学为理论基 础,结合地质体岩层特性从点云数据中提取其属性特征和空间特征,基于经典随机森林算法提出了空间随机森林算法,并将之应用于露头地质体岩层类别识别,以实现对露头 地质体的自动化岩层分层,为露头地质体的进一步研究奠定基础。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而 可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技 术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的面向露头地质体岩层分层的空间随机森林算法的流程图;
图2为本发明实施例提供的研究区露头地质体位置图;
图3为本发明实施例提供的点云模型去除无关地物前的图像;
图4为本发明实施例提供的点云模型去除无关地物后的图像;
图5为本发明实施例提供的八叉树算法示意图;
图6为本发明实施例提供的地质体的产状及其与法向量的关系示意图;
图7为本发明实施例提供的体元间垂直距离的转换示意图;
图8为本发明实施例提供的空间度量关系特征在决策树中的应用示意图;
图9为本发明实施例提供的点P与其k邻近集的示意图;
图10为本发明实施例提供的原点与目标点的空间关系的示意图;
图11为本发明实施例提供的点P与其k邻近集在
Figure BDA0002928046500000081
的三分区、频率分布折线图和频率分布直方图;
图12为本发明实施例提供的特征S在空间随机森林中的应用方式;
图13为本发明实施例提供的体元模型局部示意图;
图14为本发明实施例提供的露头模型样本选择示意图;
图15为本发明实施例提供的基于属性特征的经典随机森林岩层分层结果图;
图16为本发明实施例提供的基于空间场景替代特征的经典随机森林岩层分层结果 图;
图17为本发明实施例提供的基于属性特征和空间场景替代特征的经典随机森林岩 层分层结果图;
图18为本发明实施例提供的基于属性特征和空间度量关系替代特征的经典随机森 林岩层分层结果图;
图19为本发明实施例提供的基于属性特征、空间度量关系替代特征和空间场景替代特征的经典随机森林岩层分层结果图;
图20为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景特征的空间随机树种森林岩层分层结果图(保守预测);
图21为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景特征的空间随机树种森林岩层分层结果图(激进预测);
图22为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景替代特征的完全空间随机森林岩层分层结果图(保守预测);
图23为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景替代特征的完全空间随机森林岩层分层结果图(激进预测);
图24为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景特征的完全空间随机森林岩层分层结果图(保守预测);
图25为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景特征的完全空间随机森林岩层分层结果图(激进预测);
图26为本发明实施例提供的通过空间随机森林算法得到的露头地质体岩层分界线 与实际岩层分界线对比图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的 示例性实施例,然而应当理解,以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的 本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
请参阅图1,为本发明实施提供的一种面向露头地质体岩层分层的空间随机森林算 法的流程图。本实施例中,所述面向露头地质体岩层分层的空间随机森林算法包括如下步骤:
步骤S11,基于倾斜摄影测量数据构建露头岩层三维点云模型;
步骤S12,对露头岩层三维点云模型进行体元分割;
步骤S13,构建岩层体元空间特征与属性特征集成表达模型;
步骤S14,以表达模型构建空间决策树,通过空间决策树构建空间随机森林算法;
步骤S15,将体元带入空间随机森林算法进行预测,得到体元匹配的岩层类别。
优选地,所述基于倾斜摄影测量数据构建露头岩三维点云模型包括如下步骤:
步骤S111,获取倾斜摄影测量数据;
如图2所示;露头剖面所在的地质体为研究对象,该区域地层主要为上古生界二叠系中统下石盒子组,露头地质体没有植被覆盖,岩层露头良好,可观察到大套的含砾 中粗砂岩、含砾粗砂岩、粉砂岩、泥质粉砂岩,间夹薄层的细砂岩、泥岩。千里山剖面 所在地质体顶、底高程差约45m,剖面宽度约430m,地层走向为北西-南东,各岩层相 互平行,平均倾向为62°,平均倾角为33°。研究该露头地质体的岩层分层有助于研 究该区域地层展布情况,为该区域的露头地质体精细研究、储层地质知识库建立等提供 基本资料。
使用搭载一台相机传感器的DJI Phantom 4Pro无人机对研究区域进行倾斜摄影测 量数据获取,航高60米,飞行5架次,相机倾角20°,影像航向重叠率80%、旁向重叠 率70%,最终获得的影像分辨率为1.90厘米,共获得746张影像。
通过ContextCapture Center(Smart3D)软件,将影像数据生成高密度三维点云数据, 即,点云模型。每个点都含有三维坐标值和颜色信息。
步骤S112,设置坐标值范围,去除倾斜摄影测量数据中的无关地物数据;
在当前点云模型中,除了要研究的露头地质体外,还存在部分无关地物:道路和房屋。由于这些无关地物在露头地质体周围,且距离露头地质体有明显距离,因此直接设 置坐标值范围进行去除。去除无关地物前后的点云模型如图3和图4所示。
步骤S113,通过去除地物数据后的倾斜摄影测量数据构建露头岩层三维点云模型。
优选地,为了建立空间索引系统并简化点云数据,又不失去太多信息,本发明实施例采用八叉树方法将露头地质体所在的三维空间分成细小的单元,这些单元称之为体 元。对露头岩层三维点云模型进行体元分割采用八叉树构建算法,包括如下步骤:
步骤S121,将露头地质体所在的三维空间作为一个体元,并设定一个长度阈值,该长度阈值表示最小体元的边长;
步骤S122,将当前体元分割成八个相同的子体元,子体元具有相同的级别和大小;
步骤S123,依次判断当前级别体元是否包含点云数据,若不包含则忽略该体元,则该体元不再参与计算;
步骤S124,将当前级别体元的边长与设定的长度阈值相比较,若大于长度阈值,则继续分割;若小于长度阈值,则结束当前级别体元的分割;
步骤S125,递归地调用步骤S122~步骤S124直到所有体元都结束分割。八叉树分割如图5所示。
优选地,所述岩层体元空间特征与属性特征集成表达模型构建包括如下步骤:
基于倾斜摄影测量数据获取体元所包含点云数据的R、G、B各自的平均值,和露 头剖面在体元所在区域的表面粗糙度作为属性特征;
获取空间场景特征和空间度量关系特征作为空间特征。
优选地,所述露头剖面在体元所在区域的表面粗糙度,具体为对体元内所有点云数据使用总体最小二乘法得到一个拟合平面,所有点云数据到拟合平面的标准差设为该体元的粗糙程度。
对于每一个体元,其内部都包含至少一个点。取体元内中心点(体元内所有点的中心点)的坐标为体元的坐标;体元内所有点RGB颜色值的均值为体元的颜色值。对体 元内所有点使用总体最小二乘法得到一个拟合平面,这些点到拟合平面的标准差即为该 体元的粗糙度,表示这个体元对应的局部剖面的粗糙程度。
优选地,所述空间度量关系特征以每个体元中心点的空间坐标值(x,y,z)以及 该体元所在位置的产状信息表示,产状信息的获取包括如下步骤:
从露头岩层表面任选不共线的三点,即确定一平面,此平面作为岩层层面,其产状为
Figure BDA0002928046500000111
通过所选取的三点求得该岩层层面的单位法向量
Figure BDA0002928046500000112
法向量与产状 的关系由公式(1)表示:
Figure BDA0002928046500000121
式中,
Figure BDA0002928046500000122
表示该坐标位置岩层层面的倾角,α表示该坐标位置岩层层面的倾向;体元V表示为式(2):
V=(ID,X,Y,Z,R,G,B,A,E,C) (2)
式中,ID表示体元的索引,id为其值;用X、Y、Z表示三维空间,x、y、z分别 为其对应的值,则(x,y,z)表示一个体元的位置;用R、G、B表示颜色空间,r、g、b 分别为其对应的值,则(r,g,b)表示一个体元的颜色;用A表示粗糙度,a表示其对应 的值;用E表示产状,
Figure BDA0002928046500000123
表示其对应的值;用C表示类别,c表示体元所在岩层 的类别值,当体元类别未知时,e=(-1,-1),表示值无意义;c=0,表示类别未知。
在地质学中,岩层在空间中的产出状态用岩层产状来表示,岩层产状包含走向、倾向和倾角,但一般用倾向α(0°≤α≤360°)和倾角
Figure BDA0002928046500000124
来表示产状。对于已 知类别的体元(即样本),可以获取其产状:一种方法是在野外踏勘时测量体元所在岩 层层面的产状;另一种方法是根据样本与同一岩层面上其它体元构成的平面求得:根据 这多个体元的坐标可以求得所构成的平面的法向量,法向量和产状的关系如图6所示, 图中,面OBEC为岩层层面,其产状为
Figure BDA0002928046500000125
向量
Figure BDA0002928046500000126
为岩层层面的法向量,用
Figure BDA0002928046500000127
表示;Y轴为正北方向,平面XOY为水平面,平面YOZ为垂直面,假设面OBEC过原 点O(0,0,0),则OA为岩层层面的单位法向量
Figure BDA0002928046500000128
其长度为1,OA与垂直面的夹 角即为倾角
Figure BDA0002928046500000129
OA在水平方向的投影OF与正北方向的夹角即为倾向α。根据该图可以 得到公式(1),则可求得该体元对应的产状。而对于未知类别的体元,由于其类别未知, 即其所在岩层未知,因此其产状未知,用(-1,-1)表示,表征为其值无意义。
如此,在下文中,每个体元都为参与随机森林算法的一个数据,在三维空间中表现为一个点。
岩层分层是一个典型的分类问题,根据已知类别体元的特征进行归纳学习并建立规 则,然后根据该规则预测每个未知体元的类别,最后将同一类别的体元归为一个整体,即是一个岩层。
式(2)表达了体元的所有属性,对于随机森林的输入特征:ID为体元的索引,每 个体元有独特的值;根据八叉树算法可知,每个体元具有独特的坐标值;由于RGB颜 色空间对不同颜色的物体具有区分性,同一岩层的体元有相似的值,不同岩层的体元有 不同的值;由于风化剥蚀等地质作用,同一岩层的体元对应的剖面有近似的粗糙程度, 不同岩层的体元对应的剖面有不同的粗糙程度。因此,红光波段R、绿光波段G、蓝光 波段B、表面粗糙度A可以作为经典随机森林算法的输入特征,将它们统称为体元的属 性特征。
体元为空间数据,因此,可以根据体元内和体元间的空间结构和空间关系挖掘并提 取其空间特征。
根据地理学第一定律,对体元类别预测时,可以认为:两个体元间的距离越近,其类别越可能相同。
岩层在空间中的产出状态用产状来表示,根据图6和公式(1)可知,当岩层产状 确定,岩层层面的法向量则确定。因此,过地质体上任意一点的岩层层面有且仅有一个, 其由所在岩层的产状和该点坐标共同确定;地质体上两点之间的空间度量关系与两点所 在岩层层面有关。
将岩层层面所在平面的法向量方向称为该岩层层面上的体元的垂直方向,其中指向 +Z方向的单位法向量的方向为正方向;将平面的延展方向称为在该岩层层面上的体元的水平方向,平面沿+Y方向的延展方向为正方向。则地质体中体元的垂直方向和水平 方向的数量与地质体的岩层产状数量相同。
定义地质体上一点V到另一点V0的空间度量关系为:点V到过V0的岩层层面所在 平面的距离,以及V在该平面上的投影点V′与V0的直线距离所构成的二元组。因此可 知:对于V和V0,若其所在岩层产状相同,V到V0的空间度量关系与V0到V的空间度 量关系值相同;否则则不同。
地理学第一定律中的“远近”在地质体的体元上既表现为垂直方向上的远近,又表现为水平方向上的远近。可以理解为:在地质体上,体元V到V0的垂直距离越小,越 可能在同一岩层上;体元V到V0的水平距离越小,越可能在同一岩层上。不过,由于 岩层具有层叠特性,虽然在岩层分界线周围的体元的垂直距离非常小,但也可能不属于 同一岩层;由于岩层具有延展特性,虽然可能在同一岩层层面的体元间的水平距离非常 大,但仍旧属于同一岩层。因此,对于一个待分类体元,在地质体的每个垂直正方向、 垂直负方向、水平方向上都有距离最小的样本,该待分类体元的类别必然在这些最小距 离样本的类别中,且优先考虑垂直方向上最近的样本。
随机森林算法的样本和待分类体元需具有相同特征,且体元与体元之间、特征的值 与值之间必须性质相同且相互独立。空间度量关系虽然可以作为判断体元类别的一个特 征,但空间度量关系是根据两个体元而获得的,因此必须对空间度量关系进行转化才能将之作为随机森林算法的特征。将一个待分类体元与所有样本进行比较,找到其垂直正 方向、垂直负方向和水平方向上距离最小的样本,这些样本的类别组成的类别集作为该 待分类体元的特征值;对于样本,其类别值即为特征值;这些特征值满足条件,且该特 征与其他特征相互独立,可以作为随机森林算法的特征,将这个特征称为空间度量关系 特征。
为了便于计算,将两个体元间的垂直距离转换为两个体元分别与第三个体元的垂直 距离的差,如图7所示。在图7(1)中,在地质体上有体元V和V0,过V0的岩层层面 所在的平面为SP,V在SP上的投影为V′,V到SP的距离为h,V′到V0的距离为d; (2)中,Vf(xf,yf,zf)是三维空间中地质体包围盒(以地质体中X、Y、Z坐标的最大绝 对值为坐标值构成的长方体)外沿-Z方向的任意一点(体元Vf中心点),平面ψ是平 面SP沿-Z方向平移、过点Vf(xf,yf,zf)的平面,则平面ψ与平面SP法向量相同,且与 地质体相离,V和V0在平面ψ上的投影分别为V″和V″0,V和V0到平面ψ的距离分别 为h和h0
优选地,统计所有样本的产状,用es表示,若共有Λ组产状,则
Figure BDA0002928046500000141
若体元Vf(xf,yf,zf)为常量,则每组产状和Vf(xf,yf,zf)确定其对应的唯一法向量,则es对应一组法向量值
Figure BDA0002928046500000142
设每个体元都有与es相对应的一组垂直距离值h=(h1,h2,K,hΛ),则对于样本,由于其有确定的产状,则h中只有一个分量有意义;对于待分类体元,由于其产状未知, 则h中每个分量都有意义;
因此,统计所有样本的产状,用es表示,若共有Λ组产状,则
Figure BDA0002928046500000143
这可以认为是露头地质体的所有产 状。若图7中体元Vf(xf,yf,zf)为常量,则每组产状和Vf(xf,yf,zf)可以确定其对应的 唯一法向量,则es对应一组法向量值
Figure BDA0002928046500000144
设每个体元都有与es相对应的一组垂直距离值h=(h1,h2,K,hΛ),则对于样本,由于其有确定的产状,则h中只有一个分量有意义;对于待分类体元,由于其产状未知, 则h中每个分量都有意义。
待分类体元VW和所有样本VS,待分类体元VW的空间度量关系特征值的求取方 法为:
步骤S131,对于体元VW的垂直距离值hVW的每一个分量
Figure BDA0002928046500000151
1≤p≤Λ,有对应
Figure BDA0002928046500000152
有意义的若干个样本,依次计算
Figure BDA0002928046500000153
并将差值按正负分别统计,
Figure BDA0002928046500000154
Figure BDA0002928046500000155
至少有1个成立;
步骤S132,若有且仅有
Figure BDA0002928046500000156
成立,则体元VW在产状为ep的岩层的下方, VW在其法向量
Figure BDA0002928046500000157
的垂直正方向上有一个最近的样本,记VW与该样本的垂直距离为 +Δh,VW在ep方向上最可能与该样本类别相同;
步骤S133,若有且仅有
Figure BDA0002928046500000158
成立,则体元VW在产状为ep的岩层的上方, VW在其法向量
Figure BDA0002928046500000159
的垂直负方向上有一个最近的样本,记VW与该样本的垂直距离为 -Δh,VW在ep方向上最可能与该样本类别相同;
步骤S134,若
Figure BDA00029280465000001510
Figure BDA00029280465000001511
都成立,则体元VW在产状为ep的岩层的 中间,VW在其法向量
Figure BDA00029280465000001512
的垂直正方向和负方向上分别有一个最近的样本,分别记VW 与这两个样本的垂直距离为+Δh和-Δh,VW在ep方向上最可能与这两个样本的类别相 同;
步骤S135,根据步骤S134~步骤S134,在VW垂直正方向和垂直负方向上分别获 得至多Λ组(+Δh,c)和(-Δh,c),将这Λ组值记作类别集cs,则至多包含(2×Λ)个类别c,cs中可能有重复类别,可以知道,VW所属类别一定在类别集cs中;
步骤S136,设置阈值Ω,Ω须大于地质体最大岩层真厚度,则满足条件|±Δh|>Ω的+Δh或-Δh对应的类别不为VW所属的类别,从类别集cs中删除对应的组;
步骤S137,对于所有+Δh和-Δh,分别有最小绝对值|+Δh|min和|-Δh|min,体元VW到最小绝对值对应类别的所有样本分别有最小水平距离
Figure BDA00029280465000001513
Figure BDA00029280465000001514
体元VW到类 别集cs中其它类别的所有样本也分别有最小水平距离,将这些最小水平距离与
Figure BDA00029280465000001515
Figure BDA00029280465000001516
比较,只要大于
Figure BDA00029280465000001517
Figure BDA00029280465000001518
就从类别集cs中删除对应的组;
步骤S138,使类别集cs中只留下类别值,并对其进行去重,最后得到的类别集cs包含VW所属类别。
用M表示空间度量关系特征,m表示其值,则待分类体元的空间度量关系特征值 m=cs;当共Λ组产状,Γ个类别时,待分类体元的空间度量关系特征值m至少有1个 分量,至多有Λ(Λ≤Γ)个分量或Γ(Γ<Λ)个分量,当分量个数为1时,该分量的 值即为该体元类别;对于样本,其类别为ck,则其空间度量关系特征值m=ck,k= 1,2,…,Γ;则,对于任意一个体元V,都有表达式(3):
V=(ID,X,Y,Z,R,G,B,A,E,M,C) (3)
其中,各标识的含义与公式(2)相同。当体元V在特征M的值m只有一个分量时,其类别值c=m;当值m有多个分量时,其类别值c∈m。
使类别集cs中只留下类别值,并对其进行去重,最后得到的类别集cs一定包含VW所属类别。
根据空间度量关系特征值的特征可知,空间度量关系特征不能直接用于经典决策树 算法和经典随机森林算法。在决策树和随机森林中,建立决策树的目的是判断待分类数据的类别;特征的本质作用为对样本集划分子集,使子集中的样本尽可能属于同一类别;对待分类数据的预测,则是根据数据的特征值与决策树进行比对,直到得到待分类数据 的类别。空间度量关系特征直接表达了数据的类别或类别的范围,因此虽然样本在空间 度量关系特征的取值不完全包含待分类体元在空间度量关系特征的取值,但待分类体元 在空间度量关系特征的取值已经直接对样本集划分了子集。也即是:所有待分类体元在 空间度量关系特征的取值即是样本子集中包含的类别,有多少个取值则有多少个样本子 集;对于任一取值,所有样本中类别在其分量中的样本都被划分到该取值对应的样本子 集中,则一个样本可能存在于多个样本子集中,如图8所示。且空间度量关系特征值一 定包含了体元的类别,因此空间度量关系特征应该作为决策树的根结点。
对于露头地质体,同一岩层的岩体性质相同,其所在环境相同,风化剥蚀程度基本一致;不同岩层的岩体性质不同,虽然所在环境相同,但风化剥蚀程度具有差异性。因 此,对于由点云构成的体元,相同岩层的体元具有相似的空间结构和空间关系;不同岩 层的体元具有不同的空间结构和空间关系。
快速点特征直方图(Fast Point Feature Histograms,FPFH)是一种基于点的表面法 线和曲率的姿态不变的空间局部特征,它考虑估计法线之间的相互作用,通过统计的方 法获得点与邻域点的空间几何关系,并形成一个多维直方图。
优选地,所述空间场景特征采用FPFH表示,FPFH计算过程包括如下步骤。
步骤S231,对点云模型中的任意一个点P求取其切平面的法向量。
步骤S232,找到距离点P最近的k个点,这k个点称为点P的k邻近集,将点P 与其k邻近集中的点两两连线,如图9所示;点P与其k邻近集(如k=5,(1)为点 P的5邻近,(2)为点P和P1的5邻近,P到P1的箭头表示P1是P的5邻近,但P 不是P1的5邻近)。
步骤S233,对于点P与其k邻近集点中的点Pδ(1≤δ≤k),选取二者中一点为坐 标系原点O,另一点作为目标点Q;为确保坐标系的唯一性,原点法向量与两点连线的 夹角应当最小,即需满足式(4):
Figure RE-GDA0003075454560000171
其中,
Figure RE-GDA0003075454560000172
表示原点位置切平面法向量,
Figure RE-GDA0003075454560000173
为目标点位置切平面法向量,
Figure RE-GDA0003075454560000174
表示从原点指向目标点的向量,
Figure RE-GDA0003075454560000175
表示从目标点指向原点的向量。
步骤S234,根据原点O得到其坐标系(κ,ρ,ι)的表达式(5):
Figure RE-GDA0003075454560000181
步骤S235,平移原点O的坐标系(κ,ρ,ι)到目标点Q,则有图10(原点与目标点 的空间关系);点O与点Q的空间关系可以用一组角度相关的值来表示,见公式 (6):
Figure RE-GDA0003075454560000182
其中,θ为目标点Q的法向量
Figure RE-GDA0003075454560000183
与坐标轴ρ之间的夹角,
Figure RE-GDA0003075454560000184
表示原点O的法向量
Figure RE-GDA0003075454560000185
与原点O和目标点Q的连线的夹角,β表示目标点Q的法向量
Figure RE-GDA0003075454560000186
在坐标轴平面ιQκ上的 投影与坐标轴κ之间的夹角,则可求出θ、
Figure RE-GDA0003075454560000187
和β,见公式(7):
Figure RE-GDA0003075454560000188
其中,
Figure RE-GDA0003075454560000189
表示坐标轴ι的单位向量与目标点Q处切平面的法向量
Figure RE-GDA00030754545600001810
的内积,
Figure RE-GDA00030754545600001811
表 示坐标轴κ的单位向量与目标点Q处切平面的法向量
Figure RE-GDA00030754545600001812
的内积;则点P与其邻域k个 点的空间关系可由三元组
Figure RE-GDA00030754545600001813
表示,且
Figure RE-GDA00030754545600001814
Figure RE-GDA00030754545600001815
的取值范围为[-1,1],
Figure RE-GDA00030754545600001816
的取值 范围为[0,2π]。
步骤S236,对点P与其k邻近集中每个点都进行步骤(3)~(5)的运算,可以得 到k个三元组
Figure BDA0002928046500000186
Figure BDA0002928046500000187
Figure BDA0002928046500000188
进行τ等分,对于
Figure BDA0002928046500000189
则将[-1,1]等分为τ个 区间,统计每个区间中有多少个
Figure BDA00029280465000001810
值,某个区间
Figure BDA00029280465000001811
的频率为该区间
Figure BDA00029280465000001812
值的个数与k的 比值,如图11(点P与其k邻近集在
Figure BDA00029280465000001813
的三分区、频率分布折线图和频率分布直方图 (k=20)),用同样的方法统计
Figure BDA00029280465000001814
Figure BDA00029280465000001815
的区间频率。
步骤S237,点P在
Figure BDA00029280465000001816
Figure BDA00029280465000001817
总共有(3×τ)个区间,对其从1开始依次进行编号,这个编号则为点P的空间结构子空间序号,则可以得到类似于图11(2)、9(3)所示 的频率分布折线图和直方图;这个频率分布直方图就是点P周围的空间结构;点云间的 相似则表现为每个子空间相似,也即是需要比较每个子空间序号的频率,在频率分布折 线图上表现为图形的整体相似和峰值的相似;这(3×τ)个频率值组成的(3×τ)元组被称 为点P的简单点特征直方图(Simple Point Feature Histograms,SPFH)。
步骤S238,对体元中每个点都进行步骤S231~步骤S237,则体元内的每个点都可以得到一个SPFH;对于任意一个体元V,通过公式(8)可以得到其快速点特征直方图 FPFH:
Figure BDA00029280465000001818
其中,P为体元的中心点,η为体元内除中心点的点的数量,Pδ为体元内除中心点外的 一点,δ=1,2,…,η,ωη为点Pδ到中心点P的距离;式中SPFH的相加是指对应的子空 间的频率相加。
每个体元根据上述步骤都可以得到一个自己的FPFH频率分布图,每个FPFH共有τ个区间,用s=(s1,s2,K,sτ)表示其纵值,则分量序号与直方图横轴序号一一对应。地理 信息科学中,空间场景是体的一种内部结构表现,地质体点云的空间场景表现为体元中 不同点与其邻域的相对位置关系,则体元FPFH的纵值s=(s1,s2,K,sτ)表征了体元的空 间场景。用S表示空间场景特征,则s=(s1,s2,K,sτ)为特征值,该特征和特征值都满足 决策树和随机森林的特征性质。因此,对于任意一个体元V,都有表达式(9):
V=(ID,X,Y,Z,R,G,B,A,E,M,S,C) (9)
其中,各标识的含义与公式(2)相同,S=s。
对于体元的空间场景特征而言,对体元进行比较,可以对体元空间场景特征中的部 分依次进行比较,因此可以使用信息增益比准则来依次选择最优分量。虽然空间场景特征有多个分量,但它是一个特征,因此在决策树和随机森林中对应一个结点,当与其它 特征一起构建决策树和随机森林时,使用信息增益比准则的定义来选择最优特征。空间 场景特征在决策树和随机森林中的构建方式如图12所示。
优选地,每一个体元为随机森林的输入数据,体元的属性特征和空间特征为输入特征,如式(10)所示:
V=(R,G,B,A,M,S) (10)
定义以空间度量关系特征为根结点构建的决策树为空间决策树,对于训练样本集VTS、空间度量关系特征M和所有数据在空间度量关系特征M的取值m、其它特征组 成的特征集FS,建立空间决策树ST的算法为:
步骤S141,输入训练样本集VTS、所有体元在空间度量关系特征M的取值m、空 间度量关系特征M和特征集FS;
步骤S142,构建根结点,将训练样本集放在根结点;
步骤S143,判断训练样本集VTS是否为同一类,若为同一类,则类别值为根结点值,根结点也为叶结点,返回决策树;
步骤S144,若不为同一类,则设置空间度量关系特征M为根结点值,将所有数据 在空间度量关系特征M的取值m放在根结点;
步骤S145,根据所有取值m建立根结点的分支,每一个取值对应一个分支;
步骤S146,若第i个取值mi中只有一个分量,则建立该分支对应的子结点,该结 点为叶结点,结点值为分量值;
步骤S147,若第i个取值mi中有多个分量,则找到训练样本集VTS中类别值属于 mi的分量的所有样本,这些样本即为mi分支对应的子训练样本集,以子训练样本集和 特征集FS为输入样本和特征,按照前述的步骤构建mi分支对应的子决策树;
步骤S148,对m的所有分支按步骤S146~步骤S147建立叶结点或子决策树后, 返回决策树。
以空间决策树为基础的随机森林为空间随机森林,空间随机森林中包含至少一棵空 间决策树。因此,空间随机森林共有两种构成方式:完全空间随机森林和空间随机树种森林。其中,完全空间随机森林中只有空间决策树,构建方法与经典随机森林构建方法 相同,但由于空间决策树的根结点为空间度量关系特征,因此空间度量关系特征不参与 特征随机;空间随机树种森林中除了有空间决策树,还有经典决策树,构建空间决策树 的特征集为空间特征,构建经典决策树的特征集为属性特征,在构建每棵决策树前,要 先随机判断该棵决策树的性质,然后根据其性质从对应特征集中随机抽取特征。
对空间随机森林进行建立以及对分类结果进行验证也使用分层抽样方法,且方法与 经典随机森林算法完全相同。
优选地,所述将体元带入空间随机森林算法进行预测,得到体元匹配的岩层类别具体为:对随机森林中的每棵决策树,递归地根据决策树的结点找到体元对应的特征值,根据该特征值进入决策树中该结点对应的分支,最终得到体元的类别;统计随机森林中 所有决策树对体元的分类结果,数量最多的类别即是随机森林对体元预测的类别。
使用空间随机森林对任意一个样本VS进行验证的方法为:
(1)获取空间度量关系特征M所有取值中分量个数大于1的取值,这些取值即为森林中所有决策树不能直接通过空间度量关系特征得到类别的分支集;
(2)在分支集中找到包含VS类别的取值,得到VS对应的分支集,将VS的空间度 量关系特征值依次设置为VS对应分支集中的取值,得到VS的副本集,则副本集中每个 副本体元的空间度量关系特征值与VS对应分支集中的值一一对应,其它特征值与VS 的特征值相同;
(3)若副本集为空,则说明空间随机森林对样本的类别预测即为样本的实际类别,认为得到正确的分类结果;
(4)否则,对每一个副本按照空间随机森林对体元进行类别预测的方法得到其类别, 并将该类别与VS的真实类别进行比较,若相同则说明该副本分类正确,若不同则说明分类错误。对于所有副本,可得到全部副本分类正确、至少一个副本分类正确和综合分 类正确比例三个结果。其中,全部副本分类正确用0或1表示,0表示至少有一个副本 分类错误,1表示全部副本分类正确;至少一个副本分类正确也用0或1表示,0表示 全部副本分类错误,1表示至少有一个副本分类正确;综合分类正确比例是一个在0与 1之间的值,为分类正确的副本数与副本集的总数的比值。
因此,对于所有验证样本,分别对全部副本分类正确、至少一个副本分类正确和综合分类正确比例进行累加后,空间随机森林根据公式(11)得到的精度是三个不同意义 的精度值,其中通过全部副本分类正确得到的精度称为保守精度,通过至少一个副本分 类正确得到的精度称为激进精度,通过综合分类正确比例得到的精度称为一般精度。经 典随机森林只有一个精度值,其意义与一般精度等价。
Figure BDA0002928046500000211
其中,pre为精度值;VVSR为要求取的精度值所对应的验证样本集,|VVSR|为验证样本 集VVSR的容量;VVS为总体验证样本集,|VVS|为VVS的容量。
精度评价指标:
空间随机森林算法对露头地质体体元进行分类后,每个类别即对应一个岩层,即实 现了露头地质体的岩层分层。公式(11)只能对随机森林算法的分层结果进行简单对比分析,算法是否有效还需要用适当的精度评价方法来评价。
本发明基于混淆矩阵,使用总体分类精度OA(Overall Accuracy)、Kappa系数(Kappa Coefficient)、精确率P(Precision)、召回率R(Recall)、精确率和召回率的加权调和平 均F-Measure作为评价指标。
实验方案:
结合研究区岩层的厚度及所构建三维模型的精度,设置八叉树体元分割的阈值为0.1米,快速点特征直方图SPFH中点云局部结构为50邻近、等分区间为11(则空间场 景特征共有33个分量),空间度量关系特征中地质体最大岩层真厚度阈值25米。对研 究区域按八叉树算法进行分割后的体元模型局部示例如图13所示,点云体元化后共有 2496240个体元。
地质露头共有6个岩层,即6种类别;分层抽样时,训练样本占总样本的比率为0.7,对实验对象的样本选择见表1和图14(露头模型样本选择)。
表1各类别样本容量及对应颜色
Figure BDA0002928046500000212
设置随机森林中决策树个数为120。为了更准确地对空间特征和空间随机森林算法 进行分析,需要保证每棵决策树的样本和特征保持一致:
(1)对于每种随机森林中索引相同的树都有相同的样本;
(2)对于同一种随机森林算法,特征集不完全相同,且不相同的特征越少越好;
(3)对于不同随机森林算法,特征集基本一致(空间度量关系特征用于经典随机森林时只能转换为相近的属性特征,因此有一定差异;空间场景特征用于经典随机森林和 空间随机森林的特征选取准则不同)。
体元共有6个特征参与随机森林算法运算:红光值R、绿光值G、蓝光值B、表面 粗糙度A、空间度量关系特征M、空间场景特征S。根据它们的性质可分为3组:
(1)属性特征R、G、B、A;
(2)空间度量关系特征M或
Figure BDA0002928046500000221
(3)空间场景特征S或
Figure BDA0002928046500000222
其中,空间度量关系特征
Figure BDA0002928046500000223
(其值为
Figure BDA0002928046500000224
)为空间度量关系特征M(其值为m)参与经 典随机森林算法的替代特征:对于只有1个分量的m,有
Figure BDA0002928046500000225
对于有多个分量的m,
Figure BDA0002928046500000226
为m的任意一个分量;在程序实现上,空间度量关系特征M的值m为字符串,空间 度量关系特征
Figure BDA0002928046500000227
的值为整型。空间场景特征S表示33个特征分量为一个整体,不可分 割,用于空间随机森林算法中,是空间场景特征在随机森林算法中的体现;空间场景特征
Figure BDA0002928046500000228
表示33个特征作为普通特征,相互独立,既可以用于经典随机森林算法也可以用 于空间随机森林算法,这样使用空间场景特征的随机森林算法只能作为对比实验,而不 是真实的随机森林算法表达方式。
由于随机森林中每棵决策树的特征数量必须远远少于随机森林总特征的数量,而随 机森林共6个特征,难以满足条件。因此,在对随机森林中的每棵决策树进行特征选择时,使用以下原则:
(1)属性特征中共4个特征,特征数量太少,则随机选择
Figure BDA0002928046500000229
个特征,为小数时向上取整;
(2)为满足决策树特征的数量远远小于随机森林总特征的数量,对空间场景特征S(或空间场景特征
Figure BDA00029280465000002210
)随机选择
Figure BDA00029280465000002211
个分量,为小数时向下取整。
综合上述分析,实验共有120组随机数据,每组随机数据对应一棵决策树,不同森林中这棵决策树索引相同,每棵决策树包含以下五部分数据:
(1)训练样本集:48108个训练样本;
(2)属性特征:j个,j=2,3,4;
(3)是否有空间度量关系特征的转换特征
Figure BDA0002928046500000231
是、否;
(4)空间场景特征分量:随机5个;
(5)树种名称:经典决策树、空间决策树。
如此,在一组实验中,不同随机森林在同一索引的树具有最小变量,这样可以最大程度地比较不同随机森林算法的差异。
结果与讨论:
本发明以16GB运行内存的Windows10系统为实验平台,Visual Studio2017为开发工具,C#为随机森林算法实现语言,C++为模型展示语言,PostgreSQL为数据库,以体 元为随机森林算法的输入对象,将不同特征与不同随机森林算法进行组合,开展了8种 对比实验。
(1)使用经典随机森林算法,特征集FS={R,G,B,A},即只有属性特征,因此每棵决策树中包含上述(1)、(2)部分数据。实验结果如表2和图15所示,算法精度为24.81%。 从结果可以看出,类别3在属性特征上的取值基本上包括了其它所有类别的取值,且在 每个取值上都占多数,所以预测结果中类别3占绝大多数,造成这种情况的最大可能是 属性特征值的精度太低。因此,使用这样属性特征的经典随机森林算法不能进行岩层分 层。
表2基于属性特征的经典随机森林岩层分层统计表
Figure BDA0002928046500000232
Figure BDA0002928046500000241
(2)使用经典随机森林算法,特征集
Figure BDA0002928046500000242
即只有空间场景特征在经典随机森林算法中的替代特征,因此每棵决策树包含前述(1)、(4)部分数据。实验结果如表3 和图16所示,算法精度为26.55%。从结果可以看出,空间场景特征在不同局部空间结 构的表现不同,局部空间结构平缓的地方被预测为类别3,局部空间结构破碎情况较轻 但起伏较多的地方被预测为类别4,局部空间结构破碎严重的地方被预测为类别5,因 此空间场景特征能够用于识别不同局部空间结构的体元。但是,只使用空间场景特征的 经典随机森林算法不能进行岩层分层。
表3基于空间场景替代特征的经典随机森林岩层分层统计表
Figure BDA0002928046500000243
(3)使用经典随机森林算法,特征集
Figure BDA0002928046500000244
即有属性特征和空间场景特征在经典随机森林算法中的替代特征,因此每棵决策树包含前述(1)、(2)、(4)部 分数据。实验结果如表4和图17所示,算法精度为26.98%。从结果可以看出,使用属 性特征和空间场景替代特征的算法结果与仅使用空间场景替代特征的结果基本相同,可 以认为空间场景替代特征基本上完全抑制了属性特征对体元类别预测的作用,在决策树 上一定表现为空间场景分量对应的结点比属性特征对应的结点深度更小,即更靠近根结 点,因此更应该先根据该特征对训练样本集划分子集或分类。使用属性特征和空间场景 替代特征的经典随机森林算法不能进行岩层分层。
表4基于属性特征和空间场景替代特征的经典随机森林岩层分层统计表
Figure BDA0002928046500000251
(4)使用经典随机森林算法,特征集
Figure BDA0002928046500000252
即有属性特征和空间度量 关系特征在经典随机森林算法中的替代特征,因此每棵决策树包含前述(1)、(2)、(3)部分数据。实验结果如表5和图18所示,算法精度为25.22%。从结果可以看出,使用 属性特征和空间度量关系替代特征的算法结果与只使用属性特征的结果基本相同,可以 认为属性特征在极大程度上抑制了空间度量关系特征的替代特征对体元类别预测的作 用。使用属性特征和空间度量关系替代特征的经典随机森林算法不能进行岩层分层。
表5基于属性特征和空间度量关系替代特征的经典随机森林岩层分层统计表
Figure BDA0002928046500000253
Figure BDA0002928046500000261
(5)使用经典随机森林算法,特征集
Figure BDA0002928046500000262
即有属性特征、空间度量关系特征在经典随机森林算法中的替代特征和空间场景特征在经典随机森林算法中 的替代特征,因此每棵决策树包含前述(1)、(2)、(3)、(4)部分数据。实验结果如表 6和图19所示,算法精度为80.49%。从结果可以看出,使用所有特征的经典随机森林 算法能够进行一定程度的分层,但每一层含有较多其它类别,若要实现岩层分层还需进 行进一步处理。从上文的分析,可以推断当空间场景特征存在时,由于空间场景特征对 属性特征基本上完全抑制,空间度量关系特征的替代特征反而对体元类别预测有了巨大 作用,甚至可以对地质体进行初步的岩层分层。
表6基于属性特征、空间度量关系替代特征和空间场景替代特征的经典随机森林岩层 分层统计表
Figure BDA0002928046500000263
(6)使用空间随机树种森林算法,特征集FS={R,G,B,A,M,S},森林中有两种决策树,一种为经典决策树,一种为空间决策树,因此每棵决策树都包含前述第(5)部分 数据,决定当前决策树的算法;经典决策树中包含前述(1)、(2)部分数据,空间决策 树中包含第(1)、(4)部分数据。实验结果如表7、图20和图21所示;图20为保守预 测结果,保守验证精度为40.06%,图21为激进预测结果,激进验证精度为68.31%;一 般精度为54.57%。从结果可以看出,使用所有特征的经典随机森林算法能够进行一定 程度的分层,但每一层含有较多其它类别,若要实现岩层分层还需进行进一步处理。但 是,空间随机树种森林是经典决策树和空间决策树的结合,它的结果由经典决策树和空 间决策树共同决定。由于经典决策树和空间决策树在森林中的出现是随机的,只有森林 中决策树数量足够多时才可能满足1:1,而森林中实际上并不需要那么多树,因此它们 的比例是未知的,而实验1表明经典决策树不能进行岩层分层,若空间决策树可以进行 岩层分层,那么基于这两种树得到的空间随机树种森林算法是否能够用于分层并不能够 确定,这个算法得到的结果并不是稳定的。
表7基于属性特征、空间度量关系特征和空间场景特征的空间随机树种森林岩层分层 统计表
Figure BDA0002928046500000271
Figure BDA0002928046500000281
(7)使用完全空间随机森林算法,特征集
Figure BDA0002928046500000282
此处使用空间场景 特征在经典随机森林算法中的替代特征,因此每棵决策树都包含前述(1)、(2)、(4) 部分数据。实验结果如表8、图22和图23所示;图22为保守预测结果,保守验证精度 为79.60%;图23为激进预测结果,激进验证精度为99.74%;一般精度为89.65%。从 结果可以看出,分层效果较理想。但这组实验中空间场景特征并不是一个特征,而是其 分量都为独立特征,因此只能作为对比实验。
表8基于属性特征、空间度量关系特征和空间场景替代特征的完全空间随机森林岩层 分层统计表
Figure BDA0002928046500000283
Figure BDA0002928046500000291
(8)使用完全空间随机森林算法,特征集FS={R,G,B,A,M,S},每种特征根据自己的性质用于随机森林,因此每棵决策树都包含前述(1)、(2)、(4)部分数据。实验结 果如表9、图24和图25所示;图24为保守预测结果,保守验证精度为79.90%;图25 为激进预测结果,激进验证精度为99.74%;一般精度为89.98%。从结果可以看出,分 层效果很理想。这组实验与第7组实验的结果差异较小,差异主要集中在边界附近,而 它们的算法差异主要在空间场景特征的使用方法(空间场景特征的使用方法不同导致属 性特征在决策树中对应结点的深度也不同),因此可以推断:空间度量关系特征在极大 程度上决定了空间随机森林算法的类别预测效果,但在边界附近的体元类别主要受其它 特征影响。两组实验结果的激进精度完全相同,但实验8的保守精度高0.3%,一般精 度高0.33%,这说明空间场景特征根据其本质参与随机森林算法的运算结果好于空间场 景特征以经典决策树学习方法的特征选择方式参与随机森林算法的运算结果。
表9基于属性特征、空间度量关系特征和空间场景特征的完全空间随机森林岩层分层 统计表
Figure BDA0002928046500000292
Figure BDA0002928046500000301
在这8种对比实验中,根据每种特征自己的性质将其用于随机森林算法中的只有实 验5、实验6和实验8,这三种实验中,实验8的结果是最优的;其他5种对比实验与 实验8相比,实验8的结果也是最优的。将实验8的分层结果岩层分界线,与实际岩层 分界线进行对比(图26,蓝色表示实际岩层分界线,红色表示实验8确定的岩层分界线, 绿色为二者重叠部分),可以看到二者差异较小,表明了根据特征自己的性质将之用于 随机森林算法中,可以得到理想的岩层分层结果。
对实验8的保守验证结果和激进验证结果进行统计,可以得到表10和表11两个混淆矩阵,根据混淆矩阵可以得到表12的精度评价结果。
表10完全空间随机森林(实验8)的混淆矩阵(保守)
Figure BDA0002928046500000302
Figure BDA0002928046500000311
表11完全空间随机森林(实验8)的混淆矩阵(激进)
Figure BDA0002928046500000312
表12完全空间随机森林(实验8)的算法评价精度
Figure BDA0002928046500000313
Figure BDA0002928046500000321
对表10、表11和表12进行分析,可以得出以下结论:
(1)算法的总体预测效果理想。保守验证总体精度为79.8990%,Kappa系数为0.7508,表示刚好得到理想分类结果;激进总体精度为99.7427%,Kappa系数为0.9968, 表示分类效果极为理想;且一般分类精度为89.98%;因此,算法的总体预测结果是很 理想的;
(2)算法对类别3的预测效果最好;
(3)从精确率看,在保守验证中,其它类别都可能被预测为类别1、类别2、类别3、类别4或类别5,在这5种类别中,被错误预测为类别5的概率最大,被错误预测为类 别3的概率最小;不可能有其它类别被错误预测为类别6。在激进验证中,其它类别都 可能被预测为类别2、类别4或类别5,被错误预测概率差不多,不可能有其它类别被 错误预测为类别1、类别3和类别6;
(4)从召回率看,在保守验证中,每种类别都可能被预测为其它类别(类别6除外),尤其是类别1,被预测为其它类别的概率非常大,类别3被预测为其它类别的概率最小。 在激进验证中,类别1、类别5和类别6都可能被预测为其它类别,被错误预测概率差 不多,类别2、类别3和类别4都不可能被预测为其它类别;
(5)根据F-Measure综合分析,可以知道算法对类别3有极为理想的预测结果,对类别2和类别4有非常理想的预测结果,对类别5和类别6有较为理想的预测结果,对 类别1有一般的预测结果,因此实验8得到的岩层分层结果是理想的。
对8种实验进行综合分析,可以得出结论:经典决策树具有类别越多,错分概率越大的特点;相比于经典决策树和经典随机森林算法仅使用属性特征,引入空间特征的空 间决策树在很大程度上减小了这种错分概率。因此,本发明提出的完全空间随机森林算 法能够显著提高分类正确率,也就能显著提高对岩层正确分层的概率。空间随机森林算 法能够更好地对体元进行分类,并且这种用于露头地质体岩层分层的空间随机森林算法 是合理的。
本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其它各种形式的方案,但不论在其结构上作何种变化,凡是落入本发明权利要求界定范围内的技 术方案,均落在本发明的保护范围之内。

Claims (10)

1.一种面向露头地质体岩层分层的空间随机森林算法,其特征在于,方法包括:
步骤S11,基于倾斜摄影测量数据构建露头岩层三维点云模型;
步骤S12,对露头岩层三维点云模型进行体元分割;
步骤S13,构建岩层体元空间特征与属性特征集成表达模型;
步骤S14,以表达模型构建空间决策树,通过空间决策树构建空间随机森林算法;
步骤S15,将体元带入空间随机森林算法进行预测,得到体元匹配的岩层类别。
2.根据权利要求1所述的面向露头地质体岩层分层的空间随机森林算法,其特征在于,所述基于倾斜摄影测量数据构建露头岩层三维点云模型包括如下步骤:
步骤S111,获取倾斜摄影测量数据;
步骤S112,设置坐标值范围,去除倾斜摄影测量数据中的无关地物数据;
步骤S113,通过去除无关地物数据后的倾斜摄影测量数据构建露头岩层三维点云模型。
3.根据权利要求2所述的面向露头地质体岩层分层的空间随机森林算法,其特征在于,对露头岩层三维点云模型进行体元分割采用八叉树构建算法,包括如下步骤:
步骤S121,将露头地质体所在的三维空间作为一个体元,并设定一个长度阈值,该长度阈值表示最小体元的边长;
步骤S122,将当前体元分割成八个相同的子体元,子体元具有相同的级别和大小;
步骤S123,依次判断当前级别体元是否包含点云数据,若不包含则忽略该体元,则该体元不再参与计算;
步骤S124,将当前级别体元的边长与设定的长度阈值相比较,若大于长度阈值,则继续分割;若小于长度阈值,则结束当前级别体元的分割;
步骤S125,递归地调用步骤S122~步骤S124直到所有体元都结束分割。
4.根据权利要求3所述的面向露头地质体岩层分层的空间随机森林算法,其特征在于,所述岩层体元空间特征与属性特征集成表达模型构建包括如下步骤:
基于倾斜摄影测量数据获取体元所包含点云数据的R、G、B各自的平均值,和露头剖面在体元所在区域的表面粗糙度作为属性特征;
获取空间场景特征和空间度量关系特征作为空间特征。
5.根据权利要求4所述的面向露头地质体岩层分层的空间随机森林算法,其特征在于,所述露头剖面在体元所在区域的表面粗糙度,具体为对体元内所有点云数据使用总体最小二乘法得到一个拟合平面,所有点云数据到拟合平面的标准差设为该体元的粗糙程度。
6.根据权利要求5所述的面向露头地质体岩层分层的空间随机森林算法,其特征在于,所述空间度量关系特征以每个体元中心点的空间坐标值(x,y,z)以及该体元所在位置的产状信息表示,产状信息的获取包括如下步骤:
从露头岩层表面任选不共线的三点,即确定一平面,此平面作为岩层层面,其产状为
Figure FDA0002928046490000021
通过所选取的三点求得该岩层层面的单位法向量
Figure FDA0002928046490000022
法向量与产状的关系由公式(1)表示:
Figure FDA0002928046490000023
式中,
Figure FDA0002928046490000024
表示该坐标位置岩层层面的倾角,α表示该坐标位置岩层层面的倾向;体元V表示为式(2):
V=(ID,X,Y,Z,R,G,B,A,E,C) (2)
式中,ID表示体元的索引,id为其值;用X、Y、Z表示三维空间,x、y、z分别为其对应的值,则(x,y,z)表示一个体元的位置;用R、G、B表示颜色空间,r、g、b分别为其对应的值,则(r,g,b)表示一个体元的颜色;用A表示粗糙度,a表示其对应的值;用E表示产状,
Figure FDA0002928046490000025
表示其对应的值;用C表示类别,c表示体元所在岩层的类别值,当体元类别未知时,e=(-1,-1),表示值无意义;c=0,表示类别未知。
7.根据权利要求6所述的面向露头地质体岩层分层的空间随机森林算法,其特征在于,统计所有样本的产状,用es表示,若共有Λ组产状,则
Figure FDA0002928046490000026
若体元Vf(xf,yf,zf)为常量,则每组产状和Vf(xf,yf,zf)确定其对应的唯一法向量,则es对应一组法向量值
Figure FDA0002928046490000027
设每个体元都有与es相对应的一组垂直距离值h=(h1,h2,K,hΛ),则对于样本,由于其有确定的产状,则h中只有一个分量有意义;对于待分类体元,由于其产状未知,则h中每个分量都有意义;
待分类体元VW和所有样本VS,待分类体元VW的空间度量关系特征值的求取方法为:
步骤S131,对于体元VW的垂直距离值hVW的每一个分量
Figure FDA0002928046490000031
1≤p≤Λ,有对应
Figure FDA0002928046490000032
有意义的若干个样本,依次计算
Figure FDA0002928046490000033
并将差值按正负分别统计,
Figure FDA0002928046490000034
Figure FDA0002928046490000035
至少有1个成立;
步骤S132,若有且仅有
Figure FDA0002928046490000036
成立,则体元VW在产状为ep的岩层的下方,VW在其法向量
Figure FDA0002928046490000037
的垂直正方向上有一个最近的样本,记VW与该样本的垂直距离为+Δh;
步骤S133,若有且仅有
Figure FDA0002928046490000038
成立,则体元VW在产状为ep的岩层的上方,VW在其法向量
Figure FDA0002928046490000039
的垂直负方向上有一个最近的样本,记VW与该样本的垂直距离为-Δh;
步骤S134,若
Figure FDA00029280464900000310
Figure FDA00029280464900000311
都成立,则体元VW在产状为ep的岩层的中间,VW在其法向量
Figure FDA00029280464900000312
的垂直正方向和负方向上分别有一个最近的样本,分别记VW与这两个样本的垂直距离为+Δh和-Δh;
步骤S135,根据步骤S134~步骤S134,在VW垂直正方向和垂直负方向上分别获得至多Λ组(+Δh,c)和(-Δh,c),将这Λ组值记作类别集cs,则至多包含(2×Λ)个类别c,则VW所属类别在类别集cs中;
步骤S136,设置阈值Ω,Ω须大于地质体最大岩层真厚度,则满足条件|±Δh|>Ω的+Δh或-Δh对应的类别不为VW所属的类别,从类别集cs中删除对应的组;
步骤S137,对于所有+Δh和-Δh,分别有最小绝对值|+Δh|min和|-Δh|min,体元VW到最小绝对值对应类别的所有样本分别有最小水平距离
Figure FDA00029280464900000313
Figure FDA00029280464900000314
体元VW到类别集cs中其它类别的所有样本也分别有最小水平距离,将这些最小水平距离与
Figure FDA00029280464900000315
Figure FDA00029280464900000316
比较,只要大于
Figure FDA00029280464900000317
Figure FDA00029280464900000318
就从类别集cs中删除对应的组;
步骤S138,使类别集cs中只留下类别值,并对其进行去重,最后得到的类别集cs包含VW所属类别;
用M表示空间度量关系特征,m表示其值,则待分类体元的空间度量关系特征值m=cs;当共Λ组产状,Γ个类别时,待分类体元的空间度量关系特征值m至少有1个分量,至多有Λ(Λ≤Γ)个分量或Γ(Γ<Λ)个分量,当分量个数为1时,该分量的值即为该体元类别;对于样本,其类别为ck,则其空间度量关系特征值m=ck,k=1,2,…,Γ;
则,对于任意一个体元V,都有表达式(3):
V=(ID,X,Y,Z,R,G,B,A,E,M,C) (3)
当体元V在特征M的值m只有一个分量时,其类别值c=m;当值m有多个分量时,其类别值c∈m。
8.根据权利要求7所述的面向露头地质体岩层分层的空间随机森林算法,其特征在于,所述空间场景特征采用FPFH表示,FPFH计算过程包括如下步骤:
步骤S231,对点云模型中的任意一个点P求取其切平面的法向量;
步骤S232,找到距离点P最近的k个点,这k个点称为点P的k邻近集;
步骤S233,对于点P与其k邻近集点中的点Pδ(1≤δ≤k),选取二者中一点为坐标系原点O,另一点作为目标点Q;为确保坐标系的唯一性,原点法向量与两点连线的夹角应当最小,即需满足式(4):
Figure RE-FDA0003075454550000041
其中,
Figure RE-FDA0003075454550000042
表示原点位置切平面法向量,
Figure RE-FDA0003075454550000043
为目标点位置切平面法向量,
Figure RE-FDA0003075454550000044
表示从原点指向目标点的向量,
Figure RE-FDA0003075454550000045
表示从目标点指向原点的向量;
步骤S234,根据原点O得到其坐标系(κ,ρ,ι)的表达式(5):
Figure RE-FDA0003075454550000046
步骤S235,平移原点O的坐标系(κ,ρ,ι)到目标点Q,点O与点Q的空间关系用一组角度相关的值来表示,见公式(6):
Figure RE-FDA0003075454550000047
其中,θ为目标点Q的法向量
Figure RE-FDA0003075454550000048
与坐标轴ρ之间的夹角,
Figure RE-FDA0003075454550000049
表示原点O的法向量
Figure RE-FDA00030754545500000410
与原点O和目标点Q的连线的夹角,β表示目标点Q的法向量
Figure RE-FDA00030754545500000411
在坐标轴平面ιQκ上的投影与坐标轴κ之间的夹角,则求出θ、
Figure RE-FDA0003075454550000051
和β,见公式(7):
Figure RE-FDA0003075454550000052
其中,
Figure RE-FDA0003075454550000053
表示坐标轴ι的单位向量与目标点Q处切平面的法向量
Figure RE-FDA0003075454550000054
的内积,
Figure RE-FDA0003075454550000055
表示坐标轴κ的单位向量与目标点Q处切平面的法向量
Figure RE-FDA0003075454550000056
的内积;则点P与其邻域k个点的空间关系由三元组
Figure RE-FDA0003075454550000057
表示,且
Figure RE-FDA0003075454550000058
Figure RE-FDA0003075454550000059
的取值范围为[-1,1],
Figure RE-FDA00030754545500000510
的取值范围为[0,2π];
步骤S236,对点P与其k邻近集中每个点都进行S233~S235的运算,得到k个三元组
Figure RE-FDA00030754545500000511
Figure RE-FDA00030754545500000512
Figure RE-FDA00030754545500000513
进行τ等分,对于
Figure RE-FDA00030754545500000514
则将[-1,1]等分为τ个区间,统计每个区间中有多少个
Figure RE-FDA00030754545500000515
值,某个区间
Figure RE-FDA00030754545500000516
的频率为该区间
Figure RE-FDA00030754545500000517
值的个数与k的比值;用同样的方法统计
Figure RE-FDA00030754545500000518
Figure RE-FDA00030754545500000519
的区间频率;
步骤S237,点P在
Figure RE-FDA00030754545500000520
Figure RE-FDA00030754545500000521
总共有(3×τ)个区间,对其从1开始依次进行编号,这个编号则为点P的空间结构子空间序号,则得到频率分布折线图和直方图;这个频率分布直方图就是点P周围的空间结构;点云间的相似则表现为每个子空间相似,也即是需要比较每个子空间序号的频率,在频率分布折线图上表现为图形的整体相似和峰值的相似;这(3×τ)个频率值组成的(3×τ)元组被称为点P的简单点特征直方图(Simple Point FeatureHistograms,SPFH);
步骤S238,对体元中每个点都进行步骤S231~步骤S237,则体元内的每个点都得到一个SPFH;对于任意一个体元V,通过公式(8)得到其快速点特征直方图FPFH:
Figure RE-FDA00030754545500000522
其中,P为体元的中心点,η为体元内除中心点的点的数量,Pδ为体元内除中心点外的一点,δ=1,2,…,η,ωη为点Pδ到中心点P的距离;式中SPFH的相加是指对应的子空间的频率相加;
每个体元根据上述步骤都得到一个自己的FPFH频率分布图,每个FPFH共有τ个区间,用s=(s1,s2,...,sτ)表示其纵值,则分量序号与直方图横轴序号一一对应;则体元FPFH的纵值s=(s1,s2,...,sτ)表征了体元的空间场景;用S表示空间场景特征,则s=(s1,s2,...,sτ)为特征值,该特征和特征值都满足决策树和随机森林的特征性质;因此,对于任意一个体元V,都有表达式(9):
V=(ID,X,Y,Z,R,G,B,A,E,M,S,C) (9)
其中,各标识的含义与公式(2)相同,S=s。
9.根据权利要求8所述的面向露头地质体岩层分层的空间随机森林算法,其特征在于,每一个体元为随机森林的输入数据,体元的属性特征和空间特征为输入特征,如式(10)所示:
V=(R,G,B,A,M,S) (10)
定义以空间度量关系特征为根结点构建的决策树为空间决策树,对于训练样本集VTS、空间度量关系特征M和所有数据在空间度量关系特征M的取值m、其它特征组成的特征集FS,建立空间决策树ST的算法为:
步骤S141,输入训练样本集VTS、所有体元在空间度量关系特征M的取值m、空间度量关系特征M和特征集FS;
步骤S142,构建根结点,将训练样本集放在根结点;
步骤S143,判断训练样本集VTS是否为同一类,若为同一类,则类别值为根结点值,根结点也为叶结点,返回决策树;
步骤S144,若不为同一类,则设置空间度量关系特征M为根结点值,将所有数据在空间度量关系特征M的取值m放在根结点;
步骤S145,根据所有取值m建立根结点的分支,每一个取值对应一个分支;
步骤S146,若第i个取值mi中只有一个分量,则建立该分支对应的子结点,该结点为叶结点,结点值为分量值;
步骤S147,若第i个取值mi中有多个分量,则找到训练样本集VTS中类别值属于mi的分量的所有样本,这些样本即为mi分支对应的子训练样本集,以子训练样本集和特征集FS为输入样本和特征,按照前述的步骤构建mi分支对应的子决策树;
步骤S148,对m的所有分支按步骤S146~步骤S147建立叶结点或子决策树后,返回决策树。
10.根据权利要求4所述的面向露头地质体岩层分层的空间随机森林算法,其特征在于,所述将体元带入空间随机森林算法进行预测,得到体元匹配的岩层类别具体为:对随机森林中的每棵决策树,递归地根据决策树的结点找到体元对应的特征值,根据该特征值进入决策树中该结点对应的分支,最终得到体元的类别;统计随机森林中所有决策树对体元的分类结果,数量最多的类别即是随机森林对体元预测的类别。
CN202110139104.0A 2021-02-01 2021-02-01 基于空间随机森林算法的露头地质体岩层分层方法 Active CN113033599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110139104.0A CN113033599B (zh) 2021-02-01 2021-02-01 基于空间随机森林算法的露头地质体岩层分层方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110139104.0A CN113033599B (zh) 2021-02-01 2021-02-01 基于空间随机森林算法的露头地质体岩层分层方法

Publications (2)

Publication Number Publication Date
CN113033599A true CN113033599A (zh) 2021-06-25
CN113033599B CN113033599B (zh) 2024-03-15

Family

ID=76459632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110139104.0A Active CN113033599B (zh) 2021-02-01 2021-02-01 基于空间随机森林算法的露头地质体岩层分层方法

Country Status (1)

Country Link
CN (1) CN113033599B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170364795A1 (en) * 2016-06-15 2017-12-21 Akw Analytics Inc. Petroleum analytics learning machine system with machine learning analytics applications for upstream and midstream oil and gas industry
CN110363299A (zh) * 2019-07-16 2019-10-22 成都理工大学 面向露头岩层分层的空间案例推理方法
CN111144637A (zh) * 2019-12-24 2020-05-12 贵州电网有限责任公司 基于机器学习的区域电网地质灾害预报模型构建方法
CN111860359A (zh) * 2020-07-23 2020-10-30 江苏食品药品职业技术学院 一种基于改进随机森林算法的点云分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170364795A1 (en) * 2016-06-15 2017-12-21 Akw Analytics Inc. Petroleum analytics learning machine system with machine learning analytics applications for upstream and midstream oil and gas industry
CN110363299A (zh) * 2019-07-16 2019-10-22 成都理工大学 面向露头岩层分层的空间案例推理方法
CN111144637A (zh) * 2019-12-24 2020-05-12 贵州电网有限责任公司 基于机器学习的区域电网地质灾害预报模型构建方法
CN111860359A (zh) * 2020-07-23 2020-10-30 江苏食品药品职业技术学院 一种基于改进随机森林算法的点云分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANHUA CHEN 等: "Identification of outcropping strata from UAV oblique photogrammetric data using a spatial case-based reasoning model" *
周雪晴;张占松;张超谟;聂昕;朱林奇;张宏悦;: "基于粗糙集――随机森林算法的复杂岩性识别" *

Also Published As

Publication number Publication date
CN113033599B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
Grilli et al. A review of point clouds segmentation and classification algorithms
CN112070769B (zh) 一种基于dbscan的分层点云分割方法
CN103268358B (zh) 多源控制点影像数据库构建及更新方法
CN100595782C (zh) 一种融合光谱信息和多点模拟空间信息的分类方法
CN110599506B (zh) 一种复杂异形曲面机器人三维测量的点云分割方法
CN110363299B (zh) 面向露头岩层分层的空间案例推理方法
Leng et al. A multi‐scale plane‐detection method based on the Hough transform and region growing
CN111652293A (zh) 一种多任务联合判别学习的车辆重识别方法
Özdemir et al. Aerial point cloud classification with deep learning and machine learning algorithms
CN107944383A (zh) 基于三维Voronoi图的建筑物屋顶面片分割方法
Pirotti et al. Detection of building roofs and facades from aerial laser scanning data using deep learning
CN115512247A (zh) 基于图像多参数提取的区域建筑损伤等级评定方法
CN112634447B (zh) 一种露头岩层分层方法、装置、设备及存储介质
CN114386466B (zh) 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法
CN112241676A (zh) 一种地形杂物自动识别的方法
Peng et al. Development of a framework for stereo image retrieval with both height and planar features
CN117765006A (zh) 基于无人机影像与激光点云的多层次密集树冠分割方法
CN109241628B (zh) 基于图谱理论和聚类的三维cad模型分割方法
CN113033599B (zh) 基于空间随机森林算法的露头地质体岩层分层方法
Liu et al. Adaptive algorithm for automated polygonal approximation of high spatial resolution remote sensing imagery segmentation contours
CN116010644A (zh) 基于轴向移动和局部匹配的重复性建筑元素检索方法
CN111710157B (zh) 一种出租车热点区域的提取方法
CN111612869B (zh) 一种基于栅格数据进行地质编图的分析方法
Liu et al. Deep learning of volumetric representation for 3D object recognition
Atik et al. Explainable Artificial Intelligence for Machine Learning-Based Photogrammetric Point Cloud Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant