CN114580064B

CN114580064B - 一种用于地质建模的数据分析方法、装置及存储介质

Info

Publication number: CN114580064B
Application number: CN202210226630.5A
Authority: CN
Inventors: 杨晓; 周艳伟; 张建亮; 石太昆; 彭祖峰
Original assignee: Guokan Digital Earth Beijing Technology Co ltd
Current assignee: Guokan Digital Earth Beijing Technology Co ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2024-05-31
Anticipated expiration: 2042-03-09
Also published as: CN114580064A

Abstract

本发明公开了一种用于地质建模的数据分析方法、装置及电子设备，本发明将模糊均值聚类方法应用于多源异构的地质勘探数据的分析过程中，进一步的挖掘出了各种多源异构数据的潜在价值，提高了勘查资料分类成果的准确性，扩展了其应用范围，同时，引入拉格朗日乘子法，来最小化聚类算法的目标函数，得到模糊分类目标函数，最后，利用随机梯度下降法使模糊分类目标函数的迭代求解过程能够快速收敛于全局最优解；由此，本发明可实现多种地质勘探数据的综合分析，不仅能够提供完整的地质建模数据，还极大程度的提高了传统方法的工作效率。

Description

一种用于地质建模的数据分析方法、装置及存储介质

技术领域

本发明属于地质建模技术领域，具体涉及一种用于地质建模的数据分析方法、装置及电子设备。

背景技术

随着我国地质勘探技术的快速发展，地质勘探领域已经覆盖了我国大部分的国土面积，得到了大量的中、小比例尺物探、化探和遥感等勘探数据，为我国查明各地区的地层岩性、构造、水文地质情况、矿产资源以及工程建设提供了基础数据。

目前，常通过对地质勘探数据进行分类，来构建地质模型图，以通过地质模型图对各个地区的地质情况进行定量分析，如通过分析地质模型，得到粗至储层的平均砂泥比、平均孔隙度等储层平均值，也可以得到细至储层的各项异性等信息，从而达到精确勘探的目的。

由于不同勘探技术具有野外采集工作比例尺不同、物理、化学基本原理不同以及成果数据精度各异等特点，因此，传统的数据分类方法只能独立分析各个勘探技术资料，从某一方面提取出一定的地质信息，其存在以下不足：若只分析单个勘探数据，会导致得到的地质数据代表性不足，难以支撑完整地质模型的构建，而若逐个分析各个勘探资料，则会造成分析效率慢，时效性不强，无法快速得到地质模型图，因此上述方法使得多源异构的勘查资料的作用存在很大的局限性，制约了其在地质建模工作中的广泛应用。

发明内容

本发明的目的是提供一种用于地质建模的数据分析方法、装置及存储介质，以解决现有的分类方法对单个勘探资料分析所存在的难以支撑完整地质模型的构建，以及分析全部地质勘探数据所存在的分析效率慢的问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，本发明提供了一种用于地质建模的数据分析方法，包括：

获取用于地质建模的地质勘探数据；

基于所述地质勘探数据，得出地质勘探样本数据集；

利用模糊均值聚类算法，对所述地质勘探样本数据集进行聚类分析，得到所述地质勘探样本数据集的类簇、各类簇的聚类中心以及地质勘探样本数据集与各类簇的隶属度矩阵；

基于所述隶属度矩阵和所述各类簇的聚类中心，并利用拉格朗日乘子法，构建所述地质勘探样本数据集的模糊分类目标函数；

利用随机梯度下降法，求解所述模糊分类目标函数的最优解，得到最优聚类中心矩阵，其中，所述最优聚类中心矩阵包括各类簇的最优聚类中心；

基于所述最优聚类中心矩阵，得出所述地质勘探样本数据集中每个地质勘探样本数据与各个类簇的隶属度；

根据每个地质勘探样本数据与各个类簇的隶属度，得出每个地质勘探样本数据的所属类簇。

基于上述公开的内容，本发明首先通过模糊均值聚类方法对多种地质勘探数据进行聚类分析，从而得到多种地质勘探数据所划分的类簇、各类簇的聚类中心以及地质勘探数据与各类簇的隶属度矩阵，同时，再基于拉格朗日乘子法构建模糊分类目标函数，并利用随机梯度下降法得到目标函数的最优解；由此，即可得到各类簇的最优聚类中心，最后，再利用最优聚类中心，计算各个地质勘探数据与各类簇的隶属度，即可完成各个地质勘探数据的分类。

通过上述设计，本发明将模糊均值聚类方法应用于多源异构的地质勘探数据的分析过程中，进一步的挖掘出了各种多源异构数据的潜在价值，提高了勘查资料分类成果的准确性，扩展了其应用范围，同时，引入拉格朗日乘子法，来最小化聚类算法的目标函数，得到模糊分类目标函数，最后，利用随机梯度下降法使模糊分类目标函数的迭代求解过程能够快速收敛于全局最优解；由此，本发明可实现多种地质勘探数据的综合分析，不仅能够提供完整的地质建模数据，还极大程度的提高了传统方法的工作效率。

在一个可能的设计中，基于所述隶属度矩阵和所述各类簇的聚类中心，并利用拉格朗日乘子法，构建所述地质勘探样本数据集的模糊分类目标函数，包括：

获取所述模糊均值聚类算法的目标函数；

将拉格朗日乘子作为所述目标函数的约束条件，并按照如下公式构建所述模糊分类目标函数；

上述式(1)中，J_ω(K,C,Λ)表示模糊分类目标函数，K为隶属度矩阵，C表示聚类中心矩阵，其中，C＝{C₁,C₂,...,C_M}，M为类簇的个数，N为地质勘探样本数据的总个数，k_ij表示第j个地质勘探样本数据与第i个类簇的隶属度，ω为权重系数，表示拉格朗日乘子，J_ω(K,C)为所述目标函数，且/>d_ij表示第j个地质勘探样本数据与第i个类簇的聚类中心的欧式距离，/>x_j表示第j个地质勘探样本数据，C_i表示第i个类簇的聚类中心。

基于上述公开的内容，本发明将拉格朗日乘子引入模糊均值聚类算法的目标函数中，从而将拉格朗日乘子作为函数的约束条件，由此，即可最小化目标函数，从而得到全新的目标函数，以便为后续全局最优解的求取提供函数基础。

在一个可能的设计中，利用随机梯度下降法，求解所述模糊分类目标函数的最优解，得到最优聚类中心矩阵，包括：

从所述地质勘探样本数据集中提取多个地质勘探样本数据，组成子样本数据集；

b.基于所述子样本数据集，计算所述模糊分类目标函数的全梯度；

c.根据所述全梯度，得到模糊分类目标函数的迭代步长因子；

d.根据所述全梯度和所述迭代步长因子，更新所述模糊分类目标函数中的变量，得到更新后的变量，其中，所述变量包括K、C和Λ，且为K隶属度矩阵，C表示聚类中心矩

阵，Λ表示拉格朗日乘子；

e.将所述更新后的变量代入所述模糊分类目标函数，得到第一函数值，以及将所述更新

前的变量代入所述模糊分类函数，得到第二函数值；

f.判断所述第一函数值与所述第二函数值差值的范数是否小于预设阈值；

若否，则以迭代方式重复前述步骤b～f，直至满足迭代停止条件为止，以将满足迭代停止条件对应的更新后的变量，作为所述最优解，得到所述最优聚类中心矩阵，其中，所述迭代停止条件为所述第一函数值与所述第二函数值差值的范数小于预设阈值。

基于上述公开的内容，随机梯度下降法的实质是：是在地质勘探样本数据集中随机抽取一组数据，用于求取模糊分类目标函数的全梯度和迭代步长因子，从而用全梯度以及迭代步长因子来更新前述函数中的变量，从而使函数快速收敛于全局最优解，该方法更适用于大数据样本的分析，由此，可提高数据分类的准确性。

在一个可能的设计中，计算所述模糊分类目标函数的全梯度；

上述式(2)中，表示全梯度，Z表示所述模糊分类函数中的变量，Z＝[K,C,Λ]，k_if表示第f个子样本数据与第i个类簇的隶属度，M为类簇的个数，ω为权重系数，d_if表示第f个子样本数据与第i个类簇的聚类中心的欧式距离，L表示子样本数据的总个数，p表示迭代次数，t＝1,2,3，依次为变量中K、C和Λ的组分。

在一个可能的设计中，按照如下公式，得到模糊分类目标函数的迭代步长因子；

上述式(3)中，a_p表示迭代步长因子，SD表示最速下降，p表示迭代次数，T表示迭代周期，mod(P,T)表示迭代次数对迭代周期的余数，且a′_p-1和a_p-1是根据a′_p得到的；

其中，

上述式(4)中，表示全梯度，Z表示所述模糊分类函数中的变量，Z＝[K,C,Λ]，t＝1,2,3，依次为变量中K、C和Λ的组分，ω为权重系数，f表示子样本数据在子样本数据集中的编号，H为全梯度的黑塞矩阵的逼近。

在一个可能的设计中，按照如下公式，更新所述模糊分类目标函数中变量；

上述式(6)中，表示更新后的变量，/>表示更新前的变量，Z＝[K,C,Λ]，t＝1,2,3，依次为变量中K、C和Λ的组分，/>表示全梯度，a_p表示迭代步长因子，p表示迭代次数，ω为权重系数，f表示子样本数据在子样本数据集中的编号。

在一个可能的设计中，按照如下公式，得出所述地质勘探样本数据集中每个地质勘探样本数据与每个类簇的隶属度；

上述式(7)中，k_ij表示第j个地质勘探样本数据与第i个类簇的隶属度，M表示类簇的个数，ω为权重系数，d′_ij表示第j个地质勘探样本数据与第i个类簇的最优聚类中心的欧式距离，x_j表示第j个地质勘探样本数据，C′_i表示第i个类簇的最优聚类中心，d_lj表示第j个地质勘探样本数据与第l个类簇的最优聚类中心的欧式距离，/>C_l表示第l个类簇的最优聚类中心，且i＝1,2,...,M，j＝1,2,...,N，N为地质勘探样本数据的总个数。

基于上述公开的内容，求解模糊分析目标函数的最优解，相当于是得到各个类簇的最优聚类中心，最后，再基于前述式(7)得出每个地质勘探样本数据与各个类簇的隶属度，将隶属度最高的类簇，即可作为该地质勘探样本数据的所属类簇。

第二方面，本发明提供了一种用于地质建模的数据分析装置，包括：

获取单元，用于获取用于地质建模的地质勘探数据；

数据处理单元，用于基于所述地质勘探数据，得出地质勘探样本数据集；

聚类分析单元，用于利用模糊均值聚类算法，对所述地质勘探样本数据集进行聚类分析，得到所述地质勘探样本数据集的类簇、各类簇的聚类中心以及地质勘探样本数据集与各类簇的隶属度矩阵；

函数构建单元，用于基于所述隶属度矩阵和所述各类簇的聚类中心，并利用拉格朗日乘子法，构建所述地质勘探样本数据集的模糊分类目标函数；

最优解计算单元，用于利用随机梯度下降法，求解所述模糊分类目标函数的最优解，得到最优聚类中心矩阵，其中，所述最优聚类中心矩阵包括各类簇的最优聚类中心；

隶属度计算单元，用于基于所述最优聚类中心矩阵，得出所述地质勘探样本数据集中每个地质勘探样本数据与各个类簇的隶属度；

分类单元，用于根据每个地质勘探样本数据与各个类簇的隶属度，得出每个地质勘探样本数据的所属类簇。

第三方面，本发明提供了另一种用于地质建模的数据分析装置，以装置为电子设备为例，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任意一种可能设计的所述用于地质建模的数据分析方法。

第四方面，本发明提供了一种存储介质，所述存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或第一方面中任意一种可能设计的所述用于地质建模的数据分析方法。

第五方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面或第一方面中任意一种可能设计的所述用于地质建模的数据分析方法。

附图说明

图1为本发明提供的用于地质建模的数据分析方法的步骤流程示意图；

图2为本发明提供的使用本方法所得出的分类结果构建的地质模型图，与传统分析结果所构建的地质模型图的对比示意图。

图3为本发明提供的用于地质建模的数据分析装置的结构示意图；

图4为本发明提供的电子设备的结构示意图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

实施例

参见图1所示，本实施例第一方面所提供的用于地质建模的数据分析方法，可以但不限于在分析终端侧运行，其中，分析终端可以但不限于是个人电脑(personal computer，PC)、平板电脑、智能手机和/或个人数字助理(personal digital assistant，PDA)等，可以理解的，前述执行主体并不构成对本申请实施例的限定，相应的，本方法的运行步骤如下述步骤S1～S7所示。

S1.获取用于地质建模的地质勘探数据；具体的，地质勘探数据可以但不限于包括地化数据、磁法数据和遥感数据等；可选的，在具体实施时，分析终端通信连接有各个勘探终端，以便接收由各个勘探终端发送的不同种类的地质勘探数据，以便在分析终端侧对各个地质勘探数据进行分类。

在得到地质勘探数据后，为便于后续的分析工作，在分析前，需要对地质勘探数据进行预处理，以便解决各类勘探数据量级不一致的问题，如以下步骤S2所示。

S2.基于所述地质勘探数据，得出地质勘探样本数据集；具体应用时，可以但不限于对地质勘探数据进行归一化处理，以得到标准化数据，从而利用标准数据组成地质勘探样本数据集；在本实施例中，归一化处理可以但不限于使用：min-max标准化方法或Z-score标准化方法。

在得到地质勘探样本数据集后，即可利用模糊均值聚类算法来综合分析该样本数据集，以将样本数据集分为多个类簇，并得出各个类簇的聚类中心以及隶属度矩阵，如下述步骤S3所示。

S3.利用模糊均值聚类算法，对所述地质勘探样本数据集进行聚类分析，得到所述地质勘探样本数据集的类簇、各类簇的聚类中心以及地质勘探样本数据集与各类簇的隶属度矩阵；具体应用时，假设共计有N个地质勘探样本数据，那么地质勘探样本数据集则为：X＝{x₁,x₂,...x_N}，同时，每个地质勘探样本数据x_j有n个特征属性，即x_j＝(x_1j,x_2j,...,x_nj)，j＝1,2,...,N；因此，借助模糊均值聚类算法中的模糊分类矩阵，可以将地质勘探样本数据集分为M个类簇，并得到每个类簇的类簇中心，更进一步的，每一个分类结果都应该对应有一个M×N的布尔矩阵，因此，即可利用该矩阵构建地质勘探样本数据集与各个类簇的隶属度矩阵K，其中，

由此，通过前述步骤S3即可实现地质勘探样本数据集类簇的划分以及隶属度矩阵的构建，以便为后续最终分类提供分类基础。

在得到地质勘探样本数据集划分的类簇、各类簇的聚类中心以及与各类簇的隶属度矩阵后，即可利用隶属度矩阵以及聚类中心进行数据的划分；具体的，本实施例是通过引入拉格朗日乘子，来最小化聚类算法的目标函数，得到模糊分类目标函数，并同时利用随机梯度下降法使模糊分类目标函数的迭代求解过程能够快速收敛于全局最优解，从而得到各个类簇的最优聚类中心，最后，基于最优聚类中心，来计算出每个地质勘探样本数据与各个类簇的隶属度，即可完成数据的分类；其中，分类过程如下述步骤S4～S7所示。

S4.基于所述隶属度矩阵和所述各类簇的聚类中心，并利用拉格朗日乘子法，构建所述地质勘探样本数据集的模糊分类目标函数；具体应用时，本实施例是将拉格朗日乘子作为聚类算法的目标函数的约束条件，从而来最小化目标函数，以构建出新的目标函数，即模糊分类目标函数；可选的，构建过程如下述步骤S41和步骤S42所示。

S41.获取所述模糊均值聚类算法的目标函数；具体应用时，模糊均值聚类算法的目标函数J_ω(K,C)为：

上述式中，K为隶属度矩阵，C表示聚类中心矩阵，C＝{C₁,C₂,...,C_M}，M为类簇的个数，N为地质勘探样本数据的总个数，k_ij表示第j个地质勘探样本数据与第i个类簇的隶属度(i的取值为1到M)，ω为权重系数(ω∈[1,∞)，ω越大，表明分类越模糊，ω＝1时，对应于硬分类)，d_ij表示第j个地质勘探样本数据与第i个类簇的聚类中心的欧式距离，且x_j表示第j个地质勘探样本数据，C_i表示第i个类簇的聚类中心。

具体的，

根据前述目标函数的公式可知，目标函数是由样本数据到各个类簇的聚类中心的距离的乘积，因此，前述数据的分类问题即为目标函数极小值的求解，即是K和C迭代求解的过程，但是前述目标函数的求解结果常常是局部极值点或鞍点，因此，会导致得到的聚类中心往往不是最优解，由此，本实施例将拉格朗日乘子引入目标函数，作为函数的约束条件，从而来最小化目标函数，以解决前述求解问题；具体的，如下述步骤S42所示。

S42.将拉格朗日乘子作为所述目标函数的约束条件，并按照如下公式构建所述模糊分类目标函数。

上述式(1)中，J_ω(K,C,Λ)表示模糊分类目标函数，Λ则是引入的拉格朗日乘子，具体的，式(1)中其余参数的含义可前述模糊均值聚类算法的目标函数，于此不再赘述。

同时，本实施例中，考虑到地质勘探样本数据集的紧致性和分离性，并顾及到样本的模糊划分，取ω＝1.35。

在将拉格朗日乘子引入模糊均值聚类算法的目标函数，得到新的目标函数后(即模糊分类目标函数)，即可求解新的目标函数的全局最优解，从而得到各个类簇最优的聚类中心，以便基于最优的聚类中心来计算地质勘探样本数据与各个类簇的隶属度，最终基于隶属度来实现地质勘探样本数据的类簇划分；具体的，求解过程如下述步骤S5所示。

S5.利用随机梯度下降法，求解所述模糊分类目标函数的最优解，得到最优聚类中心矩阵，其中，所述最优聚类中心矩阵包括各类簇的最优聚类中心；在具体实施时，利用随机梯度下降法来求解模糊分类目标函数，实质是在地质勘探样本数据集中随机抽取一组数据，用于求取模糊分类目标函数的全梯度和迭代步长因子，从而用全梯度以及迭代步长因子来更新前述模糊分类目标函数中的变量，从而使函数快速收敛于全局最优解，由于该方法更适用于大数据样本的分析，因此，可提高数据分类的准确性。

可选的，模糊分类目标函数的求解过程具体如下述步骤a～g所示。

a.从所述地质勘探样本数据集中提取多个地质勘探样本数据，组成子样本数据集；具体的，可以但不限于在地质勘探样本数据集中随机选择多个地质勘探样本数据，且选择的样本数据要远远小于样本数据集中的样本总个数。

b.基于所述子样本数据集，计算所述模糊分类目标函数的全梯度。

具体的，下述使用一实例来具体阐述步骤b：

首先，从地质勘探样本数据集中提取L个地质勘探样本数据，组成子样本数据集X′，其中，X′＝{x′₁,x′₂,...,x′_L}，且L<<N，同时，令Z＝[K,C,Λ]，即由Z作为模糊分类目标函数中的变量，然后对模糊分类目标函数求Z的偏导，即可得到全梯度，如下述公式(2)所示：

上述式(2)中，表示全梯度，p表示迭代次数，t＝1,2,3，依次为变量中K、C和Λ的组分，k_if表示第f个子样本数据与第i个类簇的隶属度，M为类簇的个数，ω为权重系数，d_if表示第f个子样本数据与第i个类簇的聚类中心的欧式距离，且/>其中，x′_f表示第f个子样本数据(f的取值可参见公式(2))，C_i表示第i个类簇的聚类中心。

由此通过前述公式(2)，即可在计算出每一次迭代过程中的全梯度，以便在迭代时，基于全梯度，来计算出模糊分类目标函数的迭代步长因子，如下述步骤c所示。

c.根据所述全梯度，得到模糊分类目标函数的迭代步长因子；具体实施时，按照如下公式计算迭代步长因子：

上述式(3)中，a_p表示迭代步长因子，SD表示最速下降，p表示迭代次数，T表示迭代周期，为定值，本实施例中取T＝5，mod(P,T)表示迭代次数对迭代周期的余数，且a′_p-1和a_p-1是根据a′_p得到的；

其中，

具体的，黑塞矩阵的逼近H_p+1表示如下：

上述式中，其中，I为单位矩阵，/>表示在第T个周期时S_p的值，同理，/>则表示在第T个周期时y_p的值。·

下述以一个实例来阐述前述迭代步长因子的计算过程：

从第一次迭代开始，即p＝1时，迭代次数对迭代周期的余数为1，因此，也就是使用公式(4)计算得出a₁。

进行第二次迭代时，即p＝2时，迭代次数对迭代周期的余数为2，因此，a₂＝a′₁，即使用公式(5)计算得出a₂。

当进行第三次迭代时，即p＝3时，迭代次数对迭代周期的余数为3，因此，a₃＝a₂＝a′₁。

当进行第四次迭代时，即p＝4时，迭代次数对迭代周期的余数为4，因此，a₄＝a₃＝a′₁。

当进行第五次迭代时，即p＝5时，迭代次数对迭代周期的余数为0，因此，也就是使用公式(4)计算得出a₅。

当进行第六次迭代时，即p＝6时，迭代次数对迭代周期的余数为1，因此，还是使用公式(4)计算得出a₆。

当进行第七次迭代时，即p＝7时，迭代次数对迭代周期的余数为2，因此，a₇＝a′₆，也就是使用公式(5)计算得出a₇。

当进行第八次迭代时，即p＝8时，迭代次数对迭代周期的余数为3，因此，a₈＝a₇＝a′₆。

当进行第九次迭代时，即p＝9时，迭代次数对迭代周期的余数为4，因此，a₉＝a₈＝a′₆。

随着迭代次数的不断更新，并由前述实例可知，迭代步长因子则是由公式(4)和公式(5)交替得出。

在得出迭代步长因子后，即可联合全梯度，来更新模糊分类目标函数中的变量Z，如下述步骤d所示。

d.根据所述全梯度和所述迭代步长因子，更新所述模糊分类目标函数中的变量，得到更新后的变量，其中，所述变量包括K、C和Λ，且为K隶属度矩阵，C表示聚类中心矩阵，Λ表示拉格朗日乘子。

具体的，可根据如下公式(6)来更新变量Z：

上述式(6)中，表示更新后的变量，/>表示更新前的变量，Z＝[K,C,Λ]，t＝1,2,3，依次为变量中K、C和Λ的组分，/>表示全梯度，a_p表示迭代步长因子，p表示迭代次数，ω为权重系数，f表示子样本数据在子样本数据集中的编号，也就是第几个子样本数据。

在利用公式(6)更新模糊分类目标函数中的变量Z后，即可把更新前的变量Z代入前述公式(1)中，得到更新前的函数值(也就是第二函数值)，以及把更新后的变量Z代入公式(1)中，得到更新后的函数值(也就是第一函数值)，最后，根据更新前后的函数值，即可判断模糊分类目标函数是否收敛，即是否得到全局最优解，具体过程如下述步骤e～g所示。

e.将所述更新后的变量代入所述模糊分类目标函数，得到第一函数值，以及将所述更新前的变量代入所述模糊分类函数，得到第二函数值。

f.判断所述第一函数值与所述第二函数值差值的范数是否小于预设阈值。

g.若否，则以迭代方式重复前述步骤b～f，直至满足迭代停止条件为止，以将满足迭代停止条件对应的更新后的变量，作为所述最优解，得到所述最优聚类中心矩阵，其中，所述迭代停止条件为所述第一函数值与所述第二函数值差值的范数小于预设阈值。

具体的，使用下述用公式来阐述步骤e～g：

即当时(δ为预设阈值)，停止迭代，并将更新后的变量作为最优解，即将/>作为最优解，由于变量Z包含有隶属度矩阵、聚类中心矩阵以及拉格朗日乘子，即Z＝[K,C,Λ]，因此，即可将更新后的变量中的聚类中心矩阵，作为最优聚类中心矩阵，从而得到各个类簇的最优聚类中心。

当然，若时，则令p＝p+1，再次进行迭代，即重复前述步骤b～f，直至/>为止。

另外，在本实施例中，还可设置最大迭代次数，若迭代到最大迭代次数时，仍然不满足迭代停止条件，那么也可停止迭代，并将模糊分类目标函数在最大迭代次数时对应的变量中的聚类中心矩阵，作为最优聚类中心矩阵。

在得到最优聚类中心矩阵后，即可借助最优聚类中心矩阵，来计算出每个地质勘探样本数据与各个类簇的隶属度，以便基于隶属度来进行样本数据类簇的划分，如下述步骤S6所示。

S6.基于所述最优聚类中心矩阵，得出所述地质勘探样本数据集中每个地质勘探样本数据与各个类簇的隶属度；具体应用时，可根据如下公式来计算出任一地质勘探样本数据与任一类簇的隶属度：

在本实施例中，公式(7)中d_lj表示要遍历计算第j个地质勘探样本数据与所有的类簇的聚类中心的欧式距离，当i和l相等时，d_lj与d′_ij含义相同。

下述以一个实例来阐述前述公式(7)：

假设M＝11，以第9个地质勘探样本数据与第1个类簇的隶属度为例：

上式公式(8)可化简为：

由此，根据前述公式(7)，即可计算出每个地质勘探样本数据与各个类簇的隶属度，最后，基于隶属度，即可完成各个地质勘探样本数据的类簇划分，如下述步骤S7所示。

S7.根据每个地质勘探样本数据与各个类簇的隶属度，得出每个地质勘探样本数据的所属类簇；具体应用时，对于任一地质勘探样本数据，将隶属度最高的类簇，作为该任一地质勘探样本数据的所属类簇。

参见图2所示，下述以一个具体实例来说明本实施例所提供的方法的实际效果：

取位于我国某地区的浅覆盖森林沼泽区，收集到的资料包括地化数据(1:5万土壤地球化学资料，含33项元素信息)、磁法数据(1:5万航空磁测数据，含化极、分量换算、导数换算、空间延拓等预处理所提取的9项信息)以及遥感数据。

对上述数据进行归一化处理，解决各类勘查资料数据量级的不一致性问题，以便于后续的统一建模分析工作，经筛选整理，最终确定4478个测点为样本点，即N＝4478，同时，每个样本点具有n的特征属性，n＝33+9＝43，利用模糊均值聚类算法所得到的类簇有11个，令ω＝1.35,δ＝0.01，T＝5，并在4478个样本点中提取出400个数据，作为子样本数据，然后使用本实施例所提出的方法计算出各类簇的最优聚类中心，由此计算出各个样本点与11个类簇的隶属度，完成各样本点的分类；最后，将利用本实施例方法所得到的分类结果，来构建地质模型图(图2中左边的附图)，并与传统单个分析方法逐个分析前述数据所得出的地质模型图(图2中右边的附图)进行对比可知，本算法结果的宏观地质单元与传统方法的结果基本一致，但轮廓勾绘更加基于数据本身，同样能有效识别局部的地质单元，对特殊岩性体识别能力更强；最重要的是，本方法的时效性强，能极大程度的提高传统方法的工作效率。

由此通过前述步骤S1～S7所详细阐述的用于地质建模的数据分析方法，本发明将模糊均值聚类方法应用于多源异构的地质勘探数据的分析过程中，进一步的挖掘出了各种多源异构数据的潜在价值，提高了勘查资料分类成果的准确性，扩展了其应用范围，同时，引入拉格朗日乘子法，来最小化聚类算法的目标函数，得到模糊分类目标函数，最后，利用随机梯度下降法使模糊分类目标函数的迭代求解过程能够快速收敛于全局最优解；由此，本发明可实现多种地质勘探数据的综合分析，不仅能够提供完整的地质建模数据，还极大程度的提高了传统方法的工作效率。

如图3所示，本实施例第二方面提供了一种实现实施例第一方面中所述的用于地质建模的数据分析方法的硬件装置，包括：

获取单元，用于获取用于地质建模的地质勘探数据。

数据处理单元，用于基于所述地质勘探数据，得出地质勘探样本数据集。

聚类分析单元，用于利用模糊均值聚类算法，对所述地质勘探样本数据集进行聚类分析，得到所述地质勘探样本数据集的类簇、各类簇的聚类中心以及地质勘探样本数据集与各类簇的隶属度矩阵。

函数构建单元，用于基于所述隶属度矩阵和所述各类簇的聚类中心，并利用拉格朗日乘子法，构建所述地质勘探样本数据集的模糊分类目标函数。

最优解计算单元，用于利用随机梯度下降法，求解所述模糊分类目标函数的最优解，得到最优聚类中心矩阵，其中，所述最优聚类中心矩阵包括各类簇的最优聚类中心。

隶属度计算单元，用于基于所述最优聚类中心矩阵，得出所述地质勘探样本数据集中每个地质勘探样本数据与各个类簇的隶属度。

本实施例提供的硬件装置的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

如图4所示，本实施例第三方面提供了另一种用于地质建模的数据分析装置，以装置为电子设备为例，包括：依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如实施例第一方面所述的用于地质建模的数据分析方法。

具体举例的，所述存储器可以但不限于包括随机存取存储器(random accessmemory，RAM)、只读存储器(Read Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output，FIFO)和/或先进后出存储器(First In Last Out，FILO)等等；具体地，处理器可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现，同时，处理器也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。

在一些实施例中，处理器可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制，例如，所述处理器可以不限于采用型号为STM32F105系列的微处理器、精简指令集计算机(reduced instruction setcomputer,RISC)微处理器、X86等架构处理器或集成嵌入式神经网络处理器(neural-network processing units，NPU)的处理器；所述收发器可以但不限于为无线保真(WIFI)无线收发器、蓝牙无线收发器、通用分组无线服务技术(General Packet Radio Service，GPRS)无线收发器、紫蜂协议(基于IEEE802.15.4标准的低功耗局域网协议，ZigBee)无线收发器、3G收发器、4G收发器和/或5G收发器等。此外，所述装置还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例提供的电子设备的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

本实施例第四方面提供了一种存储包含有实施例第一方面所述的用于地质建模的数据分析方法的指令的存储介质，即所述存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面所述的用于地质建模的数据分析方法。

其中，所述存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本实施例提供的存储介质的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

本实施例第五方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如实施例第一方面所述的用于地质建模的数据分析方法，其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于地质建模的数据分析方法，其特征在于，包括：

获取用于地质建模的地质勘探数据；

基于所述地质勘探数据，得出地质勘探样本数据集；

2.如权利要求1所述的方法，其特征在于，基于所述隶属度矩阵和所述各类簇的聚类中心，并利用拉格朗日乘子法，构建所述地质勘探样本数据集的模糊分类目标函数，包括：

获取所述模糊均值聚类算法的目标函数；

3.如权利要求1所述的方法，其特征在于，利用随机梯度下降法，求解所述模糊分类目标函数的最优解，得到最优聚类中心矩阵，包括：

d.根据所述全梯度和所述迭代步长因子，更新所述模糊分类目标函数中的变量，得到更新后的变量，其中，所述变量包括K、C和Λ，且为K隶属度矩阵，C表示聚类中心矩阵，Λ表示拉格朗日乘子；

e.将所述更新后的变量代入所述模糊分类目标函数，得到第一函数值，以及将所述更新前的变量代入所述模糊分类函数，得到第二函数值；

4.如权利要求3所述的方法，其特征在于，根据如下公式，计算所述模糊分类目标函数的全梯度；

5.如权利要求3所述的方法，其特征在于，按照如下公式，得到模糊分类目标函数的迭代步长因子；

其中，

6.如权利要求3所述的方法，其特征在于，按照如下公式，更新所述模糊分类目标函数中变量；

7.如权利要求1所述的方法，其特征在于，按照如下公式，得出所述地质勘探样本数据集中每个地质勘探样本数据与每个类簇的隶属度；

8.一种用于地质建模的数据分析装置，其特征在于，包括：

获取单元，用于获取用于地质建模的地质勘探数据；

9.一种用于地质建模的数据分析装置，其特征在于，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～7任意一项所述的用于地质建模的数据分析方法。

10.一种存储介质，其特征在于，所述存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～7任意一项所述的用于地质建模的数据分析方法。