CN110196886A

CN110196886A - 农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台

Info

Publication number: CN110196886A
Application number: CN201910316918.XA
Authority: CN
Inventors: 赵晋陵; 胡根生; 梁栋; 段运生; 阮莉敏; 黄林生; 张东彦; 翁士状
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2019-09-03

Abstract

本发明涉及一种基于属性分类的农业面源污染多源异构大数据关联方法，与现有技术相比解决了难以根据数据属性进行高效关联的缺陷。本发明包括以下步骤：判断多源异构大数据属于定量数据还是定性数据；对定量数据采用支持向量机、度量学习等方法实现分类；对定性数据采用文本语义挖掘方法获取量化特征，再采用支持向量机、度量学习等方法实现分类；对分类后的结果进行编码实现多源异构大数据的关联；本发明还提出一种农业面源污染大数据监管平台，本发明将农业面源污染多源异构大数据的属性作为分类依据，通过对定量和定性数据采用不同的处理方法，实现农业面源污染多源异构大数据的分类，借助于生成的树状结构土壤污染属性编码进行关联。

Description

农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台

技术领域

本发明属于大数据处理技术领域，特别涉及一种农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台。

背景技术

目前农业面源污染问题突出，在综合治理中，需选择农业环境问题突出、代表性强的小流域，加大源头控制，实施农业面源污染综合治理工程建设。为了保证工程应用中的监测效果和工作效率，急需构建农业面源污染大数据监管平台，实现多源异构数据的规范化和快速关联，服务于农业面源普查、调查、监测、分析决策等功能，为农业面源、农田土壤重金属污染综合防治与修复提供数据支撑。

然而现有技术对农业面源污染多源异构大数据进行关联时存在以下缺点：

1、由于数据量巨大，因而对数据进行标注存在工作量大、耗费多等问题。

2、对标注后数据进行关联处理速度慢，难以实现实时关联。

3、难以解决种类多、内容庞杂、结构松散的定量和定性数据的关联。

4、监测平台数据库过大，检索困难，同时难以实现实时监测。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台，一方面解决了大数据标注工作量大、成本高的问题；第二方面解决了大数据关联速度慢的问题；第三方面解决了不同种类、不同内容、结构松散的定量和定性数据的关联问题；第四方面解决了目前大数据监管平台数据不便于检索，不便于实时监测的问题。

为了实现上述目的，本发明采用的技术方案是：

一种基于属性分类的农业面源污染多源异构大数据关联方法，包括如下步骤：

判断农业面源污染多源异构大数据属于定量数据还是定性数据；

对多源异构大数据的定量数据采用支持向量机或度量学习方法实现分类；

对多源异构大数据的定性数据采用文本语义挖掘方法获取量化特征，再采用支持向量机或度量学习方法实现分类；

对分类后的结果进行编码实现多源异构大数据的关联。

所述农业面源污染多源异构大数据的定量数据包括污染监测点数据、遥感栅格数据、线和面矢量基础地理数据以及图像和视频多源异构数据；所述农业面源污染多源异构大数据的定性数据包括统计调查数据和文本数据等数据中不能定量表示的其他数据。

所述多源异构大数据采用最小二乘孪生支持向量机分类方法或基于Cayley-Klein度量学习的分类方法实现分类。

所述最小二乘孪生支持向量机(LSTSVM)分类方法对面源污染多源异构大数据进行分类的具体步骤如下：

以如下两个约束优化问题表示LSTSVM模型：

s.t -(K(B,M^T)w₁+e₂b₁+y₂＝e₂

s.t -(K(A,M^T)w₂+e₁b₂+y₁＝e₁

其中，和分别表示m₁个某待分类数据训练样本和m₂个其他类型训练样本，n是样本的维数，K(·,·)是核函数，e₁和e₂为相应维数的单位向量，C₁和C₂为惩罚系数，M^T＝[A^TB^T],w_k和b_k为最优超平面参数，k＝1,2，y₁和 y₂表示误差量；

把约束条件代入目标函数可以求得：

其中，H＝[K(A,M^T)e₁],Q＝[K(B,M^T)e₂]

由此可得超平面方程：

K(x^T,M^T)w₁+b₁＝0

K(x^T,M^T)w₂+b₂＝0

上述两个超平面分别对应一类训练样本，判断一个新样本x∈Rⁿ为类i的决策函数如下：

基于LSTSVM分类方法，采用两两二分类再采用投票法确定最终类别的思想，如果上述函数的值为k＝1，则新样本属于第1类，如果该函数的值为k＝ 2，则新样本属于第2类。

所述基于Cayley-Klein度量学习的分类方法对面源污染多源异构大数据进行分类的具体步骤如下：

Cayley-Klein度量学习问题可被表述为：给定训练样本数据，寻找一个 Cayley-Klein度量矩阵使得相应的度量在某种学习准则下是最优的，因此， Cayley-Klein度量学习问题，首先需要根据特定的任务建立Cayley-Klein度量学习准则，其次是通过求解非线性优化获得最优的Cayley-Klein度量矩阵，给定一个对称正定矩阵G，其在Cayley-Klein度量中的双线性形式表示为：

椭圆Cayley-Klein度量为：

x_i表示第i个样本，x_j表示第j个样本，k是一个给定的常数。

借鉴ν支持向量机方法，使相同类数据点之间的Cayley-Klein度量较小而不同类数据点之间的Cayley-Klein度量较大，给出如下的Cayley-Klein度量学习的优化模型：

subject to (a)d_CK(x_i,x_l)-d_CK(x_i,x_j)≥ρ-ζ_ijl

(b)ζ_ijl≥0,ρ≥0

(c)G＞0

式中，符号j→i表示x_j和x_i是属于相同类别的数据点，目标函数的第一项惩罚输入样本与其相同类样本间的较大距离，第二项中的ν控制误分类样本点的比例，第三项是惩罚异类样本间的较小距离，μ为平衡常数；ζ_ijl表示误差，l 表示与i不同类别，ρ表示误差控制量。

为了确保G的对称性，令G＝L^TL，L∈R^(n+1)×(n+1)，将约束加到目标函数中，令ζ_ijl(L,ρ)＝[ρ+d_CK(x_i,x_j)-d_CK(x_i,x_l)]₊，如果z≥0，[z]₊＝z；如果z＜0，[z]₊＝0，有：

这里，ε(L,ρ)是相对于L和ρ的函数，R表示实数集合，n是数据的维数。

用记号C_ij＝(x_i ^T,1)^T(x_j ^T,1)，有：

σ(x_i,x_j)＝tr(C_ijG)＝tr(C_ij(L^TL))

得到目标函数第t次迭代的梯度为：

其中

为了提高迭代效率，利用小批量随机梯度下降算法求解上述优化问题，在每次迭代时，只选取其中的b个样本更新梯度值，b远小于样本总数N，收敛后， G由G＝L^TL得到；小批量随机梯度下降算法求解的步骤如下：

输入：训练样本数据，步长为η

输出：Cayley-Klein度量矩阵G

(1)初始化：G₀＝G⁺；

(2)计算L:G＝L^TL；

(3)随机选取b个样本，获得该b个样本的的梯度值；

(4)令G^t+1:G^t＝L^T(t+1)L^(t)；

(5)重复步骤(3)(4)，直到收敛，或达到停止准则；

(6)返回G＝L^TL，结束；

η表示迭代步长、表示求梯度函数。获得Cayley-Klein度量矩阵G后，对于一个待分类样本，利用度量矩阵G求得该样本和已知类别的样本之间的 Cayley-Klein距离，距离最小的那个类别即最终的分类结果。

本发明可采用基于深度学习的生成式自动文摘方法，抽取定性数据中的属性信息，采用支持向量机或度量学习方法实现定性数据的分类。

本发明还提供了一种农业面源污染大数据监管平台，包括：

数据采集模块，采集农业面源污染多源异构大数据；

数据关联模块，采用所述基于属性分类的农业面源污染多源异构大数据关联方法对数据采集模块采集的数据进行关联；

数据库，存储所述数据关联模块关联的数据

检索模块，根据关联关系检索数据；

监测模块，将检索到的数据与预设阈值进行比较，当不在阈值范围内，则输出报警。

所述农业面源污染大数据监管平台，还可包括：

编码模块，构建树状结构编码，将分类结果进行量化编码。

所述农业面源污染大数据监管平台，还可包括：

数据爬取模块，根据关键词自动爬取数据，并将爬取数据按照编码反馈至监测模块，由监测模块实现实时监控。

与现有技术相比，本发明的有益效果是：

1、本发明基于农业面源污染中的土壤污染属性，利用支持向量机、度量学习等人工智能算法对多源异构定量/定性数据进行分类，可实现农业面源污染多源异构大数据的快速标注。

2、本发明构建土壤污染属性树状结构编码，对分类结果进行量化编码，实现不同种类、不同内容、结构松散的定量和定性数据的高效关联。

3、本发明构建农业面源污染大数据监管平台，基于所述的关联方法实现数据关联，大大优化了检索，便于利用爬取模块实时监测数据。

附图说明

图1是本发明数据关联方法的流程图。

图2是本发明土壤污染属性编码示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

通过分析引起农业面源污染的主要类型，对农业面源污染监测工程应用中采集的点位数据(比如：带有经纬度坐标的Zn、Fe、Cu、Mn、Cd、Cr土壤等重金属数据；有机质、水解氮、有效磷、缓效钾、速效钾等土壤养分数据，数据格式为*.xls或*.txt)、遥感栅格数据(比如：国产HJ-1A/B/C、GF-1/2、美国Landsat系列卫星和无人机拍摄的多源遥感影像，数据格式为带地理坐标的 *.tiff格式)、点/线/面地理信息矢量数据(比如：省、市、县等行政区划数据，数据格式为*.shp格式)、图像(农业物联网拍摄的高清图像，数据格式为 *.jpg)、视频(农业物联网拍摄的视频，数据格式为*.avi)等多源异构定量数据采用LSTSVM支持向量机、Cayley-Klein度量学习等方法实现分类，将其归为土壤污染等级、土壤污染指数、土壤PH值、重金属类别、土壤性质、土壤用途。

对农业面源污染工程应用中获取的种植业地块调查、畜禽养殖业调查、水产养殖业调查、农村生活污染源调查等定性调查数据(数据格式为*.doc或者 *.pdf)，采用文本语义挖掘方法获取量化特征，再采用LSTSVM支持向量机、 Cayley-Klein度量学习等方法实现分类，将其归为土壤污染等级、土壤污染指数、土壤PH值、重金属类别、土壤性质、土壤用途。

如图1所示，一种基于属性分类的农业面源污染多源异构大数据关联方法，包括如下步骤：

(1)最小二乘孪生支持向量机分类方法

支持向量机是一种基于统计学习理论的机器学习方法，和神经网络相比，其解决了高维问题和局部最小值问题，具有更好的泛化能力。Jayadeva等提出孪生支持向量机(Twin Support Vector Machine,TWSVM)，它通过求解两个规模较小的二次规划问题，对大规模不均衡数据具有很好的处理能力，并且可以获得具有更强鲁棒性的最优超平面，有效提高分类精度。利用最小二乘孪生支持向量机(Least Squares Twin Support VectorMachine，LSTSVM)算法对农业面源污染多源异构大数据进行分类。

LSTSVM的模型可表示为下面两个约束优化问题：

s.t -(K(B,M^T)w₁+e₂b₁+y₂＝e₂

s.t -(K(A,M^T)w₂+e₁b₂+y₁＝e₁

其中，和分别表示m₁个某待分类数据训练样本和m₂个其他类型训练样本，n是样本的维数，K(·,·)是核函数，e₁和e₂为相应维数的单位向量，C₁和C₂为惩罚系数，M^T＝[A^TB^T],w_k和b_k(k＝1,2)为最优超平面参数，y₁和 y₂表示误差量。

把约束条件带入目标函数可以求得

其中，H＝[K(A,M^T)e₁],Q＝[K(B,M^T)e₂]

由此可得超平面方程：

K(x^T,M^T)w₁+b₁＝0

K(x^T,M^T)w₂+b₂＝0

根据决策函数得到的计算结果归为土壤污染等级、土壤污染指数、土壤 PH值、重金属类别、土壤性质、土壤用途等类型。

(2)基于Cayley-Klein度量学习的分类方法

凯莱-克莱因度量学习问题可被表述为：给定训练样本数据，寻找一个凯莱 -克莱因度量矩阵使得相应的度量在某种学习准则下是最优的。因此，凯莱-克莱因度量学习问题。首先需要根据农业面源污染多源异构数据与土壤污染等级、土壤污染指数、土壤PH值、重金属类别、土壤性质、土壤用途等类型建立凯莱-克莱因度量学习准则，其次是通过求解非线性优化获得最优的凯莱-克莱因度量矩阵。

给定一个对称正定矩阵G，其在凯莱克莱因度量中的双线性形式可以表示为：

椭圆凯莱克莱因度量为：

subject to (a)d_CK(x_i,x_l)-d_CK(x_i,x_j)≥ρ-ζ_ijl

(b)ζ_ijl≥0,ρ≥0

(c)G＞0

式中，符号j→i表示x_j和x_i是属于相同类别的数据点，目标函数的第一项惩罚输入样本与其相同类样本间的较大距离，第二项中的ν控制误分类样本点的比例，第三项是惩罚异类样本间的较小距离，μ为平衡常数。

为了确保G的对称性，令G＝L^TL，，这里L∈R^(n+1)×(n+1)。将约束加到目标函数中，令ζ_ijl(L,ρ)＝[ρ+d_CK(x_i,x_j)-d_CK(x_i,x_l)]₊，这里如果z≥0，[z]₊＝z；如果z＜0， [z]₊＝0有：

这里，ε(L,ρ)是相对于L和ρ的函数，

用记号C_ij＝(x_i ^T,1)^T(x_j ^T,1)，有：

σ(x_i,x_j)＝tr(C_ijG)＝tr(C_ij(L^TL))

可以得到目标函数第t次迭代的梯度为：

这里

为了提高迭代效率，利用小批量随机梯度下降算法求解上述优化问题。假设样本总数为N，在每次迭代时，只选取其中的b个样本更新梯度值，这里的b 远小于样本总数N。收敛后，G可以由G＝L^TL得到。

小批量随机梯度下降算法求解的步骤如下：

输入：训练样本数据，步长为η

输出：Cayley-Klein度量矩阵G

(1)初始化：G₀＝G⁺；

(2)计算L:G＝L^TL；

(3)随机选取b个样本，获得该b个样本的的梯度值；

(4)令G^t+1:G^t＝L^T(t+1)L^(t)；

(5)重复步骤(3)(4)，直到收敛，或达到停止准则；

(6)返回G＝L^TL，结束。

构建图2所示的土壤污染属性树状结构编码，对分类结果添加具体的量化编码实现农业面源污染多源异构大数据与土壤污染属性的快速关联。

本发明在实现关联之后，可服务于农业面源污染多源异构大数据的高效管理，尤其对于定性数据的分类和关联，可解决当前农业面源污染数据库管理系统的数据管理低效、共享性差和系统服务能力弱等问题，最终为农业面源污染时空大数据平台研发提供高效的数据关联方法。例如，可应用于构建农业面源污染大数据监管平台，本发明中，该平台包括：

数据采集模块，采集农业面源污染多源异构大数据，实际应用中，可在服务器直接接入各数据采集设备的数据输出端，获取数据；

数据关联模块，采用所述基于属性分类的农业面源污染多源异构大数据关联方法对数据采集模块采集的数据进行关联，实际应用中，该模块是设置在服务器中的虚拟模块，从服务器的数据输入端获取各类数据，然后应用所述的关联方法，对数据分类关联；

数据库，存储所述数据关联模块关联的数据，实际应用中，数据库在服务器的存储区；

检索模块，根据关联关系检索数据，实际应用中，检索模块一般采取主动检索，即，设置检索项，由用户根据类别在不同的检索项中进行检索；当然也可采用被动检索，即，设置关键检索项，由系统不间断获取数据库中新存入的数据；

当在平台中设置编码模块，编码模块基于图2的形式，构建树状结构编码，将分类结果进行量化编码，该特征下，将利于被动检索的实现。

当在平台中设置数据爬取模块，数据爬取模块根据关键词自动爬取数据，并将爬取数据按照编码反馈至监测模块，由监测模块实现实时监控。该特征实质上是被动检索的一种。

Claims

1.一种基于属性分类的农业面源污染多源异构大数据关联方法，其特征在于，包括如下步骤：

对分类后的结果进行编码实现多源异构大数据的关联。

2.根据权利要求1所述农业面源污染多源异构大数据关联方法，其特征在于，所述农业面源污染多源异构大数据的定量数据包括污染监测点数据、遥感栅格数据、线和面矢量基础地理数据以及图像和视频多源异构数据；所述农业面源污染多源异构大数据的定性数据包括统计调查数据和文本数据等数据中不能定量表示的其他数据。

3.根据权利要求1所述农业面源污染多源异构大数据关联方法，其特征在于，所述多源异构大数据采用最小二乘孪生支持向量机分类方法或基于Cayley-Klein度量学习的分类方法实现分类。

4.根据权利要求3所述农业面源污染多源异构大数据关联方法，其特征在于，所述最小二乘孪生支持向量机(LSTSVM)分类方法对面源污染多源异构大数据进行分类的具体步骤如下：

以如下两个约束优化问题表示LSTSVM模型：

s.t-(K(B,M^T)w₁+e₂b₁+y₂＝e₂

s.t-(K(A,M^T)w₂+e₁b₂+y₁＝e₁

其中，和分别表示m₁个某待分类数据训练样本和m₂个其他类型训练样本，n是样本的维数，K(·,·)是核函数，e₁和e₂为相应维数的单位向量，C₁和C₂为惩罚系数，M^T＝[A^TB^T],w_k和b_k为最优超平面参数，k＝1,2，y₁和y₂表示误差量；

把约束条件代入目标函数可以求得：

其中，H＝[K(A,M^T)e₁],Q＝[K(B,M^T)e₂]

由此可得超平面方程：

K(x^T,M^T)w₁+b₁＝0

K(x^T,M^T)w₂+b₂＝0

基于LSTSVM分类方法，采用两两二分类再采用投票法确定最终类别的思想，如果上述函数的值为k＝1，则新样本属于第1类，如果该函数的值为k＝2，则新样本属于第2类。

5.根据权利要求3所述农业面源污染多源异构大数据关联方法，其特征在于，所述基于Cayley-Klein度量学习的分类方法对面源污染多源异构大数据进行分类的具体步骤如下：

Cayley-Klein度量学习问题可被表述为：给定训练样本数据，寻找一个Cayley-Klein度量矩阵使得相应的度量在某种学习准则下是最优的，因此，Cayley-Klein度量学习问题，首先需要根据特定的任务建立Cayley-Klein度量学习准则，其次是通过求解非线性优化获得最优的Cayley-Klein度量矩阵，给定一个对称正定矩阵G，其在Cayley-Klein度量中的双线性形式表示为：

椭圆Cayley-Klein度量为：

x_i表示第i个样本，x_j表示第j个样本，k是一个给定的常数。

subject to(a)d_CK(x_i,x_l)-d_CK(x_i,x_j)≥ρ-ζ_ijl

(b)ζ_ijl≥0,ρ≥0

(c)G＞0

式中，符号j→i表示x_j和x_i是属于相同类别的数据点，目标函数的第一项惩罚输入样本与其相同类样本间的较大距离，第二项中的ν控制误分类样本点的比例，第三项是惩罚异类样本间的较小距离，μ为平衡常数；ζ_ijl表示误差，l表示与i不同类别，ρ表示误差控制量。

用记号C_ij＝(x_i ^T,1)^T(x_j ^T,1)，有：

σ(x_i,x_j)＝tr(C_ijG)＝tr(C_ij(L^TL))

得到目标函数第t次迭代的梯度为：

其中

为了提高迭代效率，利用小批量随机梯度下降算法求解上述优化问题，在每次迭代时，只选取其中的b个样本更新梯度值，b远小于样本总数N，收敛后，G由G＝L^TL得到；小批量随机梯度下降算法求解的步骤如下：

输入：训练样本数据，步长为η

输出：Cayley-Klein度量矩阵G

(1)初始化：G₀＝G⁺；

(2)计算L:G＝L^TL；

(3)随机选取b个样本，获得该b个样本的的梯度值；

(4)令L^(t+1)＝L^(t)-η▽_Lε(L,ρ)，G^t+1:G^t＝L^T(t+1)L^(t)；

(5)重复步骤(3)(4)，直到收敛，或达到停止准则；

(6)返回G＝L^TL，结束；

η表示迭代步长、▽_L表示求梯度函数。获得Cayley-Klein度量矩阵G后，对于一个待分类样本，利用度量矩阵G求得该样本和已知类别的样本之间的Cayley-Klein距离，距离最小的那个类别即最终的分类结果。

6.根据权利要求1所述农业面源污染多源异构大数据关联方法，其特征在于，采用基于深度学习的生成式自动文摘方法，抽取定性数据中的属性信息，采用支持向量机或度量学习方法实现定性数据的分类。

7.一种农业面源污染大数据监管平台，其特征在于，包括：

数据采集模块，采集农业面源污染多源异构大数据；

数据关联模块，采用权利要求1所述基于属性分类的农业面源污染多源异构大数据关联方法对数据采集模块采集的数据进行关联；

数据库，存储所述数据关联模块关联的数据

检索模块，根据关联关系检索数据；

8.根据权利要求7所述农业面源污染大数据监管平台，其特征在于，还包括：

编码模块，构建树状结构编码，将分类结果进行量化编码。

9.根据权利要求8所述农业面源污染大数据监管平台，其特征在于，还包括：