CN110196886A - 农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台 - Google Patents
农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台 Download PDFInfo
- Publication number
- CN110196886A CN110196886A CN201910316918.XA CN201910316918A CN110196886A CN 110196886 A CN110196886 A CN 110196886A CN 201910316918 A CN201910316918 A CN 201910316918A CN 110196886 A CN110196886 A CN 110196886A
- Authority
- CN
- China
- Prior art keywords
- data
- big data
- agricultural non
- cayley
- klein
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012706 support-vector machine Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims description 29
- 238000012544 monitoring process Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 12
- 230000009193 crawling Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 2
- 238000003900 soil pollution Methods 0.000 abstract description 14
- 230000007547 defect Effects 0.000 abstract description 2
- 238000013139 quantization Methods 0.000 abstract description 2
- 238000003672 processing method Methods 0.000 abstract 1
- 239000002689 soil Substances 0.000 description 15
- 229910001385 heavy metal Inorganic materials 0.000 description 6
- 238000012545 processing Methods 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 229910052700 potassium Inorganic materials 0.000 description 2
- 239000011591 potassium Substances 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000009360 aquaculture Methods 0.000 description 1
- 244000144974 aquaculture Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 229910052793 cadmium Inorganic materials 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229910052804 chromium Inorganic materials 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 229910052748 manganese Inorganic materials 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 239000011574 phosphorus Substances 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Mining & Mineral Resources (AREA)
- Animal Husbandry (AREA)
- Health & Medical Sciences (AREA)
- Agronomy & Crop Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Marine Sciences & Fisheries (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于属性分类的农业面源污染多源异构大数据关联方法,与现有技术相比解决了难以根据数据属性进行高效关联的缺陷。本发明包括以下步骤:判断多源异构大数据属于定量数据还是定性数据;对定量数据采用支持向量机、度量学习等方法实现分类;对定性数据采用文本语义挖掘方法获取量化特征,再采用支持向量机、度量学习等方法实现分类;对分类后的结果进行编码实现多源异构大数据的关联;本发明还提出一种农业面源污染大数据监管平台,本发明将农业面源污染多源异构大数据的属性作为分类依据,通过对定量和定性数据采用不同的处理方法,实现农业面源污染多源异构大数据的分类,借助于生成的树状结构土壤污染属性编码进行关联。
Description
技术领域
本发明属于大数据处理技术领域,特别涉及一种农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台。
背景技术
目前农业面源污染问题突出,在综合治理中,需选择农业环境问题突出、代表性强的小流域,加大源头控制,实施农业面源污染综合治理工程建设。为了保证工程应用中的监测效果和工作效率,急需构建农业面源污染大数据监管平台,实现多源异构数据的规范化和快速关联,服务于农业面源普查、调查、监测、分析决策等功能,为农业面源、农田土壤重金属污染综合防治与修复提供数据支撑。
然而现有技术对农业面源污染多源异构大数据进行关联时存在以下缺点:
1、由于数据量巨大,因而对数据进行标注存在工作量大、耗费多等问题。
2、对标注后数据进行关联处理速度慢,难以实现实时关联。
3、难以解决种类多、内容庞杂、结构松散的定量和定性数据的关联。
4、监测平台数据库过大,检索困难,同时难以实现实时监测。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台,一方面解决了大数据标注工作量大、成本高的问题;第二方面解决了大数据关联速度慢的问题;第三方面解决了不同种类、不同内容、结构松散的定量和定性数据的关联问题;第四方面解决了目前大数据监管平台数据不便于检索,不便于实时监测的问题。
为了实现上述目的,本发明采用的技术方案是:
一种基于属性分类的农业面源污染多源异构大数据关联方法,包括如下步骤:
判断农业面源污染多源异构大数据属于定量数据还是定性数据;
对多源异构大数据的定量数据采用支持向量机或度量学习方法实现分类;
对多源异构大数据的定性数据采用文本语义挖掘方法获取量化特征,再采用支持向量机或度量学习方法实现分类;
对分类后的结果进行编码实现多源异构大数据的关联。
所述农业面源污染多源异构大数据的定量数据包括污染监测点数据、遥感栅格数据、线和面矢量基础地理数据以及图像和视频多源异构数据;所述农业面源污染多源异构大数据的定性数据包括统计调查数据和文本数据等数据中不能定量表示的其他数据。
所述多源异构大数据采用最小二乘孪生支持向量机分类方法或基于Cayley-Klein度量学习的分类方法实现分类。
所述最小二乘孪生支持向量机(LSTSVM)分类方法对面源污染多源异构大数据进行分类的具体步骤如下:
以如下两个约束优化问题表示LSTSVM模型:
s.t -(K(B,MT)w1+e2b1+y2=e2
s.t -(K(A,MT)w2+e1b2+y1=e1
其中,和分别表示m1个某待分类数据训练样本和m2个其他类型训练样本,n是样本的维数,K(·,·)是核函数,e1和e2为相应维数的单位向量,C1和C2为惩罚系数,MT=[ATBT],wk和bk为最优超平面参数,k=1,2,y1和 y2表示误差量;
把约束条件代入目标函数可以求得:
其中,H=[K(A,MT)e1],Q=[K(B,MT)e2]
由此可得超平面方程:
K(xT,MT)w1+b1=0
K(xT,MT)w2+b2=0
上述两个超平面分别对应一类训练样本,判断一个新样本x∈Rn为类i的决策函数如下:
基于LSTSVM分类方法,采用两两二分类再采用投票法确定最终类别的思想,如果上述函数的值为k=1,则新样本属于第1类,如果该函数的值为k= 2,则新样本属于第2类。
所述基于Cayley-Klein度量学习的分类方法对面源污染多源异构大数据进行分类的具体步骤如下:
Cayley-Klein度量学习问题可被表述为:给定训练样本数据,寻找一个 Cayley-Klein度量矩阵使得相应的度量在某种学习准则下是最优的,因此, Cayley-Klein度量学习问题,首先需要根据特定的任务建立Cayley-Klein度量学习准则,其次是通过求解非线性优化获得最优的Cayley-Klein度量矩阵,给定一个对称正定矩阵G,其在Cayley-Klein度量中的双线性形式表示为:
椭圆Cayley-Klein度量为:
xi表示第i个样本,xj表示第j个样本,k是一个给定的常数。
借鉴ν支持向量机方法,使相同类数据点之间的Cayley-Klein度量较小而不同类数据点之间的Cayley-Klein度量较大,给出如下的Cayley-Klein度量学习的优化模型:
subject to (a)dCK(xi,xl)-dCK(xi,xj)≥ρ-ζijl
(b)ζijl≥0,ρ≥0
(c)G>0
式中,符号j→i表示xj和xi是属于相同类别的数据点,目标函数的第一项惩罚输入样本与其相同类样本间的较大距离,第二项中的ν控制误分类样本点的比例,第三项是惩罚异类样本间的较小距离,μ为平衡常数;ζijl表示误差,l 表示与i不同类别,ρ表示误差控制量。
为了确保G的对称性,令G=LTL,L∈R(n+1)×(n+1),将约束加到目标函数中,令ζijl(L,ρ)=[ρ+dCK(xi,xj)-dCK(xi,xl)]+,如果z≥0,[z]+=z;如果z<0,[z]+=0,有:
这里,ε(L,ρ)是相对于L和ρ的函数,R表示实数集合,n是数据的维数。
用记号Cij=(xi T,1)T(xj T,1),有:
σ(xi,xj)=tr(CijG)=tr(Cij(LTL))
得到目标函数第t次迭代的梯度为:
其中
为了提高迭代效率,利用小批量随机梯度下降算法求解上述优化问题,在每次迭代时,只选取其中的b个样本更新梯度值,b远小于样本总数N,收敛后, G由G=LTL得到;小批量随机梯度下降算法求解的步骤如下:
输入:训练样本数据,步长为η
输出:Cayley-Klein度量矩阵G
(1)初始化:G0=G+;
(2)计算L:G=LTL;
(3)随机选取b个样本,获得该b个样本的的梯度值;
(4)令Gt+1:Gt=LT(t+1)L(t);
(5)重复步骤(3)(4),直到收敛,或达到停止准则;
(6)返回G=LTL,结束;
η表示迭代步长、表示求梯度函数。获得Cayley-Klein度量矩阵G后,对于一个待分类样本,利用度量矩阵G求得该样本和已知类别的样本之间的 Cayley-Klein距离,距离最小的那个类别即最终的分类结果。
本发明可采用基于深度学习的生成式自动文摘方法,抽取定性数据中的属性信息,采用支持向量机或度量学习方法实现定性数据的分类。
本发明还提供了一种农业面源污染大数据监管平台,包括:
数据采集模块,采集农业面源污染多源异构大数据;
数据关联模块,采用所述基于属性分类的农业面源污染多源异构大数据关联方法对数据采集模块采集的数据进行关联;
数据库,存储所述数据关联模块关联的数据
检索模块,根据关联关系检索数据;
监测模块,将检索到的数据与预设阈值进行比较,当不在阈值范围内,则输出报警。
所述农业面源污染大数据监管平台,还可包括:
编码模块,构建树状结构编码,将分类结果进行量化编码。
所述农业面源污染大数据监管平台,还可包括:
数据爬取模块,根据关键词自动爬取数据,并将爬取数据按照编码反馈至监测模块,由监测模块实现实时监控。
与现有技术相比,本发明的有益效果是:
1、本发明基于农业面源污染中的土壤污染属性,利用支持向量机、度量学习等人工智能算法对多源异构定量/定性数据进行分类,可实现农业面源污染多源异构大数据的快速标注。
2、本发明构建土壤污染属性树状结构编码,对分类结果进行量化编码,实现不同种类、不同内容、结构松散的定量和定性数据的高效关联。
3、本发明构建农业面源污染大数据监管平台,基于所述的关联方法实现数据关联,大大优化了检索,便于利用爬取模块实时监测数据。
附图说明
图1是本发明数据关联方法的流程图。
图2是本发明土壤污染属性编码示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
通过分析引起农业面源污染的主要类型,对农业面源污染监测工程应用中采集的点位数据(比如:带有经纬度坐标的Zn、Fe、Cu、Mn、Cd、Cr土壤等重金属数据;有机质、水解氮、有效磷、缓效钾、速效钾等土壤养分数据,数据格式为*.xls或*.txt)、遥感栅格数据(比如:国产HJ-1A/B/C、GF-1/2、美国Landsat系列卫星和无人机拍摄的多源遥感影像,数据格式为带地理坐标的 *.tiff格式)、点/线/面地理信息矢量数据(比如:省、市、县等行政区划数据,数据格式为*.shp格式)、图像(农业物联网拍摄的高清图像,数据格式为 *.jpg)、视频(农业物联网拍摄的视频,数据格式为*.avi)等多源异构定量数据采用LSTSVM支持向量机、Cayley-Klein度量学习等方法实现分类,将其归为土壤污染等级、土壤污染指数、土壤PH值、重金属类别、土壤性质、土壤用途。
对农业面源污染工程应用中获取的种植业地块调查、畜禽养殖业调查、水产养殖业调查、农村生活污染源调查等定性调查数据(数据格式为*.doc或者 *.pdf),采用文本语义挖掘方法获取量化特征,再采用LSTSVM支持向量机、 Cayley-Klein度量学习等方法实现分类,将其归为土壤污染等级、土壤污染指数、土壤PH值、重金属类别、土壤性质、土壤用途。
如图1所示,一种基于属性分类的农业面源污染多源异构大数据关联方法,包括如下步骤:
(1)最小二乘孪生支持向量机分类方法
支持向量机是一种基于统计学习理论的机器学习方法,和神经网络相比,其解决了高维问题和局部最小值问题,具有更好的泛化能力。Jayadeva等提出孪生支持向量机(Twin Support Vector Machine,TWSVM),它通过求解两个规模较小的二次规划问题,对大规模不均衡数据具有很好的处理能力,并且可以获得具有更强鲁棒性的最优超平面,有效提高分类精度。利用最小二乘孪生支持向量机(Least Squares Twin Support VectorMachine,LSTSVM)算法对农业面源污染多源异构大数据进行分类。
LSTSVM的模型可表示为下面两个约束优化问题:
s.t -(K(B,MT)w1+e2b1+y2=e2
s.t -(K(A,MT)w2+e1b2+y1=e1
其中,和分别表示m1个某待分类数据训练样本和m2个其他类型训练样本,n是样本的维数,K(·,·)是核函数,e1和e2为相应维数的单位向量,C1和C2为惩罚系数,MT=[ATBT],wk和bk(k=1,2)为最优超平面参数,y1和 y2表示误差量。
把约束条件带入目标函数可以求得
其中,H=[K(A,MT)e1],Q=[K(B,MT)e2]
由此可得超平面方程:
K(xT,MT)w1+b1=0
K(xT,MT)w2+b2=0
上述两个超平面分别对应一类训练样本,判断一个新样本x∈Rn为类i的决策函数如下:
根据决策函数得到的计算结果归为土壤污染等级、土壤污染指数、土壤 PH值、重金属类别、土壤性质、土壤用途等类型。
(2)基于Cayley-Klein度量学习的分类方法
凯莱-克莱因度量学习问题可被表述为:给定训练样本数据,寻找一个凯莱 -克莱因度量矩阵使得相应的度量在某种学习准则下是最优的。因此,凯莱-克莱因度量学习问题。首先需要根据农业面源污染多源异构数据与土壤污染等级、土壤污染指数、土壤PH值、重金属类别、土壤性质、土壤用途等类型建立凯莱-克莱因度量学习准则,其次是通过求解非线性优化获得最优的凯莱-克莱因度量矩阵。
给定一个对称正定矩阵G,其在凯莱克莱因度量中的双线性形式可以表示为:
椭圆凯莱克莱因度量为:
借鉴ν支持向量机方法,使相同类数据点之间的Cayley-Klein度量较小而不同类数据点之间的Cayley-Klein度量较大,给出如下的Cayley-Klein度量学习的优化模型:
subject to (a)dCK(xi,xl)-dCK(xi,xj)≥ρ-ζijl
(b)ζijl≥0,ρ≥0
(c)G>0
式中,符号j→i表示xj和xi是属于相同类别的数据点,目标函数的第一项惩罚输入样本与其相同类样本间的较大距离,第二项中的ν控制误分类样本点的比例,第三项是惩罚异类样本间的较小距离,μ为平衡常数。
为了确保G的对称性,令G=LTL,,这里L∈R(n+1)×(n+1)。将约束加到目标函数中,令ζijl(L,ρ)=[ρ+dCK(xi,xj)-dCK(xi,xl)]+,这里如果z≥0,[z]+=z;如果z<0, [z]+=0有:
这里,ε(L,ρ)是相对于L和ρ的函数,
用记号Cij=(xi T,1)T(xj T,1),有:
σ(xi,xj)=tr(CijG)=tr(Cij(LTL))
可以得到目标函数第t次迭代的梯度为:
这里
为了提高迭代效率,利用小批量随机梯度下降算法求解上述优化问题。假设样本总数为N,在每次迭代时,只选取其中的b个样本更新梯度值,这里的b 远小于样本总数N。收敛后,G可以由G=LTL得到。
小批量随机梯度下降算法求解的步骤如下:
输入:训练样本数据,步长为η
输出:Cayley-Klein度量矩阵G
(1)初始化:G0=G+;
(2)计算L:G=LTL;
(3)随机选取b个样本,获得该b个样本的的梯度值;
(4)令Gt+1:Gt=LT(t+1)L(t);
(5)重复步骤(3)(4),直到收敛,或达到停止准则;
(6)返回G=LTL,结束。
构建图2所示的土壤污染属性树状结构编码,对分类结果添加具体的量化编码实现农业面源污染多源异构大数据与土壤污染属性的快速关联。
本发明在实现关联之后,可服务于农业面源污染多源异构大数据的高效管理,尤其对于定性数据的分类和关联,可解决当前农业面源污染数据库管理系统的数据管理低效、共享性差和系统服务能力弱等问题,最终为农业面源污染时空大数据平台研发提供高效的数据关联方法。例如,可应用于构建农业面源污染大数据监管平台,本发明中,该平台包括:
数据采集模块,采集农业面源污染多源异构大数据,实际应用中,可在服务器直接接入各数据采集设备的数据输出端,获取数据;
数据关联模块,采用所述基于属性分类的农业面源污染多源异构大数据关联方法对数据采集模块采集的数据进行关联,实际应用中,该模块是设置在服务器中的虚拟模块,从服务器的数据输入端获取各类数据,然后应用所述的关联方法,对数据分类关联;
数据库,存储所述数据关联模块关联的数据,实际应用中,数据库在服务器的存储区;
检索模块,根据关联关系检索数据,实际应用中,检索模块一般采取主动检索,即,设置检索项,由用户根据类别在不同的检索项中进行检索;当然也可采用被动检索,即,设置关键检索项,由系统不间断获取数据库中新存入的数据;
监测模块,将检索到的数据与预设阈值进行比较,当不在阈值范围内,则输出报警。
当在平台中设置编码模块,编码模块基于图2的形式,构建树状结构编码,将分类结果进行量化编码,该特征下,将利于被动检索的实现。
当在平台中设置数据爬取模块,数据爬取模块根据关键词自动爬取数据,并将爬取数据按照编码反馈至监测模块,由监测模块实现实时监控。该特征实质上是被动检索的一种。
Claims (9)
1.一种基于属性分类的农业面源污染多源异构大数据关联方法,其特征在于,包括如下步骤:
判断农业面源污染多源异构大数据属于定量数据还是定性数据;
对多源异构大数据的定量数据采用支持向量机或度量学习方法实现分类;
对多源异构大数据的定性数据采用文本语义挖掘方法获取量化特征,再采用支持向量机或度量学习方法实现分类;
对分类后的结果进行编码实现多源异构大数据的关联。
2.根据权利要求1所述农业面源污染多源异构大数据关联方法,其特征在于,所述农业面源污染多源异构大数据的定量数据包括污染监测点数据、遥感栅格数据、线和面矢量基础地理数据以及图像和视频多源异构数据;所述农业面源污染多源异构大数据的定性数据包括统计调查数据和文本数据等数据中不能定量表示的其他数据。
3.根据权利要求1所述农业面源污染多源异构大数据关联方法,其特征在于,所述多源异构大数据采用最小二乘孪生支持向量机分类方法或基于Cayley-Klein度量学习的分类方法实现分类。
4.根据权利要求3所述农业面源污染多源异构大数据关联方法,其特征在于,所述最小二乘孪生支持向量机(LSTSVM)分类方法对面源污染多源异构大数据进行分类的具体步骤如下:
以如下两个约束优化问题表示LSTSVM模型:
s.t-(K(B,MT)w1+e2b1+y2=e2
s.t-(K(A,MT)w2+e1b2+y1=e1
其中,和分别表示m1个某待分类数据训练样本和m2个其他类型训练样本,n是样本的维数,K(·,·)是核函数,e1和e2为相应维数的单位向量,C1和C2为惩罚系数,MT=[ATBT],wk和bk为最优超平面参数,k=1,2,y1和y2表示误差量;
把约束条件代入目标函数可以求得:
其中,H=[K(A,MT)e1],Q=[K(B,MT)e2]
由此可得超平面方程:
K(xT,MT)w1+b1=0
K(xT,MT)w2+b2=0
上述两个超平面分别对应一类训练样本,判断一个新样本x∈Rn为类i的决策函数如下:
基于LSTSVM分类方法,采用两两二分类再采用投票法确定最终类别的思想,如果上述函数的值为k=1,则新样本属于第1类,如果该函数的值为k=2,则新样本属于第2类。
5.根据权利要求3所述农业面源污染多源异构大数据关联方法,其特征在于,所述基于Cayley-Klein度量学习的分类方法对面源污染多源异构大数据进行分类的具体步骤如下:
Cayley-Klein度量学习问题可被表述为:给定训练样本数据,寻找一个Cayley-Klein度量矩阵使得相应的度量在某种学习准则下是最优的,因此,Cayley-Klein度量学习问题,首先需要根据特定的任务建立Cayley-Klein度量学习准则,其次是通过求解非线性优化获得最优的Cayley-Klein度量矩阵,给定一个对称正定矩阵G,其在Cayley-Klein度量中的双线性形式表示为:
椭圆Cayley-Klein度量为:
xi表示第i个样本,xj表示第j个样本,k是一个给定的常数。
借鉴ν支持向量机方法,使相同类数据点之间的Cayley-Klein度量较小而不同类数据点之间的Cayley-Klein度量较大,给出如下的Cayley-Klein度量学习的优化模型:
subject to(a)dCK(xi,xl)-dCK(xi,xj)≥ρ-ζijl
(b)ζijl≥0,ρ≥0
(c)G>0
式中,符号j→i表示xj和xi是属于相同类别的数据点,目标函数的第一项惩罚输入样本与其相同类样本间的较大距离,第二项中的ν控制误分类样本点的比例,第三项是惩罚异类样本间的较小距离,μ为平衡常数;ζijl表示误差,l表示与i不同类别,ρ表示误差控制量。
为了确保G的对称性,令G=LTL,L∈R(n+1)×(n+1),将约束加到目标函数中,令ζijl(L,ρ)=[ρ+dCK(xi,xj)-dCK(xi,xl)]+,如果z≥0,[z]+=z;如果z<0,[z]+=0,有:
这里,ε(L,ρ)是相对于L和ρ的函数,R表示实数集合,n是数据的维数。
用记号Cij=(xi T,1)T(xj T,1),有:
σ(xi,xj)=tr(CijG)=tr(Cij(LTL))
得到目标函数第t次迭代的梯度为:
其中
为了提高迭代效率,利用小批量随机梯度下降算法求解上述优化问题,在每次迭代时,只选取其中的b个样本更新梯度值,b远小于样本总数N,收敛后,G由G=LTL得到;小批量随机梯度下降算法求解的步骤如下:
输入:训练样本数据,步长为η
输出:Cayley-Klein度量矩阵G
(1)初始化:G0=G+;
(2)计算L:G=LTL;
(3)随机选取b个样本,获得该b个样本的的梯度值;
(4)令L(t+1)=L(t)-η▽Lε(L,ρ),Gt+1:Gt=LT(t+1)L(t);
(5)重复步骤(3)(4),直到收敛,或达到停止准则;
(6)返回G=LTL,结束;
η表示迭代步长、▽L表示求梯度函数。获得Cayley-Klein度量矩阵G后,对于一个待分类样本,利用度量矩阵G求得该样本和已知类别的样本之间的Cayley-Klein距离,距离最小的那个类别即最终的分类结果。
6.根据权利要求1所述农业面源污染多源异构大数据关联方法,其特征在于,采用基于深度学习的生成式自动文摘方法,抽取定性数据中的属性信息,采用支持向量机或度量学习方法实现定性数据的分类。
7.一种农业面源污染大数据监管平台,其特征在于,包括:
数据采集模块,采集农业面源污染多源异构大数据;
数据关联模块,采用权利要求1所述基于属性分类的农业面源污染多源异构大数据关联方法对数据采集模块采集的数据进行关联;
数据库,存储所述数据关联模块关联的数据
检索模块,根据关联关系检索数据;
监测模块,将检索到的数据与预设阈值进行比较,当不在阈值范围内,则输出报警。
8.根据权利要求7所述农业面源污染大数据监管平台,其特征在于,还包括:
编码模块,构建树状结构编码,将分类结果进行量化编码。
9.根据权利要求8所述农业面源污染大数据监管平台,其特征在于,还包括:
数据爬取模块,根据关键词自动爬取数据,并将爬取数据按照编码反馈至监测模块,由监测模块实现实时监控。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910316918.XA CN110196886A (zh) | 2019-04-19 | 2019-04-19 | 农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910316918.XA CN110196886A (zh) | 2019-04-19 | 2019-04-19 | 农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110196886A true CN110196886A (zh) | 2019-09-03 |
Family
ID=67752117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910316918.XA Pending CN110196886A (zh) | 2019-04-19 | 2019-04-19 | 农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110196886A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110514246A (zh) * | 2019-09-12 | 2019-11-29 | 河南融科实业有限公司 | 一种县域面源污染在线监测与预警方法 |
CN111813964A (zh) * | 2020-09-14 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 基于生态环境的数据处理方法及相关设备 |
CN111985222A (zh) * | 2020-08-24 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 文本关键词识别方法及相关设备 |
CN117220826A (zh) * | 2023-07-06 | 2023-12-12 | 华中农业大学 | 一种基于语义通信的农业物联网感知数据预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120197896A1 (en) * | 2008-02-25 | 2012-08-02 | Georgetown University | System and method for detecting, collecting, analyzing, and communicating event-related information |
CN108287926A (zh) * | 2018-03-02 | 2018-07-17 | 宿州学院 | 一种农业生态多源异构大数据采集、处理与分析架构 |
CN108596224A (zh) * | 2018-04-12 | 2018-09-28 | 清华大学 | 基于半监督学习的孪生超限学习机分类的数据处理方法 |
-
2019
- 2019-04-19 CN CN201910316918.XA patent/CN110196886A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120197896A1 (en) * | 2008-02-25 | 2012-08-02 | Georgetown University | System and method for detecting, collecting, analyzing, and communicating event-related information |
CN108287926A (zh) * | 2018-03-02 | 2018-07-17 | 宿州学院 | 一种农业生态多源异构大数据采集、处理与分析架构 |
CN108596224A (zh) * | 2018-04-12 | 2018-09-28 | 清华大学 | 基于半监督学习的孪生超限学习机分类的数据处理方法 |
Non-Patent Citations (3)
Title |
---|
唐翠翠: "基于多源遥感数据的小麦病虫害大尺度监测预测研究", 《中国优秀硕士学位论文全文数据库》 * |
李敏: "基于度量学习的视频中群体行为识别算法研究", 《中国优秀硕士学位论文全文数据库》 * |
胡根生 等: "结合HJ卫星影像和最小二乘孪生支持向量机的小麦蚜虫遥感监测", 《 浙江大学学报(农业与生命科学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110514246A (zh) * | 2019-09-12 | 2019-11-29 | 河南融科实业有限公司 | 一种县域面源污染在线监测与预警方法 |
CN111985222A (zh) * | 2020-08-24 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 文本关键词识别方法及相关设备 |
CN111985222B (zh) * | 2020-08-24 | 2023-07-18 | 平安国际智慧城市科技股份有限公司 | 文本关键词识别方法及相关设备 |
CN111813964A (zh) * | 2020-09-14 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 基于生态环境的数据处理方法及相关设备 |
CN117220826A (zh) * | 2023-07-06 | 2023-12-12 | 华中农业大学 | 一种基于语义通信的农业物联网感知数据预测方法 |
CN117220826B (zh) * | 2023-07-06 | 2024-04-19 | 华中农业大学 | 一种基于语义通信的农业物联网感知数据预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110196886A (zh) | 农业面源污染多源异构大数据关联方法及采用该方法的大数据监管平台 | |
CN111723657B (zh) | 一种基于YOLOv3与自优化的河道异物检测方法及装置 | |
US20230131178A1 (en) | Water circulation intelligent sensing and monitoring system based on differentiable reasoning | |
CN112990558B (zh) | 一种基于深度迁移学习的气象温度、光照的预测方法 | |
CN116186594B (zh) | 基于决策网络结合大数据实现环境变化趋势智能检测方法 | |
CN117540908B (zh) | 基于大数据的农业资源整合方法和系统 | |
CN113849542A (zh) | 基于人工智能的区域温室气体排放清单核算系统与方法 | |
CN113049509B (zh) | 一种基于光谱技术的农产品检测管理系统 | |
CN111178680A (zh) | 风电场工程质量全过程管理系统、方法及设备 | |
CN116257792B (zh) | 一种智慧城市碳中和数据分析系统 | |
CN113220911A (zh) | 一种农业多源异构数据的分析与挖掘方法及其应用 | |
CN117575171B (zh) | 一种基于数据分析的粮食形势智能评估系统 | |
CN117077005B (zh) | 一种城市微更新潜力的优化方法和系统 | |
CN116957356B (zh) | 一种基于大数据的景区碳中和管理方法和系统 | |
CN112015937B (zh) | 一种图片地理定位方法及系统 | |
CN113656868A (zh) | 基于bim技术的医院建设协同管理平台 | |
CN109242039A (zh) | 一种基于候选标记估计的未标记数据利用方法 | |
CN113344247B (zh) | 一种基于深度学习的电力设施选址预测方法与系统 | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
Gorricha et al. | A framework for exploratory analysis of extreme weather events using geostatistical procedures and 3D self-organizing maps | |
CN114494850A (zh) | 一种村庄无人居住院落智能识别方法及系统 | |
CN118012977B (zh) | 一种基于ai与gis融合的二三维多模态数据处理方法 | |
CN111046785A (zh) | 一种基于卷积神经网络的无人机巡检视频关键目标识别的方法 | |
CN111259912A (zh) | 一种基于ae-svm变电站巡检机器人的仪表图像识别方法 | |
Du et al. | Mining multicity urban data for sustainable population relocation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190903 |
|
RJ01 | Rejection of invention patent application after publication |