CN113220911A - 一种农业多源异构数据的分析与挖掘方法及其应用 - Google Patents

一种农业多源异构数据的分析与挖掘方法及其应用 Download PDF

Info

Publication number
CN113220911A
CN113220911A CN202110571909.2A CN202110571909A CN113220911A CN 113220911 A CN113220911 A CN 113220911A CN 202110571909 A CN202110571909 A CN 202110571909A CN 113220911 A CN113220911 A CN 113220911A
Authority
CN
China
Prior art keywords
data
heterogeneous data
source heterogeneous
agricultural
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110571909.2A
Other languages
English (en)
Other versions
CN113220911B (zh
Inventor
杨晨雪
孙志国
王亚丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Information Institute of CAAS
Original Assignee
Agricultural Information Institute of CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Information Institute of CAAS filed Critical Agricultural Information Institute of CAAS
Priority to CN202110571909.2A priority Critical patent/CN113220911B/zh
Publication of CN113220911A publication Critical patent/CN113220911A/zh
Application granted granted Critical
Publication of CN113220911B publication Critical patent/CN113220911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Agronomy & Crop Science (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Animal Husbandry (AREA)
  • Mining & Mineral Resources (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种农业多源异构数据的分析与挖掘方法:S1、农业多源异构数据管理;S2、建立多源异构数据表达机制,对多源异构数据建立统一表征,其具体过程包括:S2‑1、语义对象网络构建及动态管理更新;S2‑2、对多源异构数据进行多模态内容表示并对其分类标注实现联合学习;S3、多源异构数据对象建模的关联协同及关联数据对象迁移。本方案通过农业数据的深度分析、挖掘实现了现实应用需要,用户随时随地可以对农场进行高度智能化管理,并对农场生产环境进行精准监测和控制;此外,本申请为无人农场继续发挥科技在农业标准化、信息化、智能化等领域提供技术保障,促进我国农业科技和信息化水平的提升。

Description

一种农业多源异构数据的分析与挖掘方法及其应用
技术领域
本申请技术方案涉及数据挖掘和机器学习技术领域,特别是在农业领域,针对无人农场中各类传感器、RFID、GPS定位、视觉采集终端等感知设备所获取的多源异构大数据实现分析与挖掘的方法,从而实现对农场的高度智能化管理、远程环境监控监测、问题预警、智能决策支持等功能,即,一种农业多源异构数据的分析与挖掘方法及其应用。
背景技术
我国是一个农业大国,农业更是是国民经济的基础,随着信息技术和数据技术的发展,农业信息化已经成为农业发展的必然趋势。伴随着物联网、互联网、大数据、云计算、5G、人工智能等现代信息技术在农业领域的广泛应用,以“信息+知识+智能装备”为特征的数字化农业的落地已成为可能并逐渐实现。在农业活动中,全面打造‘无人化’的智慧农场是我国构建数字农业的关键。
‘无人化’的智慧农场,是以第五代移动通信技术为依托,通过建立移动5G网络和控制平台,整合现代农艺和农机装备、无人机、农业机器人、自动驾驶车、人工智能、物联网、大数据、云计算等产品及技术进行全方位的农情信息数据采集,精确完成各类农机自动驾驶和远程操控,创建和实现“智能化农机、无人化农机”的生产状态。“智慧农业”方案已在创业农场的农业生产中贯穿整地、插秧、智能灌溉、田间管理、收获、生产管理等各个作业环节,促成无人农场变为现实。
在无人农场的生产、管理中,最重要的就是各种数据信息,而各种数据信息经过不同渠道获取后具有多种形式,即,无人农场的数据具有多源、异构数据的形式和特点。异构形式即多源异构数据由不同来源产生,表现形式复杂,结构迥异,属性复杂,存在大量噪声和信息缺失现象,不同数据域的信息体量不均衡且差异明显,数据间的关系难以直接度量。例如,无人农场采集的航拍视频信息、环境监测信息、以及不同传感器信息。
多源异构大数据的特性使得其内在的丰富信息和知识很难从其原始数据形式中直接获得。在数据分析和挖掘等相关研究领域,科学家和工程师们一般用DIKW体系来指导数据分析和处理技术的研发过程,即“数据(Data)→信息(Information)→知识(Knowledge)→智慧(Wisdom)”,层层递进,后一层比前一层更具有显性的知识表达,更加接近人类的高层认知。然而,由于传统研究方法往往采用批量学习和顺序处理等模式,假设不同数据域的数据独立同分布产生,忽略数据自身内蕴的多源异构性、跨域复杂关联和结构上下文等特性,缺乏数据对象之间的相互校准机制,未能构建合理的系统反馈过程,从而不能适应无人农场中海量多源异构数据建模分析需要。
此外,在农业信息化生产管理中,研究如何基于5G通过现场部署多种传感器、水泵、智能喷灌机、电动闸阀、视频监控、太阳能供电等设备获取的多源异构数据,并结合智能喷灌技术、水肥水药一体化技术、综合智能化管理技术,实现对农场的高度智能化管理、作物长势及土壤墒情自动监测、大数据分析等,是一个重大挑战。
发明内容
本申请技术方案的目的就是提出一种面向无人农场所获取的多源异构数据实现分析与挖掘方法。为了解决无人农场多种感知设备产生的多源异构数据的异构形式、复杂关联等问题,提出面向无人农场多源异构数据的统一表征与关联协同方法,为无人农场发挥科技在农业标准化、信息化、智能化等领域提供技术保障,促进我国农业科技和信息化水平的提升。
为实现上述发明目的,本申请采用如下技术方案:一种农业多源异构数据的分析与挖掘方法,该方法包括下述数据处理内容:S1、农业多源异构数据管理,该过程利用数据采集设备获得农业相关信息,并将该信息通过无线网络通信存储至多源异构数据的网络数据库中;S2、建立多源异构数据表达机制,对多源异构数据建立统一表征;其具体过程包括:S2-1、语义对象网络构建及动态管理更新:根据多源异构数据的语义概念及相互关系进行层次化组织,形成了动态变化的层次化(树)语义概念结构;S2-2、对多源异构数据进行多模态内容表示并对其分类标注实现联合学习;S3、多源异构数据对象建模的关联协同,包括同一数据域内数据对象间的关联、不同数据域内的数据对象关联及跨数据域的关联数据对象迁移。上述方法中,步骤S1是直接农业多源异构数据的获取和直接存储,将原始数据通过不同无线传感设备采集,利用移动网络上传服务器中,任何经过授权的用户都可以访问和查询原始的信息数据,同时这些数据也是后续进行分析、挖掘的基础。在对多源异构数据的分析、挖掘时,S2所建立的多源异构数据表达机制及其统一表征为后续农场多源异构数据的关联与协同计算奠定了坚实基础。此过程中的S2-1首次提出了利用多源异构数据的语义概念及相互关系进行层次化组织的方法,同时对数据采用多模态内容表示及结合其分类标注实施自主学习的机器学习算法,该方法解决了多源数据在自动更新、收集后的分类和组织构建问题,提高了数据自主分类、关联的灵活性。作为本申请方案的核心步骤S3,通过数据间的关联、协同将不同数据区域的信息完全实现了融合及迁移,解决了信息关联性问题。本方案通过农业数据的深度分析、挖掘满足了现实应用需要,研究结论和成果将有望推动数字农业方法的实用化水平。用户随时随地通过电脑或手机APP就可以实现对农场的高度智能化管理,并对农场生产环境进行精准监测和控制。例如,远程灌溉农作物、大田种植、作物长势土壤墒情监测、病虫害防治、禽畜养殖、农业机器人和问题预警等。此外,本申请为无人农场继续发挥科技在农业标准化、信息化、智能化等领域提供技术保障,促进我国农业科技和信息化水平提升。
为了保证多源异构数据收集的完整性和全面性,在S1中,农业相关信息的数据包括但不限于图像数据、环境监测数据、空间位置数据。并且任何授权后的客户均可以访问S1中所形成的数据库,实现数据信息的互联、互动展示、查询和管理。
上述S2-1中,语义对象网络构建过程为:建立语义对象集合之间的多模态相似度计算,即将具有语义概念的图像、文本分别进行组织,计算概念对象之间的平均视觉相似度和文本相似度,结合实际信息内容多标注现象和语义不确定性现象,得到语义概念之间的共生相似度,再通过不同相似度的加权融合,得到了语义对象网络结构,该语义对象网络结构呈现稀疏联通结构;当出现新的语义概念时,对异构数据动态演化,通过数据的自动抓取和动态语义网络增长过程实现数据的搜集和分析,这里的动态语义网络增长过程就是建立基于稀疏编码和内容相似度建模的相似度权值内插计算,基于异构数据计算的内容相似度,利用相关语义概念节点来重建新的节点,并通过重建系数和内容相似度的加权融合计算新的概念节点和已有语义网络节点的相似度。这种予以对象网络构建过程对不同信息之间的相似度实现了数学上的表征,能够达到准确构建不同信息关联性的目的。S2-2中对多源异构数据进行多模态内容表示时,采用组敏感的多视角融合学习方法,其具体是将异构数据划分为多个具有相同内容的数据组,这些数据组共享一致的模型参数,将不同的融合权重系数加到不同数据组上,并对异构数据集合进行聚类学习,在聚类的过程中同时学习聚类输出结果和所有组的信息表达权重系数。S2-2对多源异构数据进行分类标注采用了多视角异构表示与分类标注联合学习方法,其步骤包括:(1)使用异构数据的语义信息作为指导对异构数据的多视角结构信息进行增强,使得所保留的内在结构信息更加准确可靠,这里给的图像各个视角结构信息矩阵Wh,H为视角数,h为某一视角,γ和η是根据实际选定的系数,标签信息矩阵Ws以及图像-标签矩阵T,通过如下目标函数学习得到高维异构数据的子空间表示Z,
Figure BDA0003082886450000041
s.t.ZTZ=I ;
上述公式运算的含义为:减小子空间Z与最不符合的视角之间的差异,从而减小子空间与各个视角之间的不一致性,使其能够更加充分的融合多视角信息;(2)利用异构数据的标签训练SVM分类器进行标签预测,并根据所学的分类器来指导子空间Z的学习,从而进一步提高子空间判别力,这里的SVM分类器核函数为线性核函数K=ZZT,其目标函数为:
Figure BDA0003082886450000051
Figure BDA0003082886450000052
其中α是SVM的拉格朗日乘子,Y是图像的标签信息矩阵,Z是图像表示矩阵,通过优化上述目标函数得到各个标签SVM预测器,同时也能够使得Z更加符合图像的标签预测结果;(3)新的异构数据进行表示学习,引入线性投影矩阵P把新来的图像投影到所学子空间Z中,使用学习得到的SVM分类器对其进行标签预测,这里的投影矩阵采用组稀疏约束,克服多视角数据中信息冗余与噪声影响,其目标函数为:
Figure BDA0003082886450000053
(4)综上述(1)(2)(3)通过总的优化目标函数
Figure BDA0003082886450000054
这里的μ1,μ2为权重参数,分别调节第二个和第三个子问题的权重学习得到的更加准确有效的异构数据表达。上述模型学习过程,通过融合三个目标(目标1是使用异构数据的语义信息作为指导对异构数据的多视角结构信息进行增强,目标2是利用异构数据的标签训练SVM分类器进行标签预测,并根据所学的分类器来指导子空间Z的学习,从而进一步提高子空间的判别力,目标3是新来的异构数据进行表示学习)建立统一关联的目标函数,经过学习后达到满足三个目标的异构数据表达。
上述S3中实现数据对象关联采用的方法为基于属性分析和结构匹配的跨数据域对象链接方法,具体过程为:通过属性匹配和特征相似度计算方式,构建跨数据域对象的一系列候选链接对,从而将对象链接问题转化为候选链接数据对的二分问题,正类即为被正确链接,负类为错误链接;在对象初步匹配时,将具有高度匹配度的对象作为正匹配数据对,并随机选取一部分匹配数据对作为负匹配数据对,并以此来构建统计学习模型进行对象链接判别函数学习,基于上述候选匹配对象对集合,根据判别原则、全局结构一致性最大化和局部结构一致性最大化达到对象链接判别函数学习目的,这里的局部结构一致性原则由两个数据域内的同一类型数据对象相似度结构信息所表示,全局结构一致性原则由两个数据域内的不同类型的数据对象相似度结构信息所表示,关联数据对象迁移采用如下模型,基于流形对齐和矩阵因子化方法,对数据域B中的关联进行迁移学习,首先通过统计分析方法,获取数据域B中的对象关联的部分观测值,接下来,通过矩阵因子化方法,对数据域B中的关联进行因子化学习和关联估计,假定数据域A中的对象关联用矩阵CA表示,数据域B中的对象关联用CB,则关联迁移学习框架表示为:
Figure BDA0003082886450000061
其中CB∩A表示在数据域B中与数据域A中匹配成功的数据对象,Ω表示的是对因子矩阵U和V的约束项,这里的λ、β1及β2均为实际计算中选择的系数。上述基于对象的关联迁移学习框架的优点,是能够有效利用源数据域的丰富信息,增强在稀疏关系域的对象关联关系的因子化建模,提高目标数据域缺失关联的恢复能力。
本申请方法获得的多源异构数据间的关联关系应用但不限于农业大田种植、作物长势土壤墒情监控、农作物病虫害防治、禽畜养殖、农业机械及机器人管理及农业问题预警分析农业技术领域。
附图说明
图1本技术方案的农业多源异构数据分析与挖掘方法流程示意图;
图2是语义对象网络构建及动态管理示意图;
图3是多视角异构表示示意图;
图4是多模态内容表示并对其分类标注实现联合学习框架示意图;
图5是跨域对象关联协同及迁移框架示意图。
具体实施方式
下面通过具体的实施例对本发明做进一步的详细描述。为了实现本农业多源异构大数据的高效知识获取,对多源异构大数据的数据管理、数据表达和对象建模的关联协同等技术进行深入研究,本申请具体执行了下列数据分析和挖掘,如图1所示:S1、农业多源异构数据管理,该过程利用数据采集设备获得农业相关信息,并将该信息通过无线网络通信存储至多源异构大数据的网络数据库中。在该步骤中,针对无人农场中各类传感器、RFID、GPS定位、视觉采集终端等感知设备获取的多源异构大数据通过数据管理、数据表达和对象建模的关联协同等技术实现农场多源异构数据的高效知识获取,如图1中,具体传感器包括卫星遥感系统、光波、红外、霍尔、GNSS、音视频、电磁传感器等不同种类和特征参数获取设备,原始数据经过筛选、过滤后分类为不同区域,高维数据区域、图数区域及其关系数据域。完成上述过程中开始进入S2、建立多源异构数据表达机制,对多源异构数据建立统一表征;其具体过程包括:S2-1、语义对象网络构建及动态管理更新:根据多源异构数据的语义概念及相互关系进行层次化组织,形成了动态变化的层次化(树)语义概念结构;S2-2、对多源异构数据进行多模态内容表示并对其分类标注实现联合学习。此过程的关键在于:构建针对无人农场多种感知设备产生的多源异构数据的数据表达机制,实现农场数据的统一表征与计算,为后续的农场多源异构大数据的关联与协同计算打下坚实基础。具体的,提出语义对象网络构建及动态管理方法,并利用语义对象网络指导无人农场多源异构大数据的模式表达学习机制研究;提出农场多模态高维数据的一致性表示学习方法,建立多模态表示学习和标注模型联合学习的处理过程。针对农业多源异构大数据的数据表达,本申请提出了语义对象网络的构建及动态管理方法。由于不同感知设备中获取的异构高维数据内容复杂,语义丰富,包含成千上万个语义概念类别(语义对象),不同的语义概念并非独立,相互之间存在多种多样的相关关系。例如,在农业摄像头采集的图像中,“小麦”和“麦子”是两个共同出现概率较高的语义概念。语义概念及相互关系对异构内容的统计建模分析具有重要的作用。在语言学研究当中,一般把常见的语义概念(实体)根据其指向对象在现实当中的一般性程度进行层次化组织,形成了诸如WordNet等的层次化(树)语义概念结构。然而,现有的语义概念组织结构是静止的、封闭的、不可更新的。由于异构高维内容不断演化,新的语义概念不断出现。所以,需要对异构内容数据的语义概念及其关系进行有效组织和管理。进行语义对象的网络构建,如图2所示,首先,在给定异构高维内容数据的语义概念对象集合及其对应的异构内容数据集合,建立语义对象集合之间的多模态相似度计算方法。例如,将具有语义概念a和b的图像、文本分别进行组织,计算概念对象a和b之间的平均视觉相似度和文本相似度。考虑到现实世界的内容多标注现象和语义不确定性等现象,得到语义概念之间的共生相似度。通过将不同的相似度进行加权融合,得到了语义概念对象网络结构。事实上,当语义对象的数量很多的情况下,得到的语义概念对象图呈现稀疏联通结构。由于异构数据动态演化,当出现新的语义概念时,可通过数据的自动抓取和本方案中动态系统过程进行搜集和分析。在原有的语义概念对象图的基础上,本方案中提出一种基于学习的动态语义网络增长方法,建立基于稀疏编码和内容相似度建模的相似度权值内插计算方法,在基于部分异构数据计算的内容相似度基础上,利用相关语义概念节点来重建新的节点,并通过重建系数和内容相似度的加权融合计算新的概念节点和已有语义网络节点的相似度。此外,根据不同的模型学习的需要,该语义网络也可以通过层次化分析方法(如层次化聚类),得到具有不同抽象级别的层次化语义网络结构。另一方面,该大规模语义网络及其层次化语义网络结构还可用于指导跨域异构数据的模式分析方法的构建。在完成语义对象网络构建及动态管理更新后,需要对多源异构数据进行多模态内容表示并对其分类标注实现联合学习。由于多源异构高维数据中的语义和知识往往由多种不同的信息进行表达。在异构数据上进行数据分析与挖掘(聚类、分类等),一般需要利用多视角融合学习的方法,它的好处在于能够有效集成不同视角的互补信息。然而,大多数现有方法都假定不同类型的信息表达是同等重要的。由于异构高维数据(如在无人农场中摄像头采集的图像)的内容多样性,所以不同的信息表达在不同的异构数据上的表达能力是不一样的。为了解决这个问题,本申请提出一种组敏感的多视角融合学习方法,如图3所示。异构数据首先被划分为多个具有相同内容的数据组,这些数据组共享一致的模型参数。将不同的融合权重系数加到不同的数据组上,并对异构数据集合进行聚类学习,并在聚类的过程中同时学习聚类输出结果和所有组的信息表达权重系数。相比现有方法,所提方法能够更好地适应异构多视角数据的特点。在对多模态数据进行分类时,通常的方法都是基于底层的特征直接进行标分类签预测。数据的表示往往与后面的学习任务是相对独立的。数据的表示与分类是两个紧密相关的任务,好的数据表示能够更准确的进行分类预测,同时所学的分类语义标签也能够指引多模态数据的表示学习。因此我们考虑将这两个任务结合起来,同时学习出多模态数据的表示及分类器,让两个任务能够相互促进,从而进一步提升分类的性能,为此本申请提出一种多视角异构表示与分类标注的联合学习方法。实现此学习过程,需要解决三个字问题,如图4所示:第一个子问题的目标是使用异构数据的语义信息作为指导对异构数据的多视角结构信息进行增强,使得所保留的内在结构信息更加准确可靠。给定图像各个视角的结构信息矩阵Wh,标签信息矩阵Ws(分别由k近邻图和标签相似度矩阵得到)以及图像-标签矩阵T,目的是学习得到高维异构数据的子空间表示Z。所提出的目标函数如下:
Figure BDA0003082886450000091
s.t.ZTZ=I
通过减小子空间Z与最不符合的视角之间的差异,从而减小子空间与各个视角之间的不一致性,使其能够更加充分的融合多视角信息,通过使用softmax activation函数找到与当前所学子空间Z最不符合的视角。上述公式中第二项的目的是将语义信息嵌入所学子空间中,提升子空间的语义性和判别性。
第二个子问题的目标是利用异构数据的标签训练SVM分类器进行标签预测,并根据所学的分类器来指导子空间Z的学习,从而进一步提高子空间的判别力。出于模型复杂性以及可靠性的考虑,这里采用的SVM的核函数为线性核函数K=ZZT。提出以下目标函数:
Figure BDA0003082886450000092
Figure BDA0003082886450000093
其中α是SVM的拉格朗日乘子,Y是图像的标签信息矩阵,Z是图像表示矩阵。通过优化以上目标函数,可以得到各个标签的SVM预测器,同时也能够使得所学到的表示Z更加符合图像的标签预测结果,从而更具有判别性。
第三个子问题的目标是对新来的异构数据进行表示学习。为此,引入线性投影矩阵P把新来的图像投影到所学的子空间Z中,然后使用学习得到的SVM分类器对其进行标签预测。由于多视角数据特征维度较高,包含一定程度的噪声和冗余信息,对投影矩阵采用组稀疏约束,克服多视角数据中信息冗余与噪声的影响。所提出的目标函数为:
Figure BDA0003082886450000101
最终,联合考虑以上三个子问题,提出总体的优化目标为:
Figure BDA0003082886450000102
其中μ1,μ2为权重参数,分别调节第二个和第三个子问题的权重。通过交替迭代的求解方法可以得到该问题的解。所提方法能够更有效的保留各个视角内的信息,从而使得学习得到的异构数据表达更加准确有效。
S3、多源异构数据对象建模的关联协同,包括同一数据域内数据对象间的关联、不同数据域内的数据对象关联及跨数据域的关联数据对象迁移。具体过程为:通过属性匹配和特征相似度计算方式,构建跨数据域对象的一系列候选链接对,从而将对象链接问题转化为候选链接数据对的二分问题,正类即为被正确链接,负类为错误链接;在对象初步匹配时,将具有高度匹配度的对象作为正匹配数据对,并随机选取一部分匹配数据对作为负匹配数据对,并以此来构建统计学习模型进行对象链接判别函数学习,基于上述候选匹配对象对集合,根据判别原则、全局结构一致性最大化和局部结构一致性最大化达到对象链接判别函数学习目的,这里的局部结构一致性原则由两个数据域内的同一类型数据对象的相似度结构信息所表示,全局结构一致性原则由两个数据域内的不同类型的数据对象相似度结构信息所表示,如图5所示。假定有两个数据域A和B,每个数据域都有多种不同类型的对象。假定数据域A是源数据域,并通过多种手段建立了数据域A内对象和对象之间的关联。在数据域A内的异质对象关联方面,主要利用对象的共生信息,建立不同对象的关联。然而,在目标数据域,即数据域B当中,存在大量的噪声和关联、语义缺失的情况,且数据域B当中的数据内在分布和数据A存在较大差异,从而为数据域B的关联建模和语义分析造成了困难。然而,如果通过对象分析方法,有效发现和检测到在数据域A和数据域B当中同时出现的对象,则数据域A当中的丰富知识就可以有效地被迁移到数据域B当中。另一方面,通过对象链接技术将同一个对象在两个数据域中的相关数据正确地关联起来,也从不同的角度更加完整和精确地刻画了该对象,从而能够实现针对异构对象的深度语义理解和精确关联建模。为此,本申请提出一种基于属性分析和结构匹配的跨数据域对象链接方法。首先,通过属性匹配和特征相似度计算等方式,构建跨数据域对象的一系列候选链接对,并将对象链接问题转化为候选链接数据对的二分问题,正类即为被正确链接,负类为错误链接。在对象的初步匹配时,将具有高度匹配度的对象当作正匹配数据对,并随机选取一部分匹配数据对当作负匹配数据对,并以此来构建统计学习模型进行对象链接判别函数学习。基于候选匹配对象对集合,本申请提出一种基于判别原则、全局结构一致性最大化和局部结构一致性最大化的对象链接判别函数学习方法。一方面要求对象链接判别函数满足最优判别原则,即能够最大程度地准确区别正匹配数据对和负匹配数据对。另一方面,为了应对缺失的匹配信息,并达到匹配信息最大化利用的目的,要求对象链接判别函数的判别结果符合局部结构一致性原则和全局结构一致性原则。局部结构一致性原则由两个数据域内的同一类型数据对象的相似度结构信息所表示,全局结构一致性原则由两个数据域内的不同类型的数据对象相似度结构信息所表示。
当实现了跨平台对象链接之后,本申请提出跨数据域的关联迁移模型。具体而言,对于数据域B来说,与数据域A匹配上的对象子集可作为对象锚点(anchor objects)集合,且这个对象子集在数据A当中的关联关系可作为数据域B中的对象关联的先验值。在这个基础上,基于流形对齐和矩阵因子化等方法,对数据域B中的关联进行迁移学习。首先通过统计分析方法,获取数据域B中的对象关联的部分观测值。接下来,通过矩阵因子化方法,对数据域B中的关联进行因子化学习和关联估计。假定数据域A中的对象关联用矩阵CA表示,数据域B中的对象关联用CB,则关联迁移学习框架可表示为:
Figure BDA0003082886450000111
其中CB∩A表示在数据域B中与数据域A中匹配成功的数据对象。Ω表示的是对因子矩阵U和V的约束项。所提基于对象的关联迁移学习框架的优点是能够有效利用源数据域的丰富信息,增强在稀疏关系域的对象关联关系的因子化建模,提高目标数据域缺失关联的恢复能力。
本申请面向农业多源异构数据分析与挖掘的挑战性问题,更好地满足现实应用需要,研究结论和成果将有望推动数字农业方法的实用化水平。用户随时随地通过电脑或手机APP就可以实现对农场的高度智能化管理,并对农场生产环境进行精准监测和控制,例如远程灌溉农作物大田种植、作物长势土壤墒情监测、病虫害防治、禽畜养殖、农业机器人和问题预警等。此外,本申请技术方案为无人农场继续发挥科技在农业标准化、信息化、智能化等领域提供技术保障,促进我国农业科技和信息化水平的提升。
上述技术方案仅体现了本发明技术方案的优选技术方案,本技术领域的技术人员对其中某些部分所可能做出的一些变动均体现了本发明的原理,属于本发明的保护范围之内。

Claims (10)

1.一种农业多源异构数据的分析与挖掘方法,其特征在于,该方法包括下述数据处理内容:
S1、农业多源异构数据管理,该过程利用数据采集设备获得农业相关信息,并将该信息通过无线网络通信存储至多源异构数据的网络数据库中;
S2、建立多源异构数据表达机制,对多源异构数据建立统一表征;其具体过程包括:
S2-1、语义对象网络构建及动态管理更新:根据多源异构数据的语义概念及相互关系进行层次化组织,形成动态变化的层次化(树)语义概念结构;
S2-2、对多源异构数据进行多模态内容表示并对其分类标注实现联合学习;
S3、多源异构数据对象建模的关联协同,包括同一数据域内数据对象间的关联、不同数据域内的数据对象关联及跨数据域的关联数据对象迁移。
2.根据权利要求1所述的农业多源异构数据的分析与挖掘方法,其特征在于,在S1中,农业相关信息的数据包括但不限于图像数据、环境监测数据、空间位置数据。
3.根据权利要求1所述的农业多源异构数据的分析与挖掘方法,其特征在于,在S1中所形成的数据库可以从任何授权后的客户端予以访问实现数据信息的互联、互动展示、查询和管理。
4.根据权利要求1所述的农业多源异构数据的分析与挖掘方法,其特征在于,在S2-1中,语义对象网络构建过程为:建立语义对象集合之间的多模态相似度计算,即将具有语义概念的图像、文本分别进行组织,计算概念对象之间的平均视觉相似度和文本相似度,结合实际信息内容多标注现象和语义不确定性现象,得到语义概念之间的共生相似度,再通过将不同的相似度进行加权融合,得到了语义对象网络结构,该语义对象网络结构呈现稀疏联通结构。
5.根据权利要求4所述的农业多源异构数据的分析与挖掘方法,其特征在于,构建语义对象网络结构中,当出现新的语义概念,对于异构数据动态演化,通过数据的自动抓取和动态语义网络增长过程中数据的搜集和分析,这里的动态语义网络增长过程就是建立基于稀疏编码和内容相似度建模的相似度权值内插计算,基于异构数据计算的内容相似度,利用相关语义概念节点来重建新的节点,并通过重建系数和内容相似度的加权融合计算新的概念节点和已有语义网络节点的相似度。
6.根据权利要求1、4或5所述的农业多源异构数据的分析与挖掘方法,其特征在于,S2-2中对多源异构数据进行多模态内容表示时,采用组敏感的多视角融合学习方法,其具体是将多源异构数据划分为多个具有相同内容的数据组,这些数据组共享一致的模型参数,将不同的融合权重系数加到不同数据组上,并对异构数据集合进行聚类学习,并在聚类的过程中同时学习聚类输出结果和所有组的信息表达权重系数。
7.根据权利要求6所述的农业多源异构数据的分析与挖掘方法,其特征在于,S2-2对多源异构数据进行分类标注采用了多视角异构表示与分类标注联合学习方法,其步骤包括:(1)使用异构数据的语义信息作为指导对异构数据的多视角结构信息进行增强,使得所保留的内在结构信息更加准确可靠,这里给的图像各个视角的结构信息矩阵Wh,H为视角数,h为某一视角,γ和η是根据实际选定的系数,标签信息矩阵Ws以及图像-标签矩阵T,通过如下目标函数学习得到高维异构数据的子空间表示Z,
Figure FDA0003082886440000021
s.t.ZTZ=I;
上述公式含义为:减小子空间Z与最不符合的视角之间的差异,从而减小子空间与各个视角之间的不一致性,使其能够更加充分的融合多视角信息;(2)利用异构数据的标签训练SVM分类器进行标签预测,并根据所学的分类器来指导子空间Z的学习,从而进一步提高子空间的判别力,这里的SVM分类器核函数为线性核函数K=ZZT,其目标函数为:
Figure FDA0003082886440000031
Figure FDA0003082886440000032
其中α是SVM的拉格朗日乘子,Y是图像的标签信息矩阵,Z是图像表示矩阵,通过优化上述目标函数得到各个标签的SVM预测器,同时也能够使得Z更加符合图像的标签预测结果;(3)新的异构数据进行表示学习,引入线性投影矩阵P把新来的图像投影到所学的子空间Z中,使用学习得到的SVM分类器对其进行标签预测,这里的投影矩阵采用组稀疏约束,克服多视角数据中信息冗余与噪声影响,其目标函数为:
Figure FDA0003082886440000033
(4)综上述(1)(2)(3)通过总的优化目标函数
Figure FDA0003082886440000034
这里的μ1,μ2为权重参数,分别调节第二个和第三个子问题的权重学习得到的更加准确有效的异构数据表达。
8.根据权利要求1所述的农业多源异构数据的分析与挖掘方法,其特征在于,S3中实现数据对象关联采用的方法为基于属性分析和结构匹配的跨数据域对象链接方法,具体过程为:通过属性匹配和特征相似度计算方式,构建跨数据域对象的一系列候选链接对,从而将对象链接问题转化为候选链接数据对的二分问题,正类即为被正确链接,负类为错误链接;在对象初步匹配时,将具有高度匹配度的对象作为正匹配数据对,并随机选取一部分匹配数据对作为负匹配数据对,并以此来构建统计学习模型进行对象链接判别函数学习,基于上述候选匹配对象对集合,根据判别原则、全局结构一致性最大化和局部结构一致性最大化达到对象链接判别函数学习目的,这里的局部结构一致性原则由两个数据域内的同一类型数据对象的相似度结构信息所表示,全局结构一致性原则由两个数据域内的不同类型的数据对象相似度结构信息所表示。
9.根据权利要求1所述的农业多源异构数据的分析与挖掘方法,其特征在于,S3中关联数据对象迁移采用如下模型,基于流形对齐和矩阵因子化方法,对数据域B中的关联进行迁移学习,首先通过统计分析方法,获取数据域B中的对象关联的部分观测值,接下来,通过矩阵因子化方法,对数据域B中的关联进行因子化学习和关联估计,假定数据域A中的对象关联用矩阵CA表示,数据域B中的对象关联用CB,则关联迁移学习框架表示为:
Figure FDA0003082886440000041
其中CB∩A表示在数据域B中与数据域A中匹配成功的数据对象,Ω表示的是对因子矩阵U和V的约束项,这里的λ、β1及β2均为实际计算中选择的系数。
10.权利要求1所述的农业多源异构数据的分析与挖掘方法的应用,其特征在于,通过该方法获得的多源异构数据间的关联关系应用但不限于农业大田种植、作物长势土壤墒情监控、农作物病虫害防治、禽畜养殖、农业机械及机器人管理及农业问题预警分析农业技术领域。
CN202110571909.2A 2021-05-25 2021-05-25 一种农业多源异构数据的分析与挖掘方法及其应用 Active CN113220911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110571909.2A CN113220911B (zh) 2021-05-25 2021-05-25 一种农业多源异构数据的分析与挖掘方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110571909.2A CN113220911B (zh) 2021-05-25 2021-05-25 一种农业多源异构数据的分析与挖掘方法及其应用

Publications (2)

Publication Number Publication Date
CN113220911A true CN113220911A (zh) 2021-08-06
CN113220911B CN113220911B (zh) 2024-02-02

Family

ID=77098369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110571909.2A Active CN113220911B (zh) 2021-05-25 2021-05-25 一种农业多源异构数据的分析与挖掘方法及其应用

Country Status (1)

Country Link
CN (1) CN113220911B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115269704A (zh) * 2022-08-02 2022-11-01 贵州财经大学 一种多元异构农业数据管理系统
WO2023029178A1 (zh) * 2021-08-30 2023-03-09 海南大学 面向dikw资源的情感表达映射、度量与优化传输系统
CN117076463A (zh) * 2023-10-16 2023-11-17 环天智慧科技股份有限公司 一种智慧城市多源数据汇聚存储系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357933A (zh) * 2017-08-04 2017-11-17 刘应波 一种用于多源异构科技信息资源的标签描述方法和装置
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及系统
CN110457982A (zh) * 2018-12-28 2019-11-15 中国科学院合肥物质科学研究院 一种基于特征迁移学习的作物病害图像识别方法
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN110598573A (zh) * 2019-08-21 2019-12-20 中山大学 一种基于多域异质图引导的视觉问题常识推理模型及方法
CN111163057A (zh) * 2019-12-09 2020-05-15 中国科学院信息工程研究所 一种基于异构信息网络嵌入算法的用户识别系统及方法
CN111538842A (zh) * 2019-11-15 2020-08-14 国家电网有限公司 网络空间态势的智能感知和预测方法、装置和计算机设备
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112215837A (zh) * 2020-10-26 2021-01-12 北京邮电大学 多属性图像语义分析方法和装置
CN112364161A (zh) * 2020-09-25 2021-02-12 天津大学 基于异构社会媒体用户动态行为的微博主题挖掘方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357933A (zh) * 2017-08-04 2017-11-17 刘应波 一种用于多源异构科技信息资源的标签描述方法和装置
CN108846384A (zh) * 2018-07-09 2018-11-20 北京邮电大学 融合视频感知的多任务协同识别方法及系统
CN110457982A (zh) * 2018-12-28 2019-11-15 中国科学院合肥物质科学研究院 一种基于特征迁移学习的作物病害图像识别方法
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN110598573A (zh) * 2019-08-21 2019-12-20 中山大学 一种基于多域异质图引导的视觉问题常识推理模型及方法
CN111538842A (zh) * 2019-11-15 2020-08-14 国家电网有限公司 网络空间态势的智能感知和预测方法、装置和计算机设备
CN111163057A (zh) * 2019-12-09 2020-05-15 中国科学院信息工程研究所 一种基于异构信息网络嵌入算法的用户识别系统及方法
CN112364161A (zh) * 2020-09-25 2021-02-12 天津大学 基于异构社会媒体用户动态行为的微博主题挖掘方法
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112215837A (zh) * 2020-10-26 2021-01-12 北京邮电大学 多属性图像语义分析方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨晨雪等: "基于区块链技术的农产品供应链数据管理系统设计", 《农业大数据学报》, vol. 2, no. 2, pages 74 - 83 *
胡永利等: "多源异构感知数据融合方法及其在目标定位跟踪中的应用", 《中国科学:信息科学》, vol. 2013, no. 10, pages 1288 - 1306 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023029178A1 (zh) * 2021-08-30 2023-03-09 海南大学 面向dikw资源的情感表达映射、度量与优化传输系统
CN115269704A (zh) * 2022-08-02 2022-11-01 贵州财经大学 一种多元异构农业数据管理系统
CN115269704B (zh) * 2022-08-02 2023-08-18 贵州财经大学 一种多元异构农业数据管理系统
CN117076463A (zh) * 2023-10-16 2023-11-17 环天智慧科技股份有限公司 一种智慧城市多源数据汇聚存储系统
CN117076463B (zh) * 2023-10-16 2023-12-29 环天智慧科技股份有限公司 一种智慧城市多源数据汇聚存储系统

Also Published As

Publication number Publication date
CN113220911B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
Zhu et al. Deep learning for smart agriculture: Concepts, tools, applications, and opportunities
CN113220911B (zh) 一种农业多源异构数据的分析与挖掘方法及其应用
Ren et al. A survey of deep learning in agriculture: techniques and their applications
CN105654136B (zh) 一种基于深度学习的大规模遥感影像目标自动识别方法
Zhang et al. Early weed identification based on deep learning: A review
Wang et al. Research on application of deep learning algorithm in image classification
CN110275919A (zh) 数据集成方法及装置
Tan Information analysis of advanced mathematics education-adaptive algorithm based on big data
Xu et al. Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning
Wang et al. Trustworthy remote sensing interpretation: Concepts, technologies, and applications
Wu et al. Small-target weed-detection model based on YOLO-V4 with improved backbone and neck structures
Dutta et al. An interactive architecture for industrial scale prediction: Industry 4.0 adaptation of machine learning
Ferdous et al. Toward sustainable crop residue management: A deep ensemble learning approach
Chen Exemplification on Potential Applications and Scenarios for GeoAI
Wei et al. Small sample and efficient crop pest recognition method based on transfer learning and data transformation
Noulamo et al. A Multi-Agent Platform for the Remote Monitoring and Diagnostic in Precision Agriculture.
Zhai et al. Optimization of agricultural production control based on data processing technology of agricultural internet of things
Zhang Deep learning-based hybrid short-term solar forecast using sky images and meteorological data
CN104572991A (zh) 一种基于异质刻面转换的网构软件构件库中构件检索方法
Zhang et al. Towards Urban General Intelligence: A Review and Outlook of Urban Foundation Models
Wei et al. Design and Implementation of ROS-Based Rapid Identification Robot System
Ding et al. Next generation of computer vision for plant disease monitoring in precision agriculture: A contemporary survey, taxonomy, experiments, and future direction
Taji et al. A Systematic Literature Review of Computational Studies in Aquaponic System
Pan et al. Fine-Grained Image Classification based on Self-attention Feature Fusion and Graph-Propagation
Obaideen et al. Advanced crop monitoring: incorporating the Kalman filter into modern agriculture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant