CN113297196A - 智慧农业aiot分布式大数据存储平台 - Google Patents

智慧农业aiot分布式大数据存储平台 Download PDF

Info

Publication number
CN113297196A
CN113297196A CN202110853901.5A CN202110853901A CN113297196A CN 113297196 A CN113297196 A CN 113297196A CN 202110853901 A CN202110853901 A CN 202110853901A CN 113297196 A CN113297196 A CN 113297196A
Authority
CN
China
Prior art keywords
data
agricultural
resource library
intelligent
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110853901.5A
Other languages
English (en)
Inventor
刘天琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen BBAI Information Technology Co Ltd
Original Assignee
Shenzhen BBAI Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen BBAI Information Technology Co Ltd filed Critical Shenzhen BBAI Information Technology Co Ltd
Priority to CN202110853901.5A priority Critical patent/CN113297196A/zh
Priority to PCT/CN2021/111626 priority patent/WO2023004881A1/zh
Publication of CN113297196A publication Critical patent/CN113297196A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Mining & Mineral Resources (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Agronomy & Crop Science (AREA)
  • Animal Husbandry (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

智慧农业AIOT分布式大数据存储平台,包括智慧农业大数据基础支撑平台和智慧农业数据中台,智慧农业大数据基础支撑平台用于对海量大数据的全生命周期的管理和支持,智慧农业数据中台用于将所述智慧农业大数据基础支撑平台存储的基础业务数据进行规划,以确保所述智慧农业AIOT分布式大数据存储平台发挥分布式架构作用;本发明采用分布式架构,通过提供对海量大数据的全生命周期的管理和支持,为基于人工智能和互联网信息共享建立的智慧农业大数据服务平台提供数据模型基础。

Description

智慧农业AIOT分布式大数据存储平台
技术领域
本发明涉及智慧农业技术领域,具体涉及一种智慧农业AIOT分布式大数据存储平台。
背景技术
农业是国民经济的基础,随着农业产业化和规模化水平的提高,以及物联网技术、云计算技术、大数据技术以及地理信息系统、遥感和全球定位系统技术在农业领域中越来越广泛应用,传统的农业耕作模式逐渐暴露出一些不足,主要体现:第一,农业信息孤岛严重。农业部门分条管理,部门应用系统多为垂直体系结构、孤立系统,信息共享程度低;第二,数据综合利用率不高。农业数据涉及数据类型多、数据结构不一致、数据质量参差不齐,数据分析整理工作量大,数据综合利用率不高;第三,市场供销信息不对称。农产品受市场影响波动很大,但农民获取市场信息有限,很难及时掌握最新的市场信息,致使农业生产者与消费者之间的信息脱节。第四,管理粗放。我国农业生产较为分散,农业相关数据采集、分析困难,很难做到精确、高效和处理及时,造成农业决策不精准。
传统的农业耕作模式存在的上述弊端导致传统的农业信息系统无法解决以下问题,这些问题是需要采用物联网、云计算、大数据以及“3S”技术等现代信息技术与农业相融合才能解决的问题:一是如何实现各农业部门以及其他政府部门间之间数据共享与交换,达到部门间信息互联互通的目的;二是如何通过农产品市场信息和气候气象信息,做出科学决策,指导农民合理农作物种植,避免“有价无市”或“有市无价”的现象发生,实现农产品供销平衡;三是如何通过物联网传感器对农作物环境进行有效的监测,实现农作物生长达到最佳的生长环境以及科学地施肥,使得农作物获得相对高的产量,从而增加农民收入;四是如何通过二维码、条形码等对农产品以及投入品进行标识,实现农产品和投入品进行有效管理和质量安全追溯;五是如何利用互联网发展农业电商和农业休闲旅游,帮助农民拓宽农产品销售渠道、解决农产品滞销和增加收入途径的难题。
综上所述,采用人工智能技术和互联网信息共享建立智慧农业大数据服务平台已经成为农业现代化的发展趋势,因此,亟需建立智慧农业大数据存储平台,为基于人工智能和互联网信息共享建立的智慧农业大数据服务平台提供数据模型基础。
发明内容
本发明的目的是提供智慧农业AIOT分布式大数据存储平台,采用分布式架构,通过提供对海量大数据的全生命周期的管理和支持,为基于人工智能和互联网信息共享建立的智慧农业大数据服务平台提供数据模型基础。
为了达到上述目的,本发明所采用的技术方案是:本发明提供了一种智慧农业AIOT分布式大数据存储平台,包括智慧农业大数据基础支撑平台和智慧农业数据中台,所述智慧农业大数据基础支撑平台用于对海量大数据的全生命周期的管理和支持,所述智慧农业数据中台用于将所述智慧农业大数据基础支撑平台存储的基础业务数据进行规划,以确保所述智慧农业AIOT分布式大数据存储平台发挥分布式架构作用;所述智慧农业大数据基础支撑平台与所述智慧农业数据中台通过计算机应用程序接口和网络实现数据交换;
所述智慧农业大数据基础支撑平台包括数据获取系统、数据治理系统以及数据存储系统,所述数据获取系统用于数据采集,所述数据治理系统用于对所述数据获取系统采集的数据进行融合和数据治理,所述数据存储系统用于对经过所述数据治理系统分析处理后的数据进行存储;所述数据获取系统包括结构化数据采集模块、非结构化数据采集模块以及实时数据采集模块,所述结构化数据采集模块用于对结构化数据进行采集,所述非结构化数据模块用于对非结构化数据进行采集,所述实时数据采集模块用于对实时数据进行采集;所述数据治理系统包括数据抽取模块、数据清洗模块、数据转换模块以及数据加载模块,所述数据抽取模块用于从所述数据获取系统采集的数据中获取业务数据,所述数据清洗模块用于将所述数据抽取模块获取的有缺陷的数据正确化和规范化以达到要求的数据质量标准,所述数据转换模块用于将所述数据获取系统采集的数据和所述数据抽取模块处理后的数据进行转换以符合数据仓库模型的需求,所述数据加载模块用于将所述数据转换模块转换完成的数据存放至目标数据库;所述数据存储系统包括业务数据库和分布式海量空间数据库,所述业务数据库用于存储与农业资源和农业决策相关的业务数据,所述分布式海量空间数据库用于存储遥感影像数据、视频数据以及物联网传感器设备数据;
所述智慧农业数据中台包括共享资源库、智慧农业主题资源库以及基础资源库,所述共享资源数据库通过共享交换平台以满足公众和机构对农业数据的共享需求,所述智慧农业主题资源库为根据应用和需求定制的不同农业主题的资源库,所述基础资源库用于存储多个系统共享使用的数据;所述共享资源库包括无公害产品全周期共享资源库、大宗农产品交易共享资源库、种子需求共享资源库、特色农产品供应量共享资源库、数字农业政务共享资源库,所述无公害产品全周期共享资源库用于为公众提供无公害产品全周期查询功能,所述种子需求共享资源库用于为从事农业生产的个人及厂家提供种子需求发布及查询功能,所述特色农产品供应量共享资源库用于为从事特色农产品交易的个人及厂家提供特色农产品供应量查询功能,所述数字农业政务共享资源库用于为政府机构提供农业相关的政务信息的发布和查询功能;所述智慧农业主题资源库包括农业产量主题资源库、产业布局主题资源库、环境监测主题资源库、农产品安全主题资源库、农产品物流主题资源库、渔业水产主题资源库、畜牧养殖主题资源库、病虫害防治主题资源库、土壤肥力主题资源库,所述农业产量主题资源库用于存储与农业产量相关的数据并提供查询功能,所述产业布局主题资源库用于存储与农业产业布局相关的数据并提供查询功能,所述环境监测主题资源库用于存储与农业生产相关的环境监测数据并提供查询功能,所述农产品安全主题资源库用于存储与农产品安全相关的数据并提供查询功能,所述农产品物流主题资源库用于存储与农产品物流相关的数据并提供查询功能,所述渔业水产主题资源库用于存储与渔业水产相关的数据并提供查询功能,所述畜牧养殖主题资源库用于存储与畜牧养殖相关的数据并提供查询功能,所述病虫害防治主题资源库用于存储与病虫害防治相关的数据并提供查询功能,所述土壤肥力主题资源库用于存储与土壤肥力相关的数据并提供查询功能;所述基础资源库包括行政单元基础资源库、基础地形基础资源库、农业企业基础资源库、农业资源基础资源库、影像资源基础资源库,所述行政单元基础资源库用于存储与农业有关的行政单元数据并对其进行初级共性加工以供其他系统调用,所述基础地形基础资源库用于存储与农业有关的基础地形数据并对其进行初级共性加工以供其他系统调用,所述农业企业基础资源库用于存储农业企业数据并对其进行初级共性加工以供其他系统调用,所述农业资源基础资源库用于存储农业资源并对其进行初级共性加工以供其他系统调动,所述影像资源基础资源库用于存储与农业有关的影像资源并对其进行初级共性加工以供其他系统调动。
进一步地,所述智慧农业数据中台还包括近源采集数据库,所述近源采集数据库依照源系统建模,以尽量保持从所述数据存储系统获得的业务数据原貌。
进一步地,所述共享资源库为在确保信息安全的基础上,通过共享平台,采用数据服务模式,依托从所述近源采集数据库获得的相关数据建立的对外共享资源库;所述智能农业主题资源库采用ETL工具,将从所述近源采集数据库获得的相关数据进行共性加工,面向应用,按需定制;所述基础资源库将从所述近源采集数据库获得的相关数据进行初级共性加工并提炼共性属性。
进一步地,所述结构化数据包括从智慧农业资源管理系统、智慧农业生产管理系统、智慧农业供应链管理系统、智慧农业党建管理系统获得数据以及源于智慧城市的政务信息;所述结构化数据存储于结构化数据库和分布式数据库,能够通过数据接口协议进行实时或离线传输;所述非结构数据包括卫星遥感影像数据、空间地理数据、智能物联网传感器数据以及频数据,使用Hadoop集群进行分布式海量数据的存储;所述实时数据包括传感器、遥感影像数据以及海量并发数据。
进一步地,所述业务数据是以县、乡为行政单元的土地、水、气候、人口和农业经济和农业资源数据以及基本农田划区定界、标准农田、土地二轮承包、农业决策专家知识库、耕地地力调查与质量评价研究中的土壤养分、重金属和农药残留;所述业务数据库在制定元数据库、数据字典和数据表结构系列同时制订配套的属性数据采集标准与规范;所述分布式海量空间数据库的架构采用基于Hadoop体系中分布式文件管理系统,以及基于MPP+Share-nothing技术设计的MPP数据库。
进一步地,所述数据抽取模块的数据抽取包括以下情况:如果业务操作型数据库和数据仓库之间的数据库管理系统完全相同,只需要建立相应的连接关系就可以使用 ETL工具直接访问,或者调用相应的 SQL 语句或者存储过程;如果数据仓库系统和业务操作型数据库的数据库管理系统不相同,使用 ETL 工具导出成文本文件或者 Excel 文件,然后再进行统一的数据抽取;如果需要抽取的数据量非常庞大,采用增量抽取方式,用标记位或者时间戳的形式,每次抽取前首先判断是否是抽取标记位或者是当前最近的时间,然后再将数据源的数据抽取出来。
进一步地,所述数据清洗模块选择的缺陷数据包括数值重复、数据缺失、数据错误、数据范围混淆、存在脏数据和数据不一致这几种情况;数值重复是标准不唯一,很多数值都代表着相同的含义;数据范围混淆是指相同的数值会应用到不同的场合中,代表着不同的含义。
进一步地,所述数据清洗模块的数据清洗流程包括以下步骤:
S01:定义业务数据源,标识出满足需求的数据源,并且决定什么时候进行数据清洗;
S02:分析业务数据源,分析数据源的数据是否符合业务的规则和定义,是否存在非正常的数据结构;
S03:将数据标准化,定义标准化格式的数据,并且加以转换;
S04:通过业务规则修正错误数据,定义是否为正确数据的标准,确定如何处理错误数据的方法;
S05:合并数据,将属于同一实体的多个数据进行合并,合并时应该有去重的功能;
S06:总结数据错误类型,通过总结数据出错的类型,提高清洗程序的完整性和正确性,从而降低数据出现重大问题的可能性。
进一步地,所述数据转换模块的转换过程包括以下步骤:
S11:对空值的处理:如果在转换过程中捕获到某些字段存在空值,在进行加载时需要将空值替换成某一数据或者直接进行加载,不做任何转换;
S12:对数据格式的规范化:根据业务数据源中各个字段的数据类型,进行数据格式的规范和统一,例如,统一将数值类型转化成字符串类型;
S13:根据业务需求进行字段的拆分或者合并;
S14:对缺失数据的替换:根据业务需求对缺失数据进行替换;
S15:根据业务规则对数据进行过滤;
S16:根据编码表进行数据唯一性的转换:根据编码表制定的业务规范进行数据的转换,实现数据仓库系统内部数据的一致性。
进一步地,所述数据加载模块的据加载策略包括时间戳的加载方式、全表对比的加载方式、通过读取日志表进行加载的方式、全表删除后再进行加载的方式;时间戳的加载方式是通过对源系统的表添加时间戳字段,将系统当前时间和时间戳的值进行对比,决定哪些业务数据需要被抽取,可以实现数据的递增加载,是比较常见的一种加载方式;全表对比的加载方式是在数据加载前,将每条数据都与目标表的所有记录进行全表对比,根据主键值是否相同,判断数据是更新还是插入,当数据量比较大的时候,有耗时长、效率低的缺点,通常也对全表对比进行改进,采用版本号、标记字段等缓慢变化维的形式进行增量的抽取;通过读取日志表进行加载的方式是当源数据表发生变化时,不断更新日志表的信息,将日志表的信息作为数据加载的一个依据,日志表维护相对麻烦,会存在一定风险;全表删除后再进行加载的方式是在数据加载前,先删除目标表的所有数据,然后去加载全部的数据,但是不能实现数据的递增加载,效率较低,实现方式却相对简单。
与现有技术相比,本发明的有益效果在于,本发明提供的智慧农业AIOT分布式大数据存储平台,包括智慧农业大数据基础支撑平台和智慧农业数据中台,智慧农业大数据基础支撑平台用于对海量大数据的全生命周期的管理和支持,智慧农业数据中台用于将所述智慧农业大数据基础支撑平台存储的基础业务数据进行规划,以确保所述智慧农业AIOT分布式大数据存储平台发挥分布式架构作用;本发明采用分布式架构,通过提供对海量大数据的全生命周期的管理和支持,为基于人工智能和互联网信息共享建立的智慧农业大数据服务平台提供数据模型基础。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的智慧农业AIOT分布式大数据存储平台的系统结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
以下结合附图与具体实施例,对本发明的技术方案做详细的说明。
参照图1,本发明提供的智慧农业AIOT分布式大数据存储平台,包括智慧农业大数据基础支撑平台和智慧农业数据中台,所述智慧农业大数据基础支撑平台用于对海量大数据的全生命周期的管理和支持,所述智慧农业数据中台用于将所述智慧农业大数据基础支撑平台存储的基础业务数据进行规划,以确保所述智慧农业AIOT分布式大数据存储平台发挥分布式架构作用;所述智慧农业大数据基础支撑平台与所述智慧农业数据中台通过计算机应用程序接口和网络实现数据交换;
所述智慧农业大数据基础支撑平台包括数据获取系统、数据治理系统以及数据存储系统,所述数据获取系统用于数据采集,所述数据治理系统用于对所述数据获取系统采集的数据进行融合和数据治理,所述数据存储系统用于对经过所述数据治理系统分析处理后的数据进行存储;所述数据获取系统包括结构化数据采集模块、非结构化数据采集模块以及实时数据采集模块,所述结构化数据采集模块用于对结构化数据进行采集,所述非结构化数据模块用于对非结构化数据进行采集,所述实时数据采集模块用于对实时数据进行采集;所述数据治理系统包括数据抽取模块、数据清洗模块、数据转换模块以及数据加载模块,所述数据抽取模块用于从所述数据获取系统采集的数据中获取业务数据,所述数据清洗模块用于将所述数据抽取模块获取的有缺陷的数据正确化和规范化以达到要求的数据质量标准,所述数据转换模块用于将所述数据获取系统采集的数据和所述数据抽取模块处理后的数据进行转换以符合数据仓库模型的需求,所述数据加载模块用于将所述数据转换模块转换完成的数据存放至目标数据库;所述数据存储系统包括业务数据库和分布式海量空间数据库,所述业务数据库用于存储与农业资源和农业决策相关的业务数据,所述分布式海量空间数据库用于存储遥感影像数据、视频数据以及物联网传感器设备数据;
所述智慧农业数据中台包括共享资源库、智慧农业主题资源库以及基础资源库,所述共享资源数据库通过共享交换平台以满足公众和机构对农业数据的共享需求,所述智慧农业主题资源库为根据应用和需求定制的不同农业主题的资源库,所述基础资源库用于存储多个系统共享使用的数据;所述共享资源库包括无公害产品全周期共享资源库、大宗农产品交易共享资源库、种子需求共享资源库、特色农产品供应量共享资源库、数字农业政务共享资源库,所述无公害产品全周期共享资源库用于为公众提供无公害产品全周期查询功能,所述种子需求共享资源库用于为从事农业生产的个人及厂家提供种子需求发布及查询功能,所述特色农产品供应量共享资源库用于为从事特色农产品交易的个人及厂家提供特色农产品供应量查询功能,所述数字农业政务共享资源库用于为政府机构提供农业相关的政务信息的发布和查询功能;所述智慧农业主题资源库包括农业产量主题资源库、产业布局主题资源库、环境监测主题资源库、农产品安全主题资源库、农产品物流主题资源库、渔业水产主题资源库、畜牧养殖主题资源库、病虫害防治主题资源库、土壤肥力主题资源库,所述农业产量主题资源库用于存储与农业产量相关的数据并提供查询功能,所述产业布局主题资源库用于存储与农业产业布局相关的数据并提供查询功能,所述环境监测主题资源库用于存储与农业生产相关的环境监测数据并提供查询功能,所述农产品安全主题资源库用于存储与农产品安全相关的数据并提供查询功能,所述农产品物流主题资源库用于存储与农产品物流相关的数据并提供查询功能,所述渔业水产主题资源库用于存储与渔业水产相关的数据并提供查询功能,所述畜牧养殖主题资源库用于存储与畜牧养殖相关的数据并提供查询功能,所述病虫害防治主题资源库用于存储与病虫害防治相关的数据并提供查询功能,所述土壤肥力主题资源库用于存储与土壤肥力相关的数据并提供查询功能;所述基础资源库包括行政单元基础资源库、基础地形基础资源库、农业企业基础资源库、农业资源基础资源库、影像资源基础资源库,所述行政单元基础资源库用于存储与农业有关的行政单元数据并对其进行初级共性加工以供其他系统调用,所述基础地形基础资源库用于存储与农业有关的基础地形数据并对其进行初级共性加工以供其他系统调用,所述农业企业基础资源库用于存储农业企业数据并对其进行初级共性加工以供其他系统调用,所述农业资源基础资源库用于存储农业资源并对其进行初级共性加工以供其他系统调动,所述影像资源基础资源库用于存储与农业有关的影像资源并对其进行初级共性加工以供其他系统调动。
上述技术方案提供的智慧农业AIOT分布式大数据存储平台,包括智慧农业大数据基础支撑平台和智慧农业数据中台,智慧农业大数据基础支撑平台用于对海量大数据的全生命周期的管理和支持,智慧农业数据中台用于将所述智慧农业大数据基础支撑平台存储的基础业务数据进行规划,以确保所述智慧农业AIOT分布式大数据存储平台发挥分布式架构作用;本发明采用分布式架构,通过提供对海量大数据的全生命周期的管理和支持,为基于人工智能和互联网信息共享建立的智慧农业大数据服务平台提供数据模型基础。
作为本发明的一种实施方式,所述智慧农业数据中台还包括近源采集数据库,所述近源采集数据库依照源系统建模,以尽量保持从所述数据存储系统获得的业务数据原貌。
作为本发明的一种实施方式,所述共享资源库为在确保信息安全的基础上,通过共享平台,采用数据服务模式,依托从所述近源采集数据库获得的相关数据建立的对外共享资源库;所述智能农业主题资源库采用ETL工具,将从所述近源采集数据库获得的相关数据进行共性加工,面向应用,按需定制;所述基础资源库将从所述近源采集数据库获得的相关数据进行初级共性加工并提炼共性属性。
作为本发明的一种实施方式,所述结构化数据包括从智慧农业资源管理系统、智慧农业生产管理系统、智慧农业供应链管理系统、智慧农业党建管理系统获得数据以及源于智慧城市的政务信息;所述结构化数据存储于结构化数据库和分布式数据库,能够通过数据接口协议进行实时或离线传输;所述非结构数据包括卫星遥感影像数据、空间地理数据、智能物联网传感器数据以及频数据,使用Hadoop集群进行分布式海量数据的存储;所述实时数据包括传感器、遥感影像数据以及海量并发数据。
作为本发明的一种实施方式,所述业务数据是以县、乡为行政单元的土地、水、气候、人口和农业经济和农业资源数据以及基本农田划区定界、标准农田、土地二轮承包、农业决策专家知识库、耕地地力调查与质量评价研究中的土壤养分、重金属和农药残留;所述业务数据库在制定元数据库、数据字典和数据表结构系列同时制订配套的属性数据采集标准与规范;所述分布式海量空间数据库的架构采用基于Hadoop体系中分布式文件管理系统,以及基于MPP+Share-nothing技术设计的MPP数据库。
作为本发明的一种实施方式,所述数据抽取模块的数据抽取包括以下情况:如果业务操作型数据库和数据仓库之间的数据库管理系统完全相同,只需要建立相应的连接关系就可以使用 ETL 工具直接访问,或者调用相应的 SQL 语句或者存储过程;如果数据仓库系统和业务操作型数据库的数据库管理系统不相同,使用 ETL 工具导出成文本文件或者 Excel 文件,然后再进行统一的数据抽取;如果需要抽取的数据量非常庞大,采用增量抽取方式,用标记位或者时间戳的形式,每次抽取前首先判断是否是抽取标记位或者是当前最近的时间,然后再将数据源的数据抽取出来。
作为本发明的一种实施方式,所述数据清洗模块选择的缺陷数据包括数值重复、数据缺失、数据错误、数据范围混淆、存在脏数据和数据不一致这几种情况;数值重复是标准不唯一,很多数值都代表着相同的含义;数据范围混淆是指相同的数值会应用到不同的场合中,代表着不同的含义。
具体地,所述数据清洗模块的数据清洗流程包括以下步骤:
S01:定义业务数据源,标识出满足需求的数据源,并且决定什么时候进行数据清洗;
S02:分析业务数据源,分析数据源的数据是否符合业务的规则和定义,是否存在非正常的数据结构;
S03:将数据标准化,定义标准化格式的数据,并且加以转换;
S04:通过业务规则修正错误数据,定义是否为正确数据的标准,确定如何处理错误数据的方法;
S05:合并数据,将属于同一实体的多个数据进行合并,合并时应该有去重的功能;
S06:总结数据错误类型,通过总结数据出错的类型,提高清洗程序的完整性和正确性,从而降低数据出现重大问题的可能性。
具体地,所述数据转换模块的转换过程包括以下步骤:
S11:对空值的处理:如果在转换过程中捕获到某些字段存在空值,在进行加载时需要将空值替换成某一数据或者直接进行加载,不做任何转换;
S12:对数据格式的规范化:根据业务数据源中各个字段的数据类型,进行数据格式的规范和统一,例如,统一将数值类型转化成字符串类型;
S13:根据业务需求进行字段的拆分或者合并;
S14:对缺失数据的替换:根据业务需求对缺失数据进行替换;
S15:根据业务规则对数据进行过滤;
S16:根据编码表进行数据唯一性的转换:根据编码表制定的业务规范进行数据的转换,实现数据仓库系统内部数据的一致性。
具体地,所述数据加载模块的据加载策略包括时间戳的加载方式、全表对比的加载方式、通过读取日志表进行加载的方式、全表删除后再进行加载的方式;时间戳的加载方式是通过对源系统的表添加时间戳字段,将系统当前时间和时间戳的值进行对比,决定哪些业务数据需要被抽取,可以实现数据的递增加载,是比较常见的一种加载方式;全表对比的加载方式是在数据加载前,将每条数据都与目标表的所有记录进行全表对比,根据主键值是否相同,判断数据是更新还是插入,当数据量比较大的时候,有耗时长、效率低的缺点,通常也对全表对比进行改进,采用版本号、标记字段等缓慢变化维的形式进行增量的抽取;通过读取日志表进行加载的方式是当源数据表发生变化时,不断更新日志表的信息,将日志表的信息作为数据加载的一个依据,日志表维护相对麻烦,会存在一定风险;全表删除后再进行加载的方式是在数据加载前,先删除目标表的所有数据,然后去加载全部的数据,但是不能实现数据的递增加载,效率较低,实现方式却相对简单。
优选地,本发明技术方案所涉及的所有模块的实现方式均采用公开的、成熟的、开源的程序架构及程序代码,本发明技术方案所涉及的业务流程、业务术语和实现的功能均为本领域的公知常识,本领域的技术人员根据本技术方案的描述可以轻易采用已有的、公开的程序架构及程序代码实现。
以上对本发明的实施例进行了详细的说明,但本发明的创造并不限于本实施例,熟悉本领域的技术人员在不违背本发明精神的前提下,还可以做出许多同等变型或替换,这些同等变型或替换均包含在本申请的权利要求所限定的保护范围内。

Claims (10)

1.智慧农业AIOT分布式大数据存储平台,其特征在于,包括智慧农业大数据基础支撑平台和智慧农业数据中台,所述智慧农业大数据基础支撑平台用于对海量大数据的全生命周期的管理和支持,所述智慧农业数据中台用于将所述智慧农业大数据基础支撑平台存储的基础业务数据进行规划,以确保所述智慧农业AIOT分布式大数据存储平台发挥分布式架构作用;所述智慧农业大数据基础支撑平台与所述智慧农业数据中台通过计算机应用程序接口和网络实现数据交换;
所述智慧农业大数据基础支撑平台包括数据获取系统、数据治理系统以及数据存储系统,所述数据获取系统用于数据采集,所述数据治理系统用于对所述数据获取系统采集的数据进行融合和数据治理,所述数据存储系统用于对经过所述数据治理系统分析处理后的数据进行存储;所述数据获取系统包括结构化数据采集模块、非结构化数据采集模块以及实时数据采集模块,所述结构化数据采集模块用于对结构化数据进行采集,所述非结构化数据模块用于对非结构化数据进行采集,所述实时数据采集模块用于对实时数据进行采集;所述数据治理系统包括数据抽取模块、数据清洗模块、数据转换模块以及数据加载模块,所述数据抽取模块用于从所述数据获取系统采集的数据中获取业务数据,所述数据清洗模块用于将所述数据抽取模块获取的有缺陷的数据正确化和规范化以达到要求的数据质量标准,所述数据转换模块用于将所述数据获取系统采集的数据和所述数据抽取模块处理后的数据进行转换以符合数据仓库模型的需求,所述数据加载模块用于将所述数据转换模块转换完成的数据存放至目标数据库;所述数据存储系统包括业务数据库和分布式海量空间数据库,所述业务数据库用于存储与农业资源和农业决策相关的业务数据,所述分布式海量空间数据库用于存储遥感影像数据、视频数据以及物联网传感器设备数据;
所述智慧农业数据中台包括共享资源库、智慧农业主题资源库以及基础资源库,所述共享资源数据库通过共享交换平台以满足公众和机构对农业数据的共享需求,所述智慧农业主题资源库为根据应用和需求定制的不同农业主题的资源库,所述基础资源库用于存储多个系统共享使用的数据;所述共享资源库包括无公害产品全周期共享资源库、大宗农产品交易共享资源库、种子需求共享资源库、特色农产品供应量共享资源库、数字农业政务共享资源库,所述无公害产品全周期共享资源库用于为公众提供无公害产品全周期查询功能,所述种子需求共享资源库用于为从事农业生产的个人及厂家提供种子需求发布及查询功能,所述特色农产品供应量共享资源库用于为从事特色农产品交易的个人及厂家提供特色农产品供应量查询功能,所述数字农业政务共享资源库用于为政府机构提供农业相关的政务信息的发布和查询功能;所述智慧农业主题资源库包括农业产量主题资源库、产业布局主题资源库、环境监测主题资源库、农产品安全主题资源库、农产品物流主题资源库、渔业水产主题资源库、畜牧养殖主题资源库、病虫害防治主题资源库、土壤肥力主题资源库,所述农业产量主题资源库用于存储与农业产量相关的数据并提供查询功能,所述产业布局主题资源库用于存储与农业产业布局相关的数据并提供查询功能,所述环境监测主题资源库用于存储与农业生产相关的环境监测数据并提供查询功能,所述农产品安全主题资源库用于存储与农产品安全相关的数据并提供查询功能,所述农产品物流主题资源库用于存储与农产品物流相关的数据并提供查询功能,所述渔业水产主题资源库用于存储与渔业水产相关的数据并提供查询功能,所述畜牧养殖主题资源库用于存储与畜牧养殖相关的数据并提供查询功能,所述病虫害防治主题资源库用于存储与病虫害防治相关的数据并提供查询功能,所述土壤肥力主题资源库用于存储与土壤肥力相关的数据并提供查询功能;所述基础资源库包括行政单元基础资源库、基础地形基础资源库、农业企业基础资源库、农业资源基础资源库、影像资源基础资源库,所述行政单元基础资源库用于存储与农业有关的行政单元数据并对其进行初级共性加工以供其他系统调用,所述基础地形基础资源库用于存储与农业有关的基础地形数据并对其进行初级共性加工以供其他系统调用,所述农业企业基础资源库用于存储农业企业数据并对其进行初级共性加工以供其他系统调用,所述农业资源基础资源库用于存储农业资源并对其进行初级共性加工以供其他系统调动,所述影像资源基础资源库用于存储与农业有关的影像资源并对其进行初级共性加工以供其他系统调动。
2.根据权利要求1所述的智慧农业AIOT分布式大数据存储平台,其特征在于,所述智慧农业数据中台还包括近源采集数据库,所述近源采集数据库依照源系统建模,以保持从所述数据存储系统获得的业务数据原貌。
3.根据权利要求2所述的智慧农业AIOT分布式大数据存储平台,其特征在于,所述共享资源库为在确保信息安全的基础上,通过共享平台,采用数据服务模式,依托从所述近源采集数据库获得的相关数据建立的对外共享资源库;所述智能农业主题资源库采用ETL工具,将从所述近源采集数据库获得的相关数据进行共性加工;所述基础资源库将从所述近源采集数据库获得的相关数据进行初级共性加工并提炼共性属性。
4.根据权利要求1所述的智慧农业AIOT分布式大数据存储平台,其特征在于,所述结构化数据从智慧农业资源管理系统、智慧农业生产管理系统、智慧农业供应链管理系统、智慧农业党建管理系统获得的数据以及源于智慧城市的政务信息;所述结构化数据存储于结构化数据库和分布式数据库,通过数据接口协议进行实时或离线传输;所述非结构数据包括卫星遥感影像数据、空间地理数据、智能物联网传感器数据以及频数据,使用Hadoop集群进行分布式海量数据的存储;所述实时数据包括传感器、遥感影像数据以及海量并发数据。
5.根据权利要求1所述的智慧农业AIOT分布式大数据存储平台,其特征在于,所述业务数据是以县、乡为行政单元的土地、水、气候、人口和农业经济和农业资源数据以及基本农田划区定界、标准农田、土地二轮承包、农业决策专家知识库、耕地地力调查与质量评价研究中的土壤养分、重金属和农药残留;所述业务数据库在制定元数据库、数据字典和数据表结构系列同时制订配套的属性数据采集标准与规范;所述分布式海量空间数据库的架构采用基于Hadoop体系中分布式文件管理系统,以及基于MPP+Share-nothing技术设计的MPP数据库。
6.根据权利要求1所述的智慧农业AIOT分布式大数据存储平台,其特征在于,所述数据抽取模块的数据抽取包括以下情况:业务操作型数据库和数据仓库之间的数据库管理系统完全相同,建立相应的连接关系以使用 ETL 工具直接访问,或者调用相应的 SQL 语句;数据仓库系统和业务操作型数据库的数据库管理系统不相同,使用 ETL 工具导出为文本文件或者 Excel 文件再进行统一的数据抽取。
7.根据权利要求1所述的智慧农业AIOT分布式大数据存储平台,其特征在于,所述数据清洗模块选择的缺陷数据包括数值重复、数据缺失、数据错误、数据范围混淆、存在脏数据和数据不一致。
8.根据权利要求6所述的智慧农业AIOT分布式大数据存储平台,其特征在于,所述数据清洗模块的数据清洗流程包括以下步骤:
S01:定义业务数据源,标识出满足需求的数据源,并且决定进行数据清洗的时间;
S02:分析业务数据源,分析数据源的数据是否符合业务的规则和定义,是否存在非正常的数据结构;
S03:将数据标准化,定义标准化格式的数据,并且加以转换;
S04:通过业务规则修正错误数据,定义是否为正确数据的标准,确定处理错误数据的方法;
S05:合并数据,将属于同一实体的多个数据进行合并;
S06:总结数据错误类型。
9.根据权利要求1所述的智慧农业AIOT分布式大数据存储平台,其特征在于,所述数据转换模块的转换过程包括以下步骤:
S11:对空值的处理:在转换过程中捕获到某些字段存在空值,在进行加载时将空值替换成某一数据或者直接进行加载,不做任何转换;
S12:对数据格式的规范化:根据业务数据源中各个字段的数据类型,进行数据格式的规范和统一;
S13:根据业务需求进行字段的拆分或者合并;
S14:对缺失数据的替换:根据业务需求对缺失数据进行替换;
S15:根据业务规则对数据进行过滤;
S16:根据编码表进行数据唯一性的转换。
10.根据权利要求1所述的智慧农业AIOT分布式大数据存储平台,其特征在于,所述数据加载模块的据加载策略包括时间戳的加载方式、全表对比的加载方式、通过读取日志表进行加载的方式、全表删除后再进行加载的方式。
CN202110853901.5A 2021-07-28 2021-07-28 智慧农业aiot分布式大数据存储平台 Pending CN113297196A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110853901.5A CN113297196A (zh) 2021-07-28 2021-07-28 智慧农业aiot分布式大数据存储平台
PCT/CN2021/111626 WO2023004881A1 (zh) 2021-07-28 2021-08-09 智慧农业aiot分布式大数据存储平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110853901.5A CN113297196A (zh) 2021-07-28 2021-07-28 智慧农业aiot分布式大数据存储平台

Publications (1)

Publication Number Publication Date
CN113297196A true CN113297196A (zh) 2021-08-24

Family

ID=77331273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110853901.5A Pending CN113297196A (zh) 2021-07-28 2021-07-28 智慧农业aiot分布式大数据存储平台

Country Status (2)

Country Link
CN (1) CN113297196A (zh)
WO (1) WO2023004881A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116777087A (zh) * 2023-08-24 2023-09-19 南京市农业装备推广中心 一种智慧农业布局方法及系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116308293B (zh) * 2023-03-27 2023-12-15 上海华维可控农业科技集团股份有限公司 一种基于数字化平台的农业设备智能管理系统及方法
CN117971802A (zh) * 2024-01-29 2024-05-03 广东开放大学(广东理工职业学院) 一种农业类数据库的构建方法及系统
CN117891812B (zh) * 2024-03-18 2024-05-24 北京数字一百信息技术有限公司 一种基于人工智能的大数据清洗方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030177025A1 (en) * 1998-03-09 2003-09-18 Curkendall Leland D. Method and system for agricultural data collection and management
CN106022948A (zh) * 2016-07-20 2016-10-12 安徽朗坤物联网有限公司 农业物联网的综合服务系统
CN106709017A (zh) * 2016-12-27 2017-05-24 山东麦港数据系统有限公司 一种基于大数据的辅助决策方法
CN107506393A (zh) * 2017-07-28 2017-12-22 农业部农药检定所 一种农业大数据模型及其在农业上的应用
CN109726848A (zh) * 2018-11-20 2019-05-07 江苏智途科技股份有限公司 一种智慧农业大数据服务平台

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766153A (zh) * 2015-02-03 2015-07-08 中国科学院合肥物质科学研究院 农业物联网平台架构
CN105389766A (zh) * 2015-12-17 2016-03-09 北京中科云集科技有限公司 一种基于云平台的智慧城市管理方法及系统
CN111986042A (zh) * 2020-08-24 2020-11-24 绵阳上策网络科技有限公司 一种基于互联网技术构建农业大数据服务体系
CN112783897A (zh) * 2021-01-14 2021-05-11 江西省农业科学院农业经济与信息研究所 一种现代农业科技服务云平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030177025A1 (en) * 1998-03-09 2003-09-18 Curkendall Leland D. Method and system for agricultural data collection and management
CN106022948A (zh) * 2016-07-20 2016-10-12 安徽朗坤物联网有限公司 农业物联网的综合服务系统
CN106709017A (zh) * 2016-12-27 2017-05-24 山东麦港数据系统有限公司 一种基于大数据的辅助决策方法
CN107506393A (zh) * 2017-07-28 2017-12-22 农业部农药检定所 一种农业大数据模型及其在农业上的应用
CN109726848A (zh) * 2018-11-20 2019-05-07 江苏智途科技股份有限公司 一种智慧农业大数据服务平台

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
林锋: "基于大数据的特色农业全产业链数字化管理服务体系构建", 《办公自动化》 *
薛彩霞: "农业信息资源共享交互平台需求分析", 《农业与技术》 *
陈云: "《金融大数据》", 31 January 2015 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116777087A (zh) * 2023-08-24 2023-09-19 南京市农业装备推广中心 一种智慧农业布局方法及系统
CN116777087B (zh) * 2023-08-24 2023-12-15 夏露 一种智慧农业布局方法及系统

Also Published As

Publication number Publication date
WO2023004881A1 (zh) 2023-02-02

Similar Documents

Publication Publication Date Title
CN113297196A (zh) 智慧农业aiot分布式大数据存储平台
Sarker et al. Big data driven smart agriculture: Pathway for sustainable development
Yan-e Design of intelligent agriculture management information system based on IoT
CN113778967B (zh) 长江流域数据采集处理与资源共享系统
LeBauer et al. BETYdb: A yield, trait, and ecosystem service database applied to second‐generation bioenergy feedstock production
CN110334274A (zh) 信息推送方法、装置、计算机设备和存储介质
CN105761150B (zh) 农作物信息及样本的采集方法和系统
CN106407278A (zh) 一种大数据平台的架构设计系统
CN112612908A (zh) 自然资源知识图谱构建方法、装置、服务器及可读存储器
CN111627552A (zh) 一种医疗流式数据血缘关系分析、存储方法及装置
CN112883001A (zh) 一种基于营配贯通数据可视化平台的数据处理方法、装置及介质
CN113988794A (zh) 一种多数据集成的农村农业信息系统及方法
CN112328577A (zh) 一种基于县域的农业大数据管理系统及方法
CN108416524A (zh) 基于一张图通用框架的产业规划精细化解读方法
CN112817958A (zh) 电力规划数据采集方法、装置及智能终端
CN111986042A (zh) 一种基于互联网技术构建农业大数据服务体系
CN113506098A (zh) 基于多源数据的电厂元数据管理系统及方法
Vakulenko et al. Formation of information support system for the management of agricultural enterprises
CN116881376A (zh) 一种企业数据资产的自动探索方法
CN116561114A (zh) 一种基于元数据的管理方法
CN110570255A (zh) 一种基于dmp的多源系统的市场需求数据实时分析的方法及系统
CN114925042A (zh) 一种基于图形数据库的元数据关系的构建方法
CN113934796A (zh) 用于地下水应用服务系统的数据库子系统及数据查询方法
CN115455490A (zh) 一种基于区块链的碳权资产数字化采集方法
Sayed et al. A comparative study of big data use in Egyptian agriculture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210824

WD01 Invention patent application deemed withdrawn after publication