CN115617919A

CN115617919A - 一种用于农业数据分析处理的数据中台系统

Info

Publication number: CN115617919A
Application number: CN202211636124.XA
Authority: CN
Inventors: 陈先锋; 狄玉坤; 张颖; 曹建龙; 张林奎; 毕旭东
Original assignee: Sinochem Agriculture Holdings
Current assignee: Sinochem Agriculture Holdings
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-01-17

Abstract

本发明涉及一种用于农业数据分析处理的数据中台系统,属于大数据技术领域。所述系统包括数据采集模块和数据存储模块；所述数据采集模块从多种数据源采集数据得到数据信息，根据自定义的映射关系将所述数据信息映射为格式化数据，将所述格式化数据存储于所述数据存储模块中；所述数据存储模块对所述格式化数据进行分布式存储和数据备份存储，实现服务器集群之间的存储资源共享。本系统将各农业系统不同数据源、不同数据格式的数据格式化并统一存储，提高了数据之间的共享互通；通过分布式存储提高了数据中台系统的存储能力与计算能力，解决了大量农业数据分析处理的计算瓶颈，为农业的经营决策及管理提供高效便捷的数据支持。

Description

一种用于农业数据分析处理的数据中台系统

技术领域

本发明属于大数据技术领域，尤其涉及一种用于农业数据分析处理的数据中台系统。

背景技术

农业数据分析处理的主要技术是数据中台系统。通常情况下，数据中台系统同步所属农业产品后台数据，存储于数据中台，根据自定义业务逻辑对该农业数据进行挖掘、分析、处理获取结果数据集，并对结果数据集进行封装，为农业领域从事人员提供可视化查询、查看入口，从而为其运营决策提供数据支持。

现有技术中，在实现数据分析时，通过数据关键词信息进行编码加工处理，如果数据源来源复杂，数据特征不一，可能会出现各不同数据源的数据分别分析，无法整合处理，造成不同业务系统之间数据割裂的问题。

目前国内各农业系统由于业务模式不同，数据生成方式复杂多样，造成数据存储格式不同，数据之间难以交互共享，常规存储模式无法应对大数据量的存储要求，造成数据分开存储，导致数据分散；常规计算模式无法高效的对大数据量农业数进行分析计算，不便于挖掘数据价值，造成农业数据的资源浪费。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种用于农业数据分析处理的数据中台系统，将各农业系统不同数据源、不同数据格式的数据格式化并统一存储，提高了数据之间的共享互通；通过分布式存储提高了数据中台系统的存储能力与计算能力，解决了大量农业数据分析处理的计算瓶颈，为农业的经营决策及管理提供高效便捷的数据支持。

根据本发明的一个方面，本发明提供了一种用于农业数据分析处理的数据中台系统,所述系统包括数据采集模块和数据存储模块；

所述数据采集模块从多种数据源采集数据得到数据信息，根据自定义的映射关系将所述数据信息映射为格式化数据，将所述格式化数据存储于所述数据存储模块中；

所述数据存储模块对所述格式化数据进行分布式存储和数据备份存储，实现服务器集群之间的存储资源共享。

优选地，所述系统包括数据录入模块；

所述数据录入模块支持自定义二维表表头、多种数据录入方式以及对录入数据的自动校验，通过设置字段主键值防止数据重复录入。

优选地，所述系统包括编码模块；

所述编码模块支持多种编码语言对数据进行分析处理，所述编码模块对数据存储模块中的数据按照数据仓库分层架构及具体业务逻辑使用编码语言进行处理、存储；所述编码语言包括hive。

优选地，所述数据仓库分层架构包括：

贴源层：用于存放数据录入模块录入的数据以及通过数据采集模块从其他数据源采集的数据，每个数据在贴源层中形成一张单独的数据表；

基础层：用于按照主题通过hive脚本对贴源层的表进行数据清洗并汇集成业务主题，存入基础层的主题表中；

汇聚层：用于结合标签体系，将基础层中已经汇聚成主题的表加上主题相关的自定义统计项，结合形成汇聚层表；

应用层：用于存放根据基础层主题数据及汇聚层的标签体系数据，经过自定义逻辑处理后，为经营决策提供数据支持的结果集数据。

优选地，所述编码模块内置多种编码语言的解析器、编译器、执行器及自定义函数解析器，引用数据处理公式对数据进行关联及聚合计算分析，并将处理后的结果数据存储于所述存储模块中。

优选地，所述数据处理公式包括不允许编辑和更改的基本公式和允许通过Java语法编辑的自定义公式。

优选地，所述编辑自定义公式包括：

在maven项目中重新编辑自定义公式并打成jar包；在数据中台系统中重新上传编辑的jar包，自动完成自定义公式更新；

所述编码模块对数据进行编码包括：在可视化界面进行代码脚本的编写，集成脚本的版本控制功能，依据发布功能进行版本的更新和回滚；采用内置的解析器对提交执行的代码脚本进行代码解析及自定义函数解析；使用多种计算引擎进行计算。

优选地，所述系统包括编码存储模块；

所述编码存储模块用于存储编码模块开发的业务代码，使得所述业务代码与所述数据信息分离存储。

优选地，所述系统包括数据分析模块，

所述数据分析模块对存储模块中的数据进行分析处理，通过工作流调动执行代码脚本的方式对数据进行计算分析，所述工作流之间定义有依赖关系，用于进行执行先后顺序的控制。

优选地，所述通过工作流调动执行代码脚本的方式对数进行计算分析包括：

通过可视化界面配置工作流节点的脚本引用及调度节点的依赖关系；自定义配置等待时间，根据节点是否完成当前的执行任务确定是否进入执行计算阶段或者进入执行等待状态。

有益效果：本发明通过构建集采集、存储、计算一体的数据中台系统提高数据间的共享互通与安全性、提高针对大数据量农业数据的存储与计算能力，更高效的挖掘数据价值，为农业领域的数据管理与数据应用提供一体化服务。本发明将各农业系统不同数据源，不同数据格式的数据格式化并统一存储，避免数据分离，提高数据之间的共享互通。提高大数据量农业数据的计算能力，挖掘数据潜力，提高农业数据价值，支持农业的发展。为政府及企业的农业生产管理及经营决策提供数据支持。为农业领域的数据管理与数据应用提供一体化服务。

通过参照以下附图及对本发明的具体实施方式的详细描述，本发明的特征及优点将会变得清楚。

附图说明

图1是用于农业数据分析处理的数据中台系统的结构示意图；

图2是编码模块的结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是用于农业数据分析处理的数据中台系统的结构示意图。如图1所示，本发明提供了一种用于农业数据分析处理的数据中台系统,所述系统包括数据采集模块和数据存储模块；

具体地，数据采集模块支持多种数据源数据采集，数据源包括MySQL、Oracle、Db2、MongoDB、Kafka。数据采集模块对接收到的数据信息进行提取关键词特征信息，并将提取的关键词特征信息与数据中台系统的Hive表字段按照自定义映射关系，存储于Hive表中。数据采集模块支持将MongoDB的JSON格式数据直接编译，按照自定义映射关系写入数据中台的Hive表中。

数据存储模块支持数据录入模块、数据采集模块获取数据的存储。数据存储模块支持分布式，服务器集群之间存储资源共享，提高数据的存储能力。数据存储模块支持备份机制，采用多副本存储，提高数据存储的安全性。

优选地，所述系统包括数据录入模块；

具体地，数据录入模块支持自定义二维表表头设计；数据录入模块支持多种数据录入方式，包括单条数据录入、删除、修改以及文件上传对全量数据进行覆写；数据录入模块支持对录入数据自动校验，通过设置字段主键唯一防止数据重复录入，当有重复数据录入时，页面弹窗“存在重复数据录入问题”。

优选地，所述系统包括编码模块；

具体地，编码模块支持多种编码语言对数据进行分析处理，包括Hive、Shell、Python、Spark；通过编码模块对数据存储模块中的数据按照数仓分层架构及具体业务逻辑使用编码语言进行处理、存储。

优选地，所述数据仓库分层架构包括：

具体地，所述数据中台系统数仓分层架构：

（1）贴源层（ODS层,以下简称为“ods”或“ods 层”）：用于存放数据录入模块录入的数据以及通过数据采集模块从其他数据源采集的数据。每个接入的数据都会在ods层中形成一张单独的数据表。

（2）基础层（DWD 层，以下简称为“dwd”或“dwd层”）：dwd层中的表按照“主题” 进行规划与建设，通过hive脚本对ods层的表进行数据清洗并汇集成某个业务主题，存入dwd层的主题表中。本层代表了对现有业务领域的划分，并作为业务的数据资产进行留存。

（3）汇聚层（DWS层，以下简称为“dws”或“dws层”）：结合标签体系，dws层中的表,是dwd中已经汇聚成主题的表，再加上主题相关的自定义统计项所结合成的宽表。

（4）应用层（ADS层，以下简称为“ads”或“ads层”）：用于存放根据基础层主题数据及汇聚层的标签体系数据，经过自定义逻辑处理后，为农业领域用户的经营决策提供数据支持的结果集数据。

数仓分层构建，能够提高代码的复用性，提高计算资源的使用率。由于常规的数据中台系统中数据采集、数据的存储计算、工作流调度模块彼此分离，开发模式复杂、开发效率低，且由于数据采集与计算模块彼此分离，无法整体调度可能导致数据空跑现象，影响数据的准确性。该数据中台系统可提供一体化的服务，弥补以上缺陷，提供更加便捷的开发模式以及更完善的调度体系。该农业数据中台系统，不仅集成了数据采集模块对标准数据源MySQL、Oracle、Db2、MongoDB、Kafka数据的采集，针对农业数据的特殊性，提供了数据录入模块，可为一线农业作业人员提供方便便捷的数据录入窗口并进行录入数据的采集。

具体地，参考图2，编码模块可读取存储模块的数据，并依据业务需求，将业务逻辑通过编码模块使用Hive、Shell等语言表达，编码模块内置Hive、Shell等语言的解析器、编译器、执行器及自定义函数解析器，引用基本公式及自定义公式对数据进行关联及聚合计算分析数据，并将处理后的结果数据存储于存储模块。结果数据可被BI工具（如Finereport等）直接读取进行可视化展示；结果数据可通过Sqoop同步到系统外数库中被BI工具（如Finereport、Quick BI等）间接读取进行可视化展示。

具体地，编码模块的基本单元为节点，所述数据加工节点包括：（1）数据获取：用于从存储模块中获取基础农业数据；（2）数据处理：用于根据数据处理公式对基础农业数据进行分析处理得到直观农业数据，数据中台系统内置有数据处理公式，数据处理公式可供所有节点共用，所述数据处理公式能够被编辑和更改。

数据处理公式包括基本公式与自定义公式两种：

基本公式（不支持编辑与更改）为常用的数据处理公式主要包括：

（1）关系运算：

所述关系运算包括：等值比较、不等值比较、小于比较、小于等于比较、大于比较、大于等于比较；

（2）数学运算：

所述数学运算包括：加法操作、减法操作、乘法操作、除法操作、取余操作；

（3）数值计算：

所述数值计算包括：近似函数、指定精度近似函数、向下取整函数、向上取整函数、向上取整函数、取随机函数、自然指数函数、对数函数、幂运算函数；

（3）聚合函数：

所述聚合函数包括：统计函数、求和函数、平均值函数、最小值函数、最大值函数、总体方差函数、样本方差函数、总体标准差函数、样本标准差函数、百分位函数、百分位函数、近似百分位函数、近似百分位函数、直方图；

（4）日期函数：

所述日期函数包括：UNIX 时间戳转日期函数、获取当前 UNIX 时间戳函数、日期转 UNIX 时间戳函数、指定格式日期转 UNIX 时间戳函数、日期时间转日期函数、日期转年函数、日期转月函数、日期转天函数、日期转小时函数、日期转分钟函数、日期转秒函数、日期转周函数、日期比较函数、日期增加函数、日期减少函数；

（5）字符串函数：

所述字符串函数包括：字符串长度函数、字符串反转函数、字符串连接函数、带分隔符字符串连接函数、字符串截取函数、字符串截取函数、字符串转大写函数、字符串转小写函数、去空格函数、左边去空格函数、右边去空格函数、正则表达式替换函数、正则表达式解析函数、URL 解析函数、JSON 解析函数、空字符串函数、重复字符串函数、首字符 ASCII函数、左补足函数、右补足函数、分割字符串函数、集合查找函数。

优选地，所述编辑自定义公式包括：

具体地，当基本公式无法满足数据处理要求时，该数据中台系统支持通过Java语法编辑自定义公式（支持编辑与修改）并引入使用

（1）自定义公式编辑步骤包括：

1、构建maven项目

2、定义类继承继承 org.apache.hadoop.hive.ql.exec.UDF或org.apache.hadoop.hive.ql.udf.generic.GenericUDF；

3、重写evaluate 或initialize、process、close方法；

4、将项目打成jar包。

（2）数据中台系统自定义公式引入及使用步骤包括：

1、进入数据中台系统资源管理的自定义公式模块；

2、点击“新增”构建自定义公式，配置自定义公式的相关信息：自定义公式名称、包名.类名、参数、公式使用说明；

3、在构建自定义函数模块点击“自定义公式文件上传”上传自定义公式jar包文件，完成自定义公式引入；

4、通过自定义公式名称调用使用。

（3）自定义公式编辑更改方法包括：

1、在maven项目中重新编辑自定义公式并打成jar包；

2、在数据中台系统中重新上传编辑的jar包自动完成自定义公式更新；

（3）数据写出：将处理后的数据写出到下层数据表中。

其中编码步骤包括：

（1）编码模块内置Hive、Shell、Python、Spark语言的解析器、编译器、执行器及自定义函数解析器；

（2）可视化界面进行代码脚本的编写，并集成脚本的版本控制功能，依据发布功能进行版本的更新，并可进行版本回滚；

（3）编写的代码脚本提交执行后采用内置的解析器进行代码解析及自定义函数解析；

（4）使用MR、Spark、Tez等计算引擎进行计算。

优选地，所述系统包括编码存储模块；

具体地，编码存储模块用于存储编码模块开发的业务代码，与数据存储分离，降低存储耦合度，提高数据安全性。

优选地，所述系统包括数据分析模块，

具体地，数据分析模块支持分布式，服务器集群计算资源共享，采用服务器集群资源进行计算，提高了计算能力。

数据流交互支持多种依赖关系，用于进行执行先后顺序控制，具体包括：

（1）各节点之间的数据流交互可自定义依赖关系，进行执行先后顺序控制，形成一级工作流。

（2）一级工作流之间可自定义依赖关系，进行执行先后顺序控制，形成二级工作流。

具体地，通过工作流调动执行代码脚本的方式对数进行计算分析包括：

（1）通过可视化界面的方式配置工作流节点的脚本引用及调度节点的依赖关系；

（2）支持自定义调度时间配置；

（3）支持依赖节点间的执行等待，可自定义配置等待时间，当上游节点未执行完成，而下游节点已启动执行的情况下，不进行工作流的错误判断，也不进入执行计算阶段，而进入执行等待状态，等待上游节点完成后自动执行，可避免由于上游节点完成时间延迟造成工作流整体中断的情况。

优选地，所述系统还包括客户端，所述客户端支持安装在智能手机上、笔记本电脑上以及集成到其他业务系统中；所述客户端支持功能权限、数据权限管控，即不同用户可以分配不同的功能权限、数据权限；所述客户端为用户与数据中台系统交互的入口，通过客户端用户可对数据中台系统进行操作、数据查询、数据录入。

优选地，所述系统还包括其他农业服务系统，所述其他农业服务系统包括农业遥感系统、农产品质量追溯系统、农村综合信息服务系统等。

本实施例中，数据采集模块支持多种数据源数据采集，数据源包括MySQL、Oracle、Db2、MongoDB、Kafka，能够支持农业领域不同业务方向的数据源的数据采集需求。

数据采集模块支持将MongoDB的JSON格式数据直接编译，按照自定义映射关系写入数据中台的Hive表中，支持复杂数据库数据资源的直接同步。

编码模块支持多种编码语言对数据进行分析处理，包括Hive、Shell、Python、Spark。多种语言兼容，能够支持农业领域更为复杂的业务逻辑开发需求。

数据分析模块支持服务器集群的资源共享，使用服务器集群资源进行计算分析。

本实施例在实现时，首先进行数据获取：从存储模块中获取基础农业数据；然后进行数据处理：根据数据处理公式对基础农业数据进行分析处理得到直观农业数据，数据中台系统内置有数据处理公式，数据处理公式可供所有节点共用，所述数据处理公式能够被编辑和更改；最后进行数据写出：将处理后的数据写出到数据表中。

本发明通过构建集采集、存储、计算一体的数据中台系统提高数据间的共享互通与安全性、提高针对大数据量农业数据的存储与计算能力，更高效的挖掘数据价值，为农业领域的数据管理与数据应用提供一体化服务。本发明将各农业系统不同数据源，不同数据格式的数据格式化并统一存储，避免数据分离，提高数据之间的共享互通。提高大数据量农业数据的计算能力，挖掘数据潜力，提高农业数据价值，支持农业的发展。为政府及企业的农业生产管理及经营决策提供数据支持。为农业领域的数据管理与数据应用提供一体化服务。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种用于农业数据分析处理的数据中台系统,其特征在于，所述系统包括数据采集模块和数据存储模块；

2.根据权利要求1所述的系统，其特征在于，所述系统包括数据录入模块；

3.根据权利要求2所述的系统，其特征在于，所述系统包括编码模块；

4.根据权利要求3所述的系统，其特征在于，所述数据仓库分层架构包括：

5.根据权利要求3所述的系统，其特征在于，所述编码模块内置多种编码语言的解析器、编译器、执行器及自定义函数解析器，引用数据处理公式对数据进行关联及聚合计算分析，并将处理后的结果数据存储于所述存储模块中。

6.根据权利要求5所述的系统，其特征在于，所述数据处理公式包括不允许编辑和更改的基本公式和允许通过Java语法编辑的自定义公式。

7.根据权利要求6所述的系统，其特征在于，所述编辑自定义公式包括：

8.根据权利要求7所述的系统，其特征在于，所述系统包括编码存储模块；

9.根据权利要求8所述的系统，其特征在于，所述系统包括数据分析模块，

10.根据权利要求9所述的系统，其特征在于，所述通过工作流调动执行代码脚本的方式对数进行计算分析包括：