CN114443790B

CN114443790B - 一种耕地数据集成方法、设备、存储介质

Info

Publication number: CN114443790B
Application number: CN202111584238.XA
Authority: CN
Inventors: 徐胜利; 关鹏; 吕灿宾
Original assignee: Shandong Land Group Digital Technology Co ltd
Current assignee: Shandong Land Group Digital Technology Co ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2024-08-06
Anticipated expiration: 2041-12-22
Also published as: CN114443790A

Abstract

本申请公开了一种耕地数据集成方法、设备、存储介质，该方法包括：获取激光雷达采集的第一图像数据，对第一图像数据进行均值滤波处理，生成更新后的第二图像数据；从多个数据源提取耕地数据，结合激光雷达采集的图像数据，生成反映耕地情况的第一耕地元数据；根据预先设置的过滤条件对第一耕地元数据进行筛选；其中，第一耕地元数据为非结构化的数据；将筛选出的第一耕地元数据进行数据转换，确定第二耕地元数据；其中，第二耕地元数据为结构化的数据；连接目标数据库，将第二耕地元数据导入到目标数据库中；接收用户的查询请求，根据查询请求对第二耕地元数据进行相关性分析，生成用户查询的耕地数据。

Description

一种耕地数据集成方法、设备、存储介质

技术领域

本申请涉及数据集成领域，尤其涉及一种耕地数据集成方法、设备、存储介质。

背景技术

耕地，是人类赖以生存的基本资源和条件。进入21世纪，人口不断增多，耕地逐渐减少，人民生活水平不断提高，保持农业可持续发展首先要确保耕地的数量和质量。

现有的耕地数据往往由不同的部门各自进行采集，而部门与部门之间缺乏沟通和交流，导致采集的耕地数据存在分散的现象，并且各部门针对反映同一信息的耕地数据进行采集，也会出现导致数据量庞大，出现数据重叠或不一致的情况。

这种现象的存在，导致各部门掌握的信息一致性差，难以统一耕地信息，彼此之间的数据难以共享，不利于对耕地的保护，同时会使耕地数据有一定的重复性，造成资源的浪费。

发明内容

本申请提供了一种耕地数据集成方法、设备、存储介质，解决了耕地数据重复且分散，难以为用户提供可共享、有效的耕地信息的技术问题。

一种耕地数据集成方法，包括：

获取激光雷达采集的第一图像数据，确定所述第一图像数据的像素点；根据所述像素点中一定数量的像素点的平均值确定核处理参数，根据所述核处理参数对所述第一图像数据的每一个像素点进行核处理，获得每一个像素点的更新值，生成更新后的第二图像数据；

从多个数据源提取耕地数据，结合激光雷达采集的所述第二图像数据，生成反映耕地情况的第一耕地元数据；

根据预先设置的过滤条件对所述第一耕地元数据进行筛选；其中，所述第一耕地元数据为非结构化的数据；

将筛选出的第一耕地元数据进行数据转换，确定第二耕地元数据；其中，所述第二耕地元数据为结构化的数据；

连接目标数据库，将所述第二耕地元数据导入到所述目标数据库中；

接收用户的查询请求，根据所述查询请求对所述第二耕地元数据进行相关性分析，生成所述用户查询的耕地数据。

在本申请的一种实施例中，根据预先设置的过滤条件对所述第一耕地元数据进行筛选，具体包括：对多个数据源进行访问，从所述多个数据源中提取第一耕地元数据；将所述第一耕地元数据转换为统一的数据标准；根据预先设置的字段过滤条件，对统一数据标准后的所述第一耕地元数据中的字段进行筛选，筛选出满足所述字段过滤条件的第一耕地元数据；根据预先设置的字段值过滤条件，对筛选出满足所述字段过滤条件的第一耕地元数据进行筛选，筛选出满足所述字段值过滤条件的第一耕地元数据。

在本申请的一种实施例中，将筛选出的第一耕地元数据进行数据转换，确定第二耕地元数据，具体包括：确定所述筛选出的第一耕地元数据的内容和结构；根据所述内容和结构，判断所述筛选出的第一耕地元数据是否存在数据质量问题；若是，对所述筛选出的第一耕地元数据进行异常标记；根据所述异常标记对所述筛选出的第一耕地数据进行数据清洗，以确定所述第一耕地元数据的准确性和完整性；将数据清洗后的第一耕地数据的数据名称和数据格式进行统一，并更改所述数据清洗后的第一耕地元数据的数据结构，以确定第二耕地元数据。

在本申请的一种实施例中，根据所述异常标记对所述第一耕地数据进行数据清洗，具体包括：若检测到所述筛选出的第一耕地元数据中存在重复数据，则对所述重复数据进行删除操作；若检测到所述筛选出的第一耕地元数据中存在缺失数据，则根据所述筛选出的第一耕地元数据中的未缺失数据确定所述缺失数据的值，并验证所述缺失数据的值的正确性；若检测到所述筛选出的第一耕地元数据的数据类型不符合转换标准，则将所述筛选出的第一耕地元数据的数据类型转换为符合所述转换标准的数据类型。

在本申请的一种实施例中，连接目标数据库，将所述第二耕地元数据导入到所述目标数据库中，具体包括：若检测到目标数据库不存在历史数据，则将所述第二耕地元数据导入到所述目标数据库中；若检测到所述目标数据库存在历史数据，则将所述历史数据与所述第二耕地元数据进行匹配，判断所述第二耕地元数据是否存在所述目标数据库；若否，则将所述第二耕地元数据导入到所述目标数据库中；若是，判断所述第二耕地元数据是否部分存在于所述目标数据库中；若是，则将所述第二耕地元数据从数据中断处进行导入或将所述历史数据删除后进行导入。

在本申请的一种实施例中，所述方法还包括：当用户需要查询特定区域内不同种类的农作物在耕地面积中的占比时，获取来自多个数据源的第一耕地元数据；确定计算不同种类农作物在耕地面积中的占比需要的相关字段以及对应的字段值，根据所述相关字段以及对应的字段筛选出符合要求的数据；其中，所述相关字段包括所述耕地面积的字段、所述农作物种类的字段；将所述耕地面积的字段、所述农作物种类的字段对应的数据进行修改使所述对应的数据符合转换标准，并将所述耕地面积的字段、所述农作物种类的字段对应的数据的数据类型转换为数值类型的数据；根据所述耕地面积的字段、所述农作物种类的字段中对应数值类型的数据计算特定区域内不同种类的农作物在耕地面积中的占比。

在本申请的一种实施例中，所述第一耕地元数据对应多种数据处理方式，所述方法还包括：若所述第一耕地元数据的数据形态为批量数据，则根据预设周期对所述第一耕地元数据进行数据调度，以获取来自多个数据源的第一耕地元数据；若所述第一耕地元数据的数据形态为流式数据，则确定处理所述流式数据的应用，根据所述应用对所述第一耕地元数据进行数据调度，以获取来自多个数据源的第一耕地元数据；若所述第一耕地元数据的数据形态为海量数据，则通过分布式集群的管理模式，由主服务器调度辅服务器，向所述辅服务器下发数据调度任务，通过所述辅服务器进行并发操作，以获取来自多个数据源的第一耕地元数据。

在本申请的一种实施例中，根据所述查询请求对所述第二耕地元数据进行相关性分析，生成所述用户查询的耕地数据，具体包括：根据所述查询请求，在所述第二耕地元数据中确定进行相关性分析的变量；获取所述变量对应的字段以及字段值；根据所述对应的字段以及字段值，验证所述变量之间的相关性，得到所述变量之间的相关值；若相关值小于预设阈值，则标记所述变量之间存在相关性；对具有相关性的变量进行回归分析，确定所述具有相关性的变量之间对应的数学表达式，以生成所述用户查询的耕地数据。

一种耕地数据集成设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

一种耕地数据集成存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

本申请提供了一种耕地数据集成方法、设备、存储介质，至少包括以下有益效果：通过激光雷达采集图像数据，能够根据物体不同的光谱获取对应物体的信息，然后对获取到的图像信息通过滤波做去噪处理，得到想要的数据，降低了通过人力去分析的成本，更容易获得研究数据，能够更好地对耕地进行监测。通过结合多个数据源采集的耕地数据与激光雷达获取的图像数据，能够使耕地数据更加真实、全面，为数据的相关性分析提供数据支撑。对上述耕地数据进行数据转换，将非结构化的耕地数据转化为结构化的耕地数据。同时，构建数据库存储上述结构化耕地数据。通过采集数据库中的元数据，建立相应的元数据库，从而屏蔽底层数据源的差异性，为用户提供数据的访问透明，实现数据集成。通过对数据进行相关性分析，为用户查询数据提供了方便。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种耕地数据集成方法的步骤示意图；

图2为本申请实施例提供的一种耕地数据集成设备的组成结构图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例对本申请进行清楚、完整的描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

耕地，是人类赖以生存的基本资源和条件。进入21世纪，人口不断增多，耕地逐渐减少，人民生活水平不断提高，保持农业可持续发展首先要确保耕地的数量和质量。因此，能够从耕地数据中提取有效信息就变得十分重要。

本申请提供的一种耕地数据集成方法，通过激光雷达采集图像数据，能够根据物体不同的光谱获取对应物体的信息，然后对获取到的图像信息通过滤波做去噪处理，得到想要的数据，降低了通过人力去分析的成本，更容易获得研究数据，能够更好地对耕地进行监测。通过结合多个数据源采集的耕地数据与激光雷达获取的图像数据，能够使耕地数据更加真实、全面，为数据的相关性分析提供数据支撑。对上述耕地数据进行数据转换，将非结构化的耕地数据转化为结构化的耕地数据。同时，构建数据库存储上述结构化耕地数据。通过采集数据库中的元数据，建立相应的元数据库，从而屏蔽底层数据源的差异性，为用户提供数据的访问透明，实现数据集成。通过对数据进行相关性分析，为用户查询数据提供了方便。需要说明的是，本申请的数据集成方法基于搭建的数据集成系统实现。下面进行具体说明。

图1为本申请实施例提供的一种耕地数据集成方法步骤示意图，可以包括以下步骤：

S101：获取激光雷达采集的第一图像数据，确定所述第一图像数据的像素点；根据所述像素点中一定数量的像素点的平均值确定核处理参数，根据所述核处理参数对所述第一图像数据的每一个像素点进行核处理，获得每一个像素点的更新值，生成更新后的第二图像数据。

在本申请的一种实施例中，对第一图像数据进行降噪处理可以通过均值滤波、高斯滤波、方框滤波、中值滤波等对第一图像数据进行去噪处理生成第二图像数据。

在本申请的一种实施例中，对第一图像数据采取均值滤波操作，确定第一图像数据的像素点；在该像素点中选取一定数量的相邻像素点，获取一定数量的相邻像素点的平均值作为核处理参数，比如选取了5×5的像素点，那么每一个这25个像素点的平均值为1/25，则核处理参数也为1/25。根据核处理参数对第一图像数据的每一个像素点进行核处理，获得每一个像素点的更新值，对像素点的值进行更新，生成更新后的第二图像数据。

S102：从多个数据源提取耕地数据，结合激光雷达采集的第二图像数据，生成反映耕地情况的第一耕地元数据。

激光雷达点云能够提供密集的点阵数据，能够穿过部分植被的叶冠，可用于获取小区域范围内的农田微地形、作物结构参数提取。

采集图像数据的激光雷达可以采用多光谱对地激光雷达、地基激光雷达等，多光谱对地激光雷达利用多光谱对地观测激光雷达系统，可同步获取观测对象空间三维信息及四波段激光反射率信息；对空间几何数据与多光谱数据的联合处理，可大大提高对地观测精度。并且，由于所选取的四个波段反射率信息与植被重要的生理指标(如氮含量、水份含量、色素含量等)高度相关，因此，利用多光谱对地观测激光雷达系统获取的激光光谱信息，可实现对植被冠层进行有效监测。且多光谱激光雷达系统对病态植被与健康植被的区分精度较高。

地基激光雷达在三维信息获取方面，具有精度高、效率快等优势，将其应用于作物表型监测领域有助于获取作物三维表型信息，提升表型参数获取的通量和精度。

对多光谱对地激光雷达进行滤波处理，能够得到去除建筑物或作物高度等信息的图像，由此便可反映出土地的层次信息、土壤信息、作物信息的第一耕地元数据。比如，构建改进的多级移动曲面拟合雷达数据滤波方法，通过多尺度、多层次的点云滤波过程，迭代实现农田微地形的恢复重建，可为农田土壤侵蚀、灌溉规划设计、农田污染研究提供高精度的农田地面模型。比如通过地基激光雷达获取点云数据，对点云数据进行重采样，结合生态学特征等区分作物的茎秆与叶片。

在获取激光雷达数据的基础上融合多个数据源的耕地数据进行分析，能够获得全面的、精确的耕地信息，进一步为耕地的监控和研究提供数据支撑。

S103：根据预先设置的过滤条件对第一耕地元数据进行筛选；其中，第一耕地元数据为非结构化的数据。

在本申请的一种实施例中，获取激光雷达采集耕地的图像数据，从图像数据中获取相应的耕地信息，比如农作物种类、土壤湿度等，与从多个数据源采集的耕地数据作对比，以及与多个数据源采集的数据进行关联，生成第一耕地元数据；将第一耕地元数据转换为统一的数据标准；根据预先设置的字段过滤条件，对统一数据标准后的第一耕地元数据中的字段进行筛选，筛选出满足字段过滤条件的第一耕地元数据；根据预先设置的字段值过滤条件，对筛选出满足字段过滤条件的第一耕地元数据进行筛选，筛选出满足字段值过滤条件的第一耕地元数据。

具体地，数据源包括网站、文件、电子邮件、电子表单、数据库、消息队列、文件系统等，为数据集成提供数据支持，第一耕地元数据可以包括图片数据、文字数据、语音数据等，将第一耕地元数据数据标准化，数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据标准化的方法有很多种，常用的有"最小-最大标准化"、"Z-score标准化"和"按小数定标标准化"等，此处不作限定。经过上述标准化处理，第一耕地元数据形成了统一的数据标准，均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析。

用户可以根据要集成的数据设置过滤条件，例如，第一耕地元数据包括农作物的种类，耕地总面积，耕地的土壤含水量等，农作物的种类有西红柿、黄瓜、苹果等，若用户想要查询土壤含水量小于60％的黄瓜种植地在耕地总面积的占比，可以通过在对统一数据标准后的第一耕地元数据中选择筛选出土壤含水量的字段，对应的字段值为小于60％，同时选择筛选出农作物种类的字段，对应的字段值为黄瓜，经过计算机筛选后即可得到满足过滤条件的第一耕地元数据。

在本申请的一种实施例中，第一耕地元数据对应多种数据处理方式，若第一耕地元数据的数据形态为批量数据，则根据预设周期对第一耕地元数据进行数据调度，以获取来自多个数据源的第一耕地元数据；若第一耕地元数据的数据形态为流式数据，则确定处理流式数据的应用，根据应用对第一耕地元数据进行数据调度，以获取来自多个数据源的第一耕地元数据；若第一耕地元数据的数据形态为海量数据，则通过分布式集群的管理模式，由主服务器调度辅服务器，向辅服务器下发数据调度任务，通过辅服务器进行并发操作，以获取来自多个数据源的第一耕地元数据。

具体地，批量数据是指包含许多数据，而且这些数据之间存在一定逻辑关系，如数学中的向量、矩阵、一个班学生成绩表等。这种数据不论是存储，还是处理都需要考虑它们的逻辑关系。如果是对批量数据的定时处理，程序设计好之后还需要配置好定时任务进行周期性的数据调度，比如按天、周、月批量调度处理数据；对于流式数据的处理，还需要部署一些流数据的处理应用，例如MQTT、Kafka等；

如果数据是对海量数据的处理，还需考虑分布式集群的部署方式，需要多台服务器配合组成集群环境，采用分布式集群管理模式，使主服务器下发任务，调度其他的辅服务器进行并发的操作，以获取来自多个数据源的第一耕地元数据。

通过部署处理不同形态数据的服务器和在服务器上安装处理不同形态数据的应用，能够扩大数据集成系统的适用范围，增加对数据的兼容性。

S104：将筛选出的第一耕地元数据进行数据转换，确定第二耕地元数据；其中，第二耕地元数据为结构化的数据。

在本申请的一种实施例中，确定筛选出的第一耕地元数据的内容和结构；根据内容和结构，判断筛选出的第一耕地元数据是否存在数据质量问题；若是，对筛选出的第一耕地元数据进行异常标记；根据异常标记对筛选出的第一耕地数据进行数据清洗，以确定第一耕地元数据的准确性和完整性；将数据清洗后的第一耕地数据的数据名称和数据格式进行统一，并更改数据清洗后的第一耕地元数据的数据结构，以确定第二耕地元数据。

具体地，用统计分析的方法识别可能的错误值或异常值，如偏差分析、识别不遵守分布或回归方程的值，也可以用简单规则库(常识性规则、业务特定规则等)检查数据值，若第一耕地数据中获得的某区域内黄瓜所占耕地面积比耕地总面积的值都要大，显然这是不正确的，或者检测到黄瓜所占耕地面积的值缺失，则判断第一耕地元数据存在数据质量问题，对该区域黄瓜所占耕地面积进行异常标记。则对标记之后的错误数据可以根据同一指标数据的的计算结果(均值、中位数、众数等)进行填充或纠正，确保第一耕地元数据的准确性和完整性。

由于是多个数据源采集的数据，不同数据源中表示同样意义的数据往往表现形式不同，比如在不同文件中，数据名称为总面积和耕地总面积表示的意义相同，完全可以统一成相同的数据名称，而数据格式包括文本文档、Excel等，数据类型包括数值和文本、长整型等。为了使数据更加规范统一，更改并统一数据清洗后的第一耕地元数据的数据名称、数据格式和数据结构，以确定第二耕地元数据，第二元数据为结构化数据。

在本申请的一种实施例中，若检测到筛选出的第一耕地元数据中存在重复数据，则对重复数据执行删除操作；若检测到筛选出的第一耕地元数据中存在缺失数据，则根据筛选出的第一耕地元数据中未缺失数据的计算结果(均值、中位数、众数等)确定并填充缺失数据的值，并验证缺失数据的值的正确性；若检测到筛选出的第一耕地元数据的数据类型不符合转换标准，则将筛选出的第一耕地元数据的数据类型转换为符合转换标准的数据类型，比如将文本类型的数据转换成数值类型的数据。通过对数据进行质量检测，保证了数据的准确性和完整性。

S105：连接目标数据库，将第二耕地元数据导入到目标数据库中。

在本申请的一种实施例中，当第二元数据若检测到目标数据库不存在历史数据，则将第二耕地元数据导入到目标数据库中；若检测到目标数据库存在历史数据，则将历史数据与第二耕地元数据进行匹配，判断第二耕地元数据是否存在目标数据库；若否，则将第二耕地元数据导入到目标数据库中；若是，判断第二耕地元数据是否部分存在于目标数据库中；若是，则将第二耕地元数据从数据中断处进行导入或将历史数据删除后进行导入。

具体地，如果在导入目标数据库时出现突发状况导致输入中断，那么再次向目标数据库导入时，为了防止目标数据库中的数据出现重复，则在数据导入前可先检查数据库中是否已经存在导入数据。当向目标数据库中输入土壤类型数据时，先检查目标数据库是否存在历史数据，若其中不包括历史数据，直接进行增量数据的插入；若检测到包括历史数据，需要考虑新数据对于历史数据的影响，是否会造成目标数据冗余，或者是错误；为杜绝此类情况需再检测该历史数据是否为土壤类型数据，若否，直接将数据导入；如果检测该历史数据中已经存在部分土壤类型数据，则从中断处继续导入，或者将已经导入的部分土壤类型数据删除后再导入。

通过在导入第二耕地元数据之前在目标数据库进行检测，可以有效防止数据冗余的情况发生，节约了存储资源。

S106：接收用户的查询请求，根据查询请求对第二耕地元数据进行相关性分析，生成用户查询的耕地数据。

在本申请的一种实施例中，根据查询请求，在第二耕地元数据中确定进行相关性分析的变量；获取变量对应的字段以及字段值；根据对应的字段以及字段值，验证变量之间的相关性，得到变量之间的相关值；该相关值为皮尔逊相关性的值或其他能够反映变量之间的相关性的值；若相关值小于预设阈值，则标记变量之间存在相关性；对具有相关性的变量进行回归分析，确定具有相关性的变量之间对应的数学表达式，以生成用户查询的耕地数据。

具体地，若要对第二耕地元数据进行相关性分析，首先要获取第二耕地元数据中要分析的相关变量，比如分析土壤含水量与农作物产量之间是否存在相关性，则通过选取字段为土壤含水量与农作物产量的字段以及两个字段对应的字段值，通过双尾检验验证两个变量(即土壤含水量和农作物产量)之间的显著性，当计算出的皮尔逊相关性的值小于预设阈值时，一般是0.05，若小于0.05，则可判定土壤含水量与农作物产量的相关性显著。若存在土壤含水量与农作物产量这两个变量之间的相关性显著的情况，可以对土壤含水量与农作物产量进行回归分析，得出数学表达式。其中，数学表达式用于表示确定土壤含水量与农作物产量之间的数量关系。

通过相关性分析，使用户清晰的了解耕地数据之间的关系，为更好地使用耕地提供帮助。

在本申请的一种实施例中，当用户需要查询特定区域内不同种类的农作物在耕地面积中的占比时，通过服务器获取来自多个数据源的第一耕地元数据；确定计算不同种类农作物在耕地面积中的占比需要的相关字段以及对应的字段值，根据相关字段以及对应的字段筛选出符合要求的数据；其中，相关字段包括耕地面积的字段、农作物种类的字段；将耕地面积的字段、农作物种类的字段对应的数据进行修改，使所述对应的数据符合转换标准，并将耕地面积的字段、农作物种类的字段对应的数据的数据类型转换为数值类型的数据，便于计算；根据耕地面积的字段、农作物种类的字段中对应数值类型的数据计算特定区域内不同种类的农作物在耕地面积中的占比。

具体地，筛选出农作物种类为黄瓜所占的耕地面积为50平方米，耕地总面积为200平方米，那么黄瓜在耕地总面积中的占比为25％。

以上为本申请实施例提供的一种耕地数据集成方法，基于同样的发明思路，本申请实施例还提供了相应的一种耕地数据集成设备，如图2所示。

本实施例提供了一种耕地数据集成设备，包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

根据预先设置的过滤条件对第一耕地元数据进行筛选；其中，第一耕地元数据为非结构化的数据；

将筛选出的第一耕地元数据进行数据转换，确定第二耕地元数据；其中，第二耕地元数据为结构化的数据；

连接目标数据库，将第二耕地元数据导入到目标数据库中；

接收用户的查询请求，根据查询请求对第二耕地元数据进行相关性分析，生成用户查询的耕地数据。

基于同样的思路，本申请的一些实施例还提供了上述方法、设备对应的介质。

本申请的一些实施例提供的一种耕地数据集成存储介质，存储有计算机可执行指令，计算机可执行指令设置为：

连接目标数据库，将第二耕地元数据导入到目标数据库中；

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种耕地数据集成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据预先设置的过滤条件对所述第一耕地元数据进行筛选，具体包括：

将所述第一耕地元数据转换为统一的数据标准；

根据预先设置的字段过滤条件，对统一数据标准后的所述第一耕地元数据中的字段进行筛选，筛选出满足所述字段过滤条件的第一耕地元数据；

根据预先设置的字段值过滤条件，对筛选出满足所述字段过滤条件的第一耕地元数据进行筛选，筛选出满足所述字段值过滤条件的第一耕地元数据。

3.根据权利要求1所述的方法，其特征在于，将筛选出的第一耕地元数据进行数据转换，确定第二耕地元数据，具体包括：

确定所述筛选出的第一耕地元数据的内容和结构；

根据所述内容和结构，判断所述筛选出的第一耕地元数据是否存在数据质量问题；

若是，对所述筛选出的第一耕地元数据进行异常标记；

根据所述异常标记对所述筛选出的第一耕地数据进行数据清洗，以确定所述第一耕地元数据的准确性和完整性；

将数据清洗后的第一耕地数据的数据名称和数据格式进行统一，并更改所述数据清洗后的第一耕地元数据的数据结构，以确定第二耕地元数据。

4.根据权利要求3所述的方法，其特征在于，根据所述异常标记对所述第一耕地数据进行数据清洗，具体包括：

若检测到所述筛选出的第一耕地元数据中存在重复数据，则对所述重复数据进行删除操作；

若检测到所述筛选出的第一耕地元数据中存在缺失数据，则根据所述筛选出的第一耕地元数据中的未缺失数据确定所述缺失数据的值，并验证所述缺失数据的值的正确性；

若检测到所述筛选出的第一耕地元数据的数据类型不符合转换标准，则将所述筛选出的第一耕地元数据的数据类型转换为符合所述转换标准的数据类型。

5.根据权利要求1所述的方法，其特征在于，连接目标数据库，将所述第二耕地元数据导入到所述目标数据库中，具体包括：

若检测到目标数据库不存在历史数据，则将所述第二耕地元数据导入到所述目标数据库中；

若检测到所述目标数据库存在历史数据，则将所述历史数据与所述第二耕地元数据进行匹配，判断所述第二耕地元数据是否存在所述目标数据库；

若否，则将所述第二耕地元数据导入到所述目标数据库中；

若是，判断所述第二耕地元数据是否部分存在于所述目标数据库中；

若是，则将所述第二耕地元数据从数据中断处进行导入或将所述历史数据删除后进行导入。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当用户需要查询特定区域内不同种类的农作物在耕地面积中的占比时，获取来自多个数据源的第一耕地元数据；

确定计算不同种类农作物在耕地面积中的占比需要的相关字段以及对应的字段值，根据所述相关字段以及对应的字段筛选出符合要求的数据；其中，所述相关字段包括所述耕地面积的字段、所述农作物种类的字段；

将所述耕地面积的字段、所述农作物种类的字段对应的数据进行修改，使所述对应的数据符合转换标准，并将所述耕地面积的字段、所述农作物种类的字段对应的数据的数据类型转换为数值类型的数据；

根据所述耕地面积的字段、所述农作物种类的字段中对应数值类型的数据计算特定区域内不同种类的农作物在耕地面积中的占比。

7.根据权利要求1所述的方法，其特征在于，所述第一耕地元数据对应多种数据处理方式，所述方法还包括：

若所述第一耕地元数据的数据形态为批量数据，则根据预设周期对所述第一耕地元数据进行数据调度，以获取来自多个数据源的第一耕地元数据；

若所述第一耕地元数据的数据形态为流式数据，则确定处理所述流式数据的应用，根据所述应用对所述第一耕地元数据进行数据调度，以获取来自多个数据源的第一耕地元数据；

若所述第一耕地元数据的数据形态为海量数据，则通过分布式集群的管理模式，由主服务器调度辅服务器，向所述辅服务器下发数据调度任务，通过所述辅服务器进行并发操作，以获取来自多个数据源的第一耕地元数据。

8.根据权利要求1所述的方法，其特征在于，根据所述查询请求对所述第二耕地元数据进行相关性分析，生成所述用户查询的耕地数据，具体包括：

根据所述查询请求，在所述第二耕地元数据中确定进行相关性分析的变量；

获取所述变量对应的字段以及字段值；

根据所述对应的字段以及字段值，验证所述变量之间的相关性，得到所述变量之间的相关值；

若相关值小于预设阈值，则标记所述变量之间存在相关性；

对具有相关性的变量进行回归分析，确定所述具有相关性的变量之间对应的数学表达式，以生成所述用户查询的耕地数据。

9.一种耕地数据集成设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

10.一种耕地数据集成存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：