CN116910174B

CN116910174B - 面向数据方舱的数据存储管理方法、装置及存储介质

Info

Publication number: CN116910174B
Application number: CN202311170762.1A
Authority: CN
Inventors: 周艳兵; 郜允兵; 潘瑜春; 刘玉; 李晓岚; 赵亚楠
Original assignee: Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Current assignee: Research Center of Information Technology of Beijing Academy of Agriculture and Forestry Sciences
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2023-12-22
Anticipated expiration: 2043-09-12
Also published as: CN116910174A

Abstract

本发明涉及数据存储管理技术领域，提供一种面向数据方舱的数据存储管理方法、装置及存储介质，该方法包括：基于退化耕地监测治理时空数据方舱的应用特征，确定数据方舱的类型；基于不同类型的数据方舱所对应的第一特征，以及待存储数据的元数据对应的第二特征，分别计算不同类型的数据方舱所对应的第一特征与第二特征之间的相似度；基于相似度，将待存储数据存储到对应类型的数据方舱。本发明提供的面向数据方舱的数据存储管理方法，根据不同类型的数据方舱的第一特征与待存储数据的元数据的第二特征，计算待存储数据与不同类型数据方舱的之间的相似度来确定存储方案，实现根据待存储数据的特点和应用场景进行有效存储，提高了数据的访问效率。

Description

面向数据方舱的数据存储管理方法、装置及存储介质

技术领域

本发明涉及数据存储管理技术领域，尤其涉及一种面向数据方舱的数据存储管理方法、装置及存储介质。

背景技术

随着卫星、无人机和地面移动监测以及通讯、网络、大数据、云计算等信息技术的快速发展，天空地立体化监测是退化耕地监测的主要监测手段。利用卫星、无人机等遥感技术可以获取大尺度的宏观的退化耕地时空信息，利用地面定位监测或者移动监测可以获取小尺度微观的退化耕地信息。基于天空地的监测数据协同、数据融合、数据同化以及数据挖掘分析，被认为是退化耕地监测数据管理和应用的关键技术，如何高效组织和管理这些动态监测数据是公认的技术难题。

近年来，随着数字化基础设施低时延、可扩展、轻量化的需求。在医疗、交通、地震、卫星接收、雷达监测、设施作物种植等应用领域，出现了方舱技术。

现有的数据方舱技术，主要集中数据方舱的物理结构以及数据方舱运行环境的监控管理等方面，而对数据方舱的数据存储类型、数据存储内容等数据存储管理技术还不完善，存在主观性、随意性等问题，导致对数据方舱中的数据的访问效率较低。

发明内容

针对现有技术存在的问题，本发明实施例提供一种面向数据方舱的数据存储管理方法、装置及存储介质。

本发明提供一种面向数据方舱的数据存储管理方法，包括：

基于退化耕地监测治理时空数据方舱的应用特征，确定数据方舱的类型；所述类型包括：移动舱、田间舱和中心舱；

基于不同类型的数据方舱所对应的第一特征，以及待存储数据的元数据对应的第二特征，分别计算所述不同类型的数据方舱所对应的第一特征与所述第二特征之间的相似度；

基于所述相似度，将所述待存储数据存储到对应类型的数据方舱。

在一些实施例中，所述基于不同类型的数据方舱所对应的第一特征，以及待存储数据的元数据对应的第二特征，分别计算所述不同类型的数据方舱所对应的第一特征与所述第二特征之间的相似度，包括：

分别对所述不同类型的数据方舱所对应的第一特征进行分词，得到所述不同类型的数据方舱所对应的第一分词集合；

对所述第二特征进行分词，得到第二分词集合；

对所述第一分词集合和所述第二分词集合合并去重，得到第三分词集合；

基于所述第三分词集合，确定所述不同类型的数据方舱所对应的第一特征向量和所述元数据对应的第二特征向量；

基于所述不同类型的数据方舱所对应的第一特征向量和所述第二特征向量，计算所述相似度。

在一些实施例中，所述基于所述第三分词集合，确定所述不同类型的数据方舱所对应的第一特征向量和所述元数据对应的第二特征向量，包括：

基于所述第三分词集合中的分词，分别计算所述不同类型的数据方舱所对应的第一分词集合中的分词出现的次数，得到所述不同类型的数据方舱所对应的第一词频集合；

基于所述第三分词集合中的分词，计算所述第二分词集合中的分词出现的次数，得到第二词频集合；

基于所述不同类型的数据方舱所对应的第一词频集合，分别确定所述不同类型的数据方舱所对应的第一特征向量；

基于所述第二词频集合，确定所述第二特征向量。

在一些实施例中，所述基于所述不同类型的数据方舱所对应的第一特征向量和所述第二特征向量，计算所述相似度，包括：

分别计算所述不同类型的数据方舱所对应的第一特征向量与所述第二特征向量之间的余弦值；

基于所述余弦值，得到所述相似度。

在一些实施例中，所述基于所述相似度，将所述待存储数据存储到对应类型的数据方舱，包括：

基于所述相似度，确定最大相似度；

将所述待存储数据存储到所述最大相似度所对应的类型的数据方舱。

在一些实施例中，所述应用特征，包括以下至少一项：

方舱功能、方舱特点、数据性质、数据来源或应用场景。

在一些实施例中，所述第二特征，包括以下至少一项：

数据名称、主题分类、摘要、关键词、提供单位、获取方式、更新频率、大小、格式、区域范围或发布时间。

本发明还提供一种面向数据方舱的数据存储装置，包括：

确定模块，用于基于退化耕地监测治理时空数据方舱的应用特征，确定数据方舱的类型；所述类型包括：移动舱、田间舱和中心舱；

计算模块，用于基于不同类型的数据方舱所对应的第一特征，以及待存储数据的元数据对应的第二特征，分别计算所述不同类型的数据方舱所对应的第一特征与所述第二特征之间的相似度；

存储模块，用于基于所述相似度，将所述待存储数据存储到对应类型的数据方舱。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述面向数据方舱的数据存储管理方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述面向数据方舱的数据存储管理方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述面向数据方舱的数据存储管理方法。

本发明提供的面向数据方舱的数据存储管理方法、装置及存储介质，根据不同类型的数据方舱的第一特征以及待存储数据的元数据对应的第二特征，计算待存储数据与不同类型数据方舱的之间的相似度，根据相似度大小确定数据的存储方案，实现了根据待存储数据的特点和应用场景对数据进行有效存储，克服了当前数据存储到数据库的主观性问题，有效提高了数据的访问效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的面向数据方舱的数据存储管理方法的流程示意图之一；

图2是本发明实施例提供的不同类型的数据方舱之间的业务逻辑示意图；

图3是本发明实施例提供的数据方舱数据存储管理推荐方法的流程示意图；

图4是本发明实施例提供的数据方舱管理系统的结构示意图；

图5是本发明实施例提供的面向数据方舱的数据存储管理方法的流程示意图之二；

图6是本发明实施例提供的面向数据方舱的数据存储管理装置的结构示意图；

图7是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”所区别的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”一般表示前后关联对象是一种“或”的关系。

图1是本发明实施例提供的面向数据方舱的数据存储管理方法的流程示意图之一，如图1所示，本发明实施例提供的面向数据方舱的数据存储管理方法，包括：

步骤101、基于退化耕地监测治理时空数据方舱的应用特征，确定数据方舱的类型；所述类型包括：移动舱、田间舱和中心舱；

步骤102、基于不同类型的数据方舱所对应的第一特征，以及待存储数据的元数据对应的第二特征，分别计算所述不同类型的数据方舱所对应的第一特征与所述第二特征之间的相似度；

步骤103、基于所述相似度，将所述待存储数据存储到对应类型的数据方舱。

需要说明的是，本发明提供的面向数据方舱的数据存储管理方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本或者个人数字助理（personal digital assistant，PDA）等，非移动电子设备可以为服务器、网络附属存储器（Network Attached Storage，NAS）、个人计算机（personalcomputer，PC）、电视机（television，TV）、柜员机或者自助机等，本发明不作具体限定。

在步骤101中，基于退化耕地监测治理时空数据方舱的应用特征，确定数据方舱的类型；所述类型包括：移动舱、田间舱和中心舱。

根据退化耕地监测治理时空数据快速检索和访问需求，综合考虑方舱功能、方舱特点、数据性质、数据来源、应用场景等应用特征，将退化耕地监测治理时空数据方舱划分为移动舱、田间舱、中心舱三种类型。

数据方舱是指基于云边协同的整体架构打造的互联网解决方案，具备多网数据接入、存储、计算和网络安全支持等功能的方舱，具有标准化、模块化和快速部署（即插即用）等特点。

根据数据方舱的应用特征，可以将数据方舱分为中心舱、移动舱、田间舱三种类型。

中心舱是指具备支撑省、市、县等大尺度多源异构时空数据存储、时空数据分析和展示等功能快速计算与响应能力的一种数据方舱。

田间舱是指支持农场、试验站、实验小区等中小尺度多源异构数据接入、存储和计算能力一种数据方舱。相对于中心舱，其时空数据存储和计算能力都要小。

移动舱是指具有支持便携、移动数据接入、存储和计算能力的一种数据方舱，相对于田间舱、中心舱，其主要存储和展示移动采集数据。对移动场景的基础时空数据主要依靠田间舱和中心舱提供。

可选地，图2是本发明实施例提供的不同类型的数据方舱之间的业务逻辑示意图，如图2所示，根据数据的内容和应用需求，移动舱、田间舱、中心舱相互之间可以访问。

在步骤102中，基于不同类型的数据方舱所对应的第一特征，以及待存储数据的元数据对应的第二特征，分别计算所述不同类型的数据方舱所对应的第一特征与所述第二特征之间的相似度。

可选地，为了对三种类型数据方舱进行特征刻画，可以提取方舱类型、方舱功能、方舱特点、数据性质、数据来源、应用场景6个方面的特征。

通过设计数据表实现数据方舱特征信息存储，表结构如下：

方舱类型（字段名称：F_FCLX，数据类型：字符型，数据长度：20）；方舱功能（字段名称：F_SJGL，数据类型：字符型，数据长度：300）；方舱特点（字段名称：F_FCTD，数据类型：数字型，数据长度：100）；数据性质（字段名称：F_SJXZ，数据类型：数字型，数据长度：20）；数据来源（字段名称：F_SJLY，数据类型：字符型，数据长度：20）；应用场景（字段名称：F_YYCJ，数据类型：数字型，数据长度：20）。

对中心舱、田间舱和移动舱的特征信息进行初始化，详细情况如下：

中心舱特征集合{中心舱、（大尺度多源异构时空数据存储、时空数据分析和展示等功能快速计算与响应）、（数据容量大、更新频率小、访问频率小）、基础数据、第三方提供、（省、市、县数据中心）}。

田间舱特征集合{田间舱、（中小尺度多源异构数据接入、存储和计算）、（数据容量中等、访问频率高、更新频率高）、业务数据、业务部门采集、（农场、试验站、实验小区数据中心）}。

移动舱特征集合{移动舱、（实时数据接入、存储和计算）、(数据容量小、访问频率高、更新频率高)、业务数据、业务部门采集、移动调查数据中心}。

确定不同类型的数据方舱分别对应的第一特征，如下：

中心舱对应的第一特征：{中心舱；大尺度多源异构时空数据存储、时空数据分析和展示功能快速计算与响应；容量大、更新频率小、访问频率小；基础数据；第三方提供；省、市、县数据中心}。

田间舱对应的第一特征：{田间舱；中小尺度多源异构时空数据接入、存储和计算；容量中等、访问频率高、更新频率高；业务数据；业务部门采集；农场、试验站、实验小区数据中心}。

移动舱对应的第一特征：{移动舱；实时数据接入、存储和展示；容量小、访问频率高、更新频率高；业务数据；业务部门采集；移动调查数据中心}。

待存储数据在存储到数据方舱之前需要对数据进行描述，可以通过元数据对待存储数据进行描述，以方便数据辨识和使用。

待存储数据可以为退化耕地监测治理时空数据中的任何一种类型数据，例如可以是土地利用数据、遥感数据等基础数据，也可以是物联网监测数据、外业调查数据等业务数据，还可以是监测治理评价预警模型数据等等。

元数据，又称中介数据、中继数据，为描述数据的数据，主要是描述数据属性的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

为了对待存储数据的元数据进行特征刻画，可以数据名称、主题分类、摘要、关键词、提供单位、获取方式、更新频率、大小、格式、区域范围、发布时间为第二特征。通过设计数据表实现元数据特征信息存储，表结构定义如下：

数据名称（字段名称：F_SJMC，数据类型：字符型，数据长度：20）；主题分类（字段名称：F_ZTFL，数据类型：字符型，数据长度：30）；数据摘要（字段名称：F_SJZY，数据类型：字符型，数据长度：300）；关键词（字段名称：F_GJC，数据类型：字符型，数据长度：50）；提供单位（字段名称：F_TGDW，数据类型：字符型，数据长度：100）；获取方式（字段名称：F_HQFS，数据类型：字符型，数据长度：40）；更新频率（字段名称：F_GXPL，数据类型：字符型，数据长度：20）；数据大小（字段名称：F_SJDX，数据类型：数字型，数据长度：20）；数据格式（字段名称：F_SJGS，数据类型：字符型，数据长度：20）；数据范围（字段名称：F_SJFW，数据类型：字符型，数据长度：20）；发布时间（字段名称：F_FBSJ，数据类型：日期型，数据长度：10）。

则待存储数据的元数据对应的第二特征，如下：

待存储数据的元数据对应的第二特征{数据名称、主题分类、数据格式、摘要、关键词、提供单位、获取方式、更新频率、大小、区域范围、发布时间}。

在确定不同类型的数据方舱所对应的第一特征，以及待存储数据的元数据对应的第二特征后，可以计算第一特征和第二特征之间的相似度。

可选地，可以计算第一特征和第二特征之间的余弦相似度。

余弦相似度算法，如下：

假定A和B是两个n维向量，A是[A1,A2,...,An]，B是[B1,B2,...,Bn]，则A与B的夹角θ的余弦，表达式如下：

余弦相似度值越大，则表示两个向量越相似。

例如，对句子A和句子B分词后，得到词频特征向量如下：

句子A：[1，2，2，1，1，1，0]。

句子B：[1，2，2，1，1，2，1]。

句子A与句子B的夹角的余弦的计算方式如下：

即句子A与句子B的相似度为0.938。

在步骤103中，基于所述相似度，将所述待存储数据存储到对应类型的数据方舱。

基于所述相似度，确定最大相似度；

将所述待存储数据存储到所述最大相似度所对应类型的数据方舱。

分别计算不同类型的数据方舱所对应的第一特征，与第二特征之间的相似度，取相似度最大时的第一特征所对应的数据方舱类型，将待存储数据存储到该类型的数据方舱中。

本发明实施例提供的面向数据方舱的数据存储方法，根据不同类型的数据方舱的第一特征以及待存储数据的元数据对应的第二特征，计算待存储数据与不同类型数据方舱的之间的相似度，根据相似度大小确定数据的存储方案，实现了根据待存储数据的特点和应用场景对数据进行有效存储，克服了当前数据存储到数据库的主观性问题，有效提高了数据的访问效率。

对所述第二特征进行分词，得到第二分词集合；

基于所述第三分词集合中的分词，分别计算所述不同类型的数据方舱所对应的第一分词集合中的分词出现的次数，确定第一词频集合；

基于所述第二词频集合，确定所述第二特征向量。

基于所述余弦值，得到所述相似度。

分别对中心舱、田间舱、移动舱对应的第一特征进行分词，得到第一分词集合，如下：

中心舱对应的第一分词集合（A）｛中心，舱，大，尺度，多，源，异构，时空，数据，存储，时空，数据分析，和，展示，功能，快速，计算，与，响应，数据，容量，大，更新，频率，小，访问，频率，小，基础，数据，第三方，提供，省，市，县，数据中心｝。

田间舱对应的第一分词集合（B）｛田间，舱，中小，尺度，多，源，异构，时空，数据，接入，存储，和，计算，容量，中等，访问，频率，高，更新，频率，高，业务，数据，业务部门，采集，农场，试验站，实验，小区，数据中心｝。

移动舱对应的第一分词集合（C）｛移动，舱，实时，数据，接入，存储，和，计算，容量，小，访问，频率，高，更新，频率，高，业务，数据，业务部门，采集，移动，调查，数据中心｝。

同样地，对第二特征进行分词，得到第二分词集合（D）。

将第一分词集合A、B、C和第二分词集合D进行合并，然后去重，得到第三分词集合E。

即第三分词集合为第一分词集合和第二分词集合的并集。

在确定第三分词集合后，第三分词集合中包括多个分词。

根据第三分词集合中的每个分词，在第一分词集合中的分词中出现的次数，确定第一词频集合。

从而根据第一词频集合，确定第一特征向量。

同样地，根据第三分词集合中的每个分词，在第二分词集合中的分词中出现的次数，确定第二词频集合。

从而根据第二词频集合，确定第二特征向量。

在确定第一特征向量和第二特征向量后，可以计算第一特征向量和第二特征向量的余弦值，将余弦值作为相似度。

余弦值越大，则第一特征向量和第二特征向量越相似。

本发明实施例提供的面向数据方舱的数据存储管理方法，通过预先设计特征指标对待存储数据和数据方舱进行特征刻画，使用元数据对待存储数据的特征进行描述，使用方舱类型、方舱功能、方舱特点等指标对数据方舱特征进行描述，为建立待存储数据与数据方舱的关联关系提供数据基础。

此外，通过采用分词技术对元数据对应的特征和数据方舱对应的特征进行分词，建立特征向量，利用文本相似度计算方法，计算待存储数据的元数据对应的特征与数据方舱对应的特征之间的相似度，也即匹配度，并根据相似度的大小选取相似度最大的所对应的数据方舱作为待存储数据的存储方案。

可选地，图3是本发明实施例提供的数据方舱数据存储管理推荐方法的流程示意图，如图3所示，本发明实施例提供的数据方舱构建方法，包括：

首先，利用本发明设计的数据方舱管理系统对数据方舱的类型、特征及功能进行预先定义。

然后，按照规范的元数据描述对待存储到数据方舱的数据进行元数据赋值。

最后，对待存储数据的元数据与数据方舱进行相似度计算，选取相似度最大值所应对的方舱进行数据存储。

为实现这一方法，本发明实施例还提供了配套的数据方舱管理系统，图4是本发明实施例提供的数据方舱管理系统的结构示意图，如图4所示，该系统包括数据方舱特征管理模块、元数据管理模块、数据匹配度计算模块三部分。

数据方舱特征管理模块主要对方舱类型、方舱功能、方舱特点、数据性质、数据来源、应用场景6个方面进行管理。

元数据管理模块主要对数据的元数据信息，包括数据名称、主题分类、摘要、关键词、提供单位、获取方式、更新频率、大小、格式、区域范围、发布时间共11个方面进行管理。

对数据描述的过程其实质就是对数据的元数据进行赋值的过程。本部分主要利用元数据管理功能模块实现。管理的功能主要包括对元数据描述信息进行增加、修改、删除和查看四个功能。

数据匹配度计算模块主要根据数据方舱的特征和数据的元数据信息进行相似度匹配计算，并根据计算结果进行存储方案推荐。

利用本发明设计数据方舱管理方法和系统，可以克服数据方舱数据存储人为主观性问题，能够根据待存储数据的特征和数据方舱的特征，计算出待存储数据与数据方舱的匹配程度，实现数据与数据方舱的存储方案推荐，解决数据方舱中到底存储什么样的数据问题。

图5是本发明实施例提供的面向数据方舱的数据存储管理方法的流程示意图之二，如图5所示，本发明实施例提供的面向数据方舱的数据存储管理方法，包括：

首先，获取数据的元数据信息和数据方舱的特征信息，分别构成特征集合，其中元数据特征集合：{数据名称、主题分类、数据格式、摘要、关键词、提供单位、获取方式、更新频率、大小、区域范围、发布时间}，数据方舱特征集合{方舱类型、方舱功能、方舱特点、数据性质、数据来源、应用场景}。

然后，将对元数据的特征、数据方舱的特征利用中文分词技术分别进行分词，并将元数据特征分词和方舱特征分词合并，形成元数据与方舱特征分词集合，同时分别计算元数据特征词频、中心舱特征集词频、田间舱特征集合词频、移动舱特征集合词频。

其次，构建元数据特征集合词频向量，中心舱特征词集合词频向量、田间舱特征集合词频向量、移动舱特征集合词频向量。

再次，分别计算元数据特征集合词频向量与中心舱、田间舱、移动舱的特征集合词频向量的余弦。

最后，选取向量的余弦相似度最大值所对应的方舱，作为该数据存储的方舱。

本发明实施例提供的面向数据方舱的数据存储管理方法，能够实现根据退化耕地监测治理数据的元数据特征以及数据方舱的特征，自动计算待存储数据与数据方舱的相似度（匹配程度）大小，根据相似度（匹配程度）大小，推荐待存储数据的存储方案。一方面解决了数据方舱中到底存储什么样的数据问题，另一方面，综合考虑了数据自身特点和应用场景，克服了当前数据存储到数据库的主观性问题，能有效提高数据的访问效率。

下面结合具体应用场景，以R省国土三调土地利用数据作为待存储数据为例，对本发明实施例提供的面向数据方舱的数据存储管理方法进行详细描述。

步骤1、获取数据方舱特征。

提取不同类型数据方舱分别对应的第一特征（数据方舱特征在数据方舱管理系统中预先定义），分别如下：

移动舱对应的第一特征：{移动舱，实时数据接入、存储和展示；容量小、访问频率高、更新频率高；业务数据；业务部门采集；移动调查数据中心}。

步骤2、对待存储数据的元数据进行赋值。

按照元数据描述规范，对土地利用数据的元数据进行赋值（元数据特征描述规范在数据方舱管理系统预先定义）。

土地利用数据的元数据对应的第二特征：{土地利用数据；基础数据；矢量数据；R省2019年国土三调，比例尺1：5万；R、土地利用；R省自然资源厅；文件拷贝；年度更新；20G；R；2019年}。

步骤3、特征分词。

分别对中心舱对应的第一特征、田间舱对应的第一特征、移动舱对应的第一特征、元数据对应的第二特征进行分词，如下：

元数据对应的第二分词集合（D）分词｛土地，利用，数据，基础，数据，矢量，数据，R省，2019年，国土，三，调，数据，比例尺，1：5万，R，土地，利用，自然资源，厅，文件，拷贝，年度，更新，20G，R省，2019年｝。

步骤4、合并分词。

合并第一分词集合A、B、C和第二分词集合D，去重产生第三分词集合（E）｛中心，舱，大，尺度，多，源，异构，时空，数据，存储，数据分析，和，展示，功能，快速，计算，与，响应，容量，更新，频率，小，访问，基础，第三方，提供，省，市，县，田间，中小，接入，中等，高，业务，业务部门，采集，农场，试验站，实验，小区，移动，实时，移动，调查，数据中心，利用，矢量，R省，2019年，国土，三，调，比例尺，1：5万，R，自然资源，厅，文件，拷贝，年度，20G｝。

步骤5、词频分析。

分别对中心舱、田间舱、移动舱、元数据进行词频分析，如下：

中心舱对应的第一词频集合F（A）｛中心:1，舱:1，大:1，尺度:1，多:1，源:1，异构:1，时空:2，数据:4，存储:1，数据分析:1，和:1，展示:1，功能:1，快速:1，计算:1，与:1，响应:1，容量:1，更新:1，频率:2，小:0，访问:1，基础:1，第三方:1，提供:1，省:1，市:1，县:1，田间:0，中小:0，接入:0，中等:0，高:0，业务:0，业务部门:0，采集:0，农场:0，试验站:0，实验:0，小区:0，移动:0，实时:0，移动:0，调查:0，数据中心:1，利用:0，矢量:0，R省:0，2019年:0，国土:0，三:0，调:0，比例尺:0，1：5万:0，R:0，自然资源:0，厅:0，文件:0，拷贝:0，年度:0，20G:0｝。

田间舱对应的第一词频集合F（B）｛中心:1，舱:1，大:0，尺度:1，多:1，源:1，异构:1，时空:1，数据:1，存储:1，数据分析:0，和:0，展示:0，功能:0，快速:0，计算:0，与:0，响应:0，容量:1，更新:1，频率:2，小:1，访问：1，基础：0，第三方：0，提供：0，省：0，市：0，县：0，田间：1，中小：1，接入：1，中等：1，高：1，业务：1，业务部门：1，采集：1，农场：1，试验站：1，实验：1，小区：1，移动：0，实时：0，移动：0，调查：0，数据中心：1，利用：1，矢量：0，R省：0，2019年：0，国土：0，三：0，调：0，比例尺：0，1：5万：0，R：0，自然资源：0，厅：0，文件：0，拷贝：0，年度：0，20G：0｝。

移动舱对应的第一词频集合（C）｛中心：0，舱：1，大：0，尺度：1，多：0，源：0，异构：0，时空：0，数据：2，存储：1，数据分析：1，和：0，展示：0，功能：0，快速：0，计算：0，与：0，响应：0，容量：1，更新：1，频率：2，小：0，访问：1，基础：0，第三方：0，提供：0，省：0，市：0，县：0，田间：0，中小：0，接入：1，中等：0，高：0，业务：1，业务部门：1，采集：1，农场：0，试验站：0，实验：0，小区：0，移动：1，实时：1，移动：1，调查：1，数据中心：1，利用：0，矢量：0，R省：0，2019年：0，国土：0，三：0，调：1，比例尺：0，1：5万：0，R：0，自然资源：0，厅：0，文件：0，拷贝：0，年度：0，20G：0｝。

元数据对应的第二词频集合F（D）｛中心：0，舱：0，大：0，尺度：0，多：0，源：0，异构：0，时空：0，数据：2，存储：0，数据分析：0，和：0，展示：0，功能：0，快速：0，计算：0，与：0，响应：0，容量：1，更新：1，频率：0，小：0，访问：0，基础：0，第三方：0，提供：0，省：0，市：0，县：0，田间：0，中小：0，接入：0，中等：0，高：0，业务：0，业务部门：0，采集：0，农场：0，试验站：0，实验：0，小区：0，移动：0，实时：0，移动：0，调查：0，数据中心：0，利用：1，矢量：1，R省：1，2019年：1，国土：0，三：0，调：0，比例尺：0，1：5万：1，R：1，自然资源：1，厅：0，文件：1，拷贝：1，年度：0，20G：1｝。

步骤6、构建特征向量。

分别对中心舱、田间舱、移动舱、元数据构建特征向量V，如下：

中心舱对应的第一特征向量V(A)₆₂｛1，1，1，1，1，1，1，2，4，1，1，1，1，1，1，1，1，1，1，1，2，0，1，1，1，1，1，1，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0｝。

田间舱对应的第一特征向量V(B)₆₂｛1，1，0，1，1，1，1，1，1，1，0，0，0，0，0，0，0，0，1，1，2，1，1，0，0，0，0，0，0，1，1，1，1，1，1，1，1，1，1，1，1，0，0，0，0，1，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0｝。

移动舱对应的第一特征向量V(C)₆₂｛0，1，0，1，0，0，0，0，2，1，1，0，0，0，0，0，0，0，1，1，2，0，1，0，0，0，0，0，0，0，0，1，0，0，1，1，1，0，0，0，0，1，1，1，1，1，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0，0｝。

元数据对应的第二特征向量V(D)₆₂｛0，0，0，0，0，0，0，0，2，0，0，0，0，0，0，0，0，0，1，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，1，1，1，1，0，0，0，0，1，1，1，0，1，1，0，1｝。

步骤7、相似度计算。

分别计算第二特征向量与中心舱、田间舱、移动舱对应的第一特征向量的余弦，并根据余弦的大小确定数据的存储方案。

，/>，，由于/>最大，也就是土地利用数据与中心舱相似度越大，也就是匹配度越高，所以土地利用数据选择存储在中心舱中。

下面对本发明提供的面向数据方舱的数据存储装置进行描述，下文描述的面向数据方舱的数据存储装置与上文描述的面向数据方舱的数据存储方法可相互对应参照。

图6是本发明实施例提供的面向数据方舱的数据存储管理装置的结构示意图，如图6所示，本发明实施例提供的面向数据方舱的数据存储装置，包括：

确定模块610，用于基于退化耕地监测治理时空数据方舱的应用特征，确定数据方舱的类型；所述类型包括：移动舱、田间舱和中心舱；

计算模块620，用于基于不同类型的数据方舱所对应的第一特征，以及待存储数据的元数据对应的第二特征，分别计算所述不同类型的数据方舱所对应的第一特征与所述第二特征之间的相似度；

存储模块630，用于基于所述相似度，将所述待存储数据存储到对应类型的数据方舱。

在此需要说明的是，本发明实施例提供的面向数据方舱的数据存储管理装置，能够实现上述面向数据方舱的数据存储管理方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

可选地，所述计算模块620，具体用于：

对所述第二特征进行分词，得到第二分词集合；

可选地，所述计算模块620，还用于：

基于所述第三分词集合中的分词，分别计算所述不同类型的数据方舱所对应的所述第一分词集合中的分词出现的次数，得到所述不同类型的数据方舱所对应的第一词频集合；

基于所述第三分词集合中的分词，计算在所述第二分词集合中的分词出现的次数，得到第二词频集合；

基于所述第二词频集合，确定所述第二特征向量。

可选地，所述计算模块620，还用于：

基于所述余弦值，得到所述相似度。

可选地，所述存储模块630，具体用于：

基于所述相似度，确定最大相似度；

可选地，所述应用特征，包括以下至少一项：

方舱功能、方舱特点、数据性质、数据来源或应用场景。

可选地，所述第二特征，包括以下至少一项：

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行面向数据方舱的数据存储管理方法，该方法包括：基于退化耕地监测治理时空数据方舱的应用特征，确定数据方舱的类型；所述类型包括：移动舱、田间舱和中心舱；基于不同类型的数据方舱所对应的第一特征，以及待存储数据的元数据对应的第二特征，分别计算所述不同类型的数据方舱所对应的第一特征与所述第二特征之间的相似度；基于所述相似度，将所述待存储数据存储到对应类型的数据方舱。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的面向数据方舱的数据存储管理方法，该方法包括：基于退化耕地监测治理时空数据方舱的应用特征，确定数据方舱的类型；所述类型包括：移动舱、田间舱和中心舱；基于不同类型的数据方舱所对应的第一特征，以及待存储数据的元数据对应的第二特征，分别计算所述不同类型的数据方舱所对应的第一特征与所述第二特征之间的相似度；基于所述相似度，将所述待存储数据存储到对应类型的数据方舱。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的面向数据方舱的数据存储管理方法，该方法包括：基于退化耕地监测治理时空数据方舱的应用特征，确定数据方舱的类型；所述类型包括：移动舱、田间舱和中心舱；基于不同类型的数据方舱所对应的第一特征，以及待存储数据的元数据对应的第二特征，分别计算所述不同类型的数据方舱所对应的第一特征与所述第二特征之间的相似度；基于所述相似度，将所述待存储数据存储到对应类型的数据方舱。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种面向数据方舱的数据存储管理方法，其特征在于，包括：

基于所述相似度，将所述待存储数据存储到对应类型的数据方舱；

所述基于不同类型的数据方舱所对应的第一特征，以及待存储数据的元数据对应的第二特征，分别计算所述不同类型的数据方舱所对应的第一特征与所述第二特征之间的相似度，包括：

对所述第二特征进行分词，得到第二分词集合；

基于所述不同类型的数据方舱所对应的第一特征向量和所述第二特征向量，计算所述相似度；

所述基于所述第三分词集合，确定所述不同类型的数据方舱所对应的第一特征向量和所述元数据对应的第二特征向量，包括：

基于所述第二词频集合，确定所述第二特征向量。

2.根据权利要求1所述的面向数据方舱的数据存储管理方法，其特征在于，所述基于所述不同类型的数据方舱所对应的第一特征向量和所述第二特征向量，计算所述相似度，包括：

基于所述余弦值，得到所述相似度。

3.根据权利要求1所述的面向数据方舱的数据存储管理方法，其特征在于，所述基于所述相似度，将所述待存储数据存储到对应类型的数据方舱，包括：

基于所述相似度，确定最大相似度；

4.根据权利要求1至3任一项所述的面向数据方舱的数据存储管理方法，其特征在于，所述应用特征，包括以下至少一项：

方舱功能、方舱特点、数据性质、数据来源或应用场景。

5.根据权利要求1至3任一项所述的面向数据方舱的数据存储管理方法，其特征在于，所述第二特征，包括以下至少一项：

6.一种面向数据方舱的数据存储管理装置，其特征在于，包括：

存储模块，用于基于所述相似度，将所述待存储数据存储到对应类型的数据方舱；

所述计算模块，具体用于：

对所述第二特征进行分词，得到第二分词集合；

所述计算模块，还用于：

基于所述第二词频集合，确定所述第二特征向量。

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述面向数据方舱的数据存储管理方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述面向数据方舱的数据存储管理方法。