CN110750384A

CN110750384A - 大数据管理系统

Info

Publication number: CN110750384A
Application number: CN201910976537.4A
Authority: CN
Inventors: 王凯
Original assignee: Zhejiang Zhongxin Space Technology Co Ltd
Current assignee: Wang Kai
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-02-04

Abstract

本发明涉及计算机组成领域，具体涉及大数据管理系统，其数据管理服务器设有集成工具、备份工具和分类工具；数据分析装置设有模型建立模块和相似评估模块；集成工具对多个数据管理服务器上的数据集成组合；在组合数据的基础上使用RMAN备份工具得到RMAN备份数据；在RMAN备份数据的基础上逻辑备份工具得到逻辑备份数据，保存到备份服务器；模型建立模块使用Scikit‑Learn库、协同过滤算法和机器学习技术建立相似度模型，划出两个数据之间的相似簇类和关联簇类；相似评估模块使用相似度模型查找相似的数据，查询两个数据之间的相似点并计算相似率；通过两种备份工具配合使用提高备份效率，完整备份数据繁多的大型数据；通过建立相似度模型查找相似之处。

Description

大数据管理系统

技术领域

本发明涉及数据管理领域，具体涉及大数据管理系统。

背景技术

分布式存储服务器一般采用数据库来存储数据，包括论文、策划和实验数据等，其备份方式主要有两种，物理备份和逻辑备份；物理备份能实现OARCLE数据库的完整恢复，但是它涉及到数据库的具体数据，像普通的物理拷贝数据一样进行备份，因此需要比较大的外部存储空间；逻辑备份遇到大型的数据库则会力不从心，因为耗时太长，效率太低。当前论文或实验成果等抄袭严重，需要一一对比，查找相似数据，杜绝不规范不合理数据。

发明内容

针对上述问题，本发明提供大数据管理系统，解决数据多时备份不方便和数据抄袭的问题，并合理分类数据。

为了解决上述技术问题，本发明采用如下技术方案：

大数据管理系统，包括多个数据管理服务器、数据分析装置和备份服务器，所述数据管理服务器设有集成工具、备份工具和分类工具；所述集成工具包括SPSS或ETL；所述备份工具包括RMAN备份工具和逻辑备份工具；所述数据分析装置设有模型建立模块和相似评估模块；其备份流程如下：

S11：所述集成工具对多个数据管理服务器上的数据集成组合，得到组合数据；

S12：备份周期的第一节点，在组合数据的基础上使用RMAN备份工具得到RMAN备份数据并保存到备份服务器；

S13：备份周期的第二节点，在RMAN备份数据的基础上使用逻辑备份工具得到逻辑备份数据，保存到备份服务器。

可选的，所述分类工具包括全量数据单元、增量数据单元、格网数据单元、标识单元和安置单元，各单元联系流程如下：

S21：所述全量数据单元采集组合数据的全量数据并传入数据库；

S22：所述增量数据单元采集组合数据的增量数据并传入数据库；

S23：所述格网数据单元将全量数据、增量数据流化处理，打散为格网数据；

S24：所述标识单元根据数据来源、分布规律、人工发现进行类型标识；

S25：所述安置单元整理、保存和发送数据至数据分析装置。

可选的，所述模型建立模块使用Scikit-Learn库、协同过滤算法和机器学习技术建立相似度模型；所述模型建立模块还使用 k-means算法进行无监督学习，划出两个数据之间的相似簇类和关联簇类。

可选的，所述相似评估模块使用相似度模型查找相似的数据，并通过相似簇类和关联簇类查询两个数据之间的相似点并计算相似率，超过30％则判断为抄袭。

可选的，所述多个数据管理服务器包括多个小型计算机和存储器；每台计算机中具有局部的数据并均有一份部分数据副本；每台计算机单独放置，位于不同地点的计算机通过光纤相连接。

可选的，所述备份服务器为光纤存储服务器，所述光纤存储服务器与所述多个数据管理服务器通过光纤相连接。

可选的，所述数据分析装置安装于大型计算机，并使用大型计算机的CPU和内存。

由上述技术方案可知，本发明的有益效果：本发明通过两种备份工具配合使用提高备份效率，完整备份数据繁多的大型数据；又通过模型建立模块建立相似度模型更为快速的查找不同数据相似之处，减少当前论文或实验数据抄袭的情况。

附图说明

图1是本发明的功能模块示意图；

图2为本发明所述的分类工具工作的流程框图；

其中，1-多个数据管理服务器，2-数据分析装置，3-备份服务器， 11-集成工具，12-备份工具，13-分类工具，21-模型建立模块，22- 相似评估模块，121-RMAN备份工具,122-逻辑备份工具,131-全量数据单元，132-增量数据单元，133-格网数据单元，134-标识单元，135- 安置单元。

具体实施方式：

如图1所示，本发明为大数据管理系统，解决数据多时备份不方便和数据抄袭的问题，并合理分类数据；包括多个数据管理服务器1、数据分析装置2和备份服务器3，所述数据管理服务器1设有集成工具11、备份工具12和分类工具13；所述集成工具11包括SPSS或 ETL；所述备份工具12包括RMAN备份工具121和逻辑备份工具122；所述数据分析装置2设有模型建立模块21和相似评估模块22；其备份流程如下：

S11：所述集成工具11对多个数据管理服务器1上的数据集成组合，得到组合数据；

S12：备份周期的第一节点，在组合数据的基础上使用RMAN备份工具121得到RMAN备份数据并保存到备份服务器3；

S13：备份周期的第二节点，在RMAN备份数据的基础上使用逻辑备份工具122得到逻辑备份数据，保存到备份服务器3。

通过两种备份工具配合使用提高备份效率，完整备份数据繁多的大型数据。

本实施例中，所述分类工具13包括全量数据单元131、增量数据单元132、格网数据单元133、标识单元134和安置单元135，各单元联系流程如下：

S21：所述全量数据单元131采集组合数据的全量数据并传入数据库；

S22：所述增量数据单元132采集组合数据的增量数据并传入数据库；

S23：所述格网数据单元133将全量数据、增量数据流化处理，打散为格网数据；

S24：所述标识单元134根据数据来源、分布规律、人工发现进行类型标识；

S25：所述安置单元135整理、保存和发送数据至数据分析装置 2。

通过分类工具13有效给各类数据加上标识和分类入库，使得后续的分析快捷高效。

本实施例中，所述模型建立模块21使用Scikit-Learn库、协同过滤算法和机器学习技术建立相似度模型；所述模型建立模块21还使用k-means算法进行无监督学习，划出两个数据之间的相似簇类和关联簇类。通过模型建立模块21建立相似度模型更为快速的查找不同数据相似之处，减少当前论文或实验数据抄袭的情况。

本实施例中，所述相似评估模块22使用相似度模型查找相似的数据，并通过相似簇类和关联簇类查询两个数据之间的相似点并计算相似率，超过30％则判断为抄袭。该标准可随着实际应用需求而更改，在更严谨的情况下，10％以上会被判定为抄袭。

本实施例中，所述多个数据管理服务器1包括多个小型计算机和存储器；每台计算机中具有局部的数据并均有一份部分数据副本；每台计算机单独放置，位于不同地点的计算机通过光纤相连接。通过多个小型计算机存取存储器的数据，方便数据分散保存。

本实施例中，所述备份服务器3为光纤存储服务器，所述光纤存储服务器与所述多个数据管理服务器通过光纤相连接。

本实施例中，所述数据分析装置2安装于大型计算机，并使用大型计算机的CPU和内存。

本实施例中的所有技术特征均可根据实际需要而进行自由组合。

上述实施例为本发明较佳的实现方案，除此之外，本发明还可以其它方式实现，在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范围之内。

Claims

1.大数据管理系统，包括多个数据管理服务器、数据分析装置和备份服务器，其特征在于：所述数据管理服务器设有集成工具、备份工具和分类工具；所述集成工具包括SPSS或ETL；所述备份工具包括RMAN备份工具和逻辑备份工具；所述数据分析装置设有模型建立模块和相似评估模块；其备份流程如下：

2.根据权利要求1所述的大数据管理系统，其特征在于：所述分类工具包括全量数据单元、增量数据单元、格网数据单元、标识单元和安置单元，各单元联系流程如下：

S25：所述安置单元整理、保存和发送数据至数据分析装置。

3.根据权利要求1或2所述的大数据管理系统，其特征在于：所述模型建立模块使用Scikit-Learn库、协同过滤算法和机器学习技术建立相似度模型；所述模型建立模块还使用k-means算法进行无监督学习，划出两个数据之间的相似簇类和关联簇类。

4.根据权利要求1或3所述的大数据管理系统，其特征在于：所述相似评估模块使用相似度模型查找相似的数据，并通过相似簇类和关联簇类查询两个数据之间的相似点并计算相似率，超过30％则判断为抄袭。

5.根据权利要求1所述的大数据管理系统，其特征在于：所述多个数据管理服务器包括多个小型计算机和存储器；每台计算机中具有局部的数据并均有一份部分数据副本；每台计算机单独放置，位于不同地点的计算机通过光纤相连接。

6.根据权利要求1所述的大数据管理系统，其特征在于：所述备份服务器为光纤存储服务器，所述光纤存储服务器与所述多个数据管理服务器通过光纤相连接。

7.根据权利要求1所述的大数据管理系统，其特征在于：所述数据分析装置安装于大型计算机，并使用大型计算机的CPU和内存。