CN110750384A - 大数据管理系统 - Google Patents
大数据管理系统 Download PDFInfo
- Publication number
- CN110750384A CN110750384A CN201910976537.4A CN201910976537A CN110750384A CN 110750384 A CN110750384 A CN 110750384A CN 201910976537 A CN201910976537 A CN 201910976537A CN 110750384 A CN110750384 A CN 110750384A
- Authority
- CN
- China
- Prior art keywords
- data
- backup
- tool
- similarity
- data management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机组成领域,具体涉及大数据管理系统,其数据管理服务器设有集成工具、备份工具和分类工具;数据分析装置设有模型建立模块和相似评估模块;集成工具对多个数据管理服务器上的数据集成组合;在组合数据的基础上使用RMAN备份工具得到RMAN备份数据;在RMAN备份数据的基础上逻辑备份工具得到逻辑备份数据,保存到备份服务器;模型建立模块使用Scikit‑Learn库、协同过滤算法和机器学习技术建立相似度模型,划出两个数据之间的相似簇类和关联簇类;相似评估模块使用相似度模型查找相似的数据,查询两个数据之间的相似点并计算相似率;通过两种备份工具配合使用提高备份效率,完整备份数据繁多的大型数据;通过建立相似度模型查找相似之处。
Description
技术领域
本发明涉及数据管理领域,具体涉及大数据管理系统。
背景技术
分布式存储服务器一般采用数据库来存储数据,包括论文、策划 和实验数据等,其备份方式主要有两种,物理备份和逻辑备份;物理 备份能实现OARCLE数据库的完整恢复,但是它涉及到数据库的具体 数据,像普通的物理拷贝数据一样进行备份,因此需要比较大的外部 存储空间;逻辑备份遇到大型的数据库则会力不从心,因为耗时太长, 效率太低。当前论文或实验成果等抄袭严重,需要一一对比,查找相 似数据,杜绝不规范不合理数据。
发明内容
针对上述问题,本发明提供大数据管理系统,解决数据多时备份 不方便和数据抄袭的问题,并合理分类数据。
为了解决上述技术问题,本发明采用如下技术方案:
大数据管理系统,包括多个数据管理服务器、数据分析装置和备 份服务器,所述数据管理服务器设有集成工具、备份工具和分类工具; 所述集成工具包括SPSS或ETL;所述备份工具包括RMAN备份工具和 逻辑备份工具;所述数据分析装置设有模型建立模块和相似评估模块; 其备份流程如下:
S11:所述集成工具对多个数据管理服务器上的数据集成组合, 得到组合数据;
S12:备份周期的第一节点,在组合数据的基础上使用RMAN备份 工具得到RMAN备份数据并保存到备份服务器;
S13:备份周期的第二节点,在RMAN备份数据的基础上使用逻辑 备份工具得到逻辑备份数据,保存到备份服务器。
可选的,所述分类工具包括全量数据单元、增量数据单元、格网 数据单元、标识单元和安置单元,各单元联系流程如下:
S21:所述全量数据单元采集组合数据的全量数据并传入数据库;
S22:所述增量数据单元采集组合数据的增量数据并传入数据库;
S23:所述格网数据单元将全量数据、增量数据流化处理,打散 为格网数据;
S24:所述标识单元根据数据来源、分布规律、人工发现进行类 型标识;
S25:所述安置单元整理、保存和发送数据至数据分析装置。
可选的,所述模型建立模块使用Scikit-Learn库、协同过滤算 法和机器学习技术建立相似度模型;所述模型建立模块还使用 k-means算法进行无监督学习,划出两个数据之间的相似簇类和关联 簇类。
可选的,所述相似评估模块使用相似度模型查找相似的数据,并 通过相似簇类和关联簇类查询两个数据之间的相似点并计算相似率, 超过30%则判断为抄袭。
可选的,所述多个数据管理服务器包括多个小型计算机和存储器; 每台计算机中具有局部的数据并均有一份部分数据副本;每台计算机 单独放置,位于不同地点的计算机通过光纤相连接。
可选的,所述备份服务器为光纤存储服务器,所述光纤存储服务 器与所述多个数据管理服务器通过光纤相连接。
可选的,所述数据分析装置安装于大型计算机,并使用大型计算 机的CPU和内存。
由上述技术方案可知,本发明的有益效果:本发明通过两种备份 工具配合使用提高备份效率,完整备份数据繁多的大型数据;又通过 模型建立模块建立相似度模型更为快速的查找不同数据相似之处,减 少当前论文或实验数据抄袭的情况。
附图说明
图1是本发明的功能模块示意图;
图2为本发明所述的分类工具工作的流程框图;
其中,1-多个数据管理服务器,2-数据分析装置,3-备份服务器, 11-集成工具,12-备份工具,13-分类工具,21-模型建立模块,22- 相似评估模块,121-RMAN备份工具,122-逻辑备份工具,131-全量数 据单元,132-增量数据单元,133-格网数据单元,134-标识单元,135- 安置单元。
具体实施方式:
如图1所示,本发明为大数据管理系统,解决数据多时备份不方 便和数据抄袭的问题,并合理分类数据;包括多个数据管理服务器1、 数据分析装置2和备份服务器3,所述数据管理服务器1设有集成工 具11、备份工具12和分类工具13;所述集成工具11包括SPSS或 ETL;所述备份工具12包括RMAN备份工具121和逻辑备份工具122; 所述数据分析装置2设有模型建立模块21和相似评估模块22;其备 份流程如下:
S11:所述集成工具11对多个数据管理服务器1上的数据集成组 合,得到组合数据;
S12:备份周期的第一节点,在组合数据的基础上使用RMAN备份 工具121得到RMAN备份数据并保存到备份服务器3;
S13:备份周期的第二节点,在RMAN备份数据的基础上使用逻辑 备份工具122得到逻辑备份数据,保存到备份服务器3。
通过两种备份工具配合使用提高备份效率,完整备份数据繁多的 大型数据。
本实施例中,所述分类工具13包括全量数据单元131、增量数 据单元132、格网数据单元133、标识单元134和安置单元135,各 单元联系流程如下:
S21:所述全量数据单元131采集组合数据的全量数据并传入数 据库;
S22:所述增量数据单元132采集组合数据的增量数据并传入数 据库;
S23:所述格网数据单元133将全量数据、增量数据流化处理, 打散为格网数据;
S24:所述标识单元134根据数据来源、分布规律、人工发现进 行类型标识;
S25:所述安置单元135整理、保存和发送数据至数据分析装置 2。
通过分类工具13有效给各类数据加上标识和分类入库,使得后 续的分析快捷高效。
本实施例中,所述模型建立模块21使用Scikit-Learn库、协同 过滤算法和机器学习技术建立相似度模型;所述模型建立模块21还 使用k-means算法进行无监督学习,划出两个数据之间的相似簇类和 关联簇类。通过模型建立模块21建立相似度模型更为快速的查找不 同数据相似之处,减少当前论文或实验数据抄袭的情况。
本实施例中,所述相似评估模块22使用相似度模型查找相似的 数据,并通过相似簇类和关联簇类查询两个数据之间的相似点并计算 相似率,超过30%则判断为抄袭。该标准可随着实际应用需求而更改, 在更严谨的情况下,10%以上会被判定为抄袭。
本实施例中,所述多个数据管理服务器1包括多个小型计算机和 存储器;每台计算机中具有局部的数据并均有一份部分数据副本;每 台计算机单独放置,位于不同地点的计算机通过光纤相连接。通过多 个小型计算机存取存储器的数据,方便数据分散保存。
本实施例中,所述备份服务器3为光纤存储服务器,所述光纤存 储服务器与所述多个数据管理服务器通过光纤相连接。
本实施例中,所述数据分析装置2安装于大型计算机,并使用大 型计算机的CPU和内存。
本实施例中的所有技术特征均可根据实际需要而进行自由组合。
上述实施例为本发明较佳的实现方案,除此之外,本发明还可以 其它方式实现,在不脱离本技术方案构思的前提下任何显而易见的替 换均在本发明的保护范围之内。
Claims (7)
1.大数据管理系统,包括多个数据管理服务器、数据分析装置和备份服务器,其特征在于:所述数据管理服务器设有集成工具、备份工具和分类工具;所述集成工具包括SPSS或ETL;所述备份工具包括RMAN备份工具和逻辑备份工具;所述数据分析装置设有模型建立模块和相似评估模块;其备份流程如下:
S11:所述集成工具对多个数据管理服务器上的数据集成组合,得到组合数据;
S12:备份周期的第一节点,在组合数据的基础上使用RMAN备份工具得到RMAN备份数据并保存到备份服务器;
S13:备份周期的第二节点,在RMAN备份数据的基础上使用逻辑备份工具得到逻辑备份数据,保存到备份服务器。
2.根据权利要求1所述的大数据管理系统,其特征在于:所述分类工具包括全量数据单元、增量数据单元、格网数据单元、标识单元和安置单元,各单元联系流程如下:
S21:所述全量数据单元采集组合数据的全量数据并传入数据库;
S22:所述增量数据单元采集组合数据的增量数据并传入数据库;
S23:所述格网数据单元将全量数据、增量数据流化处理,打散为格网数据;
S24:所述标识单元根据数据来源、分布规律、人工发现进行类型标识;
S25:所述安置单元整理、保存和发送数据至数据分析装置。
3.根据权利要求1或2所述的大数据管理系统,其特征在于:所述模型建立模块使用Scikit-Learn库、协同过滤算法和机器学习技术建立相似度模型;所述模型建立模块还使用k-means算法进行无监督学习,划出两个数据之间的相似簇类和关联簇类。
4.根据权利要求1或3所述的大数据管理系统,其特征在于:所述相似评估模块使用相似度模型查找相似的数据,并通过相似簇类和关联簇类查询两个数据之间的相似点并计算相似率,超过30%则判断为抄袭。
5.根据权利要求1所述的大数据管理系统,其特征在于:所述多个数据管理服务器包括多个小型计算机和存储器;每台计算机中具有局部的数据并均有一份部分数据副本;每台计算机单独放置,位于不同地点的计算机通过光纤相连接。
6.根据权利要求1所述的大数据管理系统,其特征在于:所述备份服务器为光纤存储服务器,所述光纤存储服务器与所述多个数据管理服务器通过光纤相连接。
7.根据权利要求1所述的大数据管理系统,其特征在于:所述数据分析装置安装于大型计算机,并使用大型计算机的CPU和内存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910976537.4A CN110750384A (zh) | 2019-10-15 | 2019-10-15 | 大数据管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910976537.4A CN110750384A (zh) | 2019-10-15 | 2019-10-15 | 大数据管理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110750384A true CN110750384A (zh) | 2020-02-04 |
Family
ID=69278302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910976537.4A Pending CN110750384A (zh) | 2019-10-15 | 2019-10-15 | 大数据管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750384A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650850A (zh) * | 2020-12-25 | 2021-04-13 | 胡友彬 | 风云卫星遥感测绘数据管理系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369279A (zh) * | 2008-09-19 | 2009-02-18 | 江苏大学 | 一种基于计算机检索系统的学术论文相似度的检测方法 |
CN103955510A (zh) * | 2014-04-30 | 2014-07-30 | 广西电网公司电力科学研究院 | 基于etl云平台上传的海量电力营销数据整合方法 |
CN106528111A (zh) * | 2016-10-25 | 2017-03-22 | 广东工业大学 | 一种数据结构作业程序相似性度量方法 |
CN106599726A (zh) * | 2017-01-16 | 2017-04-26 | 江苏徐工信息技术股份有限公司 | 一种基于MapReduce的分布式数据匿名处理方法 |
CN107430613A (zh) * | 2015-03-23 | 2017-12-01 | 甲骨文国际公司 | 知识密集型数据处理系统 |
CN108228830A (zh) * | 2018-01-03 | 2018-06-29 | 广东工业大学 | 一种数据处理系统 |
CN108564254A (zh) * | 2018-03-15 | 2018-09-21 | 国网四川省电力公司绵阳供电公司 | 基于大数据的配电设备状态可视化平台 |
US10108497B1 (en) * | 2015-09-29 | 2018-10-23 | EMC IP Holding Company LLC | Point-in-time restore using SQL VDI incremental backup over SQL VSS snapshot backup and recover |
CN109388525A (zh) * | 2018-10-10 | 2019-02-26 | 国网安徽省电力有限公司信息通信分公司 | 一种数据库备份系统 |
-
2019
- 2019-10-15 CN CN201910976537.4A patent/CN110750384A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369279A (zh) * | 2008-09-19 | 2009-02-18 | 江苏大学 | 一种基于计算机检索系统的学术论文相似度的检测方法 |
CN103955510A (zh) * | 2014-04-30 | 2014-07-30 | 广西电网公司电力科学研究院 | 基于etl云平台上传的海量电力营销数据整合方法 |
CN107430613A (zh) * | 2015-03-23 | 2017-12-01 | 甲骨文国际公司 | 知识密集型数据处理系统 |
US10108497B1 (en) * | 2015-09-29 | 2018-10-23 | EMC IP Holding Company LLC | Point-in-time restore using SQL VDI incremental backup over SQL VSS snapshot backup and recover |
CN106528111A (zh) * | 2016-10-25 | 2017-03-22 | 广东工业大学 | 一种数据结构作业程序相似性度量方法 |
CN106599726A (zh) * | 2017-01-16 | 2017-04-26 | 江苏徐工信息技术股份有限公司 | 一种基于MapReduce的分布式数据匿名处理方法 |
CN108228830A (zh) * | 2018-01-03 | 2018-06-29 | 广东工业大学 | 一种数据处理系统 |
CN108564254A (zh) * | 2018-03-15 | 2018-09-21 | 国网四川省电力公司绵阳供电公司 | 基于大数据的配电设备状态可视化平台 |
CN109388525A (zh) * | 2018-10-10 | 2019-02-26 | 国网安徽省电力有限公司信息通信分公司 | 一种数据库备份系统 |
Non-Patent Citations (1)
Title |
---|
岳鹏宇;李素晓;赵书俊;: "基于数据分类与生命周期的RMAN备份优化", 软件导刊, no. 03 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112650850A (zh) * | 2020-12-25 | 2021-04-13 | 胡友彬 | 风云卫星遥感测绘数据管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105468677B (zh) | 一种基于图结构的日志聚类方法 | |
CN107077453B (zh) | 用于使用集群缓存进行数据库查询的并行优化的系统和方法 | |
CN111460023A (zh) | 基于Elasticsearch的业务数据处理方法、装置、设备及存储介质 | |
EP2263180A2 (en) | Indexing large-scale gps tracks | |
Zhao et al. | Keyframe retrieval by keypoints: Can point-to-point matching help? | |
CN105159971B (zh) | 一种云平台数据检索方法 | |
US7765219B2 (en) | Sort digits as number collation in server | |
CN111125116B (zh) | 定位业务表中代码字段及对应代码表的方法及系统 | |
CN104881427A (zh) | 一种面向电网调控运行的数据血统分析方法 | |
Mayer et al. | Out-of-core edge partitioning at linear run-time | |
CN104699857A (zh) | 基于知识工程的大数据存储方法 | |
CN108052535B (zh) | 基于多处理器平台的视觉特征并行快速匹配方法和系统 | |
CN110750384A (zh) | 大数据管理系统 | |
Papapetrou et al. | Decentralized probabilistic text clustering | |
CN109739854A (zh) | 一种数据存储方法及装置 | |
CN111428140A (zh) | 高并发数据检索方法、装置、设备及存储介质 | |
Shestakov et al. | Scalable high-dimensional indexing with Hadoop | |
CN107657067B (zh) | 一种基于余弦距离的前沿科技信息快速推送方法及系统 | |
Zhou et al. | Adaptive subspace symbolization for content-based video detection | |
CN115729965A (zh) | 信息流处理方法、装置、流服务器及存储介质 | |
Tang et al. | Exploit every bit: Effective caching for high-dimensional nearest neighbor search | |
Mohamed et al. | Quantized ranking for permutation-based indexing | |
Vlachou et al. | Discovering representative skyline points over distributed data | |
CN105868406A (zh) | 基于多数据库的专利检索系统 | |
KR20210060829A (ko) | 빅데이터 플랫폼 관리 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220808 Address after: Room 301, Unit 1, Building 3, No. 86, Jiyang North Road, Jiyang Street, Zhuji City, Shaoxing City, Zhejiang Province, 311800 Applicant after: Wang Kai Address before: Room 1504-B, Bodi Building, Ningwei Street, Xiaoshan District, Hangzhou City, Zhejiang Province 310000 Applicant before: Zhejiang Zhongxin Space Technology Co.,Ltd. |