CN108519930A - 大数据的传输、关联性存储以及数据安全保障系统 - Google Patents

大数据的传输、关联性存储以及数据安全保障系统 Download PDF

Info

Publication number
CN108519930A
CN108519930A CN201810099516.4A CN201810099516A CN108519930A CN 108519930 A CN108519930 A CN 108519930A CN 201810099516 A CN201810099516 A CN 201810099516A CN 108519930 A CN108519930 A CN 108519930A
Authority
CN
China
Prior art keywords
data
module
timed task
transmission
big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810099516.4A
Other languages
English (en)
Inventor
顾蓉
童庆
赵晓静
王伟娜
杨丹
陈诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WANDA INFORMATION CO Ltd
Original Assignee
WANDA INFORMATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WANDA INFORMATION CO Ltd filed Critical WANDA INFORMATION CO Ltd
Priority to CN201810099516.4A priority Critical patent/CN108519930A/zh
Publication of CN108519930A publication Critical patent/CN108519930A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种大数据的传输、关联性存储以及数据安全保障系统,其特征在于,所述系统运行于大数据中心,包括:数据汇聚模块;数据备份模块;定时任务模块;数据清洗模块;数据脱敏模块;数据抽取模块;数据关联模块;数据存储模块;数据生产模块。本发明解决了现有的大数据存储系统对海量数据分散存储影响数据分析效率以及安全性的问题。

Description

大数据的传输、关联性存储以及数据安全保障系统
技术领域
本发明涉及一种大数据的传输、关联性存储以及数据安全保障系统,属于大数据处理方法技术领域。
背景技术
近年来,随着计算机和云计算技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业大数据已远远超出现有的计算技术和信息系统处理能力,因此,寻求有效的大数据处理技术、方法和手段已成为现实世界的迫切需求。
大数据赋予了人们洞察未来的能力,但同时诸多领域的问题亟待解决,最重要的是每个人的信息都被互联网所记录和保留了下来,并且进行加工和利用,为人所用,而这也留下了信息安全隐患。更多的隐私、安全性问题:人们的隐私被二次利用了。多少密码和账号是因为“社交网络”流出去的?眼下互联网热门的话题之一就是互联网实名制问题,如果人们如果明着亮出自己的身份,互联网才能对人们的隐私给予更好保护。
发明内容
本发明的目的是提供一种给与人们隐私更好保护的大数据处理、存储方法。
为了达到上述目的,本发明的技术方案是提供了一种大数据的传输、关联性存储以及数据安全保障系统,其特征在于,所述系统运行于大数据中心,包括:
数据汇聚模块,用于从多个不同数据源收集原始数据;
数据备份模块,用于定时或由用户触发将大数据中心的原始数据备份至备份数据中心;
定时任务模块,用于定时启动数据清洗模块、数据脱敏模块、数据抽取模块、数据关联模块及数据存储模块;
数据清洗模块,由定时任务模块触发,用于对大数据中心的原始数据进行清洗,剔除异常数据;
数据脱敏模块,由定时任务模块触发,用于对数据清洗模块清洗后的原始数据进行脱敏处理;
数据抽取模块,由定时任务模块触发,用于根据用户需求从数据脱敏模块处理后的数据中抽取数据,或者按照预先设定的规则对数据脱敏模块处理后的数据进行转换;
数据关联模块,由定时任务模块触发,用于对数据抽取模块处理后的数据进行关联,形成关联数据表;
数据存储模块,由定时任务模块触发,用于存储关联数据表;
数据生产模块,用于对数据抽取模块处理后的数据进行分析挖掘,该区域为独立区域。
优选地,所述数据备份模块采用全量备份方式或增量备份方式将所述原始数据备份至所述备份数据中心。
优选地,在所述定时任务模块中,用户为根据不同的需求设定的不同任务设定不同的定时时间。
优选地,所述数据清洗模块进行原始数据清洗时,先统一原始数据的格式,再剔除无效信息、异常值及重复数据。
优选地,所述数据脱敏模块对数据中的个人敏感信息词进行脱敏处理。
本发明提供的一种大数据的传输、关联性存储以及数据安全保障的系统,解决了现有的大数据存储系统对海量数据分散存储影响数据分析效率以及安全性的问题。
附图说明
图1为本发明提供的一种系统的实现方法流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明流程的详细描述。结合这样的实施例描述本发明,但是发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明提供的一种大数据的传输、关联性存储以及数据安全保障系统运行于大数据中心,包括:
数据汇聚模块,用于从多个不同数据源收集原始数据。
数据备份模块,用于定时或由用户触发将大数据中心的原始数据备份至备份数据中心;数据备份模块采用全量备份方式或增量备份方式将所述原始数据备份至所述备份数据中心;在定时任务模块中,用户为根据不同的需求设定的不同任务设定不同的定时时间。
定时任务模块,用于定时启动数据清洗模块、数据脱敏模块、数据抽取模块、数据关联模块及数据存储模块。
数据清洗模块,由定时任务模块触发,用于对大数据中心的原始数据进行清洗,剔除异常数据。数据清洗模块进行原始数据清洗时,先统一原始数据的格式,再剔除无效信息、异常值及重复数据。
数据脱敏模块,由定时任务模块触发,用于对数据清洗模块清洗后的原始数据进行脱敏处理。数据脱敏模块对数据中的个人敏感信息词(例如身份证、电话号码、账户密码等)进行脱敏处理。
数据抽取模块,由定时任务模块触发,用于根据用户需求从数据脱敏模块处理后的数据中抽取数据,或者按照预先设定的规则对数据脱敏模块处理后的数据进行转换。
数据关联模块,由定时任务模块触发,用于对数据抽取模块处理后的数据进行关联,形成关联数据表。
数据存储模块,由定时任务模块触发,用于存储关联数据表。
数据生产模块,用于对数据抽取模块处理后的数据进行分析挖掘,该区域为独立区域。
基于上述系统的大数据的传输、关联性存储以及数据安全保障的方法,包括以下步骤:
步骤1、通过数据传输工作,将不同来源的数据传输同步至大数据中心;
步骤2、定时备份数据,保障数据的安全;
步骤3、将大数据中心数据进行数据清洗;
步骤4、将大数据中心的数据进行脱敏处理;
步骤5、脱敏后的数据根据相关需求、表进行抽取处理;
步骤6、根据需求,将不同来源数据进行关联;
步骤7、将关联后的结果数据进行存储,形成生产库;
步骤8、对生产库数据进行挖掘与分析。

Claims (5)

1.一种大数据的传输、关联性存储以及数据安全保障系统,其特征在于,所述系统运行于大数据中心,包括:
数据汇聚模块,用于从多个不同数据源收集原始数据;
数据备份模块,用于定时或由用户触发将大数据中心的原始数据备份至备份数据中心;
定时任务模块,用于定时启动数据清洗模块、数据脱敏模块、数据抽取模块、数据关联模块及数据存储模块;
数据清洗模块,由定时任务模块触发,用于对大数据中心的原始数据进行清洗,剔除异常数据;
数据脱敏模块,由定时任务模块触发,用于对数据清洗模块清洗后的原始数据进行脱敏处理;
数据抽取模块,由定时任务模块触发,用于根据用户需求从数据脱敏模块处理后的数据中抽取数据,或者按照预先设定的规则对数据脱敏模块处理后的数据进行转换;
数据关联模块,由定时任务模块触发,用于对数据抽取模块处理后的数据进行关联,形成关联数据表;
数据存储模块,由定时任务模块触发,用于存储关联数据表;
数据生产模块,用于对数据抽取模块处理后的数据进行分析挖掘,该区域为独立区域。
2.如权利要求1所述的一种大数据的传输、关联性存储以及数据安全保障系统,其特征在于,所述数据备份模块采用全量备份方式或增量备份方式将所述原始数据备份至所述备份数据中心。
3.如权利要求1所述的一种大数据的传输、关联性存储以及数据安全保障系统,其特征在于,在所述定时任务模块中,用户为根据不同的需求设定的不同任务设定不同的定时时间。
4.如权利要求1所述的一种大数据的传输、关联性存储以及数据安全保障系统,其特征在于,所述数据清洗模块进行原始数据清洗时,先统一原始数据的格式,再剔除无效信息、异常值及重复数据。
5.如权利要求1所述的一种大数据的传输、关联性存储以及数据安全保障系统,其特征在于,所述数据脱敏模块对数据中的个人敏感信息词进行脱敏处理。
CN201810099516.4A 2018-01-31 2018-01-31 大数据的传输、关联性存储以及数据安全保障系统 Pending CN108519930A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810099516.4A CN108519930A (zh) 2018-01-31 2018-01-31 大数据的传输、关联性存储以及数据安全保障系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810099516.4A CN108519930A (zh) 2018-01-31 2018-01-31 大数据的传输、关联性存储以及数据安全保障系统

Publications (1)

Publication Number Publication Date
CN108519930A true CN108519930A (zh) 2018-09-11

Family

ID=63432737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810099516.4A Pending CN108519930A (zh) 2018-01-31 2018-01-31 大数据的传输、关联性存储以及数据安全保障系统

Country Status (1)

Country Link
CN (1) CN108519930A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213758A (zh) * 2018-07-24 2019-01-15 中国联合网络通信集团有限公司 数据存取方法、装置、设备及计算机可读存储介质
CN111625845A (zh) * 2020-04-17 2020-09-04 沈阳派客动力科技有限公司 大数据的安全管理方法、装置和设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529817A (zh) * 2016-11-17 2017-03-22 国信优易数据有限公司 一种灾情信息服务平台以及信息服务系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529817A (zh) * 2016-11-17 2017-03-22 国信优易数据有限公司 一种灾情信息服务平台以及信息服务系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213758A (zh) * 2018-07-24 2019-01-15 中国联合网络通信集团有限公司 数据存取方法、装置、设备及计算机可读存储介质
CN109213758B (zh) * 2018-07-24 2021-03-30 中国联合网络通信集团有限公司 数据存取方法、装置、设备及计算机可读存储介质
CN111625845A (zh) * 2020-04-17 2020-09-04 沈阳派客动力科技有限公司 大数据的安全管理方法、装置和设备

Similar Documents

Publication Publication Date Title
Jackoway et al. Identification of live news events using Twitter
CN103646074B (zh) 一种确定图片簇描述文本核心词的方法及装置
CN111782943A (zh) 基于历史数据记录的信息推荐方法、装置、设备及介质
CN108446295B (zh) 信息检索方法、装置、计算机设备和存储介质
WO2020057301A1 (zh) 决策树生成方法和装置
CN108900514A (zh) 基于同源分析的攻击信息追踪溯源方法及装置
Kennedy Predictive patterns of sex trafficking online
CN108519930A (zh) 大数据的传输、关联性存储以及数据安全保障系统
WO2012075219A2 (en) Relationship detection within biometric match results candidates
CN111708794A (zh) 基于大数据平台的数据比对方法、装置和计算机设备
SV et al. An analysis of attitude of general public toward COVID-19 crises–sentimental analysis and a topic modeling study
CN107220291A (zh) 网页数据防抓取的方法及系统
JP2022133401A (ja) 関連スコア算出システム、方法およびプログラム
Frank et al. Spreading the Message Digitally: A Look into Extremist Organizations’ Use of the Internet
CN113032821A (zh) 数据脱敏方法、装置、电子设备及可读存储介质
CN104346547A (zh) 一种智能化的身份识别系统
CN106295437A (zh) 一种对同一物品上具有多个条形码的数据采集和处理系统
CN111949696A (zh) 一种全要素关联分析方法及装置
CN109460500A (zh) 热点事件发现方法、装置、计算机设备和存储介质
CN105975482A (zh) 基于垂直搜索的相关度排序实现方法及装置
Arianto et al. Mining Unstructured Data in Social Media for Natural Disaster Management in Indonesia
Almazidy et al. Towards a disease outbreak notification framework using Twitter mining for smart home dashboards
Kaleel et al. Event detection and trending in multiple social networking sites
CN106778681B (zh) 一种人脸识别方法及人脸识别设备
Kiforchuk Frequency analysis of russian propaganda telegram channels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180911

RJ01 Rejection of invention patent application after publication