CN107800787A - 一种分布式大数据实时交换共享的计算机网络系统 - Google Patents

一种分布式大数据实时交换共享的计算机网络系统 Download PDF

Info

Publication number
CN107800787A
CN107800787A CN201710991527.9A CN201710991527A CN107800787A CN 107800787 A CN107800787 A CN 107800787A CN 201710991527 A CN201710991527 A CN 201710991527A CN 107800787 A CN107800787 A CN 107800787A
Authority
CN
China
Prior art keywords
data
distributed
data file
key
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710991527.9A
Other languages
English (en)
Other versions
CN107800787B (zh
Inventor
孟青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tuskong Nanjing Technology Co., Ltd
Original Assignee
Guangzhou Baixing Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baixing Network Technology Co Ltd filed Critical Guangzhou Baixing Network Technology Co Ltd
Priority to CN201710991527.9A priority Critical patent/CN107800787B/zh
Publication of CN107800787A publication Critical patent/CN107800787A/zh
Application granted granted Critical
Publication of CN107800787B publication Critical patent/CN107800787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种分布式大数据实时交换共享的计算机网络系统,实现了适用于分布式计算交换共享的分布式数据文件管理,并且实现了数据的加密上传、解密下载、数据文件共享、异常攻击预警机制,所述分布式大数据实时交换共享的计算机网络系统包括:多个用户设备,用于数据文件所有者把加密数据放到存储服务器,以及数据文件共享者利用服务器的计算能力,对加密数据进行查询;至少一个公钥服务器,存放所有用户的公钥;多个任务服务器,用于实现所有操作,提供对元数据的管理和任务的协调;多个存储服务器,用于存储加密数据的分布式数据;至少一个验证服务器,用于用户注册和身份验证;至少一个MapReduce服务器,用于MapReduce任务的建立和执行。

Description

一种分布式大数据实时交换共享的计算机网络系统
技术领域
本发明涉及计算机系统领域,特别涉及一种分布式大数据实时交换共享的计算机网络系统。
背景技术
大数据是指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》书中,大数据处理是指不用随机分析法、统计方法,而是采用所有数据同时进行分析处理。这样大数据分析工作如果采用分布式计算架构将会比单台计算机花费时间短。它的特色是利用云存储技术、分布式数据库、分布式处理,在海量数据中挖掘出有价值的信息。从海量数据中“提炼”出有价值的信息,这对数据处理能力和网络架构而言也是巨大的挑战。
随着网络技术的快速发展,数据的容量和多样性快速增加,而处理数据的算法复杂度却难以改善,依赖个人经验和手工操作来描述数据、标注数据、选择特征、提取特征、处理数据的方法,已经很难满足大数据快速增长的需求,如何高效处理大数据已经成为一个紧迫的难题。在现有的分布式大数据处理技术中,诸如基于MapReduce的Hadoop分布式文件系统及其数据处理方法,绝大部分的资源都会浪费在计算机集群之间的数据传输上,如何降低分布式系统的通信代价,也成为了一个必须解决的问题。
深度学习方法的研究突破,为解决大数据处理问题指明了一个值得探索的方向。在参考文献1“G.E.Hinton and R.R.Salakhutdinov,"Reducing the dimensionalityofdata with neural networks,"Science,vol.313,no.5786,pp.504-507,2006”中,Hinton等人在2006年提出了用于深度置信网的逐层初始化训练方法,这是深度学习方法的研究起点,该方法打破了持续了几十年的深度学习系统训练困难且效果不好的局面。深度学习是通过模拟人脑分层次的抽象,将底层数据逐层映射而获得更抽象的特征,它可以从大数据中自动提取特征,并通过海量的样本训练获得很好的处理效果。实际上,大数据的快速增长和深度学习的研究是相辅相成的,一方面大数据的快速增长需要一种高效处理海量数据的方法,另一方面深度学习系统的训练需要海量的样本数据。简而言之,大数据可以使深度学习的性能达到极致。
目前对大数据的处理有时戳分布式算法和DFS最小生成树分布式算法两种处理方式。对于前者,对于一个全序对事件S,系统中的事件为接受消息后,取较大者作为新时戳。节点共有m个,节点的启动时间为t,则算法的消息复杂度为O(mn2),时间复杂度为O(t+L)。在最坏情况下,每个节点顺序依次操作,总复杂度至多是:O(m*mn2)+O(t+L)。该算法的问题是不同事件可能有相同时戳(并发事件),虽然可以选择节点地址作为时戳的低位,但是不能通过事件的时戳判定两事件之间是否是因果相关。而基于DFS生成树分布算法可以判断两个事件之间的因果关系。
DFS生成树分布算法,基于DFS生成树分布算法的思想是每个节点均可自发唤醒,构造一棵以自己为根的DFS生成树。若两棵DFS树试图链接同一节点时,该节点将加入根的id较大的DFS树。对于一个具有m条边和n个节点的网络,自发启动的节点共有p个,其中id值最大者的启动时间为t,则算法的消息复杂度为O(pn2),时间复杂度为O(t+m)。最坏情况下,每个节点均试图以自己为根构造一棵DFS树,总复杂度至多是O(pn2)+O(m*n)。以上两种梳理方法均存在数据处理效率不高的问题。
一个或多个数据集的集合是如此大或复杂,以至于传统的数据库管理工具和/或数据处理应用(例如,关系数据库和台式机的统计包)不能够在可容忍的时间量内管理数据集。通常,使用大数据的应用是事物性的和针对或专注终端用户的。例如,网页搜索引擎、社交媒体应用、市场应用和零售应用可以使用和操纵大数据。可以由允许现代多过程、多核服务器的并行处理能力被充分利用的分布式数据库来支持大数据。
发明内容
为了克服上述提出的缺陷,本发明提出了以下技术方案。
本发明提出了一种分布式大数据实时交换共享的计算机网络系统,实现了适用于分布式计算交换共享的分布式数据文件管理,并且实现了数据的加密上传、解密下载、数据文件共享、异常攻击预警机制,所述分布式大数据实时交换共享的计算机网络系统包括:多个用户设备,用于数据文件所有者把加密数据放到存储服务器,以及数据文件共享者利用服务器的计算能力,对加密数据进行查询;至少一个公钥服务器,存放所有用户的公钥;多个任务服务器,用于实现所有操作,提供对元数据的管理和任务的协调;多个存储服务器,用于存储加密数据的分布式数据;至少一个验证服务器,用于用户注册和身份验证;至少一个MapReduce服务器,用于MapReduce任务的建立和执行;其中,所述任务服务器分别与公钥服务器、存储服务器、验证服务器和MapReduce服务器连接,多个用户设备分别与任务服务器存储器相连接,多个存储服务器之间互相连接。
在某些实施例中,用户设备是执行物理功能以控制过程的现场设备,或用户设备是提供控制器与现场设备之间的连接的I/O设备。
在某些实施例中,所述数据文件为实时的过程相关的数据、工厂相关的数据、金融业务的数据、游戏数据、以及其它类型的数据。
在某些实施例中,采用改进的分布式数据集对数据文件进行存储,改进的分布式数据集对象中的数据文件在物理上是以分区(Partition)的方式存储的,不同分区的数据可以分布在不同的机器上,在底层被并行计算处理。
在某些实施例中,对大数据文件的处理采用时戳分布式算法,或采用DFS最小生成树分布式算法进行处理。
本发明提出了一种在分布式大数据实时交换共享的计算机网络系统中运行的方法,用于实现分布式大数据的共享,包括如下步骤:
S1、用户设备i首先向任务服务器提交查询请求,任务服务器根据该查询请求向验证服务器验证用户设备i的身份;
S2、根据验证服务器的验证,确定用户设备i是否是数据文件所有者指定的共享用户,并具有访问权限,如果用户设备i没有通过验证,则给出警报信息,否则进入下一步;
S3、如果用户设备i是数据文件所有者指定的共享用户,并具有访问权限,则任务服务器要求用户设备i提供私钥;
S4、任务服务器根据用于设备i的私钥解密用公钥加密的对称密钥,如果不能解密则给出警报信息,否则解密后得到对称秘钥key;
S5、根据指定的对称加密算法和对称密钥key,解密数据文件内容部分,供用户设备i下载。
在某些实施例中,所述分布式大数据为动态测量结果或控制数据,包括指定过程操作中的变化的数据、指定操作参数中变化的数据;所述指定操作参数为设定点、过程和硬件警报以及事件中的数据。
在某些实施例中,在上述步骤S1之前,数据文件拥有者在上传数据文件时,记录数据文件加密算法名称、用户信息和数据文件内容摘要,形成指纹信息。
在某些实施例中,在上述步骤S5中,用指定的对称加密算法和对称密钥key,解密数据文件内容部分,如果不能正常解密,则给出警报信息,否则进入把解密后的数据文件内容部分求散列值,与指纹信息中的数据文件摘要部分进行比较,如果不相同则给出警报信息,否则正确解密得到数据文件内容。
在某些实施例中,在任务服务器中,对分布式大数据的处理所采用的大数据分析基础算法采用神经网络训练算法。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的分布式大数据实时交换共享的计算机网络系统结构示意图。
附图2示出了根据本发明实施方式的大数据文件系统的逻辑架构示意图。
附图3示出了根据本发明实施方式的神经网络结构示意图。
附图4示出了根据本发明实施方式的数据文件的物理格式.
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
Google在2014年提出的MapReduce并行计算框架是一种重要且广为使用的大数据处理解决方案。MapReduce通过map和reduce两个简单的编程接口为用户屏蔽了很多底层的并行化处理细节,从而显著地简化了数据密集型应用的开发难度。此外,MapReduce框架还提供了很多其他重要特性,包括负载均衡、弹性可扩展以及系统容错性等,这些特性使得MapReduce成为了一种易于维护和使用的并行化计算框架。Hadoop作为MapReduce的一种开源实现,在工业界和学术界被广泛使用和研究。
为了有效管理越来越多的大数据,我们提出了一种分布式大数据实时交换共享的计算机网络系统,实现了适用于分布式计算交换共享的分布式数据文件管理系统。并且实现了以下的功能:数据的加密上传、解密下载、数据文件共享、异常攻击预警机制。
所述分布式大数据实时交换共享的计算机网络系统如图1所示,包括多种分布式大数据设备:
多个用户设备,数据文件所有者把加密数据放到存储服务器;数据文件共享者利用服务器的计算能力,对加密数据进行查询。
至少一个公钥服务器,存放所有用户的公钥。
至少一个任务服务器,用于实现所有操作,提供对元数据的管理和任务的协调。
多个存储服务器,用于存储加密数据的分布式数据。
至少一个验证服务器,用于用户注册和身份验证。
至少一个MapReduce服务器,用于MapReduce任务的建立和执行,以兼容MapReduce系统。
其中,任务服务器分别与公钥服务器、存储服务器、验证服务器和MapReduce服务器连接,多个用户设备与存储器相连接,存储服务器之间互相连接。
在某些实施例中,用户设备可以是执行物理功能以控制过程的现场设备。例如,金融机构的柜台终端、通信系统中的控制器、数据采集设备的现场终端。它们分布在多个不同的距离或远或近的地理位置,通过高速数据网络与本地的存储服务器以及远程的存储服务器相连接,并在物理上以及逻辑上与相应的任务服务器、公钥服务器、验证服务器和MapReduce服务器相连接。
每个用户设备分别以生成、创建、接收、或者以其它方式观察本地数据的速率收集本地数据,并且将所收集的本地数据储存在各自的嵌入式大数据储存器(例如,存储服务器)中,例如储存为本地的、历史化大数据。该分布式的、本地化的大数据收集和分析允许对在现场发生的潜在有害的情况的较为及时的反馈。例如,在例示性场景中,控制器对作为包括在生产特定产品的过程工厂中的控制回路的部分的过程控制设备的集合(例如,现场设备和可选的其它设备)进行控制。控制回路中的事件的某种组合导致劣质的产品质量(当最终在稍后(例如,在事件的组合发生之后几个小时)生成产品时)。控制器利用其大数据分析器来对在事件的组合发生时或不久之后(例如,当将与事件的发生相对应的数据发送到大数据储存器(存储服务器)时)由事件的组合所生成的过程数据进行自动分析,而不是检测和确定之后几小时的劣质的产品质量并进行检修以确定劣质的产品质量的根本原因(如当前在公知的过程控制系统中所进行的)。大数据分析器可以基于这些事件的发生来生成预测劣质的产品质量的学得知识,和/或可以自动地实时调整或改变一个或多个参数或过程以减轻事件的组合的影响(如果它们在将来发生)。例如,大数据分析器可以确定经修正的设定点或者经修正的参数值并使得该经修正的值被控制器使用以较好地调节和管理控制回路。
在某些实施例中,大数据文件系统的逻辑架构如图2所示。数据文件所有者和数据文件共享者在文件的查询、上传、检索以及下载的过程中都需要进行身份验证。通过身份验证的方式,采用文件块加密的方法,使得数据文件在各种操作的过程中,起到隐私保护的作用。在由地理位置上各不相同的存储服务器组成的分布式大数据文件系统中,文件的加密上传、加密检索、解密下载都采用后面详细描述的数据文件格式,使得分布式大数据在实时交换共享的过程中,能够安全的保护分布式大数据的完整性。在由一个或多个任务服务器、一个或多个公钥服务器、一个或多个存储服务器、一个或多个验证服务器和一个或多个MapReduce服务器组成的分布式大数据文件系统中,通过文件系统后台进程实现系统的稳定运行,并通过异常检测程序,对各种异常情况进行处理。
用户设备可以收集动态测量数据和控制数据、以及各个其它类型的数据,而不需要事先标识或指示将收集哪个数据的任何用户提供的信息。也就是说,用户的配置排除了将在用户处收集的以用于历史化的测量数据和控制数据以及各种其它类型的数据的身份的任何指示。在当前公知的过程控制系统中,操作者或用户通常必须对过程控制设备(例如,控制器)进行配置以通过标识哪个数据将被收集或保存(以及在某些实施例中,通过指定所述数据将被收集或保存的时间或频率)来捕获测量数据和控制数据。待收集的数据的身份(以及可选地,时间/频率)被包括在过程控制设备的配置中。相反,用户不需要被配置为具有期望收集的测量数据和控制数据的身份以及其收集的时间/频率。事实上,在实施例中,自动收集由用户直接生成的和/或在用户处直接接收到的所有测量数据和控制数据以及所有其它类型的数据。
分布式大数据实时交换共享的计算机网络系统可以包括每个都支持分布式数据并通过大数据计算机网络连接的多个节点或设备(例如,可以为用户设备、公钥服务器、任务服务器、存储服务器、验证服务器或MapReduce服务器)。可以在多个设备中的每个设备处本地收集和储存各种类型的数据(诸如,实时的过程相关的数据、工厂相关的数据、金融业务的数据、游戏数据、以及其它类型的数据)。在多个设备中的每个设备处,本地储存的数据可以在设备处本地地进行分析以创建或生成描述跨时间和/或跨各种数据集中的至少某些数据集的有意义的关系、模式、相关性、趋势等的学得知识。在实施例中,所收集的数据和/或所生成的学得知识中的至少某些可以在计算机网络的节点和设备之间进行传送,例如,以用于实时地改进对过程的控制。在某些配置中,计算机网络的节点或设备中的至少某些节点或设备远离分布式大数据设备而设置。
分布式大数据实时交换共享的计算机网络系统可以支持一个或多个适当的路由协议,例如,包括在互联网协议(IP)组中的协议(例如,UPD(用户数据报协议)、TCP(传输控制协议)、以太网等),或者其它适当的路由协议。通常,包括在分布式大数据实时交换共享的计算机网络系统中的每个设备或节点(例如,用户、公钥服务器、任务服务器、存储服务器、验证服务器或MapReduce服务器)都支持由计算机网络所支持的一个或多个路由协议的至少一个应用层(并且,对于某些设备,附加层)。在实施例中,每个设备或节点在分布式大数据实时交换共享的计算机网络系统内例如由唯一的网络地址来唯一地标识。
此外,可以在分布式大数据实时交换共享的计算机网络系统中的至少某些分布式大数据设备处本地地收集、分析和储存与各个其它通信网络的主干有关的数据高速公路业务和网络管理数据。可以收集、分析和储存用户相关的数据,诸如与用户业务、登录尝试、查询和指示有关的数据。可以收集、分析和储存文本数据(例如,日志、操作程序、手册等)、空间数据(例如,基于位置的数据)和多媒体数据(例如,闭路TV、视频剪辑等)。
在上述系统中,用户设备可以是不同领域中针对不同类型的大数据的操作主体,可以是人,也可以是诸如电子设备之类的机制,该机制是包含了处理器、存储器、总线、电源电路等基本处理功能的装置,优选地,该机制还可根据需要而具有诸如键盘、键区、触摸屏之类的输入设备,还可以具有诸如图形用户界面之类的显示设备。不同领域包括现有的和以后开发的各种领域,甚至可以同时包括多个领域或交叉领域。对数据的定义取决于用户的要求。获得数据的方式是任意的,可以采用现有的和以后开发的各种方式。同理,整合和/或检查数据的方式也任意。对结果进行测试、验证、部署和更新的方式也是任意的,可采用现有的和以后开发的各种方式。
整个系统可分为身份验证,数据文件块加密、数码的保护、数据文件的加密上传、解密下载、数据文件加密查询,以及在后台执行的分布式数据文件系统进程,异常检测软件。
用户设备是大数据文件的拥有者,他们分布在不同的地理位置,他们把他们所有的加密数据发送给任务服务器,任务服务器再将加密数据存放到存储服务器。
根据本发明提出的分布式大数据实时交换共享方法,当数据文件共享者用户i想要查询其他用户所有的大数据文件时:
1、用户设备i首先向任务服务器提交查询请求,任务服务器根据该查询请求向验证服务器验证用户设备i的身份。
该查询请求中包含有数据文件ID、数据文件名、数据文件主、数据文件描述等信息。数据文件的加解密是以用户为核心的,只有合法用户才能进行数据文件的上传和下载,以及指定数据文件是否共享给其他用户。数据文件所有者将数据文件共享给其他用户可以指定以下三种访问权限:只读(R)、只写(W)和可读可写(RW)。
2、根据验证服务器的验证,确定用户设备i是否是数据文件所有者指定的共享用户,并具有访问权限,如果用户设备i没有通过验证,则给出警报信息,否则进入下一步。
3、如果用户设备i是数据文件所有者指定的共享用户,并具有访问权限,则任务服务器要求用户设备i提供私钥。
在实际操作中,可以根据实际状况选择数据文件ID、数据文件名、数据文件主、数据文件描述、创建时间和私钥中的一项或几项进行组合。
4、任务服务器根据用于设备i提供的私钥解密用公钥加密的对称密钥,如果不能解密则给出警报信息,否则解密后得到对称秘钥key。
5、根据指定的对称加密算法和对称密钥key,解密数据文件内容部分。
各种类型的数据可以在分布式大数据实时交换共享的计算机网络系统中的每个分布式大数据设备处自动收集并本地地储存为大数据。例如,可以在用户设备j处自动地收集和储存动态测量结果和控制数据。动态测量结果和控制数据的示例可以包括指定过程操作中的变化的数据、指定操作参数(诸如,设定点、过程和硬件警报以及事件(诸如,下载和通信故障)的记录等)中的变化的数据。在这些实施例中的任何实施例中,所有类型的测量数据和控制数据在设备中自动地捕获为大数据。此外,当检测到变化时或者当控制器或其它实体在初始地被添加至大数据网络时,可以默认地自动传输静态数据,诸如控制器配置、批处理配方、警报和事件。
根据本发明的一个方面,数据文件所有者将数据加密过程中用到的秘钥发送给数据文件共享者,以供数据文件共享者在访问数据时使用。
此外,在某些场景中,当检测到元数据中的变化时,在分布式大数据实时交换共享的计算机网络系统中捕获描述或标识动态控制和测量数据中的至少某些静态元数据。例如,如果在用户对数据进行改变,则任务服务器能够自动捕获相关联的元数据的更新。在某些情况下,在设备中默认地自动捕获与用于缓冲来自外部系统或外部源(例如,金融系统、公共服务、通信公司等)的数据的特殊模块相关联的参数。另外地或替代地,可以在设备中自动捕获监测数据和/或其它类型的监控数据。
根据本发明的一个方面,数据文件所有者把加密数据放到存储服务器,采用改进的分布式数据集进行存储。分布式大数据采用一种高效的基于分布式内存的抽象数据对象:我们称为改进的分布式数据集。从用户的角度来看,改进的分布式数据集在形式上可以看作是一个数组。它与普通数组的区别是,改进的分布式数据集对象中的数据在物理上是以分区(Partition)的方式存储的,不同分区的数据可以分布在不同的机器上,在底层被并行计算处理。概括地说,改进的分布式数据集作为大数据处理计算模式的核心抽象接口,实现了如下功能:
1)改进的分布式数据集是集群上分区的、不可变的数据集合。改进的分布式数据集只能从文件系统或者内存中生成,或在存在的改进的分布式数据集上通过"转换"(transformation)操作如map、flatMap等产生,而通过"动作"(action)如count、collect、save等,大数据处理计算模式的改进的分布式数据集实际触发计算过程并返回一个结果,或者把改进的分布式数据集存储到存储系统中去。
2)改进的分布式数据集可控制其持久化存储级别。用户可以显式地指定改进的分布式数据集的持久化存储层级。
3)改进的分布式数据集的转换和动作操作都是粗粒度的。改进的分布式数据集的一个操作会被应用到所有数据上,而不仅是小部分数据集上。
4)惰性计算(Lazy Computing),改进的分布式数据集的转换(transformation)操作都是惰性求值的,只有触发动作(action)操作,大数据处理计算模式才会真正分布式执行计算。
改进的分布式数据集是大数据处理计算模式编程的核心,用户所有并行化计算的操作都是通过改进的分布式数据集的操作接口进行表达的。通过采用改进的分布式数据集作为编程核心,大数据处理计算模式在技术方面采用如下方式:
1)通用性:围绕改进的分布式数据集定义的各种运算是MapReduce的超集,可以完成MapReduce所能完成的所有运算。
2)内存计算:改进的分布式数据集可以在兼顾数据分布局部性的同时,充分利用集群内存,通过将常用数据集缓存在内存中,达到加速复杂迭代型和交互型计算的目的;相对于Hadoop,大数据处理计算模式对复杂迭代类和交互式计算任务的加速比往往可以达到一到两个数量级。
3)线程级并行:使得任务调度延迟得以降至亚秒级,为Spark Streaming这样的以微批处理(Micro Batching)为基础的流计算奠定了良好的基础。
4)DAG计算流图优化:与Dryad等DAG计算系统类似,改进的分布式数据集具有的丰富的运算集可以轻松表达复杂的DAG计算,不再需要像MapReduce那样为每一步操作调度一个单独的作业。再加上作业中每个stage内部辅以计算流图优化,即便不启用内存缓存,执行效率往往也数倍于Hadoop。
5)基于世系的容错:改进的分布式数据集的不可变性使得可以以数据分区为粒度追踪数据的历史。当集群中的节点宕机时,只需追踪故障节点负责的改进的分布式数据集分区的世系,便可重新计算出丢失的分区,而且整个错误恢复过程可以并行执行。数据兀余在数据恢复过程中只起到加速作用。
6)数据共享抽象:改进的分布式数据集较好地解决了大数据分析流程中各环节的数据共享问题,避免了频繁的分布式文件系统I/O操作。
7)多计算模式支持:由于底层框架提供了较好的通用性和效率保障,得以在上层同时实现并提供批处理、流处理、数据查询、迭代型计算、内存计算、以及图计算等多种计算模式。而且实现各计算模式的组件只需聚焦于各自的问题领域,无须重复解决底层框架中的分布式、容错、数据共享等共性问题,从而实现了一体化大数据处理功能。
在某些实施例中,支持分布式大数据的节点或设备在本文中可互换地被称为“分布式大数据用户接口节点”、“分布式大数据用户接口设备”、“用户接口节点”或“用户接口设备”。设备包括每个都具有集成式用户接口的一个或多个节点或设备,用户或操作者可以经由该集成式用户接口与过程控制系统交互以执行有关的活动(例如,配置、查看、监控、测试、诊断、排序、计划、调度、注释、和/或其它活动)。这些用户接口节点或设备的示例包括移动或静止的计算设备、工作站、手持式设备、平板设备、表面计算设备、以及具有处理器、存储器、和集成式用户接口的任何其它计算设备。集成的用户接口可以包括屏幕、键盘、小键盘、鼠标、按钮、触摸屏、触模板、生物计量接口、扬声器和麦克风、相机、和/或任何其它用户接口技术。每个用户接口设备都可以包括一个或多个集成的用户接口。用户接口节点或设备可以包括至分布式大数据实时交换共享的计算机网络系统的直接连接、或者可以包括例如经由接入点或网关至分布式大数据实时交换共享的计算机网络系统的间接连接。用户接口设备可以以有线方式和/或以无线方式通信地连接到分布式大数据实时交换共享的计算机网络系统。在某些实施例中,用户接口设备可以以各种通信方式连接到分布式大数据实时交换共享的计算机网络系统。
通过系统中的MapReduce服务器,本发明的分布式大数据实时交换共享的计算机网络系统可以兼容MapReduce框架。然而,MapReduce并行计算框架在系统特性设计权衡方面更多地追求系统的高吞吐率、弹性可扩展以及较好的容错性,而不是作业执行效率。这导致了Hadoop MapReduce执行作业的响应性能比较低下,尤其在处理各项作业时延迟比较高。
为了克服作业执行性能的缺陷,本发明的一个方面提出了一种改进的大数据处理计算系统,改进的大数据处理计算系统作业的整个执行流程可以按时序分为准备、运行和完成三个阶段。当一个作业提交到任务服务器,后续的执行流程如下:
1)准备阶段:一个作业从START状态开始执行,首先会进入准备.INITIALIZING状态并完成一些初始化工作,包括从HDFS中读取输入数据的分片信息并生成对应数目的Map和Reduce任务。然后,一个名为Setup Task的特殊任务将被首先调度给一个TaskTracker执行以设置整个作业的执行环境。在此时,该作业执行状态成为准备.SETUP。当该SetupTask成功执行结束后,整个作业就会进入运行阶段。
2)运行阶段:这个阶段中,作业从运行.RUN_WAIT状态开始,其任务等待着被MapReduce框架调度执行。当作业中有一个任务被调度到TaskTracker执行时,整个作业的状态将切换到运行.运行_TASKS。在该状态中,所有的Map/Reduce任务都将被陆续调度到TaskTracker上执行。一旦所有Map/Reduce任务执行完成之后,整个作业将进入运行.SUC_WAIT状态,运行阶段也达到尾声。
3)完成阶段:在这个阶段,另一个名叫Cleanup Task的特殊任务将被调度到一个TaskTracker执行,以清理该MapReduce作业的运行环境。当这个Cleanup Task完成之后,该作业将达到SUCCEEDED状态,整个作业也就成功执行完成了。
在准备和运行阶段中的任何一个状态,作业可以被用户终止从而进入KILLED状态,或者由于某些操作执行一直失效从而进入FAILED状态。
根据本发明的一个方面提出的一种改进的大数据处理计算系统,作业的调度和执行的整个处理流程可以分为如下步骤:
1)当任务创建时,任务跟踪器会为每个任务生成一个TaskInProcess实例。此时任务尚处于未分配状态。
2)每个作业跟踪器通过发送心跳信息向任务跟踪器申请执行任务。作为心跳回应信息,任务跟踪器会为每个作业跟踪器分配一个或多个任务。任务的调度分配是通过两轮心跳通信完成的,每轮心跳发送的时间间隔默认为3秒。
3)在接收到一个任务之后,作业跟踪器会进行如下操作:首先创建一个TaskTracker.TaskInProgress实例,然后运行一个独立的Child JVM来执行该任务,并将作业跟踪器该任务的执行状态改成运行。
4)每个作业跟踪器将任务的状态信息汇报给任务跟踪器,然后任务跟踪器将任务的状态更新为运行。这个过程需要通过另外一轮心跳通信完成。
5)经过一段时间运行之后,任务在Child JVM环境中执行完成。然后,作业将该任务的状态改成COMMIT_PENDING。任务在这个状态将等待来自任务跟踪器的允许,以提交(commit)该任务。
6)本次任务状态的变化信息也将通过下一轮心跳传递到任务跟踪器。作为回应,任务跟踪器将自己维护的任务状态也更新为COMMIT_PENDING,并允许作业跟踪器提交(commit)任务的结果。
7)当接收到任务跟踪器的提交许可之后,作业跟踪器提交任务的执行结果,然后将任务的状态更新为SUCCEEDED。
8)此后,作业跟踪器通过下一轮心跳通信将任务状态变更为SUCCEEDED的消息发送至任务跟踪器。然后,任务跟踪器也会将自己维护的该任务的状态信息标记为SUCCEEDED。至此,一个任务的执行流程就结束了。
上述步骤可根据实际需要前后调整执行顺序,或者删减执行步骤,而不是必须按照所述的前后顺序。
在任务服务器对分布式大数据的处理中,采用了大数据分析基础算法(例如机器学习与数据挖掘算法),其在分布式大数据分析应用与智能化服务中发挥着重要作用,是众多大数据分析应用落地的关键技术。然而,很多传统的机器学习和数据挖掘算法在处理大数据时有很多技术挑战。在数据集较小时很多复杂度在0(nlogn)、0(n2)、0(n3)的机器学习和数据挖掘算法可以有效工作,但当数据规模増长到数百TB规模或者PB级规模时,传统的串行化算法的时间开销増长很大,使得算法在实际场景中不能工作。
因此,为了寻找计算复杂度较低的新算法W及降低数据尺度等方法,本发明提针对大数据机器学习与数据分析并行化算法进行了创新,提出了一种新的神经网络训练算法。
通过本发明的神经网络训练算法,可以以任意精度近似逼近任何连续的非线性函数。所采用的神经网络结构如图3所示。它包含一个输入层、一个隐藏层和一个输出层。同层中的神经元互不相连,而相邻两层间的神经元彼此全连接。该神经网络训练算法包含三个阶段:计算阶段、反馈阶段、以及迭代与终止阶段。
在所述神经网络结构中,输入层有m个输入数据,隐藏层有q个单元,输出层有n个输出数据。
在前向阶段,输入层获取到输入信号并将其传递到隐藏层中的每个神经元。然后,隐藏层处理这些信号并将处理结果传递到输出层。输出层从隐藏层获取到信号之后同样需要进行后续处理。偏差从输出层反向回馈到隐藏层。通过这种偏差后向传播方式,更新输出层和隐藏层的连接权重。进一步地,跟新隐藏层与输入层之间的连接权重。整个训练过程将选代进行,直到达到训练终止条件。采用的终止条件是均方误差达到预设阈值,或者训练迭代轮数达到设置的最高值。
在云时代,Hadoop作为一个分布式开源平台,不仅可以利用其分布式数据文件系统HDFS作为大数据(Big Data)的存储环境,而且还支持Google提出的MapReduce分布式编程方式,现如今已被广泛的应用于分布式以及分布式计算平台中。但是利用Hadoop作为大数据(Big Data)的存储环境,数据的保密性、完整性和数据访问控制(DAC)同样值得研究和思考。
作为改进,本发明提出了一种改进的分布式数据文件存储方式,对HDFS中存储的数据文件进行数据访问控制(DAC),同时利用公钥密码体制和对称加密技术进行数据的保护、数据共享以及完整性校验。
数据文件的加解密是以用户为核心的,只有合法用户才能进行数据文件的上传和下载,以及指定数据文件是否共享给其他用户。数据文件所有者将数据文件共享给其他用户可以指定以下三种访问权限:只读(R)、只写(W)和可读可写(RW)。
数据文件逻辑格式
接下来将详细介绍一下数据文件的逻辑结构,首先解释一下相关的符号:H[]表示散列函数,常用的散列函数有MD5、SHA-1等,通常用来计算消息摘要;E[]表示对称加密;EPUn[]表示使用用户n的非对称加密密钥对中的公钥加密;EPRn[]表示非对称加密密朗对中的私钥加密。
数据文件存储的逻辑格式,主要有三部分组成:数据文件头、数据文件头摘要信息和实际数据文件的加密部分,其中数据文件头摘要釆用了散列函数,数据文件内容加密釆用了对称加密算法,如表1所示。
表1:数据文件存储格式
数据文件头 H[数据文件头] E[数据文件内容]
数据文件头又可以细分为以下几个部分:数据文件ID、数据文件名、数据文件所有者、数据文件描述、创建时间和用数据文件所有者私钥加密的指纹信息部分。如表2所示。
表2:数据文件头格式
指纹信息部分可以细分为以下三个部分:数据文件加密算法、用户信息和数据文件内容摘要。加密算法部分指明了使用的对称加密算法;用户信息部分,分为数据文件所有者和若干个数据文件共享者信息项,每个项包括他们的用户名、数据文件访问权限和用公钢加密后的对称密胡。数据文件内容摘要部分是对数据文件内容进行哈希计算,如表3所示。
表3:数据文件指纹信息格式
数据文件物理格式
在分布式大数据实时交换共享的计算机网络系统的数据文件存储系统中,数据文件是以流式数据文件的形式存储的。为了方便对数据文件中保存的共享信息、数据文件内容进行管理和存取,采用了新的格式作为数据文件的物理格式,具体格式如图4所示,其中:
●①⑧⑨分别表示数据文件头、数据文件头摘要、加密后的数据文件内容
●②表示数据文件ID;③表示数据文件名;④表示数据文件所有者;⑤表示数据文件描述;⑥表示创建时间;⑦表示指纹信息
●表示加密算法;(b)表示数据文件内容摘要;(C)表示用户信息;(d)表示数据文件所有者;(e)表示数据文件共享者
●(1)表示用户名;(2)表示权限;(3)表示加密后的秘钥
在数据文件所有者把加密数据放到存储服务器时,采用数据加密上传的方式。
数据文件经加密后,数据文件所有者可以指定用户共享该数据文件,并赋予相应的三种权限(R、W、RW),其实现过程如下:
1)用户上传数据文件,并随机生成对称加密秘钥key;
2)记录数据文件所有者和相应的权限_,用数据文件所有者的公钥加密key;
3)如果有共享用户,则根据数据文件所有者指定的共享用户和权限,分别记录各个用户的名称、权限,用共享者的公钥加密key,形成用户信息项;
4)记录数据文件加密算法名称、用户信息和数据文件内容摘要,形成指纹信息;
5)记录数据文件ID、数据文件名、数据文件主、数据文件描述、创建时间和用数据文件主的私钥加密指纹信息得到加密信息,形成数据文件头;
6)记录数据文件头信息、数据文件头的散列值和用密钥key加密数据文件内容,形成储存数据文件格式,IO输出到磁盘;
在用户i解密下载数据时,采用数据解密下载的方式。
数据文件所有者和具备了可读(R、RW)权限的数据文件共享者可以对数据文件进行解密下载。其实现过程如下:
1)读入新的格式的数据文件进行解析,如果不能正确解析则给出警报信息"R1";否则进入下一步;
2)把数据文件头信息计算散列值,如果与H(数据文件头)部分内容不一致,则给出警报信息“R2”;否则进入下一步;
3)用该数据文件所有者的公钥解密该数据文件,如果不能解密给出警报信息"R3";否则进入下一步;
4)下载用户权限判断,如果下载用户是数据文件所有者或是具备了可读(R或RW)权限的数据文件共享者则可以正常下载,进入下一步;否则给出警报信息“R4”;
5)用下载用户的私钥解密用公钥加密的对称秘钥,如果不能解密则给出警报信息“R5”;否则解密后得到对称密钥key,进入下一步;
6)用指定的对称加密算法和对称密钥key,解密数据文件内容部分,如果不能正常解密,则给出警报信息“R6”,否则进入下一步;
7)把解密后的数据文件内容部分求散列值,与指纹信息中的数据文件摘要部分进行比较,如果不相同则给出警报信息“R7”,否则正确解密得到数据文件内容。上述步骤可根据实际需要前后调整执行顺序,或者删减执行步骤,而不是必须按照所述的前后顺序。
表2. 4警报信息符号说明表
符号 说明
R1 数据文件格式解析失败,数据文件遭到篡改
R2 数据文件头信息遭到篡改
R3 数据文件所有者信息错误,数据文件来源不可信
R4 权限不足(缺少可读权限)
R5 非对称密钥对不匹配
R6 数据文件解密失败
R7 数据文件内容遭到篡改
数据所有者可以对数据文件进行更新。数据文件所有者更新自身的数据文件,只需重新封装数据文件,包括重新加密数据文件,重新生成指纹信息中的数据文件内容摘要部分,用私钥加密指纹信息;而对于数据文件共享者,如果拥有可写权限,在更新数据文件后需要得到数据文件所有者的私钥来重新加密指纹信息部分,为了保证私钥的安全保护,重新加密的工作可以交由密钥分配中心(KDC)协调完成。
数据文件共享者更新数据文件流程为:
文件共享者向密钥分配中心(KDC)发送文件修改请求;
密钥分配中心(KDC)将文件修改请求转发给文件拥有者;
如果文件拥有者不同意修改,则请求结束;
如果文件拥有者同意修改,则发送回复消息给密钥分配中心(KDC);
密钥分配中心(KDC)再将回复消息返回给文件共享者;
文件共享者将发送修改内容发送给密钥分配中心(KDC);
密钥分配中心(KDC)再将发送修改内容转发给文件拥有者;
文件拥有者将修改后的文件内容写入文件;
写入结束后,则请求结束。
基于数据文件共享组的密钥管理,在分布式数据文件系统中,数据文件所有者有必要对共享数据文件的密钥进行周期性的修改,这样做的目的是可以保证用户在加入/离开时保证数据的安全保护。所述秘钥包括对称加密秘钥key、公钥加密key等使用的秘钥。
目前的做法类似于使用密钥分配中心KDC方法,让控制节点进行密钥的协商,使数据文件的所有者和数据文件的共享者都共享某一个对称密钥,并用该密钥加密数据文件,加密密钥使用用户的公钥加密的方式进行密钥的传递,但是该方法不能保证共享者加入或离开共享组后密钥的安全保护,所以有必要对密钥进行定期的修改。
数据文件所有者对秘钥的管理可以基于数据文件共享组的秘钥修改,比较有效的存储秘钥方法是利用秘钥树结构,如采用逻辑秘钥层次方法LKH,由数据文件所有者维护该秘钥树,并在更改了秘钥后,将更改信息报告给公钥服务器。而单纯采用LKH存储秘钥管理方法在秘钥修改时组控制器GC存储秘钥的存储开销基本上与成员个数成线性关系,秘钥修改带来的通信开销与成员个数成对数比例关系,但是在分布式数据平台中,海量用户的频繁加入或退出组造成的秘钥修改开销也是非常巨大的,所以本发明结合Chebyshev多项式的周期性和LKH秘钥树的秘钥管理特点,提出了一种基于Chebyshev多项式的周期性秘钥更新方法CKPS(Cyclic Key Update Scheme)。该方法的特点是秘钥的修改和传递,无需借助秘钥,直接通过所有者的组播消息,共享者直接本地计算,提高了计算性能,同时可以有效降低秘钥修改时的通信量,以及减少每个节点(包括根节点)的密钥存储量。釆用这种方法后,LKH逻辑秘钥树中的中间节点存储的秘钥的作用只是用于密钥子树中的秘钥交换。值得说明的是,该方法较适合会话秘钥的传递,对于数据文件这类“静态的资源”不是特别适合,因为秘钥修改后,加密后的数据文件需要重新加密,但是该动作,可以离线或延迟进行。
CKPS方法详细描述如下:
(A)初始化阶段
●数据文件所有者初始构造Chebyshev多项式Tn(x)(mod N),及确定三元组(x,N,t)的值,t∈{0,1,2,3,...}是用来周期性修改组播秘钥的时间戳,N为自然数,x为实数。
●数据文件所有者根据自身存储的文件共享组成员Ui的秘钥进行加密发送给文件共享组成员Ui
●文件共享组成员根据收到的解密得到Tn(x)(mod N)多项式和三元组(x,N,t)和时间戳,组成员可以计算出Chebyshev多项式的值Ct=Tt(x)(mod N),Ct即为当前的组播秘钥,初始状态t=0。
(B)定期修改阶段
定期修改阶段是为了保证组播秘钥在一段时间内的“新鲜性”,这样可以保证共享数据的安全保护。
数据文件所有者进行定期的秘钥修改,可以随机生成三元组,把加密的三元组发送给每个文件共享成员节点。
组成员通过三元组以及存储的Chebyshev多项式计算出当前的组播秘钥Ct
(C)文件共享成员加入或离开阶段
文件共享成员加入,数据文件所有者选择距离树根最近的空闲叶子节点加入组成员;文件共享成员离开,数据文件所有者删除文件共享成员节点和相应的冗余中间节点。
数据文件所有者随机生成三元组,把加密的三元组发送给每个文件共享成员节点。
文件共享组成员通过三元组以及存储的Chebyshev多项式计算出当前的组播秘钥Ct
CKPS方法通过内存中的多项式计算可以较快的得到一个数据文件共享组的共享秘钥,从而避免了多次密钥交换带来的通信开销和加解密操作,并且可以防止密钥泄露,在分布式数据平台中有着明显的优势。
根据本发明的一个方面,可以建立数据处理功能模块库,用于数据的加密上传和解密下载:采用分布式大数据系统可执行语言(例如SQL、Scala、Java以及R等)将数据处理各流程中基本的功能以及算法封装成每个功能元模块,并给每个功能元模块分配一个独有的中文名称;将功能元模块存储至对应的子功能模块库;建立一个数据处理功能元模块库,采用对象存储的方式对功能元模块进行存储。根据数据的处理流程,将数据处理功能元模块库划分为数据采集、导入、转换、清洗、融合、分析、挖掘以及机器学习等数个子功能模块库。
分布式数据存储对数据源来说:有同构和异构的区别,可以用xml方式统一它们的格式。对分布式数据集进行处理来说,可以采用如下三种处理方式:
1)将各个数据源数据全部集中存储到中心主机,然后进行数据共享。优点是可直接使用数据挖掘中的单机算法,缺点是未利用分布式的特性,使网络的流量猛增,同时也加重了中心主机的运算处理负担。
2)各个数据源主机先对各自的数据集进行处理得到模式或规则,然后再将这些模式或规则,汇总到中心主机,处理得到全局模式或规则。优点是利用了分布式特性,降低了网络流量,缺点是得出的结论有时会误报。
3)上述两种方式的折衷。优点是既利用了分布式特性,又减少了误报。除了分布式关联规则,也应用了分布式基于决策树的分类算法,还可以采用分布式多层次关联规则,分布式聚类分析,分布式序列分析。
在某些实施例中,分布式大数据设备是过程控制器,并且过程控制接口用于获得控制器的配置(例如,从工作站),和/或获得被发送给连接到控制器的现场设备或者从该现场设备接收到的数据以实时地控制过程。所接收到的数据可以储存在控制器中和/或可以由控制器使用以执行控制功能或控制回路的至少一部分。
在另一个实施例中,用户设备是提供控制器与现场设备之间的连接的I/O设备。在该实施例中,过程控制接口包括现场设备接口以与现场设备交换过程控制数据,以及控制器接口以与控制器交换过程控制数据。现场设备接口连接到控制器接口,以使得可以经由I/O设备向控制器发送数据以及从现场设备接收数据。
很多传统的串行化机器学习算法难以在可接受的时间内完成对大数据的处理计算,从而在实际应用场景中无法工作。因此,可以对现有的所有串行化机器学习算法进行并行化设计。常见的机器学习算法的并行化思路包括数据并行化和模型并行化。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种分布式大数据实时交换共享的计算机网络系统,实现了适用于分布式计算交换共享的分布式数据文件管理,并且实现了数据的加密上传、解密下载、数据文件共享、异常攻击预警机制,其特征在于:
所述分布式大数据实时交换共享的计算机网络系统包括:
多个用户设备,用于数据文件所有者把加密数据放到存储服务器,以及数据文件共享者利用服务器的计算能力,对加密数据进行查询;
至少一个公钥服务器,存放所有用户的公钥;
多个任务服务器,用于实现所有操作,提供对元数据的管理和任务的协调;
多个存储服务器,用于存储加密数据的分布式数据;
至少一个验证服务器,用于用户注册和身份验证;
至少一个MapReduce服务器,用于MapReduce任务的建立和执行;
其中,所述任务服务器分别与公钥服务器、存储服务器、验证服务器和MapReduce服务器连接,多个用户设备分别与任务服务器存储器相连接,多个存储服务器之间互相连接。
2.如权利要求1所述的分布式大数据实时交换共享的计算机网络系统,其特征在于:
用户设备是执行物理功能以控制过程的现场设备,或
用户设备是提供控制器与现场设备之间的连接的I/O设备。
3.如权利要求1所述的分布式大数据实时交换共享的计算机网络系统,其特征在于:
所述数据文件为实时的过程相关的数据、工厂相关的数据、金融业务的数据、游戏数据、以及其它类型的数据。
4.如权利要求1所述的分布式大数据实时交换共享的计算机网络系统,其特征在于:
采用改进的分布式数据集对数据文件进行存储,改进的分布式数据集对象中的数据文件在物理上是以分区(Partition)的方式存储的,不同分区的数据可以分布在不同的机器上,在底层被并行计算处理。
5.如权利要求4所述的分布式大数据实时交换共享的计算机网络系统,其特征在于:
数据文件所有者为所有数据文件共享者成员共享秘钥。
6.一种在分布式大数据实时交换共享的计算机网络系统中运行的方法,用于实现分布式大数据的共享,其特征在于,包括如下步骤:
S1、用户设备i首先向任务服务器提交查询请求,任务服务器根据该查询请求向验证服务器验证用户设备i的身份;
S2、根据验证服务器的验证,确定用户设备i是否是数据文件所有者指定的共享用户,并具有访问权限,如果用户设备i没有通过验证,则给出警报信息,否则进入下一步;
S3、如果用户设备i是数据文件所有者指定的共享用户,并具有访问权限,则任务服务器要求用户设备i提供私钥;
S4、任务服务器根据用于设备i提供的私钥解密用公钥加密的对称密钥,如果不能解密则给出警报信息,否则解密后得到对称秘钥key;
S5、根据指定的对称加密算法和对称密钥key,解密数据文件内容部分,供用户设备i下载。
7.如权利要求6所述的在分布式大数据实时交换共享的计算机网络系统运行的方法,其特征在于:
所述分布式大数据为动态测量结果或控制数据,包括指定过程操作中的变化的数据、指定操作参数中变化的数据;
所述指定操作参数为设定点、过程和硬件警报以及事件中的数据。
8.如权利要求6所述的在分布式大数据实时交换共享的计算机网络系统运行的方法,其特征在于:
在步骤S1之前,数据文件拥有者在上传数据文件时,记录数据文件加密算法名称、用户信息和数据文件内容摘要,形成指纹信息。
9.如权利要求8所述的在分布式大数据实时交换共享的计算机网络系统运行的方法,其特征在于:
在步骤S5中,用指定的对称加密算法和对称密钥key,解密数据文件内容部分,如果不能正常解密,则给出警报信息,否则进入把解密后的数据文件内容部分求散列值,与指纹信息中的数据文件摘要部分进行比较,如果不相同则给出警报信息,否则正确解密得到数据文件内容。
10.如权利要求6所述的在分布式大数据实时交换共享的计算机网络系统运行的方法,其特征在于:
在任务服务器中,对分布式大数据的处理所采用的大数据分析基础算法采用神经网络训练算法。
CN201710991527.9A 2017-10-23 2017-10-23 一种分布式大数据实时交换共享的计算机网络系统 Active CN107800787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710991527.9A CN107800787B (zh) 2017-10-23 2017-10-23 一种分布式大数据实时交换共享的计算机网络系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710991527.9A CN107800787B (zh) 2017-10-23 2017-10-23 一种分布式大数据实时交换共享的计算机网络系统

Publications (2)

Publication Number Publication Date
CN107800787A true CN107800787A (zh) 2018-03-13
CN107800787B CN107800787B (zh) 2020-10-16

Family

ID=61533374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710991527.9A Active CN107800787B (zh) 2017-10-23 2017-10-23 一种分布式大数据实时交换共享的计算机网络系统

Country Status (1)

Country Link
CN (1) CN107800787B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109104404A (zh) * 2018-06-20 2018-12-28 广州中国科学院软件应用技术研究所 一种动态加密的医疗大数据系统及方法
CN109166603A (zh) * 2018-08-16 2019-01-08 朱小军 一种作用于仿生数据细胞体的数据蛋白
CN109165719A (zh) * 2018-08-16 2019-01-08 朱小军 一种作用于仿生数据细胞体的生化数据蛋白
CN109325597A (zh) * 2018-08-16 2019-02-12 朱小军 一种仿生数据细胞体
CN109949857A (zh) * 2019-02-26 2019-06-28 杭州来布科技有限公司 用于数据智能化的活化文件格式及数据活化方法
CN109949858A (zh) * 2019-02-26 2019-06-28 杭州来布科技有限公司 一种原始文件转化为活化文件方法
CN110995815A (zh) * 2019-11-27 2020-04-10 大连民族大学 一种基于Gaia大数据分析系统的信息传输方法
CN111259442A (zh) * 2020-01-15 2020-06-09 广西师范大学 MapReduce框架下决策树的差分隐私保护方法
CN111368338A (zh) * 2020-05-27 2020-07-03 支付宝(杭州)信息技术有限公司 基于多方隐私保护的数据处理方法及数据处理系统
CN111711526A (zh) * 2020-06-16 2020-09-25 深圳前海微众银行股份有限公司 一种区块链节点的共识方法及系统
CN111930806A (zh) * 2020-08-13 2020-11-13 衢州学院 一种新型数据挖掘用存储装置
CN112311525A (zh) * 2020-10-26 2021-02-02 深圳供电局有限公司 一种电网中分布式终端的资源匹配方法
CN113014671A (zh) * 2021-04-01 2021-06-22 毕延杰 应用于大数据分析的云业务资源共享方法及资源共享平台
CN113037770A (zh) * 2021-03-29 2021-06-25 武汉华工安鼎信息技术有限责任公司 一种基于存储虚拟化的工控数据安全系统及方法
CN113746908A (zh) * 2021-08-19 2021-12-03 卓尔智联(武汉)研究院有限公司 数据处理方法及系统、电子设备及计算机存储介质
CN114629709A (zh) * 2022-03-18 2022-06-14 云南鲲之大科技有限公司 一种基于分布式大数据信息交互的计算机网络安全系统
CN115378958A (zh) * 2022-06-29 2022-11-22 马上消费金融股份有限公司 数据处理方法、系统、电子设备以及计算机可读存储介质
CN116488931A (zh) * 2023-05-26 2023-07-25 深圳鹏程未来技术有限公司 基于分布式实现联网设备的信息交互方法及装置
CN116628728A (zh) * 2023-07-24 2023-08-22 江苏华存电子科技有限公司 一种基于特征感知的数据存储分析方法及系统
CN117148817A (zh) * 2023-03-06 2023-12-01 昆易电子科技(上海)有限公司 一种测试系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102761521A (zh) * 2011-04-26 2012-10-31 上海格尔软件股份有限公司 云安全存储及共享服务平台
CN104735087A (zh) * 2015-04-16 2015-06-24 国家电网公司 一种基于公钥算法和SSL协议的多集群Hadoop系统安全优化方法
CN104977914A (zh) * 2015-07-14 2015-10-14 苏州朗捷通智能科技有限公司 一种酒店智能管理系统
US20150326454A1 (en) * 2014-05-08 2015-11-12 Tru Optik Data Corp Tru torrent platform methods, apparatuses and media
CN105516020A (zh) * 2015-12-22 2016-04-20 桂林电子科技大学 一种基于本体知识推理的并行网络流量分类方法
CN106528717A (zh) * 2016-10-26 2017-03-22 中国电子产品可靠性与环境试验研究所 数据处理方法和系统
US20170193173A1 (en) * 2016-01-05 2017-07-06 International Business Machines Corporation Linking entity records based on event information
CN107025409A (zh) * 2017-06-27 2017-08-08 中经汇通电子商务有限公司 一种数据安全存储平台

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102761521A (zh) * 2011-04-26 2012-10-31 上海格尔软件股份有限公司 云安全存储及共享服务平台
US20150326454A1 (en) * 2014-05-08 2015-11-12 Tru Optik Data Corp Tru torrent platform methods, apparatuses and media
CN104735087A (zh) * 2015-04-16 2015-06-24 国家电网公司 一种基于公钥算法和SSL协议的多集群Hadoop系统安全优化方法
CN104977914A (zh) * 2015-07-14 2015-10-14 苏州朗捷通智能科技有限公司 一种酒店智能管理系统
CN105516020A (zh) * 2015-12-22 2016-04-20 桂林电子科技大学 一种基于本体知识推理的并行网络流量分类方法
US20170193173A1 (en) * 2016-01-05 2017-07-06 International Business Machines Corporation Linking entity records based on event information
CN106528717A (zh) * 2016-10-26 2017-03-22 中国电子产品可靠性与环境试验研究所 数据处理方法和系统
CN107025409A (zh) * 2017-06-27 2017-08-08 中经汇通电子商务有限公司 一种数据安全存储平台

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109104404A (zh) * 2018-06-20 2018-12-28 广州中国科学院软件应用技术研究所 一种动态加密的医疗大数据系统及方法
CN109166603A (zh) * 2018-08-16 2019-01-08 朱小军 一种作用于仿生数据细胞体的数据蛋白
CN109165719A (zh) * 2018-08-16 2019-01-08 朱小军 一种作用于仿生数据细胞体的生化数据蛋白
CN109325597A (zh) * 2018-08-16 2019-02-12 朱小军 一种仿生数据细胞体
CN109166603B (zh) * 2018-08-16 2023-03-24 朱小军 一种作用于仿生数据细胞体的数据蛋白
CN109325597B (zh) * 2018-08-16 2023-04-07 朱小军 一种仿生数据细胞体
CN109949857A (zh) * 2019-02-26 2019-06-28 杭州来布科技有限公司 用于数据智能化的活化文件格式及数据活化方法
CN109949858A (zh) * 2019-02-26 2019-06-28 杭州来布科技有限公司 一种原始文件转化为活化文件方法
CN110995815A (zh) * 2019-11-27 2020-04-10 大连民族大学 一种基于Gaia大数据分析系统的信息传输方法
CN110995815B (zh) * 2019-11-27 2022-08-05 大连民族大学 一种基于Gaia大数据分析系统的信息传输方法
CN111259442A (zh) * 2020-01-15 2020-06-09 广西师范大学 MapReduce框架下决策树的差分隐私保护方法
CN111368338A (zh) * 2020-05-27 2020-07-03 支付宝(杭州)信息技术有限公司 基于多方隐私保护的数据处理方法及数据处理系统
CN111711526B (zh) * 2020-06-16 2024-03-26 深圳前海微众银行股份有限公司 一种区块链节点的共识方法及系统
CN111711526A (zh) * 2020-06-16 2020-09-25 深圳前海微众银行股份有限公司 一种区块链节点的共识方法及系统
CN111930806B (zh) * 2020-08-13 2023-12-05 衢州学院 一种新型数据挖掘用存储装置
CN111930806A (zh) * 2020-08-13 2020-11-13 衢州学院 一种新型数据挖掘用存储装置
CN112311525A (zh) * 2020-10-26 2021-02-02 深圳供电局有限公司 一种电网中分布式终端的资源匹配方法
CN112311525B (zh) * 2020-10-26 2024-03-12 深圳供电局有限公司 一种电网中分布式终端的资源匹配方法
CN113037770A (zh) * 2021-03-29 2021-06-25 武汉华工安鼎信息技术有限责任公司 一种基于存储虚拟化的工控数据安全系统及方法
CN113014671B (zh) * 2021-04-01 2021-11-23 湖南机械之家信息科技有限公司 应用于大数据分析的云业务资源共享方法及资源共享平台
CN113014671A (zh) * 2021-04-01 2021-06-22 毕延杰 应用于大数据分析的云业务资源共享方法及资源共享平台
CN113746908A (zh) * 2021-08-19 2021-12-03 卓尔智联(武汉)研究院有限公司 数据处理方法及系统、电子设备及计算机存储介质
CN114629709A (zh) * 2022-03-18 2022-06-14 云南鲲之大科技有限公司 一种基于分布式大数据信息交互的计算机网络安全系统
CN115378958A (zh) * 2022-06-29 2022-11-22 马上消费金融股份有限公司 数据处理方法、系统、电子设备以及计算机可读存储介质
CN117148817A (zh) * 2023-03-06 2023-12-01 昆易电子科技(上海)有限公司 一种测试系统
CN116488931A (zh) * 2023-05-26 2023-07-25 深圳鹏程未来技术有限公司 基于分布式实现联网设备的信息交互方法及装置
CN116488931B (zh) * 2023-05-26 2024-02-06 深圳鹏程未来技术有限公司 基于分布式实现联网设备的信息交互方法及装置
CN116628728A (zh) * 2023-07-24 2023-08-22 江苏华存电子科技有限公司 一种基于特征感知的数据存储分析方法及系统
CN116628728B (zh) * 2023-07-24 2023-11-14 江苏华存电子科技有限公司 一种基于特征感知的数据存储分析方法及系统

Also Published As

Publication number Publication date
CN107800787B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN107800787A (zh) 一种分布式大数据实时交换共享的计算机网络系统
Li et al. Federated learning: Challenges, methods, and future directions
US20230039182A1 (en) Method, apparatus, computer device, storage medium, and program product for processing data
CN112685385B (zh) 一种用于智慧城市建设的大数据平台
Al-Gumaei et al. A survey of internet of things and big data integrated solutions for industrie 4.0
CN107770276A (zh) 一种实现用户数据独立管理与更新的网络系统和方法
CN109729168A (zh) 一种基于区块链的数据共享交换系统及方法
Yang et al. A time efficient approach for detecting errors in big sensor data on cloud
CN111368901A (zh) 基于联邦学习的多方联合建模方法、设备和介质
US10783014B2 (en) Data statement monitoring and control
CN112712182A (zh) 一种基于联邦学习的模型训练方法、装置及存储介质
CN107850882A (zh) 自动化和控制分布式数据管理系统
Caballé et al. Distributed-based massive processing of activity logs for efficient user modeling in a Virtual Campus
Vu et al. Distributed adaptive model rules for mining big data streams
CN114153920A (zh) 大数据边平台与方法
CN112884163B (zh) 基于联邦机器学习算法与云端反馈的组合服务评估方法与系统
Jiang et al. Towards efficient synchronous federated training: A survey on system optimization strategies
CN118312626B (zh) 一种基于机器学习的数据管理方法及系统
CN104281980A (zh) 基于分布式计算的火力发电机组远程诊断方法及系统
CN115222064A (zh) 数据处理方法、装置、设备以及介质
Yang et al. Cell based raft algorithm for optimized consensus process on blockchain in smart data market
Calderoni et al. Benchmarking cloud providers on serverless iot back-end infrastructures
TW201738776A (zh) 即時串流紀錄資料分析系統與方法
Shih et al. Implementation and visualization of a netflow log data lake system for cyberattack detection using distributed deep learning
De Caro et al. Continual adaptation of federated reservoirs in pervasive environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200914

Address after: 210000 No. 368 zhe Ning Road, Lishui Economic Development Zone, Nanjing, Jiangsu

Applicant after: Tuskong Nanjing Technology Co., Ltd

Address before: 511340 Xintang City, Guangzhou province Zengcheng District, the town of the village of big East Lane, Lane No. three, Lane 13, No.

Applicant before: GUANGZHOU BAIXING NETWORK TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant