CN110069932A - 一种基于智能合约的数据湖融合数据安全分析方法 - Google Patents

一种基于智能合约的数据湖融合数据安全分析方法 Download PDF

Info

Publication number
CN110069932A
CN110069932A CN201910379090.2A CN201910379090A CN110069932A CN 110069932 A CN110069932 A CN 110069932A CN 201910379090 A CN201910379090 A CN 201910379090A CN 110069932 A CN110069932 A CN 110069932A
Authority
CN
China
Prior art keywords
data
service
lake
algorithm
intelligent contract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910379090.2A
Other languages
English (en)
Other versions
CN110069932B (zh
Inventor
孙善宝
张桂红
于治楼
姜凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Scientific Research Institute Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN201910379090.2A priority Critical patent/CN110069932B/zh
Publication of CN110069932A publication Critical patent/CN110069932A/zh
Application granted granted Critical
Publication of CN110069932B publication Critical patent/CN110069932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Abstract

本发明提供一种基于智能合约的数据湖融合数据安全分析方法,属于涉及区块链、智能合约、数据湖和隐私保护技术领域,本发明将数据湖划分安全区域,对于原始数据充分保护的同时,通过数据清洗、数据脱敏、隐私评估等手段,形成二次加工数据,用于数据分析。通过数据编目、标准化标识及语义,更高效的实现数据融合;数据融合分析洞察将利用数据湖提供的服务框架来完成,整个数据分析使用过程以智能合约的形式,利用区块链基础设施记录到区块链中,实现参与各方的互信,保障了行为的完整性和不可篡改性,避免原始数据泄密引起的纠纷。

Description

一种基于智能合约的数据湖融合数据安全分析方法
技术领域
本发明涉及区块链、智能合约、数据湖和隐私保护技术领域,尤其涉及一种基于智能合约的数据湖融合数据安全分析方法。
背景技术
区块链技术,又称为分布式账本技术,是一种去中心信任化、集体维护分布式账本的技术方案,其利用块链式数据结构来验证与存储数据,其本质是由多个节点集体参与通过多方存储、多方计算的方式来实现数据不可篡改、计算结果可信的分布式数据库系统。区块链并不是一种单一的技术,而是多种技术融合的结果,利用区块链技术维护一个可靠的、难以篡改的账本记录,可以降低信任的风险,并能有效的降低众参与方协作的维护成本。区块链技术的发展使得智能合约成为可能,智能合约是一段由一台计算机或者计算机网络按照签署合约的权利和义务自动执行的代码,合约的执行无需中心节点来进行控制,通过自动化脚本代码实现编程和操作数据。由于智能合约使用代码的方式,保证了合同条款的强制执行力;将智能合约与区块链相结合,使得合约的条款一旦设定,就没有第三方可以篡改。智能合约这一颠覆性的技术是区块链的重要特性,将会对人类社会结构产生重大变化。
近年来,移动互联网和物联网技术发展迅速,万物互联的时代已经到来,数据的规模和类型都呈现爆炸性的增长,政府数据、社会数据、互联网数据、物联网数据等多源异构超媒体数据为数据分析洞察带来机会。数据湖本质上是一种在系统或存储仓库中以原始格式存储数据的方法,能够以批量、流或实时等多种方式汇集和存储各种类型的数据,通过数据湖上各类服务,实现对数据中蕴含价值的洞察。数据湖中大规模、多源异构、跨领域、跨媒体的数据融合已经成为趋势,伴随着数据融合,也产生了数据隐私安全问题。在这种情况下,如何有效利用区块链技术进行数据湖内安全保密的数据融合分析,解决其中涉及的隐私保护问题,并高效的实现数据融合成为亟需解决的问题。
发明内容
为了解决以上技术问题,本发明提出了一种基于智能合约的数据湖融合数据安全分析方法,将数据湖划分安全区域,对于原始数据充分保护的同时,通过数据清洗、数据脱敏、隐私评估等手段,形成二次加工数据,用于数据分析。通过数据编目、标准化标识及语义,更高效的实现数据融合;数据融合分析洞察将利用数据湖提供的服务框架来完成,整个数据分析使用过程以智能合约的形式,利用区块链基础设施记录到区块链中。实现参与各方的互信,保障了行为的完整性和不可篡改性,避免原始数据泄密引起的纠纷。
本发明的技术方案是:
一种基于智能合约的数据湖融合数据安全分析方法,
利用数据湖提供的服务,形成数据自动清洗、数据脱敏、隐私评估等模型,用于原始数据的二次加工;
数据湖支持多租户,设置专门的安全区域,用于融合数据处理;
随机抽取数据样本用于数据使用者训练算法,对算法评估后,在数据湖中安全区域中运行,并将输出的中间结果及最终结果进行评估,判断数据隐私泄露可能性;
数据湖基础设施之上提供区块链服务,在一个P2P共识网络中建立区块链基础设施,P2P共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成;
参与数据标注任务的各个参与节点共同维护一份账本,账本中记录数据融合分析任务智能合约的执行结果。
另外,通过第三方数字证书认证中心为参与方和租户提供身份证书及通信安全认证服务。
其中,
所述的数据湖平台聚集海量的多源异构数据,保存未经改变的全量数据,并提供数据处理相关的基础设施和服务,包括数据存储仓库、数据资产编目服务、数据治理服务、数据脱敏服务、隐私评估服务、数据抽样服务、算法评估服务、知识库服务、知识推理服务、数据报告服务、数据可视化以及机器学习、深度学习和数据分析运行时环境等;数据湖支持多租户,并对租户进行管理,通过第三方数字证书认证中心为租户发放证书,确认其身份,并为其划分原始数据存储区及数据开放区,同时提供安全区域,在其上的数据分析运行时环境执行所述的数据使用者编写的算法;
其中,
所述的数据存储仓库提供数据存储;
所述的数据资产编目服务是对数据进行建模,设定元数据描述;
所述的数据治理服务实现数据清洗、数据抽取、数据转换和整合,并对数据进行结构化及标准化处理;
所述的数据脱敏服务,结合数据资产的编目形成数据脱敏模型,实现数据标识匿名化、敏感数据模糊化等处理;
所述的隐私评估服务对脱敏后数据进行评估,判断脱敏程度;
所述的数据抽样服务将脱敏数据抽取部分数据形成样本,提供给算法工程师等开发者进行数据分析,用于原型验证;
所述的算法评估服务将对于数据分析算法进行分析,判断评估其算法执行效率及涉及的隐私泄密问题;
所述的数据报告服务提供将结果形成报表的服务;
所述的知识库将数据分析结果形成知识进行存储,并通过所述的知识推理服务对知识进行检索、推理等操作;
所述的数据可视化提供数据的图表展现形式;
所述的机器学习、深度学习和数据分析运行时环境提供算法的运行环境;
所述的数据使用者可以是数据科学家、算法工程师、业务专家等,通过数据湖平台提供样本编写分析算法,并在数据湖平台中运行,获得输出结果;
所述的数据拥有者是所述的数据湖平台的租户,拥有数据的所有权;
所述的区块链基础设施建立一个P2P共识网络,将区块链中待执行的智能合约程序公开,供各个参与方及社区开发者检查和调用,所有的智能合约执行结果都将记录在区块链中;
所述的P2P共识网络是没有中心节点、通过节点间进行消息交换的网络体系,P2P共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成;
所述的管理节点负责参与节点的准入;
所述的数据分析智能合约,由数据使用者发起,以智能合约的形式出现,将整个数据分析过程记录下来;
所述的第三方数字证书认证中心为参与方和租户提供证书认证服务。
本发明提供了一种基于智能合约的数据湖融合数据安全分析方法,用于融合数据分析,包括:
步骤101、利用所述的数据湖平台区块链基础设施资源,形成P2P共识网络;
步骤102、在所述的区块链共识网络中选出管理节点、背书节点和记账节点,并由第三方数字证书认证中心发放数字证书,实现节点间的互信;
步骤103、所述的数据湖平台审核租户,并通过所述的第三方数字证书认证中心颁发数字证书,作为其在数据湖平台的身份;
步骤106、通过所述的数据资产编目服务将数据进行建模,设定元数据描述,形成各种数据模型,并将数据结构标准化;
步骤107、所述的数据拥有者将原始数据汇集到所述的数据湖平台,放入为租户分配的区域,并进行多副本存储;
步骤108、所述的数据拥有者使用所述的数据治理服务,实现多源异构数据清洗、数据抽取、数据转换和整合,并对数据进行结构化及标准化处理,将数据进行关联,例如,将图像、声音、视频等转换成带语义的结构化数据,并与原始文件关联;
步骤109、所述的数据拥有者将步骤108处理的结果放入为其分配的数据存储区;
步骤110、所述的数据拥有者选择可以开放的数据,利用所述的数据脱敏服务,结合数据资产的编目形成数据脱敏模型,实现数据标识匿名化、敏感数据模糊化等处理,将数据进行脱敏;
步骤111、通过所述的隐私评估服务对脱敏后数据进行评估,如果不满足隐私保护要求,则不开放数据;如果满足隐私保护要求,则将脱敏后数据放入到所述的数据开放区,并提供数据使用规则,用于智能合约的执行规则的制定;
步骤112、所述的数据使用者请求样本数据,进行数据分析算法的开发,通过所述的数据抽样服务,将开放区中的脱敏数据按照数据分布随机抽取部分内容形成样本,提供给算法工程师等开发者进行数据分析,用于原型验证;
步骤113、所述的数据使用者提交其数据分析算法,由所述的算法评估服务将对于数据分析算法进行分析,判断评估其算法执行效率及涉及的隐私泄漏问题;如果评估不通过,则不允许算法在数据湖平台中运行;
步骤114、所述的数据使用者,提出数据融合分析请求,并将其算法上传,根据数据开放区中使用数据的规则,生成数据分析智能合约,在区块链基础设施P2P网络中广播;
步骤115、所述的数据湖平台将数据融合分析算法加载到安全区域,在其上的数据分析运行时环境执行算法;
步骤116、所述的数据湖平台根据执行结果,触发智能合约;
步骤117、所述的背书节点执行数据分析智能合约,将数据分析结果使用所述的数据使用者的公钥进行加密,并将原文地址及结果的Hash值写入到区块链中;
步骤118、如果智能合约中要求所述的数据使用者和所述的数据拥有者共享数据分析结果,则将执行结果所述的数据拥有者的公钥进行加密,存储到所述的数据拥有者指定的存储位置;
步骤119、将执行结果发给所述的记账节点,并由记账节点达成共识,生成新的区块,按照预先设定的规则完成相关操作,完成合约执行;
步骤120、所述的区块链参与节点通过P2P共识网络获取最新区块链数据,更新各自本地账本记录;
步骤121、所述的数据使用者使用其私钥解密,获得数据分析结果,可以形成知识,存储到所述的知识库中,用于未来的知识推理分析;
步骤122、(可选的)所述的数据拥有者使用其私钥解密,获得数据分析结果,可以形成知识,存储到所述的知识库中,用于未来的知识推理分析;
步骤123、所述的数据湖平台中的数据脱敏服务、隐私评估服务、数据抽样服务、算法评估服务等服务,持续获取反馈,不断优化其模型。
本发明的有益效果是
本发明将数据湖划分数据存储区域、数据开放区域和安全区域,对于原始数据充分保护的同时,通过数据湖提供的资产编目及数据治理服务实现了多源异构数据的结构化、标准化、语义化和标识关联,更高效的实现了数据融合。通过数据湖平台形成的数据脱敏、隐私评估等模型实现对数据的脱敏二次加工,放入开放区实现数据共享,更好的保证了数据的隐私;数据使用者是使用开放区中按照数据分布随机抽取的脱敏数据样本来实现算法,同时对算法进行评估,保证算法的执行效率,实现隐私保护;数据融合算法的执行是在数据湖提供的服务框架上完成,数据使用者无法直接访问到原始数据,在最大程度上保护原始数据的同时,有效的利用了现有资源,降低了成本,提高运行效率;数据融合分析的整个过程以智能合约的形式,利用区块链基础设施写入到区块链中,相较于传统的方式,通过统一的、去中心化的方式,减少了人为的干预,有效地解决了融合数据分析各方的互信问题,保障了行为的完整性和不可篡改性,保护了数据所有者权益。另外,数据湖服务模型持续进行优化,进一步提高了系统的效率和安全性。
附图说明
图1是数据湖组成示意图;
图2是区块链结构示意图;
图3是融合数据分析流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围.
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
如图1中所示,利用数据湖提供的服务,形成数据自动清洗、数据脱敏、隐私评估等模型,用于原始数据的二次加工;数据湖支持多租户,设置专门的安全区域,用于融合数据处理;随机抽取数据样本用于数据使用者训练算法,对算法评估后,在数据湖中安全区域中运行,并将输出的中间结果及最终结果进行评估,判断数据隐私泄露可能性;数据湖基础设施之上提供区块链服务,在一个P2P共识网络中建立区块链基础设施,P2P共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成;参与数据标注任务的各个参与节点共同维护一份账本,账本中记录数据融合分析任务智能合约的执行结果。另外,通过第三方数字证书认证中心为参与方和租户提供身份证书及通信安全认证服务。其中,
数据湖平台聚集海量的多源异构数据,保存未经改变的全量数据,并提供数据处理相关的基础设施和服务,包括数据存储仓库、数据资产编目服务、数据治理服务、数据脱敏服务、隐私评估服务、数据抽样服务、算法评估服务、知识库服务、知识推理服务、数据报告服务、数据可视化以及机器学习、深度学习和数据分析运行时环境等;数据湖支持多租户,并对租户进行管理,通过第三方数字证书认证中心为租户发放证书,确认其身份,并为其划分原始数据存储区及数据开放区,同时提供安全区域,在其上的数据分析运行时环境执行所述的数据使用者编写的算法;所述的数据存储仓库提供数据存储;所述的数据资产编目服务是对数据进行建模,设定元数据描述;所述的数据治理服务实现数据清洗、数据抽取、数据转换和整合,并对数据进行结构化及标准化处理;所述的数据脱敏服务,结合数据资产的编目形成数据脱敏模型,实现数据标识匿名化、敏感数据模糊化等处理;所述的隐私评估服务对脱敏后数据进行评估,判断脱敏程度;所述的数据抽样服务将脱敏数据抽取部分数据形成样本,提供给算法工程师等开发者进行数据分析,用于原型验证;所述的算法评估服务将对于数据分析算法进行分析,判断评估其算法执行效率及涉及的隐私泄密问题;所述的数据报告服务提供将结果形成报表的服务;所述的知识库将数据分析结果形成知识进行存储,并通过所述的知识推理服务对知识进行检索、推理等操作;所述的数据可视化提供数据的图表展现形式;所述的机器学习、深度学习和数据分析运行时环境提供算法的运行环境;所述的数据使用者可以是数据科学家、算法工程师、业务专家等,通过数据湖平台提供样本编写分析算法,并在数据湖平台中运行,获得输出结果;所述的数据拥有者是所述的数据湖平台的租户,拥有数据的所有权;所述的区块链基础设施建立一个P2P共识网络,将区块链中待执行的智能合约程序公开,供各个参与方及社区开发者检查和调用,所有的智能合约执行结果都将记录在区块链中;所述的P2P共识网络是没有中心节点、通过节点间进行消息交换的网络体系,P2P共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成;所述的管理节点负责参与节点的准入;所述的数据分析智能合约,由数据使用者发起,以智能合约的形式出现,将整个数据分析过程记录下来;所述的第三方数字证书认证中心为参与方和租户提供证书认证服务。
如图2中所示,区块链中记录的数据区块(Block)结构包括版本号、时间戳、交易Merkle树根摘要、合约执行状态、前区块摘要值和本区块摘要值(标识),其中交易内容记录数据融合分析智能合约的执行结果。本领域技术人员将理解的是,除了使用以上结构表示方法之外,根据本发明的实施方式的构造也能够应用于其他数据表示方法之上。
为了描述方便,以下过程中采用国际标准X509数字证书,采用SHA256算法作为摘要算法,SHA256WithECDSA作为签名算法,非对称密钥采用ECC算法,对称加密使用AES,数字信封使用PKCS7。下面将结合具体的实施例对本发明提供的方法过程进行详细的说明。
一、融合数据分析
如图3所示,融合数据分析包括以下步骤:
步骤101、利用所述的数据湖平台区块链基础设施资源,形成P2P共识网络;
步骤102、在所述的区块链共识网络中选出管理节点、背书节点和记账节点,并由第三方数字证书认证中心发放数字证书,实现节点间的互信;
步骤103、所述的数据湖平台审核租户,并通过所述的第三方数字证书认证中心颁发数字证书,作为其在数据湖平台的身份;
步骤106、通过所述的数据资产编目服务将数据进行建模,设定元数据描述,形成各种数据模型,并将数据结构标准化;
步骤107、所述的数据拥有者将原始数据汇集到所述的数据湖平台,放入为租户分配的区域,并进行多副本存储;
步骤108、所述的数据拥有者使用所述的数据治理服务,实现多源异构数据清洗、数据抽取、数据转换和整合,并对数据进行结构化及标准化处理,将数据进行关联,例如,将图像、声音、视频等转换成带语义的结构化数据,并与原始文件关联;
步骤109、所述的数据拥有者将步骤108处理的结果放入为其分配的数据存储区;
步骤110、所述的数据拥有者选择可以开放的数据,利用所述的数据脱敏服务,结合数据资产的编目形成数据脱敏模型,实现数据标识匿名化、敏感数据模糊化等处理,将数据进行脱敏;
步骤111、通过所述的隐私评估服务对脱敏后数据进行评估,如果不满足隐私保护要求,则不开放数据;如果满足隐私保护要求,则将脱敏后数据放入到所述的数据开放区,并提供数据使用规则,用于智能合约的执行规则的制定;
步骤112、所述的数据使用者请求样本数据,进行数据分析算法的开发,通过所述的数据抽样服务,将开放区中的脱敏数据按照数据分布随机抽取部分内容形成样本,提供给算法工程师等开发者进行数据分析,用于原型验证;
步骤113、所述的数据使用者提交其数据分析算法,由所述的算法评估服务将对于数据分析算法进行分析,判断评估其算法执行效率及涉及的隐私泄漏问题;如果评估不通过,则不允许算法在数据湖平台中运行;
步骤114、所述的数据使用者,提出数据融合分析请求,并将其算法上传,根据数据开放区中使用数据的规则,生成数据分析智能合约,在区块链基础设施P2P网络中广播;
步骤115、所述的数据湖平台将数据融合分析算法加载到安全区域,在其上的数据分析运行时环境执行算法;
步骤116、所述的数据湖平台根据执行结果,触发智能合约;
步骤117、所述的背书节点执行数据分析智能合约,将数据分析结果使用所述的数据使用者的公钥进行加密,并将原文地址及结果的Hash值写入到区块链中;
步骤118、如果智能合约中要求所述的数据使用者和所述的数据拥有者共享数据分析结果,则将执行结果所述的数据拥有者的公钥进行加密,存储到所述的数据拥有者指定的存储位置;
步骤119、将执行结果发给所述的记账节点,并由记账节点达成共识,生成新的区块,按照预先设定的规则完成相关操作,完成合约执行;
步骤120、所述的区块链参与节点通过P2P共识网络获取最新区块链数据,更新各自本地账本记录;
步骤121、所述的数据使用者使用其私钥解密,获得数据分析结果,可以形成知识,存储到所述的知识库中,用于未来的知识推理分析;
步骤122、(可选的)所述的数据拥有者使用其私钥解密,获得数据分析结果,可以形成知识,存储到所述的知识库中,用于未来的知识推理分析;
步骤123、所述的数据湖平台中的数据脱敏服务、隐私评估服务、数据抽样服务、算法评估服务等服务,持续获取反馈,不断优化其模型。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种基于智能合约的数据湖融合数据安全分析方法,其特征在于,
利用数据湖提供的服务,形成数据自动清洗、数据脱敏、隐私评估的模型,用于原始数据的二次加工;
数据湖支持多租户,设置专门的安全区域,用于融合数据处理;
随机抽取数据样本用于数据使用者训练算法,对算法评估后,在数据湖中安全区域中运行,并将输出的中间结果及最终结果进行评估,判断数据隐私泄露可能性;
数据湖基础设施之上提供区块链服务,在一个P2P共识网络中建立区块链基础设施,P2P共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成;
参与数据标注任务的各个参与节点共同维护一份账本,账本中记录数据融合分析任务智能合约的执行结果;
另外,通过第三方数字证书认证中心为参与方和租户提供身份证书及通信安全认证服务。
2.根据权利要求1所述的方法,其特征在于,
所述的数据湖平台聚集海量的多源异构数据,保存未经改变的全量数据,并提供数据处理相关的基础设施和服务。
3.根据权利要求2所述的方法,其特征在于,
数据湖支持多租户,并对租户进行管理,通过第三方数字证书认证中心为租户发放证书,确认其身份,并为其划分原始数据存储区及数据开放区,同时提供安全区域,在其上的数据分析运行时环境执行所述的数据使用者编写的算法。
4.根据权利要求3所述的方法,其特征在于,
基础设施和服务包括数据存储仓库、数据资产编目服务、数据治理服务、数据脱敏服务、隐私评估服务、数据抽样服务、算法评估服务、知识库服务、知识推理服务、数据报告服务、数据可视化以及机器学习、深度学习和数据分析运行时环境。
5.根据权利要求4所述的方法,其特征在于,
所述的数据存储仓库提供数据存储;
所述的数据资产编目服务是对数据进行建模,设定元数据描述;
所述的数据治理服务实现数据清洗、数据抽取、数据转换和整合,并对数据进行结构化及标准化处理;
所述的数据脱敏服务,结合数据资产的编目形成数据脱敏模型,实现数据标识匿名化、敏感数据模糊化处理;
所述的隐私评估服务对脱敏后数据进行评估,判断脱敏程度;
所述的数据抽样服务将脱敏数据抽取部分数据形成样本,提供给算法工程师等开发者进行数据分析,用于原型验证;
所述的算法评估服务将对于数据分析算法进行分析,判断评估其算法执行效率及涉及的隐私泄密问题;
所述的数据报告服务提供将结果形成报表的服务;
所述的知识库将数据分析结果形成知识进行存储,并通过所述的知识推理服务对知识进行检索、推理操作;
所述的数据可视化提供数据的图表展现形式;
所述的机器学习、深度学习和数据分析运行时环境提供算法的运行环境。
6.根据权利要求5所述的方法,其特征在于,
所述的数据使用者可以是数据科学家、算法工程师、业务专家,通过数据湖平台提供样本编写分析算法,并在数据湖平台中运行,获得输出结果;
数据湖平台的租户是数据拥有者,拥有数据的所有权;
所述的区块链基础设施建立一个P2P共识网络,将区块链中待执行的智能合约程序公开,供各个参与方及社区开发者检查和调用,所有的智能合约执行结果都将记录在区块链中;
所述的P2P共识网络是没有中心节点、通过节点间进行消息交换的网络体系,P2P共识网络存在管理节点、背书节点和记账节点,共同合作实现智能合约的执行以及区块链新区块的生成;
所述的管理节点负责参与节点的准入;
所述的数据分析智能合约,由数据使用者发起,以智能合约的形式出现,将整个数据分析过程记录下来;
所述的第三方数字证书认证中心为参与方和租户提供证书认证服务。
7.根据权利要求6所述的方法,其特征在于,
具体步骤包括:
步骤101、利用数据湖平台区块链基础设施资源,形成P2P共识网络;
步骤102、在区块链共识网络中选出管理节点、背书节点和记账节点,并由第三方数字证书认证中心发放数字证书,实现节点间的互信;
步骤103、数据湖平台审核租户,并通过所述的第三方数字证书认证中心颁发数字证书,作为其在数据湖平台的身份;
步骤106、通过数据资产编目服务将数据进行建模,设定元数据描述,形成各种数据模型,并将数据结构标准化;
步骤107、数据拥有者将原始数据汇集到所述的数据湖平台,放入为租户分配的区域,并进行多副本存储;
步骤108、数据拥有者使用所述的数据治理服务,实现多源异构数据清洗、数据抽取、数据转换和整合,并对数据进行结构化及标准化处理,将数据进行关联,例如,将图像、声音、视频等转换成带语义的结构化数据,并与原始文件关联;
步骤109、数据拥有者将步骤108处理的结果放入为其分配的数据存储区;
步骤110、数据拥有者选择可以开放的数据,利用所述的数据脱敏服务,结合数据资产的编目形成数据脱敏模型,实现数据标识匿名化、敏感数据模糊化处理,将数据进行脱敏;
步骤111、通过隐私评估服务对脱敏后数据进行评估,如果不满足隐私保护要求,则不开放数据;如果满足隐私保护要求,则将脱敏后数据放入到所述的数据开放区,并提供数据使用规则,用于智能合约的执行规则的制定;
步骤112、数据使用者请求样本数据,进行数据分析算法的开发,通过数据抽样服务,将开放区中的脱敏数据按照数据分布随机抽取部分内容形成样本,提供给开发者进行数据分析,用于原型验证;
步骤113、数据使用者提交其数据分析算法,由算法评估服务将对于数据分析算法进行分析,判断评估其算法执行效率及涉及的隐私泄漏问题;如果评估不通过,则不允许算法在数据湖平台中运行;
步骤114、数据使用者提出数据融合分析请求,并将其算法上传,根据数据开放区中使用数据的规则,生成数据分析智能合约,在区块链基础设施P2P网络中广播;
步骤115、数据湖平台将数据融合分析算法加载到安全区域,在其上的数据分析运行时环境执行算法;
步骤116、数据湖平台根据执行结果,触发智能合约;
步骤117、背书节点执行数据分析智能合约,将数据分析结果使用数据使用者的公钥进行加密,并将原文地址及结果的Hash值写入到区块链中;
步骤118、如果智能合约中要求数据使用者和数据拥有者共享数据分析结果,则将执行结果所述的数据拥有者的公钥进行加密,存储到所述的数据拥有者指定的存储位置;
步骤119、将执行结果发给所述的记账节点,并由记账节点达成共识,生成新的区块,按照预先设定的规则完成相关操作,完成合约执行;
步骤120、区块链参与节点通过P2P共识网络获取最新区块链数据,更新各自本地账本记录;
步骤121、数据使用者使用其私钥解密,获得数据分析结果,形成知识,存储到所述的知识库中,用于未来的知识推理分析;
步骤122、数据湖平台中的数据脱敏服务、隐私评估服务、数据抽样服务、算法评估服务等服务,持续获取反馈,不断优化其模型。
8.根据权利要求1所述的方法,其特征在于,
数据拥有者使用其私钥解密,获得数据分析结果,形成知识,存储到所述的知识库中,用于未来的知识推理分析。
CN201910379090.2A 2019-05-08 2019-05-08 一种基于智能合约的数据湖融合数据安全分析方法 Active CN110069932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910379090.2A CN110069932B (zh) 2019-05-08 2019-05-08 一种基于智能合约的数据湖融合数据安全分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910379090.2A CN110069932B (zh) 2019-05-08 2019-05-08 一种基于智能合约的数据湖融合数据安全分析方法

Publications (2)

Publication Number Publication Date
CN110069932A true CN110069932A (zh) 2019-07-30
CN110069932B CN110069932B (zh) 2023-02-21

Family

ID=67370307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910379090.2A Active CN110069932B (zh) 2019-05-08 2019-05-08 一种基于智能合约的数据湖融合数据安全分析方法

Country Status (1)

Country Link
CN (1) CN110069932B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807684A (zh) * 2019-10-16 2020-02-18 广州快批信息科技有限公司 基于区块链技术的销售单据存储方法、装置、服务器及介质
CN110851847A (zh) * 2019-11-08 2020-02-28 国家工业信息安全发展研究中心 一种异构数据处理系统、方法、装置和存储介质
CN110889291A (zh) * 2019-11-21 2020-03-17 山东浪潮人工智能研究院有限公司 一种基于深度学习和区块链的研报评价方法
CN111061713A (zh) * 2019-12-11 2020-04-24 北京时代云链信息科技有限公司 区块链数据融合方法、装置、设备以及存储介质
CN111143880A (zh) * 2019-12-27 2020-05-12 中电长城网际系统应用有限公司 数据处理方法和装置、电子设备、可读介质
CN111221901A (zh) * 2019-11-12 2020-06-02 北京芯际科技有限公司 一种基于区块链的生成数字人生的系统及其方法
CN111400761A (zh) * 2020-03-17 2020-07-10 吉林亿联银行股份有限公司 数据共享方法及装置、存储介质及电子设备
CN111859470A (zh) * 2020-09-23 2020-10-30 支付宝(杭州)信息技术有限公司 一种业务数据上链方法及装置
CN112134834A (zh) * 2020-05-19 2020-12-25 北京天德科技有限公司 一种基于区块链的数据湖系统架构
CN112633736A (zh) * 2020-12-30 2021-04-09 上海魔橙网络科技有限公司 基于区块链系统的风险监测方法、系统及装置
CN112734545A (zh) * 2020-12-31 2021-04-30 中国工商银行股份有限公司 区块链数据共享方法、装置及系统
CN112738233A (zh) * 2020-12-29 2021-04-30 福州数据技术研究院有限公司 一种基于区块链的多方合作分析场景下的医疗数据安全共享方法、系统和存储设备
CN113297614A (zh) * 2021-05-13 2021-08-24 江苏南工科技集团有限公司 一种基于区块链技术的数据加密认证及安全分析方法
CN115130623A (zh) * 2022-09-01 2022-09-30 浪潮通信信息系统有限公司 数据融合方法、装置、电子设备及存储介质
CN115422596A (zh) * 2022-11-02 2022-12-02 北京锘崴信息科技有限公司 采用隐私保护算法确定数据、金融和医疗数据有效性方法
CN115549969A (zh) * 2022-08-29 2022-12-30 广西电网有限责任公司电力科学研究院 一种智能合约数据服务方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366311A (zh) * 2013-07-11 2013-10-23 昆明能讯科技有限责任公司 一种基于变电站多系统的数据融合处理方法
WO2017187207A1 (en) * 2016-04-29 2017-11-02 Privitar Limited Computer-implemented privacy engineering system and method
US20180343114A1 (en) * 2015-11-24 2018-11-29 Adi BEN-ARI A system and method for blockchain smart contract data privacy
CN109445948A (zh) * 2018-11-15 2019-03-08 济南浪潮高新科技投资发展有限公司 一种基于智能合约的数据标注众包平台系统及众包数据标注方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366311A (zh) * 2013-07-11 2013-10-23 昆明能讯科技有限责任公司 一种基于变电站多系统的数据融合处理方法
US20180343114A1 (en) * 2015-11-24 2018-11-29 Adi BEN-ARI A system and method for blockchain smart contract data privacy
WO2017187207A1 (en) * 2016-04-29 2017-11-02 Privitar Limited Computer-implemented privacy engineering system and method
CN109716345A (zh) * 2016-04-29 2019-05-03 普威达有限公司 计算机实现的隐私工程系统和方法
CN109445948A (zh) * 2018-11-15 2019-03-08 济南浪潮高新科技投资发展有限公司 一种基于智能合约的数据标注众包平台系统及众包数据标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BEHESHTI, AMIN ET AL.: "CoreKG: a Knowledge Lake Service", 《PROCEEDINGS OF THE VLDB ENDOWMENT》 *
宋俊典等: "基于区块链的数据治理协同方法", 《计算机应用》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807684A (zh) * 2019-10-16 2020-02-18 广州快批信息科技有限公司 基于区块链技术的销售单据存储方法、装置、服务器及介质
CN110851847A (zh) * 2019-11-08 2020-02-28 国家工业信息安全发展研究中心 一种异构数据处理系统、方法、装置和存储介质
CN110851847B (zh) * 2019-11-08 2023-09-12 国家工业信息安全发展研究中心 一种异构数据处理系统、方法、装置和存储介质
CN111221901A (zh) * 2019-11-12 2020-06-02 北京芯际科技有限公司 一种基于区块链的生成数字人生的系统及其方法
CN110889291A (zh) * 2019-11-21 2020-03-17 山东浪潮人工智能研究院有限公司 一种基于深度学习和区块链的研报评价方法
CN110889291B (zh) * 2019-11-21 2023-06-27 山东浪潮科学研究院有限公司 一种基于深度学习和区块链的研报评价方法
CN111061713A (zh) * 2019-12-11 2020-04-24 北京时代云链信息科技有限公司 区块链数据融合方法、装置、设备以及存储介质
CN111143880A (zh) * 2019-12-27 2020-05-12 中电长城网际系统应用有限公司 数据处理方法和装置、电子设备、可读介质
CN111143880B (zh) * 2019-12-27 2022-06-07 中电长城网际系统应用有限公司 数据处理方法和装置、电子设备、可读介质
CN111400761A (zh) * 2020-03-17 2020-07-10 吉林亿联银行股份有限公司 数据共享方法及装置、存储介质及电子设备
CN111400761B (zh) * 2020-03-17 2022-04-22 吉林亿联银行股份有限公司 数据共享方法及装置、存储介质及电子设备
CN112134834A (zh) * 2020-05-19 2020-12-25 北京天德科技有限公司 一种基于区块链的数据湖系统架构
CN111859470B (zh) * 2020-09-23 2021-06-08 支付宝(杭州)信息技术有限公司 一种业务数据上链方法及装置
CN111859470A (zh) * 2020-09-23 2020-10-30 支付宝(杭州)信息技术有限公司 一种业务数据上链方法及装置
US11366925B2 (en) 2020-09-23 2022-06-21 Alipay (Hangzhou) Information Technology Co., Ltd. Methods and apparatuses for chaining service data
CN112738233B (zh) * 2020-12-29 2023-07-11 福州数据技术研究院有限公司 一种基于区块链的多方合作分析场景下的医疗数据安全共享方法、系统和存储设备
CN112738233A (zh) * 2020-12-29 2021-04-30 福州数据技术研究院有限公司 一种基于区块链的多方合作分析场景下的医疗数据安全共享方法、系统和存储设备
CN112633736A (zh) * 2020-12-30 2021-04-09 上海魔橙网络科技有限公司 基于区块链系统的风险监测方法、系统及装置
CN112734545A (zh) * 2020-12-31 2021-04-30 中国工商银行股份有限公司 区块链数据共享方法、装置及系统
CN112734545B (zh) * 2020-12-31 2024-02-02 中国工商银行股份有限公司 区块链数据共享方法、装置及系统
CN113297614A (zh) * 2021-05-13 2021-08-24 江苏南工科技集团有限公司 一种基于区块链技术的数据加密认证及安全分析方法
CN115549969A (zh) * 2022-08-29 2022-12-30 广西电网有限责任公司电力科学研究院 一种智能合约数据服务方法和系统
CN115130623B (zh) * 2022-09-01 2022-11-25 浪潮通信信息系统有限公司 数据融合方法、装置、电子设备及存储介质
CN115130623A (zh) * 2022-09-01 2022-09-30 浪潮通信信息系统有限公司 数据融合方法、装置、电子设备及存储介质
CN115422596A (zh) * 2022-11-02 2022-12-02 北京锘崴信息科技有限公司 采用隐私保护算法确定数据、金融和医疗数据有效性方法
CN115422596B (zh) * 2022-11-02 2023-01-13 北京锘崴信息科技有限公司 采用隐私保护算法确定数据、金融和医疗数据有效性方法

Also Published As

Publication number Publication date
CN110069932B (zh) 2023-02-21

Similar Documents

Publication Publication Date Title
CN110069932A (zh) 一种基于智能合约的数据湖融合数据安全分析方法
Lone et al. Forensic-chain: Blockchain based digital forensics chain of custody with PoC in Hyperledger Composer
Sauerwein et al. Threat intelligence sharing platforms: An exploratory study of software vendors and research perspectives
Campanile et al. Designing a GDPR compliant blockchain-based IoV distributed information tracking system
CN108009917B (zh) 数字货币的交易验证和登记方法及系统
Casino et al. Research trends, challenges, and emerging topics in digital forensics: A review of reviews
Khan et al. A blockchain ethereum technology-enabled digital content: development of trading and sharing economy data
CN111898148A (zh) 一种基于区块链的信息监管方法及装置
CN108965247A (zh) 一种基于区块链的威胁情报交换共享系统和方法
CN108737361A (zh) 一种基于区块链的数据验证方法
WO2021082824A1 (zh) 数据处理方法、设备及计算机可读存储介质
WO2022206453A1 (zh) 提供跨链隐私数据的方法和装置
CN111429198A (zh) 一种航天试验数据交易方法
Rana et al. Decentralized model to protect digital evidence via smart contracts using layer 2 polygon blockchain
Zheng Applications research of blockchain technology in accounting system
CN113657994A (zh) 基于联盟链的借贷风险管理控制方法及装置
Webster et al. Sharing is caring: Collaborative analysis and real-time enquiry for security analytics
Penland et al. Towards an internet of trusted data: A new framework for identity and data sharing
Kumari et al. A survey on big data security: Issues, challenges and techniques
CN115329349A (zh) 基于联盟区块链的应用监管平台及其监管方法
Kraus Digital currency: Risks, rewards and investigative techniques
CN112016898A (zh) 基于区块链的协同办公方法及装置、系统
Rajasekar et al. Blackchain-based Identity Management Systems in Digital Forensics
Handoko et al. The utilization of blockchain technology on remote audit to ensure audit data integrity in detecting potential fraudulent financial reporting
Pohlman Oracle identity management: governance, risk, and compliance architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230116

Address after: 250100 building S02, No. 1036, Langchao Road, high tech Zone, Jinan City, Shandong Province

Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd.

Address before: 250100 First Floor of R&D Building 2877 Kehang Road, Sun Village Town, Jinan High-tech Zone, Shandong Province

Applicant before: JINAN INSPUR HIGH-TECH TECHNOLOGY DEVELOPMENT Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant