CN116860707A - 基于区块链的材料基因工程大数据安全共享方法及系统 - Google Patents

基于区块链的材料基因工程大数据安全共享方法及系统 Download PDF

Info

Publication number
CN116860707A
CN116860707A CN202310701039.5A CN202310701039A CN116860707A CN 116860707 A CN116860707 A CN 116860707A CN 202310701039 A CN202310701039 A CN 202310701039A CN 116860707 A CN116860707 A CN 116860707A
Authority
CN
China
Prior art keywords
data
blockchain
service provider
provider
block chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310701039.5A
Other languages
English (en)
Other versions
CN116860707B (zh
Inventor
王然
徐诚
张晓彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202310701039.5A priority Critical patent/CN116860707B/zh
Publication of CN116860707A publication Critical patent/CN116860707A/zh
Application granted granted Critical
Publication of CN116860707B publication Critical patent/CN116860707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Abstract

本发明公开了一种基于区块链的材料基因工程大数据安全共享方法及系统,涉及计算机科学技术领域。包括:数据提供方通过区块链向数据服务提供方发送原始数据;数据需求方通过区块链向数据服务提供方发送服务请求;数据服务提供方与区块链的内部接口相连,并通过区块链为数据提供方和数据需求方提供数据共享、数据检索以及多方协作计算服务。本发明利用区块链技术为材料数据的收集、存储、利用以及整个过程的安全机制等存在的问题提供了解决思路,是一种通用的解决方案,增加了区块链的可扩展性,可以为其他行业或领域的大数据安全共享平台的搭建提供参考。同时,用户仅需与区块链前端交互,无需了解平台的底层架构,减少了认知负荷和学习成本。

Description

基于区块链的材料基因工程大数据安全共享方法及系统
技术领域
本发明涉及计算机科学技术领域,尤其涉及一种基于区块链的材料基因工程大数据安全共享方法及系统。
背景技术
在数据采集方面,一部分材料大数据平台仅支持一种或两种类型的材料数据库,例如:无机晶体结构数据库(The Inorganic Crystal Structure Database,ICSD)、晶体学开放数据库(Crystallography Open Database,COD)、开放量子材料数据库(Open QuantumMaterials Database,OQMD)。此种平台的搭建方式好处在于数据集结构相对较为单一,便于数据检索和计算,但是应用具有较大的局限性,仅适用于部分材料领域。另一部分材料大数据平台支持所有类型的材料数据上传。但是,大量多源异构的数据汇聚在材料大数据平台,无法保证材料数据的高效、准确地检索和计算,很难基于现有的材料数据发现新材料。而现实场景下确实需要收集多源异构的材料数据并进行加工利用。
在数据存储方面,大部分现有的材料大数据平台将不同数据结构的数据存储于不同类型的数据库中,例如:MySQL、Oracle、DB2等,对于数据服务方来讲很难管理和审计,同时也面临着数据泄露、篡改的安全风险。对于数据需求方来讲难以支撑多源异构材料大数据的使用需求。本文提出的基于区块链的材料基因大数据安全共享平台框架可以有效地解决数据存储面临的问题。一方面,各参与方可以在不改变底层数据库框架的基础上,灵活部署区块节点,节点可随时加入退出,并实现对不同类型数据库的统一管理。另一方面,基于区块链的分布式账本特性,可以保障数据存储过程中的安全性,实现数据的防篡改、可追踪、可审计等。
在数据使用方面,传统材料大数据共享平台仅起到了数据汇聚的作用,以及具备平台与数据需求方之间点对点的数据传输功能。但是,对于如何使用这些数据,使得数据汇聚之后的数据价值最大化、如何基于大数据共享平台开发有价值的应用,是一个重点以及难点的问题。与此同时,材料数据相关研究对于多源异构数据的联合检索和计算需求日益增多,如何保障分布式结构下高效准确的完成异构数据检索,以及多方协同计算过程中数据提供方敏感数据的安全性,是目前亟待解决的关键问题。
在安全机制方面,材料大数据平台在安全机制方面还较为薄弱。现有的材料大数据平台基本上都仅提供了最基本的安全机制,如:身份验证、访问控制、日志记录和数据备份等。这些安全机制对于静态数据具有较好的防护能力,但对于数据共享过程中的敏感数据泄露和滥用、数据无法审计和追溯、无可信任的第三方等问题仍无法有效解决。
发明内容
本发明针对现有的材料大数据平台多采用中心化系统结构的设计方案,多源异构材料大数据在采集、存储和使用以及安全机制方面存在数据质量低、数据泄露、缺乏统一的管理和安全机制等一些共性敏感问题难以突破的问题,提出了本发明。本发明实施的目的是提供基于区块链的材料基因工程大数据安全共享方法,便于为研究人员提供一个开放的协作环境,可以更加便捷安全地检索、计算和分析数据。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种基于区块链的材料基因工程大数据安全共享方法,该方法由基于区块链的材料基因工程大数据安全共享系统实现,系统包括数据提供方、数据需求方、数据服务提供方以及区块链;
该方法包括:
S1、数据提供方与区块链的外部接口相连,并通过区块链向数据服务提供方发送原始数据。
S2、数据需求方与区块链的外部接口相连,并通过区块链向数据服务提供方发送服务请求,以及通过区块链进行数据检索。
S3、数据服务提供方与区块链的内部接口相连,并通过区块链为数据提供方和数据需求方提供数据共享、数据检索以及多方协作计算服务。
可选地,S1中的通过区块链向数据服务提供方发送原始数据,包括:
S11、数据提供方选择或创建材料数据模板、填写数据表单并提交,提交后进行鉴权。
S12、在鉴权成功后,数据提供方发起上传数据请求到区块链。
S13、区块链进行验证签名,验证成功后创建数据存储交易。
S14、当数据提供方收到数据存储交易完成消息后,将元数据以及原始数据发送到数据服务提供方。
S15、数据服务提供方的数据库保存原始数据,并构建关键字-数据库地址的映射。
S16、数据服务提供方将映射返回至区块链,并告知区块链数据存储已经完成。
S17、区块链收到数据存储已经完成消息后,告知数据提供方数据存储完成,并将关键字、元数据以及数据库地址存储到LevelDB数据库中。
S18、LevelDB数据库维护并更新默克尔压缩前缀树。
可选地,S12中的上传数据请求包含:元数据MD、数据内容哈希值Content Hash以及自身签名Sign。
可选地,S15中的数据服务提供方的数据库保存原始数据,并构建关键字-数据库地址的映射,包括:
数据服务提供方的数据库保存原始数据,通过ElasticSearch算法提取关键字,并构建关键字-数据库地址的映射。
可选地,S2中的通过区块链进行数据检索,包括:
S201、数据需求方在客户端检索页面输入检索的关键字并提交。
S202、数据需求方提交后,向区块链发送检索请求,检索请求包括自身签名Sign。
S203、区块链通过检索接口向LevelDB数据库发送检索的关键字。
S204、根据关键字搜索默克尔压缩前缀树,获得关键字对应的元数据MD。
S205、LevelDB数据库将元数据MD以及自身签名Sign返回给区块链。
S206、区块链验证web服务器签名是否有效,若有效则根据元数据MD创建检索交易,并广播检索交易。
S207、数据需求方通过检索交易获取元数据MD。
S208、数据需求方根据元数据MD中的数据摘要判断是否要获取原始数据,若需要,则向区块链发送获取原始数据的请求,携带原始数据的元数据MD及权限信息。
S209、区块链验证数据需求方具有获取原始数据权限后,通过元数据匹配原始数据的存储地址,并向数据服务提供方转发获取原始数据申请,携带存储地址信息。
S210、数据服务提供方将原始数据返回给区块链。
S211、区块链的全节点对原始数据是否被篡改进行验证。
S212、若验证原始数据未被篡改,则区块链将原始数据转发至数据需求方。
可选地,S3中的多方协作计算,包括:
S31、数据需求方从区块链中查询是否已经计算过待查询的预测材料性能的结果,若未查询到,则数据需求方发起新的预测材料性能的项目邀请,并将项目邀请广播到关联方,加入到项目的关联方成为参与方。
S32、数据需求方以及参与方对输入的数据集特征以及格式进行标准化。
S33、标准化后,构建联邦学习模型以及基于区块链的共识机制。
S34、通过联邦学习模型获得材料性能预测结果,通过区块链记录材料性能预测结果。
可选地,S33中的构建联邦学习模型,包括:
数据请求方根据联邦学习的应用场景产生初始化的模型参数,并将初始化的模型参数通过联盟链同步给参与方。
可选地,S33中的构建联邦学习模型,还包括:
联邦学习模型的训练过程中,数据请求方以及参与方收到的模型参数均为密文,并且在密文空间内对联邦学习模型进行聚合。
另一方面,本发明提供了一种基于区块链的材料基因工程大数据安全共享系统,该系统应用于实现基于区块链的材料基因工程大数据安全共享方法,该系统包括数据提供方、数据需求方、数据服务提供方以及区块链;
其中:
数据提供方与区块链的外部接口相连,并通过区块链向数据服务提供方发送原始数据。
数据需求方与区块链的外部接口相连,并通过区块链向数据服务提供方发送服务请求,以及通过区块链进行数据检索。
数据服务提供方与区块链的内部接口相连,并通过区块链为数据提供方和数据需求方提供数据共享、数据检索以及多方协作计算服务。
可选地,数据服务提供方包括数据服务系统、数据存储系统以及数据采集系统。
其中,数据服务系统包括多方协作服务框架、集成服务框架、基础服务框架以及服务网关。
数据采集系统包括动态容器。
可选地,数据提供方,进一步用于:
S11、数据提供方选择或创建材料数据模板、填写数据表单并提交,提交后进行鉴权。
S12、在鉴权成功后,数据提供方发起上传数据请求到区块链。
S13、区块链进行验证签名,验证成功后创建数据存储交易。
S14、当数据提供方收到数据存储交易完成消息后,将元数据以及原始数据发送到数据服务提供方。
S15、数据服务提供方的数据库保存原始数据,并构建关键字-数据库地址的映射。
S16、数据服务提供方将映射返回至区块链,并告知区块链数据存储已经完成。
S17、区块链收到数据存储已经完成消息后,告知数据提供方数据存储完成,并将关键字、元数据以及数据库地址存储到LevelDB数据库中。
S18、LevelDB数据库维护并更新默克尔压缩前缀树。
可选地,上传数据请求包含:元数据MD、数据内容哈希值Content Hash以及自身签名Sign。
可选地,数据提供方,进一步用于:
数据服务提供方的数据库保存原始数据,通过ElasticSearch算法提取关键字,并构建关键字-数据库地址的映射。
可选地,数据需求方,进一步用于:
S201、数据需求方在客户端检索页面输入检索的关键字并提交。
S202、数据需求方提交后,向区块链发送检索请求,检索请求包括自身签名Sign。
S203、区块链通过检索接口向LevelDB数据库发送检索的关键字。
S204、根据关键字搜索默克尔压缩前缀树,获得关键字对应的元数据MD。
S205、LevelDB数据库将元数据MD以及自身签名Sign返回给区块链。
S206、区块链验证web服务器签名是否有效,若有效则根据元数据MD创建检索交易,并广播检索交易。
S207、数据需求方通过检索交易获取元数据MD。
S208、数据需求方根据元数据MD中的数据摘要判断是否要获取原始数据,若需要,则向区块链发送获取原始数据的请求,携带原始数据的元数据MD及权限信息。
S209、区块链验证数据需求方具有获取原始数据权限后,通过元数据匹配原始数据的存储地址,并向数据服务提供方转发获取原始数据申请,携带存储地址信息。
S210、数据服务提供方将原始数据返回给区块链。
S211、区块链的全节点对原始数据是否被篡改进行验证。
S212、若验证原始数据未被篡改,则区块链将原始数据转发至数据需求方。
可选地,数据服务提供方,进一步用于:
S31、数据需求方从区块链中查询是否已经计算过待查询的预测材料性能的结果,若未查询到,则数据需求方发起新的预测材料性能的项目邀请,并将项目邀请广播到关联方,加入到项目的关联方成为参与方。
S32、数据需求方以及参与方对输入的数据集特征以及格式进行标准化。
S33、标准化后,构建联邦学习模型以及基于区块链的共识机制。
S34、通过联邦学习模型获得材料性能预测结果,通过区块链记录材料性能预测结果。
可选地,数据服务提供方,进一步用于:
数据请求方根据联邦学习的应用场景产生初始化的模型参数,并将初始化的模型参数通过联盟链同步给参与方。
可选地,数据服务提供方,进一步用于:
联邦学习模型的训练过程中,数据请求方以及参与方收到的模型参数均为密文,并且在密文空间内对联邦学习模型进行聚合。
上述技术方案,与现有技术相比至少具有如下有益效果:
上述方案,通过动态容器模型解决了收集的材料数据结构规范化等问题;通过在原有底层框架的基础上搭建区块链架构,采用“链上存储交易数据,链外存储原始数据”的方式,实现对底层不同种类数据库的统一管理和安全集中审计。同时,可实现数据的防泄漏、防篡改和可追溯;通过倒排索引、默克尔压缩前缀树等方法实现多源异构数据的全文检索;通过联邦学习、安全多方计算等技术,实现对材料数据的多方协同预测、建模和发现。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于区块链的材料基因工程大数据安全共享方法流程示意图;
图2是本发明实施例提供的基于区块链的数据上传流程图;
图3是本发明实施例提供的基于区块链的数据检索流程图;
图4是本发明实施例提供的基于区块链的多方安全计算方案工作流程图;
图5是本发明实施例提供的基于区块链的材料基因工程大数据安全共享系统框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于区块链的材料基因工程大数据安全共享方法,该方法可以由基于区块链的材料基因工程大数据安全共享系统实现,系统包括数据提供方、数据需求方、数据服务提供方以及区块链。如图1所示的基于区块链的材料基因工程大数据安全共享方法流程图,该方法的处理流程可以包括如下的步骤:
S1、数据提供方与区块链的外部接口相连,并通过区块链向数据服务提供方发送原始数据。
一种可行的实施方式中,本发明在底层数据架构的基础上,结合HyperledgerFabric,构建了一个安全的材料基因组工程大数据共享平台。它为研究人员提供了一个方便、安全的共享、检索、计算和分析数据的开放的协作环境。大数据安全共享平台主要包括数据提供方、数据需求方、数据服务提供方和在上述三个主体之间提供枢纽服务的核心区块链框架。
平台参与方:材料基因工程的大数据安全共享平台参与者包括数据提供方、数据需求方和数据服务提供方。数据提供方主要向平台贡献数据源,并且所有与平台的交互都通过区块链的外部接口完成。数据需求方主要向平台中的共享数据发起访问请求或服务请求,并且所有与平台的交互都通过区块链的外部接口完成。数据服务提供方通过内部接口嵌入区块链为数据提供方和需求方提供必要的服务,使得授权用户可以在平台上共享材料数据,并协同完成材料数据的检索和分析。
区块链框架:区块链在整个平台架构中充当中间件的角色。作为区块链上的节点,数据提供方和需求方通过外部接口将所有交易请求发送到区块链,然后通过内部接口向平台内部各个系统发出交易任务。平台上的所有用户不需要了解数据服务提供者的底层架构和业务逻辑。平台的收集、存储和服务系统对用户是透明的,由区块链的背书节点执行智能合约来分配所有请求任务。区块链的背书节点执行智能合约。然后,内部接口通过调用智能合约将交易提案的相关参数传输到平台的子系统。区块链框架记录了数据提供方、数据需求方和数据服务提供方之间的所有这些交易。
数据服务提供商方:数据服务提供方主要指数据采集、存储和服务子系统,提供数据生命周期服务。在数据采集子系统中,数据采集器接收上传的数据,并使用容器模式设计器来自定义模式以表示原始数据集,满足平台采用的标准数据格式。数据存储子系统将采集子系统解析的原始数据存储到不同的数据库中,并为数据使用者和数据服务子系统的每个框架提供所需的格式化数据。数据服务子系统可以为数据使用者提供必要的基础功能、多方协作计算、第三方集成功能等服务。
可选地,S1中的通过区块链向数据服务提供方发送原始数据,包括:
S11、数据提供方在客户端选择或创建材料数据模板,填写数据表单并提交后,系统会先发起鉴权流程。
S12、在鉴权成功后,数据提供方发起上传数据请求到区块链,包含:元数据MD、数据内容哈希值Content Hash以及自身签名Sign等内容。
S13、区块链进行验证签名,验证成功后创建数据存储交易,设置isSuccess字段为1表示验证成功,并广播存储交易。
S14、当数据提供方收到数据存储交易完成消息后,将元数据以及原始数据发送到数据服务提供方。
S15、数据服务提供方的数据库保存原始数据,通过ElasticSearch算法提取关键字,并构建关键字-数据库地址的映射。
S16、数据服务提供方将映射返回至区块链,并告知区块链数据存储已经完成。
S17、区块链收到数据存储已经完成消息后,告知数据提供方数据存储完成,并将关键字、元数据以及数据库地址存储到LevelDB数据库中。
S18、LevelDB数据库维护并更新默克尔压缩前缀树。
一种可行的实施方式中,如图2所示,在整个数据上传交易过程中主要有四个实体参与,分别是数据提供方、区块链、LevelDB、数据服务提供方。数据提供方创建材料数据模板,填写数据表单,包括元数据和数据内容等。区块链起到中间件的作用,作为请求交易的转发方,将数据提供方和数据服务提供方相隔离,两者之间的所有交互均通过区块链,从而保障底层数据库的安全性。LevelDB用于区块链的底层存储,用来存储和更新默克尔压缩前缀树结构。数据服务提供方负责存储所有的原始数据。
S2、数据需求方与区块链的外部接口相连,并通过区块链向数据服务提供方发送服务请求,以及通过区块链进行数据检索。
可选地,S2中的通过区块链进行数据检索,包括:
S201、数据需求方在客户端检索页面输入检索的关键字并提交。
S202、数据需求方提交后,向区块链发送检索请求,检索请求包括自身签名Sign。
S203、区块链通过检索接口向LevelDB数据库发送检索的关键字。
S204、根据关键字搜索默克尔压缩前缀树,获得关键字对应的元数据MD。
S205、LevelDB数据库将元数据MD以及自身签名Sign返回给区块链。
S206、区块链验证web服务器签名是否有效,若有效则根据元数据MD创建检索交易,并广播检索交易。
S207、数据需求方通过检索交易获取元数据MD。
S208、数据需求方根据元数据MD中的数据摘要判断是否要获取原始数据,若需要,则向区块链发送获取原始数据的请求,携带原始数据的元数据MD及权限信息。
S209、区块链验证数据需求方具有获取原始数据权限后,通过元数据匹配原始数据的存储地址,并向数据服务提供方转发获取原始数据申请,携带存储地址信息。
S210、数据服务提供方将原始数据返回给区块链。
S211、区块链的全节点验证数据库中的原始数据是否被篡改。
S212、如若验证结果表示数据未被篡改,则区块链将原始数据转发至数据需求方。
一种可行的实施方式中,如图3所示,数据需求方可在数据检索页面输入时间范围、模板类型和关键字发起数据检索流程,涉及到数据需求方、区块链、LevelDB、数据服务提供方等四个实体。数据需求方作为检索入口,用户在检索页面输入检索内容可发起检索流程,在对应页面展示检索结果;区块链提供默克尔压缩前缀树的检索接口,作为中间件在数据需求方与数据服务提供方之间转发请求;LevelDB中用于检索MPT中对应的关键字,并返回相应的元数据;数据服务提供方根据数据库地址返回原始数据。
S3、数据服务提供方与区块链的内部接口相连,并通过区块链为数据提供方和数据需求方提供数据共享、数据检索以及多方协作计算服务。
可选地,S3中的多方协作计算,包括:
S31、数据需求方从区块链中查询是否已经计算过待查询的预测材料性能的结果,若未查询到,则数据需求方发起新的预测材料性能的项目邀请,并将项目邀请广播到关联方,加入到项目的关联方成为参与方。
一种可行的实施方式中,如图4所示,数据需求方(以高温合金材料数据库为例)先从区块链中查询是否已经计算过相应的结果。如若未查询到相关结果,则数据需求方向材料大数据平台发起新的预测材料性能的项目邀请。项目邀请的请求发送到联盟链的背书节点上,背书节点检索区块链上存储的检索记录,筛选出与该项目具有相关性的关联方,并将项目邀请广播到关联方,加入到该计算项目的关联方成为参与方,视为联盟链中的共识节点。在多方计算之前与各参与方协商计算合约,将包含联邦学习初始化的模型参数、训练模型、当前计算任务的计算节点参数、节点初始状态及执行条件等内容的计算脚本部署在区块链合约上,无需人为因素干预并可自动触发条件执行已部署的合约。
S32、数据需求方以及参与方对输入的数据集特征以及格式进行标准化。
一种可行的实施方式中,由于材料数据具有多源异构的特点,需求方和各参与方之间应将输入的数据集特征、格式进行标准化。因此,数据需求方创建虚拟的数据集,将虚拟数据集上链,使得各参与方可以获得数据需求方的数据集特征、格式等,各参与方加载本地数据,参照数据需求方的数据集,通过数据对齐等方式形成可以用于多方计算的标准化数据集。
S33、标准化后,构建联邦学习模型以及基于区块链的共识机制。
可选地,S33中的构建联邦学习模型,包括:
数据请求方根据联邦学习的应用场景产生初始化的模型参数,并将初始化的模型参数通过联盟链同步给参与方。
可选地,S33中的构建联邦学习模型,还包括:
联邦学习模型的训练过程中,数据请求方以及参与方收到的模型参数均为密文,并且在密文空间内对联邦学习模型进行聚合。
一种可行的实施方式中,由于各参与方均是材料领域的相关组织机构,拥有相同特征空间、不同样本空间。因此,本发明将构建横向联邦学习模式。在整个联邦学习的过程中,采用联盟链的共识过程进行模型的参数数据训练,可以更好地利用节点的计算资源。请求方根据联邦学习的应用场景产生初始化的模型参数,并将初始模型参数通过联盟链同步给其他参与方,在参数传递的过程中采用秘密共享方式保障模型参数传输的安全性。请求方与各参与方利用初始模型参数,开始在本地进行模型更新。在模型更新过程中,各方会将本地数据集划分成若干批,并对每一批的数据计算其梯度,根据梯度逐次更新参数。该过程执行若干次,在本地形成本地的模型参数。此时,各方会对该本地模型参数进行同态加密,连同同态公钥发送给其他参与方。各方收到其他参与方发来的模型参数密文,在密文空间上进行加权融合,形成聚合的模型参数密文。请求方与各参与方通过区块链的共识机制检查模型参数是否已经收敛,若已收敛,则停止模型训练过程,若未收敛,则将聚合的模型参数密文广播给各参与方,各参与方将密文解密后再次进行模型参数更新。整个过程会迭代多次,直到各方共识模型已经收敛,训练过程才停止,将最终的模型参数作为训练模型的输入,获得预测材料性能的结果。整个模型训练过程中,各方收到的模型参数数据均为密文,并且在密文空间内对模型进行聚合。在该情况下,各方均难以获取模型参数的明文,无法推导出其他参与方的原始数据,保障了原始数据的安全性。
S34、通过联邦学习模型获得材料性能预测结果,通过区块链记录材料性能预测结果。
一种可行的实施方式中,数据需求方将计算结果上传到联盟链上,以便其他具有相同计算需求方再次获取相关结果记录,节省了平台整体的计算成本。
本发明构建了一个基于区块链的大数据分布式安全存储框架,该框架能够有效地解决数据存储所面临的管理和安全问题。一方面,每个参与者都可以不改变底层数据库框架灵活部署区块链节点。数据提供方和需求方可以随时加入/退出,实现对不同类型数据库的统一管理。另一方面,分布式账本可以保证数据存储的安全性,实现数据的防篡改、可追溯、可审计等功能。
本发明提出了一种基于区块链的检索和多方安全计算方法,可以实现对异构材料数据的安全共享和利用。基于区块链的防篡改特性,可以保证数据检索的可靠性和可用性。同时,本发明采用联邦学习、秘密共享和同态加密来实现共享数据的“可用但不可见”。在此基础上,可以避免在共享过程中出现数据泄漏的风险,并可以满足联合建模和新材料预测的要求。
本发明从材料数据的收集、存储、使用以及全流程的安全机制等方面提供了相关问题的解决方案,可以在保障材料数据安全的前提下,实现材料数据检索、多方协同计算等功能,满足材料数据的预测、建模和发现等应用需求。
此外,本发明可以用于多源异构数据的安全存储和共享的问题上。因此,该方法也可以应用到其他科学领域,比如物联网领域、工业物联网领域、交通领域、医疗领域等等。
本发明实施例中,通过动态容器模型解决了收集的材料数据结构规范化等问题;通过在原有底层框架的基础上搭建区块链架构,采用“链上存储交易数据,链外存储原始数据”的方式,实现对底层不同种类数据库的统一管理和安全集中审计。同时,可实现数据的防泄漏、防篡改和可追溯;通过倒排索引、默克尔压缩前缀树等方法实现多源异构数据的全文检索;通过联邦学习、安全多方计算等技术,实现对材料数据的多方协同预测、建模和发现。
如图5所示,本发明实施例提供了一种基于区块链的材料基因工程大数据安全共享系统,该系统应用于实现基于区块链的材料基因工程大数据安全共享方法,该系统包括数据提供方、数据需求方、数据服务提供方以及区块链;
其中:
数据提供方与区块链的外部接口相连,并通过区块链向数据服务提供方发送原始数据。
数据需求方与区块链的外部接口相连,并通过区块链向数据服务提供方发送服务请求,以及通过区块链进行数据检索。
数据服务提供方与区块链的内部接口相连,并通过区块链为数据提供方和数据需求方提供数据共享、数据检索以及多方协作计算服务。
可选地,数据服务提供方包括数据服务系统、数据存储系统以及数据采集系统。
其中,数据服务系统包括多方协作服务框架、集成服务框架、基础服务框架以及服务网关。
数据采集系统包括动态容器。
可选地,数据提供方,进一步用于:
S11、数据提供方选择或创建材料数据模板、填写数据表单并提交,提交后进行鉴权。
S12、在鉴权成功后,数据提供方发起上传数据请求到区块链。
S13、区块链进行验证签名,验证成功后创建数据存储交易。
S14、当数据提供方收到数据存储交易完成消息后,将元数据以及原始数据发送到数据服务提供方。
S15、数据服务提供方的数据库保存原始数据,并构建关键字-数据库地址的映射。
S16、数据服务提供方将映射返回至区块链,并告知区块链数据存储已经完成。
S17、区块链收到数据存储已经完成消息后,告知数据提供方数据存储完成,并将关键字、元数据以及数据库地址存储到LevelDB数据库中。
S18、LevelDB数据库维护并更新默克尔压缩前缀树。
可选地,上传数据请求包含:元数据MD、数据内容哈希值Content Hash以及自身签名Sign。
可选地,数据提供方,进一步用于:
数据服务提供方的数据库保存原始数据,通过ElasticSearch算法提取关键字,并构建关键字-数据库地址的映射。
可选地,数据需求方,进一步用于:
S201、数据需求方在客户端检索页面输入检索的关键字并提交。
S202、数据需求方提交后,向区块链发送检索请求,检索请求包括自身签名Sign。
S203、区块链通过检索接口向LevelDB数据库发送检索的关键字。
S204、根据关键字搜索默克尔压缩前缀树,获得关键字对应的元数据MD。
S205、LevelDB数据库将元数据MD以及自身签名Sign返回给区块链。
S206、区块链验证web服务器签名是否有效,若有效则根据元数据MD创建检索交易,并广播检索交易。
S207、数据需求方通过检索交易获取元数据MD。
S208、数据需求方根据元数据MD中的数据摘要判断是否要获取原始数据,若需要,则向区块链发送获取原始数据的请求,携带原始数据的元数据MD及权限信息。
S209、区块链验证数据需求方具有获取原始数据权限后,通过元数据匹配原始数据的存储地址,并向数据服务提供方转发获取原始数据申请,携带存储地址信息。
S210、数据服务提供方将原始数据返回给区块链。
S211、区块链的全节点对原始数据是否被篡改进行验证。
S212、若验证原始数据未被篡改,则区块链将原始数据转发至数据需求方。
可选地,数据服务提供方,进一步用于:
S31、数据需求方从区块链中查询是否已经计算过待查询的预测材料性能的结果,若未查询到,则数据需求方发起新的预测材料性能的项目邀请,并将项目邀请广播到关联方,加入到项目的关联方成为参与方。
S32、数据需求方以及参与方对输入的数据集特征以及格式进行标准化。
S33、标准化后,构建联邦学习模型以及基于区块链的共识机制。
S34、通过联邦学习模型获得材料性能预测结果,通过区块链记录材料性能预测结果。
可选地,数据服务提供方,进一步用于:
数据请求方根据联邦学习的应用场景产生初始化的模型参数,并将初始化的模型参数通过联盟链同步给参与方。
可选地,数据服务提供方,进一步用于:
联邦学习模型的训练过程中,数据请求方以及参与方收到的模型参数均为密文,并且在密文空间内对联邦学习模型进行聚合。本发明实施例中,通过动态容器模型解决了收集的材料数据结构规范化等问题;通过在原有底层框架的基础上搭建区块链架构,采用“链上存储交易数据,链外存储原始数据”的方式,实现对底层不同种类数据库的统一管理和安全集中审计。同时,可实现数据的防泄漏、防篡改和可追溯;通过倒排索引、默克尔压缩前缀树等方法实现多源异构数据的全文检索;通过联邦学习、安全多方计算等技术,实现对材料数据的多方协同预测、建模和发现。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于区块链的材料基因工程大数据安全共享方法,其特征在于,所述方法由基于区块链的材料基因工程大数据安全共享系统实现,所述系统包括数据提供方、数据需求方、数据服务提供方以及区块链;
所述方法包括:
S1、所述数据提供方与区块链的外部接口相连,并通过所述区块链向所述数据服务提供方发送原始数据;
S2、所述数据需求方与区块链的外部接口相连,并通过所述区块链向所述数据服务提供方发送服务请求,以及通过所述区块链进行数据检索;
S3、所述数据服务提供方与区块链的内部接口相连,并通过所述区块链为所述数据提供方和数据需求方提供数据共享、数据检索以及多方协作计算服务。
2.根据权利要求1所述的方法,其特征在于,所述S1中的通过所述区块链向所述数据服务提供方发送原始数据,包括:
S11、所述数据提供方选择或创建材料数据模板、填写数据表单并提交,提交后进行鉴权;
S12、在鉴权成功后,所述数据提供方发起上传数据请求到所述区块链;
S13、所述区块链进行验证签名,验证成功后创建数据存储交易;
S14、当所述数据提供方收到数据存储交易完成消息后,将元数据以及原始数据发送到所述数据服务提供方;
S15、所述数据服务提供方的数据库保存所述原始数据,并构建关键字-数据库地址的映射;
S16、所述数据服务提供方将所述映射返回至所述区块链,并告知所述区块链数据存储已经完成;
S17、所述区块链收到数据存储已经完成消息后,告知所述数据提供方数据存储完成,并将关键字、元数据以及数据库地址存储到LevelDB数据库中;
S18、所述LevelDB数据库维护并更新默克尔压缩前缀树。
3.根据权利要求2所述的方法,其特征在于,所述S12中的上传数据请求包含:元数据MD、数据内容哈希值Content Hash以及自身签名Sign。
4.根据权利要求2所述的方法,其特征在于,所述S15中的所述数据服务提供方的数据库保存所述原始数据,并构建关键字-数据库地址的映射,包括:
所述数据服务提供方的数据库保存所述原始数据,通过ElasticSearch算法提取关键字,并构建关键字-数据库地址的映射。
5.根据权利要求1所述的方法,其特征在于,所述S2中的通过所述区块链进行数据检索,包括:
S201、所述数据需求方在客户端检索页面输入检索的关键字并提交;
S202、所述数据需求方提交后,向区块链发送检索请求,所述检索请求包括自身签名Sign;
S203、所述区块链通过检索接口向LevelDB数据库发送检索的关键字;
S204、根据所述关键字搜索默克尔压缩前缀树,获得关键字对应的元数据MD;
S205、所述LevelDB数据库将所述元数据MD以及自身签名Sign返回给所述区块链;
S206、所述区块链验证web服务器签名是否有效,若有效则根据所述元数据MD创建检索交易,并广播所述检索交易;
S207、所述数据需求方通过所述检索交易获取所述元数据MD;
S208、所述数据需求方根据所述元数据MD中的数据摘要判断是否要获取原始数据,若需要,则向所述区块链发送获取原始数据的请求,携带原始数据的元数据MD及权限信息;
S209、所述区块链验证所述数据需求方具有获取原始数据权限后,通过元数据匹配原始数据的存储地址,并向所述数据服务提供方转发获取原始数据申请,携带存储地址信息;
S210、所述数据服务提供方将原始数据返回给所述区块链;
S211、所述区块链的全节点对原始数据是否被篡改进行验证;
S212、若验证原始数据未被篡改,则所述区块链将原始数据转发至所述数据需求方。
6.根据权利要求1所述的方法,其特征在于,所述S3中的多方协作计算,包括:
S31、所述数据需求方从所述区块链中查询是否已经计算过待查询的预测材料性能的结果,若未查询到,则所述数据需求方发起新的预测材料性能的项目邀请,并将所述项目邀请广播到关联方,加入到项目的关联方成为参与方;
S32、所述数据需求方以及参与方对输入的数据集特征以及格式进行标准化;
S33、标准化后,构建联邦学习模型以及基于区块链的共识机制;
S34、通过所述联邦学习模型获得材料性能预测结果,通过区块链记录所述材料性能预测结果。
7.根据权利要求6所述的方法,其特征在于,所述S33中的构建联邦学习模型,包括:
所述数据请求方根据联邦学习的应用场景产生初始化的模型参数,并将所述初始化的模型参数通过联盟链同步给所述参与方。
8.根据权利要求6所述的方法,其特征在于,所述S33中的构建联邦学习模型,还包括:
联邦学习模型的训练过程中,所述数据请求方以及参与方收到的模型参数均为密文,并且在密文空间内对联邦学习模型进行聚合。
9.一种基于区块链的材料基因工程大数据安全共享系统,其特征在于,所述系统包括数据提供方、数据需求方、数据服务提供方以及区块链;
其中:
所述数据提供方与区块链的外部接口相连,并通过所述区块链向所述数据服务提供方发送原始数据;
所述数据需求方与区块链的外部接口相连,并通过所述区块链向所述数据服务提供方发送服务请求,以及通过所述区块链进行数据检索;
所述数据服务提供方与区块链的内部接口相连,并通过所述区块链为所述数据提供方和数据需求方提供数据共享、数据检索以及多方协作计算服务。
10.根据权利要求9所述的系统,其特征在于,所述数据服务提供方包括数据服务系统、数据存储系统以及数据采集系统;
其中,所述数据服务系统包括多方协作服务框架、集成服务框架、基础服务框架以及服务网关;
所述数据采集系统包括动态容器。
CN202310701039.5A 2023-06-13 2023-06-13 基于区块链的材料基因工程大数据安全共享方法及系统 Active CN116860707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310701039.5A CN116860707B (zh) 2023-06-13 2023-06-13 基于区块链的材料基因工程大数据安全共享方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310701039.5A CN116860707B (zh) 2023-06-13 2023-06-13 基于区块链的材料基因工程大数据安全共享方法及系统

Publications (2)

Publication Number Publication Date
CN116860707A true CN116860707A (zh) 2023-10-10
CN116860707B CN116860707B (zh) 2024-02-13

Family

ID=88224240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310701039.5A Active CN116860707B (zh) 2023-06-13 2023-06-13 基于区块链的材料基因工程大数据安全共享方法及系统

Country Status (1)

Country Link
CN (1) CN116860707B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076757A (zh) * 2023-10-16 2023-11-17 校导帮(南京)科技创业有限公司 基于大模型的知识服务检索和管理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107241360A (zh) * 2017-08-04 2017-10-10 北京明朝万达科技股份有限公司 一种数据安全共享交换方法和数据安全共享交换平台系统
KR101877345B1 (ko) * 2017-04-18 2018-07-12 주식회사 코인플러그 블록체인 및 이와 연동되는 머클 트리 구조 기반의 토큰 아이디를 이용하여 카드 사용을 승인하는 방법 및 이를 이용한 서버
CN111221780A (zh) * 2019-12-31 2020-06-02 浙江工业大学 一种基于区块链的服务器文件安全存储方法
CN111585751A (zh) * 2020-04-10 2020-08-25 四川大学 基于区块链的数据共享方法
CN113821808A (zh) * 2021-08-20 2021-12-21 北京工业大学 一种基于区块链的物联网数据共享模型和管控方法
CN115510494A (zh) * 2022-10-13 2022-12-23 贵州大学 一种基于区块链与联邦学习的多方安全数据共享方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101877345B1 (ko) * 2017-04-18 2018-07-12 주식회사 코인플러그 블록체인 및 이와 연동되는 머클 트리 구조 기반의 토큰 아이디를 이용하여 카드 사용을 승인하는 방법 및 이를 이용한 서버
CN107241360A (zh) * 2017-08-04 2017-10-10 北京明朝万达科技股份有限公司 一种数据安全共享交换方法和数据安全共享交换平台系统
CN111221780A (zh) * 2019-12-31 2020-06-02 浙江工业大学 一种基于区块链的服务器文件安全存储方法
CN111585751A (zh) * 2020-04-10 2020-08-25 四川大学 基于区块链的数据共享方法
CN113821808A (zh) * 2021-08-20 2021-12-21 北京工业大学 一种基于区块链的物联网数据共享模型和管控方法
CN115510494A (zh) * 2022-10-13 2022-12-23 贵州大学 一种基于区块链与联邦学习的多方安全数据共享方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIN WANG ET AL: "An Optimazed Transaction Verification Method for Trustworthy Blockchain-enabled IIoT", 《AD HOC NETWORKS》, no. 119, pages 1 - 8 *
蔡磊 等: "面向区块链的高效物化视图维护和可信查询", 《软件学报》, vol. 31, no. 03, 17 June 2020 (2020-06-17), pages 680 - 694 *
蔡磊 等: "面向区块链的高效物化视图维护和可信查询", 《软件学报》, vol. 31, no. 03, pages 680 - 694 *
邱峥: "面向区块链与物联网融合的共识机制研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2021, no. 04, pages 136 - 315 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076757A (zh) * 2023-10-16 2023-11-17 校导帮(南京)科技创业有限公司 基于大模型的知识服务检索和管理系统
CN117076757B (zh) * 2023-10-16 2024-01-23 校导帮(南京)科技创业有限公司 基于大模型的知识服务检索和管理系统

Also Published As

Publication number Publication date
CN116860707B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN112685385B (zh) 一种用于智慧城市建设的大数据平台
US11875400B2 (en) Systems, methods, and apparatuses for dynamically assigning nodes to a group within blockchains based on transaction type and node intelligence using distributed ledger technology (DLT)
US11876910B2 (en) Systems, methods, and apparatuses for implementing a multi tenant blockchain platform for managing Einstein platform decisions using distributed ledger technology (DLT)
CN102419744B (zh) 信息的语义分析
US11200260B2 (en) Database asset fulfillment chaincode deployment
US11093495B2 (en) SQL processing engine for blockchain ledger
US11645268B2 (en) Database world state performance improvement
CN116860707B (zh) 基于区块链的材料基因工程大数据安全共享方法及系统
Peng et al. A peer-to-peer file storage and sharing system based on consortium blockchain
Luo et al. Bibliometric analysis of the blockchain scientific evolution: 2014–2020
Aviv et al. Reference Architecture for Blockchain-Native Distributed Information System
CN113011960A (zh) 基于区块链的数据访问方法、装置、介质及电子设备
Zhang et al. Research on remote sensing data sharing model based on blockchain technology
Jattan et al. Smart complaint redressal system using ethereum blockchain
Lu et al. Carparker: A blockchain-based privacypreserving and accident-proof-preserving private parking space sharing system
Vandenbroucke et al. Architectures and Standards for Spatial Data Infrastructures and Digital Government
Solomonides Integrating TRENCADIS components in gLite to share DICOM medical images and structured reports
Shi et al. Research on Scientific Data Curation Model of Institutional Knowledge Repository Integrated with Block Chain Technology
Nadeem A Taxonomy of Data Management Models in Distributed and Grid Environments
Braun et al. Stevie-collaborative creation and exchange of events and pois on a mobile phone
Ametepe et al. Lightweight Intuitive Provenance (LiP) in a distributed computing environment
Liu et al. Blockchain-Based Model Transaction Platform Design for BIM Trader
Li¹ et al. Check for updates An Introduction to Arbitrary Message Passing
Matani et al. Improving query processing in blockchain systems by using a multi-level sharding mechanism
Zhang Research on Resource Sharing Method of Library and Document Center Under the Multimedia Background.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant