CN117938886A

CN117938886A - 基于强化学习的跨链区块多源选择存储方法及系统

Info

Publication number: CN117938886A
Application number: CN202410341075.XA
Authority: CN
Inventors: 何双江; 靖娟; 张俊琪; 徐丽华; 倪阅其; 赵慧娟; 闵潇潇
Original assignee: Wuhan Fiberhome Information Integration Technologies Co ltd
Current assignee: Wuhan Fiberhome Information Integration Technologies Co ltd
Priority date: 2024-03-25
Filing date: 2024-03-25
Publication date: 2024-04-26
Anticipated expiration: 2044-03-25
Also published as: CN117938886B

Abstract

本发明提供一种基于强化学习的跨链区块多源选择存储方法及系统，对区块链系统中影响存储位置的因素进行定义；构造优化目标函数；将优化目标转化为马尔科夫决策过程，基于马尔科夫决策过程定义状态空间、操作空间、状态迁移函数和奖励函数四元组；基于所述四元组，构造深度强化学习算法，在每个时刻接收来自环境的反馈并计算奖励，通过观察区块链账本选择区块链，确定存储位置，进而优化本地和云端的区块存储策略。

Description

基于强化学习的跨链区块多源选择存储方法及系统

技术领域

本发明专利涉及移动设备较多且事务交互密集的区块链系统，具体涉及一种基于强化学习的跨链区块多源选择存储方法及系统。

背景技术

区块链网络中的每个对等方都维护着账本的完整副本，并通过共识进行更新。这种完全复制方法给对等端的存储空间带来了负担。尤其是在频发交易的移动终端或IOT终端，将很快超过存储容量的限制。

目前的解决方案是本地区块与云区块集成的办法，即允许本地存储与云存储交互，共同维护区块链账本。但问题是，哪些区块存储在本地，哪些区块存储在云端。在交互性强的区块链系统，存在三种不同的查询情况且情况随机，即固定频次的查询、线性衰减/增长的频次的查询和指数衰减/增长的频次查询。因为，本地访存的效率高于云端，而如何平衡本地和云端的区块存储策略是对区块链系统性能的挑战。

发明内容

本发明要解决的技术问题是：提供一种基于强化学习的跨链区块多源选择存储方法及系统，能够优化本地和云端的区块存储策略。

本发明为解决上述技术问题所采取的技术方案为：一种基于强化学习的跨链区块多源选择存储方法，包括以下步骤：

S1、对区块链系统中影响存储位置的因素进行定义；所述的影响存储位置的因素包括访问频率、云存储开销、本地存储开销和跨链交易开销；

S2、基于所述因素的定义，构造优化目标函数，其中将目标块从本地移动到云端和从云端移动到本地的优化目标一致；

S3、将优化目标转化为马尔科夫决策过程，基于马尔科夫决策过程定义状态空间、操作空间、状态迁移函数和奖励函数四元组，四元组中的参数均来自所述优化目标函数，其中，

所述的优化目标为从区块链总数中选择M个转移到云上存储；M为转移的理想区块个数；

状态空间由每一次动作的状态构成，每一次动作的状态包括访问频率、区块大小和区块状态的集合；

操作空间由操作动作构成，每个操作动作定义一次性操作区块的数量；

状态迁移函数定义了通过操作动作把区块链账本从状态空间中的一个状态转换到另一个状态的条件概率；

奖励函数依据所述访问频率、云存储开销、本地存储开销和跨链交易开销的目标构造奖励规则建立；

S4、基于所述四元组，构造深度强化学习算法，在每个时刻接收来自环境的反馈并计算奖励，通过观察区块链账本选择区块链，确定存储位置；所述的环境为存储在区块链账本中的区块链；所述的环境的反馈通过所述状态迁移函数得到。

按上述方案，本方法在交易的空闲时间，每个区块链系统中的对等体上完成。

按上述方案，所述的访问频率具体包括固定频次访问、线性变化频次访问和指数变化频次访问三种情况下的交易频次和卸载概率；

所述的云存储开销利用代价函数建立，由存储代价和带有权衡因子的延迟开销组合构成；

所述的本地存储开销根据本地能够存储的最大区块数和准备存储的区块数得到；

所述的跨链交易开销根据跨链交易初始开销、每一次跨链交易请求的增量开销、跨链交易请求次数和一个预设的极大常数得到。

按上述方案，所述的访问频率具体定义如下：

其中，是初始频次，t是时间，/>和/>是常数，/>为区块的交易频次，即区块被创造的频次；

表示第k个区块的卸载频率，t=0的时候为初始频率，被访问的频次越高说明被卸载的概率越低，N为所有区块链的区块总数；/>表示M个被选中的区块的卸载概率和；表示归一化后第k个区块的卸载概率；k是0到N之间滑动的待卸载区块链数量。

按上述方案，所述的云存储开销具体定义如下：

式中，为延迟开销，/>表示网络连接建立引起的往返时间，/>为区块的存储大小，B表示带宽；/>为存储代价，由静态代价和请求代价两部分构成，/>表示云存储单元平均代价，/>表示本地链中服务请求的次数，/>表示请求单元平均代价，每个请求单元包括区块链的单元信息和区块大小；/>为云存储开销，/>为权衡因子， M为转移的理想区块个数。

按上述方案，所述的本地存储开销具体定义如下：

式中，为本地能够存储的最大的区块数量，D表示本地可用存储空间，/>表示平均每个区块的大小，M为转移的理想区块个数，N为区块链的区块总数。

按上述方案，所述的跨链交易开销具体定义如下：

式中，为跨链交易开销，c是预设的极大常数，表示跨链交易初始开销，/>表示第i次请求的增量开销，i为第i次请求，r表示跨链服务请求的次数。

按上述方案，构造的优化目标函数具体如下：

式中，为区块的卸载概率的优化目标，由以下公式得到：

按上述方案，所述的状态空间定义如下：

,/>,/>

式中，为状态空间；/>为访问频率，即所述的/>，/>-/>分别为第1-N个区块的访问频率；/>为区块的存储大小，即所述的/>，/>-/>分别为第1-N个区块的存储大小；为区块状态，类型包括本地块和跨链块，/>-/>分别为第1-N个区块的区块状态；

所述的操作空间定义如下：

即当k的数量在1-N之间时，一次性操作k个区块，否则不操作；

所述的奖励函数具体定义如下：

式中，为云存储最大的开销；R为奖励，/>为t时刻的奖励；/>为本地已经被占用的存储，/>表示本地最大可使用的物理存储，/>表示云上最大可用的开销，/>表示云上区块的开销；/>表示不同开销下对应的权值，且/>；

所述的状态迁移函数具体定义如下：

式中，为区块链账本状态；/>为通过动作/>把账本状态s转换到s’的条件概率；/>为本地链的动作/>把账本状态s转换到s’的条件概率；/>为跨链的动作/>把账本状态s转换到s’的条件概率；/>表示滤波操作，即没有发生跨链请求时不响应；/>表示经过动作/>把账本状态s转换到/>，/>表示反向操作。

基于强化学习的跨链区块多源选择存储系统，本系统包括控制单元和存储单元，存储单元中存有计算机程序供所述控制单元调用，以完成所述的基于强化学习的跨链区块多源选择存储方法。

本发明的有益效果为：

1、通过对区块链系统中影响存储位置的因素进行定义及优化，将划分区块存储位置的目标优化问题转化为马尔科夫决策过程，利用深度强化学习算法对马尔科夫决策过程进行求解，从而决策区块的存储位置——本地存储或云上存储，进而优化本地和云端的区块存储策略。

2、本方法在交易的空闲时间完成，从而保证系统性能稳定，进一步提高访存效率。

附图说明

图1为本发明一实施例的原理图。

图2为区块选择的马尔科夫决策过程示意图。

图3为本发明一实施例的方法流程图。

具体实施方式

下面结合具体实例和附图对本发明作进一步说明。

区块链是去中心的对等系统，每个操作都是在对等双方之间开展的，操作方需要操作资源方的资源。而资源方的资源可能储存在云端或者本地，这就需要优化存储策略解决操作效率问题。由于各个终端可能处于不同的网络和组织，有着各自的区块链系统。数据之间的交互会存在跨链情况，本地和云端可能存储了不同链的账本，这就给带块的选择策略来了难度。为避免求解全局最优解带来的系统性能问题，本发明采取求解每个对等体的单个最优解的策略，实现计算的可行性。

应用系统向本地链发起提交或查询交易。本地链上的对等服务根据业务类型，能够处理本地链交易或者跨链交易，从而产生区块或者接收区块。基于区块存储位置对区块链系统性能的影响。

具体的，本发明提供一种基于强化学习的跨链区块多源选择存储方法，如图3所示，包括以下步骤：

S1、对区块链系统中影响存储位置的因素进行定义；所述的影响存储位置的因素包括访问频率、云存储开销、本地存储开销和跨链交易开销。

在交互性强的区块链系统，存在三种不同的访问情况且情况随机，即固定频次的访问，线性衰减/增长的频次的访问和指数衰减/增长的频次访问。所述的访问频率具体包括固定频次访问、线性变化频次访问和指数变化频次访问三种情况下的交易频次和卸载概率，具体定义如下：

其中，是初始频次，t是时间，/>和/>是常数，根据具体环境确定，/>为区块的交易频次，即区块被创造的频次；

表示第k个区块的卸载频率，t=0的时候为初始频率，被访问的频次越高说明被卸载的概率越低，N为所有区块链的区块总数，包括本地存储区块链和云端存储区块链；表示M个被选中的区块的卸载概率和，用于归一化；/>表示归一化后第k个区块的卸载概率；k是0到N之间滑动的待卸载区块链数量，例如：若k=1，则从第1到M个区块存储到云端；若k=3，则从第3到M+2个区块存储到云端。

所述的云存储开销利用代价函数建立，由存储代价和带有权衡因子的延迟开销组合构成，具体定义如下：

式中，为延迟开销，/>表示网络连接建立引起的往返时间，/>为区块的存储大小，B表示带宽；/>为存储代价，由静态代价和请求代价两部分构成，/>表示云存储单元平均代价，/>表示本地链中服务请求的次数，/>表示请求单元平均代价，每个请求单元包括区块链的单元信息和区块大小；/>为云存储开销，/>为权衡因子， M为转移的理想区块个数。时延越小代价越高，时延越大代价越接近0。

所述的本地存储开销根据本地能够存储的最大区块数和准备存储的区块数得到，具体定义如下：

跨链交易发生概率一般远小于本地交易发生的概率，如果出现连续跨链请求开销会极具增加,但会由于跨链中继等机制收敛到一个常数。所述的跨链交易开销根据跨链交易初始开销、每一次跨链交易请求的增量开销、跨链交易请求次数和一个预设的极大常数得到，具体定义如下：

式中，为跨链交易开销，c是预设的极大常数（注：跨链系统不可能发生的巨大开销），表示跨链交易初始开销，/>表示第i次请求的增量开销，i为第i次请求，r表示跨链服务请求的次数，跨链交易跨链交易发生概率一般远小于本地交易发生的概率。

S2、基于所述因素的定义，构造优化目标函数，其中将目标块从本地移动到云端和从云端移动到本地的优化目标一致。

构造的优化目标函数具体如下：

式中，为区块的卸载概率的优化目标，由以下公式得到：

S3、将优化目标转化为马尔科夫决策过程(Markov Decision Process ，MDP)，基于马尔科夫决策过程定义状态空间、操作空间、状态迁移函数和奖励函数四元组，四元组中的参数均来自所述优化目标函数。其中，

所述的优化目标为从区块链总数中选择M个转移到云上存储；M为转移的理想区块个数。

状态空间由每一次动作的状态构成，每一次动作的状态包括访问频率、区块大小和区块状态的集合；所述的状态空间定义如下：

,/>,/>

式中，为状态空间；/>为访问频率，即所述的/>，/>-/>分别为第1-N个区块的访问频率；/>为区块的存储大小，即所述的/>，/>-/>分别为第1-N个区块的存储大小；为区块状态，类型包括本地块和跨链块，/>-/>分别为第1-N个区块的区块状态。

操作空间由操作动作构成，每个操作动作定义一次性操作区块的数量；操作空间定义如下：

即当k的数量在1-N之间时，一次性操作k个区块，否则不操作。

奖励函数依据所述访问频率、云存储开销、本地存储开销和跨链交易开销的目标构造奖励规则建立，具体定义如下：

式中，为云存储最大的开销，动态得到，每次得到云存储开销后进行比较，其中的最大值；R为奖励，/>为t时刻的奖励；/>为本地已经被占用的存储，/>表示本地最大可使用的物理存储，/>表示云上最大可用的开销，/>表示云上区块的开销；/>表示不同开销下对应的权值，且/>。

状态迁移函数定义了通过操作动作把区块链账本从状态空间中的一个状态转换到另一个状态的条件概率。

S4、基于所述四元组，构造深度强化学习算法（deep reinforcement learning，DRL)，在每个时刻接收来自环境的反馈并计算奖励，通过观察区块链账本选择区块链，确定存储位置；所述的环境为存储在区块链账本中的区块链；所述的环境的反馈通过所述状态迁移函数得到。

所述的状态迁移函数具体定义如下：

如图2所示，账本状态S0通过动作a0转换到S1的状态，其奖励为R(S0,a0,S1), 账本状态S1通过反向动作a0转换到S0的状态。

本发明支持任意的策略作为DRL的策略。

本发明还提供一种基于强化学习的跨链区块多源选择存储系统，本系统包括控制单元和存储单元，存储单元中存有计算机程序供所述控制单元调用，以完成所述的基于强化学习的跨链区块多源选择存储方法。

如图1所示，本发明能够通过强化学习代理与账本存储环境交互，分析账本状态决策区块是在本地存储或云上存储，即支持块在云上或本地的双向移动。综合考虑查询成本，动态选择区块链实现自适应，解决应用中不断变化的块查询需求。我们通过马尔科夫决策过程选择区块，根据链上的区块状态、可用的操作以及该操作产生的回报来建模区块链环境。由于其决策是在空闲时间进行的，因此不会引起系统性能问题。

进一步的，本发明将区块选择的多目标优化问题转化为马尔科夫决策过程加以解决。采用深度强化学习的方法，找到最优的马尔科夫决策过程。其中，本发明支持任意的策略作为深度强化学习的策略，来解决块选择问题，分析并实现其性能增益。本发明基于强化学习的自适应自决策的分布式区块选择方法为时间敏感的区块链环境提供了自适应和动态的解决方案。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于强化学习的跨链区块多源选择存储方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于强化学习的跨链区块多源选择存储方法，其特征在于：本方法在交易的空闲时间，每个区块链系统中的对等体上完成。

3.根据权利要求1所述的基于强化学习的跨链区块多源选择存储方法，其特征在于：所述的访问频率具体包括固定频次访问、线性变化频次访问和指数变化频次访问三种情况下的交易频次和卸载概率；

4.根据权利要求3所述的基于强化学习的跨链区块多源选择存储方法，其特征在于：所述的访问频率具体定义如下：

表示第k个区块的卸载频率，t=0的时候为初始频率，被访问的频次越高说明被卸载的概率越低，N为所有区块链的区块总数；/>表示M个被选中的区块的卸载概率和；/>表示归一化后第k个区块的卸载概率；k是0到N之间滑动的待卸载区块链数量。

5.根据权利要求4所述的基于强化学习的跨链区块多源选择存储方法，其特征在于：所述的云存储开销具体定义如下：

6.根据权利要求5所述的基于强化学习的跨链区块多源选择存储方法，其特征在于：所述的本地存储开销具体定义如下：

7.根据权利要求6所述的基于强化学习的跨链区块多源选择存储方法，其特征在于：所述的跨链交易开销具体定义如下：

8.根据权利要求7所述的基于强化学习的跨链区块多源选择存储方法，其特征在于：构造的优化目标函数具体如下：

式中，为区块的卸载概率的优化目标，由以下公式得到：

。

9. 根据权利要求8所述的基于强化学习的跨链区块多源选择存储方法，其特征在于：所述的状态空间定义如下：

,/>,/>

式中，为状态空间；/>为访问频率，即所述的/>，/>-/>分别为第1-N个区块的访问频率；/>为区块的存储大小，即所述的/>，/>-/>分别为第1-N个区块的存储大小；/>为区块状态，类型包括本地块和跨链块，/>-/>分别为第1-N个区块的区块状态；

所述的操作空间定义如下：

所述的奖励函数具体定义如下：

所述的状态迁移函数具体定义如下：

式中，为区块链账本状态；/>为通过动作/>把账本状态s转换到s’的条件概率；/>为本地链的动作/>把账本状态s转换到s’的条件概率；/>为跨链的动作/>把账本状态s转换到s’的条件概率；/> 表示滤波操作，即没有发生跨链请求时不响应；表示经过动作/>把账本状态s转换到/>，/>表示反向操作。

10.基于强化学习的跨链区块多源选择存储系统，其特征在于：本系统包括控制单元和存储单元，存储单元中存有计算机程序供所述控制单元调用，以完成权利要求1至9中任意一项所述的基于强化学习的跨链区块多源选择存储方法。