CN117436852A - 一种基于lstm-ppo的支付通道费用动态设置算法 - Google Patents
一种基于lstm-ppo的支付通道费用动态设置算法 Download PDFInfo
- Publication number
- CN117436852A CN117436852A CN202311325510.1A CN202311325510A CN117436852A CN 117436852 A CN117436852 A CN 117436852A CN 202311325510 A CN202311325510 A CN 202311325510A CN 117436852 A CN117436852 A CN 117436852A
- Authority
- CN
- China
- Prior art keywords
- network
- strategy
- lstm
- node
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 70
- 230000006870 function Effects 0.000 claims abstract description 51
- 230000000694 effects Effects 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 102100040653 Tryptophan 2,3-dioxygenase Human genes 0.000 claims description 5
- 101710136122 Tryptophan 2,3-dioxygenase Proteins 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 abstract description 11
- 230000002787 reinforcement Effects 0.000 abstract description 10
- 238000013461 design Methods 0.000 abstract description 5
- 238000004088 simulation Methods 0.000 abstract description 5
- 239000003795 chemical substances by application Substances 0.000 description 19
- 230000008901 benefit Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000010206 sensitivity analysis Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/04—Payment circuits
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/08—Payment architectures
- G06Q20/085—Payment architectures involving remote charge determination or related payment systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Finance (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于支付通道费用动态设置算法技术领域,具体涉及一种基于LSTM‑PPO的支付通道费用动态设置算法,包括下列步骤:根据节点的收费特征及支付通道网络的拓扑结构,设计了状态空间和收益函数;考虑到网络中节点数量的不同,动态的针对不同规模的网络提供最优的方案;最后,通过仿真实验验证算法在闪电网络环境中的效果并与其他算法进行对比分析。本发明针对支付通道中节点费用设置问题,以最大化节点收益为目标,建立基于LSTM的深度强化学习模型,设计了网络的状态空间和奖励函数。通过仿真实验验证算法的有效性,LSTM‑PPO能够在实验中收敛,证明了状态空间、动作空间以及奖励函数的可行性。
Description
技术领域
本发明属于支付通道费用动态设置算法技术领域,具体涉及一种基于LSTM-PPO的支付通道费用动态设置算法。
背景技术
区块链技术实现了去中心化,公开可验证等特性,这些特性收到广泛关注,参与成员也不断增加。随着参与人数的增加,区块链交易速度受到限制,支付通道的出现提升了区块链的交易速度。为了鼓励更多节点加入支付通道网络中,组成支付通道网络的节点作为中继节点能够获得一定利益。支付通道收费策略影响支付通道的网络规模和支付通道流动性,如何能够合理的设置收费策略已经成为了一个值得深究的问题。
支付通道在开通,关闭和使用过程中都会产生费用。节点中介费用由节点自己设置,导致整个网络中很难实现最优的收费策略设置。现有的商用支付通道网络存在不同的收费策略,比如闪电网络中费用根据支付通道网络中锁定资金的时间长短来确定,经济学中常考虑与时间相关的费用。关于支付通道网络路由方面的研究也在不断进行。这些研究大都之关注支付通道的安全性,对成本问题关注较少,一些研究也忽略了通道容量与时间限制。CheaPay考虑了时效性和可行性约束的同时最小化支付通道交易费用,但是没有考虑时间费用。
发明内容
针对上述节点中介费用由节点自己设置,导致整个网络中很难实现最优的收费策略设置的技术问题,本发明提供了一种效率高、节点收益高、适用范围广的种基于LSTM-PPO的支付通道费用动态设置算法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于LSTM-PPO的支付通道费用动态设置算法,包括下列步骤:
S1、初始化环境与PPO策略网络以及LSTM神经网络参数;
S2、使用策略π在支付通道网络环境中运行N步,根据策略采取费用设置决策a,得到奖励r;
S3、获得经验{sk,mk,ak,rk}并将经验存储到经验缓存池,更新环境;
S4、LSTM神经网络根据过去状态序列生成策略πθ与值函数预测
S5、智能体依据当前策略选择动作,获得奖励rt和下一状态,计算智能体损失,评估新旧策略的差别;
S6、计算值函数损失,评估奖励差异;
S7、通过反向传播更新LSTM网络参数,最小化总损失;
S8、利用经验数据更新策略网络参数;
S9、评估策略的效果;
S10、重复执行S3到S9,直到预定训练策略或策略表现优异后停止。
所述PPO策略网络在策略梯度算法的基础上引入重要性采样概念,所述重要性采样公式为:
其中:Ex表示函数的期望值,f(x)为目标函数,p(x)和q(x)为分布函数,为重要性权重;
PPO算法对TRPO算法中的约束条件更改,将约束条件设为新旧策略的比值,PPO算法的目标函数为:
其中:是算法训练中得到的新策略,/>是原来的旧策略,A(s,a)为优势函数,cilp函数限制变化的两个策略比值范围为[1-ε,1+ε],保证了算法稳定性。
所述LSTM神经网络中的每个单元由输入门、输出门、遗忘门三部分组成,遗忘门通过sigmoid激活函数和点乘运算决定上一时刻的输出ht-1和网络单元状态Ct-1能否继续存在与当前状态信息Ct中,计算公式为:
f=o(Wf·[ht-1,xi]+bf)
其中:ht-1代表上一时刻的状态信息,Ct-1表示单元上一时刻的状态信息,Ct代表当前的状态信息;
然后根据输入门的sigmoid函数确定更新数值it,根据tanh生成信息将两个激活函数信息结合得到目前时刻的状态Ct,计算公式为:
it=o(Wi·[ht-1,xt]+bi)
ci=tanh(Wc·[ht-1,x1]+bc)
输出门同样将两个激活函数输出的信息结合,计算公式为:
ot=σ(W0·[ht-1,xt]+bo)
ht=ot·tanh(ct)
其中:tanh激活函数输出-1到1之间的数,σ代表sigmoid函数,能够输出0和1之间的数字。
所述支付通道网络由LSTM神经网络、策略网络Actor和价值网络Critic组成,所述策略网络Actor采用前馈神经网络对估计最优策略,策略定义为 其中sk为第k次节点设置费用时的子网络状态,θ为网络参数,mk为LSTM提供的时间序列数据,/>为LSTM网络参数;Critic网络同样使用前馈神经网络,对真实值函数Vπ(sk)进行逼近,表示为/>为Critic网络参数。
所述智能体依据当前策略选择动作的方法为:
将每次设置费用时的环境状态与对应的收费策略输入到LSTM模块,处理后输出记忆信息mk;将mk与网络的状态sk进行结合,输入到策略网络Actor与价值网络Critic,使智能体在设置节点得用时获得的信息更完备;网络结构方面,将mk作为中间变量连接LSTM神经网络输出层、策略网络输入层与价值网络输入层;智能体在设置费用时会考虑节点历史费用设置,实现全局的优化。
所述状态空间的构建方法为:选择用通道余额、通道转发交易量来描述支付通道,在每个时间步长t内,模拟节点v周围的随机交易,节点v连接k个支付通道,状态空间表示为:
其中:b为通道ci的余额,l为通过通道ci的总支付金额。
所述动作空间的构建方法为:动作空间设置为节点v周围信道的四个费用参数集合,分别为基本费用αi,费率βi,时间价值率γi,不平衡参数ηi;
所述奖励函数的构建方法为:
选取任意的源节点x,节点具有k个支付通道,动态设置通道基本费用、费率、时间价值率和不平衡参数,将节点的收益r表示为:
其中:Wj是锁定资金费,Dj表示不平衡费用;约束条件为:
中间节点需要足够的余额来转发交易,路径应满足容量约束,通道间的余额应大于收取的费用总和,k为节点j的时间价值率;
其中:n为从发送节点到接收节点经过的节点个数,εj为交易转移的金额数不平衡费用,由下式求得:
其中:qj为通道的容量,为通道的本地余额,χj为通过节点累积的交易金额,δj为通过节点累积的交易数量。
本发明与现有技术相比,具有的有益效果是:
本发明建立了一个基于LSTM的深度强化学习模型,其中包括基本费用,费率,时间价值率和不平衡参数,模型能够应用大部分支付通道网络。根据节点的收费特征及支付通道网络的拓扑结构,设计了状态空间和收益函数;考虑到网络中节点数量的不同,动态的针对不同规模的网络提供最优的方案;最后,通过仿真实验验证算法在闪电网络环境中的效果并与其他算法进行对比分析。本发明针对支付通道中节点费用设置问题,以最大化节点收益为目标,建立基于LSTM的深度强化学习模型,设计了网络的状态空间和奖励函数。通过仿真实验验证算法的有效性,LSTM-PPO能够在实验中收敛,证明了状态空间、动作空间以及奖励函数的可行性。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明的LSTM网络结构图;
图2为本发明的LSTM-PPO支付通道网络智能体结构图;
图3为本发明的不同网络规模获得的平均回合奖励图;
图4为本发明的智能体表现图;
图5为本发明的不同算法的平均回合奖励图;
图6为本发明的不同通道的平均回合奖励图;
图7为本发明的不同收费策略的折扣奖励图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图和实施例,对本发明的具体实施方式做进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一、强化学习框架设置
1、状态空间设计
状态空间表示智能体所获得的环境信息,是智能体后续决策的实行和评估收益的重要凭证。针对支付通道网络问题,支付通道网络的费用参数需要根据通道的余额与使用通道转发交易的交易数量来选择动作,本研究选择用通道余额、通道转发交易量来描述支付通道,在每个时间步长t内,模拟节点v周围的随机交易,节点v连接k个支付通道,状态空间可表示为:
公式中b为通道ci的余额,l为通过通道ci的总支付金额。
2、动作空间设计
动作空间设置为节点v周围信道的四个可能的费用参数集合,分别为基本费用αi,费率βi,时间价值率γi,不平衡参数ηi。
3、奖励函数设计
奖励函数在设计模型时至关重要,决定了一个深度强化学习算法能否收敛。本文问题的优化目标为实现支付通道网络节点最优的费用设置,选取任意的源节点x,节点具有k个支付通道,动态设置通道基本费用、费率、时间价值率和不平衡参数。本实施例将节点的收益r可表示为:
其中:Wj是锁定资金费,Dj表示不平衡费用;约束条件为:
中间节点需要足够的余额来转发交易,路径应满足容量约束,通道间的余额应大于收取的费用总和,k为节点j的时间价值率;
其中:n为从发送节点到接收节点经过的节点个数,εj为交易转移的金额数不平衡费用,由下式求得:
其中:qj为通道的容量,为通道的本地余额。
二、PPO算法
PPO是基于策略梯度的强化学习算法,算法使用的是Actor-Critic算法框架。PPO算法将策略进行了参数化处理,利用参数化的线性函数或神经网络来表示策略。PPO算法的前身是信任区域策略优化(trust region policy optimization,TRPO)。TRPO与PPO约束所在位置不同,能够使用梯度上升的方法优化目标函数。传统策略梯度算法在计算时会因偏差与方差的原因导致优势函数的估计存在误差。PPO算法对新旧策略的更新步长进行限制,避免策略变化导致的选择步长困难问题。并且在策略梯度算法的基础上引入重要性采样概念,重要性采样公式如下式所示:
PPO算法对TRPO算法中的约束条件更改,将约束条件设为新旧策略的比值,PPO算法的目标函数如下所示:
其中:是算法训练中得到的新策略,/>是原来的旧策略,A(s,a)为优势函数,cilp函数限制变化的两个策略比值范围为[1-ε,1+ε],保证了算法稳定性。
三、LSTM神经网络结构
LSTM神经网络在神经网络结构中加入了门控理念来处理长序列问题,网络中的每个单元由输入门、输出门、遗忘门三部分组成。t代表目前时间,xt代表目前输入,ht-1代表上一时刻的状态信息;Ct-1表示单元上一时刻的状态信息;Ct代表当前的状态信息;σ代表sigmoid函数,能够输出0和1之间的数字;tanh激活函数输出-1到1之间的数,LSTM结构如图1所示。
遗忘门通过sigmoid激活函数和点乘运算决定上一时刻的输出ht-1和网络单元状态Ct-1能否继续存在与当前状态信息Ct中,计算公式如下:
f=o(Wf·[ht-1,xi]+bf)
其中:ht-1代表上一时刻的状态信息,Ct-1表示单元上一时刻的状态信息,Ct代表当前的状态信息;
然后根据输入门的sigmoid函数确定更新数值it,根据tanh生成信息将两个激活函数信息结合得到目前时刻的状态Ct,计算公式为:
it=o(Wi·[ht-1,xt]+bi)
ci=tanh(Wc·[ht-1,x1]+bc)
输出门同样将两个激活函数输出的信息结合,计算公式为:
ot=σ(W0·[ht-1,xt]+bo)
ht=ot·tanh(ct)
其中:tanh激活函数输出-1到1之间的数,σ代表sigmoid函数,能够输出0和1之间的数字。
四、LSTM-PPO结构
支付通道网络智能体由记忆模块LSTM,策略网络Actor和价值网络Critic组成,结构图如图2所示,Actor采用前馈神经网络(Backpropagation Neural Network,BPNN)对估计最优策略,策略定义为其中sk为第k次节点设置费用时的子网络状态,θ为网络参数,mk为LSTM提供的时间序列数据,/>为LSTM网络参数。Critic网络同样使用前馈神经网络。对真实值函数Vπ(sk)进行逼近,近似表示为为Critic网络参数。
将每次设置费用时的环境状态与对应的收费策略输入到LSTM模块,处理后输出记忆信息mk。将mk与网络的状态sk进行及任何人,输入到策略网络与价值网络,使智能体在设置节点得用时获得的信息更完备。网络结构方面,将mk作为中间变量连接LSTM网络输出层、策略网络输入层与价值网络输入层。智能体在设置费用时会考虑节点历史费用设置,实现全局的优化。
强化学习智能体通过与支付通道网络环境交互能够获得大量经验数据,通过获得的数据对智能体进行更新,将环境状态和决策序列加入到LSTM网络层。LSTM网络在策略网络与值网络之前,在更新值网络和策略网络时,损失值需要传回LSTM层用来实现整体网络的优化。
五、实验准备
本实施例采用LSTM-PPO方法解决支付通道网络节点费用设置问题,基于pycharm开发环境,处理器为Intel Core(TM)i5-10500 CPU@3.10GHz,内存为16.0GiB,python版本为python3.9,深度学习框架搭建模型Pytorch。
基于gym框架搭建支付通道网络环境,使用network x开展仿真测试。Network x是一款基于python的开源软件包,用于构建复杂关系网络,对图进行分析操作。
闪电网络数据集中包含支付通道网络的主要拓扑属性,包含节点id、通道id、通道容量、通道费用策略等数据,实验使用闪电网络数据来模拟支付通道网络拓扑结构。
交易过程中发送方将会固定选择,交易接收方根据以下公式进行采样,∈是一个小于1的正数,代表以商户节点为交易终点的比率,保证采样过程中的随机性:
为了验证在真实条件下算法的效果,实验在闪电网络模拟器下进行模型训练,通过随机化节点,本地网络大小和路由算法来构建环境,使支付通道网络中节点能够学习到最优的费用设置方法。实验参数设置如表1所示:
表1实验参数表
本实施例使用Pytorch作为深度学习训练框架,在训练时将状态训练便准话处理,在训练周期结束时计算收益。
六、效果分析
1、本地网络参数敏感性分析
由于闪电网络规模较大,考虑到模拟器资源有限,本实施例中设置不同规模的本地化网络,本地网络的节点根据与中心节点的距离进行选择,实验设置了四个不同的本地网络大小用来分析网络大小对智能体训练的影响。图3描述了本地网络大小分别为100、200、300和400时,节点所获得的平均奖励。如图3所示,在设置不同网络大小后,训练的前期收益较少,再训练到达4000后,收益快速提升,500000周期后,收益情况保持稳定。网络大小为100时所得到的回合奖励明显高于其他网络大小,其他网络大小随着训练的进行,本地网络规模越大得到奖励越小。通过观察图3可以发现不同网络大小对模型的收敛速度和节点获得奖励影响不同。当网络规模越大时,节点所获得的奖励会降低。
为了进一步研究支付通道和评估训练后智能体的性能,本实验在不同的网络规模下对智能体进行训练,在智能体训练完成后再在本地大小为400的网络上对智能体效果进行评估,评估结果如图4所示,其中横轴表示训练模型使用的网络规模,纵轴代表了不同网络规模模型的折扣奖励。实验结果表明在较小网络规模训练的效果较好,网络规模为200时下降明显,其他网络规模折扣奖励也存在阶段性降低。
2、多方案对比分析
为了对算法的有效性进行验证,实验选取了传统的PPO算法和SAC(Soft Actor-Critic)算法两个算法与LSTM-PPO算法进行对比分析。通过观察图3可以发现不同网络大小对模型的收敛速度和节点获得奖励影响不同。下列实验指标基于本地网络大小为100进行。在网络大小不同的情况下进行训练,网络大小为100时,平均回合奖励最高。图4为支付通道网络中节点对比LSTM-PPO算法、传统PPO算法和SAC算法所获得平均回合奖励,可以看出,随着训练过程的增加,LSTM-PPO的平均奖励明显高于传统PPO算法和SAC算法。如图5所示,近端策略优化算法的训练效果明显好于SAC算法。对比传统PPO算法与LSTM-PPO算法,虽然开始阶段传统PPO算法能够有较好的平均回合奖励,但是随着训练过程的推进,LSTM-PPO算法效果逐渐超过传统PPO算法。
为验证在不同节点支付通道中算法的有效性,本实施例选取了的节点进行对比,选取的节点如表2所示:
表2节点选取表
不同通道的平均回合奖励图6所示,能够观察到不同的通道使用强化学习算法奖励随着总步长增加都呈现上升的趋势。因此本实施例方案对不同节点收益最大化都有着良好的效果。
在以上实验基础上,本实施例对比了静态收费方法和匹配对等节点方法。静态收费方法和匹配对等节点方法是区块链社区发展出的收费模型,实验将LSTM-PPO动态费用方法与上述两种方法进行对比,选取了三个不同节点进行分析不同的收费方法所获得的奖励:
(1)静态收费策略:使用固定基本费用和固定费率,利用数据集中提供的原始数据来进行实验。
(2)匹配对等节点收费策略:在支付通道建立活关闭时,选择与当前节点具有相似属性如信任度,可用性,地理位置的对等节点进行匹配。
节点a、节点b和节点c使用不同收费策略的回合平均奖励如图7所示。
综合实验结果,相比与两种传统方法,基于深度强化学习的费用设置方法在最大化节点收益的表现最好,静态方法和对等匹配方法节点可获得的收益较低,在有些节点收益可以忽略不计。这表明了深度强化学习方法比目前提出的其他方法更好的解决了费用设置的问题,也证明了在其他支付通道网络中的可行性。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于LSTM-PPO的支付通道费用动态设置算法,其特征在于:包括下列步骤:
S1、初始化环境与PPO策略网络以及LSTM神经网络参数;
S2、使用策略π在支付通道网络环境中运行N步,根据策略采取费用设置决策a,得到奖励r;
S3、获得经验{sk,mk,ak,rk}并将经验存储到经验缓存池,更新环境;
S4、LSTM神经网络根据过去状态序列生成策略πθ与值函数预测
S5、智能体依据当前策略选择动作,获得奖励rt和下一状态,计算智能体损失,评估新旧策略的差别;
S6、计算值函数损失,评估奖励差异;
S7、通过反向传播更新LSTM网络参数,最小化总损失;
S8、利用经验数据更新策略网络参数;
S9、评估策略的效果;
S10、重复执行S3到S9,直到预定训练策略或策略表现优异后停止。
2.根据权利要求1所述的一种基于LSTM-PPO的支付通道费用动态设置算法,其特征在于:所述PPO策略网络在策略梯度算法的基础上引入重要性采样概念,所述重要性采样公式为:
其中:Ex表示函数的期望值,f(x)为目标函数,p(x)和q(x)为分布函数,为重要性权重;
PPO算法对TRPO算法中的约束条件更改,将约束条件设为新旧策略的比值,PPO算法的目标函数为:
其中:是算法训练中得到的新策略,/>是原来的旧策略,A(s,a)为优势函数,cilp函数限制变化的两个策略比值范围为[1-ε,1+ε],保证了算法稳定性。
3.根据权利要求1所述的一种基于LSTM-PPO的支付通道费用动态设置算法,其特征在于:所述LSTM神经网络中的每个单元由输入门、输出门、遗忘门三部分组成,遗忘门通过sigmoid激活函数和点乘运算决定上一时刻的输出ht-1和网络单元状态Ct-1能否继续存在与当前状态信息Ct中,计算公式为:
f=o(Wf·[ht-1,xi]+bf)
其中:ht-1代表上一时刻的状态信息,Ct-1表示单元上一时刻的状态信息,Ct代表当前的状态信息;
然后根据输入门的sigmoid函数确定更新数值it,根据tanh生成信息将两个激活函数信息结合得到目前时刻的状态Ct,计算公式为:
it=o(Wi·[ht-1,xt]+bi)
ci=tanh(Wc·[ht-1,x1]+bc)
输出门同样将两个激活函数输出的信息结合,计算公式为:
ot=σ(W0·[ht-1,xt]+bo)
ht=ot·tanh(ct)
其中:tanh激活函数输出-1到1之间的数,σ代表sigmoid函数,能够输出0和1之间的数字。
4.根据权利要求1所述的一种基于LSTM-PPO的支付通道费用动态设置算法,其特征在于:所述支付通道网络由LSTM神经网络、策略网络Actor和价值网络Critic组成,所述策略网络Actor采用前馈神经网络对估计最优策略,策略定义为其中sk为第k次节点设置费用时的子网络状态,θ为网络参数,mk为LSTM提供的时间序列数据,为LSTM网络参数;Critic网络同样使用前馈神经网络,对真实值函数Vπ(sk)进行逼近,表示为/> 为Critic网络参数。
5.根据权利要求1所述的一种基于LSTM-PPO的支付通道费用动态设置算法,其特征在于:所述智能体依据当前策略选择动作的方法为:
将每次设置费用时的环境状态与对应的收费策略输入到LSTM模块,处理后输出记忆信息mk;将mk与网络的状态sk进行结合,输入到策略网络Actor与价值网络Critic,使智能体在设置节点得用时获得的信息更完备;网络结构方面,将mk作为中间变量连接LSTM神经网络输出层、策略网络输入层与价值网络输入层;智能体在设置费用时会考虑节点历史费用设置,实现全局的优化。
6.根据权利要求1所述的一种基于LSTM-PPO的支付通道费用动态设置算法,其特征在于:所述状态空间的构建方法为:选择用通道余额、通道转发交易量来描述支付通道,在每个时间步长t内,模拟节点v周围的随机交易,节点v连接k个支付通道,状态空间表示为:
其中:b为通道ci的余额,l为通过通道ci的总支付金额。
7.根据权利要求1所述的一种基于LSTM-PPO的支付通道费用动态设置算法,其特征在于:所述动作空间的构建方法为:动作空间设置为节点v周围信道的四个费用参数集合,分别为基本费用αi,费率βi,时间价值率γi,不平衡参数ηi;
8.根据权利要求1所述的一种基于LSTM-PPO的支付通道费用动态设置算法,其特征在于:所述奖励函数的构建方法为:
选取任意的源节点x,节点具有k个支付通道,动态设置通道基本费用、费率、时间价值率和不平衡参数,将节点的收益r表示为:
其中:Wj是锁定资金费,Dj表示不平衡费用;约束条件为:
中间节点需要足够的余额来转发交易,路径应满足容量约束,通道间的余额应大于收取的费用总和,k为节点j的时间价值率;
其中:n为从发送节点到接收节点经过的节点个数,εj为交易转移的金额数不平衡费用,由下式求得:
其中:qj为通道的容量,为通道的本地余额,χj为通过节点累积的交易金额,δj为通过节点累积的交易数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311325510.1A CN117436852A (zh) | 2023-10-12 | 2023-10-12 | 一种基于lstm-ppo的支付通道费用动态设置算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311325510.1A CN117436852A (zh) | 2023-10-12 | 2023-10-12 | 一种基于lstm-ppo的支付通道费用动态设置算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117436852A true CN117436852A (zh) | 2024-01-23 |
Family
ID=89547224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311325510.1A Pending CN117436852A (zh) | 2023-10-12 | 2023-10-12 | 一种基于lstm-ppo的支付通道费用动态设置算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117436852A (zh) |
-
2023
- 2023-10-12 CN CN202311325510.1A patent/CN117436852A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saadat et al. | Training echo state neural network using harmony search algorithm | |
Mao et al. | Towards a trust prediction framework for cloud services based on PSO-driven neural network | |
CN112668128A (zh) | 联邦学习系统中终端设备节点的选择方法及装置 | |
CN110428082B (zh) | 基于注意力神经网络的水质预测方法 | |
CN110910004A (zh) | 一种多重不确定性的水库调度规则提取方法及系统 | |
Han et al. | Network traffic prediction using variational mode decomposition and multi-reservoirs echo state network | |
Tao et al. | Variational annealing of GANs: A Langevin perspective | |
CN114118567B (zh) | 一种基于双通路融合网络的电力业务带宽预测方法 | |
CN115660147A (zh) | 一种基于传播路径间与传播路径内影响力建模的信息传播预测方法及系统 | |
CN110322342B (zh) | 借贷风险预测模型的构建方法、系统及借贷风险预测方法 | |
CN115051929A (zh) | 基于自监督目标感知神经网络的网络故障预测方法及装置 | |
Rad et al. | GP-RVM: Genetic programing-based symbolic regression using relevance vector machine | |
TWI452529B (zh) | Combined with the system equivalent model of the system and its computer program products | |
CN117436852A (zh) | 一种基于lstm-ppo的支付通道费用动态设置算法 | |
CN111415265A (zh) | 生成式对抗网络的社交关系数据生成方法 | |
Gonçalves et al. | Improved cultural immune systems to solve the economic load dispatch problems | |
El-Dahshan et al. | Artificial neural network and genetic algorithm hybrid technique for nucleus–nucleus collisions | |
CN112488248A (zh) | 一种基于卷积神经网络的代理模型的构建方法 | |
Tian et al. | Deep Reinforcement Learning Based Adaptive Environmental Selection for Evolutionary Multi-Objective Optimization | |
CN113065693B (zh) | 一种基于径向基神经网络的车流量预测方法 | |
Jin et al. | Improved Particle Swarm Optimization for Fuzzy Neural Network Traning | |
Hoang et al. | Bayes-Adaptive Deep Model-Based Policy Optimisation | |
Jiang et al. | Material Performance Prediction and Mechanical Structure Optimization Design Algorithm Based on Multi-Source Heterogeneous Data Fusion | |
Wang et al. | Simulation of Evolutionary Game Decision Model Based on Reinforcement Learning Algorithm | |
Peng | Approximation to the Optimal Strategy in the Mozart Café Problem by Simultaneous Perturbation Stochastic Approximation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |