CN110460564B - 基于随机博弈增强学习的比特币矿池攻击策略学习方法 - Google Patents

基于随机博弈增强学习的比特币矿池攻击策略学习方法 Download PDF

Info

Publication number
CN110460564B
CN110460564B CN201910253160.XA CN201910253160A CN110460564B CN 110460564 B CN110460564 B CN 110460564B CN 201910253160 A CN201910253160 A CN 201910253160A CN 110460564 B CN110460564 B CN 110460564B
Authority
CN
China
Prior art keywords
mine
pool
ore
strategy
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910253160.XA
Other languages
English (en)
Other versions
CN110460564A (zh
Inventor
王骞
陈艳姣
吴双可
胡胜山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910253160.XA priority Critical patent/CN110460564B/zh
Publication of CN110460564A publication Critical patent/CN110460564A/zh
Application granted granted Critical
Publication of CN110460564B publication Critical patent/CN110460564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1458Denial of Service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/56Financial cryptography, e.g. electronic payment or e-cash
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/50Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于随机博弈增强学习的比特币矿池攻击策略学习方法,采取最大化未来期望收益的方法,让矿池在学习过程中自适应地动态调整攻击行为,根据学习结果获取不同比特币网络环境中的近似最佳攻击策略,来最大程度削弱对手矿池,并使得本矿池收益最大化。通过分析分布式拒绝服务攻击对于比特币矿池动态发展的影响,解决比特币矿池在动态环境下自适应选择可以最大化长期收益的最佳攻击策略的问题,将比特币矿池之间的竞争攻击建模为常和随机博弈,用增强学习算法获得最佳攻击策略。

Description

基于随机博弈增强学习的比特币矿池攻击策略学习方法
技术领域
本发明属于比特币矿池博弈和增强学习领域,尤其涉及比特币矿池攻击随机博弈策略的增强学习方法。
背景技术
作为首个完全去中心化的加密货币,比特币从出现在大众视野以来,便备受瞩目。它的安全性由一群节点保护,这些节点在一种被称为区块链的数据结构上进行记账工作。区块链上记录了比特币系统中所有当前与历史交易记录。为了激励这些节点诚实正确地记账,以及维持账本的完整性,比特币采用了一种工作量证明的机制。这种机制要求节点解出密码学难题来证明他们的计算能力。只有获得正确解的节点才能够获得记账的资格,并且可以得到一定量的比特币奖励。这个收集交易,解决难题,生成新区块并记入公共帐本的过程就是挖矿,而这些节点则被称为矿工。
2018年5月份,成功解决一个谜题并生成新区块的矿工可以获得12.5个比特币的奖励,相当于约116420美元。这样丰厚的奖励吸引了大量矿工,因此整个比特币网络的算力也大大增加。为了使得区块生成时间维持稳定(约10分钟),密码学难题的难度也随着算力的增加而增大。由于一个矿工挖出区块的可能性与他的算力成正比,因此持有有限算力的单个矿工想要挖到区块赢得奖励的可能性非常小。因此,矿工们组成了矿池,将算力集中在一起,这样,等待相对较短的时间就可以挖出一个区块。而比特币奖励则根据算力比例分配给矿池中的矿工。用这种方法,单个矿工的期望收益没有发生变化,但是收益变得更加稳定。
然而,由于矿池之间的竞争日益激烈,比特币网络中出现了各种通过攻击其他矿池,来增加收益的事例。其中,分布式拒绝服务攻击时最常见的攻击之一。为了分析这种攻击对于比特币矿池的影响,研究者提出了用博弈论来建模。然而,目前已有的研究只在静态模型下进行,并且得到的博弈均衡和矿池最佳策略也都是静态的。而在现实中,比特币网络中的矿工会在各个矿池中动态流动,因此矿池的规模也会随之动态变化。这些因素对矿池算力、收益和攻击策略都会产生严重影响。并且,矿池的攻击不仅会影响该矿池当前收益,也会影响对手矿池的服务器稳定性和收益,从而也成为矿工流动的重要因素。这种流动对于矿池未来规模和收益都有着巨大的影响。
发明内容
本发明针对现有技术的不足,提供一种基于随机博弈增强学习的比特币矿池攻击算法。
本发明设计的一种基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特殊之处在于,包含以下步骤:
步骤1,输入初始网络状态,并初始化两个矿池的所有状态值;
步骤2,当t=0,计算随机探索概率参数
Figure GDA0002669452880000021
其中,β0为初始随机探索概率参数,t为迭代次数;
步骤3,采取β探索方法,设置随机探索选择概率参数β,两个矿池分别以1-β的概率根据当前策略选择动作;以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作;
步骤4,根据两个矿池的动作以及当前网络状态,计算各矿池的算力在本次迭代中占整个比特币网络的比例,得出矿池在本次迭代的期望收益、对矿工的吸引力和跳槽率;
步骤5,根据动作更新网络状态;
步骤6,更新两个矿池的策略以及当前状态的状态值;
步骤7,如果t等于最大迭代数tmax或矿池的策略收敛,结束算法并输出策略对;否则t增加1,返回步骤3。
进一步地,所述步骤1的具体过程为:
输入给定最大迭代数tmax,初始随机探索概率参数β0,贴现因子γ,基本矿工流动率m,矿工跳槽率的两种取值
Figure GDA0002669452880000022
Figure GDA0002669452880000023
矿工单独挖矿概率参数ω,矿池1和矿池2的分布式拒绝攻击成本{c1,c2}以及ò-纳什均衡的近似参数ò,最后初始比特币网络的状态即矿池1与矿池2的大小
Figure GDA0002669452880000024
在所有离散状态下的状态值
Figure GDA0002669452880000025
及策略对
Figure GDA0002669452880000026
更进一步地,所述步骤3中两个矿池分别以1-β的概率根据当前策略
Figure GDA0002669452880000027
选择动作
Figure GDA0002669452880000028
以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作
Figure GDA0002669452880000029
则所述步骤4具体为:根据两个矿池的动作
Figure GDA00026694528800000210
以及当前网络状态
Figure GDA00026694528800000211
计算得到矿池1的算力在本次迭代中占整个比特币网络的比例为
Figure GDA0002669452880000031
矿池2的算力在本次迭代中占整个比特币网络的比例为
Figure GDA0002669452880000032
从而得出池1和矿池2本次迭代的期望收益分别为
Figure GDA0002669452880000033
Figure GDA0002669452880000034
再分别根据矿池1和矿池2算力比例得到矿池中每个矿工的期望收益分别为
Figure GDA0002669452880000035
Figure GDA0002669452880000036
因此,矿池1和矿池2在本次迭代中对矿工的吸引力大小分别为
Figure GDA0002669452880000037
Figure GDA0002669452880000038
其中
Figure GDA0002669452880000039
再根据两个矿池的动作
Figure GDA00026694528800000310
得出第t次迭代中跳槽率ht的概率分布为
Figure GDA00026694528800000311
最后,得到矿池1和矿池2在t轮迭代后矿池大小分别更新为
Figure GDA00026694528800000312
Figure GDA00026694528800000313
因此t+1轮迭代中的网络状态
Figure GDA00026694528800000314
的转移概率为
Figure GDA00026694528800000315
其中:
Figure GDA00026694528800000316
Figure GDA00026694528800000317
再进一步地,所述步骤5具体为:根据
Figure GDA00026694528800000318
更新矿池1的最佳策略
Figure GDA0002669452880000041
根据
Figure GDA0002669452880000042
更新矿池2的最佳策略
Figure GDA0002669452880000043
再进一步地,所述步骤6具体为:根据
Figure GDA0002669452880000044
更新矿池1在状态s下的状态值V1 t+1(s);根据
Figure GDA0002669452880000045
更新矿池2在状态s下的状态值
Figure GDA0002669452880000046
其中δ∈[0,1)为矿池学习率,在第t次迭代中,大小为
Figure GDA0002669452880000047
δ随着迭代次数的增加而减少,有助于算法后期的收敛。
在步骤4中,矿池1和矿池2的策略达到近似纳什均衡,两个矿池的动作都为近似占优策略。
假设矿池1和矿池2的最佳策略
Figure GDA0002669452880000048
Figure GDA0002669452880000049
分别最大化它们各自的效益,即最佳策略对。随机博弈中的最佳策略对使得每一轮中的常和博弈达到纳什均衡。
然而在一个网络状态的二元矩阵博弈里,标准纳什均衡可能并不存在。因此,本发明采用ε-近似纳什均衡代替,以使得策略对收敛。
Figure GDA00026694528800000410
表示近似最佳策略对,对于任意网络状态s∈S,都有
Figure GDA00026694528800000411
Figure GDA00026694528800000412
其中
Figure GDA00026694528800000413
Figure GDA00026694528800000414
因此,矿池1在状态s下的状态值的计算可以写为
Figure GDA00026694528800000415
两个矿池的近似最佳策略对
Figure GDA00026694528800000416
计算方式为
Figure GDA00026694528800000417
本发明的优点在于:利用比特币网络随机博弈建模和增强学习算法,通过迭代学习自适应近似最佳策略,采取计算近似纳什均衡的方法获得每一轮迭代的占优策略,从而使得最优策略收敛,提高了矿池的期望收益。
附图说明
图1是本发明实施例的增强学习算法的流程图。
图2是本发明实施例的比特币系统示意图。
图3是本发明实施例的近似纳什均衡收敛示意图。
具体实施方式
本发明所设计的基于随机博弈增强学习的比特币矿池攻击策略学习方法,提出一种比特币矿池随机动态博弈的模型系统以及近似纳什均衡增强学习算法。本方法充分考虑了矿池攻击,矿工流动与矿池当前和未来长期收益之间的相互影响,通过自适应迭代学习的方法来获得最佳攻击策略。通过本发明学习到的策略使得矿池期望收益增加。
本发明提供的方法能够用计算机软件技术实现流程。参见图1,实施例以矿工数为1000的比特币网络为例对本发明的流程进行一个具体的阐述,如下:
步骤1,输入给定最大迭代数tmax,初始随机探索概率参数β0,贴现因子γ,基本矿工流动率m,两种矿工跳槽率
Figure GDA0002669452880000051
Figure GDA0002669452880000052
矿工单独挖矿概率参数ω,矿池1和矿池2的分布式拒绝攻击成本{c1,c2}以及ò-纳什均衡的近似参数ò。最后初始比特币网络的状态即矿池1与矿池2的大小
Figure GDA0002669452880000053
在所有离散状态下的状态值
Figure GDA0002669452880000054
及策略对
Figure GDA0002669452880000055
图2给出了一个比特币网络的系统示意图,如图所示,该网络中矿池1和矿池2相互竞争。
具体的方案如下:
首先选定最大迭代数tmax作为终止条件之一,然后输入初始随机探索概率参数β0∈[0,1],贴现因子γ∈(0,1],基本矿工流动率m∈(0,1],矿工跳槽率的随机取值
Figure GDA0002669452880000056
矿工单独挖矿概率参数ω,矿池1和矿池2的分布式拒绝攻击成本{c1,c2},初始比特币网络的状态即矿池1与矿池2的大小
Figure GDA0002669452880000057
为了防止51%算力攻击,我们假设两个矿池的规模都小于网络整体算力的50%,初始网络状态中矿池大小以矿池占整个网络的比例给出,因此
Figure GDA0002669452880000058
最后,分别初始化矿池1和矿池2在所有离散状态下的状态值
Figure GDA0002669452880000059
及策略对
Figure GDA00026694528800000510
矿池在各个离散状态下的状态值在初始时与该状态下的矿池大小有关,初始化所有离散状态下的状态值时,计算方法为
Figure GDA00026694528800000511
其中S为所有离散状态集合,γ为贴现因子。初始化策略对
Figure GDA00026694528800000512
时,将所有离散状态下的分布式拒绝服务攻击强度进行初始化。
具体的实施过程如下:
选定最大迭代数tmax为100,初始随机探索概率参数β0=0.3,贴现因子γ=0.8,基本矿工流动率m=0.4,矿工跳槽率的两个取值
Figure GDA0002669452880000061
矿工单独挖矿概率参数ω=0.1,矿池1和矿池2的分布式拒绝攻击成本c1=c2=c=0.1,ò-纳什均衡的近似参数ε=0.001
假设矿池1和矿池2中的初始矿工数为200和300,初始网络状态中矿池大小以矿池占整个网络的比例给出,即
Figure GDA0002669452880000062
实施例的贴现因子γ=0.8,因此各个离散状态下的初始状态值为
Figure GDA0002669452880000063
例如,矿池1矿工数为150的状态下,即s1=0.15,初始状态值为
Figure GDA0002669452880000064
将分布式拒绝服务攻击强度设为11级,分别为{0,0.1,0.2,…,1.0}。初始化策略对时,将两个矿池在所有离散状态下的分布式拒绝服务攻击强度都初始化为0。
步骤2,当前迭代数t=0,计算随机探索概率参数
Figure GDA0002669452880000065
具体实施过程如下:
为了使得算法初期,矿池的动作选择具有一定的随机性和探索性,采取β探索方法,设置随机探索选择概率参数β,β随着算法的迭代数t的增加逐渐递减,因此算法前期探索性较强,避免过早的局部收敛;后期矿池根据最佳策略选择动作的概率增大,有助于后期的收敛。当前迭代数为t时,探索概率β的计算方法为
Figure GDA0002669452880000066
本实施例中初始探索概率β0取0.3。当前迭代次数t=0,因此当前探索概率β为0.3。
步骤3,两个矿池分别以1-β的概率根据当前策略
Figure GDA0002669452880000067
选择动作
Figure GDA0002669452880000068
即分布式拒绝服务攻击的攻击强度;以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作
Figure GDA0002669452880000069
具体实施过程如下:
取[0,1]区间内的随机数R。判断R是否<=β,是则两个矿池分别随机选择动作
Figure GDA00026694528800000610
否则根据当前策略
Figure GDA00026694528800000611
选择动作。
取[0,1]区间内的随机数R。判断R是否<=0.3,是则两个矿池分别随机选择动作
Figure GDA00026694528800000612
否则根据当前策略
Figure GDA0002669452880000071
选择动作,即都为0。假设具体实施例中随机数R=0.2,两个矿池分别随机选择动作,随机产生的动作为{0.8,0.1},即矿池1的攻击强度为0.8,矿池2的攻击强度为0.1。
步骤4,根据两个矿池的动作
Figure GDA0002669452880000072
以及当前网络状态
Figure GDA0002669452880000073
计算得到矿池1的算力在本次迭代中占整个比特币网络的比例为
Figure GDA0002669452880000074
矿池2的算力在本次迭代中占整个比特币网络的比例为
Figure GDA0002669452880000075
从而得出池1和矿池2本次迭代的期望收益分别为
Figure GDA0002669452880000076
Figure GDA0002669452880000077
再分别根据矿池1和矿池2算力比例得到矿池中每个矿工的期望收益分别为
Figure GDA0002669452880000078
Figure GDA0002669452880000079
因此,矿池1和矿池2在本次迭代中对矿工的吸引力大小分别为
Figure GDA00026694528800000710
Figure GDA00026694528800000711
其中
Figure GDA00026694528800000712
再根据两个矿池的动作
Figure GDA00026694528800000713
得出第t次迭代中跳槽率ht的概率分布为
Figure GDA00026694528800000714
最后,得到矿池1和矿池2在t轮迭代后矿池大小分别更新为
Figure GDA00026694528800000715
Figure GDA00026694528800000716
因此t+1轮迭代中的网络状态
Figure GDA00026694528800000717
的转移概率为
Figure GDA00026694528800000718
其中:
Figure GDA00026694528800000719
Figure GDA0002669452880000081
具体的实施过程如下:
新的网络状态受到矿工流动的影响,矿工流动与矿池的吸引力有关,而矿池在本次迭代中的吸引力和收益{r1(st,at),r2(st,at)}以及动作
Figure GDA0002669452880000082
有关。矿池1和矿池2在本次迭代中的期望收益{r1(st,at),r2(st,at)}为当前网络状态以及两个矿池的动作所决定。
具体来说,矿池在当前阶段的挖矿收入由它的相对算力以及所选择的攻击强度所带来的花销决定。
以矿池1为例,计算出它的算力在本次迭代中占整个比特币网络的比例为
Figure GDA0002669452880000083
其中
Figure GDA0002669452880000084
为矿池1受到矿池2的强度为
Figure GDA0002669452880000085
攻击所剩余的绝对算力,而
Figure GDA0002669452880000086
为两个矿池的攻击导致比特币网络剩余的总算力。
假设每个阶段的区块奖励为1个单位的比特币,且每单位拒绝服务攻击的花销为c,则矿池1的期望收益为
Figure GDA0002669452880000087
同理,矿池2的期望收益为
Figure GDA0002669452880000088
矿工流动分为两个部分,一个是基本矿工流动率m,即在比特币网络中没有任何攻击时,网络动态发展所自然产生的矿工流动率,它是固定的;另一个是矿工跳槽率,即由于比特币网络中矿池之间的攻击所导致的矿工流动率h,它由矿池之间的攻击强度决定,这一轮的攻击强度越激烈,跳槽率越高。
假设跳槽率h为一个二元随机值,它有两个可能的取值,
Figure GDA0002669452880000089
Figure GDA00026694528800000810
分别为攻击激烈与攻击缓和的网络环境所导致的跳槽率。
在第t次迭代中的跳槽率ht的概率分布为
Figure GDA00026694528800000811
在每一次迭代中,每一个矿工都会以与每个矿池的吸引力成正比的概率来选择下一轮要加入的矿池。
以矿池1为例,影响矿池吸引力的因素有很多,其中之一是矿池中每个矿工的期望报酬
Figure GDA0002669452880000091
即矿池在这一轮中的总收益除以矿池1矿工数。矿工想要最大化自己收益的同时,减少收入的方差,使得收入稳定,也就是说,矿池大小也是矿池吸引力的影响因素之一。
因此,矿池1在第t次迭代中的吸引力为
Figure GDA0002669452880000092
分母
Figure GDA0002669452880000093
用于吸引力的标准化。
综上所述,矿池1和矿池2在第t轮迭代后的大小分别变为
Figure GDA0002669452880000094
Figure GDA0002669452880000095
由于ht的随机性,网络状态的概率分布为
Figure GDA0002669452880000096
其中:
Figure GDA0002669452880000097
Figure GDA0002669452880000098
实施例具体的实施方案如下:
为了实施例的简洁描述,我们假设基础矿工流动率m和分布式拒绝服务攻击的单位花销c分别为0.4和0.1,跳槽率h,矿池1和矿池2的吸引力均简化为常数,分别是0.3,0.2和0.3。步骤3中选择了攻击动作为
Figure GDA0002669452880000099
根据网络状态和动作,可以计算出矿池1和矿池2本轮收益分别为
Figure GDA00026694528800000910
则新的网络状态更新为{0.216,0.284}。
步骤5,根据
Figure GDA00026694528800000911
更新矿池1的最佳策略
Figure GDA00026694528800000912
根据
Figure GDA00026694528800000913
更新矿池2的最佳策略
Figure GDA00026694528800000914
实施例具体的实施过程如下:
随机博弈中,矿池的策略为在状态空间S中每个离散状态下采取的行动组合。假设矿池1和矿池2的最佳策略
Figure GDA00026694528800000915
Figure GDA00026694528800000916
分别最大化它们各自的效益,即最佳策略对。随机博弈中的最佳策略对使得每一轮中的常和博弈达到纳什均衡。
然而在一个网络状态的二元矩阵博弈里,标准纳什均衡可能并不存在。因此,我们用ε-近似纳什均衡代替,以使得策略对收敛。
用π=(π12)表示近似最佳策略对,对于任意网络状态s∈S,都有
Figure GDA0002669452880000101
其中
Figure GDA0002669452880000102
Figure GDA0002669452880000103
andò>0。因此,矿池1在状态s下的状态值的计算可以写为
Figure GDA0002669452880000104
两个矿池的近似最佳策略对
Figure GDA0002669452880000105
计算方式分别为
Figure GDA0002669452880000106
Figure GDA0002669452880000107
实施例的具体实施方案如下:
寻找近似纳什均衡从而获得本次迭代的近似最佳策略对的过程,图4给出了一个简化的例子。如图列出了两个矿池分别采取不同动作时的支付矩阵。假设ò=0.01,那么在状态s下的近似最佳动作最终收敛于
Figure GDA0002669452880000108
最后对最佳策略对
Figure GDA0002669452880000109
在当前状态
Figure GDA00026694528800001010
的动作选择策略进行更新。
步骤6,根据
Figure GDA00026694528800001011
更新矿池1在状态s下的状态值V1 t+1(s);根据
Figure GDA00026694528800001012
更新矿池2在状态s下的状态值
Figure GDA00026694528800001013
其中δ∈[0,1)为矿池学习率,在第t次迭代中,大小为
Figure GDA00026694528800001014
δ随着迭代次数的增加而减少,有助于算法后期的收敛。
实施例具体的实施过程如下:
状态值为不同状态下的效益。假设矿池1初始状态表示为s0,则矿池1在状态s∈S下的状态值为
Figure GDA00026694528800001015
Figure GDA00026694528800001016
Figure GDA00026694528800001017
分别代表在状态s下根据策略π选择的动作,那么状态值可以改写为
Figure GDA00026694528800001018
根据Q-学习我们可以得到矿池1状态更新方法为
Figure GDA00026694528800001019
Figure GDA00026694528800001020
其中计算学习率
Figure GDA00026694528800001021
Figure GDA0002669452880000111
实施例的具体实施方案如下:
首先计算学习率δt+1=1,V1 t(0.216)=0.216*5=1.08,V1 t(0.284)=0.284*5=1.42,根据步骤5中更新的当前最佳动作,矿池1和矿池2所得到的收益分别为0.163和0.071,可以计算得到矿池1与矿池2在当前状态s={0.2,0.3}下的状态值分别为V1 t+1(0.2,0.3)=(1-1)*1+1*(0.163+0.8*1.08)=1.04和
Figure GDA0002669452880000112
分别进行更新即可。
步骤7,如果t等于最大迭代数tmax或矿池的策略收敛,结束算法并输出策略对;否则增值t,返回步骤3。
在具体实施例中,t=0,小于最大迭代数tmax,因此增加t至t=1,返回步骤3。
在下表中给出了简化条件下,进行五轮迭代的过程中,比特币网络的变化情况。
Figure GDA0002669452880000113
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (5)

1.一种基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特征在于,包含以下步骤:
步骤1,输入初始网络状态,并初始化两个矿池的所有状态值;
步骤2,当t=0,计算随机探索概率参数
Figure FDA0002669452870000011
其中,β0为初始随机探索概率参数,t为迭代次数;
步骤3,采取β探索方法,设置随机探索选择概率参数β,两个矿池分别以1-β的概率根据当前策略选择动作;以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作;
步骤4,根据两个矿池的动作以及当前网络状态,计算各矿池的算力在本次迭代中占整个比特币网络的比例,得出矿池在本次迭代的期望收益、对矿工的吸引力和跳槽率;
步骤5,根据动作更新网络状态;
步骤6,更新两个矿池的策略以及当前状态的状态值;
步骤7,如果t等于最大迭代数tmax或矿池的策略收敛,结束算法并输出策略对;否则t增加1,返回步骤3。
2.根据权利要求1所述的基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特征在于:所述步骤1的具体过程为:
输入给定最大迭代数tmax,初始随机探索概率参数β0,贴现因子γ,基本矿工流动率m,矿工跳槽率的两种取值
Figure FDA0002669452870000012
Figure FDA0002669452870000013
矿工单独挖矿概率参数ω,矿池1和矿池2的分布式拒绝攻击成本{c1,c2}以及ò-纳什均衡的近似参数ò,最后初始比特币网络的状态即矿池1与矿池2的大小
Figure FDA0002669452870000014
在所有离散状态下的状态值
Figure FDA0002669452870000015
及策略对
Figure FDA0002669452870000016
3.根据权利要求2所述的基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特征在于:所述步骤3中两个矿池分别以1-β的概率根据当前策略
Figure FDA0002669452870000017
选择动作
Figure FDA0002669452870000018
以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作
Figure FDA0002669452870000019
则所述步骤4具体为:根据两个矿池的动作
Figure FDA00026694528700000110
以及当前网络状态
Figure FDA00026694528700000111
计算得到矿池1的算力在本次迭代中占整个比特币网络的比例为
Figure FDA0002669452870000021
矿池2的算力在本次迭代中占整个比特币网络的比例为
Figure FDA0002669452870000022
从而得出矿池1和矿池2本次迭代的期望收益分别为
Figure FDA0002669452870000023
Figure FDA0002669452870000024
再分别根据矿池1和矿池2算力比例得到矿池中每个矿工的期望收益分别为
Figure FDA0002669452870000025
Figure FDA0002669452870000026
因此,矿池1和矿池2在本次迭代中对矿工的吸引力大小分别为
Figure FDA0002669452870000027
Figure FDA0002669452870000028
其中
Figure FDA0002669452870000029
再根据两个矿池的动作
Figure FDA00026694528700000210
得出第t次迭代中跳槽率ht的概率分布为
Figure FDA00026694528700000211
最后,得到矿池1和矿池2在t轮迭代后矿池大小分别更新为
Figure FDA00026694528700000212
Figure FDA00026694528700000213
因此t+1轮迭代中的网络状态
Figure FDA00026694528700000214
的转移概率为
Figure FDA00026694528700000215
其中:
Figure FDA00026694528700000216
Figure FDA00026694528700000217
4.根据权利要求3所述的基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特征在于:所述步骤5具体为:根据
Figure FDA00026694528700000218
更新矿池1的最佳策略
Figure FDA0002669452870000031
根据
Figure FDA0002669452870000032
更新矿池2的最佳策略
Figure FDA0002669452870000033
5.根据权利要求4所述的基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特征在于:所述步骤6具体为:根据
Figure FDA0002669452870000034
更新矿池1在状态s下的状态值V1 t+1(s);根据
Figure FDA0002669452870000035
更新矿池2在状态s下的状态值
Figure FDA0002669452870000036
其中δ∈[0,1)为矿池学习率,在第t次迭代中,大小为
Figure FDA0002669452870000037
δ随着迭代次数的增加而减少,有助于算法后期的收敛。
CN201910253160.XA 2019-03-29 2019-03-29 基于随机博弈增强学习的比特币矿池攻击策略学习方法 Active CN110460564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910253160.XA CN110460564B (zh) 2019-03-29 2019-03-29 基于随机博弈增强学习的比特币矿池攻击策略学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910253160.XA CN110460564B (zh) 2019-03-29 2019-03-29 基于随机博弈增强学习的比特币矿池攻击策略学习方法

Publications (2)

Publication Number Publication Date
CN110460564A CN110460564A (zh) 2019-11-15
CN110460564B true CN110460564B (zh) 2020-11-03

Family

ID=68480732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910253160.XA Active CN110460564B (zh) 2019-03-29 2019-03-29 基于随机博弈增强学习的比特币矿池攻击策略学习方法

Country Status (1)

Country Link
CN (1) CN110460564B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111698265A (zh) * 2020-06-29 2020-09-22 曲阜师范大学 一种智能的纯理性贿赂自私挖矿攻击算法
CN111988286A (zh) * 2020-08-03 2020-11-24 浙江工商大学 基于演化博弈的比特币矿池DDoS攻击分析与决策方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915249A (zh) * 2015-05-21 2015-09-16 北京比特大陆科技有限公司 矿池中挖虚拟数字币的方法和装置
US10949922B2 (en) * 2016-06-30 2021-03-16 Chicago Mercantile Exchange Inc. Derivative contracts that settle based on transaction data
CN107819756B (zh) * 2017-10-31 2021-06-29 浙江师范大学 一种提高挖矿收益的方法
CN108629602B (zh) * 2018-05-04 2021-09-21 武汉大学 一种基于区块链技术的食品质量安全管理系统与方法

Also Published As

Publication number Publication date
CN110460564A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
Lenox et al. Interdependency, competition, and industry dynamics
CN107483486B (zh) 基于随机演化博弈模型的网络防御策略选取方法
US20190303960A1 (en) System and method for cryptocurrency generation and distribution
CN111282267B (zh) 信息处理方法、装置、介质及电子设备
CN110084424A (zh) 一种基于lstm与lgbm的电力负荷预测方法
CN110460564B (zh) 基于随机博弈增强学习的比特币矿池攻击策略学习方法
Gans et al. More (or less) economic limits of the blockchain
CN113688977A (zh) 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN113724096B (zh) 一种基于公共品演化博弈模型的群体知识共享方法
Hao et al. Efficient and robust emergence of norms through heuristic collective learning
CN112221149B (zh) 一种基于深度强化学习的炮兵连智能作战演练系统
Shi et al. Fee-free pooled mining for countering pool-hopping attack in blockchain
Köstler et al. A multi-objective genetic algorithm for build order optimization in StarCraft II
Das et al. Dynamic goals-based wealth management using reinforcement learning
Dhakal et al. Evolution of cooperation and trust in an N-player social dilemma game with tags for migration decisions
CN113379536A (zh) 一种基于引力搜索算法优化递归神经网络的违约概率预测方法
CN116708042A (zh) 一种用于网络防御博弈决策的策略空间探索方法
Zhang et al. Negotiation game model for big data transactions
Martin Surveying Social Entrepreneurship
Perret et al. Modelling the role of environmental circumscription in the evolution of inequality
CN110135626A (zh) 信贷管理方法及装置、电子设备、存储介质
CN111030764A (zh) 一种基于随机博弈在线学习的众包用户信息年龄管理算法
Maharana et al. A new approach to economic load dispatch by using improved QEMA based particle swarm optimization considering generator constraints
Leva et al. Control-oriented modelling of proof-of-work blockchains
CN117217330A (zh) Ai模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant