CN110460564B - 基于随机博弈增强学习的比特币矿池攻击策略学习方法 - Google Patents
基于随机博弈增强学习的比特币矿池攻击策略学习方法 Download PDFInfo
- Publication number
- CN110460564B CN110460564B CN201910253160.XA CN201910253160A CN110460564B CN 110460564 B CN110460564 B CN 110460564B CN 201910253160 A CN201910253160 A CN 201910253160A CN 110460564 B CN110460564 B CN 110460564B
- Authority
- CN
- China
- Prior art keywords
- mine
- pool
- ore
- strategy
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1458—Denial of Service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2209/00—Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
- H04L2209/56—Financial cryptography, e.g. electronic payment or e-cash
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/50—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于随机博弈增强学习的比特币矿池攻击策略学习方法,采取最大化未来期望收益的方法,让矿池在学习过程中自适应地动态调整攻击行为,根据学习结果获取不同比特币网络环境中的近似最佳攻击策略,来最大程度削弱对手矿池,并使得本矿池收益最大化。通过分析分布式拒绝服务攻击对于比特币矿池动态发展的影响,解决比特币矿池在动态环境下自适应选择可以最大化长期收益的最佳攻击策略的问题,将比特币矿池之间的竞争攻击建模为常和随机博弈,用增强学习算法获得最佳攻击策略。
Description
技术领域
本发明属于比特币矿池博弈和增强学习领域,尤其涉及比特币矿池攻击随机博弈策略的增强学习方法。
背景技术
作为首个完全去中心化的加密货币,比特币从出现在大众视野以来,便备受瞩目。它的安全性由一群节点保护,这些节点在一种被称为区块链的数据结构上进行记账工作。区块链上记录了比特币系统中所有当前与历史交易记录。为了激励这些节点诚实正确地记账,以及维持账本的完整性,比特币采用了一种工作量证明的机制。这种机制要求节点解出密码学难题来证明他们的计算能力。只有获得正确解的节点才能够获得记账的资格,并且可以得到一定量的比特币奖励。这个收集交易,解决难题,生成新区块并记入公共帐本的过程就是挖矿,而这些节点则被称为矿工。
2018年5月份,成功解决一个谜题并生成新区块的矿工可以获得12.5个比特币的奖励,相当于约116420美元。这样丰厚的奖励吸引了大量矿工,因此整个比特币网络的算力也大大增加。为了使得区块生成时间维持稳定(约10分钟),密码学难题的难度也随着算力的增加而增大。由于一个矿工挖出区块的可能性与他的算力成正比,因此持有有限算力的单个矿工想要挖到区块赢得奖励的可能性非常小。因此,矿工们组成了矿池,将算力集中在一起,这样,等待相对较短的时间就可以挖出一个区块。而比特币奖励则根据算力比例分配给矿池中的矿工。用这种方法,单个矿工的期望收益没有发生变化,但是收益变得更加稳定。
然而,由于矿池之间的竞争日益激烈,比特币网络中出现了各种通过攻击其他矿池,来增加收益的事例。其中,分布式拒绝服务攻击时最常见的攻击之一。为了分析这种攻击对于比特币矿池的影响,研究者提出了用博弈论来建模。然而,目前已有的研究只在静态模型下进行,并且得到的博弈均衡和矿池最佳策略也都是静态的。而在现实中,比特币网络中的矿工会在各个矿池中动态流动,因此矿池的规模也会随之动态变化。这些因素对矿池算力、收益和攻击策略都会产生严重影响。并且,矿池的攻击不仅会影响该矿池当前收益,也会影响对手矿池的服务器稳定性和收益,从而也成为矿工流动的重要因素。这种流动对于矿池未来规模和收益都有着巨大的影响。
发明内容
本发明针对现有技术的不足,提供一种基于随机博弈增强学习的比特币矿池攻击算法。
本发明设计的一种基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特殊之处在于,包含以下步骤:
步骤1,输入初始网络状态,并初始化两个矿池的所有状态值;
步骤3,采取β探索方法,设置随机探索选择概率参数β,两个矿池分别以1-β的概率根据当前策略选择动作;以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作;
步骤4,根据两个矿池的动作以及当前网络状态,计算各矿池的算力在本次迭代中占整个比特币网络的比例,得出矿池在本次迭代的期望收益、对矿工的吸引力和跳槽率;
步骤5,根据动作更新网络状态;
步骤6,更新两个矿池的策略以及当前状态的状态值;
步骤7,如果t等于最大迭代数tmax或矿池的策略收敛,结束算法并输出策略对;否则t增加1,返回步骤3。
进一步地,所述步骤1的具体过程为:
输入给定最大迭代数tmax,初始随机探索概率参数β0,贴现因子γ,基本矿工流动率m,矿工跳槽率的两种取值和矿工单独挖矿概率参数ω,矿池1和矿池2的分布式拒绝攻击成本{c1,c2}以及ò-纳什均衡的近似参数ò,最后初始比特币网络的状态即矿池1与矿池2的大小在所有离散状态下的状态值及策略对
更进一步地,所述步骤3中两个矿池分别以1-β的概率根据当前策略选择动作以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作则所述步骤4具体为:根据两个矿池的动作以及当前网络状态计算得到矿池1的算力在本次迭代中占整个比特币网络的比例为矿池2的算力在本次迭代中占整个比特币网络的比例为从而得出池1和矿池2本次迭代的期望收益分别为和再分别根据矿池1和矿池2算力比例得到矿池中每个矿工的期望收益分别为和因此,矿池1和矿池2在本次迭代中对矿工的吸引力大小分别为和其中再根据两个矿池的动作得出第t次迭代中跳槽率ht的概率分布为
再进一步地,所述步骤6具体为:根据更新矿池1在状态s下的状态值V1 t+1(s);根据更新矿池2在状态s下的状态值其中δ∈[0,1)为矿池学习率,在第t次迭代中,大小为δ随着迭代次数的增加而减少,有助于算法后期的收敛。
在步骤4中,矿池1和矿池2的策略达到近似纳什均衡,两个矿池的动作都为近似占优策略。
然而在一个网络状态的二元矩阵博弈里,标准纳什均衡可能并不存在。因此,本发明采用ε-近似纳什均衡代替,以使得策略对收敛。
本发明的优点在于:利用比特币网络随机博弈建模和增强学习算法,通过迭代学习自适应近似最佳策略,采取计算近似纳什均衡的方法获得每一轮迭代的占优策略,从而使得最优策略收敛,提高了矿池的期望收益。
附图说明
图1是本发明实施例的增强学习算法的流程图。
图2是本发明实施例的比特币系统示意图。
图3是本发明实施例的近似纳什均衡收敛示意图。
具体实施方式
本发明所设计的基于随机博弈增强学习的比特币矿池攻击策略学习方法,提出一种比特币矿池随机动态博弈的模型系统以及近似纳什均衡增强学习算法。本方法充分考虑了矿池攻击,矿工流动与矿池当前和未来长期收益之间的相互影响,通过自适应迭代学习的方法来获得最佳攻击策略。通过本发明学习到的策略使得矿池期望收益增加。
本发明提供的方法能够用计算机软件技术实现流程。参见图1,实施例以矿工数为1000的比特币网络为例对本发明的流程进行一个具体的阐述,如下:
步骤1,输入给定最大迭代数tmax,初始随机探索概率参数β0,贴现因子γ,基本矿工流动率m,两种矿工跳槽率和矿工单独挖矿概率参数ω,矿池1和矿池2的分布式拒绝攻击成本{c1,c2}以及ò-纳什均衡的近似参数ò。最后初始比特币网络的状态即矿池1与矿池2的大小在所有离散状态下的状态值及策略对
图2给出了一个比特币网络的系统示意图,如图所示,该网络中矿池1和矿池2相互竞争。
具体的方案如下:
首先选定最大迭代数tmax作为终止条件之一,然后输入初始随机探索概率参数β0∈[0,1],贴现因子γ∈(0,1],基本矿工流动率m∈(0,1],矿工跳槽率的随机取值矿工单独挖矿概率参数ω,矿池1和矿池2的分布式拒绝攻击成本{c1,c2},初始比特币网络的状态即矿池1与矿池2的大小为了防止51%算力攻击,我们假设两个矿池的规模都小于网络整体算力的50%,初始网络状态中矿池大小以矿池占整个网络的比例给出,因此最后,分别初始化矿池1和矿池2在所有离散状态下的状态值及策略对矿池在各个离散状态下的状态值在初始时与该状态下的矿池大小有关,初始化所有离散状态下的状态值时,计算方法为其中S为所有离散状态集合,γ为贴现因子。初始化策略对时,将所有离散状态下的分布式拒绝服务攻击强度进行初始化。
具体的实施过程如下:
选定最大迭代数tmax为100,初始随机探索概率参数β0=0.3,贴现因子γ=0.8,基本矿工流动率m=0.4,矿工跳槽率的两个取值矿工单独挖矿概率参数ω=0.1,矿池1和矿池2的分布式拒绝攻击成本c1=c2=c=0.1,ò-纳什均衡的近似参数ε=0.001
实施例的贴现因子γ=0.8,因此各个离散状态下的初始状态值为例如,矿池1矿工数为150的状态下,即s1=0.15,初始状态值为将分布式拒绝服务攻击强度设为11级,分别为{0,0.1,0.2,…,1.0}。初始化策略对时,将两个矿池在所有离散状态下的分布式拒绝服务攻击强度都初始化为0。
具体实施过程如下:
为了使得算法初期,矿池的动作选择具有一定的随机性和探索性,采取β探索方法,设置随机探索选择概率参数β,β随着算法的迭代数t的增加逐渐递减,因此算法前期探索性较强,避免过早的局部收敛;后期矿池根据最佳策略选择动作的概率增大,有助于后期的收敛。当前迭代数为t时,探索概率β的计算方法为
本实施例中初始探索概率β0取0.3。当前迭代次数t=0,因此当前探索概率β为0.3。
具体实施过程如下:
取[0,1]区间内的随机数R。判断R是否<=0.3,是则两个矿池分别随机选择动作否则根据当前策略选择动作,即都为0。假设具体实施例中随机数R=0.2,两个矿池分别随机选择动作,随机产生的动作为{0.8,0.1},即矿池1的攻击强度为0.8,矿池2的攻击强度为0.1。
步骤4,根据两个矿池的动作以及当前网络状态计算得到矿池1的算力在本次迭代中占整个比特币网络的比例为矿池2的算力在本次迭代中占整个比特币网络的比例为从而得出池1和矿池2本次迭代的期望收益分别为和再分别根据矿池1和矿池2算力比例得到矿池中每个矿工的期望收益分别为和因此,矿池1和矿池2在本次迭代中对矿工的吸引力大小分别为和其中再根据两个矿池的动作得出第t次迭代中跳槽率ht的概率分布为
具体的实施过程如下:
新的网络状态受到矿工流动的影响,矿工流动与矿池的吸引力有关,而矿池在本次迭代中的吸引力和收益{r1(st,at),r2(st,at)}以及动作有关。矿池1和矿池2在本次迭代中的期望收益{r1(st,at),r2(st,at)}为当前网络状态以及两个矿池的动作所决定。
具体来说,矿池在当前阶段的挖矿收入由它的相对算力以及所选择的攻击强度所带来的花销决定。
矿工流动分为两个部分,一个是基本矿工流动率m,即在比特币网络中没有任何攻击时,网络动态发展所自然产生的矿工流动率,它是固定的;另一个是矿工跳槽率,即由于比特币网络中矿池之间的攻击所导致的矿工流动率h,它由矿池之间的攻击强度决定,这一轮的攻击强度越激烈,跳槽率越高。
在每一次迭代中,每一个矿工都会以与每个矿池的吸引力成正比的概率来选择下一轮要加入的矿池。
以矿池1为例,影响矿池吸引力的因素有很多,其中之一是矿池中每个矿工的期望报酬即矿池在这一轮中的总收益除以矿池1矿工数。矿工想要最大化自己收益的同时,减少收入的方差,使得收入稳定,也就是说,矿池大小也是矿池吸引力的影响因素之一。
实施例具体的实施方案如下:
为了实施例的简洁描述,我们假设基础矿工流动率m和分布式拒绝服务攻击的单位花销c分别为0.4和0.1,跳槽率h,矿池1和矿池2的吸引力均简化为常数,分别是0.3,0.2和0.3。步骤3中选择了攻击动作为根据网络状态和动作,可以计算出矿池1和矿池2本轮收益分别为则新的网络状态更新为{0.216,0.284}。
实施例具体的实施过程如下:
然而在一个网络状态的二元矩阵博弈里,标准纳什均衡可能并不存在。因此,我们用ε-近似纳什均衡代替,以使得策略对收敛。
实施例的具体实施方案如下:
寻找近似纳什均衡从而获得本次迭代的近似最佳策略对的过程,图4给出了一个简化的例子。如图列出了两个矿池分别采取不同动作时的支付矩阵。假设ò=0.01,那么在状态s下的近似最佳动作最终收敛于最后对最佳策略对在当前状态的动作选择策略进行更新。
实施例具体的实施过程如下:
实施例的具体实施方案如下:
首先计算学习率δt+1=1,V1 t(0.216)=0.216*5=1.08,V1 t(0.284)=0.284*5=1.42,根据步骤5中更新的当前最佳动作,矿池1和矿池2所得到的收益分别为0.163和0.071,可以计算得到矿池1与矿池2在当前状态s={0.2,0.3}下的状态值分别为V1 t+1(0.2,0.3)=(1-1)*1+1*(0.163+0.8*1.08)=1.04和分别进行更新即可。
步骤7,如果t等于最大迭代数tmax或矿池的策略收敛,结束算法并输出策略对;否则增值t,返回步骤3。
在具体实施例中,t=0,小于最大迭代数tmax,因此增加t至t=1,返回步骤3。
在下表中给出了简化条件下,进行五轮迭代的过程中,比特币网络的变化情况。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (5)
1.一种基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特征在于,包含以下步骤:
步骤1,输入初始网络状态,并初始化两个矿池的所有状态值;
步骤3,采取β探索方法,设置随机探索选择概率参数β,两个矿池分别以1-β的概率根据当前策略选择动作;以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作;
步骤4,根据两个矿池的动作以及当前网络状态,计算各矿池的算力在本次迭代中占整个比特币网络的比例,得出矿池在本次迭代的期望收益、对矿工的吸引力和跳槽率;
步骤5,根据动作更新网络状态;
步骤6,更新两个矿池的策略以及当前状态的状态值;
步骤7,如果t等于最大迭代数tmax或矿池的策略收敛,结束算法并输出策略对;否则t增加1,返回步骤3。
3.根据权利要求2所述的基于随机博弈增强学习的比特币矿池攻击策略学习方法,其特征在于:所述步骤3中两个矿池分别以1-β的概率根据当前策略选择动作以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作则所述步骤4具体为:根据两个矿池的动作以及当前网络状态计算得到矿池1的算力在本次迭代中占整个比特币网络的比例为矿池2的算力在本次迭代中占整个比特币网络的比例为从而得出矿池1和矿池2本次迭代的期望收益分别为和再分别根据矿池1和矿池2算力比例得到矿池中每个矿工的期望收益分别为和因此,矿池1和矿池2在本次迭代中对矿工的吸引力大小分别为和其中再根据两个矿池的动作得出第t次迭代中跳槽率ht的概率分布为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910253160.XA CN110460564B (zh) | 2019-03-29 | 2019-03-29 | 基于随机博弈增强学习的比特币矿池攻击策略学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910253160.XA CN110460564B (zh) | 2019-03-29 | 2019-03-29 | 基于随机博弈增强学习的比特币矿池攻击策略学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110460564A CN110460564A (zh) | 2019-11-15 |
CN110460564B true CN110460564B (zh) | 2020-11-03 |
Family
ID=68480732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910253160.XA Active CN110460564B (zh) | 2019-03-29 | 2019-03-29 | 基于随机博弈增强学习的比特币矿池攻击策略学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110460564B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111698265A (zh) * | 2020-06-29 | 2020-09-22 | 曲阜师范大学 | 一种智能的纯理性贿赂自私挖矿攻击算法 |
CN111988286A (zh) * | 2020-08-03 | 2020-11-24 | 浙江工商大学 | 基于演化博弈的比特币矿池DDoS攻击分析与决策方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915249A (zh) * | 2015-05-21 | 2015-09-16 | 北京比特大陆科技有限公司 | 矿池中挖虚拟数字币的方法和装置 |
US10949922B2 (en) * | 2016-06-30 | 2021-03-16 | Chicago Mercantile Exchange Inc. | Derivative contracts that settle based on transaction data |
CN107819756B (zh) * | 2017-10-31 | 2021-06-29 | 浙江师范大学 | 一种提高挖矿收益的方法 |
CN108629602B (zh) * | 2018-05-04 | 2021-09-21 | 武汉大学 | 一种基于区块链技术的食品质量安全管理系统与方法 |
-
2019
- 2019-03-29 CN CN201910253160.XA patent/CN110460564B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110460564A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lenox et al. | Interdependency, competition, and industry dynamics | |
CN107483486B (zh) | 基于随机演化博弈模型的网络防御策略选取方法 | |
US20190303960A1 (en) | System and method for cryptocurrency generation and distribution | |
CN111282267B (zh) | 信息处理方法、装置、介质及电子设备 | |
CN110084424A (zh) | 一种基于lstm与lgbm的电力负荷预测方法 | |
CN110460564B (zh) | 基于随机博弈增强学习的比特币矿池攻击策略学习方法 | |
Gans et al. | More (or less) economic limits of the blockchain | |
CN113688977A (zh) | 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质 | |
CN113724096B (zh) | 一种基于公共品演化博弈模型的群体知识共享方法 | |
Hao et al. | Efficient and robust emergence of norms through heuristic collective learning | |
CN112221149B (zh) | 一种基于深度强化学习的炮兵连智能作战演练系统 | |
Shi et al. | Fee-free pooled mining for countering pool-hopping attack in blockchain | |
Köstler et al. | A multi-objective genetic algorithm for build order optimization in StarCraft II | |
Das et al. | Dynamic goals-based wealth management using reinforcement learning | |
Dhakal et al. | Evolution of cooperation and trust in an N-player social dilemma game with tags for migration decisions | |
CN113379536A (zh) | 一种基于引力搜索算法优化递归神经网络的违约概率预测方法 | |
CN116708042A (zh) | 一种用于网络防御博弈决策的策略空间探索方法 | |
Zhang et al. | Negotiation game model for big data transactions | |
Martin | Surveying Social Entrepreneurship | |
Perret et al. | Modelling the role of environmental circumscription in the evolution of inequality | |
CN110135626A (zh) | 信贷管理方法及装置、电子设备、存储介质 | |
CN111030764A (zh) | 一种基于随机博弈在线学习的众包用户信息年龄管理算法 | |
Maharana et al. | A new approach to economic load dispatch by using improved QEMA based particle swarm optimization considering generator constraints | |
Leva et al. | Control-oriented modelling of proof-of-work blockchains | |
CN117217330A (zh) | Ai模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |