CN110460564B

CN110460564B - 基于随机博弈增强学习的比特币矿池攻击策略学习方法

Info

Publication number: CN110460564B
Application number: CN201910253160.XA
Authority: CN
Inventors: 王骞; 陈艳姣; 吴双可; 胡胜山
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2020-11-03
Anticipated expiration: 2039-03-29
Also published as: CN110460564A

Abstract

本发明公开了一种基于随机博弈增强学习的比特币矿池攻击策略学习方法，采取最大化未来期望收益的方法，让矿池在学习过程中自适应地动态调整攻击行为，根据学习结果获取不同比特币网络环境中的近似最佳攻击策略，来最大程度削弱对手矿池，并使得本矿池收益最大化。通过分析分布式拒绝服务攻击对于比特币矿池动态发展的影响，解决比特币矿池在动态环境下自适应选择可以最大化长期收益的最佳攻击策略的问题，将比特币矿池之间的竞争攻击建模为常和随机博弈，用增强学习算法获得最佳攻击策略。

Description

基于随机博弈增强学习的比特币矿池攻击策略学习方法

技术领域

本发明属于比特币矿池博弈和增强学习领域，尤其涉及比特币矿池攻击随机博弈策略的增强学习方法。

背景技术

作为首个完全去中心化的加密货币，比特币从出现在大众视野以来，便备受瞩目。它的安全性由一群节点保护，这些节点在一种被称为区块链的数据结构上进行记账工作。区块链上记录了比特币系统中所有当前与历史交易记录。为了激励这些节点诚实正确地记账，以及维持账本的完整性，比特币采用了一种工作量证明的机制。这种机制要求节点解出密码学难题来证明他们的计算能力。只有获得正确解的节点才能够获得记账的资格，并且可以得到一定量的比特币奖励。这个收集交易，解决难题，生成新区块并记入公共帐本的过程就是挖矿，而这些节点则被称为矿工。

2018年5月份，成功解决一个谜题并生成新区块的矿工可以获得12.5个比特币的奖励，相当于约116420美元。这样丰厚的奖励吸引了大量矿工，因此整个比特币网络的算力也大大增加。为了使得区块生成时间维持稳定(约10分钟)，密码学难题的难度也随着算力的增加而增大。由于一个矿工挖出区块的可能性与他的算力成正比，因此持有有限算力的单个矿工想要挖到区块赢得奖励的可能性非常小。因此，矿工们组成了矿池，将算力集中在一起，这样，等待相对较短的时间就可以挖出一个区块。而比特币奖励则根据算力比例分配给矿池中的矿工。用这种方法，单个矿工的期望收益没有发生变化，但是收益变得更加稳定。

然而，由于矿池之间的竞争日益激烈，比特币网络中出现了各种通过攻击其他矿池，来增加收益的事例。其中，分布式拒绝服务攻击时最常见的攻击之一。为了分析这种攻击对于比特币矿池的影响，研究者提出了用博弈论来建模。然而，目前已有的研究只在静态模型下进行，并且得到的博弈均衡和矿池最佳策略也都是静态的。而在现实中，比特币网络中的矿工会在各个矿池中动态流动，因此矿池的规模也会随之动态变化。这些因素对矿池算力、收益和攻击策略都会产生严重影响。并且，矿池的攻击不仅会影响该矿池当前收益，也会影响对手矿池的服务器稳定性和收益，从而也成为矿工流动的重要因素。这种流动对于矿池未来规模和收益都有着巨大的影响。

发明内容

本发明针对现有技术的不足，提供一种基于随机博弈增强学习的比特币矿池攻击算法。

本发明设计的一种基于随机博弈增强学习的比特币矿池攻击策略学习方法，其特殊之处在于，包含以下步骤：

步骤1，输入初始网络状态，并初始化两个矿池的所有状态值；

步骤2，当t＝0，计算随机探索概率参数

其中，β₀为初始随机探索概率参数，t为迭代次数；

步骤3，采取β探索方法，设置随机探索选择概率参数β，两个矿池分别以1-β的概率根据当前策略选择动作；以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作；

步骤4，根据两个矿池的动作以及当前网络状态，计算各矿池的算力在本次迭代中占整个比特币网络的比例，得出矿池在本次迭代的期望收益、对矿工的吸引力和跳槽率；

步骤5，根据动作更新网络状态；

步骤6，更新两个矿池的策略以及当前状态的状态值；

步骤7，如果t等于最大迭代数t_max或矿池的策略收敛，结束算法并输出策略对；否则t增加1，返回步骤3。

进一步地，所述步骤1的具体过程为：

输入给定最大迭代数t_max，初始随机探索概率参数β₀，贴现因子γ，基本矿工流动率m，矿工跳槽率的两种取值

和

矿工单独挖矿概率参数ω，矿池1和矿池2的分布式拒绝攻击成本{c₁,c₂}以及ò-纳什均衡的近似参数ò，最后初始比特币网络的状态即矿池1与矿池2的大小

在所有离散状态下的状态值

及策略对

更进一步地，所述步骤3中两个矿池分别以1-β的概率根据当前策略

选择动作

以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作

则所述步骤4具体为：根据两个矿池的动作

以及当前网络状态

计算得到矿池1的算力在本次迭代中占整个比特币网络的比例为

矿池2的算力在本次迭代中占整个比特币网络的比例为

从而得出池1和矿池2本次迭代的期望收益分别为

和

再分别根据矿池1和矿池2算力比例得到矿池中每个矿工的期望收益分别为

和

因此，矿池1和矿池2在本次迭代中对矿工的吸引力大小分别为

和

其中

再根据两个矿池的动作

得出第t次迭代中跳槽率h^t的概率分布为

最后，得到矿池1和矿池2在t轮迭代后矿池大小分别更新为

和

因此t+1轮迭代中的网络状态

的转移概率为

其中：

再进一步地，所述步骤5具体为：根据

更新矿池1的最佳策略

根据

更新矿池2的最佳策略

再进一步地，所述步骤6具体为：根据

更新矿池1在状态s下的状态值V₁ ^t+1(s)；根据

更新矿池2在状态s下的状态值

其中δ∈[0,1)为矿池学习率，在第t次迭代中，大小为

δ随着迭代次数的增加而减少，有助于算法后期的收敛。

在步骤4中，矿池1和矿池2的策略达到近似纳什均衡，两个矿池的动作都为近似占优策略。

假设矿池1和矿池2的最佳策略

和

分别最大化它们各自的效益，即最佳策略对。随机博弈中的最佳策略对使得每一轮中的常和博弈达到纳什均衡。

然而在一个网络状态的二元矩阵博弈里，标准纳什均衡可能并不存在。因此，本发明采用ε-近似纳什均衡代替，以使得策略对收敛。

用

表示近似最佳策略对，对于任意网络状态s∈S，都有

且

其中

而

因此，矿池1在状态s下的状态值的计算可以写为

两个矿池的近似最佳策略对

计算方式为

本发明的优点在于：利用比特币网络随机博弈建模和增强学习算法，通过迭代学习自适应近似最佳策略，采取计算近似纳什均衡的方法获得每一轮迭代的占优策略，从而使得最优策略收敛，提高了矿池的期望收益。

附图说明

图1是本发明实施例的增强学习算法的流程图。

图2是本发明实施例的比特币系统示意图。

图3是本发明实施例的近似纳什均衡收敛示意图。

具体实施方式

本发明所设计的基于随机博弈增强学习的比特币矿池攻击策略学习方法，提出一种比特币矿池随机动态博弈的模型系统以及近似纳什均衡增强学习算法。本方法充分考虑了矿池攻击，矿工流动与矿池当前和未来长期收益之间的相互影响，通过自适应迭代学习的方法来获得最佳攻击策略。通过本发明学习到的策略使得矿池期望收益增加。

本发明提供的方法能够用计算机软件技术实现流程。参见图1，实施例以矿工数为1000的比特币网络为例对本发明的流程进行一个具体的阐述，如下：

步骤1，输入给定最大迭代数t_max，初始随机探索概率参数β₀，贴现因子γ，基本矿工流动率m，两种矿工跳槽率

和

矿工单独挖矿概率参数ω，矿池1和矿池2的分布式拒绝攻击成本{c₁,c₂}以及ò-纳什均衡的近似参数ò。最后初始比特币网络的状态即矿池1与矿池2的大小

在所有离散状态下的状态值

及策略对

图2给出了一个比特币网络的系统示意图，如图所示，该网络中矿池1和矿池2相互竞争。

具体的方案如下：

首先选定最大迭代数t_max作为终止条件之一，然后输入初始随机探索概率参数β₀∈[0,1]，贴现因子γ∈(0,1]，基本矿工流动率m∈(0,1]，矿工跳槽率的随机取值

矿工单独挖矿概率参数ω，矿池1和矿池2的分布式拒绝攻击成本{c₁,c₂}，初始比特币网络的状态即矿池1与矿池2的大小

为了防止51％算力攻击，我们假设两个矿池的规模都小于网络整体算力的50％，初始网络状态中矿池大小以矿池占整个网络的比例给出，因此

最后，分别初始化矿池1和矿池2在所有离散状态下的状态值

及策略对

矿池在各个离散状态下的状态值在初始时与该状态下的矿池大小有关，初始化所有离散状态下的状态值时，计算方法为

其中S为所有离散状态集合，γ为贴现因子。初始化策略对

时，将所有离散状态下的分布式拒绝服务攻击强度进行初始化。

具体的实施过程如下：

选定最大迭代数t_max为100，初始随机探索概率参数β₀＝0.3，贴现因子γ＝0.8，基本矿工流动率m＝0.4，矿工跳槽率的两个取值

矿工单独挖矿概率参数ω＝0.1，矿池1和矿池2的分布式拒绝攻击成本c₁＝c₂＝c＝0.1，ò-纳什均衡的近似参数ε＝0.001

假设矿池1和矿池2中的初始矿工数为200和300，初始网络状态中矿池大小以矿池占整个网络的比例给出，即

实施例的贴现因子γ＝0.8，因此各个离散状态下的初始状态值为

例如，矿池1矿工数为150的状态下，即s₁＝0.15，初始状态值为

将分布式拒绝服务攻击强度设为11级，分别为{0,0.1,0.2,…,1.0}。初始化策略对时，将两个矿池在所有离散状态下的分布式拒绝服务攻击强度都初始化为0。

步骤2，当前迭代数t＝0，计算随机探索概率参数

具体实施过程如下：

为了使得算法初期，矿池的动作选择具有一定的随机性和探索性，采取β探索方法，设置随机探索选择概率参数β，β随着算法的迭代数t的增加逐渐递减，因此算法前期探索性较强，避免过早的局部收敛；后期矿池根据最佳策略选择动作的概率增大，有助于后期的收敛。当前迭代数为t时，探索概率β的计算方法为

本实施例中初始探索概率β₀取0.3。当前迭代次数t＝0，因此当前探索概率β为0.3。

步骤3，两个矿池分别以1-β的概率根据当前策略

选择动作

即分布式拒绝服务攻击的攻击强度；以β的概率随机选择动作两个矿池根据策略及状态自适应地选择动作

具体实施过程如下：

取[0,1]区间内的随机数R。判断R是否<＝β，是则两个矿池分别随机选择动作

否则根据当前策略

选择动作。

取[0,1]区间内的随机数R。判断R是否<＝0.3，是则两个矿池分别随机选择动作

否则根据当前策略

选择动作，即都为0。假设具体实施例中随机数R＝0.2，两个矿池分别随机选择动作，随机产生的动作为{0.8,0.1}，即矿池1的攻击强度为0.8，矿池2的攻击强度为0.1。

步骤4，根据两个矿池的动作

以及当前网络状态

矿池2的算力在本次迭代中占整个比特币网络的比例为

从而得出池1和矿池2本次迭代的期望收益分别为

和

和

和

其中

再根据两个矿池的动作

得出第t次迭代中跳槽率h^t的概率分布为

最后，得到矿池1和矿池2在t轮迭代后矿池大小分别更新为

和

因此t+1轮迭代中的网络状态

的转移概率为

其中：

具体的实施过程如下：

新的网络状态受到矿工流动的影响，矿工流动与矿池的吸引力有关，而矿池在本次迭代中的吸引力和收益{r₁(s^t,a^t),r₂(s^t,a^t)}以及动作

有关。矿池1和矿池2在本次迭代中的期望收益{r₁(s^t,a^t),r₂(s^t,a^t)}为当前网络状态以及两个矿池的动作所决定。

具体来说，矿池在当前阶段的挖矿收入由它的相对算力以及所选择的攻击强度所带来的花销决定。

以矿池1为例，计算出它的算力在本次迭代中占整个比特币网络的比例为

其中

为矿池1受到矿池2的强度为

攻击所剩余的绝对算力，而

为两个矿池的攻击导致比特币网络剩余的总算力。

假设每个阶段的区块奖励为1个单位的比特币，且每单位拒绝服务攻击的花销为c，则矿池1的期望收益为

同理，矿池2的期望收益为

矿工流动分为两个部分，一个是基本矿工流动率m，即在比特币网络中没有任何攻击时，网络动态发展所自然产生的矿工流动率，它是固定的；另一个是矿工跳槽率，即由于比特币网络中矿池之间的攻击所导致的矿工流动率h，它由矿池之间的攻击强度决定，这一轮的攻击强度越激烈，跳槽率越高。

假设跳槽率h为一个二元随机值，它有两个可能的取值，

和

分别为攻击激烈与攻击缓和的网络环境所导致的跳槽率。

在第t次迭代中的跳槽率h^t的概率分布为

在每一次迭代中，每一个矿工都会以与每个矿池的吸引力成正比的概率来选择下一轮要加入的矿池。

以矿池1为例，影响矿池吸引力的因素有很多，其中之一是矿池中每个矿工的期望报酬

即矿池在这一轮中的总收益除以矿池1矿工数。矿工想要最大化自己收益的同时，减少收入的方差，使得收入稳定，也就是说，矿池大小也是矿池吸引力的影响因素之一。

因此，矿池1在第t次迭代中的吸引力为

分母

用于吸引力的标准化。

综上所述，矿池1和矿池2在第t轮迭代后的大小分别变为

和

由于h^t的随机性，网络状态的概率分布为

其中：

实施例具体的实施方案如下：

为了实施例的简洁描述，我们假设基础矿工流动率m和分布式拒绝服务攻击的单位花销c分别为0.4和0.1，跳槽率h，矿池1和矿池2的吸引力均简化为常数，分别是0.3，0.2和0.3。步骤3中选择了攻击动作为

根据网络状态和动作，可以计算出矿池1和矿池2本轮收益分别为

则新的网络状态更新为{0.216,0.284}。

步骤5，根据

更新矿池1的最佳策略

根据

更新矿池2的最佳策略

实施例具体的实施过程如下：

随机博弈中，矿池的策略为在状态空间S中每个离散状态下采取的行动组合。假设矿池1和矿池2的最佳策略

和

然而在一个网络状态的二元矩阵博弈里，标准纳什均衡可能并不存在。因此，我们用ε-近似纳什均衡代替，以使得策略对收敛。

用π^蝌＝(π₁,π₂)表示近似最佳策略对，对于任意网络状态s∈S，都有

其中

而

andò>0。因此，矿池1在状态s下的状态值的计算可以写为

两个矿池的近似最佳策略对

计算方式分别为

和

实施例的具体实施方案如下：

寻找近似纳什均衡从而获得本次迭代的近似最佳策略对的过程，图4给出了一个简化的例子。如图列出了两个矿池分别采取不同动作时的支付矩阵。假设ò＝0.01，那么在状态s下的近似最佳动作最终收敛于

最后对最佳策略对

在当前状态

的动作选择策略进行更新。

步骤6，根据

更新矿池1在状态s下的状态值V₁ ^t+1(s)；根据

更新矿池2在状态s下的状态值

其中δ∈[0,1)为矿池学习率，在第t次迭代中，大小为

δ随着迭代次数的增加而减少，有助于算法后期的收敛。

实施例具体的实施过程如下：

状态值为不同状态下的效益。假设矿池1初始状态表示为s⁰，则矿池1在状态s∈S下的状态值为

用

和

分别代表在状态s下根据策略π选择的动作，那么状态值可以改写为

根据Q-学习我们可以得到矿池1状态更新方法为

和

其中计算学习率

实施例的具体实施方案如下：

首先计算学习率δ^t+1＝1，V₁ ^t(0.216)＝0.216*5＝1.08，V₁ ^t(0.284)＝0.284*5＝1.42，根据步骤5中更新的当前最佳动作，矿池1和矿池2所得到的收益分别为0.163和0.071，可以计算得到矿池1与矿池2在当前状态s＝{0.2,0.3}下的状态值分别为V₁ ^t+1(0.2,0.3)＝(1-1)*1+1*(0.163+0.8*1.08)＝1.04和

分别进行更新即可。

步骤7，如果t等于最大迭代数t_max或矿池的策略收敛，结束算法并输出策略对；否则增值t，返回步骤3。

在具体实施例中，t＝0，小于最大迭代数t_max，因此增加t至t＝1，返回步骤3。

在下表中给出了简化条件下，进行五轮迭代的过程中，比特币网络的变化情况。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。