CN112330450A

CN112330450A - 算力交易处理方法、装置、区块链的节点及存储介质

Info

Publication number: CN112330450A
Application number: CN202011219516.7A
Authority: CN
Inventors: 仇超; 任晓旭; 曹一凡; 王晓飞
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-02-05
Anticipated expiration: 2040-11-04
Also published as: CN112330450B

Abstract

本公开实施例公开了算力交易处理方法、装置、系统、区块链的节点及介质，包括：确定算力提供节点的第一效用函数，算力提供节点用于向多个算力使用节点提供算力；确定多个算力使用节点中每个算力使用节点的第二效用函数，第一效用函数和第二效用函数的输入参数包括算力单元单价和算力需求，多个算力使用节点和算力提供节点为区块链的节点；确定约束条件，约束条件表征第一效用函数的输出值最大且多个第二效用函数的输出值最大所需满足的条件；调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值和多个第二效用函数的输出值满足约束条件；将满足约束条件的算力单元单价和算力需求的取值确定为目标算力单元单价值和目标算力需求值。

Description

算力交易处理方法、装置、区块链的节点及存储介质

技术领域

本公开实施例涉及计算机技术领域，更具体地，涉及一种算力交易处理方法、装置、区块链的节点及存储介质。

背景技术

近年来算力作为推动人工智能发展的主要支柱之一，已成为人们关注的焦点。不同算力节点的算力资源不同，如云服务器和边缘设备等具有较为丰富的算力资源，而终端设备等的算力资源受限。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：采用相关技术存在较为严重的算力供需矛盾且算力节点缺乏激励。

发明内容

有鉴于此，本公开实施例提供了一种算力交易处理方法、装置、区块链的节点及存储介质。

本公开实施例的一个方面提供了一种网络参数确定方法，该方法包括：确定算力提供节点的第一效用函数，其中，上述算力提供节点用于向多个算力使用节点提供算力，上述第一效用函数用于表征上述算力提供节点在算力交易中的收益，上述第一效用函数的输入参数包括算力单元单价和算力需求；确定上述多个算力使用节点中每个上述算力使用节点的第二效用函数，其中，上述第二效用函数用于表征上述算力使用节点在上述算力交易中的收益，上述第二效用函数的输入参数包括上述算力单元单价和上述算力需求，上述多个算力使用节点和上述算力提供节点为区块链的节点；确定约束条件，其中，上述约束条件用于表征上述第一效用函数的输出值最大且多个上述第二效用函数的输出值最大所需满足的条件；调整上述算力单元单价和多个上述算力需求的取值，使得上述第一效用函数的输出值和多个上述第二效用函数的输出值满足上述约束条件；以及，在满足所述约束条件的情况下，将所述算力单元单价和所述算力需求的取值分别确定为目标算力单元单价值和目标算力需求值。

本公开实施例的另一个方面提供了一种算力交易处理装置，该装置包括：第一确定模块，用于确定算力提供节点的第一效用函数，其中，上述算力提供节点用于向多个算力使用节点提供算力，上述第一效用函数用于表征上述算力提供节点在算力交易中的收益，上述第一效用函数的输入参数包括算力单元单价和算力需求；第二确定模块，用于确定上述多个算力使用节点中每个上述算力使用节点的第二效用函数，其中，上述第二效用函数用于表征上述算力使用节点在上述算力交易中的收益，上述第二效用函数的输入参数包括上述算力单元单价和上述算力需求，上述多个算力使用节点和上述算力提供节点为区块链的节点；第三确定模块，用于确定约束条件，其中，上述约束条件用于表征上述第一效用函数的输出值最大且多个上述第二效用函数的输出值最大所需满足的条件；调整模块，用于调整上述算力单元单价和多个上述算力需求的取值，使得上述第一效用函数的输出值和多个上述第二效用函数的输出值满足上述约束条件；以及，第四确定模块，用于在满足所述约束条件的情况下，将所述算力单元单价和所述算力需求的取值分别确定为目标算力单元单价值和目标算力需求值。

本公开实施例的另一个方面提供了一种区块链中的算力分配节点，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如上所述的方法。

本公开实施例的另一个方面提供了一种算力交易处理系统，包括：算力提供节点、多个算力使用节点和如上所述的算力分配节点。

本公开实施例的另一个方面提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现如上所述的方法。

本公开实施例的另一个方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，通过确定算力提供节点的第一效用函数，算力提供节点用于向多个算力使用节点提供算力，第一效用函数用于表征算力提供节点在算力交易中的收益，第一效用函数的输入参数包括算力单元单价和算力需求，确定多个算力使用节点中每个算力使用节点的第二效用函数，第二效用函数用于表征算力使用节点在算力交易中的收益，第二效用函数的输入参数包括算力单元单价和算力需求，多个算力使用节点和算力提供节点为区块链的节点，确定约束条件，约束条件用于表征第一效用函数的输出值最大且多个第二效用函数的输出值最大所需满足的条件，调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值和多个第二效用函数的输出值满足约束条件，在满足约束条件的情况下，将算力单元单价和算力需求的取值分别确定为目标算力单元单价值和目标算力需求值。本技术方案多个算力使用节点和算力提供节点为区块链的节点，区块链的引入建立了算力提供节点和算力使用节点之间的价值传递途径，因此，解决了算力供需矛盾的问题。本方案分别从算力提供节点和算力使用节点两个方面建立效用函数，通过调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值最大且多个第二效用函数的输出值最大，得到目标算力单元单价值和目标算力需求值，实现了同时实现算力提供节点和全部算力使用节点的效用最大化，从而解决了算力节点缺乏激励的问题。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的可以应用算力处理方法的示例性系统架构；

图2示意性示出了根据本公开实施例的一种算力交易处理方法的流程图；

图3示意性示出了根据本公开实施例的一种基于WoLF-PHC的算力交易处理方法在算力提供节点方面的收敛性的效果图；

图4示意性示出了根据本公开实施例的一种基于WoLF-PHC的算力交易处理方法在算力使用节点方面的收敛性的效果图；

图5示意性示出了根据本公开实施例的一种求解不同优化问题产生的关于算力使用节点的效用结果的示意图效用；

图6示意性示出了根据本公开实施例的一种求解不同优化问题产生的关于算力提供节点的效用结果的示意图效用；

图7示意性示出了根据本公开实施例的一种算力使用节点用于挖矿的不同算力需求比例与算力使用节点的效用结果的示意图；

图8示意性示出了根据本公开实施例的一种在固定算力需求比例条件下，算力使用节点的数量与效用结果的关系的示意图；

图9示意性示出了根据本公开的实施例的一种网络参数确定装置的框图；以及

图10示意性示出了根据本公开实施例的适于实现算力交易处理方法的区块链的算力分配节点的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在实现本公开构思的过程中，发明人发现由于不同算力节点的算力资源不同，且算力资源本身具有不共享性，因此，算力资源缺乏价值传递途径。此外，随着网络和“云”随“业务流”向边缘设备甚至终端设备的转移，对终端设备的算力需求也随之增加，这对算力资源较为匮乏的终端设备提出了挑战，而算力资源较为丰富的设备却处于闲置状态，上述导致了算力供需矛盾。在上述过程中，算力节点缺乏激励，使得算力节点加入算力交易市场的动力不足。

为了解决上述问题，发明人发现由于区块链具有开放、不可篡改、分布式、激励机制和去中心化地数据共享能力，因此，可以采用基于区块链的算力交易处理方案。在基于算力区块链的算力交易处理方案中通常包括一个算力提供节点和多个算力使用节点，其中，算力提供节点为算力资源丰富的节点，如云服务器和边缘设备，算力提供节点用于向算力使用节点提供算力。算力使用节点为算力资源受限的节点，如终端设备，算力使用节点根据自身算力需求从算力提供节点处购买算力。基于区块链的算力交易处理方案建立了算力提供节点和算力使用节点之间的价值传递途径，从而解决了算力供需矛盾的问题。

同时，发明人还发现区块链的共识机制是将算力使用节点和算力提供节点的收益分开确定的，这不利于算力交易。为了解决算力节点的收益问题，本公开实施例提出了设置算力分配节点，其中，算力分配节点用于确定目标算力单元单价值和目标算力需求值，以同时实现算力提供节点和全部算力使用节点的效用最大化，即分别从算力提供节点和算力使用节点两个方面建立效用函数，将同时实现算力提供节点和算力使用节点的效用最大化转换为一个一对多的主从博弈问题，通过求解该博弈问题的纳什均衡点，得到目标算力单元单价值和目标算力需求值。其中，一对多的主从博弈问题可以理解为算力提供节点作为领导者，算力使用节点作为跟随者，形成的一个单领导者多跟随者的斯塔克尔伯格主从博弈问题。

本公开的实施例提供了一种算力交易处理方法、装置以及能够应用该方法的区块链的算力分配节点。该方法包括目标算力单元单价值和目标算力需求值确定过程。算力提供节点用于向多个算力使用节点提供算力，多个算力使用节点和算力提供节点为区块链的节点。在目标算力单元单价值和目标算力需求值确定过程中，首先，确定算力提供节点的第一效用函数，第一效用函数用于表征算力提供节点在算力交易中的收益，其输入参数包括算力单元单价和算力需求。其次，确定多个算力使用节点中每个算力使用节点的第二效用函数，第二效用函数用于表征算力使用节点在算力交易中的收益，其输入参数包括算力单元单价和算力需求。此外，确定约束条件，其用于表征第一效用函数的输出值最大且多个第二效用函数的输出值最大所需满足的条件，调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值和多个第二效用函数的输出值满足约束条件，在满足约束条件的情况下，将算力单元单价和算力需求的取值分别确定为目标算力单元单价值和目标算力需求值。

图1示意性示出了根据本公开实施例的可以应用算力处理方法的示例性系统架构100。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括算力分配节点101、算力提供节点102、算力使用节点103、104、105和网络106。网络106用以在算力分配节点101、算力提供节点102和算力使用节点103、104、105之间提供通信链路的介质。网络106可以包括各种连接类型，例如有线和/或无线通信链路等。

用户可以使用算力使用节点103、104、105通过网络106与算力提供节点102交互，以接收或发送消息等。算力使用节点103、104、105上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

在算力交易处理系统中，算力资源受限的算力使用节点103、104、105将从算力提供节点102处购买算力来支持其任务。根据任务的不同，可以将算力使用节点103、104、105的角色分为如下三种。

其一，算力使用节点103、104、105用于挖矿，即用于进行模型训练，向区块链提交新的区块。

其二，算力使用节点103、104、105用于提供人工智能服务，如语音识别、人脸识别、自然语言处理和增强现实等。

其三，算力使用节点103、104、105用于挖矿与提供人工智能服务，即算力使用节点103、104、105根据自身的需求选择一部分算力用于挖矿，剩余的算力用于提供人工智能服务。

算力使用节点103、104、105可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。

算力提供节点102可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。算力提供节点102还可以是边缘设备等。

算力分配节点101可以通过网络106与算力提供节点102和算力使用节点103、104、105交互。算力分配节点101用于确定针对算力提供节点102的目标算力单元单价值，以及，针对算力使用节点103、104、105的目标算力需求值。不同算力使用节点的目标算力需求值可能相同，也可能不同。

算力分配节点101可以是具有显示屏并且支持网页浏览的各种电子设备。

需要说明的是，本公开实施例所提供的算力处理方法一般可以由算力分配节点101执行。相应地，本公开实施例所提供的算力处理装置一般可以设置于算力分配节点101中。本公开实施例所提供的算力处理方法也可以由不同于算力分配节点101且能够与算力提供节点102、算力使用节点103、104、105和算力分配节点101中的至少一种通信的算力分配节点或算力分配节点集群执行。相应地，本公开实施例所提供的算力处理装置也可以设置于不同于算力分配节点101且能够与算力提供节点102、算力使用节点103、104、105和算力分配节点101中的至少一种通信的算力分配节点或算力分配节点集群中。

应该理解，图1中的算力分配节点、算力提供节点、算力使用节点和网络的数目仅仅是示意性的。根据实现需要，可以具有任意数目的算力分配节点、算力提供节点、算力使用节点和网络。

图2示意性示出了根据本公开实施例的一种算力交易处理方法的流程图。

如图2所示，该方法包括操作S210～S250。

在操作S210，确定算力提供节点的第一效用函数，其中，算力提供节点用于向多个算力使用节点提供算力，第一效用函数用于表征算力提供节点在算力交易中的收益，第一效用函数的输入参数包括算力单元单价和算力需求。

在操作S220，确定多个算力使用节点中每个算力使用节点的第二效用函数，其中，第二效用函数用于表征算力使用节点在算力交易中的收益，第二效用函数的输入参数包括算力单元单价和算力需求，多个算力使用节点和算力提供节点为区块链的节点。

在本公开的实施例中，算力提供节点和多个算力使用节点为算力交易的参与者，算力提供节点和多个算力使用节点均为区块链的节点。其中，算力提供节点用于向多个算力使用节点提供算力，算力使用节点用于根据提供的算力执行对应的任务，任务可以包括挖矿和/或人工智能服务。算力提供节点可以包括多个算力单元。

根据本公开的实施例，算力分配节点可以确定算力提供节点的效用函数，可以将算力提供节点的效用函数称为第一效用函数，其中，第一效用函数可以表征算力提供节点在算力交易中的收益。算力分配节点可以确定每个算力使用节点的效用函数，可以将算力使用节点的效用函数称为第二效用函数。其中，第二效用函数可以表征算力使用节点在算力交易中的收益。

根据本公开的实施例，第一效用函数的输入参数和第二效用函数的输入参数可以包括算力单元单价和算力需求，其中，算力单元单价用于表征算力单元价格。算力需求用于表征算力使用节点的算力需求。

在操作S230，确定约束条件，其中，约束条件用于表征第一效用函数的输出值最大且多个第二效用函数的输出值最大所需满足的条件。

在本公开的实施例中，约束条件可以用于表征第一效用函数的输出值和全部第二效用函数的输出值同时达到最大所需满足的条件，即算力提供节点的第一效用函数的输出值为最大第一效用函数的输出值，并且每个算力使用节点的第二效用函数的输出值为最大第二效用函数的输出值所需满足的条件。需要说明的是，不同算力使用节点的最大第二效用函数的输出值可能不同。如果算力使用节点的第二效用函数的输出值满足约束条件时，则算力使用节点的第二效用函数的输出值为其最大第二效用函数的输出值。

在操作S240，调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值和多个第二效用函数的输出值满足约束条件。

在操作S250，在满足约束条件的情况下，将算力单元单价和算力需求的取值分别确定为目标算力单元单价值和目标算力需求值。

在本公开的实施例中，可以基于多智能体强化学习算法，调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值和全部第二效用函数的输出值满足约束条件，并在第一效用函数的输出值和全部第二效用函数的输出值满足约束条件的情况下的算力单元单价的取值确定为目标算力单元单价值，针对多个算力使用节点中的每个算力使用节点，将在第一效用函数的输出值和全部第二效用函数的输出值满足约束条件的情况下，将与该算力使用节点对应的算力需求的取值确定为与该算力使用节点对应的目标算力需求值。

根据本公开的实施例，每个算力使用节点具有对应的目标算力需求值，不同算力使用节点的目标算力单元单价值相同。针对算力提供节点，在目标算力单元单价值和全部目标算力需求值的情况下，算力提供节点的第一效用函数的输出值最大。与此同时，针对每个算力使用节点，在目标算力单元单价值和与该算力使用节点对应的目标算力需求值的情况下，该算力使用节点的第二效用函数的输出值最大。

根据本公开实施例的技术方案，通过首先，确定算力提供节点的第一效用函数，算力提供节点用于向多个算力使用节点提供算力，第一效用函数用于表征算力提供节点在算力交易中的收益，其输入参数包括算力单元单价和算力需求。其次，确定多个算力使用节点中每个算力使用节点的第二效用函数，第二效用函数用于表征算力使用节点在算力交易中的收益，其输入参数包括算力单元单价和算力需求，多个算力使用节点和算力提供节点为区块链的节点。此外，确定约束条件，约束条件用于表征第一效用函数的输出值最大且多个第二效用函数的输出值最大所需满足的条件，调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值和多个第二效用函数的输出值满足约束条件。具体地，在满足约束条件的情况下，将算力单元单价和算力需求的取值分别确定为目标算力单元单价值和目标算力需求值。本技术方案多个算力使用节点和算力提供节点为区块链的节点，区块链的引入建立了算力提供节点和算力使用节点之间的价值传递途径，因此，解决了算力供需矛盾的问题。同时，分别从算力提供节点和算力使用节点两个方面建立效用函数，通过调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值最大且多个第二效用函数的输出值最大，得到目标算力单元单价值和目标算力需求值，实现了同时实现算力提供节点和全部算力使用节点的效用最大化，从而解决了算力节点缺乏激励的问题。

可选地，在上述技术方案的基础上，调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值和多个第二效用函数的输出值满足约束条件，可以包括如下操作。

基于多智能体强化学习算法，调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值和多个第二效用函数的输出值满足约束条件。

在本公开的实施例中，智能体是能够持续自主发挥作用的计算和控制实体，多智能体是指包括多个智能体，单个智能体只有不完全的信息和问题求解能力，计算过程具有异步性和并行性，需要依靠多个智能体之间的交互来实现问题的求解。本公开实施例中智能体是指算力提供节点和算力使用节点。

根据本公开的实施例，强化学习是一种实时和在线的学习方法，该方法无需建立环境和任务的精确数学描述，而是通过不断的“试探-评价”过程获得知识，并改进行动方案一完成预定任务。多智能体强化学习算法并不是各个智能体独立学习的简单叠加，而是所有智能体以提升系统的整体协调能力为目标而分布和并行地学习。多智能体强化学习算法可以包括Minimax-Q学习算法、Nash-Q学习算法、FF-Q学习算法和WoLF-PHC(Win or LearnFast，Policy Hill-Climbing)学习算法。

可选地，在上述技术方案的基础上，多智能体强化学习算法包括WoLF-PHC学习算法。

在本公开的实施例中，WoLF-PHC学习算法是策略梯度爬升算法(PHC)的扩展，通过引入WoLF机制和可变的学习参数来达到更好的收敛效果。

可选地，在上述技术方案的基础上，基于多智能体强化学习算法，调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值和多个第二效用函数的输出值满足约束条件，可以包括如下操作。

确定与算力提供节点对应的第一累计回报当前收益值、第一当前状态、第一当前动作、第一当前策略和第一平均策略，其中，第一累计回报当前收益值为第一累计回报函数的当前输出值，第一累计回报函数的输入参数包括第一当前状态和第一当前动作，第一当前状态由多个算力需求的上一取值确定，第一当前动作由算力单元单价的当前取值确定，第一当前策略和第一平均策略的输入参数包括第一当前状态。根据第一效用函数的当前输出值更新第一累计回报当前收益值。更新第一当前状态、第一当前策略和第一平均策略。根据第一当前动作确定与每个算力使用节点对应的第二当前状态。根据更新后的第一当前状态确定与每个算力使用节点对应的第二当前动作。确定与每个算力使用节点对应的第二累计回报当前收益值、第二当前策略和第二平均策略，其中，第二累计回报当前收益值为第二累计回报函数的当前输出值，第二累计回报函数的输入参数包括第二当前状态和第二当前动作，第二当前策略和第二平均策略的输入参数包括第二当前状态。根据第一效用函数的当前输出值更新第二累计回报当前收益值。更新第二当前策略和第二平均策略。重复执行根据第一效用函数的当前输出值更新第一累计回报当前收益值至更新第二当前策略和第二平均策略的操作，直至第一累计回报当前收益值和第二累计回报当前收益值收敛。

在本公开的实施例中，由于在算力交易场景中，由算力提供节点向算力使用节点提供算力，算力提供节点和算力使用节点之间存在行动次序的关系，因此，可以将两者之间的资源分配和定价问题建模为一主多从的斯塔克尔伯格博弈模型。在第一阶段，算力提供节点确定算力单元单价的取值。在第二阶段，算力使用节点根据第一阶段确定的算力单元单价的取值、成本和收益确定算力需求的取值。

由于在斯塔克尔伯格博弈模型中，算力使用节点和算力提供节点建立了不完全信息的多智能体系，然而在传统的逆向归纳算法中假设每个智能体对整个系统都具有完备的信息，这是不符合实际的。因此，通过设计启发式分析算法来搜索纳什均衡并不合理。基于上述，本公开实施例采用多智能体强化学习算法，即采用WoLF-PHC学习算法来搜索博弈问题的纳什均衡。

根据本公开的实施例，确定与算力提供节点对应的第一累计回报当前收益值、第一当前状态、第一当前动作、第一当前策略和第一平均策略。算力提供节点可以用cpp表示，与算力提供节点cpp对应的第一当前状态可以用

表示，其中，

F_i ^t-1表示算力使用节点i在时刻t-1的算力需求的取值，第一当前状态可以指算力提供节点cpp在时刻t的状态。如果将算力使用节点i在时刻t的算力需求的取值称为算力使用节点i的算力需求的当前取值，则可将算力使用节点i在时刻t-1的算力需求的取值称为算力使用节点i的上一取值。与算力提供节点cpp对应的第一当前动作用p^t表示，其表示算力提供节点cpp在时刻t的算力单元单价的取值，可以将算力提供节点cpp在时刻t的算力单元单价的取值称为算力提供节点cpp的算力单元单价的当前取值。

根据本公开的实施例，第一累计回报当前收益值可以用

表示，第一当前策略可以用

表示，第一平均策略可以用

表示，其中，

A_cpp表示算力单元单价的取值组成的集合，即算力提供节点的动作空间。可以通过如下公式表示第一累计回报当前收益值：

其中，R_cpp(F_i ^t，p^t)表示算力提供节点cpp在时刻t的第一效用函数的输出值。α_cpp表示算力提供节点cpp的学习率，0＜α_cpp≤1。γ_cpp表示算力提供节点cpp的衰减因子，0＜γ_cpp≤1。可以通过如下公式表示R_cpp(F_i ^t，p^t)：

其中，C表示消耗成本。F_i ^t表示算力使用节点i在时刻t的算力需求的取值，i∈{1，......，N-1，N}，N表示算力使用节点的数量。

可以通过如下公式更新第一平均策略：

其中，

表示

出现的次数。

可以通过如下公式更新第一当前策略：

其中，

可以通过如下公式表示：

其中，δ_f可以通过如下公式表示：

根据本公开的实施例，与算力使用节点i对应的第二当前状态可以用

表示，其中，

与算力使用节点i对应的第二当前动作可以用F_i ^t表示，其表示算力使用节点i在时刻t的算力需求的取值。

与算力使用节点i对应的第二累计回报当前收益值可以用

表示，第二当前策略可以用

表示，第二平均策略可以用

表示，其中，

A_u表示由算力使用节点组成的算力需求集合，即算力使用节点的动作空间。可以通过如下公式表示与算力使用节点i对应的第二累计回报当前收益值：

其中，R_ui(F_i ^t，p^t)表示算力使用节点i在时刻t的第二效用函数的输出值。α_ui表示算力使用节点i的学习率，0＜α_ui≤1。γ_ui表示算力使用节点i的衰减因子，0＜γ_ui≤1。可以通过如下公式表示R_ui(F_i ^t，p^t)：

其中，R表示算力使用节点i挖矿获得的出块收益，

表示与算力使用节点i挖矿成功相关的的变量，β_i表示算力使用节点i用于挖矿的算力需求比例，u_i表示算力使用节点i的预设权重系数，β_j表示算力使用节点j用于挖矿的算力需求比例，C_m表示挖矿风险成本。

可以通过如下公式更新第二平均策略：

其中，

表示

出现的次数。

可以通过如下公式更新第二当前策略：

其中，

可以通过如下公式表示：

其中，δ′_f可以通过如下公式表示：

根据本公开的实施例，重复执行上述根据第一效用函数的当前输出值更新第一累计回报当前收益值至更新第二当前策略和第二平均策略的操作，直至第一累计回报当前收益值和第二累计回报当前收益值收敛。需要说明的是，上述第一累计回报当前收益值和第二累计回报当前收益值收敛指的是第一累计回报当前收益值和全部第二累计回报当前收益值均收敛。第一累计回报当前收益值收敛可以说明第一效用函数的输出值达到最大，第二累计回报当前收益值收敛可以说明第二效用函数的输出值达到最大。

需要说明的是，可以调节算力使用节点用于挖矿的算力需求比例，以实现算力使用节点的效用最大化。

可选地，在上述技术方案的基础上，在满足约束条件的情况下，将算力单元单价和算力需求的取值分别确定为目标算力单元单价值和目标算力需求值，可以包括如下操作。

将与收敛的第一累计回报当前收益值对应的第一当前动作确定为目标算力单元单价值。将与收敛的第二累计回报当前收益值对应的第二当前动作确定为目标算力需求值。

在本公开的实施例中，针对多个算力使用节点中的每个算力使用节点，将与该算力使用节点对应的收敛的第二累计回报当前收益值对应的第二当前动作确定为与该算力使用节点对应的目标算力需求值。

可选地，在上述技术方案的基础上，可以通过如下公式表示第二效用函数：

其中，R_ui(F_i ^t，p^t)表示算力使用节点i在时刻t的第二效用函数的输出值，F_i ^t表示算力使用节点i在时刻t的算力需求的取值，i∈{1，......，N-1，N}，N表示算力使用节点的数量，p^t表示算力提供节点cpp在时刻t的算力单元单价的取值，R表示算力使用节点i挖矿获得的出块收益，

表示与算力使用节点i挖矿成功相关的变量，β_i表示算力使用节点i用于挖矿的算力需求比例，u_i表示算力使用节点i的预设权重系数，β_j表示算力使用节点j用于挖矿的算力需求比例，C_m表示挖矿风险成本。

可以通过如下公式表示第一效用函数：

其中，R_CPP(F_i ^t，p^t)表示算力提供节点cpp在时刻t的第一效用函数的输出值，C表示消耗成本。

可选地，在上述技术方案的基础上，与算力提供节点cpp对应的第一当前状态用

表示，

F_i ^t-1表示算力使用节点i在时刻t-1的算力需求的取值。与算力提供节点cpp对应的第一当前动作用p^t表示。与算力使用节点i对应的第二当前状态用

表示，

与算力使用节点i对应的第二当前动作用F_i ^t表示。

为了更好地理解本公开实施例的技术方案，下面将从收敛性、不同方案处理不同优化问题产生的效用结果、算力需求比例与算力使用节点的效用结果的关系，以及，在固定算力需求比例条件下，算力使用节点的数量与效用结果的关系方面进行说明。

针对收敛性，图3示意性示出了根据本公开实施例的一种基于WoLF-PHC的算力交易处理方法在算力提供节点方面的收敛性的效果图。图4示意性示出了根据本公开实施例的一种基于WoLF-PHC的算力交易处理方法在算力使用节点方面的收敛性的效果图。从图3和图4可以看出，采用本公开实施例所提供的基于WoLF-PHC的算力交易处理方法可以近似地收敛到纳什均衡点。

针对不同方案处理不同优化问题产生的效用结果，图5示意性示出了根据本公开实施例的一种求解不同优化问题产生的关于算力使用节点的效用结果的示意图。图6示意性示出了根据本公开实施例的一种求解不同优化问题产生的关于算力提供节点的效用结果的示意图。图5和图6中，only user side用于表示求解算力使用节点效用最大化问题下算力使用节点或算力提供节点的效用结果，only provider side用于表示求解算力提供节点效用最大化问题下算力使用节点或算力提供节点的效用结果，both sides用于表示同时处理算力使用节点和算力提供节点优化问题下算力使用节点或算力提供节点的效用结果。其中，单侧优化问题基于遗传算法进行问题求解，双侧优化问题基于WoLF-PHC进行求解。从图5和图6中可以看出，基于WoLF-PHC的算力交易处理方法能够平衡算力使用节点和算力提供节点的效用，并使两者都受益。此外，随着算力使用节点的数量的增多，算力使用节点的效用可能会下降，算力提供节点的效用可能会增加。这是由于随着算力使用节点的数量的增多，算力资源的竞争也越来越激烈，相应的，算力使用节点获得奖励的概率将会降低。然而，由于更多的算力使用节点需要向算力提供节点购买算力，因此，算力提供节点将获得更多的效用。

针对算力需求比例与算力使用节点的效用结果的关系，图7示意性示出了根据本公开实施例的一种算力使用节点用于挖矿的不同算力需求比例与算力使用节点的效用结果的示意图。从图7可以看出，在算力使用节点用于挖矿的算力比例为0时，算力使用节点的效用是为负值。当用于挖矿的算力比例大于0且小于等于0.5时，算力使用节点的效用呈上升趋势，这是由于挖矿可以获得更多的收益。当用于挖矿的算力比例大于0.5时，随着比例的增加，算力使用节点的效用会降低。这是由于将大部分算力资源集中于挖矿会导致高风险的收益损失，即挖矿成本大于获得的收益。

针对在固定算力需求比例条件下，算力使用节点的数量与效用结果的关系，图8示意性示出了根据本公开实施例的一种在固定算力需求比例条件下，算力使用节点的数量与效用结果的关系的示意图。从图8可以看出，在算力使用节点用于挖矿的算力比例较大，且算力使用节点的数量越少时，效用越大。这是由于算力使用节点较少时，其挖矿成功进而获得奖励的概率越大。而随着节点数量的增加，其挖矿的成本风险也会随之增加，从而导致效用减少。

图9示意性示出了根据本公开的实施例的一种网络参数确定装置的框图。

如图9所示，网络参数确定装置900可以包括第一确定模块910、第二确定模块920、第三确定模块930、调整模块940和第四确定模块950。

第一确定模块910、第二确定模块920、第三确定模块930、调整模块940和第四确定模块950通信连接。

第一确定模块910，用于确定算力提供节点的第一效用函数，其中，算力提供节点用于向多个算力使用节点提供算力，第一效用函数用于表征算力提供节点在算力交易中的收益，第一效用函数的输入参数包括算力单元单价和算力需求。

第二确定模块920，用于确定多个算力使用节点中每个算力使用节点的第二效用函数，其中，第二效用函数用于表征算力使用节点在算力交易中的收益，第二效用函数的输入参数包括算力单元单价和算力需求，多个算力使用节点和算力提供节点为区块链的节点。

第三确定模块930，用于确定约束条件，其中，约束条件用于表征第一效用函数的输出值最大且多个第二效用函数的输出值最大所需满足的条件。

调整模块940，用于调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值和多个第二效用函数的输出值满足约束条件。

第四确定模块950，用于在满足约束条件的情况下，将算力单元单价和算力需求的取值分别确定为目标算力单元单价值和目标算力需求值。

根据本公开实施例的技术方案，通过确定算力提供节点的第一效用函数，算力提供节点用于向多个算力使用节点提供算力，第一效用函数用于表征算力提供节点在算力交易中的收益，第一效用函数的输入参数包括算力单元单价和算力需求，确定多个算力使用节点中每个算力使用节点的第二效用函数，第二效用函数用于表征算力使用节点在算力交易中的收益，第二效用函数的输入参数包括算力单元单价和算力需求，多个算力使用节点和算力提供节点为区块链的节点，确定约束条件，约束条件用于表征第一效用函数的输出值最大且多个第二效用函数的输出值最大所需满足的条件，调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值和多个第二效用函数的输出值满足约束条件，在满足约束条件的情况下，将算力单元单价和算力需求的取值分别确定为目标算力单元单价值和目标算力需求值。本技术方案多个算力使用节点和算力提供节点为区块链的节点，区块链的加入建立了算力提供节点和算力使用节点之间的价值传递途径，因此，解决了算力供需矛盾的问题。同时，分别从算力提供节点和算力使用节点两个方面建立效用函数，通过调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值最大且多个第二效用函数的输出值最大，得到目标算力单元单价值和目标算力需求值，实现了同时实现算力提供节点和全部算力使用节点的效用最大化，从而解决了算力节点缺乏激励的问题。

可选地，在上述技术方案的基础上，调整模块940可以包括调整子模块。

调整子模块，用于基于多智能体强化学习算法，调整算力单元单价和多个算力需求的取值，使得第一效用函数的输出值和多个第二效用函数的输出值满足约束条件。

可选地，在上述技术方案的基础上，调整子模块可以包括第一确定单元、第一更新单元、第二更新单元、第二确定单元、第三确定单元、第四确定单元、第三更新单元、第四更新单元和执行单元。

第一确定单元，用于确定与算力提供节点对应的第一累计回报当前收益值、第一当前状态、第一当前动作、第一当前策略和第一平均策略，其中，第一累计回报当前收益值为第一累计回报函数的当前输出值，第一累计回报函数的输入参数包括第一当前状态和第一当前动作，第一当前状态由多个算力需求的上一取值确定，第一当前动作由算力单元单价的当前取值确定，第一当前策略和第一平均策略的输入参数包括第一当前状态。

第一更新单元，用于根据第一效用函数的当前输出值更新第一累计回报当前收益值。

第二更新单元，用于更新第一当前状态、第一当前策略和第一平均策略。

第二确定单元，用于根据第一当前动作确定与每个算力使用节点对应的第二当前状态。

第三确定单元，用于根据更新后的第一当前状态确定与每个算力使用节点对应的第二当前动作。

第四确定单元，用于确定与每个算力使用节点对应的第二累计回报当前收益值、第二当前策略和第二平均策略，其中，第二累计回报当前收益值为第二累计回报函数的当前输出值，第二累计回报函数的输入参数包括第二当前状态和第二当前动作，第二当前策略和第二平均策略的输入参数包括第二当前状态。

第三更新单元，用于根据第一效用函数的当前输出值更新第二累计回报当前收益值。

第四更新单元，用于更新第二当前策略和第二平均策略。

执行单元，用于重复执行根据第一效用函数的当前输出值更新第一累计回报当前收益值至更新第二当前策略和第二平均策略的操作，直至第一累计回报当前收益值和第二累计回报当前收益值收敛。

可选地，在上述技术方案的基础上，第四确定模块950可以包括第一确定子模块和第二确定子模块。

第一确定子模块，用于将与收敛的第一累计回报当前收益值对应的第一当前动作确定为目标算力单元单价值。

第二确定子模块，用于将与收敛的第二累计回报当前收益值对应的第二当前动作确定为目标算力需求值。

可选地，在上述技术方案的基础上，通过如下公式表示第二效用函数：

通过如下公式表示第一效用函数：

表示，

F_i ^t-1表示算力使用节点i在时刻t-1的算力需求的取值。

与算力提供节点cpp对应的第一当前动作用p^t表示。

与算力使用节点i对应的第二当前状态用

表示，

与算力使用节点i对应的第二当前动作用F_i ^t表示。

根据本公开的实施例的模块、子模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(Field ProgrammableGate Array，FPGA)、可编程逻辑阵列(Programmable Logic Arrays，PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(Application Specific Integrated Circuit，ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，第一确定模块910、第二确定模块920、第三确定模块930、调整模块940和第四确定模块950中的任意多个可以合并在一个模块/子模块/单元中实现，或者其中的任意一个模块/子模块/单元可以被拆分成多个模块/子模块/单元。或者，这些模块/子模块/单元中的一个或多个模块/子模块/单元的至少部分功能可以与其他模块/子模块/单元的至少部分功能相结合，并在一个模块/子模块/单元中实现。根据本公开的实施例，第一确定模块910、第二确定模块920、第三确定模块930、调整模块940和第四确定模块950中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一确定模块910、第二确定模块920、第三确定模块930、调整模块940和第四确定模块950中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中算力交易处理装置部分与本公开的实施例中算力交易处理方法部分是相对应的，算力交易处理装置部分的描述具体参考算力交易处理方法部分，在此不再赘述。

本公开实施例提供了一种算力交易系统，算力交易系统可以包括算力提供节点、多个算力使用节点和本公开实施例所述的算力分配节点。

需要说明的是，本公开实施例所述的算力提供节点、多个算力使用节点和算力分配节点的具体说明可参见上文相应部分，在此不再具体赘述。

图10示意性示出了根据本公开实施例的适于实现上文描述的方法的区块链的算力分配节点的框图。图10示出的区块链的算力分配节点仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，根据本公开实施例的区块链的算力分配节点101包括处理器1011，其可以根据存储在只读存储器(Read-Only Memory，ROM)1012中的程序或者从存储部分1018加载到随机访问存储器(Random Access Memory，RAM)1013中的程序而执行各种适当的动作和处理。处理器1011例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1011还可以包括用于缓存用途的板载存储器。处理器1011可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1013中，存储有系统101操作所需的各种程序和数据。处理器1011、ROM1012以及RAM 1013通过总线1014彼此相连。处理器1011通过执行ROM 1012和/或RAM 1013中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1012和RAM 1013以外的一个或多个存储器中。处理器1011也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统101还可以包括输入/输出(I/O)接口1015，输入/输出(I/O)接口1015也连接至总线1014。系统101还可以包括连接至I/O接口1015的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1016；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1017；包括硬盘等的存储部分1018；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1019。通信部分1019经由诸如因特网的网络执行通信处理。驱动器1020也根据需要连接至I/O接口1015。可拆卸介质1021，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1020上，以便于从其上读出的计算机程序根据需要被安装入存储部分1018。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1019从网络上被下载和安装，和/或从可拆卸介质1021被安装。在该计算机程序被处理器1011执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM(Erasable Programmable Read Only Memory)或闪存)、便携式紧凑磁盘只读存储器(Computer Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1012和/或RAM 1013和/或ROM 1012和RAM 1013以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种算力交易处理方法，包括：

确定算力提供节点的第一效用函数，其中，所述算力提供节点用于向多个算力使用节点提供算力，所述第一效用函数用于表征所述算力提供节点在算力交易中的收益，所述第一效用函数的输入参数包括算力单元单价和算力需求；

确定所述多个算力使用节点中每个所述算力使用节点的第二效用函数，其中，所述第二效用函数用于表征所述算力使用节点在所述算力交易中的收益，所述第二效用函数的输入参数包括所述算力单元单价和所述算力需求，所述多个算力使用节点和所述算力提供节点为区块链的节点；

确定约束条件，其中，所述约束条件用于表征所述第一效用函数的输出值最大且多个所述第二效用函数的输出值最大所需满足的条件；

调整所述算力单元单价和多个所述算力需求的取值，使得所述第一效用函数的输出值和多个所述第二效用函数的输出值满足所述约束条件；以及

在满足所述约束条件的情况下，将所述算力单元单价和所述算力需求的取值分别确定为目标算力单元单价值和目标算力需求值。

2.根据权利要求1所述的方法，其中，所述调整所述算力单元单价和多个所述算力需求的取值，使得所述第一效用函数的输出值和多个所述第二效用函数的输出值满足所述约束条件，包括：

基于多智能体强化学习算法，调整所述算力单元单价和多个所述算力需求的取值，使得所述第一效用函数的输出值和多个所述第二效用函数的输出值满足所述约束条件。

3.根据权利要求2所述的方法，其中，所述基于多智能体强化学习算法，调整所述算力单元单价和多个所述算力需求的取值，使得所述第一效用函数的输出值和多个所述第二效用函数的输出值满足所述约束条件，包括：

确定与所述算力提供节点对应的第一累计回报当前收益值、第一当前状态、第一当前动作、第一当前策略和第一平均策略，其中，所述第一累计回报当前收益值为第一累计回报函数的当前输出值，所述第一累计回报函数的输入参数包括所述第一当前状态和所述第一当前动作，所述第一当前状态由多个所述算力需求的上一取值确定，所述第一当前动作由所述算力单元单价的当前取值确定，所述第一当前策略和所述第一平均策略的输入参数包括所述第一当前状态；

根据所述第一效用函数的当前输出值更新所述第一累计回报当前收益值；

更新所述第一当前状态、所述第一当前策略和所述第一平均策略；

根据所述第一当前动作确定与每个所述算力使用节点对应的第二当前状态；

根据更新后的所述第一当前状态确定与每个所述算力使用节点对应的第二当前动作；

确定与每个所述算力使用节点对应的第二累计回报当前收益值、第二当前策略和第二平均策略，其中，所述第二累计回报当前收益值为第二累计回报函数的当前输出值，所述第二累计回报函数的输入参数包括所述第二当前状态和所述第二当前动作，所述第二当前策略和所述第二平均策略的输入参数包括所述第二当前状态；

根据所述第一效用函数的当前输出值更新所述第二累计回报当前收益值；

更新所述第二当前策略和所述第二平均策略；以及

重复执行根据所述第一效用函数的当前输出值更新所述第一累计回报当前收益值至更新所述第二当前策略和所述第二平均策略的操作，直至所述第一累计回报当前收益值和所述第二累计回报当前收益值收敛。

4.根据权利要求3所述的方法，其中，所述在满足所述约束条件的情况下，将所述算力单元单价和所述算力需求的取值分别确定为目标算力单元单价值和目标算力需求值，包括：

将与收敛的所述第一累计回报当前收益值对应的第一当前动作确定为目标算力单元单价值；以及

将与收敛的所述第二累计回报当前收益值对应的第二当前动作确定为目标算力需求值。

5.根据权利要求4所述的方法，其中，通过如下公式表示所述第二效用函数：