CN111476606A

CN111476606A - 多目标资源分配方法、装置、计算机设备及存储介质

Info

Publication number: CN111476606A
Application number: CN202010269880.8A
Authority: CN
Inventors: 熊娇; 刘雨桐; 石强; 王国勋
Original assignee: Runlian Software System Shenzhen Co Ltd
Current assignee: Runlian Software System Shenzhen Co Ltd
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-07-31

Abstract

本发明公开了多目标资源分配方法、装置、计算机设备及存储介质，方法包括：构造资源需求方的利益目标函数以及制造商的利益目标函数，并基于所述资源需求方的利益目标函数以及制造商的利益目标函数构造全局利益目标函数；基于所述全局利益目标函数和多人纳什讨价还价问题，构建一对多纳什讨价还价模型；使用拉格朗日松弛乘子构建一对多纳什讨价还价模型的松弛问题并且得到其对偶形式，然后进行分解得到子问题，再利用次梯度法调节π值进行迭代，得到最终的资源分配方案。本发明针对多人讨价还价问题构建一对多纳什讨价还价模型，再利用拉格朗日松弛进行求解，从而得到最优分配方案。

Description

多目标资源分配方法、装置、计算机设备及存储介质

技术领域

本发明涉及资源分配技术领域，尤其涉及多目标资源分配方法、装置、计算机设备及存储介质。

背景技术

采购商与供应商之间的买卖关系历史悠久，如今供不应求的总量供给矛盾阶段己经成为过去，过剩现象在我国当前消费品市场上越来越频繁出现。在面对资源过剩的市场，买卖权力发生转移。而在现实生活中，一个资源提供方往往面对多个客户，且每个客户有着各自的特性与要求，对其关于在资源分配方面问题，传统的拍卖解决方式是服从主从博弈的。如今，面对市场环境的转变，研究解决这类问题的新方法是有意义的和值得探究的。

基于在该类多目标的资源分配的问题的研究，也是有现实应用价值的，如购物节目中确定不同广告的播放时段，生产流水线确定不同特性产品的制作时间段，体育比赛时确定各休息阶段中的广告投放情况等该种类型的现实问题，从而保证各方的利益。下面以购物节目为例具体进行说明，购物节目频道一天在不同的时段会有不同的产品广告，也就是说对购物节目的资源分配其实就是对它提供给产品进行广告所需的时间资源进行分配，其时间就是一个资源，任何时间段只能提供给一个产品进行广告，而每个产品其实都会有自己最想要进行广告的时间段，基于这样的多目标情形，对不同的产品分配其合适的广告时间段。但现有技术中对于类似的多目标资源分配方式效率低、无法均衡各方效益。

鉴于现有技术存在的上述问题，因此有必要对现有技术进行优化和改进。

发明内容

本发明实施例提供了多目标资源分配方法、装置、计算机设备及存储介质，旨在解决解决资源过剩市场环境下的多目标资源分配的问题。

本发明实施例提供一种基于纳什讨价还价的多目标资源分配方法，其包括：

构造资源需求方的利益目标函数以及制造商的利益目标函数，并基于所述资源需求方的利益目标函数以及制造商的利益目标函数构造全局利益目标函数；

基于所述全局利益目标函数和多人纳什讨价还价问题，构建一对多纳什讨价还价模型；

使用拉格朗日松弛乘子构建一对多纳什讨价还价模型的松弛问题并且得到其对偶形式，然后进行分解得到子问题，再利用次梯度法调节π值进行迭代，得到最终的资源分配方案。

优选的，所述构造资源需求方的利益目标函数以及制造商的利益目标函数，并基于所述资源需求方的利益目标函数以及制造商的利益目标函数构造全局利益目标函数，包括：

将一资源需求方的订单J_i的可行策略集设为：

其中，r_i为订单J_i的到达时间，p_i为订单J_i的处理时间，w_i为订单J_i到达后的等待加工时间，H为整个调度时域，N为订单的总数量；

将所有资源需求方的可行策略集组成一个n维空间W：

其中，n维空间W是欧式空间中一个非空、闭、凸的连续子集；

将所有资源需求方的时间效用函数表达为：

i＝1,…,n，其中C_i为订单J_i的完成时间，d_i为订单J_i的期望交期；

将所有资源需求方的利益目标函数表达为：

其中，

i＝1,2,…,n；

p_i＝p，

为变量；

构造全局利益目标函数如下：

M₁＝∑C_i， Q₁＝∑f_i+∑C_i；

或M₂＝C_max， Q₂＝∑f_i+C_max，其中，C_max为最大的C_i。

优选的，所述

满足下式：

i＝1,2,…,n；

优选的，所述基于所述全局利益目标函数和多人纳什讨价还价问题，构建一对多纳什讨价还价模型，包括：

当全局性能指标为完工时间之和时，构建一对多纳什讨价还价模型如下：

当全局性能指标为最大完工时间时，构建一对多纳什讨价还价模型如下：

其中，α为制造商的讨价还价能力系数，β_i为订单J_i对应资源需求方的讨价还价能力系数，且α+∑β_i＝1；n₁和n₂分别为正规型订单和非正规型订单的数目；n₃代表有n₃个订单的期望交期

优选的，所述使用拉格朗日松弛乘子构建一对多纳什讨价还价模型的松弛问题并且得到其对偶形式，然后进行分解得到子问题，包括：

按如下公式使用拉格朗日松弛乘子构建松弛问题

给出对偶形式如下：

优选的，分解得到的子问题如下：

优选的，所述再利用次梯度法调节π值进行迭代，得到最终的资源分配方案，包括：

按下式进行迭代：

其中步长为

其中，λ∈(1,2)，

表示为全局目标最优值BM(w^opt)的估计值，即是其下界值；

和

分别为第r次迭代时第k个资源段的竞争情况和BM(w^opt)的上界。

本发明实施例还提供一种基于纳什讨价还价的多目标资源分配装置，包括：

函数构造单元，用于构造资源需求方的利益目标函数以及制造商的利益目标函数，并基于所述资源需求方的利益目标函数以及制造商的利益目标函数构造全局利益目标函数；

模型构建单元，用于基于所述全局利益目标函数和多人纳什讨价还价问题，构建一对多纳什讨价还价模型；

资源分配单元，用于使用拉格朗日松弛乘子构建一对多纳什讨价还价模型的松弛问题并且得到其对偶形式，然后进行分解得到子问题，再利用次梯度法调节π值进行迭代，得到最终的资源分配方案。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于纳什讨价还价的多目标资源分配方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述基于纳什讨价还价的多目标资源分配方法。

本发明实施例提供了多目标资源分配方法、装置、计算机设备及存储介质，方法包括：构造资源需求方的利益目标函数以及制造商的利益目标函数，并基于所述资源需求方的利益目标函数以及制造商的利益目标函数构造全局利益目标函数；基于所述全局利益目标函数和多人纳什讨价还价问题，构建一对多纳什讨价还价模型；使用拉格朗日松弛乘子构建一对多纳什讨价还价模型的松弛问题并且得到其对偶形式，然后进行分解得到子问题，再利用次梯度法调节π值进行迭代，得到最终的资源分配方案。本发明实施例分别构造资源需求方的利益目标函数、制造商的利益目标函数和全局利益目标函数，同时针对多人讨价还价问题进行描述，然后构建一对多纳什讨价还价模型，再利用拉格朗日松弛进行求解，从而得到最优分配方案。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于纳什讨价还价的多目标资源分配方法的流程示意图；

图2为本发明实施例提供的一种基于纳什讨价还价的多目标资源分配方法的具体流程示意图；

图3为本发明实施例中典型的非正规型的时间效用函数示意图；

图4为本发明实施例提供的一种基于纳什讨价还价的多目标资源分配装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种基于纳什讨价还价的多目标资源分配方法的流程示意图，该方法包括：

S101、构造资源需求方的利益目标函数以及制造商的利益目标函数，并基于所述资源需求方的利益目标函数以及制造商的利益目标函数构造全局利益目标函数；

S102、基于所述全局利益目标函数和多人纳什讨价还价问题，构建一对多纳什讨价还价模型；

S103、使用拉格朗日松弛乘子构建一对多纳什讨价还价模型的松弛问题并且得到其对偶形式，然后进行分解得到子问题，再利用次梯度法调节π值进行迭代，得到最终的资源分配方案。

本发明实施例依据资源需求方和制造商的利益目标，分别构造资源需求方的利益目标函数、制造商的利益目标函数以及全局目标函数，同时依据多人讨价还价问题构建一对多纳什讨价还价模型，最后利用拉格朗日松弛进行求解，从而得到最优分配方案。

如图2所示，首先对问题进行前提假设及详细描述，然后分别构造资源需求方的利益目标函数、制造商的利益目标函数和全局目标函数，同时针对多人讨价还价问题进行描述，然后构建一对多纳什讨价还价模型，最后利用拉格朗日松弛进行求解，从而得到最优分配方案。

本发明实施例提供的是一个拥有固定产能的制造商在面对多个自利且异构资源需求方的情况下的资源分配机制，如背景技术中提到的购物节目场景。其中，制造商拥有一个单机生产系统，整个调度时域为H，且H足够大，所有资源需求方订单皆能够在调度时域H内完成。每个资源需求方只有一个订单，n个资源需求方代表n个待处理订单，记为{J₁,J₂,…,J_n}。订单J_i的到达时间为r_i，考虑所有订单在调度时域零时刻全部达到，即r_i＝0。订单J_i到达后的等待加工时间为w_i。订单J_i的处理时间为p_i，假设产品加工时间长度相同，且都是单位时间长度，故所有订单的处理时间皆为调度时域的单位时间p，即p_i＝p。订单J_i的期望交期d_i(假设不管订单逾期多久交付给顾客，顾客都愿意接收订单)，订单J_i的完成时间为C_i。以上各量均为非负整数且i＝1,2,…,n。

此外，不同的资源需求方具有不同的时间效用函数f_i(简称时效函数)。具体而言，时效函数f_i有可能是正规型的时效函数，也可能是非正规型的时效函数。其中，正规型时效函数指资源需求方希望尽可能早的收到所需产品或者服务；而非正规型时效函数最常见的形式就是JIT型，即资源需求方有一个期望交期d_i，制造商早于或迟于d_i交货都会带来相应的成本。制造商与资源需求方的目标都是最小化自身成本。

在问题上述描述的基础上，本发明实施例将采用两种常见的全局性能指标，分别为M₁＝∑C_i，即完成时间之和，或M₂＝C_max，即最大完成时间。制造商不允许订单抢占，有r_i+w_i+p_i＝C_i和r_i+p_i≤d_i。

在一实施例中，所述构造资源需求方的利益目标函数以及制造商的利益目标函数，并基于所述资源需求方的利益目标函数以及制造商的利益目标函数构造全局利益目标函数，包括：

将一资源需求方的订单J_i的可行策略集设为：

其中，r_i为订单J_i的到达时间，p_i为订单J_i的处理时间，w_i为订单J_i到达后的等待加工时间，H为整个调度时域，N为订单的总数量(即为前面的n)；

将所有资源需求方的可行策略集组成一个n维空间W：

每个资源需求方J_i都具有独立的目标函数f_i，考虑到C_i与w_i的密切关系，用w_i代替C_i作为资源需求方J_i的决策变量。因此，资源需求方J_i选择合适的w_i来最小化时间效用：

将所有资源需求方的时间效用函数表达为：

其中C_i为订单J_i的完成时间，d_i为订单J_i的期望交期。

在一实施例中，所述

满足下式：

其中的otherwise即指pk为其他情况，也就是除上面的情况之外的其他情况。上述式(5)表示如果订单J_i在第k个时间资源段上加工，则

为1；否则

为0。即式(5)隐含了不可抢占约束，任何一个任务必须连续加工直至完成。

将所有资源需求方的利益目标函数表达为：

其中，

并且，p_i＝p，

为变量。

本发明实施例中，f_i(w_i)可能为正规型，即f(x)＝ax，a为任意正数。f_i(w_i)也可能为非正规型。其中，典型的非正规型f_i(w_i)为JIT指标，即最小化延迟时间，如图3所示。

构造全局利益目标函数如下：

Q₁＝∑f_i+∑C_i； (10)

此时，M₁＝∑C_i。也就是，全局性能指标是完工时间之和。

或Q₂＝∑f_i+C_max； (11)

其中C_max为最大的C_i。此时，M₂＝C_max。也就是，全局性能指标是最大完工时间。

上述式(10)和(11)满足约束(5)至(6)。

制造商M和n个资源需求方J_i构成了n+1个参与方，就资源段调度方案问题进行讨价还价。用A和B_Ji分别表示制造商与资源需求方J_i的策略集合，a表示制造商选择的具体行动，b_Ji表示制造商资源需求方J_i选择的具体行动，以X＝(a,b_J1,b_J2,…,b_Jn)表示可行的调度方案组合。制造商与资源需求方的从调度方案组合中得到的效用分别记为u_M、u_Ji，以U＝(u_M,u_J1,u_J2,…,u_Jn)表示制造商与n个资源需求方的效用对集合。制造商与资源需求方J_i不仅具有独立的效用函数，而且可能拥有不同的保留收益，分别记为

以

表示参与方保留收益集，此处的保留收益是指当制造商与资源需求方J_i之间没有达成协议时，各方能够得到多少效用。

故在满足

且X与U为Euclidean空间中非空的凸紧集；和

时，纳什讨价还价中策略博弈模型可表述为：Nash Bargaining Problem(NBP)＝<X,U,U⁰>。

本发明实施例中考虑的是制造商与资源需求方的成本函数，故制造商与资源需求方的保留收益便转换为双方没有达成最终协议时，交易双方的成本为多少。简单地说，在本发明实施例中制造商和资源需求方的最低要求便为双方能接受的最高成本。制造商与资源需求方的讨价还价问题中只有在满足

及

条件下，各参与方才有可能达成协议。

对于仅仅考虑制造商效益来说，当目标为最小化完成时间之和时，制造商的最高成本的情形是所有正规型的资源需求方依次排在资源段的最前方，而非正规的资源需求方则依次排在资源段的最后端，此时计算结果为

其中n₁和n₂分别为正规型订单和非正规型订单的数目；当目标为最小最大完成时间时，制造商的最高成本

即制造商能接受的最差情况为最后一个订单恰好在H处完成。

对于资源需求方J_i来说，由于所有正规型资源需求方都希望抢占第一个资源段，故可以将正规型资源需求方看做期望交期为p的“非正规型”资源需求方，此时分两种情况：当

时，

当

时，

因此，对于本发明实施例的具体场景，一般化的NBS为：

其中，α和β_i分别为制造商、资源需求方的讨价还价能力系数，且均为非负，α+∑β_i＝1。

将制造商的整个调度时域H分成

个单位资源段，针对每一个资源段

的利用，制造商与n个资源需求方{J₁,J₂,…,J_n-1,J_n}讨价还价。假设e_i∈(0,1]，此处表示资源需求方在讨价还价过程中，所报的最差性能界并不一定是其真实的最差性能界，资源需求方是可以退出讨价还价的，而制造商是不能退出的，故e_m1＝1、e_m2＝1，且此处不考虑讨价还价的成本。而本发明中设定资源需求方不可退出讨价还价的，则e_i＝1。

1)全局性能指标为完工时间之和时制造商的净效用函数

2)全局性能指标为最大完工时间时制造商的净效用函数

3)资源需求方J_i的净效用函数

当

时，

当

时，

在一实施例中，所述基于所述全局利益目标函数和多人纳什讨价还价问题，构建一对多纳什讨价还价模型，包括：

本发明实施例针对单机资源分配问题中纳什讨价还价模型提出的协调机制如下：制造商为k个资源段设定初始价格π_k，n个资源需求方根据自身时间效用函数和所占用的资源段的支付价格来对k个资源段进行讨价还价。一轮讨价还价结束后，收集所有资源需求方的策略性选择，利用该排序计算上界值，然后对其进行可行化排序，利用该可行化排序计算下界值。再利用上下界的值更新资源段价格π_k，进行下一轮讨价还价。重复上述步骤直到没有参与方愿意改变自己的策略性行为，且资源段价格不变。其中，每一轮讨价还价更新资源段的价格π_k，不仅减轻了资源段的稀缺程度，而且引导了资源需求方的自利性行为。

为了保证调度结果的可行性，本发明利用如式(8)的硬惩罚方式来处理约束(6)，为了定量反应各方策略间的互相影响力，有利于其计算，运用一种“软”惩罚方式替代原先的硬惩罚项：

其中，π_k为资源价格，且是

的函数。式(15)表示的即为：当资源需求方J_i在第k个资源段加工时，该资源需求方需要根据此资源段的资源价格π_k付出W_ik代价。一般情况下，π_k随资源稀缺程度

的增加而增加。拉格朗日方法便是采用上述类型的惩罚方式，并在传统调度问题研究中得到广泛应用。

具体说来，随着资源价格π_k的引入，本发明实施例的协调机制如下：在现有每个资源段的资源价格基础上，n个独立且自私的资源需求方根据目标式(7)和(15)进行讨价还价，选择自己期望的资源段，其中w_i是资源需求方的唯一决策变量；而制造商则根据资源需求方对不同资源段的选择情况按照某种方法更新资源价格，其中，决策变量为π_k，如此迭代，直至形成均衡。

对于制造商来说，不仅需要考虑自身利益，仍要考虑资源需求方效用，故制造商在满足

及资源约束的前提下优化纳什讨价还价模型BM(w^*)。

在一实施例中，所述使用拉格朗日松弛乘子构建一对多纳什讨价还价模型的松弛问题并且得到其对偶形式，然后进行分解得到子问题，包括：

按如下公式使用拉格朗日松弛乘子构建松弛问题

通过优化式(16)，可以得到最优全局讨价还价性能值BM(w^opt)的上界。为了得到更紧的上界，给出式(16)的对偶形式如下：

在一实施例中，分解得到的子问题如下：

在一实施例中，所述再利用次梯度法调节π值进行迭代，得到最终的资源分配方案，包括：

按下式进行迭代：

也就是用次梯度法调节π值，解决对偶问题D。

其中步长为

其中，λ∈(1,2)，

表示为全局目标最优值BM(w^opt)的估计值，即是其下界值；

为第r次迭代时第k个资源段的竞争情况，

为BM(w^opt)的上界，即式(17)的值。

通过式(19)和(20)不断调整π引导自利资源需求方的策略性行为，使得

趋向于

当w^r和

在最近3次迭代中均保持不变，则迭代停止。此时，w^r不变表示所有资源需求方达到了现有情况下的最优，不会改变其策略；而

保持不变则说明系统也已在现有情况下达到了资源的最优配置程度，无需再改变。

请参阅图4，图4为本发明实施例提供的一种基于纳什讨价还价的多目标资源分配装置400的示意性框图，该多目标资源分配装置400包括：

函数构造单元401，用于构造资源需求方的利益目标函数以及制造商的利益目标函数，并基于所述资源需求方的利益目标函数以及制造商的利益目标函数构造全局利益目标函数；

模型构建单元402，用于基于所述全局利益目标函数和多人纳什讨价还价问题，构建一对多纳什讨价还价模型；

资源分配单元403，用于使用拉格朗日松弛乘子构建一对多纳什讨价还价模型的松弛问题并且得到其对偶形式，然后进行分解得到子问题，再利用次梯度法调节π值进行迭代，得到最终的资源分配方案。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本发明还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被处理器执行时可以实现上述实施例所提供的方法。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明还提供了一种计算机设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的方法。当然所述计算机设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。