CN113240189A

CN113240189A - 基于信誉值的动态车辆任务与算力匹配方法

Info

Publication number: CN113240189A
Application number: CN202110608466.XA
Authority: CN
Inventors: 孙丽珺; 郭嘉宸; 杨宇燊; 王研; 毛仕龙
Original assignee: Qingdao University of Science and Technology
Current assignee: Qingdao University of Science and Technology
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-10
Anticipated expiration: 2041-06-01
Also published as: CN113240189B

Abstract

本发明公开一种基于基于信誉值的动态车辆任务与算力匹配方法，使用深度学习中的Conv‑GRU模型对任务数、工人数、工人信誉值、车流量进行预测，并结合强化学习中的DQN算法，对预测所得任务序列进行动态划分批次，最后在每一个划分好的批次内，通过KM算法结合工人的信誉度以及任务的重要程度进行二部图匹配，最终实现算力和任务的最优匹配。本方案不仅考虑了车辆任务的时空特征以及动态性特征，而且结合了车辆信誉值，车辆任务的重要程度等因素，且预测精度较其他方法更高，预测速度更快，批次划分更加合理，从而使车辆获得更高的收益；此外，其不需要特殊的部署和额外的硬件设备，成本较低，实用性较强，具有很高的实用价值。

Description

基于信誉值的动态车辆任务与算力匹配方法

技术领域

本发明属于众包任务分配领域，具体涉及一种基于信誉值的动态车辆任务与算力匹配方法。

背景技术

随着互联网的快速发展及信息全球化的推进，众包模式应运而生。众包是互联网带来的新的生产组织形式，其在数据标注、图书电子化、知识图谱构建等方面都有着广泛的应用，是一种分布式解决问题的方式。目前，带有多种传感器和网络的智能手机己经无处不在，这些智能设备能够产生大量的信息(如照片、视频、地理位置、行车轨迹等各种各样的数据)，而空间众包作为一种新型计算范式可以有效利用这些信息产生经济效益，得到越来越多的关注。

现有技术中，针对任务分配问题，学者们已有进行大量的研究，主要包括基于静态场景的研究和基于动态场景的研究：

(1)基于静态场景的研究指的是众包平台事先知道任务和工人的时空属性，对工人和任务进行匹配。比如，一部分研究人员聚焦工人和任务的相对位置，以此量化任务和工人已知的位置信息，并以最小化最大匹配距离为目标，来对工人和任务进行匹配，而在现实场景中，这显然是不切实际的，工人和任务不可能一直待在同一个位置，尤其是工人，他们需要通过不停地移动来寻找潜在的任务；也有一部分研究人员聚焦工人的专业技能，将工人的专业技能融入到众包任务分配中，但是寻找与任务所需技能相匹配的工人需要耗费大量的时间，在任务存续期间普遍较短的前提下，寻找类似的工人难度较大，无法充分保证匹配的成功率；(2)基于动态场景的研究指的是众包平台事先并不知道任务和工人的时空属性，任务和工人随机出现在众包平台内；虽然任务分配的目标函数各不相同，但是其均考虑了当前工人和任务动态出现的情况，采用了完全在线启发式的策略来解决众包分配中的NP-hard问题。

在划分批次阶段，现有的任务分配一般是基于固定批次的，考虑到工人和任务是具有时空属性的，部分工人和任务的截止时间小于批次的截止时间，这样会导致部分工人或任务在当前批次内没有得到分配，而无法保留到下一批次内，从而导致匹配率低；另外，由于众包的任务数是具有很明显的周期性性时间特征，因此使用传统的方法很难预测准确；而且，若使用强化学习中Q-learning等方法进行批次划分，由于Q-learning方法用于更新Q值的Q表在处理数据量较大情况下，其查找和存储都需要耗费大量的时间和空间；与此同时，Q-learning中的状态之间具有很强的相关性，也会影响批次划分的最终结果。而且，在工人-任务匹配阶段，现有的众包分配算法在完成匹配时，并未考虑到工人的历史信誉值(过去完成任务的情况)和任务的重要程度对匹配的影响，也会对最终的匹配结果造成影响。

综上可见，当前关于众包任务分配算法有两个明显的不足的地方：一方面是任务分配时只考虑当前加入众包平台的任务能力需求和工人的能力水平来进行分配，却忽略了工人完成工作的历史信誉值对本次任务分配是否能完成的影响；另一方面是没有考虑动态划分批次对于任务分配的影响，在实际生活中，工人和任务都是动态到达的，并且可以在不做出任何通知的情况下随时离开，因此批次应该是动态的，并非是固定的。分配任务时除了应该让能者多劳，更应该让信者优劳，把重要的任务优先交给历史信誉好的工人完成。

发明内容

本发明针对现有技术中存在的众包任务分配效率低、准确性差等缺陷，提出一种基于信誉值的动态车辆任务与算力匹配方法，在考虑时空特性的情况下，通过Conv-GRU模型得到未来的车流量，再基于一定的概率分布得到分配时的任务和工人状况，充分考虑了动态划分批次及任务数时间性的特点，预测精度高、速度快，批次划分合理，可使众包平台获得更高的收益。

本发明是采用以下的技术方案实现的：一种基于信誉值的动态车辆任务与算力匹配方法，包括以下步骤：

步骤A、基于预测模型对交通流量和车辆任务数、算力数、信誉值等特征进行预测：通过提取某条车道上的车流量的时空特征，来预测该条车道在未来某一时刻的交通流量，并得到相应的车辆任务数、算力数和信誉值；

步骤B、基于动态批次划分模型对所预测得到的车辆任务数与算力数序列进行动态批次划分：根据步骤A所预测的参数，基于强化学习中的DQN模块，确定强化学习中的状态，动作，并最终确定最佳的分批策略；

步骤C、在划分好的动态批次内，基于信誉值改进的R-KM算法，结合工人信誉度以及任务的重要程度进行二部图匹配，实现算力与任务的最优匹配。

进一步的，所述步骤A中，基于深度学习中的Conv-GRU模块，首先对输入数据进行卷积处理，提取输入数据特征，然后再输入GRU模块进行交通流量预测，从而预测出未来交通流量数据以及每辆车的任务数、算力数以及信誉值。

进一步的，所述步骤B中，具体通过以下方式实现：

B1、将分批过程构建成马尔科夫决策过程M＝(S,A,R,T)；

·S表示状态空间，其中每个状态s＝(c,l)∈S代表一个二部图；

·A表示动作空间，其中每个动作Len∈A代表在当前批次下预切割的长度；

·R表示奖励，其中R_t表示从状态(c_t,l_t)选择动作Len_t转换到下一个状态(c_t+1,l_t+1)所获得的奖励，其含义为对批次内的工人和任务进行匹配后的收益；

·T表示时间，其含义为预测结果的时间段；

B2、利用先分再合的思想将整个预测的动态二部图分割为若干单位二部图，并将若干个单位二部图合并为一个批次；

B3、自适应分批，确定最佳的分批策略：

(1)规定最小批次状态为当前状态，将当前状态的特征向量输入到深度神经网络中，输出为当前状态下的所有价值动作函数值Q(s,len|θ_t)，采用ε-贪心策略选择出当前状态下的动作Len_t；

(2)在当前状态下，当动作符合一定的约束后，智能体执行相应动作并进入到下一状态，得到延时奖励、获得样本e_t＝(s_t,len_t,R_t,s_t+1,d_t)，在每轮迭代完成后，一起将该轮迭代中的所有时间步t的e_t＝(s_t,len_t,R_t,s_t+1,d_t)作为该轮迭代的五元组写入经验回放池中；

(3)从经验回放池中抽取一定数量的样本并使用随机梯度下降算法更新网络参数θ，DQN使用神经卷积网络近似表示当前的值函数，并使用了另一个网络近似产生目标函数

值，将

作为目标值网络的输出结果，目标函数

值用下列公式近似表示：

通过最小化当前Q值和目标

值之间的均方差损失函数来更新当前网络的参数；

L(θ_t)＝E_s,l,R,s'[(Y_i-Q(s,len|θ_t))²] (14)

(4)判断是否需要跟随更新目标网络的参数，并判断是否进入到下一轮迭代。

进一步的，所述步骤B2具体采用以下方式实现：

(1)将批次长度范围限定为[l_min,l_max]，将分配算法运行时间分为两部分，一部分是上层分批算法运行时间，另一部分是底层批次内匹配时间；

(2)对状态以及动作进行定义：(c,l)代表状态，c表示当前批次，l代表当前批次的长度，l∈[l_min,l_max]；Len∈[l_min,l_max]代表动作；

(3)确定状态转换机；当智能体处于当前状态(c_t,l_t)，输入动作Len_t转换到下一个态(c_t+1,l_t+1)并获得延时奖励输出R_t；

当l_t＝Len_t时，不扩大当前二部图规模，对其进行分批操作，下一个状态(c_t+1,l_t+1)＝(c_t+l_min,l_min)定义为下一个最小批次规模的二部图，延时奖励R_t为对批次内的工人和任务进行匹配后的收益；

当l_t＜Len_t时，(c_t+1,l_t+1)＝(c_t+1,l_t+1),R_t＝0，即当前二部图规模达不到分批的标准，对其进行扩大规模操作，加入一个单位二部图；

当l_t＞Len_t时，下一个状态(c_t+1,l_t+1)＝(c_t,l_t),R_t＝0，即当前二部图规模保持不变。

进一步的，所述步骤3实现算力和任务的匹配时，对于通过动态分批产生的长度为l_t交通流量子序列，通过获得其算力数、任务数和完成任务的信誉度，进行车辆算力与车辆任务之间的匹配：

C1、基于各车辆的算力数、任务数以及信誉度，生成提供算力车辆与任务需求车辆之间的权重矩阵：若任两辆车满足供方的算力数大于等于需方的任务数，则取二者间的权值为任务数与信誉值的加权和；若不满足，则认为无法完成任务，即二者无法完成匹配，取二者间的权值为0；从而得到车辆算力与车辆任务之间的权重矩阵；

C2、对于车辆算力与车辆任务，基于权重矩阵进行匹配，匹配使用基于信誉值改进后的R-KM算法，以匹配后的权重和作为奖励。

进一步的，所述步骤C2中，基于信誉值改进后的R-KM算法原理如下：

(1)依次将该批次内的交通流量序列分别作为二部图左顶点和右顶点；

(2)基于权重矩阵初始化任意左右顶点间的权值，进而对左右顶点值进行初始化，左顶点初始值取与其相关联的最大的边的权值，右顶点初始值为0；

(3)各左右顶点初始化完成后，使用匈牙利算法进行完备匹配，并判断是否能实现完备匹配，若能实现，则匹配完成，并返回匹配权重和；若不能，则修改无法完成完备匹配的左右顶点值，左顶点减1，右顶点加1，之后再次使用匈牙利算法进行完备匹配；

(4)最终实现完备匹配，得到匹配权重和，并将其作为匹配收益奖励。

与现有技术相比，本发明的优点和积极效果在于：

1、本方案不仅充分考虑了动态划分批次，还充分考虑了任务数的周期性时间特征，从而设计了一种基于流量预测和动态划分批次的框架：

其一，通过基于深度学习的Conv-GRU模型预测得到车流量、任务数和工人数，进而基于一定的概率分布得到分配时任务数以及工人的相关属性，从而解决任务数预测的时间、空间分布不均的问题。相比于传统的时间序列预测、LSTM以及Conv-LSTM等模型，Conv-GRU模型在兼具准确的预测结果的条件下更加简洁、运算速度更快，能够节省更多的时间与算力开销；其二，对于动态批次划分问题，将其转化为在固定时间段内的多次划分批次的长度确定问题，从而将由整到散的切分转化为由散到整的叠加，降低了运算的复杂度；其三，使用强化学习中DQN模型来进行批次划分，由于DQN模型中有经验回放机制，相比于传统的Q-Learning方法，可以有效解决状态之间强相关性的问题。因此本发明预测精度高，预测速度快，批次划分合理，使众包平台获得更高的收益；

2、本方案充分考虑到了工人的历史信誉和任务的重要程度的影响，提出了基于工人信誉和任务的重要性的最优权和匹配。除了考虑到工人能力属性和任务的需求外，还结合了工人的信誉值和任务的重要程度计算得到匹配的权重，从而实现了基于最大匹配权重的任务与工人的匹配，即完成的是“最大满意度”的匹配，除了做到能者多劳，还做到了重要任务优先分配、信用高者优先被分配。

附图说明

图1为本发明实施例所述动态车辆任务与算力匹配方法的逻辑框图示意图；

图2为本发明实施例模块一逻辑框图；

图3为本发明实施例模块二逻辑框图；

图4为本发明实施例模块三逻辑框图；

图5为本发明实施例R-KM算法流程图；

图6为本发明实施例不同模型的流量预测结果示意图；

图7为本发明实施例匈牙利算法的训练奖励示意图；

图8为本发明实施例R-KM算法的训练奖励示意图。

具体实施方式

为了能够更加清楚地理解本发明的上述目的、特征和优点，下面结合附图及实施例对本发明做进一步说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例。

术语解释：

车辆算力：指每辆车所能提供的计算能力，也即上文中所提到的工人，计算能力的供应者；

车辆任务：指每辆车的算力请求，即每辆车要完成任务所需要的计算量；

动态批次划分：指的是不固定批次时间长度的大小，根据在当前时刻的任务数量以及算力大小的变化来调节该批次所覆盖的时间范围；

车辆算力任务分配：指以时空数据管理平台为基础，将具有时空特性的算力请求任务分配给具有富余算力的车辆，车辆工人在满足任务所指定的时空约束条件后，以主动或被动的方式来完成所分配到的算力请求任务；

子序列：通过对预测序列动态划分得到的多个序列均称为子序列。

本发明为了实现车辆任务与算力的匹配，构建一种基于预测和自适应分批的框架，在此框架内，使用深度学习中的Conv-GRU模型对任务数、工人数、工人信誉值、车流量进行预测，并结合强化学习中的DQN算法，对预测所得任务序列进行动态划分批次，最后在每一个划分好的批次内，通过R-KM算法结合工人的信誉度以及任务的重要程度进行二部图匹配，最终实现算力和任务的最优匹配。该框架不仅考虑了车辆任务的时空特征以及动态性特征，而且结合了车辆信誉值，车辆任务的重要程度等因素，且本发明预测精度较其他方法更高，预测速度更快，批次划分更加合理，从而使车辆获得更高的收益。此外，其不需要特殊的部署和额外的硬件设备，成本较低，实用性较强，具有很高的实用价值。

如图1所示，本实施例公开一种基于信誉值的动态车辆任务与算力匹配方法，利用深度学习模型和强化学习模型分别进行任务数预测以及自适应分批，共设计三个模块，即：

模块一、预测模型：交通流量和车辆任务数、算力数、信誉值预测；

模块二、动态批次划分模型：根据预测所得的车辆任务数与算力数序列进行动态批次划分；

模块三、车辆算力与任务匹配模型；

如图1所示，具体包括以下步骤：

步骤A、基于预测模型对交通流量和车辆任务数、算力数、信誉值等特征进行预测：基于深度学习中的Conv-GRU模块，通过提取某条车道上的车流量的时空特征，来预测该条车道在未来某一时刻的交通流量，并得到相应的车辆任务数、算力数和信誉值；

具体的：

所述步骤A中，通过模块读取预测车道的交通流量特征，以及对预测车道交通流量影响较大的相邻车道的交通流量特征，为了增加感受视野，让网络看的更多，学到更好，首先就读取的数据进行卷积处理，接着将卷积后的数据送到GRU模型中进行交通流量预测，该预测得到的交通流量综合考虑了交通流量的时间特征与空间特征。

具体如图2所示，首先对历史交通流量数据以及每辆车的任务数、算力数以及信誉值进行预处理，从而输入预测模型中，对于所选预测Conv-GRU模型，首先对输入数据进行卷积处理，提取输入数据特征，然后再输入GRU模块进行交通流量预测，从而预测出未来交通流量数据以及每辆车的任务数、算力数以及信誉值。

所述步骤B中，基于模块二进行动态批次划分时，具体实现方式如下：

1、将分批过程构建成马尔科夫决策过程；

自适应分批思想是将任务分配收益问题转化为序列决策问题和静态二部图匹配问题，其次利用先分再合的思想重构批次。具体来说，对于整个动态二部图来说，若采用匈牙利算法或贪心算法，往往会陷入局部最优或算法死循环而满足不了实际要求。顺序决策问题，即如何合理的划分批次，来优化平台总收益；静态二部图匹配问题，即如何计算得到每个批次的匹配收益，“先分再合”思想指的是分批算法将整个预测的动态二部图分割为若干单位二部图，然后将若干个单位二部图合并为一个批次。

本实施例中，将分批过程建模成马尔科夫决策过程M＝(S,A,R,T)；

·S表示状态空间，其中每个状态s＝(c,l)∈S代表一个二部图；

·R表示奖励，用R_t表示从状态(c_t,l_t)选择动作Len_t转换到下一个状态(c_t+1,l_t+1)所获得的奖励，其含义为对批次内的工人和任务进行匹配后的收益；

·T表示时间，其含义为预测结果的时间段；

2、利用先分再合思想将整个预测的动态二部图分割为若干单位二部图，并将若干个单位二部图合并为一个批次；

通过模块一预测模型，可得到未来一段时间内的交通流量序列以及每辆车在未来对应时刻的任务数、算力数以及信誉值。对于某一特定地理区域，考虑每过一段时间后就应该进行区域内车辆的任务与算力的供需匹配，因此本发明设置一个进行车辆匹配大周期T(T个最小时间单位长度)，将该大周期T划分为n个小周期t_i(i＝1,2,…n)，为更好地进行任务与算力的匹配，根据周期T内的车流量以及任务数、算力数、信誉值进行考虑对周期T的划分方法，即应当划分为多少个小周期，以及每个小周期的长度应当为多少(此处长度指最小时间单位的个数)

考虑到将长度为T的序列划分为n个任意长度的子序列步骤较为复杂，因此本发明舍弃由整到分的方式，改进为“由分到合”的方式，以大大简化了划分子批次的算法过程，由分到合的方式如下所示：

首先设置批次长度的范围为[l_min,l_max]，每个批次的长度都为l_min+Δ，其中0≤Δ≤l_max-l_min，因此由若干个长度为l_min+Δ的批次组合成长度为T的序列。

本实施例采用强化学习中的DQN算法解决顺序决策问题，采用基于信誉值改进的R-KM算法解决静态二部图匹配问题，而前者是重点。批次的划分是由单位批次累加构成，而不是由大批次切割而成。本方案利用“先分再合”思想将整个预测的动态二部图分割为若干单位二部图，并将若干个单位二部图合并为一个批次，具体如下：

(1)将批次长度范围限定为[l_min,l_max]，本实施例将分配算法运行时间分为两部分，一部分是上层分批算法运行时间，另一部分是底层批次内匹配时间。如果批次长度过大，将会导致底层匹配时间过慢；如果批次长度过小，将会导致上层运行分批算法时间较长，因此需要合理的规定批次长度范围来解决上述问题；

3、自适应分批，自适应分批算法框图如图3所示：

(2)在当前状态下，当动作符合一定的约束后，智能体便能执行相应动作并进入到下一状态，得到延时奖励、获得样本e_t＝(s_t,l_t,R_t,s_t+1,d_t)，在每轮迭代完成后，一起将该轮迭代中的所有时间步t的e_t＝(s_t,l_t,R_t,s_t+1,d_t)作为该轮迭代的五元组写入经验池中；

(3)从经验回放池中抽取一定数量的样本并使用随机梯度下降算法更新网络参数θ，DQN除了使用卷积神经网络近似表示当前的值函数之外，还单独使用了另一个网络来近似产生目标函数

值，将Q(s,len|θ_t)作为目标值网络的输出结果，一般情况下目标函数

值用下列公式如下近似表示：

Y_t＝R+γmaxQ(s',l'|θ_t ^-) (13)

通过最小化当前Q值和目标

值之间的均方差损失函数来更新当前网络的参数；

L(θ_t)＝E_s,l,R,s'[(Y_i-Q(s,l|θ_t))²] (14)

所述步骤3具体通过以下方式实现：

对于通过动态分批产生的长度为l_t交通流量子序列，可通过服务器查询得到各车辆能提供的算力数、任务数和完成任务的信誉度，进而进行车辆算力与车辆任务之间的匹配。

基于各车辆的算力数、任务数以及信誉度，生成提供算力车辆(供方)与任务需求车辆(需方)之间的权重矩阵：若任两辆车满足供方的算力数大于等于需方的任务数，则取二者间的权值为任务数与信誉值的加权和(权重可动态设调整)；若不满足，则认为无法完成任务，即二者无法完成匹配，取二者间的权值为0；从而得到左右顶点之间的权重矩阵。之后对于左右各顶点，基于权重矩阵进行匹配，匹配使用基于信誉值改进后的R-KM算法，以匹配后的权重和作为奖励，大体流程如图4所示：

对于基于信誉值改进的R-KM匹配算法，具体流程图如图5所示：

(1)首先依次将该批次内的交通流量序列分别作为二部图左顶点和右顶点。

(2)基于权重矩阵初始化任意左右顶点间的权值，进而对左右顶点值进行初始化(左顶点初始值取与其相关联的最大的边的权值，右顶点初始值为0)。

(3)各左右顶点初始化完成后，使用匈牙利算法进行完备匹配，并判断是否能实现完备匹配，若能实现，则匹配完成，并返回匹配权重和；若不能，则修改无法完成完备匹配的左右顶点值(左顶点减1，右顶点加1)，之后再次使用匈牙利算法进行完备匹配，

本发明方法首先将任务分配收益问题转化为序列决策问题和静态二部图匹配问题，其次利用先分再合的思想重构批次，进而可以通过R-KM算法实现基于权重的工人与任务的完备匹配，这也使得此算法相能够统筹DQN模型对众包任务进行合理的分配。

另外，需要说明的是，本方案在进行匹配时的R-KM算法可以替换成换匈牙利算法，预测时也可使用其它诸如时间序列、LSTM、GRU等的数据预测方法，在此不做限定和罗列。为了体现本方案的科学性，本实施例首先比较了本方案所选模型与诸如时间序列、LSTM、GRU等其他数据预测模型的精准度，结果如图6：

由图6可以清晰直观看出，本方案所选用的模型得到的预测交通流量数据的精确度相较其他模型是更加高的，对数据进行卷积处理后，增加了模型的感受视野，模型会学的更快、更好。在Conv-GRU模型和Conv-LSTM模型预测结果准确度差异不大的情况下，本实施例选用了算力开销和模型部署成本较小的Conv-GRU模型进行实验，综合考虑了现实生活中实现的难易程度。本方案力求贴合实际，为下一步众包分配实验的合理性打下了基础。

在自适应分批的框架下，综合考虑任务完成率和用户信誉度，本实施例比较了在本方案下R-KM算法和匈牙利算法的优劣，如图7、8所示。

从图7和图8可以看出，在相同的条件下实验，无论是最终奖励值还是收敛速度，R-KM算法都是要远远好于匈牙利算法的。匈牙利算法，无法实现全匹配，即如果该任务过于繁琐以至于没有一辆车的算力可以将其完成，则只能就其放弃，但是现实生活中，本实施例是可以让多辆车或者跨批次在完成的，所以此时运用R-KM算法先将其实现匹配，然后分阶段完成，所以总的奖励R-KM算法肯定是更大的。这也同样体现了本方案的科学性、合理性，是贴合现实的。

综上可知，本发明构建了基于精细化的交通流量预测和自适应分批的框架，在此框架内，基于深度学习的Conv-GRU模型对未来的车流量进行预测，再基于一定的概率分布的条件下得到未来的任务和工人情况的预测，并结合基于强化学习中的DQN算法，对得到的任务和工人的序列进行动态批次划分，最后在通过划分所得各批次内使用R-KM算法实现二部图匹配，最终完成基于信誉优先的任务和工人的完备匹配。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.基于信誉值的动态车辆任务与算力匹配方法，其特征在于，包括以下步骤：

步骤A、提取某条车道上的车流量的时空特征，预测该条车道在未来某一时刻的交通流量，并得到相应的车辆任务数、算力数和信誉值；

步骤B、根据步骤A所预测的参数，基于强化学习中的DQN模块，对所预测得到的车辆任务数与算力数序列进行动态批次划分，确定强化学习中智能体的状态，动作，并最终确定最佳的分批策略；

步骤C、在划分好的动态批次内，使用基于信誉值改进的R-KM算法，结合工人信誉度以及任务的重要程度进行二部图匹配，实现算力与任务的最优匹配。

2.根据权利要求1所述的基于信誉值的动态车辆任务与算力匹配方法，其特征在于：所述步骤A中，在预测参数时，基于深度学习中的Conv-GRU模块实现：首先对输入数据进行卷积处理，提取输入数据特征，然后再输入GRU模块进行交通流量预测，从而预测出未来交通流量数据以及每辆车的任务数、算力数以及信誉值。

3.根据权利要求2所述的基于信誉值的动态车辆任务与算力匹配方法，其特征在于：所述步骤B中，在确定分批策略时，具体通过以下方式实现：

B1、将分批过程构建成马尔科夫决策过程M＝(S,A,R,T)；

·S表示状态空间，其中每个状态s＝(c,l)∈S代表一个二部图；

·T表示时间，其含义为预测结果的时间段；

B2、利用先分再合思想将整个预测的动态二部图分割为若干单位二部图，并将若干个单位二部图合并为一个批次；

B3、自适应分批，确定最佳的分批策略：

(1)规定最小批次状态为当前状态，将当前状态的特征向量输入到深度神经网络中，输出为当前状态下的所有价值动作函数值Q(s,len|θ_t)，并确定当前状态下的动作Len_t；

(3)从经验回放池中抽取一定数量的样本并使用随机梯度下降算法更新网络参数θ，DQN使用卷积神经网络近似表示当前的值函数，并使用另一个网络近似产生目标函数

值，将

作为目标值网络的输出结果，目标函数

值用下列公式近似表示：

通过最小化当前Q值和目标

值之间的均方差损失函数来更新当前网络的参数；

L(θ_t)＝E_s,l,R,s'[(Y_i-Q(s,len|θ_t))²] (14)

4.根据权利要求3所述的基于信誉值的动态车辆任务与算力匹配方法，其特征在于：所述步骤B2具体采用以下方式实现：

(1)将批次长度范围限定为[l_min,l_max]；

5.根据权利要求4所述的基于交通流量预测的动态自适应车辆算力的众包任务分批分配方法，其特征在于：所述步骤C实现算力和任务的匹配时，对于通过动态分批产生的长度为l_t交通流量子序列，通过获得其算力数、任务数和完成任务的信誉度，进行车辆算力与车辆任务之间的匹配：

C1、基于各车辆的算力数、任务数以及信誉度，生成提供算力车辆与任务需求车辆之间的权重矩阵：若任两辆车满足供方的算力数大于等于需方的任务数，则取二者间的权值为任务数与信誉值的加权和；若不满足，则认为无法完成任务，即二者无法完成匹配，取二者间的权值为0；从而得到供方车辆与需方车辆之间的权重矩阵；

C2、对于供方车辆与需方车辆，基于权重矩阵进行匹配，匹配使用基于信誉值改进后的R-KM算法，以匹配后的权重和作为奖励。

6.根据权利要求5所述的基于交通流量预测的动态自适应车辆算力的众包任务分批分配方法，其特征在于，所述步骤C2中，基于信誉值改进后的R-KM算法原理如下：