CN115038055B

CN115038055B - 一种基于强化学习的多通道短消息分发方法和系统

Info

Publication number: CN115038055B
Application number: CN202210947402.7A
Authority: CN
Inventors: 陈文西; 王鑫; 张纯磊; 张承慧; 张斌
Original assignee: Beijing Jinloushiji Technology Co ltd
Current assignee: Beijing Jinloushiji Technology Co ltd
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-10-21
Anticipated expiration: 2042-08-09
Also published as: CN115038055A

Abstract

本发明公开了一种基于强化学习的多通道短消息分发方法和系统，包括如下步骤：S100，定义用于深度神经网络模型的状态、动作、奖励和Q值函数；S200，对通道进行参数初始化；S300，将短消息分发需求和当前时刻的状态输入至所述模型，计算在当前时刻的状态下各动作所对应的Q值，并作为Q值集合输出；S400，根据所述Q值集合确定目标动作，执行目标动作，然后更新所述通道的资源状态并得到下一时刻的状态和当前时刻的奖励值；S500，将当前时刻的状态、下一时刻的状态、目标动作和当前时刻的奖励值作为当前时刻的一组四元组数据并存放在存储空间中；S600，进入下一时刻，将步骤S400得到的下一时刻的状态作为当前时刻的状态，并重复步骤S300至S500，直至Q值函数收敛。

Description

一种基于强化学习的多通道短消息分发方法和系统

技术领域

本发明涉及短消息服务平台，具体涉及一种基于强化学习的多通道短消息分发方法、系统、电子设备和计算机可读存储介质。

背景技术

“云消息”平台是一种新型的短消息服务平台，其通过整纳各地运营商的消息通道资源，打造一体化短消息分发平台，为各垂直行业提供短消息服务。然而，“云消息”平台的通道资源分散于全国各地，且通道质量差异明显（通道质量指发送成功率等）。并且，不同类型短消息的需求也不尽相同，例如验证码短消息要求实时性，而群发营销类短消息则要求大通道资源。因此，当短消息企业寻求不同类型短消息服务时，如何为其选择适配的短消息通道，同时保证“云消息”平台的收益是一项关键问题。

现有的短消息服务平台主要通过采用数学模型与启发式算法这两种方法，以满足用户的短消息分发需求，但是它们存在如下不足之处：

一、基于数学模型的短消息分发方法，通过对问题进行建模并设计相应的数学模型（例如整数线性规划模型Integer Linear Programming），以为短消息分发提供最优解，但该数学模型的穷举方式需要充分搜索求解空间才能得到最优解，造成其计算复杂度极高，同时，计算复杂度还随着通道和短消息规模递增而急剧增加，因而该方法只适用于小规模场景（即通道及短消息数量较少）的应用，难以满足大规模场景的快速求解需求。

二、基于启发式算法的短消息分发方法，通过对数学模型中的部分约束进行松弛化，可降低问题求解的计算复杂度，可适用于大规模通道和短消息场景下的分发优化，但是，启发式算法只能尽量逼近上述数学模型所得最优解，因而该方法对于短消息分发的优化效果仍存在一定缺陷。

因此，如何实现大规模场景下的优质短消息分发是“云消息”平台亟待解决的问题。

发明内容

基于上述现状，本发明的主要目的在于提供一种基于强化学习的多通道短消息分发方法、电子设备和计算机可读存储介质，通过对深度神经网络模型进行自主迭代优化，能够根据短消息分发需求提供自适应的优质短消息分发策略，以提升云消息平台运营效益，并最小化分发过程中短消息积压量。

为实现上述目的，本发明采用的技术方案如下：

本发明的第一方面提供了一种基于强化学习的多通道短消息分发方法，用于云消息平台，所述平台包括多个运营商的多个可发送短消息的通道，所述方法包括如下步骤：

S100，根据马尔科夫决策过程定义用于深度神经网络模型的状态、动作、奖励和Q值函数，其中：

所述状态由所述通道的剩余容量以及每个所述通道的短消息发送成本确定；

所述动作根据每个运营商的每个通道上分配的基于用户和短消息类型的消息量确定；

所述奖励根据所选择的动作和相应的通道资源分配结果计算得到奖励值；

所述Q值函数基于所述状态和动作并经过所述模型训练得到；

S200，对所述通道进行参数初始化；

S300，将短消息分发需求和当前时刻的状态输入至所述模型，由所述模型计算在当前时刻的状态下各动作所对应的Q值，并作为Q值集合输出；

S400，根据所述Q值集合确定目标动作，执行所述目标动作，然后更新所述通道的资源状态并得到下一时刻的状态和当前时刻的奖励值；

S500，将所述当前时刻的状态、所述下一时刻的状态、所述目标动作和所述当前时刻的奖励值作为当前时刻的一组四元组数据并存放在存储空间中；

S600，进入下一时刻，将所述步骤S400得到的下一时刻的状态作为所述当前时刻的状态，并重复所述步骤S300至S500，直至所述Q值函数收敛。

优选地，所述步骤S100中，根据所选择的动作得到相应的通道资源分配结果，

当通道资源分配成功时，则所述奖励值为用户付费收益并扣除短消息分发的通道成本和相应的短消息积压量的函数反馈，

当通道资源分配不成功时，则所述奖励值为预设负数值。

优选地，所述奖励根据如下公式计算得到奖励值：

式中，

为所述奖励，

为用户k的f类型短消息的用户付费单价，

为用户k的f类型短消息在运营商i通道j上分配的单位时间内消息量，

为运营商i通道j的短消息成本单价，

为运营商i通道j的通道容量，

为运营商i通道j的通道使用状态，

为运营商i通道j的单位时间内短消息积压量，

、

、

为权重系数，

为预设负数；

S为通道资源分配结果，当通道资源分配成功时，S=1，当通道资源分配不成功时，S=0。

优选地，所述步骤S400中，根据所述Q值集合确定目标动作，包括：

从所述Q值集合中选取数值最大的Q值作为最优Q值，将所述最优Q值所对应的动作作为所述目标动作。

根据ε-贪婪策略，以ε概率从所述Q值集合中选取数值最大的Q值作为最优Q值，并将所述最优Q值所对应的动作作为所述目标动作，以1-ε概率随机选择动作并作为目标动作。

优选地，所述深度神经网络包括M层卷积神经网络和N层全连接网络。

优选地，所述步骤S600中，按完成所述步骤S300至S500的预设次数从所述存储空间中随机提取若干组四元组数据作为训练数据，并根据贝尔曼优化方程对所述模型进行训练。

优选地，所述步骤S600中，所述Q值函数收敛为计算得到的Q值与预设目标值之间的误差小于预设阈值。

本发明的第二方面提供了一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，能够实现如上述第一方面所述的多通道短消息分发方法。

本发明的第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于运行以实现如上述第一方面所述的多通道短消息分发方法。

本发明与现有技术相比具有明显的优点和有益效果，其至少具有下列优点：

本发明的多通道短消息分发方法，基于马尔科夫决策过程，对多通道短消息分发问题进行建模，通过设计深度神经网络模型并将其作为智能体，并将该模型与用于分发短消息的平台交互产生训练数据，以用于进行自主迭代训练，一方面，能够根据短消息分发需求提供智能化、自适应的优质短消息分发策略，尤其适用于大规模通道和短消息场景下的快速求解需求，有助于提升云消息平台的运营效益，另一方面，能够有效降低分发过程中短消息积压量，从而为云消息平台的服务质量和运营效益打造坚实基础。

本发明所述方法能够实现智能短消息分发，并适应未来云消息服务商的高效运维、多元运维需求。

本发明的电子设备和计算机可读存储介质，通过采用上述基于强化学习的多通道短消息分发方法，能为云消息平台提供优质短消息分发策略，不仅能确保短消息分发质量，而且能提升云消息平台运营效益。

附图说明

图1为本发明的基于强化学习的多通道短消息分发方法的一种优选实施方式的流程示意图；

图2为本发明的基于强化学习的多通道短消息分发方法的一种优选实施方式的执行过程示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的基于强化学习的多通道短消息分发方法，其具体实施方式、方法、步骤、特征及其功效，详细说明如后。

参见图1，一种基于强化学习的多通道短消息分发方法，用于云消息平台，所述平台包括多个运营商的多个可发送短消息的通道，包括如下步骤：

所述Q值函数基于所述状态和动作并经过所述模型训练得到；

S200，对所述通道进行参数初始化；

S400，根据所述Q值集合确定目标动作，执行所述目标动作，然后更新通道资源状态并得到下一时刻的状态和当前时刻的奖励值；

S500，将所述当前时刻的状态、所述下一时刻的状态、所述目标动作和所述当前时刻的奖励值作为一组四元组数据并存放在存储空间中；

通过上述步骤，通过将短消息分发问题建模为马尔科夫决策过程，并根据云消息平台的资源情况定义用于深度神经网络模型的状态、动作、奖励和Q值函数，由此根据短消息分发需求和当前时刻的状态，进行Q值函数计算并确定相应的目标动作以获取最大奖励，并根据目标动作的执行结果确定下一时刻的状态，通过重复这些步骤从而获取用于自主迭代训练的四元组数据，以用于根据贝尔曼优化方程对深度神经网络模型进行训练，并获得最优的多通道短消息分发策略。所述方法相较于采用数学模型和启发式算法的现有方法，既能适用于大规模通道和短消息场景下的快速求解需求，又能有效减少分发过程中短消息积压量。

具体地，

在步骤S100中，对通道进行参数初始化，其中，参数一般包括和通道有关的多个参数，例如每个通道的初始通道容量、单位时间内通道成本等。通过本步骤，对短消息分发交互环境参数进行初始化，由于强化学习训练过程依靠智能体和环境不断交互，产生数据，然后基于产生的数据训练智能体，从而需要在训练初始时刻给环境相关的各参数设置初始值，例如每个通道的初始通道容量、单位时间内通道成本等。

在步骤S200中，马尔科夫决策过程（Markov Decision Process，MDP）是序贯决策的数学模型，基于一组交互对象，即智能体和环境进行构建，所具有的要素包括状态、动作、策略和奖励，在MDP模拟中，智能体感知当前环境的状态，按策略对环境实施动作，从而改变环境的状态并得到奖励。本实施例中，深度神经网络模型可以作为智能体，云消息平台的通道资源可以作为环境，通过模型与通道资源的交互，以获得短消息分发的最优策略。

关于状态，可以表示为：State= (

,

)，其中：

为运营商i通道j的通道剩余容量；

为运营商i通道j的单位时间内通道成本，即使用该通道基于单位时间（例如每秒）所需要的成本费用（通常是一个固定值）。一般情况下，运营商将通道资源打包出售给云消息平台，通过某个通道发送短消息，无论实际发送的短消息数量，都是支付相同的成本费用。

关于动作，可以表示为：Action= (

)，其中：

为用户k的f类型短消息在运营商i通道j上分配的单位时间内消息量。这里的消息量，通常为短消息的条数。

关于Q值函数，是经过深度神经网络模型训练得到状态-动作函数，即针对不同状态选择不同动作所获得的最大奖励期望。

在步骤S300中，参见图2，当前时刻t的状态可以表示为S_t，在当前时刻t下选取的某项动作可以表示为a_t，由此，Q值集合可以表示为Q(S_t,a_t)。

在步骤S400中，当前时刻t的目标动作可以表示为

，并在执行完当前时刻的目标动作

后更新通道资源状态得到下一时刻的状态S_t+1，并返回当前时刻的奖励值，当前时刻的奖励值可以表示为r_t。

在步骤S500中，将< S_t, r_t, a_t,S_t+1 >作为当前时刻的一组四元组数据存放在存储空间中，这里的存储空间通常一般为计算机内存。

在步骤S600中，进入下一时刻的计算处理，将由步骤S400获得的状态以及更新后的短消息分发需求输入至所述模型，继续计算Q值。其中，Q值函数收敛，一般指计算得到的Q值与目标值之间的误差小于预设阈值。

具体地，在进入下一时刻时，短消息分发需求会发生变化，这是根据用户提出的需求而定。例如，如果当前有10个用户，首先输入第一个用户的需求，然后执行步骤S300至S500，然后再输入第二个用户的需求，再重复执行上述步骤，依次类推，直到把10个用户都输入完毕。步骤S300可认为是逐个地输入每个用户的短消息分发需求。

作为可选的实施例，所述步骤S200中，根据所选择的动作得到相应的通道资源分配结果，

当通道资源分配结果为成功时，则所述奖励值为用户付费收益并扣除短消息分发的通道成本和相应的短消息积压量的函数反馈，

当通道资源分配结果为不成功时，则所述奖励值为预设负数值。

具体地，奖励值的计算可以表示为：α*收益-β*通道成本-γ*通道消息积压量。

通过上述步骤，可以在选取某一动作之后，若通道资源的剩余量足够承载用户需求时，即通道资源分配成功时，相应地计算奖励值，也可以在选取某一动作之后，若通道资源不足导致无法承载用户需求时，即通道资源分配不成功时，返回一个预设的较小负数，这里所说的较小负数一般是小于所有通道资源分配成功时动作所产生的最小奖励值，由此表示此次动作选取失败，从而再次碰到该状态时将不再选取该动作。

作为可选的实施例，所述奖励根据如下公式计算得到奖励值：

式中，

为所述奖励，

为用户k的f类型短消息的用户付费单价，

为运营商i通道j的短消息成本单价，

为运营商i通道j的通道容量，

为运营商i通道j的通道使用状态，

为运营商i通道j的单位时间内短消息积压量，

、

、

为权重系数，

为预设负数；

具体地，

一般为每条短消息的用户付费价格（例如元/条），

一般为每秒分发的短消息条数（例如条/秒），

一般为每条短消息的发送成本（例如元/条），

一般为每秒内可分发的短消息条数（例如条/秒），

为二进制变量，表示运营商i通道j是否被使用，例如，当

=1时，表示该通道被使用，当

=0时，表示该通道空闲，

为每秒内短消息的积压量（例如条/秒）。

需要说明的是，

指运营商i通道j的初始通道容量，

为运营商i通道j的剩余通道容量，当该通道没有承载任何短消息分发时，则

=

，当该通道已承载一定数量的短消息分发时，则

为

减去已使用容量。

由此，可以根据通道资源分配的结果来确定相应的奖励值，通过上述计算公式，可以综合地考虑短消息分发的收益、成本以及相关通道的短消息积压量，能为提供更为有效、优化的分发策略提供更为合理的数据基础，有助于模型向期望方向快速收敛。

作为可选的实施例，所述步骤S400中，根据所述Q值集合确定目标动作，包括：

通过上述步骤，从Q值集合中直接选取数值最大的Q值作为最优Q值，即最大奖励期望，并执行该最优Q值所对应的动作，以更新通道的资源状态，通过这样的方式，最大化当前时刻的期望奖励，能简单、快速地直接确定目标动作，确保计算效率。

具体地，ε-贪婪策略是在智能体做决策时，采用一很小的正数ε（＜1）的概率来选取最大Q值所对应的动作来执行，剩下1-ε的概率随机选择一个动作来执行，从而实现充分探索动作空间，并且每次选取一个动作执行后ε的值会逐步增大。

通过上述步骤，相较于上一个实施例，能够从长远角度来最大化总收益，使得期望奖励的结果逼近最优解。

作为可选的实施例，所述深度神经网络包括M层卷积神经网络和N层全连接网络。

其中，深度神经网络（Deep Neural Networks，DNN）在全连接网络的基础上引入卷积神经网络（Convolutional Neural Networks, CNN），先由卷积神经网络充分探索数据之间的相互关系（类似于对输入数据做预处理），再由全连接网络拟合所需要的输入和输出函数关系。

作为可选的实施例，所述步骤S600中，按完成所述步骤S300至S500的预设次数从所述存储空间中随机提取若干组四元组数据作为训练数据，并根据贝尔曼优化方程对所述模型进行训练。

具体地，贝尔曼优化方程（Bellman Equation）被称作动态规划方程，用于训练深度神经网络模型的参数，以获得短消息分发的最优策略。一般情况下，将执行完成步骤S300至S500的所有步骤定义为一次操作，每完成若干次这样的操作后进行一次数据提取和训练。

下面通过具体例子来阐述本发明实施例所述的基于强化学习的多通道短消息分发方法。

假设云消息平台上某运营商具有3个短消息通道（参见表1），同时接收到4个用户的短消息分发需求（参见表2）。

表1为云消息平台上某运营商的通道资源状态。

通道编号	通道剩余容量	通道成本
			#1	5条/秒	4元/秒
#2	5条/秒	3元/秒
			#3	5条/秒	2元/秒

表2为云消息平台上的用户短消息分发需求。

用户编号	速率要求	用户付费单价
			A	2条/秒	1元/条
B	2条/秒	1元/条
			C	3条/秒	2元/条
D	2条/秒	1元/条

根据状态可描述为{(通道编号：通道剩余容量,通道成本)}，由此，相应的状态可以表示如下：

{(通道#1：5条/秒，4元/秒)，(通道#2：5条/秒，3元/秒)，(通道#3：5条/秒，2元/秒)}

根据动作可描述为{(短消息在该运营商某个通道上分配的短消息条数)}，例如对于用户编号为A的短消息分发请求，其要求短消息速率为2条/秒，因此可以有两种通道分配方案：将该用户的所有短消息需求分配在同一个通道中，或者将该用户的所有短消息需求分配在两个通道中，且每个通道能够提供1条/秒的速率。由此，相应的动作可以通过(x,y,z)三元组来表示通道#1，#2，#3分布提供x条/秒，y条/秒，z条/秒的短消息分发速率，具体如下：

{(2,0,0),(0,2,0) ,(0,0,2) ,(1,1,0) ,(1,0,1) ,(0,1,1)}

在模型训练过程中，基于接收到的用户短消息分发需求，深度神经网络模型根据当前时刻的通道资源状态和相应的短消息发送成本，选择可获得奖励最大的动作（即短消息在各通道上的分配方案）。但是，考虑到训练过程中，深度神经网络模型作为智能体并不一定选择到最优的分配策略，则需要不断通过贝尔曼优化方程对模型参数进行优化。

当模型训练结束后，对于上述4个短消息分发需求，按接收需求时间顺序将其输入模型后可以得到如下理想结果：

用户编号为A和B的短消息分发需求全部分配到通道#3中，用户编号为C和D的短消息分发需求全部分配到通道#2中，由此，相应的平台收益为2*1+2*1+3*2+2*1-(3+2)=7。

本发明还提供了一种电子设备，包括处理器；以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，能够实现如上述实施例所述的基于强化学习的多通道短消息分发方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于运行以实现如上述实施例所述的基于强化学习的多通道短消息分发方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。