CN114912357A

CN114912357A - 基于用户模型学习的多任务强化学习用户运营方法及系统

Info

Publication number: CN114912357A
Application number: CN202210537142.6A
Authority: CN
Inventors: 俞扬; 胡南; 詹德川; 周志华
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-16

Abstract

本发明公开了一种基于用户模型学习的多任务强化学习用户运营方法及系统，去运营平台线上环境收集每个城市最近一段时间的平台操作和用户反馈数据,换成适用于机器学习的用户轨迹数据和用户行为数据；使用每个城市的用户轨迹数据，训练用于提取特征的编码器网络，输出每个城市每个用户的特征向量；进行聚类操作，构建通用网络模型结构；从每个城市的用户行为数据中去还原出每个城市的用户模型；使用通用网络模型结构初始化算智能体模型，以多个城市的用户模型为多任务环境来训练算法的通用智能体模型。将通用智能体模型中的通用运营策略模型部署到多个城市的线上环境，进行用户运营决策，并产生新一轮的平台操作和用户反馈数据。

Description

基于用户模型学习的多任务强化学习用户运营方法及系统

技术领域

本发明涉及一种基于用户模型学习的多任务强化学习用户运营方法及系统，来实现一个可以满足多城市用户运营需求的通用运营系统，属于移动平台的用户运营领域。

背景技术

随着移动互联网在我国的不断发展，各行各业都开始往线上平台化方向发展。比如，传统的公共交通设施很难满足部分用户的出行需求，因此像滴滴这样的移动出行平台应运而生，着力打造更加快速、便捷和舒适的出行方式。对于同一行业的不同平台，为了吸引新用户和保证用户粘性，不同平台之间的竞争非常激烈，用户运营也成为了这些平台最为核心的工作之一。现实场景中，每个平台会同时经营很多个城市，每个城市由于用户习惯的差异，最优的运营策略也往往相差很大。如何快速、高效地完成多个城市用户的运营操作，成为了摆在平台面前的一个难题。

传统方法依赖于人工运营组去总结经验，这些经验由运营人员去对每个城市的历史数据去进行数据分析得到。过于依赖人工运营组，会消耗大量的人力并产生高昂的成本，且难以形成一个通用化、数字化的运营流程。一些比较先进的平台也已经引进了深度学习和强化学习的技术来训练神经网络模型，来辅助人工运营。但是这些方法要么在部分流程上仍然依赖人工，要么仍然只考虑单个城市场景，当有多个城市时，在流程上会产生大量重复工作，比如模型部署阶段需要重复上线多个策略模型。而且把不同城市的数据完全独立开，不利用城市数据之间的部分相似性，一旦出现某个新城市数据量比较少或者质量很差时，只基于这一份不太好的数据，将很难初始化一个性能比较好的运营策略。

深度强化学习近些年来开始被广泛应用于现实世界复杂的序列化决策问题中，如机器人控制、玩电子游戏和推荐系统等。通过使用强化学习算法来训练得到的深度神经网络策略模型，可以代替人工进行决策。传统的强化学习方法需要与环境进行大量的交互试错过程，在现实环境中会带来很大的危害和代价，因此在本发明中提出了一种基于用户模型学习的方法，来通过离线用户行为数据去还原出用户模型环境，并使用用户模型环境来近似代替真实的环境。另外，目前的强化学习方法很难适用于多任务场景，训练出来的策略具有很差的拓展性，往往只能满足一个特定环境决策的需求。一旦环境发生细小改变，策略都会失效。

发明内容

发明目的：在移动平台用户运营任务中，需要同时去对多个城市的用户进行运营操作，这些城市的最优用户运营策略往往差异很大。传统方法一般依赖于大量人工数据分析工作，或者使用机器学习方法来对每个城市分别训练一个用户运营的策略模型。前者成本高、过程简单且难以数字化，后者会产生大量重复过程且难以利用数据的相关性。为了解决之前方法存在的问题，本发明提出了一个基于用户模型学习的多任务强化学习方法，和基于该方法实现的通用运营系统，整个系统可以自动化代替人工决策的同时，也通过将用户运营的策略模型设计成可以学习多个任务的通用结构，来实现只需要训练一个运营策略模型就可以完成多城市条件下的用户运营任务。

本发明基于聚类的方法来发现任务的相关性，并将这个先验的相关性知识迁移到模型结构的设计中，再使用可行的强化学习算法，以所学的多个城市的用户模型为多任务环境来训练算法的通用智能体模型，最终得到一个可以适应多城市条件下的用户运营策略模型，从而可以构建一个自动、高效的满足多城市的通用运营系统。

技术方案：一种基于用户模型学习的多任务强化学习用户运营方法，包括：

收集运营平台线上环境中每个城市最近一段时间的平台操作和用户反馈数据；

进行特征工程，将原始的平台操作和用户反馈数据分别转换成适用于机器学习的用户轨迹数据和用户行为数据；

使用每个城市的用户轨迹数据，训练一个用于提取特征的编码器网络，输出每个城市每个用户的特征向量；

基于每个城市每个用户的特征向量，进行聚类操作，然后根据聚类的结果构建一个通用网络模型结构；

使用模仿学习方法从每个城市的用户行为数据中去还原出每个城市的用户模型；

选择可行的强化学习算法，使用通用网络模型结构初始化强化学习算法所需要的智能体模型，接着以多个城市的用户模型为多任务环境来训练强化学习算法的通用智能体模型；

将训练好的通用智能体模型中的通用运营策略模型部署到多个城市的线上环境，进行用户运营决策，并产生新一轮的平台操作和用户反馈数据。

具体地，本发明包括以下步骤：

（1）去线上平台收集每个城市最近一段时间所有用户的平台操作和自身反馈记录；

（2）进行特征工程，将每个用户的平台操作和自身反馈记录的历史数据转换成按天为间隔、可用于强化学习的轨迹数据；

（3）使用这些轨迹数据去训练一个提取用户特征的编码器网络，编码器网络输出每个城市每个用户各自的特征向量；

（4）使用每个城市每个用户的特征向量去进行聚类操作，根据聚类操作的结果去构建一个通用网络模型结构；

（5）使用模仿学习的方法，去模仿真实的用户行为数据中的用户行为，以构建出每个城市的用户模型，这些用户模型作为后续强化学习的多任务环境；

（6）使用通用网络模型结构来初始化可行的强化学习算法所需要的通用智能体模型，以多个城市的用户模型为多任务环境同时训练通用智能体模型，输出智能体模型中的通用运营策略模型；

（7）将训练好的通用运营策略模型部署到每个城市的实际环境上，去指导进行用户运营决策，并产生新一轮的平台操作和用户反馈数据。

所述（1）中，每个城市最近一段时间所有用户的平台操作和用户反馈记录包括：用户在指定时间范围内每一天获得平台对他进行运营操作的数值，包括运营操作的次数和每一次操作涉及动作的强度，所述强度用来衡量平台对于用户运营的强度，比如说用户促销运营，就对应于折扣的大小；用户反馈记录指用户在收到平台的运营操作后，在平台上进行反馈的次数以及每次反馈产生的平台收益。

所述（2）中，特征工程将原始的平台操作和用户反馈数据分别转换成适用于机器学习的用户轨迹数据和用户行为数据。令收集到的数据范围是从第1天到第2n天，首先去获得初始化的用户画像：以第n+1天为基准，用户在当天的画像是用户过去历史从第1天到第n天，基于所获平台操作和用户反馈记录，计算得到的一些统计特征数据，用s₁来表示用户初始的画像（对应第n+1天）。同理，当预定义好平台运营动作、用户反馈动作和平台回报值，能计算从第n+1天到第2n天每一天的平台运营动作、用户反馈动作和平台回报值数据，分别用a_t、u_t和r_t来表示（n+1≤t≤2n）。同时根据已知的转移规则：s_t+1=T(s_t, a_t, u_t), 当我们知道当天的用户画像、平台运营动作和用户反馈动作，能计算得到第二天的用户画像。这样从用户的初始画像开始，基于转移规则和第n+1天到第2n天每一天的平台运营动作、用户反馈动作和平台回报值数据，得到了任何一个用户从第n+1天到第2n天内的一条轨迹数据（在轨迹中下标1对应第n+1天）：

τ={(s₁,a₁,r₁,s₂), (s₂,a₂,r₂,s₃), … ,(s_n,a_n,r_n,s_n+1)}

一个城市所有用户的轨迹数据就构成了这个城市的轨迹数据集D。如果{1, … ,L}表示L个不同的城市，那么总的用户轨迹训练数据就是D^sum={D₁, … , D_L}。同时，为了学习用户模型，还需要定义任何一个用户在第n+1天到第2n天内的行为数据：

β={((s₁,a₁),u₁), ((s₂,a₂),u₂), … , ((s_n,a_n),u_n)}

同理一个城市的所有用户行为数据就构成了这个城市的用户行为数据集B。总的用户行为训练数据就是B^sum={B₁, … , B_L}。

所述（3）中，训练用于提取特征的编码器网络并输出特征向量的过程包括：

（301）选择处理时序数据的神经网络模型结构，用以初始化编码器网络

。编码器网络输入某个用户的一条时序轨迹数据τ，输出对应于这个用户的特征向量υ。

（302）基于对比损失（contrastive loss）来训练编码器网络。设对于任意两个用户i, j和他们的轨迹数据τ_i, τ_j。用y∈{1, … , L}来表示用户属于哪个城市，那么这一对用户i, j产生的对比损失为：

其中m是一个常数参数，1{ y_{i =}y_j }是bool函数的一种表达方式，y_i,y_j分别对应于用户i, j属于的城市，v_i和v_j分别对应于用户i和j的特征向量，‖·‖表达式计算的是向量的距离。

（303）总的对比损失就是任意两个城市（城市可以相同）各取一批用户，在这两批用户之间所有用户对的对比损失之和，用

表示，我们希望

越小越好。基于梯度下降对编码器网络参数σ做如下更新：

λ₁是学习率，一个超参数。

（304）训练初始化编码器网络直至收敛，对于训练数据集中的任意一个用户，使用收敛后的编码器网络，输入对应用户轨迹数据，输出其特征向量。

所述（4）中，从聚类到构建通用网络结构包括：

（401）以所有城市所有用户的特征向量作为聚类的训练数据集V^sum，选择任意一种可行的聚类方法，将这些用户划分成一个层次化的聚类结构。自顶向下，初始化聚类过程，一开始所有城市用户属于同一个聚类，作为第一层（初始的当前层1）。

（402）L是城市的数量，假设2^n-1≤L≤2ⁿ，循环进行n次下面的过程：假设当前层为i，1≤i≤n，依次遍历当前层的每一个聚类，使用聚类方法，将当前层的每一个聚类划分成更小的两个子聚类，所有新的子聚类作为层第i+1的聚类之一，同时更新第i+1层为当前层。最终得到一个n+1层的二叉树状的层次化聚类结构。

（403）将最终得到的二叉树状的层次化聚类结构等价映射到通用网络模型结构，去构建通用网络模型。二叉树的每一个节点对应神经网络的一个模块，二叉树的边对应神经网络模块前向传播的连接关系。

所述（5）中，使用模仿学习的方法，去模仿真实的用户行为数据中的用户行为指得是：

对于B^sum中每一个城市的用户行为数据，使用模仿学习的方法，去学习到一个从（用户画像，平台运营动作）映射到用户反馈动作的用户模型，每一个城市都有一个用户模型。最终得到M^sum={M₁, … , M_L}，表示L个不同城市的用户模型。

所述（6）中，选择任意可行的强化学习算法，来训练强化学习算法的通用智能体模型，包括：

（601）算法初始化过程中，将所有智能体相关的神经网络模型用通用网络模型结构来构建。并初始化每个城市的在线采样池O^sum={O₁, … , O_L}，将集合O^sum中任一采样池都初始化为空集，在线采样池的后续数据将采样自对应城市的用户模型M^sum={M₁, … , M_L}。O_L表示第L个城市的采样池。

（602）算法训练过程中，使用通用智能体分别去每个用户模型中采样，并将采样数据添加到对应在线采样池中。每一个训练步上，交替遍历每一个城市，从当前城市的在线采样池中采样出一小批数据，使用这批数据来优化算法相关的损失函数。算法训练至模型收敛，得到训练好的通用运营策略模型。运营平台线上环境是真实的平台环境，使用通用智能体去虚拟的用户环境模型进行交互采样。

所述（7）中，将训练好的通用运营策略模型部署每个城市的实际环境上指的是：

将算法收敛后的通用运营策略模型取出，使用通用运营策略模型去每一个城市的线上环境上指导用户运营：对于任意一个用户，输入其最新的用户画像，输出对于用户的运营操作。

基于用户模型学习的多任务强化学习用户运营系统，包括：

数据采集模块，用于去运营平台线上环境中收集每个城市最近一段时间所有用户的平台操作和自身反馈记录；

特征工程模块，将每个用户的平台操作和自身反馈记录的历史数据转换成按天为间隔、可用于强化学习的轨迹数据；

编码器网络训练模块，使用轨迹数据训练一个提取用户特征的编码器网络，编码器网络输出每个城市每个用户各自的特征向量；

聚类模块，使用每个城市每个用户的特征向量去进行聚类操作，根据聚类操作的结果去构建一个通用网络模型结构；

用户模型构建模块，使用模仿学习的方法，去模仿真实的用户行为数据中的用户行为，以构建出每个城市的用户模型，这些用户模型作为后续强化学习的多任务环境；

通用运营策略模型训练模块，使用通用网络模型结构来初始化可行的强化学习算法所需要的通用智能体模型，以多个城市的用户模型为多任务环境同时训练通用智能体模型，输出智能体模型中的通用运营策略模型；

模型部署模块，将训练好的通用运营策略模型部署到每个城市的实际环境上，去指导进行用户运营决策，并产生新一轮的平台操作和用户反馈数据。

所述系统中各模块的实现方法与基于用户模型学习的多任务强化学习用户运营方法中各对应步骤相同，不再赘述。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于用户模型学习的多任务强化学习用户运营方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述基于用户模型学习的多任务强化学习用户运营方法的计算机程序。

有益效果：与现有技术相比，本发明提供的基于用户模型学习的多任务强化学习用户运营方法和系统，具有如下优点：

1）本发明基于数据驱动、端到端的深度学习框架，除了前期的数据特征定义，整个流程几乎不需要人力的介入，节约成本的同时更加高效、智能化。

2）基于用户模型学习的强化学习方法，避免了频繁地去部署较差的运营策略来去真实环境在线采集强化学习的数据，相反可以通过从用户模型中采集数据来近似代替这个过程，保证了现实意义下的低成本、可实现性。

3）本发明基于多任务学习的思想，能够有效利用多城市数据之间的相关性来挖掘通用知识，哪怕某一个城市的数据质量很一般，在其他城市数据的约束下，也能保证最后的策略在所有城市下有一个基本性能保证，即保证所学策略的通用性和鲁棒性。同时值得注意的是，由于只需要训练一组模型，相比于每个城市训练多组模型的方法，大大降低了计算的资源开销，也简化了部署流程，只需要部署一个通用策略模型。

附图说明

图1为本发明实施例中方法的流程图；

图2为本发明实施例中层次化聚类过程示意图；

图3为本发明实施例中层次化聚类结果映射到通用网络结构的示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于用户模型学习的多任务强化学习用户运营方法，下面以移动出行平台的用户发券运营为实施例，多任务强化学习用户运营方法对应的多城市用户发券运营方法，循环进行着六个步骤：

步骤一：

去出行平台线上去收集数据，每个城市选定用户集，去采集这批用户的一份离线数据。离线数据应包括该城市选定用户集过去两个月（按60天算）的打车记录和获得促销券的记录。

步骤二：

技术方案中已经详细描述了系统对每份离线数据进行特征工程得到用户轨迹数据和用户行为数据的一般过程，接下来给出一个数据特征定义的实例。表1给出了用户画像的一个简单定义。然后考虑定义发券动作、用户动作和回报值：

发券动作：当日发券数量和发券平均折扣（或平均面额）

用户动作：当日打车订单数量和订单平均金额

回报值: 当天打车总金额减去券的抵扣金额

以第1天到第30天的历史数据来定义用户初始画像。根据第31天到第60天每一天的数据来获取每一天的发券动作、用户动作和回报值。

表1. 用户画像的简单定义

特征名	说明
		total_num	用户历史总订单数（带0.99折扣系数）
average_num	用户历史单日订单数的平均（不考虑为0的天数）
		average_fee	用户历史单日订单均价的平均（不考虑为0的天）

转移规则根据用户画像、发券动作和用户动作的定义而自然产生，已知当天用户画像、发券动作、用户动作，可以根据转移规则计算第二天的用户画像。如果我们以state表示当天的用户画像，当天的用户动作是act。由于 act[0]表示用户当天订单数，act[1]表示用户当天订单的平均金额，所以为了得到次日的用户画像 next_state，根据用户画像的定义，我们可以利用act和state直接计算出next_state的每一维。值得注意的是，这里由于用户画像定义比较简单，因此在计算第二天的用户画像时，可以不考虑当天的发券动作影响。

步骤三：

选择变换网络（Transformer Net）来初始化特征编码器网络。一个完整的变换网络通常是由n层编码器和和m层解码器组成。由于在此步只需要去从轨迹数据中提取特征变量，因此这里的变换网络实际上只需要n层的编码器，一般来说n可以取6。每个编码器由两个组件构成：自注意力机制和前馈神经网络。自注意力机制接受来自前一个编码器的输入编码，并权衡它们之间的相关性以生成输出编码。前馈神经网络进一步单独处理每个输出编码。基于对比损失（contrastive loss）来训练编码器网络。设对于任意两个用户i, j和他们的轨迹数据τ_i, τ_j。用y∈{1, … , L}来表示用户属于哪个城市，那么这一对用户i, j产生的对比损失为：

其中m是一个常数参数，总的对比损失就是任意两个城市（城市可以相同）各取一批用户，在这两批用户之间所有用户对的对比损失之和，我们基于最小化总的对比损失来训练特征编码器网络。训练好的特征编码器网络输入每个用户的轨迹，输出他们的特征向量。

步骤四：

以所有城市所有用户的特征向量作为聚类的训练数据集V^sum，选择k-均值聚类算法，将这些用户划分成一个层次化的聚类结构。自顶向下，初始化聚类过程，一开始所有城市用户属于同一个聚类，作为第一层（初始的当前层1）。L是城市的数量，假设2^n-1≤L≤2ⁿ，循环进行n次下面的过程：假设当前层为i，1≤i≤n，依次遍历当前层的每一个聚类，使用k-均值聚类算法，将当前层的每一个聚类划分成更小的两个子聚类，所有新的子聚类作为第i+1层的聚类之一，同时更新第i+1层为当前层。最终得到一个n+1层的二叉树状的层次化聚类结构。

对于k-均值聚类算法来说，已知用户特征向量集(v₁, v₂, … , v_n)，k-均值算法把这n个特征向量划分到k个集合中，使得组内平方和最小，即找到使得下式满足的聚类S_i：

其中u_i是S_i中所有点的均值。在本实施例中，如图2所示，每一次调用k-均值算法，都是从现有城市的用户聚类集合中，去划分出2个子聚类。以从初始聚类{A,B,C,D,E,F}划分出两个子聚类{A,E,F}和{B,C,D}为例：

假设初始聚类集合所有城市加起来一共有1000个用户特征向量{v₁, v₂, … ,v₁₀₀₀}。随机选取两个对象作为两个子聚类的中心点。分配过程中把1000个用户特征向量分配到离它最近的中心点。这样将得到两个当前聚类，将两个当前聚类的中心点作为新的中心点，并重复分配过程，直到中心点不再变化或者达到算法最大迭代次数。值得注意的是，对于任意一个城市来说，聚类结果中包含该城市用户数最多的聚类作为该城市所在的聚类。

图3展示了如何通过层次化聚类的二叉树状结构，去映射到神经网络的结构。可以看到，这是一个等价映射，每一个树上的节点对应与神经网络的一个模块，每一个模块由一层（或多层）的隐层组成，每一个隐层由多个神经元组成。模块之间的连接关系和树节点之间一致，网络的前向传播方向和树自根节点自顶向下的方向一致。

步骤五：

用模仿学习还原用户模型的一般过程，在此实施例中，可以选择模仿学习最常用的行为克隆算法来学习每个城市的用户模型。行为克隆算法使用极大似然的方法去学习到一个从（用户画像，发券动作）映射到用户动作的用户模型，每一个城市都有一个对应的用户模型。

步骤六：

当有了一个类似图3所示的通用网络结构，和多个城市的用户模型，选择一个强化学习算法，并按照多任务的方式训练。TD3是一个经典的强化学习算法，在此发明实例中，概述其多任务训练的一般过程：

输入：多个城市的用户模型{M₁, M₂, … , M_L}，初始化为空的多个城市的在线采样池{O₁, O₂, … , O_L}，使用通用网络结构初始化Q值网络

、策略网络

，以及这些网络对应的目标网络

。

1)将策略网络模型和Q值网络模型参数拷贝到目标网络：

；

2)使用

分别去每个城市的用户环境模型{M₁, M₂, … , M_L}采样数据，并将采样的数据分别加入对应在线采样池{O₁, O₂, … , O_L}；

3)从每个城市的在线采样池{O₁, O₂, … , O_L}分别去采样一小批数据

，每个β_i有N条数据；

4)基于下目标式来更新

：

其中

γ是折扣系数，c是一个正常数，ε是一个采样自正态分布的噪声；

policy_delay表示一个正整数，如果本次循环计数满足j % policy_delay=0：

基于如下目标来更新

：

，其中ρ是一个小于1非负常数；

5)循环返回2)，直至策略网络模型收敛结束。

输出：通用发券运营策略网络

。

步骤七：

当有了训练好的通用发券运营策略网络

，将其部署到线上的发券运营系统上，对于训练集中任意一个城市的任意用户，输入其最新的用户画像s，通用发券运营策略网络

输出对于他的一个发券动作a，基于这个发券动作去进行用户特定的发券运营。

基于用户模型学习的多城市用户发券运营系统，包括：

数据采集模块，用于去出行平台线上收集每个城市最近一段时间所有用户的打车记录和获得促销券记录；

特征工程模块，将每个用户的打车记录和获得促销券记录的历史数据转换成按天为间隔、可用于强化学习的轨迹数据；

通用运营策略模型训练模块，使用通用网络模型结构来初始化可行的强化学习算法所需要的通用智能体模型，以多个城市的用户模型为多任务环境同时训练通用智能体模型，输出智能体模型中的通用发券运营策略模型；

模型部署模块，将训练好的通用发券运营策略模型部署到每个城市的实际环境上，去指导进行用户特定的发券运营决策，并产生新一轮的平台操作和用户反馈数据。

显然，本领域的技术人员应该明白，上述的本发明实施例的基于用户模型学习的多任务强化学习用户运营方法各步骤或基于用户模型学习的多任务强化学习用户运营系统各模块可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种基于用户模型学习的多任务强化学习用户运营方法，其特征在于，包括如下步骤：

步骤（1），去线上平台收集每个城市最近一段时间所有用户的平台操作和自身反馈记录；

步骤（2），进行特征工程，将每个用户的平台操作和自身反馈记录的历史数据转换成用于强化学习的轨迹数据；

步骤（3），使用轨迹数据训练一个提取用户特征的编码器网络，编码器网络输出每个城市每个用户各自的特征向量；

步骤（4），使用每个城市每个用户的特征向量去进行聚类操作，根据聚类操作的结果去构建一个通用网络模型结构；

步骤（5），使用模仿学习的方法，去模仿真实的用户行为数据中的用户行为，以构建出每个城市的用户模型；

步骤（6），使用通用网络模型结构来初始化强化学习算法所需要的通用智能体模型，以多个城市的用户模型为多任务环境同时训练通用智能体模型，输出智能体模型中的通用运营策略模型；

步骤（7），将训练好的通用运营策略模型部署到每个城市的实际环境上，去指导进行用户运营决策，并产生新一轮的平台操作和用户反馈数据。

2.根据权利要求1所述的基于用户模型学习的多任务强化学习用户运营方法，其特征在于，所述步骤（1）中，每个城市最近一段时间所有用户的平台操作和用户反馈记录包括：用户在指定时间范围内每一天获得平台对他进行运营操作的数值，包括运营操作的次数和每一次操作涉及动作的强度；用户反馈记录指用户在收到平台的运营操作后，在平台上进行反馈的次数以及每次反馈产生的平台收益。

3.根据权利要求1所述的基于用户模型学习的多任务强化学习用户运营方法，其特征在于，所述步骤（2）中，特征工程将每个用户的平台操作和自身反馈记录的历史数据转换成用于强化学习的轨迹数据；令收集到的数据范围是从第1天到第2n天，首先去获得初始化的用户画像：以第n+1天为基准，用户在当天的画像是用户过去历史从第1天到第n天，基于所获平台操作和用户反馈记录，计算得到的一些统计特征数据，用s₁来表示用户初始的画像；当预定义好平台运营动作、用户反馈动作和平台回报值，能计算从第n+1天到第2n天每一天的平台运营动作、用户反馈动作和平台回报值数据，分别用a_t、u_t和r_t来表示，n+1≤t≤2n，同时根据已知的转移规则：s_t+1=T(s_t, a_t, u_t)，当知道当天的用户画像、平台运营动作和用户反馈动作，能计算得到第二天的用户画像；从用户的初始画像开始，基于转移规则和第n+1天到第2n天每一天的平台运营动作、用户反馈动作和平台回报值数据，得到了任何一个用户从第n+1天到第2n天内的一条轨迹数据：

τ={(s₁,a₁,r₁,s₂), (s₂,a₂,r₂,s₃), … ,(s_n,a_n,r_n,s_n+1)}

一个城市所有用户的轨迹数据就构成了这个城市的轨迹数据集D；如果{1, … , L}表示L个不同的城市，那么总的用户轨迹训练数据就是D^sum={D₁, … , D_L}；任何一个用户在第n+1天到第2n天内的行为数据为：

β={((s₁,a₁),u₁), ((s₂,a₂),u₂), … , ((s_n,a_n),u_n)}

同理一个城市的所有用户行为数据就构成了这个城市的用户行为数据集B；总的用户行为训练数据就是B^sum={B₁, … , B_L}。

4.根据权利要求1所述的基于用户模型学习的多任务强化学习用户运营方法，其特征在于，所述步骤（3）中，训练用于提取特征的编码器网络并输出特征向量的过程包括：

；编码器网络输入某个用户的一条时序轨迹数据τ，输出对应于这个用户的特征向量υ；

（302）基于对比损失训练编码器网络；

（303）总的对比损失就是任意两个城市各取一批用户，在这两批用户之间所有用户对的对比损失之和，用

表示，基于梯度下降对编码器网络参数σ做如下更新：

5.根据权利要求1所述的基于用户模型学习的多任务强化学习用户运营方法，其特征在于，所述步骤（4）中，从聚类到构建通用网络结构包括：

（401）以所有城市所有用户的特征向量作为聚类的训练数据集V^sum，将用户划分成一个层次化的聚类结构；自顶向下，初始化聚类过程，一开始所有城市用户属于同一个聚类，作为第一层；

（402）设2^n-1≤L≤2ⁿ，循环进行n次下面的过程：设当前层为i，1≤i≤n，依次遍历当前层的每一个聚类，使用聚类方法，将当前层的每一个聚类划分成更小的两个子聚类，所有新的子聚类作为第i+1层的聚类之一，同时更新第i+1层为当前层；最终得到一个n+1层的二叉树状的层次化聚类结构；

（403）将最终得到的二叉树状的层次化聚类结构等价映射到通用网络模型结构，构建通用网络模型；二叉树的每一个节点对应神经网络的一个模块，二叉树的边对应神经网络模块前向传播的连接关系。

6.根据权利要求1所述的基于用户模型学习的多任务强化学习用户运营方法，其特征在于，所述步骤（5）中，使用模仿学习的方法，模仿真实的用户行为数据中的用户行为指得是：

对于总的用户行为训练数据B^sum中每一个城市的用户行为数据，使用模仿学习的方法，学习到一个从（用户画像，平台运营动作）映射到用户反馈动作的用户模型，每一个城市都有一个用户模型；得到M^sum={M₁, … , M_L}，表示L个不同城市的用户模型。

7.根据权利要求1所述的基于用户模型学习的多任务强化学习用户运营方法，其特征在于，所述步骤（6）中，选择强化学习算法，训练算法的通用运营策略模型，包括：

（601）算法初始化过程中，将所有智能体相关的神经网络模型用通用网络模型结构来构建；并初始化每个城市的在线采样池O^sum={O₁, … , O_L}，将集合O^sum中任一采样池都初始化为空集；在线采样池的后续数据将采样自对应城市的用户模型M^sum={M₁, … , M_L}；

（602）算法训练过程中，使用通用智能体分别去每个用户环境模型中采样，并将采样数据添加到对应在线采样池中；每一个训练步上，交替遍历每一个城市，从当前城市的在线采样池中采样出一部分数据，使用这部分数据来优化算法相关的损失函数；算法训练至模型收敛，得到训练好的通用运营策略模型。

8.一种基于用户模型学习的多任务强化学习用户运营系统，其特征在于，包括：

9.一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-7中任一项所述的基于用户模型学习的多任务强化学习用户运营方法。

10.一种计算机可读存储介质，该计算机可读存储介质存储有执行如权利要求1-7中任一项所述基于用户模型学习的多任务强化学习用户运营方法的计算机程序。