CN114298870A

CN114298870A - 一种路径规划方法、装置、电子设备及计算机可读介质

Info

Publication number: CN114298870A
Application number: CN202111433927.0A
Authority: CN
Inventors: 李红梅; 朱建林; 柴敏; 赵宇; 冉丰凯; 赵岩
Original assignee: Taikang Life Insurance Co ltd; Taikang Insurance Group Co Ltd
Current assignee: Taikang Life Insurance Co ltd; Taikang Insurance Group Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-04-08

Abstract

本申请公开了路径规划方法、装置、电子设备及计算机可读介质，涉及计算机技术领域，该方法包括：步骤一：接收路径规划请求，获取对应的环境数据；步骤二：调用决策模型，基于环境数据，确定对应的职业能力状态区间，确定对应的能力值；步骤三：确定对应的能力值对应的规划路径，将规划路径推送至环境数据对应的用户，获取对应的用户执行规划路径的执行结果，根据执行结果更新环境数据；步骤四：获取更新后的环境数据的状态信息，以判断状态信息是否为稳定标识，若是，则将更新后的环境数据对应的能力值输出；若否，则基于更新后的环境数据循环执行步骤二至步骤四直至更新后的环境数据的状态信息为稳定标识。为代理人提供持动态的培训职业规划。

Description

一种路径规划方法、装置、电子设备及计算机可读介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种路径规划方法、装置、电子设备及计算机可读介质。

背景技术

目前，随着网络资源越来越丰富，保险公司给代理人提供了丰富的网络资源和课程体系，例如空中课堂、微课、实战案例、线下面授等资源和活动，代理人可以通过线上线下动作来进行学习和培训。众多的资源也让代理人陷入选择窘境，没有目标性和针对性。

在实现本申请过程中，发明人发现现有技术中至少存在如下问题：

在代理人期望通过职业规划实现自身能力的提升的场景中，众多的学习资源让代理人陷入选择窘境，没有目标性和针对性。

发明内容

有鉴于此，本申请实施例提供一种路径规划方法、装置、电子设备及计算机可读介质，能够解决现有的在代理人期望通过职业规划实现自身能力的提升的场景中，众多的学习资源让代理人陷入选择窘境，没有目标性和针对性的问题。

为实现上述目的，根据本申请实施例的一个方面，提供了一种路径规划方法，包括：

步骤一：接收路径规划请求，获取对应的环境数据；

步骤二：调用决策模型，以基于环境数据，确定对应的职业能力状态区间，进而确定对应的能力值；

步骤三：确定对应的能力值对应的规划路径，进而将规划路径推送至环境数据对应的用户，并获取对应的用户执行规划路径的执行结果，以根据执行结果更新环境数据；

步骤四：获取更新后的环境数据的状态信息，以判断所述状态信息是否为稳定标识，若是，则将更新后的环境数据对应的能力值输出；若否，则基于更新后的环境数据循环执行步骤二至步骤四直至更新后的环境数据的状态信息为稳定标识。

可选地，在调用决策模型之前，方法还包括：

获取历史路径规划环境数据，进而根据历史路径规划环境数据对应的用户的个数划分职业能力状态区间，进而构造马尔科夫决策过程五元组；

根据马尔科夫决策过程五元组，调用对应的职业能力状态集合，从对应的职业能力状态集合中选择一个初始职业能力状态，进而基于贪心策略在初始职业能力状态下，从马尔科夫决策过程五元组对应的资源中选择资源进行执行，以得到当前职业能力状态，获取对应的即时奖赏；

选择当前职业能力状态下最大的期望值，以基于最大的期望值更新期望值矩阵；

响应于确定期望值矩阵收敛，基于即时奖赏和期望值矩阵得到初始职业能力状态到目标职业能力状态的最佳路径；响应于确定期望值矩阵收敛且初始职业能力状态不是马尔科夫决策过程五元组对应的最后一个初始职业能力状态，重新选择一个初始职业能力状态并更新；响应于确定期望值矩阵收敛且初始职业能力状态是马尔科夫决策过程五元组对应的最后一个初始职业能力状态，停止重新获取初始职业能力状态；

基于各最佳路径生成决策模型。

可选地，确定对应的能力值对应的规划路径，包括：

确定对应的能力值在决策模型中对应的当前职业能力状态到其他职业能力状态的即时奖赏；

从其他职业能力状态中确定目标职业能力状态；

根据当前职业能力状态、各即时奖赏和目标职业能力状态，确定从当前职业能力状态转移至目标职业能力状态的规划路径。

可选地，确定从当前职业能力状态转移至目标职业能力状态的规划路径，包括：

基于贪心策略，确定路径，其中，路径基于当前职业能力状态转移至目标职业能力状态时对应的最大即时奖赏和最大期望值得到；

将路径确定为从当前职业能力状态转移至目标职业能力状态的规划路径。

可选地，根据执行结果更新环境数据，包括：

根据执行结果确定当前能力值；

比较当前能力值和目标能力值，确定待提升能力值；

基于待提升能力值，更新环境数据中的代理人信息。

可选地，基于环境数据，确定对应的职业能力状态区间，包括：

基于环境数据，确定对应的职业能力状态；

调用预设的职业能力状态区间库，以确定对应的职业能力状态所对应的职业能力状态区间。

可选地，确定对应的能力值对应的规划路径，包括：

基于预设的能力值与规划路径的对应关系，确定能力值对应的当前职业能力状态到目标职业能力状态的规划路径。

另外，本申请还提供了一种路径规划装置，包括：

接收单元，被配置成接收路径规划请求，获取对应的环境数据；

能力值确定单元，被配置成调用决策模型，以基于环境数据，确定对应的职业能力状态区间，进而确定对应的能力值；

更新单元，被配置成确定对应的能力值对应的规划路径，进而将规划路径推送至环境数据对应的用户，并获取对应的用户执行规划路径的执行结果，以根据执行结果更新环境数据；

路径规划单元，被配置成获取更新后的环境数据的状态信息，以判断状态信息是否为稳定标识，若是，则将更新后的环境数据对应的能力值输出；若否，则基于更新后的环境数据循环执行步骤二至步骤四直至更新后的环境数据的状态信息为稳定标识。

可选地，路径规划装置还包括决策模型生成单元，被配置成：

基于各最佳路径生成决策模型。

可选地，更新单元进一步被配置成：

从其他职业能力状态中确定目标职业能力状态；

可选地，更新单元进一步被配置成：

根据执行结果确定当前能力值；

比较当前能力值和目标能力值，确定待提升能力值；

基于待提升能力值，更新环境数据中的代理人信息。

可选地，能力值确定单元进一步被配置成：

基于环境数据，确定对应的职业能力状态；

可选地，更新单元进一步被配置成：

另外，本申请还提供了一种路径规划电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述的路径规划方法。

另外，本申请还提供了一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现如上述的路径规划方法。

上述发明中的一个实施例具有如下优点或有益效果：本申请通过接收路径规划请求，获取对应的环境数据；调用决策模型，以基于环境数据，确定对应的职业能力状态区间，进而确定对应的能力值；确定对应的能力值对应的规划路径，进而将规划路径推送至环境数据对应的用户，并获取对应的用户执行规划路径的执行结果，以根据执行结果更新环境数据；获取更新后的环境数据的状态信息，以判断状态信息是否为稳定标识，若是，则将更新后的环境数据对应的能力值输出；若否，则基于更新后的环境数据循环执行步骤二至步骤四直至更新后的环境数据的状态信息为稳定标识。根据目标代理人对待选资源执行的动作(例如参加培训，学习资料，考试等)，给目标代理人提供动态的职业发展路线和推荐具体的措施，为代理人提供持续、动态的学习、培训、活动等资源推荐和个性化、最优的动态职业规划。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本申请，不构成对本申请的不当限定。其中：

图1是根据本申请第一实施例的路径规划方法的主要流程的示意图；

图2是根据本申请第二实施例的路径规划方法的主要流程的示意图；

图3是根据本申请第三实施例的路径规划方法的应用场景示意图；

图4是根据本申请实施例的路径规划装置的主要单元的示意图；

图5是本申请实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请第一实施例的路径规划方法的主要流程的示意图，如图1所示，路径规划方法包括：

步骤S101，接收路径规划请求，获取对应的环境数据。

本实施例中，路径规划方法的执行主体(例如，可以是服务器)可以通过有线连接或无线连接的方式，接收路径规划请求。该路径规划请求可以是对代理人的职业路径进行规划的请求。执行主体在接收路径规划请求后，可以获取对应的环境数据。具体地，环境数据可以是代理人所处的工作环境、社会环境、学习环境、家庭环境等的数据，具体可以包括代理人信息、代理人所学课程信息、代理人参加的培训的信息、代理人的行为信息(包括代理人的浏览行为、物品购买行为等的信息)等。其中，代理人信息可以包括代理人的社会信息、家庭信息等。当然，环境数据也可以包括在自动驾驶场景中，车辆周围的道路信息、邻近车辆信息、行人信息等数据。本申请实施例对环境数据的具体内容不做限定。

步骤S102，调用决策模型，以基于环境数据，确定对应的职业能力状态区间，进而确定对应的能力值。

具体地，在调用决策模型之前，路径规划方法还包括：

获取历史路径规划环境数据，进而根据历史路径规划环境数据对应的用户的个数划分职业能力状态区间，进而构造马尔科夫决策过程五元组。具体地，基于环境数据，确定对应的职业能力状态区间，包括：基于环境数据，确定对应的职业能力状态；调用预设的职业能力状态区间库，以确定对应的职业能力状态所对应的职业能力状态区间。示例的，如图3中的①所示，为马尔科夫决策过程，即将现有的代理人分为不同职业阶段1(s1)、阶段2(s2)、阶段3(s3)、阶段4(s4)、阶段5(s5)……表示代理人该阶段所具备的能力状态，基于线上的培训资源，日常活动指标等信息，构建马尔科夫决策过程，并获得马尔科夫决策过程五元组(S,A,P,R,γ)。

马尔科夫决策过程由元组(S,A,P,R,γ)描述，其中：S为有限的状态集,A为有限的动作集,P为状态转移概率,R为回报函数,γ为折扣因子，用来计算累积回报。马尔科夫决策过程的状态转移概率是包含动作的即：

S表示职业状态集合，反映代理人每个时刻所处的职业能力状态。将代理人的职业能力定义为状态，需要进行职业能力S的划分，将每个代理人的职业能力S的状态值按代理人的数量正态分布比例来划分职业状态区间，按照代理人数量高斯分布比例来划分区间，每个区间取均值作为该区间的能力值。职业状态区间的离散化方法，依照代理人数量1:2:5:2:1的高斯分布分布比例来划分五个区间。

A表示动作集合，指代理人学习和工作采取的行为集合。T表示状态转移概率，基于职业能力划分后的状态，以及职业划分后的代理人职业和学习行为路径数据，统计计算状态转移概率T。

T(s,a,s')＝P(s_t+1＝s'|s_t＝s,a_t＝a) (2)

其中s表示状态实例，a表示动作实例，t表示时刻，s_t表示t时刻下的状态，a_t表示t时刻下选择的动作。R表示奖赏，奖赏分为即时奖赏和累积奖赏，即时奖赏在代理人采取动作后获得过程，理解为代理人在某个时刻状态为s∈S参加培训和学习某些资源，工作取得的成绩等(a∈A)后转移到状态s’∈S，能够获得该时刻的即时奖赏值(s,a,s')，表示R在该时刻获得的奖赏实例，该奖赏值与正确完成概率，正确转移频次以及能力增量三个因素有关。即时奖赏值与如下三个因素有关：

P(T)：正确完成概率，代理人在该时刻职业状态下能够正确完成培训、学习、工作(资源)的概率，基于学习和工作效果评估模型预测。

F(T)：正确转移频次，学生路径中所有从状态s转移通过a转移到状态s′的样本，其中通过正确完成培训、学习、工作而完成转移的概率，表示为：Diff(s1,s2)＝(s'-s)·difficult，转化前后职业能力的最大增量表示为状态前后的差值向量与培训、学习资源难度的点积，以匹配代理人该职业状态下的能力值与培训资源的难度，并将向量标量化，便于奖赏的计算与比较。即时奖赏r表示为：

r(s,a,s')＝ω×Diff(s,s') (3)

ω＝P(T)×F(T)+(1-P(T))×(1-F(T)) (4)

其中，ω作为最大能力增量的系数。

累积奖赏(Return,G)，又称之为回报，被定义为奖赏序列的某一具体函数，假设当前时刻为t，则t时刻后的奖赏序列为R_t+1，R_t+2，R_t+3…R_M,M为总时长则回报G表示为每一时刻即时奖赏的和，然后再加入折扣因子得到γ表示折扣因子,在上述计算累积奖赏的表示中,γ∈[0,1]，相当于将未来的回报打了折扣，若γ趋近于0,则仅关心当前的即时奖赏，往往会执行使当前即时奖赏最大的行为，本质是一种贪心行为；若γ趋近于1，则会更多的考虑未来回报。

基于各最佳路径生成决策模型。

示例的，本申请实施例在进行模型的训练时，基于各个职业状态下的职业能力训练离线模型，实现路径规划策略的功能，根据职业环境模拟获得马尔科夫决策过程的五元组。应用基于增强学习的Q_learning算法(QLearning是强化学习算法中value-based的算法，Q即为Q(s,a)就是在某一时刻的s状态下(s∈S)，采取动作a(a∈A)能够获得收益的期望，环境会根据agent(agent指能自主活动的软件或者硬件实体)的动作反馈相应的回报reward r，所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作)，离线训练得到基于各职业状态下的路径规划策略。根据获得马尔科夫决策过程的五元组(S,A,P,R,γ)，从职业状态集合S中随机选择一个初始的职业状态S1，基于ε-greedy策略在职业状态S1下选择资源A1进行培训、学习、工作，再根据环境可观测下一个能力状态S2，同时得到即时奖赏R2，此时选择当前职业能力状态下最大的Q值用以更新Q值表，其中Q_k表示当前的Q值表，Q_k+1表示更新后的Q值表，α表示更新比例，每次按新值更新旧值，不断迭代更新，直至学习能力达到要求，即到达终止状态，重新选择初始的能力状态。以字典的形式存储每个能力状态下的最优路径，至此策略训练完成。

Q(s,a)是状态-动作价值函数，是在状态s时采取动作a之后，可以获得的奖励的期望值。Q(s,a)越大表示在agent状态s是采取动作比较好。q表里面记录的都是状态动作价值函数，q表可以间接决定agent采取什么样的决策，就是因为q表记录了所有的状态和动作的组合情况，比如agent看到状态s2时，就会在状态s2行所在的行选取最大的q值所对应的动作。

Q表示例如下：

其中ε-greedy策略更新方法：

指定ε∈[0,1]值，并随机一个0-1之间的随机数；

若随机数小于ε则随机选择职业状态下可选择的资源进行学习，每个资源被选择的概率均为其中|A1|为当前状态下可选择的资源个数；

若随机数大于等于ε则选择当前状态下具有最大状态-动作值Q的资源进行学习。

在得到决策模型后，执行主体可以调用决策模型，以基于环境数据，确定对应的职业能力状态区间，进而确定对应的能力值。

执行主体可以调用决策模型，以确定环境数据所落的职业能力状态区间，进而可以将该职业能力状态区间的平均值确定为对应的能力值。

步骤S103，确定对应的能力值对应的规划路径，进而将规划路径推送至环境数据对应的用户，并获取对应的用户执行规划路径的执行结果，以根据执行结果更新环境数据。

具体地，根据执行结果更新环境数据，包括：

根据执行结果确定当前能力值；比较当前能力值和目标能力值，确定待提升能力值；基于待提升能力值，更新环境数据中的代理人信息。

更新环境数据中的代理人信息例如可以是更新代理人信息的职业状态，具体可以是职业状态等级等。

具体地，确定对应的能力值对应的规划路径，包括：

步骤S104，获取更新后的环境数据的状态信息，以判断状态信息是否为稳定标识，若是，则将更新后的环境数据对应的能力值输出；若否，则基于更新后的环境数据循环执行步骤二至步骤四直至更新后的环境数据的状态信息为稳定标识。

步骤S104中提到的步骤二至步骤四分别对应本申请说明书中的步骤S102～步骤S104。

执行主体可以判断环境数据的状态信息是否为稳定标识，若环境数据的状态信息是稳定标识，则输出更新后的环境数据对应的能力值，进而结束路径规划；若环境数据的状态信息不是稳定标识，则迭代执行步骤S101～步骤S103，以不断更新环境数据，直至更新后的环境数据的状态信息为稳定标识。稳定标识，例如可以是1或0，或者是a或b等，本申请实施例对稳定标识不做限定。

本实施例中，环境数据的状态信息为稳定标识，示例的，在预设的观察时间段内，环境数据的状态信息对应标识1，表明环境数据的状态信息为稳定标识，表明对该环境数据的路径规划已经稳定，达到了用户的目标职业能力状态了，不需要再提升了，至此可以输出用户当前的能力值，结束路径规划。可以理解的是，执行主体可以输出各个中间态的规划路径，也可以输出最后一次的规划路径，本申请实施例对于规划路径在什么时间输出不做具体限定，可以根据需要进行规划路径的输出的调整。具体地，该规划路径可以是代理人的职业规划路径。

本申请实施例中，基于决策模型的路径规划，可以实现代理人实时动态职业路径规划的功能，根据对决策模型的策略训练得到的策略，基于目标代理人当前的职业能力状态，得到为该目标代理人的实时规划的最优职业路径，最终达到提高学习效果和效率的目标。

路径规划模块实现步骤如下：

获取目标代理人的当前职业能力状态s∈S，

在策略训练中，寻找与能力s最接近的状态下的一个学习路径；然后将获得的职业路径l_t推荐给该目标代理人，并在后续的工作过程中自适应调整规划职业发展路径。

其中自适应调整规划路径根据目标代理人当前的职业能力s为该目标代理人规划职业发展路径，下一个工作阶段后，目标代理人的职业状态变更为s’，依据目标代理人更新后的职业状态s’，为该目标代理人规划新的职业发展路径l_t+1

对比职业路径l_t的后续路径与新的推荐路径l_t+1，若不同，则用新的推荐路径l_t+1替换旧的职业发展路径l_t。若相同，则不变。

本实施例通过接收路径规划请求，获取对应的环境数据；调用决策模型，以基于环境数据，确定对应的职业能力状态区间，进而确定对应的能力值；确定对应的能力值对应的规划路径，进而将规划路径推送至环境数据对应的用户，获取对应的用户执行规划路径的执行结果，根据执行结果更新环境数据；响应于环境数据的状态信息为稳定标识，输出规划路径。根据目标代理人对待选资源执行的动作(例如参加培训，学习资料，考试等)，给目标代理人提供动态的职业发展路线和推荐具体的措施，为代理人提供持续、动态的学习、培训、活动等资源推荐和个性化、最优的动态职业规划。

图2是根据本申请第二实施例的路径规划方法的主要流程示意图，如图2所示，路径规划方法包括：

步骤S201，接收路径规划请求，获取对应的环境数据。

步骤S202，调用决策模型，以基于环境数据，确定对应的职业能力状态区间，进而确定对应的能力值。

步骤S203，确定对应的能力值在决策模型中对应的当前职业能力状态到其他职业能力状态的即时奖赏。如图3中的②、③所示，假设代理人目前的职业能力状态在s2，S5是目标职业人能力状态，s0、s1、s3、s4、s5是其他职业能力状态。线段上的值(0，50，60，100，65，70，80，85)分别是采取不同动作A的奖赏值。

奖赏reward矩阵可以如下所示：

获得的奖励的期望值Q的矩阵可以如下所示：

步骤S204，从其他职业能力状态中确定目标职业能力状态。

目标职业能力状态例如可以是图3中的②、③中的s5。具体可以根据实际工作需要而定，本申请实施例对目标职业能力状态不做具体限定。

步骤S205，根据当前职业能力状态、各即时奖赏和目标职业能力状态，确定从当前职业能力状态转移至目标职业能力状态的规划路径。

具体地，确定从当前职业能力状态转移至目标职业能力状态的规划路径，包括：

基于贪心策略，确定路径，其中，路径基于当前职业能力状态转移至目标职业能力状态时对应的最大即时奖赏和最大期望值得到；将路径确定为从当前职业能力状态转移至目标职业能力状态的规划路径。

示例的，如图3中的③所示，为Q矩阵收敛后得到的代理人当前状态s2转移到目标状态s5的最佳路线。从s2到目标状态s5的最优路径图。假设代理人目前的职业能力状态在s2，利用获得的最佳路径图可得到该代理人达到目标状态s5的最佳路径是s2->s3->s5，需要做的动作是A3，A5。A3，A5是给代理人的具体的工作方向，资源，学习，培训的推荐。

步骤S206，将规划路径推送至环境数据对应的用户，获取对应的用户执行规划路径的执行结果，根据执行结果更新环境数据。

步骤S207，获取更新后的环境数据的状态信息，以判断状态信息是否为稳定标识，若是，则将更新后的环境数据对应的能力值输出；若否，则基于更新后的环境数据循环执行步骤二至步骤四直至更新后的环境数据的状态信息为稳定标识。

步骤S206～步骤S207的原理与步骤S103～步骤S104的原理类似，此处不再赘述。

图3是根据本申请第三实施例的路径规划方法的应用场景示意图。本申请实施例的路径规划方法，可以应用于对代理人的职业路线进行规划的场景中。如图3所示，执行主体在接收到对代理人的职业路径进行规划的请求后，可以获取对应的环境信息，包括：代理人信息、课程信息、培训信息、代理人行为动作信息等。然后经过马尔科夫决策过程(如图①、②、③所示)，通过调用策略训练模块进行策略学习，并基于学习的策略和获取的目标代理人对应的环境数据进行目标代理人的职业路径规划，以使得目标代理人的职业能力状态达到目标职业能力状态，进而得到职业规划分析和建议，例如目标代理人要从职业能力状态s2到达目标职业能力状态s5时，所要接受的学习课程推荐、培训推荐、工作内容推荐、行为动作建议等。示例的，如图3中的A区域所示，假设代理人目前处于的职业位置为：s3(转正)，此时具备能力1、能力2、能力3、…，经过马尔科夫决策过程的策略学习和路径规划之后，得到的建议/推荐的职业发展路径为……s3(转正)-s5-s7(绩优)-s8……，执行主体根据建议/推荐的职业发展路径可以得到目标代理人当前职业发展还欠缺的能力和短板，例如，能力XX、能力yy、能力YY、……等。然后，执行主体可以基于职业发展还欠缺的能力和短板进行此职业发展路径下需要采取的措施和步骤，例如：推荐学习视频、参加培训课程、日常活动和工作、面访客户/开单……等，以助于目标代理人能力的提升。

本申请实施例对于每位代理人生成一个动态的职业规划路线。该职业路线是动态化的，可变的，个性化的。会根据目标代理人执行的动作(例如参加培训，学习资料，考试等)，给目标代理人提供动态的职业发展路线和推荐具体的措施。对提高留存率、促进保险代理人业绩提升和团队发展，为公司带来显著的经济效益。

本申请实施例提出的基于强化学习的代理人动态职业规划方法，该方法将现有的代理人个性信息、职业信息、学习、培训环境转化为能够理解的文字和语言。基于绩优代理人个人发展信息、培训和学习资源的基本信息，从而构建到马尔科夫动态决定过程的五原组，应用增强学习算法，训练得到各职业节点状态的路线规划策略。基于获得的动态规划策略和目标代理人的职业状态，得到该代理人实时的最优职业发展路径和相应的实现方法。

本申请实施例通过马尔科夫决策过程来描述代理人复杂的工作环境，通过深度学习算法来学习，获得Q表(状态-动作价值表)，深度学习算法此处不做限制。本申请实施例不仅提供了代理人职业规划路线，还给出了具体的行动方法和措施，通过增强学习算法实现了智能推荐，例如给代理人推荐各种培训课程，工作指南和日常的工作指引。

本申请实施例提出一种基于强化学习的代理人动态职业规划方法，该方法将现有的代理人个性信息、职业信息、学习、培训环境转化为能够理解的文字和语言。基于绩优代理人个人发展信息、培训和学习资源的基本信息，从而构建到马尔可夫动态决定过程的五原组，应用增强学习算法，训练得到各职业节点状态的路线规划策略。基于获得的动态规划策略和目标代理人的职业状态，得到该代理人实时的最优职业发展路径和相应的实现方法。

本申请实施例对于每位代理人生成一个动态的职业规划路线。该职业路线是动态化的，可变的，个性化的。会根据目标代理人执行的动作(例如参加培训，学习资料，考试等)，给目标代理人提供动态的职业发展路线和推荐具体的措施。

本申请实施例的职业规划路径是冬天的，具有个性化、动态化、路径可达的特点。个性化：考虑不同的保险代理人个人素质，环境，工作方式的差异，有不一样的职业发展路径；动态化：绩优成长方案具体到个体，更具体到每一个阶段，每一阶段绩优成长方案结合前一阶段的成长表现生成；路径可达：职业发展路径不仅能设定目标，而且提供如何达到预期目标的方法。本申请实施例所依附的载体或服务：可以基于一个或多个处理器、存储装置、APP等的服务。合理有效的代理人职业规划，及时的个性化的培训、学习资源推荐和工作方式的指导，使其能够有针对性地展业和销售，能最大限度发掘保险代理人个人潜力，促进保险代理人的目标达成率、助力代理人职业发展，使得代理人有归属感，提高其的留存率。

图4是根据本申请实施例的路径规划装置的主要单元的示意图。如图4所示，路径规划装置包括接收单元401、能力值确定单元402、更新单元403和路径规划单元403。

接收单元401，被配置成接收路径规划请求，获取对应的环境数据。

能力值确定单元402，被配置成调用决策模型，以基于环境数据，确定对应的职业能力状态区间，进而确定对应的能力值。

更新单元403，被配置成确定对应的能力值对应的规划路径，进而将规划路径推送至环境数据对应的用户，并获取对应的用户执行规划路径的执行结果，以根据执行结果更新环境数据。

路径规划单元404，被配置成获取更新后的环境数据的状态信息，以判断状态信息是否为稳定标识，若是，则将更新后的环境数据对应的能力值输出；若否，则基于更新后的环境数据循环执行步骤二至步骤四直至更新后的环境数据的状态信息为稳定标识。

在一些实施例中，路径规划装置还包括图4中未示出的决策模型生成单元，被配置成：获取历史路径规划环境数据，进而根据历史路径规划环境数据对应的用户的个数划分职业能力状态区间，进而构造马尔科夫决策过程五元组；根据马尔科夫决策过程五元组，调用对应的职业能力状态集合，从对应的职业能力状态集合中选择一个初始职业能力状态，进而基于贪心策略在初始职业能力状态下，从马尔科夫决策过程五元组对应的资源中选择资源进行执行，以得到当前职业能力状态，获取对应的即时奖赏；选择当前职业能力状态下最大的期望值，以基于最大的期望值更新期望值矩阵；响应于确定期望值矩阵收敛，基于即时奖赏和期望值矩阵得到初始职业能力状态到目标职业能力状态的最佳路径；响应于确定期望值矩阵收敛且初始职业能力状态不是马尔科夫决策过程五元组对应的最后一个初始职业能力状态，重新选择一个初始职业能力状态并更新；响应于确定期望值矩阵收敛且初始职业能力状态是马尔科夫决策过程五元组对应的最后一个初始职业能力状态，停止重新获取初始职业能力状态；基于各最佳路径生成决策模型。

在一些实施例中，更新单元403进一步被配置成：确定对应的能力值在决策模型中对应的当前职业能力状态到其他职业能力状态的即时奖赏；从其他职业能力状态中确定目标职业能力状态；根据当前职业能力状态、各即时奖赏和目标职业能力状态，确定从当前职业能力状态转移至目标职业能力状态的规划路径。

在一些实施例中，更新单元403进一步被配置成：基于贪心策略，确定路径，其中，路径基于当前职业能力状态转移至目标职业能力状态时对应的最大即时奖赏和最大期望值得到；将路径确定为从当前职业能力状态转移至目标职业能力状态的规划路径。

在一些实施例中，更新单元403进一步被配置成：根据执行结果确定当前能力值；比较当前能力值和目标能力值，确定待提升能力值；基于待提升能力值，更新环境数据中的代理人信息。

在一些实施例中，能力值确定单元402进一步被配置成：基于环境数据，确定对应的职业能力状态；调用预设的职业能力状态区间库，以确定对应的职业能力状态所对应的职业能力状态区间。

在一些实施例中，更新单元403进一步被配置成：基于预设的能力值与规划路径的对应关系，确定能力值对应的当前职业能力状态到目标职业能力状态的规划路径。

需要说明的是，在本申请路径规划方法和路径规划装置在具体实施内容上具有相应关系，故重复内容不再说明。

图5示出了可以应用本申请实施例的路径规划方法或路径规划装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备501、502、503可以是具有路径规划处理屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所提交的路径规划请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以接收路径规划请求，获取对应的环境数据；调用决策模型，以基于环境数据，确定对应的职业能力状态区间，进而确定对应的能力值；确定对应的能力值对应的规划路径，进而将规划路径推送至环境数据对应的用户，并获取对应的用户执行规划路径的执行结果，以根据执行结果更新环境数据；获取更新后的环境数据的状态信息，以判断状态信息是否为稳定标识，若是，则将更新后的环境数据对应的能力值输出；若否，则基于更新后的环境数据循环执行步骤二至步骤四直至更新后的环境数据的状态信息为稳定标识。根据目标代理人对待选资源执行的动作(例如参加培训，学习资料，考试等)，给目标代理人提供动态的职业发展路线和推荐具体的措施，为代理人提供持续、动态的学习、培训、活动等资源推荐和个性化、最优的动态职业规划。

需要说明的是，本申请实施例所提供的路径规划方法一般由服务器505执行，相应地，路径规划装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶征信授权查询处理器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本申请公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括接收单元、能力值确定单元、更新单元和路径规划单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备接收路径规划请求，获取对应的环境数据；调用决策模型，以基于环境数据，确定对应的职业能力状态区间，进而确定对应的能力值；确定对应的能力值对应的规划路径，进而将规划路径推送至环境数据对应的用户，并获取对应的用户执行规划路径的执行结果，以根据执行结果更新环境数据；获取更新后的环境数据的状态信息，以判断状态信息是否为稳定标识，若是，则将更新后的环境数据对应的能力值输出；若否，则基于更新后的环境数据循环执行步骤二至步骤四直至更新后的环境数据的状态信息为稳定标识。

根据本申请实施例的技术方案，根据目标代理人对待选资源执行的动作(例如参加培训，学习资料，考试等)，给目标代理人提供动态的职业发展路线和推荐具体的措施，为代理人提供持续、动态的学习、培训、活动等资源推荐和个性化、最优的动态职业规划。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种路径规划方法，其特征在于，包括：

步骤一：接收路径规划请求，获取对应的环境数据；

步骤二：调用决策模型，以基于所述环境数据，确定对应的职业能力状态区间，进而确定对应的能力值；

步骤三：确定所述对应的能力值对应的规划路径，进而将所述规划路径推送至所述环境数据对应的用户，并获取所述对应的用户执行所述规划路径的执行结果，以根据所述执行结果更新所述环境数据；

2.根据权利要求1所述的方法，其特征在于，在所述调用决策模型之前，所述方法还包括：

获取历史路径规划环境数据，进而根据所述历史路径规划环境数据对应的用户的个数划分职业能力状态区间，进而构造马尔科夫决策过程五元组；

根据所述马尔科夫决策过程五元组，调用对应的职业能力状态集合，从所述对应的职业能力状态集合中选择一个初始职业能力状态，进而基于贪心策略在所述初始职业能力状态下，从所述马尔科夫决策过程五元组对应的资源中选择资源进行执行，以得到当前职业能力状态，获取对应的即时奖赏；

选择所述当前职业能力状态下最大的期望值，以基于所述最大的期望值更新期望值矩阵；

响应于确定所述期望值矩阵收敛，基于所述即时奖赏和所述期望值矩阵得到所述初始职业能力状态到目标职业能力状态的最佳路径；响应于确定所述期望值矩阵收敛且所述初始职业能力状态不是所述马尔科夫决策过程五元组对应的最后一个初始职业能力状态，重新选择一个初始职业能力状态并更新；响应于确定所述期望值矩阵收敛且所述初始职业能力状态是所述马尔科夫决策过程五元组对应的最后一个初始职业能力状态，停止重新获取初始职业能力状态；

基于各所述最佳路径生成决策模型。

3.根据权利要求1所述的方法，其特征在于，所述确定所述对应的能力值对应的规划路径，包括：

确定所述对应的能力值在所述决策模型中对应的当前职业能力状态到其他职业能力状态的即时奖赏；

从所述其他职业能力状态中确定目标职业能力状态；

根据所述当前职业能力状态、各所述即时奖赏和所述目标职业能力状态，确定从所述当前职业能力状态转移至所述目标职业能力状态的规划路径。

4.根据权利要求3所述的方法，其特征在于，所述确定从所述当前职业能力状态转移至所述目标职业能力状态的规划路径，包括：

基于贪心策略，确定路径，其中，所述路径基于所述当前职业能力状态转移至所述目标职业能力状态时对应的最大即时奖赏和最大期望值得到；

将所述路径确定为从所述当前职业能力状态转移至所述目标职业能力状态的规划路径。

5.根据权利要求1所述的方法，其特征在于，所述根据所述执行结果更新所述环境数据，包括：

根据所述执行结果确定当前能力值；

比较所述当前能力值和目标能力值，确定待提升能力值；

基于所述待提升能力值，更新所述环境数据中的代理人信息。

6.根据权利要求1所述的方法，其特征在于，所述基于所述环境数据，确定对应的职业能力状态区间，包括：

基于所述环境数据，确定对应的职业能力状态；

调用预设的职业能力状态区间库，以确定所述对应的职业能力状态所对应的职业能力状态区间。

7.根据权利要求1所述的方法，其特征在于，所述确定所述对应的能力值对应的规划路径，包括：

基于预设的能力值与规划路径的对应关系，确定所述能力值对应的当前职业能力状态到目标职业能力状态的规划路径。

8.一种路径规划装置，其特征在于，包括：

能力值确定单元，被配置成调用决策模型，以基于所述环境数据，确定对应的职业能力状态区间，进而确定对应的能力值；

更新单元，被配置成确定所述对应的能力值对应的规划路径，进而将所述规划路径推送至所述环境数据对应的用户，并获取所述对应的用户执行所述规划路径的执行结果，以根据所述执行结果更新所述环境数据；

路径规划单元，被配置成获取更新后的环境数据的状态信息，以判断所述状态信息是否为稳定标识，若是，则将更新后的环境数据对应的能力值输出；若否，则基于更新后的环境数据循环执行步骤二至步骤四直至更新后的环境数据的状态信息为稳定标识。

9.一种路径规划电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。