CN115456150A

CN115456150A - 一种强化学习模型构建方法及系统

Info

Publication number: CN115456150A
Application number: CN202211275842.9A
Authority: CN
Inventors: 陈敏杰; 李业磊
Original assignee: Beijing Dingcheng Intelligent Manufacturing Technology Co ltd
Current assignee: Beijing Dingcheng Intelligent Manufacturing Technology Co ltd
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2022-12-09
Anticipated expiration: 2042-10-18
Also published as: CN115456150B

Abstract

本发明公开了一种强化学习模型构建方法及系统，该方法包括：响应于用户可视化配置，低代码编辑器模块获取可视化配置参数，利用所述低代码编辑器模块对所述可视化配置参数进行处理，得到参数结构化数据；利用代码生成器模块对参数结构化数据进行处理，得到目标代码结构化数据；利用所述代码生成器模块对所述目标代码结构化数据进行数据转换处理，得到目标强化学习模型。可见，本发明减少构建算法时间、测试时间，提升了强化学习的训练效率，解决了强化学习在与不同仿真场景结合时的交互困难的问题。

Description

一种强化学习模型构建方法及系统

技术领域

本发明涉及智能仿真技术领域，尤其涉及一种强化学习模型构建方法及系统。

背景技术

随着人工智能技术的快速发展，越来越多的行业开始与人工智能相结合，其中仿真领域与强化学习相结合需求尤为迫切。

仿真领域场景复杂，在与强化学习结合的过程中，现有的解决方案就是每次根据强化学习的训练需求，由算法人员设计出算法端的观测空间、动作空间、奖励函数和终止条件，然后进行编码实现，同时环境端进行对应的代码编写，然后进行交互联通，进行强化学习的训练。在整个过程中，存在的问题是算法研究人员需投入大量精力和时间，训练效率低；强化学习在与不同仿真场景结合时的交互困难。

发明内容

本发明针对所要解决的技术问题，提供了一种强化学习模型构建方法，能够响应用户的可视化操作，自动识别仿真场景，利用代码生成器模块对目标代码结构化数据进行数据转换处理，得到目标强化学习模型，减少构建算法时间、测试时间，提升了强化学习的训练效率，解决了强化学习在与不同仿真场景结合时的交互困难的问题。

为了解决上述技术问题，本发明实施例第一方面公开了一种强化学习模型构建方法，所述方法包括：

S1，响应于用户可视化配置，低代码编辑器模块获取可视化配置参数，利用所述低代码编辑器模块对所述可视化配置参数进行处理，得到参数结构化数据；

S2，利用代码生成器模块对参数结构化数据进行处理，得到目标代码结构化数据；

S3，利用所述代码生成器模块对所述目标代码结构化数据进行数据转换处理，得到目标强化学习模型。

作为一种可选的实施方式，在本发明实施例第一方面中，所述低代码编辑器模块包括参数接收子模块；

所述利用所述低代码编辑器模块对所述可视化配置参数进行处理，得到参数结构化数据，包括：

S11，响应于用户可视化配置，所述低代码编辑器模块获取可视化配置参数；

S12，利用所述低代码编辑器模块中的参数生成子模块和编辑器协议模块中的协议模板集，对所述可视化配置参数进行处理，得到参数结构化数据。

作为一种可选的实施方式，在本发明实施例第一方面中，所述响应于用户可视化配置，低代码编辑器模块获取可视化配置参数，包括：

S111，响应于用户可视化配置，构建强化学习中的Web组件集；

S112，所述低代码编辑器模块对所述Web组件集进行处理，自动识别仿真场景，得到所述可视化配置参数。

作为一种可选的实施方式，在本发明实施例第一方面中，所述利用所述低代码编辑器模块中的参数生成子模块和编辑器协议模块中的协议模板集，对所述可视化配置参数进行处理，得到参数结构化数据，包括：

S121，所述低代码编辑器模块中的参数生成子模块与编辑器协议模块进行数据通联，得到协议模板集；

S122，所述参数生成子模块利用所述协议模板集对所述可视化配置参数进行封装处理，得到参数结构化数据。

作为一种可选的实施方式，在本发明实施例第一方面中，所述代码生成器模块包括参数接收子模块、参数解析子模块、结构化数据子模块、代码生成子模块；

所述利用代码生成器模块对参数结构化数据进行处理，得到目标代码结构化数据，包括：

S21，利用所述代码生成器模块的参数接收子模块从所述低代码编辑器模块中加载所述参数结构化数据；

S22，利用所述参数接收子模块对所述参数结构化数据进行完整性检验，获得参数结构化完整数据；

S23，利用所述代码生成器模块的参数解析子模块，依据所述协议模板集中对应的协议模板对所述参数结构化完整数据进行处理，得到第一代码结构化数据；

S24，利用所述代码生成器模块的结构化数据子模块对所述第一代码结构化数据进行解析处理，得到目标代码结构化数据。

作为一种可选的实施方式，在本发明实施例第一方面中，所述利用所述参数接收子模块对所述参数结构化数据进行完整性检验，获得参数结构化完整数据，包括：

S221，所述参数接收子模块获取所述参数结构化数据中各字段数据，并获取所述各字段数据的接收长度值；

S222，对于任一所述字段数据，依据该字段数据的类型标志位识别该字段数据对应的参数结构化数据类型；

根据所述参数结构化数据类型，由所述协议模板集中对应协议模板获取该字段数据对应的定义长度值；

S223，判断该字段数据对应的接收长度值是否等于该字段数据对应的定义长度值，得到长度判断结果；

当所述长度判断结果为是时，确定该字段数据为所述一个完整字段数据；

当所述长度判断结果为否时，丢弃该字段数据；

对所有所述完整字段数据进行融合，得到参数结构化完整数据。

作为一种可选的实施方式，在本发明实施例第一方面中，利用所述代码生成器模块的结构化数据子模块对所述第一代码结构化数据进行解析处理，得到目标代码结构化数据，包括：

S241，所述结构化数据子模块获取所述第一代码结构化数据中各字段数据，并获取所述各字段数据的实际数据结构；

S242，对于任一所述字段数据，依据该字段数据的类型标志位识别该字段数据对应的数据结构；

根据所述字段数据类型，从所述协议模板集中对应协议模板获取该字段数据的定义数据结构；

S243，判断该字段数据的实际数据结构与所述定义数据结构是否一致，得到结构判断结果；

当所述结构判断结果为是时，确定该字段数据为所述第一代码结构化数据的一个完整字段数据；

当所述结构判断结果为否时，丢弃该字段数据；

对所有所述完整字段数据进行融合，得到第一代码结构化完整数据；

S244，所述结构化数据子模块获取所述第一代码结构化完整数据中各完整字段数据，并获取所述各完整字段数据的数据类型；

S245，对于任一所述完整字段数据，依据该完整字段数据的类型标志位识别该完整字段数据的实际数据类型；

根据所述数据类型，从所述协议模板集中对应协议模板获取该完整字段数据对应的定义数据类型；

S246，判断所述完整字段数据的实际数据类型与所述定义类型是否一致，得到类型判断结果；

当所述类型判断结果为是时，确定该完整字段数据为所述第一代码结构化完整数据的一个正确字段数据；

当所述类型判断结果为否时，丢弃该完整字段数据；

对所有所述正确字段数据进行融合，得到目标代码结构化数据。

作为一种可选的实施方式，在本发明实施例第一方面中，利用所述代码生成器模块对所述目标代码结构化数据进行数据转换处理，得到目标强化学习模型，包括：

S31，所述代码生成器模块中的代码生成子模块，接收所述目标代码结构化数据，并识别所述目标代码结构化数据中所有的完整字段数据；

S32，对于任一所述完整字段数据，根据该完整字段数据的类型标志位，确定出该字段数据对应的学习模型代码数据；

S33，对所有所述学习模型代码数据进行融合，得到目标学习模型结构化代码数据；

对所述目标学习模型结构化代码数据进行编译处理，得到目标强化学习模型。

本发明第二方面公开了一种强化学习系统，所述系统包括：

存储有目标强化学习模型的存储器；

与存储器耦合的处理器；

处理器调用存储器中存储的所述目标强化学习模型，用于执行实施例一所描述的用于构建强化学习模型方法的步骤。

本发明第三方面公开了一种计算机可读存储介质，其存储有目标强化学习模型，所述目标强化学习模型被调用时，使得计算机执行实施例一所描述的用于构建强化学习模型方法的步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，响应于用户可视化配置，低代码编辑器模块获取可视化配置参数，利用所述低代码编辑器模块对所述可视化配置参数进行处理，得到参数结构化数据；利用代码生成器模块对参数结构化数据进行处理，得到目标代码结构化数据；利用所述代码生成器模块对所述目标代码结构化数据进行数据转换处理，得到目标强化学习模型。可见，本发明减少构建算法时间、测试时间，提升了强化学习的训练效率，解决了强化学习在与不同仿真场景结合时的交互困难的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种强化学习模型构建方法的流程示意图；

图2是本发明实施例公开的编辑器协议模块的作用示意图；

图3是本发明实施例公开的一种强化学习模型构建系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种强化学习模型构建方法，能够利用代码生成器模块对目标代码结构化数据进行数据转换处理，得到目标强化学习模型，减少构建算法时间、测试时间，提升了强化学习的训练效率，解决了强化学习在与不同仿真场景结合时的交互困难的问题。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种强化学习模型构建方法的流程示意图。其中，图1所描述的强化学习模型构建方法应用于智能仿真系统中，如强化学习模型构建的空战仿真场景、生产销售场景等，本发明实施例不做限定。如图1所示，该强化学习模型构建方法可以包括以下操作：

S1、响应于用户可视化配置，低代码编辑器模块获取可视化配置参数，利用所述低代码编辑器模块对所述可视化配置参数进行处理，得到参数结构化数据；

低代码编辑器模块响应于用户可视化操作，用于可视化参数配置和处理，输出得到参数结构化数据。

S2、利用代码生成器模块对参数结构化数据进行处理，得到目标代码结构化数据；

S3、利用所述代码生成器模块对所述目标代码结构化数据进行数据转换处理，得到目标强化学习模型；

可选的，代码生成器模块用于对参数结构化数据进行处理，输出得到目标强化学习模型；代码生成器模块包括参数接收子模块、参数解析子模块、结构化数据子模块、代码生成子模块。

可见，实施本发明实施例所描述的强化学习模型构建方法能够利用代码生成器模块对目标代码结构化数据进行数据转换处理，得到目标强化学习模型，减少构建算法时间、测试时间，提升了强化学习的训练效率，解决了强化学习在与不同仿真场景结合时的交互困难的问题。

在一个可选的实施例中，上述低代码编辑器模块包括参数接收子模块；

上述利用所述低代码编辑器模块对所述可视化配置参数进行处理，得到参数结构化数据，包括：

可选的，为了提高低代码编辑器模块的交互效果，采用抽象化处理得到强化学习训练的关键元素，并对关键元素进行图元化处理，得到一套基于渐进式JavaScript框架vue实现的前端web组件集合。前端web组件集合对不同模块进行封装建模，形成一套用户进行编辑使用的可视化组件，每个可视化组件背后有对应的功能逻辑，能够生成对应的逻辑参数，是整个低代码系统的入口部分。前端web组件集合包括状态模板web组件、动作模板web组件、奖励模板web组件、指标模板web组件、算法模板web组件、网络模板web组件、终止模板web组件、参数生成组件。

可选的，状态模板web组件的本质是一个能够表示用于输入到强化学习算法网络中所需数据的矩阵，能够自动识别当前所使用的仿真场景，并以可视化的方式对用户提供仿真场景中实体的所有可使用属性。例如红蓝两架飞机空战的仿真场景，状态模板组件就展示出飞机的速度、高度、载弹量、坐标、航向等基础状态数据供用户进行选择，用户从状态模板组件所提供的当前仿真场景实体的所有属性中，通过拖拽的方式选择自己所需要的属性，组成强化学习算法训练所需要的状态模板。

可选的，动作模板web组件的本质是一个能够表示强化学习算法网络经过计算所输出结果的矩阵，能够自动识别当前所使用的仿真场景，并以可视化的方式对用户提供仿真场景中实体的所有可使用动作。例如红蓝两架飞机对抗空战的仿真场景，动作模板web组件就展示出可以控制飞机的指令：巡航、打击、返航、加油、规避等动作供用户进行选择，用户从动作模板组件所提供的当前仿真场景实体的所有动作中，通过拖拽的方式选择自己所需要的动作，用于控制仿真场景中的对应实体执行对应动作，组成强化学习算法训练所需要的动作模板；

可选的，奖励模板web组件的本质是构建一个可执行的python函数。奖励模板web组件能够自动识别当前所使用的仿真场景，并以可视化的方式对用户提供仿真场景中实体的所有可使用属性，还提供了许多逻辑操作的可视化图元，例如：加、减、乘、除、循环、求和、求方差、调试信息等。用户选择实体的属性作为python函数的输入，通过提供的众多逻辑运算，最终得到一个输出，这个输出值用于指导强化学习算法的训练。

可选的，奖励模板web组件的本质是一个数组，存放用户在强化学习训练时所关心的数据，具体的数据根据仿真场景的不同，用户可以进行不同的配置选择，例如空战场景中，用户可能选择的战损比，例如生产销售场景中，用户可能选择的利润。

可选的，算法模板web组件，设置强化学习算法所需要的对应参数。算法模板web组件主要负责设置强化学习算法所需要的对应参数，强化学习算法具有很强的专业性，对强化学习算法进行抽象封装，将复杂且比较固定的部分通过代码逻辑实现，不对用户展示，将算法需要调整的参数以可视化的方式，对用户进行展示。强化学习算法有很多种，在这里以Proximal Policy Optimization算法为例，算法固定模块系统已经提前实现完毕，可视化编辑时需要设置的内容包括：批处理大小、学习率、采样帧大小、KL散度大小、是否采用critic架构、KL目标、所使用的神经网络模型。

可选的，网络模板web组件负责构建强化学习算法中所使用的神经网络模型。根据神经网络的特点，将神经网络分为输入层、隐藏层和输出层以及激活函数，各层顺序连接。用户根据图形化配置完成输入层、隐藏层、输出层和激活函数，即可完成强化学习算法所使用的神经网络模板的构建。

可选的，终止模板web组件以图形化的方式构建强化学习中的终止模板，终止模板负责控制强化学习的终止。通过拖拽完成终止模板的配置。终止模板的本质是构建一个可执行的python函数。终止模板的输出值只有两种，一种是表示终止的True，一种是表示继续运行的False。当终止模板输出值为True时，强化学习算法训练完毕，当终止模板输出值为False时，则强化学习算法继续训练。

可选的，编辑器协议模块用于提供协议模板集；协议模板集包括状态协议模板、动作协议模板、指标协议模板、奖励协议模板、终止协议模板、算法协议模板、网络协议模板。

编辑器协议模块203存放着众多协议模板文件，用于低代码编辑器模块201和代码生成器模块202解耦合，如图2所示，方便后期低代码编辑器模块和代码生成器模块的拓展维护。

可见，实施本发明实施例所描述的强化学习模型构建方法能够响应于用户的可视化操作，并对可视化配置参数进行处理，得到参数结构化数据，减少了构建算法时间、测试时间，提升了强化学习的训练效率，解决了强化学习在与不同仿真场景结合时的交互困难的问题。

在另一个可选的实施例中，所述响应于用户可视化配置，低代码编辑器模块获取可视化配置参数，包括：

S111，响应于用户可视化配置，构建强化学习中的Web组件集；

可见，实施本发明实施例所描述的强化学习模型构建方法能利用低代码编辑器模块对用户的可视化配置进行数据转换处理，得到可视化配置参数，减少构建算法时间、测试时间，提升了强化学习的训练效率，解决了强化学习在与不同仿真场景结合时的交互困难的问题。

在又一个可选的实施例中，利用所述低代码编辑器模块中的参数生成子模块和编辑器协议模块中对应的协议模板集，对所述可视化配置参数进行处理，得到参数结构化数据，包括：

可见，实施本发明实施例所描述的强化学习模型构建方法利用低代码编辑器模块、编辑器协议模块对可视化配置参数进行数据转换处理，得到参数结构化数据，减少构建算法时间、测试时间，提升了强化学习的训练效率，解决了强化学习在与不同仿真场景结合时的交互困难的问题。

在一个可选的实施例中，上述所述代码生成器模块包括参数接收子模块、参数解析子模块、结构化数据子模块、代码生成子模块；

在该可选的实施例中，作为一种可选的实施方式，上述利用所述参数接收子模块对所述参数结构化数据进行完整性检验，获得参数结构化完整数据，包括：

当所述长度判断结果为否时，丢弃该字段数据；

可见，实施本发明实施例所描述的强化学习模型构建方法能够利用代码生成器模块对目标代码结构化数据进行数据转换处理，得到参数结构化完整数据，减少构建算法时间、测试时间，提升了强化学习的训练效率，解决了强化学习在与不同仿真场景结合时的交互困难的问题。

在另一个可选的实施例中，利用所述代码生成器模块的结构化数据子模块对所述第一代码结构化数据进行解析处理，得到目标代码结构化数据，包括：

当所述结构判断结果为否时，丢弃该字段数据；

当所述类型判断结果为否时，丢弃该完整字段数据；

可见，实施本发明实施例所描述的强化学习模型构建方法能够利用代码生成器模块对目标代码结构化数据进行数据转换处理，得到目标代码结构化数据，减少构建算法时间、测试时间，提升了强化学习的训练效率，解决了强化学习在与不同仿真场景结合时的交互困难的问题。

在又一个可选的实施例中，利用所述代码生成器模块对所述目标代码结构化数据进行数据转换处理，得到目标强化学习模型，包括：

可选的，采用结构化代码生成法对目标学习模型结构化代码数据进行编译处理。结构化代码生成法仿照人在编写代码的顺序，可在需要的地方随时向代码中插入对应的片段，通过抽象生成的可执行脚本。可选的将一个python脚本的代码划分成不同结构的代码结构化数据，代码结构化数据中有一个表示生成类型的标志位，根据生成类型的不同，会按照不同的生成规则去处理对应的数据，最终形成可运行的目标学习模型结构化代码数据。生成规则包括：导入规则、算法运算规则、临时成员构建规则、逻辑运算规则、基础函数封装规则。导入规则用于处理import等的对应引入信息；算法运算规则用于生成不同变量之间的算术处理逻辑，例如加、减、乘、除；临时成员构建规则用于生成处理脚本中的临时变量；逻辑运算规则用于处理生成脚本中的for循环和while循环的逻辑；基础函数封装用于定义代码生成的特殊关键字，例如sum关键字会转换为求和的代码，diff关键字会转换为求导的代码等。

实施例二

请参阅图3，图3是本发明实施例公开的又一种强化学习模型构建系统的结构示意图。其中，图3所描述的系统能够应用于智能仿真系统中，如强化学习模型构建的本地服务器或云端服务器等，本发明实施例不做限定。如图3所示，该系统可以包括：

存储有目标强化学习模型的存储器301；

与存储器301耦合的处理器302；

处理器302调用存储器301中存储的目标强化学习模型，用于执行实施例一所描述的强化学习模型构建方法中的步骤。

实施例三

本发明实施例公开了一种计算机可读存储介质，所述计算机可读存储介质存储有目标强化学习模型，所述目标强化学习模型被调用时，用于执行实施例一所描述的强化学习模型构建方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种强化学习模型构建方法所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种强化学习模型构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种强化学习模型构建方法，其特征在于：

所述低代码编辑器模块包括参数接收子模块；

3.根据权利要求2所述的一种强化学习模型构建方法，其特征在于，所述响应于用户可视化配置，低代码编辑器模块获取可视化配置参数，包括：

S111，响应于用户可视化配置，构建强化学习中的Web组件集；

4.根据权利要求2所述的一种强化学习模型构建方法，其特征在于，利用所述低代码编辑器模块中的参数生成子模块和编辑器协议模块中的协议模板集，对所述可视化配置参数进行处理，得到参数结构化数据，包括：

5.根据权利要求1所述的一种强化学习模型构建方法，其特征在于：

所述代码生成器模块包括参数接收子模块、参数解析子模块、结构化数据子模块、代码生成子模块；

6.根据权利要求5所述的一种强化学习模型构建方法，其特征在于，所述利用所述参数接收子模块对所述参数结构化数据进行完整性检验，获得参数结构化完整数据，包括：

当所述长度判断结果为否时，丢弃该字段数据；

7.根据权利要求5所述的一种强化学习模型构建方法，其特征在于，利用所述代码生成器模块的结构化数据子模块对所述第一代码结构化数据进行解析处理，得到目标代码结构化数据，包括：

当所述结构判断结果为否时，丢弃该字段数据；

当所述类型判断结果为否时，丢弃该完整字段数据；

8.根据权利要求1所述的一种强化学习模型构建方法，其特征在于，利用所述代码生成器模块对所述目标代码结构化数据进行数据转换处理，得到目标强化学习模型，包括：

9.一种强化学习模型构建系统，其特征在于，包括：

存储有目标强化学习模型的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述目标强化学习模型，执行如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有目标强化学习模型，所述目标强化学习模型被调用时，用于执行如权利要求1-8任一项所述的方法。