CN117010272A

CN117010272A - 基于强化学习的决策生成方法、装置、计算机设备和介质

Info

Publication number: CN117010272A
Application number: CN202310775068.6A
Authority: CN
Inventors: 杨奇松; 李邦杰; 陈正生; 鲜勇; 舒健生; 潘乐飞; 张大巧; 常燕
Original assignee: Rocket Force University of Engineering of PLA
Current assignee: Rocket Force University of Engineering of PLA
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-11-07

Abstract

本公开提供一种基于强化学习的决策生成方法、装置、计算机设备和介质，包括：构建安全约束强化学习模型，安全约束强化学习模型由一个元组所描述，元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成，元组与目标应用场景相关联；基于安全约束强化学习模型，在目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估；基于安全决策对应的奖励评估、安全评估以及预设的安全权重，对安全决策进行迭代更新，直至达到预先设置的训练次数，得到目标应用场景对应的目标决策。从而，通过自主学习自动更新训练目标决策，使得目标决策更贴合应用场景，有效提升决策的场景适用性。

Description

基于强化学习的决策生成方法、装置、计算机设备和介质

技术领域

本公开的实施例涉及人工智能技术领域，具体地，涉及适用于一种基于强化学习的决策生成方法、装置、计算机设备和介质。

背景技术

实际场景中所应用到的智能决策通常由人工预先设置或者系统基于历史数据自动生成，以应用于不同的实际场景中。如智能决策可应用于棋牌游戏、益智类游戏等。

然而，现有决策生产方法，决策固定不可变，场景适用性差。

发明内容

本文中描述的实施例提供了一种基于强化学习的决策生成方法、装置、计算机设备和介质，克服了上述问题。

第一方面，根据本公开的内容，提供了一种基于强化学习的决策生成方法，包括：

构建安全约束强化学习模型，所述安全约束强化学习模型由一个元组所描述，所述元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成，所述元组与目标应用场景相关联；

基于安全约束强化学习模型，在所述目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估；

基于所述安全决策对应的所述奖励评估、所述安全评估以及预设的安全权重，对所述安全决策进行迭代更新，直至达到预先设置的训练次数，得到所述目标应用场景对应的目标决策；

其中，所述安全评估用于评估所述安全决策应用到所述目标应用场景中的安全性，所述奖励评估用于评估所述安全决策中已执行的预测动作的准确性。

第二方面，根据本公开的内容，提供了一种基于强化学习的决策生成装置，包括：

构建模块，用于构建安全约束强化学习模型，所述安全约束强化学习模型由一个元组所描述，所述元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成，所述元组与目标应用场景相关联；

训练模块，用于基于安全约束强化学习模型，在所述目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估；

确定模块，用于基于所述安全决策对应的所述奖励评估、所述安全评估以及预设的安全权重，对所述安全决策进行迭代更新，直至达到预先设置的训练次数，得到所述目标应用场景对应的目标决策；

第三方面，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，处理器执行计算机程序时实现如以上任意一个实施例中基于强化学习的决策生成方法的步骤。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如以上任意一个实施例中基于强化学习的决策生成方法的步骤。

本申请实施例提供的基于强化学习的决策生成方法，构建安全约束强化学习模型，安全约束强化学习模型由一个元组所描述，元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成，元组与目标应用场景相关联；基于安全约束强化学习模型，在目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估；基于安全决策对应的奖励评估、安全评估以及预设的安全权重，对安全决策进行迭代更新，直至达到预先设置的训练次数，得到目标应用场景对应的目标决策；其中，安全评估用于评估安全决策应用到目标应用场景中的安全性，奖励评估用于评估安全决策中已执行的预测动作的准确性。如此，通过自主学习自动更新训练目标决策，使得目标决策更贴合应用场景，有效提升决策的场景适用性。

上述说明仅是本申请实施例技术方案的概述，为了能够更清楚了解本申请实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本申请实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为了更清楚地说明本公开的实施例的技术方案，下面将对实施例的附图进行简要说明，应当知道，以下描述的附图仅仅涉及本公开的一些实施例，而非对本公开的限制，其中：

图1是本公开实施例提供的一种基于强化学习的决策生成方法的流程示意图。

图2是本公开实施例提供的一种基于强化学习的决策生成装置的结构示意图。

图3是本公开实施例提供的一种计算机设备的结构示意图。

需要注意的是，附图中的元素是示意性的，没有按比例绘制。

具体实施方式

为了使本公开的实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本公开的实施例的技术方案进行清楚、完整的描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例，也都属于本公开保护的范围。

除非另外定义，否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是，诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义，并且将不以理想化或过于正式的形式来解释，除非在此另外明确定义。如在此所使用的，将两个或更多部分“连接”或“耦接”到一起的陈述应指这些部分直接结合到一起或通过一个或多个中间部件结合。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语“实施例”并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：存在A，同时存在A和B，存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。诸如“第一”和“第二”的术语仅用于将一个部件(或部件的一部分)与另一个部件(或部件的另一部分)区分开。

在本申请的描述中，除非另有说明，“多个”的含义是指两个以上(包括两个)，同理，“多组”指的是两组以上(包括两组)。

值分布强化学习(Distributional Reinforcement Learning，DRL)是一类基于价值的强化学习算法(Value-based Reinforcement Learning，VRL)。

经典的基于价值的强化学习方法尝试使用期望值对累积回报进行建模，表示为价值函数或动作价值函数，但在建模过程中，完整的分布信息很大程度上被丢失了，值分布强化学习有效的解决了这个问题，对累积回报随机变量的分布进行建模，而非只建模其期望。在实际中，须考虑在有限个采样的情况下值分布强化学习算法的表示能力。基于此角度出发，提出了FQF(全参数化分位数)算法，在FQF中，分位数和其对应的值都被进行了参数化，根据不同的分布特点，调整分位数的位置，并使用Quantile Regression(分位数回归)得到分位数对应的值。

FQF算法包含两个模型，一个是分位数提议网络(Fraction Proposal Network，FPN)，用来针对每个状态动作对应生成合适的分位数位置；二是分位数值网络(QuantileValueNetwork，QVN)，将分位数提议网络输出的分位数映射到对应的取值。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

图1是本公开实施例提供的一种基于强化学习的决策生成方法的流程示意图，如图1所示，基于强化学习的决策生成方法的具体过程包括：

S110、构建安全约束强化学习模型。

本实施例针对一个强化学习的应用场景，设计具备约束马尔可夫决策过程的接口，以保证能够与场景环境进行交互，获取交互数据，训练得到可应用于应用场景的有效决策。

采用安全约束强化学习模型的训练过程可表述为一个安全约束强化学习模型。安全约束强化学习模型可由一个元组所描述。元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成。

其中，元组与目标应用场景相关联。

也即是，状态空间对应于目标应用场景中的多个执行状态，动作空间对应于目标应用场景中的多个预测动作，执行状态与预测动作具有映射性。状态转移概率函数对应于目标应用场景中不同执行状态与预测动作的概率值。奖励函数对应于目标应用场景中一个当前状态执行的动作的准确性。安全成本函数对应于目标应用场景中执行的安全决策的安全成本，时间步对应于目标应用场景中一个执行动作的执行时间/执行时长。

举例而言，状态空间可表述为S；动作空间为A；状态转移概率函数为P：S×A×S→[0,1]；奖励函数为r：S×A→[r_min,r_max]；安全成本函数为c：S×A→[c_min,c_max]。则组成的元祖可表示为(S,A,P,r,c,d,t)，其中，d为预设安全阈值，t为时间步。

S120、基于安全约束强化学习模型，在目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估。

其中，可基于安全约束强化学习模型，采用安全决策依次对目标应用场景中的多个执行状态进行动作执行，得到安全决策对应的奖励评估和安全评估。

一些实施例中，基于安全约束强化学习模型，在目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估，包括：

在状态空间中选取目标应用场景中的一个执行状态作为训练起始状态；在训练起始状态下确定每个时间步到达时，基于当前状态执行安全决策在动作空间中对应的预测动作；基于奖励函数确定预测动作的奖励值；基于安全成本函数确定预测动作的安全值；基于训练起始状态、当前状态、当前状态对应的预测动作、奖励值以及安全值，分别确定安全决策对应的奖励评估和安全评估。

举例而言，每次训练起始于一个随机状态s₀～t：S→[0,1]，在不同的应用场景中，所选取的随机状态不同，如应用场景为自动驾驶汽车，随机状态可为驾驶位置、驾驶角度等，如应用场景为下棋，随机状态可为起始下棋招式。在每个时间步，观测当前状态s_t∈S，执行于当前状态对应的预测动作a_t∈A。

安全决策中的预测动作可由一个决策π：S×A→[0,1]进行选择，选择概率最大的预测动作，得到一个完整轨迹的分布T_π＝(s₀,a₀,...)。

其中，基于训练起始状态、当前状态、当前状态对应的预测动作、奖励值以及安全值，分别确定安全决策对应的奖励评估和安全评估，可包括：基于一个神经网络训练得到长期奖励评估函数，再将训练起始状态、当前状态、当前状态对应的预测动作、奖励值以及安全值输入长期奖励评估函数中，得到安全决策对应的奖励评估；基于另一个神经网络训练得到FQF安全性能评估函数，再将训练起始状态、当前状态、当前状态对应的预测动作、奖励值以及安全值输入FQF安全性能评估函数中，得到安全决策对应的安全评估。从而，有效对训练决策进行定量衡量。

需要说明的是，奖励评估可用一个具体数值来描述，安全评估也可用一个具体数值来描述。

S130、基于安全决策对应的奖励评估、安全评估以及预设的安全权重，对安全决策进行迭代更新，直至达到预先设置的训练次数，得到目标应用场景对应的目标决策。

其中，安全评估可用于评估安全决策应用到目标应用场景中的安全性，奖励评估可用于评估安全决策中已执行的预测动作的准确性。预测动作与当前状态相对应，也及时，奖励评估可用于评估目标应用场景中针对当前状态执行的预测动作的准确性。

本实施例中，通过构建安全约束强化学习模型，安全约束强化学习模型由一个元组所描述，元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成，元组与目标应用场景相关联；基于安全约束强化学习模型，在目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估；基于安全决策对应的奖励评估、安全评估以及预设的安全权重，对安全决策进行迭代更新，直至达到预先设置的训练次数，得到目标应用场景对应的目标决策；其中，安全评估用于评估安全决策应用到目标应用场景中的安全性，奖励评估用于评估安全决策中已执行的预测动作的准确性。如此，通过自主学习自动更新训练目标决策，使得目标决策更贴合应用场景，有效提升决策的场景适用性。

一些实施例中，基于安全决策对应的奖励评估、安全评估以及预设的安全权重，对安全决策进行迭代更新，直至达到预先设置的训练次数，得到目标应用场景对应的目标决策，包括：

基于安全评估和预设安全阈值的比对，更新预设的安全权重；基于安全权重、奖励评估和安全评估，对安全决策进行更新，更新用于表征对安全决策中执行状态与预测动作之间的映射关系进行调整；基于状态转移概率函数确定当前状态的下一状态，将下一状态作为训练起始状态；在训练起始状态下执行安全决策的训练，直至安全决策的训练次数达到预先设置的训练次数，得到目标应用场景对应的目标决策。

其中，在训练起始状态下执行安全决策的训练，可包括：返回执行在状态空间中选取目标应用场景中的一个执行状态作为训练起始状态；在训练起始状态下确定每个时间步到达时，基于当前状态执行安全决策在动作空间中对应的预测动作；基于奖励函数确定预测动作的奖励值；基于安全成本函数确定预测动作的安全值；基于训练起始状态、当前状态、当前状态对应的预测动作、奖励值以及安全值，分别确定安全决策对应的奖励评估和安全评估；基于安全评估和预设安全阈值的比对，更新预设的安全权重；基于安全权重、奖励评估和安全评估，对安全决策进行更新；直至此时所指的当前状态对应的训练次数达到预先设置的训练次数，确定训练完成，确定训练得到的安全决策为目标应用场景对应的目标决策。

基于安全评估和预设安全阈值的比对，更新预设的安全权重，可包括：在确定安全评估小于预设安全阈值时，减小预设的安全权重；在确实安全评估大于预设安全阈值时，增大预设的安全权重。以对安全权重进行自适应调整。

从而，基于安全权重、奖励评估和安全评估，不断对安全决策进行迭代更新，以提升安全决策的有效性。

一些实施例中，安全决策的动作空间中包括执行状态与预测动作的映射关系。基于当前状态执行安全决策在动作空间中对应的预测动作，包括：基于当前状态，从安全决策的动作空间中查找与当前状态对应的映射动作，确定映射动作为当前状态对应的预测动作；执行当前状态对应的预测动作。从而，快速查找预测动作并执行，有效提升决策训练速率。

一些实施例中，状态空间中包括多个执行状态，每个执行状态对应一个执行概率。在状态空间中选取目标应用场景中的一个执行状态作为训练起始状态，包括：

获取状态空间中的全部执行状态；将执行概率最高的执行状态确定为目标应用场景对应的训练起始状态。

其中，执行概率最高的执行状态的数量可为一个或多个。

举例而言，在执行概率最高的执行状态的数量为一个时，将执行概率最高的执行状态确定为目标应用场景对应的训练起始状态，可包括：将最高执行概率对应的这一个执行状态确定为目标应用场景对应的训练起始状态。

在执行概率最高的执行状态的数量为多个时，将执行概率最高的执行状态确定为目标应用场景对应的训练起始状态，可包括：随机从最高执行概率对应的多个执行状态中选择一个执行状态，并将这一个执行状态确定为目标应用场景对应的训练起始状态；或者，基于当前状态与最大执行概率对应的每个执行状态进行匹配，将匹配度最高的执行状态确定为目标应用场景对应的训练起始状态。

从而，通过获取状态空间中的全部执行状态，并将执行概率最高的执行状态确定为目标应用场景对应的训练起始状态，有效提升决策中重要状态的优先训练性。

其中，在一次训练的不同迭代过程中，确定出的训练起始状态不为同一个执行状态，也就是，在一次训练的不同迭代过程中，每次迭代的当前状态均不同，即决策训练过程中经历的执行状态均不同，从而，有效提升决策训练于目标应用场景的完整性。

一些实施例中，状态转移概率函数中包括多个状态转移组的转移概率，每个状态转移组包括执行状态和预测动作，执行状态包括第一状态和第二状态，第二状态为第一状态的下一状态，第一状态包括当前状态。

基于状态转移概率函数确定当前状态的下一状态，包括：

获取状态转移概率函数中的全部状态转移组；匹配当前状态与每个状态转移组中的第一状态，确定候选状态转移组，候选状态转移组中的第一状态为当前状态；将转移概率最高的候选状态转移组中的第二状态，确定为当前状态对应的下一状态。

其中，转移概率最高的候选状态转移组的数量可为一个或多个。

举例而言，在转移概率最高的候选状态转移组的数量为一个时，将转移概率最高的候选状态转移组中的第二状态，确定为当前状态对应的下一状态，可包括：将转移概率最高的这一个候选状态转移组中的第二状态，确定为当前状态对应的下一状态。

在转移概率最高的候选状态转移组的数量为多个时，将转移概率最高的候选状态转移组中的第二状态，确定为当前状态对应的下一状态，可包括：随机从最高转移概率对应的多个候选状态转移组中选择一个候选状态转移组，将这一个候选状态转移组中的第二状态，确定为当前状态对应的下一状态；或者，将全部候选状态转移组中优先级最高的第二状态确定为当前状态对应的下一状态。其中，不同候选状态转移组中的第二状态的优先级可基于在目标应用场景中的历史执行次数进行设定，或者，自定义设置。

从而，通过获取状态转移概率函数中的全部状态转移组；匹配当前状态与每个状态转移组中的第一状态，确定候选状态转移组，候选状态转移组中的第一状态为当前状态；将转移概率最高的候选状态转移组中的第二状态，确定为当前状态对应的下一状态，有效确定出当前状态对应的下一状态。

以下给出安全约束强化学习的一些目标应用领域。

训练自主机器人，如自动驾驶汽车或服务机器人，以完成指定的任务；电力网络，如增加可再生能源的整合；推荐系统；

通常情况下，将安全约束强化学习中的安全处理成一种约束，并将安全函数分离出奖励函数，这种形式避免了设计单一奖励函数而需要仔细权衡安全和性能的问题。在此情况下，安全约束强化学习算法需要在满足安全约束的前提下最大化长期收益。本公开实施例能够以更精确的方式评估策略安全性进而优化策略，避免粗糙的评估方式带来的安全风险。

图2为本实施例提供的一种基于强化学习的决策生成装置的结构示意图，其中，基于强化学习的决策生成装置可包括：构建模块210、训练模块220和确定模块230。

构建模块210，用于构建安全约束强化学习模型，所述安全约束强化学习模型由一个元组所描述，所述元组由状态空间、动作空间、状态转移概率函数、奖励函数、安全成本函数以及时间步组成，所述元组与目标应用场景相关联。

训练模块220，用于基于安全约束强化学习模型，在所述目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估。

确定模块230，用于基于所述安全决策对应的所述奖励评估、所述安全评估以及预设的安全权重，对所述安全决策进行迭代更新，直至达到预先设置的训练次数，得到所述目标应用场景对应的目标决策。

在本实施例中，可选的，训练模块220，包括：选取单元、执行单元和第一确定单元。

选取单元，用于在所述状态空间中选取所述目标应用场景中的一个执行状态作为训练起始状态。

执行单元，用于在所述训练起始状态下确定每个所述时间步到达时，基于当前状态执行所述安全决策在动作空间中对应的预测动作。

第一确定单元，用于基于所述奖励函数确定所述预测动作的奖励值；基于所述安全成本函数确定所述预测动作的安全值。

第一确定单元，还用于基于所述训练起始状态、所述当前状态、所述当前状态对应的所述预测动作、所述奖励值以及所述安全值，分别确定所述安全决策对应的奖励评估和安全评估。

在本实施例中，可选的，确定模块230，包括：更新单元、第二确定单元和训练单元。

更新单元，用于基于所述安全评估和预设安全阈值的比对，更新预设的所述安全权重。

更新单元，还用于基于所述安全权重、所述奖励评估和所述安全评估，对所述安全决策进行更新，所述更新用于表征对所述安全决策中执行状态与预测动作之间的映射关系进行调整。

第二确定单元，用于基于所述状态转移概率函数确定所述当前状态的下一状态，将所述下一状态作为所述训练起始状态。

训练单元，用于在所述训练起始状态下执行所述安全决策的训练，直至所述安全决策的训练次数达到预先设置的训练次数，得到所述目标应用场景对应的所述目标决策。

在本实施例中，可选的，更新单元，具体用于：

在确定所述安全评估小于所述预设安全阈值时，减小预设的所述安全权重；在确实所述安全评估大于所述预设安全阈值时，增大预设的所述安全权重。

在本实施例中，可选的，所述安全决策的动作空间中包括执行状态与预测动作的映射关系。

执行单元，具体用于：

基于所述当前状态，从所述安全决策的动作空间中查找与所述当前状态对应的映射动作，确定所述映射动作为所述当前状态对应的预测动作；执行所述当前状态对应的预测动作。

在本实施例中，可选的，所述状态空间中包括多个执行状态，每个所述执行状态对应一个执行概率。

选取单元，具体用于：

获取所述状态空间中的全部执行状态；将执行概率最高的执行状态确定为所述目标应用场景对应的训练起始状态；其中，在一次训练的不同迭代过程中，确定出的所述训练起始状态不为同一个所述执行状态。

在本实施例中，可选的，所述状态转移概率函数中包括多个状态转移组的转移概率，每个所述状态转移组包括执行状态和预测动作，所述执行状态包括第一状态和第二状态，所述第二状态为所述第一状态的下一状态，所述第一状态包括所述当前状态。

第二确定单元，具体用于：

获取所述状态转移概率函数中的全部状态转移组；匹配所述当前状态与每个状态转移组中的第一状态，确定候选状态转移组，所述候选状态转移组中的第一状态为所述当前状态；将转移概率最高的所述候选状态转移组中的第二状态，确定为所述当前状态对应的所述下一状态。

本公开提供的基于强化学习的决策生成装置，可执行上述方法实施例，其具体实现原理和技术效果，可参见上述方法实施例，本公开此处不再赘述。

本申请实施例还提供了一种计算机设备。具体请参阅图3，图3为本实施例计算机设备基本结构框图。

计算机设备包括通过系统总线相互通信连接存储器310和处理器320。需要指出的是，图中仅示出了具有组件310-320的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field-Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器310至少包括一种类型的可读存储介质，可读存储介质包括非易失性存储器(non-volatile memory)或易失性存储器，例如，闪存(flash memory)、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦写可编程只读存储器(erasable programmableread-only memory，EPROM)、电可擦写可编程只读存储器(electrically erasableprogrammable read-only memory，EEPROM)、可编程只读存储器(programmable read-onlymemory，PROM)、磁性存储器、磁盘、光盘等，RAM可以包括静态RAM或动态RAM。在一些实施例中，存储器310可以是计算机设备的内部存储单元，例如，该计算机设备的硬盘或内存。在另一些实施例中，存储器310也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡或闪存卡(Flash Card)等。当然，存储器310还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器310通常用于存储安装于计算机设备的操作系统和各类应用软件，例如上述方法的程序代码等。此外，存储器310还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器320通常用于执行计算机设备的总体操作。本实施例中，存储器310用于存储程序代码或指令，程序代码包括计算机操作指令，处理器320用于执行存储器310存储的程序代码或指令或者处理数据，例如运行上述方法的程序代码。

本文中，总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。该总线系统可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本申请的另一实施例还提供一种计算机可读介质，计算机可读介质可以是计算机可读信号介质或者计算机可读介质。计算机中的处理器读取存储在计算机可读介质中的计算机可读程序代码，使得处理器能够执行在上述方法中每个步骤、或各步骤的组合中规定的功能动作；生成实施在框图的每一块、或各块的组合中规定的功能动作的装置。

计算机可读介质包含但不限于电子、磁性、光学、电磁、红外的存储器或半导体系统、设备或者装置，或者前述的任意适当组合，存储器用于存储程序代码或指令，程序代码包括计算机操作指令，处理器用于执行存储器存储的上述方法的程序代码或指令。

存储器和处理器的定义，可以参考前述计算机设备实施例的描述，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

在本申请各个实施例中的各功能单元或模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。本申请描述的“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了装置若干的单元权利要求中，这些装置中的若干个单元可以是通过同一个硬件项来具体体现。第一、第二、以及第三等的使用不表示任何顺序，可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于强化学习的决策生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于安全约束强化学习模型，在所述目标应用场景中进行安全决策训练，以确定安全决策对应的奖励评估和安全评估，包括：

在所述状态空间中选取所述目标应用场景中的一个执行状态作为训练起始状态；

在所述训练起始状态下确定每个所述时间步到达时，基于当前状态执行所述安全决策在动作空间中对应的预测动作；

基于所述奖励函数确定所述预测动作的奖励值；基于所述安全成本函数确定所述预测动作的安全值；

基于所述训练起始状态、所述当前状态、所述当前状态对应的所述预测动作、所述奖励值以及所述安全值，分别确定所述安全决策对应的奖励评估和安全评估。

3.根据权利要求2所述的方法，其特征在于，所述基于所述安全决策对应的所述奖励评估、所述安全评估以及预设的安全权重，对所述安全决策进行迭代更新，直至达到预先设置的训练次数，得到所述目标应用场景对应的目标决策，包括：

基于所述安全评估和预设安全阈值的比对，更新预设的所述安全权重；

基于所述安全权重、所述奖励评估和所述安全评估，对所述安全决策进行更新，所述更新用于表征对所述安全决策中执行状态与预测动作之间的映射关系进行调整；

基于所述状态转移概率函数确定所述当前状态的下一状态，将所述下一状态作为所述训练起始状态；

在所述训练起始状态下执行所述安全决策的训练，直至所述安全决策的训练次数达到预先设置的训练次数，得到所述目标应用场景对应的所述目标决策。

4.根据权利要求3所述的方法，其特征在于，所述基于所述安全评估和预设安全阈值的比对，更新预设的所述安全权重，包括：

在确定所述安全评估小于所述预设安全阈值时，减小预设的所述安全权重；

在确实所述安全评估大于所述预设安全阈值时，增大预设的所述安全权重。

5.根据权利要求2所述的方法，其特征在于，所述安全决策的动作空间中包括执行状态与预测动作的映射关系；

所述基于当前状态执行所述安全决策在动作空间中对应的预测动作，包括：

基于所述当前状态，从所述安全决策的动作空间中查找与所述当前状态对应的映射动作，确定所述映射动作为所述当前状态对应的预测动作；

执行所述当前状态对应的预测动作。

6.根据权利要求2所述的方法，其特征在于，所述状态空间中包括多个执行状态，每个所述执行状态对应一个执行概率；

所述在所述状态空间中选取所述目标应用场景中的一个执行状态作为训练起始状态，包括：

获取所述状态空间中的全部执行状态；

将执行概率最高的执行状态确定为所述目标应用场景对应的训练起始状态；

其中，在一次训练的不同迭代过程中，确定出的所述训练起始状态不为同一个所述执行状态。

7.根据权利要求3所述的方法，其特征在于，所述状态转移概率函数中包括多个状态转移组的转移概率，每个所述状态转移组包括执行状态和预测动作，所述执行状态包括第一状态和第二状态，所述第二状态为所述第一状态的下一状态，所述第一状态包括所述当前状态；

所述基于所述状态转移概率函数确定所述当前状态的下一状态，包括：

获取所述状态转移概率函数中的全部状态转移组；

匹配所述当前状态与每个状态转移组中的第一状态，确定候选状态转移组，所述候选状态转移组中的第一状态为所述当前状态；

将转移概率最高的所述候选状态转移组中的第二状态，确定为所述当前状态对应的所述下一状态。

8.一种基于强化学习的决策生成装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，存储器中存储有计算机程序，处理器执行计算机程序时实现如权利要求1～7中任一所述的基于强化学习的决策生成方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现如权利要求1～7中任一所述的基于强化学习的决策生成方法。