CN110717600B

CN110717600B - 样本池构建方法和装置、以及算法训练方法和装置

Info

Publication number: CN110717600B
Application number: CN201910948684.0A
Authority: CN
Inventors: 张玥; 霍雨森; 朱翔宇; 徐浩然; 邓欣; 王小波; 詹仙园; 郑宇�; 李春洋; 张钧波
Original assignee: Jingdong City Beijing Digital Technology Co Ltd
Current assignee: Jingdong City Beijing Digital Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-01-26
Anticipated expiration: 2039-09-30
Also published as: CN110717600A

Abstract

本公开提供了一种样本池构建方法，该方法包括：获取历史数据；根据历史数据生成多个真实样本；根据历史数据及预定仿真模型，生成多个仿真样本；以及将真实样本与仿真样本按个数的第一预定比例存储至预定存储空间，构成混合样本池。本公开还提供了一种样本池构建装置、一种算法训练方法和装置。

Description

样本池构建方法和装置、以及算法训练方法和装置

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种样本池构建方法和装置、以及算法训练方法和装置。

背景技术

近年来，强化学习(Reinforcement Learning)作为机器学习领域的一个研究热点，已经广泛应用于仿真模拟、机器人控制、优化与调度、游戏博弈等诸多领域。强化学习的基本思想是通过与环境的交互，寻求最大化智能体(agent)以从环境中获得累计奖赏值的最优策略。

在实现本公开构思的过程中，发明人发现现有技术中至少存在以下问题：为了解决强化学习中探索(exploration)和利用(exploitation)的选择问题，智能体(agent)在学习与训练时包含两种策略：行为策略和目标策略。行为策略是用来与环境互动产生数据的策略，即在探索过程中做决策。而目标策略在行为策略产生的数据中不断学习及优化，该目标策略即为训练完毕去实际应用的策略。因此，强化学习可分为on-policy(同策略)和off-policy(异策略)两大类算法。同策略算法的行为策略和目标策略是同一个策略，其好处是简单直接，直接利用数据就可以优化其策略，但由于无法很好地保持探索与利用，所以容易陷入到局部最优。异策略的算法将目标策略与行为策略分开，可以在保持探索的同时，更好地求得全局最优解。但异策略算法的学习过程却较为曲折，收敛较慢。

在现实生活中应用强化学习往往十分困难，因为通常情况下(比如在工业控制领域)无法直接与真实环境进行交互与试错。为了解决这一问题，现有的技术主要通过收集一段时间的历史数据，通过这些历史数据建立一个非完美仿真环境，把这个仿真环境当作现实环境，再用同策略的算法进行训练。但由于历史数据涵盖的样本空间有限，基于历史数据拟合得到的仿真环境往往不能完全反映真实环境的场景。

发明内容

有鉴于此，本公开提供了一种样本池构建方法和装置，以及一种能够提高强化学习算法准确率的算法训练方法和装置，以提高基于强化学习算法建立的控制系统的稳定性。

本公开的一个方面提供了一种样本池构建方法，该方法包括：获取历史数据；根据历史数据生成多个真实样本；根据历史数据及预定仿真模型，生成多个仿真样本；以及将真实样本与仿真样本按个数的第一预定比例存储至预定存储空间，构成混合样本池。

根据本公开的实施例，上述生成多个仿真样本包括：从历史数据中选取初始状态数据；以及以初始状态数据作为第一状态数据，循环执行以下第一循环操作：以第一状态数据作为强化学习算法的输入，得到针对第一状态数据的第一动作向量；以第一状态数据及第一动作向量作为预定仿真模型的输入，得到第二状态数据；根据第一状态数据、第一动作向量以及第二状态数据，生成一个仿真样本；以及采用第二状态数据更新所述第一状态数据。其中，第一状态数据为针对第一时刻的数据，第二状态数据为针对第二时刻的数据，第二时刻为第一时刻的下一时刻。

根据本公开的实施例，上述仿真样本包括：第一状态数据、第二状态数据、第一动作向量以及针对仿真样本的奖励值。上述第二循环操作还包括：根据第一动作向量以及第一状态数据，确定针对仿真样本的奖励值。

根据本公开的实施例，上述确定针对仿真样本的奖励值包括：确定第一动作向量中每个元素在针对每个元素的取值空间中所属的取值区间；根据每个元素针对所属的取值区间的概率与预定概率的大小关系，确定针对仿真样本的惩罚系数；以及根据惩罚系数、第一状态数据及预定算法，计算得到针对仿真样本的奖励值。

根据本公开的实施例，上述确定针对仿真样本的惩罚系数包括：根据每个元素针对所属的取值区间的概率与针对每个元素的预定概率的大小关系，确定针对每个元素的惩罚系数；以及累加针对第一动作向量中每个元素的惩罚系数，得到针对仿真样本的惩罚系数。其中，每个元素针对所属的取值区间的概率通过对多个真实样本包括的第二动作向量进行统计得到。

根据本公开的实施例，上述计算得到针对仿真样本的奖励值包括：根据第一状态数据及第一算法，计算得到针对仿真样本的初始奖励值；根据针对仿真样本的惩罚系数及第二算法，计算得到针对仿真样本的奖励调整参数；以及将初始奖励值与奖励调整参数相除，得到针对仿真样本的奖励值，其中，预定算法包括第一算法和第二算法。

根据本公开的实施例，上述混合样本池中的仿真样本包括：惩罚系数大于预定值的负仿真样本；以及惩罚系数小于等于预定惩罚值的正仿真样本。上述将真实样本与仿真样本按个数的第一预定比例存储至预定存储空间，构成混合样本池包括：根据第一预定比例、预定存储空间的存储容量及多个仿真样本的个数，确定需要存储至预定存储空间的仿真样本的个数；从多个仿真样本中获取至少一个正仿真样本和惩罚系数满足第二预设条件的至少一个负仿真样本，得到需要存储至预定存储空间的仿真样本；以及将需要存储至预定存储空间的仿真样本及个数满足第一预定比例的真实样本存储至预定存储空间。

根据本公开的实施例，上述算法训练方法还包括更新混合样本池中的样本。该更新混合样本池中的样本包括：采用当前时刻生成的真实样本和/或当前时刻生成的仿真样本替换混合样本池中生成时间最早的样本；或者采用当前时刻生成的负仿真样本替换混合样本池中生成时间最早的负仿真样本；或者采用当前时刻生成的仿真样本更新混合样本池，以使混合样本池中正仿真样本的个数与负仿真样本的个数的比值等于第二预定比例。

根据本公开的实施例，上述生成多个仿真样本还包括：在第一循环操作的当前轮的循环次数达到第一预定数量的情况下，再次获取初始状态数据，以再次循环执行第一循环操作。

本公开的一个方面提供了一种算法训练方法，该方法包括循环执行的以下第二循环操作，直至训练后强化学习算法满足第一预设条件：从混合样本池中抽取大于第二预定数量的样本作为训练样本，该混合样本池中包括多个样本，该多个样本包括真实样本和仿真样本；采用训练样本训练强化学习算法，得到训练后强化学习算法；以及在训练后强化学习算法不满足第一预设条件的情况下，重新抽取训练样本。其中，在训练后强化学习算法满足第一预设条件的情况下，确定完成强化学习算法的训练；混合样本池可以包括上述的样本池构建方法构成的混合样本池。

本公开的另一方面提供了以后总样本池构建装置，包括：数据获取模块，用于获取历史数据；真实样本生成模块，用于根据历史数据生成多个真实样本；仿真样本生成模块，用于根据历史数据及预定仿真模型，生成多个仿真样本；以及样本池构建模块，用于将真实样本与仿真样本按个数的第一预定比例存储至预定存储空间，构成混合样本池。

本公开的另一方面提供了一种算法训练装置，包括：样本抽取模块，用于从混合样本池中抽取大于第二预定数量的样本作为训练样本，该混合样本池中多个样本，该多个样本包括真实样本和仿真样本；算法训练模块，用于采用训练样本训练强化学习算法，得到训练后强化学习算法；控制模块，用于在训练后强化学习算法满足预设条件的情况下，确定完成所述强化学习算法的训练；或者在训练后强化学习算法不满足预设条件的情况下，控制样本抽取模块重新抽取训练样本。其中，混合样本池包括上述的样本池构建装置构成的混合样本池。

本公开的另一方面提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上所述的样本池构建方法和/或算法训练方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的样本池构建方法和/或算法训练方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的样本池构建方法和/或算法训练方法。

根据本公开的实施例，通过混合样本池的构建，在训练算法时，可以从既包括真实样本，又包括仿真样本的混合样本池中抽取训练样本，可以使得训练样本的样本空间仿真环境能够更贴合于现实，并因此可以使得训练得到的强化学习算法能够收敛到真实最优解，在真实环境中表现更为稳定。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的样本池构建方法和装置、以及算法训练方法和装置的应用场景；

图2示意性示出了根据本公开实施例的算法训练方法的流程图；

图3示意性示出了根据本公开实施例的样本池构建方法的流程图；

图4示意性示出了根据本公开第一实施例的生成多个仿真样本的流程图；

图5示意性示出了根据本公开第二实施例的生成多个仿真样本的流程图；

图6示意性示出了根据本公开实施例的确定针对所述仿真样本的奖励值的流程图；

图7示意性示出了根据本公开实施例的确定针对所述仿真样本的惩罚系数的流程图；

图8示意性示出了根据本公开实施例的计算得到针对所述仿真样本的奖励值的流程图；

图9示意性示出了根据本公开实施例的构成所述混合样本池的流程图；

图10示意性示出了根据本公开实施例的混合样本池的维护流程图；

图11示意性示出了根据本公开实施例的算法训练装置的结构框图；

图12示意性示出了根据本公开实施例的样本池构建装置的结构框图；以及

图13示意性示出了根据本公开实施例的适于执行样本池构建方法和/或算法训练方法的电子设备的结构框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种样本池构建方法和装置，以及一种算法训练方法和装置。其中，样本池构建方法包括：先获取历史数据；然后根据历史数据生成多个真实样本；然后根据历史数据及预定仿真模型，生成多个仿真样本；最后将真实样本与所述仿真样本按个数的第一预定比例存储至预定存储空间，构成混合样本池。

图1示意性示出了根据本公开实施例的样本池构建方法和装置、以及算法训练方法和装置的应用场景100。需要注意的是，图1所示仅为可以应用本公开实施例的应用场景的示例，以帮准本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的应用场景100可以为火力发电应用场景。该火力发电应用场景中可以包括属于火力发电系统的传感器101、102、103。

该传感器101、102、103例如可以用于检测描述工质状态特性的物理量，例如可以用于检测火力发电系统的状态参数。该状态参数例如可以包括温度、压力、比容、焓、熵、内能等。其中，工质是指热机中热能转变为机械能的一种媒介物质(例如燃气、蒸汽等)。相应地，该传感器101、102、103例如可以为温度传感器、压力传感器、用于测量比容、焓、熵、内能等的设备。

如图1所示，该应用场景100还可以包括电子设备104，该电子设备104用于根据传感器101、102、103检测得到的状态参数，采用训练好的强化学习算法来确定当前需要工作人员执行的动作。并将该执行的动作通过文字等进行显示。例如，该确定的动作例如可以包括火力发电系统需要的进煤量、各个阀门开关的打开关闭状态及打开角度等，该确定的动作例如可以采用向量的形式体现。

根据本公开的实施例，该电子设备104例如可以是具有显示屏且具有处理能力的各种电子设备，包括但不限于平板电脑、膝上型便携计算机、台式电脑或服务器等等。该电子设备104例如还可以用于构建混合样本池以及训练强化学习算法。

根据本公开的实施例，传感器101、102、103例如可以与电子设备104直接连接，也可以通过网络105进行连接。网络105例如可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

需要说明的是，本公开实施例所提供的混合样本池构建方法和算法训练方法一般可以由电子设备104执行。相应地，本公开实施例所提供的样本池构建装置和算法训练装置一般可以设置于电子设备104中。

可以理解的是，上述传感器101、102、103，电子设备104和网络105的类型仅仅是示意性的，根据实现需要，可以具有任意类型的传感器101、102、103，电子设备104和网络105。上述应用场景100中的火力发电系统仅作为示例，本公开对此不作限定，本公开实施例的算法训练方法和装置可以应用于适用强化学习算法的任意应用场景。

图2示意性示出了根据本公开实施例的算法训练方法的流程图。

如图2所示，本公开实施例的算法训练方法可以包括循环执行的第二循环操作，该第二循环操作可以包括操作S210～操作S230。

在操作S210，从混合样本池中抽取大于第二预定数量的样本作为训练样本。

其中，混合样本池中例如可以存储有多个样本，该多个样本不仅包括真实样本，还包括仿真样本。其中，仿真样本可以是根据真实样本推理得到的，或者可以是通过对真实样本的合理变形或合理转换得到的。其中，第二预定数量例如可以取大于训练强化学习算法时需要用到的最小数据、且小于混合样本池中存储的所有样本的总数的任意值。该第二预定数量可以根据实际需求进行设定，本公开对此不作限定。

根据本公开的实施例，该混合样本池具体例如可以通过图3所示的流程进行构建，在此不再详述。

在操作S220，采用训练样本训练强化学习算法，得到训练后强化学习算法。

根据本公开的实施例，该操作S220例如可以包括：以训练样本作为强化学习算法的输入，以使得强化学习算法学习到状态数据与动作数据的映射关系，从而得到训练后强化学习算法。其中，训练样本中包括有状态数据与动作数据。其中，动作数据例如可以通过向量的形式进行体现，则该动作数据可以为动作向量。因此，在强化学习算法学习到映射关系后，若以状态数据为输入，可以输出得到动作向量，从而为工作人员提供参考动作，使得执行完该参考动作后整个系统(例如火力发电系统)的效能最高或者收益最高等。

根据本公开的实施例，可以通过操作S230来确定是否完成强化学习算法的训练。在操作S230，判断训练后强化学习算法是否满足第一预设条件。

其中，第一预设条件例如可以包括：训练强化学习算法的次数达到预定次数，该预定次数例如可以根据对强化学习算法的精度需求进行设定。通过执行训练后强化学习算法提供的动作向量表征的参考动作可以使得收益大于预定收益，或者通过执行训练后强化学习算法提供的动作向量表征的参考动作可以使得能量转换效率大于预定效率等。可以理解的是，可以根据不同的应用场景设定不同的第一预设条件。以使得该训练后强化学习算法可以更好地指导系统(例如火力发电系统)工作，达到系统运行目标。

根据本公开的实施例，若操作S230的判断结果为训练后强化学习算法不满足第一预设条件，则说明强化学习算法还不稳定，还无法收敛到真实最优解。因此，还需要对强化学习算法进行进一步地训练，则返回操作S210重新抽取训练样本进行训练。通过循环执行操作S210～操作S230，来实现对强化学习算法的循环训练。

根据本公开的实施例，若操作S230的判断结果为训练后强化学习算法满足第一预设条件，可以说明强化学习算法的稳定性等已经满足要求。因此，为了确定第二循环操作的循环截止条件，本公开实施例的算法训练方法还包括在训练后强化学习算法满足第一预设条件时执行的操作S240，确定完成强化学习算法的训练。在确定完成强化学习算法的训练后，停止执行第二循环操作。

综上可知，本公开实施例通过在混合样本池中加入仿真样本和真实样本，可以使得根据抽取的训练样本训练得到的强化学习算法可以更好的反应真实环境，并因此提高强化学习算法的稳定性，使得强化学习算法能够收敛至最优解，并因此提高基于强化学习算法构建的控制系统的稳定性与安全性。

以下将结合图3～图10对混合样本池的构建进行描述。

图3示意性示出了根据本公开实施例的样本池构建方法的流程图。

如图3所示，样本池构建方法例如可以包括操作S310～操作S340。

在操作S310，获取历史数据。

根据本公开的实施例，历史数据例如可以包括系统在历史中多个时刻中每个时刻的状态数据，以及与多个状态数据一一对应的多个动作向量。其中，状态数据可以为状态参数，与状态数据对应的动作向量可以用于表征：在火力发电系统为状态数据表征的状态时，工作人员或控制系统自动执行的动作。可以理解的是，此处的系统例如可以为火力发电系统，该火力发电系统仅作为示例以利于理解本公开，本公开对此不作限定。该历史数据例如可以是从火力发电系统中的数据库或服务器中获取的。

在操作S320，根据历史数据生成多个真实样本。

根据本公开的实施例，真实样本例如可以根据相邻的两个时刻的状态数据，以及与相邻的两个时刻中较早时刻的状态数据对应的动作向量来生成。因此，根据该真实样本，可以得知通过执行与状态数据对应的动作向量表征的参考动作，火力发电系统的工作状态的变化。

根据本公开的实施例，真实样本例如还可以包括奖励值，以表征真实样本的置信度。因此操作S320可以包括：先确定任意时刻的状态数据、与该任意时刻的状态数据对应的动作向量、该任意时刻的下一时刻的状态数据；然后根据该任意时刻的状态数据(例如煤燃烧效率、污染物排放量等)，计算真实样本的奖励值。最后，将该任意时刻的状态数据、与该任意时刻的状态数据对应的动作向量、该任意时刻的下一时刻的状态数据及奖励值形成四元组，作为一个真实样本。

在操作S330，根据历史数据及预定仿真模型，生成多个仿真样本。

根据本公开的实施例，预定仿真模型例如可以为神经网络模型等能够根据当前时刻的状态数据来确定下一时刻的状态数据的模型。例如，该神经网络模型可以为LSTM模型(长短时记忆网络模型)。该仿真模型可以是通过大量的历史数据训练得到的。该仿真模型的输入可以为状态数据和动作向量，输出则为下一时刻的状态数据。

根据本公开的实施例，该操作S330可以包括：先根据历史数据确定输入预定仿真模型的状态数据和动作向量，然后再通过仿真模型得到输入的状态数据所针对时刻的下一时刻的状态数据。最后，根据该输入的状态数据，动作向量及经由预定仿真模型得到的状态数据，生成一个仿真样本。然后再根据该生成的一个仿真样本，通过预定仿真模型得到下一个仿真样本，依次类推得到多个仿真样本。

根据本公开的实施例，操作S330例如可以通过图4或图5描述的流程得到，在此不再赘述。

在操作S340，将真实样本与仿真样本按个数的第一预定比例存储至预定存储空间，构成混合样本池。

根据本公开的实施例，本实施例可以通过控制混合样本池中真实样本与仿真样本的比例，来满足对训练得到的强化学习算法的不同需求。因此，上述的第一预定比例可以根据实际需求进行设定，例如若需要强化学习算法倾向于高收益，则可以为仿真样本设定占有较高的比例，若需要强化学习算法倾向于稳定性，则可以为真实样本设定占有较高的比例。

根据本公开的实施例，第一预定比例可以为α，该α的取值还可以根据真实样本的总个数来确定。例如，若根据历史数据得到的真实样本的总个数num_real较小，为了保证用于强化学习算法的训练样本具有一定的数量(例如满足训练样本的最小量num_min)，该第一预定比例α应满足以下条件：

根据本公开的实施例，若真实样本的总个数num_real较大，例如大于训练样本最小量num_min，则可以灵活调整第一预定比例α。例如，可以综合考虑强化学习算法的稳定性和带来的收益，来确定第一预定比例的取值。

图4示意性示出了根据本公开第一实施例的生成多个仿真样本的流程图。

根据本公开的实施例，上述操作S330中依次得到多个仿真样本的操作例如可以通过循环执行的第二循环操作来实现。如图4所示，上述操作S330例如可以包括操作S431，以及循环执行的操作S432～操作S435，直至得到多个仿真样本。操作S432～操作S435构成所述的第二循环操作。

在操作S431，从历史数据中选取初始状态数据。

根据本公开的实施例，该初始状态数据可以是从历史数据中包括的多个时刻的多个状态数据中任意选择的，本公开对此不作限定。该初始状态数据例如可以包括有前述的状态参数等。根据本公开的实施例，该初始状态数据例如还可以是实时采集得到的火力发电系统的状态参数。

根据本公开的实施例，为了使得根据初始状态数据生成的第一个仿真样本能够与真实样本具有较大的差异，并使得第一个仿真样本能够在一定程度上反映强化学习算法，在第二循环操作的第一次循环中，输入预定仿真模型的动作向量可以是以初始状态数据作为输入，通过强化学习算法输出得到的。从而使得仿真样本中的动作向量与真实样本中与初始状态数据对应的动作向量有所不同。在第二循环操作的后续循环中，为了保证仿真样本与真实样本的较大差异，可以直接根据前一次循环中预定仿真模型输出的状态数据来生成仿真样本。因此，上述第二循环操作可以包括以初始状态数据为第一状态数据，循环执行的操作S432～操作S435。

在操作S432，以第一状态数据作为强化学习算法的输入，得到针对第一状态数据的第一动作向量。此处的强化学习算法可以为训练过程中处于任意阶段的算法。

在操作S433，以第一状态数据及第一动作向量作为预定仿真模型的输入，得到第二状态数据。其中，若第一状态数据为针对第一时刻的状态参数，则第二状态数据则为针对第二时刻的状态参数，该第二时刻为第一时刻的下一时刻。

在操作S434，根据第一状态数据、第一动作向量以及第二状态数据，生成一个仿真样本。

在操作S435，采用第二状态数据更新第一状态数据，并返回执行操作S432。

根据本公开的实施例，为了避免多余仿真样本的生成，如图4所示，第二循环操作例如还可以包括用于确定是否停止循环的判断操作，即还可以包括操作S436，判断是否完成强化学习算法的训练。若完成强化学习算法的训练，则无需再生成仿真样本，结束第二循环操作。若强化学习算法的训练还未完成，则为了提供充足的训练样本，则执行操作S435，以再次执行第二循环操作，生成新的仿真样本。

图5示意性示出了根据本公开第二实施例的生成多个仿真样本的流程图。

根据本公开实施例，在图4描述的生成多个仿真样本的流程中，为了使得该仿真样本能够在一定程度上体现火力发电系统的性能，该仿真样本的生成除了由第一状态数据、第二状态数据、第一动作向量确定外，还可以根据针对仿真样本的奖励值来确定。因此，为了确定针对仿真样本的奖励值，如图5所示，第二循环操作除了操作S431～操作S435之外，还可以包括操作S537。该操作S537可以在操作S434之前、且操作S432之后的任意时机执行。

在操作S537，根据第一动作向量以及第一状态数据，确定针对仿真样本的奖励值。

根据本公开的实施例，该针对仿真样本的奖励值例如可以通过以第一状态数据中包括的状态参数为自变量计算得到的。该奖励值例如可以用于表征仿真样本的置信度。操作S537例如可以为置信度较高的仿真样本分配较高的奖励值，为置信度较低的仿真样本分配较低的奖励值。根据本公开的实施例，该操作S537例如可以通过图6描述的流程来确定针对仿真样本的奖励值，在此不再赘述。

根据本公开的实施例，在确定奖励值后，第二循环操作中用于生成仿真样本的操作S434可以实现为操作S534，根据第一状态数据、第一动作向量、第二状态数据以及奖励值，生成一个仿真样本。该操作S534例如可以包括：将第一状态数据、第一动作向量、第二状态数据及针对仿真样本的奖励值形成四元组，作为一个仿真样本。

根据本公开的实施例，为了避免在以初始状态数据执行第二循环操作时，随着循环的执行，仿真样本与真实样本的偏差过大，还可以设定多轮的第二循环操作，并为每轮操作选取初始状态数据。因此，如图5所示，本公开实施例的第二循环操作除了前述的操作外，还可以包括操作S538，判断第一循环操作的当前轮的循环次数是否达到第一预定数量。若达到第一预定数量，则返回执行操作S431，以重新选取初始状态数据，并在重新选取初始状态数据后，以重新选取的初始状态数据为第一状态数据，循环执行第二循环操作。若未达到第一预定数量，则执行操作S435以更新第一状态数据，并继续循环执行第二循环操作。其中，第一预定数量可以根据允许的仿真样本与真实样本的最大偏差来确定，例如，该第一预定数量可以为10、20等任意值，本公开对该第一预定数量的确定不作限定。

根据本公开的实施例，为了使得针对置信度高的仿真样本奖励值较大，针对置信度低的仿真样本奖励值较小，在确定奖励值，还可以为仿真样本设定惩罚系数。其中，为置信度低的仿真样本设定的惩罚系数较高。其中，置信度的高低例如可以根据与第一状态数据对应的动作向量在历史数据中的出现频率来确定，出现频率越高，则置信度越高。

图6示意性示出了根据本公开实施例的确定针对所述仿真样本的奖励值的流程图。

如图6所示，本公开实施例的确定针对仿真样本的奖励值的操作S537可以包括操作S671～操作S673。

在操作S671，确定第一动作向量中每个元素在针对每个元素的取值空间中所属的取值区间。

根据本公开的实施例，在确定针对仿真样本的奖励值之前，例如还包括根据历史数据中的所有动作向量，确定动作向量的每个元素的取值空间的取值区间，并对取值空间进行取值区间的划分。例如，若所有的动作向量均为n维的向量，采用A＝{a₁，a₂，a₃，……，a_n}来表示该n维的向量，则可以先统计历史数据中所有动作向量的每个元素的取值，然后根据统计结果确定动作向量的每个元素的取值空间及取值空间中取值区间的划分。从而得到针对动作向量中每个元素的取值空间及取值区间。然后根据历史数据中所有动作向量中每个元素的取值分布，确定动作向量中每个元素的取值属于每个取值空间的概率。例如，若针对元素a_i的取值空间划分得到的取值区间可以为m个，则可以通过历史数据中所有动作向量(例如多个真实样本包括的第二动作向量)的元素a_i的取值分布，统计得到元素a_i的取值属于m个取值区间中每个取值区间的概率，得到元素a_i针对m个取值区间的m个概率值。其中，1≤i≤n，n、m均为大于1的自然数。

根据本公开的实施例，上述操作S671例如可以包括：确定第一动作向量中每个元素的取值在针对每个元素的取值空间中所属的取值区间。例如，该操作S671可以包括：确定第一动作向量中元素a_i的取值属于针对元素a_i的m个取值区间中的第j个取值区间。

在操作S672，根据每个元素针对所属的取值区间的概率与预定概率的大小关系，确定针对仿真样本的惩罚系数。

根据本公开的实施例，对于第一动作向量中的元素a_i，其针对所属的取值区间的概率

为针对第j个取值区间的概率。其中，预定概率例如可以根据历史数据中每个元素的分布来确定，以保证历史数据中大部分元素a_i针对所属的取值区间的概率均大于该预定概率。根据本公开的实施例，该预定概率的取值可以根据实际需求进行设定，本公开对此不作限定。对于动作向量中的不同元素，可以设定不同的预定概率。

根据本公开的实施例，对于元素a_i，预定概率例如可以为

则操作S672中确定针对仿真样本的惩罚系数时，可以是根据第一动作向量中每个元素针对所属的取值区间的概率与针对每个元素的预定概率来确定的。例如，考虑到若第一动作向量中每个元素针对所属的取值区间的概率大于针对每个元素的预定概率，包括该第一动作向量的仿真样本的置信度较高，则确定针对该仿真样本的惩罚系数则较小。该针对仿真样本的惩罚系数例如可以通过图7描述的流程来实现，在此不再赘述。

在操作S673，根据惩罚系数、第一状态数据及预定算法，计算得到针对仿真样本的奖励值。

根据本公开的实施例，由于针对置信度较高的仿真样本的惩罚系数较小，通过操作S673得到的奖励值应越大。其中，预定算法例如可以根据第一状态数据包括的状态参数与表征的状态之间的关系来确定。例如，若温度高可以反应火力发电系统的转换效率高，则该预定算法可以包括与温度成正比的算法。所述的惩罚系数用于对奖励值进行修正。

根据本公开的实施例，该操作S673例如可以通过图8描述的流程来实现，在此不再赘述。

图7示意性示出了根据本公开实施例的确定针对所述仿真样本的惩罚系数的流程图。

如图7所示，确定针对仿真样本的惩罚系数的操作S672例如可以包括操作S7721～操作S7722。

在操作S7721，根据每个元素针对所属的取值区间的概率与针对每个元素的预定概率的大小关系，确定针对每个元素的惩罚系数。

对于第一动作向量中的元素a_i，根据其针对所属的取值区间的概率

与针对元素a_i的预定概率

可以通过以下公式(1)或公式(2)来确定针对该元素a_i的惩罚系数

类似地，可以与第一动作向量包括的n个元素一一对应的n个惩罚系数。

在操作S7722，累加针对第一动作向量中每个元素的惩罚系数，得到针对仿真样本的惩罚系数。

根据公开的实施例，针对仿真样本的惩罚系数β，例如可以通过以下公式(3)计算得到：

图8示意性示出了根据本公开实施例的计算得到针对所述仿真样本的奖励值的流程图。

如图8所示，计算得到针对仿真样本的奖励值操作S673可以包括操作S8731～操作S8733。

在操作S8731，根据第一状态数据及第一算法，计算得到针对仿真样本的初始奖励值。

其中，第一算法例如可以表征第一状态数据包括的状态参数与火力发电系统的状态之间的逻辑关系。对于不同的应用场景，以及对于不同的火力发电系统，该第一算法可以为不同算法。本公开不对该第一算法进行限定。例如，若状态参数包括温度T、压力P，则该初始奖励值r为关于T、P的函数。其中，操作S673中描述的预定算法包括该第一算法。

在操作S8732，根据针对仿真样本的惩罚系数及第二算法，计算得到针对仿真样本的奖励调整参数。

根据本公开的实施例，该第二算法例如可以为关于惩罚系数的函数。例如，奖励调整参数为Q，通过第二算法及惩罚系数计算Q的公式例如可以为公式(4)或公式(5)，第二算法即为(1+K*β)或e^K*β表征的算法。其中，K可以为用于表征惩罚力度的超参，该K的取值例如可以为大于0.5且小于1的任意值。该K的取值可以根据实际需求进行设定，本公开对此不作限定。其中，操作S673中描述的预定算法包括该第二算法。

Q＝1+K*β。公式(4)

Q＝e^K*β。公式(5)

可以理解的是，上述计算奖励调整参数的公式仅作为实例以利于理解本公开，本公开对此不作限定，主要保证能够使得向置信度高的仿真样本设定较低的奖励调整参数即可。

在操作S8733，将初始奖励值与奖励调整参数相除，得到针对仿真样本的奖励值。该操作S8733即为：将初始奖励值r与奖励调整参数Q相除得到的值即为针对仿真样本的奖励值。

根据本公开的实施例，为了使得训练得到的强化学习算法能够收敛到最优解，在训练强化学习算法的训练样本中还可以包括一些置信度较低的仿真样本。考虑到对于置信度较低的仿真样本，通过操作S672确定的惩罚系数较大。因此，混合样本池中的仿真样本可以包括：作为正仿真样本的惩罚系数小于等于预定值的仿真样本，以及作为负仿真样本的惩罚系数大于预定值的仿真样本。其中，预定值例如可以根据需求、惩罚系数的计算方法及动作向量包括的元素个数进行设定，例如，针对各元素的惩罚系数采用公式(1)计算，元素个数较少，则预定值可以取较小的值，例如可以为小于1的值。若针对各元素的惩罚系数采用公式(2)计算，元素个数较多，则预定值可以取较大的值，例如可以为小于5的值。

根据本公开的实施例，在构建混合样本池时，可以从多个仿真样本中挑选个数比等于第二预定比例的正仿真样本和负仿真样本存储预定存储空间。

图9示意性示出了根据本公开实施例的构成所述混合样本池的流程图。

根据本公开的实施例，为了保证混合样本池中不仅包括正仿真样本，还包括负仿真样本，构成混合样本池的操作S340例如可以包括操作S941～操作S943。

在操作S941，根据第一预定比例、预定存储空间的存储容量及多个仿真样本的个数，确定需要存储至预定存储空间的仿真样本的个数。

根据本公开的实施例，若多个仿真样本的个数及多个真实样本的个数足够多，则上述操作S941可以包括：先根据第一预定比例，确定预定存储空间中仿真样本占所有样本的比例，例如，若第一预定比例为1∶2，则仿真样本占所有样本的比例为2∶3；然后确定需要存储至预定存储空间的仿真样本的个数为：仿真样本占所有样本的比例与预定存储空间的存储容量的乘积。其中，预定存储空间的存储容量具体为预定存储空间能够存储的最大样本量。

根据本公开的实施例，若多个仿真样本的个数小于前述仿真样本占所有样本的比例与预定存储空间的存储容量的乘积，则确定需要存储至预定存储空间的仿真样本的个数为所有多个仿真样本的个数。若多个真实样本的个数小于预定存储空间能够存储的最大样本量与前述乘积的差值的情况下，确定需要存储至预定存储空间的仿真样本的个数为多个仿真样本的个数与前述第一预定比例相除得到的值。

在操作S942，从多个仿真样本中获取至少一个正仿真样本和惩罚系数满足第二预设条件的至少一个负仿真样本，得到需要存储至预定存储空间的仿真样本。

根据本公开的实施例，为了提高强化学习算法的学习能力，提高训练效率，该第二预设条件例如可以为惩罚系数大于预定系数的仿真样本，从而使得正仿真样本与负仿真样本的差别较大。

根据本公开的实施例，为了使得强化学习算法能够有效地得到最优解，该第二预设条件例如可以为惩罚系数大于预定值，但小于预定系数的仿真样本，从而使得强化学习算法能够根据从预定存储空间中抽取的训练样本学习到一些较难的策略，便于最优解的寻找。

可以理解的是，上述第二预设条件可以根据对强化学习算法的实际要求等进行设定，本公开对此不作限定。

在操作S943，将需要存储至预定存储空间的仿真样本及个数满足第一预定比例的真实样本存储至预定存储空间，完成混合样本池的构建。

综上可知，本公开实施例的混合样本池，通过加入惩罚系数高的负仿真样本，可以提高混合样本池样本的均衡性，并因此提高强化学习算法的收敛速度，便于最优解的寻找。

根据本公开的实施例，为了兼顾强化学习算法的训练过程的高效性及强化学习算法的收敛性，还可以在强化学习算法的训练过程中灵活调整第二预定比例的取值，以及前述的真实样本与仿真样本的个数比，因此在强化学习算法的训练过程中，还应包括更新混合样本池中的样本的操作。通过该混合样本池中样本的更新，可以保证样本池中样本的实时性。

图10示意性示出了根据本公开实施例的混合样本池的维护流程图。

如图10所示，构建混合样本池及更新混合样本池中样本的整体流程例如可以包括操作S1001～S1010。该操作S1001～操作S1010可以在每生成一个仿真样本时执行一次。

在操作S1001，输入仿真样本。该仿真样本可以是通过图4～图5中任一图中描述的流程生成的一个仿真样本。

在操作S1002，将输入的仿真样本加入混合样本池中。

在操作S1003，更新混合样本池中仿真样本的个数，例如，若操作S1001中输入的仿真样本为一个，则将混合样本池中的仿真样本的个数加1。

在操作S1004，按真实样本与仿真样本的个数的第一预定比例，计算混合样本池中所需的真实样本个数H。

在操作S1005，判断所需的真实样本个数H是否大于当前真实样本的个数h。

根据本公开的实施例，若H大于h，则说明当前混合样本池中真实样本个数与仿真样本个数的比值大于第一预定比例，此种情况下若需要保证训练后的强化学习模型能够带来更高的收益，则可以直接执行操作S1010，采样抽取得到训练样本。该操作S1010与操作S210类似，在此不再赘述。

根据本公开的实施例，若H小于等于h，则说明当前混合样本池中真实样本个数较少，则执行操作S1006，向混合样本池中添加真实样本。其中，添加的真实样本可以为通过操作S320生成的真实样本。在添加了真实样本后，为了保证能够抽取到足够的训练样本，可以执行操作S1007，判断H是否小于混合样本池的最小样本量，该混合样本池的最小样本量可以根据训练样本的抽取规则以及训练样本的最小量num_min来确定。例如，该混合样本池的最小样本量不应小于训练样本的最小量num_min。若操作S1007判断H小于混合样本池的最小样本量，则说明混合样本池中的样本量不够，需要返回重新输入仿真样本。若操作S1007判断H不小于混合样本池的最小样本量，则可以直接执行操作S1010，来采样抽取得到训练样本进行强化学习算法的训练。

为了避免混合样本池中存储空间已被占满，则在确定H不小于混合样本池的最小样本量后，还可以执行操作S1008，判断混合样本池是否已满，若已满，则可以执行操作S1009，根据先进先出原则，更新混合样本池。并在更新混合样本池后，执行操作S1010来对强化学习算法进行训练。

根据本公开的实施例，根据先进先出原则，更新混合样本池即为：在往已满的样本池中添加样本时，先删除最先存入样本池的数据，以此来保证样本池中样本总量不变。

根据本公开的实施例，操作S1009例如可以包括：采用当前时刻生成的真实样本(例如可以是操作S1006中添加的真实样本)，和/或当前时刻生成的仿真样本(例如可以是操作S1001中输入的仿真样本)来替换混合样本池中生成时间最早(例如可以是时间上最早存入预定存储空间)的样本。

根据本公开的实施例，为了保证混合样本池中真实样本与仿真样本的比例固定，操作S1009可以包括：用当前时刻生成的真实样本，和/或采用当前时刻生成的仿真样本更新所述混合样本池，具体为采用操作S1001输入的仿真样本替换混合样本池中生成时间最早的仿真样本，采用操作S1006添加的真实样本替换混合样本池中生成时间最早的真实样本。

根据本公开的实施例，为了保证混合样本池中具有固定数量的负仿真样本，操作S1009还可以是包括：在操作S1001中输入的仿真样本为负仿真样本的情况下，采用当前时刻生成的负仿真样本替换混合样本池中生成时间最早的负仿真样本。或者，为了保证混合样本池中正仿真样本与负仿真样本的个数比值等于第二预定比例，操作S1009可以包括：若操作S1001输入的仿真样本为正仿真样本，采用该输入的仿真样本替换混合样本池中生成时间最早的正仿真样本；若操作S1001输入的仿真样本为负仿真样本，采用该输入的仿真样本替换混合样本池中生成时间最早的负仿真样本。

综上可知，本公开实施例通过根据先进先出原则更新混合样本池，可以在混合样本池中的样本具有时效性的同时，能够保证混合样本池中样本分布的均衡性。

图11示意性示出了根据本公开实施例的算法训练装置的结构框图。

如图11所示，本公开实施例的算法训练装置1100可以包括样本抽取模块1110、算法训练模块1120和控制模块1130。该算法训练装置1100可以用于循环执行第二循环操作，以对强化学习算法进行训练。

样本抽取模块1110用于从混合样本池中抽取大于第二预定数量的样本作为训练样本(操作S210)，该混合样本池中包括多个样本，多个样本包括真实样本和仿真样本。

算法训练模块1120用于采用训练样本训练强化学习算法，得到训练后强化学习算法(操作S220)。

控制模块1130用于在训练后强化学习算法满足预设条件的情况下，确定完成强化学习算法的训练(操作S240)；或者控制模块1130用于在训练后强化学习算法不满足预设条件的情况下，控制样本抽取模块1110重新抽取训练样本。

图12示意性示出了根据本公开实施例的样本池构建装置的结构框图。

如图12所示，本公开实施例的样本池构建装置1200可以包括数据获取模块1210、真实样本生成模块1220、仿真样本生成模块1230和样本池构建模块1240。数据获取模块1210用于获取历史数据(操作S310)。真实样本生成模块1220用于根据历史数据生成多个真实样本(操作S320)。仿真样本生成模块1230用于根据历史数据及预定仿真模型，生成多个仿真样本(操作S330)。样本池构建模块1240用于将真实样本与仿真样本按个数的第一预定比例存储至预定存储空间，构成混合样本池(操作S340)。

根据本公开的实施例，上述仿真样本生成模块1230例如可以具体用于：从历史数据中选取初始状态数据(操作S431)；以及以初始状态数据作为第一状态数据，循环执行以下第一循环操作：以第一状态数据作为强化学习算法的输入，得到针对第一状态数据的第一动作向量(操作S432)；以第一状态数据及第一动作向量作为预定仿真模型的输入，得到第二状态数据(操作S433)；根据第一状态数据、第一动作向量以及第二状态数据，生成一个仿真样本(操作S434)；以及采用第二状态数据更新第一状态数据(操作S435)。其中，第一状态数据为针对第一时刻的数据，第二状态数据为针对第二时刻的数据，第二时刻为第一时刻的下一时刻。

根据本公开的实施例，上述仿真样本包括：第一状态数据、第二状态数据、第一动作向量以及针对仿真样本的奖励值。上述第二循环操作还可以包括：根据第一动作向量以及第一状态数据，确定针对仿真样本的奖励值(操作S537)。

根据本公开的实施例，上述确定针对仿真样本的奖励值例如可以包括：确定第一动作向量中每个元素在针对每个元素的取值空间中所属的取值区间(操作S671)；根据每个元素针对所属的取值区间的概率与预定概率的大小关系，确定针对仿真样本的惩罚系数(操作S672)；以及根据惩罚系数、第一状态数据及预定算法，计算得到针对仿真样本的奖励值(操作S673)。

根据本公开的实施例，上述确定针对仿真样本的惩罚系数可以包括：根据每个元素针对所属的取值区间的概率与针对每个元素的预定概率的大小关系，确定针对每个元素的惩罚系数(操作S7721)；以及累加针对第一动作向量中每个元素的惩罚系数，得到针对仿真样本的惩罚系数(操作S7722)。其中，每个元素针对所属的取值区间的概率通过对多个真实样本包括的第二动作向量进行统计得到。

根据本公开的实施例，上述计算得到针对仿真样本的奖励值包括：根据第一状态数据及第一算法，计算得到针对仿真样本的初始奖励值(操作S8731)；根据针对仿真样本的惩罚系数及第二算法，计算得到针对仿真样本的奖励调整参数(操作S8732)；以及将初始奖励值与奖励调整参数相除，得到针对仿真样本的奖励值(操作S8733)。其中，预定算法包括第一算法和第二算法。

根据本公开的实施例，上述混合样本池中的仿真样本包括：惩罚系数大于预定值的负仿真样本；以及惩罚系数小于等于预定惩罚值的正仿真样本。上述样本池构建模块1240具体例如可以用于：根据第一预定比例、预定存储空间的存储容量及多个仿真样本的个数，确定需要存储至预定存储空间的仿真样本的个数(操作S941)；从多个仿真样本中获取至少一个正仿真样本和惩罚系数满足第二预设条件的至少一个负仿真样本，得到需要存储至预定存储空间的仿真样本(操作S942)；以及将需要存储至预定存储空间的仿真样本及个数满足第一预定比例的真实样本存储至预定存储空间(操作S943)。

根据本公开的实施例，如图12所示，上述样本池构建装置1200例如还可以包括样本池更新模块1250，用于更新混合池中的样本。该样本池更新模块1250例如可以用于：采用当前时刻生成的真实样本和/或当前时刻生成的仿真样本替换混合样本池中生成时间最早的样本；或者采用当前时刻生成的负仿真样本替换混合样本池中生成时间最早的负仿真样本；或者采用当前时刻生成的仿真样本更新混合样本池，以使混合样本池中正仿真样本的个数与负仿真样本的个数的比值等于第二预定比例。

根据本公开的实施例，上述样本池构建模块1240用于在第一循环操作的当前轮的循环次数达到第一预定数量的情况下，再次获取初始状态数据，以再次循环执行第一循环操作。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，样本抽取模块1110、算法训练模块1120、控制模块1130、数据获取模块1210、真实样本生成模块1220、仿真样本生成模块1230、样本池构建模块1240和样本池更新模块1250中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，样本抽取模块1110、算法训练模块1120、控制模块1130、数据获取模块1210、真实样本生成模块1220、仿真样本生成模块1230、样本池构建模块1240和样本池更新模块1250中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，样本抽取模块1110、算法训练模块1120、控制模块1130、数据获取模块1210、真实样本生成模块1220、仿真样本生成模块1230、样本池构建模块1240和样本池更新模块1250中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图13示意性示出了根据本公开实施例的适于执行样本池构建方法和/或算法训练方法的电子设备的结构框图。图13示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图13所示，根据本公开实施例的电子设备1300包括处理器1301，其可以根据存储在只读存储器(ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(RAM)1303中的程序而执行各种适当的动作和处理。处理器1301例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1301还可以包括用于缓存用途的板载存储器。处理器1301可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1303中，存储有电子设备1300操作所需的各种程序和数据。处理器1301、ROM 1302以及RAM 1303通过总线1304彼此相连。处理器1301通过执行ROM 1302和/或RAM1303中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1302和RAM 1303以外的一个或多个存储器中。处理器1301也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1300还可以包括输入/输出(I/O)接口1305，输入/输出(I/O)接口1305也连接至总线1304。电子设备1300还可以包括连接至I/O接口1305的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被处理器1301执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1302和/或RAM 1303和/或ROM 1302和RAM 1303以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种样本池构建方法，包括：

获取控制系统的历史数据，所述历史数据包括表征所述控制系统在多个历史时刻的状态的多个状态数据，以及与所述多个状态数据一一对应的多个动作向量，其中，每个动作向量用于表征所述控制系统处于对应的状态数据表征的状态时，所述控制系统执行的动作；

根据历史数据生成多个真实样本；

根据所述历史数据及预定仿真模型，生成多个仿真样本；以及

将所述真实样本与所述仿真样本按个数的第一预定比例存储至预定存储空间，构成混合样本池，

其中，所述生成多个所述仿真样本包括：

从所述历史数据中选取初始状态数据；以及

以所述初始状态数据作为第一状态数据，循环执行以下第一循环操作：

以所述第一状态数据作为强化学习算法的输入，得到针对所述第一状态数据的第一动作向量；

以所述第一状态数据及所述第一动作向量作为所述预定仿真模型的输入，得到第二状态数据；

根据所述第一状态数据、所述第一动作向量以及所述第二状态数据，生成一个所述仿真样本；以及

采用所述第二状态数据更新所述第一状态数据，

其中，第一状态数据为针对第一时刻的数据，所述第二状态数据为针对第二时刻的数据，所述第二时刻为所述第一时刻的下一时刻；所述预定仿真模型为长短时记忆网络模型。

2.根据权利要求1所述的方法，其中：

所述仿真样本包括：所述第一状态数据、所述第二状态数据、所述第一动作向量以及针对所述仿真样本的奖励值；

所述第一循环操作还包括：根据所述第一动作向量以及所述第一状态数据，确定针对所述仿真样本的奖励值。

3.根据权利要求2所述的方法，其中，确定针对所述仿真样本的奖励值包括：

确定所述第一动作向量中每个元素在针对所述每个元素的取值空间中所属的取值区间；

根据所述每个元素针对所属的取值区间的概率与预定概率的大小关系，确定针对所述仿真样本的惩罚系数；以及

根据所述惩罚系数、所述第一状态数据及预定算法，计算得到针对所述仿真样本的奖励值。

4.根据权利要求3所述的方法，其中，确定针对所述仿真样本的惩罚系数包括：

根据所述每个元素针对所属的取值区间的概率与针对所述每个元素的预定概率的大小关系，确定针对所述每个元素的惩罚系数；以及

累加针对所述第一动作向量中所述每个元素的惩罚系数，得到针对所述仿真样本的惩罚系数，

其中，所述每个元素针对所属的取值区间的概率通过对所述多个真实样本包括的第二动作向量进行统计得到。

5.根据权利要求3所述的方法，其中，计算得到针对所述仿真样本的奖励值包括：

根据所述第一状态数据及第一算法，计算得到针对所述仿真样本的初始奖励值；

根据针对所述仿真样本的惩罚系数及第二算法，计算得到针对所述仿真样本的奖励调整参数；以及

将所述初始奖励值与所述奖励调整参数相除，得到针对所述仿真样本的奖励值，

其中，所述预定算法包括所述第一算法和所述第二算法。

6.根据权利要求3所述的方法，其中：

所述混合样本池中的仿真样本包括：惩罚系数大于预定值的负仿真样本；以及惩罚系数小于等于预定惩罚值的正仿真样本；

所述将所述真实样本与所述仿真样本按个数的第一预定比例存储至预定存储空间，构成所述混合样本池包括：

根据所述第一预定比例、所述预定存储空间的存储容量及所述多个仿真样本的个数，确定需要存储至所述预定存储空间的仿真样本的个数；

从所述多个仿真样本中获取至少一个正仿真样本和惩罚系数满足第二预设条件的至少一个负仿真样本，得到需要存储至所述预定存储空间的仿真样本；以及

将需要存储至所述预定存储空间的仿真样本及个数满足所述第一预定比例的真实样本存储至所述预定存储空间。

7.根据权利要求6所述的方法，还包括更新所述混合样本池中的样本；所述更新所述混合样本池中的样本包括：

采用当前时刻生成的真实样本和/或当前时刻生成的仿真样本替换所述混合样本池中生成时间最早的样本；或者

采用当前时刻生成的负仿真样本替换所述混合样本池中生成时间最早的负仿真样本；或者

采用当前时刻生成的仿真样本更新所述混合样本池，以使所述混合样本池中正仿真样本的个数与负仿真样本的个数的比值等于第二预定比例。

8.根据权利要求1所述的方法，其中，生成多个所述仿真样本还包括：

在所述第一循环操作的当前轮的循环次数达到第一预定数量的情况下，再次获取所述初始状态数据，以再次循环执行所述第一循环操作。

9.一种确定控制系统执行的动作的方法，包括循环执行的以下第二循环操作，直至训练后强化学习算法满足第一预设条件：

从混合样本池中抽取大于第二预定数量的样本作为训练样本，所述混合样本池中包括多个样本，所述多个样本包括真实样本和仿真样本；

采用所述训练样本训练强化学习算法，得到所述训练后强化学习算法；以及

在所述训练后强化学习算法不满足所述第一预设条件的情况下，重新抽取所述训练样本，

其中，所述混合样本池包括根据权利要求1～8中任一项所述的样本池构建方法构成的混合样本池；在所述训练后强化学习算法满足所述第一预设条件的情况下，确定完成所述强化学习算法的训练，所述训练后强化学习算法用于根据控制系统的状态确定控制系统执行的动作。

10.一种样本池构建装置，包括：

数据获取模块，用于获取控制系统的历史数据，所述历史数据包括表征所述控制系统在多个历史时刻的状态的多个状态数据，以及与所述多个状态数据一一对应的多个动作向量，其中，每个动作向量用于表征所述控制系统处于对应的状态数据表征的状态时，所述控制系统执行的动作；

真实样本生成模块，用于根据历史数据生成多个真实样本；

仿真样本生成模块，用于根据所述历史数据及预定仿真模型，生成多个仿真样本；以及

样本池构建模块，用于将所述真实样本与所述仿真样本按个数的第一预定比例存储至预定存储空间，构成混合样本池，

其中，所述仿真样本生成模块用户通过以下操作生成仿真样本：

从所述历史数据中选取初始状态数据；以及

采用所述第二状态数据更新所述第一状态数据，

11.一种确定控制系统执行的动作的装置，包括：

样本抽取模块，用于从混合样本池中抽取大于第二预定数量的样本作为训练样本，所述混合样本池中包括多个样本，所述多个样本包括真实样本和仿真样本；

算法训练模块，用于采用所述训练样本训练强化学习算法，得到训练后强化学习算法；以及

控制模块，用于在所述训练后强化学习算法满足预设条件的情况下，确定完成所述强化学习算法的训练；或者在所述训练后强化学习算法不满足预设条件的情况下，控制所述样本抽取模块重新抽取所述训练样本，

其中，所述混合样本池包括根据权利要求10所述的样本池构建装置构成的混合样本池，所述训练后强化学习算法用于根据控制系统的状态确定控制系统执行的动作。

12.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行：

权利要求1～8中任一项所述的样本池构建方法；和/或

权利要求9所述的确定控制系统执行的动作的方法。

13.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行：

权利要求1～8中任一项所述的样本池构建方法；和/或

权利要求9所述的确定控制系统执行的动作的方法。