CN110020728A

CN110020728A - 业务模型强化学习方法以及装置

Info

Publication number: CN110020728A
Application number: CN201811589792.5A
Authority: CN
Inventors: 韩伟伟; 周扬; 任建伟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-07-16
Anticipated expiration: 2038-12-25
Also published as: CN110020728B

Abstract

本申请提供业务模型强化学习方法以及装置，所述业务模型强化学习方法，包括：获取业务样本；基于所述业务样本对初始业务模型进行强化学习，获得目标业务模型；所述初始业务模型基于执行业务操作所依赖的业务策略曲线构建；基于所述目标业务模型生成执行所述业务操作所依赖的目标业务策略曲线。本申请提供的业务模型强化学习方法，在采用曲线业务策略基础上引入强化学习进行优化调整，从而提升业务执行的有效性，尽可能达到设定的业务目标，获得更好的业务执行效果。

Description

业务模型强化学习方法以及装置

技术领域

本申请涉及强化学习技术领域，特别涉及一种业务模型强化学习方法。本申请同时涉及一种业务模型强化学习装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着网络技术和电子商务快速发展，网络平台已成为用户进行日常消费的重要工具，企业也逐渐将更多的营销资源投入到互联网营销中，来适应用户行为的变化。在推荐系统或营销方案中，往往会涉及到多个阀值的策略，但这些策略本质上可能是不合理的，因为对于所有样本而言，不一定都是统一的阀值。

现有技术在使用推荐策略时，即使用推荐模型时，往往是采用固定阀值的推荐策略，统一批样本使用同样的阈值。但在样本量比较大的情况下，由于样本之间的巨大差异，不同样本使用统一阀值将无法得到好的推荐效果。

发明内容

有鉴于此，本申请实施例提供了一种业务模型强化学习方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种业务模型强化学习装置，一种计算设备，以及一种计算机可读存储介质。

本申请实施例公开了一种业务模型强化学习方法，包括：

获取业务样本；

基于所述业务样本对初始业务模型进行强化学习，获得目标业务模型；所述初始业务模型基于执行业务操作所依赖的业务策略曲线构建；

基于所述目标业务模型生成执行所述业务操作所依赖的目标业务策略曲线。

可选的，所述业务样本包括：历史时间段内的业务样本；

相应的，所述基于所述业务样本对初始业务模型进行强化学习，获得目标业务模型，包括：

基于所述历史时间段内的业务样本，对所述初始业务模型进行强化学习，强化学习之后获得所述业务样本对应的学习奖励；

判断所述学习奖励是否大于或者等于目标奖励；

若是，将所述学习奖励对应的业务样本作为最优业务样本，并将基于所述最优业务样本进行强化学习之后的业务模型作为所述目标业务模型。

可选的，所述业务样本包括：历史时间段内的业务样本；

基于所述历史时间段内的业务样本，对所述初始业务模型进行强化学习，获得所述业务样本对应的学习奖励；

将所述历史时间段内学习奖励最高的业务样本作为最优业务样本；

将所述最优业务样本对所述初始业务模型进行强化学习之后的业务模型，作为所述目标业务模型。

可选的，所述获取业务样本步骤执行之后，且所述基于所述业务样本对初始业务模型进行强化学习，获得目标业务模型步骤执行之前，包括：

确定在基准执行条件下执行所述业务操作的业务执行目标。

可选的，所述基于所述业务样本对初始业务模型进行强化学习，获得目标业务模型，包括：

基于所述业务样本对初始业务模型进行强化学习，强化学习之后获得业务模型；

基于所述业务模型生成执行所述业务操作的强化业务策略曲线；

判断按照所述强化业务策略曲线执行所述业务操作的业务执行结果是否满足所述业务执行目标；

若是，将所述强化学习之后获得业务模型作为所述目标业务模型。

可选的，所述基于所述目标业务模型生成执行所述业务操作所依赖的目标业务策略曲线，包括：

根据所述目标业务模型确定所述业务策略曲线的目标参数；

基于所述目标参数和所述业务策略曲线的曲线表达式，确定所述目标业务策略曲线。

可选的，所述初始业务模型，采用如下方式构建：

确定所述业务策略曲线涉及的业务数据；

对所述业务数据进行预处理；

基于所述预处理后的业务数据以及所述业务策略曲线的曲线表达式，构建所述初始业务模型。

可选的，所述业务数据，包括下述至少一项：

业务操作、业务操作的执行条件、业务操作的执行结果。

可选的，所述曲线表达式的底数包括所述业务操作，所述业务操作的执行结果为所述曲线表达式中所述底数对应指数的一个组成部分。

可选的，所述基于所述目标业务模型生成执行所述业务操作所依赖的目标业务策略曲线步骤执行之后，包括：

按照所述目标业务策略曲线确定的业务策略阈值执行所述业务操作。

本申请还提供一种业务模型强化学习装置，包括：

业务样本获取模块，被配置为获取业务样本；

强化学习模块，被配置为基于所述业务样本对初始业务模型进行强化学习，获得目标业务模型；所述初始业务模型基于执行业务操作所依赖的业务策略曲线构建；

业务策略曲线生成模块，被配置为基于所述目标业务模型生成执行所述业务操作所依赖的目标业务策略曲线。

可选的，所述业务样本包括：历史时间段内的业务样本；

相应的，所述强化学习模块，包括：

第一强化学习子模块，被配置为基于所述历史时间段内的业务样本，对所述初始业务模型进行强化学习，强化学习之后获得所述业务样本对应的学习奖励；

学习奖励判断子模块，被配置为判断所述学习奖励是否大于或者等于目标奖励；若是，运行第一目标业务模型确定子模块；

所述第一目标业务模型确定子模块，被配置为将所述学习奖励对应的业务样本作为最优业务样本，并将基于所述最优业务样本进行强化学习之后的业务模型作为所述目标业务模型。

可选的，所述业务样本包括：历史时间段内的业务样本；

相应的，所述强化学习模块，包括：

第二强化学习子模块，被配置为基于所述历史时间段内的业务样本，对所述初始业务模型进行强化学习，获得所述业务样本对应的学习奖励；

最优业务样本确定子模块，被配置为将所述历史时间段内学习奖励最高的业务样本作为最优业务样本；

第二目标业务模型确定子模块，被配置为将所述最优业务样本对所述初始业务模型进行强化学习之后的业务模型，作为所述目标业务模型。

可选的，所述业务模型强化学习装置，包括：

业务执行目标确定模块，被配置为确定在基准执行条件下执行所述业务操作的业务执行目标。

可选的，所述强化学习模块，包括：

第三强化学习子模块，被配置为基于所述业务样本对初始业务模型进行强化学习，强化学习之后获得业务模型；

强化业务策略曲线生成子模块，被配置为基于所述业务模型生成执行所述业务操作的强化业务策略曲线；

业务执行结果判断子模块，被配置为判断按照所述强化业务策略曲线执行所述业务操作的业务执行结果是否满足所述业务执行目标；若是，运行第三目标业务模型确定子模块；

所述第三目标业务模型确定子模块，被配置为将所述强化学习之后获得业务模型作为所述目标业务模型。

本申请还提供一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

获取业务样本；

本申请还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现上述业务模型强化学习方法的步骤。

与现有技术相比，本申请具有如下优点：

本申请提供一种业务模型强化学习方法，包括：获取业务样本；基于所述业务样本对初始业务模型进行强化学习，获得目标业务模型；所述初始业务模型基于执行业务操作所依赖的业务策略曲线构建；基于所述目标业务模型生成执行所述业务操作所依赖的目标业务策略曲线。

本申请提供的业务模型强化学习方法，通过采用曲线业务策略的方式，使不同业务样本获得不同的业务策略，并在采用曲线业务策略基础上，进一步引入强化学习对执行业务操作所依赖的业务策略曲线进行优化调整，从而提升业务执行的有效性，尽可能达到设定的业务目标，获得更好的业务执行效果。

附图说明

图1是本申请实施例提供的一种业务模型强化学习方法处理流程图；

图2是本申请实施例提供的一种业务模型强化学习方法在推荐模型应用的处理流程图；

图3是本申请实施例提供的一种业务模型强化学习装置的示意图；

图4是本申请实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请提供一种业务模型强化学习方法，本申请还提供一种业务模型强化学习装置，一种计算设备，以及一种计算机可读存储介质。以下分别结合本申请提供的实施例的附图逐一进行详细说明，并且对方法的各个步骤进行说明。

本申请提供的一种业务模型强化学习方法实施例如下：

参照附图1，其示出了本实施例提供的一种业务模型强化学习方法处理流程图，参照附图2，其示出了本申请实施例提供的一种业务模型强化学习方法在推荐模型应用的处理流程图。

本申请提供的业务模型强化学习方法，包括：

步骤S102，获取业务样本。

在业务系统或营销方案中，往往会涉及到多个阀值的策略，但这些策略本质上可能是不合理的，因为对于不同的样本而言，其阈值可能各不相同。以推荐场景为例，推荐场景下的推荐策略，采用“动态”或者“曲线”的阈值作为推荐策略的评判标准，针对不同的特征点匹配不同的阈值，这种“动态”或者“曲线”的推荐策略以及策略评判的过程可称之为曲线推荐策略。

在实际应用中，将曲线推荐策略应用到推荐场景中进行推荐，往往会带来更好的推荐效果，比如在推荐场景下，针对交易金额(e)、推荐准确率(x)和推荐评价阈值(y)，采用y＝e^(ax+b)这一曲线的形式往往会带来更好的推荐效果，这其中，a和b是需要求解的值。

本申请提供的业务模型强化学习方法，以推荐场景为例，在推荐场景中提出曲线推荐策略的解决方案，用以代替目前的固定阈值推荐策略，使得每个样本都能得到不同的推荐阈值，从而在推荐次数更少的情况下获得更高的用户点击率；在此基础上引入强化学习方法，通过强化学习对曲线推荐策略进行优化调整，并且是根据推荐方的推荐要求对曲线推荐策略进行完善，从而达成更好的推荐效果。

需要说明的是，所述业务模型强化学习方法还可以应用到所述推荐场景之外的其他业务场景，比如业务监控场景、交易支付场景等，所述业务模型强化学习方法应用到所述推荐场景之外的其他业务场景的具体实施方式，与本申请实施例提供的在推荐场景下的实施方式类型，参照本申请实施例的对应说明即可。

本申请实施例所述业务样本，是指以往进行业务执行所产生的业务样本。所述业务样本可以是历史时间段内的业务样本。例如，在推荐场景下，获取过去1个月内的推荐样本；具体的，推荐样本包含的参数有：交易金额、推荐次数和推荐准确率。

实际应用中，在获取到业务样本之后，并且在下述基于获取的业务样本对所述初始业务模型进行强化学习之前，还可以确定强化学习的学习目标，比如推荐场景下，用户每天接受推荐的次数是有限的，在有限的推荐次数的情况下，将是否能在这些推荐次数的情况下有更高触发推荐的概率作为一个衡量标准。

本申请实施例提供的一种优选实施方式中，设定的所述强化学习的学习目标为：在基准执行条件下执行所述业务操作的业务执行目标，也即是说，下述基于获取到的业务样本对初始业务模型进行强化学习的过程中，至少有一次强化学习的结果能够满足设定的学习目标，才能终止强化学习过程。例如，在推荐场景下，强化学习的学习目标为：在特定推荐次数下执行推荐操作的推荐准确率目标值。

步骤S104，基于所述业务样本对初始业务模型进行强化学习，获得目标业务模型。

需要说明的是，所述初始业务模型是基于执行业务操作所依赖的业务策略曲线构建的。具体的，本申请实施例提供的一种优选实施方式中，所述初始业务模型，采用如下方式构建：

1)确定所述业务策略曲线涉及的业务数据。

本申请实施例所述业务数据包括：业务操作、业务操作的执行条件、业务操作的执行结果。

例如，在推荐场景下，推荐策略曲线涉及的推荐数据包括交易金额、推荐次数以及推荐准确率。此外，推荐策略曲线涉及的推荐数据中包含交易金额，还可以是商户的用户规模、注册时间、销售额等，本实施例对此不做限定。

2)对所述业务数据进行预处理。

例如，在推荐场景下，对推荐策略曲线涉及的推荐数据中包含交易金额进行归一化处理。

3)基于所述预处理后的业务数据以及所述业务策略曲线的曲线表达式，构建所述初始业务模型。

优选的，所述曲线表达式的底数包括所述业务操作，所述业务操作的执行结果为所述曲线表达式中所述底数对应指数的一个组成部分。

例如，在推荐场景下，基于交易金额、推荐准确率和推荐评价阈值构建的曲线表达式为y＝e^(ax+b)，其中，底数e为交易金额，指数当中的a为推荐准确率，y为推荐评价阈值，a和b是需要求解的值。在曲线表达式y＝e^(ax+b)的基础上，构建初始推荐模型，后续根据获得的推荐样本对初始推荐模型进行强化学习，通过在强化学习过程中调整a和b，使得推荐策略曲线左右平移、上下平移以及缩放，以期获得最优的推荐模型，即目标推荐模型。

本申请实施例提供的第一种优选实施方式中，在上述历史时间段内的业务样本的基础上，基于所述业务样本对所述初始业务模型进行强化学习，获得目标业务模型，具体包括：

1)基于所述历史时间段内的业务样本，对所述初始业务模型进行强化学习，强化学习之后获得所述业务样本对应的学习奖励；

2)判断所述学习奖励是否大于或者等于目标奖励；

若是，将所述学习奖励对应的业务样本作为最优业务样本，并将基于所述最优业务样本进行强化学习之后的业务模型作为所述目标业务模型；

若否，则继续执行针对所述初始业务模型进行强化学习的过程。

沿用上例，在推荐场景下，获取过去30天内的推荐样本，基于推荐样本对初始推荐模型进行强化学习，每次强化学习之后获得相应的学习奖励；并进一步判断每次强化学习之后的学习奖励是否大于或者等于目标奖励，若某次强化学习之后获得的学习奖励大于或者等于目标奖励，则将该次强化学习对应的推荐样本作为最优推荐样本，并将该次强化学习之后的推荐模型作为最优推荐模型，即目标推荐模型；若该次强化学习之后的学习奖励小于目标奖励，则继续强化学习过程，直至获得目标推荐模型。

本申请实施例提供的第二种优选实施方式中，在上述历史时间段内的业务样本的基础上，基于所述业务样本对所述初始业务模型进行强化学习，获得目标业务模型，具体实现如下：

1)基于所述历史时间段内的业务样本，对所述初始业务模型进行强化学习，获得所述业务样本对应的学习奖励；

2)将所述历史时间段内学习奖励最高的业务样本作为最优业务样本；

3)将所述最优业务样本对所述初始业务模型进行强化学习之后的业务模型，作为所述目标业务模型。

沿用上例，在推荐场景下，获取过去30天内的推荐样本，基于推荐样本对初始推荐模型进行强化学习，并记录每次强化学习之后获得的学习奖励；确定过去30天内学习奖励最高的一次强化学习，将该次学习奖励对应的推荐样本作为最优推荐样本；并且，将该最优推荐样本对应的强化学习之后的推荐模型，作为最优推荐模型，即目标推荐模型。

本申请实施例提供的第三种优选实施方式中，根据上述业务样本对所述初始业务模型进行强化学习，获得目标业务模型，具体包括：

1)基于所述业务样本对初始业务模型进行强化学习，强化学习之后获得业务模型；

2)基于所述业务模型生成执行所述业务操作的强化业务策略曲线；

3)判断按照所述强化业务策略曲线执行所述业务操作的业务执行结果是否满足所述业务执行目标；

若是，将所述强化学习之后获得业务模型作为所述目标业务模型；

若否，则继续执行针对所述初始业务模型的强化学习过程。

例如，在推荐场景下，强化学习的学习目标为：在特定推荐次数下执行推荐操作的推荐准确率目标值。在此，根据推荐样本对初始推荐模型进行强化学习，每次强化学习的过程即是指对初始推荐模型的模型参数进行调整的过程，也即是指对初始推荐模型构建所依据的曲线表达式y＝e^(ax+b)中参数a和b的调整的过程；可见，每次强化学习之后初始推荐模型的模型参数都会更新，基于更新后的模型参数会获得新的推荐模型。

进一步，基于每次强化学习后获得的推荐模型，生成该推荐模型对应的强化推荐策略曲线；然后判断在上述特定推荐次数下按照强化推荐策略曲线执行推荐操作的推荐准确率是否大于或者等于推荐准确率目标值，若是，表明强化学习已经使特定推荐次数下的推荐准确率达到目标值，强化学习目标已完成，则将该次强化学习之后的推荐模型作为最优推荐模型，即目标推荐模型；若否，则继续强化学习过程，直至获得目标推荐模型。

步骤S106，基于所述目标业务模型生成执行所述业务操作所依赖的目标业务策略曲线。

上述步骤基于获取到的业务样本对所述初始业务模型进行强化学习，获得所述目标业务模型之后，根据上述强化学习获得的所述目标业务模型，生成执行所述业务操作所依赖的目标业务策略曲线。优选的，生成执行所述业务操作所依赖的目标业务策略曲线，具体包括根据所述目标业务模型确定所述业务策略曲线的目标参数，并基于所述目标参数和所述业务策略曲线的曲线表达式，确定所述目标业务策略曲线。

本申请实施例提供的一种优选实施方式中，上述基于所述目标业务模型生成执行所述业务操作所依赖的目标业务策略曲线之后，按照所述目标业务策略曲线确定的业务策略阈值执行所述业务操作。在业务操作过程中，通过应用所述模型强化学习方法，根据目标的要求选择可靠的业务策略曲线，使得每个样本都能得到不同的业务策略，无需人工针对每个样本去选择业务策略。

进一步，还可以将所述模型强化学习方法接入自动化业务系统，自动化业务系统上线后，能够自动完成业务策略的选择，使自动化业务系统的处理更加高效。

下述结合附图2，以本申请提供的模型强化学习方法在推荐模型的应用为例进行说明：

步骤S202，获取进行推荐的推荐数据。

推荐数据具体包括交易金额、推荐次数以及推荐准确率。

步骤S204，对推荐数据进行预处理。

具体是对推荐数据中包含的交易金额进行归一化处理。

步骤S206，基于预处理后的推荐数据以及推荐策略曲线的曲线表达式，构建初始推荐模型。

具体的，基于交易金额、推荐准确率和推荐评价阈值构建的曲线表达式为y＝e^(ax+b)，其中，e为交易金额，a为推荐准确率，y为推荐评价阈值，a和b是需要求解的值；在曲线表达式y＝e^(ax+b)的基础上，构建初始推荐模型。

步骤S208，基于推荐样本对初始推荐模型进行强化学习，获得强化学习的学习奖励。

根据历史时间段内的推荐样本对初始推荐模型进行强化学习，通过在强化学习过程中调整a和b，使得推荐策略曲线左右平移、上下平移以及缩放，以期获得最优的推荐模型，即目标推荐模型。

步骤S210，通过判断强化学习获得的学习奖励是否大于或者等于目标奖励，来判断强化学习获得的学习奖励是否为最优奖励；

若是，则将该次强化学习获得的学习奖励作为最优奖励，该次强化学习之后获得的推荐模型作为最优推荐模型，即目标推荐模型；并执行下述步骤S212，保存目标推荐模型；

若否，继续执行针对初始推荐模型进行强化学习的过程，继续对初始推荐模型的模型参数的调整，直至获得目标推荐模型。

步骤S212，保存目标推荐模型。

步骤S214，生成目标推荐模型对应的目标推荐策略曲线。

综上所述，本申请提供的业务模型强化学习方法，通过采用曲线业务策略的方式，使不同业务样本获得不同的业务策略，并在采用曲线业务策略基础上，进一步引入强化学习对执行业务操作所依赖的业务策略曲线进行优化调整，从而提升业务执行的有效性，尽可能达到设定的业务目标，获得更好的业务执行效果。

本申请提供的一种业务模型强化学习装置实施例如下：

在上述的实施例中，提供了一种业务模型强化学习方法，与之相对应的，本申请还提供了一种业务模型强化学习装置，下面结合附图进行说明。

参照附图3，其示出了本申请提供的一种业务模型强化学习装置实施例的示意图。

由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

本申请提供一种业务模型强化学习装置，包括：

业务样本获取模块302，被配置为获取业务样本；

强化学习模块304，被配置为基于所述业务样本对初始业务模型进行强化学习，获得目标业务模型；所述初始业务模型基于执行业务操作所依赖的业务策略曲线构建；

业务策略曲线生成模块306，被配置为基于所述目标业务模型生成执行所述业务操作所依赖的目标业务策略曲线。

可选的，所述业务样本包括：历史时间段内的业务样本；

相应的，所述强化学习模块304，包括：

可选的，所述业务样本包括：历史时间段内的业务样本；

相应的，所述强化学习模块304，包括：

可选的，所述业务模型强化学习装置，包括：

可选的，所述强化学习模块304，包括：

可选的，所述业务策略曲线生成模块306，包括：

目标参数确定子模块，被配置为根据所述目标业务模型确定所述业务策略曲线的目标参数；

业务策略曲线确定子模块，被配置为基于所述目标参数和所述业务策略曲线的曲线表达式，确定所述目标业务策略曲线。

可选的，所述初始业务模型，通过运行如下子模块构建：

业务数据确定子模块，被配置为确定所述业务策略曲线涉及的业务数据；

预处理子模块，被配置为对所述业务数据进行预处理；

初始业务模型构建子模块，被配置为基于所述预处理后的业务数据以及所述业务策略曲线的曲线表达式，构建所述初始业务模型。

可选的，所述业务数据，包括下述至少一项：

业务操作、业务操作的执行条件、业务操作的执行结果。

可选的，所述业务模型强化学习装置，包括：

业务操作执行模块，被配置为按照所述目标业务策略曲线确定的业务策略阈值执行所述业务操作。

本申请提供的一种计算设备实施例如下：

图4是示出了根据本说明书一实施例的计算设备400的结构框图。该计算设备400的部件包括但不限于存储器410和处理器420。处理器420与存储器410通过总线430相连接，数据库450用于保存数据。

计算设备400还包括接入设备440，接入设备440使得计算设备400能够经由一个或多个网络460通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备400的上述以及图4中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图4所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备400可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备400还可以是移动式或静止式的服务器。

本申请提供一种计算设备，包括存储器410、处理器420及存储在存储器上并可在处理器上运行的计算机指令，所述处理器420用于执行如下计算机可执行指令：

获取业务样本；

可选的，所述业务样本包括：历史时间段内的业务样本；

判断所述学习奖励是否大于或者等于目标奖励；

可选的，所述业务样本包括：历史时间段内的业务样本；

可选的，所述获取业务样本指令执行之后，且所述基于所述业务样本对初始业务模型进行强化学习，获得目标业务模型指令执行之前，所述处理器420还用于执行如下计算机可执行指令：

确定在基准执行条件下执行所述业务操作的业务执行目标。

根据所述目标业务模型确定所述业务策略曲线的目标参数；

可选的，所述初始业务模型，采用如下方式构建：

确定所述业务策略曲线涉及的业务数据；

对所述业务数据进行预处理；

可选的，所述业务数据，包括下述至少一项：

业务操作、业务操作的执行条件、业务操作的执行结果。

可选的，所述基于所述目标业务模型生成执行所述业务操作所依赖的目标业务策略曲线指令执行之后，所述处理器420还用于执行如下计算机可执行指令：

本申请提供的一种计算机可读存储介质实施例如下：

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如下：

获取业务样本；

可选的，所述业务样本包括：历史时间段内的业务样本；

判断所述学习奖励是否大于或者等于目标奖励；

可选的，所述业务样本包括：历史时间段内的业务样本；

确定在基准执行条件下执行所述业务操作的业务执行目标。

根据所述目标业务模型确定所述业务策略曲线的目标参数；

可选的，所述初始业务模型，采用如下方式构建：

确定所述业务策略曲线涉及的业务数据；

对所述业务数据进行预处理；

可选的，所述业务数据，包括下述至少一项：

业务操作、业务操作的执行条件、业务操作的执行结果。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的业务模型强化学习方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述业务模型强化学习方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种业务模型强化学习方法，其特征在于，包括：

获取业务样本；

2.根据权利要求1所述的业务模型强化学习方法，其特征在于，所述业务样本包括：历史时间段内的业务样本；

判断所述学习奖励是否大于或者等于目标奖励；

3.根据权利要求1所述的业务模型强化学习方法，其特征在于，所述业务样本包括：历史时间段内的业务样本；

4.根据权利要求1所述的业务模型强化学习方法，其特征在于，所述获取业务样本步骤执行之后，且所述基于所述业务样本对初始业务模型进行强化学习，获得目标业务模型步骤执行之前，包括：

确定在基准执行条件下执行所述业务操作的业务执行目标。

5.根据权利要求4所述的业务模型强化学习方法，其特征在于，所述基于所述业务样本对初始业务模型进行强化学习，获得目标业务模型，包括：

6.根据权利要求1至5任意一项所述的业务模型强化学习方法，其特征在于，所述基于所述目标业务模型生成执行所述业务操作所依赖的目标业务策略曲线，包括：

根据所述目标业务模型确定所述业务策略曲线的目标参数；

7.根据权利要求1所述的业务模型强化学习方法，其特征在于，所述初始业务模型，采用如下方式构建：

确定所述业务策略曲线涉及的业务数据；

对所述业务数据进行预处理；

8.根据权利要求7所述的业务模型强化学习方法，其特征在于，所述业务数据，包括下述至少一项：

业务操作、业务操作的执行条件、业务操作的执行结果。

9.根据权利要求6至8任意一项所述的业务模型强化学习方法，其特征在于，所述曲线表达式的底数包括所述业务操作，所述业务操作的执行结果为所述曲线表达式中所述底数对应指数的一个组成部分。

10.根据权利要求1所述的业务模型强化学习方法，其特征在于，所述基于所述目标业务模型生成执行所述业务操作所依赖的目标业务策略曲线步骤执行之后，包括：

11.一种业务模型强化学习装置，其特征在于，包括：

业务样本获取模块，被配置为获取业务样本；

12.根据权利要求11所述的业务模型强化学习装置，其特征在于，所述业务样本包括：历史时间段内的业务样本；

相应的，所述强化学习模块，包括：

13.根据权利要求11所述的业务模型强化学习装置，其特征在于，所述业务样本包括：历史时间段内的业务样本；

相应的，所述强化学习模块，包括：

14.根据权利要求11所述的业务模型强化学习装置，其特征在于，包括：

15.根据权利要求14所述的业务模型强化学习装置，其特征在于，所述强化学习模块，包括：

16.一种计算设备，其特征在于，包括：

存储器和处理器；

获取业务样本；

17.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至10任意一项所述方法的步骤。