CN111445032B

CN111445032B - 利用业务决策模型进行决策处理的方法及装置

Info

Publication number: CN111445032B
Application number: CN202010537464.1A
Authority: CN
Inventors: 尹红军; 王力; 周俊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-10-09
Anticipated expiration: 2040-06-12
Also published as: CN111445032A

Abstract

本说明书实施例提供一种利用业务决策模型进行决策处理的方法及装置。在该方法中，服务平台可以获取第一业务处理请求，确定第一业务处理请求的第一业务特征；将第一业务特征输入利用强化学习得到的业务决策模型，得到第一业务处理请求针对多个决策行为的第一得分分布；利用多个历史业务处理请求，确定针对第一业务处理请求的决策干预系数，利用决策干预系数，对第一得分分布进行干预处理，得到针对多个决策行为的第二得分分布；基于第二得分分布，从多个决策行为中确定针对第一业务处理请求的决策行为。

Description

利用业务决策模型进行决策处理的方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习技术领域，尤其涉及一种利用业务决策模型进行决策处理的方法及装置。

背景技术

服务平台可以向用户提供各种服务，其中包括支付服务、访问服务等，例如支付平台向用户提供对商家的支付服务、转账支付服务等，网站平台向用户提供的网站访问服务等。服务平台为了减少服务中存在的风险，可以对针对各种服务的业务处理请求进行风险评估，确定针对该业务处理请求实施怎样的处理决策，例如是应该拦截、警告、提醒还是直接放行等等。并且，服务平台在一定时间内会接收到很多的业务处理请求，在整体上，服务平台会希望针对大量的业务处理请求，在各个决策行为上的占比基本固定，比如要求拦截占10%，警告占20%，提醒占30%，直接放行占40%。

因此，希望能有改进的方案，可以更加有效地对每个业务处理请求进行决策，使得大量决策在整体上满足预定的决策行为分布。

发明内容

本说明书一个或多个实施例描述了利用业务决策模型进行决策处理的方法及装置，以更加有效地对每个业务处理请求进行决策，使得大量决策在整体上满足预定的决策行为分布。具体的技术方案如下。

第一方面，实施例提供了一种利用业务决策模型进行决策处理的方法，通过服务平台执行，所述方法包括：

获取第一业务处理请求，确定所述第一业务处理请求的第一业务特征；

将所述第一业务特征输入利用强化学习得到的业务决策模型，得到所述第一业务处理请求针对多个决策行为的第一得分分布；

利用多个历史业务处理请求，确定针对所述第一业务处理请求的决策干预系数，其包含针对所述多个决策行为的干预系数分布；

利用所述决策干预系数，对所述第一得分分布进行干预处理，得到针对所述多个决策行为的第二得分分布；

基于所述第二得分分布，从所述多个决策行为中确定针对所述第一业务处理请求的决策行为。

在一种实施方式中，所述利用所述决策干预系数，对所述第一得分分布进行干预处理的步骤，包括：

针对所述第一得分分布中每个决策行为的第一得分，基于所述第一得分与所述决策干预系数中该决策行为对应的干预系数的乘积，得到该决策行为对应的第二得分，进而得到针对所述多个决策行为的第二得分分布。

在一种实施方式中，所述基于所述第二得分分布，从所述多个决策行为中确定针对所述第一业务处理请求的决策行为的步骤，包括：

基于所述第二得分分布，利用贪婪算法，确定所述第一业务处理请求针对所述多个决策行为的收益分布；

基于所述收益分布，从所述多个决策行为中确定针对所述第一业务处理请求的决策行为。

在一种实施方式中，所述利用多个历史业务处理请求，确定针对所述第一业务处理请求的决策干预系数的步骤，包括：

将所述第一业务特征输入预先训练的决策系数模型，得到所述第一业务处理请求针对所述多个决策行为的第三得分分布；其中，所述决策系数模型基于对多个历史业务处理请求，以及每个历史业务处理请求针对多个决策行为的得分分布进行训练得到；

基于所述第三得分分布确定针对所述第一业务处理请求的决策干预系数。

在一种实施方式中，所述决策系数模型采用以下方式训练得到：

将所述多个历史业务处理请求确定为训练样本；其中，所述多个历史业务处理请求对应的业务特征为样本特征，每个历史业务处理请求针对多个决策行为的得分分布为对应的训练样本的样本标签；

将所述训练样本的样本特征输入决策系数模型，得到所述训练样本针对所述多个决策行为的预测得分分布；

基于所述预测得分分布与对应的样本标签中的得分分布之间的差异，确定损失值；

向减小所述损失值的方向，更新所述决策系数模型。

获取采用以下方式确定的决策干预系数，作为针对所述第一业务处理请求的决策干预系数：

获取针对每个历史业务处理请求的决策行为；

在多个历史业务处理请求及对应的决策行为中，统计每一种决策行为对应的历史业务处理请求的数目，得到多个决策行为的分布数据；

对所述多个决策行为的分布数据进行归一化，得到决策干预系数。

在一种实施方式中，第一业务处理请求包括：支付交易请求或访问请求。

在一种实施方式中，所述第一业务特征包括支付方特征、被支付方特征、支付场景特征中的至少一种；或者，所述第一业务特征包括访问方特征、被访问方特征、访问场景特征中的至少一种；所述多个决策行为包括以下中的至少两种：拦截、警告、提醒、直接放行。

在一种实施方式中，所述业务决策模型采用基于上下文的多臂老虎机模型或者模型DQN训练得到。

在一种实施方式中，所述决策系数模型采用以下模型中的一种实现：逻辑回归模型、梯度提升迭代决策树GBDT、模型XGB和深度神经网络DNN模型。

第二方面，实施例提供了一种利用业务决策模型进行决策处理的装置，部署在服务平台中，所述装置包括：

请求获取模块，配置为，获取第一业务处理请求，确定所述第一业务处理请求的第一业务特征；

得分确定模块，配置为，将所述第一业务特征输入利用强化学习得到的业务决策模型，得到第一业务处理请求针对多个决策行为的第一得分分布；

系数确定模块，配置为，利用多个历史业务处理请求，确定针对所述第一业务处理请求的决策干预系数，其包含针对多个决策行为的干预系数分布；

得分干预模块，配置为，利用所述决策干预系数，对所述第一得分分布进行干预处理，得到针对所述多个决策行为的第二得分分布；

决策确定模块，配置为基于所述第二得分分布，从所述多个决策行为中确定针对所述第一业务处理请求的决策行为。

在一种实施方式中，所述得分干预模块，具体配置为：

在一种实施方式中，所述决策确定模块，具体配置为：

在一种实施方式中，所述系数确定模块，具体配置为：

在一种实施方式中，还包括模型训练模块，配置为采用以下方式训练得到所述决策系数模型：

向减小所述损失值的方向，更新所述决策系数模型。

在一种实施方式中，所述系数确定模块，具体配置为：

获取针对每个历史业务处理请求的决策行为；

第三方面，实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面中任一项的所述的方法。

第四方面，实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面中任一项所述的方法。

根据本说明书实施例提供的方法及装置，通过在每个业务处理请求的得分分布上叠加决策干预系数，使得针对多个决策行为的得分分布能够受到决策干预系数的干预，根据干预之后的得分分布确定决策行为，能够使得针对大量的业务处理请求的决策行为，符合历史业务处理请求的决策行为的分布，而历史业务处理请求在整体上满足预定的决策行为分布。因此，本说明书实施例能够更加有效地对每个业务处理请求进行决策，使得大量决策在整体上满足预定的决策行为分布。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2为一个实施例中利用业务决策模型进行决策处理的方法流程示意图；

图3为一个实施例中强化学习模型的结构示意图；

图4为一个实施例中基于历史业务处理请求得到决策干预系数的示意图；

图5为一种业务决策模型的结构示意图；

图6为图2中步骤S230的一种流程示意图；

图7为一个实施例中利用业务决策模型进行决策处理的装置示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。服务平台可以向被服务方提供各种服务，被服务方包括用户、商户或其他组织。服务平台的种类很多，包括提供资源转移类的服务平台，例如提供资金或各种币种的转移类的服务平台，以及提供内容的服务平台，例如各种可供访问的网站等。被服务方可以触发服务平台中的业务处理请求，以使用服务平台提供的服务。被服务方可以通过客户端或者其中的浏览器触发上述业务处理请求，例如被服务方可以通过客户端提交支付请求，或者通过浏览器触发针对某个网站的访问请求。业务处理请求包括支付交易请求和访问请求等。

服务平台为了减少服务中存在的风险或为了降低成本，可以针对某种服务的业务处理请求进行风险评估，确定针对该业务处理请求实施怎样的处理决策，例如是应该拦截、警告、提醒还是直接放行等等。并且，服务平台在一定时间内会接收到很多的业务处理请求，在整体上，服务平台会希望针对大量的业务处理请求，在各个决策行为上的占比基本固定，比如要求拦截占10%，警告占20%，提醒占30%，直接放行占40%。当然，上述针对业务处理请求的决策行为仅仅是一种举例，实际应用中的决策行为可以包括其他种类，决策行为的数量可以是两种，也可以是三种或五种，并不限定包含拦截、警告、提醒、直接放行这四种。

服务平台在接收到业务处理请求时，可以采用常规方式确定该业务处理请求在多个决策行为上的得分分布，根据得分分布从多个决策行为中确定该业务处理请求的决策行为。但是，采用这种方式确定决策行为，从整体上来看，大量业务处理请求的决策行为分布可能会偏离预定的决策行为分布。

为了更加有效地对每个业务处理请求进行决策，使得大量决策在整体上满足预定的决策行为分布，本说明书实施例提供了一种决策处理方法。该方法在获取业务处理请求之后，将业务特征输入业务决策模型，得到业务处理请求针对多个决策行为的得分分布，并利用根据多个历史业务处理请求确定的针对该业务处理请求的决策干预系数，对上述得分分布进行干预处理，得到干预后的得分分布，基于干预后的得分分布确定针对该业务处理请求的决策行为。业务处理请求可以是被服务方通过客户端或浏览器触发的，服务平台在确定决策行为之后，可以将其通过客户端或浏览器反馈给被服务方。例如，可以针对支付请求，反馈支付成功或者支付有风险的提醒等。通过在得分分布上叠加决策干预系数，对每个业务处理请求的决策过程进行干预，这样能够有效地使针对大量的业务处理请求确定的决策行为符合预定的决策行为分布。下面详细介绍本说明书实施例的实施方案。

图2为一个实施例中利用业务决策模型进行决策处理的方法流程示意图。在介绍该实施例时，将结合图1进行说明。该方法通过服务平台执行，该服务平台可以是各种具有计算处理能力的计算机、集群或者设备等。该方法包括以下步骤S210~S250。

步骤S210，获取第一业务处理请求Q1，确定第一业务处理请求Q1的第一业务特征T1。第一业务处理请求Q1可以是大量业务处理请求中的任意一个，例如可以是当前时刻接收到的业务处理请求。第一业务处理请求Q1可以是由客户端或浏览器发送至服务平台，并且该第一业务处理请求Q1可以是被服务方通过客户端或浏览器触发。第一业务处理请求Q1也可以是支付交易请求或访问请求，还可以是其他类型的请求。

当第一业务处理请求Q1是支付交易请求时，其可以携带以下信息：支付方标识、被支付方标识、支付额度、支付类型等，还可以携带支付场景特征等，即与客户端或浏览器所在设备相关的场景，例如客户端版本、客户端所使用网络是无线网络还是移动网络，是4G网络、5G网络还是无线局域网（WLAN）、无线保真（Wifi）网络等。在确定第一业务处理请求Q1的第一业务特征T1时，可以根据其携带的信息确定，所确定的第一业务特征T1可以包括支付方特征、被支付方特征、支付场景特征中的至少一种。其中，支付方特征、被支付方特征可以采用多维向量表示。当被服务方为用户时，支付方特征可以包括基本用户特征，例如用户的年龄、性别和学历等，支付账户信息，例如支付账户余额、历史支付次数等，以及用户的历史支付行为特征，例如浏览、点击、收藏、购买等行为特征。当被支付方也为用户时，其特征也可以包含上述基本用户特征、支付账户信息和历史支付行为特征等。当被支付方为商家或其他时，被支付方特征还可以包括商家信用特征等。

当第一业务处理请求Q1是访问请求时，其可以携带以下信息：访问方特征、被访问方特征、访问场景特征中的至少一种。当访问方为用户时，访问方特征可以包括基本用户特征和历史访问行为特征，历史访问行为特征可以包括成功访问次数、历史访问总次数等。访问场景特征可以包括与客户端或浏览器所在设备相关的场景，例如客户端版本、客户端所使用网络等。被访问方可以是该服务平台，也可以不是该服务平台，而是在服务平台之外的第三方网站。

在确定第一业务处理请求Q1的第一业务特征T1时，可以基于第一业务处理请求Q1携带的信息，从业务处理请求的历史记录中确定第一业务特征T1。

步骤S220，将第一业务特征T1输入利用强化学习得到的业务决策模型M1，得到第一业务处理请求Q1针对多个决策行为的第一得分分布G1。

多个决策行为可以包括以下中的至少两种：拦截、警告、提醒、直接放行。例如可以包括警告和直接放行，或者包括拦截、警告、提醒和直接放行，或者包括拦截、提醒和直接放行。在实际应用中，决策行为还可以包括其他类型的行为。

其中，第一得分分布G1可以为概率分布，即在各个决策行为上的概率分布，每个概率分布即为一个第一得分。第一得分分布G1也可以不采用概率来表示，例如可以采用预定范围内的整数来表示，这都是可行的。为了方面说明，后续说明中举例时会以采用概率表示进行说明。当决策行为包含n个时，第一得分分布包含n个第一得分，n为大于1的自然数。

业务决策模型M1可以预先基于大量样本，采用强化学习模型训练完成。其中，该样本可以包括多个样本业务处理请求的业务特征。该强化学习模型可以包括基于上下文的多臂老虎机（Contextual MAB）模型和深度Q网络（Deep Q-Learn，DQN）模型等。

强化学习是一种交互反馈式机器学习方法。一般的，强化学习系统包括智能体和执行环境，智能体通过与执行环境的交互和反馈，不断地进行学习，优化其策略。上述业务决策模型M1可以采用以下方式预先训练完成。图3为一个实施例中强化学习模型的结构示意图，具体而言，业务决策模型M1可以包括智能体和执行环境。在训练业务预测模型M1时，将样本业务处理请求S1输入智能体，智能体执行以下操作：基于样本业务处理请求S1的业务特征获取执行环境的状态，例如可以直接将该业务特征作为执行环境的状态，也可以对该业务特征进行一定处理之后得到执行环境的状态；根据一定的策略，针对当前执行环境的状态确定针对该样本业务处理请求S1所要实施的决策行为。这样的决策行为作用于执行环境，会改变执行环境的状态，同时产生一个反馈给智能体，该反馈又称为奖励分数。智能体根据获得的奖励分数来判断，之前的决策行为是否正确，策略是否需要调整，进而更新其策略。通过反复不断地观察状态、确定决策行为、收到反馈，使得智能体可以不断更新策略，最终目标是能够学习到一个策略，使得获得的奖励分数累积最大化。

接下来以支付请求为例来说明执行环境的状态如何变化。样本业务处理请求的业务特征可以包含支付方特征、被支付方特征、支付场景特征等，支付方特征可以包括支付账户信息，例如支付账户余额、历史支付次数等。当确定所实施的决策行为之后，支付方账户信息可能会发生变化，进而使得执行环境的状态发生改变。

在上述训练过程中，智能体根据一定的策略，针对当前执行环境的状态确定针对样本业务处理请求S1所要实施的决策行为的步骤，具体可以包括，根据一定的策略，针对当前执行环境的状态确定该样本业务处理请求S1针对多个决策行为的样本得分分布，基于该样本得分分布，利用贪婪算法，确定该样本业务处理请求S1针对多个决策行为的收益分布，基于该收益分布，从多个决策行为中确定针对该样本业务处理请求S1所实施的决策行为。

在业务决策模型M1训练完成之后，业务决策模型M1基于输入的第一业务特征T1，确定第一业务处理请求Q1针对多个决策行为的第一得分分布G1的步骤可以包括，智能体基于第一业务特征T1确定当前执行环境的状态，并根据训练好的策略，针对当前执行环境的状态，确定第一业务处理请求Q1针对多个决策行为的第一得分分布G1。也就是说，本实施例可以对训练好的业务决策模型M1加以改进，在业务决策模型M1得到第一得分分布G1之后，采用后续步骤对第一得分分布G1进行干预处理。

步骤S230，利用多个历史业务处理请求，确定针对第一业务处理请求Q1的决策干预系数，其包含针对多个决策行为的干预系数分布。

其中，针对多个历史业务处理请求中的每一个，其都可以存在一个用于实施的决策行为，该决策行为是上述多个决策行为中的一个。针对每个历史业务处理请求，也存在该历史业务处理请求针对多个决策行为的得分分布。该历史业务处理请求的用于实施的决策行为，可以根据该得分分布确定。

因此，可以利用与多个历史业务处理请求相关的用于实施的决策行为，或者其针对多个决策行为的得分分布，确定针对第一业务处理请求Q1的决策干预系数。该决策干预系数是一个包含多个干预系数的分布值，可以采用（

）表示，其表示存在n个决策行为，

分别表示决策干预系数包含的针对每个决策行为的干预系数。

图4为一个实施例中基于历史业务处理请求得到决策干预系数的示意图。已知存在m个历史业务处理请求（m为自然数），每个历史业务处理请求在多个决策行为（例如包括拦截、警告、提醒和直接放行）上的得分如图4所示，得分范围在0-1之间，每个历史业务处理请求在各个决策行为的总和为概率1。针对每个历史业务处理请求，其所在行的最右侧标示出其最终用于实施的行为决策。针对最终用于实施的行为决策进行汇总，可以得到m个历史业务处理请求中，各个行为决策的占比。根据这m个历史业务处理请求的相关信息，可以确定第一业务处理请求Q1的决策干预系数，其包含针对多个决策行为拦截、警告、提醒和直接放行的干预系数。

在一种实施方式中，本步骤可以获取采用以下步骤1a~3a确定的决策干预系数，作为针对第一业务处理请求Q1的决策干预系数。

步骤1a，获取针对每个历史业务处理请求的决策行为。该决策行为可以理解为最终用于实施的决策行为。在一种实施方式中，可以获取预先存储的每个历史业务处理请求的决策行为。

步骤2a，在多个历史业务处理请求及对应的决策行为中，统计每一种决策行为对应的历史业务处理请求的数目，得到多个决策行为的分布数据。例如，在100个历史业务处理请求中，统计得到决策行为拦截对应的历史业务处理请求的数目为10个，警告对应的历史业务处理请求的数目为20个，提醒对应的历史业务处理请求的数目为30个，直接放行对应的历史业务处理请求的数目为40个。其10、20、30和40即构成多个决策行为的分布数据。该多个决策行为的分布数据，即可以理解为预设的决策行为分布，是服务平台想要使后续的多个业务处理请求同样遵循的原始决策行为分布。

步骤3a，对多个决策行为的分布数据进行归一化，得到决策干预系数。例如，针对上例中拦截、警告、提醒和直接放行的分布数据10、20、30和40进行归一化，得到决策干预系数（0.1、0.2、0.3、0.4），或者表示为（10%、20%、30%、40%），都是可以的。

在本实施方式中，所确定的决策干预系数可以用于不同的业务处理请求，也就是，多个业务处理请求可以对应于同一决策干预系数，即对应于采用上述方式确定的决策干预系数。在一种实施方式中，可以预先采用上述方式确定决策干预系数，并对其进行存储。当接收到任意一个业务处理请求时，获取预先确定的决策干预系数，作为该任意一个业务处理请求的决策干预系数。

上述决策干预系数，还可以称为KL散度（Kullback–Leibler divergence），是衡量两个概率分布之间差异的指标。在本实施例中，决策干预系数可以体现出预设的决策行为分布与多个未被干预的得分分布之间的差异。

步骤S240，利用决策干预系数，对第一得分分布G1进行干预处理，得到针对多个决策行为的第二得分分布G2。

本步骤中，可以采用以下方式对第一得分分布G1进行干预处理：针对第一得分分布G1中每个决策行为的第一得分，基于第一得分与决策干预系数中该决策行为对应的干预系数的乘积，得到该决策行为对应的第二得分，进而得到针对多个决策行为的第二得分分布G2。

在基于第一得分与决策干预系数中该决策行为对应的干预系数的乘积，得到该决策行为对应的第二得分时，可以直接将该乘积确定为该决策行为对应的第二得分，也可以基于该乘积进行数值范围转换，将其转换至对应的得分范围中，得到对应的第二得分。数值范围转换例如可以为归一化操作等。

例如，仍以多个决策行为包括拦截、警告、提醒和直接放行为例说明，第一得分分布G1例如为（0.2，0.2，0.5，0.1），决策干预系数为（0.1、0.2、0.3、0.4），经过对应相乘可以得到（0.2*0.1，0.2*0.2，0.5*0.3，0.1*0.4），将（0.2*0.1，0.2*0.2，0.5*0.3，0.1*0.4）进行归一化，可以得到第二得分分布G2（0.08，0.16，0.48，0.16）。

使用决策干预系数对第一得分分布G1进行干预处理之后，可以实现对第一得分分布G1的干预，针对多个业务处理请求的第一得分分布进行如此的干预处理，能使得干预之后的多个第二得分分布G2向预设的决策行为分布靠近。也就是，使用决策干预系数进行干预之后，能够缩小针对业务处理请求的干预后的得分分布与预设的决策行为分布之间的差异。

步骤S250，基于第二得分分布G2，从多个决策行为中确定针对第一业务处理请求Q1的决策行为。所确定的决策行为可以为多个决策行为中的一个，所确定的决策行为即为针对第一业务处理请求Q1的最终用于实施的决策行为。

具体的，可以采用以下方式，从多个决策行为中确定针对第一业务处理请求Q1的决策行为：

基于第二得分分布G2，利用贪婪算法，确定第一业务处理请求Q1针对多个决策行为的收益分布，基于该收益分布，从多个决策行为中确定针对第一业务处理请求Q1的决策行为。贪婪算法又可以称为贪心算法，其可以在确定针对第一业务处理请求Q1的决策行为时，总是做出当前看来是最好的选择。

上述步骤S230~S250可以作为业务决策模型M1内部的步骤，也可以作为独立于业务决策模型M1之外的步骤。

下面介绍当业务决策模型M1采用DQN实现时，基于第二得分分布G2，从多个决策行为中确定针对第一业务处理请求Q1的决策行为的过程。在该实施例中，业务决策模型的智能体具体可以包括动作价值Q网络和策略网络，其中Q网络用于基于第二得分分布G2估计多个决策行为中每个决策行为对应的收益，即Q值，策略网络根据各个决策行为对应的Q值，采用贪婪算法确定当前针对Q1的决策行为。该动作价值Q值，用于反映一个决策行为的预期收益。

具体的，在根据各个决策行为对应的Q值，采用贪婪算法确定当前用于实施的决策行为时，策略网络可以根据随机产生的浮点数与贪婪参数的比较结果，选择以第一概率，从各个决策行为中选择Q值最大的决策行为作为第一业务处理请求Q1的决策行为；或者，以第二概率，从各个决策行为中随机选择一个决策行为作为Q1的决策行为。第一概率和第二概率之和为1，且第一概率大于第二概率。基于贪婪算法的行为选择策略，是指当前采样有多大可能根据当前网络产生的Q值进行决策，其意义在于使得神经网络具有探索环境的功能，即使已经有了较好的拟合，依然不直接依照Q值最大的决策行为行事。采用这种方式确定的业务处理请求的决策行为，不一定是得分分布中概率最大值对应的决策行为。

以上步骤S210~S250是针对一个业务处理请求确定决策行为的过程，针对后续的多个业务处理请求，均采用同样的方式进行决策处理。这样即能够使得后续的多个业务处理请求的决策行为，在决策干预系数的干预之下，也尽可能符合原始决策行为分布，即符合预设的决策行为分布。因此，本实施例能够在新的决策行为分布与原始决策分布差异不大的情况下，尽可能提高业务收益。

下面再以多臂老虎机模型说明本实施例的实施过程。图5为一种业务决策模型的结构示意图，输入模型的第一业务特征可以按照类型划分成密集型特征部分和稀疏型特征部分，分别输入模型的不同神经元中。所划分成的不同部分特征的维数可以不同，其特征可以包括多种模态，例如图像、文字、语音等。隐藏层可以为全连接神经网络，激活函数可以选择函数linear、函数sigmoid或函数relu等，并根据业务复杂度设置不同深度的神经网络。输出层可以输出第一业务处理请求Q1针对多个决策行为的第一得分，采用决策干预系数对各个第一得分进行干预，得到各个第二得分，基于各个第二得分确定一业务处理请求Q1的决策行为。该模型结构仅仅为一种举例，在实际应用中模型结构可以存在多种不同的结构。

在上述实施例中提到，决策干预系数可以通过对多个历史业务处理请求所实施的决策行为进行统计后得到，这样针对每个业务处理请求的决策干预系数是相同的。但是，针对同一个支付方和被支付方之间的支付请求，或者同一个访问方和被访问方的访问请求，所实施的决策行为不应变化太大。为了减少在这种情况下针对业务处理请求的决策行为大变化，在本说明书的另一实施例中提供了以下确定决策干预系数的方法。

图6为图2中步骤S230的一种流程示意图。在另一实施例中，步骤S230利用多个历史业务处理请求，确定针对所述第一业务处理请求的决策干预系数的步骤，具体可以按照图6所示流程示意图进行，其包括步骤S231和步骤S232。

步骤S231，将第一业务特征T1输入预先训练的决策系数模型M2，得到第一业务处理请求Q1针对多个决策行为的第三得分分布G3。决策系数模型M2可以根据预先训练好的模型参数，基于输入的第一业务特征T1，确定第一业务处理请求Q1针对多个决策行为的第三得分分布G3。

其中，决策系数模型M2基于对多个历史业务处理请求，以及每个历史业务处理请求针对多个决策行为的得分分布进行训练得到。该决策系数模型M2可以采用以下模型中的一种实现：逻辑回归（Logistic Regression，LR）模型、梯度提升迭代决策树（GradientBoosting Decision Tree，GBDT）、模型XGB和深度神经网络模型（Deep Neural Networks，DNN）。

具体的，该决策系数模型M2可以采用以下步骤1b~4b所示的迭代过程训练得到。

步骤1b，将多个历史业务处理请求确定为训练样本。其中，多个历史业务处理请求对应的业务特征为样本特征，每个历史业务处理请求针对多个决策行为的得分分布为对应的训练样本的样本标签。例如，参见图4，每个历史业务处理请求在拦截、警告、提醒、直接放行上的概率构成了该训练样本的样本标签，例如历史业务处理请求2的样本标签为（0.2，0.5，0.1，0.2）。

步骤2b，将训练样本的样本特征输入决策系数模型M2，得到训练样本针对多个决策行为的预测得分分布。该预测得分分布包含了各个决策行为对应的概率，例如预测得分分布可以是（0.3，0.4，0.1，0.2）这样的概率分布。决策系数模型M2具体可以根据模型参数，基于输入的样本特征确定该训练样本针对多个决策行为的预测得分分布。在第一次迭代中，在上述模型参数可以为预设的初始值，在后续的各次迭代中，上述模型参数可以为上一次迭代后更新的模型参数。在模型的训练过程中，可以多次地更新模型参数的值。

步骤3b，基于预测得分分布与对应的样本标签中的得分分布之间的差异，确定损失值。具体的，可以采用交叉熵函数确定损失值。

步骤4b，向减小上述损失值的方向，更新决策系数模型M2。更新决策系数模型M2可以理解为更新其模型参数。具体的，可以采用梯度下降的方法基于上述损失值更新模型参数，也可以采用其他的方法基于损失值更新模型参数。当迭代训练的次数达到预设次数阈值，或者上述损失值小于预设数值时，可以认为决策系数模型M2训练完成，可以停止迭代。

步骤S232，基于第三得分分布G3确定针对第一业务处理请求Q1的决策干预系数。第三得分分布G3可以是概率分布，也可以为非概率分布的其他数值分布。当第三得分分布G3为概率分布时，可以直接将该第三得分分布G3确定为针对第一业务处理请求Q1的决策干预系数。当第三得分分布G3为其他数值分布时，可以对第三得分分布G3进行归一化，得到对应的决策干预系数，其包含和值为1的多个概率值。例如，如果第三得分分布为（2,2，5，1），对该第三得分分布进行归一化，得到（0.2，0.2，0.5，0.1），其可以作为第一业务处理请求Q1的决策干预系数。

在本实施例中，预先基于多个历史业务处理请求训练得到决策系数模型，针对每个业务处理请求，利用该决策系数模型可以针对性地确定与该业务处理请求对应的决策干预系数。也就是说，对于不同的业务处理请求，例如业务特征差异比较大的业务处理请求，其对应的决策干预系数可能不同。这种不同，相比较于基于统计的方式得到的原始决策行为分布而言，可能存在较小的变化。对于具有比较相似的业务特征的业务处理请求，基于决策系数模型得到的决策干预系数可以相同。这样针对不同时刻的、具有比较相似业务特征的业务处理请求，所确定的决策行为变化不会太大，使得所确定的决策行为更加合理。从被服务方角度来看，其接收到的服务平台的反馈也不会变化太大，这样能够提高用户体验度。

上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的，或者可能是有利的。

图7为一个实施例中利用业务决策模型进行决策处理的装置示意性框图。该装置可以部署在服务平台中，该服务平台可以是各种具有计算处理能力的计算机、集群或者设备等。该装置实施例与图2所示方法实施例相对应。该装置700包括：

请求获取模块710，配置为，获取第一业务处理请求，确定第一业务处理请求的第一业务特征；

得分确定模块720，配置为，将第一业务特征输入利用强化学习得到的业务决策模型，得到第一业务处理请求针对多个决策行为的第一得分分布；

系数确定模块730，配置为，利用多个历史业务处理请求，确定针对第一业务处理请求的决策干预系数，其包含针对多个决策行为的干预系数分布；

得分干预模块740，配置为，利用决策干预系数，对第一得分分布进行干预处理，得到针对多个决策行为的第二得分分布；

决策确定模块750，配置为基于第二得分分布，从所述多个决策行为中确定针对第一业务处理请求的决策行为。

在一种实施方式中，得分干预模块740，具体配置为：

针对第一得分分布中每个决策行为的第一得分，基于第一得分与所述决策干预系数中该决策行为对应的干预系数的乘积，得到该决策行为对应的第二得分，进而得到针对所述多个决策行为的第二得分分布。

在一种实施方式中，决策确定模块750，具体配置为：

基于第二得分分布，利用贪婪算法，确定第一业务处理请求针对所述多个决策行为的收益分布；

基于所述收益分布，从所述多个决策行为中确定针对第一业务处理请求的决策行为。

在一种实施方式中，系数确定模块730，具体配置为：

将第一业务特征输入预先训练的决策系数模型，得到第一业务处理请求针对多个决策行为的第三得分分布；其中，决策系数模型基于对多个历史业务处理请求，以及每个历史业务处理请求针对多个决策行为的得分分布进行训练得到；

基于第三得分分布确定针对第一业务处理请求的决策干预系数。

在一种实施方式中，该装置700还包括模型训练模块（图中未示出），配置为采用以下方式训练得到决策系数模型：

将多个历史业务处理请求确定为训练样本；其中，多个历史业务处理请求对应的业务特征为样本特征，每个历史业务处理请求针对多个决策行为的得分分布为对应的训练样本的样本标签；

基于预测得分分布与对应的样本标签中的得分分布之间的差异，确定损失值；向减小损失值的方向，更新决策系数模型。

在一种实施方式中，系数确定模块730，具体配置为：

获取采用以下方式确定的决策干预系数，作为针对第一业务处理请求的决策干预系数：

获取针对每个历史业务处理请求的决策行为；

对多个决策行为的分布数据进行归一化，得到决策干预系数。

在一种实施方式中，第一业务特征包括支付方特征、被支付方特征、支付场景特征中的至少一种；或者，第一业务特征包括访问方特征、被访问方特征、访问场景特征中的至少一种；多个决策行为包括以下中的至少两种：拦截、警告、提醒、直接放行。

在一种实施方式中，业务决策模型采用基于上下文的多臂老虎机Contextual MAB模型或者模型DQN训练得到。

在一种实施方式中，决策系数模型采用以下模型中的一种实现：逻辑回归（LR）模型、梯度提升迭代决策树GBDT、模型XGB和深度神经网络模型DNN。

上述装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图1至图6中任一项的所述的方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图1至图6中任一项所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种利用业务决策模型进行决策处理的方法，通过服务平台执行，所述方法包括：

2.根据权利要求1所述的方法，所述利用所述决策干预系数，对所述第一得分分布进行干预处理的步骤，包括：

3.根据权利要求1所述的方法，所述基于所述第二得分分布，从所述多个决策行为中确定针对所述第一业务处理请求的决策行为的步骤，包括：

4.根据权利要求1所述的方法，所述利用多个历史业务处理请求，确定针对所述第一业务处理请求的决策干预系数的步骤，包括：

5.根据权利要求4所述的方法，所述决策系数模型采用以下方式训练得到：

向减小所述损失值的方向，更新所述决策系数模型。

6.根据权利要求1所述的方法，所述利用多个历史业务处理请求，确定针对所述第一业务处理请求的决策干预系数的步骤，包括：

获取针对每个历史业务处理请求的决策行为；

7.根据权利要求1所述的方法，所述第一业务处理请求包括：支付交易请求或访问请求。

8.根据权利要求7所述的方法，所述第一业务特征包括支付方特征、被支付方特征、支付场景特征中的至少一种；或者，所述第一业务特征包括访问方特征、被访问方特征、访问场景特征中的至少一种；

所述多个决策行为包括以下中的至少两种：拦截、警告、提醒、直接放行。

9.根据权利要求1所述的方法，所述业务决策模型采用基于上下文的多臂老虎机模型或者模型DQN训练得到。

10.根据权利要求4所述的方法，所述决策系数模型采用以下模型中的一种实现：逻辑回归模型、梯度提升迭代决策树GBDT、模型XGB和深度神经网络DNN模型。

11.一种利用业务决策模型进行决策处理的装置，部署在服务平台中，所述装置包括：

得分确定模块，配置为，将所述第一业务特征输入利用强化学习得到的业务决策模型，得到所述第一业务处理请求针对多个决策行为的第一得分分布；

系数确定模块，配置为，利用多个历史业务处理请求，确定针对所述第一业务处理请求的决策干预系数，其包含针对所述多个决策行为的干预系数分布；

12.根据权利要求11所述的装置，所述得分干预模块，具体配置为：

13.根据权利要求11所述的装置，所述决策确定模块，具体配置为：

14.根据权利要求11所述的装置，所述系数确定模块，具体配置为：

15.根据权利要求14所述的装置，还包括模型训练模块，配置为采用以下方式训练得到所述决策系数模型：

向减小所述损失值的方向，更新所述决策系数模型。

16.根据权利要求11所述的装置，所述系数确定模块，具体配置为：

获取针对每个历史业务处理请求的决策行为；

17.根据权利要求11所述的装置，所述第一业务处理请求包括：支付交易请求或访问请求。

18.根据权利要求17所述的装置，所述第一业务特征包括支付方特征、被支付方特征、支付场景特征中的至少一种；或者，所述第一业务特征包括访问方特征、被访问方特征、访问场景特征中的至少一种；

19.根据权利要求11所述的装置，所述业务决策模型采用基于上下文的多臂老虎机模型或者模型DQN训练得到。

20.根据权利要求14所述的装置，所述决策系数模型采用以下模型中的一种实现：逻辑回归模型、梯度提升迭代决策树GBDT、模型XGB和深度神经网络DNN模型。

21.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项的所述的方法。

22.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项所述的方法。