CN110020862A

CN110020862A - 一种业务风险评估方法、装置和计算机可读存储介质

Info

Publication number: CN110020862A
Application number: CN201810022139.4A
Authority: CN
Inventors: 苗丹
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2019-07-16
Anticipated expiration: 2038-01-10
Also published as: CN110020862B

Abstract

本发明公开了一种业务风险评估方法、装置和计算机可读存储介质，用以根据用户的实时状态和行为动态调整风险评估结果，提高风险评估结果的时效性和准确性。业务风险评估方法，包括：在接收到业务系统提交的风险评估请求时，获取业务环境状态数据，所述业务环境状态数据包括实时业务环境状态数据和历史业务环境状态数据；对所述业务环境状态数据进行预处理；根据预处理后的业务环境状态数据和当前的业务回报函数确定使得累积回报参数达到最大的最优风险控制策略；根据所述业务环境状态数据和所述最优风险控制策略评估当前用户的风险等级。

Description

一种业务风险评估方法、装置和计算机可读存储介质

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种业务风险评估方法、装置和计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

互联网金融是指借助于互联网技术、移动通信技术实现资金融通、支付和信息中介等业务的新兴金融模式。数据产生、数据挖掘、数据安全和搜索引擎技术是互联网金融的有力支撑。社交网络、电子商务、第三方支付、搜索引擎等形成了庞大的数据量，云计算和行为分析理论使大数据挖掘成为可能，数据安全技术使隐私保护和交易支付顺利进行，而搜索引擎使用户更加容易获取信息，这些技术的发展极大减小了金融交易的成本和风险，扩大了金融服务的边界。

与传统金融类似，风险控制也是互联网金融技术需要解决的关键问题之一。现有技术进行风险控制一般采用以下几种方法：黑灰名单库，风险控制清单，欺诈规则引擎等方式。其中，黑灰名单库是指判断用户或设备ID是否在该名单中，若在，则直接拒绝该用户或设备使用业务。风险控制清单是指如果用户行为、设备属性等信息若命中清单中的信息，则将相应用户标记为高风险。欺诈规则引擎是指如果用户行为、设备属性等信息满足一定规则条件则标记为高风险，例如某一属性参数设置一个固定门限，大于这个门限即为高风险。

现有技术方案在实际应用中多数采用固定规则的形式，不够灵活，不能够随着时间变化、用户行为变化、网络环境、市场环境、技术发展水平等因素而灵活调整，并且多数规则都是人为通过专家经验设定，具有很大的主观性。

而且，现有基于大数据及机器学习方法的一些风险评估模型用数据说话，很好的解决主观性的问题，但现有模型多采用历史数据(例如跑批时间前6个月的数据)离线训练后，将训练好的固化参数部署至现网环境，由于全网用户的数据量过于庞大，受制于计算能力的限制，往往通过对全量用户数据按月执行离线跑批处理后，将模型输出结果(例如用户风险级别)存储在数据库中，再通过实时接口查询数据库中的结果来满足业务查询的实时性需求。由此可见现有方案一方面处理速度较慢，处理时延较大，对于全网数据短则几个小时，长则几天的时间，当风评查询接口请求时无法给出实时的风险评估结果。所采集的历史数据又分为用户的表现期和观察期，数据相对较旧，这种根据历史数据的离线学习不足以反应当前用户行为的特征，模型运行结果预测准确性相对较低。另一方面很长一段时间模型参数配置不会变动，一般此类模型运行一年或半年后，累积了足够的历史数据后重新离线训练优化模型，仍然不能够根据业务环境、用户的实时行为表现动态灵活配置，随时调整策略，模型时效性较差。

发明内容

本发明实施例提供了一种业务风险评估方法、装置和计算机可读存储介质，用以根据用户的实时状态和行为动态调整风险评估结果，提高风险评估结果的时效性和准确性。

第一方面，提供一种业务风险评估方法，包括：

在接收到业务系统提交的风险评估请求时，获取业务环境状态数据，所述业务环境状态数据包括实时业务环境状态数据和历史业务环境状态数据；

对所述业务环境状态数据进行预处理；

根据预处理后的业务环境状态数据和当前的业务回报函数确定使得累积回报参数达到最大的最优风险控制策略；

根据所述业务环境状态数据和所述最优风险控制策略评估当前用户的风险等级。

可选地，在根据所述业务环境状态数据和所述最优风险控制策略评估当前用户的风险等级之后，还包括：

针对预设的动作集合中包含的每一动作，根据所述累积回报参数和所述业务状态数据确定该动作被选择的概率；

选择概率最大的动作为针对本次风险评估请求所执行的动作。

可选地，按照以下公式确定所述累积回报参数：

其中：

α为学习率，α∈[0,1)；

ΔQ_π(s^t,a^t)为预设的累积回报参数更新误差函数；

Q_π(s^t,a^t)为当前的累积回报参数，累积回报参数的期望定义如下：

其中：

Q_π(s,a)的初始值为预设值；

s为业务环境状态数据；

a为动作集合中包含的任一动作；

t为当前轮标识；

t+1为下一轮标识；

γ为常数折现因子，γ∈(0,1)；

为业务环境状态数据s^t在动作a的作用下达到状态s^t+1的转移概率；

R(s^t,a^t)为r(s^t,a^t)的期望；

r(s,a)＝L(s,a)(1-τ)e^-u，其中：

L(s,a)为针对用户业务申请通过后获得的收益，如果针对用户业务申请不通过，L(s,a)＝0；

τ表示是否有欺诈行为，τ∈{0,1}，如果有欺诈行为，τ＝1；否则，τ＝0；

μ为违约率；

π为风险控制策略。

可选地，针对预设的动作集合中包含的每一动作，根据所述累积回报参数和所述业务状态数据确定该动作被选择的概率，具体包括：

针对预设的动作集合中包含的每一动作，按照以下公式确定该动作被选择的概率：

其中：

p(a^t|s^t)表示该动作被选择的概率；

T为温度值，T随着迭代次数的增加而降低；

A表示所述动作集合；

s为业务环境状态数据；

a为动作集合中包含的任一动作；

t为当前轮标识；

t+1为下一轮标识；

Q(s^t,a^t)表示当前轮的累积回报参数；

Q(s^t+1,a^t+1)表示下一轮的累积回报参数。

可选地，所述实时业务环境状态数据包括以下至少一项：用户状态数据、用户行为数据和用户使用设备信息；所述历史业务环境状态数据包括以下至少一项：用户历史业务行为数据、用户历史消费行为数据、用户历史状态数据、用户历史使用设备信息和用户身份特征属性信息。

第二方面，提供一种业务风险评估装置，包括：

数据采集模块，用于在接收到业务系统提交的风险评估请求时，获取业务环境状态数据，所述业务环境状态数据包括实时业务环境状态数据和历史业务环境状态数据；

数据处理模块，用于对所述业务环境状态数据进行预处理；

在线学习代理模块，用于根据预处理后的业务环境状态数据和当前的业务回报函数确定使得累积回报参数达到最大的最优风险控制策略；

风险评估模块，用于根据所述业务环境状态数据和所述最优风险控制策略评估当前用户的风险等级。

可选地，所述业务风险评估装置，还包括：

动作选择模块，用于针对预设的动作集合中包含的每一动作，根据所述累积回报参数和所述业务状态数据确定该动作被选择的概率；选择概率最大的动作为针对本次风险评估请求所执行的动作。

可选地，所述在线学习代理模块，用于按照以下公式确定所述累积回报参数：

其中：

α为学习率，α∈[0,1)；

ΔQ_π(s^t,a^t)为预设的累积回报参数更新误差函数；

其中：

Q_π(s,a)的初始值为预设值；

s为业务环境状态数据；

a为动作集合中包含的任一动作；

t为当前轮标识；

t+1为下一轮标识；

γ为常数折现因子，γ∈(0,1)；

R(s^t,a^t)为r(s^t,a^t)的期望；

r(s,a)＝L(s,a)(1-τ)e^-u，其中：

μ为违约率；

π为风险控制策略集。

可选地，所述动作选择模块，具体用于针对预设的动作集合中包含的每一动作，按照以下公式确定该动作被选择的概率：

其中：

p(a^t|s^t)表示该动作被选择的概率；

T为温度值，T随着迭代次数的增加而降低；

A表示所述动作集合；

s为业务环境状态数据；

a为动作集合中包含的任一动作；

t为当前轮标识；

t+1为下一轮标识；

Q(s^t,a^t)表示当前轮的累积回报参数；

Q(s^t+1,a^t+1)表示下一轮的累积回报参数。

第三方面，提供一种计算装置，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行上述任一方法所述的步骤。

第四方面，提供一种计算机可读存储介质，其存储有可由计算装置执行的计算机程序，当所述程序在计算装置上运行时，使得所述计算装置执行上述任一方法所述的步骤。

本发明实施例提供的业务风险评估方法、装置和计算机可读存储介质中，通过对实时业务环境状态数据和历史业务环境状态数据同时应用于业务风险评估，可以根据业务环境状态数据和业务汇报函数实时灵活配置当前的最优风险控制策略，由于业务环境状态数据根据业务系统的实时数据动态调整，因此，使得业务风险评估更具有时效性，提高了业务风险评估结果的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例提供的业务封信评估系统的结构示意图；

图2为本发明实施例中，业务风险评估方法的实施流程示意图；

图3为本发明实施例中，业务风险评估装置的结构示意图；

图4为根据本发明实施例方式的计算装置的结构示意图。

具体实施方式

为了提高业务风险评估的时效性和准确性，本发明实施例提供了一种业务风险评估方法、装置和计算机可读存储介质。

以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明实施例中，通过对采集到的用户行为信息、设备信息、网络环境信息等进行实时在线学习，根据学习结果给出风险控制策略，该策略用于评估用户的风险等级，该风险等级作为系统输出的动作应用与业务系统中，应用后根据用户的行为表现(例如违约、欺诈等情况)构成的反馈函数作用于风险控制策略学习中，用于在线调整风险控制策略，并给出下一次动作。这样，通过不断地在线学习，动态调整风险控制策略，使得用户的违约及欺诈风险最低，从而寻找最优风险控制策略。如图1所示，其为本发明实施例提供的业务风险评估系统的结构示意图，包括数据采集模块，数据处理模块，在线学习代理模块和动作选择模块。其中：

数据采集模块：负责采集业务环境状态数据，例如金融行业用户身份属性信息、用户交易信息、用户异常操作/违约/欺诈等行为信息、用户所处环境信息(包括位置信息、网络环境信息)、用户所使用的设备信息等。

数据处理模块：负责对数据采集模块采集的数据进行预处理，包括去重、清洗、空值处理、数据降维、预处理计算生成衍生字段等，该模块加工好的数据输入至在线学习代理模块。

在线学习代理模块：负责对t+1时刻采集的业务环境状态数据s^t+1以及t时刻执行动作a后业务系统给出的回报r(s^t,a^t)进行学习,迭代更新风险控制策略集输出风险等级给动作选择模块，其中为t+1时刻更新的策略，例如申请贷款产品个数、同一手机号登录终端设备个数等。通过不断的“试错”尝试，在线学习代理的最终目标是要找到每个状态s下的最优风险控制策略π，使得关于累积回报的优化目标最大化。

具体实施时，可以定义累积回报参数的数学期望如下：

其中：

γ为常数折现因子，γ∈(0,1)；其体现了未来回报相对当前回报的重要性，γ越小，说明未来回来的价值相对于当前回来的交织越小，R(s^t,a^t)为r(s^t,a^t)的数学期望，为业务环境状态数据s^t在动作a的作用下达到状态s^t+1的转移概率。业务环境状态数据s的最优值Q_*(s,a)以及对应的最优风险控制策略π_*都可以通过计算Q_*(s,a)来获得：其中，Q_*(s,a)可以通过如下迭代获得：其中：

α为学习率，α∈[0,1)；

ΔQ_π(s^t,a^t)为预设的累积回报参数更新误差函数。在代签审批环节的风险控制，仅需对回报函数进行定义如下：r(s,a)＝L(s,a)(1-τ)e^-u，其中：

L(s,a)为针对用户业务申请通过后获得的收益(例如对该用户发放贷款获得的收益)，如果针对用户业务申请不通过(例如，拒绝贷款)，L(s,a)＝0；τ表示是否有欺诈行为，τ∈{0,1}，如果有欺诈行为，τ＝1，则回报r(s,a)为0；否则，τ＝0；μ为违约率，违约率越高则回报r(s,a)越小。如果τ＝0且μ＝0，则拿到贷款所有收益L(s,a)。

因此，在线学习代理在每一轮迭代过程中根据当前获取的业务环境状态数据调整风险控制策略π，使得Q_π(s,a)最大，根据最优策略给出当前状态下用户的欺诈风险等级，如高风险、低风险等等。

动作选择模块：用于根据在线学习代理模块给出的风险等级，给出动作决策，例如，是否批贷，批贷后的贷款额度及利率等等，其中，a动作集合中包含的任一动作，随着迭代的过程更新a。

其中，业务系统可以为消费信贷业务系统，负责用户业务的受理、贷前审批、贷中监测、贷后催缴等，维护用户及其周边的业务数据。

业务环境状态数据s，本发明实施例中定义为用户身份属性信息、用户交易信息、用户异常操作/违约/欺诈等行为信息、用户所处环境信息(包括位置信息、网络环境信息)、用户所使用的设备信息等。

动作a：是否批贷，批贷后的贷款额度及利率。

回报r(s,a)：指业务系统执行动作后的收益结果。

基于此，本发明实施例提供了一种业务风险评估方法，如图2所示，其为业务风险评估方法的实施流程示意图，可以包括以下步骤：

S21、在接收到业务系统提交的风险评估请求时，获取业务环境状态数据，所述业务环境状态数据包括实时业务环境状态数据和历史业务环境状态数据。

例如，用户在业务系统申请贷款类业务，输入贷款金额，选择贷款周期，还款方式等。业务系统提交业务风险评估请求至业务风险评估系统，以评估用户风险等级。

在业务风险评估系统数据采集模块采集业务系统的业务环境状态数据，包括实时业务环境状态数据和历史业务环境状态数据。

其中，实时业务环境状态数据包括以下至少一项：

(1)用户状态数据：例如当前婚姻状态、子女情况、收入、资产状况、所在地理位置、居住地/工作地、征信等级、信用评分等；

(2)用户行为数据：例如当天/近1小时/近6小时用户借贷应用、借贷金额、借贷时间、手机号登录次数、手机号注册借贷应用数、注册手机号数、借贷产品点击次数、关注借贷产品名称、当前借贷产品页面停留时长等；

(3)用户使用设备信息：当前用户使用终端IMEI号，用户账号与终端设备关联关系、当前设备IP地址、当前设备接入网络方式、设备品牌、设备类型、设备价格等。

历史业务环境状态数据包括以下至少一项：

(1)用户历史业务行为数据：例如近1个月/3个月/6个月/12个月用户借贷应用、借贷金额、借贷时间、手机号登录次数、手机号注册借贷应用数、注册手机号数、借贷产品点击次数、关注借贷产品名称、月均还款金额、历史还款次数、历史逾期次数、历史逾期天数等；

(2)用户历史消费行为数据：例如每月通话ARPU(每用户平均收入)值，历史月套餐金额、月均消费金额等；

(3)用户历史状态信息：婚姻状态、子女情况、收入、资产状况、历史地理位置、历史居住地/工作地、征信等级、信用评分等；

(4)用户历史使用设备信息：用户使用过的终端品牌、设备IMEI(国际移动设备识别码)号、手机号关联过的设备ID(标识)、常用IP地址、常用网络接入方式、设备类型、设备价格、是否击中风险控制清单、是否疑似中介设备等。

(5)用户身份特征属性信息：性别、年龄、用户BOSS(业务运营支撑系统)品牌、用户星级、是否实名等。

S22、对所述业务环境状态数据进行预处理。

在业务风险评估系统的数据处理模块对以上数据进行去重、清洗、赋值、存储等操作，例如去除重复的数据项、删除空值率在80％以上的脏数据样本、对部分样本空值进行赋值处理、对不同类型的数据项进行分类存储例如按月表存储、按日表存储、对不同来源的数据统一数据格式等；

S23、根据预处理后的业务环境状态数据和当前的业务回报函数确定使得累积回报参数达到最大的最优风险控制策略。

在业务风险评估系统的在线学习代理模块对所有变量进行初始化，维护一张Q(累积回报参数)值表，对每一个业务环境状态数据s关联一个温度T_s并初始化为T₀，学习率α初始化为α₀。

需要说明的是，本发明实施例中，定义学习率α和温度T随迭代次数的增加呈负指数规律下降，在t+1时刻对业务环境状态数据s，即步骤S21中获取的实时业务环境状态数据和历史业务环境状态数据以及t时刻(上一轮)回报函数r进行实时在线学习，即将s及r带入算法函数Q_π(s^t,a^t)，带入公式更新Q_π(s^t+1,a^t+1)，找到使得Q_π(s^t+1,a^t+1)最大的π，在线学习代理模块更新π值，根据当前时刻的π值，评估该用户风险等级，例如π为一系列门限值，用户同一天申请贷款个数大于3个，或同一用户不同账号登录设备数大于3个、或用户登录设备IP地址变化频繁、或近1个月内用户婚姻状况有变化等情况出现，满足以上任意策略条件，给出用户风险等级为高风险，否则低风险。

S24、根据所述业务环境状态数据和所述最优风险控制策略评估当前用户的风险等级。

其中，步骤S23中，可以按照以下公式确定所述累积回报参数：

其中：

α为学习率，α∈[0,1)；

ΔQ_π(s^t,a^t)为预设的累积回报参数更新误差函数；

其中：

Q_π(s,a)的初始值为预设值；

s为业务环境状态数据；

a为动作集合中包含的任一动作；

t为当前轮标识；

t+1为下一轮标识；

γ为常数折现因子，γ∈(0,1)；

R(s^t,a^t)为r(s^t,a^t)的期望；

r(s,a)＝L(s,a)(1-τ)e^-u，其中：

μ为违约率；

π为风险控制策略集。

具体实施时，依靠经验能够使在线学习过程迅速稳定下来并收敛，然而却面临着陷入局部最优的危险；更多地探索新的动作空间将获得更丰富和全面的经验，从而达到更好的优化性能，但却需要花费更多的学习时间。为了优化动作选择的高效性和可靠性，避免陷入局部最优，本发明实施例中，可采用基于Boltzmann分布的探索方法按如下概率在整个动作空间随机选择某个动作a：针对预设的动作集合中包含的每一动作，根据所述累积回报参数和所述业务状态数据确定该动作被选择的概率；选择概率最大的动作为针对本次风险评估请求所执行的动作。

具体地，针对预设的动作集合中包含的每一动作，可以按照以下公式确定该动作被选择的概率：

其中：

p(a^t|s^t)表示该动作被选择的概率；

T为温度值，T随着迭代次数的增加而降低；

A表示所述动作集合；

s为业务环境状态数据；

a为动作集合中包含的任一动作；

t为当前轮标识；

t+1为下一轮标识；

Q(s^t,a^t)表示当前轮的累积回报参数；

Q(s^t+1,a^t+1)表示下一轮的累积回报参数。

其中，温度T随着Q_π(s,a)的迭代过程逐渐降低。

基于此，本发明实施例中，针对给定动作集合中包含的每一动作，根据步骤S23中得到的Q_π(s^t,a^t)值代入到公式中，计算每一动作对应的概率，根据该概率选择概率最大的动作，例如拒绝贷款，或者同意贷款，额度3000元/5000元等，更新学习率α和温度T_s，进入下一轮迭代。

由以上可知，如果本轮迭代判定用户为低风险，且给予较高额度，但在下一时刻用户再次申请业务时，根据用户当前和历史的行为等特征(例如存在逾期行为、多头借贷行为等，回报函数会发生变化，当前用户地理位置或IP地址发生变化，存在欺诈风险)，在线学习代理会实时调整策略，例如调高门限级别，从而判断用户为高风险，从而选择拒绝贷款。如果本轮迭代判定用户为低风险，但给予较低额度，在下一时刻用户再次申请业务时，根据用户当前和历史行为特征(按时还款，无逾期)，在线学习代理会实时调整策略，例如调低门限，判断用户为低风险，选择更优的动作，例如提高额度，从而使收益更高。

本发明实施例将在线学习的智能方法应用于风险控制系统，根据业务系统的环境状态和回报函数等信息实时灵活配置当前最优风险控制策略，欺诈击中率更高更精准，使得风险控制评估及执行更具时效性，解决了现有系统无法实时进行风险评估的问题，降低模型运行时延，提升风险评估处理速度，真正实现实时评级，进而提升预测准确性，以及模型的时效性，从而能够更加有效降低欺诈风险，提升贷款授信收益。采用海量数据在线学习，用数据说话动态调整风险控制策略，避免反欺诈策略的主观性。

基于同一发明构思，本发明实施例中还提供了一种业务风险评估装置，由于上述装置解决问题的原理与业务风险评估方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图3所示，其为本发明实施例提供的业务风险评估装置的结构示意图，包括：

数据采集模块31，用于在接收到业务系统提交的风险评估请求时，获取业务环境状态数据，所述业务环境状态数据包括实时业务环境状态数据和历史业务环境状态数据；

数据处理模块32，用于对所述业务环境状态数据进行预处理；

在线学习代理模块33，用于根据预处理后的业务环境状态数据和当前的业务回报函数确定使得累积回报参数达到最大的最优风险控制策略；

风险评估模块34，用于根据所述业务环境状态数据和所述最优风险控制策略评估当前用户的风险等级。

可选地，所述业务风险评估装置，还包括：

其中：

α为学习率，α∈[0,1)；

ΔQ_π(s^t,a^t)为预设的累积回报参数更新误差函数；

其中：

Q_π(s,a)的初始值为预设值；

s为业务环境状态数据；

a为动作集合中包含的任一动作；

t为当前轮标识；

t+1为下一轮标识；

γ为常数折现因子，γ∈(0,1)；

R(s^t,a^t)为r(s^t,a^t)的期望；

r(s,a)＝L(s,a)(1-τ)e^-u，其中：

μ为违约率；

π为风险控制策略集。

其中：

p(a^t|s^t)表示该动作被选择的概率；

T为温度值，T随着迭代次数的增加而降低；

A表示所述动作集合；

s为业务环境状态数据；

a为动作集合中包含的任一动作；

t为当前轮标识；

t+1为下一轮标识；

Q(s^t,a^t)表示当前轮的累积回报参数；

Q(s^t+1,a^t+1)表示下一轮的累积回报参数。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本发明示例性实施方式的业务风险评估方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的计算装置。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算装置可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述描述的根据本发明各种示例性实施方式的业务风险评估方法中的步骤。例如，所述处理单元可以执行如图2中所示的步骤S21、在在接收到业务系统提交的风险评估请求时，获取业务环境状态数据，所述业务环境状态数据包括实时业务环境状态数据和历史业务环境状态数据，和步骤S22、对所述业务环境状态数据进行预处理，以及步骤S23、根据预处理后的业务环境状态数据和当前的业务回报函数确定使得累积回报参数达到最大的最优风险控制策略以及步骤S24、根据所述业务环境状态数据和所述最优风险控制策略评估当前用户的风险等级。

下面参照图4来描述根据本发明的这种实施方式的计算装置40。图4显示的计算装置40仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算装置40以通用计算设备的形式表现。计算装置40的组件可以包括但不限于：上述至少一个处理单元41、上述至少一个存储单元42、连接不同系统组件(包括存储单元42和处理单元41)的总线43。

总线43表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元42可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)421和/或高速缓存存储器422，还可以进一步包括只读存储器(ROM)423。

存储单元42还可以包括具有一组(至少一个)程序模块424的程序/实用工具425，这样的程序模块424包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置40也可以与一个或多个外部设备44(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算装置40交互的设备通信，和/或与使得该计算装置40能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口45进行。并且，计算装置40还可以通过网络适配器46与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器46通过总线43与用于计算装置40的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置40使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本发明提供的业务风险评估方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的业务风险评估方法中的步骤，例如，所述计算机设备可以执行如图2中所示的步骤S21、在在接收到业务系统提交的风险评估请求时，获取业务环境状态数据，所述业务环境状态数据包括实时业务环境状态数据和历史业务环境状态数据，和步骤S22、对所述业务环境状态数据进行预处理，以及步骤S23、根据预处理后的业务环境状态数据和当前的业务回报函数确定使得累积回报参数达到最大的最优风险控制策略以及步骤S24、根据所述业务环境状态数据和所述最优风险控制策略评估当前用户的风险等级。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明的实施方式的用于业务风险评估的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种业务风险评估方法，其特征在于，包括：

对所述业务环境状态数据进行预处理；

2.如权利要求1所述的方法，其特征在于，在根据所述业务环境状态数据和所述最优风险控制策略评估当前用户的风险等级之后，还包括：

3.如权利要求1所述的方法，其特征在于，按照以下公式确定所述累积回报参数：

其中：

α为学习率，α∈[0,1)；

ΔQ_π(s^t,a^t)为预设的累积回报参数更新误差函数；

其中：

Q_π(s,a)的初始值为预设值；

s为业务环境状态数据；

a为动作集合中包含的任一动作；

t为当前轮标识；

t+1为下一轮标识；

γ为常数折现因子，γ∈(0,1)；

R(s^t,a^t)为r(s^t,a^t)的期望；

r(s,a)＝L(s,a)(1-τ)e^-u，其中：

μ为违约率；

π为风险控制策略集。

4.如权利要求2所述的方法，其特征在于，针对预设的动作集合中包含的每一动作，根据所述累积回报参数和所述业务状态数据确定该动作被选择的概率，具体包括：

其中：

p(a^t|s^t)表示该动作被选择的概率；

T为温度值，T随着迭代次数的增加而降低；

A表示所述动作集合；

s为业务环境状态数据；

a为动作集合中包含的任一动作；

t为当前轮标识；

t+1为下一轮标识；

Q(s^t,a^t)表示当前轮的累积回报参数；

Q(s^t+1,a^t+1)表示下一轮的累积回报参数。

5.如权利要求1～4任一权利要求所述的方法，其特征在于，所述实时业务环境状态数据包括以下至少一项：用户状态数据、用户行为数据和用户使用设备信息；所述历史业务环境状态数据包括以下至少一项：用户历史业务行为数据、用户历史消费行为数据、用户历史状态数据、用户历史使用设备信息和用户身份特征属性信息。

6.一种业务风险评估装置，其特征在于，包括：

数据处理模块，用于对所述业务环境状态数据进行预处理；

7.如权利要求6所述的装置，其特征在于，还包括：

8.如权利要求6所述的装置，其特征在于，

所述在线学习代理模块，用于按照以下公式确定所述累积回报参数：

其中：

α为学习率，α∈[0,1)；

ΔQ_π(s^t,a^t)为预设的累积回报参数更新误差函数；

其中：

Q_π(s,a)的初始值为预设值；

s为业务环境状态数据；

a为动作集合中包含的任一动作；

t为当前轮标识；

t+1为下一轮标识；

γ为常数折现因子，γ∈(0,1)；

R(s^t,a^t)为r(s^t,a^t)的期望；

r(s,a)＝L(s,a)(1-τ)e^-u，其中：

μ为违约率；

π为风险控制策略集。

9.如权利要求7所述的装置，其特征在于，

所述动作选择模块，具体用于针对预设的动作集合中包含的每一动作，按照以下公式确定该动作被选择的概率：

其中：

p(a^t|s^t)表示该动作被选择的概率；

T为温度值，T随着迭代次数的增加而降低；

A表示所述动作集合；

s为业务环境状态数据；

a为动作集合中包含的任一动作；

t为当前轮标识；

t+1为下一轮标识；

Q(s^t,a^t)表示当前轮的累积回报参数；

Q(s^t+1,a^t+1)表示下一轮的累积回报参数。

10.如权利要求6～9任一权利要求所述的装置，所述实时业务环境状态数据包括以下至少一项：用户状态数据、用户行为数据和用户使用设备信息；所述历史业务环境状态数据包括以下至少一项：用户历史业务行为数据、用户历史消费行为数据、用户历史状态数据、用户历史使用设备信息和用户身份特征属性信息。

11.一种计算装置，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1～5任一权利要求所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，其存储有可由计算装置执行的计算机程序，当所述程序在计算装置上运行时，使得所述计算装置执行权利要求1～5任一所述方法的步骤。