CN110991789A

CN110991789A - 置信区间的确定方法和装置、存储介质及电子装置

Info

Publication number: CN110991789A
Application number: CN201910990342.5A
Authority: CN
Inventors: 陈尧
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-04-10
Anticipated expiration: 2039-10-17
Also published as: CN110991789B

Abstract

本发明公开了一种置信区间的确定方法和装置、存储介质及电子装置。其中，该方法包括：从数据库中获取第一目标对象的属性数据；根据该属性数据确定该第一目标对象成功执行该预定事件的第一执行概率和该第一执行概率对应的第一置信区间；在该第一置信区间的宽度大于预定阈值的情况下，向该第一目标对象发送目标交互信息，其中，该目标交互信息用于缩小该第一置信区间的宽度；根据该第一目标对象对该目标交互信息的交互结果和该属性数据，确定该第一目标对象成功执行该预定事件的第二执行概率和该第二执行概率对应的第二置信区间，解决了由于数据存在波动和偏差，导致执行概率对应的置信区间确性低的技术问题。

Description

置信区间的确定方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种置信区间的确定方法和装置、存储介质及电子装置。

背景技术

传统的营销和风控系统都假设了数据采集为准确的、静态的。在微信体系内，这种假设通常为真，有如下原因：

微信使用的很多数据都是服务器历史交互数据，采集时间确定以后，采集的数据都是过去一段时间内明确的、可测的互联网行为数据，缺失本身意味着0交互。如游戏类文章的阅读数，缺失意味着无阅读。对特征“30 天内游戏类型文章阅读数”，不存在数据不确定或者有扰动的情况，数据是完全可测的；对通常的机器学习算法，如果特征是稳定采集的，即便是数据存在一定的扰动和不确定性，也可以实现预测的效果。如，即便数据存在一定的扰动，可以将特征定义为“每月月末统计的、30天内在微信公众平台订阅号内游戏类型文章阅读数”，来规避可能出现的业务迁移、数据变化等问题。

但是，上述假设也有很多弊端，主要包括：

业务不可能市场占有率100％，在非市场占用100％的业务场景下，无法获取用户在其他公司所使用的业务强度。如，用户可以在今日头条阅读游戏类型文章，对微信场景获取的“30天内游戏类型文章阅读数”可能只占用户全部游戏类型文章阅读的10％甚至更少；

除去确定的原始服务器采集数据以外，微信也会使用不确定的画像数据。如，通过对用户“早教”、“哺乳”等类型文章阅读的统计，对用户进行“是否属于母婴人群”的模糊画像。这类画像具有一定概率性，即统计意义上具有相关性(预测属于该类别高的用户中，占比比较高)，但是对于个体具有不确定性。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种置信区间的确定方法和装置、存储介质及电子装置，以至少解决由于数据存在波动和偏差，导致执行概率对应的置信区间确性低的技术问题。

根据本发明实施例的一方面，还提供了一种置信区间的确定方法，包括：

从数据库中获取第一目标对象的属性数据，其中，该属性数据用于确定该第一目标对象成功执行待配置给该第一目标对象的预定事件的执行概率；

根据该属性数据确定该第一目标对象成功执行该预定事件的第一执行概率和该第一执行概率对应的第一置信区间；

在该第一置信区间的宽度大于预定阈值的情况下，向该第一目标对象发送目标交互信息，其中，该目标交互信息用于缩小该第一置信区间的宽度；

根据该第一目标对象对该目标交互信息的交互结果和该属性数据，确定该第一目标对象成功执行该预定事件的第二执行概率和该第二执行概率对应的第二置信区间，其中，该第二置信区间的宽度小于或等于该预定阈值。

根据本发明实施例的另一方面，还提供了一种风险评估装置，包括：

获取模块，用于从数据库中获取第一目标对象的属性数据，其中，该属性数据用于确定该第一目标对象成功执行待配置给该第一目标对象的预定事件的执行概率；

第一确定模块，用于根据该属性数据确定该第一目标对象成功执行该预定事件的第一执行概率和该第一执行概率对应的第一置信区间；

发送模块，用于在该第一置信区间的宽度大于预定阈值的情况下，向该第一目标对象发送目标交互信息，其中，该目标交互信息用于缩小该第一置信区间的宽度；

第二确定模块，用于根据该第一目标对象对该目标交互信息的交互结果和该属性数据，确定该第一目标对象成功执行该预定事件的第二执行概率和该第二执行概率对应的第二置信区间，其中，该第二置信区间的宽度小于或等于该预定阈值。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述置信区间的确定方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的置信区间的确定方法。

通过本发明实施例，从数据库中获取第一目标对象的属性数据，并基于该属性数据确定所述第一目标对象成功执行所述预定事件的第一执行概率和所述第一执行概率对应的第一置信区间；在该第一置信区间的宽度大于预定阈值的情况下，向该第一目标对象推送该目标交互信息；根据所述第一目标对象对所述目标交互信息的交互结果和所述属性数据，确定所述第一目标对象成功执行所述预定事件的第二执行概率和所述第二执行概率对应的第二置信区间，提高了置信区间的准确性和鲁棒性，解决了由于数据存在波动和偏差，导致执行概率对应的置信区间确性低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据共享系统的示意图；

图2是根据本发明实施例的区块链组成的示意图；

图3是根据本发明实施例的生成区块链的示意图；

图4是根据本发明实施例的置信区间的确定方法的流程图；

图5是根据本发明实施例的风险评估方法的流程图；

图6是根据本发明实施例的基于强化学习的嗅探式智能风控的流程图；

图7是根据本发明实施例的置信区间的确定装置的框图；

图8是根据本发明优选实施例的置信区间的确定装置的框图一；

图9是根据本发明优选实施例的置信区间的确定装置的框图二；

图10是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语 “第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

资产配置(Asset Allocation)是指根据投资需求将投资资金在不同资产类别之间进行分配，通常是将资产在低风险、低收益证券与高风险、高收益证券之间进行分配。

具体而言，在现代投资管理体制下，投资一般分为规划、实施和优化管理三个阶段。投资规划即投资理财下的资产配置，它是资产组合管理决策制定步骤中最重要的环节。

对资产配置的理解必须建立在对机构投资者资产和负债问题的本质、对普通股票和固定收入证券的投资特征等多方面问题的深刻理解基础之上。在此基础上，资产管理还可以利用期货、期权等衍生金融产品来改善资产配置的效果，也可以采用其他策略实现对资产配置的动态调整。不同配置具有自身特有的理论基础、行为特征和支付模式，并适用于不同的市场环境和客户投资需求。

而在投资理财下的资产配置环节，不同的客户由于收益预期、风险承受能力、可投入的总资金、流动性诉求不相同，其所需要的投资组合理应不同。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提出了基于嗅探式的人工智能，建设同时进行广告推荐和金融产品风控的方法，使用贝叶斯深度概率图，对不确定性(数据波动和偏差)建模。在预测模型目标的同时，对该结果输出偏差和波动的预估。即，如果征信模型预测该用户不还钱的概率是1％，同时给出该预测的置信区间是0.8％-1.2％之间。

在预估偏差/波动过大的情况下，有针对性的对用户推送特定产品的广告。根据用户对广告推送的反馈(是否点击)，来优化对数据的认知(对数据波动和偏差的认知)。如，如果征信模型给出不还钱的概率置信区间为0.1％-1.8％，区间范围过大，且范围过大的主要原因是因为数据对该用户是否属于母婴人群的概率无法准确评估。则系统主动推送母婴类产品，如果用户非常感兴趣，则说明用户可能已婚已育，这类用户在风控系统中评估风险较低，则可以将风险预估的置信区间更新至0.4％-0.6％，同时提高了预测的准确程度和鲁棒性(置信区间范围缩小，说明预测更“精准”，预测可能出现的波动降低)。

本发明实施例中，将用户的样本数据以及相关数据存储到区块链的数据共享系统中，从而便于数据的存储于共享，且保证了数据安全性。图1 是根据本发明实施例的数据共享系统的示意图，如图1所示，数据共享系统100是指用于进行节点与节点之间数据共享的系统，该数据共享系统中可以包括多个节点101，多个节点101可以是指数据共享系统中各个客户端。每个节点101在进行正常工作可以接收到输入信息，并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通，数据共享系统中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。例如，当数据共享系统中的任意节点接收到输入信息时，数据共享系统中的其他节点便根据共识算法获取该输入信息，将该输入信息作为共享数据中的数据进行存储，使得数据共享系统中全部节点上存储的数据均一致。

对于数据共享系统中的每个节点，均具有与其对应的节点标识，而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识，以便后续根据其他节点的节点标识，将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表，将节点名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为IP(Internet Protocol，网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息，表1中仅以IP地址为例进行说明。

表1

节点名称	节点标识
		节点1	117.114.151.174
节点2	117.116.189.145
		…	…
节点N	119.123.789.258

数据共享系统中的每个节点均存储一条相同的区块链。图2是根据本发明实施例的区块链组成的示意图，如图2所示，区块链由多个区块组成，区块链由多个区块组成，创始块中包括区块头和区块主体，区块头中存储有输入信息特征值、版本号、时间戳和难度值，区块主体中存储有输入信息；创始块的下一区块以创始块为父区块，下一区块中同样包括区块头和区块主体，区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值，并以此类推，使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联，保证了区块中输入信息的安全性。

图3是根据本发明实施例的生成区块链的示意图，如图3所示，在生成区块链中的各个区块时，区块链所在的节点在接收到输入信息时，对输入信息进行校验，完成校验后，将输入信息存储至内存池中，并更新其用于记录输入信息的哈希树；之后，将更新时间戳更新为接收到输入信息的时间，并尝试不同的随机数，多次进行特征值计算，使得计算得到的特征值可以满足下述公式：

SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))＜TARGET

其中，SHA256为计算特征值所用的特征值算法；version(版本号) 为区块链中相关区块协议的版本信息；prev_hash为当前区块的父区块的区块头特征值；merkle_root为输入信息的特征值；ntime为更新时间戳的更新时间；nbits为当前难度，在一段时间内为定值，并在超出固定时间段后再次进行确定；x为随机数；TARGET为特征值阈值，该特征值阈值可以根据nbits确定得到。

这样，当计算得到满足上述公式的随机数时，便可将信息对应存储，生成区块头和区块主体，得到当前区块。随后，区块链所在节点根据数据共享系统中其他节点的节点标识，将新生成的区块分别发送给其所在的数据共享系统中的其他节点，由其他节点对新生成的区块进行校验，并在完成校验后将新生成的区块添加至其存储的区块链中。

本发明实施例提供了一种置信区间的确定方法，图4是根据本发明实施例的置信区间的确定方法的流程图，如图4所示，包括：

步骤S402，从数据库中获取第一目标对象的属性数据，其中，该属性数据用于确定该第一目标对象成功执行待配置给该第一目标对象的预定事件的执行概率；

步骤S404，根据该属性数据确定该第一目标对象成功执行该预定事件的第一执行概率和该第一执行概率对应的第一置信区间；

进一步的，上述步骤S404具体可以包括：

将该属性数据输入预先训练好的目标神经网络模型中，得到该目标神经网络模型输出的该第一执行概率和该第一置信区间。

步骤S406，在该第一置信区间的宽度大于预定阈值的情况下，向该第一目标对象发送目标交互信息，其中，该目标交互信息用于缩小该第一置信区间的宽度；

具体的，若第一置信区间过宽，说明第一执行概率的可信度低，对应的，可以基于上述的目标神经网络模型确定该目标交互信息，向该第一目标对象发送确定的目标交互信息。通过向第一目标对象推送目标交互信息，目标交互信息可以是从多种交互信息中选取的一种交互信息，交互信息的形式可以由多种，可以是推送的广告，也可以是调查问卷或者小测试之类的，而目标交互信息是与第一目标对象成功执行预定事件相关联的交互信息。

步骤S408，根据该第一目标对象对该目标交互信息的交互结果和该属性数据，确定该第一目标对象成功执行该预定事件的第二执行概率和该第二执行概率对应的第二置信区间，其中，该第二置信区间的宽度小于或等于该预定阈值。

进一步的，在更新第一执行区间得到第二置信区间之后，判断该第二置信区间是否在预定置信区间范围内且第二执行概率是否大于或等于预定概率阈值，在该第二置信区间在预定置信区间范围内且该第二执行概率大于或等于预定概率阈值的情况下，便可确定第二执行概率可用，便可将该预定事件配置给该第一目标对象。

通过上述步骤S402至S408，通过更新后得到的第二置信区间重新确定第一目标对象成功执行该预定事件的概率，提高了执行概率和置信区间的准确性和鲁棒性，解决了由于数据存在波动和偏差，导致执行概率对应的置信区间确性低的技术问题进而解决了由于数据存在波动和偏差，导致执行概率对应的置信区间确性低的技术问题。

本发明实施例中，在将该属性数据输入预先训练好的目标神经网络模型中，得到该目标神经网络模型输出的该第一执行概率和该第一置信区间之前，获取预定数量的训练数据，训练目标网络模型，预定数量可以预先进行设置，例如，可以设置为10000条或12000条等等。具体的，使用预定数量的第二目标对象的训练数据对原始神经网络模型进行训练，得到该目标神经网络模型，其中，该预定数量的训练数据为该原始神经网络模型的输入，训练好的该目标神经网络模型输出的该第一执行概率和该第一置信区间与该训练数据实际对应的执行概率和置信区间满足预定目标函数，其中，预定数量的第二目标对象中也可以包括第一目标对象。

本发明实施例中，在对原始神经网络模型进行训练的过程中，在时间周期t上重复执行以下步骤，直到该原始神经网络模型的损失函数小于或等于第一预设阈值，得到该目标神经网络模型以及该目标策略，其中，该目标策略为该M个策略中的一个；获取状态集，其中，该状态集为在该时间周期t上向该第二目标对象推送M个交互信息之后该第二目标对象对该 M个交互信息的交互结果；获取该第二目标对象的训练数据；根据该状态集和该训练数据对该原始神经网络模型进行训练，得到该原始数据网络模型的损失函数和参数W；W^l,t＝W^l-1,t-1,t＝t+1，其中，l为训练轮次。

进一步的，将该状态集和该训练数据输入到第l-1轮训练得到的该原始神经网络模型中，得到该第l-1轮训练得到的该原始神经网络模型输出的执行概率和置信区间；

根据该执行概率和该置信区间确定该时间周期t的累计资源数量；

根据该时间周期t的累计资源数量与该时间周期t上确定的时间周期 t+1的预估资源数量确定该时间周期t+1的累计预估资源数量；具体的，可以通过以下公式实现：

其中，y为该时间周期t+1的累计预估资源数量，

为该时间周期t上确定的是时间周期t+1的预估资源数量，r(x_i,t,α_i,t,W^l,t)为该时间周期t的累计资源数量，γ为奖励性衰变系数，γ∈(0,1)。

根据该时间周期t的累计资源数量以及该时间周期t+1的累计预估资源数量确定该原始数据网络模型的损失函数和该参数W。

可选地，上述的原始神经网络模型的损失函数为

其中，

为时间周期t-1上确定的该时间周期t的预估资源数量，在该Z小于或等于第二预设阈值时结束训练，该Z小于或等于该第二预设阈值对应的该原始神经网络模型的参数W为该目标神经网络模型的参数W，该Z小于或等于该第二预设阈值对应的交互信息为该目标交互信息。

下面以本发明实施例应用于风险评估为例，对本发明实施例进行说明。

本发明实施例提供了一种风险评估方法，图5是根据本发明实施例的风险评估方法的流程图，如图5所示，该风险评估方法包括：

步骤S502，从数据库中获取第一目标对象的样本数据，并基于该样本数据对该目标对象进行风险评估，以获得该目标对象的风险概率和该风险概率对应的置信区间；

具体的，将该样本数据输入预先训练好的目标神经网络模型中，得到该目标神经网络模型输出的该风险概率和该置信区间。

步骤S504，在该置信区间的宽度大于预定阈值的情况下，选取目标嗅探策略，并向该第一目标对象推送该目标嗅探策略；

具体的，可以基于该目标神经网络模型选取该目标嗅探策略，目标嗅探策略为上述目标交互信息的一种。

步骤S506，根据该第一目标对象对该目标嗅探策略的响应数据更新该样本数据；

步骤S508，根据更新后的该样本数据重新对该第一目标对象进行风险评估。

通过上述步骤S502至S508，从数据库中获取第一目标对象的样本数据，并基于该样本数据对该目标对象进行风险评估，以获得该目标对象的风险概率和该风险概率对应的置信区间；在该置信区间的宽度大于预定阈值的情况下，选取目标嗅探策略，并向该第一目标对象推送该目标嗅探策略；根据该第一目标对象对该目标嗅探策略的响应数据更新该样本数据；根据更新后的该样本数据重新对该第一目标对象进行风险评估，通过更新后的置信区间重新评估风险，提高了风险评估的准确性和鲁棒性，解决了由于样本数据存在波动的和偏差，导致风险评估准确性低的技术问题。

本发明实施例中，在将该样本数据输入预先训练好的目标神经网络模型中，得到该目标神经网络模型输出的该风险概率和该置信区间之前，获取第二预定数量的第二目标对象的训练样本数据，其中，第二目标对象可以与第一目标对象相同，也可以与第一目标对象不同，而第二预定数量可以预先进行设置，例如，可以设置为10000条或12000条等等。使用预定数量的第二目标对象的训练样本数据对原始神经网络模型进行训练，得到该目标神经网络模型，其中，该预定数量的训练样本为该原始神经网络模型的输入，训练好的该目标神经网络模型输出的该风险概率和该风险概率对应的置信区间与该训练样本数据实际对应的风险概率和置信区间满足预定目标函数。

本发明实施例中，在对原始神经网络模型进行训练的过程中，在时间周期t上重复执行以下步骤，直到该原始神经网络模型的损失函数小于或等于预设阈值，得到该目标神经网络模型以及该目标策略，其中，该目标策略为该M个策略中的一个；即从M个策略中确定一个策略作为目标策略向用户推送；获取状态集，其中，该状态集为在该时间周期t上向该第二目标对象推送M个嗅探策略之后该第二目标对象对该M个嗅探策略的响应数据；即永恒在接收到系统推送的M个嗅探策略之后是否进行了响应，即是否点击嗅探策略对应的内容，根据用户的反馈便可获取到状态集的数据。

获取该第二目标对象的训练样本；根据该状态集和该训练样本对该原始神经网络模型进行训练，得到该原始数据网络模型的损失函数和参数W； W^l,t＝W^l-1,t-1,t＝t+1，其中，l为训练轮次。

进一步的，将该状态集和该训练样本输入到第l-1轮训练得到的该原始神经网络模型中，得到该第l-1轮训练得到的该原始神经网络模型输出的风险概率和置信区间，根据该风险概率和该置信区间确定该时间周期t 的累计收益，根据该时间周期t的累计收益与该时间周期t上确定的时间周期t+1的预估收益确定该时间周期t+1的累计预估收益，具体的，可以通过以下公式确定该时间周期t+1的累计预估收益：

其中，y为该时间周期t+1的累计预估收益，

为该时间周期t上确定的是时间周期t+1的预估收益，r(x_i,t,α_i,t,W^l,t)为该时间周期t 的累计收益，γ为奖励性衰变系数，γ∈(0,1)。

根据该时间周期t的累计收益以及该时间周期t+1的累计预估收益确定该原始数据网络模型的损失函数和该参数W。

本发明实施例中，该原始神经网络模型的损失函数为

其中，

为时间周期 t-1上确定的该时间周期t的预估收益，在该Z小于或等于预设阈值时结束训练，该Z小于或等于该预设阈值对应的该原始神经网络模型的参数W 为该目标神经网络模型的参数W，该Z小于或等于该预设阈值对应的策略为该目标策略。即在训练过程中，损失函数的值随着训练的进行不断趋于稳定，或者不断趋于预设阈值，则表示训练完成。

本发明实施例，基于贝叶斯强化学习参数学习，参数学习系统负责从数据库中获取历史存留样本和线上状态，用于参数模型、更新模型；线上系统是本系统的业务部分，根据参数学习系统中获得的网络结构和参数，获取用户数据，计算是用户风险、是否对用户展示广告和提供金融服务。把对风险的评估能力作为强化学习的学习目标。使得系统可以知道自己数据不足以准确估计业务目标，并采取嗅探手段(推送广告等)提高信息准确度。图6是根据本发明实施例的基于强化学习的嗅探式智能风控的流程图，如图6所示，包括：

步骤S601，初始化状态集，初始状态集为0；

步骤S602，判断时间是否0，在判断结果为是的情况下，执行步骤S603；

步骤S603，获取当前状态集；

步骤S604，获取当前数据；

步骤S605，将当前数据合当前状态集输入到预测网络(即上述训练好的目标神经网络模型)中；

步骤S606-S607，通过预测网络输出风险概率和置信区间；

步骤S608，判断置信区间是否大于或等于预设阈值，在判断结果为否的情况下，执行步骤S609，在判断结果为是的情况下，执行步骤S610；

步骤S609，将置信区间和风险概率用于业务应用之中，便可计算预期收益；

步骤S610，通过行为网络选取为用户推荐的嗅探策略，并向用户推送嗅探策略；

步骤S611，获取用户对嗅探策略的响应数据即用户的行为数据，之后在时间大于0的情况下，更新状态集，即获取当前状态集，将当前状态集与当前数据又输入到预测网络中，从而循环执行上述步骤，直到置信区间小于预设阈值。

通过概率式强化学习网络，对行为响应与不确定性的影响建模。使得系统可以用低成本的手段(推送广告)提高对高成本(一旦借款用户违约，系统损失较大)的业务预测能力。

本发明实施例中的学习环境为使用Yard服务器训练模型参数，样本数据存放于HDFS分布式存储环境。

下面对训练过程进行描述，具体包括：

初始化系统收益为Q＝0；

通过风险概率模型评估该用户的风险，获取用户风险概率和概率的置信区间。风险概率模型可以是常规的机器学习分类模型，具体的，将用户的数据输入到风险概率模型中，便的得到用户的风险概率和对应的置信区间。

判断置信区间的宽度是否过宽，具体可以将置信区间与预先设置的预设阈值进行对比，在置信区间大于或等于该预设阈值的情况下，确定置信区间过宽，在执行区间小于该预设阈值的情况下，确定该执行区间正常。如果置信区间过宽，说明无法准确评估用户风险水平，则使用强化学习给出策略行为，即通过预先训练好的强化学习模型确定给用户推荐的嗅探策略，将确定的嗅探策略推送给用户，具体的，给用户推荐特定广告。

用户在接收到特定广告之后，获取用户对该特定广告的响应情况，根据用户对广告的响应更新状态集，例如，用户点击了该特定广告，则状态集中对应为1，未点击或直接点击关闭则说明用户不感兴趣，则状态集对应为0。

根据更新后的置信区间更新收益，对风险认知水平提升带来风险损失减少和广告营销收益。

重复以上过程，遍历至时间T。

多次重复上述过程，在遍历过程中根据样本，学习合适的网络结构和参数至参数收敛，使得总收益最大，最后用最优的结构和参数用在线上系统的决策中。

其中，算法详细过程具体包括：

决策函数结构和参数学习

初始化：随机选择W^0，0的值；开辟一块存储空间M，保存迭代记录M；

按照l从1开始增加到L循环，在循环过程中；

从样本中随机抽取B个样本，记抽取到的样本下为b＝0，1，...，B-1；

初始化状态集为空，所有用户没有广告响应；

按照t从1开始增加到T循环，在循环过程中：

获取抽出样本中属于当月的样本，计算该样本风险和置信区间。

如果，置信区间过宽，则根据强化学习提供策略α，等待用户对广告响应以后更新状态集，其中，该状态集中还包括其他可以搜集到但是不受本系统影响的数量特征；

根据状态集和上述描述的方法，更新当期收益r(x_i，W^l-1，t-1)；

其中，

根据梯度下降更新参数W，保存W^l-1,0＝W^0,t-1，用于下一轮循环；

循环结束，所得W^t即为模型训练所得参数，保存为W。

其中，Δ为梯度下降的学习率，L为迭代次数，n为Q-Learning的学习步长，n的值可以人为指定或者多次实验取最好的，这些为算法的超参数，可由经验或Cross-validation等方法确定。

线上系统中，对每个用户i，从数据库获取同上特征数据x，根据风险评估决策是否放贷或根据强化学习系统展示广告，记录用户对广告响应，更新数据x。

本发明实施例还提供了一种置信区间的确定装置，图7是根据本发明实施例的置信区间的确定装置的框图，如图7所示，包括：

获取模块72，用于从数据库中获取第一目标对象的属性数据，其中，所述属性数据用于确定所述第一目标对象成功执行待配置给所述第一目标对象的预定事件的执行概率；

第一确定模块74，用于根据所述属性数据确定所述第一目标对象成功执行所述预定事件的第一执行概率和所述第一执行概率对应的第一置信区间；

发送模块76，用于在所述第一置信区间的宽度大于预定阈值的情况下，向所述第一目标对象发送目标交互信息，其中，所述目标交互信息用于缩小所述第一置信区间的宽度；

第二确定模块78，用于根据所述第一目标对象对所述目标交互信息的交互结果和所述属性数据，确定所述第一目标对象成功执行所述预定事件的第二执行概率和所述第二执行概率对应的第二置信区间，其中，所述第二置信区间的宽度小于或等于所述预定阈值。

图8是根据本发明优选实施例的置信区间的确定装置的框图一，如图 8所示，所述装置还包括：

配置模块82，用于在所述置信区间在预定置信区间范围内且所述第二执行概率大于或等于预定概率阈值的情况下，将所述预定事件配置给所述第一目标对象。

图9是根据本发明优选实施例的置信区间的确定装置的框图二，如图 9所示，所述获取模块72，还用于将所述属性数据输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的所述第一执行概率和所述第一置信区间；

对应的，所述装置还包括：第三确定模块92，用于基于所述目标神经网络模型确定所述目标交互信息。

可选地，所述装置还包括：

训练模块，用于使用预定数量的第二目标对象的训练数据对原始神经网络模型进行训练，得到所述目标神经网络模型，其中，所述预定数量的训练数据为所述原始神经网络模型的输入，训练好的所述目标神经网络模型输出的所述第一执行概率和所述第一置信区间与所述训练样本数据实际对应的风险概率和置信区间满足预定目标函数。

可选地，所述训练模块包括：

执行子模块，用于在时间周期t上重复执行以下步骤，直到所述原始神经网络模型的损失函数小于或等于第一预设阈值，得到所述目标神经网络模型以及所述目标策略，其中，所述目标策略为所述M个策略中的一个；

第一获取单元，用于获取状态集，其中，所述状态集为在所述时间周期t上向所述第二目标对象推送M个交互信息之后所述第二目标对象对所述M个交互信息的交互结果；

第二获取单元，用于获取所述第二目标对象的训练数据；

训练单元，用于根据所述状态集和所述训练数据对所述原始神经网络模型进行训练，得到所述原始数据网络模型的损失函数和参数W；

W^l,t＝W^l-1,t-1,t＝t+1，其中，l为训练轮次。

可选地，所述训练单元包括：

输入子单元，用于将所述状态集和所述训练数据输入到第l-1轮训练得到的所述原始神经网络模型中，得到所述第l-1轮训练得到的所述原始神经网络模型输出的执行概率和置信区间；

第一确定子单元，用于根据所述执行概率和所述置信区间确定所述时间周期t的累计资源数量；

第二确定子单元，用于根据所述时间周期t的累计资源数量与所述时间周期t上确定的时间周期t+1的预估资源数量确定所述时间周期t+1的累计预估资源数量；

第三确定子单元，用于根据所述时间周期t的累计资源数量以及所述时间周期t+1的累计预估资源数量确定所述原始数据网络模型的损失函数和所述参数W。

可选地，所述第二确定子单元，还用于通过以下公式根据所述时间周期t的累计资源数量与所述时间周期t上确定的时间周期t+1的预估资源数量确定所述时间周期t+1的累计预估资源数量：

其中，y为所述时间周期t+1的累计预估资源数量，

为所述时间周期t上确定的是时间周期t+1的预估资源数量，r(x_i,t,α_i,t,W^l,t)为所述时间周期t的累计资源数量，γ为奖励性衰变系数，γ∈(0,1)。

可选地，所述原始神经网络模型的损失函数为

其中，

为时间周期t-1上确定的所述时间周期t的预估资源数量，在所述Z小于或等于第二预设阈值时结束训练，所述Z小于或等于所述第二预设阈值对应的所述原始神经网络模型的参数W为所述目标神经网络模型的参数W，所述Z小于或等于所述第二预设阈值对应的交互信息为所述目标交互信息。

根据本发明实施例的又一个方面，还提供了一种用于实施上述置信区间的确定方法的电子装置，如图10所示，该电子装置包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S11，从数据库中获取第一目标对象的属性数据，其中，该属性数据用于确定该第一目标对象成功执行待配置给该第一目标对象的预定事件的执行概率；

S12，根据该属性数据确定该第一目标对象成功执行该预定事件的第一执行概率和该第一执行概率对应的第一置信区间；

S13，在该第一置信区间的宽度大于预定阈值的情况下，向该第一目标对象发送目标交互信息，其中，该目标交互信息用于缩小该第一置信区间的宽度；

S14，根据该第一目标对象对该目标交互信息的交互结果和该属性数据，确定该第一目标对象成功执行该预定事件的第二执行概率和该第二执行概率对应的第二置信区间，其中，该第二置信区间的宽度小于或等于该预定阈值。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Andro标识手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，M标识)、PAD 等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的置信区间的确定方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的置信区间的确定方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002 可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于加密密钥(包括第一加密密钥、第二加密密钥等)与解密密钥(包括第一解密密钥、第二解密密钥等)等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述置信区间的确定装置中的获取模块72、第一确定模块74、发送模块76以及第二确定模块78。此外，还可以包括但不限于上述置信区间的确定装置一中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(RadioFrequency，RF) 模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1008，用于显示上述目标交互信息；和连接总线1010，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-OnlyMemory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种置信区间的确定方法，其特征在于，包括：

从数据库中获取第一目标对象的属性数据，其中，所述属性数据用于确定所述第一目标对象成功执行待配置给所述第一目标对象的预定事件的执行概率；

根据所述属性数据确定所述第一目标对象成功执行所述预定事件的第一执行概率和所述第一执行概率对应的第一置信区间；

在所述第一置信区间的宽度大于预定阈值的情况下，向所述第一目标对象发送目标交互信息，其中，所述目标交互信息用于缩小所述第一置信区间的宽度；

根据所述第一目标对象对所述目标交互信息的交互结果和所述属性数据，确定所述第一目标对象成功执行所述预定事件的第二执行概率和所述第二执行概率对应的第二置信区间，其中，所述第二置信区间的宽度小于或等于所述预定阈值。

2.根据权利要求1所述的方法，其特征在于，在根据所述第一目标对象对所述目标交互信息的交互结果和所述属性数据，确定所述第一目标对象成功执行所述预定事件的第二执行概率和所述第二执行概率对应的第二置信区间之后，所述方法还包括：

在所述置信区间在预定置信区间范围内且所述第二执行概率大于或等于预定概率阈值的情况下，将所述预定事件配置给所述第一目标对象。

3.根据权利要求1所述的方法，其特征在于，

根据所述属性数据确定所述第一目标对象成功执行所述预定事件的第一执行概率和所述第一执行概率对应的第一置信区间包括：

将所述属性数据输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的所述第一执行概率和所述第一置信区间；

在向所述第一目标对象发送目标交互信息之前，所述方法还包括：

基于所述目标神经网络模型确定所述目标交互信息。

4.根据权利要求3所述的方法，其特征在于，在将所述属性数据输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的所述第一执行概率和所述第一置信区间之前，所述方法还包括：

使用预定数量的第二目标对象的训练数据对原始神经网络模型进行训练，得到所述目标神经网络模型，其中，所述预定数量的训练数据为所述原始神经网络模型的输入，训练好的所述目标神经网络模型输出的所述第一执行概率和所述第一置信区间与所述训练数据实际对应的执行概率和置信区间满足预定目标函数。

5.根据权利要求4所述的方法，其特征在于，使用所述预定数量的训练数据对原始神经网络模型进行训练，得到所述目标神经网络模型包括：

在时间周期t上重复执行以下步骤，直到所述原始神经网络模型的损失函数小于或等于第一预设阈值，得到所述目标神经网络模型以及所述目标策略，其中，所述目标策略为所述M个策略中的一个；

获取状态集，其中，所述状态集为在所述时间周期t上向所述第二目标对象推送M个交互信息之后所述第二目标对象对所述M个交互信息的交互结果；

获取所述第二目标对象的训练数据；

根据所述状态集和所述训练数据对所述原始神经网络模型进行训练，得到所述原始数据网络模型的损失函数和参数W；

W^l,t＝W^l-1,t-1,t＝t+1，其中，l为训练轮次。

6.根据权利要求5所述的方法，其特征在于，根据所述状态集和所述训练数据对所述原始神经网络模型进行训练，得到所述原始数据网络模型的参数W包括：

将所述状态集和所述训练数据输入到第l-1轮训练得到的所述原始神经网络模型中，得到所述第l-1轮训练得到的所述原始神经网络模型输出的执行概率和置信区间；

根据所述执行概率和所述置信区间确定所述时间周期t的累计资源数量；

根据所述时间周期t的累计资源数量与所述时间周期t上确定的时间周期t+1的预估资源数量确定所述时间周期t+1的累计预估资源数量；

根据所述时间周期t的累计资源数量以及所述时间周期t+1的累计预估资源数量确定所述原始数据网络模型的损失函数和所述参数W。

7.根据权利要求6所述的方法，其特征在于，通过以下公式根据所述时间周期t的累计资源数量与所述时间周期t上确定的时间周期t+1的预估资源数量确定所述时间周期t+1的累计预估资源数量：

其中，y为所述时间周期t+1的累计预估资源数量，

8.根据权利要求7所述的方法，其特征在于，

所述原始神经网络模型的损失函数为Z＝(y-Q(x_i,t-1,α_i,t-1,W^l-1,t-1))²，

其中，Q(x_i,t-1,α_i,t-1,W^l-1,t-1)为时间周期t-1上确定的所述时间周期t的预估资源数量，在所述Z小于或等于第二预设阈值时结束训练，所述Z小于或等于所述第二预设阈值对应的所述原始神经网络模型的参数W为所述目标神经网络模型的参数W，所述Z小于或等于所述第二预设阈值对应的交互信息为所述目标交互信息。

9.一种风险评估装置，其特征在于，包括：

获取模块，用于从数据库中获取第一目标对象的属性数据，其中，所述属性数据用于确定所述第一目标对象成功执行待配置给所述第一目标对象的预定事件的执行概率；

第一确定模块，用于根据所述属性数据确定所述第一目标对象成功执行所述预定事件的第一执行概率和所述第一执行概率对应的第一置信区间；

发送模块，用于在所述第一置信区间的宽度大于预定阈值的情况下，向所述第一目标对象发送目标交互信息，其中，所述目标交互信息用于缩小所述第一置信区间的宽度；

第二确定模块，用于根据所述第一目标对象对所述目标交互信息的交互结果和所述属性数据，确定所述第一目标对象成功执行所述预定事件的第二执行概率和所述第二执行概率对应的第二置信区间，其中，所述第二置信区间的宽度小于或等于所述预定阈值。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

配置模块，用于在所述置信区间在预定置信区间范围内且所述第二执行概率大于或等于预定概率阈值的情况下，将所述预定事件配置给所述第一目标对象。

11.根据权利要求9所述的装置，其特征在于，

所述获取模块，还用于将所述属性数据输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的所述第一执行概率和所述第一置信区间；

所述装置还包括：

第三确定模块，用于基于所述目标神经网络模型确定所述目标交互信息。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述训练模块包括：

第二获取单元，用于获取所述第二目标对象的训练数据；

W^l,t＝W^l-1,t-1,t＝t+1，其中，l为训练轮次。

14.一种计算机可读的存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至8任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。