CN108416662B

CN108416662B - 一种数据验证方法及装置

Info

Publication number: CN108416662B
Application number: CN201710073782.5A
Authority: CN
Inventors: 刘成烽; 刘志斌; 陈谦; 黄巩怡
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-02-10
Filing date: 2017-02-10
Publication date: 2021-09-21
Anticipated expiration: 2037-02-10
Also published as: CN108416662A

Abstract

本发明实施例提供了一种数据验证方法及装置，在获得对象在预设时间段内的征信数据以及对应的征信分后，本申请将根据预设算法，利用该预设时间段内的征信数据，计算给定置信度下对象的征信分的置信区间，来预测该征信分的可信度，从而基于该对象的征信分以及该置信区间，针对该对象执行相应预设操作，与现有技术中仅基于对象的征信分大小，针对对象执行预设操作的方案相比，本申请增加了对对象征信分可信度的识别，提高了信用好坏对象的识别准确性，能够为同一征信分不同行为对象分别提供相应的控制策略，更好地为真正信用高的对象提供服务。

Description

一种数据验证方法及装置

技术领域

本发明涉及数据真实性验证领域，具体涉及一种数据验证方法及装置。

背景技术

如今，在很多应用场景中，经常会利用用户的征信分来表示用户信用好坏，即用户的征信分越大，表示用户的信用度越高，从而实现用户信用等级的划分，并针对不同信用等级的用户采用不同的控制策略，来为用户服务。

然而，对于同一信用等级的用户，甚至是相同征信分的多个用户来说，这些用户实际行为并不相同；而且，随着用户的征信数据还会随着时间发生很大波动，即便征信分高的用户可信度也不一定比征信分低的用户可信度高。这都将会导致根据用户征信分的大小确定的控制策略不合适，甚至会出现为高征信分但低信用的用户增大资源分配额度的情况，给企业或个人造成损失。

由此可见，如何确定用户的真实信用，为用户分配合适的控制策略成为本领域技术人员关注的重点。

发明内容

有鉴于此，本发明实施例提供一种数据验证方法及装置，通过用户征信分的置信区间，来确定该征信分的可信度，从而根据该可信度以及征信分大小，确定针对用户的合适的预设操作。

为实现上述目的，本发明实施例提供如下技术方案：

本申请实施例提供了一种数据验证方法，所述方法包括：

获取用户在预设时间段内的征信数据以及对应的征信分，所述征信分用于预测用户行为的可信度；

根据预设算法，利用所述预设时间段内的征信数据，计算给定置信度下所述用户的征信分的置信区间，所述征信分的置信区间用于预测所述信用分的可信度；

基于所述用户的征信分以及所述置信区间，针对所述用户执行相应的预设操作。

本申请实施例还提供了一种数据验证装置，所述装置包括：

数据获取模块，用于获取用户在预设时间段内的征信数据以及对应的征信分，所述征信分用于预测用户行为的可信度；

计算模块，用于根据预设算法，利用所述预设时间段内的征信数据，计算给定置信度下所述用户的征信分的置信区间，所述征信分的置信区间用于预测所述信用分的可信度；

执行模块，用于基于所述用户的征信分以及对应的置信区间，针对所述用户执行相应的预设操作。

基于上述技术方案，本发明实施例提供了一种数据验证方法及装置，在获得用户在预设时间段内的征信数据以及对应的征信分后，本申请将根据预设算法，利用该预设时间段内的征信数据，计算给定置信度下用户的征信分的置信区间，来预测该征信分的可信度，从而基于该用户的征信分以及该置信区间，针对该用户执行相应预设操作，与现有技术中仅基于用户的征信分大小，针对用户执行预设操作的方案相比，本申请增加了对用户征信分可信度的识别，提高了信用好坏用户的识别准确性，能够为同一征信分不同行为用户分别提供相应的控制策略，更好地为真正信用高的用户提供服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种的系统架构图；

图2为本申请实施例提供的一种数据验证方法的流程图；

图3为本申请实施例提供的另一种数据验证方法的流程图；

图4为本申请实施例提供的又一种数据验证方法的流程图；

图5为本申请实施例提供的一种数据验证装置的结构框图；

图6为本申请实施例提供的另一种数据验证装置的结构框图；

图7为本申请实施例提供的又一种数据验证装置的结构框图；

图8为本申请实施例提供的又一种数据验证装置的结构框图；

图9为本申请实施例提供的一种数据验证装置的硬件结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了准确理解本申请技术方案，本申请在此先对本申请下文描述的技术方案中涉及到的技术术语进行解释说明。

置信区间(confidence interval)：根据样本计算得到的关于总体参数值的区间估计，区间估计不唯一。在统计学中，一个概率样本的置信区间是对这个样本的某个总体参数的区间估计，置信区间展现的是这个参数的真实值有一定概率(即置信水平)落在测量结果的周围的程度，所以说，置信区间给出的是被测量参数的测量值的可信程度。本申请中，可以通过该置信区间的宽度表示用户征信分的可信度。

置信度(confidence level)：也称为置信水平，描述总体参数值落在通过样本计算得到的某一区间(即上述置信区间)内的概率，可以表示特定个体对待特定命题真实性相信的程度。在实际应用中，置信度通常不会达到100％，统计值与总体参数值之间总会有些误差，可以根据实际需要给定95％(本申请对该数值不作限定)的置信度，并在该置信度下，计算征信分的置信区间，由于征信分位于该置信区间内，所以，该置信区间的宽度越小，表示所得征信分的可信度越高。

最大似然估计(maximum likelihood estimation)：又称最大似然法，其基本思想是当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大，也就是说，其满足使得样本似然函数最大化得到的参数值。

自助抽样法(bootstrap)：是一种从给定训练集中有放回的均匀抽样，也就是说，每当选中一个样本，它等可能地被再次选中并被再次添加到训练集中。本申请可以采用这种抽样法对样本数据进行再抽样，获得对总体参数值分布的估计。

图1为本申请实施例提供的实现信息验证方法的系统架构图，如图1所示，该系统可以包括：客户端11、服务器12以及征信数据库13。

其中，客户端11可以装载在手机、平板电脑、笔记本电脑等用户设备上，在实际应用中，通过与服务器12建立通信连接，用户可以通过客户端11访问服务器12，支持客户端11实现其功能，为用户提供所需服务。

可选的，客户端11可以是与服务器12相匹配的应用程序，用户可以通过应用官方网站或应用中心等，下载并安装到用户设备上。当然，客户端11也可以以浏览器的形式存在，本申请对客户端11的存在形式不作限定。

服务器12可以是网络侧为用户提供服务的服务设备，其可能是多台服务器组成的服务器集群，也可能是单台服务器。本申请对此不作限定。

在实际应用中，用户通过客户端11与服务器12进行通信，具体可以在第一应用平台上进行操作，以满足用户实际需要。且在该过程中，可以通过相应的应用数据库记录用户在该第一应用平台上的行为数据，作为用户信用度一方面的数据参考。

征信数据库13可以记录用户可以在第二应用平台上的用户信贷记录、用户社交行为等数据，可以结合上述用户的行为数据，作为历史征信数据，用来综合判定用户信用程度的征信分，其在一定程度上可以反应用户在未来一段时间内按时还款的该里或债务违约的概率。

在实际应用中，服务器12可以根据用户在第二应用平台的账号或其他用户标识信息，从征信数据库13中获取该用户的历史征信数据，并根据需要将该历史征信数据发送至客户端11，以使客户端11利用该历史征信数据完成预设操作。

在本申请中，用户的征信分可以通过训练预测用户信用的模型，将用户在金融、网络社交等多维度的征信数据导入到该模型中计算得到，本申请对计算用户征信分的具体实现方法不作限定。

而且，用户的征信分可以由第二应用平台对应的服务器或客户端计算得到，对于本系统的客户端11和服务器12来说，当接收到用户发起的请求或需要向用户发送指令时，可以直接从第三方获得该用户的征信分。具体可以根据用户在第一应用平台或第二应用平台登录所用账号或其他用户标识，来获得该用户的征信分，本申请对获取用户的征信分的方式不作限定。

申请人研究发现，在征信分使用场景中，通常是直接利用用户的征信分的大小，针对不同征信分的用户采用不一样的策略。如更倾向于将流量分配给高征信分的人群，而对于低征信分的人群则会采用严厉的监控策略。但这种根据征信分实际大小决定采用策略的方法有个不足，对于征信分相同的人群而言没有太好的办法进行区别对待，同时由于建模所用的无论是社交数据还是支付数据等征信数据，数据随时间变化都会有较大的波动，所以，即使是高征信分的用户，其可信程度也不一定高于比其征信分低的用户。

基于此，为了进一步提高对用户信用可靠性以及准确性的判断，以便针对该用户的具体行为给出合适的控制策略，本申请提出在用户征信分基础上，增加了对该征信分的可信度的判断。

为了使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请提供的资源传输对象验证方案作进一步详细的说明。

基于图1所示的系统架构，图2示出了本申请实施例提供的数据验证方法流程图，参照图2，该流程可以包括：

步骤S21，获取用户在预设时间段内的征信数据以及对应的征信分；

其中，用户的征信分可以用于预测该用户行为的可信度，通常情况下，用户的征信分越高，表示该用户的可信度相对也越高。

在征信分的使用场景中，如基于用户的征信分为用户分配资源，或基于用户的征信分选择合适用户等使用场景中，本申请可以通过用户的账号等用户标识，从第三方获得用户的征信数据以及对应的征信分。

需要说明的是，关于第三方客户端或服务器等设备基于用户的历史征信数据，计算该用户的征信分的实现过程，本申请在此不作详述。

由于用户的征信数据随着时间通常会有较大波动，也就是说，每一月计算出来的征信分会有一定的差异，甚至还可能出现差异很大的情况。因此，本申请为了实现对用户征信分可信度的验证，可以获得多个时间内的征信数据，即上述预设时间段可以包括多个时间，如获取用户在三个月内的征信数据，根据需要可以将每个月的征信数据区分开，具体实现方式不作限定，且本申请对预设时间段的具体时间不作限定。

步骤S22，确定该用户的征信分所在的信用等级；

本申请中，可以根据实际需要将征信分划分成不同等级，即不同征信分区间，在通过第三方获得用户的征信分，可以通过该征信分与各征信分区间进行的比较，确定该用户的征信分所在的信用等级。

需要说明的是，本申请对征信分的信用等级划分方式，以及确定用户的征信分所在信用等级的实现方式不作限定。

步骤S23，根据预设算法，利用该预设时间段内的征信数据，获得用户在该预设时间段内的违约概率分布函数；

其中，该预设算法可以包括逻辑回归算法以及最大似然法等等，本申请对该预设算法的具体内容不作限定，即对计算概率分布函数的实现方式不作限定。

可选的，本申请可以采用异方差回归算法，对用户预设时间段内的征信数据进行处理，获得用户在该预设时间段内的违约概率分布函数，以异方差Probit回归为例，如下公式(1)所示，其将数据大小反映在了残差项中。

P(y_i＝1)＝N(x_i·β,exp(z_i·γ)²) (1)

其中，y_i表示用户在某一时间内的信号好坏，若用户在该时间内的信用好可以用0表示，反之可以用1表示；x_i表示相应时间内记录的该用户的征信数据；exp表示指函数；β和γ是公式所示模型参数，z_i也可以表示征信数据，可以与x_i相同，也可以不同。

根据公式(1)可知，用户的违约概率分布服从正态分布，因此，上述公式(1)中的exp(z_i·γ)²可以表示该模型允许不一样的数据能够有不一样的估计波动。

作为本申请另一实施例，为了获得表示用户在预设时间段内违约概率的违约概率分布函数，也可以在上述异方差回归算法的基础上引入自主抽样法，具体增加跨时间对样本数据(即用户各时间内的征信数据)进行抽样，再对得到的新的训练样本进行模型训练，从而获得该用户的违约概率分布函数，具体过程可以参照下面实施例对应部分的描述。

可选的，本申请还可以采用另一种算法，结合逻辑回归算法以及最大似然法，获得用户预设时间段内的违约概率分布函数，具体参照下面实施例对应部分的描述，本申请不作详述。

步骤S24，利用违约概率分布函数，计算给定置信度下该用户的征信分的置信区间；

如上文分析，本申请所得的用户的违约概率分布函数，当然也可以得到相应的用户可信度分布函数，其服从正态分布函数，根据正态分布函数的特性，在给定置信度下，即允许一定违约概率下，可以计算从第三发获得的用户的征信分对应的置信区间。

其中，关于征信分与用户违约概率或用户信用概率之间的转化，可以根据用户征信分的计算方法确定，本申请在此不作详述。

在实际应用中，在相同给定置信度下，若两个用户的征信分相同，但是，由于这两个用户在预设时间段内的征信数据并不相同，按照上述方式得到的各用户的置信区间并不相同，本申请可以通过该置信区间的宽度表示用户的征信分的可信度，且给定置信度下，用户征信分的置信区间宽度越小表示该用户的征信分越可信。

步骤S25，确定该用户的征信分的置信区间的宽度；

本实施例中，可以通过计算置信区间的两个极限值的差值，得到该置信区间的宽度。

步骤S26，判断该置信区间的宽度是否大于预设宽度阈值，如果否，进入步骤S27；如果是，执行步骤S28；

其中，预设宽度阈值可以是在给定置信度下，判断用户的征信分可信或真实的一个临界值，本申请并不限定其具体数值。

步骤S27，执行与用户的信用等级对应的第一预设操作；

由于用户的征信分是位于该置信区间范围内，所以说，在给定置信度(或置信水平)下，较窄置信区间对应征信分更加可信。例如，若两个用户的征信分都是700分，A用户对应的置信区间为600分到750分，B用户对应的置信区间为650分到720分，显然，在给定置信度下，B用户的征信分为700分的可信度更高。

基于此，本申请经上述判断，在给定置信度下，用户的征信分的置信区间宽度不大于预设宽度阈值，即置信宽度较窄，说明该用户的征信分是可信的，若用户的征信分的信用等级较高，可以确定该用户为优质用户，可以为其分配更多的资源，即增大该用户的资源分配额度，从而使这类用户能够获得更多资源。

由此可见，在实际应用中，利用上述方法能够准确筛选出具有高征信分且其具有高可信度的用户，即准确筛选出信用好的用户作为白名单进行业务展开。其中，该业务包括但并不局限于某应用的使用、评论等。所以说，本申请上述第一预设操作的内容可以根据实际应用需要确定，在用户所得信用等级较高(如该信用等级大于预设等级)的情况下，执行第一预设操作会为用户带来更好的资源，从而使应用平台更健康。

步骤S28，执行与用户的信用等级对应的第二预设操作。

结合上述描述，在给定置信度下，即便该用户的信用等级较高，但确定该用户的征信分对应的置信区间较宽，说明该用户的征信分的可信度不高，也就是说，该用户的实际信用程度可能没有达到该征信分所表示的信用程序，在这种情况下，可以适当减少为这类用户分配资源的数量，或者提高为这类用户分配资源的条件等；或者在信贷应用中，对于这类贷款用户可以进行人为干预，保证贷款能够尽快收回，同时也可以减少对这类用户的贷款额度，从而减少贷款无法按期回收的损失。

由此可见，上述第二预设操作与第一预设操作的操作内容相反，具体也可以根据实际应用场景确定，本申请在此不再一一列举。

另外，在实际应用中，由于用户的征信数据会随着时间有很大波动，在给定置信度下，将会使得该用户的征信分的置信区间有所改变，本申请可以按照上述描述的验证方案，利用监控到的用户当前阶段的征信数据，实时获得该用户的征信分的最新置信区间，从而准确验证用户当前阶段的征信分是否可信，以便据此及时调整对该用户的控制策略。

也就是说，本申请可以通过上述数据验证方案，即在用户的征信分这一维度的基础上，增加征信分可信度这一维度的计算，将用户征信数据的波动信息加入到置信区间，实现了对用户信用波动的监控，尤其是对置信区级的宽度大于预设宽度阈值的高征信分用户的监控和分析，从而在这类用户的信用变低时，及时调整对其控制策略，如减少为其分配的资源等，保证资源的有效合理利用。

可选的，对于用户所在信用等级较低的情况，如小于预设等级，通常为其分配资源很少，甚至会将其加入应用黑名单，限制该用户在应用平台的很多操作。本申请提供的这种数据验证方案，通过监控这类用户的征信数据的变化，确定其置信区间的宽度后，能够据此进一步验证该用户的征信分是否可信，若该用户的征信分可信，说明该用户的信用的确很低，可以进一步加大对该用户的限制；反之，可以维持对该用户的控制策略，或者进一步验证该用户的信用，据此适当降低对该用户的限制等，本申请对此不作限定。

可选的，在本申请实际应用中，可以根据步骤S26得到的判断结果对获得的用户的征信分进行调整，如当确定用户所在信用等级较高，但其在给定置信度下，该用户对应的置信区间宽度较窄，说明该用户的征信分可信度较低，用户信用很可能无法达到该征信分对应的信用程度，此时，可以适当降低该用户的征信分，并将降低后的征信分反馈至第三方应用平台等。本申请对根据对征信分可信度的判断结果，对征信分调整的具体方案不作限定。

综上，无论是对征信分较高的用户，还是对征信分较低的用户，本申请都可以结合置信区间的验证，实现对所得用户的征信分可信度的验证，从而实现对同一征信分不同置信区间的用户控制策略的细化，避免了对征信分较高，但现阶段的信用并不高的用户执行宽松策略造成损失。

可选的，在上述实施例的基础上，在确定用户征信分所在信用等级较高，但经验证其征信分的可信度很低，可以发出相应的提醒信息，以提醒本用户或平台，验证用户的信用较低，在对其发送资源时请慎重考虑。需要说明的是，本申请对提醒信息的输出方式以及输出对象不作限定。

如图3所示，为本申请实施提供的另一种数据验证方法的流程图，该本实施例主要是对用户征信分的置信区间的计算过程的描述，其与上述实施例描述的基于异方差回归算法计算该置信区间的方式不同，本实施例在此基础上结合了自助抽样法，具体可以包括以下步骤：

步骤S31，获取N个用户在多个时间内的征信数据以及对应的信用标记；

本实施例中，可以通过第三应用平台获得用户在预设时间段内的征信数据，如用户金融信贷、网络社交等行为数据，本申请对该征信数据的获取方式不作限定。

而且，在实际应用中，第三方应用平台可以利用用户在不同时间内的征信数据，来确定用户在该时间内的信用好坏并标记，如可以将微粒贷中还款逾期的用户作为信用坏的用户，可以将该类用户标记为0；反之，将信用好的用户标记为1，本申请对用户的信用标记的表示方式不作限定，并不局限于0和1这种标记方式。

可选的，本申请还可以利用训练得到的信用预测模型，计算所得征信数据对应的信用分，之后，根据该信用分的大小与预设信用等级的划分规则，确定具有该征信数据的用户的信用等级，即根据信用分的大小确定用户的信用好坏，从而确定该用户的信用标记。其中，信用分可以用来表示用户能够按期还款的概率，用户的信用分越大，该用户的可信度越高。

需要说明的是，本申请对第三应用平台根据用户的征信数据，计算得到用户相应的征信分的方法不作限定，即对信用预测模型的类型及其训练过程不作限定，如可以利用逻辑回归等算法实现。

步骤S32，利用所述多个时间确定相应的时间序列；

在本申请中，由于用户的征信数据随着时间变化都会有很大的波动，对于每一个用户，本申请都将获取其多个预设时间内的征信数据，如获取3月、4月以及5月的征信数据，此时，可以由3月、4月以及5月构成一个时间序列。

由此可见，可以根据获取的征信数据具体生成时间，确定相应的时间序列，本申请对构成该时间序列的多个时间以及各时间的排序不作限定。可选的，可以按照时间先后顺序确定初始时间序列，但并不局限于此。

步骤S33,将属于同一用户的各时间内的征信数据确定为一个样本序号，并利用得到N个不同的样本序号，确定一个样本序列；

如上述记载，本申请对于任意用户，都是获取其多个时间内相应的征信数据，从而使每一个用户的征信数据都包括多个时间对应的征信数据，可以利用一个用户在各时间内的征信数据确定一个样本序号，也就是说，属于同一用户的各时间的征信数据对应一个样本序号，这样可以得到N个不同的样本序号，从而确定一个样本序列，此时，该样本序列中的样本数据可以表示为X_k,t，，k表示样本序号，t表示时间，则该X_k,t即为第k个用户在t时间内的征信数据。

在本申请中，如上述分析，将根据每个用户在每个时间内的征信数据，确定该用户在该时间的信用好坏，确定相应的信用标记，可记为Y_k,t即第k个用户在t时间内的信用好坏。

步骤S34，利用自助抽样法，对得到的时间序列以及样本序列进行抽样处理，得到新的时间序列以及新的样本序列；

自助抽样法(Bootstrap Method，又称自助法)是一种从给定训练集中有放回的均匀抽样，也就是说，每当选中一个样本，它等可能地被再次选中并被再次添加到训练集中，且其抽样分布为正态分布。

基于此，假设本申请获取的是用户在T_now，……，T_now-T_delta时间内的征信数据，通过对T_now，……，T_now-T_delta构成的时间序列进行放回抽样，可以得到t₁，t₂，……，t_N，构成新的时间序列，之后，再对该新的时间序列继续进行放回抽样，如此N次，可以得到N组不同的时间序列，即各时间序列的组成时间及其排序不同。其中，T_now表示当前模型训练的时间，T_delta表示能够允许数据回溯的时间，为预设固定值，本申请并不限定其具体数值。

同理，假设按照上述得到的N个样本序号分别为1，2，……，N，对其构成的初始样本序列进行放回抽样，得到k₁，k₂，……，k_N构成的新的样本序列，之后，再对新的样本序列进行放回抽样，重复N次，可以得到N组不同的样本序列。其中，各样本序列组合的样本及其排序不同，但同一样本序号对应的样本数据相同。

步骤S35，按照新的样本序列中样本序号的排序，以及新的时间训练中的时间排序，依次获得各样本序号与时间对应的征信数据；

在本申请中，可以将样本序列以及时间序列作为矩阵的两个维度，从而在每次得到新的样本序列以及时间序列后，确定各样本序列与任意时间对应的征信数据X_k,t，其中，k＝k₁，k₂，……，k_N；t＝t₁，t₂，……，t_N。

步骤S36，利用依次获得的征信数据以及对应的信用标记，确定训练样本；

在本申请中，结合上述分析，所得征信数据为X_k,t，对应的信用标记为Y_k,t，则得到的训练样本可以为(X_k,t，Y_k,t)，其中，X_k,t可以表示第k个用户在t时间获得的征信数据，Y_k,t表示第k个用户在t时间获得的征信数据对应的信用标记，可以为0或1。

步骤S37，利用异方差回归算法对训练样本进行模型训练，得到预测用户行为可信度的概率模型；

需要说明的是，本申请训练预测用户行为可信度的概率模型所采用的算法包括但并不局限于该异方差回归算法，本实施例在此仅以此为例说明本申请技术方案。

其中，异方差回归算法可以采用上述公式(1)表示，可见该公式实际上是表示用户违约率概率的概率函数，本申请可以据此得到相应时间内用户的违约概率。

步骤S38，检测当前得到的概率模型的数量是否达到N个，如果是，进入步骤S39；如果否，返回步骤S34；

基于上述分析，本申请是在异方差回归模型的基础上引入了自助抽样法，与普通自助抽样法相比，本申请增加了时间抽样，即跨时间对样本进行抽样，从而得到新的训练样本，实现模型训练。

其中，每次获得像一个概率模型时，都将获得当前概率模型所得到的新的时间序列作为初始的时间序列，并将新的样本训练作为初始的样本序列，之后，继续对其进行放回抽样，过程可以按照上述步骤S34对应部分的描述。

步骤S39，根据得到的N个概率模型，利用目标用户在多个时间内的征信数据，获得目标用户的征信分分布函数；

其中，目标用户可以是上述N个用户中的任意一个用户。

需要说明的是，用户违约概率与其征信分之间存在一定对应关系，所以，在利用上述概率模型得到用户正的违约率后，可以转换得到相应的征信分，从而确定该目标用户在各时间内的征信分，

在本申请中，由于每个概率模型所用训练样本不同，得到的这N个概率模型不同，所以，对于同一用户的征信数据，经这N个概率模型，将得到N个违约率，从而得到N个征信分。

由此可见，本申请可以利用用户的征信数据，根据上述概率模型预测得到征信分S(X_i，M_j)，其中，i＝1,2，……，N，j＝1,2，……，N；X_i表示用户第i个时间的征信数据，M_j表示第j个概率模型。之后，通过对得到的N个征信分进行排序，可以获得用户在预设时间段内的征信分变化，从而得到该目标用户的征信分分布函数。其中，该征信分分布函数服从正态分布。

步骤S310，利用目标用户的征信分分布函数，计算给定置信度下该目标用户在预设时间段内的征信分的置信区间。

本申请对正态分布函数中，确定某置信度下参数的置信区间的具体实现方式不作限定。

综上，本申请上述描述的确定征信分置信区间的方法，在参数模型的基础上增加了自助抽样法，具体不仅实现了对所得样本数据的放回抽样，而且，对获得样本数据的多个时间也进行了放回抽样，从而使所得征信分分布函数将征信数据随时间变化的波动考虑进去，提高了基于该置信区间，判断用户征信分可信度的可靠性。

其中，关于步骤S310之后的验证过程可以参照上述实施例对应部分的描述，本实施例在此不再赘述。

为了提高置信区间计算效率，与上述图3对应的实施例不同，本申请还提供了另一种计算征信分置信区间的方法，结合上述图2对应的验证步骤得到了又一种数据验证方法实施例，利用参数模型实现置信区间的计算，通过最大似然法对征信数据计算得到的参数，满足渐进服从正态分布的性质，基于逻辑回归模型利用这一性质，可以得到在模型固定的情况下有

渐进服从正态分布Ν(0,I^-1)。

若令p_i＝P(y_i＝1)表示第i个用户违约的概率即违约率，则根据逻辑回归算法可以得到概率的计算公式，如下公式(2)：

在给定置信度α下，利用该公式(2)可以计算得到，用户的违约率置信区间：

其中，x_i表示第i个用户的征信数据，

Φ(z)＝(1+α)/2，Φ为标准正态分布，I表示费歇尔信息量，是指对数似然函数对总体分布参数导数的方差。之后，可以通过违约率和征信分的关系，将得到违约率置信区间转化得到征信分的置信区间。

然而，在实际应用中，由于用户的征信数据将会随着时间有很大波动，为了提高征信分的置信区间的可靠性，本申请可以获取各用户在预设时间段内的征信数据，从而确定违约率分布，再据此确定给定置信度下的征信分置信区间。

其中，若所用概率模型固定，可以利用下面公式(3)计算用户的违约率：

以获得用户过去三个月内的征信数据为例，得到的违约率分布函数可以利用公式(4)计算得到，其中，公式(4)的表达式为：

其中，x_i表示第i个用户的征信数据，j表示第j个月；x_ij表示第i个用户第j个月的征信数据。

基于上述分析，本申请提供了以下图4所示的又一种数据验证方法，如图4所示的流程图，该方法可以包括：

步骤S41，获取用户在预设时间段内的征信数据以及对应的征信分；

步骤S42，根据最大似然法，利用获得的征信数据，计算模型参数及其协方差；

关于对获得的各时间内的征信数据的最大似然估计过程，本申请不作详述，经过对用户某一时间内的征信数据进行最大似然估计，得到的参数可以作为模型参数β_mle以及该模型参数的协方差w。

其中，w＝I^-1，I表示费歇尔信息量，是指对数似然函数对总体分布参数导数的方差。

步骤S43，根据标准正态函数以及逻辑回归算法，利用模型参数、协方差以及预设时间段内的征信数据，获得用户的违约概率分布函数；

在本申请中，可以利用得到的征信数据以及模型参数，利用μ_ij＝x_ij·β_mle这一公式，计算得到用户各时间的期望。并利用

这一公式，计算得到方差σ_ij ²。

根据定义

和

将上述计算得到的期望μ_ij以及方差σ_ij ²代入定义函数中，得到用户在多个时间内的违约概率分布函数，具体计算过程本申请在此不作详述。

步骤S44，利用获得的所述违约概率分布函数，确定给定置信度下用户在各时间的违约率置信区间；

为了方便描述计算过程，本申请可以令z＝x_ij·β，结合上述分析，在给定置信度α下，可以计算两个置信极限，即令

和

计算求解得到z₁和z₂。

之后，根据上述公知(2)变形，即

计算得到相应的置信极限p₁和p₂，则得到的违约率置信区间可以表示为[p₁,p₂]。

步骤S45，根据违约率与征信分之间的关系，将违约率置信区间转化为征信分置信区间。

本申请对用户违约率p与征信分S之间的关系不作限定，可以根据用户征信分的计算方法确定，本申请对此不作限定。

可选的，本申请可以利用

这一公式，将得到的置信极限p₁和p₂转化为相应的s₁和s₂，则得到的征信分置信区间表示为[s₁,s₂]。

由此可见，本实施例将利用用户过去一段时间内的征信数据，获得用户违约概率分布情况，由于其服从正态分布，能够根据正态分布的性质，计算得到给定置信度下，用户的违约率置信区间，从而得到该用户在这一段时间的征信分的置信区间，进而据此判断用户在这一段时间的征信分的可信度。

其中，本实施例利用所得征信分的置信区间，判断获得的用户的征信分的可信度的过程可以参照上述图2对应实施例相应部分的描述，本实施例在此不再赘述。

综上，本申请可以通过多种方式，利用用户过去一段时间内的征信数据，计算得到用户这段时间的征信分的置信区间，从而根据该置信区间的宽度来判断该征信分的可信度，进而根据征信分大小及其可信度，来确定对用户采取的策略，实现了对相同征信分但不同行为用户，执行不同策略，为信用的确高的用户提供更多资源，保证资源的合理有效利用。

需要说明的是，在本实施例中，也可以采用其他参数模型结合最大似然算法，计算预设时间段的置信区间，并不局限于本实施例记载的逻辑回归模型。

可选的，基于上述对本申请提供的数据验证方案的分析，在流量分配等用户资源的倾斜策略的应用场景中，本申请通过计算用户征信分的信用度，筛选出不但具有高征信分，而且具有高可信度的用户作为优质客户，与此同时也筛选出了坏客户，即征信分较低或者征信分可信度不高的客户，从而根据筛选结果，实现流量倾斜控制，使得整个平台的优质客户能够获得更多资源，反之，为坏客户分配的资源就会更少，使得整个平台更健康。

而且，在实际应用中，也可以利用本申请提供的数据验证方案，用户选择，如基于用户的征信分及其可信度，更准确地筛选出一部分好用户(即信用高的用户)作为白名单进行业务展开，同时还能够屏蔽掉一部分坏用户(信用低的用户)。本申请对该业务的具体内容不作限定，如游戏公测或音乐试听业务等等。

此外，本申请还可以利用上述方案实现人群监控，如对贷款用户的监控，当根据用户征信分可信度判断用户是否有变坏的趋势，具体可以通过得到的各时间段的置信区间宽度的变化，来得知用户信用的变化，当确定该用户征信分小于一定值，且其可信度大于某一个给定阈值，说明该用户信用的确很低，可以采用电话沟通等人为干预的措施进行催收，或者后续减少放贷，从而减小损失。

需要说明的是，本申请提供的数据验证方案适用场景包括但并不局限于上文列举的应用场景，本申请在此不再一一详述。

可选的，如图5所示，为本申请实施例提供的一种数据验证装置的结构框图，在实际应用中，该装置可以应用于客户端，也可以应用于服务器，本申请对此不作限定。本实施例提供的该装置可以包括：

数据获取模块51，用于获取用户在预设时间段内的征信数据以及对应的征信分，所述征信分用于预测用户行为的可信度；

计算模块52，用于根据预设算法，利用所述预设时间段内的征信数据，计算给定置信度下所述用户的征信分的置信区间，所述征信分的置信区间用于预测所述信用分的可信度；

执行模块53，用于基于所述用户的征信分以及对应的置信区间，针对所述用户执行相应的预设操作。

可选的，如图6所示，该执行模块53具体可以包括：

宽度确定单元531，用于确定所述用户的征信分所在信用等级以及所述置信区间的宽度；

判断单元532，用于判断所述置信区间的宽度是否大于预设宽度阈值；

第一执行单元533，用于执行所述信用等级下针对所述用户的第一预设操作；

第二执行单元534，用于执行所述信用等级下针对所述用户的第二预设操作。

作为本申请另一实施例，如图7所示，计算模块52可以包括：

抽样单元5211，用于通过自助抽样法对N个用户在所述预设时间段内的征信数据进行抽样处理，得到训练样本；

在实际应用中，该抽样单元5211可以包括：

第一确定子单元，用于利用所述预设时间段中的多个时间确定对应的时间序列；

第一确定子单元，用于将属于同一用户的所述多个时间内的征信数据确定为一个样本序号，并利用得到N个不同的样本序号，确定一个样本序列；

抽样处理子单元，用于利用自助抽样法对所述时间序列以及样本序列进行抽样处理，确定一组新的时间序列以及新的样本序列；

数据获取子单元，用于按照所述新的样本序列中所述样本序号的排序，以及所述新的时间序列中所述时间的排序，依次获得所述样本序号与所述时间对应的征信数据；

样本获得子单元，用于利用依次获得的所述征信数据以及对应的信用标记，获得训练样本；

模型训练单元5212，用于根据预设模型训练算法，对所述训练样本进行模型训练，得到预测用户行为可信度的概率模型，返回所述通过自助抽样法对所述N个用户在所述预设时间段内的征信数据进行抽样处理，得到训练样本步骤，直至得到N个所述概率模型；

征信分分布确定单元5213，用于根据所述N个所述概率模型，利用任一所述用户在所述预设时间段内的征信数据，确定所述用户的征信分分布；

置信区间获得单元5214，用于利用确定的所述征信分分布，获得给定置信度下所述用户的征信分在所述预设时间段内的置信区间。

作为本申请又一实施例，如图8所示，上述计算模块52可以包括：

违约概率分布确定单元5221，用于根据预设参数模型以及最大似然算法，利用所述预设时间段内的征信数据，确定所述用户在所述预设时间段内的违约概率分布；

违约率置信区间获得单元5222，用于利用确定的所述违约概率分布，获得给定置信度下所述用户在所述预设时间段内的违约率置信区间；

可选的，本申请中，该违约率置信区间获得单元5223可以包括：

参数计算单元，用于根据最大似然算法，利用所述用户在预设时间段内的征信数据，计算模型参数以及所述模型参数的协方差；

违约率置信区间确定单元，用于根据标准正态函数以及预设参数算法，利用所述模型参数、所述模型参数的协方差以及所述预设时间段内的征信数据，确定所述用户在所述预设时间段内违约概率分布。

转化单元5223，用于根据预设的违约率与征信分之间的转化关系，将所述违约率置信区间转化为征信分置信区间。

综上所述，本申请通过计算用户征信分可信度，作为评估获得的用户的征信分的可信程度，从而准确筛选出信用好的用户，以及信用坏的用户，并据此确定为用户分配合适的控制策略，即针对用户执行合适的预设操作，充分考虑到了用户征信数据随着时间的波动，避免了为征信分高但实际信用较低用户分配较多资源，造成企业或他人的损失。

下面将从该数据验证装置的硬件结构进行介绍，参照图9，为本申请实施例提供的一种数据验证装置的硬件结构框图，该装置可以包括处理器91、通信接口92、存储器93以及通信总线94；

其中，处理器91、通信接口92、存储器93可以通过通信总线94完成相互间的通信；

可选的，通信接口92可以为通信模块的接口，如GSM模块的接口；

处理器91可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器93可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，处理器91具体用于：

其中，处理器计算征信分置信区间的具体实现过程可以参照上述各实施例对应部分的描述，本实施例在此不再赘述。

综上，本申请结合用户的征信分随时间的波动因素，计算征信分的置信区间，来验证用户的征信分的可信度，从而准确筛选出信用较高的用户以及信用较低的用户，进而为用户执行合适的预设操作。也就是说，本申请结合用户征信分以及征信分的置信区间两个维度，确定用户信用的可信程度，从而为其分配合适的控制策略。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据验证方法，其特征在于，所述方法包括：

获取用户在预设时间段内的征信数据以及对应的征信分，所述征信分用于预测用户行为的可信度，其中获取的征信数据包括N个用户在所述预设时间段内的征信数据；

通过自助抽样法对所述N个用户在所述预设时间段内的征信数据进行抽样处理，得到训练样本；

根据预设模型训练算法，对所述训练样本进行模型训练，得到预测用户行为可信度的概率模型，返回所述通过自助抽样法对所述N个用户在所述预设时间段内的征信数据进行抽样处理，得到训练样本步骤，直至得到N个所述概率模型；

根据所述N个所述概率模型，利用任一所述用户在所述预设时间段内的征信数据，确定所述用户的征信分分布；

利用确定的所述征信分分布，获得给定置信度下所述用户的征信分在所述预设时间段内的置信区间，所述征信分的置信区间用于预测所述征信分的可信度；

2.根据权利要求1所述的方法，其特征在于，所述基于所述用户的征信分以及对应的置信区间，针对所述用户执行相应的预设操作，包括：

确定所述用户的征信分所在信用等级以及所述置信区间的宽度；

判断所述置信区间的宽度是否大于预设宽度阈值；

如果否，执行所述信用等级下针对所述用户的第一预设操作；

如果是，执行所述信用等级下针对所述用户的第二预设操作。

3.根据权利要求1所述的方法，其特征在于，所述通过自助抽样法对所述N个用户在所述预设时间段内的征信数据进行抽样处理，得到训练样本，包括：

利用所述预设时间段中的多个时间确定对应的时间序列；

将属于同一用户的所述多个时间内的征信数据确定为一个样本序号，并利用得到N个不同的样本序号，确定一个样本序列；

利用自助抽样法对所述时间序列以及样本序列进行抽样处理，确定一组新的时间序列以及新的样本序列；

按照所述新的样本序列中所述样本序号的排序，以及所述新的时间序列中所述时间的排序，依次获得所述样本序号与所述时间对应的征信数据；

利用依次获得的所述征信数据以及对应的信用标记，获得训练样本。

4.根据权利要求3所述的方法，其特征在于，所述返回所述通过自助抽样法对所述N个用户在所述预设时间段内的征信数据进行抽样处理，得到训练样本步骤，直至得到N个所述概率模型，包括：

判断当前是否得到N个所述概率模型；

如果否，将所述新的时间序列作为初始的所述时间序列，并将所述新的样本序列作为初始的所述样本序列，返回所述利用自助抽样法对所述时间序列以及样本序列进行抽样处理，确定一组新的时间序列以及新的样本序列步骤。

5.根据权利要求2所述的方法，其特征在于，

在所述信用等级达到第一预设等级，所述执行所述信用等级下针对所述用户的第一预设操作包括：增大所述用户的资源分配额度；

在所述信用等级小于第二预设等级，所述执行所述信用等级下针对所述用户的第一预设操作包括：减小所述用户的资源分配额度。

6.一种数据验证装置，其特征在于，所述装置包括：

数据获取模块，用于获取用户在预设时间段内的征信数据以及对应的征信分，所述征信分用于预测用户行为的可信度，其中获取的征信数据包括N个用户在所述预设时间段内的征信数据；

计算模块，用于根据预设算法，利用所述预设时间段内的征信数据，计算给定置信度下所述用户的征信分的置信区间，所述征信分的置信区间用于预测所述征信分的可信度；

执行模块，用于基于所述用户的征信分以及对应的置信区间，针对所述用户执行相应的预设操作；

所述计算模块包括：

抽样单元，用于通过自助抽样法对N个用户在所述预设时间段内的征信数据进行抽样处理，得到训练样本；

模型训练单元，用于根据预设模型训练算法，对所述训练样本进行模型训练，得到预测用户行为可信度的概率模型，返回所述通过自助抽样法对所述N个用户在所述预设时间段内的征信数据进行抽样处理，得到训练样本步骤，直至得到N个所述概率模型；

征信分分布确定单元，用于根据所述N个所述概率模型，利用任一所述用户在所述预设时间段内的征信数据，确定所述用户的征信分分布；

置信区间获得单元，用于利用确定的所述征信分分布，获得给定置信度下所述用户的征信分在所述预设时间段内的置信区间。

7.根据权利要求6所述的装置，其特征在于，所述执行模块包括：

宽度确定单元，用于确定所述用户的征信分所在信用等级以及所述置信区间的宽度；

判断单元，用于判断所述置信区间的宽度是否大于预设宽度阈值；

第一执行单元，用于在所述置信区间的宽度不大于所述预设宽度阈值的情况下，执行所述信用等级下针对所述用户的第一预设操作；

第二执行单元，用于在所述置信区间的宽度大于所述预设宽度阈值的情况下，执行所述信用等级下针对所述用户的第二预设操作。

8.根据权利要求6所述的装置，其特征在于，所述抽样单元包括：

样本获得子单元，用于利用依次获得的所述征信数据以及对应的信用标记，获得训练样本。

9.一种数据验证装置，其特征在于，包括存储器与处理器；

所述存储器用于存储程序；

所述处理器用于执行所述程序，以实现权利要求1-5任意一项所述的数据验证方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序，所述程序在被处理器执行时，以实现权利要求1-5任意一项所述的数据验证方法。