CN109426962B

CN109426962B - 一种数据模型校准方法、装置和设备

Info

Publication number: CN109426962B
Application number: CN201710742930.8A
Authority: CN
Inventors: 黄文�
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2023-04-07
Anticipated expiration: 2037-08-25
Also published as: CN109426962A

Abstract

本发明公开了一种数据模型校准、装置和设备，用以保证数据模型评估结果的准确性和稳定性，提高数据模型的时效性。所述方法包括：利用原始数据模型分别对第一样本数据和第二样本数据进行评估得到第一评估结果和第二评估结果；根据第一评估结果和第二评估结果中包含的第一评分和第二评分，判断第二评估结果是否满足评估结果稳定条件；根据第一评估结果和第二评估结果中包含的第一概率和第二概率，判断第二评估结果是否满足评估结果准确条件；如果满足评估结果准确条件但不满足评估结果稳定条件，则根据第一评分和第二评分对第二评分进行校准；如果满足评估结果稳定条件但不满足评估结果准确条件，则根据第二概率和第二评分对第二评分进行校准。

Description

一种数据模型校准方法、装置和设备

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

互联网金融是指借助于互联网技术、移动通信技术实现资金融通、支付和信息中介等业务的新兴金融模式。数据产生、数据挖掘、数据安全和搜索引擎技术是互联网金融的有力支撑。社交网络、电子商务、第三方支付、搜索引擎等形成了庞大的数据量，云计算和行为分析理论使大数据挖掘成为可能，数据安全技术使隐私保护和交易支付顺利进行，而搜索引擎使用户更加容易获取信息，这些技术的发展极大减小了金融交易的成本和风险，扩大了金融服务的边界。

与传统金融类似，风险控制也是互联网金融技术需要解决的关键问题之一。现有技术中，结合数据挖掘技术，针对不同的用户群，不同的业务类型开发出大量的数据模型用于对不同用户可能存在的风险进行评估。即利用用户已产生的数据，例如交易次数，交易时间等来预测用户在未来一段时间内违约的概率。

但是每一数据模型都有其相应的生命周期，数据模型在被开发出一段时间后，其评估结果可能不准确或者不稳定，从而降低了风险控制的有效性。而为了保证风险控制的有效性，现有技术在每隔一段时间需要对数据模型进行更新甚至重新开发数据模型，这无疑增加了数据模型开发资源的开销，而且数据模型更新或者重新开发需要耗费的周期较长，影响了数据模型的时效性。

发明内容

本发明实施例提供一种数据模型校准方法、装置和设备，用以保证数据模型评估结果的准确性和稳定性，提高数据模型的时效性。

本发明实施例提供一种数据模型校准方法，包括：

利用原始数据模型分别对第一样本数据和第二样本数据进行评估得到第一评估结果和第二评估结果，其中，所述第一样本数据和所述第二样本数据为针对相同样本在不同统计周期内收集的样本数据，所述第一评估结果中包括针对每一样本的第一评分和任一评分或者评分段中目标样本出现的第一概率，第二评估结果中包括针对每一样本的第二评分和任一评分或者评分段中目标样本出现的第二概率；

根据所述第一评分和所述第二评分，确定第二评估结果相对于第一评估结果是否满足预设的评估结果稳定条件；以及

根据所述第一概率和第二概率，确定所述第二评估结果相对于第一评估结果是否满足预设的评估结果准确条件；

如果确定第二评估结果相对于第一评估结果满足评估结果准确条件但不满足评估结果稳定条件，则根据所述第一评分和所述第二评分对所述第二评分进行校准；如果确定第二评估结果相对于第一评估结果满足评估结果稳定条件但不满足评估结果准确条件，则根据所述第二概率和第二评分对所述第二评分进行校准。

本发明实施例提供了一种数据模型校准装置，包括：

评估单元，用于利用利用原始数据模型分别对第一样本数据和第二样本数据进行评估得到第一评估结果和第二评估结果，其中，所述第一样本数据和所述第二样本数据为针对相同样本在不同统计周期内收集的样本数据，所述第一评估结果中包括针对每一样本的第一评分和任一评分或者评分段中目标样本出现的第一概率，第二评估结果中包括针对每一样本的第二评分和任一评分或者评分段中目标样本出现的第二概率；

第一确定单元，用于根据所述第一评分和所述第二评分，确定第二评估结果相对于第一评估结果是否满足预设的评估结果稳定条件；以及根据所述第一概率和第二概率，确定所述第二评估结果相对于第一评估结果是否满足预设的评估结果准确条件

校准单元，用于如果所述第一确定单元确定第二评估结果相对于第一评估结果满足评估结果准确条件但不满足评估结果稳定条件，则根据所述第一评分和所述第二评分对所述第二评分进行校准；如果所述第一确定单元确定第二评估结果相对于第一评估结果满足评估结果稳定条件但不满足评估结果准确条件，则根据所述第二概率和第二评分对所述第二评分进行校准。

本发明实施例提供了一种数据模型校准设备，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行上述方法所述的步骤。

本发明实施例提供一种计算机可读存储介质，其包括程序代码，当所述程序产品在数据模型校准装置上运行时，所述程序代码用于使所述数据模型校准装置上述方法所述的步骤。

本发明实施例提供的数据模型校准方法和装置，利用原始数据模型分别对第一样本数据和第二样本数据进行评估的得到评估结果，如果根据两次评估结果的比较结果确定评估结果满足评估结果准确条件但不满足评估结果稳定条件则利用评估结果中包含的第一评分和第二评分对第二评分进行校准，如果确定评估结果满足评估结果稳定条件但不满足评估结果准确条件则根据评估结果中包含的第二概率和第二评分对第二评分进行校准，来提高原始数据模型评估结果的稳定性和准确性，上述过程中，由于无需更新数据模型或者重新开发数据模型，从而节约了数据模型开发所需的资源，提高了数据模型的时效性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1a为本发明实施例中，数据模型校准方法的应用场景示意图；

图1b为本发明实施例中，数据模型校准方法的实施流程示意图；

图1c为本发明实施例中，评估结果满足准确条件但不满足稳定条件的示意图；

图1d为本发明实施例中，评估结果满足稳定但不满足准确条件的示意图；

图2为本发明实施例中，确定第二评估结果相对于第一评估结果是否满足预设的评估结果稳定条件的流程示意图；

图3为本发明实施例中，确定第二评估结果相对于第一评估结果是否满足预设的评估结果准确条件的流程示意图；

图4为本发明实施例中，同一LN(ODDS)对应于不同评分的示意图；

图5为本发明实施例中，LN(ODDS)对应的标准评分的意图；

图6为本发明实施例中，根据LN(ODDS)和评分进行拟合的示意图；

图7为本发明实施例中，第一种数据模型校准装置的结构示意图；

图8为本发明实施例中，第二种数据模型校准装置的结构示意图。

具体实施方式

为了在保证数据模型评估结果的稳定性和准确性的基础上，节约数据模型开发资源，提高数据模型的时效性，本发明实施例提供了一种数据模型校准方法和装置。

以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

首先参考图1a，其为实施本发明实施例提供的数据模型校准方法的应用场景示意图。包括用户设备11和服务器12。其中，所述用户设备11中安装有客户端，用户10通过客户端使用服务器12提供的金融服务。

需要说明的是，用户设备安装的客户端可以为独立的金融客户端，也可以为其他类型客户端，在该客户端中嵌入有金融服务功能，例如，在即时通信客户端中嵌入的金融服务功能等等，本发明对此不进行限定。

用户设备11和服务器12通过通信网络进行通信连接，该网络可以为局域网、广域网等。用户设备11可以为手机、平板电脑等，服务器12可以为任何能够提供网络金融业务的服务器设备。本发明实施例提供的数据模型校准方法可以应用于服务器12中。

下面结合图1a的应用场景，参考图1b来描述根据本发明示例性实施方式的数据模型校准方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

如图1b所示，其为本发明实施例提供的数据模型校准方法的实施流程示意图，可以包括以下步骤：

S11、利用原始数据模型分别对第一样本数据和第二样本数据进行评估得到第一评估结果和第二评估结果。

其中，所述第一样本数据和所述第二样本数据为针对相同样本在不同统计周期内收集的样本数据，所述第一评估结果中包括针对第一样本数据中每一样本的第一评分，第二评估结果中包括针对第二样本数据中每一样本的第二评分。其中，第一评分和第二评分都是利用原始数据模型直接计算得到的，只是针对每一样本在不同统计周期收集的样本数据，比如针对同一样本分别在17年7月和16年1月的统计数据计算得到。

例如，具体实施时，可以利用原始数据模型对相同用户群体分别在数据模型开发后第1个月以及数据模型开发后第4个月产生的交易数据进行评估，分别得到相应的评估结果，评估结果中，可以包括以下两项内容：每一用户对应的评分，任一评分或者评分段中目标样本出现的概率。该概率为任一评分或者评分段对应的所有样本中目标样本数量与全部样本数量的比值。

其中，针对互联网封风险控制的应用场景，目标样本可以为在统计周期内满足预设条件的逾期或者违约的风险用户。

S12、根据所述第一评分和所述第二评分，确定第二评估结果相对于第一评估结果是否满足预设的评估结果稳定条件。

S13、根据所述第一概率和第二概率，确定所述第二评估结果相对于第一评估结果是否满足预设的评估结果准确条件。

需要说明的是，具体实施时，步骤S12和步骤S13之间并没有一定的先后执行顺序，步骤S13也可以先于步骤S12执行，两个步骤也可以同时执行。

S14、如果确定第二评估结果相对于第一评估结果满足评估结果准确条件但不满足评估结果稳定条件，则根据所述第一评分和所述第二评分对所述第二评分进行校准；如果确定第二评估结果相对于第一评估结果满足评估结果稳定条件但不满足评估结果准确条件，则根据所述第二概率和第二评分对所述第二评分进行校准。

本发明实施例中，对于数据模型结果稳定性出现一定程度的偏差，但是模型结果仍满足正态检验，如图1c所示，图中横坐标表示评分或者评分段，纵坐标表示人数，图1c中包括了201701的评分和201706的评分，从图中可以看出，201701到201706评分发生了明显的偏移，但是总体形状是没有发生明显的形变，并且同一个评分或评分段对应的风险用户占比也没有明显变化，只是同一个评分或评分段下用户的占比发生的变化；这种情况下，仅需要对数据模型进行简单的平衡校准，即对整体人群进行一定的平移；而对于模型结果准确性出现偏差，如图1d所示，图中横坐标表示评分或者评分段，纵坐标表示坏账率；Devsmp表示第一评分的坏账率；Std-2σ与Std+2σ表示第一评分分布坏账率正负两个标准差内(在这个范围内说明是正常的)，201604、201605、201606、201607可以看做四个第二评分的分布，由图1d可以看出，坏账率发生严重偏移，这种情况下，本发明实施例中可以对结果进行一定的回归校准，而不需要重新开发模型。所谓回归校准，就是分布没有平移，但是同一分数对应的风险用户占比发生变化。

较佳地，步骤S12中，可以按照图2所示的流程确定第二评估结果相对于第一评估结果是否满足预设的评估结果稳定条件，包括以下步骤：

S121、分别确定所述第一评分对应的第一平均值和所述第二评分对应的第二平均值。

本步骤中，可以根据所有样本的评分之和与样本数量的比值确定评分的平均值。

S122、确定所述第一平均值与所述第二平均值的差值。

S123、判断所述第一评分对应的第一评分分布和所述第二评分对应的第二评分分布是否相同，如果是，执行步骤S124，否则，执行步骤S126。

其中，第一评分分布和第二评分分布可以分别参照图1c中201701的评分分布和201706的评分分布。

S124、判断第一平均值与所述第二平均值的差值是否在第一预设范围内，如果是，执行步骤S125，如果否，执行步骤S126。

S125、确定所述第二评估结果相对于第一评估结果满足预设的评估结果稳定条件，流程结束。

S126、确定所述第二评估结果相对于第一评估结果不满足预设的评估结果稳定条件。

较佳地，具体实施时，步骤S13中，可以按照图3所示的流程判断第二评估结果相对于第一评估结果是否满足预设的评估结果准确条件：

S31、针对任一评分或者评分段，判断该评分或者评分段对应的第一概率和第二概率的差值是否在第二预设范围内，如果是，则执行步骤S32，否则，执行步骤S33。

S32、确定第二评估结果相对于第一评估结果满足预设的评估结果准确条件，流程结束。

S33、确定第二评估结果相对于第一评估结果不满足预设的评估结果准确条件。

为了更好地理解本发明实施例，以下分别针对第二评估结果相对于第一评估结果满足评估结果准确条件但不满足评估结果稳定条件和第二评估结果相对于第一评估结果满足评估结果稳定条件但不满足评估结果准确条件的应用场景进行详细说明。

第一种情况、第二评估结果相对于第一评估结果满足评估结果准确条件但不满足评估结果稳定条件。

这种情况下，评分结果准确，但是总体分布发生了平移。即可以采用如下的公式表示第一评分分布和第二评分分布之间的关系：X₂＝k*X₁+b+ε，其中，ε是可以忽略的误差，那么只需要确定出k和b就能通过X₁对X₂进行校准了。

应当理解，E(X₂)＝E(k*X₁+b+ε)，D(X₂)＝D(k*X₁+b+ε)。因此，本发明实施例中，可以根据第一评分分别确定出第一评分对应的标准差和平均值，并根据所述第二评分，分别确定所述第二评分对应的标准差和平均值；根据所述第一评分和第二评分对应的标准差和平均值，对所述第二评分进行校准。为了便于描述，以下记σ₁和σ₂分别为第一评分和第二评分对应的标准差；μ₁和μ₂分别为第一评分和第二评分对应的平均值。根据D(X₂)＝D(k*X₁+b+ε)可知，μ₂＝k*μ₁+b+ε，且根据E(X₂)＝E(k*X₁+b+ε)可知，σ₂ ²＝k²*σ₁ ²，由此，可以确定出，

再根据公式X₂＝k*X₁+b+ε可知，

本发明实施例中，校准后的评分为利用旧的评分进行偏移得到，既保证了数据模型的稳定性，又减少了由于重新开发模型所消耗的资源。

第二种情况、第二评估结果相对于第一评估结果满足评估结果稳定条件但不满足评估结果准确条件。

这种情况下，第二评估结果与第一评估结果不一致，但是结果仍然有区分能力，例如，针对任一评分或者评分段，第一评估结果中目标样本出现的概率为2％，数据模型运行一段时间后，在第二评估结果中目标样本出现的概率变化为5％，这种情况即可认为第二评估结果准确性出现了偏差。本发明实施例中，利用ODDS来描述目标样本与非目标样本的比值。即

其中，P为所述评估结果中任一评分或者评分段中目标样本出现的概率。

如果数据模型的评估结果满足评估结果稳定条件但不满足评估结果准确条件，即针对相同的评分或者评分段，对应的LN(ODDS)不同，即相同的LN(ODDS)，对应的评分差值比较大，如图4所示，例如同一个ln(0.2)，第一评分对应300，第二评分对应400，针对这种情况，应尽可能让同样的评分或者评分段对应到同样的LN(ODDS)。

据此，针对每一LN(ODDS)，可以确定出其应当对应的标准分，具体实施时，根据LN(ODDS)可以按照以下公式确定出其对应的标准评分：

其中，Score表示标准评分；

P为所述第二评估结果中任一评分或者评分段中目标样本出现的第二概率；Odp和Base为预设值。如图5所示，其可以为确定出的每一LN(ODDS)对应的标准评分。

基于此，可以根据标准评分、第二评估结果中目标样本出现的第二概率以及第二评分对第二评分进行校准。。

较佳地，根据所述标准评分、所述第二概率和所述第二评分，利用以下公式对第二评分进行校准：

其中：

NewScore为对第二评分校准后得到的评分；

OldScore为第二评分；

a₁和b₁为利用以下公式进行线性拟合得到的：ln(ODDS)＝a₁*OldScore+b₁；

a₂和b₂为利用以下公式进行线性拟合得到的：ln(ODDS)＝a₂*Score+b₂。

如图6所示，其为利用ln(ODDS)＝a₁*OldScore+b₁和ln(ODDS)＝a₂*Score+b₂进行线性拟合得到a₁和b₁以及a₂和b₂的示意图。

为了更好的理解本发明实施例，以下结合互联网金融风险控制应用场景对本发明实施例的具体实施过程进行说明。其中，在该应用场景下，目标样本可以为样本数据中的风险用户，非目标样本可以为样本数据中的安全用户。

如表1所示，其为第二评分数据示例，为了描述方便，表1中对账户等分记录分段，取每一评分段的中位数(即发明实施例中的OldScore)进行校准，具体实施时，每一评分段的观测数量不必完全相等，但尽量等分。

表1

针对上述每一行数据，利用公式

计算每一行数据对应的ODDS，并计算每一行数据对应的LN(ODDS)，利用公式

计算每一行数据对应的标准评分(Score)，可以得到如下的表2：

表2

进一步地，根据LN(ODDS)和原始评分中位数进行线性拟合得到a₁和b₁，以及根据LN(ODDS)和Score进行线性拟合得到a₂和b₂，由此，可以确定出a₁＝0.04377，b₁＝-25.2223，a₂＝0.0462，b₂＝-27.7904，最后，针对每一原始评分中位数，根据a₁和b₁以及a₂和b₂，利用公式

对该中位数进行校准得到NewScore，如表3所示：

表3

本发明实施例中，校准后的评分仅仅是用旧的评分回归出来的，因此，在保证评估结果有效准确的前提下，减少了重新开发模型所消耗的资源。

基于同一发明构思，本发明实施例中还提供了一种数据模型校准装置，由于上述装置解决问题的原理与数据模型校准方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图7所示，其为本发明实施例提供的数据模型校准装置的结构示意图，可以包括：

评估单元71，用于利用原始数据模型分别对第一样本数据和第二样本数据进行评估得到第一评估结果和第二评估结果。

其中，所述第一样本数据和所述第二样本数据为针对相同样本在不同统计周期内收集的样本数据，所述第一评估结果中包括针对每一样本的第一评分和任一评分或者评分段中目标样本出现的第一概率，第二评估结果中包括针对每一样本的第二评分和任一评分或者评分段中目标样本出现的第二概率。

第一确定单元72，用于根据所述第一评分和所述第二评分，确定第二评估结果相对于第一评估结果是否满足预设的评估结果稳定条件；以及根据所述第一概率和第二概率，确定所述第二评估结果相对于第一评估结果是否满足预设的评估结果准确条件；

校准单元73，用于如果所述第一确定单元确定第二评估结果相对于第一评估结果满足评估结果准确条件但不满足评估结果稳定条件，则根据所述第一评分和所述第二评分对所述第二评分进行校准；如果所述第一确定单元确定第二评估结果相对于第一评估结果满足评估结果稳定条件但不满足评估结果准确条件，则根据所述第二概率和第二评分对所述第二评分进行校准。

其中，所述第一确定单元，可以用于分别确定所述第一评分对应的第一平均值和所述第二评分对应的第二平均值；确定所述第一平均值与所述第二平均值的差值；确定所述第一评分对应的第一评分分布和所述第二评分对应的第二评分分布是否相同；如果所述第一评分分布和所述第二评分分布相同且所述差值在第一预设范围之内，则确定所述第二评估结果相对于第一评估结果满足预设的评估结果稳定条件；如果所述第一评分分布和所述第二评分分布相同且所述差值不在所述第一预设范围之内，则确定所述第二评估结果相对于第一评估结果不满足预设的评估结果稳定条件。

其中，所述第一确定单元，可以用于针对任一评分或者评分段，确定该评分或者评分段对应的第一概率和第二概率的差值是否在第二预设范围内；如果该评分或者评分段对应的第一概率和第二概率的差值在第二预设范围内，则确定第二评估结果相对于第一评估结果满足预设的评估结果准确条件；如果该评分或者评分段对应的第一概率和第二概率的差值不在第二预设范围内，则确定第二评估结果相对于第一评估结果不满足预设的评估结果准确条件。

其中，所述校准单元，可以用于根据所述第一评分，分别确定所述第一评分对应的标准差和平均值；根据所述第二评分，分别确定所述第二评分对应的标准差和平均值；根据所述第一评分和第二评分对应的标准差和平均值，对所述第二评分进行校准。

其中，所述校准单元，可以用于根据所述第一评分和第二评分对应的标准差和平均值，按照以下公式对所述第二评估结果进行校准：

其中：

X₁和X₂分别为第一评分分布和第二评分分布；

σ₁和σ₂分别为第一评分和第二评分对应的标准差；

μ₁和μ₂分别为第一评分和第二评分对应的平均值。

其中，所述校准单元，可以用于根据根据所述第二概率，按照以下公式确定所述第二概率对应的标准评分：

并根据所述标准评分、所述第二概率和所述第二评分对所述第二评分进行校准，其中：

Score表示标准评分；

P为所述第二评估结果中任一评分或者评分段中目标样本出现的第二概率；

Odp和Base为预设值。

其中，所述校准单元，可以用于根据所述标准评分、所述第二概率和所述第二评分，利用以下公式对第二评分进行校准：

其中：

NewScore为对第二评分校准后得到的评分；

OldScore为第二评分；

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本发明示例性实施方式的数据模型校准方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的用于数据模型校准的设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的数据模型校准设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书中描述的根据本发明各种示例性实施方式的数据模型校准方法中的步骤。例如，所述处理单元可以执行如图1b中所示的步骤S11、利用原始数据模型分别对第一样本数据和第二样本数据进行评估得到第一评估结果和第二评估结果，和步骤S12、根据所述第一评分和所述第二评分，确定第二评估结果相对于第一评估结果是否满足预设的评估结果稳定条件，步骤S13、根据所述第一概率和第二概率，确定所述第二评估结果相对于第一评估结果是否满足预设的评估结果准确条件，步骤S14，如果确定第二评估结果相对于第一评估结果满足评估结果准确条件但不满足评估结果稳定条件，则根据所述第一评分和所述第二评分对所述第二评分进行校准；如果确定第二评估结果相对于第一评估结果满足评估结果稳定条件但不满足评估结果准确条件，则根据所述第二概率和第二评分对所述第二评分进行校准。

下面参照图8来描述根据本发明的这种实施方式的数据模型校准设备80。图8显示的数据模型校准设备80仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，数据模型校准设备80以通用计算设备的形式表现。数据模型校准设备80的组件可以包括但不限于：上述至少一个处理单元81、上述至少一个存储单元82、连接不同系统组件(包括存储单元82和处理单元81)的总线83。

总线83表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元82可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)821和/或高速缓存存储器822，还可以进一步包括只读存储器(ROM)823。

存储单元82还可以包括具有一组(至少一个)程序模块824的程序/实用工具825，这样的程序模块824包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

数据模型校准设备80也可以与一个或多个外部设备84(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与数据模型校准设备80交互的设备通信，和/或与使得该数据模型校准设备80能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口85进行。并且，数据模型校准设备80还可以通过网络适配器86与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器86通过总线83与数据模型校准设备80的其它模块通信。应当理解，尽管图中未示出，可以结合数据模型校准设备80使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本发明提供的数据模型校准方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书中描述的根据本发明各种示例性实施方式的用户属性信息挖掘方法中的步骤，例如，所述计算机设备可以执行如图1b中所示的S11、利用原始数据模型分别对第一样本数据和第二样本数据进行评估得到第一评估结果和第二评估结果，和步骤S12、根据所述第一评分和所述第二评分，确定第二评估结果相对于第一评估结果是否满足预设的评估结果稳定条件，步骤S13、根据所述第一概率和第二概率，确定所述第二评估结果相对于第一评估结果是否满足预设的评估结果准确条件，步骤S14，如果确定第二评估结果相对于第一评估结果满足评估结果准确条件但不满足评估结果稳定条件，则根据所述第一评分和所述第二评分对所述第二评分进行校准；如果确定第二评估结果相对于第一评估结果满足评估结果稳定条件但不满足评估结果准确条件，则根据所述第二概率和第二评分对所述第二评分进行校准。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

根据本发明的实施方式的用于数据模型校准的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于即时通信应用的设备的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种风险用户评估方法，其特征在于，包括：

获取用户在历史统计周期内产生的交易数据集；

利用原始数据模型对所述交易数据集进行处理，获得相应的目标评估结果，所述目标评估结果表征：预测所述用户在未来统计周期内违约的概率；

其中，所述原始数据模型的校准过程如下：

利用所述原始数据模型分别对第一样本交易数据和第二样本交易数据进行评估得到第一评估结果和第二评估结果，其中，所述第一样本交易数据和所述第二样本交易数据为针对相同样本在不同统计周期内收集的样本交易数据，所述第一评估结果中包括针对每一样本的第一评分和任一评分或者评分段中目标评估结果出现的第一概率，第二评估结果中包括针对每一样本的第二评分和任一评分或者评分段中目标评估结果出现的第二概率；

根据所述第一评分和所述第二评分，确定第二评估结果相对于所述第一评估结果是否满足预设的评估结果稳定条件；以及

根据所述第一概率和第二概率，确定所述第二评估结果相对于所述第一评估结果是否满足预设的评估结果准确条件；

如果确定第二评估结果相对于第一评估结果满足评估结果准确条件但不满足评估结果稳定条件，则根据所述第一评分，分别确定所述第一评分对应的标准差和平均值；根据所述第二评分，分别确定所述第二评分对应的标准差和平均值；根据所述第一评分和所述第二评分对应的标准差和平均值，对所述第二评分进行校准；如果确定第二评估结果相对于第一评估结果满足评估结果稳定条件但不满足评估结果准确条件，则根据所述第二概率和第二评分对所述第二评分进行校准。

2.如权利要求1所述的方法，其特征在于，根据所述第一评分和所述第二评分，确定第二评估结果相对于所述第一评估结果是否满足预设的评估结果稳定条件，包括：

分别确定所述第一评分对应的第一平均值和所述第二评分对应的第二平均值；

确定所述第一平均值与所述第二平均值的差值；

确定所述第一评分对应的第一评分分布和所述第二评分对应的第二评分分布是否相同；

如果所述第一评分分布和所述第二评分分布相同且所述差值在第一预设范围之内，则确定所述第二评估结果相对于所述第一评估结果满足预设的评估结果稳定条件；

如果所述第一评分分布和所述第二评分分布相同且所述差值不在所述第一预设范围之内，则确定所述第二评估结果相对于所述第一评估结果不满足预设的评估结果稳定条件。

3.如权利要求1所述的方法，其特征在于，根据所述第一概率和第二概率，确定所述第二评估结果相对于所述第一评估结果是否满足预设的评估结果准确条件，包括：

针对任一评分或者评分段，确定该评分或者评分段对应的第一概率和第二概率的差值是否在第二预设范围内；

如果该评分或者评分段对应的第一概率和第二概率的差值在第二预设范围内，则确定第二评估结果相对于所述第一评估结果满足预设的评估结果准确条件；

如果该评分或者评分段对应的第一概率和第二概率的差值不在第二预设范围内，则确定第二评估结果相对于所述第一评估结果不满足预设的评估结果准确条件。

4.如权利要求1所述的方法，其特征在于，根据所述第一评分和第二评分对应的标准差和平均值，对所述第二评分进行校准，包括：

根据所述第一评分和第二评分对应的标准差和平均值，按照以下公式对所述第二评分进行校准：

其中：

X₁和X₂分别为第一评分分布和第二评分分布；

σ₁和σ₂分别为第一评分和第二评分对应的标准差；

μ₁和μ₂分别为第一评分和第二评分对应的平均值。

5.如权利要求1所述的方法，其特征在于，根据所述第二概率和第二评分对所述第二评分进行校准，包括：

根据所述第二概率，按照以下公式确定所述第二概率对应的标准评分：

根据所述标准评分、所述第二概率和所述第二评分对所述第二评分进行校准，其中：

Score表示标准评分；

P为所述第二评估结果中任一评分或者评分段中目标评估结果出现的第二概率；

Odp和Base为预设值。

6.如权利要求5所述的方法，其特征在于，根据所述标准评分、所述第二概率和所述第二评分对所述第二评分进行校准，包括：

根据所述标准评分、所述第二概率和所述第二评分，利用以下公式对第二评分进行校准：

其中：

NewScore为对第二评分校准后得到的评分；

OldScore为第二评分；

7.一种风险用户评估装置，其特征在于，包括：

处理单元，用于获取用户在历史统计周期内产生的交易数据集；

其中，所述原始数据模型的校准过程如下：

评估单元，用于利用所述原始数据模型分别对第一样本交易数据和第二样本交易数据进行评估得到第一评估结果和第二评估结果，其中，所述第一样本交易数据和所述第二样本交易数据为针对相同样本在不同统计周期内收集的样本交易数据，所述第一评估结果中包括针对每一样本的第一评分和任一评分或者评分段中目标评估结果出现的第一概率，第二评估结果中包括针对每一样本的第二评分和任一评分或者评分段中目标评估结果出现的第二概率；

第一确定单元，用于根据所述第一评分和所述第二评分，确定第二评估结果相对于所述第一评估结果是否满足预设的评估结果稳定条件；以及根据所述第一概率和第二概率，确定所述第二评估结果相对于所述第一评估结果是否满足预设的评估结果准确条件；

校准单元，用于如果所述第一确定单元确定第二评估结果相对于第一评估结果满足评估结果准确条件但不满足评估结果稳定条件，则根据所述第一评分，分别确定所述第一评分对应的标准差和平均值；根据所述第二评分，分别确定所述第二评分对应的标准差和平均值；根据所述第一评分和所述第二评分对应的标准差和平均值，对所述第二评分进行校准；如果所述第一确定单元确定第二评估结果相对于第一评估结果满足评估结果稳定条件但不满足评估结果准确条件，则根据所述第二概率和第二评分对所述第二评分进行校准。

8.如权利要求7所述的装置，其特征在于，

所述第一确定单元，用于分别确定所述第一评分对应的第一平均值和所述第二评分对应的第二平均值；确定所述第一平均值与所述第二平均值的差值；确定所述第一评分对应的第一评分分布和所述第二评分对应的第二评分分布是否相同；如果所述第一评分分布和所述第二评分分布相同且所述差值在第一预设范围之内，则确定所述第二评估结果相对于所述第一评估结果满足预设的评估结果稳定条件；如果所述第一评分分布和所述第二评分分布相同且所述差值不在所述第一预设范围之内，则确定所述第二评估结果相对于所述第一评估结果不满足预设的评估结果稳定条件。

9.如权利要求7所述的装置，其特征在于，

所述第一确定单元，用于针对任一评分或者评分段，确定该评分或者评分段对应的第一概率和第二概率的差值是否在第二预设范围内；如果该评分或者评分段对应的第一概率和第二概率的差值在第二预设范围内，则确定第二评估结果相对于所述第一评估结果满足预设的评估结果准确条件；如果该评分或者评分段对应的第一概率和第二概率的差值不在第二预设范围内，则确定第二评估结果相对于所述第一评估结果不满足预设的评估结果准确条件。

10.如权利要求7所述的装置，其特征在于，

所述校准单元，用于根据所述第一评分和第二评分对应的标准差和平均值，按照以下公式对所述第二评分进行校准：