CN111062486B

CN111062486B - 一种评价数据的特征分布和置信度的方法及装置

Info

Publication number: CN111062486B
Application number: CN201911185336.9A
Authority: CN
Inventors: 史岩; 张君; 强晓雯; 菅鹏; 李卓; 夏珣; 殷朋朋; 武哲; 吕春明; 谭世鹏; 仲崇龙
Original assignee: Beijing Guotenglianxin Technology Co ltd
Current assignee: Beijing Guotenglianxin Technology Co ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2023-12-08
Anticipated expiration: 2039-11-27
Also published as: CN111062486A

Abstract

本发明提供一种评价数据的特征分布和置信度的方法及装置，在获取到特征数据集之后，对特征数据集中属于同一特征数据且从不同数据来源的多个数值进行交叉验证，以将多个数值划分至不具有数值一致性的数值组和各个具有数值一致性的数值组中，获得各个具有数值一致性的数值组各自对应的目标数值，计算不具有数值一致性的数值组中各个数值的预测概率、各个目标数值的预测概率以及进行交叉验证后的特征数据集的置信度，并作为模型的输入对模型进行使用或训练测试，以通过同一特征数据的数值的预测概率分布和特征数据集的置信度来代替现有最佳估计值方式得到的单一值，从而体现数值之间的差异并提高模型的准确度。

Description

一种评价数据的特征分布和置信度的方法及装置

技术领域

本发明属于机器学习模型技术领域，尤其涉及一种评价数据的特征分布和置信度的方法及装置。

背景技术

目前机器学习模型建立过程中需要采集一些有实际意义的特征数据，例如对于情绪分类模型需要采集指示情绪类别的特征数据，对于金融风险预测模型需要采集指示金融风险的特征数据，如客户收入和负债等等。

在大数据时代数据呈爆炸性的增长，同一个特征数据可能会具有多个数据来源，针对多个数据来源的同一个特征数据，在机器学习模型建立过程中通过最佳估计值方式对特征数据进行处理得到单一值，然后将单一值作为机器学习模型的输入进行模型训练和测试。

但是目前最佳估计值方式会导致特征数据的单一值损失特征数据的意义，如情绪分类模型中指示情绪类型的图像特征数据，从数据来源A获取到的图像特征数据指示的情绪分类得分为0.9，对应的情绪为高兴，从数据来源B获取到的图像特征数据指示的情绪分类得分为0.3，对应的情绪为悲伤，若采用最佳估计值方式得到的情绪分类得分为0.6，对应的情绪可能为高兴或者是除高兴和悲伤之外的情绪，使得情绪分类有偏差。同样对于金融风险预测模型，如果有两个数据来源的利润估算分别为-500万元，+700万元，而风险政策要求必须要盈利的话，这时候如果用“最佳估计值方式”盈利100万元进行估计，就可能对风险估计有所偏差，因此目前的最佳估计值方式无法体现不同数据来源的数值之间的差异也无法体现不同数据来源的数值的可靠性，进而导致模型的准确度降低。

发明内容

有鉴于此，本发明的目的在于提供一种评价数据的特征分布和置信度的方法及装置，用于改变同一特征数据从不同数据来源采集到的数值的估算方式，以体现不同数据来源的数值之间的差异，通过不同数据来源的数值之间的交叉验证评估数值的可靠性，从而提高应用到模型训练预测的数值的准确度，提高模型的准确度。

一方面，本发明提供一种评价数据的特征分布和置信度的方法，所述方法包括：

获取特征数据集，所述特征数据集包括属于同一特征数据的多个数值，且所述多个数值分别从不同数据来源采集到；

对所述多个数值进行交叉验证，以将所述多个数值划分至不具有数值一致性的数值组和各个具有数值一致性的数值组中；

基于所述各个具有数值一致性的数值组中的各个数值，获得所述各个具有数值一致性的数值组各自对应的目标数值；

计算所述不具有数值一致性的数值组中各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度；

将所述各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度作为模型的输入，对所述模型进行使用或训练测试。

可选的，所述对所述多个数值进行交叉验证，以将所述多个数值划分至不具有数值一致性的数值组和各个具有数值一致性的数值组中，包括：

分别计算所述多个数值中任意数值对的差异度，所述数值对由所述多个数值中的两个数值组成，所述数值对的差异度表示该数值对中两个数据之间的差异；

将所述差异度满足预设一致性条件且存在相同数值的数值对中的各个数值划分至具有数值一致性的数值组中，以及将差异度不满足预设一致性条件的数值对中的各个数值划分至不具有数值一致性的数值组中。

可选的，所述分别计算所述多个数值中任意数值对的差异度，包括：

确定与所述特征数据对应的预设距离函数；

基于所述预设距离函数，计算所述数值对中两个数值之间的距离，所述两个数值之间的距离表示所述数值对的差异度。

可选的，所述将所述差异度满足预设一致性条件且存在相同数值的数值对中的各个数值划分至具有数值一致性的数值组中，以及将差异度不满足预设一致性条件的数值对中的各个数值划分至不具有数值一致性的数值组中，包括：

从所有数值对中选取差异度最小的数值对；

判断所述差异度最小的数值对的差异度是否小于或等于预设差异度，所述预设一致性条件包括所述差异度最小的数值对的差异度小于或等于预设差异度；

若差异度最小的数值对的差异度小于或等于预设差异度，计算所述差异度最小的数值对的目标数值，以所述目标数值替换所述差异度最小的数值对中的两个数值，且若该数值对中的一个数值与之前计算出的数值对的目标数值不同，将该数值对中的数值划分至具有数值一致性的数值组中，若该数值对中的一个数值与之前计算出的数值对的目标数值相同，将该数值对中的数值划分至之前计算出目标数值的数值对中的数值所在的数值组中；

将所述特征数据集中的剩余数值重新组成数值对，并计算重新组成的各个数值对的差异度；

从重新组成的数值对中选取差异度最小的数值对，并返回执行所述判断所述差异度最小的数值对的差异度是否小于或等于预设差异度的步骤；

若差异度最小的数值对的差异度大于所述预设差异度，将差异度大于所述预设差异度的数值对中的数值划分至不具有数值一致性的数值组。

可选的，所述基于所述各个具有数值一致性的数值组中的各个数值，获得所述各个具有数值一致性的数值组各自对应的目标数值，包括：

基于所述具有数值一致性的数值组中的各个数值以及该具有数值一致性的数值组中各个数值对应数据来源的置信度，计算该具有数值一致性的数值组对应的目标数值。

可选的，所述方法还包括：获得所述各个具有数值一致性的数值组各自对应的目标数值的置信度；

所述计算所述不具有数值一致性的数值组中各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度，包括：

基于所述具有数值一致性的数值组中各个数值对应数据来源的置信度以及各个目标数值的置信度，计算所述不具有数值一致性的数值组中各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度。

另一方面，本发明还提供一种评价数据的特征分布和置信度的装置，所述装置包括：

获取模块，用于获取特征数据集，所述特征数据集包括属于同一特征数据的多个数值，且所述多个数值分别从不同数据来源采集到；

划分模块，用于对所述多个数值进行交叉验证，以将所述多个数值划分至不具有数值一致性的数值组和各个具有数值一致性的数值组中；

第一计算模块，用于基于所述各个具有数值一致性的数值组中的各个数值，获得所述各个具有数值一致性的数值组各自对应的目标数值；

第二计算模块，用于计算所述不具有数值一致性的数值组中各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度；

使用模块，用于将所述各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度作为模型的输入，对所述模型进行使用或训练测试。

可选的，所述划分模块，包括：

计算单元，用于分别计算所述多个数值中任意数值对的差异度，所述数值对由所述多个数值中的两个数值组成，所述数值对的差异度表示该数值对中两个数据之间的差异；

划分单元，用于将所述差异度满足预设一致性条件且存在相同数值的数值对中的各个数值划分至具有数值一致性的数值组中，以及将差异度不满足预设一致性条件的数值对中的各个数值划分至不具有数值一致性的数值组中。

可选的，所述划分单元，包括：

选取子单元，用于从所有数值对中选取差异度最小的数值对；

判断子单元，用于判断所述差异度最小的数值对的差异度是否小于或等于预设差异度，所述预设一致性条件包括所述差异度最小的数值对的差异度小于或等于预设差异度；

计算划分子单元，用于若差异度最小的数值对的差异度小于或等于预设差异度，计算所述差异度最小的数值对的目标数值，以所述目标数值替换所述差异度最小的数值对中的两个数值，且若该数值对中的一个数值与之前计算出的数值对的目标数值不同，将该数值对中的数值划分至具有数值一致性的数值组中，若该数值对中的一个数值与之前计算出的数值对的目标数值相同，将该数值对中的数值划分至之前计算出目标数值的数值对中的数值所在的数值组中；

重组计算子单元，用于将所述特征数据集中的剩余数值重新组成数值对，并计算重新组成的各个数值对的差异度，从重新组成的数值对中选取差异度最小的数值对，触发所述选取子单元从所组成的数值对和所述剩余数值对中选取差异度最小的数值对；

划分子单元，用于若差异度最小的数值对的差异度大于所述预设差异度，将差异度大于所述预设差异度的数值对中的数值划分至不具有数值一致性的数值组。

可选的，所述装置还包括：获得模块，用于获得所述各个具有数值一致性的数值组各自对应的目标数值的置信度；

所述第二计算模块，用于基于所述具有数值一致性的数值组中各个数值对应数据来源的置信度以及各个目标数值的置信度，计算所述不具有数值一致性的数值组中各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度。

借由上述技术方案，在获取到特征数据集之后，对特征数据集中属于同一特征数据且从不同数据来源的多个数值进行交叉验证，以将多个数值划分至不具有数值一致性的数值组和各个具有数值一致性的数值组中，获得各个具有数值一致性的数值组各自对应的目标数值，计算不具有数值一致性的数值组中各个数值的预测概率、各个目标数值的预测概率以及进行交叉验证后的特征数据集的置信度，将各个数值的预测概率、各个目标数值的预测概率以及进行交叉验证后的特征数据集的置信度作为模型的输入，对模型进行使用或训练测试，其中各个数值的预测概率以及各个目标数值的预测概率能够体现属于同一特征数据的数值的预测概率分布，以通过同一特征数据的数值的预测概率分布和特征数据集的置信度来代替现有最佳估计值方式得到的单一值，改变现有模型中输入的数值的计算方式。

并且通过同一特征数据的数值的预测概率分布能够体现同一特征数据的数值之间的数据差异，将能够体现数值的预测概率分布的各个预测概率作为模型的输入，使得模型能够考虑从不同数据来源采集到的数值以及不同数据来源的数值之间的差异，从而提高模型的准确度。对于具有数值一致性的数值组来说，说明该数值组中的各个数值具有数值一致性(或者说明该数值组中的各个数值可靠以通过相互验证提高可靠性)，以增加特征数据集的置信度，而对于不具有数值一致性的数值组来说保留其原始数值和置信度，从而通过具有数值一致性的数值组和不具有数值一致性的数值组提高特征数据集的置信度的准确度和可靠性，那么在基于其进行模型训练测试或使用模型时也会提高模型的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种评价数据的特征分布和置信度的方法的流程图；

图2是本发明实施例提供的交叉验证进行数值划分的流程图；

图3是本发明实施例提供的数值划分的流程图；

图4是本发明实施例提供的一种评价数据的特征分布和置信度装置的结构示意图；

图5是本发明实施例提供的评价数据的特征分布和置信度装置中划分模块的划分单元的结构示意图。

具体实施方式

目前同一特征数据能够从不同数据来源采集到对应的数值，对这些属于同一特征数据且从不同数据来源采集到的多个数值以最佳估计值方式计算出一单一值，将该单一值作为模型的输入，但是这种方式无法体现不同数据来源采集到的数值之间差异且采用单一值方式会与实际数值有偏差导致模型的准确度降低，之所以降低准确度是因为单一值会丢失精度，且从不同数据来源采集到的数值的可靠性不同，通过最佳估计值方式会忽略这点，为此本实施例以属于同一特征数据的多个数值的预测概率和存储该特征数据的多个数值的特征数据集的置信度(即该特征数据的置信度)代替现有单一值来作为模型的输入，以体现数据差异和提高模型的准确度。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种评价数据的特征分布和置信度的方法的流程图，可以包括以下步骤：

101：获取特征数据集，其中特征数据集包括属于同一特征数据的多个数值，且多个数值分别从不同数据来源采集到。

在本实施例中，特征数据可能有多个，对这个特征数据所属的特征数据集都采用本实施例进行处理，然后才能够作为模型的输入对模型进行使用或训练测试。

对于任一特征数据来说，可以将所有记录有该特征数据的数值的数据来源中获取到该特征数据的数值，将从所有数据来源中的该特征数据的数值存储在该特征数据的特征数据集中。然而在实际业务场景中，一些数据来源的数值是可靠/权威的，若能够从这些数据来源中获取到数值则可以忽略其他数据来源的数值。

以电话时长为例，从运营商这一数据来源得到的电话时长是非常可靠/具有一定权威的，因此若数据来源包括运营商，则从其他数据来源如第三方数据来源提供的电话时长则可以忽略，因此本实施例获取到的特征数据集中的多个数值可以是来自于可靠的数据来源，相对应的执行方式可以是：对于一个特征数据的n个数据来源(n个数据来源为所有数据来源)，为每个数据来源i∈1,2,...,n预设建立劣势来源集合，该劣势来源集合记录有n个数据来源中不可靠的数值所属的数据来源，因此在获取该特征数据的特征数据集时需要从n个数据来源中去除从劣势来源集合中的数据来源采集到的数值，仅在特征数据集中保留除劣势来源集合中的数据来源之外的数据来源中采集到的数值。

例如对于上述特征数据的n个数据来源分别记为：a₁、a₂、...、a_n，即n个数据来源的集合为：A＝{a₁,a₂,...,a_n}，采集到的数值分别为每个数据来源对应的劣势来源集合为：/>劣势来源集合的并集/>则特征数据集中数值的数据来源集合/>(/>为S的补集)，通过此方式将不可靠的数值去除。假设特征数据集中数值的数据来源集合B中有m个数据来源，分别记为b₁、b₂、...、b_m，m≤n，从m个数据来源各自采集到的数值分别为：/>对应的将存储这些数值的特征数据集记为B_V，对特征数据集B_V中的各个数值进行如下步骤102和步骤103等的处理。

这里需要说明的一点是：在从不同数据来源采集数值时可能会存在忽略/无法采集到某个数据来源或者某个特征数据的情况，例如针对小微企业金融风险预测模型来说，会分别从不同数据来源采集企业A和企业B相关的特征数据的数值，企业A是上市公司能够从审计财报获取到企业A的收入，而B是私人公司缺乏公开的审计财报，无法获取到企业B的收入，从而相对于企业B来说无法准确获取到收入这一特征数据，这样就会出现某些数据来源的数据缺失。又如，企业C是互联网技术公司，在进行风险评估时可以忽略企业C的固定资产，企业D是房地产公司，在进行风险评估时固定资产是必要的特征数据，因此在实际业务选择采集数据时针对不同企业可以主动选择选取或忽略一些特征数据。

102：对多个数值进行交叉验证，以将多个数值划分至不具有数值一致性的数值组和各个具有数值一致性的数值组中。

其中对多个数值进行交叉验证的目的是为了从多个数值中查找到具有数值一致性的数值，而具有数值一致性的数值表明数值之间的差异在后续应用可以忽略，例如对于利润这一特征数据来说，若从不同数据来源采集到的利润分别为-500万元，+700万元，通过这两个数值能够说明从不同数据来源采集到的利润相差太大，不能忽略这两个数值之间的差异，进而说明这两个数值不具有数值一致性，则将这两个数值划分至不具有数值一致性的数值组中；若从不同数据来源采集到的利润分别为+700万元、+650万元，说明两个数值相接近，可以忽略两个数值之间的差异，进而说明这两个数值具有数值一致性，将这两个数值可以划分至同一个具有数值一致性的数值组中。

基于此本实施例对多个数值进行交叉验证以对多个数值进行划分的一种方式是：基于两个数值之间的差异进行划分，如设置一个用于计算两个数值之间的差异的距离函数，然后通过聚类算法或设置阈值等方式进行数值划分，以确定两个数值之间是否具有数值一致性。在对多个数值进行交叉验证时依次对多个数值中的两个数值之间是否具有数值一致性进行验证，如果有则可以以这两个数值中的一个数值为准或者以基于这两个数值得到的一个目标数值为准，再与剩余数值进行验证，以达到对多个数值进行交叉验证来依次归并数值的目的，具体过程后续会详细说明。

103：基于各个具有数值一致性的数值组中的各个数值，获得各个具有数值一致性的数值组各自对应的目标数值。

在本实施例中得到表征目标数值对应的数值组中的各个数值的目标数值的一种可行方式如下：

基于具有数值一致性的数值组中的各个数值以及该具有数值一致性的数值组中各个数值对应数据来源的置信度，计算该具有数值一致性的数值组对应的目标数值。

例如以如下计算公式计算该具有数值一致性的数值组对应的目标数值：

其中V_xi为该具有数值一致性的数值组中的第i个数值，θ_xi表示第i个数值V_xi对应数据来源的置信度，x表示该具有数值一致性的数值组中的数值总数，对于不同数据来源来说，其置信度可以根据经验人工设置也可以根据从该数据来源历史采集到的可验证的数值而定，如历史上，该数据来源采集到Y个数值，确定其基本取值正确的有H个，则该数据来源的置信度为H/Y。当然在本实施例中还可以采用其他方式来计算目标数值，如采用计算该具有数值一致性的数值组中各个数值的单一值的方式来计算目标数值，对此本实施例不限定目标数值的计算方式。

104：计算不具有数值一致性的数值组中各个数值的预测概率、各个目标数值的预测概率以及进行交叉验证后的特征数据集的置信度。

在本实施例中，通过各个数值的预测概率和各个目标数值的预测概率体现进行交叉验证后的特征数据集中数值分布情况。并且通过该数值组的目标数值来增加特征数据集的置信度，而对于不具有数值一致性的数值组来说，保留不具有数值一致性的数值组中各个数值的原始数值和置信度，因此不具有数值一致性的数值组中的各个数值不会降低特征数据集的置信度，从而通过具有数值一致性的数值组和不具有数值一致性的数值组提高特征数据集的置信度的准确度和可靠性。

其中计算各个数值的预测概率和各个目标数值的预测概率的一种方式是：基于具有数值一致性的数值组中各个数值对应数据来源的置信度以及各个目标数值的置信度，计算不具有数值一致性的数值组中各个数值的预测概率、各个目标数值的预测概率以及进行交叉验证后的特征数据集的置信度。相对应的本实施例提供的评价数据的特征分布和置信度的方法还包括：获得各个具有数值一致性的数值组各自对应的目标数值的置信度。执行过程如下：

基于具有数值一致性的数值组中各个数值，计算该具有数值一致性的数值组对应的目标数值的置信度，如一种方式是采用基于sigmoid函数的形变函数和具有数值一致性的数值组中各个数值计算所对应目标数值的置信度，例如基于sigmoid函数的形变函数给出的计算公式如下：

其中θ_xi为该具有数值一致性的数值组中的第i个数值，x表示该具有数值一致性的数值组中的数值总数，通过此计算公式保证目标数值的置信度处于0至1之间，通过此方式会使得目标数值的置信度相对于原始数值提高。对于不具有数值一致性的数值来说，在本步骤会保留其原始数值和置信度。

相对应的计算各个数值的预测概率、各个目标数值的预测概率以及进行交叉验证后的特征数据集的置信度的一种可行公式如下：

通过该公式得到预测概率，其中B_V为进行交叉验证后的特征数据集，V_ci为进行交叉验证后的特征数据集中的第i个数值，k为进行交叉验证后的特征数据集中的数值总数，通过此方式可以使得位于进行交叉验证后的特征数据集中的数值具有一个取值不为0的预测概率，而不位于该特征数据集中的数值的预测概率为0。

进行交叉验证后的特征数据集的置信度的计算公式为n的取值为从1到无穷大中的一个数，n＝1时进行交叉验证后的特征数据集的置信度为该特征数据集中所有数值的置信度的平均值，n为无穷大时进行交叉验证后的特征数据集的置信度为该特征数据集中所有数值的置信度中的最大值，在实际业务中n的取值可以为2，当k大于等于2时，通过该计算公式会使得置信度小于原有的最大置信度。

105：将各个数值的预测概率、各个目标数值的预测概率以及进行交叉验证后的特征数据集的置信度作为模型的输入，对模型进行使用或训练测试。

并且通过同一特征数据的数值的预测概率分布能够体现同一特征数据的数值之间的数据差异，将能够体现数值的预测概率分布的各个预测概率作为模型的输入，使得模型能够考虑从不同数据来源采集到的数值以及不同数据来源的数值之间的差异，从而提高模型的准确度。对于具有数值一致性的数值组来说，说明该数值组中的各个数值具有数值一致性(或者说明该数值组中的各个数值可靠以通过相互验证提高可靠性)，以增加特征数据集的置信度，而对于不具有数值一致性的数值组来说保留其原始数值和置信度，从而通过具有数值一致性的数值组和不具有数值一致性的数值组提高特征数据集的置信度的准确度和可靠性，那么在基于其进行模型训练测试或使用模式时也会提高模型的准确度。

在这里需要说明的一点是：上述实施例提供的评价数据的特征分布和置信度的方法可以应用于各种需要考虑数值之间的差异的模型，例如对于金融风险预测模型来说，该金融风险预测模型中的一些输入需要通过间接估算方式得到，不同间接估算方式存在一定差异，例如，小微企业的收入可以通过报表、流水、纳税等多个途径获得，每种数据来源获得的收入都不一样，通过保留差异的方式能够使企业信用风险模型对待评估对象的风险进行更为准确地评估。当然还可以应用于其他领域的模型，如上述情绪分类模型，该情绪分类模型需要体现在不同图像识别工具识别到的情绪差异，那么对于这种模型也可以使用本实施例提供的评价数据的特征分布和置信度的方法对采集到的数值进行处理，在提高置信度的同时保留数值之间的差异。

对于上述评价数据的特征分布和置信度的方法，本实施例提供的对多个数值进行交叉验证的一种方式如图2所示，可以包括以下步骤：

201：分别计算多个数值中任意数值对的差异度，数值对由多个数值中的两个数值组成，其中数值对的差异度表征组成该数值对的两个数值之间的差异度，以确定两个数值之间的差异是否能够忽略，相对应的预设一致性条件则是用于使得两个数值之间的差异能够忽略的条件，如预设一致性条件可以是一个阈值(如根据经验人为设定阈值)。

其中数值对的差异度可通过组成该数值对的两个数值得到，如将两个数值做差得到，又或者是确定与特征数据对应的预设距离函数，基于预设距离函数，计算数值对中两个数值之间的距离，两个数值之间的距离表示数值对的差异度。

在实际业务场景中，不同特征数据对应的预设距离函数不同，基于此可以提前设置不同特征数据对应的预设距离函数，这样在得到某一个特征数据的特征数据集之后，通过该特征数据可以确定与其对应的预设距离函数，然后通过预设记录函数计算数值对中两个数值之间的距离。

之所以采用预设距离函数而非两个数值之间的数值差的原因是因为：距离函数能够表征两个数值的影响程度的差异，以月收入为例，如果月收入分别为1000元和5000元，则在风险评估中认为这两个数值的差异很大，即距离很大；如果月收入分别为51000元和55000元，则在风险评估中认为这两个数值的差异很小，即距离很小，针对这两个举例来说，这两个举例的数值差都为4000，但是两者的差异判断则是完全不同，所以在本实施例采用预设距离函数来计算差异度，例如预设距离函数可以有但不限于绝对差值函数、差值函数、对数距离函数等，从这些函数中选取一个与特征数据的类型匹配的预设距离函数。在以两个数值之间的距离表示数值对的差异值时，相对应的预设一致性条件可以是两个数值之间的距离小于一最小距离(预先设置的与特征数据的类型匹配的)。

202：将差异度满足预设一致性条件且存在相同数值的数值对中的各个数值划分至具有数值一致性的数值组中，以及将差异度不满足预设一致性条件的数值对中的各个数值划分至不具有数值一致性的数值组中，从而实现对特征数据集中的多个数值的划分，并将彼此具有数值一致性的数值划分至同一个数值组中。

在本实施例中，基于差异度进行划分的一种可行方式如图3所示，可以包括以下步骤：

301：从所有数值对中选取差异度最小的数值对，从而选取出取值最小的差异度。

302：判断差异度最小的数值对的差异度是否小于或等于预设差异度，如果小于或等于，执行步骤303，如果大于，执行步骤306。

其中预设一致性条件包括差异度最小的数值对的差异度小于或等于预设差异度。若数值对的差异度采用数值对中两个数值之间的距离表示，则预设一致性条件可以是距离最小的两个数值之间的距离小于或等于预设的最小距离，该预设的最小距离表示两个数值之间的差异可以忽略。

303：若差异度最小的数值对的差异度小于或等于预设差异度，计算差异度最小的数值对的目标数值，以目标数值替换差异度最小的数值对中的两个数值，且若该数值对中的一个数值与之前计算出的数值对的目标数值不同，将该数值对中的数值划分至具有数值一致性的数值组中，若该数值对中的一个数值与之前计算出的数值对的目标数值相同，将该数值对中的数值划分至之前计算出的目标数值的数值对中的数值所在的数值组中，以进行数值组的确定。

若差异度最小的数值对的差异度小于或等于预设差异度，说明该数值对中的两个数值之间的差异可以忽略，则需要将这两个数值放入一个具有数值一致性的数值组中，此时需要进一步判断该数值对中的一个数值是否与之前计算出的数值对的目标数值相同，如果相同说明该数值对中的另一个数值与具有相同的目标数值对应的数值对中的两个数值之间的差异可以忽略，从而可以将这些数值放入到同一个数值组中，即放入到具有相同的目标数值对应的数值对中的两个数值所在的数值组中；如果不相同说明之前划分出的数值组中的各个数值与当前所选取的差异度最小的数值对中的数值不具有数值一致性，则需要重新划分至一个新的数值组中。

例如，第一次从所有数值对中选取到差异度最小的数值对，并且该数值对的差异度小于或等于预设差异度，则计算该数值对的目标数值，但是第一次选取时之前没有得到任何数值对的目标数值，此时可以将第一词选取的数值对中的两个数值划分至一个具有数值一致性的数值组中；

在第一次之后的任意一次选取到差异度最小的数值对且所选取到数值对的差异度小于或等于预设差异度，也会计算该数值对的目标数值，然后再确定是否划分至一个新的具有数值一致性的数值组，还是划分至一个已有的具有数值一致性的数值组，其过程如上不再阐述。

以目标数值进行替换的方式是：将目标数值加入到特征数据集中，而将与目标数值对应的数值对中的两个数值从特征数据集中删除。之所以能够用目标数值替换是因为目标数值基于其对应的数值对中的两个数值得到，该目标数值能够表征其对应的数值对中的两个数值，并且通过该数值组的目标数值替换可以在特征数据集中增加一个可靠的目标数值进而增加特征数据集的置信度。

304：将特征数据集中的剩余数值重新组成数值对，并计算重新组成的各个数值对的差异度。之所以如此处理是因为：在计算出数值对的目标数值之后，会将该目标数值加入到特征数据集中，并从特征数据集中删除该数值对中的两个数值，因此既然特征数据集中已经不存在该数值对中的两个数值，就无需选取该数值对中的任一数值与其他数值之间的差异度。

305：从重新组成的数值对中选取差异度最小的数值对，并返回执行步骤302。

306：若差异度最小的数值对的差异度大于预设差异度，将差异度大于预设差异度的数值对中的数值划分至不具有数值一致性的数值组。

通过上述流程能够将差异度满足预设一致性条件且存在相同数值的数值对中的各个数值划分至具有数值一致性的数值组中，以及将差异度不满足预设一致性条件的数值对中的各个数值划分至不具有数值一致性的数值组中。

此外，本实施例提供的评价数据的特征分布和置信度的方法还可以每交叉验证一次得到具有数值一致性的两个数值之后进行一次目标数值的计算，然后再交叉验证，以实现交叉验证和计算目标数值的交替处理，其过程如下：

1、对特征数据集B_V中的各个数值计算任意两个数值之间的差异度，从所有差异度中选取出取值最小的差异度；

2、如果取值最小的差异度大于预设差异度，则说明数值之间不具有数值一致性，意味着这些数值可以划分至一个不具有数值一致性的数值组，此时可以跳出循环，保留特征数据集B_V中的各个数值，然后执行上述步骤104，以计算各个数值的预测概率和特征数据集的置信度；

3、如果取值最小的差异度小于或等于预设差异度，基于该取值最小的差异度对应的两个数值，计算一个目标数值和目标数值的置信度，如通过上述公式和/>分别计算目标数值和目标数值的置信度，其对应的变形为/> 和/>为取值最小的差异度对应的两个数值，/>和/>则是两个数值对应的数据来源的置信度；

如果取值最小的差异度小于或等于预设差异度，说取值最小的差异度对应的两个数值具有数值一致性，可以将其划分至一个具有数值一致性的数值组中。

4、从特征数据集B_V中删除和/>加入V_new；

5、判断进行交叉验证后的特征数据集是否剩余一个数值，如果是跳出循环，如果否重新执行步骤1，以重新计算任意两个数值之间的差异度进行再次选取。

通过上述步骤2和步骤3能够将具有数值一致性的数值划分至具有数值一致性的数值组，将不具有数值一致性的数值划分至不具有数值一致性的数值组，从而在划分的同时还能够计算目标数值和目标数值的置信度。

下面以两个数值之间的差异度采用两个数值之间的距离表示，预设差异度以最小距离表示进行说明：

11、选取特征数据集中距离最小的两个数值和/>即

12、如果跳出循环，然后执行上述步骤104，以计算各个数值的预测概率和特征数据集的置信度；

13、如果基于/>和计算目标数值和目标数值的置信度；

14、从特征数据集B_V中删除和/>加入V_new；

15、判断进行交叉验证后的特征数据集是否剩余一个数值，如果是跳出循环，如果否重新执行步骤11，以重新计算任意两个数值之间的差异度进行再次选取。

在这里需要说明的一点是：如果在进行取值最小的差异度选取时，得到多个取值相同且最小的差异度，则需要进一步删选，如随机选取一个，或者基于取值相同且最小的差异度各自对应的两个数值对应的数据来源的置信度进行选取，如从这些里面选取数据来源的置信度的平方和最大的那对数值；假如数据来源的置信度的平方和最大的数值也有多对，则还需要进一步删选，如采用但不限于随机选取一个的方式。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

与上述方法实施例相对应，本发明实施例还提供一种评价数据的特征分布和置信度装置，其结构如图4所示，可以包括：获取模块10、划分模块20、第一计算模块30、第二计算模块40和使用模块50。

获取模块10，用于获取特征数据集，特征数据集包括属于同一特征数据的多个数值，且多个数值分别从不同数据来源采集到。对于任一特征数据来说，可以将所有记录有该特征数据的数值的数据来源中获取到该特征数据的数值，将从所有数据来源中的该特征数据的数值存储在该特征数据的特征数据集中。然而在实际业务场景中，一些数据来源的数值是可靠/权威的，若能够从这些数据来源中获取到数值则可以忽略其他数据来源的数值，具体说明请参阅上述方法实施例，对此本实施例不再详述。

划分模块20，用于对多个数值进行交叉验证，以将多个数值划分至不具有数值一致性的数值组和各个具有数值一致性的数值组中。

其中对多个数值进行交叉验证的目的是为了从多个数值中查找到具有数值一致性的数值，而具有数值一致性的数值表明数值之间的差异在后续应用可以忽略，基于此本实施例对多个数值进行交叉验证以对多个数值进行划分的一种方式是：基于两个数值之间的差异进行划分，如设置一个用于计算两个数值之间的差异的距离函数，然后通过聚类算法和设置阈值的任意一种方式进行数值划分，以确定两个数值之间是否具有数值一致性。在对多个数值进行交叉验证时首先对多个数值中的两个数值之间是否具有数值一致性进行验证，如果有则可以以这两个数值中的一个数值为准或者以基于这两个数值得到的一个目标数值为准，再与剩余数值进行验证，以达到对多个数值进行交叉验证来依次归并数值的目的，具体过程后续会详细说明。

第一计算模块30，用于基于各个具有数值一致性的数值组中的各个数值，获得各个具有数值一致性的数值组各自对应的目标数值。在本实施例中得到表征目标数值对应的数值组中的各个数值的目标数值的一种可行方式如下：

基于具有数值一致性的数值组中的各个数值以及该具有数值一致性的数值组中各个数值对应数据来源的置信度，计算该具有数值一致性的数值组对应的目标数值，具体过程请参阅上述方法实施例中的相关说明，对此本实施例不再阐述。

第二计算模块40，用于计算不具有数值一致性的数值组中各个数值的预测概率、各个目标数值的预测概率以及进行交叉验证后的特征数据集的置信度。

其中计算各个数值的预测概率和各个目标数值的预测概率的一种方式是：基于具有数值一致性的数值组中各个数值对应数据来源的置信度以及各个目标数值的置信度，计算不具有数值一致性的数值组中各个数值的预测概率、各个目标数值的预测概率以及进行交叉验证后的特征数据集的置信度。相对应的本实施例提供的评价数据的特征分布和置信度装置还包括：获得模块，用于获得各个具有数值一致性的数值组各自对应的目标数值的置信度。获得模块以及第二计算模块的执行过程请参阅上述方法实施例中的相关说明，对此本实施例不再阐述。

使用模块50，用于将各个数值的预测概率、各个目标数值的预测概率以及进行交叉验证后的特征数据集的置信度作为模型的输入，对模型进行使用或训练测试。

在本实施例中，上述划分模块的一种可选结构是：划分模块20包括：计算单元和划分单元，其中计算单元，用于分别计算多个数值中任意数值对的差异度，数值对由多个数值中的两个数值组成，数值对的差异度表示该数值对中两个数据之间的差异，以确定两个数值之间的差异是否能够忽略，相对应的预设一致性条件则是用于使得两个数值之间的差异能够忽略的条件，如预设一致性条件可以是一个阈值(如根据经验人为设定阈值)。

其中数值对的差异度可通过组成该数值对的两个数值得到，如将两个数值做差得到，又或者是确定与特征数据对应的预设距离函数，基于预设距离函数，计算数值对中两个数值之间的距离，两个数值之间的距离表示数值对的差异度，具体请参阅上述方法实施例中的相关说明。

划分单元，用于将差异度满足预设一致性条件且存在相同数值的数值对中的各个数值划分至具有数值一致性的数值组中，以及将差异度不满足预设一致性条件的数值对中的各个数值划分至不具有数值一致性的数值组中。

在本实施例中，划分单元的一种可选结构如图5所示，可以包括：选取子单元111、判断子单元112、计算划分子单元113、重组计算子单元114和划分子单元115。

选取子单元111，用于从所有数值对中选取差异度最小的数值对，从而选取出取值最小的差异度。

判断子单元112，用于判断差异度最小的数值对的差异度是否小于或等于预设差异度，预设一致性条件包括差异度最小的数值对的差异度小于或等于预设差异度。若数值对的差异度采用数值对中两个数值之间的距离表示，则预设一致性条件可以是距离最小的两个数值之间的距离小于或等于预设的最小距离，该预设的最小距离表示两个数值之间的差异可以忽略。

计算划分子单元113，用于若差异度最小的数值对的差异度小于或等于预设差异度，计算差异度最小的数值对的目标数值，以目标数值替换差异度最小的数值对中的两个数值，且若该数值对中的一个数值与之前计算出的数值对的目标数值不同，将该数值对中的数值划分至具有数值一致性的数值组中，若该数值对中的一个数值与之前计算出的数值对的目标数值相同，将该数值对中的数值划分至之前计算出目标数值的数值对中的数值所在的数值组中。

若差异度最小的数值对的差异度小于或等于预设差异度，说明该数值对中的两个数值之间的差异可以忽略，则需要将这两个数值放入一个具有数值一致性的数值组中，此时需要进一步判断该数值对中的一个数值是否与之前计算出的数值对的目标数值相同，如果相同说明该数值对中的另一个数值与具有相同的目标数值对应的数值对中的两个数值之间的差异可以忽略，从而可以将这些数值放入到同一个数值组中，即放入到具有相同的目标数值对应的数值对中的两个数值所在的数值组中；如果不相同说明之前划分出的数值组中的各个数值与当前所选取的差异度最小的数值对中的数值不具有数值一致性，则需要重新划分至一个新的数值组中，具体说明请参阅上述方法实施例，对此本实施例不再阐述。

重组计算子单元114，用于将特征数据集中的剩余数值重新组成数值对，并计算重新组成的各个数值对的差异度，从重新组成的数值对中选取差异度最小的数值对，触发选取子单元111从所组成的数值对和剩余数值对中选取差异度最小的数值对。

之所以再次组成数值对计算差异度是因为：在计算出数值对的目标数值之后，会将该目标数值加入到特征数据集中，并从特征数据集中删除该数值对中的两个数值，因此既然特征数据集中已经不存在该数值对中的两个数值，就无需选取该数值对中的任一数值与其他数值之间的差异度，然后对重组的数值对的差异度进行计算，以基于重组后的数值对的差异度进行数值划分。

划分子单元115，用于若差异度最小的数值对的差异度大于预设差异度，将差异度大于预设差异度的数值对中的数值划分至不具有数值一致性的数值组。

通过上述划分单元能够将差异度满足预设一致性条件且存在相同数值的数值对中的各个数值划分至具有数值一致性的数值组中，以及将差异度不满足预设一致性条件的数值对中的各个数值划分至不具有数值一致性的数值组中。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种评价数据的特征分布和置信度的方法，所述方法应用于金融风险预测模型，其特征在于，所述方法包括：

获取特征数据集，所述特征数据集包括属于同一特征数据的多个数值，且所述多个数值分别从不同数据来源采集到，所述特征数据集用于指示金融风险的特征数据，所述特征数据集包括收入数据、利润数据以及负债数据；

基于所述各个具有数值一致性的数值组中的各个数值，获得所述各个具有数值一致性的数值组各自对应的目标数值，包括：其中V_xi为具有数值一致性的数值组中的第i个数值，θ_xi表示第i个数值，V_xi对应数据来源的置信度，x表示具有数值一致性的数值组中的数值总数；

将所述各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度作为所述金融风险预测模型的输入，对所述金融风险预测模型进行使用或训练测试。

2.根据权利要求1所述的方法，其特征在于，所述对所述多个数值进行交叉验证，以将所述多个数值划分至不具有数值一致性的数值组和各个具有数值一致性的数值组中，包括：

3.根据权利要求2所述的方法，其特征在于，所述分别计算所述多个数值中任意数值对的差异度，包括：

确定与所述特征数据对应的预设距离函数；

4.根据权利要求2所述的方法，其特征在于，所述将所述差异度满足预设一致性条件且存在相同数值的数值对中的各个数值划分至具有数值一致性的数值组中，以及将差异度不满足预设一致性条件的数值对中的各个数值划分至不具有数值一致性的数值组中，包括：

从所有数值对中选取差异度最小的数值对；

5.根据权利要求1所述的方法，其特征在于，所述基于所述各个具有数值一致性的数值组中的各个数值，获得所述各个具有数值一致性的数值组各自对应的目标数值，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：获得所述各个具有数值一致性的数值组各自对应的目标数值的置信度；

7.一种评价数据的特征分布和置信度的装置，其特征在于，所述装置包括：

获取模块，用于获取特征数据集，所述特征数据集包括属于同一特征数据的多个数值，且所述多个数值分别从不同数据来源采集到，所述特征数据集用于指示金融风险的特征数据，所述特征数据集包括收入数据、利润数据以及负债数据；

第一计算模块，用于基于所述各个具有数值一致性的数值组中的各个数值，获得所述各个具有数值一致性的数值组各自对应的目标数值，包括：其中V_xi为具有数值一致性的数值组中的第i个数值，θ_xi表示第i个数值，V_xi对应数据来源的置信度，x表示具有数值一致性的数值组中的数值总数；第二计算模块，用于计算所述不具有数值一致性的数值组中各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度；

使用模块，用于将所述各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度作为金融风险预测模型的输入，对所述金融风险预测模型进行使用或训练测试。

8.根据权利要求7所述的装置，其特征在于，所述划分模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述划分单元，包括：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：获得模块，用于获得所述各个具有数值一致性的数值组各自对应的目标数值的置信度；