CN110119413A

CN110119413A - 数据融合的方法和装置

Info

Publication number: CN110119413A
Application number: CN201910362476.2A
Authority: CN
Inventors: 孟垂实; 吴博文; 胡安民; 郑宇�
Original assignee: Jingdong City (nanjing) Technology Co Ltd
Current assignee: Jingdong City (nanjing) Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-13
Anticipated expiration: 2039-04-30
Also published as: CN110119413B; WO2020220810A1

Abstract

本发明公开了一种数据融合的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：对各个数据源的原始数据表进行筛选合并，得到每个数据源的关联数据表，并为关联数据表中的字段添加维度标签；对关联数据表中的字段进行特征分析，选取待用特征；根据所述维度标签和所述待用特征从各个所述关联数据表中抽取梯度；基于梯度建立融合模型。该实施方式能够对不同数据源的数据进行收集和高效处理，对不同结构的数据进行安全快速的融合，为构建统一的融合信息评分体系提供相同标准和格式的数据。

Description

数据融合的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据融合的方法和装置。

背景技术

目前大数据分析已应用到各个领域的分析中，通常大数据分析所使用的数据来自于多个异构数据源。由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响，导致积累了大量采用不同存储方式的业务数据，且采用的数据管理系统也大不相同，从简单的文件数据库到复杂的网络数据库，它们构成了异构数据源。

在社会信用体系建设中，个人的信用评分问题一直是关键所在，通过联合各政府部门的政务数据和互联网数据，实现对失信行为的协同监管和对个人信用状况的全方面评定，对于改善各行业、各部门、各地区的信用环境，保证社会诚信和信用体系顺利建成且能有效运行具有重要作用；

在对个人信用进行评分的过程中，由于涉及个人信用的数据来源于各个政府部门、互联网各个平台，这些数据包含不同的维度，具有不同的数据结构、含有大量重复、缺失、异常数据。如何将这些数据进行安全的整合、同步是实现个人信用评分系统的关键所在。

此外，对于某个物品、某件事或某类事物的分析，通常也可能需要对来自异构数据源的相关数据进行全面分析。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

1.由于缺少统一的、安全的数据融合方法；

2.在对来自异构数据源的数据进行融合过程中，存在信息泄露的安全问题；

3.无法为构建统一的融合信息评分体系提供相同标准和格式的数据。

发明内容

有鉴于此，本发明实施例提供一种数据融合的方法和装置，能够对不同数据源的数据进行收集和高效处理，对不同结构的数据进行安全快速的融合，为构建统一的融合信息评分体系提供相同标准和格式的数据。

为实现上述目的，根据本发明实施例的一个方面，提供了一种数据融合的方法。

本发明实施例的一种数据融合的方法包括：

对各个数据源的原始数据表进行筛选合并，得到每个数据源的关联数据表，并为所述关联数据表中的字段添加维度标签；

对所述关联数据表中的字段进行特征分析，选取待用特征；

根据所述维度标签和所述待用特征从各个所述关联数据表中抽取梯度；

基于所述梯度建立融合模型。

可选地，对各个数据源的原始数据表进行筛选合并，得到每个数据源的关联数据表包括：

从各个数据源收集原始数据表；

分析所述原始数据表的样本数量、字段数量和空值数量；

基于所述样本数量、所述字段数量和所述空值数量从所述原始数据表筛选出基础数据表；

基于所述基础数据表的主键将同一数据源的所述基础数据表合并为关联数据表。

可选地，在对所述关联数据表中的字段进行特征分析，选取待用特征之前还包括：

剔除所述关联数据表中含有空值字段或空值字段的数量超过空字段阈值的样本；

利用箱线图结合字段意义的方式去除异常字段；

采用平均数、众数或预测值补充空值字段；以及

对所述关联数据表进行离散化处理。

可选地，对所述关联数据表中的字段进行特征分析，选取待用特征包括：

对所述关联数据表中的字段进行特征衍生，得到数据特征和高维非线性特征；

分别计算所述数据特征和所述高维非线性特征的皮尔逊系数；

基于所述皮尔逊系数从所述数据特征和所述高维非线性特征中选取待用特征。

可选地，根据所述维度标签和所述待用特征从各个所述关联数据表中抽取梯度包括：

根据所述待用特征对各个数据源对应的所述关联数据表进行对齐操作，并为目标分配统一标识；

根据所述维度标签和所述待用特征从各个所述关联数据表中抽取数据源的参数的梯度和所述关联数据表的损失，并基于各个所述关联数据表的损失计算融合损失；

若所述融合损失小于损失阈值，则终止抽取；

若所述融合损失大于或等于损失阈值，则将更新各个数据源的参数，并重新抽取数据源的参数的梯度和所述关联数据表的损失。

可选地，所述方法还包括：

从各个所述关联数据表中提取目标的待用特征信息，基于所述待用特征信息生成融合信息；

将所述融合信息输入所述融合模型，以根据所述待用特征和所述梯度对所述融合信息进行计算，得到目标的融合分值；以及

在目标的融合分值变化时，对所述待用特征信息进行迭代计算，得到所述待用特征对目标的影响权重。

为实现上述目的，根据本发明实施例的另一方面，提供了一种数据融合的装置。

本发明实施例的一种数据融合的装置包括：

合并模块，用于对各个数据源的原始数据表进行筛选合并，得到每个数据源的关联数据表，并为所述关联数据表中的字段添加维度标签；

分析模块，用于对所述关联数据表中的字段进行特征分析，选取待用特征；

抽取模块，用于根据所述维度标签和所述待用特征从各个所述关联数据表中抽取梯度；

建模模块，用于基于所述梯度建立融合模型。

可选地，所述合并模块还用于：

从各个数据源收集原始数据表；

分析所述原始数据表的样本数量、字段数量和空值数量；

可选地，所述合并模块进一步用于：

利用箱线图结合字段意义的方式去除异常字段；

采用平均数、众数或预测值补充空值字段；以及

对所述关联数据表进行离散化处理。

可选地，所述分析模块还用于：

可选地，所述抽取模块还用于：

若所述融合损失小于损失阈值，则终止抽取；

可选地，所述装置还包括计算模块，用于：

为实现上述目的，根据本发明实施例的又一方面，提供了一种数据融合的电子设备。

本发明实施例的一种数据融合的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例的一种数据融合的方法。

为实现上述目的，根据本发明实施例的再一方面，提供了一种计算机可读存储介质。

本发明实施例的一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例的一种数据融合的方法。

上述发明中的一个实施例具有如下优点或有益效果：因为采用对各个数据源的原始数据表进行筛选合并，得到每个数据源的关联数据表，并为关联数据表中的字段添加维度标签；对关联数据表中的字段进行特征分析，选取待用特征；根据维度标签和待用特征从各个关联数据表中抽取梯度；基于梯度建立融合模型的技术手段，通过融合模型构建统一的、安全的融合信息评分体系，所以克服了缺少统一的、安全的数据融合方法；在对来自异构数据源的数据进行融合过程中，存在信息泄露的安全问题；以及无法为构建统一的融合信息评分体系提供相同标准和格式的数据的技术问题，进而达到对不同数据源的数据进行收集和高效处理，对不同结构的数据进行安全快速的融合，为构建统一的融合信息评分体系提供相同标准和格式的数据的技术效果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的数据融合的方法的主要步骤的示意图；

图2是根据本发明实施例的数据融合的方法的抽取梯度的示意图；

图3是根据本发明一个可参考实施例的数据融合的方法的主要流程的示意图；

图4是根据本发明实施例的数据融合的装置的主要模块的示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要指出的是，在不冲突的情况下，本发明的实施例以及实施例中的技术特征可以相互结合。

现有的数据融合方法，在数据处理方面，是从多个系统或平台收集数据导入到同一数据库中，统一进行数据处理，然后将处理后的数据导入到评分模型中。在数据分析方面，是对整体数据进行分析，再根据目标信息得到目标在各个维度的评分。

而多个系统或平台的数据在同步、融合处理方面的成本较高、安全性低，且存在数据格式不同和通讯协议互不兼容的问题，难以集中、高效处理的问题。

本发明实施例提出的数据融合的方法，可以实现对不同数据源的数据进行收集和高效处理，能够对不同结构的数据进行安全快速的融合，并进行定性定量分析；同时还能够应用基于分布式并行计算的机器学习模型实时读取、分析海量数据，筛查异常数据，为目标生成融合信息(即分析报告)，并根据收集、处理、分析后的数据为每个目标生成融合分值。

图1是根据本发明实施例的数据融合的方法的主要步骤的示意图。

如图1所示，本发明实施例的数据融合的方法主要包括以下步骤：

步骤S101：对各个数据源的原始数据表进行筛选合并，得到每个数据源的关联数据表，并为关联数据表中的字段添加维度标签。

由于最终建立融合模型所需的数据来自于各个数据源，而各个数据源的数据结构、数据规模或数据质量等可能差异巨大，因此需要对各个数据源的原始数据表先进行预处理，以筛选出可用的数据，并将同一数据源的所有原始数据表合并为一个关联数据表。在此阶段，可以通过第三方分别对各个数据源的原始数据表进行预处理，还可以通过向各个数据源分别下发任务的方式，使各个数据源独立对自身的原始数据表进行预处理。通过对各个数据源的原始数据表采用统一标准的筛选，可以为构建统一的融合信息评分体系提供相同标准的数据。

为了提高对融合信息的全面刻画能力，在得到各个平台的关联数据表之后，将关联数据表中的所有字段分成若干个维度并添加维度标签，例如用于分析个人信息的数据，可以将所有字段划分为：身份特征、消费能力、信用历史、行为偏好和负债情况五个维度。需要注意的是，关联数据表中的每个字段可能具有多个维度标签。

在本发明实施例中，步骤S101可以通过以下步骤实现：从各个数据源收集原始数据表；分析原始数据表的样本数量、字段数量和空值数量；基于样本数量、字段数量和空值数量从原始数据表筛选出基础数据表；基于基础数据表的主键将同一数据源的基础数据表合并为关联数据表。

本发明实施例的数据融合的方法中，对各个数据源的原始数据表的预处理主要包括数据收集、数据探查、数据筛选和数据合并等。每个原始数据表中可能包括的多个由各类字段组成的样本，每个样本对应一个目标(该目标可以是某个人或某件事等等)。由于部分原始数据表中的样本数量或字段数量较少、或空值字段较多，而不能满足后续分析要求，因此需要对原始数据表进行筛选。对于从同一数据源筛选出的多个基础数据表合并为一个关联数据表，以便于后续的分析处理。基础数据表的主键可以是目标的标识，例如用户名、地址或号码等。

在本发明实施例中，对于步骤S101的实现还可以包括以下步骤：剔除关联数据表中含有空值字段或空值字段的数量超过空字段阈值的样本；利用箱线图结合字段意义的方式去除异常字段；采用平均数、众数或预测值补充空值字段；以及对关联数据表进行离散化处理。

本发明实施例的数据融合的方法中，对各个数据源的原始数据表的预处理还可以包括数据清洗、异常值的剔除、缺失值的补充和变量离散化等。数据清洗即从关联数据表中剔除一部分不能满足后续分析要求的样本，被剔除的样本可能是因含有空值字段(即某些关键字段为空值)或空值字段的数量超过空字段阈值等数据质量较低的样本，该空字段阈值可以根据实际需要或历史数据确定。同时利用箱线图结合字段意义的方式可以去除非空值的字段中不具有实际意义的字段，例如根据箱线图判断一年内逾期次数20次是异常字段，且根据逻辑关系知道一年内逾期20次确为不可能。其中，箱线图(Boxplot)也称箱须图(Box-whisker Plot)，是利用数据中的五个统计量：最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法，它也可以粗略地看出数据是否具有对称性，分布的分散程度等信息，特别可以用于对几个样本的比较。对于空值字段可以采用平均数、众数或预测值进行补充，以便于后续处理和分析，例如采用监督学习的方式(如随机森林等)得出预测值。离散化处理是将关联数据表中的连续变量(某些特征对应的字段)划分成离散变量，包括等频划分、等距划分、最优划分，从而体现出连续变量在不同的取值范围对融合模型的影响。

步骤S102：对关联数据表中的字段进行特征分析，选取待用特征。

在各个数据源的数据分别进行处理得到关联数据表后，需要对各个数据源的数据进行特征分析，即分析关联数据表中所有字段的特征，以得到待用特征。

在本发明实施例中，步骤S102可以通过以下步骤实现：对关联数据表中的字段进行特征分析衍生，得到数据特征和高维非线性特征；分别计算数据特征和高维非线性特征的皮尔逊系数；基于皮尔逊系数从数据特征和高维非线性特征中选取待用特征。

特征衍生是根据从所有的数据类型中挖掘出影响融合目的的新变量，根据关联数据表中的字段可以衍生出两类特征，即数据特征和高维非线性特征。其中，

数据特征可以包括但不限于以下几类：计数(例如过去12个月内申请贷款的总次数)、求和(例如过去3个月网购金额)、比例(例如贷款人贷款金额与授信额度的占比)、时间差(例如第一次开户距今时长)或波动率(例如过去3年工作时间的标准差)等等。

高维非线性特征是一种采用有监督的衍生方式得到的，可以采用随机森林衍生得到，用于提高融合模型的非线性表达能力。随机森林是一个包含多个决策树的分类器，其输出的类别是由个别树输出的类别的众数而定。例如：年龄和收入是两个存在“阈值效应”的变量，即年龄和收入只有大于一个阈值的时候才会对个人信用有影响，这个阈值可以通过随机森林的中的两颗树(decision tree)找出(即只有当年龄大于一定阈值，才会有出现逾期的样本，同理当收入大于一定阈值才会出现逾期的样本)，此外收入和年龄还是存在“双阈值效应”的变量，即只有当年龄大于一定阈值且收入大于一定阈值的时候才会有出现逾期样本，因此可以通过使用随机森林的中的一颗树(decision tree)来找出此阈值。找出阈值之后，根据原本每个样本的两个变量(收入、年龄)就可以增加联合变量(收入和年龄是否大于各自阈值，取值有00、01、10、11四个情况)。同理可以得到所有存在“双阈值效应”的联合变量(即高维非线性特征)。

皮尔逊相关系数，又称皮尔逊积矩相关系数(PPMCC或PCCs)，是用于度量两个变量X和Y之间的相关(线性相关)，其值介于-1与1之间。本发明实施例的数据融合的方法中，使用皮尔逊相关系数描述数据特征和高维非线性特征与对应字段的相关性。

步骤S103：根据维度标签和待用特征从各个关联数据表中抽取梯度。

在完成各个数据源的数据处理和特征分析后，需要对所有关联数据表的数据进行联合建模，实现对融合目的的全方位多角度刻画。在抽取数据的过程中，采用联合加密的技术方案，即抽取各个数据源的参数的梯度，即能够得到待用特征对应字段的具体特征，又能够避免暴露原始数据，确保各个数据源的信息安全性。梯度的本意是一个向量(矢量)，表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向(此梯度的方向)变化最快、变化率最大(为该梯度的模)。

在本发明实施例中，步骤S103可以通过以下步骤实现：根据共有的目标信息对各个数据源对应的关联数据表进行对齐操作，并为目标分配统一标识；根据维度标签和待用特征从各个关联数据表中抽取数据源的参数的梯度和关联数据表的损失，并基于各个关联数据表的损失计算融合损失；若融合损失小于损失阈值，则终止抽取；若融合损失大于或等于损失阈值，则将更新各个数据源的参数，并重新抽取数据源的参数的梯度和关联数据表的损失。

对于各个数据源的经过处理分析后的关联数据表，可以根据待用特征进行数据对齐操作，对齐操作能够为构建统一的融合信息评分体系提供相同格式的数据。同时为目标分配统一标识，该统一标识可以是具有唯一性的个人数据(例如身份证号码或手机号等)，也可以是人为设定的唯一标志，以保证来自不同数据源而具有同一统一标识的数据刻画的是同一目标。

维度标签和待用特征都是对字段的描述，因此每个维度标签对应有固定的待用特征，在基于各个维度建模过程中，可以从各个关联数据表中抽取相应待用特征的字段。对梯度进行加密能够保证传输的信息的不可被他人恢复，进一步保证了各数据源的信息安全性。由于数据源的参数可能存在误差，导致抽取的梯度不够准确，可以使用损失度量从各个数据源抽取的梯度是否可用，此处的损失阈值可以根据实际情况或历史数据确定。

步骤S104：基于梯度建立融合模型。

最后以数据源的参数的梯度为基础建立融合模型，该融合模型能够对目标进行分析，得出目标的融合分值。

在本发明实施例中，数据融合的方法还可以用于包括：从各个关联数据表中提取目标的待用特征信息，基于待用特征信息生成融合信息；将融合信息输入融合模型，以根据待用特征和梯度对融合信息进行计算，得到目标的融合分值；以及在目标的融合分值变化时，对待用特征信息进行迭代计算，得到待用特征对目标的影响权重。

利用各个数据源的关联数据表可以完成目标对应数据的提取(即提取目标的待用特征信息)，从而生成融合信息。对于目标的融合分值的计算，可以根据待用特征和梯度对融合信息所具有的待用特征及对应的字段进行计算得到。此外，目标的某些信息可能会在某些维度上发生变化，导致其融合分值发生变化，例如用户的个人信用可能在随着时间维度或空间维度(如所处地区、所处行业)的变化而发生变化，在分析影响融合分值的关键事件时，可以通过基于分布式并行计算的机器学习模型实时读取、分析相关数据(即待用特征信息)，并进行迭代计算，得到目标的各个待用特征对融合分值的影响权重，并根据影响权重得到导致融合分值出现变化的关键事件。具体地，可以构造出一个回归函数y＝h(w*x),其中x是基本数据，y是标签(待用特征对应的字段)，h是系数，系数可以通过训练数据得到，对该回归函数进行拟合，所得参数w即为影响权重。需要注意的是，影响权重的取值越大，表示影响越大。且影响权重还可以采用其它的现有方式计算得到，此处不予赘述。

根据本发明实施例的数据融合的方法可以看出，因为采用对各个数据源的原始数据表进行筛选合并，得到每个数据源的关联数据表，并为关联数据表中的字段添加维度标签；对关联数据表中的字段进行特征分析，选取待用特征；根据维度标签和待用特征从各个关联数据表中抽取梯度；基于梯度建立融合模型的技术手段，通过融合模型构建统一的、安全的融合信息评分体系，所以克服了缺少统一的、安全的数据融合方法；在对来自异构数据源的数据进行融合过程中，存在信息泄露的安全问题；以及无法为构建统一的融合信息评分体系提供相同标准和格式的数据的技术问题，进而达到对不同数据源的数据进行收集和高效处理，对不同结构的数据进行安全快速的融合，为构建统一的融合信息评分体系提供相同标准和格式的数据的技术效果。

图2是根据本发明实施例的数据融合的方法的抽取待用特征的梯度的示意图。

如图2所示，以融合A部门平台和B部门平台的数据来构建融合模型为例。假设，平台C是独立于各个部门的独立计算平台，负责各个平台的任务调度；A部门平台和B部门平台分别存储了某一维度的两种待用特征。则抽取A部门平台和B部门平台的参数的梯度的具体过程如下：

在信用分计算模型中，需要根据样本身份信息维度的所有信息计算出样本在该维度下的得分，在该系统中，由于采用的计算模型权重迭代过程中只需要A部门平台的参数的梯度和B部门平台的参数的梯度，因此，首先A部门平台和B部门平台分别利用梯度计算公式进行训练，得到各自的参数的梯度和损失，然后将梯度和损失加密后发送给平台C，最后平台C中对A部门平台和B部门平台发送的梯度和损失进行解密，并基于A部门平台和B部门平台的损失计算融合损失，如果融合损失小于阈值，则终止训练；否则，下发梯度和损失到A部门平台和B部门平台，继续进行训练。

在这个过程中，A部门平台和B部门平台之间、平台C和A部门平台之间、平台C和B部门平台之间相互传输的是加密后的梯度，由于各自信息的不可恢复，保证了各平台信息的安全性。

需要注意的是，梯度表示的是每个平台中模型的参数的导数，是对参数进行更新的中间变量。每个平台的损失是相应变量的函数。而梯度和损失可以利用现有的计算公式进行计算，本发明实施例不予赘述。

为了进一步阐述本发明实施例的技术思想，现结合具体的应用场景，对本发明实施例的技术方案进行说明。

以个人的信用分析以及评估信用分为例，本发明实施例的数据融合的方法可以实现对各政府部门和各互联网平台数据进行自动存入云平台，高效处理(包括：异常值处理、缺失值补充、离散化处理)，定性定量分析和对多部门的数据进行安全快速的融合等功能；同时能够应用基于分布式并行计算的机器学习模型实时读取、分析海量信用数据，筛查异常数据，自动生成个人的信用数据分析报告，提交给用户，并将收集、处理、分析后的数据输入到信用评分云模型(即融合模型)中，输出信用分。

如图3所示，本发明一个可参考实施例的数据融合的方法的主要流程主要包括以下三个步骤；

第一步：数据预处理

由于最终建模所需的数据可以来自于学校、银行或行政单位等各个部门和互联网平台，因此首先需要在各个云平台对各部门数据分别进行预处理。在此阶段，通过分别下发任务至数据处理方，使各个部门的数据预处理相互独立。预处理主要包括数据收集、数据探查、数据处理三个环节；

1)在数据收集阶段，主要是将各个政府部门数据和互联网平台数据分别存入(同步传输)到各自的云平台。首先，各个部门确定各自需要同步到云平台的数据表，然后将这些表从本地生产环境同步到云平台。

2)在数据探查阶段，主要是完成各个云平台每个原始数据表的数量和质量探查、数据表关联、数据字段维度划分。首先，分析确定每个云平台下多个原始数据表的逻辑关系(根据数据表主键确定逻辑关系)，对每个原始数据表进行数据规模和数据质量探查，包括每个原始数据表的样本数量、字段数量、字段null值数量等；然后，从这些原始数据表中找出数据规模和数据质量满足要求的基础数据表，将这些基础数据表合并为一个关联数据表，此后各部门的数据处理都是对此关联数据表进行处理；最后为了提高系统对个人信用的全面刻画能力，在各个平台完成数据表关联之后，将关联数据表的所有字段分成五个维度，即：身份特征、消费能力、信用历史、行为偏好、负债情况，给每个字段添加维度标签(注：一个字段可能有多个维度标签)。

3)在数据处理阶段，主要包括数据清洗、异常值的剔除、缺失值的补充，变量离散化等；首先是对各平台的关联数据表进行数据清洗，对于字段取值为空或null(空值)数量超过空字段阈值的样本进行剔除。然后是异常值的剔除和缺失值的补充，剔除的方法是采用箱线图结合字段的具体物理意义的方式进行去除；缺失值的补充，如果缺失数量较少，采用平均数、众数的方式填充，缺失过多的话，采用监督学习的方式进行预测填充，如随机森林等；最后是变量的离散化，主要是为了体现连续变量在不同的取值范围对模型影响不一样，将连续变量划份成离散变量，方法包括等频划份、等距划份或最优划份等。

第二步：特征分析

在各自云平台对各部门数据进行分别处理后，需要对各部门数据进行特征分析，包括：特征衍生、特征筛选；

1)特征衍生是根据从各部门的各种数据类型中挖掘出影响个人信用的新变量(特征)。

一种是采用无监督的特征衍生方法得到数据特征，数据特征主要包括以下几类：

计数：过去12个月内申请贷款的总次数；

求和：过去3个月网购金额；

比例：贷款人贷款金额与授信额度的占比；

时间差：第一次开户距今时长；

波动率：过去3年工作时间的标准差；

另一种是采用有监督的衍生方式，采用随机森林算法衍生得到高维非线性特征，提高信用评分云模型的非线性表达能力。

2)特征筛选是从海量数据中分析现有的变量对个人信用的影响力，通过利用机器学习算法计算出各变量与个人信用的相关程度(其中相关程度可以通过计算出各个变量和标签之间的皮尔逊相关系数)，此外，对于相关程度的检验，常见的标准包括卡方检验、信息增益、基尼指数和相关系数等。然后根据各个变量的相关程度、反映贷款人的还款能力和还款意愿筛选出待用特征，最终筛选出的五种维度的待用特征，具体见下表：

第三步：数据融合

完成各部门数据的数据处理和特征分析后，需要对来自各个部门的数据进行联合建模，实现对个人信用的全方位多角度刻画。

数据的融合是在训练模型抽取数据的过程中，采用联合加密技术方案，确保各部门信息的安全性，实现对个人信用的全方位多角度刻画；

首先，将各个平台的经过处理分析后的关联数据表根据待用特征进行数据对齐操作，分配统一标识(例如：身份证号、手机号)。

然后，由于需要从五个维度分开建模，因此在每个维度建模过程中，根据各个平台关联表字段的维度标签和所对应的待用特征，选择每个维度建模时需要从各个平台抽取的字段，

最后，在各个维度建模过程中，开始从各个平台抽取相应字段，在具体的抽取过程中，从各个云平台抽取的是待用特征的梯度，基于待用特征的梯度建立融合模型。

所建立的融合模型可以计算某标准下的个人信用分值。在完成个人信用数据的收集、处理、分析后，信用评分模型(即融合模型)会根据用户的各个维度的信用信息(即融合信息)输出一个信用分数(即融合分值)。在融合信用信息后，可以为用户返回对应的信用报告，包括信用分数分析、影响信用分数变化的关键事件。

在信用分数分析中，将会对用户的信用分数从时间维度上的变化进行分析、和从在所处地区、所处行业从空间维度上进行分析；在分析影响个人信用分数关键事件上，系统平台通过基于分布式并行计算的机器学习模型实时读取、分析海量信用数据，得到用户的各个维度信用数据对信用分数的影响权重，并根据影响权重得到导致用户信用分数出现变化的关键事件。

此外，建模过程中涉及到多机构数据的场景均可运用本发明实施例的数据融合的方法，例如：营业厅选址(运营商数据、网站数据)、客户推荐(银行或网站)等，本发明实施例不再一一列举。

图4是根据本发明实施例的数据融合的装置的主要模块的示意图。

如图4所示，本发明实施例的数据融合的装置400包括：合并模块401、分析模块402、抽取模块403和建模模块404。

其中，

合并模块401，用于对各个数据源的原始数据表进行筛选合并，得到每个数据源的关联数据表，并为所述关联数据表中的字段添加维度标签；

分析模块402，用于对所述关联数据表中的字段进行特征分析，选取待用特征；

抽取模块403，用于根据所述维度标签和所述待用特征从各个所述关联数据表中抽取梯度；

建模模块404，用于基于所述梯度建立融合模型。

在本发明实施例中，所述合并模块401还用于：

从各个数据源收集原始数据表；

分析所述原始数据表的样本数量、字段数量和空值数量；

在本发明实施例中，所述合并模块401进一步用于：

利用箱线图结合字段意义的方式去除异常字段；

采用平均数、众数或预测值补充空值字段；以及

对所述关联数据表进行离散化处理。

在本发明实施例中，所述分析模块402还用于：

在本发明实施例中，所述抽取模块403还用于：

若所述融合损失小于损失阈值，则终止抽取；

此外，所述数据融合的装置400还包括计算模块(图中并未示出)，用于：

根据本发明实施例的数据融合的装置可以看出，因为采用对各个数据源的原始数据表进行筛选合并，得到每个数据源的关联数据表，并为关联数据表中的字段添加维度标签；对关联数据表中的字段进行特征分析，选取待用特征；根据维度标签和待用特征从各个关联数据表中抽取梯度；基于梯度建立融合模型的技术手段，通过融合模型构建统一的、安全的融合信息评分体系，所以克服了缺少统一的、安全的数据融合方法；在对来自异构数据源的数据进行融合过程中，存在信息泄露的安全问题；以及无法为构建统一的融合信息评分体系提供相同标准和格式的数据的技术问题，进而达到对不同数据源的数据进行收集和高效处理，对不同结构的数据进行安全快速的融合，为构建统一的融合信息评分体系提供相同标准和格式的数据的技术效果。

图5示出了可以应用本发明实施例的数据融合的方法或数据融合的装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息)反馈给终端设备。

需要说明的是，本发明实施例所提供的数据融合的方法一般由服务器505执行，相应地，数据融合的装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括合并模块、分析模块、抽取模块和建模模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，建模模块还可以被描述为“基于所述梯度建立融合模型的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：步骤S101：对各个数据源的原始数据表进行筛选合并，得到每个数据源的关联数据表，并为关联数据表中的字段添加维度标签；步骤S102：对关联数据表中的字段进行特征分析，选取待用特征；步骤S103：根据维度标签和待用特征从各个关联数据表中抽取梯度；步骤S104：基于梯度建立融合模型。

根据本发明实施例的技术方案，因为采用对各个数据源的原始数据表进行筛选合并，得到每个数据源的关联数据表，并为关联数据表中的字段添加维度标签；对关联数据表中的字段进行特征分析，选取待用特征；根据维度标签和待用特征从各个关联数据表中抽取梯度；基于梯度建立融合模型的技术手段，通过融合模型构建统一的、安全的融合信息评分体系，所以克服了缺少统一的、安全的数据融合方法；在对来自异构数据源的数据进行融合过程中，存在信息泄露的安全问题；以及无法为构建统一的融合信息评分体系提供相同标准和格式的数据的技术问题，进而达到对不同数据源的数据进行收集和高效处理，对不同结构的数据进行安全快速的融合，为构建统一的融合信息评分体系提供相同标准和格式的数据的技术效果。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据融合的方法，其特征在于，包括：

对所述关联数据表中的字段进行特征分析，选取待用特征；

基于所述梯度建立融合模型。

2.根据权利要求1所述的方法，其特征在于，对各个数据源的原始数据表进行筛选合并，得到每个数据源的关联数据表包括：

从各个数据源收集原始数据表；

分析所述原始数据表的样本数量、字段数量和空值数量；

3.根据权利要求1所述的方法，其特征在于，在对所述关联数据表中的字段进行特征分析，选取待用特征之前还包括：

利用箱线图结合字段意义的方式去除异常字段；

采用平均数、众数或预测值补充空值字段；以及

对所述关联数据表进行离散化处理。

4.根据权利要求1所述的方法，其特征在于，对所述关联数据表中的字段进行特征分析，选取待用特征包括：

5.根据权利要求1所述的方法，其特征在于，根据所述维度标签和所述待用特征从各个所述关联数据表中抽取梯度包括：

若所述融合损失小于损失阈值，则终止抽取；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种数据融合的装置，其特征在于，包括：

建模模块，用于基于所述梯度建立融合模型。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括计算模块，用于：

9.一种数据融合的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。