CN115130623A

CN115130623A - 数据融合方法、装置、电子设备及存储介质

Info

Publication number: CN115130623A
Application number: CN202211064239.6A
Authority: CN
Inventors: 陈小超
Original assignee: Inspur Communication Information System Co Ltd
Current assignee: Inspur Communication Information System Co Ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-09-30
Anticipated expiration: 2042-09-01
Also published as: CN115130623B

Abstract

本发明提供一种数据融合方法、装置、电子设备及存储介质，涉及计算机技术领域，该方法包括：将目标用户的多个原始评估结果输入数据融合模型，获取数据融合模型输出的目标用户的评估结果；其中，各原始评估结果基于目标用户在不同目标数据源中的用户数据获得，每一原始评估结果与每一目标数据源具有一一对应关系；数据融合模型基于样本用户在每一目标数据源中的用户数据获得。本发明提供的数据融合方法、装置、电子设备及存储介质，能解决因数据安全、网络策略、数据一致性以及相关口径差异等因素造成的数据融合问题，能更准确、更高效的融合来自不同数据源的数据，能提高用户画像的准确率和效率，能为商业活动策划及营销决策提供辅助支持。

Description

数据融合方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据融合方法、装置、电子设备及存储介质。

背景技术

在商业领域中，用户画像技术可以有效预测推断用户的需求、感兴趣的内容，使得可以针对用户的需求和感兴趣的内容对用户投放相应的产品或者服务，提升用户感知，同时也可以为商业活动策划及营销决策提供辅助支持。

用户画像的核心是为用户添加“标签”，上述“标签”是通过对用户历史行为数据分析而来的高度精炼的特征标识。为了提高上述“标签”的准确性，可以基于来自不同数据源的用户数据进行用户画像。

现有技术中，受限于数据安全、网络策略、数据一致性以及相关口径差异等因素，难以准确、高效的融合来自不同数据源的数据，进而导致用户画像的准确率和效率较低。

发明内容

本发明提供一种数据融合方法、装置、电子设备及存储介质，用以解决现有技术中难以准确、高效的融合来自不同数据源的数据的缺陷，实现更准确、高效的融合来自不同数据源的数据。

本发明提供一种数据融合方法，包括：

获取目标用户的多个原始评估结果；

将各所述原始评估结果输入数据融合模型，获取所述数据融合模型输出的所述目标用户的评估结果；

其中，各所述原始评估结果基于所述目标用户在不同目标数据源中的用户数据获得，每一所述原始评估结果与每一所述目标数据源具有一一对应关系；所述数据融合模型基于样本用户在每一所述目标数据源中的用户数据获得。

根据本发明提供的一种数据融合方法，所述数据融合模型，包括：数据脱敏单元、权重计算单元和数据融合单元；

相应地，所述将各所述原始评估结果输入数据融合模型，获取所述数据融合模型输出的所述目标用户的评估结果，包括：

获取权重计算单元输出的每一所述目标数据源对应的权重值，并将各所述原始评估结果输入所述数据脱敏单元，获取所述数据脱敏单元输出的每一所述原始评估结果对应的目标WOE值；

将各所述权重值和各所述目标WOE值输入所述数据融合单元，获取所述数据融合单元输出的所述目标用户的评估结果；

其中，所述权重计算单元是基于Stacking框架构建，基于样本用户在每一所述目标数据源中的用户数据训练得到的。

根据本发明提供的一种数据融合方法，所述数据脱敏单元，包括：结果分组子单元和数据脱敏子单元；

相应地，所述将各所述原始评估结果输入所述数据脱敏单元，获取所述数据脱敏单元输出的每一所述原始评估结果对应的目标WOE值，包括：

将各所述原始评估结果输入所述结果分组子单元，由所述结果分组子单元确定每一原始评估结果所在的预设数值区间，并基于预设数值区间与分组标识之间的对应关系，确定所述每一原始评估结果对应的目标分组标识，进而获取所述结果分组子单元输出的每一所述目标分组标识；

将各所述目标分组标识输入所述数据脱敏子单元，由所述数据脱敏子单元基于所述分组标识与WOE值之间的对应关系，确定每一所述目标分组标识对应的目标WOE值，进而获取所述数据脱敏子单元输出的每一所述目标WOE值；

其中，所述预设数值区间、分组标识以及WOE值之间的对应关系，基于所述样本用户在每一所述目标数据源中的用户数据确定。

根据本发明提供的一种数据融合方法，所述数据融合单元，包括：第一数值计算子单元和第二数值计算子单元；

相应地，所述将各所述权重值和各所述目标WOE值输入所述数据融合单元，获取所述数据融合单元输出的所述目标用户的评估结果，包括：

将各所述权重值和各所述WOE值输入所述第一数值计算子单元，由所述第一数值计算子单元获取每一目标数据源对应的权重值与所述每一目标数据源对应的目标WOE值的乘积，作为所述目标用户的每一中间评估结果，进而获取所述第一数值计算子单元输出的每一所述中间评估结果；

将各所述中间评估结果输入所述第二数值计算子单元，由所述第二数值计算子单元获取各所述中间评估结果之和，作为所述目标用户的评估结果，进而获取所述第二数值计算子单元输入的所述目标用户的评估结果。

根据本发明提供的一种数据融合方法，在所述目标用户的数量为多个的情况下，所述将各所述原始评估结果输入数据融合模型，获取所述数据融合模型输出的所述目标用户的评估结果之后，还包括：

确定每一目标用户的评估结果所在的预设数值区间，并基于预设数值区间与分组标识之间的对应关系，确定所述每一目标用户对应的分组标识；

统计每一分组标识对应的目标用户的数量，在任一分组标识对应的目标用户的数量不小于第一预设值的情况下，基于各所述目标用户的评估结果，将至少一个所述目标用户确定为测试用户；

对所述测试用户进行外呼测试，获取所述测试用户的外呼测试结果。

根据本发明提供的一种数据融合方法，所述获取所述测试用户的外呼测试结果之后，还包括：

在满足预设条件的情况下，基于所述测试用户的外呼测试结果，更新所述数据融合模型。

根据本发明提供的一种数据融合方法，所述在满足预设条件的情况下，基于所述测试用户的外呼测试结果，更新所述数据融合模型，包括：

在任一分组标识对应的目标用户的数量占所述目标用户总数的占比大于第二预设值，且所述任一分组标识对应的测试用户的数量大于第三预设值的情况下，基于所述测试用户的外呼测试结果，更新所述任一分组标识对应的目标WOE值。

本发明还提供一种数据处理装置，包括：

数据获取模块，用于获取目标用户的多个原始评估结果；

数据融合模块，用于将各所述原始评估结果输入数据融合模型，获取所述数据融合模型输出的所述目标用户的评估结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述数据融合方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述数据融合方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述数据融合方法。

本发明提供的数据融合方法、装置、电子设备及存储介质，通过将基于目标用户在不同目标数据源中的用户数据获得的目标用户的多个原始评估结果，输入数据融合模型，获取数据融合模型输出的目标用户的评估结果，数据融合模型基于样本用户在每一目标数据源中的用户数据构建，能解决因数据安全、网络策略、数据一致性以及相关口径差异等因素造成的数据融合问题，能更准确、更高效的融合来自不同数据源的数据，能提高用户画像的准确率和效率，能为商业活动策划及营销决策提供辅助支持。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的数据融合方法的流程示意图；

图2为本发明提供的数据融合方法与传统的数据融合方法的效果对比图之一；

图3为本发明提供的数据融合方法与传统的数据融合方法的效果对比图之二；

图4是本发明提供的数据处理装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，尽管基于来自单一数据源的用户数据，例如：来自运营商的用户数据，可以对用户的基础信息、消费特征等方面进行刻画。但在某些应用场景下，例如，在特定金融产品的精准营销或存量用户的促销活动中，单纯依赖来自单一数据源的用户数据，难以精准刻画用户的历史金融行为表现，通常还需要获取来自金融机构的用户数据作为补充，如来自银行的用户信贷基础信息、历史还款记录以及违约记录等，可以实现更精准的用户画像。

通常情况下，可以通过直接融合或间接融合的方法，基于不同数据源中的用户数据进行用户画像。以下以基于来自运营商的用户数据和来自金融机构的用户数据进行用户画像为例进行说明。

直接融合的方法中，来自金融机构的用户数据和样本数据可以直接进入运营商的内部数据环境，进行数据融合和用户撞库，并可以基于样本数据进行建模，从而可以基于构建好的模型以及融合后的用户数据进行用户画像。更进一步，在具有良好的软硬件环境和建模能力支撑的情况下，还可以基于联邦学习技术在双方数据均不出内部数据环境的情况下进行协同建模和优化，构建融合双方数据的联邦模型。在直接融合的方法中，不存在样本数据和用户数据泄露的问题。

但是，来自金融机构的用户数据的属性为极端隐私和保密性，金融机构通常不允许自有数据流出，因此在运营商的内部数据环境中进行数据融合和用户撞库由于安全策略问题难以实现。

并且，基于联邦学习技术在内部数据环境中进行协同建模和优化，对研发人员的建模能力、金融机构的软硬件能力等有较高要求，虽然运营商具备相应的支撑能力，但在实际应用中会由于支撑能力参差不齐而难以实施。

间接融合的方法中，可以在样本数据已碰撞的前提下，在运营商和金融机构各自的内部数据环境内，利用样本数据，采用相同的样本标签分别进行建模。基于在运营商的内部数据环境内构建的模型和在金融机构的内部数据环境内构建的模型，可以分别进行用户画像，从而可以分别获得运营商对应的用户预测评分和金融机构对应的用户预测评分。

获得运营商对应的用户预测评分和金融机构对应的用户预测评分之后，可以对上述两个用户预测评分进行融合，从而实现基于运营商的用户数据和来自金融机构的用户数据的用户画像。具体融合的策略包括加权评分（上述两个用户预测评分的加权和）、联合条件过滤（对于评分类模型，获取同时满足双方模型过滤条件的用户）以及投票法（对于判断类模型，获取双方模型均判断为正的用户）等。

上述间接融合的方法既可以满足数据安全条例，同时实现难度较低，因此在实际场景下被广泛应用。但在长期的实践应用中，间接融合的方法存在以下几个问题：首先，由于相关建模口径和数据输出分布差异，导致对上述两个用户预测评分进行融合的融合效果难以达到预期，例如，金融机构习惯采用评分卡模型，获得的金融机构对应的用户预测评分具有正态分布特征，评分范围在0-600之间；而运营商通常采用按叶子分裂的学习方法(Leaf-wise Learning，LGB)、随机森林算法等，获得的运营商对应的用户预测评分通常具有指数分布特征，评分范围在0-1之间；上述两个用户预测评分融合会导致数据分布和尺度的混乱，应用效果不佳；其次，对投票法和联合条件过滤类，对切分阈值的确定等缺少统一的理论基础，需要结合专家经验、产出数据量、外呼表现等事后分析进行反复测试和调整，一方面调整周期较长，另一方面随着业务推进周期的变化，模型融合无法进行动态调整和优化。除此之外，融合上述两个用户预测评分时，存在泄露用户隐私的问题。

对此，本发明提供一种数据融合方法，可以基于Stacking框架，利用机器学习算法构建数据融合模型，从而可以基于上述数据融合模型对基于不同数据源中的用户数据获得的用户原始评估结果进行融合，可以优化传统的简单加权融合和联合过滤方法。相较于传统的Stacking框架，本发明提供的数据融合方法采用WOE分组的方式对不同数据源中的用户数据进行脱敏，并且仅在各数据源的内部数据环境中进行查表匹配处理，通过接口输出即可实现数据融合，避免了复杂的模型部署过程。

并且，针对数据融合通过事后分析调整周期较长的问题，本发明提供的数据融合方法结合外呼测试实时反馈接口，利用Bandit算法，对数据融合模型进行动态调整和测试。在确定测试用户时，不仅将数据融合模型输出的评估结果较好的目标用户确定为测试用户，还可以按照一定的小概率将数据融合模型输出的评估结果一般或较差的目标用户确定为测试用户，按照实时接口反馈测试用户的实际收单率对数据融合模型进行动态调整。可以基于外呼测试不同时期，实现数据融合模型的动态调整，从而可以辅助业务分析和模型优化。与传统的融合方案相比，本发明提供的数据融合方法不需要人为参与，可以明显的提升收单率和客群质量表现，尤其是在外呼的中后期时期。

图1是本发明提供的数据融合方法的流程示意图。下面结合图1描述本发明的数据融合方法。如图1所示，该方法包括：步骤101、获取目标用户的多个原始评估结果。

其中，各原始评估结果基于目标用户在不同目标数据源中的用户数据获得，每一原始评估结果与每一目标数据源具有一一对应关系。

需要说明的是，本发明实施例的执行主体为数据处理装置。

具体地，目标用户在不同目标数据源中的用户数据，为本发明提供的数据融合方法的处理对象。基于本发明提供的数据融合方法，可以通过对目标用户在不同目标数据源中的用户数据进行数据处理，获取用于评估目标用户的评估结果，从而可以基于目标用户的评估结果，进行更精准的营销等。

需要说明的是，本发明实施例中目标用户的数量可以为一个或多个。

对于目标用户在任一目标数据源的数据，本发明实施例中可以基于目标数据源的数据特点等，通过传统数据融合方法，获取与该目标数据源对应的目标用户的原始评估结果。为了便于对本发明提供的数据融合方法的理解，以下以目标数据源包括运营商数据源和金融机构数据源为例，说明本发明提供的数据融合方法。其中，上述运营商为通信运营商；上述金融机构可以为银行等可以进行金融业务处理的机构。

目标用户在运营商数据源中的用户数据，可以包括但不限于目标用户对应的信令数据、话务数据等。目标用户在金融机构数据源中的用户数据，可以包括但不限于目标用户在金融机构中的基础信息、历史还款数据以及违约记录数据等。

基于目标用户在运营商数据源中的用户数据，可以采用LGB模型，在运营商的内部数据环境中，获取与运营商数据源对应的目标用户的原始评估结果。本发明实施例中可以将与运营商数据源对应的目标用户的原始评估结果，称为目标用户的LGB评估结果。

基于目标用户在金融机构数据源中的用户数据，可以采用评分卡模型，在金融机构的内部数据环境中，获取与金融机构数据源对应的目标用户的原始评估结果。本发明实施例中将与金融机构数据源对应的目标用户的原始评估结果，称为目标用户的评分卡评估结果。

其中，LGB（Light Gradient Boosting Machine，LightGBM）模型，是一个实现GBDT算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。基于LGB模型获得的评估结果呈指数分布，取值范围在0至1之间。

评分卡模型是常用的金融风控手段之一。评分卡模型可以根据客户的各种属性和行为数据，对客户进行评分，从而决定是否给予授信，授信的额度和利率，减少在金融交易中存在的交易风险。基于评分卡模型获得的评估结果呈正态分布，取值范围在0至600之间。

步骤102、将各原始评估结果输入数据融合模型，获取数据融合模型输出的目标用户的评估结果。其中，数据融合模型基于样本用户在每一目标数据源中的用户数据获得。

具体地，获取目标用户的LGB评估结果和评分卡评估结果之后，可以将目标用户的LGB评估结果和评分卡评估结果输入数据融合模型。

数据融合模型可以对目标用户的LGB评估结果和评分卡评估结果进行数据融合，从而可以获取数据融合模型输出的目标用户的评估结果。

需要说明的是，数据融合模型是基于样本用户在供应商数据源和金融机构数据源中的用户数据获得的。

例如：可以基于样本用户在供应商数据源和金融机构数据源中的用户数据，通过数值计算、数理统计等方式，构建数学模型类型的数据融合模型；

又例如，还可以基于样本用户在供应商数据源和金融机构数据源中的用户数据，训练得到机器学习模型类型的数据融合模型；

又例如，基于样本用户在供应商数据源和金融机构数据源中的用户数据，构建结合数据模型和机器学习模型的数据融合模型。

本发明实施例中对数据融合模型的具体类型，以及基于样本用户在供应商数据源和金融机构数据源中的用户数据构建数据融合模型的具体方式不作限定。

可选地，样本用户在运营商数据源和金融机构数据源中的用户数据可以基于如下步骤获取：首先，可以获取运营商数据源中的样本数据和金融机构数据源中的样本数据；

其次，可以通过约定的单项加密方式对运营商数据源中的样本数据和金融机构数据源中的样本数据进行数据碰撞，获取运营商数据源与金融机构数据源共有的用户作为样本用户，进而可以在运营商数据源中的样本数据和金融机构数据源中的样本数据中，确定样本用户在运营商数据源和金融机构数据源中的用户数据。其中，运营商数据源和金融机构数据源可以通过FPT接口进行数据碰撞。

需要说明的是，样本用户的数量为多个。

本发明实施例通过将基于目标用户在不同目标数据源中的用户数据获得的目标用户的多个原始评估结果，输入数据融合模型，获取数据融合模型输出的目标用户的评估结果，数据融合模型基于样本用户在每一目标数据源中的用户数据构建，能解决因数据安全、网络策略、数据一致性以及相关口径差异等因素造成的数据融合问题，能更准确、更高效的融合来自不同数据源的数据，能提高用户画像的准确率和效率，能为商业活动策划及营销决策提供辅助支持。

基于上述各实施例的内容，数据融合模型，包括：数据脱敏单元、权重计算单元和数据融合单元。

相应地，将各原始评估结果输入数据融合模型，获取数据融合模型输出的目标用户的评估结果，包括：获取权重计算单元输出的每一目标数据源对应的权重值，并将各原始评估结果输入数据脱敏单元，获取数据脱敏单元输出的每一原始评估结果对应的目标WOE值。

其中，权重计算单元是基于Stacking框架构建，基于样本用户在每一目标数据源中的用户数据训练得到的。

具体地，获取目标用户的LGB评估结果和评分卡评估结果之后，可以将目标用户的LGB评估结果和评分卡评估结果输入数据融合模型中的数据脱敏单元。

数据脱敏单元可以对目标用户的LGB评估结果和评分卡评估结果的数据分布特点以及数据尺度进行统一，实现对目标用户的LGB评估结果和评分卡评估结果的数据脱敏，获取并输出离散化的目标用户的LGB评估结果对应的目标WOE值以及目标用户的评分卡评估结果对应的目标WOE值。

数据脱敏单元可以通过多种方式获取并输出目标用户的LGB评估结果对应的目标WOE值以及目标用户的评分卡评估结果对应的目标WOE值。

例如：数据脱敏单元可以基于WOE算法，计算得到目标用户的LGB评估结果对应的目标WOE值以及目标用户的评分卡评估结果对应的目标WOE值；

又例如，数据脱敏单元还可以通过数据查询的方法，在已获取的WOE值中查找目标用户的LGB评估结果对应的目标WOE值以及目标用户的评分卡评估结果对应的目标WOE值。

需要说明的是，本发明实施例中对数据脱敏单元获取目标用户的LGB评估结果对应的目标WOE值以及目标用户的评分卡评估结果对应的目标WOE值的具体方式不作限定。

Stacking框架是一种分层模型集成框架。本发明实施例中基于Stacking框架构建数据融合模型中的权重计算单元，并基于样本用户在运营商数据源和金融机构数据源中的用户数据，对上述权重计算单元进行训练，可以获得训练好的权重计算单元，进而可以获取上述训练好的权重计算单元输出的供应商数据源对应的权重值以及金融机构数据源对应的权重值。

本发明实施例中，上述训练好的权重计算单元输出的供应商数据源对应的权重值为0.65，金融机构数据源对应的权重值为0.35。由于运营商数据源提供的数据具有更好的连续性和完备性，使得供应商数据源对应的权重值高于金融机构数据源对应的权重值。

将各权重值和各目标WOE值输入数据融合单元，获取数据融合单元输出的目标用户的评估结果。

具体地，获取目标用户的LGB评估结果对应的目标WOE值、目标用户的评分卡评估结果对应的目标WOE值、供应商数据源对应的权重值以及金融机构数据源对应的权重值之后，可以将目标用户的LGB评估结果对应的目标WOE值、目标用户的评分卡评估结果对应的目标WOE值、供应商数据源对应的权重值以及金融机构数据源对应的权重值输入数据融合模型中的数据融合单元。

数据融合单元可以通过数值计算的方式，基于目标用户的LGB评估结果对应的目标WOE值、目标用户的评分卡评估结果对应的目标WOE值、供应商数据源对应的权重值以及金融机构数据源对应的权重值，获取并输出目标用户的评估结果。

本发明实施例通过获取数据融合模型中的权重计算单元输出的每一目标数据源对应的权重值，并基于数据融合模型中的数据脱敏单元，对目标用户的各原始评估结果进行数据脱敏，获取数据脱敏单元输出的每一原始评估结果对应的目标WOE值之后，将上述各目标数据源对应的权重值和上述各目标WOE值输入数据融合模型中的数据融合单元，获取数据融合单元输出的目标用户的评估结果，权重计算单元基于Stacking框架构建，基于样本用户在每一目标数据源中的用户数据训练得到，能统一目标用户的各原始评估结果的数据分布特点以及数据尺度，从而能更好的解决因数据一致性以及相关口径差异等因素造成的数据融合问题。

基于上述各实施例的内容，数据脱敏单元，包括：结果分组子单元和数据脱敏子单元。

相应地，将各原始评估结果输入数据脱敏单元，获取数据脱敏单元输出的每一原始评估结果对应的目标WOE值，包括：将各原始评估结果输入结果分组子单元，由结果分组子单元确定每一原始评估结果所在的预设数值区间，并基于预设数值区间与分组标识之间的对应关系，确定每一原始评估结果对应的目标分组标识，进而获取结果分组子单元输出的每一目标分组标识。

具体地，可以基于LGB模型以及评分卡模型的模型特征以及先验知识，预先确定多个预设数值区间，并为每一预设数值区间生成对应的分组标识。

可选地：本发明实施例中可以根据LGB模型的模型特征和先验知识，确定6个预设数值区间。上述6个预设数值区间与每一分组标识之间的对应关系如表1所示。

表1 分组标识与预设数值区间的对应关系表之一

本发明实施例中还可以根据评分卡模型的模型特征和先验知识，确定6个预设数值区间。上述6个预设数值区间与每一分组标识之间的对应关系如表2所示。

表2 分组标识与预设数值区间的对应关系表之二

需要说明的是，本发明实施例中对预设数值区间的数量以及预设数值区间的具体取值不作限定。

获取目标用户的LGB评估结果和评分卡评估结果之后，可以将目标用户的LGB评估结果和评分卡评估结果输入数据脱敏单元中的结果分组子单元。

结果分组子单元可以确定目标用户的LGB评估结果和评分卡评估结果所在的预设数值区间，并可以基于表1和表2，确定目标用户的LGB评估结果对应的目标分组标识以及目标用户的评分卡评估结果对应的目标分组标识，进而可以获取结果分组子单元输出上述两个目标分组标识。

可选地，本发明实施例中目标用户的LGB评估结果对应的目标分组标识为3；目标用户的评分卡评估结果对应的目标分组标识为10。

将各目标分组标识输入数据脱敏子单元，由数据脱敏子单元基于分组标识与WOE值之间的对应关系，确定每一目标分组标识对应的目标WOE值，进而获取数据脱敏子单元输出的每一目标WOE值；

其中，预设数值区间、分组标识以及WOE值之间的对应关系，基于样本用户在每一目标数据源中的用户数据确定。

具体地，基于样本用户在运营商数据源和的用户数据，可以采用LGB模型，在运营商的内部数据环境中，获取与运营商数据源对应的样本用户的原始评估结果。

基于样本用户在金融机构数据源中的用户数据，可以采用评分卡模型，在金融机构的内部数据环境中，获取与金融机构数据源对应的样本用户的原始评估结果。

获取样本用户的LGB评估结果和评分卡评估结果之后，可以确定样本用户的LGB评估结果和评分卡评估结果所在的预设数值区间，并可以基于表1和表2，确定样本用户的LGB评估结果对应的分组标识以及目标用户的评分卡评估结果对应的分组标识。

通过数理统计的方式，可以进一步获取每一分组标识对应的样本用户占样本用户总数的占比。

可选地，本发明实施例中每一分组标识对应的样本用户占样本用户总数的占比如表3和表4所示。

表3 分组标识对应的样本用户占比示意表之一

表4 分组标识对应的样本用户占比示意表之二

基于预设数值区间以及对应的样本用户占样本用户总数的占比，可以通过数值计算的方式，获取每一预设数值区间对应的WOE值。

可选地，本发明实施例中分组标识、预设数值区间以及WOE值的对应关系如表5和表6所示。

表5 分组标识、预设数值区间以及WOE值的对应关系表之一

表6 分组标识、预设数值区间以及WOE值的对应关系表之二

获取目标用户的LGB评估结果对应的目标分组标识以及目标用户的评分卡评估结果对应的目标分组标识之后，可以基于表5和表6，将上述两个目标分组标识对应的WOE值，分别确定为目标用户的LGB评估结果对应的目标WOE值和目标用户的评分卡评估结果对应的目标WOE值。

可选地，在目标用户的LGB评估结果对应的目标分组标识为3，目标用户的评分卡评估结果对应的目标分组标识为10的情况下，目标用户的LGB评估结果对应的目标WOE值为0.33，目标用户的评分卡评估结果对应的目标WOE值为0.09。

本发明实施例中数据脱敏单元中的结果分组子单元，基于预设数值区间与分组标识之间的对应关系，确定目标用户的每一原始评估结果对应的目标分组标识，数据脱敏单元中的数据脱敏子单元基于分组标识与WOE之间的对应关系，确定目标用户的每一原始评估结果对应的目标WOE值，能更简单、更高效的统一目标用户的各原始评估结果的数据分布特点以及数据尺度，能提高数据融合的效率。

基于上述各实施例的内容，数据融合单元，包括：第一数值计算子单元和第二数值计算子单元。

相应地，将各权重值和各目标WOE值输入数据融合单元，获取数据融合单元输出的目标用户的评估结果，包括：将各权重值和各目标WOE值输入第一数值计算子单元，由第一数值计算子单元获取每一目标数据源对应的权重值与每一目标数据源对应的目标WOE值的乘积，作为目标用户的每一中间评估结果，进而获取第一数值计算子单元输出的每一中间评估结果。

具体地，获取目标用户的LGB评估结果对应的目标WOE值、目标用户的评分卡评估结果对应的目标WOE值、运营商数据源对应的权重值和金融机构数据源对应的权重值之后，可以将目标用户的LGB评估结果对应的目标WOE值、目标用户的评分卡评估结果对应的目标WOE值、运营商数据源对应的权重值和金融机构数据源对应的权重值输入数据融合单元中的第一数值计算单元。

第一数值计算单元可以获取目标用户的LGB评估结果对应的目标WOE值与运营商数据源对应的权重值的乘积，作为目标用户的一个中间评估结果。

可选地，在目标用户的LGB评估结果对应的目标WOE值为0.33，供应商数据源对应的权重值为0.65的情况下，第一数值计算单元可以获取0.33与0.65的乘积0.215，作为目标用户的一个中间评估结果。

第一数值计算单元还可以获取目标用户的评分卡评估结果对应的目标WOE值和金融机构数据源对应的权重值的乘积，作为目标用户的另一个中间评估结果。

可选地，在目标用户的评分卡评估结果对应的目标WOE值为0.09，金融机构数据源对应的权重值为0.35的情况下，第一数值计算单元可以获取0.09与0.35的乘积0.032，作为目标用户的另一个中间评估结果。

需要说明的是，基于不同WOE值和不同数据源对应的权重值获得的中间评估结果，如表7和表8所示。

表7 分组标识、预设数值区间、WOE值以及中间评估结果的对应关系表之一

表8 分组标识、预设数值区间、WOE值以及中间评估结果的对应关系表之二

将各中间评估结果输入第二数值计算子单元，由第二数值计算子单元获取各中间评估结果之和，作为目标用户的评估结果，进而获取第二数值计算子单元输出的目标用户的评估结果。

具体地，获取目标用户的两个中间评估结果之后，可以将上述两个中间评估结果输入第二数值计算子单元。

第二数值计算子单元可以获取上述两个中间评估结果之和，作为目标用户的评估结果，从而可以获取第二数值计算子单元输出的目标用户的评估结果。

可选地，在目标用户的两个中间评估结果分别为0.215和0.032的情况下，第二数值计算子单元可以获取0.215与0.032之和0.247，作为目标用户的评估结果。

本发明实施例中数据融合单元中的第一数值计算子单元和第二数值计算子单元，通过数值计算的方式，能基于各目标数据源对应的权重值和各目标WOE值，更准确、更高效的获得目标用户的评估结果，能进一步提高数据融合的效率。

基于上述各实施例的内容，在目标用户的数量为多个的情况下，将各原始评估结果输入数据融合模型，获取数据融合模型输出的目标用户的评估结果之后，还包括：确定每一目标用户的评估结果所在的预设数值区间，并基于预设数值区间与分组标识之间的对应关系，确定每一目标用户对应的分组标识。

具体地，基于表1和表2，可以确定每一目标用户的评估结果所在的预设数值区间，并可以确定每一目标用户对应的分组标识。

统计每一分组标识对应的目标用户的数量，在任一分组标识对应的目标用户的数量不小于第一预设值的情况下，基于各目标用户的评估结果，将至少一个目标用户确定为测试用户。

通常情况下，外呼测试的测试效果通常通过收单率进行评估。而收单率的准确率，与外呼数据量相关，外呼数据量越大，收单率的准确率越高，在外呼测试只有一人的情况下，收单率会出现0或1的极端值。

因此，本发明实施例中对传统的Bandit算法进行优化，设置第一预设值n，以确保每个预设数值区间的外呼量不小于第一预设值n，从而保证每个预设数值区间的外呼量足够，获得的收单率相对准确。

具体地，获取每一目标用户对应的分组标识之后，可以统计每一分组标识对应的目标用户的数量。

统计获得每一分组标识对应的目标用户的数量之后，若任一分组标识对应的目标用户的数量不小于第一预设值n，则可以基于各目标用户的评估结果，通过数理统计、数值计算等方式，将至少一个目标用户确定为测试用户。

基于表7和表8，可以获取确定目标用户的中间评估结果的取值范围在-0.150至0.332之间，目标用户的中间评估结果的最大差值为0.482。

可选地，本发明实施例中可以基于目标用户的中间评估结果的最大差值，确定迭代步长s。在目标用户的中间评估结果的最大差值为0.482的情况下，可以将上述最大差值的1/100，确定为s，即s=0.04。

本发明实施例中还可以将第一预设值n确定为1000，定义阈值t=0.7。

以下通过一个实例说明本发明实施例中确定测试用户的过程。为了便于说明，本实例中目标用户的数量为四个，上述四个目标用户的评估结果分别为0.3、0.2、0.5和1。

生成随机数r。

在r大于阈值t（0.7）的情况下，则将评估结果为1的目标用户，确定为测试用户。

在r不大于阈值t（0.7）的情况下，有50%的概率将评估结果为0.5的目标用户，确定为测试用户；有30%的概率将评估结果为0.3的目标用户，确定为测试用户；有20%的概率将评估结果为0.2的目标用户，确定为测试用户。

在实际场景下，需要对除去最大评估结果之后的各评估结果进行Min-Max归一化。

在实际场景下，还可以将最大评估结果所在的分组设计为“圆盘”，然后按照随机命中原则进行输出。在本实例中，若r<t，则可以再生成一个随机数a，在a＞0.2的情况下，可以将评估结果为0.2的目标用户，确定为测试用户；在0.2≤a<0.5的情况下，则将评估结果为0.3的目标用户，确定为测试用户；否则输出评分为0.5的用户。

对测试用户进行外呼测试，获取测试用户的外呼测试结果。

具体地，确定测试用户之后，可以基于传统的外呼测试方法，对测试用户进行外呼测试，从而可以获取测试用户的外呼测试结果。

本发明实施例通过在目标用户的数量为多个的情况下，确定每一目标用户的评估结果所在的预设数值区间，并基于预设数值区间与分组标识之间的对应关系，确定每一目标用户对应的分组标识，在任一分组标识对应的目标用户的数量不小于第一预设值的情况下，基于各目标用户的评估结果，将至少一个目标用户确定为测试用户进行外呼测试，能在基于目标用户的评估结果进行更精准的外呼测试，能提高外呼测试结果的准确率。

基于上述各实施例的内容，获取测试用户的外呼测试结果之后，还包括：在满足预设条件的情况下，基于测试用户的外呼测试结果，更新数据融合模型。

具体地，在获取测试用户的外呼测试结果之后，可以进行条件判断，判断是否满足预设条件。

在满足预设条件的情况下，可以基于测试用户的外呼测试结果，更新数据融合模型。

需要说明的是，预设条件可以基于先验知识和/或实际情况确定。本发明实施例中对预设条件不作具体限定。

本发明实施例通过在满足预设条件的情况下，基于测试用户的外呼测试结果，更新数据融合模型，能通过对数据融合模型的动态优化，进一步提高数据融合的准确率。

基于上述各实施例的内容，在满足预设条件的情况下，基于测试用户的外呼测试结果，更新数据融合模型，包括：在任一分组标识对应的目标用户的数量占目标用户总数的占比大于第二预设值，且任一分组标识对应的测试用户的数量大于第三预设值的情况下，基于测试用户的外呼测试结果，更新任一分组标识对应的WOE值。

需要说明的是，任一分组标识对应的测试用户，是由该分组标识对应的目标用户确定的。

需要说明的是，第二预设值和第三预设值可以是基于先验知识和/或实际情况预先确定的。第二预设值的取值范围在0至1之间。本发明实施例中对第二预设值和第三预设值的具体取值不作限定。

可选地，本发明实施例中第二预设值可以为0.7。

相应地，对于任一分组标识，若该分组标识对应的目标用户的数量占目标用户总数的占比大于0.7，且该分组标识对应的测试用户的数量大于第三预设值，则可以基于测试用户的外呼测试结果，更新该分组标识对应的WOE值。更新后的该分组标识对应的WOE值可以基于如下公式计算得到：

其中，

表示更新后的该分组标识对应的WOE值；

表示该分组标识对应的 WOE值；s表示迭代步长；I表示该分组标识对应的测试用户的外呼测试结果；I _max表示该分组标识对应的测试用户的外呼测试结果中的最大值。

基于更新后的数据融合模型进行下一轮的迭代外呼测试和数据融合模型的动态调整。随着迭代的进行，具有较好的外呼测试结果对应的分组标识对应的WOE值会逐渐变高，反之较差的外呼测试结果对应的分组标识对应的WOE值逐渐变低，在后续的外呼测试中，确定为测试用户的概率逐渐降低，从而将被逐步淘汰。

相比于传统的数据融合方法，本发明提供的数据融合方法，符合数据安全条例，相较于联邦学习等传统技术，具有更高的可实现性。并且，相较于传统的数据融合方法，本发明提供的数据融合方法基于机器学习算法，在保证准确率的同时屏蔽了数据分布状态和数据尺度的差异，还通过结合外呼测试实时反馈接口，利用Bandit算法，对数据融合模型进行动态调整和测试，能有效提升整体收单率和客群质量。

将全量用户随机分成两份，对基于本发明提供的数据融合方法与传统的数据融合方法获得的整体收单率效果进行对比，其中传统的数据融合方法按照运营商模型*0.65+金融方模型*0.35，按照评分由高到底的顺序进行外呼测试。

图2为本发明提供的数据融合方法与传统的数据融合方法的效果对比图之一。如图2所示，在外呼测试早期，基于传统的数据融合方法可以获取较高收单率，是因为本发明提供的数据融合方法中通过一定概率引入了评估结果较差的目标用户。

而随着外呼测试进行，基于传统的数据融合方法获得的收单率明显下降，而由于本发明提供的数据融合方法可以根据实际收单率动态调整数据融合模型，测试用户相对最优，因此基于本发明提供的数据融合方法获得的收单率更稳定。

图3为本发明提供的数据融合方法与传统的数据融合方法的效果对比图之二。如图3所示，随着迭代的进行，首次迭代中评估结果中上段的用户逐渐称为评估结果最好的用户群体，与实际外呼经验相符。另外，由于评估结果较差的用户被选中的概率较低，因此评估结果基本无变化。

图4是本发明提供的数据融合装置的结构示意图。下面结合图4对本发明提供的数据融合装置进行描述，下文描述的数据融合装置与上文描述的本发明提供的数据融合方法可相互对应参照。如图4所示，该装置包括：数据获取模块401和数据融合模块402。

数据获取模块401，用于获取目标用户的多个原始评估结果。

数据融合模块402，用于将各原始评估结果输入数据融合模型，获取数据融合模型输出的目标用户的评估结果。

其中，各原始评估结果基于目标用户在不同目标数据源中的用户数据获得，每一原始评估结果与每一目标数据源具有一一对应关系；数据融合模型基于样本用户在每一目标数据源中的用户数据获得。

具体地，数据获取模块401和数据融合模块402电连接。

可选地，数据融合装置还包括外呼测试模块。

外呼测试模块可以用于确定每一目标用户的评估结果所在的预设数值区间，并基于预设数值区间与分组标识之间的对应关系，确定每一目标用户对应的分组标识；统计每一分组标识对应的目标用户的数量，在任一分组标识对应的目标用户的数量不小于第一预设值的情况下，基于各目标用户的评估结果，将至少一个目标用户确定为测试用户；对测试用户进行外呼测试，获取测试用户的外呼测试结果。

可选地，数据融合装置还包括模型更新模块。

模型更新模块可以用于在满足预设条件的情况下，基于测试用户的外呼测试结果，更新数据融合模型。

可选地，模型更新模块可以具体用于在任一分组标识对应的目标用户的数量占目标用户总数的占比大于第二预设值，且任一分组标识对应的测试用户的数量大于第三预设值的情况下，基于测试用户的外呼测试结果，更新任一分组标识对应的目标WOE值。

本发明实施例中的数据融合装置，通过将基于目标用户在不同目标数据源中的用户数据获得的目标用户的多个原始评估结果，输入数据融合模型，获取数据融合模型输出的目标用户的评估结果，数据融合模型基于样本用户在每一目标数据源中的用户数据构建，能解决因数据安全、网络策略、数据一致性以及相关口径差异等因素造成的数据融合问题，能更准确、更高效的融合来自不同数据源的数据，能提高用户画像的准确率和效率，能为商业活动策划及营销决策提供辅助支持。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行数据融合方法，该方法包括：获取目标用户的多个原始评估结果；将各原始评估结果输入数据融合模型，获取数据融合模型输出的目标用户的评估结果；其中，各原始评估结果基于目标用户在不同目标数据源中的用户数据获得，每一原始评估结果与每一目标数据源具有一一对应关系；数据融合模型基于样本用户在每一目标数据源中的用户数据获得。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的数据融合方法，该方法包括：获取目标用户的多个原始评估结果；将各原始评估结果输入数据融合模型，获取数据融合模型输出的目标用户的评估结果；其中，各原始评估结果基于目标用户在不同目标数据源中的用户数据获得，每一原始评估结果与每一目标数据源具有一一对应关系；数据融合模型基于样本用户在每一目标数据源中的用户数据获得。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的数据融合方法，该方法包括：获取目标用户的多个原始评估结果；将各原始评估结果输入数据融合模型，获取数据融合模型输出的目标用户的评估结果；其中，各原始评估结果基于目标用户在不同目标数据源中的用户数据获得，每一原始评估结果与每一目标数据源具有一一对应关系；数据融合模型基于样本用户在每一目标数据源中的用户数据获得。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据融合方法，其特征在于，包括：

获取目标用户的多个原始评估结果；

2.根据权利要求1所述的数据融合方法，其特征在于，所述数据融合模型，包括：数据脱敏单元、权重计算单元和数据融合单元；

3.根据权利要求2所述的数据融合方法，其特征在于，所述数据脱敏单元，包括：结果分组子单元和数据脱敏子单元；

将各所述目标分组标识输入所述数据脱敏子单元，由所述数据脱敏子单元基于分组标识与WOE值之间的对应关系，确定每一所述目标分组标识对应的目标WOE值，进而获取所述数据脱敏子单元输出的每一所述目标WOE值；

4.根据权利要求2所述的数据融合方法，其特征在于，所述数据融合单元，包括：第一数值计算子单元和第二数值计算子单元；

5.根据权利要求3所述的数据融合方法，其特征在于，在所述目标用户的数量为多个的情况下，所述将各所述原始评估结果输入数据融合模型，获取所述数据融合模型输出的所述目标用户的评估结果之后，还包括：

6.根据权利要求5所述的数据融合方法，其特征在于，所述获取所述测试用户的外呼测试结果之后，还包括：

7.根据权利要求6所述的数据融合方法，其特征在于，所述在满足预设条件的情况下，基于所述测试用户的外呼测试结果，更新所述数据融合模型，包括：

8.一种数据融合装置，其特征在于，包括：

数据获取模块，用于获取目标用户的多个原始评估结果；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述数据融合方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数据融合方法。