CN111985578A

CN111985578A - 多源数据融合方法、装置、计算机设备及存储介质

Info

Publication number: CN111985578A
Application number: CN202010911552.3A
Authority: CN
Inventors: 吴满芳
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2020-11-24

Abstract

本发明公开了一种多源数据融合方法、装置、计算机设备及存储介质，属于大数据技术领域。本发明的多源数据融合方法可采集目标对象的多种数据源，从而提高数据源的覆盖度；通过预设标签集合提取每一种数据源中相应的目标子元素，达到从多种数据源中提取有效的数据的目的；通过将目标子元素依据预设标签输入到融合模型中，以获取目标父元素，从而将有效的且相关联的数据进行结合，以便于对所有的目标父元素进行分析得到目标对象的预测信息，提高预测信息的准确度。

Description

多源数据融合方法、装置、计算机设备及存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及多源数据融合方法、装置、计算机设备及存储介质。

背景技术

传统的统计分析经常是对单一数据源(例如：营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析。分析人员对数据的来源和结构有一定的控制和深层的了解。在大数据时代，海量的数据源是多样化通常是半结构或无结构的，要求数据科学家和分析师驾驭多样、多源的数据，将它们梳理后进行挖掘和分析。在这个过程中，数据融合(datablending)就成为不可或缺的一步。

数据融合的另一个价值就是新规律新价值的发现。以前的用户信用主要基于用户是否有历史借贷违约来评定的，但很多人无借贷关系数据，因此无法准确获取用户信用。现有的数据融合方法存在数据来源覆盖度差、准确度低的问题。

发明内容

针对现有数据融合方法存在的数据覆盖度差、准确度低的问题，现提供一种旨在可提高数据覆盖度以及融合准确度的多源数据融合方法、装置、计算机设备及存储介质。

为实现上述目的，本发明提供一种多源数据融合方法，包括：

采集目标对象的至少两种数据源，每一种数据源关联一种数据属性；

依据预设标签集合提取每一种所述数据源中相应的目标子元素，每一个所述目标子元素对应一个预设标签；

将所述目标子元素依据所述预设标签输入到融合模型中，以获取目标父元素；

对所有的所述目标父元素进行分析，生成所述目标对象的预测信息。

优选的，在所述依据预设标签集合提取每一种所述数据源中相应的目标子元素之前，还包括：

对所述数据源的数据进行预处理；

所述预处理为对所述数据源中的数据进行清洗和转换。

优选的，所述融合模型包括多个融合公式，所述融合公式由与所述预设标签对应的子元素变量、运算逻辑和目标父元素组成；

每一种所述数据属性与至少一个所述融合公式关联。

优选的，所述将所述目标子元素依据所述预设标签输入到融合模型中，以获取目标父元素，包括：

根据所述目标子元素对应的所述预设标签，将所述目标子元素与融合公式中与所述预设标签对应的子元素变量替换，依据相应的运算逻辑计算所述目标父元素。

优选的，所述对所有的所述目标父元素进行分析，生成所述目标对象的预测信息，包括：

将每个所述目标父元素分别映射到相应的区间表单中，获取与所述目标父元素关联的阈值区间及相应的置信度；

其中，所述区间表单包括阈值区间以及与所述阈值区间关联的置信度；

对所有的所述目标父元素关联的阈值区间进行分析，生成所述目标对象的预测信息。

优选的，所述对所有的所述目标父元素关联的阈值区间进行分析，生成所述目标对象的预测信息，包括：

依据所述目标父元素关联的阈值区间，获取所述目标父元素的均值阈值，选择所有的所述目标父元素对应的均值阈值中，将最大的均值阈值作为所述目标对象的预测信息；或

选择所有的所述目标父元素对应的置信度中，最大的置信度关联的所述阈值区间，获取所述阈值区间的均值阈值，将所述均值阈值作为所述目标对象的预测信息；或

依据所述目标父元素关联的阈值区间，获取所述目标父元素的均值阈值，依据每一所述阈值区间对应的置信度的权重，对所有的所述均值阈值进行加权平均，以获取目标阈值，将所述目标阈值作为所述目标对象的预测信息。

优选的，所述依据预设标签集合提取每一种所述数据源中相应的目标子元素，包括：

获取至少一种分析类别，每一种所述分析类别关联一个所述预设标签集合；

依据所述至少一种分析类别选择关联的所述预设标签集合，根据所述预设标签集合中的所述预设标签提取每一种所述数据源中相应的目标子元素。

为实现上述目的，本发明提供一种多源数据融合装置，包括：

采集单元，用于采集目标对象的至少两种数据源，每一种数据源关联一种数据属性；

提取单元，用于依据预设标签集合提取每一种所述数据源中相应的目标子元素，每一个所述目标子元素对应一个预设标签；

融合单元，用于将所述目标子元素依据所述预设标签输入到融合模型中，以获取目标父元素；

预测单元，对所有的所述目标父元素进行分析，生成所述目标对象的预测信息。

为实现上述目的，本发明提供一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述技术方案的有益效果：

本技术方案中，多源数据融合方法、装置、计算机设备及存储介质可采集目标对象的多种数据源，从而提高数据源的覆盖度；通过预设标签集合提取每一种数据源中相应的目标子元素，达到从多种数据源中提取有效的数据的目的；通过将目标子元素依据预设标签输入到融合模型中，以获取目标父元素，从而将有效的且相关联的数据进行结合，以便于对所有的目标父元素进行分析得到目标对象的预测信息，提高预测信息的准确度。

附图说明

图1为本发明所述的多源数据融合方法的一种实施例的流程图；

图2为本发明所述的多源数据融合方法的另一种实施例的流程图；

图3为本发明依据预设标签集合提取每一种数据源中相应的目标子元素的一种实施例的流程图；

图4为本发明对所有的目标父元素进行分析生成目标对象的预测信息的一种实施例的流程图；

图5为本发明所述的多源数据融合装置的一种实施例的模块图；

图6为本发明所述的多源数据融合装置的另一种实施例的模块图；

图7为本发明计算机设备的一个实施例的硬件架构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明提供的多源数据融合方法、装置、计算机设备及存储介质，适用于金融业务、教育业务以及人力资源业务等领域。本发明可采集目标对象的多种数据源，从而提高数据源的覆盖度；通过预设标签集合提取每一种数据源中相应的目标子元素，达到从多种数据源中提取有效的数据的目的；通过将目标子元素依据预设标签输入到融合模型中，以获取目标父元素，从而将有效的且相关联的数据进行结合，以便于对所有的目标父元素进行分析得到目标对象的预测信息，提高预测信息的准确度。

实施例一

请参阅图1，本实施例的一种多源数据融合方法，包括下述步骤：

S1.采集目标对象的至少两种数据源，其中，每一种数据源关联一种数据属性；

在本实施例中，通过数据属性区分不同种类的数据源。目标对象可以是个人用户或企业用户。数据源可以是用户进行相关业务时注册的数据，例如：保险的数据，银行的数据，贷款的数据；数据源还可以是第三方数据或外部公开的数据。数据源中的数据对应的数据标签可以是：性别、年龄、学历、婚姻状态、是否有孩子、职业、资产等。

需要强调的是，为进一步保证上述数据源的私密和安全性，上述数据源可以存储于一区块链的节点中。本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

S2.依据预设标签集合提取每一种所述数据源中相应的目标子元素，每一个所述目标子元素对应一个预设标签；

在本实施例中，通过预设标签集合提取每一种数据源中相应的目标子元素，从而达到从多种数据源中提取有效的数据的目的。

参阅图2所示在执行步骤S2之前，还可包括：

A.对所述数据源的数据进行预处理；

在本步骤中，所述预处理为对所述数据源中的数据进行清洗和转换。

由于在步骤S1中采集了多种数据源，数据源是多样化的，可以是半结构的数据，也可以是无结构的数据，因此通过步骤A对多种数据源进行统一的清洗，以过滤掉脏数据、删除重复数据、补充缺失值；并将经清洗后的数据转换为统一格式(如：txt、html等)的数据，以便于对数据的后续处理。

进一步地，参阅图3所示所述步骤S2可包括以下步骤：

S21.获取至少一种分析类别，其中，每一种所述分析类别关联一个所述预设标签集合；

在本实施例中，目标对象可根据需要输入相应的分析类别，每一种分析类别对应一个分析维度，分析类别可包括：资产分析类别、职业分析类别、教育程度分析类别等。每一种分析类别关联一个预设标签集合，该预设标签集合中包括多组预设标签，每一组预设标签对应一种数据属性。

作为举例而非限定，当分析类别为教育程度分析类别时，预设标签可以是母婴类网站注册个数、儿童早教类网站注册个数、中小学教育类网站注册个数等。当分析类别为职业分析类别时，预设标签可以是教师类网站注册个数、医生类网站注册个数、会计类网站注册个数、建筑类网站注册个数、法律类网站注册个数、公务员类网站注册个数、程序员类网站注册的个数、保险从业类网站注册个数等。当分析类别为资产分析类别时，预设标签可以是定期存储余额、理财存款余额、基金持仓份额、股票持仓份额、房产信息等。

S22.依据所述至少一种分析类别选择关联的所述预设标签集合，根据所述预设标签集合中的所述预设标签提取每一种所述数据源中相应的目标子元素。

在本实施例中，数据源中的每一数据(目标子元素)对应相应的数据标签，该数据标签与预设标签对应，根据预设标签查询数据源，以获取数据源与该预设标签对应的数据标签及该数据标签对应的目标子元素。

S3.将所述目标子元素依据所述预设标签输入到融合模型中，以获取目标父元素；

其中，所述融合模型包括多个融合公式，所述融合公式由与所述预设标签对应的子元素变量、运算逻辑和目标父元素组成；每一种所述数据属性与至少一个所述融合公式关联。运算逻辑可以是加、减、乘、除，也可嵌套使用等。

作为举例而非限定，目标父元素可以是综合储蓄金额、总投资资产、奢侈品类网站注册个数、金融类网站注册个数等。

进一步地，步骤S3可包括：

作为举例而非限定，融合公式可以是：定期存款余额+理财存储余额＝综合储蓄金额；基金持仓份额+股票持仓份额＝总投资资产。

需要说明的是：每一分析类别对应一组融合公式。当获取多个分析类别时，在步骤S3中，需分别计算每一个分类类别对应的融合公式组，以获取与该分别类别对应的目标父元素。

S4.对所有的所述目标父元素进行分析，生成所述目标对象的预测信息。

进一步地，参阅图4所示步骤S4可包括以下步骤：

S41.将每个所述目标父元素分别映射到相应的区间表单中，获取与所述目标父元素关联的阈值区间及相应的置信度；

其中，所述区间表单包括映射策略、阈值区间以及与所述阈值区间关联的置信度；

在本步骤中，每一个目标父元素对应一个区间表单，采用映射策略将目标父元素映射到相应的区间表单中，以获取该目标父元素对应的阈值区间及相应的置信度，可参见下表：

S42.对所有的所述目标父元素关联的阈值区间进行分析，生成所述目标对象的预测信息。

具体地，步骤S42可包括：

依据所述目标父元素关联的阈值区间，获取所述目标父元素的均值阈值，选择所有的所述目标父元素对应的均值阈值中，将最大的均值阈值作为所述目标对象的预测信息。

具体地，步骤S42可包括：

选择所有的所述目标父元素对应的置信度中，最大的置信度关联的所述阈值区间，获取所述阈值区间的均值阈值，将所述均值阈值作为所述目标对象的预测信息。

具体地，步骤S42可包括：

需要说明的是，当有多个分析类别时，在步骤S4中可分别分析每一个分类类别对应的目标父元素，以得到该分类类别的预测信息。然后将所有的分类类别的预测信息相结合生成目标对象的用户画像。

在本实施例中，多源数据融合方法可采集目标对象的多种数据源，从而提高数据源的覆盖度；通过预设标签集合提取每一种数据源中相应的目标子元素，达到从多种数据源中提取有效的数据的目的；通过将目标子元素依据预设标签输入到融合模型中，以获取目标父元素，从而将有效的且相关联的数据进行结合，以便于对所有的目标父元素进行分析得到目标对象的预测信息，提高预测信息的准确度。本实施例实现了数据融合过程的“白盒化”，所谓的白盒化是指可清晰展示数据源中的每个目标子元素推演至目标父元素以及得到预测信息的推演过程，实现了数据的推演的透明化，便于更加直观的了解多源数据的融合过程，可广泛应用于多种场景，适用性强。

实施例二

请参阅图5，本实施例的一种多源数据融合装置1可包括：采集单元11、提取单元12、融合单元13和预测单元14。

采集单元11，用于采集目标对象的至少两种数据源，每一种数据源关联一种数据属性；

需要强调的是，为进一步保证上述数据源的私密和安全性，上述数据源可以存储于一区块链的节点中。

提取单元12，用于依据预设标签集合提取每一种所述数据源中相应的目标子元素，每一个所述目标子元素对应一个预设标签；

在优选的实施例中，参阅图6所示多源数据融合装置1还可包括：预处理单元15。预处理单元15，用于对所述数据源的数据进行预处理。

在本实施例中，所述预处理为对所述数据源中的数据进行清洗和转换。

由于提取单元12采集了多种数据源，数据源是多样化的，可以是半结构的数据，也可以是无结构的数据，因此通过预处理单元15对多种数据源进行统一的清洗，以过滤掉脏数据、删除重复数据、补充缺失值；并将经清洗后的数据转换为统一格式(如：txt、html等)的数据，以便于对数据的后续处理。

进一步地，提取单元12用于获取至少一种分析类别，其中，每一种所述分析类别关联一个所述预设标签集合；

提取单元12还用于依据所述至少一种分析类别选择关联的所述预设标签集合，根据所述预设标签集合中的所述预设标签提取每一种所述数据源中相应的目标子元素。

融合单元13，用于将所述目标子元素依据所述预设标签输入到融合模型中，以获取目标父元素；

进一步地，融合单元13可根据所述目标子元素对应的所述预设标签，将所述目标子元素与融合公式中与所述预设标签对应的子元素变量替换，依据相应的运算逻辑计算所述目标父元素。

需要说明的是：每一分析类别对应一组融合公式。当获取多个分析类别时，需分别计算每一个分类类别对应的融合公式组，以获取与该分别类别对应的目标父元素。

预测单元14，对所有的所述目标父元素进行分析，生成所述目标对象的预测信息。

进一步地，通过预测单元14可将每个所述目标父元素分别映射到相应的区间表单中，获取与所述目标父元素关联的阈值区间及相应的置信度；

通过预测单元14对所有的所述目标父元素关联的阈值区间进行分析，生成所述目标对象的预测信息。

具体地，预测单元14可依据所述目标父元素关联的阈值区间，获取所述目标父元素的均值阈值，选择所有的所述目标父元素对应的均值阈值中，将最大的均值阈值作为所述目标对象的预测信息；或预测单元14选择所有的所述目标父元素对应的置信度中，最大的置信度关联的所述阈值区间，获取所述阈值区间的均值阈值，将所述均值阈值作为所述目标对象的预测信息；或预测单元14依据所述目标父元素关联的阈值区间，获取所述目标父元素的均值阈值，依据每一所述阈值区间对应的置信度的权重，对所有的所述均值阈值进行加权平均，以获取目标阈值，将所述目标阈值作为所述目标对象的预测信息。

需要说明的是，当有多个分析类别时，可分别分析每一个分类类别对应的目标父元素，以得到该分类类别的预测信息。然后将所有的分类类别的预测信息相结合生成目标对象的用户画像。

在本实施例中，多源数据融合装置1可通过采集单元11采集目标对象的多种数据源，从而提高数据源的覆盖度；采用提取单元12依据预设标签集合提取每一种数据源中相应的目标子元素，达到从多种数据源中提取有效的数据的目的；利用融合单元13通过将目标子元素依据预设标签输入到融合模型中，以获取目标父元素，从而将有效的且相关联的数据进行结合，以便于对所有的目标父元素进行分析得到目标对象的预测信息，提高预测信息的准确度。本实施例实现了数据融合过程的“白盒化”，所谓的白盒化是指可清晰展示数据源中的每个目标子元素推演至目标父元素以及得到预测信息的推演过程，实现了数据的推演的透明化，便于更加直观的了解多源数据的融合过程，可广泛应用于多种场景，适用性强。

实施例三

为实现上述目的，本发明还提供一种计算机设备2，该计算机设备2包括多个计算机设备2，实施例二的多源数据融合装置1的组成部分可分散于不同的计算机设备2中，计算机设备2可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备2至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器23、网络接口22以及多源数据融合装置1(参考图7)。需要指出的是，图7仅示出了具有组件-的计算机设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，所述存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例一的多源数据融合方法的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器23在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器23通常用于控制计算机设备2的总体操作例如执行与所述计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器23用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的多源数据融合装置1等。

所述网络接口22可包括无线网络接口或有线网络接口，该网络接口22通常用于在所述计算机设备2与其他计算机设备2之间建立通信连接。例如，所述网络接口22用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图7仅示出了具有部件21-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述多源数据融合装置1还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器23)所执行，以完成本发明。

实施例四

为实现上述目的，本发明还提供一种计算机可读存储介质，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器23执行时实现相应功能。本实施例的计算机可读存储介质用于存储多源数据融合装置1，被处理器23执行时实现实施例一的多源数据融合方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多源数据融合方法，其特征在于，包括：

2.根据权利要求1所述的多源数据融合方法，其特征在于，在所述依据预设标签集合提取每一种所述数据源中相应的目标子元素之前，还包括：

对所述数据源的数据进行预处理；

所述预处理为对所述数据源中的数据进行清洗和转换。

3.根据权利要求1所述的多源数据融合方法，其特征在于，所述融合模型包括多个融合公式，所述融合公式由与所述预设标签对应的子元素变量、运算逻辑和目标父元素组成；

每一种所述数据属性与至少一个所述融合公式关联。

4.根据权利要求3所述的多源数据融合方法，其特征在于，所述将所述目标子元素依据所述预设标签输入到融合模型中，以获取目标父元素，包括：

5.根据权利要求1所述的多源数据融合方法，其特征在于，所述对所有的所述目标父元素进行分析，生成所述目标对象的预测信息，包括：

6.根据权利要求5所述的多源数据融合方法，其特征在于，所述对所有的所述目标父元素关联的阈值区间进行分析，生成所述目标对象的预测信息，包括：

7.根据权利要求1所述的多源数据融合方法，其特征在于，所述依据预设标签集合提取每一种所述数据源中相应的目标子元素，包括：

8.一种多源数据融合装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。