CN112765183B

CN112765183B - 多源数据融合方法、装置、存储介质及电子设备

Info

Publication number: CN112765183B
Application number: CN202110144205.7A
Authority: CN
Inventors: 屈峰; 陈琦; 林志峰; 张丹妮
Original assignee: Zhejiang Common Safety Technology Research Institute Co ltd
Current assignee: Zhejiang Common Safety Technology Research Institute Co ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2022-02-11
Anticipated expiration: 2041-02-02
Also published as: CN112765183A

Abstract

本公开关于多源数据融合方法、装置、存储介质及电子设备，该方法包括获取多个数据集，每个数据集对应于一个数据源；对于每个数据集，提取该数据集对应的数据存储模型；根据各个该数据集的数据存储模型构建得到融合图，该融合图的每个节点对应于一个数据存储模型，并且具备关联关系的节点之间通过关联属性连通；对于各个数据集中的各个数据记录，进行基于该融合图的数据融合操作，得到对应的第一数据对象和第二数据对象；将对应的第一数据对象和第二数据对象赋予相同的标识，将该标识与该第一数据对象对应存储在第一数据库中，将该标识与该第二数据对象对应存储在第二数据库中。本公开可以解决数据融合存储问题。

Description

多源数据融合方法、装置、存储介质及电子设备

技术领域

本公开涉及互联网通信领域，尤其涉及多源数据融合方法、装置、存储介质及电子设备。

背景技术

相关技术中具备关联关系的数据信息可能因为获取来源不同，管理主体不同而被存储在不同的数据源，这就产生了多数据源存储管理的问题。相关技术中也尝试将来自于多数据源的数据进行统一的存储管理，但是多数据源融合由于数据模型异构的问题，也至今没有教好的解决方案，难以进行实际推广使用。

发明内容

本公开提供多源数据融合方法、装置、存储介质及电子设备，以至少解决相关技术中多数据源的数据难以进行统一的存储管理的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种多源数据融合方法，包括：

获取多个数据集，每个数据集对应于一个数据源，每个数据集中存储多条数据记录；

对于每个数据集，提取所述数据集对应的数据存储模型；根据各个所述数据集的数据存储模型构建得到融合图，所述融合图的每个节点对应于一个数据存储模型，并且具备关联关系的节点之间通过关联属性连通；

对于各个数据集中的各个数据记录，进行基于所述融合图的数据融合操作，得到对应的第一数据对象和第二数据对象；

将对应的第一数据对象和第二数据对象赋予相同的标识，将所述标识与所述第一数据对象对应存储在第一数据库中，将所述标识与所述第二数据对象对应存储在第二数据库中。

在一示例性实施方式中，所述方法还包括设置第三数据库，所述第三数据库用于存储用户关系。

在一示例性实施方式中，所述基于所述融合图的数据融合操作，包括：

提取所述数据集中的数据记录，将所述数据记录作为第一数据记录，根据所述第一数据记录生成第一数据对象；

获取所述第一数据记录在所述融合图对应的第一节点；

根据所述融合图，确定与所述第一节点具备关联关系的各个第二节点；

对于任意一个第二节点，根据所述融合图中所述第二节点与所述第一节点之间的关联属性，在所述第二节点对应的数据集中查询与所述第一数据记录相关的第二数据记录；

根据每个第二节点对应的第二数据记录，更新所述第一数据对象；

对于每个被添加至第一数据对象中的第二数据记录，将其作为新的第一数据记录，重复执行步骤：获取所述第一数据记录在所述融合图对应的第一节点。

在一示例性实施方式中，所述基于所述融合图的数据融合操作，还包括：

提取所述数据集中的数据记录，将所述数据记录作为第一数据记录，将所述第一数据记录中各个值通过隔离符连接，得到第二数据对象；

获取所述第一数据记录在所述融合图对应的第一节点；

根据每个第二节点对应的第二数据记录，更新所述第二数据对象；

对于每个被添加至所述第二数据对象中的第二数据记录，将其作为新的第一数据记录，重复执行步骤：获取所述第一数据记录在所述融合图对应的第一节点。

在一示例性实施方式中，所述方法还包括：

获取第一数据库中的第一数据对象A，以及所述第一数据库中与所述第一数据对象A存在关联关系的各个第一数据对象B；

将所述第一数据对象A和所述各个第一数据对象B输入用户关系计算模型，得到关系预估结果；

按照所述关系结果中关系亲密度降序的顺序进行第一数据对象B的排列，将排列结果与第一数据对象A对应在第一数据库中的标识，对应存储在所述第三数据库中。

在一示例性实施方式中，所述方法还包括：

根据本公开实施例的第二方面，提供一种多源数据融合装置，包括：

数据集获取模块，用于获取多个数据集，每个数据集对应于一个数据源，每个数据集中存储多条数据记录；

融合图构建模块，用于对于每个数据集，提取所述数据集对应的数据存储模型；根据各个所述数据集的数据存储模型构建得到融合图，所述融合图的每个节点对应于一个数据存储模型，并且具备关联关系的节点之间通过关联属性连通；

融合模块，用于对于各个数据集中的各个数据记录，进行基于所述融合图的数据融合操作，得到对应的第一数据对象和第二数据对象；

存储管理模块，用于将对应的第一数据对象和第二数据对象赋予相同的标识，将所述标识与所述第一数据对象对应存储在第一数据库中，将所述标识与所述第二数据对象对应存储在第二数据库中。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述任一实施方式所述的多源数据融合方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一实施方式所述的多源数据融合方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一种实施方式中提供的多源数据融合方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供的多源数据融合方法，可以解决多源异构数据融合存储的技术问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种多源数据融合方法的流程示意图；

图2是根据一示例性实施例示出的对于一个数据集中的一个数据记录进行基于所述融合图的数据融合操作，得到对应的第一数据对象的流程示意图的流程示意图；

图3是根据一示例性实施例示出的对于一个数据集中的一个数据记录进行基于所述融合图的数据融合操作，得到对应的第二数据对象的流程示意图；

图4是根据一示例性实施例示出的对来自司法系统的数据记录中的裁判文书进行虚假性验证的方法的流程图；

图5是根据一示例性实施例示出的一种用户关系计算模型训练方法的流程图；

图6是根据一示例性实施例示出的第一特征的获取方法的流程示意图；

图7是根据一示例性实施例示出的一个关系特征行向量获取方法流程图；

图8是根据一示例性实施例示出的第三数据库管理方法流程图；

图9是根据一示例性实施例示出的一种多源数据融合装置的示意图；

图10是根据一示例性实施例示出的多源数据融合的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种多源数据融合方法的流程图，包括以下步骤：

在步骤S10中，获取多个数据集，每个数据集对应于一个数据源，每个数据集中存储多条数据记录。

示例性的，为了提升法律文案管理效率，进而降低办案，执法等法律行为的实施难度，本公开实施例中将相关的数据进行数据统一融合存储管理。通常情况下，司法系统可以管理案件相关的案件信息、裁判文书、执行案件信息、失信案件信息；财政系统可以存储管理用户名下的车辆、房产等财政信息；电商平台可以存储管理用户相关的消费信息；社交平台可以存储及管理用户的社交信息。本公开实施例中将司法系统、财政系统、电商平台、社交平台等都视为数据源，将来自各个数据源的异构数据进行融合存储管理，可以达到基于统一的查询框架，查询得到用户全面信息的目的，有利于快速锁定关键信息，提升司法系统的执行效率。

在步骤S20中，对于每个数据集，提取所述数据集对应的数据存储模型；根据各个所述数据集的数据存储模型构建得到融合图，所述融合图的每个节点对应于一个数据存储模型，并且具备关联关系的节点之间通过关联属性连通。

本公开实施例中如果一个数据存储模型的至少一个属性为另一个数据存储模型的主键，或所述一个数据存储模型中的至少一个属性与另一个数据存储模型的主键存在一一对应关系，则这两个数据存储模型之间具备关联关系，并且该至少一个属性即为关联属性。

示例性的，电商平台对应的数据存储模型以电商平台和手机号为联合主键，以运单号、电商平台、收件手机号、收件人姓名、收件地址、购买商品、价格为属性。财政系统中以用户身份证号为主键，以用户其它财政信息为属性。用户身份证号与手机号具备一一对应关系，则电商平台对应的节点与财政系统对应的节点具备关联关系。

在步骤S30中，对于各个数据集中的各个数据记录，进行基于所述融合图的数据融合操作，得到对应的第一数据对象和第二数据对象。

请参考图2，其示出了对于一个数据集中的一个数据记录进行基于所述融合图的数据融合操作，得到对应的第一数据对象的流程示意图，包括：

在步骤S31中，提取所述数据集中的数据记录，将所述数据记录作为第一数据记录，根据所述第一数据记录生成第一数据对象。

本公开实施例中对于任意一个数据集中的数据记录都可以执行数据融合操作，步骤S31中以某个数据集中的某个数据记录示例进行详述。

在步骤S32中，获取所述第一数据记录在所述融合图对应的第一节点。

在步骤S33中，根据所述融合图，确定与所述第一节点具备关联关系的各个第二节点。

在步骤S34中，对于任意一个第二节点，根据所述融合图中所述第二节点与所述第一节点之间的关联属性，在所述第二节点对应的数据集中查询与所述第一数据记录相关的第二数据记录。

当然，只有当查询到的第二数据记录不为空的时候，查询到的所述第二数据记录可以被步骤S35处理。

在步骤S35中，根据每个第二节点对应的第二数据记录，更新所述第一数据对象。

具体地，若所述第一数据对象中不存在所述第二数据记录，则将第二数据记录添加至所述第一数据对象中，并且所述第一数据对象中的所述第一数据记录与所述第二数据记录通过关联项连接，所述关联项以键值对形式表征，所述关联项的键为所述关联属性。若所述第一数据对象中存在所述第二数据记录，则不再基于所述第二数据记录更新所述第一数据对象。

在步骤S36中，对于每个被添加至第一数据对象中的第二数据记录，将其作为新的第一数据记录，重复执行步骤S32。

在一个可行的实施方式中，若第一数据对象被完全生成完毕，可以相应的将第一数据对象中各条数据记录，在其对应的数据集中删除。

对于每个被添加至第一数据对象的第二数据记录，都可以触发步骤S32的执行，当不存在新的被添加至第一数据对象的记录第二数据记录后，步骤S32也不会再被触发，则输出所述数据记录对应的第一数据对象，获取所述数据集中的下一个数据记录，继续执行步骤S31；若所述数据集中不存在下一个数据记录，则删除所述数据集，选择其他数据集，继续执行步骤S31,直至再无法在任何数据集中提取到数据记录为止。

通过执行步骤S31-S36，可以查询得到与步骤S31中的数据记录相关的，在各个其它数据集中的记录，并将其统一融合在第一数据对象中，并且将第一数据对象中的所述各个其它数据集中的记录在其对应的数据集中删除，随着第一数据对象的逐个生成，各个数据集中的数据都可能被删减。因此第一数据对象的生成速度会越来越快。

本公开实施例中第一数据对象中不仅存储了具有关联关系的数据记录，也存储了各个数据记录之间的逻辑关系，因此可以以图的形式进行可视化表达，本公开实施例将其称之为第一数据对象模型图，通过存储第一数据对象并将其进行可视化表达，可以便于用户快速直观地获取各个相关数据及其之间的逻辑关系。

请参考图3，其示出了对于一个数据集中的一个数据记录进行基于所述融合图的数据融合操作，得到对应的第二数据对象的流程示意图，包括：

在步骤S310中，提取所述数据集中的数据记录，将所述数据记录作为第一数据记录，将所述第一数据记录中各个值通过隔离符连接，得到第二数据对象。

本公开实施例中对于任意一个数据集中的数据记录都执行数据融合操作，步骤S310中以某个数据集中的某个数据记录示例进行详述。

在步骤S320中，获取所述第一数据记录在所述融合图对应的第一节点。

在步骤S330中，根据所述融合图，确定与所述第一节点具备关联关系的各个第二节点。

在步骤S340中，对于任意一个第二节点，根据所述融合图中所述第二节点与所述第一节点之间的关联属性，在所述第二节点对应的数据集中查询与所述第一数据记录相关的第二数据记录。

当然，只有当查询到的第二数据记录不为空的时候，查询到的所述第二数据记录可以被步骤S350处理。

在步骤S350中，根据每个第二节点对应的第二数据记录，更新所述第二数据对象。

具体地，若所述第二数据对象中不存在所述第二数据记录，对于每个第二节点对应的第二数据记录，将所述第二数据记录中各个值通过隔离符依次附加至所述第二数据对象的尾部。若所述第二数据对象中存在所述第二数据记录，则不再基于所述第二数据记录更新所述第二数据对象。

在步骤S360中，对于每个被添加至所述第二数据对象中的第二数据记录，将其作为新的第一数据记录，重复执行步骤S320。

在一个可行的实施方式中，若第二数据对象被完全生成完毕，可以相应的将第二数据对象中各条数据记录，在其对应的数据集中删除。

对于每个被添加至第二数据对象的第二数据记录，都可以触发步骤S320的执行，当不存在新的被添加至第二数据对象的记录第二数据记录后，步骤S320也不会再被触发，则输出所述数据记录对应的第二数据对象，获取所述数据集中的下一个数据记录，继续执行步骤S310；若所述数据集中不存在下一个数据记录，则删除所述数据集，选择其他数据集，继续执行步骤S310,直至再无法在任何数据集中提取到数据记录为止。

本公开实施例中第二数据对象中仅仅通过隔离符连接各个具有关联关系的数据记录的各个值，也就是说第二数据对象将各个具备关联关系的数据记录之间的逻辑关系全部打散了，将各个具备关联关系的数据记录中的每个值都作为字符串形式的第二数据对象的一个部分，第二数据对象舍弃了复杂的数据记录之间的逻辑关系，使用字符串形式进行存储，从而可以在查询过程中，快速确定出查询结果，提升查询速度。本公开实施例通过设计第二数据对象能够将原本需要对多个数据表的遍历查询变为仅仅对第二数据库(用于存储第二数据对象的数据库)进行一次查询，从而显著减少了IO操作，提升了查询效率。

本公开实施例中第一数据对象和第二数据对象分别描述了具备关联关系的数据记录的不同维度的信息，前者侧重于内联系，后者侧重于字段内容，互为补充，综合提升在实际使用时的查询效率。比如，可以根据查询条件查询符合所述查询条件的第二数据对象，然后直接根据第二数据对象与第一数据对象之间的一一映射关系，即可得到第一数据对象，这种查询模式中，第二数据对象在某种程度上成为了第一数据对象的索引，可以便于快速查询得到符合查询条件的第一数据对象，而第一数据对象可以被可视化表达，大大提升了用户体验。

在步骤S40中，将对应的第一数据对象和第二数据对象赋予相同的标识，将所述标识与所述第一数据对象对应存储在第一数据库中，将所述标识与所述第二数据对象对应存储在第二数据库中。

在一个优选的实施方式中，为了进一步提升对于第二数据对象的查询速度，还可以随着用户不断的查询，对查询结果对应的第二数据对象中各个值的顺序进行调整。即根据被查询到的第二数据对象更新所述第二数据对象中被查询条件命中的值对应的权值，按照权值降序排列所述第二数据对象中的各个值得到调整后的第二数据对象；所述权值表征在所述第二数据对象中对应的值被命中的概率。由于在查询过程中通过需要将第二数据对象的各个值依次与查询条件匹配，因此，这种降序排列可以显著提升查询的速度。

示例性的，第二数据对象被表征为A；B；C；D；E；F；G，而查询条件为E and G，则需要匹配七次才能判断出所述第二数据对象是否符合查询条件；如果第二数据对象被表征为E；G；B；C；D；E；F，而查询条件仍为E and G，则只需要匹配两次即可判断出所述第二数据对象是否符合条件，因此，这种降序排列的设计可以显著提升速度。当所述第二数据对象被判定符合查询条件后，所述第二数据对象中的G和E的权值都被相应提升。

在一个示例性的实施例中，由于在步骤S30中需要对于数据记录进行融合，因此，在融合之前，要对于各个数据集中的数据记录进行清洗，将非法的，虚假的，不符合融合要求的数据删除。

示例性的，可以对于其中某个数据集，将所述数据集中的每行数据记录进行md5加密，判断是否存在md5值一致的数据记录，若存在，则去除重复的数据记录；示例性的，还可以对于其中某个数据集指定去重字段，将去重字段对应的数值相同的数据记录确定为重复的数据记录，对其进行去重处理。

示例性的，还可以对于某个数据集中的数据记录进行合法性验证。本公开实施例中可以对于来自司法系统的数据记录中的裁判文书进行虚假性验证，将被判定为虚假的裁判文书所对应的数据记录进行删除。

请参考图4，其示出了对来自司法系统的数据记录中的裁判文书进行虚假性验证的方法的流程图，包括：

S101.将所述裁判文书输入向量化网络，得到所述裁判文书中每个语句对应的句向量，将各个句向量连接得到语句特征向量。

本公开实施例中可以根据训练好的向量化网络对于裁判文书进行语句特征向量的提取，当然也可以使用现有技术，对其不进行具体限定。

具体地，所述向量化网络包括相互串联的第一网络和第二网络，基于裁判文书语料训练集对所述向量化网络进行训练的过程如下：

以第j句话的前t句话和后t句话为输入，基于所述第一网络分别对于这2t句话的每一句生成一个句向量，并将所述2t个句向量作为目标向量，将所述目标向量输入所述第二网络得到对应于所述第j句话的预估词集合，以所述预估词集合的似然概率表达作为目标函数

其中，

分别表示语料元素数量，某个语料元素中的语句数量，语句的词的数量，第i个语料元素中基于前t句话和后t句话生成第j句话的概率。

通过最大化目标函数，使用梯度下降法调节所述第一网络和第二网络的参数，得到训练好的所述向量化网络，所述训练好的所述向量化网络对于任意给定语句能够得到其对应的句向量表达。

S102.对所述裁判文书进行分词处理，得到每个分词结果对应的词向量，将各个所述词向量连接形成第一语义特征向量。

本公开实施例中可以使用现有技术中的分词以及词向量获取方法，得到第一语义特征向量，在此不做赘述。

S103.将所述词向量，和，表示对应的分词结果在所述裁判文书中位置的位置向量组合形成词位置向量，将各个所述词位置向量连接形成第二语义特征向量。

S104.将所述语句特征向量、第一语义特征向量和第二语义特征向量进行融合，得到融合特征。

S105.根据所述融合特征得到所述裁判文书为虚假文书的概率。

本公开实施例中可以使用训练好的分类网络来来进行虚假文书概率的输出。

具体地，可以基于裁判文书训练集对所述分类网络进行训练，过程如下：

(1)获取裁判文书训练集，其中每个训练样本包括裁判文书和所述裁判文书的标注信息，所述标注信息用于表征所述裁判文书为虚假文书的概率，当然虚假文书对应的标注信息为1，真实文书对应的标注信息为0。

(2)得到训练样本对应的融合特征，所述融合特征获取方法参考上文，在此不做赘述。

(3)将所述融合特征输入所述分类网络，得到输出结果。

(4)根据所述输出结果和所述标注信息计算损失，根据所述损失调节所述分类网络的参数直至达到训练停止条件。

S106.若所述概率大于预设阈值，则判定所述裁判文书为虚假文书。

本公开实施例中通过获取语句特征向量、第一语义特征向量和第二语义特征向量，可以得到能够全面表达裁判文书的各种维度的信息，从而显著提升基于人工智能的方式对其进行虚假性判断的精度，减少虚假文书对于本公开中第一数据对象和第二数据对象的污染。

在另一个优选的实施方式中，为了进一步提升对于多源数据融合管理的力度，更全面表达多源数据间的关系，本公开实施例还可以设置第三数据库，所述第三数据库用于存储用户关系。

为了计算用户关系，本公开实施例首先提供一种用户关系计算模型训练方法，如图5所示，包括：

S201.获取用户关系训练集，所述用户关系训练集中包括多个训练样本，每个训练样本中包括第一用户信息和多个第二用户信息，以及所述第一用户与每个所述第二用户的关系标注。

具体地，所述第一用户信息为第一用户对应的第一数据对象，所述第二用户信息为第二用户对应的第一数据对象。

具体地，所述关系标注通过关系亲密度来表征第一用户与对应的第二用户的关系。

S202.获取用户关系计算模型，所述用户关系计算模型包括特征提取网络、关系特征计算网络和关系预估网络。

本公开实施例中并不对特征提取网络、关系特征计算网络和关系预估网络的结构进行限定，其可以使用相关技术中的各种卷积神经网络、深度神经网络或循环神经网络。

S203.将训练样本输入特征提取网络，得到第一用户信息对应的第一特征，以及每个第二用户信息对应的第二特征；根据所述第一特征和每个所述第二特征，得到特征矩阵。

本公开实施例中特征矩阵包括多个特征行向量，每个特征行向量表征第一特征与对应的第二特征的连接结果。示例性的，样本中包括三个第二用户(依次为第二用户甲，第二用户乙，第三用户丙)，则所述特征矩阵包括三个特征行向量，依次第一特征与对应于甲的第二特征的连接结果，第一特征与对应于乙的第二特征的连接结果，第一特征与对应于丙的第二特征的连接结果。

本公开实施例中第一用户信息对应的第一特征和第二用户信息对应的第二特征基于相同方法得到，以第一特征的获取方法为例进行描述，下述动作由特征提取网络实施，如图6所示，包括：

S2031.获取第一用户信息对应的第一数据对象模型图。

S2032.对所述第一对象模型图中每个节点的数据进行特征提取，得到每个节点对应的数据特征提取结果。

S2033.将所述节点在所述第一数据对象模型图中的位置进行特征提取，得到每个节点对应的位置特征提取结果。

S2034.根据所述位置特征提取结果得到偏置修正信息，所述偏置修正信息用于表征所述节点中的数据在所述第一数据对象图中的重要程度。

S2035.将每个节点对应的特征提取结果和对应的偏置修正信息的元素智能乘积作为所述节点对应的第一特征项，将各个节点对应的第一特征项的连接结果所述第一特征。

若各个特征行向量的维度不同，可以使用现有技术对特征行向量维度进行修正使其统一，得到特征矩阵。

S204.将所述训练样本输入关系提取网络，得到关系矩阵。

本公开实施例中关系矩阵包括多个关系行向量，每个关系行向量表征第一用户信息与对应的第二用户信息的关系。示例性的，样本中包括三个第二用户(依次为第二用户甲，第二用户乙，第二用户丙)，则所述关系特征矩阵包括三个关系特征行向量(依次对应于甲、乙、丙)。

以一个关系特征行向量获取方法为例进行阐述，下述动作由关系提取网络实施，如图7所述，包括：

S2041.获取第一用户信息对应的第一数据对象模型图，第二用户信息对应的第一数据对象模型图，确定这两个第一数据对象模型图的公共节点。

本公开实施例中将第一用户信息对应的第一数据对象称之为对象A，将第二用户信息对应的第一数据对象称之为对象B。

S2042.对于任一公共节点，确定对象A中属于所述公共关点的第一数据，确定对象B中属于所述公共节点的第二数据，将所述第一数据和所述第二数据做差，并对做差结果进行特征提取，得到所述公共节点对应的关系提取结果。

S2043.将所述公共节点在所述第一数据对象模型图中的位置进行特征提取，得到所述公共节点对应的位置特征提取结果，根据所述位置特征提取结果得到偏置修正信息。

与上文相同，不做赘述。

S2044.将所述偏置修正信息和所述关系提取结果的元素智能乘积作为所述公共节点对应的关系特征项。

S2045.按照偏置修正信息降序的顺序对关系特征项进行依次连接，得到关系行向量。

若各个关系行向量的维度不同，可以使用现有技术对关系行向量维度进行修正使其统一，得到关系矩阵。

S205.将所述关系矩阵和所述特征矩阵输入所述关系预估网络，得到关系预估结果。

S206.根据所述关系预估结果和所述关系标注之间的差异计算损失，根据所述损失调整所述关系计算模型中的参数，直至达到训练停止条件。

本公开实施例中，通过在训练过程中计算得到特征矩阵和关系矩阵的方法得到关系预估结果，确保了关系预估结果在获取时摄入尽量多的有用信息，确保了关系计算模型的精度。并且在计算特征矩阵和关系矩阵的时候充分利用了第一数据对象中的各个节点之间的逻辑关系，以及考虑到不同节点可能存在重要度差异，使得关系预估结果可以更为精准。

在得到用户关系计算模型的基础上，本公开实施例进一步公开了第三数据库管理方法，如图8所示，包括：

S301.获取第一数据库中的第一数据对象A，以及所述第一数据库中与所述第一数据对象A存在关联关系的各个第一数据对象B。

本公开中并不限定第一数据对象A和第一数据对象B存在何种关联关系，可以根据用户的设置进行筛选，比如第一数据对象A和第一数据对象B存在某种特定社交关系和/或亲缘关系。

S302.将所述第一数据对象A和所述各个第一数据对象B输入所述用户关系计算模型，得到关系预估结果。

S303.按照所述关系结果中关系亲密度降序的顺序进行第一数据对象B的排列，将排列结果与第一数据对象A对应在第一数据库中的标识，对应存储在所述第三数据库中。

本公开实施例中形成了三种数据库，分别为第一数据库、第二数据库和第三数据库，对于第一数据库、第二数据库和第三数据库的数据处理方法进行详述，其中第一数据库、第二数据库体现了对于多源数据的融合结果，第三数据库存储了第一数据库中的第一数据对象的相关社会关系，用户可以根据实际需求选择多种查询模式，对第一数据库、第二数据库、第三数据库来进行分别查询或联合查询。利用第一数据库中的第一数据对象的标识在第三数据库中可以查询所述第一数据对象的相关社会关系。本公开实施例着重对于对于第一数据库、第二数据库和第三数据库的数据处理方法的创新内容进行阐述，对于使用现有技术可以实施的个别步骤或其它数据库功能并未进行详细阐述，参考现有技术本领域技术人员也可以施行所述个别步骤或所述其它数据库功能。

本公开实施例通过设计三种模式的数据库，从三个角度体现了多源数据的融合结果，第一数据库中的第一数据对象不仅包括融合结果的数据信息还记录了内在逻辑联系，便于可视化展示，并且由于信息最为充足也成为了对融合结果进行信息挖掘的基础数据。第二数据库中的第二数据对象以字符串形式表达了融合结果的数据信息，查询效率最高，可以起到索引的作用，便于快速确定与查询条件相关的第一数据对象，进而也可以确定该第一数据对象在第三数据库中的相关社会关系。

本公开实施例还提供一种多源数据融合装置，如图9所示，包括：

数据集获取模块10，用于获取多个数据集，每个数据集对应于一个数据源，每个数据集中存储多条数据记录；

融合图构建模块20，用于对于每个数据集，提取所述数据集对应的数据存储模型；根据各个所述数据集的数据存储模型构建得到融合图，所述融合图的每个节点对应于一个数据存储模型，并且具备关联关系的节点之间通过关联属性连通；

融合模块30，用于对于各个数据集中的各个数据记录，进行基于所述融合图的数据融合操作，得到对应的第一数据对象和第二数据对象；

存储管理模块40，用于将对应的第一数据对象和第二数据对象赋予相同的标识，将所述标识与所述第一数据对象对应存储在第一数据库中，将所述标识与所述第二数据对象对应存储在第二数据库中。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现上述实施例中任一种实施方式中提供的多源数据融合方法的步骤。

该电子设备可以终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图10是根据一示例性实施例示出的执行多源数据融合方法的电子设备的框图，该电子设备1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030，一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中，存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器1010可以设置为与存储介质1020通信，在电子设备1000上执行存储介质1020中的一系列指令操作。电子设备1000还可以包括一个或一个以上电源1060，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1040，和/或，一个或一个以上操作系统1021，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备1000的通信供应商提供的无线网络。在一个实例中，输入输出接口1040包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中，输入输出接口100可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备1000还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

在示例性实施例中，还提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例中任一视频多源数据融合方法的步骤。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一种实施方式中提供的多源数据融合方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多源数据融合方法，其特征在于，包括：

将对应的第一数据对象和第二数据对象赋予相同的标识，将所述标识与所述第一数据对象对应存储在第一数据库中，将所述标识与所述第二数据对象对应存储在第二数据库中；

所述方法还包括设置第三数据库，所述第三数据库用于存储用户关系；

所述基于所述融合图的数据融合操作，包括：

获取所述第一数据记录在所述融合图对应的第一节点；

2.根据权利要求1所述的方法，其特征在于，所述基于所述融合图的数据融合操作，还包括：

获取所述第一数据记录在所述融合图对应的第一节点；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据查询结果对应的第二数据对象中各个值的顺序进行调整。

5.一种多源数据融合装置，其特征在于，包括：

存储管理模块，用于将对应的第一数据对象和第二数据对象赋予相同的标识，将所述标识与所述第一数据对象对应存储在第一数据库中，将所述标识与所述第二数据对象对应存储在第二数据库中；

所述数据融合操作，包括：

获取所述第一数据记录在所述融合图对应的第一节点；

6.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任意一项所述的多源数据融合方法。

7.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至4中任意一项所述的多源数据融合方法。

8.一种用于执行多源数据融合方法的计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现如权利要求1至4中任意一项所述的多源数据融合方法。