CN114491084B

CN114491084B - 基于自编码器的关系网络信息挖掘方法、装置及设备

Info

Publication number: CN114491084B
Application number: CN202210379685.XA
Authority: CN
Inventors: 余雯
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-07-22
Anticipated expiration: 2042-04-12
Also published as: CN114491084A

Abstract

本发明涉及大数据及人工智能技术，提供了基于自编码器的关系网络信息挖掘方法、装置、设备及介质，基于初始数据集先后提取出第一关系维度初始数据集、第二关系维度初始数据集和第三关系维度初始数据集以先后对初始知识图谱进行三次更新得到第三更新知识图谱，之后获取与所述第三更新知识图谱相应的用户节点矩阵和邻接矩阵，将所述用户节点矩阵和所述邻接矩阵输入至预先训练的自编码器得到重构邻接矩阵，根据所述重构邻接矩阵对所述第三更新知识图谱进行更新得到第四更新知识图谱。实现了基于初始数据集挖掘出更多的节点关系，而且还通过自编码器进一步补充知识图谱中节点关系，所得到的知识图谱信息更完整，知识图谱准确度更高。

Description

基于自编码器的关系网络信息挖掘方法、装置及设备

技术领域

本发明涉及大数据的数据分析技术领域，尤其涉及一种基于自编码器的关系网络信息挖掘方法、装置、计算机设备及存储介质。

背景技术

知识图谱最早运用于图书情报学领域，是一种用于绘制、分析和显示学科主体间的相互联系的可视化系统，是一种基于图的数据结构，由节点和边组成，每个节点表示一个“实体”，每条边为实体与实体之间的“关系”。藉由建立起各主体不同层级属性的网状关系，搭配图遍历算法，使用者可以快速的建立起目标与目标间的相关性，优化查询效率或同类别辨识等。

但是目前基于用户数据一些指定字段取值所构建的知识图谱，因为数据维度少，所挖掘的数据关系少且缺乏很多信息，导致构建的知识图谱准确并不高。

发明内容

本发明实施例提供了一种基于自编码器的关系网络信息挖掘方法、装置、计算机设备及存储介质，旨在解决现有技术中基于用户数据一些指定字段取值所构建的知识图谱，因为数据维度少，所挖掘的数据关系少且缺乏很多信息，导致构建的知识图谱准确并不高的问题。

第一方面，本发明实施例提供了一种基于自编码器的关系网络信息挖掘方法，其包括：

响应于知识图谱更新指令，获取与所述知识图谱更新指令相应的初始数据集，并获取初始知识图谱；

获取所述初始数据集的第一关系维度初始数据集，通过对所述第一关系维度初始数据集提取知识图谱信息以对所述初始知识图谱进行知识图谱更新，得到第一更新知识图谱；

获取所述初始数据集的第二关系维度初始数据集，通过对所述第二关系维度初始数据集提取知识图谱信息以对所述第一更新知识图谱进行知识图谱更新，得到第二更新知识图谱；

获取所述初始数据集的第三关系维度初始数据集，通过对所述第三关系维度初始数据集提取知识图谱信息以对所述第二更新知识图谱进行知识图谱更新，得到第三更新知识图谱；以及

获取所述第三更新知识图谱，并获取与所述第三更新知识图谱相应的用户节点矩阵和邻接矩阵，将所述用户节点矩阵和所述邻接矩阵输入至预先训练的自编码器得到重构邻接矩阵，根据所述重构邻接矩阵对所述第三更新知识图谱进行更新得到第四更新知识图谱。

第二方面，本发明实施例提供了一种基于自编码器的关系网络信息挖掘装置，其包括：

初始获取单元，用于响应于知识图谱更新指令，获取与所述知识图谱更新指令相应的初始数据集，并获取初始知识图谱；

第一图谱更新单元，用于获取所述初始数据集的第一关系维度初始数据集，通过对所述第一关系维度初始数据集提取知识图谱信息以对所述初始知识图谱进行知识图谱更新，得到第一更新知识图谱；

第二图谱更新单元，用于获取所述初始数据集的第二关系维度初始数据集，通过对所述第二关系维度初始数据集提取知识图谱信息以对所述第一更新知识图谱进行知识图谱更新，得到第二更新知识图谱；

第三图谱更新单元，用于获取所述初始数据集的第三关系维度初始数据集，通过对所述第三关系维度初始数据集提取知识图谱信息以对所述第二更新知识图谱进行知识图谱更新，得到第三更新知识图谱；以及

第四图谱更新单元，用于获取所述第三更新知识图谱，并获取与所述第三更新知识图谱相应的用户节点矩阵和邻接矩阵，将所述用户节点矩阵和所述邻接矩阵输入至预先训练的自编码器得到重构邻接矩阵，根据所述重构邻接矩阵对所述第三更新知识图谱进行更新得到第四更新知识图谱。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于自编码器的关系网络信息挖掘方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于自编码器的关系网络信息挖掘方法。

本发明实施例提供了一种基于自编码器的关系网络信息挖掘方法、装置、计算机设备及存储介质，先基于初始数据集先后提取出第一关系维度初始数据集、第二关系维度初始数据集和第三关系维度初始数据集以先后对初始知识图谱进行三次更新得到第三更新知识图谱，之后获取与所述第三更新知识图谱相应的用户节点矩阵和邻接矩阵，将所述用户节点矩阵和所述邻接矩阵输入至预先训练的自编码器得到重构邻接矩阵，根据所述重构邻接矩阵对所述第三更新知识图谱进行更新得到第四更新知识图谱。实现了基于初始数据集挖掘出更多的节点关系，而且还通过自编码器进一步补充知识图谱中节点关系，所得到的知识图谱信息更完整，知识图谱准确度更高。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于自编码器的关系网络信息挖掘方法的应用场景示意图；

图2为本发明实施例提供的基于自编码器的关系网络信息挖掘方法的流程示意图；

图3为本发明实施例提供的基于自编码器的关系网络信息挖掘装置的示意性框图；

图4为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的基于自编码器的关系网络信息挖掘方法的应用场景示意图；图2为本发明实施例提供的基于自编码器的关系网络信息挖掘方法的流程示意图，该基于自编码器的关系网络信息挖掘方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S101~S105。

S101、响应于知识图谱更新指令，获取与所述知识图谱更新指令相应的初始数据集，并获取初始知识图谱。

在本实施例中，是以服务器为执行主体描述技术方案。服务器可以基于多个用户端（如智能手机、平板电脑、笔记本电脑等）上传的用户数据为数据基础进行知识图谱的构建，从而提取出了初始知识图谱相应的数据。显然随着更多用户数据的上传，以及更多维度用户数据的上传，使得可以挖掘出更深层次及更多维度的数据关系，从而构建出更加完善的知识图谱。其中，用户端的用户数据是经过用户授权同意或是接收了服务器的服务协议后所上传的。

其中，不仅可以设置采用定期更新知识图谱的方式，还可以根据用户在任意时刻人工触发的知识图谱更新指令更新知识图谱。其中若采用定期更新知识图谱的方式，可以将更新周期设置为一个月，且每一更新周期的起始时间点为当月1号的01：00。每次在知识图谱更新之前在服务器中都对应存储有上一次更新完成的知识图谱，可将其记为初始知识图谱。若服务器检测到此次触发的知识图谱更新指令，应获取与所述知识图谱更新指令相应的初始数据集。

S102、获取所述初始数据集的第一关系维度初始数据集，通过对所述第一关系维度初始数据集提取知识图谱信息以对所述初始知识图谱进行知识图谱更新，得到第一更新知识图谱。

在本实施例中，当获取了此次的初始数据集之后，需要对其进行第一关系维度初始数据集的获取，因为初始数据集中每一条初始用户数据包括的数据维度相较于第一关系维度初始数据中的数据维度更多。例如在第一关系维度数据获取策略中设置了第一关系维度初始数据中所具体包括的字段名称（如寿险保单信息、健康险保单信息、Wi-Fi联机记录、设备使用记录、客户基本信息、主副卡信息、转账信息等），通过第一关系维度数据获取策略可以从初始数据集中每一条初始用户数据均进行数据特征维度筛选，得到第一关系维度初始数据。

在得到了第一关系维度初始数据集之后，可以基于第一关系维度初始数据集进行知识图谱相关信息的提取，从而可以对所述初始知识图谱进行知识图谱更新，得到第一更新知识图谱。具体的，可通过上述于第一关系维度初始数据集进行知识图谱相关信息的提取，可以分析各用户数据在客户维度上是否存在关联关系（如同事关系）。

在一实施例中，步骤S102 包括：

将所述初始数据集的第一关系维度初始数据集进行数据预处理、知识图谱节点映射和节点关系抽取以对所述初始知识图谱进行知识图谱更新，得到第一更新知识图谱。

在本实施例中，在获取了第一关系维度初始数据集后，需要对其至少进行数据预处理、知识图谱节点映射和节点关系抽取得到相关的知识图谱信息，从而更新到初始知识图谱中。其中，对第一关系维度初始数据集进行数据预处理至少包括无效数据删除和数据分组等数据处理。

进行知识图谱节点映射，是先将第一关系维度初始数据集每一条用户数据在初始知识图谱中检索是否有相应用户节点（也就是判断用户数据和用户节点两者是否对应相同的用户唯一识别码），若第一关系维度初始数据集中有用户数据在初始知识图谱中检索到有相应用户节点，将这一用户数据与相应的用户节点建立映射关系。若第一关系维度初始数据集中有用户数据在初始知识图谱中没有检索到有相应用户节点，根据这一用户数据对应创建一个新的用户节点并添加至初始知识图谱中，本质上也起到了将用户数据映射到知识图谱中用户节点的作用。然后基于第一关系维度初始数据集中指定一个或多个字段名称相应取值来分析用户数据之间的节点关系（也就是用户数据之间或是存在某一种或多种节点关系，或是不存在节点关系），并将节点关系作为知识图谱中连接边属性。在完成了上述过程之后，即完成将初始知识图谱更新，得到第一更新知识图谱。

在一实施例中，所述将所述初始数据集的第一关系维度初始数据集进行数据预处理、知识图谱节点映射和节点关系抽取以对所述初始知识图谱进行知识图谱更新，得到第一更新知识图谱，包括：

根据预设的第一无效数据筛选策略获取所述第一关系维度初始数据集中的无效数据，将所筛选的无效数据从所述第一关系维度初始数据集中进行删除，得到第一筛选后数据集；

将所述第一筛选后数据集中根据预设的第一数据分组策略进行分组，得到第一分组后数据集；

根据预设的第二无效数据筛选策略获取所述第一分组后数据集中每一数据分组中的无效数据，将每一数据分组中的无效数据分别进行删除得到第二分组后数据集；

若确定所述第二分组后数据集有数据分组中用户数据相应第一预设字段名称的字段取值满足第一预设条件，将对应数据分组中各用户数据的第一节点属性赋值为所述第一预设字段名称的字段取值，并将对应数据分组中各用户数据之间的节点关系设置为预设第一类型关系，以更新所述初始知识图谱；

若确定所述第二分组后数据集有数据分组中用户数据相应第一预设字段名称的字段取值不满足第一预设条件，获取对应数据分组组成目标数据分组集；

将所述目标数据分组集中用户数据根据预设的第二数据分组策略进行分组，得到与所述目标数据分组集相应的分组后数据集；

将所述分组后数据集各数据分组的第一节点属性赋值为所述第二数据分组策略对应筛选字段名称的字段取值分类名称，并将所述分组后数据集各数据分组中各用户数据之间的节点关系设置为预设第一类型关系，以更新所述初始知识图谱得到第一更新知识图谱。

在本实施例中，为了更加清楚的理解本申请的技术方案，下面以分析第一关系维度初始数据集中各用户数据的用户节点之间是否存在同事关系为例来说明。

（1）首先，需要将所述第一关系维度初始数据集中的用户数据根据预设的第一无效数据筛选策略筛选出无效数据以删除，得到第一筛选后数据集。例如，所述第一关系维度初始数据集中有用户数据中公司信息这一字段名称对应的取值存在包括有数字、符号、乱码等情况，此时可以判断其满足预设的第一无效数据筛选策略对应的筛选条件，此时将这些用户数据判定为无效数据并从所述第一关系维度初始数据集中进行删除，得到了第一筛选后数据集。当然，若所述第一关系维度初始数据集中有用户数据中公司信息这一字段名称对应的取值是空值时，这些数据可以先不被删除，而是保留在第一筛选后数据集。

（2）之后，可以将所述第一筛选后数据集根据公司信息这一字段名称对应的取值是否相同或是否相近进行分组，也即根据预设的第一数据分组策略进行分组，从而得到第一分组后数据集。例如，先对所述第一筛选后数据集中各条用户数据在公司信息这一字段名称的取值通过分词处理、word2vec模型转化词向量及组合成语义向量的处理后，得到了各条用户数据在公司信息这一字段名称的取值的语义向量；然后利用这些用户数据在公司信息这一字段名称相应取值的语义向量之间的向量相似度（如余弦相似度）来计算各用户数据的公司信息取值的相似度，从而将具有完全相同的语义向量或者语义向量之间的相似度超出预设的第一相似度阈值的公司信息取值所对应用户数据划分为同一分组，从而实现了将具有相同或相近公司信息取值的用户数据划分至同一分组。通过这一方式，实现了基于第一数据分组策略将第一筛选后数据集进行分组。当然，由于第一筛选后数据集中保存了公司信息这一字段名称对应的取值是空值的用户数据，在基于第一数据分组策略进行分组时，上述公司信息这一字段名称对应的取值是空值的用户数据均可以先被划分在同一个数据分组，且被划分至这一数据分组的用户数据后续再基于其他字段名称的具体取值来进一步分组。

（3）之后，由于在第一分组后数据集中，有可能有部分分组对应的公司信息取值虽然不是空值但也有一些不能真正视为公司信息，例如包含、自由业、无业、个体、独立、具体工作职称的名称或省县市名称等，那这些分组中包括的用户数据应该也被视为无效数据从而被删除，最终将所述第一分组后数据集中无效数据进行删除得到第二分组后数据集。当然，在第一分组后数据集中有一个数据分组对应的公司信息取值全是空值，这一数据分组此时仍不被删除而保留在第二分组后数据集中。

（4）之后，由于此时第二分组后数据集中包括的所有用户数据中有一个数据分组中所有用户数据在公司信息这一字段名称对应的取值全是空值，此时可以视为将除了这一数据分组之外的其他数据分组相应第一预设字段名称的字段取值满足第一预设条件，此时只需将其他数据分组中各用户数据的第一节点属性赋值为所述第一预设字段名称的字段取值（其中，所述第一节点属性可表示用户数据的工作所在公司名称属性），并将对应数据分组中各用户数据之间的节点关系设置为预设第一类型关系（例如将预设第一类型关系设置为同事），以更新所述初始知识图谱。

（5）之后，由于此时第二分组后数据集中包括的所有用户数据中有一个数据分组中所有用户数据在公司信息这一字段名称对应的取值全是空值，此时将这一数据分组视为在第一预设字段名称的字段取值不满足第一预设条件，此时将这一数据分组记为目标数据分组集。

（6）然后，由于目标数据分组集中所有用户数据在公司信息这一字段名称对应的取值全是空值，此时可以选择设备连接信息或Wi-Fi连接信息中任意一个字段名称对应的取值按照预设的第二数据分组策略进行分组，得到与所述目标数据分组集相应的分组后数据集；例如在目标数据分组集中有两个用户数据存在同日连接了同一设备的累计天数超过预设累计天数，则可以判定这两个用户数据分别对应的用户存在同事关系。

（7）最后，由于已将目标数据分组集中的所有用户数据根据第二数据分组策略进行分组得到了分组后数据集，此时可以将所述分组后数据集各数据分组的第一节点属性赋值为所述第二数据分组策略对应筛选字段名称的字段取值分类名称（例如所述第二数据分组策略对应筛选字段名称是设备连接信息或Wi-Fi连接信息中任意一个字段名称，有两个用户数据存在同日连接了同一设备的累计天数超过预设累计天数的情况，此时这两个用户数据划分为同一分组且将这一分组的字段取值分类名称记为所连接同一设备的服务集标识），并将所述分组后数据集各数据分组中各用户数据之间的节点关系设置为预设第一类型关系（例如将预设第一类型关系设置为同事），以更新所述初始知识图谱得到第一更新知识图谱。

可见，基于多重分组可以更加准确的确定所述第一关系维度初始数据集中各用户数据之间是否存在预设第一类型关系。

在一实施例中，作为第一实施例，所述将所述第一筛选后数据集中根据预设的第一数据分组策略进行分组，得到第一分组后数据集，包括：

将所述第一筛选后数据集中满足第一预设字段名称的字段取值之间文本近似度超出预设相似度阈值的数据划分至同一分组，得到第一分组后数据集。

在本实施例中，作为将所述第一筛选后数据集中根据预设的第一数据分组策略进行分组的第一具体实施例，可以先获取所述第一筛选后数据集中各用户数据在公司信息这一字段的取值的语义向量，然后基于各语义向量之间的余弦相似度来确定将具有完全相同的语义向量或者语义向量之间的相似度超出预设的第一相似度阈值的公司信息取值所对应用户数据划分为同一分组。

在一实施例中，作为第二实施例，所述将所述第一筛选后数据集中根据预设的第一数据分组策略进行分组，得到第一分组后数据集，包括：

将所述第一筛选后数据集根据用户数据的第一预设字段名称的字段取值进行数据聚类，得到第一分组后数据集。

在本实施例中，作为将所述第一筛选后数据集中根据预设的第一数据分组策略进行分组的第二具体实施例，可以先获取所述第一筛选后数据集中各用户数据在公司信息这一字段的取值的语义向量，然后基于各语义向量进行K-Means聚类或DBScan聚类等聚类处理，从而实现将所述第一筛选后数据集进行分组得到第一分组后数据集。

在一实施例中，所述若确定所述第二分组后数据集有数据分组中用户数据相应第一预设字段名称的字段取值满足第一预设条件，将对应数据分组中各用户数据的第一节点属性赋值为所述第一预设字段名称的字段取值，包括：

若确定所述第二分组后数据集有数据分组中用户数据相应第一预设字段名称的字段取值满足第一预设条件，获取各数据分组中在第一预设字段名称的字段取值具有最少字符数的取值以对各数据分组在第一节点属性的赋值。

在本实施例中，将所述第二分组后数据集中处于同一数据分组内的用户数据按照在第一预设字段名称的字段取值的文本长度升序排序后，将数据分组在第一预设字段名称的字段取值改为文本长度为最小值的文本名称以作为该数据分组在所述第一预设字段名称的字段取值，从而快速实现了对同一数据分组在所述第一预设字段名称的字段取值上的统一。

在一实施例中，所述将所述分组后数据集各数据分组的第一节点属性赋值为所述第二数据分组策略对应筛选字段名称的字段取值分类名称，并将所述分组后数据集各数据分组中各用户数据之间的节点关系设置为预设第一类型关系，以更新所述初始知识图谱得到第一更新知识图谱之后，还包括：

将所述第一更新知识图谱存储至图数据库。

在本实施例中，当获取了所述第一更新知识图谱后，可将其存储至neo4j图数据库中，形成【node：用户唯一识别码、家庭编号、工作点】，【edge：同事、家庭】的关系网络；其中node表示知识图谱中的用户节点，edge表示用户节点之间的节点关系。

S103、获取所述初始数据集的第二关系维度初始数据集，通过对所述第二关系维度初始数据集提取知识图谱信息以对所述第一更新知识图谱进行知识图谱更新，得到第二更新知识图谱。

在本实施例中，当获取了此次的初始数据集之后，还可以对其进行第二关系维度初始数据集的获取，因为初始数据集中每一条初始用户数据包括的数据维度相较于第二关系维度初始数据中的数据维度更多。例如在第二关系维度数据获取策略中设置了第二关系维度初始数据中所具体包括的字段名称（如产品基本信息、产品购买次数、产品购买金额等），通过第二关系维度数据获取策略可以从初始数据集中每一条初始用户数据均进行数据特征维度筛选，得到第二关系维度初始数据。

在得到了第二关系维度初始数据集之后，可以基于第二关系维度初始数据集进行知识图谱相关信息的提取，从而可以对所述第一更新知识图谱进行知识图谱更新，得到第二更新知识图谱。具体的，可通过上述于第二关系维度初始数据集进行知识图谱相关信息的提取，可以分析各用户数据在产品维度上是否存在关联关系（如具有购买同款产品的关联关系）。

具体的，在通过对所述第二关系维度初始数据集提取知识图谱信息以对所述第一更新知识图谱进行知识图谱更新得到第二更新知识图谱的过程，也可以参考通过对所述初始数据集的第一关系维度初始数据集提取知识图谱信息以对所述初始知识图谱进行知识图谱更新得到第一更新知识图谱的过程，可以不用多次筛选无效数据，也可以仅仅只进行一次分组，从而实现了获取各用户数据在产品维度上是否存在关联关系。

S104、获取所述初始数据集的第三关系维度初始数据集，通过对所述第三关系维度初始数据集提取知识图谱信息以对所述第二更新知识图谱进行知识图谱更新，得到第三更新知识图谱。

在本实施例中，当获取了此次的初始数据集之后，还可以对其进行第三关系维度初始数据集的获取，因为初始数据集中每一条初始用户数据包括的数据维度相较于第三关系维度初始数据中的数据维度更多。例如在第三关系维度数据获取策略中设置了第三关系维度初始数据中所具体包括的字段名称（如代理人客户名单、客户登录代理人等），通过第三关系维度数据获取策略可以从初始数据集中每一条初始用户数据均进行数据特征维度筛选，得到第三关系维度初始数据。

在得到了第三关系维度初始数据集之后，可以基于第三关系维度初始数据集进行知识图谱相关信息的提取，从而可以对所述第二更新知识图谱进行知识图谱更新，得到第三更新知识图谱。具体的，可通过上述于第三关系维度初始数据集进行知识图谱相关信息的提取，可以分析各用户数据在与公司关系维度上是否存在关联关系（如与公司有深度的关联关系）。

具体的，在通过对所述第三关系维度初始数据集提取知识图谱信息以对所述第二更新知识图谱进行知识图谱更新得到第三更新知识图谱的过程，也可以参考通过对所述初始数据集的第一关系维度初始数据集提取知识图谱信息以对所述初始知识图谱进行知识图谱更新得到第一更新知识图谱的过程，可以不用多次筛选无效数据，也可以仅仅只进行一次分组，从而实现了获取各用户数据在与公司关系维度上是否存在关联关系。

S105、获取所述第三更新知识图谱，并获取与所述第三更新知识图谱相应的用户节点矩阵和邻接矩阵，将所述用户节点矩阵和所述邻接矩阵输入至预先训练的自编码器得到重构邻接矩阵，根据所述重构邻接矩阵对所述第三更新知识图谱进行更新得到第四更新知识图谱。

在本实施例中，通过客户维度关系、产品维度关系及与公司的关系，最终建立起一个以客户为节点的知识图谱（也就是上述第三更新知识图谱），其中客户的工作、家庭、产品购买情况等可以作为属性，节点之间的边代表客户之间的关系为同事、家庭、同乡或朋友。接下来需要对这个知识图谱进行信息的补充和完善，这里以变分图自编码器VGAE为例。

自编码器的是通过减少隐藏层神经元个数来实现重构样本，自编码器为了尽可能复现输入数据，其隐藏层必须捕捉输入数据的重要特征，从而找到能够代表原数据的主要成分。变分图自编码器也具有类似的目的，其主要是为图中节点找寻合适的Embedding向量，并通过Embedding向量实现图重构。其中获取到的节点Embedding可以用于支撑下游任务。和VAE一样，变分图自编码器可以处理无监督场景下，当没有标签或者有明确标签的样本太少的时候，需要使用这种网络结构进行信息的补充或者节点的分类任务等。

假设现在有N个节点，每个节点代表一个客户，并且有自己的特征，比如年龄、性别、产品购买情况等，这些节点的特征组成一个N*D维的用户节点矩阵X，然后每个节点之前的关系会形成一个N*N维的邻接矩阵A，可以定义不同关系给予不同权重，比如家庭关系权重为4，朋友为3，同事为2，同乡为1，如果节点间没有关系，对应的矩阵元素为0。先利用后验概率得到隐变量Z，再用隐变量重构邻接矩阵A:

其中，后验概率和VAE的解决方案一致：

其中，

是特征向量的均值，

是节点向量的方差。两层卷积神经网络定义为：

其中，

和

共享第一层参数

，不共享第二层参数

，

是对称标准化邻接矩阵。

VGAE的解码器则是利用隐变量的内积来重构邻接矩阵：

其中，

。

损失函数为：

其中，

。

取出最后一层每个节点的向量作为节点的embedding特征，将每两个节点的embedding向量concat拼接起来，再输入进全连接层，预测这两个节点之间是否有关联关系，损失函数为多分类的交叉熵。用已知的节点信息来训练上述网络，然后预测未知的任意节点之间的关系，设置一定的阈值加以判断，从而补充了用户节点之间的关联信息。

最后，在获取了重构邻接矩阵后可对所述第三更新知识图谱中用户节点之间的关联关系进行了补充，从而得到了第四更新知识图谱。之后还可以基于第四更新知识图谱得到有影响力的节点用户，此时需先要定义如何将用户进行分类，可以按照用户转介绍其他用户的数量进行用户影响力等级的划分，但是对于大量用户都无法进行人工标注，也不清楚用户的转介绍或影响力有多大。

由于变分图自编码器VGAE可以处理无监督的场景，首先利用上述补充过信息的知识图谱结构，构建VGAE变分图自编码神经网络。第一步用大量无标注的数据先做pretraining训练（即预训练）好网络，第二步将编码部分直接取出，输出部分做一个直接改造成全连接层，第三步利用少量有标注的数据，通过softmax输出，判断样本的类别训练新的模型。最后可以用这个改造后的新模型对所有用户节点进行影响力分类的判断。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

该方法实现了基于初始数据集挖掘出更多的节点关系，而且还通过自编码器进一步补充知识图谱中节点关系，所得到的知识图谱信息更完整，知识图谱准确度更高。

本发明实施例还提供一种基于自编码器的关系网络信息挖掘装置，该基于自编码器的关系网络信息挖掘装置用于执行前述基于自编码器的关系网络信息挖掘方法的任一实施例。具体地，请参阅图3，图3是本发明实施例提供的基于自编码器的关系网络信息挖掘装置100的示意性框图。

其中，如图3所示，基于自编码器的关系网络信息挖掘装置100包括初始获取单元101、第一图谱更新单元102、第二图谱更新单元103、第三图谱更新单元104、和第四图谱更新单元105。

初始获取单元101，用于响应于知识图谱更新指令，获取与所述知识图谱更新指令相应的初始数据集，并获取初始知识图谱。

在本实施例中，是以服务器为执行主体描述技术方案。服务器可以基于多个用户端（如智能手机、平板电脑、笔记本电脑等）上传的用户数据为数据基础进行知识图谱的构建，从而提取出了初始知识图谱相应的数据。显然随着更多用户数据的上传，以及更多维度用户数据的上传，使得可以挖掘出更深层次及更多维度的数据关系，从而构建出更加完善的知识图谱。

第一图谱更新单元102，用于获取所述初始数据集的第一关系维度初始数据集，通过对所述第一关系维度初始数据集提取知识图谱信息以对所述初始知识图谱进行知识图谱更新，得到第一更新知识图谱。

在一实施例中，第一图谱更新单元102还用于：

在一实施例中，所述第一图谱更新单元102，包括：

第一筛选单元，用于根据预设的第一无效数据筛选策略获取所述第一关系维度初始数据集中的无效数据，将所筛选的无效数据从所述第一关系维度初始数据集中进行删除，得到第一筛选后数据集；

第一分组单元，用于将所述第一筛选后数据集中根据预设的第一数据分组策略进行分组，得到第一分组后数据集；

第二筛选单元，用于根据预设的第二无效数据筛选策略获取所述第一分组后数据集中每一数据分组中的无效数据，将每一数据分组中的无效数据分别进行删除得到第二分组后数据集；

第一赋值单元，用于若确定所述第二分组后数据集有数据分组中用户数据相应第一预设字段名称的字段取值满足第一预设条件，将对应数据分组中各用户数据的第一节点属性赋值为所述第一预设字段名称的字段取值，并将对应数据分组中各用户数据之间的节点关系设置为预设第一类型关系，以更新所述初始知识图谱；

目标数据分组集获取单元，用于若确定所述第二分组后数据集有数据分组中用户数据相应第一预设字段名称的字段取值不满足第一预设条件，获取对应数据分组组成目标数据分组集；

第二分组单元，用于将所述目标数据分组集中用户数据根据预设的第二数据分组策略进行分组，得到与所述目标数据分组集相应的分组后数据集；

节点关系更新单元，用于将所述分组后数据集各数据分组的第一节点属性赋值为所述第二数据分组策略对应筛选字段名称的字段取值分类名称，并将所述分组后数据集各数据分组中各用户数据之间的节点关系设置为预设第一类型关系，以更新所述初始知识图谱得到第一更新知识图谱。

在本实施例中，为了更加清楚的理解本申请的技术方案，下面以分析第一关系维度初始数据集中各用户数据的用户节点之间是否存在同事关系为例来说明，具体实施参考方法实施例中的（1）-（7）。可见，基于多重分组可以更加准确的确定所述第一关系维度初始数据集中各用户数据之间是否存在预设第一类型关系。

在一实施例中，作为第一实施例，所述第一分组单元还用于：

在一实施例中，作为第二实施例，所述第一分组单元还用于：

在一实施例中，所述第一赋值单元还用于：

在一实施例中，所述第一图谱更新单元，还包括：

知识图谱存储单元，用于将所述第一更新知识图谱存储至图数据库。

第二图谱更新单元103，用于获取所述初始数据集的第二关系维度初始数据集，通过对所述第二关系维度初始数据集提取知识图谱信息以对所述第一更新知识图谱进行知识图谱更新，得到第二更新知识图谱。

第三图谱更新单元104，用于获取所述初始数据集的第三关系维度初始数据集，通过对所述第三关系维度初始数据集提取知识图谱信息以对所述第二更新知识图谱进行知识图谱更新，得到第三更新知识图谱。

第四图谱更新单元105，用于获取所述第三更新知识图谱，并获取与所述第三更新知识图谱相应的用户节点矩阵和邻接矩阵，将所述用户节点矩阵和所述邻接矩阵输入至预先训练的自编码器得到重构邻接矩阵，根据所述重构邻接矩阵对所述第三更新知识图谱进行更新得到第四更新知识图谱。

其中，后验概率和VAE的解决方案一致：

其中，

是特征向量的均值，

是节点向量的方差。两层卷积神经网络定义为：

其中，

和

共享第一层参数

，不共享第二层参数

，

是对称标准化邻接矩阵。

VGAE的解码器则是利用隐变量的内积来重构邻接矩阵：

其中，

。

损失函数为：

其中，

。

由于变分图自编码器VGAE可以处理无监督的场景，首先利用上述补充过信息的知识图谱结构，构建VGAE变分图自编码神经网络。第一步用大量无标注的数据先做pretraining训练好网络，第二步将编码部分直接取出，输出部分做一个直接改造成全连接层，第三步利用少量有标注的数据，通过softmax输出，判断样本的类别训练新的模型。最后可以用这个改造后的新模型对所有用户节点进行影响力分类的判断。

该装置实现了基于初始数据集挖掘出更多的节点关系，而且还通过自编码器进一步补充知识图谱中节点关系，所得到的知识图谱信息更完整，知识图谱准确度更高。

上述基于自编码器的关系网络信息挖掘装置可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4，图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，也可以是服务器集群。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

参阅图4，该计算机设备500包括通过装置总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。

该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于自编码器的关系网络信息挖掘方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于自编码器的关系网络信息挖掘方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的基于自编码器的关系网络信息挖掘方法。

本领域技术人员可以理解，图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图4所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的基于自编码器的关系网络信息挖掘方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 ( 可以是个人计算机，后台服务器，或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、只读存储器 (ROM，Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于自编码器的关系网络信息挖掘方法，其特征在于，包括：

获取所述第三更新知识图谱，并获取与所述第三更新知识图谱相应的用户节点矩阵和邻接矩阵，将所述用户节点矩阵和所述邻接矩阵输入至预先训练的自编码器得到重构邻接矩阵，根据所述重构邻接矩阵对所述第三更新知识图谱进行更新得到第四更新知识图谱；

其中，当获取了所述第一更新知识图谱后，存储形成包括【node：用户唯一识别码、家庭编号、工作点】，【edge：同事、家庭】的关系网络；node表示知识图谱中的用户节点，edge表示用户节点之间的节点关系；

其中，通过第一关系维度数据获取策略从所述初始数据集中每一条初始用户数据均进行数据特征维度筛选，得到第一关系维度初始数据；其中，所述第一关系维度数据获取策略中设置了第一关系维度初始数据中所具体包括的字段名称有寿险保单信息、健康险保单信息、Wi-Fi联机记录、设备使用记录、客户基本信息、主副卡信息、转账信息；

通过第二关系维度数据获取策略从所述初始数据集中每一条初始用户数据均进行数据特征维度筛选，得到第二关系维度初始数据；其中，所述第二关系维度数据获取策略中设置了第二关系维度初始数据中所具体包括的字段名称有产品基本信息、产品购买次数、产品购买金额；

通过第三关系维度数据获取策略可以从初始数据集中每一条初始用户数据均进行数据特征维度筛选，得到第三关系维度初始数据；其中，所述第三关系维度数据获取策略中设置了第三关系维度初始数据中所具体包括的字段名称有代理人客户名单、客户登录代理人。

2.根据权利要求1所述的基于自编码器的关系网络信息挖掘方法，其特征在于，所述通过对所述第一关系维度初始数据集提取知识图谱信息以对所述初始知识图谱进行知识图谱更新，得到第一更新知识图谱，包括：

3.根据权利要求2所述的基于自编码器的关系网络信息挖掘方法，其特征在于，所述将所述初始数据集的第一关系维度初始数据集进行数据预处理、知识图谱节点映射和节点关系抽取以对所述初始知识图谱进行知识图谱更新，得到第一更新知识图谱，包括：

4.根据权利要求3所述的基于自编码器的关系网络信息挖掘方法，其特征在于，所述将所述第一筛选后数据集中根据预设的第一数据分组策略进行分组，得到第一分组后数据集，包括：

5.根据权利要求3所述的基于自编码器的关系网络信息挖掘方法，其特征在于，所述将所述第一筛选后数据集中根据预设的第一数据分组策略进行分组，得到第一分组后数据集，包括：

6.根据权利要求3所述的基于自编码器的关系网络信息挖掘方法，其特征在于，所述若确定所述第二分组后数据集有数据分组中用户数据相应第一预设字段名称的字段取值满足第一预设条件，将对应数据分组中各用户数据的第一节点属性赋值为所述第一预设字段名称的字段取值，包括：

7.根据权利要求3所述的基于自编码器的关系网络信息挖掘方法，其特征在于，所述将所述分组后数据集各数据分组的第一节点属性赋值为所述第二数据分组策略对应筛选字段名称的字段取值分类名称，并将所述分组后数据集各数据分组中各用户数据之间的节点关系设置为预设第一类型关系，以更新所述初始知识图谱得到第一更新知识图谱之后，还包括：

将所述第一更新知识图谱存储至图数据库。

8.一种基于自编码器的关系网络信息挖掘装置，其特征在于，包括：

第四图谱更新单元，用于获取所述第三更新知识图谱，并获取与所述第三更新知识图谱相应的用户节点矩阵和邻接矩阵，将所述用户节点矩阵和所述邻接矩阵输入至预先训练的自编码器得到重构邻接矩阵，根据所述重构邻接矩阵对所述第三更新知识图谱进行更新得到第四更新知识图谱；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于自编码器的关系网络信息挖掘方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于自编码器的关系网络信息挖掘方法。