CN111858958B

CN111858958B - 基于隐空间邻域聚合的智能网联汽车产业图谱融合方法

Info

Publication number: CN111858958B
Application number: CN202010711346.8A
Authority: CN
Inventors: 熊盛武; 陈小英; 陈伟; 王盛; 谢泽丰
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2024-02-02
Anticipated expiration: 2040-07-22
Also published as: CN111858958A

Abstract

本发明公开了一种基于门控隐空间邻域聚合的智能网联汽车产业图谱融合方法，基于智能网联汽车产业图谱，生成产业图谱隐空间(嵌入空间)；然后基于产业图谱的原始拓扑结构产生实体的拓扑邻域，基于产业图谱的隐空间产生实体的隐空间邻域；接着产生中心实体在聚合拓扑邻域中的邻接实体信息后的拓扑邻域信息表示，产生中心实体在聚合隐空间邻域中的邻接实体信息后的隐空间邻域表示，产生包含拓扑邻域信息和隐空间邻域信息的实体嵌入表示；进一步在得到最后的实体嵌入表示之后，通过计算实体嵌入表示之间的余弦相似度产生实体的相似度矩阵；最后将实体对齐问题表示为经典的稳定匹配问题，并通过延迟接受算法去实现全局的实体对齐。

Description

基于隐空间邻域聚合的智能网联汽车产业图谱融合方法

技术领域

本发明属于知识图谱技术领域，具体涉及一种基于门控隐空间邻域聚合的智能网联汽车产业图谱融合方法，运用到深度学习与自然语言处理技术，为基于产业图谱的区域产业关联效应趋势预测研究提供支持。

背景技术

随着科技的发展，人工智能在人们的生活中无处不在，机器拥有智能的背后离不开知识图谱的支撑。构建湖北省智能网联汽车产业图谱，能够多视角地识别和预测产业内的企业重大风险、企业群集行为和企业群集事件的演化趋势，能够动态辨析产业间关联关系，实现区域产业关联效应发展趋势的有效测度。本发明专利主要是通过产业图谱内的实体对齐技术将湖北省智能网联汽车产业图谱内表示现实中同一对象的实体进行对齐融合，形成一个包含产业结构、产业分布、产业分工、产业内企业关系等因素的完整湖北省智能网联汽车产业图谱。

传统的实体对齐技术主要分为基于实体的标签信息和基于人工定义特征两类，但是随着深度学习的发展，传统方法逐渐出现劣势。目前基于深度学习的实体对齐技术主要采用嵌入表示的学习方法，将产业图谱映射到低维的向量空间中，图谱中三元组中的实体映射为向量空间中的一个点。在现行的实体对齐技术实现中，大多采用产业图谱内的拓扑结构信息，但是实体经常有异构的拓扑邻域结构，并且结构比较稀疏，达不到很好的效果。因此在实体对齐的过程中，引入实体的隐空间邻域信息，聚合远距离邻居的有益信息，能够缓解拓扑邻域结构的异构，对于产业图谱内的实体对齐融合非常重要。

发明内容：

为了解决背景技术中存在的不足，本发明提供了一种基于门控隐空间邻域聚合的智能网联汽车产业图谱融合方法。

本发明所采用的技术方案是：一种基于门控隐空间邻域聚合的智能网联汽车产业图谱融合方法，其特征在于，包括以下步骤：

步骤1：基于构建的智能网联汽车产业图谱，将产业图谱内实体、关系向量化，生成产业图谱隐空间；

步骤2：基于产业图谱的原始拓扑结构产生实体的拓扑邻域，基于产业图谱的隐空间产生实体的隐空间邻域；

步骤3：在原产业图谱的拓扑结构中，通过聚合中心实体在拓扑邻域中的邻接实体信息，产生中心实体在聚合拓扑邻域中的邻接实体信息后的拓扑邻域信息表示；

步骤4：在产业图谱隐空间中，通过聚合中心实体的在隐空间邻域中的邻接实体信息，产生中心实体在聚合隐空间邻域中的邻接实体信息后的隐空间邻域表示；

步骤5：在生成中心实体的拓扑邻域信息表示和隐空间邻域信息表示后，通过门控机制对中心实体的隐空间邻域信息和拓扑邻域信息进行聚合，产生包含拓扑邻域信息和隐空间邻域信息的实体嵌入表示；

步骤6：在得到最后的实体嵌入表示之后，通过计算实体嵌入表示之间的余弦相似度产生实体的相似度矩阵；

步骤7：为了制定全局的实体对齐决策，将实体对齐问题表示为经典的稳定匹配问题，并实现集体的实体对齐。

进一步的，步骤1中基于初步构建的湖北省智能网联汽车产业图谱，利用图谱嵌入模型HAKE将产业图谱映射到一个低维的向量空间，生成产业图谱的隐空间(嵌入空间)，得到实体、关系的嵌入表示。

进一步的，步骤2中基于产业图谱的原始拓扑结构，通过中心实体的一跳邻居集合{e₁，...，e_n}产生中心实体的拓扑邻域N_T(u)，在利用图谱嵌入模型HAKE得到产业图谱的嵌入空间之后，通过在嵌入空间中计算中心实体向量表示和其他实体的向量表示之间的相似度，如果相似度大于给定的阈值，则它是中心实体在隐空间中的邻接实体，从而产生中心实体的隐空间邻域N_H(u)。

进一步的，步骤3中在原产业图谱的拓扑结构中，利用vanilla GCN去聚合中心实体在拓扑邻域中的邻接实体e_j，T∈N_T(u)的信息，vanilla GCN的层数为l，它的最后一层的输出h_i，T就是中心实体e_i在聚合拓扑邻域中的邻接实体信息后的拓扑邻域信息嵌入表示。

进一步的，步骤4中通过产业图谱嵌入模型HAKE产生隐空间后，利用vanilla GCN去聚合中心实体在隐空间邻域中的邻接实体e_j，H∈N_H(u)的信息，vanilla GCN的层数为l，它的最后一层的输出h_i，H就是中心实体e_i在聚合隐空间邻域中的邻接实体信息后的拓扑邻域信息嵌入表示。

进一步的，步骤5中通过vanilla GCN对实体邻域信息的聚合，分别得到了中心实体的拓扑邻域信息嵌入表示h_i，T和隐空间邻域信息嵌入表示h_i，H后，需要对实体的拓扑邻域信息和隐空间邻域信息聚合得到实体的嵌入表示，首先计算拓扑邻域信息嵌入表示和隐空间邻域信息嵌入表示的平均向量表示，然后通过门控机制GM(·)去聚合h_i，T和h_i，H，得到实体e_i最后的嵌入表示h_i。

进一步的，步骤6中国在得到包含拓扑邻域信息和隐空间邻域信息的实体嵌入表示之后，通过计算实体嵌入表示之间的余弦相似度产生实体的相似度矩阵，矩阵中每一个元素都代表产业图谱中实体与实体之间的余弦相似性，值域为[0，1]。

进一步的，步骤7中为了制定全局的实体对齐决策，将实体对齐问题表示为经典的稳定匹配问题，每一次实体对齐的决策之间都是相互关联的，如果实体与另一个具有较高置信度的实体对齐，那么它与其他实体匹配的可能性较小，通过延迟接受算法(DAA)去实现全局的实体对齐。

本发明的有益效果在于：本发明基于初步构建的湖北省智能网联汽车产业图谱，首先通过产业图谱嵌入模型HAKE学习产业图谱的嵌入表示，形成产业图谱的隐空间，得到包含结构信息和语义信息的实体嵌入。在通过计算实体嵌入表示之间的余弦相似度确定在隐空间中各实体的邻接实体集合，从而形成实体的隐空间邻域。在分别采用vanilla GCN去聚合实体在隐空间邻域中的邻接实体信息和在拓扑邻域中的邻接实体信息，得到实体的隐空间邻域信息和拓扑邻域信息，在通过门控机制去控制拓扑邻域信息和隐空间邻域信息的聚合，得到最后的实体嵌入表示。然后计算实体嵌入表示之间的余弦相似度产生一个实体相似度矩阵，由于每一次实体对齐的决策之间都是相互关联的，所以将产业图谱中的实体对齐问题转换为稳定匹配问题，并利用延迟接受算法(DAA)去解决稳定匹配问题，实现产业图谱全局的实体对齐。

附图说明

图1为本发明实施例的流程图。

图2为本发明实施例的中心实体隐空间邻域图。

图3为本发明实施例的产业图谱融合方法的结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1和图3，本发明提供了一种基于门控隐空间邻域聚合的智能网联汽车产业图谱融合方法，包括以下步骤：

步骤1：基于现有的初步构建好的湖北省智能网联汽车产业图谱，通过产业图谱嵌入模型将产业图谱内实体、关系向量化(Embedding)，生成产业图谱隐空间(嵌入空间)；

本实施例中，利用图谱嵌入模型HAKE将产业图谱映射到一个低维的向量空间，生成产业图谱的隐空间(嵌入空间)，得到实体、关系的嵌入表示；

图谱嵌入模型HAKE包含模长部分和角度部分，模长部分用于建模分属不同层级的实体，角度部分用于建模属于同一层级的实体；对于一个三元组(h，r，t)，其中h为头实体，r为关系，t为尾实体，h_m∈R^k，t_m∈R^k分别为模长部分中头实体、关系、尾实体的向量表示，h_p，r_p，t_p∈[0，2π)^k分别为角度部分中实体、关系、尾实体的向量表示，R^k表示实数的k维向量，R表示实数集，k表示向量的维度模长部分三元组建模为/>角度部分三元组建模为h_p+r_p≈t_p，其中，/>表示向量的逐元素相乘；+表示两个向量相加；≈指的是头实体的向量加上关系的向量尽可能的接近尾实体的向量，所以使用约等于。

模长部分和角度部分分别对应的距离函数为：

d_r，p(h_p，t_p)＝||sin((h_p+r_p-t_p)/2)||₁。

本实施例中，在隐空间中，实体的向量表示与中心实体的向量表示的之间的距离小于预先定义的相似度阈值ρ，就认为该实体为中心实体在隐空间中的邻接实体，从而形成隐空间邻域N_H(u)，如图2所示。拓扑邻域和隐空间邻域分别表示为：

N_T(u)＝{v|v∈E，(u，v)∈R}

N_H(u)＝{v|v∈E，d(e_u，e_v)＜ρ}

其中u，v都是实体，R表示关系集合；e_u，e_v分别为实体u和实体v的向量表示，d(e_u，e_v)为计算向量之间距离的函数，采用余弦相似度。

步骤3：在原产业图谱的拓扑结构中，通过聚合中心实体(当某个实体有邻接实体时，在聚合它的邻接实体信息时，这个实体就可以称为中心实体)在拓扑邻域中的邻接实体信息，产生中心实体在聚合拓扑邻域中的邻接实体信息后的拓扑邻域信息表示；

本实施例中，在原产业图谱的拓扑结构中，利用vanilla GCN去聚合中心实体在拓扑邻域中的邻接实体e_j，T∈N_T(u)的信息，vanilla GCN的层数为l，层与层之间的传播公式为：

其中，N_T(·)表示中心实体的一跳拓扑邻域，也包括中心实体自己；表示中心实体在vanilla GCN的第l层中，聚合拓扑邻域中的邻接实体信息后的向量表示；；a_i是一个归一化常数，/>是第l层权重矩阵，σ(·)是激活函数；/>表示中心实体的第j个拓扑邻域邻接实体在vanilla GCN的l-1层的向量表示；i表示第i个中心实体，下标j表示中心实体的拓扑邻域中的第j个邻接实体；N_T(i)是第i个中心实体的拓扑邻域，T表示是拓扑。

GCN的最后一层的输出h_i，T就是中心实体e_i在聚合拓扑邻域中的邻接实体信息后的拓扑邻域信息嵌入表示。

步骤4：在产业图谱嵌入模型产生的产业图谱隐空间中，通过聚合中心实体的在隐空间邻域中的邻接实体信息，产生中心实体在聚合隐空间邻域中的邻接实体信息后的隐空间邻域表示；

本实施例中，通过产业图谱嵌入模型HAKE产生隐空间后，利用vanilla GCN去聚合中心实体在隐空间邻域中的邻接实体e_j，H∈N_H(u)的信息，vanilla GCN的层数为l，隐空间邻域信息在GCN中层与层之间的传播公式为：

其中，N_H(i)表示包括中心实体自已的隐空间邻域，代表隐空间的权重矩阵；a_i是一个归一化常数，σ(·)是激活函数；/>表示中心实体的在隐空间邻域中第j个邻接实体在vanilla GCN的l-1层的向量表示；i表示第i个中心实体，下标j表示中心实体在隐空间邻域中的第j个邻接实体；H表示的是隐空间；/>表示中心实体在vanilla GCN第l层中，聚合隐空间邻域中的邻接实体信息后的向量表示。

GCN的最后一层的输出h_i，H就是中心实体e_i在聚合隐空间邻域中的邻接实体信息后的拓扑邻域信息嵌入表示。

本实施例中，通过vanilla GCN对实体邻域信息进行聚合，分别得到中心实体的拓扑邻域信息嵌入表示h_i，T和隐空间邻域信息嵌入表示h_i，H，需要对实体的拓扑邻域信息和隐空间邻域信息聚合得到实体的嵌入表示h_i；

首先计算实体e_i的拓扑邻域信息嵌入表示和隐空间邻域信息嵌入表示的平均向量然后通过门控机制GM(·)聚合h_i，T和h_i，H，得到实体e_i最后的嵌入表示h_i，计算公式如下：

其中，下标i表示的是第i个实体，和实体e_i的下标一样；公式中的j表示的是T、H中的一个，下标T表示的是拓扑，H表示的隐空间；n表示的是邻域的个数，本专利中只有拓扑邻域和隐空间邻域，它的值为2；GM(·)是一个控制拓扑邻域信息和隐空间邻域信息聚合的函数，用如下公式表示：

其中W是一个权重矩阵，这样门控能跟随模型一起训练，表示实体e_i的拓扑邻域信息嵌入表示和隐空间邻域信息嵌入表示的平均向量σ(·)是激活函数。

本实施例中，通过计算实体嵌入表示之间的余弦相似度产生实体的相似度矩阵M，矩阵中每一个元素m_ij都代表产业图谱中实体与实体之间的余弦相似性，值域为[0，1]；

m_ij＝cos(e_i，e_j)

其中，e_i和e_j分别表示实体i和j的嵌入向量表示。

步骤7：为了制定全局的实体对齐决策，将实体对齐问题表示为经典的稳定匹配问题，并通过延迟接受算法(DAA)去实现集体的实体对齐。

本实施例中，为了制定全局的实体对齐决策，将实体对齐问题表示为经典的稳定匹配问题，每一次实体对齐的决策之间都是相互关联的，如果实体与另一个具有较高置信度的实体对齐，那么它与其他实体匹配的可能性较小，通过延迟接受算法(DAA)去实现全局的实体对齐。在第一轮中，每个源实体根据相似度矩阵选出相似度最大的目标实体进行匹配，然后目标实体也临时选择跟它匹配的最相似的源实体进行匹配；然后，在接下来的每一轮中，每一个未匹配的源实体向没有匹配的与它最相似的目标实体进行匹配(无论目标实体是否已经匹配)，如果目标实体发现在与它匹配的源实体中，有更相似的实体，那么它就会和最相似的源实体匹配；重复这个过程，直到每个源实体都已经和目标实体匹配，就完成了产业图谱的全局实体对齐任务。

本实施例适用于湖北省智能网联汽车产业图谱，还适用于需要用到实体对齐技术的产业图谱。

应当理解的是，本说明书未详细阐述的部分均属于现有技术；上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于隐空间邻域聚合的智能网联汽车产业图谱融合方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于隐空间邻域聚合的智能网联汽车产业图谱融合方法，其特征在于：步骤1中，利用图谱嵌入模型HAKE将产业图谱映射到一个低维的向量空间，生成产业图谱的隐空间，得到实体、关系的嵌入表示；

所述图谱嵌入模型HAKE包含模长部分和角度部分，模长部分用于建模分属不同层级的实体，角度部分用于建模属于同一层级的实体；对于一个三元组(h,r,t)，其中h为头实体，r为关系，t为尾实体，h_m∈R^k,t_m∈R^k分别为模长部分中头实体、关系、尾实体的向量表示，h_p,r_p,t_p∈[0,2π)^k分别为角度部分中实体、关系、尾实体的向量表示；R^k表示实数的k维向量，R表示实数集，k表示向量的维度；模长部分三元组建模为/>角度部分三元组建模为h_p+r_p≈t_p，其中，/>表示向量的逐元素相乘；+表示两个向量相加；≈指的是头实体的向量加上关系的向量尽可能的接近尾实体的向量；

模长部分和角度部分分别对应的距离函数为：

d_r，p(h_p，t_p)＝||sin((h_p+r_p-t_p)/2)||₁。

3.根据权利要求1所述的基于隐空间邻域聚合的智能网联汽车产业图谱融合方法，其特征在于：步骤2中，基于产业图谱的原始拓扑结构，通过中心实体的一跳邻居集合{e₁,…,e_n}产生中心实体的拓扑邻域N_T(u)，在利用图谱嵌入模型HAKE得到产业图谱的嵌入空间之后，通过在嵌入空间中计算中心实体向量表示和其他实体的向量表示之间的相似度，如果相似度大于给定的阈值，则它是中心实体在隐空间中的邻接实体，从而产生中心实体的隐空间邻域N_H(u)；

其中，拓扑邻域和隐空间邻域分别表示为：

N_T(u)＝{v|v∈E，(u，v)∈R}

N_H(u)＝{v|v∈E，d(e_u，e_V)＜ρ}

其中u,v都是实体，R表示关系集合；e_u,e_v分别为实体u和实体v的向量表示，d(e_u,e_v)为计算向量之间距离的函数，采用余弦相似度；ρ表示预先定义的相似度阈值。

4.根据权利要求1所述的基于隐空间邻域聚合的智能网联汽车产业图谱融合方法，其特征在于：步骤3中，在原产业图谱的拓扑结构中，利用vanilla GCN去聚合中心实体在拓扑邻域中的邻接实体e_j,_T∈N_T(u)的信息，vanilla GCN的层数为l，层与层之间的传播公式为：

其中，N_T(·)表示中心实体的一跳拓扑邻域，也包括中心实体自己，表示中心实体在vanilla GCN的第l层中，聚合拓扑邻域中的邻接实体信息后的向量表示；a_i是一个归一化常数，/>是第l层权重矩阵，σ(·)是激活函数；/>表示中心实体的第j个邻接实体在vanilla GCN的l-1层的向量表示；i表示第i个中心实体，下标j表示中心实体的拓扑邻域中的第j个邻接实体；N_T(i)是第i个中心实体的拓扑邻域，T表示是拓扑；

GCN的最后一层的输出h_i,T就是中心实体e_i在聚合拓扑邻域中的邻接实体信息后的拓扑邻域信息嵌入表示。

5.根据权利要求1所述的基于隐空间邻域聚合的智能网联汽车产业图谱融合方法，其特征在于：步骤4中，利用vanilla GCN去聚合中心实体在隐空间邻域中的邻接实体e_j,H∈N_H(u)的信息，vanilla GCN的层数为l，隐空间邻域信息在GCN中层与层之间的传播公式为：

其中，N_H(i)表示包括中心实体自己的隐空间邻域，代表隐空间的权重矩阵；a_i是一个归一化常数，σ(·)是激活函数；/>表示中心实体的在隐空间邻域中第j个邻接实体在vanilla GCN的l-1层的向量表示；i表示第i个中心实体，下标j表示中心实体在隐空间邻域中的第j个邻接实体；H表示的是隐空间；/>表示中心实体在vanilla GCN第l层中，聚合隐空间邻域中的邻接实体信息后的向量表示；

GCN的最后一层的输出h_i,H就是中心实体e_i在聚合隐空间邻域中的邻接实体信息后的拓扑邻域信息嵌入表示。

6.根据权利要求1所述的基于隐空间邻域聚合的智能网联汽车产业图谱融合方法，其特征在于：步骤5中，通过vanilla GCN对实体邻域信息进行聚合，分别得到中心实体的拓扑邻域信息嵌入表示h_i,T和隐空间邻域信息嵌入表示h_i,H，需要对实体的拓扑邻域信息和隐空间邻域信息聚合得到实体的嵌入表示h_i；

首先计算实体e_i的拓扑邻域信息嵌入表示和隐空间邻域信息嵌入表示的平均向量然后通过门控机制GM(·)聚合h_i,T和h_i,H，得到实体e_i最后的嵌入表示h_i，计算公式如下：

其中，下标i表示的是第i个实体，和实体e_i的下标一样；公式中的j表示的是T、H中的一个，下标T表示的是拓扑，H表示的隐空间；n表示的是邻域的个数；GM(·)是一个控制拓扑邻域信息和隐空间邻域信息聚合的函数，用如下公式表示：

其中W是一个权重矩阵，这样门控能跟随模型一起训练，表示实体e_i的拓扑邻域信息嵌入表示和隐空间邻域信息嵌入表示的平均向量，σ(·)是激活函数。

7.根据权利要求1所述的基于隐空间邻域聚合的智能网联汽车产业图谱融合方法，其特征在于：步骤6中，通过计算实体嵌入表示之间的余弦相似度产生实体的相似度矩阵M，矩阵中每一个元素m_ij都代表产业图谱中实体与实体之间的余弦相似性，值域为[0，1]；

m_ij＝cos(e_i，e_j)

其中，e_i和e_j分别表示实体i和j的嵌入向量表示。

8.根据权利要求1-7任意一项所述的基于隐空间邻域聚合的智能网联汽车产业图谱融合方法，其特征在于：步骤7中，每一次实体对齐的决策之间都是相互关联的，如果实体与另一个具有较高置信度的实体对齐，那么它与其他实体匹配的可能性较小，通过延迟接受算法DAA去实现全局的实体对齐；在第一轮中，每个源实体根据相似度矩阵选出相似度最大的目标实体进行匹配，然后目标实体也临时选择跟它匹配的最相似的源实体进行匹配；然后，在接下来的每一轮中，每一个未匹配的源实体向没有匹配的与它最相似的目标实体进行匹配，如果目标实体发现在与它匹配的源实体中，有更相似的实体，那么它就会和最相似的源实体匹配；重复这个过程，直到每个源实体都已经和目标实体匹配，就完成了产业图谱的全局实体对齐任务。