CN117235273A

CN117235273A - 一种基于跨模态监督的行业知识图谱实体对齐方法

Info

Publication number: CN117235273A
Application number: CN202310954581.1A
Authority: CN
Inventors: 季白杨
Original assignee: Hangzhou Biwan Information Technology Co ltd
Current assignee: Hangzhou Biwan Information Technology Co ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-12-15

Abstract

本发明公开了一种基于跨模态监督的行业知识图谱实体对齐方法，包括：S1.获取与行业相对应的文本信息；S2.将得到的文本信息拆分为数个句子，将数个句子输入到transformer网络模型中进行实体识别，并将文本信息之间的关系进行抽取，根据实体和关系构建知识图谱；S3.通过关系聚合网络获取知识图谱中实体的关系和结构特征；S4.根据获取的关系和结构特征，基于跨模态监督策略实现了实体与实体之间的对齐。本发明在每次迭代中使用两个参考模块的知识生成一组新的潜在对齐实体对，并且在模型中使用的支持信息不参与模型的反向传播，大大提高了效率。

Description

一种基于跨模态监督的行业知识图谱实体对齐方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于跨模态监督的行业知识图谱实体对齐方法。

背景技术

知识图谱(Knowledge Graph)，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱通常由节点(point)和边(Edge)组成，每个节点表示一个“实体”，每条边为实体与实体之间的“关系”。

在不同的知识图谱中，对于具有相同含义的实体的称呼或者表现形式可能不同，因此需要进行跨知识图谱的实体对齐。目前大多数可用的实体对齐方法主要依靠结构信息来对齐实体，这是不足的，忽略了额外的多源信息。

如公开号为CN112765370A的专利公开了知识图谱的实体对齐方法、装置、计算机设备和存储介质，方法包括：获取待处理的至少两个知识图谱，并确定第一对齐子模型和第二对齐子模型；基于第二对齐子模型前个轮次输出的对齐处理结果，启动第一对齐子模型，得到当前轮次成功配对的配对实体对集合；根据配对实体对集合对当前轮次的第二对齐子模型进行有监督训练；通过当前轮次训练得到的第二对齐子模型，对至少两个知识图谱进行多维度图谱嵌入处理，输出当前轮次的对齐处理结果；将下一轮次作为当前轮次进行迭代处理，直至达到第一停止条件时停止，得到与至少两个知识图谱对应的实体对齐结果。杉树专利虽然可以提升知识图谱的对齐效率，但是依然存在依靠结构信息来对齐实体，进而忽略了额外的多源信息。

针对上述技术问题，本发明提供一种基于跨模态监督的行业知识图谱实体对齐方法。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于跨模态监督的行业知识图谱实体对齐方法。

为了实现以上目的，本发明采用以下技术方案：

一种基于跨模态监督的行业知识图谱实体对齐方法，包括：

S1.获取与行业相对应的文本信息；

S2.将得到的文本信息拆分为数个句子，将数个句子输入到transformer网络模型中进行实体识别，并将文本信息之间的关系进行抽取，根据实体和关系构建知识图谱；

S3.通过关系聚合网络获取知识图谱中实体的关系和结构特征；

S4.根据获取的关系和结构特征，基于跨模态监督策略实现了实体与实体之间的对齐。

进一步的，所述步骤S1具体为：

S11.利用爬虫技术爬取行业数据并保存为文本格式；

S12.对获取到的文本进行处理，得到处理后的文本信息。

进一步的，所述步骤S12具体为：通过正则表达式筛选并保存文本中的图片以及链接，同时提取文本中与行业描述相对应的文字，形成行业描述文本。

进一步的，所述步骤S2具体为：

S21.将得到的与行业相对应的文本信息进行分句处理，得到数个句子；

S22.将数个句子中连续的两个句子输入到基于BERT的神经网络中进行实体识别，得到实体；

S23.基于规则的关系抽取算法匹配文本，判断文本中是否出现已有的规则，若是，则通过规则提取出实体间的关系；

S24.通过得到的实体和关系，并结合实体的附加信息构建行业知识图谱。进一步的，所述步骤S24中构建行业知识图谱，表示为：

G＝(E,R,T,S)

其中，G表示知识图谱；E、R表示实体和关系；T表示三元组；S表示实体的附加信息。

进一步的，所述步骤S3中实体的结构特征表示为：

其中，表示实体的结构特征；e_i表示实体；/>表示实体的初始嵌入；/>表示第l层的嵌入表示。

进一步的，所述步骤S3中实体的关系，表示为：

其中，α_ijk表示权重系数；v^T表示一个可训练向量的转置；h_rk表示规范化后的向量，以保证h_rk＝1；e_j表示实体；表示实体e_i的相邻实体集；r_k表示实体之间的关系；R_ij表示e_i和e_j的关系集。

进一步的，所述步骤S4包括：

S41.利用BERT模型对与行业相关的文字描述进行匹配；

S42.基于ResNet50模型获取保存的实体图片相对应的视觉嵌入；

S43.采用双向最近邻搜索法，建立文字和图片的高置信度样本的实体样本，并更新图谱结构，实现实体与实体之间的对齐。

进一步的，所述步骤S41中BERT模型表示为：

其中，表示得到的文字模块表示；mBERT表示将实体嵌入到m层BERT模型中。

进一步的，所述步骤S42中ResNet50模型表示为：

其中，表示得到的视觉模块表示；ResNet是一种视觉嵌入模型。

与现有技术相比，本发明首先使用关系聚合网络来专门利用实体及其邻接实体的细节；并且为了克服关系特征的局限性两个多模态编码模块用于提取文本和图片信息，本发明在每次迭代中使用两个参考模块的知识生成一组新的潜在对齐实体对，并且在模型中使用的支持信息不参与模型的反向传播，大大提高了效率。

附图说明

图1是实施例一提供的一种基于跨模态监督的行业知识图谱实体对齐方法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供一种基于跨模态监督的行业知识图谱实体对齐方法，如图1所示，包括：

S1.获取与行业相对应的文本信息；

在步骤S1中，获取与行业相对应的文本信息。

S11.利用爬虫技术爬取行业中相关企业的数据，并将获取到的数据保存为文本格式；如企业年报数据。

S12.对获取到的文本进行清理，得到清理后的文本信息，具体为：

通过正则表达式筛选企业年报文本中的图片以及链接，并对拖片进行保存，同时提取文本中与行业描述相对应的部分文字，形成行业描述文本。

在步骤S2中，将得到的文本信息拆分为数个句子，将数个句子输入到transformer网络模型中进行实体识别，并将文本信息之间的关系进行抽取，根据实体和关系构建知识图谱，具体为：

S21.将步骤S12中得到的与行业描述文本进行分句处理，得到一个一个的句子；

对文本进行分句处理具体为：将文本保存为txt文件，利用python语言，导入jieba库，调用split()函数将文本按照句号和分号进行分句处理，得到一个一个的句子。

S22.将所有句子中连续的两个句子输入到基于BERT的神经网络中进行实体识别，得到实体；

在进行BERT识别之前还包括：将得到的一个一个句子进行分词处理，再利用Glove进行单词向量化处理，得到处理后的单词向量。

BERT的神经网络具体为：本实施例首先需要构造BERT网络结构，BERT结构是由transformer的encoder部分堆叠而成，然后将向量化后的单词向量输入到BERT网络中，还可以添加CRF层提高准确率。

S23.基于规则的关系抽取算法，首先通过手写规则来匹配文本，并判断文本中是否出现已有的规则，若是，则通过规则提取出实体间的关系

基于规则的关系抽取算法，首先通过手写规则来匹配文本，并判断文本中是否出现已有的规则，若是，则通过规则提取出实体间的关系；具体为：

首先人工定义关系模板，然后基于人工定义的关系规则的关系抽取算法，首先通过手写规则来匹配文本，并判断文本中是否出现已有的关系规则，若是，则使用这个关系在实体间。

S24.通过得到的实体和关系，并结合实体的附加信息构建行业知识图谱。在本实施例中，构建行业知识图谱，表示为：

G＝(E,R,T,S)

其中，G表示知识图谱；E、R表示实体和关系；T表示三元组；S表示实体的附加信息，其中，附加信息包括图片、描述等等。

在步骤S3中，通过关系聚合网络获取知识图谱中实体的关系和结构特征。

本实施例为了充分捕捉局部结构和关系信息，利用关系聚合网络来获取每个实体的关系和结构特征，具体获取的是特征向量，表示为：

输出特征向量可表示为具体公式如下：

其中，表示实体e_i的相邻实体集；e_j表示实体；r_k表示关系集；R_ij表示e_i和e_j的关系集；/>表示l层的权重系数；/>表示关系变换矩阵；/>表示表示实体e_j在l层的输出特征；M_rk表示关系变化矩阵，基于关系变化矩阵，在没有额外参数的情况下为每个实体生成关系特定嵌入，表示为：

其中，M_r表示为每个实体生成的特定嵌入特征；I表示单位矩阵；表示特征向量；表示规范化后的h_r向量；h_r被规范化，以保证/>很容易得到M_r是正交的，确保了实体嵌入之间的距离不会因为变换而改变，为了便于矩阵乘法，嵌入尺寸被设置成相同的，此外，使用云路径机制来计算权重系数a_ijk，表示实体e_i和e_j，并且他们之间的关系为r_k，计算公式如下：

其中，α_ijk表示权重系数；v^T表示一个可训练向量的转置；h_rk表示特征向量；e_j表示实体；表示实体e_i的相邻实体集；r_k表示实体之间的关系；R_ij表示e_i和e_j的关系集。

本实施例中，V是可训练向量，α_ijk指连接实体所有边的路径的重要性，来自不同层的嵌入被连接在一起来获得最终实体e_i的输出特征计算公式如下：

在步骤S4中，根据获取的关系和结构特征，基于跨模态监督策略实现了实体与实体之间的对齐。

S41.在文字数据上，为了捕捉实体的语义相关性，利用BERT模型得到的特征向量与行业文字描述转化的向量进行匹配；

BERT作为一种生成句子向量的工具，它能够理解知识系统中非常相似的摘要的含义，具体模型表示如下：

其中，表示得到的文字模块表示；mBERT表示多语言BERT模型。

S42.为了提高实体对齐的准确性，在提取文本信息时，保存了图片，基于ResNet50模型获取保存的实体图片相对应的视觉嵌入；

在图片信息中其表达的更加直观，本实施例使用已有的ResNet50来学习实体图像的视觉嵌入，从视觉编码器移除softmax层，然后获得所有图像的2048维特征向量，利用的是已有的ResNet模型，具体模型表示如下：

S43.采用双向最近邻搜索法，建立文字和图片的高置信度样本的实体样本，并更新图谱结构，实现实体与实体之间的对齐。具体为：

采用双向最近邻搜索法，建立文字和图片的高置信度样本的实体样本，实体样本就说明了一些实体具体可以对应到哪一种实体上，然后将知识图谱中的对应实体进行更改，就实现实体与实体之间的对齐。

由于半监督实体对齐无法推断实体的准确对应，在图谱上利用加强结构学习；本实施例在每次迭代过程中，选取具有跨模态监督策略的双向最近邻搜索，选择按文字和图片模块的高置信度样本来创建新的实体样本，然后使用标记和额外的自动标记的数据更新图谱结构，就实现了实体与实体之间的对齐。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于跨模态监督的行业知识图谱实体对齐方法，其特征在于，包括：

S1.获取与行业相对应的文本信息；

2.根据权利要求1所述的一种基于跨模态监督的行业知识图谱实体对齐方法，其特征在于，所述步骤S1具体为：

S11.利用爬虫技术爬取行业数据并保存为文本格式；

S12.对获取到的文本进行处理，得到处理后的文本信息。

3.根据权利要求2所述的一种基于跨模态监督的行业知识图谱实体对齐方法，其特征在于，所述步骤S12具体为：通过正则表达式筛选并保存文本中的图片以及链接，同时提取文本中与行业描述相对应的文字，形成行业描述文本。

4.根据权利要求3所述的一种基于跨模态监督的行业知识图谱实体对齐方法，其特征在于，所述步骤S2具体为：

S24.通过得到的实体和关系，并结合实体的附加信息构建行业知识图谱。

5.根据权利要求4所述的一种基于跨模态监督的行业知识图谱实体对齐方法，其特征在于，所述步骤S24中构建行业知识图谱，表示为：

G＝(E,R,T,S)

6.根据权利要求1所述的一种基于跨模态监督的行业知识图谱实体对齐方法，其特征在于，所述步骤S3中实体的结构特征表示为：

7.根据权利要求6所述的一种基于跨模态监督的行业知识图谱实体对齐方法，其特征在于，所述步骤S3中实体的关系，表示为：

其中，α_ijk表示权重系数；v^T表示一个可训练向量的转置；h_rk表示规范化后的向量；e_j表示实体；表示实体e_i的相邻实体集；_rk表示实体之间的关系；R_ij表示e_i和e_j的关系集。

8.根据权利要求3所述的一种基于跨模态监督的行业知识图谱实体对齐方法，其特征在于，所述步骤S4包括：

S41.利用BERT模型对与行业相关的文字描述进行匹配；

S42.基于ResNet50模型获取保存的实体图片相对应的视觉嵌入；

9.根据权利要求8所述的一种基于跨模态监督的行业知识图谱实体对齐方法，其特征在于，所述步骤S41中BERT模型表示为：

10.根据权利要求8所述的一种基于跨模态监督的行业知识图谱实体对齐方法，其特征在于，所述步骤S42中ResNet50模型表示为：