CN117235273A - 一种基于跨模态监督的行业知识图谱实体对齐方法 - Google Patents

一种基于跨模态监督的行业知识图谱实体对齐方法 Download PDF

Info

Publication number
CN117235273A
CN117235273A CN202310954581.1A CN202310954581A CN117235273A CN 117235273 A CN117235273 A CN 117235273A CN 202310954581 A CN202310954581 A CN 202310954581A CN 117235273 A CN117235273 A CN 117235273A
Authority
CN
China
Prior art keywords
entity
knowledge graph
entities
representing
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310954581.1A
Other languages
English (en)
Inventor
季白杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Biwan Information Technology Co ltd
Original Assignee
Hangzhou Biwan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Biwan Information Technology Co ltd filed Critical Hangzhou Biwan Information Technology Co ltd
Priority to CN202310954581.1A priority Critical patent/CN117235273A/zh
Publication of CN117235273A publication Critical patent/CN117235273A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于跨模态监督的行业知识图谱实体对齐方法,包括:S1.获取与行业相对应的文本信息;S2.将得到的文本信息拆分为数个句子,将数个句子输入到transformer网络模型中进行实体识别,并将文本信息之间的关系进行抽取,根据实体和关系构建知识图谱;S3.通过关系聚合网络获取知识图谱中实体的关系和结构特征;S4.根据获取的关系和结构特征,基于跨模态监督策略实现了实体与实体之间的对齐。本发明在每次迭代中使用两个参考模块的知识生成一组新的潜在对齐实体对,并且在模型中使用的支持信息不参与模型的反向传播,大大提高了效率。

Description

一种基于跨模态监督的行业知识图谱实体对齐方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于跨模态监督的行业知识图谱实体对齐方法。
背景技术
知识图谱(Knowledge Graph),是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱通常由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”。
在不同的知识图谱中,对于具有相同含义的实体的称呼或者表现形式可能不同,因此需要进行跨知识图谱的实体对齐。目前大多数可用的实体对齐方法主要依靠结构信息来对齐实体,这是不足的,忽略了额外的多源信息。
如公开号为CN112765370A的专利公开了知识图谱的实体对齐方法、装置、计算机设备和存储介质,方法包括:获取待处理的至少两个知识图谱,并确定第一对齐子模型和第二对齐子模型;基于第二对齐子模型前个轮次输出的对齐处理结果,启动第一对齐子模型,得到当前轮次成功配对的配对实体对集合;根据配对实体对集合对当前轮次的第二对齐子模型进行有监督训练;通过当前轮次训练得到的第二对齐子模型,对至少两个知识图谱进行多维度图谱嵌入处理,输出当前轮次的对齐处理结果;将下一轮次作为当前轮次进行迭代处理,直至达到第一停止条件时停止,得到与至少两个知识图谱对应的实体对齐结果。杉树专利虽然可以提升知识图谱的对齐效率,但是依然存在依靠结构信息来对齐实体,进而忽略了额外的多源信息。
针对上述技术问题,本发明提供一种基于跨模态监督的行业知识图谱实体对齐方法。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于跨模态监督的行业知识图谱实体对齐方法。
为了实现以上目的,本发明采用以下技术方案:
一种基于跨模态监督的行业知识图谱实体对齐方法,包括:
S1.获取与行业相对应的文本信息;
S2.将得到的文本信息拆分为数个句子,将数个句子输入到transformer网络模型中进行实体识别,并将文本信息之间的关系进行抽取,根据实体和关系构建知识图谱;
S3.通过关系聚合网络获取知识图谱中实体的关系和结构特征;
S4.根据获取的关系和结构特征,基于跨模态监督策略实现了实体与实体之间的对齐。
进一步的,所述步骤S1具体为:
S11.利用爬虫技术爬取行业数据并保存为文本格式;
S12.对获取到的文本进行处理,得到处理后的文本信息。
进一步的,所述步骤S12具体为:通过正则表达式筛选并保存文本中的图片以及链接,同时提取文本中与行业描述相对应的文字,形成行业描述文本。
进一步的,所述步骤S2具体为:
S21.将得到的与行业相对应的文本信息进行分句处理,得到数个句子;
S22.将数个句子中连续的两个句子输入到基于BERT的神经网络中进行实体识别,得到实体;
S23.基于规则的关系抽取算法匹配文本,判断文本中是否出现已有的规则,若是,则通过规则提取出实体间的关系;
S24.通过得到的实体和关系,并结合实体的附加信息构建行业知识图谱。进一步的,所述步骤S24中构建行业知识图谱,表示为:
G=(E,R,T,S)
其中,G表示知识图谱;E、R表示实体和关系;T表示三元组;S表示实体的附加信息。
进一步的,所述步骤S3中实体的结构特征表示为:
其中,表示实体的结构特征;ei表示实体;/>表示实体的初始嵌入;/>表示第l层的嵌入表示。
进一步的,所述步骤S3中实体的关系,表示为:
其中,αijk表示权重系数;vT表示一个可训练向量的转置;hrk表示规范化后的向量,以保证hrk=1;ej表示实体;表示实体ei的相邻实体集;rk表示实体之间的关系;Rij表示ei和ej的关系集。
进一步的,所述步骤S4包括:
S41.利用BERT模型对与行业相关的文字描述进行匹配;
S42.基于ResNet50模型获取保存的实体图片相对应的视觉嵌入;
S43.采用双向最近邻搜索法,建立文字和图片的高置信度样本的实体样本,并更新图谱结构,实现实体与实体之间的对齐。
进一步的,所述步骤S41中BERT模型表示为:
其中,表示得到的文字模块表示;mBERT表示将实体嵌入到m层BERT模型中。
进一步的,所述步骤S42中ResNet50模型表示为:
其中,表示得到的视觉模块表示;ResNet是一种视觉嵌入模型。
与现有技术相比,本发明首先使用关系聚合网络来专门利用实体及其邻接实体的细节;并且为了克服关系特征的局限性两个多模态编码模块用于提取文本和图片信息,本发明在每次迭代中使用两个参考模块的知识生成一组新的潜在对齐实体对,并且在模型中使用的支持信息不参与模型的反向传播,大大提高了效率。
附图说明
图1是实施例一提供的一种基于跨模态监督的行业知识图谱实体对齐方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于跨模态监督的行业知识图谱实体对齐方法。
实施例一
本实施例提供一种基于跨模态监督的行业知识图谱实体对齐方法,如图1所示,包括:
S1.获取与行业相对应的文本信息;
S2.将得到的文本信息拆分为数个句子,将数个句子输入到transformer网络模型中进行实体识别,并将文本信息之间的关系进行抽取,根据实体和关系构建知识图谱;
S3.通过关系聚合网络获取知识图谱中实体的关系和结构特征;
S4.根据获取的关系和结构特征,基于跨模态监督策略实现了实体与实体之间的对齐。
在步骤S1中,获取与行业相对应的文本信息。
S11.利用爬虫技术爬取行业中相关企业的数据,并将获取到的数据保存为文本格式;如企业年报数据。
S12.对获取到的文本进行清理,得到清理后的文本信息,具体为:
通过正则表达式筛选企业年报文本中的图片以及链接,并对拖片进行保存,同时提取文本中与行业描述相对应的部分文字,形成行业描述文本。
在步骤S2中,将得到的文本信息拆分为数个句子,将数个句子输入到transformer网络模型中进行实体识别,并将文本信息之间的关系进行抽取,根据实体和关系构建知识图谱,具体为:
S21.将步骤S12中得到的与行业描述文本进行分句处理,得到一个一个的句子;
对文本进行分句处理具体为:将文本保存为txt文件,利用python语言,导入jieba库,调用split()函数将文本按照句号和分号进行分句处理,得到一个一个的句子。
S22.将所有句子中连续的两个句子输入到基于BERT的神经网络中进行实体识别,得到实体;
在进行BERT识别之前还包括:将得到的一个一个句子进行分词处理,再利用Glove进行单词向量化处理,得到处理后的单词向量。
BERT的神经网络具体为:本实施例首先需要构造BERT网络结构,BERT结构是由transformer的encoder部分堆叠而成,然后将向量化后的单词向量输入到BERT网络中,还可以添加CRF层提高准确率。
S23.基于规则的关系抽取算法,首先通过手写规则来匹配文本,并判断文本中是否出现已有的规则,若是,则通过规则提取出实体间的关系
基于规则的关系抽取算法,首先通过手写规则来匹配文本,并判断文本中是否出现已有的规则,若是,则通过规则提取出实体间的关系;具体为:
首先人工定义关系模板,然后基于人工定义的关系规则的关系抽取算法,首先通过手写规则来匹配文本,并判断文本中是否出现已有的关系规则,若是,则使用这个关系在实体间。
S24.通过得到的实体和关系,并结合实体的附加信息构建行业知识图谱。在本实施例中,构建行业知识图谱,表示为:
G=(E,R,T,S)
其中,G表示知识图谱;E、R表示实体和关系;T表示三元组;S表示实体的附加信息,其中,附加信息包括图片、描述等等。
在步骤S3中,通过关系聚合网络获取知识图谱中实体的关系和结构特征。
本实施例为了充分捕捉局部结构和关系信息,利用关系聚合网络来获取每个实体的关系和结构特征,具体获取的是特征向量,表示为:
输出特征向量可表示为具体公式如下:
其中,表示实体ei的相邻实体集;ej表示实体;rk表示关系集;Rij表示ei和ej的关系集;/>表示l层的权重系数;/>表示关系变换矩阵;/>表示表示实体ej在l层的输出特征;Mrk表示关系变化矩阵,基于关系变化矩阵,在没有额外参数的情况下为每个实体生成关系特定嵌入,表示为:
其中,Mr表示为每个实体生成的特定嵌入特征;I表示单位矩阵;表示特征向量;表示规范化后的hr向量;hr被规范化,以保证/>很容易得到Mr是正交的,确保了实体嵌入之间的距离不会因为变换而改变,为了便于矩阵乘法,嵌入尺寸被设置成相同的,此外,使用云路径机制来计算权重系数aijk,表示实体ei和ej,并且他们之间的关系为rk,计算公式如下:
其中,αijk表示权重系数;vT表示一个可训练向量的转置;hrk表示特征向量;ej表示实体;表示实体ei的相邻实体集;rk表示实体之间的关系;Rij表示ei和ej的关系集。
本实施例中,V是可训练向量,αijk指连接实体所有边的路径的重要性,来自不同层的嵌入被连接在一起来获得最终实体ei的输出特征计算公式如下:
其中,表示实体的结构特征;ei表示实体;/>表示实体的初始嵌入;/>表示第l层的嵌入表示。
在步骤S4中,根据获取的关系和结构特征,基于跨模态监督策略实现了实体与实体之间的对齐。
S41.在文字数据上,为了捕捉实体的语义相关性,利用BERT模型得到的特征向量与行业文字描述转化的向量进行匹配;
BERT作为一种生成句子向量的工具,它能够理解知识系统中非常相似的摘要的含义,具体模型表示如下:
其中,表示得到的文字模块表示;mBERT表示多语言BERT模型。
S42.为了提高实体对齐的准确性,在提取文本信息时,保存了图片,基于ResNet50模型获取保存的实体图片相对应的视觉嵌入;
在图片信息中其表达的更加直观,本实施例使用已有的ResNet50来学习实体图像的视觉嵌入,从视觉编码器移除softmax层,然后获得所有图像的2048维特征向量,利用的是已有的ResNet模型,具体模型表示如下:
其中,表示得到的视觉模块表示;ResNet是一种视觉嵌入模型。
S43.采用双向最近邻搜索法,建立文字和图片的高置信度样本的实体样本,并更新图谱结构,实现实体与实体之间的对齐。具体为:
采用双向最近邻搜索法,建立文字和图片的高置信度样本的实体样本,实体样本就说明了一些实体具体可以对应到哪一种实体上,然后将知识图谱中的对应实体进行更改,就实现实体与实体之间的对齐。
由于半监督实体对齐无法推断实体的准确对应,在图谱上利用加强结构学习;本实施例在每次迭代过程中,选取具有跨模态监督策略的双向最近邻搜索,选择按文字和图片模块的高置信度样本来创建新的实体样本,然后使用标记和额外的自动标记的数据更新图谱结构,就实现了实体与实体之间的对齐。
与现有技术相比,本发明首先使用关系聚合网络来专门利用实体及其邻接实体的细节;并且为了克服关系特征的局限性两个多模态编码模块用于提取文本和图片信息,本发明在每次迭代中使用两个参考模块的知识生成一组新的潜在对齐实体对,并且在模型中使用的支持信息不参与模型的反向传播,大大提高了效率。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于跨模态监督的行业知识图谱实体对齐方法,其特征在于,包括:
S1.获取与行业相对应的文本信息;
S2.将得到的文本信息拆分为数个句子,将数个句子输入到transformer网络模型中进行实体识别,并将文本信息之间的关系进行抽取,根据实体和关系构建知识图谱;
S3.通过关系聚合网络获取知识图谱中实体的关系和结构特征;
S4.根据获取的关系和结构特征,基于跨模态监督策略实现了实体与实体之间的对齐。
2.根据权利要求1所述的一种基于跨模态监督的行业知识图谱实体对齐方法,其特征在于,所述步骤S1具体为:
S11.利用爬虫技术爬取行业数据并保存为文本格式;
S12.对获取到的文本进行处理,得到处理后的文本信息。
3.根据权利要求2所述的一种基于跨模态监督的行业知识图谱实体对齐方法,其特征在于,所述步骤S12具体为:通过正则表达式筛选并保存文本中的图片以及链接,同时提取文本中与行业描述相对应的文字,形成行业描述文本。
4.根据权利要求3所述的一种基于跨模态监督的行业知识图谱实体对齐方法,其特征在于,所述步骤S2具体为:
S21.将得到的与行业相对应的文本信息进行分句处理,得到数个句子;
S22.将数个句子中连续的两个句子输入到基于BERT的神经网络中进行实体识别,得到实体;
S23.基于规则的关系抽取算法匹配文本,判断文本中是否出现已有的规则,若是,则通过规则提取出实体间的关系;
S24.通过得到的实体和关系,并结合实体的附加信息构建行业知识图谱。
5.根据权利要求4所述的一种基于跨模态监督的行业知识图谱实体对齐方法,其特征在于,所述步骤S24中构建行业知识图谱,表示为:
G=(E,R,T,S)
其中,G表示知识图谱;E、R表示实体和关系;T表示三元组;S表示实体的附加信息。
6.根据权利要求1所述的一种基于跨模态监督的行业知识图谱实体对齐方法,其特征在于,所述步骤S3中实体的结构特征表示为:
其中,表示实体的结构特征;ei表示实体;/>表示实体的初始嵌入;/>表示第l层的嵌入表示。
7.根据权利要求6所述的一种基于跨模态监督的行业知识图谱实体对齐方法,其特征在于,所述步骤S3中实体的关系,表示为:
其中,αijk表示权重系数;vT表示一个可训练向量的转置;hrk表示规范化后的向量;ej表示实体;表示实体ei的相邻实体集;rk表示实体之间的关系;Rij表示ei和ej的关系集。
8.根据权利要求3所述的一种基于跨模态监督的行业知识图谱实体对齐方法,其特征在于,所述步骤S4包括:
S41.利用BERT模型对与行业相关的文字描述进行匹配;
S42.基于ResNet50模型获取保存的实体图片相对应的视觉嵌入;
S43.采用双向最近邻搜索法,建立文字和图片的高置信度样本的实体样本,并更新图谱结构,实现实体与实体之间的对齐。
9.根据权利要求8所述的一种基于跨模态监督的行业知识图谱实体对齐方法,其特征在于,所述步骤S41中BERT模型表示为:
其中,表示得到的文字模块表示;mBERT表示将实体嵌入到m层BERT模型中。
10.根据权利要求8所述的一种基于跨模态监督的行业知识图谱实体对齐方法,其特征在于,所述步骤S42中ResNet50模型表示为:
其中,表示得到的视觉模块表示;ResNet是一种视觉嵌入模型。
CN202310954581.1A 2023-08-01 2023-08-01 一种基于跨模态监督的行业知识图谱实体对齐方法 Pending CN117235273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310954581.1A CN117235273A (zh) 2023-08-01 2023-08-01 一种基于跨模态监督的行业知识图谱实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310954581.1A CN117235273A (zh) 2023-08-01 2023-08-01 一种基于跨模态监督的行业知识图谱实体对齐方法

Publications (1)

Publication Number Publication Date
CN117235273A true CN117235273A (zh) 2023-12-15

Family

ID=89097440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310954581.1A Pending CN117235273A (zh) 2023-08-01 2023-08-01 一种基于跨模态监督的行业知识图谱实体对齐方法

Country Status (1)

Country Link
CN (1) CN117235273A (zh)

Similar Documents

Publication Publication Date Title
US20230106873A1 (en) Text extraction method, text extraction model training method, electronic device and storage medium
JP2022056316A (ja) 文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US11361188B2 (en) Method and apparatus for optimizing tag of point of interest
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN113360699B (zh) 模型训练方法和装置、图像问答方法和装置
CN111368049A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN110781672B (zh) 基于机器智能的题库生产方法及系统
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN116543404A (zh) 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质
CN111930894A (zh) 长文本匹配方法及装置、存储介质、电子设备
US20230008897A1 (en) Information search method and device, electronic device, and storage medium
CN115203507A (zh) 一种面向文书领域的基于预训练模型的事件抽取方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN114612921A (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN116089645A (zh) 一种基于层次化风格的条件文本-电商图片检索方法和系统
US20240119716A1 (en) Method for multimodal emotion classification based on modal space assimilation and contrastive learning
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN117235273A (zh) 一种基于跨模态监督的行业知识图谱实体对齐方法
CN115587192A (zh) 关系信息抽取方法、设备及计算机可读存储介质
CN115563976A (zh) 文本预测方法、用于文本预测的模型建立方法及装置
CN114065769A (zh) 情感原因对抽取模型的训练方法、装置、设备及介质
CN114398903A (zh) 意图识别方法、装置、电子设备及存储介质
CN115080705B (zh) 基于双模型增强的垂直领域关系抽取方法及系统
CN117079288B (zh) 一种识别场景中文字语义的关键信息提取方法及模型
CN118155231B (zh) 文档的识别方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination