CN116361490A - 基于图神经网络的实体与关系抽取方法、系统、电子设备 - Google Patents

基于图神经网络的实体与关系抽取方法、系统、电子设备 Download PDF

Info

Publication number
CN116361490A
CN116361490A CN202310645166.8A CN202310645166A CN116361490A CN 116361490 A CN116361490 A CN 116361490A CN 202310645166 A CN202310645166 A CN 202310645166A CN 116361490 A CN116361490 A CN 116361490A
Authority
CN
China
Prior art keywords
text
vocabulary
extracted
relation
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310645166.8A
Other languages
English (en)
Other versions
CN116361490B (zh
Inventor
梁泽雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202310645166.8A priority Critical patent/CN116361490B/zh
Publication of CN116361490A publication Critical patent/CN116361490A/zh
Application granted granted Critical
Publication of CN116361490B publication Critical patent/CN116361490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于图神经网络的实体与关系抽取方法、系统、电子设备,首先将待抽取文本转换为序列结构特征,再通过图神经网络为待抽取文本建立四种类型的边以形成关于待抽取文本的图结构信息的关联矩阵,并将关联矩阵与序列结构特征相融合以获取融合序列结构与图结构的文本语义特征,而后通过预设的文本解码模块对文本语义特征进行解码计算以获取待抽取文本的上下文语义表示,再通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系,能够更好地将图结构特征与序列结构特征结合起来,既同时保持文本序列结构特征,又同时获取了图结构特征,减少了文本的语义信息的缺失。

Description

基于图神经网络的实体与关系抽取方法、系统、电子设备
技术领域
本发明涉及人工智能技术领域,更为具体地,涉及一种基于图神经网络的实体与关系抽取方法、系统、电子设备。
背景技术
命名实体识别和关系抽取任务是自然语言处理领域的研究热点,它是大规模知识图谱构建的基本要素。
现在的命名实体识别和关系抽取方法大多将命名实体识别和关系抽取分为两个单独的子任务,先对输入文本进行命名实体识别,抽取文本中的实体信息,然后再进行关系分类,从而获得实体和关系三元组,该种方式构建流程比较复杂,且原有的模型过多考虑文本的序列结构特征,忽略了文本的图结构特征,致使实体与关系抽取精度不高。
因此,亟需一种能够同时实现对输入文本的命名实体和关系的抽取,能够将图结构特征与序列结构特征结合起来,保持文本序列结构特征又同时获取了图结构特征,减少文本的语义信息的缺失,提高适配性的基于图神经网络的实体与关系抽取方法、系统、电子设备。
发明内容
鉴于上述问题,本发明的目的是提供一种基于图神经网络的实体与关系抽取方法,以解决现有方法大多将命名实体识别和关系抽取分为两个单独的子任务,先对输入文本进行命名实体识别,抽取文本中的实体信息,然后再进行关系分类,从而获得实体和关系三元组,该种方式构建流程比较复杂,且原有的模型过多考虑文本的序列结构特征,忽略了文本的图结构特征,致使实体与关系抽取精度不高的问题。
本发明提供的一种基于图神经网络的实体与关系抽取方法,其中,包括:
将待抽取文本输入至预设的文本编码模块中,使所述文本编码模块中的词向量层将所述待抽取文本转换为稀疏向量,并使所述文本编码模块中的LSTM层对所述稀疏向量进行特征提取以获取关于所述待抽取文本的序列结构特征;
将所述序列结构输入至预训练的图神经网络中,以使所述图神经网络为所述待抽取文本建立四种类型的边以形成关于所述待抽取文本的图结构信息的关联矩阵,并将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征;
通过预设的文本解码模块对所述文本语义特征进行解码计算以获取所述待抽取文本的上下文语义表示;
通过实体与关系生成模块对所述上下文语义表示进行线性映射以获取文本词汇和所述文本词汇之间的词汇关系,并通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系。
优选地,将所述待抽取文本转换为稀疏向量的步骤,包括:
锁定所述待抽取文本中携带的词实体;
在预设的词汇表中对照所述词实体以获取与所述词实体对应的数字ID;所述词汇表中存储有各个词实体和对应的预定义的关系类型;所述关系类型对应有相应的数字ID;
根据所述数字ID将所述待抽取文本中的各个词实体转换为相应的预设维度的稀疏向量。
优选地,为所述待抽取文本建立四种类型的边以形成关于所述待抽取文本的图结构信息的关联矩阵的步骤,包括:
遍历所述待抽取文本将所述待抽取文本划分为n个单个词;
为所述n个单个词建立
Figure SMS_1
的方形矩阵,并为所述方形矩阵进行四种类型的边分类以形成关联矩阵;所述四种类型的边分类包括自连接边类型、前向连接边类型、后向连接边类型、句法依赖权边类型;其中,将所述方形矩阵中自连接边类型的数值设置为第一数值,将所述方形矩阵中前向连接边类型的数值设置为第二数值,将所述方形矩阵中的后向连接边类型设置为第三数值,若所述待抽取文本中存在语法结构,则将所述方形矩阵中句法依赖权边类型设置为第四数值。
优选地,若所述方形矩阵中不存在四种类型的边,则将所述关联矩阵设置为0。
优选地,将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征的步骤,包括:
将所述序列结构特征与所述关联矩阵、预设的第一可学习权重矩阵相乘获取第一乘积,并通过第一激活函数对所述第一乘积进行数据处理以形成r门控隐状态特征表示;将所述序列结构特征与所述关联矩阵、预设的第二可学习矩阵相乘以获取第二乘积,并通过第二激活函数对所述第二乘积进行数据处理以形成z门控隐状态特征表示;
基于所述r门控隐特征表示和所述z门控隐特征表示获取H门控隐特征表示;
对所述H门控隐特征表示进行形式转换以作为融合序列结构与图结构的文本语义特征。
优选地,对所述文本语义特征进行解码计算以获取所述待抽取文本的上下文语义表示的步骤,包括:
对所述文本语义特征进行解码以获取目标词的隐状态向量表示;所述目标词包括文本词汇和词汇关系;
通过预设的Luong-attention算法对所述隐状态向量表示进行比较和归一化操作以生成目标词的上下文语义表示。
优选地,通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系的步骤,包括:
通过概率计算函数计算各个文本词汇与所述词汇关系的概率;
按照概率对所述文本词汇与所述词汇关系进行排列,以挑选概率超过预设阈值的文本词汇和词汇关系;
依据预设的清洗规则在所述文本词汇和所述词汇关系中剔除不合规的文本词汇和词汇关系三元组,以将剔除后所剩余的文本词汇和词汇关系三元组作为抽取的实体与关系。
优选地,所述清洗规则为:
包含特殊符号的文本词汇和词汇关系三元组、仅包含一个文本词汇或不包含文本词汇的文本词汇和词汇关系三元组。
本发明还提供一种基于图神经网络的实体与关系抽取系统,实现如前所述的基于图神经网络的实体与关系抽取方法,包括:
文本编码模块,所述文本编码模块包括词向量层和LSTM层;其中,所述词向量层用于将输入文本编码模块的待抽取文本转换为稀疏向量;所述LSTM层用于对所述稀疏向量进行特征提取以获取关于所述待抽取文本的序列结构特征;
图神经网络,用于为所述待抽取文本建立四种类型的边以形成关于所述待抽取文本的图结构信息的关联矩阵,并将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征;
文本解码模块,用于对所述文本语义特征进行解码计算以获取所述待抽取文本的上下文语义表示;
实体与关系生成模块,用于对所述上下文语义表示进行线性映射以获取文本词汇和所述文本词汇之间的词汇关系,并通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系。
本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前所述的基于图神经网络的实体与关系抽取方法中的步骤。
从上面的技术方案可知,本发明提供的基于图神经网络的实体与关系抽取方法,首先将待抽取文本转换为序列结构特征,再通过使图神经网络为待抽取文本建立四种类型的边以形成关于待抽取文本的图结构信息的关联矩阵,并将关联矩阵与序列结构特征相融合以获取融合序列结构与图结构的文本语义特征,而后通过预设的文本解码模块对文本语义特征进行解码计算以获取待抽取文本的上下文语义表示,再通过概率计算函数计算各个文本词汇与词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系,不仅能够同时获取实体和实体关系,且通过使图神经网络为待抽取文本建立四种类型的边以形成关于待抽取文本的图结构信息的关联矩阵,而后将关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征,能够更好地将图结构特征与序列结构特征结合起来,既同时保持文本序列结构特征,又同时获取了图结构特征,减少了文本的语义信息的缺失。
附图说明
通过参考以下结合附图的说明书内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的基于图神经网络的实体与关系抽取方法的流程图;
图2为根据本发明实施例的基于图神经网络的实体与关系抽取方法中的模型示意图;
图3为根据本发明实施例的基于图神经网络的实体与关系抽取方法中文本编码模块的示意图;
图4为根据本发明实施例的基于图神经网络的实体与关系抽取系统的示意图;
图5为根据本发明实施例的电子设备的示意图。
具体实施方式
现在的命名实体识别和关系抽取方法大多将命名实体识别和关系抽取分为两个单独的子任务,先对输入文本进行命名实体识别,抽取文本中的实体信息,然后再进行关系分类,从而获得实体和关系三元组,该种方式构建流程比较复杂,且原有的模型过多考虑文本的序列结构特征,忽略了文本的图结构特征,致使实体与关系抽取精度不高。
针对上述问题,本发明提供一种基于图神经网络的实体与关系抽取方法、系统、电子设备,以下将结合附图对本发明的具体实施例进行详细描述。
为了说明本发明提供的基于图神经网络的实体与关系抽取方法、系统、电子设备,图1、图2、图3、图4、图5对本发明实施例的进行了示例性标示。
以下示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论,但在适当情况下,所述技术和设备应当被视为说明书的一部分。
如图1、图2、图3共同所示,本发明实施例的基于图神经网络的实体与关系抽取方法,包括:
S1:将待抽取文本输入至预设的文本编码模块中,使所述文本编码模块中的词向量层将所述待抽取文本转换为稀疏向量,并使所述文本编码模块中的LSTM层对所述稀疏向量进行特征提取以获取关于所述待抽取文本的序列结构特征;
S2:将所述序列结构输入至预训练的图神经网络中,以使所述图神经网络为所述待抽取文本建立四种类型的边以形成关于所述待抽取文本的图结构信息的关联矩阵,并将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征;
S3:通过预设的文本解码模块对所述文本语义特征进行解码计算以获取所述待抽取文本的上下文语义表示;
S4:通过实体与关系生成模块对所述上下文语义表示进行线性映射以获取文本词汇和所述文本词汇之间的词汇关系,并通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系。
在图1、图2、图3共同所示的实施例中,步骤S1为将待抽取文本输入至预设的文本编码模块中,使所述文本编码模块中的词向量层将所述待抽取文本转换为稀疏向量,并使所述文本编码模块中的LSTM层对所述稀疏向量进行特征提取以获取关于所述待抽取文本的序列结构特征的过程;其中,将所述待抽取文本转换为稀疏向量的步骤,包括:
S11:锁定所述待抽取文本中携带的词实体;
S12:在预设的词汇表中对照所述词实体以获取与所述词实体对应的数字ID;所述词汇表中存储有各个词实体和对应的预定义的关系类型;所述关系类型对应有相应的数字ID;
S13:根据所述数字ID将所述待抽取文本中的各个词实体转换为相应的预设维度的稀疏向量。
更为具体的,步骤S1即首先预先建立由每个词(里面包含要抽取的实体)、预定义的关系类型组成的的词汇表,将待抽取文本转换为词实体,即将文本拆分为词,而后将待抽取文本中的每个词通过建立的词汇表映射成相应的数字id号,然后通过词向量层将输入的文本转换成固定维度的稀疏向量。在对文本编码模块进行训练的阶段,其数据输入的是一个段落的文本内容(文本内容包含要抽取的实体)和这个段落的文本内容里对应的实体和关系类型三元组(例如:实体1 – 实体2 – 对应的关系类型:(北京,中国,首都)),在训练阶段模型不断学习、优化模型权重参数,每个词实体对应有相应的关系类型,各个关系类型又对应有相应的数字ID;在文本编码模块的使用阶段即可输入的是一个段落的文本内容,输出的内容是实体和关系三元组;然后将获得的固定维度的稀疏向量通过双向的LSTM(Bi-LSTM)获得输入文本的序列结构特征。
在本实施例中,步骤S2为将所述序列结构输入至预训练的图神经网络中,以使所述图神经网络为所述待抽取文本建立四种类型的边以形成关于所述待抽取文本的图结构信息的关联矩阵,并将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征的过程;其中,为所述待抽取文本建立四种类型的边以形成关于所述待抽取文本的图结构信息的关联矩阵的步骤,包括:
S211:遍历所述待抽取文本将所述待抽取文本划分为n个单个词;
S212:为所述n个单个词建立
Figure SMS_2
的方形矩阵,并为所述方形矩阵进行四种类型的边分类以形成关联矩阵;所述四种类型的边分类包括自连接边类型、前向连接边类型、后向连接边类型、句法依赖权边类型;其中,将所述方形矩阵中自连接边类型的数值设置为第一数值,将所述方形矩阵中前向连接边类型的数值设置为第二数值,将所述方形矩阵中的后向连接边类型设置为第三数值,若所述待抽取文本中存在语法结构,则将所述方形矩阵中句法依赖权边类型设置为第四数值。
在本实施例中,若所述方形矩阵中不存在四种类型的边,则将所述关联矩阵设置为0。
具体的,步骤S2即将步骤S1获取的序列结构特征通过图神经网络模块、关联矩阵,将获得同时融合文本的序列结构特征和图结构特征的文本语义特征。关联矩阵是用于图神经网络用于捕获文本图结构信息的可学习权重矩阵,本专利通过建立四种类型的边来将序列结构信息与图结构信息融合起来,减少输入文本的信息丢失。假如输入的文本内容为100个词,则关联矩阵的的大小为
Figure SMS_3
的矩阵;其中本实施例中的第一数值、第二数值、第三数值和第四数值不做具体限制,为了便于说明,在本具体实施例中,该第一数值设置为2,第二数值设置为3,第三数值设置为4,第四数值也设置为2,即关联矩阵变现为:
1):自连接边类型设置为2,即
Figure SMS_4
矩阵左对角线的值设置为2(矩阵横和列都相等);
2):前向连接边类型设置为3: 即
Figure SMS_5
矩阵对角线上移一移一行对应的值设置为3;
3):后向连接边类型设置为4: 即
Figure SMS_6
矩阵对角线下移一行对应的值设置为4;
4):句法依懒权边类型设置为2: 将输入文本通过句法分析工具获得词与词之间的依懒关值;
5)输入文本没有上述关系边类型(不存在四种类型的边)设置为0;
因此,建立的关联矩阵P可定义为:
Figure SMS_7
其中,D==1表示第m个词和第n个词两者存在相应句法依赖关系类型的边,而后将建立的关联矩阵和序列结构特征结合起来,如此通过建立四种类型的边来将序列结构信息与图结构信息融合起来,减少输入文本的信息丢失。
将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征的步骤,包括:
S221:将所述序列结构特征与所述关联矩阵、预设的第一可学习权重矩阵相乘获取第一乘积,并通过第一激活函数对所述第一乘积进行数据处理以形成r门控隐状态特征表示;将所述序列结构特征与所述关联矩阵、预设的第二可学习矩阵相乘以获取第二乘积,并通过第二激活函数对所述第二乘积进行数据处理以形成z门控隐状态特征表示:
Figure SMS_8
(1)
Figure SMS_9
(2)
Figure SMS_10
(3);
S222:基于所述r门控隐特征表示和所述z门控隐特征表示获取H门控隐特征表示;即:
Figure SMS_11
(4)
Figure SMS_12
(5)
其中,上述公式中的参数(符号)的释义如下:
Figure SMS_13
Figure SMS_14
S223:对所述H门控隐特征表示进行形式转换以作为融合序列结构与图结构的文本语义特征。
如此,图神经网络模块中的图神经网络能更好地将序列结构特征与图结构特征结合起来,比原有的图神经网络获得更好的效果。
步骤S3为通过预设的文本解码模块对所述文本语义特征进行解码计算以获取所述待抽取文本的上下文语义表示的过程,其中,对所述文本语义特征进行解码计算以获取所述待抽取文本的上下文语义表示的步骤,包括:
S31:对所述文本语义特征进行解码以获取目标词的隐状态向量表示;所述目标词包括文本词汇和词汇关系;
S32:通过预设的Luong-attention算法对所述隐状态向量表示进行比较和归一化操作以生成目标词的上下文语义表示。
即在步骤S2获取文本语义特征之后,由步骤S3进行解码工作以生成目标词(文本词汇和词汇关系)的上下文语义表示。
步骤S4为通过实体与关系生成模块对所述上下文语义表示进行线性映射以获取文本词汇和所述文本词汇之间的词汇关系,并通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系的过程;其中,通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系的步骤,包括:
S41:通过概率计算函数计算各个文本词汇与所述词汇关系的概率;
S42:按照概率对所述文本词汇与所述词汇关系进行排列,以挑选概率超过预设阈值的文本词汇和词汇关系;
S43:依据预设的清洗规则在所述文本词汇和所述词汇关系中剔除不合规的文本词汇和词汇关系三元组,以将剔除后所剩余的文本词汇和词汇关系三元组作为抽取的实体与关系。
其中,所述清洗规则为:
包含特殊符号的文本词汇和词汇关系三元组、仅包含一个文本词汇或不包含文本词汇的文本词汇和词汇关系三元组。
具体的,在本实施例中,在获得上下文语义特征后,采用一个线性变换层来对上下文语义特征进行线性映射,将生成的每个词(文本词汇)映射的维度为:
Figure SMS_15
。 其中,V为词汇表的大小,D为第一个词的上下文语义特征维度的大小,而后再通过softmax函数得到生成文本每个词的概率分布,最后通过每个词在词汇表的最大概率值来获得生成的文本词汇和词汇关系,再对一些不合规范的文本词汇和词汇关系进行清洗,最后获得输入文本的实体和关系类型,文本词汇和词汇关系的合规三元组为实体1(文本词汇1)-词汇关系-实体2(文本词汇2),比如输入文本是“北京是中国的首都”,那么合规的三元组应该是“北京”-首都-“中国”;不合规的实体和关系三元组指的是抽取的三元组为以下情况:1)三元组中,实体为空缺(实体1空缺、实体2空缺、实体1和实体2皆空缺);2)三元组中,实体为一些特殊符号;在清洗完成后剩下的合规的三元组即为最终抽取的实体和关系。
如上所述,本发明提供的基于图神经网络的实体与关系抽取方法,首先将待抽取文本转换为序列结构特征,再通过使图神经网络为所述待抽取文本建立四种类型的边以形成关于待抽取文本的图结构信息的关联矩阵,并将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征,而后通过预设的文本解码模块对文本语义特征进行解码计算以获取待抽取文本的上下文语义表示,再通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系,不仅能够同时获取实体和实体关系,且通过使图神经网络为待抽取文本建立四种类型的边以形成关于待抽取文本的图结构信息的关联矩阵,而后将关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征,既同时保持文本序列结构特征,又同时获取了图结构特征,能够同时完成命名实体识别、关系抽取两大任务,为大规模知识图谱构建提供强大的支撑,并且图神经网络应用于基于编码和解码的框架上,模型能够更好地将图结构特征与序列结构特征结合起来,提出的模型既同时保持文本序列结构特征又同时获取了图结构特征,减少了文本的语义信息的缺失减少了文本的语义信息的缺失。
如图4所示,本发明还提供一种基于图神经网络的实体与关系抽取系统100,实现如前所述的基于图神经网络的实体与关系抽取方法,包括:
文本编码模块110,所述文本编码模块包括词向量层和LSTM层;其中,所述词向量层用于将输入文本编码模块的待抽取文本转换为稀疏向量;所述LSTM层用于对所述稀疏向量进行特征提取以获取关于所述待抽取文本的序列结构特征;
图神经网络120,用于为所述待抽取文本建立四种类型的边以形成关于所述待抽取文本的图结构信息的关联矩阵,并将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征;
文本解码模块130,用于对所述文本语义特征进行解码计算以获取所述待抽取文本的上下文语义表示;
实体与关系生成模块140,用于对所述上下文语义表示进行线性映射以获取文本词汇和所述文本词汇之间的词汇关系,并通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系。
该基于图神经网络的实体与关系抽取系统的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不作赘述。
本发明提供的基于图神经网络的实体与关系抽取系统100,通过文本编码模块110将待抽取文本转换为序列结构特征,再通过图神经网络120为待抽取文本建立四种类型的边以形成关于待抽取文本的图结构信息的关联矩阵,并将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征,而后通过预设的文本解码模块130对文本语义特征进行解码计算以获取待抽取文本的上下文语义表示,再利用实体与关系生成模块140通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系,不仅能够同时获取实体和实体关系,且通过使图神经网络为待抽取文本建立四种类型的边以形成关于待抽取文本的图结构信息的关联矩阵,而后将关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征,既同时保持文本序列结构特征,又同时获取了图结构特征,能够同时完成命名实体识别、关系抽取两大任务,为大规模知识图谱构建提供强大的支撑,并且图神经网络应用于基于编码和解码的框架上,模型能够更好地将图结构特征与序列结构特征结合起来,提出的模型既同时保持文本序列结构特征又同时获取了图结构特征,减少了文本的语义信息的缺失减少了文本的语义信息的缺失。
如图5所示,本发明还提供一种电子设备,该电子设备包括:
至少一个处理器;以及,
与至少一个处理器通信连接的存储器;其中,
该存储器存储有可被至少一个处理器执行的计算机程序,该计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的基于图神经网络的实体与关系抽取方法中的步骤。
本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于图神经网络的实体与关系抽取程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
S1:将待抽取文本输入至预设的文本编码模块中,使所述文本编码模块中的词向量层将所述待抽取文本转换为稀疏向量,并使所述文本编码模块中的LSTM层对所述稀疏向量进行特征提取以获取关于所述待抽取文本的序列结构特征;
S2:将所述序列结构输入至预训练的图神经网络中,以使所述图神经网络为所述待抽取文本建立四种类型的边以形成关于所述待抽取文本的图结构信息的关联矩阵,并将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征;
S3:通过预设的文本解码模块对所述文本语义特征进行解码计算以获取所述待抽取文本的上下文语义表示;
S4:通过实体与关系生成模块对所述上下文语义表示进行线性映射以获取文本词汇和所述文本词汇之间的词汇关系,并通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
如上参照附图以示例的方式描述了根据本发明提出的基于图神经网络的实体与关系抽取方法、系统、电子设备。但是,本领域技术人员应当理解,对于上述本发明所提出的基于图神经网络的实体与关系抽取方法、系统、电子设备,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (10)

1.一种基于图神经网络的实体与关系抽取方法,其特征在于,包括:
将待抽取文本输入至预设的文本编码模块中,使所述文本编码模块中的词向量层将所述待抽取文本转换为稀疏向量,并使所述文本编码模块中的LSTM层对所述稀疏向量进行特征提取以获取关于所述待抽取文本的序列结构特征;
将所述序列结构输入至预训练的图神经网络中,以使所述图神经网络为所述待抽取文本建立四种类型的边以形成关于所述待抽取文本的图结构信息的关联矩阵,并将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征;
通过预设的文本解码模块对所述文本语义特征进行解码计算以获取所述待抽取文本的上下文语义表示;
通过实体与关系生成模块对所述上下文语义表示进行线性映射以获取文本词汇和所述文本词汇之间的词汇关系,并通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系。
2.如权利要求1所述的基于图神经网络的实体与关系抽取方法,其特征在于,将所述待抽取文本转换为稀疏向量的步骤,包括:
锁定所述待抽取文本中携带的词实体;
在预设的词汇表中对照所述词实体以获取与所述词实体对应的数字ID;所述词汇表中存储有各个词实体和对应的预定义的关系类型;所述关系类型对应有相应的数字ID;
根据所述数字ID将所述待抽取文本中的各个词实体转换为相应的预设维度的稀疏向量。
3.如权利要求3所述的基于图神经网络的实体与关系抽取方法,其特征在于,为所述待抽取文本建立四种类型的边以形成关于所述待抽取文本的图结构信息的关联矩阵的步骤,包括:
遍历所述待抽取文本将所述待抽取文本划分为n个单个词;
为所述n个单个词建立
Figure QLYQS_1
的方形矩阵,并为所述方形矩阵进行四种类型的边分类以形成关联矩阵;所述四种类型的边分类包括自连接边类型、前向连接边类型、后向连接边类型、句法依赖权边类型;其中,将所述方形矩阵中自连接边类型的数值设置为第一数值,将所述方形矩阵中前向连接边类型的数值设置为第二数值,将所述方形矩阵中的后向连接边类型设置为第三数值,若所述待抽取文本中存在语法结构,则将所述方形矩阵中句法依赖权边类型设置为第四数值。
4.如权利要求3所述的基于图神经网络的实体与关系抽取方法,其特征在于,
若所述方形矩阵中不存在四种类型的边,则将所述关联矩阵设置为0。
5.如权利要求4所述的基于图神经网络的实体与关系抽取方法,其特征在于,将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征的步骤,包括:
将所述序列结构特征与所述关联矩阵、预设的第一可学习权重矩阵相乘获取第一乘积,并通过第一激活函数对所述第一乘积进行数据处理以形成r门控隐状态特征表示;将所述序列结构特征与所述关联矩阵、预设的第二可学习矩阵相乘以获取第二乘积,并通过第二激活函数对所述第二乘积进行数据处理以形成z门控隐状态特征表示;
基于所述r门控隐特征表示和所述z门控隐特征表示获取H门控隐特征表示;
对所述H门控隐特征表示进行形式转换以作为融合序列结构与图结构的文本语义特征。
6.如权利要求5所述的基于图神经网络的实体与关系抽取方法,其特征在于,对所述文本语义特征进行解码计算以获取所述待抽取文本的上下文语义表示的步骤,包括:
对所述文本语义特征进行解码以获取目标词的隐状态向量表示;所述目标词包括文本词汇和词汇关系;
通过预设的Luong-attention算法对所述隐状态向量表示进行比较和归一化操作以生成目标词的上下文语义表示。
7.如权利要求6所述的基于图神经网络的实体与关系抽取方法,其特征在于,通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系的步骤,包括:
通过概率计算函数计算各个文本词汇与所述词汇关系的概率;
按照概率对所述文本词汇与所述词汇关系进行排列,以挑选概率超过预设阈值的文本词汇和词汇关系;
依据预设的清洗规则在所述文本词汇和所述词汇关系中剔除不合规的文本词汇和词汇关系三元组,以将剔除后所剩余的文本词汇和词汇关系三元组作为抽取的实体与关系。
8.如权利要求6所述的基于图神经网络的实体与关系抽取方法,其特征在于,所述清洗规则为:
包含特殊符号的文本词汇和词汇关系三元组、仅包含一个文本词汇或不包含文本词汇的文本词汇和词汇关系三元组。
9.一种基于图神经网络的实体与关系抽取系统,实现如权利要求1-8任一所述的基于图神经网络的实体与关系抽取方法,包括;
文本编码模块,所述文本编码模块包括词向量层和LSTM层;其中,所述词向量层用于将输入文本编码模块的待抽取文本转换为稀疏向量;所述LSTM层用于对所述稀疏向量进行特征提取以获取关于所述待抽取文本的序列结构特征;
图神经网络,用于为所述待抽取文本建立四种类型的边以形成关于所述待抽取文本的图结构信息的关联矩阵,并将所述关联矩阵与所述序列结构特征相融合以获取融合序列结构与图结构的文本语义特征;
文本解码模块,用于对所述文本语义特征进行解码计算以获取所述待抽取文本的上下文语义表示;
实体与关系生成模块,用于对所述上下文语义表示进行线性映射以获取文本词汇和所述文本词汇之间的词汇关系,并通过概率计算函数计算各个文本词汇与所述词汇关系的概率以选择最大概率的文本词汇和词汇关系三元组作为抽取的实体与关系。
10.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一所述的基于图神经网络的实体与关系抽取方法中的步骤。
CN202310645166.8A 2023-06-02 2023-06-02 基于图神经网络的实体与关系抽取方法、系统、电子设备 Active CN116361490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310645166.8A CN116361490B (zh) 2023-06-02 2023-06-02 基于图神经网络的实体与关系抽取方法、系统、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310645166.8A CN116361490B (zh) 2023-06-02 2023-06-02 基于图神经网络的实体与关系抽取方法、系统、电子设备

Publications (2)

Publication Number Publication Date
CN116361490A true CN116361490A (zh) 2023-06-30
CN116361490B CN116361490B (zh) 2023-08-22

Family

ID=86910980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310645166.8A Active CN116361490B (zh) 2023-06-02 2023-06-02 基于图神经网络的实体与关系抽取方法、系统、电子设备

Country Status (1)

Country Link
CN (1) CN116361490B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496542A (zh) * 2023-12-29 2024-02-02 恒生电子股份有限公司 文档信息提取方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874778A (zh) * 2018-06-15 2018-11-23 广东蔚海数问大数据科技有限公司 语义实体关系抽取方法、装置及电子设备
GB201904167D0 (en) * 2019-03-26 2019-05-08 Benevolentai Tech Limited Name entity recognition with deep learning
CN112214996A (zh) * 2020-10-13 2021-01-12 华中科技大学 一种面向科技信息文本的文本摘要生成方法及系统
CN115495552A (zh) * 2022-09-16 2022-12-20 中国人民解放军国防科技大学 基于双通道语义增强的多轮对话回复生成方法及终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874778A (zh) * 2018-06-15 2018-11-23 广东蔚海数问大数据科技有限公司 语义实体关系抽取方法、装置及电子设备
GB201904167D0 (en) * 2019-03-26 2019-05-08 Benevolentai Tech Limited Name entity recognition with deep learning
CN112214996A (zh) * 2020-10-13 2021-01-12 华中科技大学 一种面向科技信息文本的文本摘要生成方法及系统
CN115495552A (zh) * 2022-09-16 2022-12-20 中国人民解放军国防科技大学 基于双通道语义增强的多轮对话回复生成方法及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵克: "基于序列图神经网络的文本分类算法研究", 中国优秀硕士学位论文全文数据库 (信息科技辑), pages 1 - 3 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496542A (zh) * 2023-12-29 2024-02-02 恒生电子股份有限公司 文档信息提取方法、装置、电子设备和存储介质
CN117496542B (zh) * 2023-12-29 2024-03-15 恒生电子股份有限公司 文档信息提取方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN116361490B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
WO2022134759A1 (zh) 关键词生成方法、装置、电子设备及计算机存储介质
CN108629414B (zh) 深度哈希学习方法及装置
CN116361490B (zh) 基于图神经网络的实体与关系抽取方法、系统、电子设备
CN113378970B (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
KR102361616B1 (ko) 문맥 정보를 고려한 개체명 인식 방법 및 장치
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN106778880B (zh) 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
CN114564593A (zh) 多模态知识图谱的补全方法、装置和电子设备
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN115019142B (zh) 基于融合特征的图像标题生成方法、系统、电子设备
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN116521899B (zh) 一种基于改进的图神经网络的文档级关系抽取方法及系统
CN116720525A (zh) 基于问诊数据的疾病辅助分析方法、装置、设备及介质
CN116383766A (zh) 基于多模态数据的辅诊方法、装置、设备及存储介质
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN116468025A (zh) 电子病历结构化方法、装置、电子设备及存储介质
CN113392929B (zh) 一种基于词嵌入与自编码器融合的生物序列特征提取方法
US11301633B2 (en) Technical document issues scanner
CN111259176A (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN116561326B (zh) 基于标签增强的图像文本事件抽取方法、系统、设备
CN116757190B (zh) 一种基于双向树型标注方法的实体关系联合抽取方法
CN116821342A (zh) 文本分类方法、装置、存储介质及计算机设备
CN113870846A (zh) 基于人工智能的语音识别方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant