CN111597341B - 一种文档级关系抽取方法、装置、设备及存储介质 - Google Patents
一种文档级关系抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111597341B CN111597341B CN202010443286.6A CN202010443286A CN111597341B CN 111597341 B CN111597341 B CN 111597341B CN 202010443286 A CN202010443286 A CN 202010443286A CN 111597341 B CN111597341 B CN 111597341B
- Authority
- CN
- China
- Prior art keywords
- vector
- entity
- target entity
- word
- entity pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 215
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000004927 fusion Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文档级关系抽取方法、装置、设备及存储介质,该方法包括:获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;将实体对结合向量输入分类器,得到关系抽取结果。该方法实现提升抽取结果的准确性。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种文档级关系抽取方法、装置、设备及存储介质。
背景技术
目前,机器人通过计算机系统与操作员或程序员进行人机对话,实现对机器人的控制与操作。随着人工智能技术的高速发展,各种各样的智能对话机器人在日常生活的不同领域中大放异彩。自然语言理解作为对话系统的唯一输入接口,对于整个系统的重要性不言而喻。其接受纯文本形式的自然语言,也可通过语音技术将语音转为文字。首先必须经过实体识别和关系抽取将无结构化的数据转化为结构化数据,才能进行后续的意图识别、对话管理和答案生成等步骤。一个性能良好的实体关系抽取模型,对于对话系统中的自然语言理解和知识库的构建起到了至关重要的作用。
句子级别的关系抽取方法只能识别包含两个实体的句子文本,远不能满足实际的工业应用。自此,基于文档级别的多实体关系抽取方法开始进入到了人们的视线当中。但是当前的文档级关系抽取方法仅仅对单个实体对即目标实体本身对进行关系抽取,得到关系抽取结果,单个目标实体对数据比较单一,这样抽取结果的准确性较低。
因此,如何提升抽取结果的准确性是亟待解决的问题。
发明内容
本发明的目的是提供一种文档级关系抽取方法、装置、设备及存储介质,以实现提升抽取结果的准确性。
为解决上述技术问题,本发明提供一种文档级关系抽取方法,该方法包括:
获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;
将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;
将实体对结合向量输入分类器,得到关系抽取结果。
优选的,所述对文档文本进行转换得到目标实体对向量、非目标实体对向量,包括:
对文档文本进行向量转换,生成单词词嵌入向量、单词字符嵌入向量;
从文档文本中识别出单词类型向量、单词共线信息向量;
将单词词嵌入向量、单词字符嵌入向量、单词类型向量、单词共线信息向量进行特征融合,得到融合结果;
将融合结果输入至人工神经网络,输出得到隐层状态向量;
利用隐层状态向量得到目标实体对向量、非目标实体对向量。
优选的,所述利用隐层状态向量得到目标实体对向量、非目标实体对向量,包括:
从文档文本中获取目标实体对、非目标实体对;
利用隐层状态向量对目标实体对和非目标实体对中每一个实体进行计算,得到每一个实体的向量;
对于目标实体对和非目标实体对中每一个实体,将实体的向量和实体的位置嵌入向量进行融合,得到实体的融合向量;
对实体的融合向量进行拼接处理,得到目标实体对向量、非目标实体对向量。
优选的,所述将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量,包括:
基于非目标实体对向量,计算得到上下文实体对信息向量;
将上下文实体对信息向量和目标实体对向量进行结合,得到实体对结合向量。
优选的,上下文实体对信息向量的计算公式如下:
其中,oc为上下文实体对信息向量,m为非目标实体对的个数,αi为权重,oi为非目标实体对向量。
优选的,权重αi的计算公式如下:
其中,g(oi,os)=oiAos,函数g()表示计算上下文关系相对于目标关系的注意力得分,A为训练参数,os为目标实体对向量。
优选的,所述实体对结合向量的计算公式为:
o=[os,oc];
其中,o为实体对结合向量,os为目标实体对向量,oc为上下文实体对信息向量。
本发明还提供一种文档级关系抽取装置,包括:
转换模块,用于获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;
结合模块,用于将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;
输入模块,用于将实体对结合向量输入分类器,得到关系抽取结果。
本发明还提供一种文档级关系抽取设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述的文档级关系抽取方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的文档级关系抽取方法的步骤。
本发明所提供的一种文档级关系抽取方法、装置、设备及存储介质,获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;将实体对结合向量输入分类器,得到关系抽取结果。可见,将目标实体对向量和非目标实体对向量相结合,最后进行关系抽取的数据是目标实体对向量和非目标实体对向量相结合后的数据,这样除了目标实体对即要进行关系预测的实体对之外,还从文档中提取其他实体关系即非目标实体对来辅助目标实体预测,即结合文档中的上下文信息对目标实体进行关系预测,用于关系分析的实体对数据不仅包括目标实体对,还结合了非目标实体对,这样抽取结果的准确性高,实现提升抽取结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明所提供的一种文档级关系抽取方法的流程图;
图2为文档级别关系抽取示意图;
图3为字符嵌入模型图;
图4为词嵌入模型图;
图5为本发明所提供的一种文档级关系抽取装置结构示意图;
图6为本发明所提供的一种文档级关系抽取设备结构示意图。
具体实施方式
本发明的核心是提供一种文档级关系抽取方法、装置、设备及存储介质,以实现提升抽取结果的准确性。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的一种文档级关系抽取方法的流程图,该方法包括以下步骤:
S11:获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;
S12:将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;
S13:将实体对结合向量输入分类器,得到关系抽取结果。
可见,该方法中,将目标实体对向量和非目标实体对向量相结合,最后进行关系抽取的数据是目标实体对向量和非目标实体对向量相结合后的数据,这样除了目标实体对即要进行关系预测的实体对之外,还从文档中提取其他实体关系即非目标实体对来辅助目标实体预测,即结合文档中的上下文信息对目标实体进行关系预测,用于关系分析的实体对数据不仅包括目标实体对,还结合了非目标实体对,这样抽取结果的准确性高,实现提升抽取结果的准确性。
基于上述方法,进一步的,步骤S11中,对文档文本进行转换得到目标实体对向量、非目标实体对向量的过程包括以下步骤:
S21:对文档文本进行向量转换,生成单词词嵌入向量、单词字符嵌入向量;
S22:从文档文本中识别出单词类型向量、单词共线信息向量;
S23:将单词词嵌入向量、单词字符嵌入向量、单词类型向量、单词共线信息向量进行特征融合,得到融合结果;
S24:将融合结果输入至人工神经网络,输出得到隐层状态向量;
S25:利用隐层状态向量得到目标实体对向量、非目标实体对向量。
进一步的,步骤S24中,人工神经网络为双向长短时记忆网络。
在关系抽取任务中,所处理的文档文本的基本单位为句子,其目标是识别出句子中实体之间所存在的关系。关系抽取任务的第一步也是将句子文本转化为向量化表示。在句子S={x1,x2,…,xm}中,xi为句子中第i个单词,设置e1和e2分别为句子中对应的两个实体。为了捕获文本的语法和语义信息,将单词转化为预训练的分布式向量化表示。通过查询预训练的Glove词嵌入矩阵,将句子中的每个单词wi都被转变成低维向量
在步骤S22中,从文档文本中识别出单词共线信息向量,单词共线信息向量即代表共现信息,是共现信息的向量化表示。
关系抽取任务的目的是从朴素文本中识别出实体之间的关系事实。近年来,句子级别的关系抽取模型取得了令人瞩目的成就。但是,句子级别的关系抽取模型在实际应用中存在着不可避免的局限性,大量的关系事实是从多句话中联合表达的。参见图2,图2为文档级别关系抽取示意图,文档级别的文本中提到了多个实体,并且展示了错综复杂的交互。为了确定关系事实<Riddarhuset,country,Sweden>,我们必须首先从文档中第四句话中确定Riddarhuset位于Stockholm这个事实,然后冲文档中第一句话中找出Stockholm是Sweden的首都,Sweden是一个主权国家,最终结合这些已知实例去推断出Riddarhuset的主权国家是Sweden。从上述例子中我们可以看出,文档级别的多实体关系抽取需要对多个句子进行阅读和推理,要远远的复杂于单一实体对的句子级别关系抽取。根据统计,在DocRED文档级数据集中至少有40.7%的关系事实只能从多个句子中提取。这意味着,利用单词在文档中的共现信息对于提升模型性能是至关重要的。
文档文本向量化旨在将自然语言转化为模型能够识别的数字化形式,同时为上层模型提供更多的信息特征,向量特征的质量对模型的整体性能有很大的影响。传统深度学习模型仅依赖词嵌入技术将自然文本转化为矩阵向量,本方法同时结合词嵌入技术和字符嵌入技术将自然文本向量化。给定一个包含n个单词的文档D,每个文档D={s1,s2,…,sk}包含k个句子,每个句子si={x1,x2,…,xp}包含p个单词,每个单词xi={c1,c2,…,cq}包含q个字符。
如图3所示,图3为字符嵌入模型图,在基于字符级别的词嵌入技术中,文档文本首先被随机初始化的字符嵌入矩阵转化为矩阵向量,随后通过长短时记忆网络(LSTM)得到包含上下文信息的特征向量,然后通过卷积神经网络(CNN)抽取向量的局部特征,最后通过最大池化(Max Pooling)操作得到包含全局特征的文本向量表示。
基于步骤S21,详细的,对于单词字符嵌入向量,基于字符级别的文本特征抽取的完整过程见下式:
其中,ci为单词字符嵌入向量,LSTM()和CNN()分别代表长短时记忆网络和卷积神经网络,f()代表随机初始化的字符向量矩阵,代表单词ci中索引值为0的字符,n表示字符的个数。
如图4所示,图4为词嵌入模型图,得到文档文本字符级别的向量化表示后,将字符级别的向量化表示加入到单词级别的特征提取模块中去抽取信息。
在步骤S22中,从文档中识别出单词类型向量rner即命名实体类型,命名实体类型包括人名、地名、组织名、时间、数字、其他和实体别名共七种实体类型。并且还从文档中识别出单词共线信息向量rcor,rcor即为单词共现信息,表示为向量形式,单词共现信息代表标识出相同实体在文档中不同位置的出现。
在步骤S23中,将单词词嵌入向量、单词字符嵌入向量、单词类型向量、单词共线信息向量这四个特征融合在一起。
在步骤S24中,为了充分的提取文本的上下文信息,通过双向长短时记忆网络(Bi-LSTM)提取文本特征,如下式:
hj=BiLSTM[f(xi):ci:rner:rcor]
其中,hj表示隐层状态向量,BiLSTM函数为双向长短时记忆网络,f()代表在预训练的Glove向量矩阵中查找对应的词向量,f(xi)表示单词词嵌入向量,ci为单词字符嵌入向量,rner为单词类型向量,rcor为单词共线信息向量,[:]代表两个向量按照维度方向级联拼接。采用双向长短时记忆网络进行特征提取,最后得到文档文本中每个单词的向量化表示即隐层状态向量hj。
对于包含n个单词的一个文档通过特征提取器将单词编码成隐层状态然后计算实体向量表示,最后通过分类器预测每对实体之间的关系。特征提取器的功能即实现hj的计算公式,为了获得高质量无损的共现信息,将相同实体在文档不同位置的提及聚集在一起,进行实体上下文特征的融合。
在文档中包含一系列的实体其中每个实体vi可以包含一个或多个单词,本发明的目的是从实体对(vi,vj)中识别关系rv∈R。首先将文档D通过Glove词嵌入技术转换为词向量矩阵,然后通过查询初始化位置矩阵将相对位置转化为位置嵌入。
基于步骤S25,进一步的,步骤S25包括以下步骤:
S31:从文档文本中获取目标实体对、非目标实体对;
S32:利用隐层状态向量对目标实体对和非目标实体对中每一个实体进行计算,得到每一个实体的向量;
S33:对于目标实体对和非目标实体对中每一个实体,将实体的向量和实体的位置嵌入向量进行融合,得到实体的融合向量;
S34:对实体的融合向量进行拼接处理,得到目标实体对向量、非目标实体对向量。
基于步骤S32,详细的,对于文档中标识出的命名实体mk,其可能是由多个单词组成的,该实体mk定义见下式:
其中,t和s为实体的起始和终止索引。
一个在文档中被K次提及的实体被计算为mk的加权平均,计算得到结果为目标实体向量ei,计算式如下:
其中,ei为目标实体向量,K和k均表示实体被提及的次数。
基于步骤S33,详细的,把关系抽取任务当做一个多标签分类问题,对于实体对(ei,ej),将词嵌入表示和位置嵌入表示拼接在一起,如下式:
其中,和/>分别为实体对(ei,ej)中两个实体ei、ej的融合向量,dij和dji分别代表两个实体ei、ej在文档中首次出现的索引位置,E(dij)表示实体ei的位置嵌入向量,E(dji)表示实体ej的位置嵌入向量。然后利用双线性函数来预测两个实体之间的类型标签。
文档级别的关系抽取任务的目的依然还是抽取两个实体之间的关系,不同于句子级别关系抽取任务的是,要抽取多个实体对之间的关系。相同实体可能在文档中的多个地方出现,这就导致了多个实体对的关系抽取需要合理的推理。实体对之间的关系预测需要结合文档的上下文。由于文档级别的关系抽取文本规模较大,如何抽取对该实体对有益的上下文信息,摒弃对该实体对无关的上下文信息,也是文档级别的关系抽取过程需要解决的问题,而本方法采用注意力机制,注意力机制可以解决这个问题。
注意力机制起源于人类视觉。人类通过快速扫描当前场景来观察事物,对于突兀目标区域投入更多的注意力资源,以获得更详细的细节信息,忽略冗余无用信息。得益于这种快速筛选有益信息的能力,人类可以在有限的时间内,快速熟悉场景并进行迭代学习。计算机注意力机制与人类注意力机制类似,目标是通过训练学习使得模型具有筛选信息的能力。以图片描述为例,输入为一幅图片,通过模型处理,输出为一句描述该图片的文本信息。例如一幅图片描述的是“一只狗趴在地板上”,模型的输入是原始的图片,模型的输出是根据图片预测出的文本描述。在模型生成文本描述的过程中,当生成单词“狗”的时候,模型对图片区域权重分配将聚焦到狗的周围,也就是说模型会将更多的注意力分配到图片中狗所在的区域。
首先将文档文本标记为属于第一个实体e1,属于第二个实体e2,属于第n个实体en,或者是非实体的单词。使用递归神经网络(RNN)去抽取文档文本的特征,RNN可以灵活的处理任意长度的文档输入,其隐层细胞状态个数n可以随着文本长度的变化而变化。为了生成一个实体对表示,本方法利用LSTM去抽取文本特征。最后,通过实体对向量表示预测标签类型。
基于步骤S12,进一步的,步骤S12包括以下步骤:
S41:基于非目标实体对向量,计算得到上下文实体对信息向量;
S42:将上下文实体对信息向量和目标实体对向量进行结合,得到实体对结合向量。
基于步骤S41,详细的,上下文实体对信息向量的计算公式如下:
其中,oc为上下文实体对信息向量,m为非目标实体对的个数,αi为权重,oi为非目标实体对向量。oi具体代表文档中非目标实体对中的一个上下文实体对向量。为了更加有针对性的利用文档中上下文信息,对oc的计算采用加权求和的方式,对于目标实体对更重要的上下文信息被的分配权重更大,对于目标实体对影响较小的上下文信息被分配的权重较小。
进一步的,权重αi的计算公式如下:
其中,g(oi,os)=oiAos,函数g()表示计算上下文关系相对于目标关系的注意力得分,A为训练参数,os为目标实体对向量。
为了预测目标实体对的关系类型,结合同一句话中的其他上下文关系也是十分有必要的。一些关系类型很可能是同时发生的,而一些实体对又只能存在一个关系。因此,除了目标实体对之外,本方法还从文档中提取其他实体关系来辅助目标实体预测。文档中所有的实体对都是使用相同的特征提取器,这确保了目标关系表示和上下文关系表示是共同学习的。
基于步骤S42,详细的,所述实体对结合向量的计算公式为:
o=[os,oc];
其中,o为实体对结合向量,os为目标实体对向量,oc为上下文实体对信息向量。
基于步骤S13,详细的,先将实体对结合向量o输入分类器,得到分类结果fi,然后进行概率计算,得到概率结果p(r|<e1,e2>,x)即关系抽取结果。通过实体对向量表示预测标签类型,公式表示如下:
fi=yi×o+bi;
其中,fi为分类结果,o为实体对结合向量,yi为权重向量,bi为偏置向量,p(r|<e1,e2>,x)表示分类结果进行概率化的概率结果,nr表示关系类型的个数,r表示关系,<e1,e2>为实体对,x为文档。
本方法利用注意力机制结合文档上下文进行多实体关系分类,能够对文档中的多个实体进行预测分类,能够聚集文档中的共现信息对目标实体对进行指代消歧,然后利用注意力机制提取重要位置的信息,结合文档中的上下文信息进行预测推理,得到的关系抽取结果更加准确。
请参考图5,图5为本发明所提供的一种文档级关系抽取装置结构示意图,用于实现上述方法,该装置包括:
转换模块101,用于获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;
结合模块102,用于将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;
输入模块103,用于将实体对结合向量输入分类器,得到关系抽取结果。
可见,该装置中,将目标实体对向量和非目标实体对向量相结合,最后进行关系抽取的数据是目标实体对向量和非目标实体对向量相结合后的数据,这样除了目标实体对即要进行关系预测的实体对之外,还从文档中提取其他实体关系即非目标实体对来辅助目标实体预测,即结合文档中的上下文信息对目标实体进行关系预测,用于关系分析的实体对数据不仅包括目标实体对,还结合了非目标实体对,这样抽取结果的准确性高,实现提升抽取结果的准确性。
对于本发明提供的文档级关系抽取装置的介绍请参照前述的文档级关系抽取方法的实施例,本发明实施例在此不再赘述。
请参考图6,图6为本发明所提供的一种文档级关系抽取设备结构示意图,该设备包括:
存储器201,用于存储计算机程序;
处理器202,用于执行所述计算机程序时实现如前述实施例中的文档级关系抽取方法的步骤。
对于本发明提供的文档级关系抽取设备的介绍请参照前述的文档级关系抽取方法的实施例,本发明实施例在此不再赘述。
本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述实施例中的文档级关系抽取方法的步骤。
对于本发明提供的计算机可读存储介质的介绍请参照前述的文档级关系抽取方法的实施例,本发明实施例在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种文档级关系抽取方法、装置、设备及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (7)
1.一种文档级关系抽取方法,其特征在于,包括:
获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;
将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;
将实体对结合向量输入分类器,得到关系抽取结果;
其中,所述对文档文本进行转换得到目标实体对向量、非目标实体对向量,包括:
对文档文本进行向量转换,生成单词词嵌入向量、单词字符嵌入向量;
从文档文本中识别出单词类型向量、单词共线信息向量;
将单词词嵌入向量、单词字符嵌入向量、单词类型向量、单词共线信息向量进行特征融合,得到融合结果;
将融合结果输入至人工神经网络,输出得到隐层状态向量;
利用隐层状态向量得到目标实体对向量、非目标实体对向量;
其中,对于单词字符嵌入向量,基于字符级别的文本特征抽取的过程见下式:
其中,ci为单词字符嵌入向量,LSTM()和CNN()分别代表长短时记忆网络和卷积神经网络,f()代表随机初始化的字符向量矩阵,代表单词ci中索引值为0的字符,n表示字符的个数;
其中,通过双向长短时记忆网络提取文本特征,如下式:
hj=BiLSTM[f(xi):ci:rner:rcor]
其中,hj表示隐层状态向量,BiLSTM函数为双向长短时记忆网络,f()代表在预训练的Glove向量矩阵中查找对应的词向量,f(xi)表示单词词嵌入向量,ci为单词字符嵌入向量,rner为单词类型向量,rcor为单词共线信息向量,[:]代表两个向量按照维度方向级联拼接;采用双向长短时记忆网络进行特征提取,最后得到文档文本中每个单词的向量化表示即隐层状态向量hj;
其中,所述利用隐层状态向量得到目标实体对向量、非目标实体对向量,包括:
从文档文本中获取目标实体对、非目标实体对;
利用隐层状态向量对目标实体对和非目标实体对中每一个实体进行计算,得到每一个实体的向量;
对于目标实体对和非目标实体对中每一个实体,将实体的向量和实体的位置嵌入向量进行融合,得到实体的融合向量;
对实体的融合向量进行拼接处理,得到目标实体对向量、非目标实体对向量;
其中,对于文档中标识出的命名实体mk,其可能是由多个单词组成的,该实体mk定义见下式:
其中,t和s为实体的起始和终止索引;
其中,一个在文档中被K次提及的实体被计算为mk的加权平均,计算得到结果为目标实体向量ei,计算式如下:
其中,ei为目标实体向量,K和k均表示实体被提及的次数;
其中,把关系抽取任务当做一个多标签分类问题,对于实体对(ei,ej),将词嵌入表示和位置嵌入表示拼接在一起,如下式:
其中,和/>分别为实体对(ei,ej)中两个实体ei、ej的融合向量,dij和dji分别代表两个实体ei、ej在文档中首次出现的索引位置,E(dij)表示实体ei的位置嵌入向量,E(dji)表示实体ej的位置嵌入向量;然后利用双线性函数来预测两个实体之间的类型标签。
2.如权利要求1所述的方法,其特征在于,所述将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量,包括:
基于非目标实体对向量,计算得到上下文实体对信息向量;
将上下文实体对信息向量和目标实体对向量进行结合,得到实体对结合向量。
3.如权利要求2所述的方法,其特征在于,上下文实体对信息向量的计算公式如下:
其中,oc为上下文实体对信息向量,m为非目标实体对的个数,αi为权重,oi为非目标实体对向量。
4.如权利要求3所述的方法,其特征在于,权重αi的计算公式如下:
其中,g(oi,os)=oiAos,函数g()表示计算上下文关系相对于目标关系的注意力得分,A为训练参数,os为目标实体对向量。
5.如权利要求4所述的方法,其特征在于,所述实体对结合向量的计算公式为:
o=[os,oc];
其中,o为实体对结合向量,os为目标实体对向量,oc为上下文实体对信息向量。
6.一种文档级关系抽取设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的文档级关系抽取方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的文档级关系抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010443286.6A CN111597341B (zh) | 2020-05-22 | 2020-05-22 | 一种文档级关系抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010443286.6A CN111597341B (zh) | 2020-05-22 | 2020-05-22 | 一种文档级关系抽取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597341A CN111597341A (zh) | 2020-08-28 |
CN111597341B true CN111597341B (zh) | 2024-01-26 |
Family
ID=72186383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010443286.6A Active CN111597341B (zh) | 2020-05-22 | 2020-05-22 | 一种文档级关系抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597341B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487143B (zh) * | 2020-11-30 | 2022-11-18 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
WO2024021343A1 (zh) * | 2022-07-29 | 2024-02-01 | 苏州思萃人工智能研究所有限公司 | 自然语言处理方法、计算机设备、可读存储介质和程序产品 |
CN116029294B (zh) * | 2023-03-30 | 2023-06-09 | 华南师范大学 | 词项配对方法、装置及设备 |
CN117290510B (zh) * | 2023-11-27 | 2024-01-30 | 浙江太美医疗科技股份有限公司 | 文档信息抽取方法、模型、电子设备及可读介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073711A (zh) * | 2017-12-21 | 2018-05-25 | 北京大学深圳研究生院 | 一种基于知识图谱的关系抽取方法和系统 |
CN108563653A (zh) * | 2017-12-21 | 2018-09-21 | 清华大学 | 一种用于知识图谱中知识获取模型的构建方法及系统 |
CN109522557A (zh) * | 2018-11-16 | 2019-03-26 | 中山大学 | 文本关系抽取模型的训练方法、装置及可读存储介质 |
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
CN109800310A (zh) * | 2018-12-03 | 2019-05-24 | 国网浙江省电力有限公司杭州供电公司 | 一种基于结构化表达的电力运维文本分析方法 |
CN110059320A (zh) * | 2019-04-23 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 实体关系抽取方法、装置、计算机设备和存储介质 |
CN110196978A (zh) * | 2019-06-04 | 2019-09-03 | 重庆大学 | 一种关注关联词的实体关系抽取方法 |
CN110196913A (zh) * | 2019-05-23 | 2019-09-03 | 北京邮电大学 | 基于文本生成式的多实体关系联合抽取方法和装置 |
CN110263019A (zh) * | 2019-06-18 | 2019-09-20 | 中南民族大学 | 实体关系抽取模型的构建方法、装置和存储介质 |
CN110263324A (zh) * | 2019-05-16 | 2019-09-20 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
CN110580340A (zh) * | 2019-08-29 | 2019-12-17 | 桂林电子科技大学 | 一种基于多注意力机制的神经网络关系抽取方法 |
CN110598001A (zh) * | 2019-08-05 | 2019-12-20 | 平安科技(深圳)有限公司 | 联合实体关系抽取方法、装置及存储介质 |
CN110852066A (zh) * | 2018-07-25 | 2020-02-28 | 清华大学 | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 |
CN110866124A (zh) * | 2019-11-06 | 2020-03-06 | 北京诺道认知医学科技有限公司 | 基于多数据源的医学知识图谱融合方法及装置 |
WO2020065326A1 (en) * | 2018-09-26 | 2020-04-02 | Benevolentai Technology Limited | Hierarchical relationship extraction |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
-
2020
- 2020-05-22 CN CN202010443286.6A patent/CN111597341B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563653A (zh) * | 2017-12-21 | 2018-09-21 | 清华大学 | 一种用于知识图谱中知识获取模型的构建方法及系统 |
CN108073711A (zh) * | 2017-12-21 | 2018-05-25 | 北京大学深圳研究生院 | 一种基于知识图谱的关系抽取方法和系统 |
CN110852066A (zh) * | 2018-07-25 | 2020-02-28 | 清华大学 | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 |
WO2020065326A1 (en) * | 2018-09-26 | 2020-04-02 | Benevolentai Technology Limited | Hierarchical relationship extraction |
CN109522557A (zh) * | 2018-11-16 | 2019-03-26 | 中山大学 | 文本关系抽取模型的训练方法、装置及可读存储介质 |
CN109800310A (zh) * | 2018-12-03 | 2019-05-24 | 国网浙江省电力有限公司杭州供电公司 | 一种基于结构化表达的电力运维文本分析方法 |
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
CN110059320A (zh) * | 2019-04-23 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 实体关系抽取方法、装置、计算机设备和存储介质 |
CN110263324A (zh) * | 2019-05-16 | 2019-09-20 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
CN110196913A (zh) * | 2019-05-23 | 2019-09-03 | 北京邮电大学 | 基于文本生成式的多实体关系联合抽取方法和装置 |
CN110196978A (zh) * | 2019-06-04 | 2019-09-03 | 重庆大学 | 一种关注关联词的实体关系抽取方法 |
CN110263019A (zh) * | 2019-06-18 | 2019-09-20 | 中南民族大学 | 实体关系抽取模型的构建方法、装置和存储介质 |
CN110598001A (zh) * | 2019-08-05 | 2019-12-20 | 平安科技(深圳)有限公司 | 联合实体关系抽取方法、装置及存储介质 |
CN110580340A (zh) * | 2019-08-29 | 2019-12-17 | 桂林电子科技大学 | 一种基于多注意力机制的神经网络关系抽取方法 |
CN110866124A (zh) * | 2019-11-06 | 2020-03-06 | 北京诺道认知医学科技有限公司 | 基于多数据源的医学知识图谱融合方法及装置 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
Non-Patent Citations (3)
Title |
---|
基于远程监督的藏文实体关系抽取;王丽客;孙媛;夏天赐;;中文信息学报(第03期);全文 * |
林如琦 ; 陈锦秀 ; 杨肖方 ; 许红磊 ; .多信息融合中文关系抽取技术研究.厦门大学学报(自然科学版).(第03期),全文. * |
深度学习实体关系抽取研究综述;鄂海红;张文静;肖思琪;程瑞;胡莺夕;周筱松;牛佩晴;;软件学报(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111597341A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021233112A1 (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
Niu et al. | A review on the attention mechanism of deep learning | |
CN111597341B (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN111984766B (zh) | 缺失语义补全方法及装置 | |
CN112487182A (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN113987187A (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN109741824A (zh) | 一种基于机器学习的医疗问诊方法 | |
CN116385937B (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN111597815A (zh) | 一种多嵌入命名实体识别方法、装置、设备及存储介质 | |
CN110597968A (zh) | 一种回复选择方法及装置 | |
CN113255360A (zh) | 基于层次化自注意力网络的文档评级方法和装置 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN114417823A (zh) | 一种基于句法和图卷积网络的方面级情感分析方法及装置 | |
CN110633363B (zh) | 一种基于nlp和模糊多准则决策的文本实体推荐方法 | |
CN116956925A (zh) | 电子病历命名实体识别方法和装置、电子设备及存储介质 | |
CN116822513A (zh) | 一种融合实体类型与关键词特征的命名实体识别方法 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN115712869A (zh) | 基于分层注意力网络的多模态谣言检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |