CN115374786A - 实体和关系联合抽取方法及装置、存储介质和终端 - Google Patents
实体和关系联合抽取方法及装置、存储介质和终端 Download PDFInfo
- Publication number
- CN115374786A CN115374786A CN202211056456.0A CN202211056456A CN115374786A CN 115374786 A CN115374786 A CN 115374786A CN 202211056456 A CN202211056456 A CN 202211056456A CN 115374786 A CN115374786 A CN 115374786A
- Authority
- CN
- China
- Prior art keywords
- entity
- representation
- word vector
- text data
- candidate entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种实体和关系联合提取方法及装置、存储介质和终端,其中方法使用了训练完成的联合抽取模型,其包括的词向量表示构建模块用于获取文本数据的最终词向量表示;候选实体表示构建模块用于获取最终候选实体表示集;实体分类模块用于获取最终候选实体表示集中每个最终候选实体表示所属实体类型的后验信息;关系表示构建模块用于基于每对实体对所对应的关系表示向量;关系分类模块用于获取每对实体对所属关系类型的后验信息。本发明对显式语义信息和隐式语义信息进行了充分挖掘,有助于模型深度理解实体语义并建立实体间关系,在关系抽取中考虑了全局语义信息和局部上下文长度信息,提升了模型的准确性。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种实体和关系联合提取方法及装置、存储介质和终端。
背景技术
对于自然语言理解而言,仅依靠数据标注和算力投入无法做到精细和深度的语义理解,为了更好地促进自然语言理解的发展,引入先验知识引导自然语言理解成为现阶段的发展趋势。知识是一种将文本结构化存储的方式,目前,这些结构化的知识已经被广泛地应用在搜索引擎、问答系统、机器翻译等场景中。但是,由于知识规模巨大以及人工标注成本昂贵,为了尽可能及时和准确地获取知识信息,研究者们提出了命名实体识别和关系抽取任务。
语义角色标注可以建立句子的谓词和参数之间的依赖关系,这种语义结构信息可以为文本表示提供丰富的语义。但是,目前缺少将语义角色标注信息用于实体和关系联合抽取任务的工作。如果一个词或短语被标记为一个语义角色,它更有可能被标记为一个实体。例如,语义角色标签“ArgM-LOC”包含位置信息,可为“Location”类型的实体抽取提供辅助信息。同时,显式语义信息可以覆盖词之间的语义关系,这对于关系抽取非常有帮助。
除了忽略显式语义信息的引入外,许多现有模型对隐式语义信息的探索也不够充分。在大多数现有模型中,文本的表示向量在实体识别和关系提取中是共享的。然而命名实体识别侧重于挖掘实体的语义信息,而关系提取侧重于挖掘实体对中实体间的局部上下文的语义信息。因此,为了充分挖掘隐式语义信息,需要基于实体和关系联合抽取任务设计更加合理的隐式语义增强方法。
综上所述,现阶段的实体和关系联合抽取方法对于语义信息的利用和挖掘仍然不够充分,以使得命名实体识别和关系抽取不够准确和丰富。
发明内容
本发明所要解决的技术问题是现有的实体和关系联合抽取方法忽略了显式语义信息的引入,且对隐式语义信息的探索也不够充分,以使得其对实体的识别和关系的抽取不够准确和丰富。
为了解决上述技术问题,本发明提供了一种实体和关系联合提取方法,包括:
获取文本数据集,所述文本数据集包括多个文本数据;
基于训练完成的联合抽取模型,对所述文本数据集中每个所述文本数据进行联合抽取,以获取每个所述文本数据中的实体以及实体间的关系;
其中,所述联合抽取模型包括词向量表示构建模块、候选实体表示构建模块、实体分类模块、关系表示构建模块和关系分类模块;
所述词向量表示构建模块,用于基于预训练模型获取文本数据的第一词向量表示和实体全局语义表示,基于语义角色标注获取所述文本数据的第二词向量表示,并将所述第一词向量表示和第二词向量表示进行拼接,以获取所述文本数据的最终词向量表示;
所述候选实体表示构建模块,用于基于所述最终词向量表示获取增强实体隐式语义信息,基于所述增强实体隐式语义信息获取包含任意跨度的初步候选实体集,对所述初步候选实体集中所有所述初步候选实体分别进行最大池化操作,以获取聚合候选实体集,基于所述聚合候选实体集中聚合候选实体、聚合候选实体所属初步候选实体序列长度以及实体全局语义表示,获取最终候选实体表示集;
所述实体分类模块,用于基于所述最终候选实体表示集,通过分类函数获取所述最终候选实体表示集中每个所述最终候选实体表示所属实体类型的后验信息;
所述关系表示构建模块,用于将所述聚合候选实体集中所对应最终候选实体表示所属实体分类为非空的聚合候选实体表示两两进行组合,以形成实体对集,获取每对实体对的全局语义表示和局部语义表示,并基于每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体获取对应关系表示向量;
所述关系分类模块,用于基于每对实体对的关系表示向量,通过分类函数获取每对实体对所属关系类型的后验信息;
其中,所述局部序列长度为所述局部语义表示的序列长度。
优选地,所述词向量表示构建模块,用于基于预训练模型获取文本数据的第一词向量表示和实体全局语义表示,基于语义角色标注获取所述文本数据的第二词向量表示,并将所述第一词向量表示和第二词向量表示进行拼接,以获取所述文本数据的最终词向量表示包括:
将所述文本数据输入到预训练模型中,以获取子词向量表示序列和实体全局语义表示,并将所述子词向量表示序列经过卷积和最大池化以获取第一词向量表示;
将所述文本数据输入到语义角色标注工具中,以获取多个语义角色标注序列,并通过全连接网络将所有所述语义角色标注序列进行聚合,以获取第二词向量表示;
将所述第一词向量表示和第二词向量表示进行拼接融合,以获取所述文本数据的最终词向量表示。
优选地,所述候选实体表示构建模块基于所述最终词向量表示获取增强实体隐式语义信息包括:
将所述最终词向量表示输入到第一双向长短期记忆网络中,以获取增强实体隐式语义信息。
优选地,所述候选实体表示构建模块基于所述聚合候选实体集中聚合候选实体、聚合候选实体所属初步候选实体序列长度以及实体全局语义表示,获取最终候选实体表示集包括:
将所述聚合候选实体集中每个聚合候选实体、所述聚合候选实体所属初步候选实体的序列长度以及实体全局语义表示分别进行拼接,以获取每个所述聚合候选实体对应的最终候选实体表示,基于所有所述最终候选实体表示形成最终候选实体表示集。
优选地,所述分类函数为softmax。
优选地,所述关系表示构建模块获取每对实体对的全局语义表示和局部语义表示,并基于每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体获取对应关系表示向量包括:
将所述最终词向量表示输入到第二双向长短期记忆网络中,以获取增强全局上下文隐式语义信息,基于所述增强全局上下文隐式语义信息获取所述实体对集中所有实体对的局部语义表示,并将所述第二双向长短期记忆网络最后一个隐状态表示作为所述实体对集中所有所述实体对的全局语义表示;
将每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体进行拼接,以获取每对实体对所对应的关系表示向量。
优选地,对联合抽取模型进行训练以获取训练完成的联合抽取模型过程中,其损失函数为:
L=Le+Lr
其中,Le表示所述文本数据所对应所有所述最终候选实体表示所属实体类型的后验信息与实体真实标签的交叉熵损失函数,Lr表示所述文本数据中所有实体对所属关系类型的后验信息与关系真实标签的交叉熵损失函数。
为了解决上述技术问题,本发明还提供了一种实体和关系联合提取装置,其特征在于,包括数据获取模块和实体和关系提取模块;
所述数据获取模块,用于获取文本数据集,所述文本数据集包括多个文本数据;
所述关系提取模块,用于基于训练完成的联合抽取模型,对所述文本数据集中每个所述文本数据进行联合抽取,以获取每个所述文本数据中的实体以及实体间的关系;
其中,所述联合抽取模型包括词向量表示构建模块、候选实体表示构建模块、实体分类模块、关系表示构建模块和关系分类模块;
所述词向量表示构建模块,用于基于预训练模型获取文本数据的第一词向量表示和实体全局语义表示,基于语义角色标注获取所述文本数据的第二词向量表示,并将所述第一词向量表示和第二词向量表示进行拼接,以获取所述文本数据的最终词向量表示;
所述候选实体表示构建模块,用于基于所述最终词向量表示获取增强实体隐式语义信息,基于所述增强实体隐式语义信息获取包含任意跨度的初步候选实体集,对所述初步候选实体集中所有所述初步候选实体分别进行最大池化操作,以获取聚合候选实体集,基于所述聚合候选实体集中聚合候选实体、聚合候选实体所属初步候选实体序列长度以及实体全局语义表示,获取最终候选实体表示集;
所述实体分类模块,用于基于所述最终候选实体表示集,通过分类函数获取所述最终候选实体表示集中每个所述最终候选实体表示所属实体类型的后验信息;
所述关系表示构建模块,用于将所述聚合候选实体集中所对应最终候选实体表示所属实体分类为非空的聚合候选实体表示两两进行组合,以形成实体对集,获取每对实体对的全局语义表示和局部语义表示,并基于每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体获取对应关系表示向量;
所述关系分类模块,用于基于每对实体对的关系表示向量,通过分类函数获取每对实体对所属关系类型的后验信息;
其中,所述局部序列长度为所述局部语义表示的序列长度。
为了解决上述技术问题,本发明还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现实体和关系联合提取方法。
为了解决上述技术问题,本发明还提供了一种终端,包括:处理器以及存储器,所述存储器与所述处理器之间通信连接;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如实体和关系联合提取方法。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
应用本发明实施例提供的实体和关系联合提取方法,在获取词向量表示过程中,借助语义角色标注工具引入显式语义信息,且在实体识别和关系抽取中采用分别编码的方式,针对性地增强隐式语义特征;显式语义信息和隐式语义信息的充分挖掘有助于模型深度理解实体语义并建立实体间关系。在关系抽取中该方法考虑了全局语义信息和局部上下文长度信息,进一步提升了实体和关系联合抽取模型的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1示出了本发明实施例一实体和关系联合提取方法的流程示意图;
图2示出了本发明实施例一实体和关系联合提取方法的过程示意图;
图3示出了本发明实施例一中的PropBank风格的语义角色标注示意图;
图4示出了本发明实施例二实体和关系联合提取装置的结构示意图;
图5示出了本发明实施例四终端的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
命名实体识别是识别文本中特定意义的实体,例如人名、地名、组织等。关系抽取是预测实体之间的关系。最后实体对和关系一起组成三元组,构成结构化的知识信息。在实体和关系联合抽取方法出现之前,大多数研究者均是采用基于管道的方式实现命名实体识别和关系抽取,但该类方法忽视了两个任务之间的关联,并且容易产生级联误差。
最近,BERT、Transformer-XL、RoBERT等预训练模型受到了极大的关注。这些模型通常在大型文档数据上进行预训练,并且它们被转移到具有相对较少监督训练数据的目标任务。在许多自然语言理解任务中,基于预训练模型的工作取得了最佳性能,例如问答、上下文情感检测以及实体和关系联合抽取。尽管这些预训练的语言模型取得了成功,但现有的实体和关系联合提取方法只关注预训练模型提供的文本表示,而忽略了显式语义信息的引入和隐式语义信息的增强。
实施例一
为解决现有技术中存在的技术问题,本发明实施例提供了一种实体和关系联合提取方法。
图1示出了本发明实施例一实体和关系联合提取方法的流程示意图;图2示出了本发明实施例一实体和关系联合提取方法的过程示意图;参考图1和图2所示,本发明实施例实体和关系联合提取方法包括如下步骤。
步骤S101,获取文本数据集。
具体地,文本数据集包括多个文本数据。需进行实体和关系联合提取的文本数据通常均为句子,即本实体和关系联合提取方法实际是用于提取句子中各个实体以及各个实体之间关系的方法。且需要说明的是,文本数据可为中文数据,也可为英文或其他语言的数据。
步骤S102,基于训练完成的联合抽取模型,对文本数据集中每个文本数据进行联合抽取,以获取每个文本数据中的实体以及实体间的关系。
具体地,将文本数据集中的文本数据输入到训练完成的联合抽取模型中,即可获取每个文本数据中的所有实体以及所有实体之间的关系。
进一步地,联合抽取模型包括词向量表示构建模块、候选实体表示构建模块、实体分类模块、关系表示构建模块和关系分类模块。
其中,词向量表示构建模块主要用于获取文本数据的最终词向量表示。具体需先基于预训练模型获取文本数据的第一词向量表示和实体全局语义表示。优选地,预训练模型为BERT预训练模型;且预训练模型需根据大量的模型训练文本数据进行预先训练,训练完成的预训练模型具有强大的捕获语言特征的能力,能够为实体和关系联合抽取提供较为优质的词向量表示。且BERT预训练模型是采用字节对编码方式以解决未登录词的编码问题,因此部分单词会被拆分为子词序列,例如“treehouse”会将其分割为“tree”和“house”,因此一个单词可能会对应多个词向量。进一步文本数据的文本序列X=(x1,x2,...,xn)被传入BERT预训练模型后得到子词向量表示序列和实体全局语义表示CLS。
为了便于和语义角色标签对应,本实施例基于将子词向量表示序列经过一层一维卷积和最大池化处理,以获取第一词向量表示。进一步地,子词向量表示序列中的某个单词xi的卷积过程为:假设单词xi的长度为l,其子词序列表示为(s1,s2,...,sl);单词xi经过一层一维卷积可得ei=W1[BERT(si),BERT(si+1),...,BERT(si+k-1)]+b1,其中k为卷积核大小,W1和b1均是可训练的向量。而后再通过最大池化获取的第一词向量表示为其中ReLU是一种常见的激活函数。
本实施例采用语义角色标注工具获得显式语义信息,具体采用PropBank风格的注释器进行标注,PropBank风格的注释器以单个句子为单位,对句子中的每一个谓词都分析和其相关的局部语义结构。语义结构信息和命名实体识别以及关系抽取任务非常相关,其中时间、地点等信息可以帮助模型更好地抽取实体。施事者与受事者在一定程度上能帮助实体对关系的判断。具体PropBank风格的语义角色标注实例可参考图3所示。语义角色标注是以一句话中的谓语为中心,对句子中的单词分配标签,因为关注的谓语不同,所以得到的语义标签序列也不同。
本实施例针对每个句子选取多个语义角色标注序列,语义角色标注序列的个数范围为3-6。具体文本数据的文本序列X=(x1,x2,...,xn)被传入语义角色标注工具后得到词向量序列表示:由于语义角色标注工具是以句子中的谓词为中心,标注单词和谓词的语义关系。因此,选择的谓词不同,得到的序列标注也不同。为了尽可能充分提取显式语义信息,每个句子可选取五个语义角色标注序列,分别表示为:T1,T2,T3,T4,T5。而后通过全连接网络将五个语义角色标注序列进行聚合,以获取第二词向量表示Ts=W2(T1,T2,...,T5)+b2,其中W2和b2是可训练的向量。
最后将第一词向量表示和第二词向量表示进行拼接融合,以获取文本数据的最终词向量表示Xw=[Xb:Ts]。
命名实体识别非常依赖实体所在的上下文,因为上下文信息不同,字母构成相同的单词表示的含义可能相差巨大,因此除了在词向量表示时增添显式语义信息,本文还在命名实体识别阶段采用双向长短期记忆网络增强文本的隐式的上下文语义信息,进而得到增强的隐式语义信息的实体表示。
候选实体表示构建模块主要用于获取最终候选实体表示集。具体需先将最终词向量表示输入到第一双向长短期记忆网络中,以获取增强实体隐式语义信息。双向长短期记忆网络相较于普通的循环神经网络在一定程度上缓解了梯度消失和梯度爆炸问题,并且和长短期记忆网络相比,其具有捕获双向序列信息的特点。因此,最终词向量表示需先经过双向长短期记忆网络,以获取增强实体隐式语义信息:Xt=Bi-LSTMt(Xw),其中Bi-LSTM表示双向长短期记忆网络。
而后基于增强实体隐式语义信息获取包含任意跨度的初步候选实体集。进一步即分别将跨度设置为任意可能值,且针对每个跨度均需从增强实体隐式语义信息中获取对应跨度状态下所有的初步候选实体,而后将所有跨度下对应的所有初步候选实体集合为初步候选实体集。之后再对初步候选实体集中所有初步候选实体分别进行最大池化操作,以获取聚合候选实体集。其中序列长度为f的初步候选实体可表示为对该初步候选实体进行最大池化操作后所获取的聚合候选实体可表示为et=Maxpooling(Et)。
由于候选实体序列长度对实体类型分类存在一定影响,且BERT编码得到的实体全局语义表示CLS也包含了丰富的上下文信息,因此本实施例将上述两者作为候选实体分类的影响因素之一。进一步在获取聚合候选实体集后,需基于聚合候选实体集中聚合候选实体、聚合候选实体所属初步候选实体序列长度以及实体全局语义表示,获取最终候选实体表示集。进一步由于聚合候选实体具有对应的初步候选实体,初步候选实体均有对应的跨度即序列长度,因此每个聚合候选实体均有一个对应的聚合候选实体所属初步候选实体序列长度。聚合候选实体集中的每个聚合候选实体,均需基于聚合候选实体本体,该聚合候选实体所属初步候选实体序列长度以及实体全局语义表示CLS进行拼接,以获取该聚合候选实体对应的最终候选实体表示。基于聚合候选实体集中所有聚合候选实体所获取所有最终候选实体表示,即形成最终候选实体表示集。
实体分类模块主要用于基于最终候选实体表示集,通过分类函数获取最终候选实体表示集中每个最终候选实体表示所属实体类型的后验信息。优选地,分类函数为Softmax。将最终候选实体表示集中的最终候选实体表示分别输入到分类函数中,以获取所有最终候选实体表示所属实体类型的后验信息。其中最终候选实体表示所属实体类型的后验信息可表示为:其中表示聚合候选实体所属初步候选实体序列长度为f的表示向量,W3和b3是可训练的参数向量。
关系表示构建模块主要用于获取实体对的关系表示向量。具体地,基于每个最终候选实体表示所属实体类型的后验信息即可获知该最终候选实体是否为非空实体。依此选取出聚合候选实体集中所有最终候选实体表示所属实体分类为非空的聚合候选实体表示,而后将所有最终候选实体表示所属实体分类为非空的聚合候选实体表示进行两两组合形成实体对,所有所获取的实体对形成实体对集。
本实施例引入实体对之间的局部语义表示和全局语义表示来预测实体对之间的关系;同时由于实体对距离对于实体对关系的判断也有影响,实体对内间隔越近其构成某些关系的可能性越大,因此在预测实体对之间的关系时,也引入局部序列长度。
具体将最终词向量表示输入到第二双向长短期记忆网络中,以获取增强全局上下文隐式语义信息再基于增强全局上下文隐式语义信息获取实体对集中所有实体对的局部语义表示;其中实体对的局部上下文表示为增强全局上下文隐式语义信息中该实体对中第一个实体的末尾到第二个实体开头的序列,而后将该实体对的局部上下文表示通过最大池化操作聚合进行聚合,以获取局部语义表示,其中,aend表示第一个实体末尾的下标,bstart表示第二个实体开头的下标。而后将第二双向长短期记忆网络最后一个隐状态表示作为实体对集中所有实体对的全局语义表示。其中第二双向长短期记忆网络中为双向长短期记忆网络Bi-LSTM。
最后将每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体进行拼接,以获取每对实体对所对应的关系表示向量。其中局部序列长度为一个实体对中两个实体间的序列长度。
关系分类模块主要用于基于每对实体对的关系表示向量,通过分类函数获取每对实体对所属关系类型的后验信息。优选地,分类函数为Softmax。进一步将每对实体对的关系表示向量分别输入到分类函数中,以获取每对实体对所属关系类型的后验信息。例如实体对ab的所属关系类型的后验信息可表示为:和其中W4、W5、b4和b5分别为可训练的参数向量,且实体对ab之间关系的判定为如果和中任何一个值没有达到阈值α,则认为实体a和实体b之间没有关系。进一步和中任何一个值没有达到阈值α准确理解为:为[a1,a2,a3…an],a1,a2,a3…an分别表示实体对ab之间关系属于第一类、第二类、第三类关系等的可能性,同理表示为[b1,b2,b3…bn],b1,b2,b3…bn表示分别表示实体对ba之间关系属于第一类、第二类、第三类关系等的可能性,选取中最大的类别作为实体对ab之间关系所属类型,并选取中最大的类别作为实体对ba之间关系所属类型,判断ab之间关系所属类型(即中类别最大值)与ba之间关系所属类型(即中类别最大值)是否均未达到阈值α,若是则表示实体a和实体b之间没有关系。阈值α可基于实际情况进行设置,在此不对其进行过多限制。
需要说明的是,无论是在训练过程的联合抽取模型,还是训练完成联合抽取模型在实体以及实体间的关系获取过程中,词向量表示构建模块、候选实体表示构建模块、实体分类模块、关系表示构建模块和关系分类模块均是通过上述工作方式进行工作的。
对联合抽取模型进行训练获取训练完成联合抽取模型的过程包括:
首先需获取训练文本数据集,训练文本数据集包含多个训练文本数据,且每个训练文本数据均包括文本数据以及与文本数据对应的真实标签,文本数据对应的真实标签包括文本数据中的实体标签以及实体之间的关系标签。
而后将训练文本数据集分为多组,以获取多组训练文本数据组。而后基于第M组训练文本数据组对临时联合抽取模型进行训练,并在训练时基于损失函数计算的损失值对临时联合抽取模型中各个参数进行调整,以获取参数更新联合抽取模型。而后判断M是否等于预设阈值,若是则判断当前参数更新联合抽取模型是否符合损失值达到收敛状态,若符合则将当前参数更新联合抽取模型作为训练后的联合抽取模型,若M不等于预设阈值,则M加1,且需重新基于第M组训练文本数据组对临时联合抽取模型进行训练,若当前参数更新联合抽取模型不符合损失值达到收敛状态,则将M初始化为1,且需重新基于第M组训练文本数据组对临时联合抽取模型进行训练。重复上述过程,直到参数更新联合抽取模型符合损失值达到收敛状态。
需要说明的是,预设阈值为训练文本数据集中训练文本数据组的总组数,M的初始值为1;当首次基于训练文本数据组进行训练时,临时联合抽取模型为初始创建的联合抽取模型。
由于在每次训练时均会需基于损失函数计算的损失值对联合抽取模型中各个参数进行调整,因此基于多组训练文本数据组的训练过程,即实现了联合抽取模型中参数多次优化的过程;重复多轮上述依次基于每个训练文本数据组分别对联合抽取模型进行训练的过程,直至损失值不再持续降低,达到收敛状态,即当前获取的参数更新联合抽取模型已经符合损失值达到收敛状态,即可得到训练完成的联合抽取模型。
需要说明的是,训练后的联合抽取模型中的各个单元即是联合抽取模型中各个单元经过对象属性识别数据训练数据集对其进行训练后反复调整各类参数获得的。因此上文在介绍联合抽取模型中各个单元的工作原理时,同时也介绍了训练后的联合抽取模型中各个单元的工作原理。
上述训练过程中的损失函数可表示为:
L=Le+Lr
其中,Le表示文本数据所对应所有最终候选实体表示所属实体类型的后验信息与实体真实标签的交叉熵损失函数,Lr表示文本数据中所有实体对所属关系类型的后验信息与关系真实标签的交叉熵损失函数。
本发明实施例提供的实体和关系联合提取方法,在获取词向量表示过程中,借助语义角色标注工具引入显式语义信息,且在实体识别和关系抽取中采用分别编码的方式,针对性地增强隐式语义特征;显式语义信息和隐式语义信息的充分挖掘有助于模型深度理解实体语义并建立实体间关系。在关系抽取中该方法考虑了全局语义信息和局部上下文长度信息,进一步提升了实体和关系联合抽取模型的准确性。
实施例二
为解决现有技术中存在的技术问题,本发明实施例提供了一种实体和关系联合提取装置。
图4示出了本发明实施例二实体和关系联合提取装置的结构示意图;参考图4所示,本发明实施例实体和关系联合提取装置包括数据获取模块和实体和关系提取模块。
数据获取模块用于获取文本数据集,文本数据集包括多个文本数据;
关系提取模块用于基于训练后的联合抽取模型,对文本数据集中每个文本数据进行联合抽取,以获取每个文本数据中的实体以及实体间的关系;
其中,联合抽取模型包括词向量表示构建模块、候选实体表示构建模块、实体分类模块、关系表示构建模块和关系分类模块;
词向量表示构建模块,用于基于预训练模型获取文本数据的第一词向量表示和实体全局语义表示,基于语义角色标注获取文本数据的第二词向量表示,并将第一词向量表示和第二词向量表示进行拼接,以获取文本数据的最终词向量表示;
候选实体表示构建模块,用于基于最终词向量表示获取增强实体隐式语义信息,基于增强实体隐式语义信息获取包含任意跨度的初步候选实体集,对初步候选实体集中所有初步候选实体分别进行最大池化操作,以获取聚合候选实体集,基于聚合候选实体集中聚合候选实体、聚合候选实体所属初步候选实体序列长度以及实体全局语义表示,获取最终候选实体表示集;
实体分类模块,用于基于最终候选实体表示集,通过分类函数获取最终候选实体表示集中每个最终候选实体表示所属实体类型的后验信息;
关系表示构建模块,用于将聚合候选实体集中所对应最终候选实体表示所属实体分类为非空的聚合候选实体表示两两进行组合,以形成实体对集,获取每对实体对的全局语义表示和局部语义表示,并基于每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体获取对应关系表示向量;
关系分类模块,用于基于每对实体对的关系表示向量,通过分类函数获取每对实体对所属关系类型的后验信息;
其中,局部序列长度为局部语义表示的序列长度。
本发明实施例提供的实体和关系联合提取装置,在获取词向量表示过程中,借助语义角色标注工具引入显式语义信息,且在实体识别和关系抽取中采用分别编码的方式,针对性地增强隐式语义特征;显式语义信息和隐式语义信息的充分挖掘有助于模型深度理解实体语义并建立实体间关系。在关系抽取中该装置考虑了全局语义信息和局部上下文长度信息,进一步提升了实体和关系联合抽取模型的准确性。
实施例三
为解决现有技术中存在的上述技术问题,本发明实施例还提供了一种存储介质,其存储有计算机程序,该计算机程序被处理器执行时可实现实施例一中实体和关系联合提取方法中的所有步骤。
实体和关系联合提取方法的具体步骤以及应用本发明实施例提供的可读存储介质获取的有益效果均与实施例一相同,在此不在对其进行赘述。
需要说明的是:存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
实施例四
为解决现有技术中存在的上述技术问题,本发明实施例还提供了一种终端。
图5示出了本发明实施例四终端结构示意图,参照图5,本实施例终端包括相互连接的处理器及存储器;存储器用于存储计算机程序,处理器用于执行存储器存储的计算机程序,以使终端执行时可实现实施例一实体和关系联合提取方法中的所有步骤。
实体和关系联合提取方法的具体步骤以及应用本发明实施例提供的终端获取的有益效果均与实施例一相同,在此不在对其进行赘述。
需要说明的是,存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。同理处理器也可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种实体和关系联合提取方法,包括:
获取文本数据集,所述文本数据集包括多个文本数据;
基于训练完成的联合抽取模型,对所述文本数据集中每个所述文本数据进行联合抽取,以获取每个所述文本数据中的实体以及实体间的关系;
其中,所述联合抽取模型包括词向量表示构建模块、候选实体表示构建模块、实体分类模块、关系表示构建模块和关系分类模块;
所述词向量表示构建模块,用于基于预训练模型获取文本数据的第一词向量表示和实体全局语义表示,基于语义角色标注获取所述文本数据的第二词向量表示,并将所述第一词向量表示和第二词向量表示进行拼接,以获取所述文本数据的最终词向量表示;
所述候选实体表示构建模块,用于基于所述最终词向量表示获取增强实体隐式语义信息,基于所述增强实体隐式语义信息获取包含任意跨度的初步候选实体集,对所述初步候选实体集中所有所述初步候选实体分别进行最大池化操作,以获取聚合候选实体集,基于所述聚合候选实体集中聚合候选实体、聚合候选实体所属初步候选实体序列长度以及实体全局语义表示,获取最终候选实体表示集;
所述实体分类模块,用于基于所述最终候选实体表示集,通过分类函数获取所述最终候选实体表示集中每个所述最终候选实体表示所属实体类型的后验信息;
所述关系表示构建模块,用于将所述聚合候选实体集中所对应最终候选实体表示所属实体分类为非空的聚合候选实体表示两两进行组合,以形成实体对集,获取每对实体对的全局语义表示和局部语义表示,并基于每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体获取对应关系表示向量;
所述关系分类模块,用于基于每对实体对的关系表示向量,通过分类函数获取每对实体对所属关系类型的后验信息;
其中,所述局部序列长度为所述局部语义表示的序列长度。
2.根据权利要求1所述的方法,其特征在于,所述词向量表示构建模块,用于基于预训练模型获取文本数据的第一词向量表示和实体全局语义表示,基于语义角色标注获取所述文本数据的第二词向量表示,并将所述第一词向量表示和第二词向量表示进行拼接,以获取所述文本数据的最终词向量表示包括:
将所述文本数据输入到预训练模型中,以获取子词向量表示序列和实体全局语义表示,并将所述子词向量表示序列经过卷积和最大池化以获取第一词向量表示;
将所述文本数据输入到语义角色标注工具中,以获取多个语义角色标注序列,并通过全连接网络将所有所述语义角色标注序列进行聚合,以获取第二词向量表示;
将所述第一词向量表示和第二词向量表示进行拼接融合,以获取所述文本数据的最终词向量表示。
3.根据权利要求1所述的方法,其特征在于,所述候选实体表示构建模块基于所述最终词向量表示获取增强实体隐式语义信息包括:
将所述最终词向量表示输入到第一双向长短期记忆网络中,以获取增强实体隐式语义信息。
4.根据权利要求3所述的方法,其特征在于,所述候选实体表示构建模块基于所述聚合候选实体集中聚合候选实体、聚合候选实体所属初步候选实体序列长度以及实体全局语义表示,获取最终候选实体表示集包括:
将所述聚合候选实体集中每个聚合候选实体、所述聚合候选实体所属初步候选实体的序列长度以及实体全局语义表示分别进行拼接,以获取每个所述聚合候选实体对应的最终候选实体表示,基于所有所述最终候选实体表示形成最终候选实体表示集。
5.根据权利要求1所述的方法,其特征在于,所述分类函数为softmax。
6.根据权利要求1所述的方法,其特征在于,所述关系表示构建模块获取每对实体对的全局语义表示和局部语义表示,并基于每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体获取对应关系表示向量包括:
将所述最终词向量表示输入到第二双向长短期记忆网络中,以获取增强全局上下文隐式语义信息,基于所述增强全局上下文隐式语义信息获取所述实体对集中所有实体对的局部语义表示,并将所述第二双向长短期记忆网络最后一个隐状态表示作为所述实体对集中所有所述实体对的全局语义表示;
将每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体进行拼接,以获取每对实体对所对应的关系表示向量。
7.根据权利要求1所述的方法,其特征在于,对联合抽取模型进行训练以获取训练完成的联合抽取模型过程中,其损失函数为:
L=Le+Lr
其中,Le表示所述文本数据所对应所有所述最终候选实体表示所属实体类型的后验信息与实体真实标签的交叉熵损失函数,Lr表示所述文本数据中所有实体对所属关系类型的后验信息与关系真实标签的交叉熵损失函数。
8.一种实体和关系联合提取装置,其特征在于,包括数据获取模块和实体和关系提取模块;
所述数据获取模块,用于获取文本数据集,所述文本数据集包括多个文本数据;
所述关系提取模块,用于基于训练完成的联合抽取模型,对所述文本数据集中每个所述文本数据进行联合抽取,以获取每个所述文本数据中的实体以及实体间的关系;
其中,所述联合抽取模型包括词向量表示构建模块、候选实体表示构建模块、实体分类模块、关系表示构建模块和关系分类模块;
所述词向量表示构建模块,用于基于预训练模型获取文本数据的第一词向量表示和实体全局语义表示,基于语义角色标注获取所述文本数据的第二词向量表示,并将所述第一词向量表示和第二词向量表示进行拼接,以获取所述文本数据的最终词向量表示;
所述候选实体表示构建模块,用于基于所述最终词向量表示获取增强实体隐式语义信息,基于所述增强实体隐式语义信息获取包含任意跨度的初步候选实体集,对所述初步候选实体集中所有所述初步候选实体分别进行最大池化操作,以获取聚合候选实体集,基于所述聚合候选实体集中聚合候选实体、聚合候选实体所属初步候选实体序列长度以及实体全局语义表示,获取最终候选实体表示集;
所述实体分类模块,用于基于所述最终候选实体表示集,通过分类函数获取所述最终候选实体表示集中每个所述最终候选实体表示所属实体类型的后验信息;
所述关系表示构建模块,用于将所述聚合候选实体集中所对应最终候选实体表示所属实体分类为非空的聚合候选实体表示两两进行组合,以形成实体对集,获取每对实体对的全局语义表示和局部语义表示,并基于每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体获取对应关系表示向量;
所述关系分类模块,用于基于每对实体对的关系表示向量,通过分类函数获取每对实体对所属关系类型的后验信息;
其中,所述局部序列长度为所述局部语义表示的序列长度。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项实体和关系联合提取方法。
10.一种终端,其特征在于,包括:处理器以及存储器,所述存储器与所述处理器之间通信连接;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行如权利要求1至7中任一项实体和关系联合提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211056456.0A CN115374786A (zh) | 2022-08-30 | 2022-08-30 | 实体和关系联合抽取方法及装置、存储介质和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211056456.0A CN115374786A (zh) | 2022-08-30 | 2022-08-30 | 实体和关系联合抽取方法及装置、存储介质和终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115374786A true CN115374786A (zh) | 2022-11-22 |
Family
ID=84070600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211056456.0A Pending CN115374786A (zh) | 2022-08-30 | 2022-08-30 | 实体和关系联合抽取方法及装置、存储介质和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115374786A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116663662A (zh) * | 2023-07-31 | 2023-08-29 | 航天宏图信息技术股份有限公司 | 基于多源语义网络的地理实体多层次关系构建方法及装置 |
CN116956929A (zh) * | 2023-09-20 | 2023-10-27 | 交通运输部公路科学研究所 | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 |
-
2022
- 2022-08-30 CN CN202211056456.0A patent/CN115374786A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116663662A (zh) * | 2023-07-31 | 2023-08-29 | 航天宏图信息技术股份有限公司 | 基于多源语义网络的地理实体多层次关系构建方法及装置 |
CN116663662B (zh) * | 2023-07-31 | 2023-10-20 | 航天宏图信息技术股份有限公司 | 基于多源语义网络的地理实体多层次关系构建方法及装置 |
CN116956929A (zh) * | 2023-09-20 | 2023-10-27 | 交通运输部公路科学研究所 | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 |
CN116956929B (zh) * | 2023-09-20 | 2023-12-15 | 交通运输部公路科学研究所 | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321432B (zh) | 文本事件信息提取方法、电子装置和非易失性存储介质 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN112101027A (zh) | 基于阅读理解的中文命名实体识别方法 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN110750635A (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN113948217A (zh) | 一种基于局部特征整合的医学嵌套命名实体识别方法 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及系统 | |
CN112800184A (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN115080750A (zh) | 基于融合提示序列的弱监督文本分类方法、系统和装置 | |
CN116595195A (zh) | 一种知识图谱构建方法、装置及介质 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN113486178B (zh) | 文本识别模型训练方法、文本识别方法、装置以及介质 | |
CN113095082A (zh) | 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质 | |
CN113157918A (zh) | 一种基于注意力机制的商品名称短文本分类方法和系统 | |
CN117035084A (zh) | 一种基于语法分析的医疗文本实体关系抽取方法和系统 | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN113342982B (zh) | 融合RoBERTa和外部知识库的企业行业分类方法 | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN114648029A (zh) | 一种基于BiLSTM-CRF模型的电力领域命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |