CN114595338A - 基于混合特征表示的实体关系联合抽取系统及方法 - Google Patents

基于混合特征表示的实体关系联合抽取系统及方法 Download PDF

Info

Publication number
CN114595338A
CN114595338A CN202210202416.6A CN202210202416A CN114595338A CN 114595338 A CN114595338 A CN 114595338A CN 202210202416 A CN202210202416 A CN 202210202416A CN 114595338 A CN114595338 A CN 114595338A
Authority
CN
China
Prior art keywords
entity
feature vector
entities
relationship
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210202416.6A
Other languages
English (en)
Inventor
刘伟
冀振燕
董为
孔德焱
王炎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Lanzhi Wuhan Technology Co ltd
Original Assignee
Zhongke Lanzhi Wuhan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Lanzhi Wuhan Technology Co ltd filed Critical Zhongke Lanzhi Wuhan Technology Co ltd
Priority to CN202210202416.6A priority Critical patent/CN114595338A/zh
Publication of CN114595338A publication Critical patent/CN114595338A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于混合特征表示的实体关系联合抽取系统及方法,所述系统包括:特征提取模块,用于从工业文本数据中提取字符级别特征向量和词级别特征向量;特征融合模块,用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量;模型构建模块,用于基于双向LSTM编码器、头实体识别单元、实体类型分类单元、关系‑尾实体识别单元构建实体关系联合抽取模型;联合识别模块,用于将混合特征向量输入到实体关系联合抽取模型中,识别出工业文本数据中所有的实体和关系。本发明在多个粒度级别上整合特征信息,有效处理重叠三元组问题,可提高实体关系抽取的准确度。

Description

基于混合特征表示的实体关系联合抽取系统及方法
技术领域
本发明属于知识抽取技术领域,具体涉及一种基于混合特征表示的实体关系联合抽取系统及方法。
背景技术
近年来,预训练语言模型如BERT、GPT等已经变得非常流行,并在各种自然语言理解任务上取得了巨大成功,如知识抽取、情感分析、问题回答和语言推理。
微调预训练模型方法虽然在命名实体识别和关系抽取两大领域都取得了巨大的成功,但是在一些实际场景中会存在大量的嵌套实体和重叠关系三元组,直接应用微调预训练模型对其进行抽取,其性能并不完美。早期的关系-实体提取研究采用的是流水线方法,它首先识别句子中的所有实体,然后对每个实体对进行关系分类,这种方法容易出现错误传播问题,因为早期的错误无法在后期得到纠正。
为了解决这一问题,现有技术中陆续提出了实体和关系的联合学习方式,然而,大多数方法都不能有效地处理句子中包含多个相互重叠的关系三元组的场景。最近,基于span的方法被提出并应用到命名实体识别中有效的解决了实体嵌套问题,其本质是通过预测实体的开始和结束位置并通过组合的方式识别出多种类型的实体,但是其模型很容易解码出错误实体或非实体。因此,如何有效地处理句子中包含多个相互重叠的关系三元组的场景成为知识抽取的关键问题。
发明内容
有鉴于此,本发明提出了一种基于混合特征表示的实体关系联合抽取系统及方法,用于解决对工业文本数据进行知识抽取时无法有效地处理多个相互重叠的关系三元组的问题。
本发明第一方面,公开一种基于混合特征表示的实体关系联合抽取系统,所述系统包括:
特征提取模块:用于从工业文本数据中提取字符级别特征向量和词级别特征向量;
特征融合模块:用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量;
模型构建模块:用于基于双向LSTM编码器、头实体识别单元、实体类型分类单元、关系-尾实体识别单元构建实体关系联合抽取模型;
联合识别模块:用于将混合特征向量输入到实体关系联合抽取模型中,识别出工业文本数据中所有的实体和关系。
在以上技术方案的基础上,优选的,所述特征提取模块具体用于:
基于CNN模型从工业文本数据中提取字符级别特征向量,同时使用中文分词器对工业文本数据进行分词,将分词之后的单词与外部词典信息和外部知识库做匹配,通过Word2Vec模型获取词级别特征向量。
在以上技术方案的基础上,优选的,所述模型构建模块中,所述双向LSTM编码器为带有注意力机制的双向LSTM模型,用于对输入的混合特征向量进行编码,提取工业文本数据文本中长距离命名实体之间的依赖关系,同时提取工业文本数据中字符之间、字符与命名实体之间以及实体字符位置之间的相关性。
在以上技术方案的基础上,优选的,所述模型构建模块中,所述头实体识别单元包括两个相同的第一二元分类器,用于对双向LSTM编码器输出的编码后的混合特征向量进行标记,每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置,实体的开始位置和结束位置生成多个实体特征向量。
在以上技术方案的基础上,优选的,所述模型构建模块中,所述实体类型分类单元用于将每个实体特征向量分别与编码后的混合特征向量拼接作为输入,通过Softmax的概率输出来对实体进行分类,并设置概率阈值进行实体过滤,去除低于概率阈值的实体和非实体,保留大于或等于概率阈值的实体作为头实体。
在以上技术方案的基础上,优选的,所述模型构建模块中,所述关系-尾实体识别单元将关系和尾实体的识别作为一个机器阅读理解任务,通过先验知识获取关系的描述信息,将关系的描述信息和头实体拼接作为机器阅读理解任务的问题,以编码后的混合特征向量作为机器阅读理解任务的段落,以阅读理解的方式嵌入到预训练的BERT模型中,并通过两个第二二元分类器识别与关系的描述信息和头实体对应的尾实体;
所述预训练的BERT模型中,使用多头自注意机制捕获token之间的交互信息,为工业文本数据提供先验知识,同时在训练的过程中捕获上下文语义特征信息,从而消除同音异义词的歧义,表达语义和句法模式。
在以上技术方案的基础上,优选的,所述关系-尾实体识别单元中,第二二元分类器为给定上下文和特定查询输出多个开始索引和多个结束索引,支持根据查询提取所有相关实体。
本发明第二方面,公开一种基于混合特征表示的实体关系联合抽取方法,所述方法包括:
S1、从工业文本数据中提取字符级别特征向量和词级别特征向量;
S2、使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量;
S3、通过带有注意力机制的双向LSTM模型对输入的混合特征向量进行编码;
S4、通过两个相同的第一二元分类器对双向LSTM编码器输出的编码后的混合特征向量hN进行标记,每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置,生成多个实体特征向量;
S5、将每个实体特征向量分别与编码后的混合特征向量拼接,通过Softmax的概率输出来对实体进行分类,并进行实体过滤,保留高概率实体及其类型作为头实体;
S6、将关系和尾实体的识别作为一个机器阅读理解任务,使用预训练的BERT模型对以关系的描述信息和头实体拼接作为问题、以编码后的混合特征向量作为段落的两个句子进行编码,并通过两个第二二元分类器实现具有复杂关系的重叠三元组的识别。
本发明第三方面,公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明第二方面所述的方法。
本发明第四方面,公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使计算机实现本发明第二方面所述的方法。
本发明相对于现有技术具有以下有益效果:
1)本发明的混合特征向量集成了字符级别信息、词级别信息,其中字符级别特征向量提供形态上的特征信息;结合外部词典信息和外部知识库的词级别特征向量嵌入提供边界特征信息,混合特征向量丰富了混合特征信息,提高了实体边界识别的性能。
2)本发明通过带有注意力机制的双向LSTM模型对输入的混合特征向量进行编码,并给基于编码后的混合特征向量分别进行头实体识别、实体类型分类和过滤、关系-尾实体识别,最终实现具有复杂关系的重叠三元组的识别。本发明充分利用字符-词级别、时序结构、上下文嵌入等特征信息,丰富了混合特征表示,在多个粒度级别上整合信息,并降低噪声信息的权重,同时在自注意力机制的帮助下,有效捕获文本不同信息的重要性,消除同音异义词的歧义,显著提高了联合抽取模型的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提出的一种基于混合特征表示的实体关系联合抽取系统结构示意图;
图2为本发明提出的一种基于混合特征表示的实体关系联合抽取系统原理图;
图3所示为本发明带有注意力机制的双向LSTM模型示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
本发明提出一种基于混合特征表示的实体关系联合抽取系统,图1为本发明提出的一种基于混合特征表示的实体关系联合抽取系统结构示意图,所述系统包括特征提取模块10、特征融合模块20、模型构建模块30、联合识别模块40。
图2为本发明提出的一种基于混合特征表示的实体关系联合抽取系统原理图,下面结合图1、图2对本发明的系统原理做具体说明。
特征提取模块10:用于从工业文本数据中提取字符级别特征向量和词级别特征向量,包括字符级别特征提取单元101和词级别特征提取单元102。
所述字符级别特征提取单元101基于CNN模型从工业文本数据中提取字符级别特征向量,构建文本字符级别向量表示。同时词级别特征提取单元102使用中文分词器对工业文本数据进行分词,将分词之后的单词与外部词典信息和外部知识库做匹配,通过Word2Vec模型获取词级别特征向量,构建文本词级别向量表示。
特征融合模块20:用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量。
本发明将字符级别特征向量和词级别特征向量进行融合,构造混合特征表示,生成混合特征向量,其中,字符级别向量表示提供形态上的特征信息,比如单词的前缀、后缀等,结合外部词典和领域知识库的词级别向量嵌入提供边界特征信息,混合特征向量丰富了字符特征信息,并且可以有效解决一词多义问题。
图2底部的构造混合特征表示部分示意了某一文本数据的特征提取和特征融合过程,将字符级别特征向量
Figure BDA0003529975500000061
和词级别特征向量
Figure BDA0003529975500000062
通过最大池化操作进行融合,其中,e1是由字符级别特征向量
Figure BDA0003529975500000063
和词级别特征向量
Figure BDA0003529975500000064
融合而成,e2是由字符级别特征向量
Figure BDA0003529975500000065
和词级别特征向量
Figure BDA0003529975500000066
融合而成,其他特征向量的融合如图2中构造混合特征表示部分所示,最终的各个融合结果保持维度一致。将融合后的特征向量合并组成混合特征向量。
模型构建模块30:用于基于双向LSTM编码器301、头实体识别单元302、实体类型分类单元303、关系-尾实体识别单元304构建实体关系联合抽取模型;
所述双向LSTM编码器301为带有注意力机制的双向LSTM(Bi-LSTM,BidirectionalLong ShortTerm Memory,双向长短期记忆网络)模型,用于对输入的混合特征向量进行编码,输出编码后的混合特征向量hN,图3所示为本发明带有注意力机制的双向LSTM模型示意图,双向LSTM模型可以进一步刻画文本中长距离命名实体之间的依赖关系。为了进一步捕捉文本中字符之间、字符与命名实体之间以及实体字符位置之间的相关性,在Bi-LSTM层中开发了一种多头自注意机制,可以加强字符和单词之间的依赖性同时提高模型的整体运行效率。
本发明的双向LSTM编码器在双向LSTM模型的基础上添加了注意力机制,一方面可有效捕获特定时间范围内的信息特征,增强文本中关键特征的权重。另一方面可有效捕获文本中全局语义信息特征,进一步丰富了混合特征表示,同时减少了层与层之间语义信息传递的累积误差,增强了文本中实体之间的相关性。
所述头实体识别单元302包括两个相同的第一二元分类器,用于对双向LSTM编码器输出的编码后的混合特征向量进行标记,如图2所示,每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置,基于实体的开始位置和结束位置生成k个实体特征向量
Figure BDA0003529975500000071
并将编码后的混合特征向量hN分别与每个实体特征向量做拼接得到
Figure BDA0003529975500000072
所述实体类型分类单元303用于将每个实体特征向量分别与编码后的混合特征向量拼接作为输入,通过Softmax的概率输出来对实体进行分类,并设置概率阈值进行实体过滤,以去除低于概率阈值的实体和非实体,保留大于或等于概率阈值的高概率实体和类型作为头实体。以Agnews新闻数据集为例,实体中的类型包括:Sports、Business、World、Sci/Tech,Softmax层输出实体属于这些类型的概率。假设概率阈值设置为0.5,Softmax输出的概率如果分别是0.5、0.2.、0.1、0.2,则认为其属于第一类的概率属于高概率实体,Softmax输出的概率如果是0.3、0.2、0.2、0.3,则认为其属于第一类的概率属于低概率实体或者是一些非实体。
所述关系-尾实体识别单元304将关系和尾实体的识别作为一个机器阅读理解任务,即通过先验知识获取关系的描述信息,将关系的描述信息和头实体拼接作为机器阅读理解任务的问题,以编码后的混合特征向量作为机器阅读理解任务的段落,以阅读理解的方式嵌入到预训练的BERT模型中,并通过两个第二二元分类器识别与输入的关系的描述信息和头实体相对应的尾实体,从而实现具有复杂关系的重叠三元组的识别。
关系的描述信息R1,...,Rn是根据先验知识人工定义的,比如“属于”这种关系可以定义为:
part of:part of、belong to something、including、pertain、appertain、beclassified。
预训练的BERT模型是预先在大规模数据中训练的,可以为文本提供先验知识,同时模型在训练的过程中会捕获更多的上下文语义特征信息。所述预训练的BERT模型中,使用多头自注意机制捕获token之间的交互信息,并提供上下文语义特征信息的嵌入以及预先训练的大规模语言模型中的先验知识,从而消除同音异义词的歧义,表达语义和句法模式。
其中,第二二元分类器为给定上下文和特定查询输出多个开始索引和多个结束索引,支持根据查询提取所有相关实体。
联合识别模块40:用于将融合后的混合特征向量输入到实体关系联合抽取模型中,识别出工业文本数据中所有的实体和关系。
具体的,将特征融合模块20融合得到的混合特征向量输入到模型构建模块30构建的实体关系联合抽取模型中,捕获它们之间的隐藏特征以识别出文本中所有的实体和关系,识别重叠三元组,解决一词多义问题。
本发明充分利用字符-词级别、时序结构、上下文嵌入等特征信息,丰富了混合特征表示,同时在多头自注意力机制的帮助下,有效的识别出重要实体的边界,显著提高了联合抽取模型的准确度和性能。
本发明提供的卷积神经网络、Word2Vec词嵌入模型、双向长短记忆网络中的参数,BERT模型中输入句子的长度,以及实体过滤中的概率阈值等可根据实际需要或设备限制等因素设置。
与上述系统实施例相对应,本发明还提出一种基于混合特征表示的实体关系联合抽取方法,所述方法包括:
S1、从工业文本数据中提取字符级别特征向量和词级别特征向量;
S2、使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量;
S3、通过带有注意力机制的双向LSTM模型对输入的混合特征向量进行编码;
S4、通过两个相同的第一二元分类器对双向LSTM编码器输出的编码后的混合特征向量进行标记,每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置,生成多个实体特征向量;
S5、将每个实体特征向量分别与编码后的混合特征向量拼接,通过Softmax的概率输出来对实体进行分类,并进行实体过滤,保留大于或等于概率阈值实体及类型作为头实体;
S6、将关系和尾实体的识别作为一个机器阅读理解任务,使用预训练的BERT模型对以关系的描述信息和头实体拼接作为问题、以编码后的混合特征表示作为段落的两个句子进行编码,并通过两个第二二元分类器识别尾实体,从而实现具有复杂关系的重叠三元组的识别。
以上系统实施例和方法实施例是一一对应的,方法实施例简述之处请参阅系统实施例即可。
本发明还公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明前述的方法。
本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括:U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以分布到多个网络单元上。本领域普通技术人员在不付出创造性的劳动的情况下,可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于混合特征表示的实体关系联合抽取系统,其特征在于,所述系统包括:
特征提取模块:用于从工业文本数据中提取字符级别特征向量和词级别特征向量;
特征融合模块:用于使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量;
模型构建模块:用于基于双向LSTM编码器、头实体识别单元、实体类型分类单元、关系-尾实体识别单元构建实体关系联合抽取模型;
联合识别模块:用于将混合特征向量输入到实体关系联合抽取模型中,识别出工业文本数据中所有的实体和关系。
2.根据权利要求1所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述特征提取模块具体用于:
基于CNN模型从工业文本数据中提取字符级别特征向量,同时使用中文分词器对工业文本数据进行分词,将分词之后的单词与外部词典信息和外部知识库做匹配,通过Word2Vec模型获取词级别特征向量。
3.根据权利要求1所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述模型构建模块中,所述双向LSTM编码器为带有注意力机制的双向LSTM模型,用于对输入的混合特征向量进行编码,提取工业文本数据文本中长距离命名实体之间的依赖关系,同时提取工业文本数据中字符之间、字符与命名实体之间以及实体字符位置之间的相关性。
4.根据权利要求3所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述模型构建模块中,所述头实体识别单元包括两个相同的第一二元分类器,用于对双向LSTM编码器输出的编码后的混合特征向量进行标记,每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置,基于实体的开始位置和结束位置生成多个实体特征向量。
5.根据权利要求4所述的基于混合特征表示的实体关系联合抽取方法,其特征在于,所述模型构建模块中,所述实体类型分类单元用于将每个实体特征向量分别与编码后的混合特征向量拼接作为输入,通过Softmax的概率输出来对实体进行分类,并设置概率阈值进行实体过滤,去除低于概率阈值的实体和非实体,保留大于或等于概率阈值的实体作为头实体。
6.根据权利要求5所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述模型构建模块中,所述关系-尾实体识别单元将关系和尾实体的识别作为一个机器阅读理解任务,通过先验知识获取关系的描述信息,将关系的描述信息和头实体拼接作为机器阅读理解任务的问题,将编码后的混合特征向量作为机器阅读理解任务的段落,以阅读理解的方式嵌入到预训练的BERT模型中,并通过两个第二二元分类器识别与输入的关系的描述信息和头实体对应的尾实体;
所述预训练的BERT模型中,使用多头自注意机制捕获token之间的交互信息,为工业文本数据提供先验知识,同时在训练的过程中捕获上下文语义特征信息,从而消除同音异义词的歧义,表达语义和句法模式。
7.根据权利要求6所述的基于混合特征表示的实体关系联合抽取系统,其特征在于,所述关系-尾实体识别单元中,第二二元分类器为给定上下文和特定查询输出多个开始位置索引和多个结束位置索引,支持根据查询提取所有相关实体。
8.一种基于混合特征表示的实体关系联合抽取方法,其特征在于,所述方法包括:
S1、从工业文本数据中提取字符级别特征向量和词级别特征向量;
S2、使用最大池化操作对字符级别特征向量和词级别特征向量进行融合,生成混合特征向量;
S3、通过带有注意力机制的双向LSTM模型对输入的混合特征向量进行编码;
S4、通过两个相同的第一二元分类器对双向LSTM编码器输出的编码后的混合特征向量hN进行标记,每个标记分配一个二进制标识来分别检测实体的开始位置和结束位置,生成多个实体特征向量;
S5、将每个实体特征向量分别与编码后的混合特征向量拼接,通过Softmax的概率输出来对实体进行分类,并设置概率阈值进行实体过滤,保留大于或等于概率阈值的实体作为头实体;
S6、将关系和尾实体的识别作为一个机器阅读理解任务,使用预训练的BERT模型对以关系的描述信息和头实体拼接作为问题、以编码后的混合特征向量作为段落的两个句子进行编码,并通过两个第二二元分类器实现尾实体识别。
9.一种电子设备,其特征在于,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如权利要求8所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使计算机实现如权利要求8所述的方法。
CN202210202416.6A 2022-03-03 2022-03-03 基于混合特征表示的实体关系联合抽取系统及方法 Pending CN114595338A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210202416.6A CN114595338A (zh) 2022-03-03 2022-03-03 基于混合特征表示的实体关系联合抽取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210202416.6A CN114595338A (zh) 2022-03-03 2022-03-03 基于混合特征表示的实体关系联合抽取系统及方法

Publications (1)

Publication Number Publication Date
CN114595338A true CN114595338A (zh) 2022-06-07

Family

ID=81816588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210202416.6A Pending CN114595338A (zh) 2022-03-03 2022-03-03 基于混合特征表示的实体关系联合抽取系统及方法

Country Status (1)

Country Link
CN (1) CN114595338A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402055A (zh) * 2023-05-25 2023-07-07 武汉大学 一种专利文本实体的抽取方法、装置、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402055A (zh) * 2023-05-25 2023-07-07 武汉大学 一种专利文本实体的抽取方法、装置、设备和介质
CN116402055B (zh) * 2023-05-25 2023-08-25 武汉大学 一种专利文本实体的抽取方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
CN107315737B (zh) 一种语义逻辑处理方法及系统
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN111914091B (zh) 一种基于强化学习的实体和关系联合抽取方法
CN113468888A (zh) 基于神经网络的实体关系联合抽取方法与装置
CN106776548B (zh) 一种文本的相似度计算的方法和装置
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN112307208A (zh) 长文本的分类方法、终端及计算机存储介质
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN112784581B (zh) 文本纠错方法、装置、介质及电子设备
CN115292463B (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN113553848A (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
CN116502628A (zh) 基于知识图谱的政务领域多阶段融合的文本纠错方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114764566B (zh) 用于航空领域的知识元抽取方法
CN113312912A (zh) 一种用于交通基础设施检测文本的机器阅读理解方法
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN114595338A (zh) 基于混合特征表示的实体关系联合抽取系统及方法
CN113010635A (zh) 一种文本纠错方法及装置
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Sang Yanjuan

Inventor after: Ji Zhenyan

Inventor after: Kong Deyan

Inventor after: Wang Yan

Inventor before: Liu Wei

Inventor before: Ji Zhenyan

Inventor before: Dong Wei

Inventor before: Kong Deyan

Inventor before: Wang Yan

CB03 Change of inventor or designer information