CN116402019B - 一种基于多特征融合的实体关系联合抽取方法及装置 - Google Patents
一种基于多特征融合的实体关系联合抽取方法及装置 Download PDFInfo
- Publication number
- CN116402019B CN116402019B CN202310458181.1A CN202310458181A CN116402019B CN 116402019 B CN116402019 B CN 116402019B CN 202310458181 A CN202310458181 A CN 202310458181A CN 116402019 B CN116402019 B CN 116402019B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- dependency
- relationship
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 68
- 230000004927 fusion Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000002787 reinforcement Effects 0.000 claims abstract description 17
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims description 47
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 14
- 238000003058 natural language processing Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 9
- 238000005728 strengthening Methods 0.000 claims description 6
- 239000013589 supplement Substances 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005096 rolling process Methods 0.000 claims 1
- 238000007499 fusion processing Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于多特征融合的实体关系联合抽取方法及装置,该方法能将预训练BERT(Bidirectional Encoder Representation from Transformers,基于Transformer的双向编码器)模型提取的上下文语义特征与通过GCN训练字邻接图得到的句法结构特征进行自适应参数融合,融合过程会通过门网络结构自主学习融合权重来实现,融合后的特征可用于实体与实体间关系的联合抽取;在抽取关系前还要将待判定的关系特征嵌入通过关系选择器中的强化学习进行特征强化,用于进一步提升关系抽取的准确率。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于多特征融合的实体关系联合抽取方法及装置。
背景技术
文本嵌入是自然语言处理(Natural Language Processing,NLP)中语言模型与表征学习技术的统称,也称为文本的分布式表示,概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。目前,文本嵌入作为输入特征已被证明在许多自然语言处理任务中都是有效的,如提取文本词干、命名实体识别、文本分类和机器翻译等。
当前一部分主流的文本嵌入模型,如RNN(Recurrent Neural Network,循环神经网络)、BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆网络)、IDCNN(Improved Deep Convolutional Neural Network,改进型深度卷积神经网络)、textCNN(text Convolutional Neural Network,文本分类卷积神经网络)等主要将文本看作一串字词序列来进行处理,这样就会导致词语之间或者字词的联系基本上依靠字词本身在文本中的位置顺序关系。现有研究通过注意力机制获得每个词语之间的关注关联,但是这样学习方式忽略了句法规则对词语的结构影响。同时,由于注意力机制能够捕捉到句子边缘的文本特征,在一定程度上,这些边缘词的语义特征对中心词的特征提取有一定影响。
发明内容
有鉴于此,有必要提供一种基于多特征融合的实体关系联合抽取方法及装置,用以解决现有技术中文本嵌入模型依靠字词本身在文本中的位置顺序关系,忽略了句法规则对词语的结构影响,导致文本嵌入中关系分类任务的准确率低的技术问题。
为解决上述技术问题,第一方面,本发明提供了一种基于多特征融合的实体关系联合抽取方法,包括:
根据预训练的BERT模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征;
根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述改进的中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图;将所述字邻接图输入至预训练的图卷积神经网络GCN模型,得到词与词之间、字与字之间的句法结构特征;
通过自学习权重的门网络结构融合所述上下文语义特征和所述句法结构特征,得到联合特征,根据所述联合特征识别文本中的实体并判断实体间的关系类型。
在一些可能的实现方式中,所述根据预训练的BERT模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征,包括:
获取所述原始文本的文本序列,在所述文本序列的首部添加CLS标识符号,在所述文本序列的尾部添加SEP标识符号;
将所述文本序列输入至预训练BERT模型,提取所述文本序列中每个字对应的上下文语义特征。
在一些可能的实现方式中,所述根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图,包括:
基于自然语言处理工具包spacy提取所述原始文本的文本分词,构建所述文本分词的原始句法依赖树;
在所述原始句法依赖树中增加CLS节点与所有分词之间的依赖关系,得到改进句法依赖树;所述CLS节点为CLS标识符号的对应节点;
根据所述改进句法依赖树、所述文本分词之间的依赖关系,以及CLS节点与分词之间的关系,以及文本分词中字与字之间的关系,生成文本序列的字邻接图。
在一些可能的实现方式中,所述基于自然语言处理工具包spacy提取所述原始文本的文本分词,构建所述文本分词的改进句法依赖树,包括:
对所述原始文本进行分词,提取文本分词,在原始文本首部添加一个CLS标识符号;
以实有向边表示文本分词之间的依赖关系,以虚有向边表示每个文本分词与CLS标识符号的依赖关系,生成文本分词的改进句法依赖树。
在一些可能的实现方式中,所述根据所述改进句法依赖树、所述文本分词之间的依赖关系,以及分词与CLS节点的依赖关系,以及文本分词中字与字之间的关系,生成文本序列的字邻接图,包括:
以无向实线表示文本分词中字与字之间的字依赖边;
将所述改进句法依赖树中文本分词间的实有向边改为无向实线,以生成句法依赖边;其中,无向实线的第一端连接实有向边的起始文本分词的最后一个字,无向实线的第二端连接实有向边的指向文本分词的第一个字;
以无向虚线表示每个字与CLS标识符号的全文依赖边,得到字邻接图。
在一些可能的实现方式中,所述将所述字邻接图输入至图卷积神经网络GCN模型,得到文本序列的句法结构特征,包括:
构建所述字邻接图的字邻接矩阵,其中,所述字邻接矩阵的每一行/列对应原始文本的一个字;若判断任一行、列对应的两个字之间有依赖关系,则在所述字邻接矩阵中对应区域赋值1,所述依赖关系还包括行、列上同一字之间的自依赖关系;若判断任一行、列上两个字之间没有依赖关系,则在所述字邻接矩阵中对应区域赋值0;
根据GCN模型对所述字邻接矩阵进行编码,得到序列文本的句法结构特征。
在一些可能的实现方式中,所述根据所述联合特征识别实体并判断实体间的关系类别,包括:
根据所述上下文语义特征与所述句法结构特征进行特征融合得到每个字的联合特征,融合权重由门网络结构自学习得到;
在进行实体识别时,将所述每个字的联合特征再通过双向GRU编码器进行编码,再计算每个字所属的标识概率;
在进行实体间关系的判断时,根据所述联合特征中的任意两个实体特征或字特征进行拼接,将拼接后的拼接特征输入到关系选择器中,由关系选择器根据不同的拼接特征从自定义的关系中选择一种关系的嵌入作为补充,然后再经过关系分类器进行实体关系判断;所述关系选择器由自定义reward函数的强化学习模型训练得到,自定义reward函数对每次关系迭代的结果进行正确与错误的奖励,以此生成强化后的关系嵌入;以所述联合特征作为关系选择器的输入、以所述自定义关系的嵌入作为关系选择器的补充输入,通过强化学习进行关系嵌入的强化,再由关系分类器判断对应实体关系。
第二方面,本发明实施例提供一种基于多特征融合的实体关系联合抽取装置,包括:
语义特征提取模块,根据预训练的BERT模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征;
句法结构提取模块,根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述改进的中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图;将所述字邻接图输入至预训练的图卷积神经网络GCN模型,得到词与词之间、字与字之间的句法结构特征;
特征融合模型,根据自学习的门网络结构自主调节所述上下文语义特征和所述句法结构特征的融合权重,得到联合特征;
实体识别模型,根据所得联合特征,再通过双向GRU编码器进行编码,计算每个字所属的标识概率,得到实体类型;
关系选择模块,将所述联合特征中的任意两个实体特征或字特征进行拼接,由关系选择器根据不同的拼接特征从自定义的关系中选择一种关系的嵌入作为补充,所选的关系嵌入通过强化学习模型迭代训练进行特征强化;
关系判断模块,根据所述拼接特征与所述强化后的关系特征,判断每对实体间的关系类型。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面实施例所述基于多特征融合的实体关系联合抽取方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述基于多特征融合的实体关系联合抽取方法的步骤。
采用上述实施例的有益效果是:该方法能将BERT模型提取的上下文语义特征与通过GCN训练字邻接图得到的句法结构特征进行自适应参数融合,融合方法是通过门网络结构自主训练参数完成,融合后的特征可用于实体与实体间关系的联合抽取;在抽取关系前还要将待判定的关系特征通过用强化学习训练的关系选择器的进行特征强化,用于进一及提升关系抽取的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于多特征融合的实体关系联合抽取方法的一个实施例流程示意图;
图2为本本发明提供的句法依赖树结构示意图;
图3为本发明实施例改进后的句法依赖树结构;
图4为本发明提供的字邻接图结构示意图;
图5为本发明实施例的字邻接矩阵结构示意图;
图6为本发明提供的基于多特征融合及关系选择器的联合抽取模型框架示意图;
图7为本发明提供的基于多特征融合的实体关系联合抽取装置的一个实施例结构示意图;
图8为本发明提供的基于多特征融合的实体关系联合抽取设备的一个实施例结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器系统和/或微控制器系统中实现这些功能实体。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
现有研究通过注意力机制获得每个词语之间的关注关联,但是这样学习方式忽略了句法规则对词语的结构影响。同时,由于注意力机制能够捕捉到句子边缘的文本特征,在一定程度上,这些边缘词的语义特征对中心词的特征提取有一定影响。
因此本发明实施例提供了一种基于多特征融合的实体关系联合抽取方法、装置及电子设备,能够使融合后的联合特征包含文本上下文信息,融合后的联合特征将通过关系选择器来分别完成最终的实体抽取和关系分类工作,能够任意两个实体的关系种类,提升关系分类任务的准确率。以下分别进行说明。
图1为本发明提供的基于多特征融合的实体关系联合抽取方法的一个实施例流程示意图,如图1所示,基于多特征融合的实体关系联合抽取方法包括:
步骤S100、根据预训练的BERT(Bidirectional Encoder Representation fromTransformers,基于Transformer的双向编码器)模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征;
步骤S200、根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述改进的中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图;将所述字邻接图输入至预训练的图卷积神经网络GCN模型,得到词与词之间、字与字之间的句法结构特征;
步骤S300、通过自学习权重的门网络结构融合所述上下文语义特征和所述句法结构特征,得到联合特征,根据所述联合特征识别文本中的实体并判断实体间的关系类型。
本实施例中,原始文本的上下文语义特征是通过文本的上下文信息提取而来,这个过程可以看作是在对文本进行编码,提取每个句子所对应的隐藏特征,并作为每个句子的上下文语义特征。句法结构特征表示原始文本的句法特征,即构成句子的各种元素,如语序、含义、变位形式和语法结构等。
相对于现有技术中以文本分词为单位,本实施例通过构建中文依存句法树,预先获取文本中词语之间的依赖关系,并把它抽象成一个单字邻接图,能将BERT模型提取的上下文语义特征与通过GCN训练字邻接图得到的句法结构特征进行自适应参数融合,融合方法是通过门网络结构自主训练参数完成,融合后的特征可用于实体与实体间关系的联合抽取;在抽取关系前还要将待判定的关系特征通过用强化学习训练的关系选择器的进行特征强化,用于进一及提升关系抽取的准确率。
在上述实施例的基础上,作为一种优选的实施方式,所述根据预训练的BERT模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征,包括:
步骤S111、获取所述原始文本的文本序列,在所述文本序列的首部添加CLS标识符号,在所述文本序列的尾部添加SEP标识符号;
步骤S112、将所述文本序列输入至预先训练好的BERT模型,提取所述文本序列中每个字对应的上下文语义特征。
可以理解的是,文本的语义特征实际上是模型通过文本的上下文信息提取而来,这个过程可以看作是模型在对文本进行编码。
本实施例中,将BERT模型作为语义特征的提取手段。对于输入的文本序列获得文字编码,文本序列记为X={x1,x2,x3,…,xn},x1,x2,x3,…,xn表示文本中的字,首先为其添加BERT模型中的特殊标识符号“CLS”和“SEP”以得到新的输入序列S:
S={CLS,x1,x2,x3,…,xn,SEP} (1)
将输入序列S输入到BERT模型的输入层,经过BERT模型的编码后,可以得到输入序列S中每个字所对应的隐藏层特征,也即文本的语义特征:
H=BERT(S)=[hcls,h1,h2,h3,…,hn,hsep] (2)
其中,hcls和hsep分别表示两个特殊表示符号的上下文语义特征;hi(i=1,2,3,…,n)表示原始文本序列中每个字的上下文语义特征,n为原始输入序列X的长度,H∈(n+2)×d,d为BERT向量的维度。
在上述实施例的基础上,作为一种优选的实施方式,所述根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图,包括:
步骤S121基于自然语言处理工具包spacy提取所述原始文本的文本分词,构建所述文本分词的原始句法依赖树。
目前,已经存在很多自然语言处理工具可以帮助研究者自动地构建句子的依存句法树,本实施例中使用了spacy工具来获得文本的原始句法依赖树。对于中文数据,该工具将利用Transformer的分词器对原始文本进行分词,然后生成文本分词的原始句法依赖树。以图2中的文本“东莞AB食品有限公司生产的AB耗油”为例,经过分词后得到的中文分词有“东莞”,“AB”,“食品”,“有限”,“公司”,“生产”,“的”,“AB”,“耗油”。该文本经过spacy工具生成的原始句法依赖树如图2所示,其中有向边来表示文本中词语之间的依赖关系并用不同的标签进行表示。
为了使得提取文本时能够将文本的上下文信息融入其中,本实施例中对原始句法依赖树进行了改进,利用BERT模型中的CLS标识符号,将其抽象为一个与句子全文相关的词语,分别构建CLS标识符号与每个文本分词之间的依赖关系,其目的在于加强文本分词与整个文本之间的联系,通过这些额外构建的联系,丰富依存树的结构,加强模型的特征提取能力。以实有向边表示文本分词之间的依赖关系,以虚有向边表示每个文本分词与CLS标识符号的依赖关系,生成文本分词的改进句法依赖树,改进句法依赖树结构如图3所示,其中黑色实线表示原始的依赖关系,而黑色虚线则表示额外添加的句子上下文依赖。
步骤S122、根据所述改进句法依赖树、所述文本分词之间的依赖关系,以及CLS节点与分词之间的关系,以及文本分词中字与字之间的关系,生成文本序列的字邻接图;具体包括:
以无向实线表示文本分词中字与字之间的字依赖边;
将所述改进句法依赖树中文本分词间的实有向边改为无向实线,以生成句法依赖边;其中,无向实线的第一端连接实有向边的起始文本分词的最后一个字,无向实线的第二端连接实有向边的指向文本分词的第一个字;
以无向虚线表示每个字与CLS标识符号的全文依赖边,得到字邻接图。
在实际的实验过程中,将以字为单位对文本进行处理,而中文分词的句法依赖树无法直接应用,因此,本实施例提出了一种策略,来将上述中文分词生成的句法依赖树抽象成字级别的邻接图,如图4所示。
将原依赖树中的有向边改为了无向边,其目的是方便后续使用GCN(Graph NeuralNetwork,图卷积神经网络)来处理,因为图卷积神经网络原则上只能处理无向图。一般情况下将有向图转为无向图会损失一部分信息,但是该本实施例采用的策略可以保留原始依赖树中的有向依赖关系。
步骤S123、根据所述字邻接图确定字与字之间的依赖关系,构建所述字邻接图的字邻接矩阵,其中,所述字邻接矩阵的每一行/列对应原始文本的一个字;若判断任一行、列对应的两个字之间有依赖关系,则在所述字邻接矩阵中对应区域赋值1,所述依赖关系还包括行、列上同一字之间的自依赖关系;若判断任一行、列上两个字之间没有依赖关系,则在所述字邻接矩阵中对应区域赋值0;根据预先训练的句法特征编码器对所述字邻接矩阵进行编码,得到词与词之间的句法结构特征。
本实施例中,用一个邻接矩阵来表示图4中的字邻接图的结构信息,可以得到图5中展示的矩阵信息。
其中,值为1的区域表示对应的两个字之间拥有一条依赖边(包括自邻接边),其中在主对角线上形成的值全为1的小方阵区域代表文本序列中的一个分词,将这些区域称为分词区域;未标注的区域表示相应的值为0,即相应的两个字之间没有依赖边存在。以每个小方阵的右下角为中心,如果在其行列位置上存在值为1的区域,则表明该方阵代表的分词与其他分词之间存在句法依赖边,同时也表示了该分词为对应依赖边的起始分词,将这些区域称为关系区域。然后以矩阵的上三角部分为例,关系区域所处的行列位置对应着相应依赖边的指向分词位置,当起始分词在文本序列中的位置位于指向分词位置后面时,与关系区域处于同一行的分词区域所代表的分词即为指向分词,比如图5中的E1代表“公司”->“有限”;当起始分词在文本序列中的位置位于指向分词位置前面时,与关系区域处于同一列的分词区域所代表的分词即为指向分词,比如图5中的E3代表“生产”->“的”。由于该邻接矩阵为对称矩阵,当以邻接矩阵的下三角区域为例时,上述规则中的位置关系刚好相反。
本实施例中,为了提取文本序列的句法结构特征,首先要为每条文本构建相应的句法依存树。依存句法树可以用有向边来构建词与词之间的依赖关系图。与此同时,对于不同的依赖关系,可以在依存句法树中对有向边进行标记,以此来表达不同词语之间的依赖类型。当一条句子的句法依存树构建完成后,就相当于获得了一个关于该句子的结构图。然而,中文依存句法树的构造方法与英文依存句法树的构造方法略有差异,其主要差别是:空格可以作为英文句子中的隔断,英文句子中的每一个单词可以直接作为依存句法树中的一个节点,从而构造出词语之间的依存树。而对于中文文本来说,首先要对其进行切分,再在切分的基础上建立依存关系。这样导致了中文的句法依赖树无法直接应用到模型中,因为BERT模型是以文本中的单字为基础进行编码,两者之间存在很大差异。为了将中文依存句法树中的词与词之间的关系转换为字与字之间的关系,该模型提出一种字邻接图的构建方式,能够将中文的句法依赖书转为一种字与字之间的依赖关系图,便于模型进行后续处理。然后,采用GCN模型进行关系图特征嵌入的提取。
图卷积神经网络GCN已经在大量的实验中证明了其对于图数据极强的特征挖掘能力。基于文本的字邻接图,该模型通过GCN来对文本的句法特征进行编码。一般来说,一个图由节点集合V和边集合E两个部分构成,在字邻接图中,每个字节点都相当于V中的一个节点,即V=X={x1,x2,x3,…,xn},文本序列中的所有字构成节点集合V。而边集合E由字邻接图中的字依赖边、句法依赖边以及全文依赖边构成。对于字邻接图中的每个节点,GCN通过聚合其单跳邻居节点的特性来更新相应的嵌入节点。该模型采用2层GCNs作为文本句法特征编码器来对句法依赖树中的每个字进行编码,即只获取2-top内的邻居节点信息,这是因为句法依赖树结构相对于真实的网络结构要简单许多,采用2-top聚合已经基本上囊括了整条文本序列的结构信息,而想要获得多跳的邻居节点信息需要堆叠多层GCN模型,这样会造成模型的过拟合,从而导致最终的识别的能力下降。
GCN模型将每个字的BERT嵌入设置为每个对应节点的初始嵌入,即:
C(0)={hcls,h1,h2,h3,…,hn,hsep}
在每个以文本序列嵌入C(l)={ccls,c1,c2,…,cn}为输入的GCN层l中,输出特征El+1的计算公式为:
其中,是从字邻接图中抽象而成的图的邻接矩阵(拥有自连接边),I是对角矩阵。其中/>是/>的度矩阵;W(l)代表GCN第l层的可学习参数;σ代表激活函数ReLU;/>
在上述实施例的基础上,作为一种优选的实施方式,步骤S200、融合所述上下文语义特征和所述句法结构特征,得到联合特征,具体包括:
通过BERT模型编码的上下文语义特征以及通过CGN模型编码的句法结构特征对于文本的特征表达都有作用,为把各种特征进行有机地融合,本实施例提供了一种门结构网络,通过神经网络的深度学习来动态调整两种特征信息的融合权重。如下所示:
g=η(H*U+b) (5)
E=g⊙H+(1-g)⊙C (6)
其中U∈d×d为可训练参数,b为偏置参数。η为sigmoid激活函数,⊙为元素乘法;H和C分别表示输入序列的上下文语义特征和句法结构特征,g表示融合权重,E∈(n+2)×d是序列特征融合后的最终嵌入,即联合特征。
在上述实施例的基础上,作为一种优选的实施方式,所述根据所述联合特征识别实体并判断实体间的关系类别,包括:
在进行命名实体识别任务时,只将头尾实体在文本序列中的位置进行标注,而不再识别具体的实体类型。采用S、O、B、I、E等标号对序列中的实体和非实体部分进行标注。其中,当文本中的实体仅有一个字构成时,使用S来进行标识;当一个实体的长度为两个字时,用B对其第一个字进行标识,用E对其最后一个字进行标识;当一个实体的长度达到三个字或者以上时,增加I来对其中间的部分进行标识;而对于文本中不是实体的文字部分全部使用O进行标识。略去了标记后面的实体类型,减少了总的类型数目,也简化了实体分类工作。在此基础上,将融合后的序列嵌入输入一个双向GRU编码器中,然后再对这些数据进行进一步编码:
其中,然后对于序列中的每一个字的嵌入/>所属的标记概率进行计算:
其中,W∈5×d表示模型的训练参数矩阵;yner表示5种实体标记。
根据所述上下文语义特征与所述句法结构特征进行特征融合得到每个字的联合特征,融合权重由门网络结构自学习得到;
在进行实体识别时,将所述每个字的联合特征再通过双向GRU(Gate RecurrentUnit,循环神经网络)编码器进行编码,再计算每个字所属的标识概率;
在进行实体间关系的判断时,根据所述联合特征中的任意两个实体特征或字特征进行拼接,将拼接后的拼接特征输入到关系选择器中,由关系选择器根据不同的拼接特征从自定义的关系中选择一种关系的嵌入作为补充,然后再经过关系分类器进行实体关系判断;所述关系选择器由自定义reward函数的强化学习模型训练得到,自定义reward函数对每次关系迭代的结果进行正确与错误的奖励,以此生成强化后的关系嵌入;以所述联合特征作为关系选择器的输入、以所述自定义关系的嵌入作为关系选择器的补充输入,通过强化学习进行关系嵌入的强化,再由关系分类器判断对应实体关系。
本实施例中,本实施例中,对基于BERT模型、GCN模型、GRU网络构成的基于多特征融合及关系选择器的联合抽取模型框架如图6中所示,首先,以BERT模型作为基础的语义特征提取模块,用来把原始文本转化成文本嵌入,之后该嵌入将作为字的邻接图中节点的初始嵌入。字的邻接图由文本的句法依赖树抽象而来,该模型在原始的依存句法树的基础上增加了一个抽象节点“CLS”,该符号是BERT模型在对文本进行编码之初自动添加的句子标识符号,用来表示文本整体的上下文信息,在这里将其抽象为一个句子节点并为其和句中的每个词或字构建依赖关系,目的是为了进一步使得依赖树中的每个词语能够获得文本的上下文信息。经过GCN模型对字的邻接图进行编码,得到的文本的句法特征,并将其与前面通过BERT模型编码后的文本的上下文特征进行融合,本实施例中采用的是一个门结构网络,能够通过网络训练学习两种特征各自的融合比例。在进行命名实体识别任务时,将融合后的联合特征通过GRU网络再一次进行编码,之后通过实体分类器输出每个字对应的实体类型标签。而在进行关系抽取任务时,首先将任意两个实体特征嵌入进行拼接,同时将“CLS”的嵌入特征也加入其中,将拼接后的组合特征输入关系选择器,关系选择器将输入相应的关系选择标签,用来从关系嵌入层中选择一种关系嵌入信息作为最后的联合特征补充信息,最后通过关系分类器输出一个二维表,用来表示任意两个实体之间的关系种类。
通过联合抽取模型同时进行实体与关系的抽取,为了使得两种任务的总损失降低,在提取文本特征时,联合抽取模型会尽可能地提取一些同时适应于两种任务的“共有特征”,这样必然会导致其中一些非“共有特征”的丧失。为了进一步丰富关系分类器获得的文本特征信息,联合抽取模型在选择关系前还额外增加了一个关系选择器。在联合抽取模型执行关系分类任务前,通常的操作是将两个要判断的实体特征嵌入进行拼接,然后将其送入到关系分类器中判断它们之间存在的关系种类。在该联合抽取模型中,这些特征嵌入将首先输入关系选择器中,由关系选择器根据不同的特征组合来从关系嵌入层中选择一种关系嵌入作为组合特征的补充信息,然后再经过关系分类器进行判别。其中的关系嵌入是联合抽取模型在训练的过程中经过学习而获得的,与文本的特征嵌入没有直接的联系。因此,这就可以让联合抽取模型在提取文本特征的时候,更多地考虑与命名实体识别相关的信息,从而提高联合抽取模型在实体识别方面的准确性,而不用担心关系抽取任务的准确率会因此而降低。因为,对关系嵌入的补充相当于增加了特征的维度,可以保留更多的与关系抽取任务相关的信息。同时,由于联合抽取模型的实体抽取的准确率的增加,也会进一步提升后续关系分类器在关系判别时的准确性。
关系选择器的状态输入,由于在模型的关系抽取的训练阶段,实体之间的关系类型是未知的。因此,该模型采用强化学习的方式对关系选择器进行训练,其训练模式有别于传统的关系分类器。关系选择器代表智能体,而通过模型编码后的字对嵌入ei,ej∈E以及CLS嵌入hcls经过拼接后作为输入智能体的状态s∈1×3d:
s=[ei;ej;hcls] (11)
关系选择器的行为输出,关系选择器会根据不同的状态输出不同的行为选择概率,同时生成相应的概率分布并进行采样,采样空间为关系的种类数量:
P(A|s)=softmax(W2·(W1s+b1)+b2) (12)
a=sample(probability_distribution(P(A|s))) (13)
其中,W1∈3d×1和W2∈3d×R是关系选择器的训练参数矩阵,R是关系的种类;b1和b2是相应的偏置项;probability_distribution是概率分布生成函数;sample是采样函数,softmax为分类函数,用于为每个类计算一个介于0和1之间的值。
字对关系分类,最后根据采取的动作去从关系嵌入层选择相应的关系嵌入,并与字对嵌入进行拼接输入关系分类器,由关系分类器输入每种关系对应的概率:
er=lookup(Ere,a) (14)
P(yre|ei,ej)=softmax(W3[ei;ej;er]) (15)
其中,Ere∈R×D表示模型的关系嵌入,由模型经过训练得到,D为关系嵌入的维度,是一个超参数;W3∈R×(2d+D)为关系分类器的参数矩阵;yre表示所有的关系类型。
关系选择器的Reward,每种选择行为的奖励Reward则根据最终的关系分类结果来确定。最终的关系分类相当于填充字邻近矩阵的二维表,模型将根据每个表格的填充结果来确定最终的奖励回报用以更新关系选择器,其中,共有以下三种结果:
本实施例中,联合抽取模型分为有监督学习和强化学习两个部分,因此使用了两个不同的优化器来对模型中的参数进行训练,并分别构建了不同的优化函数。
(1)有监督学习优化目标
其中,实体和关系联合抽取作为联合抽取模型的有监督学习任务,分别有两个交叉熵损失函数来进行训练和优化,模型的命名实体识别损失函数如下:
其中,m表示训练样本大小,n表示实体的种类,表示第i个字的第j类标签真实值,/>表示模型输出的相应的概率。
联合抽取模型的关系分类损失函数如下:
其中,m表示训练样本大小,r表示关系的种类,表示第l对字的第k类标签真实值,/>表示联合抽取模型输出的相应的概率。最终的有监督学习任务中的loss函数由命名实体识别损失函数lossner和关系抽取损失函数lossre两部分组合而成:
loss= α·lossner+β·lossre (19)
(2)强化学习优化目标
对于关系选择器的训练则采用策略梯度的方式进行,其优化目标函数为:
本实施例中的联合抽取模型的期望模型的奖励值越大越好,因此构建如下的损失函数:
其中,θ为系选择器的优化参数,πθ为相应的概率分布,at,st表示轨迹τ下的状态动作,R(τ)是奖励值。
为了更好实施本发明实施例中的基于多特征融合的实体关系联合抽取方法,在基于多特征融合的实体关系联合抽取方法基础之上,对应的,本发明实施例还提供了一种基于多特征融合的实体关系联合抽取装置,如图7所示,基于多特征融合的实体关系联合抽取装置700包括:
语义特征提取模块710,根据预训练的BERT模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征;
句法结构提取模块720,根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述改进的中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图;将所述字邻接图输入至预训练的图卷积神经网络GCN模型,得到词与词之间、字与字之间的句法结构特征;
特征融合模型730,根据自学习的门网络结构自主调节所述上下文语义特征和所述句法结构特征的融合权重,得到联合特征;
实体识别模型740,根据所得联合特征,再通过双向GRU编码器进行编码,计算每个字所属的标识概率,得到实体类型;
关系选择模块750,将所述联合特征中的任意两个实体特征或字特征进行拼接,由关系选择器根据不同的拼接特征从自定义的关系中选择一种关系的嵌入作为补充,所选的关系嵌入通过强化学习模型迭代训练进行特征强化;
关系判断模块760,根据所述拼接特征与所述强化后的关系特征,判断每对实体间的关系类型。
上述实施例提供的基于多特征融合的实体关系联合抽取装置700可实现上述基于多特征融合的实体关系联合抽取方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述基于多特征融合的实体关系联合抽取方法实施例中的相应内容,此处不再赘述。
如图8所示,本发明还相应提供了一种电子设备800。该电子设备800包括处理器801、存储器802及显示器803。图8仅示出了电子设备800的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
存储器802在一些实施例中可以是电子设备800的内部存储单元,例如电子设备800的硬盘或内存。存储器802在另一些实施例中也可以是电子设备800的外部存储设备,例如电子设备800上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,存储器802还可既包括电子设备800的内部储存单元也包括外部存储设备。存储器802用于存储安装电子设备800的应用软件及各类数据。
处理器801在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器802中存储的程序代码或处理数据,例如本发明中的基于多特征融合的实体关系联合抽取方法。
显示器803在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器803用于显示在电子设备800的信息以及用于显示可视化的用户界面。电子设备800的部件801-803通过系统总线相互通信。
在本发明的一些实施例中,当处理器801执行存储器802中的基于多特征融合的实体关系联合抽取程序时,可实现以下步骤:
根据预训练的BERT模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征;
根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述改进的中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图;将所述字邻接图输入至预训练的图卷积神经网络GCN模型,得到词与词之间、字与字之间的句法结构特征;
通过自学习权重的门网络结构融合所述上下文语义特征和所述句法结构特征,得到联合特征,根据所述联合特征识别文本中的实体并判断实体间的关系类型。
应当理解的是:处理器801在执行存储器802中的基于多特征融合的实体关系联合抽取程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面相应方法实施例的描述。
进一步地,本发明实施例对提及的电子设备800的类型不做具体限定,电子设备800可以为手机、平板电脑、个人数字助理(personal digitalassistant,PDA)、可穿戴设备、膝上型计算机(laptop)等便携式电子设备。便携式电子设备的示例性实施例包括但不限于搭载IOS、android、microsoft或者其他操作系统的便携式电子设备。上述便携式电子设备也可以是其他便携式电子设备,诸如具有触敏表面(例如触控面板)的膝上型计算机(laptop)等。还应当理解的是,在本发明其他一些实施例中,电子设备800也可以不是便携式电子设备,而是具有触敏表面(例如触控面板)的台式计算机。
相应地,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质用于存储计算机可读取的程序或指令,程序或指令被处理器执行时,能够实现上述各方法实施例提供的基于多特征融合的实体关系联合抽取方法步骤或功能。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件(如处理器,控制器等)来完成,计算机程序可存储于计算机可读存储介质中。其中,计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上对本发明所提供的一种基于多特征融合的实体关系联合抽取方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于多特征融合的实体关系联合抽取方法,其特征在于,包括:
根据预训练的BERT模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征;
根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述改进的中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图;将所述字邻接图输入至预训练的图卷积神经网络GCN模型,得到词与词之间、字与字之间的句法结构特征;
通过自学习权重的门网络结构融合所述上下文语义特征和所述句法结构特征,得到联合特征,根据所述联合特征识别文本中的实体并判断实体间的关系类型。
2.根据权利要求1所述的基于多特征融合的实体关系联合抽取方法,其特征在于,所述根据预训练的BERT模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征,包括:
获取所述原始文本的文本序列,在所述文本序列的首部添加CLS标识符号,在所述文本序列的尾部添加SEP标识符号;
将所述文本序列输入至预训练BERT模型,提取所述文本序列中每个字对应的上下文语义特征。
3.根据权利要求1所述的基于多特征融合的实体关系联合抽取方法,其特征在于,所述根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图,包括:
基于自然语言处理工具包spacy提取所述原始文本的文本分词,构建所述文本分词的原始句法依赖树;
在所述原始句法依赖树中增加CLS节点与所有分词之间的依赖关系,得到改进句法依赖树;所述CLS节点为CLS标识符号的对应节点;
根据所述改进句法依赖树、所述文本分词之间的依赖关系,以及CLS节点与分词之间的关系,以及文本分词中字与字之间的关系,生成文本序列的字邻接图。
4.根据权利要求3所述的基于多特征融合的实体关系联合抽取方法,其特征在于,所述基于自然语言处理工具包spacy提取所述原始文本的文本分词,构建所述文本分词的改进句法依赖树,包括:
对所述原始文本进行分词,提取文本分词,在原始文本首部添加一个CLS标识符号;
以实有向边表示文本分词之间的依赖关系,以虚有向边表示每个文本分词与CLS标识符号的依赖关系,生成文本分词的改进句法依赖树。
5.根据权利要求3所述的基于多特征融合的实体关系联合抽取方法,其特征在于,所述根据所述改进句法依赖树、所述文本分词之间的依赖关系,以及分词与CLS节点的依赖关系,以及文本分词中字与字之间的关系,生成文本序列的字邻接图,包括:
以无向实线表示文本分词中字与字之间的字依赖边;
将所述改进句法依赖树中文本分词间的实有向边改为无向实线,以生成句法依赖边;其中,无向实线的第一端连接实有向边的起始文本分词的最后一个字,无向实线的第二端连接实有向边的指向文本分词的第一个字;
以无向虚线表示每个字与CLS标识符号的全文依赖边,得到字邻接图。
6.根据权利要求5所述的基于多特征融合的实体关系联合抽取方法,其特征在于,所述将所述字邻接图输入至图卷积神经网络GCN模型,得到文本序列的句法结构特征,包括:
构建所述字邻接图的字邻接矩阵,其中,所述字邻接矩阵的每一行/列对应原始文本的一个字;若判断任一行、列对应的两个字之间有依赖关系,则在所述字邻接矩阵中对应区域赋值1,所述依赖关系还包括行、列上同一字之间的自依赖关系;若判断任一行、列上两个字之间没有依赖关系,则在所述字邻接矩阵中对应区域赋值0;
根据GCN模型对所述字邻接矩阵进行编码,得到序列文本的句法结构特征。
7.根据权利要求1所述的基于多特征融合的实体关系联合抽取方法,其特征在于,所述根据所述联合特征识别实体并判断实体间的关系类别,包括:
根据所述上下文语义特征与所述句法结构特征进行特征融合得到每个字的联合特征,融合权重由门网络结构自学习得到;
在进行实体识别时,将所述每个字的联合特征再通过双向GRU编码器进行编码,再计算每个字所属的标识概率;
在进行实体间关系的判断时,根据所述联合特征中的任意两个实体特征或字特征进行拼接,将拼接后的拼接特征输入到关系选择器中,由关系选择器根据不同的拼接特征从自定义的关系中选择一种关系的嵌入作为补充,然后再经过关系分类器进行实体关系判断;
所述关系选择器由自定义reward函数的强化学习模型训练得到,自定义reward函数对每次关系迭代的结果进行正确与错误的奖励,以此生成强化后的关系嵌入;
以所述联合特征作为关系选择器的输入、以所述自定义关系的嵌入作为关系选择器的补充输入,通过强化学习进行关系嵌入的强化,再由关系分类器判断对应实体关系。
8.一种基于多特征融合的实体关系联合抽取装置,其特征在于,包括:
语义特征提取模块,根据预训练的BERT模型对原始文本的文本序列进行编码,得到原始文本的上下文语义特征;
句法结构提取模块,根据原始文本中词与词之间的依赖关系构建改进的中文依存句法树,在所述改进的中文依存句法树中增加CLS标识符号的对应节点与所有分词之间的依赖关系,所述CLS标识符号为BERT模型进行编码时添加在所述原始文本序列上的;将所述改进的中文依存句法树中词与词之间的依赖关系转换为字与字之间的依赖关系,得到字邻接图;将所述字邻接图输入至预训练的图卷积神经网络GCN模型,得到词与词之间、字与字之间的句法结构特征;
特征融合模型,根据自学习的门网络结构自主调节所述上下文语义特征和所述句法结构特征的融合权重,得到联合特征;
实体识别模型,根据所得联合特征,再通过双向GRU编码器进行编码,计算每个字所属的标识概率,得到实体类型;
关系选择模块,将所述联合特征中的任意两个实体特征或字特征进行拼接,由关系选择器根据不同的拼接特征从自定义的关系中选择一种关系的嵌入作为补充,所选的关系嵌入通过强化学习模型迭代训练进行特征强化;
关系判断模块,根据所述拼接特征与所述强化后的关系特征,判断每对实体间的关系类型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于多特征融合的实体关系联合抽取方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于多特征融合的实体关系联合抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310458181.1A CN116402019B (zh) | 2023-04-21 | 2023-04-21 | 一种基于多特征融合的实体关系联合抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310458181.1A CN116402019B (zh) | 2023-04-21 | 2023-04-21 | 一种基于多特征融合的实体关系联合抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116402019A CN116402019A (zh) | 2023-07-07 |
CN116402019B true CN116402019B (zh) | 2024-02-02 |
Family
ID=87017904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310458181.1A Active CN116402019B (zh) | 2023-04-21 | 2023-04-21 | 一种基于多特征融合的实体关系联合抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402019B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202395A (zh) * | 2016-07-11 | 2016-12-07 | 上海智臻智能网络科技股份有限公司 | 文本聚类方法和装置 |
CN111611393A (zh) * | 2020-06-29 | 2020-09-01 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置及设备 |
WO2021159762A1 (zh) * | 2020-09-08 | 2021-08-19 | 平安科技(深圳)有限公司 | 数据关系抽取方法、装置、电子设备及存储介质 |
CN114547298A (zh) * | 2022-02-14 | 2022-05-27 | 大连理工大学 | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 |
CN114692602A (zh) * | 2022-03-23 | 2022-07-01 | 浙江工业大学 | 一种句法信息注意力引导的图卷积网络关系抽取方法 |
CN115688776A (zh) * | 2022-09-27 | 2023-02-03 | 北京邮电大学 | 面向中文金融文本的关系抽取方法 |
-
2023
- 2023-04-21 CN CN202310458181.1A patent/CN116402019B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202395A (zh) * | 2016-07-11 | 2016-12-07 | 上海智臻智能网络科技股份有限公司 | 文本聚类方法和装置 |
CN111611393A (zh) * | 2020-06-29 | 2020-09-01 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置及设备 |
WO2021159762A1 (zh) * | 2020-09-08 | 2021-08-19 | 平安科技(深圳)有限公司 | 数据关系抽取方法、装置、电子设备及存储介质 |
CN114547298A (zh) * | 2022-02-14 | 2022-05-27 | 大连理工大学 | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 |
CN114692602A (zh) * | 2022-03-23 | 2022-07-01 | 浙江工业大学 | 一种句法信息注意力引导的图卷积网络关系抽取方法 |
CN115688776A (zh) * | 2022-09-27 | 2023-02-03 | 北京邮电大学 | 面向中文金融文本的关系抽取方法 |
Non-Patent Citations (4)
Title |
---|
Dependency-driven Relation Extraction with Attentive Graph Convolutional Networks;Yuanhe Tian等;Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing;全文 * |
利用门控机制融合依存与语义信息的事件检测方法;陈佳丽;洪宇;王捷;张婧丽;姚建民;;中文信息学报(第08期);全文 * |
基于字符的中文分词、词性标注和依存句法分析联合模型;郭振;张玉洁;苏晨;徐金安;;中文信息学报(第06期);全文 * |
融合句法依存树注意力的关系抽取研究;张翠;周茂杰;杨志清;;广东通信技术(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116402019A (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Logeswaran et al. | Sentence ordering and coherence modeling using recurrent neural networks | |
CN110334354B (zh) | 一种中文关系抽取方法 | |
CN107330032B (zh) | 一种基于递归神经网络的隐式篇章关系分析方法 | |
CN111753081B (zh) | 基于深度skip-gram网络的文本分类的系统和方法 | |
CN108717574B (zh) | 一种基于连词标记和强化学习的自然语言推理方法 | |
CN111177394A (zh) | 基于句法注意力神经网络的知识图谱关系数据分类方法 | |
CN110390021A (zh) | 药品知识图谱构建方法、装置、计算机设备及存储介质 | |
CN107145484A (zh) | 一种基于隐多粒度局部特征的中文分词方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN114092707A (zh) | 一种图像文本视觉问答方法、系统及存储介质 | |
CN111651974A (zh) | 一种隐式篇章关系分析方法和系统 | |
CN114529757B (zh) | 一种跨模态单样本三维点云分割方法 | |
CN113360621A (zh) | 一种基于模态推理图神经网络的场景文本视觉问答方法 | |
CN114912450B (zh) | 信息生成方法与装置、训练方法、电子设备和存储介质 | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN110222338A (zh) | 一种机构名实体识别方法 | |
CN115510236A (zh) | 基于信息融合和数据增强的篇章级事件检测方法 | |
CN115269834A (zh) | 一种基于bert的高精度文本分类方法及装置 | |
CN113254602B (zh) | 面向科技政策领域的知识图谱构建方法及系统 | |
CN116384371A (zh) | 一种基于bert和依存句法联合实体及关系抽取方法 | |
CN114781380A (zh) | 一种融合多粒度信息的中文命名实体识别方法、设备和介质 | |
CN113312498A (zh) | 用无向图嵌入知识图谱的文本信息抽取方法 | |
CN114881038B (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
CN116402019B (zh) | 一种基于多特征融合的实体关系联合抽取方法及装置 | |
Li et al. | Deep neural network with attention model for scene text recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |