CN113434669A - 一种基于序列标记策略的自然语言关系抽取方法 - Google Patents
一种基于序列标记策略的自然语言关系抽取方法 Download PDFInfo
- Publication number
- CN113434669A CN113434669A CN202110600432.6A CN202110600432A CN113434669A CN 113434669 A CN113434669 A CN 113434669A CN 202110600432 A CN202110600432 A CN 202110600432A CN 113434669 A CN113434669 A CN 113434669A
- Authority
- CN
- China
- Prior art keywords
- model
- sequence
- entity
- marking
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于序列标记策略的自然语言联合关系提取方法,其特点是采用序列标记策略的模型方法,将关系提取转变为序列标签,所述模型为输入层、预训练模型层、识别层和序列标记层构成的联合关系提取模型,所述标记策略在预测关系三元组前推断出句子序列中每个位置的关系数量和实体数量;所述模型的实体识别和关系分类分别由主体实体抽取模块和关系抽取模块完成,且两模块都引入了多头注意力机制,可以捕捉句子中有价值的信息以及任意位置间的关系特征。本发明与现有技术相比具有进一步提高关系提取模型的准确率,有效解决了实体重叠的问题,效果优于其它方法。
Description
技术领域
本发明涉及自然语言处理中关系抽取技术领域,尤其是一种基于序列标记策略的自然语言关系抽取方法。
背景技术
随着信息化技术的高速发展,互联网上各个领域的数据量呈爆炸式增长。如何从海量的数据中提取到有价值的信息,从而提高各行业的效率,为人们提供智能、边界的服务。关系实体抽取作为自然语言处理中的基础任务,能够从无结构的文本中提取出相关的知识,以实体关系三元组的形成呈现。例如,对句子“卓别林在摩登时代中扮演一个工人”进行关系抽取,最终得到的关系三元组为[卓别林,参演,摩登时代],其中“卓别林”和“摩登时代”为主体实体和客体实体,“参演”则是两实体之间存在的关系。关系抽取的研究成果可以应用到多个领域中,如知识库构建、智能信息检索、问答系统开发等。
早期的关系提取模型使用的是pipeline的方法,将关系提取中的两个步骤拆分成两个独立的任务:1)利用神经网络将句子中的实体识别出来;2)提取已识别的实体对之间的关系。Pipeline方法利用两个独立的部分完成实体提取任务,这种方法忽略了命名实体识别任务和关系分类任务之间的关系,导致了模型之间存在传播误差。为了解决pipeline方法中存在的传播误差,模型采用共享参数的方法将两个子任务结合到一个网络模型中,这种方法被称为联合抽取方法。这些方法可以分为三类,第一类使用sequence-to-sequence的方法去解决关系问题,采用神经编码器解码器模型来提取关系,像传统的机器翻译一样,一次预测一个单词。这类方法无法直接预测完整的实体。第二类模型则是通过设计多任务学习的方式来提取关系和实体,模型的性能非常依赖于任务的构建,增加了模型设计的难度。第三类方法则是将关系提取视为序列标签问题,这种方法简化了多标签的分类问题,在关系提取任务上获得了很好的效果。虽然这些模型在关系提取任务上取得了很好的效果。现有模型在关系重叠和实体重叠的问题上的解决上还存在着一些缺陷。这些问题限制了模型性能,所以目前亟需建立一种更为有效的关系抽取模型。
发明内容
本发明的目的是针对现有技术的不足而提出的一种基于序列标记策略的自然语言关系抽取方法,采用联合关系提取模型的方法,以及结合当前主流模型共享参数的特点,通过改进标记策略解决关系重叠和实体重叠的问题来提高模型在关系提取任务上的性能,联合关系提取模型提取的文本中的实体和关系,将关系提取任务转变为序列标签,有效解决了关系重叠和实体重叠的问题,简化了多标签的分类问题,该模型在两个公共数据集上的表现超过了当前主流的基准模型,在关系提取任务上获得了很好的效果。
实现本发明目的的具体技术方案是:一种基于序列标记策略的自然语言联合关系提取方法,其特点是采用序列标记策略的模型方法,将关系提取转变为序列标签,所述模型为输入层、预训练模型层、识别层和序列标记层构成的联合关系提取模型。
所述输入层将文本经过WordPiece分词之后得到子词序列,每个子词根据预训练模型的词表一一对应,对数据进行预处理,去除无效数据和脏数据。
所述预训练模型层预训练模型为模型的不同模块所共享,预训练模型层为BERT模型将子词序列编码成词向量,每个词向量表示对应子词的语义信息,在不断训练模型,会同时微调BERT模型,使模型得到的词向量能更好地表达出关系提取任务中地语义信息和特征。并通过共享预训练参数地方式来减少传播误差,进而增强预训练模型对子词含义表达的准确性。
所述识别层由主体实体识别模块和关系识别模块组成。
所述序列标记层将关系提取任务被转换为序列标注任务,对句子中的每个单词进行标记,序列标注层将序列标注分为实体的标注和关系的标注,模型通过标注出每个实体的开始位置和结束位置来推断出整个实体和存在的关系数量,通过预测出的关系数量则可以避免模型忽略实体对之间存在的多种关系。但预测关系不仅需要知道实体间存在的关系数量还有预测存在何种关系,则需要对每个预定义的关系都进行一次预测,判断是否存在某种关系的概率。
所述联合关系提取模型将关系提取转变为序列标签,具体包括以下步骤:
步骤一:利用WordPiece将句子进行分词,得到一串子词序列;
步骤二:将子词序列输入至预训练模型中进行编码,获得一个向量矩阵;
步骤三:将向量矩阵输入实体和实体和关系识别模块对模型进行训练和预测;
步骤四:根据序列标记策略的标记信息得到对应的三元组。
所述序列标记策略的模型在训练过程中,每个句子的三元组预测都会被转换为预测实体的序列和关系序列,利用最近匹配原则从序列中提取实体,在提取实体的同时可以映射得到对应的关系,从而获取最终的关系三元组。
所述序列标记策略为在序列标记阶段,模型预测出句子中每个位置的的实体数量,以及每个实体存在的关系数量,如果被标记为0,则表明该位置不是实体也不存在任何关系;反之,如果标记为n(n>0),则表明该位置是一个实体,在关系模块中还表示存在n种关系的意义。
本发明结合当前主流模型共享参数的特点,通过改进标记策略解决关系重叠和实体重叠的问题来提高模型在关系提取任务上的性能,所述模型由预训练编码器与实体识别模块和关系识别模块组成,所述预训练编码器采用了BERT模型,BERT模型在多个NLP任务中表现优异,能够精确表达出句子的语义信息和特征;所述实体识别模块和关系识别模块共享同一个预训练编码器,达到不同子任务互相共享信息的作用。每个模块的核心机制为注意力机制,注意力机制作为一种成熟的技术,可以学习到任意位置之间的关联,从而表达出更准确和丰富的语义信息,帮助模型预测出正确的标签。通过与不同方法的模型进行对比实验,该模型在两个公共数据集NYT和WebNLG上性能的明显提升证明了本方法的有效性。
本发明与现有技术相比具有以下有益的技术效果:
1)为了减轻传播误差对模型精度的影响,本发明采取了联合关系提取方法,即共享编码器的参数。同时,不同子任务在学习过程中会注意到不同的特征,共享参数的方法使得两个子任务在训练过程起到了互补的作用,有益于模型在复杂的句子中提取到关键特征,从而提高各个子任务的预测精度。模型的编码器为BERT预训练模型,其在多个不同的自然语言处理任务中均获得了出色的表现,可以为模型提供准确可靠的语义信息和特征。
2)为了解决关系提取任务中的关系重叠和实体重叠的问题,本发明采用了全新的编码策略,标记头尾序列上存在的实体数量从而解决实体重叠的问题,通过标记头尾序列上存在的关系数量,并映射关系的概率分布推断出具体的关系信息。
3)进一步提高了关系提取模型的准确率,为模型的每个模块引入多头注意力层,利用注意力机制来捕捉单词之间可能存在的关系特征。通过对比实验分析,与现有的关系提取模型相比,基于改进的序列标记策略的关系提取模型很好地解决了实体重叠和关系重叠问题,最终表现为在关系提取任务上的效果优于其它方法。
附图说明
图1为序列标记策略的模型框架示意图;
图2为序列标记策略的模型结构示意图;
图3为本发明操作流程图;
图4为序列标记策略示意图。
具体实施方式
以下通过具体实施例对本发明作进一步的详细说明。
实施例1
参阅附图1~图2,本发明基于改进序列标记策略,不仅将传统的关系提取问题转变为序列标签问题,同时解决了关系重叠问题和实体重叠问题。利用预训练模型来提取句子中存在的语义信息和特征,并在解码器中引入了多头注意力机制来预测实体的数量和关系数量,进一步提升模型在关系提取任务上的表现。
参阅附图3,本发明具体操作按下述步骤进行:
(一)输入数据
将句子经过WordPiece分词之后得到子词序列,每个子词根据预训练模型的词表一一对应,子词序列映射成为一个序号序列,序号代表词向量的编号。
(二)预训练模型编码
采用了BERT预训练模型作为关系提取任务的编码器,将处理好的子词序列S=x1,x2,…,xn进行编码,得到句子的向量表达式H=h1,h2,…,hn。BERT编码器被不同的模块共享。因此,实体识别和关系分类两个子任务的语义特征都会被BERT层学习到,在训练过程中不断丰富向量表达式H的语义信息,提高模型识别的准确率。
(三)主体实体识别模块
主体实体识别模块用来识别出句子中所有的主体实体,在该模块中引入了多头注意力层对句子表达式H进行解码,注意力机制可以获取每个单词之间存在的关系特征,且由下述a式表示:
由于BERT编码器的核心机制为自注意力机制,这样便保证了编码器和解码器的一致性。在多头注意力层之上构建一个简单的全连接网络,获取每个位置上存在实体数量的概率P,且由下述b式表示:
选取最有可能的数量结果作为标记值,且由下述c式表示:
主体实体模块的损失函数则由下述d式表示:
(四)关系识别模块
关系实体模块需要识别出客体实体以及关系,该模块首先需要预测每个单词与一个主体实体之间的关系概率分布,且由下述e~f式表示:
利用多头注意力机制将主体实体的语义信息融入句子表达式hi中,利用全连接层和sigmoid激活函数得到主体实体sk与单词xi关于关系r的概率分布在此基础之上,构建Transformer层来预测每个单词与主体实体sk关系数量,且由下述h~i式表示:
关系识别模块的损失函数则由下述k式表示:
(五)序列标记
参阅附图4,识别出一个实体只需要知道实体在句子中的开始位置和结束的位置,通过引入头尾双序列方法来实现这一目标。主体实体识别模块输出Tagsb0(xi)=0表示位置i的单词不是任何一个主体实体的开始或结尾位置。当输出Tagsb0(xi)=n(n>0),则表示以单词xi结尾或开头的实体有n个。根据最近匹配原则识别出主体实体,有效地解决了重叠实体问题。关系模块输出的标签Tagrel(xi)通过推断以单词xi为客体实体的开头和结尾的实体数量,同时还表示了该位置的客体实体与对应的主体实体之间存在的关系数量,从而解决关系重叠问题。
本发明提出了一种基于序列标记策略的联合关系提取模型来提取文本中的实体和关系,模型将关系提取任务转变为序列标签问题。为了解决关系重叠问题和实体重叠问题,提出了改进的标记策略,在预测关系三元组(主体实体,关系,客体实体)前推断出句子序列中每个位置的关系数量和实体数量。模型的实体识别和关系分类任务由两个模块完成,分别为主体实体抽取模块和关系抽取模块。两个模块都引入了多头注意力机制,可以捕捉句子中有价值的信息以及任意位置间的关系特征。主体实体抽取模块抽取三元组的主体实体,关系抽取模块则负责预测客体实体和关系。在关系抽取模块中加入了Transformer来预测实体对之间存在的关系数量,进一步提高模型预测的准确度。最后,在NYT和WebNLG两个数据集上进行了对比实验,该模型在两个公共数据集上的表现超过了当前主流的基准模型。
以上实施例只是对本发明做进一步说明,并非用以限制本发明专利,凡为本发明等效实施,均应包含于本发明专利的权利要求范围之内。
Claims (6)
1.一种基于序列标记策略的自然语言联合关系提取方法,其特征在于采用序列标记策略的模型方法,将关系提取转变为序列标签,所述模型为输入层、预训练模型层、识别层和序列标记层构成的联合关系提取模型;所述输入层对数据进行预处理,去除无效数据和脏数据;所述预训练模型层预训练模型为模型的不同模块所共享;所述识别层由主体实体识别模块和关系识别模块组成;所述序列标记层将关系提取任务被转换为序列标注任务,对句子中的每个单词进行标记。
2.根据权利要求1所述基于序列标记策略的自然语言联合关系提取方法,其特征在于所述序列标记策略为在序列标记阶段,模型预测出句子中每个位置的的实体数量,以及每个实体存在的关系数量,如果被标记为0,则表明该位置不是实体也不存在任何关系;反之,如果标记为n>0,则表明该位置是一个实体,在关系模块中表示存在n种关系。
3.根据权利要求1所述基于序列标记策略的自然语言联合关系提取方法,其特征在于所述联合关系提取模型将关系提取转变为序列标签,具体包括以下步骤:
步骤一:利用WordPiece将句子进行分词,得到一串子词序列;
步骤二:将子词序列输入至预训练模型中进行编码,获得一个向量矩阵;
步骤三:将向量矩阵输入实体和实体和关系识别模块对模型进行训练和预测;
步骤四:根据序列标记策略的标记信息得到对应的三元组。
4.根据权利要求1所述基于序列标记策略的自然语言联合关系提取方法,其特征在于所述输入层将文本经过WordPiece分词之后得到子词序列,每个子词根据预训练模型的词表一一对应。
5.根据权利要求1所述基于序列标记策略的自然语言联合关系提取方法,其特征在于所述预训练模型层为BERT模型将子词序列编码成词向量,每个词向量表示对应子词的语义信息,在不断训练模型的同时微调BERT模型,使模型得到的词向量能更好地表达出关系提取任务中地语义信息和特征,并通过共享预训练参数地方式减少传播误差,增强预训练模型对子词含义表达的准确性。
6.根据权利要求1所述基于序列标记策略的自然语言联合关系提取方法,其特征在于所述序列标注层将序列标注分为实体的标注和关系的标注,模型通过标注出每个实体的开始位置和结束位置来推断出整个实体和存在的关系数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110600432.6A CN113434669A (zh) | 2021-05-31 | 2021-05-31 | 一种基于序列标记策略的自然语言关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110600432.6A CN113434669A (zh) | 2021-05-31 | 2021-05-31 | 一种基于序列标记策略的自然语言关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113434669A true CN113434669A (zh) | 2021-09-24 |
Family
ID=77804227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110600432.6A Pending CN113434669A (zh) | 2021-05-31 | 2021-05-31 | 一种基于序列标记策略的自然语言关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434669A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501830A (zh) * | 2023-06-29 | 2023-07-28 | 中南大学 | 一种生物医学文本的重叠关系联合抽取方法及相关设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133038A (zh) * | 2018-01-10 | 2018-06-08 | 重庆邮电大学 | 一种基于动态记忆网络的实体级别情感分类系统及方法 |
CN108563653A (zh) * | 2017-12-21 | 2018-09-21 | 清华大学 | 一种用于知识图谱中知识获取模型的构建方法及系统 |
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
-
2021
- 2021-05-31 CN CN202110600432.6A patent/CN113434669A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563653A (zh) * | 2017-12-21 | 2018-09-21 | 清华大学 | 一种用于知识图谱中知识获取模型的构建方法及系统 |
CN108133038A (zh) * | 2018-01-10 | 2018-06-08 | 重庆邮电大学 | 一种基于动态记忆网络的实体级别情感分类系统及方法 |
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
钟华帅: "基于深度学习的实体和关系联合抽取模型研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501830A (zh) * | 2023-06-29 | 2023-07-28 | 中南大学 | 一种生物医学文本的重叠关系联合抽取方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN110633683B (zh) | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 | |
CN112183064B (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
CN111832293B (zh) | 基于头实体预测的实体和关系联合抽取方法 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
Han et al. | A survey of transformer-based multimodal pre-trained modals | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN113434669A (zh) | 一种基于序列标记策略的自然语言关系抽取方法 | |
CN112651241A (zh) | 一种基于半监督学习的汉语并列结构自动识别方法 | |
CN113076421A (zh) | 一种社交噪音文本实体关系抽取优化方法及系统 | |
CN116958677A (zh) | 一种基于多模态大数据的互联网短视频分类方法 | |
CN116304064A (zh) | 一种基于抽取式的文本分类方法 | |
CN116975161A (zh) | 电力设备局放文本的实体关系联合抽取方法、设备、介质 | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN115481636A (zh) | 一种面向技术文献的技术功效矩阵构建方法 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN111708896B (zh) | 一种应用于生物医学文献的实体关系抽取方法 | |
CN114330352A (zh) | 一种命名实体识别方法和系统 | |
Su et al. | Mask-vit: an object mask embedding in vision transformer for fine-grained visual classification | |
CN114611487B (zh) | 基于动态词嵌入对齐的无监督泰语依存句法分析方法 | |
CN116070643B (zh) | 一种古文到英文的固定风格翻译方法及系统 | |
CN117473096B (zh) | 一种融合latex标签的知识点标注方法及其模型 | |
CN116304019B (zh) | 一种争议焦点体系构建与识别方法 | |
CN116227627A (zh) | 一种基于多信息源增强的多选题干扰项排序方法及系统 | |
CN117056513A (zh) | 一种基于文本图表征的隐式情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210924 |