CN116796744A - 一种基于深度学习的实体关系抽取方法及系统 - Google Patents
一种基于深度学习的实体关系抽取方法及系统 Download PDFInfo
- Publication number
- CN116796744A CN116796744A CN202310501251.7A CN202310501251A CN116796744A CN 116796744 A CN116796744 A CN 116796744A CN 202310501251 A CN202310501251 A CN 202310501251A CN 116796744 A CN116796744 A CN 116796744A
- Authority
- CN
- China
- Prior art keywords
- entity
- relation
- model
- words
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 126
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 8
- 238000005065 mining Methods 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims abstract description 7
- 238000009411 base construction Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 63
- 230000007246 mechanism Effects 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 238000013500 data storage Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000008520 organization Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000000051 modifying effect Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 44
- 230000003935 attention Effects 0.000 description 40
- 238000002372 labelling Methods 0.000 description 22
- 230000000694 effects Effects 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000011176 pooling Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000011068 loading method Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 102100032884 Neutral amino acid transporter A Human genes 0.000 description 2
- 101710160582 Neutral amino acid transporter A Proteins 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 102100022493 Mucin-6 Human genes 0.000 description 1
- 108010008692 Mucin-6 Proteins 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000010332 selective attention Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的实体关系抽取方法及系统,所述实体关系抽取方法包括:S1:构建领域词库步骤,基于规则挖掘、中文命名实体识别工具及知识图谱检索构建领域词库;S2:实体识别模型构建步骤,构建的实体识别模型基于字词联合嵌入的表示方法,通过双向长短时记忆神经网络和条件随机场进行实体识别;S3:领域知识库构建步骤,所述领域知识库被配置为包括维基百科、各知识图谱以及基于依存句法分析设计的6种抽取范式;S4:构建关系抽取模型步骤,基于PCNN的实体关系抽取模型面向预设领域的实体关系抽取,得到文本特征语义表示。
Description
技术领域
本发明属于人工智能领域,尤其涉及一种基于深度学习的实体关系抽取方法及系统。
背景技术
随着深度学习的不断发展,国内外学者将其不断应用于各个新的领域,像语音识别、情感分析、智能问答、机器阅读理解等。这些领域都涉及到一个共同的部分——自然语言。自然语言处理技术则是让机器理解人类自然语言的基础与核心,其主要功能包括分词、词性标注、语义依存分析等,这些都是最底层最基础的的语言分析技术。
其中,实体关系抽取是最核心的部分之一。如何高效快捷地从表达形式各异,冗余分散的数据中准确提取出高质量、结构化的知识并为各个行业领域提供支持成为了当前的研究热点。自然语言文本中所蕴含的知识主要包括一组或多组被提及的实体以及相关联实体之间的关系。而信息抽取则是研究如何解决上述问题的关键技术。
20世纪90年代消息理解会议(Message Understanding Conference,MUC)中首次提出关系抽取这一概念,通过模板构建的方式解决这一问题。之后,在自动内容抽取会议(Automatic Content Extraction,ACE)中,定义了信息抽取的4个主要研究方面,分别为命名实体识别,关系抽取、事件抽取和指代消解,其中最为关键的两个方面就是实体的抽取与关系的识别。命名实体识别在MUC-6中被首次提出,定义了该任务主要识别的对象为人名、地名、组织机构名以及时间、货币等名词短语,其研究难点在于词语数量巨大,没有可借鉴的词典而且相当数量的词语具有强领域相关性。而关系抽取任务则是为了识别出不同实体间是否存在显式或者隐式的关系,其研究难点在于关系的表达多样化,且准确性依赖于命名实体识别的结果。目前,面向英文的实体关系抽取技术已日趋成熟,而中文由于其语言的特殊性仍在研究阶段。
北京睿企信息科技有限公司的专利申请“一种实体关系抽取方法及系统”(专利号:CN202211045358.7),是一种基于机器学习的实体关系抽取方法,方法包括:将待提取文本r输入经训练的第一机器学习模型预测得到n个实体标签,并将带有实体标签的r和所有字符的特征向量输入经训练的第二机器学习模型预测主语,并在主语的两侧增加第一标记符号和第二标记符号之后得到调整后的文本ru,获取ru更新后的特征向量,将ru、主语和所有字符更新后的特征向量输入到经训练的第二机器学习模型中预测宾语实体的关系标签,通过该方法解决级联法中BERT模型计算量大的问题。该方法的缺点是,并未考虑文本的上下文关系,如文中存在前后多个实体之间有并列、包含等语言关系。
北京中船信息科技有限公司的专利申请“一种实体关系的抽取方法”(专利号:CN202211002675.0),是一种基于知识蒸馏的实体关系抽取方法。该方法包括:利用BERT模型对待抽取的文本数据进行编码,获得所述文本数据的向量化表示;其中,所述文本数据包括至少一个句子;基于所述文本数据的向量化表示,利用实体关系抽取模型获取所述文本数据中单词对存在特定关系的概率;其中,所述实体关系抽取模型基于多头注意力机制和知识蒸馏构建。该方法的缺点是,无反馈、无法避免教师大模型的耗时训练、教师模型和学生模型存在gap、学生模型对教师模型依赖性强等。
南京航天数智科技有限公司的专利申请“一种基于指针网络的刑事案情实体关系联合抽取方法”(专利号:CN202210603102.7),是一种基于指针网络的刑事案情实体关系联合抽取方法。该方法包括:本发明将刑事案情实体关系抽取看作三元组抽取问题,即先抽取头实体,在通过头实体相关信息抽取尾实体和关系,具体先对法律文书中对案情描述部分的目标文本进行编码,再通过单层指针网络解码方式抽取头实体和头实体类型;接着融入上下文编码信息、头实体特征编码和位置编码信息,最后通过多层指针网络解码方式抽取尾实体和关系类型。该方法的缺点是,针对刑事案情这一专属领域进行实体关系抽取,无法适用于其他特定场景,且针对部分特殊实体,很难准确抽取出实体名称。
发明内容
本发明的目的在于:为了克服现有技术问题,公开了一种基于深度学习的实体关系抽取方法及系统,通过本发明技术方案提高了复杂实体的识别准确率。
一方面,本发明目的通过下述技术方案来实现:
一种基于深度学习的实体关系抽取方法,所述实体关系抽取方法包括:
S1:构建领域词库步骤,基于规则挖掘、中文命名实体识别工具及知识图谱检索构建领域词库;
S2:实体识别模型构建步骤,构建的实体识别模型基于字词联合嵌入的表示方法,通过双向长短时记忆神经网络和条件随机场进行实体识别;
S3:领域知识库构建步骤,所述领域知识库被配置为包括维基百科、各知识图谱以及基于依存句法分析设计的6种抽取范式;
S4:构建关系抽取模型步骤,基于PCNN的实体关系抽取模型面向预设领域的实体关系抽取,得到文本特征语义表示。
根据一个优选的实施方式,步骤S1中规则挖掘为:
通过批量分析文本内容,发现预设领域中涉及到的专业领域名词主要以地点、武器装备和组织机构为主,并根据采集的文本内容设计相应的规则发掘出文本中的感兴趣词汇;
还包括:利用维基百科对挖掘词汇进行词条搜索,采用广度优先遍历的方式将关联词条加入到待搜索列表中,每进行一层遍历后进行去重并统计词库扩充率,当词库扩充率小于设定阈值时停止搜索。
根据一个优选的实施方式,步骤S1还包括:通过实体消歧、共指消解方式对词库进行规范化处理,得到最终的领域词库。
根据一个优选的实施方式,步骤S2中,实体识别模型基于BERT语言模型对待处理的文本以及步骤S1构建好的领域词库进行特征表示。
根据一个优选的实施方式,步骤S2中双向长短时记忆神经网络模型包括输入门、输出门、遗忘门三个门控制单元以及细胞记忆状态和细胞输出状态,输入门对单元时间内细胞状态的添加进行控制,遗忘门则针对上个单元时间细胞状态的内容进行丢弃,输出门针对当前单元时间的细胞状态的内容进行选择保留以传递到下一单元时间。
根据一个优选的实施方式,步骤S2中条件随机场为概率无向图模型,通过考虑相邻标签关系并计算一个序列的联合概率以获得一个全局最优的标记序列。
根据一个优选的实施方式,基于依存句法分析设计6的种抽取范式包括:
范式1:针对三个连续名词,且其第二个名词和第三个名词对于前一名词均有修饰作用,提取出:名词1,名词2,名词3;
范式2:针对句子中的动宾关系,通过依存句法分析得到分析语句中是否存在主谓关系以及动宾关系,并且在同一路径下,若存在,则提取出:主语,谓语,宾语;
范式3:针对句子中的介宾关系,通过依存句法分析得到分析语句中是否存在主谓关系以及介宾关系,并且在同一路径下,若存在,则提取出:主语,谓语,宾语;
范式4:针对句子中出现的并列主语现象,即存在句子成分为主谓的词语,同时存在句子成分为同位语的词语,并且该词语的同位语指向为主语,则提取出:主语1,谓语,宾语和主语2,谓语,宾语;
范式5:针对句子中出现的并列动宾现象,即存在句子成分为介宾关系的词语,同时存在句子成分为同位语的词语,并且该词语的同位语指向为动宾关系的宾语,则提取出:主语,谓语,宾语1和主语,谓语,宾语2;
范式6:针对句子中出现的并列介宾现象,即存在句子成分为介宾关系的词语,同时存在句子成分为同位语的词语,并且该词语的同位语指向为介宾关系的宾语,则提取出:主语1,谓语,宾语和主语2,谓语,宾语。
根据一个优选的实施方式,步骤S4中进行实体关系抽取具体包括:先,通过词嵌入层实现自然语言文本的向量转化,并引入词语的词性以及词语位置信息以得到更加丰富的文本语义结构信息,并将词向量特征用于卷积神经网络的输入;然后,通过卷积计算以及分段最大池化提取文本语句的特征。
根据一个优选的实施方式,所述实体关系抽取方法还包括:S5:基于注意力机制完成关系抽取模型的模型优化;步骤S5具体包括:经过句子级别注意力机制以及关系级别注意力机制计算,然后通过softmax函数对各个关系的条件概率进行预测,最后采用交叉熵损失函数训练并更新关系抽取模型。
另一方面,本发明还公开了一种基于深度学习的实体关系抽取系统,所述实体关系抽取系统包括实体识别模块、实体关系抽取模块和数据存储展示模块;其中,所述实体识别模块内配置有领域词库和实体识别模型,所述实体关系抽取模块内配置有领域知识库和关系抽取模型,所述数据存储展示包括数据存储单元和可视化展示单元。
前述本发明主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本发明可采用并要求保护的方案。本领域技术人员在了解本发明方案后根据现有技术和公知常识可明了有多种组合,均为本发明所要保护的技术方案,在此不做穷举。
本发明的有益效果:
本发明针对特定领域实体数量众多,分类复杂且容易出现嵌套词汇,基于深度学习设计了字词联合嵌入的向量化表示,构建领域特征词库将其领域词汇特征引入到深度学习模型中,以使得模型能够充分学习领域特征,针对嵌套词汇等复杂领域词专门设计了相应的文本标注格式,以明确划分词语边界问题,从而提高复杂实体的识别准确率。
本发明通过构建高质量知识库并引入依存句法分析范式扩充知识库关系种类,提高远程监督数据集质量,减少噪声出现。
在此基础之上,采用基于PCNN的关系抽取模型并引入关系注意力机制和句子注意力机制以实现对文本语料的充分表征和学习,降低噪声问题,提高关系抽取模型效果。
附图说明
图1是本发明实体关系抽取方法的流程示意图;
图2是本发明实体关系抽取系统的结构示意图;
图3是本发明测试例中实验结果对比示意图;
图4是本发明实体识别模型架构图;
图5是本发明向量嵌入表示模型图;
图6是本发明BERT编码结构表示示意图;
图7是本发明关系抽取模型架构图;
图8是CBOW模型示意图;
图9是Skip-gram模型示意图;
图10是依存句法分析范式示意图;
图11是范式1样例分析图;
图12是范式2样例分析图;
图13是范式3样例分析图;
图14是范式4样例分析图;
图15是范式5样例分析图;
图16是范式6样例分析图;
图17是本发明LSTM单元结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
实施例1:
参考图1所示,图中示出了一种基于深度学习的实体关系抽取方法,所述实体关系抽取方法包括如下步骤:
步骤S1:构建领域词库步骤,基于规则挖掘、中文命名实体识别工具及知识图谱检索构建领域词库。
本实施例利用领域词典的这一性质,构建相当规模的领域词典,后续将其应用到基于字词嵌入的命名实体识别中,通过深度学习的方式充分利用其领域词汇特征,以提高命名实体效果。
具体地:
(1)规则挖掘
本发明爬取的文本语料具有明显的领域特征,通过批量分析文本内容,可以发现特定领域中涉及到的专业领域名词主要以地点、武器装备和组织机构为主,因此本发明设计了两百多个启发式词汇,并根据采集的文本内容设计相应的规则发掘出文本中的特殊词汇,除此之外,本发明还利用维基百科对挖掘词汇进行词条搜索,采用广度优先遍历的方式将关联词条加入到待搜索列表中,每进行一层遍历后进行去重并统计词库扩充率,当词库扩充率小于设定阈值时停止搜索。
(2)中文命名实体识别工具
命名实体识别模块通过识别文本中的人名、地名、机构名等为后续的文本处理提供底层服务支撑。目前中文的命名实体识别工具主要包括哈工大的语言技术平台(Language Technology Platform,LTP)、汉语言处理工具包(Han Language Processing,HanLP)以及斯坦福大学的StanfordNLP。由于其不同的处理工具侧重点不同,而本发明针对文本语料的侧重点在于中英文人名、音译名以及中英文地点名,因此本发明采用上述三种自然语言处理工具对文本语料进行分析,得到相应识别词汇。
(3)知识图谱检索
本发明旨在构建面向特定领域的知识图谱,对于现有的开放知识图谱,可通过设定启发词汇进行知识图谱的检索,既可以扩充待构建的领域知识图谱,又可以完善自定义词典。
通过上述规则挖掘、中文命名实体识别工具及知识图谱检索步骤,得到构建好的初始领域词库。在此基础之上,通过实体消歧、共指消解等方式对词库进行规范化处理,得到最终的领域词库,为后续实体识别模型提供领域特征学习。
步骤S2:实体识别模型构建步骤,构建的实体识别模型基于字词联合嵌入的表示方法,通过双向长短时记忆神经网络和条件随机场进行实体识别。以提高特定领域复杂实体的识别准确率。
优选地,步骤S2中,实体识别模型基于BERT语言模型对待处理的文本以及步骤S1构建好的领域词库进行特征表示。
基于BERT的字词向量表示
基于Transformers的双向编码表示(Bidirectional Encoder Representationfrom Transformers,BERT)作为一个预处理的语言表征模型,打破了传统的采用单向语言模型以及多个单项模型浅层拼接进行预训练的方式,采用Transformers作为算法的主要框架,构建了掩码语言模型(Masked Language Model,MLM)和下句预测模型(Next SentencePrediction,NSP)两个预训练任务。通过BERT模型,可以联合调节每一层中的上下文以预先训练深度双向表示,避免了因工程任务导致针对特殊任务修改体系框架的问题。
本实施例采用BERT语言模型对待处理的文本以及构建好的领域词典进行特征表示。模型的输入为分割后的字符线性序列,既可以是一句话,也可以是大段文本。在每一句文本的开头以[CLS]表示,结尾以[SEP]标识。模型的输入表示主要包括字嵌入,分割嵌入以及位置嵌入这三部分组成。字嵌入即为每个字符的嵌入表示,其表示矩阵可以通过随机初始化得到,并能够在训练中进行更新。分割嵌入则是对该字符属于哪个句子进行区分,位置向量主要为引入单词的位置顺序信息。例句“无人机从东海出发”的向量嵌入表示模型如图17所示。
在对句子中的单词进行向量表征后,需要进行特征编码操作。模型采用基于注意力机制的Transformers的Encoder组件进行编码表示。如图6所示,在编码表示中主要包括n个Encoder层,每个Encoder组件包括两个子层,其计算输出方式如式1和式2所示。表示第i层Encoder组件的第一个子层输出,/>表示第i层Encoder组件最后的输出结果。
在子层1中使用了多头注意力机制,这是因为模型在对词进行编码时,会将构成该序列的所有词的特征表示加权求和,这尽管降低了序列中单个词的影响力,但是还会造成词语本身影响力过大。通过引入多头注意力机制,可以生成多个表示空间,然后将该序列中的词向量映射到不同的表示空间中,这将使得模型能够学习不同位置的信息。在两个子层中,分别都进行了残差连接以及层归一化的操作。残差连接的主要操作是在原有输入x的非线性变化输出f(x)基础之上再进行+x操作,即f(x)+x,这样做可以防止在反向传播过程中出现梯度消失问题。而层归一化处理的目的是将输入数据分布在非线性激活函数的非饱和区。对一个样本处理时,用H表示该层的隐藏结点数量,ai表示第i层隐藏结点的输出,层归一化的计算方式如式3和4所示。通过计算得到μ和δ,再根据式5可以计算得到层归一化后的值。
编码完成后,需要对模型进行预训练。预训练策略分为两种:MLM策略和NSP策略。由于本模型的最终目标为命名实体识别,输入的序列表现为词粒度表示,同时考虑句与句之间的关系,因此采用MLM策略和NSP策略联合进行模型的预训练处理。MLM策略采用随机掩盖输入中的15%的单词元素,然后对元素进行预测推理,这种方式参考了英语完形填空根据上下文推理缺省单词的思想,相比单项推理(从左到右或者从右到左)策略,MLM可以实现任意方向的推理预测。然而MLM策略的预测方案会造成两个潜在问题:第一,如若预训练策略采用MASK标记符号对输入序列进行随机掩盖,而在后期微调阶段没有使用该方案,则会使得预训练阶段与微调阶段的目标偏差;其次,收敛时间过长。时间问题目前暂时无法解决,但是对于第一个问题可以将15%用MASK标记符号进行遮盖的这部分划分为3类:其中的80%用MASK标记,10%用其他词替换,10%不做替换。通过这种方式,可以降低可能引起的目标偏差。
本实施例针对中文文本进行命名实体识别,结合中文的特征习惯,采用全词Mask的方式对预训练文本进行处理。对于某一文本句,如果该句中一个完整的词的某一部分被MASK掩盖,则该词的其他内容也会被MASK标记覆盖。全词Mask操作如表1所示。
表1MASK覆盖样例表
本实施例采用哈工大讯飞联合实验室发布的全词覆盖中文BERT预训练模型实现词语的向量化表示,并通过领域词库增强文本的领域特性,其模型嵌入具体如图4中的BERT层所示。对于文本语料,通过语义相似度计算得到文本的中某一词汇组成与领域词库中的词汇的相近程度,在计算结果大于设定阈值的基础上,选择最为相似的词语将其与文本中的字向量进行联合嵌入。采用相似度计算而不选择全匹配的主要原因是现有领域词典并不能完全包含领域特征词汇,通过相似度计算能让更多的文本学习领域词汇的额特征。
以“Z空军1架F-15战斗机从H国乌山基地起飞,向南飞行”为例,对于“F-15战斗机”,领域词汇中没有相同词汇,但是包含“F战斗机”与其相似度特征极高的词汇,因此会将词向量“F战斗机”的权重赋予文本中组成“F-15战斗机”的所有单个字向量,对于其他词典中没有的字向量,则保持原有状态不变。
基于BiLSTM+CRF的实体识别
(1)双向长短时记忆神经网络
长短时记忆神经网络模型包括输入门、输出门、遗忘门三个门控制单元以及细胞记忆状态和细胞输出状态,输入门对单元时间内细胞状态的添加进行控制,遗忘门则是针对上个单元时间细胞状态的内容进行丢弃,输出门针对当前单元时间的细胞状态的内容进行选择保留以传递到下一单元时间。其具体的公式如6到10所示。
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (6)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (7)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (8)
ct=ft⊙ct-1+it⊙tanh(Wxgxt+Whght-1+Wcgct-1+bc) (9)
ht=ot⊙tanh(ct) (10)
其中,xt表示t时刻的词向量,it、ot、ft分别表示输入门,输出门和遗忘门,ct和ht表示细胞状态和隐藏状态。σ表示激活函数,⊙表示向量点乘运算。
LSTM的单元结构如图5所示,LSTM模型只能记录当前时刻之前的信息,对于该时刻之后的信息无记录保存,因此通过添加一层反向时序序列以实现在指定的时间范围内有效利用t时刻之前的特征以及t时刻之后的特征,并利用时间的反向传播来训练BiLSTM模型。
在BiLSTM层中,正向LSTM神经网络的输入是经过词嵌入层映射的字符向量顺序序列,反向LSTM神经网络的输入则是逆序序列。假设t时刻,正向输入的隐藏状态向量为,反向输入的隐藏状态向量为/>,则该时刻的双向LSTM神经网络的输出为/>
(2)条件随机场
尽管BERT拥有极其强大的深层语言表征能力,对于文本序列建模表示效果极佳,但是类似于BiLSTM,它们均无法学习文本序列中对应标签之间的相互关系。但是这种相互关系能够表示标签的合理性。因此本文在BiLSTM层的基础上增加CRF层,以利用条件随机场学习文本序列的标签依赖关系。
条件随机场作为一种概率无向图模型,通过考虑相邻标签关系并计算一个序列的联合概率以获得一个全局最优的标记序列。序列标注可以分为原始标注以及联合标注两种标注方式。原始标注为每一元素标注一个标签,而联合标注则是将所有的分段标注同样的标签。在命名实体识别中,需要对切分后的文本进行分类和定位,以识别其为组织机构、人名、地点等。为了实现联合标注问题,可以将其转化为原始标注问题,一般采用BIO标注方法,将每个元素标注为“B-X”、“I-X”或者“O”。“B-X”表示该标记元素所属词汇属于X类型并且位于该词汇的起始位置,“I-X”表示该标记元素所属词汇属于X类型并且位于该词汇的中间位置,“O”表示该标记元素不属于任何类型。
本文针对特定领域进行命名实体识别,除了常见的简单词汇,还有许多嵌套组合的复杂领域词汇。简单词汇词语长度较短,利用传统的BIO标注并无问题。然而对于复杂词汇,大都由多个简单词汇构成,如“菲律宾克拉克空军基地”一词,可划分为多个简单词汇,如果采用传统的标注方式,仅仅对命名实体的首部进行标注将会导致较多有用信息的缺失。因此本文针对简单实体和复杂实体分别设计相应的标注格式,以解决命名实体识别中对于复杂词的识别准确率较低的问题。
本文所选定的特定领域主要关注人名、地名、武器装备名以及机构名这四类,因此本文针对这四类实体借鉴BIO标注格式设计相应的简单实体标注格式以及复杂实体标注格式。针对简单实体,采用两段标记,B表示实体开始部分,I表示实体内部组成,O表示其它非实体部分;针对复杂实体,采用三段标记,第一部分表示该字所属简单实体在复杂实体中的位置,第二部分表示该字在所属简单实体中的位置,第三部分表示该字所属复杂实体的实体属性标识。同样,B表示实体开始部分,M表示实体内部组成,E表示实体结束部分,O表示其它非实体部分,BIO编码表示如表2所示。
表2BIO编码表示
以“今天早上一架侦察机从澳大利亚埃姆伯勒基地起飞”为例,“澳大利亚埃姆伯勒基地”为嵌套词汇,该句的标注格式为[O,O,O,O,O,O,B-WEP,I-WEP,I-WEP,O,B-B-LOC,B-M-LOC,B-M-LOC,B-E-LOC,I-B-LOC,I-M-LOC,I-M-LOC,I-E-LOC,I-B-LOC,I-M-LOC,O,O]。
本文将CRF嵌入到BiLSTM中对BiLSTM层的输出进行处理以实现辅助命名实体识别,这是目前最主流的方法之一。首先需要计算每个词得到不同的标签分数,其计算公式如11所示。
S(e)(hi)=V(e)f(U(e)hi+b(e)) (11)
其中,上标(e)表示实体识别任务,f(*)表示激活函数,V(e)∈Rp×l,U(e)∈Rl×2d,b(e)∈Rl,其中,d是LSTM的隐藏层数,p是命名实体识别标签的数量,l表示层宽。
对于一个句子X={c1,c2,...,cn},其输出标签序列y的分值计算公式如式12所示。
其中,T为转移矩阵,表示标签yi转移到yi+1的概率,/>表示向量的组合能够获得标签为yi的概率。
最后计算句子的标签序列概率,计算方式如式13所示:
在预测的时候用Viterbi算法得到分数最高的序列标签,在进行命名实体识别的时候通过最小化交叉熵损失以优化网络参数和CRF。
步骤S3:领域知识库构建步骤,所述领域知识库被配置为包括维基百科、各知识图谱以及基于依存句法分析设计的6种抽取范式。
远程监督需要外部知识库对训练样本进行自动标注,因此构建高质量的领域知识库是远程监督实体关系抽取的首要工作。知识库中知识的数量和质量决定了样本标注的质量,本文除了利用现有知识图谱和维基百科,还基于依存句法分析设计6种抽取范式,以扩展知识库的关系种类。
基于依存句法分析抽取知识,其准确率主要取决于两个方面:一是文本的语句表达规范性及复杂性,二是现有工具对文本中实体识别的准确程度。因此本文主要选取格式较为统一的简单句,并利用上一章节中的领域词典以及自然语言处理工具LTP对采集到的垂直领域文本进行依存句法分析处理。经实验,依存句法分析处理领域相关文本的效果良好。在此基础之上,本文设计了六种依存句法抽取范式,以提取实体关系,其具体如图10所示。
其中,范式1主要针对三个连续名词,且其第二个名词和第三个名词对于前一名词均有修饰作用(Attribute,ATT),因而可以提取出(名词1,名词2,名词3),例如针对“Z国总统BBB访问Y国”这一样例,可以得到(Z国,总统,BBB)的知识三元组。,其依存句法分析结构如图11所示。
范式2主要针对句子中的动宾关系(Verb-Object,VOB),通过依存句法分析得到分析语句中是否存在主谓关系以及动宾关系,并且在同一路径下,若存在,则提取出(主语,谓语,宾语),例如针对“Z国总统BBB访问Y国”这一样例,可以得到(BBB,访问,Y国)的知识三元组。其依存句法分析结构如图12所示。
范式3主要针对句子中的介宾关系(Preposition-Object,POB),通过依存句法分析得到分析语句中是否存在主谓关系以及介宾关系,并且在同一路径下,若存在,则提取出(主语,谓语,宾语),例如针对“Z海军1架C-2A舰载运输机从巴林起飞”这一样例,可以得到(C-2A舰载运输机,起飞,巴林)的知识三元组,其依存句法分析结构如图13所示。
范式4主要针对句子中出现的并列主语现象,即存在句子成分为主谓(Subject-Verb,SBV)的词语(即主语),同时存在句子成分为同位语(Coordinate,COO)的词语,并且该词语的COO指向为主语,则可以提取出(主语1,谓语,宾语)和(主语2,谓语,宾语)。例如,针对“X国海军导弹驱逐舰EE号和巡逻船WW前往阿曼湾”这一样例,可以得到(导弹驱逐舰EE号,前往,阿曼湾)和(巡逻船WW,前往,阿曼湾)的知识三元组。其依存句法分析结构如图14所示。
范式5主要针对句子中出现的并列动宾现象,即存在句子成分为VOB的词语,同时存在句子成分为同位语的词语,并且该词语的同位语指向为VOB宾语,则可以提取出(主语,谓语,宾语1)和(主语,谓语,宾语2)。例如,针对“AA号航空母舰装载F战斗机和BA轰炸机”这一样例,可以得到(AA号航空母舰,装载,F战斗机)和(AA号航空母舰,装载,BA轰炸机)的知识三元组。其依存句法分析结构如图15所示。
范式6主要针对句子中出现的并列介宾现象,即存在句子成分为POB的词语,同时存在句子成分为同位语的词语,并且该词语的同位语指向为POB宾语,则可以提取出(主语1,谓语,宾语)和(主语2,谓语,宾语)。例如,针对“‘环太平洋’联合军事演习由Z国和E国举办”这一样例,可以得到(Z国,举办,‘环太平洋’联合军事演习)和(E国,举办,‘环太平洋’联合军事演习)的知识三元组。其依存句法分析结构如图16所示。
通过上述抽取范式,实现了对领域文本的实体关系提取,解决了领域知识库中动词性关系的缺失,为后续远程监督关系抽取模型的构建提供高质量的领域知识库。
步骤S4:构建关系抽取模型步骤,基于PCNN的实体关系抽取模型面向预设领域的实体关系抽取,得到文本特征语义表示。
本发明设计基于PCNN的实体关系抽取模型以实现面向特定领域的实体关系抽取。模型的整体架构如图7所示。模型首先通过词嵌入层实现自然语言文本的向量转化,并引入词语的词性以及词语位置信息以得到更加丰富的文本语义结构信息,并将词向量特征用于卷积神经网络的输入,通过卷积计算以及分段最大池化提取文本语句的特征。为解决远程监督所引起的噪声问题,本文引入句子级别的注意力机制的多实例学习,降低噪声问题对最终结果预测的影响,通过关系注意力机制以及非线性分类模型获得最后的分类结果。
基于Word2vec的文本向量表示
计算机在进行处理自然语言之前,需要将其转化为计算机可识别的格式,即进行词向量表示。传统的词向量表示采用One-hot编码格式,将词转换为词典大小的向量,目标词位置为1,其他词位置为0,例如[0,1,0,0…0]即为某个词的词向量表示。这种表示方式具有能够解决离散数据问题、扩充特征的优点,但与此同时该表示方式缺点非常明显,当词典数据过于庞大时,向量维度也随之变大,某个词的词向量表示开销过大,且无法充分体现该词的特征以及该词与其他词的语义关系程度,造成维度灾难以及语义隔离等问题,因此本文采用Word2vec进行词向量表示,通过计算比较两点之间的距离就可以得到词与词之间的语义相似性。Word2vec包含两个重要模型,CROW模型以及Skip-gram模型,其模型架构如图8和9所示。CROW模型和Skip-gram模型均可划分为输入层、投影层和输出层。从图8可以看出,CROW模型是在已知目标词的上下文情况下进行预测目标词,而Skip-gram模型则是反其道而行之,获取当前词以后对其上下文内容进行预测。
以S={w1,w2,w3,...,wn}为例分别对两个模型进行介绍,假设S中某一单词w前后各有n个词,对于CROW模型,输入层包含2n个词的词向量,在投影层将输入层的2n个向量进行累加求和,其计算如式14所示。
输出层将训练语料中出现过的词作为叶子结点,以词语出现的次数作为权值构造出相应的哈夫曼树。而Skip-gram模型的输入层是一个单独的中心词向量,将每个单词作为一个带有连续投影层的对数线性分类器的输入,在当前词前后预测单词范围。
(1)词嵌入+词性嵌入
本文采用基于Skip-gram模型的Word2vec以实现词嵌入层,对于一个由N个词语组成的句子S={w1,w2,w3,...,wn},每个词语的词向量可以由公式15计算得到。
wi=Wd×Vm (15)
其中,Wd是通过加入扩展文本后训练得到的词向量矩阵,Vm是词语的独热编码表示。在此基础之上,本文加入了词性嵌入,对于一个词语的词性实现词性向量表示,然后将词性向量表示与词语向量表示相结合,得到最终的词嵌入向量表示。
(2)位置嵌入
尽管通过词嵌入可以很好地表示词语本身的特征信息,但是无法体现词语在句子中的结构信息,而在文本语句中,距离两个实体相对距离越近的词语往往能够表达出实体对之间的关系。因此,为了能够有效利用这一特征,本文将句子中的每个词语到两个实体之间的距离转化为两个实值向量并拼接到该词语的词向量表示中。以“今天凌晨Z海军一架F战斗机从Y国海域出发,飞往太平洋方向”这一句为例,“飞往”这一词距离两个实体“F战斗机”和“太平洋”的相对位置信息分别为5和-1。假设词向量化的维度为dw,相对位置信息的向量化维度为2dp,则最终的向量化的维度为dw+2dp。
基于PCNN的文本特征提取在进行实体关系抽取时,由于句子长短不一且体现实体对之间的关系词汇可能分布在句子中的任意一个地方,因此需要对句子中的局部信息进行很好地刻画。而卷积神将网络模型具有较好地学习句子局部特征的能力,因而在自然语言处理任务中得到了广泛应用。由于远程监督的方式会带来标注错误问题,本文采用分段卷积神经网络进行文本特征的表示,通过卷积以及分段最大池化两个操作实现文本特征的提取,降低对模型的负面影响。
(1)卷积层
在文本处理中,卷积操作认为是权重矩阵与句子向量表示之间的计算,本质上是对输入的矩阵以滑动窗口的形式进行乘积求和的运算过程。卷积运算时首先定义滑动窗口的大小m,然后利用该滑动窗口不断滑动与句子向量进行卷积运算,当滑动窗口超出句子边界时,利用0向量对滑动窗口的空白部分进行填充。假设句子的向量表示Y={x1,x2,x3,...,xn},xi∈Rd,xi,j表示xi到xj的连接,则卷积运算便是权重矩阵w与m个序列xi,i+m-1进行点积运算得到一个序列q∈Rn+m-1,具体如式16所示。
qj=wxj-m+1:j+b (16)
其中,b表示偏置向量。因为在实际工作中需要识别文本向量中的多个局部特征,因此需要多个不同的权重矩阵进行局部特征的提取工作。假设k个权重矩阵为w1到wk,得到的k个特征向量的表示具体如式17所示。
qij=wixj-m+1:j (17)
最终得到一个输出矩阵X=(x1,x2,...,xk)∈Rk×(n+m-1),其中,k表示权重矩阵的个数,n表示句子的长度,m表示滑动窗口的大小。
(2)分段池化层
在卷积层得到的输出矩阵X的大小取决于卷积操作时的输入句子向量矩阵的长度。为了解除输出矩阵大小和句子向量长度的相关性,对卷积操作得到的特征向量进行降维处理从而提取出主要特征,需要对其进行池化处理。主要的池化策略有两种:最大池化策略以及平均池化策略。最大池化策略选取区域最大值作为特征,抛弃其他所有特征值,能够体现出句子的强特征信息,符合本文训练分类模型的需求。为了更加准确地表征出两个实体之间的语义信息,本文通过分段最大池化进行特征的进一步提取。通过卷积运算中得到的输出矩阵(x1,x2,...,xk),根据头实体和尾实体将每个特征向量xi划分为三段,表示为(xi1,xi2,xi3),利用式18分别从每一段中获取最大值。对于每一个xi,均可以得到一个三维向量表示bi=(bi1,bi2,bi3),将其进行拼接,即可得到文本特征语义表示。
bij=max{xij},1≤i≤n,1≤j≤3 (18)
基于注意力机制的模型优化
为了降低远程监督带来的噪声问题对最终模型效果的影响,本章节引入句子级别的注意力机制以及关系级别的注意力机制,对模型进行优化。
(1)引入句子级别注意力机制
本文借鉴刘知远等人在文献中的思想,利用选择性注意力机制从包含相同实体对中的多个句子中提取特征,对于能够表达该关系的句子赋予高权值,无法表达该关系的句子特征被赋予低权值,这样能够动态地降低标注错误的样本的得分,充分利用所有句子的信息。
假设包含某一相同实体对的m个句子组成的集合为S={x1,x2,x3,...,xn},首先计算句子的特征向量xi和关系标签r的匹配度mi,并计算注意力得分Ai。其计算方式如式19和20所示。
mi=xiBr (19)
其中,r表示关系标签的向量矩阵,B表示一个矩阵。然后计算该实体对的特征向量s,其特征向量即为所有句子的特征向量xi的加权之和,权重为每个句子的注意力得分,计算公式如式21所示。对于计算得到的结果,通过softmax函数进行归一化处理。
(2)引入关系层注意力机制
在引入关系层注意力机制时,需要考虑不同关系之间的联系和差异以及不同关系在同一实体对中的重要程度和相关度,因此本文同样利用计算句子层注意力机制时的计算思想来进行关系表示。假设一个集合R={r1,r2,r3,...,rn}表示某实体对包含的n个关系,则关系ri的加权表示可有公式22计算得到。
其中,αij∈[0,1]表示两个关系ri和rj之间的关系相似度,其通过两个关系向量内积得到,对于计算得到的结果,通过softmax函数进行归一化处理。
(3)模型训练与优化
经过句子级别注意力机制以及关系级别注意力机制计算得到关系表示{r′1,r′2,...,r′n},本文通过线性表示以得到关系的正确分类,其计算方式如式23所示。
δ=Wir′i+bi (23)
其中,Wi表示关系标签的权重矩阵,bi表示偏移向量。然后通过softmax函数对各个关系的条件概率进行预测,其公式如式24所示。
其中,S表示所有对齐后的句子集合,m表示关系的种类。最后采用交叉熵损失函数训练最佳关系抽取模型,其实现如式25所示。
其中,θ表示模型的训练参数,初始值随机给定,通过反向传播计算参数的梯度并进行更新。
本发明基于字词嵌入的复杂实体识别模型,通过构建领域词库并利用BERT预训练模型实现字词联合嵌入,以辅助模型学习领域词汇特征,设计面向复杂嵌套词汇的标注格式,通过BiLSTM网络模型和条件随机场充分学习文本特征,实现针对复杂嵌套词汇的识别。
本发明设计了基于远程监督的关系抽取模型,由于远程监督需要高质量的领域知识库,本发明通过现有开放领域知识图谱以及基于依存句法分析的关系抽取实现领域知识库的构建。针对远程监督中常见的错误标注问题,本发明设计基于分段卷积神经网络的关系提取模型,根据实体对将其分为三段,利用卷积神经网络能够充分学习文本局部特征的特点,并引入多层注意力机制,提高关系识别的准确率。
本发明利用训练好的实体识别模型和关系提取模型,开发面向特定领域的实体关系抽取系统。系统依据其功能划分为文本采集分类模块、实体关系抽取模块和数据存储展示模块。通过构建该系统将网络文本数据采集、文本信息抽取、信息存储展示以功能服务形式提供给用户,经测试该系统具有完备的功能以及良好的性能。
实施例2
在实施例1的基础上,参考图2所示,本实施例还公开了一种基于深度学习的实体关系抽取系统,所述实体关系抽取系统包括实体识别模块、实体关系抽取模块和数据存储展示模块。
所述实体识别模块内配置有领域词库和实体识别模型,所述实体关系抽取模块内配置有领域知识库和关系抽取模型,所述数据存储展示包括数据存储单元和可视化展示单元。
本实施例根据现有的基于字词嵌入的复杂实体识别方法以及基于远程监督的中文关系抽取方法,设计并实现了面向特定领域的实体关系抽取系统。
本系统直接面向特定领域知识图谱构建,集领域数据采集、实体关系抽取、数据存储展示于一体,实现了由领域文本到领域知识图谱的自动转换,弥补了现有的抽取系统难以适配特定领域命名实体识别以及关系抽取的需求,在实体识别、关系抽取的准确率方面有了显著提升,保证了面向大规模数据进行实体关系抽取的效率。
测试例
本测试例首先测试有无依存句法分析的领域知识库对远程监督标注数据集的影响,分别选取100条、200条、400条、800条新闻进行远程监督标注,并计算其标注的准确率。其实验结果如图3所示。
由图3可以看出,随着样本容量的增加,通过引入依存句法分析的领域知识库远程标注的准确率一直维持在90%以上,而利用没有引入依存句法分析的领域知识库进行远程监督的标注准确率保持在60%-65%左右,由此可以看出本发明所提出利用依存句法分析范式提升知识库关系种类对最终得到的远程监督数据集的质量有极大地提高。进一步分析其原因,主要是由于传统的构建高质量知识库以实现远程监督标注的方式大都通过百度百科等现有结构化或者半结构化数据获取知识,得到的知识类别以属性为主,而本发明所面向的特定领域文本提取除了属性知识,还有很大一部分实体之间的动作关系,因此,对这一部分文本进行远程标注时,会出现噪声问题,从而导致标注准确率的降低。本发明进一步利用这两种知识库远程标注得到的数据集进行模型训练,并选择500条领域文本对这两种模型进行测试,其测试结果如表3所示。
表3模型标注对比实验结果
模型 | 准确率(%) | 召回率(%) | F1值(%) |
基于传统知识库 | 55.21 | 50.84 | 52.94 |
传统知识库+依存句法 | 84.21 | 78.91 | 81.47 |
由测试结果可以发现,仅仅依靠传统的方式构建领域知识库进行远程监督标注得到的数据标注集训练得到的关系抽取模型其在准确率、召回率以及F1值方面均大幅度落后于本发明所提出的引入依存句法分析后的模型效果。
通过上述两个实验对比分析后,充分表明了本发明所提出的引入依存句法扩充关系种类的方式能够提高领域数据库的质量,解决部分数据标注错误问题,从而进一步提升远程标注数据集的准确率,最终提高抽取模型的效果。为验证本发明所提出的引入多重注意力机制对模型产生的积极效果,本发明以PCNN为基线模型,测试其与关系注意力机制、句子注意力机制组合后的模型效果,其结果如表4所示。
表4基线模型组合对比实验结果
模型 | 准确率(%) | 召回率(%) | F1值(%) |
PCNN | 72.36 | 70.65 | 71.49 |
PCNN+RATT | 77.68 | 74.91 | 76.27 |
PCNN+SATT | 78.56 | 77.15 | 77.84 |
PCNN+MATT | 85.47 | 81.42 | 83.52 |
根据表4分析发现,相比较基线模型PCNN的抽取效果,融入关系注意力机制后的PCNN+RATT模型在F1值上提升了近5%,而融入句子级别注意力机制的PCNN+SATT模型在F1上相比基线模型提升了6%,而将这两种注意力机制均融入到基线模型中的PCNN+MATT模型在整体效果上提升了12%。实验表明,本发明通过引入两种注意力机制后对于模型效果具有积极的作用。分析其原因,关系注意力机制以及句子注意力机制能够有效表示不同关系之间的联系和差异以及不同关系在同一实体对中的重要程度和相关度,从而减少噪音问题,提升模型效果。
为验证本发明所提出的关系抽取模型对特定领域的关系抽取效果,本发明以远程监督的自动标注语料为数据集,将其与现有的主流远程监督抽取方法进行实验对比,以证明模型的效果。本章节将本发明所设计的融合多层注意力机制的分段卷积神经网络模型(PCNN+MATT)与现有的Zeng等人提出的PCNN+MIL模型以及Ji等人提出的APCNNs+D模型进行对比分析,实验对比中本发明模型严格按照表2中的参数设置的最终值进行参数选取,其余模型按照原作者设置参数进行选取,其最终实验结果如表5所示。
表5主流模型对比实验结果
模型 | 准确率(%) | 召回率(%) | F1值(%) |
PCNN+MIL | 75.21 | 73.84 | 74.51 |
APCNNs+D | 85.36 | 77.91 | 81.47 |
PCNN+MATT | 85.47 | 81.42 | 83.52 |
通过实验分析,本发明所提出的PCNN+MATT模型相比较PCNN+MIL模型以及APCNNs+D模型,在准确率、召回率以及F1值上均有不同程度的提高,证明了本发明所提出的模型针对特定领域关系抽取具有良好的效果,很好地解决了远程监督关系抽取中的噪声问题。分析其主要原因,本发明在利用分段卷积神经网络的基础之上引入了关系注意力机制以及句子级别注意力机制。相比较zeng等人提出的PCNN+MIL模型,其主要区别在于zeng等人利用多示例学习的方式来减弱错误Label问题带来的影响,训练时对于每一个bag仅选择置信度最高的instance,会造成有效信息的丢失。而本发明采用多重注意力机制解决噪音问题,核心在于提高正向实例的权重,降低噪声实例的权重,从而动态地降低标注错误的样本得分,并且充分利用句子信息。相比较Ji等人仅采用句子注意力机制,本发明利用句子级注意力机制以及关系级别注意力机制更能充分利用句子中的有效信息,动态降低噪声实例的影响。除了对比主流的远程监督关系抽取方法,本发明还对比了目前关注度较高的实体关系联合抽取方法,其实验结果如表6所示。
表6联合抽取模型对比实验结果
模型 | 准确率(%) | 召回率(%) | F1值(%) |
联合抽取模型 | 67.41 | 65.12 | 66.25 |
本发明模型 | 75.51 | 68.00 | 71.56 |
由于实体关系联合抽取模型需要综合衡量实体识别以及关系抽取的准确率,因此本发明综合模型实验结果进行对比,其中准确率相比较联合抽取模型提高了8%,F1值提高了5%。分析其原因,实体关系联合抽取模型将联合抽取问题转化为多头选择问题,以解决原有模型依赖NLP工具以及实体关系重叠问题,但是严重依赖于高质量大规模的标注数据集。对于本发明通过远程监督得到的标注数据集存在的噪音问题以及错误传播问题,实体关系联合抽取模型并不能很好的解决。另外本发明所采用的基于字词嵌入的实体识别模型以及基于远程监督的关系抽取模型均面向特定领域充分学习其领域特征,而Bekoulis等提出的联合抽取模型没有过多关注对于领域文本的特征学习。因此相较于该联合抽取模型,本发明所提出的实体识别以及关系抽取模型具有更好的领域学习能力,更准确地实现面向特定领域的实体关系抽取效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度学习的实体关系抽取方法,其特征在于,所述实体关系抽取方法包括:
S1:构建领域词库步骤,基于规则挖掘、中文命名实体识别工具及知识图谱检索构建领域词库;
S2:实体识别模型构建步骤,构建的实体识别模型基于字词联合嵌入的表示方法,通过双向长短时记忆神经网络和条件随机场进行实体识别;
S3:领域知识库构建步骤,所述领域知识库被配置为包括维基百科、各知识图谱以及基于依存句法分析设计的6种抽取范式;
S4:构建关系抽取模型步骤,基于PCNN的实体关系抽取模型面向预设领域的实体关系抽取,得到文本特征语义表示。
2.如权利要求1所述的实体关系抽取方法,其特征在于,步骤S1中规则挖掘为:
通过批量分析文本内容,发现预设领域中涉及到的专业领域名词主要以地点、武器装备和组织机构为主,并根据采集的文本内容设计相应的规则发掘出文本中的感兴趣词汇;
还包括:利用维基百科对挖掘词汇进行词条搜索,采用广度优先遍历的方式将关联词条加入到待搜索列表中,每进行一层遍历后进行去重并统计词库扩充率,当词库扩充率小于设定阈值时停止搜索。
3.如权利要求1所述的实体关系抽取方法,其特征在于,步骤S1还包括:通过实体消歧、共指消解方式对词库进行规范化处理,得到最终的领域词库。
4.如权利要求1或3所述的实体关系抽取方法,其特征在于,步骤S2中,实体识别模型基于BERT语言模型对待处理的文本以及步骤S1构建好的领域词库进行特征表示。
5.如权利要求4所述的实体关系抽取方法,其特征在于,步骤S2中双向长短时记忆神经网络模型包括输入门、输出门、遗忘门三个门控制单元以及细胞记忆状态和细胞输出状态,输入门对单元时间内细胞状态的添加进行控制,遗忘门则针对上个单元时间细胞状态的内容进行丢弃,输出门针对当前单元时间的细胞状态的内容进行选择保留以传递到下一单元时间。
6.如权利要求5所述的实体关系抽取方法,其特征在于,步骤S2中条件随机场为概率无向图模型,通过考虑相邻标签关系并计算一个序列的联合概率以获得一个全局最优的标记序列。
7.如权利要求6所述的实体关系抽取方法,其特征在于,基于依存句法分析设计6的种抽取范式包括:
范式1:针对三个连续名词,且其第二个名词和第三个名词对于前一名词均有修饰作用,提取出:名词1,名词2,名词3;
范式2:针对句子中的动宾关系,通过依存句法分析得到分析语句中是否存在主谓关系以及动宾关系,并且在同一路径下,若存在,则提取出:主语,谓语,宾语;
范式3:针对句子中的介宾关系,通过依存句法分析得到分析语句中是否存在主谓关系以及介宾关系,并且在同一路径下,若存在,则提取出:主语,谓语,宾语;
范式4:针对句子中出现的并列主语现象,即存在句子成分为主谓的词语,同时存在句子成分为同位语的词语,并且该词语的同位语指向为主语,则提取出:主语1,谓语,宾语和主语2,谓语,宾语;
范式5:针对句子中出现的并列动宾现象,即存在句子成分为介宾关系的词语,同时存在句子成分为同位语的词语,并且该词语的同位语指向为动宾关系的宾语,则提取出:主语,谓语,宾语1和主语,谓语,宾语2;
范式6:针对句子中出现的并列介宾现象,即存在句子成分为介宾关系的词语,同时存在句子成分为同位语的词语,并且该词语的同位语指向为介宾关系的宾语,则提取出:主语1,谓语,宾语和主语2,谓语,宾语。
8.如权利要求7所述的实体关系抽取方法,其特征在于,步骤S4中进行实体关系抽取具体包括:
首先,通过词嵌入层实现自然语言文本的向量转化,并引入词语的词性以及词语位置信息以得到更加丰富的文本语义结构信息,并将词向量特征用于卷积神经网络的输入;
然后,通过卷积计算以及分段最大池化提取文本语句的特征。
9.如权利要求1所述的实体关系抽取方法,其特征在于,所述实体关系抽取方法还包括:S5:基于注意力机制完成关系抽取模型的模型优化;
步骤S5具体包括:经过句子级别注意力机制以及关系级别注意力机制计算,然后通过softmax函数对各个关系的条件概率进行预测,最后采用交叉熵损失函数训练并更新关系抽取模型。
10.一种基于深度学习的实体关系抽取系统,其特征在于,所述实体关系抽取系统包括实体识别模块、实体关系抽取模块和数据存储展示模块;
其中,所述实体识别模块内配置有领域词库和实体识别模型,所述实体关系抽取模块内配置有领域知识库和关系抽取模型,所述数据存储展示包括数据存储单元和可视化展示单元;
且领域词库、实体识别模型、领域知识库、关系抽取模型基于权利要求1至9任一项所述的实体关系抽取方法构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310501251.7A CN116796744A (zh) | 2023-05-05 | 2023-05-05 | 一种基于深度学习的实体关系抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310501251.7A CN116796744A (zh) | 2023-05-05 | 2023-05-05 | 一种基于深度学习的实体关系抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116796744A true CN116796744A (zh) | 2023-09-22 |
Family
ID=88038168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310501251.7A Pending CN116796744A (zh) | 2023-05-05 | 2023-05-05 | 一种基于深度学习的实体关系抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116796744A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151220A (zh) * | 2023-10-27 | 2023-12-01 | 北京长河数智科技有限责任公司 | 一种基于实体链接与关系抽取的行业知识库系统及方法 |
CN117575026A (zh) * | 2024-01-17 | 2024-02-20 | 清华大学 | 基于外部知识增强的大模型推理分析方法、系统及产品 |
CN118469006A (zh) * | 2024-07-11 | 2024-08-09 | 华北电力大学(保定) | 针对电力作业文本的知识图谱构建方法、装置、介质及芯片 |
CN118551840A (zh) * | 2024-07-25 | 2024-08-27 | 湖南汇视威智能科技有限公司 | 基于大语言模型算法的知识抽取系统以及知识抽取方法 |
CN118551840B (zh) * | 2024-07-25 | 2024-10-29 | 湖南汇视威智能科技有限公司 | 基于大语言模型算法的知识抽取系统以及知识抽取方法 |
-
2023
- 2023-05-05 CN CN202310501251.7A patent/CN116796744A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151220A (zh) * | 2023-10-27 | 2023-12-01 | 北京长河数智科技有限责任公司 | 一种基于实体链接与关系抽取的行业知识库系统及方法 |
CN117151220B (zh) * | 2023-10-27 | 2024-02-02 | 北京长河数智科技有限责任公司 | 一种基于实体链接与关系抽取的行业知识库系统及方法 |
CN117575026A (zh) * | 2024-01-17 | 2024-02-20 | 清华大学 | 基于外部知识增强的大模型推理分析方法、系统及产品 |
CN117575026B (zh) * | 2024-01-17 | 2024-04-05 | 清华大学 | 基于外部知识增强的大模型推理分析方法、系统及产品 |
CN118469006A (zh) * | 2024-07-11 | 2024-08-09 | 华北电力大学(保定) | 针对电力作业文本的知识图谱构建方法、装置、介质及芯片 |
CN118469006B (zh) * | 2024-07-11 | 2024-09-24 | 华北电力大学(保定) | 针对电力作业文本的知识图谱构建方法、装置、介质及芯片 |
CN118551840A (zh) * | 2024-07-25 | 2024-08-27 | 湖南汇视威智能科技有限公司 | 基于大语言模型算法的知识抽取系统以及知识抽取方法 |
CN118551840B (zh) * | 2024-07-25 | 2024-10-29 | 湖南汇视威智能科技有限公司 | 基于大语言模型算法的知识抽取系统以及知识抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN113642330A (zh) | 基于目录主题分类的轨道交通规范实体识别方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN116796744A (zh) | 一种基于深度学习的实体关系抽取方法及系统 | |
CN117076653A (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN117236338B (zh) | 一种稠密实体文本的命名实体识别模型及其训练方法 | |
CN114881042B (zh) | 基于图卷积网络融合句法依存与词性的中文情感分析方法 | |
CN114897167A (zh) | 生物领域知识图谱构建方法及装置 | |
CN115329075A (zh) | 基于分布式机器学习的文本分类方法 | |
Zhou | Natural language processing with improved deep learning neural networks | |
CN117933249A (zh) | 一种装备故障知识的智能交互方法及系统 | |
CN111104492B (zh) | 一种基于层次化Attention机制的民航领域自动问答方法 | |
Song et al. | Cross-language record linkage based on semantic matching of metadata | |
Xiao et al. | Multi-Task CNN for classification of Chinese legal questions | |
Ronghui et al. | Application of Improved Convolutional Neural Network in Text Classification. | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN115878800A (zh) | 一种融合共现图和依赖关系图的双图神经网络及其构建方法 | |
Huang et al. | Named Entity Recognition in Chinese Judicial Domain Based on Self-attention mechanism and IDCNN | |
Du et al. | Research on event extraction method based on a lite bert and conditional random field model | |
Pattanayak et al. | Natural language processing using recurrent neural networks | |
Abdolahi et al. | A new method for sentence vector normalization using word2vec | |
Yu et al. | Research on a Capsule Network Text Classification Method with a Self-Attention Mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |