CN113468865A - 基于深度学习的地铁设计领域规范的实体间关系抽取方法 - Google Patents

基于深度学习的地铁设计领域规范的实体间关系抽取方法 Download PDF

Info

Publication number
CN113468865A
CN113468865A CN202110722239.XA CN202110722239A CN113468865A CN 113468865 A CN113468865 A CN 113468865A CN 202110722239 A CN202110722239 A CN 202110722239A CN 113468865 A CN113468865 A CN 113468865A
Authority
CN
China
Prior art keywords
model
entity
relation
sentence
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110722239.XA
Other languages
English (en)
Other versions
CN113468865B (zh
Inventor
朱磊
陈弘玉
黑新宏
李亚轩
刘帅
崔程星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110722239.XA priority Critical patent/CN113468865B/zh
Publication of CN113468865A publication Critical patent/CN113468865A/zh
Application granted granted Critical
Publication of CN113468865B publication Critical patent/CN113468865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于深度学习的地铁设计领域规范的实体间关系抽取方法,采用了一定的输出结构去捕捉存在于句子中的多实体之间的多关系,利用基于实体的掩码信息,屏蔽掉句子中实体之外的部分。同时,将句子中实体的相对位置信息融入到注意力计算过程中,加强了句子中“每个字”的注意力信息。参数选择方面开展了基于迭代次数、学习率、微调使用的BERT层数、最大长度、实体最大距离和最大关系数量等多个超参数的择优过程,以探究不同超参数对实验性能的影响角度和影响程度。方法对比部分选取了和本发明任务设定符合的R‑BERT,着重探究多关系输出结构的可用性,以及实体相对位置信息对任务性能提升的有效性。

Description

基于深度学习的地铁设计领域规范的实体间关系抽取方法
技术领域
本发明属于计算机自然语言处理和信息抽取技术领域,具体涉及基于深度学习的地铁设计领域规范的实体间关系抽取方法。
背景技术
近几年深度学习的浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下,深度学习深入影响了自然语言处理的各个方向,极大推动了自然语言处理的发展。在自然语言处理领域里,实体间关系抽取(RelationExtraction,RE)任务同样是基于传统方法和基于深度学习的方法。目前,传统的RE方法包括三种,但三种方法都有各自的缺点。基于深度学习的实体间关系抽取方法利用神经网络自动提取和学习数据中的特征,不需要领域专家制定相应规则,同时可以从浅层特征逐步学习到深层抽象特征,实现进一步提高预测的准确性。针对实体间关系抽取,有两种不同的处理方式,一是管道式,另一种则是端到端的实体间关系抽取方式,但是现有的一些端到端的模型并没有有效实现加强实体抽取模型和关系模型之间的交互,无法做到平衡子模型特征的丰富性和联合解码的精确性,并且联合解码方式通常很复杂。实体识别的误差传播不是不存在更不是无法解决,而是需要探索更好的解决方案。并且,相较于基于英文文本和通用领域文本中,实体间关系抽取任务取得的进展相对缓慢并且对于实体间关系抽取的研究多面向通用领域,特定领域的研究主要集中在生物医学领域,针对地铁设计领域的相关研究还处于起步阶段,可参考的文献和资料也鲜少存在,没有公开、权威的地铁设计领域的语料库可以使用。
发明内容
本发明的目的是提供基于深度学习的地铁设计领域规范的实体间关系抽取方法。解决了现有技术中存在的缺乏针对地铁设计领域的实体间关系抽取方法,实体间关系抽取任务基于命名实体识别展开,主要抽取13类关系。
本发明针对地铁设计规范的实体间关系抽取任务,采用了一定的输出结构去捕捉存在于句子中的多实体之间的多关系,利用基于实体的掩码信息,屏蔽掉句子中实体之外的部分。同时,将句子中实体的相对位置信息融入到注意力计算过程中,加强句子中“每个字”的注意力信息。
本发明所采用的技术方案是,
基于深度学习的地铁设计领域规范的实体间关系抽取方法,包括以下步骤:
步骤1,针对一次句子输入,多对关系同时抽取出来的问题,将 BERT-base版本模型输出结构进行调整;
步骤2,设计面向多实体对的MEOP-B_CBERT-softmax的模型;
步骤3,将句子中多个关系的信息编码至模型中,在不同层注意力计算的过程中传递关系信息;
步骤4,在步骤2的模型中输入《地铁设计规范》GB 5017-2013 实验数据并进行数据标注;
步骤5,分析步骤4实验数据和环境特点;
步骤6,设计实验评价指标;
步骤7,检验训练过程中模型状态及收敛情况,调整得到最优的超参数;
步骤8,对比与管道式任务处理方式相符且使用BERT做领域迁移的模型R-BERT,以验证本发明方法的有效性;
步骤9,验证MEOP-B_CBERT-softmax是否适用于单关系的抽取;
步骤1中,针对一次句子输入,多对关系同时抽取出问题,本发明将BERT-base版本模型输出结构进行调整,具体步骤为:
步骤1.1,首先获取实体表征,但在该过程中,BERT模型是以字为单位的输入,但是一个实体往往包含多个字,因此需要采取一定的操作将多个字的隐藏层输出进行合并;
步骤1.2,其次对关系进行表示,本发明通过将与关系相关的两个实体的表征向量进行拼接,得到关系的表示信息;
步骤1.3,最后,需要一个关系分类器进行分类操作,具体使用 softmax函数。
步骤2中设计了MEOP-B_CBERT-softmax模型结构;
模型的输入是一个句子包含多对实体之间的关系,利用实体的相对位置信息,在B_CBERT模型内部每个字的注意力计算过程中,加入了实体相对位置的计算信息;其次,模型得到了基于实体掩码信息的实体输出表示;图中实体i包含Ti到Tj的字,实体i的表示是先将 Ti到Tj的字的隐藏向量做平均池化操作,之后再与句子中实体的掩码信息相乘,得到输出表示oi,实体i是关系i的首实体。对关系i 的尾实体j做同样的操作得到oj,最后将oi和oj进行拼接,经过一个全连接层送入关系分类层,得到分类结果。关系预测的公式描述如下:
Figure RE-GDA0003232206940000041
步骤3中利用边的距离信息来建模“其他字”和实体词之间的距离,并将距离信息应用于注意力计算过程,增强注意力信息。以这种方式将句子中多个关系的信息编码至模型中,并在不同层注意力计算的过程中传递关系信息;
“其他字”和“负荷等级”的距离用矩阵表示,矩阵的行和列分别代表句子中的一个个字,每个元素代表当前行所代表的字到当前列代表的字之间的距离,“负荷等级”为句中的一个实体,以该实体为核心,属于该实体的字到实体的边的值为0;位于实体左边的字,如果与实体的距离小于设定的最大距离,边的值为该距离值,否则边的值为最大距离值;位于实体右边的字,如果与实体的距离小于设定的最大距离,边的值为最大距离值加上当前距离值,否则为最大距离值的2倍。
按照这样的方式得到句中每个字到句中某个实体的边的信息,即相对位置信息;根据Shaw等研究发现,在一定的距离之外,再精确的相对位置信息也是无效的,并且将距离作为一个参数进行限制,能够提升模型在相对距离方面的泛化能力;因此在实验过程中,本发明将相对距离长度作为一个超参数对模型训练做出限制,即对实体的左右距离进行限制;结合注意力计算,应用相对距离信息的计算过程如下:
Figure RE-GDA0003232206940000051
Figure RE-GDA0003232206940000052
Figure RE-GDA0003232206940000053
当Qi不改变,在被查询的键向量和值向量中分别加入相对位置信息,即
Figure RE-GDA0003232206940000054
Figure RE-GDA0003232206940000055
d(i,j)的表示对应于图2到矩阵的转换过程,矩阵的形式化表示如下:
Figure RE-GDA0003232206940000056
步骤7中开展了基于迭代次数、学习率、微调使用的BERT层数、最大长度、实体最大距离和最大关系数量等多个超参数的择优过程,以探究不同超参数对实验性能的影响角度和影响程度;
实体间关系抽取的微调超参数选择过程主要探究迭代次数、学习率、预训练模型的不同层、实体最大距离和最大关系数量五个参数的 F1值表现;
步骤7.1,首先,在全量B_CBERT预训练模型,即应用第12层的模型学习结果,探究迭代次数、学习率、实体最大距离和最大关系数量四个参数对模型性能的影响,且第12层在GPU内存充分利用的情况下,句子最大长度取值为128,批次大小为4;
步骤7.2,微调B_CBERT模型每一层的超参数,得到该层的最优参数组合,进而探究模型性能表现最优时所应用的模型层数。探究模型不同层的学习结果对实体间关系抽取性能的影响,其他每一层都在第12层所探究的最佳参数组合的基础上进行微调,找到该层的最佳参数组合。
步骤7.1的具体步骤为:
步骤7.1.1,实验应用第12层的模型学习结果,在学习率为1e-6,批次大小为4,最大距离为4,最大关系数量为10的条件下,依次探究不同迭代次数和学习率的F1值表现。
步骤7.1.2,在此基础上,进一步探究实体最大距离和最大关系数量对模型性能的影响。
步骤7.1.3之后在上一步骤前提下,探究最大关系数量对模型性能的影响;由步骤5中句子中关系数量的统计信息以及不同句子长度的统计信息可知,当最大关系数量取值增加时,模型输入句子长度的取值限制了模型所能获取的关系数量,因此模型性能表现几乎趋于稳定。
本发明的有益效果为:
采用了一定的输出结构去捕捉存在于句子中的多实体之间的多关系,利用基于实体的掩码信息,屏蔽掉句子中实体之外的部分。同时,将句子中实体的相对位置信息融入到注意力计算过程中,加强了句子中“每个字”的注意力信息。参数选择方面开展了基于迭代次数、学习率、微调使用的BERT层数、最大长度、实体最大距离和最大关系数量等多个超参数的择优过程,以探究不同超参数对实验性能的影响角度和影响程度。方法对比部分选取了和本发明任务设定符合的 R-BERT,着重探究多关系输出结构的可用性,以及实体相对位置信息对任务性能提升的有效性。
附图说明
图1是本发明的MEOP-B_CBERT-softmax模型结构。
图2是本发明的基于距离的建模示例。
图3是本发明的迭代次数和学习率对模型性能的影响图。
图4是本发明的实体最大距离和最大关系数量对模型性能的影响。
图5是本发明的每层最佳参数组合图。
图6是本发明的不同层模型性能表现图。
图7是本发明的实体间关系抽取微调超参数选择图。
图8是本发明的多实体对不同模型性能对比图。
图9是本发明的单实体对不同模型性能对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于深度学习的地铁设计规范实体间关系抽取方法。具体包括以下步骤:
步骤1,针对一次句子输入,多对关系同时抽取出来的问题,将 BERT-base版本模型输出结构进行调整;
步骤2,设计面向多实体对的MEOP-B_CBERT-softmax的模型;
步骤3,将句子中多个关系的信息编码至模型中,在不同层注意力计算的过程中传递关系信息;
步骤4,在步骤2的模型中输入《地铁设计规范》GB 5017-2013 实验数据并进行数据标注;
步骤5,分析步骤4实验数据和环境特点;
步骤6,设计实验评价指标;
步骤7,检验训练过程中模型状态及收敛情况,调整得到最优的超参数;
步骤8,验证本发明方法的有效性,选取与管道式任务处理方式相符且使用BERT做领域迁移的模型R-BERT进行对比;
步骤9,验证MEOP-B_CBERT-softmax是否适用于单关系的抽取;
步骤1中,针对一次句子输入,多对关系同时抽取出来的问题,本发明将BERT-base版本模型输出结构进行调整。
步骤1.1,首先获取实体表征,但在该过程中,BERT模型是以字为单位的输入,但是一个实体往往包含多个字,因此需要采取一定的操作将多个字的隐藏层输出进行合并;
步骤1.2,其次对关系进行表示,本发明通过将与关系相关的两个实体的表征向量进行拼接,得到关系的表示信息;
步骤1.3,最后,需要一个关系分类器进行分类操作,例如可以使用softmax函数。
步骤2中设计了如图1所示的MEOP-B_CBERT-softmax(Multiple entitiesopposite position B_CBERT softmax)模型结构。模型的输入是一个句子包含多对实体之间的关系,利用实体的相对位置信息,在B_CBERT模型内部每个字的注意力计算过程中,加入了实体相对位置的计算信息。其次,模型得到了基于实体掩码信息的实体输出表示。图中实体i包含Ti到Tj的字,实体i的表示是先将Ti到Tj 的字的隐藏向量做平均池化操作,之后再与句子中实体的掩码信息相乘,得到输出表示oi,实体i是关系i的首实体。对关系i的尾实体j做同样的操作得到oj,最后将oi和oj进行拼接,经过一个全连接层送入关系分类层,得到分类结果。关系预测的公式描述如下:
Figure RE-GDA0003232206940000091
步骤3中利用图中边的距离信息来建模“其他字”和实体词之间的距离,并将距离信息应用于注意力计算过程,增强注意力信息。以这种方式将句子中多个关系的信息编码至模型中,并在不同层注意力计算的过程中传递关系信息。
根据Shaw等研究发现,在一定的距离之外,再精确的相对位置信息也是无效的,并且将距离作为一个参数进行限制,能够提升模型在相对距离方面的泛化能力。因此在实验过程中,本发明将相对距离长度作为一个超参数对模型训练做出限制,即对实体的左右距离进行限制。结合注意力计算,应用相对距离信息的计算过程如下:
Figure RE-GDA0003232206940000101
Figure RE-GDA0003232206940000102
Figure RE-GDA0003232206940000103
当Qi不改变,在被查询的键向量和值向量中分别加入相对位置信息,即
Figure RE-GDA0003232206940000104
Figure RE-GDA0003232206940000105
d(i,j)的表示对应于图2到矩阵的转换过程,矩阵的形式化表示如下:
Figure RE-GDA0003232206940000106
步骤4中根据步骤2中模型设计,模型输入数据以csv格式存储,该实验数据来源于《地铁设计规范》GB 5017-2013,数据格式为:“句子,(关系类别1,首实体1开始索引,首实体1结束索引,首实体1 类别,尾实体1开始索引,尾实体1结束索引,尾实体1类别),(关系类别2,首实体2开始索引,首实体2结束索引,首实体2类别,尾实体2开始索引,尾实体2结束索引,尾实体2类别),(…)”,引号中的内容为一个句子的标注信息,由两部分内容构成,分别是句子文本和关系,括号中的部分是“句子”中所包含的一个关系。
步骤5中,分析步骤4实验数据和环境特点,从语料库十四大不同关系类别的统计数据来看,“领属”类别占比最大,与地铁设计规范文本的描述信息的特点一致,即较多的篇幅用来描述地铁中不同元素中从属元素的限制信息,限制内容主要通过“满足”关系进行描述。除了元素的从属关系,另一类重要的关系是“修饰限定”,修饰限定的内容主要表现为地铁中元素的受控信息。其余类别关系中数量占比较多和较少接近2倍,比如“设置”类和“利用”类关系是“位置”类数量的2倍,基本符合地铁设计文本描述内容的特点。最后,使用“其他”这一类别来描述句子不存在任何类别的关系或者非地铁设计领域所关注的关系信息。
再进一步统计实验数据中每个句子包含的关系数量信息,并将其作为步骤6参数选择的参考。
步骤6中,设计实验评价指标,衡量命名实体间关系抽取结果的三个评价指标分别为精确率、召回率和F1值。本发明中出于探究更好的模型以适应于地铁设计规范的命名实体任务的目的,选用F1作为评价指标。并根据步骤5中实验数据十四类关系的占比不均衡的情况,本步骤实验评价指标将以上的三个评价指标值进行加权计算,即乘上该类在总样本中的占比。
步骤7中开展了基于迭代次数、学习率、微调使用的BERT层数、最大长度、实体最大距离和最大关系数量等多个超参数的择优过程,以探究不同超参数对实验性能的影响角度和影响程度。
实体间关系抽取的微调超参数选择过程主要探究迭代次数、学习率、预训练模型的不同层、实体最大距离和最大关系数量五个参数的 F1值表现。
步骤7.1,首先,在全量B_CBERT预训练模型,即应用第12层的模型学习结果,探究迭代次数、学习率、实体最大距离和最大关系数量四个参数对模型性能的影响,且第12层在GPU内存充分利用的情况下,句子最大长度取值为128,批次大小为4。
实验应用第12层的模型学习结果,在学习率为1e-6,批次大小为4,最大距离为4,最大关系数量为10的条件下,依次探究不同迭代次数和学习率的F1值表现,如图3所示。从图3(a)中可以看出, F1值随着迭代次数的增加先增后减,且取值为140时,模型性能最佳,F1值达到0.752。因此,在探究不同层的最佳参数组合时,迭代次数在140上下进行微调。接着,迭代次数取值为140时,不同学习率下模型F1值的变化趋势如图3(b)所示。
如图3(b)所示,随着学习率的减小,F1值整体呈现先增后减的趋势,且取值为1e-6时,模型性能明显降低。学习率和F1值的关系说明了第12层的初始学习率比较小时模型性能表现较优,但是学习率过低会使模型性能下降,从图3(b)中可以看出学习率取值为 2e-6时,模型性能最优,F1值达到0.785。在此基础上,进一步探究实体最大距离和最大关系数量对模型性能的影响,如图4中(c)和 (d)所示。
如图4(c)所示,当实体最大距离大于等于4时,模型性能几乎呈现稳定状态,此时F1值达到0.785,说明最佳的实体最大距离为 4。之后,在迭代次数为140,学习率为2e-6,实体最大距离为4的前提下,探究最大关系数量对模型性能的影响,结果如图4(d)所示。
在图4(d)中,当最大关系数量为10时,模型性能表现最优,且模型性能随着数值增大逐渐趋于稳定。由实验数据句子中关系数量的统计信息以及不同句子长度的统计信息可知,当最大关系数量取值增加时,模型输入句子长度的取值限制了模型所能获取的关系数量,因此模型性能表现几乎趋于稳定。
步骤7.2,接着,微调B_CBERT模型每一层的超参数,得到该层的最优参数组合,进而探究模型性能表现最优时所应用的模型层数。
其他每一层都在第12层所探究的最佳参数组合的基础上进行微调,找到该层的最佳参数组合,如图5所示。
由图5可以看出,大多数的迭代次数取值为140时,均可以取得最优模型性能。且层数越少,模型越小时,学习率取值相应增大,模型性能表现越好。当实体最大距离取值为4时,不同层的模型性能均表现最优。在GPU内存充分利用的情况下,进一步分析最大关系数量和句子长度,低层的模型参数越少,句子长度和最大关系数量取值相应增大,应用该层学习结果的模型性能较好。图6是不同层超参数按照图5进行取值时,模型的性能表现。
由图6可以看出,应用第12层的B_CBERT模型学习结果,NER 性能最优,同时在第4层超参数最优的情况下,模型性能也可以达到最优,F1值均为0.785。结合图5中第4层和第12层的超参数选择进行分析,发现二者使用数据方面的主要区别体现在,第4层的句子长度取值为256,最大关系数量取值为16,而第12层取值分别为128 和10。从数值大小来看,应用第4层模型训练时获取到句子中更多的实体对信息,使得语料特征更丰富,但是第4层并没有学习到很有效的句子级别的语义信息,因此在模型性能表现上只是和第12层等同,并没有提升。而应用第12层进行超参数微调,在硬件资源允许的情况下,模型性能会有一定的提升。因此,根据超参数调优过程,得到最终实体间关系抽取任务微调的超参数选择如图7所示。
步骤8中为验证本发明方法的有效性,选取了与管道式任务处理方式相符且使用BERT做领域迁移的模型R-BERT进行对比。该模型是针对单个实体对的单关系抽取,用特殊标记在模型输入部分获取单实体对的定位信息,并将[CLS]和两个实体的嵌入拼接起来,再使用 softmax进行关系分类的方法。不同方法在其最优超参数条件下的性能对比如图8所示,Mre-BERT(Multiple relation BERT)是指多实体对多关系预测的模型结构,MEOP-BERT是利用多实体对的相对位置信息增强注意力的模型结构,这些模型均使用softmax做输出层的关系分类。
从图8中各模型性能表现可以看出,所有基于BERT的实体间关系抽取模型中,方法3性能表现最优,F1值达到74.32%。且在建筑领域深度预训练后,模型性能进一步提升,如方法8的表现,F1值达到78.05%。分别对比方法2和方法3,以及方法4和方法8的性能表现,可以明显看出多实体对相对位置信息对于模型性能提升的有效性,F1值提升了3%左右。方法1中,首先需要将多关系句子进行重复,使得关系与句子一一对应。方法2相较于方法1,性能提升达到 4%左右,说明多实体对多关系的抽取方法更高效,并这种方法更适用于真实应用数据语料。
在此基础上,本发明继续探究了这几个方法的训练耗时情况,发现在最优性能情况下,后四个方法训练大约耗时30分钟,而方法1 训练耗时长达8个小时左右,后者是前者的近10倍。因此,面向多实体对多关系进行一次性抽取的方法显著快于R-BERT,结合步骤8中句子中关系数量的统计信息和数据分析中实体的密度表现,要保证关系与句子一对一,会产生大量重复的句子,因此训练耗时增幅明显。
步骤9中为进一步验证MEOP-B_CBERT-softmax是否适用于单关系的抽取,本发明还进行了另一组对比实验,数据为经过处理关系与句子一一对应的语料,结果如图9所示。
从图9可以看出,多实体对的关系抽取方式同样适用于单关系的抽取,通过将方法1分别与方法2、3比较,后两种方法通过引入多实体对相对位置信息,达到了与单关系抽取模型接近的性能表现。方法4和5在方法2和3的基础上加入了建筑领域深度预训练过程,性能得到了3%的提升,说明领域预训练模型对于领域内任务性能提升十分有效。同时,通过对比图8中方法5和图9中方法5的性能表现,进一步说明了对于句子与关系一对多的数据语料,直接进行多关系抽取的方式优于拆分成单关系的抽取方式。
分析多关系抽取优于单关系抽取的原因:一方面,单关系重复句子的做法,破坏了数据自身的多样性;另一方面,过长的句子导致与关系相关的实体在该句中的位置严重滞后,而BERT对输入句子长度有一定的限制,这样会导致做一些无效的句子重复工作。基于这两个原因,多关系抽取取得了更好的性能。并且,本发明的方法在处理单关系抽取时,将句子中的关系数量作为一个超参数进行控制,所以,在模型性能接近的条件下,训练耗时明显减少。

Claims (6)

1.基于深度学习的地铁设计领域规范的实体间关系抽取方法,其特征在于:包括以下步骤:
步骤1,针对一次句子输入,多对关系同时抽取出来的问题,将BERT-base版本模型输出结构进行调整;
步骤2,设计面向多实体对的MEOP-B_CBERT-softmax的模型;
步骤3,将句子中多个关系的信息编码至模型中,在不同层注意力计算的过程中传递关系信息;
步骤4,在步骤2的模型中输入《地铁设计规范》GB 5017-2013实验数据并进行数据标注;
步骤5,分析步骤4实验数据和环境特点;
步骤6,设计实验评价指标;
步骤7,检验训练过程中模型状态及收敛情况,调整得到最优的超参数;
步骤8,对比与管道式任务处理方式相符且使用BERT做领域迁移的模型R-BERT,以验证本发明方法的有效性;
步骤9,验证MEOP-B_CBERT-softmax是否适用于单关系的抽取。
2.如权利要求1所述的基于深度学习的地铁设计领域规范的实体间关系抽取方法,其特征在于,步骤1中,针对一次句子输入,多对关系同时抽取出问题,本发明将BERT-base版本模型输出结构进行调整,具体步骤为:
步骤1.1,首先获取实体表征,但在该过程中,BERT模型是以字为单位的输入,但是一个实体往往包含多个字,因此需要采取一定的操作将多个字的隐藏层输出进行合并;
步骤1.2,其次对关系进行表示,本发明通过将与关系相关的两个实体的表征向量进行拼接,得到关系的表示信息;
步骤1.3,最后,需要一个关系分类器进行分类操作,具体使用softmax函数。
3.如权利要求1所述的基于深度学习的地铁设计领域规范的实体间关系抽取方法,其特征在于,步骤2中设计了MEOP-B_CBERT-softmax模型结构;
模型的输入是一个句子包含多对实体之间的关系,利用实体的相对位置信息,在B_CBERT模型内部每个字的注意力计算过程中,加入了实体相对位置的计算信息;其次,模型得到了基于实体掩码信息的实体输出表示;图中实体i包含Ti到Tj的字,实体i的表示是先将Ti到Tj的字的隐藏向量做平均池化操作,之后再与句子中实体的掩码信息相乘,得到输出表示oi,实体i是关系i的首实体。对关系i的尾实体j做同样的操作得到oj,最后将oi和oj进行拼接,经过一个全连接层送入关系分类层,得到分类结果。关系预测的公式描述如下:
Figure FDA0003136882130000021
4.如权利要求1所述的基于深度学习的地铁设计领域规范的实体间关系抽取方法,其特征在于,步骤3中利用边的距离信息来建模“其他字”和实体词之间的距离,并将距离信息应用于注意力计算过程,增强注意力信息。以这种方式将句子中多个关系的信息编码至模型中,并在不同层注意力计算的过程中传递关系信息;
“其他字”和“负荷等级”的距离用矩阵表示,矩阵的行和列分别代表句子中的一个个字,每个元素代表当前行所代表的字到当前列代表的字之间的距离,“负荷等级”为句中的一个实体,以该实体为核心,属于该实体的字到实体的边的值为0;位于实体左边的字,如果与实体的距离小于设定的最大距离,边的值为该距离值,否则边的值为最大距离值;位于实体右边的字,如果与实体的距离小于设定的最大距离,边的值为最大距离值加上当前距离值,否则为最大距离值的2倍。
按照这样的方式得到句中每个字到句中某个实体的边的信息,即相对位置信息;根据Shaw等研究发现,在一定的距离之外,再精确的相对位置信息也是无效的,并且将距离作为一个参数进行限制,能够提升模型在相对距离方面的泛化能力;因此在实验过程中,本发明将相对距离长度作为一个超参数对模型训练做出限制,即对实体的左右距离进行限制;结合注意力计算,应用相对距离信息的计算过程如下:
Figure FDA0003136882130000041
Figure FDA0003136882130000042
Figure FDA0003136882130000043
当Qi不改变,在被查询的键向量和值向量中分别加入相对位置信息,即
Figure FDA0003136882130000044
Figure FDA0003136882130000045
d(i,j)的表示对应于图2到矩阵的转换过程,矩阵的形式化表示如下:
Figure FDA0003136882130000046
5.如权利要求1所述的基于深度学习的地铁设计领域规范的实体间关系抽取方法,其特征在于,步骤7中开展了基于迭代次数、学习率、微调使用的BERT层数、最大长度、实体最大距离和最大关系数量等多个超参数的择优过程,以探究不同超参数对实验性能的影响角度和影响程度;
实体间关系抽取的微调超参数选择过程主要探究迭代次数、学习率、预训练模型的不同层、实体最大距离和最大关系数量五个参数的F1值表现;
步骤7.1,首先,在全量B_CBERT预训练模型,即应用第12层的模型学习结果,探究迭代次数、学习率、实体最大距离和最大关系数量四个参数对模型性能的影响,且第12层在GPU内存充分利用的情况下,句子最大长度取值为128,批次大小为4;
步骤7.2,微调B_CBERT模型每一层的超参数,得到该层的最优参数组合,进而探究模型性能表现最优时所应用的模型层数。探究模型不同层的学习结果对实体间关系抽取性能的影响,其他每一层都在第12层所探究的最佳参数组合的基础上进行微调,找到该层的最佳参数组合。
6.如权利要求1所述的基于深度学习的地铁设计领域规范的实体间关系抽取方法,其特征在于,步骤7.1的具体步骤为:
步骤7.1.1,实验应用第12层的模型学习结果,在学习率为1e-6,批次大小为4,最大距离为4,最大关系数量为10的条件下,依次探究不同迭代次数和学习率的F1值表现。
步骤7.1.2,在此基础上,进一步探究实体最大距离和最大关系数量对模型性能的影响。
步骤7.1.3之后在上一步骤前提下,探究最大关系数量对模型性能的影响;由步骤5中句子中关系数量的统计信息以及不同句子长度的统计信息可知,当最大关系数量取值增加时,模型输入句子长度的取值限制了模型所能获取的关系数量,因此模型性能表现几乎趋于稳定。
CN202110722239.XA 2021-06-28 2021-06-28 基于深度学习的地铁设计领域规范的实体间关系抽取方法 Active CN113468865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110722239.XA CN113468865B (zh) 2021-06-28 2021-06-28 基于深度学习的地铁设计领域规范的实体间关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110722239.XA CN113468865B (zh) 2021-06-28 2021-06-28 基于深度学习的地铁设计领域规范的实体间关系抽取方法

Publications (2)

Publication Number Publication Date
CN113468865A true CN113468865A (zh) 2021-10-01
CN113468865B CN113468865B (zh) 2024-04-09

Family

ID=77873428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110722239.XA Active CN113468865B (zh) 2021-06-28 2021-06-28 基于深度学习的地铁设计领域规范的实体间关系抽取方法

Country Status (1)

Country Link
CN (1) CN113468865B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860281A (zh) * 2023-02-27 2023-03-28 之江实验室 基于跨实体注意力的能源系统多实体负载预测方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276279A1 (en) * 2017-03-23 2018-09-27 International Business Machines Corporation Leveraging extracted entity and relation data to automatically filter data streams
CN110570920A (zh) * 2019-08-20 2019-12-13 华东理工大学 一种基于集中注意力模型的实体、关系联合学习方法
US20200065374A1 (en) * 2018-08-23 2020-02-27 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
US20200073882A1 (en) * 2018-08-31 2020-03-05 Accenture Global Solutions Limited Artificial intelligence based corpus enrichment for knowledge population and query response
CN111428505A (zh) * 2020-01-17 2020-07-17 北京理工大学 一种融合触发词识别特征的实体关系抽取方法
CN111859912A (zh) * 2020-07-28 2020-10-30 广西师范大学 基于pcnn模型的带有实体感知的远程监督关系抽取方法
CN112463982A (zh) * 2020-11-27 2021-03-09 华东师范大学 一种基于显隐式实体约束的关系抽取方法
CN112883738A (zh) * 2021-03-23 2021-06-01 西南交通大学 基于神经网络和自注意力机制的医学实体关系抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276279A1 (en) * 2017-03-23 2018-09-27 International Business Machines Corporation Leveraging extracted entity and relation data to automatically filter data streams
US20200065374A1 (en) * 2018-08-23 2020-02-27 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
US20200073882A1 (en) * 2018-08-31 2020-03-05 Accenture Global Solutions Limited Artificial intelligence based corpus enrichment for knowledge population and query response
CN110570920A (zh) * 2019-08-20 2019-12-13 华东理工大学 一种基于集中注意力模型的实体、关系联合学习方法
CN111428505A (zh) * 2020-01-17 2020-07-17 北京理工大学 一种融合触发词识别特征的实体关系抽取方法
CN111859912A (zh) * 2020-07-28 2020-10-30 广西师范大学 基于pcnn模型的带有实体感知的远程监督关系抽取方法
CN112463982A (zh) * 2020-11-27 2021-03-09 华东师范大学 一种基于显隐式实体约束的关系抽取方法
CN112883738A (zh) * 2021-03-23 2021-06-01 西南交通大学 基于神经网络和自注意力机制的医学实体关系抽取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860281A (zh) * 2023-02-27 2023-03-28 之江实验室 基于跨实体注意力的能源系统多实体负载预测方法和装置

Also Published As

Publication number Publication date
CN113468865B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN111414481B (zh) 基于拼音和bert嵌入的中文语义匹配方法
WO2021204014A1 (zh) 一种模型训练的方法及相关装置
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN111859978A (zh) 一种基于深度学习的情感文本生成方法
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
WO2023109436A1 (zh) 词性感知嵌套命名实体识别方法、系统、设备和存储介质
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
Zhao et al. Synchronously improving multi-user English translation ability by using AI
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
Liu et al. Cross-media intelligent perception and retrieval analysis application technology based on deep learning education
CN113806543B (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN113468865A (zh) 基于深度学习的地铁设计领域规范的实体间关系抽取方法
CN111061873A (zh) 一种基于Attention机制的多通道的文本分类方法
CN112800205B (zh) 基于语义变化流形分析获取问答相关段落的方法、装置
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN117539999A (zh) 一种基于跨模态联合编码的多模态情感分析方法
CN109829054A (zh) 一种文本分类方法及系统
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN115455144A (zh) 用于小样本意图识别的完型填空式的数据增强方法
CN113705197B (zh) 一种基于位置增强的细粒度情感分析方法
Wang et al. Predicting the Chinese poetry prosodic based on a developed BERT model
CN112784036A (zh) 基于无监督集成学习的抽取式文本摘要方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant