CN113468865B

CN113468865B - 基于深度学习的地铁设计领域规范的实体间关系抽取方法

Info

Publication number: CN113468865B
Application number: CN202110722239.XA
Authority: CN
Inventors: 朱磊; 陈弘玉; 黑新宏; 李亚轩; 刘帅; 崔程星
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2024-04-09
Anticipated expiration: 2041-06-28
Also published as: CN113468865A

Abstract

本发明公开了基于深度学习的地铁设计领域规范的实体间关系抽取方法，采用了一定的输出结构去捕捉存在于句子中的多实体之间的多关系，利用基于实体的掩码信息，屏蔽掉句子中实体之外的部分。同时，将句子中实体的相对位置信息融入到注意力计算过程中，加强了句子中“每个字”的注意力信息。参数选择方面开展了基于迭代次数、学习率、微调使用的BERT层数、最大长度、实体最大距离和最大关系数量等多个超参数的择优过程，以探究不同超参数对实验性能的影响角度和影响程度。方法对比部分选取了和本发明任务设定符合的R‑BERT，着重探究多关系输出结构的可用性，以及实体相对位置信息对任务性能提升的有效性。

Description

基于深度学习的地铁设计领域规范的实体间关系抽取方法

技术领域

本发明属于计算机自然语言处理和信息抽取技术领域，具体涉及基于深度学习的地铁设计领域规范的实体间关系抽取方法。

背景技术

近几年深度学习的浪潮席卷全球，在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源双重加持下，深度学习深入影响了自然语言处理的各个方向，极大推动了自然语言处理的发展。在自然语言处理领域里，实体间关系抽取(RelationExtraction，RE)任务同样是基于传统方法和基于深度学习的方法。目前，传统的RE方法包括三种，但三种方法都有各自的缺点。基于深度学习的实体间关系抽取方法利用神经网络自动提取和学习数据中的特征，不需要领域专家制定相应规则，同时可以从浅层特征逐步学习到深层抽象特征，实现进一步提高预测的准确性。针对实体间关系抽取，有两种不同的处理方式，一是管道式，另一种则是端到端的实体间关系抽取方式，但是现有的一些端到端的模型并没有有效实现加强实体抽取模型和关系模型之间的交互，无法做到平衡子模型特征的丰富性和联合解码的精确性，并且联合解码方式通常很复杂。实体识别的误差传播不是不存在更不是无法解决，而是需要探索更好的解决方案。并且，相较于基于英文文本和通用领域文本中，实体间关系抽取任务取得的进展相对缓慢并且对于实体间关系抽取的研究多面向通用领域，特定领域的研究主要集中在生物医学领域，针对地铁设计领域的相关研究还处于起步阶段，可参考的文献和资料也鲜少存在，没有公开、权威的地铁设计领域的语料库可以使用。

发明内容

本发明的目的是提供基于深度学习的地铁设计领域规范的实体间关系抽取方法。解决了现有技术中存在的缺乏针对地铁设计领域的实体间关系抽取方法，实体间关系抽取任务基于命名实体识别展开，主要抽取13类关系。

本发明针对地铁设计规范的实体间关系抽取任务，采用了一定的输出结构去捕捉存在于句子中的多实体之间的多关系，利用基于实体的掩码信息，屏蔽掉句子中实体之外的部分。同时，将句子中实体的相对位置信息融入到注意力计算过程中，加强句子中“每个字”的注意力信息。

本发明所采用的技术方案是，

基于深度学习的地铁设计领域规范的实体间关系抽取方法，包括以下步骤：

步骤1，针对一次句子输入，多对关系同时抽取出来的问题，将 BERT-base版本模型输出结构进行调整；

步骤2，设计面向多实体对的MEOP-B_CBERT-softmax的模型；

步骤3，将句子中多个关系的信息编码至模型中，在不同层注意力计算的过程中传递关系信息；

步骤4，在步骤2的模型中输入《地铁设计规范》GB 5017-2013 实验数据并进行数据标注；

步骤5，分析步骤4实验数据和环境特点；

步骤6，设计实验评价指标；

步骤7，检验训练过程中模型状态及收敛情况，调整得到最优的超参数；

步骤8，对比与管道式任务处理方式相符且使用BERT做领域迁移的模型R-BERT，以验证本发明方法的有效性；

步骤9，验证MEOP-B_CBERT-softmax是否适用于单关系的抽取；

步骤1中，针对一次句子输入，多对关系同时抽取出问题，本发明将BERT-base版本模型输出结构进行调整，具体步骤为：

步骤1.1，首先获取实体表征，但在该过程中，BERT模型是以字为单位的输入，但是一个实体往往包含多个字，因此需要采取一定的操作将多个字的隐藏层输出进行合并；

步骤1.2，其次对关系进行表示，本发明通过将与关系相关的两个实体的表征向量进行拼接，得到关系的表示信息；

步骤1.3，最后，需要一个关系分类器进行分类操作，具体使用 softmax函数。

步骤2中设计了MEOP-B_CBERT-softmax模型结构；

模型的输入是一个句子包含多对实体之间的关系，利用实体的相对位置信息，在B_CBERT模型内部每个字的注意力计算过程中，加入了实体相对位置的计算信息；其次，模型得到了基于实体掩码信息的实体输出表示；图中实体i包含Ti到Tj的字，实体i的表示是先将 Ti到Tj的字的隐藏向量做平均池化操作，之后再与句子中实体的掩码信息相乘，得到输出表示oi，实体i是关系i的首实体。对关系i 的尾实体j做同样的操作得到oj，最后将oi和oj进行拼接，经过一个全连接层送入关系分类层，得到分类结果。关系预测的公式描述如下：

步骤3中利用边的距离信息来建模“其他字”和实体词之间的距离，并将距离信息应用于注意力计算过程，增强注意力信息。以这种方式将句子中多个关系的信息编码至模型中，并在不同层注意力计算的过程中传递关系信息；

“其他字”和“负荷等级”的距离用矩阵表示，矩阵的行和列分别代表句子中的一个个字，每个元素代表当前行所代表的字到当前列代表的字之间的距离，“负荷等级”为句中的一个实体，以该实体为核心，属于该实体的字到实体的边的值为0；位于实体左边的字，如果与实体的距离小于设定的最大距离，边的值为该距离值，否则边的值为最大距离值；位于实体右边的字，如果与实体的距离小于设定的最大距离，边的值为最大距离值加上当前距离值，否则为最大距离值的2倍。

按照这样的方式得到句中每个字到句中某个实体的边的信息，即相对位置信息；根据Shaw等研究发现，在一定的距离之外，再精确的相对位置信息也是无效的，并且将距离作为一个参数进行限制，能够提升模型在相对距离方面的泛化能力；因此在实验过程中，本发明将相对距离长度作为一个超参数对模型训练做出限制，即对实体的左右距离进行限制；结合注意力计算，应用相对距离信息的计算过程如下：

当Qi不改变，在被查询的键向量和值向量中分别加入相对位置信息，即和d(i，j)的表示对应于图2到矩阵的转换过程，矩阵的形式化表示如下：

步骤7中开展了基于迭代次数、学习率、微调使用的BERT层数、最大长度、实体最大距离和最大关系数量等多个超参数的择优过程，以探究不同超参数对实验性能的影响角度和影响程度；

实体间关系抽取的微调超参数选择过程主要探究迭代次数、学习率、预训练模型的不同层、实体最大距离和最大关系数量五个参数的 F1值表现；

步骤7.1，首先，在全量B_CBERT预训练模型，即应用第12层的模型学习结果，探究迭代次数、学习率、实体最大距离和最大关系数量四个参数对模型性能的影响，且第12层在GPU内存充分利用的情况下，句子最大长度取值为128，批次大小为4；

步骤7.2，微调B_CBERT模型每一层的超参数，得到该层的最优参数组合，进而探究模型性能表现最优时所应用的模型层数。探究模型不同层的学习结果对实体间关系抽取性能的影响，其他每一层都在第12层所探究的最佳参数组合的基础上进行微调，找到该层的最佳参数组合。

步骤7.1的具体步骤为：

步骤7.1.1，实验应用第12层的模型学习结果，在学习率为1e-6，批次大小为4，最大距离为4，最大关系数量为10的条件下，依次探究不同迭代次数和学习率的F1值表现。

步骤7.1.2，在此基础上，进一步探究实体最大距离和最大关系数量对模型性能的影响。

步骤7.1.3之后在上一步骤前提下，探究最大关系数量对模型性能的影响；由步骤5中句子中关系数量的统计信息以及不同句子长度的统计信息可知，当最大关系数量取值增加时，模型输入句子长度的取值限制了模型所能获取的关系数量，因此模型性能表现几乎趋于稳定。

本发明的有益效果为：

采用了一定的输出结构去捕捉存在于句子中的多实体之间的多关系，利用基于实体的掩码信息，屏蔽掉句子中实体之外的部分。同时，将句子中实体的相对位置信息融入到注意力计算过程中，加强了句子中“每个字”的注意力信息。参数选择方面开展了基于迭代次数、学习率、微调使用的BERT层数、最大长度、实体最大距离和最大关系数量等多个超参数的择优过程，以探究不同超参数对实验性能的影响角度和影响程度。方法对比部分选取了和本发明任务设定符合的 R-BERT，着重探究多关系输出结构的可用性，以及实体相对位置信息对任务性能提升的有效性。

附图说明

图1是本发明的MEOP-B_CBERT-softmax模型结构。

图2是本发明的基于距离的建模示例。

图3是本发明的迭代次数和学习率对模型性能的影响图。

图4是本发明的实体最大距离和最大关系数量对模型性能的影响。

图5是本发明的每层最佳参数组合图。

图6是本发明的不同层模型性能表现图。

图7是本发明的实体间关系抽取微调超参数选择图。

图8是本发明的多实体对不同模型性能对比图。

图9是本发明的单实体对不同模型性能对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于深度学习的地铁设计规范实体间关系抽取方法。具体包括以下步骤：

步骤2，设计面向多实体对的MEOP-B_CBERT-softmax的模型；

步骤5，分析步骤4实验数据和环境特点；

步骤6，设计实验评价指标；

步骤8，验证本发明方法的有效性，选取与管道式任务处理方式相符且使用BERT做领域迁移的模型R-BERT进行对比；

步骤9，验证MEOP-B_CBERT-softmax是否适用于单关系的抽取；

步骤1中，针对一次句子输入，多对关系同时抽取出来的问题，本发明将BERT-base版本模型输出结构进行调整。

步骤1.3，最后，需要一个关系分类器进行分类操作，例如可以使用softmax函数。

步骤2中设计了如图1所示的MEOP-B_CBERT-softmax(Multiple entities oppositeposition B_CBERT softmax)模型结构。模型的输入是一个句子包含多对实体之间的关系，利用实体的相对位置信息，在B_CBERT模型内部每个字的注意力计算过程中，加入了实体相对位置的计算信息。其次，模型得到了基于实体掩码信息的实体输出表示。图中实体i包含Ti到Tj的字，实体i的表示是先将Ti到Tj 的字的隐藏向量做平均池化操作，之后再与句子中实体的掩码信息相乘，得到输出表示oi，实体i是关系i的首实体。对关系i的尾实体j做同样的操作得到oj，最后将oi和oj进行拼接，经过一个全连接层送入关系分类层，得到分类结果。关系预测的公式描述如下：

步骤3中利用图中边的距离信息来建模“其他字”和实体词之间的距离，并将距离信息应用于注意力计算过程，增强注意力信息。以这种方式将句子中多个关系的信息编码至模型中，并在不同层注意力计算的过程中传递关系信息。

根据Shaw等研究发现，在一定的距离之外，再精确的相对位置信息也是无效的，并且将距离作为一个参数进行限制，能够提升模型在相对距离方面的泛化能力。因此在实验过程中，本发明将相对距离长度作为一个超参数对模型训练做出限制，即对实体的左右距离进行限制。结合注意力计算，应用相对距离信息的计算过程如下：

步骤4中根据步骤2中模型设计，模型输入数据以csv格式存储，该实验数据来源于《地铁设计规范》GB 5017-2013，数据格式为：“句子，(关系类别1，首实体1开始索引，首实体1结束索引，首实体1 类别，尾实体1开始索引，尾实体1结束索引，尾实体1类别)，(关系类别2，首实体2开始索引，首实体2结束索引，首实体2类别，尾实体2开始索引，尾实体2结束索引，尾实体2类别)，(…)”，引号中的内容为一个句子的标注信息，由两部分内容构成，分别是句子文本和关系，括号中的部分是“句子”中所包含的一个关系。

步骤5中，分析步骤4实验数据和环境特点，从语料库十四大不同关系类别的统计数据来看，“领属”类别占比最大，与地铁设计规范文本的描述信息的特点一致，即较多的篇幅用来描述地铁中不同元素中从属元素的限制信息，限制内容主要通过“满足”关系进行描述。除了元素的从属关系，另一类重要的关系是“修饰限定”，修饰限定的内容主要表现为地铁中元素的受控信息。其余类别关系中数量占比较多和较少接近2倍，比如“设置”类和“利用”类关系是“位置”类数量的2倍，基本符合地铁设计文本描述内容的特点。最后，使用“其他”这一类别来描述句子不存在任何类别的关系或者非地铁设计领域所关注的关系信息。

再进一步统计实验数据中每个句子包含的关系数量信息，并将其作为步骤6参数选择的参考。

步骤6中，设计实验评价指标，衡量命名实体间关系抽取结果的三个评价指标分别为精确率、召回率和F1值。本发明中出于探究更好的模型以适应于地铁设计规范的命名实体任务的目的，选用F1作为评价指标。并根据步骤5中实验数据十四类关系的占比不均衡的情况，本步骤实验评价指标将以上的三个评价指标值进行加权计算，即乘上该类在总样本中的占比。

步骤7中开展了基于迭代次数、学习率、微调使用的BERT层数、最大长度、实体最大距离和最大关系数量等多个超参数的择优过程，以探究不同超参数对实验性能的影响角度和影响程度。

实体间关系抽取的微调超参数选择过程主要探究迭代次数、学习率、预训练模型的不同层、实体最大距离和最大关系数量五个参数的 F1值表现。

步骤7.1，首先，在全量B_CBERT预训练模型，即应用第12层的模型学习结果，探究迭代次数、学习率、实体最大距离和最大关系数量四个参数对模型性能的影响，且第12层在GPU内存充分利用的情况下，句子最大长度取值为128，批次大小为4。

实验应用第12层的模型学习结果，在学习率为1e-6，批次大小为4，最大距离为4，最大关系数量为10的条件下，依次探究不同迭代次数和学习率的F1值表现，如图3所示。从图3(a)中可以看出， F1值随着迭代次数的增加先增后减，且取值为140时，模型性能最佳，F1值达到0.752。因此，在探究不同层的最佳参数组合时，迭代次数在140上下进行微调。接着，迭代次数取值为140时，不同学习率下模型F1值的变化趋势如图3(b)所示。

如图3(b)所示，随着学习率的减小，F1值整体呈现先增后减的趋势，且取值为1e-6时，模型性能明显降低。学习率和F1值的关系说明了第12层的初始学习率比较小时模型性能表现较优，但是学习率过低会使模型性能下降，从图3(b)中可以看出学习率取值为 2e-6时，模型性能最优，F1值达到0.785。在此基础上，进一步探究实体最大距离和最大关系数量对模型性能的影响，如图4中(c)和 (d)所示。

如图4(c)所示，当实体最大距离大于等于4时，模型性能几乎呈现稳定状态，此时F1值达到0.785，说明最佳的实体最大距离为 4。之后，在迭代次数为140，学习率为2e-6，实体最大距离为4的前提下，探究最大关系数量对模型性能的影响，结果如图4(d)所示。

在图4(d)中，当最大关系数量为10时，模型性能表现最优，且模型性能随着数值增大逐渐趋于稳定。由实验数据句子中关系数量的统计信息以及不同句子长度的统计信息可知，当最大关系数量取值增加时，模型输入句子长度的取值限制了模型所能获取的关系数量，因此模型性能表现几乎趋于稳定。

步骤7.2，接着，微调B_CBERT模型每一层的超参数，得到该层的最优参数组合，进而探究模型性能表现最优时所应用的模型层数。

其他每一层都在第12层所探究的最佳参数组合的基础上进行微调，找到该层的最佳参数组合，如图5所示。

由图5可以看出，大多数的迭代次数取值为140时，均可以取得最优模型性能。且层数越少，模型越小时，学习率取值相应增大，模型性能表现越好。当实体最大距离取值为4时，不同层的模型性能均表现最优。在GPU内存充分利用的情况下，进一步分析最大关系数量和句子长度，低层的模型参数越少，句子长度和最大关系数量取值相应增大，应用该层学习结果的模型性能较好。图6是不同层超参数按照图5进行取值时，模型的性能表现。

由图6可以看出，应用第12层的B_CBERT模型学习结果，NER 性能最优，同时在第4层超参数最优的情况下，模型性能也可以达到最优，F1值均为0.785。结合图5中第4层和第12层的超参数选择进行分析，发现二者使用数据方面的主要区别体现在，第4层的句子长度取值为256，最大关系数量取值为16，而第12层取值分别为128 和10。从数值大小来看，应用第4层模型训练时获取到句子中更多的实体对信息，使得语料特征更丰富，但是第4层并没有学习到很有效的句子级别的语义信息，因此在模型性能表现上只是和第12层等同，并没有提升。而应用第12层进行超参数微调，在硬件资源允许的情况下，模型性能会有一定的提升。因此，根据超参数调优过程，得到最终实体间关系抽取任务微调的超参数选择如图7所示。

步骤8中为验证本发明方法的有效性，选取了与管道式任务处理方式相符且使用BERT做领域迁移的模型R-BERT进行对比。该模型是针对单个实体对的单关系抽取，用特殊标记在模型输入部分获取单实体对的定位信息，并将[CLS]和两个实体的嵌入拼接起来，再使用 softmax进行关系分类的方法。不同方法在其最优超参数条件下的性能对比如图8所示，Mre-BERT(Multiple relation BERT)是指多实体对多关系预测的模型结构，MEOP-BERT是利用多实体对的相对位置信息增强注意力的模型结构，这些模型均使用softmax做输出层的关系分类。

从图8中各模型性能表现可以看出，所有基于BERT的实体间关系抽取模型中，方法3性能表现最优，F1值达到74.32％。且在建筑领域深度预训练后，模型性能进一步提升，如方法8的表现，F1值达到78.05％。分别对比方法2和方法3，以及方法4和方法8的性能表现，可以明显看出多实体对相对位置信息对于模型性能提升的有效性，F1值提升了3％左右。方法1中，首先需要将多关系句子进行重复，使得关系与句子一一对应。方法2相较于方法1，性能提升达到 4％左右，说明多实体对多关系的抽取方法更高效，并这种方法更适用于真实应用数据语料。

在此基础上，本发明继续探究了这几个方法的训练耗时情况，发现在最优性能情况下，后四个方法训练大约耗时30分钟，而方法1 训练耗时长达8个小时左右，后者是前者的近10倍。因此，面向多实体对多关系进行一次性抽取的方法显著快于R-BERT，结合步骤8中句子中关系数量的统计信息和数据分析中实体的密度表现，要保证关系与句子一对一，会产生大量重复的句子，因此训练耗时增幅明显。

步骤9中为进一步验证MEOP-B_CBERT-softmax是否适用于单关系的抽取，本发明还进行了另一组对比实验，数据为经过处理关系与句子一一对应的语料，结果如图9所示。

从图9可以看出，多实体对的关系抽取方式同样适用于单关系的抽取，通过将方法1分别与方法2、3比较，后两种方法通过引入多实体对相对位置信息，达到了与单关系抽取模型接近的性能表现。方法4和5在方法2和3的基础上加入了建筑领域深度预训练过程，性能得到了3％的提升，说明领域预训练模型对于领域内任务性能提升十分有效。同时，通过对比图8中方法5和图9中方法5的性能表现，进一步说明了对于句子与关系一对多的数据语料，直接进行多关系抽取的方式优于拆分成单关系的抽取方式。

分析多关系抽取优于单关系抽取的原因：一方面，单关系重复句子的做法，破坏了数据自身的多样性；另一方面，过长的句子导致与关系相关的实体在该句中的位置严重滞后，而BERT对输入句子长度有一定的限制，这样会导致做一些无效的句子重复工作。基于这两个原因，多关系抽取取得了更好的性能。并且，本发明的方法在处理单关系抽取时，将句子中的关系数量作为一个超参数进行控制，所以，在模型性能接近的条件下，训练耗时明显减少。

Claims

1.基于深度学习的地铁设计领域规范的实体间关系抽取方法，其特征在于：包括以下步骤：

步骤1，针对一次句子输入，多对关系同时抽取出来的问题，将BERT-base版本模型输出结构进行调整；

步骤1中，针对一次句子输入，多对关系同时抽取出问题，将BERT-base版本模型输出结构进行调整，具体步骤为：

步骤1.1，首先获取实体表征，但在该过程中，BERT模型是以字为单位的输入，但是一个实体包含多个字，因此需要采取一定的操作将多个字的隐藏层输出进行合并；

步骤1.2，其次对关系进行表示，通过将与关系相关的两个实体的表征向量进行拼接，得到关系的表示信息；

步骤1.3，最后，需要一个关系分类器进行分类操作，具体使用softmax函数；

步骤2，设计面向多实体对的MEOP-B_CBERT-softmax的模型；

步骤2中设计了MEOP-B_CBERT-softmax模型结构；

模型的输入是一个句子包含多对实体之间的关系，利用实体的相对位置信息，在B_CBERT模型内部每个字的注意力计算过程中，加入了实体相对位置的计算信息；其次，模型得到了基于实体掩码信息的实体输出表示；实体i包含Ti到Tj的字，实体i的表示是先将Ti到Tj的字的隐藏向量做平均池化操作，之后再与句子中实体的掩码信息相乘，得到输出表示oi，实体i是关系i的首实体；对关系i的尾实体j做同样的操作得到oj，最后将oi和oj进行拼接，经过一个全连接层送入关系分类层，得到分类结果；关系预测的公式描述如下：

；

步骤3中利用边的距离信息来建模“其他字”和实体词之间的距离，并将距离信息应用于注意力计算过程，增强注意力信息以这种方式将句子中多个关系的信息编码至模型中，并在不同层注意力计算的过程中传递关系信息；

“其他字”和“负荷等级”的距离用矩阵表示，矩阵的行和列分别代表句子中的一个个字，每个元素代表当前行所代表的字到当前列代表的字之间的距离，“负荷等级”为句中的一个实体，以该实体为核心，属于该实体的字到实体的边的值为0；位于实体左边的字，如果与实体的距离小于设定的最大距离，边的值为该距离值，否则边的值为最大距离值；位于实体右边的字，如果与实体的距离小于设定的最大距离，边的值为最大距离值加上当前距离值，否则为最大距离值的2倍；

按照这样的方式得到句中每个字到句中某个实体的边的信息，即相对位置信息；在一定的距离之外，再精确的相对位置信息也是无效的，并且将距离作为一个参数进行限制，能够提升模型在相对距离方面的泛化能力；因此在实验过程中，将相对距离长度作为一个超参数对模型训练做出限制，即对实体的左右距离进行限制；结合注意力计算，应用相对距离信息的计算过程如下：

；

当Qi不改变，在被查询的键向量和值向量中分别加入相对位置信息，即和/>，的表示对应于基于距离的建模到矩阵的转换过程，矩阵的形式化表示如下：

；

步骤4，在步骤2的模型中输入《地铁设计规范》GB 5017-2013实验数据并进行数据标注；

步骤5，分析步骤4实验数据和环境特点；

步骤6，设计实验评价指标；

步骤7中开展了基于迭代次数、学习率、微调使用的BERT层数、最大长度、实体最大距离和最大关系数量多个超参数的择优过程，以探究不同超参数对实验性能的影响角度和影响程度；

实体间关系抽取的微调超参数选择过程主要探究迭代次数、学习率、预训练模型的不同层、实体最大距离和最大关系数量五个参数的F1值表现；

步骤7.1的具体步骤为：

步骤7.1.1，实验应用第12层的模型学习结果，在学习率为1e-6，批次大小为4，最大距离为4，最大关系数量为10的条件下，依次探究不同迭代次数和学习率的F1值表现；

步骤7.1.2，在此基础上，进一步探究实体最大距离和最大关系数量对模型性能的影响；

步骤7.1.3之后在上一步骤前提下，探究最大关系数量对模型性能的影响；由步骤5中句子中关系数量的统计信息以及不同句子长度的统计信息可知，当最大关系数量取值增加时，模型输入句子长度的取值限制了模型所能获取的关系数量，因此模型性能表现几乎趋于稳定；

步骤7.2，微调B_CBERT模型每一层的超参数，得到该层的最优参数组合，进而探究模型性能表现最优时所应用的模型层数探究模型不同层的学习结果对实体间关系抽取性能的影响，其他每一层都在第12层所探究的最佳参数组合的基础上进行微调，找到该层的最佳参数组合；

步骤8，对比与管道式任务处理方式相符且使用BERT做领域迁移的模型R-BERT，以验证方法的有效性；

步骤9，验证MEOP-B_CBERT-softmax是否适用于单关系的抽取。