CN116167368A

CN116167368A - 基于类型关联特征增强的领域文本实体关系抽取方法

Info

Publication number: CN116167368A
Application number: CN202310440331.6A
Authority: CN
Inventors: 相艳; 赵学东; 柳如熙; 线岩团
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-05-26
Anticipated expiration: 2043-04-23
Also published as: CN116167368B

Abstract

本发明涉及基于类型关联特征增强的领域文本实体关系抽取方法，属于实体关系抽取技术领域。本发明包括步骤：首先，构建包含类型表征的领域词典；然后，通过交互门控机制将词汇类型间关系表征与头、尾实体表征融合；最后，使用argmax( )函数将融合类型关联特征的实体对特征解码，预测实体关系。本发明在中文医疗信息处理挑战榜CBLUE上的中文医学文本实体关系抽取数据集（CMeIE）上进行了实验，结果表明本发明的性能相比其他基模型获得了明显提高。

Description

基于类型关联特征增强的领域文本实体关系抽取方法

技术领域

本发明涉及基于类型关联特征增强的领域文本实体关系抽取方法，属于实体关系抽取技术领域。

背景技术

实体关系是隐藏在大量文本中的重要知识，通过实体之间的关系人们可以获得事物之间的联系，构建知识网络。关系知识以三元组的形式表现。例如，在句子“吞咽困难是食道癌最常见的症状”中蕴含三元组（食道癌，吞咽困难，临床表现），其中头实体是“食道癌”、关系是“临床表现”、尾实体是“吞咽困难”。这一对三元组可以表明吞咽困难是食道癌的临床表现。关系抽取的任务就在于从文本中抽取实体关系三元组。早期的关系抽取通常是给定文本及文本中的两个实体，判断实体之间的关系。一组三元组包括头实体、尾实体以及它们之间关系，但一段文本中可能只有一对实体关系，也有可能包含多对实体关系，一个实体可能与两个不同实体有着不同的关系。

目前，关系抽取的主要研究内容是基于神经网络的关系抽取（neural networkrelationship extraction，NRE）模型，神经网络可以从文本中自动提取语义特征。和传统方法相比，NRE主要使用词嵌入和位置嵌入而不是人工特征作为输入。词嵌入是NLP中最常见的输入表示，它通过将语义编码成向量来实现对单个词的处理。通过位置嵌入，可以精确地定义一个词与另一个实体之间的距离，从而更好地捕捉文本中的细节信息。NRE研究的重点是利用各种网络架构来捕捉文本中的关系语义。其中，卷积神经网络（CNN）可以有效地模拟局部文本模式；循环神经网络（RNN）可以更好地处理长序列数据；图形神经网络（GNN）可以用来构建单词/实体图进行推理；注意力机制可以使神经网络聚集全局关系信息。例如，Dligach等人将CNN和LSTM的输出融合在不同类型的注释序列上，得到了一个集成的分类器，在THYME数据集上取得了良好的效果；Christopoulou等人将BiLSTM与注意力机制和转化器分别应用于句内和句间实体关系的提取；通过将图递归网络（GRN）和BiLSTM技术相结合，Song等人大大提升了BiLSTM模型的准确率。最近，Transformer和预训练的语言模型例如BERT也被用于NRE，取得了新的顶级性能。Xue等人利用基于BERT的Attention机制实现了命名实体识别和实体关系抽取的多任务处理。

大多数传统的关系抽取任务是对一个句子中两个给定实体之间的关系进行预测。然而，一个句子可能包含不止一对实体关系，且一个实体可能与多个实体有不同的关系。因此，目前在关系提取方面的许多工作都集中在如何预测句子中多个头、尾实体之间的关系。例如，Wei等人提出了一个重叠三元组抽取方法，其中一个头或尾实体与多个实体有不同的关系。Chen 等人通过重新标记噪声解决了远距离监督三元组抽取中的噪声问题。

目前，一些深度学习模型如CNN、RNN、LSTM等被广泛用于领域的关系提取。例如，张等人把卷积神经网络与支持向量机、条件随机场相结合,构建了联合神经网络模型用于实体及关系抽取；赵等人提出了基于预训练模型的混合神经网络方法；Lai等人提出了基于知识增强的生物医学实体关系抽取模型，可以利用外部知识辅助模型预测；Wang 等人提出了一个基于语料库统计的模型框架，使医学文本关系提取可解释化；武等人提出了基于全词mask的BERT卷积神经网络(BERT(wwm)-CNN)模型用于提升中文心血管医疗语料中关系抽取的性能。这些工作都取得了较好的效果，但他们没有很好地利用实体类别关联信息。实体类别对确定关系有很大帮助，利用类别关联信息可以提高关系抽取性能。

针对上述问题，本发明提出了一种基于类型关联特征增强的领域文本实体关系抽取方法。在公开的CBLUE-CMeIE中文医学实体关系抽取数据集上，本发明方法与一系列基线方法进行了比较，实验结果证明本发明方法在实体关系抽取任务上的有效性。

发明内容

本发明提供了基于类型关联特征增强的领域文本实体关系抽取方法，将实体标记与实体所有字符特征融合来得到实体特征，并使用实体类型关联特征来指导关系抽取，在一定程度上弥补了以往工作中实体信息不完整，忽略实体类型信息进行字符表示增强的不足，提升了实体关系抽取的性能。

本发明的技术方案是：基于类型关联特征增强的领域文本实体关系抽取方法，所述基于类型关联特征增强的领域文本实体关系抽取方法包括如下步骤：

Step1、构建领域词典；

Step2、将实体所对应的所有字符特征融合得到实体特征，并构建实体类型关系矩阵得到实体对的类型关联特征；

Step3、将句子中实体所对应的字符特征求和，得到句子中头、尾实体的特征，通过交互门控机制将其与头、尾实体的类型关联特征拼接，得到融合类型关联特征的实体对特征；

Step4、通过交叉熵损失函数计算损失，使用argmax( )函数将融合类型关联特征的实体对特征解码，预测实体关系。

作为本发明的进一步方案，所述Step1中，构建包含词汇类别信息的领域词典，词典数据来源于搜集的领域文本及数据集的训练集信息，以“词汇，词汇类别”的格式储存；在获得文本中包含的词汇后，根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。对于输入的文本序列，分别获取字符向量

，匹配的词汇向量/>

及其类别向量/>

，具体步骤如下：

Step1.1、对于字符嵌入，使用在语料上所训练的字符向量来作为字符的初始嵌入，具体做法为：根据训练好的 character embedding lookup table，在基于标准分词后的中文语料库Gigaword上使用Word2vec工具训练的嵌入集合；由此将字符

映射到字符嵌入表示/>

及语言模型bigram嵌入表示/>

；其中，Character embedding lookuptable可以翻译为：字符嵌入索引；字符嵌入是一种将字符表示为固定长度的实数向量的方法，可以捕捉字符之间的相似性和语义信息；Character embedding lookup table是一个矩阵，其中每一行对应一个字符，每一列对应一个嵌入维度；矩阵的大小由字符集的大小和嵌入维度的大小决定；Character embedding lookup table可以作为一个可训练的参数，在神经网络模型中进行学习和更新，也可以使用预训练的字符嵌入来初始化查找表；

/>

；

Step1.2、领域词嵌入使用word2vec进行训练，维度为50，窗口设置为5，最小词频设置为5，共训练5轮；最后得到领域词嵌入索引

，将每个词汇/>

映射到一个词嵌入表示/>

：

；

Step1.3、对于词汇的类别嵌入，构建了一个包含词汇类别的领域词典

，以“词汇，词汇类别”的格式储存；/>

将词汇/>

映射到类别/>

，再通过/>

映射到一个类别嵌入表示/>

：

；

若词汇没有找到对应的类别，则将其映射为一个固定的随机初始化的嵌入表示。

作为本发明的进一步方案，所述Step2中，将实体所对应的所有字符特征融合得到实体特征，并构建实体类型关系矩阵得到实体对的类型关联特征；在此步骤，得到句子的字符编码并将其输入到BERT编码器训练得到字符特征，将实体所对应的所有字符特征融合得到实体特征，并构建实体间关系参数矩阵来学习表示类型间关系。具体步骤如下：

Step2.1、对于原始输入的文本序列

，其中x_m表示句子中的第m个字符，通过实体位置坐标确定实体位置，并在实体的开始和结束位置前后打标得到标记后的文本序列/>

，具体地，头实体开始位置前标记<s>、头实体结束位置前标记</s>、尾实体开始位置前标记<o>、尾实体结束位置前标记</o>。例如句子“区分产后抑郁症与轻度情绪失调是重要的”中，头实体为“产后抑郁症”，尾实体为“轻度情绪失调”，标记后的句子为“区分<s>产后抑郁症</s>与<o>轻度情绪失调</o>是重要的”。同时，得到标记后新的实体位置坐标/>

，其中/>

表示<s>标记坐标，/>

表示</s>标记坐标，/>

表示<o>标记坐标，/>

表示</o>标记坐标。

Step2.2、之后将文本序列

通过BERT的字符编码索引/>

得到对应的编码序列

，再将其输入到BERT编码器中获得训练后的字符特征序列/>

，具体计算如下所示。

(6)

(7)

(8)；

Step2.3、得到句子的头、尾实体后，将其在包含类型信息的医学词汇索引

中检索得到词汇的类型/>

，具体计算如下所示。

(9)

(10)；

Step2.4、为了获得词汇类型间的关联特征，通过构建一个实体类型关系矩阵

来表示类型间的关联特征，不同类型两两之间都对应一个关联特征。其中/>

为词汇类型数量，/>

表示隐藏层维度。例如，若头实体类型为疾病，类型编号为/>

，尾实体类型为症状，类型编号为/>

，则输入文本序列中头、尾实体的实体类型关系特征/>

就表示了疾病类型与症状类型之间的关系信息。通过这个实体类型关系矩阵，得到实体对的类型关系特征/>

来表示不同类型之间的关系特征。

(11)

其中，

表示第j个头实体的实体类型，/>

表示第j个尾实体的实体类型，/>

表示二者之间的关联特征。

作为本发明的进一步方案，所述Step3中，将句子中实体所对应的字符特征求和，得到句子中头、尾实体的特征，通过交互门控机制将其与头、尾实体的类型关联特征拼接，得到融合类型关联特征的实体对特征；具体步骤如下:

Step3.1、将句子中实体所对应的字符特征求和，得到句子中头、尾实体的特征，根据头、尾实体

的开始与结束坐标/>

，将BERT编码器输出的训练好的字符特征序列/>

中实体所对应的所有字符特征求和，得到句子的头、尾实体特征/>

，具体的计算过程如下。

(12)

(13)；

Step3.2、在得到头、尾实体特征

后将二者拼接得到实体对特征/>

，将实体对特征/>

与类型关联特征/>

融合拼接，为了动态控制实体对特征和类型关联特征的贡献，使用一个交互门控机制来获得融合后的实体对表示/>

，并进行线性变换，得到最终的实体对特征/>

，其中/>

表示数据集的关系数量。

(14)

(15)

(16)

(17)

(18)

其中

为sigmod函数，/>

表示点乘计算，/>

、/>

、/>

、/>

、/>

为可学习参数，/>

表示拼接后的实体对特征，/>

表示拼接计算。

作为本发明的进一步方案，所述Step4中，通过交叉熵损失函数计算损失，使用argmax( )函数将融合类型关联特征的实体对特征解码，预测实体关系。具体步骤如下：

Step4.1、在得到最终的实体对特征

后，通过交叉熵损失函数来计算损失，具体计算如下。

(19)

其中

是实体对的标签值。

Step4.2、最后，使用argmax函数将融合类型关联特征的实体对特征解码，预测实体关系。

(20)

其中

表示模型预测的实体对类型标签。

本发明的有益效果是：

本发明首先构建包含类型表征的领域词典；然后，通过交互门控机制将词汇类型间关系表征与头、尾实体表征融合；最后，使用argmax( )函数将融合类型关联特征的实体对特征解码，预测实体关系。在公开的中文医学文本实体关系抽取数据集（CMeIE）上，本发明方法与一系列基线方法进行了比较，本发明的性能相比其他基模型获得了明显提高，实验结果证明了本发明方法在实体关系抽取任务上的有效性。

附图说明

图1为本发明中基于类型关联特征增强的领域文本实体关系抽取模型框架；

图2为本发明中不同的实体特征提取方式；

图3为本发明方法迁移应用到各基线模型上，改进前后的F1值对比示意图；

图4为本发明方法迁移应用到各基线模型上，改进前后的准确率对比示意图；

图5为本发明方法迁移应用到各基线模型上，改进前后的召回率对比示意图。

具体实施方式

实施例1，一种基于类型关联特征增强的领域文本实体关系抽取方法，针对本发明提出的以上方法在中文医学文本实体关系抽取数据集（CMeIE）上进行实验，本发明所使用的数据来自于中文医疗信息处理挑战榜CBLUE(Chinese Biomedical LanguageUnderstanding Evaluation)的关系抽取数据集CMeIE。CMeIE包含疾病、药物、手术治疗、身体等11类医疗领域实体。这个数据集收录了518种儿科疾病的训练语料，以及109种常见疾病的训练语料。三元组数据接近7.5万条，疾病语句接近2.8万条和定义好的关系有53种。数据集统计见表1。

本发明实验环境为Windows系统下基于Python 3.7 的深度学习框架Pytoch1.7.1进行构建。模型训练过程中，学习率设置为3e-5，训练batch_size设置为32，验证batch_size设置为32，adam_epsilon设置为1e-8，hidden设置为768。

设置评价指标，关系抽取主要有三个可量化的评价指标:Precision (P)、Recall(R)和F1-score (F1)。实体和关系抽取任务可以分别进行评价。P度量关系抽取模型正确识别关系的能力，R度量关系抽取模型识别关系的能力，F1取两者的调和均值。

(21)

(22)

(23)

其中，TP表示模型正确识别关系数量，FP表示模型错误识别的关系数量，FN表示模型未识别的关系数量。

所述方法的具体步骤如下：

Step1、构建包含词汇类别信息的词典，词典数据来源于搜集的领域文本及数据集的训练集信息，以“词汇，词汇类别”的格式储存；在获得文本中包含的词汇后，根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。

Step2、对于原始输入文本序列

，其中x_m表示句子中的第m个字符，通过实体位置坐标确定实体位置，并分别在头尾实体的开始和结束位置打上特殊标记，具体地，头实体开始位置前标记<s>、头实体结束位置前标记</s>、尾实体开始位置前标记<o>、尾实体结束位置前标记</o>，由此得到新的序列/>

，然后将其通过BERT的字符编码索引得到对应的字符编码序列，再将其输入到BERT编码器中获得训练后的字符特征序列；进一步地，将句子的头尾实体在包含类型信息的领域词汇索引中检索得到头尾实体词的类型，而后，构建一个实体类型关系矩阵，得到实体对的类型关系特征来表示不同类型之间的关联特征。

Step3、将句子中实体所对应的字符特征求和，得到句子中头、尾实体的特征，根据头、尾实体

的开始与结束坐标/>

，将BERT编码器输出的训练好的字符特征序列/>

；进一步地，在得到头、尾实体特征/>

后将二者拼接得到实体对特征/>

，将实体对特征/>

与类型关联特征/>

，并进行线性变换，得到最终的实体对特征/>

，其中/>

表示数据集的关系数量。

Step4、得到融合类型关联特征的实体对特征

后，通过交叉熵损失函数来计算损失，最后，使用argmax( )函数解码，预测实体关系。

Step5、为了验证本发明所提出的模型的有效性，选择了与本发明相关的深度学习模型作为基线模型，主要是基于BERT的关系抽取模型，具体如下：

BERT-wwm：wwm 是全词掩码Whole Word Masking的缩写,该模型改变了原有的训练样本生成策略，使得整个词汇表示能力得到了极大的提升。与BERT相比，Mask标签可以替代一个完整的词，这与英文不同。中文中最小的token是一个字，在中文中词所包含的信息相比字更多。因此，在掩码字的同时，保证一个词内的所有字都被掩码，可以使模型更好地理解语义,NLP中的mask是一种技术，是专业术语，NLP中的mask机制是一种在预训练或训练过程中对输入序列进行部分遮盖的方法。mask机制的目的是为了让模型只关注有意义的部分，忽略无意义或未来的部分，从而提高模型的性能和泛化能力；或者为了让模型学习到更深层次的语义信息。

BERT-wwm-ext：相比于BERT-wwm的改进是它扩大了训练数据集，并还大幅提升了训练步数。

RoBERTa-wwm-ext：该模型将中文wwm技术以及RoBERTa模型结合。该模型包含如下特点：预训练阶段采用wwm策略进行mask，取消了Next Sentence Prediction(NSP)，直接使用max_len=512的数据进行预训练并延长训练步数。

ALBERT-tiny：该模型能够有效地减少内存占用，并且能够提升BERT训练的效率。ALBERT使用嵌入分解和跨层参数共享来减少参数。除此之外，还提出了一种新的句序预测任务（SOP）以提高模型的准确性。

MacBERT：该模型是引入了一种纠错型掩码语言模型（MLM as correction，Mac）的预训练任务，缓解了预训练和微调阶段的不一致问题。MacBERT的核心思想是用与被掩码单词相似的单词来替换原来的单词，而不是用[MASK]标记。这样可以使模型更好地学习语义信息，避免被[MASK]标记干扰，该模型通过使用与被mask单词相似的单词替换原来的单词，而不是使用[MASK]标记。通过使用基于word2vec的同义词工具包，模型能够计算出与实际单词相似度的词汇。如果没有类似的词汇，就可以通过使用随机词汇来代替。

表2展示了在CMeIE数据集上，本发明模型与基线模型的实验结果对比，可以观察到：与其他基线模型相比，本发明模型在CMeIE数据集上有更高的关系抽取性能。通过对比，本发明模型的F1值最高，分别比BERT-wmm模型高3.6%，比BERT-wwm-ext模型高2.5%，比RoBERTa-wwm-ext模型高1.8%，比ALBERT-tiny模型高6.8%，比MacBERT模型高2.9%，验证基于类型关联特征增强的领域文本实体关系抽取方法有效的提高了模型的关系抽取能力。

Step6、在关系抽取任务中，对于句子中实体对的特征提取有着不同的提取方法。如图2所示，其中一种方法如图2中（a）所示，选择头、尾实体前的标记特征作为实体特征，将实体标签特征拼接作为实体对特征；一种如图中（b）所示，将头、尾实体分别对应的所有字符特征融合起来作为实体特征，再将其拼接作为实体对特征；本发明提出的方式如图中（c）所示，将实体前后的标记特征以及实体所对应的所有字符特征融合作为实体特征，再将两个实体的特征拼接作为实体对特征。本发明提出的方法不仅使用了实体标记信息，还保留了实体全部字符的信息，使得实体特征更为完整。

为了验证本发明提出的实体特征提取方法，类型关系表征等模型各个部分的效果，分别设计了以下模型进行消融实验。

（1） w/o allchar-typerela-gate：利用BERT提取句子的上下文信息，使用头、尾实体标记<s>，<o>的特征融合作为实体对特征，且w/o allchar-typerela-gate表示没有使用allchar、typerela和gate这三种特征的模型。allchar是使用实体前后的标记以及实体所对应的所有字符特征融合作为实体特征；typerela是使用实体类型关系的特征，gate是使用门控机制来融合特征。

（2） w/o allchar：利用外部领域词典获得领域术语的类型作为补充信息，在BERT-tab的基础上融入实体类型关联特征。

（3） w/o label：将实体所对应的所有字符特征融合作为实体特征，并融入实体类型关联特征。

（4） w/o typerela：在BERT-tab的基础上，将实体前后的标记<s>，</s>以及实体所对应的所有字符特征融合作为实体特征，相关组合方式如公式所示。

（5） w/o gate：将实体前后的标记<s>，</s>以及实体所对应的所有字符特征融合作为实体特征，并融入实体类型关系特征。

（6） Our model：将实体前后的标记<s>，</s>以及实体所对应的所有字符特征融合作为实体特征，并通过交互门控机制融入实体类型关系特征，相关组合方式如公式所示。

实验参数与之前保持一致，实验结果如下所示。

表3展示了以w/o allchar-typerela-gate作为基线模型的实验结果。表3中的实验结果显示，与其他模型相比，w/o allchar-typerela-gate的所有评价指标表现都较差。从表中各个模型的F1值对比可以看出，基于保留完整实体表征和词汇类型关联表征的模型性能均高于基线模型。这一现象展示了完整词汇信息以及词汇类型关联信息对于关系抽取任务确实是有效的。

与w/o allchar-typerela-gate相比，利用外部领域词典获得领域术语类型信息，将实体类型关联特征融入模型的w/o allchar方法获得较好的效果，这一现象表示了利用词汇类型关联信息的有效性。与w/o allchar相比，w/o label使用实体全部字符特征作为实体特征性能有所下降，这可能是因为只使用单纯的字符特征效果不如实体标记特征。而将实体前后标记<s>，</s>以及实体所对应的所有字符特征融合作为实体特征的w/o gate方法在P、R、F1值上效果都更好，这说明实体标记特征以及实体所有字符特征都是有效的信息。而在w/o gate的基础上加入交互门控机制来平衡实体对特征与词汇类型关联特征的贡献后，Our model相比w/o gate又有提高，这一现象显示了门控机制对于不同特征的融合是有效的。

为了验证不同的实体标记与实体字符特征融合方式，设计了以下实验进行验证，实验结果如表4所示。

ENTREP_SLS：将实体的开始标记特征与实体所对应的所有字符特征求和，作为实体特征。

ENTREP_SLC：将实体所对应的所有字符特征求和，再与实体的开始标记特征拼接作为实体特征。

Our model：将实体的开始及结束标记特征与实体所对应的所有字符特征求和作为实体特征。

通过表4可以观察到，ENTREP_SLS方式效果最差，F1值下降了2.63%；ENTREP_SLC方式较好一些，但相比本发明使用的方式F1值下降了2.17%。这个结果可能是因为BERT模型是双向的，实体的前后标记都有实体的特征信息，因此本发明将实体的开始及结束标记特征与实体所对应的所有字符特征求和作为实体特征的方式保留了更完整的实体信息，模型效果更好。

为了验证不同的类型关系特征提取方式，设计以下实验进行验证，实验结果如表5所示。

TYPEREL_SOC：将头实体和尾实体随机初始化的类型嵌入拼接作为实体类型关系特征。

TYPEREL_LSOC：在实体开始标记前插入实体的类型标记，将头实体和尾实体的类型标记嵌入拼接作为实体类型关系特征。

Our model：构建实体类型关系矩阵，不同类型两两之间都对应一个关系特征。将头实体类型、尾实体类型所对应的关系特征作为实体类型关系特征。

/>

通过表5可以观察到，TYPEREL_SOC方式相比本发明中的方式F1值下降了1.63%；TYPEREL_LSOC方式相比本发明中的方式F1值下降了2.17%。这个结果可能是因为将两个实体的类型特征拼接并不能很好的表示它们之间的关系，而类型标记和实体标记信息有一定重复。通过实验验证，本发明所构建的实体类型关系矩阵能够较好的表示不同类型之间的关系特征，提高模型判断实体关系的能力。

为了进一步验证模型效果，本发明在所有的基线模型上都做了与Our model方法相同改动，实验参数与之前相同，实验结果如下所示。

通过图3－图5可以观察到：总体而言，与其他基线模型相比，大部分改进后的模型在CMeIE数据集上关系抽取部分的F1值比对比模型都高。改进后的模型分别比BERT-wmm模型高3.6%，比BERT-wwm-ext模型高1.41%，比RoBERTa-wwm-ext模型高1.11%，比ALBERT-tiny模型低0.75%，比MacBERT模型高2.58%。通过基线模型与改进后模型的对比实验可以看出，本发明所提方法在不同模型上都有一定效果，验证了本发明有一定的可扩展性和可迁移性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于类型关联特征增强的领域文本实体关系抽取方法，其特征在于：所述实体关系抽取方法包括如下步骤：

Step1、构建领域词典；

2.根据权利要求1所述的基于类型关联特征增强的领域文本实体关系抽取方法，其特征在于：所述Step1中，构建包含词汇类别信息的词典，词典数据来源于搜集的领域文本及数据集的训练集信息，以“词汇，词汇类别”的格式储存；在获得文本中包含的词汇后，根据词典匹配对应的类别并获得Word2vec训练的词向量以及类别向量。

3.根据权利要求1所述的基于类型关联特征增强的领域文本实体关系抽取方法，其特征在于：所述Step2中，得到句子的字符编码后将其输入到BERT编码器训练得到字符特征，将实体所对应的所有字符特征融合得到实体特征，并构建实体间关系参数矩阵来学习表示类型间关系。

4.根据权利要求3所述的基于类型关联特征增强的领域文本实体关系抽取方法，其特征在于：所述Step2具体包括如下：

Step2.1、对于输入的文本序列