CN113627185A

CN113627185A - 一种用于肝癌病理文本命名的实体识别方法

Info

Publication number: CN113627185A
Application number: CN202110864136.7A
Authority: CN
Inventors: 胡峰; 何晓莲; 张清华; 高满; 邓纬斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-09

Abstract

本发明属于自然语言处理领域，具体涉及一种用于肝癌病理文本命名的实体识别方法，该方法包括：实时获取肝癌病理文本信息，对该文本信息进行预处理；将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型，得到肝癌病理文本信息识别结果；根据识别结果对肝癌病理文本信息进行分类标记；本发明可对肝癌病理文本的十类关键实体进行精准的识别抽取，实体识别效果较好。

Description

一种用于肝癌病理文本命名的实体识别方法

技术领域

本发明属于肝癌体系化的标注知识库、命名实体识别、自然语言处理领域，具体涉及一种用于肝癌病理文本命名的实体识别方法。

背景技术

肝癌体系化的标注知识库：参考权威的诊疗规范文献，深入理解业务场景后构建肝癌体系化的标注知识库，标注知识库中包含对肝癌相关实体及实体属性的详细说明和文献来源。

命名实体识别：命名实体识别是把文本里包含的实体进行结构化处理，变成表格一样的组织形式。输入命名实体识别系统的是原始文本，输出的是固定格式的实体；实体从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。命名实体识别技术并不试图全面理解整篇文档，只是对文档中包含相关实体的部分进行分析。

自然语言处理：自然语言处理是计算机科学领域与人工智能领域中的一个重要方向；自然语言处理即实现人机间自然语言通信，这一领域的研究将涉及自然语言，即人们日常使用的语言。

近年来，自然语言处理技术(NLP)发展迅速，并应用于各领域，其中就包括医疗人工智能。在传统的临床诊断中，医生想要了解病人的病理状态都是亲自从病理文本去提取信息，不仅要耗费大量精力并且效率不高。如果能够使NLP技术把医生所关注的实体准确的标注出来，可以极大提升医生的效率。而且提取的数据还可以用做科研数据，科研人员可以通过病理文本去挖掘多关系等医疗信息。并且在如今的医疗数据环境下，常常面临着少样本难题，所以针对少样本肝癌病理文本的命名实体识别已成为如今一个非常迫切的任务。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种用于肝癌病理文本命名的实体识别方法，该方法包括：实时获取肝癌病理文本信息，对该文本信息进行预处理；将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型，得到肝癌病理文本信息识别结果；根据识别结果对肝癌病理文本信息进行分类标记；肝癌病理文本命名实体模型包括：NER教师模型、十折模型以及命名实体抽取模型；

对肝癌病理文本命名实体模型进行训练的过程包括：

S1：获取肝癌病理文本数据集，将该数据集输入到肝癌体系化标注知识库中，对肝癌病理文本数据集中的数据进行实体标注；

S2：将肝癌病理文本数据集输入到NER教师模型中，采用半监督-自训练方式得到训练集的标签soft label；

S3：将进行实体标注的肝癌病理文本数据集输入到十折模型进行训练，得到增强去噪后的实体标注肝癌病理文本数据集；将增强后的实体标注肝癌病理文本数据集与训练集的标签soft label进行合并，得到训练数据集；

S4：将训练集中的数据输入到命名实体抽取模型中进行训练，得到识别结果；

S5：根据识别结果计算模型的损失函数，采用AdamW优化器、基于余弦退火的学习率调整算法以及快照集成学习对模型的参数进行调整，当损失函数的值达到最小时，完成模型的训练。

优选的，对肝癌病理文本数据集中的数据进行实体标注的具体过程包括：将已知的标注数据作为先验知识获取具有权威性的原发性肝癌规范化病理诊断指南，根据原发性肝癌规范化病理诊断指南划分出肝癌病理十大类实体，并整理出体系化十大类实体标注导图；每个导图中包含每个实体的不同描述、情况以及参考文献；根据十大类实体标注导图对未标注的肝癌病理文本编写自动化标注脚本，得到实体标注的数据。

进一步的，在对肝癌病理文本数据集中的数据进行实体标注的过程中根据实体的描述和属性去除冗余和无用的实体，保留实体重叠的部分，以确定实体的识别的完整性和正确性。

优选的，进行实体标注的类别包括：“肿瘤位置”、“肿瘤组织学类型”、“肿瘤分化程度”、“肿瘤数量”、“肿瘤大小”、“微血管癌栓”、“卫星子灶”、“肝硬化程度”、“病理分期”、“包膜”；其中标记的类别为数据的第i个字段的一个字段位置mi。

优选的，采用半监督-自训练方式得到训练集的标签soft label的过程包括：将具有原始标注数据的病理文本输入到BERT_CRF模型中进行训练验证，选取验证集上f1值最高的一个模型作为NER教师模型；采用NER教师模型对未标注肝癌病理文本数据进行预测，预测结果为soft标签；将得到soft标签的数据作为增强数据，将增强数据病理文本与原始标注数据的病理文本进行合并，得到训练集的标签soft label。

优选的，采用十折模型对实体标注的肝癌病理文本数据集进行去噪处理的过程包括：对已经标注的肝癌病理文本进行检查，判断是否存在漏标和误标情况；将漏标和误标的肝癌病理文本进行删除，将删除后的标注肝癌病理文本输入到十折交叉模型中，去除模型低置信度的结果，得到增强去噪后的实体标注肝癌病理文本数据集。

优选的，对命名实体抽取模型进行训练的过程包括：

步骤1：获取训练集和测试集；

步骤2：对训练集进行处理，得到input_ids、input_mask、segment_ids、label_id这4个特征数据；其中input_ids表示每个中文字对应的词库id，input_mask表示是否有掩码，segment_ids表示句子标记的id，label_ids表示这条病理文本数据样本对应标签的id；

步骤3：设置迭代次数阈值；

步骤4：将特征数据输入到BERT+CRF模型中进行训练；

步骤5：在对BERT+CRF模型进行训练过程中，设置初始迭代次数，采用AdamW优化器、余弦退火算法以及快照集方法对模型的参数进行调整；每进行一次参数的调整，则迭代次数加1；

步骤6：判断当前的迭代次数是否大于设置的迭代次数阈值，若大于迭代次数阈值，则保存当前模型的参数，完成模型训练。

进一步的，采用AdamW优化器、基于余弦退火的学习率调整算法以及快照集方法对模型的参数进行调整的过程包括：AdanW利用权重衰减和L2正则化对模型的参数进行优化；L2正则化用来减少过拟合，向损失函数添加由模型所有权重的平方和组成的惩罚项，并乘上特定的weight_decay超参数以控制惩罚力度；余弦退火算法是一种让模型逃离局部最小点的学习率调整算法，学习率每经过一定轮次后会增大，以跳出局部最优点，随着模型逐渐接近全局最优点，周期不断变大，使其能够到达最优点后模型不在进行训练；采用cos方式收敛到多个全局最小值，对所有的全局最小值进行集成。

优选的，模型的损失函数为CRF损失函数：

其中，P_RealPath表示真实路径的分数，P₁表示第一条路径的分数。

采用肝癌体系化知识自动标注和半监督自训练扩充有标数据，解决少样本的难题，采用AdamW优化器、余弦退火算法、对抗训练多种技巧控制模型过拟合，使用快照集成提高模型效果。

附图说明

图1为本发明的用于肝癌病理文本命名的实体识别方法的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种用于肝癌病理文本命名的实体识别方法，如图1所示，该方法包括：实时获取肝癌病理文本信息，对该文本信息进行预处理；将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型，得到肝癌病理文本信息识别结果；根据识别结果对肝癌病理文本信息进行分类标记；肝癌病理文本命名实体模型包括：NER教师模型、十折模型以及命名实体抽取模型。

对肝癌病理文本命名实体模型进行训练的过程包括：

S4：将训练集中的数据输入到命名实体抽取模型中进行训练：读取肝癌病理文本数据后进行特征转换得到4个特征数据input_ids、input_mask、segment_ids、label_id，将特征送入BERT+CRF模型进行训练，在训练策略上采用AdamW优化器、余弦退火算法逃离局部最小点、快照集成方法保存多个局部最优点，以及对抗训练加入扰动提高鲁棒性，训练集、测试集、验证集比例为5:5:1，每一个epoch后会在验证集上进行验证，并给出相应的f1值，如果f1值大于此前最高分则保存模型参数，否则flags加1。如果flags大于6，也即连续6个epoch模型的性能都没有继续优化，停止训练过程，如果epoch数超过先前设定的num_train_epochs，同样会停止迭代，最后加载最高分进行测试集的预测。

观察发现已标注的100例肝癌病理文本存在漏标，误标等情况，例如透明细胞亚型数据漏标，伴坏死的伴属于错标，这会在很大程度上影响模型的学习效果，针对这些数据噪声问题，训练10折交叉模型，对训练集本身进行预测，卡高票数、丢掉模型低置信度的结果，有显著去噪效果

对肝癌病理文本数据集中的数据进行实体标注的具体过程包括：把已知的一百例标注数据作为先验知识，查阅肝癌病理诊断相关权威文献资料，例如由吴孟超院士指导的原发性肝癌规范化病理诊断指南，挖掘文献当中关于肝癌病理十大类实体的描述，整理出体系化十大类实体标注导图，导图中包含每个实体的不同描述、情况以及参考文献，构建完善以后，对1000例肝癌病理文本编写自动化标注脚本。

在对肝癌病理文本数据集中的数据进行实体标注的过程中根据实体的描述和属性去除冗余和无用的实体，保留实体重叠的部分，以确定实体的识别的完整性和正确性。在通过肝癌体系化的标注知识库时，需要根据实体的描述和属性去除冗余及无用实体，注意并保留实体重叠部分；以保证实体识别的完整性、正确性，避免出现无用、冗余的实体。

进行实体标注的类别包括：“肿瘤位置”、“肿瘤组织学类型”、“肿瘤分化程度”、“肿瘤数量”、“肿瘤大小”、“微血管癌栓”、“卫星子灶”、“肝硬化程度”、“病理分期”、“包膜”；其中标记的类别为数据的第i个字段的一个字段位置mi。

该命名实体识别规则为针对以上提出的十大类实体，抽取肝癌病理文本中相关str[m_i+n:m_i+1]片段，其中，str表示从word肝癌病理文本中得到的长字符串，m_i表示字段位置，n表示字段的长度。

半监督-自训练的方法来获得无标签数据soft label是增加数据的有效方式、可以解决少样本问题，操作步骤分别为：第一基于原始标注数据训练一个NER教师模型，第二通过NER教师模型对1000例未标注数据预测soft标签，第三使用原始标注+soft label数据训练模型。

采用半监督-自训练方式得到训练集的标签soft label的过程包括：将具有原始标注数据的病理文本输入到BERT_CRF模型中进行训练验证，选取验证集上f1值最高的一个模型作为NER教师模型；采用NER教师模型对未标注肝癌病理文本数据进行预测，预测结果为soft标签；将得到soft标签的数据作为增强数据，将增强数据病理文本与原始标注数据的病理文本进行合并，得到训练集的标签soft label。

优选的，将具有原始标注数据的病理文本输入到BERT_CRF模型中进行训练验证的过程包括：在不采用任何训练策略的基础上，直接将训练集肝癌病理文本数据后进行特征转换得到的4个特征数据input_ids、input_mask、segment_ids、label_id送入原始BERT+CRF模型进行训练进行预测。其中，input_ids表示每个中文字对应的词库id，input_mask表示是否有掩码，segment_ids表示句子标记的id，label_ids表示这条病理文本数据样本对应标签的id。

采用NER教师模型对未标注肝癌病理文本数据进行预测的过程：对于每个label，使用该教师模型来对未标记的肝癌病理文本数据进行实体标注并打分。

领域自适应的预训练，无论在低资源和高资源的情况下，都能提高模型在相应领域具体任务的性能。借助UER开源工具将所有的肝癌文本数据输入24层的chinese_roberta_wwm_large_ext_pytorch模型，做MLM(Masked Language Model)和NSP(NextSentence-Prediction)任务，继续预训练，得到适应肝癌领域的预训练模型。

采用十折模型对实体标注的肝癌病理文本数据集进行去噪处理的过程包括：对已经标注的肝癌病理文本进行检查，判断是否存在漏标和误标情况；将漏标和误标的肝癌病理文本进行删除，将删除后的标注肝癌病理文本输入到十折交叉模型中，去除模型低置信度的结果，得到增强去噪后的实体标注肝癌病理文本数据集。

在模型构建上选择BERT+CRF模型，采取AdamW优化器、余弦退火算法、SWA、FGM等多种训练策略：

步骤1：AdanW利用权重衰减和L2正则化，L2正则化用来减少过拟合，它会向损失函数添加由模型所有权重的平方和组成的惩罚项、并乘上特定的weight_decay超参数以控制惩罚力度。

步骤2：神经网络在训练过程中容易陷入局部最优值，余弦退火算法是一种让模型逃离局部最小点的一种学习率调整算法，余弦退火算法中学习率每经过一定轮次就会突然急增，以跳出局部最优点，随着模型逐渐接近全局最优点，周期不断变大，使其能够到达最优点后不再跳出去。

步骤3：cos方式可以收敛到多个全局最小值，使用快照集成SWA方法保存多个最优点进行集成。

步骤4：使用FGM在输入肝癌病理文本中加入扰动数据，以此提高模型鲁棒性、减少模型过拟合。

对命名实体抽取模型进行训练的过程包括：读取肝癌病理文本数据后进行特征转换得到4个特征数据input_ids、input_mask、segment_ids、label_id，将特征送入BERT+CRF模型进行训练，在训练策略上采用AdamW优化器、余弦退火算法逃离局部最小点、快照集成方法保存多个局部最优点，以及对抗训练加入扰动提高鲁棒性，训练集、测试集、验证集比例为5:5:1，每一个epoch后会在验证集上进行验证，并给出相应的f1值，如果f1值大于此前最高分则保存模型参数，否则flags加1。如果flags大于6，也即连续6个epoch模型的性能都没有继续优化，停止训练过程，如果epoch数超过先前设定的num_train_epochs，同样会停止迭代，最后加载最高分进行测试集的预测。

使用BERT+CRF架构去构建命名实体抽取模型，针对单篇文本超过512字长度的，使用滑窗法处理，将一条文本转换为多条具有重叠部分的文本。滑窗法处理不仅解决了BERT模型单词输入长度最大512的限制问题，更是起到了数据增强的作用。使用BIO标注法，将标签转换为模型能够理解的形式输入模型。在训练策略方面，使用了AdamW优化器，以及基于余弦退火的学习率调整算法，神经网络在训练过程中容易陷入局部最优值，余弦退火算法是一种让模型逃离局部最小点的一种学习率调整算法，学习率每经过一定轮次就会突然急增，以跳出局部最优点，随着模型逐渐接近全局最优点，周期不断变大，使其能够到达最优点后不再跳出去，cos方式可以收敛到多个全局最小值。快照集成的核心思想是保存多个最优点进行集成，此时即可识别抽取出肝癌病理文本中所需要的信息。

模型的损失函数为CRF损失函数：

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于肝癌病理文本命名的实体识别方法，其特征在于，包括：实时获取肝癌病理文本信息，对该文本信息进行预处理；将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型，得到肝癌病理文本信息识别结果；根据识别结果对肝癌病理文本信息进行分类标记；肝癌病理文本命名实体模型包括：NER教师模型、十折模型以及命名实体抽取模型；

对肝癌病理文本命名实体模型进行训练的过程包括：

2.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法，其特征在于，对肝癌病理文本数据集中的数据进行实体标注的过程包括：将已知的标注数据作为先验知识获取具有权威性的原发性肝癌规范化病理诊断指南，根据原发性肝癌规范化病理诊断指南划分出肝癌病理十大类实体，并整理出体系化十大类实体标注导图；每个导图中包含每个实体的不同描述、情况以及参考文献；根据十大类实体标注导图对未标注的肝癌病理文本编写自动化标注脚本，得到实体标注的数据。

3.根据权利要求2所述的一种用于肝癌病理文本命名的实体识别方法，其特征在于，在对肝癌病理文本数据集中的数据进行实体标注的过程中根据实体的描述和属性去除冗余和无用的实体，保留实体重叠的部分，以确定实体的识别的完整性和正确性。

4.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法，其特征在于，进行实体标注的类别包括：“肿瘤位置”、“肿瘤组织学类型”、“肿瘤分化程度”、“肿瘤数量”、“肿瘤大小”、“微血管癌栓”、“卫星子灶”、“肝硬化程度”、“病理分期”、“包膜”；其中标记的类别为数据的第i个字段的一个字段位置mi。

5.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法，其特征在于，采用半监督-自训练方式得到训练集的标签soft label的过程包括：将具有原始标注数据的病理文本输入到BERT_CRF模型中进行训练验证，选取验证集上f1值最高的一个模型作为NER教师模型；采用NER教师模型对未标注肝癌病理文本数据进行预测，预测结果为soft标签；将得到soft标签的数据作为增强数据，将增强数据病理文本与原始标注数据的病理文本进行合并，得到训练集的标签soft label。

6.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法，其特征在于，采用十折模型对实体标注的肝癌病理文本数据集进行去噪处理的过程包括：对已经标注的肝癌病理文本进行检查，判断是否存在漏标和误标情况；将漏标和误标的肝癌病理文本进行删除，将删除后的标注肝癌病理文本输入到十折交叉模型中，去除模型低置信度的结果，得到增强去噪后的实体标注肝癌病理文本数据集。

7.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法，其特征在于，对命名实体抽取模型进行训练的过程包括：

步骤1：获取训练集和测试集；

步骤3：设置迭代次数阈值；

步骤4：将特征数据输入到BERT+CRF模型中进行训练；

8.根据权利要求7所述的一种用于肝癌病理文本命名的实体识别方法，其特征在于，采用AdamW优化器、基于余弦退火的学习率调整算法以及快照集方法对模型的参数进行调整的过程包括：AdanW利用权重衰减和L2正则化对模型的参数进行优化；L2正则化用来减少过拟合，向损失函数添加由模型所有权重的平方和组成的惩罚项，并乘上特定的weight_decay超参数以控制惩罚力度；余弦退火算法是一种让模型逃离局部最小点的学习率调整算法，学习率每经过一定轮次后会增大，以跳出局部最优点，随着模型逐渐接近全局最优点，周期不断变大，使其能够到达最优点后模型不在进行训练；采用cos方式收敛到多个全局最小值，对所有的全局最小值进行集成。

9.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法，其特征在于，模型的损失函数为CRF损失函数：