CN113627185A - 一种用于肝癌病理文本命名的实体识别方法 - Google Patents
一种用于肝癌病理文本命名的实体识别方法 Download PDFInfo
- Publication number
- CN113627185A CN113627185A CN202110864136.7A CN202110864136A CN113627185A CN 113627185 A CN113627185 A CN 113627185A CN 202110864136 A CN202110864136 A CN 202110864136A CN 113627185 A CN113627185 A CN 113627185A
- Authority
- CN
- China
- Prior art keywords
- liver cancer
- model
- text
- entity
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000007270 liver cancer Diseases 0.000 title claims abstract description 111
- 208000014018 liver neoplasm Diseases 0.000 title claims abstract description 106
- 230000001575 pathological effect Effects 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000007170 pathology Effects 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 78
- 238000002372 labelling Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 206010028980 Neoplasm Diseases 0.000 claims description 18
- 238000000137 annealing Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 230000009897 systematic effect Effects 0.000 claims description 8
- 238000010827 pathological analysis Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 4
- 208000005189 Embolism Diseases 0.000 claims description 3
- 206010016654 Fibrosis Diseases 0.000 claims description 3
- 201000011510 cancer Diseases 0.000 claims description 3
- 230000007882 cirrhosis Effects 0.000 claims description 3
- 208000019425 cirrhosis of liver Diseases 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 4
- 230000010354 integration Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Computational Linguistics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明属于自然语言处理领域,具体涉及一种用于肝癌病理文本命名的实体识别方法,该方法包括:实时获取肝癌病理文本信息,对该文本信息进行预处理;将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型,得到肝癌病理文本信息识别结果;根据识别结果对肝癌病理文本信息进行分类标记;本发明可对肝癌病理文本的十类关键实体进行精准的识别抽取,实体识别效果较好。
Description
技术领域
本发明属于肝癌体系化的标注知识库、命名实体识别、自然语言处理领域,具体涉及一种用于肝癌病理文本命名的实体识别方法。
背景技术
肝癌体系化的标注知识库:参考权威的诊疗规范文献,深入理解业务场景后构建肝癌体系化的标注知识库,标注知识库中包含对肝癌相关实体及实体属性的详细说明和文献来源。
命名实体识别:命名实体识别是把文本里包含的实体进行结构化处理,变成表格一样的组织形式。输入命名实体识别系统的是原始文本,输出的是固定格式的实体;实体从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。命名实体识别技术并不试图全面理解整篇文档,只是对文档中包含相关实体的部分进行分析。
自然语言处理:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向;自然语言处理即实现人机间自然语言通信,这一领域的研究将涉及自然语言,即人们日常使用的语言。
近年来,自然语言处理技术(NLP)发展迅速,并应用于各领域,其中就包括医疗人工智能。在传统的临床诊断中,医生想要了解病人的病理状态都是亲自从病理文本去提取信息,不仅要耗费大量精力并且效率不高。如果能够使NLP技术把医生所关注的实体准确的标注出来,可以极大提升医生的效率。而且提取的数据还可以用做科研数据,科研人员可以通过病理文本去挖掘多关系等医疗信息。并且在如今的医疗数据环境下,常常面临着少样本难题,所以针对少样本肝癌病理文本的命名实体识别已成为如今一个非常迫切的任务。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种用于肝癌病理文本命名的实体识别方法,该方法包括:实时获取肝癌病理文本信息,对该文本信息进行预处理;将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型,得到肝癌病理文本信息识别结果;根据识别结果对肝癌病理文本信息进行分类标记;肝癌病理文本命名实体模型包括:NER教师模型、十折模型以及命名实体抽取模型;
对肝癌病理文本命名实体模型进行训练的过程包括:
S1:获取肝癌病理文本数据集,将该数据集输入到肝癌体系化标注知识库中,对肝癌病理文本数据集中的数据进行实体标注;
S2:将肝癌病理文本数据集输入到NER教师模型中,采用半监督-自训练方式得到训练集的标签soft label;
S3:将进行实体标注的肝癌病理文本数据集输入到十折模型进行训练,得到增强去噪后的实体标注肝癌病理文本数据集;将增强后的实体标注肝癌病理文本数据集与训练集的标签soft label进行合并,得到训练数据集;
S4:将训练集中的数据输入到命名实体抽取模型中进行训练,得到识别结果;
S5:根据识别结果计算模型的损失函数,采用AdamW优化器、基于余弦退火的学习率调整算法以及快照集成学习对模型的参数进行调整,当损失函数的值达到最小时,完成模型的训练。
优选的,对肝癌病理文本数据集中的数据进行实体标注的具体过程包括:将已知的标注数据作为先验知识获取具有权威性的原发性肝癌规范化病理诊断指南,根据原发性肝癌规范化病理诊断指南划分出肝癌病理十大类实体,并整理出体系化十大类实体标注导图;每个导图中包含每个实体的不同描述、情况以及参考文献;根据十大类实体标注导图对未标注的肝癌病理文本编写自动化标注脚本,得到实体标注的数据。
进一步的,在对肝癌病理文本数据集中的数据进行实体标注的过程中根据实体的描述和属性去除冗余和无用的实体,保留实体重叠的部分,以确定实体的识别的完整性和正确性。
优选的,进行实体标注的类别包括:“肿瘤位置”、“肿瘤组织学类型”、“肿瘤分化程度”、“肿瘤数量”、“肿瘤大小”、“微血管癌栓”、“卫星子灶”、“肝硬化程度”、“病理分期”、“包膜”;其中标记的类别为数据的第i个字段的一个字段位置mi。
优选的,采用半监督-自训练方式得到训练集的标签soft label的过程包括:将具有原始标注数据的病理文本输入到BERT_CRF模型中进行训练验证,选取验证集上f1值最高的一个模型作为NER教师模型;采用NER教师模型对未标注肝癌病理文本数据进行预测,预测结果为soft标签;将得到soft标签的数据作为增强数据,将增强数据病理文本与原始标注数据的病理文本进行合并,得到训练集的标签soft label。
优选的,采用十折模型对实体标注的肝癌病理文本数据集进行去噪处理的过程包括:对已经标注的肝癌病理文本进行检查,判断是否存在漏标和误标情况;将漏标和误标的肝癌病理文本进行删除,将删除后的标注肝癌病理文本输入到十折交叉模型中,去除模型低置信度的结果,得到增强去噪后的实体标注肝癌病理文本数据集。
优选的,对命名实体抽取模型进行训练的过程包括:
步骤1:获取训练集和测试集;
步骤2:对训练集进行处理,得到input_ids、input_mask、segment_ids、label_id这4个特征数据;其中input_ids表示每个中文字对应的词库id,input_mask表示是否有掩码,segment_ids表示句子标记的id,label_ids表示这条病理文本数据样本对应标签的id;
步骤3:设置迭代次数阈值;
步骤4:将特征数据输入到BERT+CRF模型中进行训练;
步骤5:在对BERT+CRF模型进行训练过程中,设置初始迭代次数,采用AdamW优化器、余弦退火算法以及快照集方法对模型的参数进行调整;每进行一次参数的调整,则迭代次数加1;
步骤6:判断当前的迭代次数是否大于设置的迭代次数阈值,若大于迭代次数阈值,则保存当前模型的参数,完成模型训练。
进一步的,采用AdamW优化器、基于余弦退火的学习率调整算法以及快照集方法对模型的参数进行调整的过程包括:AdanW利用权重衰减和L2正则化对模型的参数进行优化;L2正则化用来减少过拟合,向损失函数添加由模型所有权重的平方和组成的惩罚项,并乘上特定的weight_decay超参数以控制惩罚力度;余弦退火算法是一种让模型逃离局部最小点的学习率调整算法,学习率每经过一定轮次后会增大,以跳出局部最优点,随着模型逐渐接近全局最优点,周期不断变大,使其能够到达最优点后模型不在进行训练;采用cos方式收敛到多个全局最小值,对所有的全局最小值进行集成。
优选的,模型的损失函数为CRF损失函数:
其中,PRealPath表示真实路径的分数,P1表示第一条路径的分数。
采用肝癌体系化知识自动标注和半监督自训练扩充有标数据,解决少样本的难题,采用AdamW优化器、余弦退火算法、对抗训练多种技巧控制模型过拟合,使用快照集成提高模型效果。
附图说明
图1为本发明的用于肝癌病理文本命名的实体识别方法的框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种用于肝癌病理文本命名的实体识别方法,如图1所示,该方法包括:实时获取肝癌病理文本信息,对该文本信息进行预处理;将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型,得到肝癌病理文本信息识别结果;根据识别结果对肝癌病理文本信息进行分类标记;肝癌病理文本命名实体模型包括:NER教师模型、十折模型以及命名实体抽取模型。
对肝癌病理文本命名实体模型进行训练的过程包括:
S1:获取肝癌病理文本数据集,将该数据集输入到肝癌体系化标注知识库中,对肝癌病理文本数据集中的数据进行实体标注;
S2:将肝癌病理文本数据集输入到NER教师模型中,采用半监督-自训练方式得到训练集的标签soft label;
S3:将进行实体标注的肝癌病理文本数据集输入到十折模型进行训练,得到增强去噪后的实体标注肝癌病理文本数据集;将增强后的实体标注肝癌病理文本数据集与训练集的标签soft label进行合并,得到训练数据集;
S4:将训练集中的数据输入到命名实体抽取模型中进行训练:读取肝癌病理文本数据后进行特征转换得到4个特征数据input_ids、input_mask、segment_ids、label_id,将特征送入BERT+CRF模型进行训练,在训练策略上采用AdamW优化器、余弦退火算法逃离局部最小点、快照集成方法保存多个局部最优点,以及对抗训练加入扰动提高鲁棒性,训练集、测试集、验证集比例为5:5:1,每一个epoch后会在验证集上进行验证,并给出相应的f1值,如果f1值大于此前最高分则保存模型参数,否则flags加1。如果flags大于6,也即连续6个epoch模型的性能都没有继续优化,停止训练过程,如果epoch数超过先前设定的num_train_epochs,同样会停止迭代,最后加载最高分进行测试集的预测。
S5:根据识别结果计算模型的损失函数,采用AdamW优化器、基于余弦退火的学习率调整算法以及快照集成学习对模型的参数进行调整,当损失函数的值达到最小时,完成模型的训练。
观察发现已标注的100例肝癌病理文本存在漏标,误标等情况,例如透明细胞亚型数据漏标,伴坏死的伴属于错标,这会在很大程度上影响模型的学习效果,针对这些数据噪声问题,训练10折交叉模型,对训练集本身进行预测,卡高票数、丢掉模型低置信度的结果,有显著去噪效果
对肝癌病理文本数据集中的数据进行实体标注的具体过程包括:把已知的一百例标注数据作为先验知识,查阅肝癌病理诊断相关权威文献资料,例如由吴孟超院士指导的原发性肝癌规范化病理诊断指南,挖掘文献当中关于肝癌病理十大类实体的描述,整理出体系化十大类实体标注导图,导图中包含每个实体的不同描述、情况以及参考文献,构建完善以后,对1000例肝癌病理文本编写自动化标注脚本。
在对肝癌病理文本数据集中的数据进行实体标注的过程中根据实体的描述和属性去除冗余和无用的实体,保留实体重叠的部分,以确定实体的识别的完整性和正确性。在通过肝癌体系化的标注知识库时,需要根据实体的描述和属性去除冗余及无用实体,注意并保留实体重叠部分;以保证实体识别的完整性、正确性,避免出现无用、冗余的实体。
进行实体标注的类别包括:“肿瘤位置”、“肿瘤组织学类型”、“肿瘤分化程度”、“肿瘤数量”、“肿瘤大小”、“微血管癌栓”、“卫星子灶”、“肝硬化程度”、“病理分期”、“包膜”;其中标记的类别为数据的第i个字段的一个字段位置mi。
该命名实体识别规则为针对以上提出的十大类实体,抽取肝癌病理文本中相关str[mi+n:mi+1]片段,其中,str表示从word肝癌病理文本中得到的长字符串,mi表示字段位置,n表示字段的长度。
半监督-自训练的方法来获得无标签数据soft label是增加数据的有效方式、可以解决少样本问题,操作步骤分别为:第一基于原始标注数据训练一个NER教师模型,第二通过NER教师模型对1000例未标注数据预测soft标签,第三使用原始标注+soft label数据训练模型。
采用半监督-自训练方式得到训练集的标签soft label的过程包括:将具有原始标注数据的病理文本输入到BERT_CRF模型中进行训练验证,选取验证集上f1值最高的一个模型作为NER教师模型;采用NER教师模型对未标注肝癌病理文本数据进行预测,预测结果为soft标签;将得到soft标签的数据作为增强数据,将增强数据病理文本与原始标注数据的病理文本进行合并,得到训练集的标签soft label。
优选的,将具有原始标注数据的病理文本输入到BERT_CRF模型中进行训练验证的过程包括:在不采用任何训练策略的基础上,直接将训练集肝癌病理文本数据后进行特征转换得到的4个特征数据input_ids、input_mask、segment_ids、label_id送入原始BERT+CRF模型进行训练进行预测。其中,input_ids表示每个中文字对应的词库id,input_mask表示是否有掩码,segment_ids表示句子标记的id,label_ids表示这条病理文本数据样本对应标签的id。
采用NER教师模型对未标注肝癌病理文本数据进行预测的过程:对于每个label,使用该教师模型来对未标记的肝癌病理文本数据进行实体标注并打分。
领域自适应的预训练,无论在低资源和高资源的情况下,都能提高模型在相应领域具体任务的性能。借助UER开源工具将所有的肝癌文本数据输入24层的chinese_roberta_wwm_large_ext_pytorch模型,做MLM(Masked Language Model)和NSP(NextSentence-Prediction)任务,继续预训练,得到适应肝癌领域的预训练模型。
采用十折模型对实体标注的肝癌病理文本数据集进行去噪处理的过程包括:对已经标注的肝癌病理文本进行检查,判断是否存在漏标和误标情况;将漏标和误标的肝癌病理文本进行删除,将删除后的标注肝癌病理文本输入到十折交叉模型中,去除模型低置信度的结果,得到增强去噪后的实体标注肝癌病理文本数据集。
在模型构建上选择BERT+CRF模型,采取AdamW优化器、余弦退火算法、SWA、FGM等多种训练策略:
步骤1:AdanW利用权重衰减和L2正则化,L2正则化用来减少过拟合,它会向损失函数添加由模型所有权重的平方和组成的惩罚项、并乘上特定的weight_decay超参数以控制惩罚力度。
步骤2:神经网络在训练过程中容易陷入局部最优值,余弦退火算法是一种让模型逃离局部最小点的一种学习率调整算法,余弦退火算法中学习率每经过一定轮次就会突然急增,以跳出局部最优点,随着模型逐渐接近全局最优点,周期不断变大,使其能够到达最优点后不再跳出去。
步骤3:cos方式可以收敛到多个全局最小值,使用快照集成SWA方法保存多个最优点进行集成。
步骤4:使用FGM在输入肝癌病理文本中加入扰动数据,以此提高模型鲁棒性、减少模型过拟合。
对命名实体抽取模型进行训练的过程包括:读取肝癌病理文本数据后进行特征转换得到4个特征数据input_ids、input_mask、segment_ids、label_id,将特征送入BERT+CRF模型进行训练,在训练策略上采用AdamW优化器、余弦退火算法逃离局部最小点、快照集成方法保存多个局部最优点,以及对抗训练加入扰动提高鲁棒性,训练集、测试集、验证集比例为5:5:1,每一个epoch后会在验证集上进行验证,并给出相应的f1值,如果f1值大于此前最高分则保存模型参数,否则flags加1。如果flags大于6,也即连续6个epoch模型的性能都没有继续优化,停止训练过程,如果epoch数超过先前设定的num_train_epochs,同样会停止迭代,最后加载最高分进行测试集的预测。
使用BERT+CRF架构去构建命名实体抽取模型,针对单篇文本超过512字长度的,使用滑窗法处理,将一条文本转换为多条具有重叠部分的文本。滑窗法处理不仅解决了BERT模型单词输入长度最大512的限制问题,更是起到了数据增强的作用。使用BIO标注法,将标签转换为模型能够理解的形式输入模型。在训练策略方面,使用了AdamW优化器,以及基于余弦退火的学习率调整算法,神经网络在训练过程中容易陷入局部最优值,余弦退火算法是一种让模型逃离局部最小点的一种学习率调整算法,学习率每经过一定轮次就会突然急增,以跳出局部最优点,随着模型逐渐接近全局最优点,周期不断变大,使其能够到达最优点后不再跳出去,cos方式可以收敛到多个全局最小值。快照集成的核心思想是保存多个最优点进行集成,此时即可识别抽取出肝癌病理文本中所需要的信息。
模型的损失函数为CRF损失函数:
其中,PRealPath表示真实路径的分数,P1表示第一条路径的分数。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种用于肝癌病理文本命名的实体识别方法,其特征在于,包括:实时获取肝癌病理文本信息,对该文本信息进行预处理;将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型,得到肝癌病理文本信息识别结果;根据识别结果对肝癌病理文本信息进行分类标记;肝癌病理文本命名实体模型包括:NER教师模型、十折模型以及命名实体抽取模型;
对肝癌病理文本命名实体模型进行训练的过程包括:
S1:获取肝癌病理文本数据集,将该数据集输入到肝癌体系化标注知识库中,对肝癌病理文本数据集中的数据进行实体标注;
S2:将肝癌病理文本数据集输入到NER教师模型中,采用半监督-自训练方式得到训练集的标签soft label;
S3:将进行实体标注的肝癌病理文本数据集输入到十折模型进行训练,得到增强去噪后的实体标注肝癌病理文本数据集;将增强后的实体标注肝癌病理文本数据集与训练集的标签soft label进行合并,得到训练数据集;
S4:将训练集中的数据输入到命名实体抽取模型中进行训练,得到识别结果;
S5:根据识别结果计算模型的损失函数,采用AdamW优化器、基于余弦退火的学习率调整算法以及快照集成学习对模型的参数进行调整,当损失函数的值达到最小时,完成模型的训练。
2.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,对肝癌病理文本数据集中的数据进行实体标注的过程包括:将已知的标注数据作为先验知识获取具有权威性的原发性肝癌规范化病理诊断指南,根据原发性肝癌规范化病理诊断指南划分出肝癌病理十大类实体,并整理出体系化十大类实体标注导图;每个导图中包含每个实体的不同描述、情况以及参考文献;根据十大类实体标注导图对未标注的肝癌病理文本编写自动化标注脚本,得到实体标注的数据。
3.根据权利要求2所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,在对肝癌病理文本数据集中的数据进行实体标注的过程中根据实体的描述和属性去除冗余和无用的实体,保留实体重叠的部分,以确定实体的识别的完整性和正确性。
4.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,进行实体标注的类别包括:“肿瘤位置”、“肿瘤组织学类型”、“肿瘤分化程度”、“肿瘤数量”、“肿瘤大小”、“微血管癌栓”、“卫星子灶”、“肝硬化程度”、“病理分期”、“包膜”;其中标记的类别为数据的第i个字段的一个字段位置mi。
5.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,采用半监督-自训练方式得到训练集的标签soft label的过程包括:将具有原始标注数据的病理文本输入到BERT_CRF模型中进行训练验证,选取验证集上f1值最高的一个模型作为NER教师模型;采用NER教师模型对未标注肝癌病理文本数据进行预测,预测结果为soft标签;将得到soft标签的数据作为增强数据,将增强数据病理文本与原始标注数据的病理文本进行合并,得到训练集的标签soft label。
6.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,采用十折模型对实体标注的肝癌病理文本数据集进行去噪处理的过程包括:对已经标注的肝癌病理文本进行检查,判断是否存在漏标和误标情况;将漏标和误标的肝癌病理文本进行删除,将删除后的标注肝癌病理文本输入到十折交叉模型中,去除模型低置信度的结果,得到增强去噪后的实体标注肝癌病理文本数据集。
7.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,对命名实体抽取模型进行训练的过程包括:
步骤1:获取训练集和测试集;
步骤2:对训练集进行处理,得到input_ids、input_mask、segment_ids、label_id这4个特征数据;其中input_ids表示每个中文字对应的词库id,input_mask表示是否有掩码,segment_ids表示句子标记的id,label_ids表示这条病理文本数据样本对应标签的id;
步骤3:设置迭代次数阈值;
步骤4:将特征数据输入到BERT+CRF模型中进行训练;
步骤5:在对BERT+CRF模型进行训练过程中,设置初始迭代次数,采用AdamW优化器、余弦退火算法以及快照集方法对模型的参数进行调整;每进行一次参数的调整,则迭代次数加1;
步骤6:判断当前的迭代次数是否大于设置的迭代次数阈值,若大于迭代次数阈值,则保存当前模型的参数,完成模型训练。
8.根据权利要求7所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,采用AdamW优化器、基于余弦退火的学习率调整算法以及快照集方法对模型的参数进行调整的过程包括:AdanW利用权重衰减和L2正则化对模型的参数进行优化;L2正则化用来减少过拟合,向损失函数添加由模型所有权重的平方和组成的惩罚项,并乘上特定的weight_decay超参数以控制惩罚力度;余弦退火算法是一种让模型逃离局部最小点的学习率调整算法,学习率每经过一定轮次后会增大,以跳出局部最优点,随着模型逐渐接近全局最优点,周期不断变大,使其能够到达最优点后模型不在进行训练;采用cos方式收敛到多个全局最小值,对所有的全局最小值进行集成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110864136.7A CN113627185A (zh) | 2021-07-29 | 2021-07-29 | 一种用于肝癌病理文本命名的实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110864136.7A CN113627185A (zh) | 2021-07-29 | 2021-07-29 | 一种用于肝癌病理文本命名的实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113627185A true CN113627185A (zh) | 2021-11-09 |
Family
ID=78381622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110864136.7A Pending CN113627185A (zh) | 2021-07-29 | 2021-07-29 | 一种用于肝癌病理文本命名的实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627185A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115270797A (zh) * | 2022-09-23 | 2022-11-01 | 山东省计算中心(国家超级计算济南中心) | 一种基于自训练半监督学习的文本实体抽取方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785243A (zh) * | 2018-11-28 | 2019-05-21 | 西安电子科技大学 | 基于对抗生成网络未配准低剂量ct的去噪方法、计算机 |
AU2020100044A4 (en) * | 2020-01-10 | 2020-02-13 | Lin, Xichan Miss | Method of tracking of Surgical Target and Tool |
CN111783466A (zh) * | 2020-07-15 | 2020-10-16 | 电子科技大学 | 一种面向中文病历的命名实体识别方法 |
CN111797630A (zh) * | 2020-06-29 | 2020-10-20 | 大连理工大学 | 一种面向pdf格式论文的生物医学实体识别方法 |
CN112131389A (zh) * | 2020-10-26 | 2020-12-25 | 四川大学华西医院 | LightGBM集成多个BERT模型用于加速系统评价更新的方法 |
CN112185520A (zh) * | 2020-09-27 | 2021-01-05 | 志诺维思(北京)基因科技有限公司 | 一种医疗病理报告图片的文本结构化处理系统和方法 |
CN112214610A (zh) * | 2020-09-25 | 2021-01-12 | 中国人民解放军国防科技大学 | 一种基于跨度和知识增强的实体关系联合抽取方法 |
CN112699683A (zh) * | 2020-12-31 | 2021-04-23 | 大唐融合通信股份有限公司 | 一种融合神经网络和规则的命名实体识别方法及装置 |
US20210158167A1 (en) * | 2019-11-25 | 2021-05-27 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for enhancing a distributed medical network |
CN113177412A (zh) * | 2021-04-05 | 2021-07-27 | 北京智慧星光信息技术有限公司 | 基于bert的命名实体识别方法、系统、电子设备及存储介质 |
-
2021
- 2021-07-29 CN CN202110864136.7A patent/CN113627185A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109785243A (zh) * | 2018-11-28 | 2019-05-21 | 西安电子科技大学 | 基于对抗生成网络未配准低剂量ct的去噪方法、计算机 |
US20210158167A1 (en) * | 2019-11-25 | 2021-05-27 | Shanghai United Imaging Intelligence Co., Ltd. | Systems and methods for enhancing a distributed medical network |
AU2020100044A4 (en) * | 2020-01-10 | 2020-02-13 | Lin, Xichan Miss | Method of tracking of Surgical Target and Tool |
CN111797630A (zh) * | 2020-06-29 | 2020-10-20 | 大连理工大学 | 一种面向pdf格式论文的生物医学实体识别方法 |
CN111783466A (zh) * | 2020-07-15 | 2020-10-16 | 电子科技大学 | 一种面向中文病历的命名实体识别方法 |
CN112214610A (zh) * | 2020-09-25 | 2021-01-12 | 中国人民解放军国防科技大学 | 一种基于跨度和知识增强的实体关系联合抽取方法 |
CN112185520A (zh) * | 2020-09-27 | 2021-01-05 | 志诺维思(北京)基因科技有限公司 | 一种医疗病理报告图片的文本结构化处理系统和方法 |
CN112131389A (zh) * | 2020-10-26 | 2020-12-25 | 四川大学华西医院 | LightGBM集成多个BERT模型用于加速系统评价更新的方法 |
CN112699683A (zh) * | 2020-12-31 | 2021-04-23 | 大唐融合通信股份有限公司 | 一种融合神经网络和规则的命名实体识别方法及装置 |
CN113177412A (zh) * | 2021-04-05 | 2021-07-27 | 北京智慧星光信息技术有限公司 | 基于bert的命名实体识别方法、系统、电子设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
KARISANI PAYAM 等: "Semi-supervised text classification via self-pretraining", 《PROCEEDINGS OF THE 14TH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》, 31 March 2021 (2021-03-31), pages 40 - 48, XP058743853, DOI: 10.1145/3437963.3441814 * |
YUTONG XIE 等: "Semi-supervised adversarial model for benign–malignant lung nodule classification on chest CT", 《MEDICAL IMAGE ANALYSIS》, vol. 57, 10 July 2019 (2019-07-10), pages 237 - 248, XP085803152, DOI: 10.1016/j.media.2019.07.004 * |
毛千恩: "在线学习社区学习者学业成绩预测系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 01, 15 January 2020 (2020-01-15), pages 138 - 453 * |
秦鹏达: "关系抽取与知识图谱中的表示学习研究", 《中国博士学位论文全文数据库信息科技辑》, no. 04, 15 April 2021 (2021-04-15), pages 138 - 45 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115270797A (zh) * | 2022-09-23 | 2022-11-01 | 山东省计算中心(国家超级计算济南中心) | 一种基于自训练半监督学习的文本实体抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN112231447B (zh) | 一种中文文档事件抽取的方法和系统 | |
CN110489555A (zh) | 一种结合类词信息的语言模型预训练方法 | |
CN106844349B (zh) | 基于协同训练的垃圾评论识别方法 | |
CN110377902B (zh) | 描述文本生成模型的训练方法和装置 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN111104498A (zh) | 一种任务型对话系统中的语义理解方法 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN111723569A (zh) | 一种事件抽取方法、装置和计算机可读存储介质 | |
CN110457690A (zh) | 一种专利创造性的判断方法 | |
CN110175334A (zh) | 基于自定义的知识槽结构的文本知识抽取系统和方法 | |
CN111144119B (zh) | 一种改进知识迁移的实体识别方法 | |
CN113869053A (zh) | 一种面向司法文本命名实体识别的方法及系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
CN116432645A (zh) | 一种基于预训练模型的交通事故命名实体识别方法 | |
CN117873487B (zh) | 一种基于gvg的代码函数注释生成方法 | |
CN111581346A (zh) | 一种事件抽取方法和装置 | |
CN113627185A (zh) | 一种用于肝癌病理文本命名的实体识别方法 | |
CN113076744A (zh) | 一种基于卷积神经网络的文物知识关系抽取方法 | |
CN116362246A (zh) | 一种面向多源威胁情报的实体识别及关系抽取方法 | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN115391559A (zh) | 一种基于实时流数据的实体和关系提取方法 | |
CN114298041A (zh) | 网络安全命名实体的识别方法及识别装置 | |
CN114996442A (zh) | 一种联合抽象程度判别和摘要优化的文本摘要生成系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |