CN116776884A - 一种用于医学命名实体识别的数据增强方法及系统 - Google Patents
一种用于医学命名实体识别的数据增强方法及系统 Download PDFInfo
- Publication number
- CN116776884A CN116776884A CN202310759348.8A CN202310759348A CN116776884A CN 116776884 A CN116776884 A CN 116776884A CN 202310759348 A CN202310759348 A CN 202310759348A CN 116776884 A CN116776884 A CN 116776884A
- Authority
- CN
- China
- Prior art keywords
- data set
- enhancement
- medical
- medical data
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000004927 fusion Effects 0.000 claims abstract description 38
- 238000009826 distribution Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000002372 labelling Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 15
- 239000007787 solid Substances 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 238000006467 substitution reaction Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 48
- 230000001965 increasing effect Effects 0.000 abstract description 8
- 238000003745 diagnosis Methods 0.000 description 10
- 201000010099 disease Diseases 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 230000003187 abdominal effect Effects 0.000 description 7
- 230000000740 bleeding effect Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 3
- 238000013110 gastrectomy Methods 0.000 description 3
- 238000009533 lab test Methods 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 208000009956 adenocarcinoma Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000000747 cardiac effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002307 prostate Anatomy 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000534414 Anotopterus nikparini Species 0.000 description 1
- 206010011732 Cyst Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 208000031513 cyst Diseases 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011902 gastrointestinal surgery Methods 0.000 description 1
- 238000002575 gastroscopy Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及语言数据处理技术领域,提出一种用于医学命名实体识别的数据增强方法及系统,包括以下步骤:采集医学数据并对其进行预处理,构建医学数据集;统计所述医学数据集中不同类型实体数量分布情况;对所述医学数据集进行基于Word2Vec的上下文随机替换增强处理,并与所述医学数据集进行融合,得到AUG‑CTT融合增强数据集;和/或,根据所述医学数据集的不同类型实体数量分布情况,选择特定实体类型对所述医学数据集进行针对性随机实体替换增强处理,并与所述医学数据集进行融合,得到AUG‑ENT融合增强数据集。本发明采用AUG‑CTT增强方法和AUG‑ENT增强方法实现数据增强,具有显著增加训练集数量,增加文本特征,平衡数据集中各类别实体分布等特点。
Description
技术领域
本发明涉及语言数据处理技术领域,更具体地,涉及一种用于医学命名实体识别的数据增强方法及系统。
背景技术
标注良好的平衡数据集有助于提升命名实体识别的性能,高效、精准的医学实体识别方法对智慧医疗产业以及医学学术研究的提高与发展大有裨益。但相较于通用领域,医学领域数据获取成本高、专业性强、结构复杂,有限的训练资源使得医学领域命名实体识别任务难度加大。
命名实体识别任务属于信息抽取大任务下的一个分支,其本质可以归类为文本的边界识别以及文本分类。目前深度学习模型已经成为了命名实体识别任务的主流应用方案,BERT类语言模型则成为了当今命名实体任务的研究首选。然而,深度学习模型的高性能表现依赖于大量的高质量训练语料与计算资源,但往往这两种资源获取难度和成本较高。因此除了对模型进行不断的改进调优,从数据方面增加训练数据量、提高数据标注质量的数据增强方法可以作为解决这一困局的方案之一。
在图像、语音和视频对象识别中,数据增强是一种典型的处理技术,通过剪切、压缩、旋转和缩放等方式增加样本多样性。相对而言,文本数据增强具有较多限制,但在数据集不平衡且存在较多生僻字的情况下,数据增强技术仍能有效增加文本特征,并为下游任务提供支持。在文本数据增强中,普遍使用的方法包括同近义词替换、随机插入、随机删除和文本交换。其中,最常使用的是同近义词替换,根据文本内容不同可以演变成同词性替换或者同类别替换等不同形式。对于无监督数据,Xie等人(Xie Q, Dai Z, Hovy E, Luong TM, Le Q V. Unsupervised Data Augmentation for Consistency Training[J]. NeuralInformation Processing Systems, 2020, 33:6256-68.)提出使用基于监督学习的数据增强方法,在文本分类训练集中表现出了更高的性能。此外,DiPS模型、 G-DAUG模型、DAGA模型和混合数据增强方法等方法均验证了数据增强在文本分类和信息抽取中的有效性。
然而,对于中文医学命名实体识别任务来说,目前仍然存在以下几大难题:(1)中文词边界限定,中文词歧义以及句法模糊等中文命名实体识别的传统问题;(2)由于医学伦理隐私的考虑与医学知识的高度专业性,中文医学领域的已标注数据集相对匮乏;(3)医学领域中的实体相较于通用领域来说,其中大部分词都是语料库中的低频词,还有各类生僻字。同时,命名实体识别任务本质上作为序列标注任务,与文本分类任务的一大不同就在于其对文本的上下文特征更加敏感。因此,针对中文医学命名实体识别任务的数据增强方法具有重要的实际应用需求。
发明内容
本发明为克服上述现有技术中针对中文医学命名实体识别任务的训练资源匮乏的缺陷,提供一种用于医学命名实体识别的数据增强方法及系统。
为解决上述技术问题,本发明的技术方案如下:
一种用于医学命名实体识别的数据增强方法,包括以下步骤:
S1、采集医学数据并对其进行预处理,构建医学数据集;
S2、统计所述医学数据集中不同类型实体数量分布情况;
S3、对所述医学数据集进行基于Word2Vec的上下文随机替换增强处理,并与所述医学数据集进行融合,得到AUG-CTT融合增强数据集;
和/或,根据所述医学数据集的不同类型实体数量分布情况,选择特定实体类型对所述医学数据集进行针对性随机实体替换增强处理,并与所述医学数据集进行融合,得到AUG-ENT融合增强数据集。
进一步地,本发明还提出了一种用于医学命名实体识别的数据增强系统,应用本发明提出的数据增强方法。其中包括:
数据采集模块,用于采集医学数据;
预处理模块,用于对采集的医学数据进行预处理,输出医学数据集;
统计模块,用于统计所述医学数据集中不同类型实体数量分布情况;
数据增强模块,用于对所述医学数据集进行基于Word2Vec的上下文随机替换增强处理,并与所述医学数据集进行融合,得到AUG-CTT融合增强数据集并输出;还用于根据所述医学数据集的不同类型实体数量分布情况,选择特定实体类型对所述医学数据集进行针对性随机实体替换增强处理,并与所述医学数据集进行融合,得到AUG-ENT融合增强数据集并输出。
进一步地,本发明还提出了一种存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现本发明提出的数据增强方法的步骤。
与现有技术相比,本发明技术方案的有益效果是:本发明采用基于Word2Vec的上下文随机替换增强方法和针对性随机实体替换增强方法实现数据增强,能够普遍地提升中文电子病历医学命名实体识别模型能力,具有显著增加训练集数量,增加文本特征,平衡数据集中各类别实体分布等特点,对传统词嵌入方法和预训练模型的命名实体识别模型识别能力均具有提升效果。
附图说明
图1为实施例1的用于医学命名实体识别的数据增强方法的流程图。
图2为AUG-CTT处理的流程图。
图3为AUG-CTT增强训练集与原始训练集对比图。
图4为AUG-ENT处理的流程图。
图5为数据集中不同类型实体数量分布情况示意图。
图6为数据增强前后的训练数据对比示意图。
图7为实施例3的用于医学命名实体识别的数据增强系统的架构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些公知说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种用于医学命名实体识别的数据增强方法,如图1所示,为本实施例的用于医学命名实体识别的数据增强方法的流程图。
本实施例提出的用于医学命名实体识别的数据增强方法中,包括以下步骤:
S1、采集医学数据并对其进行预处理,构建医学数据集。
S2、统计所述医学数据集中不同类型实体数量分布情况。
S3、对所述医学数据集进行基于Word2Vec的上下文随机替换增强处理,并与所述医学数据集进行融合,得到AUG-CTT融合增强数据集;和/或,根据所述医学数据集的不同类型实体数量分布情况,选择特定实体类型对所述医学数据集进行针对性随机实体替换增强处理,并与所述医学数据集进行融合,得到AUG-ENT融合增强数据集。
本实施例中,通过对医学文本数据集进行预处理和序列标注后,采用基于Word2Vec的上下文随机替换增强方法和针对性随机实体替换增强方法实现数据增强。其中,上述两种数据增强方法能够普遍地提升中文电子病历医学命名实体识别模型能力,具有显著增加训练集数量,增加文本特征,平衡数据集中各类别实体分布等特点,对传统词嵌入方法和预训练模型的命名实体识别模型识别能力均具有提升效果。
在一可选实施例中,S1步骤中,对采集的所述医学数据进行预处理,包括:
S1.1、删除重复文本;
S1.2、纠正实体标注边界错误;
S1.3、采用序列标注法对医学数据进行序列标注,得到医学数据集。
作为示例性说明,本实施例中采用python脚本对实体标注边界错误进行纠正。
进一步可选地,采用BIO标注法对医学数据进行序列标注。
作为示例性说明,在采用BIO标注法进行序列标注过程中,所有命名实体的标注均以“B”起始,中间标注使用“I”标记,非实体部分使用“O”标记,如“患 O/n者O/n出O/n院O/n。O/n 心B-解剖部位/n肺B-解剖部位/n良O/n好O/n”。
进一步可选地,在对所述医学数据进行预处理过程中,还包括数据对齐处理,具体地,包括:将所有英文字符一律转换为小写,标点符号替换为半角形式,然后通过python脚本将原始数据集中的字符与模型词表进行遍历,检查是否有词表中的未登录字符,将未登录字符添加到词表当中。
在一可选实施例中,S2步骤中,统计的实体数量分布情况中包括字符数量、句子数量,以及各类型实体的数量。其中,实体的类型根据采集的医学数据决定,例如解剖部位实体、疾病和诊断实体、药物实体、实验室检验实体、手术实体、影像检查实体等类型。
在一可选实施例中,S3步骤中,对所述医学数据集进行基于Word2Vec的上下文随机替换增强处理,包括:
S3.1.1、对所述医学数据集进行实体部分与非实体部分的分割,然后利用分词工具对非实体部分进行分词,并按照原始语句顺序进行排列;
S3.1.2、对非实体部分查找近义词,并按照预设的比例进行近义替换;
S3.1.3、将经过近义替换后的非实体部分与实体部分按照原始语句顺序进行排列,生成增强语料;
S3.1.4、对所述增强语料重新进行序列标注,并与原始的所述医学数据集进行融合,得到AUG-CTT融合增强数据集。
本实施例中,在完成文本切割与分词后,使用大规模预训练词向量对非实体部分的文本进行近义替换。
作为示例性说明,本实施例采用利用gensim工具加载腾讯大规模中文词向量,将每个非实体分词切片与词向量库中的词汇进行比对,获得与原始词汇余弦相似度最近的近义词词汇,忽略标点、字母与数字,按照一定的概率对原始词汇进行近义词替换。例如文本“患者感到疼痛,经查明腹腔出血”中非实体部分被近义替换后,可以得到增强后语料“病人感到疼痛,经过查明腹腔出血”。该文本中的“患者”和“经”被替换为“病人”和“经过”。
在一可选实施例中,S3步骤中,根据所述医学数据集的不同类型实体数量分布情况,选择特定实体类型对所述医学数据集进行针对性随机实体替换增强处理,包括:
S3.2.1、从所述医学数据集中抽取所有医疗命名实体并分类存储,构建同类实体池;
S3.2.2、统计所述同类实体池中不同类别实体数量及其分布,选择增强的实体类别;
S3.2.3、对选定的实体类别进行同类实体随机替换,生成增强语料;
S3.2.4、对所述增强语料重新进行序列标注,并与原始的所述医学数据集进行融合,得到AUG-ENT融合增强数据集。
本实施例中,针对实体池中不同类别的实体数量进行分析,通过实体数量分布情况选定增强实体的类别。然后,对选定的实体类别进行随机实体替换。命名实体在被选定为需要增强的实体类别后,会被随机替换为所有同类实体中的任意一个。
进一步地,在一可选实施例中,本实施例的数据增强方法中还包括以下步骤:
S4、将所述医学数据集、AUG-CTT融合增强数据集和AUG-ENT融合增强数据集分别输入预设的不同类型的命名实体识别模型中,根据预设的评估指标比较所述命名实体识别模型的性能,用于验证所述AUG-CTT融合增强数据集和AUG-ENT融合增强数据集的有效性。
进一步可选地,所述命名实体识别模型包括Word2Vec-BiLSTM-CRF模型、BERT-CRF模型、BERT-BiLSTM-CRF模型、RoBERTa-wwm-ext-CRF模型、RoBERTa-wwm-ext-BiLSTM-CRF模型中的至少一种。
本实施例选择传统Word2Vec词嵌入模型和BERT类预训练模型进行文本特征提取,CRF模型进行文本分类,另外考虑模型效果适当加入BiLSTM模型,得到上述命名实体识别模型。
将所述医学数据集、AUG-CTT融合增强数据集和AUG-ENT融合增强数据集分别输入命名实体识别模型中,并设置好各模型参数进行训练。
进一步可选地,使用早停法预防过拟合的产生。其中,早停法监视规则为:以损失(val_loss)作为监视值,在5个迭代次数内模型没有得到提升则停止训练,保留最优表现模型。
进一步可选地,使用精准率、召回率以及F1值3个指标以及采用严格标准对模型的识别性能进行评估,即实体的标签预测结果与实体的边界预测结果均与原始实体一致。
其中,精准率为模型所有预测实体与真实实体的比值,计算方法为:
其中,表示模型预测出的正确实体数量,/>表示模型中预测错误的命名实体数量。
召回率表示模型预测正确的实体与所有真实实体的比值,计算方法为:
其中,表示模型预测出的正确实体数量,/>代表示模型未能预测出的命名实体数量。
F1值是精准率与召回率/>的调和平均数,计算方法为:
。
本实施例通过将经过数据增强处理的数据集输入命名实体识别模型中,通过对比命名实体识别模型效果,验证两种数据增强方法的有效性,同时探究两种数据增强方法对提升医学命名实体识别的效果。
实施例2
本实施例应用实施例1提出的用于医学命名实体识别的数据增强方法进一步说明。
本实施例采用CCKS2019中子任务“面向中文电子病历的医学实体抽取”的公开电子病历命名实体识别数据集作为原始数据。该数据集中的训练集有1000条语料,测试集有379条语料,每条语料都是由一份真实的病历记录文字组成。人工标注了六大类医学实体,即“疾病与诊断”,“解剖部位”,“实验室检验”,“影像检查”,“手术”与“药物”。
应用实施例1提出的数据增强方法对上述数据集进行处理,其具体步骤包括:
步骤一:对数据集进行预处理,构建医学数据集。
具体地,将原始的中文电子病历语料利用python预处理转化为模型可以识别并进行训练的数据。针对原始语料的预处理步骤包含数据清洗与纠错和数据对齐。数据清洗与纠错是检查原始数据集中是否存在重复病历文本和实体边界标注错误等问题。
经检查发现,原始数据集中不存在重复病历文本,但具有30处实体标注边界错误问题,例如将“前列腺左侧叶”标注为“,前列腺左侧叶”。本实施例将所有30处标注边界错误均通过python脚本予以纠正。
在数据对齐处理中,由于BERT及其衍生模型均使用预定义的词表字典对读取的文本进行文本表示,本实施例将所有英文字符一律转换为小写,标点符号替换为半角形式,然后通过python脚本将原始数据集中的字符与模型词表进行遍历,检查是否有词表中的未登录字符,将未登录字符添加到词表当中。
进一步地,采用BIO标注法进行序列标注,即所有命名实体的标注均以“B”起始,中间标注使用“I”标记,非实体部分使用“O”标记。如下表1所示,为实体标签的对应关系。
表1 实体标签对应关系
由此构建得到医学数据集。
步骤二:对所述医学数据集中的1000条电子病历数据,按照2比8的比例将其分割为验证集与训练集,剩余379条电子病历数据集作为测试集使用。统计数据集中实体数量分布情况,得到如下表2所示的训练集、验证集以及测试集的实体数量分布情况。
表2 训练集、验证集以及测试集的实体数量分布情况
经过处理后的训练集、验证集以及测试集分别以train.txt、dev.txt、test.txt进行保存。
步骤三:对训练集进行基于Word2Vec的上下文随机替换增强(AUG-CTT)处理。
如图2所示,为AUG-CTT处理的流程图。本实施例先将预处理后的标注语料重新读取,利用Python脚本将标注语料切割为由命名实体与其上下文组成的“部分句子-实体”切片,并按照原始语句顺序进行排列,将非实体部分与实体分开标注。然后,利用开源的jieba分词工具包对标注为非实体的部分进行分词切割,得到文本的分词表示。例如文本“患者感到疼痛,经查明腹腔出血”中,“腹腔出血”为一个疾病与诊断实体,将该文本先分割为“患者感到疼痛,经查明/腹腔出血”,然后对非实体部分的文本进行分词,得到“患者/感到/疼痛/,/经/查明/腹腔出血”。
文本切割与分词后,使用大规模预训练词向量对非实体部分的文本进行近义替换。本实施例中,利用gensim工具加载腾讯大规模中文词向量,将每个非实体分词切片与词向量库中的词汇进行比对,获得与原始词汇余弦相似度最近的近义词词汇,忽略标点、字母与数字,按照一定的概率对原始词汇进行近义词替换。例如文本“患者感到疼痛,经查明腹腔出血”中非实体部分被近义替换后,可以得到增强后语料“病人感到疼痛,经过查明腹腔出血”。该文本中的“患者”和“经”被替换为“病人”和“经过”。如图3所示,为本实施例的AUG-CTT增强训练集与原始训练集对比图。
被替换后生成的增强语料重新进行BIO标记,并与原始训练集进行融合,形成AUG-CTT增强融合训练集。增强融合后的训练集具体情况如下表3所示。
表3 AUG-CTT增强融合训练集统计
对训练集进行针对性随机实体替换增强(AUG-ENT)处理。
如图4所示,为AUG-ENT处理的流程图。本实施例中,首先抽取原始训练集中的所有医疗命名实体,以Python列表的方法对所有的命名实体按照类别进行存储,构建同类实体池。例如疾病与诊断类别的列表存储为[“胃 B-疾病与诊断,癌I-疾病与诊断”,“肝 B-疾病与诊断,癌 I-疾病与诊断”…],其他实体类似。然后,针对实体池中不同类别的实体数量进行分析,通过实体数量分布情况选定增强实体的类别。
如图5所示,为数据集中不同类型实体数量分布情况。数据集中“解剖部位”类别的命名实体数量要远远高于其他五个类别。因此本实施例中对“疾病和诊断”、“药物”、“实验室检验”、“手术”和“影像检查”这五类在数量上相对弱势的实体进行随机实体替换增强,每一个命名实体的替换概率设置为1。
最后,对选定的实体类别进行随机实体替换。命名实体在被选定为需要增强的实体类别后,会被随机替换为所有同类实体中的任意一个。
需要注意的是,对于增强后的训练集,有可能存在两种情况:(1)整条句子均由非实体部分组成;(2)整条句子存在命名实体,但均未被选中为随机替换的命名实体,即该句在使用针对性实体替换方法后进行增强,但该句仍然保持不变。
针对第一种情况,本实施例选择对增强后的语料删除全部由非实体部分组成的句子,以提高训练速度,节约训练资源;针对第二种情况,保留存在命名实体但未被改动的句子,因为这样的句子有助于降低增强后生成语料对于命名实体识别模型的噪声影响。
例如,原始文本“行胃镜检查示:贲门低分化腺癌。遂于我院胃肠外科行根治性全胃切除术”中,未增强原始训练数据与增强后训练数据的对比如图6所示。在将“疾病和诊断”以及“手术”实体类别作为选定的增强实体类别后,原始语料中的“贲门低分化腺癌”和“根治性全胃切除术”两个实体被随机替换为了“肝囊肿”和“胃切除术”两个同类型的命名实体。
被替换后生成的增强语料重新进行BIO标记,并与原始训练集进行融合,形成AUG-ENT增强融合训练集。增强融合后的训练集具体情况如下表4所示。
表4 AUG-ENT增强融合训练集统计
步骤四:选择传统Word2Vec词嵌入模型和BERT类预训练模型进行文本特征提取,CRF模型进行文本分类,另外考虑模型效果适当加入BiLSTM模型,得到5个组合模型,Word2Vec-BiLSTM-CRF、BERT-CRF、BERT-BiLSTM-CRF、RoBERTa-wwm-ext-CRF、RoBERTa-wwm-ext-BiLSTM-CRF。然后将前述处理好的三种数据集输入到五个命名实体识别组合模型中,并设置好各模型参数。
在Word2Vec模型中将参数hs设置为1,使用Hierarchical Softmax方法训练。参数min_count设置为1,即所有语料中出现的词都被保留,这是因为本文使用的中文电子病历语料数量较少,但生僻词较多,很多命名实体本身就是由生僻字组成且词频较低,又具有很重要的语义。参数window设置为4,参数vector_size与BERT模型中使用的768维词向量保持一致,其余参数为默认。
命名实体识别模型Word2Vec-BiLSTM-CRF的超参数迭代次数epoch设置为10,每批次训练样本batch_size设置为4,学习率learning_rate设置为1e-3,优化器optimizer选择Adam,随机失活dropout设置为0.5。
同样地,在BERT-CRF、BERT-BiLSTM-CRF、RoBERTa-wwm-ext-CRF、RoBERTa-wwm-ext-BiLSTM-CRF这四个模型中,所有BERT模型参数均使用官方预设默认参数。其中BERT、RoBERTa两个模型中均使用12层encoder层进行堆叠,隐状态维度(hidden_size)为768维,隐藏层层数为12层。另外,在BERT-BiLSTM-CRF和RoBERTa-wwm-ext-BiLSTM-CRF中,RNN单向隐藏层数量均为32,因为使用了双向LSTM机制,所以RNN隐藏层数量共有64层。这四个组合模型的超参数除了epoch设置为5,optimizer选择AdaFactor之外,其余超参数与Word2Vec-BiLSTM-CRF模型超参数一致。
五个组合模型均使用早停法预防过拟合的产生,早停法监视规则为:以验证集中的损失(val_loss)作为监视值,在5个迭代次数内模型没有得到提升则停止训练,保留最优表现模型。
本实施例中,使用精准率、召回率以及F1值3个指标以及采用严格标准对模型的识别性能进行评估,即实体的标签预测结果与实体的边界预测结果均与原始实体一致,并以F1值作为模型的主要评价标准。本实施例最终得到的实验结果如表5所示。
表5 实验结果
在表5实验结果中,没有括号后缀的表示该模型使用原始电子病历语料进行命名实体识别;带有“(AUG-CTT)”后缀表示模型使用“基于Word2Vec的上下文随机替换增强”方法的融合语料进行命名实体识别;带有(AUG-ENT)后缀的表示组合模型使用“针对性随机实体替换增强”方法的融合语料进行命名实体识别。所有结果均以百分比制进行储存,保留小数后三位。
根据表5所示的实验结果可知,本实施例应用的AUG-CTT处理和AUG-ENT处理能够普遍地提升中文电子病历医学命名实体识别模型能力。根据F1值结果,本实施例中5个组合模型在使用了增强融合语料后识别性能均有所提升。本实施例中用用的5个组合模型既包括使用传统词嵌入深度学习方法的Word2Vec- BiLSTM- CRF模型,也包括使用预训练语言模型的BERT类组合模型,这说明本实施例提出的两种数据增强方法针对不同命名实体识别模型均有提升效果,且具有推广性。
此外,由表5可知,本实施例中应用AUG-CTT处理为组合模型带来的提升要优于AUG-ENT处理,除组合模型RoBERTa-wwm-ext-BiLSTM-CRF外,其他4个组合模型中使用AUG-CTT增强融合语料后的F1值表现均更优于使用AUG-ENT方法的F1值。这说明使用AUG-CTT处理在增强了中文电子病历语料的同时也更好的保留了原始语义,为模型提供了更好的增益效果。
实施例3
本实施例提出在一种用于医学命名实体识别的数据增强系统,应用实施例1提出的数据增强方法。如图7所示,为本实施例的用于医学命名实体识别的数据增强系统的架构图。
本实施例提出的用于医学命名实体识别的数据增强系统中,包括:
数据采集模块,用于采集医学数据。
预处理模块,用于对采集的医学数据进行预处理,输出医学数据集。
统计模块,用于统计所述医学数据集中不同类型实体数量分布情况。
数据增强模块,用于对所述医学数据集进行基于Word2Vec的上下文随机替换增强处理,并与所述医学数据集进行融合,得到AUG-CTT融合增强数据集并输出;还用于根据所述医学数据集的不同类型实体数量分布情况,选择特定实体类型对所述医学数据集进行针对性随机实体替换增强处理,并与所述医学数据集进行融合,得到AUG-ENT融合增强数据集并输出。
可以理解,本实施例的系统对应于上述实施例1的数据增强方法,上述实施例1中的可选项同样适用于本实施例,故在此不再重复描述。
实施例4
本实施例提出一种存储介质,其上存储有计算机可读指令,其中,所述计算机可读指令被处理器执行时实现实施例1提出的数据增强方法的步骤。
示范性地,所述存储介质包括但不限于U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
示范性地,所述指令、程序、代码集或指令集可采用常规编程语言实现。
示范性地,所述处理器包括但不限于智能手机、个人计算机、服务器、网络设备等,用于执行实施例1所述的数据增强方法的全部或部分步骤。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种用于医学命名实体识别的数据增强方法,其特征在于,包括:
S1、采集医学数据并对其进行预处理,构建医学数据集;
S2、统计所述医学数据集中不同类型实体数量分布情况;
S3、对所述医学数据集进行基于Word2Vec的上下文随机替换增强处理,并与所述医学数据集进行融合,得到AUG-CTT融合增强数据集;
和/或,根据所述医学数据集的不同类型实体数量分布情况,选择特定实体类型对所述医学数据集进行针对性随机实体替换增强处理,并与所述医学数据集进行融合,得到AUG-ENT融合增强数据集。
2.根据权利要求1所述的数据增强方法,其特征在于,所述S1步骤中,对采集的所述医学数据进行预处理,包括:
删除重复文本;
纠正实体标注边界错误;
采用序列标注法对医学数据进行序列标注,得到医学数据集。
3.根据权利要求2所述的数据增强方法,其特征在于,所述序列标注法包括BIO标注法。
4.根据权利要求1所述的数据增强方法,其特征在于,所述S3步骤中,对所述医学数据集进行基于Word2Vec的上下文随机替换增强处理,包括:
S3.1.1、对所述医学数据集进行实体部分与非实体部分的分割,然后利用分词工具对非实体部分进行分词,并按照原始语句顺序进行排列;
S3.1.2、对非实体部分查找近义词,并按照预设的比例进行近义替换;
S3.1.3、将经过近义替换后的非实体部分与实体部分按照原始语句顺序进行排列,生成增强语料;
S3.1.4、对所述增强语料重新进行序列标注,并与原始的所述医学数据集进行融合,得到AUG-CTT融合增强数据集。
5.根据权利要求1所述的数据增强方法,其特征在于,所述S3步骤中,根据所述医学数据集的不同类型实体数量分布情况,选择特定实体类型对所述医学数据集进行针对性随机实体替换增强处理,包括:
S3.2.1、从所述医学数据集中抽取所有医疗命名实体并分类存储,构建同类实体池;
S3.2.2、统计所述同类实体池中不同类别实体数量及其分布,选择增强的实体类别;
S3.2.3、对选定的实体类别进行同类实体随机替换,生成增强语料;
S3.2.4、对所述增强语料重新进行序列标注,并与原始的所述医学数据集进行融合,得到AUG-ENT融合增强数据集。
6.根据权利要求1~5任一项所述的数据增强方法,其特征在于,还包括:
S4、将所述医学数据集、AUG-CTT融合增强数据集和AUG-ENT融合增强数据集分别输入预设的不同类型的命名实体识别模型中,根据预设的评估指标比较所述命名实体识别模型的性能,用于验证所述AUG-CTT融合增强数据集和AUG-ENT融合增强数据集的有效性。
7.根据权利要求6所述的数据增强方法,其特征在于,所述命名实体识别模型包括Word2Vec-BiLSTM-CRF模型、BERT-CRF模型、BERT-BiLSTM-CRF模型、RoBERTa-wwm-ext-CRF模型、RoBERTa-wwm-ext-BiLSTM-CRF模型中的至少一种。
8.根据权利要求6所述的数据增强方法,其特征在于,所述评估指标包括精准率、召回率和F1值。
9.一种用于医学命名实体识别的数据增强系统,应用于权利要求1~8任一项所述的数据增强方法,其特征在于,包括:
数据采集模块,用于采集医学数据;
预处理模块,用于对采集的医学数据进行预处理,输出医学数据集;
统计模块,用于统计所述医学数据集中不同类型实体数量分布情况;
数据增强模块,用于对所述医学数据集进行基于Word2Vec的上下文随机替换增强处理,并与所述医学数据集进行融合,得到AUG-CTT融合增强数据集并输出;还用于根据所述医学数据集的不同类型实体数量分布情况,选择特定实体类型对所述医学数据集进行针对性随机实体替换增强处理,并与所述医学数据集进行融合,得到AUG-ENT融合增强数据集并输出。
10.一种存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1~8任一项所述的数据增强方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310759348.8A CN116776884A (zh) | 2023-06-26 | 2023-06-26 | 一种用于医学命名实体识别的数据增强方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310759348.8A CN116776884A (zh) | 2023-06-26 | 2023-06-26 | 一种用于医学命名实体识别的数据增强方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116776884A true CN116776884A (zh) | 2023-09-19 |
Family
ID=87987613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310759348.8A Pending CN116776884A (zh) | 2023-06-26 | 2023-06-26 | 一种用于医学命名实体识别的数据增强方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116776884A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117973393A (zh) * | 2024-03-28 | 2024-05-03 | 苏州系统医学研究所 | 面向医学文本中关键医学信息的精准语义比对方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723075A (zh) * | 2021-08-28 | 2021-11-30 | 重庆理工大学 | 融合词屏蔽数据增强与对抗学习的特定目标情感分析方法 |
CN113807098A (zh) * | 2021-08-26 | 2021-12-17 | 北京百度网讯科技有限公司 | 模型训练方法和装置、电子设备以及存储介质 |
CN113836930A (zh) * | 2021-09-28 | 2021-12-24 | 浙大城市学院 | 一种中文危险化学品命名实体识别方法 |
CN113869057A (zh) * | 2021-10-15 | 2021-12-31 | 北京明略软件系统有限公司 | 文本数据增强方法、系统和计算机设备和存储介质 |
CN115438645A (zh) * | 2022-09-22 | 2022-12-06 | 华东师范大学 | 一种序列标注任务的文本数据增强方法及系统 |
CN115510863A (zh) * | 2022-09-16 | 2022-12-23 | 武汉大学 | 一种面向问句匹配任务的数据增强方法 |
CN116244445A (zh) * | 2022-12-29 | 2023-06-09 | 中国航空综合技术研究所 | 航空文本数据标注方法及其标注系统 |
-
2023
- 2023-06-26 CN CN202310759348.8A patent/CN116776884A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807098A (zh) * | 2021-08-26 | 2021-12-17 | 北京百度网讯科技有限公司 | 模型训练方法和装置、电子设备以及存储介质 |
CN113723075A (zh) * | 2021-08-28 | 2021-11-30 | 重庆理工大学 | 融合词屏蔽数据增强与对抗学习的特定目标情感分析方法 |
CN113836930A (zh) * | 2021-09-28 | 2021-12-24 | 浙大城市学院 | 一种中文危险化学品命名实体识别方法 |
CN113869057A (zh) * | 2021-10-15 | 2021-12-31 | 北京明略软件系统有限公司 | 文本数据增强方法、系统和计算机设备和存储介质 |
CN115510863A (zh) * | 2022-09-16 | 2022-12-23 | 武汉大学 | 一种面向问句匹配任务的数据增强方法 |
CN115438645A (zh) * | 2022-09-22 | 2022-12-06 | 华东师范大学 | 一种序列标注任务的文本数据增强方法及系统 |
CN116244445A (zh) * | 2022-12-29 | 2023-06-09 | 中国航空综合技术研究所 | 航空文本数据标注方法及其标注系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117973393A (zh) * | 2024-03-28 | 2024-05-03 | 苏州系统医学研究所 | 面向医学文本中关键医学信息的精准语义比对方法及系统 |
CN117973393B (zh) * | 2024-03-28 | 2024-06-07 | 苏州系统医学研究所 | 面向医学文本中关键医学信息的精准语义比对方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697285B (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN114595333B (zh) | 一种用于舆情文本分析的半监督方法和装置 | |
US20180075368A1 (en) | System and Method of Advising Human Verification of Often-Confused Class Predictions | |
CN111834014A (zh) | 一种医疗领域命名实体识别方法及系统 | |
Carchiolo et al. | Medical prescription classification: a NLP-based approach | |
US20180068221A1 (en) | System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus | |
CN106844351B (zh) | 一种面向多数据源的医疗机构组织类实体识别方法及装置 | |
JP2005158010A (ja) | 分類評価装置・方法及びプログラム | |
EP4266195A1 (en) | Training of text and image models | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN116776884A (zh) | 一种用于医学命名实体识别的数据增强方法及系统 | |
CN113448843A (zh) | 基于缺陷分析的图像识别软件测试数据增强方法及装置 | |
Sun et al. | Study on medical image report generation based on improved encoding-decoding method | |
CN110363283B (zh) | 基于深度学习的用户属性预测方法及相关装置 | |
Rose et al. | The linguistic analysis of scene semantics: LASS | |
Khan et al. | A clustering framework for lexical normalization of Roman Urdu | |
CN116663536B (zh) | 一种临床诊断标准词的匹配方法及装置 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN113836297B (zh) | 文本情感分析模型的训练方法及装置 | |
CN116257601A (zh) | 一种基于深度学习的违法词库构建方法及系统 | |
Trye et al. | A hybrid architecture for labelling bilingual māori-english tweets | |
CN113486169B (zh) | 基于bert模型的同义语句生成方法、装置、设备及存储介质 | |
US20230075290A1 (en) | Method for linking a cve with at least one synthetic cpe |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |