CN112802570A - 一种针对电子病历命名实体识别系统及方法 - Google Patents
一种针对电子病历命名实体识别系统及方法 Download PDFInfo
- Publication number
- CN112802570A CN112802570A CN202110169271.XA CN202110169271A CN112802570A CN 112802570 A CN112802570 A CN 112802570A CN 202110169271 A CN202110169271 A CN 202110169271A CN 112802570 A CN112802570 A CN 112802570A
- Authority
- CN
- China
- Prior art keywords
- data
- labeling
- model
- electronic medical
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000002372 labelling Methods 0.000 claims abstract description 87
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000004140 cleaning Methods 0.000 claims abstract description 15
- 238000012937 correction Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 239000003814 drug Substances 0.000 claims description 6
- 238000004880 explosion Methods 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000007619 statistical method Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 201000010099 disease Diseases 0.000 claims description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000012821 model calculation Methods 0.000 claims description 4
- 208000024891 symptom Diseases 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 4
- 239000013589 supplement Substances 0.000 abstract description 2
- 230000001502 supplementing effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种针对电子病历命名实体识别系统及方法;进行数据清洗,将清洗之后的数据进行基于规则的预标注,将结果返回给标注算法进行二次标注并生成预标注数据集,再将结果返回给标注人员进行校正与标注从而生成标准数据集。根据对比分析预标注数据集与标准数据集的差异,修正规则与算法。获取线上预测数据,通过人工进行核对校验补充进标准数据集,将原始数据送入预标注系统补充预标注数据集,累计到一定规模之后重新训练模型迭代模型。本发明将命名实体识别整个工业应用流程进行整合与改造,构建出适用于工业场景的命名实体识别框架。
Description
技术领域
本发明属于新一代信息技术领域,具体涉及一种针对电子病历命名实体识别系统及方法。
背景技术
电子病历命名实体识别是电子病历结构化的基础性研究,能够准确的识别出电子病历中的命名实体就能为后续的电子病历分析提供强有力的支撑。电子病历是一种半结构化的数据结构,其中存在可读性很高的结构化数据,同时也存在解析难度很高的自由文本。然而在自由文本中存在大量的诊疗相关信息,这些信息具有诊疗数据追踪、医学统计分析、地区流行病预防等重要应用。命名实体识别就是针对电子病历中自由文本进行实体抽取。
一个高效合理的电子病历命名实体识别框架是得到电子病历命名实体识别模型的基础。通常框架包含了从数据获取→数据标注→数据处理→模型训练→模型保存整个流程。框架各单元相关连接,相互依赖。
随着电子病历命名实体工作的持续升温,对于这种医疗自由文本有着更为深入的分析,从而发现当前的电子病历命名实体识别框架已经无法满足当前的应用需求,同时电子病历命名实体识别模型本身的准确性还远远不够。
因此对目前业界存在的问题总结如下:
A由于电子病历命名实体识别框架的高耦合性与相互依赖特点使得电子病历命名实体识别框架各个环节无法有效拆分,功能之间无法独立。
B使用ai技术进行电子病历命名实体识别的核心模型存在‘黑盒’效应,无法达到对电子病历命名实体识别做到可控。
C电子病历命名实体识别鲜有能够识别出嵌套命名实体(Nested Named EntityRecognition),然而嵌套命名实体在电子病历中却很常见。
D电子病历命名实体识别模型的输入数据挖掘还不够充分,需要充分利用电子病历数据强标准化特点,完善对语句中标点符号的深度挖掘。
E使用较高准确性的先验数据来提升模型整体准确性的方案还需要充分挖掘。
因此本申请的电子病历命名实体识别框架将针对上述问题进行逐个解决。
发明内容
本发明目的在于提供一种针对电子病历命名实体识别系统及方法,用于解决上解决上述场景的问题,如:从工业应用场景出发,针对标注数据成本过高,框架内部过度依赖,模型输入数据信息挖掘不充分,无法识别嵌套命名实体等问题。
为实现上述目的,本发明的技术方案是:
一种针对电子病历命名实体识别系统,包括:
数据清洗单元,对电子病历的原始数据进行数据清洗,得到规范原始数据;
规则预标注单元,通过标注规则对规范原始数据进行规则预标注,得到规则预标注数据;
算法预标注单元,通过标注算法对规则预标注数据进行算法预标注,得到预标注数据集;
人工检验与标注单元,标注人员对预标注数据集进行校正与标注从而生成标准数据集;
构建输入数据单元,针对已经标准数据集进行分类构建输入,得到输入数据;
模型搭建单元,搭建电子病历命名实体识别模型,即,第一层采用transformer特征提取的方式提取输入数据的特征信息,第二层采用随机删除dropout的方式进行输出,第三层采用批量归一化Batch Normalization的方式进行防止梯度爆炸,第四层采用bilstm对特征进行二次提取,第五层采用随机删除dropout的方式进行防止过拟合,第六层采用前馈神经网络将上一层的结果进行压缩到标签类别数并使用sigmoid函数进行激活;
模型训练单元,将输入数据输入到电子病历命名实体识别模型进行训练;
超参数调整单元,通过训练过程中loss下降情况以及测试集中f1综合调整超参数到最优参数;
模型生成单元,超参数调整完毕之后保存模型结构,保存模型权重,即得到最终的电子病历命名实体识别模型。
进一步的,数据清洗单元中数据清洗是指将中文、标点符号、英文进行规范统一。
进一步的,规则预标注单元中,针对规范原始数据中的时间点和时间段的描述进行正则提取,编写正则库,针对不同规律的时间表述进行分类,将提取之后的实体进行预标注。
进一步的,算法预标注单元中,使用规范的药品库、疾病库、手术库、症状库规范名称构建相对应的实体字典,字典作为需要迭代更新的专有实体名称,字典中的名称剔除字符长度小于2的词,使用北京大学分词包pkuseg,设定分词模型为medicine;对原始语句进行分词,使用标点符号进行识别出子序列;针对子序列采用由长到短的递归合并方式字典查询;如果某几个子词的合并能够在标准词典中找到,则直接对这个子串进行实体标注并使用特殊的占位字符进行占位;其他子序列中的词继续执行递归合并方式字典查询直到所有的子序列都查询完毕。
进一步的,人工检验与标注单元中,标注人员针对预标注数据集进行人工核对,针对其中标注错误的地方进行修正,针对预标注没有标注到的地方进行标注;将所有的修正与标注操作记录下来构建日志,为后续的统计分析这部分操作积累数据,为迭代预标注的规则库以及算法提供决策指导;将人工校验与标注后的数据作为标注数据,即标准数据集。
进一步的,构建输入数据单元中,针对标准数据集进行分类构建输入;使用预训练的字向量库获取到输入语料字符级语义序列向量;针对输入序列中的标点符号根据在序列中的位置获取出标点符号one_hot编码,从而构建出基于位置的标点符号序列向量;根据预标注信息对输入数据对应位置上的实体类别标签进行类别信息编码并构建为融合实体类别信息与位置信息的序列向量;将三个序列向量进行拼接构建成一个序列向量作为模型的输入数据。
进一步的,模型训练单元中,将训练数据输入模型,通过模型计算得到输出,该输出为序列向量;设定一个超参数阈值0.5,对模型输出数据中大于0.5的索引位置数值进行向上取整,其他数据向下取整,从而形成新的输出序列向量;对比标准数据的序列标记向量,使用二分类交叉熵损失函数binary_crossentropy对预测值与标签进行loss构建;使用adam优化函数进行优化。
进一步的,超参数调整单元,整个模型的超参数:transformer层的隐藏神经元个数h1,两个dropout层的随机删除率deal1和deal2,bilstm层的影藏神经元个数h2,截取输出阈值s1;针对模型训练过程中loss下降情况以及测试集中f1综合调整超参数到最优参数。
一种针对电子病历命名实体识别方法,包括以下步骤:
步骤S1,对电子病历的原始数据进行数据清洗,得到规范原始数据;
步骤S2,通过标注规则对规范原始数据进行规则预标注,得到规则预标注数据;
步骤S3,通过标注算法对规则预标注数据进行算法预标注,得到预标注数据集;
步骤S4,标注人员对预标注数据集进行校正与标注从而生成标准数据集;
步骤S5,针对标准数据集进行分类构建输入,得到输入数据;
步骤S6,搭建电子病历命名实体识别模型,即,第一层采用transformer特征提取的方式提取输入数据的特征信息,第二层采用随机删除dropout的方式进行输出,第三层采用批量归一化Batch Normalization的方式进行防止梯度爆炸,第四层采用bilstm对特征进行二次提取,第五层采用随机删除dropout的方式进行防止过拟合,第六层采用前馈神经网络将上一层的结果进行压缩到标签类别数并使用sigmoid函数进行激活;
步骤S7,将输入数据输入到电子病历命名实体识别模型进行训练;
步骤S8,通过训练过程中loss下降情况以及测试集中f1综合调整超参数到最优参数;
步骤S9,超参数调整完毕之后保存模型结构,保存模型权重,即得到最终的电子病历命名实体识别模型。
与现有技术相比,本发明所具有的有益效果为:
本方案的一个创新点在于,本申请采用两个分离模块进行构建整体框架,分别是预标注模块和模型模块。整体流程依然需要包含现在最流行的框架子流程。预标注部分需要完成基于规则和算法的实体预标注,之后通过人工对这部分标注数据进行校正构建成标注数据,而模型模块部分使用预标注之后的数据进行模型数据,同时需要搭建模型、训练模型、保存模型等操作。这种两个大模型之间耦合性就很低,两个模块都能够孤立迭代循环,这就降低了整个框架的耦合性同时也不失整个框架的完整性。
本方案的一个创新点在于,预标注部分采用基于规则的规则库和基于算法的算法库,这里的算法不包含神经网络算法。整个预标注过程中还需要依赖专业词词典,通过获取医疗相关的专业术语信息构建词典。数据进入预标注阶段直接使用规则和算法进行无监督的预标注,这种预标注数据准确性能够达到70%以上。标注人员针对大部分都标注正确的数据进行校正调整,可以节约大量的标注时间。整个规则库作为基础版本,如果是某些地区或者某些医院具有一些带有特性的术语,可以针对这些特性术语进行规则定制化调整以及字典更新,做到一定的可控性与精准性。
本方案的一个创新点在于,电子病历中出现嵌套命名实体是普遍现象,以往的电子病历命名实体识别模型对嵌套实体识别非常少,很多从模型设计本身就不支持这种嵌套实体识别。本申请采用变更输出层激活函数的方式,使得多分类问题转变为多标签分类问题,从而使得模型具有嵌套命名实体识别功能。
本方案的一个创新点在于,电子病历命名实体识别是在输入数据上对语义本身挖掘的较深,从词到笔画都进行embedding。然而电子病历文本中标点符号的使用是具有明确规范的,标点符号所包含的隐藏逻辑关系非常重要。本申请对模型输入数据中引入标点符号embedding,将标点符号所具有的隐藏逻辑信息嵌入到输入数据中。
本方案的一个创新点在于,电子病历命名实体识别模型没有考虑过使用高准确性的预标注数据进行实体抽取。本申请则是利用预标注数据进行实体抽取,预标注数据包含70%的正确实体标注,这些正确的实体标注为模型提供了先验信息。基于电子病历语言本身的特点,文本中实体与同类实体或者不同类实体之间并不是相互独立的,他们之间具有潜在的语义关联性和位置关联性,这种关联性在高准确性预标注数据下贡献了极为有效的关联信息与先验信息。预标注过程完全由规则和算法进行完成,无需人工标注,即使预标注数据中还存在近30%的错误数据,但是这种高准确性数据的情况下依然使得模型非常有效。
附图说明
图1是本发明具体实施方式的实施例预标注迭代流程示意图。
图2是本发明具体实施方式的实施例模型迭代流程示意图。
图3是本发明具体实施方式的实施例模型结构示意图。
图4是本发明具体实施方式的实施例整体框架示意图。
图5是本发明具体实施方式的实施例工业场景下流程示意图。
具体实施方式
下面结合本发明的附图1-5,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
如图4所示,提出一种针对电子病历命名实体识别系统,包括:
数据清洗单元,对电子病历的原始数据进行数据清洗,得到规范原始数据;
规则预标注单元,通过标注规则对规范原始数据进行规则预标注,得到规则预标注数据;
算法预标注单元,通过标注算法对规则预标注数据进行算法预标注,得到预标注数据集;
人工检验与标注单元,标注人员对预标注数据集进行校正与标注从而生成标准数据集;
构建输入数据单元,针对标准数据集进行分类构建输入,得到输入数据;
模型搭建单元,搭建电子病历命名实体识别模型,即,第一层采用transformer特征提取的方式提取输入数据的特征信息,第二层采用随机删除dropout的方式进行输出,第三层采用批量归一化Batch Normalization的方式进行防止梯度爆炸,第四层采用bilstm对特征进行二次提取,第五层采用随机删除dropout的方式进行防止过拟合,第六层采用前馈神经网络将上一层的结果进行压缩到标签类别数并使用sigmoid函数进行激活;如图3所示;
模型训练单元,将输入数据输入到电子病历命名实体识别模型进行训练;
超参数调整单元,通过训练过程中loss下降情况以及测试集中f1综合调整超参数到最优参数;
模型生成单元,超参数调整完毕之后保存模型结构,保存模型权重,即得到最终的电子病历命名实体识别模型。
进一步的,数据清洗单元中数据清洗是指将中文、标点符号、英文进行规范统一。
进一步的,规则预标注单元中,针对规范原始数据中的时间点和时间段的描述进行正则提取,编写正则库,针对不同规律的时间表述进行分类,将提取之后的实体进行预标注。
进一步的,算法预标注单元中,使用规范的药品库、疾病库、手术库、症状库规范名称构建相对应的实体字典,字典作为需要迭代更新的专有实体名称,字典中的名称剔除字符长度小于2的词,使用北京大学分词包pkuseg,设定分词模型为medicine;对原始语句进行分词,使用标点符号进行识别出子序列;针对子序列采用由长到短的递归合并方式字典查询;如果某几个子词的合并能够在标准词典中找到,则直接对这个子串进行实体标注并使用特殊的占位字符进行占位;其他子序列中的词继续执行递归合并方式字典查询直到所有的子序列都查询完毕。
进一步的,人工检验与标注单元中,标注人员针对预标注数据集进行人工核对,针对其中标注错误的地方进行修正,针对预标注没有标注到的地方进行标注;将所有的修正与标注操作记录下来构建日志,为后续的统计分析这部分操作积累数据,为迭代预标注的规则库以及算法提供决策指导;将人工校验与标注后的数据作为标注数据,即标准数据集。
进一步的,构建输入数据单元中,针对标准数据集进行分类构建输入;使用预训练的字向量库获取到输入语料字符级语义序列向量;针对输入序列中的标点符号根据在序列中的位置获取出标点符号one_hot编码,从而构建出基于位置的标点符号序列向量;根据预标注信息对输入数据对应位置上的实体类别标签进行类别信息编码并构建为融合实体类别信息与位置信息的序列向量;将三个序列向量进行拼接构建成一个序列向量作为模型的输入数据。
进一步的,模型训练单元中,将训练数据输入模型,通过模型计算得到输出,该输出为序列向量;设定一个超参数阈值0.5,对模型输出数据中大于0.5的索引位置数值进行向上取整,其他数据向下取整,从而形成新的输出序列向量;对比标准数据的序列标记向量,使用二分类交叉熵损失函数binary_crossentropy对预测值与标签进行loss构建;使用adam优化函数进行优化。
进一步的,超参数调整单元,整个模型的超参数:transformer层的隐藏神经元个数h1,两个dropout层的随机删除率deal1和deal2,bilstm层的影藏神经元个数h2,截取输出阈值s1;针对模型训练过程中loss下降情况以及测试集中f1综合调整超参数到最优参数。
其中,预标注部分迭代流程:数据预标注过程是整个系统的一部分,但是又完全可以独立出来成为一个子系统。首先进行数据清洗,将清洗之后的数据进行基于规则的预标注,将结果返回给标注算法进行二次标注并生成预标注数据集,再将结果返回给标注人员进行校正与标注从而生成标准数据集。根据对比分析预标注数据集与标准数据集的差异,修正规则与算法,提升预标注精度。具体的流程图如图1所示。
模型部分迭代流程:获取线上预测数据,通过人工进行核对校验补充进标准数据集,将原始数据送入预标注系统补充预标注数据集,累计到一定规模之后重新训练模型迭代模型,如图2所示。
实施例二:
一种针对电子病历命名实体识别方法,包括以下步骤:
1、数据清洗
对原始的数据进行数据清洗,主要是将标点符号、英文等进行规范统一。
2、规则预标注
针对电子病历中的时间点和时间段的描述进行正则提取,编写正则库,针对不同规律的时间表述进行分类,将提取之后的实体进行预标注。
3、算法预标注
4、使用规范的药品库、疾病库、手术库、症状库等规范名称构建相对应的实体字典,这部分字典作为需要迭代更新的专有实体名称,字典中的名称需要剔除字符长度小于2的词。使用北京大学分词包pkuseg,设定分词模型为medicine。对原始语句进行分词,使用标点符号进行识别出子序列;针对子序列采用由长到短的递归合并方式字典查询;如果某几个子词的合并能够在标准词典中找到,则直接对这个子串进行实体标注并使用特殊的占位字符进行占位;其他子序列中的词继续执行递归合并方式字典查询直到所有的子序列都查询完毕。
5、人工校验与标注
标注人员针对已经预标注完成的数据进行人工核对,针对其中标注错误的地方进行修正,针对预标注没有标注到的地方进行标注。将所有的修正与标注操作记录下来构建日志,为后续的统计分析这部分操作积累数据,为迭代预标注的规则库以及算法提供决策指导。将人工校验与标注后的数据作为标注数据。
6、构建输入数据
针对已经预标注的数据进行分类构建输入。使用预训练的字向量获取到输入语料字符对应的序列向量;针对输入序列中的标点符号根据在序列中的位置获取出标点符号one_hot编码,从而构建出基于位置的标点符号序列向量;根据预标注的信息将输入对应位置上的实体类别标签进行类别信息编码构建成为根据位置信息的预标注类别序列向量。将三个序列向量进行拼接构建成一个序列向量作为模型的输入数据。
7、模型搭建
第一层采用transformer特征提取的方式提取输入数据的特征信息,第二层采用随机删除dropout的方式进行输出,第三层使用,采用批量归一化Batch Normalization的方式进行防止梯度爆炸,第四层采用bilstm对特征进行二次提取,第五层采用dropout的方式进行防止过拟合,第六层采用前馈神经网络将上一层的结果进行压缩到标签类别数并使用sigmoid函数进行激活。
8、模型训练
将训练数据输入模型,通过模型计算得到了输出,该输出为序列向量。设定一个超参数阈值0.5,将模型输出的数据中大于0.5索引位置的数据构建成1,其他数据构建成0,从而形成新的输出序列向量。对比标准数据的序列标记向量,使用二分类交叉熵损失函数binary_crossentropy对预测值与标签进行loss构建。使用adam优化函数进行优化。
9、超参调整
整个模型的超参数:transformer层的隐藏神经元个数h1,两个dropout层的随机删除率deal1和deal2,bilstm层的影藏神经元个数h2,截取输出阈值s1。针对模型训练过程中loss下降情况以及测试集中f1综合调整超参到最优参数。
10、模型生成
模型超参调整完毕之后保存模型结构,保存模型权重,并定义版本号。
综上,提供完整的电子病历命名实体识别框架,将各个环节进一步细分出预标注部分与模型迭代部分。预标注部分完全可以独立成为一个子系统,提供粗糙的实体标注,在精度要求不高的情况下甚至能够当做实体识别结果。预标注引入先验知识为后续模型训练提供更丰富的特征。对输入数据的深度挖掘,提出根据位置编码独立性的标点符号one_hot序列向量,根据先验知识引入实体类别标签序列向量,丰富输入数据的特征以提升实体识别的精度。使用多标签分类方式,使得实体识别能够适应嵌套实体的场景。利用整个框架的分块迭代循环过程,使得整个框架耦合性与独立性都适用于工业开发场景,形成封闭的良性循环,便于迭代更新。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (9)
1.一种针对电子病历命名实体识别系统,其特征在于,包括:
数据清洗单元,对电子病历的原始数据进行数据清洗,得到规范原始数据;
规则预标注单元,通过标注规则对规范原始数据进行规则预标注,得到规则预标注数据;
算法预标注单元,通过标注算法对规则预标注数据进行算法预标注,得到预标注数据集;
人工检验与标注单元,标注人员对预标注数据集进行校正与标注从而生成标准数据集;
构建输入数据单元,针对标准数据集进行分类构建输入,得到输入数据;
模型搭建单元,搭建电子病历命名实体识别模型,即,第一层采用transformer特征提取的方式提取输入数据的特征信息,第二层采用随机删除dropout的方式进行输出,第三层采用批量归一化Batch Normalization的方式进行防止梯度爆炸,第四层采用bilstm对特征进行二次提取,第五层采用随机删除dropout的方式进行防止过拟合,第六层采用前馈神经网络将上一层的结果进行压缩到标签类别数并使用sigmoid函数进行激活;
模型训练单元,将输入数据输入到电子病历命名实体识别模型进行训练;
超参数调整单元,通过训练过程中loss下降情况以及测试集中f1综合调整超参数到最优参数;
模型生成单元,超参数调整完毕之后保存模型结构,保存模型权重,即得到最终的电子病历命名实体识别模型。
2.如权利要求1所述的一种针对电子病历命名实体识别系统,其特征在于,数据清洗单元中数据清洗是指将中文、标点符号、英文进行规范统一。
3.如权利要求1所述的一种针对电子病历命名实体识别系统,其特征在于,规则预标注单元中,针对规范原始数据中的时间点和时间段的描述进行正则提取,编写正则库,针对不同规律的时间表述进行分类,将提取之后的实体进行预标注。
4.如权利要求1所述的一种针对电子病历命名实体识别系统,其特征在于,算法预标注单元中,使用规范的药品库、疾病库、手术库、症状库规范名称构建相对应的实体字典,字典作为需要迭代更新的专有实体名称,字典中的名称剔除字符长度小于2的词,使用北京大学分词包pkuseg,设定分词模型为medicine;对原始语句进行分词,使用标点符号进行识别出子序列;针对子序列采用由长到短的递归合并方式字典查询;如果某几个子词的合并能够在标准词典中找到,则直接对这个子串进行实体标注并使用特殊的占位字符进行占位;其他子序列中的词继续执行递归合并方式字典查询直到所有的子序列都查询完毕。
5.如权利要求1所述的一种针对电子病历命名实体识别系统,其特征在于,人工检验与标注单元中,标注人员针对预标注数据集进行人工核对,针对其中标注错误的地方进行修正,针对预标注没有标注到的地方进行标注;将所有的修正与标注操作记录下来构建日志,为后续的统计分析这部分操作积累数据,为迭代预标注的规则库以及算法提供决策指导;将人工校验与标注后的数据作为标注数据,即标准数据集。
6.如权利要求1所述的一种针对电子病历命名实体识别系统,其特征在于,构建输入数据单元中,针对标准数据集进行分类构建输入;使用预训练的字向量库获取到输入语料字符级语义序列向量;针对输入序列中的标点符号根据在序列中的位置获取出标点符号one_hot编码,从而构建出基于位置的标点符号序列向量;根据预标注信息对输入数据对应位置上的实体类别标签进行类别信息编码并构建为融合实体类别信息与位置信息的序列向量;将三个序列向量进行拼接构建成一个序列向量作为模型的输入数据。
7.如权利要求1所述的一种针对电子病历命名实体识别系统,其特征在于,模型训练单元中,将训练数据输入模型,通过模型计算得到输出,该输出为序列向量;设定一个超参数阈值0.5,对模型输出数据中大于0.5的索引位置数值进行向上取整,其他数据向下取整,从而形成新的输出序列向量;对比标准数据的序列标记向量,使用二分类交叉熵损失函数binary_crossentropy对预测值与标签进行loss构建;使用adam优化函数进行优化。
8.如权利要求1所述的一种针对电子病历命名实体识别系统,其特征在于,超参数调整单元,整个模型的超参数:transformer层的隐藏神经元个数h1,两个dropout层的随机删除率deal1和deal2,bilstm层的影藏神经元个数h2,截取输出阈值s1;针对模型训练过程中loss下降情况以及测试集中f1综合调整超参数到最优参数。
9.一种针对电子病历命名实体识别方法,其特征在于,包括以下步骤:
步骤S1,对电子病历的原始数据进行数据清洗,得到规范原始数据;
步骤S2,通过标注规则对规范原始数据进行规则预标注,得到规则预标注数据;
步骤S3,通过标注算法对规则预标注数据进行算法预标注,得到预标注数据集;
步骤S4,标注人员对预标注数据集进行校正与标注从而生成标准数据集;
步骤S5,针对标准数据集进行分类构建输入,得到输入数据;
步骤S6,搭建电子病历命名实体识别模型,即,第一层采用transformer特征提取的方式提取输入数据的特征信息,第二层采用随机删除dropout的方式进行输出,第三层采用批量归一化Batch Normalization的方式进行防止梯度爆炸,第四层采用bilstm对特征进行二次提取,第五层采用随机删除dropout的方式进行防止过拟合,第六层采用前馈神经网络将上一层的结果进行压缩到标签类别数并使用sigmoid函数进行激活;
步骤S7,将输入数据输入到电子病历命名实体识别模型进行训练;
步骤S8,通过训练过程中loss下降情况以及测试集中f1综合调整超参数到最优参数;
步骤S9,超参数调整完毕之后保存模型结构,保存模型权重,即得到最终的电子病历命名实体识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110169271.XA CN112802570A (zh) | 2021-02-07 | 2021-02-07 | 一种针对电子病历命名实体识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110169271.XA CN112802570A (zh) | 2021-02-07 | 2021-02-07 | 一种针对电子病历命名实体识别系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112802570A true CN112802570A (zh) | 2021-05-14 |
Family
ID=75814752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110169271.XA Pending CN112802570A (zh) | 2021-02-07 | 2021-02-07 | 一种针对电子病历命名实体识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112802570A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822026A (zh) * | 2021-09-10 | 2021-12-21 | 神思电子技术股份有限公司 | 一种多标签实体标注方法 |
CN114398492A (zh) * | 2021-12-24 | 2022-04-26 | 森纵艾数(北京)科技有限公司 | 一种在数字领域的知识图谱构建方法、终端及介质 |
CN117438025A (zh) * | 2023-12-19 | 2024-01-23 | 南京江北新区生物医药公共服务平台有限公司 | 一种基于深度学习的单病种电子病历数据库构建方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN110263324A (zh) * | 2019-05-16 | 2019-09-20 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN111312354A (zh) * | 2020-02-10 | 2020-06-19 | 东华大学 | 基于多智能体强化学习的乳腺病历实体识别标注增强系统 |
CN111368993A (zh) * | 2020-02-12 | 2020-07-03 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN111651991A (zh) * | 2020-04-15 | 2020-09-11 | 天津科技大学 | 一种利用多模型融合策略的医疗命名实体识别方法 |
CN111738004A (zh) * | 2020-06-16 | 2020-10-02 | 中国科学院计算技术研究所 | 一种命名实体识别模型的训练方法及命名实体识别的方法 |
CN111767723A (zh) * | 2020-05-14 | 2020-10-13 | 上海大学 | 一种基于bic的中文电子病历实体标注方法 |
CN112115721A (zh) * | 2020-09-28 | 2020-12-22 | 青岛海信网络科技股份有限公司 | 一种命名实体识别方法及装置 |
-
2021
- 2021-02-07 CN CN202110169271.XA patent/CN112802570A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN110263324A (zh) * | 2019-05-16 | 2019-09-20 | 华为技术有限公司 | 文本处理方法、模型训练方法和装置 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN111312354A (zh) * | 2020-02-10 | 2020-06-19 | 东华大学 | 基于多智能体强化学习的乳腺病历实体识别标注增强系统 |
CN111368993A (zh) * | 2020-02-12 | 2020-07-03 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN111651991A (zh) * | 2020-04-15 | 2020-09-11 | 天津科技大学 | 一种利用多模型融合策略的医疗命名实体识别方法 |
CN111767723A (zh) * | 2020-05-14 | 2020-10-13 | 上海大学 | 一种基于bic的中文电子病历实体标注方法 |
CN111738004A (zh) * | 2020-06-16 | 2020-10-02 | 中国科学院计算技术研究所 | 一种命名实体识别模型的训练方法及命名实体识别的方法 |
CN112115721A (zh) * | 2020-09-28 | 2020-12-22 | 青岛海信网络科技股份有限公司 | 一种命名实体识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
吴超 等: "基于GRU的电力调度领域命名实体识别方法", 《计算机系统应用》, no. 8, pages 185 - 191 * |
吴超;王汉军;: "基于GRU的电力调度领域命名实体识别方法", 计算机系统应用, no. 08 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822026A (zh) * | 2021-09-10 | 2021-12-21 | 神思电子技术股份有限公司 | 一种多标签实体标注方法 |
CN113822026B (zh) * | 2021-09-10 | 2022-07-08 | 神思电子技术股份有限公司 | 一种多标签实体标注方法 |
CN114398492A (zh) * | 2021-12-24 | 2022-04-26 | 森纵艾数(北京)科技有限公司 | 一种在数字领域的知识图谱构建方法、终端及介质 |
CN114398492B (zh) * | 2021-12-24 | 2022-08-30 | 森纵艾数(北京)科技有限公司 | 一种在数字领域的知识图谱构建方法、终端及介质 |
CN117438025A (zh) * | 2023-12-19 | 2024-01-23 | 南京江北新区生物医药公共服务平台有限公司 | 一种基于深度学习的单病种电子病历数据库构建方法 |
CN117438025B (zh) * | 2023-12-19 | 2024-03-22 | 南京江北新区生物医药公共服务平台有限公司 | 一种基于深度学习的单病种电子病历数据库构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN113177124B (zh) | 一种垂直领域知识图谱构建方法及系统 | |
CN109684642B (zh) | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 | |
CN112732934B (zh) | 电网设备分词词典和故障案例库构建方法 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN112802570A (zh) | 一种针对电子病历命名实体识别系统及方法 | |
CN111860257A (zh) | 融合多种文本特征及几何信息的表格识别方法及系统 | |
CN113609859A (zh) | 一种基于预训练模型的特种设备中文命名实体识别方法 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN114358007A (zh) | 多标签识别方法、装置、电子设备及存储介质 | |
CN110991185A (zh) | 一种文章中实体的属性抽取方法及装置 | |
CN115510242A (zh) | 一种中医文本实体关系联合抽取方法 | |
CN116245107B (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN115510864A (zh) | 一种融合领域词典的中文农作物病虫害命名实体识别方法 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN114491024A (zh) | 一种基于小样本的特定领域多标签文本分类方法 | |
CN113160917A (zh) | 一种电子病历实体关系抽取方法 | |
Ahmad et al. | Machine and Deep Learning Methods with Manual and Automatic Labelling for News Classification in Bangla Language | |
CN115757325B (zh) | 一种xes日志智能转换方法及系统 | |
CN117390131A (zh) | 一种用于多领域的文本情感分类方法 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |