CN113688248B - 一种小样本弱标注条件下的医疗事件识别方法及系统 - Google Patents
一种小样本弱标注条件下的医疗事件识别方法及系统 Download PDFInfo
- Publication number
- CN113688248B CN113688248B CN202111247796.7A CN202111247796A CN113688248B CN 113688248 B CN113688248 B CN 113688248B CN 202111247796 A CN202111247796 A CN 202111247796A CN 113688248 B CN113688248 B CN 113688248B
- Authority
- CN
- China
- Prior art keywords
- medical
- event
- sample
- events
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种小样本弱标注条件下的医疗事件识别方法及系统,本发明构建了医疗事件库,利用远程监督方法实现了在小样本弱标注条件下对医疗要素的自动标注;从多个维度构建医疗要素和事件元学习模型,解决小样本弱标注条件下,医疗事件识别模型泛化性差、标注数据不足的问题;利用医疗要素和事件元学习模型进行负采样,将未标注医疗要素控制在一个较低的范围,降低远程监督方法引起的漏标问题,提升医疗要素识别模型性能;基于医疗事件库和专家知识计算医疗要素重要度,利用医疗要素重要度与医疗要素和事件元学习模型对医疗事件进行分类识别,解决了医疗事件触发词难以定义的问题。
Description
技术领域
本发明属于医疗信息技术领域,尤其涉及一种小样本弱标注条件下的医疗事件识别方法及系统。
背景技术
随着医院电子化进程的发展,大量医学知识以电子病历的形式存储于各类医疗信息系统中。这些数据通过医生的临床实践积累而产生,含有丰富的临床经验知识。从中自动化地识别出这些医学知识,对医疗健康服务智能化具有重要意义。医疗事件识别旨在从电子病历文本中识别医疗事件并结构化表示,包括医疗事件类别、参与的医疗要素及其对应的类别等。事件识别得到的信息可以深层次地描述复杂且多样化的医学知识。
近年来,事件识别的方法主要分为基于规则的方法和基于深度学习的方法。基于规则的方法,人为或半自动地定义好事件识别模版,将文本与规则进行匹配识别事件。随着深度学习技术的发展,卷积神经网络、循环神经网络、注意力网络等深度学习模型在医疗事件识别中的应用逐渐增多。深度学习事件识别模型一般通过识别事件触发词识别对应的事件,再从对应的事件中识别相关的事件要素。
在小样本弱标注条件下,远程监督方法利用知识库对数据进行自动标注,可以实现训练样本的快速扩充,被广泛应用在关系识别任务中。同时元学习方法从建模的角度,让模型利用先验知识,学会学习任务的过程,来提高模型在小样本弱标注条件下的识别性能。
现在医疗事件识别面临的主要问题是小样本弱标注,现有的方法都未能很好地解决这个问题。一方面基于规则的方法需要人为地定义事件识别规则。医疗事件识别的规则体系难以构建,基于规则的方法泛化性差,可以覆盖的事件情况较少。同时由于不同医院的电子病历格式差异大,并且定义规则的过程较为主观,不同的专家会制定出不同的规则,难以制定统一的医疗事件规则体系。
另一方面基于深度学习的方法一般需要大量的标注语料,目前医疗领域公开的事件数据集较少,需要有医学背景知识的人员对大量文本进行标注,并在标注过程中对事件进行一致性校验等,需要的人力成本较大。对于深度学习方法,目前的事件识别通常通过判断触发词的方式来进行事件识别,但医疗领域中的各类事件较为复杂,难以用一个触发词代表一种医疗事件,通过判断触发词的方式不能有效地识别医疗事件。
发明内容
本发明的目的在于针对目前医疗事件识别方法的不足,提出一种小样本弱标注条件下,融合远程监督方法和元学习的医疗事件识别方法及系统。
本发明主要通过以下两种途径解决小样本弱标注问题:一方面本发明利用远程监督方法,通过构建医疗事件库实现对中文电子病历文本的自动标注,在样本量较少的情况下,有效地扩充样本数据和提升模型对小样本识别的泛化性;另一方面本发明利用少样本学习领域中的元学习方法识别医疗要素和事件。在充分利用先验知识的情况下,有效解决医疗事件识别方法泛化性差、规则难以统一、需要大量人力成本的问题,提高了医疗事件识别结果的准确性,同时提出的事件识别方法具有良好的可扩展性,利于海量电子病历文本的大规模抽取。对于医疗事件识别,考虑到医疗领域事件较为复杂,其触发词难以定义,本发明优先识别医疗要素,利用医疗要素识别医疗事件。
本发明的目的是通过以下技术方案来实现的:
本发明一方面公开了一种小样本弱标注条件下的医疗事件识别方法,该方法包括:
步骤一,医疗事件库构建和数据标注:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
步骤二,医疗要素和事件元学习,包括以下子步骤:
2.1选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;
2.2基于训练-支持集,构建对应事件和要素的原型表示;
2.3根据要素和事件的原型表示,计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;
2.4将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;
步骤三,医疗要素识别,包括以下子步骤:
3.1训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;
3.2对远程监督方法标注得到的医疗要素片段,基于获得的字符级语义向量表示,计算医疗要素片段的特征表示;
3.3根据医疗要素片段的特征表示,利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重;
3.4基于医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;
步骤四,医疗事件识别,包括以下子步骤:
4.1基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;
4.2基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,结合医疗要素重要度分数,获得各类医疗事件的概率分布;
4.3利用医疗要素和事件元学习模型,计算中文电子病历文本和各类医疗事件的距离相似度分数,与步骤4.2中各类医疗事件的概率分布结合,计算得到对应的医疗事件类别。
进一步地,所述步骤一中,所述医疗事件库的数据来自小样本医疗要素和事件数据集和外部医学资源;所述医疗事件类别包括:个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。
进一步地,所述步骤一中,首先构建医疗要素库,构建过程如下:
a)将小样本医疗要素和事件数据集中出现两次以上的医疗要素按照对应的医疗要素类别,加入到对应类别的医疗要素库;
b)筛选和处理部分公开的高质量外部医学资源,加入到对应的医疗要素库中;
然后构建医疗事件库:对小样本医疗要素和事件数据集中标注的小样本医疗事件及医疗要素类别进行统计,对于每一个标注的事件和要素,建立对应关系,并进行存储记录。
进一步地,所述步骤一中,利用远程监督方法标注医疗要素,具体为:
c)统计医疗要素库中医疗要素的最大片段长度,在利用远程监督方法进行标注
时规定片段的最大长度为,采用片段标注的方式对匹配得到的医疗要素片段文本进行标
注,其他未匹配为医疗要素的文本片段标注为负样本;将标注得到的样本记为,其中
样本片段分别表示样本片段在文本中的起始位置和结束位置,为样
本对应的类别。
进一步地,所述步骤2.2中,基于训练-支持集,构建对应事件和要素的原型表示,具体为:将各个类别样本的语义向量投影到高维度的特征空间中,将各样本的特征按维度进行加和求平均,作为类别的原型表示。
进一步地,所述步骤三中,利用远程监督方法标注的医疗要素,训练医疗要素识别模型,具体为:
进一步地,所述步骤三中,设所有样本集合为,设医疗要素识别模型在
训练过程中预测的所有非医疗要素片段数量为,随机采样个样本,构成负采样样本集合,其中;将负采样样本集合送入医疗要素和事件元学习模型,得
到负采样样本属于各类别医疗要素的概率,将该概率值作为权重:
进一步地,将医疗要素作为医疗事件的基本维度,多位专家同时对医疗要素打分,
设专家对于医疗事件类别中的医疗要素类别打分为,规定分数为整数且同一专家对各个医疗要素的打分必须不
同,分数的取值范围为,其中为医疗事件类别中医疗要素类别总数,计算最
终的医疗事件类别中医疗要素类别的归一化专家得分:
设输入的中文电子病历文本记为,是输入的文本长度,通过医疗
要素识别模型预测得到的医疗要素记为,为文本中医疗要素数量,设共有医
疗事件类别Η个;结合医疗要素重要度分数计算文本属于医疗事件类别的概率分
布:
本发明另一方面公开了一种小样本弱标注条件下的医疗事件识别系统,该系统包括:
医疗事件库构建和数据标注模块:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
医疗要素和事件元学习模块:选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;基于训练-支持集构建对应事件和要素的原型表示;计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;
医疗要素识别模块:训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;对远程监督方法标注得到的医疗要素片段,计算医疗要素片段的特征表示;利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;
医疗事件识别模块:基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,获得各类医疗事件概率分布;利用医疗要素和事件元学习模型计算中文电子病历文本和各类医疗事件的距离相似度分数,与各类医疗事件概率分布结合,得到对应的医疗事件类别。
本发明的有益效果如下:
1. 构建了医疗事件库,利用远程监督方法,实现了在小样本弱标注条件下对医疗要素的自动标注;
2. 从多个维度构建医疗要素和事件元学习模型,解决小样本弱标注条件下,医疗事件识别模型泛化性差、标注数据不足的问题;
3. 利用医疗要素和事件元学习模型进行负采样,将未标注医疗要素控制在一个较低的范围,降低远程监督方法引起的漏标问题,提升医疗要素识别模型性能;
4. 基于医疗事件库和专家知识计算医疗要素重要度,利用医疗要素重要度与医疗要素和事件元学习模型对医疗事件进行分类识别,解决了医疗事件触发词难以定义的问题。
附图说明
图1为本发明实施例提供的一种小样本弱标注条件下的医疗事件识别方法流程图;
图2为本发明实施例提供的医疗要素和事件元学习实现框图;
图3为本发明实施例提供的医疗要素识别实现框图;
图4为本发明实施例提供的医疗事件识别实现框图;
图5为本发明实施例提供的一种小样本弱标注条件下的医疗事件识别系统结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明中,医疗事件指:在中文电子病历文本中,对治疗过程有重要影响的一系列医学状态变化的集合。一个医疗事件包括医疗事件类别、医疗要素和医疗要素类别。例如对于文本“腹痛3月余,加重10天”,其为描述患者症状变化的事件,医疗事件类别为症状,医疗要素为 “腹痛”(医疗要素类别:症状)、“3月余”(医疗要素类别:时间)、“加重10天”(医疗要素类别:趋势)。
小样本弱标注条件指:模型学习时只有少量有限的标注数据和大量的未标注数据,且标注数据不完整、存在噪声的情况。
元学习指:希望使得模型获取一种学会学习新任务的能力,使其可以在获取先验
知识的基础上快速学习新的任务。元学习首先构建多轮的训练任务,然后在每轮训练任务
中构建任务对应的数据进行训练。元学习以找到函数为目标,可以输出函数,函数可
以很好地学习新任务。
片段标注指:对文本中所有可能的文本片段进行排列,将在对应医疗事件库中的片段标注为对应类别,其他片段标注为负样本。
未标注医疗要素指:远程监督标注时,由于医疗事件库不可能覆盖所有的医疗要素,标注结果会漏掉不在医疗事件库中的医疗要素,这些未被医疗事件库覆盖的医疗要素称为未标注医疗要素。
如图1所示,本实施例提供的一种小样本弱标注条件下的医疗事件识别方法,步骤如下:
步骤一,医疗事件库构建和数据标注:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;医疗事件库的数据来自小样本医疗要素和事件数据集、外部医学资源等;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
(1)医疗事件库构建
(1.1)医疗事件及对应医疗要素的定义:根据大量中文电子病历文本的特点,在专业医生的指导下,初步定义九种通用的医疗事件类别:个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。并对每种事件定义了对应的医疗要素,如个人基本信息事件中,定义性别、年龄、身高、体重、婚姻状况、吸烟史、饮酒史作为事件的要素。症状事件中,定义症状、时间、频次、趋势、复发情况、诱因作为事件要素。又如在既往疾病事件中,定义疾病、时间、治疗方法作为事件要素。医疗事件及要素的具体定义如下表:
(1.2)医疗要素库构建:考虑到小样本弱标注条件下只有少量标注的医疗事件和要素,本发明引入公开的高质量医学语料来构建医疗要素库。医疗要素库主要包含七类医疗要素,分别为:疾病、药物、症状、手术、诱因、治疗、诊断。医疗要素库的具体构建过程如下:
a)将小样本医疗要素和事件数据集中出现2次以上的医疗要素按照对应的医疗要素类别,加入到对应类别的医疗要素库。
b)由于上述方法只能得到很少的医疗要素,本发明筛选和处理部分目前公开的高质量外部医学资源,加入到对应的医疗要素库中。通过爬取医学资源并对信息进行识别和整理得到医疗要素库。
c)对于不属于上述七种类别的医疗要素,如:时间、性别、年龄、身高、体重、频次、趋势、吸烟史、饮酒史等,本发明使用基于规则的方式进行标注和提取,不使用匹配到医疗要素库的方法标注。
(1.3)医疗事件库构建:对小样本医疗要素和事件数据集中标注的小样本医疗事件及医疗要素类别进行统计,对于每一个标注的事件和要素,建立对应关系,并进行存储记录。
例如对于小样本医疗要素和事件数据集中的家族疾病事件:“家族中无类似患者。父亲已故,死因:自然死亡。母亲肝硬化 5年。兄弟姐妹健康状况:7兄弟姐妹;1姐姐1弟弟肝癌去世,1姐姐脑溢血。”,建立对应的医疗事件库进行统计,如下表:
(2)利用远程监督方法标注医疗要素
基于启发式假设,如果医疗要素片段在医疗要素库中被标注为某种类别的医疗要素,则在未标注的中文电子病历文本中的该要素片段都被标注为对应类别的医疗要素。具体的自动标注步骤如下:
c)统计医疗要素库中医疗要素的最大片段长度,在利用远程监督方法进行标注
时规定片段的最大长度为。采用片段标注的方式对匹配得到的医疗要素片段文本进行标
注,其他未匹配为医疗要素的文本片段标注为负样本。将标注得到的样本记为,其中
样本片段分别表示样本片段在文本中的起始位置和结束位置,为样
本对应的类别。
例如:对于文本“突发上腹部疼痛3月,伴进食后呕吐。”匹配得到症状片段集合{“上腹部疼痛”,“疼痛”,“呕吐”},诱因片段集合{“进食后”},时间片段集合{“3月”}。本发明将“上腹部疼痛”、“疼痛”标注为症状,“进食后”标注为诱因,“呕吐”标注为症状,“3月”标注为时间等。其他未匹配到的片段如:“突”标注为负样本,“发上”标注为负样本。
步骤二,医疗要素和事件元学习,用于提高医疗要素识别模型和医疗事件识别模型在小样本弱标注条件下的学习能力,主要包括四个步骤:
2.1选择并采样各领域(不限于医疗领域,因为医疗领域事件识别数据有限)高质量公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;
2.2基于训练-支持集,构建对应事件和要素的原型表示,具体为:将各个类别样本的语义向量投影到高维度的特征空间中,将各样本的特征按维度进行加和求平均,作为类别的原型表示;
2.3根据要素和事件的原型表示,计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;
2.4将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型,如图2所示。
具体实现细节如下:
a)小样本弱标注条件下,直接使用小样本医疗要素和事件数据集训练医疗事件识别模型,会因为标注数据过少导致严重的过拟合。元学习方法利用其他领域的大量标注语料,构建多轮只含有小样本数据的训练任务,训练得到在小样本数据上具备快速学习新任务能力的模型。
b)采样小样本医疗要素和事件数据集中的样本作为测试集记为,假设中
医疗要素和事件共有N类,每个类别下含有T个样本。将样本按照3:2进一步划分为支持集和查询集,假设中每个类别下含有K个样本,构建得到
一个的元学习任务。因为医疗要素和事件标注语料较少,本发明获取各
领域高质量公开的中文事件和要素标注语料作为训练集记为,中事件和要素类
别与医疗事件和要素类别不同,利用训练的元学习模型。根据测试
集样本构造过程,从训练集中采样M次,每次采样N个类别的样本,每类样本采样K个样
本作为支持集,采样与中相同的类别样本数作为查询集。利用和进行M次的元学习模型训练,使得元学习模型
具备在条件下快速学习医疗要素和事件识别任务的能力。将得到的元学
习模型继续在医疗要素和事件样本支持集上训练,得到医疗要素和事件元学
习模型。
c)要素和事件元学习模型由序列编码器模型和分类模型组成,其中序列编码器模
型优选为双向自注意力语言模型(BERT)。序列编码器模型将输入的文本编
码为语义向量,其中为输入的文本长度,为第个字符,然后使用函数
计算要素和事件的特征,假设要素或事件样本为,为样本长
度,则其特征表示为:
Bregman散度可选为欧式距离,即:
上述过程共进行M次,训练得到预训练的医疗要素和事件元学习模型。
步骤三,医疗要素识别:基于序列编码器模型和负采样方法,对医疗要素进行分类识别,主要包括四个步骤:
3.1训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示,序列编码器模型优选为双向自注意力语言模型(BERT);
3.2对远程监督方法标注得到的医疗要素片段,基于获得的字符级语义向量表示,计算医疗要素片段的特征表示;
3.3根据医疗要素片段的特征表示,利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重;
3.4基于医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数,如图3所示。
具体实现细节如下:
a) 利用远程监督方法标注的医疗要素,训练医疗要素识别模型
使用双向自注意力语言模型得到文本的字符级语义向量表示,双向自注意力语言模型在训练时同时利用文本正向和反向的上下文信息进行训练,可以很好地表示文本的语义向量。双向自注意力语言模型中网络的输入来源于上一层网络自注意力机制的输出。
b)基于医疗要素和事件元学习模型进行负采样降低未标注医疗要素片段的影响
考虑到使用远程监督方法标注数据时,构建的医疗事件库和使用的规则只能覆盖有限的医疗要素片段,不能涵盖所有的医疗要素,存在真实的医疗要素片段被标注为负样本的情况,这些未被标注为医疗要素的片段会对医疗要素识别模型的结果产生较大的影响。本发明在训练时对医疗要素识别模型在训练过程中预测的所有非医疗要素片段进行负采样,同时利用医疗要素和事件元学习模型得到采样样本的类别权重,从而提高医疗要素识别模型在小样本弱标注条件下的泛化性。
设所有样本集合为,设医疗要素识别模型在训练过程中预测的所有非
医疗要素片段数量为,随机采样个样本,构成负采样样本集合,其中。将负采样样本集合送入医疗要素和事件元学习模型,得到负采样样本属于各
类别医疗要素的概率,将该概率值作为权重:
使用此损失函数经过梯度反向传播更新医疗要素识别模型参数。
步骤四,医疗事件识别:基于医疗要素重要度和医疗事件的距离相似度分数,对医疗事件进行分类识别,主要包括三个步骤:
4.1基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合多位专家对于医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;
4.2基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,结合医疗要素重要度分数,获得各类医疗事件的概率分布;
4.3利用医疗要素和事件元学习模型,计算中文电子病历文本和各类医疗事件的距离相似度分数,与步骤4.2中各类医疗事件的概率分布结合,计算得到对应的医疗事件类别,如图4所示。
具体实现细节如下:
考虑到医疗事件文本语义复杂、形式难以统一、医疗事件触发词难以定义的问题,本发明基于医疗要素识别医疗事件。同时,为了提高小样本弱标注条件下模型的泛化性和准确性,使用医疗要素和事件元学习模型从中文电子病历文本和各类医疗事件的距离相似度分数的角度建模识别医疗事件。
a)利用医疗事件库和专家打分情况计算医疗要素重要度分数,在同一医疗事件中不同的医疗要素的重要程度不同,例如对于症状事件,相比于时间、频次等医疗要素,症状是关键要素,同时一个医疗事件的描述文本中通常不能涵盖所有定义的医疗要素。利用医疗要素识别医疗事件时,基于构建好的医疗事件库和专家打分情况计算每类医疗事件中不同医疗要素的重要度分数,再结合医疗要素识别模型输出的医疗要素片段识别医疗事件。
计算医疗要素与医疗事件的相关性分数,用来区分不同医疗要素类别与医疗事件相关性,若同一类别医疗要素在很多医疗事件类别中出现,则认为该类医疗要素与各类医疗事件相关性较差:
c)在医学专家的指导下,制定具体的规则对医疗要素的重要度分数进行进一步计
算。将医疗要素作为医疗事件的基本维度,多位专家同时对医疗要素打分,将专家数记为。
设专家对于医疗事件类别中的医疗要素类别打分为,规定分数为整数且同一专家对各个医疗要素的打分必须不
同,分数的取值范围为,其中为医疗事件类别中医疗要素类别总数。计算最
终的医疗事件类别中医疗要素类别的归一化专家得分:
例如对于用药事件,以三位专家参与打分为例,三位专家分别对医疗要素打分如下:
d)设输入的中文电子病历文本记为,是输入的文本长度,通过医
疗要素识别模型预测得到的医疗要素记为,为文本中医疗要素数量,设共有
医疗事件类别Η个。结合医疗要素重要度分数,计算文本属于医疗事件类别的概
率分布:
本发明另一方面公开了一种小样本弱标注条件下的医疗事件识别系统,如图5所示,该系统包括以下模块:
医疗事件库构建和数据标注模块:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;该模块的实现可以参考上述步骤一。
医疗要素和事件元学习模块:选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;基于训练-支持集构建对应事件和要素的原型表示;计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;该模块的实现可以参考上述步骤二。
医疗要素识别模块:训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;对远程监督方法标注得到的医疗要素片段,计算医疗要素片段的特征表示;利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;该模块的实现可以参考上述步骤三。
医疗事件识别模块:基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,获得各类医疗事件概率分布;利用医疗要素和事件元学习模型计算中文电子病历文本和各类医疗事件的距离相似度分数,与各类医疗事件概率分布结合,得到对应的医疗事件类别;该模块的实现可以参考上述步骤四。
此外,还系统还包括识别结果展示模块,用于呈现医疗事件类别。
本发明在小样本弱标注条件下,实现大规模中文电子病历文本中医疗事件和要素的自动识别,解决了传统事件识别方法及系统泛化性差、规则难以统一、需要大量人力成本的问题。解决了医疗事件触发词难以定义的问题,可以有效识别医疗事件。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (9)
1.一种小样本弱标注条件下的医疗事件识别方法,其特征在于,该方法包括:
步骤一,医疗事件库构建和数据标注:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
步骤二,医疗要素和事件元学习,包括以下子步骤:
2.1选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;
2.2基于训练-支持集,构建对应事件和要素的原型表示;
2.3根据要素和事件的原型表示,计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;
2.4将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;
步骤三,医疗要素识别,包括以下子步骤:
3.1训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;输入的中文电子病历文本记为,是输入的文本长度;通过远程监督方法标注得到的样本记为,其中样本片段,分别表示样本片段在文本中的起始位置和结束位置,为样本对应的类别;
3.3根据医疗要素片段的特征表示,利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重;
3.4基于医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;
步骤四,医疗事件识别,包括以下子步骤:
4.1基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;
4.2基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,结合医疗要素重要度分数,获得各类医疗事件的概率分布;
4.3利用医疗要素和事件元学习模型,计算中文电子病历文本和各类医疗事件的距离相似度分数,与步骤4.2中各类医疗事件的概率分布结合,计算得到对应的医疗事件类别。
2.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤一中,所述医疗事件库的数据来自小样本医疗要素和事件数据集和外部医学资源;所述医疗事件类别包括:个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。
3.根据权利要求2所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤一中,首先构建医疗要素库,构建过程如下:
a)将小样本医疗要素和事件数据集中出现两次以上的医疗要素按照对应的医疗要素类别,加入到对应类别的医疗要素库;
b)筛选和处理部分公开的高质量外部医学资源,加入到对应的医疗要素库中;
然后构建医疗事件库:对小样本医疗要素和事件数据集中标注的小样本医疗事件及医疗要素类别进行统计,对于每一个标注的事件和要素,建立对应关系,并进行存储记录。
4.根据权利要求3所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤一中,利用远程监督方法标注医疗要素,具体为:
5.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,步骤2.2中,基于训练-支持集,构建对应事件和要素的原型表示,具体为:将各个类别样本的语义向量投影到高维度的特征空间中,将各样本的特征按维度进行加和求平均,作为类别的原型表示。
将医疗要素作为医疗事件的基本维度,多位专家同时对医疗要素打分,设专家对于医疗事件类别中的医疗要素类别打分为,规定分数为整数且同一专家对各个医疗要素的打分必须不同,分数的取值范围为,其中为医疗事件类别中医疗要素类别总数,计算最终的医疗事件类别中医疗要素类别的归一化专家得分:
9.一种小样本弱标注条件下的医疗事件识别系统,其特征在于,该系统包括:
医疗事件库构建和数据标注模块:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
医疗要素和事件元学习模块:选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;基于训练-支持集构建对应事件和要素的原型表示;计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;
医疗要素识别模块:训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;对远程监督方法标注得到的医疗要素片段,计算医疗要素片段的特征表示;利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;利用远程监督方法标注的医疗要素,训练医疗要素识别模型,具体为:
医疗事件识别模块:基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,获得各类医疗事件概率分布;利用医疗要素和事件元学习模型计算中文电子病历文本和各类医疗事件的距离相似度分数,与各类医疗事件概率分布结合,得到对应的医疗事件类别。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111247796.7A CN113688248B (zh) | 2021-10-26 | 2021-10-26 | 一种小样本弱标注条件下的医疗事件识别方法及系统 |
JP2023536800A JP7464800B2 (ja) | 2021-10-26 | 2022-09-05 | 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム |
PCT/CN2022/116968 WO2023071530A1 (zh) | 2021-10-26 | 2022-09-05 | 一种小样本弱标注条件下的医疗事件识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111247796.7A CN113688248B (zh) | 2021-10-26 | 2021-10-26 | 一种小样本弱标注条件下的医疗事件识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688248A CN113688248A (zh) | 2021-11-23 |
CN113688248B true CN113688248B (zh) | 2022-02-22 |
Family
ID=78588046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111247796.7A Active CN113688248B (zh) | 2021-10-26 | 2021-10-26 | 一种小样本弱标注条件下的医疗事件识别方法及系统 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7464800B2 (zh) |
CN (1) | CN113688248B (zh) |
WO (1) | WO2023071530A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688248B (zh) * | 2021-10-26 | 2022-02-22 | 之江实验室 | 一种小样本弱标注条件下的医疗事件识别方法及系统 |
CN114298042B (zh) * | 2021-11-30 | 2024-10-15 | 清华大学 | 实体链接方法、实体链接模型训练方法及电子设备 |
CN115187187A (zh) * | 2022-05-25 | 2022-10-14 | 中核武汉核电运行技术股份有限公司 | 一种核电数据标注工具 |
CN116452895B (zh) * | 2023-06-13 | 2023-10-20 | 中国科学技术大学 | 基于多模态对称增强的小样本图像分类方法、装置及介质 |
CN117493504A (zh) * | 2023-09-28 | 2024-02-02 | 之江实验室 | 一种基于生成式预训练语言模型的医疗事件抽取方法 |
CN117390090B (zh) * | 2023-12-11 | 2024-04-12 | 安徽思高智能科技有限公司 | 一种rpa流程挖掘方法、存储介质、电子设备 |
CN117435747B (zh) * | 2023-12-18 | 2024-03-29 | 中南大学 | 基于多层级细化网络的少样本链接预测药物再利用方法 |
CN117520484B (zh) * | 2024-01-04 | 2024-04-16 | 中国电子科技集团公司第十五研究所 | 基于大数据语义的相似事件检索方法、系统、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130282A1 (en) * | 2017-10-31 | 2019-05-02 | Microsoft Technology Licensing, Llc | Distant Supervision for Entity Linking with Filtering of Noise |
CN111834014A (zh) * | 2020-07-17 | 2020-10-27 | 北京工业大学 | 一种医疗领域命名实体识别方法及系统 |
CN112906393A (zh) * | 2021-03-05 | 2021-06-04 | 杭州费尔斯通科技有限公司 | 一种基于元学习的少样本实体识别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357924B (zh) * | 2017-07-25 | 2020-04-24 | 为朔医学数据科技(北京)有限公司 | 一种精准医学知识图谱构建方法和装置 |
US11322256B2 (en) * | 2018-11-30 | 2022-05-03 | International Business Machines Corporation | Automated labeling of images to train machine learning |
CN110473192B (zh) * | 2019-04-10 | 2021-05-14 | 腾讯医疗健康(深圳)有限公司 | 消化道内镜图像识别模型训练及识别方法、装置及系统 |
CN112365464B (zh) * | 2020-11-09 | 2021-08-10 | 成都信息工程大学 | 一种基于gan的医学图像病变区域弱监督定位方法 |
CN112488996A (zh) * | 2020-11-18 | 2021-03-12 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 非齐次三维食管癌能谱ct弱监督自动标注方法与系统 |
CN112598622B (zh) * | 2020-12-03 | 2022-08-09 | 天津理工大学 | 一种融合深度多示例学习和包间相似性的乳腺癌检测方法 |
CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
CN113688248B (zh) * | 2021-10-26 | 2022-02-22 | 之江实验室 | 一种小样本弱标注条件下的医疗事件识别方法及系统 |
-
2021
- 2021-10-26 CN CN202111247796.7A patent/CN113688248B/zh active Active
-
2022
- 2022-09-05 JP JP2023536800A patent/JP7464800B2/ja active Active
- 2022-09-05 WO PCT/CN2022/116968 patent/WO2023071530A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130282A1 (en) * | 2017-10-31 | 2019-05-02 | Microsoft Technology Licensing, Llc | Distant Supervision for Entity Linking with Filtering of Noise |
CN111834014A (zh) * | 2020-07-17 | 2020-10-27 | 北京工业大学 | 一种医疗领域命名实体识别方法及系统 |
CN112906393A (zh) * | 2021-03-05 | 2021-06-04 | 杭州费尔斯通科技有限公司 | 一种基于元学习的少样本实体识别方法 |
Non-Patent Citations (2)
Title |
---|
A Natural Language Processing System That Links Medical Terms in Electronic Health Record Notes to Lay Definitions: System Development Using Physician Reviews;Chen J等;《J Med Internet Res 2018》;20180122;第20卷(第1期);第1-16页 * |
Few-shot Learning for Named Entity Recognition in Medical Text;Maximilian Hofer等;《https://www.researchgate.net/publication/328953126》;20181130;第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
JP7464800B2 (ja) | 2024-04-09 |
WO2023071530A1 (zh) | 2023-05-04 |
CN113688248A (zh) | 2021-11-23 |
JP2023552912A (ja) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113688248B (zh) | 一种小样本弱标注条件下的医疗事件识别方法及系统 | |
CN110032648B (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
US20210233658A1 (en) | Identifying Relevant Medical Data for Facilitating Accurate Medical Diagnosis | |
Kang et al. | Pretraining to recognize PICO elements from randomized controlled trial literature | |
Teng et al. | A review on deep neural networks for ICD coding | |
CN113035362A (zh) | 一种基于语义图网络的医疗预测方法及系统 | |
CN112420191A (zh) | 一种中医辅助决策系统及方法 | |
CN117854665A (zh) | 儿科患者电子健康记录系统 | |
CN115293161A (zh) | 基于自然语言处理和药品知识图谱的合理用药系统及方法 | |
Ravikumar et al. | Machine learning model for clinical named entity recognition | |
Pendyala et al. | Automated medical diagnosis from clinical data | |
Wang et al. | Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model | |
Lu et al. | [Retracted] A Deep Learning‐Based Text Classification of Adverse Nursing Events | |
Malgieri | Ontologies, Machine Learning and Deep Learning in Obstetrics | |
D'Souza et al. | Diabetes Detection Using Machine Learning Algorithms | |
Singh et al. | Deep learning in content-based medical image retrieval | |
Pathak | Automatic structuring of breast cancer radiology reports for quality assurance | |
US11928186B2 (en) | Combined deep learning and knowledge driven reasoning for artificial intelligence classification | |
Ma et al. | Event extraction of Chinese electronic medical records based on BiGRU-CRF | |
CN114582449A (zh) | 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统 | |
CN118538399B (zh) | 一种智能儿科疾病诊断辅助系统 | |
Miranda et al. | Deep Learning for Multi-Label ICD-9 Classification of Hospital Discharge Summaries | |
Yang | Deep Learning Methods for Patient Phenotyping from Electronic Health Records | |
Nurmahomed | Hospital readmission prediction with long clinical notes | |
Wang et al. | Chinese Medical Record Entity Recognition Based on Lexicon and Self-attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |