CN113688248B - 一种小样本弱标注条件下的医疗事件识别方法及系统 - Google Patents

一种小样本弱标注条件下的医疗事件识别方法及系统 Download PDF

Info

Publication number
CN113688248B
CN113688248B CN202111247796.7A CN202111247796A CN113688248B CN 113688248 B CN113688248 B CN 113688248B CN 202111247796 A CN202111247796 A CN 202111247796A CN 113688248 B CN113688248 B CN 113688248B
Authority
CN
China
Prior art keywords
medical
event
sample
events
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111247796.7A
Other languages
English (en)
Other versions
CN113688248A (zh
Inventor
李劲松
李玉格
杨宗峰
史黎鑫
辛然
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111247796.7A priority Critical patent/CN113688248B/zh
Publication of CN113688248A publication Critical patent/CN113688248A/zh
Application granted granted Critical
Publication of CN113688248B publication Critical patent/CN113688248B/zh
Priority to JP2023536800A priority patent/JP7464800B2/ja
Priority to PCT/CN2022/116968 priority patent/WO2023071530A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种小样本弱标注条件下的医疗事件识别方法及系统,本发明构建了医疗事件库,利用远程监督方法实现了在小样本弱标注条件下对医疗要素的自动标注;从多个维度构建医疗要素和事件元学习模型,解决小样本弱标注条件下,医疗事件识别模型泛化性差、标注数据不足的问题;利用医疗要素和事件元学习模型进行负采样,将未标注医疗要素控制在一个较低的范围,降低远程监督方法引起的漏标问题,提升医疗要素识别模型性能;基于医疗事件库和专家知识计算医疗要素重要度,利用医疗要素重要度与医疗要素和事件元学习模型对医疗事件进行分类识别,解决了医疗事件触发词难以定义的问题。

Description

一种小样本弱标注条件下的医疗事件识别方法及系统
技术领域
本发明属于医疗信息技术领域,尤其涉及一种小样本弱标注条件下的医疗事件识别方法及系统。
背景技术
随着医院电子化进程的发展,大量医学知识以电子病历的形式存储于各类医疗信息系统中。这些数据通过医生的临床实践积累而产生,含有丰富的临床经验知识。从中自动化地识别出这些医学知识,对医疗健康服务智能化具有重要意义。医疗事件识别旨在从电子病历文本中识别医疗事件并结构化表示,包括医疗事件类别、参与的医疗要素及其对应的类别等。事件识别得到的信息可以深层次地描述复杂且多样化的医学知识。
近年来,事件识别的方法主要分为基于规则的方法和基于深度学习的方法。基于规则的方法,人为或半自动地定义好事件识别模版,将文本与规则进行匹配识别事件。随着深度学习技术的发展,卷积神经网络、循环神经网络、注意力网络等深度学习模型在医疗事件识别中的应用逐渐增多。深度学习事件识别模型一般通过识别事件触发词识别对应的事件,再从对应的事件中识别相关的事件要素。
在小样本弱标注条件下,远程监督方法利用知识库对数据进行自动标注,可以实现训练样本的快速扩充,被广泛应用在关系识别任务中。同时元学习方法从建模的角度,让模型利用先验知识,学会学习任务的过程,来提高模型在小样本弱标注条件下的识别性能。
现在医疗事件识别面临的主要问题是小样本弱标注,现有的方法都未能很好地解决这个问题。一方面基于规则的方法需要人为地定义事件识别规则。医疗事件识别的规则体系难以构建,基于规则的方法泛化性差,可以覆盖的事件情况较少。同时由于不同医院的电子病历格式差异大,并且定义规则的过程较为主观,不同的专家会制定出不同的规则,难以制定统一的医疗事件规则体系。
另一方面基于深度学习的方法一般需要大量的标注语料,目前医疗领域公开的事件数据集较少,需要有医学背景知识的人员对大量文本进行标注,并在标注过程中对事件进行一致性校验等,需要的人力成本较大。对于深度学习方法,目前的事件识别通常通过判断触发词的方式来进行事件识别,但医疗领域中的各类事件较为复杂,难以用一个触发词代表一种医疗事件,通过判断触发词的方式不能有效地识别医疗事件。
发明内容
本发明的目的在于针对目前医疗事件识别方法的不足,提出一种小样本弱标注条件下,融合远程监督方法和元学习的医疗事件识别方法及系统。
本发明主要通过以下两种途径解决小样本弱标注问题:一方面本发明利用远程监督方法,通过构建医疗事件库实现对中文电子病历文本的自动标注,在样本量较少的情况下,有效地扩充样本数据和提升模型对小样本识别的泛化性;另一方面本发明利用少样本学习领域中的元学习方法识别医疗要素和事件。在充分利用先验知识的情况下,有效解决医疗事件识别方法泛化性差、规则难以统一、需要大量人力成本的问题,提高了医疗事件识别结果的准确性,同时提出的事件识别方法具有良好的可扩展性,利于海量电子病历文本的大规模抽取。对于医疗事件识别,考虑到医疗领域事件较为复杂,其触发词难以定义,本发明优先识别医疗要素,利用医疗要素识别医疗事件。
本发明的目的是通过以下技术方案来实现的:
本发明一方面公开了一种小样本弱标注条件下的医疗事件识别方法,该方法包括:
步骤一,医疗事件库构建和数据标注:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
步骤二,医疗要素和事件元学习,包括以下子步骤:
2.1选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;
2.2基于训练-支持集,构建对应事件和要素的原型表示;
2.3根据要素和事件的原型表示,计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;
2.4将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;
步骤三,医疗要素识别,包括以下子步骤:
3.1训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;
3.2对远程监督方法标注得到的医疗要素片段,基于获得的字符级语义向量表示,计算医疗要素片段的特征表示;
3.3根据医疗要素片段的特征表示,利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重;
3.4基于医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;
步骤四,医疗事件识别,包括以下子步骤:
4.1基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;
4.2基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,结合医疗要素重要度分数,获得各类医疗事件的概率分布;
4.3利用医疗要素和事件元学习模型,计算中文电子病历文本和各类医疗事件的距离相似度分数,与步骤4.2中各类医疗事件的概率分布结合,计算得到对应的医疗事件类别。
进一步地,所述步骤一中,所述医疗事件库的数据来自小样本医疗要素和事件数据集和外部医学资源;所述医疗事件类别包括:个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。
进一步地,所述步骤一中,首先构建医疗要素库,构建过程如下:
a)将小样本医疗要素和事件数据集中出现两次以上的医疗要素按照对应的医疗要素类别,加入到对应类别的医疗要素库;
b)筛选和处理部分公开的高质量外部医学资源,加入到对应的医疗要素库中;
然后构建医疗事件库:对小样本医疗要素和事件数据集中标注的小样本医疗事件及医疗要素类别进行统计,对于每一个标注的事件和要素,建立对应关系,并进行存储记录。
进一步地,所述步骤一中,利用远程监督方法标注医疗要素,具体为:
a)对中文电子病历文本
Figure 989970DEST_PATH_IMAGE001
进行无效字符清洗、大小写转换、标点符号转换、切句处 理;
b)对于中文电子病历文本
Figure 659985DEST_PATH_IMAGE001
,使用医疗要素库进行匹配;对于不属于疾病、药物、症 状、手术、诱因、治疗、诊断这七类的医疗要素,使用基于规则的方式进行标注和提取,不使 用匹配到医疗要素库的方法标注;
c)统计医疗要素库中医疗要素的最大片段长度
Figure 774572DEST_PATH_IMAGE002
,在利用远程监督方法进行标注 时规定片段的最大长度为
Figure 149639DEST_PATH_IMAGE003
,采用片段标注的方式对匹配得到的医疗要素片段文本进行标 注,其他未匹配为医疗要素的文本片段标注为负样本;将标注得到的样本记为
Figure 666071DEST_PATH_IMAGE004
,其中 样本片段
Figure 506988DEST_PATH_IMAGE005
分别表示样本片段
Figure 108870DEST_PATH_IMAGE006
在文本
Figure 693435DEST_PATH_IMAGE001
中的起始位置和结束位置,
Figure 64374DEST_PATH_IMAGE007
为样 本对应的类别。
进一步地,所述步骤2.2中,基于训练-支持集,构建对应事件和要素的原型表示,具体为:将各个类别样本的语义向量投影到高维度的特征空间中,将各样本的特征按维度进行加和求平均,作为类别的原型表示。
进一步地,所述步骤2.3中,距离相似度分数包括Bregman散度
Figure 76192DEST_PATH_IMAGE008
和余弦相似度分 数
Figure 899792DEST_PATH_IMAGE009
两部分;
Bregman散度
Figure 523933DEST_PATH_IMAGE008
计算公式如下:
Figure 749378DEST_PATH_IMAGE010
其中
Figure 932098DEST_PATH_IMAGE011
为欧式距离计算函数,
Figure 508573DEST_PATH_IMAGE012
为要素或事件样本
Figure 434941DEST_PATH_IMAGE013
的特征表示,
Figure 514892DEST_PATH_IMAGE014
为类别
Figure 134092DEST_PATH_IMAGE015
的原型表示;
余弦相似度分数
Figure 932284DEST_PATH_IMAGE009
计算公式如下:
Figure 895298DEST_PATH_IMAGE016
其中
Figure 95336DEST_PATH_IMAGE017
为类别
Figure 885437DEST_PATH_IMAGE015
的特征表示,
Figure 905346DEST_PATH_IMAGE018
是训练参数;
计算样本
Figure 439095DEST_PATH_IMAGE019
属于类别
Figure 228060DEST_PATH_IMAGE015
的距离相似度分数
Figure 923483DEST_PATH_IMAGE020
Figure 696267DEST_PATH_IMAGE021
其中
Figure 768128DEST_PATH_IMAGE022
为训练参数;
计算样本
Figure 178643DEST_PATH_IMAGE023
预测为类别
Figure 310547DEST_PATH_IMAGE015
的概率
Figure 305048DEST_PATH_IMAGE024
Figure 180600DEST_PATH_IMAGE025
其中
Figure 209736DEST_PATH_IMAGE026
为训练-查询集
Figure 246962DEST_PATH_IMAGE027
中的任一类别;
根据训练-查询集中样本类别的真实结果和识别结果,计算元学习模型的损失,并 使用Adam算法进行反向传播更新参数,元学习模型的损失函数
Figure 994339DEST_PATH_IMAGE028
如下:
Figure 142423DEST_PATH_IMAGE029
进一步地,所述步骤三中,利用远程监督方法标注的医疗要素,训练医疗要素识别模型,具体为:
输入的中文电子病历文本记为
Figure 530460DEST_PATH_IMAGE030
Figure 738587DEST_PATH_IMAGE031
是输入的文本长度;通过远程监 督方法标注得到的样本记为
Figure 707681DEST_PATH_IMAGE032
,其中样本片段
Figure 925035DEST_PATH_IMAGE033
Figure 663184DEST_PATH_IMAGE034
分别表示样本片段
Figure 42213DEST_PATH_IMAGE035
在文本
Figure 764181DEST_PATH_IMAGE036
中的起始位置和结束位置,
Figure 519648DEST_PATH_IMAGE037
为样本对应的类别;
使用序列编码器模型得到文本的字符级语义向量表示;在医疗要素识别时,对于 文本
Figure 879347DEST_PATH_IMAGE030
,通过序列编码器模型获得每个字符的语义向量
Figure 429277DEST_PATH_IMAGE038
对于样本
Figure 107383DEST_PATH_IMAGE032
,计算样本片段
Figure 666540DEST_PATH_IMAGE033
的特征表示
Figure 379281DEST_PATH_IMAGE039
Figure 365692DEST_PATH_IMAGE040
其中
Figure 796673DEST_PATH_IMAGE041
表示向量拼接,
Figure 893942DEST_PATH_IMAGE042
表示向量对应位置元素点乘运算;
样本片段的特征表示经过非线性变换,计算并输出样本属于各类别的概率分布
Figure 461190DEST_PATH_IMAGE043
Figure 117037DEST_PATH_IMAGE044
其中
Figure 769735DEST_PATH_IMAGE045
为训练参数,
Figure 670695DEST_PATH_IMAGE046
输出维度为样本类别数设为
Figure 358028DEST_PATH_IMAGE047
,即:
Figure 686242DEST_PATH_IMAGE048
其中
Figure 826236DEST_PATH_IMAGE049
表示样本片段
Figure 265307DEST_PATH_IMAGE050
属于类别
Figure 807147DEST_PATH_IMAGE051
的概率。
进一步地,所述步骤三中,设所有样本集合为
Figure 542147DEST_PATH_IMAGE052
,设医疗要素识别模型在 训练过程中预测的所有非医疗要素片段数量为
Figure 169438DEST_PATH_IMAGE053
,随机采样
Figure DEST_PATH_IMAGE054
个样本,构成负采样样本集合
Figure 208938DEST_PATH_IMAGE055
,其中
Figure 605284DEST_PATH_IMAGE056
;将负采样样本集合送入医疗要素和事件元学习模型,得 到负采样样本
Figure 275300DEST_PATH_IMAGE057
属于各类别医疗要素的概率,将该概率值作为权重
Figure 124307DEST_PATH_IMAGE058
Figure 170761DEST_PATH_IMAGE059
其中
Figure 179868DEST_PATH_IMAGE060
为预测的样本类别,设共
Figure 20785DEST_PATH_IMAGE061
类医疗要素,构造全局损失函数
Figure 357089DEST_PATH_IMAGE062
为:
Figure 676075DEST_PATH_IMAGE063
使用损失函数
Figure 47013DEST_PATH_IMAGE062
经过梯度反向传播更新医疗要素识别模型参数。
进一步地,将医疗要素作为医疗事件的基本维度,多位专家同时对医疗要素打分, 设专家
Figure 58832DEST_PATH_IMAGE064
对于医疗事件类别
Figure 148010DEST_PATH_IMAGE065
中的医疗要素类别
Figure 270687DEST_PATH_IMAGE066
打分为
Figure 761711DEST_PATH_IMAGE067
,规定分数为整数且同一专家对各个医疗要素的打分必须不 同,分数的取值范围为
Figure 445896DEST_PATH_IMAGE068
,其中
Figure 756791DEST_PATH_IMAGE069
为医疗事件类别
Figure 683159DEST_PATH_IMAGE065
中医疗要素类别总数,计算最 终的医疗事件类别
Figure 28690DEST_PATH_IMAGE065
中医疗要素类别
Figure 382311DEST_PATH_IMAGE066
的归一化专家得分
Figure 180502DEST_PATH_IMAGE070
Figure 644982DEST_PATH_IMAGE071
其中
Figure 845019DEST_PATH_IMAGE072
为专家数;计算医疗要素类别
Figure 868076DEST_PATH_IMAGE066
在医疗事件类别
Figure 153564DEST_PATH_IMAGE065
中的最终重要 度分数
Figure 687314DEST_PATH_IMAGE073
Figure 476278DEST_PATH_IMAGE074
设输入的中文电子病历文本记为
Figure 171702DEST_PATH_IMAGE075
Figure 210065DEST_PATH_IMAGE031
是输入的文本长度,通过医疗 要素识别模型预测得到的医疗要素记为
Figure 281926DEST_PATH_IMAGE076
Figure 190976DEST_PATH_IMAGE077
为文本中医疗要素数量,设共有医 疗事件类别Η个;结合医疗要素重要度分数计算文本
Figure 57301DEST_PATH_IMAGE001
属于医疗事件类别
Figure 553267DEST_PATH_IMAGE065
的概率分 布
Figure 428819DEST_PATH_IMAGE078
Figure 192376DEST_PATH_IMAGE079
将中文电子病历文本
Figure 495181DEST_PATH_IMAGE001
送入医疗要素和事件元学习模型中,计算文本和各类医疗 事件的距离相似度分数
Figure 976978DEST_PATH_IMAGE080
,将距离相似度分数与医疗事件的概率分布结合,得到文本
Figure 125062DEST_PATH_IMAGE001
属 于医疗事件类别
Figure 8705DEST_PATH_IMAGE065
的得分
Figure 482412DEST_PATH_IMAGE081
Figure 955899DEST_PATH_IMAGE082
取得分最高的医疗事件类别
Figure 173254DEST_PATH_IMAGE083
作为最终文本
Figure 911403DEST_PATH_IMAGE001
的医疗事件:
Figure 556011DEST_PATH_IMAGE084
本发明另一方面公开了一种小样本弱标注条件下的医疗事件识别系统,该系统包括:
医疗事件库构建和数据标注模块:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
医疗要素和事件元学习模块:选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;基于训练-支持集构建对应事件和要素的原型表示;计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;
医疗要素识别模块:训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;对远程监督方法标注得到的医疗要素片段,计算医疗要素片段的特征表示;利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;
医疗事件识别模块:基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,获得各类医疗事件概率分布;利用医疗要素和事件元学习模型计算中文电子病历文本和各类医疗事件的距离相似度分数,与各类医疗事件概率分布结合,得到对应的医疗事件类别。
本发明的有益效果如下:
1. 构建了医疗事件库,利用远程监督方法,实现了在小样本弱标注条件下对医疗要素的自动标注;
2. 从多个维度构建医疗要素和事件元学习模型,解决小样本弱标注条件下,医疗事件识别模型泛化性差、标注数据不足的问题;
3. 利用医疗要素和事件元学习模型进行负采样,将未标注医疗要素控制在一个较低的范围,降低远程监督方法引起的漏标问题,提升医疗要素识别模型性能;
4. 基于医疗事件库和专家知识计算医疗要素重要度,利用医疗要素重要度与医疗要素和事件元学习模型对医疗事件进行分类识别,解决了医疗事件触发词难以定义的问题。
附图说明
图1为本发明实施例提供的一种小样本弱标注条件下的医疗事件识别方法流程图;
图2为本发明实施例提供的医疗要素和事件元学习实现框图;
图3为本发明实施例提供的医疗要素识别实现框图;
图4为本发明实施例提供的医疗事件识别实现框图;
图5为本发明实施例提供的一种小样本弱标注条件下的医疗事件识别系统结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明中,医疗事件指:在中文电子病历文本中,对治疗过程有重要影响的一系列医学状态变化的集合。一个医疗事件包括医疗事件类别、医疗要素和医疗要素类别。例如对于文本“腹痛3月余,加重10天”,其为描述患者症状变化的事件,医疗事件类别为症状,医疗要素为 “腹痛”(医疗要素类别:症状)、“3月余”(医疗要素类别:时间)、“加重10天”(医疗要素类别:趋势)。
小样本弱标注条件指:模型学习时只有少量有限的标注数据和大量的未标注数据,且标注数据不完整、存在噪声的情况。
元学习指:希望使得模型获取一种学会学习新任务的能力,使其可以在获取先验 知识的基础上快速学习新的任务。元学习首先构建多轮的训练任务,然后在每轮训练任务 中构建任务对应的数据进行训练。元学习以找到函数
Figure 12400DEST_PATH_IMAGE085
为目标,
Figure 767866DEST_PATH_IMAGE085
可以输出函数
Figure 626101DEST_PATH_IMAGE086
,函数
Figure 910452DEST_PATH_IMAGE086
可 以很好地学习新任务。
片段标注指:对文本中所有可能的文本片段进行排列,将在对应医疗事件库中的片段标注为对应类别,其他片段标注为负样本。
未标注医疗要素指:远程监督标注时,由于医疗事件库不可能覆盖所有的医疗要素,标注结果会漏掉不在医疗事件库中的医疗要素,这些未被医疗事件库覆盖的医疗要素称为未标注医疗要素。
如图1所示,本实施例提供的一种小样本弱标注条件下的医疗事件识别方法,步骤如下:
步骤一,医疗事件库构建和数据标注:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;医疗事件库的数据来自小样本医疗要素和事件数据集、外部医学资源等;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
(1)医疗事件库构建
(1.1)医疗事件及对应医疗要素的定义:根据大量中文电子病历文本的特点,在专业医生的指导下,初步定义九种通用的医疗事件类别:个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。并对每种事件定义了对应的医疗要素,如个人基本信息事件中,定义性别、年龄、身高、体重、婚姻状况、吸烟史、饮酒史作为事件的要素。症状事件中,定义症状、时间、频次、趋势、复发情况、诱因作为事件要素。又如在既往疾病事件中,定义疾病、时间、治疗方法作为事件要素。医疗事件及要素的具体定义如下表:
Figure 854137DEST_PATH_IMAGE087
(1.2)医疗要素库构建:考虑到小样本弱标注条件下只有少量标注的医疗事件和要素,本发明引入公开的高质量医学语料来构建医疗要素库。医疗要素库主要包含七类医疗要素,分别为:疾病、药物、症状、手术、诱因、治疗、诊断。医疗要素库的具体构建过程如下:
a)将小样本医疗要素和事件数据集中出现2次以上的医疗要素按照对应的医疗要素类别,加入到对应类别的医疗要素库。
b)由于上述方法只能得到很少的医疗要素,本发明筛选和处理部分目前公开的高质量外部医学资源,加入到对应的医疗要素库中。通过爬取医学资源并对信息进行识别和整理得到医疗要素库。
c)对于不属于上述七种类别的医疗要素,如:时间、性别、年龄、身高、体重、频次、趋势、吸烟史、饮酒史等,本发明使用基于规则的方式进行标注和提取,不使用匹配到医疗要素库的方法标注。
(1.3)医疗事件库构建:对小样本医疗要素和事件数据集中标注的小样本医疗事件及医疗要素类别进行统计,对于每一个标注的事件和要素,建立对应关系,并进行存储记录。
例如对于小样本医疗要素和事件数据集中的家族疾病事件:“家族中无类似患者。父亲已故,死因:自然死亡。母亲肝硬化 5年。兄弟姐妹健康状况:7兄弟姐妹;1姐姐1弟弟肝癌去世,1姐姐脑溢血。”,建立对应的医疗事件库进行统计,如下表:
Figure 914759DEST_PATH_IMAGE088
(2)利用远程监督方法标注医疗要素
基于启发式假设,如果医疗要素片段在医疗要素库中被标注为某种类别的医疗要素,则在未标注的中文电子病历文本中的该要素片段都被标注为对应类别的医疗要素。具体的自动标注步骤如下:
a)对中文电子病历文本
Figure 627500DEST_PATH_IMAGE001
进行无效字符清洗、大小写转换、标点符号转换、切句等 预处理操作。
b)对于中文电子病历文本
Figure 613911DEST_PATH_IMAGE001
,使用医疗要素库进行匹配;对于不属于七种类别的医 疗要素,例如时间、性别、年龄等信息,使用基于规则的方式进行匹配;
c)统计医疗要素库中医疗要素的最大片段长度
Figure 779313DEST_PATH_IMAGE002
,在利用远程监督方法进行标注 时规定片段的最大长度为
Figure 876582DEST_PATH_IMAGE003
。采用片段标注的方式对匹配得到的医疗要素片段文本进行标 注,其他未匹配为医疗要素的文本片段标注为负样本。将标注得到的样本记为
Figure 709408DEST_PATH_IMAGE004
,其中 样本片段
Figure 601141DEST_PATH_IMAGE005
分别表示样本片段
Figure 253839DEST_PATH_IMAGE006
在文本
Figure 653334DEST_PATH_IMAGE001
中的起始位置和结束位置,
Figure 340668DEST_PATH_IMAGE007
为样 本对应的类别。
例如:对于文本“突发上腹部疼痛3月,伴进食后呕吐。”匹配得到症状片段集合{“上腹部疼痛”,“疼痛”,“呕吐”},诱因片段集合{“进食后”},时间片段集合{“3月”}。本发明将“上腹部疼痛”、“疼痛”标注为症状,“进食后”标注为诱因,“呕吐”标注为症状,“3月”标注为时间等。其他未匹配到的片段如:“突”标注为负样本,“发上”标注为负样本。
步骤二,医疗要素和事件元学习,用于提高医疗要素识别模型和医疗事件识别模型在小样本弱标注条件下的学习能力,主要包括四个步骤:
2.1选择并采样各领域(不限于医疗领域,因为医疗领域事件识别数据有限)高质量公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;
2.2基于训练-支持集,构建对应事件和要素的原型表示,具体为:将各个类别样本的语义向量投影到高维度的特征空间中,将各样本的特征按维度进行加和求平均,作为类别的原型表示;
2.3根据要素和事件的原型表示,计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;
2.4将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型,如图2所示。
具体实现细节如下:
a)小样本弱标注条件下,直接使用小样本医疗要素和事件数据集训练医疗事件识别模型,会因为标注数据过少导致严重的过拟合。元学习方法利用其他领域的大量标注语料,构建多轮只含有小样本数据的训练任务,训练得到在小样本数据上具备快速学习新任务能力的模型。
b)采样小样本医疗要素和事件数据集中的样本作为测试集记为
Figure DEST_PATH_IMAGE089
,假设
Figure 200039DEST_PATH_IMAGE089
中 医疗要素和事件共有N类,每个类别下含有T个样本。将样本按照3:2进一步划分为支持集
Figure 340034DEST_PATH_IMAGE090
和查询集
Figure 779105DEST_PATH_IMAGE091
,假设
Figure 586524DEST_PATH_IMAGE090
中每个类别下含有K个样本,构建得到 一个
Figure 85639DEST_PATH_IMAGE092
的元学习任务。因为医疗要素和事件标注语料较少,本发明获取各 领域高质量公开的中文事件和要素标注语料作为训练集记为
Figure 214394DEST_PATH_IMAGE093
Figure 457156DEST_PATH_IMAGE094
中事件和要素类 别与医疗事件和要素类别不同,利用
Figure 119082DEST_PATH_IMAGE093
训练
Figure 789098DEST_PATH_IMAGE092
的元学习模型。根据测试 集样本构造过程,从训练集
Figure 903684DEST_PATH_IMAGE095
中采样M次,每次采样N个类别的样本,每类样本采样K个样 本作为支持集
Figure 950138DEST_PATH_IMAGE096
,采样与
Figure 200990DEST_PATH_IMAGE097
中相同的类别样本数作为查询集
Figure 823600DEST_PATH_IMAGE098
。利用
Figure 425483DEST_PATH_IMAGE099
Figure 275627DEST_PATH_IMAGE098
进行M次的元学习模型训练,使得元学习模型 具备在
Figure 646565DEST_PATH_IMAGE092
条件下快速学习医疗要素和事件识别任务的能力。将得到的元学 习模型继续在医疗要素和事件样本支持集
Figure 658384DEST_PATH_IMAGE090
上训练,得到医疗要素和事件元学 习模型。
c)要素和事件元学习模型由序列编码器模型和分类模型组成,其中序列编码器模 型优选为双向自注意力语言模型(BERT)。序列编码器模型将输入的文本
Figure 747562DEST_PATH_IMAGE100
编 码为语义向量
Figure 870239DEST_PATH_IMAGE101
,其中
Figure 597149DEST_PATH_IMAGE102
为输入的文本长度,
Figure 779869DEST_PATH_IMAGE103
为第
Figure 90764DEST_PATH_IMAGE104
个字符,然后使用
Figure 17132DEST_PATH_IMAGE105
函数 计算要素和事件的特征,假设要素或事件样本为
Figure 362663DEST_PATH_IMAGE106
Figure 981863DEST_PATH_IMAGE107
为样本长 度,则其特征表示为:
Figure 45634DEST_PATH_IMAGE108
其中
Figure 510113DEST_PATH_IMAGE109
为训练参数。
然后在分类模型中对
Figure 208686DEST_PATH_IMAGE110
中的N个类别样本进行原型建模,对于类别
Figure 733208DEST_PATH_IMAGE015
, 设
Figure 284275DEST_PATH_IMAGE111
为类别
Figure 286866DEST_PATH_IMAGE015
的样本集合,类别
Figure 341410DEST_PATH_IMAGE112
的原型表示为
Figure 302412DEST_PATH_IMAGE113
Figure 75196DEST_PATH_IMAGE114
计算
Figure 881478DEST_PATH_IMAGE098
中每个要素和事件与原型表示
Figure 823152DEST_PATH_IMAGE113
的距离相似度分数,距离相似度 分数包括Bregman散度
Figure 689477DEST_PATH_IMAGE008
和余弦相似度分数
Figure 949557DEST_PATH_IMAGE009
两部分;
Bregman散度可选为欧式距离,即:
Figure 559530DEST_PATH_IMAGE010
其中
Figure 588665DEST_PATH_IMAGE011
为欧式距离计算函数。
同时,计算要素和事件与类别
Figure 891471DEST_PATH_IMAGE015
的余弦相似度分数
Figure 373268DEST_PATH_IMAGE009
,使用
Figure 521352DEST_PATH_IMAGE017
作为类别
Figure 909389DEST_PATH_IMAGE015
的特征表 示,
Figure 383096DEST_PATH_IMAGE017
是训练参数:
Figure 352189DEST_PATH_IMAGE115
计算样本
Figure 569544DEST_PATH_IMAGE019
属于类别
Figure 573272DEST_PATH_IMAGE015
的距离相似度分数
Figure 217880DEST_PATH_IMAGE116
,分数越大样本
Figure 674269DEST_PATH_IMAGE013
与类别
Figure 429735DEST_PATH_IMAGE015
越相似:
Figure 523855DEST_PATH_IMAGE021
其中
Figure 339365DEST_PATH_IMAGE022
为训练参数,通常取(0,1);本发明考虑了两个维度,可以更全面准确地计算 距离相似度分数。
计算样本
Figure 283050DEST_PATH_IMAGE023
预测为类别
Figure 842207DEST_PATH_IMAGE015
的概率
Figure 554948DEST_PATH_IMAGE024
Figure 275780DEST_PATH_IMAGE117
其中
Figure 706761DEST_PATH_IMAGE026
Figure 804030DEST_PATH_IMAGE027
中的任一类别。
根据
Figure 135392DEST_PATH_IMAGE027
中样本类别的真实结果和识别结果,计算元学习模型的损失,并 使用Adam算法进行反向传播更新参数,元学习模型的损失函数
Figure 27125DEST_PATH_IMAGE028
如下:
Figure 945402DEST_PATH_IMAGE118
上述过程共进行M次,训练得到预训练的医疗要素和事件元学习模型。
d)将得到的预训练的医疗要素和事件元学习模型继续在
Figure 846362DEST_PATH_IMAGE119
上训练,对 模型的参数进行优化,得到医疗要素和事件元学习模型。在识别时,将
Figure 268116DEST_PATH_IMAGE120
中的医疗 要素和事件样本送入医疗要素和事件元学习模型中,得到其对应的类别。
步骤三,医疗要素识别:基于序列编码器模型和负采样方法,对医疗要素进行分类识别,主要包括四个步骤:
3.1训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示,序列编码器模型优选为双向自注意力语言模型(BERT);
3.2对远程监督方法标注得到的医疗要素片段,基于获得的字符级语义向量表示,计算医疗要素片段的特征表示;
3.3根据医疗要素片段的特征表示,利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重;
3.4基于医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数,如图3所示。
具体实现细节如下:
a) 利用远程监督方法标注的医疗要素,训练医疗要素识别模型
输入的中文电子病历文本记为
Figure 596329DEST_PATH_IMAGE121
Figure 736323DEST_PATH_IMAGE031
是输入的文本长度。通过远程监 督方法标注得到的样本记为
Figure 440974DEST_PATH_IMAGE122
,其中样本片段
Figure 484279DEST_PATH_IMAGE123
Figure 983393DEST_PATH_IMAGE034
分别表示样本片段
Figure 876263DEST_PATH_IMAGE035
在文本
Figure 119025DEST_PATH_IMAGE036
中的起始位置和结束位置,
Figure 249793DEST_PATH_IMAGE037
为样本对应的类别。
使用双向自注意力语言模型得到文本的字符级语义向量表示,双向自注意力语言模型在训练时同时利用文本正向和反向的上下文信息进行训练,可以很好地表示文本的语义向量。双向自注意力语言模型中网络的输入来源于上一层网络自注意力机制的输出。
在医疗要素识别时,对于文本
Figure 919808DEST_PATH_IMAGE075
,通过双向自注意力语言模型获得其 每个字符的语义向量
Figure 34395DEST_PATH_IMAGE124
然后对于样本
Figure 815269DEST_PATH_IMAGE122
,计算样本片段
Figure 824377DEST_PATH_IMAGE125
的特征表示
Figure 665294DEST_PATH_IMAGE126
Figure 267176DEST_PATH_IMAGE127
其中
Figure 851742DEST_PATH_IMAGE041
表示向量拼接,
Figure 222680DEST_PATH_IMAGE042
表示向量对应位置元素点乘运算。
最后样本片段的特征表示经过非线性变换,计算并输出样本属于各类别的概率分 布
Figure 500078DEST_PATH_IMAGE043
Figure 323677DEST_PATH_IMAGE128
其中
Figure 213398DEST_PATH_IMAGE129
为训练参数,
Figure 438843DEST_PATH_IMAGE046
输出维度为样本类别数设为
Figure 621563DEST_PATH_IMAGE047
,即:
Figure 198037DEST_PATH_IMAGE130
其中
Figure 124405DEST_PATH_IMAGE049
表示样本片段
Figure 204357DEST_PATH_IMAGE131
属于类别
Figure 823557DEST_PATH_IMAGE051
的概率。
b)基于医疗要素和事件元学习模型进行负采样降低未标注医疗要素片段的影响
考虑到使用远程监督方法标注数据时,构建的医疗事件库和使用的规则只能覆盖有限的医疗要素片段,不能涵盖所有的医疗要素,存在真实的医疗要素片段被标注为负样本的情况,这些未被标注为医疗要素的片段会对医疗要素识别模型的结果产生较大的影响。本发明在训练时对医疗要素识别模型在训练过程中预测的所有非医疗要素片段进行负采样,同时利用医疗要素和事件元学习模型得到采样样本的类别权重,从而提高医疗要素识别模型在小样本弱标注条件下的泛化性。
设所有样本集合为
Figure 621749DEST_PATH_IMAGE132
,设医疗要素识别模型在训练过程中预测的所有非 医疗要素片段数量为
Figure 850342DEST_PATH_IMAGE053
,随机采样
Figure 50379DEST_PATH_IMAGE133
个样本,构成负采样样本集合
Figure 840481DEST_PATH_IMAGE055
,其中
Figure 860390DEST_PATH_IMAGE056
。将负采样样本集合送入医疗要素和事件元学习模型,得到负采样样本
Figure 128560DEST_PATH_IMAGE057
属于各 类别医疗要素的概率,将该概率值作为权重
Figure 183104DEST_PATH_IMAGE058
Figure 144106DEST_PATH_IMAGE059
其中
Figure 651311DEST_PATH_IMAGE060
为预测的样本类别,设共
Figure 224637DEST_PATH_IMAGE061
类医疗要素,构造全局损失函数
Figure 399266DEST_PATH_IMAGE062
为:
Figure 531170DEST_PATH_IMAGE063
使用此损失函数经过梯度反向传播更新医疗要素识别模型参数。
步骤四,医疗事件识别:基于医疗要素重要度和医疗事件的距离相似度分数,对医疗事件进行分类识别,主要包括三个步骤:
4.1基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合多位专家对于医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;
4.2基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,结合医疗要素重要度分数,获得各类医疗事件的概率分布;
4.3利用医疗要素和事件元学习模型,计算中文电子病历文本和各类医疗事件的距离相似度分数,与步骤4.2中各类医疗事件的概率分布结合,计算得到对应的医疗事件类别,如图4所示。
具体实现细节如下:
考虑到医疗事件文本语义复杂、形式难以统一、医疗事件触发词难以定义的问题,本发明基于医疗要素识别医疗事件。同时,为了提高小样本弱标注条件下模型的泛化性和准确性,使用医疗要素和事件元学习模型从中文电子病历文本和各类医疗事件的距离相似度分数的角度建模识别医疗事件。
a)利用医疗事件库和专家打分情况计算医疗要素重要度分数,在同一医疗事件中不同的医疗要素的重要程度不同,例如对于症状事件,相比于时间、频次等医疗要素,症状是关键要素,同时一个医疗事件的描述文本中通常不能涵盖所有定义的医疗要素。利用医疗要素识别医疗事件时,基于构建好的医疗事件库和专家打分情况计算每类医疗事件中不同医疗要素的重要度分数,再结合医疗要素识别模型输出的医疗要素片段识别医疗事件。
b)对于构建好的医疗事件库,计算医疗要素类别
Figure 56830DEST_PATH_IMAGE066
在医疗事件类别
Figure 401223DEST_PATH_IMAGE065
中 的共现性分数
Figure 430359DEST_PATH_IMAGE134
Figure 733165DEST_PATH_IMAGE135
其中
Figure 984935DEST_PATH_IMAGE136
代表医疗事件库中医疗要素类别
Figure 398599DEST_PATH_IMAGE066
与医疗事件类 别
Figure 282242DEST_PATH_IMAGE065
共现的次数,
Figure 755948DEST_PATH_IMAGE137
代表医疗事件库中医疗事件类别
Figure 990620DEST_PATH_IMAGE065
出现的次 数。
计算医疗要素与医疗事件的相关性分数,用来区分不同医疗要素类别与医疗事件相关性,若同一类别医疗要素在很多医疗事件类别中出现,则认为该类医疗要素与各类医疗事件相关性较差:
Figure 676817DEST_PATH_IMAGE138
其中
Figure 680545DEST_PATH_IMAGE139
代表医疗要素类别
Figure 59574DEST_PATH_IMAGE066
与医疗事件类别
Figure 17428DEST_PATH_IMAGE065
的相关性分数,
Figure 507315DEST_PATH_IMAGE140
代表在医疗事件库中医疗要素类别
Figure 631128DEST_PATH_IMAGE066
出现的次数。
计算医疗要素类别
Figure 446638DEST_PATH_IMAGE141
在医疗事件类别
Figure 124744DEST_PATH_IMAGE065
中的重要度分数
Figure 418322DEST_PATH_IMAGE142
Figure 131063DEST_PATH_IMAGE143
c)在医学专家的指导下,制定具体的规则对医疗要素的重要度分数进行进一步计 算。将医疗要素作为医疗事件的基本维度,多位专家同时对医疗要素打分,将专家数记为
Figure 117473DEST_PATH_IMAGE144
。 设专家
Figure 548455DEST_PATH_IMAGE064
对于医疗事件类别
Figure 144259DEST_PATH_IMAGE065
中的医疗要素类别
Figure 711507DEST_PATH_IMAGE141
打分为
Figure 603239DEST_PATH_IMAGE067
,规定分数为整数且同一专家对各个医疗要素的打分必须不 同,分数的取值范围为
Figure 521517DEST_PATH_IMAGE068
,其中
Figure 156897DEST_PATH_IMAGE069
为医疗事件类别
Figure 844231DEST_PATH_IMAGE065
中医疗要素类别总数。计算最 终的医疗事件类别
Figure 172444DEST_PATH_IMAGE065
中医疗要素类别
Figure 312438DEST_PATH_IMAGE066
的归一化专家得分
Figure 751510DEST_PATH_IMAGE145
Figure 794814DEST_PATH_IMAGE146
例如对于用药事件,以三位专家参与打分为例,三位专家分别对医疗要素打分如下:
Figure 293929DEST_PATH_IMAGE147
结合多位专家的打分情况,计算得到各个用药事件中药物、用药方式、时间的分数 为
Figure 921219DEST_PATH_IMAGE148
计算医疗要素类别
Figure 898402DEST_PATH_IMAGE141
在医疗事件类别
Figure 560328DEST_PATH_IMAGE065
中的最终重要度分数
Figure 230344DEST_PATH_IMAGE073
Figure 344930DEST_PATH_IMAGE149
d)设输入的中文电子病历文本记为
Figure 125804DEST_PATH_IMAGE030
Figure 158350DEST_PATH_IMAGE031
是输入的文本长度,通过医 疗要素识别模型预测得到的医疗要素记为
Figure 733688DEST_PATH_IMAGE150
Figure 335570DEST_PATH_IMAGE077
为文本中医疗要素数量,设共有 医疗事件类别Η个。结合医疗要素重要度分数,计算文本
Figure 920135DEST_PATH_IMAGE001
属于医疗事件类别
Figure 291074DEST_PATH_IMAGE065
的概 率分布
Figure 302892DEST_PATH_IMAGE078
Figure 126492DEST_PATH_IMAGE151
e)将中文电子病历文本
Figure 514748DEST_PATH_IMAGE001
送入医疗要素和事件元学习模型中,计算文本和各类医 疗事件的距离相似度分数
Figure 474613DEST_PATH_IMAGE152
,将距离相似度分数与上述医疗事件的概率分布结合,得到文 本
Figure 158798DEST_PATH_IMAGE001
属于医疗事件类别
Figure 735273DEST_PATH_IMAGE065
的得分
Figure 661640DEST_PATH_IMAGE153
Figure 741592DEST_PATH_IMAGE154
取得分最高的医疗事件类别
Figure 360792DEST_PATH_IMAGE083
作为最终文本
Figure 158984DEST_PATH_IMAGE001
的医疗事件:
Figure 623463DEST_PATH_IMAGE084
本发明另一方面公开了一种小样本弱标注条件下的医疗事件识别系统,如图5所示,该系统包括以下模块:
医疗事件库构建和数据标注模块:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;该模块的实现可以参考上述步骤一。
医疗要素和事件元学习模块:选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;基于训练-支持集构建对应事件和要素的原型表示;计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;该模块的实现可以参考上述步骤二。
医疗要素识别模块:训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;对远程监督方法标注得到的医疗要素片段,计算医疗要素片段的特征表示;利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;该模块的实现可以参考上述步骤三。
医疗事件识别模块:基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,获得各类医疗事件概率分布;利用医疗要素和事件元学习模型计算中文电子病历文本和各类医疗事件的距离相似度分数,与各类医疗事件概率分布结合,得到对应的医疗事件类别;该模块的实现可以参考上述步骤四。
此外,还系统还包括识别结果展示模块,用于呈现医疗事件类别。
本发明在小样本弱标注条件下,实现大规模中文电子病历文本中医疗事件和要素的自动识别,解决了传统事件识别方法及系统泛化性差、规则难以统一、需要大量人力成本的问题。解决了医疗事件触发词难以定义的问题,可以有效识别医疗事件。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (9)

1.一种小样本弱标注条件下的医疗事件识别方法,其特征在于,该方法包括:
步骤一,医疗事件库构建和数据标注:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
步骤二,医疗要素和事件元学习,包括以下子步骤:
2.1选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;
2.2基于训练-支持集,构建对应事件和要素的原型表示;
2.3根据要素和事件的原型表示,计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;
2.4将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;
步骤三,医疗要素识别,包括以下子步骤:
3.1训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;输入的中文电子病历文本记为
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
是输入的文本长度;通过远程监督方法标注得到的样本记为
Figure DEST_PATH_IMAGE006
,其中样本片段
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE010
分别表示样本片段
Figure DEST_PATH_IMAGE012
在文本
Figure DEST_PATH_IMAGE014
中的起始位置和结束位置,
Figure DEST_PATH_IMAGE016
为样本对应的类别;
3.2对远程监督方法标注得到的医疗要素片段,基于获得的字符级语义向量表示,计算医疗要素片段的特征表示;在医疗要素识别时,对于文本
Figure DEST_PATH_IMAGE017
,通过序列编码器模型获得每个字符的语义向量
Figure DEST_PATH_IMAGE019
对于样本
Figure DEST_PATH_IMAGE020
,计算样本片段
Figure 757549DEST_PATH_IMAGE008
的特征表示
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
其中
Figure DEST_PATH_IMAGE026
表示向量拼接,
Figure DEST_PATH_IMAGE028
表示向量对应位置元素点乘运算;
样本片段的特征表示经过非线性变换,计算并输出样本属于各类别的概率分布
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
其中
Figure DEST_PATH_IMAGE034
为训练参数,
Figure DEST_PATH_IMAGE035
输出维度为样本类别数设为
Figure DEST_PATH_IMAGE037
,即:
Figure DEST_PATH_IMAGE039
其中
Figure DEST_PATH_IMAGE041
表示样本片段
Figure DEST_PATH_IMAGE043
属于类别
Figure DEST_PATH_IMAGE045
的概率;
3.3根据医疗要素片段的特征表示,利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重;
3.4基于医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;
步骤四,医疗事件识别,包括以下子步骤:
4.1基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;
4.2基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,结合医疗要素重要度分数,获得各类医疗事件的概率分布;
4.3利用医疗要素和事件元学习模型,计算中文电子病历文本和各类医疗事件的距离相似度分数,与步骤4.2中各类医疗事件的概率分布结合,计算得到对应的医疗事件类别。
2.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤一中,所述医疗事件库的数据来自小样本医疗要素和事件数据集和外部医学资源;所述医疗事件类别包括:个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。
3.根据权利要求2所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤一中,首先构建医疗要素库,构建过程如下:
a)将小样本医疗要素和事件数据集中出现两次以上的医疗要素按照对应的医疗要素类别,加入到对应类别的医疗要素库;
b)筛选和处理部分公开的高质量外部医学资源,加入到对应的医疗要素库中;
然后构建医疗事件库:对小样本医疗要素和事件数据集中标注的小样本医疗事件及医疗要素类别进行统计,对于每一个标注的事件和要素,建立对应关系,并进行存储记录。
4.根据权利要求3所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤一中,利用远程监督方法标注医疗要素,具体为:
a)对中文电子病历文本
Figure DEST_PATH_IMAGE047
进行无效字符清洗、大小写转换、标点符号转换、切句处理;
b)对于中文电子病历文本
Figure 64903DEST_PATH_IMAGE047
,使用医疗要素库进行匹配;对于不属于疾病、药物、症状、手术、诱因、治疗、诊断这七类的医疗要素,使用基于规则的方式进行标注和提取,不使用匹配到医疗要素库的方法标注;
c)统计医疗要素库中医疗要素的最大片段长度
Figure DEST_PATH_IMAGE049
,在利用远程监督方法进行标注时规定片段的最大长度为
Figure 110219DEST_PATH_IMAGE049
,采用片段标注的方式对匹配得到的医疗要素片段文本进行标注,其他未匹配为医疗要素的文本片段标注为负样本;将标注得到的样本记为
Figure DEST_PATH_IMAGE051
,其中样本片段
Figure DEST_PATH_IMAGE053
分别表示样本片段
Figure DEST_PATH_IMAGE055
在文本
Figure 36587DEST_PATH_IMAGE047
中的起始位置和结束位置,
Figure DEST_PATH_IMAGE057
为样本对应的类别。
5.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,步骤2.2中,基于训练-支持集,构建对应事件和要素的原型表示,具体为:将各个类别样本的语义向量投影到高维度的特征空间中,将各样本的特征按维度进行加和求平均,作为类别的原型表示。
6.根据权利要求5所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,步骤2.3中,距离相似度分数包括Bregman散度
Figure DEST_PATH_IMAGE059
和余弦相似度分数
Figure DEST_PATH_IMAGE061
两部分;
Bregman散度
Figure 382118DEST_PATH_IMAGE059
计算公式如下:
Figure DEST_PATH_IMAGE063
其中
Figure DEST_PATH_IMAGE065
为欧式距离计算函数,
Figure DEST_PATH_IMAGE067
为要素或事件样本
Figure DEST_PATH_IMAGE069
的特征表示,
Figure DEST_PATH_IMAGE071
为类别
Figure DEST_PATH_IMAGE073
的原型表示;
余弦相似度分数
Figure 33941DEST_PATH_IMAGE061
计算公式如下:
Figure DEST_PATH_IMAGE075
其中
Figure DEST_PATH_IMAGE077
为类别
Figure DEST_PATH_IMAGE078
的特征表示,
Figure DEST_PATH_IMAGE079
是训练参数;
计算样本
Figure DEST_PATH_IMAGE080
属于类别
Figure 97712DEST_PATH_IMAGE073
的距离相似度分数
Figure DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE084
其中
Figure DEST_PATH_IMAGE086
为训练参数;
计算样本
Figure DEST_PATH_IMAGE088
预测为类别
Figure 93350DEST_PATH_IMAGE073
的概率
Figure DEST_PATH_IMAGE090
Figure DEST_PATH_IMAGE092
其中
Figure DEST_PATH_IMAGE094
为训练-查询集
Figure DEST_PATH_IMAGE096
中的任一类别;
根据训练-查询集中样本类别的真实结果和识别结果,计算元学习模型的损失,并使用Adam算法进行反向传播更新参数,元学习模型的损失函数
Figure DEST_PATH_IMAGE098
如下:
Figure DEST_PATH_IMAGE100
7.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤三中,设所有样本集合为
Figure DEST_PATH_IMAGE102
,设医疗要素识别模型在训练过程中预测的所有非医疗要素片段数量为
Figure DEST_PATH_IMAGE104
,随机采样
Figure DEST_PATH_IMAGE106
个样本,构成负采样样本集合
Figure DEST_PATH_IMAGE108
,其中
Figure DEST_PATH_IMAGE110
;将负采样样本集合送入医疗要素和事件元学习模型,得到负采样样本
Figure DEST_PATH_IMAGE112
属于各类别医疗要素的概率,将概率值作为权重
Figure DEST_PATH_IMAGE114
Figure DEST_PATH_IMAGE116
其中
Figure DEST_PATH_IMAGE118
为预测的样本类别,设共
Figure DEST_PATH_IMAGE120
类医疗要素,构造全局损失函数
Figure DEST_PATH_IMAGE122
为:
Figure DEST_PATH_IMAGE124
使用损失函数
Figure DEST_PATH_IMAGE125
经过梯度反向传播更新医疗要素识别模型参数。
8.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法,其特征在于,所述步骤四中,对于构建好的医疗事件库,计算医疗要素类别
Figure DEST_PATH_IMAGE127
在医疗事件类别
Figure DEST_PATH_IMAGE129
中的重要度分数
Figure DEST_PATH_IMAGE131
Figure DEST_PATH_IMAGE133
其中
Figure DEST_PATH_IMAGE135
为医疗要素类别
Figure 244452DEST_PATH_IMAGE127
在医疗事件类别
Figure 237816DEST_PATH_IMAGE129
中的共现性分数,
Figure DEST_PATH_IMAGE137
为医疗要素类别
Figure 523304DEST_PATH_IMAGE127
与医疗事件类别
Figure 260316DEST_PATH_IMAGE129
的相关性分数;
将医疗要素作为医疗事件的基本维度,多位专家同时对医疗要素打分,设专家
Figure DEST_PATH_IMAGE139
对于医疗事件类别
Figure 49280DEST_PATH_IMAGE129
中的医疗要素类别
Figure DEST_PATH_IMAGE140
打分为
Figure DEST_PATH_IMAGE142
,规定分数为整数且同一专家对各个医疗要素的打分必须不同,分数的取值范围为
Figure DEST_PATH_IMAGE144
,其中
Figure DEST_PATH_IMAGE146
为医疗事件类别
Figure 275862DEST_PATH_IMAGE129
中医疗要素类别总数,计算最终的医疗事件类别
Figure 783067DEST_PATH_IMAGE129
中医疗要素类别
Figure 58190DEST_PATH_IMAGE127
的归一化专家得分
Figure DEST_PATH_IMAGE148
Figure DEST_PATH_IMAGE150
其中
Figure DEST_PATH_IMAGE152
为专家数;计算医疗要素类别
Figure 999864DEST_PATH_IMAGE127
在医疗事件类别
Figure 335030DEST_PATH_IMAGE129
中的最终重要度分数
Figure DEST_PATH_IMAGE154
Figure DEST_PATH_IMAGE156
设输入的中文电子病历文本记为
Figure 595110DEST_PATH_IMAGE017
Figure 939504DEST_PATH_IMAGE004
是输入的文本长度,通过医疗要素识别模型预测得到的医疗要素记为
Figure DEST_PATH_IMAGE158
Figure DEST_PATH_IMAGE160
为文本中医疗要素数量,设共有医疗事件类别Η个;结合医疗要素重要度分数计算文本
Figure 968640DEST_PATH_IMAGE047
属于医疗事件类别
Figure 740287DEST_PATH_IMAGE129
的概率分布
Figure DEST_PATH_IMAGE162
Figure DEST_PATH_IMAGE164
将中文电子病历文本
Figure 222084DEST_PATH_IMAGE047
送入医疗要素和事件元学习模型中,计算文本和各类医疗事件的距离相似度分数
Figure DEST_PATH_IMAGE166
,将距离相似度分数与医疗事件的概率分布结合,得到文本
Figure 370168DEST_PATH_IMAGE047
属于医疗事件类别
Figure 988231DEST_PATH_IMAGE129
的得分
Figure DEST_PATH_IMAGE168
Figure DEST_PATH_IMAGE170
取得分最高的医疗事件类别
Figure DEST_PATH_IMAGE172
作为最终文本
Figure 461938DEST_PATH_IMAGE047
的医疗事件:
Figure DEST_PATH_IMAGE174
9.一种小样本弱标注条件下的医疗事件识别系统,其特征在于,该系统包括:
医疗事件库构建和数据标注模块:基于专家知识定义和构建医疗事件库,所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素;基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注,生成医疗要素识别模型的训练数据;
医疗要素和事件元学习模块:选择并采样各领域公开的中文事件和要素标注语料作为训练集,多轮采样得到对应的训练-支持集和训练-查询集;基于训练-支持集构建对应事件和要素的原型表示;计算训练-查询集样本与原型表示的距离相似度分数,根据真实结果和识别结果计算元学习模型的损失,更新元学习模型参数;将小样本医疗要素和事件数据集作为测试集,采样得到对应的测试-支持集和测试-查询集,将训练得到的元学习模型在测试-支持集上进一步训练得到医疗要素和事件元学习模型;
医疗要素识别模块:训练中文电子病历文本的序列编码器模型,获取文本的字符级语义向量表示;对远程监督方法标注得到的医疗要素片段,计算医疗要素片段的特征表示;利用语义相似度对医疗要素片段进行分类;对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段,构建负采样样本,利用医疗要素和事件元学习模型得到医疗要素类别的权重,计算医疗要素和负采样样本在医疗要素识别模型中的损失,更新医疗要素识别模型参数;利用远程监督方法标注的医疗要素,训练医疗要素识别模型,具体为:
输入的中文电子病历文本记为
Figure DEST_PATH_IMAGE175
Figure 165452DEST_PATH_IMAGE004
是输入的文本长度;通过远程监督方法标注得到的样本记为
Figure DEST_PATH_IMAGE176
,其中样本片段
Figure DEST_PATH_IMAGE177
Figure DEST_PATH_IMAGE178
分别表示样本片段
Figure 881342DEST_PATH_IMAGE012
在文本
Figure 353911DEST_PATH_IMAGE014
中的起始位置和结束位置,
Figure 732940DEST_PATH_IMAGE016
为样本对应的类别;
使用序列编码器模型得到文本的字符级语义向量表示;在医疗要素识别时,对于文本
Figure 923750DEST_PATH_IMAGE002
,通过序列编码器模型获得每个字符的语义向量
Figure DEST_PATH_IMAGE179
对于样本
Figure 413637DEST_PATH_IMAGE020
,计算样本片段
Figure 475134DEST_PATH_IMAGE008
的特征表示
Figure 25064DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE180
其中
Figure 703170DEST_PATH_IMAGE026
表示向量拼接,
Figure 996748DEST_PATH_IMAGE028
表示向量对应位置元素点乘运算;
样本片段的特征表示经过非线性变换,计算并输出样本属于各类别的概率分布
Figure 178331DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE181
其中
Figure 633583DEST_PATH_IMAGE034
为训练参数,
Figure 798985DEST_PATH_IMAGE035
输出维度为样本类别数设为
Figure 365096DEST_PATH_IMAGE037
,即:
Figure 932343DEST_PATH_IMAGE039
其中
Figure 558497DEST_PATH_IMAGE041
表示样本片段
Figure 945616DEST_PATH_IMAGE043
属于类别
Figure 580996DEST_PATH_IMAGE045
的概率;
医疗事件识别模块:基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征,结合专家对医疗事件类别中的医疗要素类别的打分情况,获得各类医疗事件的医疗要素重要度分数;基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段,获得各类医疗事件概率分布;利用医疗要素和事件元学习模型计算中文电子病历文本和各类医疗事件的距离相似度分数,与各类医疗事件概率分布结合,得到对应的医疗事件类别。
CN202111247796.7A 2021-10-26 2021-10-26 一种小样本弱标注条件下的医疗事件识别方法及系统 Active CN113688248B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111247796.7A CN113688248B (zh) 2021-10-26 2021-10-26 一种小样本弱标注条件下的医疗事件识别方法及系统
JP2023536800A JP7464800B2 (ja) 2021-10-26 2022-09-05 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム
PCT/CN2022/116968 WO2023071530A1 (zh) 2021-10-26 2022-09-05 一种小样本弱标注条件下的医疗事件识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111247796.7A CN113688248B (zh) 2021-10-26 2021-10-26 一种小样本弱标注条件下的医疗事件识别方法及系统

Publications (2)

Publication Number Publication Date
CN113688248A CN113688248A (zh) 2021-11-23
CN113688248B true CN113688248B (zh) 2022-02-22

Family

ID=78588046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111247796.7A Active CN113688248B (zh) 2021-10-26 2021-10-26 一种小样本弱标注条件下的医疗事件识别方法及系统

Country Status (3)

Country Link
JP (1) JP7464800B2 (zh)
CN (1) CN113688248B (zh)
WO (1) WO2023071530A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688248B (zh) * 2021-10-26 2022-02-22 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统
CN114298042B (zh) * 2021-11-30 2024-10-15 清华大学 实体链接方法、实体链接模型训练方法及电子设备
CN115187187A (zh) * 2022-05-25 2022-10-14 中核武汉核电运行技术股份有限公司 一种核电数据标注工具
CN116452895B (zh) * 2023-06-13 2023-10-20 中国科学技术大学 基于多模态对称增强的小样本图像分类方法、装置及介质
CN117493504A (zh) * 2023-09-28 2024-02-02 之江实验室 一种基于生成式预训练语言模型的医疗事件抽取方法
CN117390090B (zh) * 2023-12-11 2024-04-12 安徽思高智能科技有限公司 一种rpa流程挖掘方法、存储介质、电子设备
CN117435747B (zh) * 2023-12-18 2024-03-29 中南大学 基于多层级细化网络的少样本链接预测药物再利用方法
CN117520484B (zh) * 2024-01-04 2024-04-16 中国电子科技集团公司第十五研究所 基于大数据语义的相似事件检索方法、系统、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130282A1 (en) * 2017-10-31 2019-05-02 Microsoft Technology Licensing, Llc Distant Supervision for Entity Linking with Filtering of Noise
CN111834014A (zh) * 2020-07-17 2020-10-27 北京工业大学 一种医疗领域命名实体识别方法及系统
CN112906393A (zh) * 2021-03-05 2021-06-04 杭州费尔斯通科技有限公司 一种基于元学习的少样本实体识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357924B (zh) * 2017-07-25 2020-04-24 为朔医学数据科技(北京)有限公司 一种精准医学知识图谱构建方法和装置
US11322256B2 (en) * 2018-11-30 2022-05-03 International Business Machines Corporation Automated labeling of images to train machine learning
CN110473192B (zh) * 2019-04-10 2021-05-14 腾讯医疗健康(深圳)有限公司 消化道内镜图像识别模型训练及识别方法、装置及系统
CN112365464B (zh) * 2020-11-09 2021-08-10 成都信息工程大学 一种基于gan的医学图像病变区域弱监督定位方法
CN112488996A (zh) * 2020-11-18 2021-03-12 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 非齐次三维食管癌能谱ct弱监督自动标注方法与系统
CN112598622B (zh) * 2020-12-03 2022-08-09 天津理工大学 一种融合深度多示例学习和包间相似性的乳腺癌检测方法
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN113688248B (zh) * 2021-10-26 2022-02-22 之江实验室 一种小样本弱标注条件下的医疗事件识别方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130282A1 (en) * 2017-10-31 2019-05-02 Microsoft Technology Licensing, Llc Distant Supervision for Entity Linking with Filtering of Noise
CN111834014A (zh) * 2020-07-17 2020-10-27 北京工业大学 一种医疗领域命名实体识别方法及系统
CN112906393A (zh) * 2021-03-05 2021-06-04 杭州费尔斯通科技有限公司 一种基于元学习的少样本实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Natural Language Processing System That Links Medical Terms in Electronic Health Record Notes to Lay Definitions: System Development Using Physician Reviews;Chen J等;《J Med Internet Res 2018》;20180122;第20卷(第1期);第1-16页 *
Few-shot Learning for Named Entity Recognition in Medical Text;Maximilian Hofer等;《https://www.researchgate.net/publication/328953126》;20181130;第1-10页 *

Also Published As

Publication number Publication date
JP7464800B2 (ja) 2024-04-09
WO2023071530A1 (zh) 2023-05-04
CN113688248A (zh) 2021-11-23
JP2023552912A (ja) 2023-12-19

Similar Documents

Publication Publication Date Title
CN113688248B (zh) 一种小样本弱标注条件下的医疗事件识别方法及系统
CN110032648B (zh) 一种基于医学领域实体的病历结构化解析方法
US20210233658A1 (en) Identifying Relevant Medical Data for Facilitating Accurate Medical Diagnosis
Kang et al. Pretraining to recognize PICO elements from randomized controlled trial literature
Teng et al. A review on deep neural networks for ICD coding
CN113035362A (zh) 一种基于语义图网络的医疗预测方法及系统
CN112420191A (zh) 一种中医辅助决策系统及方法
CN117854665A (zh) 儿科患者电子健康记录系统
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
Ravikumar et al. Machine learning model for clinical named entity recognition
Pendyala et al. Automated medical diagnosis from clinical data
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
Lu et al. [Retracted] A Deep Learning‐Based Text Classification of Adverse Nursing Events
Malgieri Ontologies, Machine Learning and Deep Learning in Obstetrics
D'Souza et al. Diabetes Detection Using Machine Learning Algorithms
Singh et al. Deep learning in content-based medical image retrieval
Pathak Automatic structuring of breast cancer radiology reports for quality assurance
US11928186B2 (en) Combined deep learning and knowledge driven reasoning for artificial intelligence classification
Ma et al. Event extraction of Chinese electronic medical records based on BiGRU-CRF
CN114582449A (zh) 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统
CN118538399B (zh) 一种智能儿科疾病诊断辅助系统
Miranda et al. Deep Learning for Multi-Label ICD-9 Classification of Hospital Discharge Summaries
Yang Deep Learning Methods for Patient Phenotyping from Electronic Health Records
Nurmahomed Hospital readmission prediction with long clinical notes
Wang et al. Chinese Medical Record Entity Recognition Based on Lexicon and Self-attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant