CN112614562A - 基于电子病历的模型训练方法、装置、设备及存储介质 - Google Patents

基于电子病历的模型训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112614562A
CN112614562A CN202011556584.2A CN202011556584A CN112614562A CN 112614562 A CN112614562 A CN 112614562A CN 202011556584 A CN202011556584 A CN 202011556584A CN 112614562 A CN112614562 A CN 112614562A
Authority
CN
China
Prior art keywords
model
label
medical record
free
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011556584.2A
Other languages
English (en)
Other versions
CN112614562B (zh
Inventor
罗永贵
张晓璐
肖劲
贾晓鹏
刘霄晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lianren Healthcare Big Data Technology Co Ltd
Original Assignee
Lianren Healthcare Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lianren Healthcare Big Data Technology Co Ltd filed Critical Lianren Healthcare Big Data Technology Co Ltd
Priority to CN202011556584.2A priority Critical patent/CN112614562B/zh
Priority claimed from CN202011556584.2A external-priority patent/CN112614562B/zh
Publication of CN112614562A publication Critical patent/CN112614562A/zh
Application granted granted Critical
Publication of CN112614562B publication Critical patent/CN112614562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明实施例公开了一种基于电子病历的模型训练方法、装置、设备及存储介质,该方法包括:获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型;基于所述目标第一模型,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据;基于所述目标第二模型,确定所述无标注训练数据对应的样本标注内容;基于所述样本标注内容和所述无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。本发明实施例通过从医疗无标注数据库中抽取与病历领域对应的无标注训练数据,并基于无标注训练数据对初始标注模型进行训练,解决了由于病历领域训练样本不足导致现有神经网络模型的模型精度不高的问题。

Description

基于电子病历的模型训练方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据挖掘技术领域,尤其涉及一种基于电子病历的模型训练方法、装置、设备及存储介质。
背景技术
结构化电子病历是指从医学信息学的角度将以自然语言方式录入的医疗文本按照医学术语的要求进行结构化分析,并将这些语义结构最终以关系型结构的方式保存到数据库中。电子病历的结构化服务于药物临床试验和医疗科研分析等应用场景,由于医疗领域特殊而严格的合规性要求,使得对电子病历结构化的精度等指标有这严苛的要求。
当前主流的将电子病历进行结构化的方式是采用神经网络模型,但神经网络模型依赖于大量的样本标注数据,而样本标注数据主要通过人工标注的方式得到,样本标注数据获取困难且样本量少,从而导致现有的神经网络模型的精度较差。为克服精度不佳的问题,现有技术往往会提高神经网络模型的复杂度,但复杂的神经网络模型会使得后续电子病历结构化的部署工作难度较大。
发明内容
本发明实施例提供了一种基于电子病历的模型训练方法、装置、设备及存储介质,以增加病历领域的标注数据的样本量,解决现有神经网络模型的精度不高的问题,进而避免提高神经网络模型的复杂度。
第一方面,本发明实施例提供了一种基于电子病历的模型训练方法,该方法包括:
获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型;
基于所述目标第一模型,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据;
基于所述目标第二模型,确定所述无标注训练数据对应的样本标注内容;
基于所述样本标注内容和所述无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。
第二方面,本发明实施例还提供了一种基于电子病历的模型训练装置,该装置包括:
目标模型获取模块,用于获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型;
无标注训练数据确定模块,用于基于所述目标第一模型,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据;
样本标注内容确定模块,用于基于所述目标第二模型,确定所述无标注训练数据对应的样本标注内容;
目标标注模型确定模块,用于基于所述样本标注内容和所述无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述所涉及的任一所述的基于电子病历的模型训练方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述所涉及的任一所述的基于电子病历的模型训练方法。
本发明实施例通过基于预先训练完成的目标第一模型从医疗无标注数据库中筛选得到与病历领域对应的无标注训练数据,并基于训练完成的目标第二模型确定无标注训练数据对应的样本标注内容,通过样本标注内容和无标注训练数据对初始标注模型进行训练,实现了增加训练样本量的目的,从而解决了由于病历领域的标注病历数据的样本量不足导致的神经网络模型训练精度不高,且神经网络模型结构复杂的问题,降低了后续电子病历结构化的部署工作的难度和提高了预测结果的输出效率。
附图说明
图1是本发明实施例一提供的一种基于电子病历的模型训练方法的流程图。
图2是本发明实施例二提供的一种基于电子病历的模型训练方法的流程图。
图3是本发明实施例二提供的一种基于电子病历的模型训练方法的具体实例的流程图。
图4是本发明实施例三提供的一种基于电子病历的模型训练装置的示意图。
图5是本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种基于电子病历的模型训练方法的流程图,本实施例可适用于对电子病历结构化场景下的神经网络模型进行训练的情况,该方法可以由基于电子病历的模型训练装置来执行,该装置可采用软件和/或硬件的方式实现,该装置可以配置于终端设备中。具体包括如下步骤:
S110、获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型。
其中,示例性的,病历领域可以是专病科室,如皮肤科、心脑血管科或耳鼻喉科等等,当然,病历领域还可以是专门的疾病,如心肌炎、脑卒中或白血病等等。此处对病历领域的具体设置不作限定,可根据实际场景需求对病历领域进行定义。
其中,具体的,样本标注内容可用于描述数据中记录的医学信息,示例性的,样本标注内容包括但不限于症状描述信息、患者以往治疗信息、用药信息和疾病诊断信息中至少一种。此处对样本标注内容不作限定,可根据实际场景需求对样本标注内容进行定义。
在一个实施例中,可选的,该方法还包括:基于医疗无标注数据库中的无标注数据和自监督学习算法对初始第一模型进行训练,得到训练完成的预训练第一模型;获取与病历领域对应的标注病历训练数据,并基于标注病历训练数据和预训练第一模型,确定与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型。
其中,自监督学习算法是从大规模的无监督数据中挖掘自身的监督信息,通过该监督信息对网络模型进行训练,从而可以学习到对下游任务有价值的表征。其中,具体的,医疗无标注数据库包含海量与各类医学领域分别对应的无标注数据,示例性的,医疗无标注数据库中的无标注数据包括但不限于无标注病历数据、无标注药物数据和无标注医学词条数据等等。
其中,具体的,标注病历训练数据包括与病历领域对应的无标注电子病历和样本标注内容。示例性的,标注病历训练数据可以是对病历领域采集到的无标注电子病历进行标注后得到的数据。
在一个实施例中,可选的,基于标注病历训练数据和预训练第一模型,确定与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型,包括:将初始分类层添加到预训练第一模型中,并基于标注病历训练数据对添加后的预训练第一模型进行训练,得到与样本标注内容对应的目标第二模型;将不包含训练完成的目标分类层的目标第二模型作为与病历领域对应的目标第一模型。
其中,具体的,初始分类层用于基于预训练第一模型输出的特征向量,确定输入的无标注病历数据对应的标注内容。示例性的,将初始分类层作为添加后的预训练第一模型中的最后一层。其中,示例性的,初始分类层可以是softmax分类层或sigmoid分类层。
其中,具体的,将标注病历训练数据中的无标注电子病历输入到添加后的预训练第一模型中,并基于标注病历训练数据中的样本标注内容和输出结果对添加后的预训练第一模型进行训练,得到训练完成的与样本标注内容对应的目标第二模型。在本实施例中,可采用少量的标注病历训练数据对添加后的预训练第一模型进行微调训练,得到目标第二模型。
其中,目标分类层是添加后的预训练第一模型中的初始分类层经过标注病历训练数据训练后得到的。目标第二模型的最后一层为目标分类层,目标第一模型的最后一层为目标第二模型的倒数第二层,即目标分类层的上一层。
S120、基于目标第一模型,确定医疗无标注数据库中与病历领域对应的无标注训练数据。
其中,具体的,将医疗无标注数据库中的无标注数据输入到目标第一模型中,基于目标第一模型输出的特征向量对医疗无标注数据库中的无标注数据进行筛选,得到无标注训练数据。
S130、基于目标第二模型,确定无标注训练数据对应的样本标注内容。
其中,具体的,将无标注训练数据输入到目标第二模型中,得到输出的与无标注训练数据对应的样本标注内容。
S140、基于样本标注内容和无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。
其中,具体的,将无标注训练数据输入到初始标注模型中,基于输出的预测标注内容和样本标注内容,对初始标注模型的模型参数进行调整,当满足预设条件时,得到训练完成的目标标注模型。其中,示例性的,预设条件可以是基于预测标注内容和样本标注内容确定的损失函数收敛。目标标注模型包括但不限于卷积神经网络模型、反卷积神经网络模型、深度卷积网络模型、生成式对抗网络模型、循环神经网络模型或深度残差网络模型等等。
在上述实施例的基础上,可选的,该方法还包括:将与病历领域对应的被测无标注病历数据输入到目标标注模型中,得到输出的与被测无标注病历数据对应的目标标注内容;将目标标注内容与医学字典库中的标准标注内容进行匹配,并基于匹配成功的标准标注内容和医学知识库中与标准标注内容对应的知识内容,生成结构化电子病历。
由于目标标注模型是基于样本标注内容和与病历领域对应的无标注训练数据训练得到的,因此,目标标注模型具备对病历领域的被测无标注病历数据的识别能力。
由于不同医生的撰写习惯不同,即便是针对相同的疾病,不同医生撰写的电子病历中的患者症状信息也是多样的。示例性的,对于“发烧”而言,电子病历A中的患者症状信息可能是“持续高烧38°”,电子病历B中的患者症状信息可能是“体温测量结果为38°”。为了实现对电子病历的结构化管理,便于后续对电子病历进行查找和分类等操作,需要将识别到的目标标注内容以规范化的方式进行整理归类。
其中,具体的,医学字典库包含至少一种与医学相关的标准标注内容。医学知识库包含与各标准标注内容对应的知识内容,示例性的,知识内容包括对标准标注内容的解释说明内容和/或治疗方案等。举例而言,标准标注内容为“发烧”,则与“发烧”对应的知识内容可以是“正常人在体温调节中枢的调控下,机体的产热和散热过程经常保持动态平衡,当机体在致热源作用下或体温中枢的功能障碍时,使产热过程增加,而散热不能相应地随之增加或散热减少,体温升高超过正常范围,称为发热”。
其中,示例性的,目标标注内容与标准标注内容的匹配方式包括但不限于Jaccard相似度算法、simhash相似度算法或基于向量空间模型的余弦相似度算法等等。
本实施例的技术方案,通过基于预先训练完成的目标第一模型从医疗无标注数据库中筛选得到与病历领域对应的无标注训练数据,并基于训练完成的目标第二模型确定无标注训练数据对应的样本标注内容,通过样本标注内容和无标注训练数据对初始标注模型进行训练,实现了增加训练样本量的目的,从而解决了由于病历领域的标注病历数据的样本量不足导致的神经网络模型训练精度不高,且神经网络模型结构复杂的问题,降低了后续电子病历结构化的部署工作的难度和提高了预测结果的输出效率。
实施例二
图2是本发明实施例二提供的一种基于电子病历的模型训练方法的流程图,本实施例的技术方案是上述实施例的基础上的进一步细化。可选的,基于目标第一模型,确定医疗无标注数据库中与病历领域对应的无标注训练数据,包括:将医疗无标注数据库中的无标注数据和与病历领域对应的无标注病历对照数据分别输入到目标第一模型中,得到输出的与医疗无标注数据库对应的筛选特征向量和与无标注病历对照数据对应的对照特征向量;基于筛选特征向量和对照特征向量,确定医疗无标注数据库中与病历领域对应的无标注训练数据。
本实施例的具体实施步骤包括:
S210、获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型。
S220、将医疗无标注数据库中的无标注数据和与病历领域对应的无标注病历对照数据分别输入到目标第一模型中,得到输出的与医疗无标注数据库对应的筛选特征向量和与无标注病历对照数据对应的对照特征向量。
其中,具体的,无标注病历对照数据可以是基于病历领域采集到的无标注电子病历。示例性的,当病历领域为心脑血管科时,将在心脑血管科收集到的电子病历作为无标注病历对照数据。当病历领域为脑卒中时,将收集到的与脑卒中相关的电子病历作为无标注病历对照数据。
其中,具体的,目标第一模型对输入的医疗无标注数据库中至少一个无标注数据分别进行特征提取,输出与各无标注数据分别对应的筛选特征向量。目标第一模型对输入的至少一个无标注病历对照数据分别进行特征提取,输出与各无标注病历对照数据分别对应的对照特征向量。
S230、基于筛选特征向量和对照特征向量,确定医疗无标注数据库中与病历领域对应的无标注训练数据。
在一个实施例中,可选的,基于筛选特征向量和对照特征向量,确定医疗无标注数据库中与病历领域对应的无标注训练数据,包括:针对每个筛选特征向量,将筛选特征向量分别与至少一个对照特征向量进行匹配,并将匹配成功的筛选特征向量对应的无标注数据作为与病历领域对应的无标注训练数据;或者,将至少一个对照特征向量进行聚类处理,得到至少一个聚类特征向量;针对每个筛选特征向量,将筛选特征向量分别与至少一个聚类特征向量进行匹配,将匹配成功的筛选特征向量对应的无标注数据作为与病历领域对应的无标注训练数据。
在一个实施例中,将至少一个对照特征向量作为一个对照向量集合,每个筛选特征向量与该对照向量集合中的每个对照特征向量分别进行匹配。其中,示例性的,匹配的算法可以是余弦相似度匹配。
在一个实施例中,可选的,如果对照向量集合中存在与筛选特征向量的匹配相似度大于预设相似度阈值的对照特征向量,则将筛选特征向量作为匹配成功的筛选特征向量;如果对照向量集合中不存在与筛选特征向量的匹配相似度大于预设相似度阈值的对照特征向量,则将筛选特征向量作为匹配失败的筛选特征向量。其中,示例性的,预设相似度阈值可以是80%或90%。
在一个实施例中,可选的,在筛选特征向量与对照向量集合进行匹配的过程中,如果匹配到与筛选特征向量的匹配相似度大于预设相似度阈值的对照特征向量,则结束当前匹配过程,得到匹配成功的筛选特征向量。这样设置的好处在于,避免每个筛选特征特征向量均需与所有的对照特征向量匹配,从而提高对无标注训练数据的筛选效率。
在另一个实施例中,示例性的,聚类处理的算法包括但不限于K-Means聚类算法、均值漂移聚类算法、基于密度的聚类算法、基于高斯混合模型的最大期望聚类算法、凝聚层次聚类算法或图团体检测算法等等。举例而言,当病历领域为耳鼻喉科时,各聚类特征向量对应的无标注病历对照数据分别为与耳朵疾病相关的无标注病历对照数据、与鼻子疾病相关的无标注病历对照数据和与咽喉疾病相关的无标注病历对照数据。
在一个实施例中,可选的,如果聚类特征向量与筛选特征向量的匹配相似度大于预设相似度阈值,则将筛选特征向量作为匹配成功的筛选特征向量;如果聚类特征向量与筛选特征向量的匹配相似度小于等于预设相似度阈值,则将筛选特征向量作为匹配失败的筛选特征向量。
在本实施例中,通过对对照特征向量进行聚类处理,并将每个筛选特征向量与聚类处理得到的聚类特征向量进行匹配,降低了医疗无标注数据库对应的筛选特征向量匹配次数,从而提高了对无标注训练数据的筛选效率。
S240、基于目标第二模型,确定无标注训练数据对应的样本标注内容。
在上述实施例的基础上,可选的,基于目标第二模型,确定无标注训练数据对应的样本标注内容,包括:将与病历领域对应的无标注病历对照数据添加到无标注训练数据中,并将无标注训练数据输入到目标第二模型中,得到输出的样本标注内容。
其中,具体的,无标注训练数据包括基于医疗无标注数据库筛选得到的与病历领域对应的无标注数据和与病历领域对应的无标注病历对照数据。这样设置的好处在于,进一步增加无标注训练数据的数据量,从而提高后续训练得到的目标标注模型的识别结果的准确度。
S250、基于样本标注内容和无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。
图3是本发明实施例二提供的一种基于电子病历的模型训练方法的具体实例的流程图。具体的,医疗无标注数据库包含海量医疗行业的无标注数据,基于医疗无标注数据库对初始第一模型进行自监督训练,得到预训练第一模型。将初始分类层添加到预训练第一模型后,基于标注病历训练数据对添加后的预训练第一模型进行训练得到目标第二模型。示例性的,标注病历训练数据可以是对基于病历领域采集到的无标注电子病历进行标注后得到的病历数据。基于目标第二模型中不包含目标分类层的网络结构生成目标第一模型,基于目标第一模型和无标注病历对照数据,对医疗无标注数据库中的无标注数据进行筛选,得到与病历领域对应的无标注训练数据。将无标注病历对照数据作为无标注训练数据,与筛选得到的无标注训练数据均输入到目标第二模型中,得到输出的样本标注内容。基于样本标注内容、与样本标注内容对应的无标注病历对照数据和筛选得到的无标注训练数据,对初始标注模型进行训练,得到训练完成的目标标注模型。将被测无标注病历数据输入到目标标注模型中,得到输出的目标标注内容。将目标标注内容与医学字典库中的标准标注内容进行匹配,并基于匹配成功的标准标注内容和医学知识库中与标准标注内容对应的知识内容,生成结构化电子病历。
本实施例的技术方案,通过将医疗无标注数据库中的无标注数据和与病历领域对应的无标注病历对照数据分别输入到目标第一模型中,并基于目标第一模型输出的筛选特征向量和对照特征向量,在医疗无标注数据库中筛选与病历领域对应的无标注训练数据,解决了实际采集到的与病历领域对应的无标注数据较少的问题,充分利用了医疗无标注数据库中与病历领域对应的无标注数据,增加了训练样本量,从而简化了目标标注模型的模型结构复杂度。
实施例三
图4是本发明实施例三提供的一种基于电子病历的模型训练装置的示意图。本实施例可适用于对电子病历结构化场景下的神经网络模型进行训练的情况,该装置可采用软件和/或硬件的方式实现,该装置可以配置于终端设备中。该基于电子病历的模型训练装置包括:目标模型获取模块310、无标注训练数据确定模块320、样本标注内容确定模块330和目标标注模型确定模块340。
其中,目标模型获取模块310,用于获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型;
无标注训练数据确定模块320,用于基于目标第一模型,确定医疗无标注数据库中与病历领域对应的无标注训练数据;
样本标注内容确定模块330,用于基于目标第二模型,确定无标注训练数据对应的样本标注内容;
目标标注模型确定模块340,用于基于样本标注内容和无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。
本实施例的技术方案,通过基于预先训练完成的目标第一模型从医疗无标注数据库中筛选得到与病历领域对应的无标注训练数据,并基于训练完成的目标第二模型确定无标注训练数据对应的样本标注内容,通过样本标注内容和无标注训练数据对初始标注模型进行训练,实现了增加训练样本量的目的,从而解决了由于病历领域的标注病历数据的样本量不足导致的神经网络模型训练精度不高,且神经网络模型结构复杂的问题,降低了后续电子病历结构化的部署工作的难度和提高了预测结果的输出效率。
在上述技术方案的基础上,可选的,该装置还包括:
预训练第一模型确定模块,用于基于医疗无标注数据库中的无标注数据和自监督学习算法对初始第一模型进行训练,得到训练完成的预训练第一模型;
目标第二模型确定模块,用于获取与病历领域对应的标注病历训练数据,并基于标注病历训练数据和预训练第一模型,确定与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型。
在上述技术方案的基础上,可选的,目标第二模型确定模块,包括:
目标第二模型确定单元,用于将初始分类层添加到预训练第一模型中,并基于标注病历训练数据对添加后的预训练第一模型进行训练,得到与样本标注内容对应的目标第二模型;
目标第一模型确定单元,用于将不包含训练完成的目标分类层的目标第二模型作为与病历领域对应的目标第一模型。
在上述技术方案的基础上,可选的,无标注训练数据确定模块320包括:
特征向量输出单元,用于将医疗无标注数据库中的无标注数据和与病历领域对应的无标注病历对照数据分别输入到目标第一模型中,得到输出的与医疗无标注数据库对应的筛选特征向量和与无标注病历对照数据对应的对照特征向量;
无标注训练数据确定单元,用于基于筛选特征向量和对照特征向量,确定医疗无标注数据库中与病历领域对应的无标注训练数据。
在上述技术方案的基础上,可选的,无标注训练数据确定单元,具体用于:
针对每个筛选特征向量,将筛选特征向量分别与至少一个对照特征向量进行匹配,并将匹配成功的筛选特征向量对应的无标注数据作为与病历领域对应的无标注训练数据;或者,
将至少一个对照特征向量进行聚类处理,得到至少一个聚类特征向量;
针对每个筛选特征向量,将筛选特征向量分别与至少一个聚类特征向量进行匹配,将匹配成功的筛选特征向量对应的无标注数据作为与病历领域对应的无标注训练数据。
在上述技术方案的基础上,可选的,样本标注内容确定模块330,具体用于:
将与病历领域对应的无标注病历对照数据添加到无标注训练数据中,并将无标注训练数据输入到目标第二模型中,得到输出的样本标注内容。
在上述技术方案的基础上,可选的,该装置还包括:
结构化电子病历生成模块,用于将与病历领域对应的被测无标注病历数据输入到目标标注模型中,得到输出的与被测无标注病历数据对应的目标标注内容;将目标标注内容与医学字典库中的标准标注内容进行匹配,并基于匹配成功的标准标注内容和医学知识库中与标准标注内容对应的知识内容,生成结构化电子病历。
本发明实施例所提供的基于电子病历的模型训练装置可以用于执行本发明实施例所提供的基于电子病历的模型训练方法,具备执行方法相应的功能和有益效果。
值得注意的是,上述基于电子病历的模型训练装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例四
图5是本发明实施例四提供的一种电子设备的结构示意图,本发明实施例为本发明上述实施例的基于电子病历的模型训练方法的实现提供服务,可配置上述实施例中的基于电子病历的模型训练装置。图5示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图5显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MAC)总线、增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于电子病历的模型训练方法。
通过上述电子设备,解决了现有神经网络模型的模型结构复杂的问题,降低了神经网络模型的模型结构的复杂度,进而降低了后续电子病历结构化的部署工作的难度。
实施例五
本发明实施例五还提供了一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种基于电子病历的模型训练方法,该方法包括:
获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型;
基于目标第一模型,确定医疗无标注数据库中与病历领域对应的无标注训练数据;
基于目标第二模型,确定无标注训练数据对应的样本标注内容;
基于样本标注内容和无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的基于电子病历的模型训练方法中的相关操作。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于电子病历的模型训练方法,其特征在于,包括:
获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型;
基于所述目标第一模型,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据;
基于所述目标第二模型,确定所述无标注训练数据对应的样本标注内容;
基于所述样本标注内容和所述无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于医疗无标注数据库中的无标注数据和自监督学习算法对初始第一模型进行训练,得到训练完成的预训练第一模型;
获取与病历领域对应的标注病历训练数据,并基于所述标注病历训练数据和所述预训练第一模型,确定与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述标注病历训练数据和所述预训练第一模型,确定与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型,包括:
将初始分类层添加到所述预训练第一模型中,并基于所述标注病历训练数据对添加后的预训练第一模型进行训练,得到与样本标注内容对应的目标第二模型;
将不包含训练完成的目标分类层的目标第二模型作为与病历领域对应的目标第一模型。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标第一模型,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据,包括:
将医疗无标注数据库中的无标注数据和与所述病历领域对应的无标注病历对照数据分别输入到所述目标第一模型中,得到输出的与所述医疗无标注数据库对应的筛选特征向量和与所述无标注病历对照数据对应的对照特征向量;
基于所述筛选特征向量和所述对照特征向量,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据。
5.根据权利要求4所述的方法,其特征在于,所述基于所述筛选特征向量和所述对照特征向量,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据,包括:
针对每个筛选特征向量,将所述筛选特征向量分别与至少一个对照特征向量进行匹配,并将匹配成功的筛选特征向量对应的无标注数据作为与所述病历领域对应的无标注训练数据;或者,
将至少一个对照特征向量进行聚类处理,得到至少一个聚类特征向量;
针对每个筛选特征向量,将所述筛选特征向量分别与至少一个聚类特征向量进行匹配,将匹配成功的筛选特征向量对应的无标注数据作为与所述病历领域对应的无标注训练数据。
6.根据权利要求4所述的方法,其特征在于,所述基于所述目标第二模型,确定所述无标注训练数据对应的样本标注内容,包括:
将与所述病历领域对应的无标注病历对照数据添加到无标注训练数据中,并将所述无标注训练数据输入到所述目标第二模型中,得到输出的样本标注内容。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将与病历领域对应的被测无标注病历数据输入到所述目标标注模型中,得到输出的与所述被测无标注病历数据对应的目标标注内容;
将所述目标标注内容与医学字典库中的标准标注内容进行匹配,并基于匹配成功的标准标注内容和医学知识库中与所述标准标注内容对应的知识内容,生成结构化电子病历。
8.一种基于电子病历的模型训练装置,其特征在于,包括:
目标模型获取模块,用于获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型;
无标注训练数据确定模块,用于基于所述目标第一模型,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据;
样本标注内容确定模块,用于基于所述目标第二模型,确定所述无标注训练数据对应的样本标注内容;
目标标注模型确定模块,用于基于所述样本标注内容和所述无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于电子病历的模型训练方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的基于电子病历的模型训练方法。
CN202011556584.2A 2020-12-23 基于电子病历的模型训练方法、装置、设备及存储介质 Active CN112614562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011556584.2A CN112614562B (zh) 2020-12-23 基于电子病历的模型训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011556584.2A CN112614562B (zh) 2020-12-23 基于电子病历的模型训练方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112614562A true CN112614562A (zh) 2021-04-06
CN112614562B CN112614562B (zh) 2024-05-31

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343703A (zh) * 2021-08-09 2021-09-03 北京惠每云科技有限公司 医学实体的分类提取方法、装置、电子设备及存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142997A (ja) * 1999-11-11 2001-05-25 Sanyo Electric Co Ltd 電子カルテシステム
CN107910066A (zh) * 2017-11-13 2018-04-13 医渡云(北京)技术有限公司 病历评估方法、装置、电子设备及存储介质
CN109378065A (zh) * 2018-10-30 2019-02-22 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN109886342A (zh) * 2019-02-26 2019-06-14 视睿(杭州)信息科技有限公司 基于机器学习的模型训练方法和装置
CN110010217A (zh) * 2019-04-11 2019-07-12 中国医学科学院医学信息研究所 一种电子病历的标注方法及装置
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110287480A (zh) * 2019-05-27 2019-09-27 广州多益网络股份有限公司 一种命名实体识别方法、装置、存储介质及终端设备
CN110472229A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
WO2020019797A1 (zh) * 2018-07-23 2020-01-30 无锡慧方科技有限公司 电子病历数据解析方法、装置、计算机及可读存储介质
CN111222340A (zh) * 2020-01-15 2020-06-02 东华大学 基于多标准主动学习的乳腺电子病历实体识别系统
CN111274425A (zh) * 2020-01-20 2020-06-12 平安科技(深圳)有限公司 医疗影像分类方法、装置、介质及电子设备
CN111444686A (zh) * 2020-03-16 2020-07-24 上海联影智能医疗科技有限公司 医学数据标注方法、装置、存储介质及计算机设备
CN111783981A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 模型训练方法、装置、电子设备及可读存储介质
CN111834014A (zh) * 2020-07-17 2020-10-27 北京工业大学 一种医疗领域命名实体识别方法及系统
CN111859857A (zh) * 2020-06-30 2020-10-30 上海森亿医疗科技有限公司 基于标注文本的训练数据集生成方法、系统、设备和介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142997A (ja) * 1999-11-11 2001-05-25 Sanyo Electric Co Ltd 電子カルテシステム
CN107910066A (zh) * 2017-11-13 2018-04-13 医渡云(北京)技术有限公司 病历评估方法、装置、电子设备及存储介质
WO2020019797A1 (zh) * 2018-07-23 2020-01-30 无锡慧方科技有限公司 电子病历数据解析方法、装置、计算机及可读存储介质
CN109378065A (zh) * 2018-10-30 2019-02-22 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN109886342A (zh) * 2019-02-26 2019-06-14 视睿(杭州)信息科技有限公司 基于机器学习的模型训练方法和装置
CN110010217A (zh) * 2019-04-11 2019-07-12 中国医学科学院医学信息研究所 一种电子病历的标注方法及装置
WO2020211275A1 (zh) * 2019-04-18 2020-10-22 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110287480A (zh) * 2019-05-27 2019-09-27 广州多益网络股份有限公司 一种命名实体识别方法、装置、存储介质及终端设备
CN110472229A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 序列标注模型训练方法、电子病历处理方法及相关装置
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
CN111222340A (zh) * 2020-01-15 2020-06-02 东华大学 基于多标准主动学习的乳腺电子病历实体识别系统
CN111274425A (zh) * 2020-01-20 2020-06-12 平安科技(深圳)有限公司 医疗影像分类方法、装置、介质及电子设备
CN111444686A (zh) * 2020-03-16 2020-07-24 上海联影智能医疗科技有限公司 医学数据标注方法、装置、存储介质及计算机设备
CN111783981A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 模型训练方法、装置、电子设备及可读存储介质
CN111859857A (zh) * 2020-06-30 2020-10-30 上海森亿医疗科技有限公司 基于标注文本的训练数据集生成方法、系统、设备和介质
CN111834014A (zh) * 2020-07-17 2020-10-27 北京工业大学 一种医疗领域命名实体识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王润奇等: "基于Tri-Training 算法的中文电子病历实体识别研究", 《智能计算机与应用》, vol. 7, no. 6, pages 132 - 134 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343703A (zh) * 2021-08-09 2021-09-03 北京惠每云科技有限公司 医学实体的分类提取方法、装置、电子设备及存储介质
CN113343703B (zh) * 2021-08-09 2021-10-29 北京惠每云科技有限公司 医学实体的分类提取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US10929420B2 (en) Structured report data from a medical text report
CN108831559B (zh) 一种中文电子病历文本分析方法与系统
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
CN108733778B (zh) 对象的行业类型识别方法和装置
CN112001177A (zh) 融合深度学习与规则的电子病历命名实体识别方法及系统
WO2021184468A1 (zh) 行为识别方法、装置、设备及介质
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
Liu et al. Exploiting web images for fine-grained visual recognition by eliminating open-set noise and utilizing hard examples
Pizzagalli et al. A trainable clustering algorithm based on shortest paths from density peaks
CN110889275A (zh) 一种基于深度语义理解的信息抽取方法
CN111177356A (zh) 一种酸碱指标医疗大数据分析方法及系统
Leng et al. Bi-level artificial intelligence model for risk classification of acute respiratory diseases based on Chinese clinical data
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN112749277B (zh) 医学数据的处理方法、装置及存储介质
CN116663536B (zh) 一种临床诊断标准词的匹配方法及装置
CN111145854B (zh) 一种基于主题模型的胸部x光片诊断报告异常检测方法
EP4068121A1 (en) Method and apparatus for acquiring character, page processing method, method for constructing knowledge graph, and medium
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN111063445A (zh) 基于医疗数据的特征提取方法及装置、设备和介质
CN112614562B (zh) 基于电子病历的模型训练方法、装置、设备及存储介质
CN112614562A (zh) 基于电子病历的模型训练方法、装置、设备及存储介质
CN111507109A (zh) 电子病历的命名实体识别方法及装置
US11270155B2 (en) Duplicate image detection based on image content
CN111552780B (zh) 医用场景的搜索处理方法、装置、存储介质及电子设备
CN113111660A (zh) 数据处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant