CN116525125A - 一种虚拟电子病历的生成方法及装置 - Google Patents

一种虚拟电子病历的生成方法及装置 Download PDF

Info

Publication number
CN116525125A
CN116525125A CN202310811543.0A CN202310811543A CN116525125A CN 116525125 A CN116525125 A CN 116525125A CN 202310811543 A CN202310811543 A CN 202310811543A CN 116525125 A CN116525125 A CN 116525125A
Authority
CN
China
Prior art keywords
entity
medical record
electronic medical
text
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310811543.0A
Other languages
English (en)
Other versions
CN116525125B (zh
Inventor
李劲松
周逸飞
杨宗峰
周天舒
田雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310811543.0A priority Critical patent/CN116525125B/zh
Publication of CN116525125A publication Critical patent/CN116525125A/zh
Application granted granted Critical
Publication of CN116525125B publication Critical patent/CN116525125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本说明书公开了一种虚拟电子病历的生成方法及装置,通过预先训练的特征提取模型从输入的指定图中提取指定图包含的各实体的特征,基于各实体的特征以及用户输入的目标文本的特征确定提示向量,将所述提示向量输入到预训练的自然语言模型,生成包含非真实的医疗记录文本的虚拟电子病历。可见,通过预先训练的特征提取模型提取指定图中各实体的特征,充分挖掘指定图中各实体之间的相关关系,并根据各实体的特征以及用户输入的目标文本的特征确定具有针对性的提示向量,通过提示向量引导预训练的自然语言模型充分利用指定图中各实体的特征,生成更符合用户实际需求的高质量虚拟电子病历。

Description

一种虚拟电子病历的生成方法及装置
技术领域
本说明书涉及计算机技术领域,尤其涉及一种虚拟电子病历的生成方法及装置。
背景技术
电子病历(Electronic Medical Record,EMR)是指在数字化环境下存储、管理和共享的患者的医疗记录信息。医生可以通过患者的电子病历快速了解患者的就诊和健康记录,还可以应用于诸多医疗领域的下游任务,如关键医疗信息提取,辅助诊断等。随着人工智能技术的发展,可以采用机器学习模型执行医疗领域的下游任务。为了训练机器学习模型执行医疗领域的下游任务,需要大量的电子病历作为训练样本。但是,电子病历包含有患者的真实健康信息,利用包含真实信息的电子病历训练机器学习模型可能存在泄露患者隐私信息的风险。为此,可以通过生成包含非真实医疗记录信息的虚拟电子病历的方式,以虚拟电子病历作为训练样本,训练得到执行医疗领域的下游任务的机器学习模型,可以有效避免泄露患者的隐私信息。
目前,虚拟电子病历通常是基于预先训练的文本生成模型得到的。该文本生成模型的训练依然需要基于真实的电子病历作为训练样本。
但是,由于包含真实医疗记录的电子病历的数量有限,极大地制约了训练得到的文本生成模型的性能,可能存在生成的虚拟电子病历中症状和化验结果等信息前后不对应的情况,造成生成的虚拟电子病历的质量较差,从而进一步影响执行医疗领域的下游任务的机器学习模型的训练过程。
基于此,本说明书提供一种虚拟电子病历的生成方法。
发明内容
本说明书提供一种虚拟电子病历的生成方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种虚拟电子病历的生成方法,包括:
响应于用户输入的目标文本,确定所述目标文本的特征;其中,所述目标文本用于描述待生成的虚拟电子病历的特征;
获取指定图,所述指定图包含多个从包含真实的医疗记录文本的电子病历中提取的实体,所述指定图中各实体之间的边用于指示所述各实体之间存在相关关系;
将所述指定图输入预先训练的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征;
根据所述目标文本的特征以及所述各实体的特征,确定提示向量;
将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历,所述虚拟电子病历包含非真实的医疗记录文本。
可选地,获取指定图之前,所述方法还包括:
获取多个参考电子病历,并从各参考电子病历中提取多个实体;
从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本;
根据查找到的用于描述所述各实体的医疗记录文本,确定所述各实体之间的相关关系;
以所述各实体为节点,以所述各实体之间的相关关系为边,构建指定图,并存储所述指定图。
可选地,从各参考电子病历中提取多个实体,具体包括:
从各参考电子病历中提取参考记录文本;
将预先获取的各实体类型以及所述参考记录文本作为输入,输入到预先训练的编码器,得到所述编码器输出的第一向量;所述第一向量包含所述参考记录文本中各字的向量以及所述各实体类型的向量;
将所述第一向量输入到自注意力层,确定所述第一向量对应的所述参考记录文本中各字分别属于所述各实体类型的概率;
根据所述概率,分别确定所述参考记录文本中各字所属的实体类型;
根据各实体类型包含的各字,确定若干词,并将确定出的各词作为从所述各参考电子病历中提取的各实体。
可选地,根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定各实体之间的相关关系,具体包括:
针对每个实体,根据从所述各参考电子病历中查找到的用于描述该实体的医疗记录文本,确定该实体在所述各参考电子病历中对应的各实际记录数据;
确定该实体对应的各实际记录数据,和所述各实体中除该实体外的其他实体对应的各实际记录数据之间的线性相关系数;
当所述线性相关系数高于预设的第一系数阈值时,确定该实体与所述线性相关系数对应的其他实体之间存在正相关关系;
当所述线性相关系数低于预设的第二系数阈值时,确定该实体与所述线性相关系数对应的其他实体之间存在负相关关系;
当所述线性相关系数不高于所述第一系数阈值,且不低于所述第二系数阈值时,确定该实体与所述线性相关系数对应的其他实体之间不存在相关关系。
可选地,根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定各实体之间的相关关系,具体包括:
根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定所述各实体中任意两个实体在所述各参考电子病历中共现的频次;
当所述频次高于预设的频次阈值时,确定所述频次对应的两个实体之间存在共现关系。
可选地,根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定各实体之间的相关关系,具体包括:
针对每个实体,根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定包含该实体的参考电子病历的数量占所述各参考电子病历的总数的第一比重;
根据所述各实体对应的第一比重,从所述各实体中筛选出多个目标实体;
针对每个目标实体,根据包含该目标实体的参考电子病历的数量、包含该目标实体对应的其他目标实体的参考电子病历的数量,以及所述各参考电子病历的总数的,确定该目标实体对应的第二比重;其中,该目标实体对应的其他目标实体包括各目标实体中除该目标实体外的其余目标实体;
根据该目标实体对应的第二比重和该目标实体对应的第一比重,确定该目标实体和该目标实体对应的其他目标实体之间的相关关系。
可选地,将所述指定图输入预先训练的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征,具体包括:
将所述指定图输入预先训练的特征提取模型,通过所述特征提取模型的编码层,确定所述指定图包含的各实体的原始特征;
针对所述指定图包含的每个实体,根据所述指定图中各边的边权重,确定该实体以及在所述指定图中与该实体通过边相连的各相邻实体之间的相关性强度;
根据该实体的原始特征、该实体的各相邻实体的原始特征,以及该实体与该实体的各相邻实体之间的相关性强度,通过所述特征提取模型的注意力层,分别确定该实体与该实体的各相邻实体之间的注意力权重;
根据该实体与该实体的各相邻实体之间的注意力权重,该实体的原始特征,以及该实体的各相邻实体的原始特征,确定该实体的特征。
可选地,所述目标文本的特征包括所述目标文本包含的各字的特征;
根据所述目标文本的特征以及所述各实体的特征,确定提示向量,具体包括:
在所述目标文本的特征中添加文本标识,在所述各实体的特征中添加实体标识;
将添加文本标识的目标文本的特征与添加实体标识的各实体的特征进行拼接,得到特征序列;
将所述特征序列输入自注意力层,针对所述特征序列中所述目标文本包含的每个字的特征,确定该字的特征与除该字外的其余各字的特征之间的第一注意力权重,以及该字的特征与所述各实体的特征之间的第二注意力权重;
根据该字的特征对应的第一注意力权重、该字的特征对应的第二注意力权重,以及该字的特征,确定该字的目标特征;
将所述目标文本包含的各字的目标特征,输入预先优化的全连接层,得到所述全连接层输出的提示向量。
可选地,预先训练特征提取模型,具体包括:
将获取到的指定图输入待训练的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征;
获取参考文本,确定所述参考文本的特征;
根据所述参考文本的特征和所述各实体的特征确定提示向量;
将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历;
获取包含真实医疗记录文本的真实电子病历;
确定所述真实电子病历和生成的虚拟电子病历之间的差异;
以所述差异最小化为训练目标,训练所述特征提取模型。
可选地,采用迭代训练的方法训练所述特征提取模型,每次迭代训练所述特征提取模型的方法包括:
获取参考文本,确定所述参考文本的特征;
将获取到的指定图输入到上一次迭代优化得到的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征;
根据所述参考文本的特征和所述各实体的特征,确定本次迭代提示向量;
将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历;
获取包含真实医疗记录文本的真实电子病历;
将生成的虚拟电子病历和所述真实电子病历混合,得到混合样本,并确定生成的虚拟电子病历的标注为第一标注,确定所述真实电子病历的标注为第二标注,根据所述第一标注和所述第二标注确定所述混合样本的标注;
将所述混合样本输入上一次迭代优化得到的电子病历判别模型,得到所述电子病历判别模型输出的所述混合样本对应的真实性概率;
以所述混合样本对应的真实性概率和所述混合样本的标注之间差异的最小化为优化目标,优化所述上一次迭代优化得到的电子病历判别模型的模型参数;
将所述生成的虚拟电子病历输入到本次迭代优化后的电子病历判别模型,得到所述本次迭代优化后电子病历判别模型输出的所述生成的虚拟电子病历的真实性概率;
以所述本次迭代优化后电子病历判别模型输出的所述生成的虚拟电子病历的真实性概率的最大化为优化目标,对上一次迭代优化得到的特征提取模型的模型参数进行优化。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述虚拟电子病历的生成方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述虚拟电子病历的生成方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
本说明书提供的虚拟电子病历的生成方法中,通过预先训练的特征提取模型从输入的指定图中提取指定图包含的各实体的特征,基于各实体的特征以及用户输入的目标文本的特征确定提示向量,将所述提示向量输入到预训练的自然语言模型,生成包含非真实的医疗记录文本的虚拟电子病历。可见,通过预先训练的特征提取模型提取指定图中各实体的特征,充分挖掘指定图中各实体之间的相关关系,并根据各实体的特征以及用户输入的目标文本的特征确定具有针对性的提示向量,使得预训练的自然语言模型能够充分利用指定图中各实体的特征,生成更符合用户实际需求的高质量虚拟电子病历。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中一种虚拟电子病历的生成方法的流程示意图;
图2为本说明书中一种虚拟电子病历的生成方法的流程示意图;
图3为本说明书中一种虚拟电子病历的生成方法的流程示意图;
图4为本说明书中一种虚拟电子病历的生成方法的流程示意图;
图5为本说明书中一种虚拟电子病历的生成方法的流程示意图;
图6为本说明书中一种虚拟电子病历的生成方法的流程示意图;
图7为本说明书提供的一种虚拟电子病历的生成装置的示意图;
图8为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
另外,需要说明的是,本说明书中所有获取信号、信息或数据的动作都是在遵照所在地相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
电子病历是指在数字化环境下存储、管理和共享患者医疗信息的系统。它是一种通过计算机技术实现对患者病历、治疗方案、医疗记录等进行数字化、标准化和自动化管理的方式,其中可包括病程记录、检查检验结果、医嘱、手术记录、护理记录等等医疗记录文本。
随着数字化进程的加速推进,电子病历不仅可用于储存或诊断,同时可以被应用于诸多医疗信息学相关下游任务,如关键医疗信息提取,辅助诊断等。为了训练机器学习、深度学习算法和开发新的医疗应用,研究人员可能需要大量的电子病历数据。但是,由于包含真实医疗记录的真实电子病历涉及患者的隐私信息,直接采用真实电子病历执行机器学习模型的训练和开发,存在患者隐私信息泄露的风险。
为此,目前可采用生成包含非真实医疗记录的虚拟电子病历的方法获得规模较大的虚拟电子病历作为数据集,支撑机器学习模型的训练和开发。生成的虚拟电子病历中所包含的医疗记录数据看似真实,但实际上并未涉及任何真实的患者的医疗记录信息,从而在开发和测试机器学习模型或医疗信息系统时,使用非真实的数据可以避免泄露真实患者的隐私信息。可以有效安全性和隐私保护。另外,虚拟电子病历还可以作为一种替代真实电子病历的数据来源,应用在医疗教育、医疗培训领域,帮助医学生、实习生和其他医疗专业人员了解电子病历系统的使用和临床决策过程,而无需访问真实患者数据。
目前虚拟电子病历生成最主要的方案是基于预先训练的文本生成模型,但是,文本生成模型依然需要以真实电子病历为训练样本进行训练,导致训练样本的规模有限,限制了文本生成模型的性能,造成文本生成模型输出的虚拟电子病历的质量较差,例如生成的虚拟电子病历中描述的患者的病症和治疗手段不一致,比如生成的虚拟电子病历中,患者的病症是发烧,而治疗手段是外科手术。这会导致生成的虚拟电子病历在机器学习模型的训练以及医疗教学和研究的应用中缺乏可信度。
基于此,本说明书提供一种虚拟电子病历的生成方法,通过预先训练的特征提取模型从获取到的指定图中提取各实体的特征,结合用户输入的目标文本的特征确定提示向量,从而使得预训练的自然语言模型能够在提示向量的引导下生成质量较高的虚拟电子病历。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书提供的一种虚拟电子病历的生成方法的流程示意图。
S100:响应于用户输入的目标文本,确定所述目标文本的特征;其中,所述目标文本用于描述待生成的虚拟电子病历的特征。
本说明书实施例中提供的一种虚拟电子病历的生成方法,该虚拟电子病历的生成方法的执行过程可由预先部署有预训练的自然语言模型的服务器等电子设备执行该虚拟电子病历的生成方法。另外,本说明书提供的虚拟电子病历的生成方法中涉及到的用于生成提示向量的电子设备和执行虚拟电子病历的生成方法的电子设备可以相同也可以不同,本说明书对此不做限定。
在本说明书中,虚拟电子病历指的是:包含有非真实医疗记录文本的电子病历,虚拟电子病历中所包含的医疗记录文本所描述的患者的医疗记录是非真实的,即并非客观存在的,但生成的虚拟电子病历中针对(虚拟)患者的疾病、症状、治疗手段等医疗记录之间需要有正确的对应关系。例如,对于患有感冒疾病的患者,其对应的症状为咳嗽、流涕,其对应的治疗手段可以是服用用于治疗咳嗽和流涕的感冒药,这种疾病、症状和治疗手段之间是存在正确的对应关系的。而如果对于患有感冒疾病的患者,在虚拟电子病历中记录其对应的症状却是胃疼,记录的治疗手段为外科手术,则这种疾病、症状和治疗手段之间存在的对应关系是错误的。
在实际应用中,虚拟电子病历可作为训练适用于下游任务的机器学习模型的训练样本,也可作为适用于医疗教育培训领域的数据来源。可见,虚拟电子病历一般用在特定的领域中,为此,需要在虚拟电子病历的生成过程中引入用户的特定需求,以便根据用户的特定需求,生成特定类型的虚拟电子病历,从而适用于特定领域和场景下的应用。例如,对于基于肿瘤患者的电子病历作为训练样本训练得到肿瘤识别模型的场景,为了提高肿瘤识别模型的性能,需要规模较大的肿瘤患者的电子病历作为训练样本,但是电子病历作为患者的隐私信息,一般不能大规模使用,因此,可以基于用户输入的目标文本,确定用户需要肿瘤患者的电子病历的特定需求,从而基于用户的特定需求,生成与肿瘤相关的虚拟电子病历。
在此步骤中,基于用户输入的目标文本,确定目标文本的特征。一般的,用户指的是存在虚拟电子病历生成需求的用户,如下游任务机器学习模型的训练方,或者以虚拟电子病历用作医疗教育和培训的用户,本说明书对此不做限定。用户输入的目标文本用于描述待生成的虚拟电子病历的特征,所谓待生成的虚拟电子病历的特征指的是待生成的虚拟电子病历所包含的非真实的医疗记录文本所指示的疾病、症状、病变部位、医学检查手段和治疗手段等医疗记录的类型。根据用户输入的目标文本,确定目标文本的特征可以是将目标文本输入文本编码器得到目标文本的文本向量作为目标文本的特征,也可以是将目标文本输入预先训练的语义特征提取模型,得到目标文本的语义作为目标文本的特征,本说明书对此不做限定。
具体的,目标文本可包括病史、诊断结果、治疗所采用的药物、手术的类型、患者的人口统计学信息等文本。可以理解的是,用户输入的目标文本是对用户需求的描述,其包含了待生成的虚拟电子病历的限制信息,也即,基于本说明书提供的虚拟电子病历的生成方法得到的虚拟电子病历,可是在用户输入的目标文本所描述的特征的限制下生成的,在该限制下,生成的虚拟电子病历可满足用户的特定需求,从而使用于特定的应用场景和领域。目标文本可以是任意字数的连续句子、也可以是任意字数的词组,本说明书对此不做限定。
以下对虚拟电子病历中的医疗记录文本的几种类型进行说明:
疾病:泛指患者身体或心理上出现的非正常现象,或者是由医生根据患者身体做出的诊断,一般可分为两类:传染性疾病和非传染性疾病。
部位:泛指人身体的一部分,包括体外的和身体内部的,在医学病理上,部位一般是伴随着疾病或症状而出现。
症状:泛指由疾病或其它突发状况导致的不适或异常感觉,或者在医院,医生给定异常诊断结果,设备的异常检查结果等。
检查手段:泛指为了确认患者是否存在疾病,或了解患者存在的疾病的更多细节而进行的检查项目、查体等。
治疗手段:泛指针对疾病或症状而采取的用药方法、手术或设备等治疗手段。
S102:获取指定图,所述指定图包含多个从包含真实的医疗记录文本的电子病历中提取的实体,所述指定图中各实体之间的边用于指示所述各实体之间存在相关关系。
在本说明书中,通过对预训练的自然语言模型输入提示向量的方式,指导预训练的自然语言模型生成虚拟电子病历中包含的非真实的医疗记录文本。由此,提示向量的准确率越高,基于提示向量生成的虚拟电子病历的准确率越高。而为了得到较为准确的提示向量,在本说明书中,处理引入从用户输入的目标文本中提取目标文本的特征,使得提示向量中包含用户的特定需求外,还在提示向量的确定过程中,引入包含真实的医疗记录文本的医学领域的指定图(知识图谱),通过指定图指示的各种医疗记录文本之间的相关关系,以及目标文本的特征,使得提示向量既包含用户的特定需求,还包括客观、合理的各种医疗记录文本之间的相关关系,从而提高提示向量的质量,进而提高生成的虚拟电子病历的质量。
其中,指定图是医疗领域中的知识图谱,指定图中包含有多个从包含真实的医疗记录文本的电子病历中提取的实体,各实体分别属于不同类型的医疗记录文本,由于指定图是基于真实的电子病历包含的真实的医疗记录文本构建的,而真实的电子病历中包含的医疗记录文本的类型与虚拟电子病历中包含的医疗揭露文本的类型相同,因此,指定图中包含的各实体分别属于的医疗记录文本的类型可包括:疾病、部位、症状、检查手段、治疗手段。当然还可以包括其他类型的实体,如护理记录,看本说明书对指定图包含的实体的数量以及具体类型不做限定。
进一步的,指定图中各实体之间可以存在相关关系,而在指定图中可用边将存在相关关系的两个实体进行连接。每个实体可以和指定图中的一个或多个其他实体进行连接。其中,各实体之间的相关关系可以理解为实体对应的医疗记录文本在真实的电子病历中关系,具体可分为以下几种类型:
疾病与疾病之间的相关关系(不同疾病之间互为相关的并发症、疾病本名和别名等)、疾病与部位之间的相关关系(疾病体现在部位,一般指发病部位,也有转移部位等情况)、疾病与症状之间的相关关系(一般指疾病导致的某种症状)、治疗手段与疾病之间的相关关系(治疗改善疾病、治疗恶化疾病、治疗导致疾病)、治疗与症状之间的相关关系(针对某些症状采取的对症治疗)、检查手段与疾病之间的相关关系(通过设备或其它检查方法确认疾病的发生)、检查与症状之间的相关关系(检查显示症状,可以是正常症状或者异常症状,或者检查确认是否存在症状)。
当然,指定图中各实体之间的相关关系并不仅限于上述几种,本说明书对指定图中各实体的相关关系的类型不做限定。
指定图可以是人工构建的知识图谱,可以是基于真实电子病历中的真实医疗记录文本自动生成的知识图谱,本说明书对此不做限定,
S104:将所述指定图输入预先训练的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征。
进一步的,为了生成质量较高的提示向量,可将目标文本的特征和指定图中包含的各实体的特征进行融合,使得提示向量既包含用户的特定需求,也包含客观合理的各类型的医疗记录文本之间的相关关系。
为此,需要确定指定图包含的各实体分别对应的特征。具体的,本说明书采用预先训练的特征提取模型,将指定图输入到该特征提取模型中,也即,该特征提取模型的输入为指定图包含的各实体对应的医疗记录文本,以及各实体之间的相关关系。特征提取模型可针对每个实体,提取出该实体的语义特征,并在此基础上,结合与该实体存在相关关系的该实体的相邻节点的语义特征,得到包含该实体本身语义以及该实体相邻节点的语义的该实体的特征。也即,该实体的特征不仅受到该实体本身的语义特征的影响,还受到该实体的相邻节点的语义特征的影响。
该特征提取模型可以是基于其他领域的知识图谱为样本训练得到的,也可以是以医疗领域的知识图谱为样本训练得到的,本说明书对此不做限定。
S106:根据所述目标文本的特征以及所述各实体的特征,确定提示向量。
在本说明书中,采用生成符合软提示(Soft-prompt)形式的提示向量的方式,指导预训练的自然语言模型产生更准确的、与语境相关的、更符合特定任务的虚拟电子病历。
在此步骤中,将目标文本的特征与各实体的特征进行融合,得到提示向量,该提示向量既可以表征用户针对待生成的虚拟电子病历的特定需求,也能够表征指定图中各实体表征的医疗记录文本之间的相关关系。
S108:将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历,所述虚拟电子病历包含非真实的医疗记录文本。
在实际应用中,预训练的自然语言模型是基于通用语料库包含的通用预语料作为训练样本训练得到的。这种预训练的自然语言模型具备较强的上下文学习(In-ContextLearning,ICL)能力,在不对预训练的自然语言模型进行参数更新的情况下,仅通过将提示输入自然语言模型中,就能够使得自然语言进行学习模型基于提示所表征的示例完成示例对应的文本生成任务。在每个生成步骤,自然语言模型会根据当前上下文、已生成的文本和输入的提示向量预测下一个字或词。自然语言模型重复生成步骤持续生成文本,直到达到预定的长度或遇到特殊的结束符。最后,将这些生成的文本拼接在一起,形成完整的虚拟电子病历。
基于此,在本说明书中,通过将提示向量输入预训练的自然语言模型,得到预训练的自然语言模型输出的文本作为非真实的医疗记录文本,进而基于非真实的医疗记录文本构建虚拟电子病历。
本说明提供的虚拟电子病历的生成方法中,通过预先训练的特征提取模型从输入的指定图中提取指定图包含的各实体的特征,基于各实体的特征以及用户输入的目标文本的特征确定提示向量,将所述提示向量输入到预训练的自然语言模型,生成包含非真实的医疗记录文本的虚拟电子病历。
可见,通过预先训练的特征提取模型提取指定图中各实体的特征,充分挖掘指定图中各实体之间的相关关系,并根据各实体的特征以及用户输入的目标文本的特征确定具有针对性的提示向量,通过提示向量引导预训练的自然语言模型充分利用指定图中各实体的特征,生成更符合用户实际需求的高质量虚拟电子病历。
在本说明书一个或多个实施例中,在图1步骤S102之前,需要预先构建指定图,如图2所示,具体方案如下:
S200:获取多个参考电子病历,并从各参考电子病历中提取多个实体。
具体的,参考电子病历可以是包含真实医疗记录文本的电子病历,当然也可以是包含非真实医疗记录文本的虚拟电子病历,但为了保证构建的指定图的准确性,需要对虚拟电子病历包含的医疗记录文本进行检测,以确定当以虚拟电子病历作为参考电子病历时,该虚拟电子病历所包含的医疗记录文本是合理的。
进一步的,指定图作为一种适用于医疗领域的电子病历的知识图谱,其中可包含多个节点,各节点之间可通过边进行连接。并且,不同的节点可以对应于从参考电子病历中提取的不同的实体。实际上,从参考电子病历中提取的实体可以理解为是参考电子病例中能够反映患者健康信息或者医疗记录的字或词,也即,指定图中包含的实体是在医疗领域中存在实际意义的文本,例如,“流感”、“癌症”是在医疗领域中用于表征病症的文本。
从各参考电子病历中提取各实体的方法可以是基于人工标注提取的方法,也可以是通过适用于医疗领域的实体识别模型进行提取,还可以是基于正则表达式匹配的方法进行提取,当然,还可以是其他现有的实体提取方法,本说明书对此不做限定。
从参考电子病例中提取的各实体可以存在多种类型、如疾病、部位、症状、检查手段、治疗手段等。在本说明书中,可以预设多种实体类型,按照预设的各实体类型从参考电子病历中提取实体,也可以先从参考电子病历中提取各实体,然后依次确定各实体对应的实体类型。
S202:从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本。
具体的,从参考电子病历中提取得到的各实体并非孤立地存在与参考电子病历中的,通常情况下,为了全面而完整地还原患者的就医过程,通常会对患者的症状、所患疾病、采用的检查手段,以及所采用的治疗手段都一一进行详细的描述和记录,并不会仅记录孤立的字或词。也就是说,参考电子病历中记录有用于描述各实体的医疗记录文本,该用于描述各实体的医疗记录文本可以是文字、数字,或符号等形式,本说明书对该用于描述各实体的医疗记录文本的形式以及具体字数不做限定。
一般的,为了准确描述各实体,在参考电子病历中,用于描述各实体的医疗记录文本通常与各实体距离较近,或者包含有各实体。从而,在从参考电子病历中查找用于描述各实体的医疗记录文本时,可以根据各实体在参考电子病例中记录的位置,将与各实体记录位置相近、或者包含有各实体的医疗记录文本作为用于描述各实体的医疗记录文本。
当然,还可以通过预先训练的适用于医疗领域的语义识别模型,将参考电子病历中包含的多条医疗记录文本输入到该语义识别模型,得到各条医疗记录文本分别对应的语义,从而基于各条医疗记录文本分别对应的语义,确定各条医疗记录文本所分别描述的实体。
例如,在参考电子病历中的医疗记录文本“患者4天前出现发热,为低热,体温波动于37.2~37.8℃之间”,在该医疗记录文本中包含有症状类型的实体“发热”,因此,该条医疗记录文本是用于描述症状类型的实体“发热”的医疗记录文本。
S204:根据查找到的用于描述所述各实体的医疗记录文本,确定所述各实体之间的相关关系。
进一步地,通过用于描述各实体的医疗记录文本,确定各实体之间的相关关系,其中,各实体之间的相关关系的类型可以是密切相关、相关但不密切、不相关。任意两个实体之间的相关关系可以确定相关关系的统计指标反映,而统计指标可以是相关系数、相互信息、支持度和置信度、关联边缘等现有的反映相关关系的统计指标,本说明书对此不做限定。
在本说明书中,无论实体之间的相关关系是否密切,只要两个实体之间存在相关关系,就会在指定图中通过边相互连接。
S206:以所述各实体为节点,以所述各实体之间的相关关系为边,构建指定图,并存储所述指定图。
其中,指定图中包含有多个实体,存在相关关系的实体之间可用边相互连接,边可以对应于边权重,边权重用于表征通过边相连的两个实体之间的相关关系的密切程度。另外,在指定图中,通过边相连的两个实体之间可以存在一个或多个边,不同的边表征了通过边相连的两个实体在不同维度上的相关关系,每个边均可对应于边权重。另外,连接两个实体之间的边可以存在方向,即从一个实体指向另一个实体,或者是指向双向的边。
在本说明书一个可选的实施例中,图2步骤S200具体可以基于自注意力机制从各参考电子病历中提取多个实体,具体方案如下:
第一步:从各参考电子病历中提取参考记录文本。
一般的,参考电子病历中可包括结构化信息以及非结构化信息,其中,结构化信息通常以固定格式的行数据的形式存储,例如“年龄:24岁”,非结构化信息通常以不固定格式、字段长度可变的形式存储,例如,“患者于昨晚来我院急诊科就诊,查胸片示右下肺炎”。而在本说明书中,参考电子病历中包含的结构化信息可以直接作为实体被从参考电子病历中抽取,而存在与非结构化信息中的实体则需要通过提取的方案才能够得到,因此,在此步骤中,从各参考电子病历中提取的参考记录文本可以是非结构化信息,其字数、文本类型(中文字符、符号、数字)等本说明书不做限定。
第二步:将预先获取的各实体类型以及所述参考记录文本作为输入,输入到预先训练的编码器,得到所述编码器输出的第一向量;所述第一向量包含所述参考记录文本中各字的向量以及所述各实体类型的向量。
在本说明书中,将参考记录文本和所需要提取的各实体类型进行拼接,以拼接后的文本作为输入,通过预先训练的编码器将拼接后的文本向量化,得到编码器输出的第一向量。
可选地,第一向量可以如下表示:
其中,xi表示参考记录文本中第i个字的向量表示或者第i个字的向量表示在预先构建的词汇表中的索引,n是参考记录文本的字数。li表示所需要提取的各实体类型的向量表示,如疾病、部位、症状、检查手段、治疗手段等,k为实体类型的个数。
第三步:将所述第一向量输入到自注意力层,确定所述第一向量对应的所述参考记录文本中各字分别属于所述各实体类型的概率。
进一步地,通过自注意力层和前馈层来处理第一向量,确定所述第一向量对应的所述参考记录文本中各字分别属于所述各实体类型的概率分布。
可选地,所述自注意力层所采用的注意力机制是基于比例点积注意力机制。
第四步:根据所述概率,分别确定所述参考记录文本中各字所属的实体类型。
在本说明书中,可以采用贪婪解码的方式,针对参考记录文本中每个字,根据前述确定的该字分别属于各实体类型的概率分布,将最大概率对应的实体类型,作为该字所属的实体类型,也即,一个字可以属于与一个实体类型。当然,还可以是将概率大于预设概率阈值的多个实体类型,均作为该字所属的实体类型,也即,一个字可以属于多个实体类型。
可选地,参考记录文本包含的各字与其分别所属的各实体类型可以通过如下的序列表示:
其中,li依然表征各实体类型的向量表示,yi表征的是在该序列中第i个字的向量表示或索引,m是该序列包含的字的个数。其中,m小于n,这是由于参考记录文本中包含不存在医疗记录的实际意义的字,如“的”、“地”、“以”、“有”,这种类型的字可能并不属于任一实体类型。
第五步:根据各实体类型包含的各字,确定若干词,并将确定出的各词作为从所述各参考电子病历中提取的各实体。
一般的,针对每个实体类型,将该实体类型对应的各字进行组合,得到若干词。在得到各词之后,可以对词的语义进行分析,从而将不存在实际意义(语义不符合常理)的词剔除,并将剩余的各词作为从参考电子病例中提取的各实体。
在本说明书一个或多个实施例中,在图2步骤S204中,采用数据统计方法可得到各实体之间的相关关系的类型为:线性相关关系、互信息关系、共同发生关系、关联规则关系、语义相似关系。
当然,在本说明书中,各实体之间的相关关系还可以存在下述几种情况:症状和诊断的共同出现、医疗记录文本之间的记录时间关系、药物治疗与疾病的关系、实验室结果和诊断之间的相关性、人口统计学模式以及专家派生的规则。
以下针对各种类型的相关关系的确定方案分别进行详细阐述:
第一种,各实体之间的线性相关关系。
具体的,针对每个实体,根据从所述各参考电子病历中查找到的用于描述该实体的医疗记录文本,确定该实体在所述各参考电子病历中对应的各实际记录数据。
确定该实体对应的各实际记录数据,和所述各实体中除该实体外的其他实体对应的各实际记录数据之间的线性相关系数。
当所述线性相关系数高于预设的第一系数阈值时,确定该实体与所述线性相关系数对应的其他实体之间存在正相关关系。
当所述线性相关系数低于预设的第二系数阈值时,确定该实体与所述线性相关系数对应的其他实体之间存在负相关关系。
当所述线性相关系数不高于所述第一系数阈值,且不低于所述第二系数阈值时,确定该实体与所述线性相关系数对应的其他实体之间不存在相关关系。
在本说明书中,并不限制上述第一系数阈值和第二系数阈值的具体数值,可以根据具体的应用场景确定,但一般的,第一系数阈值大于第二系数阈值。
例如,实体“年龄”对应的实际记录数据为M,实体“收缩压”对应的实际记录数据为N,根据M和N计算相关系数r,确定实体“年龄”与实体“收缩压”之间存在相关关系。可选地,可以采用皮尔逊相关系数,具体公式如下:
其中,μM和μN分别是M和N的平均值。正相关(r>0)表明,随着年龄的增加,收缩压也趋于增加。相对应的,负相关(r<0)表明,随着年龄的增加,收缩压趋于降低。
预设第一系数阈值为0.5,第二系数阈值为-0.5,则当r>0.5时,为实体“年龄”与实体“收缩压”之间赋予正相关边,当r<-0.5时,为实体“年龄”与实体“收缩压”之间赋予负相关边。当-0.5≤r≤0.5时,确定实体“年龄”与实体“收缩压”之间不存在线性相关关系,从而,二者之间不赋予相关边。
第二种,各实体之间的互信息关系。
具体的,相互信息(MI)是衡量一种医疗信息对另一中医疗信息所包含的信息量。它对于寻找分类变量之间的关系特别有用。两个实体对应的实际记录数据A和B之间的相互信息的公式是:
其中p(A,B)是A和B的联合概率,p(A)和p(B)分别是A和B的边际概率。具体的例子为:考虑一个有分类变量的数据集,如疾病诊断(A)和处方药(B):计算两个变量之间的相互信息,找出诊断和用药之间的关联强度。高的MI值意味着实际记录数据A和B之间强的关系,这可以在指定图中表示为连接各自的诊断和药物治疗节点的边。当然,建立互信息边需要MI值高于预设的互信息阈值。
第三种,各实体之间的共同发生关系。
具体的,根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定所述各实体中任意两个实体在所述各参考电子病历中共现的频次。当所述频次高于预设的频次阈值时,确定所述频次对应的两个实体之间存在共现关系。
进行共同发生分析的一种方法是创建一个共同发生矩阵,其中行和列代表实体,每个单元格的值表示两个实体在参考电子病历中共同出现的次数。为了构建这个矩阵,遍历每个参考电子病历,为每一对同时出现的实体增加计数。矩阵完成后,用每个单元格的值除以总的记录数,将其矩阵中记录的频次规范化。最后,在共同出现频率高于预定频次阈值的两个实体之间建立边。其边代表了实体的共同出现关系。
第四种,各实体之间的关联规则关系。
具体的,针对每个实体,根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定包含该实体的参考电子病历的数量占所述各参考电子病历的总数的第一比重。
在实际应用中,不同的参考电子病历(来源于不同患者或来源于同一患者的不同电子病历)可能包含有相同的实体,针对每个实体,可确定包含该实体的参考电子病历,在包含该实体的参考电子病历中,可查找到描述该实体的医疗记录文本,比如在参考电子病历中该实体的上下文。通过对各个包含各实体的参考电子病历中用于描述该实体的医疗记录文本进行统计,可以确定包含该实体的参考电子病历的数量占各参考电子病历的总数的第一比重,该第一比重用于表征该实体在所述各参考电子病历中出现的频次。第一比重越大,该实体在各参考电子病历中出现的频次越高。
其中,从所述各参考电子病历中查找用于描述各实体的医疗记录文本的方式可以是基于现有的实体提取模型和上下文查找方法,或者人工查找的方法,本说明书对此不做限定。
根据所述各实体对应的第一比重,从所述各实体中筛选出多个目标实体。
基于各实体对应的第一比重,从各实体中少选出多个目标实体,实际上是将第一比重较大的多个实体筛选出来作为目标实体。具体的,将各实体按照第一比重从大到小的顺序依次排列得到实体序列,获取预设的目标实体的数量,基于所述目标实体的数量,将在所述实体序列中排序靠前的所述目标实体的数量的实体作为筛选出的目标实体。
针对每个目标实体,根据包含该目标实体的参考电子病历的数量、包含该目标实体对应的其他目标实体的参考电子病历的数量,以及所述各参考电子病历的总数,确定该目标实体对应的第二比重。其中,该目标实体对应的其他目标实体包括各目标实体中除该目标实体外的其余目标实体。
具体的,在此步骤中,可通过以下两种方式确定该目标实体对应的第二比重:其一,根据包含该目标实体以及该目标实体对应的其他目标实体的参考电子病历的数量,和所述各参考电子病历的总数之间的比值,确定该目标实体对应的第二比重;其二,根据包含该目标实体或者该目标实体对应的其他目标实体的参考电子病历的数量,和所述各参考电子病历的总数之间的比值,确定该目标实体对应的第二比重。
根据该目标实体对应的第二比重和该目标实体对应的第一比重,确定该目标实体和该目标实体对应的其他目标实体之间的相关关系。
在本说明书中,当目标实体的第一比重和该目标实体与该目标实体对应的其他目标实体之间的第二比重均较高时,确定该目标实体和该目标实体对应的其他目标实体之间存在较强的相关关系。当目标实体的第一比重较高,但该目标实体与该目标实体对应的其他目标实体之间的第二比重较低时,确定该目标实体和该目标实体对应的其他目标实体之间存在相关关系,但相关关系较弱。可选地,可分别确定第一比重和第二比重对应的加权系数,基于加权系数对第一比重和第二比重进行加权得到目标比重,基于目标比重确定该目标实体与该目标实体对应的其他目标实体之间的相关关系。
第五种,各实体之间的语义相似关系。
具体的,通过构建术语-文件矩阵来进行潜在语义分析,其中行代表医学概念,列代表电子病历。用术语频率-反向文档频率(TF-IDF)值来填充这个矩阵,这表明每个概念在特定电子病历记录中的重要性。接下来,应用奇异值分解(SVD)来降低术语-文档矩阵的维度,保留矩阵中90%的能量信息,将奇异值平方和累加到90%。减少后的矩阵捕捉到医学概念之间的潜在语义关系。计算缩小后的矩阵的行之间的余弦相似度,以衡量概念之间的语义关系。当余弦相似度的大于0.5,或小于-0.5时,分别在概念之间建立边。这就形成了一个图,其中的边代表医学概念之间的潜在语义关系。
在本说明书一个或多个实施例中,在如图1步骤S104中,特征提取模型可以不仅仅基于指定图中各实体本身的信息确定各实体的特征,还可以基于与实体通过边相连的各相邻实体对该实体的影响确定各实体的特征,以实现在各实体的特征中引入指定图所表征的各实体之间的相关关系的目的,达到充分挖掘指定图中各实体之间的相关关系的效果,以进一步提高后续确定的提示向量的准确度。如图3所示,具体方案如下:
S300:将所述指定图输入预先训练的特征提取模型,通过所述特征提取模型的编码层,确定所述指定图包含的各实体的原始特征。
具体的,特征提取模型的编码层可以首先从提取各实体的原始特征,该原始特征可以是实体的语义特征,也可以是文本的编码向量,本说明书不做限定。但可以理解的是,原始特征仅基于相对应的实体本身确定。
S302:针对所述指定图包含的每个实体,根据所述指定图中各边的边权重,确定该实体以及在所述指定图中与该实体通过边相连的各相邻实体之间的相关性强度。
在本说明书中,在汇总指定图中各实体的原始特征时,使用自我注意机制来权衡与每个实体通过边相连的相邻实体对于该实体的重要性。从而在后续步骤中自适应地聚合相邻实体的特征,以更新该实体的特征。
在聚合相邻实体的特征更新实体的特征之前,针对每个实体,由于与该实体与不同的相邻实体之间的相关关系的强度不同,从而,在确定不同的相邻实体对于该实体的重要性时,还可以基于指定图中,该实体与各相邻实体之间的边权重,确定该实体与各相邻实体之间的相关性强度。一般的,相关性强度与前述重要性之间呈正相关的关系,即该实体与某个相邻实体的相关性强度越强,则该相邻实体对该实体而言越重要。
S304:根据该实体的原始特征、该实体的各相邻实体的原始特征,以及该实体与该实体的各相邻实体之间的相关性强度,通过所述特征提取模型的注意力层,分别确定该实体与该实体的各相邻实体之间的注意力权重。
具体的,可以采用图形注意力机制的方式,权衡与每个实体通过边相连的相邻实体对于该实体的重要性。基于此,根据该实体的原始特征、该实体的各相邻实体的原始特征,以及该实体与该实体的各相邻实体之间的相关性强度,通过所述特征提取模型的注意力层,分别确定该实体与该实体的各相邻实体之间的注意力权重。
可选地,通过图形注意力机制确定相邻实体对于该实体的重要性的方式可如下述公式:
其中,αij代表实体i和j之间的注意权重,W是一个可学习的权重矩阵,hi和hj分别是实体i和j的原始特征,“||”表示向量间的连接操作。可学习向量a被用来计算节点i和j之间的兼容性分数,LeakyReLU代表激活函数,公式为:
S306:根据该实体与该实体的各相邻实体之间的注意力权重,该实体的原始特征,以及该实体的各相邻实体的原始特征,确定该实体的特征。
基于上述方案,特征提取模型可以通过注意力机制,为指定图的每个实体分配不同的权重,以捕捉各实体之间的关系。提高了特征提取模型捕捉指定图的结构的能力,计算相邻实体之间的注意力权重,并根据注意力权重汇总来自相邻实体的信特征。
可选地,实体i的更新后的特征表示为hi',使用注意力权重计算的公式如下:
其中σ是一个激活函数(如ReLU或ELU),N(i)代表实体i的相邻实体的集合。
在本说明书一个或多个实施例中,在如图1步骤S106中,除了通过将目标文本的特征和各实体的特征进行拼接得到提示向量,还可以挖掘目标文本和各实体之间的相关性,从而进一步提升提示向量的准确性,如图4所示,具体方案如下:
S400:在所述目标文本的特征中添加文本标识,在所述各实体的特征中添加实体标识。
S402:将添加文本标识的目标文本的特征与添加实体标识的各实体的特征进行拼接,得到特征序列。
将目标文本的特征与指定图中各实体的特征拼接在一起,构成一个特征序列。为了区分目标文本的特征和各实体的特征,可以在拼接之前分别添加文本标记<txt>和实体标记<kg>。
可选地,特征序列可如下所示:
其中,S为特征序列,<txt>是文本标记、<kg>是实体标记。ti为目标文本包含的第i个字的特征,hi是指定图中第i个实体的特征。
S404:将所述特征序列输入自注意力层,针对所述特征序列中所述目标文本包含的每个字的特征,确定该字的特征与除该字外的其余各字的特征之间的第一注意力权重,以及该字的特征与所述各实体的特征之间的第二注意力权重。
具体的,通过自注意力层,采用自注意力机制的方式,针对所述特征序列中所述目标文本包含的每个字的特征,确定该字的特征与除该字外的其余各字的特征之间的第一注意力权重,其中,第一注意力权重用于表征该字与其余各字之间的关联程度,相当于挖掘得到用户输入的目标文本中所描述的虚拟电子病历的特征的关联性。
进一步地,确定出的该字的特征与所述各实体的特征之间的第二注意力权重,其中,第二注意力权重用于表征该字与各实体之间的关联程度,相当于挖掘得到用户输入的目标文本所描述的虚拟电子病历所对应的各实体之间的关联性。
S406:根据该字的特征对应的第一注意力权重、该字的特征对应的第二注意力权重,以及该字的特征,确定该字的目标特征。
具体的,根据第一注意力权重和第二注意力权重确定总权重,根据总权重对该字的特征进行加权,得到该字的目标特征。其中,根据第一注意力权重和第二注意力权重确定总权重时,第一注意力权重和第二注意力权重分别对总权重的贡献可以相同也可以不同,本说明书对此不做限定。
S408:将所述目标文本包含的各字的目标特征,输入预先优化的全连接层,得到所述全连接层输出的提示向量。
通过额外的自注意力层将用户输入的目标文本与从指定图中提取的实体特征相结合,并通过自注意力机制让它们互相影响。这个额外的自注意力层类似于一个智能过滤器,用于识别并强化文本和指定图中的关联信息。最终的输出为一个提示向量,该提示向量实际上是一种通过连续值向量表示的软提示,直接应用于下游的预训练的自然语言模型(如GPT)以引导虚拟电子病历的生成过程。因为硬提示(hard-prompt)通常是预先定义的文本片段,用于启动生成过程,但在有限的语义空间内可能无法充分利用模型的潜力。软提示(soft-prompt)与硬提示(hard-prompt)相比,它具有更大的语义空间和更高的表现力,因为它可以表示无限的组合而不受有限字典中选词的限制。
可选地,为了确保每次生成的提示向量都是不同的,在全连接层中还可以添加温度参数。较高的温度参数将导致输出多样化的提示向量,而较低的温度参数将使生成的提示向量更具有确定性。
综上,通过在特征提取模型之后增加一个自注意力层同时处理目标文本的特征和指定图中各实体的特征的方式,减少计算复杂度,并更直接地学习目标文本和指定图之间的关联。
在本说明书一个或多个实施例中,生成虚拟电子病历所必不可少的即为提示向量,而为了生成质量较高的提示向量则需要准确性较高的指定图中各实体的特征,下述为本说明书中涉及的特征提取模型的一种训练过程,如图5所示。
S500:将获取到的指定图输入待训练的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征。
在本说明书实施例中,特征提取模型的输入为指定图,输出为指定图中包含的各实体的特征,为了训练该特征提取模型,需要获得准确的各实体的特征作为标签,指导特征提取模型的训练过程。但是,准确的各实体的特征目前仍然是由人工构建,不仅耗费人工,还无法保证其准确性,因此,在本说明书实施例中,基于待训练的特征提取模型输出的各实体的特征确定提示向量,并将提示向量输入到预训练的自然语言模型生成虚拟电子病历,以虚拟电子病历的质量好坏,判断提示向量的质量,从而反推各实体的特征的准确性,并以各实体的特征的准确性的最大化为训练目标,训练特征提取模型。
其中,在此步骤中,指定图的获取方法和结构可见上述步骤S102,此处不再赘述。
S502:获取参考文本,确定所述参考文本的特征。
具体的,参考文本可以是在特征提取模型训练过程中所使用的用于描述待生成的虚拟电子病历的特征的文本,该参考文本与前述步骤S100中指定文本类似,区别仅在于参考文本用于特征提取模型的训练过程,而指定文本用于虚拟电子病历的生成过程。
S504:根据所述参考文本的特征和所述各实体的特征确定提示向量。
与前述步骤S106类似,此处不做赘述。
S506:将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历。
与前述步骤S108类似,此处不做赘述。
S508:获取包含真实医疗记录文本的真实电子病历。
具体的,真实电子病历一般是基于患者就医过程得到的真实医疗记录,其中包含的医疗记录文本可以是有医生根据患者的健康情况和就医过程真实记录的。在本说明书中,目的即为生成的虚拟电子病历与真实电子病历之间的差异的最小化,从而获得准确性较高、客观合理的、但不包含患者真实隐私信息的虚拟电子病历。
S510:确定所述真实电子病历和生成的虚拟电子病历之间的差异。
具体的,可以根据预先训练的语义识别模型,分别确定真实电子病历的语义向量,以及生成的虚拟电子病历的语义向量,基于真实电子病历的语义向量和生成的虚拟电子病历的语义向量之间的距离,确定真实电子病历和生成的虚拟电子病历之间的差异。还可以基于电子病历判别模型确定真实电子病历和生成的虚拟电子病历之间的差异。当然,还可以通过人工的方式确定真实电子病历和生成的虚拟电子病历之间的差异,本说明书对此不做限定。
其中,基于预先训练的电子病历判别模型确定真实电子病历和生成的虚拟电子病历之间的差异的方案中,电子病历判别模型可以是预先基于真实电子病历训练过的回归模型,该电子病历判别模型可以针对输入的电子病历(真实电子病历和生成的虚拟电子病历)输出范围为[0,1]的真实性概率,以真实电子病历对应的真实性概率和生成的虚拟电子病历对应的真实概率之间的差异表征真实电子病历和生成的虚拟电子病历之间的差异。
S512:以所述差异最小化为训练目标,训练所述特征提取模型。
在本说明书一个或多个实施例中,用于从指定图中提取各实体的特征的特征提取模型还可以与用于对生成的虚拟电子病历进行真假判定的电子病历判别模型联合训练,下述为本说明书中涉及的特征提取模型的一种训练过程,如图6所示,采用迭代训练的方法训练所述特征提取模型,每次迭代训练所述特征提取模型的步骤如下:
S600:获取参考文本,确定所述参考文本的特征。
与前述步骤S502类似,此处不做赘述。
S602:将获取到的指定图输入到上一次迭代优化得到的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征。
具体的,特征提取模型的模型参数可以进行多次迭代优化,才能够获得准确率较高的实体特征的提取能力。迭代优化的终止条件可以是迭代次数大于预设次数阈值,也可以是真实电子病历和生成的虚拟电子病历之间的差异小于预设的差异阈值,还可以是其他终止条件,终止条件可以根据具体的应用场景确定,本说明书对此不做限定。
而在本次迭代中的特征提取模型,其模型参数可以是已经基于上一次迭代优化过程调整之后的。一般情况下,基于上一次迭代优化得到的特征提取模型的性能,比基于初始化参数得到的特征提取模型的性能好,因此,在本上次迭代中不采用初始化参数的特征提取模型,而是采用上一次迭代优化得到的特征提取模型,以便缩短特征提取模型迭代优化的周期。
S604:根据所述参考文本的特征和所述各实体的特征,确定本次迭代提示向量。
与前述步骤S106类似,此处不做赘述。
S606:将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历。
与前述步骤S108类似,此处不做赘述。
S608:获取包含真实医疗记录文本的真实电子病历。
与前述步骤S508类似,此处不做赘述。
S610:将生成的虚拟电子病历和所述真实电子病历混合,得到混合样本,并确定生成的虚拟电子病历的标注为第一标注,确定所述真实电子病历的标注为第二标注,根据所述第一标注和所述第二标注确定所述混合样本的标注。
具体的,采用电子病历判别模型针对输入到该电子病历判别模型的电子病历进行判别,输出是范围为[0,1]的真实性概率,真实性概率越高,说明输入该电子病历判别模型的电子病历属于真实电子病历的可能性越大。在本说明书中,电子病历判别模型可以与特征提取模型联合训练,因此,需要确定电子病历判别模型的训练样本和标注。
在电子病历判别模型和特征提取模型联合训练的过程中,可基于上述步骤S606得到自然语言模型输出的虚拟电子病历,以及步骤S608获取的真实电子病历进行混合,得到混合样本,并对混合样本进行标注,其中,混合样本中生成的虚拟电子病历的标注为第一标注,混合样本中的真实电子病历的标注为第二标注。
S612:将所述混合样本输入上一次迭代优化得到的电子病历判别模型,得到所述电子病历判别模型输出的所述混合样本对应的真实性概率。
进一步地,电子病历判别模型的模型参数可以进行多次迭代优化,才能够获得准确率较高的判别真实电子病历和虚拟电子病历的能力。迭代优化的终止条件可以是迭代次数大于预设次数阈值,也可以是输出的真实性概率和标注之间的差异小于预设的差异阈值,还可以是其他终止条件,终止条件可以根据具体的应用场景确定,本说明书对此不做限定。
而在本次迭代中的电子病历判别模型,其模型参数可以是已经基于上一次迭代优化过程调整之后的。一般情况下,基于上一次迭代优化得到的电子病历判别模型的判别能力,比基于初始化参数得到的电子病历判别模型的判别能力更强,因此,在本上次迭代中不采用初始化参数的电子病历判别模型,而是采用上一次迭代优化得到的电子病历判别模型,以便缩短电子病历判别模型迭代优化的周期。
S614:以所述混合样本对应的真实性概率和所述混合样本的标注之间差异的最小化为优化目标,优化所述上一次迭代优化得到的电子病历判别模型的模型参数。
具体的,可根据混合样本对应的真实性概率和所述混合样本的标注之间差异确定损失,并以损失的最小化为训练目标,训练电子病历判别模型,其中,确定损失所采用的损失函数可以现有的任一类型的损失函数,本说明书对此不做限定。
S616:将所述生成的虚拟电子病历输入到本次迭代优化后的电子病历判别模型,得到所述本次迭代优化后电子病历判别模型输出的所述生成的虚拟电子病历的真实性概率。
之后,基于本次迭代优化后的电子病历判别模型,相较于上一次迭代优化得到的电子病历判别模型,其判别能力通常更高,因此,将步骤S606生成的虚拟电子病历再次输入到本次迭代优化后的电子病历判别模型,得到本次迭代优化后的电子病历判别模型输出的真实性概率。
S618:以所述真实性概率的最大化为优化目标,对上一次迭代优化得到的特征提取模型的模型参数进行优化。
图7为本说明书提供的一种虚拟电子病历的生成装置示意图,具体包括:
目标文本特征确定模块700,用于响应于用户输入的目标文本,确定所述目标文本的特征;其中,所述目标文本用于描述待生成的虚拟电子病历的特征;
指定图获取模块702,用于获取指定图,所述指定图包含多个从包含真实的医疗记录文本的电子病历中提取的实体,所述指定图中各实体之间的边用于指示所述各实体之间存在相关关系;
实体特征提取模块704,用于将所述指定图输入预先训练的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征;
提示向量确定模块706,用于根据所述目标文本的特征以及所述各实体的特征,确定提示向量;
生成模块708,用于将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历,所述虚拟电子病历包含非真实的医疗记录文本。
可选地,所述装置还包括:
指定图构建模块710,具体用于获取多个参考电子病历,并从各参考电子病历中提取多个实体;从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本;根据查找到的用于描述所述各实体的医疗记录文本,确定所述各实体之间的相关关系;以所述各实体为节点,以所述各实体之间的相关关系为边,构建指定图,并存储所述指定图。
可选地,所述指定图构建模块710具体用于,从各参考电子病历中提取参考记录文本;将预先获取的各实体类型以及所述参考记录文本作为输入,输入到预先训练的编码器,得到所述编码器输出的第一向量;所述第一向量包含所述参考记录文本中各字的向量以及所述各实体类型的向量;将所述第一向量输入到自注意力层,确定所述第一向量对应的所述参考记录文本中各字分别属于所述各实体类型的概率;根据所述概率,分别确定所述参考记录文本中各字所属的实体类型;根据各实体类型包含的各字,确定若干词,并将确定出的各词作为从所述各参考电子病历中提取的各实体。
可选地,所述指定图构建模块710具体用于,针对每个实体,根据从所述各参考电子病历中查找到的用于描述该实体的医疗记录文本,确定该实体在所述各参考电子病历中对应的各实际记录数据;确定该实体对应的各实际记录数据,和所述各实体中除该实体外的其他实体对应的各实际记录数据之间的线性相关系数;当所述线性相关系数高于预设的第一系数阈值时,确定该实体与所述线性相关系数对应的其他实体之间存在正相关关系;当所述线性相关系数低于预设的第二系数阈值时,确定该实体与所述线性相关系数对应的其他实体之间存在负相关关系;当所述线性相关系数不高于所述第一系数阈值,且不低于所述第二系数阈值时,确定该实体与所述线性相关系数对应的其他实体之间不存在相关关系。
可选地,所述指定图构建模块710具体用于,根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定所述各实体中任意两个实体在所述各参考电子病历中共现的频次;当所述频次高于预设的频次阈值时,确定所述频次对应的两个实体之间存在共现关系。
可选地,所述指定图构建模块710具体用于,针对每个实体,根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定包含该实体的参考电子病历的数量占所述各参考电子病历的总数的第一比重;根据所述各实体对应的第一比重,从所述各实体中筛选出多个目标实体;针对每个目标实体,根据包含该目标实体的参考电子病历的数量、包含该目标实体对应的其他目标实体的参考电子病历的数量,以及所述各参考电子病历的总数的,确定该目标实体对应的第二比重;其中,该目标实体对应的其他目标实体包括各目标实体中除该目标实体外的其余目标实体;根据该目标实体对应的第二比重和该目标实体对应的第一比重,确定该目标实体和该目标实体对应的其他目标实体之间的相关关系。
可选地,所述实体特征提取模块704具体用于,将所述指定图输入预先训练的特征提取模型,通过所述特征提取模型的编码层,确定所述指定图包含的各实体的原始特征;针对所述指定图包含的每个实体,根据所述指定图中各边的边权重,确定该实体以及在所述指定图中与该实体通过边相连的各相邻实体之间的相关性强度;根据该实体的原始特征、该实体的各相邻实体的原始特征,以及该实体与该实体的各相邻实体之间的相关性强度,通过所述特征提取模型的注意力层,分别确定该实体与该实体的各相邻实体之间的注意力权重;根据该实体与该实体的各相邻实体之间的注意力权重,该实体的原始特征,以及该实体的各相邻实体的原始特征,确定该实体的特征。
可选地,所述目标文本的特征包括所述目标文本包含的各字的特征;
可选地,所述提示向量确定模块706具体用于,在所述目标文本的特征中添加文本标识,在所述各实体的特征中添加实体标识;将添加文本标识的目标文本的特征与添加实体标识的各实体的特征进行拼接,得到特征序列;将所述特征序列输入自注意力层,针对所述特征序列中所述目标文本包含的每个字的特征,确定该字的特征与除该字外的其余各字的特征之间的第一注意力权重,以及该字的特征与所述各实体的特征之间的第二注意力权重;根据该字的特征对应的第一注意力权重、该字的特征对应的第二注意力权重,以及该字的特征,确定该字的目标特征;将所述目标文本包含的各字的目标特征,输入预先优化的全连接层,得到所述全连接层输出的提示向量。
可选地,所述装置还包括:
第一训练模块712,具体用于,将获取到的指定图输入待训练的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征;获取参考文本,确定所述参考文本的特征;根据所述参考文本的特征和所述各实体的特征确定提示向量;将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历;获取包含真实医疗记录文本的真实电子病历;确定所述真实电子病历和生成的虚拟电子病历之间的差异;以所述差异最小化为训练目标,训练所述特征提取模型。
可选地,所述装置还包括:
第二训练模块714,具体用于获取参考文本,确定所述参考文本的特征;将获取到的指定图输入到上一次迭代优化得到的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征;根据所述参考文本的特征和所述各实体的特征,确定本次迭代提示向量;将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历;获取包含真实医疗记录文本的真实电子病历;将生成的虚拟电子病历和所述真实电子病历混合,得到混合样本,并确定生成的虚拟电子病历的标注为第一标注,确定所述真实电子病历的标注为第二标注,根据所述第一标注和所述第二标注确定所述混合样本的标注;将所述混合样本输入上一次迭代优化得到的电子病历判别模型,得到所述电子病历判别模型输出的所述混合样本对应的真实性概率;以所述混合样本对应的真实性概率和所述混合样本的标注之间差异的最小化为优化目标,优化所述上一次迭代优化得到的电子病历判别模型的模型参数;将所述生成的虚拟电子病历输入到本次迭代优化后的电子病历判别模型,得到所述本次迭代优化后电子病历判别模型输出的所述生成的虚拟电子病历的真实性概率;以所述本次迭代优化后电子病历判别模型输出的所述生成的虚拟电子病历的真实性概率的最大化为优化目标,对上一次迭代优化得到的特征提取模型的模型参数进行优化。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1所示的虚拟电子病历的生成方法。
本说明书还提供了图8所示的电子设备的示意结构图。如图8所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所示的虚拟电子病历的生成方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (13)

1.一种虚拟电子病历的生成方法,其特征在于,包括:
响应于用户输入的目标文本,确定所述目标文本的特征;其中,所述目标文本用于描述待生成的虚拟电子病历的特征;
获取指定图,所述指定图包含多个从包含真实的医疗记录文本的电子病历中提取的实体,所述指定图中各实体之间的边用于指示所述各实体之间存在相关关系;
将所述指定图输入预先训练的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征;
根据所述目标文本的特征以及所述各实体的特征,确定提示向量;
将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历,所述虚拟电子病历包含非真实的医疗记录文本。
2.如权利要求1所述的方法,其特征在于,获取指定图之前,所述方法还包括:
获取多个参考电子病历,并从各参考电子病历中提取多个实体;
从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本;
根据查找到的用于描述所述各实体的医疗记录文本,确定所述各实体之间的相关关系;
以所述各实体为节点,以所述各实体之间的相关关系为边,构建指定图,并存储所述指定图。
3.如权利要求2所述的方法,其特征在于,从各参考电子病历中提取多个实体,具体包括:
从各参考电子病历中提取参考记录文本;
将预先获取的各实体类型以及所述参考记录文本作为输入,输入到预先训练的编码器,得到所述编码器输出的第一向量;所述第一向量包含所述参考记录文本中各字的向量以及所述各实体类型的向量;
将所述第一向量输入到自注意力层,确定所述第一向量对应的所述参考记录文本中各字分别属于所述各实体类型的概率;
根据所述概率,分别确定所述参考记录文本中各字所属的实体类型;
根据各实体类型包含的各字,确定若干词,并将确定出的各词作为从所述各参考电子病历中提取的各实体。
4.如权利要求2所述的方法,其特征在于,根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定各实体之间的相关关系,具体包括:
针对每个实体,根据从所述各参考电子病历中查找到的用于描述该实体的医疗记录文本,确定该实体在所述各参考电子病历中对应的各实际记录数据;
确定该实体对应的各实际记录数据,和所述各实体中除该实体外的其他实体对应的各实际记录数据之间的线性相关系数;
当所述线性相关系数高于预设的第一系数阈值时,确定该实体与所述线性相关系数对应的其他实体之间存在正相关关系;
当所述线性相关系数低于预设的第二系数阈值时,确定该实体与所述线性相关系数对应的其他实体之间存在负相关关系;
当所述线性相关系数不高于所述第一系数阈值,且不低于所述第二系数阈值时,确定该实体与所述线性相关系数对应的其他实体之间不存在相关关系。
5.如权利要求2所述的方法,其特征在于,根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定各实体之间的相关关系,具体包括:
根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定所述各实体中任意两个实体在所述各参考电子病历中共现的频次;
当所述频次高于预设的频次阈值时,确定所述频次对应的两个实体之间存在共现关系。
6.如权利要求2所述的方法,其特征在于,根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定各实体之间的相关关系,具体包括:
针对每个实体,根据从所述各参考电子病历中查找到的用于描述各实体的医疗记录文本,确定包含该实体的参考电子病历的数量占所述各参考电子病历的总数的第一比重;
根据所述各实体对应的第一比重,从所述各实体中筛选出多个目标实体;
针对每个目标实体,根据包含该目标实体的参考电子病历的数量、包含该目标实体对应的其他目标实体的参考电子病历的数量,以及所述各参考电子病历的总数,确定该目标实体对应的第二比重;其中,该目标实体对应的其他目标实体包括各目标实体中除该目标实体外的其余目标实体;
根据该目标实体对应的第二比重和该目标实体对应的第一比重,确定该目标实体和该目标实体对应的其他目标实体之间的相关关系。
7.如权利要求1所述的方法,其特征在于,将所述指定图输入预先训练的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征,具体包括:
将所述指定图输入预先训练的特征提取模型,通过所述特征提取模型的编码层,确定所述指定图包含的各实体的原始特征;
针对所述指定图包含的每个实体,根据所述指定图中各边的边权重,确定该实体以及在所述指定图中与该实体通过边相连的各相邻实体之间的相关性强度;
根据该实体的原始特征、该实体的各相邻实体的原始特征,以及该实体与该实体的各相邻实体之间的相关性强度,通过所述特征提取模型的注意力层,分别确定该实体与该实体的各相邻实体之间的注意力权重;
根据该实体与该实体的各相邻实体之间的注意力权重,该实体的原始特征,以及该实体的各相邻实体的原始特征,确定该实体的特征。
8.如权利要求1所述的方法,其特征在于,所述目标文本的特征包括所述目标文本包含的各字的特征;
根据所述目标文本的特征以及所述各实体的特征,确定提示向量,具体包括:
在所述目标文本的特征中添加文本标识,在所述各实体的特征中添加实体标识;
将添加文本标识的目标文本的特征与添加实体标识的各实体的特征进行拼接,得到特征序列;
将所述特征序列输入自注意力层,针对所述特征序列中所述目标文本包含的每个字的特征,确定该字的特征与除该字外的其余各字的特征之间的第一注意力权重,以及该字的特征与所述各实体的特征之间的第二注意力权重;
根据该字的特征对应的第一注意力权重、该字的特征对应的第二注意力权重,以及该字的特征,确定该字的目标特征;
将所述目标文本包含的各字的目标特征,输入预先优化的全连接层,得到所述全连接层输出的提示向量。
9.如权利要求1~8任一所述的方法,其特征在于,预先训练特征提取模型,具体包括:
将获取到的指定图输入待训练的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征;
获取参考文本,确定所述参考文本的特征;
根据所述参考文本的特征和所述各实体的特征确定提示向量;
将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历;
获取包含真实医疗记录文本的真实电子病历;
确定所述真实电子病历和生成的虚拟电子病历之间的差异;
以所述差异最小化为训练目标,训练所述特征提取模型。
10.如权利要求1~8任一所述的方法,其特征在于,采用迭代训练的方法训练所述特征提取模型,每次迭代训练所述特征提取模型的方法包括:
获取参考文本,确定所述参考文本的特征;
将获取到的指定图输入到上一次迭代优化得到的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征;
根据所述参考文本的特征和所述各实体的特征,确定本次迭代提示向量;
将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历;
获取包含真实医疗记录文本的真实电子病历;
将生成的虚拟电子病历和所述真实电子病历混合,得到混合样本,并确定生成的虚拟电子病历的标注为第一标注,确定所述真实电子病历的标注为第二标注,根据所述第一标注和所述第二标注确定所述混合样本的标注;
将所述混合样本输入上一次迭代优化得到的电子病历判别模型,得到所述电子病历判别模型输出的所述混合样本对应的真实性概率;
以所述混合样本对应的真实性概率和所述混合样本的标注之间差异的最小化为优化目标,优化所述上一次迭代优化得到的电子病历判别模型的模型参数;
将所述生成的虚拟电子病历输入到本次迭代优化后的电子病历判别模型,得到所述本次迭代优化后电子病历判别模型输出的所述生成的虚拟电子病历的真实性概率;
以所述本次迭代优化后电子病历判别模型输出的所述生成的虚拟电子病历的真实性概率的最大化为优化目标,对上一次迭代优化得到的特征提取模型的模型参数进行优化。
11.一种虚拟电子病历的生成装置,其特征在于,包括:
目标文本特征确定模块,用于响应于用户输入的目标文本,确定所述目标文本的特征;其中,所述目标文本用于描述待生成的虚拟电子病历的特征;
指定图获取模块,用于获取指定图,所述指定图包含多个从包含真实的医疗记录文本的电子病历中提取的实体,所述指定图中各实体之间的边用于指示所述各实体之间存在相关关系;
实体特征提取模块,用于将所述指定图输入预先训练的特征提取模型,得到所述特征提取模型输出的所述指定图中包含的各实体的特征;
提示向量确定模块,用于根据所述目标文本的特征以及所述各实体的特征,确定提示向量;
生成模块,用于将所述提示向量输入到预训练的自然语言模型,生成虚拟电子病历,所述虚拟电子病历包含非真实的医疗记录文本。
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~10任一项所述的方法。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~10任一项所述的方法。
CN202310811543.0A 2023-07-04 2023-07-04 一种虚拟电子病历的生成方法及装置 Active CN116525125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310811543.0A CN116525125B (zh) 2023-07-04 2023-07-04 一种虚拟电子病历的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310811543.0A CN116525125B (zh) 2023-07-04 2023-07-04 一种虚拟电子病历的生成方法及装置

Publications (2)

Publication Number Publication Date
CN116525125A true CN116525125A (zh) 2023-08-01
CN116525125B CN116525125B (zh) 2023-09-19

Family

ID=87401620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310811543.0A Active CN116525125B (zh) 2023-07-04 2023-07-04 一种虚拟电子病历的生成方法及装置

Country Status (1)

Country Link
CN (1) CN116525125B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095782A (zh) * 2023-10-20 2023-11-21 上海森亿医疗科技有限公司 医学文本快速录入方法、系统、终端及编辑器

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
WO2020018412A1 (en) * 2018-07-19 2020-01-23 Optum, Inc. Digital representations of past, current, and future health using vectors
CN111681726A (zh) * 2020-05-29 2020-09-18 北京百度网讯科技有限公司 电子病历数据的处理方法、装置、设备和介质
WO2021159759A1 (zh) * 2020-09-04 2021-08-19 平安科技(深圳)有限公司 电子病历结构化方法、装置、计算机设备和存储介质
CN113688255A (zh) * 2021-09-02 2021-11-23 大连理工大学 一种基于中文电子病历的知识图谱构建方法
CN113934824A (zh) * 2021-12-15 2022-01-14 之江实验室 一种基于多轮智能问答的相似病历匹配系统及方法
WO2023025255A1 (zh) * 2021-08-27 2023-03-02 之江实验室 一种多中心医学诊断知识图谱表示学习方法及系统
WO2023098288A1 (zh) * 2021-12-01 2023-06-08 浙江大学 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020018412A1 (en) * 2018-07-19 2020-01-23 Optum, Inc. Digital representations of past, current, and future health using vectors
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
CN111681726A (zh) * 2020-05-29 2020-09-18 北京百度网讯科技有限公司 电子病历数据的处理方法、装置、设备和介质
US20210375479A1 (en) * 2020-05-29 2021-12-02 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing electronic medical record data, device and medium
WO2021159759A1 (zh) * 2020-09-04 2021-08-19 平安科技(深圳)有限公司 电子病历结构化方法、装置、计算机设备和存储介质
WO2023025255A1 (zh) * 2021-08-27 2023-03-02 之江实验室 一种多中心医学诊断知识图谱表示学习方法及系统
CN113688255A (zh) * 2021-09-02 2021-11-23 大连理工大学 一种基于中文电子病历的知识图谱构建方法
WO2023098288A1 (zh) * 2021-12-01 2023-06-08 浙江大学 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统
CN113934824A (zh) * 2021-12-15 2022-01-14 之江实验室 一种基于多轮智能问答的相似病历匹配系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宁尚明;滕飞;李天瑞;: "基于多通道自注意力机制的电子病历实体关系抽取", 计算机学报, no. 05, pages 164 - 177 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095782A (zh) * 2023-10-20 2023-11-21 上海森亿医疗科技有限公司 医学文本快速录入方法、系统、终端及编辑器
CN117095782B (zh) * 2023-10-20 2024-02-06 上海森亿医疗科技有限公司 医学文本快速录入方法、系统、终端及编辑器

Also Published As

Publication number Publication date
CN116525125B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
Liang et al. Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence
Li et al. Intelligent diagnosis with Chinese electronic medical records based on convolutional neural networks
Mozayan et al. Practical guide to natural language processing for radiology
Sammani et al. Automatic multilabel detection of ICD10 codes in Dutch cardiology discharge letters using neural networks
Johnson et al. Medical provider embeddings for healthcare fraud detection
CN116525125B (zh) 一种虚拟电子病历的生成方法及装置
CN112151187B (zh) 信息查询方法、装置、计算机设备和存储介质
Levy et al. Comparison of machine-learning algorithms for the prediction of current procedural terminology (CPT) codes from pathology reports
US11763081B2 (en) Extracting fine grain labels from medical imaging reports
CN104781843A (zh) 临床决策支持
Hartsock et al. Vision-language models for medical report generation and visual question answering: A review
CN112424873A (zh) 模拟患者以开发基于人工智能的医学方案
Chen et al. Knowledge-powered deep breast tumor classification with multiple medical reports
Chiang et al. A large language model–based generative natural language processing framework fine‐tuned on clinical notes accurately extracts headache frequency from electronic health records
Memarzadeh et al. A study into patient similarity through representation learning from medical records
He et al. KG-MTT-BERT: Knowledge graph enhanced BERT for multi-type medical text classification
Mithun et al. Clinical concept-based radiology reports classification pipeline for lung carcinoma
Chen et al. Automated medical chart review for breast cancer outcomes research: a novel natural language processing extraction system
Falis et al. Can GPT-3.5 generate and code discharge summaries?
Sloan et al. Automated Radiology Report Generation: A Review of Recent Advances
Satti et al. Unsupervised semantic mapping for healthcare data storage schema
Malgieri Ontologies, Machine Learning and Deep Learning in Obstetrics
CN113704481A (zh) 一种文本处理方法、装置、设备及存储介质
Apeldoorn et al. Automated creation of expert systems with the intekrator toolbox
CN116469526A (zh) 中医诊断模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant