CN117116476B - 下游任务预测方法、装置及计算机可读存储介质 - Google Patents

下游任务预测方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN117116476B
CN117116476B CN202310806104.0A CN202310806104A CN117116476B CN 117116476 B CN117116476 B CN 117116476B CN 202310806104 A CN202310806104 A CN 202310806104A CN 117116476 B CN117116476 B CN 117116476B
Authority
CN
China
Prior art keywords
data
model
training
label
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310806104.0A
Other languages
English (en)
Other versions
CN117116476A (zh
Inventor
� 赵
赵帅
邢运
刁晓林
袁靖
夏芸
杨展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuwai Hospital of CAMS and PUMC
Original Assignee
Fuwai Hospital of CAMS and PUMC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuwai Hospital of CAMS and PUMC filed Critical Fuwai Hospital of CAMS and PUMC
Priority to CN202310806104.0A priority Critical patent/CN117116476B/zh
Publication of CN117116476A publication Critical patent/CN117116476A/zh
Application granted granted Critical
Publication of CN117116476B publication Critical patent/CN117116476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种下游任务预测方法、装置及计算机可读存储介质。其中,该方法包括:获取目标对象的实时就诊数据,其中,实时就诊数据包括结构化数据和非结构化数据;对实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据;其中,第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补;基于第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据;将第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果。本发明解决了由于就诊项目数据利用不充分,导致数据通用性不强,适用场景受限的技术问题。

Description

下游任务预测方法、装置及计算机可读存储介质
技术领域
本发明涉及医疗下游任务预测领域,具体而言,涉及一种下游任务预测方法、装置及计算机可读存储介质。
背景技术
医疗结构化数据(如患者就诊数据)是数值类型的医疗数据,数据来源为诊断结果、化验结果或测量指标等,与文本、影像特征相比,医疗结构化数据具有使用便捷、通用性好等优点,因此在人工智能医疗领域具有广阔的应用前景。但在医疗结构化数据的实际应用中,仍存在很多难点,如医疗结构化数据往往存在成百上千个结构化特征,且患者个体层面的数据模态具有差异性,如何全面、充分利用高维且模态缺失的特征是个很大的挑战。
在现有人工智能医疗研究中,为解决就诊数据中特征高维问题,常见的方法是基于具体任务进行特征筛选,筛选方法大多依赖任务所关联的专家知识;而对于就诊项目(如化验或检查)缺失问题则通过选择无就诊项目缺失的数据进行规避。上述方法虽然在一定程度上有效,却存在数据利用不充分的问题,导致就诊数据通用性不强,适用场景受限。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种下游任务预测方法、装置及计算机可读存储介质,以至少解决由于相关技术中患者的就诊项目数据利用不充分,导致的就诊数据通用性不强,适用场景受限的技术问题。
根据本发明实施例的一个方面,提供了一种下游任务预测方法,包括:获取目标对象的实时就诊数据,其中,上述实时就诊数据包括结构化数据和非结构化数据;对上述实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据;其中,上述第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补;基于上述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据;将上述第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果。
可选的,在上述基于上述第一结构化数据,采用预先训练好的去噪其自编码器,得到第二结构化数据之前,上述方法还包括:基于历史就诊数据,构建基础数据集,其中,上述基础数据集中包括多个就诊项目,以及上述多个就诊项目分别对应的项目特征数据,上述多个就诊项目按照预定顺序排列,上述基础数据集中包括的上述多个就诊项目与上述实时就诊数据的就诊项目顺序相同,上述基础数据集中包括的历史缺失数据采用上述预定第一字符进行填补;对上述基础数据集进行预处理,得到预处理后的基础数据集;基于上述预处理后的基础数据集,确定模型输入特征,其中,上述模型输入特征中包括有构造缺失数据,上述构造缺失数据通过预定第二字符进行填补;构造上述模型输入特征对应的模型训练标签,其中,上述模型输入特征中包括的未缺失数据、上述历史缺失数据、上述构造缺失数据对应于不同的标签标识;基于上述模型输入特征和上述模型训练标签进行自监督训练,得到上述去噪自编码器。
可选的,在项目特征数据中包括连续特征数据和离散特征数据的情况下,上述对上述基础数据集进行预处理,得到预处理后的基础数据集,包括:对上述基础数据集中包括的离散特征数据进行编码处理,以及对上述基础数据集中包括的连续特征数据进行标准化处理,得到上述预处理后的基础数据集,其中,上述基础数据集中包括的上述预定第一字符和上述多个就诊项目保持不变。
可选的,上述基于上述预处理后的基础数据集,确定模型输入特征,包括:对上述预处理后的基础数据集中的上述多个就诊项目分别对应的项目特征数据中,预设第一比例的非预定第一字符进行添加噪声处理,得到中间变量;将上述中间变量中,预设第二比例的未添加噪声且非预定第一字符的特征值替换为预设第二字符,得到上述模型输入特征。
可选的,在上述模型训练标签包括第一训练标签、第二训练标签以及第三训练标签的情况下,上述构造上述模型输入特征对应的模型训练标签,包括:基于上述中间变量,得到上述第一训练标签和上述第二训练标签,其中,上述第一训练标签用于表示项目特征数据是否被添加噪声,上述第二训练标签用于表示被添加噪声的项目特征数据的原始值;基于上述模型输入特征,确定上述第三训练标签,其中,上述第三训练标签用于区分上述模型输入特征中包括的上述未缺失数据、上述历史缺失数据、上述构造缺失数据。
可选的,上述基于上述模型输入特征和上述模型训练标签进行自监督训练,得到上述去噪自编码器,包括:基于上述模型输入特征和上述模型训练标签对初始编码器进行自监督训练,得到训练后的编码器、第一预测标签、第二预测标签以及第三预测标签;基于上述第一预测标签和上述第一训练标签,得到第一模型损失;基于上述第二预测标签和上述第二训练标签,得到第二模型损失;基于上述第三预测标签和上述第三训练标签,得到第三模型损失;基于上述第一模型损失,上述第二模型损失以及上述第三模型损失,得到模型总损失;在上述模型总损失满足预设损失条件的情况下,将上述训练后的编码器作为上述去噪自编码器。
可选的,上述基于上述第一预测标签和上述第一训练标签,得到第一模型损失,包括:基于上述第一预测标签和上述第一训练标签,采用交叉熵损失函数,得到上述第一模型损失;上述基于上述第二预测标签和上述第二训练标签,得到第二模型损失,包括:基于上述第二预测标签和上述第二训练标签,采用均方误差损失函数,得到上述第二模型损失;上述基于上述第三预测标签和上述第三训练标签,得到第三模型损失,包括:基于上述第三预测标签和上述第三训练标签,采用上述交叉熵损失函数,得到上述第三模型损失。
可选的,上述基于上述模型输入特征和上述模型训练标签对初始编码器进行自监督训练,得到训练后的编码器、第一预测标签、第二预测标签以及第三预测标签,包括:基于上述模型输入特征中包括的项目特征数据,得到第一特征向量,基于上述模型输入特征中包括的多个就诊项目,得到第二特征向量;对上述第一特征向量和上述第二特征向量进行求和处理,得到第三特征向量;基于上述第三特征向量和上述模型训练标签对初始编码器进行训练,得到上述训练后的编码器、上述第一预测标签、上述第二预测标签以及上述第三预测标签。
可选的,上述对上述实时就诊数据进行预处理,得到第一结构化数据,包括:按照预定顺序对上述实时就诊数据中包括的结构化数据进行排序处理,得到排序后的结构化数据,其中,上述排序后的结构化数据中包括多个就诊项目,以及上述多个就诊项目分别对应的项目特征数据,其中,项目特征数据中包括连续特征数据和离散特征数据;采用预定第一字符对上述排序后的结构化数据中包括的上述实时缺失数据进行填补,得到填补后的结构化数据;对上述填补后的结构化数据中包括的离散特征数据进行编码处理,以及对上述填补后的结构化数据中包括的连续特征数据进行标准化处理,得到上述第一结构化数据,其中,上述填补后的结构化数据中包括的上述预定第一字符和上述多个就诊项目保持不变。根据本发明实施例的另一方面,还提供了一种下游任务预测装置,包括:第一获取模块,用于获取目标对象的实时就诊数据,其中,上述实时就诊数据包括结构化数据和非结构化数据;预处理模块,用于对上述实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据;其中,上述第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补;第二获取模块,用于基于上述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据;预测模块,用于将上述第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,上述计算机可读存储介质存储有多条指令,上述指令适于由处理器加载并执行任意一项上述的下游任务预测方法。
在本发明实施例中,通过获取目标对象的实时就诊数据,其中,上述实时就诊数据包括结构化数据和非结构化数据;对上述实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据;其中,上述第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补;基于上述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据;将上述第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果,达到了通过预先训练好的去噪自编码器进行目标就诊数据的缺失值填补,以得到更加全面的就诊数据的目的,从而实现了在获取到更加全面的就诊数据的同时,增加就诊数据的通用性的技术效果,进而解决了现有技术中,患者就诊项目数据利用不全,导致就诊数据通用性不强,适用场景受限的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种下游任务预测方法的示意图;
图2是根据本发明实施例的一种可选的下游任务预测方法的示意图;
图3是根据本发明实施例的另一种可选的下游任务预测系统的示意图;
图4是根据本发明实施例的一种下游任务预测装置的示意图。
实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
医疗结构化数据是数值类型的医疗数据,数据来源为诊断结果、化验结果或测量指标等。医疗结构化数据作为最基础、最常见的临床数据,覆盖人口统计指标、病史、化验、超声、心电等多类临床就诊项目,反应了患者的基本信息、临床诊断、治疗过程等重要临床信息。同时,在人工智能医疗领域,结构化数据与文本、影像特征相比,无需提前抽取特征,使用更便捷。许多结构化特征在不同医疗机构间具有通用性,可有效减少在数据整合时因机构间数据差异带来的壁垒。
目前,在医疗结构化数据的实际应用中依然存在许多难点,具体来说,每个患者的临床数据中存在成百上千个结构化特征,且患者个体层面的数据就诊项目具有差异性,比如一部分患者含有超声数据信息,而另一部分患者没有做过超声检查,如何全面、充分地利用如此高维且有就诊项目缺失的特征是一个很大的挑战。
在现有人工智能医疗研究中,为解决就诊数据中特征高维问题,常见的方法是基于具体任务进行特征筛选,筛选方法大多依赖任务所关联的专家知识,这一过程中会有大量的数据被筛选掉;而对于就诊项目(如化验或检查)缺失问题则通过选择无就诊项目缺失的数据进行规避,而存在就诊项目缺失的数据得不到利用。这些方法虽然在一定程度上有效,却存在数据利用不充分的问题,导致的就诊数据通用性不强,适用场景受限。为此,有学者提出了基于降噪自编码(DAE)预训练的方法,以提升特征利用的充分性,但现有针对医疗数据的DAE预训练往往只针对单一任务,无法适用于下游的多种任务;且一般沿用DAE的标准框架,忽略了医疗特征背后的部分信息。此外,现有工作通常并未考虑就诊项目缺失问题。
在医疗外的领域,基于DAE预训练的方法往往只针对单一任务,比如缺失值填充,无法适用于下游的多种任务,通用性有限。在医疗领域中,基于DAE预训练的方法在非结构化数据(如:文本数据、影像数据)和结构化数据中均有应用。非结构化数据:通常针对单一任务设计,且使用单一就诊项目数据,(如仅使用胸部X线),未能充分利用患者其他就诊项目的信息。结构化数据:涉及多种就诊项目数据的共同建模,但未考虑就诊项目缺失问题,且沿用标准DAE框架,没有结合医疗结构化特征进行有针对性设计,从而未能充分挖掘特征信息(如未能有针对性地分析不同就诊项目特征之间的差异)。
根据本发明实施例,提供了一种下游任务预测的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的下游任务预测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标对象的实时就诊数据,其中,上述实时就诊数据包括结构化数据和非结构化数据。
可选的,上述实时就诊数据中包括的结构化数据包括至少一个就诊项目,以及至少一个就诊项目分别对应的项目特征数据,每组结构化数据都包括连续特征数据、离散特征数据。就诊项目可以但不限于包括患者(即目标对象)的化验或检查项目,如化验、超声、心电等等。上述项目特征数据可以理解为就诊项目对应的检查结果。
可选的,每组结构化数据都包括连续特征数据、离散特征数据,其中连续特征数据指的是按测量或者计量方法得到的,在一段长度内可以任意获得的特征,其数值是不间断的。比如[0,1]之间的数,可以取n个数。离散特征数据指的是其数值只能用自然数来表示,只能用计量单位统计的,如个数,人数等。举例来说,例如人口统计学特征中,如人数、年龄、性别是离散特征;平均收入、平均寿命是连续特征;就诊项目检查结果中,如否患有某类疾病(是/否)、某项指标是否正常(是/否)是离散特征,某类疾病对应的异常检测结果为连续特征数据;血液、超声心动图、心电图、胸片检查,如正常、异常患者的个数是离散特征,患者某项测定结果是连续特征数据;就诊项目类型特征(即第一数量的就诊项目)为离散特征数据。
步骤S104,对上述实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据;其中,上述第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补。
可选的,上述第一结构化数据中包括多个就诊项目,以及上述多个就诊项目分别对应的项目特征数据,上述多个就诊项目的数量固定,并按照预定顺序排列,上述第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补。上述预定第一字符可以但不限于为[NULL]。
步骤S106,基于上述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据。
可选的,上述去噪自编码器用于对第一结构化数据中存在的原始缺失数据进行填补。第一结构化数据中包括多个就诊项目分别对应的项目特征数据,多个就诊项目按照预定顺序排列,但目标对象(如患者)在实际就诊的过程中,可能只化验或检查了多个就诊项目中的一个或几个项目,因此,部分就诊项目会存在数据缺失的情况。针对缺失数据,可以进一步通过预先训练好的去噪自编码器进行数据填补,由此获取到更加完整的就诊数据。
可选的,使用训练好的去噪自编码器,将第一结构化数据中的特征转化为特征向量,再从特征向量解码成第二结构化数据,以上过程使得去噪自编码器能够识别第一结构化数据中的数据缺失类型,从而更充分的挖掘就诊数据中结构化特征背后的有益效果。
步骤S108,将上述第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果。
可选的,上述下游预测模型可以但不限于为疾病评分预测模型,诊疗推荐评分模型,等等;上述评分预测模型用于输出目标对象对应的多种疾病分别对应的评分结果,以及多种治疗方式分别对应的评分结果。
上述步骤S102至步骤S108可应用包含结构化数据的所有医疗领域下游任务场景,通过上述步骤S102至步骤S108,可以实现达到通过预先训练好的去噪自编码器进行目标就诊数据的缺失值填补,以得到更加全面的就诊数据的目的,从而实现在获取到更加全面的就诊数据的同时,增加就诊数据的通用性的技术效果,进而解决了就诊数据利用不全,导致通用性差的技术问题。
需要说明的是,上述训练完成的去噪自编码器,和相关技术中利用DAE的部分工作相比,优势在于所得模型不仅仅针对单一任务,可用于优化患者的目标就诊数据,提升多种下游任务(如疾病风险预警、相似病历筛选等)的模型表现。
在一种可选的实施例中,在上述基于上述第一结构化数据,采用预先训练好的去噪其自编码器,得到第二结构化数据之前,上述方法还包括:基于历史就诊数据,构建基础数据集,其中,上述基础数据集中包括多个就诊项目,以及上述多个就诊项目分别对应的项目特征数据,上述多个就诊项目按照预定顺序排列,上述基础数据集中包括的上述多个就诊项目与上述实时就诊数据的就诊项目顺序相同,上述基础数据集中包括的历史缺失数据采用上述预定第一字符进行填补;对上述基础数据集进行预处理,得到预处理后的基础数据集;基于上述预处理后的基础数据集,确定模型输入特征,其中,上述模型输入特征中包括有构造缺失数据,上述构造缺失数据通过预定第二字符进行填补;构造上述模型输入特征对应的模型训练标签,其中,上述模型输入特征中包括的未缺失数据、上述历史缺失数据、上述构造缺失数据对应于不同的标签标识;基于上述模型输入特征和上述模型训练标签进行自监督训练,得到上述去噪自编码器。
历史就诊数据根据缺失情况,分为包括未缺失数据、历史缺失数据。在实际应用中,采集到的历史就诊数据,可能会存在一定的共性特征,使得模型训练过程中容易出现过拟合或欠拟合问题,导致泛化能力下降。基于此,在获取到历史就诊数据之后,通过构造缺失的方式对历史就诊数据进行预处理,弱化历史就诊数据中的可能存在的数据同质性问题,避免模型过拟合或欠拟合情况的发生。并且,对于手工构造的缺失,其对应的原始数据值是真实可靠的,基于手工构造缺失的引入进行模型训练,使得模型可以基于缺失数据的真实结果进行训练,使得训练后获取到的去噪编码器在进行数据填补时更加贴近实际。通过为未缺失数据、上述历史缺失数据、上述构造缺失数据赋予不同的标签标识,使得训练后获取到的去噪编码器能够学习到数据缺失类型。该去噪自编码器的F1性能提高2%-3%,其中F1指的召回率与精确率的调和平均值,使用去噪自编码器,能够对缺失比例小于20%的数据集进行分析处理后,提供准确数据,适用场景扩展为包含结构化数据的所有医疗领域下游任务。
在一种可选的实施例中,在项目特征数据中包括连续特征数据和离散特征数据的情况下,上述对上述基础数据集进行预处理,得到预处理后的基础数据集,包括:对上述基础数据集中包括的离散特征数据进行编码处理,以及对上述基础数据集中包括的连续特征数据进行标准化处理,得到上述预处理后的基础数据集,其中,上述基础数据集中包括的上述预定第一字符和上述多个就诊项目保持不变。
可选的,获取基础数据集,其中,基础数据集中共有3类特征:连续特征x1、离散特征x2、就诊项目类型特征x3(对应于多个就诊项目,也属于离散特征,但是单独作为一类特征表示)。其中连续特征x1的预处理方法为标准化(减均值除以标准差),离散特征x2的预处理方法为转化为0-1编码向量,就诊项目类型x3和预定第一字符[NULL]保持不变,得到预处理后的基础数据集。可以理解,基础数据集中每一个样本(每一个就诊项目即可作为一个样本)可以表示:x={x1,x2,x3} ,其中样本中的空值用特殊字符[NULL](即预定第一字符)表示,用于解决就诊项目缺失。
在一种可选的实施例中,上述基于上述预处理后的基础数据集,确定模型输入特征,包括:对上述预处理后的基础数据集中的上述多个就诊项目分别对应的项目特征数据中,预设第一比例的非预定第一字符进行添加噪声处理,得到中间变量;将上述中间变量中,预设第二比例的未添加噪声且非预定第一字符的特征值替换为预设第二字符,得到上述模型输入特征。
可选的,在预处理后的基础数据集x={x1,x2,x3}中随机选择预设第一比例的非特殊字符特征(即x1,x2中选择),添加随机生成的噪声,添加噪声的特征放回预处理后的基础数据集,即添加噪声后的特征与未添加噪声的特征共同构成x1',x2',x1',x2'与x3共同构成中间变量x'={x1',x2',x3} 。在中间变量中,随机选择预设第二比例的非特殊字符(即非预定第一字符[NULL])且未添加噪声的特征值(即x1',x2'中选择),并将其替换为特殊字符[MASK](即预定第二字符)作为手工构造缺失,得到x1'',x2'',x1'',x2''与x3共同构成模型输入特征x''={x1'',x2'',x3};此为本发明实施例提出的完整掩码机制。
可选的,在实际应用场景中,获取到的实时就诊数据中可能存在一定的噪声,通过在模型训练的过程中,在模型输入特征中引入随机噪声,使得模型在训练的过程中能够对模型输入特征中存在的随机噪声进行学习,使得训练后的模型具备一定的噪声处理能力。进一步在添加噪声后获取到的中间变量的基础上构造手工缺失,基于手工构造缺失的引入进行模型训练,使得模型可以基于缺失数据的真实结果进行训练,使得训练后获取到的去噪编码器在进行数据填补时更加贴近实际。
在一种可选的实施例中,在上述模型训练标签包括第一训练标签、第二训练标签以及第三训练标签的情况下,上述构造上述模型输入特征对应的模型训练标签,包括:基于上述中间变量,得到上述第一训练标签和上述第二训练标签,其中,上述第一训练标签用于表示项目特征数据是否被添加噪声,上述第二训练标签用于表示被添加噪声的项目特征数据的原始值;基于上述模型输入特征,确定上述第三训练标签,其中,上述第三训练标签用于区分上述模型输入特征中包括的上述未缺失数据、上述历史缺失数据、上述构造缺失数据。
可选的,基于中间变量中包括的项目特征数据x1',x2'中没有被添加噪声的特征的位置标签为0,被添加噪声特征的位置标签为1,得到第一训练标签y1,y1∈{0,1} 基于中间变量中被添加噪声的特征项目特征数据的原始值构建第二训练标签y2。模型输入特征中包括的项目特征数据x1'',x2''对应的第三训练标签记为y3,y3∈{0,1,2} ,其中,模型输入特征中包括的项目特征数据未缺失数据对应标签为0,原始数据缺失([NULL])对应标签为1,手工构造缺失([MASK])对应标签为2。通过为模型输入特征引入多重训练标签(即第一训练标签,第二训练标签以及第三训练标签),为未缺失数据、上述历史缺失数据、上述构造缺失数据赋予不同的标签标识,使得训练后获取到的去噪编码器能够更好的学习到数据缺失类型。
在一种可选的实施例中,上述基于上述模型输入特征和上述模型训练标签进行自监督训练,得到上述去噪自编码器,包括:基于上述模型输入特征和上述模型训练标签对初始编码器进行自监督训练,得到训练后的编码器、第一预测标签、第二预测标签以及第三预测标签;基于上述第一预测标签和上述第一训练标签,得到第一模型损失;基于上述第二预测标签和上述第二训练标签,得到第二模型损失;基于上述第三预测标签和上述第三训练标签,得到第三模型损失;基于上述第一模型损失,上述第二模型损失以及上述第三模型损失,得到模型总损失;在上述模型总损失满足预设损失条件的情况下,将上述训练后的编码器作为上述去噪自编码器。
可选的,可以但不限于选用多层Transformer变换器作为初始编码器,编码后产生的向量用多层感知器(Multilayer,MLP)进行解码,预测其对应标签,得到对应的预测标签(y1',y2',y3'),基于模型训练标签y={y1,y2,y3}和预测标签(y1',y2',y3')依次得到3个损失{l1,l2,l3}(依次为第一模型损失,第二模型损失和第三模型损失),对应模型总损失为l1,l2,l3之和,在用于端到端更新模型参数。经过多轮训练模型(即满足预设损失条件)收敛后,得到训练后的DAE模型(即去噪自编码器)。
在一种可选的实施例中,上述基于上述第一预测标签和上述第一训练标签,得到第一模型损失,包括:基于上述第一预测标签和上述第一训练标签,采用交叉熵损失函数,得到上述第一模型损失;上述基于上述第二预测标签和上述第二训练标签,得到第二模型损失,包括:基于上述第二预测标签和上述第二训练标签,采用均方误差损失函数,得到上述第二模型损失;上述基于上述第三预测标签和上述第三训练标签,得到第三模型损失,包括:基于上述第三预测标签和上述第三训练标签,采用上述交叉熵损失函数,得到上述第三模型损失。
可选的,针对3个损失{l1,l2,l3}(依次为第一模型损失,第二模型损失和第三模型损失),其中l1,l3用交叉熵作为损失函数,l2用MSE作为损失函数,通过设置第三模型损失l3,使模型习得识别数据缺失类型的能力,从而更充分地挖掘医疗特征背后的有益信息。
在一种可选的实施例中,上述基于上述模型输入特征和上述模型训练标签对初始编码器进行自监督训练,得到训练后的编码器、第一预测标签、第二预测标签以及第三预测标签,包括:基于上述模型输入特征中包括的项目特征数据,得到第一特征向量,基于上述模型输入特征中包括的多个就诊项目,得到第二特征向量;对上述第一特征向量和上述第二特征向量进行求和处理,得到第三特征向量;基于上述第三特征向量和上述模型训练标签对初始编码器进行训练,得到上述训练后的编码器、上述第一预测标签、上述第二预测标签以及上述第三预测标签。
可选的,上述模型输入特征x''={x1'',x2'',x3},以及上述模型训练标签y={y1,y2,y3}进行自监督模型训练,输入分为两部分,就诊项目特征{x1'',x2''}和就诊项目类型特征{x3} ,在输入端添加每个就诊项目特征所对应的就诊项目类型(用离散编号表示)作为补充,从而为模型引入领域知识,使模型更加适配于医疗场景。两组特征分别通过对应的嵌入层转化为第一特征向量e1和第二特征向量e2,即{x1'',x2''}转化为e1,{x3} 转化为e2,特征向量e1,e2相加得到第三特征向量e作为初始编码器的输入,结合模型训练标签y={y1,y2,y3}对初始编码器进行自监督训练,得到训练后的编码器,同时对应得到训练后的编码器输出的第一预测标签、第二预测标签以及第三预测标签。
在一种可选的实施例中,上述对上述实时就诊数据进行预处理,得到第一结构化数据,包括:按照预定顺序对上述实时就诊数据中包括的结构化数据进行排序处理,得到排序后的结构化数据,其中,上述排序后的结构化数据中包括多个就诊项目,以及上述多个就诊项目分别对应的项目特征数据,其中,项目特征数据中包括连续特征数据和离散特征数据;采用预定第一字符对上述排序后的结构化数据中包括的上述实时缺失数据进行填补,得到填补后的结构化数据;对所述填补后的结构化数据中包括的离散特征数据进行编码处理,以及对上述填补后的结构化数据中包括的连续特征数据进行标准化处理,得到上述第一结构化数据,其中,上述填补后的结构化数据中包括的上述预定第一字符和上述多个就诊项目保持不变。
可选的,目标对象的实时就诊数据中包括的就诊项目的数量小于或等于多个就诊项目的数量。在对所述实时就诊数据进行预处理时,首先将实时就诊数据的结构化数据中包括的就诊项目,以及就诊项目对应的项目特征数据按照多个就诊项目的预定顺序进行排列,对于排序后的结构化数据中包括的缺失数据采用预定第一字符(如[NULL])进行填补,得到填补后的结构化数据。对于填补后的结构化数据中包括的连续特征数据的预处理方法为转化为0-1编码向量(即Onehot向量),多个就诊项目和预设第一字符[NULL]保持不变,用于解决模态缺失,得到上述第一结构化数据。
基于上述实施例和可选实施例,本发明提出一种可选实施方式,图2是根据本发明实施例的一种可选的下游任务预测方法的流程图,如图2所示,该方法包括:
步骤S1,数据采集阶段。通过患者纳排,纳入特定患者人群。采集患者不同就诊项目(如化验或检查)的结构化数据(即项目特征数据,包括连续特征数据和离散特征数据),整理可收集到的全量医疗领域特征名称(一个就诊项目对应于一个特征名称,如收缩压,血糖),形成顺序固定(顺序固定指的是一旦医疗领域特征名称输入到特征名全集中后,其排序就不再变化)的特征名全集,并将收集到的结构化数据依照特征名全集映射到指定位置(指定位置指的是当医疗领域特征名称顺序固定后,结构化数据依照特征名全集映射的位置也就固定了),结构化数据中缺失的特征用预设的特殊字符[NULL]填补,以此构建基础数据集。
步骤S2,数据预处理阶段。输入步骤S1中的基础数据集,基础数据集中共有3类特征:连续特征x1、离散特征x2、就诊项目类型特征x3(对应于多个就诊项目,也属于离散特征,但是单独作为一类特征表示)。其中连续特征x1的预处理方法为标准化(减均值除以标准差),离散特征x2的预处理方法为转化为0-1编码向量,就诊项目类型特征x3和预定第一字符[NULL]保持不变,基础数据集中每一个样本(每一个就诊项目即可作为一个样本)可以表示:x={x1,x2,x3},其中样本中的空值用特殊字符[NULL](即预设第一字符)表示,用于解决就诊项目缺失。输出的是:预处理后的基础数据集。
步骤S3,模型输入构造。输入步骤S2中预处理后的基础数据集x={x1,x2,x3} ,随机选择预设第一比例的非特殊字符特征(即x1,x2中选择),添加随机生成的噪声,添加噪声的特征放回预处理后的基础数据集,即添加噪声后的特征与未添加噪声的特征共同构成x1',x2',x1',x2'与x3共同构成中间变量x'={x1',x2',x3} 。在中间变量中,随机选择预设第二比例的非特殊字符(即非预定第一字符[NULL])且未添加噪声的特征值(即x1',x2'中选择),替换为特殊字符[MASK](即预设第二字符)作为手工构造缺失,得到x1'',x2'',x1'',x2''与x3共同构成模型输入特征x''={x1'',x2'',x3};此为本发明实施例提出的完整掩码机制。输出的是:模型输入特征x''={x1'',x2'',x3},中间变量,x'={x1',x2',x3} 。
步骤S4,模型标签构造。输入步骤S3构造的模型输入特征和中间变量,其中,中间变量中包括的项目特征数据x1',x2'中没有被添加噪声的特征的位置标签为0,被添加噪声特征的位置标签为1,得到第一训练标签y1,y1∈{0,1} 。基于中间变量中包括的项目特征数据中被添加噪声的特征项目特征数据的原始值构建第二训练标签y2。模型输入特征中包括的项目特征数据x1'',x2''对应的第三训练标签记为y3,y3∈{0,1,2} 其中,模型输入特征中包括的项目特征数据中未缺失数据对应标签为0,原始数据缺失([NULL])对应标签为1,手工构造缺失([MASK])对应标签为2。模型输入特征中每一个样本(即就诊项目)的标签可以表示为: y={y1,y2,y3};y1,y2对应标准DAE去噪自编码器,即噪声位置预测和数据重构。y3利用特殊值填充空值,使得模型能够运算就诊项目缺失的数据;利用掩码机制构造人工缺失,使模型的鲁棒性得以提升且能适配更丰富的就诊项目缺失场景。输出的是:模型训练所需的标签,即处理后得到模型的输入特征中每个样本对应的标签,所有标签构成了训练标签 y={y1,y2,y3}。
步骤S5,模型训练。输入步骤S3处理后的模型输入特征x''={x1'',x2'',x3}和步骤S4得到的训练标签y={y1,y2,y3}进行自监督模型训练。输入分为两部分,就诊项目特征{x1'',x2''}和就诊项目类型特征{x3} ,在输入端添加每个就诊项目特征所对应的就诊项目类型(用离散编号表示)作为补充,从而为模型引入领域知识,使模型更加适配于医疗场景。两组特征分别通过对应的嵌入层转化为第一特征向量e1和第二特征向量e2,即{x1'',x2''} 转化为e1,{x3}转化为e2,特征向量e1,e2相加得到第三特征向量e作为初始编码器的输入。可以但不限于选用多层Transformer变换器作为初始编码器,编码后产生的向量用多层感知器(Multilayer,MLP)进行解码,预测其对应标签,得到对应的预测标签数据集(y1',y2',y3'),基于训练标签y={y1,y2,y3}和预测标签数据集(y1',y2',y3')依次得到3个损失{l1,l2,l3}(依次为第一模型损失,第二模型损失和第三模型损失),其中l1,l3用交叉熵作为损失函数,l2用MSE作为损失函数,通过设置第三模型损失l3,使模型习得识别数据缺失类型的能力,从而更充分地挖掘医疗特征背后的有益信息。模型总的损失为l1,l2,l3之和,用于端到端更新模型参数。经过多轮训练模型收敛后,得到训练后的DAE模型(即去噪自编码器)。最终输出为训练完成的去噪自编码器,和相关技术中利用DAE的部分工作相比,优势在于所得模型不仅仅针对单一任务,可用于优化患者的目标就诊数据,提升多种下游任务(如疾病风险预警、相似病历筛选等)的模型表现。
步骤S6,获取目标对象的实时就诊数据,其中,实时就诊数据中包括的结构化数据包括至少一个就诊项目,以及至少一个就诊项目分别对应的项目特征数据,每个结构化数据都包括连续特征数据、离散特征数据。
步骤S7,对上述实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据,具体包括:在对上述实时就诊数据进行预处理时,首先将实时就诊数据的结构化数据中包括的就诊项目,以及就诊项目对应的项目特征数据按照多个就诊项目的预定顺序进行排列,对于排序后的结构化数据中包括的缺失数据采用预定第一字符(如[NULL])进行填补,得到填补后的结构化数据。对于填补后的结构化数据中包括的连续特征数据的预处理方法为转化为0-1编码向量(即Onehot向量),多个就诊项目和预设第一字符[NULL]保持不变,用于解决模态缺失,得到上述第一结构化数据;其中,目标对象的实时就诊数据中包括的就诊项目的数量小于或等于多个就诊项目的数量。
步骤S8,基于上述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据,其中,述去噪自编码器用于对上述多个就诊项目分别对应的项目特征数据中存在的原始缺失数据进行填补。
步骤S9,将上述第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果。
需要说明的是,在医疗场景中结构化数据应用十分广泛,和疾病诊断、风险预警等任务密切相关,但真实临床场景下,患者就诊数据的结构化特征十分高维,且存在就诊项目缺失、通用性不足、对医疗领域结构化数据挖掘不充分等问题,给计算资源的合理利用、数据的有效建模带来了诸多挑战。本发明实施例基于海量结构化特征,使用适用于就诊项目缺失的DAE预训练模型进行结构化数据的预训练,在现有的条件下解决了就诊项目缺失的问题;充分利用患者信息,有助于提升医疗场景中的多种下游任务(如数据降维、缺失值填补、疾病预测)的模型效果;且能更有效地挖掘医疗领域结构化数据在特征空间中的高阶组合信息。
仍需要说明的是,本发明实施例提出了一种适用于就诊项目缺失场景的医疗领域结构化特征预训练方法,为医疗领域多种下游任务提供通用解决方案;预训练阶段对标准DAE训练框架进行了改造。具体来说,在输入端引入掩码机制,并在任务端增加了掩码预测,从而提升了实际应用场景中模型对于就诊项目缺失的适配能力。此外本专利引入了就诊项目类别作为补充特征,使模型得以更充分地挖掘医疗特征信息,增强了模型在医疗领域的建模能力。
基于上述实施例和可选实施例,本发明提出另一种可选实施方式,图3是根据本发明实施例的一种可选的下游任务预测系统示意图,该系统可以理解为一种融合预训练模型及其下游任务的临床辅助决策系统,如图3所示,该系统包括DAE预训练流程模块,下游任务模型训练模块以及数据预处理模块,其中:
DAE预训练流程模块,包括:
历史数据模块(对应前述步骤S1):用于采集患者的第一历史就诊数据,包括结构化数据;基于第一历史就诊数据中的结构化数据构建自监督模型训练数据,输出的是基础数据集。
数据预处理模块(对应前述步骤S2、步骤S3、步骤S4):用于对采集到的基础数据集进行数据预处理(包括标准化、Onehot向量化等)、模型输入构造、模型标签构造,输出的是第一模型输入特征和第一模型训练标签。
模型训练模块(对应前述步骤S5):接收数据预处理模块输出的第一模型输入特征、第一模型训练标签,训练DAE模型,获取用于下游任务模型训练、线上辅助决策的DAE模型编码器。
下游任务模型训练模块,包括:
历史数据模块(对应前述步骤S1):用于采集患者住院期间的第二历史就诊数据,包括结构化数据和非结构化数据,并根据实际应用场景确定下游任务的预测终点。
数据预处理模块(对应前述步骤S2、S3、S4):对采集到的第二历史就诊数据进行数据预处理,(包括标准化、Onehot(即0-1)向量化等)、模型输入构造、模型标签构造。输出的是第二模型输入特征、第二模型训练标签。
DAE模型编码器(对应前述步骤S5):接收数据预处理模块输出的第二模型输入特征、第二模型训练标签,结构化数据通过DAE模型得出特征向量,和非结构化数据一起参与下游任务的模型训练。需要说明的是,非结构化数据依据具体下游任务模型而定,不同的下游任务模型对应的训练数据不相同,例如,当下游任务模型为疾病预测模型的情况下,对应的非结构化数据为多组就诊数据对应的疾病诊断结果;当下游任务模型为诊疗推荐模型的情况下,对应的非结构化数据为多组就诊数据对应的疾病诊疗方式。
线上辅助决策模块,包括:
实时数据模块(对应前述步骤S6):用于采集患者住院期间的实时就诊数据(结构化数据和非结构化数据),当患者数据更新时会触发实时数据模块采集最新就诊数据。采集到的就诊数据用于数据预处理模块。
数据预处理模块(对应前述步骤S7):复用下游任务模型训练阶段数据预处理模块的方法和参数,对实时数据模块采集的数据进行预处理,得到预处理后的就诊数据(即第一结构化数据和第一非结构化数据)。
模型预测模块(对应前述步骤S8、S9):接收数据预处理模块输出的预处理后的就诊数据,其中的结构化数据通过DAE模型后得到特征向量,和非结构化数据一起输入训练好的下游任务模型(如疾病预测模型,诊疗推荐模型等等),得到预测结果(例如,针对疾病预测模型,输出疾病预测结果;针对诊疗推荐模型,输出的是疾病诊疗方式推荐结果)。
可选的,上述系统适用于如下应用场景:以肺动脉高压早期筛查场景为例,此场景有两个下游任务:任务一,识别患者是否有肺动脉高压风险;任务二,为患者推荐进一步的检查方案。本技术方案的临床辅助决策系统中,首先对DAE模型(即训练好的去噪自编码器)进行训练,对训练完的DAE模型中的编码器部分应用的两个下游任务的模型训练阶段,获取到训练完成的肺动脉高压风险模型和检查推荐模型。和线上辅助决策阶段。
具体应用案例如下:患者的结构化特征包含人口统计学特征(年龄、性别、体重),化验信息,超声心动图测量值。例如患者A输入特征包括,人口统计学(年龄:59岁,性别:女,体重:60kg),化验信息(肌酐值:200umol/L,尿白细胞:阴性),超声心动图测量值(三尖瓣收缩期流速:3.6m/s,三尖瓣收缩期压差:51.8mmHg)。肺动脉高压风险模型输出值为0.8,假设风险概率阈值threshold设为0.5, 那么向临床输出该患者肺动脉高压高风险预警提示。检查推荐模型输出:胸部X线,那么向临床输出:提示推荐进行胸部X线检查,以进一步确诊。上述案例说明此系统可以适配于多种下游任务,有效辅助临床决策。
患者A:
结构化特征:
人口统计学(年龄:59岁,性别:女,体重:60kg),
化验信息(肌酐值:200umol/L,尿白细胞:阴性),
超声心动图测量值(三尖瓣收缩期流速:3.6m/s,三尖瓣收缩期压差:51.8mmHg)
临床辅助决策系统输出:
此患者肺动脉高压高风险预警,请及时关注;
推荐进行胸部X线检查,以进一步确诊。
在本实施例中还提供了一种下游任务预测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”“装置”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
根据本发明实施例,还提供了一种用于实施上述下游任务预测方法的装置实施例,图4是根据本发明实施例的一种下游任务预测装置的结构示意图,如图4所示,上述下游任务预测装置,包括:第一获取模块400、预处理模块402、第二获取模块404、预测模块406,其中:
上述第一获取模块400,用于获取目标对象的实时就诊数据,其中,上述实时就诊数据包括结构化数据和非结构化数据;
上述预处理模块402,连接于上述第一获取模块400,用于对上述实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据;其中,上述第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补;
上述第二获取模块404,连接于上述预处理模块402,用于基于上述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据;
上述预测模块406,连接于上述第二获取模块404,用于将上述第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果。
在本发明实施例中,通过设置上述第一获取模块400,用于获取目标对象的实时就诊数据,其中,上述实时就诊数据包括结构化数据和非结构化数据;上述预处理模块402,连接于上述第一获取模块400,用于对上述实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据;其中,上述第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补;上述第二获取模块404,连接于上述预处理模块402,用于基于上述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据;上述预测模块406,连接于上述第二获取模块404,用于将上述第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果。
达到了通过预先训练好的去噪自编码器进行目标就诊数据的缺失值填补,以得到更加全面的就诊数据的目的,从而实现了在获取到更加全面的就诊数据的同时,增加就诊数据的通用性的技术效果,进而解决就诊数据利用不全,导致通用性差的技术问题。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述第一获取模块400、预处理模块402、第二获取模块404、预测模块406对应于实施例中的步骤S102至步骤S108,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例中的相关描述,此处不再赘述。
上述的下游任务预测装置还可以包括处理器和存储器,上述第一获取模块400、预处理模块402、第二获取模块404、预测模块406等均作为程序模块存储在存储器中,由处理器执行存储在存储器中的上述程序模块来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序模块,上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本申请实施例,还提供了一种计算机可读存储介质的实施例。可选的,在本实施例中,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行上述任意一种下游任务预测方法。
可选的,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述计算机可读存储介质包括存储的程序。
可选的,在程序运行时控制计算机可读存储介质所在设备执行以下功能:获取目标对象的实时就诊数据,其中,上述实时就诊数据包括结构化数据和非结构化数据;对上述实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据;其中,上述第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补;基于上述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据;将上述第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果。
根据本申请实施例,还提供了一种处理器的实施例。可选的,在本实施例中,上述处理器用于运行程序,其中,上述程序运行时执行上述任意一种下游任务预测方法。
根据本申请实施例,还提供了一种计算机程序产品的实施例,当在下游任务预测设备上执行时,适于执行初始化有上述任意一种的下游任务预测方法步骤的程序。
可选的,上述计算机程序产品,当在下游任务预测设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标对象的实时就诊数据,其中,上述实时就诊数据包括结构化数据和非结构化数据;对上述实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据;其中,上述第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补;基于上述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据;将上述第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果。
本发明实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取目标对象的实时就诊数据,其中,上述实时就诊数据包括结构化数据和非结构化数据;对上述实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据;其中,上述第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补;基于上述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据;将上述第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述模块的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块或模块的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种下游任务预测方法,其特征在于,包括:
获取目标对象的实时就诊数据,其中,所述实时就诊数据包括结构化数据和非结构化数据;
对所述实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据;其中,所述第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补;
基于所述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据;
将所述第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果;
其中,在所述基于所述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据之前,所述方法还包括:基于历史就诊数据,构建基础数据集,其中,所述基础数据集中包括多个就诊项目,以及所述多个就诊项目分别对应的项目特征数据,所述多个就诊项目按照预定顺序排列,所述基础数据集中包括的所述多个就诊项目与所述实时就诊数据的就诊项目顺序相同,所述基础数据集中包括的历史缺失数据采用所述预定第一字符进行填补;对所述基础数据集进行预处理,得到预处理后的基础数据集;基于所述预处理后的基础数据集,确定模型输入特征,其中,所述模型输入特征中包括有构造缺失数据,所述构造缺失数据通过预定第二字符进行填补;构造所述模型输入特征对应的模型训练标签,其中,所述模型输入特征中包括的未缺失数据、所述历史缺失数据、所述构造缺失数据对应于不同的标签标识;基于所述模型输入特征和所述模型训练标签进行自监督训练,得到所述去噪自编码器;
其中,所述基于所述预处理后的基础数据集,确定模型输入特征,包括:对所述预处理后的基础数据集中的所述多个就诊项目分别对应的项目特征数据中,预设第一比例的非预定第一字符进行添加噪声处理,得到中间变量;将所述中间变量中,预设第二比例的未添加噪声且非预定第一字符的特征值替换为预设第二字符,得到所述模型输入特征。
2.根据权利要求1所述的方法,其特征在于,在项目特征数据中包括连续特征数据和离散特征数据的情况下,所述对所述基础数据集进行预处理,得到预处理后的基础数据集,包括:
对所述基础数据集中包括的离散特征数据进行编码处理,以及对所述基础数据集中包括的连续特征数据进行标准化处理,得到所述预处理后的基础数据集,其中,所述基础数据集中包括的所述预定第一字符和所述多个就诊项目保持不变。
3.根据权利要求1所述的方法,其特征在于,在所述模型训练标签包括第一训练标签、第二训练标签以及第三训练标签的情况下,所述构造所述模型输入特征对应的模型训练标签,包括:
基于所述中间变量,得到所述第一训练标签和所述第二训练标签,其中,所述第一训练标签用于表示项目特征数据是否被添加噪声,所述第二训练标签用于表示被添加噪声的项目特征数据的原始值;
基于所述模型输入特征,确定所述第三训练标签,其中,所述第三训练标签用于区分所述模型输入特征中包括的所述未缺失数据、所述历史缺失数据、所述构造缺失数据。
4.根据权利要求3所述的方法,其特征在于,所述基于所述模型输入特征和所述模型训练标签进行自监督训练,得到所述去噪自编码器,包括:
基于所述模型输入特征和所述模型训练标签对初始编码器进行自监督训练,得到训练后的编码器、第一预测标签、第二预测标签以及第三预测标签;
基于所述第一预测标签和所述第一训练标签,得到第一模型损失;
基于所述第二预测标签和所述第二训练标签,得到第二模型损失;
基于所述第三预测标签和所述第三训练标签,得到第三模型损失;
基于所述第一模型损失,所述第二模型损失以及所述第三模型损失,得到模型总损失;
在所述模型总损失满足预设损失条件的情况下,将所述训练后的编码器作为所述去噪自编码器。
5.根据权利要求4所述的方法,其特征在于,
所述基于所述第一预测标签和所述第一训练标签,得到第一模型损失,包括:基于所述第一预测标签和所述第一训练标签,采用交叉熵损失函数,得到所述第一模型损失;
所述基于所述第二预测标签和所述第二训练标签,得到第二模型损失,包括:基于所述第二预测标签和所述第二训练标签,采用均方误差损失函数,得到所述第二模型损失;
所述基于所述第三预测标签和所述第三训练标签,得到第三模型损失,包括:基于所述第三预测标签和所述第三训练标签,采用所述交叉熵损失函数,得到所述第三模型损失。
6.根据权利要求4所述的方法,其特征在于,所述基于所述模型输入特征和所述模型训练标签对初始编码器进行自监督训练,得到训练后的编码器、第一预测标签、第二预测标签以及第三预测标签,包括:
基于所述模型输入特征中包括的项目特征数据,得到第一特征向量,基于所述模型输入特征中包括的多个就诊项目,得到第二特征向量;
对所述第一特征向量和所述第二特征向量进行求和处理,得到第三特征向量;
基于所述第三特征向量和所述模型训练标签对初始编码器进行训练,得到所述训练后的编码器、所述第一预测标签、所述第二预测标签以及所述第三预测标签。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述对所述实时就诊数据进行预处理,得到第一结构化数据,包括:
按照预定顺序对所述实时就诊数据中包括的结构化数据进行排序处理,得到排序后的结构化数据,其中,所述排序后的结构化数据中包括多个就诊项目,以及所述多个就诊项目分别对应的项目特征数据,其中,项目特征数据中包括连续特征数据和离散特征数据;
采用预定第一字符对所述排序后的结构化数据中包括的所述实时缺失数据进行填补,得到填补后的结构化数据;
对所述填补后的结构化数据中包括的离散特征数据进行编码处理,以及对所述填补后的结构化数据中包括的连续特征数据进行标准化处理,得到所述第一结构化数据,其中,所述填补后的结构化数据中包括的所述预定第一字符和所述多个就诊项目保持不变。
8.一种下游任务预测装置,其特征在于,包括:
第一获取模块,用于获取目标对象的实时就诊数据,其中,所述实时就诊数据包括结构化数据和非结构化数据;
预处理模块,用于对所述实时就诊数据进行预处理,得到第一结构化数据、第一非结构化数据;其中,所述第一结构化数据中存在的实时缺失数据采用预定第一字符进行填补;
第二获取模块,用于基于所述第一结构化数据,采用预先训练好的去噪自编码器,得到第二结构化数据;
预测模块,用于将所述第二结构化数据与第一非结构化数据输入下游预测模型,得到预测结果;
其中,所述装置还用于:基于历史就诊数据,构建基础数据集,其中,所述基础数据集中包括多个就诊项目,以及所述多个就诊项目分别对应的项目特征数据,所述多个就诊项目按照预定顺序排列,所述基础数据集中包括的所述多个就诊项目与所述实时就诊数据的就诊项目顺序相同,所述基础数据集中包括的历史缺失数据采用所述预定第一字符进行填补;对所述基础数据集进行预处理,得到预处理后的基础数据集;基于所述预处理后的基础数据集,确定模型输入特征,其中,所述模型输入特征中包括有构造缺失数据,所述构造缺失数据通过预定第二字符进行填补;构造所述模型输入特征对应的模型训练标签,其中,所述模型输入特征中包括的未缺失数据、所述历史缺失数据、所述构造缺失数据对应于不同的标签标识;基于所述模型输入特征和所述模型训练标签进行自监督训练,得到所述去噪自编码器;
其中,所述装置还用于:对所述预处理后的基础数据集中的所述多个就诊项目分别对应的项目特征数据中,预设第一比例的非预定第一字符进行添加噪声处理,得到中间变量;将所述中间变量中,预设第二比例的未添加噪声且非预定第一字符的特征值替换为预设第二字符,得到所述模型输入特征。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于由处理器加载并执行权利要求1至7中任意一项所述的下游任务预测方法。
CN202310806104.0A 2023-07-04 2023-07-04 下游任务预测方法、装置及计算机可读存储介质 Active CN117116476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310806104.0A CN117116476B (zh) 2023-07-04 2023-07-04 下游任务预测方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310806104.0A CN117116476B (zh) 2023-07-04 2023-07-04 下游任务预测方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN117116476A CN117116476A (zh) 2023-11-24
CN117116476B true CN117116476B (zh) 2023-12-19

Family

ID=88795446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310806104.0A Active CN117116476B (zh) 2023-07-04 2023-07-04 下游任务预测方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117116476B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046080A (zh) * 2019-12-05 2020-04-21 武汉理工大学 一种基于卷积去噪自编码器的碳纤维原丝监测数据预处理方法
CN111708882A (zh) * 2020-05-29 2020-09-25 西安理工大学 基于Transformer的中文文本信息缺失的补全方法
WO2020248471A1 (zh) * 2019-06-14 2020-12-17 华南理工大学 一种基于集聚交叉熵损失函数的序列识别方法
CN114864004A (zh) * 2022-04-13 2022-08-05 扬州大学 基于滑窗稀疏卷积去噪自编码器的缺失标记填充方法
CN115238645A (zh) * 2022-08-03 2022-10-25 中国电子科技集团公司信息科学研究院 资产数据识别方法、装置、电子设备和计算机存储介质
CN115935914A (zh) * 2022-11-03 2023-04-07 众阳健康科技集团有限公司 一种入院记录缺失文本补充方法
CN116110582A (zh) * 2023-02-15 2023-05-12 北京工业大学 一种基于预训练和多任务双向调节机制的健康风险评估方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3599616A1 (en) * 2018-07-25 2020-01-29 Siemens Healthcare GmbH System and method for providing a medical data structure for a patient

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020248471A1 (zh) * 2019-06-14 2020-12-17 华南理工大学 一种基于集聚交叉熵损失函数的序列识别方法
CN111046080A (zh) * 2019-12-05 2020-04-21 武汉理工大学 一种基于卷积去噪自编码器的碳纤维原丝监测数据预处理方法
CN111708882A (zh) * 2020-05-29 2020-09-25 西安理工大学 基于Transformer的中文文本信息缺失的补全方法
CN114864004A (zh) * 2022-04-13 2022-08-05 扬州大学 基于滑窗稀疏卷积去噪自编码器的缺失标记填充方法
CN115238645A (zh) * 2022-08-03 2022-10-25 中国电子科技集团公司信息科学研究院 资产数据识别方法、装置、电子设备和计算机存储介质
CN115935914A (zh) * 2022-11-03 2023-04-07 众阳健康科技集团有限公司 一种入院记录缺失文本补充方法
CN116110582A (zh) * 2023-02-15 2023-05-12 北京工业大学 一种基于预训练和多任务双向调节机制的健康风险评估方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于改进堆栈降噪自编码器的锅炉设备在线监测数据清洗方法;娄建楼;李燕;王琦;孙博;贾俊奇;;计算机集成制造系统(第12期);全文 *
基于机器学习的健康风险评估与预测;朱晓娟;《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》;全文 *

Also Published As

Publication number Publication date
CN117116476A (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
WO2021120936A1 (zh) 一种基于多任务学习模型的慢病预测系统
CN111292853B (zh) 基于多参数的心血管疾病风险预测网络模型及其构建方法
CN113421652B (zh) 对医疗数据进行分析的方法、训练模型的方法及分析仪
CN109637669B (zh) 基于深度学习的治疗方案的生成方法、装置及存储介质
CN109036553A (zh) 一种基于自动抽取医疗专家知识的疾病预测方法
KR20220064395A (ko) 이미지들 및 전문 지식으로부터 피부 상태들을 수집하고 식별하기 위한 시스템
CN113241135A (zh) 一种基于多模态融合的疾病风险预测方法和系统
JP6885517B1 (ja) 診断支援装置及びモデル生成装置
CN111564223B (zh) 传染病生存概率的预测方法、预测模型的训练方法及装置
US20110202486A1 (en) Healthcare Information Technology System for Predicting Development of Cardiovascular Conditions
CN111666477A (zh) 一种数据处理方法、装置、智能设备及介质
CN109378066A (zh) 一种基于特征向量实现疾病预测的控制方法及控制装置
CN112967803A (zh) 基于集成模型的急诊患者早期死亡率预测方法及系统
CN115798711B (zh) 基于反事实对比学习的慢性肾病诊疗决策支持系统
Pavithra et al. Hybrid feature selection technique for prediction of cardiovascular diseases
CN117012380A (zh) 事件预估方法、装置、设备、存储介质及程序产品
WO2023110477A1 (en) A computer implemented method and a system
CN116797572A (zh) 基于多模态数据的类风湿关节炎活动度分级装置
CN113658655B (zh) 体检推荐方法、装置、存储介质及设备
CN114927230A (zh) 基于机器学习的重症心衰患者预后决策支持系统及方法
Yuan et al. Efficient symptom inquiring and diagnosis via adaptive alignment of reinforcement learning and classification
CN113220895A (zh) 基于强化学习的信息处理方法、装置、终端设备
CN115547502B (zh) 基于时序数据的血透病人风险预测装置
CN117116476B (zh) 下游任务预测方法、装置及计算机可读存储介质
CN116469534A (zh) 医院叫号管理系统及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant