CN117476240A

CN117476240A - 少样本的疾病预测方法及装置

Info

Publication number: CN117476240A
Application number: CN202311829581.5A
Authority: CN
Inventors: 唐永强; 王耘田; 李明达; 张文生
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-01-30
Anticipated expiration: 2043-12-28
Also published as: CN117476240B

Abstract

本发明涉及数据处理技术领域，提供了一种少样本的疾病预测方法及装置，该方法包括：获取待处理电子病历信息；基于疾病预测模型对待处理电子病历信息进行预测，得到预测结果；其中，疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本，以通过共享权重的编码器从训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。本发明所述方法能够在抽象的潜层表征空间对增广前后的样本以及重采样后的样本间的互信息进行了进一步挖掘和学习，有效克服了数据中存在的少样本和不平衡问题，从而具有了较高的识别精度，尤其显著提高了模型对慢性化样本的识别效果。

Description

少样本的疾病预测方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种少样本的疾病预测方法及装置。

背景技术

免疫性血小板减少症（Immune thrombocytopenia，ITP）是一种典型的免疫介导型出血性疾病，开发儿童ITP慢性化预测方法有助于医护人员制定个性化的治疗方案，有效防止过度医疗对患者生活造成的负面影响。

相关技术中，医护人员一般通过患者电子病历（Electronic Medical Records，以下简称EMR）中的人口学特征以及免疫学记录评估患者病情，这些数据以表格形式存储，包括数值型特征和类别特征以及标签，由于儿童ITP的罕见性，导致患儿临床数据较为稀缺，临床数据呈现出少样本的特点，即数据集规模很小，而利用深度学习模型预测疾病结果时需要大量的训练样本，否则容易出现模型过拟合，导致模型预测的准确率低。

发明内容

本发明提供一种少样本的疾病预测方法及装置，用以解决现有技术中用于训练疾病预测模型的ITP数据集规模很小，无法满足支持开发一个准确的疾病预测模型的缺陷，提高了疾病预测模型的准确率。

本发明提供一种少样本的疾病预测方法，包括：

获取待处理电子病历信息；

基于疾病预测模型对所述待处理电子病历信息进行预测，得到预测结果；其中，所述疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本，以通过共享权重的编码器从所述训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。

根据本发明提供的一种少样本的疾病预测方法，所述疾病预测模型通过如下步骤训练得到：

获取所述样本电子病历信息；

对所述样本电子病历进行归一化处理，并对归一化后的样本电子病历进行随机掩码处理，得到掩蔽样本，对所述归一化后的样本电子病历进行重采样处理，得到重采样样本，所述重采样样本包括真实样本和合成样本，所述真实样本的类别包括少数类样本和多数类样本；

根据所述共享权重的编码器分别对所述样本电子病历信息、所述掩蔽样本和所述重采样样本进行编码，得到所述样本电子病历信息对应的第一潜层表征、所述掩蔽样本对应的第二潜层表征和所述重采样样本对应的第三潜层表征；

根据所述第一潜层表征和所述第二潜层表征构造第一样本对，根据所述少数类样本、所述多数类样本和所述合成样本分别对应的第三潜层表征构造第二样本对；

根据所述第一样本对、所述第二样本对和联合对比损失函数对所述骨干模型进行训练，并在所述骨干模型收敛的情况下，得到所述疾病预测模型；其中，所述联合对比损失函数基于交叉熵损失函数和各个样本对分别对应的对比损失函数确定，所述对比损失函数基于所述各个样本对的余弦相似度确定。

根据本发明提供的一种少样本的疾病预测方法，所述根据所述共享权重的编码器分别对所述样本电子病历信息、所述掩蔽样本和所述重采样样本进行编码，得到所述样本电子病历信息对应的第一潜层表征、所述掩蔽样本对应的第二潜层表征和所述重采样样本对应的第三潜层表征包括：

基于共享权重的编码器对所述样本电子病历信息对应的第一特征嵌入进行特征提取，得到所述第一潜层表征；基于所述共享权重的编码器对所述掩蔽样本对应的第二特征嵌入进行特征提取，得到所述第二潜层表征；基于所述共享权重的编码器对所述重采样样本对应的第三特征嵌入进行特征提取，得到所述第三潜层表征；

其中，所述第一特征嵌入基于所述样本电子病历信息的每个数值型特征和类别特征确定，所述第二特征嵌入基于所述掩蔽样本的每个数值型特征和类别特征确定，所述第三特征嵌入基于所述重采样样本的每个数值型特征和类别特征确定。

根据本发明提供的一种少样本的疾病预测方法，所述第一特征嵌入通过如下步骤获取：

根据共享权重的变换器Tokenizer对所述样本电子病历信息的每个数值型特征和类别特征分别进行线性变换，得到多个第一嵌入量；

将所述多个第一嵌入量进行拼接，并将拼接后的嵌入量的头部添加第一分类标记，得到第一特征嵌入；

所述第二特征嵌入通过如下步骤获取：

根据所述Tokenizer对所述掩蔽样本的每个数值型特征和类别特征分别进行线性变换，得到多个第二嵌入量；

将所述多个第二嵌入量进行拼接，并将拼接后的嵌入量的头部添加第二分类标记，得到第二特征嵌入；

所述第三特征嵌入通过如下步骤获取：

根据所述Tokenizer对所述重采样样本的每个数值型特征和类别特征分别进行线性变换，得到多个第三嵌入量；

将所述多个第三嵌入量进行拼接，并将拼接后的嵌入量的头部添加第三分类标记，得到第三特征嵌入。

根据本发明提供的一种少样本的疾病预测方法，所述第一样本对对应的对比损失函数通过下式确定：

；

其中，为所述第一样本对对应的对比损失函数，f（q，k）=sim（q，k）/τ，sim（q，k）为余弦相似度，τ为对比损失中常用的温度系数，k ⁺属于查询q的查询正键，k为含查询正键k ⁺以及查询负键k ^-在内的所有键，X为一个簇的训练数据。

根据本发明提供的一种少样本的疾病预测方法，所述第二样本对对应的对比损失函数通过下式确定：

；

其中，为所述第二样本对对应的对比损失函数，k ^-属于查询q的查询负键，n为重采样后的一个簇内的少数类样本的样本数量。

根据本发明提供的一种少样本的疾病预测方法，所述联合对比损失函数通过下式确定：

；

其中，为所述联合对比损失，/>为所述交叉熵损失函数；/>和/>为优化过程中控制对比损失权重的超参数。

本发明还提供一种少样本的疾病预测装置，包括：

信息获取模块，用于获取待处理电子病历信息；

预测模块，用于基于疾病预测模型对所述待处理电子病历信息进行预测，得到预测结果；其中，所述疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本，以通过共享权重的编码器从所述训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述少样本的疾病预测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述少样本的疾病预测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述少样本的疾病预测方法。

本发明提供的少样本的疾病预测方法及装置，通过基于疾病预测模型对待处理电子病历信息进行预测，得到预测结果，该疾病预测模型是以样本电子病历信息经过扩增和重采样得到的样本为训练样本，再通过共享权重的编码器从训练样本中提取的潜层表征进行对比学习并优化，能够在抽象的潜层表征空间对增广前后的样本以及重采样后的样本间的互信息进行了进一步挖掘和学习，有效克服了数据中存在的少样本和不平衡问题，从而具有了较高的识别精度，尤其显著提高了模型对慢性化样本的识别效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的少样本的疾病预测方法的流程示意图之一；

图2是本发明提供的少样本的疾病预测方法的流程示意图之二；

图3是本发明提供的少样本的疾病预测装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图3描述本发明的少样本的疾病预测方法及装置。

图1是本发明提供的少样本的疾病预测方法的流程示意图之一，如图1所示，该少样本的疾病预测方法包括如下步骤：

步骤110、获取待处理电子病历信息。

步骤120、基于疾病预测模型对待处理电子病历信息进行预测，得到预测结果；其中，疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本，以通过共享权重的编码器从训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。

在上述步骤中，电子病历信息包括人口学信息和免疫学记录等数据。

在该实施例中，通过从患儿EMR中抽取人口学信息和免疫学记录作为待处理的电子病历信息。

需要说明的是，人口学信息和免疫学记录等数据是以表格形式存储，包括数值型特征和类别特征以及标签，需要对数据进行归一化处理，以减少异常数据的干扰，提高待测试数据的质量；

同理，在骨干模型在训练过程中，对样本进行标准化处理，即对样本采用归一化处理，能够减少异常样本带来的干扰，提升样本质量。

在该实施例中，对样本进行数据增强可以扩充样本集规模；例如，可以采用使用随机掩码的方法对每次迭代时使用的训练样本进行扩增；具体的，对每个样本随机掩码某几维特征得到对应的掩蔽样本。

在该实施例中，骨干模型包括共享权重的变换器（例如Tokenizer）、共享权重的编码器和分类器。

在该实施例中，通过重采样算法对每次迭代时使用的训练数据进行重采样，针对增加样本数较少的类别进行样本扩充，以确保训练样本达到类别平衡；其中重采样后的数据包括真实的多数类样本和少数类样本，以及合成的少数类样本。

在该实施例中，通过共享权重的编码器从训练样本中提取潜层表征，该编码器可以是Transformer编码器。

在该实施例中，Transformer编码器能够通过多层自注意力机制和前馈神经网络层，将特征嵌入映射到表征空间获取对应的潜层表征。

在该实施例中，通过潜层特征构造正负样本对，再结合来对比损失函数训练骨干模型，在模型收敛的情况下，能够得到一个预测性能更好的疾病预测模型；利用疾病预测模型对待处理电子病历信息进行预测，输出更准确的预测结果。

本发明实施例提供的一种少样本的疾病预测方法，通过基于疾病预测模型对待处理电子病历信息进行预测，得到预测结果，该疾病预测模型是以样本电子病历信息经过扩增和重采样得到的样本为训练样本，再通过共享权重的编码器从训练样本中提取的潜层表征进行对比学习并优化，能够在抽象的潜层表征空间对增广前后的样本以及重采样后的样本间的互信息进行了进一步挖掘和学习，有效克服了数据中存在的少样本和不平衡问题，从而具有了较高的识别精度，尤其显著提高了模型对慢性化样本的识别效果。

在一些实施例中，疾病预测模型通过如下步骤训练得到：获取样本电子病历信息；对样本电子病历进行归一化处理，并对归一化后的样本电子病历进行随机掩码处理，得到掩蔽样本，对归一化后的样本电子病历进行重采样处理，得到重采样样本，重采样样本包括真实样本和合成样本，真实样本的类别包括少数类样本和多数类样本；根据共享权重的编码器分别对样本电子病历信息、掩蔽样本和重采样样本进行编码，得到样本电子病历信息对应的第一潜层表征、掩蔽样本对应的第二潜层表征和重采样样本对应的第三潜层表征；根据第一潜层表征和第二潜层表征构造第一样本对，根据少数类样本、多数类样本和合成样本分别对应的第三潜层表征构造第二样本对；根据第一样本对、第二样本对和联合对比损失函数对骨干模型进行训练，并在骨干模型收敛的情况下，得到疾病预测模型；其中，联合对比损失函数基于交叉熵损失函数和各个样本对分别对应的对比损失函数确定，对比损失函数基于各个样本对的余弦相似度确定。

在该实施例中，对样本电子病历进行归一化处理之前，可以将样本电子病历信息对应的数据集按照目标比例划分为训练集和测试集；其中，使用训练集数据训练骨干模型；使用验证集评估模型的性能和泛化能力。

在该实施例中，目标比例可以根据用户需求设置，例如，该训练集和测试集之间的目标比例是7：3。

在该实施例中，对样本电子病历进行归一化处理，将所有特征值放缩至同一量纲。在实际训练模型的过程中，训练样本会被分成多个簇(batch)，每轮迭代使用一个batch的样本。

具体通过如下步骤训练样本数据进行预处理：

（1）样本集构建与划分，从患儿EMRs抽取人口学信息和免疫学记录等特征构建数据集，并将数据集按7：3比例划分为训练集和测试集，并对数据集进行归一化处理。

（2）样本扩充，采用随机掩码的方法对每次迭代时使用的训练数据进行样本扩增，对每个样本随机掩码某几维特征得到对应的掩蔽样本；

在该实施例中，针对数据集存在的少样本问题，使用随机掩码的方法对每个batch的样本进行样本扩增；对每个样本随机掩码某几维特征得到对应的掩蔽样本。具体做法如下：在每轮迭代中，采用如下公式为batch中的每个包含维特征的训练样本/>生成一个掩蔽索引向量/>，M从伯努利分布中独立采样：

；

其中，m _i是M中的一个元素，p为控制特征被屏蔽的概率；m _i=1时表示对应的特征会被屏蔽；然后点乘/>，得到对应的掩蔽样本，计算公式如下式所示：

；

其中，I是长度维k的单位向量；直观上，p是m _i=1的概率，确定被屏蔽的特征的比例；例如一个包含10个特征的样本，当p设置维0.4时表示该样本有4个特征的值被置0，即被掩蔽；需要说明的是，在一轮迭代中，每个样本对应的M是不同的，即每个样本被掩蔽的特征是随机的，尽量确保每个特征都有可能被掩蔽。

（3）样本重采样，采用Borderline-SMOTE重采样算法对每次迭代时使用的训练数据进行重采样，合成更多的少数类样本达到类别平衡；具体做法如下：为少数类样本设定n个近邻样本，通过判断少数类样本n个近邻样本的类别将其分为安全样本，噪声样本和危险样本。

需要说明的是，安全样本为该少数类样本的n个近邻中有超过一半的样本和其属于一个类别，则被归类于安全样本；噪声样本为该少数类样本的n个近邻样本全部属于多数类，则被归类于噪声样本；危险样本为该少数类样本的n个近邻中有超过一半的样本属于多数类，则被归类于危险样本，易和多数类样本混淆；在过采样时，会基于危险样本和其近邻样本的特征与标签信息合成新的少数类样本，而安全样本和噪声样本会被忽略。

在该实施例中，提取潜层特征的具体步骤为：

（4）对样本分别进行扩增和重采样后，可以利用共享权重的变换器将样本电子病历信息，掩蔽样本和重采样样本分别对应的数值性特征和类别特征进行转换，得到特征嵌入，并将样本电子病历信息、掩蔽样本和重采样样本各自对应的特征嵌入输入共享权重的Transformer编码器，通过多层自注意力机制和前馈神经网络层，将特征嵌入映射到表征空间获取对应的潜层表征，并提取共享权重的变换器经过编码器转换的潜层表征。

（5）构造用于对比学习的样本对，针对原始数据和其对应的掩蔽后数据对应的潜层特征构造第一样本对，根据重采样数据中的真实样本与合成样本对应的潜层特征构造第二样本对；其中，样本对由查询，正键/>和负键/>组成；即第一样本对为正样本对，第二样本对为负样本对。

在该实施例中，上述正负样本对的具体构造过程如下：

1、针对原始训练样本和其对应的掩蔽后样本，对应的掩蔽后样本的作为/>，原始样本的/>作为相应的/>, 而训练数据中其他所有样本的/>均作为/>；

2、针对重采样后的样本，根据标签将样本分为真实的多数类，真实的少数类以及合成的少数类三部分。合成的少数类样本的作为/>，真实的少数类样本的/>作为/>，真实的多数类样本的/>作为/>。

（6）联合损失优化与模型训练，使用上述由潜层表征构造的正负样本对计算查询和正键之间的余弦相似度，在对比学习中，模型被训练最大化和/>之间的相似度，最小化和/>之间的相似度。

在该实施例中，可以在潜层表征空间引入对比损失来训练模型学习更具区分性的特征表示；同时还可以引入一个包含分类器的非线性预测层，将原始样本对应的潜层表征输入预测层，得到预测类别的概率分布并计算分类损失。在训练过程中将对比损失与分类损失联合优化，通过反向传播算法和梯度下降更新Tokenizer和Transformer编码器的参数，在增强模型表征学习能力的同时提高模型的预测性能。

在该实施例中，针对原始样本与对应的掩蔽后样本的，第一样本对对应的对比损失函数通过下式确定：

；

其中，为第一样本对对应的对比损失函数，f（q，k）=sim（q，k）/τ，sim（q，k）为余弦相似度，τ为对比损失中常用的温度系数，k ⁺属于查询q的查询正键，k为含查询正键k ⁺以及查询负键k ^-在内的所有键，X为一个簇的训练数据。

在实施例中，针对重采样后样本的，由于合成一个少数类样本用到了多个真实的少数类样本的特征信息，第二样本对对应的对比损失函数通过下式确定：

；

其中，为第二样本对对应的对比损失函数，k ^-属于查询q的查询负键，n为重采样后的一个簇内的少数类样本的样本数量。

在该实施例中，通过引入包含分类器的非线性预测层，使用原始样本的输出预测的类别并计算分类损失，非线性预测层的定义如下：

其中，为非线性预测层的输出；ReLU为激活函数，Layer Norm为归一化层；本实施例中的分类损失采用常见的交叉熵损失，在二分类任务中的定义如下：

其中，为样本的标签。

在实施例中，联合对比损失函数通过下式确定：

；

其中，为联合对比损失，/>为交叉熵损失函数；/>和/>为优化过程中控制对比损失权重的超参数；本实施例通过反向传播算法和梯度下降更新模型的参数。

本发明实施例提供的一种少样本的疾病预测方法，通过对样本电子病历进行归一化处理，并对归一化后的样本电子病历进行随机掩码处理，得到掩蔽样本；对掩蔽样本进行重采样处理，得到重采样样本，再根据共享权重的编码器从样本电子病历信息、掩蔽样本和重采样样本中提取潜层表征以构建正负样本对，最后联合对比损失函数和交叉熵损失函数对骨干模型进行训练，并在骨干模型收敛的情况下，得到疾病预测模型，能够对样本间的互信息进行充分挖掘，提高了疾病预测模型的预测性能。

下面，对上述步骤（4）进行具体说明进行说明：

在一些实施例中，根据共享权重的编码器分别对样本电子病历信息、掩蔽样本和重采样样本进行编码，得到样本电子病历信息对应的第一潜层表征、掩蔽样本对应的第二潜层表征和重采样样本对应的第三潜层表征包括：基于共享权重的编码器对样本电子病历信息对应的第一特征嵌入进行特征提取，得到第一潜层表征；基于共享权重的编码器对掩蔽样本对应的第二特征嵌入进行特征提取，得到第二潜层表征；基于共享权重的编码器对重采样样本对应的第三特征嵌入进行特征提取，得到第三潜层表征；其中，第一特征嵌入基于样本电子病历信息的每个数值型特征和类别特征确定，第二特征嵌入基于掩蔽样本的每个数值型特征和类别特征确定，第三特征嵌入基于重采样样本的每个数值型特征和类别特征确定。

其中，第一特征嵌入通过如下步骤获取：根据共享权重的变换器Tokenizer对样本电子病历信息的每个数值型特征和类别特征分别进行线性变换，得到多个第一嵌入量；将多个第一嵌入量进行拼接，并将拼接后的嵌入量的头部添加第一分类标记，得到第一特征嵌入；第二特征嵌入通过如下步骤获取：根据Tokenizer对掩蔽样本的每个数值型特征和类别特征分别进行线性变换，得到多个第二嵌入量；将多个第二嵌入量进行拼接，并将拼接后的嵌入量的头部添加第二分类标记，得到第二特征嵌入；第三特征嵌入通过如下步骤获取：根据Tokenizer对重采样样本的每个数值型特征和类别特征分别进行线性变换，得到多个第三嵌入量；将多个第三嵌入量进行拼接，并将拼接后的嵌入量的头部添加第三分类标记，得到第三特征嵌入。

对上述步骤（4）通过如下两个子步骤进行展开说明：

（4.1）获取特征嵌入，使用Tokenizer将原始训练样本，掩蔽后和重采样后的训练样本的特征值转换为特征嵌入，并在特征嵌入的头部加入一个分类标记(CLS Token)用于学习全局潜层表征。转换方式如下：

转换方式为简单的线性转换，是可以被优化的权重矩阵，/>是样本的第/>个特征，/>是对应的偏置，/>是特征嵌入的维度；由于表格数据的结构化特点，需要对数值型特征和类别型特征分别转换，然后再将所有的特征嵌入拼接成为该样本对应的特征嵌入/>：

；

其中，为第i个数值型特征对应的特征嵌入量，/>为第i个数值型特征对应的权重矩阵，/>为第i个数值型特征，/>为第i个数值型特征对应的偏置；/>为第i个类别型特征对应的特征嵌入量，/>为第i个类别型特征对应的权重矩阵，/>为第i个类别型特征对应的独热向量，/>为第i个类别型特征对应的偏置；/>为拼接函数，/>为样本中的特征数目，/>为实数域。

在该实施例中，得到特征嵌入E之后，然后随机初始化一个维的可训练向量作为CLS Token，并与特征嵌入拼接作为Transformer编码器的输入/>：

；

（4.2）根据特征嵌入确定潜层表征，用一个共享权重的n层Transformer编码器作为潜层表征提取器。分别将原始训练样本，掩蔽后和重采样后的训练样本对应的特征嵌入输入编码器，通过多层自注意力机制和前馈神经网络层，将特征嵌入映射到表征空间获取对应的潜层表征并提取共享权重的变换器CLS Token经过编码器转换的潜层表征。

本发明实施例提供的一种少样本的疾病预测方法，通过共享权重的变换器对样本电子病历信息的每个数值型特征和类别特征分别进行线性变换，得到多个嵌入量，并在每个嵌入量的头部添加分类标志，得到多个特征嵌入，通过共享权重的编码器分别多个特征嵌入进行编码，得到对应多个潜层表征，提高了输入样本的特征表征能力，进而提高了模型的预测性能。

图2是本发明提供的少样本的疾病预测方法的流程示意图之二，在图2所示的实施例中，先从ITP患儿的EMRs中抽取患儿人口学信息、免疫记录和对应结构来构建数据集，并对数据集进行归一化处理和划分，得到训练集和测试集；对训练集进行随机掩蔽处理，得到原始样本对应的掩蔽后样本，对训练集进行重采样（对应过采样）处理，得到真实的多类样本、真实的少类样本和合成的少类样本；利用共享权重的变换器Tokenizer对上一步得到的各类样本中的数值型特征和类别特征分别进行线性变换，得到对应的特征嵌入，并通过共享权重的Transformer编码器对特征嵌入进行编码，得到对应的潜层表征，以各潜层表征构建正负样本对，结合对比损失函数、分类函数分别计算对比算损失以及分类损失，得到联合损失，该联合损失用于当前轮次的迭代训练过程；根据划分的到的验证集检验当前轮次迭代训练的模型性能，在确定模型训练完成的情况下，得到疾病预测模型。

下面对本发明提供的少样本的疾病预测装置进行描述，下文描述的少样本的疾病预测装置与上文描述的少样本的疾病预测方法可相互对应参照。

图3是本发明提供的少样本的疾病预测装置的结构示意图，如图3所示，该少样本的疾病预测装置包括信息获取模块310和预测模块320。

信息获取模块310，用于获取待处理电子病历信息；

预测模块320，用于基于疾病预测模型对待处理电子病历信息进行预测，得到预测结果；其中，疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本，以通过共享权重的编码器从训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。

本发明实施例提供的一种少样本的疾病预测装置，通过基于疾病预测模型对待处理电子病历信息进行预测，得到预测结果，该疾病预测模型是以样本电子病历信息经过扩增和重采样得到的样本为训练样本，再通过共享权重的编码器从训练样本中提取的潜层表征进行对比学习并优化，能够在抽象的潜层表征空间对增广前后的样本以及重采样后的样本间的互信息进行了进一步挖掘和学习，有效克服了数据中存在的少样本和不平衡问题，从而具有了较高的识别精度，尤其显著提高了模型对慢性化样本的识别效果。

图4是本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行少样本的疾病预测方法，该方法包括：获取待处理电子病历信息；基于疾病预测模型对待处理电子病历信息进行预测，得到预测结果；其中，疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本，以通过共享权重的编码器从训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的少样本的疾病预测方法，该方法包括：获取待处理电子病历信息；基于疾病预测模型对待处理电子病历信息进行预测，得到预测结果；其中，疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本，以通过共享权重的编码器从训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的少样本的疾病预测方法，该方法包括：获取待处理电子病历信息；基于疾病预测模型对待处理电子病历信息进行预测，得到预测结果；其中，疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本，以通过共享权重的编码器从训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种少样本的疾病预测方法，其特征在于，包括：

获取待处理电子病历信息；

2.根据权利要求1所述的少样本的疾病预测方法，其特征在于，所述疾病预测模型通过如下步骤训练得到：

获取所述样本电子病历信息；

对所述样本电子病历进行归一化处理，并对归一化后的样本电子病历进行随机掩码处理，得到掩蔽样本，对所述归一化后的样本电子病历进行重采样处理，得到重采样样本，所述重采样样本包括真实样本和合成样本，所述真实样本包括少数类样本和多数类样本；

3.根据权利要求2所述的少样本的疾病预测方法，其特征在于，所述根据所述共享权重的编码器分别对所述样本电子病历信息、所述掩蔽样本和所述重采样样本进行编码，得到所述样本电子病历信息对应的第一潜层表征、所述掩蔽样本对应的第二潜层表征和所述重采样样本对应的第三潜层表征包括：

4.根据权利要求3所述的少样本的疾病预测方法，其特征在于，所述第一特征嵌入通过如下步骤获取：

所述第二特征嵌入通过如下步骤获取：

所述第三特征嵌入通过如下步骤获取：

5.根据权利要求2所述的少样本的疾病预测方法，其特征在于，所述第一样本对对应的对比损失函数通过下式确定：

；

其中，为所述第一样本对对应的对比损失函数，f（q，k）=sim（q，k）/τ，sim（q，k）为余弦相似度，τ为对比损失中常用的温度系数，k ⁺属于查询q的查询正键，k为包含查询正键k ⁺以及查询负键k ^-在内的所有键，X为一个簇的训练数据。

6.根据权利要求2所述的少样本的疾病预测方法，其特征在于，所述第二样本对对应的对比损失函数通过下式确定：

；

7.根据权利要求2所述的少样本的疾病预测方法，其特征在于，所述联合对比损失函数通过下式确定：

；

8.一种少样本的疾病预测装置，其特征在于，包括：

信息获取模块，用于获取待处理电子病历信息；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述少样本的疾病预测方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述少样本的疾病预测方法。