CN115295115A

CN115295115A - 基于深度学习的丙戊酸钠血药浓度预测方法及装置

Info

Publication number: CN115295115A
Application number: CN202210837750.9A
Authority: CN
Inventors: 张津源; 于泽; 高飞
Original assignee: Beijing Medicinovo Technology Co ltd
Current assignee: Beijing Medicinovo Technology Co ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-04

Abstract

本发明提供基于深度学习的丙戊酸钠血药浓度预测方法及装置，通过获取目标用户的待预测数据，其中，待预测数据包括多个待预测变量对应的数据，将待预测数据输入预先训练好的预测模型，以使预测模型基于待预测数据确定预测丙戊酸钠血药浓度值，其中，预测模型为基于建模特征变量对应的数据训练得到的，建模特征变量对应的数据为对原始数据进行筛选后得到的数据。通过上述方式，可以针对各个目标用户的待预测数据，获取到各个目标用户对应的预测丙戊酸钠血药浓度值，实现针对每个目标用户预测其对应的丙戊酸钠血药浓度。

Description

基于深度学习的丙戊酸钠血药浓度预测方法及装置

技术领域

本发明涉及医疗人工智能技术领域，尤其涉及一种基于深度学习的丙戊酸钠血药浓度预测方法及装置。

背景技术

丙戊酸钠属于2-丙基乙酸类广谱抗癫痫药，广泛应用于控制各型癫痫。

研究表明：丙戊酸钠剂量与血药浓度相关性较差，但是丙戊酸钠的疗效和不良反应与血药浓度有较大相关性，在丙戊酸钠浓度过低的情况下，将引起疗效不足。在丙戊酸钠浓度过高的情况下易发生毒性反应。不同的用户在使用丙戊酸钠时，所产生的效果仍存在较大的差异，即目前使用丙戊酸钠时，有效剂量和血药浓度范围之间没有明确的对应关系。

因此，如何针对每个目标用户预测其对应的丙戊酸钠血药浓度是目前业界亟待解决的重要课题。

发明内容

本发明提供一种基于深度学习的丙戊酸钠血药浓度预测方法及装置，用以解决现有技术中无法针对每个目标用户预测其对应的丙戊酸钠血药浓度的缺陷，实现针对每个目标用户预测其对应的丙戊酸钠血药浓度。

本发明提供一种基于深度学习的丙戊酸钠血药浓度预测方法，所述方法包括：

获取目标用户的待预测数据，其中，所述待预测数据包括多个待预测变量对应的数据；

将所述待预测数据输入预先训练好的预测模型，以使所述预测模型基于所述待预测数据确定预测丙戊酸钠血药浓度值，其中，所述预测模型为基于建模特征变量对应的数据训练得到的，所述建模特征变量对应的数据为对原始数据进行筛选后得到的数据。

可选的，在所述将所述待预测数据输入预先训练好的预测模型的步骤之前，所述方法还包括：

获取原始数据，所述原始数据包括多个原始变量对应的数据；

确定所述原始数据包括的各个原始变量对应的数据是否满足第一预设条件，删除不满足所述第一预设条件的原始变量对应的数据，得到初筛数据；

筛选所述初筛数据，得到建模特征变量对应的数据；

基于所述建模特征变量对应的数据，训练得到预测模型。

可选的，所述确定所述原始数据包括的各个原始变量对应的数据是否满足第一预设条件，删除不满足所述第一预设条件的原始变量对应的数据，得到初筛数据的步骤，包括：

针对每个原始变量，确定该原始变量对应的数据的类型；

在该原始变量对应的数据的类型为连续型的情况下，确定该原始变量与目标变量的关系是否满足第一预设显著条件，如果是，则保留该原始变量对应的数据；如果否，则删除该原始变量对应的数据，其中，所述目标变量为所述原始数据包括的丙戊酸钠血药浓度；

在该原始变量对应的数据的类型为离散型的情况下，确定该原始变量对应的数据的离散程度，在该原始变量对应的数据的离散程度大于预设离散程度阈值的情况下，对该原始变量对应的数据进行数据变换；

在该原始变量对应的数据的类型为分类变量的情况下，确定该原始变量与所述目标变量的关系是否满足第二预设显著条件，如果是，则保留该原始变量对应的数据；如果否，则删除该原始变量对应的数据。

可选的，在所述针对每个原始变量，确定该原始变量对应的数据的类型的步骤之前，所述方法还包括：

针对每个原始变量，确定该原始变量对应的数据的缺失率是否大于预设缺失率阈值；

在该原始变量对应的数据的缺失率大于所述预设缺失率阈值的情况下，删除该变量对应的数据；

在该原始变量对应的数据的缺失率不大于所述预设缺失率阈值的情况下，执行所述针对每个原始变量，确定该原始变量对应的数据的类型的步骤。

可选的，所述筛选所述初筛数据，得到建模特征变量对应的数据的步骤，包括：

获取各个初筛变量的重要度，选取满足预设重要度条件的初筛变量，其中，所述初筛数据包括多个初筛变量对应的数据；

基于满足预设重要度条件的初筛变量，构建多个特征子集；

从多个所述特征子集中，选取满足预设特征条件的特征子集，并将满足预设特征条件的特征子集包括的各个变量，作为建模特征变量。

可选的，在所述筛选所述初筛数据，得到建模特征变量对应的数据的步骤之后，所述方法还包括：

判断所述建模特征变量对应的数据是否完整；

在确定所述建模特征变量对应的数据不完整的情况下，对所述建模特征变量对应的数据的缺失值进行插补。

可选的，所述基于所述建模特征变量对应的数据，训练得到预测模型的步骤，包括：

获取待调整模型；

将所述原始数据包括的丙戊酸钠血药浓度，作为样本标签；

将所述建模特征变量对应的数据输入至所述待调整模型，得预测丙戊酸钠血药浓度；

基于所述样本标签与所述预测丙戊酸钠血药浓度之间的差异，调整所述待调整模型的模型参数，直到所述待调整模型收敛，得到预测模型。

本发明还提供一种基于深度学习的丙戊酸钠血药浓度预测装置，所述装置包括：

第一获取模块，用于获取目标用户的待预测数据，其中，所述待预测数据包括多个待预测变量对应的数据；

输入模块，用于将所述待预测数据输入预先训练好的预测模型，以使所述预测模型基于所述待预测数据确定预测丙戊酸钠血药浓度值，其中，所述预测模型为基于建模特征变量对应的数据训练得到的，所述建模特征变量对应的数据为对原始数据进行筛选后得到的数据。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于深度学习的丙戊酸钠血药浓度预测方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于深度学习的丙戊酸钠血药浓度预测方法的步骤。

本发明提供的基于深度学习的丙戊酸钠血药浓度预测方法及装置，通过获取目标用户的待预测数据，其中，待预测数据包括多个待预测变量对应的数据，将待预测数据输入预先训练好的预测模型，以使预测模型基于待预测数据确定预测丙戊酸钠血药浓度值，其中，预测模型为基于建模特征变量对应的数据训练得到的，建模特征变量对应的数据为对原始数据进行筛选后得到的数据。通过上述方式，可以针对各个目标用户的待预测数据，获取到各个目标用户对应的预测丙戊酸钠血药浓度值，实现针对每个目标用户预测其对应的丙戊酸钠血药浓度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于深度学习的丙戊酸钠血药浓度预测方法的流程示意图之一；

图2是本发明提供的基于深度学习的丙戊酸钠血药浓度预测方法的流程示意图之二；

图3是本发明提供的基于深度学习的丙戊酸钠血药浓度预测方法的流程示意图之三；

图4为本发明提供的DeepGBM框架的示意图；

图5是本发明提供的基于深度学习的丙戊酸钠血药浓度预测方法的流程示意图之四；

图6是本发明提供的基于深度学习的丙戊酸钠血药浓度预测装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了实现针对每个目标用户预测其对应的丙戊酸钠血药浓度，本发明提供了一种基于深度学习的丙戊酸钠血药浓度预测方法及装置。下面结合图1描述本发明的一种基于深度学习的丙戊酸钠血药浓度预测方法。

如图1所示，本发明公开了一种基于深度学习的丙戊酸钠血药浓度预测方法，所述方法包括：

S101，获取目标用户的待预测数据。

在需要对目标用户进行丙戊酸钠血药浓度预测时，可以获取目标用户的待预测数据，其中，待预测数据包括多个待预测变量对应的数据，待预测数据中包括的待预测变量可以为离散变量、连续变量、分类变量。

离散变量以及连续变量为数值型变量，即变量的取值为数值，其中，离散变量为取值是自然数或整数的变量。连续变量为在一定区间内可以任意取值的变量。分类变量为说明事物类别的一个名称，其取值是分类数据。

S102，将所述待预测数据输入预先训练好的预测模型，以使所述预测模型基于所述待预测数据确定预测丙戊酸钠血药浓度值。

在获取到待预测数据后，可以将待预测数据输入预先训练好的预测模型，预测模型便可以基于待预测数据确定对应的丙戊酸钠血药浓度值，作为预测丙戊酸钠血药浓度值并输出。

其中，预测模型为基于建模特征变量对应的数据训练得到的，建模特征变量对应的数据为对原始数据进行筛选后得到的数据，原始数据即为样本用户对应的数据。

可见，本发明公开了一种基于深度学习的丙戊酸钠血药浓度预测方法，能够根据目标用户的待预测数据以及预先训练好的预测模型，更加方便、快速地获取到目标用户的预测丙戊酸钠血药浓度值，实现丙戊酸钠血药浓度值个体化推荐。

作为本发明实施例的一种实施方式，如图2所示，在上述将所述待预测数据输入预先训练好的预测模型的步骤之前，上述方法还可以包括：

由于丙戊酸钠血药浓度值受多种因素的影响，例如，丙戊酸钠血药浓度值受生理与病理因素、药物代谢遗传因素、药物因素及治疗依从性、药物相互作用等因素的影响，致使不同用户对应的丙戊酸钠血药浓度值差异巨大。

因此，为了能够训练得到预测丙戊酸钠血药浓度值的预测模型，可以执行步骤S201，即获取原始数据。其中，原始数据包括多个原始变量对应的数据。原始数据可以包括样本用户的人口统计学信息、历史健康信息、不良反应信息等原始变量对应的数据。

例如，原始数据可以包括样本用户的性别、年龄、婚姻状况、家庭人数、职业、文化水平、历史用药方案、检验信息、诊断信息、治疗方案、不良反应、丙戊酸钠血药浓度、血常规、尿常规等原始变量对应的数据。

作为一种实施方式，可以基于原始数据，建立样本用户的真实数据库，相对的，后续可以基于样本用户的真实数据库训练预测模型，并且，可以根据实际需求对样本用户的真实数据库进行更新，这都是合理的。

S202，确定所述原始数据包括的各个原始变量对应的数据是否满足第一预设条件，删除不满足所述第一预设条件的原始变量对应的数据，得到初筛数据。

在获取到原始数据后，由于原始数据具备数据维度高且数据缺失率高的特点，因此，为了能够解决数据缺失率高的问题，以及为了从高维的数据中筛选出对丙戊酸钠血药浓度影响较大的数据，从而训练出准确度更高的预测模型，可以对原始数据进行筛选，即确定原始数据包括的各个原始变量对应的数据是否满足第一预设条件，并删除不满足所述第一预设条件的原始变量对应的数据，得到初筛数据。

在一种实施方式中，可以确定原始数据对应的目标用户是否满足预设数据纳入条件，在原始数据对应的目标用户不满足上述预设数据纳入条件中任意一个条件的情况下，可以删除该目标用户对应的数据。其中，预设数据纳入条件可以包括预设年龄条件、预设诊断结果条件、预设评分条件、预设状态条件以及预设健康条件。

例如，预设数据纳入条件可以包括以下几个条件：

第一个条件：年龄位于不小于18岁且不大于65岁，且使用丙戊酸钠的用户。

第二个条件：诊断结果符合《国际疾病与相关健康问题统计分类第10版》中对双相情感障碍患者的确定标准的用户。

第三个条件：HAMD(Hamilton depression scale,汉密尔顿忧郁分级量表)评分不低于20分的用户，BRMS(Bech-Rafaelsen Mania Rating Scale,贝克-拉范森躁狂量表)评分不低于20分的用户。

第四个条件：使用丙戊酸钠并进行药物监测，且血药浓度达到稳态(一般指同一剂量至少连续服用3天)的用户。

第五个条件：无严重或不稳定的躯体疾病，且经检查表明躯体健康的用户，其中，躯体健康通过体检、病史、心电图和血生化、血液学及尿检查等方式获取。

在原始数据对应的目标用户A不满足上述预设数据纳入条件中第一个条件的情况下，可以删除目标用户A对应的数据。在原始数据对应的目标用户B均满足上述预设数据纳入条件中的五个条件的情况下，可以保留目标用户B对应的数据。

在获取原始数据后，可以确定原始数据对应的目标用户是否满足预设数据不纳入条件。在原始数据对应的目标用户满足预设数据不纳入条件的情况下，可以删除该目标用户对应的数据。

例如，预设数据不纳入条件可以包括以下几个条件：

第一个条件：在血药浓度达到稳态前，给药方案发生改变的用户。

第二个条件：用户于对原始数据进行处理前4周内接受过抗抑郁治疗、电休克治疗、用户处于妊娠阶段或用户为哺乳期妇女。

第三个条件：合并使用肝药酶诱导剂的用户，例如卡马西平、苯妥英钠、苯巴比妥等。

第四个条件：合并严重肝、肾疾病的用户。

第五个条件：研究数据严重缺失，例如缺少用户ID(Identity document,身份证件)、主要研究结果等。

第六个条件：物质滥用的用户。

第七个条件：由于脑器质疾病或躯体疾病所致的情感障碍的用户。

在原始数据对应的目标用户C满足上述预设数据不纳入条件中第七个条件的情况下，可以删除目标用户C对应的数据。在原始数据对应的目标用户D均不满足上述预设数据不纳入条件中的七个条件的情况下，可以保留目标用户D对应的数据。

在另一种实施方式中，可以针对原始数据包括的每个原始变量，确定该原始变量对应的数据的类型。也就是确定原始数据包括的各个原始变量对应的数据的类型，其中，原始变量对应的数据的类型可以为连续型、离散型、分类变量等，在此不做具体限定。

在该原始变量对应的数据的类型为连续型的情况下，可以确定该原始变量与目标变量的关系是否满足第一预设显著条件，如果满足第一预设显著条件，则说明该原始变量与目标变量的关系显著，即该原始变量对目标变量的影响较大，因此，可以保留该原始变量对应的数据。其中，目标变量为原始数据包括的丙戊酸钠血药浓度，第一预设显著条件可以为用户根据实际需要预先设置的显著条件。

如果不满足第一预设显著条件，则说明该原始变量与目标变量的关系不显著，即该原始变量对目标变量的影响较小，因此，可以删除该原始变量对应的数据。

在一种实施方式中，可以将原始变量作为协变量，丙戊酸钠血药浓度作为目标变量，进而，可以验证目标变量与协变量的关系是否显著，如果显著，则保留协变量对应的数据。如果不显著，则删除协变量对应的数据。

例如，原始变量为身高，即协变量为身高，丙戊酸钠血药浓度为目标变量，可以采用Pearson(皮尔逊)检验判断丙戊酸钠血药浓度与身高的关系是否显著，如果显著，则将身高对应的数据保留，如果不显著，则将身高对应的数据删除。

在该原始变量对应的数据的类型为离散型的情况下，为了更加方便对离散型的数据进行处理，从而提高预测模型的训练速度，可以确定该原始变量对应的数据的离散程度，在该原始变量对应的数据的离散程度大于预设离散程度阈值的情况下，可以对该原始变量对应的数据进行数据变换。其中，预设离散程度阈值可以为用户根据实际需要预先设置的离散程度阈值。

例如，当原始变量A对应的数据为离散型时，可以确定原始变量A对应的数据的离散程度，在原始变量A对应的数据的离散程度大于预设离散程度阈值的情况下，可以对原始变量对应的数据取对数。

在该原始变量对应的数据的类型为分类变量的情况下，可以确定该原始变量与目标变量，即丙戊酸钠血药浓度的关系是否满足第二预设显著条件，如果满足第二预设显著条件，则说明该原始变量与丙戊酸钠血药浓度的关系显著，即该原始变量对丙戊酸钠血药浓度的影响较大，因此，可以保留该原始变量对应的数据。其中，第二预设显著条件可以为用户根据实际需要预先设置的显著条件。

如果不满足第二预设显著条件，则说明该原始变量与丙戊酸钠血药浓度的关系不显著，即该原始变量对丙戊酸钠血药浓度的影响较小，因此，可以删除该原始变量对应的数据。

例如，原始变量为性别，即协变量为性别，丙戊酸钠血药浓度为目标变量，可以采用Mann-Whitney(曼-惠特尼)U检验判断丙戊酸钠血药浓度与性别的关系是否显著，如果显著，则将性别对应的数据保留，如果不显著，则将性别对应的数据删除。

作为一种实施方式，在确定原始变量对应的数据的类型为分类变量的情况下，可以确定该原始变量对应的数据是否满足预设平衡条件，例如，原始变量为性别，可以确定性别对应的数据包括的男性的数量与女性的数量是否较为平衡。

在该原始变量对应的数据不满足预设平衡条件的前提下，说明该原始变量对应的数据不平衡，因此，可以删除该原始变量对应的数据。在该原始变量对应的数据满足预设平衡条件的前提下，说明该原始变量对应的数据较为平衡，因此，可以针对该原始变量对应的数据，可以进一步验证验证目标变量与该原始变量的关系是否显著。

在另一种实施方式中，在上述针对每个原始变量，确定该原始变量对应的数据的类型的步骤之前，上述方法还可以包括：

针对每个原始变量，确定该原始变量对应的数据的缺失率是否大于预设缺失率阈值，其中，预设缺失率阈值可以为用户根据实际需要预先设置的缺失率阈值。

在该原始变量对应的数据的缺失率大于预设缺失率阈值的情况下，说明该原始变量对应的数据缺失严重，因此，可以删除该变量对应的数据。

在该原始变量对应的数据的缺失率不大于预设缺失率阈值的情况下，说明该原始变量对应的数据较为完整，因此，可以执行上述针对每个原始变量，确定该原始变量对应的数据的类型的步骤，从而进行后续筛选。

例如，预设缺失率阈值可以为50％，原始变量B对应的数据的缺失率为75％，大于预设缺失率阈值50％，说明原始变量B对应的数据缺失严重，因此，可以删除原始变量B对应的数据。原始变量C对应的数据的缺失率为10％，小于预设缺失率阈值50％，说明原始变量C对应的数据较为完整，因此，可以确定原始变量C对应的数据的类型，以便后续进行筛选。

在对原始数据进行上述筛选后，即删除不满足第一预设条件的变量对应的数据后，可以得到初筛数据，初筛数据相较于原始数据，降低了数据维度，以及减少了数据缺失率高的数据。

S203，筛选所述初筛数据，得到建模特征变量对应的数据。

由于初筛数据的维度依然很高，并且初筛数据包括多个对丙戊酸钠血药浓度影响相对较低的变量，以及数据缺失率相对较大的变量，因此为了降低初筛数据的维度，可以筛选初筛数据，得到用于训练预测模型的建模特征变量对应的数据，其中，建模特征变量即为从高维的原始数据中筛选出的对丙戊酸钠血药浓度影响较大的特征变量。

在一种实施方式中，可以对筛选数据中的各个初筛变量进行影响度排序，从而选取对丙戊酸钠血药浓度影响较大预设数量个初筛变量，作为建模特征变量。

这样，可以从数据维度高且数据缺失率高的原始数据中，筛选出建模特征变量，实现了对原始数据的有效筛选。并且挖掘出了对目标用户丙戊酸钠血药浓度的影响因素，能够进一步用于辅助临床进行决策。

S204，基于所述建模特征变量对应的数据，训练得到预测模型。

在得到用于训练预测模型的建模特征变量对应的数据后，可以基于建模特征变量对应的数据，训练得到预测模型，由于建模特征变量为对丙戊酸钠血药浓度影响较大特征变量，进而基于建模特征变量训练得到的预测模型的准确率较高，适用性更强。后续基于预测模型预测目标用户的预测丙戊酸钠血药浓度值的情况下，能够更加快速、更加准确地得到预测丙戊酸钠血药浓度值，进而能够提前了解目标用户的情况，从而降低目标用户产生不良反应的风险。

作为本发明的一种实施方式，上述筛选所述初筛数据，得到建模特征变量对应的数据的步骤，可以包括：

获取初筛数据包括的各个初筛变量的重要度，选取满足预设重要度条件的初筛变量，在初筛变量满足预设重要度条件的情况下，说明该初筛变量对丙戊酸钠血药浓度的影响越大。其中，初筛数据包括多个初筛变量对应的数据，预设重要度条件为用户根据实际需要预先设置的重要度条件，例如，预设重要度条件可以重要度得分不小于重要度阈值。又例如，预设重要度条件还可以为重要度排名位于前30，这都是合理的，在此不作具体限定。

在一种实施方式中，可以基于各个初筛变量以及丙戊酸钠血药浓度建立第一模型，第一模型训练完毕后，可以计算各个初筛变量对第一模型的贡献值，由于初筛变量对第一模型的贡献值越高，说明该初筛变量对模型的影响越大，即该初筛变量对丙戊酸钠血药浓度的影响越大。因此，可以选取对第一模型的贡献值满足预设贡献值条件的初筛变量，作为满足预设重要度条件的初筛变量。

作为一种实施方式，获取第一初始模型，基于初筛数据以及第一初始模型，对第一初始模型进行K-折交叉验证，并调整第一初始模型的参数，从而使模型评估指标最优。

其中，K-折交叉验证的K值可以基于实际需要进行选取，例如K可以取6、9、10等。模型评估指标可以为R²(R-Square,决定系数)、RMSE(Root Mean Squard Error,均方根误差)、MAE(Mean Absolute Error,平均绝对误差)等，这都是合理的，在此不做具体限定。

例如，可以基于LightGBM算法构建第一模型A，初筛变量作为协变量，即第一初始模型A的输入，丙戊酸钠血药浓度作为目标变量，即第一初始模型A的输出。

对第一初始模型A进行6-折交叉验证，具体为：将初筛数据随机划分为6份子数据，即子数据1、子数据2…子数据6，每次从6份子数据中随机选取1份子数据作为测试集，剩余5份子数据作为训练集，得到6份测试结果，基于测试结果调整第一初始模型的参数，其中，训练集和测试集的关系如下表1所示：

表1

其中，可以针对6份测试结果的每份测试结果调整第一初始模型的参数，也可以对6份测试结果求平均值，得到平均测试结果，进而基于平均测试结果调整第一初始模型的参数，这都是合理的。

基于R²最大，RMSE、MAE最小的参数，调整第一初始模型，从而得到训练完毕的第一模型A。进而，计算各个初筛变量对第一模型A的贡献值，并基于贡献值，对各个初筛变量进行排序，将排名位于前30的初筛变量作为满足预设重要度条件的初筛变量。

基于满足预设重要度条件的初筛变量，构建多个特征子集，从多个特征子集中，选取满足预设特征条件的特征子集，并将满足预设特征条件的特征子集包括的各个变量，作为建模特征变量。

在获取到满足预设重要度条件的初筛变量后，为了能够进一步获取对丙戊酸钠血药浓度影响大的变量，即为了得到更加有效的建模特征变量，可以基于满足预设重要度条件的初筛变量，构建多个特征子集。从构建的多个特征子集中，选取满足预设特征条件的特征子集，并将满足预设特征条件的特征子集包括的各个变量，作为建模特征变量。其中，预设特征条件为用户根据实际需求设置的特征条件，例如，预设特征条件可以为特征子集包括的各个变量对丙戊酸钠血药浓度的影响最大。

在一种实施方式中，可以基于第二模型以及特征选择算法，选取对丙戊酸钠血药浓度的影响最大的特征子集，具体地，针对每个特征子集，训练对应的第二模型，并计算各个训练完毕的第二模型对应的评估指标，选取评估指标最优的特征子集作为满足预设特征条件的特征子集，并将评估指标最优的特征子集包括的各个变量，作为建模特征变量。

例如，可以基于tabnet模型以及特征序列前向选择算法，选取对丙戊酸钠血药浓度的影响最大的特征子集，具体地，在获取排名位于前30的初筛变量后，从空集开始搜索排名位于前30的初筛变量，每次将排名位于前30的初筛变量中的一个初筛变量添加至特征子集，作为tabnet模型的当前特征子集，将当前特征子集划分为训练集和测试集，训练tabnet模型，并计算调整参数后的tabnet模型对应的评估指标，即R²。选取R²最大的当前特征子集作为满足预设特征条件的特征子集，并将R²最大的当前特征子集包括的各个变量，作为建模特征变量。

也可以在每次将排名位于前30的初筛变量中的一个初筛变量添加至特征子集的情况下，计算当前特征子集训练的tabnet模型对应的评估指标，即R²。如果当前特征子集对应的R²小于上一个特征子集对应的R²，则停止迭代，并将上一个特征子集作为满足预设特征条件的特征子集，并将上一个特征子集包括的各个变量，作为建模特征变量。这样，可以减少计算量。

作为本发明的一种实施方式，由于建模特征变量对应的数据可能存在数据缺失的问题，因此，在上述筛选所述初筛数据，得到建模特征变量对应的数据的步骤之后，上述方法还可以包括：

判断建模特征变量对应的数据是否完整，在确定建模特征变量对应的数据不完整的情况下，说明建模特征变量对应的数据存在数据缺失的问题，为了保留特征变量对应的数据的原始性以及完整性，可以对建模特征变量对应的数据的缺失值进行插补。

由于随机森林模型的准确度高、不容易陷入过拟合、具有一定的抗噪能力且对离散数据和连续数据的适应能力强，因此，可以采用随机森林模型对建模特征变量对应的数据的缺失值进行插补。

具体地，可以将缺失值对应的丙戊酸钠血药浓度输入至随机森林模型，得到随机森林模型输出的值，并将随机森林模型输出的值作为插补到建模特征变量对应的数据，完成对建模特征变量对应的数据的缺失值的插补。能够实现对建模特征变量对应的数据的利用最大化。

在确定建模特征变量对应的数据完整的情况下，说明建模特征变量对应的数据不存在数据缺失的问题，因此，可以基于建模特征变量对应的数据，训练得到预测模型，可见，本发明能够使用最少的建模特征变量训练得到效果最优的预测模型。

作为本发明的一种实施方式，如图3所示，上述基于所述建模特征变量对应的数据，训练得到预测模型的步骤，可以包括：

S301，获取待调整模型。S302，将所述原始数据包括的丙戊酸钠血药浓度，作为样本标签。S303，将所述建模特征变量对应的数据输入至所述待调整模型，得预测丙戊酸钠血药浓度。S304，基于所述样本标签与所述预测丙戊酸钠血药浓度之间的差异，调整所述待调整模型的模型参数，直到所述待调整模型收敛，得到预测模型。

在一种实施方式中，可以将丙戊酸钠血药浓度作为目标变量，将建模特征变量作为自变量，基于DeepGBM算法构建预测模型，其中，基于DeepGBM算法构建预测模型，不仅能够处理稠密的数值特征，还能够处理稀疏的类别特征。并且NN(Neural Networks,神经网络)可以利用小批量数据进行训练的特点，实现对预测模型的在线更新。此外，基于DeepGBM算法构建预测模型能够对表格数据进行分析。

其中，DeepGBM算法具备以下好处：DeepGBM算法能够处理大规模医学数据，低内存使用，具备更快的训练速度。DeepGBM提高了NN在tabular data上的预测效果。DeepGBM的GBDT2NN部分可以同时蒸馏多棵树来减少学习NN的个数，并能对叶子节点embedding的方式来减少NN拟合叶子节点过多的问题，从而降低了整个NN的复杂度，减少参数量。DeepGBM算法兼具自主学习和增量学习的能力，具有更高的模型准确率；GBDT2NN，其更简单，更符合决策树，继承了决策树的优点。DeepGBM算法响应速度快，多线程并行来优化服务性能。

如图4所示，为DeepGBM的构架图，DeepGBM包括CatNN以及GBDT2NN。下面对基于DeepGBM算法构建预测模型进行介绍：

DeepGBM构架包括两个基于神经网络的组件，CatNN以及GBDT2NN，其中，CatNN可以处理稀疏的类别特征。GBDT2NN可以处理稠密的数值特征。

CatNN依赖于Embedding技术，可以将高维稀疏特征转变为低维稠密特征，具体公式如下：

E_Vi(x_i)＝embedding_lookup(V_i,x_i)

其中，E_vi(x_i)为第i个嵌入向量，x_i为第i个建模特征变量，V_i为第i个建模特征变量的Embedding矩阵，embedding_lookup即为调用index函数寻找x_i的对应的嵌入向量。

通过反向传播进行学习，用FM(Factorization Machines)学习线形表达并进行特征交叉，具体公式如下：

其中，y_FM(x)为学习后的输出值，d为特征数，w₀为线性部分的第一参数，即权重，w为为线性部分的第二参数，即权重，x_i第i个建模特征变量，x_j第j个建模特征变量，<.，.>为内积操作。

进而，在用Deep组件实现高阶特征交互，具体公式如下：

y_Deep(x)＝N([E_Vv1(x₁)^T，...，E_Vvd(x_d)^T]^T；θ)

其中，y_Deep(x)为Deep组件的输出，N([x；θ])为一个输入x和参数θ的多层神经网络模型。

CatNN的输出为：

y_Cat(x)＝y_FM(x)+y_Deep(x)

其中，y_Cat(x)为CatNN的输出。

GBDT2NN需要将GBDT模型中的树蒸馏成多个NN，可以简单理解为在给定了几百颗树的情况下，利用了多个NN来拟合这个树的预测效果，树中特征划分，特征重要性等，达到将GBDT模型转为NN的过程。多颗树蒸馏方法，使用叶子节点Embedding的方式(LeafEmbedding Distillation)来减少NN拟合叶子节点过多的问题，同时蒸馏多颗树来减少学习NN的个数，两方面入手降低整个NN的复杂度，减少参数量。先将属于同一组的样本的叶子标签从onehot变成multi-hot，为

利用两层NN学习样本的叶子节点的Embedding，公式为：

表示从multi-hot到embedding的映射过程，具体地，可以通过以下公式完成参数学习：

其中，l为损失函数，n为样本数量，ω^T为从multi-hot到embedding的参数，

为一个参数ω^T的单层全连接网络，p为第i个预测样本的叶子的预测值，L为高维稀疏矩阵。

通过上述的学习，得到了样本在各个group(组)中的embedding向量表示，并将其作为新的拟合目标，便可以完成树结构的学习，蒸馏，优化目标函数如下：

其中，V^T为在T个group中的特征，L^T为嵌入损失，θ^T为网络的参数。

进而，合并整个结构，对于一个group中样本通过学习到的NN的输出为：

y_T(x)＝w^TN(x[V^T]；θ^T)+w₀

而在整个GBDT2NN中，存在k个NN，因此模型的最终输出为：

DeepGBM最终输出由CatNN以及GBDT2NN两部分的输出进行加权得到，具体如下：

其中，w₁和w₂为通过学习得到的系数，w₁对应于GBDT2NN，w₂对应于CatNN，σ为输出转换，类似于转换为二分类的sigmoid函数。

训练过程中包含两个损失，一个是与任务相关的损失，如果是分裂任务那么就是交叉熵的，另一个损失是GBDT2NN的损失，也就是利用NN拟合GBDT的损失，如上述的L^T所述，整个任务的损失为：

其中，α和β是预先给出的超参数，分别用于控制端到端损失和包埋损失的强度，k为group的个数，

为第j个group的损失。

通过上述训练，可以将GBDT模型改成DeepGBM的形式，在线学习的过程中，损失如下：

也就是说，在得到建模特征变量后，可以将建模特征变量分为数值型变量以及分类变量，进而将建模特征变量输入至待调整模型中，以使GBDT2NN处理数值型变量，CatNN处理分类变量，从而完成模型的训练，得到预测模型。可见，将DeepGBM技术应用到丙戊酸钠血药浓度的预测中，可以减少预测模型的预测时间，并且能够提高预测准确度，还可以通过在线学习的方式进行更新预测模型。

作为本发明的一种实施方式，在得到预测模型后，可以计算预测模型的模型评估指标，即计算R²，RMSE，MAE等。在此不作具体限定。

其中，R²的公式如下：

其中，y_i为建模特征变量对应的第i个数据的真实值，

为建模特征变量对应的第i个数据的预测值，n为样本数量，

为建模特征变量对应的均值。

RMSE的公式如下：

MAE的公式如下：

进而，可以基于R²，RMSE，MAE调整预测模型的参数，是调整后的预测模型对应的R²越大，RMSE、MAE越小，从而使预测模型更加准确。

作为本发明的一种实施方式，在获取到预测模型后，可以对预测模型进行多中心验证，从而完成对模型的全面评价，进而根据目标用户的反馈情况对预测模型进行改进和优化，从而能够不断提高预测模型的精度。

下面以图5为例，对本发明提供的基于深度学习的丙戊酸钠血药浓度预测方法的整体流程进行举例说明，如图5所示：

S501，获取原始数据。

S502，基于原始数据，建立样本用户的真实数据库。

S503，删除缺失率大于预设缺失率阈值的原始变量对应的数据。

S504，确定原始变量对应的数据的类型，基于原始变量对应的数据的类型对原始数据进行初筛。

也就是采用统计学的方法对原始数据进行初筛，从而得到初筛数据。

S505，筛选所述初筛数据，得到建模特征变量对应的数据。

也就是基于特征工程对初筛数据进行终筛。

S506，基于所述建模特征变量对应的数据，训练得到预测模型。

也就是构建双相情感障碍患者丙戊酸钠血药浓度智能预测模型。

S507，对预测模型进行多中心验证。

S508，对预测模型进行改进和优化。

S509，将待预测数据输入预先训练好的预测模型，以使预测模型基于所述待预测数据确定预测丙戊酸钠血药浓度值。

也就是基于个性化智能推送丙戊酸钠血药浓度预测模型，预测合理的预测丙戊酸钠血药浓度值，覆盖人群广泛，并且能够降低不良反应的发生率。

下面对本发明提供的基于深度学习的丙戊酸钠血药浓度预测装置进行描述，下文描述的基于深度学习的丙戊酸钠血药浓度预测装置与上文描述的基于深度学习的丙戊酸钠血药浓度预测方法可相互对应参照。

如图6所示，一种基于深度学习的丙戊酸钠血药浓度预测装置，所述装置可以包括：

第一获取模块610，用于获取目标用户的待预测数据。

其中，所述待预测数据包括多个待预测变量对应的数据。

输入模块620，用于将所述待预测数据输入预先训练好的预测模型，以使所述预测模型基于所述待预测数据确定预测丙戊酸钠血药浓度值。

其中，所述预测模型为基于建模特征变量对应的数据训练得到的，所述建模特征变量对应的数据为对原始数据进行筛选后得到的数据。

作为本发明的一种实施方式，上述装置还可以包括：

第二获取模块，用于在将所述待预测数据输入预先训练好的预测模型之前，获取原始数据，所述原始数据包括多个原始变量对应的数据。

第一确定模块，用于确定所述原始数据包括的各个原始变量对应的数据是否满足第一预设条件，删除不满足所述第一预设条件的原始变量对应的数据，得到初筛数据。

筛选模块，用于筛选所述初筛数据，得到建模特征变量对应的数据。

训练模块，用于基于所述建模特征变量对应的数据，训练得到预测模型。

作为本发明的一种实施方式，上述第一确定模块可以包括：

第一确定单元，用于针对每个原始变量，确定该原始变量对应的数据的类型。

第二确定单元，用于在该原始变量对应的数据的类型为连续型的情况下，确定该原始变量与目标变量的关系是否满足第一预设显著条件，如果是，则保留该原始变量对应的数据；如果否，则删除该原始变量对应的数据。

其中，所述目标变量为所述原始数据包括的丙戊酸钠血药浓度。

第三确定单元，用于在该原始变量对应的数据的类型为离散型的情况下，确定该原始变量对应的数据的离散程度，在该原始变量对应的数据的离散程度大于预设离散程度阈值的情况下，对该原始变量对应的数据进行数据变换。

第四确定单元，用于在该原始变量对应的数据的类型为分类变量的情况下，确定该原始变量与所述目标变量的关系是否满足第二预设显著条件，如果是，则保留该原始变量对应的数据；如果否，则删除该原始变量对应的数据。

作为本发明的一种实施方式，上述装置还可以包括：

第二确定模块，用于在针对每个原始变量，确定该原始变量对应的数据的类型之前，针对每个原始变量，确定该原始变量对应的数据的缺失率是否大于预设缺失率阈值。

删除模块，用于在该原始变量对应的数据的缺失率大于所述预设缺失率阈值的情况下，删除该变量对应的数据。

在该原始变量对应的数据的缺失率不大于所述预设缺失率阈值的情况下，通过第一确定模块执行所述针对每个原始变量，确定该原始变量对应的数据的类型的步骤。

作为本发明的一种实施方式，上述筛选模块可以包括：

第一获取单元，用于获取各个初筛变量的重要度，选取满足预设重要度条件的初筛变量。

其中，所述初筛数据包括多个初筛变量对应的数据。

构建单元，用于基于满足预设重要度条件的初筛变量，构建多个特征子集。

选取单元，用于从多个所述特征子集中，选取满足预设特征条件的特征子集，并将满足预设特征条件的特征子集包括的各个变量，作为建模特征变量。

作为本发明的一种实施方式，上述装置还可以包括：

判断模块，用于在筛选所述初筛数据，得到建模特征变量对应的数据之后，判断所述建模特征变量对应的数据是否完整。

插补模块，用于在确定所述建模特征变量对应的数据不完整的情况下，对所述建模特征变量对应的数据的缺失值进行插补。

作为本发明的一种实施方式，上述训练模块可以包括：

第二获取单元，用于获取待调整模型。

样本单元，用于将所述原始数据包括的丙戊酸钠血药浓度，作为样本标签。

预测单元，用于将所述建模特征变量对应的数据输入至所述待调整模型，得预测丙戊酸钠血药浓度。

调整单元，用于基于所述样本标签与所述预测丙戊酸钠血药浓度之间的差异，调整所述待调整模型的模型参数，直到所述待调整模型收敛，得到预测模型。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行上述基于深度学习的丙戊酸钠血药浓度预测法。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于深度学习的丙戊酸钠血药浓度预测方法。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于深度学习的丙戊酸钠血药浓度预测方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的丙戊酸钠血药浓度预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述将所述待预测数据输入预先训练好的预测模型的步骤之前，所述方法还包括：

筛选所述初筛数据，得到建模特征变量对应的数据；

基于所述建模特征变量对应的数据，训练得到预测模型。

3.根据权利要求2所述的方法，其特征在于，所述确定所述原始数据包括的各个原始变量对应的数据是否满足第一预设条件，删除不满足所述第一预设条件的原始变量对应的数据，得到初筛数据的步骤，包括：

针对每个原始变量，确定该原始变量对应的数据的类型；

4.根据权利要求3所述的方法，其特征在于，在所述针对每个原始变量，确定该原始变量对应的数据的类型的步骤之前，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述筛选所述初筛数据，得到建模特征变量对应的数据的步骤，包括：

基于满足预设重要度条件的初筛变量，构建多个特征子集；

6.根据权利要求5所述的方法，其特征在于，在所述筛选所述初筛数据，得到建模特征变量对应的数据的步骤之后，所述方法还包括：

判断所述建模特征变量对应的数据是否完整；

7.根据权利要求2-6任一项所述的方法，其特征在于，所述基于所述建模特征变量对应的数据，训练得到预测模型的步骤，包括：

获取待调整模型；

将所述原始数据包括的丙戊酸钠血药浓度，作为样本标签；

8.一种基于深度学习的丙戊酸钠血药浓度预测装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于深度学习的丙戊酸钠血药浓度预测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于深度学习的丙戊酸钠血药浓度预测方法的步骤。