CN116682557A

CN116682557A - 一种基于小样本深度学习的慢性病并发症早期风险预警方法

Info

Publication number: CN116682557A
Application number: CN202310657353.8A
Authority: CN
Inventors: 许婧怡; 吴天星; 戴浩宇
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-01

Abstract

本发明公开了一种基于小样本深度学习的慢性病并发症早期风险预警方法，早期风险预警任务包括对慢性病患者数据进行收集处理，以及预测模型构建两个部分。对于数据收集和处理，使用Logistics回归分析和SVM‑RFE方法对不同并发症的生化检查数据进行特征因子筛选，对缺失值多的特征利用missForest方法进行数据插补；使用BioBERT模型对电子病历的门诊和住院文书做文本向量嵌入。再将得到的向量和并发症标签进行连接，形成数据形式。对样本数据类不平衡的问题，进行融合条件熵和TF‑IDF的HTTE过采样来解决小样本问题。对于预测模型构建部分，基于粒子群算法优化的DBN模型，利用分类器链方式构建多标签分类模型，在慢性病患病早期对并发症进行预测。

Description

一种基于小样本深度学习的慢性病并发症早期风险预警方法

技术领域

本发明属于慢性病并发症预测的技术领域，具体涉及一种基于小样本深度学习的慢性病并发症早期风险预警方法。

背景技术

慢性病，全称慢性非传染性疾病，是对一类起病隐匿、病程长且病情迁延不愈的疾病的概括性总称。常见的主要有心脑血管疾病、慢性阻塞性肺部疾病(慢性气管炎、肺气肿等)、糖尿病、慢性呼吸系统疾病等。长期积累会造成对心血管、脑、肾、眼睛等重要器官的损害。临床数据显示，慢性病发病后期将有30％～40％的患者至少会发生一种并发症，且并发症一旦产生，药物治疗很难逆转，容易造成伤残，且医疗费用极其昂贵，增加社会和家庭的经济负担。“早诊断、早治疗、早达标、早获益”，并发症的发生概率是可以大大减少的。为了更好地保障患者生命财产安全，避免患者身体系统进一步遭到损害，降低慢性病并发症致死致残的可能性，利用深度学习技术进行慢性病并发症早期风险预警模型构建是具有现实意义的。

目前国内慢性病并发症的研究工作集中在辅助诊断领域，即利用慢性病患者现阶段的检验检查数据，构建机器学习诊断模型，辅助医生判断是否患有某种并发症。

在相关的10000篇文章中，包括87个ML模型。神经网络模型是并发症预测最常用的模型，随机森林在微血管和大血管相关并发症预测中表现最佳。辅助诊断所用方法是寻找并发症相关的特征因子，如体重指数、年龄、性别等，构成诸如的数据集作为机器学习模型的输入，训练分类模型，找到合适的参数，即分类决策边界，完成并发症的判断。

然而现有的预测场景，数据处理以及模型都存在着一定的问题。首先，并发症的发病时间在慢性病患病后的3～5年。仅构建辅助诊断的预测模型，可以在一定程度上为医生提供高效的问诊辅助，但不能给患者提供较好的预警作用，如针对可能产生的并发症进行预防方案的制订、辅助用药等等。其次，现有的模型多使用生化检查数据组成数据向量形式，或以“1”“0”来表示是否具有某种症状或病灶特点。而随着自然语言处理领域的发展，从医学文书中提取更有价值的信息受到了越来越多研究者的关注，因而对于电子病历文书的处理不再局限于单一的数据量化上。在保留文书语义信息的同时，关注文书词与词之间的相关性，可以更充分地挖掘其中可供分类的知识，实现多维度整体化表达语义。但与此同时，机器学习的分类模型无法很好的拟合出决策边界，需要引入深度学习模型来增强模型的学习能力。此外，现实场景下，患者的正负样本比例失衡，存在类不均衡问题。若丢失负样本，则存在小样本的问题；若对负样本进行过采样，简单的采样方法可能会产生过拟合等问题。同时还需解决特征缺失值数目多的问题。

发明内容

技术问题：

本发明提供了一种基于小样本深度学习的慢性病并发症早期风险预警方法，该方法使用Logistics回归分析和SVM-RFE方法对不同并发症的生化检查数据进行特征因子筛选，对缺失值多的特征利用missForest方法进行数据插补，并使用BioBERT模型对电子病历的门诊和住院文书做文本向量嵌入。对样本数据类不平衡的问题，进行融合条件熵和TF-IDF的HTTE过采样来解决小样本问题。基于粒子群算法优化的DBN模型，利用分类器链方式构建多标签分类模型，在慢性病患病早期实现科学、准确的并发症风险预测。

技术方案：

本发明正是针对现有技术中存在的问题，提供一种基于小样本深度学习的慢性病并发症早期风险预警方法，包括如下步骤，首先收集医院系统中慢性病并发症患者首次就诊的门诊和住院生化检查数据以及电子病历文书；再对生化检查数据进行Logistics分析和SVM-RFE特征筛选进行特征因子组合的确定，构建特征表，并使用missForest进行缺失值的数据插补。同时对电子病历文书进行处理，利用Biobert模型进行文本向量嵌入，并对结果向量进行主成分分析降维，拼接形成数据格式[生化检查向量，文书嵌入向量，并发症单标签]；对于不均衡数据集，使用融合条件熵和TF-IDF的HTTE过采样方法进行少数类样本集的创建，划分得到模型训练所需训练集以及测试集；建立基于粒子群算法优化的深度置信网络，将训练集数据输入模型进行训练，得到单标签训练完成的模型；进行标签相关性检验，确定分类器链结构，构建多标签数据集，输入单标签训练后的模型进行调优；最后将测试患者数据输入调优得到的模型中，对目标患者慢性病中后期是否会患有并发症进行预测。本发明方法在慢性病患病早期风险预警中同时考虑了生化检查数据和电子病历文书对预测结果的影响，对现实场景下的粗糙数据集进行全面深入的处理，并结合了数据集特点优化了预测模型的选择和构建方法，能够实现科学、准确的预测，提高了慢性病并发症早期风险预警的准确性。

为了实现上述目的，本发明采取的技术方案是：一种基于小样本深度学习的慢性病并发症早期风险预警方法，包括如下步骤：

1)数据收集：收集医院系统中慢性病并发症患者首次就诊的门诊和住院生化检查数据以及电子病历文书，并根据文书内容获取并发症强相关的疾病字典，排除首次就诊即患有相关并发症的患者；

2)生化检查数据处理：对步骤1)获得的生化检查数据进行处理，利用Logistics分析进行统计学意义上特征的选择，再使用SVM-RFE进一步进行特征排序和模型意义上的特征筛选。确定特征因子组合后，构建特征表，并使用missForest进行缺失值的数据插补。

3)电子病历文书处理：对步骤1)获得的电子病历文书进行处理，利用Biobert模型进行文本向量嵌入，并对结果向量进行主成分分析降维。

4)类不平衡处理：对步骤2)和3)得到的生化检查向量、文书嵌入向量以及并发症标签进行拼接，形成数据格式[生化检查向量，文书嵌入向量，并发症单标签]。对于不均衡数据，使用融合条件熵和TF-IDF的HTTE过采样方法进行少数类样本集的创建，解决小样本问题，得到类平衡的数据集，划分得到模型训练所需训练集以及测试集。

5)模型建立：建立基于粒子群算法优化的深度置信网络，对DBN隐藏层的神经元的个数和学习率进行寻优。所述模型包括输入层、四个隐藏层和输出层六层，所述输入层包括[生化检查向量，文书嵌入向量，并发症单标签]三方面的向量组合；所述隐藏层包含的神经元个数由粒子群算法寻优得到。进行标签相关性检验，确定分类器链结构，构建多标签数据集。

6)模型训练：将步骤4)获得的训练集数据输入步骤5)建立的基于粒子群算法优化的深度置信网络模型进行训练，得到单标签训练完成的模型。再将步骤5)获得的多标签数据集输入单标签训练后的模型进行模型调优，得到训练完成的模型。

7)并发症早期风险预警：将步骤4)获得的测试数据输入步骤6)训练完成的模型中，对目标患者慢性病中后期是否会患有并发症进行预测。

本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中，所述步骤1)中，慢性病并发症患者首次就诊数据来源于市医院患者信息数据系统，涵盖近二十年所有相关慢性病患者，对所获数据做保密处理。所获数据同时包括生化检查数据和电子病历文书，数据格式具体为[生化检查向量，文书嵌入向量，并发症单标签]。

本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中，所述步骤2)中，在进行基础的Logistics分析，得到统计学意义上的相关变量后，本发明还进行SVM-RFE特征排序和筛选，选择出对预警模型有意义的变量。SVM-RFE是一个基于SVM最大间隔原理的特征选择算法，它通过样本训练SVM模型计算出每个特征的重要性得分，进而实现特征排序。此处的重要性得分以每个特征对分类超平面函数y＝W^TX+b具有的影响作用为评判准则，即每个特征的权值向量ω_i。具体而言，输入为Logistics分析得到的特征集样本，进入SVM模型训练后得到特征得分，每次递归去除权值ω_i ²最小的特征重新训练SVM，直到完成所有特征的排序，输出为特征排序列表r。对于特征排序列表r，获取它的所有特征子集{r₁，r₂，r₃，…，r_m}，再使用每一个特征子集训练SVM，得到相应的评分函数，评分最高的即最佳的特征因子组合。

本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中，所述步骤2)中，使用missForest对特征缺失值进行数据插补。MissForest是一种基于随机森林算法的数据插补算法，弥补了“惰性”插补方法(如中位数或平均值)的单一性，以及KNN方法需要进行数据预处理、参数k调整、异常值敏感等缺点，可以应用于连续值和离散值的混合数据类型。具体过程如下，使用中位数/众数插补来填充缺失值，将这一值标记为预测值，其他为训练行。按照变量的缺失率从小到大使用missForest进行填补，一直迭代这一过程，直至满足一定的条件(如最新的填补结果和上一次变化很小)时停止。

本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中，所述步骤3)中，对电子病历文书进行文本向量嵌入。尽管BERT模型在大部分类似任务里表现良好，但在医学等专业性领域的文本上，其表现相对较差。BioBERT是通过BERT初始化权重，基于生物医学领域语料库进行继续预训练，本质上是对BERT的一个延伸，其性能在电子病历文书的信息挖掘任务中远优于BERT。

本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中，所述步骤4)中，融合条件熵和TF-IDF的HTTE过采样方法首先对离散型数据进行独热编码，对连续型数据进行分段标记处理，拼接后得到不同特征组合X以及并发症标签Y。计算组合X条件下Y的不确定性，即变量Y的条件熵。对于每种组合X，若其标签Y仅为少数类，则X为新的组合方式X_new，并计算其TF-IDF的值，得到数据选择指标value＝条件熵/TF-IDF。按这一指标进行升序排序，根据输入参数α和正负样本数量差diff进行安全样本的选择。若X_new的数量≤diff/α，所有的X_new都可以作为安全样本；若X_new的数量>diff/α，且diff/α>1，则取X_new的前diff/α行为安全样本，反之则取前5行。最后，创建少数类样本。随机取一个安全样本，将连续数据恢复区间块，取区间块内的任意值即可。

本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中，所述步骤5)深度置信网络DBN中，使用粒子群算法PSO进行参数寻优。为了使得模型具有较强的聚类学习能力，本发明设定了四层DBN结构，每层的神经元数是影响分类性能的重要因子，而粒子群算法可以对模型隐藏层的神经元个数进行寻优。算法的基本原理是将在解空间中寻求最优解位置的问题转换为鸟群寻找栖息地的实际场景，由于群体之间互相交流，因而最优解朝着例子可行性方向运动。假设N个粒子在n维搜索空间里寻找最优位置，每个粒子在任意时刻的速度表示为V_i＝(v_i1,v_i2,…,v_in)，位置表示为X_i＝(x_i1,x_i2,…,x_in)，最优位置表示为pbest_i＝(pbest_i1,pbest_i2,…,pbest_in)。

设f(x)为最小化目标函数，则最优位置的表示公式如下：

N个粒子中存在一个粒子对应的位置为最佳位置，即全局最优位置，可以表示为gbest(t)＝min{f(pbest₁(t),f(pbest₂(t)),…,f(pbest_N(t)}。则粒子的速度和位置更新方程可以分别表示为：

v_ij(t+1)＝ωv_ij(t)+c₁r₁×(pbest_ij-x_ij(t))+c₂r₂×(gbest_j-x_ij(t))

x_ij(t+1)＝x_ij(t)+v_ij(t)+v_ij(t+1)

速度公式的第一项是惯性部分，由惯性权重和粒子速度构成，表示粒子对先前运动状态的信任。其中ω是惯性权值，影响着全局和局部性能的平衡。当ω在(0.8,1.2)之间时，算法的收敛速度和全局搜索能力最强，在这一区间可以使用线性调整策略改变ω的取值，即：

第二项是认知部分，即粒子当前位置和自身历史最优位置间的距离和方向，是粒子的经验部分。第三项则是社会部分，是粒子之间的信息共享，即粒子当前位置和群体历史最优位置的距离和方向。其中c₁,c₂为加速因子，r₁,r₂为[0,1]的随机数。加速因子的引入有利于粒子逐步收敛并趋于稳定，避免陷入局部最优，计算公式如下，c_1i,c_2i为初值，c_1f,c_2f为终值：

粒子在每次迭代过程中都会对局部解进行优化，直到在某次迭代中产生最佳的分类准确率或满足一定的条件(即确定适应度函数)，则在局部解中产生全局最优解，得到DBN的最优神经元个数。

本发明的基于小样本深度学习的慢性病并发症早期风险预警方法中，所述步骤5)多标签数据集构建中，进行标签相关性检验来确定分类器链的顺序。由于涉及多种慢性病并发症的分类，分类器链的顺序影响着分类模型。简单的解决方法是随机产生几种分类器链顺序训练模型，使用投票的方式决定那种顺序最优。本发明使用了基于标签相关性检验进行标签关系网络节点中心性度量的顺序选择方法。网络中的节点为并发症，存在边则代表并发症间具有相关性，边的权重表示相关性的大小。两个标签节点间的相关性大小可表示为ω_ij表示节点i和节点j的相关性大小。而节点在网络中的中心性程度，可以衡量节点对其他节点的影响，即节点的重要性程度，其计算方式如下：

其中，n表示网络中节点的个数。

根据标签的重要性程度排序，重要程度越高，给其他标签提供的信息越多，在分类器链中的顺序则越靠前。

有益效果：

本发明与现有技术相比，具有以下优点：

1.使用粒子群算法优化深度置信网络，这一算法可以优化模型的调参过程，并且能够寻找到最优的神经元个数，避免在调参过程中陷入局部最优、无法收敛的僵局，而耗费大量的时间和精力。此外，在预警模型部分从单标签预测转至多标签预测，引入了对标签顺序的考量，相比于单标签预测，对模型进行了进一步的训练调整，有助于对预测准确率的提高，在多疾病预测的场景中有更为突出的表现。

2.在慢性病并发症的产生过程中，除了生化检查数据可以反映病人的患病情况，电子病历所记录的病症特点等也是相当重要的考量因素。然而在以往的预测中，往往只是提取出病历文书部分的某几种相关疾病，作为离散类型的特征纳入考量。在本发明中，利用生物医学领域优化的语言处理模型BioBERT进行文本向量嵌入，保留了文书语义之间的关系，对信息的挖掘更加深入。

3.进行生化检查数据的特征选择时，在进行Logistics分析的基础上，使用SVM-RFE特征选择算法进行特征排序和进一步筛选。使得最终确定的特征因子组合不泛泛于统计学意义的变量，而是择出与模型更紧密相关的特征因子。

4.在数据插补的部分，使用missForest数据插补算法，弥补了“惰性”插补方法(如中位数或平均值)的单一性，以及KNN方法需要进行数据预处理、参数k调整、异常值敏感等缺点。并且可以应用于连续值和离散值的混合数据类型，插补得到的预测值和真实值之间的差值也更小。

5.本发明利用融合条件熵和TF-IDF的HTTE过采样方法，相比于一般的采样方法，可以避免过拟合现象的产生，采样得到的新样本也更和真实样本情况接近，解决了小样本场景的问题。

附图说明

图1是本发明一种基于小样本深度学习的慢性病并发症早期风险预警方法的步骤流程图；

图2是本发明方法步骤5)中深度置信网络模型的结构示意图；

图3是本发明方法中一个RBM层的结构示意图；

图4是本发明实施方式中并发症关系网络示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例：以糖尿病并发症患者的数据为例，基于小样本深度学习的慢性病并发症早期风险预警方法，如图1所示，包括以下步骤：

1)数据收集和初步筛选。

需要进行两次糖尿病并发症患者数据的收集。第一次获取医院系统中糖尿病患者的门诊及住院电子病历文书，根据电子病历文书获得糖尿病肾病、糖尿病视网膜病变和糖尿病神经病三种慢性病并发症强相关的疾病字典。根据疾病字典在糖尿病患者的所有数据里进行患者第一次筛选，找到所有三种并发症相关患者的索引号。进一步地，为了更好地实现风险预测，需要二次筛选，排除患病初期就确诊并发症的患者。根据二次筛选获取的索引号，进行第二次数据收集，获取信息库中相关患者的基本信息及门诊和住院的生化检查数据。合并电子病历文书数据得到所需数据集整体。上述数据集是后续进行特征筛选等操作的根本来源，也是模型赖以训练的基础。。

2)对所得数据的生化检查数据部分进行特征选择和数据插补的处理。

不同糖尿病并发症最为常见的影响因素主要为性别、年龄、糖尿病病程、血压、葡萄糖、糖化血红蛋白、肌酐、血红蛋白、总胆固醇、总蛋白、白蛋白、球蛋白、甘油三酯、高密度脂蛋白胆固醇(HDL)、低密度脂蛋白胆固醇(LDL-C)、尿微量白蛋白、空腹血糖等。在具体实施时，需要从以下四个方面出发进行特征因子选择。

(1)一是在学术网站上进行糖尿病并发症辅助诊断、影响因子等关键词的搜索，查阅相关中英文文献。并请教专业医生，获取直接的指导，或者是在《中国Ⅱ型糖尿病防治指南》中查找对应的医学诊断标准。二是结合实际筛选出的三种并发症患者数据集，进行数据挖掘和分析，初步整理出影响相应并发症的关键指标，确定一个医学上有效、数据集上可行的并发症影响因素表，如下表所示。

并发症影响因素表

(2)完成上述过程仅仅是限定了一个特征范围，还需进行数据上的分析。三是利用Logistics分析，以显著性值P≤0.05为统计学意义，进一步确定相关程度大、具有统计学意义的变量。Logistic分析的方法主要通过单因素分析，并结合多因素分析构建模型，最终得出糖尿病并发症的相关因素。单因素Logistics分析可以说明单一因素对糖尿病患者并发症发生的影响，对上述影响因素表进行分析后，共有12个变量有统计学意义。这些变量主要包括糖化血红蛋白、病程、空腹血糖和部分生化检查指标，具体的P值结果如下表所示。

影响因素	肾病	视网膜病变	神经病变
				病程	0.001	0.001	0.001
糖化血红蛋白	0.003	0.001	0.004
				甘油三酯	0.026	0.873	0.003
总胆固醇	0.005	0.002	0.003
				HDL-C	0.036	0.072	0.830
LDL-C	0.311	0.116	0.001
				空腹血糖	0.001	0.001	0.001
eGFR(MDRD)	0.001	0.048	0.037
				尿微量白蛋白/肌酐	0.001	0.274	0.683
空腹C肽	0.563	0.002	0.480
				...	...	...	...
空腹胰岛素	0.475	0.002	0.103
				餐后2小时血糖	0.002	0.003	0.002

并发症不同影响因素P值结果

再以这12个相关变量进行多因素Logistics分析。结果显示，在多因素Logistics分析的结果中，有10个变量与并发症的发生相关性强。由统计学分析所得特征因子表如下表所示。

统计学分析所得特征因子表

(3)四是进行SVM-RFE特征筛选，本发明使用scikit-learn库进行算法构建，选择特征完整的数据集作为输入，选取AUC作为评价函数选择最优特征子集。由于统计学分析已经针对三种并发症分别得到10个相关变量，SVM-RFE算法就会产生10个特征子集。通过AUC分析，当选择的特征数目小于10个时，随着特征增加，得分整体呈现出波动中上升到最大值；当选择的特征数目大于10个时，随着特征增加，得分呈下降趋势。因此最优特征子集即上表所得结果。

(4)根据最终确定的特征因子构建的数据集缺少很多特征值，特别是与脂质相关的数据。对于这些缺失数据，本发明使用missForest进行数据插补，选择的参数为100棵树、迭代次数为100次。为了测试插补策略的性能，仅考虑没有丢失数据的患者实例来组装一个数据完整集，然后通过随机删除属性记录来更改数据完整集。随机删除的比例是基于原始数据集上每个属性的缺失值百分比，只需从数据完整集中随机删除相同的百分比，从而创建人工缺失数据集来测试插补能力。通过计算真实值和人工缺失值的均方根误差(RMSE)对比插补性能，对比结果如下表：

特征因子	葡萄糖	糖化血红蛋白	总胆固醇	甘油三酯
					missForest	0.60	3.65	23.1	49.04
均值	3.23	11.51	36.37	73.35
					中位数	3.23	11.81	36.37	75.37

数据插补RMSE结果

可以看出本发明所用的数据插补算法missForest优于均值或中位数插补的方法。

3)对电子病历文书进行文本向量嵌入和PCA降维。

本发明使用开源的BioBERT_v1.1_pubmed版本作为向量嵌入的预训练模型，并进行微调，对并发症患者的门诊及住院病历文书内容进行整体嵌入，得到每个患者诊断文本的特征向量，每条描述文本会被转化为一个768维的向量。由于维度过高可能会弱化原有的生化检查特征，需要对嵌入向量进行降维处理。为了避免过度降维造成的向量信息缺失，将向量从768维降至30维。

4)将步骤2)和3)得到的向量连接后进行类不均衡处理，解决小样本场景的影响。

本发明采用融合条件熵和TF-IDF的过采样方法进行小样本数据的补充。在机器学习标准库中选取不均衡数据集进行方法验证，和普遍使用的欠采样、重采样和SMOTE过采样方法进行对比。以Accuracy为评价指标，HTTE方法在不同数据集上的表现都优于普通方法，实验结果如下表所示：

采样方法实验结果对比

5)建立基于粒子群算法优化的深度置信网络。

基于小样本深度学习的慢性病并发症早期风险预警方法的网络模型由六层构成：输入层，四个隐藏层和输出层。模型的整体结构如图2所示。所述输入层包括[生化检查向量，文书嵌入向量，并发症单标签]的向量组合。

所述隐藏层由BP神经网络层和三层受限玻尔兹曼机RBM构成，为了寻找全局最优值，需要在每一层之间都进行最优选择，即每一层都会作为输入层用于训练。其优势在于隐藏层有大量的神经元，更有利于特征向量的构建，有更强的学习能力；在训练中可采取逐层初始化的方法，克服了深度神经网络训练的难度。具体而言，一个RBM是由一个可视层和一个隐含层进行全连接并加以限制组成的，如图3所示。用a表示可视层v的偏置系数，b表示隐含层h的偏置系数，它们之间的权重用ω表示，θ＝{ω_ij,a_i,b_j}，则RBM的函数可以表示为：

可以计算出可视层和隐含层的联合概率分布为：

当可视层的神经元个数被确定时，隐含层单元的激活状态也被确定，σ为Sigmoid激活函数，因此单个隐含层单元被激活的概率为：

同理，单个可视层被激活的概率为：

DBN的训练过程相当于简化为利用对比散度算法(CD)对多个RBM的训练，确定隐含层单元的激活状态，逐层的训练过程如下：

(a)最底部RBM以原始输入数据进行训练；

(b)将底部RBM抽取的特征作为顶部RBM的输入继续训练；

(c)重复这个过程直至训练到最顶部的RBM层；

(d)使用BP神经网络层对模型进行微调。

尽管训练过程明晰，但隐藏层即RBM的神经元个数是不确定的，下一RBM层的神经元个数是由上一RBM层决定的。使用PSO进行该参数的寻优，可以避免经验取值带来的过拟合问题或模型过于简单的问题。在具体实现时，设定初始种群粒子的个数为

30，进行100次迭代完成解位置的更新。在迭代的过程中，采用5倍交叉验证来寻求最优解。最终，当各隐含层的神经元的个数分别为(70,82,150,141)时，DBN在单标签上分类效果达到最好。

6)基于标签相关性检验确定分类器链的顺序，构建多标签数据集。

根据糖尿病肾病、糖尿病神经病变和糖尿病视网膜病变的相关性可以构建出一个简单的并发症标签网络如图4所示。图中每条边的权值为两端相应并发症的相关系数ω。根据公式可以计算出的每个糖尿病并发症节点的紧密中心性值。结果为：糖尿病肾病0.3114，糖尿病神经病变0.4385，糖尿病视网膜病变0.3576，因此分类器链中标签顺序为糖尿病神经病变-糖尿病视网膜病变-糖尿病肾病。根据标签在分类器链上的顺序，构建多标签数据集为

[生化检查向量，文书嵌入向量，糖尿病神经病变标签，糖尿病视网膜病变标签，糖尿病肾病标签]。

7)利用所述步骤6)中所得多标签数据再次训练5)中的DBN模型。

使用多标签数据集对单标签数据集上训练所得的DBN模型进行再次训练，得到多标签数据集的最优解在网络结构的隐含层神经元的个数分别为(71,82,150,140)时实现。

8)利用所述步骤7)中训练完成的模型，对数据集划分得到的测试集进行预测。

本实施例最终获得三种糖尿病并发症在糖尿病中后期患病的预测结果。这里使用

Accuracy和F1-score作为评估指标，来评估模型的效果。

下表分别显示了三种糖尿病并发症使用本发明的模型以及前人使用的模型对患病进行早期风险预警的对比情况。

不同模型预测三种糖尿病并发症的结果比较

结果表明，本发明提出的模型相较于前人提出的模型取得了最佳的Accuracy和F1-score，这表明本发明提出的模型相比于以往的预测方法取得了最好的效果。可以看到即使是小规模的数据集，PSO-DBN也比机器学习中较优的模型随机森林RF的效果要好，对于更复杂的分类预测任务PSO-DBN的效果会更加突出。

综上，本发明方法在早期风险预警的过程中纳入了电子病历文书作为考量因素，结合生物医学领域的数据特点，进行了文本向量嵌入、特征选择与数据插补完成数据处理。针对多种并发症预警的场景，构建多标签的深度网络模型，并利用粒子群算法对模型进行优化，实现了科学高效的风险预警，提高了慢性病并发症预测的准确率。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于小样本深度学习的慢性病并发症早期风险预警方法，其特征在于，包括如下步骤：

1)数据收集：收集医院系统中慢性病并发症患者首次就诊的门诊和住院生化检查数据以及电子病历文书，并根据文书内容获取并发症强相关的疾病字典，排除首次就诊即患有相关并发症的患者，

2)生化检查数据处理：对步骤1)获得的生化检查数据进行处理，利用Logistics分析进行统计学意义上特征的选择，再使用SVM-RFE进一步进行特征排序和模型意义上的特征筛选，确定特征因子组合后，构建特征表，并使用missForest进行缺失值的数据插补，

3)电子病历文书处理：对步骤1)获得的电子病历文书进行处理，利用Biobert模型进行文本向量嵌入，并对结果向量进行主成分分析降维，

4)类不平衡处理：对步骤2)和3)得到的生化检查向量、文书嵌入向量以及并发症标签进行拼接，形成数据格式[生化检查向量，文书嵌入向量，并发症单标签]，对于不均衡数据，使用融合条件熵和TF-IDF的HTTE过采样方法进行少数类样本集的创建，解决小样本问题，得到类平衡的数据集，划分得到模型训练所需训练集以及测试集，

5)模型建立：建立基于粒子群算法优化的深度置信网络，对DBN隐藏层的神经元的个数和学习率进行寻优，所述模型包括输入层、四个隐藏层和输出层六层，所述输入层包括[生化检查向量，文书嵌入向量，并发症单标签]三方面的向量组合；所述隐藏层包含的神经元个数由粒子群算法寻优得到，进行标签相关性检验，确定分类器链结构，构建多标签数据集，

6)模型训练：将步骤4)获得的训练集数据输入步骤5)建立的基于粒子群算法优化的深度置信网络模型进行训练，得到单标签训练完成的模型，再将步骤5)获得的多标签数据集输入单标签训练后的模型进行模型调优，得到训练完成的模型，

2.如权利要求1所述的一种基于小样本深度学习的慢性病并发症早期风险预警方法，其特征在于：所述步骤1)中，慢性病并发症患者首次就诊数据来源于市医院患者信息数据系统，涵盖近二十年所有相关慢性病患者，对所获数据做保密处理，所获数据同时包括生化检查数据和电子病历文书，数据格式具体为：

[生化检查向量，文书嵌入向量，并发症单标签]。

3.如权利要求2所述的一种基于小样本深度学习的慢性病并发症早期风险预警方法，其特征在于：所述步骤2)中，在进行基础的Logistics分析，得到统计学意义上的相关变量后，还进行SVM-RFE特征排序和筛选，选择出对预警模型有意义的变量，SVM-RFE是一个基于SVM最大间隔原理的特征选择算法，它通过样本训练SVM模型计算出每个特征的重要性得分，进而实现特征排序，此处的重要性得分以每个特征对分类超平面函数y＝W^TX+b具有的影响作用为评判准则，即每个特征的权值向量ω_i，具体而言，输入为Logistics分析得到的特征集样本，进入SVM模型训练后得到特征得分，每次递归去除权值ω_i ²最小的特征重新训练SVM，直到完成所有特征的排序，输出为特征排序列表r；对于特征排序列表r，获取它的所有特征子集{r₁，r₂，r₃，…，r_m}，再使用每一个特征子集训练SVM，得到相应的评分函数，评分最高的即最佳的特征因子组合。

4.如权利要求2所述的一种基于小样本深度学习的慢性病并发症早期风险预警方法，其特征在于：所述步骤2)中，使用missForest对特征缺失值进行数据插补，MissForest是一种基于随机森林算法的数据插补算法，弥补了“惰性”插补方法的单一性，以及KNN方法需要进行数据预处理、参数k调整、异常值敏感等缺点，应用于连续值和离散值的混合数据类型，具体过程如下，使用中位数/众数插补来填充缺失值，将这一值标记为预测值，其他为训练行，按照变量的缺失率从小到大使用missForest进行填补，一直迭代这一过程，直至满足条件时停止。

5.如权利要求3所述的一种基于小样本深度学习的慢性病并发症早期风险预警方法，其特征在于：所述步骤3)中，对电子病历文书进行文本向量嵌入，BioBERT是通过BERT初始化权重，基于生物医学领域语料库进行继续预训练，本质上是对BERT的一个延伸，其性能在电子病历文书的信息挖掘任务中远优于BERT。

6.如权利要求4所述的一种基于小样本深度学习的慢性病并发症早期风险预警方法，其特征在于：所述步骤4)中，融合条件熵和TF-IDF的HTTE过采样方法首先对离散型数据进行独热编码，对连续型数据进行分段标记处理，拼接后得到不同特征组合X以及并发症标签Y，计算组合X条件下Y的不确定性，即变量Y的条件熵，对于每种组合X，若其标签Y仅为少数类，则X为新的组合方式X_new，并计算其TF-IDF的值，得到数据选择指标value＝条件熵/TF-IDF，按这一指标进行升序排序，根据输入参数α和正负样本数量差diff进行安全样本的选择，若X_new的数量≤diff/α，所有的X_new都可以作为安全样本；若X_new的数量＞diff/α，且diff/α＞1，则取X_new的前diff/α行为安全样本，反之则取前5行，最后，创建少数类样本，随机取一个安全样本，将连续数据恢复区间块，取区间块内的任意值即可。

7.如权利要求5所述的一种基于小样本深度学习的慢性病并发症早期风险预警方法，其特征在于：所述步骤5)深度置信网络DBN中，使用粒子群算法PSO进行参数寻优，为了使得模型具有较强的聚类学习能力，设定了四层DBN结构，每层的神经元数是影响分类性能的重要因子，而粒子群算法对模型隐藏层的神经元个数进行寻优，算法的基本原理是将在解空间中寻求最优解位置的问题转换为鸟群寻找栖息地的实际场景，由于群体之间互相交流，因而最优解朝着例子可行性方向运动，假设N个粒子在n维搜索空间里寻找最优位置，每个粒子在任意时刻的速度表示为V_i＝(v_i1，v_i2，...，v_in)，位置表示为X_i＝(x_i1，x_i2，...，x_in)，最优位置(个体最优解)表示为pbest_i＝(pbest_i1，pbest_i2，...，pbest_in)，

设f(x)为最小化目标函数，则最优位置的表示公式如下：

其中，pbest_i(t)表示t时刻粒子i的最优位置，f(pbest_i(t))表示t时刻粒子i最优位置的适应值(优化目标函数的值)，f(X_i(t+1))则表示t+1时刻粒子i所在位置的适应值，

N个粒子中存在一个粒子对应的位置为最佳位置，即全局最优位置(群体最优解)，可以表示为gbest(t)＝min{f(pbest₁(t)，f(pbest₂(t))，...，f(pbest_N(t))}，则粒子的速度和位置更新方程分别表示为：

v_ij(t+1)＝ωv_ij(t)+c₁r₁×(pbest_ij(t)-x_ij(t))+c₂r₂×(gbest_j(t)-x_ij(t))

x_ij(t+1)＝x_ij(t)+v_ij(t)+v_ij(t+1)

其中，v_ij(t)，x_ij(t)，pbest_ij(t)分别表示t时刻粒子i在维度j的速度、位置以及最优位置，gbest_j(t)则表示t时刻粒子群在维度j的全局最优位置，此外，c₁，c₂为加速因子，r₁，r₂为[0，1]的随机数，

具体而言，速度公式的第一项是惯性部分，由惯性权重和粒子速度构成，表示粒子对先前运动状态的信任，其中ω是惯性权值，影响着全局和局部性能的平衡，当ω在(0.8，1.2)之间时，算法的收敛速度和全局搜索能力最强，在这一区间可以使用线性调整策略改变ω的取值，即：

第二项是认知部分，即粒子当前位置和自身历史最优位置间的距离和方向，是粒子的经验部分，第三项则是社会部分，是粒子之间的信息共享，即粒子当前位置和群体历史最优位置的距离和方向，其中c₁，c₂为加速因子，r₁，r₂为[0，1]的随机数，加速因子的引入有利于粒子逐步收敛并趋于稳定，避免陷入局部最优，计算公式如下，c_1i，c_2i为初值，c_1f，c_2f为终值：

8.如权利要求5一种基于小样本深度学习的慢性病并发症早期风险预警方法，其特征在于：所述步骤5)多标签数据集构建中，进行标签相关性检验来确定分类器链的顺序，由于涉及多种慢性病并发症的分类，分类器链的顺序影响着分类模型，简单的解决方法是随机产生几种分类器链顺序训练模型，使用投票的方式决定那种顺序最优，使用了基于标签相关性检验进行标签关系网络节点中心性度量的顺序选择方法，网络中的节点为并发症，存在边则代表并发症间具有相关性，边的权重表示相关性的大小，两个标签节点间的相关性大小可表示为ω_ij表示节点i和节点j的相关性大小，而节点在网络中的中心性程度，衡量节点对其他节点的影响，即节点的重要性程度，其计算方式如下：