CN114171206A

CN114171206A - 模型训练、传感病预测方法、装置、设备及存储介质

Info

Publication number: CN114171206A
Application number: CN202111273548.XA
Authority: CN
Inventors: 陈高祥; 马如明; 黄章良; 徐昊天; 贾广猛
Original assignee: Nanjing Tiansu Automation Control System Co ltd
Current assignee: Nanjing Tiansu Automation Control System Co ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-03-11

Abstract

本发明实施例提供了一种模型训练、传感病预测方法、装置、设备及存储介质，其中，模型训练方法，包括：采集人员个体的样本信息，从人员个体的样本信息中提取特征，构建初步样本集；对初步样本集中的特征通过特征工程进行处理，得到目标样本集；若目标样本集中样本的数量小于第一预设数量，将目标样本集输入到树模型中进行训练，得到训练后的树模型；若目标样本集中样本的数量大于第二预设数量，将目标样本集中的样本转换为矩阵向量，并将矩阵向量输入到神经网络模型中进行训练，得到训练后的神经网络模型；本发明实施例提供的技术方案，可以提高样本集的利用率，可以提高模型的适应性，可以提高预测的准确率。

Description

模型训练、传感病预测方法、装置、设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种模型训练、传染病预测方法、装置、设备及存储介质。

背景技术

目前，传染病预测(疫情预测)方法主要包括时间序列方法(如差分整合移动平均自回归和SEIR方法)、灰色预测模型等，此类模型对数据精确度的要求很高，且主要以时间序列为主，并对事件本身做了线性近似，因此，比较理想化，实际中的预测效果不佳。

后续发展的基于机器方法大多可以预测单一的疾病，并且对样本集的利用率较低，也容易导致预测不准确的情况。

发明内容

本发明实施例提供了一种模型训练、传染病预测方法、装置、设备及存储介质，可以提高样本集的利用率，可以提高模型的适应性，可以提高预测的准确率。

第一方面，本发明实施例提供了一种模型训练方法，包括：

采集人员个体的样本信息，从人员个体的样本信息中提取特征，构建初步样本集；其中，所述初步样本集中的每个样本设置有传染病标签；

对所述初步样本集中的特征通过特征工程进行处理，得到目标样本集；

若所述目标样本集中样本的数量小于第一预设数量，将所述目标样本集输入到树模型中进行训练，得到训练后的树模型；

若所述目标样本集中样本的数量大于第二预设数量，将所述目标样本集中的样本转换为矩阵向量，并将所述矩阵向量输入到神经网络模型中进行训练，得到训练后的神经网络模型；其中，所述第二预设数量大于所述第一预设数量。

第二方面，本发明实施例还提供了一种传染病预测方法，包括：

将传染病的待检测样本通过特征工程进行处理，得到目标待检测样本；

若所述待检测样本对应树模型，将所述目标待检测样本输入到训练后的树模型中，得到传染病的第一预测结果；

若所述待检测样本对应神经网络模型中，将所述目标待检测样本输入到训练后的神经网络模型中，得到传染病的第二预测结果。

第三方面，本发明实施例提供了一种模型训练装置，包括：

构建模块，用于采集人员个体的样本信息，从人员个体的样本信息中提取特征，构建初步样本集；其中，所述初步样本集中的每个样本设置有传染病标签；

特征工程模块，用于对所述初步样本集中的特征通过特征工程进行处理，得到目标样本集；

第一训练模块，用于若所述目标样本集中样本的数量小于第一预设数量，将所述目标样本集输入到树模型中进行训练，得到训练后的树模型；

第二训练模块，用于若所述目标样本集中样本的数量大于第二预设数量，将所述目标样本集中的样本转换为矩阵向量，并将所述矩阵向量输入到神经网络模型中进行训练，得到训练后的神经网络模型；其中，所述第二预设数量大于所述第一预设数量。

第四方面，本发明实施例提供了一种传染病预测装置，包括：

特征工程模块，用于将传染病的待检测样本通过特征工程进行处理，得到目标待检测样本；

第一预测模块，用于若所述待检测样本对应树模型，将所述目标待检测样本输入到训练后的树模型中，得到传染病的第一预测结果；

第二预测模块，用于若所述待检测样本对应神经网络模型中，将所述目标待检测样本输入到训练后的神经网络模型中，得到传染病的第二预测结果。

第五方面，本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的方法。

本发明实施例提供的技术方案，通过采集样本信息，并提取特征构建初步样本集，并对初步样本集中的特征通过特征工程进行处理，得到目标样本集，可以得到合理的训练样本集，可以提高训练速度，可以提高样本集的利用率，可以对模型进行精确训练；若目标样本集中样本的数量小于第一预设数量，采用目标样本集对树模型进行训练，若目标样本集中样本的数量大于第二预设数量，采用目标样本集对神经网络模型进行训练，可以使模型预测更加准确，通过将待检测样本经过特征工程处理，得到目标待检测样本，并将该目标待检测样本输入到训练后的树模型或者神经网络模型中，得到预测结果，可以提高计算效率，可以提高预测精度。

附图说明

图1a是本发明实施例提供的一种模型训练方法流程图；

图1b通过GBDT模型特征重构示意图；

图1c是格拉米角场转化示意图；

图1d是DenseNet模型结构示意图；

图2是本发明实施例提供的一种模型训练方法流程图；

图3是本发明实施例提供的一种传染病预测方法流程图；

图4是本发明实施例提供的一种传染病预测方法流程图；

图5a是本发明实施例提供的一种传染病预测方法流程图；

图5b是本发明实施例提供的一种传染病预测方法流程图；

图6是本发明实施例提供的一种模型训练装置结构示意图；

图7是本发明实施例提供的一种模型训练装置结构示意图；

图8是本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1a是本发明实施例提供的一种模型训练方法流程图，所述方法可以由模型训练装置来执行，所述装置可以由软件和/或硬件来实现，所述装置可以配置在计算机等电子设备中，所述方法可以应用于对传染病进行预测的场景中，如图1a所示，本发明实施例提供的技术方案包括：

S110：采集人员个体的样本信息，从人员个体的样本信息中提取特征，构建初步样本集；其中，所述初步样本集中的每个样本设置有传染病标签。

在本发明实施例中，样本数据的采集是准确建立传染病模型的第一步。传染病的诱发和传播机理是一个极其复杂的过程，受哪些因素影响，每种因素如何产生作用，各种因素之间相互关系如何等，都可能是诱发传染病和传播的关键诱因。其中，这些因素可能是内在因素，比如个人免疫系统的差异；也可能是外在因素，比如近距离接触传染源，还可能是内在因素和外在因素综合影响。因此，要建立准确可靠的传染病模型，需要尽可能采集广泛而全面的数据，同时数据应包含尽量多的特征维度，避免丢失潜在的关键信息。

在本发明实施例中，可以从医疗机构内部各系统，其中，包括电子病例(Electronic Medical Record，EMR)系统、医院信息系统(Hospital Information System，HIS)、精益生产信息系统(Laboratory Information Management System，LIS)、PAC)，医疗机构以外系统，(包括科研机构、科学数据库、公安系统、官方媒体、互联网等)，以及个人信息(包括遗传病史、个人病史、生活习惯、健康状况、生活环境、出行信息等)等方面，全面搜集各类原始数据，从而进一步采集人员个体的样本信息，其中，样本信息包含上述从各个系统收集的数据，通过从各个系统中采集数据，可以具有较大的数据量。可选的，以独立的人员个体作为一个样本，并从人员基本信息、疾病史、出行信息、临床症状、生物医学检测信息、免疫信息、临床信息、微生物信息等维度抽取超过300个基本特征，对样本进行概念建模，使特征多样化，避免了特征单一的问题。其中，表1展示了样本的部分特征。

表1

在本发明实施例中，提取人员个体的样本信息中提取特征之后，还需要指定样本标签，考虑到传染病种类的多样性及潜在未知传染病，可以将传染病标签分为三大类：第一类为“得病已知”，即所得传染病为已知传染病，并将具体的病名作为实际标签：第二类为“得病未知”，即所得传染病为未知疾病，并将所有此类样本的标签都统一为“得病未知”；第三类为“未得病”，并将所有此类样本的标签都统一为“未得病”。如果已经传染病的种类总共有M种，则样本标签的类别总共有M+2类，表2展示了一个完整的初步样本集：

表2

S120：对所述初步样本集中的特征通过特征工程进行处理，得到目标样本集。

在本发明实施例中的一个实施方式中，可选的，所述对所述初步样本集中的特征通过特征工程进行处理，得到目标样本集，包括：将所述初步样本集中缺失的特征值进行处理，得到第一中间样本集；将所述第一中间样本集中的特征值进行归一化和标准化处理，得到第二中间样本集；在所述第二中间样本集中，在样本的特征中通过方差法和互信息法选择特征，并在选择出的特征中通过相关系数法筛选特征，形成目标样本集。

在本发明实施例的一个实施方式中，可选的，所述将所述初步样本集中缺失的特征值进行处理，包括：在所述初步样本集中，若目标特征的特征值缺失率达到预设阈值，将所述目标特征在所述初步样本集中进行删除；在所述初步样本集中，若目标特征的特征值缺失率没有达到所述预设阈值，基于相关系数法确定所述目标特征的特征值。其中，预设阈值可以是20％。具体的，在初步样本集中，如果对于某个特征的特征值缺失率达到20％，则将该特征从初步样本集中进行删除，如果某个特征的特征值缺失率小于20％，通过相关系数法计算该特征的缺失值。

在本发明实施例的一个实施方式中，可选的，所述基于相关系数法确定所述目标特征的特征值，包括：从初步样本集中，筛选出当前特征的特征值未缺失的样本，并形成第一子样本集；将所述当前特征在所述第一子样本集中进行删除，形成第二子样本集；确定当前特征的特征值的未缺失样本与所述第二子样本集中每个样本的相关系数；确定相关系数超过预设系数阈值的样本，并作为目标样本；在所述第一子样本集中查找所述目标样本的当前特征的特征值；如果查找到的特征值为连续值，则将平均值作为所述目标样本的当前特征的特征值；如果查找到的特征值为离散值，则取数量最多的特征值作为所述目标样本的当前特征的特征值。

具体的，假设初步样本集，即总样本集为D，样本总数为N，所有特征集合为F＝(F₁,F₂,…,F_k,…,F_K)，其中K为特征总类别数量，第k个特征

其中s_k表示特征取值总数，C＝(c₁,c₂,…,c_h)表示传感病类别集合(即传感病标签有h种)。

设当前特征为第k个特征F_k，从D中将特征F_k未缺失的样本抽出，形成第一子样本集D₀，样本数为N₀。将D₀中所有样本的特征F_k删除，形成第二子样本集D₁，然后分别计算目标样本(任意一个特征F_k缺失的样本)与D₁中每个样本的相关系数，记录相关系数超过70％(视实际情况而定)的样本，然后从D₀中找出这些样本特征F_k的值f_？,k；如果特征是连续值，则取平均值作为目标样本的当前特征F_k的值，如果是离散值，则取数量最多的值作为目标样本的当前特征F_k的值。

需要说明的是，当第二子样本集D₁很大时，分别计算相关系数比较耗时，可通过设置比例或阈值的方式中止计算。比如，当满足条件的样本出现3次(可根据实际情况调整)可以停止计算，或者可以通过降低相关系数阈值(即预设系数阈值)提前得到目标样本，从而结束计算。可选的，当计算第k个特征时，其他特征也可能还存在缺失值，针对这种情况，如果缺失值超过30％则直接删除对应特征，否则用对应特征的众数、中位数、平均值替代。

需要说明的是，在确定缺失值情况下，不要求两个样本的相关系数很高，比如在极端情况下，相关系数为1，即两个样本完全相同，则意味着这个样本不会给样本集带来额外的有效信息。因此，在缺失值处理时可以不要求十分精准。

在本发明实施例中，为了消除不同特征之间存在量纲差异的影响，需要做归一化处理，尤其是以神经网络模型为核心的方法中，避免了大数值特征压制小数值特征的现象，可以促进模型快速收敛，还能使不同特征之间的比较变得有意义。可选的，可以基于如下的公式进行归一化处理：

其中，x是当前样本的某个特征的真实值，x'是当前样本的该特征归一化后的值，min(x)和max(x)分别是所有样本该特征的最小值和最大值；其中，实际中往往最大值和最小值这两个值会随着样本集的变化而出现波动，针对该情况，可以设置一个不容重现的最大值和最小值，将可能出现的实际值都包含在内。比如对于特征“年龄”，可以令min(x)＝0，max(x)＝100。

需要说明的是，在归一化处理过程中，若样本的特征的特征值不为数值的形式，可以将特征值转换成数值的形式。

在本发明实施例中，标准化处理可以根据实际情况来判断是否执行，其中，对于小规模样本集(样本的数量小于第一预设数量)，利用树模型(例如，XGboost模型)进行分类和预测，对于大规模样本集(样本的数量大于第二预设数量)，可以采用神经网络模型(例如，深度学习模型)。其中，采用树模型时，可以无需将样本进行标准化处理，采用神经网络模型时需要进行标准化处理，可以基于如下公式进行标准化处理：

其中，x是当前样本某特征的真实值，x^*是当前样本该特征标准化后的值，μ和σ分别是所有样本该特征的均值和标准差。

在本发明实施例的一个实施方式中，可选的，所述在样本的特征中通过方差法和互信息法选择特征，并在选择出的特征中通过相关系数法筛选特征，包括：确定样本的各个特征的方差；确定各个特征与传染病类别集合之间的相互信息值，筛选出相互信息值大于预设信息阈值，且方差均大于预设方差阈值的特征；在筛选出的特征中，通过皮尔逊相关系数法进行再次特征筛选。

在本发明实施例中，考虑到在构建初步样本集时，选择特征具有随机性，并不能保证每个特征对最终的预测有实际作用，这类特征会增加计算负担，需要将该类特征进行删除。例如，对于性别这个特征，如果所有的样本该特征都是“男”，则该特征对提高模型性能没有实际作用。为了筛选出合适的特征，可以通过方差法、互信息法以及相关系数法进行筛选特征。其中，可以采用方差法进行初步判断，即计算各个特征的方差，并将所有特征按照方差进行排序，将小于预设方差阈值的特征删除，预设方差阈值可以根据实际情况而定，例如预设方差阈值可以是0.3。

在本发明实施例中，虽然方差法可以筛选掉部分不相关特征，但没有考虑特征与传染病类别之间的关系，直接将低方差的特征删除可能会丢失有效信息，为了避免这种情况发生，在删除特征之前，可以通过互信息法计算每个特征与传感病类别集合之间的相互信息值进行再次特征筛选。可选的，可以基于如下公式进行计算相互信息值：

其中，，F_k表示第k个特征的特征集合，C表示传感病类别集合，I(F_k,C)表示第k个特征与类别集之间的相互信息值，p(f_i,k,c_j)是特征值f_i,k和传感病类别值c_j同时出现的概率；p(f_i,k)是特征值f_i,k出现的概率，p(c_j)是类别值c_j出现的概率；其中，p(f_i,k,c_j)，p(f_i,k)和p(c_j)这三者可以由样本集统计计算近似得到。在得到了各个特征的方差及其与传染病类别的相互信息值后，可以筛选出相互信息值大于预设信息阈值，且方差均大于预设方差阈值的特征，即尽量选择相互信息值和方差都较大的特征作为最终特征集，从而形成目标样本集。

在本发明实施例中，通过方差法和互信息法进行特征选择之后，还需要进一步处理，因为这两种方法分别只考虑了特征本身的特性以及特征和传染病类别之间的相关性，没有考虑不同特征之间的相关性以及不同特征与传感病类别的关系，可能存在特征冗余。针对上述情况，可以采用皮尔逊(Pearson)相关系数法计算两个变量之间的关系，即：

其中，X和Y表示两个不同的变量，在本发明实施例中可以表示样本的不同特征或传染病标签，即所有样本在某个特征上的数值向量或标签向量。由于相关系数是标准化后的协方差，消除了两个变量变化幅度的影响，可以仅仅反应两个变量每单位变化时的相似程度。可选的，可以将相关系数大于预设相关系数(例如，0.6)的两个特征定义为强相关特征。在两个强相关特征中，可以保留与标签向量相关系数较大的特征，将另外一个特征进行删除。

由此，通过上述方法进行特征处理以及特征选择，可以得到相对比较完善的样本集，可以作为目标样本集，但是目标样本集还不能直接用于分类预测训练，原因是样本集规模和样本不均衡问题可能会导致模型性能欠佳。对于常见传染病，比如是猩红热、水痘、腮腺炎、流行性脑炎、风疹、麻疹等，此类传染病已经有足够多的样本数据，满足大规模和样本均衡要求，可以采用基于神经网络的模型进行分类预测，因此，可以将这类传染病样本数据组合成的目标样本集，即大规模样本集(样本的数量大于第二预设数量)，用于神经网络模型训练。

在本发明实施例中，对于新型传染病，比如COVID-19，当目标样本集中缺乏足够多的有效样本时，难以使用神经网络模型相关的方法，在本发明实施例中，使用树模型方法进行训练，此类样本形成的目标样本集为小规模样本集(样本的数量小于第一预设数量，其中，第一预设数量小于第二预设数量)。随着时间的推移，小规模样本集逐渐变大，当达到足够大的规模时可加入大规模样本集，并用于神经网络模型的训练。

S130：若所述目标样本集中样本的数量小于第一预设数量，将所述目标样本集输入到树模型中进行训练，得到训练后的树模型。

在本发明实施例中，可以根据目标样本集中的样本数量的不同，选择不同的模型进行训练。针对样本的数量小于第一预设数量的目标样本集(即，小规模样本集)，可以采用树模型，可选的，树模型可以是boosting类模型，可选的，树模型可以是XGboost模型。

在本发明实施例中，可以将传染病类型甲(2种)、乙(26种)、丙(11种)三类，加上COVID-19共40种传染病，每种传染病分别无放回地从目标样本集中抽取1000个样本，共计40000条样本数据，每个样本特征共计300个。

在本发明实施例中，XGBoost模型是基于梯度提升决策树(Gradient BoostingDecision Tree，GBDT)改进而来的boosting迭代型树类模型，高效地实现了GBDT算法，并进行了算法和工程上的许多改进，在速度和效率上效果显著，既可以用于分类，也可以用于回归。XGBoost模型是一种基于boosting集成思想的加法模型，训练时采用前向分步算法进行贪婪式学习，即每次迭代都学习分类与回归树(Classification And Regression Tree，CART)来拟合前面所有棵树的综合预测结果与样本真实值之间的残差。具体计算过程如下：

其中，损失函数采用均方误差损失函数；

设初始强分类器f₀(x_i)＝0，x_i表示一个样本；

对于第m棵cart树，针对每一个样本x_i计算其在当前轮损失函数对f_m-1(x_i)的一阶导数g_m,i和二阶导数h_m,i，并计算所有样本的一阶导数和G、二阶导数和H：

遍历所有分裂特征和每个特征的所有取值，并计算当前节点内样本被放入左右子树后，左子树的一、二阶导数和G_L、H_L，右子树的一、二阶导数和G_R、H_R：

根据上述结果更新最大分数：

判断score是否大于score的阈值，如果不是，则不对当前节点继续做分裂，则当前节点就是叶子节点了，根据

计算当前节点的输出值，其中，λ为叶子节点控制系数；如果是，则根据最优划分特征k_best和特征值k_best_value将当前节点划分成左右子树两部分，然后继续循环对这两个子树进行判断，是否可以继续分裂。

当前cart树学习结束后，根据如下公式更新一次强分类器：

当所有cart树都生成后，根据如下公式计算新样本的输出值；

其中，M表示当前模型中cart树的总棵树，J表示某棵树中叶子节点的个数，w_m,j表示某个叶子节点的输出值，I(x∈R_m,j)是指示函数。

其中，XGBoost模型可以是二分类模型，在本发明实施例中，多种传染病的预测，属于多分类问题，可以采用“1对1”方式应对。即先将目标样本集按传染病类别分为K组子样本集(每个子集只有1个传染病类别)，然后将这些子样本集两两组合，共形成

个子样本集(每个子集只含有2个传染病类别)，并在此基础上训练得到

个二分类器。由此，任何一个类别都会被用K-1次，即任何一个类别都会出现在K-1个二分器中。若存在待分类的样本，将该样本用这

个二分器进行判断，每个分类器都会给出1结果，总共有

个结果，但这些结果中很多是相同的，只要找出最多的那一类，就是该样本的类别。

在本发明实施例中，XGBoost模型的主要参数包括学习率、单棵树最大深度、节点分裂阈值、特征采样率、正则化系数等，可并行计算，可参考表3。

表3

S140：若所述目标样本集中样本的数量大于第二预设数量，将所述目标样本集中的样本转换为矩阵向量，并将所述矩阵向量输入到神经网络模型中进行训练，得到训练后的神经网络模型；其中，所述第二预设数量大于所述第一预设数量。

在本发明实施例中，XGBoost模型更适合特征与传染病标签之间有强相关关系的样本分类和预测，具备一定的特征选择功能，但无法深刻挖掘特征与特征、特征与传染病标签之间的深层隐含关系。XGBoost模型更适合常规传染病的预测分类，对于COVID-19这种新型传染病则表现不佳。为了准确捕捉新型传染病潜在特征，同时也为了进一步挖掘常规传染病可能的内在规律，可以采用神经网络模型对大规模样本集(样本的数量大于第二预设数量)和未知传染病进行分类预测。

在本发明实施例的一个实施方式中，可选的，所述目标样本集中的样本转换为矩阵向量，包括：将目标样本集中的样本通过梯度提升决策树GBTD模型转换为一维向量；基于格拉米角场将所述一维向量转换为二维矩阵向量。

其中，在目标样本集输入模型训练之前，通过GBDT模型对样本特征选择重组，一方面是为了初步提取关键核心特征，另一方面是为了得到多次交叉特征，最终降低模型复杂度，提高分类准确性。具体过程如下：

可以采用大规模样本集训练完整的GBDT模型，训练时可以利用前面训练XGBoost模型时的参数。再利用训练好的GBDT模型将目标样本集中的所有样本转化为由0和1组成的向量，即完成了特征的筛选、重组和多重交叉操作。

可选的，如图1b所示，若训练后的GBDT模型由50棵树组成，总叶子节点数为500。现在将样本1通过这50棵树进行分类，结果分别落在“五角星”标注的叶子节点中。现在为样本1生成一个长度与叶子节点总数相同的0向量，并将样本1落入的叶子节点对应的位置为1，最后得到了一个长度为512的向量[0,0,1,0,0,0,1,0,0,0,0,0,0,1,……]，该向量即是样本1通过GBDT模型转换的另一种表达式。由此，所有样本都将由原来的形式转换为0-1向量形式，可以使所有特征都在相同的数值水平，有利于做比较和同数量级的运算，避免了可能出现的大数吃小数问题，同时将类别型特征转换成了数值特征，满足神经网络相关方法的基本要求，还涉及到一定程度的多重交叉，有效揭示了隐含信息。

在本发明实施例中，经过GBDT模型处理的样本依然是一维向量，虽然可以直接利用一维卷积核进行处理，但交叉作用相比二维卷积仍然有差距。因此，需要进一步将一维向量转换成二维矩阵向量，可以既增加了显化隐含模式的可能性，又可以更加方便利用成熟的二维卷积方法。其中，基于格拉米角场转化为二维矩阵向量的具体方法如下：

首先，可以将一维向量的数据转换到极坐标系，即将数值看作夹角余弦值，将数值在向量中的序号看作半径，公式如下：

其中，x"_i是一维向量中的第i个值，N表示向量长度，转换后0≤φ_i≤π/2。进一步计算二维矩阵向量横坐标值gasf和二维矩阵向量纵坐标值gadf，将结果转化到直角坐标系下，具体可以参考如下公式进行转换：

对于长度为N的一维向量，转换后变成N×N的二维矩阵向量，当N太大时，为了提高效率，可以采用分段聚合近似(piecewise aggregate approximation，PAA，先将序列分段，然后通过平均将每个段内的子序列压缩为一个数值)先将向量的序列长度减小再转换。根据该方法，上述经过GBDT模型处理的样本1的一维向量可以表示成如图1c所示的500×500的二维矩阵向量，可以将其作为神经网络模型的输入，从而完成对神经网络模型的训练。

在本发明实施例中，可选的，神经网络模型可以是DenseNet模型，基本思想是建立前面所有层与当前层的直接密集连接，并通过在“通道”层面的拼接来实现特征重用。该网络结构相比其他网络结构具有缓解了梯度消失、加强特征传播、增强特征复用和减少了参数数量等特点。

在本发明实施例中，DenseNet模型可以是DenseNet-154模型，模型参数可以参考表4中的参数，模型结构可以参考图1d所示的模型结构。可选的，模型的主网络结构包括1个输入卷积层、5个密集层(密集连接层)、4个过渡层和1个全连接层。总网络层数(不包括池化层)为：1(输入卷积层)+(6+12+24+16+16)×2(密集层)+4(过渡层)+1(全连接层)＝154层。其中，密集层内部最小卷积单元由1个1×1和1个3×3的卷积核组成，在执行卷积操作前对输入数据分别做批标准化(Batch Normalization，BN)处理和线性整流(Rectified LinearUnit，ReLU)处理，即一个完整最小卷积单元形结构包括：BN+RuLu+1×1conv+BN+RuLu+3×3conv。其中，一个过渡层包括1×1的卷积层和2×2的平均池化层，具体结构为：BN+ReLu+1×1conv+2×2平均池化层。其中，增长率k＝32，即密集层内每一层的特征图增长数量为32。数据最后经过分类层(全连接层)，该层由1200D的全连接神经网络组成，输出结果由softmax函数转化成40个类别的分类概率结果。

表4

通过对上述DenseNet模型训练，可以得到训练好的DenseNet模型，从而可以通过该训练好的模型进行预测。

本发明实施例提供的技术方案，通过采集样本信息，并提取特征构建初步样本集，并对初步样本集中的特征通过特征工程进行处理，得到目标样本集，可以得到合适的训练样本集，可以提高训练速度，可以对模型进行精确训练；若目标样本集中样本的数量小于第一预设数量，采用目标样本集对树模型进行训练，若目标样本集中样本的数量大于第二预设数量，采用目标样本集对神经网络模型进行训练，可以使模型预测更加准确。

图2是本发明实施例提供的一种模型训练方法流程图，在本发明实施例中，可选的，所述方法可以包括：

若所述待检测样本对应所述树模型，将所述目标待检测样本输入到训练后的树模型中，得到传染病的第一预测结果；

若所述待检测样本对应所述神经网络模型中，将所述目标待检测样本输入到训练后的神经网络模型中，得到传染病的第二预测结果。

如图2所示，本发明实施例提供的技术方案包括：

S210：采集人员个体的样本信息，从人员个体的样本信息中提取特征，构建初步样本集；其中，所述初步样本集中的每个样本设置有传染病标签。

S220：对所述初步样本集中的特征通过特征工程进行处理，得到目标样本集。

S230：若所述目标样本集中样本的数量小于第一预设数量，将所述目标样本集输入到树模型中进行训练，得到训练后的树模型。

S240：若所述目标样本集中样本的数量大于第二预设数量，将所述目标样本集中的样本转换为矩阵向量，并将所述矩阵向量输入到神经网络模型中进行训练，得到训练后的神经网络模型；其中，所述第二预设数量大于所述第一预设数量。

S250：将传染病的待检测样本通过特征工程进行处理，得到目标待检测样本。

在本发明实施例中，待检测样本可以是一个或者多个样本，将待检测样本进行特征工程处理的具体方法可以参考上述实施例中对目标样本集中的样本进行特征工程处理的方法，两种情况下特征工程处理的方法相同。

S260：若所述待检测样本对应所述树模型，将所述目标待检测样本输入到训练后的树模型中，得到传染病的第一预测结果。

在本发明实施例中，可以基于需要预测的传染病的类别判断待检测样本所对应的模型，如果需要对待检测样本预测是否得传感病A，且树模型可以预测传感病A，则可以判断待检测样本对应树模型，若待检测样本对应树模型，则将待检测样本经过特征工程处理得到的目标待检测样本输入到训练后的树模型中，得到传染病的预测结果，作为第一预测结果。

S270：若所述待检测样本对应所述神经网络模型中，将所述目标待检测样本转换为目标矩阵向量，将所述目标矩阵向量输入到训练后的神经网络模型中，得到传染病的第二预测结果。

在本发明实施例中，如果需要对待检测样本预测是否得传感病B，且神经网络模型可以预测传感病B，则可以判断待检测样本对应神经网络模型，通过训练后的神经网络模型可以进行预测，得到预测结果，作为第三预测结果。

由此，通过将待检测样本经过特征工程处理，得到目标待检测样本，并将该目标待检测样本输入到训练后的树模型或者神经网络模型中，得到预测结果，可以提高计算效率，可以提高预测精度。

图3是本发明实施例提供的一种传染病预测方法流程图，应用于本发明实施例提供的模型训练方法所训练的模型进行预测，所述传染病预测方法可以由传染病预测装置来执行，所述装置可以由软件和/或硬件来实现。

如图3所示，本发明实施例提供的技术方案包括：

S310：将传染病的待检测样本通过特征工程进行处理，得到目标待检测样本。

S320：若所述待检测样本对应树模型，将所述目标待检测样本输入到训练后的树模型中，得到传染病的第一预测结果。

S330：若所述待检测样本对应神经网络模型中，将所述目标待检测样本输入到训练后的神经网络模型中，得到传染病的第二预测结果。

本发明实施例提供的技术方案，通过将待检测样本经过特征工程处理，得到目标待检测样本，并将该目标待检测样本输入到训练后的树模型或者神经网络模型中，得到预测结果，可以提高计算效率，可以提高预测精度。

图4是本发明实施例提供的一种传染病预测方法流程图，在本实施例中，可选的，所述方法还可以包括：

将传染病的待检测样本输入到贝叶斯模型中，得到传感病的第三预测结果；

若所述第一预测结果和所述第三预测结果的差异值小于预设差异值，或者第二预测结果和所述第三预测结果的差异值小于所述预设差异值，则将所述第一预测结果或者所述第二预测结果作为最终的预测结果；

若所述差异值大于预设差异值，则进行干预策略。

如图4所示，本发明实施例提供的技术方案包括：

S410：将传染病的待检测样本通过特征工程进行处理，得到目标待检测样本；

S420：若所述待检测样本对应树模型，将所述目标待检测样本输入到训练后的树模型中，得到传染病的第一预测结果；

S430：若所述待检测样本对应神经网络模型中，将所述目标待检测样本输入到训练后的神经网络模型中，得到传染病的第二预测结果。

其中，S410-S430可以参考上述实施例的介绍。

S440：将传染病的待检测样本输入到贝叶斯模型中，得到传感病的第三预测结果。

在本发明实施例中，贝叶斯模型可以提前进行训练。可选的，贝叶斯模型可以是朴素贝叶斯模型。通过贝叶斯模型进行预测的方法可以具体如下：

首先，计算某种疾病在所有人群中的感染率假设结果为0.1％(这个数据可以由统计得出)；再计算通过XGBoost模型或者DenseNet模型模型对于该疾病检测的准确率，假设结果为99％(即已知患病情况下，99％的可能性可以检查出阳性)；则未得病的正常人有1％的可能性被诊断为阳性(因为受检测手段限制，患病的人可能结果显示没病，而健康的人被诊断为有病)。

设“患病＝A事件”，“检测呈阳性＝B事件”，那么经过XGBoost模型或者DenseNet模型预测得的疾病，其真正得病的概率为P(A|B)，根据贝叶斯公式有：

其中，P(A)＝0.1％，是计算得出的某人患某种传染病的概率；P(B|A)＝99％，是计算得出的患病且被检测为阳性的概率；P(B)表示检测呈阳性的概率(包括两种情况：“患病，同时被检测为阳性”，以及“未患病，但被检测为阳性”)，这个概率可以根据已知条件计算得出，根据全概率公式：

这里

表示不患病的概率，

表示正常人被检测为阳性的概率，代入公式可得：

P(B)＝0.1％*99％+99.9％*1％＝0.01098

将三个概率代入贝叶斯公式得：

由此，通过XGBoost模型或者DenseNet模型预测的某种疾病，其真实得病的概率为9.01％，这一结果对预测系统(包含XGBoost模型或者DenseNet模型)的输出做了进一步限制，提高了严谨性。随着数据量的不断增加，各概率越来越趋于真实值，最终的计算结果将越来越准确。

S450：若所述第一预测结果和所述第三预测结果的差异值小于预设差异值，或者第二预测结果和所述第三预测结果的差异值小于所述预设差异值，则将所述第一预测结果或者所述第二预测结果作为最终的预测结果。

在本发明实施例中，如果通过XGBoost模型或者DenseNet模型预测得到的结果与贝叶斯模型得到的预测结果之间的差异值小于预设差异值，则说明差异较小，则将通过XGBoost模型或者DenseNet模型预测得到的结果作为最终结果。

S460：若所述差异值大于预设差异值，则进行干预策略。

在本发明实施例中，如果通过XGBoost模型或者DenseNet模型预测得到的结果与贝叶斯模型得到的预测结果之间的差异值大于预设差异值，则表明差异较大，则进行干预策略。其中，干预策略可以根据实际情况进行选择，例如，可以进行人工进行干预。

由此，通过经过XGBoost模型和DenseNet模型预测传染病分类的结果存在一定的风险，为了降低这种风险，可以增加了朴素贝叶斯模型进行检测，即从逆概率的角度分析一人员个体被预测得某种传染病时的真正得病的概率，两者相结合可以提高综合正确率。

为了更清楚的表述本发明实施例提供的技术方案，如图5a所示，本发明实施例提供的方案可以包括如下步骤：

S510：采集人员个体的样本信息，从人员个体的样本信息中提取特征，构建初步样本集；其中，所述初步样本集中的每个样本设置有传染病标签。

S520：对所述初步样本集中的特征通过特征工程进行处理，得到目标样本集。

S530：若所述目标样本集中样本的数量小于第一预设数量，将所述目标样本集输入到树模型中进行训练，得到训练后的树模型。

S540：若所述目标样本集中样本的数量大于第二预设数量，将所述目标样本集中的样本转换为矩阵向量，并将所述矩阵向量输入到神经网络模型中进行训练，得到训练后的神经网络模型；其中，所述第二预设数量大于所述第一预设数量。

S550：将传染病的待检测样本通过特征工程进行处理，得到目标待检测样本。

S560：若所述待检测样本对应所述树模型，将所述目标待检测样本输入到训练后的树模型中，得到传染病的第一预测结果。

S570：若所述待检测样本对应所述神经网络模型中，将所述目标待检测样本转换为目标矩阵向量，将所述目标矩阵向量输入到训练后的神经网络模型中，得到传染病的第二预测结果。

S580：将传染病的待检测样本输入到贝叶斯模型中，得到传感病的第三预测结果。

S590：若所述第一预测结果和所述第三预测结果的差异值小于预设差异值，或者第二预测结果和所述第三预测结果的差异值小于所述预设差异值，则将所述第一预测结果或者所述第二预测结果作为最终的预测结果。

S591：若所述差异值大于预设差异值，则进行干预策略。

S510-S591步骤可以参考上述实施例中的介绍。其中，本发明实施例提供的方法还可以参考图5b所示的方法。

图6是本发明实施例提供的一种模型训练装置结构框图，如图6所示，所述装置包括：构建模块610、特征工程模块620、第一训练模块630和第二训练模块640。

其中，构建模块610，用于采集人员个体的样本信息，从人员个体的样本信息中提取特征，构建初步样本集；其中，所述初步样本集中的每个样本设置有传染病标签；

特征工程模块620，用于对所述初步样本集中的特征通过特征工程进行处理，得到目标样本集；

第一训练模块630，用于若所述目标样本集中样本的数量小于第一预设数量，将所述目标样本集输入到树模型中进行训练，得到训练后的树模型；

第二训练模块640，用于若所述目标样本集中样本的数量大于第二预设数量，将所述目标样本集中的样本转换为矩阵向量，并将所述矩阵向量输入到神经网络模型中进行训练，得到训练后的神经网络模型；其中，所述第二预设数量大于所述第一预设数量。

可选的，所述对所述初步样本集中的特征通过特征工程进行处理，得到目标样本集，包括：

将所述初步样本集中缺失的特征值进行处理，得到第一中间样本集；

将所述第一中间样本集中的特征值进行归一化和标准化处理，得到第二中间样本集；

在所述第二中间样本集中，在样本的特征中通过方差法和互信息法选择特征，并在选择出的特征中通过相关系数法筛选特征，形成目标样本集。

可选的，所述将所述初步样本集中缺失的特征值进行处理，包括：

在所述初步样本集中，若目标特征的特征值缺失率达到预设阈值，将所述目标特征在所述初步样本集中进行删除；

在所述初步样本集中，若目标特征的特征值缺失率没有达到所述预设阈值，基于相关系数法确定所述目标特征的特征值。

可选的，所述基于相关系数法确定所述目标特征的特征值，包括：

从所述初步样本集中，筛选出当前特征的特征值未缺失的样本，并形成第一子样本集；

将所述当前特征在所述第一子样本集中进行删除，形成第二子样本集；

确定当前特征的特征值的未缺失样本与所述第二子样本集中每个样本的相关系数，确定相关系数超过预设系数阈值的样本，并作为目标样本；

在所述第一子样本集中查找所述目标样本的当前特征的特征值；

如果查找到的特征值为连续值，则将平均值作为所述目标样本的当前特征的特征值；

如果查找到的特征值为离散值，则取数量最多的特征值作为所述目标样本的当前特征的特征值。

可选的，所述在样本的特征中通过方差法和互信息法选择特征，并在选择出的特征中通过相关系数法筛选特征，包括：

确定样本的各个特征的方差；

确定各个特征与传染病类别集合之间的相互信息值，筛选出相互信息值大于预设信息阈值，且方差均大于预设方差阈值的特征；

在筛选出的特征中，通过皮尔逊相关系数法进行再次特征筛选。

可选的，所述目标样本集中的样本转换为矩阵向量，包括：

将所述目标样本集中的样本通过梯度提升决策树GBTD模型转换为一维向量；

基于格拉米角场将所述一维向量转换为二维矩阵向量。

可选的，特征工程模块，还用于将传染病的待检测样本通过特征工程进行处理，得到目标待检测样本；

所述装置还包括：

第一预测模块，用于若所述待检测样本对应所述树模型，将所述目标待检测样本输入到训练后的树模型中，得到传染病的第一预测结果；

第二预测模块，用于若所述待检测样本对应所述神经网络模型中，将所述目标待检测样本输入到训练后的神经网络模型中，得到传染病的第二预测结果。

可选的，所述树模型为XGboost模型，所述神经网络模型为DenseNet模型。

可选的，DenseNet模型包括：输入卷积层、密集层、过渡层和全连接层。

上述装置可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

图7是本发明实施例提供的一种传染病预测装置结构框图，如图7所示，所述装置包括：特征工程模块710、第一预测模块720和第二预测模块730。

其中，特征工程模块710，用于将传染病的待检测样本通过特征工程进行处理，得到目标待检测样本；

第一预测模块720，用于若所述待检测样本对应树模型，将所述目标待检测样本输入到训练后的树模型中，得到传染病的第一预测结果；

第二预测模块730，用于若所述待检测样本对应神经网络模型中，将所述目标待检测样本输入到训练后的神经网络模型中，得到传染病的第二预测结果。

可选的，所述装置还包括第三预测模块，用于：

将所述待检测样本输入到贝叶斯模型中，得到传感病的第三预测结果；

若所述第一预测结果和所述第三预测结果的差异值小于预设差异值，或者所述第二预测结果和所述第三预测结果的差异值小于所述预设差异值，则将所述第一预测结果或者所述第二预测结果作为最终的预测结果；

若所述差异值大于所述预设差异值，则进行干预策略。

图8是本发明实施例提供的一种设备结构示意图，如图8所示，该设备包括：

一个或多个处理器810，图8中以一个处理器810为例；

存储器820；

所述设备还可以包括：输入装置830和输出装置840。

所述设备中的处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。

存储器820作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种模型训练方法对应的程序指令/模块(例如，附图6所示的构建模块610、特征工程模块620、第一训练模块630和第二训练模块640)，或者本发明实施例中的一种传染病预测方法对应的程序指令/模块(例如，附图7所示的特征工程模块710、第一预测模块720和第二预测模块730)。处理器810通过运行存储在存储器820中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种模型训练方法，即：

或者执行本发明实施例提供的一种传染病预测方法，即：

存储器820可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器820可选包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种模型训练方法：

或者执行本发明实施例提供的一种传染病预测方法，即：

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述初步样本集中的特征通过特征工程进行处理，得到目标样本集，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述初步样本集中缺失的特征值进行处理，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于相关系数法确定所述目标特征的特征值，包括：

5.根据权利要求2所述的方法，其特征在于，所述在样本的特征中通过方差法和互信息法选择特征，并在选择出的特征中通过相关系数法筛选特征，包括：

确定样本的各个特征的方差；

6.根据权利要求1所述的方法，其特征在于，所述目标样本集中的样本转换为矩阵向量，包括：

基于格拉米角场将所述一维向量转换为二维矩阵向量。

7.根据权利要求1所述的方法，其特征在于，还包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述树模型为XGboost模型，所述神经网络模型为DenseNet模型。

9.根据权利要求8所述的方法，其特征在于，DenseNet模型包括：输入卷积层、密集层、过渡层和全连接层。

10.一种传染病预测方法，其特征在于，包括：

11.根据权利要求10所述的方法，其特征在于，包括：

若所述差异值大于所述预设差异值，则进行干预策略。

12.一种模型训练装置，其特征在于，包括：

13.一种传染病预测装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11任一项所述的方法。