CN111312403A

CN111312403A - 基于实例和特征共享级联的疾病预测系统、设备及介质

Info

Publication number: CN111312403A
Application number: CN202010070744.6A
Authority: CN
Inventors: 王红; 赵丽丽; 虞凤萍; 王倩; 王彩雨; 韩书; 李威; 庄鲁贺; 张慧
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-19
Anticipated expiration: 2040-01-21
Also published as: CN111312403B

Abstract

本公开公开了基于实例和特征共享级联的疾病预测系统、设备及介质，其中系统，包括：待预测数据集获取模块，其被配置为：获取待预测患者的所有疾病特征；待预测数据集预测模块，其被配置为：将待预测患者的所有疾病特征，输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中，输出待预测患者所患疾病是否为慢性阻塞性肺疾病。

Description

基于实例和特征共享级联的疾病预测系统、设备及介质

技术领域

本公开涉及疾病辅助诊断技术领域，特别是涉及基于实例和特征共享级联的疾病预测系统、设备及介质。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

数据挖掘中，样本数据越多，其分析、计算结果越可靠。而对于某些样本容量较小的小样本数据，如何有效利用小样本数据的潜在信息进行分析，并保证分析结果的有效性就尤为重要。尤其是在医学领域，采取适当的方法对数据稀少的疾病进行准确预测有利于提高临床诊断效率。慢性阻塞性肺疾病(COPD)是一种常见的以持续气流受限为特征的慢性呼吸道疾病，由于大气污染及吸烟人数增加等因素，COPD的发病率逐年提升，成为仅次于高血压、糖尿病的中国第三大常见慢性病，有效的预测模型在慢性呼吸道疾病的诊治上扮演着重要角色。本公开会以慢阻肺疾病为例实现对小样本数据疾病的准确预测。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

目前，一般的数据挖掘方法，特别是基于深度学习的方法都需要大量样本，这些方法不适合对小样本数据的疾病分析与诊断。

目前针对小样本数据疾病预测系统的诊断精度不高。

发明内容

为了解决现有技术的不足，本公开提供了基于实例和特征共享级联的疾病预测系统、设备及介质；

第一方面，本公开提供了基于实例和特征共享级联的疾病预测系统；

基于实例和特征共享级联的疾病预测系统，包括：

待预测数据集获取模块，其被配置为：获取待预测患者的所有疾病特征；

待预测数据集预测模块，其被配置为：将待预测患者的所有疾病特征，输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中，输出待预测患者所患疾病是否为慢性阻塞性肺疾病。

第二方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述系统中各个模块的功能。

第三方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述系统中各个模块的功能。

与现有技术相比，本公开的有益效果是：

1、能够利用该模型预测待预测疾病是否是慢性阻塞性肺疾病，是辅助医生进行诊断治疗的系统。

2、利用病人共有实例和特征，使用实例和特征共享级联方法对小样本数据的疾病诊断系统尚未出现。

3、本公开可以减少诊断整体误差，实现更高的分类准确率。使用实例共享级联学习的方法初始化训练数据的权值分布，获得与目标域更为接近的实例数据；

4、通过特征共享级联学习方法，传递相关数据的共享特征子集；

5、引入平衡参数λ，调整特征共享级联模块输出特征的边缘概率分布和条件概率分布，对两类概率分布融合，并根据参数λ，预测源域和目标域的相似性。

6、构造预训练的基于实例和特征共享级联模型，使用弹性网络对模型进行优化，并对模型进行测试，且该模型具有结构简单、高效的特点。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例一的方法流程图；

图2为本公开实施例一的经跨域过滤特征算法后的共现特征图；

图3为本公开实施例一的准确率比较图；

图4为本公开实施例一的F1比较图；

图5为本公开实施例一的准确率对比图；

图6为本公开实施例一的AUC对比图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一，本实施例提供了基于实例和特征共享级联的疾病预测系统；

基于实例和特征共享级联的疾病预测系统，包括：

作为一个或多个实施例，如图1所示，已经训练好的基于特征和实例迁移的平衡概率分布模型的训练模块，包括：

训练集获取单元，其被配置为：获取第一数据集和第二数据集；所述第一数据集为慢性阻塞性肺疾病的前期疾病数据集；所述第二数据集为已患和未患慢性阻塞性肺疾病的疾病数据集；所述第二数据集为小样本数据集；

基于特征和实例迁移的平衡概率分布模型构建单元，用于构建基于特征和实例迁移的平衡概率分布模型，所构建的基于特征和实例迁移的平衡概率分布模型(EquilibriumProbability Distribution,BPD)包括：依次串联的实例共享级联单元、特征共享级联单元和特征共享级联优化单元；

实例共享级联单元，其被配置为：从第一数据集中筛选出统计次数最多的N种疾病名称；

特征共享级联单元，其被配置为：筛选出第一数据集与第二数据集疾病特征距离最近的M种疾病特征；

特征共享级联优化单元，其被配置为：根据N种疾病名称和M种疾病特征，计算第一数据集与第二数据集之间的平衡概率分布值；

预测单元，其被配置为：根据平衡概率分布值与设定阈值的比较，输出第二数据集中待预测疾病是否为慢性阻塞性肺疾病；

验证单元，其被配置为：将预测单元的预测结果和预测单元的当前待预测疾病对应的特征均输入到弹性网络中，弹性网络输出损失函数值，如果损失函数值达到最小值，则表示基于特征和实例迁移的平衡概率分布模型训练结束；否则，继续对基于特征和实例迁移的平衡概率分布模型进行训练。

作为一个或多个实施例，第一数据集被视为源域数据集，第二数据集被视为目标域数据集。

作为一个或多个实施例，小样本，例如样本数量少于1000条。

作为一个或多个实施例，慢性阻塞性肺疾病的前期疾病数据集，包括：慢性支气管炎、上气道阻塞综合症或肺气肿等。

作为一个或多个实施例，所述训练集获取单元之后，所述基于特征和实例迁移的平衡概率分布模型构建单元之前，还包括：预处理单元，所述预处理单元，用于对第一数据集和第二数据集均进行预处理。

作为一个或多个实施例，所述预处理单元包括：

数据转换子单元，用于将文字数据转换为数字数据；

数据筛选子单元，用于将噪声数据剔除，噪声数据是指与待预测疾病数据不相关的数据；数据中的测试号、住院号、姓名、种族、科别与本公开无关，是非需求数据，因此将其直接删除掉；

数据填充子单元，用于对缺失数据进行填充；对筛选出的重要生理指标的缺失值进行填充；

数据归一化子单元，用于对数据进行归一化处理。对原始的FEV1/FVC值归一化到0～1范围内，进一步提高计算精度。

作为一个或多个实施例，实例共享级联单元，其被配置为：将的第一数据集中疾病名称相同的患者记录进行统计，按照统计结果从多到少进行排序，排序靠前的N种疾病被赋予高权重；最后得到高权重对应的N种疾病名称；

作为一个或多个实施例，所述特征共享级联单元，其被配置为：

对第一数据集和第二数据集的疾病特征均映射到同一个特征空间中，计算特征之间的距离，如果第一数据集的疾病特征a与第二数据集的疾病特征b距离小于设定阈值，则表示两个特征相似，对第一数据集的疾病特征a赋予设定的高权重；否则，对第一数据集的疾病特征a赋予设定的低权重；最后得到赋予权重后的若干个疾病特征；

利用近似马尔科夫毯算法对赋予权重后的所有疾病特征进行过滤，剔除不相关特征和冗余特征，得到过滤后的M种特征。图2为本公开实施例一的经跨域过滤特征算法后的共现特征图。

作为一个或多个实施例，特征共享级联优化单元，其被配置为：

计算第一数据集中N种疾病名称的每种疾病名称c的M种特征，与第二数据集中疾病的M种特征的边缘概率分布和条件概率分布；对边缘概率分布和条件概率分布进行加权求和，得到平衡概率分布值。

作为一个或多个实施例，所述预测单元，其被配置为：

如果平衡概率分布值大于设定阈值，则表示疾病名称c对应的疾病，是慢性阻塞性肺疾病；如果平衡概率分布值小于等于设定阈值，则表示疾病名称c对应的疾病，不是慢性阻塞性肺疾病。

作为一个或多个实施例，所述实例共享级联单元，其被配置为：实例作为桥梁连接起不同的域，对不同类别的实例进行学习，找到共同或相似的实例，实现实例共享，并且这个方法可以迭代进行，实现级联实例共享学习。比如，两类疾病数据集中患者甲与患者乙中有共同的实例病症“慢性支气管炎”，将“慢性支气管炎”赋予高权重进行迁移；在患者乙与患者丙中有“上气道阻塞综合征”，将“上气道阻塞综合征”赋予高权重进行迁移，以此类推进行逐级的迁移学习。

作为一个或多个实施例，所述特征共享级联单元，其被配置为：使用跨域过滤特征方法在源域和目标域数据集中获取共同的跨领域的特征集，在获得的特征集中将特征进行变换，对变换到同一空间的不同特征赋予不同的权重，即对源域和目标域中的共同特征赋予高权重，源域中与目标域无关的特征则被赋予的权重较低，同时采用最大均值差异方法减小不同域间的分布距离。

作为一个或多个实施例，所述对第一数据集和第二数据集的疾病特征均映射到同一个特征空间中，是利用多维标度法将特征映射到同一个特征空间。

利用多维标度法将特征映射到同一维度后构建特征空间，在该空间里保留了特征间的差异度，发现特征之间的关系。

进一步地，利用多维标度法将特征映射到同一个特征空间，具体步骤包括：

特征空间中每个特征都有相近分布的表示，记为：

X＝(X_s,X_T)＝(x_s1,x_s2,…,x_sm,x_t1,x_t2,…,x_tm) (6)

其中，X_s为源域特征集，X_T为目标域特征集，n为源域特征数，m为目标域特征数。

计算多个特征之间的距离

发现多个特征之间的关系，计算公式为：

作为一个或多个实施例，所述利用近似马尔科夫毯算法对赋予权重后的所有疾病特征进行过滤，剔除不相关特征和冗余特征，是利用对称不确定性定义的近似马尔科夫毯过滤不相关特征和冗余特征，选出相关特征集。近似马尔科夫毯是启发式方法，保留通过对称不确定性的相对较弱的相关性特征。

进一步地，对特征进行过滤和冗余性分析，具体步骤包括：

计算特征x的信息熵E(x)，计算公式为：

E(x)＝-∑_iP(x_i)log₂P(x_i) (8)

计算类别y的信息熵E(y)，计算公式为：

E(y)＝-∑_iP(y_i)log₂P(y_i) (9)

计算条件熵E(x|y)，计算公式为：

E(x|y)＝-∑_jP(y_j)∑_iP(x_i|y_j)log₂P(x_i|y_j) (10)

计算不同特征的互信息MI(x|y)，互信息描述了特征含有的信息量及为了得知特征空间X的信息而使得类别空间Y的信息不确定性减少的程度，计算公式为：

MI(y|x)＝E(x)-E(x|y)(11)

计算最大互信息M_nax(x|y)，筛选重要特征，计算公式为：

计算特征x和类别y的对称不确定性EC(x|y)，计算公式为：

给定一个阈值μ，若EC(x|y)≥μ，则x对于y来说是相关性高的特征，应该被保留；反之x应该被删除。

进一步地，所述对源域和目标域中过滤和剔除冗余数据的共现特征赋予高权重，对相似度低的特征赋予低权重，以减小域间分布差异，其中高权重与低权重是相对而言的。高权重，例如：0.6、0.8、0.9；低权重，例如：0.2、0.3、0.4等。

作为一个或多个实施例，对边缘概率分布和条件概率分布进行加权求和，得到平衡概率分布值，步骤包括：

计算特征共享级联模块输出特征的边缘概率分布和条件概率分布，引入平衡参数λ动态的调整两种概率分布，对两类概率分布融合，

平衡概率分布定义为：

其中，P(x_s)、P(x_t)为边缘概率分布，Q(y_s|x_s)、Q(y_t|x_t)为条件概率分布；平衡参数λ∈[0,1]，对边缘概率分布和条件概率分布起到权重调节的作用。

作为一个或多个实施例，边缘概率分布的计算步骤包括：

源域和目标域特征边缘概率计算：公式(1)中，MMD(Ps,Pt)表示源域和目标域特征的边缘概率分布，引入核映射定义为公式(2)：

n为源域特征数，源域Ds的特征总数为s＝1，2，...n；m为目标域的特征数，目标域Dt的特征总数为t＝1，2，...m；，M0是MMD矩阵，定义如公式(3)：

作为一个或多个实施例，条件概率分布的计算步骤包括：

源域和目标域特征条件缘概率计算：式(1)中，MMD(Q(ys|xs),Q(yt|xt))是源域和目标域特征的条件概率分布，引入核映射后为公式(4)：

n(y)表示源域中第y类的特征个数，m(y)表示目标域中第y类的特征个数；Ds(y)代表源域中属于类别y的特征集合，Dt(y)代表目标域中属于类别y的特征集合；适配类别矩阵的Mc计算如下:

作为一个或多个实施例，对预处理后的源域数据中不同患者间相同的疾病实例进行共享级联学习，首先初始化训练数据的权值分布，然后使用具有权值分布的数据集进行学习。

作为一个或多个实施例，所述从预处理后的源域和目标域数据中提取若干个特征；如气促、咳嗽、咳痰、呼吸困难、反复呼吸道感染等、呼吸急促等；采用跨域过滤特征算法来获取共同的跨领域的特征集。

平衡参数λ趋近于1时，源域和目标域有较高的相似性；λ趋近于0时，源域和目标域有较大的差异性。在本文所使用的COPD数据集中，λ＝0.6时，取得的适配效果最好。

利用弹性网络进行正则化约束，进一步提高模型的学习性能。

弹性网络的目标函数如下式：

其中，y_i代表第i个疾病类别的预测结果；x_i是第i个疾病的所属特征；α是

估计回归系数，μ是最小化均方误差；正则化项P_β(α)为：

其中β∈[0,1]，当β＝0时，表示为岭回归；当β＝1时，表示为Lasso回归，此处选择使用α作为交叉验证。

将前一次得到的类别标签作为下一次识别的伪标签，而参与迁移的特征不会改变，迭代t次后，函数最小值不再变化，即达到模型的优化，说明已获得最优值。

y是疾病的类别空间集，共有j个疾病类别；y(x)为特征x预测类别，z(x)为特征x的真实类别。在医学数据集中，通常是采用精度作为评估算法多分类性能的评价准则，计算如下：

引入准确率，召回率和F1值作为评价本文模型的指标。

以COPD为例，目标域的任一样本经基于特征和实例迁移的平衡概率预测模型后有4中输出结果：

COPD样本被正确地预测为COPD疾病，记为TP；

非COPD样本被错误地预测为COPD疾病，记为FP；

COPD样本被错误地预测为非COPD疾病，记为FN；

非COPD样本被正确地划分为非COPD样本，记为TN。

准确率(precision)：在所有被预测为COPD的样本中，被正确划分的样本所占的比例。

precision＝TO/(TP+FP)(17)

召回率(recall)：在所有COPD样本中，被正确预测的样本所占的比例。

recall＝TP/(TP+FN)(18)

F1：通过准确率和召回率，可以全面反映方法实际性能的优劣。

为了验证本公开模型的有效性，将本公开的模型与TraAdaBoost算法、迁移成分分析算法(Transfer Component Analysis,TCA)和经典迁移学习方法多任务学习算法(Multi-Task Learning,MTL)在准确率和F1值上进行了比较，结果如图3，图4所示。除了与其他迁移学习算法比较，我们还与J.M.Marin和Morten H Jensen提出的方法进行了比较，如图5、图6所示。

实施例二，本实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一所述系统中各个模块的功能。

实施例三，本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述系统中各个模块的功能。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于实例和特征共享级联的疾病预测系统，其特征是，包括：

2.如权利要求1所述的系统，其特征是，已经训练好的基于特征和实例迁移的平衡概率分布模型的训练模块，包括：

基于特征和实例迁移的平衡概率分布模型构建单元，用于构建基于特征和实例迁移的平衡概率分布模型，所构建的基于特征和实例迁移的平衡概率分布模型，包括：依次串联的实例共享级联单元、特征共享级联单元和特征共享级联优化单元；

3.如权利要求2所述的系统，其特征是，所述训练集获取单元之后，所述基于特征和实例迁移的平衡概率分布模型构建单元之前，还包括：预处理单元，所述预处理单元，用于对第一数据集和第二数据集均进行预处理。

4.如权利要求3所述的系统，其特征是，所述预处理单元包括：

数据转换子单元，用于将文字数据转换为数字数据；

数据筛选子单元，用于将噪声数据剔除，噪声数据是指与待预测疾病数据不相关的数据；

数据填充子单元，用于对缺失数据进行填充；对筛选出的重要生理指标的缺失值进行填充。

5.如权利要求2所述的系统，其特征是，实例共享级联单元，其被配置为：将的第一数据集中疾病名称相同的患者记录进行统计，按照统计结果从多到少进行排序，排序靠前的N种疾病被赋予高权重；最后得到高权重对应的N种疾病名称。

6.如权利要求2所述的系统，其特征是，所述特征共享级联单元，其被配置为：

利用近似马尔科夫毯算法对赋予权重后的所有疾病特征进行过滤，剔除不相关特征和冗余特征，得到过滤后的M种特征。

7.如权利要求2所述的系统，其特征是，特征共享级联优化单元，其被配置为：

计算第一数据集中N种疾病名称的每种疾病名称c的M种特征，与第二数据集中的M种特征的边缘概率分布和条件概率分布；对边缘概率分布和条件概率分布进行加权求和，得到平衡概率分布值。

8.如权利要求2所述的系统，其特征是，所述预测单元，其被配置为：

如果平衡概率分布值大于设定阈值，则表示疾病名称c对应的疾病，是慢性阻塞性肺疾病；如果平衡概率分布值小于等于设定阈值，则表示疾病名称c对应的疾病，不是慢性阻塞性肺疾病；

所述对第一数据集和第二数据集的疾病特征均映射到同一个特征空间中，是利用多维标度法将特征映射到同一个特征空间。

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1所述系统中各个模块的功能。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1所述系统中各个模块的功能。