CN114093445A

CN114093445A - 一种基于偏多标记学习的患者筛选标记方法

Info

Publication number: CN114093445A
Application number: CN202111369388.9A
Authority: CN
Inventors: 王进; 陆志; 周继聪; 孙开伟; 杜雨露
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-02-25
Anticipated expiration: 2041-11-18
Also published as: CN114093445B

Abstract

本发明属于偏多标记学习、数据挖掘领域，具体涉及一种基于偏多标记学习的患者筛选标记方法；该方法包括：获取患者的病理样本数据，将病理样本数据输入到训练好的基于偏多标记学习的医疗文本语义信息大数据预测模型中，预测患者的患病类型和患病概率，根据患者的患病类型和患病概率对患者进行标记；本发明对分类类别不平衡性问题进行进一步的处理，可以预测到更精准的标记结果，病人可根据此标记结果进行健康管理，医生也可以根据此结果对病人进行下一步诊断，具有良好的社会效益和经济效益。

Description

一种基于偏多标记学习的患者筛选标记方法

技术领域

本发明属于偏多标记学习、数据挖掘领域，具体涉及一种基于偏多标记学习的患者筛选标记方法。

背景技术

现实世界难以直接获取大量的标记数据，而待标记数据的庞大规模及专业知识的匮乏往往导致人工标注代价十分昂贵。比如，医学图像标注工作需要丰富的领域知识；事实上，在现实世界中，弱监督信息比强监督信息更容易获取，同时，在学习阶段弱监督信息比无监督信息更具方向性。偏多标记学习逐渐成为一种重要的弱监督机器学习框架，在偏多标记学习中，每个示例对应一个候选标记集合，多个真实标记隐藏在候选标记集合中。偏多标记学习的任务就是在监督信息不明确的情况下推导出由示例到其真实标记的映射关系。

偏多标记学习任务广泛地存在于现实世界中，比如医疗诊断中，医生很容易排除病人患某些疾病的可能但却难以从若干相似疾病中确诊，对于一个因感冒导致睡眠不足而头疼的患者，医生可以初步判定导致其头疼的主要原因是感冒，发烧或者睡眠不足，即此时头痛对应的候选标记集合是{感冒，发烧，睡眠不足}，但其真实原因需要进一步通过病理文本语义信息进行诊断。由于导致人患病的原因有很多，每个患者有各自的患病原因，这导致了病理文本中类别不平衡问题。类别不平衡也叫数据倾斜，是指分类任务中不同类别训练样例数目差别很大的情况，现有技术中，类别不平衡的样本会导致训练模型侧重样本数目较多类别，而忽略样本数目较少类别，这样模型的泛化能力就会受到影响，从而影响诊断结果的精确度。由于类别不平衡问题的出现导致分类器会大大地增加因数据不平衡性而无法满足分类要求的概率，因此如何在构建分类模型之前，对分类类别不平衡性问题进行进一步的处理以获得更精准的诊断结果是个急需解决的问题。

发明内容

有鉴于此，本发明提出了一种基于偏多标记学习的患者筛选标记方法，该方法包括：获取患者的病理样本数据，将病理样本数据输入到基于偏多标记学习的医疗文本语义信息大数据预测模型中，预测患者的患病类型和患病概率，根据患者的患病类型和患病概率对患者进行标记；

采用基于偏多标记学习的医疗文本语义信息大数据预测模型对病理样本数据进行处理的过程为：

S1：对病理样本数据进行预处理，得到病理样本数据对应的候选标记集；预处理包括对病理样本数据进行数据缺失处理和数据类型转换；

S2：提取预处理后的数据中的类别不平衡医疗文本语义信息，根据类别不平衡医疗文本语义信息构建偏多标记候选数据集；

S3：对偏多标记候选数据集进行网格聚类操作，得到每个检查项目对应的簇；

S4：采用改进EM算法计算每个簇的类后验概率；

S5：将所有类后验概率输入到朴素贝叶斯网格，获得融合后的最终类后验概率，最终类后验概率为该患者患此病的概率；

S6：计算所有类后验概率的联合概率，根据联合概率计算类节点后验概率；根据后验概率最大准则对类节点后验概率进行分类，得到预测的患者患病类别。

进一步的，对病理样本数据进行数据缺失处理包括：根据患者病理样本数据中无缺失值的n个样本点构建一条光滑的曲线并使曲线通过所有的样本点；将含有缺失值的样本所对应的属性点x带入曲线，获得样本中所缺失数据的近似值；将缺失数据的近似值带入到样本数据中，扩充缺失的数据；曲线表示为：

其中，y_i表示根据第i个样本点确定的曲线函数，x_i表示第n个属性点x的坐标，x_j表示第n-1个属性点x的坐标。

进一步的，对病理样本数据进行数据类型转换包括：将病理样本数据转换为对应候选标记集合的q维二值向量Bⁿ,转换公式为：

其中，m表示维数，n表示第n个样本，

表示第n个样本的维数来自于第m维，q表示最大维数，λ_m表示维数m所表示的数据集合，S表示全部数据集合。

优选的，构建偏多标记候选数据集的过程包括：

S1：根据k近邻加权聚合算法求解患者的病理样本所对应的医疗文本语义信息中每个检查项目的置信度向量；

S2：根据置信度向量对候选标记集进行消歧操作，得到多类消歧数据集；

S3：对多类消歧数据集进行类别平衡处理，得到偏多标记数据集。

进一步的，对多类消歧数据集进行类别平衡处理包括：

S1：对多类消歧数据集中所有类别集合的大小进行阈值约束；

S2：对进行阈值约束后的多类消歧数据集中所有类别集合设定类编码，根据类编码结合扰动过采样技术对进行阈值约束后的所有类别集合进行采样，采样公式为：

其中，

表示生成的候选标记集合，λ_m表示维数m所表示的数据结合，

表示维数m所表示的类别集合，m表示维数，q表示最大维数，

表示二值向量，

表示第n+1个样本的二值向量，

表示第n-1个样本的二值向量，x_r表示第n+1个样本的候选标记集合，x_i表示第n-1个样本的候选标记集合，ω表示特征空间新示例的生成维度；

S3：根据采样操作扩充偏多标记数据集，扩充公式为：

其中，

表示通过采样操作所扩充的偏多标记数据集，

表示样本点。

优选的，对偏多标记候选数据集进行网格聚类操作包括：将偏多标记数据集中每一个检查项目映射到网格单元中；依次扫描每个检查项目的对应的网格单元，将每个检查项目对应的每个网格单元中的数据对象个数记为Q；设定的密度阈值，将数据对象个数Q与设定的密度阈值进行比较，将数据对象个数高于密度阈值的网格单元作为高密度网格单元，低于密度阈值的网格单元作为低密度网格单元；删除低密度网格单元中的数据对象，找出高密度网格单元数据对象和与之相邻的高密度网格单元数据对象，并分别计算两者的相似度和相异度，当相似度大于相似度阈值时则将两者作为一个簇，并对簇值加一，当簇值达到簇阈值时输出簇。

优选的，采用改进EM算法计算每个簇的类后验概率包括：

根据香农熵编码准则，得到子高斯的函数值表达式；

设定每个簇的子高斯数存在范围，采用子高斯消除策略消除对混合分布影响最小的子高斯，得到需要的子高斯及其最优分布；根据子高斯的函数值表达式对最优分布的子高斯进行参数估计，得到子高斯参数；

根据每个簇的所有子高斯及其参数依次计算每个簇中每个子高斯的累积对数似然函数值，将累积对数似然函数值转换为类后验概率；

根据当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数更新类后验概率，得到每个簇的类后验概率。

进一步的，子高斯参数的公式为：

其中，ω表示权重，μ表示均值向量，μ_i表示第i个子高斯的均值向量，∑表示协方差矩阵，T表示维度矢量，i表示子高斯个数，x_t表示子高斯数据集合，λ表示模型参数集合。

进一步的，计算累积对数似然函数值的公式为：

其中，x(t)表示全部数据集合，ξ表示子高斯i的先验概率，e表示子高斯个数，φ表示子高斯i的参数。

进一步的，所有类后验概率的联合概率为：

其中，x_r表示患者患r病的概率，a表示患者所医生所述患病类型概率，c表示患者的患病种类，r表示该患者可能的患病种类。

本发明的有益效果为：本发明将k近邻加权聚合表示每个偏多标记的置信度向量来得到一个多类消歧数据集，并采用特定的过采样策略来扩充原始的偏多标记数据集，从而缓解了类别不平衡对偏多标记学习性能影响，增强了模型对类别不平衡医疗文本语言信息的分类能力；将数据空间中的每一维平均分割成等距离的区间，将对象空间量化成有限数目的单元从而形成网格结构，所有聚类结构都在该结构上进行，从而使得处理医疗文本数据速度快，其处理时间独立于数据对象数，而仅依赖于量化空间中每一维的单元数；利用改进EM算法来解决的医疗文本信息中概率密度分布偏差的问题，得到类后验概率，从而将病患的患病数据在特征空间的分布用多个子高斯分布的凸函数来表示，更好的拟合了数据的“真实”分布；提出了用于类别不平衡医疗文本语义信息的类后验概率算法，将多维高斯分布分解成为多个一维高斯分布分别进行训练，将医疗文本语义信息中特征的类后验概率值作为朴素贝叶斯网络的输入来得到最终的结果，通过将多维高斯分布分解成为多个一维高斯分布，可有效地避免多维数据处理中的维数问题；本发明对分类类别不平衡性问题进行进一步的处理，可以预测到更精准的标记结果，病人可根据此标记结果进行健康管理，医生也可以根据此结果对病人进行下一步诊断，具有良好的社会效益和经济效益。

附图说明

图1为本发明中基于偏多标记学习的患者筛选标记方法的流程图；

图2为本发明中累积似然函数值计算示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于偏多标记学习的患者筛选标记方法，如图1所示，所述方法包括：获取患者的病理样本数据，将病理样本数据输入到基于偏多标记学习的医疗文本语义信息大数据预测模型中，预测患者的患病类型和患病概率，根据患者的患病类型和患病概率对患者进行标记；病理样本数据为患者在医院根据医生对患者患病种类进行预测得到的一种或一种以上疾病范围内的每个检查项目进行检查后得到的检查数据。

S4：采用改进EM算法计算每个簇的类后验概率；

其中，m表示维数，n表示第n个样本，

表示第n个样本的维数来自于第m维，q表示最大维数，λ_m表示维数m所表示的数据集合，S表示全部数据。

优选的，构建偏多标记候选数据集的过程包括：

S1：根据k近邻加权聚合算法求解患者的病理样本所对应的医疗文本语义信息中每个检查项目的置信度向量；具体过程为：

根据二值向量Bⁿ，距离度量函数采用欧式距离，获得病理样本所对应的医疗文本语义信息中每个检查项目的置信度向量β_i，公式为：

其中，x_i表示样本中第i个点与原点之间的距离，x_j表示样本中第j个点与原点之间的距离，x_k表示样本中心点到原点之间的距离，d(x_i,x_j)表示第i个点与第j个点之间的绝对值距离，d(x_i,x_k)表示第i个点与样本中心点之间的绝对值距离，

表示初始置信度向量，

表示样本x的k近邻在训练样本集

中的索引集合，置信度向量可视为对k近邻样本候选标记集合的加权打分。

S2：根据置信度向量对候选标记集进行消歧操作，得到多类消歧数据集；具体过程为：

根据获得的置信度向量，基于m×q维置信度矩阵

执行对候选标记集合的消歧操作，得到多类数据集

公式为：

其中，α_j表示消歧后类别标签为λ_j的训练样例集合，x_i表示样本数据集合，λ_j表示类别标签集合，m表示最大维数，q表示数据维数集合，l表示最多类别标签数，β_ik表示在维数和标签数确定情况下的类别标签。

消歧操作为：根据之前获得的每个检查项目的置信度向量，将检查项目的置信度向量的数值按从大到小排序，取出最中间序列的数值，将此数值作为平均值，将比平均值大的数值与该平均值做减法，获得相减数值，将该平均值与比平均值小的数值做减法，也得到相减数值，设定合适的阈值范围，如果相减数值在这个阈值范围之间，则将在范围内的数值对应的候选标记集保留下来，如果相减数值不在这个阈值范围区间，则将不在范围内的数值对应的候选标记集舍去。

进一步的，对多类消歧数据集进行类别平衡处理包括：

S1：对多类消歧数据集中所有类别集合的大小进行阈值约束；对元素数量小于阈值的数据集α_j，即|α_j|＜τ，遍历

的第j列并降序排列，取前τ-|α_j|个样例加入α_j中，遍历过程为通过将来自其他类别G_k(k≠j)的数据转换成为α_j来进行，同时保证不损害各自的阈值约束；

S2：对进行阈值约束后的多类消歧数据集中所有类别集合设定类编码，优选的，设定消歧后数据集样本中数量最多的类别所对应的类编码为y^*＝arg max_1≤j≤q|α_j|；根据类编码结合扰动过采样技术对进行阈值约束后的所有类别集合进行采样，采样公式为：

其中，

表示维数m所表示的类别集合，m表示维数，q表示最大维数，

表示二值向量，

表示第n+1个样本的二值向量，

表示第n-1个样本的二值向量，x_r表示第n+1个样本的候选标记集合，x_i表示第n-1个样本的候选标记集合，ω表示特征空间新示例的生成维度，sign(z)函数返回一个q维的二值向量，若返回值大于0则二值向量

值为1否则为0；

S3：根据采样操作扩充偏多标记数据集，扩充公式为：

其中，

表示通过采样操作所扩充的偏多标记数据集，

表示样本点,

对除了

以外的所有类别λ_j，均执行采样操作，每个类别共执行

次，

表示消歧后数据集中样本数量最多的类别，

表示采样操作得到数据集中样本数量最多的类别所需要的次数，|α_j|表示采样操作得到除了

类别其他每一种类别所需要的次数。

通过上述处理解决了类别不平衡给偏多标记数据集带来的影响。

在标准的EM算法中是需要提前设定好子高斯数，但在针对不平衡医疗文本语义信息中，不同的患病类别在特征空间中的分布是不同的，则与之相对应的子高斯数也会随之不同，因此，本发明对标准EM算法进行改进，改进的EM算法可从混合高斯分布中自动获取子高斯数，且能找到“最合理”的子高斯数以及参数，使得其混合分布与样本数据达到最佳的拟合。

优选的，采用改进EM算法计算每个簇的类后验概率包括：

其中，N为高斯分布中自由参数的个数，n为样本数，k_nz为权重不为0的子高斯的个数，y^*表示d维随机数据集合，θ表示混合高斯分布中设定的参数。

设定每个簇的子高斯数存在范围，采用子高斯消除策略消除对混合分布影响最小的子高斯，得到需要的子高斯及其最优分布；消除策略为：

a、当子高斯权重为0时，则说明子高斯不再作用于混合分布并消除子高斯；

b、在特征空间中通过迭代寻找最能刻画参数分布“几何形状”的若干个子高斯，并使得这些子高斯对应的函数值表达式达到最小，同时其累积对数似然函数值达到最大；

考虑到EM算法的收敛条件L(θ，y^*)并不一定是全局的最小值，对于α_m(m＝1，2，...，k)中的最小值，消除α_m的最小值并评价L(θ，y^*)是否更小，如果子高斯对应的L(θ，y^*)函数值达到最小，同时累积对数似然函数值达到最大，就能够最大限度发现数据在特征空间的分布形状，此时得到的子高斯及其分布达到最优。

根据子高斯的函数值表达式对最优分布的子高斯进行参数估计，得到子高斯参数；最大似然估计的目的是找到一组新的参数λ^*使其满足p(X|λ^*)≥p(X|λ)，为了获得参数λ^*首先引入辅助函数；辅助函数为：

其中，N表示超参数，C表示超参数个数，T表示维度矢量，x_t表示子高斯数据集合，ω_i表示第i个子高斯的权重，μ_i表示第i个子高斯的均值向量，∑表示协方差矩阵。

在改进EM算法中，如果Q(λ，λ^*)≥Q(λ，λ)，则p(X|λ^*)≥p(X|λ)，从Q函数中获得子高斯参数估计，公式为：

其中，i表示子高斯个数，λ表示模型参数集合。

如图2所示，根据每个簇的所有子高斯及其参数依次计算每个簇中每个子高斯的累积对数似然函数值，将累积对数似然函数值转换为类后验概率；计算累积对数似然函数值的公式为：

其中，x(t)表示全部数据集合，ξ表示是子高斯i的先验概率，e表示子高斯个数，φ表示子高斯i的参数，p(x(t)|φ，ξ)≡N(μ_i|j，∑_i|j)是子高斯i的高斯密度函数；将累积对数似然函数(G个输出值)归一化到[0,1]区间，得到每个簇的类后验概率，将其作为不同患病类别的概率值。

根据当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数更新类后验概率，得到每个簇的类后验概率；更新过程为：设定阈值，若当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数之差大于阈值，则更新类后验概率，即将当前类后验概率作为簇的类后验概率，若当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数之差小于阈值，则不更新类后验概率，即将上一次类后验概率作为簇的类后验概率。

从特征维度上看，类后验概率为将患者的类别不平衡医疗文本语义信息看作多维高斯分布，将多维高斯分布分解为多个一维高斯分布分别进行训练和学习得到。

进一步的，将多个类后验概率的概率值作为朴素贝叶斯网络的输入，在朴素贝叶斯框架下进行融合得到最终的类后验概率，即为患者所患此病的概率。在朴素贝叶斯分类器中，类节点是所有特征节点的父节点，所有节点的联合概率，即所有类后验概率的联合概率为：

进一步的，从分类样本上，将所有类后验概率值进行归一化组成一个输出矢量，而后形成一个后验概率矩阵x_tj(t＝1，2，...，R；j＝1，2，...，k)，将这R个后验概率矢量作为朴素贝叶斯的输入，并再次计算其联合概率，根据联合概率计算类节点后验概率，联合概率等于类节点后验概率相加；将类节点后验概率输入到朴素贝叶斯分类器中，根据后验概率最大准则将类别F赋值为max{p(F|x₁，x₂，...，x_r)}，则最终可得出最终患者所患此病的类型。

对于不平衡数据处理，当一个分类任务的数据集中来自不同类别的样本数目相差悬殊时，称该数据集为“类别不平衡”，以现实任务为例：在处理类别不平衡医疗文本语义信息任务中，每一个检查项目都会产生一个新的样本，而患者最终是否患这种病决定了这个样本的标签。显然，只有很少一部分的患者患同样的病，这就导致了最终得到的训练数据集中正/负例样本数量差距悬殊，尽管少数患病样本数量比较少，表示的质量也更差，但其通常携带更重要的信息，因此需要更多的关心模型正确分类少数样本的能力；本发明将k近邻加权聚合表示每个偏多标记的置信度向量来得到一个多类消歧数据集，并采用特定的过采样策略来扩充原始的偏多标记数据集，从而缓解了类别不平衡对偏多标记学习性能影响，增强了模型对类别不平衡医疗文本语言信息的分类能力。

在聚类层次方面，传统的聚类方法是基于距离的，这种基于距离的聚类算法只能发现球状簇，在处理医疗文本数据这样的大数据集以及高维数据集时，不够有效。另一方面传统的聚类方法个数往往依赖于参数指定，这对于后续处理是非常困难的。本发明将数据空间中的每一维平均分割成等距离的区间，将对象空间量化成有限数目的单元从而形成网格结构，所有聚类结构都在该结构上进行，从而使得处理医疗文本数据速度快，其处理时间独立于数据对象数，而仅依赖于量化空间中每一维的单元数。

在改进EM算法方面，类别不平衡的医疗文本语义信息本质上的复杂性和不确定性，当样本点的概率密度比较离散、训练样本的选取不够充分或者不具有代表性时，会导致样本点不符合预先假设的参数化分布密度，这导致了各个高斯分布之间的重叠及分类混淆增大，从而使预测出患者的患病类型和患病概率与医生所预估的数据有较大幅度的差距，本发明利用改进EM算法来解决的医疗文本信息中概率密度分布偏差的问题，此EM算法能预先设定好子高斯数的最大值和最小值，采用子高斯消除策略，消除对混合分布影响最小的子高斯，找到“最合理”的子高斯及其参数，使得其混合分布与样本数据达到最佳拟合。当获取子高斯及相应参数后，计算各子高斯的累积对数似然函数，并将这个函数值归一化作为待分类后验概率，从而将病患的患病数据在特征空间的分布用多个子高斯分布的凸函数来表示，更好的拟合了数据的“真实”分布。

在类后验概率的计算过程中，本发明利用了朴素贝叶斯的架构，在此基础上提出了用于类别不平衡医疗文本语义信息的类后验概率算法，将多维高斯分布分解成为多个一维高斯分布分别进行训练，将医疗文本语义信息中特征的类后验概率值作为朴素贝叶斯网络的输入来得到最终的结果，通过将多维高斯分布分解成为多个一维高斯分布，可有效地避免多维数据处理中的维数问题；本发明对分类类别不平衡性问题进行进一步的处理，可以预测到更精准的标记结果，病人可根据此标记结果进行健康管理，医生也可以根据此结果对病人进行下一步诊断，具有良好的社会效益和经济效益。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于偏多标记学习的患者筛选标记方法，其特征在于，包括：获取患者的病理样本数据，将病理样本数据输入到基于偏多标记学习的医疗文本语义信息大数据预测模型中，预测患者的患病类型和患病概率，根据患者的患病类型和患病概率对患者进行标记；

S2：提取候选标记集的类别不平衡医疗文本语义信息，根据类别不平衡医疗文本语义信息构建偏多标记候选数据集；

S4：采用改进EM算法计算每个簇的类后验概率；

2.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法，其特征在于，对病理样本数据进行数据缺失处理包括：根据患者病理样本数据中无缺失值的n个样本点构建一条光滑的曲线并使曲线通过所有的样本点；将含有缺失值的样本所对应的属性点x带入曲线，获得样本中所缺失数据的近似值；将缺失数据的近似值带入到样本数据中，扩充缺失的数据；曲线表示为：

3.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法，其特征在于，对病理样本数据进行数据类型转换包括：将病理样本数据转换为对应候选标记集合的q维二值向量Bⁿ,转换公式为：

其中，m表示维数，n表示第n个样本，

4.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法，其特征在于，构建偏多标记候选数据集的过程包括：

5.根据权利要求4所述的一种基于偏多标记学习的患者筛选标记方法，其特征在于，对多类消歧数据集进行类别平衡处理包括：

其中，

表示维数m所表示的类别集合，m表示维数，q表示最大维数，

表示二值向量，

表示第n+1个样本的二值向量，

S3：根据采样操作扩充偏多标记数据集，扩充公式为：

其中，

表示通过采样操作所扩充的偏多标记数据集，

表示样本点。

6.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法，其特征在于，对偏多标记候选数据集进行网格聚类操作包括：将偏多标记数据集中每一个检查项目映射到网格单元中；依次扫描每个检查项目的对应的网格单元，将每个检查项目对应的每个网格单元中的数据对象个数记为Q；设定的密度阈值，将数据对象个数Q与设定的密度阈值进行比较，将数据对象个数高于密度阈值的网格单元作为高密度网格单元，低于密度阈值的网格单元作为低密度网格单元；删除低密度网格单元中的数据对象，找出高密度网格单元数据对象和与之相邻的高密度网格单元数据对象，并分别计算两者的相似度和相异度，当相似度大于相似度阈值时则将两者作为一个簇，并对簇值加一，当簇值达到簇阈值时输出簇。

7.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法，其特征在于，采用改进EM算法计算每个簇的类后验概率包括：

根据香农熵编码准则，得到子高斯的函数值表达式；

8.根据权利要求7所述的一种基于偏多标记学习的患者筛选标记方法，其特征在于，子高斯参数的公式为：

9.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法，其特征在于，计算累积对数似然函数值的公式为：

10.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法，其特征在于，所有最终类后验概率的联合概率为：