CN117373656A

CN117373656A - 一种基于异构数据的糖尿病弱监督分类方法

Info

Publication number: CN117373656A
Application number: CN202311418707.XA
Authority: CN
Inventors: 史大威; 王磊; 陈婧; 蔡德恒; 王军政
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-01-09
Anticipated expiration: 2043-10-30
Also published as: CN117373656B

Abstract

本发明公开了一种基于异构数据的糖尿病弱监督分类方法，属于糖尿病类型诊断技术领域，包括：变分推理子模块，通过对去除冗余信息的静态指标数据构建高斯混合模型来拟合其分布，其后验概率分布用变分分布来近似，利用KL散度测量变分分布与后验概率的距离，最大化证据下界来求解最小KL散度，得到的潜在变量可反映出生理标志物数据的聚类归属；慢速对比学习子模块，通过对生理信号数据监测，利用慢特征分析方法挖掘动态监测数据的内在属性，形成正负样本对，构建基于慢速特征的慢速对比学习框架，学习生理信号的表征信息；证据集成模块对两个子模块结果通过改进的DS理论进行融合。本发明以在弱监督条件下构建多维互补特征与糖尿病类型间的映射关系。

Description

一种基于异构数据的糖尿病弱监督分类方法

技术领域

本发明涉及糖尿病类型诊断技术领域，尤其是涉及一种基于异构数据的糖尿病弱监督分类方法。

背景技术

糖尿病患者临床表现出酮症和酮症酸中毒的症状主要集中在1型和2型糖尿病。区分这两种糖尿病类型对于设计治疗策略至关重要。传统的诊断方法依赖于临床标准和疾病进展的观察，这一过程需要医生的积极参与，给医疗从业者带来负担。医疗人工智能通过利用深度学习技术和综合数据集来提供有效解决方案从而减轻医生的工作量。

目前，医学应用中的深度学习方法主要依赖于监督学习，这需要大量的标记数据来实现稳定的模型收敛，医学数据标记需要专业知识来确保注释的准确性，合格医学专家的稀缺和缓慢增长的速度未能跟上糖尿病患病率的迅速上升。因此，标记的医学数据难以获取。一方面，急需提出一种能够仅使用少量或不使用标记数据的基于学习的方法。自我监督学习因其模型能够从未标记的数据中获取医学相关表征而获得广泛关注。此外，以聚类为代表的无监督学习方法也可以实现无标签的自动数据聚合。另一方面，异构数据的融合提供了多维互补的信息表示，比使用同构数据有更大的优势。利用异构数据，模型可以集成互补信息，实现单一来源数据无法实现的多视角推断。

发明内容

本发明的目的是提供一种基于异构数据的糖尿病弱监督分类方法，基于电子病历(Electronic Medical Records，EMR)数据中各类生理指标和扫描式葡萄糖监测系统(Flash Glucose Monitoring，FGM)序列等异构数据进行1型和2型糖尿病分类，旨在弱监督条件下构建多维互补特征与糖尿病类型之间的映射关系。

为实现上述目的，本发明提供了一种基于异构数据的糖尿病弱监督分类方法，包括以下步骤：

S1、针对生理标志物数据的变分推理子模块，对医疗记录中的生物标志物数据去除冗余信息，然后构建高斯混合模型来拟合其分布，其后验概率分布用变分分布来近似，利用KL散度来测量变分分布与后验概率之间的距离，最大化证据下界来求取最小KL散度，得到可反映出生物标志物数据的聚类归属的潜在变量；

S2、针对FGM数据的慢速对比学习子模块，通过对生理信号数据的监测，利用慢特征分析方法挖掘动态监测数据的内在属性，构建基于慢速特征正负样本对的分层对比学习框架，学习生理信号的表征信息，用于下游的糖尿病分类任务；

S3、证据集成模块利用改进的DS理论对变分推理子模块和慢速对比学习子模块结果进行融合。

优选的，步骤S1中，具体操作为：

S11、通过基于互信息的价值函数消除生物标志物数据中的冗余信息，得到非冗余生物标志物数据x′_i；

其中，生物标志物数据记为X＝{x₁,x₂,…,x_N}，x_i表示第i个个体的数据，N为个体的数量；

S12、利用高斯混合模型拟合非冗余生物标志物数据x′_i的分布：

非冗余生物标志物数据x′_i服从高斯混合分布，表示为：

其中，混合物分布的每个组成部分被视为生物标志物数据的一个簇；π为高斯分布的混合系数；π_k为第k个高斯分布的混合系数；μ为高斯分布的平均值；μ_k是第k个高斯分布的平均值；Ω为逆协方差矩阵；Ω_k为第k个逆方差矩阵；K为混合高斯模型中高斯分布的总个数；为第k个高斯分布中非冗余生物标志物数据x′_i的概率；

使用第k个逆协方差矩阵Ω_k来替换协方差矩阵Σ，其中，给定π，潜在变量Z的条件概率分布表示为：

其中，z_nk是潜在变量z_n的第k个元素；对于观察到的数据x′_n，存在一个潜在变量z_n；如果将观察到的数据点分发到第k个集群，则对应的z_nk＝1，其余z_nj,j≠k＝0；

假设(π，μ，Ω)服从共轭先验分布，形式化为：

π～Dir(α) (3)

(μ,Ω)～NW(μ₀,λ₀,V₀,n₀) (4)

其中，Dir(α)是带有参数α的狄利克雷分布，NW(μ₀,λ₀,V₀,n₀)是带有参数μ₀,λ₀,V₀,n₀的高斯-威沙特分布；

S13、通过变分贝叶斯推理方法创建变分分布q(Z,π,μ,Ω)来近似后验概率p(Z,π,μ,Ω|X)，利用KL散度来测量变分分布与后验概率之间的距离，最大化证据下界来求取最小KL散度：

其中，q^*(Z,π,μ,Ω)是最优变分分布；

定义为:

其中，E_q表示期望；

引入平均场理论来分解变分分布，即：

Z，π，μ，Ω各自的变分分布最优解的对数是所有变量联合概率分布的对数；

每个生物标志物样本归属于不同高斯分布的聚类结果通过潜在变量获得。

优选的步骤S2中，具体操作为：

S21、根据慢特征分析提取串行的不同慢性特征；

S22、利用二维属性挖掘模块构建正负样本对，捕获实例间和实例内的关系；

S23、为实例间和实例内分别设计一个分层损失函数，捕获时间串行的上下文表示。

优选的步骤S21中，对一维血糖监测数据进行维度提升操作：

假设：s_i＝{s_i(0),s_i(1),s_i(2),…}，其中s_i(j)表示在时间点j的血糖监测数据，维度升高的葡萄糖信号s_i 定义如下：

因此，s_i 的维度等于n乘以s_i，提升运算符L定义为映射，形式化为s_i ＝Ls_i，从葡萄糖串行s_i中划分的两个视图s_i,1和s_i,2通过维度提升操作传输到s_i,1 和s_i,2 ；

通过慢特征分析方法减少葡萄糖数据的缓慢特征变化，形式化为：

其中，<·>_t和表示时间平均值和差分运算符；g(·)是一个将升维的葡萄糖信号s_i,v 映射到慢速特征γ_GLU的函数，其中v∈{1,2}；

通过最小化慢特征变化Δγ_GLU，得到升维葡萄糖信号的两个慢特征和/>

优选的步骤S22中，利用二维属性挖掘模块构建正负样本对，捕获实例之间和实例内的关系：

(1)实例间样本对：鉴于同一样本生成的慢特征是相似的，而不同样本生成的慢特征则有显着区别，和/>是互为正样本对，而/>和/> 是互为负样本对；

(2)实例内样本对：基于先验知识，来自两个升维的两个慢特征的相同时间戳具有相似的特征，即和/>是互为正样本对，而/>和γ′∈是互为负样本对；其中，t和t′均表示时间戳。

优选的步骤S23中，为了捕获时间串行的上下文表示，为实例间和实例内分别设计一个分层损失函数，包括：

(1)实例内对比损失：设i表示输入时间串行样本的索引，t表示时间戳；r_i,1(t)和r_i,2(t)表示同一样本在相同时间戳t的两个表示形式；

第i个样本的时空内对比损失公式为：

其中，T是两个视图中时间戳的长度，是指示函数；

(2)实例间对比损失：时间戳t处的实例间对比损失为：

实例间对比损失和实例内对比损失是互补的，总损失定义为：

其中，η为系数；

通过最小化总损失，判别性表示捕获输入时间串行数据的时间和实例动态。

优选的步骤S3中，具体操作为：

辨识框架表示为A，基本概率分配函数m₁和m₂表示双源证据的置信度，即变分推理子模型中带有置信度的聚类结果为m₁；慢速对比学习子模型中下游糖尿病诊断任务带有置信度的分类结果为m₂；

首先，对m_i进行了自适应缩放，并对所有基本概率分配函数执行幂运算，修改后的基本概率分配函数如下：

其中，修改后的基本概率分配函数极端偏差程度的判断公式为：

表示向下取整函数；当Δ<δ时，原始值m_i需要自适应缩放：

其中β₁和β₂是刻度参数，且β₁<β₂；

重新分配修改后的基本概率分配函数的权重，假设框架A的第j个元素A_j包含n_j数据实例，则重新分配过程构造如下：

其中，θ是一个常量；n_-j是框架A的第j个元素A_j之外包含的样本数；M是重新分配后的基本概率分配函数的权重；

此外，为了确保元素的重新分配后的基本概率分配函数的权重之和保持等于1，将其归一化如下：

使用Dempster组合规则融合多组证据以获得新的基本概率分配函数m，表示为：

其中，m^res表示证据理论融合策略的最终结果，A_i和B_j分别表示不同辨识框架中的元素。

因此，本发明采用上述一种基于异构数据的糖尿病弱监督分类方法，其技术效果如下：

(1)提出了一种弱监督糖尿病分类方法，该方法基于变分推理和慢对比学习的证据集成，采用基于慢速特征的慢速对比学习方法来提取FGM的分层表征。此外，该方法引入变分推断对来近似生物标志物的后验分布。

(2)提出了一种改进的Dempster-Shafer(DS)理论，以融合来自两个不同数据源的证据。对基本概率分配进行了修改，以解决完全冲突的问题。此外，在融合过程中引入了平衡的权重因子，以权衡不同糖尿病类型中可用样本比例的偏差，确保结果平衡。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明一种基于异构数据的糖尿病弱监督分类方法的流程图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

实施例一

如图1所示，为本发明一种基于异构数据的糖尿病弱监督分类方法的流程图，具体步骤如下：

医疗记录不仅突出了糖尿病患者的独特特征，还提供了对他们可能患有的糖尿病类型的深入了解。在本实施例中，采用变分贝叶斯推理来揭示医疗记录中生物标志物数据的潜在特征。

给定静态生物标记X＝{x₁,x₂,…,x_N}，x_i表示第i个个体的数据，N对应于个体的数量。由于人体的复杂性和潜在的相关性，从病历中选择的多个生物标志物可能包含冗余信息。为了解决这个问题，引入了基于互信息的方法来有效消除冗余。该方法结合了基于互信息的价值函数来评估每个生物标志物之间的相关性和依赖性。它保留了信息量最大的非冗余生物标志物数据x′_i，从而增强了后续分析的有效性和可解释性。

非冗余生物标志物数据x′_i服从高斯混合分布，表示为：

假设(π，μ，Ω)服从共轭先验分布，形式化为：

π～Dir(α) (3)

(μ,Ω)～NW(μ₀,λ₀,V₀,n₀) (4)

其中，q^*(Z,π,μ,Ω)是最优变分分布；

定义为:

其中，E_q表示期望；

引入平均场理论来分解变分分布，即：

S21、根据慢特征分析提取串行的不同慢性特征；

对一维血糖监测数据进行维度提升操作：

利用二维属性挖掘模块构建正负样本对，捕获实例之间和实例内的关系：

(2)实例内样本对：基于先验知识，来自两个升维的两个慢特征的相同时间戳具有相似的特征，即和/>是互为正样本对，而/>和/> 是互为负样本对；其中，t和t′均表示时间戳。

S23、为实例间和实例内分别设计一个分层损失函数，捕获时间串行的上下文表示，包括：

第i个样本的时空内对比损失公式为：

其中，T是两个视图中时间戳的长度，是指示函数；

(2)实例间对比损失：时间戳t处的实例间对比损失为：

其中，η为系数；

S3、证据集成模块利用改进的DS理论对变分推理子模块和慢速对比学习子模块结果进行融合，具体操作为：

表示向下取整函数；当Δ＜δ时，原始值m_i需要自适应缩放：

其中β₁和β₂是刻度参数，且β₁＜β₂；

因此，本发明采用上述一种基于异构数据的糖尿病弱监督分类方法，可以在弱监督条件下构建多维互补特征与糖尿病类型之间的映射关系。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于异构数据的糖尿病弱监督分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于异构数据的糖尿病弱监督分类方法，其特征在于，步骤S1中，具体操作为：

非冗余生物标志物数据x′_i服从高斯混合分布，表示为：

使用第k个逆协方差矩阵Ω_k来替换协方差矩阵∑，其中，给定π，潜在变量Z的条件概率分布表示为：

其中，z_nk是潜在变量z_n的第k个元素；对于观察到的数据x′_n，存在一个潜在变量zn；如果将观察到的数据点分发到第k个集群，则对应的z_nk＝1，其余z_nj，j≠k＝0；

假设(π，μ，Ω)服从共轭先验分布，形式化为：

π～Dir(α) (3)

(μ，Ω)～NW(μ₀，λ₀，V₀，n₀) (4)

其中，Dir(α)是带有参数α的狄利克雷分布，NW(μ₀，λ₀，V₀，n₀)是带有参数μ₀，λ₀，V₀，n₀的高斯-威沙特分布；

S13、通过变分贝叶斯推理方法创建变分分布q(Z，π，μ，Ω)来近似后验概率p(Z，π，μ，Ω|X)，利用KL散度来测量变分分布与后验概率之间的距离，最大化证据下界来求取最小KL散度：

其中，q^*(Z，π，μ，Ω)是最优变分分布；

定义为：

其中，E_q表示期望；

引入平均场理论来分解变分分布，即：

3.根据权利要求2所述的一种基于异构数据的糖尿病弱监督分类方法，其特征在于，步骤S2中，具体操作为：

S21、根据慢特征分析提取串行的不同慢性特征；

4.根据权利要求3所述的一种基于异构数据的糖尿病弱监督分类方法，其特征在于，步骤S21中，对一维血糖监测数据进行维度提升操作：

因此，s_i 的维度等于n乘以s_i，提升运算符L定义为映射形式化为s_i ＝Ls_i，从葡萄糖串行s_i中划分的两个视图s_i,1和s_i,2通过维度提升操作传输到s_i,1 和s_i,2 ；

5.根据权利要求4所述的一种基于异构数据的糖尿病弱监督分类方法，其特征在于，步骤S22中，利用二维属性挖掘模块构建正负样本对，捕获实例之间和实例内的关系：

6.根据权利要求5所述的一种基于异构数据的糖尿病弱监督分类方法，其特征在于，步骤S23中，为了捕获时间串行的上下文表示，为实例间和实例内分别设计一个分层损失函数，包括：

第i个样本的时空内对比损失公式为：

其中，T是两个视图中时间戳的长度，是指示函数；

(2)实例间对比损失：时间戳t处的实例间对比损失为：

其中，η为系数；

7.根据权利要求6所述的一种基于异构数据的糖尿病弱监督分类方法，其特征在于，步骤S3中，具体操作为：

表示向下取整函数；当Δ<δ时，原始值m_i需要自适应缩放：

其中β₁和β₂是刻度参数，且β₁<β₂；