CN117373656A - 一种基于异构数据的糖尿病弱监督分类方法 - Google Patents
一种基于异构数据的糖尿病弱监督分类方法 Download PDFInfo
- Publication number
- CN117373656A CN117373656A CN202311418707.XA CN202311418707A CN117373656A CN 117373656 A CN117373656 A CN 117373656A CN 202311418707 A CN202311418707 A CN 202311418707A CN 117373656 A CN117373656 A CN 117373656A
- Authority
- CN
- China
- Prior art keywords
- data
- distribution
- slow
- diabetes
- examples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 206010012601 diabetes mellitus Diseases 0.000 title claims abstract description 31
- 239000000203 mixture Substances 0.000 claims abstract description 16
- 238000012544 monitoring process Methods 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 230000000295 complement effect Effects 0.000 claims abstract description 8
- 238000012512 characterization method Methods 0.000 claims abstract description 6
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 239000003550 marker Substances 0.000 claims abstract description 6
- 238000003745 diagnosis Methods 0.000 claims abstract description 5
- 230000010354 integration Effects 0.000 claims abstract description 5
- 239000008186 active pharmaceutical agent Substances 0.000 claims abstract 2
- 239000000090 biomarker Substances 0.000 claims description 39
- 238000005315 distribution function Methods 0.000 claims description 24
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 claims description 20
- 239000008103 glucose Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 239000008280 blood Substances 0.000 claims description 6
- 210000004369 blood Anatomy 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 125000002791 glucosyl group Chemical group C1([C@H](O)[C@@H](O)[C@H](O)[C@H](O1)CO)* 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000001684 chronic effect Effects 0.000 claims description 3
- 230000000052 comparative effect Effects 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 238000005290 field theory Methods 0.000 claims description 3
- 150000002303 glucose derivatives Chemical class 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims description 3
- 230000003068 static effect Effects 0.000 abstract description 3
- 208000007976 Ketosis Diseases 0.000 description 2
- 206010067584 Type 1 diabetes mellitus Diseases 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 2
- 206010061818 Disease progression Diseases 0.000 description 1
- 206010023379 Ketoacidosis Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000004140 ketosis Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/257—Belief theory, e.g. Dempster-Shafer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于异构数据的糖尿病弱监督分类方法,属于糖尿病类型诊断技术领域,包括:变分推理子模块,通过对去除冗余信息的静态指标数据构建高斯混合模型来拟合其分布,其后验概率分布用变分分布来近似,利用KL散度测量变分分布与后验概率的距离,最大化证据下界来求解最小KL散度,得到的潜在变量可反映出生理标志物数据的聚类归属;慢速对比学习子模块,通过对生理信号数据监测,利用慢特征分析方法挖掘动态监测数据的内在属性,形成正负样本对,构建基于慢速特征的慢速对比学习框架,学习生理信号的表征信息;证据集成模块对两个子模块结果通过改进的DS理论进行融合。本发明以在弱监督条件下构建多维互补特征与糖尿病类型间的映射关系。
Description
技术领域
本发明涉及糖尿病类型诊断技术领域,尤其是涉及一种基于异构数据的糖尿病弱监督分类方法。
背景技术
糖尿病患者临床表现出酮症和酮症酸中毒的症状主要集中在1型和2型糖尿病。区分这两种糖尿病类型对于设计治疗策略至关重要。传统的诊断方法依赖于临床标准和疾病进展的观察,这一过程需要医生的积极参与,给医疗从业者带来负担。医疗人工智能通过利用深度学习技术和综合数据集来提供有效解决方案从而减轻医生的工作量。
目前,医学应用中的深度学习方法主要依赖于监督学习,这需要大量的标记数据来实现稳定的模型收敛,医学数据标记需要专业知识来确保注释的准确性,合格医学专家的稀缺和缓慢增长的速度未能跟上糖尿病患病率的迅速上升。因此,标记的医学数据难以获取。一方面,急需提出一种能够仅使用少量或不使用标记数据的基于学习的方法。自我监督学习因其模型能够从未标记的数据中获取医学相关表征而获得广泛关注。此外,以聚类为代表的无监督学习方法也可以实现无标签的自动数据聚合。另一方面,异构数据的融合提供了多维互补的信息表示,比使用同构数据有更大的优势。利用异构数据,模型可以集成互补信息,实现单一来源数据无法实现的多视角推断。
发明内容
本发明的目的是提供一种基于异构数据的糖尿病弱监督分类方法,基于电子病历(Electronic Medical Records,EMR)数据中各类生理指标和扫描式葡萄糖监测系统(Flash Glucose Monitoring,FGM)序列等异构数据进行1型和2型糖尿病分类,旨在弱监督条件下构建多维互补特征与糖尿病类型之间的映射关系。
为实现上述目的,本发明提供了一种基于异构数据的糖尿病弱监督分类方法,包括以下步骤:
S1、针对生理标志物数据的变分推理子模块,对医疗记录中的生物标志物数据去除冗余信息,然后构建高斯混合模型来拟合其分布,其后验概率分布用变分分布来近似,利用KL散度来测量变分分布与后验概率之间的距离,最大化证据下界来求取最小KL散度,得到可反映出生物标志物数据的聚类归属的潜在变量;
S2、针对FGM数据的慢速对比学习子模块,通过对生理信号数据的监测,利用慢特征分析方法挖掘动态监测数据的内在属性,构建基于慢速特征正负样本对的分层对比学习框架,学习生理信号的表征信息,用于下游的糖尿病分类任务;
S3、证据集成模块利用改进的DS理论对变分推理子模块和慢速对比学习子模块结果进行融合。
优选的,步骤S1中,具体操作为:
S11、通过基于互信息的价值函数消除生物标志物数据中的冗余信息,得到非冗余生物标志物数据x′i;
其中,生物标志物数据记为X={x1,x2,…,xN},xi表示第i个个体的数据,N为个体的数量;
S12、利用高斯混合模型拟合非冗余生物标志物数据x′i的分布:
非冗余生物标志物数据x′i服从高斯混合分布,表示为:
其中,混合物分布的每个组成部分被视为生物标志物数据的一个簇;π为高斯分布的混合系数;πk为第k个高斯分布的混合系数;μ为高斯分布的平均值;μk是第k个高斯分布的平均值;Ω为逆协方差矩阵;Ωk为第k个逆方差矩阵;K为混合高斯模型中高斯分布的总个数;为第k个高斯分布中非冗余生物标志物数据x′i的概率;
使用第k个逆协方差矩阵Ωk来替换协方差矩阵Σ,其中,给定π,潜在变量Z的条件概率分布表示为:
其中,znk是潜在变量zn的第k个元素;对于观察到的数据x′n,存在一个潜在变量zn;如果将观察到的数据点分发到第k个集群,则对应的znk=1,其余znj,j≠k=0;
假设(π,μ,Ω)服从共轭先验分布,形式化为:
π~Dir(α) (3)
(μ,Ω)~NW(μ0,λ0,V0,n0) (4)
其中,Dir(α)是带有参数α的狄利克雷分布,NW(μ0,λ0,V0,n0)是带有参数μ0,λ0,V0,n0的高斯-威沙特分布;
S13、通过变分贝叶斯推理方法创建变分分布q(Z,π,μ,Ω)来近似后验概率p(Z,π,μ,Ω|X),利用KL散度来测量变分分布与后验概率之间的距离,最大化证据下界来求取最小KL散度:
其中,q*(Z,π,μ,Ω)是最优变分分布;
定义为:
其中,Eq表示期望;
引入平均场理论来分解变分分布,即:
Z,π,μ,Ω各自的变分分布最优解的对数是所有变量联合概率分布的对数;
每个生物标志物样本归属于不同高斯分布的聚类结果通过潜在变量获得。
优选的步骤S2中,具体操作为:
S21、根据慢特征分析提取串行的不同慢性特征;
S22、利用二维属性挖掘模块构建正负样本对,捕获实例间和实例内的关系;
S23、为实例间和实例内分别设计一个分层损失函数,捕获时间串行的上下文表示。
优选的步骤S21中,对一维血糖监测数据进行维度提升操作:
假设:si={si(0),si(1),si(2),…},其中si(j)表示在时间点j的血糖监测数据,维度升高的葡萄糖信号si 定义如下:
因此,si 的维度等于n乘以si,提升运算符L定义为映射,形式化为si =Lsi,从葡萄糖串行si中划分的两个视图si,1和si,2通过维度提升操作传输到si,1 和si,2 ;
通过慢特征分析方法减少葡萄糖数据的缓慢特征变化,形式化为:
其中,<·>t和表示时间平均值和差分运算符;g(·)是一个将升维的葡萄糖信号si,v 映射到慢速特征γGLU的函数,其中v∈{1,2};
通过最小化慢特征变化ΔγGLU,得到升维葡萄糖信号的两个慢特征和/>
优选的步骤S22中,利用二维属性挖掘模块构建正负样本对,捕获实例之间和实例内的关系:
(1)实例间样本对:鉴于同一样本生成的慢特征是相似的,而不同样本生成的慢特征则有显着区别,和/>是互为正样本对,而/>和/> 是互为负样本对;
(2)实例内样本对:基于先验知识,来自两个升维的两个慢特征的相同时间戳具有相似的特征,即和/>是互为正样本对,而/>和γ′∈是互为负样本对;其中,t和t′均表示时间戳。
优选的步骤S23中,为了捕获时间串行的上下文表示,为实例间和实例内分别设计一个分层损失函数,包括:
(1)实例内对比损失:设i表示输入时间串行样本的索引,t表示时间戳;ri,1(t)和ri,2(t)表示同一样本在相同时间戳t的两个表示形式;
第i个样本的时空内对比损失公式为:
其中,T是两个视图中时间戳的长度,是指示函数;
(2)实例间对比损失:时间戳t处的实例间对比损失为:
实例间对比损失和实例内对比损失是互补的,总损失定义为:
其中,η为系数;
通过最小化总损失,判别性表示捕获输入时间串行数据的时间和实例动态。
优选的步骤S3中,具体操作为:
辨识框架表示为A,基本概率分配函数m1和m2表示双源证据的置信度,即变分推理子模型中带有置信度的聚类结果为m1;慢速对比学习子模型中下游糖尿病诊断任务带有置信度的分类结果为m2;
首先,对mi进行了自适应缩放,并对所有基本概率分配函数执行幂运算,修改后的基本概率分配函数如下:
其中,修改后的基本概率分配函数极端偏差程度的判断公式为:
表示向下取整函数;当Δ<δ时,原始值mi需要自适应缩放:
其中β1和β2是刻度参数,且β1<β2;
重新分配修改后的基本概率分配函数的权重,假设框架A的第j个元素Aj包含nj数据实例,则重新分配过程构造如下:
其中,θ是一个常量;n-j是框架A的第j个元素Aj之外包含的样本数;M是重新分配后的基本概率分配函数的权重;
此外,为了确保元素的重新分配后的基本概率分配函数的权重之和保持等于1,将其归一化如下:
使用Dempster组合规则融合多组证据以获得新的基本概率分配函数m,表示为:
其中,mres表示证据理论融合策略的最终结果,Ai和Bj分别表示不同辨识框架中的元素。
因此,本发明采用上述一种基于异构数据的糖尿病弱监督分类方法,其技术效果如下:
(1)提出了一种弱监督糖尿病分类方法,该方法基于变分推理和慢对比学习的证据集成,采用基于慢速特征的慢速对比学习方法来提取FGM的分层表征。此外,该方法引入变分推断对来近似生物标志物的后验分布。
(2)提出了一种改进的Dempster-Shafer(DS)理论,以融合来自两个不同数据源的证据。对基本概率分配进行了修改,以解决完全冲突的问题。此外,在融合过程中引入了平衡的权重因子,以权衡不同糖尿病类型中可用样本比例的偏差,确保结果平衡。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明一种基于异构数据的糖尿病弱监督分类方法的流程图。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
实施例一
如图1所示,为本发明一种基于异构数据的糖尿病弱监督分类方法的流程图,具体步骤如下:
医疗记录不仅突出了糖尿病患者的独特特征,还提供了对他们可能患有的糖尿病类型的深入了解。在本实施例中,采用变分贝叶斯推理来揭示医疗记录中生物标志物数据的潜在特征。
给定静态生物标记X={x1,x2,…,xN},xi表示第i个个体的数据,N对应于个体的数量。由于人体的复杂性和潜在的相关性,从病历中选择的多个生物标志物可能包含冗余信息。为了解决这个问题,引入了基于互信息的方法来有效消除冗余。该方法结合了基于互信息的价值函数来评估每个生物标志物之间的相关性和依赖性。它保留了信息量最大的非冗余生物标志物数据x′i,从而增强了后续分析的有效性和可解释性。
S1、针对生理标志物数据的变分推理子模块,对医疗记录中的生物标志物数据去除冗余信息,然后构建高斯混合模型来拟合其分布,其后验概率分布用变分分布来近似,利用KL散度来测量变分分布与后验概率之间的距离,最大化证据下界来求取最小KL散度,得到可反映出生物标志物数据的聚类归属的潜在变量;
S11、通过基于互信息的价值函数消除生物标志物数据中的冗余信息,得到非冗余生物标志物数据x′i;
其中,生物标志物数据记为X={x1,x2,…,xN},xi表示第i个个体的数据,N为个体的数量;
S12、利用高斯混合模型拟合非冗余生物标志物数据x′i的分布:
非冗余生物标志物数据x′i服从高斯混合分布,表示为:
其中,混合物分布的每个组成部分被视为生物标志物数据的一个簇;π为高斯分布的混合系数;πk为第k个高斯分布的混合系数;μ为高斯分布的平均值;μk是第k个高斯分布的平均值;Ω为逆协方差矩阵;Ωk为第k个逆方差矩阵;K为混合高斯模型中高斯分布的总个数;为第k个高斯分布中非冗余生物标志物数据x′i的概率;
使用第k个逆协方差矩阵Ωk来替换协方差矩阵Σ,其中,给定π,潜在变量Z的条件概率分布表示为:
其中,znk是潜在变量zn的第k个元素;对于观察到的数据x′n,存在一个潜在变量zn;如果将观察到的数据点分发到第k个集群,则对应的znk=1,其余znj,j≠k=0;
假设(π,μ,Ω)服从共轭先验分布,形式化为:
π~Dir(α) (3)
(μ,Ω)~NW(μ0,λ0,V0,n0) (4)
其中,Dir(α)是带有参数α的狄利克雷分布,NW(μ0,λ0,V0,n0)是带有参数μ0,λ0,V0,n0的高斯-威沙特分布;
S13、通过变分贝叶斯推理方法创建变分分布q(Z,π,μ,Ω)来近似后验概率p(Z,π,μ,Ω|X),利用KL散度来测量变分分布与后验概率之间的距离,最大化证据下界来求取最小KL散度:
其中,q*(Z,π,μ,Ω)是最优变分分布;
定义为:
其中,Eq表示期望;
引入平均场理论来分解变分分布,即:
Z,π,μ,Ω各自的变分分布最优解的对数是所有变量联合概率分布的对数;
每个生物标志物样本归属于不同高斯分布的聚类结果通过潜在变量获得。
S2、针对FGM数据的慢速对比学习子模块,通过对生理信号数据的监测,利用慢特征分析方法挖掘动态监测数据的内在属性,构建基于慢速特征正负样本对的分层对比学习框架,学习生理信号的表征信息,用于下游的糖尿病分类任务;
S21、根据慢特征分析提取串行的不同慢性特征;
对一维血糖监测数据进行维度提升操作:
假设:si={si(0),si(1),si(2),…},其中si(j)表示在时间点j的血糖监测数据,维度升高的葡萄糖信号si 定义如下:
因此,si 的维度等于n乘以si,提升运算符L定义为映射,形式化为si =Lsi,从葡萄糖串行si中划分的两个视图si,1和si,2通过维度提升操作传输到si,1 和si,2 ;
通过慢特征分析方法减少葡萄糖数据的缓慢特征变化,形式化为:
其中,<·>t和表示时间平均值和差分运算符;g(·)是一个将升维的葡萄糖信号si,v 映射到慢速特征γGLU的函数,其中v∈{1,2};
通过最小化慢特征变化ΔγGLU,得到升维葡萄糖信号的两个慢特征和/>
S22、利用二维属性挖掘模块构建正负样本对,捕获实例间和实例内的关系;
利用二维属性挖掘模块构建正负样本对,捕获实例之间和实例内的关系:
(1)实例间样本对:鉴于同一样本生成的慢特征是相似的,而不同样本生成的慢特征则有显着区别,和/>是互为正样本对,而/>和/> 是互为负样本对;
(2)实例内样本对:基于先验知识,来自两个升维的两个慢特征的相同时间戳具有相似的特征,即和/>是互为正样本对,而/>和/> 是互为负样本对;其中,t和t′均表示时间戳。
S23、为实例间和实例内分别设计一个分层损失函数,捕获时间串行的上下文表示,包括:
(1)实例内对比损失:设i表示输入时间串行样本的索引,t表示时间戳;ri,1(t)和ri,2(t)表示同一样本在相同时间戳t的两个表示形式;
第i个样本的时空内对比损失公式为:
其中,T是两个视图中时间戳的长度,是指示函数;
(2)实例间对比损失:时间戳t处的实例间对比损失为:
实例间对比损失和实例内对比损失是互补的,总损失定义为:
其中,η为系数;
通过最小化总损失,判别性表示捕获输入时间串行数据的时间和实例动态。
S3、证据集成模块利用改进的DS理论对变分推理子模块和慢速对比学习子模块结果进行融合,具体操作为:
辨识框架表示为A,基本概率分配函数m1和m2表示双源证据的置信度,即变分推理子模型中带有置信度的聚类结果为m1;慢速对比学习子模型中下游糖尿病诊断任务带有置信度的分类结果为m2;
首先,对mi进行了自适应缩放,并对所有基本概率分配函数执行幂运算,修改后的基本概率分配函数如下:
其中,修改后的基本概率分配函数极端偏差程度的判断公式为:
表示向下取整函数;当Δ<δ时,原始值mi需要自适应缩放:
其中β1和β2是刻度参数,且β1<β2;
重新分配修改后的基本概率分配函数的权重,假设框架A的第j个元素Aj包含nj数据实例,则重新分配过程构造如下:
其中,θ是一个常量;n-j是框架A的第j个元素Aj之外包含的样本数;M是重新分配后的基本概率分配函数的权重;
此外,为了确保元素的重新分配后的基本概率分配函数的权重之和保持等于1,将其归一化如下:
使用Dempster组合规则融合多组证据以获得新的基本概率分配函数m,表示为:
其中,mres表示证据理论融合策略的最终结果,Ai和Bj分别表示不同辨识框架中的元素。
因此,本发明采用上述一种基于异构数据的糖尿病弱监督分类方法,可以在弱监督条件下构建多维互补特征与糖尿病类型之间的映射关系。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (7)
1.一种基于异构数据的糖尿病弱监督分类方法,其特征在于,包括以下步骤:
S1、针对生理标志物数据的变分推理子模块,对医疗记录中的生物标志物数据去除冗余信息,然后构建高斯混合模型来拟合其分布,其后验概率分布用变分分布来近似,利用KL散度来测量变分分布与后验概率之间的距离,最大化证据下界来求取最小KL散度,得到可反映出生物标志物数据的聚类归属的潜在变量;
S2、针对FGM数据的慢速对比学习子模块,通过对生理信号数据的监测,利用慢特征分析方法挖掘动态监测数据的内在属性,构建基于慢速特征正负样本对的分层对比学习框架,学习生理信号的表征信息,用于下游的糖尿病分类任务;
S3、证据集成模块利用改进的DS理论对变分推理子模块和慢速对比学习子模块结果进行融合。
2.根据权利要求1所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤S1中,具体操作为:
S11、通过基于互信息的价值函数消除生物标志物数据中的冗余信息,得到非冗余生物标志物数据x′i;
其中,生物标志物数据记为X={x1,x2,…,xN},xi表示第i个个体的数据,N为个体的数量;
S12、利用高斯混合模型拟合非冗余生物标志物数据x′i的分布:
非冗余生物标志物数据x′i服从高斯混合分布,表示为:
其中,混合物分布的每个组成部分被视为生物标志物数据的一个簇;π为高斯分布的混合系数;πk为第k个高斯分布的混合系数;μ为高斯分布的平均值;μk是第k个高斯分布的平均值;Ω为逆协方差矩阵;Ωk为第k个逆方差矩阵;K为混合高斯模型中高斯分布的总个数;为第k个高斯分布中非冗余生物标志物数据x′i的概率;
使用第k个逆协方差矩阵Ωk来替换协方差矩阵∑,其中,给定π,潜在变量Z的条件概率分布表示为:
其中,znk是潜在变量zn的第k个元素;对于观察到的数据x′n,存在一个潜在变量zn;如果将观察到的数据点分发到第k个集群,则对应的znk=1,其余znj,j≠k=0;
假设(π,μ,Ω)服从共轭先验分布,形式化为:
π~Dir(α) (3)
(μ,Ω)~NW(μ0,λ0,V0,n0) (4)
其中,Dir(α)是带有参数α的狄利克雷分布,NW(μ0,λ0,V0,n0)是带有参数μ0,λ0,V0,n0的高斯-威沙特分布;
S13、通过变分贝叶斯推理方法创建变分分布q(Z,π,μ,Ω)来近似后验概率p(Z,π,μ,Ω|X),利用KL散度来测量变分分布与后验概率之间的距离,最大化证据下界来求取最小KL散度:
其中,q*(Z,π,μ,Ω)是最优变分分布;
定义为:
其中,Eq表示期望;
引入平均场理论来分解变分分布,即:
Z,π,μ,Ω各自的变分分布最优解的对数是所有变量联合概率分布的对数;
每个生物标志物样本归属于不同高斯分布的聚类结果通过潜在变量获得。
3.根据权利要求2所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤S2中,具体操作为:
S21、根据慢特征分析提取串行的不同慢性特征;
S22、利用二维属性挖掘模块构建正负样本对,捕获实例间和实例内的关系;
S23、为实例间和实例内分别设计一个分层损失函数,捕获时间串行的上下文表示。
4.根据权利要求3所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤S21中,对一维血糖监测数据进行维度提升操作:
假设:si={si(0),si(1),si(2),…},其中si(j)表示在时间点j的血糖监测数据,维度升高的葡萄糖信号si 定义如下:
因此,si 的维度等于n乘以si,提升运算符L定义为映射形式化为si =Lsi,从葡萄糖串行si中划分的两个视图si,1和si,2通过维度提升操作传输到si,1 和si,2 ;
通过慢特征分析方法减少葡萄糖数据的缓慢特征变化,形式化为:
其中,<·>t和表示时间平均值和差分运算符;g(·)是一个将升维的葡萄糖信号si,v 映射到慢速特征γGLU的函数,其中v∈{1,2};
通过最小化慢特征变化ΔγGLU,得到升维葡萄糖信号的两个慢特征和/>
5.根据权利要求4所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤S22中,利用二维属性挖掘模块构建正负样本对,捕获实例之间和实例内的关系:
(1)实例间样本对:鉴于同一样本生成的慢特征是相似的,而不同样本生成的慢特征则有显着区别,和/>是互为正样本对,而/>和/> 是互为负样本对;
(2)实例内样本对:基于先验知识,来自两个升维的两个慢特征的相同时间戳具有相似的特征,即和/>是互为正样本对,而/>和/> 是互为负样本对;其中,t和t′均表示时间戳。
6.根据权利要求5所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤S23中,为了捕获时间串行的上下文表示,为实例间和实例内分别设计一个分层损失函数,包括:
(1)实例内对比损失:设i表示输入时间串行样本的索引,t表示时间戳;ri,1(t)和ri,2(t)表示同一样本在相同时间戳t的两个表示形式;
第i个样本的时空内对比损失公式为:
其中,T是两个视图中时间戳的长度,是指示函数;
(2)实例间对比损失:时间戳t处的实例间对比损失为:
实例间对比损失和实例内对比损失是互补的,总损失定义为:
其中,η为系数;
通过最小化总损失,判别性表示捕获输入时间串行数据的时间和实例动态。
7.根据权利要求6所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤S3中,具体操作为:
辨识框架表示为A,基本概率分配函数m1和m2表示双源证据的置信度,即变分推理子模型中带有置信度的聚类结果为m1;慢速对比学习子模型中下游糖尿病诊断任务带有置信度的分类结果为m2;
首先,对mi进行了自适应缩放,并对所有基本概率分配函数执行幂运算,修改后的基本概率分配函数如下:
其中,修改后的基本概率分配函数极端偏差程度的判断公式为:
表示向下取整函数;当Δ<δ时,原始值mi需要自适应缩放:
其中β1和β2是刻度参数,且β1<β2;
重新分配修改后的基本概率分配函数的权重,假设框架A的第j个元素Aj包含nj数据实例,则重新分配过程构造如下:
其中,θ是一个常量;n-j是框架A的第j个元素Aj之外包含的样本数;M是重新分配后的基本概率分配函数的权重;
此外,为了确保元素的重新分配后的基本概率分配函数的权重之和保持等于1,将其归一化如下:
使用Dempster组合规则融合多组证据以获得新的基本概率分配函数m,表示为:
其中,mres表示证据理论融合策略的最终结果,Ai和Bj分别表示不同辨识框架中的元素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311418707.XA CN117373656B (zh) | 2023-10-30 | 2023-10-30 | 一种基于异构数据的糖尿病弱监督分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311418707.XA CN117373656B (zh) | 2023-10-30 | 2023-10-30 | 一种基于异构数据的糖尿病弱监督分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117373656A true CN117373656A (zh) | 2024-01-09 |
CN117373656B CN117373656B (zh) | 2024-06-21 |
Family
ID=89394331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311418707.XA Active CN117373656B (zh) | 2023-10-30 | 2023-10-30 | 一种基于异构数据的糖尿病弱监督分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117373656B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170249434A1 (en) * | 2016-02-26 | 2017-08-31 | Daniela Brunner | Multi-format, multi-domain and multi-algorithm metalearner system and method for monitoring human health, and deriving health status and trajectory |
CN107403072A (zh) * | 2017-08-07 | 2017-11-28 | 北京工业大学 | 一种基于机器学习的2型糖尿病预测预警方法 |
US20200176121A1 (en) * | 2018-11-29 | 2020-06-04 | January, Inc. | Systems, methods, and devices for biophysical modeling and response prediction |
CN113517046A (zh) * | 2021-04-15 | 2021-10-19 | 中南大学 | 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质 |
CN115458174A (zh) * | 2022-09-20 | 2022-12-09 | 吉林大学 | 一种糖尿病视网膜病变智能诊断模型的构建方法 |
CN115691788A (zh) * | 2022-10-27 | 2023-02-03 | 北京理工大学 | 一种基于异构数据的双重注意力耦合网络糖尿病分类系统 |
-
2023
- 2023-10-30 CN CN202311418707.XA patent/CN117373656B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170249434A1 (en) * | 2016-02-26 | 2017-08-31 | Daniela Brunner | Multi-format, multi-domain and multi-algorithm metalearner system and method for monitoring human health, and deriving health status and trajectory |
CN107403072A (zh) * | 2017-08-07 | 2017-11-28 | 北京工业大学 | 一种基于机器学习的2型糖尿病预测预警方法 |
US20200176121A1 (en) * | 2018-11-29 | 2020-06-04 | January, Inc. | Systems, methods, and devices for biophysical modeling and response prediction |
CN113517046A (zh) * | 2021-04-15 | 2021-10-19 | 中南大学 | 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质 |
CN115458174A (zh) * | 2022-09-20 | 2022-12-09 | 吉林大学 | 一种糖尿病视网膜病变智能诊断模型的构建方法 |
CN115691788A (zh) * | 2022-10-27 | 2023-02-03 | 北京理工大学 | 一种基于异构数据的双重注意力耦合网络糖尿病分类系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117373656B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ribeiro et al. | The entropy universe | |
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
CN113744873B (zh) | 一种基于任务分解策略的发热待查辅助鉴别诊断系统 | |
Salem et al. | Fine-tuning fuzzy KNN classifier based on uncertainty membership for the medical diagnosis of diabetes | |
CN113838577B (zh) | 便捷化分层老年mods早期死亡风险评估模型、装置及建立方法 | |
Khan et al. | Development of national health data warehouse for data mining. | |
CN107729450A (zh) | 一种基于元数据的智能化区域移动医疗集成数据中心系统原型 | |
Gómez-Pulido et al. | Predicting the appearance of hypotension during hemodialysis sessions using machine learning classifiers | |
Botros et al. | Cnn and svm-based models for the detection of heart failure using electrocardiogram signals | |
Tirado-Martin et al. | BioECG: Improving ECG biometrics with deep learning and enhanced datasets | |
Balnarsaiah et al. | Parkinson’s disease detection using modified ResNeXt deep learning model from brain MRI images | |
WO2022141925A1 (zh) | 一种智能医学服务系统、方法及存储介质 | |
Márquez et al. | Positive and negative evidence accumulation clustering for sensor fusion: An application to heartbeat clustering | |
Mansouri | Application of Neural Networks in the Medical Field | |
CN117373656B (zh) | 一种基于异构数据的糖尿病弱监督分类方法 | |
Prasad et al. | Chronic Kidney Disease Risk Prediction Using Machine Learning Techniques | |
Wong et al. | Estimating Patient-Level Uncertainty in Seizure Detection Using Group-Specific Out-of-Distribution Detection Technique | |
CN115577168A (zh) | 基于人工智能的智慧医疗大数据处理方法及智慧医疗系统 | |
CN113611434A (zh) | 一种辅助问诊系统及方法 | |
CN107491662A (zh) | 一种基于元数据的智能化区域移动医疗集成数据中心系统架构 | |
CN114444563A (zh) | 一种异常医疗费用的检测方法、装置及存储介质 | |
CN115631868B (zh) | 一种基于提示学习模型的传染病预警直报方法和系统 | |
Zhang et al. | Cardiac arrhythmia classification with rejection of ECG recordings based on uncertainty estimation from deep neural networks | |
Jiyun et al. | Patient similarity measuring with graph embedded learning and triplet network | |
Payal et al. | Recent advances of Machine Learning Techniques in Biomedicine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |