CN114093445A - 一种基于偏多标记学习的患者筛选标记方法 - Google Patents
一种基于偏多标记学习的患者筛选标记方法 Download PDFInfo
- Publication number
- CN114093445A CN114093445A CN202111369388.9A CN202111369388A CN114093445A CN 114093445 A CN114093445 A CN 114093445A CN 202111369388 A CN202111369388 A CN 202111369388A CN 114093445 A CN114093445 A CN 114093445A
- Authority
- CN
- China
- Prior art keywords
- data
- class
- sub
- representing
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012216 screening Methods 0.000 title claims abstract description 8
- 201000010099 disease Diseases 0.000 claims abstract description 43
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 43
- 230000001575 pathological effect Effects 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 238000009826 distribution Methods 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 24
- 238000007689 inspection Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000001186 cumulative effect Effects 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 8
- 239000003550 marker Substances 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims description 5
- 238000003379 elimination reaction Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 7
- 238000003745 diagnosis Methods 0.000 abstract description 6
- 230000036541 health Effects 0.000 abstract description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 7
- 206010019233 Headaches Diseases 0.000 description 3
- 208000010340 Sleep Deprivation Diseases 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 231100000869 headache Toxicity 0.000 description 3
- 206010037660 Pyrexia Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 239000010754 BS 2869 Class F Substances 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明属于偏多标记学习、数据挖掘领域,具体涉及一种基于偏多标记学习的患者筛选标记方法;该方法包括:获取患者的病理样本数据,将病理样本数据输入到训练好的基于偏多标记学习的医疗文本语义信息大数据预测模型中,预测患者的患病类型和患病概率,根据患者的患病类型和患病概率对患者进行标记;本发明对分类类别不平衡性问题进行进一步的处理,可以预测到更精准的标记结果,病人可根据此标记结果进行健康管理,医生也可以根据此结果对病人进行下一步诊断,具有良好的社会效益和经济效益。
Description
技术领域
本发明属于偏多标记学习、数据挖掘领域,具体涉及一种基于偏多标记学习的患者筛选标记方法。
背景技术
现实世界难以直接获取大量的标记数据,而待标记数据的庞大规模及专业知识的匮乏往往导致人工标注代价十分昂贵。比如,医学图像标注工作需要丰富的领域知识;事实上,在现实世界中,弱监督信息比强监督信息更容易获取,同时,在学习阶段弱监督信息比无监督信息更具方向性。偏多标记学习逐渐成为一种重要的弱监督机器学习框架,在偏多标记学习中,每个示例对应一个候选标记集合,多个真实标记隐藏在候选标记集合中。偏多标记学习的任务就是在监督信息不明确的情况下推导出由示例到其真实标记的映射关系。
偏多标记学习任务广泛地存在于现实世界中,比如医疗诊断中,医生很容易排除病人患某些疾病的可能但却难以从若干相似疾病中确诊,对于一个因感冒导致睡眠不足而头疼的患者,医生可以初步判定导致其头疼的主要原因是感冒,发烧或者睡眠不足,即此时头痛对应的候选标记集合是{感冒,发烧,睡眠不足},但其真实原因需要进一步通过病理文本语义信息进行诊断。由于导致人患病的原因有很多,每个患者有各自的患病原因,这导致了病理文本中类别不平衡问题。类别不平衡也叫数据倾斜,是指分类任务中不同类别训练样例数目差别很大的情况,现有技术中,类别不平衡的样本会导致训练模型侧重样本数目较多类别,而忽略样本数目较少类别,这样模型的泛化能力就会受到影响,从而影响诊断结果的精确度。由于类别不平衡问题的出现导致分类器会大大地增加因数据不平衡性而无法满足分类要求的概率,因此如何在构建分类模型之前,对分类类别不平衡性问题进行进一步的处理以获得更精准的诊断结果是个急需解决的问题。
发明内容
有鉴于此,本发明提出了一种基于偏多标记学习的患者筛选标记方法,该方法包括:获取患者的病理样本数据,将病理样本数据输入到基于偏多标记学习的医疗文本语义信息大数据预测模型中,预测患者的患病类型和患病概率,根据患者的患病类型和患病概率对患者进行标记;
采用基于偏多标记学习的医疗文本语义信息大数据预测模型对病理样本数据进行处理的过程为:
S1:对病理样本数据进行预处理,得到病理样本数据对应的候选标记集;预处理包括对病理样本数据进行数据缺失处理和数据类型转换;
S2:提取预处理后的数据中的类别不平衡医疗文本语义信息,根据类别不平衡医疗文本语义信息构建偏多标记候选数据集;
S3:对偏多标记候选数据集进行网格聚类操作,得到每个检查项目对应的簇;
S4:采用改进EM算法计算每个簇的类后验概率;
S5:将所有类后验概率输入到朴素贝叶斯网格,获得融合后的最终类后验概率,最终类后验概率为该患者患此病的概率;
S6:计算所有类后验概率的联合概率,根据联合概率计算类节点后验概率;根据后验概率最大准则对类节点后验概率进行分类,得到预测的患者患病类别。
进一步的,对病理样本数据进行数据缺失处理包括:根据患者病理样本数据中无缺失值的n个样本点构建一条光滑的曲线并使曲线通过所有的样本点;将含有缺失值的样本所对应的属性点x带入曲线,获得样本中所缺失数据的近似值;将缺失数据的近似值带入到样本数据中,扩充缺失的数据;曲线表示为:
其中,yi表示根据第i个样本点确定的曲线函数,xi表示第n个属性点x的坐标,xj表示第n-1个属性点x的坐标。
进一步的,对病理样本数据进行数据类型转换包括:将病理样本数据转换为对应候选标记集合的q维二值向量Bn,转换公式为:
优选的,构建偏多标记候选数据集的过程包括:
S1:根据k近邻加权聚合算法求解患者的病理样本所对应的医疗文本语义信息中每个检查项目的置信度向量;
S2:根据置信度向量对候选标记集进行消歧操作,得到多类消歧数据集;
S3:对多类消歧数据集进行类别平衡处理,得到偏多标记数据集。
进一步的,对多类消歧数据集进行类别平衡处理包括:
S1:对多类消歧数据集中所有类别集合的大小进行阈值约束;
S2:对进行阈值约束后的多类消歧数据集中所有类别集合设定类编码,根据类编码结合扰动过采样技术对进行阈值约束后的所有类别集合进行采样,采样公式为:
其中,表示生成的候选标记集合,λm表示维数m所表示的数据结合,表示维数m所表示的类别集合,m表示维数,q表示最大维数,表示二值向量,表示第n+1个样本的二值向量,表示第n-1个样本的二值向量,xr表示第n+1个样本的候选标记集合,xi表示第n-1个样本的候选标记集合,ω表示特征空间新示例的生成维度;
S3:根据采样操作扩充偏多标记数据集,扩充公式为:
优选的,对偏多标记候选数据集进行网格聚类操作包括:将偏多标记数据集中每一个检查项目映射到网格单元中;依次扫描每个检查项目的对应的网格单元,将每个检查项目对应的每个网格单元中的数据对象个数记为Q;设定的密度阈值,将数据对象个数Q与设定的密度阈值进行比较,将数据对象个数高于密度阈值的网格单元作为高密度网格单元,低于密度阈值的网格单元作为低密度网格单元;删除低密度网格单元中的数据对象,找出高密度网格单元数据对象和与之相邻的高密度网格单元数据对象,并分别计算两者的相似度和相异度,当相似度大于相似度阈值时则将两者作为一个簇,并对簇值加一,当簇值达到簇阈值时输出簇。
优选的,采用改进EM算法计算每个簇的类后验概率包括:
根据香农熵编码准则,得到子高斯的函数值表达式;
设定每个簇的子高斯数存在范围,采用子高斯消除策略消除对混合分布影响最小的子高斯,得到需要的子高斯及其最优分布;根据子高斯的函数值表达式对最优分布的子高斯进行参数估计,得到子高斯参数;
根据每个簇的所有子高斯及其参数依次计算每个簇中每个子高斯的累积对数似然函数值,将累积对数似然函数值转换为类后验概率;
根据当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数更新类后验概率,得到每个簇的类后验概率。
进一步的,子高斯参数的公式为:
其中,ω表示权重,μ表示均值向量,μi表示第i个子高斯的均值向量,∑表示协方差矩阵,T表示维度矢量,i表示子高斯个数,xt表示子高斯数据集合,λ表示模型参数集合。
进一步的,计算累积对数似然函数值的公式为:
其中,x(t)表示全部数据集合,ξ表示子高斯i的先验概率,e表示子高斯个数,φ表示子高斯i的参数。
进一步的,所有类后验概率的联合概率为:
其中,xr表示患者患r病的概率,a表示患者所医生所述患病类型概率,c表示患者的患病种类,r表示该患者可能的患病种类。
本发明的有益效果为:本发明将k近邻加权聚合表示每个偏多标记的置信度向量来得到一个多类消歧数据集,并采用特定的过采样策略来扩充原始的偏多标记数据集,从而缓解了类别不平衡对偏多标记学习性能影响,增强了模型对类别不平衡医疗文本语言信息的分类能力;将数据空间中的每一维平均分割成等距离的区间,将对象空间量化成有限数目的单元从而形成网格结构,所有聚类结构都在该结构上进行,从而使得处理医疗文本数据速度快,其处理时间独立于数据对象数,而仅依赖于量化空间中每一维的单元数;利用改进EM算法来解决的医疗文本信息中概率密度分布偏差的问题,得到类后验概率,从而将病患的患病数据在特征空间的分布用多个子高斯分布的凸函数来表示,更好的拟合了数据的“真实”分布;提出了用于类别不平衡医疗文本语义信息的类后验概率算法,将多维高斯分布分解成为多个一维高斯分布分别进行训练,将医疗文本语义信息中特征的类后验概率值作为朴素贝叶斯网络的输入来得到最终的结果,通过将多维高斯分布分解成为多个一维高斯分布,可有效地避免多维数据处理中的维数问题;本发明对分类类别不平衡性问题进行进一步的处理,可以预测到更精准的标记结果,病人可根据此标记结果进行健康管理,医生也可以根据此结果对病人进行下一步诊断,具有良好的社会效益和经济效益。
附图说明
图1为本发明中基于偏多标记学习的患者筛选标记方法的流程图;
图2为本发明中累积似然函数值计算示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于偏多标记学习的患者筛选标记方法,如图1所示,所述方法包括:获取患者的病理样本数据,将病理样本数据输入到基于偏多标记学习的医疗文本语义信息大数据预测模型中,预测患者的患病类型和患病概率,根据患者的患病类型和患病概率对患者进行标记;病理样本数据为患者在医院根据医生对患者患病种类进行预测得到的一种或一种以上疾病范围内的每个检查项目进行检查后得到的检查数据。
采用基于偏多标记学习的医疗文本语义信息大数据预测模型对病理样本数据进行处理的过程为:
S1:对病理样本数据进行预处理,得到病理样本数据对应的候选标记集;预处理包括对病理样本数据进行数据缺失处理和数据类型转换;
S2:提取预处理后的数据中的类别不平衡医疗文本语义信息,根据类别不平衡医疗文本语义信息构建偏多标记候选数据集;
S3:对偏多标记候选数据集进行网格聚类操作,得到每个检查项目对应的簇;
S4:采用改进EM算法计算每个簇的类后验概率;
S5:将所有类后验概率输入到朴素贝叶斯网格,获得融合后的最终类后验概率,最终类后验概率为该患者患此病的概率;
S6:计算所有类后验概率的联合概率,根据联合概率计算类节点后验概率;根据后验概率最大准则对类节点后验概率进行分类,得到预测的患者患病类别。
进一步的,对病理样本数据进行数据缺失处理包括:根据患者病理样本数据中无缺失值的n个样本点构建一条光滑的曲线并使曲线通过所有的样本点;将含有缺失值的样本所对应的属性点x带入曲线,获得样本中所缺失数据的近似值;将缺失数据的近似值带入到样本数据中,扩充缺失的数据;曲线表示为:
其中,yi表示根据第i个样本点确定的曲线函数,xi表示第n个属性点x的坐标,xj表示第n-1个属性点x的坐标。
进一步的,对病理样本数据进行数据类型转换包括:将病理样本数据转换为对应候选标记集合的q维二值向量Bn,转换公式为:
优选的,构建偏多标记候选数据集的过程包括:
S1:根据k近邻加权聚合算法求解患者的病理样本所对应的医疗文本语义信息中每个检查项目的置信度向量;具体过程为:
根据二值向量Bn,距离度量函数采用欧式距离,获得病理样本所对应的医疗文本语义信息中每个检查项目的置信度向量βi,公式为:
其中,xi表示样本中第i个点与原点之间的距离,xj表示样本中第j个点与原点之间的距离,xk表示样本中心点到原点之间的距离,d(xi,xj)表示第i个点与第j个点之间的绝对值距离,d(xi,xk)表示第i个点与样本中心点之间的绝对值距离,表示初始置信度向量,表示样本x的k近邻在训练样本集中的索引集合,置信度向量可视为对k近邻样本候选标记集合的加权打分。
S2:根据置信度向量对候选标记集进行消歧操作,得到多类消歧数据集;具体过程为:
其中,αj表示消歧后类别标签为λj的训练样例集合,xi表示样本数据集合,λj表示类别标签集合,m表示最大维数,q表示数据维数集合,l表示最多类别标签数,βik表示在维数和标签数确定情况下的类别标签。
消歧操作为:根据之前获得的每个检查项目的置信度向量,将检查项目的置信度向量的数值按从大到小排序,取出最中间序列的数值,将此数值作为平均值,将比平均值大的数值与该平均值做减法,获得相减数值,将该平均值与比平均值小的数值做减法,也得到相减数值,设定合适的阈值范围,如果相减数值在这个阈值范围之间,则将在范围内的数值对应的候选标记集保留下来,如果相减数值不在这个阈值范围区间,则将不在范围内的数值对应的候选标记集舍去。
S3:对多类消歧数据集进行类别平衡处理,得到偏多标记数据集。
进一步的,对多类消歧数据集进行类别平衡处理包括:
S1:对多类消歧数据集中所有类别集合的大小进行阈值约束;对元素数量小于阈值的数据集αj,即|αj|<τ,遍历的第j列并降序排列,取前τ-|αj|个样例加入αj中,遍历过程为通过将来自其他类别Gk(k≠j)的数据转换成为αj来进行,同时保证不损害各自的阈值约束;
S2:对进行阈值约束后的多类消歧数据集中所有类别集合设定类编码,优选的,设定消歧后数据集样本中数量最多的类别所对应的类编码为y*=arg max1≤j≤q|αj|;根据类编码结合扰动过采样技术对进行阈值约束后的所有类别集合进行采样,采样公式为:
其中,表示生成的候选标记集合,λm表示维数m所表示的数据结合,表示维数m所表示的类别集合,m表示维数,q表示最大维数,表示二值向量,表示第n+1个样本的二值向量,表示第n-1个样本的二值向量,xr表示第n+1个样本的候选标记集合,xi表示第n-1个样本的候选标记集合,ω表示特征空间新示例的生成维度,sign(z)函数返回一个q维的二值向量,若返回值大于0则二值向量值为1否则为0;
S3:根据采样操作扩充偏多标记数据集,扩充公式为:
对除了以外的所有类别λj,均执行采样操作,每个类别共执行次,表示消歧后数据集中样本数量最多的类别,表示采样操作得到数据集中样本数量最多的类别所需要的次数,|αj|表示采样操作得到除了类别其他每一种类别所需要的次数。
通过上述处理解决了类别不平衡给偏多标记数据集带来的影响。
优选的,对偏多标记候选数据集进行网格聚类操作包括:将偏多标记数据集中每一个检查项目映射到网格单元中;依次扫描每个检查项目的对应的网格单元,将每个检查项目对应的每个网格单元中的数据对象个数记为Q;设定的密度阈值,将数据对象个数Q与设定的密度阈值进行比较,将数据对象个数高于密度阈值的网格单元作为高密度网格单元,低于密度阈值的网格单元作为低密度网格单元;删除低密度网格单元中的数据对象,找出高密度网格单元数据对象和与之相邻的高密度网格单元数据对象,并分别计算两者的相似度和相异度,当相似度大于相似度阈值时则将两者作为一个簇,并对簇值加一,当簇值达到簇阈值时输出簇。
在标准的EM算法中是需要提前设定好子高斯数,但在针对不平衡医疗文本语义信息中,不同的患病类别在特征空间中的分布是不同的,则与之相对应的子高斯数也会随之不同,因此,本发明对标准EM算法进行改进,改进的EM算法可从混合高斯分布中自动获取子高斯数,且能找到“最合理”的子高斯数以及参数,使得其混合分布与样本数据达到最佳的拟合。
优选的,采用改进EM算法计算每个簇的类后验概率包括:
根据香农熵编码准则,得到子高斯的函数值表达式;具体过程为:根据香农熵对由p(y*|θ)产生数据y*进行编码,y*的最短编码长度为|-logp(y*|θ)|。如果θ已知,则整个编码长度为L(θ,y*)=L(θ)+L(y*|θ),根据此原理可以推导出子高斯函数值的表达式:
其中,N为高斯分布中自由参数的个数,n为样本数,knz为权重不为0的子高斯的个数,y*表示d维随机数据集合,θ表示混合高斯分布中设定的参数。
设定每个簇的子高斯数存在范围,采用子高斯消除策略消除对混合分布影响最小的子高斯,得到需要的子高斯及其最优分布;消除策略为:
a、当子高斯权重为0时,则说明子高斯不再作用于混合分布并消除子高斯;
b、在特征空间中通过迭代寻找最能刻画参数分布“几何形状”的若干个子高斯,并使得这些子高斯对应的函数值表达式达到最小,同时其累积对数似然函数值达到最大;
考虑到EM算法的收敛条件L(θ,y*)并不一定是全局的最小值,对于αm(m=1,2,...,k)中的最小值,消除αm的最小值并评价L(θ,y*)是否更小,如果子高斯对应的L(θ,y*)函数值达到最小,同时累积对数似然函数值达到最大,就能够最大限度发现数据在特征空间的分布形状,此时得到的子高斯及其分布达到最优。
根据子高斯的函数值表达式对最优分布的子高斯进行参数估计,得到子高斯参数;最大似然估计的目的是找到一组新的参数λ*使其满足p(X|λ*)≥p(X|λ),为了获得参数λ*首先引入辅助函数;辅助函数为:
其中,N表示超参数,C表示超参数个数,T表示维度矢量,xt表示子高斯数据集合,ωi表示第i个子高斯的权重,μi表示第i个子高斯的均值向量,∑表示协方差矩阵。
在改进EM算法中,如果Q(λ,λ*)≥Q(λ,λ),则p(X|λ*)≥p(X|λ),从Q函数中获得子高斯参数估计,公式为:
其中,i表示子高斯个数,λ表示模型参数集合。
如图2所示,根据每个簇的所有子高斯及其参数依次计算每个簇中每个子高斯的累积对数似然函数值,将累积对数似然函数值转换为类后验概率;计算累积对数似然函数值的公式为:
其中,x(t)表示全部数据集合,ξ表示是子高斯i的先验概率,e表示子高斯个数,φ表示子高斯i的参数,p(x(t)|φ,ξ)≡N(μi|j,∑i|j)是子高斯i的高斯密度函数;将累积对数似然函数(G个输出值)归一化到[0,1]区间,得到每个簇的类后验概率,将其作为不同患病类别的概率值。
根据当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数更新类后验概率,得到每个簇的类后验概率;更新过程为:设定阈值,若当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数之差大于阈值,则更新类后验概率,即将当前类后验概率作为簇的类后验概率,若当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数之差小于阈值,则不更新类后验概率,即将上一次类后验概率作为簇的类后验概率。
从特征维度上看,类后验概率为将患者的类别不平衡医疗文本语义信息看作多维高斯分布,将多维高斯分布分解为多个一维高斯分布分别进行训练和学习得到。
进一步的,将多个类后验概率的概率值作为朴素贝叶斯网络的输入,在朴素贝叶斯框架下进行融合得到最终的类后验概率,即为患者所患此病的概率。在朴素贝叶斯分类器中,类节点是所有特征节点的父节点,所有节点的联合概率,即所有类后验概率的联合概率为:
其中,xr表示患者患r病的概率,a表示患者所医生所述患病类型概率,c表示患者的患病种类,r表示该患者可能的患病种类。
进一步的,从分类样本上,将所有类后验概率值进行归一化组成一个输出矢量,而后形成一个后验概率矩阵xtj(t=1,2,...,R;j=1,2,...,k),将这R个后验概率矢量作为朴素贝叶斯的输入,并再次计算其联合概率,根据联合概率计算类节点后验概率,联合概率等于类节点后验概率相加;将类节点后验概率输入到朴素贝叶斯分类器中,根据后验概率最大准则将类别F赋值为max{p(F|x1,x2,...,xr)},则最终可得出最终患者所患此病的类型。
对于不平衡数据处理,当一个分类任务的数据集中来自不同类别的样本数目相差悬殊时,称该数据集为“类别不平衡”,以现实任务为例:在处理类别不平衡医疗文本语义信息任务中,每一个检查项目都会产生一个新的样本,而患者最终是否患这种病决定了这个样本的标签。显然,只有很少一部分的患者患同样的病,这就导致了最终得到的训练数据集中正/负例样本数量差距悬殊,尽管少数患病样本数量比较少,表示的质量也更差,但其通常携带更重要的信息,因此需要更多的关心模型正确分类少数样本的能力;本发明将k近邻加权聚合表示每个偏多标记的置信度向量来得到一个多类消歧数据集,并采用特定的过采样策略来扩充原始的偏多标记数据集,从而缓解了类别不平衡对偏多标记学习性能影响,增强了模型对类别不平衡医疗文本语言信息的分类能力。
在聚类层次方面,传统的聚类方法是基于距离的,这种基于距离的聚类算法只能发现球状簇,在处理医疗文本数据这样的大数据集以及高维数据集时,不够有效。另一方面传统的聚类方法个数往往依赖于参数指定,这对于后续处理是非常困难的。本发明将数据空间中的每一维平均分割成等距离的区间,将对象空间量化成有限数目的单元从而形成网格结构,所有聚类结构都在该结构上进行,从而使得处理医疗文本数据速度快,其处理时间独立于数据对象数,而仅依赖于量化空间中每一维的单元数。
在改进EM算法方面,类别不平衡的医疗文本语义信息本质上的复杂性和不确定性,当样本点的概率密度比较离散、训练样本的选取不够充分或者不具有代表性时,会导致样本点不符合预先假设的参数化分布密度,这导致了各个高斯分布之间的重叠及分类混淆增大,从而使预测出患者的患病类型和患病概率与医生所预估的数据有较大幅度的差距,本发明利用改进EM算法来解决的医疗文本信息中概率密度分布偏差的问题,此EM算法能预先设定好子高斯数的最大值和最小值,采用子高斯消除策略,消除对混合分布影响最小的子高斯,找到“最合理”的子高斯及其参数,使得其混合分布与样本数据达到最佳拟合。当获取子高斯及相应参数后,计算各子高斯的累积对数似然函数,并将这个函数值归一化作为待分类后验概率,从而将病患的患病数据在特征空间的分布用多个子高斯分布的凸函数来表示,更好的拟合了数据的“真实”分布。
在类后验概率的计算过程中,本发明利用了朴素贝叶斯的架构,在此基础上提出了用于类别不平衡医疗文本语义信息的类后验概率算法,将多维高斯分布分解成为多个一维高斯分布分别进行训练,将医疗文本语义信息中特征的类后验概率值作为朴素贝叶斯网络的输入来得到最终的结果,通过将多维高斯分布分解成为多个一维高斯分布,可有效地避免多维数据处理中的维数问题;本发明对分类类别不平衡性问题进行进一步的处理,可以预测到更精准的标记结果,病人可根据此标记结果进行健康管理,医生也可以根据此结果对病人进行下一步诊断,具有良好的社会效益和经济效益。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于偏多标记学习的患者筛选标记方法,其特征在于,包括:获取患者的病理样本数据,将病理样本数据输入到基于偏多标记学习的医疗文本语义信息大数据预测模型中,预测患者的患病类型和患病概率,根据患者的患病类型和患病概率对患者进行标记;
采用基于偏多标记学习的医疗文本语义信息大数据预测模型对病理样本数据进行处理的过程为:
S1:对病理样本数据进行预处理,得到病理样本数据对应的候选标记集;预处理包括对病理样本数据进行数据缺失处理和数据类型转换;
S2:提取候选标记集的类别不平衡医疗文本语义信息,根据类别不平衡医疗文本语义信息构建偏多标记候选数据集;
S3:对偏多标记候选数据集进行网格聚类操作,得到每个检查项目对应的簇;
S4:采用改进EM算法计算每个簇的类后验概率;
S5:将所有类后验概率输入到朴素贝叶斯网格,获得融合后的最终类后验概率,最终类后验概率为该患者患此病的概率;
S6:计算所有类后验概率的联合概率,根据联合概率计算类节点后验概率;根据后验概率最大准则对类节点后验概率进行分类,得到预测的患者患病类别。
4.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,构建偏多标记候选数据集的过程包括:
S1:根据k近邻加权聚合算法求解患者的病理样本所对应的医疗文本语义信息中每个检查项目的置信度向量;
S2:根据置信度向量对候选标记集进行消歧操作,得到多类消歧数据集;
S3:对多类消歧数据集进行类别平衡处理,得到偏多标记数据集。
5.根据权利要求4所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,对多类消歧数据集进行类别平衡处理包括:
S1:对多类消歧数据集中所有类别集合的大小进行阈值约束;
S2:对进行阈值约束后的多类消歧数据集中所有类别集合设定类编码,根据类编码结合扰动过采样技术对进行阈值约束后的所有类别集合进行采样,采样公式为:
其中,表示生成的候选标记集合,λm表示维数m所表示的数据结合,表示维数m所表示的类别集合,m表示维数,q表示最大维数,表示二值向量,表示第n+1个样本的二值向量,表示第n-1个样本的二值向量,xr表示第n+1个样本的候选标记集合,xi表示第n-1个样本的候选标记集合,ω表示特征空间新示例的生成维度;
S3:根据采样操作扩充偏多标记数据集,扩充公式为:
6.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,对偏多标记候选数据集进行网格聚类操作包括:将偏多标记数据集中每一个检查项目映射到网格单元中;依次扫描每个检查项目的对应的网格单元,将每个检查项目对应的每个网格单元中的数据对象个数记为Q;设定的密度阈值,将数据对象个数Q与设定的密度阈值进行比较,将数据对象个数高于密度阈值的网格单元作为高密度网格单元,低于密度阈值的网格单元作为低密度网格单元;删除低密度网格单元中的数据对象,找出高密度网格单元数据对象和与之相邻的高密度网格单元数据对象,并分别计算两者的相似度和相异度,当相似度大于相似度阈值时则将两者作为一个簇,并对簇值加一,当簇值达到簇阈值时输出簇。
7.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,采用改进EM算法计算每个簇的类后验概率包括:
根据香农熵编码准则,得到子高斯的函数值表达式;
设定每个簇的子高斯数存在范围,采用子高斯消除策略消除对混合分布影响最小的子高斯,得到需要的子高斯及其最优分布;根据子高斯的函数值表达式对最优分布的子高斯进行参数估计,得到子高斯参数;
根据每个簇的所有子高斯及其参数依次计算每个簇中每个子高斯的累积对数似然函数值,将累积对数似然函数值转换为类后验概率;
根据当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数更新类后验概率,得到每个簇的类后验概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111369388.9A CN114093445B (zh) | 2021-11-18 | 2021-11-18 | 一种基于偏多标记学习的患者筛选标记方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111369388.9A CN114093445B (zh) | 2021-11-18 | 2021-11-18 | 一种基于偏多标记学习的患者筛选标记方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114093445A true CN114093445A (zh) | 2022-02-25 |
CN114093445B CN114093445B (zh) | 2024-05-28 |
Family
ID=80301732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111369388.9A Active CN114093445B (zh) | 2021-11-18 | 2021-11-18 | 一种基于偏多标记学习的患者筛选标记方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114093445B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115083616A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 一种基于自监督图聚类的慢性肾病亚型挖掘系统 |
CN116665922A (zh) * | 2023-07-31 | 2023-08-29 | 四川天府智链健康科技有限公司 | 一种医患通信方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090125461A1 (en) * | 2007-11-09 | 2009-05-14 | Microsoft Corporation | Multi-Label Active Learning |
CN106599913A (zh) * | 2016-12-07 | 2017-04-26 | 重庆邮电大学 | 一种基于聚类的多标签不平衡生物医学数据分类方法 |
CN108565019A (zh) * | 2018-04-13 | 2018-09-21 | 合肥工业大学 | 多学科适用的临床检查组合推荐方法及装置 |
CN109119133A (zh) * | 2018-08-03 | 2019-01-01 | 厦门大学 | 基于多标记特征选择及分类的中医临床大数据存储方法 |
CN111128375A (zh) * | 2020-01-10 | 2020-05-08 | 电子科技大学 | 一种基于多标签学习的藏医诊断辅助装置 |
CN111581468A (zh) * | 2020-05-15 | 2020-08-25 | 北京交通大学 | 基于噪声容忍的偏多标记学习方法 |
CN113327666A (zh) * | 2021-06-21 | 2021-08-31 | 青岛科技大学 | 一种胸片疾病多分类网络的多标签局部至全局学习方法 |
-
2021
- 2021-11-18 CN CN202111369388.9A patent/CN114093445B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090125461A1 (en) * | 2007-11-09 | 2009-05-14 | Microsoft Corporation | Multi-Label Active Learning |
CN106599913A (zh) * | 2016-12-07 | 2017-04-26 | 重庆邮电大学 | 一种基于聚类的多标签不平衡生物医学数据分类方法 |
CN108565019A (zh) * | 2018-04-13 | 2018-09-21 | 合肥工业大学 | 多学科适用的临床检查组合推荐方法及装置 |
CN109119133A (zh) * | 2018-08-03 | 2019-01-01 | 厦门大学 | 基于多标记特征选择及分类的中医临床大数据存储方法 |
CN111128375A (zh) * | 2020-01-10 | 2020-05-08 | 电子科技大学 | 一种基于多标签学习的藏医诊断辅助装置 |
CN111581468A (zh) * | 2020-05-15 | 2020-08-25 | 北京交通大学 | 基于噪声容忍的偏多标记学习方法 |
CN113327666A (zh) * | 2021-06-21 | 2021-08-31 | 青岛科技大学 | 一种胸片疾病多分类网络的多标签局部至全局学习方法 |
Non-Patent Citations (3)
Title |
---|
DAMIEN ZUFFEREY ET AL: "Performance comparison of multi-label learning algorithms on clinical data for chronic diseases", 《COMPUTERS IN BIOLOGY AND MEDICINE》, vol. 65, pages 34 - 43 * |
张敏灵;: "偏标记学习研究综述", 数据采集与处理, no. 01 * |
潘主强;张林;张磊;李国正;颜仕星;: "中医临床疾病数据多标记分类方法研究", 计算机科学与探索, no. 08 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115083616A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 一种基于自监督图聚类的慢性肾病亚型挖掘系统 |
CN115083616B (zh) * | 2022-08-16 | 2022-11-08 | 之江实验室 | 一种基于自监督图聚类的慢性肾病亚型挖掘系统 |
JP7404581B1 (ja) | 2022-08-16 | 2023-12-25 | 之江実験室 | 自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム |
CN116665922A (zh) * | 2023-07-31 | 2023-08-29 | 四川天府智链健康科技有限公司 | 一种医患通信方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114093445B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021524099A (ja) | 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法 | |
CN111753101B (zh) | 一种融合实体描述及类型的知识图谱表示学习方法 | |
CN108519971B (zh) | 一种基于平行语料库的跨语种新闻主题相似性对比方法 | |
CN109902714B (zh) | 一种基于多图正则化深度哈希的多模态医学图像检索方法 | |
CN114093445B (zh) | 一种基于偏多标记学习的患者筛选标记方法 | |
Sahu et al. | Hybrid Deep learning based Semi-supervised Model for Medical Imaging | |
CN111581466B (zh) | 特征信息存在噪声的偏多标记学习方法 | |
Jatav | An algorithm for predictive data mining approach in medical diagnosis | |
Verikas et al. | A general framework for designing a fuzzy rule-based classifier | |
Liang et al. | A hidden Markov model approach to testing multiple hypotheses on a tree-transformed gene ontology graph | |
CN114003734A (zh) | 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
Chakradeo et al. | Breast cancer recurrence prediction using machine learning | |
Chandralekha et al. | Performance analysis of various machine learning techniques to predict cardiovascular disease: An emprical study | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
CN114897167A (zh) | 生物领域知识图谱构建方法及装置 | |
Zhao et al. | Incremental author name disambiguation for scientific citation data | |
Zhang et al. | A method of deep belief network image classification based on probability measure rough set theory | |
CN112668633A (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN111708865A (zh) | 一种基于改进XGBoost算法的技术预见及专利预警分析方法 | |
CN111126443A (zh) | 基于随机游走的网络表示学习方法 | |
CN111259106A (zh) | 一种结合神经网络和特征演算的关系抽取方法 | |
Li et al. | CRNN: Integrating classification rules into neural network | |
Raja et al. | A Novel Feature Selection based Ensemble Decision Tree Classification Model for Predicting Severity Level of COPD | |
Boyapati et al. | An Analysis of House Price Prediction Using Ensemble Learning Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240108 Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province Applicant after: Yami Technology (Guangzhou) Co.,Ltd. Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS |
|
GR01 | Patent grant |