CN114093445A - 一种基于偏多标记学习的患者筛选标记方法 - Google Patents

一种基于偏多标记学习的患者筛选标记方法 Download PDF

Info

Publication number
CN114093445A
CN114093445A CN202111369388.9A CN202111369388A CN114093445A CN 114093445 A CN114093445 A CN 114093445A CN 202111369388 A CN202111369388 A CN 202111369388A CN 114093445 A CN114093445 A CN 114093445A
Authority
CN
China
Prior art keywords
data
class
sub
representing
patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111369388.9A
Other languages
English (en)
Other versions
CN114093445B (zh
Inventor
王进
陆志
周继聪
孙开伟
杜雨露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111369388.9A priority Critical patent/CN114093445B/zh
Publication of CN114093445A publication Critical patent/CN114093445A/zh
Application granted granted Critical
Publication of CN114093445B publication Critical patent/CN114093445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于偏多标记学习、数据挖掘领域,具体涉及一种基于偏多标记学习的患者筛选标记方法;该方法包括:获取患者的病理样本数据,将病理样本数据输入到训练好的基于偏多标记学习的医疗文本语义信息大数据预测模型中,预测患者的患病类型和患病概率,根据患者的患病类型和患病概率对患者进行标记;本发明对分类类别不平衡性问题进行进一步的处理,可以预测到更精准的标记结果,病人可根据此标记结果进行健康管理,医生也可以根据此结果对病人进行下一步诊断,具有良好的社会效益和经济效益。

Description

一种基于偏多标记学习的患者筛选标记方法
技术领域
本发明属于偏多标记学习、数据挖掘领域,具体涉及一种基于偏多标记学习的患者筛选标记方法。
背景技术
现实世界难以直接获取大量的标记数据,而待标记数据的庞大规模及专业知识的匮乏往往导致人工标注代价十分昂贵。比如,医学图像标注工作需要丰富的领域知识;事实上,在现实世界中,弱监督信息比强监督信息更容易获取,同时,在学习阶段弱监督信息比无监督信息更具方向性。偏多标记学习逐渐成为一种重要的弱监督机器学习框架,在偏多标记学习中,每个示例对应一个候选标记集合,多个真实标记隐藏在候选标记集合中。偏多标记学习的任务就是在监督信息不明确的情况下推导出由示例到其真实标记的映射关系。
偏多标记学习任务广泛地存在于现实世界中,比如医疗诊断中,医生很容易排除病人患某些疾病的可能但却难以从若干相似疾病中确诊,对于一个因感冒导致睡眠不足而头疼的患者,医生可以初步判定导致其头疼的主要原因是感冒,发烧或者睡眠不足,即此时头痛对应的候选标记集合是{感冒,发烧,睡眠不足},但其真实原因需要进一步通过病理文本语义信息进行诊断。由于导致人患病的原因有很多,每个患者有各自的患病原因,这导致了病理文本中类别不平衡问题。类别不平衡也叫数据倾斜,是指分类任务中不同类别训练样例数目差别很大的情况,现有技术中,类别不平衡的样本会导致训练模型侧重样本数目较多类别,而忽略样本数目较少类别,这样模型的泛化能力就会受到影响,从而影响诊断结果的精确度。由于类别不平衡问题的出现导致分类器会大大地增加因数据不平衡性而无法满足分类要求的概率,因此如何在构建分类模型之前,对分类类别不平衡性问题进行进一步的处理以获得更精准的诊断结果是个急需解决的问题。
发明内容
有鉴于此,本发明提出了一种基于偏多标记学习的患者筛选标记方法,该方法包括:获取患者的病理样本数据,将病理样本数据输入到基于偏多标记学习的医疗文本语义信息大数据预测模型中,预测患者的患病类型和患病概率,根据患者的患病类型和患病概率对患者进行标记;
采用基于偏多标记学习的医疗文本语义信息大数据预测模型对病理样本数据进行处理的过程为:
S1:对病理样本数据进行预处理,得到病理样本数据对应的候选标记集;预处理包括对病理样本数据进行数据缺失处理和数据类型转换;
S2:提取预处理后的数据中的类别不平衡医疗文本语义信息,根据类别不平衡医疗文本语义信息构建偏多标记候选数据集;
S3:对偏多标记候选数据集进行网格聚类操作,得到每个检查项目对应的簇;
S4:采用改进EM算法计算每个簇的类后验概率;
S5:将所有类后验概率输入到朴素贝叶斯网格,获得融合后的最终类后验概率,最终类后验概率为该患者患此病的概率;
S6:计算所有类后验概率的联合概率,根据联合概率计算类节点后验概率;根据后验概率最大准则对类节点后验概率进行分类,得到预测的患者患病类别。
进一步的,对病理样本数据进行数据缺失处理包括:根据患者病理样本数据中无缺失值的n个样本点构建一条光滑的曲线并使曲线通过所有的样本点;将含有缺失值的样本所对应的属性点x带入曲线,获得样本中所缺失数据的近似值;将缺失数据的近似值带入到样本数据中,扩充缺失的数据;曲线表示为:
Figure BDA0003361847840000031
其中,yi表示根据第i个样本点确定的曲线函数,xi表示第n个属性点x的坐标,xj表示第n-1个属性点x的坐标。
进一步的,对病理样本数据进行数据类型转换包括:将病理样本数据转换为对应候选标记集合的q维二值向量Bn,转换公式为:
Figure BDA0003361847840000032
其中,m表示维数,n表示第n个样本,
Figure BDA0003361847840000033
表示第n个样本的维数来自于第m维,q表示最大维数,λm表示维数m所表示的数据集合,S表示全部数据集合。
优选的,构建偏多标记候选数据集的过程包括:
S1:根据k近邻加权聚合算法求解患者的病理样本所对应的医疗文本语义信息中每个检查项目的置信度向量;
S2:根据置信度向量对候选标记集进行消歧操作,得到多类消歧数据集;
S3:对多类消歧数据集进行类别平衡处理,得到偏多标记数据集。
进一步的,对多类消歧数据集进行类别平衡处理包括:
S1:对多类消歧数据集中所有类别集合的大小进行阈值约束;
S2:对进行阈值约束后的多类消歧数据集中所有类别集合设定类编码,根据类编码结合扰动过采样技术对进行阈值约束后的所有类别集合进行采样,采样公式为:
Figure BDA0003361847840000034
Figure BDA0003361847840000035
其中,
Figure BDA0003361847840000036
表示生成的候选标记集合,λm表示维数m所表示的数据结合,
Figure BDA0003361847840000037
表示维数m所表示的类别集合,m表示维数,q表示最大维数,
Figure BDA0003361847840000038
表示二值向量,
Figure BDA0003361847840000039
表示第n+1个样本的二值向量,
Figure BDA00033618478400000310
表示第n-1个样本的二值向量,xr表示第n+1个样本的候选标记集合,xi表示第n-1个样本的候选标记集合,ω表示特征空间新示例的生成维度;
S3:根据采样操作扩充偏多标记数据集,扩充公式为:
Figure BDA0003361847840000041
其中,
Figure BDA0003361847840000042
表示通过采样操作所扩充的偏多标记数据集,
Figure BDA0003361847840000043
表示样本点。
优选的,对偏多标记候选数据集进行网格聚类操作包括:将偏多标记数据集中每一个检查项目映射到网格单元中;依次扫描每个检查项目的对应的网格单元,将每个检查项目对应的每个网格单元中的数据对象个数记为Q;设定的密度阈值,将数据对象个数Q与设定的密度阈值进行比较,将数据对象个数高于密度阈值的网格单元作为高密度网格单元,低于密度阈值的网格单元作为低密度网格单元;删除低密度网格单元中的数据对象,找出高密度网格单元数据对象和与之相邻的高密度网格单元数据对象,并分别计算两者的相似度和相异度,当相似度大于相似度阈值时则将两者作为一个簇,并对簇值加一,当簇值达到簇阈值时输出簇。
优选的,采用改进EM算法计算每个簇的类后验概率包括:
根据香农熵编码准则,得到子高斯的函数值表达式;
设定每个簇的子高斯数存在范围,采用子高斯消除策略消除对混合分布影响最小的子高斯,得到需要的子高斯及其最优分布;根据子高斯的函数值表达式对最优分布的子高斯进行参数估计,得到子高斯参数;
根据每个簇的所有子高斯及其参数依次计算每个簇中每个子高斯的累积对数似然函数值,将累积对数似然函数值转换为类后验概率;
根据当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数更新类后验概率,得到每个簇的类后验概率。
进一步的,子高斯参数的公式为:
Figure BDA0003361847840000044
Figure BDA0003361847840000051
Figure BDA0003361847840000052
其中,ω表示权重,μ表示均值向量,μi表示第i个子高斯的均值向量,∑表示协方差矩阵,T表示维度矢量,i表示子高斯个数,xt表示子高斯数据集合,λ表示模型参数集合。
进一步的,计算累积对数似然函数值的公式为:
Figure BDA0003361847840000053
其中,x(t)表示全部数据集合,ξ表示子高斯i的先验概率,e表示子高斯个数,φ表示子高斯i的参数。
进一步的,所有类后验概率的联合概率为:
Figure BDA0003361847840000054
其中,xr表示患者患r病的概率,a表示患者所医生所述患病类型概率,c表示患者的患病种类,r表示该患者可能的患病种类。
本发明的有益效果为:本发明将k近邻加权聚合表示每个偏多标记的置信度向量来得到一个多类消歧数据集,并采用特定的过采样策略来扩充原始的偏多标记数据集,从而缓解了类别不平衡对偏多标记学习性能影响,增强了模型对类别不平衡医疗文本语言信息的分类能力;将数据空间中的每一维平均分割成等距离的区间,将对象空间量化成有限数目的单元从而形成网格结构,所有聚类结构都在该结构上进行,从而使得处理医疗文本数据速度快,其处理时间独立于数据对象数,而仅依赖于量化空间中每一维的单元数;利用改进EM算法来解决的医疗文本信息中概率密度分布偏差的问题,得到类后验概率,从而将病患的患病数据在特征空间的分布用多个子高斯分布的凸函数来表示,更好的拟合了数据的“真实”分布;提出了用于类别不平衡医疗文本语义信息的类后验概率算法,将多维高斯分布分解成为多个一维高斯分布分别进行训练,将医疗文本语义信息中特征的类后验概率值作为朴素贝叶斯网络的输入来得到最终的结果,通过将多维高斯分布分解成为多个一维高斯分布,可有效地避免多维数据处理中的维数问题;本发明对分类类别不平衡性问题进行进一步的处理,可以预测到更精准的标记结果,病人可根据此标记结果进行健康管理,医生也可以根据此结果对病人进行下一步诊断,具有良好的社会效益和经济效益。
附图说明
图1为本发明中基于偏多标记学习的患者筛选标记方法的流程图;
图2为本发明中累积似然函数值计算示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于偏多标记学习的患者筛选标记方法,如图1所示,所述方法包括:获取患者的病理样本数据,将病理样本数据输入到基于偏多标记学习的医疗文本语义信息大数据预测模型中,预测患者的患病类型和患病概率,根据患者的患病类型和患病概率对患者进行标记;病理样本数据为患者在医院根据医生对患者患病种类进行预测得到的一种或一种以上疾病范围内的每个检查项目进行检查后得到的检查数据。
采用基于偏多标记学习的医疗文本语义信息大数据预测模型对病理样本数据进行处理的过程为:
S1:对病理样本数据进行预处理,得到病理样本数据对应的候选标记集;预处理包括对病理样本数据进行数据缺失处理和数据类型转换;
S2:提取预处理后的数据中的类别不平衡医疗文本语义信息,根据类别不平衡医疗文本语义信息构建偏多标记候选数据集;
S3:对偏多标记候选数据集进行网格聚类操作,得到每个检查项目对应的簇;
S4:采用改进EM算法计算每个簇的类后验概率;
S5:将所有类后验概率输入到朴素贝叶斯网格,获得融合后的最终类后验概率,最终类后验概率为该患者患此病的概率;
S6:计算所有类后验概率的联合概率,根据联合概率计算类节点后验概率;根据后验概率最大准则对类节点后验概率进行分类,得到预测的患者患病类别。
进一步的,对病理样本数据进行数据缺失处理包括:根据患者病理样本数据中无缺失值的n个样本点构建一条光滑的曲线并使曲线通过所有的样本点;将含有缺失值的样本所对应的属性点x带入曲线,获得样本中所缺失数据的近似值;将缺失数据的近似值带入到样本数据中,扩充缺失的数据;曲线表示为:
Figure BDA0003361847840000071
其中,yi表示根据第i个样本点确定的曲线函数,xi表示第n个属性点x的坐标,xj表示第n-1个属性点x的坐标。
进一步的,对病理样本数据进行数据类型转换包括:将病理样本数据转换为对应候选标记集合的q维二值向量Bn,转换公式为:
Figure BDA0003361847840000072
其中,m表示维数,n表示第n个样本,
Figure BDA0003361847840000073
表示第n个样本的维数来自于第m维,q表示最大维数,λm表示维数m所表示的数据集合,S表示全部数据。
优选的,构建偏多标记候选数据集的过程包括:
S1:根据k近邻加权聚合算法求解患者的病理样本所对应的医疗文本语义信息中每个检查项目的置信度向量;具体过程为:
根据二值向量Bn,距离度量函数采用欧式距离,获得病理样本所对应的医疗文本语义信息中每个检查项目的置信度向量βi,公式为:
Figure BDA0003361847840000081
其中,xi表示样本中第i个点与原点之间的距离,xj表示样本中第j个点与原点之间的距离,xk表示样本中心点到原点之间的距离,d(xi,xj)表示第i个点与第j个点之间的绝对值距离,d(xi,xk)表示第i个点与样本中心点之间的绝对值距离,
Figure BDA0003361847840000082
表示初始置信度向量,
Figure BDA0003361847840000083
表示样本x的k近邻在训练样本集
Figure BDA0003361847840000084
中的索引集合,置信度向量可视为对k近邻样本候选标记集合的加权打分。
S2:根据置信度向量对候选标记集进行消歧操作,得到多类消歧数据集;具体过程为:
根据获得的置信度向量,基于m×q维置信度矩阵
Figure BDA0003361847840000085
执行对候选标记集合的消歧操作,得到多类数据集
Figure BDA0003361847840000086
公式为:
Figure BDA0003361847840000087
Figure BDA0003361847840000088
其中,αj表示消歧后类别标签为λj的训练样例集合,xi表示样本数据集合,λj表示类别标签集合,m表示最大维数,q表示数据维数集合,l表示最多类别标签数,βik表示在维数和标签数确定情况下的类别标签。
消歧操作为:根据之前获得的每个检查项目的置信度向量,将检查项目的置信度向量的数值按从大到小排序,取出最中间序列的数值,将此数值作为平均值,将比平均值大的数值与该平均值做减法,获得相减数值,将该平均值与比平均值小的数值做减法,也得到相减数值,设定合适的阈值范围,如果相减数值在这个阈值范围之间,则将在范围内的数值对应的候选标记集保留下来,如果相减数值不在这个阈值范围区间,则将不在范围内的数值对应的候选标记集舍去。
S3:对多类消歧数据集进行类别平衡处理,得到偏多标记数据集。
进一步的,对多类消歧数据集进行类别平衡处理包括:
S1:对多类消歧数据集中所有类别集合的大小进行阈值约束;对元素数量小于阈值的数据集αj,即|αj|<τ,遍历
Figure BDA0003361847840000091
的第j列并降序排列,取前τ-|αj|个样例加入αj中,遍历过程为通过将来自其他类别Gk(k≠j)的数据转换成为αj来进行,同时保证不损害各自的阈值约束;
S2:对进行阈值约束后的多类消歧数据集中所有类别集合设定类编码,优选的,设定消歧后数据集样本中数量最多的类别所对应的类编码为y*=arg max1≤j≤qj|;根据类编码结合扰动过采样技术对进行阈值约束后的所有类别集合进行采样,采样公式为:
Figure BDA0003361847840000092
Figure BDA0003361847840000093
其中,
Figure BDA0003361847840000094
表示生成的候选标记集合,λm表示维数m所表示的数据结合,
Figure BDA0003361847840000095
表示维数m所表示的类别集合,m表示维数,q表示最大维数,
Figure BDA0003361847840000096
表示二值向量,
Figure BDA0003361847840000097
表示第n+1个样本的二值向量,
Figure BDA0003361847840000098
表示第n-1个样本的二值向量,xr表示第n+1个样本的候选标记集合,xi表示第n-1个样本的候选标记集合,ω表示特征空间新示例的生成维度,sign(z)函数返回一个q维的二值向量,若返回值大于0则二值向量
Figure BDA0003361847840000099
值为1否则为0;
S3:根据采样操作扩充偏多标记数据集,扩充公式为:
Figure BDA00033618478400000910
其中,
Figure BDA00033618478400000911
表示通过采样操作所扩充的偏多标记数据集,
Figure BDA00033618478400000912
表示样本点,
对除了
Figure BDA00033618478400000913
以外的所有类别λj,均执行采样操作,每个类别共执行
Figure BDA00033618478400000914
次,
Figure BDA00033618478400000915
表示消歧后数据集中样本数量最多的类别,
Figure BDA00033618478400000916
表示采样操作得到数据集中样本数量最多的类别所需要的次数,|αj|表示采样操作得到除了
Figure BDA0003361847840000101
类别其他每一种类别所需要的次数。
通过上述处理解决了类别不平衡给偏多标记数据集带来的影响。
优选的,对偏多标记候选数据集进行网格聚类操作包括:将偏多标记数据集中每一个检查项目映射到网格单元中;依次扫描每个检查项目的对应的网格单元,将每个检查项目对应的每个网格单元中的数据对象个数记为Q;设定的密度阈值,将数据对象个数Q与设定的密度阈值进行比较,将数据对象个数高于密度阈值的网格单元作为高密度网格单元,低于密度阈值的网格单元作为低密度网格单元;删除低密度网格单元中的数据对象,找出高密度网格单元数据对象和与之相邻的高密度网格单元数据对象,并分别计算两者的相似度和相异度,当相似度大于相似度阈值时则将两者作为一个簇,并对簇值加一,当簇值达到簇阈值时输出簇。
在标准的EM算法中是需要提前设定好子高斯数,但在针对不平衡医疗文本语义信息中,不同的患病类别在特征空间中的分布是不同的,则与之相对应的子高斯数也会随之不同,因此,本发明对标准EM算法进行改进,改进的EM算法可从混合高斯分布中自动获取子高斯数,且能找到“最合理”的子高斯数以及参数,使得其混合分布与样本数据达到最佳的拟合。
优选的,采用改进EM算法计算每个簇的类后验概率包括:
根据香农熵编码准则,得到子高斯的函数值表达式;具体过程为:根据香农熵对由p(y*|θ)产生数据y*进行编码,y*的最短编码长度为|-logp(y*|θ)|。如果θ已知,则整个编码长度为L(θ,y*)=L(θ)+L(y*|θ),根据此原理可以推导出子高斯函数值的表达式:
Figure BDA0003361847840000102
其中,N为高斯分布中自由参数的个数,n为样本数,knz为权重不为0的子高斯的个数,y*表示d维随机数据集合,θ表示混合高斯分布中设定的参数。
设定每个簇的子高斯数存在范围,采用子高斯消除策略消除对混合分布影响最小的子高斯,得到需要的子高斯及其最优分布;消除策略为:
a、当子高斯权重为0时,则说明子高斯不再作用于混合分布并消除子高斯;
b、在特征空间中通过迭代寻找最能刻画参数分布“几何形状”的若干个子高斯,并使得这些子高斯对应的函数值表达式达到最小,同时其累积对数似然函数值达到最大;
考虑到EM算法的收敛条件L(θ,y*)并不一定是全局的最小值,对于αm(m=1,2,...,k)中的最小值,消除αm的最小值并评价L(θ,y*)是否更小,如果子高斯对应的L(θ,y*)函数值达到最小,同时累积对数似然函数值达到最大,就能够最大限度发现数据在特征空间的分布形状,此时得到的子高斯及其分布达到最优。
根据子高斯的函数值表达式对最优分布的子高斯进行参数估计,得到子高斯参数;最大似然估计的目的是找到一组新的参数λ*使其满足p(X|λ*)≥p(X|λ),为了获得参数λ*首先引入辅助函数;辅助函数为:
Figure BDA0003361847840000111
其中,N表示超参数,C表示超参数个数,T表示维度矢量,xt表示子高斯数据集合,ωi表示第i个子高斯的权重,μi表示第i个子高斯的均值向量,∑表示协方差矩阵。
在改进EM算法中,如果Q(λ,λ*)≥Q(λ,λ),则p(X|λ*)≥p(X|λ),从Q函数中获得子高斯参数估计,公式为:
Figure BDA0003361847840000112
Figure BDA0003361847840000113
Figure BDA0003361847840000121
其中,i表示子高斯个数,λ表示模型参数集合。
如图2所示,根据每个簇的所有子高斯及其参数依次计算每个簇中每个子高斯的累积对数似然函数值,将累积对数似然函数值转换为类后验概率;计算累积对数似然函数值的公式为:
Figure BDA0003361847840000122
其中,x(t)表示全部数据集合,ξ表示是子高斯i的先验概率,e表示子高斯个数,φ表示子高斯i的参数,p(x(t)|φ,ξ)≡N(μi|j,∑i|j)是子高斯i的高斯密度函数;将累积对数似然函数(G个输出值)归一化到[0,1]区间,得到每个簇的类后验概率,将其作为不同患病类别的概率值。
根据当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数更新类后验概率,得到每个簇的类后验概率;更新过程为:设定阈值,若当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数之差大于阈值,则更新类后验概率,即将当前类后验概率作为簇的类后验概率,若当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数之差小于阈值,则不更新类后验概率,即将上一次类后验概率作为簇的类后验概率。
从特征维度上看,类后验概率为将患者的类别不平衡医疗文本语义信息看作多维高斯分布,将多维高斯分布分解为多个一维高斯分布分别进行训练和学习得到。
进一步的,将多个类后验概率的概率值作为朴素贝叶斯网络的输入,在朴素贝叶斯框架下进行融合得到最终的类后验概率,即为患者所患此病的概率。在朴素贝叶斯分类器中,类节点是所有特征节点的父节点,所有节点的联合概率,即所有类后验概率的联合概率为:
Figure BDA0003361847840000131
其中,xr表示患者患r病的概率,a表示患者所医生所述患病类型概率,c表示患者的患病种类,r表示该患者可能的患病种类。
进一步的,从分类样本上,将所有类后验概率值进行归一化组成一个输出矢量,而后形成一个后验概率矩阵xtj(t=1,2,...,R;j=1,2,...,k),将这R个后验概率矢量作为朴素贝叶斯的输入,并再次计算其联合概率,根据联合概率计算类节点后验概率,联合概率等于类节点后验概率相加;将类节点后验概率输入到朴素贝叶斯分类器中,根据后验概率最大准则将类别F赋值为max{p(F|x1,x2,...,xr)},则最终可得出最终患者所患此病的类型。
对于不平衡数据处理,当一个分类任务的数据集中来自不同类别的样本数目相差悬殊时,称该数据集为“类别不平衡”,以现实任务为例:在处理类别不平衡医疗文本语义信息任务中,每一个检查项目都会产生一个新的样本,而患者最终是否患这种病决定了这个样本的标签。显然,只有很少一部分的患者患同样的病,这就导致了最终得到的训练数据集中正/负例样本数量差距悬殊,尽管少数患病样本数量比较少,表示的质量也更差,但其通常携带更重要的信息,因此需要更多的关心模型正确分类少数样本的能力;本发明将k近邻加权聚合表示每个偏多标记的置信度向量来得到一个多类消歧数据集,并采用特定的过采样策略来扩充原始的偏多标记数据集,从而缓解了类别不平衡对偏多标记学习性能影响,增强了模型对类别不平衡医疗文本语言信息的分类能力。
在聚类层次方面,传统的聚类方法是基于距离的,这种基于距离的聚类算法只能发现球状簇,在处理医疗文本数据这样的大数据集以及高维数据集时,不够有效。另一方面传统的聚类方法个数往往依赖于参数指定,这对于后续处理是非常困难的。本发明将数据空间中的每一维平均分割成等距离的区间,将对象空间量化成有限数目的单元从而形成网格结构,所有聚类结构都在该结构上进行,从而使得处理医疗文本数据速度快,其处理时间独立于数据对象数,而仅依赖于量化空间中每一维的单元数。
在改进EM算法方面,类别不平衡的医疗文本语义信息本质上的复杂性和不确定性,当样本点的概率密度比较离散、训练样本的选取不够充分或者不具有代表性时,会导致样本点不符合预先假设的参数化分布密度,这导致了各个高斯分布之间的重叠及分类混淆增大,从而使预测出患者的患病类型和患病概率与医生所预估的数据有较大幅度的差距,本发明利用改进EM算法来解决的医疗文本信息中概率密度分布偏差的问题,此EM算法能预先设定好子高斯数的最大值和最小值,采用子高斯消除策略,消除对混合分布影响最小的子高斯,找到“最合理”的子高斯及其参数,使得其混合分布与样本数据达到最佳拟合。当获取子高斯及相应参数后,计算各子高斯的累积对数似然函数,并将这个函数值归一化作为待分类后验概率,从而将病患的患病数据在特征空间的分布用多个子高斯分布的凸函数来表示,更好的拟合了数据的“真实”分布。
在类后验概率的计算过程中,本发明利用了朴素贝叶斯的架构,在此基础上提出了用于类别不平衡医疗文本语义信息的类后验概率算法,将多维高斯分布分解成为多个一维高斯分布分别进行训练,将医疗文本语义信息中特征的类后验概率值作为朴素贝叶斯网络的输入来得到最终的结果,通过将多维高斯分布分解成为多个一维高斯分布,可有效地避免多维数据处理中的维数问题;本发明对分类类别不平衡性问题进行进一步的处理,可以预测到更精准的标记结果,病人可根据此标记结果进行健康管理,医生也可以根据此结果对病人进行下一步诊断,具有良好的社会效益和经济效益。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于偏多标记学习的患者筛选标记方法,其特征在于,包括:获取患者的病理样本数据,将病理样本数据输入到基于偏多标记学习的医疗文本语义信息大数据预测模型中,预测患者的患病类型和患病概率,根据患者的患病类型和患病概率对患者进行标记;
采用基于偏多标记学习的医疗文本语义信息大数据预测模型对病理样本数据进行处理的过程为:
S1:对病理样本数据进行预处理,得到病理样本数据对应的候选标记集;预处理包括对病理样本数据进行数据缺失处理和数据类型转换;
S2:提取候选标记集的类别不平衡医疗文本语义信息,根据类别不平衡医疗文本语义信息构建偏多标记候选数据集;
S3:对偏多标记候选数据集进行网格聚类操作,得到每个检查项目对应的簇;
S4:采用改进EM算法计算每个簇的类后验概率;
S5:将所有类后验概率输入到朴素贝叶斯网格,获得融合后的最终类后验概率,最终类后验概率为该患者患此病的概率;
S6:计算所有类后验概率的联合概率,根据联合概率计算类节点后验概率;根据后验概率最大准则对类节点后验概率进行分类,得到预测的患者患病类别。
2.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,对病理样本数据进行数据缺失处理包括:根据患者病理样本数据中无缺失值的n个样本点构建一条光滑的曲线并使曲线通过所有的样本点;将含有缺失值的样本所对应的属性点x带入曲线,获得样本中所缺失数据的近似值;将缺失数据的近似值带入到样本数据中,扩充缺失的数据;曲线表示为:
Figure FDA0003361847830000011
其中,yi表示根据第i个样本点确定的曲线函数,xi表示第n个属性点x的坐标,xj表示第n-1个属性点x的坐标。
3.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,对病理样本数据进行数据类型转换包括:将病理样本数据转换为对应候选标记集合的q维二值向量Bn,转换公式为:
Figure FDA0003361847830000021
其中,m表示维数,n表示第n个样本,
Figure FDA0003361847830000022
表示第n个样本的维数来自于第m维,q表示最大维数,λm表示维数m所表示的数据集合,S表示全部数据集合。
4.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,构建偏多标记候选数据集的过程包括:
S1:根据k近邻加权聚合算法求解患者的病理样本所对应的医疗文本语义信息中每个检查项目的置信度向量;
S2:根据置信度向量对候选标记集进行消歧操作,得到多类消歧数据集;
S3:对多类消歧数据集进行类别平衡处理,得到偏多标记数据集。
5.根据权利要求4所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,对多类消歧数据集进行类别平衡处理包括:
S1:对多类消歧数据集中所有类别集合的大小进行阈值约束;
S2:对进行阈值约束后的多类消歧数据集中所有类别集合设定类编码,根据类编码结合扰动过采样技术对进行阈值约束后的所有类别集合进行采样,采样公式为:
Figure FDA0003361847830000023
Figure FDA0003361847830000024
其中,
Figure FDA0003361847830000025
表示生成的候选标记集合,λm表示维数m所表示的数据结合,
Figure FDA0003361847830000026
表示维数m所表示的类别集合,m表示维数,q表示最大维数,
Figure FDA0003361847830000027
表示二值向量,
Figure FDA0003361847830000028
表示第n+1个样本的二值向量,
Figure FDA0003361847830000029
表示第n-1个样本的二值向量,xr表示第n+1个样本的候选标记集合,xi表示第n-1个样本的候选标记集合,ω表示特征空间新示例的生成维度;
S3:根据采样操作扩充偏多标记数据集,扩充公式为:
Figure FDA0003361847830000031
其中,
Figure FDA0003361847830000032
表示通过采样操作所扩充的偏多标记数据集,
Figure FDA0003361847830000033
表示样本点。
6.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,对偏多标记候选数据集进行网格聚类操作包括:将偏多标记数据集中每一个检查项目映射到网格单元中;依次扫描每个检查项目的对应的网格单元,将每个检查项目对应的每个网格单元中的数据对象个数记为Q;设定的密度阈值,将数据对象个数Q与设定的密度阈值进行比较,将数据对象个数高于密度阈值的网格单元作为高密度网格单元,低于密度阈值的网格单元作为低密度网格单元;删除低密度网格单元中的数据对象,找出高密度网格单元数据对象和与之相邻的高密度网格单元数据对象,并分别计算两者的相似度和相异度,当相似度大于相似度阈值时则将两者作为一个簇,并对簇值加一,当簇值达到簇阈值时输出簇。
7.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,采用改进EM算法计算每个簇的类后验概率包括:
根据香农熵编码准则,得到子高斯的函数值表达式;
设定每个簇的子高斯数存在范围,采用子高斯消除策略消除对混合分布影响最小的子高斯,得到需要的子高斯及其最优分布;根据子高斯的函数值表达式对最优分布的子高斯进行参数估计,得到子高斯参数;
根据每个簇的所有子高斯及其参数依次计算每个簇中每个子高斯的累积对数似然函数值,将累积对数似然函数值转换为类后验概率;
根据当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数更新类后验概率,得到每个簇的类后验概率。
8.根据权利要求7所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,子高斯参数的公式为:
Figure FDA0003361847830000041
Figure FDA0003361847830000042
Figure FDA0003361847830000043
其中,ω表示权重,μ表示均值向量,μi表示第i个子高斯的均值向量,∑表示协方差矩阵,T表示维度矢量,i表示子高斯个数,xt表示子高斯数据集合,λ表示模型参数集合。
9.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,计算累积对数似然函数值的公式为:
Figure FDA0003361847830000044
其中,x(t)表示全部数据集合,ξ表示子高斯i的先验概率,e表示子高斯个数,φ表示子高斯i的参数。
10.根据权利要求1所述的一种基于偏多标记学习的患者筛选标记方法,其特征在于,所有最终类后验概率的联合概率为:
Figure FDA0003361847830000045
其中,xr表示患者患r病的概率,a表示患者所医生所述患病类型概率,c表示患者的患病种类,r表示该患者可能的患病种类。
CN202111369388.9A 2021-11-18 2021-11-18 一种基于偏多标记学习的患者筛选标记方法 Active CN114093445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111369388.9A CN114093445B (zh) 2021-11-18 2021-11-18 一种基于偏多标记学习的患者筛选标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111369388.9A CN114093445B (zh) 2021-11-18 2021-11-18 一种基于偏多标记学习的患者筛选标记方法

Publications (2)

Publication Number Publication Date
CN114093445A true CN114093445A (zh) 2022-02-25
CN114093445B CN114093445B (zh) 2024-05-28

Family

ID=80301732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111369388.9A Active CN114093445B (zh) 2021-11-18 2021-11-18 一种基于偏多标记学习的患者筛选标记方法

Country Status (1)

Country Link
CN (1) CN114093445B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083616A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于自监督图聚类的慢性肾病亚型挖掘系统
CN116665922A (zh) * 2023-07-31 2023-08-29 四川天府智链健康科技有限公司 一种医患通信方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125461A1 (en) * 2007-11-09 2009-05-14 Microsoft Corporation Multi-Label Active Learning
CN106599913A (zh) * 2016-12-07 2017-04-26 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法
CN108565019A (zh) * 2018-04-13 2018-09-21 合肥工业大学 多学科适用的临床检查组合推荐方法及装置
CN109119133A (zh) * 2018-08-03 2019-01-01 厦门大学 基于多标记特征选择及分类的中医临床大数据存储方法
CN111128375A (zh) * 2020-01-10 2020-05-08 电子科技大学 一种基于多标签学习的藏医诊断辅助装置
CN111581468A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于噪声容忍的偏多标记学习方法
CN113327666A (zh) * 2021-06-21 2021-08-31 青岛科技大学 一种胸片疾病多分类网络的多标签局部至全局学习方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125461A1 (en) * 2007-11-09 2009-05-14 Microsoft Corporation Multi-Label Active Learning
CN106599913A (zh) * 2016-12-07 2017-04-26 重庆邮电大学 一种基于聚类的多标签不平衡生物医学数据分类方法
CN108565019A (zh) * 2018-04-13 2018-09-21 合肥工业大学 多学科适用的临床检查组合推荐方法及装置
CN109119133A (zh) * 2018-08-03 2019-01-01 厦门大学 基于多标记特征选择及分类的中医临床大数据存储方法
CN111128375A (zh) * 2020-01-10 2020-05-08 电子科技大学 一种基于多标签学习的藏医诊断辅助装置
CN111581468A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于噪声容忍的偏多标记学习方法
CN113327666A (zh) * 2021-06-21 2021-08-31 青岛科技大学 一种胸片疾病多分类网络的多标签局部至全局学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAMIEN ZUFFEREY ET AL: "Performance comparison of multi-label learning algorithms on clinical data for chronic diseases", 《COMPUTERS IN BIOLOGY AND MEDICINE》, vol. 65, pages 34 - 43 *
张敏灵;: "偏标记学习研究综述", 数据采集与处理, no. 01 *
潘主强;张林;张磊;李国正;颜仕星;: "中医临床疾病数据多标记分类方法研究", 计算机科学与探索, no. 08 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083616A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于自监督图聚类的慢性肾病亚型挖掘系统
CN115083616B (zh) * 2022-08-16 2022-11-08 之江实验室 一种基于自监督图聚类的慢性肾病亚型挖掘系统
JP7404581B1 (ja) 2022-08-16 2023-12-25 之江実験室 自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム
CN116665922A (zh) * 2023-07-31 2023-08-29 四川天府智链健康科技有限公司 一种医患通信方法及系统

Also Published As

Publication number Publication date
CN114093445B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
JP2021524099A (ja) 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法
CN111753101B (zh) 一种融合实体描述及类型的知识图谱表示学习方法
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN109902714B (zh) 一种基于多图正则化深度哈希的多模态医学图像检索方法
CN114093445B (zh) 一种基于偏多标记学习的患者筛选标记方法
Sahu et al. Hybrid Deep learning based Semi-supervised Model for Medical Imaging
CN111581466B (zh) 特征信息存在噪声的偏多标记学习方法
Jatav An algorithm for predictive data mining approach in medical diagnosis
Verikas et al. A general framework for designing a fuzzy rule-based classifier
Liang et al. A hidden Markov model approach to testing multiple hypotheses on a tree-transformed gene ontology graph
CN114003734A (zh) 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
Chakradeo et al. Breast cancer recurrence prediction using machine learning
Chandralekha et al. Performance analysis of various machine learning techniques to predict cardiovascular disease: An emprical study
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN114897167A (zh) 生物领域知识图谱构建方法及装置
Zhao et al. Incremental author name disambiguation for scientific citation data
Zhang et al. A method of deep belief network image classification based on probability measure rough set theory
CN112668633A (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN111708865A (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN111126443A (zh) 基于随机游走的网络表示学习方法
CN111259106A (zh) 一种结合神经网络和特征演算的关系抽取方法
Li et al. CRNN: Integrating classification rules into neural network
Raja et al. A Novel Feature Selection based Ensemble Decision Tree Classification Model for Predicting Severity Level of COPD
Boyapati et al. An Analysis of House Price Prediction Using Ensemble Learning Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240108

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

GR01 Patent grant