CN114239741B - 基于证据推理分类器的医疗数据分类方法及相关设备 - Google Patents
基于证据推理分类器的医疗数据分类方法及相关设备 Download PDFInfo
- Publication number
- CN114239741B CN114239741B CN202111576257.8A CN202111576257A CN114239741B CN 114239741 B CN114239741 B CN 114239741B CN 202111576257 A CN202111576257 A CN 202111576257A CN 114239741 B CN114239741 B CN 114239741B
- Authority
- CN
- China
- Prior art keywords
- attribute
- evidence
- population
- calculating
- iteration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 230000002068 genetic effect Effects 0.000 claims abstract description 16
- 230000007704 transition Effects 0.000 claims description 59
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012544 monitoring process Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 10
- 238000010187 selection method Methods 0.000 claims description 7
- 230000002860 competitive effect Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- KJONHKAYOJNZEC-UHFFFAOYSA-N nitrazepam Chemical compound C12=CC([N+](=O)[O-])=CC=C2NC(=O)CN=C1C1=CC=CC=C1 KJONHKAYOJNZEC-UHFFFAOYSA-N 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 2
- 229910052760 oxygen Inorganic materials 0.000 claims description 2
- 239000001301 oxygen Substances 0.000 claims description 2
- 230000000241 respiratory effect Effects 0.000 claims description 2
- 230000033764 rhythmic process Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 35
- 230000000875 corresponding effect Effects 0.000 description 31
- 238000004891 communication Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000036541 health Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 229910003798 SPO2 Inorganic materials 0.000 description 1
- 101100478210 Schizosaccharomyces pombe (strain 972 / ATCC 24843) spo2 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 101150036841 minJ gene Proteins 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/257—Belief theory, e.g. Dempster-Shafer
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Complex Calculations (AREA)
Abstract
本申请提供一种基于证据推理分类器的医疗数据分类方法及相关设备;包括:确定医疗数据集中每个样本的属性和类别,计算属性的费希尔得分、皮尔逊相关系数和互信息,对计算结果进行融合,得到该属性的属性可靠性;根据预设的约束条件,为每个属性设置参考值、参考证据和参考证据权重;并将其组合为个体编码,通过对个体编码初始化,得到初始化种群,采取多目标遗传算法,对初始化种群进行迭代,当达到迭代的目标次数,得到目标种群,根据帕累托支配原则,确定目标个体;利用目标个体的参考值、参考值个数和参考证据权重计算属性的属性证据和属性证据权重,并对全部属性证据进行融合,得到证据推理分类器,利用证据推理分类器对样本进行分类决策。
Description
技术领域
本申请的实施例涉及数据处理的技术领域,尤其涉及一种基于证据推理分类器的医疗数据分类方法及相关设备。
背景技术
在现有的医疗数据分类中,例如多导睡眠图评估方法,多利用大量不同的监测信号作为数据的多个特征或属性,并基于每个特征所产生的数值对睡眠健康进行评估,但在实际应用中,大量的监测信号来自于对身体不同部位进行监测,并使用不同的特殊一起,这往往意味着需要病患付出大量的成本,并且很多信号数据的监测过程需要在特殊的场所进行,这带来的监测成本和数据分析成本十分高昂,但少量的监测数据所形成的样本数量小,数据分类难以精确。
基于此,需要一种能够实现在有限数据的基础上,对医疗数据进行有效分类的方案。
发明内容
有鉴于此,本申请的目的在于提出一种基于证据推理分类器的医疗数据分类方法及相关设备。
基于上述目的,本申请提供了基于证据推理分类器的医疗数据分类方法,包括:
确定医疗数据集中每个样本的多个属性和每个样本初始对应的类别,对于每个属性,利用该属性和全部类别计算费希尔得分、皮尔逊相关系数和互信息,对计算结果进行融合,得到该属性的属性可靠性;
根据预设的约束条件,对于每个属性,设置多个参考值,并为该属性的每个参考值设置对应的参考证据,为每个参考证据设置对于该属性的参考证据权重;
将全部属性所对应的参考值、参考值个数和参考证据权重组合为个体编码,通过对个体编码多次初始化,得到多个初始个体并组成初始化种群,采取多目标遗传算法,对初始化种群进行迭代,响应于确定达到迭代的目标次数,得到目标种群,根据帕累托支配原则,在目标种群中确定目标个体;
利用目标个体中每个属性对应的参考值、参考值个数和参考证据权重计算该属性的属性证据和属性证据权重,利用属性可靠性和属性证据权重对全部属性证据进行融合,得到证据推理分类器,利用证据推理分类器对样本进行分类决策。
进一步地,采取多目标遗传算法,对初始化种群进行迭代,包括:
在每次多目标遗传算法的每次迭代中,执行如下操作:
响应于确定本次迭代为首次迭代,在初始化种群中,对全部初始个体构建帕累托等级的排序,并对每个初始个体计算拥挤度,在初始化种群中,选取多个初始个体,根据每个初始个体的帕累托等级和拥挤度,执行竞标赛选择法,得到本次迭代的父代种群;响应于确定本次迭代为非首次迭代,在前一次迭代得到的新代种群中,对全部新代个体构建帕累托等级的排序,并对每个新代个体计算拥挤度,在前一次迭代得到的新代种群中,选取多个新代个体,根据每个新代个体的帕累托等级和拥挤度,执行竞标赛选择法,得到本次迭代的父代种群;
对本次迭代的父代种群中的多个父代个体通过执行模拟二进制交叉法和多项式变异,得到本次迭代的子代种群;
将本次迭代的父代种群和子代种群合并,得到本次迭代的过渡种群;
在本次迭代的过渡种群中,对全部过渡个体构建快速非支配级排序,并对每个过渡个体计算拥挤度;
将本次迭代的过渡种群中的前多个过渡个体组成本次迭代的新代种群。
进一步地,构建帕累托等级的排序,包括:
对于每个初始个体,计算利用该初始个体执行分类的错误率,根据错误率构建第一目标函数;
利用该初始个体中参考值个数,构建第二目标函数;
根据帕累托支配原则,以第一目标函数和第二目标函数的取值越小越优为目标,对初始化种群中的全部初始个体进行帕累托等级的排序;
对于每个新代个体,计算利用该新代个体执行分类的错误率,根据错误率构建第一目标函数;
利用该新代个体中参考值个数,构建第二目标函数;
根据帕累托支配原则,以第一目标函数和第二目标函数的取值越小越优为目标,对新代种群中的全部新代个体进行帕累托等级的排序;
对于每个过渡个体,计算利用该过渡个体执行分类的错误率,根据错误率构建第一目标函数;
利用该过渡个体中参考值个数,构建第二目标函数;
根据帕累托支配原则,以第一目标函数和第二目标函数的取值越小越优为目标,对过渡种群中的全部过渡个体进行帕累托等级的排序;
计算拥挤度,包括:
对于每个初始个体、新代个体和过渡个体,利用第一目标函数计算第一拥挤度分量,利用第二目标函数计算第二拥挤度分量;
利用第一拥挤度分量和第二拥挤度分量计算拥挤度。
进一步地,在本次迭代的过渡种群中,对全部过渡个体构建快速非支配级排序,并对每个过渡个体计算拥挤度,包括:
在本次迭代中,对于每个过渡个体中的每个属性,利用该属性对应的参考值、参考值个数和参考证据权重计算该属性的属性证据和属性证据权重,利用属性可靠性和属性证据权重对全部属性证据进行融合,利用融合的结果对样本进行分类决策;
利用每个过渡个体对全部样本进行决策分类的结果,利用该分类决策的结果,对全部过渡个体构建快速非支配级排序,并对每个过渡个体计算拥挤度。
进一步地,对于每个属性,利用该属性和全部类别计算费希尔得分、皮尔逊相关系数和互信息,对计算结果进行融合,得到该属性的属性可靠性,包括:
对于每个属性,执行如下操作:
计算该属性的类间均值、每个类别中该属性的类内均值和类内方差;
利用类间均值、类内均值和类内方差计算费希尔得分;
计算该属性与每个类别的协方差、和该属性在全部类别中的类间方差,对于每个类别,计算该类别的类别方差;
利用协方差、类间方差和类别方差计算每个属性与每个类别之间的皮尔逊相关系数;
利用该属性的值域和类别的值域计算该属性和类别之间的互信息;
对费希尔得分、皮尔逊相关系数和互信息的计算结果均进行归一化处理,并对归一化处理后的数值取均值,作为该属性的属性可靠性。
进一步地,利用目标个体中每个属性对应的参考值、参考值个数和参考证据权重计算该属性的属性证据和属性证据权重,包括:
对于每个属性,根据该属性和该属性对应的参考值,构成在该属性与全部类别之间的相似度分布,根据相似度分布构建该属性的参考证据矩阵;
根据在该属性上的相似度分布和参考证据矩阵,对该属性的参考证据进行加权,得到该属性的属性证据,并对该属性的参考证据的参考证据权重进行加权,得到该属性的属性证据权重。
进一步地,利根据该属性和该属性对应的参考值,构成在该属性与全部类别之间的相似度分布,包括:
在每个样本中,对于每个属性中的每个参考值,计算该参考值与相邻的另一参考值的第一差值;并计算该属性与相邻的另一参考值的第二差值;根据第一差值与第二差值的比例确定该属性与该参考值的匹配度;
对于每个类别,在全部样本中,计算属于同一属性和同一参考值的匹配度之和,作为相似度分布的第一参数;
对于每个类别,在全部样本中,计算全部属性的第一参数之和,作为相似度分布的第二参数;
利用第一参数、第二参数和匹配度构成相似度分布。
进一步地,根据相似度分布构建该属性的参考证据矩阵,包括:
在类别确定的情况下,对于每个属性所匹配的每个参考值,根据相似度分布中的第一参数和第二参数的比例,构造将该属性取值为该参考值的似然;
通过对每个类别分别进行规范化的似然,得到每个参考证据判定样本时的参考证据信度;
在属性确定的情况下,根据该属性的每个参考证据的参考证据信度和类别,构造参考证据矩阵。
进一步地,利用属性可靠性和属性证据权重对全部属性证据进行融合,得到证据推理分类器,利用证据推理分类器对样本进行分类决策,包括:
基于参考证据矩阵的分布,响应于确定该属性取值在两个相邻的参考值之间,根据两个参考值的匹配度和参考证据信度,得到该属性的证据信度;根据两个参考值的匹配度和参考证据权重,得到该属性的属性证据权重;
将属性证据权重、证据信度和属性可靠性结合,得到该属性的属性证据;
对于每个属性证据,依据证据推理规则中的融合规则,利用属性可靠性和属性证据权重对该样本的全部属性证据进行融合,得到该属性证据将该样本判定为各个类别的判别信度;
将全部类别和每个判别信度,构建证据推理分类器;
在证据推理分类器中,将最大的判别信度所对应的类别作为该样本的类别,以对医疗数据集中各样本进行分类决策。
基于同一发明构思,本申请还提供了一种基于证据推理分类器的医疗数据分类装置,包括:可靠性模块、迭代预处理模块、迭代模块和分类决策模块;
其中,所述可靠性模块,被配置为确定医疗数据集中每个样本的多个属性和每个所述样本初始对应的类别,对于每个所述属性,利用该属性和全部所述类别计算费希尔得分、皮尔逊相关系数和互信息,对计算结果进行融合,得到该属性的属性可靠性;
所述迭代预处理模块,被配置为根据预设的约束条件,对于每个所述属性,设置多个参考值,并为该属性的每个所述参考值设置对应的参考证据,为每个所述参考证据设置对于该属性的参考证据权重;
所述迭代模块,被配置为将全部所述属性所对应的所述参考值、参考值个数和所述参考证据权重组合为个体编码,通过对所述个体编码多次初始化,得到多个初始个体并组成初始化种群,采取多目标遗传算法,对所述初始化种群进行迭代,响应于确定达到迭代的目标次数,得到目标种群,根据帕累托支配原则,在所述目标种群中确定目标个体;
所述分类决策模块,被配置为利用所述目标个体中每个所述属性对应的所述参考值、所述参考值个数和所述参考证据权重计算该属性的属性证据和属性证据权重,利用所述属性可靠性和所述属性证据权重对全部所述属性证据进行融合,得到证据推理分类器,利用所述证据推理分类器对所述样本进行分类决策。
基于同一发明构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的基于证据推理分类器的医疗数据分类方法。
基于同一发明构思,本申请还提供了一种非暂态计算机可读存储介质,其中,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述基于证据推理分类器的医疗数据分类方法。
从上面所述可以看出,本申请提供的基于证据推理分类器的医疗数据分类方法及相关设备,基于数据的属性、类别,综合考虑了费希尔得分、皮尔逊相关系数和互信息,来进行属性可靠性的多准则评价,并进一步通过采取多目标遗传算法的迭代,对参考值个数、参考值和参考证据权重等参数的优化,实现了对证据推理分类器从参数到结构的全局优化,提高了对小样本数据的分类准确率,从而实现依靠少量的监测数据,对睡眠健康的状态进行精确有效地分类。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的基于证据推理分类器的医疗数据分类方法的流程图;
图2为本申请实施例的基于证据推理分类器的医疗数据分类装置模块示意图;
图3为本申请实施例的个体编码示意图;
图4为本申请实施例的电子设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请的实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请的实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
如背景技术部分所述,相关的基于证据推理分类器的医疗数据分类方法还难以满足实际应用的需要。
申请人在实现本申请的过程中发现,相关的基于证据推理分类器的医疗数据分类方法存在的主要问题在于:一些典型的医疗数据,由于各种原因,往往难以获取大量的有效数据样本,例如多导睡眠图评估,需要记录大量的数据,但在更多情况时,由于病患对身体需要进行多处,多类信号的监测,并且需要在特殊的场所进行,成本十分高昂,难以负担,少部分数据的测量可以借助日常的穿戴设备进行,但由于以此获取的数据样本小,少量监测所得到的小样本数据,难以产生准确的分类效果。
在相关技术中,通常将样本数量小于等于预定的有限数量的数据集作为小样本条件的数据集,例如,预定的有限数量为30个、40、50等,具体的数量可根据实际情况或者具体经验进行更改或设定。
对于小样本数据集的数据分类或数据处理等操作必须使用统计量的精确分布来进行统计推断,这也是当前处理小样本数据的困难之处。
可以理解的是,小样本条件是相对于“大样本”而言样本数量较少的情况,而非必须以30个样本数量作为限定,例如,相对于千万条数据持有量的大样本数据集而言,100个或200个样本的数据集依然可以看作是小样本数据集,进而需要采取更加精确的数据处理方式。
容易理解的是,对于小样本条件下的数据分类方法同样也可以适用于“大样本”数据集,而“大样本”条件下的数据处理方法,由于精确度不够高,而难以适用于小样本条件下的数据处理。
可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。
以下,通过具体的实施例,来详细说明本申请的技术方法。
参考图1,本申请一个实施例的基于证据推理分类器的医疗数据分类方法,包括以下步骤:
步骤S101、确定医疗数据集中每个样本的多个属性和每个所述样本初始对应的类别,对于每个所述属性,利用该属性和全部所述类别计算费希尔得分、皮尔逊相关系数和互信息,对计算结果进行融合,得到该属性的属性可靠性。
在本申请的实施例中,以人类睡眠健康监测作为具体的示例,在人类睡眠健康的监测技术中,多采用PSG(多导睡眠图)作为评估手段,其中,PSG需要通过多个传感器监测患者的多项体征,以得到关于被监测患者睡眠状态的多项信号,例如在每次监测得到的一个数据样本中,可以包括患者的呼吸节律、心率、脑电图、心电图、眼电图、肌电图、SPO2(脉搏氧饱和度)和HR(心率)等十几项体征,并在每次测量得到的数据中,将上述的多项信号作为该次测量得到的数据样本的多个属性,依据上述的十多项属性,来推断患者处于深度入睡、浅度入睡或清醒等睡眠状态。
在本实施例中,可以将采集的患者数据作为医疗数据集,将每次采集的患者数据作为该医疗数据集中的一个数据样本,在本申请中也简称样本,将深度入睡、浅度入睡和清醒等睡眠状态作为对样本进行分类的多个类别。
在本实施例中,该医疗数据集中的样本具备初始分类的类别,但由于在实际监测存在各种条件的限制,所监测到的可用样本数量往往很少,难以做到对样本的精确分类,也就是说该医疗数据集所具备的初始分类的类别会存在着较大误差,在本实施例中,将在该医疗数据集的样本具备初始分类的情况下,通过对证据推理分类器的优化,再次对数据量小的小样本医疗数据集进行精确分类。
首先,设定医疗数据集中具备K个样本,并且为了描述方便,将每个样本具备的上述多个属性设定为M个属性:x={x1,x2,...,xM},医疗数据集所具备的多个类别设定为N个类别:Θ={y1,y2,...,yn,...,yN},其中yn是第n个类别,则一个样本向量可以表示为:x={(x1,x2,...,xM),yn},并且能够被分解为M个样本对{(xi,yn),i=1,2,...,M}。
对于该医疗数据集中的每个属性,需要计算其属性可靠性,在本实施例中,采用了多准则评价的方式对属性进行评价,并将评价的结果进行融合,作为该属性的属性可靠性,并进一步地,将该属性的可靠性,等价为下述关于该属性的参考证据的可靠性因子。
具体地,需要确定单独依据该属性直接判定隶属于各个类别的样本及其数量,并对于每个属性,计算其Fisher(费希尔)得分、Pearson(皮尔逊)相关系数和互信息。
对于Fisher得分的计算,可以采取如下的公式进行:
其中,xi表示在M个属性中的第i个属性,N表示该医疗数据集所具备的N个类别;nj表示在第j(j=1,2,...,N)个类别中样本的个数;μj表示第j类样本中属性xi的类内均值;σj表示和第j类样本中属性xi的类内方差,μ表示属性xi在全部类别中的类间均值;当Fisher得分越大,则属性的类间距离越大且类内距离越小,意味着此种属性会使证据推理分类器具有更高的分类准确度。
对于Pearson相关系数的计算,可以采取如下的公式进行:
其中,Cov(xi,y)表示属性xi与类别y的协方差,Var(xi)表示基于全部类别时,属性xi的类间方差,Var(y)表示类别y的类别方差。
进一步地,Pearson相关系数的数值介于0到1之间,数值越大,则表明该属性与该类别之间的相关性越强,若数值为0,则表明该属性与该类别无线性相关关系;其中,若上述公式的绝对值内的数值大于零,则表明该属性与该特征为正相关,若上述公式的绝对值内的数值小于零,则表明该属性与该特征为负相关。
对于互信息的计算,可以采取如下的公式进行:
其中,基于给定数据集的样本数为K,属性个数为M,用x1,x2,...,xm表示,y表示样本的类别,特征xi的值域为Vi,y的值域为Vy,其中p(vi,vy)表示属性xi的取值为vi且类别y的取值为vy的概率。I(xi,y)的值越大,表示特征xi与类别y的关联度越大。
进一步地,对于每个属性,对计算得到的费希尔得分、皮尔逊相关系数和互信息的结果均进行归一化处理,并对归一化处理后的数值取均值,作为该属性的属性可靠性。
具体地,对于给定的属性,计算得到的费希尔得分、皮尔逊相关系数和互信息的结果表示为:
其中,pi,j表示第i个评价准则计算的第j个属性的结果,M为属性个数,S1、S2和S3分别表示该属性的费希尔得分、皮尔逊相关系数和互信息的计算结果。
进一步地,采取如下所示的公式,对费希尔得分、皮尔逊相关系数和互信息的计算结果进行归一化处理:
其中ri,j表示第i个评价准则计算的第j个属性的结果,并可以将其进一步表示为:
其中,R1、R2和R3分别表示该属性的费希尔得分、皮尔逊相关系数和互信息在经过归一化处理后的计算结果。
进一步地,由于每个单一准则有其特有的排序打分规则,因此,融合各个评价准则得到的结果才能全面多方位地衡量属性的可靠性,具体地,采用如下公式,对三个评价准则的结果进行融合:
其中,rj表示M个属性中第j个属性的属性可靠性。
步骤S102、根据预设的约束条件,对于每个所述属性,设置多个参考值,并为该属性的每个所述参考值设置对应的参考证据,为每个所述参考证据设置对于该属性的参考证据权重。
在本申请的实施例中,需要对每个属性设置多个参考值,并为每个参考值设置一个对应的参考证据,将上述计算得到的属性可靠性,作为关于该属性的参考证据的可靠性因子,并为每个参考证据设置一个参考证据权重。
进一步地,申请人在研究中发现,参考值个数越多,则证据推理分类器的分类准确性将会越高,同时,证据推理分类器作为一个整体系统,也将会越复杂,根据不相容原理,随着系统复杂性的增加,人们对系统的行为将逐渐缺乏正确、有意义的陈述能力;如果超过了界限,精确性和适合性将会成为具有冲突性的概念;这表明对事物的精确描述和有意义的描述并不总是一致的,故此,对于参考值个数需要设定必要的阈值范围,在本实施例中,根据人们处理信息能力的限度,可以拟定参考值个数的上限为9,而属性参考值的个数至少为2,才能保证下述证据融合过程的顺利进行,因此参考值个数的下限为2。
基于上述陈述,可以得到参考值个数、参考值和参考证据权重的约束条件如下:
其中,Ji表示第i个属性的参考值个数,表示M个属性中,第i个属性的第j个参考值,/>表示M个属性中,第i个属性的第j个参考证据的参考证据权重。
步骤S103、将全部所述属性所对应的所述参考值、参考值个数和所述参考证据权重组合为个体编码,通过对所述个体编码多次初始化,得到多个初始个体并组成初始化种群,采取多目标遗传算法,对所述初始化种群进行迭代,响应于确定达到迭代的目标次数,得到目标种群,根据帕累托支配原则,在所述目标种群中确定目标个体。
在本申请的实施例中,对于该属性最终的参考值,参考值个数和参考证据权重,可以通过多目标遗传算法进行迭代得到。
首先,将参考值、参考值个数和参考证据权重作为待优化参数,进行实数编码,得到如图3所示的个体编码:当属性个数为M个时,则编码的前M位为每个属性的参考值个数,例如,JM表示第M个属性的参考值个数;之后的7M位为每个属性的参考值,例如,表示第M个属性的第2个参考值;最后9M位为参考证据权重,例如,/>表示第M个属性的第9个参考证据的参考证据权重,需要说明的是,由于每个参考值的最小值和最大值由该参考值对应的属性的最小值和最大值确定,因此在个体编码部分,将参考值的最大值和最小值去掉,将每个属性参考值编码为7个。
进一步地,根据上述约束条件,对图3中的个体编码进行初始化,为个体编码中的每个参数赋予约束条件之内的随机数值,得到一个初始个体,并进一步对该个体编码进行多次初始化,得到参数的数值不同的初始个体,在本实施例中,可以对个体编码进行200次初始化,以生成200个初始个体,将该200个初始个体共同组成种群规模N等于200的初始化种群。
进一步地,采取多目标遗传算法,对初始化种群进行迭代。
在每次迭代中,若该次迭代为首次迭代,则首先对初始化种群中的全部初始个体构建帕累托等级的排序,并对每个初始个体计算拥挤度,在初始化种群中,选取多个初始个体,在本实施例中可以是2个初始个体,根据每个初始个体的帕累托等级和拥挤度,执行竞标赛选择法,得到本次迭代的父代种群;对本次迭代的父代种群中的多个父代个体通过执行模拟二进制交叉法和多项式变异,得到本次迭代的子代种群;将本次迭代的父代种群和子代种群合并,得到本次迭代的过渡种群;在本次迭代的过渡种群中,对全部过渡个体构建快速非支配级排序,并对每个过渡个体计算拥挤度;将本次迭代的过渡种群中的前多个过渡个体组成本次迭代的新代种群。
若该次迭代非首次迭代,则对前一次迭代得到的新代种群中,对全部新代个体构建帕累托等级的排序,并对每个新代个体计算拥挤度,在前一次迭代得到的新代种群中,选取多个新代个体,根据每个新代个体的帕累托等级和拥挤度,执行竞标赛选择法,得到本次迭代的父代种群;对本次迭代的父代种群中的多个父代个体通过执行模拟二进制交叉法和多项式变异,得到本次迭代的子代种群;将本次迭代的父代种群和子代种群合并,得到本次迭代的过渡种群;在本次迭代的过渡种群中,对全部过渡个体构建快速非支配级排序,并对每个过渡个体计算拥挤度;将本次迭代的过渡种群中的前多个过渡个体组成本次迭代的新代种群。
具体地,在本实施例中将以首次迭代为例,对多目标遗传算法的每次迭代过程进行如下的详细描述。
在每次迭代中,首先,在初始化种群中构建初始个体的帕累托等级的排序,并进行每个初始个体的拥挤度的计算
在本实施例中,可以利用分类错误率和证据推理分类器的复杂度来进行帕累托等级的排序和拥挤度的计算。
对于分类错误率的计算包括:
对于每个初始个体,利用其编码的参考值个数,参考值和参考证据权重构建证据推理分类器,并对样本进行分类,得到关于该初始个体的分类错误率。
具体地,对于每个属性,通过如下所示的匹配度计算公式可以得到该属性与其每个参考值的相似度:
αi,j'=0,j'=1,...Ji,j'≠j,j+1
其中,αi,j表示第k个样本的M个属性中的第i个属性的值与该属性的第j个参考值/>的匹配度,该匹配度描述了属性/>与参考值/>之间的相似程度。
具体地,如上述公式所示,在每个样本上,对于每个属性中的每个参考值,计算该参考值与相邻的另一参考值的第一差值;并计算该属性与相邻的另一参考值的第二差值;根据第一差值与第二差值的比例确定该属性与该参考值的匹配度。
由于参考值的介入,可以将属性xi和类别y的关系近似地转化为属性xi的具体参考值和类别y之间的关系,结合上述的匹配度,可以进一步将医疗数据集中的样本对(xi,y)转换并且唯一地表示为如下表1所示的类别y的一个相似度分布:
表1样本对(xi,y)在属性xi上的相似度分布
其中,an,j是属性值与参考值/>可以计算匹配度且属于yn类的所有样本对的匹配度之和,将其作为第一参数。
是属于类别yn的样本对的所有参考值的匹配度之和,将其作为第二参数。
是在参考值/>确定的情况下,对于属性值/>在样本对的所有类别中与参考值/>的匹配度之和,将其作为第三参数,并且有/>
由第一参数,第二参数和第三参数共同构成了如上所示的相似度分布。
根据表1可知,在类别确定的情况下,可以构造我们可以构造属性xi的值为参考值的似然,记为cn,j:
进一步地,可以将每个参考值的参考证据定义为:当属性xi的值取参考值/>时,将样本判定为类别yn的参考证据信度为/>并且,将上述属性的可靠性等价为参考证据的可靠性因子/>
进一步地,参考证据的参考证据信度/>可以利用如下公式,通过规范化的似然求得:/>
进一步地,根据上述计算,对于每个属性xi,均可以得到如表2所示的关于该属性的参考证据矩阵:
表2属性xi的参考证据矩阵
进一步地,依据参考证据矩阵的分布,对于本实施例中具有M个属性的第k个样本:若其第i个属性/>取值在区间/>内,则将激活与参考值/>和对应的两个在参考证据矩阵中相邻的参考证据/>和/>并进行加权,以计算该属性的属性证据。
具体的,如下公式所示,利用该属性与两个参考值的匹配度,以及两个参考证据的参考证据信度完成参考证据和/>的加权:
其中,得到的结果pn,i表示:在的取值在区间/>内,也即激活/>和/>的情况下,该样本k的类别被认为是yn的证据信度,也即关于属性/>的属性证据ei的证据信度。
进一步地,对于参考证据和/>初始化的参考证据权重/>与/>采取如下所示的公式,以相同的方式进行加权:
其中,得到的结果wi表示:关于属性的属性证据ei的属性证据权重。
将上述计算得到的关于该属性的属性可靠性等价为该属性证据的可靠性因子,结合该属性证据的属性证据权重,可靠性因子和证据信度,得到完整的属性证据ei。
进一步地,根据上述方式,可以获得M个属性的所有M条属性证据:e1,e2,...,eM。
进一步地,基于证据推理规则中的融合规则,结合属性证据权重和可靠性因子对M条属性证据进行融合。
其中,相互独立的两属性条证据e1和e2可通过证据推理融合规则进行融合,并得到e1和e2联合共同支持命题θ的信度函数pθ,e(2),计算方法如式所示:
当M条证据进行融合时,联合支持命题θ的信度函数mθ,e(i)也可表示为:
结合属性证据权重和可靠性因子对M条证据进行融合后,得到关于样本类别的如下融合结果,并将其作为证据推理分类器以对医疗数据集进行分类:
P(xk)={(yn,pn,e(M)),n=1,...,N}
其中,yn表示第n个类别,pn,e(M)表示样本属于类别yn的信度,根据融合后的结果P(xk),判断样本xk类别为最大信度pn,e(m)对应的类别yn。
根据上述证据推理分类器的分类结果,可以获知在本次迭代中每个初始个体的分类准确率和错误率。
在本实施例中,使用错误率衡量证据推理分类器的分类性能,并构建致力于最小化分类错误率的第一目标函数:f1(x)=minerror_rate。
进一步地,在考虑证据推理分类器的复杂度时,直接使用各个属性的参考值个数之和来表征分类器复杂度,并构建致力于最小化复杂度的第二目标函数:f2(x)=minJ。
因此,结合第一目标函数和第二目标函数后的整个多目标优化遗传算法的目标函数为:
其中,errorNum为医疗数据集中分类错误的样本数,totalNum为医疗数据集中的总样本数,Ji为各个属性的参考值个数。
进一步地,利用分类错误率和证据推理分类器的复杂度来进行帕累托等级的排序的过程包括:
根据上述关于分类错误率的第一目标函数,和关于复杂度的第二目标函数,采取帕累托支配原则,为初始化种群中的全部初始个体建立帕累托支配关系。
具体地,对于两个初始个体xa和xb,如果有以下两个条件成立,则称个体xa支配xb:
都有f1(xa)≤f1(xb)成立;
使得f2(xa)<f2(xb)成立。
进一步地,如果对于一个初始个体,可以支配初始化种群中的其他所有初始个体,则该初始个体为该初始化种群中的非支配解。
在本实施例中,将初始化种群中作为非支配解的初始个体的等级定义为1级;进一步地,在剩余的其他初始个体中再次确定非支配解,并将作为此时非支配解的初始个体的等级定义为2级;以此类推,可以得到本次迭代中的初始化种群中所有初始个体的帕累托等级,并将其按照等级进行排序。
进一步地,利用分类错误率和证据推理分类器的复杂度,对初始化种群中每个初始个体进行拥挤度的计算包括:
将初始个体的拥挤度表示为nd,其中,n=1,……,N。
对于每个初始个体,首先基于第一目标函数f1(x),使用分类错误率的值对初始个体进行排序,将初始个体的第一目标函数最大值记为最小值记为/>对于排序后两个边界的拥挤度1d和Nd设置为∞;
计算如下公式计算第一拥挤度分量
将其作为基于第一目标函数的拥挤度分量,其中和/>分别代表个体排序后一位和前一位的第一目标函数值。
进一步地,基于第二目标函数,采用相同的方法和公式,使用复杂度的值计算基于第二目标函数的第二拥挤度分量
对第一拥挤度分量和第二拥挤度分量/>求和,得到本次迭代中的关于该初始个体的拥挤度。
在非首次迭代中,对于前一次迭代得到的新代种群,采取相同的方式,计算新代种群中每个新代个体的帕累托等级和拥挤度排序。
进一步地,在本次迭代中,根据上述得到的每个初始个体的帕累托等级的排序和拥挤度,在初始化种群中执行竞标赛选择法。
具体的,在每次选择中,先从初始化种群中随机选出两个初始个体,比较两个初始个体的帕累托等级和拥挤度,并从中选择帕累托等级高的初始个体,若两个初始个体的帕累托等级相同,则选择拥挤度较高的初始个体;不断重复前述的随机选择和比较,并将选出的初始个体加入到父代种群Ci中,直到在父代种群中选到N个初始个体,并将此时父代种群中的初始个体作为父代个体。
进一步地,在本次迭代中,对上述的父代种群中的多个父代个体通过执行模拟二进制交叉法和多项式变异,得到本次迭代的子代种群。
首先,随机选取两个父代个体:和/>通过如下公式所示的交叉过程,可产生两个后代个体/>和/>
其中,β是由分布因子η动态随机决定的,u为区间[0,1]内的随机数。
进一步地,对父代种群中的父代个体,采用多项式变异,其变异算子的形式为:
x'i=xi+δ
其中,xi表示一个父代个体,ηm为分布指数,u为区间[0,1]内的随机数。
通过模拟二进制交叉法和多项式变异,得到子代种群Di。
进一步地,将本次迭代中种群规模均为N的父代种群和子代种群进行合并,得到种群规模为2N的过渡种群,并对过渡种群中的过渡个体进行快速非支配排序,以及拥挤度的计算。
在本次迭代中的快速非支配排序的过程包括:
对于过渡种群中的每个过渡个体,利用该个体中的参考值个数、参考值和参考证据权重,再次采取与上述相同的方式,构建本次迭代中关于该过渡个体的证据推理分类器,并对样本进行分类,得到关于该过渡个体的分类错误率。
进一步地,利用本次迭代中关于该过渡个体的分类错误率和证据推理分类器的复杂度,利用与上述相同的方式,建立关于过渡个体的第一目标函数和第二目标函数,并采取与上述初始化种群中建立帕累托支配关系相同的方式,在过渡种群中建立帕累托支配关系。
进一步地,对于过渡种群中的每个过渡个体,计算该过渡个体x被支配的次数nx和被该过渡个体x支配的个体集合Sx。
然后,将所有nx=0的过渡个体构成第1等级的非支配帕累托前沿解F1,并对Sx中的过渡个体l进行以下操作:对nl减1,如果nl=0,则将这些过渡个体放置到F2中,这些过渡个体将作为第2等级的非支配帕累托前沿解。
进一步以F2为当前种群,重复上述操作,直到确定每个过渡个体的快速非支配排序的等级。
对于过渡种群中每个过渡个体的拥挤度,使用与上述计算初始个体拥挤度相同的方式和公式进行计算。
基于上述快速非支配排序的等级,按照过渡个体从低到高的等级顺序,将过渡个体放入新代种群Pi+1中,直到某一等级的过渡个体不能全部放入Pi+1,此时将该等级的过渡个体根据拥挤度从大到小排列,依次放入Pi+1中直到得到规模为N的新代种群Pi+1。
进一步地,在下一次迭代中,将该新代种群作为迭代的起始,也即上述迭代过程中的初始化种群,并进行与上述迭代相同的迭代步骤,直到进行到预设的迭代阈值,在本实施例中以迭代200次为例,在迭代达到第200次的迭代阈值时,得到第200次迭代的新代种群,并作为目标种群。
进一步地,根据目标种群中的等级顺序,将第一等级的非支配帕累托前沿解确定为目标个体。
步骤S104、利用所述目标个体中每个所述属性对应的所述参考值、所述参考值个数和所述参考证据权重计算该属性的属性证据和属性证据权重,利用所述属性可靠性和所述属性证据权重对全部所述属性证据进行融合,得到证据推理分类器,利用所述证据推理分类器对所述样本进行分类决策。
在本申请的实施例中,基于上述确定的目标个体,提取该目标个体中编码的参考值个数、参考值和参考证据权重。
采取与上述初始个体对样本进行分类相同的方法,利用目标个体中的关于每个属性的参考值个数、参考值和参考证据权重,为每个属性建立相似度分布和参考证据矩阵,并利用该相似度分布和参考证据矩阵对该属性的属性证据进行融合,构建证据推理分类器,并对医疗数据集中的样本进行决策分类。
具体地,对于每个属性,通过如下所示的匹配度计算公式可以得到该属性与其每个参考值的相似度:
αi,j'=0,j'=1,...Ji,j'≠j,j+1
其中,αi,j表示第k个样本的M个属性中的第i个属性的值与该属性的第j个参考值/>的匹配度,该匹配度描述了属性/>与参考值/>之间的相似程度。
将属性xi和类别y的关系近似地转化为属性xi的具体参考值 和类别y之间的关系,结合上述的匹配度,可以进一步将医疗数据集中的样本对(xi,y)转换并且唯一地表示为如下表1所示的类别y的一个相似度分布:
表1样本对(xi,y)在属性xi上的相似度分布
/>
其中,an,j是属性值与参考值/>可以计算匹配度且属于yn类的所有样本对的匹配度之和。/>是属于类别yn的样本对的所有参考值的匹配度之和。/>是在参考值/>确定的情况下,对于属性值/>在样本对的所有类别中与参考值/>的匹配度之和,并且有/>
根据表1可知,在类别确定的情况下,可以构造我们可以构造属性xi的值为参考值的似然,记为cn,j:
进一步地,可以将每个参考值的参考证据定义为:当属性xi的值取参考值/>时,将样本判定为类别yn的参考证据信度为/>并且,将上述属性的可靠性等价为参考证据的可靠性因子/>
进一步地,参考证据的参考证据信度/>可以利用如下公式,通过规范化的似然求得:
进一步地,根据上述计算,对于每个属性xi,均可以得到如表2所示的关于该属性的参考证据矩阵:
表2属性xi的参考证据矩阵
/>
进一步地,依据参考证据矩阵的分布,对于本实施例中具有M个属性的第k个样本:若其第i个属性/>取值在区间/>内,则将激活与参考值/>和对应的两个在参考证据矩阵中相邻的参考证据/>和/>并进行加权,以计算该属性的属性证据。
具体的,如下公式所示,利用该属性与两个参考值的匹配度,以及两个参考证据的参考证据信度完成参考证据和/>的加权:
其中,得到的结果pn,i表示:在的取值在区间/>内,也即激活/>和/>的情况下,该样本k的类别被认为是yn的证据信度,也即关于属性/>的属性证据ei的证据信度。
进一步地,对于参考证据在目标个体中的参考证据权重与/>采取如下所示的公式,以相同的方式进行加权:
其中,得到的结果wi表示:关于属性的属性证据ei的属性证据权重。
将上述计算得到的关于该属性的属性可靠性等价为该属性证据的可靠性因子,结合该属性证据的属性证据权重,可靠性因子和证据信度,得到完整的属性证据ei。
进一步地,根据上述方式,可以获得M个属性的所有M条属性证据:e1,e2,...,eM。
进一步地,基于证据推理规则中的融合规则,结合属性证据权重和可靠性因子对M条属性证据进行融合。
其中,相互独立的两属性条证据e1和e2可通过证据推理融合规则进行融合,并得到e1和e2联合共同支持命题θ的信度函数pθ,e(2),计算方法如式所示:
当M条证据进行融合时,联合支持命题θ的信度函数mθ,e(i)也可表示为:
结合属性证据权重和可靠性因子对M条证据进行融合后,得到关于样本类别的如下融合函数,并将其作为证据推理分类器以对医疗数据集进行分类:
P(xk)={(yn,pn,e(M)),n=1,...,N}
其中,yn表示第n个类别,pn,e(M)表示样本属于类别yn的信度,根据融合后的结果P(xk),讲样本xk的类别判定为最大信度pn,e(m)对应的类别yn。
可见,本申请提供的基于证据推理分类器的医疗数据分类方法及相关设备,基于数据的属性、类别,综合考虑了费希尔得分、皮尔逊相关系数和互信息,来进行属性可靠性的多准则评价,并进一步通过采取多目标遗传算法的迭代,对参考值个数、参考值和参考证据权重等参数的优化,实现了对证据推理分类器从参数到结构的全局优化,提高了对小样本数据的分类准确率,从而实现依靠少量的监测数据,对睡眠健康的状态进行精确有效地分类。
需要说明的是,本申请的实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请的实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请的实施例还提供了一种基于证据推理分类器的医疗数据分类装置。
参考图2,所述基于证据推理分类器的医疗数据分类装置,与存储有医疗数据集的数据库连接,包括:可靠性模块201、迭代预处理模块202、迭代模块203和分类决策模块204;
其中,所述可靠性模块201,被配置为确定医疗数据集中每个样本的多个属性和每个所述样本初始对应的类别,对于每个所述属性,利用该属性和全部所述类别计算费希尔得分、皮尔逊相关系数和互信息,对计算结果进行融合,得到该属性的属性可靠性;
所述迭代预处理解模块202,被配置为根据预设的约束条件,对于每个所述属性,设置多个参考值,并为该属性的每个所述参考值设置对应的参考证据,为每个所述参考证据设置对于该属性的参考证据权重;
所述迭代模块203,被配置为将全部所述属性所对应的所述参考值、参考值个数和所述参考证据权重组合为个体编码,通过对所述个体编码多次初始化,得到多个初始个体并组成初始化种群,采取多目标遗传算法,对所述初始化种群进行迭代,响应于确定达到迭代的目标次数,得到目标种群,根据帕累托支配原则,在所述目标种群中确定目标个体;
所述分类决策模块204,被配置为利用所述目标个体中每个所述属性对应的所述参考值、所述参考值个数和所述参考证据权重计算该属性的属性证据和属性证据权重,利用所述属性可靠性和所述属性证据权重对全部所述属性证据进行融合,得到证据推理分类器,利用所述证据推理分类器对所述样本进行分类决策。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请的实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的基于证据推理分类器的医疗数据分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请的实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一实施例所述的基于证据推理分类器的医疗数据分类方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本申请实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的装置用于实现前述任一实施例中相应的基于证据推理分类器的医疗数据分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于证据推理分类器的医疗数据分类方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于证据推理分类器的医疗数据分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请的实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请的实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请的实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请的实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请的实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请的实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种基于证据推理分类器的医疗数据分类方法,其特征在于,应用于存储有医疗数据集的数据库,包括通过多个传感器监测患者的多项体征,在每次监测得到的一个数据样本中,包括患者的呼吸节律、心率、脑电图、心电图、眼电图、肌电图、脉搏氧饱和度和心率,并在每次测量得到的数据中,将上述的多项信号作为该次测量得到的数据样本的多个属性,将深度入睡、浅度入睡和清醒的睡眠状态作为对样本进行分类的类别:
确定医疗数据集中每个样本的多个属性和每个所述样本初始对应的类别,对于每个所述属性,利用该属性和全部所述类别计算费希尔得分、皮尔逊相关系数和互信息,对计算结果进行融合,得到该属性的属性可靠性;
对于每个所述属性,利用该属性和全部所述类别计算费希尔得分、皮尔逊相关系数和互信息,对计算结果进行融合,得到该属性的属性可靠性,包括:
对于每个所述属性,执行如下操作:
计算该属性的类间均值、每个所述类别中该属性的类内均值和类内方差;
利用所述类间均值、类内均值和类内方差计算所述费希尔得分;
计算该属性与每个所述类别的协方差、和该属性在全部所述类别中的类间方差,对于每个所述类别,计算该类别的类别方差;
利用所述协方差、所述类间方差和所述类别方差计算每个所述属性与每个所述类别之间的所述皮尔逊相关系数;
利用该所述属性的值域和所述类别的值域计算该属性和类别之间的互信息;
对所述费希尔得分、所述皮尔逊相关系数和所述互信息的计算结果均进行归一化处理,并对归一化处理后的数值取均值,作为该属性的属性可靠性;
根据预设的约束条件,对于每个所述属性,设置多个参考值,并为该属性的每个所述参考值设置对应的参考证据,为每个所述参考证据设置对于该属性的参考证据权重;
将全部所述属性所对应的所述参考值、参考值个数和所述参考证据权重组合为个体编码,通过对所述个体编码多次初始化,得到多个初始个体并组成初始化种群,采取多目标遗传算法,对所述初始化种群进行迭代,响应于确定达到迭代的目标次数,得到目标种群,根据帕累托支配原则,在所述目标种群中确定目标个体;
利用所述目标个体中每个所述属性对应的所述参考值、所述参考值个数和所述参考证据权重计算该属性的属性证据和属性证据权重,利用所述属性可靠性和所述属性证据权重对全部所述属性证据进行融合,得到证据推理分类器,利用所述证据推理分类器对所述样本进行分类决策。
2.根据权利要求1所述的方法,其特征在于,所述采取多目标遗传算法,对所述初始化种群进行迭代,包括:
在每次所述多目标遗传算法的每次迭代中,执行如下操作:
响应于确定本次迭代为首次迭代,在初始化种群中,对全部初始个体构建帕累托等级的排序,并对每个所述初始个体计算拥挤度,在初始化种群中,选取多个所述初始个体,根据每个所述初始个体的所述帕累托等级和所述拥挤度,执行竞标赛选择法,得到本次迭代的父代种群;响应于确定本次迭代为非首次迭代,在前一次迭代得到的新代种群中,对全部新代个体构建帕累托等级的排序,并对每个所述新代个体计算拥挤度,在前一次迭代得到的所述新代种群中,选取多个所述新代个体,根据每个新代个体的所述帕累托等级和所述拥挤度,执行竞标赛选择法,得到本次迭代的所述父代种群;
对本次迭代的所述父代种群中的多个父代个体通过执行模拟二进制交叉法和多项式变异,得到本次迭代的子代种群;
将本次迭代的所述父代种群和所述子代种群合并,得到本次迭代的过渡种群;
在本次迭代的所述过渡种群中,对全部过渡个体构建快速非支配级排序,并对每个所述过渡个体计算拥挤度;
将本次迭代的所述过渡种群中的前多个过渡个体组成本次迭代的所述新代种群。
3.根据权利要求2所述的方法,其特征在于,所述在本次迭代的所述过渡种群中,对全部过渡个体构建快速非支配级排序,并对每个所述过渡个体计算拥挤度,包括:
在本次迭代中,对于每个所述过渡个体中的每个所述属性,利用该属性对应的所述参考值、所述参考值个数和所述参考证据权重计算该属性的属性证据和属性证据权重,利用所述属性可靠性和所述属性证据权重对全部所述属性证据进行融合,利用融合的结果对所述样本进行分类决策;
利用每个所述过渡个体对全部所述样本进行决策分类的结果,利用该分类决策的结果,对全部过渡个体构建快速非支配级排序,并对每个所述过渡个体计算拥挤度。
4.根据权利要求1所述的方法,其特征在于,所述利用所述目标个体中每个所述属性对应的所述参考值、所述参考值个数和所述参考证据权重计算该属性的属性证据和属性证据权重,包括:
对于每个所述属性,根据该属性和该属性对应的所述参考值,构成在该属性与全部所述类别之间的相似度分布,根据所述相似度分布构建该属性的参考证据矩阵;
根据在该属性上的所述相似度分布和所述参考证据矩阵,对该属性的所述参考证据进行加权,得到该属性的属性证据,并对该属性的所述参考证据的所述参考证据权重进行加权,得到该属性的属性证据权重。
5.根据权利要求4所述的方法,其特征在于,所述利根据该属性和该属性对应的所述参考值,构成在该属性与全部所述类别之间的相似度分布,包括:
在每个所述样本中,对于每个所述属性中的每个所述参考值,计算该参考值与相邻的另一所述参考值的第一差值;并计算该属性与相邻的另一所述参考值的第二差值;根据所述第一差值与所述第二差值的比例确定该属性与该参考值的匹配度;
对于每个所述类别,在全部所述样本中,计算属于同一所述属性和同一所述参考值的所述匹配度之和,作为所述相似度分布的第一参数;
对于每个所述类别,在全部所述样本中,计算全部所述属性的所述第一参数之和,作为所述相似度分布的第二参数;
利用所述第一参数、所述第二参数和所述匹配度构成所述相似度分布。
6.根据权利要求5所述的方法,其特征在于,所述根据所述相似度分布构建该属性的参考证据矩阵,包括:
在所述类别确定的情况下,对于每个所述属性所匹配的每个所述参考值,根据所述相似度分布中的所述第一参数和所述第二参数的比例,构造将该属性取值为该参考值的似然;
通过对每个类别分别进行规范化的似然,得到每个所述参考证据判定所述样本时的参考证据信度;
在所述属性确定的情况下,根据该属性的每个所述参考证据的所述参考证据信度和所述类别,构造所述参考证据矩阵。
7.根据权利要求6所述的方法,其特征在于,所述利用所述属性可靠性和所述属性证据权重对全部所述属性证据进行融合,得到证据推理分类器,利用所述证据推理分类器对所述样本进行分类决策,包括:
基于所述参考证据矩阵的分布,响应于确定该属性取值在两个相邻的所述参考值之间,根据所述两个参考值的所述匹配度和所述参考证据信度,得到该属性的证据信度;根据所述两个参考值的所述匹配度和所述参考证据权重,得到该属性的所述属性证据权重;
将所述属性证据权重、所述证据信度和所述属性可靠性结合,得到该属性的属性证据;
对于每个所述属性证据,依据证据推理规则中的融合规则,利用所述属性可靠性和所述属性证据权重对该样本的全部属性证据进行融合,得到该属性证据将该样本判定为各个所述类别的判别信度;
将全部所述类别和每个所述判别信度,构建证据推理分类器;
在所述证据推理分类器中,将最大的所述判别信度所对应的所述类别作为该样本的类别,以对所述医疗数据集中各所述样本进行分类决策。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111576257.8A CN114239741B (zh) | 2021-12-21 | 2021-12-21 | 基于证据推理分类器的医疗数据分类方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111576257.8A CN114239741B (zh) | 2021-12-21 | 2021-12-21 | 基于证据推理分类器的医疗数据分类方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114239741A CN114239741A (zh) | 2022-03-25 |
CN114239741B true CN114239741B (zh) | 2024-03-29 |
Family
ID=80760868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111576257.8A Active CN114239741B (zh) | 2021-12-21 | 2021-12-21 | 基于证据推理分类器的医疗数据分类方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114239741B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738542A (zh) * | 2020-05-09 | 2020-10-02 | 合肥工业大学 | 复杂产品社会生命周期评价的可靠性分析方法 |
CN113792114A (zh) * | 2021-08-04 | 2021-12-14 | 北京大学 | 一种城市领域知识图谱可信评估方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11120339B2 (en) * | 2017-05-10 | 2021-09-14 | International Business Machines Corporation | Automatic claim reliability scorer based on extraction and evidence analysis |
-
2021
- 2021-12-21 CN CN202111576257.8A patent/CN114239741B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738542A (zh) * | 2020-05-09 | 2020-10-02 | 合肥工业大学 | 复杂产品社会生命周期评价的可靠性分析方法 |
CN113792114A (zh) * | 2021-08-04 | 2021-12-14 | 北京大学 | 一种城市领域知识图谱可信评估方法及系统 |
Non-Patent Citations (1)
Title |
---|
ER rule classifier with an optimization operator recommendation;Xiaoyan Wang等;Journal of Intelligent & Fuzzy Systems;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114239741A (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xia et al. | Complete random forest based class noise filtering learning for improving the generalizability of classifiers | |
CN109754012A (zh) | 实体语义关系分类方法、模型训练方法、装置及电子设备 | |
Choubey et al. | GA_J48graft DT: a hybrid intelligent system for diabetes disease diagnosis | |
Uddin | Addressing accuracy paradox using enhanched weighted performance metric in machine learning | |
CN116934385B (zh) | 用户流失预测模型的构建方法、用户流失预测方法及装置 | |
Wang et al. | The trend-fuzzy-granulation-based adaptive fuzzy cognitive map for long-term time series forecasting | |
CN111931616A (zh) | 基于移动智能终端传感器设备的情绪识别方法及系统 | |
Hasan et al. | Employment of ensemble machine learning methods for human activity Recognition | |
CN111785372A (zh) | 基于关联规则的协同过滤疾病预测系统及其电子设备 | |
CN114255830A (zh) | 基于规则分类器的增量医疗数据的分类方法及相关设备 | |
Srivastava et al. | Heart disease prediction using machine learning | |
CN117407732A (zh) | 一种基于对抗神经网络的非常规储层气井产量预测方法 | |
CN114239741B (zh) | 基于证据推理分类器的医疗数据分类方法及相关设备 | |
Jin et al. | A weighting method for feature dimension by semisupervised learning with entropy | |
CN111583194A (zh) | 基于贝叶斯粗糙集和布谷鸟算法的高维特征选择算法 | |
CN114239742B (zh) | 基于规则分类器的医疗数据分类方法及相关设备 | |
CN114121296B (zh) | 基于数据驱动的临床信息规则提取方法、存储介质及设备 | |
CN110957046A (zh) | 医疗健康案例知识匹配方法和系统 | |
CN115936841A (zh) | 一种构建信贷风险评估模型的方法及装置 | |
CN116230146A (zh) | 数据处理方法、icd编码模型的训练方法及相关设备 | |
Tounsi et al. | An enhanced comparative assessment of ensemble learning for credit scoring | |
CN114239738B (zh) | 小样本的医疗数据分类方法及相关设备 | |
KR102504319B1 (ko) | 영상 객체 속성 분류 장치 및 방법 | |
CN113255933A (zh) | 特征工程和图网络生成方法和装置、分布式系统 | |
Rong et al. | Exploring network behavior using cluster analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |