CN104951649A - 一种基于高斯模糊积分的hbv分类方法 - Google Patents

一种基于高斯模糊积分的hbv分类方法 Download PDF

Info

Publication number
CN104951649A
CN104951649A CN201510279764.3A CN201510279764A CN104951649A CN 104951649 A CN104951649 A CN 104951649A CN 201510279764 A CN201510279764 A CN 201510279764A CN 104951649 A CN104951649 A CN 104951649A
Authority
CN
China
Prior art keywords
hbv
class
gaussian blur
gaussian
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510279764.3A
Other languages
English (en)
Inventor
王金凤
王文中
田绪红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN201510279764.3A priority Critical patent/CN104951649A/zh
Publication of CN104951649A publication Critical patent/CN104951649A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于高斯模糊积分的HBV分类方法,包括下述步骤:S1、从HBV数据库中筛选HBV患者的DNA序列;S2、数据库根据聚类方法分为四个小的数据集合B1、C1、C2以及C3;S3、对数据集进行分类,依靠分类器的分类和病例的真实类别;S4、将高斯模糊积分构造的分类器应用于HBV数据库,对HBV进行分类。本发明基于高斯分布的模糊积分,通过高斯函数表示被积函数来完成模糊积分的投影,然后再根据投影得到的虚拟积分值进行线性分类,提高HBV分类精度,简化了HBV分类过程。

Description

一种基于高斯模糊积分的HBV分类方法
技术领域
本发明涉及分类预测的研究领域,特别涉及一种基于高斯模糊积分的HBV分类方法。
背景技术
目前,现实应用中很多问题涉及到分类预测,研究者已经从最初的线性分类器扩展到了非线性分类器的使用。传统的模糊积分就是一种用于处理非线性问题的信息融合工具。而模糊积分自身也存在着极大的局限性,比如经典模糊测度的表示仅限于[0,1]区间,以及传统模糊积分所能处理的数据只能根据被积函数沿直线投影来获得积分值,而实际的数据分布并不是单纯线性的。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于高斯模糊积分的HBV分类方法。
本发明的目的通过以下的技术方案实现:
一种基于高斯模糊积分的HBV分类方法,包括下述步骤:
S1、从HBV数据库中筛选HBV患者的DNA序列;
S2、数据库根据聚类方法分为四个小的数据集合B1、C1、C2以及C3;
S3、对数据集进行分类,依靠分类器的分类和病例的真实类别,可以有四种结果用于预测评价;
真正类---患者诊断为患病,而真有病的情况;
假正类---患者诊断为患病,而未患病的情况;
真负类---患者诊断为无病,而真无病的情况;
假负类---患者诊断为无病,而真有病的情况;
令TP,FP,TN和FN分别表示真正类、假正类、真负类和假负类的数目,对于每个学习和评价实验,Accuracy准确度、Sensitivity敏感度和Specificity特异性定义如下,用作分类的性能或适应度的指示器;
Accuracy=(TP+TN)/(TP+TN+FP+FN),
Sensitivity=TP/(TP+FN),
Specificity=TN/(TN+FP).
S4、将高斯模糊积分构造的分类器应用于HBV数据库,对HBV进行分类,所述高斯模糊积分构造的分类器具体为:
假设给定特征集X={x1,x2,…,xn},f为特征函数,相应的特征值为f(x1),f(x2),…,f(xn),将特征值进行降序排列满足f(x1')≤f(x2')≤…≤f(xn'),其中(x1',x2',…,xn')是(x1,x2,…,xn)的变形;
将被积函数扩展为高斯形式,并基于此构建扩展模糊积分分类器,基于高斯函数的模糊积分定义如下:  ∫ e - ( f ( x ) - b ) 2 2 c 2 dμ = Σ i = 1 n [ e - ( f ′ ( x i ) - b ) 2 2 c 2 - e - ( f ′ ( x i - 1 ) - b ) 2 2 c 2 ] μ ( { x ′ i , x ′ i + 1 , . . . , x ′ n } ) ;
通过投影所有待分类数据会在L轴求得一个高斯模糊积分值,此时可采用一个线性分类方法将这些虚拟值进行分类,在一次投影后并不一定能够正确分类所有数据,通过不断学习得到一组优化的模糊测度值,来对虚拟点在L上的分布进行调节,直至获得满意分类结果。
优选的,步骤S2中,分子进化分析由生物信息分析软件MEGA 3.0实现完成,并同步采用进化树完成了HBV的同质性聚类,特征提取采用基于信息熵排序的方法,基因特征按照信息增益进行排序,选取最前位的特征作为用于分类 器的潜力特征,并经多次验证实验,取前5位基因结果最优。
优选的,步骤S3中,使用简单的整数值0,1,2和3作为数字化的初始值,以分别表示特征的离散值。
优选的,步骤S4中,所述的模糊测度值通过遗传算法进行优化学习,该步骤中描述的n个基因特征对应的一组模糊测度包含2n-1个值,遗传算法中需要由一组具有2n-1个基因的染色体表示,通过变异、交叉和复制运算因子,经过多代的进化学习,最终遗传算法的适应函数满足停止条件,此时获得的染色体中每个基因位对应的值即为模糊测度值。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明基于高斯分布的模糊积分,通过高斯函数表示被积函数来完成模糊积分的投影,然后再根据投影得到的虚拟积分值进行线性分类,提高HBV分类精度,简化了HBV分类过程。
2、本发明采用的高斯模糊积分呈现最高的测试敏感度,对于疾病确诊和研究具有积极的辅助作用。
附图说明
图1是本发明基于高斯模糊积分的HBV分类方法的流程图;
图2(a)是本发明一种取值情况下的高斯函数的投影图;
图2(b)是本发明另一种取值情况下的高斯函数的投影图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例基于高斯模糊积分的HBV分类方法,包括下述步骤:
S1、从HBV数据库中筛选HBV患者的DNA序列;HBV数据库是来自香港威尔士医院的实例,包含98个非患病者和100个阳性患病者。
S2、HBV患者的DNA序列由生物专家精心挑选,尽量使统计偏差最小。数据库可以根据聚类方法分为四个小的数据集合B1、C1、C2以及C3,每个子库的病人如表1所示;
表1 HBV数据集描述 
子库 患病 无病 总数
B 51 37 88
C1 10 16 26
C2 18 22 40
C3 19 25 44
Total 98 100 198
S3、对数据集进行分类,依靠分类器的分类和病例的真实类别,可以有四种结果用于预测评价;
真正类---患者诊断为患病,而真有病的情况;
假正类---患者诊断为患病,而未患病的情况;
真负类---患者诊断为无病,而真无病的情况;
假负类---患者诊断为无病,而真有病的情况;
令TP,FP,TN和FN分别表示真正类、假正类、真负类和假负类的数目,对于每个学习和评价实验,Accuracy准确度、Sensitivity敏感度和Specificity特异性定义如下,用作分类的性能或适应度的指示器;
Accuracy=(TP+TN)/(TP+TN+FP+FN),
Sensitivity=TP/(TP+FN),
Specificity=TN/(TN+FP).
医药专家通常更倾向于较高的敏感度,即低准确度和特异性是可接受的平衡状态,只要准确度和特异性是合理的。这意味着我们宁愿让更多的人确诊为 患病,而不要错过那些真正患病的人。在这些数据库中,所有特征是分类型特征。每个特征有四个符号型的值A,C,G和T。为了使用非线性模型,我们使用简单的整数值0,1,2和3作为数字化的初始值,以分别表示特征的离散值。
S4、将高斯模糊积分(Gaussian-FI)构造的分类器应用于HBV数据库,并和之前研究中的结果进行比较,如表2所示,包含多个经典算法的测试结果,包括神经网络(NN)、决策树(DT)、贝叶斯(NB),支撑向量机(SVM)以及传统模糊积分(FI),我们用多个数据库的平均值来衡量性能,最好的值用黑体突出显示。表中可见,SVM虽具有最好的分类精度,敏感性却相对较差。对于筛查测试,医药专家通常喜欢更高的敏感度,即较低的精度和特异性对于高敏感度处于一个合理的可接受的平衡状态。我们宁愿让更多的人接受确诊测试,而不要错过任何一个真正的癌症患者。高斯模糊积分呈现最高的测试敏感度,对于疾病确诊和研究具有积极的辅助作用。
上述高斯模糊积分的分类方法具体为:
假设给定特征集X={x1,x2,…,xn},f为特征函数,相应的特征值为f(x1),f(x2),…,f(xn),本实施例将特征值进行降序排列满足f(x1')≤f(x2')≤…≤f(xn'),其中(x1',x2',…,xn')是(x1,x2,…,xn)的变形。传统的模糊测度μ:P(X)→[0,1]是一种以单调性代替可加性的可能性度量,传统的模糊积分是基于模糊测度的一种非线性融合工具,其中典型的Choquet积分有如下定义计算得到:
∫ fdμ = Σ i = 1 n [ f ′ ( x i ) - f ′ ( x i - 1 ) ] μ ( { x ′ i , x ′ i + 1 , . . . , x ′ n } ) , f ( x ′ 0 ) = 0 .
当特征个数为2时,模糊积分是将数据从2维空间投影到一维空间,而投影线的方向是由模糊测度的大小和正负来决定的,扩展后的模糊测度由[0,1]空间延伸至(-∞,+∞)。
但是在现实问题中,数据分布并不规则,直线投影过于狭隘。高斯函数是 一种广泛应用于自然学科的函数,它的分布曲线趋于正态分布,能更大范围的覆盖数据。本项目提出一种新的模糊积分扩展形式-基于高斯函数的模糊积分(高斯模糊积分),将被积函数扩展为高斯形式,并基于此构建扩展模糊积分分类器。基于高斯函数的模糊积分定义如下:  ∫ e - ( f ( x ) - b ) 2 2 c 2 dμ = Σ i = 1 n [ e - ( f ′ ( x i ) - b ) 2 2 c 2 - e - ( f ′ ( x i - 1 ) - b ) 2 2 c 2 ] μ ( { x ′ i , x ′ i + 1 , . . . , x ′ n } ) . n=2时,假设μ1=0.4;μ2=0.5;μ12=0.6,其投影如图2(a)所示,投影曲线的形状随着模糊测度值的不同而变化。当μ1=0.1;μ2=0.5;μ12=0.9时,投影图则如图2(b)所示。由此可见高斯模糊积分可以随着模糊测度值的变化覆盖到大部分的待分类数据,之后投影到一维空间进行简单的线性分类,从而提高其分类精度。其投影如图2(a)和图2(b)所示,其中投影曲线的形状随着模糊测度值的不同而变化。
通过投影所有待分类数据会在L轴求得一个高斯模糊积分值,此时可采用一个线性分类方法将这些虚拟值进行分类。在一次投影后并不一定能够正确分类所有数据,这时需要通过不断学习得到一组优化的模糊测度值,来对虚拟点在L上的分布进行调节,直至获得满意分类结果。随着模糊测度值的不断变化,积分的投影图也会相应不同。基于高斯模糊积分构建分类器的伪代码如下:
算法:
    n:特征值;
    l:数据集大小;
    输入:训练数据fij和yj i=1,2,…n;j=1,2,…l
    输出:错误率e
    开始:
        While e>阈值
         学习模糊测度μ;
        计算高斯模糊积分值y1
        线性分类一维数据(y1’,y2’,…yl’);
        If e<阈值
        Quit;
  End While
结束
为了更好地说明此专利的效果,为了验证高斯模糊积分性能的优越性,本实施例使用Matlab7.2编程实现上述算法,并分为两大部分完成验证,分别应用于UCI经典数据库和一组肝炎病毒(HBV)的数据实例,并和传统模糊积分以及几种经典算法进行比较。
本实施例将高斯模糊积分(Gaussian-FI)构造的分类器应用于HBV数据库,并和之前研究中的结果进行比较,如表2所示,包含多个经典算法的测试结果,包括神经网络(NN)、决策树(DT)、贝叶斯(NB),支撑向量机(SVM)以及传统模糊积分(FI),本实施例用多个数据库的平均值来衡量性能,最好的值用黑体突出显示。
表2各种算法结果比较
由上述表2中可见,SVM虽具有最好的分类精度,敏感性却相对较差。对于筛查测试,医药专家通常喜欢更高的敏感度,即较低的精度和特异性对于高敏感度处于一个合理的可接受的平衡状态。本实施例宁愿让更多的人接受确诊测试,而不要错过任何一个真正的癌症患者。高斯模糊积分呈现最高的测试敏感度,对于疾病确诊和研究具有积极的辅助作用。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种基于高斯模糊积分的HBV分类方法,其特征在于,包括下述步骤:
S1、从HBV数据库中筛选HBV患者的DNA序列;
S2、数据库根据聚类方法分为四个小的数据集合B1、C1、C2以及C3;
S3、对数据集进行分类,依靠分类器的分类和病例的真实类别,可以有四种结果用于预测评价;
真正类---患者诊断为患病,而真有病的情况;
假正类---患者诊断为患病,而未患病的情况;
真负类---患者诊断为无病,而真无病的情况;
假负类---患者诊断为无病,而真有病的情况;
令TP,FP,TN和FN分别表示真正类、假正类、真负类和假负类的数目,对于每个学习和评价实验,Accuracy准确度、Sensitivity敏感度和Specificity特异性定义如下,用作分类的性能或适应度的指示器;
Accuracy=(TP+TN)/(TP+TN+FP+FN),
Sensitivity=TP/(TP+FN),
Specificity=TN/(TN+FP),
S4、将高斯模糊积分构造的分类器应用于HBV数据库,对HBV进行分类,所述高斯模糊积分构造的分类器具体为:
假设给定特征集X={x1,x2,…,xn},f为特征函数,相应的特征值为f(x1),f(x2),…,f(xn),将特征值进行降序排列满足f(x1')≤f(x2')≤…≤f(xn'),其中(x1',x2',…,xn')是(x1,x2,…,xn)的变形;
将被积函数扩展为高斯形式,并基于此构建扩展模糊积分分类器,基于高斯函数的模糊积分定义如下:
&Integral; e - ( f ( x ) - b ) 2 2 c 2 d&mu; = &Sigma; i = 1 n [ e - ( f &prime; ( x i ) - b ) 2 2 c 2 - e - ( f &prime; ( x i - 1 ) - b ) 2 2 c 2 ] &mu; ( { x &prime; i , x &prime; i + 1 , . . . , x &prime; n } ) ;
通过投影所有待分类数据会在L轴求得一个高斯模糊积分值,此时可采用一个线性分类方法将这些虚拟值进行分类,在一次投影后并不一定能够正确分类所有数据,通过不断学习得到一组优化的模糊测度值,来对虚拟点在L上的分布进行调节,直至获得满意分类结果。
2.根据权利要求1所述的基于高斯模糊积分的HBV分类方法,其特征在于,步骤S2中,分子进化分析由生物信息分析软件MEGA 3.0实现完成,并同步采用进化树完成了HBV的同质性聚类,特征提取采用基于信息熵排序的方法,基因特征按照信息增益进行排序,选取最前位的特征作为用于分类器的潜力特征,并经多次验证实验,取前5位基因结果最优。
3.根据权利要求1所述的基于高斯模糊积分的HBV分类方法,其特征在于,步骤S3中,使用简单的整数值0,1,2和3作为数字化的初始值,以分别表示特征的离散值。
4.根据权利要求1所述的基于高斯模糊积分的HBV分类方法,其特征在于,步骤S4中,所述的模糊测度值通过遗传算法进行优化学习,该步骤中描述的n个基因特征对应的一组模糊测度包含2n-1个值,遗传算法中需要由一组具有2n-1个基因的染色体表示,通过变异、交叉和复制运算因子,经过多代的进化学习,最终遗传算法的适应函数满足停止条件,此时获得的染色体中每个基因位对应的值即为模糊测度值。
CN201510279764.3A 2015-05-27 2015-05-27 一种基于高斯模糊积分的hbv分类方法 Pending CN104951649A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510279764.3A CN104951649A (zh) 2015-05-27 2015-05-27 一种基于高斯模糊积分的hbv分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510279764.3A CN104951649A (zh) 2015-05-27 2015-05-27 一种基于高斯模糊积分的hbv分类方法

Publications (1)

Publication Number Publication Date
CN104951649A true CN104951649A (zh) 2015-09-30

Family

ID=54166303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510279764.3A Pending CN104951649A (zh) 2015-05-27 2015-05-27 一种基于高斯模糊积分的hbv分类方法

Country Status (1)

Country Link
CN (1) CN104951649A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574351A (zh) * 2015-12-31 2016-05-11 北京千安哲信息技术有限公司 医学数据处理方法
CN106777971A (zh) * 2016-12-15 2017-05-31 杭州卓健信息科技有限公司 一种智能导诊方法及其装置
CN107545133A (zh) * 2017-07-20 2018-01-05 陆维嘉 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法
CN110503133A (zh) * 2019-07-26 2019-11-26 东北大学 一种基于深度学习的离心式压缩机故障预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1338697A (zh) * 2000-07-24 2002-03-06 索尼公司 数据处理系统、数据处理方法、数据处理装置、许可授权系统以及程序提供介质
JP2002117100A (ja) * 2000-10-06 2002-04-19 Hitachi Ltd 工程計画管理支援方法
CN103077302A (zh) * 2012-12-25 2013-05-01 杭州电子科技大学 基于平衡板使用者健康状态动态监测方法
CN104091096A (zh) * 2014-07-25 2014-10-08 华南农业大学 基于模糊测度的基因重要度追踪方法
CN104200114A (zh) * 2014-09-10 2014-12-10 中国人民解放军军事医学科学院卫生装备研究所 流式细胞仪数据快速分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1338697A (zh) * 2000-07-24 2002-03-06 索尼公司 数据处理系统、数据处理方法、数据处理装置、许可授权系统以及程序提供介质
US7653939B2 (en) * 2000-07-24 2010-01-26 Sony Corporation Data processing system, data processing method, data processing apparatus, license system, and program providing medium
JP2002117100A (ja) * 2000-10-06 2002-04-19 Hitachi Ltd 工程計画管理支援方法
CN103077302A (zh) * 2012-12-25 2013-05-01 杭州电子科技大学 基于平衡板使用者健康状态动态监测方法
CN104091096A (zh) * 2014-07-25 2014-10-08 华南农业大学 基于模糊测度的基因重要度追踪方法
CN104200114A (zh) * 2014-09-10 2014-12-10 中国人民解放军军事医学科学院卫生装备研究所 流式细胞仪数据快速分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王金凤 等: ""深度模糊积分及其应用"", 《计算机应用研究》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574351A (zh) * 2015-12-31 2016-05-11 北京千安哲信息技术有限公司 医学数据处理方法
CN105574351B (zh) * 2015-12-31 2017-02-15 北京千安哲信息技术有限公司 医学数据处理方法
CN106777971A (zh) * 2016-12-15 2017-05-31 杭州卓健信息科技有限公司 一种智能导诊方法及其装置
CN107545133A (zh) * 2017-07-20 2018-01-05 陆维嘉 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法
CN110503133A (zh) * 2019-07-26 2019-11-26 东北大学 一种基于深度学习的离心式压缩机故障预测方法

Similar Documents

Publication Publication Date Title
Warren et al. Do different methods for modeling age-graded trajectories yield consistent and valid results?
Chattopadhyay et al. A comparative study of fuzzy c-means algorithm and entropy-based fuzzy clustering algorithms
CN108804677B (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
CN103745200B (zh) 一种基于词袋模型的人脸图像识别方法
CN107111869A (zh) 图像辨识系统及方法
Ragab et al. A comparative analysis of classification algorithms for students college enrollment approval using data mining
Betancourt et al. Flexible models for microclustering with application to entity resolution
CN104951649A (zh) 一种基于高斯模糊积分的hbv分类方法
JP2018181290A (ja) 改良した情報測定とgaに基づくフィルター式特徴選択アルゴリズム
CN106096413B (zh) 一种基于多特征融合的恶意代码检测方法及系统
Padao et al. Using Naïve Bayesian method for plant leaf classification based on shape and texture features
CN112348090A (zh) 一种基于近邻自编码器的近邻异常检测系统
Yu et al. A recognition method of soybean leaf diseases based on an improved deep learning model
Peng et al. The health care fraud detection using the pharmacopoeia spectrum tree and neural network analytic contribution hierarchy process
Rafea et al. Classification of a COVID-19 dataset by using labels created from clustering algorithms
Oskouei et al. Over-sampling via under-sampling in strongly imbalanced data
CN108931815A (zh) 一种岩性的分级识别方法
CN111737694A (zh) 一种基于行为树的恶意软件同源性分析方法
CN110837853A (zh) 一种快速分类模型构建方法
Wang et al. Stratification-based semi-supervised clustering algorithm for arbitrary shaped datasets
Liu et al. SOTB: semi-supervised oversampling approach based on trigonal barycenter theory
CN114999628A (zh) 一种利用机器学习寻找退行性膝骨关节炎显著性特征方法
Hou et al. Remote sensing textual image classification based on extreme learning machine and hybrid rice optimization algorithm
Malarvizhi et al. Feature Linkage Weight Based Feature Reduction using Fuzzy Clustering Method
CN114548197A (zh) 一种基于自律学习sdl模型的聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150930