CN101921847A - 基于模糊k-nn算法的肿瘤基因表达谱分类方法 - Google Patents

基于模糊k-nn算法的肿瘤基因表达谱分类方法 Download PDF

Info

Publication number
CN101921847A
CN101921847A CN2010102349540A CN201010234954A CN101921847A CN 101921847 A CN101921847 A CN 101921847A CN 2010102349540 A CN2010102349540 A CN 2010102349540A CN 201010234954 A CN201010234954 A CN 201010234954A CN 101921847 A CN101921847 A CN 101921847A
Authority
CN
China
Prior art keywords
gene
algorithm
fuzzy
sample
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102349540A
Other languages
English (en)
Inventor
孔祥增
陈智勤
陈丽萍
宋考
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Normal University
Original Assignee
Fujian Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Normal University filed Critical Fujian Normal University
Priority to CN2010102349540A priority Critical patent/CN101921847A/zh
Publication of CN101921847A publication Critical patent/CN101921847A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及肿瘤基因表达谱分类技术领域,特别是一种基于模糊K-NN算法的肿瘤基因表达谱分类方法,其特征在于:该方法从生物学分析出发,首先采用RFSC算法剔除无关基因,然后采用模糊K-NN算法对已剔除无关基因的基因表达谱数据进行分析,以发现有差异的基因表达。该方法有利于对肿瘤基因表达谱进行有效分类,从而准确判别肿瘤亚型。

Description

基于模糊K-NN算法的肿瘤基因表达谱分类方法
技术领域
本发明涉及肿瘤基因表达谱分类技术领域,特别是一种基于模糊K-NN算法的肿瘤基因表达谱分类方法。
背景技术
通过DNA微阵列芯片实验人们可以得到基因表达谱数据,通过对这些数据的分析,人们可以挖掘出具有生物学意义的信息和知识。如何从基因表达谱数据中选取包含样本分类信息的特征基因,建立分类器,实现肿瘤的分型诊断是当前生物信息学研究的重要领域。鉴于肿瘤亚型识别与分类特征基因选取的重要性,目前已经出现了针对该问题的大量研究文献。Golub等人以加权投票法为分类手段对白血病的两种已知亚型AML与ALL的分类问题进行了研究并采用留一法和独立测试集进行分类有效性的评估。Brown等将几种常用分类方法应用到基于基因表达谱的肿瘤分类,并对分类效果进行了比较,发现采用支持向量机(SVM)效果最好。当前,对基因表达数据进行分类分析的主要方法有人工神经网络、遗传算法、支持向量机、贝叶斯和K-近邻法等。
发明内容
本发明的目的在于提供一种基于模糊K-NN算法的肿瘤基因表达谱分类方法,该方法有利于对肿瘤基因表达谱进行有效分类,从而准确判别肿瘤亚型。
为实现上述目的,本发明的技术方案是:一种基于模糊K-NN算法的肿瘤基因表达谱分类方法,其特征在于:该方法从生物学分析出发,首先采用RFSC算法剔除无关基因,然后采用模糊K-NN算法对已剔除无关基因的基因表达谱数据进行分析,以发现有差异的基因表达。
本发明的有益效果是利用肿瘤基因表达谱建立有效的“预测性”分类模型,对肿瘤的不同亚型进行准确判别,对当前生物信息学研究具有重要意义。由于采用了模糊理论,不是简单地将未知样本归类定为“属于”或者“不属于”,因而本算法特别适合于学习样本类别分布不均匀的场合。
附图说明
图1是本发明方法的实施流程图。
具体实施方式
本发明的基于模糊K-NN算法的肿瘤基因表达谱分类方法,该方法从生物学分析出发,首先采用RFSC算法剔除无关基因,然后采用模糊K-NN算法对已剔除无关基因的基因表达谱数据进行分析,以发现有差异的基因表达。
下面对本发明涉及的各种算法进一步加以说明。
1、信息基因选择与RFSC算法。
肿瘤的亚型或类型识别是一个分类问题。但在数据收集阶段,很难确定哪些基因与样本类别相关,哪些不相关。因此,所有基因的表达水平都被记录到样本里以免丢失对样本分类有用的信息。这导致了基因表达谱数据具有维数高、噪音大以及冗余信息的特点。所以在分类前需要采用各种方法对基因表达谱数据进行降维、去噪和剔除冗余基因等处理,以最大限度地提高肿瘤样本的分类性能。为了改善分类器的性能 ,信息基因的选择是非常重要的一步。
采用修订的特征记分准则(Revised Feature Score Criterion, RFSC)算法对每一个基因计算其分值,然后按分值降序排列基因,基因分值的计算,即RFSC算法的算式如下。
其中,
Figure 547000DEST_PATH_IMAGE002
表示基因
Figure 534548DEST_PATH_IMAGE003
的正类样本的均值,
Figure 758856DEST_PATH_IMAGE004
表示基因
Figure 148249DEST_PATH_IMAGE003
的负类样本的均值,
Figure 432600DEST_PATH_IMAGE005
表示基因
Figure 405979DEST_PATH_IMAGE003
的正类样本的标准差,
Figure 230715DEST_PATH_IMAGE006
表示基因
Figure 412298DEST_PATH_IMAGE003
的负类样本的标准差。基因分值的大小表明该基因能够区分正类样本和负类样本的分类能力大小。该算法考虑了由于均值、方差不同所带来的对样本分类的贡献,从而客观地评价各基因含有的分类信息量,以剔除无关基因。
2、模糊K-NN算法。
K-近邻分类(K-nearest neighbor,K-NN)算法是一种建立在通过类比进行学习的算法,它根据测试样本在特征空间中k个最近邻样本中的多数样本的类别来进行分类,因此具有直观、无需先验统计知识等特点。然而,当学习样本类别分布不均匀的时候,如果仅考虑排序后的k个近邻而忽视样本间的不同距离,势必会降低K-NN的分类精度。因此,本发明采用了模糊K-近邻算法(fuzzy K-NN)。
模糊K-NN算法的详细步骤如下。
设已知肿瘤基因表达谱矩阵U由n个样本
Figure 929867DEST_PATH_IMAGE007
组成,并设每个样本有c个基因,则所述模糊K-NN算法描述为:
Step 1:确定未知样本的最近邻数k的值;
Step 2:选择欧式距离范数d作为距离测度;
Step 3:对每个未知样本X i  ,
Figure 829690DEST_PATH_IMAGE008
(1) 计算n-1个距离
Figure 395800DEST_PATH_IMAGE009
,并对其进行排序:
Figure 494206DEST_PATH_IMAGE010
其中,
Figure 120360DEST_PATH_IMAGE011
Figure 507479DEST_PATH_IMAGE012
是未知样本X i 的k个最近邻与X i 的距离。
(2) 在X中找出对应于k个最近邻距离的k个列
(3) 由上面得到的k个列
Figure 331657DEST_PATH_IMAGE013
计算:
Figure 191029DEST_PATH_IMAGE014
其中,m为模糊权重调节因子。
(4) 判决:对于
Figure 799865DEST_PATH_IMAGE015
,如果,则x属于第i类。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (3)

1.一种基于模糊K-NN算法的肿瘤基因表达谱分类方法,其特征在于:该方法从生物学分析出发,首先采用RFSC算法剔除无关基因,然后采用模糊K-NN算法对已剔除无关基因的基因表达谱数据进行分析,以发现有差异的基因表达。
2.根据权利要求1所述的基于模糊K-NN算法的肿瘤基因表达谱分类方法,其特征在于:采用RFSC算法计算每一个基因的分值,基因分值的大小反映每一个基因能够区分正类样本和负类样本的分类能力,从而评价各基因含有的分类信息量,剔除无关基因,所述RFSC算法的算式如下:
Figure 437835DEST_PATH_IMAGE001
其中,
Figure 405791DEST_PATH_IMAGE002
表示基因
Figure 564240DEST_PATH_IMAGE003
的正类样本的均值,
Figure 10265DEST_PATH_IMAGE004
表示基因
Figure 203349DEST_PATH_IMAGE003
的负类样本的均值,
Figure 342206DEST_PATH_IMAGE005
表示基因
Figure 925634DEST_PATH_IMAGE003
的正类样本的标准差,表示基因
Figure 222940DEST_PATH_IMAGE003
的负类样本的标准差,基因分值的大小表明该基因能够区分正类样本和负类样本的分类能力大小。
3.根据权利要求1或2所述的基于模糊K-NN算法的肿瘤基因表达谱分类方法,其特征在于: 设已知肿瘤基因表达谱矩阵U由n个样本组成,并设每个样本有c个基因,则所述模糊K-NN算法按如下步骤进行:
Step 1:确定未知样本的最近邻数k的值;
Step 2:选择欧式距离范数d作为距离测度;
Step 3:对每个未知样本X i  ,
Figure 164275DEST_PATH_IMAGE008
(1) 计算n-1个距离
Figure 217682DEST_PATH_IMAGE009
,并对其进行排序:
Figure 119779DEST_PATH_IMAGE010
其中,
Figure 600438DEST_PATH_IMAGE011
是未知样本X i 的k个最近邻与X i 的距离;
(2) 在X中找出对应于k个最近邻距离的k个列
Figure 812294DEST_PATH_IMAGE013
(3) 由上面得到的k个列
Figure 506581DEST_PATH_IMAGE013
计算:
Figure 158142DEST_PATH_IMAGE014
其中,m为模糊权重调节因子;
(4) 判决:对于
Figure 265775DEST_PATH_IMAGE015
,如果
Figure 660984DEST_PATH_IMAGE016
,则x属于第i类。
CN2010102349540A 2010-07-23 2010-07-23 基于模糊k-nn算法的肿瘤基因表达谱分类方法 Pending CN101921847A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102349540A CN101921847A (zh) 2010-07-23 2010-07-23 基于模糊k-nn算法的肿瘤基因表达谱分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102349540A CN101921847A (zh) 2010-07-23 2010-07-23 基于模糊k-nn算法的肿瘤基因表达谱分类方法

Publications (1)

Publication Number Publication Date
CN101921847A true CN101921847A (zh) 2010-12-22

Family

ID=43337062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102349540A Pending CN101921847A (zh) 2010-07-23 2010-07-23 基于模糊k-nn算法的肿瘤基因表达谱分类方法

Country Status (1)

Country Link
CN (1) CN101921847A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073799A (zh) * 2011-01-28 2011-05-25 重庆大学 基于基因表达谱的肿瘤基因识别方法
CN105046110A (zh) * 2015-06-28 2015-11-11 中国科学院合肥物质科学研究院 一种克服信号失真的肿瘤细胞异常通路识别方法
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN109243533A (zh) * 2018-07-26 2019-01-18 中山大学 一种用于计算基因的组织特异表达的鲁棒z-score打分方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073799A (zh) * 2011-01-28 2011-05-25 重庆大学 基于基因表达谱的肿瘤基因识别方法
CN105046110A (zh) * 2015-06-28 2015-11-11 中国科学院合肥物质科学研究院 一种克服信号失真的肿瘤细胞异常通路识别方法
CN105825078A (zh) * 2016-03-16 2016-08-03 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN105825078B (zh) * 2016-03-16 2019-02-26 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
CN109243533A (zh) * 2018-07-26 2019-01-18 中山大学 一种用于计算基因的组织特异表达的鲁棒z-score打分方法
CN109243533B (zh) * 2018-07-26 2021-07-13 中山大学 一种用于计算基因的组织特异表达的鲁棒z-score打分方法

Similar Documents

Publication Publication Date Title
García-Nieto et al. Sensitivity and specificity based multiobjective approach for feature selection: Application to cancer diagnosis
Chen et al. A novel ensemble of classifiers for microarray data classification
Mukhopadhyay et al. Multi-class clustering of cancer subtypes through SVM based ensemble of pareto-optimal solutions for gene marker identification
CN105825078B (zh) 基于基因大数据的小样本基因表达数据分类方法
CN106056130A (zh) 针对不平衡数据集的组合降采样线性判别分类方法
CN104809476B (zh) 一种基于分解的多目标进化模糊规则分类方法
Karim et al. OncoNetExplainer: explainable predictions of cancer types based on gene expression data
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
CN101921847A (zh) 基于模糊k-nn算法的肿瘤基因表达谱分类方法
CN111539451B (zh) 样本数据优化方法、装置、设备及存储介质
Lin et al. Pattern classification in DNA microarray data of multiple tumor types
Hajiagha et al. Fuzzy C-means based data envelopment analysis for mitigating the impact of units’ heterogeneity
Weber et al. Perron cluster analysis and its connection to graph partitioning for noisy data
Zintzaras et al. Forest classification trees and forest support vector machines algorithms: Demonstration using microarray data
Hand Breast cancer diagnosis from proteomic mass spectrometry data: a comparative evaluation
Ni et al. A hybrid filter/wrapper gene selection method for microarray classification
CN110516741A (zh) 基于动态分类器选择的类别重叠不平衡数据分类方法
CN110276395A (zh) 基于正则化动态集成的不平衡数据分类方法
Kim et al. A genetic filter for cancer classification on gene expression data
CN109063733A (zh) 一种基于双参数离群因子的离群点检测方法
CN103761433A (zh) 一种网络服务资源分类方法
Li et al. Ensemble-based multi-objective clustering algorithms for gene expression data sets
Zhao et al. Combining genetic algorithm and SVM for corn variety identification
Mukhopadhyay et al. Unsupervised cancer classification through SVM-boosted multiobjective fuzzy clustering with majority voting ensemble

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20101222