CN101921847A - 基于模糊k-nn算法的肿瘤基因表达谱分类方法 - Google Patents
基于模糊k-nn算法的肿瘤基因表达谱分类方法 Download PDFInfo
- Publication number
- CN101921847A CN101921847A CN2010102349540A CN201010234954A CN101921847A CN 101921847 A CN101921847 A CN 101921847A CN 2010102349540 A CN2010102349540 A CN 2010102349540A CN 201010234954 A CN201010234954 A CN 201010234954A CN 101921847 A CN101921847 A CN 101921847A
- Authority
- CN
- China
- Prior art keywords
- gene
- algorithm
- fuzzy
- sample
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明涉及肿瘤基因表达谱分类技术领域,特别是一种基于模糊K-NN算法的肿瘤基因表达谱分类方法,其特征在于:该方法从生物学分析出发,首先采用RFSC算法剔除无关基因,然后采用模糊K-NN算法对已剔除无关基因的基因表达谱数据进行分析,以发现有差异的基因表达。该方法有利于对肿瘤基因表达谱进行有效分类,从而准确判别肿瘤亚型。
Description
技术领域
本发明涉及肿瘤基因表达谱分类技术领域,特别是一种基于模糊K-NN算法的肿瘤基因表达谱分类方法。
背景技术
通过DNA微阵列芯片实验人们可以得到基因表达谱数据,通过对这些数据的分析,人们可以挖掘出具有生物学意义的信息和知识。如何从基因表达谱数据中选取包含样本分类信息的特征基因,建立分类器,实现肿瘤的分型诊断是当前生物信息学研究的重要领域。鉴于肿瘤亚型识别与分类特征基因选取的重要性,目前已经出现了针对该问题的大量研究文献。Golub等人以加权投票法为分类手段对白血病的两种已知亚型AML与ALL的分类问题进行了研究并采用留一法和独立测试集进行分类有效性的评估。Brown等将几种常用分类方法应用到基于基因表达谱的肿瘤分类,并对分类效果进行了比较,发现采用支持向量机(SVM)效果最好。当前,对基因表达数据进行分类分析的主要方法有人工神经网络、遗传算法、支持向量机、贝叶斯和K-近邻法等。
发明内容
本发明的目的在于提供一种基于模糊K-NN算法的肿瘤基因表达谱分类方法,该方法有利于对肿瘤基因表达谱进行有效分类,从而准确判别肿瘤亚型。
为实现上述目的,本发明的技术方案是:一种基于模糊K-NN算法的肿瘤基因表达谱分类方法,其特征在于:该方法从生物学分析出发,首先采用RFSC算法剔除无关基因,然后采用模糊K-NN算法对已剔除无关基因的基因表达谱数据进行分析,以发现有差异的基因表达。
本发明的有益效果是利用肿瘤基因表达谱建立有效的“预测性”分类模型,对肿瘤的不同亚型进行准确判别,对当前生物信息学研究具有重要意义。由于采用了模糊理论,不是简单地将未知样本归类定为“属于”或者“不属于”,因而本算法特别适合于学习样本类别分布不均匀的场合。
附图说明
图1是本发明方法的实施流程图。
具体实施方式
本发明的基于模糊K-NN算法的肿瘤基因表达谱分类方法,该方法从生物学分析出发,首先采用RFSC算法剔除无关基因,然后采用模糊K-NN算法对已剔除无关基因的基因表达谱数据进行分析,以发现有差异的基因表达。
下面对本发明涉及的各种算法进一步加以说明。
1、信息基因选择与RFSC算法。
肿瘤的亚型或类型识别是一个分类问题。但在数据收集阶段,很难确定哪些基因与样本类别相关,哪些不相关。因此,所有基因的表达水平都被记录到样本里以免丢失对样本分类有用的信息。这导致了基因表达谱数据具有维数高、噪音大以及冗余信息的特点。所以在分类前需要采用各种方法对基因表达谱数据进行降维、去噪和剔除冗余基因等处理,以最大限度地提高肿瘤样本的分类性能。为了改善分类器的性能 ,信息基因的选择是非常重要的一步。
采用修订的特征记分准则(Revised Feature Score Criterion, RFSC)算法对每一个基因计算其分值,然后按分值降序排列基因,基因分值的计算,即RFSC算法的算式如下。
其中,表示基因的正类样本的均值,表示基因的负类样本的均值,表示基因的正类样本的标准差,表示基因的负类样本的标准差。基因分值的大小表明该基因能够区分正类样本和负类样本的分类能力大小。该算法考虑了由于均值、方差不同所带来的对样本分类的贡献,从而客观地评价各基因含有的分类信息量,以剔除无关基因。
2、模糊K-NN算法。
K-近邻分类(K-nearest neighbor,K-NN)算法是一种建立在通过类比进行学习的算法,它根据测试样本在特征空间中k个最近邻样本中的多数样本的类别来进行分类,因此具有直观、无需先验统计知识等特点。然而,当学习样本类别分布不均匀的时候,如果仅考虑排序后的k个近邻而忽视样本间的不同距离,势必会降低K-NN的分类精度。因此,本发明采用了模糊K-近邻算法(fuzzy K-NN)。
模糊K-NN算法的详细步骤如下。
Step 1:确定未知样本的最近邻数k的值;
Step 2:选择欧式距离范数d作为距离测度;
(2) 在X中找出对应于k个最近邻距离的k个列。
其中,m为模糊权重调节因子。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (3)
1.一种基于模糊K-NN算法的肿瘤基因表达谱分类方法,其特征在于:该方法从生物学分析出发,首先采用RFSC算法剔除无关基因,然后采用模糊K-NN算法对已剔除无关基因的基因表达谱数据进行分析,以发现有差异的基因表达。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102349540A CN101921847A (zh) | 2010-07-23 | 2010-07-23 | 基于模糊k-nn算法的肿瘤基因表达谱分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102349540A CN101921847A (zh) | 2010-07-23 | 2010-07-23 | 基于模糊k-nn算法的肿瘤基因表达谱分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101921847A true CN101921847A (zh) | 2010-12-22 |
Family
ID=43337062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102349540A Pending CN101921847A (zh) | 2010-07-23 | 2010-07-23 | 基于模糊k-nn算法的肿瘤基因表达谱分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101921847A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073799A (zh) * | 2011-01-28 | 2011-05-25 | 重庆大学 | 基于基因表达谱的肿瘤基因识别方法 |
CN105046110A (zh) * | 2015-06-28 | 2015-11-11 | 中国科学院合肥物质科学研究院 | 一种克服信号失真的肿瘤细胞异常通路识别方法 |
CN105825078A (zh) * | 2016-03-16 | 2016-08-03 | 广东工业大学 | 基于基因大数据的小样本基因表达数据分类方法 |
CN109243533A (zh) * | 2018-07-26 | 2019-01-18 | 中山大学 | 一种用于计算基因的组织特异表达的鲁棒z-score打分方法 |
-
2010
- 2010-07-23 CN CN2010102349540A patent/CN101921847A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073799A (zh) * | 2011-01-28 | 2011-05-25 | 重庆大学 | 基于基因表达谱的肿瘤基因识别方法 |
CN105046110A (zh) * | 2015-06-28 | 2015-11-11 | 中国科学院合肥物质科学研究院 | 一种克服信号失真的肿瘤细胞异常通路识别方法 |
CN105825078A (zh) * | 2016-03-16 | 2016-08-03 | 广东工业大学 | 基于基因大数据的小样本基因表达数据分类方法 |
CN105825078B (zh) * | 2016-03-16 | 2019-02-26 | 广东工业大学 | 基于基因大数据的小样本基因表达数据分类方法 |
CN109243533A (zh) * | 2018-07-26 | 2019-01-18 | 中山大学 | 一种用于计算基因的组织特异表达的鲁棒z-score打分方法 |
CN109243533B (zh) * | 2018-07-26 | 2021-07-13 | 中山大学 | 一种用于计算基因的组织特异表达的鲁棒z-score打分方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
García-Nieto et al. | Sensitivity and specificity based multiobjective approach for feature selection: Application to cancer diagnosis | |
Chen et al. | A novel ensemble of classifiers for microarray data classification | |
Mukhopadhyay et al. | Multi-class clustering of cancer subtypes through SVM based ensemble of pareto-optimal solutions for gene marker identification | |
CN105825078B (zh) | 基于基因大数据的小样本基因表达数据分类方法 | |
CN106056130A (zh) | 针对不平衡数据集的组合降采样线性判别分类方法 | |
CN104809476B (zh) | 一种基于分解的多目标进化模糊规则分类方法 | |
Karim et al. | OncoNetExplainer: explainable predictions of cancer types based on gene expression data | |
CN101923604A (zh) | 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法 | |
CN112633337A (zh) | 一种基于聚类和边界点的不平衡数据处理方法 | |
CN101921847A (zh) | 基于模糊k-nn算法的肿瘤基因表达谱分类方法 | |
CN111539451B (zh) | 样本数据优化方法、装置、设备及存储介质 | |
Lin et al. | Pattern classification in DNA microarray data of multiple tumor types | |
Hajiagha et al. | Fuzzy C-means based data envelopment analysis for mitigating the impact of units’ heterogeneity | |
Weber et al. | Perron cluster analysis and its connection to graph partitioning for noisy data | |
Zintzaras et al. | Forest classification trees and forest support vector machines algorithms: Demonstration using microarray data | |
Hand | Breast cancer diagnosis from proteomic mass spectrometry data: a comparative evaluation | |
Ni et al. | A hybrid filter/wrapper gene selection method for microarray classification | |
CN110516741A (zh) | 基于动态分类器选择的类别重叠不平衡数据分类方法 | |
CN110276395A (zh) | 基于正则化动态集成的不平衡数据分类方法 | |
Kim et al. | A genetic filter for cancer classification on gene expression data | |
CN109063733A (zh) | 一种基于双参数离群因子的离群点检测方法 | |
CN103761433A (zh) | 一种网络服务资源分类方法 | |
Li et al. | Ensemble-based multi-objective clustering algorithms for gene expression data sets | |
Zhao et al. | Combining genetic algorithm and SVM for corn variety identification | |
Mukhopadhyay et al. | Unsupervised cancer classification through SVM-boosted multiobjective fuzzy clustering with majority voting ensemble |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20101222 |