CN102279906A - 一种提高svm建模准确率的方法 - Google Patents

一种提高svm建模准确率的方法 Download PDF

Info

Publication number
CN102279906A
CN102279906A CN2010102140573A CN201010214057A CN102279906A CN 102279906 A CN102279906 A CN 102279906A CN 2010102140573 A CN2010102140573 A CN 2010102140573A CN 201010214057 A CN201010214057 A CN 201010214057A CN 102279906 A CN102279906 A CN 102279906A
Authority
CN
China
Prior art keywords
svm
modeling
group
sample
accuracy rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010102140573A
Other languages
English (en)
Inventor
曾华宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI CLUSTER BIOTECH CO Ltd
Original Assignee
SHANGHAI CLUSTER BIOTECH CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI CLUSTER BIOTECH CO Ltd filed Critical SHANGHAI CLUSTER BIOTECH CO Ltd
Priority to CN2010102140573A priority Critical patent/CN102279906A/zh
Publication of CN102279906A publication Critical patent/CN102279906A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

SVM(支持向量机)建模的方法是建立在统计学习理论上的机器学习方法,具有相对优良的性能指标,常用于差异基因的研究中。但常规SVM建模方法的准确率不太高,本发明设计了一套SVM建模的实施流程,用以提高其建模的准确率。该方法的基本思路为:对一特定样本建立多组训练集和测试集,用以建立多组SVM模型,对每组模型寻找最优SVM参数范围和预测错误的样本,然后取各组的交集,保留交集中的SVM参数,剔除交集中的错误样本号,最后以最优SVM建模参数和不全错误的样本重新建立SVM模型。

Description

一种提高SVM建模准确率的方法
技术领域
本发明属于生物技术领域,涉及一种提高SVM数据建模准确率的方法。
背景技术
数据建模指的是对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。将经过系统分析后抽象出来的概念模型转化为物理模型后,再利用计算机工具建立数据库实体以及各实体之间关系的过程。
SVM(Support Vector Machine)又称支持向量机,是Corinna Cortes和Vapnik[8]等于1995年首先提出的,是一种新的基于可以训练的机器学习上的建模方法。SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。通过对许多小样本的学习,获得最佳的核心参数及函数。SVM的主要思想可以概括为两点:(1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;(2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
将SVM支持向量机引入生物信息学的分析研究中,可用来建立检测差异表达蛋白的预测模型,通过对多组差异表达蛋白的机器学习,自动寻找最佳模型参数,建立SVM模型。利用SVM建立的预测模型可以最大化类与类之间的间隔,具有很好自适应能力,预测准确率一般在60%-65%之间。
发明内容
SVM(支持向量机)建模的方法是建立在统计学习理论上的机器学习方法,具有相对优良的性能指标。我们在进行差异表达基因研究时,选取几个差异表达基因建立SVM模型,同时按照ANOVA的p-value将基因排序,按照p-value值由小到大的顺序将其他基因一次一个的加入到模型中,通过训练学习,观察并记录每个基因数模型的记忆能力及预测准确率,最终找到预测准确率最高的一个模型,我们随机选取训练集和测试集,多次建模,结果发现模型平均预测准确率在60%-65%之间,并不能有显著的提高。
为了提高SVM建模的准确率,本发明所述方法设计了一套SVM建模的实施过程,通过自适应的机器学习,对影响预测结果准确性的预测错误的样本进行剔除,最终可以最大程度的提高模型预测的准确性。该方法包括如下几个基本步骤:
步骤1、选取特定样本建立N组训练集和测试集
步骤2、选一组训练集和测试集进行SVM建模
步骤3、寻找最优SVM参数范围,记录预测错误样本号。
步骤4、对每组训练集和测试集重复步骤2、3。
步骤5、取各组最优SVM参数范围的交集,剔除共有的预测错误的样本
步骤6、应用上述SVM参数,重新建立SVM模型
步骤7、SVM模型的微调
附图说明
图1、本发明所述方法的实施流程图
实施方式
本发明所述的方法可用来提高SVM建模的准确率,其具体的实施流程如下:
步骤1、对一特定的样本建立若干训练集和测试集(比如有N组),使得N组训练集和测试集之间的交集为0,即保证N组训练集和测试集能最大程度的线性无关。
步骤2、随机选定一组训练集和测试集。
步骤3、对选定的训练集和测试集进行训练和预测,寻找最优的SVM参数,即c,g值和核函数t的选择,得到最优预测率对应的一组参数范围(即c的范围、g的范围和采用哪种核函数)。
步骤4、记录步骤3测试集中预测错误的样本号。
步骤5、对于每一组训练集和测试集,重复步骤2到步骤4的工作,分别记录每一组的最优参数范围和预测错误的样本号,整理成列表。
步骤6、对得到的N组训练集和测试集的参数范围(即c的范围,g的范围和采用哪种核函数)取交集,作为SVM模型的最优参数,同时找出各组中共有的预测错误样本的样本号。
步骤7、剔除预测错误的样本,并采用步骤六中得到的SVM最优参数进行预测模型的重建立。
步骤8、根据具体情况,对模型进行细微调整。
通过以上八步基本上可以最大程度的提高模型预测的准确性。
以上是对本发明的描述而非限定,基于本发明思想的其它实施方式,均在本发明的保护范围之中。

Claims (1)

1.本发明所述的一种提高SVM建模准确率的方法,该方法包括如下几步基本特征:
步骤1、选取特定样本建立N组训练集和测试集
步骤2、选一组训练集和测试集进行SVM建模
步骤3、寻找最优SVM参数范围,记录预测错误样本号。
步骤4、对每组训练集和测试集重复步骤2、3。
步骤5、取各组最优SVM参数范围的交集,剔除共有的预测错误的样本
步骤6、应用上述SVM参数,重新建立SVM模型
步骤7、SVM模型的微调 。
CN2010102140573A 2010-06-29 2010-06-29 一种提高svm建模准确率的方法 Pending CN102279906A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102140573A CN102279906A (zh) 2010-06-29 2010-06-29 一种提高svm建模准确率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102140573A CN102279906A (zh) 2010-06-29 2010-06-29 一种提高svm建模准确率的方法

Publications (1)

Publication Number Publication Date
CN102279906A true CN102279906A (zh) 2011-12-14

Family

ID=45105348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102140573A Pending CN102279906A (zh) 2010-06-29 2010-06-29 一种提高svm建模准确率的方法

Country Status (1)

Country Link
CN (1) CN102279906A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760210A (zh) * 2012-06-19 2012-10-31 南京理工大学常熟研究院有限公司 一种蛋白质三磷酸腺苷绑定位点预测方法
CN103472482A (zh) * 2013-09-03 2013-12-25 中国石油天然气集团公司 基于基因排序体系的多波地震资料时间域匹配方法及系统
CN104252581A (zh) * 2013-06-26 2014-12-31 中国科学院深圳先进技术研究院 一种基于支持向量机的跨膜蛋白残基作用关系预测方法
CN108804867A (zh) * 2018-06-15 2018-11-13 中国人民解放军军事科学院军事医学研究院 基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法
CN109935078A (zh) * 2019-02-18 2019-06-25 深兰科技(上海)有限公司 一种自动进化型交通管控系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020090631A1 (en) * 2000-11-14 2002-07-11 Gough David A. Method for predicting protein binding from primary structure data
CN1828575A (zh) * 2005-03-01 2006-09-06 中国海洋大学 配方产品理化数据与感官指标相关性分析的方法
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
US7519563B1 (en) * 2005-02-07 2009-04-14 Sun Microsystems, Inc. Optimizing subset selection to facilitate parallel training of support vector machines
CN101673321A (zh) * 2009-10-17 2010-03-17 大连理工大学 基于分子结构的有机污染物正辛醇/空气分配系数快速预测方法
CN101719230A (zh) * 2009-12-18 2010-06-02 东南大学 大型汽轮机组主汽压力优化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020090631A1 (en) * 2000-11-14 2002-07-11 Gough David A. Method for predicting protein binding from primary structure data
US7519563B1 (en) * 2005-02-07 2009-04-14 Sun Microsystems, Inc. Optimizing subset selection to facilitate parallel training of support vector machines
CN1828575A (zh) * 2005-03-01 2006-09-06 中国海洋大学 配方产品理化数据与感官指标相关性分析的方法
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN101673321A (zh) * 2009-10-17 2010-03-17 大连理工大学 基于分子结构的有机污染物正辛醇/空气分配系数快速预测方法
CN101719230A (zh) * 2009-12-18 2010-06-02 东南大学 大型汽轮机组主汽压力优化方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760210A (zh) * 2012-06-19 2012-10-31 南京理工大学常熟研究院有限公司 一种蛋白质三磷酸腺苷绑定位点预测方法
CN104252581A (zh) * 2013-06-26 2014-12-31 中国科学院深圳先进技术研究院 一种基于支持向量机的跨膜蛋白残基作用关系预测方法
CN104252581B (zh) * 2013-06-26 2019-03-05 中国科学院深圳先进技术研究院 一种基于支持向量机的跨膜蛋白残基作用关系预测方法
CN103472482A (zh) * 2013-09-03 2013-12-25 中国石油天然气集团公司 基于基因排序体系的多波地震资料时间域匹配方法及系统
CN103472482B (zh) * 2013-09-03 2016-07-06 中国石油天然气集团公司 基于基因排序体系的多波地震资料时间域匹配方法及系统
CN108804867A (zh) * 2018-06-15 2018-11-13 中国人民解放军军事科学院军事医学研究院 基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法
CN109935078A (zh) * 2019-02-18 2019-06-25 深兰科技(上海)有限公司 一种自动进化型交通管控系统

Similar Documents

Publication Publication Date Title
Yang et al. Plastid genome comparative and phylogenetic analyses of the key genera in Fagaceae: highlighting the effect of codon composition bias in phylogenetic inference
Mazumdar et al. Codon usage and codon pair patterns in non-grass monocot genomes
Hao et al. SOMDE: a scalable method for identifying spatially variable genes with self-organizing map
US9897721B2 (en) Cluster analysis for selecting reservoir models from multiple geological realizations
Park et al. The complete plastome sequence of an Antarctic bryophyte Sanionia uncinata (Hedw.) Loeske
CN102279906A (zh) 一种提高svm建模准确率的方法
Arendsee et al. phylostratr: A framework for phylostratigraphy
Pease et al. Encoding data using biological principles: the multisample variant format for phylogenomics and population genomics
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN111863121A (zh) 一种基于图卷积神经网络的蛋白质自相互作用预测方法
CN107480466A (zh) 基因组数据存储方法及电子设备
Biswal et al. Phylogenetic reconstruction in the Order Nymphaeales: ITS2 secondary structure analysis and in silico testing of maturase k (matK) as a potential marker for DNA bar coding
Sokolkova et al. Genomic analysis of Vavilov’s historic chickpea landraces reveals footprints of environmental and human selection
Chen et al. Tree2GD: a phylogenomic method to detect large-scale gene duplication events
Cheng et al. Phylogenomics resolves the phylogeny of Theaceae by using low-copy and multi-copy nuclear gene makers and uncovers a fast radiation event contributing to tea plants diversity
Han et al. Plastomes of Bletilla (Orchidaceae) and phylogenetic implications
CN105631464A (zh) 对染色体序列和质粒序列进行分类的方法及装置
CN107766695A (zh) 一种获取外周血基因模型训练数据的方法及装置
Romeiro-Brito et al. A target capture probe set useful for deep-and shallow-level phylogenetic studies in Cactaceae
Shah et al. Forestry Resource Efficiency, Total Factor Productivity Change, and Regional Technological Heterogeneity in China
Souza et al. The complete plastid genome of Artocarpus camansi: a high degree of conservation of the plastome structure in the family Moraceae
CN113361752B (zh) 一种基于多视角学习的蛋白质溶剂可及性预测方法
CN105373583A (zh) 基于数据压缩的支撑向量机建模方法
CN115331754A (zh) 基于哈希算法的分子分类方法
Ma et al. Multi-objective optimization algorithm to discover condition-specific modules in multiple networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111214