CN102279906A

CN102279906A - 一种提高svm建模准确率的方法

Info

Publication number: CN102279906A
Application number: CN2010102140573A
Authority: CN
Inventors: 曾华宗
Original assignee: SHANGHAI CLUSTER BIOTECH CO Ltd
Current assignee: SHANGHAI CLUSTER BIOTECH CO Ltd
Priority date: 2010-06-29
Filing date: 2010-06-29
Publication date: 2011-12-14

Abstract

SVM(支持向量机)建模的方法是建立在统计学习理论上的机器学习方法，具有相对优良的性能指标，常用于差异基因的研究中。但常规SVM建模方法的准确率不太高，本发明设计了一套SVM建模的实施流程，用以提高其建模的准确率。该方法的基本思路为：对一特定样本建立多组训练集和测试集，用以建立多组SVM模型，对每组模型寻找最优SVM参数范围和预测错误的样本，然后取各组的交集，保留交集中的SVM参数，剔除交集中的错误样本号，最后以最优SVM建模参数和不全错误的样本重新建立SVM模型。

Description

一种提高SVM建模准确率的方法

技术领域

本发明属于生物技术领域，涉及一种提高SVM数据建模准确率的方法。

背景技术

数据建模指的是对现实世界各类数据的抽象组织，确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。将经过系统分析后抽象出来的概念模型转化为物理模型后，再利用计算机工具建立数据库实体以及各实体之间关系的过程。

SVM(Support Vector Machine)又称支持向量机，是Corinna Cortes和Vapnik[8]等于1995年首先提出的，是一种新的基于可以训练的机器学习上的建模方法。SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷，以期获得最好的推广能力。通过对许多小样本的学习，获得最佳的核心参数及函数。SVM的主要思想可以概括为两点：(1)它是针对线性可分情况进行分析，对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能；(2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面，使得学习器得到全局最优化，并且在整个样本空间的期望风险以某个概率满足一定上界。

将SVM支持向量机引入生物信息学的分析研究中，可用来建立检测差异表达蛋白的预测模型，通过对多组差异表达蛋白的机器学习，自动寻找最佳模型参数，建立SVM模型。利用SVM建立的预测模型可以最大化类与类之间的间隔，具有很好自适应能力，预测准确率一般在60％-65％之间。

发明内容

SVM(支持向量机)建模的方法是建立在统计学习理论上的机器学习方法，具有相对优良的性能指标。我们在进行差异表达基因研究时，选取几个差异表达基因建立SVM模型，同时按照ANOVA的p-value将基因排序，按照p-value值由小到大的顺序将其他基因一次一个的加入到模型中，通过训练学习，观察并记录每个基因数模型的记忆能力及预测准确率，最终找到预测准确率最高的一个模型，我们随机选取训练集和测试集，多次建模，结果发现模型平均预测准确率在60％-65％之间，并不能有显著的提高。

为了提高SVM建模的准确率，本发明所述方法设计了一套SVM建模的实施过程，通过自适应的机器学习，对影响预测结果准确性的预测错误的样本进行剔除，最终可以最大程度的提高模型预测的准确性。该方法包括如下几个基本步骤：

步骤1、选取特定样本建立N组训练集和测试集

步骤2、选一组训练集和测试集进行SVM建模

步骤3、寻找最优SVM参数范围，记录预测错误样本号。

步骤4、对每组训练集和测试集重复步骤2、3。

步骤5、取各组最优SVM参数范围的交集，剔除共有的预测错误的样本

步骤6、应用上述SVM参数，重新建立SVM模型

步骤7、SVM模型的微调

附图说明

图1、本发明所述方法的实施流程图

实施方式

本发明所述的方法可用来提高SVM建模的准确率，其具体的实施流程如下：

步骤1、对一特定的样本建立若干训练集和测试集(比如有N组)，使得N组训练集和测试集之间的交集为0，即保证N组训练集和测试集能最大程度的线性无关。

步骤2、随机选定一组训练集和测试集。

步骤3、对选定的训练集和测试集进行训练和预测，寻找最优的SVM参数，即c，g值和核函数t的选择，得到最优预测率对应的一组参数范围(即c的范围、g的范围和采用哪种核函数)。

步骤4、记录步骤3测试集中预测错误的样本号。

步骤5、对于每一组训练集和测试集，重复步骤2到步骤4的工作，分别记录每一组的最优参数范围和预测错误的样本号，整理成列表。

步骤6、对得到的N组训练集和测试集的参数范围(即c的范围，g的范围和采用哪种核函数)取交集，作为SVM模型的最优参数，同时找出各组中共有的预测错误样本的样本号。

步骤7、剔除预测错误的样本，并采用步骤六中得到的SVM最优参数进行预测模型的重建立。

步骤8、根据具体情况，对模型进行细微调整。

通过以上八步基本上可以最大程度的提高模型预测的准确性。

以上是对本发明的描述而非限定，基于本发明思想的其它实施方式，均在本发明的保护范围之中。

Claims

1.本发明所述的一种提高SVM建模准确率的方法，该方法包括如下几步基本特征：

步骤1、选取特定样本建立N组训练集和测试集

步骤2、选一组训练集和测试集进行SVM建模

步骤3、寻找最优SVM参数范围，记录预测错误样本号。

步骤4、对每组训练集和测试集重复步骤2、3。

步骤6、应用上述SVM参数，重新建立SVM模型

步骤7、SVM模型的微调。