CN104966106A

CN104966106A - 一种基于支持向量机的生物年龄分步预测方法

Info

Publication number: CN104966106A
Application number: CN201510409193.0A
Authority: CN
Inventors: 尹珅; 田洋; 高会军
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2015-10-07
Anticipated expiration: 2035-07-13
Also published as: CN104966106B

Abstract

一种基于支持向量机的生物年龄分步预测方法，本发明涉及基于支持向量机的生物年龄分步预测方法。本发明的目的是为了解决传统的生物年龄预测方法预测效率低、准确度低、成本高以及方法繁琐复杂的问题。通过以下技术方案实现的：步骤一、制成生物年龄数据集；步骤二、区分已知年龄的生物样本和未知年龄的生物样本；步骤三、组间分类；步骤四、生成对应的支持向量机模型；步骤五、建立最优支持向量机模型；步骤六、建立最优特征子集；步骤七、得到测试集中年龄未知的生物样本对应的年龄组的组别；步骤八、组内分类；步骤九、生成组内分类的支持向量机模型；步骤十、得到某个年龄组内测试集样本确切的年龄。本发明应用于生物年龄预测领域。

Description

一种基于支持向量机的生物年龄分步预测方法

技术领域

本发明涉及基于支持向量机的生物年龄分步预测方法。

背景技术

年龄预测是养殖业、兽医学乃至稀有动物研究中必不可少的一部分。准确地预测生物的年龄，可以帮助相关医疗人员更加合理科学地为生物制定医疗方案，匹配用药剂量，从而进一步改善治疗效果。更一般地讲，系统科学的生物年龄预测方法，为全面研究生物种群的特性提供了便利。然而传统的生物年龄预测方法往往需要经过大量系统的实验，以及需要结合一定的工作经验才能确定生物个体的年龄，导致生物年龄预测效率低、准确度低、成本高以及方法繁琐复杂，例如鲍鱼的传统年龄预测方法，需要制作鲍鱼外壳组织的切片，染色后在显微镜下计数年龄环。又如哺乳动物的年龄预测方法，人们需要观察它们牙齿的形状和成分比例，结合大量经验后才能确定个体的年龄。传统的预测方法需要大量的实验作为基础，无法提高工作效率；并且与实验人员的经验有关，可靠性不足。因此建立一种新的年龄预测方法对于相关研究具有极大的意义。

发明内容

本发明的目的是为了解决传统的生物年龄预测方法预测效率低、准确度低、成本高以及方法繁琐复杂的问题，而提出了一种基于支持向量机的生物年龄分步预测方法。

上述的发明目的是通过以下技术方案实现的：

步骤一、整理实验获得的生物样本物理属性数据，制成生物年龄数据集；

对检测到的生物样本物理属性数据进行分类，将每个生物样本的不同物理属性数据存于矩阵中的一行，即一个生物样本的不同物理属性数据对应一个行向量，不同生物样本放在一起构成一个矩阵；

其中，所述物理属性数据包括性别、长度、直径、高度、总重量、去外壳重量、内脏重量和外壳干重；

步骤二、区分已知年龄的生物样本和未知年龄的生物样本，

步骤一中由实验获得的生物样本物理属性数据制成的生物年龄数据集为已知年龄的生物样本，将已知年龄的生物样本划分为训练集；

步骤一中检测到的生物样本物理属性数据为未知年龄的生物样本，将未知年龄的生物样本划分为测试集；

训练集的生物样本的年龄作为训练集的标签属性；

步骤三、基于支持向量机对训练集进行第一步分类：组间分类，对训练集进行合并，将邻近的n个年龄的生物样本合并为一个年龄组，n≥3，即相应的标签属性也合并为一个；

步骤四、根据步骤三得到的合并后的训练集利用支持向量机分类器进行训练，生成对应的支持向量机模型；

步骤五、利用参数寻优算法优化支持向量机模型建立过程中的惩罚参数C和RBF核函数中的参数γ，根据优化的结果建立最优支持向量机模型；

步骤六、利用SVM-RFE算法建立经训练的合并后的训练集的最优特征子集；

步骤七、利用生成的最优支持向量机模型和经训练的合并后的训练集的最优特征子集对测试集中年龄未知的生物样本进行分类预测，得到测试集中年龄未知的生物样本对应的年龄组的组别；

步骤八、基于支持向量机对经训练的合并后的训练集进行第二步分类：组内分类，以测试集中未知年龄的生物样本的某一个年龄组的全部样本作为研究的对象；利用小波变换除去测试集中未知年龄的生物样本对应的年龄组的组内样本的噪声，找到组内不同年龄集的分界点；

步骤九、对步骤八得到的组内分类后的经训练的合并后的训练集利用支持向量机分类器进行训练，生成组内分类的支持向量机模型，组内分类的支持向量机模型的最优特征子集选取以及参数寻优算法参照步骤五和步骤六；

步骤十、根据步骤九得到的组内分类的支持向量机模型得到某个年龄组内测试集样本确切的年龄。

发明效果

本方法是基于数据驱动的生物年龄预测方法，主要通过历史数据训练得到合理的支持向量机模型，将其应用于年龄未知的测试样本年龄预测，不依赖于实验过程和相关经验，并且因为支持向量机具有完备的理论基础，其预测结果较一般的机器学习算法更加理想。本发明是基于支持向量机的生物年龄分步预测方法，克服了传统生物年龄预测方法的繁琐与复杂，从机器学习算法的角度出发，以数据驱动的方式来判别生物年龄，单个个体的年龄预测往往需要进行一系列科学系统的实验，并且结合实验人员的个人经验才能进行判断。支持向量机(Support Vector Machine)是由Vladimir N.Vapnik等人提出的一种通用的机器学习算法。它是建立在VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中，以求获得全局优化，适应性好和推广能力强等特点。它针对小容量样本、非线性样本和高维度样本的分类效果优于一般的分类器。它引入核函数，将低维空间的数据映射到高维空间，成功地解决了低维空间的不可分情况。同时因为它关注问题的VC维，可以有效避免维数灾难等问题。本发明具有以下几个优点：

1、提高了生物年龄预测效率。因为本发明中对训练集的输入样本集进行了特征提取，可以降低输入向量的维数，仅仅保持对分类最有帮助的某些特征，所以可以大大提高程序运行效率。

2、提高了生物年龄预测的准确度。因为本发明中用多种方法对支持向量机模型建立过程中的一些参数(惩罚参数C和RBF核函数中的参数γ)进行了优化，因此可以获得在一定意义下的训练集最优的支持向量机模型。这个最优模型对于测试集的分类预测准确度要比缺省模式下的支持向量机模型的分类准确度高。

比例常数偏置最大可以将分类准确度从29.9595％提高到98.7854％，而比例常数乘积和幂常数乘积分别可以将分类准确度提高到98.3806％和95.1417％。

3、降低了生物年龄预测的成本。因为本发明是使用机器学习算法来进行生物年龄预测的，并不像传统的方法，需要在大量经验的基础上用实验进行生物年龄的判断，而只需要获取已知年龄的训练集进行模型建立，然后即可进行年龄预测。两相比较，本发明提出的方法可以大大节省时间，降低生物年龄预测的成本。

4、有较为广泛的推广应用能力。本发明是基于数据驱动的生物年龄预测。因此对于生物的具体类型和品种不做过多要求与限制，只需要保证生物的物理属性与其年龄有一定的相关性即可。

本发明应用广泛，因为其对于生物的具体类型和品种不做过多要求与限制，只需要保证生物的物理属性与其年龄有一定的相关性即可。因此在不背离本发明精神和本质的前提下，相关领域的技术人员可根据本发明做出相应的变型和推广。但是这些变型与推广都应在本发明所附的权利要求的保护范围以内。

附图说明

图1为具体实施方式一提出的一种基于支持向量机的生物年龄分步预测方法的流程图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，一种基于支持向量机的生物年龄分步预测方法，其特征在于，一种基于支持向量机的生物年龄分步预测方法具体是按以下步骤进行的：

步骤一、整理实验获得的生物样本物理属性数据，制成生物年龄数据集(格式为MSExcel，记事本或ASCII编码文件)；

步骤二、区分已知年龄的生物样本和未知年龄的生物样本，

训练集的生物样本的年龄作为训练集的标签属性；

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤四中根据步骤三得到的合并后的训练集利用支持向量机分类器进行训练，生成对应的支持向量机模型；具体过程为：

将步骤三得到的合并后的训练集利用支持向量机分类器进行训练，生成合并后的对应的支持向量机模型之前，先对合并后的训练集数据进行归一化处理，将所有的数据映射到事先设定好的数值范围内，再用相同的映射方法处理测试集数据；

归一化算法的作用是：1、数据集中的各个属性都有实际的物理背景，因此它们的单位和极差各不相同。归一化可以消除单位或数量级的影响，将所有数据都映射到事先规定好的范围内，为后面处理数据提供便利；2、归一化可以使程序运行速度提高，加速收敛；3、奇异样本数据(相对于其他输入样本特别大或者特别小的样本矢量)可能会使训练时间增加，甚至导致算法无法收敛。训练之前进行归一化则可以消除奇异样本数据对训练过程的影响；

归一化算法为：

(1)最大最小值

设x＝(x₁,x₂,...,x_m)，建立映射关系f

f(x_k)＝(y_max-y_min)*(x_k-x_min)/(x_max-x_min)+y_min

式中，x＝(x₁,x₂,...,x_m)为合并后的训练集数据集的一个特征属性向量，有m个样本，f(x_k)为归一化算法，y_max为归一化结果的最大值，y_min为归一化结果的最小值，*为乘积，x_k为x中第k个特征属性向量，1≤k≤m，x_min为x_k的最小值，x_max为x_k的最大值；

将_x归一化到[y_min,y_max]，Matlab中对应的函数是Mapminmax，即f(x_k)，将输入变量x＝(x₁,x₂,...,x_m)归一化到[-1,1]；

(2)平均数标准差法

设x＝(x₁,x₂,...,x_m)，建立映射关系f

f(x_k)＝(x-x_mean)*(y_std/x_std)+y_mean

式中，x_mean为x_k的平均值，x_std为x_k的标准差，y_std为归一化结果的标准差，y_mean为归一化结果的平均值；

将x归一化到均值为y_mean，标准差为y_std的分布上，Matlab中对应的函数是Mapstd，即f(x_k)，将输入变量x＝(x₁,x₂,...,x_m)归一化到均值为0，标准差为1的分布上；

支持向量机模型建立过程为：

(a)对于线性可分模式，支持向量机的理论基础是统计学习理论，该理论是一种专门研究小样本情况下机器学习规律的理论，它针对小样本问题建立了一套新的理论体系，在这个理论体系下的统计推理规则不仅考虑了对渐进性能(推广能力)的要求，而且还追求在现有有限信息的条件下得到最优结果。支持向量机以分类作为训练任务时，最终的目标就是要找到一个线性的分类超平明，将输入向量空间中的正例和反例尽可能地区分开。在本发明中，就是要在不同年龄的样本中找到分类超平面，将它们完全区分开；

训练集为

S_{i} = {x_{i}, y_{i}}_{i = 1}^{N},

式中，x_i为训练集中的第i个样本，y_i∈{-1,1}为相应样本的分类标签，N为训练集中的样本总数，N取值为正整数；

其分类超平面表示为ω^T·x+b＝0，

式中，ω为超平面的法向量(当x为列向量时，ω也为列向量)，x为x＝(x₁,x₂,...,x_m)，b为超平面的常数项，上角标T为矩阵的转置；

最优超平面求解过程为：最优超平面等价于一个二次规划问题：

\underset{ω}{m i n} \frac{| | ω | |^{2}}{2}

s . t . y_{i} (ω^{T} \cdot x_{i} + b) &GreaterEqual; 1, &ForAll; i = 1, 2, ..., N

式中，s.t.为优化函数约束条件的缩写，表示subject to的首字母，y_i∈{-1,1}为相应样本的分类标签，N为训练集中的样本总数，ω^T为ω的转置，x_i为训练集中的第i个样本，为数学符号，表示任意一个；

利用拉格朗日对偶原理求解问题(引入拉格朗日乘子a_i)，得到最优的ω和b分别为：

ω_{0} = Σ_{i = 1}^{N} a_{i} y_{i} x_{i}

b_{0} = - \frac{\underset{y_{i} = - 1}{m a x} ω_{0}^{T} \cdot x_{i} + m i n \underset{y_{i} = 1}{ω_{0}^{T}} \cdot x_{i}}{2}

式中，ω₀为最优的ω，b₀为最优的b，为ω₀的转置，a_i为拉格朗日乘子；

对于测试集中的生物样本用如下决策函数的正负来判断其分类属性：

\begin{matrix} f (x) = {(Σ_{i = 1}^{N} a_{i} y_{i} x_{i})}^{T} \cdot x + b \\ = Σ_{i = 1}^{N} a_{i} y_{i} < x_{i}, x > + b \end{matrix}

式中，f(x)为决策函数；

(b)对于线性不可分模式，支持向量机通过引入RBF核函数，将数据从低维空间映射到高维空间，然后在高维空间构造最优分类超平面，核函数接收来自低维空间的数据，然后输出映射后高维空间的内积值<φ(i),φ(j)>，从而避免了费力寻找从低维空间到高维空间的映射关系；

RBF核函数K(x_i,x_j)＝exp(-γ||x_i-x_j||²),γ>0

式中，K(x_i,x_j)为核函数，γ为RBF核函数的宽度；

(c)当训练集数据中存在噪声时，会存在一些偏离正常位置很远的点(outliers)。它们对于支持向量机模型的构建有很大的影响。解决这个问题的对策是允许个别点在一定程度上偏离最优分类超平面，此时

二次规划变为

\underset{ω}{m i n} \frac{| | ω | |^{2}}{2} + C Σ_{i = 1}^{N} ξ_{i}

s . t . y_{i} (ω^{T} \cdot x_{i} + b) &GreaterEqual; 1 - ξ, &ForAll; i = 1, 2, ..., N

ξ_i≥0

式中，C为惩罚参数，ω为分类平面的法向量，ξ_i为第i个松弛变量，ξ为松弛变量，为所有的i，i＝1,2,3,4,5；

处理方法与之前的相同。经过推导后发现与之前的结果唯一的区别是拉格朗日乘子a_i多了一个上限C，即拉格朗日乘子a_i的最大值为C。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤五中利用参数寻优算法优化支持向量机模型建立过程中的惩罚参数C和RBF核函数中的参数γ，根据优化的结果建立最优支持向量机模型；具体过程为：

参数寻优算法为网格寻优算法、遗传算法和粒子群算法；

网格寻优算法：

(1)利用网格搜索的方式，寻找最优支持向量机模型的惩罚参数C和支持向量机RBF核函数的参数γ的最优组合；

搜索分为两步：

第一步为粗略搜索，第二步为精细搜索；

第一步搜索时，可以先将参数搜索的范围设置的大一些，比如可以设置惩罚参数C和支持向量机RBF核函数参数γ的搜索范围分别为2^(-10)到2^(10)，同时网格的间距，即参数寻优搜索时的步进距离也可以设置的大一些，例如可以设置step为1。这样一来便可以以较快的速度收敛到全局范围内训练样本预测准确率最高的点的附近。

在第一步搜索时，惩罚参数C和RBF核函数参数γ都从初始点2^(-10)开始以步进距离step为指数幂的步进距离遍历所设定网格上所有的点，直至到达终止点2^(10)，步进距离step为1，搜索过程采用交叉验证的方法，将训练集的数据分为训练集和验证集，计算不同的惩罚参数C和RBF核函数参数γ对应的支持向量机模型对训练集预测，保留并记录能够使训练集达到最大分类准确度的参数组合，验证集为将训练集的数据分为训练集和验证集；

若网格上多个点同时达到分类准确度的最大值，那么选取惩罚参数最小的那个组合作为最后的优化结果；

因为过大的惩罚参数C可能会导致过学习的状态，即对训练集有很高的分类能力而对测试集的分类准确度却很低；

第二步搜索时，可以根据第一步搜索的结果，惩罚参数C和核函数参数γ的范围定为2^(-5)到2^(5)，步进距离step为0.1，从而在最大分类准确度点附近进一步寻找，找到最优的参数组合；

根据优化的结果建立合并后的训练集的最优支持向量机模型；

例如可以将惩罚参数C和核函数参数γ的范围更加精细的定为2^(-5)到2^(5)，步进距离step为0.1，构建一个新的搜索网格后，重新进行参数寻优。最终获得能够使训练集交叉验证时获得最高分类准确度的一个参数组合。

(2)遗传优化算法：

利用遗传优化算法寻找最优支持向量机模型的惩罚参数C和支持向量机RBF核函数的参数γ的最优组合，

遗传算法是1975年由Michigan大学的J.Holland教授提出的。遗传算法是模拟达尔文生物进化论的自然选择理论和孟德尔遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程寻找全局最优解的方法。

遗传优化算法首先生成一个可行域下的初始种群，初始种群中的个体代表了惩罚参数C和核函数参数γ的一个组合，然后计算初始种群中每个个体的适应度值，适应度值为初始种群中某组惩罚参数C和核函数参数γ对应的支持向量机模型对训练集交叉验证时的分类准确度，根据适应度值来选择用于交配的父代，交配的父代为惩罚参数C和核函数参数γ的组合，交配时的初始种群中个体的染色体除了复制交叉之外，还可变异和倒位，经过迭代之后，初始种群中个体的适应度值达到停机条件或者到达规定的迭代次数，则算法结束，找到惩罚参数C和核函数参数γ的最优组合；其中，所述停机条件为事先设定；

遗传算法本质上是一种启发式随机搜索算法，因此其每次运算的结果并不一定完全相等。遗传算法的自变量是在给定的约束条件的无缝编码(这种编码方式可以表达解空间内的所有可行解)，因此从理论上讲，总有很多机会得到全局最优解而非局部最优解。

(3)粒子群优化算法：

利用粒子群优化算法寻找最优支持向量机模型的惩罚参数C和支持向量机RBF核函数的参数γ的最优组合；粒子群算法最早是由美国电气工程师Eberhart和社会心理学家Kennedy在1995年基于群鸟觅食提出的。

粒子群优化算法首先确定一个粒子群，即惩罚参数C和核函数参数γ的组合，它们在可行域内向最优解移动。可行域为预先规定的惩罚参数C和核函数参数γ的边界，每个粒子都会根据目标函数来计算适应度值，目标函数为惩罚参数C和核函数参数γ的某个组合对应的支持向量机对训练集的分类准确度，适应度值为粒子群中某组惩罚参数C和核函数参数γ对应的支持向量机模型对训练集交叉验证时的分类准确度，然后由局部最优解和全局最优解引导进行移动；局部最优解为每个粒子的当下的适应度值；全局最优解是全部粒子中的一个最优的适应度值；粒子的速度由粒子的当前位置和最优解之间的距离决定，粒子群与遗传算法的区别在于粒子群算法中没有交叉和变异，而且全局最优解是由粒子跟踪当前局部和全局最优解实现的，当前局部最优解就是每个粒子的当下的适应度值，全局最优解是全部粒子中的一个最优的适应度值；

根据优化的结果建立合并后的训练集的最优支持向量机模型。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一、二或三不同的是，所述步骤六中所述步骤六中利用SVM-RFE算法建立经训练的合并后的训练集的最优特征子集；具体过程为；

利用SVM-RFE算法建立最优的特征子集，降低输入向量的维数，在保证分类准确度的同时，还能够提高分类效率；

SVM-RFE(Recursive Feature Elimination)算法根据支持向量机训练过程获得法向量(列向量)来构造排序系数

{rank}_{i} = ω_{i}^{2}, i = 1, 2, ..., K

式中，K为训练集的数据集的特征属性个数，K为正整数，rank_i为排序列表中第i个元素的计算方法，权向量ω中的第i个数；

每次迭代都去掉排序列向量rank中系数最小对应的特征属性，最终得到所有特征属性递减顺序的排序，根据这个排序表，定义嵌套的特征子集来训练支持向量机，并以支持向量机的分类准确度寻找特征子集中分类准确度最高的特征子集，从而得到最优的特征子集，其中，F₁为第一个特征子集，F₂为第二个特征子集，F_K为第三个特征子集。

排在第一个的属性与分类标签的相关性最大，然而需要注意的是，单个的属性并不能使得支持向量机分类器获得最好的分类性能，因为单个属性的重要程度是相对其他属性而言的。最好的分类效果必然出自合适的特征组合，它们能够相互补充，保留原始数据集中最充分的信息。

其它步骤及参数与具体实施方式一、二或三相同。

具体实施方式五：本实施方式与具体实施方式一、二、三或四不同的是，所述步骤八中基于支持向量机对经训练的合并后的训练集进行第二步分类：组内分类，以测试集中未知年龄的生物样本的某一个年龄组的全部样本作为研究的对象；首先利用小波变换除去测试集中未知年龄的生物样本对应的年龄组的组内样本的噪声，找到组内不同年龄集的分界点；具体过程为：

然后对年龄集耦合权函数，放大组内不同年龄集之间的差异，从而提高组内的分类准确度；

基于支持向量机对训练集进行第二步分类：组内分类，利用小波变换除去经过第一步分类后的组内样本的噪声，找到组内不同年龄集的分界点；具体过程为：

组内分类的具体过程为：

对训练集中的不同的年龄集进行预处理和耦合权函数；

耦合权函数为比例常数偏置、比例常数乘积和幂常数乘积；

其中，比例常数偏置为：X+A*i；

比例常数乘积为：X*A*i；

幂常数乘积为：X*A^i-1；

式中，X为具体的属性值，i为正整数，A为常数，*为乘积；

但是对于测试集来说，必须使用其他的方法来检测测试集中不同年龄集之间的分界点。如果将测试集中所有样本的某个属性的数据全部绘制成图，那么可以从图中看出，相同年龄的样本的属性值会集中在一块，不同年龄样本的属性之间隐约存在分界点。这是因为属性值中的高频部分掩盖了有用的信号，如果高频信号被除去的话，那么便可以找到不同年龄集之前的分界点。

训练集采用小波去噪的方法来找到分界点，选用Sys4作为母小波，将原始数据分解至5层，然后利用小波去噪的软阈值来识别输入值中的有效信号，最后将去噪后的信号进行前后差分则可以找到不同年龄集之间的分界点；

数据预处理之后，还需要耦合权函数来放大训练集和测试集中不同年龄集样本之间的差异，从而提高支持向量机模型的分类准确度。不同的权函数对于数据集的作用各不相同。本发明中使用的权函数有比例常数偏置、比例常数乘积和幂常数乘积。

其中，所述小波去噪的软阈值为：

d_{i} = \{\begin{matrix} d_{i} & | d_{i} | &GreaterEqual; λ \\ 0 & d_{i} < λ \end{matrix},

式中，d_i为小波变换后的系数，λ为阈值；

Sys4是一种小波基函数。

其它步骤及参数与具体实施方式一、二、三或四相同。

实施例1：

采用以下实验验证本发明的有益效果：

实验一：

本实验选用UCI机器学习数据库中Abalone dataset作为研究对象。数据集包括4177个样本，对应28个年龄值。每个样本包含8个属性，分别是性别、长度、直径、高度、总重量、去外壳重量、内脏重量和外壳干重。其中性别用字母表示，F表示雌性，M表示雄性，I表示幼体。为了后面处理数据方便，分别用0,1,2代替幼体、雄性和雌性。剩余的属性值都是连续的数值。根据数据集中鲍鱼个体的物理属性，基于支持向量机进行分步年龄预测的方法按以下步骤进行：

步骤一、区分已知年龄的样本和未知年龄的样本。已知年龄的样本被划分为训练集，未知年龄的样本被划分为测试集。训练集的生物个体样本的年龄作为训练集的标签属性。

步骤二、首先基于支持向量机进行第一步分类：组间分类。

对训练样本进行适当地合并，将邻近的n(n≥3)个年龄集合并为一个年龄组，相应的年龄标签也合并为一个。

本实验中将年龄从5到8的集合分为第一个年龄组，将年龄从9到12的集合分为第二个年龄组，将年龄从13到16的集合分为第三个年龄组。相应大组的分类标签确定为1、2和3。

步骤三、根据步骤三得到的训练集利用支持向量机分类器进行训练，生成对应的支持向量机模型。

在进行支持向量机训练之前，先对训练集数据进行归一化处理，将所有的数据映射到事先约定好的数值范围内，然后再用相同的映射方法处理测试集数据。归一化算法的作用是：1、数据集中的各个属性都有实际的物理背景，因此它们的单位和极差各不相同。归一化可以消除单位或数量级的影响，将所有数据都映射到事先规定好的范围内，为后面处理数据提供便利；2、归一化可以使程序运行速度提高，加速收敛；3、奇异样本数据(相对于其他输入样本特别大或者特别小的样本矢量)可能会使训练时间增加，甚至导致算法无法收敛。训练之前进行归一化则可以消除奇异样本数据对训练过程的影响。

本实验采用的归一化算法是最大最小值法：

设x＝(x₁,x₂,...,x_m)，建立映射关系f

f(x_k)＝(y_max-y_min)*(x_k-x_min)/(x_max-x_min)+y_min

可以将x归一化到[y_min,y_max]之间。Matlab中对应的函数是Mapminmax，默认将输入变量归一化到[-1,1]。

由Abalone dataset的训练集建立支持向量机模型的基本过程为：(1)支持向量机的理论基础是统计学习理论。该理论是一种专门研究小样本情况下机器学习规律的理论。它针对小样本问题建立了一套新的理论体系，在这个理论体系下的统计推理规则不仅考虑了对渐进性能(推广能力)的要求，而且还追求在现有有限信息的条件下得到最优结果。支持向量机以分类作为训练任务时，最终的目标就是要找到一个线性的分类超平明，将输入向量空间中的正例和反例尽可能地区分开。在本发明中，就是要在不同年龄的样本中找到分类超平面，将它们完全区分开。

对于训练样本为其中x_i是训练集中的第i个样本，y_i∈{-1,1}表示相应样本的分类标签，N为训练集中的样本总数，其分类超平面可以表示为ω^T·x+b＝0，其中ω是超平面的法向量(当x为列向量时，ω也为列向量)，b是超平面的常数项。通过分析，寻找最优超平面等价于一个二次规划问题：

\underset{ω}{m i n} \frac{| | ω | |^{2}}{2}

s . t . y_{i} (ω^{T} \cdot x_{i} + b) &GreaterEqual; 1, &ForAll; i = 1, 2, ..., N

利用拉格朗日对偶原理求解问题(引入拉格朗日乘子a_i)。最后终可以得到最优的ω和b分别为：

ω_{0} = Σ_{i = 1}^{N} a_{i} y_{i} x_{i}

b_{0} = - \frac{\underset{y_{i} = - 1}{m a x} ω_{0}^{T} \cdot x_{i} + m i n \underset{y_{i} = 1}{ω_{0}^{T}} \cdot x_{i}}{2}

对于测试集中的样本可以用如下决策函数的正负来判断其分类属性：

\begin{matrix} f (x) = {(Σ_{i = 1}^{N} a_{i} y_{i} x_{i})}^{T} \cdot x + b \\ = Σ_{i = 1}^{N} a_{i} y_{i} < x_{i}, x > + b \end{matrix}

(2)对于线性不可分模式，支持向量机通过引入核函数K(·,·)，将数据从低维空间映射到高维空间，然后在高维空间按照之前叙述的方法构造最优分类超平面。核函数的作用就是接受来自低维空间的数据，然后输出映射后高维空间的内积值<φ(i),φ(j)>，从而避免了费力寻找从低维空间到高维空间的映射关系。本发明中使用的是RBF核函数K(x_i,x_j)＝exp(-γ||x_i-x_j||²),γ>0。

(3)当数据中存在噪声时，会存在一些偏离正常位置很远的点(outliers)。它们对于支持向量机模型的构建有很大的影响。解决这个问题的对策是允许个别点在一定程度上偏离最优分类超平面，此时二次规划变为

\underset{ω}{m i n} \frac{| | ω | |^{2}}{2} + C Σ_{i = 1}^{N} ξ_{i}

s . t . y_{i} (ω^{T} \cdot x_{i} + b) &GreaterEqual; 1 - ξ, &ForAll; i = 1, 2, ..., N

ξ_i≥0

处理方法与之前的相同。经过推导后发现与之前的结果唯一的区别是拉格朗日乘子a_i多了一个上限C。

步骤四、利用参数寻优算法优化支持向量机模型建立过程中的惩罚参数C和RBF核函数中的参数γ，根据优化的结果建立最优的支持向量机模型。可选择算法有网格寻优算法、遗传算法和粒子群算法。

(1)网格寻优算法。

利用网格搜索的方式，寻找最优支持向量机模型的惩罚参数C和支持向量机RBF核函数的参数γ的最优组合。搜索算法分为两步：第一步为粗略搜索，第二步为精细搜索。第一步搜索时，可以先将参数搜索的范围设置的大一些，比如可以设置惩罚参数C和核函数参数γ的搜索范围分别为2^(-10)到2^(10)，同时网格的间距，即参数寻优搜索时的步进距离也可以设置的大一些，例如可以设置step为1。这样一来便可以以较快的速度收敛到全局范围内训练样本预测准确率最高的点的附近。在第一步搜索时，惩罚参数C和核函数参数γ都从初始点2^(-10)开始以step为指数幂的步进距离遍历所设定网格上所有的点，直至到达终止点2^(10)。搜索过程中按照交叉验证的方法(将训练集的数据分为训练集和验证集)计算不同的惩罚参数C和核函数参数γ对应的支持向量机模型对训练集的预测准确度，保留并记录能够使验证集达到最大分类准确度的参数组合。若网格上多个点同时达到分类准确度的最大值，那么选取惩罚参数最小的那个组合作为最后的优化结果。因为过大的惩罚参数C可能会导致过学习的状态，即对训练集有很高的分类能力而对测试集的分类准确度却很低。

第二步搜索时，可以根据第一步搜索的结果相应地缩小搜索范围以及步进的距离，从而在最大分类准确度点附近进一步寻找，找到最优的参数组合。例如可以将惩罚参数C和核函数参数γ的范围更加精细的定为2^(-5)到2^(5)，步进距离step为0.1，构建一个新的搜索网格后，重新进行参数寻优。最终获得能够使训练集交叉验证时获得最高分类准确度的一个参数组合。以此组最优参数建立的支持向量机模型将是在已知训练集下能够获得的最优的支持向量机模型。利用网格优化算法得到最佳的参数组合为(C＝147.03，γ＝0.33)，对应的训练集分类准确度为91.1688％。

(2)遗传优化算法。

利用遗传优化算法寻找最优支持向量机模型的惩罚参数C和支持向量机RBF核函数的参数γ的最优组合。遗传算法是1975年由Michigan大学的J.Holland教授提出的。遗传算法是模拟达尔文生物进化论的自然选择理论和孟德尔遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程寻找全局最优解的方法。算法首先生成一个可行域下的初始种群(种群中的个体代表了惩罚参数C和核函数参数γ的一个组合)，然后计算每个个体的适应度值(适应度值可以表示为某组惩罚参数C和核函数参数γ对应的支持向量机模型对训练集交叉验证时的分类准确度)来选择用于交配的父代。交配时个体的染色体除了单纯的复制交叉之外，还可以变异和倒位。经过迭代之后，一些个体的适应度值符合停机条件或者到达规定的迭代次数，则算法结束，找到惩罚参数C和核函数参数γ的最优组合。遗传算法本质上是一种启发式随机搜索算法，因此其每次运算的结果并不一定完全相等。遗传算法的自变量是在给定的约束条件的无缝编码(这种编码方式可以表达解空间内的所有可行解)，因此从理论上讲，总有很多机会得到全局最优解而非局部最优解。利用遗传优化算法得到最佳的参数组合为(C＝87.02，γ＝0.40)，对应的训练集分类准确度为91.2987％。

(3)粒子群优化算法。

利用粒子群优化算法寻找最优支持向量机模型的惩罚参数C和支持向量机RBF核函数的参数γ的最优组合。粒子群算法最早是由美国电气工程师Eberhart和社会心理学家Kennedy在1995年基于群鸟觅食提出的。算法首先确定一个初始的可行群体(粒子群，即惩罚参数C和核函数参数γ的组合)，它们在可行域内向最优解移动。每个粒子都会根据目标函数来计算适应度值(适应度值可以表示为某组惩罚参数C和核函数参数γ对应的支持向量机模型对训练集交叉验证时的分类准确度)，然后由局部最优解和全局最优解引导进行移动。粒子的速度由粒子的当前位置和最优解之间的距离决定。粒子群与遗传算法的区别在于粒子群算法中没有交叉和变异，而且全局最优解是由粒子跟踪当前局部和全局最优解实现的。利用粒子群优化算法得到最佳的参数组合为(C＝1.5，γ＝1.7)，对应的训练集分类准确度为89.7403％。

步骤五、利用SVM-RFE算法建立最优的特征子集，降低输入向量的维数，在保证分类准确度的同时，还能够提高分类效率。

SVM-RFE(Recursive Feature Elimination)算法能够根据支持向量机训练过程获得法向量(列向量)来构造排序系数

{rank}_{i} = ω_{i}^{2}, i = 1, 2, ..., K

其中K为数据集的特征属性个数。每次迭代都去掉排序列向量rank中系数最小对应的那个特征属性，最终得到所有特征属性递减顺序的排序。利用这个排序表，定义若干个嵌套的特征子集以此来训练支持向量机，并以支持向量机的分类准确度来评价这些子集的优劣，从而得到最优的特征子集。

排在第一个的属性与分类标签的相关性最大，然而需要注意的是，单个的属性并不能使得支持向量机分类器获得最好的分类性能，因为单个属性的重要程度是相对其他属性而言的。最好的分类效果必然出自合适的特征组合，它们能够相互补充，保留原始数据集中最充分的信息。本实验中由SVM-RFE算法得到的属性特征排序为外壳干重、总重量、直径、性别、长度、内脏重量、高度和去外壳重量。其中最优的特征子集为外壳干重和总重量，此特征子集对应的分类准确度为86.4286％，与保留全部特征时的分类准确度(86.9048％)十分接近，因此既可以保证分类准确度，又可以提高程序运行效率。

步骤六、利用生成的训练集最优的支持向量机训练模型来对测试集样本的年龄进行识别预测。测试集中的某个样本将被划分至步骤三中约定的某个年龄组组中。

步骤七、基于支持向量机的第二步分类：组内分类。

以某个年龄组作为研究的对象。首先利用小波变换除去经过第一步分类后的组内样本的噪声，找到组内不同年龄集的分界点；然后对年龄集耦合权函数，放大组内不同年龄集之间的差异，从而提高组内的分类准确度。

组内分类的具体过程为：对于训练集而言，可以对其中的不同的年龄集进行预处理和耦合权函数。但是对于测试集来说，必须使用其他的方法来检测测试集中不同年龄集之间的分界点。如果将测试集中所有样本的某个属性的数据全部绘制成图，那么可以从图中看出，相同年龄的样本的属性值会集中在一块，不同年龄样本的属性之间隐约存在分界点。这是因为属性值中的高频部分掩盖了有用的信号，如果高频信号被除去的话，那么便可以找到不同年龄集之前的分界点。

本发明中采用小波去噪的方法来找到分界点。选用Sys4作为母小波，将原始数据分解至5层，然后利用软阈值来识别输入值中的有效信号。最后将去噪后的信后进行前后差分则可以找到不同年龄集之间的分界点。

数据预处理之后，还需要耦合权函数来放大训练集和测试集中不同年龄集样本之间的差异，从而提高支持向量机模型的分类准确度。不同的权函数对于数据集的作用各不相同。本发明中使用的权函数有比例常数偏置、比例常数乘积和幂常数乘积。其中比例常数偏置最大可以将分类准确度从29.9595％提高到98.7854％，而比例常数乘积和幂常数乘积分别可以将分类准确度提高到98.3806％和95.1417％。

步骤八、组内分类的具体实施步骤参照步骤四至步骤七。最终测试集中的生物个体样本可以确定其年龄属性，则完成分步的基于支持向量机的生物年龄预测方法。

本发明是基于支持向量机的生物年龄分步预测方法。该方法克服了传统生物年龄预测方法的繁琐与复杂，从机器学习算法的角度出发，以数据驱动的方式来判别生物年龄。本发明应用广泛，因为其对于生物的具体类型和品种不做过多要求与限制，只需要保证生物的物理属性与其年龄有一定的相关性即可。因此在不背离本发明精神和本质的前提下，相关领域的技术人员可根据本发明做出相应的变型和推广。但是这些变型与推广都应在本发明所附的权利要求的保护范围以内。

Claims

1.一种基于支持向量机的生物年龄分步预测方法，其特征在于，一种基于支持向量机的生物年龄分步预测方法具体是按以下步骤进行的：

步骤二、区分已知年龄的生物样本和未知年龄的生物样本，

训练集的生物样本的年龄作为训练集的标签属性；

2.根据权利要求1所述一种基于支持向量机的生物年龄分步预测方法，其特征在于，所述步骤四中根据步骤三得到的合并后的训练集利用支持向量机分类器进行训练，生成对应的支持向量机模型；具体过程为：

归一化算法为：

(1)最大最小值

设x＝(x₁,x₂,...,x_m)，建立映射关系f

f(x_k)＝(y_max-y_min)*(x_k-x_min)/(x_max-x_min)+y_min

将x归一化到[y_min,y_max]，Matlab中对应的函数是Mapminmax，即f(x_k)，将输入变量x＝(x₁,x₂,...,x_m)归一化到[-1,1]；

(2)平均数标准差法

设x＝(x₁,x₂,...,x_m)，建立映射关系f

f(x_k)＝(x-x_mean)*(y_std/x_std)+y_mean

将x归一化到均值为y_mean，标准差为y_std的分布上，Matlab中对应的函数是Mapstd，即f(x_k)，将输入变量x＝(x₁,x₂,...,x_m)归一化到均值为0，标准差为1的分布上。

3.根据权利要求2所述一种基于支持向量机的生物年龄分步预测方法，其特征在于，所述步骤五中利用参数寻优算法优化支持向量机模型建立过程中的惩罚参数C和RBF核函数中的参数γ，根据优化的结果建立最优支持向量机模型；具体过程为：

参数寻优算法为网格寻优算法、遗传算法和粒子群算法；

(1)网格寻优算法：

利用网格搜索的方式，寻找最优支持向量机模型的惩罚参数C和最优支持向量机RBF核函数的参数γ的最优组合；

搜索分为两步：

在第一步搜索时，惩罚参数C和RBF核函数参数γ都从初始点2^(-10)开始，直至到达终止点2^(10)，步进距离step为1，搜索过程采用交叉验证的方法，保留并记录能够使训练集达到最大分类准确度的参数组合；

若网格上多个点同时达到分类准确度的最大值，则选取惩罚参数最小的支持向量机模型的惩罚参数C和支持向量机RBF核函数的参数γ的组合作为优化结果；

第二步搜索时，根据第一步搜索的结果，惩罚参数C和核函数参数γ的范围定为2^(-5)到2^(5)，步进距离step为0.1，根据第一步搜索过程寻找支持向量机模型的惩罚参数C和最优支持向量机RBF核函数的参数γ的最优组合；

(2)遗传优化算法：

遗传优化算法首先生成一个可行域下的初始种群，可行域为预先规定的惩罚参数C和核函数参数γ的边界，初始种群中的个体代表了惩罚参数C和核函数参数γ的一个组合，然后计算初始种群中每个个体的适应度值，适应度值为初始种群中某组惩罚参数C和核函数参数γ对应的支持向量机模型对训练集交叉验证时的分类准确度，根据适应度值来选择用于交配的父代，交配的父代为惩罚参数C和核函数参数γ的组合，交配时的初始种群中个体可复制交叉、变异或倒位，经过迭代之后，初始种群中个体的适应度值达到停机条件或者到达规定的迭代次数，则算法结束，找到惩罚参数C和核函数参数γ的最优组合；其中，所述停机条件为事先设定；

(3)粒子群优化算法：

利用粒子群优化算法寻找最优支持向量机模型的惩罚参数C和支持向量机RBF核函数的参数γ的最优组合；

粒子群优化算法首先确定一个粒子群，即惩罚参数C和核函数参数γ的组合，每个粒子群都会根据目标函数来计算适应度值，目标函数为惩罚参数C和核函数参数γ的某个组合对应的支持向量机对训练集的分类准确度，适应度值为粒子群中某组惩罚参数C和核函数参数γ对应的支持向量机模型对训练集交叉验证时的分类准确度，然后根据局部最优解和全局最优解进行移动；局部最优解为每个粒子群的当下的适应度值；全局最优解是全部粒子群中的一个最优的适应度值；粒子群的速度由粒子群的当前位置和最优解之间的距离决定，全局最优解是由粒子群跟踪当前局部和全局最优解实现的，当前局部最优解就是每个粒子群的当下的适应度值，全局最优解是全部粒子群中的一个最优的适应度值；

4.根据权利要求3所述一种基于支持向量机的生物年龄分步预测方法，其特征在于，所述步骤六中利用SVM-RFE算法建立经训练的合并后的训练集的最优特征子集；具体过程为：

利用SVM-RFE算法建立最优的特征子集；

SVM-RFE算法根据支持向量机训练过程获得法向量来构造排序系数

{rank}_{i} = ω_{i}^{2}, i = 1, 2, ..., K

5.根据权利要求4所述一种基于支持向量机的生物年龄分步预测方法，其特征在于，所述步骤八中基于支持向量机对经训练的合并后的训练集进行第二步分类：组内分类，以测试集中未知年龄的生物样本的某一个年龄组的全部样本作为研究的对象；利用小波变换除去测试集中未知年龄的生物样本对应的年龄组的组内样本的噪声，找到组内不同年龄集的分界点；具体过程为：

组内分类的具体过程为：

对训练集中的不同的年龄集进行预处理和耦合权函数；

耦合权函数为比例常数偏置、比例常数乘积和幂常数乘积；

其中，比例常数偏置为：X+A*i；

比例常数乘积为：X*A*i；

幂常数乘积为：X*A^i-1；

式中，X为具体的属性值，i为正整数，A为常数，*为乘积；

其中，所述小波去噪的软阈值为：

d_{i} = \{\begin{matrix} d_{i} & | d_{i} | &GreaterEqual; λ \\ 0 & d_{i} < λ \end{matrix},

式中，d_i为小波变换后的系数，λ为阈值；

Sys4是一种小波基函数。