CN102629255A

CN102629255A - 一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法

Info

Publication number: CN102629255A
Application number: CN2012100497570A
Authority: CN
Inventors: 张虎勤; 刘芳娥; 吴晓明; 杜建强; 夏娟娟; 刘晓刚; 郭燕
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2012-02-29
Filing date: 2012-02-29
Publication date: 2012-08-08

Abstract

一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法，采用遗传算法和k-modes模型嵌合的聚类算法对区域人群mtDNA遗传序列信息进行聚类分析，通过研究类群分布规律及各聚类中心之间的距离，统计在各个类群的样本数，计算出各个类群中的人口分布密度；从而对所选区域的人口结构特征作出分析；利用数据库中区域人群mtDNA序列数据，采用遗传算法嵌合K-modes的分析方法，给出定量的mtDNA分子标识的类群结构划分方法，从而分析研究区域人群结构特征，具有较好的聚类效果和稳定性，适用于区域群体大规模mtDNA数据聚类分析。

Description

一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法

技术领域

本发明涉及遗传信息研究区域人口结构的技术领域，特别涉及一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法。

背景技术

人口结构和组成与结构，通常是以民族、性别、年龄等因素为指标进行宏观统计学分析和汇总，对人口结构的认识停留在直观信息的统计分析上，存在工作量大，统计信息误差大等缺点。尝试从分子水平和基因序列信息表征区域人口的结构和特征，使区域人口打上分子特征标示，为区域人口成分界定和类群界定提供新的技术通道已经成为研究的热点。

发明内容

为了克服上述现有技术的缺陷，本发明的目的在于提供一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法，用遗传算法和k-modes模型嵌合的聚类算法对区域人群mtDNA序列进行聚类分析，实现对区域人口结构进行类群标识和类群结构划分，以mtDNA多态性位点标识人口类别聚类分析方法力求提高遗传算法收敛速度搜索性能，达到高稳定性的聚类分析结果。

为了实现上述任务，本发明采取如下的技术解决方案：

一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法，包括下列步骤：

步骤一、选择样本来源：根据数据库资源信息量，选择mtDNA高变I区长度为350bp序列，选择mtDNA高变I区在16026-16399区间序列，长度为350bp，进行聚类分析，依据数据库提供的原始数据，随机选取所选区域内的人口mtDNA数据在这个区间内具有完整信息的样本100-200个；

步骤二、构建遗传算法的K-modes聚类嵌合的分析模型：

遗传算法以个体适应度的大小来确定该个体被遗传到下一代群体中的概率，在遗传K-modes算法中，采用聚类紧密度指标作为个体的适应度值，个体S的适应度函数定义为：

f (s) = \frac{1}{n} \underset{j = 1, k}{Σ} \underset{S_{i} &Element; C_{j}}{Σ} Dist (S_{i}, Z_{j}) - - - (1)

其中S_i为类Cj内的元素，Zj为第j类的聚类中心，Dist表示距离度量，

所述的基于遗传算法的K-modes模型算法执行步骤为：

一、初始化种群，使每个个体表示一种分类方案，并对其进行编码；

二、从种群中选择一个个体，对序列对象进行编码，对编码后的序列对象进行聚类；

三、通过公式(1)计算聚类结果的聚类内紧密度值，并将该值作为个体的适应度值返回；

四、有未被选择的个体则返回到步骤(二)；如果种群中所有个体都被选择过，通过循环语句判断算法是否已完成规定的f(s)迭代次数，若已完成规定的f(s)迭代次数则转到步骤(六)；否则进入到步骤(五)；

五、根据各个体的适应度值和遗传算法的参数采用精英保留策略，选择出适应度最高的个体，利用随机概率选择个体，通过交叉运算和变异运算的相互配合来优化种群，并返回到步骤(二)；

六、输出最终结果，退出；

步骤三、适应度函数f(s)分析：采用VC++6.0实现遗传算法的K-modes嵌合模式的程序设计，对所选择区域人类的mtDNA聚类分析，通过50-120次迭代使f(s)趋于稳定值，根据各区域通过不同的迭代次数使得目标函数f(s)趋于稳定值，可以判定各区域人群的mtDNA差异度，使f(s)趋于稳定值的迭代次数越多，对应的适应度函数f(s)稳定值越小，表明该区域人群的mtDNA差异度越高；

步骤四、聚类分析：依据遗传算法的K-modes嵌合模型算法，对每个区域内所选的人群mtDNA样本进行聚类分析，得到类群分布规律及各聚类中心之间的距离；

步骤五、区域人口结构分析：根据聚类分析结果，通过统计在各个类群的样本数，计算出各个类群中的人口分布密度，从而对各区域的人口结构作出分析。

本发明的方法由于采用了遗传算法和k-modes模型嵌合的聚类算法对区域人群mtDNA遗传序列信息进行聚类分析，从而能够提高遗传算法收敛速度，克服遗传算法局部搜索性能差和过早收敛于局部最小等缺点，获得较好的聚类效果和稳定性，适用于区域群体大规模mtDNA数据聚类分析。

附图说明

图1是基于遗传算法的K-modes模型算法流程图。

图2是区域人群mtDNA迭代100次适应度函数f(s)变化图；图2(a)是西安区域的适应度函数f(s)变化图，图2(b)是长沙区域适应度函数f(s)变化图。

图3是区域人群mtDNA最优化聚类族群图；图3(a)是西安区域mtDNA最优化聚类族群图，图3(b)是长沙区域mtDNA最优化聚类族群图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

实施例一

步骤一、选择样本来源：根据数据库资源信息量，选择mtDNA高变I区长度为350bp序列，选择mtDNA高变I区在16026-16399区间序列，长度为350bp，进行聚类分析，依据数据库提供的原始数据，随机选取西安市的人口mtDNA数据在这个区间内具有完整信息的样本120个；

步骤二、构建遗传算法的K-modes聚类嵌合的分析模型：

遗传算法以个体适应度的大小来确定该个体被遗传到下一代群体中的概率，在遗传K-modes算法中，采用聚类紧密度指标作为个体的适应度值。个体S的适应度函数定义为：

f (s) = \frac{1}{n} \underset{j = 1, k}{Σ} \underset{S_{i} &Element; C_{j}}{Σ} Dist (S_{i}, Z_{j}) - - - (1)

其中Si为类Cj内的元素，Zj为第j类的聚类中心，Dist表示距离度量。

如附图1所示，基于遗传算法的K-modes模型算法执行步骤为：

五、根据各个体的适应度值和遗传算法的参数采用精英保留策略，选择出适应度最高的个体，然后从交配池中随机选择要进化的一对个体，根据位串长度，随即选择其中一个或多个交叉点，根据交叉概率在交叉点处实施交叉操作，设定一个变异概率Pm，产生一个(0，1)之间的随机数，当随机数小于变异概率时，在当前染色体中随机选择一个基因进行变异，通过交叉运算和变异运算的相互配合来优化种群，并返回到步骤(二)；

六、输出最终结果，退出。

步骤三、适应度函数f(s)分析：采用VC++6.0实现遗传算法的K-modes嵌合模式的程序设计，对西安市人口的mtDNA聚类分析。通过100次迭代使适应度函数f(s)趋于稳定值，附图2(a)表示的是西安地区mtDNA最优化聚类过程，实现算法的参数是交叉概率为0.6，变异概率为0.01，进化代数为100；纵坐标表示的每次迭代次数对应的f(s)值，横坐标表示迭代次数n，从图中可以看到，目标函数随迭代次数单调增加，西安人群mtDNA适应度函数f(s)在100次迭代后，才趋于平稳，数值接近1.295；从迭代次数和适应度函数f(s)数值的大小来看，西安人群的mtDNA差异度较高。

步骤四、聚类分析：依据遗传算法的K-modes模型算法，对120个西安人群mtDNA样本进行聚类分析，获得6个类群，各个类群的分布密度介于12.6％～22.4％之间，呈现发散分布规律，见附图3(a)所示。

西安区域人群被聚类为6个类群，聚类中心之间距离较大，其数值在86至127之间，类群差异明显，见下表1。

表1西安区域人口mtDNA系列6个聚类中心之间距离

步骤五、区域人口结构分析：根据聚类分析结果，西安城市各个类群中的分布密度是在12.6％～22.4％之间，也就是各个类群在总人口中出现的几率也大致在12.6％～22.4％之间。每个类群的密度大致相等，相差不大，是均匀分布。说明西安人口在这6个类群中分布几率大致相当，是均匀分布。西安城市人口结构中，没有主导性类群，是发散性分布。西安区域人群mtDNA聚类中心之间距离较大，数值在86至127之间；这说明西安区域类群之间差异度大。这主要是由于西安在历史上作为13朝都城，容纳了较多的族群和民族，经历了多阶段、多层次的人口迁徙与融合，导致西安人口的组成较为分散。聚类中心之间距离较大，说明类群之间差异度较大，人口结构中包含有差异性大的种群。

实施例二

步骤一、选择样本来源：根据数据库资源信息量，选择mtDNA高变I区长度为350bp序列，选择mtDNA高变I区在16026-16399区间序列，长度为350bp，进行聚类分析，依据数据库提供的原始数据，随机选取长沙市的人口mtDNA数据在这个区间内具有完整信息的样本120个；

步骤二、构建遗传算法的K-modes聚类嵌合的分析模型：

f (s) = \frac{1}{n} \underset{j = 1, k}{Σ} \underset{S_{i} &Element; C_{j}}{Σ} Dist (S_{i}, Z_{j}) - - - (1)

其中Si为类Cj内的元素，Zj为第j类的聚类中心。Dist表示距离度量。

如附图1所示，基于遗传算法的K-modes模型算法执行步骤为：

六、输出最终结果，退出。

步骤三、适应度函数f(s)分析：采用VC++6.0实现遗传算法的K-modes嵌合模式的程序设计，对长沙市人口的mtDNA聚类分析，通过100次迭代使适应度函数f(s)趋于稳定值；附图2(b)表示的是最优化聚类长沙mtDNA过程，实现算法的参数是交叉概率为0.6，变异概率为0.01，进化代数为100。纵坐标表示的每次迭代次数的f(s)值，横坐标表示迭代次数n。从图中可以看到，目标函数随迭代次数单调增加，长沙人群mtDNA适应度函数f(s)，在大约30次迭代后，就已经趋于平稳，数值接近3.70；从迭代次数和适应度函数f(s)数值的大小来看，长沙人群的mtDNA差异度较低。

步骤四、聚类分析：依据遗传算法的K-modes模型算法，对120个长沙人群mtDNA样本进行聚类分析，获得6个类群，各个类群的分布密度极不均匀，介于1.2％～84.9％之间，主要类群占到84.9％，呈现以主导性类群分布规律，见附图3(b)所示。

长沙区域人群被聚类为6个类群，聚类中心之间距离交小，其数值在6至20之间，类群之间差异较小，见表2。

表2长沙区域人口mtDNA系列6个聚类中心之间距离

步骤五、区域人口结构分析：根据聚类分析结果，通过统计在各个类群的样本数，就可以计算出各个类群中的人口分布密度，从而对各区域的人口结构作出分析。长沙城市各个类群中的分布密度大不一样，在Clsuter I中的分布密度是84.9％，在Clsuter III中的分布密度是6.4％，其他4个类群分布密度都较小，分别是3.2％，2.4％，1.9％，1.2％。说明长沙城市人口结构中，有一个主导性类群(Clsuter I)，可能在总人口中该类群中分布几率几乎达到90％，次要类群(Clsuter III)分布几率为6.4％，其他几个类群则是小概率分布。说明长沙人口结构以主导性类群为主。长沙区域人群mtDNA聚类中心之间距离较小，数值在6至20之间；这说明长沙区域类群之间差异度较小。这主要是由于长沙是区域化的省会城市，在历史上明代有一次交大规模的人口迁徙，其它历史时期区域人口相对平稳，大跨度地域人群迁徙活动较少，这样使得长沙人口结构就显得是较集中分布。聚类中心之间距离较小，说明类群之间差异度较小，人口结构中包含差异性小的种群。

通过实施例1和实施例2的实验结果可以发现，长沙人口结构以主导性类群为主，相比较而言，西安城市人口结构没有主导性类群，是发散性分布。西安区域类群之间差异度相比长沙区域类群之间差异度大很多。

本发明的方法和传统的提取方法结果对比：

利用数据库中区域人群mtDNA序列数据，采用遗传算法的K-modes嵌合分析方法，对区域人口的mtDNA数据进行生物信息分析和聚类分析，在分子层次上标识区域的人口特征，人口结构分布规律与区域的历史、文化和地理特征相符合，表明遗传算法的K-modes的分析方法对于研究区域人群结构和人口结构具有重要的科学意义。

Claims

1.一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法，其特征在于，包括下列步骤：

步骤二、构建遗传算法的K-modes聚类嵌合的分析模型：

f (s) = \frac{1}{n} \underset{j = 1, k}{Σ} \underset{S_{i} &Element; C_{j}}{Σ} Dist (S_{i}, Z_{j}) - - - (1)

其中Si为类Cj内的元素，Zj为第j类的聚类中心，Dist表示距离度量，

步骤三、适应度函数f(s)分析：采用VC++6.0实现遗传算法的K-modes嵌合模式的程序设计，对所选择区域人类的mtDNA聚类分析，通过50-120次迭代使f(s)趋于稳定值，根据各区域通过不同的迭代次数使得适应度函数f(s)趋于稳定值，可以判定各区域人群的mtDNA差异度，使适应度函数f(s)趋于稳定值的迭代次数越多，对应的适应度函数f(s)稳定值越小，表明该区域人群的mtDNA差异度越高；

步骤五、区域人口结构分析：根据聚类分析结果，通过统计在各个类群的样本数占选择的总样本数的百分比从而推算出各个类群中的人口分布密度，从而对各区域的人口结构作出分析。

2.根据权利要求1所述的方法，其特征在于，所述的基于遗传算法的K-modes模型算法执行步骤为：

六、输出最终结果，退出。