CN102629255A - 一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法 - Google Patents

一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法 Download PDF

Info

Publication number
CN102629255A
CN102629255A CN2012100497570A CN201210049757A CN102629255A CN 102629255 A CN102629255 A CN 102629255A CN 2012100497570 A CN2012100497570 A CN 2012100497570A CN 201210049757 A CN201210049757 A CN 201210049757A CN 102629255 A CN102629255 A CN 102629255A
Authority
CN
China
Prior art keywords
mtdna
population
cluster
analysis
regional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100497570A
Other languages
English (en)
Inventor
张虎勤
刘芳娥
吴晓明
杜建强
夏娟娟
刘晓刚
郭燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN2012100497570A priority Critical patent/CN102629255A/zh
Publication of CN102629255A publication Critical patent/CN102629255A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,采用遗传算法和k-modes模型嵌合的聚类算法对区域人群mtDNA遗传序列信息进行聚类分析,通过研究类群分布规律及各聚类中心之间的距离,统计在各个类群的样本数,计算出各个类群中的人口分布密度;从而对所选区域的人口结构特征作出分析;利用数据库中区域人群mtDNA序列数据,采用遗传算法嵌合K-modes的分析方法,给出定量的mtDNA分子标识的类群结构划分方法,从而分析研究区域人群结构特征,具有较好的聚类效果和稳定性,适用于区域群体大规模mtDNA数据聚类分析。

Description

一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法
技术领域
本发明涉及遗传信息研究区域人口结构的技术领域,特别涉及一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法。
背景技术
人口结构和组成与结构,通常是以民族、性别、年龄等因素为指标进行宏观统计学分析和汇总,对人口结构的认识停留在直观信息的统计分析上,存在工作量大,统计信息误差大等缺点。尝试从分子水平和基因序列信息表征区域人口的结构和特征,使区域人口打上分子特征标示,为区域人口成分界定和类群界定提供新的技术通道已经成为研究的热点。
发明内容
为了克服上述现有技术的缺陷,本发明的目的在于提供一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,用遗传算法和k-modes模型嵌合的聚类算法对区域人群mtDNA序列进行聚类分析,实现对区域人口结构进行类群标识和类群结构划分,以mtDNA多态性位点标识人口类别聚类分析方法力求提高遗传算法收敛速度搜索性能,达到高稳定性的聚类分析结果。
为了实现上述任务,本发明采取如下的技术解决方案:
一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,包括下列步骤:
步骤一、选择样本来源:根据数据库资源信息量,选择mtDNA高变I区长度为350bp序列,选择mtDNA高变I区在16026-16399区间序列,长度为350bp,进行聚类分析,依据数据库提供的原始数据,随机选取所选区域内的人口mtDNA数据在这个区间内具有完整信息的样本100-200个;
步骤二、构建遗传算法的K-modes聚类嵌合的分析模型:
遗传算法以个体适应度的大小来确定该个体被遗传到下一代群体中的概率,在遗传K-modes算法中,采用聚类紧密度指标作为个体的适应度值,个体S的适应度函数定义为:
f ( s ) = 1 n Σ j = 1 , k Σ S i ∈ C j Dist ( S i , Z j ) - - - ( 1 )
其中Si为类Cj内的元素,Zj为第j类的聚类中心,Dist表示距离度量,
所述的基于遗传算法的K-modes模型算法执行步骤为:
一、初始化种群,使每个个体表示一种分类方案,并对其进行编码;
二、从种群中选择一个个体,对序列对象进行编码,对编码后的序列对象进行聚类;
三、通过公式(1)计算聚类结果的聚类内紧密度值,并将该值作为个体的适应度值返回;
四、有未被选择的个体则返回到步骤(二);如果种群中所有个体都被选择过,通过循环语句判断算法是否已完成规定的f(s)迭代次数,若已完成规定的f(s)迭代次数则转到步骤(六);否则进入到步骤(五);
五、根据各个体的适应度值和遗传算法的参数采用精英保留策略,选择出适应度最高的个体,利用随机概率选择个体,通过交叉运算和变异运算的相互配合来优化种群,并返回到步骤(二);
六、输出最终结果,退出;
步骤三、适应度函数f(s)分析:采用VC++6.0实现遗传算法的K-modes嵌合模式的程序设计,对所选择区域人类的mtDNA聚类分析,通过50-120次迭代使f(s)趋于稳定值,根据各区域通过不同的迭代次数使得目标函数f(s)趋于稳定值,可以判定各区域人群的mtDNA差异度,使f(s)趋于稳定值的迭代次数越多,对应的适应度函数f(s)稳定值越小,表明该区域人群的mtDNA差异度越高;
步骤四、聚类分析:依据遗传算法的K-modes嵌合模型算法,对每个区域内所选的人群mtDNA样本进行聚类分析,得到类群分布规律及各聚类中心之间的距离;
步骤五、区域人口结构分析:根据聚类分析结果,通过统计在各个类群的样本数,计算出各个类群中的人口分布密度,从而对各区域的人口结构作出分析。
本发明的方法由于采用了遗传算法和k-modes模型嵌合的聚类算法对区域人群mtDNA遗传序列信息进行聚类分析,从而能够提高遗传算法收敛速度,克服遗传算法局部搜索性能差和过早收敛于局部最小等缺点,获得较好的聚类效果和稳定性,适用于区域群体大规模mtDNA数据聚类分析。
附图说明
图1是基于遗传算法的K-modes模型算法流程图。
图2是区域人群mtDNA迭代100次适应度函数f(s)变化图;图2(a)是西安区域的适应度函数f(s)变化图,图2(b)是长沙区域适应度函数f(s)变化图。
图3是区域人群mtDNA最优化聚类族群图;图3(a)是西安区域mtDNA最优化聚类族群图,图3(b)是长沙区域mtDNA最优化聚类族群图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明。
实施例一
一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,包括下列步骤:
步骤一、选择样本来源:根据数据库资源信息量,选择mtDNA高变I区长度为350bp序列,选择mtDNA高变I区在16026-16399区间序列,长度为350bp,进行聚类分析,依据数据库提供的原始数据,随机选取西安市的人口mtDNA数据在这个区间内具有完整信息的样本120个;
步骤二、构建遗传算法的K-modes聚类嵌合的分析模型:
遗传算法以个体适应度的大小来确定该个体被遗传到下一代群体中的概率,在遗传K-modes算法中,采用聚类紧密度指标作为个体的适应度值。个体S的适应度函数定义为:
f ( s ) = 1 n Σ j = 1 , k Σ S i ∈ C j Dist ( S i , Z j ) - - - ( 1 )
其中Si为类Cj内的元素,Zj为第j类的聚类中心,Dist表示距离度量。
如附图1所示,基于遗传算法的K-modes模型算法执行步骤为:
一、初始化种群,使每个个体表示一种分类方案,并对其进行编码;
二、从种群中选择一个个体,对序列对象进行编码,对编码后的序列对象进行聚类;
三、通过公式(1)计算聚类结果的聚类内紧密度值,并将该值作为个体的适应度值返回;
四、有未被选择的个体则返回到步骤(二);如果种群中所有个体都被选择过,通过循环语句判断算法是否已完成规定的f(s)迭代次数,若已完成规定的f(s)迭代次数则转到步骤(六);否则进入到步骤(五);
五、根据各个体的适应度值和遗传算法的参数采用精英保留策略,选择出适应度最高的个体,然后从交配池中随机选择要进化的一对个体,根据位串长度,随即选择其中一个或多个交叉点,根据交叉概率在交叉点处实施交叉操作,设定一个变异概率Pm,产生一个(0,1)之间的随机数,当随机数小于变异概率时,在当前染色体中随机选择一个基因进行变异,通过交叉运算和变异运算的相互配合来优化种群,并返回到步骤(二);
六、输出最终结果,退出。
步骤三、适应度函数f(s)分析:采用VC++6.0实现遗传算法的K-modes嵌合模式的程序设计,对西安市人口的mtDNA聚类分析。通过100次迭代使适应度函数f(s)趋于稳定值,附图2(a)表示的是西安地区mtDNA最优化聚类过程,实现算法的参数是交叉概率为0.6,变异概率为0.01,进化代数为100;纵坐标表示的每次迭代次数对应的f(s)值,横坐标表示迭代次数n,从图中可以看到,目标函数随迭代次数单调增加,西安人群mtDNA适应度函数f(s)在100次迭代后,才趋于平稳,数值接近1.295;从迭代次数和适应度函数f(s)数值的大小来看,西安人群的mtDNA差异度较高。
步骤四、聚类分析:依据遗传算法的K-modes模型算法,对120个西安人群mtDNA样本进行聚类分析,获得6个类群,各个类群的分布密度介于12.6%~22.4%之间,呈现发散分布规律,见附图3(a)所示。
西安区域人群被聚类为6个类群,聚类中心之间距离较大,其数值在86至127之间,类群差异明显,见下表1。
表1西安区域人口mtDNA系列6个聚类中心之间距离
Figure BDA0000139509030000051
步骤五、区域人口结构分析:根据聚类分析结果,西安城市各个类群中的分布密度是在12.6%~22.4%之间,也就是各个类群在总人口中出现的几率也大致在12.6%~22.4%之间。每个类群的密度大致相等,相差不大,是均匀分布。说明西安人口在这6个类群中分布几率大致相当,是均匀分布。西安城市人口结构中,没有主导性类群,是发散性分布。西安区域人群mtDNA聚类中心之间距离较大,数值在86至127之间;这说明西安区域类群之间差异度大。这主要是由于西安在历史上作为13朝都城,容纳了较多的族群和民族,经历了多阶段、多层次的人口迁徙与融合,导致西安人口的组成较为分散。聚类中心之间距离较大,说明类群之间差异度较大,人口结构中包含有差异性大的种群。
实施例二
一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,包括下列步骤:
步骤一、选择样本来源:根据数据库资源信息量,选择mtDNA高变I区长度为350bp序列,选择mtDNA高变I区在16026-16399区间序列,长度为350bp,进行聚类分析,依据数据库提供的原始数据,随机选取长沙市的人口mtDNA数据在这个区间内具有完整信息的样本120个;
步骤二、构建遗传算法的K-modes聚类嵌合的分析模型:
遗传算法以个体适应度的大小来确定该个体被遗传到下一代群体中的概率,在遗传K-modes算法中,采用聚类紧密度指标作为个体的适应度值。个体S的适应度函数定义为:
f ( s ) = 1 n Σ j = 1 , k Σ S i ∈ C j Dist ( S i , Z j ) - - - ( 1 )
其中Si为类Cj内的元素,Zj为第j类的聚类中心。Dist表示距离度量。
如附图1所示,基于遗传算法的K-modes模型算法执行步骤为:
一、初始化种群,使每个个体表示一种分类方案,并对其进行编码;
二、从种群中选择一个个体,对序列对象进行编码,对编码后的序列对象进行聚类;
三、通过公式(1)计算聚类结果的聚类内紧密度值,并将该值作为个体的适应度值返回;
四、有未被选择的个体则返回到步骤(二);如果种群中所有个体都被选择过,通过循环语句判断算法是否已完成规定的f(s)迭代次数,若已完成规定的f(s)迭代次数则转到步骤(六);否则进入到步骤(五);
五、根据各个体的适应度值和遗传算法的参数采用精英保留策略,选择出适应度最高的个体,然后从交配池中随机选择要进化的一对个体,根据位串长度,随即选择其中一个或多个交叉点,根据交叉概率在交叉点处实施交叉操作,设定一个变异概率Pm,产生一个(0,1)之间的随机数,当随机数小于变异概率时,在当前染色体中随机选择一个基因进行变异,通过交叉运算和变异运算的相互配合来优化种群,并返回到步骤(二);
六、输出最终结果,退出。
步骤三、适应度函数f(s)分析:采用VC++6.0实现遗传算法的K-modes嵌合模式的程序设计,对长沙市人口的mtDNA聚类分析,通过100次迭代使适应度函数f(s)趋于稳定值;附图2(b)表示的是最优化聚类长沙mtDNA过程,实现算法的参数是交叉概率为0.6,变异概率为0.01,进化代数为100。纵坐标表示的每次迭代次数的f(s)值,横坐标表示迭代次数n。从图中可以看到,目标函数随迭代次数单调增加,长沙人群mtDNA适应度函数f(s),在大约30次迭代后,就已经趋于平稳,数值接近3.70;从迭代次数和适应度函数f(s)数值的大小来看,长沙人群的mtDNA差异度较低。
步骤四、聚类分析:依据遗传算法的K-modes模型算法,对120个长沙人群mtDNA样本进行聚类分析,获得6个类群,各个类群的分布密度极不均匀,介于1.2%~84.9%之间,主要类群占到84.9%,呈现以主导性类群分布规律,见附图3(b)所示。
长沙区域人群被聚类为6个类群,聚类中心之间距离交小,其数值在6至20之间,类群之间差异较小,见表2。
表2长沙区域人口mtDNA系列6个聚类中心之间距离
Figure BDA0000139509030000071
Figure BDA0000139509030000081
步骤五、区域人口结构分析:根据聚类分析结果,通过统计在各个类群的样本数,就可以计算出各个类群中的人口分布密度,从而对各区域的人口结构作出分析。长沙城市各个类群中的分布密度大不一样,在Clsuter I中的分布密度是84.9%,在Clsuter III中的分布密度是6.4%,其他4个类群分布密度都较小,分别是3.2%,2.4%,1.9%,1.2%。说明长沙城市人口结构中,有一个主导性类群(Clsuter I),可能在总人口中该类群中分布几率几乎达到90%,次要类群(Clsuter III)分布几率为6.4%,其他几个类群则是小概率分布。说明长沙人口结构以主导性类群为主。长沙区域人群mtDNA聚类中心之间距离较小,数值在6至20之间;这说明长沙区域类群之间差异度较小。这主要是由于长沙是区域化的省会城市,在历史上明代有一次交大规模的人口迁徙,其它历史时期区域人口相对平稳,大跨度地域人群迁徙活动较少,这样使得长沙人口结构就显得是较集中分布。聚类中心之间距离较小,说明类群之间差异度较小,人口结构中包含差异性小的种群。
通过实施例1和实施例2的实验结果可以发现,长沙人口结构以主导性类群为主,相比较而言,西安城市人口结构没有主导性类群,是发散性分布。西安区域类群之间差异度相比长沙区域类群之间差异度大很多。
本发明的方法和传统的提取方法结果对比:
利用数据库中区域人群mtDNA序列数据,采用遗传算法的K-modes嵌合分析方法,对区域人口的mtDNA数据进行生物信息分析和聚类分析,在分子层次上标识区域的人口特征,人口结构分布规律与区域的历史、文化和地理特征相符合,表明遗传算法的K-modes的分析方法对于研究区域人群结构和人口结构具有重要的科学意义。

Claims (2)

1.一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,其特征在于,包括下列步骤:
步骤一、选择样本来源:根据数据库资源信息量,选择mtDNA高变I区长度为350bp序列,选择mtDNA高变I区在16026-16399区间序列,长度为350bp,进行聚类分析,依据数据库提供的原始数据,随机选取所选区域内的人口mtDNA数据在这个区间内具有完整信息的样本100-200个;
步骤二、构建遗传算法的K-modes聚类嵌合的分析模型:
遗传算法以个体适应度的大小来确定该个体被遗传到下一代群体中的概率,在遗传K-modes算法中,采用聚类紧密度指标作为个体的适应度值,个体S的适应度函数定义为:
f ( s ) = 1 n Σ j = 1 , k Σ S i ∈ C j Dist ( S i , Z j ) - - - ( 1 )
其中Si为类Cj内的元素,Zj为第j类的聚类中心,Dist表示距离度量,
步骤三、适应度函数f(s)分析:采用VC++6.0实现遗传算法的K-modes嵌合模式的程序设计,对所选择区域人类的mtDNA聚类分析,通过50-120次迭代使f(s)趋于稳定值,根据各区域通过不同的迭代次数使得适应度函数f(s)趋于稳定值,可以判定各区域人群的mtDNA差异度,使适应度函数f(s)趋于稳定值的迭代次数越多,对应的适应度函数f(s)稳定值越小,表明该区域人群的mtDNA差异度越高;
步骤四、聚类分析:依据遗传算法的K-modes嵌合模型算法,对每个区域内所选的人群mtDNA样本进行聚类分析,得到类群分布规律及各聚类中心之间的距离;
步骤五、区域人口结构分析:根据聚类分析结果,通过统计在各个类群的样本数占选择的总样本数的百分比从而推算出各个类群中的人口分布密度,从而对各区域的人口结构作出分析。
2.根据权利要求1所述的方法,其特征在于,所述的基于遗传算法的K-modes模型算法执行步骤为:
一、初始化种群,使每个个体表示一种分类方案,并对其进行编码;
二、从种群中选择一个个体,对序列对象进行编码,对编码后的序列对象进行聚类;
三、通过公式(1)计算聚类结果的聚类内紧密度值,并将该值作为个体的适应度值返回;
四、有未被选择的个体则返回到步骤(二);如果种群中所有个体都被选择过,通过循环语句判断算法是否已完成规定的f(s)迭代次数,若已完成规定的f(s)迭代次数则转到步骤(六);否则进入到步骤(五);
五、根据各个体的适应度值和遗传算法的参数采用精英保留策略,选择出适应度最高的个体,利用随机概率选择个体,通过交叉运算和变异运算的相互配合来优化种群,并返回到步骤(二);
六、输出最终结果,退出。
CN2012100497570A 2012-02-29 2012-02-29 一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法 Pending CN102629255A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100497570A CN102629255A (zh) 2012-02-29 2012-02-29 一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100497570A CN102629255A (zh) 2012-02-29 2012-02-29 一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法

Publications (1)

Publication Number Publication Date
CN102629255A true CN102629255A (zh) 2012-08-08

Family

ID=46587515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100497570A Pending CN102629255A (zh) 2012-02-29 2012-02-29 一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法

Country Status (1)

Country Link
CN (1) CN102629255A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807546A (zh) * 2019-10-22 2020-02-18 恒大智慧科技有限公司 社区网格人口变化预警方法及系统
CN110807547A (zh) * 2019-10-22 2020-02-18 恒大智慧科技有限公司 家庭人口结构的预测方法及系统
CN111738483A (zh) * 2020-04-24 2020-10-02 国网上海市电力公司 基于聚类和深层信念网络的电网降损优化方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807546A (zh) * 2019-10-22 2020-02-18 恒大智慧科技有限公司 社区网格人口变化预警方法及系统
CN110807547A (zh) * 2019-10-22 2020-02-18 恒大智慧科技有限公司 家庭人口结构的预测方法及系统
CN111738483A (zh) * 2020-04-24 2020-10-02 国网上海市电力公司 基于聚类和深层信念网络的电网降损优化方法及系统

Similar Documents

Publication Publication Date Title
CN103699812B (zh) 基于遗传算法的植物品种真实性鉴定位点筛选方法
CN105631003B (zh) 支持海量数据分组统计的智能索引构建、查询及维护方法
CN109146121A (zh) 基于pso-bp模型的停限产情况下的电量预测方法
CN103208027A (zh) 基于局部模块度的遗传算法用于大规模复杂网络社区挖掘的方法
CN105447509A (zh) 一种光伏发电系统的短期功率预测方法
CN103426027A (zh) 一种基于遗传神经网络模型的正常蓄水位智能优选方法
CN104200272A (zh) 一种基于改进遗传算法的复杂网络社区挖掘方法
CN110008388A (zh) 一种基于决策树的流数据分类方法
CN105701572A (zh) 一种基于改进高斯过程回归的光伏短期出力预测方法
CN102819688A (zh) 基于半监督分类的二维地震数据全层位追踪方法
CN104951847A (zh) 一种基于核主成分分析和基因表达式编程的降水预报方法
CN105224987A (zh) 一种基于动态Lipschitz下界估计的变策略群体全局优化方法
CN111984702A (zh) 村镇聚落的空间演化分析方法、装置、设备及存储介质
CN102629255A (zh) 一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法
CN102663499A (zh) 基于模拟退火遗传算法的网络社区划分方法
CN110163444A (zh) 一种基于gasa-svr的需水预测方法
CN102184328A (zh) 一种土地利用演化ca模型转换规则优化方法
CN113593635A (zh) 一种玉米表型预测方法及系统
CN106096327A (zh) 基于Torch监督式深度学习的基因性状识别方法
CN105069474B (zh) 用于音频事件分类的半监督学习高置信度样本挖掘方法
CN114580762A (zh) 一种基于XGBoost的水文预报误差校正方法
CN109978023A (zh) 面向高维大数据分析的特征选择方法及计算机存储介质
CN113850420A (zh) 一种基于改进的遗传算法优化bp神经网络的气象数据预测方法
CN106498070A (zh) 一种基于基因组LoF位点筛查间接关联猕猴桃种性的方法
CN104573004B (zh) 一种基于双阶遗传计算的基因表达数据的双聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120808