CN103593659B - 一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法 - Google Patents

一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法 Download PDF

Info

Publication number
CN103593659B
CN103593659B CN201310611263.1A CN201310611263A CN103593659B CN 103593659 B CN103593659 B CN 103593659B CN 201310611263 A CN201310611263 A CN 201310611263A CN 103593659 B CN103593659 B CN 103593659B
Authority
CN
China
Prior art keywords
snp
site
formula
crest
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310611263.1A
Other languages
English (en)
Other versions
CN103593659A (zh
Inventor
邓继忠
甘四明
黄华盛
李梅
于晓丽
袁之报
金济
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Research Institute of Tropical Forestry of Chinese Academy of Forestry
Original Assignee
South China Agricultural University
Research Institute of Tropical Forestry of Chinese Academy of Forestry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University, Research Institute of Tropical Forestry of Chinese Academy of Forestry filed Critical South China Agricultural University
Priority to CN201310611263.1A priority Critical patent/CN103593659B/zh
Publication of CN103593659A publication Critical patent/CN103593659A/zh
Application granted granted Critical
Publication of CN103593659B publication Critical patent/CN103593659B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,首先单独分离出色谱图中包含的腺瞟呤A、鸟瞟呤G、胞嘧啶C和胸腺嘧啶T四种碱基的荧光数据;采用小波多尺度分析方法对分离的荧光数据分别进行滤波去噪处理;再分析四种碱基荧光数据的波形特征,检测出波形的第一峰与第二峰,选择波峰距离、高度比值和起伏度比值这三个波形特征,作为SNP位点判别的要素;选择结构为3‑10‑1的BP神经网络作为SNP位点检测的分类器,并采用Levenberg Marquardt算法来对BP神经网络进行训练;采用分段线性变换将输出映射为0~100的SNP评价分数,根据评价分数将SNP位点的类别定义为1~5级,并据此判定该位点的SNP置信度。本发明能够有效检测测序文件的个体内SNP位点。

Description

一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别 方法
技术领域
本发明属于计算机自动识别领域,涉及到生物信息学、模式识别、统计学、信号处理及计算机软件技术,特别涉及到没有参考序列和只有少数样本的情况下、一种针对二倍体聚合酶链式反应(Polymerase chain reaction,PCR)产物的Sanger测序中个体内单核苷酸多态性(Single nucleotide polymorphism,SNP)的识别方法。
背景技术
SNP是指遗传物质DNA水平上单个核苷酸的替换所引起的变异(或称多态性),SNP具有广泛性、代表性、遗传性、稳定性等特点,反映了丰富的遗传信息,是最常见的可遗传变异,SNP也成为广泛使用的遗传标记。SNP可能导致个体表型的不同,例如,SNP位点可能是人类基因组中疾病易感基因相关的遗传标记,甚至直接影响癌症、心脏病、糖尿病以及其他常见疾病的易感性。因此,SNP检测在基因组序列多态性和重要表型的遗传标记研究中有着十分重要的作用。
虽然,新一代测序技术已用于生命科学多个研究领域,但基于传统Sanger测序技术的PCR产物测序仍应用广泛。通常,PCR产物直接测序中,二倍体个体内SNP在测序峰图上表现为双峰,而测序仪配套软件只能识别最高峰(碱基)、不能自动识别较低的峰(碱基),因而不能判读个体内SNP。目前,已经有人开发了一些软件来自动检测这类双峰或者个体内SNP,如novoSNP(Weckx et al.,2005.novoSNP,a novel computational tool forsequence variation discovery.Genome Res.15:436-442)、Mutation Surveyor(http://www.softgenetics.com/MutationSurveyor.html)、PolyPhred 5.0(Stephen et al.,2006.Automating sequence-based detection and genotyping of SNPs from diploidsamples.Nat.Genet.38:375-381)。但是,这些软件均不能分析单个的测序文件,如novoSNP和Mutation Surveyor需要参考序列,这在参考基因序列进行测序、而测出序列有内含子(不在基因序列中)时就不可行;PolyPhred 5.0需要8个以上测序文件的对比才能准确判读SNP,不适于单个或者少量样本的测序。
发明内容
本发明的目的在于克服现有技术的不足,提供一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,能够有效检测测序文件的个体内SNP位点。
为实现上述目的,本发明所提供的技术方案为:一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,包括以下步骤:
1)从二倍体PCR产物Sanger测序的色谱图形中分离腺瞟呤A、鸟瞟呤G、胞嘧啶C和胸腺嘧啶T四种碱基的荧光数据;
2)对提取的荧光数据进行滤波去噪处理;
3)分析步骤1)四种碱基荧光数据的波形特征,确定波形的周期,检测波形的第一峰与第二峰,选择波峰距离、高度比值和起伏度比值这三个波形特征,作为SNP位点判别的要素;
4)选择BP神经网络作为SNP位点检测的分类器,所述BP神经网络的结构为3-10-1,输入层的节点数是3,中间层/隐含层节点数是10,输出层的节点数是1,并采用LevenbergMarquardt算法来对BP神经网络进行训练;
5)神经网络分类器的输出是介于0~45的一个数值,采用分段线性变换将输出映射为0~100的SNP评价分数,评价分数越高,则该位点属于SNP的可能性越大;
6)根据SNP评价分数,对SNP位点进行类别分级,分为1~5级,并据此判定该位点的SNP置信度。
在步骤1)中,原始数据为Applied Biosystems公司的系列测序仪产生的、扩展名为.ab1的测序色谱图形文件,也可以是Beckman Coulter公司的测序仪产生的、扩展名为.scf的测序色谱图形文件,根据相应文件格式的说明,通过偏移量计算,将A、G、T和C四种碱基的荧光数据单独分离出来。
在步骤2)中,所述滤波去噪处理是采用小波多尺度分析方法,对四种碱基序列数据单独处理,选择Daubechies小波的一阶函数db1作为小波基函数,用分解3层后的低频分解系数重构小波,重构的四种碱基的数据是后续进行SNP检测的分析数据。
在步骤3)中,首先,检测荧光数据波峰出现的位置,计算波形的平均周期、最大波峰的平均高度;其次,检测每个波形周期内是否出现第二个波峰,双倍体内个体SNP检测的必要条件是SNP位点必定出现两个波峰,但两个波峰并非识别SNP的充分条件,两个波峰按其高度大小分别称为第一峰和第二峰,同时出现第一峰第二峰的位点为疑似SNP位点;最后,选择波峰距离、波峰高度比值、波峰起伏度比值这三个波形特征作为SNP位点判别的要素。
在步骤4)中,所述BP神经网络分类器的输入量为波峰距离、波峰高度比值和波峰起伏度比值等这三个特征量,输出量是1个,是SNP的评价值,BP神经网络隐含层的传递函数选择S形的tansig函数,表达式如下式(1):
tan s i g ( x ) = 2 ( 1 + e - 2 x ) - 1 - - - ( 1 )
输出层的传递函数是线性的purelin函数,表达式如下式(2):
purelin(x)=x (2)。
在步骤4)中,所述BP神经网络采用Levenberg Marquardt算法进行训练,其训练算法如下:设w(k)表示第k次迭代的权值和阈值所组成的向量,新的权值和阈值所组成的向量w(k+1)为:
w(k+1)=w(k)+Δw (3)
在Levenberg Marquardt算法中,权值增量Δw计算公式如下:
Δ w = - [ ▿ 2 E ( w ) ] - 1 ▿ E ( w ) - - - ( 4 )
其中,表示梯度,表示误差指标函数E(w)的Hessian矩阵,设误差指标函数为:
E ( w ) = 1 2 Σ i = 1 N e i 2 ( w ) - - - ( 5 )
式中,ei(w)为误差,i=1,2,...,N,N为样本数目,则:
▿ E ( w ) = J T ( w ) e ( w ) - - - ( 6 )
▿ 2 E ( w ) = J T ( w ) e ( w ) + S ( w ) - - - ( 7 )
式中:J(w)—Jacobian矩阵,S(w)为误差函数,
S ( w ) = Σ i = 1 N e i ( w ) ▿ 2 e i ( w ) - - - ( 9 )
式(4)的Δw表示为:
Δw=-[JT(w)J(w)+μI]-1J(w)e(w) (10)
式中,比例系数μ为大于0的常数,I为单位矩阵,
基于Levenberg Marquardt算法的BP神经网络的训练步骤为:
(I)给出训练误差允许值ε,常数μ0和β,0<β<1,并且初始化权值和阈值向量w(0),令k=0,μ=μ0
(II)计算网络输出及误差指标函数E(w(k});
(III)按式(8)计算Jacobian矩阵J(w);
(IV)按式(10)计算Δw;
(V)以w(k+1)=w(k)+Δw为新的权值和阈值向量,按式(5)计算误差指标函数E(w(k +1});
(VI)当E(w(k+1))<ε,转到步骤(VIII),算法结束;
(VII)当E(w(k+1))≥ε,若E(w(k+1})<E(w(k}),则令k=k+1,μ=μβ,转到步骤(II),否则μ=μ/β,亦转到步骤(II);
(VIII)算法结束。
在步骤5)中,所述神经网络的输出Y是范围在0~45的数值,采用如下的线性函数式(11)、(12)、(13)将其映射为0~100的SNP评价分数Score,映射方式如下:
(I)当0≤Y<15,采用下面公式(11)作为映射函数,对应的SNP评价分数为0~60:
Score=4Y (11)
(II)当15≤Y<25,采用下面公式(12)作为映射函数,对应的SNP评价分数为60~75:
S c o r e = 60 + 3 2 ( Y - 15 ) - - - ( 12 )
(III)当25≤Y≤45,采用下面公式(13)作为映射函数,对应的SNP评价分数为75~100:
S c o r e = 75 + 5 4 ( Y - 25 ) - - - ( 13 ) .
在步骤6)中,判别前需先对各待识别位点进行类别定义,原则如下:
(I)当评价分数>75时,则该位点类别为1级;
(II)当评价分数<60时,其类别为5级;
(III)当评价分数在60~75之间时需结合周围位点进行进一步判别:若周围的杂波较少,即该位点附近波峰超过第一峰峰值的20%的小波不超过2个,该位点类别为2级;若周围杂波较多,即该位点附近波峰超过第一峰峰值的20%的小波超过4个,该位点类别为4级,否则该位点属性需要人工确认,其类别为3级;
各个SNP类别的置信度如下:
(I)类别为1级,属于置信度最高的SNP位点;
(II)类别为2级,属于置信度较高的SNP位点;
(III)类别为3级,属于置信度不高的SNP位点,需进一步人工确认;
(IV)类别为4级或5级,属于非SNP位点。
本发明与现有技术相比,具有如下优点与有益效果:
1、克服现有二倍体PCR产物的Sanger测序中个体内SNP自动检测软件的两个问题:(1)需要参考序列的支持;(2)需要针对同一基因片段的多个个体的测序序列;
2、结合计算机软件设计、模式识别、统计学、生物信息学等技术,能够有效检测测序文件的个体内SNP位点,可解决单个样本、无参考序列情况下二倍体PCR产物的Sanger测序的个体内SNP自动识别问题。
附图说明
图1为单独分离的A、G、T和C四种碱基数据示意图。
图2a为从色谱图形中分离出碱基A的原始数据示意图。
图2b为采用db1小波三层分解低频分解系数重构的数据示意图。
图3为本发明滤波去噪效果示意图。
图4为个体内SNP识别的结果示意图之一。
图5为个体内SNP识别的结果示意图之二。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所述的针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,其具体情况如下:
1)从二倍体PCR产物Sanger测序的色谱图形中分离腺瞟呤A、鸟瞟呤G、胞嘧啶C和胸腺嘧啶T四种碱基的荧光数据;原始数据为Applied Biosystems公司的系列测序仪产生的、扩展名为.ab1的测序色谱图形文件,其遵从ABIF文件格式,参考该公司2009年9月发布的《Applied Biosystems Genetic Analysis Data File Format》,可以获取存储文件信息的目录,目录里包含了文件的名称、元素的数据类型、元素的数量等相关属性,通过元素字节、元素数量、偏移量等信息,可以将A、G、T和C的荧光数据单独分离出来(参见图1所示)、并存放在四个数组之内。原始数据也可以是Beckman Coulter公司的测序仪产生的、扩展名为.scf的测序色谱图形文件,依据其数据文件格式(Dear and Staden,1992.A standardfile format for data from DNA sequencing instruments.DNA Sequence 3:107-110),同样可以将将A、G、T和C的荧光数据单独分离出来。
2)对提取的荧光数据进行滤波去噪处理;滤波去噪采用小波多尺度分析方法,对四种碱基序列数据单独处理,选择Daubechies小波的一阶函数db1作为小波基函数,用分解3层后的低频分解系数重构小波(参见图2a和2b所示),重构的四种碱基的数据是后续进行SNP检测的分析数据。
3)分析步骤1)四种碱基荧光数据的波形特征,确定波形的周期,检测波形的第一峰与第二峰,选择波峰距离、高度比值和起伏度比值等三个波形特征,作为SNP位点判别的要素;其具体情况如下:首先,检测荧光数据波峰出现的位置,计算波形的平均周期、最大波峰的平均高度;其次,检测每个波形周期内是否出现第二个波峰,双倍体内个体SNP检测的必要条件是SNP位点必定出现两个波峰,但两个波峰并非识别SNP的充分条件,两个波峰按其高度大小分别称为第一峰和第二峰,同时出现第一峰第二峰的位点为疑似SNP位点;最后,选择波峰距离、波峰高度比值、波峰起伏度比值这三个波形特征作为SNP位点判别的要素。
4)选择BP神经网络作为SNP位点检测的分类器,所述BP神经网络的结构为3-10-1,输入层的节点数是3,中间层/隐含层节点数是10,输出层的节点数是1,并采用LevenbergMarquardt算法来对BP神经网络进行训练;所述BP神经网络分类器的输入量为波峰距离、波峰高度比值和波峰起伏度比值等这三个特征量,输出量是1个,是SNP的评价值,BP神经网络隐含层的传递函数选择S形的tansig函数,表达式如下式(1):
tan s i g ( x ) = 2 ( 1 + e - 2 x ) - 1 - - - ( 1 )
输出层的传递函数是线性的purelin函数,表达式如下式(2):
purelin(x)=x (2);
所述BP神经网络采用Levenberg Marquardt算法进行训练,其训练算法如下:设w(k)表示第k次迭代的权值和阈值所组成的向量,新的权值和阈值所组成的向量w(k+1)为:
w(k+1)=w(k)+Δw (3)
在Levenberg Marquardt算法中,权值增量Δw计算公式如下:
&Delta; w = - &lsqb; &dtri; 2 E ( w ) &rsqb; - 1 &dtri; E ( w ) - - - ( 4 )
其中,表示梯度,表示误差指标函数E(w)的Hessian矩阵,设误差指标函数为:
E ( w ) = 1 2 &Sigma; i = 1 N e i 2 ( w ) - - - ( 5 )
式中,ei(w)为误差,i=1,2,...,N,N为样本数目,则:
&dtri; E ( w ) = J T ( w ) e ( w ) - - - ( 6 )
&dtri; 2 E ( w ) = J T ( w ) e ( w ) + S ( w ) - - - ( 7 )
式中:J(w)—Jacobian矩阵,S(w)为误差函数,
S ( w ) = &Sigma; i = 1 N e i ( w ) &dtri; 2 e i ( w ) - - - ( 9 )
式(4)的Δw可以表示为:
Δw=-[JT(w)J(w)+μI]-1J(w)e(w) (10)
式中,比例系数μ为大于0的常数,I为单位矩阵,
基于Levenberg Marquardt算法的BP神经网络的训练步骤为:
(I)给出训练误差允许值ε,常数μ0和β,0<β<1,并且初始化权值和阈值向量w(0),令k=0,μ=μ0
(II)计算网络输出及误差指标函数E(w(k});
(III)按式(8)计算Jacobian矩阵J(w);
(IV)按式(10)计算Δw;
(V)以w(k+1)=w(k)+Δw为新的权值和阈值向量,按式(5)计算误差指标函数E(w(k +1});
(VI)当E(w(k+1))<ε,转到步骤(VIII),算法结束;
(VII)当E(w(k+1))≥ε,若E(w(k+1})<E(w(k}),则令k=k+1,μ=μβ,转到步骤(II),否则μ=μ/β,亦转到步骤(II);
(VIII)算法结束。
5)神经网络分类器的输出是介于0~45的一个数值,采用分段线性变换将输出映射为0~100的SNP评价分数,评价分数越高,则该位点属于SNP的可能性越大;所述神经网络的输出Y是范围在0~45的数值,采用如下的线性函数式(11)、(12)、(13)将其映射为0~100的SNP评价分数Score,映射方式如下:
(I)当0≤Y<15,采用下面公式(11)作为映射函数,对应的SNP评价分数为0~60:
Score=4Y (11)
(II)当15≤Y<25,采用下面公式(12)作为映射函数,对应的SNP评价分数为60~75:
S c o r e = 60 + 3 2 ( Y - 15 ) - - - ( 12 )
(III)当25≤Y≤45,采用下面公式(13)作为映射函数,对应的SNP评价分数为75~100:
S c o r e = 75 + 5 4 ( Y - 25 ) - - - ( 13 ) .
6)根据SNP评价分数,对SNP位点进行类别分级,分为1~5级,并据此判定该位点的SNP置信度;BP神经网络分类器的输出量是对SNP位点的评价分数,分值在0~100,某个位点的分数越高,该位点属于SNP的可能性越大。SNP位点类别判别前先对各位点进行类别定义,原则如下:
(I)当评价分数>75时,则该位点类别为1级;
(II)当评价分数<60时,其类别为5级;
(III)当评价分数在60~75之间时需结合周围位点进行进一步判别:若周围的杂波较少,即该位点附近波峰超过第一峰峰值的20%的小波不超过2个,该位点类别为2级;若周围杂波较多,即该位点附近波峰超过第一峰峰值的20%的小波超过4个,该位点类别为4级,否则该位点属性需要人工确认,其类别为3级;
各个SNP类别的置信度如下:
(I)类别为1级,属于置信度最高的SNP位点;
(II)类别为2级,属于置信度较高的SNP位点;
(III)类别为3级,属于置信度不高的SNP位点,需进一步人工确认;
(IV)类别为4级或5级,属于非SNP位点。
参见图3所示,显示了本发明滤波去噪效果,从图中可知,第174位点的波峰属于杂波,滤波去噪后,该杂峰被过滤,没有影响后续的SNP识别。
参见图4所示,显示了本发明针对个体内SNP识别的结果之一,从图中可知,第370位属于SNP位点T/A,由于该位点两个波峰的距离较远,判别难度较大,但本发明的方法对该SNP位点能够正确识别,评价分数为88,类别为1级。
参见图5所示,显示了本发明针对个体内SNP识别的结果之二,从图中可知,第148位属于SNP点位G/A,本发明的方法能准确识别,评价分数为85,类别为1级。
在采用以上方案后,相比现有技术,本发明结合计算机软件设计、模式识别、统计学、生物信息学等技术,能够有效检测测序文件的个体内SNP位点,可解决单个样本、无参考序列情况下二倍体PCR产物的Sanger测序的个体内SNP自动识别问题,是一种有效可行的针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,值得推广。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (8)

1.一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,其特征在于,包括以下步骤:
1)从二倍体PCR产物Sanger测序的色谱图形中分离腺瞟呤A、鸟瞟呤G、胞嘧啶C和胸腺嘧啶T四种碱基的荧光数据;
2)对提取的荧光数据进行滤波去噪处理;
3)分析步骤1)四种碱基荧光数据的波形特征,确定波形的周期,检测波形的第一峰与第二峰,选择波峰距离、高度比值和起伏度比值这三个波形特征,作为SNP位点判别的要素;
4)选择BP神经网络作为SNP位点检测的分类器,所述BP神经网络的结构为3-10-1,输入层的节点数是3,中间层/隐含层节点数是10,输出层的节点数是1,并采用LevenbergMarquardt算法来对BP神经网络进行训练;
5)神经网络分类器的输出是介于0~45的一个数值,采用分段线性变换将输出映射为0~100的SNP评价分数,评价分数越高,则该位点属于SNP的可能性越大;
6)根据SNP评价分数,对SNP位点进行类别分级,分为1~5级,并据此判定该位点的SNP置信度。
2.根据权利要求1所述的一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,其特征在于:在步骤1)中,原始数据为Applied Biosystems公司的系列测序仪产生的、扩展名为.ab1的测序色谱图形文件,也可以是Beckman Coulter公司的测序仪产生的、扩展名为.scf的测序色谱图形文件,根据相应文件格式的说明,通过偏移量计算,将A、G、T和C四种碱基的荧光数据单独分离出来。
3.根据权利要求1所述的一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,其特征在于:在步骤2)中,所述滤波去噪处理是采用小波多尺度分析方法,对四种碱基序列数据单独处理,选择Daubechies小波的一阶函数db1作为小波基函数,用分解3层后的低频分解系数重构小波,重构的四种碱基的数据是后续进行SNP检测的分析数据。
4.根据权利要求1所述的一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,其特征在于:在步骤3)中,首先,检测荧光数据波峰出现的位置,计算波形的平均周期、最大波峰的平均高度;其次,检测每个波形周期内是否出现第二个波峰,双倍体内个体SNP检测的必要条件是SNP位点必定出现两个波峰,但两个波峰并非识别SNP的充分条件,两个波峰按其高度大小分别称为第一峰和第二峰,同时出现第一峰第二峰的位点为疑似SNP位点;最后,选择波峰距离、波峰高度比值、波峰起伏度比值这三个波形特征作为SNP位点判别的要素。
5.根据权利要求1所述的一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,其特征在于:在步骤4)中,所述BP神经网络分类器的输入量为波峰距离、波峰高度比值和波峰起伏度比值等这三个特征量,输出量是1个,是SNP的评价值,BP神经网络隐含层的传递函数选择S形的tansig函数,表达式如下式(1):
tan s i g ( x ) = 2 ( 1 + e - 2 x ) - 1 - - - ( 1 )
输出层的传递函数是线性的purelin函数,表达式如下式(2):
purelin(x)=x (2)。
6.根据权利要求1所述的一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,其特征在于,在步骤4)中,所述BP神经网络采用Levenberg Marquardt算法进行训练,其训练算法如下:设w(k)表示第k次迭代的权值和阈值所组成的向量,新的权值和阈值所组成的向量w(k+1)为:
w(k+1)=w(k)+Δw (3)
在Levenberg Marquardt算法中,权值增量Δw计算公式如下:
&Delta; w = - &lsqb; &dtri; 2 E ( w ) &rsqb; - 1 &dtri; E ( w ) - - - ( 4 )
其中,表示梯度,表示误差指标函数E(w)的Hessian矩阵,设误差指标函数为:
E ( w ) = 1 2 &Sigma; i = 1 N e i 2 ( w ) - - - ( 5 )
式中,ei(w)为误差,i=1,2,...,N,N为样本数目,则:
&dtri; E ( w ) = J T ( w ) e ( w ) - - - ( 6 )
&dtri; 2 E ( w ) = J T ( w ) e ( w ) + S ( w ) - - - ( 7 )
式中:J(w)—Jacobian矩阵,S(w)为误差函数,
S ( w ) = &Sigma; i = 1 N e i ( w ) &dtri; 2 e i ( w ) - - - ( 9 )
式(4)的Δw表示为:
Δw=-[JT(w)J(w)+μI]-1J(w)e(w) (10)
式中,比例系数μ为大于0的常数,I为单位矩阵,
基于Levenberg Marquardt算法的BP神经网络的训练步骤为:
(I)给出训练误差允许值ε,常数μ0和β,0<β<1,并且初始化权值和阈值向量w(0),令k=0,μ=μ0
(II)计算网络输出及误差指标函数E(w(k});
(III)按式(8)计算Jacobian矩阵J(w);
(IV)按式(10)计算Δw;
(V)以w(k+1)=w(k)+Δw为新的权值和阈值向量,按式(5)计算误差指标函数E(w(k+1});
(VI)当E(w(k+1))<ε,转到步骤(VIII),算法结束;
(VII)当E(w(k+1))≥ε,若E(w(k+1})<E(w(k}),则令k=k+1,μ=μβ,转到步骤(II),否则μ=μ/β,亦转到步骤(II);
(VIII)算法结束。
7.根据权利要求1所述的一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,其特征在于,在步骤5)中,所述神经网络的输出Y是范围在0~45的数值,采用如下的线性函数式(11)、(12)、(13)将其映射为0~100的SNP评价分数Score,映射方式如下:
(I)当0≤Y<15,采用下面公式(11)作为映射函数,对应的SNP评价分数为0~60:
Score=4Y (11)
(II)当15≤Y<25,采用下面公式(12)作为映射函数,对应的SNP评价分数为60~75:
S c o r e = 60 + 3 2 ( Y - 15 ) - - - ( 12 )
(III)当25≤Y≤45,采用下面公式(13)作为映射函数,对应的SNP评价分数为75~100:
S c o r e = 75 + 5 4 ( Y - 25 ) - - - ( 13 ) .
8.根据权利要求1所述的一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法,其特征在于,在步骤6)中,判别前需先对各待识别位点进行类别定义,原则如下:
(I)当评价分数>75时,则该位点类别为1级;
(II)当评价分数<60时,其类别为5级;
(III)当评价分数在60~75之间时需结合周围位点进行进一步判别:若周围的杂波较少,即该位点附近波峰超过第一峰峰值的20%的小波不超过2个,该位点类别为2级;若周围杂波较多,即该位点附近波峰超过第一峰峰值的20%的小波超过4个,该位点类别为4级,否则该位点属性需要人工确认,其类别为3级;
各个SNP类别的置信度如下:
(I)类别为1级,属于置信度最高的SNP位点;
(II)类别为2级,属于置信度较高的SNP位点;
(III)类别为3级,属于置信度不高的SNP位点,需进一步人工确认;
(IV)类别为4级或5级,属于非SNP位点。
CN201310611263.1A 2013-11-26 2013-11-26 一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法 Expired - Fee Related CN103593659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310611263.1A CN103593659B (zh) 2013-11-26 2013-11-26 一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310611263.1A CN103593659B (zh) 2013-11-26 2013-11-26 一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法

Publications (2)

Publication Number Publication Date
CN103593659A CN103593659A (zh) 2014-02-19
CN103593659B true CN103593659B (zh) 2016-09-14

Family

ID=50083791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310611263.1A Expired - Fee Related CN103593659B (zh) 2013-11-26 2013-11-26 一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法

Country Status (1)

Country Link
CN (1) CN103593659B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103792246A (zh) * 2014-02-20 2014-05-14 北京农业质量标准与检测技术研究中心 一种基于lm-bp神经网络的x射线荧光光谱定量分析方法
EP3743527A1 (en) 2018-01-23 2020-12-02 Biocartis NV Methods for the analysis of dissociation melt curve data
CN109753939B (zh) * 2019-01-11 2021-04-20 银丰基因科技有限公司 一种hla测序峰图识别方法
CN110016498B (zh) * 2019-04-24 2020-05-08 北京诺赛基因组研究中心有限公司 Sanger法测序中确定单核苷酸多态性的方法
CN112899355A (zh) * 2021-02-24 2021-06-04 成都新生命霍普医学检验实验室有限公司 一种snp杂合样本的半定量方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103290111A (zh) * 2013-04-24 2013-09-11 中国科学院广州生物医药与健康研究院 基于dna自组装的非酶snp检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7164533B2 (en) * 2003-01-22 2007-01-16 Cyvera Corporation Hybrid random bead/chip based microarray

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103290111A (zh) * 2013-04-24 2013-09-11 中国科学院广州生物医药与健康研究院 基于dna自组装的非酶snp检测方法

Also Published As

Publication number Publication date
CN103593659A (zh) 2014-02-19

Similar Documents

Publication Publication Date Title
CN103593659B (zh) 一种针对二倍体PCR产物的Sanger测序中个体内SNP的识别方法
Redd et al. Peopling of Sahul: mtDNA variation in aboriginal Australian and Papua New Guinean populations
CN104603284B (zh) 利用基因组测序片段检测拷贝数变异的方法
Yuan et al. Probability theory-based SNP association study method for identifying susceptibility loci and genetic disease models in human case-control data
Chen et al. Enriching the analysis of genomewide association studies with hierarchical modeling
Liang et al. A robust identity-by-descent procedure using affected sib pairs: multipoint mapping for complex diseases
CN106834474A (zh) 利用基因组测序诊断胎儿染色体非整倍性
WO2007115095A2 (en) Systems and methods for using molecular networks in genetic linkage analysis of complex traits
CN107345248A (zh) 基于大数据的基因与位点风险评估方法及其系统
CN101845501A (zh) 一种复杂疾病易感性综合遗传分析方法
Biswas et al. Genome-wide insights into the patterns and determinants of fine-scale population structure in humans
Dudoit et al. A score test for the linkage analysis of qualitative and quantitative traits based on identity by descent data from sib-pairs
CN108913776A (zh) 放化疗损伤相关的dna分子标记的筛选方法和试剂盒
Bradford et al. Patterns of population genetic variation in sympatric chiltoniid amphipods within a calcrete aquifer reveal a dynamic subterranean environment
Elston Major locus analysis for quantitative traits.
Pfeiffer et al. Efficiency of DNA pooling to estimate joint allele frequencies and measure linkage disequilibrium
Shipham et al. Dissection by genomic and plumage variation of a geographically complex hybrid zone between two Australian non-sister parrot species, Platycercus adscitus and Platycercus eximius
Posthuma et al. Mx scripts library: structural equation modeling scripts for twin and family data
US11475980B2 (en) Methods of analyzing massively parallel sequencing data
CN108875307A (zh) 一种基于孕妇外周血中胎儿游离dna的亲子鉴定方法
Chu et al. GeneSpringTM: tools for analyzing microarray expression data
CN103184275A (zh) 一种水稻基因组基因标识的新方法
Luo et al. Estimation of genetic parameters using linkage between a marker gene and a locus underlying a quantitative character in F2 populations
Zheng et al. SVsearcher: A more accurate structural variation detection method in long read data
Cornforth et al. Inferences regarding the numbers and locations of QTLs under multiple-QTL models using interval mapping and composite interval mapping

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160914

Termination date: 20211126