CN110033828B - 基于芯片检测dna数据的性别判断方法 - Google Patents

基于芯片检测dna数据的性别判断方法 Download PDF

Info

Publication number
CN110033828B
CN110033828B CN201910266630.6A CN201910266630A CN110033828B CN 110033828 B CN110033828 B CN 110033828B CN 201910266630 A CN201910266630 A CN 201910266630A CN 110033828 B CN110033828 B CN 110033828B
Authority
CN
China
Prior art keywords
values
sample
sites
value
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910266630.6A
Other languages
English (en)
Other versions
CN110033828A (zh
Inventor
范操琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gese Technology Co ltd
Original Assignee
Beijing Gese Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gese Technology Co ltd filed Critical Beijing Gese Technology Co ltd
Priority to CN201910266630.6A priority Critical patent/CN110033828B/zh
Publication of CN110033828A publication Critical patent/CN110033828A/zh
Application granted granted Critical
Publication of CN110033828B publication Critical patent/CN110033828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于芯片检测DNA数据的性别判断方法,包括以下步骤:选出所有性别相关X和Y染色体上的位点S个,读取P个样本,得到P×S大小矩阵,筛选区分度大的M个位点;对M个位点中的每一个位点,建立逻辑回归模型,自变量为DNA检测红荧光和DNA检测绿荧光数值,因变量取值0或1,代表男性和女性,得到M个回归模型并保存;预测一个新样本时,通过M个位点的逻辑回归模型,得到M个取值在0到1之间的预测值,按照逻辑回归预测值的概率解释,计算最终的概率。该性别判断方法结合X和Y两类染色体的情况,通过机器学习的方法,充分量化,性别判断结果为0‑1区间的数值,能够兼容多种数据情况,针对性别做出更丰富的判断。

Description

基于芯片检测DNA数据的性别判断方法
技术领域
本发明涉及DNA检测技术领域,具体来说,涉及一种基于芯片检测DNA数据的性别判断方法。
背景技术
基于芯片检测DNA数据的性别判断,一般根据DNA数据的X和Y染色体的分型情况。常见的方法有两种:1)只通过X染色体的分型数据,大多数情况下,女性有2条X染色体,分型数据有纯合子、杂合子2种类型,男性有1条X染色体,分型数据只有纯合子1种类型,一般可以通过统计某样本X染色体分型数据的纯合率或者杂合率,确认性别;2)只通过Y染色体的分型数据,大多数情况下,女性没有Y染色体,不该出现Y染色体数据,男性有1条Y染色体,分型数据有纯合子1种类型,一般可以通过统计某样本是否有Y染色体数据,确认性别。
以上2种方法能够判断大多数情况,但是很多异常情况无法识别。比如某些人存在X染色体或Y染色体的异常,会影响判断准确性,此外,以上2种方法是基于传统的统计学,根据经验进行一般判断,无法做出更精准的预测。
发明内容
针对相关技术中的上述技术问题,本发明提出一种基于芯片检测DNA数据的性别判断方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种基于芯片检测DNA数据的性别判断方法,包括以下步骤:
(1)选出所有性别相关X和Y染色体上的位点S个,读取P个样本,得到P×S大小矩阵;
(2)将红绿荧光强度标准化,其中GrnM为每个样本绿荧光的数值,RedM为每个样本红荧光的数值,GrnM*为每个样本绿荧光的标准化数值,RedM*为每个样本红荧光的标准化数值:
GrnM* = GrnM / mean(GrnM)(每个样本某个位点上绿荧光数值除以所有样本该位点绿荧光数值的均值);
RedM* = RedM / mean(RedM)(每个样本某个位点上红荧光数值除以所有样本该位点红荧光数值的均值);
引入两个新的矩阵:
AbsM = (GrnM^2 + RedM^2)^(0.5)(每个样本某个位点上绿荧光数值的平方加上该样本该位点红荧光数值的平方,然后开方);
SumM = GrnM + RedM(每个样本某个位点上绿荧光数值加上该样本该位点红荧光数值);
(3)筛选区分度大的M个位点:我们认为,男女信号的可划分性,基本蕴含在上面四个参数中,因此对步骤(2)中的四个矩阵的每一行做t检验,因变量为0(男)或1(女),这样对每一个位点都得到4个p值,将每一种参数下p值前X小的位点做并集,得到M个位点;
(4)根据步骤(3)筛选出的M个位点,建立逻辑回归模型:对M个位点中的每一个位点,建立逻辑回归模型,自变量为红荧光和绿荧光数值,因变量取值0(男)或1(女),这样总共得到M个回归模型,将其保存;
(5)性别判断结论呈现:预测一个新样本时,通过步骤(4)建立的M个位点的逻辑回归模型,得到M个取值在0到1之间的预测值,将这个长度为M的矩阵命名为values。按照逻辑回归预测值的概率解释,计算最终的概率score:
a) log_ratios = log(values / (1 - values)) (取以e,即自然常数,为底,预测值除以 1 减去预测值的对数),
b) log_ratio = mean(log_ratios)(取上述 a得到概率的平均值),
c) score = exp(log_ratio) / (1 + exp(log_ratio))( 自然常数e的log_ratio次方,除以 1 加上自然常数e的log_ratio次方),
score是0-1之间的数值,为样本是女性的概率。
以上在建立模型运算过程中,使用到了R这门语言,上述的一些函数是R的函数,但是整个方法并不局限于R语言,几乎是任何编程语言都可以实现,比如python,Java等。
性别对于基因芯片测序产生的荧光强度的影响是多方面的。首先,对于Y染色体特异性位点,女性样本信号接近背景值。其次,对于X染色体特异性位点,男性样本呈纯合信号,女性样本或者呈杂合信号,或者呈强度较大的纯合信号。再次,对于X和Y同源或高度相似的位点,男性与女性信号各有其复杂分布,但也可能清晰划分。
本模型不具体考虑位点类型,只是选择所有性相关染色体上的位点,对每一个位点,使用P个参考样本(P大于等于100,男女比例接近1:1)在“绿荧光-红荧光”平面上做监督学习,筛选出M个可以清晰划分的位点。对每一个新样本,做N(N≤M)个判断,综合所有判断的结果得出结论。
本发明的有益效果:本发明结合X和Y两类染色体的情况,通过机器学习的方法,充分量化,性别判断结果为0-1区间的数值,能够兼容多种数据情况,针对性别做出更丰富的判断。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是SumM的p值第1000小的位点的原始荧光强度分布情况。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的基于芯片检测DNA数据的性别判断方法不具体考虑位点类型,只是选择所有性相关染色体上的位点,对每一个位点,使用209个参考样本在绿-红平面上做监督学习,筛选出1846个可以清晰划分的位点。对每一个新样本,做1846(或N)个判断,综合所有判断的结果得出结论。
具体步骤如下,以下步骤都是基于 R 语言实现:
(1)选出所有性相关染色体上的位点
芯片位点由下面两个文件记录:GSA-24v1-0_A1.csv,in_custom_and_not_in_standard.txt;
使用所有性染色体上的位点,
sex_chrs = c("X", "Y", "XY")
位点所对应的探针编号包含在下面两列,只有少数位点有第二探针:
AddressA_ID,AddressB_ID
总共选出21849个位点。
读取idat文件数据:使用如下函数读取单个idat文件:
illuminaio::readIDAT(file)
其中file参数是字符串格式的文件路径,
返回值的Quants属性是一个矩阵(其中Mean一列表示每个探针的平均荧光强度),共读取209个参考样本(418个文件)
将结果记录在下面两个21849×209的矩阵:
GrnM RedM。
(2)将红绿荧光强度标准化,其中GrnM为每个样本绿荧光的数值,其中RedM为每个样本红荧光的数值:
GrnM* = GrnM / mean(GrnM)
RedM* = RedM / mean(RedM)
引入两个新的矩阵
AbsM = (GrnM^2 + RedM^2)^(0.5)
SumM = GrnM + RedM。
(3)筛选区分度最大的1846个位点:我们认为,男女信号的可划分性,基本蕴含在上面四个参数,因此对步骤(2)中的四个矩阵的每一行做t检验,因变量为0(男)或1(女)。这样对每一个位点都得到4个p值。
将每一种参数下p值前1000小的位点做并集,得到1846个位点,SumM的p值第1000小的位点的原始荧光强度分布情况如图1所示。
(4)逻辑回归模型
对1846个位点中的每一个,使用如下函数建立逻辑回归模型:
glm(Y~Grn + Red, family = binomial)
其中Y取值0(男)或1(女),函数返回“glm”型的回归模型,这样总共得到1846个回归模型,它们被保存在model.RData里。
(5)性别判断结论
预测一个新样本时,通过步骤(4)建立的1846个位点的逻辑回归模型,得到1846个取值在0到1之间的预测值,这个长度为1846的向量被命名为values。如果按照逻辑回归的预测值的概率解释,最终概率score应该这样计算:
log_ratios = log(values / (1 - values))
log_ratio = sum(log_ratios)
score = exp(log_ratio) / (1 + exp(log_ratio))
然而这样得到的结果太过于接近0或1,可能在E-100000量级
因此这里将第二步替换为
log_ratio = mean(log_ratios)
这样得到的结果依然接近0或1(因为判断性别的把握确实很高),但是在R所能记录数字的范围内。同时也相当于综合1846次判断所做出的相当保守的结论。
判断举例以R软件为例
需要先在R中安装illuminaio包。
在R中载入已经训练好的模型——model.RData文件:
load(“model.RData”)
判断一个样本的性别时,调用sex函数:
sex(grn,red,N)
grn和red是字符串,分别代表绿色和红色荧光对应的idat文件路径。
N为可选参数,是判断性别时所使用的位点数量,取值在1到M之间,默认使用全部位点。调节N的数值可以减少运行时间。
个人笔记本判断一个样本,N不同取值对应的参考运行时间如下:
N 1 5 10 50 100 500 1000 1846
t(s) 4 4 5 7 9 26 48 86
sex函数的返回值是一个实数,取值在0到1之间,可以解读为样本是女性的概率,但实际上还要保守许多(更接近0.5)。N=10的时候的测试结果判断准确率基本为100%。
采用本发明的基于芯片检测DNA数据的性别判断方法,针对5000个合格(位点检出率大于97%)基因检测样本的检测,准确率为99.9%左右。
综上所述,借助于本发明的上述技术方案,结合X和Y两类染色体的情况,通过机器学习的方法,充分量化,性别判断结果为0-1区间的数值,能够兼容多种数据情况,针对性别做出更丰富的判断。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于芯片检测DNA数据的性别判断方法,其特征在于,包括以下步骤:
(1)选出所有性别相关X和Y染色体上的位点S个,读取P个样本,得到染色体位点与样本数目形成的矩阵;
(2)将 DNA 检测得到的红绿荧光强度标准化,其中GrnM为每个样本绿荧光的数值,RedM为每个样本红荧光的数值,GrnM*为每个样本绿荧光的标准化数值,RedM*为每个样本红荧光的标准化数值:
GrnM* = GrnM / mean(GrnM),即每个样本某个位点上绿荧光数值除以所有样本该位点绿荧光数值的均值,
RedM* = RedM / mean(RedM),即每个样本某个位点上红荧光数值除以所有样本该位点红荧光数值的均值;
引入两个新的矩阵:
AbsM = (GrnM^2 + RedM^2)^(0.5),即每个样本某个位点上绿荧光数值的平方加上该样本该位点红荧光数值的平方,然后开方,
SumM = GrnM + RedM,即每个样本某个位点上绿荧光数值加上该样本该位点红荧光数值;
(3)筛选M个位点:对步骤(2)中的GrnM*、RedM*、AbsM、SumM矩阵的每一行做t检验,因变量为0或1,代表男性和女性,对每一个位点都得到4个p值,将每一种参数下p值前X小的位点做并集,得到M个位点;
(4)根据步骤(3)得到的M个位点,建立逻辑回归模型:对M个位点中的每一个位点,建立逻辑回归模型,自变量为红荧光和绿荧光数值,因变量取值0或1,得到M个回归模型并保存;
(5)性别判断结论呈现:预测一个新样本时,通过步骤(4)建立的M个位点的逻辑回归模型,得到M个取值在0到1之间的预测值,将这个长度为M的矩阵命名为values,按照逻辑回归预测值的概率解释,计算最终的概率score:
a)log_ratios = log(values / (1 - values)),即取以自然常数e为底,预测值除以1 减去预测值的对数;
b)log_ratio = mean(log_ratios),即取上述 a)得到概率的平均值;
c)score = exp(log_ratio) / (1 + exp(log_ratio)),即自然常数e的log_ratio次方,除以 1 加上自然常数e的log_ratio次方,score是0-1之间的数值,为样本是女性的概率;
其中,mean是求平均值的函数,p值为一种判定假设检验结果的参数,就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率,p值越小,表明结果越显著。
2.根据权利要求1所述的基于芯片检测DNA数据的性别判断方法,其特征在于,步骤(4)建立逻辑回归模型的运算过程中使用的语言为R语言、python、Java中的一种。
CN201910266630.6A 2019-04-03 2019-04-03 基于芯片检测dna数据的性别判断方法 Active CN110033828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910266630.6A CN110033828B (zh) 2019-04-03 2019-04-03 基于芯片检测dna数据的性别判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910266630.6A CN110033828B (zh) 2019-04-03 2019-04-03 基于芯片检测dna数据的性别判断方法

Publications (2)

Publication Number Publication Date
CN110033828A CN110033828A (zh) 2019-07-19
CN110033828B true CN110033828B (zh) 2021-06-18

Family

ID=67237245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910266630.6A Active CN110033828B (zh) 2019-04-03 2019-04-03 基于芯片检测dna数据的性别判断方法

Country Status (1)

Country Link
CN (1) CN110033828B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793641B (zh) * 2021-09-29 2023-11-28 苏州赛美科基因科技有限公司 一种从fastq文件中快速判断样本性别的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003008963A1 (en) * 2001-07-18 2003-01-30 University Of Louisville Research Foundation, Inc. E-genechip online web service for data mining bioinformatics
WO2003046217A2 (fr) * 2001-11-26 2003-06-05 Commissariat A L'energie Atomique Puce a adn universelle, son procede de fabrication, et utilisations de la puce
TW200525149A (en) * 2004-01-20 2005-08-01 Uni President Entpr Corp A kind of easy method to detect markers for alcohol-induced damage in the liver
CN104169929A (zh) * 2013-09-10 2014-11-26 深圳华大基因科技有限公司 用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质
CN104968800A (zh) * 2012-08-30 2015-10-07 普莱梅沙有限公司 检测染色体异常的方法
CN107202893A (zh) * 2016-03-16 2017-09-26 广州高通生物技术有限公司 一种小分子芯片、其构建方法、其应用及其检测方法
CN108517363A (zh) * 2018-03-08 2018-09-11 深圳华大法医科技有限公司 一种基于二代测序的个体识别体系、试剂盒及其用途
CN108604258A (zh) * 2016-01-20 2018-09-28 伊万基因诊断中心有限公司 染色体异常判断方法
CN109239363A (zh) * 2018-10-22 2019-01-18 西北大学 一种凝集素探针组合在基于尿蛋白糖型鉴别秦岭川金丝猴性别方面的应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI417541B (zh) * 2010-05-13 2013-12-01 Fooyin University Hospital Automatic array chip detection device

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003008963A1 (en) * 2001-07-18 2003-01-30 University Of Louisville Research Foundation, Inc. E-genechip online web service for data mining bioinformatics
WO2003046217A2 (fr) * 2001-11-26 2003-06-05 Commissariat A L'energie Atomique Puce a adn universelle, son procede de fabrication, et utilisations de la puce
TW200525149A (en) * 2004-01-20 2005-08-01 Uni President Entpr Corp A kind of easy method to detect markers for alcohol-induced damage in the liver
CN104968800A (zh) * 2012-08-30 2015-10-07 普莱梅沙有限公司 检测染色体异常的方法
CN104169929A (zh) * 2013-09-10 2014-11-26 深圳华大基因科技有限公司 用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质
CN108604258A (zh) * 2016-01-20 2018-09-28 伊万基因诊断中心有限公司 染色体异常判断方法
CN107202893A (zh) * 2016-03-16 2017-09-26 广州高通生物技术有限公司 一种小分子芯片、其构建方法、其应用及其检测方法
CN108517363A (zh) * 2018-03-08 2018-09-11 深圳华大法医科技有限公司 一种基于二代测序的个体识别体系、试剂盒及其用途
CN109239363A (zh) * 2018-10-22 2019-01-18 西北大学 一种凝集素探针组合在基于尿蛋白糖型鉴别秦岭川金丝猴性别方面的应用

Also Published As

Publication number Publication date
CN110033828A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
Bertorelle et al. Genetic load: genomic estimates and applications in non-model animals
Hozé et al. High-density marker imputation accuracy in sixteen French cattle breeds
Thornton et al. Progress and prospects in mapping recent selection in the genome
Newton et al. Parametric empirical Bayes methods for microarrays
Miao et al. Optimising the identification of causal variants across varying genetic architectures in crops
Gobena et al. Population structure and genomic breed composition in an angus–brahman crossbred cattle population
CN113519028A (zh) 用于估算或预测基因型和表型的方法和组成
CN110033828B (zh) 基于芯片检测dna数据的性别判断方法
Huang et al. Performing parentage analysis in the presence of inbreeding and null alleles
Trenkel et al. Methods for identifying and interpreting sex‐linked SNP markers and carrying out sex assignment: application to thornback ray (Raja clavata)
Chen et al. Genetic footprint of population fragmentation and contemporary collapse in a freshwater cetacean
de Souza Fonseca et al. Retelling the recent evolution of genetic diversity for Guzerá: Inferences from LD decay, runs of homozygosity and Ne over the generations
Botelho et al. Applying an association weight matrix in weighted genomic prediction of boar taint compounds
Winn et al. Profiling of Fusarium head blight resistance QTL haplotypes through molecular markers, genotyping-by-sequencing, and machine learning
Biscarini et al. Use of SNP genotypes to identify carriers of harmful recessive mutations in cattle populations
Berger et al. A scale-corrected comparison of linkage disequilibrium levels between genic and non-genic regions
Hagenblad et al. Chevalier barley: The influence of a world‐leading malting variety
Sudrajad et al. Genomic structure of Bali cattle based on linkage disequilibrium and effective population size analyses using 50K single nucleotide polymorphisms data
Song et al. G× EBLUP: A novel method for exploring genotype by environment interactions and genomic prediction
Kasarda et al. Classification of cattle breeds based on the random forest approach
Whalen et al. Evolving SNP panels for genomic prediction
Sung et al. A genome‐wide association study of multiple longitudinal traits with related subjects
Lusk et al. Evaluation of Population Characteristic Differences between the Largemouth Bass and Its Backcross Following a Long‐Term Florida Bass Stocking Effort
Atefi et al. Accuracy of genomic prediction under different genetic architectures and estimation methods
Laseca et al. Reproductive traits in Pura Raza Española mares manifest inbreeding depression from low levels of homozygosity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant