CN110033828B

CN110033828B - 基于芯片检测dna数据的性别判断方法

Info

Publication number: CN110033828B
Application number: CN201910266630.6A
Authority: CN
Inventors: 范操琦
Original assignee: Beijing Gese Technology Co ltd
Current assignee: Beijing Gese Technology Co ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2021-06-18
Anticipated expiration: 2039-04-03
Also published as: CN110033828A

Abstract

本发明公开了一种基于芯片检测DNA数据的性别判断方法，包括以下步骤：选出所有性别相关X和Y染色体上的位点S个，读取P个样本，得到P×S大小矩阵，筛选区分度大的M个位点；对M个位点中的每一个位点，建立逻辑回归模型，自变量为DNA检测红荧光和DNA检测绿荧光数值，因变量取值0或1，代表男性和女性，得到M个回归模型并保存；预测一个新样本时，通过M个位点的逻辑回归模型，得到M个取值在0到1之间的预测值，按照逻辑回归预测值的概率解释，计算最终的概率。该性别判断方法结合X和Y两类染色体的情况，通过机器学习的方法，充分量化，性别判断结果为0‑1区间的数值，能够兼容多种数据情况，针对性别做出更丰富的判断。

Description

基于芯片检测DNA数据的性别判断方法

技术领域

本发明涉及DNA检测技术领域，具体来说，涉及一种基于芯片检测DNA数据的性别判断方法。

背景技术

基于芯片检测DNA数据的性别判断，一般根据DNA数据的X和Y染色体的分型情况。常见的方法有两种：1）只通过X染色体的分型数据，大多数情况下，女性有2条X染色体，分型数据有纯合子、杂合子2种类型，男性有1条X染色体，分型数据只有纯合子1种类型，一般可以通过统计某样本X染色体分型数据的纯合率或者杂合率，确认性别；2）只通过Y染色体的分型数据，大多数情况下，女性没有Y染色体，不该出现Y染色体数据，男性有1条Y染色体，分型数据有纯合子1种类型，一般可以通过统计某样本是否有Y染色体数据，确认性别。

以上2种方法能够判断大多数情况，但是很多异常情况无法识别。比如某些人存在X染色体或Y染色体的异常，会影响判断准确性，此外，以上2种方法是基于传统的统计学，根据经验进行一般判断，无法做出更精准的预测。

发明内容

针对相关技术中的上述技术问题，本发明提出一种基于芯片检测DNA数据的性别判断方法，能够克服现有技术的上述不足。

为实现上述技术目的，本发明的技术方案是这样实现的：

一种基于芯片检测DNA数据的性别判断方法，包括以下步骤：

（1）选出所有性别相关X和Y染色体上的位点S个，读取P个样本，得到P×S大小矩阵；

（2）将红绿荧光强度标准化，其中GrnM为每个样本绿荧光的数值，RedM为每个样本红荧光的数值，GrnM^*为每个样本绿荧光的标准化数值，RedM^*为每个样本红荧光的标准化数值：

GrnM^* = GrnM / mean(GrnM)(每个样本某个位点上绿荧光数值除以所有样本该位点绿荧光数值的均值）；

RedM^* = RedM / mean(RedM)(每个样本某个位点上红荧光数值除以所有样本该位点红荧光数值的均值）；

引入两个新的矩阵：

AbsM = (GrnM^2 + RedM^2)^(0.5)（每个样本某个位点上绿荧光数值的平方加上该样本该位点红荧光数值的平方，然后开方）；

SumM = GrnM + RedM(每个样本某个位点上绿荧光数值加上该样本该位点红荧光数值）；

（3）筛选区分度大的M个位点：我们认为，男女信号的可划分性，基本蕴含在上面四个参数中，因此对步骤（2）中的四个矩阵的每一行做t检验，因变量为0(男)或1(女)，这样对每一个位点都得到4个p值，将每一种参数下p值前X小的位点做并集，得到M个位点；

（4）根据步骤（3）筛选出的M个位点，建立逻辑回归模型：对M个位点中的每一个位点，建立逻辑回归模型，自变量为红荧光和绿荧光数值，因变量取值0(男)或1(女)，这样总共得到M个回归模型，将其保存；

（5）性别判断结论呈现：预测一个新样本时，通过步骤（4）建立的M个位点的逻辑回归模型，得到M个取值在0到1之间的预测值，将这个长度为M的矩阵命名为values。按照逻辑回归预测值的概率解释，计算最终的概率score：

a) log_ratios = log(values / (1 - values)) (取以e，即自然常数，为底，预测值除以 1 减去预测值的对数），

b) log_ratio = mean(log_ratios)（取上述 a得到概率的平均值），

c) score = exp(log_ratio) / (1 + exp(log_ratio))（自然常数e的log_ratio次方，除以 1 加上自然常数e的log_ratio次方），

score是0-1之间的数值，为样本是女性的概率。

以上在建立模型运算过程中，使用到了R这门语言，上述的一些函数是R的函数，但是整个方法并不局限于R语言，几乎是任何编程语言都可以实现，比如python，Java等。

性别对于基因芯片测序产生的荧光强度的影响是多方面的。首先，对于Y染色体特异性位点，女性样本信号接近背景值。其次，对于X染色体特异性位点，男性样本呈纯合信号，女性样本或者呈杂合信号，或者呈强度较大的纯合信号。再次，对于X和Y同源或高度相似的位点，男性与女性信号各有其复杂分布，但也可能清晰划分。

本模型不具体考虑位点类型，只是选择所有性相关染色体上的位点，对每一个位点，使用P个参考样本（P大于等于100，男女比例接近1:1）在“绿荧光-红荧光”平面上做监督学习，筛选出M个可以清晰划分的位点。对每一个新样本，做N（N≤M）个判断，综合所有判断的结果得出结论。

本发明的有益效果：本发明结合X和Y两类染色体的情况，通过机器学习的方法，充分量化，性别判断结果为0-1区间的数值，能够兼容多种数据情况，针对性别做出更丰富的判断。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是SumM的p值第1000小的位点的原始荧光强度分布情况。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的基于芯片检测DNA数据的性别判断方法不具体考虑位点类型，只是选择所有性相关染色体上的位点，对每一个位点，使用209个参考样本在绿-红平面上做监督学习，筛选出1846个可以清晰划分的位点。对每一个新样本，做1846（或N）个判断，综合所有判断的结果得出结论。

具体步骤如下，以下步骤都是基于 R 语言实现：

（1）选出所有性相关染色体上的位点

芯片位点由下面两个文件记录：GSA-24v1-0_A1.csv，in_custom_and_not_in_standard.txt；

使用所有性染色体上的位点，

sex_chrs = c("X", "Y", "XY")

位点所对应的探针编号包含在下面两列，只有少数位点有第二探针：

AddressA_ID，AddressB_ID

总共选出21849个位点。

读取idat文件数据：使用如下函数读取单个idat文件：

illuminaio::readIDAT(file)

其中file参数是字符串格式的文件路径，

返回值的Quants属性是一个矩阵（其中Mean一列表示每个探针的平均荧光强度），共读取209个参考样本（418个文件）

将结果记录在下面两个21849×209的矩阵：

GrnM RedM。

（2）将红绿荧光强度标准化，其中GrnM为每个样本绿荧光的数值，其中RedM为每个样本红荧光的数值：

GrnM^* = GrnM / mean(GrnM)

RedM^* = RedM / mean(RedM)

引入两个新的矩阵

AbsM = (GrnM^2 + RedM^2)^(0.5)

SumM = GrnM + RedM。

（3）筛选区分度最大的1846个位点：我们认为，男女信号的可划分性，基本蕴含在上面四个参数，因此对步骤（2）中的四个矩阵的每一行做t检验，因变量为0（男）或1（女）。这样对每一个位点都得到4个p值。

将每一种参数下p值前1000小的位点做并集，得到1846个位点，SumM的p值第1000小的位点的原始荧光强度分布情况如图1所示。

（4）逻辑回归模型

对1846个位点中的每一个，使用如下函数建立逻辑回归模型：

glm(Y~Grn + Red, family = binomial)

其中Y取值0（男）或1（女），函数返回“glm”型的回归模型，这样总共得到1846个回归模型，它们被保存在model.RData里。

（5）性别判断结论

预测一个新样本时，通过步骤（4）建立的1846个位点的逻辑回归模型，得到1846个取值在0到1之间的预测值，这个长度为1846的向量被命名为values。如果按照逻辑回归的预测值的概率解释，最终概率score应该这样计算：

log_ratios = log(values / (1 - values))

log_ratio = sum(log_ratios)

score = exp(log_ratio) / (1 + exp(log_ratio))

然而这样得到的结果太过于接近0或1，可能在E-100000量级

因此这里将第二步替换为

log_ratio = mean(log_ratios)

这样得到的结果依然接近0或1（因为判断性别的把握确实很高），但是在R所能记录数字的范围内。同时也相当于综合1846次判断所做出的相当保守的结论。

判断举例以R软件为例

需要先在R中安装illuminaio包。

在R中载入已经训练好的模型——model.RData文件:

load(“model.RData”)

判断一个样本的性别时，调用sex函数:

sex(grn,red,N)

grn和red是字符串，分别代表绿色和红色荧光对应的idat文件路径。

N为可选参数，是判断性别时所使用的位点数量，取值在1到M之间，默认使用全部位点。调节N的数值可以减少运行时间。

个人笔记本判断一个样本，N不同取值对应的参考运行时间如下：

N	1	5	10	50	100	500	1000	1846
									t(s)	4	4	5	7	9	26	48	86

sex函数的返回值是一个实数，取值在0到1之间，可以解读为样本是女性的概率,但实际上还要保守许多（更接近0.5）。N=10的时候的测试结果判断准确率基本为100%。

采用本发明的基于芯片检测DNA数据的性别判断方法，针对5000个合格（位点检出率大于97%）基因检测样本的检测，准确率为99.9%左右。

综上所述，借助于本发明的上述技术方案，结合X和Y两类染色体的情况，通过机器学习的方法，充分量化，性别判断结果为0-1区间的数值，能够兼容多种数据情况，针对性别做出更丰富的判断。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于芯片检测DNA数据的性别判断方法，其特征在于，包括以下步骤：

（1）选出所有性别相关X和Y染色体上的位点S个，读取P个样本，得到染色体位点与样本数目形成的矩阵；

（2）将 DNA 检测得到的红绿荧光强度标准化，其中GrnM为每个样本绿荧光的数值，RedM为每个样本红荧光的数值，GrnM^*为每个样本绿荧光的标准化数值，RedM^*为每个样本红荧光的标准化数值：

GrnM^* = GrnM / mean(GrnM)，即每个样本某个位点上绿荧光数值除以所有样本该位点绿荧光数值的均值，

RedM^* = RedM / mean(RedM)，即每个样本某个位点上红荧光数值除以所有样本该位点红荧光数值的均值；

引入两个新的矩阵：

AbsM = (GrnM^2 + RedM^2)^(0.5)，即每个样本某个位点上绿荧光数值的平方加上该样本该位点红荧光数值的平方，然后开方，

SumM = GrnM + RedM，即每个样本某个位点上绿荧光数值加上该样本该位点红荧光数值；

（3）筛选M个位点：对步骤(2)中的GrnM^*、RedM^*、AbsM、SumM矩阵的每一行做t检验，因变量为0或1，代表男性和女性，对每一个位点都得到4个p值，将每一种参数下p值前X小的位点做并集，得到M个位点；

（4）根据步骤（3）得到的M个位点，建立逻辑回归模型：对M个位点中的每一个位点，建立逻辑回归模型，自变量为红荧光和绿荧光数值，因变量取值0或1，得到M个回归模型并保存；

（5）性别判断结论呈现：预测一个新样本时，通过步骤（4）建立的M个位点的逻辑回归模型，得到M个取值在0到1之间的预测值，将这个长度为M的矩阵命名为values，按照逻辑回归预测值的概率解释，计算最终的概率score：

a)log_ratios = log(values / (1 - values))，即取以自然常数e为底，预测值除以1 减去预测值的对数；

b)log_ratio = mean(log_ratios)，即取上述 a）得到概率的平均值；

c)score = exp(log_ratio) / (1 + exp(log_ratio))，即自然常数e的log_ratio次方，除以 1 加上自然常数e的log_ratio次方，score是0-1之间的数值，为样本是女性的概率；

其中，mean是求平均值的函数，p值为一种判定假设检验结果的参数，就是当原假设为真时，比所得到的样本观察结果更极端的结果出现的概率，p值越小，表明结果越显著。

2.根据权利要求1所述的基于芯片检测DNA数据的性别判断方法，其特征在于，步骤（4）建立逻辑回归模型的运算过程中使用的语言为R语言、python、Java中的一种。