CN111429966A

CN111429966A - 基于稳健线性回归的染色体拷贝数变异判别方法及装置

Info

Publication number: CN111429966A
Application number: CN202010327775.5A
Authority: CN
Inventors: 彭千; 周梅华; 龚强; 余艳; 代冰; 李慧源; 袁悉奥
Original assignee: Changsha Jinyu Medical Laboratory Co Ltd
Current assignee: Changsha Jinyu Medical Laboratory Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-07-17

Abstract

本发明提供一种基于稳健线性回归的染色体拷贝数变异判别方法及装置。基于稳健线性回归的染色体拷贝数变异判别方法包括步骤1，对二代测序的原始数据进行筛选；步骤2，采用基于稳健线性回归的方法对数据进行回归预处理；步骤3，回归结果的残差分析。基于稳健线性回归的染色体拷贝数变异判别装置是采用了所述基于稳健线性回归的染色体拷贝数变异判别方法的装置。本发明提供的基于稳健线性回归的染色体拷贝数变异判别方法解决了现有技术的线性回归模型所使用的最小二乘法对离群点的免疫力较差的技术问题。

Description

基于稳健线性回归的染色体拷贝数变异判别方法及装置

技术领域

本发明涉及染色体拷贝数变异的判别领域，具体涉及基于稳健线性回归的染色体拷贝数变异判别方法及装置。

背景技术

线性回归模型常使用普通最小二乘法(ordinary least square)，其使用前提之一是随机误差服从正态分布(高斯分布)。但是实验数据是复杂的，不可能完全符合假设。如果在同批次样本中存在异常样本，那么异常样本肯定是一个离群点，普通最小二乘法对这种偏离假设的情况不具备较好的免疫力。当随机误差是非正态分布时，普通最小二乘法估计量会对哪怕少数几个离群点(即异常数据)极度地敏感，对拟合结果产生破坏性的影响，成为很差的估计量。

发明内容

为解决现有技术的线性回归模型所使用的最小二乘法对离群点的免疫力较差的技术问题，本发明提供一种解决上述问题的基于稳健线性回归的染色体拷贝数变异判别方法及装置。

一种基于稳健线性回归的染色体拷贝数变异判别方法，包括步骤1，对二代测序的原始数据进行筛选，具体包括：

步骤1.1，二代测序数据过滤，

与参考基因组进行比对，删除没有比对到参考基因组上的reads，删除次级比对reads，提取比对质量在30以上的reads，提取唯一比对的reads，最后提取比对到常染色体和性染色体上的reads；

步骤1.2，对过滤后的数据进行计数，

将每一样本、每一条染色体上所包含的reads进行计数，并通过得到的reads计算每一条染色体GC含量；

步骤1.3，建立计数矩阵、GC含量矩阵，

按行为不同的样本、列为不同的染色体号的格式，将reads条数、GC含量两项数据构建形成计数矩阵、GC含量矩阵。

步骤2，对数据进行回归预处理，具体包括：

步骤2.1，对于所述计数矩阵A＝[A_ij]_24×n、所述GC含量矩阵B＝[B_ij]_24×n，按顺序提取二者的第k(k∈[1，24])行，分别记作向量A_k、B_k。

步骤2.2，对所述A_k、所述B_k建立一般一元线性回归模型

A_k＝β₀+β₁B_k+e_k

e_k为残差向量

n个样本中的某一项即为向量中的一点m∈[1，n]，

A_km＝β₀+β₁B_km+e_km

则有，

e_km＝A_km-(β₀+β₁B_km)

使用最小二乘法使得残差平方和

最小，继而计算出参数β₀与β₁；

步骤2.3，使用稳健线性回归法在计算残差平方和时引入权重，

步骤2.4，采用Huber法，构造“标准化”残差指标μ_m和残差尺度s，

μ_km＝e_km/s＝0.6745e_km/med(e_k-med(e_k))

med()为取向量中位数

则权重，

步骤2.5，对残差小的点给予较大的权重，对于残差较大的点给予较小的权重，并据此建立加权的最小二乘估计，反复迭代直至权重系数的改变小于允许误差，输出残差向量e_k；

步骤2.6，将输出的所述残差向量e_k带入最小二乘法，计算出最终的参数β₀与β₁。

步骤3，回归结果的残差分析，具体包括：

步骤3.1，由于对于任意一个服从正态分布的随机变量，

ξ～N(μ,σ)

令

则有η～N(0,1)

因此对于所述残差向量e_k，设其对应的随机变量为ξ_k，

ξ_k～N(0,σ)

令

则有η_k～N(0,1)

步骤3.2，采用σ_k的一个无偏估计，

则有，

步骤3.3，由此计算出染色体拷贝数变异风险Z值，

由于η_k服从标准正态分布，则有P(-3≤η_k≤3)≈99.7％，η_k有99.7％以上的数据理论上分布在[-3，3]之间。因此P(η_k＞3)＝P(η_k＜-3)的概率很小，认为其一般不会发生，认为其是异常样本。

而Z_k是η_k一个观测值，因此若Z_k＞3则认为k号染色很有可能出现多倍体，若Z_k＜-3则认为k号染色体很有可能出现缺失。

计算常染色体拷贝数变异风险Z值时，不区分性别；计算性染色体拷贝数变异风险Z值时，按照性别分组。分组方式为，使用每个样本Y染色体reads数占其X、Y染色体reads数总和的百分比(Percent-Y)区分男女，

Percent-Y＝A₂₄./(A₂₃+A₂₄)

./表示对应元素相除

当Percent-Y小于0.1％，判断为女性，大于则判断为男性。

一种采用了所述基于稳健线性回归的染色体拷贝数变异判别方法的判别装置，包括分别按所述步骤1～所述步骤3运行的筛选模块、预处理模块、分析模块。

其中，所述筛选模块包括按所述步骤1.1～所述步骤1.3运行的过滤模块、计数模块、矩阵构建模块；

所述预处理模块包括按所述步骤2.1～所述步骤2.6运行的向量提取模块、建模模块、权重模块、残差构造模块、加权模块、结果计算模块；

所述分析模块包括按所述步骤3.1～所述步骤3.3运行的随机变量模块、无偏估计模块、变异风险计算模块。

一种存储介质，其中储存了在被执行时会实现所述基于稳健线性回归的染色体拷贝数变异判别方法的步骤的计算机程序。

一种计算机设备，包括处理器和所述存储介质，由所述处理器执行所述存储介质中的所述计算机程序。

相较于现有技术，本发明提供的所述基于稳健线性回归的染色体拷贝数变异判别方法中采用稳健回归抵御异常数据对回归分析的不良影响，获得较好的拟合结果。在方差估计时使用方差的一个无偏估计，当样本量足够大时可以得到准确的估计。

所述基于稳健线性回归的染色体拷贝数变异判别方法不需要与已知的正常样本相比较来计算风险值，一次高通量测序实验可以同时为多个样本测序，可以在没有已知的正常样本作为参考的情况下解决问题。但通常在一次性分析的样本数大于40个时才适合使用。对于性染色体来说，也需要男女两组样本数分别在40例以上才适合。

附图说明

图1是本发明提供的基于稳健线性回归的染色体拷贝数变异判别方法的流程图；

图2是采用了本发明提供的基于稳健线性回归的染色体拷贝数变异判别方法的判别装置的结构示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。

请参阅图1，一种是本发明提供的基于稳健线性回归的染色体拷贝数变异判别方法1的流程图。

所述基于稳健线性回归的染色体拷贝数变异判别方法1包括：

S1，对二代测序的原始数据进行筛选，具体包括：

S1.1，二代测序数据过滤，

S1.2，对过滤后的数据进行计数，

S1.3，建立计数矩阵、GC含量矩阵，

按行为不同的样本、列为不同的染色体号的格式，将reads条数、GC含量两项数据构建形成计数矩阵、GC含量矩阵，如下表所示，共56组样本，按染色体1～22、性染色体作为23、24排序(为便于展示，计数矩阵1～计数矩阵4实为横向依次连接的同一表格；GC含量矩阵1～GC含量矩阵4实为横向依次连接的同一表格)。

计数矩阵1

计数矩阵2

计数矩阵3

计数矩阵4

GC含量矩阵1

GC含量矩阵2

GC含量矩阵3

GC含量矩阵4

S2，对数据进行回归预处理，具体包括：

S2.1，对于所述计数矩阵A＝[A_ij]_24×56、所述GC含量矩阵B＝[B_ij]_24×56，按顺序提取二者的第k(k∈[1，24])行，分别记作向量A_k、B_k。

S2.2，对所述A_k、所述B_k建立一般一元线性回归模型

A_k＝β₀+β₁B_k+e_k

e_k为残差向量

56个样本中的某一项即为向量中的一点m∈[1，56]，

A_km＝β₀+β₁B_km+e_km

则有，

e_km＝A_km-(β₀+β₁B_km)

使用最小二乘法使得残差平方和

最小，继而计算出参数β₀与β₁；

S2.3，使用稳健线性回归法在计算残差平方和时引入权重，

S2.4，采用Huber法，构造“标准化”残差指标μ_m和残差尺度s，

μ_km＝e_km/s＝0.6745e_km/med(|e_k-med(e_k)|)

med()为取向量中位数

则权重，

S2.5，对残差小的点给予较大的权重，对于残差较大的点给予较小的权重，并据此建立加权的最小二乘估计，反复迭代直至权重系数的改变小于允许误差，输出残差向量e_k；

S2.6，将输出的所述残差向量e_k带入最小二乘法，计算出最终的参数β₀与β₁。

在实际运用过程中，设计程序按上述步骤运行。在输入计数矩阵A＝[A_ij]_24x56，GC含量矩阵B＝[B_ij]_24x56，按顺序提取A，B矩阵的第k(k∈[1,24])行分别记作向量A_k、B_k后，自行运算并输出结果，在此便不再对具体的运算过程进行赘述。

S3，回归结果的残差分析，具体包括：

S3.1，由于对于任意一个服从正态分布的随机变量，

ξ～N(μ,σ)

令

则有η～N(0,1)

因此对于所述残差向量e_k，设其对应的随机变量为ξ_k，

ξ_k～N(0,σ)

令

则有η_k～N(0,1)

S3.2，采用σ_k的一个无偏估计，

则有，

S3.3，由此计算出染色体拷贝数变异风险Z值，

在实际运用过程中，设计程序按上述步骤运行。输入稳健线性回归确定的残差后，自行运算并输出染色体风险Z值，如下表所示(为便于展示，以下4个表格实为横向依次连接的同一表格)：

表1

表2

表3

表4

相较于现有技术，本发明提供的所述基于稳健线性回归的染色体拷贝数变异判别方法中采用稳健回归抵御异常数据对回归分析的不良影响，获得较好的拟合结果。在方差估计时使用方差的一个无偏估计，当样本量足够大时可以得到准确的估计。所述基于稳健线性回归的染色体拷贝数变异判别方法不需要与已知的正常样本相比较来计算风险值，一次高通量测序实验可以同时为多个样本测序，可以在没有已知的正常样本作为参考的情况下解决问题。

请参阅图2，是基于稳健线性回归的染色体拷贝数变异判别装置2的结构示意图。所述基于稳健线性回归的染色体拷贝数变异判别装置2包括分别按所述S1～所述S3的步骤运行的：

筛选模块21，用于对二代测序的原始数据进行筛选；

预处理模块22，用于对数据进行回归预处理；

分析模块23，用于回归结果的残差分析。

所述筛选模块21包括按所述S1.1～所述S1.3运行的：

过滤模块211，用于二代测序数据过滤；

计数模块212，用于对过滤后的数据进行计数；

矩阵构建模块213，用于建立计数矩阵、GC含量矩阵。

所述预处理模块22包括按所述S2.1～所述S2.6运行的：

向量提取模块221，用于顺序提取所述计数矩阵A＝[A_ij]_24×56、所述GC含量矩阵B＝[B_ij]_24×56的第k(k∈[1，24])行，形成向量A_k、B_k；

建模模块222，用于以下计算：

对所述Ak、所述Bk建立一般一元线性回归模型，

A_k＝β₀+β₁B_k+e_k

e_k为残差向量

56个样本中的某一项即为向量中的一点m∈[1，56]，

A_km＝β₀+β₁B_km+e_km

则有，

e_km＝A_km-(β₀+β₁B_km)

使用最小二乘法使得残差平方和

最小，最终计算出参数β₀与β₁；

权重模块223，用于以下计算：

使用稳健线性回归法在计算残差平方和时引入权重，

残差构造模块224，用于采用Huber法，构造“标准化”残差指标μ_m和残差尺度s，

μ_km＝e_km/s＝0.6745e_km/med(|e_k-med(e_k)|)

med()为取向量中位数

则权重，

加权模块225，用于对残差小的点给予较大的权重，对于残差较大的点给予较小的权重，并据此建立加权的最小二乘估计，反复迭代直至权重系数的改变小于允许误差，输出残差向量e_k；

结果计算模块226，用于将输出的所述残差向量e_k带入最小二乘法，计算出最终的参数β₀与β₁。

所述分析模块23包括按所述S3.1～所述S3.3运行的：

随机变量模块231，用于以下计算：

对于任意一个服从正态分布的随机变量，

ξ～N(μ,σ)

令

则有η～N(0,1)

因此对于所述残差向量e_k，设其对应的随机变量为ξ_k，

ξ_k～N(0,σ)

令

则有η_k～N(0,1)

无偏估计模块232，用于以下计算：

采用σ_k的一个无偏估计，

则有，

变异风险计算模块233，用于计算出染色体拷贝数变异风险Z值，

如上文所述，在实际运用过程中，设计在被执行时会实现所述基于稳健线性回归的染色体拷贝数变异判别方法1的步骤的计算机程序。基于此，本申请还提供一种存储介质，存储有所述计算机程序。

以及一种计算设备，包括处理器和所述存储介质，由所述处理器执行所述存储介质中存储的所述计算机程序。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种基于稳健线性回归的染色体拷贝数变异判别方法，包括步骤1，对二代测序的原始数据进行筛选；步骤2，对数据进行回归预处理；步骤3，回归结果的残差分析，其特征在于，所述步骤2中采用基于稳健线性回归的数据预处理，具体包括：

步骤2.1，将n个样本按染色体号分类，形成24组reads条数数据、24组GC含量数据，并分别记为向量A_k、B_k(k∈[1，24])；

步骤2.2，对所述A_k、所述B_k建立一般一元线性回归模型

A_k＝β₀+β₁B_k+e_k

e_k为残差向量

n个样本中的某一项即为向量中的一点m∈[1，n]，

A_km＝β₀+β₁B_km+e_km

则有，

e_km＝A_km-(β₀+β₁B_km)

使用最小二乘法使得残差平方和

最小，继而计算出参数β₀与β₁；

μ_km＝e_km/s＝0.6745e_km/med(|e_k-med(e_k)|)

med()为取向量中位数

则权重，

式中c_h一般取1.345

2.根据权利要求1所述的基于稳健线性回归的染色体拷贝数变异判别方法，其特征在于，所述步骤1具体包括：

步骤1.1，二代测序数据过滤，

步骤1.2，对过滤后的数据进行计数，

步骤1.3，建立计数矩阵、GC含量矩阵，

按行为不同的样本，列为不同的染色体号的格式，将reads条数、GC含量两项数据构建形成计数矩阵、GC含量矩阵。

3.根据权利要求2所述的基于稳健线性回归的染色体拷贝数变异判别方法，其特征在于，所述步骤2.1具体为：

对于所述计数矩阵A＝[A_ij]_24×n、所述GC含量矩阵B＝[B_ij]_24×n，按顺序提取二者的第k(k∈[1，24])行，分别记作向量A_k、B_k。

4.根据权利要求1所述的基于稳健线性回归的染色体拷贝数变异判别方法，其特征在于，所述步骤3具体包括：

步骤3.1，由于对于任意一个服从正态分布的随机变量，

ξ～N(μ,σ)

令

则有η～N(0,1)

因此对于所述残差向量e_k，设其对应的随机变量为ξ_k，

ξ_k～N(0,σ)

令

则有η_k～N(0,1)

步骤3.2，采用σ_k的一个无偏估计，

则有，

步骤3.3，由此计算出染色体拷贝数变异风险Z值，

5.根据权利要求4所述的基于稳健线性回归的染色体拷贝数变异判别方法，其特征在于：计算常染色体拷贝数变异风险Z值时，不区分性别；计算性染色体拷贝数变异风险Z值时，按照性别分组。

6.根据权利要求5所述的基于稳健线性回归的染色体拷贝数变异判别方法，其特征在于：使用每个样本Y染色体reads数占其X、Y染色体reads数总和的百分比(Percent-Y)区分男女，

Percent-Y＝A₂₄./(A₂₃+A₂₄)

./表示对应元素相除

当Percent-Y小于阈值，判断为女性，大于则判断为男性。

7.一种基于稳健线性回归的染色体拷贝数变异判别装置，其特征在于，包括：

筛选模块，对二代测序的原始数据进行筛选；

预处理模块，对二代测序的原始数据进行筛选，具体包括：

向量提取模块，按顺序提取所述计数矩阵A＝[A_ij]_24×n、所述GC含量矩阵B＝[B_ij]_24×n第k(k∈[1，24])行，形成向量A_k、B_k，

建模模块，对所述A_k、所述B_k建立一般一元线性回归模型

A_k＝β₀+β₁B_k+e_k

e_k为残差向量

n个样本中的某一项即为向量中的一点m∈[1，n]，

A_km＝β₀+β₁B_km+e_km

则有，

e_km＝A_km-(β₀+β₁B_km)

使用最小二乘法使得残差平方和

最小，继而计算出参数β₀与β₁；

权重模块，使用稳健线性回归法在计算残差平方和时引入权重，

残差构造模块，采用Huber法，构造“标准化”残差指标μ_m和残差尺度s，

μ_km＝e_km/s＝0.6745e_km/med(e_k-med(e_k))

med()为取向量中位数

则权重，

式中c_h一般取1.345

加权模块，对残差小的点给予较大的权重，对于残差较大的点给予较小的权重，并据此建立加权的最小二乘估计，反复迭代直至权重系数的改变小于允许误差，输出残差向量e_k；

结果计算模块，将输出的所述残差向量e_k带入最小二乘法，计算出最终的参数β₀与β₁；

分析模块，对回归结果进行残差分析。

8.根据权利要求7所述的基于稳健线性回归的染色体拷贝数变异判别装置，其特征在于，所述筛选模块具体包括：

过滤模块，对二代测序数据进行过滤，

计数模块，对过滤后的数据进行计数，

矩阵构建模块，建立计数矩阵、GC含量矩阵；

所述分析模块具体包括：

随机变量模块，用于实现以下计算：

对于任意一个服从正态分布的随机变量，

ξ～N(μ,σ)

令

则有η～N(0,1)

因此对于所述残差向量e_k，设其对应的随机变量为ξ_k，

ξ_k～N(0,σ)

令

则有η_k～N(0,1)

无偏估计模块，采用σ_k的一个无偏估计，

则有，

变异风险计算模块，计算出染色体拷贝数变异风险Z值，

9.一种存储介质，其特征在于：所述存储介质中存储有计算机程序，所述计算机程序在被执行时会实现权利要求1至6任一所述的基于稳健线性回归的染色体拷贝数变异判别方法的步骤。

10.一种计算设备，其特征在于：包括处理器和权利要求9所述的存储介质，所述处理器执行所述计算机程序。