CN111429966A - 基于稳健线性回归的染色体拷贝数变异判别方法及装置 - Google Patents

基于稳健线性回归的染色体拷贝数变异判别方法及装置 Download PDF

Info

Publication number
CN111429966A
CN111429966A CN202010327775.5A CN202010327775A CN111429966A CN 111429966 A CN111429966 A CN 111429966A CN 202010327775 A CN202010327775 A CN 202010327775A CN 111429966 A CN111429966 A CN 111429966A
Authority
CN
China
Prior art keywords
linear regression
copy number
chromosome
module
residual error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010327775.5A
Other languages
English (en)
Inventor
彭千
周梅华
龚强
余艳
代冰
李慧源
袁悉奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Jinyu Medical Laboratory Co Ltd
Original Assignee
Changsha Jinyu Medical Laboratory Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Jinyu Medical Laboratory Co Ltd filed Critical Changsha Jinyu Medical Laboratory Co Ltd
Priority to CN202010327775.5A priority Critical patent/CN111429966A/zh
Publication of CN111429966A publication Critical patent/CN111429966A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • General Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于稳健线性回归的染色体拷贝数变异判别方法及装置。基于稳健线性回归的染色体拷贝数变异判别方法包括步骤1,对二代测序的原始数据进行筛选;步骤2,采用基于稳健线性回归的方法对数据进行回归预处理;步骤3,回归结果的残差分析。基于稳健线性回归的染色体拷贝数变异判别装置是采用了所述基于稳健线性回归的染色体拷贝数变异判别方法的装置。本发明提供的基于稳健线性回归的染色体拷贝数变异判别方法解决了现有技术的线性回归模型所使用的最小二乘法对离群点的免疫力较差的技术问题。

Description

基于稳健线性回归的染色体拷贝数变异判别方法及装置
技术领域
本发明涉及染色体拷贝数变异的判别领域,具体涉及基于稳健线性回归的染色体拷贝数变异判别方法及装置。
背景技术
线性回归模型常使用普通最小二乘法(ordinary least square),其使用前提之一是随机误差服从正态分布(高斯分布)。但是实验数据是复杂的,不可能完全符合假设。如果在同批次样本中存在异常样本,那么异常样本肯定是一个离群点,普通最小二乘法对这种偏离假设的情况不具备较好的免疫力。当随机误差是非正态分布时,普通最小二乘法估计量会对哪怕少数几个离群点(即异常数据)极度地敏感,对拟合结果产生破坏性的影响,成为很差的估计量。
发明内容
为解决现有技术的线性回归模型所使用的最小二乘法对离群点的免疫力较差的技术问题,本发明提供一种解决上述问题的基于稳健线性回归的染色体拷贝数变异判别方法及装置。
一种基于稳健线性回归的染色体拷贝数变异判别方法,包括步骤1,对二代测序的原始数据进行筛选,具体包括:
步骤1.1,二代测序数据过滤,
与参考基因组进行比对,删除没有比对到参考基因组上的reads,删除次级比对reads,提取比对质量在30以上的reads,提取唯一比对的reads,最后提取比对到常染色体和性染色体上的reads;
步骤1.2,对过滤后的数据进行计数,
将每一样本、每一条染色体上所包含的reads进行计数,并通过得到的reads计算每一条染色体GC含量;
步骤1.3,建立计数矩阵、GC含量矩阵,
按行为不同的样本、列为不同的染色体号的格式,将reads条数、GC含量两项数据构建形成计数矩阵、GC含量矩阵。
步骤2,对数据进行回归预处理,具体包括:
步骤2.1,对于所述计数矩阵A=[Aij]24×n、所述GC含量矩阵B=[Bij]24×n,按顺序提取二者的第k(k∈[1,24])行,分别记作向量Ak、Bk
步骤2.2,对所述Ak、所述Bk建立一般一元线性回归模型
Ak=β01Bk+ek
ek为残差向量
n个样本中的某一项即为向量中的一点m∈[1,n],
Akm=β01Bkm+ekm
则有,
ekm=Akm-(β01Bkm)
使用最小二乘法使得残差平方和
Figure BDA0002463827860000021
最小,继而计算出参数β0与β1
步骤2.3,使用稳健线性回归法在计算残差平方和时引入权重,
Figure BDA0002463827860000022
步骤2.4,采用Huber法,构造“标准化”残差指标μm和残差尺度s,
μkm=ekm/s=0.6745ekm/med(ek-med(ek))
med()为取向量中位数
则权重,
Figure BDA0002463827860000023
步骤2.5,对残差小的点给予较大的权重,对于残差较大的点给予较小的权重,并据此建立加权的最小二乘估计,反复迭代直至权重系数的改变小于允许误差,输出残差向量ek
步骤2.6,将输出的所述残差向量ek带入最小二乘法,计算出最终的参数β0与β1
步骤3,回归结果的残差分析,具体包括:
步骤3.1,由于对于任意一个服从正态分布的随机变量,
ξ~N(μ,σ)
Figure BDA0002463827860000031
Figure BDA0002463827860000032
则有η~N(0,1)
Figure BDA0002463827860000033
因此对于所述残差向量ek,设其对应的随机变量为ξk
ξk~N(0,σ)
Figure BDA0002463827860000034
则有ηk~N(0,1)
Figure BDA0002463827860000035
步骤3.2,采用σk的一个无偏估计,
Figure BDA0002463827860000036
则有,
Figure BDA0002463827860000037
步骤3.3,由此计算出染色体拷贝数变异风险Z值,
Figure BDA0002463827860000038
由于ηk服从标准正态分布,则有P(-3≤ηk≤3)≈99.7%,ηk有99.7%以上的数据理论上分布在[-3,3]之间。因此P(ηk>3)=P(ηk<-3)的概率很小,认为其一般不会发生,认为其是异常样本。
而Zk是ηk一个观测值,因此若Zk>3则认为k号染色很有可能出现多倍体,若Zk<-3则认为k号染色体很有可能出现缺失。
计算常染色体拷贝数变异风险Z值时,不区分性别;计算性染色体拷贝数变异风险Z值时,按照性别分组。分组方式为,使用每个样本Y染色体reads数占其X、Y染色体reads数总和的百分比(Percent-Y)区分男女,
Percent-Y=A24./(A23+A24)
./表示对应元素相除
当Percent-Y小于0.1%,判断为女性,大于则判断为男性。
一种采用了所述基于稳健线性回归的染色体拷贝数变异判别方法的判别装置,包括分别按所述步骤1~所述步骤3运行的筛选模块、预处理模块、分析模块。
其中,所述筛选模块包括按所述步骤1.1~所述步骤1.3运行的过滤模块、计数模块、矩阵构建模块;
所述预处理模块包括按所述步骤2.1~所述步骤2.6运行的向量提取模块、建模模块、权重模块、残差构造模块、加权模块、结果计算模块;
所述分析模块包括按所述步骤3.1~所述步骤3.3运行的随机变量模块、无偏估计模块、变异风险计算模块。
一种存储介质,其中储存了在被执行时会实现所述基于稳健线性回归的染色体拷贝数变异判别方法的步骤的计算机程序。
一种计算机设备,包括处理器和所述存储介质,由所述处理器执行所述存储介质中的所述计算机程序。
相较于现有技术,本发明提供的所述基于稳健线性回归的染色体拷贝数变异判别方法中采用稳健回归抵御异常数据对回归分析的不良影响,获得较好的拟合结果。在方差估计时使用方差的一个无偏估计,当样本量足够大时可以得到准确的估计。
所述基于稳健线性回归的染色体拷贝数变异判别方法不需要与已知的正常样本相比较来计算风险值,一次高通量测序实验可以同时为多个样本测序,可以在没有已知的正常样本作为参考的情况下解决问题。但通常在一次性分析的样本数大于40个时才适合使用。对于性染色体来说,也需要男女两组样本数分别在40例以上才适合。
附图说明
图1是本发明提供的基于稳健线性回归的染色体拷贝数变异判别方法的流程图;
图2是采用了本发明提供的基于稳健线性回归的染色体拷贝数变异判别方法的判别装置的结构示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。
请参阅图1,一种是本发明提供的基于稳健线性回归的染色体拷贝数变异判别方法1的流程图。
所述基于稳健线性回归的染色体拷贝数变异判别方法1包括:
S1,对二代测序的原始数据进行筛选,具体包括:
S1.1,二代测序数据过滤,
与参考基因组进行比对,删除没有比对到参考基因组上的reads,删除次级比对reads,提取比对质量在30以上的reads,提取唯一比对的reads,最后提取比对到常染色体和性染色体上的reads;
S1.2,对过滤后的数据进行计数,
将每一样本、每一条染色体上所包含的reads进行计数,并通过得到的reads计算每一条染色体GC含量;
S1.3,建立计数矩阵、GC含量矩阵,
按行为不同的样本、列为不同的染色体号的格式,将reads条数、GC含量两项数据构建形成计数矩阵、GC含量矩阵,如下表所示,共56组样本,按染色体1~22、性染色体作为23、24排序(为便于展示,计数矩阵1~计数矩阵4实为横向依次连接的同一表格;GC含量矩阵1~GC含量矩阵4实为横向依次连接的同一表格)。
Figure BDA0002463827860000061
Figure BDA0002463827860000071
计数矩阵1
Figure BDA0002463827860000072
Figure BDA0002463827860000081
计数矩阵2
Figure BDA0002463827860000082
Figure BDA0002463827860000091
Figure BDA0002463827860000101
计数矩阵3
Figure BDA0002463827860000102
Figure BDA0002463827860000111
计数矩阵4
Figure BDA0002463827860000112
Figure BDA0002463827860000121
GC含量矩阵1
Figure BDA0002463827860000122
Figure BDA0002463827860000131
Figure BDA0002463827860000141
GC含量矩阵2
Figure BDA0002463827860000142
Figure BDA0002463827860000151
GC含量矩阵3
Figure BDA0002463827860000152
Figure BDA0002463827860000161
GC含量矩阵4
S2,对数据进行回归预处理,具体包括:
S2.1,对于所述计数矩阵A=[Aij]24×56、所述GC含量矩阵B=[Bij]24×56,按顺序提取二者的第k(k∈[1,24])行,分别记作向量Ak、Bk
S2.2,对所述Ak、所述Bk建立一般一元线性回归模型
Ak=β01Bk+ek
ek为残差向量
56个样本中的某一项即为向量中的一点m∈[1,56],
Akm=β01Bkm+ekm
则有,
ekm=Akm-(β01Bkm)
使用最小二乘法使得残差平方和
Figure BDA0002463827860000171
最小,继而计算出参数β0与β1
S2.3,使用稳健线性回归法在计算残差平方和时引入权重,
Figure BDA0002463827860000172
S2.4,采用Huber法,构造“标准化”残差指标μm和残差尺度s,
μkm=ekm/s=0.6745ekm/med(|ek-med(ek)|)
med()为取向量中位数
则权重,
Figure BDA0002463827860000173
S2.5,对残差小的点给予较大的权重,对于残差较大的点给予较小的权重,并据此建立加权的最小二乘估计,反复迭代直至权重系数的改变小于允许误差,输出残差向量ek
S2.6,将输出的所述残差向量ek带入最小二乘法,计算出最终的参数β0与β1
在实际运用过程中,设计程序按上述步骤运行。在输入计数矩阵A=[Aij]24x56,GC含量矩阵B=[Bij]24x56,按顺序提取A,B矩阵的第k(k∈[1,24])行分别记作向量Ak、Bk后,自行运算并输出结果,在此便不再对具体的运算过程进行赘述。
S3,回归结果的残差分析,具体包括:
S3.1,由于对于任意一个服从正态分布的随机变量,
ξ~N(μ,σ)
Figure BDA0002463827860000181
Figure BDA0002463827860000182
则有η~N(0,1)
Figure BDA0002463827860000183
因此对于所述残差向量ek,设其对应的随机变量为ξk
ξk~N(0,σ)
Figure BDA0002463827860000184
则有ηk~N(0,1)
Figure BDA0002463827860000185
S3.2,采用σk的一个无偏估计,
Figure BDA0002463827860000186
则有,
Figure BDA0002463827860000187
S3.3,由此计算出染色体拷贝数变异风险Z值,
Figure BDA0002463827860000188
在实际运用过程中,设计程序按上述步骤运行。输入稳健线性回归确定的残差后,自行运算并输出染色体风险Z值,如下表所示(为便于展示,以下4个表格实为横向依次连接的同一表格):
Figure BDA0002463827860000191
Figure BDA0002463827860000201
表1
Figure BDA0002463827860000202
Figure BDA0002463827860000211
表2
Figure BDA0002463827860000212
Figure BDA0002463827860000221
Figure BDA0002463827860000231
表3
Figure BDA0002463827860000232
Figure BDA0002463827860000241
表4
相较于现有技术,本发明提供的所述基于稳健线性回归的染色体拷贝数变异判别方法中采用稳健回归抵御异常数据对回归分析的不良影响,获得较好的拟合结果。在方差估计时使用方差的一个无偏估计,当样本量足够大时可以得到准确的估计。所述基于稳健线性回归的染色体拷贝数变异判别方法不需要与已知的正常样本相比较来计算风险值,一次高通量测序实验可以同时为多个样本测序,可以在没有已知的正常样本作为参考的情况下解决问题。
请参阅图2,是基于稳健线性回归的染色体拷贝数变异判别装置2的结构示意图。所述基于稳健线性回归的染色体拷贝数变异判别装置2包括分别按所述S1~所述S3的步骤运行的:
筛选模块21,用于对二代测序的原始数据进行筛选;
预处理模块22,用于对数据进行回归预处理;
分析模块23,用于回归结果的残差分析。
所述筛选模块21包括按所述S1.1~所述S1.3运行的:
过滤模块211,用于二代测序数据过滤;
计数模块212,用于对过滤后的数据进行计数;
矩阵构建模块213,用于建立计数矩阵、GC含量矩阵。
所述预处理模块22包括按所述S2.1~所述S2.6运行的:
向量提取模块221,用于顺序提取所述计数矩阵A=[Aij]24×56、所述GC含量矩阵B=[Bij]24×56的第k(k∈[1,24])行,形成向量Ak、Bk
建模模块222,用于以下计算:
对所述Ak、所述Bk建立一般一元线性回归模型,
Ak=β01Bk+ek
ek为残差向量
56个样本中的某一项即为向量中的一点m∈[1,56],
Akm=β01Bkm+ekm
则有,
ekm=Akm-(β01Bkm)
使用最小二乘法使得残差平方和
Figure BDA0002463827860000251
最小,最终计算出参数β0与β1
权重模块223,用于以下计算:
使用稳健线性回归法在计算残差平方和时引入权重,
Figure BDA0002463827860000252
残差构造模块224,用于采用Huber法,构造“标准化”残差指标μm和残差尺度s,
μkm=ekm/s=0.6745ekm/med(|ek-med(ek)|)
med()为取向量中位数
则权重,
Figure BDA0002463827860000261
加权模块225,用于对残差小的点给予较大的权重,对于残差较大的点给予较小的权重,并据此建立加权的最小二乘估计,反复迭代直至权重系数的改变小于允许误差,输出残差向量ek
结果计算模块226,用于将输出的所述残差向量ek带入最小二乘法,计算出最终的参数β0与β1
所述分析模块23包括按所述S3.1~所述S3.3运行的:
随机变量模块231,用于以下计算:
对于任意一个服从正态分布的随机变量,
ξ~N(μ,σ)
Figure BDA0002463827860000262
Figure BDA0002463827860000263
则有η~N(0,1)
Figure BDA0002463827860000264
因此对于所述残差向量ek,设其对应的随机变量为ξk
ξk~N(0,σ)
Figure BDA0002463827860000265
则有ηk~N(0,1)
Figure BDA0002463827860000266
无偏估计模块232,用于以下计算:
采用σk的一个无偏估计,
Figure BDA0002463827860000267
则有,
Figure BDA0002463827860000268
变异风险计算模块233,用于计算出染色体拷贝数变异风险Z值,
Figure BDA0002463827860000271
如上文所述,在实际运用过程中,设计在被执行时会实现所述基于稳健线性回归的染色体拷贝数变异判别方法1的步骤的计算机程序。基于此,本申请还提供一种存储介质,存储有所述计算机程序。
以及一种计算设备,包括处理器和所述存储介质,由所述处理器执行所述存储介质中存储的所述计算机程序。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (10)

1.一种基于稳健线性回归的染色体拷贝数变异判别方法,包括步骤1,对二代测序的原始数据进行筛选;步骤2,对数据进行回归预处理;步骤3,回归结果的残差分析,其特征在于,所述步骤2中采用基于稳健线性回归的数据预处理,具体包括:
步骤2.1,将n个样本按染色体号分类,形成24组reads条数数据、24组GC含量数据,并分别记为向量Ak、Bk(k∈[1,24]);
步骤2.2,对所述Ak、所述Bk建立一般一元线性回归模型
Ak=β01Bk+ek
ek为残差向量
n个样本中的某一项即为向量中的一点m∈[1,n],
Akm=β01Bkm+ekm
则有,
ekm=Akm-(β01Bkm)
使用最小二乘法使得残差平方和
Figure FDA0002463827850000011
最小,继而计算出参数β0与β1
步骤2.3,使用稳健线性回归法在计算残差平方和时引入权重,
Figure FDA0002463827850000012
步骤2.4,采用Huber法,构造“标准化”残差指标μm和残差尺度s,
μkm=ekm/s=0.6745ekm/med(|ek-med(ek)|)
med()为取向量中位数
则权重,
Figure FDA0002463827850000013
式中ch一般取1.345
步骤2.5,对残差小的点给予较大的权重,对于残差较大的点给予较小的权重,并据此建立加权的最小二乘估计,反复迭代直至权重系数的改变小于允许误差,输出残差向量ek
步骤2.6,将输出的所述残差向量ek带入最小二乘法,计算出最终的参数β0与β1
2.根据权利要求1所述的基于稳健线性回归的染色体拷贝数变异判别方法,其特征在于,所述步骤1具体包括:
步骤1.1,二代测序数据过滤,
与参考基因组进行比对,删除没有比对到参考基因组上的reads,删除次级比对reads,提取比对质量在30以上的reads,提取唯一比对的reads,最后提取比对到常染色体和性染色体上的reads;
步骤1.2,对过滤后的数据进行计数,
将每一样本、每一条染色体上所包含的reads进行计数,并通过得到的reads计算每一条染色体GC含量;
步骤1.3,建立计数矩阵、GC含量矩阵,
按行为不同的样本,列为不同的染色体号的格式,将reads条数、GC含量两项数据构建形成计数矩阵、GC含量矩阵。
3.根据权利要求2所述的基于稳健线性回归的染色体拷贝数变异判别方法,其特征在于,所述步骤2.1具体为:
对于所述计数矩阵A=[Aij]24×n、所述GC含量矩阵B=[Bij]24×n,按顺序提取二者的第k(k∈[1,24])行,分别记作向量Ak、Bk
4.根据权利要求1所述的基于稳健线性回归的染色体拷贝数变异判别方法,其特征在于,所述步骤3具体包括:
步骤3.1,由于对于任意一个服从正态分布的随机变量,
ξ~N(μ,σ)
Figure FDA0002463827850000031
Figure FDA0002463827850000032
则有η~N(0,1)
Figure FDA0002463827850000033
因此对于所述残差向量ek,设其对应的随机变量为ξk
ξk~N(0,σ)
Figure FDA0002463827850000034
则有ηk~N(0,1)
Figure FDA0002463827850000035
步骤3.2,采用σk的一个无偏估计,
Figure FDA0002463827850000036
则有,
Figure FDA0002463827850000037
步骤3.3,由此计算出染色体拷贝数变异风险Z值,
Figure FDA0002463827850000038
5.根据权利要求4所述的基于稳健线性回归的染色体拷贝数变异判别方法,其特征在于:计算常染色体拷贝数变异风险Z值时,不区分性别;计算性染色体拷贝数变异风险Z值时,按照性别分组。
6.根据权利要求5所述的基于稳健线性回归的染色体拷贝数变异判别方法,其特征在于:使用每个样本Y染色体reads数占其X、Y染色体reads数总和的百分比(Percent-Y)区分男女,
Percent-Y=A24./(A23+A24)
./表示对应元素相除
当Percent-Y小于阈值,判断为女性,大于则判断为男性。
7.一种基于稳健线性回归的染色体拷贝数变异判别装置,其特征在于,包括:
筛选模块,对二代测序的原始数据进行筛选;
预处理模块,对二代测序的原始数据进行筛选,具体包括:
向量提取模块,按顺序提取所述计数矩阵A=[Aij]24×n、所述GC含量矩阵B=[Bij]24×n第k(k∈[1,24])行,形成向量Ak、Bk
建模模块,对所述Ak、所述Bk建立一般一元线性回归模型
Ak=β01Bk+ek
ek为残差向量
n个样本中的某一项即为向量中的一点m∈[1,n],
Akm=β01Bkm+ekm
则有,
ekm=Akm-(β01Bkm)
使用最小二乘法使得残差平方和
Figure FDA0002463827850000041
最小,继而计算出参数β0与β1
权重模块,使用稳健线性回归法在计算残差平方和时引入权重,
Figure FDA0002463827850000042
残差构造模块,采用Huber法,构造“标准化”残差指标μm和残差尺度s,
μkm=ekm/s=0.6745ekm/med(ek-med(ek))
med()为取向量中位数
则权重,
Figure FDA0002463827850000043
式中ch一般取1.345
加权模块,对残差小的点给予较大的权重,对于残差较大的点给予较小的权重,并据此建立加权的最小二乘估计,反复迭代直至权重系数的改变小于允许误差,输出残差向量ek
结果计算模块,将输出的所述残差向量ek带入最小二乘法,计算出最终的参数β0与β1
分析模块,对回归结果进行残差分析。
8.根据权利要求7所述的基于稳健线性回归的染色体拷贝数变异判别装置,其特征在于,所述筛选模块具体包括:
过滤模块,对二代测序数据进行过滤,
计数模块,对过滤后的数据进行计数,
矩阵构建模块,建立计数矩阵、GC含量矩阵;
所述分析模块具体包括:
随机变量模块,用于实现以下计算:
对于任意一个服从正态分布的随机变量,
ξ~N(μ,σ)
Figure FDA0002463827850000051
Figure FDA0002463827850000052
则有η~N(0,1)
Figure FDA0002463827850000053
因此对于所述残差向量ek,设其对应的随机变量为ξk
ξk~N(0,σ)
Figure FDA0002463827850000054
则有ηk~N(0,1)
Figure FDA0002463827850000055
无偏估计模块,采用σk的一个无偏估计,
Figure FDA0002463827850000056
则有,
Figure FDA0002463827850000061
变异风险计算模块,计算出染色体拷贝数变异风险Z值,
Figure FDA0002463827850000062
9.一种存储介质,其特征在于:所述存储介质中存储有计算机程序,所述计算机程序在被执行时会实现权利要求1至6任一所述的基于稳健线性回归的染色体拷贝数变异判别方法的步骤。
10.一种计算设备,其特征在于:包括处理器和权利要求9所述的存储介质,所述处理器执行所述计算机程序。
CN202010327775.5A 2020-04-23 2020-04-23 基于稳健线性回归的染色体拷贝数变异判别方法及装置 Pending CN111429966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010327775.5A CN111429966A (zh) 2020-04-23 2020-04-23 基于稳健线性回归的染色体拷贝数变异判别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010327775.5A CN111429966A (zh) 2020-04-23 2020-04-23 基于稳健线性回归的染色体拷贝数变异判别方法及装置

Publications (1)

Publication Number Publication Date
CN111429966A true CN111429966A (zh) 2020-07-17

Family

ID=71554413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010327775.5A Pending CN111429966A (zh) 2020-04-23 2020-04-23 基于稳健线性回归的染色体拷贝数变异判别方法及装置

Country Status (1)

Country Link
CN (1) CN111429966A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104120181A (zh) * 2011-06-29 2014-10-29 深圳华大基因医学有限公司 对染色体测序结果进行gc校正的方法及装置
CN104133914A (zh) * 2014-08-12 2014-11-05 厦门万基生物科技有限公司 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法
CN104204220A (zh) * 2011-12-31 2014-12-10 深圳华大基因医学有限公司 一种遗传变异检测方法
CN104615875A (zh) * 2015-01-27 2015-05-13 中国林业科学研究院资源信息研究所 一种稳健遥感单木冠幅与林木直径回归方法
CN105760712A (zh) * 2016-03-01 2016-07-13 西安电子科技大学 一种基于新一代测序的拷贝数变异检测方法
CN106795551A (zh) * 2014-09-26 2017-05-31 深圳华大基因股份有限公司 单细胞染色体的cnv分析方法和检测装置
CN107622183A (zh) * 2017-08-15 2018-01-23 上海派森诺生物科技股份有限公司 一种基于多重指标的胎儿染色体倍性检测分析方法
CN110129419A (zh) * 2018-12-18 2019-08-16 华联生物科技股份有限公司 拷贝数变异的检测方法
US20190287646A1 (en) * 2018-03-13 2019-09-19 Grail, Inc. Identifying copy number aberrations
CN110993029A (zh) * 2019-12-26 2020-04-10 北京优迅医学检验实验室有限公司 一种检测染色体异常的方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104120181A (zh) * 2011-06-29 2014-10-29 深圳华大基因医学有限公司 对染色体测序结果进行gc校正的方法及装置
CN104204220A (zh) * 2011-12-31 2014-12-10 深圳华大基因医学有限公司 一种遗传变异检测方法
CN104133914A (zh) * 2014-08-12 2014-11-05 厦门万基生物科技有限公司 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法
CN106795551A (zh) * 2014-09-26 2017-05-31 深圳华大基因股份有限公司 单细胞染色体的cnv分析方法和检测装置
CN104615875A (zh) * 2015-01-27 2015-05-13 中国林业科学研究院资源信息研究所 一种稳健遥感单木冠幅与林木直径回归方法
CN105760712A (zh) * 2016-03-01 2016-07-13 西安电子科技大学 一种基于新一代测序的拷贝数变异检测方法
CN107622183A (zh) * 2017-08-15 2018-01-23 上海派森诺生物科技股份有限公司 一种基于多重指标的胎儿染色体倍性检测分析方法
US20190287646A1 (en) * 2018-03-13 2019-09-19 Grail, Inc. Identifying copy number aberrations
CN110129419A (zh) * 2018-12-18 2019-08-16 华联生物科技股份有限公司 拷贝数变异的检测方法
CN110993029A (zh) * 2019-12-26 2020-04-10 北京优迅医学检验实验室有限公司 一种检测染色体异常的方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PAULO REFINETTI, DAVID WARREN, STEPHAN MORGENTHALER & PER O. EKSTRØM: "Quantifying mitochondrial DNA copy number using robust regression to interpret real time PCR results" *
原少斌: "回归分析中异常值诊断方法的比较研究" *
学弱猹: "回归分析|笔记整理(2)——一元线性回归(下)" *
生信菜鸟团: "根据X,Y染色体比对上的reads数来判断性别" *

Similar Documents

Publication Publication Date Title
Daraio et al. Introducing environmental variables in nonparametric frontier models: a probabilistic approach
Bădin et al. Optimal bandwidth selection for conditional efficiency measures: A data-driven approach
Fan et al. Online monitoring of nonlinear multivariate industrial processes using filtering KICA–PCA
Basso et al. Robust mixture modeling based on scale mixtures of skew-normal distributions
Chen et al. Graph-structured multi-task regression and an efficient optimization method for general fused lasso
Yun Prediction model of algal blooms using logistic regression and confusion matrix
Bhat et al. A new approach to specify and estimate non-normally mixed multinomial probit models
Chung et al. Permutation test for heterogeneous treatment effects with a nuisance parameter
Han et al. Control of the false discovery rate under arbitrary covariance dependence
CN110009014A (zh) 一种融合相关系数与互信息的特征选择方法
Mesters et al. Generalized dynamic panel data models with random effects for cross-section and time
Ahmed et al. The performance of robust methods in logistic regression model
Mori et al. A quality relevant non‐Gaussian latent subspace projection method for chemical process monitoring and fault detection
CN110688484A (zh) 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
Huang et al. Computational methods for a copula-based Markov chain model with a binomial time series
CN111429966A (zh) 基于稳健线性回归的染色体拷贝数变异判别方法及装置
CN111612277A (zh) 用于预测行业用电量的空间协同预测方法
Bacallado et al. Looking-backward probabilities for Gibbs-type exchangeable random partitions
Fu et al. Two-sample test for stochastic block models via maximum entry-wise deviation
CN111144910B (zh) 基于模糊熵均值阴影集的招投标“串标、陪标”对象推荐方法及装置
CN110097922B (zh) 基于在线机器学习的Hi-C接触矩阵中层级式TADs差异分析方法
Drees Statistical inference on a changing extreme value dependence structure
Beran On location estimation for LARCH processes
Rao Nonparametric density estimation for functional data by delta sequences
Han et al. Multi-Scale Heterogeneity-Aware Hypergraph Representation for Histopathology Whole Slide Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination