CN113066529B

CN113066529B - 基于全外显子数据的近亲家系鉴定方法、装置及设备

Info

Publication number: CN113066529B
Application number: CN202110325633.XA
Authority: CN
Inventors: 陈俭海
Original assignee: West China Hospital of Sichuan University
Current assignee: West China Hospital of Sichuan University
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2023-08-18
Anticipated expiration: 2041-03-26
Also published as: CN113066529A

Abstract

本发明涉及一种基于全外显子数据的近亲家系鉴定方法、装置及设备，属于医学鉴定技术领域，该方法包括：获取样品基因组DNA的外显子序列，并对外显子序列进行预设步骤的处理，获取每个样本基因组DNA对应的基因分型结果；基于基因分型结果，利用预设工具，获取ROH数据；以及，基于基因分型结果，利用预设工具，获取近交系数；根据ROH数据和近交系数，获取样品是否属于近亲家系的估计结果。本发明利用罕见疾病通常更容易来自近亲家系隐性纯合的特点，通过整合全外显子测序数据的两个遗传参数(近交系数与ROH)来快速鉴别未知样本是否属于近亲家系，本发明操作简便快速，可以迅速分离鉴定目标样品。

Description

基于全外显子数据的近亲家系鉴定方法、装置及设备

技术领域

本发明属于医学鉴定技术领域，具体涉及一种基于全外显子数据的近亲家系鉴定方法、装置及设备。

背景技术

近年来，随着测序技术的发展和价格的降低，全外显子测序技术(Whole-exome-sequencing,WES)越来越多地被应用于医院临床罕见疾病监测和变异筛查等领域。在临床检测过程中，由于大部分功能变异都集中于外显子序列中，且外显子测序更容易检测到罕见变异，因此大量的历史样品或信息不详的样品可以通过该技术获得高深度的功能突变数据。

但是，由于测序样品记录信息不全或者记录的丢失，导致很多罕见疾病的先证者样品信息不明。同时，目前已有的变异分析过程，如BWA比对+GATK变异挖掘+ANNOVAR变异和表型注释的经典方法，存在过分依赖于医院临床记录的问题。在实际操作过程中，临床记录往往作为唯一表型依据，缺乏对信息不详样本的遗传背景鉴定。这一现状，造成部分珍贵疾病样品由于信息不明确无法应用于后续分析研究，导致了样品的浪费和研究经费的损失。

发明内容

为了至少解决上述技术问题，本发明提供了一种基于全外显子数据的近亲家系鉴定方法、装置及设备，以实现利用罕见疾病通常更容易来自近亲家系隐性纯合的特点，通过整合全外显子测序数据的两个遗传参数(近交系数与ROH)来快速鉴别未知样本是否属于近亲家系，本发明操作简便快速，可以迅速分离鉴定目标样品。

本发明提供的技术方案如下：

一方面，一种基于全外显子数据的近亲家系鉴定方法，包括：

获取样品基因组DNA的外显子序列，并对所述外显子序列进行预设步骤的处理，获取每个样本基因组DNA对应的基因分型结果；

基于所述基因分型结果，利用预设工具，计算ROH数据；以及，基于所述基因分型结果，利用预设工具，计算近交系数；

根据所述ROH数据和所述近交系数，获取样品是否属于近亲家系的估计结果。

可选的，所述根据所述ROH数据和所述近交系数，获取样品是否属于近亲家系的估计结果，包括：

根据ROH片段数量、ROH片段大小、近交系数，分别与标准对照组进行对比；

获取样品是否属于近亲家系的估计结果。

可选的，所述获取样品是否属于近亲家系的估计结果，包括：

当所述ROH片段数量、ROH片段大小、近交系数，均高于所述标准对照组的数据时，鉴定对应的所述样品属于近亲家系。

若所述ROH片段数量、ROH片段大小、近交系数中，有两个参数高于所述标准对照组的数据时，则鉴定对应的所述样品属于近亲家系的可能性为70％；

若所述ROH片段数量、ROH片段大小、近交系数中，有两个及以上参数低于所述标准对照组的数据时，则鉴定对应的所述样品属于非近亲家系。

可选的，所述获取样品基因组DNA的外显子序列，并对所述外显子序列进行预设步骤的处理，获取每个样本基因组DNA对应的基因分型结果，包括：

提取生物学样本，通过测序平台，获取测序原始数据；

使用fastp软件对所述原始数据进行质量控制，获得过滤后的数据；

基于所述过滤后的数据，使用bwa的mem算法以及samtools软件获得比对文件，利用gatk4的标记重复算法对bam文件中的重复序列进行标记；

使用gatk对标记好重复序列的bam文件进行碱基质量校正，获取碱基质量校正数据；

基于所述碱基质量校正数据，利用gatk的HaplotypeCaller来获得每个生物学样本的变异，得到gvcf文件；

利用gatk的GatherVcfs功能合并多个样本的gvcf文件，获取合并文件；

基于所述合并文件，利用gatk的GenotypeGVCFs功能对多样本的变异信息进行基因分型；

利用gatk的VariantRecalibrator模块对基因分型的原始结果进行变异结果校正，获取每个样本基因组DNA对应的基因分型结果。

又一方面，一种基于全外显子数据的近亲家系鉴定装置，包括：获取模块、计算模块和估计模块；

所述获取模块，用于获取样品基因组DNA的外显子序列，并对所述外显子序列进行预设步骤的处理，获取每个样本基因组DNA对应的基因分型结果；

所述计算模块，用于基于所述基因分型结果，利用预设工具，计算ROH数据；以及，基于所述基因分型结果，利用预设工具，计算近交系数；

所述估计模块，用于根据所述ROH片段数量、ROH片段大小和所述近交系数，获取样品是否属于近亲家系的估计结果。

可选的，所述估计模块，用于根据ROH片段数量、ROH片段大小、近交系数，分别与标准对照组进行对比；获取样品是否属于近亲家系的估计结果。

可选的，所述估计模块，用于当所述ROH片段数量、ROH片段大小、近交系数，均高于所述标准对照组的数据时，鉴定对应的所述样品属于近亲家系。

可选的，所述估计模块，用于若所述ROH片段数量、ROH片段大小、近交系数中，有两个参数高于所述标准对照组的数据时，则鉴定对应的所述样品属于近亲家系的可能性为70％；若所述ROH片段数量、ROH片段大小、近交系数中，有两个及以上参数低于所述标准对照组的数据时，则鉴定对应的所述样品属于非近亲家系。

又一方面，一种基于全外显子数据的近亲家系鉴定设备，包括：处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行上述任一项所述的基于全外显子数据的近亲家系鉴定方法；

所述处理器用于调用并执行所述存储器中的所述计算机程序。

本发明的有益效果为：

本发明实施例提供的基于全外显子数据的近亲家系鉴定方法、装置及设备，该方法包括：获取样品基因组DNA的外显子序列，并对外显子序列进行预设步骤的处理，获取每个样本基因组DNA对应的基因分型结果；基于基因分型结果，利用预设工具，计算ROH数据；以及，基于基因分型结果，利用预设工具，计算近交系数；根据ROH数据和近交系数，获取样品是否属于近亲家系的估计结果。本发明利用罕见疾病通常更容易来自近亲家系隐性纯合的特点，通过整合全外显子测序数据的两个遗传参数(近交系数与ROH)来快速鉴别未知样本是否属于近亲家系，本发明操作简便快速，可以迅速分离鉴定目标样品。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于全外显子数据的近亲家系鉴定方法的流程示意图；

图2为本发明实施例提供的一种ROH片段数量比较示意图；

图3为本发明实施例提供的一种ROH片段大小比较示意图；

图4为本发明实施例提供的一种近交系数比较示意图；

图5为本发明实施例提供的一种三项参数综合分析示意图；

图6为本发明实施例提供的一种基于全外显子数据的近亲家系鉴定装置的结构示意图；

图7为本发明实施例提供的一种基于全外显子数据的近亲家系鉴定设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

为了至少解决本发明中提出的技术问题，本发明实施例提供一种基于全外显子数据的近亲家系鉴定方法。

图1为本发明实施例提供的一种基于全外显子数据的近亲家系鉴定方法的流程示意图，如图1所示，本发明实施例提供的方法，可以包括以下步骤：

S11、获取样品基因组DNA的外显子序列，并对外显子序列进行预设步骤的处理，获取每个样本基因组DNA对应的基因分型结果。

现有基因组测序技术包括覆盖全基因组所有区域的测序技术以及只捕获目标区域的测序技术。前者可以测定全部的基因组，后者主要测定一些研究者关心的特定区域。全外显子测序技术(Whole-exome sequencing,WES，简称全外)属于目标区域测序技术，该技术由于测序价格较为便宜、测序深度较高，因此，具备将其应用于疾病基因筛查、致病突变分析鉴定中的特征。

外显子是人类基因组中呈现基因表达的区域；而蛋白编码基因的外显子还会进一步通过mRNA翻译成人体正常生理活动需要的蛋白质。虽然外显子区域仅仅占据全基因组的不到1％，但是研究认为该区域至少包含85％的致病突变。无论是罕见病还是常见疾病，全外显子测序都可以被广泛应用，属于人类疾病筛查和研究中应用频率最高的测序方法。全外显子测序技术经济高效，通过结合目前国际公共数据库正常样品的大量全外显子数据作为对照，可以有效鉴定疾病相关的编码区及UTR区域的变异。主要优势包括：1)直接对蛋白编码区域测序，可以直接找到对蛋白结构产生影响的致病性变异；2)更容易找到罕见变异；

3)费用低且测序速度快。

在一个具体的实现过程中，可以将待检测样本和标准样本做好准备，在待检测样本和标准样本上，应用本申请提供的基于全外显子数据的近亲家系鉴定方法来鉴定待检测样本是否属于近亲家系。

在一些实施例中，可选的，包括：提取生物学样本，通过测序平台，获取测序原始数据；使用fastp软件对原始数据进行质量控制，获得过滤后的数据；基于过滤后的数据，使用bwa的mem算法以及samtools软件获得比对文件，利用gatk4的标记重复算法对bam文件中的重复序列进行标记；使用gatk对标记好重复序列的bam文件进行碱基质量校正，获取碱基质量校正数据；基于碱基质量校正数据，利用gatk的HaplotypeCaller来获得每个生物学样本的变异，得到gvcf文件；利用gatk的GatherVcfs功能合并多个样本的gvcf文件，获取合并文件；基于合并文件，利用gatk的GenotypeGVCFs功能对多样本的变异信息进行基因分型；利用gatk的VariantRecalibrator模块对基因分型的原始结果进行变异结果校正，获取每个样本基因组DNA对应的基因分型结果。

例如，本实施例中，列举一个具体的基于基因组遗传信息的无偏近亲家系估计方法，进行说明。

可以将待检测的生物学样本作为待检测样本，通过测序平台，获得测序原始数据，作为原始数据。

首先使用fastp软件对原始数据进行质量控制，获得过滤后的数据。以下命令中的data指的是将全外数据下机的原始测序结果作为输入数据。以下命令的具体含义是：调用安装好的fastp软件，-w参数设置线程数为10；-i和-I参数分别输入二代全外数据的正向和反向数据的配对数据文件；最后-o和-O参数含义分别为输出过滤后的正向和反向数据的配对数据文件。

具体命令为：

“fastp-w 10-i${data}_1.fastq.gz-I${data}_2.fastq.gz-o${data}_1.fastq.cl.gz-O${data}_2.fastq.cl.gz”。

使用bwa的mem算法以及samtools软件获得比对文件，然后利用gatk4的标记重复算法对bam文件中的重复序列进行标记。以下命令的具体含义是：调用bwa软件的mem模块，-t参数设置线程数；-Ma参数代表为所有单端或未配对的双末端reads以及较短的分裂的reads作次要比对的标记；-Y参数代表将hard clip变为soft clip即显示不匹配的碱基串；-R参数为设置reads标头；$ref代表参考基因组文件；比对后输出文件为.sam格式，再利用samtools软件的view模块将其转化为.bam文件，-Sb合并参数的作用为提高与以前版本的兼容性和输出bam文件。最后调用gatk MarkDuplicatesSpark模块标记重复序列，-I和-O参数分别为输入原始bam文件和输出标记好重复序列的bam文件。

具体命令为：

“bwa mem-t$t-Ma-Y-R"@RG\tID:${i}\tPL:ILLUMINA\tPU:illumina\tLB:${PWD##*/}\tSM:${PWD##*/}"$ref${data}_1.fastq.cl.gz${data}_2.fastq.cl.gz|samtools view-@$t-Sb->$i.bam；gatkMarkDuplicatesSpark-I$i.bam-O$i.mkdup.bam”。

使用gatk对标记好重复序列的bam文件进行碱基质量校正。以下命令具体含义为：调用gatk软件的BaseRecalibrator模块，-R$ref输入人类的参考基因组，结合for循环用法，-I$i输入上述标记过的bam文件，-L../S07604514_Padded.bed代表指定上级目录中的芯片测序区间文件，该文件告知程序只处理全外测序对应的区域，--known-sites参数代表输入已知的高质量变异库，然后-O输出包含所有需要进行重校正的特征值和reads的校准表文件；最后调用gatk ApplyBQSR模块，--bqsr-recal-file利用刚刚输出的校准表文件，--static-quantized-quals使用静态量化质量分数到给定数量的水平(10,20,30)，对bam文件进行碱基质量校正，最终输出高质量的BQSR.*.bam文件。

具体命令为：

“for i in*.mkdup.bam；do(gatk--java-options"-Xmx10G-XX:+UseParallelGC"BaseRecalibrator-L../S07604514_Padded.bed-R$ref-I$i--known-sitesHomo_sapiens_assembly38.known_indels.vcf.gz--known-sitesMills_and_1000G_gold_standard.indels.hg38.vcf.gz--known-sitesHomo_sapiens_assembly38.dbsnp138.vcf-O sorted.markup.recal_data.$i.table；gatk--java-options"-Xmx10G-XX:+UseParallelGC"ApplyBQSR--bqsr-recal-filesorted.markup.recal_data.$i.table-R$ref-I$i-L../S07604514_Padded.bed--static-quantized-quals 10--static-quantized-quals 20--static-quantized-quals 30-OBQSR.$i.bam)；done；”。

利用gatk的HaplotypeCaller来获得每个样本的变异，得到gvcf文件。以下命令的具体含义为:调用gatk HaplotypeCaller模块的-pairHMM算法检测变异，--emit-ref-confidence GVCF将输出文件变为gvcf格式，--native-pair-hmm-threads 2设置2个线程数–O输出包含变异信息的gvcf文件(HC.g.vcf.gz)。

具体命令为：

“gatk--java-options"-Xmx10G-XX:+UseParallelGC"HaplotypeCaller--emit-ref-confidence GVCF-R$ref`ls BQSR*bam|awk'{print"-I"$1}'`-pairHMM AVX_LOGLESS_CACHING-L../S07604514_Padded.bed--native-pair-hmm-threads 2-OHC1.g.vcf.gz”。

利用gatk的GatherVcfs功能合并多个样本的gvcf文件。以下命令的具体含义为：调用gatk的GatherVcfs模块，-R输入参考基因组文件，-I输入上述单个样本的gvcf文件，-O输出多个样本合并的vcf文件，而后调用gatk IndexFeatureFile为该文件建立索引文件。

具体命令为：

“gatk--java-options"-Xmx10G-XX:+UseParallelGC"GatherVcfs-R$ref-IHC1.g.vcf.gz-I HC2.g.vcf.gz-I HC3.g.vcf.gz-O multi.hc.g.vcf.gz；gatkIndexFeatureFile-Imulti.hc.g.vcf.gz”。

利用gatk的GenotypeGVCFs功能对多样本的变异信息进行基因分型。以下命令的具体含义为：调用gatk的GenotypeGVCFs模块，-V输入上述合并后的多样本变异信息文件，-O输出基因分型的原始结果文件。

具体命令为：

“gatk--java-options"-Xmx10G-XX:+UseParallelGC"GenotypeGVCFs-R$ref-Vmult.hc.g.vcf.gz-L S07604514_Padded.bed-O multi.genotype.vcf.gz”。

利用gatk的VariantRecalibrator模块对基因分型的原始结果进行变异结果校正。以下命令的具体含义为：调用gatk的VariantRecalibrator模块，-R输入参考基因组文件，-V输入多样本的基因分型文件，然后结合已知的高质量变异库，-O输出需要校正的SNP变异信息文件；然后利用该SNP变异信息文件在ApplyVQSR模块处理基因分型结果，-O输出SNP的基因分型结果文件。

具体命令为：

“gatk--java-options"-Xmx10G-XX:+UseParallelGC"VariantRecalibrator-R$ref-Vmulti.genotype.vcf.gz--resource:hapmap,known＝false,training＝true,truth＝true,prior＝15.0hapmap_3.3.hg38.vcf.gz--resource:omni,known＝false,training＝true,truth＝false,prior＝12.01000G_omni2.5.hg38.vcf.gz--resource:1000G,known＝false,training＝true,truth＝false,prior＝10.01000G_phase1.snps.high_confidence.hg38.vcf.gz--resource:dbsnp,known＝true,training＝false,truth＝false,prior＝7.0Homo_sapiens_assembly38.dbsnp138.vcf-tranche 100.0-tranche99.9-tranche 99.0-tranche 90.0--an QD-an MQ-an MQRankSum-an ReadPosRankSum-anFS-an SOR-mode SNP-O snp.recal--tranches-file snp.tranches--rscript-filesnp.output.plots.R

gatk--java-options"-Xmx10G-XX:+UseParallelGC"ApplyVQSR-Vmulti.genotype.vcf.gz-Omulti.genotype.vqsr.snp.vcf.gz--recal-file snp.recal--tranches-file snp.tranches-mode SNP--truth-sensitivity-filter-level 99.5--create-output-variant-index true--exclude-filtered”。

S12、基于基因分型结果，利用预设工具，计算ROH数据；以及，基于基因分型结果，利用预设工具，计算近交系数。

例如，利用Plink软件计算ROH片段数量、ROH片段大小和近交系数。下面命令的具体含义为：调用plink软件，-vcf读取上述SNP基因分型文件，--homozyq参数计算ROH片段数量和ROH片段大小，--het参数计算近交系数，--allow-extra-chr代表允许计算非标准染色体编号的序列；最终输出包含ROH片段数量、ROH片段大小和近交系数的文件分别为plink.hom.indiv和plink.het。

具体命令为：

“plink-vcf multi.genotype.vqsr.snp.vcf.gz–homozyg--het--allow-extra-chr”。

S13、根据ROH数据和近交系数，获取样品是否属于近亲家系的估计结果。

在一些实施例中，可选的，包括：根据ROH片段数量、ROH片段大小、近交系数，分别与标准对照组进行对比；获取样品是否属于近亲家系的估计结果。

在一些实施例中，可选的，包括：当ROH片段数量、ROH片段大小、近交系数，均高于标准对照组的数据时，鉴定对应的样品属于近亲家系。

在一些实施例中，可选的，包括：若ROH片段数量、ROH片段大小、近交系数中，有两个参数高于标准对照组的数据时，则鉴定对应的样品属于近亲家系的可能性为70％；若ROH片段数量、ROH片段大小、近交系数中，有两个及以上参数低于标准对照组的数据时，则鉴定对应的样品属于非近亲家系。

例如，对近交系数和ROH进行整合，根据其中的近交系数值F、ROH片段数量以及ROH片段大小三个信息，与正常对照比较作出评估，可以完整地判断样品是否属于近亲家系。

其中，评估设定如下：若三项参数均高于正常对照，则判定样本属于近亲家系；若仅有其中两项参数高于正常对照，则判定样本有70％的可能属于近亲家系；若两个或三个参数低于正常对照，则判定样本属于非近亲家系。

图2为本发明实施例提供的一种ROH片段数量比较示意图；图3为本发明实施例提供的一种ROH片段大小比较示意图；图4为本发明实施例提供的一种近交系数比较示意图。

例如，图2-图4是利用本申请提供的基于全外显子数据的近亲家系鉴定方法对样本进行测试后的结果示意图，参阅图2-图4，近亲家系患者的三项参数(ROH片段数量、ROH片段大小、近交系数)均高于正常对照组。当患者的三项参数均高于正常水平时，鉴定其属于近亲家系。在非近亲家系先证者组中，其中有三位患者的各项参数均高于正常对照组，因此，鉴定这三位患者为近亲家系。

图5为本发明实施例提供的一种三项参数综合分析示意图。

如图5所示，为了更直观地看出每个病患的三项参数与正常对照的比较，将测试数据中每个病患和正常对照的三项参数均整合到图5中，图中虚线代表正常对照的三项指标参考线(三项参数均高于参考线的即被鉴定为近交家系患者)，Number代表ROH数据量，Mb代表ROH片段大小(单位为Mb),1000F代表1000倍近交系数F(校正该参数到1000倍便于作图，方便直观展示)，NA代表非近亲家系先证者，NK代表近亲家系患者，NC代表正常对照。通过测试分析，NA1，NA2，NA3这三位“非近亲家系患者”的三项参数均大于正常对照，因此鉴定出这三位患者的样本信息记录属于记录错误，样本实际来自于近亲家系。

本发明实施例提供的一种基于全外显子数据的近亲家系鉴定方法，包括：获取样品基因组DNA的外显子序列，并对外显子序列进行预设步骤的处理，获取每个样本基因组DNA对应的基因分型结果；基于基因分型结果，利用预设工具，计算ROH片段数量和ROH片段大小；以及，基于基因分型结果，利用预设工具，计算近交系数；根据ROH片段数量、ROH片段大小和近交系数，获取样品是否属于近亲家系的估计结果。本发明利用罕见疾病通常更容易来自近亲家系隐性纯合的特点，通过整合全外显子测序数据的两个遗传参数(近交系数与ROH)来快速鉴别未知样本是否属于近亲家系，本发明操作简便快速，可以迅速分离鉴定目标样品。

基于一个总的发明构思，本发明实施例还提供一种基于全外显子数据的近亲家系鉴定装置。

图6为本发明实施例提供的一种基于全外显子数据的近亲家系鉴定装置的结构示意图。

如图6所示，本发明实施例提供的装置，可以包括以下结构：获取模块61、计算模块62和估计模块63。

获取模块61，用于获取样品基因组DNA的外显子序列，并对外显子序列进行预设步骤的处理，获取每个样本基因组DNA对应的基因分型结果；

计算模块62，用于基于基因分型结果，利用预设工具，计算ROH片段数量和ROH片段大小；以及，基于基因分型结果，利用预设工具，计算近交系数；

估计模块63，用于根据ROH片段数量、ROH片段大小和近交系数，获取样品是否属于近亲家系的估计结果。

可选的，估计模块63，用于根据ROH片段数量、ROH片段大小、近交系数，分别与标准对照组进行对比；获取样品是否属于近亲家系的估计结果。

可选的，估计模块63，用于当ROH片段数量、ROH片段大小、近交系数，均高于标准对照组的数据时，鉴定对应的样品属于近亲家系。

可选的，估计模块63，用于若ROH片段数量、ROH片段大小、近交系数中，有两个参数高于标准对照组的数据时，则鉴定对应的样品属于近亲家系的可能性为70％；若ROH片段数量、ROH片段大小、近交系数中，有两个及以上参数低于标准对照组的数据时，则鉴定对应的样品属于非近亲家系。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供的基于全外显子数据的近亲家系鉴定装置：获取样品基因组DNA的外显子序列，并对外显子序列进行预设步骤的处理，获取每个样本基因组DNA对应的基因分型结果；基于基因分型结果，利用预设工具，获取ROH数据；以及，基于基因分型结果，利用预设工具，获取近交系数；根据ROH数据和近交系数，获取样品是否属于近亲家系的估计结果。本发明利用罕见疾病通常更容易来自近亲家系隐性纯合的特点，通过整合全外显子测序数据的两个遗传参数(近交系数与ROH)来快速鉴别未知样本是否属于近亲家系，本发明操作简便快速，可以迅速分离鉴定目标样品。

基于一个总的发明构思，本发明实施例还提供一种基于全外显子数据的近亲家系鉴定设备。

图7为本发明实施例提供的一种基于全外显子数据的近亲家系鉴定设备结构示意图，请参阅图7，本发明实施例提供的一种基于全外显子数据的近亲家系鉴定设备，包括：处理器71，以及与处理器相连接的存储器72。

存储器72用于存储计算机程序，计算机程序至少用于上述任一实施例记载的基于全外显子数据的近亲家系鉴定方法；

处理器71用于调用并执行存储器中的计算机程序。

本发明实实施例中，对全外显子鉴定致病变异的流程进行简要说明，主要包括以下步骤：

1)提取生物学样本，通过测序平台获得测序原始数据，数据格式为fastq；

2)对原始数据进行数据过滤，去除重复和接头等无效数据；

3)对过滤数据进行参考基因组的比对，主要利用高效的比对软件如BWA，获得bam文件；

4)对比对后的数据进行标记重复工作获得bam文件，主要工具为GATK或者picard；

5)对标记重复后的bam文件进行碱基质量重新校正(BQSR)，该步骤依赖一系列已知的高质量变异库。

6)每一个样本利用GATK的HaplotypeCaller来获得变异，得到gvcf文件。

7)多样品的gvcf文件，进行合并，然后进行基因型确认。

8)对变异进行质控和过滤(VQSR)，该步骤依赖于已知的高质量变异库。

9)根据已知的临床家系表型的记录，尤其是先证者及其父母的基因型信息以及疾病的遗传模式来进行家系共分离分析。

10)根据国际公共数据库进行变异频率的筛选，获得罕见的遗传变异(一般是低于1％)。

12)对变异进行注释，获得对蛋白序列影响较大的变异进行后续分析验证。

以上的分析流程是表型信息明确的病患及其家系的全外显子分析流程，通常该流程只关注致病遗传变异，但该流程不涉及对遗传参数ROH、近交系数的计算分析，因为很难发现隐存的近亲家系后代，所以没有研究关注病患本身的遗传背景。因此，基于全外数据获得近亲家系，目前依然未见方法整合构建以及实际应用，属于盲点。而本申请提供的技术方案，很好地弥补了此盲点。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于全外显子数据的近亲家系鉴定方法，其特征在于，包括：

获取样品基因组DNA的外显子序列，并对所述外显子序列进行预设步骤的处理，获取每个样本基因组DNA对应的基因分型结果，包括：提取生物学样本，通过测序平台，获取测序原始数据；使用fastp软件对所述原始数据进行质量控制，获得过滤后的数据；基于所述过滤后的数据，使用bwa的mem算法以及samtools软件获得比对文件，利用gatk4的标记重复算法对bam文件中的重复序列进行标记；使用gatk对标记好重复序列的bam文件进行碱基质量校正，获取碱基质量校正数据；基于所述碱基质量校正数据，利用gatk的HaplotypeCaller来获得每个生物学样本的变异，得到gvcf文件；利用gatk的GatherVcfs功能合并多个样本的gvcf文件，获取合并文件；基于所述合并文件，利用gatk的GenotypeGVCFs功能对多样本的变异信息进行基因分型；利用gatk的VariantRecalibrator模块对基因分型的原始结果进行变异结果校正，获取每个样本基因组DNA对应的基因分型结果；

基于所述基因分型结果，利用Plink软件计算ROH片段数量、ROH片段大小和近交系数；其中，具体利用het参数计算近交系数；

根据ROH数据和所述近交系数，获取样品是否属于近亲家系的估计结果，包括：根据ROH片段数量、ROH片段大小、近交系数，分别与标准对照组进行对比；获取样品是否属于近亲家系的估计结果。

2.根据权利要求1所述的方法，其特征在于，所述获取样品是否属于近亲家系的估计结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取样品是否属于近亲家系的估计结果，包括：

若所述ROH片段数量、ROH片段大小、近交系数中，有两个参数高于所述标准对照组的数据时，则鉴定对应的样品属于近亲家系的可能性为70％；

若所述ROH片段数量、ROH片段大小、近交系数中，有两个及以上参数低于所述标准对照组的数据时，则鉴定对应的样品属于非近亲家系。

4.一种基于全外显子数据的近亲家系鉴定装置，其特征在于，包括：获取模块、计算模块和估计模块；

所述获取模块，用于获取样品基因组DNA的外显子序列，并对所述外显子序列进行预设步骤的处理，获取每个样本基因组DNA对应的基因分型结果；具体用于提取生物学样本，通过测序平台，获取测序原始数据；使用fastp软件对所述原始数据进行质量控制，获得过滤后的数据；基于所述过滤后的数据，使用bwa的mem算法以及samtools软件获得比对文件，利用gatk4的标记重复算法对bam文件中的重复序列进行标记；使用gatk对标记好重复序列的bam文件进行碱基质量校正，获取碱基质量校正数据；基于所述碱基质量校正数据，利用gatk的HaplotypeCaller来获得每个生物学样本的变异，得到gvcf文件；利用gatk的GatherVcfs功能合并多个样本的gvcf文件，获取合并文件；基于所述合并文件，利用gatk的GenotypeGVCFs功能对多样本的变异信息进行基因分型；利用gatk的VariantRecalibrator模块对基因分型的原始结果进行变异结果校正，获取每个样本基因组DNA对应的基因分型结果；

所述计算模块，用于基于所述基因分型结果，利用Plink软件计算ROH片段数量、ROH片段大小和近交系数；其中，具体利用het参数计算近交系数；

所述估计模块，用于根据ROH数据和所述近交系数，获取样品是否属于近亲家系的估计结果；具体用于根据ROH片段数量、ROH片段大小、近交系数，分别与标准对照组进行对比；获取样品是否属于近亲家系的估计结果。

5.根据权利要求4所述的装置，其特征在于，所述估计模块，用于当所述ROH片段数量、ROH片段大小、近交系数，均高于所述标准对照组的数据时，鉴定对应的所述样品属于近亲家系。

6.根据权利要求5所述的装置，其特征在于，所述估计模块，用于若所述ROH片段数量、ROH片段大小、近交系数中，有两个参数高于所述标准对照组的数据时，则鉴定对应的所述样品属于近亲家系的可能性为70％；若所述ROH片段数量、ROH片段大小、近交系数中，有两个及以上参数低于所述标准对照组的数据时，则鉴定对应的所述样品属于非近亲家系。

7.一种基于全外显子数据的近亲家系鉴定设备，其特征在于，包括：处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行权利要求1～3任一项所述的基于全外显子数据的近亲家系鉴定方法；