CN113793642A

CN113793642A - 一种高通量测序变异风险分组筛选方法及系统

Info

Publication number: CN113793642A
Application number: CN202111212516.9A
Authority: CN
Inventors: 刘洪洲; 喻长顺; 李冬梅; 陈建春; 贾晓冬; 李行
Original assignee: Tianjin Jinyu Medical Laboratory Co ltd
Current assignee: Tianjin Jinyu Medical Laboratory Co ltd
Priority date: 2021-03-15
Filing date: 2021-10-19
Publication date: 2021-12-14
Anticipated expiration: 2041-10-19
Also published as: CN112951329A; CN113793642B

Abstract

本发明提出了一种高通量测序变异风险分组筛选方法及系统，包括：设置致病性高风险的变异筛选条件，按照致病性高风险的变异筛选条件对基因数据进行筛选；设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件，对基因数据进行筛选；设置致病性中高风险的变异筛选条件，对基因数据进行筛选；设置致病性中高风险的常染色体显性遗传的基因变异筛选条件，对基因数据进行筛选；设置致病性中高风险的常染色体隐性遗传且同一基因的筛选条件，对基因数据进行筛选；设置致病性中高风险的性连锁遗传的变异筛条件，对基因数据进行筛选；设置致病性中高风险的认为是致病性变异或可疑致病性变异的筛选条件，对基因数据进行筛选。

Description

一种高通量测序变异风险分组筛选方法及系统

技术领域

本发明涉及高通量测序技术领域，特别涉及一种高通量测序变异风险分组筛选方法及系统。

背景技术

人类核基因相关疾病按遗传方式可分为常染色体显性遗传病(AD遗传)、常染色体隐性遗传病(AR遗传)和性连锁遗传。应用基因测序技术是寻找疾病基因病因的重要手段。

高通量测序技术(High-Throughput Sequencing)又称为下一代测序技术(Next-Generation Sequencing)是基因测序技术的一种，其典型特点是一次可以检测成千上万个基因，与一代测序即Sanger测序一次只能测几百个碱基相比，通过大大增加，同时会产生大量的数据。将产生的数据通过生物信息学的方法注释，即可产生变异注释表。目前，高通量测序技术应用较广的是全外显子组测序，检测大约2万个基因，每个样本的变异注释表数据大约有6万条。

如此巨大的数据信息，几乎不可能人工逐个位点分析。目前独立实验室通常用的方法是按照特定数据库频率、变异类别等自行定义风险。要么筛选后数据量仍然很大，人员要求极高，工作量非常大，要么筛选条件过于苛刻而使风险较高的变异被滤掉了，进而使检出率降低。有公开专利利用特定样本的表型筛选(专利号：CN202010035599.8)，这种筛选方法只能用于特定样本的筛选，特异性高了，但是敏感性降低了。

现有的筛选方法，只是按特定的方式筛选，筛选出来的变异不能兼顾其他方式的筛选，使其他条件下高风险变异漏掉的可能性大大提高，由于不是分组的方式，也无法兼顾其他筛选的逻辑。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种高通量测序变异风险分组筛选方法及系统。

为了实现上述目的，本发明的实施例提供一种高通量测序变异风险分组筛选方法，包括：

步骤S1，设置致病性高风险的变异筛选条件，按照所述致病性高风险的变异筛选条件对基因数据进行筛选；

步骤S2，设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件，对基因数据进行筛选；

步骤S3，设置致病性中高风险的变异筛选条件，对基因数据进行筛选；

步骤S4，设置致病性中高风险的常染色体显性遗传的基因变异筛选条件，对基因数据进行筛选；

步骤S5，设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件，对基因数据进行筛选；

步骤S6，设置致病性中高风险的性连锁遗传的变异筛条件，对基因数据进行筛选；

步骤S7，设置致病性中高风险的认为是致病性变异或可疑致病性变异的，或其他可靠的数据库认为变异是有害的筛选条件，对基因数据进行筛选；

步骤S8，对筛选出的高风险基因进行标记。

进一步，在所述步骤S7中，设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。

本发明还提出一种高通量测序变异风险分组筛选系统，包括：筛选条件设置模块、高风险基因筛选模块和基因标记模块，其中，

所述筛选条件设置模块用于设置致病性高风险的变异筛选条件、设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件、设置致病性中高风险的变异筛选条件、设置致病性中高风险的常染色体显性遗传的基因变异筛选条件、设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件、设置致病性中高风险的性连锁遗传的变异筛条件，以及设置致病性中高风险的认为是致病性变异或可疑致病性变异的，或其他可靠的数据库认为变异是有害的筛选条件；

所述高风险基因筛选模块用于分别根据所述筛选条件设置模块设置的各类条件执行如下筛选动作，包括：

根据设置致病性高风险的变异筛选条件，按照所述致病性高风险的变异筛选条件对基因数据进行筛选；

根据设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件，对基因数据进行筛选；

根据设置致病性中高风险的变异筛选条件，对基因数据进行筛选；

根据设置致病性中高风险的常染色体显性遗传的基因变异筛选条件，对基因数据进行筛选；

根据设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件，对基因数据进行筛选；

根据设置致病性中高风险的性连锁遗传的变异筛条件，对基因数据进行筛选；

根据设置致病性中高风险的认为是致病性变异或可疑致病性变异的，或其他可靠的数据库认为变异是有害的筛选条件，对基因数据进行筛选；

所述基因标记模块用于对所述高风险基因筛选模块筛选出的高风险基因进行标记。

进一步，所述高风险基因筛选模块设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。

根据本发明实施例的高通量测序变异风险分组筛选方法及系统，设定的逻辑系统性地考虑了整体高通量测序变异有害性的风险、不同遗传方式下变异有害性的风险及现有数据库评估变异有害性的风险，使风险筛选细化，创新性地以分组的形式按不同的条件进行变异风险筛选。与现有的筛选相比，本方案筛选条件更有针对性，兼顾了高特异性与高敏感度减小了分析人员的工作负担，提高了效率。本发明采用分组筛选的方法，从不同的角度进行变异高风险筛选，各组相互兼顾，不但可以快速筛选出组内高风险的变异，还大大降低了高风险变异被过滤掉的风险。分组后，各种逻辑清晰，便于分析人员把控变异是否与受检样本相关。本发明可以实现在2分钟内快速准确的从6万条基因中标记出高风险变异基因，大大提高了效率。

本发明将高通量测序变异注释表数据以组为单位筛选出组内高风险变异，综合考虑了实验室自定义的风险级别是高风险变异、Actionable Variants基因变异、不同的遗传方式高风险变异及有可靠的数据库认为变异是有害的等各种因素，这些因素相互补充，使风险筛选变得更加有针对性同时防止高风险的变异漏掉。对全外显子组测序数据来说，每组筛选出来的变异大约平均在50条左右，由于组间筛选出来的变异可能存在相互重叠，合计起来筛选出来的变异大约在300条左右，同时兼有高特异性与高敏感度，有更高的筛选效率。而对于分析人员来说，在分析时只需要考虑单个组的分析，大大降低了分析人员的工作负担。有一些极高风险的变异会在不同的组出现，使在分析过程漏掉的可能性大大降低。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的高通量测序变异风险分组筛选方法的流程图；

图2至图8为根据本发明实施例的高通量测序变异风险分组筛选方法的操作界面图；

图9为根据本发明实施例的高通量测序变异风险分组筛选系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明提供一种高通量测序变异风险分组形式和分组方法。其中，分组形式是指将高通量测序变异分组考虑进行风险筛选；其二，按七组进行分组。本发明采用分组筛选的方法，从不同的角度进行变异高风险筛选，各组相互兼顾，不但可以快速筛选出组内高风险的变异，还大大降低了高风险变异被过滤掉的风险。分组后，各种逻辑清晰，便于分析人员把控变异是否与受检样本相关。

如图1所示，本发明实施例的高通量测序变异风险分组筛选方法，包括如下步骤：

具体的，按以下条件筛选：美国医学遗传学与基因组学学会(ACMG)建议的59个Actionable Variants基因或额外自定义的基因，综合考虑为致病性高风险的变异。(注：缩写为ACT)

具体的，按以下条件筛选：实验室自定义的综合考虑为致病性高风险的变异及人群频率极低的中风险的变异。(注：缩写为H)。人群频度极低可以根据常见遗传病设置，优选0。

步骤S3，设置致病性中高风险的变异筛选条件，对基因数据进行筛选。

具体的，按以下条件筛选：实验室自定义的综合考虑为致病性中高风险的变异。(注：缩写为M)

具体的，按以下条件筛选：实验室自定义的综合考虑为致病性中高风险的常染色体显性遗传的基因变异。(注：缩写为AD)。

具体的，按以下条件筛选：实验室自定义的综合考虑为致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的。(注：缩写为AR)。

具体的，按以下条件筛选：实验室自定义的综合考虑为致病性中高风险的性连锁遗传的变异。(注：缩写为XY)。

在所述步骤S7中，设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。

具体的，按以下条件筛选：实验室自定义的综合考虑为致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异的，或其他可靠的数据库认为变异是有害的。(注：缩写为CD)。

步骤S8，对筛选出的高风险基因进行标记。

按照本发明的方案对数据进行筛选，详细过程如下：

组1(即ACT)，按以下条件筛选：Panel列筛选“ACT”；Risk列筛选“2”。

组2(即H)，按合并以下条件筛选：其一是Risk列筛选“2”，fmax列筛选≤0.4[2](为了防止漏检，门槛值调整至0.4)；其二是Risk列筛选含有“1”或“1.5”或“2”或“1-potential”项，OMIM列筛选“非空项”，fmax列筛选“0”，class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing/N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic；splicing”或“N-exonic；splicing”或“P-nonframeshift”或“D-frameshift”项。

组3(即M)，按以下条件筛选：Risk列筛选“1”或“1.5”或“2”或“1-potential”项，OMIM列筛选“非空项”，0<fmax≦0.001，class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic；splicing”或“N-exonic；splicing”或“P-nonframeshift”或“D-frameshift”项，CLNSIG列筛选“.”或“Conflicting_interpretations_of_pathogenicity\x2c_other”或“association”或“Conflicting_interpretations_of_pathogenicity”或“not_provided”或“drug_response”或“Uncertain_significance”或“Risk_factor”或“protective”或“Affects\x2c_association”或“Likely_pathogenic”或“Affects”或“association\x2c_Risk_factor”或“Pathogenic”或“Pathogenic\x2c_protective”项。

组4(即AD)，按以下条件筛选：Risk列筛选“1”或“1.5”或“2”或“1-potential”，OMIM列筛选“AD”，fmax≦0.05[1]，class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic；splicing”或“N-exonic；splicing”或“P-nonframeshift”或“D-frameshift”项。

组5(即AR)，按合并以下条件筛选：其一是Risk列筛选“1”或“1.5”或“2”或“1-potential项”，OMIM列筛选“AR”，fmax≦0.05，class列筛选“missense”或“P-splicingCandidate”或“D-splicing”或“N-ncRNA_splicing”或“N-ncRNA_exonic”或“N-exonic”或“D-stopgain”或“P-scSNV”或“D-stoploss”或“N-ncRNA_exonic；splicing”或“N-exonic；splicing”或“P-nonframeshift”或“D-frameshift”，前几项筛选后将Gene.refGene项只有一条的项去掉；其二是Risk列筛选“1”或“1.5”或“2”或“1-potential”，OMIM列筛选“AR”，fmax≦0.05，Het/Hom列筛选“Hom”，Chr列筛选不含有“chrX”或“chrY”项。

组6(即XY)，按以下条件筛选：Risk列筛选“1”或“1.5”或“2”或“1-potential”，OMIM列筛选非空项，fmax≦0.05，Het/Hom列筛选“Hom”，Chr列筛选“chrX”或“chrY”。

组7(即CD)，按合并以下条件筛选：其一是Risk列筛选“1”或“1.5”或“2”或“1-potential”，OMIM列筛选“非空项”，fmax≦0.2，HGMD列筛选“非空项”；Risk列筛选“1”或“1.5”或“2”或“1-potential”，OMIM列筛选“非空项，fmax≦0.2，CLNSIG列筛选“Likely_pathogenic”或“Pathogenic”或“Pathogenic\x2c_protective”。

筛选结果如下表1：

表1

下面是对照筛选方式，和本发明的方案不同，没有进行分组风险筛选，筛选过程如下：

筛选条件：Risk列筛选“0.5”或“1”或“1.5”或“2”或“1-potential”，fmax≤0.4。由于没有分组，其他筛选条件不适用。

对于筛选条件，本发明方案和对照方案都是单独考虑了高风险，真阳性数相似，故敏感度相似，但是特异性相差较大。若对照方案额外增加筛选条件，会增加假阴性的概率，进而敏感性降低。

具体实施例1：

本实验室全外显子组测序数据一例，检测的变异位点的数量是59559个，生信注释第一行即表头的标识及表头说明如下：

按照本发明的方案对数据进行筛选，详细过程如下：

筛选结果如下表2：

表2

下面是对照筛选方式，和本发明方案不同，没有进行分组风险筛选，筛选过程如下：

筛选结果如下表3：

原数据条数	对照方法筛选	筛选条数	总筛选条数
				59559	筛选项	1719	1719

表3

对于筛选条件，本发明方案和对照方案都是单独考虑了高风险，真阳性数相似，故敏感度相似，但是特异性相差较大。近似比较如下：

本发明方案：假阳性约为0；真阴性＝原数据条数-专利方案筛选条数＝59269；特异性＝真阴性/(假阳性+真阴性)＝1

对照方案：由于专利方案与对照方案的真阳性数相似，对照方案的假阳性约为：0+(对照方案筛选条数-专利方案筛选条数)＝1429；真阴性＝原数据条数-对照筛选条数＝57840；特异性＝真阴性/(假阳性+真阴性)＝97.59％

本发明方案特异性比对照方案的特异性高2.41％

若对照方案额外增加筛选条件，会增加假阴性的概率，进而敏感性降低。

双击打开dist文件夹下的redot.exe可执行文件，如图2所示。页面第一行内容为该软件的说明(说明：redot是由金域公司开发的一款通用的检测高风险变异基因的软件。)。页面第二行提示输入文件所在路径，用户可以在此处输入或粘贴注释文件的路径和文件名，如图3所示。“Enter”后会打印输入的内容以及下一步需要输入的内容，如图4所示。输入基因注释文件的名称(注意：此处文件的名称应与上一步中的名称一致)，如图5所示。“Enter”后会打印输入的文件名同时程序开始计算结果，如图6所示。程序运行结束后会自动关闭窗口，生成的文件会放在dist文件夹下，如图7所示。生成文件的命名方式为：文件名称+“.”+“redot”+“.”+“日期”+“.”+“后缀”，如“NP23FW0151.XX.redot.20210125.xlsx”。通过redot软件生成的文件中增加了两列“Fast_analysis”和“Element_analysis”，从59238个基因中标记了322个高风险变异的基因，如图8所示。

如图9所示，本发明实施例还提供一种高通量测序变异风险分组筛选系统，包括：筛选条件设置模块1、高风险基因筛选模块2和基因标记模块3。

具体的，筛选条件设置模块1用于设置致病性高风险的变异筛选条件、设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件、设置致病性中高风险的变异筛选条件、设置致病性中高风险的常染色体显性遗传的基因变异筛选条件、设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件、设置致病性中高风险的性连锁遗传的变异筛条件，以及设置致病性中高风险的认为是致病性变异或可疑致病性变异的，或其他可靠的数据库认为变异是有害的筛选条件。

高风险基因筛选模块2用于分别根据筛选条件设置模块1设置的各类条件执行如下筛选动作，包括：

(1)根据设置致病性高风险的变异筛选条件，按照致病性高风险的变异筛选条件对基因数据进行筛选。

具体的，高风险基因筛选模块2按以下条件筛选：美国医学遗传学与基因组学学会(ACMG)建议的59个Actionable Variants基因或额外自定义的基因，综合考虑为致病性高风险的变异。(注：缩写为ACT)

(2)根据设置致病性高风险的变异及人群频率极低的中风险的变异筛选条件，对基因数据进行筛选。

具体的，高风险基因筛选模块2按以下条件筛选：实验室自定义的综合考虑为致病性高风险的变异及人群频率极低的中风险的变异。(注：缩写为H)。人群频度极低可以根据常见遗传病设置，优选0。

(3)根据设置致病性中高风险的变异筛选条件，对基因数据进行筛选。

具体的，高风险基因筛选模块2按以下条件筛选：实验室自定义的综合考虑为致病性中高风险的变异。(注：缩写为M)

(4)根据设置致病性中高风险的常染色体显性遗传的基因变异筛选条件，对基因数据进行筛选。

具体的，高风险基因筛选模块2按以下条件筛选：实验室自定义的综合考虑为致病性中高风险的常染色体显性遗传的基因变异。(注：缩写为AD)。

(5)根据设置致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的筛选条件，对基因数据进行筛选。

具体的，高风险基因筛选模块2按以下条件筛选：实验室自定义的综合考虑为致病性中高风险的常染色体隐性遗传且同一基因的不同变异不少于2个或单一变异是纯合的。(注：缩写为AR)。

(6)根据设置致病性中高风险的性连锁遗传的变异筛条件，对基因数据进行筛选。

具体的，高风险基因筛选模块2按以下条件筛选：实验室自定义的综合考虑为致病性中高风险的性连锁遗传的变异。(注：缩写为XY)。

(7)根据设置致病性中高风险的认为是致病性变异或可疑致病性变异的，或其他可靠的数据库认为变异是有害的筛选条件，对基因数据进行筛选。

具体的，高风险基因筛选模块2设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。

基因标记模块3用于对高风险基因筛选模块筛选出的高风险基因进行标记。

在本发明的实施例中，高风险基因筛选模块2设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种高通量测序变异风险分组筛选方法，其特征在于，包括如下步骤：

步骤S8，对筛选出的高风险基因进行标记。

2.如权利要求1所述的高通量测序变异风险分组筛选方法，其特征在于，在所述步骤S7中，设置致病性中高风险的同时HGMD数据库有数据的或Cl inVar数据库收录认为是致病性变异或可疑致病性变异。

3.一种高通量测序变异风险分组筛选系统，其特征在于，包括：筛选条件设置模块、高风险基因筛选模块和基因标记模块，其中，

4.如权利要求3所述的通量测序变异风险分组筛选系统，其特征在于，所述高风险基因筛选模块设置致病性中高风险的同时HGMD数据库有数据的或ClinVar数据库收录认为是致病性变异或可疑致病性变异。