CN109686439B

CN109686439B - 遗传病基因检测的数据分析方法、系统及存储介质

Info

Publication number: CN109686439B
Application number: CN201811471387.3A
Authority: CN
Inventors: 黄铨飞; 梁丽丝; 王杨; 陈雨; 朱鹏远
Original assignee: CapitalBio Genomics Co Ltd
Current assignee: CapitalBio Genomics Co Ltd
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2020-08-28
Anticipated expiration: 2038-12-04
Also published as: CN109686439A

Abstract

本发明公开了遗传病基因检测的数据分析方法、系统及存储介质，方法包括：输入受检者的样本信息及测序数据；对测序数据进行生物信息学分析，得到注释结果和统计结果；对统计结果中的质量指标进行质控审核；对通过质控审核的结果进行解读人员和流程分配；确定变异条件因子池并进行变异证据评分，所述变异证据评分用于辅助分析受检者的遗传病变异因素。本发明基于测序数据进行生物信息学分析和质控审核，基于临床表型信息进行解读人员和流程分配，并且通过变异证据评分，实现半自动解读，提高了工作效率；另外，本发明还能够引入一代验证引物数据库，大大节省了引物的设计流程和资源耗费，可广泛用于遗传病基因测序数据分析和解读。

Description

遗传病基因检测的数据分析方法、系统及存储介质

技术领域

本发明涉及数据分析技术领域，尤其是遗传病基因检测的数据分析方法、系统及存储介质。

背景技术

根据世界卫生组织公布的数据，全球已经确认的罕见疾病约有7000种，占人类疾病的10％左右，约80％的罕见病为遗传性疾病。随着分子生物学技术的发展，越来越多的遗传病可以进行诊断，但遗传病涉及多个学科，临床症状复杂，诊断起来较为困难。传统的诊断技术往往存在漏诊、误诊的风险，这可能导致患者错过了最佳治疗时机，而基因检测能够实现遗传病的早诊断、早干预、早治疗。

目前随着遗传病基因检测样本量的不断增加，样本信息及基因检测数据也爆发式增多，由此很容易出现以下问题：1)样本信息或检测数据弄混，导致出错临床检测报告；2)信息可溯源性差；3)基因检测数据需要依赖专业人员手工查询各种数据库和文献，以解读基因突变和受检者临床表型的关联性和致病性，这种分析往往耗费很大量人力和时间；4)遗传病基因检测结果解读后的突变位点一代验证，往往需要设计引物，才能进行验证，而目前很多实验室都是依赖人工设计引物，使得以往积累的引物很难实现再使用，这会导致浪费财力和耗费人力。为此，开发一种能解决上述问题的遗传病基因检测数据分析系统非常有意义。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种效率高的遗传病基因检测的数据分析方法、系统及存储介质。

本发明一方面所采取的技术方案为：

遗传病基因检测的数据分析方法，包括以下步骤：

输入受检者的样本信息及测序数据；

对测序数据进行生物信息学分析，得到注释结果和统计结果；

对统计结果中的质量指标进行质控审核；

对通过质控审核的结果进行解读人员和流程分配；

确定变异条件因子池并进行变异证据评分，所述变异证据评分用于辅助分析受检者的遗传病变异因素。

进一步，所述样本信息包括但不限于样本编号、样本类型、检测项目、受检者姓名、受检者类型、临床表型信息。

进一步，所述对测序数据进行生物信息学分析，得到注释结果和统计结果这一步骤，包括以下步骤：

将测序数据与参考基因组进行比对，根据比对结果进行第一过滤；

对第一过滤后的比对结果进行统计和变异分析，分别获得统计结果和变异分析结果；

对变异分析结果进行第二过滤，对第二过滤后的变异分析结果进行注释，得到注释结果；

所述注释结果包括变异的绝对坐标、核氨酸和氨基酸改变、变异质量得分、疾病数据库和人群频率数据库。

进一步，所述对通过质控审核的结果进行解读人员和流程分配这一步骤，包括以下步骤：

根据临床表型信息进行解读人员分配；

根据临床表型信息进行流程分配，所述流程包括先证者流程和家系流程，其中，所述先证者流程用于分析具有临床表型的患者，所述家系流程用于分析具有临床表型的患者和所述患者的家系成员。

进一步，所述确定变异条件因子池并进行变异证据评分，所述变异证据评分用于辅助分析受检者的遗传病变异因素这一步骤，包括以下步骤：

根据疾病遗传机制原理，确定变异条件因子池；

对变异条件因子池中的因子按级别赋予分值；

依据已知遗传变异因素的样本构建线性加权函数模型；

根据变异条件因子池，利用线性加权函数模型计算待测样本的变异证据评分；

根据变异证据评分，生成受检者的遗传病变异因素。

进一步，所述变异条件因子池包括：临床表型匹配度、突变类型致病性、重点关联基因符合度以及变异质量评估。

进一步，还包括以下步骤：

构建一代验证遗传病变异的引物数据库，根据变异绝对坐标索引引物。

本发明另一方面所采取的技术方案是：

遗传病基因检测的数据分析系统，包括：

数据输入单元，用于输入受检者的样本信息及测序数据；

数据分析单元，用于对测序数据进行生物信息学分析，得到注释结果和统计结果；

数据审核单元，用于对统计结果中的质量指标进行质控审核；

分配单元，用于对通过质控审核的结果进行解读人员和流程分配；

变异证据评分单元，用于确定变异条件因子池并进行变异证据评分，所述变异证据评分用于辅助分析受检者的遗传病变异因素。

进一步，所述系统还包括：

一代验证引物单元，用于构建一代验证遗传病变异的引物数据库，根据变异绝对坐标索引引物。

本发明另一方面所采取的技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的遗传病基因检测的数据分析方法。

本发明的有益效果是：本发明能够基于测序数据进行生物信息学分析和质控审核，基于样本临床表型信息进行解读人员和流程分配，并且能够通过变异证据评分，实现半自动解读，相较于现有的人工检测方法，本发明大大提高了工作效率。

附图说明

图1为本发明实施例的步骤流程图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明实施例提供了一种遗传病基因检测的数据分析方法，包括以下步骤：

输入受检者的样本信息及测序数据；

对统计结果中的质量指标进行质控审核；

对通过质控审核的结果进行解读人员和流程分配；

进一步作为优选的实施方式，所述样本信息包括但不限于样本编号、样本类型、检测项目、受检者姓名、受检者类型、临床表型信息。

进一步作为优选的实施方式，所述对测序数据进行生物信息学分析，得到注释结果和统计结果这一步骤，包括以下步骤：

进一步作为优选的实施方式，所述对通过质控审核的结果进行解读人员和流程分配这一步骤，包括以下步骤：

根据临床表型信息进行解读人员分配；

进一步作为优选的实施方式，所述确定变异条件因子池并进行变异证据评分，所述变异证据评分用于辅助分析受检者的遗传病变异因素这一步骤，包括以下步骤：

根据疾病遗传机制原理，确定变异条件因子池；

对变异条件因子池中的因子按级别赋予分值；

依据已知遗传变异因素的样本构建线性加权函数模型；

根据变异证据评分，生成受检者的遗传病变异因素。

进一步作为优选的实施方式，所述变异条件因子池包括：临床表型匹配度、突变类型致病性、重点关联基因符合度以及变异质量评估。

进一步作为优选的实施方式，还包括以下步骤：

与图1的方法相对应，本发明实施例还提供了一种遗传病基因检测的数据分析系统，包括：

数据输入单元，用于输入受检者的样本信息及测序数据；

进一步作为优选的实施方式，所述系统还包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的遗传病基因检测的数据分析方法。

与图1的方法相对应，本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的遗传病基因检测的数据分析方法。

下面详细描述本发明遗传病基因检测的数据分析方法的实现步骤：

S1、数据输入。

具体地，本实施例通过设置数据输入单元，在数据输入单元中，可以录入或通过excel表格批量导入受检者的样本信息；样本信息包括受检者姓名，性别，年龄，受检者类型(包括确诊患者、疑似患者、表现正常人群、其它人群)，临床表型信息，样本编号，采样日期，收样日期，样本类型(包括外周血、干血斑、唾液采集管、口腔拭子、基因组DNA、羊水和血浆等)，检测项目以及送检地区等信息；

在数据输入单元中，导入下机的测序数据，用于下一步数据分析。

可选地，在数据输入单元中，根据样本编号，可以录入或批量导入实验数据，实验数据包括：“DNA提取”步骤中的样本量；“文库构建”中的样本标签和文库编号；“文库定量”步骤中的文库浓度和文库质量评价；“上机测序”中的测序仪器；以及上述各个步骤的操作人员及操作日期，方便对每一步进行溯源分析。

S2、数据分析。

具体地，本实施例通过设置数据分析单元，在获取到测序数据之后，进入数据分析单元。在此单元中，提前将生物信息学分析流程写入测序仪器服务器插件中，本发明只需依据不同检测项目，选择相应的插件，数据会自动在后台分析，然后将最终注释结果和统计结果上传到检测数据分析系统。

其中，所述生物信息学分析步骤包括以下方面：

(1)、通过TMAP软件将下机的测序数据与hg19参考基因组比对，根据比对结果进行过滤(即第一过滤)，去除低质量reads；

(2)、利用TVC(Torrent Variant Caller)软件进行统计和分析变异，按照预设的标准参数配置条件，获得统计结果和变异分析结果；

(3)、对变异分析结果进行过滤(即第二过滤)，过滤参数主要涉及到突变频率，测序深度，链的偏好性和多聚结构等方面；对过滤后的变异分析结果进行注释，注释主要采用ANNOVAR软件，注释信息包括：变异的绝对坐标、核氨酸和氨基酸改变、变异质量得分、疾病数据库和人群频率数据库。

S3、数据审核。

具体地，本实施例设置了数据审核单元，用于对数据分析单元上传到系统的结果进行质量质控，根据统计结果中的质量指标进行质控，质量指标选自Reads、Q20、平均深度、深度≥1、深度≥10、深度≥20、深度≥50。如质控通过，则该受检者的样本信息、统计结果、注释结果均会流传到分配单元和变异证据评分单元；如质控不合格，则该受检者的相关信息不会流传到下一个模块，需要重新实验，重新测序，并将测序数据重新载入数据输入单元，可选的，将实验数据载入数据输入单元，直到数据质控审核通过。

S4、人员和流程分配。

具体地，本实施例设置了分配单元，用于接收经数据审核单元质控合格的受检者相关数据，分配单元包括解读人员分配模块和流程分配模块。

解读人员分配模块，用于根据受检者的临床表型信息进行解读人员分配，以满足样品量增多时，需要依据不同的检测项目，分配给不同的解读人员的需求，并且可以实现合理统筹检测项目，溯源解读人员。

流程分配模块，包括先证者流程和家系流程。其中，先证者流程用于分析只检测有临床表型的患者(即先证者)；家系流程用于分析检测有临床表型的患者和家系成员，只需输入患者和家系成员的样本名称或样本编号，便可在检测报告单元中同时展示检测结果，利于提高解读效率。

可选地，分配单元中能够展示受检者样本信息，如“样本编号”、“样本名称”、“临床表型信息”、“检测项目”等；用于分配人员明确受检者的基本情况。

S5、变异证据评分。

具体地，本实施例设置了变异证据评分单元，其中，本实施例通过变异证据评分单元存储了基因变异信息、疾病信息、表型筛选、重点关注基因、变异证据评分、内部变异数据库、软件预测信息、人群频率信息以及变异质控信息等模块。本实施例将变异证据评分单元中的所有的信息，展示在一个界面上，然后按照变异证据打分值的高低排序，分数越高，表示该变异是受检者患病的遗传因素的可能性越高，进而形成半自动化的解读提示，便于解读人员迅速锁定可疑变异信息，大大提高了解读效率，节省了人工时间。

此外，本实施例依据疾病遗传方式，将遗传模式划分为“隐性纯合”、“隐性杂合”、“显性杂合”3种模式。解读人员可根据家族史和受检者相关的临床表现，得到待确认的疾病遗传方向，然后选择相应的遗传模式来重点查看该遗传模式下的变异信息，这方案有助于提高解读效率。

再者，本实施例可设置有“是否需要验证”的功能选项，如果解读人员找到和受检者临床表现相关的可疑变异，则勾选相应变异对应的“是否需要验证”选项，则此模块的变异信息数据会流入步骤S6中；如未勾选，则该变异信息数据会流入步骤S7中。

本实施例的变异检测单元包括以下模块：

基因变异信息模块，此模块用于展示受检者的基因变异信息，包括：基因、染色体位置、转录本、外显子/内含子、核氨酸改变、氨基酸改变、突变类型、纯杂合、rs号、ClinVar数据库展示的变异致病等级、PubMed数据库展示的文献信息。

疾病信息模块，此模块用于记录相应变异对应的疾病名称、遗传方式、OMIM ID号，OMIM数据库记录的相应疾病临床表型信息。

表型筛选模块，用于根据受检者临床表型信息，将受检者临床表型信息转成可供数据库识别的表型术语，作为变异证据评分单元中变异证据评分的参数之一。在此模块中，可以以中文或英文形式输入受检者临床表型的关键术语。以中文形式输入时，系统会在后台存储的CHPO数据库中进行模糊匹配，输出相关词条下拉框，点击选择最优的词条。以英文形式输入时，系统会在后台存储的HPO和OMIM数据库汇总进行模糊匹配，输出相关词条下拉框，点击选择最优的词条。英文表型筛选最优的原则有以下两种：1、将英文引号中输入的词组作为整体来进行检索，(比如“Impaired night vision”)；2、使用AND/OR以定义多词查询，(比如“Impaired night vision”OR“Reduced peripheral vision”)。

重点关注基因模块，用于根据受检者临床表型信息，输入受检者临床表型相关的疑似基因，作为变异证据评分单元中变异证据评分的参数之一。输入的基因必须是在相应检测项目包含的基因，如不在相应检测包含范围内，则提示无效。如存在输入多个基因时，以分号作为分隔符。

变异证据评分模块，此模块用于智能分析样本每个检出突变是受检者临床表现的遗传致病原因的可能性高低。此模块的实现基于线性加权函数模型，其中，线性加权函数的表达式为：Y＝∑WiWj(i＝1，j＝1)，Wi表示各项条件影响变异证据的权重系数，Wj表示影响变异证据的各项条件因子，Y表示变异证据评分值。

本实施例通过分析以往已明确变异致病性的临床案例，依据疾病遗传机制原理，得到主要影响变异证据的条件因子池，这些条件因子主要有：A临床表型匹配度，B突变类型致病性，C重点关联基因符合度，D变异质量评估。将这些条件依据影响变异致病性效果可以划分级别，每个级别对应不同的分值，具体地：

A临床表型匹配度，分为3个条件，全部匹配，等级高，给予1分值；部分匹配，等级中，给予0.5分值；不匹配，等级低，给予0分值。

B突变类型致病性，按照ACMG指南规则和变异类型危害性大小，同样分3个条件，当突变类型为移码缺失、移码插入、无义突变、起始密码子突变、剪接位点突变时，等级为高，给予1分值；当突变类型为非移码缺失、非移码插入、错义突变时，等级为中，给予0.5分值，当突变类型为同义突变、内含子突变、UTR突变时，等级为低，给予0分值。

C重点关联基因符合度，如变异关联的基因匹配到重点关注基因模块的基因时，则认为符合，给予1分值，如变异关联的基因未匹配到重点关注基因模块的基因时，则认为不符合，给予0分值。

D变异质量评估，按照注释结果质量值分为高、中、低3个级别，高级给予1分，中级别给予0.5分，低级别给予0分。

本实施例依据先验大样本量已明确突变致病性的临床案例，按照上述条件对每个条件因子打分，利用这些已明确的变异分值集合，去求解线性加权函数，找到各个条件因子最优的权重系数，得到线性加权函数模型。受检者检出的突变，依据该模型得到相应分值，该模块按照分值高度排列。分值越高提示这个变异是受检者致病原因可能性最高，可形成自动化提示，有助于解读人员更迅速锁定可疑变异，提高解读效率。

内部变异数据库模块，是将以往临床项目已解读分析到的突变解释信息，汇总成一个变异解释数据库，如新检测的样本检出相同变异的时候，可以提示以往的变异解释内容，提高解读效率，节省人工时间。

软件预测信息模块，此模块利用已有的变异软件预测软件SIFT、Polyphen2、LRT、MutationTaster、FATHMM、PROVEAN、VEST3、MetaSVM、M-CAP、CADD，预测该变异影响其蛋白结构/功能可能性大小，从而帮助解读人员分析该变异的致病性。

人群频率信息模块，此模块提示检出的变异在gnomAD、千人数据库、ExAC数据库等正常人群数据库的人群频率值，如果未收录，则提示该变异的致病性可能性高，如人群频率超过经验值0.05，则提示该变异为良性变异。

变异质控信息模块，此模块用于提示该变异是否可靠，是否存在假阳性等。质控信息包括AF值和测序深度。

S6、一代验证。

本实施例可选的设置一代验证引物单元，对经过解读认为需要进行一代验证的变异信息传输到此单元中，此单元引入了引物数据库。引物数据库里面记录了先验设计的变异引物序列相关信息，包括基因、突变位点、染色体位置、前引物序列、后引物序列、引物长度、引物名称、引物染色体位置区域，测序方向以及引物采购时间等。如果需要验证的变异绝对坐标在以往的设计引物区域范围内，则系统会自动提示以往引物设计信息，实验员可以直接使用以往的引物进行验证。如需验证的变异绝对坐标不在以往的设计引物区域范围内，则系统会要求新增设计的引物信息，保存此信息，更新到引物数据库。

S7、生成检测报告。

具体地，本实施例可选的设置了检测报告单元，用于依据已设定的模板格式和内容，在系统上生成报告模板信息。大部分报告信息是自动关联上述模块内容生成，部分需要手工输入，系统上形成输入框，提示需要输入的报告内容。解读人员完成报告制作后，系统提示需要审核，审核通过后，该报告信息流入下一个报告复核环节；如审核未通过，报告信息仍留在此界面，提示需要修改，直到审核通过。报告复核审核通过后，报告可以直接转化成PDF格式报告；如报告未复核通过，不能转化成PDF格式报告，系统自动提示需要复核，直到复核通过。

S8、信息汇总。

具体地，本实施例可选的设置了报告信息汇总单元，此单元记录了样本编号，样本名称，受检者临床表型信息，送检和收样时间，送检单位相关信息，报告进度，报告检测结果等信息。用户可以通过模糊搜索功能，查找到自己想要找到的样本信息以及对应的报告内容。

综上所述，本发明通过对先证者流程和家系流程的区分，使得Trio家系流程中家系分析数据在系统同一界面展示，更方便于数据解读；再者，本发明依据线性加权函数模型，对变异致病可能性打分，系统按照分值高度排列，形成了半自动解读，使得解读效率大大提升；另外，本发明可选的通过搭建引物库，将以往积累的引物信息收录在该数据库，以突变绝对坐标为唯一性的关联信息，如突变信息在数据库已存在，自动显示；如不存在，新增设计改突变引物信息，然后将新增信息更新入引物数据库，提高了工作效率。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.遗传病基因检测的数据分析方法，其特征在于：包括以下步骤：

输入受检者的样本信息及测序数据；

对测序数据进行生物信息学分析，得到注释结果和统计结果；其中，所述注释结果包括检测项目名称以及选用的插件名称；

所述统计结果包括质量指标；所述质量指标选自Reads、Q20、平均深度、深度≥1、深度≥10、深度≥20、深度≥50；

对统计结果中的质量指标进行质控审核；

对通过质控审核的结果进行解读人员和流程分配；

确定变异条件因子池并进行变异证据评分，所述变异证据评分用于辅助分析受检者的遗传病变异因素；

所述变异条件因子包括临床表型匹配度、突变类型致病性、重点关联基因符合度以及变异质量评估。

2.根据权利要求1所述的遗传病基因检测的数据分析方法，其特征在于：

所述样本信息包括但不限于样本编号、样本类型、检测项目、受检者姓名、受检者类型、临床表型信息。

3.根据权利要求1所述的遗传病基因检测的数据分析方法，其特征在于：所述对测序数据进行生物信息学分析，得到注释结果和统计结果这一步骤，包括以下步骤：

将测序数据与参考基因组进行比对，根据比对结果进行第一过滤，以去除低质量reads；

基于过滤参数对变异分析结果进行第二过滤，对第二过滤后的变异分析结果进行注释，得到注释结果；所述过滤参数包括突变频率，测序深度，链的偏好性和多聚结构；

4.根据权利要求1所述的遗传病基因检测的数据分析方法，其特征在于：所述对通过质控审核的结果进行解读人员和流程分配这一步骤，包括以下步骤：

根据临床表型信息进行解读人员分配；

5.根据权利要求1所述的遗传病基因检测的数据分析方法，其特征在于：所述确定变异条件因子池并进行变异证据评分，所述变异证据评分用于辅助分析受检者的遗传病变异因素这一步骤，包括以下步骤：

根据疾病遗传机制原理，确定变异条件因子池；

对变异条件因子池中的因子按级别赋予分值；

依据已知遗传变异因素的样本构建线性加权函数模型；

根据对池中的因子按级别赋予分值后的变异条件因子池，利用线性加权函数模型计算待测样本的变异证据评分；

根据变异证据评分，生成受检者的遗传病变异因素。

6.根据权利要求5所述的遗传病基因检测的数据分析方法，其特征在于：所述变异条件因子池包括：临床表型匹配度、突变类型致病性、重点关联基因符合度以及变异质量评估。

7.根据权利要求1所述的遗传病基因检测的数据分析方法，其特征在于：在确定变异条件因子池并进行变异证据评分这一步骤之后，还包括以下步骤：

8.遗传病基因检测的数据分析系统，其特征在于：包括：

数据输入单元，用于输入受检者的样本信息及测序数据；

数据分析单元，用于对测序数据进行生物信息学分析，得到注释结果和统计结果；其中，所述注释结果包括检测项目名称以及选用的插件名称；

变异证据评分单元，用于确定变异条件因子池并进行变异证据评分，所述变异证据评分用于辅助分析受检者的遗传病变异因素；所述变异条件因子包括临床表型匹配度、突变类型致病性、重点关联基因符合度以及变异质量评估。

9.根据权利要求8所述的遗传病基因检测的数据分析系统，其特征在于：还包括一代验证引物单元：

所述一代验证引物单元，用于构建一代验证遗传病变异的引物数据库，根据变异绝对坐标索引引物。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7中任一项所述的遗传病基因检测的数据分析方法。