CN113643761B

CN113643761B - 一种用于解读二代测序结果所需数据的提取方法

Info

Publication number: CN113643761B
Application number: CN202111200370.6A
Authority: CN
Inventors: 谢欣; 余伟师; 梁萌萌; 付宏旭; 李鹏飞
Original assignee: Suzhou Semek Gene Technology Co ltd
Current assignee: Suzhou Saifu medical laboratory Co.,Ltd.
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-01-18
Anticipated expiration: 2041-10-13
Also published as: CN113643761A

Abstract

本发明公开了一种用于解读二代测序结果所需数据的提取方法，属于数据处理的技术领域，包括以下步骤：S1：将映射版本标签置于TSV文件的首行，并发送到推送系统并入列式数据库保存；S2：生成元数据来记录BAM文件的相关信息，使其能够与对应的TSV文件的注释信息进行匹配，并发送到推送系统并入关系型行式数据库保存；S3：录入受检者临床表型信息，并发送到推送系统并入关系型行式数据库保存；其中，步骤S1、S2和S3同步完成。本发明能够克服现有技术在提取解读二代测序结果所需要的三项数据时存在的难以应对TSV文件表头行变化、提取BAM文件需要人工介入和缺少主索引关联同一受检者的缺陷。

Description

一种用于解读二代测序结果所需数据的提取方法

技术领域

本发明是关于数据处理和精准医学高通量测序与变异检测的技术领域，特别是关于一种用于解读二代测序结果所需数据的提取方法。

背景技术

随着高通量测序技术的发展和成熟，测序成本的快速降低，以及国内对该领域审批政策的放开，基因检测已经在临床诊断中发挥着越来越重要的作用。在遗传病领域，对于测序结果的解读，一般需要结合利用生物信息学的方法和工具为变异位点生成的注释信息、变异位点的BAM数据以及受检者的临床表型来对特定位点的致病性进行判断。目前如何实现这三项数据的自动化提取，降低人工参与度以及因此造成的数据一致性或完成性的相关错误，已成为在基因检测结果解读的数据准备工作中亟待解决的问题。

目前上述三项数据的存储方式各自不同：1）注释信息一般由生物信息学的工具/脚本生成，存储为Tab分隔（即TSV）格式的文件；2）变异位点的BAM数据也由生物信息学的工具/脚本生成，但由于文件大小过大，一般保存在对象存储之中；3）受检者的临床表型通过系统直接录入到关系型数据库中。相对应的，系统提取这三种数据，一般采用如下方法：

1. 通过抽取、转换、加载（即ETL）流程将TSV格式的注释信息提取到关系型数据库中，再由系统在界面上加载相关内容展示给解读人员；

2. 运维人员使用脚本命令将存放于对象存储中的BAM文件下载到系统指定的位置，再由系统的BAM在线浏览工具展示给解读人员。此处的数据提取完全是手动操作；

3. 系统直接根据受检者和检测的唯一标识符将临床表型加载到界面展示给解读人员。

但是，上述解读所需数据的提取方法存在以下几个问题，中断整个流程的自动化处理或带来人为错误，阻碍数据准备工作的顺利完成：

1. 通常情况下使用ETL工具对TSV文件的内容进行抽取时，依赖其表头行的信息。一旦表头行发生增加、变更或删除，原自动化抽取流程必定中断，需要人工介入解决，影响效率。不幸的是表头行的变更在实际业务中可能经常发生。此外，一旦抽取逻辑按照新的表头行完成了修改，就无法再按照原表头行的逻辑对文件进行处理了；

2. 在二代测序时可能发生加测或者重测的情况，而每次这种情况的出现，都会生成一份新的BAM数据。这就会导致运维人员手动从对象存储中提取BAM文件时产生错误，即使用不同轮次的BAM数据匹配当前的注释信息，引发数据的一致性问题；

3. 在临床诊断时受检者可能前往第二家医院进行二次诊断，而第二家医院的医生有时会要求受检者加做检测，如在原全外显子组检测的基础上加做线粒体环检测。由于是分属不同医院的两次下单，因缺少主索引关联，系统不会将这两次检测中的受检者认定为同一个人，从而无法让解读人员获得该名受检者完整的临床表型信息，造成解读结果的不精确。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种用于解读二代测序结果所需数据的提取方法，其能够克服现有技术在提取解读二代测序结果所需要的三项数据时存在的自动化能力不足即难以应对TSV文件表头行变化、提取BAM文件需要人工介入和缺少主索引关联同一受检者的缺陷。

为实现上述目的，本发明提供了一种用于解读二代测序结果所需数据的提取方法，包括以下步骤：

S1：将映射版本标签置于TSV文件的首行，并发送到推送系统并入列式数据库保存；

S2：生成元数据来记录BAM文件的相关信息，使其能够与对应的TSV文件的注释信息进行匹配，并发送到推送系统并入关系型行式数据库保存；

S3：录入受检者临床表型信息，并发送到推送系统并入关系型行式数据库保存；

其中，步骤S1、S2和S3同步完成。

进一步地，所述步骤S1具体包括以下步骤：

S101：由生物信息学工具生成包含注释信息的TSV文件；

S102：将注释信息文件推送前确认是否存在该文件表头的映射版本标签；如果不存在映射版本标签，则进行步骤S103，如果存在映射版本标签，则进行步骤S104；

S103：创建映射关系，并为映射关系设定唯一标识的映射版本标签；

S104：提取映射版本标签并将其置于TSV文件的首行，同时在标签前添标签标识符；

S105：将步骤S104的TSV文件发送到推送系统并入列式数据库保存。

进一步地，所述映射版本标签的创建包括以下步骤：

a：为映射关系创建一个映射版本标签，该映射版本标签的编码为唯一的标识；

b：指定对应的数据库表单名；

c：为TSV文件的表头行的每一个列名创建一条和数据库表单字段的映射关系，并用字符表示该映射关系是否为必须。

进一步地，当映射关系被标注为非必须时，该映射关系对应的列在TSV文件中缺省。

进一步地，所述步骤S2具体包括以下步骤：

S201：由生物信息学工具生成BAM文件；

S202：通过应用程序编程接口将BAM文件从文件系统迁移至对象存储；

S203：生成该BAM文件的元数据；

S204：将BAM文件的元数据发送到推送系统并入数据库保存。

进一步地，所述元数据包括：文件路径、对应检测、使用探针、注释执行轮次、文件MD5值和文件所属受检者ID。

进一步地，所述步骤S3具体包括以下步骤：

S301：在网页端录入受检者临床表型信息；

S302：将临床表型信息发送到推送系统并入关系型行式数据库保存。

进一步地，所述方法还包括：

S401：根据临床表型信息计算参考维度权重，并与设定的疑似相同受检者的阈值进行比较，如果参考维度权重大于阈值，则提示是否将两位受检者进行合并，并交人工确认后进行步骤S402；如果参考维度权重不大于阈值，则直接进行步骤S402；

S402：根据受检者完整的临床表型选择对应的标准化HPO词条。

进一步地，所述步骤S401之前还包括：录入预设的参考维度权重，并且设定疑似相同受检者的阈值。

更进一步地，所述步骤S401中还包括：为受检者姓名项设置错别字概率系数，计算时需要在姓名权重的基础上乘以概率系数。

与现有技术相比，根据本发明的一种用于解读二代测序结果所需数据的提取方法，具有以下的有益效果：

1. 效率提升：通过预先对TSV文件表头行和数据库字段映射关系的设定以及映射版本标签的使用，增强了注释信息入库和提取的便捷性，同时大大降低了TSV文件表头行变动对流程的影响，提升了作业效率；

2. 成本降低：针对注释信息的数据量大，但相同列中数据重复度高的特点，采用列式存储的方式减少存储空间的使用从而降低成本。经实测，50G的注释信息入列式存储数据，产生的数据约为33G，而入传统的关系型行式数据库，产生的数据约为180G；

3. 错误率下降：通过API接口和元数据的使用，取消了人工操作BAM文件的作业，在减少流程中人工介入的同时也降低了人为错误的可能；

4. 信息完整度增强：通过对主索引技术的使用，最大可能地对相同受检者进行合并，并在此基础上提供HPO标准化词条，使解读人员可以获得受检者最完整的临床诊断信息；

5. 普适性高：方案多处采用配置优化的方式，且易于部署，对于作业人员没有相关专业的技术背景要求。方案通过简单培训即可进行实施。

附图说明

图1是根据本发明一实施方式的用于解读二代测序结果所需数据的提取方法的流程图。

图2是根据本发明一实施方式的方法的步骤S1中添加映射关系组并生成版本标签的示例图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

如图1所示，其为根据本发明优选实施方式的用于解读二代测序结果所需数据的提取方法的流程图，该方法包括以下三个步骤来实现数据的提取：

S1：将映射版本标签置于TSV文件的首行，并发送到推送系统并入列式数据库保存。其目的是阻碍注释信息自动化提取的问题。

其中，TSV文件记录的是注释信息。

S2：生成元数据来记录BAM文件的相关信息，使其能够与对应的TSV文件的注释信息进行匹配，并发送到推送系统并入关系型行式数据库保存。其目的是避免发生注释信息和BAM数据轮次不一致的问题。

其中，BAM数据一般以文件形式保存，不会入数据库，因此数据库中没有任何关于它的记录。在该步骤中，能够为BAM数据生成元数据信息，包括文件路径、对应检测、使用探针、注释执行轮次、文件MD5值和文件所属受检者ID，使得BAM数据在数据库中出现了描述性记录，即这项记录不是数据本身。而TSV注释数据是有入库操作的，相似的元数据信息在TSV注释文件入列式数据库的现有流程中就已经生成了，最终使得两者可以进行匹配。

BAM文件存储的是基因组测序比对数据，是二进制非结构化数据，数据本身不会被存入数据库。

S3：录入受检者临床表型信息，并发送到推送系统并入关系型行式数据库保存。

其中，上述步骤S1、S2和S3同步完成。

本发明的步骤S1具体包括以下步骤：

S101：由生物信息学工具生成包含注释信息的TSV文件。其中，生物信息学工具是示例为Samtools、Annovar、snpEff、VEP等。

S102：将注释信息文件推送前确认是否存在该文件表头行的映射版本标签；如果不存在映射版本标签，则进行步骤S103，如果存在映射版本标签，则进行步骤S104；

S103：创建映射关系，并为映射关系设定唯一标识的映射版本标签。

其中，映射版本标签的创建方法如下：

b：指定对应的数据库表单名；其中，TSV格式的SNV注释数据可能存入数据库的“anno_snv”表，CNV注释数据可能存入数据库的“anno_cnv”表，注释信息根据检测方法的不同，数据结构迥异，不可能用一张通用的数据库表单来存储的，因此，需要制定对应的数据库表单名。

c：为TSV文件的表头行的每一个列名创建一条和数据库表单字段的映射关系，并用字符“t”（指代true）和“f”（指代false）表示该映射关系是否为必须。“t”为必须，而“f”为非必须。当某映射关系被标注为“非必须”时，该映射关系对应的列可以在TSV文件中缺省。

S104：提取映射版本标签并将其置于TSV文件的首行，同时在标签前添加“#”字符号作为标签标识符；

本发明的步骤S2具体包括以下步骤：

S201：由生物信息学工具生成BAM文件；

S202：通过应用程序编程接口（即API接口）将BAM文件从文件系统迁移至对象存储；

S203：生成该BAM文件的元数据，其中，元数据包括：文件路径、对应检测、使用探针、注释执行轮次、文件MD5值和文件所属受检者ID；

S204：将BAM文件的元数据发送到推送系统并入关系型行式数据库保存。

本发明的步骤S3具体包括以下步骤：

S301：在患者表型采集系统或者是检测下单系统的网页端录入受检者临床表型信息；

此外，针对步骤S3发送的临床表型信息，在信息发送到推送系统之后，所述方法还包括以下步骤：

S401：主索引中的计算引擎根据临床表型信息计算参考维度权重，并与设定的疑似相同受检者的阈值进行比较，如果大于阈值，则系统提示是否将两位受检者进行合并，并交人工确认后进行步骤S402；如果不大于阈值，则直接进行步骤S402。

具体的，该步骤S401之前还包括：录入预设的参考维度权重，并且设定疑似相同受检者的阈值。其中，在本发明中，设定参考维度权重的总和等于100，并且设定疑似相同受检者的阈值为70，同时设定参考维度包括受检者的姓名、年龄、性别、父母姓名、家庭住址、联系电话和发病年龄。

此外，该步骤S401中还包括：为受检者姓名项设置错别字概率系数，计算时需要在姓名权重的基础上乘以概率系数。

例如，受检者姓名权重为30，同时“张三”和“章三”的错别字概率为0.67，那么两名同样叫做“张三”的受检者从姓名维度获得的疑似同人分值就是30，而受检者“张三”和“章三”获得的分值就只有30 × 0.67 = 20。当总分值超过阈值70时，系统提示是否将两位受检者进行合并，并交人工确认。

S402：根据受检者完整的临床表型选择对应的标准化HPO词条。

其中，在该步骤S402中，标准化HPO词条通过以下方式获取：

S4021：定期从HPO网站获取最新的hp.obo文件。其中，HPO为 Human PhenotypeOntology，即人类表型本体论数据库。HPO的词条是临床表型的标准化词条，同时构建了表型的父子层级，如：“生育能力下降”属于“生殖生理异常”，属于“生殖系统异常”，属于“泌尿生殖系统异常”。

S4022：解析hp.obo文件并生成树状图，该树状图中包括标准化HPO词条。其中，树状图主要用于直接展示出词条间的“父子”级关系（从属关系），例如，医生在病历中描述患者“多年未能生育”，解读人员可以选择“生殖生理异常”词条，或者更细化的“生育能力下降”词条。

其中，生成的树状图的示例如下表所示：

本发明的方法还包括以下步骤：

S5：主系统或者解读系统基于检测ID和受检者ID提供完整的三项数据（即注释信息、BAM文件、临床表型/HPO词条）用于二代测序结果解读。

如图2所示，通过本发明的用于解读二代测序结果所需数据的提取方法，对数据文件进行提取的示例如下：

假设生物信息学工具当前生成的TSV注释文件表头行是Chr、Start、End、Ref、Alt和Gene.refGeneWithVer且存在版本编号“SNVVER001”，此时根据要求，需要将表头行的“Chr”变更为“Chromosome”并添加非必须信息“GeneDetail.refGeneWithVer”，那么具体操作步骤如下：

1. 添加新的映射关系组并生成版本标签“SNVVER002”，其具体示例如图2所示。

2. 将新生成的版本标签插入TSV文件的首行,并在标签前添加“#”字符号，其操作示例如下表所示：

每一组映射关系都应该配有唯一标识的版本标签。如给与1）映射关系“Chr ->chrom”，“Start -> chrom_start”标签“SNVVER001”，2）映射关系“Chromosome -> chrom”，“Start -> chrom_start” 标签“SNVVER002”，那么使用“SNVVER001”标签的TSV注释文件会将“Chr”的数据存入数据库的“chrom”字段，而使用“SNVVER002”标签的TSV注释文件会将“Chromosome”的数据存入数据库的“chrom”字段。

此外，以使用华为云的弹性和对象存储为例，在使用华为云封装了对象存储编程接口的Java程序包时，记录的信息如下表所示：

在主索引计算引擎中，使用如下表所示的权重值和错别字概率值对疑似相同的受检者进行判断：

假设存在受检者两名：

则疑似相同受检者的分值计算为：30 × 0.5 + 5 + 30 + 20 × 0.5 + 5 + 0 +5 = 70，达到相似阈值，判断为疑似相同，系统提示人工确定。如确定，则合并两个人的临床诊断信息。

本发明的方法采用了映射和版本标签技术，使注释信息的入库及提取获得最大程度的自动化；并且基于元数据管理技术取消了流程中对于BAM文件迁移和提取的人工作业；此外，通过主索引计算和HPO词条适配技术使受检者的临床表型的获取更加完整和规范。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.一种用于解读二代测序结果所需数据的提取方法，其特征在于，包括以下步骤：

其中，步骤S1、S2和S3同步完成；

所述步骤S1具体包括以下步骤：

S101：由生物信息学工具生成包含注释信息的TSV文件；

2.如权利要求1所述的用于解读二代测序结果所需数据的提取方法，其特征在于，所述映射版本标签的创建包括以下步骤：

b：指定对应的数据库表单名；

3.如权利要求2所述的用于解读二代测序结果所需数据的提取方法，其特征在于，当映射关系被标注为非必须时，该映射关系对应的列在TSV文件中缺省。

4.如权利要求1所述的用于解读二代测序结果所需数据的提取方法，其特征在于，所述步骤S2具体包括以下步骤：

S201：由生物信息学工具生成BAM文件；

S203：生成该BAM文件的元数据；

S204：将BAM文件的元数据发送到推送系统并入数据库保存。

5.如权利要求4所述的用于解读二代测序结果所需数据的提取方法，其特征在于，所述元数据包括：文件路径、对应检测、使用探针、注释执行轮次、文件MD5值和文件所属受检者ID。

6.如权利要求1所述的用于解读二代测序结果所需数据的提取方法，其特征在于，所述步骤S3具体包括以下步骤：

S301：在网页端录入受检者临床表型信息；

7.如权利要求6所述的用于解读二代测序结果所需数据的提取方法，其特征在于，所述方法还包括：

S401：计算参考维度权重，并与设定的疑似相同受检者的阈值进行比较，如果参考维度权重大于阈值，则系统提示是否将两位受检者进行合并，并交人工确认后进行步骤S402；如果参考维度权重不大于阈值，则直接进行步骤S402；

S402：根据受检者完整的临床表型选择对应的标准化HPO词条。

8.如权利要求7所述的用于解读二代测序结果所需数据的提取方法，其特征在于，所述步骤S401之前还包括：录入预设的参考维度权重，并且设定疑似相同受检者的阈值。

9.如权利要求7所述的用于解读二代测序结果所需数据的提取方法，其特征在于，所述步骤S401中还包括：为受检者姓名项设置错别字概率系数，计算时需要在姓名权重的基础上乘以概率系数。