CN114913918A

CN114913918A - 一种针对孤独症的高通量测序数据分析方法及装置

Info

Publication number: CN114913918A
Application number: CN202110185325.1A
Authority: CN
Inventors: 袁博; 仇子龙
Original assignee: Center for Excellence in Brain Science and Intelligence Technology Chinese Academy of Sciences
Current assignee: Center for Excellence in Brain Science and Intelligence Technology Chinese Academy of Sciences
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2022-08-16

Abstract

本发明提供了一种针对孤独症的高通量测序数据分析方法及装置。具体地，包括：I.提供基于卷积神经网络过滤的个体变异数据，并提供用于群体分析的个体预检测变异数据；II.对所述个体预检测变异数据进行合并，从而获得群体预检测变异数据；并对群体预检测变异数据进行群体变异检测，从而获得群体变异数据，并对所述群体变异数据进行过滤和再次过滤，从而获得最终群体变异数据；并对所述最终群体变异数据进行拆分、新生突变检验和过滤，从而获得最终个体变异数据；和III.对所述最终个体变异数据的进行注释和功能预测，从而获得孤独症基因的注释结果和功能预测结果。本发明的方法可高通量、快速、准确的针对孤独症的基因检测数据进行分析。

Description

一种针对孤独症的高通量测序数据分析方法及装置

技术领域

本发明涉及生物信息处理技术领域，特别是指一种针对孤独症高通量测序的数据分析方法及装置。

背景技术

孤独症又称自闭症，是一类比较严重的神经发育性疾病，核心症状是社交障碍、语言障碍和重复刻板行为。随着公众意识和诊断水平的提高，近年来孤独症患儿越来越多，孤独症患者的人群频率从1990年前的5/10000上升到2018年的1/59。而孤独症的异质性明显：找不到特定的异常脑区和特定的异常细胞，也就没有统一的诊治方案，为社会和家庭带来了沉重的负担。

孤独症和遗传因素密切相关。孤独症多发家系再生出孤独症儿童的概率达到35％。孤独症患者的姊妹患孤独症的概率也较高。15％的孤独症患者携带了已知的遗传缺陷。对孤独症患儿进行致病基因、易感基因、可能相关基因的检测，是有效诊断的必要前提。针对孤独症的基因检测情况特殊：1)需要以核心家庭为单位，收集患儿及父母的样本进行检测；2)发病率较高，样本增长速度快，进行群体分析有助于提高准确度。

目前已有的基因检测数据分析系统，1)缺乏有效的信息梳理步骤，容易导致检测结果的性别或亲缘关系错误；2)缺乏标准化文件的备份机制，信息可溯源性差；3)缺乏对三口之家数据的合理分析，对妊娠过程中产生的新生突变的分析能力不足；4)缺乏对群体信息的有效分析，难以发挥孤独症大规模样本的数据潜力。

所以本领域急需提供一种高通量、分析快速、结果准确的针对孤独症的基因检测数据分析方法及装置。

发明内容

本发明的目的是提供一种高通量、分析快速、结果准确的针对孤独症的基因检测数据分析方法及装置。

本发明第一方面，提供了一种针对孤独症基因检测的数据分析方法，该方法包括：

步骤I.提供基于卷积神经网络过滤的个体变异数据，并提供用于群体分析的个体预检测变异数据，其中，所述的个体包括孤独症患者、孤独症易感者、和/或正常个体(未患孤独症患者且非孤独症易感者)；

步骤II.对所述个体预检测变异数据进行合并，从而获得群体预检测变异数据；并对群体预检测变异数据进行群体变异检测，从而获得群体变异数据，并对所述群体变异数据进行过滤和再次过滤，从而获得最终群体变异数据；并对所述最终群体变异数据进行拆分、新生突变检验和过滤，从而获得最终个体变异数据；和

步骤III.对所述最终个体变异数据的进行注释和功能预测，从而获得孤独症基因的注释结果和功能预测结果。

在另一优选例中，在步骤III中，还包括基于所述的孤独症基因的注释结果和功能预测结果，对群体的孤独症进行致病性分析。

在另一优选例中，所述的变异数据为核酸测序数据，较佳地为基因组测序数据、RNA测序数据、或其组合。

在另一优选例中，步骤I中，包括如下步骤：

步骤S1，对待处理数据进行类型判断、质量控制和整理，从而得到测序数据；

步骤S2，测序数据的拼接和比对，对已经标记过接头的测序数据的比对，然后根据已知变异位点数据库进行碱基质量值计算，进一步优化比对结果，得到最终用于变异检测的优质比对数据；和

步骤S3，将优质比对数据进行个体变异检测和个体变异预检测，获取基于卷积神经网络过滤的个体变异数据，获取将用于群体分析的预检测个体变异数据。

在另一优选例中，步骤S1包括如下步骤：

步骤S1.01a和步骤S1.01b，待处理数据的类型判断，当待处理数据为fastq格式的原始测序数据，则进入步骤S1.02a；待处理数据为bam格式的已比对数据，则进入步骤S1.02b；

步骤S1.02a，fastq格式原始测序数据的质量控制，包括测序数据的质量验证和低质量测序数据的排除，得到fastq格式的优质测序数据；

步骤S1.02b，bam格式已比对数据的还原，即将已按照参考基因组完成拼接的测序数据，还原为没有拼接的数据，得到含有RG(Read Groups)参数的bam格式预比对数据；

步骤S1.03，添加参数和格式转换，即针对步骤S1.02a中得到的优秀测序数据添加RG参数，并进行格式转换，得到含有RG参数的bam格式预比对数据；

步骤S1.04，标记步骤S1.02b或步骤S1.03中得到的预比对数据中的接头序列，得到标记接头序列的bam格式预比对数据；和

步骤S1.05，将步骤S1.04中得到的已经标记了接头序列的bam格式预比对数据，还原为标记了接头序列的fastq格式测序数据。

在另一优选例中，步骤S2包括如下步骤：

步骤S2.06，根据参考基因组序列，将测序序列进行拼接和比对，得到不含RG参数的贫参数比对数据；

步骤S2.07，整合步骤S2.06得到的贫参数比对数据和步骤S1.02a或步骤S1.03得到的bam格式预比对数据，得到含有RG参数的富参数比对数据；

步骤S2.08，标记步骤S2.07得到的富参数比对数据中由于测序过程中由于PCR导致的重复测序的序列，得到去除了重复序列的去重比对数据；

步骤S2.09，根据已知的变异位点数据库，针对步骤S2.08得到的去重比对数据，计算碱基质量值，得到碱基质量值计算结果；和

步骤S2.10，根据步骤S2.09得到的碱基质量值计算结果，针对步骤S2.08得到的去重比对数据，进行碱基质量值校正，得到优质比对数据。

在另一优选例中，步骤S3包括如下步骤：

步骤S3.11，根据S2.10得到的优质比对数据，进入两个平行的子流程，其中，对于群体分析的流程，按照步骤S3.12进行个体变异预检测；对于非群体分析的流程，按照步骤S3.13进行个体变异检测；

步骤S3.12，将S2.10得到的优质比对数据，进行个体变异预检测，得到个体的预检测变异数据(得到gvcf文件)，留待群体分析时使用；

步骤S3.13，将S2.10得到的优质比对数据，直接进行个体变异检测，得到个体变异数据；和

步骤S3.14，根据已知的变异位点数据库，采用卷积神经网络方法，对步骤S3.13的个体变异数据进行过滤，得到基于卷积神经网络过滤的个体变异数据(即CNN个体变异数据)。

在另一优选例中，步骤S2.06中所述参考基因组序列，特别指含有alternatecontigs和decoy contigs的GRCh38版本的参考基因组。

在另一优选例中，步骤II中，包括如下步骤：

步骤S4，对所述个体预检测变异数据进行合并，从而得到群体预检测变异数据，再对所述群体预检测变异数据进行群体变异检测，从而获得群体变异数据；

步骤S5，对所述群体变异数据进行过滤，较佳地分别计算群体变异数据的单核苷酸变异质量值和插入或缺失质量值，并根据这两个质量值对群体变异数据进行过滤，得到经过滤的优质群体变异数据；

步骤S6，对所述的优质群体变异数据进行进一步处理和再次过滤，从而获得经再次过滤的优质群体变异数据，并在经再次过滤的优质群体变异数据中标记同一家系中的新生突变，从而获得最终群体变异数据；和

步骤S7，将最终群体变异数据拆分为优质个体变异数据，并根据基于卷积神经网络的个体变异数据和多种新生突变检验工具进行过滤，得到最终版的个体变异数据。

在另一优选例中，所述的进一步处理包括：结合变异位点数据库和家系信息，计算基因型的后验概率。

在另一优选例中，所述再次过滤包括：根据已知变异位点数据库和家系信息，对优质群体变异数据进行再次过滤，从而获得经再次过滤的优质群体变异数据。

在另一优选例中，步骤S4，包括如下步骤：

步骤S4.15，将步骤S3.12得到的个体预检变异测数据进行合并，得到群体预检测变异数据；

步骤S4.16，对步骤S4.15得到的群体预检测变异数据进行变异检测，得到群体变异数据。

在另一优选例中，步骤S5，包括如下步骤：

步骤S5.17，计算步骤S4.16得到的群体变异数据中，单核苷酸变异(SNP)的变异质量值；

步骤S5.18，计算步骤S4.16得到的群体变异数据中，插入或缺失(InDels)的变异质量值；和

步骤S5.19，根据步骤S5.17和S5.18得到单核苷酸变异和插入或缺失的变异质量值，对步骤S4.16得到的群体变异数据进行过滤，得到优质的群体变异数据。

在另一优选例中，步骤S6，包括如下步骤：

步骤S6.20，根据家系信息和已知的变异位点数据库，计算优质群体变异数据的后验概率；

步骤S6.21，根据预定参数(或自定义参数)，对步骤S6.20得到的结果进行再次过滤；和

步骤S6.22，根据步骤S6.20中输入的家系信息，标记步骤S6.21得到的群体变异数据中的新生突变，得到最终群体变异数据。

在另一优选例中，步骤S7，包括如下步骤：

步骤S7.23，对步骤S6.22得到的最终群体变异数据中的新生突变，进行多重检验；

步骤S7.24，对步骤S6.22得到的最终群体变异数据进行拆分，得到优质个体变异数据；和

步骤S7.25，根据步骤S3.14得到的基于卷积神经网络过滤的个体变异数据和步骤S7.23新生突变多重检验的结果，对步骤S7.24得到的优质个体变异数据进行过滤，得到最终个体变异数据。

在另一优选例中，步骤III中，包括如下步骤：

步骤S8.26，根据已知的变异位点数据库，对步骤S7.25得到的最终个体变异数据，进行位点信息注释和变异功能预测，从而获得孤独症基因的注释结果和功能预测结果。

在另一优选例中，步骤III中，还包括如下步骤：

步骤S8.27，根据S8.26得到的孤独症基因的注释结果和功能预测结果，结合TADA等统计学工具，进行变异的致病性分析。

本发明第二方面，提供了一种针对孤独症基因检测的数据分析装置，该装置包括：

数据输入模块，用于输入待分析的待处理数据；

孤独症基因检测模块，所述孤独症基因检测模块被配置为执行本发明第一方面所述的方法，从而获得孤独症基因的注释结果和功能预测结果；

和输出模块，用于输出所述的孤独症基因的注释结果和功能预测结果。

在另一优选例中，所述的孤独症基因检测模块包括：

个体变异数据分析子模块，所述个体变异数据分析子模块被配置为：执行对待处理数据进行质量控制和对比整合，得到优质对比数据；并对所述优质对比数据进行个体变异检测从而获得个体变异数据；或对所述优质对比数据进行变异预检测，从而获得个体预检测变异数据；

最终个体变异数据分析子模块，所述最终个体变异数据分析子模块被配置为：将所述个体预检测变异数据合并后进行群体变异检测，从而得到群体变异数据，对所述群体变异数据进行分析过滤，从而获得最终个体变异数据；

注释预测子模块，所述注释预测子模块被配置为：基于已知的变异位点数据库或数据，对所述最终个体变异数据，进行位点信息注释和变异功能预测，从而获得孤独症基因的注释结果和功能预测结果。

在另一优选例中，所述个体变异数据分析子模块被配置为执行步骤I。

在另一优选例中，所述最终个体变异数据分析子模块被配置为执行步骤II。

在另一优选例中，所述注释预测子模块被配置为执行步骤III。

在另一优选例中，所述步骤I包括步骤S1-S3。

在另一优选例中，所述步骤I包括步骤S4-S7。

在另一优选例中，所述步骤I包括步骤S8。

在另一优选例中，个体变异数据分析子模块(即单样本处理子模块)，被配置为对个体测序数据进行清洗和整理，对个体测序数据进行分析后得到基于卷积神经网络过滤的个体变异检测结果和用于群体变异检测的个体预检测变异数据。

在另一优选例中，所述的最终个体变异数据分析子模块(即多样本合并和群体处理子模块)被配置为：对个体预检测变异数据进行合并后分析，得到群体样本的变异检测结果。

在另一优选例中，所述的注释预测子模块被配置为：对最终个体变异数据进行注释和功能预测，并基于注释结合和功能预测结果，对个体和/或群体的孤独症的致病性进行分析。

在另一优选例中，所述的致病性包括患病机率、疾病程度、预后、或其组合。

本发明第三方面，提供了一种针对孤独症基因检测的数据分析系统，包括：

存储器，用于存储计算机可执行指令；以及

处理器，用于在执行所述计算机可执行指令时实现如本发明第一方面所述的方法中的步骤。

本发明第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如本发明第一方面所述的方法中的步骤。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是根据本发明实施例的基于卷积神经网络过滤的个体变异数据获取和个体预检测变异数据获取的流程图；

图2是根据本发明实施例的群体变异数据的获取和过滤的流程图；

图3是根据本发明实施例的变异数据的注释、功能和致病性分析的流程图。

具体实施方式

本发明人经过广泛而深入的研究，通过大量筛选和测试，提供了针对孤独症高通量测序的数据分析方法及装置。具体地，本发明的方法可以对FASTQ格式、bam格式等不同格式的测序数据文件进行大规模高通量的灵活处理；且本发明方法创造性地包括对个体数据合并后进行群体变异检测和分析过滤从而得到最终个体变异数据的步骤，通过所述最终个体变异数据得到的注释结果和功能预测结果，与仅进行个体变异检测相比，可保留更多的有效信息，对孤独症测序数据分析更快速、结果更真实、准确。在此基础上完成了本发明。

术语

除非另有定义，否则本文中所用的全部技术术语和科学术语均具有如本发明所属领域普通技术人员通常理解的相同含义。

如本文所用，术语“含有”或“包括(包含)”可以是开放式、半封闭式和封闭式的。换言之，所述术语也包括“基本上由…构成”、或“由…构成”。

针对孤独症基因检测的数据分析方法

本发明提供了一种针对孤独症基因检测的数据分析方法，该方法包括：

步骤I.提供基于卷积神经网络过滤的个体变异数据，并提供用于群体分析的个体预检测变异数据，其中，所述的个体包括孤独症患者、孤独症易感者、和/或正常个体；

特别地，在步骤II中，可包括如下步骤：

本发明中，将个体预检测变异数据进行合并后进行群体变异检测和分析，然后从群体群体变异检测分析结果，得到最终个体变异数据的步骤，通过所述最终个体变异数据得到的注释结果和功能预测结果，与仅进行个体变异检测相比，可保留更多的有效信息，对孤独症测序数据分析更快速、结果更真实、准确。

针对孤独症基因检测的数据分析装置、系统、存储介质

本发明还提供了一种针对孤独症基因检测的数据分析装置、用于执行上述方法的系统，以及存储上述方法可执行指令的可读存储介质。

所述装置包括：数据输入模块，用于输入待分析的待处理数据；

孤独症基因检测模块，所述孤独症基因检测模块被配置为执行本发明上述的方法，从而获得孤独症基因的注释结果和功能预测结果；

需要说明的是，本领域技术人员应当理解，上述针对孤独症基因检测的数据分析装置的实施方式中所示的单元的实现功能可参照前述针对孤独症基因检测的数据分析方法的相关描述而理解。

上述装置的实施方式中所示的各单元的功能可通过运行于处理器上的程序(可执行指令)而实现，也可通过具体的逻辑电路而实现。本申请实施例上述装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

此外，本申请实施方式还提供一种针对孤独症基因检测的数据分析系统，其中包括用于存储计算机可执行指令的存储器，以及，处理器；该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中，该处理器可以是中央处理单元(Central Processing Unit，简称“CPU”)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，简称“DSP”)、专用集成电路(Application SpecificIntegrated Circuit，简称“ASIC”)等。前述的存储器可以是只读存储器(read-onlymemory，简称“ROM”)、随机存取存储器(random access memory，简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

相应地，本申请实施方式还提供计算机可读存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于，相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本专利的申请文件中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中，如果提到根据某要素执行某行为，则是指至少根据该要素执行该行为的意思，其中包括了两种情况：仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。本申请的说明书中记载了大量的技术特征，分布在各个技术方案中，如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话，会使得说明书过于冗长。为了避免这个问题，本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征，都可以自由地互相组合，从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载)，除非这种技术特征的组合在技术上是不可行的。例如，在一个例子中公开了特征A+B+C，在另一个例子中公开了特征A+B+D+E，而特征C和D是起到相同作用的等同技术手段，技术上只要择一使用即可，不可能同时采用，特征E技术上可以与特征C相组合，则，A+B+C+D的方案因技术不可行而应当不被视为已经记载，而A+B+C+E的方案应当视为已经被记载。

本发明的主要优点包括：

1.本发明的方法可以对针对孤独症的以家庭为单位的大样本量的基因检测数据实现高通量、快速分析。

2.本发明的方法可以灵活处理不同格式的数据文件，且可以方便的扩大待测样本量。

3.本发明的方法允许添加更多参数，减少有效信息丢失，分析结果更准确。

4.本发明的方法得到的结果，能够更真实反映突变的实际情况，从而能够在孤独症群体中找到相关突变基因。

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

实施例1

需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明。

如图1所示，基于卷积神经网络过滤的个体变异数据获取和用于群体分析的个体预检测变异数据获取，包括如下步骤：

步骤S1，待处理数据的类型判断、质量控制和整理。

步骤S2，测序数据的拼接和比对。对已经标记过接头的测序数据的比对，然后根据已知变异位点数据库进行碱基质量值计算，进一步优化比对结果，得到最终用于变异检测的优质比对数据。

上述实施例提供了一种变异检测方法，为不同类型的待处理数据提供相应检测过程。比对数据的碱基质量值重校正，使得后续的变异检测成功率提高。本申请解决了相关技术针对各类比对数据的变异检测方法功能简陋、操作复杂的问题，在保证检测效力和降低假阳性的前提下，规范了用户进行变异检测的流程。

上述实施例中，步骤S1，待处理数据的类型判断、质量控制和整理，可以包括如下步骤：

步骤S1.01a和步骤S1.01b，待处理数据的类型判断。待处理数据为fastq格式的原始测序数据，则进入步骤S1.02a；待处理数据为bam格式的已比对数据，则进入步骤S1.02b。

步骤S1.02a，fastq格式原始测序数据的质量控制，包括测序数据的质量验证和低质量测序数据的排除，得到fastq格式的优质测序数据。

步骤S1.02b，bam格式已比对数据的还原，即将已按照参考基因组完成拼接的测序数据，还原为没有拼接的数据，目的是得到含有RG(ReadGroups)参数的bam格式预比对数据。

步骤S1.03，添加参数和格式转换，即针对步骤S1.02a中得到的优秀测序数据添加RG参数，并进行格式转换，得到含有RG参数的bam格式预比对数据。

步骤S1.04，标记步骤S1.02b或步骤S1.03中得到的预比对数据中的接头序列，得到标记接头序列的bam格式预比对数据。

本发明提出的数据处理工艺中，初始的原材料数据只存在两种格式：fastq格式和bam格式。目前市面上并无针对bam文件的数据处理方法。步骤S1赋予了本发明数据处理工艺对不同类型数据的处理能力。

如果作为原材料的数据是fastq格式的“测序数据”，则能够通过步骤S1.01a的判断，进入面向fastq格式的步骤S1.02a的质量控制流程；如果作为原材料的数据来源于已经被分析过的bam格式的“已比对数据”，则不能通过步骤S1.01a的判断，但可以通过S1.01b的判断，进入步骤S1.02b的“比对还原”流程。

目前现存的数据处理方法，只能在比对过后的bam文件中，添加有限的RG参数，损失了大量有效信息，不利于后续数据的近一步分析。步骤S1.04、步骤S2.06和步骤S2.07赋予了本发明数据处理工艺添加更多参数(tag)的能力，使得后续数据分析过程更为准确。

本发明中添加的参数(tag)

上述实施例中，步骤S2，测序数据的拼接和比对，可以包括如下步骤：

步骤S2.06，根据参考基因组序列，将测序序列进行拼接和比对，得到不含RG参数的贫参数比对数据。本步骤中的参考基因组序列，特别指含有alternate contigs和decoycontigs的GRCh38版本的参考基因组，

步骤S2.07，整合步骤S2.06得到的贫参数比对数据和步骤S1.02a或步骤S1.03得到的bam格式预比对数据，得到含有RG参数的富参数比对数据。

步骤S2.08，标记步骤S2.07得到的富参数比对数据中由于测序过程中由于PCR导致的重复测序的序列，得到去除了重复序列的去重比对数据。

步骤S2.09，根据已知的变异位点数据库，针对步骤S2.08得到的去重比对数据，计算碱基质量值，得到碱基质量值计算结果。

上述实施例中，步骤S3，将优质比对数据进行个体变异检测和个体变异预检测，可以包括如下步骤：

步骤S3.11，根据S2.10得到的优质比对数据，进入两个平行的子流程。群体分析的流程，按照步骤S3.12，先进行个体变异预检测；非群体分析的流程，按照步骤S3.13，直接进行个体变异检测。

步骤S3.12，将S2.10得到的优质比对数据，进行个体变异预检测，得到个体的预检测变异数据，留待群体分析时使用。

步骤S3.13，将S2.10得到的优质比对数据，直接进行个体变异检测，得到个体变异数据。

步骤S3.14，根据已知的变异位点数据库，采用卷积神经网络方法，对步骤S3.13的个体变异数据进行过滤，得到基于卷积神经网络过滤的个体变异数据。

步骤S3实现了进行群体变异检测前和变异检测过滤前的数据准备工作。

在步骤S4.16进行群体变异检测之前，需要将每个样本bam格式的优质比对数据，在步骤S3.12进行变异的预检测，得到gvcf文件。

目前现存的数据处理方法，缺少步骤S3，特别是步骤S3.12的数据处理过程，不经过gvcf文件的过滤，而是直接得到vcf格式的变异数据。

目前现存的数据处理方法，在处理大规模的孤独症样品时，会产生两种结果：

一种结果是，缺少gvcf文件的过渡，只能直接输入bam格式的文件，使用步骤S4.16进行群体变异数据的检测，消耗大量计算资源和时间。如同时处理200个样本的数据，将花费一个月的时间，且不能灵活进行样本的叠加：即使仅增加了一个样本，也需要将一个月的检测步骤重新进行一次。

另一种结果是，将每个样本的bam文件单独检测，生成vcf格式的单个样本的变异数据。在这种情况下，所谓群体变异数据，仅仅是一个个vcf文件机械结合所得到的结果，无法体现由样本数增加所产生的数据质量的优势，更无法对孤独症为代表的高发病率疾病进行遗传分析。

本发明提出的数据处理工艺中，增加了一个变异预检测的步骤S3.12，使得处理大样本群体数据时，在bam格式和vcf格式之间，产生了一个过渡的gvcf文件，并在步骤S4.15对gvcf文件进行合并。保证了同时对所有群体样本进行变异检测，既节省了时间，又提高了精度。在增加新样品时，只要合并新的gvcf文件即可，解决了传统数据处理流程不能实现的“N+1”的问题。

如图2所示，本申请上述实施例中，群体变异数据的获取和过滤可以包括如下步骤：

步骤S4，群体变异数据的检测。即将个体预检测变异数据进行合并后，得到群体预检测变异数据，再进行群体变异检测。

步骤S5，群体变异数据的过滤。即分别计算群体变异数据的单核苷酸变异质量值和插入或缺失质量值，并根据这两个质量值对群体变异数据进行过滤，得到优质群体变异数据。

步骤S6，优质群体变异数据的进一步处理和过滤。即根据已知变异位点数据库和家系信息，对优质群体变异数据进行再次过滤，并标记同一家系中的新生突变。

上述实施例中，步骤S4，群体变异数据的检测，可以包括如下步骤：

步骤S4.15，将步骤S3.12得到的个体预检变异测数据进行合并，得到群体预检测变异数据。

上述实施例中，步骤S5，群体变异数据的过滤，可以包括如下步骤：

步骤S5.17,计算步骤S4.16得到的群体变异数据中，单核苷酸变异(SNP)的变异质量值。

步骤S5.18，计算步骤S4.16得到的群体变异数据中，插入或缺失(InDels)的变异质量值。

上述实施例中，步骤S6，优质群体变异数据的进一步处理和过滤，可以包括如下步骤：

步骤S6.20，根据家系信息和已知的变异位点数据库，计算优质群体变异数据的后验概率。

步骤S6.21，根据自定义参数，对步骤S6.20得到的结果进行再次过滤。

上述实施例中，步骤S7，将最终群体变异数据拆分为优质个体变异数据，可以包括如下步骤：

步骤S7.23，对步骤S6.22得到的最终群体变异数据中的新生突变，进行多重检验。

步骤S7.24，对步骤S6.22得到的最终群体变异数据进行拆分，得到优质个体变异数据。

步骤S7.25，根据步骤S3.14得到的基于卷积神经网络过滤的个体变异数据，和步骤S7.23新生突变多重检验的结果，对步骤S7.24得到的优质个体变异数据进行过滤，得到最终个体变异数据。

通过图2的群体变异的检测和过滤之后，以千人基因组数据集中的样本NA12878为例，可以看到，和只进行个体变异检测的数据(表1)相比，本发明的方法的分析结果(表2)，对于同样的位点，20号染色体10000211位点C>T的突变，优化及增加了多项信息，包括突变质量数据QUAL值的改变，由326.77变为1765.16；Cl ippingRankSum值由-1.162变为-1.147e+00；DP值由35变为97；MLEAC值由1变为4；MLEAF值由0.500变为0.667；MQRankSum值由0.623变为1.21；还包括多项数据的增加，如增加了AC值为4，增加了AF值为0.667，增加了AN值为6，增加了FS值为0.809，增加了QD值为18.58，增加了SOR值为0.831等。

表1，只进行个体变异检测的测序数据范例：

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA12878

20 10000204.A<NON_REF>..END＝10000210 GT：DP：GQ：MIN_DP：PL0/0：33：84：31∶0，84，1260

20 10000211.C T，<NON_REF>326.77.BaseQRankSum＝2.340；ClippingRankSum＝-1.162；DP＝35；MLEAC＝1，0；MLEAF＝0.500，0.00；MQ＝60.00；MQRankSum＝0.623；ReadPosRanksum＝0.152 GT：AD：DP：GQ：PL：SB 0/1：21，14，0：35：99：355，0，526，418，568，986：12，9，7，7

20 10000212.A<NON_REF>..END＝10000216 GT：DP：GQ：MIN_DP：PL 0/0：35：90：33：0，90，1350

表2，进行群体变异检测后的测序数据范例：

#CHROM POSID REF ALT QUAL FILTER INFO FORMAT NA12877 NA12878 NA12882

20 10000117.C T 1606.16.AC＝4；AF＝0.667；AN＝6；BaseQRankSum＝1.66；ClippingRankSum＝0.340；DP＝85；FS＝5.718；MLEAC＝4；MLEAF＝0.667；MQ＝60.36；MQRankSum＝1.45；QD＝18.90；ReadPosRankSum＝1.62；SOR＝1.503GT：AD：DP：GQ：PL 0/1：17，15：32：99：399，0，439 0/1：11，12：23：99：291，0，2921/1：0，30：30：90：948，90，0

20 10000211.C T 1765.16.AC＝4；AF＝0.667；AN＝6；BaseQRankSum＝2.34；ClippingRankSum＝-1.147e+00；DP＝97；FS＝0.809；MLEAC＝4；MLEAF＝0.667；MQ＝60.00；MQRankSum＝1.21；QD＝18.58；ReadPosRankSum＝0.152；SOR＝0.831GT：AD：DP：GQ：PL 0/1∶13，10：23：99：243，0，341 0/1：21，14：35：99：355，0，526 1/1：0，37：37：99：1199，111，0

20 10000439.T G 1982.13.AC＝5；AF＝0.833；AN＝6；BaseQRankSum＝1.31；ClippingRankSum＝0.549；DP＝103；FS＝0.000；MLEAC＝5；MLEAF＝0.833；MQ＝60.00；MQRankSum＝0.972；QD＝19.82；ReadPosRankSum＝1.56；SOR＝0.83GT：AD：DP：GQ：PL 0/1∶18，12：30：99：208，0，455 1/1：0，29：29：86：795，86，01/1∶1，40；41：99：1010，110，0

如图3所示，本申请上述实施例中，变异数据的注释、功能和致病性分析，可以包括以下步骤。

步骤S8.26，根据已知的变异位点数据库，对步骤S7.25得到的最终个体变异数据，进行位点信息注释和变异功能预测。

步骤S8.27，根据S8.26得到的注释和功能预测结果，结合TADA等统计学工具，进行变异的致病性分析。

示例，已报道的MECP2基因的注释结果：

MECP2，chrX，154030948，G＞A，ENST00000303391.11：c.880C＞T，ENSP00000301948.6：p.Arg294Ter

示例，未报道过的KCNV1基因的注释结果：

KCNV1，chr8，109968150，G＞A，ENST00000297404.1：c.1441C＞T，ENSP00000297404.1：p.Arg481Ter

由上可见，通过本发明的方法所得注释中的各项结果(如QUAL值等)，能够更真实反映突变的实际情况，从而能够在孤独症群体中找到相关突变基因。例如，本发明的方法成功筛选出了MECP2基因等已知的与孤独症相关的基因，还筛选了之前未报到过的KCNV1基因等基因与孤独症相关，从而可以提供新的孤独症相关基因，用于孤独症的筛选和预测，并提高预测的准确性。

在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中，以便在必要时可以作为修改的依据。此外应理解，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

Claims

1.一种针对孤独症基因检测的数据分析方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，在步骤III中，还包括基于所述的孤独症基因的注释结果和功能预测结果，对群体的孤独症进行致病性分析。

3.如权利要求1所述的方法，其特征在于，步骤I中，包括如下步骤：

4.如权利要求1所述的方法，其特征在于，步骤II中，包括如下步骤：

5.如权利要求4所述的方法，其特征在于，步骤II中，步骤S4，包括如下步骤：

6.如权利要求4所述的方法，其特征在于，步骤S5，包括如下步骤：

7.如权利要求4所述的方法，其特征在于，步骤S6，包括如下步骤：

8.一种针对孤独症基因检测的数据分析装置，该装置包括：

数据输入模块，用于输入待分析的待处理数据；

孤独症基因检测模块，所述孤独症基因检测模块被配置为执行权利要求1中所述的方法，从而获得孤独症基因的注释结果和功能预测结果；

9.一种针对孤独症基因检测的数据分析系统，其特征在于，包括：

存储器，用于存储计算机可执行指令；以及

处理器，用于在执行所述计算机可执行指令时实现如权利要求1所述的方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如权利要求1所述的方法中的步骤。