CN117746989B - 变异描述信息的处理方法、装置及电子设备 - Google Patents

变异描述信息的处理方法、装置及电子设备 Download PDF

Info

Publication number
CN117746989B
CN117746989B CN202410185961.8A CN202410185961A CN117746989B CN 117746989 B CN117746989 B CN 117746989B CN 202410185961 A CN202410185961 A CN 202410185961A CN 117746989 B CN117746989 B CN 117746989B
Authority
CN
China
Prior art keywords
mutation
amino acid
sequence
variant
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410185961.8A
Other languages
English (en)
Other versions
CN117746989A (zh
Inventor
穆婷
张秀娟
李淑娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Berry Genomics Co Ltd
Original Assignee
Berry Genomics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Berry Genomics Co Ltd filed Critical Berry Genomics Co Ltd
Priority to CN202410185961.8A priority Critical patent/CN117746989B/zh
Publication of CN117746989A publication Critical patent/CN117746989A/zh
Application granted granted Critical
Publication of CN117746989B publication Critical patent/CN117746989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种变异描述信息的处理方法、装置及电子设备,方法包括:在变异描述信息中的变异HGVS描述涉及关联转录本的编码核苷酸变化或氨基酸变化时,根据VCF文件、参考基因组序列文件和基因功能注释文件,获取变异关联转录本的CDS序列和变异CDS序列、变异蛋白编码长度,对变异描述信息中的氨基酸水平的变异描述信息进行校验与修正;根据基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息;基于该信息,对变异描述信息中的DNA水平变异描述信息和氨基酸水平变异描述信息进行校验与修正。本申请能够对变异描述信息进行自动化校验与修正,提升信息准确性与规范性。

Description

变异描述信息的处理方法、装置及电子设备
技术领域
本申请涉及基因技术领域,尤其是涉及一种变异描述信息的处理方法、装置及电子设备。
背景技术
基因检测技术的发展也加快了临床对单基因疾病种类的认知,单基因疾病检测报告准确性与规范性也非常重要。现阶段,造成变异报出不准确的因素包括变异分类规则的使用、解读人员获取的信息、证据应用、专家判断等方面存在的差异。变异解读的不准确可能导致遗传诊断结果的不一致,从而影响遗传疾病的治疗和预后。
解读人员获取的信息包括变异相关信息、表型、文献及历史报出阳性位点等,此步骤当前主要由解读人员进行人工审核,人工介入的程度较高,因此,解读效率与解读结果准确性都可能存在一定程度的限制。
发明内容
本申请的目的在于提供一种变异描述信息的处理方法、装置及电子设备,对变异描述信息进行自动化校验与修正,提升此部分信息的准确性与规范性,进一步提高解读效率和基因检测报告的准确性。
第一方面,本申请提供一种变异描述信息的处理方法,方法包括:获取变异描述信息;变异描述信息为通过变异注释软件,基于参考基因组序列文件和基因功能注释文件对VCF文件中的遗传变异信息进行注释得到的;判断变异描述信息中的变异HGVS描述是否涉及关联转录本的编码核苷酸变化或氨基酸变化;如果是,根据VCF文件、参考基因组序列文件和基因功能注释文件,获取变异关联转录本的CDS序列和变异CDS序列;基于变异关联转录本的变异CDS序列获取变异蛋白编码长度;根据CDS序列、变异CDS序列和变异蛋白编码长度,对变异描述信息中的氨基酸水平的变异描述信息进行校验与修正;根据基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息;基于基因组组装问题关联转录本位置信息,对变异描述信息中的DNA水平变异描述信息和氨基酸水平变异描述信息进行校验与修正。
进一步地,上述根据VCF文件、参考基因组序列文件和基因功能注释文件,获取变异关联转录本的CDS序列和变异CDS序列的步骤,包括:获取VCF文件中的遗传变异信息;遗传变异信息包括:变异关联的染色体名称、变异在参考基因组上的物理起始坐标、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列,变异在参考基因组上的物理终止坐标;根据变异在参考基因组上的物理起始坐标、变异在参考基因组上的物理终止坐标、以及基因功能注释文件中变异关联转录本的CDS起始位置、CDS终止位置,以及所有外显子起始位置和外显子终止位置,从参考基因组序列文件中确定出变异关联转录本的CDS序列、HEAD序列、和TAIL序列;当变异在参考基因组上的物理起始坐标、变异在参考基因组上的物理终止坐标位于同一个CDS子序列上时,将VCF文件中记录的变异位点发生突变的碱基序列作为变异序列;将HEAD序列、变异序列、TAIL序列连接,对负链的编码序列基于连接的序列取反向互补序列,得到变异关联转录本的变异CDS序列。
进一步地,上述根据CDS序列、变异CDS序列和变异蛋白编码长度,对变异描述信息中的氨基酸水平的变异描述信息进行校验与修正的步骤,包括:从变异描述信息中,确定格式为指定格式的氨基酸水平变异描述信息;分别针对CDS序列、变异CDS序列,以三个碱基为一个单位,按照氨基酸密码子进行转换,得到蛋白编码序列和变异蛋白编码序列;从第一位开始,依次比较蛋白编码序列和变异蛋白编码序列是否一致,当第一次出现不一致时,将该处蛋白编码序列上的氨基酸序列描述为第一氨基酸,将该处变异蛋白编码序列上的氨基酸序列描述为第二氨基酸,将该位置描述为氨基酸变化位置;当变异蛋白编码长度为指定字符时,变异终止密码子位置记为指定字符,否则,变异终止密码子位置记为变异蛋白编码长度-氨基酸变化位置+1;判断指定格式的氨基酸水平变异描述信息中,第一氨基酸为Met,氨基酸变化位置为1时,氨基酸水平变异描述记为p.Met1?;判断指定格式的氨基酸水平变异描述信息中的第一氨基酸为时,氨基酸水平变异描述记为“p.”“第一氨基酸”“氨基酸变化位置”“第二氨基酸”“ext”“/>”“变异终止密码子位置”;不满足以上两种判断条件时,氨基酸水平变异描述记为“p.”“第一氨基酸”“氨基酸变化位置”“第二氨基酸”“fs”“/>”“变异终止密码子位置”。
进一步地,上述根据基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息的步骤,包括:基于基因功能注释文件获取转录本5’UTR总长度;从第一个外显子开始判断,确定外显子内存在的与参考基因组序列文件中的基因组序列不完全匹配的序列在外显子总长度的目标位置;如果目标位置大于5’UTR总长度,以三碱基为一个单位,不匹配序列总长涉及三碱基单位数目记为错配氨基酸长度;确定目标位置-5’UTR总长度-3错配氨基酸长度,为编码DNA错配位置;每个编码DNA错配位置对应一个错配氨基酸长度。
进一步地,上述基于转录本位置信息,对变异描述信息中的DNA水平变异描述信息和氨基酸水平变异描述信息进行校验与修正的步骤,包括:判断变异关联转录本存在已记录的编码DNA错配位置和错配氨基酸长度时,针对DNA水平变异描述信息中存在第一指定位置的情况,将转录本编码DNA错配位置从大到小进行判断,如果第一指定位置大于编码DNA错配位置,将第一指定位置更新为原数值加三倍的错配氨基酸长度;第一指定位置包括:变异在编码DNA序列上位置;对转录本编码DNA错配位置从大到小进行判断,计算编码DNA错配位置含有完整3碱基的单位数目,记为氨基酸错配位置;针对氨基酸水平变异描述信息中存在第二指定位置的情况,将转录本氨基酸错配位置从大到小进行判断,如果第二指定位置大于氨基酸错配位置,将第二指定位置更新为原数值加错配氨基酸长度;第二指定位置包括:氨基酸变化位置;针对氨基酸水平变异描述信息中存在氨基酸变化位置和变异终止密码子位置的情况,将转录本氨基酸错配位置从大到小进行判断,当氨基酸变化位置与变异终止密码子位置之和大于氨基酸错配位置时,如果氨基酸变化位置存在对应的错配氨基酸长度,将变异终止密码子位置更新为:原数值+氨基酸变化位置与变异终止密码子位置之和对应的错配氨基酸长度-氨基酸变化位置对应的错配氨基酸长度;如果氨基酸变化位置不存在对应的错配氨基酸长度,将变异终止密码子位置更新为:原数值+氨基酸变化位置与变异终止密码子位置之和对应的错配氨基酸长度。
进一步地,上述方法还包括:对VCF文件中的变异关联的染色体名称、变异在参考基因组上的物理起始坐标、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列进行格式化处理,得到变异格式化信息;基于变异ID信息、变异格式化信息、变异标签信息、chrX与chrY高度同源区域信息、待测个体性别标记值,对变异基因型进行标注,得到变异基因型信息;基于变异ID信息、变异标签信息进行信息提取和转化,确定变异测序深度相关信息。
进一步地,上述对VCF文件中的变异关联的染色体名称、变异在参考基因组上的物理起始坐标、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列进行格式化处理,得到变异格式化信息的步骤,包括:确定初始变异信息,包括:变异关联的染色体名称、根据变异在参考基因组上的物理起始坐标确定的变异起始位置、根据所述变异起始位置和变异位点在参考基因组上的碱基序列长度,确定的变异终止位置、根据变异位点在参考基因组上的碱基序列确定的变异关联参考基因组碱基序列、根据变异位点发生突变的碱基序列确定的变异关联变异碱基序列;针对变异关联参考基因组碱基序列和变异关联变异碱基序列执行以下前端比较步骤:比较变异关联参考基因组碱基序列与变异关联变异碱基序列的第一个碱基序列,若二者值相同,则分别从变异关联参考基因组碱基序列与变异关联变异碱基序列中去掉第一个碱基序列,同时将变异起始位置在原数值上加一,继续执行前端比较步骤,直至变异关联参考基因组碱基序列与变异关联变异碱基序列的第一个碱基序列的值不同,或者,变异关联参考基因组碱基序列或变异关联变异碱基序列无碱基序列剩余;针对变异关联参考基因组碱基序列和变异关联变异碱基序列执行以下后端比较步骤:比较变异关联参考基因组碱基序列与变异关联变异碱基序列的最后一个碱基序列,若二者值相同,则分别从变异关联参考基因组碱基序列与变异关联变异碱基序列中去掉最后一个碱基序列,同时将变异终止位置在原数值上减一,继续执行后端比较步骤,直至变异关联参考基因组碱基序列与变异关联变异碱基序列的最后一个碱基序列的值不同,或者,变异关联参考基因组碱基序列或变异关联变异碱基序列无碱基序列剩余;在变异关联参考基因组碱基序列无碱基序列剩余时,以指定字符进行表示,同时变异起始位置减一;在变异关联变异碱基序列无碱基序列剩余时,以指定字符进行表示,得到包括:变异关联格式化染色体名称、变异格式化起始位置、变异格式化终止位置、变异关联格式化参考基因组碱基序列、变异关联格式化变异碱基序列的变异格式化信息。
进一步地,上述基于变异ID信息、变异格式化信息、变异标签信息、chrX与chrY高度同源区域信息、待测个体性别标记值,对变异基因型进行标注,得到变异基因型信息的步骤,包括:从变异ID信息中读取变异标注ID序号;从变异标签信息中读取变异GT标签等位基因对应数值;等位基因对应数值包括第一等位基因数值与第二等位基因数值;获取chrX与chrY高度同源区域信息、和待测个体性别标记值;如果第一等位基因数值与第二等位基因数值均为0,或者,第一等位基因数值与第二等位基因数值均与变异标注ID序号不同,则确定变异基因型为野生型;如果待测个体性别标记值为M,变异关联格式化染色体名称为chrX,并且变异格式化起始位置和变异格式化终止位置均不在chrX与chrY高度同源区域内,确定变异基因型为半合子;如果第一等位基因数值与第二等位基因数值相同,且第一等位基因数值与变异标注ID序号相同,确定变异基因型为纯合型;如果第一等位基因数值与第二等位基因数值不同,第一等位基因数值与变异标注ID序号相同,或第二等位基因数值与变异标注ID序号相同,确定变异基因型为杂合型;如果第一等位基因数值与第二等位基因数值均不满足上述情况,确定变异基因型为基因型缺失型。
进一步地,上述变异标签信息包括变异AD标签、变异DP标签;基于变异ID信息、变异标签信息进行信息提取和转化,确定变异测序深度相关信息的步骤,包括:从变异AD标签对应值,提取变异关联参考碱基reads数、变异关联变异碱基reads数;基于变异DP标签对应值,确定变异位点总测序深度;利用变异关联变异碱基reads数除以变异位点总测序深度,得到变异关联的变异比例;将变异关联参考碱基reads数、变异关联变异碱基reads数、变异位点总测序深度和变异关联的变异比例,作为变异测序深度相关信息。
第二方面,本申请还提供一种变异描述信息的处理装置,装置包括:信息获取模块,用于获取变异描述信息;变异描述信息为通过变异注释软件,基于参考基因组序列文件和基因功能注释文件对VCF文件中的遗传变异信息进行注释得到的;判断模块,用于判断变异描述信息中的变异HGVS描述是否涉及关联转录本的编码核苷酸变化或氨基酸变化;修正模块,用于在判断结果为是时,根据VCF文件、参考基因组序列文件和基因功能注释文件,获取变异关联转录本的CDS序列和变异CDS序列;基于变异关联转录本的变异CDS序列获取变异蛋白编码长度;根据CDS序列、变异CDS序列和变异蛋白编码长度,对变异描述信息中的氨基酸水平的变异描述信息进行校验与修正;根据基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息;基于基因组组装问题关联转录本位置信息,对变异描述信息中的DNA水平变异描述信息和氨基酸水平变异描述信息进行校验与修正。
第三方面,本申请还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面所述的方法。
第四方面,本申请还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述第一方面所述的方法。
本申请提供的变异描述信息的处理方法、装置及电子设备中,首先获取变异描述信息;变异描述信息为通过变异注释软件,基于参考基因组序列文件和基因功能注释文件对VCF文件中的遗传变异信息进行注释得到的;然后判断变异描述信息中的变异HGVS描述是否涉及关联转录本的编码核苷酸变化或氨基酸变化;如果是,根据VCF文件、参考基因组序列文件和基因功能注释文件,获取变异关联转录本的CDS序列和变异CDS序列;基于变异关联转录本的变异CDS序列获取变异蛋白编码长度;根据CDS序列、变异CDS序列和变异蛋白编码长度,对变异描述信息中的氨基酸水平的变异描述信息进行校验与修正;根据基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息;基于基因组组装问题关联转录本位置信息,对变异描述信息中的DNA水平变异描述信息和氨基酸水平变异描述信息进行校验与修正。本申请能够对变异描述信息进行自动化校验与修正,提升此部分信息的准确性与规范性,进一步提高解读效率和基因检测报告的准确性。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种变异描述信息的处理方法的流程图;
图2为本申请实施例提供的另一种变异描述信息的处理方法的流程图;
图3为本申请实施例提供的另一种变异描述信息的处理方法的流程图;
图4为本申请实施例提供的一种变异描述信息的处理装置的结构框图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合实施例对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着高通量测序技术在临床应用中的快速发展,基因检测技术在各类遗传病精确诊断、指导治疗、评估预后及疾病预防与控制等方面的应用逐步扩大。
单基因疾病是由单个基因变异引起的遗传病,种类繁多,综合发病率较高。基因变异解读对于诊断单基因疾病至关重要。当前单基因疾病检测流程主要包括对待测样本进行测序,对测序数据进行质控、比对、变异检测、变异注释与自动化评级,结合变异相关信息、表型、文献及历史报出阳性位点等信息对解读结果进行人工审核,生成基因检测报告。
其中,对待测样本进行测序,包括DNA提取、文库构建、上机测序等步骤。对测序数据进行质控、比对、变异检测、变异注释与自动化评级,以上数据分析步骤一般使用经性能验证的商业软件或自研软件进行自动化分析。结合变异相关信息、表型、文献及历史报出阳性位点等信息对解读结果进行人工审核,该步骤一般需要解读人员基于各项信息和规则,人工进行处理。生成基因检测报告,一般可在前期分析与审核内容基础上,利用报告系统按照指定格式自动化生成。当前单基因疾病检测通过测序数据进行质控、比对、变异检测、变异注释与自动化评级,对解读结果进行人工审核,最终生成基因检测报告。
人工审核过程中,解读人员会结合变异相关信息、表型、文献及历史报出阳性位点等信息对解读结果进行审核,保证基因检测报告的规范性与准确性。而其中涉及的部分变异相关信息,现阶段没有工具可以进行信息的自动化提取、校验与修正,需要解读人员基于一定的规则以及数据库收录情况,人工进行部分信息的转换、校验与修正,此过程部分规则较为繁琐,极大限制了解读效率,并且不同解读人员在解读规则理解以及数据获取等方面的个人差异,对变异报出的一致性和基因检测报告的准确性也可能造成一定的影响。
VEP是当前进行变异注释的主流软件,在实际使用过程中,发明人发现VEP未完全解决以下问题:
涉及正负链转换、阅读框变化以及转录本上特殊边界处核苷酸序列与氨基酸序列的转换的相关计算中,变异注释结果中氨基酸水平的变异描述存在错误,错误类型包括氨基酸变化序列及位置判断错误(比如HGVS规范描述为p.Leu185Valfs464,VEP描述为p.Leu185Valfs/>?),变异终止密码子位置计算错误(比如HGVS规范描述为p.His357Argfs/>15,VEP描述为p.His357Argfs/>41),对于氨基酸序列延长的变异类型描述不规范(比如HGVS规范描述为p./>594Aspext/>52,VEP描述为p./>594Aspfs/>?;HGVS规范描述为p./>982Leuext18,VEP描述为p./>982Leufs/>19)。
当参考基因组序列组装存在误差时,注释软件基于参考基因组序列和基因功能注释文件进行注释时,注释结果中会出现与实际转录本序列不一致、不准确的变异描述(比如HGVS规范描述为c.1671del,VEP描述为c.1668del;HGVS规范描述为c.468_470del,VEP描述为c.465_467del;HGVS规范描述为p.Pro106Leufs25,VEP描述为p.Pro105Leufs/>25;HGVS规范描述为p.Arg246Gln,VEP描述为p.Arg245Gln;HGVS规范描述为p.Phe252Serfs/>27,VEP描述为p.Phe251Serfs/>?)。
此类错误会导致变异的氨基酸水平描述不规范,与数据库收录不一致,从而导致解读人员查找该变异关联文献结果不准确以及可能影响最终报出结果的准确性和一致性。而此类问题目前无法实现校验与修正过程的自动化,导致人工审核过程效率低下,容易产生错误。
通过VEP,基于参考基因组序列文件和基因功能注释文件对变异进行注释时,发现存在以上列举描述错误。
采用VEP基于参考基因组序列文件和VEP cache文件对变异进行注释时,发现变异终止密码子位置计算错误类型得到改善,但其他类型错误仍然描述错误。同时基于参考基因组序列文件和VEP cache文件对变异进行注释的分析方式存在以下问题:1.不能根据临床或实际分析需要灵活指定基因功能注释文件版本,需依赖VEP官方更新相关版本,而VEP官方更新版本与当前最新版本可能存在较大的时间差,无法保证及时使用最新版本的基因功能注释文件用于基因检测和解读,比如当前VEP最新版本cache文件(110版本)中,GRCh38参考基因组使用的基因功能注释文件与当前最新版本一致(2023.03.21),但GRCh37参考基因组的基因功能注释文件当前最新版本为2022.03.07更新的版本,而VEP cache当前使用的基因功能注释文件版本仍为2020.10.26,此外GRCh38和GRCh37参考基因组使用的HGMD数据库版本均为2020.4,GRCh38参考基因组使用Clinvar数据库版本为2023.01,GRCh37参考基因组使用Clinvar数据库版本为2020.12,与当前HGMD最新版本(2023.2)、Clinvar最新版本(2023.10)均存在较大时间差;2.相较于基于参考基因组序列文件和基因功能注释文件的分析方式,基于参考基因组序列文件和VEP cache文件进行分析,需要占用更多的存储和计算资源。
基于此,本申请实施例提供一种变异描述信息的处理方法、装置及电子设备,对变异描述信息进行自动化校验与修正,提升此部分信息的准确性与规范性,进一步提高解读效率和基因检测报告的准确性。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种变异描述信息的处理方法进行详细介绍。
图1为本申请实施例提供的一种变异描述信息的处理方法的流程图,该方法具体包括以下步骤:
步骤S102,获取变异描述信息;变异描述信息为通过变异注释软件,基于参考基因组序列文件和基因功能注释文件对VCF文件中的遗传变异信息进行注释得到的;
具体实施时,可以通过VEP变异注释软件,基于参考基因组序列文件、基因功能注释文件及注释数据库文件,对遗传变异信息进行注释,得到至少包含变异关联的基因功能注释信息、人群频率信息、相关文献与研究评级信息、剪接预测软件注释信息、基因关联疾病与表型信息,生成包含变异描述信息的变异注释文件。VEP是一个perl编写的命令行工具,可以在安装了perl解释器的多种操作系统上执行。
HGVS是一种用于对变异进行统一描述的命名规则,以便于学术研究记录和计算机识别。目前基因检测行业以及科研学术领域普遍应用HGVS规则对变异进行命名。HGVS对变异的命名可以从DNA、RNA、氨基酸三个水平进行描述,解读和检测报告一般会使用DNA和氨基酸水平的变异描述。
由于氨基酸水平的变异描述涉及正负链转换、阅读框变化以及核苷酸序列与氨基酸序列的转换,在分析与报告过程中可能发现变异注释结果中氨基酸水平的变异描述存在错误,错误类型包括氨基酸变化序列及位置判断错误、变异终止密码子位置计算错误、对于氨基酸序列延长的变异类型描述不规范等,此类错误会导致变异的氨基酸水平描述不规范,与数据库收录不一致,从而导致解读人员查找该变异关联文献结果不准确以及可能影响最终报出结果的准确性和一致性。因此,首先执行以下判断步骤:
步骤S104,判断变异描述信息中的变异HGVS描述是否涉及关联转录本的编码核苷酸变化或氨基酸变化;如果变异描述信息中的变异HGVS描述不涉及关联转录本的编码核苷酸变化或氨基酸变化,则不需要进行后续校验修正步骤,如果变异描述信息中的变异HGVS描述涉及关联转录本的编码核苷酸变化或氨基酸变化,则执行以下校验修正步骤:
步骤S106,如果是,根据VCF文件、参考基因组序列文件和基因功能注释文件,获取变异关联转录本的CDS序列和变异CDS序列;基于变异关联转录本的变异CDS序列获取变异蛋白编码长度;根据CDS序列、变异CDS序列和变异蛋白编码长度,对变异描述信息中的氨基酸水平的变异描述信息进行校验与修正;根据基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息;基于基因组组装问题关联转录本位置信息,对变异描述信息中的DNA水平变异描述信息和氨基酸水平变异描述信息进行校验与修正。
下面对上述步骤S106的校验修正过程进行详细说明:
参见图2所示,上述步骤S106中的“根据VCF文件、参考基因组序列文件和基因功能注释文件,获取变异关联转录本的CDS序列和变异CDS序列”的步骤,具体包括:
步骤S202,获取VCF文件中的遗传变异信息;遗传变异信息包括:变异关联的染色体名称、变异在参考基因组上的物理起始坐标(以下步骤记为位置A)、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列,变异在参考基因组上的物理终止坐标(以下步骤记为位置B);
物理终止坐标计算公式为变异在参考基因组上的物理起始坐标 + 变异位点在参考基因组上的碱基序列长度 - 1。
步骤S204,根据变异在参考基因组上的物理起始坐标、变异在参考基因组上的物理终止坐标、以及基因功能注释文件中变异关联转录本的CDS起始位置、CDS终止位置,以及所有外显子起始位置和外显子终止位置,从参考基因组序列文件中确定出变异关联转录本的CDS序列、HEAD序列、和TAIL序列;
具体实施时,首先,判断变异关联转录本的CDS序列在之前变异的分析过程中是否提取过,如果已提取过该变异关联转录本的CDS序列,则以下步骤只提取变异CDS序列;如果之前未有提取,则基于参考基因组序列和基因功能注释文件,提取并记录变异关联转录本的完整CDS序列和变异关联转录本的变异CDS序列。
基于基因功能注释文件中转录本的CDS起始位置和CDS终止位置,结合所有外显子起始位置和终止位置,基于参考基因组序列和正负链信息,提取完整的CDS序列和变异CDS序列。
(S2041)如果CDS起始位置大于外显子终止位置,则跳过;
(S2042)如果CDS起始位置大于或等于外显子起始位置并且CDS终止位置小于或等于外显子终止位置,提取自CDS起始位置至CDS终止位置区域序列存为CDS子序列;判断如果位置A大于或等于CDS起始位置,并且位置A小于或等于CDS终止位置,提取CDS起始位置至位置A前一位区域的序列为HEAD子序列;判断如果位置B大于或等于CDS起始位置,并且位置B小于或等于CDS终止位置,提取位置B后一位区域至外显子终止位置的序列为TAIL子序列;
(S2043)如果CDS起始位置大于或等于外显子起始位置,CDS起始位置小于或等于外显子终止位置,并且CDS终止位置大于外显子终止位置,提取自CDS起始位置至外显子终止位置区域序列存为CDS子序列;判断如果位置A大于或等于CDS起始位置,并且位置A小于或等于外显子终止位置,提取CDS起始位置至位置A前一位区域的序列为HEAD子序列;判断如果位置A大于外显子终止位置,提取CDS起始位置至外显子终止位置区域的序列为HEAD子序列;判断如果位置B大于或等于CDS起始位置,并且位置B小于或等于外显子终止位置,提取位置B后一位区域至外显子终止位置的序列为TAIL子序列;
(S2044)如果CDS起始位置小于外显子起始位置,CDS终止位置大于或等于外显子起始位置并且CDS终止位置小于或等于外显子终止位置,提取自外显子起始位置至CDS终止位置区域序列存为CDS子序列;判断如果位置A大于或等于外显子起始位置,并且位置A小于或等于CDS终止位置,提取外显子起始位置至位置A前一位区域的序列为HEAD子序列;判断如果位置B大于或等于外显子起始位置,并且位置B小于或等于CDS终止位置,提取位置B后一位区域至外显子终止位置的序列为TAIL子序列;如果位置B小于外显子起始位置,提取外显子起始位置至外显子终止位置序列存为TAIL子序列;
(S2045)如果CDS起始位置小于外显子起始位置,CDS终止位置大于外显子终止位置,提取自外显子起始位置至外显子终止位置区域序列存为CDS子序列;判断如果位置A大于或等于外显子起始位置,并且位置A小于或等于外显子终止位置,提取外显子起始位置至位置A前一位区域序列存为HEAD子序列;判断如果位置A大于外显子终止位置,提取外显子起始位置至外显子终止位置区域序列存为HEAD子序列;判断如果位置B大于或等于外显子起始位置,并且位置B小于或等于外显子终止位置,提取位置B后一位至外显子终止位置序列存为TAIL子序列;判断如果位置B小于外显子起始位置,提取外显子起始位置至外显子终止位置序列存为TAIL子序列;
(S2046)如果CDS终止位置小于外显子起始位置,提取自外显子起始位置至外显子终止位置序列存为TAIL子序列。
以上规则,从第一个外显子开始进行判断,至最后一个外显子结束,将获取的所有CDS子序列按提取顺序连接,当转录本的编码序列为负链时对连接的序列取反向互补序列,形成完整的CDS序列。将获取的所有HEAD子序列按提取顺序连接形成完整的HEAD序列。将获取的所有TAIL子序列按提取顺序连接形成完整的TAIL序列。
步骤S206,当变异在参考基因组上的物理起始坐标、变异在参考基因组上的物理终止坐标位于同一个CDS子序列上时,将VCF文件中记录的变异位点发生突变的碱基序列作为变异序列;
比如,当位置A、位置B位于同一个CDS子序列上时,变异序列为VCF文件中记录的变异位点发生突变的碱基序列。
步骤S208,将HEAD序列、变异序列、TAIL序列连接,对负链的编码序列基于连接的序列取反向互补序列,得到变异关联转录本的变异CDS序列。
上述步骤S106中的“基于变异关联转录本的变异CDS序列获取变异蛋白编码长度”的具体实施过程如下:
从变异关联转录本的变异CDS序列第一个碱基开始,每三个碱基为一个单位依次读取,直至读到终止密码子为止,计算读取的三碱基单位总数记为变异蛋白编码长度,当读取至最后一个碱基时仍未读取到终止密码子,则变异蛋白编码长度记为“?”。
上述步骤S106中的“根据CDS序列、变异CDS序列和变异蛋白编码长度,对变异描述信息中的氨基酸水平的变异描述结果进行校验与修正”的步骤,具体包括:
(1)从变异描述信息中,确定格式为指定格式的氨基酸水平变异描述信息;
具体的,当氨基酸水平变异描述格式符合以下任意一种格式时,选择对该氨基酸水平变异描述进行进一步校验和修正。
“p.”“氨基酸字符”“数字”“?”(例如p.Glu71?)、“p.”“氨基酸字符”“数字”“氨基酸字符”“fs”“”“?”(例如p.His251Leufs/>?,p./>594Aspfs/>?)、“p.”“氨基酸字符”“数字”“氨基酸字符”“fs”“/>”“数字”(例如p.Phe557Leufs/>37)并且该变异关联转录本为负链。
(2)分别针对CDS序列、变异CDS序列,以三个碱基为一个单位,按照氨基酸密码子进行转换,得到蛋白编码序列和变异蛋白编码序列;
从变异关联转录本的CDS序列第一个碱基开始,每三个碱基为一个单位依次读取,按照氨基酸密码子转换为蛋白编码序列。从变异关联转录本的变异CDS序列第一个碱基开始,每三个碱基为一个单位依次读取,按照氨基酸密码子转换为变异蛋白编码序列。
(3)从第一位开始,依次比较蛋白编码序列和变异蛋白编码序列是否一致,当第一次出现不一致时,将该处蛋白编码序列上的氨基酸序列描述为第一氨基酸,将该处变异蛋白编码序列上的氨基酸序列描述为第二氨基酸,将该位置描述为氨基酸变化位置;当变异蛋白编码长度为指定字符时,变异终止密码子位置记为指定字符,否则,变异终止密码子位置记为变异蛋白编码长度-氨基酸变化位置+1;
(4)判断指定格式的氨基酸水平变异描述信息中,第一氨基酸为Met,氨基酸变化位置为1时,氨基酸水平变异描述记为p.Met1?;
(5)判断指定格式的氨基酸水平变异描述信息中的第一氨基酸为时,氨基酸水平变异描述记为“p.”“第一氨基酸”“氨基酸变化位置”“第二氨基酸”“ext”“/>”“变异终止密码子位置”;
(6)不满足以上两种判断条件时,氨基酸水平变异描述记为“p.”“第一氨基酸”“氨基酸变化位置”“第二氨基酸”“fs”“”“变异终止密码子位置”。
由于当前注释软件都是基于参考基因组序列和基因功能注释文件进行注释,从而得到DNA水平变异描述和氨基酸水平变异描述。当参考基因组序列组装存在一定的误差时,注释结果中会出现不一致、不准确的变异描述。因此需要对基因组组装过程中的不合格表述进行确定。
即上述步骤S106中的“根据基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息“的步骤,具体包括:
(1)基于基因功能注释文件获取转录本5’UTR总长度;从第一个外显子开始判断,确定外显子内存在的与参考基因组序列文件中的基因组序列不完全匹配的序列在外显子总长度的目标位置;如果目标位置大于5’UTR总长度,以三碱基为一个单位,不匹配序列总长涉及三碱基单位数目记为错配氨基酸长度;
(2)确定目标位置-5’UTR总长度-3错配氨基酸长度,为编码DNA错配位置;每个编码DNA错配位置对应一个错配氨基酸长度。每个转录本可能存在多个编码DNA错配位置。
具体实施时,基于基因功能注释文件获取转录本5’UTR总长度。从第一个外显子开始进行判断,如果CDS起始位置大于外显子终止位置,则记录外显子起始位置至外显子终止位置间距离为5’UTR子长度;如果CDS起始位置大于或等于外显子起始位置,并且小于或等于外显子终止位置,则记录外显子起始位置至CDS起始位置前一位间距离为5’UTR子长度;如果CDS起始长度小于外显子起始位置,则终止循环判断。所有5’UTR子长度相加总和即为5’UTR总长度。
转录本序列与参考基因组序列的比对文件包含外显子序列每个碱基在参考基因组序列上的比对情况。例如357=22429N141=3I5964=1094N134=,表示第一个外显子全长357个碱基,能够与参考基因组序列完全匹配,第一个内含子全长22429个碱基,第二个外显子全长6108个碱基,其中前141个碱基能够与参考基因组序列完全匹配,中间3个碱基不能与基因组序列完全匹配,后5964个碱基能够与参考基因组序列完全匹配,第二个内含子全长1094个碱基,第三个外显子全长134个碱基,能够与参考基因组序列完全匹配。
从第一个外显子开始进行判断,错配氨基酸长度LEN初始化赋值为0。
所有外显子长度累计之和为外显子总长度。如果外显子内存在与基因组序列不完全匹配的序列,计算该处不匹配序列起始位置在外显子总长度的位置记为位置A。
如果位置A大于5’UTR总长度,以三碱基为一个单位,该处不匹配序列长度涉及三碱基单位数目记为错配氨基酸子长度,例如不匹配序列长度为1时,错配氨基酸子长度为1;不匹配序列长度为2时,错配氨基酸子长度为1;不匹配序列长度为3时,错配氨基酸子长度为1;不匹配序列长度为4时,错配氨基酸子长度为2,以此类推。记录该处转录本编码DNA错配位置为位置A-5’UTR总长度-错配氨基酸长度LEN3,记录该处错配氨基酸长度基于原数值加上新增的错配氨基酸子长度。每个转录本的编码DNA错配位置有一个对应的错配氨基酸长度。
读取转录本序列与参考基因组序列的比对文件,如果比对文件中记录显示,相较于参考基因组序列,转录本序列存在碱基不完全匹配,则此类转录本可能会出现注释结果不准确的情况,需要对DNA水平变异描述和氨基酸水平变异描述进行校验和修正。
即上述步骤S106中的“基于基因组组装问题关联转录本位置信息,对变异描述信息中的DNA水平变异描述信息和氨基酸水平变异描述信息进行校验与修正”的步骤,具体包括:
(1)判断变异关联转录本存在已记录的编码DNA错配位置和错配氨基酸长度时,针对DNA水平变异描述信息中存在第一指定位置的情况,将转录本编码DNA错配位置从大到小进行判断,如果第一指定位置大于编码DNA错配位置,将第一指定位置更新为原数值加三倍的错配氨基酸长度;第一指定位置包括:变异在编码DNA序列上位置;该位置可以包括:变异在编码DNA序列上起始位置或变异在编码DNA序列上终止位置;
第一种情况:当DNA水平变异描述格式符合“c.”“变异在编码DNA序列上起始位置”“_”“变异在编码DNA序列上终止位置”“其他字符”(例如c.794_803delinsTTTAA);
位置A记为校正后变异在编码DNA序列上起始位置,位置B记为校正后变异在编码DNA序列上终止位置。
该转录本编码DNA错配位置从大到小进行判断(当出现符合条件的编码DNA错配位置时,不再对该转录本上其他编码DNA错配位置进行判断),如果变异在编码DNA序列上起始位置大于编码DNA错配位置,位置A记为变异在编码DNA序列上起始位置加上对应错配氨基酸长度3;如果变异在编码DNA序列上终止位置大于编码DNA错配位置,位置B记为变异在编码DNA序列上终止位置加上对应错配氨基酸长度/>3;DNA水平变异描述记为“c.”“位置A”“_”“位置B”“其他字符”。
第二种情况:当DNA水平变异描述格式符合“c.”“变异在编码DNA序列上位置”“其他字符”(例如c.1185del,c.203C>A);
位置A记为校正后变异在编码DNA序列上位置。
该转录本编码DNA错配位置从大到小进行判断(当出现符合条件的编码DNA错配位置时,不再对该转录本上其他编码DNA错配位置进行判断),如果变异在编码DNA序列上位置大于编码DNA错配位置,位置A记为变异在编码DNA序列上位置加上对应错配氨基酸长度3;DNA水平变异描述记为“c.”“位置A”“其他字符”。
(2)对转录本编码DNA错配位置从大到小进行判断,计算编码DNA错配位置含有完整3碱基的单位数目,记为氨基酸错配位置;
该转录本编码DNA错配位置从大到小进行判断,计算编码DNA错配位置含有完整3碱基的单位数目,记为氨基酸错配位置。(比如编码DNA错配位置为2时,氨基酸错配位置为0;比如编码DNA错配位置为3时,氨基酸错配位置为1;比如编码DNA错配位置为5时,氨基酸错配位置为1),每个转录本编码DNA错配位置有一个对应的氨基酸错配位置。
(3)针对氨基酸水平变异描述信息中存在第二指定位置的情况,将转录本氨基酸错配位置从大到小进行判断,如果第二指定位置大于氨基酸错配位置,将第二指定位置更新为原数值加错配氨基酸长度;第二指定位置包括氨基酸变化位置;该位置可以包括氨基酸变化起始位置或氨基酸变化终止位置;
(4)针对氨基酸水平变异描述信息中存在氨基酸变化位置和变异终止密码子位置的情况,将转录本氨基酸错配位置从大到小进行判断,当氨基酸变化位置与变异终止密码子位置之和大于氨基酸错配位置时,如果氨基酸变化位置存在对应的错配氨基酸长度,将变异终止密码子位置更新为:原数值+氨基酸变化位置与变异终止密码子位置之和对应的错配氨基酸长度-氨基酸变化位置对应的错配氨基酸长度;如果氨基酸变化位置不存在对应的错配氨基酸长度,将变异终止密码子位置更新为:原数值+氨基酸变化位置与变异终止密码子位置之和对应的错配氨基酸长度。
第一种情况:当氨基酸水平变异描述格式符合“p.”“氨基酸A”“氨基酸变化起始位置”“_”“氨基酸B”“氨基酸变化终止位置”“其他字符”(例如p.Ala66_Arg84del);
位置C记为校正后氨基酸变化起始位置,位置D记为校正后氨基酸变化终止位置。
该转录本氨基酸错配位置从大到小进行判断(当出现符合条件的氨基酸错配位置时,不再对该转录本上其他氨基酸错配位置进行判断),如果氨基酸变化起始位置大于氨基酸错配位置,位置C记为氨基酸变化起始位置加上对应错配氨基酸长度;如果氨基酸变化终止位置大于氨基酸错配位置,位置D记为氨基酸变化终止位置加上对应错配氨基酸长度;氨基酸水平变异描述记为“p.”“氨基酸A”“位置C”“_”“氨基酸B”“位置D”“其他字符”。
第二种情况:当氨基酸水平变异描述格式符合“p.”“氨基酸A”“氨基酸变化位置”“氨基酸B”“fs”“”“变异终止密码子位置”(例如p.Arg68Serfs/>5);
位置C记为校正后氨基酸变化位置,位置D记为校正后变异终止密码子位置。
该转录本氨基酸错配位置从大到小进行判断(当出现符合条件的氨基酸错配位置时,不再对该转录本上其他氨基酸错配位置进行判断),如果氨基酸变化位置大于氨基酸错配位置,位置C记为氨基酸变化位置加上对应错配氨基酸长度;如果氨基酸变化位置与变异终止密码子位置之和大于氨基酸错配位置,当氨基酸变化位置存在对应错配氨基酸长度时,位置D记为变异终止密码子位置加上氨基酸变化位置与变异终止密码子位置之和对应错配氨基酸长度,同时减去氨基酸变化位置对应错配氨基酸长度;当氨基酸变化位置不存在对应错配氨基酸长度时,位置D记为变异终止密码子位置加上氨基酸变化位置与变异终止密码子位置之和对应错配氨基酸长度。
氨基酸水平变异描述记为“p.”“氨基酸A”“位置C”“氨基酸B”“fs”“”“位置D”。
第三种情况:当氨基酸水平变异描述格式符合“p.”“氨基酸A”“氨基酸变化位置”“其他字符”(例如p.Phe67Leu,p.Ala70=,p.Trp80,p./>255Ser);
位置C记为校正后氨基酸变化位置。
该转录本氨基酸错配位置从大到小进行判断(当出现符合条件的氨基酸错配位置时,不再对该转录本上其他氨基酸错配位置进行判断),如果氨基酸变化位置大于氨基酸错配位置,位置C记为氨基酸变化位置加上对应错配氨基酸长度;氨基酸水平变异描述记为“p.”“氨基酸A”“位置C”“其他字符”。
下面详细描述对VCF文件的格式化提取和转化方法,参见图3所示,具体包括:
步骤S302,对VCF文件中的变异关联的染色体名称、变异在参考基因组上的物理起始坐标、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列进行格式化处理,得到变异格式化信息;
具体实施时,通过以下步骤实现:
(S3021)确定初始变异信息,包括:变异关联的染色体名称、根据变异在参考基因组上的物理起始坐标确定的变异起始位置、根据所述变异起始位置和变异位点在参考基因组上的碱基序列长度,确定的变异终止位置、根据变异位点在参考基因组上的碱基序列确定的变异关联参考基因组碱基序列、根据变异位点发生突变的碱基序列确定的变异关联变异碱基序列;例如变异关联的染色体名称为chr1、变异在参考基因组上的物理起始坐标为13656,则变异起始位置为13656、变异终止位置为13656(计算公式为变异起始位置+变异位点在参考基因组上的碱基序列长度-1)、变异位点在参考基因组上的碱基序列为C,即变异关联参考基因组碱基序列为C、变异位点发生突变的碱基序列为TC,即变异关联变异碱基序列为TC;
(S3022)针对变异关联参考基因组碱基序列和变异关联变异碱基序列执行以下前端比较步骤:比较变异关联参考基因组碱基序列与变异关联变异碱基序列的第一个碱基序列,若二者值相同,则分别从变异关联参考基因组碱基序列与变异关联变异碱基序列中去掉第一个碱基序列,同时将变异起始位置在原数值上加一,继续执行前端比较步骤,直至变异关联参考基因组碱基序列与变异关联变异碱基序列的第一个碱基序列的值不同,或者,变异关联参考基因组碱基序列或变异关联变异碱基序列无碱基序列剩余;
(S3023)针对变异关联参考基因组碱基序列和变异关联变异碱基序列执行以下后端比较步骤:比较变异关联参考基因组碱基序列与变异关联变异碱基序列的最后一个碱基序列,若二者值相同,则分别从变异关联参考基因组碱基序列与变异关联变异碱基序列中去掉最后一个碱基序列,同时将变异终止位置在原数值上减一,继续执行后端比较步骤,直至变异关联参考基因组碱基序列与变异关联变异碱基序列的最后一个碱基序列的值不同,或者,变异关联参考基因组碱基序列或变异关联变异碱基序列无碱基序列剩余;
(S3024)在变异关联参考基因组碱基序列无碱基序列剩余时,以指定字符进行表示,同时变异起始位置减一;在变异关联变异碱基序列无碱基序列剩余时,以指定字符进行表示,得到包括:变异关联格式化染色体名称、变异格式化起始位置、变异格式化终止位置、变异关联格式化参考基因组碱基序列、变异关联格式化变异碱基序列的变异格式化信息。
若变异关联参考基因组碱基序列无碱基序列剩余,则以“-”表示,同时变异起始位置减一;若变异关联变异碱基序列无碱基序列剩余,则以“-”表示。例如chr1:3826869-T-TG,得到格式化信息为变异关联格式化染色体名称为chr1、变异格式化起始位置为3826869、变异格式化终止位置为3826869、变异关联格式化参考基因组碱基序列为-、变异关联格式化变异碱基序列为G;chr1:17398-C-A,得到格式化信息为变异关联格式化染色体名称为chr1、变异格式化起始位置为17398、变异格式化终止位置为17398、变异关联格式化参考基因组碱基序列为C、变异关联格式化变异碱基序列为A。
步骤S304,基于变异ID信息、变异格式化信息、变异标签信息、chrX与chrY高度同源区域信息、待测个体性别标记值,对变异基因型进行标注,得到变异基因型信息;
具体实施时,通过以下步骤实现:
(S3041)从变异ID信息中读取变异标注ID序号;具体的,从变异对应标注ID中读取变异标注ID序号,以下横线为分隔符,取第二个数字,例如1220_1获取的变异标注ID序号为1。
(S3042)从变异标签信息中读取变异GT标签等位基因对应数值;等位基因对应数值包括第一等位基因数值与第二等位基因数值;比如,从检测样本对应GT标签值中读取等位基因对应数值,以“/”为分隔符,读取分隔符前的字符为第一等位基因数值,读取分隔符后的字符为第二等位基因数值。例如0/2,第一等位基因数值为0,第二等位基因数值为2。
(S3043)获取chrX与chrY高度同源区域信息、和待测个体性别标记值;
GRCh37参考基因组的chrX与chrY高度同源区域信息格式为,chrX:60001-2699520,chrX:154931044-155260560,chrY:10001-2649520,chrY:59034050-59363566,GRCh38参考基因组的chrX与chrY高度同源区域信息格式为,chrX:10001-2781479,chrX:155701383-156030895,chrY:10001-2781479,chrY:56887903-57217415,冒号前为染色体名称,冒号后以横线为分隔符,分隔符前为高度同源区域起始位置,分隔符后为高度同源区域终止位置。
待测个体性别信息可从相关配置文件直接读取,若待测个体为男性,则待测个体性别标记值描述为“M”;若待测个体为女性,则待测个体性别标记值描述为“F”;若待测个体为性别未知,则待测个体性别标记值描述为“NA”。
(S3044)如果第一等位基因数值与第二等位基因数值均为0,或者,第一等位基因数值与第二等位基因数值均与变异标注ID序号不同,则确定变异基因型为野生型;
(S3045)如果待测个体性别标记值为M,变异关联格式化染色体名称为chrX,并且变异格式化起始位置和变异格式化终止位置均不在chrX与chrY高度同源区域内,确定变异基因型为半合子;
(S3046)如果第一等位基因数值与第二等位基因数值相同,且第一等位基因数值与变异标注ID序号相同,确定变异基因型为纯合型;
(S3047)如果第一等位基因数值与第二等位基因数值不同,第一等位基因数值与变异标注ID序号相同,或第二等位基因数值与变异标注ID序号相同,确定变异基因型为杂合型;
(S3048)如果第一等位基因数值与第二等位基因数值均不满足上述情况,确定变异基因型为基因型缺失型。
步骤S306,基于变异ID信息、变异标签信息进行信息提取和转化,确定变异测序深度相关信息。
具体实施时,通过以下步骤实现:
(S3061)从变异AD标签对应值,提取变异关联参考碱基reads数、变异关联变异碱基reads数;
从检测样本对应AD标签值中读取变异关联参考碱基reads数、变异关联变异碱基reads数相关信息,以逗号为分隔符,由分隔符进行分隔后,读取第一个数值为变异关联参考碱基reads数目,读取变异标注ID序号加一处的字符为变异关联变异碱基reads数目。例如变异标注ID序号为2,AD标签对应值为20,0,25时,变异关联参考碱基reads数为20,变异关联变异碱基reads数目为25。
(S3062)基于变异DP标签对应值,确定变异位点总测序深度;
从检测样本对应DP标签值中读取变异位点总测序深度相关信息。例如变异DP标签对应值为45时,记为变异位点总测序深度为45。
(S3063)利用变异关联变异碱基reads数除以变异位点总测序深度,得到变异关联的变异比例;
计算变异关联变异碱基reads数目占变异位点总测序深度的比例,得到变异关联的变异比例。例如,变异ID数值为2,AD标签对应值为20,0,25,变异DP标签对应值为45时,变异关联的变异比例为0.56。
(S3064)将变异关联参考碱基reads数、变异关联变异碱基reads数、变异位点总测序深度和变异关联的变异比例,作为变异测序深度相关信息。
需要说明的是,在对VCF文件进行格式化提取和转化之前,还可以对VCF文件进行预处理,预处理过程如下:
基于VCF文件信息,对同一位置检测到多种变异类型的结果进行拆分。当在同一位置检测到多种变异类型时,ALT列表示为用逗号连接多个字符,例如T,TC,ACG。为方便后续分析与对应变异的数据提取,预处理过程先将多种变异类型拆分为单个变异类型。以逗号为分隔符对ALT列信息进行拆分,比如原ALT列为T,TC,ACG的变异由原来的一行拆分为3行,同时在ID列对变异碱基在原VCF文件中ALT列的位置进行标注记录,例如chr1-13656-C-T(CHROM-POS-REF-ALT)对应标注ID记录为1220_1, chr1-13656-C-TC对应标注ID记录为1220_2,chr1-13656-C-ACG对应标注ID记录为1220_3。
本申请实施例中,还可以结合变异相关信息、注释结果、人群突变频率、公共数据库收录信息、功能预测软件的预测结果等,参考ACMG/AMP指南对变异的致病性进行判读。结合变异相关信息、注释结果、表型、文献最新记录及历史报出阳性位点等信息,对变异评级结果进行人工审核,确定该变异最终证据使用以及致病性评级,利用报告系统生成基因检测报告。
随着基因检测技术的发展及其在临床的广泛应用,越来越多与疾病相关的基因和变异被明确。为了让变异注释更统一、对变异文献的检索更全面化以及对变异的描述更标准化,建立统一而通用的变异命名规则变得尤为重要。HGVS命名规则旨在建立一个稳定且明确的命名系统。相对于GRCh38参考基因组,GRCh37参考基因组中存在更多的组装误差。因此基于参考基因组和基因功能注释文件对变异关联转录本编码序列和氨基酸序列变化进行注释时,会出现HGVS结果不准确、不一致的问题。经对测试结果进行核查,当前如VEP、Annovar等常用注释软件均存在此类注释结果不准确的问题。此类问题由于涉及计算细节太多,目前没有太好解决和优化办法,当前一般处理建议为解读人员在审核过程中进行人工碱基计数等进一步核查与校正工作,非常耗时,并且容易出现计算错误。
本申请实施例提供的变异描述信息的处理方法,通过对基因组组装问题的信息收集与整理,规则化、自动化处理了由于基因组组装问题造成的HGVS注释错误,有效提高变异报出的准确性与规范性,同时提高解读效率,减少解读过程中人工介入程度。
对于位于负链编码序列上的变异,特别是CDS边界附近的变异,在注释此类变异时,由于变异导致的氨基酸序列变化,以及下游终止密码子与氨基酸变化位置间的距离计算容易出现错误,对当前注释软件VEP、Annovar等进行测试,均存在不同程度的HGVS注释错误,不同软件的错误类型不尽相同。
本申请实施例提供的变异描述信息的处理方法,主要基于广泛使用的VEP软件注释结果对此类问题进行校验和修正。本申请实施例提供的变异描述信息的处理方法,对可能出现注释错误的变异关联转录本CDS序列进行提取,为提高运行效率,该提取过程设置约束条件避免对同一条序列进行反复提取。对变异关联转录本变异CDS序列进行提取,该提取过程结合具体变异情况,对特殊边界处的变异进行特殊算法设计,准确提取相关序列,提升后续计算准确性。通过对变异关联转录本CDS序列和变异CDS序列信息进行转换和计算,得到HGVS命名规则需要的相关信息,从而对变异描述信息进行自动化修正。对于变异基因型、测序深度相关信息进行自动提取与展示,方便解读人员人工审核过程一目了然获取相关参考信息,提升解读效率,也有助于形成检测报告时对于所需的基因型等信息进行直接获取。
本申请实施例提供的变异描述信息的处理方法,对基因组组装问题、负链、CDS特殊边界等对解读结果影响较高的注释错误进行自动化校验与修正,填补了当前常用注释软件的缺陷和不足,能够有效提高变异报出的准确性与规范性,同时提高解读效率,减少解读过程中人工介入程度。使得当前由于基因组组装错误导致的系统性注释结果错误,以及涉及特殊边界等较复杂的氨基酸变化计算错误问题,有了自动化分析解决方案。在此之前,此类问题未有好的解决与优化方案,一般都靠解读人员人工校正处理。
本申请实施例提供的变异描述信息的处理方法,结合临床解读实际需求,快速准确计算定位参考序列变异位置,避免从头计算,有效减少运算资源消耗和分析时长。预先对需校验与修正的变异相关信息进行统一提取,避免了反复从头读取参考序列,批量分析的同时提升解读效率。对特殊边界处变异序列提取与计算规则,设计与其特性相符的算法方案,有效提升计算结果准确性。
本申请实施例提供的变异描述信息的处理方法,对于变异基因型、测序深度相关信息进行自动提取与展示,方便解读人员人工审核过程一目了然获取相关参考信息,提升解读效率,也有助于形成检测报告时对于报告内所需的基因型等信息进行直接获取。
本申请实施例提供的变异描述信息的处理方法,能够对变异位点结果信息进行批量、高效的提取、校验与修正。加快遗传病分析速度,极大提升遗传病数据解读人员工作效率,避免因处理过程繁琐而导致的错误,解决了现有技术中效率低下、成本高等问题。
基于上述方法实施例,本申请实施例还提供一种变异描述信息的处理装置,参见图4所示,该装置包括:信息获取模块42,用于获取变异描述信息;变异描述信息为通过变异注释软件,基于参考基因组序列文件和基因功能注释文件对VCF文件中的遗传变异信息进行注释得到的;判断模块44,用于判断变异描述信息中的变异HGVS描述是否涉及关联转录本的编码核苷酸变化或氨基酸变化;修正模块46,用于在判断结果为是时,根据VCF文件、参考基因组序列文件和基因功能注释文件,获取变异关联转录本的CDS序列和变异CDS序列;基于变异关联转录本的变异CDS序列获取变异蛋白编码长度;根据CDS序列、变异CDS序列和变异蛋白编码长度,对变异描述信息中的氨基酸水平的变异描述信息进行校验与修正;根据基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息;基于基因组组装问题关联转录本位置信息,对变异描述信息中的DNA水平变异描述信息和氨基酸水平变异描述信息进行校验与修正。
进一步地,上述修正模块46,用于获取VCF文件中的遗传变异信息;遗传变异信息包括:变异关联的染色体名称、变异在参考基因组上的物理起始坐标、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列,变异在参考基因组上的物理终止坐标;根据变异在参考基因组上的物理起始坐标、变异在参考基因组上的物理终止坐标、以及基因功能注释文件中变异关联转录本的CDS起始位置、CDS终止位置,以及所有外显子起始位置和外显子终止位置,从参考基因组序列文件中确定出变异关联转录本的CDS序列、HEAD序列、和TAIL序列;当变异在参考基因组上的物理起始坐标、变异在参考基因组上的物理终止坐标位于同一个CDS子序列上时,将VCF文件中记录的变异位点发生突变的碱基序列作为变异序列;将HEAD序列、变异序列、TAIL序列连接,对负链的编码序列基于连接的序列取反向互补序列,得到变异关联转录本的变异CDS序列。
进一步地,上述修正模块46,用于从变异描述信息中,确定格式为指定格式的氨基酸水平变异描述信息;分别针对CDS序列、变异CDS序列,以三个碱基为一个单位,按照氨基酸密码子进行转换,得到蛋白编码序列和变异蛋白编码序列;从第一位开始,依次比较蛋白编码序列和变异蛋白编码序列是否一致,当第一次出现不一致时,将该处蛋白编码序列上的氨基酸序列描述为第一氨基酸,将该处变异蛋白编码序列上的氨基酸序列描述为第二氨基酸,将该位置描述为氨基酸变化位置;当变异蛋白编码长度为指定字符时,变异终止密码子位置记为指定字符,否则,变异终止密码子位置记为变异蛋白编码长度-氨基酸变化位置+1;判断指定格式的氨基酸水平变异描述信息中,第一氨基酸为Met,氨基酸变化位置为1时,氨基酸水平变异描述记为p.Met1?;判断指定格式的氨基酸水平变异描述信息中的第一氨基酸为时,氨基酸水平变异描述记为“p.”“第一氨基酸”“氨基酸变化位置”“第二氨基酸”“ext”“/>”“变异终止密码子位置”;不满足以上两种判断条件时,氨基酸水平变异描述记为“p.”“第一氨基酸”“氨基酸变化位置”“第二氨基酸”“fs”“/>”“变异终止密码子位置”。
进一步地,上述修正模块46,用于基于基因功能注释文件获取转录本5’UTR总长度;从第一个外显子开始判断,确定外显子内存在的与参考基因组序列文件中的基因组序列不完全匹配的序列在外显子总长度的目标位置;如果目标位置大于5’UTR总长度,以三碱基为一个单位,不匹配序列总长涉及三碱基单位数目记为错配氨基酸长度;确定目标位置-5’UTR总长度-3A错配氨基酸长度,为编码DNA错配位置;每个编码DNA错配位置对应一个错配氨基酸长度。
进一步地,上述修正模块46,用于判断变异关联转录本存在已记录的编码DNA错配位置和错配氨基酸长度时,针对DNA水平变异描述信息中存在第一指定位置的情况,将转录本编码DNA错配位置从大到小进行判断,如果第一指定位置大于编码DNA错配位置,将第一指定位置更新为原数值加三倍的错配氨基酸长度;第一指定位置包括:变异在编码DNA序列上位置;对转录本编码DNA错配位置从大到小进行判断,计算编码DNA错配位置含有完整3碱基的单位数目,记为氨基酸错配位置;针对氨基酸水平变异描述信息中存在第二指定位置的情况,将转录本氨基酸错配位置从大到小进行判断,如果第二指定位置大于氨基酸错配位置,将第二指定位置更新为原数值加错配氨基酸长度;第二指定位置包括:氨基酸变化位置;针对氨基酸水平变异描述信息中存在氨基酸变化位置和变异终止密码子位置的情况,将转录本氨基酸错配位置从大到小进行判断,当氨基酸变化位置与变异终止密码子位置之和大于氨基酸错配位置时,如果氨基酸变化位置存在对应的错配氨基酸长度,将变异终止密码子位置更新为:原数值+氨基酸变化位置与变异终止密码子位置之和对应的错配氨基酸长度-氨基酸变化位置对应的错配氨基酸长度;如果氨基酸变化位置不存在对应的错配氨基酸长度,将变异终止密码子位置更新为:原数值+氨基酸变化位置与变异终止密码子位置之和对应的错配氨基酸长度。
进一步地,上述装置还包括提取转化模块,用于对VCF文件中的变异关联的染色体名称、变异在参考基因组上的物理起始坐标、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列进行格式化处理,得到变异格式化信息;基于变异ID信息、变异格式化信息、变异标签信息、chrX与chrY高度同源区域信息、待测个体性别标记值,对变异基因型进行标注,得到变异基因型信息;基于变异ID信息、变异标签信息进行信息提取和转化,确定变异测序深度相关信息。
进一步地,上述提取转化模块,用于确定初始变异信息,包括:变异关联的染色体名称、根据变异在参考基因组上的物理起始坐标确定的变异起始位置、根据所述变异起始位置和变异位点在参考基因组上的碱基序列长度,确定的变异终止位置、根据变异位点在参考基因组上的碱基序列确定的变异关联参考基因组碱基序列、根据变异位点发生突变的碱基序列确定的变异关联变异碱基序列;针对变异关联参考基因组碱基序列和变异关联变异碱基序列执行以下前端比较步骤:比较变异关联参考基因组碱基序列与变异关联变异碱基序列的第一个碱基序列,若二者值相同,则分别从变异关联参考基因组碱基序列与变异关联变异碱基序列中去掉第一个碱基序列,同时将变异起始位置在原数值上加一,继续执行前端比较步骤,直至变异关联参考基因组碱基序列与变异关联变异碱基序列的第一个碱基序列的值不同,或者,变异关联参考基因组碱基序列或变异关联变异碱基序列无碱基序列剩余;针对变异关联参考基因组碱基序列和变异关联变异碱基序列执行以下后端比较步骤:比较变异关联参考基因组碱基序列与变异关联变异碱基序列的最后一个碱基序列,若二者值相同,则分别从变异关联参考基因组碱基序列与变异关联变异碱基序列中去掉最后一个碱基序列,同时将变异终止位置在原数值上减一,继续执行后端比较步骤,直至变异关联参考基因组碱基序列与变异关联变异碱基序列的最后一个碱基序列的值不同,或者,变异关联参考基因组碱基序列或变异关联变异碱基序列无碱基序列剩余;在变异关联参考基因组碱基序列无碱基序列剩余时,以指定字符进行表示,同时变异起始位置减一;在变异关联变异碱基序列无碱基序列剩余时,以指定字符进行表示,得到包括:变异关联格式化染色体名称、变异格式化起始位置、变异格式化终止位置、变异关联格式化参考基因组碱基序列、变异关联格式化变异碱基序列的变异格式化信息。
进一步地,上述提取转化模块,用于从变异ID信息中读取变异标注ID序号;从变异标签信息中读取变异GT标签等位基因对应数值;等位基因对应数值包括第一等位基因数值与第二等位基因数值;获取chrX与chrY高度同源区域信息、和待测个体性别标记值;如果第一等位基因数值与第二等位基因数值均为0,或者,第一等位基因数值与第二等位基因数值均与变异标注ID序号不同,则确定变异基因型为野生型;如果待测个体性别标记值为M,变异关联格式化染色体名称为chrX,并且变异格式化起始位置和变异格式化终止位置均不在chrX与chrY高度同源区域内,确定变异基因型为半合子;如果第一等位基因数值与第二等位基因数值相同,且第一等位基因数值与变异标注ID序号相同,确定变异基因型为纯合型;如果第一等位基因数值与第二等位基因数值不同,第一等位基因数值与变异标注ID序号相同,或第二等位基因数值与变异标注ID序号相同,确定变异基因型为杂合型;如果第一等位基因数值与第二等位基因数值均不满足上述情况,确定变异基因型为基因型缺失型。
进一步地,上述变异标签信息包括变异AD标签、变异DP标签;上述提取转化模块,用于从变异AD标签对应值,提取变异关联参考碱基reads数、变异关联变异碱基reads数;基于变异DP标签对应值,确定变异位点总测序深度;利用变异关联变异碱基reads数除以变异位点总测序深度,得到变异关联的变异比例;将变异关联参考碱基reads数、变异关联变异碱基reads数、变异位点总测序深度和变异关联的变异比例,作为变异测序深度相关信息。
本申请实施例提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置的实施例部分未提及之处,可参考前述方法实施例中相应内容。
本申请实施例还提供了一种电子设备,如图5所示,为该电子设备的结构示意图,其中,该电子设备包括处理器51和存储器50,该存储器50存储有能够被该处理器51执行的计算机可执行指令,该处理器51执行该计算机可执行指令以实现上述方法。
在图5示出的实施方式中,该电子设备还包括总线52和通信接口53,其中,处理器51、通信接口53和存储器50通过总线52连接。
其中,存储器50可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线52可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线52可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器51可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器51读取存储器中的信息,结合其硬件完成前述实施例的方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述方法,具体实现可参见前述方法实施例,在此不再赘述。
本申请实施例所提供的方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种变异描述信息的处理方法,其特征在于,所述方法包括:
获取变异描述信息;所述变异描述信息为通过变异注释软件,基于参考基因组序列文件和基因功能注释文件对VCF文件中的遗传变异信息进行注释得到的;判断所述变异描述信息中的变异HGVS描述是否涉及关联转录本的编码核苷酸变化或氨基酸变化;
如果是,根据所述VCF文件、所述参考基因组序列文件和所述基因功能注释文件,获取变异关联转录本的CDS序列和变异CDS序列;基于变异关联转录本的变异CDS序列获取变异蛋白编码长度;
从所述变异描述信息中,确定格式为指定格式的氨基酸水平变异描述信息;分别针对CDS序列、变异CDS序列,以三个碱基为一个单位,按照氨基酸密码子进行转换,得到蛋白编码序列和变异蛋白编码序列;从第一位开始,依次比较蛋白编码序列和变异蛋白编码序列是否一致,当第一次出现不一致时,将该处蛋白编码序列上的氨基酸序列描述为第一氨基酸,将该处变异蛋白编码序列上的氨基酸序列描述为第二氨基酸,将该位置描述为氨基酸变化位置;当变异蛋白编码长度为指定字符时,变异终止密码子位置记为所述指定字符,否则,变异终止密码子位置记为所述变异蛋白编码长度减氨基酸变化位置加1;判断指定格式的氨基酸水平变异描述信息中,第一氨基酸为Met,氨基酸变化位置为1时,氨基酸水平变异描述记为p.Met1?;判断指定格式的氨基酸水平变异描述信息中的第一氨基酸为时,氨基酸水平变异描述记为:p.APBext/>F;不满足以上两种判断条件时,氨基酸水平变异描述记为:p.APBfs/>F;其中,A为第一氨基酸,P为氨基酸变化位置,B为第二氨基酸,F为变异终止密码子位置;
根据所述基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息;
判断变异关联转录本存在已记录的编码DNA错配位置和错配氨基酸长度时,针对DNA水平变异描述信息中存在第一指定位置的情况,将转录本编码DNA错配位置从大到小进行判断,如果第一指定位置大于编码DNA错配位置,将第一指定位置更新为原数值加三倍的错配氨基酸长度;所述第一指定位置包括:变异在编码DNA序列上位置;对转录本编码DNA错配位置从大到小进行判断,计算编码DNA错配位置含有完整3碱基的单位数目,记为氨基酸错配位置;针对氨基酸水平变异描述信息中存在第二指定位置的情况,将转录本氨基酸错配位置从大到小进行判断,如果第二指定位置大于氨基酸错配位置,将第二指定位置更新为原数值加错配氨基酸长度;所述第二指定位置包括:氨基酸变化位置;针对氨基酸水平变异描述信息中存在氨基酸变化位置和变异终止密码子位置的情况,将转录本氨基酸错配位置从大到小进行判断,当氨基酸变化位置与变异终止密码子位置之和大于氨基酸错配位置时,如果氨基酸变化位置存在对应的错配氨基酸长度,将变异终止密码子位置更新为:原数值加氨基酸变化位置与变异终止密码子位置之和对应的错配氨基酸长度减氨基酸变化位置对应的错配氨基酸长度;如果氨基酸变化位置不存在对应的错配氨基酸长度,将变异终止密码子位置更新为:原数值加氨基酸变化位置与变异终止密码子位置之和对应的错配氨基酸长度。
2.根据权利要求1所述的方法,其特征在于,根据所述VCF文件、所述参考基因组序列文件和所述基因功能注释文件,获取变异关联转录本的CDS序列和变异CDS序列的步骤,包括:
获取所述VCF文件中的遗传变异信息;所述遗传变异信息包括:变异关联的染色体名称、变异在参考基因组上的物理起始坐标、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列,变异在参考基因组上的物理终止坐标;
根据所述变异在参考基因组上的物理起始坐标、变异在参考基因组上的物理终止坐标、以及所述基因功能注释文件中变异关联转录本的CDS起始位置、CDS终止位置,以及所有外显子起始位置和外显子终止位置,从所述参考基因组序列文件中确定出变异关联转录本的CDS序列、HEAD序列、和TAIL序列;
当所述变异在参考基因组上的物理起始坐标、变异在参考基因组上的物理终止坐标位于同一个CDS子序列上时,将VCF文件中记录的变异位点发生突变的碱基序列作为变异序列;
将所述HEAD序列、所述变异序列、所述TAIL序列连接,对负链的编码序列基于连接的序列取反向互补序列,得到变异关联转录本的变异CDS序列。
3.根据权利要求1所述的方法,其特征在于,根据所述基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息的步骤,包括:
基于所述基因功能注释文件获取转录本5’UTR总长度;从第一个外显子开始判断,确定外显子内存在的与所述参考基因组序列文件中的基因组序列不完全匹配的序列在外显子总长度的目标位置;如果所述目标位置大于5’UTR总长度,以三碱基为一个单位,不匹配序列总长涉及三碱基单位数目记为错配氨基酸长度;
确定目标位置减去5’UTR总长度,再减去3倍的错配氨基酸长度,为编码DNA错配位置;每个编码DNA错配位置对应一个错配氨基酸长度。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
对所述VCF文件中的变异关联的染色体名称、变异在参考基因组上的物理起始坐标、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列进行格式化处理,得到变异格式化信息;
基于变异ID信息、变异格式化信息、变异标签信息、chrX与chrY高度同源区域信息、待测个体性别标记值,对变异基因型进行标注,得到变异基因型信息;
基于变异ID信息、变异标签信息进行信息提取和转化,确定变异测序深度相关信息。
5.根据权利要求4所述的方法,其特征在于,对所述VCF文件中的变异关联的染色体名称、变异在参考基因组上的物理起始坐标、变异位点在参考基因组上的碱基序列、变异位点发生突变的碱基序列进行格式化处理,得到变异格式化信息的步骤,包括:
确定初始变异信息,包括:变异关联的染色体名称、根据变异在参考基因组上的物理起始坐标确定的变异起始位置、根据所述变异起始位置和变异位点在参考基因组上的碱基序列长度,确定的变异终止位置、根据变异位点在参考基因组上的碱基序列确定的变异关联参考基因组碱基序列、根据变异位点发生突变的碱基序列确定的变异关联变异碱基序列;
针对所述变异关联参考基因组碱基序列和所述变异关联变异碱基序列执行以下前端比较步骤:
比较所述变异关联参考基因组碱基序列与所述变异关联变异碱基序列的第一个碱基序列,若二者值相同,则分别从变异关联参考基因组碱基序列与变异关联变异碱基序列中去掉第一个碱基序列,同时将变异起始位置在原数值上加一,继续执行所述前端比较步骤,直至变异关联参考基因组碱基序列与变异关联变异碱基序列的第一个碱基序列的值不同,或者,所述变异关联参考基因组碱基序列或所述变异关联变异碱基序列无碱基序列剩余;
针对所述变异关联参考基因组碱基序列和所述变异关联变异碱基序列执行以下后端比较步骤:
比较所述变异关联参考基因组碱基序列与所述变异关联变异碱基序列的最后一个碱基序列,若二者值相同,则分别从变异关联参考基因组碱基序列与变异关联变异碱基序列中去掉最后一个碱基序列,同时将变异终止位置在原数值上减一,继续执行所述后端比较步骤,直至变异关联参考基因组碱基序列与变异关联变异碱基序列的最后一个碱基序列的值不同,或者,所述变异关联参考基因组碱基序列或所述变异关联变异碱基序列无碱基序列剩余;
在变异关联参考基因组碱基序列无碱基序列剩余时,以指定字符进行表示,同时变异起始位置减一;在变异关联变异碱基序列无碱基序列剩余时,以指定字符进行表示,得到包括:变异关联格式化染色体名称、变异格式化起始位置、变异格式化终止位置、变异关联格式化参考基因组碱基序列、变异关联格式化变异碱基序列的变异格式化信息。
6.根据权利要求4所述的方法,其特征在于,基于变异ID信息、变异格式化信息、变异标签信息、chrX与chrY高度同源区域信息、待测个体性别标记值,对变异基因型进行标注,得到变异基因型信息的步骤,包括:
从所述变异ID信息中读取变异标注ID序号;
从所述变异标签信息中读取变异GT标签等位基因对应数值;所述等位基因对应数值包括第一等位基因数值与第二等位基因数值;
获取chrX与chrY高度同源区域信息、和待测个体性别标记值;
如果第一等位基因数值与第二等位基因数值均为0,或者,第一等位基因数值与第二等位基因数值均与变异标注ID序号不同,则确定变异基因型为野生型;
如果待测个体性别标记值为M,变异关联格式化染色体名称为chrX,并且变异格式化起始位置和变异格式化终止位置均不在chrX与chrY高度同源区域内,确定变异基因型为半合子;
如果第一等位基因数值与第二等位基因数值相同,且第一等位基因数值与变异标注ID序号相同,确定变异基因型为纯合型;
如果第一等位基因数值与第二等位基因数值不同,第一等位基因数值与变异标注ID序号相同,或第二等位基因数值与变异标注ID序号相同,确定变异基因型为杂合型;
如果第一等位基因数值与第二等位基因数值均不满足上述情况,确定变异基因型为基因型缺失型。
7.根据权利要求4所述的方法,其特征在于,所述变异标签信息包括变异AD标签、变异DP标签;基于变异ID信息、变异标签信息进行信息提取和转化,确定变异测序深度相关信息的步骤,包括:
从所述变异AD标签对应值,提取变异关联参考碱基reads数、变异关联变异碱基reads数;
基于所述变异DP标签对应值,确定变异位点总测序深度;
利用变异关联变异碱基reads数除以变异位点总测序深度,得到变异关联的变异比例;
将变异关联参考碱基reads数、变异关联变异碱基reads数、变异位点总测序深度和变异关联的变异比例,作为变异测序深度相关信息。
8.一种变异描述信息的处理装置,其特征在于,所述装置包括:
信息获取模块,用于获取变异描述信息;所述变异描述信息为通过变异注释软件,基于参考基因组序列文件和基因功能注释文件对VCF文件中的遗传变异信息进行注释得到的;
判断模块,用于判断所述变异描述信息中的变异HGVS描述是否涉及关联转录本的编码核苷酸变化或氨基酸变化;
修正模块,用于在判断结果为是时,根据所述VCF文件、所述参考基因组序列文件和所述基因功能注释文件,获取变异关联转录本的CDS序列和变异CDS序列;基于变异关联转录本的变异CDS序列获取变异蛋白编码长度;从所述变异描述信息中,确定格式为指定格式的氨基酸水平变异描述信息;分别针对CDS序列、变异CDS序列,以三个碱基为一个单位,按照氨基酸密码子进行转换,得到蛋白编码序列和变异蛋白编码序列;从第一位开始,依次比较蛋白编码序列和变异蛋白编码序列是否一致,当第一次出现不一致时,将该处蛋白编码序列上的氨基酸序列描述为第一氨基酸,将该处变异蛋白编码序列上的氨基酸序列描述为第二氨基酸,将该位置描述为氨基酸变化位置;当变异蛋白编码长度为指定字符时,变异终止密码子位置记为所述指定字符,否则,变异终止密码子位置记为所述变异蛋白编码长度减氨基酸变化位置加1;判断指定格式的氨基酸水平变异描述信息中,第一氨基酸为Met,氨基酸变化位置为1时,氨基酸水平变异描述记为p.Met1?;判断指定格式的氨基酸水平变异描述信息中的第一氨基酸为时,氨基酸水平变异描述记为:p.APBext/>F;不满足以上两种判断条件时,氨基酸水平变异描述记为:p.APBfs/>F;其中,A为第一氨基酸,P为氨基酸变化位置,B为第二氨基酸,F为变异终止密码子位置;根据所述基因功能注释文件、转录本序列与参考基因组序列的比对文件,确定基因组组装问题关联转录本位置信息;判断变异关联转录本存在已记录的编码DNA错配位置和错配氨基酸长度时,针对DNA水平变异描述信息中存在第一指定位置的情况,将转录本编码DNA错配位置从大到小进行判断,如果第一指定位置大于编码DNA错配位置,将第一指定位置更新为原数值加三倍的错配氨基酸长度;所述第一指定位置包括:变异在编码DNA序列上位置;对转录本编码DNA错配位置从大到小进行判断,计算编码DNA错配位置含有完整3碱基的单位数目,记为氨基酸错配位置;针对氨基酸水平变异描述信息中存在第二指定位置的情况,将转录本氨基酸错配位置从大到小进行判断,如果第二指定位置大于氨基酸错配位置,将第二指定位置更新为原数值加错配氨基酸长度;所述第二指定位置包括:氨基酸变化位置;针对氨基酸水平变异描述信息中存在氨基酸变化位置和变异终止密码子位置的情况,将转录本氨基酸错配位置从大到小进行判断,当氨基酸变化位置与变异终止密码子位置之和大于氨基酸错配位置时,如果氨基酸变化位置存在对应的错配氨基酸长度,将变异终止密码子位置更新为:原数值加氨基酸变化位置与变异终止密码子位置之和对应的错配氨基酸长度减氨基酸变化位置对应的错配氨基酸长度;如果氨基酸变化位置不存在对应的错配氨基酸长度,将变异终止密码子位置更新为:原数值加氨基酸变化位置与变异终止密码子位置之和对应的错配氨基酸长度。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的方法。
CN202410185961.8A 2024-02-20 2024-02-20 变异描述信息的处理方法、装置及电子设备 Active CN117746989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410185961.8A CN117746989B (zh) 2024-02-20 2024-02-20 变异描述信息的处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410185961.8A CN117746989B (zh) 2024-02-20 2024-02-20 变异描述信息的处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN117746989A CN117746989A (zh) 2024-03-22
CN117746989B true CN117746989B (zh) 2024-05-10

Family

ID=90277828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410185961.8A Active CN117746989B (zh) 2024-02-20 2024-02-20 变异描述信息的处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN117746989B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013067001A1 (en) * 2011-10-31 2013-05-10 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
KR20180069651A (ko) * 2016-12-15 2018-06-25 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
CN111653313A (zh) * 2020-05-25 2020-09-11 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法
CN111816253A (zh) * 2020-06-16 2020-10-23 荣联科技集团股份有限公司 一种基因检测解读方法及装置
CN117079720A (zh) * 2023-10-16 2023-11-17 北京诺禾致源科技股份有限公司 高通量测序数据的处理方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012100216A2 (en) * 2011-01-20 2012-07-26 Knome, Inc. Methods and apparatus for assigning a meaningful numeric value to genomic variants, and searching and assessing same
JP2019515369A (ja) * 2016-03-29 2019-06-06 リジェネロン・ファーマシューティカルズ・インコーポレイテッドRegeneron Pharmaceuticals, Inc. 遺伝的バリアント−表現型解析システムおよび使用方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013067001A1 (en) * 2011-10-31 2013-05-10 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
KR20180069651A (ko) * 2016-12-15 2018-06-25 (주)신테카바이오 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
CN111653313A (zh) * 2020-05-25 2020-09-11 中国人民解放军海军军医大学第三附属医院 一种变异序列的注释方法
CN111816253A (zh) * 2020-06-16 2020-10-23 荣联科技集团股份有限公司 一种基因检测解读方法及装置
CN117079720A (zh) * 2023-10-16 2023-11-17 北京诺禾致源科技股份有限公司 高通量测序数据的处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
遗传变异分类标准与指南;王秋菊 等;中国科学:生命科学;20170620(第06期);全文 *
高通量测序数据分析和临床诊断流程的解读;黎籽秀 等;中国循证儿科杂志;20150205(第01期);全文 *

Also Published As

Publication number Publication date
CN117746989A (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN114999573B (zh) 一种基因组变异检测方法及检测系统
CN111326212B (zh) 一种结构变异的检测方法
CN116312780B (zh) 靶向基因二代测序数据体细胞突变检测方法、终端及介质
CN110808084B (zh) 一种基于单样本二代测序数据的拷贝数变异检测方法
CN110993023B (zh) 复杂突变的检测方法及检测装置
CN110021355B (zh) 二倍体基因组测序片段的单倍体分型和变异检测方法和装置
CN108595912B (zh) 检测染色体非整倍性的方法、装置及系统
CN108710782B (zh) 基因型转换方法、装置及电子设备
WO2019213811A1 (zh) 检测染色体非整倍性的方法、装置及系统
CN113205857B (zh) 基因组性染色体非同源区域的鉴定方法和装置
CN112489727B (zh) 一种快速获取罕见病致病位点的方法和系统
CN117746989B (zh) 变异描述信息的处理方法、装置及电子设备
CN112397148A (zh) 序列比对方法、序列校正方法及其装置
WO2019213810A1 (zh) 检测染色体非整倍性的方法、装置及系统
CN115831222A (zh) 一种基于三代测序的全基因组结构变异鉴定方法
CN112669902B (zh) 检测基因组结构变异的方法、计算设备和存储介质
CN114627967A (zh) 一种精确注释三代全长转录本的方法
CN111696629B (zh) 一种rna测序数据的基因表达量计算方法
CN117577182B (zh) 一种快速识别药物标识位点的系统及其应用
CN115391284B (zh) 基因数据文件快速识别方法、系统和计算机可读存储介质
CN115662520B (zh) Bcr/abl1融合基因的检测方法及相关设备
CN117711487B (zh) 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质
CN117672354B (zh) 比较哺乳动物近源物种完整基因组组装质量的方法和装置
CN116403647B (zh) 一种检测慢病毒整合位点的生物信息检测方法及其应用
Lien et al. Benchmarking software tools for trimming adapters and merging next-generation sequencing data for ancient DNA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant