CN113257347B - 注释后的突变检测结果文件的数据处理方法及相关设备 - Google Patents

注释后的突变检测结果文件的数据处理方法及相关设备 Download PDF

Info

Publication number
CN113257347B
CN113257347B CN202110530584.3A CN202110530584A CN113257347B CN 113257347 B CN113257347 B CN 113257347B CN 202110530584 A CN202110530584 A CN 202110530584A CN 113257347 B CN113257347 B CN 113257347B
Authority
CN
China
Prior art keywords
mutation
preset
mutation site
data
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110530584.3A
Other languages
English (en)
Other versions
CN113257347A (zh
Inventor
苏建忠
袁健
闻旭冉
李凯
陈福坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou Puxi Medical Laboratory Co ltd
Original Assignee
Wenzhou Puxi Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou Puxi Medical Laboratory Co ltd filed Critical Wenzhou Puxi Medical Laboratory Co ltd
Priority to CN202110530584.3A priority Critical patent/CN113257347B/zh
Publication of CN113257347A publication Critical patent/CN113257347A/zh
Application granted granted Critical
Publication of CN113257347B publication Critical patent/CN113257347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

本发明公开一种注释后的突变检测结果文件的数据处理方法,电子设备和计算机可读存储介质,方法包括:接收注释后的突变检测结果文件,注释后的突变检测结果文件包括多行数据,每一行数据对应一个突变位点;获取过滤条件对应的配置参数,配置参数包括预设等位频率范围、预设转录本类型和预设突变类型;根据配置参数,从突变检测结果文件中确定出满足过滤条件的目标突变位点;其中过滤条件包括:突变位点的等位频率值在预设等位频率范围内,突变位点所在的转录本类型数据包括预设转录本类型,突变位点属于预设突变类型。本发明中的方法数据的处理更加方便便捷,可以避免手动挑选匹配带来的数据遗漏或者匹配错误的可能,数据处理的准确率高。

Description

注释后的突变检测结果文件的数据处理方法及相关设备
技术领域
本发明涉及心电仿真技术领域,更具体地,涉及一种注释后的突变检测结果文件的数据处理方法、电子设备和计算机可读存储介质。
背景技术
随着基因测序技术的快速发展,检测成本大幅度降低,因此基因组测序越来越多的投入临床市场并服务于大众。但是二代测序发现的变异数量是巨大的,造成变异解读及查找致病基因需耗费大量的人力物力。以人类基因组为例,1个人类基因组包含近3500000个SNV突变和1000个拷贝数变异,其中约20000-25000个变异是在编码区,10000个位点改变了氨基酸编码,但仅有50-100个突变造成蛋白截断或功能缺失,手动检查每个变异位点非常耗时且有些不切实际。目前常用的方式是首先通过注释软件对突变检测结果文件(一般;来说为VCF(Variant Call Format)格式的文件)进行位点信息注释,然后对注释后的突变检测结果文件进行基因信息和突变信息的提取。注释后的突变检测结果文件数据量一般来说是非常巨大的,手动挑选匹配的基因信息数据和突变信息数据会耗费大量的时间,并且也会存在数据遗漏或数据匹配错误的可能。因此亟需一种可以对注释后的突变检测结果文件的数据进行处理的方法和设备。
发明内容
鉴于上述问题,本发明提出了一种注释后的突变检测结果文件的数据处理方法、电子设备和计算机可读存储介质。
第一方面,本发明实施例提供了一种注释后的突变检测结果文件的数据处理方法,包括:
接收注释后的突变检测结果文件,所述注释后的突变检测结果文件包括多行数据,每一行数据对应一个突变位点;
获取过滤条件对应的配置参数,所述配置参数包括预设等位频率范围、预设转录本类型和预设突变类型;和
根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点;其中所述过滤条件包括:突变位点的等位频率值在所述预设等位频率范围内,突变位点所在的转录本类型数据包括所述预设转录本类型,突变位点属于所述预设突变类型。
进一步地,通过如下方法判断突变位点是否属于所述预设突变类型:
获取预设突变类型对应的判断条件,所述判断条件包括突变位点对应的数据中包含指定关键字段、以及指定指标的数值满足预设要求;
若突变位点对应的数据满足所述判断条件,则确定突变位点属于预设突变类型,否则确定突变位点不属于预设突变类型。
进一步地,若预设突变类型为lof突变,则判断条件包括:
突变位点对应的数据中包含关键字段stop_gained、frameshift_variant、start_lost、splice_acceptor_variant和splice_donor_variant中的至少一个;或
突变位点对应的数据中不包含关键字段stop_gained、frameshift_variant、start_lost、splice_acceptor_variant和splice_donor_variant中的任何一个,并且突变位点对应的数据满足以下预设要求:至少一个SpliceAI_pred列的得分大于等于预设得分,SpliceAI_pred_SYMBOL列与SYMBOL列相同,LOF列的对应的字段不是LC。
进一步地,若预设突变类型为missense_benign_1突变,则判断条件包括:突变位点对应的数据中包含关键字段inframe_deletion、inframe_insertion、missense_variant、stop_lost和start_lost中的至少一个,并且突变位点对应的数据满足以下预设要求:CADD小于预设值,所有SpliceAI_pred列的得分小于得分阈值;
若预设突变类型为missense_benign_2突变,则判断条件包括:突变位点对应的数据中同时包含关键字段tolerated和benign,并且突变位点对应的数据满足以下预设要求:所有SpliceAI_pred列的得分小于得分阈值;
若预设突变类型为missense_damage_1突变,则判断条件包括:突变位点对应的数据中包含关键字段inframe_deletion、inframe_insertion、missense_variant、stop_lost、start_lost和protein_altering_variant中的至少一个,并且突变位点对应的数据满足以下预设要求:CADD大于等于预设值,所有SpliceAI_pred列的得分小于得分阈值;
若预设突变类型为missense_damage_2突变,则判断条件包括:突变位点对应的数据中同时包含关键字段deleterious和probably_damaging,并且突变位点对应的数据满足以下预设要求:所有SpliceAI_pred列的得分小于得分阈值;
若预设突变类型为synonymous突变,则判断条件包括:突变位点对应的数据中包含关键字段synonymous_variant、stop_retained_variant和incomplete_terminal_codon_variant中的至少一个,并且突变位点对应的数据满足以下预设要求:所有SpliceAI_pred列的得分小于得分阈值。
进一步地,所述配置参数还包括预设外部频率值;所述过滤条件还包括:突变位点对应的数据中的的gnomAD_AF值和gnomADg_AF值均小于预设外部频率值。
进一步地,所述根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点,具体包括:
针对所述突变检测结果文件中的每个突变位点,按照过滤条件的优先级顺序,依次将各过滤条件与所述每个突变位点进行匹配,直至匹配到所述每个突变位点不满足的过滤条件或者匹配完所有过滤条件;
当匹配到所述每个突变位点不满足的过滤条件时,确定所述每个突变位点不是目标突变位点;
当确定所述每个突变位点满足所有过滤条件时,确定所述每个突变位点为目标突变位点。
可选地,所述优先级顺序包括:最先进行匹配的过滤条件为突变位点的等位频率值在所述预设等位评率范围内,最后进行匹配的过滤条件为突变位点属于所述预设突变类型。
进一步地,所述配置参数为默认值或者外部输入值。
可选地,所述预设转录本类型选自CANONICAL转录本、CCDS转录本或RefSeq转录本。
可选地,所述数据处理方法还包括:对所述目标突变位点对应的部分数据进行输出,其中所述部分数据包括:突变位点、基因名称、基因的Ensemble ID、突变数目统计信息、突变位点参考信息和样本基因型数据。
可选地,在输出的所述样本基因型数据中,其中的基因型数据进行了如下替换:基因型“0/0”替换为“0”,基因型“1/0”和基因型“0/1”替换为“1”,基因型“1/1”替换为“2”,基因型“./.”替换为“.”。
第二方面,本发明实施例提供一种电子设备,包括:
数据接收单元,用于接收注释后的突变检测结果文件,所述注释后的突变检测结果文件包括多行数据;每一行数据对应于一个突变位点;
配置参数获取单元,用于获取过滤条件对应的配置参数,所述配置参数包括预设等位频率范围、预设转录本类型和预设突变类型;
目标突变位点确定单元,用于根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点;其中所述过滤条件包括:突变位点的等位频率值在所述预设等位频率范围内,突变位点所在的转录本类型数据包括所述预设转录本类型,突变位点属于所述预设突变类型。
第三方面,本发明实施例提供了一种电子设备,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行以上所述的数据处理方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以上所述的数据处理方法。
上述一种注释后的突变检测结果文件的数据处理方法、电子设备和计算机可读存储介质,通过过滤条件对突变检测结果文件中的每个突变位点数据进行筛选,从而筛选出符合过滤条件的突变位点,使得注释后的突变检测结果文件数据的处理更加方便便捷,并且可以避免手动挑选匹配带来的数据遗漏或者匹配错误的可能,数据处理的准确率高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1示出了根据本发明一个实施例中的注释后的突变检测结果文件的数据处理方法的流程图。
图2示出了根据本发明一个实施例中的注释后的突变检测结果文件的数据处理方法处理后的输出文件的部分截图。
图3示出了根据本发明一个实施例中的突变位点是否属于所述预设突变类型判断方法的流程示意图。
图4示出了根据本发明另一个实施例中的一种电子设备的结构框图。
图5示出了根据本发明另一个实施例中的一种计算机设备的内部结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种注释后的突变检测结果文件的数据处理方法的流程示意图,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤。
步骤101,接收注释后的突变检测结果文件,所述注释后的突变检测结果文件包括多行数据,每一行数据对应一个突变位点。
在本发明实施例中,突变检测结果文件指的是VCF(Variant Call Format)文件,VCF文件格式是记录测序结果里相对于参考序列的序列变异情况文件,通常来说是通过注释软件对突变检测结果文件进行突变位点注释,然后再对注释后的突变检测结果文件进行进一步的分析处理。
常用的注释软件包括Annovar、SnpEff、VEP(variant Effect Predictor)和Oncotator。在本发明一个具体实施例中,采用VEP对突变检测结果文件进行注释。
注释后的VCF文件的内容分为两大部分,第一部分是以##为标志的注释信息,第二部分则是对变异结果的全面记录。本发明实施例中的数据处理方法主要是对VCF文件第二部分中的数据的具体处理。在VCF文件的第二部分中,每一行数据对应一个突变位点。
步骤102,获取过滤条件对应的配置参数,所述配置参数包括预设等位频率范围、预设转录本类型和预设突变类型。
在本发明实施例中,配置参数为默认值或者外部输入值。如果采用默认值的设置可以方便使用,外部输入值的设置方便使用者根据需要进行调整,提高方法的适用性。
在本发明实施例中,等位频率(Allele Frequency,简称为AF)有时翻译为等位基因频率,是群体遗传学的术语,用来显示一个种群中基因的多样性,或者说是基因库的丰富程度。在一个实施例中,等位频率范围由等位频率值下限和等位频率值下限组成,通过设置等位频率上限值和等位频率下限值来设定等位频率范围。在罕见变异研究中,主要是对低频变异进行研究;在一个具体实施例中等位频率值下限和等位频率值上限为分别为0.001和0.01。
在本发明实施例中,转录本是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。预设转录本类型指的是目标突变位点对应的转录本的种类,在一个具体的实施例中,预设转录本类型选自CANONICAL转录本、CCDS转录本或RefSeq转录本,其中CANONICAL转录本:为最保守、表达最高的基因选择的单个转录本,具有最长的编码序列。CCDS转录本:在Ensembl,MGI,HGNC和NCBI之间一致地注释共识编码序列集中的编码序列。RefSeq转录本:存储在RefSeq数据库中的转录本以NM为开头。
在本发明实施例中,突变类型是对突变位点的分类,预设突变类型可以是已有突变类型中的一种或多种。
一般来说,突变类型包括同义突变(synonymous variants)、良性缺失突变(missense_benign)、损坏缺失突变(missense_damage)和功能缺失突变(Loss offunction),在本发明实施例中,预设突变类型是使用者想要得到的目标突变位点对应的突变类型,可以根据需要进行选择和设定。
在一个实施例中,良性缺失突变(missense_benign)包括两种子类型:missense_benign_1突变和missense_benign_2突变。损坏缺失突变(missense_damage)包括两种子类型:missense_damage_1突变和missense_damage_2突变。
步骤103,根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点;其中所述过滤条件包括:突变位点的等位频率值在所述预设等位频率范围内,突变位点所在的转录本类型数据包括所述预设转录本类型,突变位点属于所述预设突变类型。
在本发明实施例中,采用过滤条件对注释后的突变检测结果文件中的每一个突变位点进行过滤,得到符合所有过滤条件的突变位点。具体来说是采用过滤条件对每个突变位点对应的数据中的信息进行过滤,符合所有过滤条件的突变位点即为目标突变位点。
在一个实施例中,所述配置参数还包括预设外部频率值;所述过滤条件还包括:突变位点的gnomAD_AF值和gnomADg_AF值均小于预设外部频率值。其中gnomAD_AF值指的是gnomAD数据库中存储的外显子的等位频率,gnomADg_AF值指的是gnomAD数据库中存储的全基因组的等位频率。gnomAD是最大的参考人群等位基因频率数据库。
在一个实施例中,如果本发明中的方法用于研究common突变位点,那么预设等位频率范围为:0.05至inf(其中inf为无限大);预设外部等位频率默认为inf,使用者可以根据研究的需要对预设外部等位频率值进行定义。
在一个实施例中,如果本发明中的方法用于研究低频突变位点,那么预设等位频率范围为:0.005至0.05;预设外部等位频率可以设置为0.05,或者使用者可以根据研究的需要选取0.005-0.05之间的任意值。
在一个实施例中,如果本发明中的方法用于研究rare突变位点,那么预设等位频率范围为:-inf至0.005;预设外部等位频率可以设置为0.005,或者使用这可以根据研究的需要选取-inf-0.005之间的任意值。
在一个实施例中,步骤103,根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点,具体包括:针对所述突变检测结果文件中的每个突变位点,按照过滤条件的优先级顺序,依次将各过滤条件与所述每个突变位点进行匹配,直至匹配到所述每个突变位点不满足的过滤条件或者匹配完所有过滤条件;当匹配到所述每个突变位点不满足的过滤条件时,确定所述每个突变位点不是目标突变位点;当确定所述每个突变位点满足所有过滤条件时,确定所述每个突变位点为目标突变位点。在一个具体实施例中,步骤103是对注释后的突变检测结果文件中的每个突变位点对应的数据与所有过滤条件进行匹配。在一个具体实施例中国,对注释后的突变检测结果文件中的数据逐行进行过滤条件匹配。
在本发明实施例中,过滤条件的优先级顺序指的是在本发明实施例中过滤条件具有先后顺序。
在一个实施例中,所述优先级顺序包括:最先进行匹配的过滤条件为突变位点的等位频率值在所述预设等位频率范围内,最后进行匹配的过滤条件为突变位点属于所述预设突变类型。对于预设等位频率范围的确认过程是数值的匹配和核对过程,操作简单易于实现,因此将作为最先进行匹配的过滤条件,可以采用简单条件过滤掉大量无关突变位点。预设突变类型的匹配过程相对来说较为复杂,因此放在最后进行匹配,因此可以使得复杂处理对应最少的数据量,简化处理过程的数据处理总量。
在一个更为具体的实施例中,过滤条件优先级顺序具体如下:(1)突变位点的等位频率值在所述预设等位频率范围内;(2)突变位点的转录本类型数据包括所述预设转录本类型;(3)突变位点的gnomAD_AF值小于预设外部频率值;(4)突变位点属于所述预设突变类型。在本发明的另一个实施例中,注释后的突变检测结果文件的数据处理方法还包括:对所述目标突变位点对应的部分数据进行输出,所述部分数据包括:突变位点、基因名称、基因的Ensemble ID、突变数目统计信息、突变位点参考信息和样本基因型数据。在本发明实施例中,将目标突变位点中的部分数据进行输出,输出内容少而精,避免将目标突变位点对应的所有信息输出造成的信息冗杂;输出内容充分覆盖了突变分析需要的主要信息。
图2为本发明实施例中的方法输出文件的部分截图。如图2所示,其中variant列代表突变位点,突变位点包括:染色体编号_染色体位置信息_参考基因组碱基类型_变异碱基类型,例如:chr1_865568_G_A。其中,symbol列代表基因名称,ensemble列代表基因的Ensemble ID。其中的stat列代表突变数目统计信息,该信息记录是对样本中的突变数目进行统计获得的数据,例如:20944/1/0/0/10,表示在样本中0/0突变的样本数是20944个,0/1突变的样本数为1,1/0突变和1/1突变的样本数均为0,./.突变的样本数为10。其中0/0代表等位基因中两个碱基都没有发生突变,即为野生型;0/1和1/0表示等位基因中一个碱基发生了突变,为杂合子;1/1代表等位基因中两个碱基均发生了突变;./.代表样本的突变数据缺失。info列代表突变位点参考信息,该列信息来自于VCF文件中的INFO列中与目标突变位点对应的主要信息,具体来说是保留VCF文件中的INFO列中Allele子列以后的内容。info列以后的内容是样本基因型数据,其中列名为样本名称,具体内容为样本对应的基因型数据,在本发明实施例中对基因型数据进行了如下替换:基因型“0/0”替换为“0”,基因型“1/0”和基因型“0/1”替换为“1”,基因型“1/1”替换为“2”,基因型“./.”替换为“.”。这样替换使得方便对突变数目进行计数,在后续应用中使用者可以根据输出文件中的样本基因型数据构建突变位点所在基因的基因型矩阵,进行burden-test或者fisher-test,计算基因水平上的显著性检验。在一个实施例中,所述对所述目标突变位点对应的部分数据进行输出,具体来说是将每个目标突变位点对应的部分数据,每个目标突变位点对应一行输出数据。图3是本发明实施例提供的突变位点是否属于所述预设突变类型判断方法的流程示意图;如图3所示,突变位点是否属于所述预设突变类型判断方法包括:
步骤301,获取预设突变类型对应的判断条件,所述判断条件包括突变位点对应的数据中包含指定关键字段、以及指定指标的数值满足预设要求。
步骤302,若突变位点对应的数据满足所述判断条件,则确定突变位点属于预设突变类型,否则确定突变位点不属于预设突变类型。
本发明实施例中,在对突变位点进行突变类型的分类时,是通过在突变位点对应的数据中获取预设突变类型对应的判断条件进行分类,判断条件包括突变位点对应的数据中包含指定关键字段、以及指定指标的数值满足预设要求。在本发明实施例中的指定关键字段指的是预设突变类型对应的用来描述突变种类的字段。在本发明实施例中,指定关键字段和指定指标均存储在VCF文件的INFO列中,其中指定指标所在的列均是INFO列中子列对应的数据。
在一个实施例中,若预设突变类型为lof突变,则判断条件包括:突变位点对应的数据中包含关键字段stop_gained、frameshift_variant、start_lost、splice_acceptor_variant和splice_donor_variant中的至少一个;或突变位点对应的数据中不包含关键字段stop_gained、frameshift_variant、start_lost、splice_acceptor_variant和splice_donor_variant中的任何一个,并且突变位点对应的数据满足以下预设要求:至少一个SpliceAI_pred列的得分大于等于预设得分,SpliceAI_pred_SYMBOL列与SYMBOL列相同,LOF列的对应的字段不是LC。其中,SpliceAI_pred_SYMBOL列与SYMBOL列表示的是基因名称,LOF列的对应的字段不是LC代表突变类型为loft突变是可信的。
在一个实施例中,预设得分为0.5。含有得分数据的SpliceAI_pred列包括:SpliceAI_pred_DS_AG列、SpliceAI_pred_DS_AL列、SpliceAI_pred_DS_DG列和SpliceAI_pred_DS_DL列。
在一个实施例中,若预设突变类型为missense_benign_1突变,则判断条件包括:突变位点对应的数据中包含关键字段inframe_deletion、inframe_insertion、missense_variant、stop_lost和start_lost中的至少一个,并且突变位点对应的数据满足以下预设要求:CADD小于预设值,所有SpliceAI_pred列的得分小于得分阈值。
在一个实施例中,若预设突变类型为missense_benign_2突变,则判断条件包括:突变位点对应的数据中同时包含关键字段tolerated和benign,并且突变位点对应的数据满足以下预设要求:所有SpliceAI_pred列的得分小于得分阈值。
在一个实施例中,若预设突变类型为missense_damage_1突变,则判断条件包括:突变位点对应的数据中包含关键字段inframe_deletion、inframe_insertion、missense_variant、stop_lost、start_lost和protein_altering_variant中的至少一个,并且突变位点对应的数据满足以下预设要求:CADD大于等于预设值,所有SpliceAI_pred列的得分小于得分阈值。
在一个实施例中,若预设突变类型为missense_damage_2突变,则判断条件包括:突变位点对应的数据中同时包含关键字段deleterious和probably_damaging,并且突变位点对应的数据满足以下预设要求:所有SpliceAI_pred列的得分小于得分阈值。
在一个实施例中,若预设突变类型为synonymous突变,则判断条件包括:突变位点对应的数据中包含关键字段synonymous_variant、stop_retained_variant和incomplete_terminal_codon_variant中的至少一个,并且突变位点对应的数据满足以下预设要求:所有SpliceAI_pred列的得分小于得分阈值。
在本发明实施例中,CADD分值是CADD数据库独创了一种打分算法,来衡量变异位点(突变位点)的有害程度。在一个实施例中,其中预设值可以为10、15或20;优选的,预设值为15。
本发明实施例中,对良性缺失突变(missense_benign)和损坏缺失突变(missense_damage)进行了进一步的细分,其中missense_benign突变包括:missense_benign_1突变和missense_benign_2突变;missense_damage突变包括:missense_damage_1突变和missense_damage_2突变。分类更加细致,对于突变位点的有害性的判断更加准确。
在本发明实施例中方法应用过程中,其中预设突变类型可以是一个也可以是多个。可以根据需要同时提取出多个感兴趣突变类型对应的突变位点。当然也可以对感兴趣突变类型的突变位点数据分别进行提取,后续根据需要进行数据的整合处理。
在一个实施例中,如图4所示,提供了一种电子设备,包括:数据接收单元401、配置参数获取单元402和目标突变位点确定单元403;其中:
数据接收单元401,用于接收注释后的突变检测结果文件,所述注释后的突变检测结果文件包括多行数据;每一行数据对应于一个突变位点;
配置参数获取单元402,用于获取过滤条件对应的配置参数,所述配置参数包括预设等位频率范围、预设转录本类型和预设突变类型;
目标突变位点确定单元403,用于根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点;其中所述过滤条件包括:突变位点的等位频率值在所述预设等位频率范围内,突变位点所在的转录本类型数据包括所述预设转录本类型,突变位点属于所述预设突变类型。
在一个实施例中,该电子设备还包括输出单元,所述输出单元用于对所述目标突变位点对应的部分数据进行输出,所述部分数据包括:突变位点、基因名称、基因的Ensemble ID、突变数目统计信息、突变位点参考信息和样本基因型数据。
关于一种电子设备的具体限定可以参见上文中对于一种注释后的突变检测结果文件的数据处理方法的限定,在此不再赘述。上述电子设备中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个单元对应的操作。
在本发明实施例中,提供了一种电子设备,该电子设备可以为计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于表型的基因优先级排序方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
接收注释后的突变检测结果文件,所述注释后的突变检测结果文件包括多行数据,每一行数据对应一个突变位点;
获取过滤条件对应的配置参数,所述配置参数包括预设等位频率范围、预设转录本类型和预设突变类型;和
根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点;其中所述过滤条件包括:突变位点对应的等位频率值在所述预设等位频率范围内,突变位点所在的转录本类型数据包括所述预设转录本类型,突变位点属于所述预设突变类型。
本实施例中的电子设备具体来说可以为一种计算机设备。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收注释后的突变检测结果文件,所述注释后的突变检测结果文件包括多行数据,每一行数据对应一个突变位点;
获取过滤条件对应的配置参数,所述配置参数包括预设等位频率范围、预设转录本类型和预设突变类型;和
根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点;其中所述过滤条件包括:突变位点的等位频率值在所述预设等位频率范围内,突变位点所在的转录本类型数据包括所述预设转录本类型,突变位点属于所述预设突变类型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种注释后的突变检测结果文件的数据处理方法,其特征在于,包括:
接收注释后的突变检测结果文件,所述注释后的突变检测结果文件包括多行数据,每一行数据对应一个突变位点;
获取过滤条件对应的配置参数,所述配置参数包括预设等位频率范围、预设转录本类型和预设突变类型;和
根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点;其中所述过滤条件包括:突变位点的等位频率值在所述预设等位频率范围内,突变位点所在的转录本类型数据包括所述预设转录本类型,突变位点属于所述预设突变类型;
所述根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点,具体包括:
针对所述突变检测结果文件中的每个突变位点,按照过滤条件的优先级顺序,依次将各过滤条件与所述每个突变位点进行匹配,直至匹配到所述每个突变位点不满足的过滤条件或者匹配完所有过滤条件;
当匹配到所述每个突变位点不满足的过滤条件时,确定所述每个突变位点不是目标突变位点;
当确定所述每个突变位点满足所有过滤条件时,确定所述每个突变位点为目标突变位点。
2.根据权利要求1所述的数据处理方法,其特征在于,通过如下方法判断突变位点是否属于所述预设突变类型:
获取预设突变类型对应的判断条件,所述判断条件包括突变位点对应的数据中包含指定关键字段、以及指定指标的数值满足预设要求;
若突变位点对应的数据满足所述判断条件,则确定突变位点属于预设突变类型,否则确定突变位点不属于预设突变类型。
3.根据权利要求2所述的数据处理方法,其特征在于,若预设突变类型为lof突变,则判断条件包括:
突变位点对应的数据中包含关键字段stop_gained、frameshift_variant、start_lost、splice_acceptor_variant和splice_donor_variant中的至少一个;或
突变位点对应的数据中不包含关键字段stop_gained、frameshift_variant、start_lost、splice_acceptor_variant和splice_donor_variant中的任何一个,并且突变位点对应的数据满足以下预设要求:至少一个SpliceAI_pred列的得分大于等于预设得分,SpliceAI_pred_SYMBOL列与SYMBOL列相同,LOF列的对应的字段不是LC。
4.根据权利要求2所述的数据处理方法,其特征在于,
若预设突变类型为missense_benign_1突变,则判断条件包括:突变位点对应的数据中包含关键字段inframe_deletion、inframe_insertion、missense_variant、stop_lost和start_lost中的至少一个,并且突变位点对应的数据满足以下预设要求:CADD小于预设值,所有SpliceAI_pred列的得分小于得分阈值;
若预设突变类型为missense_benign_2突变,则判断条件包括:突变位点对应的数据中同时包含关键字段tolerated和benign,并且突变位点对应的数据满足以下预设要求:所有SpliceAI_pred列的得分小于得分阈值;
若预设突变类型为missense_damage_1突变,则判断条件包括:突变位点对应的数据中包含关键字段inframe_deletion、inframe_insertion、missense_variant、stop_lost、start_lost和protein_altering_variant中的至少一个,并且突变位点对应的数据满足以下预设要求:CADD大于等于预设值,所有SpliceAI_pred列的得分小于得分阈值;
若预设突变类型为missense_damage_2突变,则判断条件包括:突变位点对应的数据中同时包含关键字段deleterious和probably_damaging,并且突变位点对应的数据满足以下预设要求:所有SpliceAI_pred列的得分小于得分阈值;
若预设突变类型为synonymous突变,则判断条件包括:突变位点对应的数据中包含关键字段synonymous_variant、stop_retained_variant和incomplete_terminal_codon_variant中的至少一个,并且突变位点对应的数据满足以下预设要求:所有SpliceAI_pred列的得分小于得分阈值。
5.根据权利要求1所述的数据处理方法,其特征在于,所述配置参数还包括预设外部频率值;所述过滤条件还包括:突变位点对应的数据中的的gnomAD_AF值和gnomADg_AF值均小于预设外部频率值。
6.根据权利要求1所述的数据处理方法,其特征在于,所述优先级顺序包括:最先进行匹配的过滤条件为突变位点的等位频率值在所述预设等位评率范围内,最后进行匹配的过滤条件为突变位点属于所述预设突变类型。
7.根据权利要求1至5任一项所述的数据处理方法,其特征在于,所述配置参数为默认值或者外部输入值。
8.根据权利要求1至5任一项所述的数据处理方法,其特征在于,所述预设转录本类型选自CANONICAL转录本、CCDS转录本或RefSeq转录本。
9.根据权利要求1至5任一项所述的数据处理方法,其特征在于,所述数据处理方法还包括:对所述目标突变位点对应的部分数据进行输出,其中所述部分数据包括:突变位点、基因名称、基因的Ensemble ID、突变数目统计信息、突变位点参考信息和样本基因型数据。
10.根据权利要求9所述的数据处理方法,其特征在于,在输出的所述样本基因型数据中,其中的基因型数据进行了如下替换:基因型“0/0”替换为“0”,基因型“1/0”和基因型“0/1”替换为“1”,基因型“1/1”替换为“2”,基因型“./.”替换为“.”。
11.一种电子设备,其特征在于,包括:
数据接收单元,用于接收注释后的突变检测结果文件,所述注释后的突变检测结果文件包括多行数据;每一行数据对应于一个突变位点;
配置参数获取单元,用于获取过滤条件对应的配置参数,所述配置参数包括预设等位频率范围、预设转录本类型和预设突变类型;
目标突变位点确定单元,用于根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点;其中所述过滤条件包括:突变位点的等位频率值在所述预设等位频率范围内,突变位点所在的转录本类型数据包括所述预设转录本类型,突变位点属于所述预设突变类型;所述根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点,具体包括:
针对所述突变检测结果文件中的每个突变位点,按照过滤条件的优先级顺序,依次将各过滤条件与所述每个突变位点进行匹配,直至匹配到所述每个突变位点不满足的过滤条件或者匹配完所有过滤条件;
当匹配到所述每个突变位点不满足的过滤条件时,确定所述每个突变位点不是目标突变位点;
当确定所述每个突变位点满足所有过滤条件时,确定所述每个突变位点为目标突变位点。
12.一种电子设备,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行权利要求1至10任一项所述的数据处理方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的数据处理方法。
CN202110530584.3A 2021-05-14 2021-05-14 注释后的突变检测结果文件的数据处理方法及相关设备 Active CN113257347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110530584.3A CN113257347B (zh) 2021-05-14 2021-05-14 注释后的突变检测结果文件的数据处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110530584.3A CN113257347B (zh) 2021-05-14 2021-05-14 注释后的突变检测结果文件的数据处理方法及相关设备

Publications (2)

Publication Number Publication Date
CN113257347A CN113257347A (zh) 2021-08-13
CN113257347B true CN113257347B (zh) 2022-02-11

Family

ID=77182054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110530584.3A Active CN113257347B (zh) 2021-05-14 2021-05-14 注释后的突变检测结果文件的数据处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN113257347B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN107194208A (zh) * 2017-04-25 2017-09-22 北京荣之联科技股份有限公司 一种基因分析注释方法和装置
CN112489729A (zh) * 2020-12-04 2021-03-12 北京诺禾致源科技股份有限公司 基因数据查询方法及装置、非易失性存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6214557B1 (en) * 2000-06-06 2001-04-10 Washington University Cold sensitive mutant DNA polymerases
CN104462869B (zh) * 2014-11-28 2017-12-26 天津诺禾致源生物信息科技有限公司 检测体细胞单核苷酸突变的方法和装置
CN110021348A (zh) * 2018-06-19 2019-07-16 上海交通大学医学院附属瑞金医院 基于RNA-seq数据的肿瘤基因突变检测方法及系统
CN109887548B (zh) * 2019-01-18 2022-11-08 臻悦生物科技江苏有限公司 基于捕获测序的ctDNA占比的检测方法及检测装置
CN111180010B (zh) * 2019-12-27 2023-07-11 北京优迅医学检验实验室有限公司 肿瘤体细胞突变位点检测方法及其装置
CN111647648A (zh) * 2020-05-21 2020-09-11 北斗生命科学(广州)有限公司 一种用于检测乳腺癌基因突变的基因panel及其检测方法与应用
CN112289376B (zh) * 2020-10-26 2021-07-06 北京吉因加医学检验实验室有限公司 一种检测体细胞突变的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN107194208A (zh) * 2017-04-25 2017-09-22 北京荣之联科技股份有限公司 一种基因分析注释方法和装置
CN112489729A (zh) * 2020-12-04 2021-03-12 北京诺禾致源科技股份有限公司 基因数据查询方法及装置、非易失性存储介质

Also Published As

Publication number Publication date
CN113257347A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
Williams et al. RNA‐seq data: challenges in and recommendations for experimental design and analysis
Zhang et al. SVseq: an approach for detecting exact breakpoints of deletions with low-coverage sequence data
Huang et al. Efficiently identifying genome-wide changes with next-generation sequencing data
CN109243530B (zh) 遗传变异判定方法、系统以及存储介质
CN112634987A (zh) 一种单样本肿瘤dna拷贝数变异检测的方法和装置
CN113257347B (zh) 注释后的突变检测结果文件的数据处理方法及相关设备
KR101770962B1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
CN113436681B (zh) 低频变异与目标疾病的关联统计检验方法及相关设备
CN111370065B (zh) 一种检测rna跨样本交叉污染率的方法和装置
CN101517579A (zh) 蛋白质查找方法和设备
Zhang et al. HapScope: a software system for automated and visual analysis of functionally annotated haplotypes
CN114067908B (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质
WO2023184976A1 (zh) 医学数据管理方法和系统、设备、介质、计算机程序产品
WO2020002567A1 (en) Computing device with improved user interface for interpreting and visualizing data
CN111028885B (zh) 一种检测牦牛rna编辑位点的方法及装置
CN114625939A (zh) 医学数据管理方法和系统、设备、介质
CN111627492A (zh) 癌症基因组Hi-C数据仿真方法、装置和电子设备
CN117153248B (zh) 一种基于泛基因组的基因区变异检测及可视化方法、系统
CN111326211B (zh) 一种检测地中海贫血基因变异的方法及检测装置
CN117238368B (zh) 分子遗传标记分型方法和装置、生物个体识别方法和装置
CN115631792A (zh) 一种基于测序的杂交鱼类基因重组分析方法及装置
Sun et al. asSeq: A set of tools for the study of allele-specific RNA-seq data
CN116453588A (zh) 基于全基因组测序的strc基因拷贝数变异检测方法
CN117316271A (zh) 基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统
CN116543907A (zh) 身体质量指数的预测方法、模型训练方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant