CN106529209A - 免疫系统对应的基因的突变位点的获取方法及装置 - Google Patents

免疫系统对应的基因的突变位点的获取方法及装置 Download PDF

Info

Publication number
CN106529209A
CN106529209A CN201610972999.5A CN201610972999A CN106529209A CN 106529209 A CN106529209 A CN 106529209A CN 201610972999 A CN201610972999 A CN 201610972999A CN 106529209 A CN106529209 A CN 106529209A
Authority
CN
China
Prior art keywords
gene
variant sites
immune system
site
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610972999.5A
Other languages
English (en)
Inventor
范振鑫
刘鱼
芮曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xin Yun Decoding Technology Co Ltd
Original Assignee
Chengdu Xin Yun Decoding Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Xin Yun Decoding Technology Co Ltd filed Critical Chengdu Xin Yun Decoding Technology Co Ltd
Priority to CN201610972999.5A priority Critical patent/CN106529209A/zh
Publication of CN106529209A publication Critical patent/CN106529209A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请提供了一种免疫系统对应的基因的突变位点的获取方法及装置,涉及生物信息技术领域。该方法包括:将待测基因的多个短序列与参考基因组进行数据比对,获得待测基因的初步变异位点信息;根据初步变异位点信息,将多个初步变异位点中不满足预设保留条件的变异位点删除,将删除后获得的所述待测基因中的变异位点作为待检位点;将所述待检位点与免疫系统基因库中的免疫系统对应的基因的多个变异位点进行比较;当待检位点中存在与所述免疫系统基因库中位置相同且突变碱基相同的变异位点,获得待测基因中免疫系统对应的基因的位点突变情况。该方法及装置可以获得该待测基因中的变异位点中与免疫系统相关的多个变异位点的突变情况。

Description

免疫系统对应的基因的突变位点的获取方法及装置
技术领域
本申请涉及生物信息技术领域,具体而言,涉及一种免疫系统对应的基因的突变位点的获取方法及装置。
背景技术
随着医学、基因组学和高通量测序技术的发展和成熟,精准医疗(PrecisionMedicine)也在世界各国应用,成为新型的医疗模式。精准医疗为将个人基因、环境与生活习惯差异考虑在内的疾病预防与处置的医疗方法,依据每个人的遗传信息,个性化、精准化的去制定医疗和健康管理方案。
而每个人的遗传背景是有区别的,在此过程中,就需要确定每个人的基因组或者某些与相应器官或者位置相关联的基因的突变情况,以使能够根据该碱基突变情况进一步分析对比,确定最终的患病可能性,以指定相应的医疗和健康管理方案。
免疫系统具有免疫监视、防御、调控的作用。这个系统由免疫器官(骨髓、脾脏、淋巴结、扁桃体、小肠集合淋巴结、阑尾、胸腺等)、免疫细胞(淋巴细胞、单核吞噬细胞、中性粒细胞、嗜碱粒细胞、嗜酸粒细胞、肥大细胞、血小板(因为血小板里有IGG)等),以及免疫活性物质(抗体、溶菌酶、补体、免疫球蛋白、干扰素、白细胞介素、肿瘤坏死因子等细胞因子)组成。免疫系统(immune system)是机体执行免疫应答及免疫功能的重要系统。
若免疫系统发生病变,会产生极其严重的影响。于是,对免疫系统疾病做一定预防措施,以减小发病几率,极其重要。
由于免疫疾病的发病情况与遗传基因具有一定的联系,免疫系统对应的基因的位点碱基突变情况不同,可能使免疫系统的不同免疫疾病的发病情况及发病几率不同。于是,可以利用精准医疗模式,根据免疫系统对应的基因的碱基突变情况以及其他信息的结合对免疫疾病的发病情况及几率进行预测,以对免疫疾病进行预防是一种有效的预防方式。免疫疾病即免疫系统疾病。
现有的对免疫系统基因位点突变情况的确定,通常是通过化学方式获取待测基因的某一指定位置的基因位点的碱基突变情况,该获取方式获取的突变位点的数量有限,通常只能获得某一个或某几个碱基的突变情况,不能同时确定待测基因中与免疫系统对应的基因的尽可能多的多个变异位点的突变情况,使后续结合其他信息对免疫疾病的患病情况的预测结果可能出现较大偏差。
发明内容
有鉴于此,本申请实施例提供了一种免疫系统对应的基因的突变位点的获取方法及装置,通过将待测基因的变异位点与免疫系统基因库中的免疫系统对应的基因的多个变异位点进行比较,从而可以获得待测基因中的免疫系统对应的基因的多个变异位点的碱基突变情况,以改善上述问题。
为了实现上述目的,本申请采用的技术方案如下:
一种免疫系统对应的基因的突变位点的获取方法,所述方法包括:将待测基因的多个短序列与参考基因组进行数据比对,获得待测基因的初步变异位点信息,所述初步变异位点信息中包括多个初步变异位点的突变碱基以及每个初步变异位点的位置信息;根据所述初步变异位点信息,将所述多个初步变异位点中不满足预设保留条件的变异位点删除,将删除后获得的所述待测基因中的变异位点作为待检位点;将所述待检位点与免疫系统基因库中的免疫系统对应的基因的多个变异位点进行比较,所述免疫系统基因库中包括免疫系统对应的基因的每个变异位点的突变碱基以及每个变异位点所在位置;当所述待检位点中存在与所述免疫系统基因库中位置相同且突变碱基相同的变异位点,获得所述待测基因中免疫系统对应的基因的位点突变情况。
一种免疫系统对应的基因的突变位点的获取装置,所述装置包括:比对模块,用于将待测基因的多个短序列与参考基因组进行数据比对,获得待测基因的初步变异位点信息,所述初步变异位点信息中包括多个初步变异位点的突变碱基以及每个初步变异位点的位置信息;过滤模块,用于根据所述初步变异位点信息,将所述多个初步变异位点中不满足预设保留条件的变异位点删除,将删除后获得的所述待测基因中的变异位点作为待检位点;比较模块,用于将所述待检位点与免疫系统基因库中的免疫系统对应的基因的多个变异位点进行比较,所述免疫系统基因库中包括免疫系统对应的基因的每个变异位点的突变碱基以及每个变异位点所在位置;突变获取模块,当所述待检位点中存在与所述免疫系统基因库中位置相同且突变碱基相同的变异位点,用于获得所述待测基因中免疫系统对应的基因的位点突变情况。
本申请实施例提供的免疫系统对应的基因的突变位点的获取方法及装置,在获得待测基因的变异位点的情况下,将待测基因的变异位点中与免疫系统基因库中免疫系统对应的基因的多个变异位点进行比较,免疫系统基因库中包括免疫系统对应的基因的每个变异位点的突变碱基以及每个变异位点所在位置。当待测基因中存在与免疫系统基因库中位置相同且突变碱基相同的变异位点,可以确定该待测基因中存在免疫系统对应的基因突变。
由于免疫系统基因库中包括与免疫系统相关的多个变异位点,则本方案可以确定待测基因中与免疫系统相关的多个变异位点,以及该多个变异位点的具体碱基突变情况。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示出了本申请实施例提供的计算机的结构示意图;
图2示出了本申请第一实施例提供的免疫系统对应的基因的突变位点的获取方法的一种流程图;
图3示出了本申请第一实施例提供的免疫系统对应的基因的突变位点的获取方法的部分步骤的流程图;
图4示出了本申请第二实施例提供的免疫系统对应的基因的突变位点的获取装置的功能模块图;
图5示出了本申请第二实施例提供的免疫系统对应的基因的突变位点的获取装置的基因库建立模块的功能模块图;
图6示出了本申请第二实施例提供的免疫系统对应的基因的突变位点的获取装置的过滤模块的功能模块图;
图7示出了本申请第二实施例提供的免疫系统对应的基因的突变位点的获取装置的比对模块的功能模块图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,是本申请计算机100的方框示意图。所述计算机100包括免疫系统对应的基因的突变位点的获取装置200、存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105及其他。
所述存储器101、存储控制器102、处理器103、外设接口104以及输入输出单元105各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述免疫系统对应的基因的突变位点的获取装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述计算机100的操作系统(operating system,OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块,例如所述免疫系统对应的基因的突变位点的获取装置200包括的软件功能模块或计算机程序。
其中,存储器101可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器101用于存储程序,所述处理器103在接收到执行指令后,执行所述程序,前述本申请实施例任一实施例揭示的流过程定义的计算机100所执行的方法可以应用于处理器103中,或者由处理器103实现。
处理器103可能是一种集成电路芯片,具有信号的处理能力。上述的处理器103可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。
所述外设接口104将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中,外设接口104,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元105用于提供给用户输入数据实现用户与所述计算机的交互。所述输入输出单元可以是,但不限于,数据读取装置、鼠标和键盘等。
可以理解的,图1所示的结构仅为示意,计算机100还可以包括比图1中所示更多或更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
第一实施例
本申请实施例提供了一种免疫系统对应的基因的突变位点的获取方法,用于获取待测基因中与免疫系统相关的基因的变异位点的碱基突变情况。请参见图2,该方法包括:
步骤S110:将待测基因的多个短序列与参考基因组进行数据比对,获得待测基因的初步变异位点信息,所述初步变异位点信息中包括多个初步变异位点的突变碱基以及每个初步变异位点的位置信息。
首先,获取待测基因的多个短序列,该短序列可以是通过第二代测序平台输出。将待测基因的短序列与参考基因组进行比对。如,若待测基因为人类基因,该参考基因组则为人类参考基因组。
当然,该比对过程可以包括多次比对以及去重等过程,得到比对后的包括多个变异位点的初步变异位点信息。
具体的,如图3所示,在本实施例中,本步骤中的数据比对以获取初步变异位点信息的过程可以包括:
步骤S111:将所述待测基因的多个短序列与参考基因组进行首次比对,获得SAM格式的比对结果。
将待测基因的短序列与参考基因组进行数据比对,该比对过程可以利用现有的比对软件进行,如Bowtie2,可以获得SAM格式的比对结果,该SAM格式的比对结果中存储有比对后获得的比对信息。可以理解的,在该SAM格式的比对结果中,包括了待测基因中各个碱基的信息,如位置信息。
当然,具体使用的比对软件以及比对结果的表示方式在本实施例中并不作为限制,以能将待测基因的多个短序列与参考基因组进行比对并获得表示比对结果的比对信息为宜。
步骤S112:对所述比对结果进行去重,使对比到参考基因组的一个位置的短序列个数小于或等于1。
步骤S111获得的比对结果中,有一定比例的重复序列和结果,例如,对比到参考基因组的同一位置可能有多个短序列,于是,在本步骤中,将比对结果进行去重。
在本实施例中,可以利用软件Picard进行去重工作。具体的,利用的可以是Picard的MarkDuplicate工具去重,获得bam格式的去重结果。
步骤S113:对去重后的对比结果进行本地重比对(local multiple alignment)。
由于获得的与参考基因组进行比对的短序列很难精确的比对到高度相似的重复区域,于是在基因组的重复区域很容易得到假阳性的变异位点,如假阳性的SNPs。可以理解的,假阳性的变异位点即为比对结果错误的变异位点。为了降低假阳性变异位点的数量和比例,在本实施例中,对去重后的对比结果进行本地重比对。
具体的,该本地重比对(local multiple alignment)可以使用GATK中IndelRealigner进行,获得bam格式的重比对后的比对结果。该比对过程一般有三个步骤,a.检测到可疑的,需要进行重比对的区域;b.对这些可疑的区域进行重比对;c.修复在重比对过程中丢失的mate pairing信息。
步骤S114:重新计算本地重比对后的比对结果中的碱基质量分数。
在前述处理过程中的步骤S111中,每个单一的碱基都会在数据处理过程中被赋予一个质量分数(Quality scores),用于反映相应的碱基被观察到的核苷酸的可信度。
由于前述处理过程中获得的质量分数没有较好地和错误的分型结果可能性联系起来,同时单一碱基的质量分数,没有和其他参数相例子联系,比如在同一个样品中不同测序平台,不同测序循环,不同文库等进行联系。
因此,在本步骤中S114中,将每个碱基的质量分数与测序过程中的各个因子相联系,对每个碱基的质量分数进行重新计算,生成新的质量分数,以用于判断每个碱基是否可信。
具体的,在本实施例中,可以使用GATK进行empirical quality scorerecalibration,获得bam格式的结果。
步骤S115:根据所述碱基质量分数,对本地重比对后的对比结果进行SNP和indel分析,获得初步变异位点信息。
根据重新计算获得的碱基质量分数,对本地重比对获得的比对结果进行SNP和indel的初步判读,对其进行SNP和indel分型,以获得包括多个变异位点的变异位点信息,该变异位点信息作为初步变异位点信息,该包括的多个变异位点作为初步变异位点。可以理解的,在该初步变异位点信息中,包括了多个初步变异位点的突变碱基,以及每个变异位点所在位置。在本实施例中,变异位点为SNP和indel,优选的,在本实施例中,变异位点仅为SNP。
具体的,在本步骤中,可以是利用GATK的Unified Genotyper进行分析。因为在完成SNPs的分型后,采用了很多数据过滤参数对数据再次进行过滤,以进一步控制数据质量,所以在本步骤中将standard minimum confidence thresholds都设置为零。可以理解的,SNPs表示SNP的复数形式。
当然,该SNP和indel的初步判读过程也可以用其他方式进行,在本实施例中并不作为限制,也可以是其他,如GATK的HaplotypeCaller进行。
在该步骤中,可以获得包括初步变异位点信息的vcf文件,该vcf文件中的初步变异位点信息中包括在步骤S110中获得的各个变异位点以及每个变异位点对应的位置信息,当然,还包括其他,在此不加赘述。
步骤S120:根据所述初步变异位点信息,将所述多个初步变异位点中不满足预设保留条件的变异位点删除,将删除后获得的所述待测基因中的变异位点作为待检位点。
在步骤S110中,获得的初步变异位点信息中的初步变异位点中,仍可能存在假阳性的变异位点,于是,本步骤对初步变异位点进行进一步过滤,删除其中假阳性可能性较高的变异位点,以删除后的结果中的变异位点作为该待测基因中的变异位点,使最后获得的变异位点更加准确。可以理解的,删除后的结果中还包括了每个变异位点的位置信息以及其他信息,在此不做赘述。
具体的,在本步骤中,可以包括如下一种或多种删除不满足预设保留条件的变异位点的方式:
方式一:去除所述多个初步变异位点中,等位基因的个数大于预设阈值的变异位点。
等位基因大于预设阈值的变异位点,是假阳性变异位点的可能性较高,对其进行去除。在本实施例中,该预设阈值可以根据实际需要取值,由于包含大于1个以上等位基因的位点就具有较高的基因分型错误,优选的,该预设阈值的取值可以为1。
当预设阈值取值为1,即去除获得的多个初步变异位点中具有1个以上等位基因的变异位点。
方式二:删除所述多个初步变异位点中,位于每个插入缺失(indel)的上游范围或者下游范围内的所有变异位点,所述上游范围和下游范围包括的碱基个数为预设个数。
由于用于数据比对的短序列常由二代测向平台输出,而二代测序平台的短序列在靠近插入缺失(indel)的区域更容易产生错误的比对,而上述处理过程中的本地重比对不能完全消除这一错误。于是,将插入缺失上游范围或者下游范围内的所有变异位点删除,以降低假阳性结果的可能性。
该上游范围和下游范围包括的碱基个数为预设个数,该预设个数可以由用户根据实际需求确定,在本实施例中并不作限制,并且,上游范围以及下游范围的预设个数可以相同或者不同。
在本实施例中,上有范围包括的碱基个数优选为5个,下游范围包括的碱基个数优选为5个。即,确定初步变异位点中的所有indel,针对每一个indel,将其上游5bp(5个碱基)之内的所有变异位点删除,或者将其下游5bp之内的所有变异位点删除。
当然,在本实施例中,可以只删除indel的上游范围内的变异位点或者下游范围内的变异位点,也可以将indel的上游范围内的变异位点以及下游范围内的变异位点都删除。
优选的,在本实施例中,删除的为插入缺失(indel)的上游范围或者下游范围内的所有SNPs。
方式三:将所述多个初步变异位点中,彼此之间间隔预设碱基个数的变异位点删除。
在本步骤中,将彼此靠近的变异位点删除,即将彼此之间距离小于一定值的变异位点删除。
在本实施例中,该预设碱基个数并不作为限制,可以根据实际需要设定。
优选的,该预设碱基个数为4个,若存在彼此之间间隔的碱基个数小于4个的变异位点,将其删除。也就是说,删除在彼此上游或下游5bp之内的变异位点。
优选的,该步骤中,删除的为彼此之间间隔预设碱基个数的SNPs。
方式四:将所述多个初步变异位点中,对应的GQ(Genotype quality)值小于预设GQ阈值的变异位点删除。
GQ(Genotype quality)是一个后验概率(the phred-scaled probabilities)值,对于每一个位点,GQ值用以表示当前获得的基因分型结果中该位点不是真实情况的可能性,即表示获得的在该位点该基因型存在的可能性。计算方式为:
GQ值=-10*log10(P[error]),其中,P[error]表示相应的位点不是真实情况的概率。
优选的,在本实施例中,预设GQ阈值为20。经验证,当GQ阈值为20时,理论上的错误率为1%。
方式五:将所述多个初步变异位点中,对应的MQ(Mapping quality)值小于预设MQ阈值的变异位点删除。
MQ表示在比对序列时的专一性(uniqueness)。当同一个短序列可以比对到同一个基因组不同区域时,第一最好比对区域(the first best alignment)的比对分数(alignment's score)与第二最好比对区域(the second best alignment)的比对分数,两者差异越大,表明比对的专一性越好,MQ的值就越高。
在本实施例中,认为MQ值小于预设MQ阈值的变异位点具有较高的可能性为假阳性,将其删除。
优选的,在本实施例中,预设MQ阈值取值为30。经验证,MQ取值为30时,P[error]=0.001,即相对于比对到当前位置,比对到另一个位置的可能性最高为0.1%。
在本发明实施例中,方式一至方式五为可选的执行方式,即在本步骤中,可采用其中的某一种方式、某几种方式或者所有的方式。当使用多种方式进行不满足预留条件的变异位点的删除时,该多种方式之间的执行顺序并不作为限制。当然,该多种方式也可以并行执行。
另外,该步骤120中,当有多种方式被顺序执行时,后续的步骤可以在前续步骤的基础上执行。例如,若执行方式一的去除所述多个初步变异位点中等位基因的个数大于预设阈值的变异位点,以及方式三中的,将所述多个初步变异位点中彼此之间间隔预设碱基个数的变异位点删除,且先执行方式一,再执行方式三。则在方式三中,删除的可以是方式一处理后的变异位点中彼此之间间隔预设碱基个数的变异位点。
步骤S120对初步变异位点进行删除过滤后,获得的最终结果中的变异位点作为待测基因的待检位点,可以以vcf格式文件表示。
步骤S130:将所述待检位点与免疫系统基因库中的免疫系统对应的基因的多个变异位点进行比较,所述免疫系统基因库中包括免疫系统对应的基因的每个变异位点的突变碱基以及每个变异位点所在位置。
在本发明实施例中,首先建立免疫系统基因库,该免疫系统基因库中包括免疫系统对应的基因的每个变异位点的突变碱基以及每个变异位点所在位置。
该免疫系统基因库在步骤S130的比较之前建立。具体的,该建立过程可以是,获取COSMIC基因数据库、NCBI的clivar数据库、其他国际国内各大权威学术期刊杂志、基因检测公司以及政府有关部门公布的基因数据库中,与免疫系统相关的基因位点信息。主要获取的为包括免疫系统对应的基因的每个变异位点的碱基突变情况以及每个变异位点所在位置的所述基因位点信息。
当然,获取基因位点信息的数据来源也可以是其他,在本实施例中并不作为限制。
进一步的,获取的基因位点信息中还可以包括免疫系统对应的基因的每个变异位点的每种突变碱基对蛋白质功能的影响,即获取到某个变异位点的碱基由正常碱基突变到当前的突变碱基,会对相应的蛋白质的功能产生何种影响。
当然,在本实施例中,获取的基因位点信息中还可以包括:每个突变位点对应的基因名字简写、基因名字全称、此位点在人类基因组中的坐标、对应的组织器官类型、基因突变类型、正常基因在此位点的碱基、临床研究此位点的此种突变是否致病、原始突变发现的人群、原始突变携带者病人的性别、原始突变携带者病人的年纪、原始突变记录的来源中的一种或多种。
再将所述基因位点信息中可信度低于预设标准的以及错误的基因位点信息删除,获得的基因位点信息形成所述免疫系统基因库。
在本实施例中,低于预设标准的基因位点信息包括以下至少一种:
1)从非SCI期刊或在业内声誉很差的期刊获取到的基因位点信息,该业内声誉很差的期刊可以是影响因子低于一定值的期刊或其他评判标准下不满足要求的期刊;2)记载该基因位点信息的原始文献中所用的样品数量低于一定值以至于不足以得出科学的结论的;3)在记载该基因位点的原始文献中,该基因位点并不是文献中发现的最重要基因位点,该最重要的基因位点可以是获取到的结果中前10%的位点。
错误的基因位点信息包括以下至少一种:1)获取的数据库中记载该基因位点信息的原始文献在实质上并没有报道此位点;2)记载该基因位点的原始文献中,该基因位点的结果在统计学上为非显著。
当然,预设标准以及基因位点信息错误的判定标准,在本实施例中并不作为限制,可以根据实际情况确定。
进一步的,由于对免疫系统相关的基因研究不断进行,与免疫系统相关的基因的变异位点的突变情况会处于更新中,且在当前的免疫系统基因库中并不一定存在所有免疫系统的相关基因的变异位点突变情况,于是,在本发明实施例中,还包括每隔预设时间段对所述免疫系统数据库进行更新。
具体的更新过程可以是,每隔预设时间段,获取最新发表在国际权威学术杂志,如Nature,Nature Genetics等上发表的与免疫系统相关的研究论文,将获得的研究论文中最新的与免疫系统相关的基因位点信息,删除其中可信度低于预设标准的以及错误的基因位点信息,加入到免疫系统数据库中以实现更新。
获得免疫系统基因库后,将待检位点与免疫系统数据库中的免疫系统对应的基因的多个变异位点进行比较。
在本实施例中,该比较过程可以是在步骤S120的获得待检位点后直接进行,也可以是由用户触发进行。即在接收到用户触发的查询请求后,执行该步骤S130中的比较。
另外,也可以是,用户输入步骤S120中获得的待检位点中的一个或多个,步骤S130中将用户输入的待检位点与免疫系统基因库中的免疫系统对应的基因的多个变异位点进行比较。
另外,也可以是,用户直接从免疫系统基因库中获取免疫系统相关的变异位点。具体的,用户通过输入输出单元输入基因名字、位点在基因组的坐标等信息。在接收到用户输入的信息后,根据用户输入的信息在免疫系统基因库中进行查找,将查找结果,如基因名字、位点坐标、碱基突变类型等各种信息进行显示。若免疫系统基因库中查找到用户输入的信息,则证明该输入信息对应的基因位点与免疫系统相关,且存在碱基突变。可以理解的,位点在基因组的坐标即为位点的位置。
步骤S140:当所述待检位点中存在与所述免疫系统基因库中位置相同且突变碱基相同的变异位点,获得所述待测基因中免疫系统对应的基因的位点突变情况。
当比较结果为,待检位点中存在与免疫系统数据库中相同的变异位点,则可以根据免疫系统数据库中该相同的变异位点确定该待测基因中有免疫系统对应的基因的位点突变,且突变情况与免疫系统数据库中该相同的变异位点一致。于是,可以获得待测基因中有哪些与免疫系统相关的基因的变异位点以及每个与免疫系统相关的变异位点的具体突变情况,该突变情况包括在哪个位置的哪一个碱基突变为哪一个碱基。
可以理解的,相同的变异位点指变异位点的位置相同且碱基突变情况相同,即在同一个位置具有相同的突变碱基,认为是待检位点中与免疫系统数据库中相同的变异位点。免疫系统对应的基因即与免疫系统相关的基因。
于是,相关人员可以根据获得的待测基因中免疫系统对应的基因的位点突变情况,以及其他信息,如免疫系统相关基因的每种突变情况下可能的患病情况,确定该待测基因对应的对象的免疫系统患病情况。
进一步的,在本实施例中,还可以根据所述待测基因中免疫系统对应的基因的位点突变情况,以及免疫系统数据库中免疫系统对应的基因的每个变异位点的每种突变碱基对蛋白质功能的影响,确定所述待测基因中每个变异位点的突变对蛋白质功能的影响,从而可以确定待测基因对应的对象(如对应的人)的哪些与免疫系统相关的蛋白质功能受到了影响,受到了哪些影响。以使相关专业人员可以根据蛋白质功能的影响,结合其他信息,如蛋白质功能改变与器官具体功能的作用关系等,判断该待测基因对应的对象的免疫系统疾病患病几率以及可能患哪些免疫疾病。
当然,在本发明实施例中,也可以是直接包括每种变异位点的突变情况对免疫系统疾病的致病情况,如某免疫系统疾病的影响可能包括致病、可能致病、危险因素、不确定、有冲突的研究结果、良性,其中某个位置某种突变碱基的致病情况为危险因素,表明该位置有该种突变碱基的对象患该种免疫疾病的几率非常高,需要注意预防。
第二实施例
本实施例提供了一种免疫系统对应的基因的突变位点的获取装置200,请参见图4,该装置200包括:
比对模块210,用于将待测基因的多个短序列与参考基因组进行数据比对,获得待测基因的初步变异位点信息,所述初步变异位点信息中包括多个初步变异位点的突变碱基以及每个初步变异位点的位置信息。
过滤模块220,用于根据所述初步变异位点信息,将多个初步变异位点中不满足预设保留条件的变异位点删除,将删除后获得的所述待测基因中的变异位点作为待检位点。
比较模块230,用于将所述待检位点与免疫系统基因库中的免疫系统对应的基因的多个变异位点进行比较,所述免疫系统基因库中包括免疫系统对应的基因的每个变异位点的突变碱基以及每个变异位点所在位置。
突变获取模块240,当所述待检位点中存在与所述免疫系统基因库中位置相同且突变碱基相同的变异位点,用于获得所述待测基因中免疫系统对应的基因的位点突变情况。
进一步的,免疫系统基因库中还包括免疫系统对应的基因的每个变异位点的每种突变碱基对蛋白质功能的影响,本实施例中的突变获取模块240还用于根据所述待测基因中免疫系统对应的基因的位点突变情况,确定所述待测基因中每个变异位点的突变对蛋白质功能的影响。
进一步的,本实施例中,如图4所示,还包括基因库建立模块250,用于建立免疫系统基因库,所述基因库建立模块250包括:数据获取单元251,用于获取COSMIC基因数据库、NCBI的clivar数据库中与免疫系统相关的基因位点信息,所述基因位点信息中包括免疫系统对应的基因的每个变异位点的突变碱基以及每个变异位点所在位置。数据删除单元252,用于将所述基因位点信息中可信度低于预设标准的以及错误的基因位点信息删除,获得的基因位点信息形成所述免疫系统基因库。
进一步的,如图5所示,该基因库建立模块250还包括更新单元253,用于每隔预设时间段对所述免疫系统基因库进行更新。
进一步的,如图6所示,在本实施例中,过滤模块220包括以下一种或多种:第一删除单元221,用于去除所述多个初步变异位点中,等位基因的个数大于预设阈值的变异位点。第二删除单元222,用于删除所述多个初步变异位点中,位于每个插入缺失的上游范围或者下游范围内的所有变异位点,所述上游范围和下游范围包括的碱基个数为预设个数。第三删除单元223,用于将所述多个初步变异位点中,彼此之间间隔预设碱基个数的变异位点删除。第四删除单元224,用于将所述多个初步变异位点中,对应的GQ值小于预设GQ阈值的变异位点删除。第五删除单元225,用于将所述多个初步变异位点中,对应的MQ值小于预设MQ阈值的变异位点删除。
在本实例中,请参见图7,比对模块210可以包括:比对单元211,用于将所述待测基因的多个短序列与参考基因组进行首次比对,获得SAM格式的比对结果;去重单元212,用于对所述比对结果进行去重,使对比到参考基因组的一个位置的短序列个数小于或等于1;重比对单元213,用于对去重后的对比结果进行本地重比对;计算单元214,用于重新计算本地重比对后的比对结果中的碱基质量分数;初判单元215,用于根据所述碱基质量分数,对本地重比对后的对比结果进行SNP和indel分析,获得初步变异位点信息。
综上所述,本发明实施例提供的免疫系统对应的基因的突变位点的获取方法及装置,在获得待测基因的待测位点后,将待测位点与免疫系统基因库中对应的基因的多个变异位点进行比较,从而可以获得该待测基因中的变异位点中与免疫系统相关的多个变异位点的突变情况,以用于辅助免疫系统疾病的可能患病情况的判断。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器100,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二、另一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种免疫系统对应的基因的突变位点的获取方法,其特征在于,所述方法包括:
将待测基因的多个短序列与参考基因组进行数据比对,获得待测基因的初步变异位点信息,所述初步变异位点信息中包括多个初步变异位点的突变碱基以及每个初步变异位点的位置信息;
根据所述初步变异位点信息,将多个初步变异位点中不满足预设保留条件的变异位点删除,将删除后获得的所述待测基因中的变异位点作为待检位点;
将所述待检位点与免疫系统基因库中的免疫系统对应的基因的多个变异位点进行比较,所述免疫系统基因库中包括免疫系统对应的基因的每个变异位点的突变碱基以及每个变异位点所在位置;
当所述待检位点中存在与所述免疫系统基因库中位置相同且突变碱基相同的变异位点,获得所述待测基因中免疫系统对应的基因的位点突变情况。
2.根据权利要求1所述的方法,其特征在于,所述免疫系统基因库中还包括免疫系统对应的基因的每个变异位点的每种突变碱基对蛋白质功能的影响,
所述方法还包括:
根据所述待测基因中免疫系统对应的基因的位点突变情况,确定所述待测基因中每个变异位点的突变对蛋白质功能的影响。
3.根据权利要求1所述的方法,其特征在于,在所述将所述待检位点与免疫系统基因库中的免疫系统对应的基因的多个变异位点进行比较之前,还包括建立免疫系统基因库,所述建立免疫系统基因库包括:
获取COSMIC基因数据库、NCBI的clivar数据库中与免疫系统相关的基因位点信息,所述基因位点信息中包括免疫系统对应的基因的每个变异位点的突变碱基以及每个变异位点所在位置;
将所述基因位点信息中可信度低于预设标准的以及错误的基因位点信息删除,获得的基因位点信息形成所述免疫系统基因库。
4.根据权利要求3所述的方法,其特征在于,还包括:
每隔预设时间段对所述免疫系统基因库进行更新。
5.根据权利要求1所述的方法,其特征在于,所述将多个初步变异位点中不满足预设保留条件的变异位点删除包括以下一种或多种:
去除所述多个初步变异位点中,等位基因的个数大于预设阈值的变异位点;
删除所述多个初步变异位点中,位于每个插入缺失的上游范围或者下游范围内的所有变异位点,所述上游范围和下游范围包括的碱基个数为预设个数;
将所述多个初步变异位点中,彼此之间间隔预设碱基个数的变异位点删除;
将所述多个初步变异位点中,对应的GQ值小于预设GQ阈值的变异位点删除;
将所述多个初步变异位点中,对应的MQ值小于预设MQ阈值的变异位点删除。
6.根据权利要求1所述的方法,其特征在于,所述将待测基因的多个短序列与参考基因组进行数据比对,获得待测基因的初步变异位点信息包括:
将所述待测基因的多个短序列与参考基因组进行首次比对,获得SAM格式的比对结果;
对所述比对结果进行去重,使对比到参考基因组的一个位置的短序列个数小于或等于1;
对去重后的对比结果进行本地重比对;
重新计算本地重比对后的比对结果中的碱基质量分数;
根据所述碱基质量分数,对本地重比对后的对比结果进行SNP和indel分析,获得初步变异位点信息。
7.根据权利要求1所述的方法,其特征在于,所述变异位点为SNP。
8.一种免疫系统对应的基因的突变位点的获取装置,其特征在于,所述装置包括:
比对模块,用于将待测基因的多个短序列与参考基因组进行数据比对,获得待测基因的初步变异位点信息,所述初步变异位点信息中包括多个初步变异位点的突变碱基以及每个初步变异位点的位置信息;
过滤模块,用于根据所述初步变异位点信息,将多个初步变异位点中不满足预设保留条件的变异位点删除,将删除后获得的所述待测基因中的变异位点作为待检位点;
比较模块,用于将所述待检位点与免疫系统基因库中的免疫系统对应的基因的多个变异位点进行比较,所述免疫系统基因库中包括免疫系统对应的基因的每个变异位点的突变碱基以及每个变异位点所在位置;
突变获取模块,当所述待检位点中存在与所述免疫系统基因库中位置相同且突变碱基相同的变异位点,用于获得所述待测基因中免疫系统对应的基因的位点突变情况。
9.根据权利要求8所述的装置,其特征在于,还包括基因库建立模块,用于建立免疫系统基因库,所述基因库建立模块包括:
数据获取单元,用于获取COSMIC基因数据库、NCBI的clivar数据库中与免疫系统相关的基因位点信息,所述基因位点信息中包括免疫系统对应的基因的每个变异位点的突变碱基以及每个变异位点所在位置;
数据删除单元,用于将所述基因位点信息中可信度低于预设标准的以及错误的基因位点信息删除,获得的基因位点信息形成所述免疫系统基因库。
10.根据权利要求8所述的装置,其特征在于,所述过滤模块包括以下一种或多种:
第一删除单元,用于去除所述多个初步变异位点中,等位基因的个数大于预设阈值的变异位点;
第二删除单元,用于删除所述多个初步变异位点中,位于每个插入缺失的上游范围或者下游范围内的所有变异位点,所述上游范围和下游范围包括的碱基个数为预设个数;
第三删除单元,用于将所述多个初步变异位点中,彼此之间间隔预设碱基个数的变异位点删除;
第四删除单元,用于将所述多个初步变异位点中,对应的GQ值小于预设GQ阈值的变异位点删除;
第五删除单元,用于将所述多个初步变异位点中,对应的MQ值小于预设MQ阈值的变异位点删除。
CN201610972999.5A 2016-11-04 2016-11-04 免疫系统对应的基因的突变位点的获取方法及装置 Pending CN106529209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610972999.5A CN106529209A (zh) 2016-11-04 2016-11-04 免疫系统对应的基因的突变位点的获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610972999.5A CN106529209A (zh) 2016-11-04 2016-11-04 免疫系统对应的基因的突变位点的获取方法及装置

Publications (1)

Publication Number Publication Date
CN106529209A true CN106529209A (zh) 2017-03-22

Family

ID=58349474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610972999.5A Pending CN106529209A (zh) 2016-11-04 2016-11-04 免疫系统对应的基因的突变位点的获取方法及装置

Country Status (1)

Country Link
CN (1) CN106529209A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091870A (zh) * 2019-12-18 2020-05-01 中国科学院大学 基因变异位点质量控制方法及系统
WO2024138706A1 (zh) * 2022-12-30 2024-07-04 深圳华大基因股份有限公司 变异的处理方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539967A (zh) * 2008-12-12 2009-09-23 深圳华大基因研究院 一种单核苷酸多态性检测方法
CN104462869A (zh) * 2014-11-28 2015-03-25 天津诺禾致源生物信息科技有限公司 检测体细胞单核苷酸突变的方法和装置
US20160188793A1 (en) * 2014-12-29 2016-06-30 Counsyl, Inc. Method For Determining Genotypes in Regions of High Homology
CN106011224A (zh) * 2015-12-24 2016-10-12 晶能生物技术(上海)有限公司 神经系统遗传性疾病基因联合筛查方法、试剂盒及其制备方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539967A (zh) * 2008-12-12 2009-09-23 深圳华大基因研究院 一种单核苷酸多态性检测方法
CN104462869A (zh) * 2014-11-28 2015-03-25 天津诺禾致源生物信息科技有限公司 检测体细胞单核苷酸突变的方法和装置
US20160188793A1 (en) * 2014-12-29 2016-06-30 Counsyl, Inc. Method For Determining Genotypes in Regions of High Homology
CN106011224A (zh) * 2015-12-24 2016-10-12 晶能生物技术(上海)有限公司 神经系统遗传性疾病基因联合筛查方法、试剂盒及其制备方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GABOR T MARTH ET AL: "The functional spectrum of low-frequency coding variation", 《GENOME BIOLOGY》 *
张颖等: "成骨不全症家系基因突变位点的检测", 《中国医学工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091870A (zh) * 2019-12-18 2020-05-01 中国科学院大学 基因变异位点质量控制方法及系统
CN111091870B (zh) * 2019-12-18 2021-11-02 中国科学院大学 基因变异位点质量控制方法及系统
WO2024138706A1 (zh) * 2022-12-30 2024-07-04 深圳华大基因股份有限公司 变异的处理方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
Guan et al. Machine learning to predict anti–tumor necrosis factor drug responses of rheumatoid arthritis patients by integrating clinical and genetic markers
CN106407747A (zh) 肿瘤对应的基因的突变位点的获取方法及装置
Staples et al. PRIMUS: rapid reconstruction of pedigrees from genome-wide estimates of identity by descent
JP4437050B2 (ja) 診断支援システム、診断支援方法および診断支援サービスの提供方法
US20190198135A1 (en) Systems and methods for genomic variant annotation
US20120310539A1 (en) Predicting gene variant pathogenicity
Parrish et al. Effect of normalization on significance testing for oligonucleotide microarrays
JP2018502602A (ja) 相同性の高い領域において遺伝子型を決定する方法
EP1514213A2 (en) Computer systems and methods for subdividing a complex disease into component diseases
Mossotto et al. GenePy-a score for estimating gene pathogenicity in individuals using next-generation sequencing data
CN106529211A (zh) 变异位点的获取方法及装置
KR20170000744A (ko) 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
Johnston et al. PEMapper and PECaller provide a simplified approach to whole-genome sequencing
US20190177719A1 (en) Method and System for Generating and Comparing Reduced Genome Data Sets
Glusman et al. Ultrafast comparison of personal genomes via precomputed genome fingerprints
KR20180069651A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
CN106529209A (zh) 免疫系统对应的基因的突变位点的获取方法及装置
Bobak et al. Assessment of imputation methods for missing gene expression data in meta-analysis of distinct cohorts of tuberculosis patients
KR102041504B1 (ko) 환자 계층화를 위한 맞춤의학 분석 플랫폼
CN106503489A (zh) 心血管系统对应的基因的突变位点的获取方法及装置
CN106407745A (zh) 皮肤对应的基因的突变位点的获取方法及装置
CN106529208A (zh) 神经系统对应的基因的突变位点的获取方法及装置
Lippert et al. Finding anchors for genomic sequence comparison
CN106529210A (zh) 心理与精神对应的基因的突变位点的获取方法及装置
Conn et al. Random Forests and Fuzzy Forests in Biomedical Research.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170322

RJ01 Rejection of invention patent application after publication