CN114758723B - 一种基于MeRIP测序技术检测肿瘤治疗靶点的方法和系统 - Google Patents

一种基于MeRIP测序技术检测肿瘤治疗靶点的方法和系统 Download PDF

Info

Publication number
CN114758723B
CN114758723B CN202210330286.4A CN202210330286A CN114758723B CN 114758723 B CN114758723 B CN 114758723B CN 202210330286 A CN202210330286 A CN 202210330286A CN 114758723 B CN114758723 B CN 114758723B
Authority
CN
China
Prior art keywords
genome
tumor
binding
genes
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210330286.4A
Other languages
English (en)
Other versions
CN114758723A (zh
Inventor
范文涛
张紫阳
温韵洁
王勇斯
全智慧
裘宇容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huayinkang Medical Group Co ltd
Guangzhou Huayin Medical Laboratory Center Co Ltd
Original Assignee
Guangzhou Huayinkang Medical Group Co ltd
Guangzhou Huayin Medical Laboratory Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huayinkang Medical Group Co ltd, Guangzhou Huayin Medical Laboratory Center Co Ltd filed Critical Guangzhou Huayinkang Medical Group Co ltd
Priority to CN202210330286.4A priority Critical patent/CN114758723B/zh
Publication of CN114758723A publication Critical patent/CN114758723A/zh
Application granted granted Critical
Publication of CN114758723B publication Critical patent/CN114758723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Abstract

本发明提供一种基于MeRIP技术的肿瘤靶向治疗靶点检测方法,包括以下步骤:(1)m6A测序;(2)测序数据过滤处理后,比对到参考基因组,确定结合峰,注释到相应的基因,得到第一基因组;(3)筛选出结合峰与对照样品具有显著差异的基因,得到第二基因组;(4)与肿瘤靶标数据库比对,筛选出潜在基因,得到第三基因组;(5)进行motif的识别,以确定结合序列,即检测结果。该方法将MeRIP测序技术与靶标信息和临床相关基因数据结合,将需要甄别和筛选的基因数量降低至数十个,与传统的WES、WGS等方法相比,速度有较大提高。

Description

一种基于MeRIP测序技术检测肿瘤治疗靶点的方法和系统
技术领域
本发明涉及基因测序领域,具体涉及一种检测肿瘤治疗靶点的方法,特别涉及一种基于MeRIP测序技术检测肿瘤治疗靶点的方法和一种用于肿瘤靶向治疗靶点检测的系统。
背景技术
肿瘤是原癌基因和抑癌基因等在基因组学和表观遗传学上发生改变和逐步累积基因突变引起的疾病,传统的治疗手段为手术、化疗和放疗,近年来,靶向治疗技术也逐步得到推广和应用。
靶向治疗指的是先对肿瘤癌细胞进基因层面的甄别,找出和正常细胞不同的差异或者变异点,也就是靶点。药物进入体内后,会寻找并与该靶点相结合,即特异地选择分子水平上的致癌位点,并与之相结合来发生作用,从而使肿瘤细胞特异性死亡,而不会波及肿瘤周围的正常组织细胞。进行靶向药治疗的肿瘤患者,必须要进行肿瘤基因检测,以找到治疗靶点。
目前肿瘤靶向治疗的技术,主要依靠全基因组测序(whole-genome sequencing,简称WGS)、全外显子测序(whole-exome sequencing,简称WES)、靶向测序(targetedsequencing或panel sequencing)的技术,检测出DNA水平基因序列的变异,从而锁定基因,对该基因进行针对性的治疗。然而,通过现有技术得到的基因数量比较多,变异数往往从几万到几百万不等,第二基因组中的基因数量往往在一千个以上,在甄别和筛选上有比较大的难度,费用也较高,一般在数万元人民币。以脑胶质瘤为例,根据从TCGA数据库下载的包括muse(59a84472-27d4-497c-8f37-8bc447ff9374)、somaticsniper(61b82eef-f454-434f-a1ca-e9928fd4b936)、varscan(8f06ee91-d5ab-4024-98fb-b6c46f9d90a9)、mutect(da904cd3-79d7-4ae3-b6c0-e7127998b3e6)在内的多个分析方法的各90个脑胶质瘤样品全外显子测序的结果,与临床相关的基因数量分别为9361、8679、9391、9794个,其变异位点数分别位20934、18123、21105、22758个。也可根据肿瘤类型和患者人种筛查概率最高的基因,例如非小细胞肺癌患者通常检测EGFR和ALK基因,但是此种方法存在较大的漏筛风险,不能保证找到所有靶点供医生选择,且一旦开始的检测未发现问题,仍然需要做全基因检测,成本更高且浪费时间。因此,有必要开发效率更高的肿瘤治疗靶点检测方法。
发明内容
为了更有效的检测出肿瘤靶向治疗的靶点,本发明使用MeRIP测序技术测定mRNA和lncRNA上的m6A甲基化位点,通过数据处理筛选出相应的基因,基于数据库的靶标信息及临床肿瘤相关基因数据进一步筛查,通过motif识别给出肿瘤治疗靶点检测结果。
本发明提供一种肿瘤靶向治疗靶点检测方法,包括以下步骤:
(1)获取测试样品和对照样品的m6A测序数据;
(2)对所述测序数据进行过滤处理后,比对到参考基因组,通过比对所述参考基因组及在所述参考基因组的位置确定发生m6A甲基化的区域,即结合峰,根据所述结合峰的位置信息注释到相应的基因,得到第一基因组;
(3)针对所述第一基因组中的每一个基因,将其对应的测试样品的结合峰与对照样品的结合峰进行比较,筛选出所对应的结合峰具有显著差异的基因,得到第二基因组;
(4)将所述第二基因组中的基因与肿瘤靶标数据库比对,从所述第二基因组中的基因中筛选出与肿瘤靶向治疗相关的潜在基因,得到第三基因组;
(5)对所述第三基因组所对应结合峰的mRNA区域进行mot if的识别,以确定第三基因组中基因与结合蛋白的结合序列,将所得结合序列作为肿瘤靶向治疗靶点检测结果。
测试样品为原发灶样品,对照样品为普通体细胞样品,优选癌旁组织样品,所述潜在基因包括数据库中收录的原癌基因和抑癌基因。
所述肿瘤靶向治疗靶点检测方法还可以包括校验步骤:
(6)利用临床肿瘤数据库收录的临床上与待检测肿瘤相关的基因数据,校验第三基因组中的基因。
作为优选,步骤(2)包括以下步骤:
(2.1)对测序数据进行过滤处理;
(2.2)比对到参考基因组;
(2.3)对基因组上各个染色体的密度进行统计,找出短序列在基因组上的结合峰,并对结合峰进行注释,从而得到第一基因组。
其中,步骤(2.1)过滤处理依次完成以下目标:
(a)去除含adapter的测序数据;
(b)去除含N比例大于10%的测序数据,N表示无法确定碱基信息;
(c)去除质量值Q≤10的碱基数占整条测序数据的50%以上测序数据;
(d)去除核糖体污染数据。
步骤(2.1)去除核糖体污染数据的方法为,使用短reads比对工具将数据比对到核糖体数据库,最多允许5个错配,去除比对上核糖体的测序数据,将保留下来的数据用于后续的分析。
步骤(3)中选择原发灶样品作为测试样品,癌旁样品作为对照样品,步骤(3)通过将测试样品和对照样品的结合峰比较,选取第一基因组中m6A甲基化发生显著差异,且m6A区域发生在3‘UTR的基因加入第二基因组,发生显著差异的标准为fdr<0.05。fdr即FalseDiscovery Rate,错误发现率,是通过对差异显著性p值(p-value)进行校正得到的。
进一步地,步骤(4)中基于M6A2target数据库的靶标关系,从第二基因组中筛选出肿瘤靶标数据库中收录的原癌基因、抑癌基因,作为潜在的靶点基因,得到第三基因组。
本领域技术人员可以通过互联网访问M6A2target数据库,互联网地址为:http:// m6a2target.canceromics.org/
步骤(6)中利用临床肿瘤数据库收录的临床上与待测样品肿瘤相关的基因校验第三基因组,如果某基因临床上与待测样品肿瘤相关,则校验通过,该基因写入样品肿瘤治疗靶点检测结果,反之则排除。为保证结果的准确性和可信度,本发明中选用cosmic数据库。该数据库互联网地址为:https://cancer.sanger.ac.uk/cosmic
对指定基因的DNA测序和比对方法是本领域的常规技术,本发明中不再详细描述。
作为本发明的一种示例,短reads比对工具可选用bowtie,与参考基因组比对可使用tophat,寻找短序列在基因组上富集情况的软件可使用exomePeak,motif识别软件可使用HOMER。
本发明所述的bowtie、HOMER、exomePeak、Tophat,exomePeak均为市售商业软件或可自由下载使用的免费软件。
本发明还提供一种MeRIP测序数据的处理方法,包括以下步骤:
(1)将测试样品和对照样品的m6A测序数据输入计算机的存储介质;
(2)对所述测序数据进行过滤处理后,比对到参考基因组,通过比对所述参考基因组及在所述参考基因组的位置确定发生m6A甲基化的区域,即结合峰,根据所述结合峰的位置信息注释到相应的基因,得到第一基因组;
(3)针对所述第一基因组中的每一个基因,将其对应的测试样品的结合峰与对照样品的结合峰进行比较,筛选出所对应的结合峰具有显著差异的基因,得到第二基因组;
(4)将所述第二基因组中的基因与肿瘤靶标数据库比对,从所述第二基因组中的基因中筛选出与肿瘤靶向治疗相关的潜在基因,得到第三基因组;
(5)对所述第三基因组所对应结合峰的mRNA区域进行motif的识别,以确定第三基因组中基因与结合蛋白的结合序列,将所得结合序列作为肿瘤靶向治疗靶点检测结果。
本发明进一步提供一种用于肿瘤靶向治疗靶点检测的系统,包括:
存储器,所述存储器存储可执行指令;以及
一个或多个处理器,所述一个或多个处理器与所述存储器通信以执行可执行指令从而完成以下操作:
(1)获取测试样品和对照样品的m6A测序数据;
(2)对所述测序数据进行过滤处理后,比对到参考基因组,通过比对所述参考基因组及在所述参考基因组的位置确定发生m6A甲基化的区域,即结合峰,根据所述结合峰的位置信息注释到相应的基因,得到第一基因组;
(3)针对所述第一基因组中的每一个基因,将其对应的测试样品的结合峰与对照样品的结合峰进行比较,筛选出所对应的结合峰具有显著差异的基因,得到第二基因组;
(4)将所述第二基因组中的基因与肿瘤靶标数据库比对,从所述第二基因组中的基因中筛选出与肿瘤靶向治疗相关的潜在基因,得到第三基因组;
(5)对所述第三基因组所对应结合峰的mRNA区域进行motif的识别,以确定第三基因组中基因与结合蛋白的结合序列,将所得结合序列作为肿瘤靶向治疗靶点检测结果。
所述系统还可以完成以下操作:
(6)利用临床肿瘤数据库收录的临床上与待检测肿瘤相关的基因数据,校验第三基因组中的基因。
本发明技术方案,具有如下优点:
本发明提供的肿瘤靶向治疗靶点检测方法,大大降低了筛选的难度。使用WGS、WES等测序技术得到的变异数从几万到几百万不等,潜在的靶点基因在上千,m6A测序初步筛选后第二基因组中的基因在数百个以内,结合相关性分析、靶标分析及变异数据库的综合决策后,可以最终确定的第三基因组在数十个基因以内。通过motif识别进一步给出可能作为治疗靶点的位点,医生可以将该检测结果结合其他临床检查结果,作为肿瘤靶向治疗给药的重要参考。
基于MeRIP测序技术的评估结果可以通过临床肿瘤数据库进行验证,增强了结果的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明技术方案的实施流程图;
图2是本发明实施例1中访问m6a2target数据库,进一步确定第三基因组的操作截屏图;
图3是本发明实施例2所示的肿瘤靶向治疗靶点检测系统示意图。
具体实施方式
为了更好地理解本申请,将参考附图对本申请的技术方案做出更详细的说明。应理解,这些详细说明只是对本申请的示例性实施方式的描述,而非旨在以任何方式限制本申请的范围。在说明书全文中,相同的附图标记指代相同的元件。表述“和/或”包括相关联的所列项目中的一个或多个项目的任何组合或全部组合。
应注意,在本说明书中,“第一”“第二”“第三”等表述仅用于将一个特征与另一个特征区分开来,而不表示对特征的任何限制。在附图中,为了便于说明,已稍微调整了图例的尺寸、比例和形状。附图仅为示例而并非严格按比例绘制。如在本文中使用的,用语“大致”“大约”以及类似的用语用作表近似的用语,而不用作表程度的用语,并且旨在说明将由本领域普通技术人员认识到的测量值或计算值中的固有偏差。
还应理解的是,诸如“包括”“包括有”“具有”“包含”和/或“包含有”等表述在本说明书中是开放性而非封闭性的表述,其表示存在所陈述的特征、元件和/或部件,但不排除一个或多个其它特征、元件、部件和/或它们的组合的存在。此外,当诸如“...中的至少一个”的表述出现在所列特征的列表之后时,其修饰整列特征,而非仅仅修饰列表中的单个特征。此外,当描述本申请的实施方式时,使用“可”表示“本申请的一个或多个实施方式”。并且,措辞“示例性的”旨在指代示例或举例说明。
除非另外限定,否则本文中使用的所有措辞(包括工程术语和科技术语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是,除非本申请中有明确的说明,否则在常用词典中定义的词语应被解释为具有与它们在相关技术的上下文中的含义一致的含义,而不应以理想化或过于形式化的意义解释。
需要说明的是,在不冲突的情况下,本申请中的实施方式及实施例中的特征可以相互组合。另外,除非明确限定或与上下文相矛盾,否则本申请所记载的方法中包含的具体步骤不必限于所记载的顺序,而可以任意顺序执行或并行地执行。下面将参考附图并结合实施方式来详细说明本申请。
下面以脑胶质瘤样品的检测和靶点筛选过程为例说明本发明的技术方案的详细实施过程,需要指出的是,本发明的方法是通用的方法,针对不同的样本,通过使用数据库中不同癌症的数据,即可适用于各种肿瘤靶点的筛查,而非局限于脑胶质瘤。
大部分真核生物中mRNA在5'Cap处存在的甲基化修饰,作用包括维持mRNA稳定性、mRNA前体剪切、多腺苷酸化、mRNA运输与翻译起始等,而3'polyA发生的甲基化修饰有助于出核转运翻译起始以及与polyA结合蛋白一起维持mRNA的结构稳定。m6A(N6-methyladenosine,6-甲基腺嘌呤)是真核生物mRNA最常见的一种转录后修饰,占到RNA甲基化修饰的80%。m6A修饰主要发生在RRACH序列中的腺嘌呤上,其功能由编码器(甲基转移酶)、读码器(结合蛋白)和消码器(去甲基酶)决定。编码器由METTL3,METTL14,WTAP,RBM15,ZC3H13,VIRMA,CBLL1以及新发现的METTL16组成。m6A读码器包含YTHDF1–3,YTHDC1–2,IGF2BPs,HNRNPs,eIF3,FMRP,Prrc2a,METTL3和LRPPRC等结合蛋白,可以特异性识别m6A甲基转移酶,并影响甲基化的mRNAs,不同的结合蛋白具有不同的功能。消码器负责调控m6A的去甲基化过程,包括FTO,ALKBH5,ALKBH9和ALKBH10B蛋白质。
m6A RNA修饰通过调控原癌基因和抑癌基因,影响肿瘤增殖、分化、肿瘤发生、侵袭和转移。目前已知m6A甲基转移酶(METTL3、METTL14、WTAP)、m6A去甲基化酶,(FTO、ALKBH5)、m6A结合蛋白或识别蛋白(YTHDF2、IGF2BP1)在不同癌种中扮演原癌基因角色,METTL14具有原癌基因和抑癌基因双重角色。原癌基因和抑癌基因表达改变,m6A RNA修饰利用m6A酶系统修饰靶向基因,导致修饰基因mRNA翻译改变,加速肿瘤发生进展,m6A RNA修饰改变可改变肿瘤发展。因此,通过检测m6A修饰,有可能辅助判断肿瘤治疗靶点。
图1是本发明技术方案的实施流程图。参照图1,本发明技术方案1000包括:(S1010)获取测试样品和对照样品的m6A测序数据;(S1020)对所述测序数据进行过滤处理后,比对到参考基因组,找出过滤处理过的测序数据在基因组上的结合峰,通过所述结合峰的位置找出各结合峰所对应的基因,得到第一基因组,从而对所述测序数据进行注释;(S1030)针对第一基因组中的每一个基因,将其对应的测试样品的结合峰与对照样品的结合峰进行比较,筛选出结合峰具有显著差异的基因,得到第二基因组;(S1040)将第二基因组中的基因第二基因组中的基因与肿瘤靶标数据库比对,从第二基因组中的基因所述第二基因组中筛选出与肿瘤靶向治疗相关的潜在基因,得到第三基因组,即靶点检测结果,(S1050)对第三基因组所对应结合峰的mRNA区域进行motif的识别,以确定第三基因组中基因与结合蛋白的结合序列,所得结合序列可作为肿瘤靶向治疗靶点检测结果。
实施例1
(1)获取m6A测序数据。
样品材料,从广州某医院收集脑胶质瘤患者的癌旁及原发灶的细胞样品。
(1.1)利用酚氯仿方法分离纯化总RNA。
(1.2)将获得样品的总RNA,取20ug起始消化DNA后,进行打断并纯化,获得片段化处理后的产物。方法为:加入RNA打断缓冲液,70℃孵育6min后立即加入EDTA终止反应,用Zymo RNA clean and concentrator-5kit试剂盒纯化回收片段化RNA。
(1.3)免疫沉淀。利用m6A抗体与RNA上m6A修饰位点发生免疫沉淀反应:将(1.2)所得产物加入含有Anti-N6-methyladenosine(m6A)Antibody(Sigma-Aldrich:ABE572)、蛋白A-磁珠(invitrogen:10002D)、蛋白G-磁珠(invitrogen:10004D)的沉淀缓冲液中,混匀孵化过夜;磁力分离,去上清,加入5×沉淀缓冲液和RNA酶抑制剂,4℃反应1-3小时后,采用低盐沉淀缓冲液洗涤2-3次;再采用高盐缓冲液洗涤2-3次。
(1.4)回收免疫沉淀得到的RNA:采用酚氯仿裂解液提取RNA,获得纯化后的产物。
(1.5)文库制备:将(1.4)所得产物分别进行核糖体RNA去除、smart原理合成第一链cDNA、PCR扩增富集文库片段,DNA纯化磁珠文库片段获得超微量RNA甲基化m6A检测文库。
(1.6)文库质检:使用Bioptic Qsep100 Analyzer对文库进行质检,检测文库大小分布是否符合理论大小。
(1.7)采用NovaSeq的高通量测序平台,PE150测序模式进行测序。
(2)对所获得的m6A测序数据进行处理。
(2.1)过滤。
通过数据处理过滤杂质数据,得到Clean data,仍然以FASTQ格式存储。
过滤标准如下:
(a)去除含adapter的测序数据;
(b)去除含N(表示无法确定碱基信息)比例大于10%的测序数据;
(c)去除低质量测序数据(质量值Q≤10的碱基数占整条测序数据的50%以上)。
(d)去除核糖体污染数据
受样品质量和物种的影响,实验方法去核糖体的效率可能不太稳定,而核糖体的污染会影响后续的分析,因此首先使用短reads比对工具bowtie将(2.1)过滤后的数据比对到核糖体数据库,最多允许5个错配,去除比对上核糖体的测序数据,将保留下来的数据用于后续的分析。
(2.2)使用比对软件Tophat将Clean data比对到参考基因组。
(2.3)密度统计和Peak注释。
对Totalmapped reads比对到基因组上各个染色体(分正负链)的密度进行统计,具体作图的方法为用滑动窗口(window size)为5K,计算窗口内部比对到碱基位置上的reads的中位数,并转化成log2。正常情况下,整个染色体长度越长,该染色体内部定位的reads总数会越多。从定位到染色体上的reads数与染色体长度的关系图中,可以更加直观看出染色体长度和reads总数的关系。
MeRIP-seq获得的Reads比对到基因组上之后的任务就是找出这些短序列在基因组上的富集情况,即Peak Calling。本实施例使用的软件exomePeak,获得Peak后,进行Peak注释,分析Peak位于哪些基因上。在MeRIP-seq中,Peak就是m6A位点。
(3)基于靶标关系,筛选出第二基因组。
通过基因注释找出发生m6A甲基化的基因。
鉴定出m6A位点,对其进行基因注释,可以知道其发生m6A甲基化的基因。
筛选原发灶与癌旁样品比较后m6A甲基化发生显著差异(fdr<0.05),m6A区域发生在3‘UTR的基因,得到第二基因组,本实例中得的第二基因组中的基因数为237个。
(4)筛选潜在的靶点基因
结合从M6A2target下载的m6A靶标结合数据,将第二基因组以基因名为索引与M6A2target中的靶标关系进行匹配,将有靶标关系的基因提取出来,完成进一步筛选,本实例中得到有靶标关系的基因7个,即第三基因组(操作界面参见图2)。
第三基因组中的7个基因分别为:ENSG00000004142(POLDIP2),ENSG00000120833(SOCS2),ENSG00000135679(MDM2),ENSG00000146648(EGFR),ENSG00000164916(FOXK1),ENSG00000168906(MAT2A),ENSG00000186951(PPARA)。
(5)motif(m6A位点的序列保守性)的识别。
作为mRNA中最常见的甲基化修饰,m6A主要富集在mRNA的启动子区、终止密码子区,并且有特定的结合序列,通过结合到特定的位置上,从而在基因表达调控中发挥作用。本实施例中,利用HOMER软件对第三基因组中MeRIP peak结合的mRNA区域上进行了识别,得出了相应的治疗靶点检测结果。
上述第三基因组中的7个基因中的靶点分别为:POLDIP2:CGAGUAG,SOCS2:UAUCGCA,MDM2:AACGUAG,EGFR:CCUAACG,FOXK1:UUGCACG,MAT2A:CGAGCGU,PPARA:CGGUUGA。
(6)综合肿瘤相关基因进行评估,筛选出测试样本的肿瘤相关基因。
下载权威临床肿瘤数据库cosmic的数据,将得到的第三基因组在cosmic的数据集中以基因名为索引进行查询,完成肿瘤临床相关的验证。医生可以根据该结果,校验检测结果的准确性。经查询,第三基因组中的7个基因均与脑胶质瘤密切相关,通过了校验。
实施例2
本申请还提供了一种肿瘤靶向治疗靶点检测系统,可以通过移动终端、个人计算机(PC)、平板电脑、服务器等形式实现。下面参考图3,其示出了适于用来实现本申请实施方式的肿瘤靶向治疗靶点检测系统的结构示意图。
如图3所示,计算机系统300包括一个或多个处理器、通信部等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)301,和/或一个或多个图像处理器(GPU)313等,处理器可以根据存储在只读存储器(ROM)302中的可执行指令或者从存储部308加载到随机存取存储器(RAM)303中的可执行指令而执行各种适当的动作和处理。通信部312可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡。
处理器可与只读存储器302和/或随机存取存储器303通信以执行可执行指令,通过总线304与通信部312相连、并经通信部312与其他目标设备通信,从而完成本申请实施方式提供的任一项方法对应的操作,例如:(1)获取测试样品和对照样品的m6A测序数据;(2)对所述测序数据进行过滤处理后,比对到参考基因组,通过比对所述参考基因组及在所述参考基因组的位置确定发生m6A甲基化的区域,即结合峰,根据所述结合峰的位置信息注释到相应的基因,得到第一基因组;(3)针对所述第一基因组中的每一个基因,将其对应的测试样品的结合峰与对照样品的结合峰进行比较,筛选出所对应的结合峰具有显著差异的基因,得到第二基因组;(4)将所述第二基因组中的基因与肿瘤靶标数据库比对,从所述第二基因组中的基因中筛选出与肿瘤靶向治疗相关的潜在基因,得到第三基因组;(5)对所述第三基因组所对应结合峰的mRNA区域进行motif的识别,以确定第三基因组中基因与结合蛋白的结合序列,将所得结合序列作为肿瘤靶向治疗靶点检测结果。如有需要,还可以完成以下校验步骤:(6)利用临床肿瘤数据库收录的临床上与待检测肿瘤相关的基因数据,校验第三基因组中的基因。此外,在RAM 303中,还可存储有装置操作所需的各种程序和数据。CPU301、ROM 302以及RAM 303通过总线304彼此相连。在有RAM 303的情况下,ROM 302为可选模块。RAM 303存储可执行指令,或在运行时向ROM 302中写入可执行指令,可执行指令使处理器301执行上述通信方法对应的操作。输入/输出接口(I/O接口)305也连接至总线304。通信部312可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部307;包括硬盘等的存储部308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通讯部309。通讯部309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上。
需要说明的,如图3所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图3的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信部312可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明公开的保护范围。
特别地,根据本申请,参考流程图3描述的过程可以被实现为计算机程序产品。例如,本申请提供一种计算机程序产品,包括计算机可读指令,所述计算机可读指令被处理器执行时实现以下操作:(1)获取测试样品和对照样品的m6A测序数据;(2)对所述测序数据进行过滤处理后,比对到参考基因组,通过比对所述参考基因组及在所述参考基因组的位置确定发生m6A甲基化的区域,即结合峰,根据所述结合峰的位置信息注释到相应的基因,得到第一基因组;(3)针对所述第一基因组中的每一个基因,将其对应的测试样品的结合峰与对照样品的结合峰进行比较,筛选出所对应的结合峰具有显著差异的基因,得到第二基因组;(4)将所述第二基因组中的基因与肿瘤靶标数据库比对,从所述第二基因组中的基因中筛选出与肿瘤靶向治疗相关的潜在基因,得到第三基因组;(5)对所述第三基因组所对应结合峰的mRNA区域进行motif的识别,以确定第三基因组中基因与结合蛋白的结合序列,将所得结合序列作为肿瘤靶向治疗靶点检测结果。如有需要,还可以完成以下校验步骤:(6)利用临床肿瘤数据库收录的临床上与待检测肿瘤相关的基因数据,校验第三基因组中的基因。在这样的实施方式中,该计算机程序产品可以通过通讯部309从网络上被下载和安装,和/或从可拆卸介质311中读取并安装。在该计算机程序产品被中央处理单元(CPU)301执行时,执行本申请的方法中限定的上述功能。
可能以许多方式来实现本申请的技术方案。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的技术方案。用于说明方法的步骤顺序仅是为了更清楚地说明技术方案的目的而提供。除非经特别限定,否则本申请的方法步骤不限于以上具体描述的顺序。此外,在一些实施方式中,还可将本申请实施为存储计算机程序产品的存储介质。
以上描述仅为本申请的实施方式以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的保护范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述技术构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (9)

1.一种肿瘤靶向治疗靶点检测方法,其特征在于,包括以下步骤:
(1)获取测试样品和对照样品的m6A测序数据;
(2)对所述测序数据进行过滤处理后,比对到参考基因组,通过比对所述参考基因组及在所述参考基因组的位置确定发生m6A甲基化的区域,即结合峰,根据所述结合峰的位置信息注释到相应的基因,得到第一基因组;
(3)针对所述第一基因组中的每一个基因,将其对应的测试样品的结合峰与对照样品的结合峰进行比较,筛选出所对应的结合峰具有显著差异的基因,得到第二基因组;包括:通过将所述测试样品和所述对照样品的结合峰比较,选取第一基因组中m6A甲基化发生显著差异,且m6A区域发生在3′UTR的基因加入第二基因组,所述发生显著差异的标准为fdr<0.05;
(4)将所述第二基因组中的基因与肿瘤靶标数据库比对,从所述第二基因组中的基因中筛选出与肿瘤靶向治疗相关的潜在基因,得到第三基因组;
所述潜在基因包括肿瘤靶标数据库中收录的原癌基因和抑癌基因;
(5)对所述第三基因组所对应结合峰的mRNA区域进行motif的识别,以确定第三基因组中基因与结合蛋白的结合序列,将所得结合序列作为肿瘤靶向治疗靶点检测结果;
(6)利用临床肿瘤数据库收录的临床上与待检测肿瘤相关的基因数据,校验第三基因组中的基因。
2.根据权利要求1所述的肿瘤靶向治疗靶点检测方法,其特征在于,所述测试样品为原发灶样品,所述对照样品为普通体细胞样品。
3.根据权利要求2所述的肿瘤靶向治疗靶点检测方法,其特征在于,所述对照样品为癌旁组织样品。
4.根据权利要求1所述的肿瘤靶向治疗靶点检测方法,其特征在于,步骤(2)包括以下步骤:
(2.1)对所述测序数据进行过滤处理;
(2.2)将过滤处理过的测序数据比对到所述参考基因组;
(2.3)对所述参考基因组上各个染色体的密度进行统计,找出过滤处理过的测序数据在所述参考基因组上的结合峰,并对所述结合峰进行注释以确定发生这些结合峰的基因,从而得到第一基因组。
5.根据权利要求4所述的肿瘤靶向治疗靶点检测方法,其特征在于,步骤(2.1)过滤处理依次完成以下目标:
(a)去除含adapter的测序数据;
(b)去除含N比例大于10%的测序数据,N表示无法确定碱基信息;
(c)去除质量值Q≤10的碱基数占整条测序数据的50%以上测序数据;
(d)去除核糖体污染数据。
6.根据权利要求5所述的肿瘤靶向治疗靶点检测方法,其特征在于,去除核糖体污染数据的方法为,使用短reads比对工具将数据比对到核糖体数据库,最多允许5个错配,去除比对上核糖体的测试数据,将保留下来的数据用于后续的分析。
7.根据权利要求1所述的肿瘤靶向治疗靶点检测方法,其特征在于,步骤(4)中基于M6A2target数据库的靶标关系,从所述第二基因组中筛选出已知原癌基因、抑癌基因,作为潜在的靶点基因,从而得到第三基因组。
8.一种用于肿瘤靶向治疗靶点检测的系统,包括:
存储器,所述存储器存储可执行指令;以及
一个或多个处理器,所述一个或多个处理器与所述存储器通信以执行可执行指令从而完成以下操作:
(1)获取测试样品和对照样品的m6A测序数据;
(2)对所述测序数据进行过滤处理后,比对到参考基因组,通过比对所述参考基因组及在所述参考基因组的位置确定发生m6A甲基化的区域,即结合峰,根据所述结合峰的位置信息注释到相应的基因,得到第一基因组;
(3)针对所述第一基因组中的每一个基因,将其对应的测试样品的结合峰与对照样品的结合峰进行比较,筛选出所对应的结合峰具有显著差异的基因,得到第二基因组;包括:通过将所述测试样品和所述对照样品的结合峰比较,选取第一基因组中m6A甲基化发生显著差异,且m6A区域发生在3′UTR的基因加入第二基因组,所述发生显著差异的标准为fdr<0.05;
(4)将所述第二基因组中的基因与肿瘤靶标数据库比对,从所述第二基因组中的基因中筛选出与肿瘤靶向治疗相关的潜在基因,得到第三基因组;
所述潜在基因包括肿瘤靶标数据库中收录的原癌基因和抑癌基因;
(5)对所述第三基因组所对应结合峰的mRNA区域进行motif的识别,以确定第三基因组中基因与结合蛋白的结合序列,将所得结合序列作为肿瘤靶向治疗靶点检测结果;
(6)利用临床肿瘤数据库收录的临床上与待检测肿瘤相关的基因数据,校验第三基因组中的基因。
9.一种MeRIP测序数据的处理方法,其特征在于,包括以下步骤:
(1)将测试样品和对照样品的m6A测序数据输入计算机的存储介质;
(2)对所述测序数据进行过滤处理后,比对到参考基因组,通过比对所述参考基因组及在所述参考基因组的位置确定发生m6A甲基化的区域,即结合峰,根据所述结合峰的位置信息注释到相应的基因,得到第一基因组;
(3)针对所述第一基因组中的每一个基因,将其对应的测试样品的结合峰与对照样品的结合峰进行比较,筛选出所对应的结合峰具有显著差异的基因,得到第二基因组;包括:通过将所述测试样品和所述对照样品的结合峰比较,选取第一基因组中m6A甲基化发生显著差异,且m6A区域发生在3′UTR的基因加入第二基因组,所述发生显著差异的标准为fdr<0.05;
(4)将所述第二基因组中的基因与肿瘤靶标数据库比对,从所述第二基因组中的基因中筛选出与肿瘤靶向治疗相关的潜在基因,得到第三基因组;
所述潜在基因包括肿瘤靶标数据库中收录的原癌基因和抑癌基因;
(5)对所述第三基因组所对应结合峰的mRNA区域进行motif的识别,以确定第三基因组中基因与结合蛋白的结合序列,将所得结合序列作为肿瘤靶向治疗靶点检测结果;
(6)利用临床肿瘤数据库收录的临床上与待检测肿瘤相关的基因数据,校验第三基因组中的基因。
CN202210330286.4A 2022-03-31 2022-03-31 一种基于MeRIP测序技术检测肿瘤治疗靶点的方法和系统 Active CN114758723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210330286.4A CN114758723B (zh) 2022-03-31 2022-03-31 一种基于MeRIP测序技术检测肿瘤治疗靶点的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210330286.4A CN114758723B (zh) 2022-03-31 2022-03-31 一种基于MeRIP测序技术检测肿瘤治疗靶点的方法和系统

Publications (2)

Publication Number Publication Date
CN114758723A CN114758723A (zh) 2022-07-15
CN114758723B true CN114758723B (zh) 2023-03-24

Family

ID=82328822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210330286.4A Active CN114758723B (zh) 2022-03-31 2022-03-31 一种基于MeRIP测序技术检测肿瘤治疗靶点的方法和系统

Country Status (1)

Country Link
CN (1) CN114758723B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109718241A (zh) * 2017-10-31 2019-05-07 上海市浦东医院(复旦大学附属浦东医院) 一种肿瘤的基于核酸的靶向治疗方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230141927A (ko) * 2010-12-30 2023-10-10 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
CN107577921A (zh) * 2017-08-25 2018-01-12 云壹生物技术(大连)有限公司 一种肿瘤靶向基因测序数据解析方法
CN108251532B (zh) * 2018-03-29 2021-12-28 上海锐翌生物科技有限公司 基于ngs技术的粪便dna结直肠肿瘤多基因预测模型
CN111471097B (zh) * 2020-04-08 2021-07-30 青岛市中心医院 白介素37的应用及对肺癌细胞RNA m6A甲基化影响的试验方法
CN113755583A (zh) * 2020-06-03 2021-12-07 无锡准因生物科技有限公司 研究METTL3或14介导m6A修饰调控EC转移的方法
CN112863595A (zh) * 2021-03-08 2021-05-28 中国农业科学院兰州畜牧与兽药研究所 一种基于MeRIP-Seq技术挖掘藏绵羊高原低氧适应性相关基因的方法
CN113061648B (zh) * 2021-03-24 2022-04-19 中山大学 一种采用Tn5转座酶辅助构建微量样品m6A修饰检测文库的方法及其应用

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109718241A (zh) * 2017-10-31 2019-05-07 上海市浦东医院(复旦大学附属浦东医院) 一种肿瘤的基于核酸的靶向治疗方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
m~6A RNA甲基化修饰异常在肿瘤中的作用;韩娟娟等;《中国生物化学与分子生物学报》;20200430(第04期);第383-391页 *
RNA m~6A修饰及在肿瘤中的作用;孙洁等;《南京医科大学学报(自然科学版)》;20200315(第03期);第447-453页 *

Also Published As

Publication number Publication date
CN114758723A (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
JP7119014B2 (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
Pertea et al. CHESS: a new human gene catalog curated from thousands of large-scale RNA sequencing experiments reveals extensive transcriptional noise
CN107708556B (zh) 诊断方法
Kanchi et al. Integrated analysis of germline and somatic variants in ovarian cancer
US11193175B2 (en) Normalizing tumor mutation burden
CN106414768B (zh) 与癌症相关的基因融合体和基因变异体
Sakamoto et al. Application of long-read sequencing to the detection of structural variants in human cancer genomes
Larson et al. A clinician’s guide to bioinformatics for next-generation sequencing
CN111321209A (zh) 一种用于循环肿瘤dna测序数据双端矫正的方法
CN114752672A (zh) 基于循环游离DNA突变进行滤泡性淋巴瘤预后评估的检测panel、试剂盒及应用
CN111951893B (zh) 构建肿瘤突变负荷tmb面板的方法
CN114758723B (zh) 一种基于MeRIP测序技术检测肿瘤治疗靶点的方法和系统
CN111028888A (zh) 一种全基因组拷贝数变异的检测方法及其应用
JP2024515565A (ja) ヌクレオソーム保護およびクロマチンアクセシビリティを調査するためのセルフリーdna配列データ解析法
Zheng et al. Genome‐wide DNA methylation analysis by MethylRad and the transcriptome profiles reveal the potential cancer‐related lncRNAs in colon cancer
CN109979534B (zh) 一种c位点提取方法及装置
WO2012115789A2 (en) Recurrent spop mutations in prostate cancer
Chen et al. Development and validation of a m6A-regulated prognostic signature in lung adenocarcinoma
Haldar et al. A transcriptomic analysis identifies the association of MIR31HG and EPB41L4A-AS2 lncRNAs in Oral Cancer
Sala-Torra et al. Rapid detection of myeloid neoplasm fusions using single-molecule long-read sequencing. PLOS Glob Public Health 3 (9): e0002267
Li et al. Characterization of extrachromosomal circular DNAs in plasma of patients with clear cell renal cell carcinoma
Craig Low Frequency Airway Epithelial Cell Mutation Pattern Associated with Lung Cancer Risk
Thompson et al. Clinical Applications of Next-Generation Sequencing of Formalin-Fixed Paraffin-Embedded Tumors
expression profiles from Lopez-Rios SUPPLEMENTARY METHODS Datasets and samples
Kanchi et al. Please let us know how this document benefits you.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant