CN114388063B - 与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用 - Google Patents

与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用 Download PDF

Info

Publication number
CN114388063B
CN114388063B CN202111676823.2A CN202111676823A CN114388063B CN 114388063 B CN114388063 B CN 114388063B CN 202111676823 A CN202111676823 A CN 202111676823A CN 114388063 B CN114388063 B CN 114388063B
Authority
CN
China
Prior art keywords
genes
gene
differential
value
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111676823.2A
Other languages
English (en)
Other versions
CN114388063A (zh
Inventor
刘婉婷
张弓
余卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Chi Biotech Co ltd
Original Assignee
Shenzhen Chi Biotech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Chi Biotech Co ltd filed Critical Shenzhen Chi Biotech Co ltd
Priority to CN202111676823.2A priority Critical patent/CN114388063B/zh
Publication of CN114388063A publication Critical patent/CN114388063A/zh
Application granted granted Critical
Publication of CN114388063B publication Critical patent/CN114388063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请属于生物信息学技术领域,公开了一种与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用,所述非差异基因与癌变组织的多个差异基因相互作用,且在癌变组织和癌旁组织中普遍存在,具有较高丰度表达和无差异表达,以及在网络通路中扮演重角色的特点。通过用于区分癌变组织和癌旁组织的SVM模型对待区分基因进行排序,取排序前5%位置的基因剔除差异基因,即得所述非差异基因。以所述非差异基因作为靶点,可用于制备预防或治疗与所述非差异基因相关肿瘤的药物。无论是敲低所述非差异基因作为预防肿瘤,还是成瘤后敲低作为控制肿瘤发展,本申请筛选的非差异基因均可抑制小鼠肿瘤大小。

Description

与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用
技术领域
本申请属于生物信息学技术领域,涉及肿瘤的靶向基因,特别是与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用。
背景技术
从精准医学和转化医学的角度,寻找癌症较为共同且关键性强的致癌生物大分子(包括核酸和蛋白质),是提升治疗效果的核心,然而,现有的关键基因难以满足共同、关键的要求。以突变率极高的肺腺癌为例,公认的形成肺腺癌的“元凶”为驱动基因,例如明星驱动基因EGFR、ALK等,针对这些驱动基因的靶向药物对肺腺癌有一定的治疗作用,但效果仍不理想。以EGFR突变靶向治疗肺腺癌晚期病人为例,在137例患者中,仅有14.6%患者度过五年生存期(Lin JJ,Cardarella S,Lydon CA,Dahlberg SE,Jackman DM,Janne PA,etal.Five-Year Survival in EGFR-Mutant Metastatic Lung Adenocarc inoma Treatedwith EGFR-TKIs.Journal of thoracic oncology:offi cial publication of theInternational Association for the Study of Lu ng Cancer.2016;11(4):556-65.)。近期研究表明仍有30~50%的肺腺癌患者不具备靶向药物干预靶点,无法使用靶向药物治疗(Saito M,S hiraishi K,Kunitoh H,Takenoshita S,Yokota J,Kohno T.Geneaberrations for precision medicine against lung adenocarcinoma.Cancerscience.2016;107(6):713-20)。总结现有技术研究结果,诊疗不尽如人意的原因主要在于:诊断方面,70~80%的肺腺癌患者在确诊时已是中晚期,失去了治疗的最佳时机;治疗方面,由于肺腺癌异质性高,靶点各异,又由于肿瘤具备基因组不稳定性的特点,易于发生各种突变,因此可将靶点突变而逃避靶向治疗的杀伤,因此靶向治疗最终会失效而致无药可用。各种治疗手段都有应用局限性,造成中晚期肺腺癌治疗效果不理想。
在各种组学技术(包括基因组学、转录组学、蛋白质组学等)高度发展的今天,从数据中寻找共同特异的差异基因一直作为主流分析思路用来寻找癌症关键分子,但是由于癌症的异质性高、通路众多、突变频繁而导致发现在治疗上具备长效作用的共同特异的差异基因变得很困难。因此,需要突破传统分析方法的限制,提供一种与肿瘤相关的基因筛选策略。
发明内容
为了克服现有技术中以差异基因作为靶点异质性高的缺陷,本申请从与肿瘤相关的非差异基因中搜寻共同的关键分子,以该非差异基因作为靶点用于预防或治疗肿瘤。
本申请的目的之一在于提供一种基于肿瘤细胞恶性表型(增殖和迁移)的关键非差异基因,以该非差异基因作为靶点用于预防或治疗肿瘤。
本申请的第二目的在于,提供了所述非差异基因作为癌症关键分子的筛选方法,通过用于区分癌变组织和癌旁组织的SVM模型对待区分基因进行排序,取排序前5%位置的基因剔除差异基因,既得所述非差异基因。
本申请的第三目的在于,以非差异基因作为靶点在制备预防或治疗肿瘤药物中的应用。
为了实现本申请的技术目的,本申请具体采用了以下技术方案:
在本申请的第一方面,提供了一种与肿瘤细胞恶性表型关联的非差异基因,所述非差异基因在60%的癌变组织及与其对应的癌旁组织中表达,其中,所述非差异基因的表达数据的RPKM值≥0.1,在癌变组织及与其对应的癌旁组织间无显著表达差异,抑制所述非差异基因的蛋白质产物能阻断癌症相关网络通路的导通。
具体的,所述癌变组织及与其对应癌旁组织的mRNA序列的数量用n表示,第n个mRNA序列的数量用m表示,则m应大于n的60%。
优选的,所述无显著表达差异为所述非差异基因表达数据在癌变组织及与其对应的癌旁组织中表达差异p<0.1。
所述非差异基因与所述癌变组织的多个差异基因相关联。所述相关联的定义为所述非差异基因与所述癌变组织的多个差异基因可以形成网络通路。所述非差异基因和所述多个差异基因来自同一个或几个不同数据库,不拘泥于背景数据类型,可以为KEGG数据网络,也可为GO,STRING等其他数据网络。所述差异基因的定义为所述癌变组织及与其对应的癌旁组织的基因表达数据比较,其差异结果在FC>=1.5并且p<=0.05时,认为有差异。
优选的,所述网络通路为所述癌变组织及与其对应癌旁组织的所述非差异基因和差异基因形成的蛋白质功能和相互作用网络。
更优选的,所述蛋白质功能和相互作用网络为KEGG网络。
由本申请上述技术内容可知所述非差异基因具有以下特点:
(a)普遍存在:该基因表达于各个样本中,不分样本类型;
(b)高丰度表达:该基因具有高表达量;
(c)无差异表达:在癌症与癌旁组织中表达量无明显的不同;
(d)在网络通路中扮演重角色:即在基因构成的网路通路中扮演着极高网络节点中心度(betweenness centrality)的节点基因。
所述非差异基因可用于区分癌变组织和癌旁组织。
本申请所述非差异基因在KEGG通路网络中处于中心位置,并且通路富集分析指出与增值及迁移侵袭都有一定的相关性,申请人判断阻断中心节点的非差异基因会对整个通路形成影响,影响系统表型。因此,申请人将所述非差异基因做了针对肿瘤相关变型的研究,发现发现无论在细胞系或者动物体内,敲低这四个基因能影响肿瘤细胞的增值和迁移侵袭。
在本申请的第二方面,提供了作为癌症关键分子的所述非差异基因的筛选方法,包括:
对癌变组织和癌旁组织基因的表达数据进行预处理;
利用预处理的基因表达数据抽样多次训练SVM模型,确立适用于区分癌变组织和癌旁组织的基因表达数据的SVM模型;
将用于区分癌变和癌旁组织的所述SVM模型应用于待区分基因的表达数据中进行数据分析,分析待区分基因对癌变组织和癌旁组织的区分能力并排序;
在区分癌变组织和癌旁组织的基因排序中取前5%位置的基因,剔除该排序中确立的差异基因,既得在癌变组织和癌旁组织中普遍高丰度表达的关键非差异基因。
本申请所述非差异基因的筛选方法主要是应用SVM程序对预测模型特征重要性排序的原理。所述SVM程序根据在训练时生成的权向量ω构造排序系数,最终得到所有特征性的递减顺序的排序,利用这一特征排序作为一个筛选重要基因的参数,经多次运算,得到的一组重要性高的基因,同时剔除掉表达差异的基因,即得到本申请目标非差异基因。
进一步的,所述预处理后的表达谱数据对应的每个基因满足在60%以上癌变组织和癌旁组织中有表达,且每个基因的RPKM值≥0.1,癌变组织和癌旁组织间无显著差异,并将p值作为RPKM值的权重对基因原始表达量进行处理:
Genei=-log(pi)×log(RPKMi)
其中,i=1,2,3…n,n为非零自然数。
由于临床测序数据原始数据存在或多或少的质量问题,在对测序数据定性和定量以后,发现一部分基因并没有在所有的癌旁与癌症样本中被测到,申请人因此制定了标准,即保留基因需表达在大多数样本中,比如该基因需在75对中的45对以上的样本中表达,以保证样本量及表达基因的普适性。其中,RPKM值≥0.1是测序数据的通常标准,认为0.1以上的值才是真实被测到的,避免了背景数据干扰等带来的假阳性数据。
进一步的,在所述待区分基因中多次抽样,逐次放入最佳SVM模型中进行基因区分能力排序,得到的排序结果以10个基因位置为一组,依次往后一个基因位置的方式向下逐次移框,得到同一基因的多次排序结果。
进一步的,将多次排序结果整合,取排序最高的结果作为同一基因的最终排序位置。
本申请采用多次抽样排序保证了训练结果的稳定性,并为了防止带来的过拟合结果,申请人还开展了10、20、50、100次抽样测试,结果显示在这些次数中越高的抽样次数的整合结果之间越接近,例如10次与20次抽样结果相关性r值为0.88,而50次与100次的结果相关性可以达到0.98。
进一步的,采用整合分析方法GWGS+GWRS确立所述差异基因。
所述整合分析方法GWGS+GWRS具体为:
应用式(1)所示的GWRS算法对单中心测序数据进行评测,按照表达的显著程度赋予不同的数值:
GWRS:
Figure GDA0003890882200000061
式中,sij表示在第j微阵列(共n个)中第i基因(共m个)的rank值,其中i=1~m,j=1~n,sij为GWRS值,范围在0~-2log(1/m)之间,m和n为非零自然数。
对于微阵列中含有NA的基因,其sij值也被设为NA。
应用式(2)所示的GWGS算法对上述GWRS结果进行整合分析,生成一组跨越多中心数据的基因表达数据:
GWGS:
Figure GDA0003890882200000071
式中,
Figure GDA0003890882200000072
为GWGS值,表示全基因组全局显著性,ωj表示第j微阵列的相对重要性(权重值)。
本申请采用整合分析方法GWGS+GWRS避免了多中心数据之间存在的误差,实现了不同中心数据的融合,消除了多中心存在的系统误差,提高了数据的准确度。
在本申请的一优选实施方案中,所述筛选得到的非差异基因包括ACTR1A、GSK3A、PPP1CC和RAC1。
对所述基因ACTR1A、GSK3A、PPP1CC或RAC1中至少一种进行干扰,可以在动物层面抑制肺腺癌的生长和转移。
所述干扰包括基因敲除、基因敲减或降低基因的表达。
在本实施方案中,还提供了上述基因ACTR1A、GSK3A、PPP1CC和RAC1的干扰靶序列siRNA:
siACTR1A:GGCAATATGTCTATTAA;
siPPP1CC:CTATCTCTCTACTAGAACTG;
siGSK3A:CCAGTGGCGAGAGAGAAGA;
siRAC1:GGACAGAGAGAGATATATATATGACA。
上述干扰靶序列siRNA可用于构建与干扰靶序列siRNA对应基因的重组敲除载体。
在本申请的第三方面,提供了所述非差异基因作为靶点在制备预防或治疗与所述非差异基因相关肿瘤的药物中的应用。
具体为以所述非差异基因作为靶点包括采用基因敲除、基因敲减或者化学药物降低所述非差异基因的表达,以及使用抑制剂抑制非差异基因蛋白质产物的活性。
所述与所述非差异基因相关肿瘤是指在所述肿瘤组织及其对应癌旁组织中普遍存在、高丰度表达、无差异表达、在网络通路中扮演重角色。
本申请的有益效果为:
1)本申请从基因区分样本特征的重要性角度入手,筛选得到了可区分癌旁和癌变组织且表达无差异的非差异基因,利用该费差异基因作为靶点用于预防或治疗肿瘤,不同于现有技术从差异基因或者突变基因中筛选关键分子,拓宽了筛选关键分子的范围。
2)本申请采用SVM模型,根据区分癌变组织和癌旁组织的能力,对基因进行了排序,筛选得到一组基因,从该组关键基因中剔除差异基因,得到了本申请非差异基因。该过程引入支持向量机(SVM)权向量作为重要性标准,并采用多次抽样排序保证了训练结果的稳定性,得到的非差异基因具有与肿瘤高度关联的特点。
3)在正常及肺腺癌细胞株中敲低本申请筛选的非差异基因后,对正常细胞株的正常生长没有产生显著影响,并且降低了肿瘤细胞株的增值和迁移侵袭能力,说明本申请非差异基因在治疗癌症方面具有重要作用。同时,在成瘤前后在小鼠实验中,不论是先敲低肺部关键分子的预防模型还是成瘤后敲低关键分子的治疗模型,与正常组比较均非常明显的指出敲低后对肿瘤成瘤恶性程度的影响。
附图说明
图1是实施例中筛选的部分非差异基因的网络联通度分析;
图2是实施例中非差异基因在12例中国肺腺癌病人癌与癌旁组织中的表达量;
图3是实施例中敲低非差异基因细胞与正常细胞增值能力对比;
图4是实施例中敲低非差异基因对肿瘤侵袭能力的抑制影响;
图5是实施例中敲低非差异基因在小鼠模型对肿瘤的影响;其中,A为B和C的结果统计,B为预防模型,C为治疗模型。
具体实施方式
下面将结合本申请具体的实施例,对本申请技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
作为本申请的一个具体实施方式,提供了一种具有抑制肿瘤细胞增值作用的非差异基因的筛选方法,包括:
1)在癌变组织和癌旁组织样本中根据基因表达数据筛选目标基因群组。
选择在60%以上癌变组织和癌旁组织样本中有表达数据的基因,并且每个样本基因的表达数据的RPKM值≥0.1。
并将p值作为RPKM值的权重对选择的样本基因的原始表达量采用下列计算方式进行处理:
Genei=-log(pi)×log(RPKMi)
其中,i=1,2,3…n,n为非零自然数。
2)以筛选得到的目标基因群组训练用以区分癌变组织和癌旁组织分类模型的区分能力。
在本实施方式中计算模型采用SVM模型,将处理过的样本基因的表达数据随机抽样多次训练SVM模型,使该SVM模型对癌变组织和癌旁组织的基因分类中的计算结果尽量接近真实分类情况和数量,确立适用于以表达数据区分基因的SVM模型。
该实施方式基于SVM分类的功能,在有效分隔癌与癌旁的情况下提取其中权向量ω的信息。采用SVM模型,基于其多元化特性无需考虑数据分布是否符合线性关系。如果利用其它分类模型方法,可能要考虑数据是否可以用其他种分类器分隔,应用度存在一定的局限性,没有SVM普适性。
其它分类模型也可应用于本申请中以实现对癌变组织和癌旁组织基因的区分,在其它实施方式中,用以区分癌变组织和癌旁组织的分类模型还可以是k-近邻、决策树、朴素贝叶斯或神经网络等计算模型。
k-近邻算法即找出与未知样本x距离最近的k个训练样本,根据k个样本中多数属于哪一类,则将x归为该类。
决策树是以实例为基础的归纳学习算法,着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用来预测将来未知类别的记录的类别。采用自顶向下的递归方式,在决策树的内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论。
朴素贝叶斯是一类利用概率统计知识进行分类的算法,主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。
神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中,大量的节点(或称”神经元”,或”单元”)之间相互联接构成网络,即”神经网络”,以达到处理信息的目的。神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。
3)利用确立的分类模型对待区分基因进行分析,确定可区分癌变组织和癌旁组织的基因。
将待区分基因的表达数据导入确立的SVM模型中,对待区分基因的表达数据进行分析,根据表达数据在SVM模型中的计算结果确定每个待区分基因对癌变组织和癌旁组织的区分能力,并按照表达数据的计算结果,对相应基因的区分能力进行排序,具体以区分能力越好的排位越高排序。
4)为保证基因排位的稳定性,对待区分基因进行多次分析。
以待区分基因为对象,多次抽样并置入确立的SVM模型中,所得到的排序结果以10个基因一组,以1为步长向下逐次移框,得到每个基因的多次排序结果。
5)将多次结果整合,取排序最高的结果作为该基因最终排序位置。
6)提取前5%排序基因,从中剔除步骤1)癌变组织和癌旁组织样本基因中的差异基因,输出癌变组织和癌旁组织样本的非差异基因。
其中,癌变组织和癌旁组织样本基因中的差异基因采用整合分析方法GWGS+GWRS确立。
S1对不同单中心基因测序数据进行评测,按照基因表达量的显著程度,采用式(1)所示算法GWRS对每个基因赋予不同的数值:
GWRS:
Figure GDA0003890882200000121
式中,rij表示在第j微阵列中的第i个基因的rank值,其中i=1~m,j=1~n,sij的范围在0~-2log(1/m)之间,m和n为非零自然数。
对于微阵列中含有NA的基因,其sij值也被设为NA。
S2输入上述不同单中心基因的计算结果,利用GWGS算法进行整合分析,生成一组跨越多中心数据的基因表达数据:
GWGS:
Figure GDA0003890882200000122
式中,
Figure GDA0003890882200000123
为全基因组全局显著性,ωj表示第j微阵列的相对重要性(权重值)。
S3根据生成的基因表达数据对应输出差异基因。
现有技术中筛选差异基因的方法存在多种,比如SAM法、两样本t检验、Bonferroni校正法、Sidak校正法、Hochberg法及BH法等,针对单中心数据,筛选差异基因的方法就是计算倍数fold change(FC)和P值,以上方法均可实现。但是针对跨中心整合数据,不同单中心数据之间存在系统误差,需要考虑系统误差对差异基因确立的影响,SAM法、两样本t检验、Bonferroni校正法、Sidak校正法、Hochberg法及BH法等方法适用于单中心差异基因的确立,在跨中心的整合方面不具有消除系统误差的作用。本实施方式中采用整合分析方法GWGS+GWRS,实现了对多中心表达数据的融合,消除了多中心存在的系统误差,保证了跨中心融合过程中对确定差异基因的准确度。
作为本申请的另一具体的实施方式,申请人将上述筛选方法筛选得到的非差异基因和生成的差异基因置入基因网络通路中进行分析。
将上述生成的差异基因和输出的非差异基因共同进行KEGG网络富集分析,筛选在KEGG网络中扮演重要节点的、串联差异基因的形成接近生物网络的基因作为癌症关键分子。
将生成的差异基因设置为组一,将输出的非差异基因设置为组二,分别导入组一和组二于KEGG通路中进行富集分析,并绘制网络通路。
对绘制的两组网络通路进行评估,结果显示第二组在节点分布,拓扑系数测评,显示最短距离分布等方面均优于第一组,并且更接近无标度网络分布,即标准生物网络形态。对网络联通度及重要节点的分析中,发现网络的重要节点是非差异基因。
其中,网络评测使用Cytoscape软件中tools的NetworkAnalyzer,拓扑系数随着近邻数量的增加而减少,解释了枢纽(hub)对罕见的共同近邻具有排他性。
因此,本申请上述方法筛选得到的非差异基因与肿瘤的生长存在强相关性,可以作为癌症的关键分子。
在本申请的再一具体实施方式中,由于上述筛选得到非差异基因可以作为癌症的关键分子,因此申请人对其进行了进一步研究。
申请人通过以上述非差异基因作为靶点,在小鼠模型中对确立的非差异基因分别进行了单独和联合的敲减,发现无论单独还是联合敲减,确立的非差异基因均对肿瘤的生长和迁移具有抑制作用。
因此,以上述非差异基因作为靶点可用于制备预防或治疗与上述非差异基因相关肿瘤的药物。
以所述非差异基因作为靶点包括采用基因敲除、基因敲减或化学药物降低所述非差异基因的表达。具体可以采用本领域技术人员常用的同源重组、随机插入突变、RNA干扰引起的基因敲除或敲减。化学药物降低基因表达量的方式中化学试剂的选择依据本领域技术人员的常规选择。
与上述非差异基因相关的肿瘤指该非差异基因在该癌变组织及其对应癌旁组中普遍存在、高丰度表达、无差异表达、在网络通路中扮演重角色。
同理,以上述非差异基因作为靶点的肿瘤浸润细胞白细胞也可应用于制备预防或治疗与所述非差异基因相关肿瘤的药物。
下面结合具体的应用案例对本申请存在的技术方案进行详细的说明。
实施例1
从SRA数据库下载75对肺腺癌/癌旁标本的mRNA序列数据(SRA:ERP001058)。以该150例(75对)肺腺癌与癌旁临床组织样本为例,对样本中的非差异基因进行筛选,得到非差异基因ACTR1A、GSK3A、PPP1CC和RAC1,具体过程如下:
①将75对肺腺癌/癌旁标本的mRNA序列通过软件SRA Toolkit v2.8.2使用参数split files转换为FASTQ格式,使用测序比对算法FANSe将第一端映射到转录组参考序列hg19,误差为6%。通过rpkM方法对基因(具有>10个定位读取)进行定量。
mRNA序列的数量用n表示,而在第n个mRNA序列中具有大于或等于0.1rpkM值的基因的数量用m表示。如果一个基因的rpkM值低于δ值,本实施例中δ=60,即m应大于n的60%,则该基因被保留,以类似方式,当基因包含的p值小于δ数时,基因被删除。p值由“edgeR”Bioconductor软件包根据mRNA读取计数计算得出。然后,将相应的负对数p值作为rpkM数据库的权重分配。
②采用SVM模型系数(“C分类”、“线性核”)通过对150个癌旁和癌旁样本处理后的mRNA序列进行随机抽样,每次抽取50个样本,经过1000次循环训练后确定了SVM模型,参数为C-classification,核型为linearkernel。
③利用确定的SVM模型,另外进行100次随机抽样,每次抽取50个样本,确定每一个基因在SVM模型中的ω值。根据各次采样数据中基因在各个样本中表达量的均值、标准差和对应的ω值,确定了各支持向量机算法对应的σω值,即用来排列基因重要性的数值。根据σω值对保留的癌旁和癌旁基因进行排序。
④将作为样本的75对肺腺癌/癌旁标本的mRNA序列数据放入GWRS+GWGS模型计算差异基因,得到差异基因排序。
⑤将③中SVM模型排序前5%的重要性基因与④中差异基因比较,得到两组基因:
1)既在重要性基因中排名靠前又在差异基因中排名靠前的429个基因(表1):
表1排序前429基因
Figure GDA0003890882200000161
Figure GDA0003890882200000171
Figure GDA0003890882200000181
Figure GDA0003890882200000191
2)在重要性基因中排名靠前但在差异基因中排名末尾的83个基因(表2):
表2排序末尾的83个基因
Figure GDA0003890882200000192
Figure GDA0003890882200000201
如图1所示,将两组基因混合投入KEGG富集分析,并生成网络,再对网络进行重要节点和联通度发现重要节点是非差异基因。根据节点重要性选择出四个非差异基因,分别为:ACTR1A,GSK3A,PPP1CC和RAC1,即图1中标注星型的四个节点。
实施例2非差异基因的无差异高表达
为了证实在随机样本中,实施例1中得到的四个靶基因有同样的趋势,收集12位中国肺腺癌病人的癌与癌旁组织进行测序,探究实施例1筛选得到的四个非差异基因是否在随机样本中无差异表达。
将收集的12例中国肺腺癌病人的癌与癌旁组织,按照试剂盒制造商方案,使用标准MGIEasyTM mRNA文库制备试剂盒V2制备mRNA seq文库。在单端50nt模式下,在BGISEQ-500测序仪上进行测序。得到的测序数据经FANSE系列算法定性定量后,查看表达量是否有不同。
实施例1中四个非差异基因在12例中国肺腺癌病人癌与癌旁组织中的表达量如图2所示,RPKM值(Y轴)为四个基因的表达量,图中有差异表达结果P值均≤0.05,即在12对样本中四个基因都是无差异表达。证明实施例1中四个非差异基因不止在实施例1中150个样本数据中四个基因的表达一致,在本实施例12例病人中,四个靶基因均无差异及在癌和癌旁中高表达。
实施例3非差异基因在肺腺癌增值及迁移侵袭中的作用
本实施例中使用的人类肺腺癌细胞系A549、NCI-H1299和正常肺上皮细胞HBE均购自ATCC,所有细胞系均具有STR报告和支原体阴性证明,细胞在各基因座均未出现三等位基因现象,细胞中没有发现人类细胞交叉污染。
细胞培养:将A549、NCI-H1299和正常肺上皮细胞HBE分别接种于培养基中,在DMEM(Gibco)中5%CO2培养箱中培养,培养基为在37℃下添加10%胎牛血清(FBS)、110mg/L丙酮酸钠和1%青霉素/链霉素的培养基。转染前,将5×105细胞接种在6孔板中24小时。然后用LipofectamineTM3000转染试剂(Invitrogen)将100pmol的siRNA转染细胞并与Opti MEM培养基(Gibco)孵育6小时。再用含10%FBS的DMEM培养基替换培养基进行转染。siRNA序列的寡核苷酸为:
siACTR1A:GGCAATATGTCTATTAA;
siPPP1CC:CTATCTCTCTACTAGAACTG;
siGSK3A:CCAGTGGCGAGAGAGAAGA;
siRAC1:GGACAGAGAGAGATATATATATGACA。
克隆方法:用siRNA转染A549、HBE和NCI-H1299细胞24小时,将1000个细胞接种到6孔板中并培养7天。然后用PBS洗涤三次,甲醇固定5min,0.1%结晶紫染色10min。
侵袭试验:Transwell腔(8.0μm大小,BD)用于体外侵袭试验。siRNA转染肺癌细胞48h后,将1×105细胞接种于含200μl非FBS DMEM培养基的transwell膜中,并将含10%FBS的DMEM培养基加入transwell底部。浸润细胞用0.1%结晶紫染色。通过imageJ对细胞数量进行量化。
如图3所示,在克隆形成实验中,敲低ACTR1A、GSK3A的A549和H1299细胞与正常的两株细胞对比,其增值能力均有所下降;并且在双敲组合ACTR1A+RAC1及四敲组合(四个基因都敲低)中,也有非常明显的抑制肿瘤细胞增值的效果。说明ACTR1A,GSK3A,PPP1CC和RAC1四个基因中,对肿瘤增值能力抑制的主要是ACTR1A和GSK3A,其余两个基因表现不明显。
如图4所示,在研究侵袭能力实验中,敲低四个基因均表现出对肿瘤侵袭能力的抑制作用,特别是抑制增值能力不强的PPP1CC和RAC1表现出了极强的抑制侵袭的能力,双敲和四敲组合表现的效果为明显。
通过上述细胞实验证实,ACTR1A和GSK3A主要与肿瘤细胞的增值能力相关,而PPP1CC和RAC1主要与肿瘤细胞的侵袭能力相关,所以双基因组合或四基因组合具有非常强大的能力,可以抑制肿瘤细胞的增值和侵袭。证明利用本申请方法筛选的关键基因真实、有效,对其进行干扰可以在细胞层面抑制肺腺癌生长和转移。
实施例4小鼠实验
实验方法:小鼠实验在ACTR1A及RAC1中进行,选择这两个基因的原因是两者为抑制增值能力及侵袭能力的代表基因。通过构建了腺相关病毒6(AAV6,中国上海hanbio),以靶向敲低肺组织中相应的蛋白。根据预防和治疗实验模型,将AAV气管内注射到4至6周龄的免疫缺陷(NCG)小鼠(中国江苏GemPharmatech,每组10只)。具体为:
i)预防模型:小鼠接受50μlAAV6-ACTR1A、AVV-RAC1的气管内注射(1×1011vg/只),21天后,每组取2只小鼠,分别检测4种体内蛋白表达。然后,再过7天后,小鼠尾静脉注射人A549腺癌细胞(1×107细胞/mL,200μL)以诱导肿瘤生长。
ii)治疗模型:小鼠被注射A549腺癌细胞,7天后,气管内分别注射ACTR1A和RAC1。细胞和病毒的剂量以及AVV效应试验同上。
iii)尾静脉注射后,使用活体Xtreme成像系统在2、22、28、36、42天的几个时间点记录肿瘤的荧光。
如图5所示,与非敲低组小鼠相比,敲低ACTR1A、RAC1的小鼠无论在先成瘤后注射AAV6的治疗方案模型,还是先注射AAV6在成瘤的预防方案模型中,均抑制了肿瘤的生长,表现出非常好的效果。说明本申请筛选的目的基因,均可抑制小鼠肿瘤大小。证明利用本方法筛选的关键基因真实、有效,对其进行干扰可以在动物层面抑制肺腺癌生长和转移。图5中在2和22天时成瘤不明显,故无表示。
尽管已经示出和描述了本申请的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本申请的原理和精神的情况下可以对这些实例进行多种变化、修改、替换和变型,本申请的范围由所附权利要求及其等同物限定。
序列表
<110> 深圳承启生物科技有限公司
<120> 与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用
<160> 4
<170> SIPOSequenceListing 1.0
<210> 1
<211> 17
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
ggcaatatgt ctattaa 17
<210> 2
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
ctatctctct actagaactg 20
<210> 3
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
ccagtggcga gagagaaga 19
<210> 4
<211> 26
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
ggacagagag agatatatat atgaca 26

Claims (1)

1.一种与肿瘤细胞恶性表型关联的非差异基因的筛选方法,其特征在于,从SRA数据库下载编号ERP001058的75对肺腺癌/癌旁标本的mRNA序列数据,以该75对150例肺腺癌与癌旁临床组织为样本,进行非差异基因的筛选,具体过程为:
①将75对肺腺癌/癌旁标本的mRNA序列通过软件SRA Toolkit v2.8.2使用参数splitfiles转换为FASTQ格式,使用测序比对算法FANSe将第一端映射到转录组参考序列hg19,误差为6%,通过rpkM方法对基因进行定量;
mRNA序列的数量用n表示,而在第n个mRNA序列中具有大于或等于0.1rpkM值的基因的数量用m表示;如果一个基因的rpkM值低于δ值,δ=60,即m应大于n的60%,则该基因被保留,以类似方式,当基因包含的p值小于δ数时,基因被删除;p值由“edgeR”Bioconductor软件包根据mRNA读取计数计算得出;然后,将相应的负对数p值作为rpkM数据库的权重分配;
②采用SVM模型系数通过对150个癌旁和癌旁样本处理后的mRNA序列进行随机抽样,每次抽取50个样本,经过1000次循环训练后确定了SVM模型,参数为C-classification,核型为linear kernel;
③利用确定的SVM模型,另外进行100次随机抽样,每次抽取50个样本,确定每一个基因在SVM模型中的ω值;根据各次采样数据中基因在各个样本中表达量的均值、标准差和对应的ω值,确定了各支持向量机算法对应的σω值,即用来排列基因重要性的数值;根据σω值对保留的癌旁和癌旁基因进行排序;
④将作为样本的75对肺腺癌/癌旁标本的mRNA序列数据放入GWRS+GWGS模型计算差异基因,得到差异基因排序;
其中,整合分析方法GWGS+GWRS为:
S1对不同单中心基因测序数据进行评测,按照基因表达量的显著程度,采用式(1)所示算法GWRS对每个基因赋予不同的数值:
GWRS:
Figure FDA0003890882190000011
式中,rij表示在第j微阵列中的第i个基因的rank值,其中i=1~m,j=1~n,sij的范围在0~-2log(1/m)之间,m和n为非零自然数;
S2输入上述不同单中心基因的计算结果,利用GWGS算法进行整合分析,生成一组跨越多中心数据的基因表达数据:
GWGS:
Figure FDA0003890882190000021
式中,
Figure FDA0003890882190000022
为全基因组全局显著性,ωj表示第j微阵列的相对重要性;
⑤将③中SVM模型排序前5%的重要性基因与④中差异基因比较,得到两组基因,将两组基因混合投入KEGG富集分析,并生成网络,再对网络进行重要节点和联通度确定作为重要节点的基因即为非差异基因,根据节点重要性选择出四个非差异基因,分别为ACTR1A、GSK3A、PPP1CC和RAC1。
CN202111676823.2A 2021-12-31 2021-12-31 与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用 Active CN114388063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111676823.2A CN114388063B (zh) 2021-12-31 2021-12-31 与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111676823.2A CN114388063B (zh) 2021-12-31 2021-12-31 与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用

Publications (2)

Publication Number Publication Date
CN114388063A CN114388063A (zh) 2022-04-22
CN114388063B true CN114388063B (zh) 2022-11-29

Family

ID=81199395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111676823.2A Active CN114388063B (zh) 2021-12-31 2021-12-31 与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用

Country Status (1)

Country Link
CN (1) CN114388063B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019881B (zh) * 2022-07-15 2022-10-21 普瑞基准科技(北京)有限公司 基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统
CN118098375A (zh) * 2023-07-03 2024-05-28 杭州联川生物技术股份有限公司 区分肿瘤细胞和非肿瘤细胞的基因集、方法、介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109136370A (zh) * 2018-05-31 2019-01-04 广州表观生物科技有限公司 一种肺癌的预后标记物及其应用
CN109841280A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 食管癌相关特征通路的识别及早期诊断模型的构建方法
CN109949864A (zh) * 2019-03-08 2019-06-28 广州基迪奥生物科技有限公司 一种转录组测序和蛋白组学测序数据的贯穿分析方法及系统
CN111584085A (zh) * 2019-12-31 2020-08-25 四川大学 基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及系统
CN112359110A (zh) * 2020-10-29 2021-02-12 温州医科大学 一种胆管癌预后测定标志物、检测引物、试剂盒及应用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9926601B2 (en) * 2011-02-24 2018-03-27 Massachusetts Institute Of Technology Alternatively spliced mRNA isoforms as prognostic indicators for metastatic cancer
EP3600353A4 (en) * 2017-03-29 2020-12-23 The Broad Institute, Inc. COMPOSITIONS AND METHODS OF TREATMENT OF CANCER ACTIVATED BY PEROXISOMPROLIFERATOR-ACTIVATED GAMMA RECEPTOR (PPARG)

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109841280A (zh) * 2017-11-29 2019-06-04 郑州大学第一附属医院 食管癌相关特征通路的识别及早期诊断模型的构建方法
CN109136370A (zh) * 2018-05-31 2019-01-04 广州表观生物科技有限公司 一种肺癌的预后标记物及其应用
CN109949864A (zh) * 2019-03-08 2019-06-28 广州基迪奥生物科技有限公司 一种转录组测序和蛋白组学测序数据的贯穿分析方法及系统
CN111584085A (zh) * 2019-12-31 2020-08-25 四川大学 基于基因及信号通路的蛛网膜下腔出血预测模型建立方法及系统
CN112359110A (zh) * 2020-10-29 2021-02-12 温州医科大学 一种胆管癌预后测定标志物、检测引物、试剂盒及应用

Also Published As

Publication number Publication date
CN114388063A (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
Ji et al. Expanded expression landscape and prioritization of circular RNAs in mammals
Mich et al. Functional enhancer elements drive subclass-selective expression from mouse to primate neocortex
CN114388063B (zh) 与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用
Iancu et al. Cosplicing network analysis of mammalian brain RNA-Seq data utilizing WGCNA and Mantel correlations
KR102586651B1 (ko) 인공지능 기반 염색체 이상 검출 방법
CN112466404B (zh) 一种宏基因组重叠群无监督聚类方法及系统
CN105378110A (zh) 与癌症相关的基因融合体和基因变异体
CN105701365A (zh) 一种利用miRNA表达数据发现癌症相关基因的方法
CN106414768A (zh) 与癌症相关的基因融合体和基因变异体
Zhao et al. High expression levels of AGGF1 and MFAP4 predict primary platinum-based chemoresistance and are associated with adverse prognosis in patients with serous ovarian cancer
US11756651B2 (en) Method of treating a tumor in a patient based on an immune gene expression
Jiang et al. Gene signatures from scRNA‐seq accurately quantify mast cells in biopsies in asthma
Gapp et al. Parallel reverse genetic screening in mutant human cells using transcriptomics
Sapin et al. An ant colony optimization and tabu list approach to the detection of gene-gene interactions in genome-wide association studies [research frontier]
CN114913919A (zh) 一种单基因病遗传变异智能解读及报告的方法、系统及服务器
CN113337605B (zh) 与胃癌预后相关的标志分子
CN114107444A (zh) 一种发掘调控植物发育关键调控因子的方法及其应用
KR20220074088A (ko) 인공지능 기반 암 진단 및 암 종 예측방법
Hardin et al. DNA motif detection using particle swarm optimization and expectation-maximization
CN110310701A (zh) 基于EucDiff值预测突变对RNA二级结构影响程度的方法和相关设备
CN116434843A (zh) 一种碱基测序质量评估方法
CN110265084A (zh) 预测癌症基因组中富含或缺失riboSnitch元件的方法及相关设备
CN111785319B (zh) 基于差异表达数据的药物重定位方法
CN108959843B (zh) 靶向rna的化学小分子药物计算机筛选方法
CN110299186A (zh) 基于MeanDiff值预测突变对RNA二级结构影响程度的方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant