CN105243294B - 一种用于预测癌症病人预后相关的蛋白质对的方法 - Google Patents

一种用于预测癌症病人预后相关的蛋白质对的方法 Download PDF

Info

Publication number
CN105243294B
CN105243294B CN201510598608.3A CN201510598608A CN105243294B CN 105243294 B CN105243294 B CN 105243294B CN 201510598608 A CN201510598608 A CN 201510598608A CN 105243294 B CN105243294 B CN 105243294B
Authority
CN
China
Prior art keywords
protein
prognosis
cancer
gene
cancer patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510598608.3A
Other languages
English (en)
Other versions
CN105243294A (zh
Inventor
张际峰
芮存芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wande gene Medical Technology Co Ltd
Original Assignee
Huainan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huainan Normal University filed Critical Huainan Normal University
Priority to CN201510598608.3A priority Critical patent/CN105243294B/zh
Publication of CN105243294A publication Critical patent/CN105243294A/zh
Application granted granted Critical
Publication of CN105243294B publication Critical patent/CN105243294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种用于预测癌症病人预后相关的蛋白质对的方法,属于癌症预后及治疗领域。本发明的步骤为:(1)从GEO数据库中下载与癌症对应的基因芯片数据,同时找出该数据的原始文件中的生存相关的数据;(2)预测与癌症病人预后相关的基因;(3)利用该基因从蛋白质互作对数据库中过滤出与癌症病人预后相关的蛋白质互作对。本发明方法的应用:利用预测与癌症预后相关的蛋白质互作对设计治疗该癌症的药物,该药物在蛋白质互作对中产生竞争性作用,从而破坏原有的蛋白质互作对。本发明的方法是一种更为精确的预测癌症的预后相关的蛋白质对的方法,且其更有助于从细胞内干扰蛋白质相互作用的角度设计癌症治疗的药物。

Description

一种用于预测癌症病人预后相关的蛋白质对的方法
技术领域
本发明属于癌症预后及治疗领域,更具体地说,涉及一种用于预测癌症病人预后相关的蛋白质对的方法。
背景技术
GEO数据库是存放大量基因芯片的一个公共数据库,这些芯片数据中,有不少研究涉及到癌症病人的基因表达和病人预后状况等方面内容。这些数据可以用于进一步分析癌症病人的生存时间与特定相关基因的关系,并进一步筛查预后相关基因。如GEO数据库中的一个乳腺癌数据集GDS2034[1],该数据集除了具有不同的疾病样本外,还具有样本病人的生存时间和最终的状态。
在预测预后相关基因时,生存分析方法用于评估一个基因表达值与临床预后的关系。给定一个数据集,对每个基因,计算生存分析常涉及的2个p值:(1)基于单个基因的表达水平,利用K-means算法[2],将数据集的所有样本分成2类,利用生存分析方法估计(Kaplan-Meier estimator)[3]获得两个生存相关的函数(对应两条生存曲线),然后利用log-ranktest检验这两个函数间的差异性,获得差异性的p值,此为第一种p值求解方法;(2)而比例风险模型[4](Proportional hazard model,又称COX模型,Cox model)被用于检验单个基因的表达水平与生存时间的关系,利用z检验(z-test)对回归结果进行分析,获得第二个p值求解的结果。
参考文献:
[1]Wang Y,Klijn JG,Zhang Y,Sieuwerts AM,Look MP,Yang F,et al.Gene-expression profiles to predict distant metastasis of lymph-node-negativeprimary breast cancer[J].Lancet.2005,365(9460):671-9.
[2]Krishna K,Narasimha Murty M.Genetic K-means algorithm[J].IEEEtransactions on systems,man,and cybernetics Part B,Cybernetics:a publicationof the IEEE Systems,Man,and Cybernetics Society.1999,29(3):433-9.
[3]Shwartz M,Pliskin JS,GrondahlHG,Boffa J.Use of the Kaplan-Meierestimate to reduce biases in estimating the rate of caries progression[J].Community dentistry and oral epidemiology.1984,12(2):103-8.
[4]Vekic J,Zeljkovic A,Bogavac-Stanojevic N,Jelic-Ivanovic Z,Spasojevic-Kalimanovska V,Simic-Ogrizovic S,et al.Cox proportional hazardmodel analysis of survival in end-stage renal disease patients with small-sized high-density lipoprotein particles[J].Clinical biochemistry.2011,44(8-9):635-41.
现行的研究方法获得的预后相关基因往往只依靠上述两种求p值得方法(log-rank test检验或是COX模型分析)之一,即在其中一种情况下,求当p<0.05的基因则被定义为预后相关基因。然而,(1)这种获得的预后相关基因准确性并不是很高,因为它受到很多因素的影响,如芯片数据自身的技术问题导致基因表达水平的假阳性率很高,样本数目的多少,生存时间数据长短的界定等;(2)以往预测癌症预后相关基因主要针对单个基因或是单个基因组成的集合,没有考虑蛋白质间的互作对,事实上,蛋白质互作对在细胞内常常发生相互作用,蛋白质互作对的相互作用可能是导致癌症病人预后的生存期长短的一个重要因素。如能将癌症预后引入蛋白质互作对的层面上,将会对癌症的治疗产生积极的作用,因此,急需一种可以准确预测与癌症预后相关的基因并且进一步应用的方法。
发明内容
1.发明要解决的技术问题
本发明为了解决上述问题的不足之处,提出了一种用于预测癌症病人预后相关的蛋白质对的方法。本发明将log-rank test检验与COX模型分析两种方法中的P值共同考虑,得到一种使预测获得基因与癌症的预后关系更为密切的方法,并且还利用了人类蛋白质互作对数据库(HPRD)进一步过滤出与预后相关的蛋白质互作对,从蛋白质互作对在细胞间的相互作用层面为癌症的治疗提供药物开发的新思路。
2.技术方案
本发明的一种用于预测癌症病人预后相关的蛋白质对的方法,在预测癌症病人预后相关的基因后,再利用人类蛋白质互作数据库(HPRD数据库)信息,定义预后相关蛋白质对为蛋白质对中的两个基因同时属于此预后相关基因。由此,进一步过滤出预后相关的蛋白质互作对。
作为本发明的进一步改进,其步骤为:
(1)从GEO数据库中下载与癌症对应的基因芯片数据,同时找出该数据的原始文件中的生存相关的数据;
(2)预测与癌症病人预后相关的基因;
(3)基于HPRD数据库,进一步过滤出与癌症病人预后相关的蛋白质互作对。
作为本发明的进一步改进,步骤(2)中预测与癌症病人预后相关的基因的方法为,定义利用log-rank test检验方法计算获得的P值为P1,P1是由卡方检验获得,模型拟合之后可以算出卡方统计量,服从卡方分布,P1值就是卡方分布大于这个卡方统计量的概率;定义利用COX模型分析方法计算获得的P值为P2,P2是由z检验获得,该检验可获得z值,而P2值就是标准正态大于这个z值的概率。
当P′≤0.05时,认为该基因与癌症预后有关。
对本发明的一种用于预测癌症病人预后相关的蛋白质对的方法的应用,利用预测的与癌症预后相关的蛋白质互作对设计治疗该癌症的药物,该药物与互作对的蛋白质产生竞争性的相互作用,从而破坏原有的蛋白质互作对或蛋白质复合物的形成。
3.有益效果
采用本发明提供的技术方案,与现有技术相比,具有如下显著效果:
(1)本发明的一种用于预测癌症病人预后相关的蛋白质对的方法,将log-ranktest检验与COX模型分析两种方法中的P值综合考虑,提出一种新的获得癌症预后相关基因的方法,提高了癌症预后相关基因预测的准确率。
(2)本发明的一种用于预测癌症病人预后相关的蛋白质对的方法,获得与癌症预后相关的基因后,进一步筛选出与预后相关的蛋白质互作对,蛋白质互作对的相互作用是导致癌症病人预后的生存期长短的一个重要因素,设计特定药物改善预后相关蛋白质互作对的状态,有助于延长癌症病人生存期,为针对蛋白质互作对的癌症病人的药物治疗提供了帮助。
(3)本发明的一种用于预测癌症病人预后相关的蛋白质对的方法的应用,利用与癌症预后相关的蛋白质互作对设计治疗该癌症的药物,该药物可以在细胞内模拟一个蛋白质空间结构与另一蛋白质产生竞争互作用,从而改变原有的蛋白质互作对的状态。
具体实施方式
为进一步了解本发明的内容,下面结合实施例对本发明作详细描述。
实施例1
在描述本发明的实施例之前,有关于本发明的几个术语解释:
基因芯片:其测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,在一块基片表面固定了序列已知的靶核苷酸的探针。
预后:是指预测疾病的可能病程和结局。它既包括判断疾病的特定后果(如康复,某种症状、体征和并发症等其它异常的出现或消失及死亡)。也包括提供时间线索,如预测某段时间内发生某种结局的可能性。由于预后是一种可能性,主要指病人群体而不是个人。本专利所述预后主要是指癌症病人可能的生存期。
本实施例的一种用于预测癌症病人预后相关的蛋白质对的方法,其步骤为:
(1)从GEO数据库中下载与癌症对应的基因芯片数据,同时找出该数据的原始文件中的生存相关的数据;
(2)预测与癌症病人预后相关的基因;其方法为,定义利用log-rank test检验方法计算获得的P值为P1,定义利用COX模型分析方法计算获得的P值为P2,
当P′≤0.05时,认为该基因与癌症预后有关;
(3)基于HPRD数据库,进一步过滤出与癌症病人预后相关的蛋白质互作对。
对本实施例的一种用于预测癌症病人预后相关的蛋白质对的方法的应用,利用预测的与癌症预后相关的蛋白质互作对设计治疗该癌症的竞争性小分子药物,该药物在蛋白质互作对中产生竞争性的相互作用,从而破坏原有的蛋白质互作对。
实施例2
下面以GEO数据库中乳腺癌数据集GDS2034为例,描述整个预测过程如下。
(1)从GEO数据库中下载与乳腺癌相关的基因数据集GDS2034(ftp://ftp.ncbi.nlm.nih.gov/geo/datasets/GDS2nnn/GDS2034/soft/GDS2034.soft.gz),同时找出该数据的原始文件中的生存相关的数据,对数据进行处理,处理后的格式内容如下表1所示,其中第一行名为样本名,第一列名为基因名,最后两列列名为生存时间和生存状态(是否复发,0代表否,1代表是),而除了后两列外,矩阵内数字为对应样本内基因的表达值。(注:GDS2034是一个实体的数据,不好改变、模拟或压缩,其原始数据,可由上述提供的下载网络地址下载。)
表1乳腺癌基因芯片数据预处理矩阵表
表格1的内容为芯片表达数据下载后,进行简单的芯片数据预处理,获得的数据结构形式。
(2)预测与癌症病人预后相关的基因;其方法为,
计算每一个基因的p’值,如P′≤0.05,则该基因与癌症预后有关。
(3)蛋白质互作对数据库(http://www.hprd.org/download)可提供蛋白(或称基因,由遗传学的中心法则,这里视它们相同。)基于蛋白质互作数据和(2)中获得的癌症预后相关基因,进一步过滤出与癌症病人预后相关的蛋白质互作对(要求互作对中两个基因均为预后相关基因)。
利用上述获得的与乳腺癌预后相关的蛋白质对的研究结果来设计药物,药物可模拟蛋白质互作对中产生竞争的互作蛋白,从而改善了蛋白质互作对的状态,延长病人生存时间,对乳腺癌病人的治疗产生积极作用。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,实施例所示的也只是本发明的试试方法或例证之一,实际的情况并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的预测方法及实施例,均应属于本发明的保护范围。

Claims (2)

1.一种用于预测癌症病人预后相关的蛋白质对的方法,其特征在于:预测癌症病人预后相关的基因,预后指癌症病人可能的生存期,之后,利用该基因从蛋白质互作对数据库中进一步过滤出与癌症病人预后相关的蛋白质互作对,定义预后相关蛋白质对为蛋白质对中的两个基因同时属于此预后相关基因,其具体步骤为:
(1)从GEO数据库中下载与癌症对应的基因芯片数据,同时找出该数据的原始文件中的生存相关的数据;
(2)预测与癌症病人预后相关的基因,其方法为:定义利用log-rank test检验方法计算获得的P值为P1,定义利用COX模型分析方法计算获得的P值为P2当P′≤0.05时,认为该基因与癌症预后有关;
(3)利用该基因从蛋白质互作对数据库中过滤出与癌症病人预后相关的蛋白质互作对。
2.根据权利要求1所述的一种用于预测癌症病人预后相关的蛋白质对的方法的应用,其特征在于:利用预测的与癌症预后相关的蛋白质互作对设计治疗该癌症的药物,该药物与互作对的蛋白质产生竞争性的相互作用,从而破坏原有的蛋白质互作对或蛋白质复合物的形成。
CN201510598608.3A 2015-09-18 2015-09-18 一种用于预测癌症病人预后相关的蛋白质对的方法 Active CN105243294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510598608.3A CN105243294B (zh) 2015-09-18 2015-09-18 一种用于预测癌症病人预后相关的蛋白质对的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510598608.3A CN105243294B (zh) 2015-09-18 2015-09-18 一种用于预测癌症病人预后相关的蛋白质对的方法

Publications (2)

Publication Number Publication Date
CN105243294A CN105243294A (zh) 2016-01-13
CN105243294B true CN105243294B (zh) 2017-06-09

Family

ID=55040941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510598608.3A Active CN105243294B (zh) 2015-09-18 2015-09-18 一种用于预测癌症病人预后相关的蛋白质对的方法

Country Status (1)

Country Link
CN (1) CN105243294B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650284B (zh) * 2016-12-30 2019-03-15 深圳先进技术研究院 一种疾病康复评价系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2640900T3 (es) * 2008-10-30 2017-11-07 Firalis Biomarcadores
CN102289606A (zh) * 2011-07-05 2011-12-21 中国航天员科研训练中心 药物的筛选方法以及药物组合设计方法
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Disturbed protein-protein interaction networks in metastatic melanoma are associated with worse prognosis and increased functional mutation burden》;Sarah-Jane Schramm 等;《Pigment Cell & Melanoma Research》;20130930;第26卷(第5期);全文 *
《基于蛋白质相互作用"热点"区域的小分子药物设计研究进展》;杨晓敏 等;《生物物理学报》;20150430;第31卷(第2期);全文 *

Also Published As

Publication number Publication date
CN105243294A (zh) 2016-01-13

Similar Documents

Publication Publication Date Title
JP6791598B2 (ja) 異なる細胞サブセットの比率の決定方法およびシステム
Jayawardana et al. Determination of prognosis in metastatic melanoma through integration of clinico‐pathologic, mutation, mRNA, microRNA, and protein information
Houseman et al. DNA methylation arrays as surrogate measures of cell mixture distribution
JP6931125B2 (ja) 標的遺伝子発現の数学的モデル化を使用する、jak−stat1/2細胞シグナル伝達経路活性の評価
Milanez-Almeida et al. Cancer prognosis with shallow tumor RNA sequencing
JP2021505977A (ja) 体細胞突然変異のクローン性を決定するための方法及びシステム
Zhuang et al. Identification of hub subnetwork based on topological features of genes in breast cancer
US20140031308A1 (en) Benchmarks for normal cell identification
CN109872776A (zh) 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN106367512A (zh) 一种鉴定样本中肿瘤负荷的方法和系统
Wang et al. Independent component analysis based gene co-expression network inference (ICAnet) to decipher functional modules for better single-cell clustering and batch integration
CA3226033A1 (en) Prediction of brcaness/homologous recombination deficiency of breast tumors on digitalized slides
JP2006302222A (ja) 癌発症リスク予測システム及び方法、並びに癌デリバティブ方法
JP2015089364A (ja) 体細胞多重変異によるがん診断方法、がん医薬開発方法及びがん診断装置
Li et al. Discovery of gene module acting on ubiquitin-mediated proteolysis pathway by co-expression network analysis for endometriosis
Moiso et al. Developmental deconvolution for classification of cancer origin
Holden et al. Local in Time Statistics for detecting weak gene expression signals in blood–illustrated for prediction of metastases in breast cancer in the NOWAC Post-genome Cohort
CN103902849A (zh) 基于基因芯片数据和代谢网络测定癌症关键代谢酶的方法
Sarmah et al. A simple Affymetrix ratio-transformation method yields comparable expression level quantifications with cDNA data
CN105243294B (zh) 一种用于预测癌症病人预后相关的蛋白质对的方法
Li et al. TimiGP: Inferring cell-cell interactions and prognostic associations in the tumor immune microenvironment through gene pairs
Zeng et al. MRI-based radiomics models can improve prognosis prediction for nasopharyngeal carcinoma with neoadjuvant chemotherapy
CN105177130B (zh) 用来评估艾滋病人发生免疫重建炎性综合症的标志物
Jørgensen et al. Untangling the intracellular signalling network in cancer—A strategy for data integration in acute myeloid leukaemia
Tai et al. Bayice: a Bayesian hierarchical model for semireference-based deconvolution of bulk transcriptomic data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Alan Morin Chen

Inventor after: Huang Kailing

Inventor after: Luo Yingjun

Inventor after: Zhang Nan

Inventor after: Liu Yanhui

Inventor before: Zhang Jifeng

Inventor before: Rui Cunfang

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20180214

Address after: 510000 the sixth floor of building D Building No. 188, No. 188, open source road, high tech Industrial Development Zone, Guangdong Province

Patentee after: Guangzhou Wande gene Medical Technology Co Ltd

Address before: 232038 Huainan, Shandong Province, West Hill Road

Patentee before: Huainan Normal University

TR01 Transfer of patent right