CN115019881B - 基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统 - Google Patents
基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统 Download PDFInfo
- Publication number
- CN115019881B CN115019881B CN202210830132.1A CN202210830132A CN115019881B CN 115019881 B CN115019881 B CN 115019881B CN 202210830132 A CN202210830132 A CN 202210830132A CN 115019881 B CN115019881 B CN 115019881B
- Authority
- CN
- China
- Prior art keywords
- gene
- small molecule
- key node
- genes
- gene expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统。方法包括:基于肿瘤细胞的基因表达数据,获取关键节点基因和从属基因,关键节点基因与多个从属基因存在相关关系,从属基因用于反映关键节点基因的蛋白活性;计算关键节点基因在小分子干扰前后的蛋白活性,获得对应小分子干扰前的蛋白活性的关键节点基因的蛋白活性静态图谱和小分子干扰后的蛋白活性的关键节点基因的蛋白活性变化图谱;比较变化图谱和静态图谱,基于Fisher精确性检验和多重检验校正确定小分子是否可以逆转肿瘤细胞的生理状态,并判断小分子对静态图谱的逆转效果及小分子的抗肿瘤效果,提高了推断小分子抗肿瘤效果的准确性与敏感性。
Description
技术领域
本发明涉及药物抗肿瘤效果鉴定技术领域,尤其涉及一种基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统。
背景技术
小分子药物作用在肿瘤细胞上,会通过阻滞信号转导或细胞代谢等基因通路的方式来抑制肿瘤细胞的生长与增殖,从而发挥抗肿瘤的效果。小分子对肿瘤细胞的影响是系统性的,会引起基因表达图谱的逆转。因此,将小分子干扰下肿瘤细胞系基因表达的变化图谱与通过单细胞转录组测序描绘的肿瘤细胞基因表达静态图谱进行比较,可以筛选出具有一定抗肿瘤效果的小分子。具体来讲,如果在小分子干扰下引起的基因表达变化图谱与肿瘤细胞的基因表达静态图谱特征相反,那么说明该小分子可以逆转肿瘤细胞的生理状态,从而发挥抗肿瘤的效果。
目前,通过算法对基因表达的变化图谱和静态图谱进行比较,筛选具有抗肿瘤效果的小分子的具体方法包括:从LINCSL1000数据集资源(网址如下:https://lincsproject.org/LINCS/tools/workflows/find-the-best-place-to-obtain-the-lincs-l1000-data)中抽取信息,构建在小分子干扰下肿瘤细胞系基因表达的变化图谱;与通过单细胞转录组测序描绘的肿瘤细胞基因表达静态图谱进行比较;如果卡方检验结果显示变化图谱中前600个上调基因与静态图谱中前600个低表达基因的重叠较大,且变化图谱中前600个下调基因与静态图谱中前600个高表达基因的重叠较大,可以推断该小分子可以逆转肿瘤细胞基因表达的静态图谱,显示其具有一定的抗肿瘤效果。
然而,该算法具有两点缺陷:其一,该算法通过对基因表达图谱的比较来判断小分子是否可以逆转肿瘤细胞的生理状态,从而推断其抗肿瘤效果,但是基因表达图谱不够稳定,常常混有噪音,尤其是对单细胞转录组测序数据而言,而且基因表达的高低往往不能准确代表更直接反映肿瘤细胞的生理状态的相应基因蛋白活性的高低,进而影响推断的准确性;其二,该算法采用卡方检验来判断基因集合之间的重叠,但是卡方检验并非精确性检验,而且需要的观察频数较大(任意观察频数>5),因此限制了推断的敏感性。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案,一种基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统,基于基因表达数据,为肿瘤细胞生理调控关键节点基因计算蛋白活性,然后对关键节点基因蛋白活性的变化图谱和静态图谱进行比较,通过Fisher精确性检验(费希尔精确性检验,也称“四格表的确切概率法”)以及多重检验校正来判断小分子是否可以逆转肿瘤细胞的生理状态,推断其抗肿瘤效果,从而提高推断小分子抗肿瘤效果的准确性与敏感性。
本发明一方面提供了一种基于基因蛋白活性的小分子抗肿瘤效果鉴定方法,包括:
S1,基于肿瘤细胞的基因表达数据,获取关键节点基因和从属基因,所述关键节点基因与多个从属基因存在相关关系,所述从属基因用于反映所述关键节点基因的蛋白活性;
S2,计算所述关键节点基因在小分子干扰前后的蛋白活性,获得对应小分子干扰前的所述蛋白活性的所述关键节点基因的蛋白活性静态图谱和小分子干扰后的所述蛋白活性的所述关键节点基因的蛋白活性变化图谱;
S3,比较所述变化图谱和静态图谱,基于Fisher精确性检验和多重检验校正确定所述小分子是否可以逆转肿瘤细胞的生理状态,并判断小分子对所述静态图谱的逆转效果以及所述小分子的抗肿瘤效果。
优选的,所述方法还包括:
S4,基于所述Fisher精确性检验定量计算所述小分子的抗肿瘤量化效果。
优选的,所述数S1,基于肿瘤细胞的基因表达数据,获取关键节点基因和从属基因包括:
S11,基于肿瘤细胞的基因表达数据建立癌种特异的基因互作网络;
S12,基于所述基因互作网络获取关键节点基因和从属基因。
优选的,所述S11包括:
对任意两个基因表达数据,计算Spearman等级相关系数并进行统计检验和/或FDR校正;
根据所述统计检验过滤Spearman等级相关系数绝对值小于第一阈值和/或所述FDR校正后所述FDR大于第二阈值的基因对关系;
筛选至少与N个从属基因存在相关关系的基因作为关键节点基因,将每个关键节点基因与其从属基因之间的Spearman等级相关系数,作为该从属基因对关键节点基因的蛋白活性的贡献权重。
优选的,所述第一阈值为0.1,第二阈值为0.05,所述N为30。
优选的,所述S2计算所述关键节点基因在小分子干扰前后的蛋白活性包括:
S21,基于所述基因互作网络以及单细胞基因表达矩阵计算每个细胞的所述关键节点基因的蛋白活性;
S22,基于所述基因互作网络以及小分子干扰下肿瘤细胞系基因表达矩阵计算每种小分子干扰下肿瘤细胞的所述关键节点基因的蛋白活性。
优选的,所述S21包括:
基于所述基因互作网络以及单细胞基因表达矩阵获得每个细胞的基因表达值,对每个细胞的基因表达值进行第一归一化处理获得归一化处理后的基因表达值,所述第一归一化处理为将每个细胞的所述基因表达值减去基因在所有细胞中的平均基因表达值后获得的差值除以基因在所有细胞中的基因表达值的标准差;
在每个细胞中,对所述归一化处理后的基因表达值进行排序,并基于标准正态分布,计算出相对于每个排序位置的分位数,作为该基因的表达分位数,所述表达分位数包括关键节点基因表达分位数和从属基因表达分位数;
针对每一个关键节点基因,将所有所述从属基因表达分位数和所述贡献权重乘积之和作为所述关键节点基因的蛋白活性;
对所有基因及所述归一化处理后的基因表达值进行M1次洗牌处理(shuffling),为关键节点基因计算M1次假蛋白活性,形成零假设分布,并基于置换检验和FDR校正确定上述计算得到的关键节点基因蛋白活性在统计上是否显著。
优选的,所述S22包括:
基于所述基因互作网络以及小分子干扰下肿瘤细胞系基因表达矩阵获得每种小分子干扰下每个肿瘤细胞系的基因表达值,对每种小分子干扰下每个肿瘤细胞系的基因表达值进行第二归一化处理获得归一化处理后的小分子干扰下肿瘤细胞系的基因表达值,所述第二归一化处理为将每种小分子干扰下每个肿瘤细胞系的基因表达值减去基因在未经小分子干扰的肿瘤细胞系中的平均基因表达值后获得的差值除以基因在未经小分子干扰的肿瘤细胞系中的基因表达值的标准差;
在每个肿瘤细胞系中,对所述归一化处理后的小分子干扰下肿瘤细胞系的基因表达值进行排序,并基于标准正态分布,计算出相对于每个排序位置的分位数,作为该小分子干扰下肿瘤细胞系基因的表达分位数,所述表达分位数包括小分子干扰下关键节点基因表达分位数和小分子干扰下从属基因表达分位数;
针对每一个小分子干扰下关键节点基因,将所有小分子干扰下从属基因表达分位数和所述贡献权重乘积之和作为所述小分子干扰下关键节点基因的蛋白活性;
在每个肿瘤细胞系中,对所有基因及其归一化处理后的小分子干扰下肿瘤细胞系的基因表达值进行M2次洗牌处理(shuffling),为所述小分子干扰下关键节点基因计算M2次假蛋白活性,形成零假设分布,并基于置换检验和FDR校正确定上述计算得到的小分子干扰下关键节点基因蛋白活性在统计上是否显著。
优选的,所述M1和M2均为1000。
优选的,所述S3包括:
S31,基于S21和S22获得的蛋白活性,分别按照所述蛋白活性从高到低的顺序将关键节点基因和小分子干扰下关键节点基因进行排序形成关键节点基因序列链和小分子干扰下关键节点基因序列链;
S32,在所述小分子干扰下关键节点基因序列链中,从第一个开始向后取第一数量高蛋白活性的小分子干扰下肿瘤细胞基因作为第一检测基因集;在所述关键节点基因序列链中,从最后一个开始向前取第二数量低蛋白活性的肿瘤细胞基因作为第一目标基因集;采用Fisher精确性检验以及多重检验校正检测所述第一检测基因集和所述第一目标基因集之间是否存在显著的交叠,如果经过Fisher精确性检验和多重校验校正后,校正得到的第一FDR小于0.05且第一比值比(oddsratio)大于1,那么认为所述第一检测基因集和所述第一目标基因集之间存在显著交叠;
S33,在所述小分子干扰下关键节点基因序列链中,从最后一个开始向前取第三数量低蛋白活性的小分子干扰下肿瘤细胞基因作为第二检测基因集;在所述关键节点基因序列链中,从第一个开始向后取第四数量高蛋白活性的肿瘤细胞基因作为第二目标基因集;采用Fisher精确性检验和多重检验校正检测所述第二检测基因集和所述第二目标基因集之间是否存在显著的交叠,如果经过Fisher精确性检验和多重检验校正后,校正得到的第二FDR小于0.05且第二比值比(oddsratio)大于1,那么认为所述第二检测基因集和所述第二目标基因集之间存在显著交叠;
S34,如果S32和S33中的所述FDR均小于0.05且比值比均大于1,那么保留所述小分子,认为所述小分子可以逆转肿瘤细胞关键节点基因蛋白活性的静态图谱,从而具有一定抗肿瘤效果。
优选的,所述第一数量、第二数量、第三数量和第四数量均为100。
优选的,所述S4包括:
计算所述第二比值比和所述第一比值比的均值作为所述小分子的抗肿瘤量化效果。
本发明的第二方面,提供一种基于基因蛋白活性的小分子抗肿瘤效果鉴定系统,包括:
关键节点基因提取模块,用于基于肿瘤细胞的基因表达数据,获取关键节点基因和从属基因,所述关键节点基因与多个从属基因存在相关关系,所述从属基因用于反映所述关键节点基因的蛋白活性;
蛋白活性计算模块,用于计算所述关键节点基因在小分子干扰前后的蛋白活性,获得对应小分子干扰前的所述蛋白活性的所述关键节点基因的蛋白活性静态图谱和小分子干扰后的所述蛋白活性的所述关键节点基因的蛋白活性变化图谱;
抗肿瘤效果确定模块,用于比较所述变化图谱和静态图谱,基于Fisher精确性检验和多重检验校正确定所述小分子是否可以逆转肿瘤细胞的生理状态,并判断小分子对所述静态图谱的逆转效果以及所述小分子的抗肿瘤效果。
本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
本发明提供的基于基因蛋白活性的小分子抗肿瘤效果鉴定方法、系统和电子设备,具有如下有益效果:
本发明基于基因表达数据,为肿瘤细胞生理调控关键节点基因计算蛋白活性,然后对关键节点基因蛋白活性的变化图谱和静态图谱进行比较,通过Fisher精确性检验和多重检验校正来判断小分子是否可以逆转肿瘤细胞的生理状态,推断其抗肿瘤效果,从而提高推断小分子抗肿瘤效果的准确性与敏感性。
附图说明
图1为本发明所述的基于基因蛋白活性的小分子抗肿瘤效果鉴定方法流程示意图。
图2为本发明提供的基于基因蛋白活性的小分子抗肿瘤效果鉴定系统原理结构图。
图3为本发明提供的电子设备一种实施例的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本实施例提供了一种基于基因蛋白活性的小分子抗肿瘤效果鉴定方法,包括:
S1,基于肿瘤细胞的基因表达数据,获取关键节点基因和从属基因,所述关键节点基因与多个从属基因存在相关关系,并且对肿瘤细胞生理调控贡献较大,所述从属基因用于反映所述关键节点基因的蛋白活性;
S2,计算所述关键节点基因在小分子干扰前后的蛋白活性,获得对应小分子干扰前的所述蛋白活性的所述关键节点基因的蛋白活性静态图谱和小分子干扰后的所述蛋白活性的所述关键节点基因的蛋白活性变化图谱;
S3,比较所述变化图谱和静态图谱,基于Fisher精确性检验和多重检验校正确定所述小分子是否可以逆转肿瘤细胞的生理状态,并判断小分子对所述静态图谱的逆转效果以及所述小分子的抗肿瘤效果。
作为优选的实施方式,所述方法还包括:
S4,基于所述Fisher精确性检验定量计算所述小分子的抗肿瘤量化效果。
作为优选的实施方式,所述S1,基于肿瘤细胞的基因表达数据,获取关键节点基因和从属基因包括:
S11,基于肿瘤细胞的基因表达数据建立癌种特异的基因互作网络;其中所述基因互作网络需要基于大规模肿瘤样本的肿瘤细胞的基因表达数据,本实施例采用TCGA中收录的各癌种人群基因表达数据汇总。基因表达数据规模越大,构建的网络越稳定,本实施例要求用于构建基因互作网络的数据规模至少大于100个样本;
S12,基于所述基因互作网络获取关键节点基因和从属基因。
作为优选的实施方式,所述S11包括:
对任意两个基因表达数据,计算Spearman等级相关系数(Spearman's rankcorrelation coefficient,斯皮尔曼等级相关系数)并进行统计检验和/或FDR(FalseDiscovery Rate,错误发现率)校正;
根据所述统计检验过滤Spearman等级相关系数绝对值小于第一阈值和/或所述FDR校正后所述FDR大于第二阈值的基因对关系;
筛选至少与N个从属基因存在相关关系的基因作为关键节点基因,将每个关键节点基因与其从属基因之间的Spearman等级相关系数,作为该从属基因对关键节点基因的蛋白活性的贡献权重。
作为优选的实施方式,所述第一阈值为0.1,第二阈值为0.05,所述N为30。
作为优选的实施方式,所述S2计算所述关键节点基因在小分子干扰前后的蛋白活性包括:
S21,基于所述基因互作网络以及单细胞基因表达矩阵计算每个细胞的所述关键节点基因的蛋白活性;
S22,基于所述基因互作网络以及小分子干扰下肿瘤细胞系基因表达矩阵计算每种小分子干扰下肿瘤细胞的所述关键节点基因的蛋白活性。
作为优选的实施方式,所述S21包括:
基于所述基因互作网络以及单细胞基因表达矩阵获得每个细胞的基因表达值,对每个细胞的基因表达值进行第一归一化处理获得归一化处理后的基因表达值,所述第一归一化处理为将每个细胞的所述基因表达值减去基因在所有细胞中的平均基因表达值后获得的差值除以基因在所有细胞中的基因表达值的标准差;
在每个细胞中,对所述归一化处理后的基因表达值进行排序,并基于标准正态分布,计算出相对于每个排序位置的分位数,作为该基因的表达分位数,所述表达分位数包括关键节点基因表达分位数和从属基因表达分位数;
针对每一个关键节点基因,将所有所述从属基因表达分位数和所述贡献权重乘积之和作为所述关键节点基因的蛋白活性;
对所有基因及所述归一化处理后的基因表达值进行M1次洗牌处理(shuffling),为关键节点基因计算M1次假蛋白活性,形成零假设分布,并基于置换检验和FDR校正确定上述计算得到的关键节点基因蛋白活性在统计上是否显著。
作为优选的实施方式,所述S22包括:
基于所述基因互作网络以及小分子干扰下肿瘤细胞系基因表达矩阵获得每种小分子干扰下每个肿瘤细胞系的基因表达值,对每种小分子干扰下每个肿瘤细胞系的基因表达值进行第二归一化处理获得归一化处理后的小分子干扰下肿瘤细胞系的基因表达值,所述第二归一化处理为将每种小分子干扰下每个肿瘤细胞系的基因表达值减去基因在未经小分子干扰的肿瘤细胞系中的平均基因表达值后获得的差值除以基因在未经小分子干扰的肿瘤细胞系中的基因表达值的标准差;
在每个肿瘤细胞系中,对所述归一化处理后的小分子干扰下肿瘤细胞系的基因表达值进行排序,并基于标准正态分布,计算出相对于每个排序位置的分位数,作为该小分子干扰下肿瘤细胞系基因的表达分位数,所述表达分位数包括小分子干扰下关键节点基因表达分位数和小分子干扰下从属基因表达分位数;
针对每一个小分子干扰下关键节点基因,将所有小分子干扰下从属基因表达分位数和所述贡献权重乘积之和作为所述小分子干扰下关键节点基因的蛋白活性;
在每个肿瘤细胞系中,对所有基因及其归一化处理后的小分子干扰下肿瘤细胞系的基因表达值进行M2次洗牌处理(shuffling),为所述小分子干扰下关键节点基因计算M2次假蛋白活性,形成零假设分布,并基于置换检验和FDR校正确定上述计算得到的小分子干扰下关键节点基因蛋白活性在统计上是否显著。
洗牌处理(Shuffling)是通过计算的手段改变数值标签,以达到形成零假设分布的目的。作为优选的实施方式,所述M1和M2均为1000。当然,本领域技术人员也可以选择高于1000的数量范围,只要能够获得统计学上具有统计意义的基因数据则均在本发明的保护范围内。
优选的,所述S3包括:
S31,基于S21和S22获得的蛋白活性,分别按照所述蛋白活性从高到低的顺序将关键节点基因和小分子干扰下关键节点基因进行排序形成关键节点基因序列链和小分子干扰下关键节点基因序列链;
S32,在所述小分子干扰下关键节点基因序列链中,从第一个开始向后取第一数量(本实施例取前100个高蛋白活性)高蛋白活性的小分子干扰下肿瘤细胞基因作为第一检测基因集;在所述关键节点基因序列链中,从最后一个开始向前取第二数量(本实施例取后100个低蛋白活性)低蛋白活性的肿瘤细胞基因作为第一目标基因集;采用Fisher精确性检验以及多重检验校正检测所述第一检测基因集和所述第一目标基因集之间是否存在显著的交叠,如果经过所述Fisher精确性检验以及多重检验校正后,校正得到的第一FDR小于0.05且第一比值比(oddsratio)大于1,那么认为所述第一检测基因集和所述第一目标基因集之间存在显著交叠;
S33,在所述小分子干扰下关键节点基因序列链中,从最后一个开始向前取第三数量(本实施例取后100个低蛋白活性)低蛋白活性的小分子干扰下肿瘤细胞基因作为第二检测基因集;在所述关键节点基因序列链中,从第一个开始向后取第四数量(本实施例取前100个高蛋白活性)高蛋白活性的肿瘤细胞基因作为第二目标基因集;采用Fisher精确性检验以及多重检验校正检测所述第二检测基因集和所述第二目标基因集之间是否存在显著的交叠,如果经过Fisher精确性检验和多重检验校正后,校正得到的第二FDR小于0.05且第二比值比(oddsratio)大于1,那么认为所述第二检测基因集和所述第二目标基因集之间存在显著交叠;
S34,如果S32和S33中的所述FDR均小于0.05且比值比(oddsratio)均大于1,那么保留该小分子,认为它可以逆转肿瘤细胞关键节点基因蛋白活性的静态图谱,从而具有一定抗肿瘤效果。
FDR的阈值选择在转录组分析中是非常重要的一个环节,常用的阈值包括0.01、0.05、0.1等。实践中也可以根据实际的需要来灵活选择。例如,当通过转录组分析得到的差异表达基因数量较少时候,由于假阳性累积的程度较低,所以可以适当将FDR阈值设置的较高一些,这样可以获得较多的差异表达结果,有利于后续的分析。
作为优选的实施方式,所述S4包括:
计算所述第二比值比和所述第一比值比的均值作为所述小分子的抗肿瘤量化效果。
实施例二
参见图2,本实施例提供一种基于基因蛋白活性的小分子抗肿瘤效果鉴定系统,包括:
关键节点基因提取模块101,用于基于肿瘤细胞的基因表达数据,获取关键节点基因和从属基因,所述关键节点基因与多个从属基因存在相关关系,并且对肿瘤细胞生理调控贡献较大,所述从属基因用于反映所述关键节点基因的蛋白活性;
蛋白活性计算模块102,用于计算所述关键节点基因在小分子干扰前后的蛋白活性,获得对应小分子干扰前的所述蛋白活性的所述关键节点基因的蛋白活性静态图谱和小分子干扰后的所述蛋白活性的所述关键节点基因的蛋白活性变化图谱;
抗肿瘤效果确定模块103,用于比较所述变化图谱和静态图谱,基于Fisher精确性检验以及多重检验校正确定所述小分子是否可以逆转肿瘤细胞的生理状态,并判断小分子对所述静态图谱的逆转效果以及所述小分子的抗肿瘤效果。
该系统可实现上述实施例一提供的鉴定方法,具体的鉴定方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,指令用于实现如实施例一的方法。
如图3所示,本发明还提供了一种电子设备,包括处理器301和与处理器301连接的存储器302,存储器302存储有多条指令,指令可被处理器加载并执行,以使处理器能够执行如实施例一的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种基于基因蛋白活性的小分子抗肿瘤效果鉴定方法,其特征在于,包括:
S1,基于肿瘤细胞的基因表达数据,获取关键节点基因和从属基因,所述关键节点基因与多个从属基因存在相关关系,所述从属基因用于反映所述关键节点基因的蛋白活性;所述关键节点基因的蛋白活性表示针对每一个关键节点基因,将所有从属基因的表达分位数和贡献权重乘积之和作为所述关键节点基因的蛋白活性;
S2,计算所述关键节点基因在小分子干扰前后的蛋白活性,获得对应小分子干扰前的所述蛋白活性的所述关键节点基因的蛋白活性静态图谱和小分子干扰后的所述蛋白活性的所述关键节点基因的蛋白活性变化图谱;
S3,比较所述变化图谱和静态图谱,基于Fisher精确性检验和多重检验校正确定所述小分子是否可以逆转肿瘤细胞的生理状态,并判断小分子对所述静态图谱的逆转效果以及所述小分子的抗肿瘤效果;
所述S1,基于肿瘤细胞的基因表达数据,获取关键节点基因和从属基因包括:
S11,基于肿瘤细胞的基因表达数据建立癌种特异的基因互作网络;
S12,基于所述基因互作网络获取关键节点基因和从属基因;
所述S11包括:
对任意两个基因表达数据,计算Spearman等级相关系数并进行统计检验和/或FDR校正;
根据所述统计检验过滤Spearman等级相关系数绝对值小于第一阈值和/或所述FDR校正后所述FDR大于第二阈值的基因对关系;
筛选至少与N个从属基因存在相关关系的基因作为关键节点基因,将每个关键节点基因与其从属基因之间的Spearman等级相关系数,作为该从属基因对关键节点基因的蛋白活性的所述贡献权重;
所述第一阈值为0.1,第二阈值为0.05,所述N为30;
所述计算所述关键节点基因在小分子干扰前后的蛋白活性,包括:
S21,基于所述基因互作网络以及单细胞基因表达矩阵计算每个细胞的所述关键节点基因的蛋白活性;
S22,基于所述基因互作网络以及小分子干扰下肿瘤细胞系基因表达矩阵计算每种小分子干扰下肿瘤细胞的所述关键节点基因的蛋白活性;
所述S21包括:
基于所述基因互作网络以及单细胞基因表达矩阵获得每个细胞的基因表达值,对每个细胞的基因表达值进行第一归一化处理获得归一化处理后的基因表达值,所述第一归一化处理为将每个细胞的所述基因表达值减去基因在所有细胞中的平均基因表达值后获得的差值除以基因在所有细胞中的基因表达值的标准差;
在每个细胞中,对所述归一化处理后的基因表达值进行排序,并基于标准正态分布,计算出相对于每个排序位置的分位数,作为该基因的表达分位数,所述表达分位数包括关键节点基因表达分位数和从属基因表达分位数;
针对每一个关键节点基因,将所有所述从属基因表达分位数和所述贡献权重乘积之和作为所述关键节点基因的蛋白活性;
对所有基因及所述归一化处理后的基因表达值进行M1次洗牌处理,为关键节点基因计算M1次假蛋白活性,形成零假设分布,并基于置换检验和FDR校正确定上述计算得到的关键节点基因蛋白活性在统计上是否显著;
所述S22包括:
基于所述基因互作网络以及小分子干扰下肿瘤细胞系基因表达矩阵获得每种小分子干扰下每个肿瘤细胞系的基因表达值,对每种小分子干扰下每个肿瘤细胞系的基因表达值进行第二归一化处理获得归一化处理后的小分子干扰下肿瘤细胞系的基因表达值,所述第二归一化处理为将每种小分子干扰下每个肿瘤细胞系的基因表达值减去基因在未经小分子干扰的肿瘤细胞系中的平均基因表达值后获得的差值除以基因在未经小分子干扰的肿瘤细胞系中的基因表达值的标准差;
在每个肿瘤细胞系中,对所述归一化处理后的小分子干扰下肿瘤细胞系的基因表达值进行排序,并基于标准正态分布,计算出相对于每个排序位置的分位数,作为该小分子干扰下肿瘤细胞系基因的表达分位数,所述表达分位数包括小分子干扰下关键节点基因表达分位数和小分子干扰下从属基因表达分位数;
针对每一个小分子干扰下关键节点基因,将所有小分子干扰下从属基因表达分位数和所述贡献权重乘积之和作为所述小分子干扰下关键节点基因的蛋白活性;
在每个肿瘤细胞系中,对所有基因及其归一化处理后的小分子干扰下肿瘤细胞系的基因表达值进行M2次洗牌处理,为所述小分子干扰下关键节点基因计算M2次假蛋白活性,形成零假设分布,并基于置换检验和FDR校正确定上述计算得到的小分子干扰下关键节点基因蛋白活性在统计上是否显著。
2.根据权利要求1所述的一种基于基因蛋白活性的小分子抗肿瘤效果鉴定方法,其特征在于,所述方法还包括:
S4,基于所述Fisher精确性检验定量计算所述小分子的抗肿瘤量化效果。
3.根据权利要求1所述的一种基于基因蛋白活性的小分子抗肿瘤效果鉴定方法,其特征在于,所述M1和M2均为1000。
4.根据权利要求2所述的一种基于基因蛋白活性的小分子抗肿瘤效果鉴定方法,其特征在于,所述S3包括:
S31,基于S21和S22获得的蛋白活性,分别按照所述蛋白活性从高到低的顺序将关键节点基因和小分子干扰下关键节点基因进行排序形成关键节点基因序列链和小分子干扰下关键节点基因序列链;
S32,在所述小分子干扰下关键节点基因序列链中,从第一个开始向后取第一数量高蛋白活性的小分子干扰下肿瘤细胞基因作为第一检测基因集;在所述关键节点基因序列链中,从最后一个开始向前取第二数量低蛋白活性的肿瘤细胞基因作为第一目标基因集;采用Fisher精确性检验以及多重检验校正检测所述第一检测基因集和所述第一目标基因集之间是否存在显著的交叠,如果经过Fisher精确性检验以及多重检验校正后,校正得到的第一FDR小于0.05且第一比值比大于1,那么认为所述第一检测基因集和所述第一目标基因集之间存在显著交叠;
S33,在所述小分子干扰下关键节点基因序列链中,从最后一个开始向前取第三数量低蛋白活性的小分子干扰下肿瘤细胞基因作为第二检测基因集;在所述关键节点基因序列链中,从第一个开始向后取第四数量高蛋白活性的肿瘤细胞基因作为第二目标基因集;采用Fisher精确性检验以及多重检验校正检测所述第二检测基因集和所述第二目标基因集之间是否存在显著的交叠,如果经过Fisher精确性检验以及多重检验校正后,校正得到的第二FDR小于0.05且第二比值比大于1,那么认为所述第二检测基因集和所述第二目标基因集之间存在显著交叠;
S34,如果S32和S33中的所述FDR均小于0.05且比值比均大于1,那么保留所述小分子,认为所述小分子可以逆转肿瘤细胞关键节点基因蛋白活性的静态图谱。
5.根据权利要求4所述的一种基于基因蛋白活性的小分子抗肿瘤效果鉴定方法,其特征在于,所述第一数量、第二数量、第三数量和第四数量均为100。
6.根据权利要求5所述的一种基于基因蛋白活性的小分子抗肿瘤效果鉴定方法,其特征在于,所述S4包括:
计算所述第二比值比和所述第一比值比的均值作为所述小分子的抗肿瘤量化效果。
7.一种基于基因蛋白活性的小分子抗肿瘤效果鉴定系统,用于实施如权利要求1-6任一所述的鉴定方法,其特征在于,包括:
关键节点基因提取模块(101),用于基于肿瘤细胞的基因表达数据,获取关键节点基因和从属基因,所述关键节点基因与多个从属基因存在相关关系,所述从属基因用于反映所述关键节点基因的蛋白活性;
蛋白活性计算模块(102),用于计算所述关键节点基因在小分子干扰前后的蛋白活性,获得对应小分子干扰前的所述蛋白活性的所述关键节点基因的蛋白活性静态图谱和小分子干扰后的所述蛋白活性的所述关键节点基因的蛋白活性变化图谱;
抗肿瘤效果确定模块(103),用于比较所述变化图谱和静态图谱,基于Fisher精确性检验以及多重检验校正确定所述小分子是否可以逆转肿瘤细胞的生理状态,并判断小分子对所述静态图谱的逆转效果以及所述小分子的抗肿瘤效果。
8.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1-6任一所述的鉴定方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1-6任一所述的鉴定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210830132.1A CN115019881B (zh) | 2022-07-15 | 2022-07-15 | 基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210830132.1A CN115019881B (zh) | 2022-07-15 | 2022-07-15 | 基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115019881A CN115019881A (zh) | 2022-09-06 |
CN115019881B true CN115019881B (zh) | 2022-10-21 |
Family
ID=83079941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210830132.1A Active CN115019881B (zh) | 2022-07-15 | 2022-07-15 | 基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019881B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108351915A (zh) * | 2015-08-28 | 2018-07-31 | 纽约市哥伦比亚大学信托人 | 通过调节子富集测定进行的蛋白质活性的虚拟推断 |
CN113470743A (zh) * | 2021-07-16 | 2021-10-01 | 哈尔滨星云医学检验所有限公司 | 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法 |
CN114426470A (zh) * | 2021-04-03 | 2022-05-03 | 兰州大学第一医院 | 人pcid2蛋白在制备或筛选抗肿瘤药物中的应用及具有抗肿瘤活性的化合物 |
CN114566219A (zh) * | 2022-03-16 | 2022-05-31 | 安徽建筑大学 | 一种融合基因调控特征的抗肿瘤药物药效预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12068059B2 (en) * | 2017-01-25 | 2024-08-20 | Whitehead Institute For Biomedical Research | Methods for building genomic networks and uses thereof |
CN114388063B (zh) * | 2021-12-31 | 2022-11-29 | 深圳承启生物科技有限公司 | 与肿瘤细胞恶性表型关联的非差异基因及其筛选方法和应用 |
-
2022
- 2022-07-15 CN CN202210830132.1A patent/CN115019881B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108351915A (zh) * | 2015-08-28 | 2018-07-31 | 纽约市哥伦比亚大学信托人 | 通过调节子富集测定进行的蛋白质活性的虚拟推断 |
CN114426470A (zh) * | 2021-04-03 | 2022-05-03 | 兰州大学第一医院 | 人pcid2蛋白在制备或筛选抗肿瘤药物中的应用及具有抗肿瘤活性的化合物 |
CN113470743A (zh) * | 2021-07-16 | 2021-10-01 | 哈尔滨星云医学检验所有限公司 | 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法 |
CN114566219A (zh) * | 2022-03-16 | 2022-05-31 | 安徽建筑大学 | 一种融合基因调控特征的抗肿瘤药物药效预测方法 |
Non-Patent Citations (4)
Title |
---|
Identification of 37 Heterogeneous Drug Candidates for Treatment of COVID-19 via a Rational Transcriptomics-Based Drug Repurposing Approach;Andrea Gelemanović 等;《Pharmaceuticals》;20210125;第14卷(第02期);第87页 * |
LINCS――面向转化医学的细胞反应大数据计划;黄昕等;《生物化学与生物物理进展》;20171120(第11期);第1041-1045页 * |
The anticancer effect of mebendazole may be due to M1 monocyte/macrophage activation via ERK1/2 and TLR8-dependent inflammasome activation;Blom K 等;《Immunopharmacology and Immunotoxicology》;20170504;第39卷(第04期);第199-210页 * |
急慢性特发性血小板减少性紫癜患儿的差异表达基因特征及交互作用网络分析;任晓梅等;《中国医学科学院学报》;20180430(第02期);第93-100页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115019881A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Talavera et al. | Covariation is a poor measure of molecular coevolution | |
Carvalho et al. | Quantifying uncertainty in genotype calls | |
RU2654575C2 (ru) | Способ и устройство для детектирования хромосомных структурных аномалий | |
CN105986008A (zh) | Cnv检测方法和装置 | |
CN112634987B (zh) | 一种单样本肿瘤dna拷贝数变异检测的方法和装置 | |
CN113140258A (zh) | 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法 | |
CN114317532B (zh) | 用于预测白血病预后的评估基因集、试剂盒、系统及应用 | |
Miao et al. | ASElux: an ultra-fast and accurate allelic reads counter | |
CN110322926A (zh) | miRNA海绵模块的识别方法和装置 | |
CN115019881B (zh) | 基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统 | |
Maind et al. | Identifying condition specific key genes from basal-like breast cancer gene expression data | |
He et al. | Rpd3 regulates single-copy origins independently of the rDNA array by opposing Fkh1-mediated origin stimulation | |
Yang et al. | A systematic comparison of normalization methods for eQTL analysis | |
CN117153258A (zh) | 校正测序数据、检测染色体非整倍体的方法和装置 | |
Biswas et al. | Biological averaging in RNA-seq | |
CN108715891B (zh) | 一种转录组数据的表达定量方法及系统 | |
CN114694752B (zh) | 预测同源重组修复缺陷的方法、计算设备和介质 | |
CN114171118B (zh) | 用于无创基因检测的数据处理方法和装置 | |
Szymczak et al. | Detecting SNP‐expression associations: A comparison of mutual information and median test with standard statistical approaches | |
CN109390039B (zh) | 一种统计dna拷贝数信息的方法、装置及存储介质 | |
KR20160010285A (ko) | 약물 반응 유전자 발현 특성을 이용한 약물 재창출 방법 | |
CN110706748A (zh) | 一种竞争性内源rna网络调控分析系统和方法 | |
CN116312781B (zh) | 一种基于机器学习的基因组不稳定性评估方法及系统 | |
EP4297037A1 (en) | Device for determining an indicator of presence of hrd in a genome of a subject | |
CN116453593B (zh) | 一种细胞状态特征分值的获取方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |