CN114566219A - 一种融合基因调控特征的抗肿瘤药物药效预测方法 - Google Patents

一种融合基因调控特征的抗肿瘤药物药效预测方法 Download PDF

Info

Publication number
CN114566219A
CN114566219A CN202210256237.0A CN202210256237A CN114566219A CN 114566219 A CN114566219 A CN 114566219A CN 202210256237 A CN202210256237 A CN 202210256237A CN 114566219 A CN114566219 A CN 114566219A
Authority
CN
China
Prior art keywords
gene
sample
fusion
expression
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210256237.0A
Other languages
English (en)
Inventor
谢新平
王观福
王红强
张蕾
朱伟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Jianzhu University
Original Assignee
Anhui Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Jianzhu University filed Critical Anhui Jianzhu University
Priority to CN202210256237.0A priority Critical patent/CN114566219A/zh
Publication of CN114566219A publication Critical patent/CN114566219A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种融合基因调控特征的抗肿瘤药物药效预测方法,与现有技术相比解决了难以针对抗肿瘤药物药效进行有效预测的缺陷。本发明包括以下步骤:样本数据的获取;构建细胞‑基因融合调控网络图谱;基因调控融合表达表征的计算;SVM二类分类器的训练;抗肿瘤药物药效的预测。本发明有效挖掘药物响应基因调控特征,通过融合基因调控特征,不仅解决了基因高通量数据的高维性,还提高了肿瘤细胞药物敏感性预测性能。

Description

一种融合基因调控特征的抗肿瘤药物药效预测方法
技术领域
本发明涉及药物数据敏感性检测与评估技术领域,具体来说是一种融合基因调控特征的抗肿瘤药物药效预测方法。
背景技术
预测肿瘤细胞对抗肿瘤药物的反应是精准医疗的一个研究热点。基因组测序技术的快速进步和生物信息与大数据科学的发展,使用高通量基因组测序数据研究药物对癌症的敏感性为新型临床药物研发提供新途径。
然而,大多数现有方法主要基于癌细胞的基因组相似性,忽略了基因之间的调控关系,导致不能很好的预测抗肿瘤药物的药效。现有技术中,比较典型的两种方法就是Stanfield、Zhang等人提出的方法。Stanfield等人构建了一个异构网络来计算细胞株和药物的网络图谱,然后根据网络图谱进行随机游走来预测细胞株和药物之间的联系;Zhang等人构建了细胞株与药物之间的双层网络,结合细胞株与药物之间的相似性,利用加权模型预测抗肿瘤药物反应。
发明内容
本发明的目的是为了解决现有技术中难以针对抗肿瘤药物药效进行有效预测的缺陷,提供一种融合基因调控特征的抗肿瘤药物药效预测方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种融合基因调控特征的抗肿瘤药物药效预测方法,包括以下步骤:
11)样本数据的获取:获取样本数据,其包括训练数据样本集、待测肿瘤细胞样本y以及基因调控网络图谱G,训练数据样本集包括含N个肿瘤细胞样本的基因表达谱及其药效标签,其中,药效标签为敏感或耐药;
12)构建细胞-基因融合调控网络图谱:将训练数据样本集和待测肿瘤细胞样本y作为肿瘤细胞节点与基因调控网络图谱G相融合,构建出细胞-基因融合调控网络图谱;
13)基因调控融合表达表征的计算:利用知识图谱嵌入技术计算所有肿瘤细胞样本的基因调控融合表达表征;
14)SVM二类分类器的训练:基于训练样本的基因调控融合表达表征训练药物SVM二类分类器;
15)抗肿瘤药物药效的预测:使用SVM二分类器基于待测肿瘤细胞的基因调控融合表达表征预测待测肿瘤细胞与药物敏感性关系,实现抗肿瘤药物药效的预测。
所述构建细胞-基因融合调控网络图谱包括以下步骤:
21)将训练数据样本集和待测肿瘤细胞样本y归集为取样集合,从取样集合中选取一个肿瘤细胞样本,拟合其基因表达谱的负二项分布;
22)针对基因表达谱的负二项分布的表达式,将其大于负二项分布第三、四分位数及小于第一、四分位数的基因作为其特征基因;
23)将特征基因与肿瘤细胞样本相连接;
24)对取样集合重复21)至23)步,训练数据样本集和待测肿瘤细胞样本y的肿瘤细胞作为节点与基因调控网络图谱相融合,最终获得细胞-基因融合调控网络图谱。
所述基因调控融合表达表征的计算包括以下步骤:
31)抽取细胞-基因融合调控网络图谱中的正三元组集合,正三元组集合中的每个三元组包括头部基因或头部肿瘤细胞节点、正负向调控关系或基因在肿瘤细胞上的欠或过表达关系、尾部基因或尾部肿瘤细胞节点;
32)以k=100-500维向量初始化肿瘤细胞和基因节点,以及正负向调控关系或基因在肿瘤细胞上的欠或过表达关系的调控融合特征表示,其表达式如下:
Figure BDA0003548610460000021
Figure BDA0003548610460000022
其中,
Figure BDA0003548610460000023
表示初始化肿瘤细胞节点d向量,
Figure BDA0003548610460000024
表示初始化基因节点a向量,Q表示节点数目,H表示边的数目,以及
Figure BDA0003548610460000031
33)对负三元组采样,随机替换三元组集合的尾部基因或尾部肿瘤细胞,并保证替换前后不相同,具体步骤如下:
对生成的负三元组样本进行过滤,如果它是细胞-基因融合网络图谱中的正三元组样本,那就不将其作为负三元组样本,并计算负三元组样本的重要性,其表达式如下:
Figure BDA0003548610460000032
其中,p'j=||h'+r-o'||,h'j表示负三元组样本j头部基因或头部肿瘤细胞的向量表示、o’j表示负三元组样本j尾部基因或尾部肿瘤细胞的向量表示、r表示负三元组样本j正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示,{hl,rl,ol}表示负三元组样本集合,∑iexpαpl(h’l,o’l)表示负三元组样本集合每个三元组打分后的总和,α是一个常数,代表采样率,g(h'j,r,o'j|{hl,rl,ol})表示第j个负三元组样本的权重;
34)对31)步骤中正三元组和33)步骤所获得的负三元组进行打分计算总的损失误差Loss,其表达式如下:
Figure BDA0003548610460000033
其中,pi=g·||h+r-o||,||h||≤1,||r||≤1,||o||≤1,g是三元组样本i的权重,如果是正三元组样本,权重为1,如果是负三元组样本,权重为g(h’i,r,o’i|{hl,rl,ol}),pi是对三元组样本i的进行打分得到的分数,h表示三元组样本i头部基因或头部肿瘤细胞的向量表示,o表示三元组样本i尾部基因或尾部肿瘤细胞的向量表示,r表示三元组样本i正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示,M表示全部的三元组样本数,即正三元组样本数加上负三元组样本数,ti是三元组样本i的标签,即给定三元组样本,三元组为真时,对应标签为0,三元组为假时,对应标签为1;
35)使用Adam优化算法更新所有节点和边的调控融合特征表示,其表达式如下;
Figure BDA0003548610460000041
Figure BDA0003548610460000042
其中,
Figure BDA0003548610460000043
Figure BDA0003548610460000044
分别节点vd和边ej的更新后的调控融合特征表示,
d=1,2,...,Q,a=1,2,...,H;
36)重复33)-35)步骤至损失函数收敛,获得所有训练样本和待测样本的最优基因调控融合表达表征,如下:
Embeds=(m1,m2,...mk),
Embedy=(z1,z2,...,zk),
其中,Embeds表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征,mi表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征第i维度上的值,s=1、2、...、N;Embedy表示待测样本y的基因调控融合表达表征,zi表示待测样本y的基因调控融合表达表征第i维度上的值。
所述SVM二类分类器的训练包括以下步骤:
41)使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入,标签作为输出,采用五重交叉验证的方式,寻找SVM最佳的超参数设置,其中标签包括敏感为1、耐药为0;
42)SVM采用最佳的超参数,使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入,标签作为输出,训练药物SVM二分类器,其中标签包括敏感为1、耐药为0。
所述抗肿瘤药物药效的预测包括以下步骤:
51)基于训练后的SVM二分类器,将待测肿瘤细胞样本y的基因调控融合表达表征Embedy作为特征输入;
52)输出待测肿瘤细胞与药物敏感性关系,其中敏感为1、耐药为0;
Figure BDA0003548610460000045
SVM二分类器建立的超平面将基因调控融合特征空间划分成了两部分,敏感Tsensitive和耐药Tresistance
如果待预测的肿瘤细胞的基因调控融合特征属于Tsensitive,则输出1,表示对该药物敏感;如果待预测的肿瘤细胞的基因调控融合特征不属于Tsensitive,则输出0,表示对该药物耐药。
有益效果
本发明的一种融合基因调控特征的抗肿瘤药物药效预测方法,与现有技术相比有效挖掘药物响应基因调控特征,通过融合基因调控特征,不仅解决了基因高通量数据的高维性,还提高了肿瘤细胞药物敏感性预测性能。
附图说明
图1为本发明的方法顺序图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种融合基因调控特征的抗肿瘤药物药效预测方法,包括以下步骤:
第一步,样本数据的获取。获取样本数据,其包括训练数据样本集、待测肿瘤细胞样本y以及基因调控网络图谱G,训练数据样本集包括含N个肿瘤细胞样本的基因表达谱及其药效标签,其中,药效标签为敏感或耐药。
第二步,构建细胞-基因融合调控网络图谱。将训练数据样本集和待测肿瘤细胞样本y作为肿瘤细胞节点与基因调控网络图谱G相融合,构建出细胞-基因融合调控网络图谱。通过将基因表达值高和低的基因作为其特征基因,可以获取更多的肿瘤细胞之间的基因表达区别信息。其具体步骤如下:
(1)将训练数据样本集和待测肿瘤细胞样本y归集为取样集合,从取样集合中选取一个肿瘤细胞样本,拟合其基因表达谱的负二项分布。(训练数据样本集有600个肿瘤细胞,待测肿瘤细胞样本有1个,总共601个肿瘤细胞样本,训练数据样本集肿瘤细胞和待测肿瘤细胞样本共同构成一个集合,形成取样集合)
(2)针对基因表达谱进行负二项分布参数拟合,将其大于负二项分布第三、四分位数及小于第一、四分位数的基因作为其特征基因。(X-NB(r;P),其中X表示基因表达谱的负二项分布,r和P表示负二项分布的两个参数)
(3)特征基因与肿瘤细胞样本之间用一条边相连接,大于负二项分布第三、四分位数的特征基因与肿瘤细胞样本形成的边称为up_expr;小于第一、四分位数的特征基因与肿瘤细胞样本形成的边称为down_expr。
(4)对取样集合重复(1)至(3)步,训练数据样本集和待测肿瘤细胞样本y的肿瘤细胞作为节点与基因调控网络图谱相融合,最终获得细胞-基因融合调控网络图谱。
第三步,基因调控融合表达表征的计算。利用知识图谱嵌入技术计算所有肿瘤细胞样本的基因调控融合表达表征。
通过细胞-基因融合调控网络图谱,在该网络中,包含基因调控信息和基因表达信息,特征相似的肿瘤细胞节点会靠得很近;而特征的差异较大肿瘤细胞则会离得很远,因此会有较大差异的低维特征向量。通过知识图谱嵌入技术,得到的细胞向量表示可以学习到基因调控信息和基因表达信息,并且特征相似的肿瘤细胞节点会靠得很近,因此会有相似的低维特征向量;而特征的差异较大肿瘤细胞则会离得很远,因此会有差别较大的低维特征向量,进而提高药效预测效果。由于细胞-基因融合调控网络图谱是一个有着庞大节点数量的网络,生成其三元组集合具有挑战性,并且生成的三元组集合数据量也很大,使用知识图谱嵌入技术来得到的肿瘤细胞的基因调控融合表达表征,对计算机的内存要求较大。同时,负采样方式对最终得到的基因调控融合表达表征的优劣会有影响,选择合理的负采样方式也是必要的。
基因调控融合表达表征的计算具体步骤如下:
(1)抽取细胞-基因融合调控网络图谱中的正三元组集合,正三元组集合中的每个三元组包括头部基因或头部肿瘤细胞节点、正负向调控关系或基因在肿瘤细胞上的欠或过表达关系、尾部基因或尾部肿瘤细胞节点。
(2)以k=100-500维向量初始化肿瘤细胞和基因节点,以及正负向调控关系或基因在肿瘤细胞上的欠或过表达关系的调控融合特征表示,其表达式如下:
Figure BDA0003548610460000071
Figure BDA0003548610460000072
其中,
Figure BDA0003548610460000073
表示初始化肿瘤细胞节点d向量,
Figure BDA0003548610460000074
表示初始化基因节点a向量,Q表示节点数目,H表示边的数目,以及
Figure BDA0003548610460000075
(3)随机替换三元组的尾部基因或尾部肿瘤细胞,并保证替换前后不相同。为了避免出现生成的负三元组真实存在于细胞-基因融合网络图谱中的情况,对生成的负三元组样本进行过滤,如果它是细胞-基因融合网络图谱中的正三元组样本,那就不把它作为负三元组样本。
对负三元组采样,随机替换三元组集合的尾部基因或尾部肿瘤细胞,并保证替换前后不相同,具体步骤如下:
对生成的负三元组样本进行过滤,如果它是细胞-基因融合网络图谱中的正三元组样本,那就不把它作为负三元组样本,并计算负三元组样本的重要性,其表达式如下:
Figure BDA0003548610460000076
其中,p'j=||h'+r-o'||,h'j表示负三元组样本j头部基因或头部肿瘤细胞的向量表示、o’j表示负三元组样本j尾部基因或尾部肿瘤细胞的向量表示、r表示负三元组样本j正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示,{hl,rl,ol}表示负三元组样本集合,∑iexpαpl(h’l,o’l)表示负三元组样本集合每个三元组打分后的总和,α是一个常数,代表采样率,g(h'j,r,o'j|{hl,rl,ol})表示第j个负三元组样本的权重。
(4)对步骤(1)中正三元组和步骤(3)所获得的负三元组进行打分计算总的损失误差Loss,其表达式如下:
Figure BDA0003548610460000077
其中,pi=g·||h+r-o||,||h||≤1,||r||≤1,||o||≤1,g是三元组样本i的权重,如果是正三元组样本,权重为1,如果是负三元组样本,权重为g(h’i,r,o’i|{hl,rl,ol}),pi是对三元组样本i的进行打分得到的分数,h表示三元组样本i头部基因或头部肿瘤细胞的向量表示、o表示三元组样本i尾部基因或尾部肿瘤细胞的向量表示、r表示三元组样本i正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示,M表示全部的三元组样本数,即正三元组样本数加上负三元组样本数,ti是三元组样本i的标签,即给定三元组样本,三元组为真时,对应标签为0,三元组为假时,对应标签为1。
(5)使用Adam优化算法更新所有节点和边的调控融合特征表示,其表达式如下;
Figure BDA0003548610460000081
Figure BDA0003548610460000082
其中
Figure BDA0003548610460000083
分别节点vd和边ej的更新后的调控融合特征表示,d=1,2,...,Q,a=1,2,...,H。
(6)重复(3)-(5)步骤至损失函数收敛,获得所有训练样本和待测样本的最优基因调控融合表达表征,如下:
Embeds=(m1,m2,...mk),
Embedy=(z1,z2,...,zk),
其中,Embeds表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征,mi表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征第i维度上的值,s=1,2,...,N;Embedy表示待测样本y的基因调控融合表达表征,zi表示待测样本y的基因调控融合表达表征第i维度上的值。
第四步,SVM二类分类器的训练:基于训练样本的基因调控融合表达表征训练药物SVM二类分类器。
(1)使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入,标签作为输出,采用五重交叉验证的方式,寻找SVM最佳的超参数设置,其中标签包括敏感为1、耐药为0。
(2)SVM采用最佳的超参数,使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入,标签作为输出,训练药物SVM二分类器,其中标签包括敏感为1、耐药为0。
第五步,抗肿瘤药物药效的预测:使用SVM二分类器基于待测肿瘤细胞的基因调控融合表达表征预测待测肿瘤细胞与药物敏感性关系,实现抗肿瘤药物药效的预测。
(1)基于训练后的SVM二分类器,将待测肿瘤细胞样本y的基因调控融合表达表征Embedy作为特征输入。
(2)输出待测肿瘤细胞与药物敏感性关系,其中敏感为1、耐药为0;
Figure BDA0003548610460000091
SVM二分类器建立的超平面将基因调控融合特征空间划分成了两部分,敏感Tsensitive和耐药Tresistance
如果待预测的肿瘤细胞的基因调控融合特征属于Tsensitive,则输出1,表示对该药物敏感;如果待预测的肿瘤细胞的基因调控融合特征不属于Tsensitive,则输出0,表示对该药物耐药。
如表1所示,其展示了本方法与Stanfield、Zhang等人提出的方法在三种药物上的AUC值对比。
表1三种方法的AUC值对比表
Figure BDA0003548610460000092
从表1中可以看出,本发明的方法相对于Stanfield、Zhang等人提出的方法在该三种药物上的敏感性预测性能都更好。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (5)

1.一种融合基因调控特征的抗肿瘤药物药效预测方法,其特征在于,包括以下步骤:
11)样本数据的获取:获取样本数据,其包括训练数据样本集、待测肿瘤细胞样本y以及基因调控网络图谱G,训练数据样本集包括含N个肿瘤细胞样本的基因表达谱及其药效标签,其中,药效标签为敏感或耐药;
12)构建细胞-基因融合调控网络图谱:将训练数据样本集和待测肿瘤细胞样本y作为肿瘤细胞节点与基因调控网络图谱G相融合,构建出细胞-基因融合调控网络图谱;
13)基因调控融合表达表征的计算:利用知识图谱嵌入技术计算所有肿瘤细胞样本的基因调控融合表达表征;
14)SVM二类分类器的训练:基于训练样本的基因调控融合表达表征训练药物SVM二类分类器;
15)抗肿瘤药物药效的预测:使用SVM二分类器基于待测肿瘤细胞的基因调控融合表达表征预测待测肿瘤细胞与药物敏感性关系,实现抗肿瘤药物药效的预测。
2.根据权利要求1所述的一种融合基因调控特征的抗肿瘤药物药效预测方法,其特征在于,所述构建细胞-基因融合调控网络图谱包括以下步骤:
21)将训练数据样本集和待测肿瘤细胞样本y归集为取样集合,从取样集合中选取一个肿瘤细胞样本,拟合其基因表达谱的负二项分布;
22)针对基因表达谱的负二项分布的表达式,将其大于负二项分布第三、四分位数及小于第一、四分位数的基因作为其特征基因;
23)将特征基因与肿瘤细胞样本相连接;
24)对取样集合重复21)至23)步,训练数据样本集和待测肿瘤细胞样本y的肿瘤细胞作为节点与基因调控网络图谱相融合,最终获得细胞-基因融合调控网络图谱。
3.根据权利要求1所述的一种融合基因调控特征的抗肿瘤药物药效预测方法,其特征在于,所述基因调控融合表达表征的计算包括以下步骤:
31)抽取细胞-基因融合调控网络图谱中的正三元组集合,正三元组集合中的每个三元组包括头部基因或头部肿瘤细胞节点、正负向调控关系或基因在肿瘤细胞上的欠或过表达关系、尾部基因或尾部肿瘤细胞节点;
32)以k=100-500维向量初始化肿瘤细胞和基因节点,以及正负向调控关系或基因在肿瘤细胞上的欠或过表达关系的调控融合特征表示,其表达式如下:
Figure FDA0003548610450000021
Figure FDA0003548610450000022
其中,
Figure FDA0003548610450000023
表示初始化肿瘤细胞节点d向量,
Figure FDA0003548610450000024
表示初始化基因节点a向量,Q表示节点数目,H表示边的数目,以及
Figure FDA0003548610450000025
33)对负三元组采样,随机替换三元组集合的尾部基因或尾部肿瘤细胞,并保证替换前后不相同,具体步骤如下:
对生成的负三元组样本进行过滤,如果它是细胞-基因融合网络图谱中的正三元组样本,那就不将其作为负三元组样本,并计算负三元组样本的重要性,其表达式如下:
Figure FDA0003548610450000026
其中,p'j=||h'+r-o'||,h'j表示负三元组样本j头部基因或头部肿瘤细胞的向量表示、o′j表示负三元组样本j尾部基因或尾部肿瘤细胞的向量表示、r表示负三元组样本j正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示,{hl,rl,ol}表示负三元组样本集合,∑iexpαpl(h′l,o′l)表示负三元组样本集合每个三元组打分后的总和,α是一个常数,代表采样率,g(h'j,r,o'j|{hl,rl,ol})表示第j个负三元组样本的权重;
34)对31)步骤中正三元组和33)步骤所获得的负三元组进行打分计算总的损失误差Loss,其表达式如下:
Figure FDA0003548610450000027
其中,pi=g·||h+r-o||,||h||≤1,||r||≤1,||o||≤1,g是三元组样本i的权重,如果是正三元组样本,权重为1,如果是负三元组样本,权重为g(h′i,r,o′i|{hl,rl,ol}),pi是对三元组样本i的进行打分得到的分数,h表示三元组样本i头部基因或头部肿瘤细胞的向量表示,o表示三元组样本i尾部基因或尾部肿瘤细胞的向量表示,r表示三元组样本i正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示,M表示全部的三元组样本数,即正三元组样本数加上负三元组样本数,ti是三元组样本i的标签,即给定三元组样本,三元组为真时,对应标签为0,三元组为假时,对应标签为1;
35)使用Adam优化算法更新所有节点和边的调控融合特征表示,其表达式如下;
Figure FDA0003548610450000031
Figure FDA0003548610450000032
其中,
Figure FDA0003548610450000033
Figure FDA0003548610450000034
分别节点vd和边ej的更新后的调控融合特征表示,
d=1,2,...,Q,a=1,2,...,H;
36)重复33)-35)步骤至损失函数收敛,获得所有训练样本和待测样本的最优基因调控融合表达表征,如下:
Embeds=(m1,m2,...mk),
Embedy=(z1,z2,...,zk),
其中,Embeds表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征,mi表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征第i维度上的值,s=1、2、...、N;Embedy表示待测样本y的基因调控融合表达表征,zi表示待测样本y的基因调控融合表达表征第i维度上的值。
4.根据权利要求1所述的一种融合基因调控特征的抗肿瘤药物药效预测方法,其特征在于,所述SVM二类分类器的训练包括以下步骤:
41)使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入,标签作为输出,采用五重交叉验证的方式,寻找SVM最佳的超参数设置,其中标签包括敏感为1、耐药为0;
42)SVM采用最佳的超参数,使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入,标签作为输出,训练药物SVM二分类器,其中标签包括敏感为1、耐药为0。
5.根据权利要求1所述的一种融合基因调控特征的抗肿瘤药物药效预测方法,其特征在于,所述抗肿瘤药物药效的预测包括以下步骤:
51)基于训练后的SVM二分类器,将待测肿瘤细胞样本y的基因调控融合表达表征Embedy作为特征输入;
52)输出待测肿瘤细胞与药物敏感性关系,其中敏感为1、耐药为0;
Figure FDA0003548610450000041
SVM二分类器建立的超平面将基因调控融合特征空间划分成了两部分,敏感Tsensitive和耐药Tresistance
如果待预测的肿瘤细胞的基因调控融合特征属于Tsensitive,则输出1,表示对该药物敏感;如果待预测的肿瘤细胞的基因调控融合特征不属于Tsensitive,则输出0,表示对该药物耐药。
CN202210256237.0A 2022-03-16 2022-03-16 一种融合基因调控特征的抗肿瘤药物药效预测方法 Withdrawn CN114566219A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210256237.0A CN114566219A (zh) 2022-03-16 2022-03-16 一种融合基因调控特征的抗肿瘤药物药效预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210256237.0A CN114566219A (zh) 2022-03-16 2022-03-16 一种融合基因调控特征的抗肿瘤药物药效预测方法

Publications (1)

Publication Number Publication Date
CN114566219A true CN114566219A (zh) 2022-05-31

Family

ID=81720280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210256237.0A Withdrawn CN114566219A (zh) 2022-03-16 2022-03-16 一种融合基因调控特征的抗肿瘤药物药效预测方法

Country Status (1)

Country Link
CN (1) CN114566219A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019881A (zh) * 2022-07-15 2022-09-06 普瑞基准科技(北京)有限公司 基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019881A (zh) * 2022-07-15 2022-09-06 普瑞基准科技(北京)有限公司 基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统
CN115019881B (zh) * 2022-07-15 2022-10-21 普瑞基准科技(北京)有限公司 基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统

Similar Documents

Publication Publication Date Title
US11804285B2 (en) Hilbert-cnn: ai-driven convolutional neural networks with conversion data of genome for biomarker discovery
Momeni et al. A survey on single and multi omics data mining methods in cancer data classification
WO2023134296A1 (zh) 分类预测方法, 装置, 设备, 存储介质及计算机程序产品
CN112069929A (zh) 一种无监督行人重识别方法、装置、电子设备及存储介质
CN109448787B (zh) 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
CN111986811A (zh) 一种基于大数据的疾病预测系统
US20210332354A1 (en) Systems and methods for identifying differential accessibility of gene regulatory elements at single cell resolution
WO2015173435A1 (en) Method for predicting a phenotype from a genotype
González et al. Predicting domain-domain interaction based on domain profiles with feature selection and support vector machines
WO2019128460A1 (zh) 图像显著性检测方法和装置
CN113591915B (zh) 基于半监督学习和单分类支持向量机的异常流量识别方法
CN110111840A (zh) 一种体细胞突变检测方法
CN114566219A (zh) 一种融合基因调控特征的抗肿瘤药物药效预测方法
CN113903395A (zh) 一种改进粒子群优化的bp神经网络拷贝数变异检测方法与系统
CN109933619A (zh) 一种半监督分类预测方法
CN111429970B (zh) 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统
Dougherty et al. Validation of computational methods in genomics
CN117422704A (zh) 一种基于多模态数据的癌症预测方法、系统及设备
CN115019891A (zh) 一种基于半监督图神经网络的个体驱动基因预测方法
CN115985503A (zh) 基于集成学习的癌症预测系统
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
Halawani et al. Deep learning exploration of single-cell and spatially resolved cancer transcriptomics to unravel tumour heterogeneity
Li et al. FUNMarker: Fusion network-based method to identify prognostic and heterogeneous breast cancer biomarkers
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
CN116228759B (zh) 肾细胞癌类型的计算机辅助诊断系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220531