CN114566219A - 一种融合基因调控特征的抗肿瘤药物药效预测方法 - Google Patents
一种融合基因调控特征的抗肿瘤药物药效预测方法 Download PDFInfo
- Publication number
- CN114566219A CN114566219A CN202210256237.0A CN202210256237A CN114566219A CN 114566219 A CN114566219 A CN 114566219A CN 202210256237 A CN202210256237 A CN 202210256237A CN 114566219 A CN114566219 A CN 114566219A
- Authority
- CN
- China
- Prior art keywords
- gene
- sample
- fusion
- expression
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 130
- 230000033228 biological regulation Effects 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000002246 antineoplastic agent Substances 0.000 title claims abstract description 22
- 229940041181 antineoplastic drug Drugs 0.000 title claims abstract description 22
- 230000000857 drug effect Effects 0.000 title claims abstract description 18
- 210000004881 tumor cell Anatomy 0.000 claims abstract description 115
- 230000004927 fusion Effects 0.000 claims abstract description 83
- 230000014509 gene expression Effects 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 44
- 239000003814 drug Substances 0.000 claims abstract description 41
- 229940079593 drug Drugs 0.000 claims abstract description 27
- 230000035945 sensitivity Effects 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 31
- 238000012706 support-vector machine Methods 0.000 claims description 29
- 230000001105 regulatory effect Effects 0.000 claims description 26
- 238000012512 characterization method Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 17
- 206010059866 Drug resistance Diseases 0.000 claims description 12
- 230000002018 overexpression Effects 0.000 claims description 12
- 230000009452 underexpressoin Effects 0.000 claims description 12
- 230000003828 downregulation Effects 0.000 claims description 9
- 230000003827 upregulation Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000003285 pharmacodynamic effect Effects 0.000 claims description 6
- 230000000259 anti-tumor effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 6
- 206010028980 Neoplasm Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012268 genome sequencing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 1
- 229940121657 clinical drug Drugs 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种融合基因调控特征的抗肿瘤药物药效预测方法,与现有技术相比解决了难以针对抗肿瘤药物药效进行有效预测的缺陷。本发明包括以下步骤:样本数据的获取;构建细胞‑基因融合调控网络图谱;基因调控融合表达表征的计算;SVM二类分类器的训练;抗肿瘤药物药效的预测。本发明有效挖掘药物响应基因调控特征,通过融合基因调控特征,不仅解决了基因高通量数据的高维性,还提高了肿瘤细胞药物敏感性预测性能。
Description
技术领域
本发明涉及药物数据敏感性检测与评估技术领域,具体来说是一种融合基因调控特征的抗肿瘤药物药效预测方法。
背景技术
预测肿瘤细胞对抗肿瘤药物的反应是精准医疗的一个研究热点。基因组测序技术的快速进步和生物信息与大数据科学的发展,使用高通量基因组测序数据研究药物对癌症的敏感性为新型临床药物研发提供新途径。
然而,大多数现有方法主要基于癌细胞的基因组相似性,忽略了基因之间的调控关系,导致不能很好的预测抗肿瘤药物的药效。现有技术中,比较典型的两种方法就是Stanfield、Zhang等人提出的方法。Stanfield等人构建了一个异构网络来计算细胞株和药物的网络图谱,然后根据网络图谱进行随机游走来预测细胞株和药物之间的联系;Zhang等人构建了细胞株与药物之间的双层网络,结合细胞株与药物之间的相似性,利用加权模型预测抗肿瘤药物反应。
发明内容
本发明的目的是为了解决现有技术中难以针对抗肿瘤药物药效进行有效预测的缺陷,提供一种融合基因调控特征的抗肿瘤药物药效预测方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种融合基因调控特征的抗肿瘤药物药效预测方法,包括以下步骤:
11)样本数据的获取:获取样本数据,其包括训练数据样本集、待测肿瘤细胞样本y以及基因调控网络图谱G,训练数据样本集包括含N个肿瘤细胞样本的基因表达谱及其药效标签,其中,药效标签为敏感或耐药;
12)构建细胞-基因融合调控网络图谱:将训练数据样本集和待测肿瘤细胞样本y作为肿瘤细胞节点与基因调控网络图谱G相融合,构建出细胞-基因融合调控网络图谱;
13)基因调控融合表达表征的计算:利用知识图谱嵌入技术计算所有肿瘤细胞样本的基因调控融合表达表征;
14)SVM二类分类器的训练:基于训练样本的基因调控融合表达表征训练药物SVM二类分类器;
15)抗肿瘤药物药效的预测:使用SVM二分类器基于待测肿瘤细胞的基因调控融合表达表征预测待测肿瘤细胞与药物敏感性关系,实现抗肿瘤药物药效的预测。
所述构建细胞-基因融合调控网络图谱包括以下步骤:
21)将训练数据样本集和待测肿瘤细胞样本y归集为取样集合,从取样集合中选取一个肿瘤细胞样本,拟合其基因表达谱的负二项分布;
22)针对基因表达谱的负二项分布的表达式,将其大于负二项分布第三、四分位数及小于第一、四分位数的基因作为其特征基因;
23)将特征基因与肿瘤细胞样本相连接;
24)对取样集合重复21)至23)步,训练数据样本集和待测肿瘤细胞样本y的肿瘤细胞作为节点与基因调控网络图谱相融合,最终获得细胞-基因融合调控网络图谱。
所述基因调控融合表达表征的计算包括以下步骤:
31)抽取细胞-基因融合调控网络图谱中的正三元组集合,正三元组集合中的每个三元组包括头部基因或头部肿瘤细胞节点、正负向调控关系或基因在肿瘤细胞上的欠或过表达关系、尾部基因或尾部肿瘤细胞节点;
32)以k=100-500维向量初始化肿瘤细胞和基因节点,以及正负向调控关系或基因在肿瘤细胞上的欠或过表达关系的调控融合特征表示,其表达式如下:
33)对负三元组采样,随机替换三元组集合的尾部基因或尾部肿瘤细胞,并保证替换前后不相同,具体步骤如下:
对生成的负三元组样本进行过滤,如果它是细胞-基因融合网络图谱中的正三元组样本,那就不将其作为负三元组样本,并计算负三元组样本的重要性,其表达式如下:
其中,p'j=||h'+r-o'||,h'j表示负三元组样本j头部基因或头部肿瘤细胞的向量表示、o’j表示负三元组样本j尾部基因或尾部肿瘤细胞的向量表示、r表示负三元组样本j正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示,{hl,rl,ol}表示负三元组样本集合,∑iexpαpl(h’l,o’l)表示负三元组样本集合每个三元组打分后的总和,α是一个常数,代表采样率,g(h'j,r,o'j|{hl,rl,ol})表示第j个负三元组样本的权重;
34)对31)步骤中正三元组和33)步骤所获得的负三元组进行打分计算总的损失误差Loss,其表达式如下:
其中,pi=g·||h+r-o||,||h||≤1,||r||≤1,||o||≤1,g是三元组样本i的权重,如果是正三元组样本,权重为1,如果是负三元组样本,权重为g(h’i,r,o’i|{hl,rl,ol}),pi是对三元组样本i的进行打分得到的分数,h表示三元组样本i头部基因或头部肿瘤细胞的向量表示,o表示三元组样本i尾部基因或尾部肿瘤细胞的向量表示,r表示三元组样本i正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示,M表示全部的三元组样本数,即正三元组样本数加上负三元组样本数,ti是三元组样本i的标签,即给定三元组样本,三元组为真时,对应标签为0,三元组为假时,对应标签为1;
35)使用Adam优化算法更新所有节点和边的调控融合特征表示,其表达式如下;
d=1,2,...,Q,a=1,2,...,H;
36)重复33)-35)步骤至损失函数收敛,获得所有训练样本和待测样本的最优基因调控融合表达表征,如下:
Embeds=(m1,m2,...mk),
Embedy=(z1,z2,...,zk),
其中,Embeds表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征,mi表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征第i维度上的值,s=1、2、...、N;Embedy表示待测样本y的基因调控融合表达表征,zi表示待测样本y的基因调控融合表达表征第i维度上的值。
所述SVM二类分类器的训练包括以下步骤:
41)使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入,标签作为输出,采用五重交叉验证的方式,寻找SVM最佳的超参数设置,其中标签包括敏感为1、耐药为0;
42)SVM采用最佳的超参数,使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入,标签作为输出,训练药物SVM二分类器,其中标签包括敏感为1、耐药为0。
所述抗肿瘤药物药效的预测包括以下步骤:
51)基于训练后的SVM二分类器,将待测肿瘤细胞样本y的基因调控融合表达表征Embedy作为特征输入;
52)输出待测肿瘤细胞与药物敏感性关系,其中敏感为1、耐药为0;
SVM二分类器建立的超平面将基因调控融合特征空间划分成了两部分,敏感Tsensitive和耐药Tresistance;
如果待预测的肿瘤细胞的基因调控融合特征属于Tsensitive,则输出1,表示对该药物敏感;如果待预测的肿瘤细胞的基因调控融合特征不属于Tsensitive,则输出0,表示对该药物耐药。
有益效果
本发明的一种融合基因调控特征的抗肿瘤药物药效预测方法,与现有技术相比有效挖掘药物响应基因调控特征,通过融合基因调控特征,不仅解决了基因高通量数据的高维性,还提高了肿瘤细胞药物敏感性预测性能。
附图说明
图1为本发明的方法顺序图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种融合基因调控特征的抗肿瘤药物药效预测方法,包括以下步骤:
第一步,样本数据的获取。获取样本数据,其包括训练数据样本集、待测肿瘤细胞样本y以及基因调控网络图谱G,训练数据样本集包括含N个肿瘤细胞样本的基因表达谱及其药效标签,其中,药效标签为敏感或耐药。
第二步,构建细胞-基因融合调控网络图谱。将训练数据样本集和待测肿瘤细胞样本y作为肿瘤细胞节点与基因调控网络图谱G相融合,构建出细胞-基因融合调控网络图谱。通过将基因表达值高和低的基因作为其特征基因,可以获取更多的肿瘤细胞之间的基因表达区别信息。其具体步骤如下:
(1)将训练数据样本集和待测肿瘤细胞样本y归集为取样集合,从取样集合中选取一个肿瘤细胞样本,拟合其基因表达谱的负二项分布。(训练数据样本集有600个肿瘤细胞,待测肿瘤细胞样本有1个,总共601个肿瘤细胞样本,训练数据样本集肿瘤细胞和待测肿瘤细胞样本共同构成一个集合,形成取样集合)
(2)针对基因表达谱进行负二项分布参数拟合,将其大于负二项分布第三、四分位数及小于第一、四分位数的基因作为其特征基因。(X-NB(r;P),其中X表示基因表达谱的负二项分布,r和P表示负二项分布的两个参数)
(3)特征基因与肿瘤细胞样本之间用一条边相连接,大于负二项分布第三、四分位数的特征基因与肿瘤细胞样本形成的边称为up_expr;小于第一、四分位数的特征基因与肿瘤细胞样本形成的边称为down_expr。
(4)对取样集合重复(1)至(3)步,训练数据样本集和待测肿瘤细胞样本y的肿瘤细胞作为节点与基因调控网络图谱相融合,最终获得细胞-基因融合调控网络图谱。
第三步,基因调控融合表达表征的计算。利用知识图谱嵌入技术计算所有肿瘤细胞样本的基因调控融合表达表征。
通过细胞-基因融合调控网络图谱,在该网络中,包含基因调控信息和基因表达信息,特征相似的肿瘤细胞节点会靠得很近;而特征的差异较大肿瘤细胞则会离得很远,因此会有较大差异的低维特征向量。通过知识图谱嵌入技术,得到的细胞向量表示可以学习到基因调控信息和基因表达信息,并且特征相似的肿瘤细胞节点会靠得很近,因此会有相似的低维特征向量;而特征的差异较大肿瘤细胞则会离得很远,因此会有差别较大的低维特征向量,进而提高药效预测效果。由于细胞-基因融合调控网络图谱是一个有着庞大节点数量的网络,生成其三元组集合具有挑战性,并且生成的三元组集合数据量也很大,使用知识图谱嵌入技术来得到的肿瘤细胞的基因调控融合表达表征,对计算机的内存要求较大。同时,负采样方式对最终得到的基因调控融合表达表征的优劣会有影响,选择合理的负采样方式也是必要的。
基因调控融合表达表征的计算具体步骤如下:
(1)抽取细胞-基因融合调控网络图谱中的正三元组集合,正三元组集合中的每个三元组包括头部基因或头部肿瘤细胞节点、正负向调控关系或基因在肿瘤细胞上的欠或过表达关系、尾部基因或尾部肿瘤细胞节点。
(2)以k=100-500维向量初始化肿瘤细胞和基因节点,以及正负向调控关系或基因在肿瘤细胞上的欠或过表达关系的调控融合特征表示,其表达式如下:
(3)随机替换三元组的尾部基因或尾部肿瘤细胞,并保证替换前后不相同。为了避免出现生成的负三元组真实存在于细胞-基因融合网络图谱中的情况,对生成的负三元组样本进行过滤,如果它是细胞-基因融合网络图谱中的正三元组样本,那就不把它作为负三元组样本。
对负三元组采样,随机替换三元组集合的尾部基因或尾部肿瘤细胞,并保证替换前后不相同,具体步骤如下:
对生成的负三元组样本进行过滤,如果它是细胞-基因融合网络图谱中的正三元组样本,那就不把它作为负三元组样本,并计算负三元组样本的重要性,其表达式如下:
其中,p'j=||h'+r-o'||,h'j表示负三元组样本j头部基因或头部肿瘤细胞的向量表示、o’j表示负三元组样本j尾部基因或尾部肿瘤细胞的向量表示、r表示负三元组样本j正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示,{hl,rl,ol}表示负三元组样本集合,∑iexpαpl(h’l,o’l)表示负三元组样本集合每个三元组打分后的总和,α是一个常数,代表采样率,g(h'j,r,o'j|{hl,rl,ol})表示第j个负三元组样本的权重。
(4)对步骤(1)中正三元组和步骤(3)所获得的负三元组进行打分计算总的损失误差Loss,其表达式如下:
其中,pi=g·||h+r-o||,||h||≤1,||r||≤1,||o||≤1,g是三元组样本i的权重,如果是正三元组样本,权重为1,如果是负三元组样本,权重为g(h’i,r,o’i|{hl,rl,ol}),pi是对三元组样本i的进行打分得到的分数,h表示三元组样本i头部基因或头部肿瘤细胞的向量表示、o表示三元组样本i尾部基因或尾部肿瘤细胞的向量表示、r表示三元组样本i正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示,M表示全部的三元组样本数,即正三元组样本数加上负三元组样本数,ti是三元组样本i的标签,即给定三元组样本,三元组为真时,对应标签为0,三元组为假时,对应标签为1。
(5)使用Adam优化算法更新所有节点和边的调控融合特征表示,其表达式如下;
(6)重复(3)-(5)步骤至损失函数收敛,获得所有训练样本和待测样本的最优基因调控融合表达表征,如下:
Embeds=(m1,m2,...mk),
Embedy=(z1,z2,...,zk),
其中,Embeds表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征,mi表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征第i维度上的值,s=1,2,...,N;Embedy表示待测样本y的基因调控融合表达表征,zi表示待测样本y的基因调控融合表达表征第i维度上的值。
第四步,SVM二类分类器的训练:基于训练样本的基因调控融合表达表征训练药物SVM二类分类器。
(1)使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入,标签作为输出,采用五重交叉验证的方式,寻找SVM最佳的超参数设置,其中标签包括敏感为1、耐药为0。
(2)SVM采用最佳的超参数,使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入,标签作为输出,训练药物SVM二分类器,其中标签包括敏感为1、耐药为0。
第五步,抗肿瘤药物药效的预测:使用SVM二分类器基于待测肿瘤细胞的基因调控融合表达表征预测待测肿瘤细胞与药物敏感性关系,实现抗肿瘤药物药效的预测。
(1)基于训练后的SVM二分类器,将待测肿瘤细胞样本y的基因调控融合表达表征Embedy作为特征输入。
(2)输出待测肿瘤细胞与药物敏感性关系,其中敏感为1、耐药为0;
SVM二分类器建立的超平面将基因调控融合特征空间划分成了两部分,敏感Tsensitive和耐药Tresistance;
如果待预测的肿瘤细胞的基因调控融合特征属于Tsensitive,则输出1,表示对该药物敏感;如果待预测的肿瘤细胞的基因调控融合特征不属于Tsensitive,则输出0,表示对该药物耐药。
如表1所示,其展示了本方法与Stanfield、Zhang等人提出的方法在三种药物上的AUC值对比。
表1三种方法的AUC值对比表
从表1中可以看出,本发明的方法相对于Stanfield、Zhang等人提出的方法在该三种药物上的敏感性预测性能都更好。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (5)
1.一种融合基因调控特征的抗肿瘤药物药效预测方法,其特征在于,包括以下步骤:
11)样本数据的获取:获取样本数据,其包括训练数据样本集、待测肿瘤细胞样本y以及基因调控网络图谱G,训练数据样本集包括含N个肿瘤细胞样本的基因表达谱及其药效标签,其中,药效标签为敏感或耐药;
12)构建细胞-基因融合调控网络图谱:将训练数据样本集和待测肿瘤细胞样本y作为肿瘤细胞节点与基因调控网络图谱G相融合,构建出细胞-基因融合调控网络图谱;
13)基因调控融合表达表征的计算:利用知识图谱嵌入技术计算所有肿瘤细胞样本的基因调控融合表达表征;
14)SVM二类分类器的训练:基于训练样本的基因调控融合表达表征训练药物SVM二类分类器;
15)抗肿瘤药物药效的预测:使用SVM二分类器基于待测肿瘤细胞的基因调控融合表达表征预测待测肿瘤细胞与药物敏感性关系,实现抗肿瘤药物药效的预测。
2.根据权利要求1所述的一种融合基因调控特征的抗肿瘤药物药效预测方法,其特征在于,所述构建细胞-基因融合调控网络图谱包括以下步骤:
21)将训练数据样本集和待测肿瘤细胞样本y归集为取样集合,从取样集合中选取一个肿瘤细胞样本,拟合其基因表达谱的负二项分布;
22)针对基因表达谱的负二项分布的表达式,将其大于负二项分布第三、四分位数及小于第一、四分位数的基因作为其特征基因;
23)将特征基因与肿瘤细胞样本相连接;
24)对取样集合重复21)至23)步,训练数据样本集和待测肿瘤细胞样本y的肿瘤细胞作为节点与基因调控网络图谱相融合,最终获得细胞-基因融合调控网络图谱。
3.根据权利要求1所述的一种融合基因调控特征的抗肿瘤药物药效预测方法,其特征在于,所述基因调控融合表达表征的计算包括以下步骤:
31)抽取细胞-基因融合调控网络图谱中的正三元组集合,正三元组集合中的每个三元组包括头部基因或头部肿瘤细胞节点、正负向调控关系或基因在肿瘤细胞上的欠或过表达关系、尾部基因或尾部肿瘤细胞节点;
32)以k=100-500维向量初始化肿瘤细胞和基因节点,以及正负向调控关系或基因在肿瘤细胞上的欠或过表达关系的调控融合特征表示,其表达式如下:
33)对负三元组采样,随机替换三元组集合的尾部基因或尾部肿瘤细胞,并保证替换前后不相同,具体步骤如下:
对生成的负三元组样本进行过滤,如果它是细胞-基因融合网络图谱中的正三元组样本,那就不将其作为负三元组样本,并计算负三元组样本的重要性,其表达式如下:
其中,p'j=||h'+r-o'||,h'j表示负三元组样本j头部基因或头部肿瘤细胞的向量表示、o′j表示负三元组样本j尾部基因或尾部肿瘤细胞的向量表示、r表示负三元组样本j正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示,{hl,rl,ol}表示负三元组样本集合,∑iexpαpl(h′l,o′l)表示负三元组样本集合每个三元组打分后的总和,α是一个常数,代表采样率,g(h'j,r,o'j|{hl,rl,ol})表示第j个负三元组样本的权重;
34)对31)步骤中正三元组和33)步骤所获得的负三元组进行打分计算总的损失误差Loss,其表达式如下:
其中,pi=g·||h+r-o||,||h||≤1,||r||≤1,||o||≤1,g是三元组样本i的权重,如果是正三元组样本,权重为1,如果是负三元组样本,权重为g(h′i,r,o′i|{hl,rl,ol}),pi是对三元组样本i的进行打分得到的分数,h表示三元组样本i头部基因或头部肿瘤细胞的向量表示,o表示三元组样本i尾部基因或尾部肿瘤细胞的向量表示,r表示三元组样本i正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示,M表示全部的三元组样本数,即正三元组样本数加上负三元组样本数,ti是三元组样本i的标签,即给定三元组样本,三元组为真时,对应标签为0,三元组为假时,对应标签为1;
35)使用Adam优化算法更新所有节点和边的调控融合特征表示,其表达式如下;
d=1,2,...,Q,a=1,2,...,H;
36)重复33)-35)步骤至损失函数收敛,获得所有训练样本和待测样本的最优基因调控融合表达表征,如下:
Embeds=(m1,m2,...mk),
Embedy=(z1,z2,...,zk),
其中,Embeds表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征,mi表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征第i维度上的值,s=1、2、...、N;Embedy表示待测样本y的基因调控融合表达表征,zi表示待测样本y的基因调控融合表达表征第i维度上的值。
4.根据权利要求1所述的一种融合基因调控特征的抗肿瘤药物药效预测方法,其特征在于,所述SVM二类分类器的训练包括以下步骤:
41)使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入,标签作为输出,采用五重交叉验证的方式,寻找SVM最佳的超参数设置,其中标签包括敏感为1、耐药为0;
42)SVM采用最佳的超参数,使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入,标签作为输出,训练药物SVM二分类器,其中标签包括敏感为1、耐药为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210256237.0A CN114566219A (zh) | 2022-03-16 | 2022-03-16 | 一种融合基因调控特征的抗肿瘤药物药效预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210256237.0A CN114566219A (zh) | 2022-03-16 | 2022-03-16 | 一种融合基因调控特征的抗肿瘤药物药效预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114566219A true CN114566219A (zh) | 2022-05-31 |
Family
ID=81720280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210256237.0A Withdrawn CN114566219A (zh) | 2022-03-16 | 2022-03-16 | 一种融合基因调控特征的抗肿瘤药物药效预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114566219A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019881A (zh) * | 2022-07-15 | 2022-09-06 | 普瑞基准科技(北京)有限公司 | 基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统 |
-
2022
- 2022-03-16 CN CN202210256237.0A patent/CN114566219A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019881A (zh) * | 2022-07-15 | 2022-09-06 | 普瑞基准科技(北京)有限公司 | 基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统 |
CN115019881B (zh) * | 2022-07-15 | 2022-10-21 | 普瑞基准科技(北京)有限公司 | 基于基因蛋白活性的小分子抗肿瘤效果鉴定方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11804285B2 (en) | Hilbert-cnn: ai-driven convolutional neural networks with conversion data of genome for biomarker discovery | |
Momeni et al. | A survey on single and multi omics data mining methods in cancer data classification | |
WO2023134296A1 (zh) | 分类预测方法, 装置, 设备, 存储介质及计算机程序产品 | |
CN112069929A (zh) | 一种无监督行人重识别方法、装置、电子设备及存储介质 | |
CN109448787B (zh) | 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法 | |
CN111986811A (zh) | 一种基于大数据的疾病预测系统 | |
US20210332354A1 (en) | Systems and methods for identifying differential accessibility of gene regulatory elements at single cell resolution | |
WO2015173435A1 (en) | Method for predicting a phenotype from a genotype | |
González et al. | Predicting domain-domain interaction based on domain profiles with feature selection and support vector machines | |
WO2019128460A1 (zh) | 图像显著性检测方法和装置 | |
CN113591915B (zh) | 基于半监督学习和单分类支持向量机的异常流量识别方法 | |
CN110111840A (zh) | 一种体细胞突变检测方法 | |
CN114566219A (zh) | 一种融合基因调控特征的抗肿瘤药物药效预测方法 | |
CN113903395A (zh) | 一种改进粒子群优化的bp神经网络拷贝数变异检测方法与系统 | |
CN109933619A (zh) | 一种半监督分类预测方法 | |
CN111429970B (zh) | 基于极端梯度提升方法进行特征选择来获取多基因风险评分的方法及系统 | |
Dougherty et al. | Validation of computational methods in genomics | |
CN117422704A (zh) | 一种基于多模态数据的癌症预测方法、系统及设备 | |
CN115019891A (zh) | 一种基于半监督图神经网络的个体驱动基因预测方法 | |
CN115985503A (zh) | 基于集成学习的癌症预测系统 | |
CN113764034B (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
Halawani et al. | Deep learning exploration of single-cell and spatially resolved cancer transcriptomics to unravel tumour heterogeneity | |
Li et al. | FUNMarker: Fusion network-based method to identify prognostic and heterogeneous breast cancer biomarkers | |
CN111783088B (zh) | 一种恶意代码家族聚类方法、装置和计算机设备 | |
CN116228759B (zh) | 肾细胞癌类型的计算机辅助诊断系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220531 |