CN114566219A

CN114566219A - 一种融合基因调控特征的抗肿瘤药物药效预测方法

Info

Publication number: CN114566219A
Application number: CN202210256237.0A
Authority: CN
Inventors: 谢新平; 王观福; 王红强; 张蕾; 朱伟伟
Original assignee: Anhui Jianzhu University
Current assignee: Anhui Jianzhu University
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-05-31

Abstract

本发明涉及一种融合基因调控特征的抗肿瘤药物药效预测方法，与现有技术相比解决了难以针对抗肿瘤药物药效进行有效预测的缺陷。本发明包括以下步骤：样本数据的获取；构建细胞‑基因融合调控网络图谱；基因调控融合表达表征的计算；SVM二类分类器的训练；抗肿瘤药物药效的预测。本发明有效挖掘药物响应基因调控特征，通过融合基因调控特征，不仅解决了基因高通量数据的高维性，还提高了肿瘤细胞药物敏感性预测性能。

Description

一种融合基因调控特征的抗肿瘤药物药效预测方法

技术领域

本发明涉及药物数据敏感性检测与评估技术领域，具体来说是一种融合基因调控特征的抗肿瘤药物药效预测方法。

背景技术

预测肿瘤细胞对抗肿瘤药物的反应是精准医疗的一个研究热点。基因组测序技术的快速进步和生物信息与大数据科学的发展，使用高通量基因组测序数据研究药物对癌症的敏感性为新型临床药物研发提供新途径。

然而，大多数现有方法主要基于癌细胞的基因组相似性，忽略了基因之间的调控关系，导致不能很好的预测抗肿瘤药物的药效。现有技术中，比较典型的两种方法就是Stanfield、Zhang等人提出的方法。Stanfield等人构建了一个异构网络来计算细胞株和药物的网络图谱，然后根据网络图谱进行随机游走来预测细胞株和药物之间的联系；Zhang等人构建了细胞株与药物之间的双层网络，结合细胞株与药物之间的相似性，利用加权模型预测抗肿瘤药物反应。

发明内容

本发明的目的是为了解决现有技术中难以针对抗肿瘤药物药效进行有效预测的缺陷，提供一种融合基因调控特征的抗肿瘤药物药效预测方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种融合基因调控特征的抗肿瘤药物药效预测方法，包括以下步骤：

11)样本数据的获取：获取样本数据，其包括训练数据样本集、待测肿瘤细胞样本y以及基因调控网络图谱G，训练数据样本集包括含N个肿瘤细胞样本的基因表达谱及其药效标签，其中，药效标签为敏感或耐药；

12)构建细胞-基因融合调控网络图谱：将训练数据样本集和待测肿瘤细胞样本y作为肿瘤细胞节点与基因调控网络图谱G相融合，构建出细胞-基因融合调控网络图谱；

13)基因调控融合表达表征的计算：利用知识图谱嵌入技术计算所有肿瘤细胞样本的基因调控融合表达表征；

14)SVM二类分类器的训练：基于训练样本的基因调控融合表达表征训练药物SVM二类分类器；

15)抗肿瘤药物药效的预测：使用SVM二分类器基于待测肿瘤细胞的基因调控融合表达表征预测待测肿瘤细胞与药物敏感性关系，实现抗肿瘤药物药效的预测。

所述构建细胞-基因融合调控网络图谱包括以下步骤：

21)将训练数据样本集和待测肿瘤细胞样本y归集为取样集合，从取样集合中选取一个肿瘤细胞样本，拟合其基因表达谱的负二项分布；

22)针对基因表达谱的负二项分布的表达式，将其大于负二项分布第三、四分位数及小于第一、四分位数的基因作为其特征基因；

23)将特征基因与肿瘤细胞样本相连接；

24)对取样集合重复21)至23)步，训练数据样本集和待测肿瘤细胞样本y的肿瘤细胞作为节点与基因调控网络图谱相融合，最终获得细胞-基因融合调控网络图谱。

所述基因调控融合表达表征的计算包括以下步骤：

31)抽取细胞-基因融合调控网络图谱中的正三元组集合，正三元组集合中的每个三元组包括头部基因或头部肿瘤细胞节点、正负向调控关系或基因在肿瘤细胞上的欠或过表达关系、尾部基因或尾部肿瘤细胞节点；

32)以k＝100-500维向量初始化肿瘤细胞和基因节点，以及正负向调控关系或基因在肿瘤细胞上的欠或过表达关系的调控融合特征表示，其表达式如下：

其中，

表示初始化肿瘤细胞节点d向量，

表示初始化基因节点a向量，Q表示节点数目，H表示边的数目，以及

33)对负三元组采样，随机替换三元组集合的尾部基因或尾部肿瘤细胞，并保证替换前后不相同，具体步骤如下：

对生成的负三元组样本进行过滤，如果它是细胞-基因融合网络图谱中的正三元组样本，那就不将其作为负三元组样本，并计算负三元组样本的重要性，其表达式如下：

其中，p'_j＝||h'+r-o'||，h'_j表示负三元组样本j头部基因或头部肿瘤细胞的向量表示、o’_j表示负三元组样本j尾部基因或尾部肿瘤细胞的向量表示、r表示负三元组样本j正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示，{h_l,r_l,o_l}表示负三元组样本集合，∑_iexpαp_l(h’_l,o’_l)表示负三元组样本集合每个三元组打分后的总和，α是一个常数，代表采样率，g(h'_j,r,o'_j|{h_l,r_l,o_l})表示第j个负三元组样本的权重；

34)对31)步骤中正三元组和33)步骤所获得的负三元组进行打分计算总的损失误差Loss，其表达式如下：

其中，p_i＝g·||h+r-o||，||h||≤1，||r||≤1，||o||≤1，g是三元组样本i的权重，如果是正三元组样本，权重为1，如果是负三元组样本，权重为g(h’_i,r,o’_i|{h_l,r_l,o_l})，p_i是对三元组样本i的进行打分得到的分数，h表示三元组样本i头部基因或头部肿瘤细胞的向量表示，o表示三元组样本i尾部基因或尾部肿瘤细胞的向量表示，r表示三元组样本i正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示，M表示全部的三元组样本数，即正三元组样本数加上负三元组样本数，t_i是三元组样本i的标签，即给定三元组样本，三元组为真时，对应标签为0，三元组为假时，对应标签为1；

35)使用Adam优化算法更新所有节点和边的调控融合特征表示，其表达式如下；

其中，

和

分别节点v_d和边e_j的更新后的调控融合特征表示，

d＝1,2,...,Q，a＝1,2,...,H；

36)重复33)-35)步骤至损失函数收敛，获得所有训练样本和待测样本的最优基因调控融合表达表征，如下：

Embed_s＝(m₁,m₂,...m_k)，

Embed_y＝(z₁,z₂,...,z_k)，

其中，Embed_s表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征，m_i表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征第i维度上的值，s＝1、2、...、N；Embed_y表示待测样本y的基因调控融合表达表征，z_i表示待测样本y的基因调控融合表达表征第i维度上的值。

所述SVM二类分类器的训练包括以下步骤：

41)使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入，标签作为输出，采用五重交叉验证的方式，寻找SVM最佳的超参数设置，其中标签包括敏感为1、耐药为0；

42)SVM采用最佳的超参数，使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入，标签作为输出，训练药物SVM二分类器，其中标签包括敏感为1、耐药为0。

所述抗肿瘤药物药效的预测包括以下步骤：

51)基于训练后的SVM二分类器，将待测肿瘤细胞样本y的基因调控融合表达表征Embed_y作为特征输入；

52)输出待测肿瘤细胞与药物敏感性关系，其中敏感为1、耐药为0；

SVM二分类器建立的超平面将基因调控融合特征空间划分成了两部分，敏感T_sensitive和耐药T_resistance；

如果待预测的肿瘤细胞的基因调控融合特征属于T_sensitive，则输出1，表示对该药物敏感；如果待预测的肿瘤细胞的基因调控融合特征不属于T_sensitive，则输出0，表示对该药物耐药。

有益效果

本发明的一种融合基因调控特征的抗肿瘤药物药效预测方法，与现有技术相比有效挖掘药物响应基因调控特征，通过融合基因调控特征，不仅解决了基因高通量数据的高维性，还提高了肿瘤细胞药物敏感性预测性能。

附图说明

图1为本发明的方法顺序图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1所示，本发明所述的一种融合基因调控特征的抗肿瘤药物药效预测方法，包括以下步骤：

第一步，样本数据的获取。获取样本数据，其包括训练数据样本集、待测肿瘤细胞样本y以及基因调控网络图谱G，训练数据样本集包括含N个肿瘤细胞样本的基因表达谱及其药效标签，其中，药效标签为敏感或耐药。

第二步，构建细胞-基因融合调控网络图谱。将训练数据样本集和待测肿瘤细胞样本y作为肿瘤细胞节点与基因调控网络图谱G相融合，构建出细胞-基因融合调控网络图谱。通过将基因表达值高和低的基因作为其特征基因，可以获取更多的肿瘤细胞之间的基因表达区别信息。其具体步骤如下：

(1)将训练数据样本集和待测肿瘤细胞样本y归集为取样集合，从取样集合中选取一个肿瘤细胞样本，拟合其基因表达谱的负二项分布。(训练数据样本集有600个肿瘤细胞，待测肿瘤细胞样本有1个，总共601个肿瘤细胞样本，训练数据样本集肿瘤细胞和待测肿瘤细胞样本共同构成一个集合，形成取样集合)

(2)针对基因表达谱进行负二项分布参数拟合，将其大于负二项分布第三、四分位数及小于第一、四分位数的基因作为其特征基因。(X-NB(r；P),其中X表示基因表达谱的负二项分布,r和P表示负二项分布的两个参数)

(3)特征基因与肿瘤细胞样本之间用一条边相连接，大于负二项分布第三、四分位数的特征基因与肿瘤细胞样本形成的边称为up_expr；小于第一、四分位数的特征基因与肿瘤细胞样本形成的边称为down_expr。

(4)对取样集合重复(1)至(3)步，训练数据样本集和待测肿瘤细胞样本y的肿瘤细胞作为节点与基因调控网络图谱相融合，最终获得细胞-基因融合调控网络图谱。

第三步，基因调控融合表达表征的计算。利用知识图谱嵌入技术计算所有肿瘤细胞样本的基因调控融合表达表征。

通过细胞-基因融合调控网络图谱，在该网络中，包含基因调控信息和基因表达信息，特征相似的肿瘤细胞节点会靠得很近；而特征的差异较大肿瘤细胞则会离得很远，因此会有较大差异的低维特征向量。通过知识图谱嵌入技术，得到的细胞向量表示可以学习到基因调控信息和基因表达信息，并且特征相似的肿瘤细胞节点会靠得很近，因此会有相似的低维特征向量；而特征的差异较大肿瘤细胞则会离得很远，因此会有差别较大的低维特征向量，进而提高药效预测效果。由于细胞-基因融合调控网络图谱是一个有着庞大节点数量的网络，生成其三元组集合具有挑战性，并且生成的三元组集合数据量也很大，使用知识图谱嵌入技术来得到的肿瘤细胞的基因调控融合表达表征，对计算机的内存要求较大。同时，负采样方式对最终得到的基因调控融合表达表征的优劣会有影响，选择合理的负采样方式也是必要的。

基因调控融合表达表征的计算具体步骤如下：

(1)抽取细胞-基因融合调控网络图谱中的正三元组集合，正三元组集合中的每个三元组包括头部基因或头部肿瘤细胞节点、正负向调控关系或基因在肿瘤细胞上的欠或过表达关系、尾部基因或尾部肿瘤细胞节点。

(2)以k＝100-500维向量初始化肿瘤细胞和基因节点，以及正负向调控关系或基因在肿瘤细胞上的欠或过表达关系的调控融合特征表示，其表达式如下：

其中，

表示初始化肿瘤细胞节点d向量，

(3)随机替换三元组的尾部基因或尾部肿瘤细胞，并保证替换前后不相同。为了避免出现生成的负三元组真实存在于细胞-基因融合网络图谱中的情况，对生成的负三元组样本进行过滤，如果它是细胞-基因融合网络图谱中的正三元组样本，那就不把它作为负三元组样本。

对负三元组采样，随机替换三元组集合的尾部基因或尾部肿瘤细胞，并保证替换前后不相同，具体步骤如下：

对生成的负三元组样本进行过滤，如果它是细胞-基因融合网络图谱中的正三元组样本，那就不把它作为负三元组样本，并计算负三元组样本的重要性，其表达式如下：

其中，p'_j＝||h'+r-o'||，h'_j表示负三元组样本j头部基因或头部肿瘤细胞的向量表示、o’_j表示负三元组样本j尾部基因或尾部肿瘤细胞的向量表示、r表示负三元组样本j正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示，{h_l,r_l,o_l}表示负三元组样本集合，∑_iexpαp_l(h’_l,o’_l)表示负三元组样本集合每个三元组打分后的总和，α是一个常数，代表采样率，g(h'_j,r,o'_j|{h_l,r_l,o_l})表示第j个负三元组样本的权重。

(4)对步骤(1)中正三元组和步骤(3)所获得的负三元组进行打分计算总的损失误差Loss，其表达式如下：

其中，p_i＝g·||h+r-o||，||h||≤1，||r||≤1，||o||≤1，g是三元组样本i的权重，如果是正三元组样本，权重为1，如果是负三元组样本，权重为g(h’_i,r,o’_i|{h_l,r_l,o_l})，p_i是对三元组样本i的进行打分得到的分数，h表示三元组样本i头部基因或头部肿瘤细胞的向量表示、o表示三元组样本i尾部基因或尾部肿瘤细胞的向量表示、r表示三元组样本i正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示，M表示全部的三元组样本数，即正三元组样本数加上负三元组样本数，t_i是三元组样本i的标签，即给定三元组样本，三元组为真时，对应标签为0，三元组为假时，对应标签为1。

(5)使用Adam优化算法更新所有节点和边的调控融合特征表示，其表达式如下；

其中

分别节点vd和边e_j的更新后的调控融合特征表示，d＝1,2,...,Q，a＝1,2,...,H。

(6)重复(3)-(5)步骤至损失函数收敛，获得所有训练样本和待测样本的最优基因调控融合表达表征，如下：

Embed_s＝(m₁,m₂,...m_k)，

Embed_y＝(z₁,z₂,...,z_k)，

其中，Embed_s表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征，m_i表示训练样本集中的肿瘤细胞样本s的基因调控融合表达表征第i维度上的值，s＝1,2,...,N；Embed_y表示待测样本y的基因调控融合表达表征，z_i表示待测样本y的基因调控融合表达表征第i维度上的值。

第四步，SVM二类分类器的训练：基于训练样本的基因调控融合表达表征训练药物SVM二类分类器。

(1)使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入，标签作为输出，采用五重交叉验证的方式，寻找SVM最佳的超参数设置，其中标签包括敏感为1、耐药为0。

(2)SVM采用最佳的超参数，使用训练样本集中的肿瘤细胞的基因调控融合表达表征作为输入，标签作为输出，训练药物SVM二分类器，其中标签包括敏感为1、耐药为0。

第五步，抗肿瘤药物药效的预测：使用SVM二分类器基于待测肿瘤细胞的基因调控融合表达表征预测待测肿瘤细胞与药物敏感性关系，实现抗肿瘤药物药效的预测。

(1)基于训练后的SVM二分类器，将待测肿瘤细胞样本y的基因调控融合表达表征Embed_y作为特征输入。

(2)输出待测肿瘤细胞与药物敏感性关系，其中敏感为1、耐药为0；

如表1所示，其展示了本方法与Stanfield、Zhang等人提出的方法在三种药物上的AUC值对比。

表1三种方法的AUC值对比表

从表1中可以看出，本发明的方法相对于Stanfield、Zhang等人提出的方法在该三种药物上的敏感性预测性能都更好。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种融合基因调控特征的抗肿瘤药物药效预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种融合基因调控特征的抗肿瘤药物药效预测方法，其特征在于，所述构建细胞-基因融合调控网络图谱包括以下步骤：

23)将特征基因与肿瘤细胞样本相连接；

3.根据权利要求1所述的一种融合基因调控特征的抗肿瘤药物药效预测方法，其特征在于，所述基因调控融合表达表征的计算包括以下步骤：

其中，

表示初始化肿瘤细胞节点d向量，

其中，p'_j＝||h'+r-o'||，h'_j表示负三元组样本j头部基因或头部肿瘤细胞的向量表示、o′_j表示负三元组样本j尾部基因或尾部肿瘤细胞的向量表示、r表示负三元组样本j正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示，{h_l,rl,o_l}表示负三元组样本集合，∑_iexpαp_l(h′_l,o′_l)表示负三元组样本集合每个三元组打分后的总和，α是一个常数，代表采样率，g(h'_j,r,o'_j|{h_l,r_l,o_l})表示第j个负三元组样本的权重；

其中，p_i＝g·||h+r-o||，||h||≤1，||r||≤1，||o||≤1，g是三元组样本i的权重，如果是正三元组样本，权重为1，如果是负三元组样本，权重为g(h′_i,r,o′_i|{h_l,r_l,o_l})，p_i是对三元组样本i的进行打分得到的分数，h表示三元组样本i头部基因或头部肿瘤细胞的向量表示，o表示三元组样本i尾部基因或尾部肿瘤细胞的向量表示，r表示三元组样本i正负向调控关系或基因在肿瘤细胞上的欠或过表达的向量表示，M表示全部的三元组样本数，即正三元组样本数加上负三元组样本数，t_i是三元组样本i的标签，即给定三元组样本，三元组为真时，对应标签为0，三元组为假时，对应标签为1；

其中，

和

分别节点v_d和边e_j的更新后的调控融合特征表示，

d＝1,2,...,Q，a＝1,2,...,H；

Embed_s＝(m₁,m₂,...m_k)，

Embed_y＝(z₁,z₂,...,z_k)，

4.根据权利要求1所述的一种融合基因调控特征的抗肿瘤药物药效预测方法，其特征在于，所述SVM二类分类器的训练包括以下步骤：

5.根据权利要求1所述的一种融合基因调控特征的抗肿瘤药物药效预测方法，其特征在于，所述抗肿瘤药物药效的预测包括以下步骤：