CN111785326A - 基于生成对抗网络的药物作用后基因表达谱预测方法 - Google Patents

基于生成对抗网络的药物作用后基因表达谱预测方法 Download PDF

Info

Publication number
CN111785326A
CN111785326A CN202010594568.6A CN202010594568A CN111785326A CN 111785326 A CN111785326 A CN 111785326A CN 202010594568 A CN202010594568 A CN 202010594568A CN 111785326 A CN111785326 A CN 111785326A
Authority
CN
China
Prior art keywords
gene expression
expression profile
neural network
self
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010594568.6A
Other languages
English (en)
Other versions
CN111785326B (zh
Inventor
鱼亮
董达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010594568.6A priority Critical patent/CN111785326B/zh
Publication of CN111785326A publication Critical patent/CN111785326A/zh
Application granted granted Critical
Publication of CN111785326B publication Critical patent/CN111785326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于生成对抗网络的药物作用基因表达谱预测方法,主要解决现有生物技术成本高,时间周期长的问题。其方案是:从基因表达谱数据库中下载某种药物作用后的基因表达谱数据;构建由编码器和解码器组成的自编码器并压缩药物作用后的基因表达谱数据得到压缩基因表达谱数据;构建生成对抗网络,使用压缩基因表达谱数据训练该生成对抗网络;将构建的自编码器中的编码器和解码器,以及生成对抗网络中的生成器,按照编码器,生成器,解码器的顺序依次拼接构成预测模型;将用药前的基因表达谱输入到预测模型中,得到用药后的基因表达谱,本发明成本低,能够快速获得大量的用药后的基因表达谱,可用筛选具有治疗作用效果的药物集合。

Description

基于生成对抗网络的药物作用后基因表达谱预测方法
本发明属于生物信息学技术领域,特别涉及一种基因表达谱预测方法,可用筛选具有治疗作用效果的药物集合,为药物实验提供可能的结果参考。
背景技术
药物作用的基因表达谱,是指细胞系在用药后的基因表达谱,其与用药前的原始表达谱的差异,可以作为药物特性的一个中立的衡量指标。一般在药物的研发过程中,需要针对具体的功能,例如对基因的调控,通过药物作用后的表达谱筛选相关的药物,再进行一系列与药物相关的生物实验流程。在整个药物筛选的过程中,获得基因表达谱是极其重要的一步。
对于基因表达谱的预测能够更直观的给出药物在每个基因上的效果,其得到的基因表达谱从数据方面与真实的基因表达谱没有区别,能够进一步用于分析药物或细胞系特征,如功能富集分析等。同时预测的表达谱,具有高效、成本低的特点,可以大规模得到药物作用下的细胞系的基因表达值。
目前,关于药物作用后基因表达谱的预测工作只能通过生物实验完成。在细胞系的培养皿中加入药物的化学分子溶剂,经过长时间的培养后,对细胞系通过基因测序技术进行测序获得基因表达谱。这种传统方法目前存在如下几个问题:1.对于细胞系的培养,化学试剂的采购,基因表达谱的测序等,需要投入大量的资金,成本高昂,2.细胞系培养过程容易受到环境的干扰,需要相同的实验进行多组,进一步增加了成本,3.培养细胞系的过程是一个漫长的过程且成功率不能达到百分之百。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于生成对抗网络的药物作用后基因表达谱预测方法,以减小化学试剂采购,细胞系培养以及测序的成本,大大缩短获得表达谱的周期,提高获得表达谱的成功率。
为实现上述目的,本发明的技术方案包括如下:
1、一种基于生成对抗网络的药物作用后基因表达谱的预测方法,其特征在于,包括如下:
(1)从基因表达谱数据库随机下载数万个基因表达谱数据G;
(2)搭建由编码器EN和解码器DE组成的自编码神经网络AC,通过(1)得到的基因表达谱数据对该网络训练,得到训练好的自编码神经网络;
(3)从基因表达谱数据库下载待研究药物作用前后的基因表达谱的全部数据;
(4)使用训练好神经网络中的编码器对(3)中的数据进行压缩,得到药物作用前后的压缩向量数据GE;
(5)搭建由生成器GN和判别器DI组成的生成对抗神经网络;
(6)使用药物作用前后的压缩向量数据,对生成对抗神经网络进行训练,得到训练好的生成对抗神经网络;
(7)将训练好的自编码神经网络中的编码器、解码器和训练好的生成对抗神经网络中的生成器,依次按照编码器->生成器->解码器的顺序拼接,得到最终的预测模型;
(8)将待研究的细胞系用药前的基因表达谱输入到预测模型中,输出该细胞系经过药物作用后的基因表达谱。
本发明与现有技术相比,具有以下优点:
1)本发明由于使用高性能计算机快速计算获得药物作用后的基因表达谱,相对于现有的生物实验方法,不仅缩短了获取基因表达谱的时间周期,而且节省了购买化学药剂等生物实验用品的经济成本。
2)本发明由于使用自编码神经网络对输入数据进行降维处理,有效的降低了生成对抗神经网络的参数,有利于模型的训练。
附图说明
图1是本发明的实现流程图;
图2是用本发明仿真的预测数据与真实数据之间的误差分布图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1、本实例的实现步骤如下:
步骤1,下载基因表达谱数据.
1a)从LINCS数据库中下载所有的基因表达谱数据;
1b)将所有的基因表达谱顺序打乱,得到乱序的基因表达谱数据G。
步骤2,构建自编码网络,并对其进行训练。
2a)搭建输入维度为978,输出维度为100,中间两层隐藏层的自编码网络编码器EN,
其中第一隐藏层有500个神经元,第二隐藏层有200个神经元,并且以全连通的方式连接;
2b)搭建输入维度为100,输出维度为978,中间两层隐藏层的自编码网络解码器DE,其中第一隐藏层有200个神经元,第二隐藏层有500个神经元,并且以全连通的方式连接;
2c)将自编码神经网络编码器EN和解码器DE首尾相连拼接得到自编码网络,并对所有参数随机初始化;
2d)将乱序的基因表达谱数据G输入到自编码网络中,得到输出O,并计算这两者之间的误差:L=||O-G||2
2e)通过优化算法对自编码网络参数进行优化,现有的优化算法包括有选择梯度下降算法、随机梯度下降算法和Adam算法等,本实例使用但不限于随机梯度下降算法更新自编码神经网络的参数,直到误差L不再降低,停止更新参数,获得训练好的自编码神经网络。
步骤3,下载药物作用前后的基因表达谱数据。
3a)从LINCS数据库中下载药物bortezomib相关的基因表达谱数据;
3b)将相同环境下的对照组和实验组的基因表达谱进行两两组合构成药物作用前后的基因表达谱数据集合。
步骤4,构建训练数据集合GE。
4a)将3b)得到的数据集合输入到训练后的自编码神经网络中的编码器部分进行压缩,得到基因表达谱的压缩向量;
4b)在基因表达谱的压缩向量中添加10个维度的高斯噪声,构成训练数据集合GE。
步骤5,构建生成对抗网络,使用训练数据集合GE进行训练
5a)搭建输入维度为110,输出维度为100,中间有两层隐藏层的生成器GN,其中这两层隐藏层均有1000个神经元,且以全连通的方式连接;
5b)搭建输入维度为100,输出维度为1,中间有两层隐藏层的判别器DI,其中这两个隐藏层均有1000个神经元,并且以全连通的方式连接;
5c)将生成器GN和判别器DI依次拼接构成生成对抗网络;
5d)将生成对抗神经网络中的所有参数随机初始化;
5e)在训练数据集合GE中随机选择64对用药前后的数据,将其中用药前的压缩向量输入到生成器GN中,得到预测的用药后的基因表达谱压缩向量;
5f)对生成对抗神经网络中的判别器DI进行训练:
5f1)将真实的用药后基因表达谱压缩向量标签设定为1,将预测的用药后基因表达谱的压缩向量标签设定为0,并将这两部分基因表达谱压缩向量输入到判别器DI中,得到判别器的输出结果;
5f2)固定生成对抗网络中的生成器GN的参数,通过优化算法对自编码网络参数进行优化,现有的优化算法可以选择梯度下降算法、随机梯度下降算法、Adam算法,本实例采用随机梯度下降算法,将(5f1)中的标签信息和判别器输出结果传递给随机梯度下降算法,更新一次DI的参数;
5g)训练生成对抗神经网络中的判别器GN:
5g1)将预测的用药后的基因表达谱的压缩向量设定其标签为1,将表达谱压缩向量输入到判别器DI中,得到判别器的输出结果;
5g2)固定DI的参数,通过优化算法对自编码网络参数进行优化,现有的优化算法可以选择梯度下降算法、随机梯度下降算法及Adam算法,本实施例采用随机梯度下降算法,将(5g1)中的标签信息和判别器的输出结果传递给随机梯度下降函数更新一次GN参数;
5h)重复(5f)到(5g)的所有步骤,直到判别器的输出概率接近1/2,得到训练好的生成对抗神经网络模型
步骤6,构建预测模型。
6a)从步骤2e)训练好的自编码网络中提取出编码器和解码器;
6b)从步骤5h)训练好的生成对抗网络中提取出生成器;
6c)按照编码器、生成器、解码器的顺序依次拼接,构成预测模型。
步骤7,将待预测细胞系的用药前基因表达谱输入到预测模型中,得到该细胞系在药物bortezomib作用后的基因表达谱。
本发明的效果可通过以下仿真进一步说明:
1.仿真条件
仿真实验在Intel(R)Core(TM)i7-8700k CPU、主频3.70GHz,内存48G,Ubuntu平台上的Python 3.6.5结合tensorflow1.0进行。
2.仿真内容:
仿真1,使用本发明方法对LINCS数据库中所有和药物bortezomib相关的细胞系进行了预测,得到所有细胞系在用药后的基因表达谱,再计算这些预测的基因表达谱与真实表达谱的误差,并绘制误差分布图,如图2所示,其中,横坐标代表每个基因表达谱的所有基因预测值与真实值的平均绝对误差,纵坐标代表误差分布的概率密度值。
从图2可见,本发明预测的所有基因表达谱的平均误差为1.5,预测的基因表达谱具有较低的误差。
仿真2,使用仿真1的结果,计算出部分相关基因的差异调控信息,并将其与真实数据调控信息的上下调关系进行比较,如表1所示:
表1预测的调控信息与真实调控信息
Figure BDA0002557041470000051
从表1可见,在药物bortezomib相关的八个基因中,用本发明预测的基因调控信息的调控信息与LINCS数据库中真实情况一致,证明了本发明预测结果的准确性。

Claims (3)

1.一种基于生成对抗网络的药物作用后基因表达谱的预测方法,其特征在于,包括如下:
(1)从基因表达谱数据库随机下载数万个基因表达谱数据G;
(2)搭建由编码器EN和解码器DE组成的自编码神经网络AC,通过(1)得到的基因表达谱数据对该网络训练,得到训练好的自编码神经网络;
(3)从基因表达谱数据库下载待研究药物作用前后的基因表达谱的全部数据;
(4)使用训练好神经网络中的编码器对(3)中的数据进行压缩,得到药物作用前后的压缩向量数据GE;
(5)搭建由生成器GN和判别器DI组成的生成对抗神经网络;
(6)使用药物作用前后的压缩向量数据,对生成对抗神经网络进行训练,得到训练好的生成对抗神经网络;
(7)将训练好的自编码神经网络中的编码器、解码器和训练好的生成对抗神经网络中的生成器,依次按照编码器->生成器->解码器的顺序拼接,得到最终的预测模型;
(8)将待研究的细胞系用药前的基因表达谱输入到预测模型中,输出该细胞系经过药物作用后的基因表达谱。
2.根据权利要求1所述的方法,其中(2)对自编码神经网络进行训练,实现如下:
(2a)将自编码神经网络中的所有参数随机初始化;
(2b)将基因表达谱数据G输入到自编码神经网络中,得到输出O,并计算两者之间的误差:L=||O-G||2
(2c)使用神经网络的随机梯度下降算法,更新自编码神经网络的参数,直到误差L不再降低,停止更新参数,获得训练好的自编码神经网络。
3.根据权利要求1所述的方法,其中(6)对生成对抗神经网络进行训练,实现如下:
(6a)将生成对抗神经网络中的所有参数随机初始化;
(6b)在压缩向量数据GE中随机选择64对用药前后的数据,将这些数据中的用药前的压缩向量输入到生成器GE中,得到预测的用药后的基因表达谱压缩向量;
(6c)训练生成对抗神经网络中的判别器DI:
(6c1)将选取的用药后基因表达谱压缩向量标签设定为1,将预测的用药后基因表达谱的压缩向量标签设定为0,并将这两部分基因表达谱压缩向量输入到判别器DI中,得到判别器的输出结果;
(6c2)固定生成器GN的参数,将(6c1)中的标签信息和判别器输出结果传递给随机梯度下降算法更新一次DI的参数;
(6d)训练生成对抗神经网络中的判别器GN:
(6d1)将预测的用药后的基因表达谱的压缩向量设定其标签为1,将表达谱压缩向量输入到判别器DI中,得到判别器的输出结果;
(6d2)固定DI的参数,将(6d1)中的标签信息和判别器的输出结果传递给随机梯度下降算法更新一次GN参数;
(6e)重复(6b)到(6d)的所有步骤,直到判别器的输出概率接近1/2,得到训练好的生成对抗神经网络模型。
CN202010594568.6A 2020-06-28 2020-06-28 基于生成对抗网络的药物作用后基因表达谱预测方法 Active CN111785326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010594568.6A CN111785326B (zh) 2020-06-28 2020-06-28 基于生成对抗网络的药物作用后基因表达谱预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010594568.6A CN111785326B (zh) 2020-06-28 2020-06-28 基于生成对抗网络的药物作用后基因表达谱预测方法

Publications (2)

Publication Number Publication Date
CN111785326A true CN111785326A (zh) 2020-10-16
CN111785326B CN111785326B (zh) 2024-02-06

Family

ID=72760450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010594568.6A Active CN111785326B (zh) 2020-06-28 2020-06-28 基于生成对抗网络的药物作用后基因表达谱预测方法

Country Status (1)

Country Link
CN (1) CN111785326B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270951A (zh) * 2020-11-10 2021-01-26 四川大学 基于多任务胶囊自编码器神经网络的全新分子生成方法
WO2022178961A1 (zh) * 2021-02-23 2022-09-01 北京亿药科技有限公司 一种基于神经网络和连接图算法的化合物功能预测方法
CN116580767A (zh) * 2023-04-26 2023-08-11 之江实验室 一种基于自监督与Transformer的基因表型预测方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030104394A1 (en) * 2001-12-03 2003-06-05 Xudong Dai Method and system for gene expression profiling analysis utilizing frequency domain transformation
CN109063416A (zh) * 2018-07-23 2018-12-21 太原理工大学 基于lstm循环神经网络的基因表达预测方法
GB201904887D0 (en) * 2019-04-05 2019-05-22 Lifebit Biotech Ltd Lifebit al
CN111276187A (zh) * 2020-01-12 2020-06-12 湖南大学 一种基于自编码器的基因表达谱特征学习方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030104394A1 (en) * 2001-12-03 2003-06-05 Xudong Dai Method and system for gene expression profiling analysis utilizing frequency domain transformation
CN109063416A (zh) * 2018-07-23 2018-12-21 太原理工大学 基于lstm循环神经网络的基因表达预测方法
GB201904887D0 (en) * 2019-04-05 2019-05-22 Lifebit Biotech Ltd Lifebit al
CN111276187A (zh) * 2020-01-12 2020-06-12 湖南大学 一种基于自编码器的基因表达谱特征学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋欣雨;文昱琦;刘祯;何松;伯晓晨;: "基于LINCS转录组大数据的药物诱导基因共表达网络构建", 军事医学, no. 06 *
李杰, 唐降龙, 王亚东, 李霞: "基因表达谱聚类/分类技术研究及展望", 生物工程学报, no. 04 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270951A (zh) * 2020-11-10 2021-01-26 四川大学 基于多任务胶囊自编码器神经网络的全新分子生成方法
WO2022178961A1 (zh) * 2021-02-23 2022-09-01 北京亿药科技有限公司 一种基于神经网络和连接图算法的化合物功能预测方法
CN116580767A (zh) * 2023-04-26 2023-08-11 之江实验室 一种基于自监督与Transformer的基因表型预测方法和系统
CN116580767B (zh) * 2023-04-26 2024-03-12 之江实验室 一种基于自监督与Transformer的基因表型预测方法和系统

Also Published As

Publication number Publication date
CN111785326B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
Li et al. DeepDSC: a deep learning method to predict drug sensitivity of cancer cell lines
CN111785326B (zh) 基于生成对抗网络的药物作用后基因表达谱预测方法
CN110097185B (zh) 一种基于生成对抗网络的优化模型方法及应用
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN110993113B (zh) 基于MF-SDAE的lncRNA-疾病关系预测方法及系统
CN107122327A (zh) 一种利用训练数据训练模型的方法和训练系统
CN108197432A (zh) 一种基于基因表达数据的基因调控网络重构方法
CN110210495A (zh) 基于并行LSTM自编码器动态特征提取的XGBoost软测量建模方法
CN114360662A (zh) 一种基于两路多分支cnn的单步逆合成方法及系统
Khalaj et al. Metaverse and ai digital twinning of 42sicr steel alloys
CN117077085B (zh) 大模型结合双路记忆的多模态有害社交媒体内容识别方法
CN112652358A (zh) 基于三通道深度学习调控疾病靶点的药物推荐系统、计算机设备、存储介质
CN116401555A (zh) 双胞识别模型的构建方法、系统及存储介质
CN104732067A (zh) 一种面向流程对象的工业过程建模预测方法
CN108388944A (zh) Lstm神经网络芯片及其使用方法
CN117334271A (zh) 一种基于指定属性生成分子的方法
CN115083537A (zh) 分子骨架跃迁的处理方法、装置、介质及电子设备
CN115966316B (zh) 肿瘤药物敏感性预测方法、系统、设备及存储介质
CN114842923A (zh) 一种基于深度主动学习的高通量虚拟筛选方法
US20220300807A1 (en) Systems and methods for applying a transformer network to spatial data
Fujarewicz et al. Spatiotemporal sensitivity of systems modeled by cellular automata
CN113962369B (zh) 一种基于改进Levenberg-Marquardt的径向基神经网络优化方法
Yu et al. Sampling from Disentangled Representations of Single-Cell Data Using Generative Adversarial Networks
Patvichaichod An improved genetic algorithm for the traveling salesman problem with multi-relations
CN113256000B (zh) 一种带注意力机制序列到序列的景区短期客流量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant