CN114023387B - 一种基于卷积神经网络的细胞反卷积预测方法 - Google Patents

一种基于卷积神经网络的细胞反卷积预测方法 Download PDF

Info

Publication number
CN114023387B
CN114023387B CN202210003514.7A CN202210003514A CN114023387B CN 114023387 B CN114023387 B CN 114023387B CN 202210003514 A CN202210003514 A CN 202210003514A CN 114023387 B CN114023387 B CN 114023387B
Authority
CN
China
Prior art keywords
cell
data
tissue
model
proportion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210003514.7A
Other languages
English (en)
Other versions
CN114023387A (zh
Inventor
刘振栋
吕欣荣
戴琼海
李冬雁
陈曦
杨玉荣
秦梦颖
柏苛
刘芳含
何志强
李晓峰
季向阳
刘烨斌
胡国胜
李国文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202210003514.7A priority Critical patent/CN114023387B/zh
Publication of CN114023387A publication Critical patent/CN114023387A/zh
Application granted granted Critical
Publication of CN114023387B publication Critical patent/CN114023387B/zh
Priority to US18/150,201 priority patent/US20230223099A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于卷积神经网络的细胞反卷积预测方法,该方法属于细胞反卷积预测领域。使用卷积神经网络技术从单细胞RNA测序数据中推测组织的细胞类型组成比例,与传统的细胞反卷积算法相比,解决了传统反卷积需要进行复杂的数据预处理,并需要设计数学算法对单细胞测序数据进行规范化等弊端。本发明设计的卷积神经网络可以从单细胞RNA测序数据中提取出隐藏特征,并且网络节点对数据的噪音和误差具有很高的鲁棒性,并充分挖掘了各个基因之间的内在联系,因而提高了细胞反卷积性能,同时模型是建立在神经网络的基础上的,与传统的线性模型,机器学习等方法相比,模型结构直观易于理解,并且具有更好的反卷积性能和高度的扩展性。

Description

一种基于卷积神经网络的细胞反卷积预测方法
技术领域
本发明主要涉及基于单细胞RNA测序数据的下游分析领域,主要是关于一种细胞反卷积方法,特别是涉及到一种基于卷积神经网络的对单细胞RNA测序数据进行细胞反卷积方法。
背景技术
随着高通量测序技术被广泛的运用在生物和医学领域,近年来开发的单细胞RNA测序技术可以对单个细胞进行无偏、可重复、高分辨率和高通量的转录分析。传统的测序技术是基于群体细胞进行测序,反映出的是一群细胞的平均表达值,并不能揭示不同细胞之间的异质性。而单细胞RNA测序技术可以研究单个细胞表达谱,从而避免单个细胞的基因表达值被群体的平均值所掩盖,以揭示复杂细胞群体的异质性。单细胞RNA测序技术对单个细胞的全部RNA进行提取、逆转录、扩增和测序得到单细胞RNA测序数据,对测序数据的分析可以揭示生物组织的细胞构成、发现罕见的细胞群、探究细胞组分的变化等。
细胞反卷积是单细胞RNA测序数据下游分析的一个方面,细胞反卷积即从组织样本的单细胞RNA测序数据中推断出该组织存在的细胞类型及比例,这可用于发现新的细胞亚型、讨论癌组织的免疫浸润情况、探究疾病的发病机理等。而传统反卷积算法存在一些弊端,如使用的数学模型需要添加各种约束来规范模型,模型不够直观难以理解。需要进行繁琐的数据预处理,并对特定细胞类型的基因表达矩阵的准确度及组织的基因表达矩阵的准确度要求都较高。目前机器学习技术在细胞反卷积领域应用的还不够广泛,在使用机器学习技术提升细胞反卷积性能上仍具有较大探索空间。针对这些问题,我们急需发展出一种新的细胞反卷积方案来应对较高的生物医学的数据处理及分析需求。
发明内容
针对现有细胞反卷积算法的缺陷,本发明提供了一种基于卷积神经网络的细胞反卷积预测方法Cbccon。Cbccon通过使用深度学习技术即卷积神经网络来进行组织细胞比例预测,Cbccon模型的隐藏节点可以有效的挖掘出基因之间的内部联系,节点可以学习到对噪音和偏差具有鲁棒性的特征,具有更好的反卷积性能。建立Cbccon模型的目的在于解决当前细胞反卷积算法受到噪音和偏差的影响从而导致精度不高,并且需要添加各种约束来规范模型等问题。
为实现上述目的,本发明提供如下技术方案:一种基于卷积神经网络的细胞反卷积方法,包括以下步骤:
(1)使用单细胞RNA测序数据模拟人工组织,确定一个模拟人工组织中的细胞总数K和需要生成的人工组织个数Q;从单细胞RNA测序数据中抽取K个细胞,合并抽取细胞的基因表达矩阵形成模拟人工组织的基因表达矩阵
Figure 551563DEST_PATH_IMAGE001
为模拟组织的特征,并记录该组织各个类型细胞所占比例
Figure 386795DEST_PATH_IMAGE002
作为该组织的标记信息,
Figure 303936DEST_PATH_IMAGE003
为某细胞类型占该组织的细胞比例数;t为该组织细胞类型数目;所述的K为大于1的正整数,Q为大于1的正整数;
(2)对步骤(1)所得的模拟人工组织
Figure 224618DEST_PATH_IMAGE004
进行特征筛选,并对每个特征
Figure 760773DEST_PATH_IMAGE005
执行转化到对数空间和归一化操作,通过以上处理,得到数据集
Figure 447582DEST_PATH_IMAGE006
(3)对步骤(2)中得到的数据集
Figure 410990DEST_PATH_IMAGE006
,数据集
Figure 818968DEST_PATH_IMAGE006
若来源于s个不同数据集,将其分为训练集
Figure 34180DEST_PATH_IMAGE007
和测试集
Figure 575495DEST_PATH_IMAGE008
进行s折交叉验证,训练集由s-1个来源不同的数据组成,测试集由剩下的1个来源的部分数据组成,确定batch size的大小,在训练
Figure 975384DEST_PATH_IMAGE009
集中随机抽取batch size个数据
Figure 605079DEST_PATH_IMAGE010
作为一次训练的输入数据;
(4)从步骤(3)中输入数据中获得组织的细胞类型数目t作为该卷积神经网络的全连接模块中最后一层神经元的个数,构建卷积神经网络模型Cbccon,确定模型的学习率learning rate,模型训练测次数step,模型的优化算法optimized algorithm;将步骤(3)中的
Figure 483037DEST_PATH_IMAGE010
作为一次训练的数据输入Cbccon模型中进行模型训练,得到预测的组织细胞比例
Figure 878859DEST_PATH_IMAGE011
(1≤i≤t)为训练集预测的某细胞类型占该组织的细胞比例数。通过公式
Figure 184069DEST_PATH_IMAGE012
计算细胞比例预测值和真实值之间计算损失函数,
Figure 35482DEST_PATH_IMAGE013
是该组织真实的细胞分数标签,
Figure 185971DEST_PATH_IMAGE014
是训练集该组织细预测的细胞比例,利用优化算法对损失函数
Figure 436300DEST_PATH_IMAGE015
进行优化;依据步骤(3)中再随机抽取step-1次的
Figure 240307DEST_PATH_IMAGE016
继续训练,训练完毕后,保存训练好的Cbccon模型中参数;
(5)使用步骤(4)中训练好的Cbccon模型进行数据预测,将
Figure 657645DEST_PATH_IMAGE017
输入训练好的模型中,得到预测结果即预测的测试集的组织细胞类型比例
Figure 812158DEST_PATH_IMAGE018
(1≤i≤t)为测试集数据中预测的某细胞类型占该组织的细胞比例数。
对步骤(4-5)中的得到的模型构建评价指标对模型性能评价,分别通过公式
Figure 936234DEST_PATH_IMAGE019
,公式
Figure 908213DEST_PATH_IMAGE020
,公式
Figure 468639DEST_PATH_IMAGE021
,和公式
Figure 39560DEST_PATH_IMAGE022
评价Cbccon模型的性能并与CPM、Cibersort(Ci)、Cibersortx(Cix)、MuSic方法进行比较。
Figure 881393DEST_PATH_IMAGE023
是预测的细胞比例,
Figure 777936DEST_PATH_IMAGE024
是实际的细胞比例,
Figure 825658DEST_PATH_IMAGE025
分别代表预测和实际细胞比例的标准差,
Figure 181028DEST_PATH_IMAGE026
分别代表预测和实际细胞比例的均值。通过比较模型评价指标,可以得出Cbccon模型与其他算法相比,RMSE值更低且变化幅度更小,relate值更高。这可以表明Cbccon方法与其他算法相比具有更好的反卷积性能。Cbccon对细胞反卷积预测精度的提升主要是由于模型使用的卷积层可以从单细胞RNA测序数据中充分挖掘各个基因之间的内在联系,从而提取出数据的隐藏特征,并且Cbccon的网络节点对数据的噪音和偏差具有很高的鲁棒性,因此对细胞比例预测的精度更高。并且Cbccon解决了传统算法需要特定细胞类型的基因表达矩阵才能进行细胞反卷积问题,或需要添加各种约束来规范模型等问题,并且模型结构直观易于理解具有高度的扩展性。
优选的,步骤(1)中,所述的K为100-5000,所述的Q为1000-100000。
优选的,步骤(1)中所述的使用单细胞RNA测序数据进行模拟包括以下步骤:
(1-1)通过公式
Figure 263385DEST_PATH_IMAGE027
(1≤i≤t)确定单个模拟的细胞组织中各个细胞类型的比例,即确定模拟组织的标记信息
Figure 65250DEST_PATH_IMAGE028
为某细胞类型占该模拟组织的细胞比例数;
Figure 659655DEST_PATH_IMAGE029
是为单个细胞类型的创建的随机数,
Figure 103537DEST_PATH_IMAGE030
取值在[0,1]之间,
Figure 368296DEST_PATH_IMAGE031
是为所有细胞类型创建的随机数的总和,
Figure 338133DEST_PATH_IMAGE032
(1-2)通过公式
Figure 829288DEST_PATH_IMAGE033
(1≤i≤t)确定单个模拟的细胞组织实际应抽取的各个细胞类型的细胞数目,即确定为单个模拟细胞组织的各个细胞类型抽取的细胞个数
Figure 529391DEST_PATH_IMAGE034
为某模拟组织单个细胞类型应抽取的细胞数,
Figure 927617DEST_PATH_IMAGE035
是为某细胞类型占该模拟组织的细胞比例数,K是设定的一个模拟人工组织中的细胞总数,
Figure 727077DEST_PATH_IMAGE036
为单个模拟的细胞组织实际应抽取的各个细胞类型的细胞数目,
Figure 95742DEST_PATH_IMAGE037
优选的,步骤(2)中所述的对模拟人工组织X进行数据预处理包括以下步骤:
(2-1)通过公式
Figure 3130DEST_PATH_IMAGE038
Figure 524373DEST_PATH_IMAGE039
数据转换到对数空间得到
Figure 88209DEST_PATH_IMAGE040
(2-2)通过公式
Figure 160814DEST_PATH_IMAGE041
(1≤i≤n,1≤j≤m)线性归一化
Figure 609244DEST_PATH_IMAGE042
得到
Figure 234260DEST_PATH_IMAGE043
优选的,步骤(3)中的batch size的取值为128。
优选的,步骤(4)中所述的Cbccon模型结构为卷积神经网络由为多个卷积层池化层和一个全连接层组成,使用了两个64个提取特征的filter卷积层,使用一层最大池化层减少特征数,使用了两个32个filter卷积层,使用一层最大池化减少特征数,使用了两个16个filter卷积层,使用一层最大池化减少特征数,使用了两个8个filter卷积层,使用一层最大池化减少特征数,使用了两个4个filter卷积层,使用一层最大池化减少特征数,再将数据输入压平层中,将数据转化为一维数据;最后使用三个全连接层,节点数分别是128,64,细胞种类的数;所有的卷积层均为一维,且卷积层的激活函数统一设置为relu函数,步长均为1,前两个全连接层使用relu激活函数,最后一个全连接层使用softmax层进行组织细胞比例预测。
优选的,步骤(4)中所述的Cbccon模型学习率learning rate的取值为0.0001,模型训练测次数step取值为5000,模型的optimized algorithm(优化算法)设置为RMSprop算法。
与现有技术方法相比,本发明的有益效果是:
本专利提出了新的细胞反卷积预测算法的方案,能够更加准确的预测组织的细胞比例。该算法基于单细胞RNA测序数据模拟异质组织的基因表达矩阵,在一定程度上解决了单细胞RNA测序数据获取昂贵的问题,并且该方法基于卷积神经网络,模型结构清晰易于理解,无需进行繁琐的数据预处理,且不需要特定的细胞表达矩阵建立复杂的数学模型。
附图说明
图1为Cbccon的模型结构示意图;
图2为Cbccon模型具体参数;
图3为Cbccon测试集的部分预测结果;
图4为Cbccon模型与CPM、Cibersort(Ci)、Cibersortx(Cix)、MuSic反卷积模型的各评价指标对比图;
图5为Cbccon模型与CPM、Cibersort(Ci)、Cibersortx(Cix)、MuSic反卷积模型的RMSE评价指标对比图;
图6为Cbccon模型与CPM、Cibersort(Ci)、Cibersortx(Cix)、MuSic反卷积模型的relate评价指标对比图。
具体实施方式
为了清楚的阐明本发明的技术方案,下面结合附图1-6以及实例对本发明进行阐述,此处的实例仅用于解释本发明,并不限定本发明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
图1展示了使用单细胞RNA测序数据进行组织细胞反卷积的Cbccon模型的简要图示,首先将预处理后的模拟组织的基因表达矩输入卷积神经网络中。每一行是一个模拟组织的各个基因的表达量,该行标签是对应的模拟组织的细胞类型比例。Cbccon模型分为将数据输入特征提取层中,将两个卷积层和一个最大池化层作为特征提取层,共进行了五次特征提取,再将得到的数据输入压平层中,将数据格式转化为一个一维向量。最后将一维向量输入一个三层的全连接神经网络中,经过训练可以得到预测的组织细胞比例。
图2展示了卷积神经网络中的参数设置,第一个特征提取层使用了两个64个提取特征的filter卷积层,使用一层最大池化层减少特征数。使用了两个32个filter卷积层,使用一层最大池化减少特征数,使用了两个16个filter卷积层,使用一层最大池化减少特征数,使用了两个8个filter卷积层,使用一层最大池化减少特征数,使用了两个4个filter卷积层,使用一层最大池化减少特征数,再将数据输入压平层中,将数据转化为一维数据。最后使用三个全连接层,节点数分别是128,64,细胞种类的数。所有的卷积层均为一维,且卷积层的激活函数统一设置为relu函数,步长均为1,前两个全连接层使用relu激活函数,最后一个全连接层使用softmax层进行组织细胞比例预测;
数据选定来自人外周血单个核细胞(PBMC)数据的单细胞RNA测序数据,分别来自四个数据集,本文对以上数据将以data6k、data8k、donorA和donorC引用。Cbccon的输入文件包含两个txt文件,count.txt中为PBMC数据的单个细胞基因表达矩阵,celltype.txt中pbmc组织中包含细胞的种类。Cbccon的输出文件包括以一个pb文件、个txt文件、一个csv文件。savemodel.pb文件中保存的是训练完毕后模型中参数,prediction.txt预测组织的各细胞类型比例,compare.csv文件为Cbccon模型与CPM、Ci、Cix、Music方法的各项评价指标RMSE、relate、hrelate、uniform的得分结果比较,用来对比模型的性能。设定一个模拟人工组织中的细胞总数K=500和需要生成的人工组织个数Q=32000,一次训练的数据个数即批大小batch size=128,模型的学习率learning rate=0.0001,模型训练测次数step=5000,模型的optimized algorithm设置为RMSprop算法。以下是进行细胞反卷积算法的具体步骤:
1. 用单细胞RNA测序数据模拟人工组织
使用PBMC的data6k、data8k、donorA、donorC的单细胞RNA测序数据模拟人工组织,确定一个模拟人工组织中的细胞总数K=500和需要生成的人工组织个数Q=32000。从单细胞RNA 测序数据中抽取500个细胞,合并抽取细胞的基因表达矩阵形成模拟人工组织的基因表达矩阵
Figure 716801DEST_PATH_IMAGE044
为模拟组织的特征,并记录该组织各个类型细胞所占比例
Figure 669845DEST_PATH_IMAGE045
作为该组织的标记信息,
Figure 145736DEST_PATH_IMAGE046
为某细胞类型占该模拟组织的细胞比例数,包括如下步骤:
(1-1)通过公式
Figure 562942DEST_PATH_IMAGE047
确定单个模拟的细胞组织中各个细胞类型的比例,即确定模拟组织的标记信息
Figure 484892DEST_PATH_IMAGE048
为某细胞类型占该模拟组织的细胞比例数。
Figure 781357DEST_PATH_IMAGE049
是为单个细胞类型的创建的随机数,
Figure 837169DEST_PATH_IMAGE050
取值在[0,1]之间,
Figure 312144DEST_PATH_IMAGE051
是为所有细胞类型创建的随机数的总和,
Figure 933225DEST_PATH_IMAGE052
(1-2)通过公式
Figure 454336DEST_PATH_IMAGE053
(1≤i≤6),K=500确定单个模拟的细胞组织实际应抽取的各个细胞类型的细胞数目,即确定为单个模拟细胞组织的各个细胞类型抽取的细胞个数
Figure 48259DEST_PATH_IMAGE054
为某模拟组织单个细胞类型应抽取的细胞数,
Figure 984598DEST_PATH_IMAGE055
是为某细胞类型占该模拟组织的细胞比例数,K是设定的一个模拟人工组织中的细胞总数,
Figure 638564DEST_PATH_IMAGE056
为单个模拟的细胞组织实际应抽取的各个细胞类型的细胞数目,
Figure 443709DEST_PATH_IMAGE057
2. 数据预处理
对步骤1所得的模拟人工组织
Figure 575744DEST_PATH_IMAGE044
进行数据预处理,对数据集X中每个特征
Figure 632169DEST_PATH_IMAGE058
执行筛选去除了21410个特征项,剩下11328个特征,再将X转化到对数空间和归一化操作,通过以上数据预处理,得到数据集
Figure 316091DEST_PATH_IMAGE059
,包括如下步骤:
(2-1)通过公式
Figure 497280DEST_PATH_IMAGE060
Figure 823219DEST_PATH_IMAGE061
数据转换到对数空间得到
Figure 471501DEST_PATH_IMAGE062
;以
Figure 198761DEST_PATH_IMAGE063
为例,即A1BG特征的特征值从[105.2,83.5,55.8,....]转化为[6.73,6.4,5.82,...];
(2-2)通过公式
Figure 978498DEST_PATH_IMAGE064
(1≤i≤n,1≤j≤m)线性归一化
Figure 717915DEST_PATH_IMAGE065
,将
Figure 142074DEST_PATH_IMAGE066
的的值缩放到[0,1]之间,得到
Figure 650022DEST_PATH_IMAGE067
。以
Figure 385897DEST_PATH_IMAGE068
为例,即A1BG特征的的最大值为10.54,最小值为0.53。
3. 划分数据集
对步骤2中得到的数据集
Figure 762562DEST_PATH_IMAGE067
,数据集
Figure 369124DEST_PATH_IMAGE067
来源于4个不同数据集data6k、data8k、donorA、donorC,数据集中有六种细胞类型分别为Monocytes、Unknown 、CD4Tcells、Bcells、NK、CD8Tcells,其中Unknown代表未知的细胞类型。将数据集分为训练集
Figure 582062DEST_PATH_IMAGE069
和测试集
Figure 818615DEST_PATH_IMAGE070
进行4折交叉验证,训练集由3个来源不同的数据组成,测试集由剩下的1个来源的部分数据组成。我们从
Figure 24468DEST_PATH_IMAGE071
选取来自data6k、data8k、donorC的数据作为训练集,使用donorA中的数据作为测试集,为了方便测试,我们仅从donorA中抽取500个数据作为测试集,确定batch size的大小为128。在训练集
Figure 30077DEST_PATH_IMAGE069
中随机抽取128个数据
Figure 882758DEST_PATH_IMAGE072
作为一次训练的输入数据;
4. 训练Cbccon模型
从步骤3中输入数据中获得组织的细胞类型数目t=6作为该卷积神经网络的全连接模块中最后一层神经元的个数,构建卷积神经网络模型Cbccon,确定模型的学习率learning rate=0.0001,模型训练测次数step=5000,模型的优化算法optimizedalgorithm为RMSprop算案发。将步骤3中的
Figure 62066DEST_PATH_IMAGE072
作为一次训练的数据输入Cbccon模型中进行模型训练,得到训练集的预测的组织细胞比例
Figure 944047DEST_PATH_IMAGE073
(1≤i≤6)为训练集预测的某细胞类型占该组织的细胞比例数。通过公式
Figure 807092DEST_PATH_IMAGE074
计算细胞比例预测值和真实值之间计算损失函数,
Figure 752045DEST_PATH_IMAGE075
是该组织真实的细胞分数标签,
Figure 681300DEST_PATH_IMAGE076
是该组织细预测的细胞比例,利用优化算法RMSprop对损失函数
Figure 369901DEST_PATH_IMAGE077
进行优化。依据步骤3中再随机抽取4999次的
Figure 556294DEST_PATH_IMAGE078
继续训练,训练完毕后,保存训练好的Cbccon模型中参数;
5. 使用训练好的模型进行预测
使用步骤4中训练好的Cbccon模型进行数据预测,将测试集数据即
Figure 528273DEST_PATH_IMAGE079
即donorA中500条测试数据输入训练好的模型中,得到预测结果即测试集上预测的组织细胞类型比例
Figure 88699DEST_PATH_IMAGE080
(1≤i≤t)为测试集数据中预测的某细胞类型占该组织的细胞比例数。以测试集中一个名为V241模拟组织为例,V241的组织细胞比例预测结果为:Monocytes类型的细胞比例0.171;Unknown类型的细胞比例为0.027;CD4Tcells类型的细胞比例为0.428;Bcells类型的细胞比例为0.102;NK类型的细胞比例为0.086;CD8Tcells类型的细胞比例为0.185。500个模拟组织的细胞类型比例部分预测结果如图4所示。
6. 模型评估
对步骤4-5中的得到的模型构建评价对模型性能评价,分别通过公式
分别通过公式
Figure 190778DEST_PATH_IMAGE081
,公式
Figure 884540DEST_PATH_IMAGE082
,公式
Figure 843400DEST_PATH_IMAGE083
,和公式
Figure 422280DEST_PATH_IMAGE022
评价Cbccon模型的性能并与CPM、Cibersort(Ci)、Cibersortx(Cix)、MuSic方法进行比较,
Figure 793962DEST_PATH_IMAGE084
是预测的细胞比例,
Figure 204215DEST_PATH_IMAGE085
是是实际的细胞比例,
Figure 927451DEST_PATH_IMAGE025
分别代表预测和实际细胞比例的标准差,
Figure 92764DEST_PATH_IMAGE086
分别代表预测和实际细胞比例的均值,通过比较模型评价指标,可以得出Cbccon模型与其他算法相比,RMSE值更低且变化幅度小,relate值更高。这可以表明Cbccon方法与其他算法相比具有更好的反卷积性能。Cbccon对细胞反卷积预测精度的提升主要是由于模型使用的卷积层可以从单细胞RNA测序数据中充分挖掘各个基因之间的内在联系,从而提取出数据的隐藏特征,并且Cbccon的网络节点对数据的噪音和偏差具有很高的鲁棒性,因此对细胞比例预测的精度更高。并且Cbccon解决了传统算法需要特定细胞类型的基因表达矩阵才能进行细胞反卷积、需要添加各种约束来规范模型等问题,并且模型结构直观易于理解具有高度的扩展性。对比结果如图4、图5和图6所示。
在步骤4中使用训练数据对模型拟合完毕后,Cbccon达到的数据覆盖率统计如下:
(1)细胞比例预测值和真实值误差在10%以内的数据; 覆盖率:99.8%;
(2)细胞比例预测值和真实值误差在5%以内的数据; 覆盖率:85%;
(3)细胞比例预测值和真实值误差在1%以内的数据; 覆盖率:30%;
图4、图5和图6中比较结果可以看出Cbccon的RMSE相对来说更低,并且变化幅度更小,relate相关性与其他方法相比也更高,达到了0.900,这表明Cbccon模型在组织比例预测上,模型具有较好的精确性并对噪声的抗干扰能力更强。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施案例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施案例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于卷积神经网络的细胞反卷积方法,包括以下步骤:
(1)使用单细胞RNA测序数据模拟人工组织,确定一个模拟人工组织中的细胞总数K和需要生成的人工组织个数Q;从单细胞RNA测序数据中抽取K个细胞,合并抽取细胞的基因表达矩阵形成模拟人工组织的基因表达矩阵
Figure 939663DEST_PATH_IMAGE002
,
Figure 325645DEST_PATH_IMAGE004
为模拟组织的特征,
Figure 324956DEST_PATH_IMAGE006
;记录该组织各个类型细胞所占比例
Figure 189007DEST_PATH_IMAGE008
作为该组织的标记信息,
Figure 206642DEST_PATH_IMAGE010
为某细胞类型占该组织的细胞比例数,t为该组织细胞类型数目,
Figure 497946DEST_PATH_IMAGE012
;所述K为大于1的正整数,Q为大于1的正整数;
(2)对步骤(1)所得的模拟人工组织
Figure 483088DEST_PATH_IMAGE002
进行特征筛选,并对每个特征
Figure 885251DEST_PATH_IMAGE004
执行转化到对数空间和归一化操作,
Figure 288550DEST_PATH_IMAGE006
;通过以上处理,得到数据集
Figure 232979DEST_PATH_IMAGE013
(3)对步骤(2)中得到的数据集
Figure DEST_PATH_IMAGE014
,数据集
Figure 659412DEST_PATH_IMAGE013
若来源于s个不同数据集,将其分为训练集
Figure 865266DEST_PATH_IMAGE015
和测试集
Figure DEST_PATH_IMAGE016
进行s折交叉验证,训练集由s-1个来源不同的数据组成,测试集由剩下的1个来源的部分数据组成,确定batch size的大小,在训练
Figure 310022DEST_PATH_IMAGE015
集中随机抽取batch size个数据
Figure 208708DEST_PATH_IMAGE017
作为一次训练的输入数据;
(4)从步骤(3)中输入数据中获得组织的细胞类型数目t作为该卷积神经网络的全连接模块中最后一层神经元的个数,构建卷积神经网络模型Cbccon,确定模型的学习率learning rate,模型训练测次数step,模型的优化算法optimized algorithm;将步骤(3)中的
Figure DEST_PATH_IMAGE018
作为一次训练的数据输入Cbccon模型中进行模型训练,得到预测的组织细胞比
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
训练集预测的某细胞类型占该组织的细胞比例数,
Figure 810853DEST_PATH_IMAGE012
;通过公式
Figure 538507DEST_PATH_IMAGE023
计算细胞比例预测值和真实值之间计算损失函数,
Figure DEST_PATH_IMAGE024
是该组织真实的细胞分数标签,
Figure 119661DEST_PATH_IMAGE025
是训练集该组织细预测的细胞比例,利用优化算法对损失函数
Figure DEST_PATH_IMAGE026
进行优化,
Figure 880593DEST_PATH_IMAGE012
;依据步骤(3)中再随机抽取step-1次的
Figure 78356DEST_PATH_IMAGE018
继续训练,训练完毕后,保存训练好的Cbccon模型中参数;
所述Cbccon模型结构为卷积神经网络由为多个卷积层池化层和一个全连接层组成,使用了两个64个提取特征的filter卷积层,使用一层最大池化层减少特征数,使用了两个32个filter卷积层,使用一层最大池化减少特征数,使用了两个16个filter卷积层,使用一层最大池化减少特征数,使用了两个8个filter卷积层,使用一层最大池化减少特征数,使用了两个4个filter卷积层,使用一层最大池化减少特征数,再将数据输入压平层中,将数据转化为一维数据;最后使用三个全连接层,节点数分别是128,64,细胞种类的数;所有的卷积层均为一维,且卷积层的激活函数统一设置为relu函数,步长均为1,前两个全连接层使用relu激活函数,最后一个全连接层使用softmax层进行组织细胞比例预测;
所述Cbccon模型学习率learning rate的取值为0.0001,模型训练测次数step取值为5000,模型的optimized algorithm设置为RMSprop算法;
(5)使用步骤(4)中训练好的Cbccon模型进行数据预测,将
Figure DEST_PATH_IMAGE027
输入训练好的模型中,得到预测结果即预测的测试集的组织细胞类型比例
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE031
为测试集数据中预测的某细胞类型占该组织的细胞比例数,
Figure 16225DEST_PATH_IMAGE012
2.根据权利要求1所述的基于卷积神经网络的细胞反卷积方法,其特征在于:所述K为100-5000,所述Q为1000-100000。
3.根据权利要求1所述的基于卷积神经网络的细胞反卷积方法,其特征在于:步骤(1)中所述的使用单细胞RNA测序数据进行模拟包括以下步骤:
(1-1)通过公式
Figure DEST_PATH_IMAGE032
确定单个模拟的细胞组织中各个细胞类型的比例,即确定模拟组织的标记信息
Figure 937039DEST_PATH_IMAGE008
Figure 443107DEST_PATH_IMAGE024
为某细胞类型占该模拟组织的细胞比例数;
Figure DEST_PATH_IMAGE033
是为单个细胞类型的创建的随机数,
Figure DEST_PATH_IMAGE034
取值在[0,1]之间,
Figure DEST_PATH_IMAGE035
是为所有细胞类型创建的随机数的总和,
Figure DEST_PATH_IMAGE036
Figure 938285DEST_PATH_IMAGE012
(1-2)通过公式
Figure DEST_PATH_IMAGE037
,确定单个模拟的细胞组织实际应抽取的各个细胞类型的细胞数目,即确定为单个模拟细胞组织的各个细胞类型抽取的细胞个数
Figure DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE041
为某模拟组织单个细胞类型应抽取的细胞数,
Figure DEST_PATH_IMAGE042
是为某细胞类型占该模拟组织的细胞比例数,K是设定的一个模拟人工组织中的细胞总数,
Figure DEST_PATH_IMAGE043
Figure 617528DEST_PATH_IMAGE012
4.根据权利要求1所述的基于卷积神经网络的细胞反卷积方法,其特征在于:步骤(3)中的batch size的取值为128。
CN202210003514.7A 2022-01-05 2022-01-05 一种基于卷积神经网络的细胞反卷积预测方法 Active CN114023387B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210003514.7A CN114023387B (zh) 2022-01-05 2022-01-05 一种基于卷积神经网络的细胞反卷积预测方法
US18/150,201 US20230223099A1 (en) 2022-01-05 2023-01-05 Predicting method of cell deconvolution based on a convolutional neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210003514.7A CN114023387B (zh) 2022-01-05 2022-01-05 一种基于卷积神经网络的细胞反卷积预测方法

Publications (2)

Publication Number Publication Date
CN114023387A CN114023387A (zh) 2022-02-08
CN114023387B true CN114023387B (zh) 2022-04-22

Family

ID=80069696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210003514.7A Active CN114023387B (zh) 2022-01-05 2022-01-05 一种基于卷积神经网络的细胞反卷积预测方法

Country Status (2)

Country Link
US (1) US20230223099A1 (zh)
CN (1) CN114023387B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166100A (zh) * 2018-07-24 2019-01-08 中南大学 基于卷积神经网络的多任务学习细胞计数方法
CN110033440A (zh) * 2019-03-21 2019-07-19 中南大学 基于卷积神经网络与特征融合的生物细胞计数方法
CN110659718A (zh) * 2019-09-12 2020-01-07 中南大学 基于深度卷积神经网络的小卷积核细胞计数方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600577B (zh) * 2016-11-10 2019-10-18 华南理工大学 一种基于深度反卷积神经网络的细胞计数方法
KR20210137110A (ko) * 2019-03-06 2021-11-17 그릿스톤 바이오, 인코포레이티드 Mhc 클래스 ii 모델을 사용한 신생항원 동정
CN113011306A (zh) * 2021-03-15 2021-06-22 中南大学 连续成熟阶段骨髓细胞图像自动识别方法、系统及介质
CN113707216A (zh) * 2021-08-05 2021-11-26 北京科技大学 一种浸润免疫细胞比例计数方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109166100A (zh) * 2018-07-24 2019-01-08 中南大学 基于卷积神经网络的多任务学习细胞计数方法
CN110033440A (zh) * 2019-03-21 2019-07-19 中南大学 基于卷积神经网络与特征融合的生物细胞计数方法
CN110659718A (zh) * 2019-09-12 2020-01-07 中南大学 基于深度卷积神经网络的小卷积核细胞计数方法及系统

Also Published As

Publication number Publication date
CN114023387A (zh) 2022-02-08
US20230223099A1 (en) 2023-07-13

Similar Documents

Publication Publication Date Title
CN108595916B (zh) 基于生成对抗网络的基因表达全谱推断方法
CN111898689B (zh) 一种基于神经网络架构搜索的图像分类方法
CN111860982A (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
CN110473592A (zh) 基于图卷积网络的有监督的多视角人类协同致死基因预测方法
CN107169871B (zh) 一种基于关系组合优化和种子扩张的多关系社区发现方法
CN115564114A (zh) 一种基于图神经网络的空域碳排放短期预测方法及系统
CN109754122A (zh) 一种基于随机森林特征提取的bp神经网络的数值预测方法
CN110765788A (zh) 一种基于隐式翻译模型的知识图谱嵌入方法
CN113344288A (zh) 梯级水电站群水位预测方法、装置及计算机可读存储介质
CN114792126A (zh) 一种基于遗传算法的卷积神经网络设计方法
CN114023387B (zh) 一种基于卷积神经网络的细胞反卷积预测方法
CN112862063A (zh) 一种基于深度信念网络的复杂管网泄漏定位方法
CN115908909A (zh) 基于贝叶斯卷积神经网络的进化神经架构搜索方法及系统
CN106250686A (zh) 一种并行程序的集合通信函数建模方法
CN115661498A (zh) 一种自优化单细胞聚类方法
CN114999579A (zh) 一种筛选化合物分子描述符并确定其取值范围的方法
CN115579068A (zh) 一种基于预训练和深度聚类的宏基因组物种重建方法
CN109858127B (zh) 基于递归时序深度置信网络的蓝藻水华预测方法
CN113889274A (zh) 一种孤独症谱系障碍的风险预测模型构建方法及装置
CN114295967A (zh) 一种基于迁移神经网络的模拟电路故障诊断方法
CN114462548B (zh) 一种提高单细胞深度聚类算法精度的方法
CN113035363B (zh) 一种概率密度加权的遗传代谢病筛查数据混合采样方法
CN109117491A (zh) 一种融合专家经验的高维小数据的代理模型构建方法
CN114239743B (zh) 一种基于稀疏时间序列数据的天气事件发生时间预测方法
CN113722951B (zh) 基于神经网络的散射体三维有限元网格优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant