CN114023387B - 一种基于卷积神经网络的细胞反卷积预测方法 - Google Patents
一种基于卷积神经网络的细胞反卷积预测方法 Download PDFInfo
- Publication number
- CN114023387B CN114023387B CN202210003514.7A CN202210003514A CN114023387B CN 114023387 B CN114023387 B CN 114023387B CN 202210003514 A CN202210003514 A CN 202210003514A CN 114023387 B CN114023387 B CN 114023387B
- Authority
- CN
- China
- Prior art keywords
- cell
- data
- tissue
- model
- proportion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于卷积神经网络的细胞反卷积预测方法,该方法属于细胞反卷积预测领域。使用卷积神经网络技术从单细胞RNA测序数据中推测组织的细胞类型组成比例,与传统的细胞反卷积算法相比,解决了传统反卷积需要进行复杂的数据预处理,并需要设计数学算法对单细胞测序数据进行规范化等弊端。本发明设计的卷积神经网络可以从单细胞RNA测序数据中提取出隐藏特征,并且网络节点对数据的噪音和误差具有很高的鲁棒性,并充分挖掘了各个基因之间的内在联系,因而提高了细胞反卷积性能,同时模型是建立在神经网络的基础上的,与传统的线性模型,机器学习等方法相比,模型结构直观易于理解,并且具有更好的反卷积性能和高度的扩展性。
Description
技术领域
本发明主要涉及基于单细胞RNA测序数据的下游分析领域,主要是关于一种细胞反卷积方法,特别是涉及到一种基于卷积神经网络的对单细胞RNA测序数据进行细胞反卷积方法。
背景技术
随着高通量测序技术被广泛的运用在生物和医学领域,近年来开发的单细胞RNA测序技术可以对单个细胞进行无偏、可重复、高分辨率和高通量的转录分析。传统的测序技术是基于群体细胞进行测序,反映出的是一群细胞的平均表达值,并不能揭示不同细胞之间的异质性。而单细胞RNA测序技术可以研究单个细胞表达谱,从而避免单个细胞的基因表达值被群体的平均值所掩盖,以揭示复杂细胞群体的异质性。单细胞RNA测序技术对单个细胞的全部RNA进行提取、逆转录、扩增和测序得到单细胞RNA测序数据,对测序数据的分析可以揭示生物组织的细胞构成、发现罕见的细胞群、探究细胞组分的变化等。
细胞反卷积是单细胞RNA测序数据下游分析的一个方面,细胞反卷积即从组织样本的单细胞RNA测序数据中推断出该组织存在的细胞类型及比例,这可用于发现新的细胞亚型、讨论癌组织的免疫浸润情况、探究疾病的发病机理等。而传统反卷积算法存在一些弊端,如使用的数学模型需要添加各种约束来规范模型,模型不够直观难以理解。需要进行繁琐的数据预处理,并对特定细胞类型的基因表达矩阵的准确度及组织的基因表达矩阵的准确度要求都较高。目前机器学习技术在细胞反卷积领域应用的还不够广泛,在使用机器学习技术提升细胞反卷积性能上仍具有较大探索空间。针对这些问题,我们急需发展出一种新的细胞反卷积方案来应对较高的生物医学的数据处理及分析需求。
发明内容
针对现有细胞反卷积算法的缺陷,本发明提供了一种基于卷积神经网络的细胞反卷积预测方法Cbccon。Cbccon通过使用深度学习技术即卷积神经网络来进行组织细胞比例预测,Cbccon模型的隐藏节点可以有效的挖掘出基因之间的内部联系,节点可以学习到对噪音和偏差具有鲁棒性的特征,具有更好的反卷积性能。建立Cbccon模型的目的在于解决当前细胞反卷积算法受到噪音和偏差的影响从而导致精度不高,并且需要添加各种约束来规范模型等问题。
为实现上述目的,本发明提供如下技术方案:一种基于卷积神经网络的细胞反卷积方法,包括以下步骤:
(1)使用单细胞RNA测序数据模拟人工组织,确定一个模拟人工组织中的细胞总数K和需要生成的人工组织个数Q;从单细胞RNA测序数据中抽取K个细胞,合并抽取细胞的基因表达矩阵形成模拟人工组织的基因表达矩阵为模拟组织的特征,并记录该组织各个类型细胞所占比例作为该组织的标记信息,为某细胞类型占该组织的细胞比例数;t为该组织细胞类型数目;所述的K为大于1的正整数,Q为大于1的正整数;
(3)对步骤(2)中得到的数据集,数据集若来源于s个不同数据集,将其分为训练集和测试集进行s折交叉验证,训练集由s-1个来源不同的数据组成,测试集由剩下的1个来源的部分数据组成,确定batch size的大小,在训练集中随机抽取batch size个数据作为一次训练的输入数据;
(4)从步骤(3)中输入数据中获得组织的细胞类型数目t作为该卷积神经网络的全连接模块中最后一层神经元的个数,构建卷积神经网络模型Cbccon,确定模型的学习率learning rate,模型训练测次数step,模型的优化算法optimized algorithm;将步骤(3)中的作为一次训练的数据输入Cbccon模型中进行模型训练,得到预测的组织细胞比例(1≤i≤t)为训练集预测的某细胞类型占该组织的细胞比例数。通过公式计算细胞比例预测值和真实值之间计算损失函数,是该组织真实的细胞分数标签,是训练集该组织细预测的细胞比例,利用优化算法对损失函数进行优化;依据步骤(3)中再随机抽取step-1次的继续训练,训练完毕后,保存训练好的Cbccon模型中参数;
对步骤(4-5)中的得到的模型构建评价指标对模型性能评价,分别通过公式,公式,公式,和公式评价Cbccon模型的性能并与CPM、Cibersort(Ci)、Cibersortx(Cix)、MuSic方法进行比较。 是预测的细胞比例, 是实际的细胞比例,分别代表预测和实际细胞比例的标准差,分别代表预测和实际细胞比例的均值。通过比较模型评价指标,可以得出Cbccon模型与其他算法相比,RMSE值更低且变化幅度更小,relate值更高。这可以表明Cbccon方法与其他算法相比具有更好的反卷积性能。Cbccon对细胞反卷积预测精度的提升主要是由于模型使用的卷积层可以从单细胞RNA测序数据中充分挖掘各个基因之间的内在联系,从而提取出数据的隐藏特征,并且Cbccon的网络节点对数据的噪音和偏差具有很高的鲁棒性,因此对细胞比例预测的精度更高。并且Cbccon解决了传统算法需要特定细胞类型的基因表达矩阵才能进行细胞反卷积问题,或需要添加各种约束来规范模型等问题,并且模型结构直观易于理解具有高度的扩展性。
优选的,步骤(1)中,所述的K为100-5000,所述的Q为1000-100000。
优选的,步骤(1)中所述的使用单细胞RNA测序数据进行模拟包括以下步骤:
(1-1)通过公式(1≤i≤t)确定单个模拟的细胞组织中各个细胞类型的比例,即确定模拟组织的标记信息为某细胞类型占该模拟组织的细胞比例数;是为单个细胞类型的创建的随机数,取值在[0,1]之间,是为所有细胞类型创建的随机数的总和,;
(1-2)通过公式(1≤i≤t)确定单个模拟的细胞组织实际应抽取的各个细胞类型的细胞数目,即确定为单个模拟细胞组织的各个细胞类型抽取的细胞个数为某模拟组织单个细胞类型应抽取的细胞数,是为某细胞类型占该模拟组织的细胞比例数,K是设定的一个模拟人工组织中的细胞总数,为单个模拟的细胞组织实际应抽取的各个细胞类型的细胞数目,。
优选的,步骤(2)中所述的对模拟人工组织X进行数据预处理包括以下步骤:
优选的,步骤(3)中的batch size的取值为128。
优选的,步骤(4)中所述的Cbccon模型结构为卷积神经网络由为多个卷积层池化层和一个全连接层组成,使用了两个64个提取特征的filter卷积层,使用一层最大池化层减少特征数,使用了两个32个filter卷积层,使用一层最大池化减少特征数,使用了两个16个filter卷积层,使用一层最大池化减少特征数,使用了两个8个filter卷积层,使用一层最大池化减少特征数,使用了两个4个filter卷积层,使用一层最大池化减少特征数,再将数据输入压平层中,将数据转化为一维数据;最后使用三个全连接层,节点数分别是128,64,细胞种类的数;所有的卷积层均为一维,且卷积层的激活函数统一设置为relu函数,步长均为1,前两个全连接层使用relu激活函数,最后一个全连接层使用softmax层进行组织细胞比例预测。
优选的,步骤(4)中所述的Cbccon模型学习率learning rate的取值为0.0001,模型训练测次数step取值为5000,模型的optimized algorithm(优化算法)设置为RMSprop算法。
与现有技术方法相比,本发明的有益效果是:
本专利提出了新的细胞反卷积预测算法的方案,能够更加准确的预测组织的细胞比例。该算法基于单细胞RNA测序数据模拟异质组织的基因表达矩阵,在一定程度上解决了单细胞RNA测序数据获取昂贵的问题,并且该方法基于卷积神经网络,模型结构清晰易于理解,无需进行繁琐的数据预处理,且不需要特定的细胞表达矩阵建立复杂的数学模型。
附图说明
图1为Cbccon的模型结构示意图;
图2为Cbccon模型具体参数;
图3为Cbccon测试集的部分预测结果;
图4为Cbccon模型与CPM、Cibersort(Ci)、Cibersortx(Cix)、MuSic反卷积模型的各评价指标对比图;
图5为Cbccon模型与CPM、Cibersort(Ci)、Cibersortx(Cix)、MuSic反卷积模型的RMSE评价指标对比图;
图6为Cbccon模型与CPM、Cibersort(Ci)、Cibersortx(Cix)、MuSic反卷积模型的relate评价指标对比图。
具体实施方式
为了清楚的阐明本发明的技术方案,下面结合附图1-6以及实例对本发明进行阐述,此处的实例仅用于解释本发明,并不限定本发明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
图1展示了使用单细胞RNA测序数据进行组织细胞反卷积的Cbccon模型的简要图示,首先将预处理后的模拟组织的基因表达矩输入卷积神经网络中。每一行是一个模拟组织的各个基因的表达量,该行标签是对应的模拟组织的细胞类型比例。Cbccon模型分为将数据输入特征提取层中,将两个卷积层和一个最大池化层作为特征提取层,共进行了五次特征提取,再将得到的数据输入压平层中,将数据格式转化为一个一维向量。最后将一维向量输入一个三层的全连接神经网络中,经过训练可以得到预测的组织细胞比例。
图2展示了卷积神经网络中的参数设置,第一个特征提取层使用了两个64个提取特征的filter卷积层,使用一层最大池化层减少特征数。使用了两个32个filter卷积层,使用一层最大池化减少特征数,使用了两个16个filter卷积层,使用一层最大池化减少特征数,使用了两个8个filter卷积层,使用一层最大池化减少特征数,使用了两个4个filter卷积层,使用一层最大池化减少特征数,再将数据输入压平层中,将数据转化为一维数据。最后使用三个全连接层,节点数分别是128,64,细胞种类的数。所有的卷积层均为一维,且卷积层的激活函数统一设置为relu函数,步长均为1,前两个全连接层使用relu激活函数,最后一个全连接层使用softmax层进行组织细胞比例预测;
数据选定来自人外周血单个核细胞(PBMC)数据的单细胞RNA测序数据,分别来自四个数据集,本文对以上数据将以data6k、data8k、donorA和donorC引用。Cbccon的输入文件包含两个txt文件,count.txt中为PBMC数据的单个细胞基因表达矩阵,celltype.txt中pbmc组织中包含细胞的种类。Cbccon的输出文件包括以一个pb文件、个txt文件、一个csv文件。savemodel.pb文件中保存的是训练完毕后模型中参数,prediction.txt预测组织的各细胞类型比例,compare.csv文件为Cbccon模型与CPM、Ci、Cix、Music方法的各项评价指标RMSE、relate、hrelate、uniform的得分结果比较,用来对比模型的性能。设定一个模拟人工组织中的细胞总数K=500和需要生成的人工组织个数Q=32000,一次训练的数据个数即批大小batch size=128,模型的学习率learning rate=0.0001,模型训练测次数step=5000,模型的optimized algorithm设置为RMSprop算法。以下是进行细胞反卷积算法的具体步骤:
1. 用单细胞RNA测序数据模拟人工组织
使用PBMC的data6k、data8k、donorA、donorC的单细胞RNA测序数据模拟人工组织,确定一个模拟人工组织中的细胞总数K=500和需要生成的人工组织个数Q=32000。从单细胞RNA 测序数据中抽取500个细胞,合并抽取细胞的基因表达矩阵形成模拟人工组织的基因表达矩阵为模拟组织的特征,并记录该组织各个类型细胞所占比例作为该组织的标记信息,为某细胞类型占该模拟组织的细胞比例数,包括如下步骤:
(1-1)通过公式确定单个模拟的细胞组织中各个细胞类型的比例,即确定模拟组织的标记信息为某细胞类型占该模拟组织的细胞比例数。是为单个细胞类型的创建的随机数,取值在[0,1]之间,是为所有细胞类型创建的随机数的总和,;
(1-2)通过公式(1≤i≤6),K=500确定单个模拟的细胞组织实际应抽取的各个细胞类型的细胞数目,即确定为单个模拟细胞组织的各个细胞类型抽取的细胞个数为某模拟组织单个细胞类型应抽取的细胞数,是为某细胞类型占该模拟组织的细胞比例数,K是设定的一个模拟人工组织中的细胞总数,为单个模拟的细胞组织实际应抽取的各个细胞类型的细胞数目,;
2. 数据预处理
3. 划分数据集
对步骤2中得到的数据集,数据集来源于4个不同数据集data6k、data8k、donorA、donorC,数据集中有六种细胞类型分别为Monocytes、Unknown 、CD4Tcells、Bcells、NK、CD8Tcells,其中Unknown代表未知的细胞类型。将数据集分为训练集和测试集进行4折交叉验证,训练集由3个来源不同的数据组成,测试集由剩下的1个来源的部分数据组成。我们从选取来自data6k、data8k、donorC的数据作为训练集,使用donorA中的数据作为测试集,为了方便测试,我们仅从donorA中抽取500个数据作为测试集,确定batch size的大小为128。在训练集中随机抽取128个数据作为一次训练的输入数据;
4. 训练Cbccon模型
从步骤3中输入数据中获得组织的细胞类型数目t=6作为该卷积神经网络的全连接模块中最后一层神经元的个数,构建卷积神经网络模型Cbccon,确定模型的学习率learning rate=0.0001,模型训练测次数step=5000,模型的优化算法optimizedalgorithm为RMSprop算案发。将步骤3中的作为一次训练的数据输入Cbccon模型中进行模型训练,得到训练集的预测的组织细胞比例(1≤i≤6)为训练集预测的某细胞类型占该组织的细胞比例数。通过公式计算细胞比例预测值和真实值之间计算损失函数,是该组织真实的细胞分数标签,是该组织细预测的细胞比例,利用优化算法RMSprop对损失函数进行优化。依据步骤3中再随机抽取4999次的继续训练,训练完毕后,保存训练好的Cbccon模型中参数;
5. 使用训练好的模型进行预测
使用步骤4中训练好的Cbccon模型进行数据预测,将测试集数据即即donorA中500条测试数据输入训练好的模型中,得到预测结果即测试集上预测的组织细胞类型比例(1≤i≤t)为测试集数据中预测的某细胞类型占该组织的细胞比例数。以测试集中一个名为V241模拟组织为例,V241的组织细胞比例预测结果为:Monocytes类型的细胞比例0.171;Unknown类型的细胞比例为0.027;CD4Tcells类型的细胞比例为0.428;Bcells类型的细胞比例为0.102;NK类型的细胞比例为0.086;CD8Tcells类型的细胞比例为0.185。500个模拟组织的细胞类型比例部分预测结果如图4所示。
6. 模型评估
对步骤4-5中的得到的模型构建评价对模型性能评价,分别通过公式
分别通过公式,公式,公式,和公式评价Cbccon模型的性能并与CPM、Cibersort(Ci)、Cibersortx(Cix)、MuSic方法进行比较,是预测的细胞比例,是是实际的细胞比例,分别代表预测和实际细胞比例的标准差,分别代表预测和实际细胞比例的均值,通过比较模型评价指标,可以得出Cbccon模型与其他算法相比,RMSE值更低且变化幅度小,relate值更高。这可以表明Cbccon方法与其他算法相比具有更好的反卷积性能。Cbccon对细胞反卷积预测精度的提升主要是由于模型使用的卷积层可以从单细胞RNA测序数据中充分挖掘各个基因之间的内在联系,从而提取出数据的隐藏特征,并且Cbccon的网络节点对数据的噪音和偏差具有很高的鲁棒性,因此对细胞比例预测的精度更高。并且Cbccon解决了传统算法需要特定细胞类型的基因表达矩阵才能进行细胞反卷积、需要添加各种约束来规范模型等问题,并且模型结构直观易于理解具有高度的扩展性。对比结果如图4、图5和图6所示。
在步骤4中使用训练数据对模型拟合完毕后,Cbccon达到的数据覆盖率统计如下:
(1)细胞比例预测值和真实值误差在10%以内的数据; 覆盖率:99.8%;
(2)细胞比例预测值和真实值误差在5%以内的数据; 覆盖率:85%;
(3)细胞比例预测值和真实值误差在1%以内的数据; 覆盖率:30%;
图4、图5和图6中比较结果可以看出Cbccon的RMSE相对来说更低,并且变化幅度更小,relate相关性与其他方法相比也更高,达到了0.900,这表明Cbccon模型在组织比例预测上,模型具有较好的精确性并对噪声的抗干扰能力更强。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施案例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施案例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于卷积神经网络的细胞反卷积方法,包括以下步骤:
(1)使用单细胞RNA测序数据模拟人工组织,确定一个模拟人工组织中的细胞总数K和需要生成的人工组织个数Q;从单细胞RNA测序数据中抽取K个细胞,合并抽取细胞的基因表达矩阵形成模拟人工组织的基因表达矩阵,为模拟组织的特征,;记录该组织各个类型细胞所占比例作为该组织的标记信息,为某细胞类型占该组织的细胞比例数,t为该组织细胞类型数目,;所述K为大于1的正整数,Q为大于1的正整数;
(3)对步骤(2)中得到的数据集,数据集若来源于s个不同数据集,将其分为训练集和测试集进行s折交叉验证,训练集由s-1个来源不同的数据组成,测试集由剩下的1个来源的部分数据组成,确定batch size的大小,在训练集中随机抽取batch size个数据作为一次训练的输入数据;
(4)从步骤(3)中输入数据中获得组织的细胞类型数目t作为该卷积神经网络的全连接模块中最后一层神经元的个数,构建卷积神经网络模型Cbccon,确定模型的学习率learning rate,模型训练测次数step,模型的优化算法optimized algorithm;将步骤(3)中的作为一次训练的数据输入Cbccon模型中进行模型训练,得到预测的组织细胞比例 , 训练集预测的某细胞类型占该组织的细胞比例数,;通过公式计算细胞比例预测值和真实值之间计算损失函数,是该组织真实的细胞分数标签,是训练集该组织细预测的细胞比例,利用优化算法对损失函数进行优化,;依据步骤(3)中再随机抽取step-1次的继续训练,训练完毕后,保存训练好的Cbccon模型中参数;
所述Cbccon模型结构为卷积神经网络由为多个卷积层池化层和一个全连接层组成,使用了两个64个提取特征的filter卷积层,使用一层最大池化层减少特征数,使用了两个32个filter卷积层,使用一层最大池化减少特征数,使用了两个16个filter卷积层,使用一层最大池化减少特征数,使用了两个8个filter卷积层,使用一层最大池化减少特征数,使用了两个4个filter卷积层,使用一层最大池化减少特征数,再将数据输入压平层中,将数据转化为一维数据;最后使用三个全连接层,节点数分别是128,64,细胞种类的数;所有的卷积层均为一维,且卷积层的激活函数统一设置为relu函数,步长均为1,前两个全连接层使用relu激活函数,最后一个全连接层使用softmax层进行组织细胞比例预测;
所述Cbccon模型学习率learning rate的取值为0.0001,模型训练测次数step取值为5000,模型的optimized algorithm设置为RMSprop算法;
2.根据权利要求1所述的基于卷积神经网络的细胞反卷积方法,其特征在于:所述K为100-5000,所述Q为1000-100000。
3.根据权利要求1所述的基于卷积神经网络的细胞反卷积方法,其特征在于:步骤(1)中所述的使用单细胞RNA测序数据进行模拟包括以下步骤:
(1-1)通过公式确定单个模拟的细胞组织中各个细胞类型的比例,即确定模拟组织的标记信息,为某细胞类型占该模拟组织的细胞比例数;是为单个细胞类型的创建的随机数,取值在[0,1]之间,是为所有细胞类型创建的随机数的总和,,;
4.根据权利要求1所述的基于卷积神经网络的细胞反卷积方法,其特征在于:步骤(3)中的batch size的取值为128。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210003514.7A CN114023387B (zh) | 2022-01-05 | 2022-01-05 | 一种基于卷积神经网络的细胞反卷积预测方法 |
US18/150,201 US20230223099A1 (en) | 2022-01-05 | 2023-01-05 | Predicting method of cell deconvolution based on a convolutional neural network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210003514.7A CN114023387B (zh) | 2022-01-05 | 2022-01-05 | 一种基于卷积神经网络的细胞反卷积预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114023387A CN114023387A (zh) | 2022-02-08 |
CN114023387B true CN114023387B (zh) | 2022-04-22 |
Family
ID=80069696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210003514.7A Active CN114023387B (zh) | 2022-01-05 | 2022-01-05 | 一种基于卷积神经网络的细胞反卷积预测方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230223099A1 (zh) |
CN (1) | CN114023387B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115691676A (zh) * | 2022-11-16 | 2023-02-03 | 北京昌平实验室 | 一种分析组织细胞成分的方法、装置及存储介质 |
CN118335191B (zh) * | 2024-06-12 | 2024-09-13 | 齐鲁工业大学(山东省科学院) | 一种用于单细胞测序数据的缺失值插补方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109166100A (zh) * | 2018-07-24 | 2019-01-08 | 中南大学 | 基于卷积神经网络的多任务学习细胞计数方法 |
CN110033440A (zh) * | 2019-03-21 | 2019-07-19 | 中南大学 | 基于卷积神经网络与特征融合的生物细胞计数方法 |
CN110659718A (zh) * | 2019-09-12 | 2020-01-07 | 中南大学 | 基于深度卷积神经网络的小卷积核细胞计数方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106600577B (zh) * | 2016-11-10 | 2019-10-18 | 华南理工大学 | 一种基于深度反卷积神经网络的细胞计数方法 |
KR20210137110A (ko) * | 2019-03-06 | 2021-11-17 | 그릿스톤 바이오, 인코포레이티드 | Mhc 클래스 ii 모델을 사용한 신생항원 동정 |
CN113011306A (zh) * | 2021-03-15 | 2021-06-22 | 中南大学 | 连续成熟阶段骨髓细胞图像自动识别方法、系统及介质 |
CN113707216A (zh) * | 2021-08-05 | 2021-11-26 | 北京科技大学 | 一种浸润免疫细胞比例计数方法 |
-
2022
- 2022-01-05 CN CN202210003514.7A patent/CN114023387B/zh active Active
-
2023
- 2023-01-05 US US18/150,201 patent/US20230223099A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109166100A (zh) * | 2018-07-24 | 2019-01-08 | 中南大学 | 基于卷积神经网络的多任务学习细胞计数方法 |
CN110033440A (zh) * | 2019-03-21 | 2019-07-19 | 中南大学 | 基于卷积神经网络与特征融合的生物细胞计数方法 |
CN110659718A (zh) * | 2019-09-12 | 2020-01-07 | 中南大学 | 基于深度卷积神经网络的小卷积核细胞计数方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114023387A (zh) | 2022-02-08 |
US20230223099A1 (en) | 2023-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114023387B (zh) | 一种基于卷积神经网络的细胞反卷积预测方法 | |
CN108595916B (zh) | 基于生成对抗网络的基因表达全谱推断方法 | |
CN111898689B (zh) | 一种基于神经网络架构搜索的图像分类方法 | |
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
CN112733417B (zh) | 一种基于模型优化的异常负荷数据检测与修正方法和系统 | |
CN107169871B (zh) | 一种基于关系组合优化和种子扩张的多关系社区发现方法 | |
CN107480702A (zh) | 面向hcc病理图像识别的特征选择与特征融合方法 | |
CN115564114A (zh) | 一种基于图神经网络的空域碳排放短期预测方法及系统 | |
CN113344288A (zh) | 梯级水电站群水位预测方法、装置及计算机可读存储介质 | |
CN110765788A (zh) | 一种基于隐式翻译模型的知识图谱嵌入方法 | |
CN112307536A (zh) | 一种大坝渗流参数反演方法 | |
CN115881232A (zh) | 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法 | |
CN115908909A (zh) | 基于贝叶斯卷积神经网络的进化神经架构搜索方法及系统 | |
CN114792126A (zh) | 一种基于遗传算法的卷积神经网络设计方法 | |
CN115579068A (zh) | 一种基于预训练和深度聚类的宏基因组物种重建方法 | |
CN113537245A (zh) | 一种基于特征图的神经网络剪枝方法 | |
CN112862063A (zh) | 一种基于深度信念网络的复杂管网泄漏定位方法 | |
CN106250686A (zh) | 一种并行程序的集合通信函数建模方法 | |
CN115661498A (zh) | 一种自优化单细胞聚类方法 | |
CN113889274B (zh) | 一种孤独症谱系障碍的风险预测模型构建方法及装置 | |
CN114360641B (zh) | 一种基于变分贝叶斯的基因调控网络结构辨识方法 | |
CN113035363B (zh) | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 | |
CN114626594A (zh) | 一种基于聚类分析和深度学习的中长期电量预测方法 | |
CN114999579A (zh) | 一种筛选化合物分子描述符并确定其取值范围的方法 | |
CN114462548B (zh) | 一种提高单细胞深度聚类算法精度的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |