CN117235673B - 一种细胞培养预测方法及装置、电子设备、存储介质 - Google Patents
一种细胞培养预测方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN117235673B CN117235673B CN202311514464.XA CN202311514464A CN117235673B CN 117235673 B CN117235673 B CN 117235673B CN 202311514464 A CN202311514464 A CN 202311514464A CN 117235673 B CN117235673 B CN 117235673B
- Authority
- CN
- China
- Prior art keywords
- data
- predicted
- parameter
- value
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004113 cell culture Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000004590 computer program Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 34
- 238000010801 machine learning Methods 0.000 claims description 29
- 238000007781 pre-processing Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 16
- 238000003066 decision tree Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 239000002245 particle Substances 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000010219 correlation analysis Methods 0.000 claims description 8
- 238000007477 logistic regression Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 6
- 230000004083 survival effect Effects 0.000 claims description 6
- 230000003833 cell viability Effects 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 208000025174 PANDAS Diseases 0.000 claims description 3
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 claims description 3
- 235000016496 Panda oleosa Nutrition 0.000 claims description 3
- 230000030833 cell death Effects 0.000 claims description 3
- 230000034994 death Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 240000000220 Panda oleosa Species 0.000 claims 1
- 210000004027 cell Anatomy 0.000 description 30
- 240000004718 Panda Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000012832 cell culture technique Methods 0.000 description 1
- 210000004748 cultured cell Anatomy 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Abstract
本发明提供了一种细胞培养预测方法及装置、电子设备、存储介质,该细胞培养预测方法包括获得细胞培养的待预测数据集;获得特征数据;将所述特征数据输入至融合预测模型中进行预测,并获得预测结果。该装置用于实现该细胞培养预测方法。该电子设备包括相互连接的处理器和存储器,所述存储器用于存储所述细胞培养预测方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行所述细胞培养预测方法。该存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行所述细胞培养预测方法。本发明能够对细胞培养进行有效筛选,降低细胞培养和筛选成本。
Description
技术领域
本发明涉及细胞培养预测技术领域,具体涉及一种细胞培养预测方法及装置、电子设备、存储介质。
背景技术
细胞培养技术是指模拟体内的生理环境,即创造一个无菌、温度适宜且具有一定营养条件的环境,来使得被培养的单个细胞或细胞群能够维持正常结构和功能,并继续存活下去的技术。被培养的细胞是科学研究的重要对象。近年来分子生物学、分子遗传学获得巨大进展,细胞培养为这些领域的研究提供了有力手段。细胞在小规模培养及面向生产需要的大规模培养会历经反复筛查的过程。然而,在反复筛查时,若采用人工筛查,则存在周期长、检验环节复杂及成本高的问题。
目前,计算机被广泛应用于生物领域,如在基因测序、蛋白质相互作用和癌症风险预测等多个方面有显著成果。通过计算机引进信息技术的手段对细胞培养过程的数据进行分析,能够提前对细胞能否进入下一阶段培养进行辅助筛查,从而缩短细胞培养过程,节约大量培养成本,具有极高的商业价值。
综上所述,急需一种细胞培养预测方法及装置、电子设备、存储介质,用于解决在细胞培养中采用人工筛查存在的问题。
发明内容
本发明目的在于提供一种细胞培养预测方法及装置、电子设备、存储介质,具体技术方案如下:
在第一方面,本发明提供了一种细胞培养预测方法,其包括以下步骤:
步骤S1、获得细胞培养的待预测数据集,待预测数据集包括至少一组待预测数据,在每组待预测数据中的参数均包括细胞活率、活细胞浓度、细胞粒径和细胞产物表达量;
步骤S2、对待预测数据集进行预处理,所述预处理包括对待预测数据集中的所有参数进行相关性分析和特征筛选,获得特征数据;
步骤S3、将所述特征数据输入至融合预测模型中进行预测,并获得预测结果;所述融合预测模型包括SLinear网络模型和多种机器学习模型;将每组待预测数据中的所述特征数据分别输入至各种所述机器学习模型中进行初步预测,获得每组待预测数据中的初步预测值;将获得的每组待预测数据中的初步预测值输入至所述SLinear网络模型中,获得预测结果。
可选的,在步骤S2中,所述预处理的过程如下:
步骤S2.1、通过python的pandas库去除待预测数据集中的空值,并对待预测数据集中的每项参数的计量单位对应统一;
步骤S2.2、采用python的sklearn库中的StandardScaler函数将步骤S2.1处理后的待预测数据集进行归一化处理,其中,StandardScaler函数的表达式(1)为:
(1);
在表达式(1)中,为步骤S2.1处理后的待预测数据集中的数据;/>为所有/>的均值;/>为所有/>的标准差;/>为对所有/>归一化后的数据;
步骤S2.3、对步骤S2.2归一化处理后的数据进行相关性分析和特征筛选,保留相关性系数小于0.4的数据作为特征数据。
可选的,在步骤S2.3中,所述特征数据包括在每组待预测数据中的细胞活率、活细胞浓度和细胞粒径。
可选的,在步骤S3中,所述SLinear网络模型包括融合层、第一层线性层、第二层线性层、Softmax激活函数和argmax函数;所述融合层将每组待预测数据中的初步预测值整合为维度为的数据,其中,/>表示待预测数据的组数;/>表示每组待预测数据中的初步预测值的个数;
将维度为的数据经过第一层线性层处理,获得维度为(/>,3)的数据;
将维度为(,3)的数据经过第二层线性层处理,获得维度为(/>,2)的数据;
将维度为(,2)的数据依次采用Softmax激活函数处理和argmax函数处理后,输出维度为(/>,1)的数据;
其中,在第一层线性层处理和第二层线性层处理时,均采用线性层的表达式(2),其为:
(2);
在表达式(2)中,是第一层线性层和第二层线性层需要学习的参数,/>是维度为的矩阵;/>为输入数据的特征数;/>为输出数据的特征数;/>是/>维的向量偏置;/>为输入向量的行数;
所述Softmax激活函数采用的表达式(3)为:
(3);
在表达式(3)中,为输入数据分类的类别数,/>为第/>个类别对应的值,/>为1时表示类别为死亡,/>为2时表示类别为存活,/>为/>中/>取值为/>时的值;
所述SLinear网络模型的输出结果为预测结果。
可选的,所述机器学习模型包括K-近邻模型、支持向量机模型、决策树模型、随机森林模型和逻辑回归模型;
在对所述机器学习模型输入特征数据之前,需要采用网格搜索方式对所述机器学习模型进行参数优化,具体参数及搜索范围如下:
在K-近邻模型中,采用的参数及搜索范围为'n_neighbors': [1, 2, 3, 4],'weights': ['uniform', 'distance']和'p': [1, 2];
其中,参数'n_neighbors'表示KNN中的k值,k为取邻近点的个数;参数'weights'表示距离的权重,'uniform'表示一致的权重,'distance'表示距离的倒数作为权重;参数'p'表示闵可斯基距离的p值,p=1即欧式距离,p=2即曼哈顿距离;
在支持向量机模型中,采用的参数及搜索范围为'C1': [100, 300, 500, 700],'kernel': ['rbf', 'linear', 'sigmoid', 'poly']和'degree': [1, 2];
其中,参数'C1'是惩罚系数或者叫惩罚因子,表征的是支持向量机模型对于误差的容忍度;参数'kernel'表示核函数,参数'rbf'表示高斯核, 参数'linear'表示线性核,参数'sigmoid'表示Sigmoid核, 参数'poly'表示多项式核;参数'degree'表示当核函数是多项式核函数的时候,用来控制函数的最高次数;
在决策树模型中,采用的参数及搜索范围为'criterion1': ['gini1', 'entropy1']和'max_depth1': [4, 6, 8, 10, 12];
其中,参数'criterion1'为衡量切分质量的标准,参数'gini1'表示基尼不纯度,参数 'entropy1'表示信息熵;参数'max_depth1'表示决策树的最大深度;
在随机森林模型中,采用的参数及搜索范围为'n_estimators': [50, 70, 100,120, 150],'max_depth2': [6, 8, 10, 12, 14]和'criterion2': ['gini2', 'entropy2'];
其中,参数'n_estimators'表示随机森林中决策树的数量;参数'max_depth2'表示决策树的最大深度;参数'criterion2'表示衡量切分质量的标准,参数'gini2'表示基尼不纯度, 参数 'entropy2'表示信息熵;
在逻辑回归模型中,采用的参数及搜索范围为{'penalty': ['l1'],'C2':[0.0001, 0.001, 0.01, 0.1, 1, 10, 100],'max_iter': [15, 30, 50, 100, 150,200],'solver': ['liblinear']}和{'penalty': ['l2'],'C2': [0.01, 0.05, 0.1,0.5, 1],'max_iter': [15, 30, 50, 100, 150, 200],'solver': ['liblinear', 'lbfgs', 'newton-cg']};
其中,参数'penalty'表示正则化项,可选值为'l1'或'l2',引入参数'penalty'是为了防止出现过拟合的问题;'l1'正则化会让部分特征数据的权重变为0;'l2'正则化会让所有特征数据的权重都变小;参数'C2'表示正则化系数的倒数,'C2'越小,正则化强度越大,'C2'越大,对误分类的惩罚越小,容易过拟合;参数'max_iter'表示最大迭代次数;参数'solver'表示优化算法,可选值为'liblinear'、 'lbfgs'或 'newton-cg',参数'liblinear'表示liblinear优化算法;参数'lbfgs'表示lbfgs优化算法, 参数'newton-cg'表示newton-cg优化算法。
可选的,在对所述SLinear网络模型输入初步预测值之前,先对所述SLinear网络模型进行训练;在训练中,随机初始化所述SLinear网络模型中的参数,使用梯度下降法优化所述SLinear网络模型中的参数,将所述SLinear网络模型中的学习率设置为0.001。
可选的,所述细胞培养预测方法,还包括对初步预测值的准确率1计算和对预测结果的准确率2计算,采用计算式(4)计算准确率1,采用计算式(5)计算准确率2;
(4);
在计算式(4)中,对初步预测值计算准确率时,表示初步预测值与真实值同时出现真值的情况的数量;/>表示初步预测值与真实值同时出现假值的情况的数量;/>表示初步预测值为真值且真实值为假值的情况的数量;/>表示初步预测值为假值且真实值为真值的情况的数量;
(5);
在计算式(5)中,表示预测结果与真实值同时出现真值的情况的数量;/>表示预测结果与真实值同时出现假值的情况的数量;/>表示预测结果为真值且真实值为假值的情况的数量;/>表示预测结果为假值且真实值为真值的情况的数量;
其中,真值的数值为1,表示细胞存活;假值的数值为0,表示细胞死亡。
可选的,在步骤S1中的待预测数据集采用CSV文件存储;在步骤S3中的预测结果采用CSV文件存储。
在第二方面,本发明提供了一种细胞培养预测装置,包括:
待预测数据集导入单元,获得细胞培养的待预测数据集;
待预测数据集预处理单元,对待预测数据集进行预处理,获得特征数据;
细胞培养预测单元,将预处理后的特征数据输入至融合预测模型中进行预测,获得预测结果,并导出预测结果文件。
可选的,所述待预测数据集预处理单元包括:
基本数据文件模块,包括细胞培养数据库和导入模块,细胞培养数据库获得及存储基本数据文件,导入模块导入基本数据文件至数据预处理模块;所述基本数据文件为待预测数据集;
数据预处理模块,去除空值并将数据归一化处理,对细胞培养参数进行相关性分析,保留相关性系数小于0.4的数据作为特征数据,将特征数据输出至细胞培养预测单元。
可选的,所述细胞培养预测单元包括:
预测模型生成模块,使用待预测数据集预处理单元输出的特征数据对多种机器学习融合预测模型进行训练、测试;
预测模型存储模块,存储训练好的多种机器学习融合预测模型;
预测模块,将待预测数据集预处理得到的特征数据输入预测模型中,输出预测结果,导出预测结果文件。
在第三方面,本发明提供了一种电子设备,其包括处理器和存储器,所述处理器与所述存储器相互连接,其中,所述存储器用于存储支持所述电子设备执行所述的细胞培养预测方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行所述的细胞培养预测方法。
在第四方面,本发明提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行所述的细胞培养预测方法。
应用本发明的技术方案,至少具有以下有益效果:
(1)本发明提出了一种细胞培养预测方法,采用所述融合预测模型对细胞培养的特征数据进行预测,能够获得准确率更高的细胞培养预测结果。在所述融合预测模型中采用不同的机器学习模型在处理特征数据时,具有有不同的表达能力,通过SLinear网络模型将不同的机器学习模型融合后可以结合不同的机器学习模型擅长的部分,自行学习各个机器学习模型初步预测值的权重,不仅能够获得准确率更高的细胞培养预测结果,还能够提高所述融合预测模型整体的鲁棒性。因此,本发明能够对细胞培养进行有效筛选,降低细胞培养和筛选成本,解决在细胞培养中采用人工筛查存在的问题,具有重要的实际意义。
(2)本发明提出了一种细胞培养预测装置,能够实现所述细胞培养预测方法。
(3)本发明提出了一种电子设备,能够存储并执行所述细胞培养预测方法的计算机程序。
(4)本发明提出了一种存储介质,能够存储包含特定程序指令的计算机程序,所述程序指令当被处理器执行时使所述处理器执行所述细胞培养预测方法。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例1的一种细胞培养预测方法的流程图。
图2是本发明实施例2的细胞培养预测装置预测流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
参见图1,一种细胞培养预测方法,包括以下步骤:
步骤S1、采用真实培养和人工采集的方式获得细胞培养的待预测数据集,待预测数据集包括两组待预测数据(数据总量为1446条),在每组待预测数据中的参数均包括细胞活率、活细胞浓度、细胞粒径和细胞产物表达量;
步骤S2、对待预测数据集进行预处理,所述预处理包括对待预测数据集中的所有参数进行相关性分析和特征筛选,获得特征数据;
步骤S3、将所述特征数据输入至融合预测模型中进行预测,并获得预测结果;所述融合预测模型包括SLinear网络模型和多种机器学习模型;将每组待预测数据中的所述特征数据分别输入至各种所述机器学习模型中进行初步预测,获得每组待预测数据中的初步预测值;具体的,五种机器学习模型分别为K-近邻模型、支持向量机模型、决策树模型、随机森林模型和逻辑回归模型,需要将每组待预测数据中的所述特征数据输入至在每一种机器学习模型中,获得每组待预测数据中的初步预测值,即对每组待预测数据能够获得五个初步预测值;将获得的每组待预测数据中的初步预测值输入至所述SLinear网络模型中,获得预测结果。
在步骤S1中的待预测数据集采用CSV文件存储,具体的,以细胞活率、活细胞浓度、细胞粒径和细胞产物表达量为表头,在每行数据中的细胞活率、活细胞浓度、细胞粒径和细胞产物表达量之间均使用英文逗号作为分隔符隔开。
在步骤S2中,所述预处理的过程如下:
步骤S2.1、通过python的pandas库去除待预测数据集中的空值,并对待预测数据集中的每项参数的计量单位对应统一;
步骤S2.2、采用python的sklearn库中的StandardScaler函数将步骤S2.1处理后的待预测数据集进行归一化处理,其中,StandardScaler函数的表达式(1)为:
(1)
在表达式(1)中,为步骤S2.1处理后的待预测数据集中的数据;/>为所有/>的均值;/>为所有/>的标准差;/>为对所有/>归一化后的数据;
步骤S2.3、对步骤S2.2归一化处理后的数据进行相关性分析和特征筛选,保留相关性系数小于0.4的数据作为特征数据。
在步骤S2.3中,所述特征数据包括在每组待预测数据中的细胞活率、活细胞浓度和细胞粒径。
在步骤S3中,所述SLinear网络模型包括融合层、第一层线性层、第二层线性层、Softmax激活函数和argmax函数;所述融合层将每组待预测数据中的初步预测值整合为维度为的数据,其中,/>表示待预测数据的组数,即/>=2;/>表示每组待预测数据中的初步预测值的个数,即/>=5;
将维度为的数据经过第一层线性层处理,获得维度为(/>,3)的数据;
将维度为(,3)的数据经过第二层线性层处理,获得维度为(/>,2)的数据;
将维度为(,2)的数据依次采用Softmax激活函数处理和argmax函数处理后,输出维度为(/>,1)的数据;
其中,在第一层线性层处理和第二层线性层处理时,均采用线性层的表达式(2),其为:
(2);
在表达式(2)中,是第一层线性层和第二层线性层需要学习的参数,/>是维度为的矩阵,该矩阵将输入张量映射到输出张量的空间中,从而实现对输入数据的线性变换;/>为输入数据的特征数;/>为输出数据的特征数;/>是/>维的向量偏置;/>为输入向量的行数(例如一次输入10组待预测数据,则/>=10);
所述Softmax激活函数采用的表达式(3)为:
(3);
在表达式(3)中,为输入数据分类的类别数,此处为2,/>为第/>个类别对应的值,为1时表示类别为死亡,/>为2时表示类别为存活,/>为/>中/>取值为/>时的值;
所述SLinear网络模型的输出结果为预测结果。
在步骤S3中的预测结果采用CSV文件存储,具体的,以细胞活率、活细胞浓度、细胞粒径和预测结果为表头,在每行数据中的细胞活率、活细胞浓度、细胞粒径和预测结果之间均使用英文逗号作为分隔符隔开。
在对所述机器学习模型输入特征数据之前,需要采用网格搜索方式对所述机器学习模型进行参数优化,具体参数及搜索范围如下:
在K-近邻模型中,采用的参数及搜索范围为'n_neighbors': [1, 2, 3, 4],'weights': ['uniform', 'distance']和'p': [1, 2];
其中,参数'n_neighbors'表示KNN中的k值,k为取邻近点的个数;参数'weights'表示距离的权重,'uniform'表示一致的权重,'distance'表示距离的倒数作为权重;参数'p'表示闵可斯基距离的p值,p=1即欧式距离,p=2即曼哈顿距离;
在支持向量机模型中,采用的参数及搜索范围为'C1': [100, 300, 500, 700],'kernel': ['rbf', 'linear', 'sigmoid', 'poly']和'degree': [1, 2];
其中,参数'C1'是惩罚系数或者叫惩罚因子,表征的是支持向量机模型对于误差的容忍度;参数'kernel'表示核函数,参数'rbf'表示高斯核, 参数'linear'表示线性核,参数'sigmoid'表示Sigmoid核, 参数'poly'表示多项式核;参数'degree'表示当核函数是多项式核函数的时候,用来控制函数的最高次数;
在决策树模型中,采用的参数及搜索范围为'criterion1': ['gini1', 'entropy1']和'max_depth1': [4, 6, 8, 10, 12];
其中,参数'criterion1'为衡量切分质量的标准,参数'gini1'表示基尼不纯度,参数 'entropy1'表示信息熵;参数'max_depth1'表示决策树的最大深度,如果设置过大,容易过拟合,如果设置过小,容易欠拟合;
在随机森林模型中,采用的参数及搜索范围为'n_estimators': [50, 70, 100,120, 150],'max_depth2': [6, 8, 10, 12, 14]和'criterion2': ['gini2', 'entropy2'];
其中,参数'n_estimators'表示随机森林中决策树的数量,'n_estimators'数值越大,表示随机森林模型的效果会越好,但同时训练时间也会变长;参数'max_depth2'表示决策树的最大深度,如果设置过大,容易过拟合,如果设置过小,容易欠拟合;参数'criterion2'表示衡量切分质量的标准,参数'gini2'表示基尼不纯度, 参数 'entropy2'表示信息熵;
在逻辑回归模型中,采用的参数及搜索范围为{'penalty': ['l1'],'C2':[0.0001, 0.001, 0.01, 0.1, 1, 10, 100],'max_iter': [15, 30, 50, 100, 150,200],'solver': ['liblinear']}和{'penalty': ['l2'],'C2': [0.01, 0.05, 0.1,0.5, 1],'max_iter': [15, 30, 50, 100, 150, 200],'solver': ['liblinear', 'lbfgs', 'newton-cg']};
其中,参数'penalty'表示正则化项,可选值为'l1'或'l2',引入参数'penalty'是为了防止出现过拟合的问题;'l1'正则化会让部分特征数据的权重变为0;'l2'正则化会让所有特征数据的权重都变小;参数'C2'表示正则化系数的倒数,'C2'越小,正则化强度越大,'C2'越大,对误分类的惩罚越小,容易过拟合;参数'max_iter'表示最大迭代次数;参数'solver'表示优化算法,可选值为'liblinear'、 'lbfgs'或 'newton-cg',参数'liblinear'表示liblinear优化算法;参数'lbfgs'表示lbfgs优化算法, 参数'newton-cg'表示newton-cg优化算法。
在对所述SLinear网络模型输入初步预测值之前,先对所述SLinear网络模型进行训练;在训练中,随机初始化所述SLinear网络模型中的参数,使用梯度下降法优化所述SLinear网络模型中的参数,将所述SLinear网络模型中的学习率设置为0.001。
所述细胞培养预测方法,还包括对初步预测值的准确率1计算和对预测结果的准确率2计算,采用计算式(4)计算准确率1,采用计算式(5)计算准确率2;
(4);
在计算式(4)中,对初步预测值计算准确率时,表示初步预测值与真实值同时出现真值的情况的数量;/>表示初步预测值与真实值同时出现假值的情况的数量;/>表示初步预测值为真值且真实值为假值的情况的数量;/>表示初步预测值为假值且真实值为真值的情况的数量;
(5);
在计算式(5)中,表示预测结果与真实值同时出现真值的情况的数量;/>表示预测结果与真实值同时出现假值的情况的数量;/>表示预测结果为真值且真实值为假值的情况的数量;/>表示预测结果为假值且真实值为真值的情况的数量;
其中,真值的数值为1,表示细胞存活;假值的数值为0,表示细胞死亡。
采用计算式(4)计算获得所述融合预测模型的准确率以及五种机器学习模型的准确率,具体计算结果参见表1。
表1 融合预测模型与机器学习模型的准确率比较
由表1数据知,相比于五种机器学习模型,本发明采用实施例1中的所述融合预测模型能够获得准确率更高的细胞培养预测结果。
实施例2:
一种细胞培养预测装置,参见图2,包括:
待预测数据集导入单元,获得细胞培养的待预测数据集;
待预测数据集预处理单元,对待预测数据集进行预处理,获得特征数据;
细胞培养预测单元,将预处理后的特征数据输入至融合预测模型中进行预测,并获得预测结果,并导出预测结果文件;
所述待预测数据集预处理单元包括:
基本数据文件模块,包括细胞培养数据库和导入模块,细胞培养数据库用于存储待预测数据集,导入模块用于将细胞培养数据库中的待预测数据集导入至数据预处理模块;
数据预处理模块,用于去除待预测数据集中的空值,并对待预测数据集中的每项参数的计量单位对应统一,以及归一化处理,对归一化处理后的数据进行相关性分析和特征筛选,保留相关性系数小于0.4的数据作为特征数据;
所述细胞培养预测单元包括:
预测模型生成模块,一方面,采用网格搜索方式对所述机器学习模型进行参数优化;所述机器学习模型包括K-近邻模型、支持向量机模型、决策树模型、随机森林模型和逻辑回归模型;
另一方面,对所述SLinear网络模型进行训练,在训练中,随机初始化所述SLinear网络模型中的参数,使用梯度下降法优化所述SLinear网络模型中的参数,将所述SLinear网络模型中的学习率设置为0.001;
预测模型存储模块,存储参数优化好的所述机器学习模型和训练好的所述SLinear网络模型;
预测模块,将每组待预测数据中的所述特征数据分别输入至各种所述机器学习模型中进行初步预测,获得每组待预测数据中的初步预测值;将获得的每组待预测数据中的初步预测值输入至所述SLinear网络模型中,获得预测结果,并导出预测结果文件。
实施例3:
一种电子设备,包括处理器和存储器,所述处理器与所述存储器相互连接,其中,所述存储器用于存储支持所述电子设备执行所述细胞培养预测方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行所述细胞培养预测方法。
实施例4:
一种存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行所述细胞培养预测方法。所述存储介质可以选择但不限于U盘、只读存储器、移动硬盘、磁碟或者光盘。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种细胞培养预测方法,其特征在于,包括以下步骤:
步骤S1、获得细胞培养的待预测数据集,待预测数据集包括至少一组待预测数据,在每组待预测数据中的参数均包括细胞活率、活细胞浓度、细胞粒径和细胞产物表达量;
步骤S2、对待预测数据集进行预处理,所述预处理包括对待预测数据集中的所有参数进行相关性分析和特征筛选,获得特征数据;
步骤S3、将所述特征数据输入至融合预测模型中进行预测,并获得预测结果;所述融合预测模型包括SLinear网络模型和多种机器学习模型;将每组待预测数据中的所述特征数据分别输入至各种所述机器学习模型中进行初步预测,获得每组待预测数据中的初步预测值;将获得的每组待预测数据中的初步预测值输入至所述SLinear网络模型中,获得预测结果;
所述SLinear网络模型包括融合层、第一层线性层、第二层线性层、Softmax激活函数和argmax函数;所述融合层将每组待预测数据中的初步预测值整合为维度为(m′,n′)的数据,其中,m′表示待预测数据的组数;n′表示每组待预测数据中的初步预测值的个数;
将维度为(m′,n′)的数据经过第一层线性层处理,获得维度为(m′,3)的数据;
将维度为(m′,3)的数据经过第二层线性层处理,获得维度为(m′,2)的数据;
将维度为(m′,2)的数据依次采用Softmax激活函数处理和argmax函数处理后,输出维度为(m′,1)的数据;
所述SLinear网络模型的输出结果为预测结果。
2.根据权利要求1所述的细胞培养预测方法,其特征在于,在步骤S2中,所述预处理的过程如下:
步骤S2.1、通过python的pandas库去除待预测数据集中的空值,并对待预测数据集中的每项参数的计量单位对应统一;
步骤S2.2、采用python的sklearn库中的StandardScaler函数将步骤S2.1处理后的待预测数据集进行归一化处理,其中,StandardScaler函数的表达式(1)为:
在表达式(1)中,x为步骤S2.1处理后的待预测数据集中的数据;μ为所有x的均值;σ为所有x的标准差;x*为对所有x归一化后的数据;
步骤S2.3、对步骤S2.2归一化处理后的数据进行相关性分析和特征筛选,保留相关性系数小于0.4的数据作为特征数据。
3.根据权利要求2所述的细胞培养预测方法,其特征在于,在步骤S2.3中,所述特征数据包括在每组待预测数据中的细胞活率、活细胞浓度和细胞粒径;
在步骤S1中的待预测数据集采用CSV文件存储;
在步骤S3中的预测结果采用CSV文件存储。
4.根据权利要求1所述的细胞培养预测方法,其特征在于,在步骤S3中,在第一层线性层处理和第二层线性层处理时,均采用线性层的表达式(2),其为:
Yn×o=Xn×iWi×o+b (2)
在表达式(2)中,W是第一层线性层和第二层线性层需要学习的参数;X是维度为(n,i)的矩阵;i为输入数据的特征数;o为输出数据的特征数;b是o维的向量偏置;n为输入向量的行数;
所述Softmax激活函数采用的表达式(3)为:
在表达式(3)中,C为输入数据分类的类别数,zi为第i个类别对应的值,i为1时表示类别为死亡,i为2时表示类别为存活,zc为zi中i取值为c时的值。
5.根据权利要求1所述的细胞培养预测方法,其特征在于,所述机器学习模型包括K-近邻模型、支持向量机模型、决策树模型、随机森林模型和逻辑回归模型;
在对所述机器学习模型输入特征数据之前,需要采用网格搜索方式对所述机器学习模型进行参数优化,具体参数及搜索范围如下:
在K-近邻模型中,采用的参数及搜索范围为'n_neighbors':[1,2,3,4],'weights':['uniform','distance']和'p':[1,2];
其中,参数'n_neighbors'表示KNN中的k值,k为取邻近点的个数;参数'weights'表示距离的权重,'uniform'表示一致的权重,'distance'表示距离的倒数作为权重;参数'p'表示闵可斯基距离的p值,p=1即欧式距离,p=2即曼哈顿距离;
在支持向量机模型中,采用的参数及搜索范围为'C1':[100,300,500,700],'kernel':['rbf','linear','sigmoid','poly']和'degree':[1,2];
其中,参数'C1'是惩罚系数或者叫惩罚因子,表征的是支持向量机模型对于误差的容忍度;参数'kernel'表示核函数,参数'rbf'表示高斯核,参数'linear'表示线性核,参数'sigmoid'表示Sigmoid核,参数'poly'表示多项式核;参数'degree'表示当核函数是多项式核函数的时候,用来控制函数的最高次数;
在决策树模型中,采用的参数及搜索范围为'criterion1':['gini1','entropy1']和'max_depth1':[4,6,8,10,12];
其中,参数'criterion1'为衡量切分质量的标准,参数'gini1'表示基尼不纯度,参数'entropy1'表示信息熵;参数'max_depth1'表示决策树的最大深度;
在随机森林模型中,采用的参数及搜索范围为'n_estimators':[50,70,100,120,150],'max_depth2':[6,8,10,12,14]和'criterion2':['gini2','entropy2'];
其中,参数'n_estimators'表示随机森林中决策树的数量;参数'max_depth2'表示决策树的最大深度;参数'criterion2'表示衡量切分质量的标准,参数'gini2'表示基尼不纯度,参数'entropy2'表示信息熵;
在逻辑回归模型中,采用的参数及搜索范围为{'penalty':['l1'],'C2':[0.0001,0.001,0.01,0.1,1,10,100],'max_iter':[15,30,50,100,150,200],'solver':['liblinear']}和{'penalty':['l2'],'C2':[0.01,0.05,0.1,0.5,1],'max_iter':[15,30,50,100,150,200],'solver':['liblinear','lbfgs','newton-cg']};
其中,参数'penalty'表示正则化项,可选值为'l1'或'l2',引入参数'penalty'是为了防止出现过拟合的问题;'l1'正则化会让部分特征数据的权重变为0;'l2'正则化会让所有特征数据的权重都变小;参数'C2'表示正则化系数λ的倒数,'C2'越小,正则化强度越大,'C2'越大,对误分类的惩罚越小,容易过拟合;参数'max_iter'表示最大迭代次数;参数'solver'表示优化算法,可选值为'liblinear'、'lbfgs'或'newton-cg',参数'liblinear'表示liblinear优化算法;参数'lbfgs'表示lbfgs优化算法,参数'newton-cg'表示newton-cg优化算法。
6.根据权利要求1所述的细胞培养预测方法,其特征在于,在对所述SLinear网络模型输入初步预测值之前,先对所述SLinear网络模型进行训练;在训练中,随机初始化所述SLinear网络模型中的参数,使用梯度下降法优化所述SLinear网络模型中的参数,将所述SLinear网络模型中的学习率设置为0.001。
7.根据权利要求1所述的细胞培养预测方法,其特征在于,还包括对初步预测值的准确率1计算和对预测结果的准确率2计算,采用计算式(4)计算准确率1,采用计算式(5)计算准确率2;
在计算式(4)中,对初步预测值计算准确率时,TP1表示初步预测值与真实值同时出现真值的情况的数量;TN1表示初步预测值与真实值同时出现假值的情况的数量;FP1表示初步预测值为真值且真实值为假值的情况的数量;FN1表示初步预测值为假值且真实值为真值的情况的数量;
在计算式(5)中,TP2表示预测结果与真实值同时出现真值的情况的数量;TN2表示预测结果与真实值同时出现假值的情况的数量;FP2表示预测结果为真值且真实值为假值的情况的数量;FN2表示预测结果为假值且真实值为真值的情况的数量;
其中,真值的数值为1,表示细胞存活;假值的数值为0,表示细胞死亡。
8.一种用于实现如权利要求1-7任一项所述的细胞培养预测方法的细胞培养预测装置,其特征在于,包括:
待预测数据集导入单元,获得细胞培养的待预测数据集;
待预测数据集预处理单元,对待预测数据集进行预处理,获得特征数据;
细胞培养预测单元,将预处理后的特征数据输入至融合预测模型中进行预测,并获得预测结果,并导出预测结果文件。
9.一种电子设备,其特征在于,包括处理器和存储器,所述处理器与所述存储器相互连接,其中,所述存储器用于存储支持所述电子设备的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的细胞培养预测方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的细胞培养预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311514464.XA CN117235673B (zh) | 2023-11-15 | 2023-11-15 | 一种细胞培养预测方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311514464.XA CN117235673B (zh) | 2023-11-15 | 2023-11-15 | 一种细胞培养预测方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117235673A CN117235673A (zh) | 2023-12-15 |
CN117235673B true CN117235673B (zh) | 2024-01-30 |
Family
ID=89098829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311514464.XA Active CN117235673B (zh) | 2023-11-15 | 2023-11-15 | 一种细胞培养预测方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235673B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145912A (zh) * | 2019-12-23 | 2020-05-12 | 浙江大学 | 一种基于机器学习的个性化超促排卵方案的预测装置 |
CN112259246A (zh) * | 2020-10-21 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种融合医学概念层级结构的疾病预测方法及相关设备 |
CN112662551A (zh) * | 2020-12-29 | 2021-04-16 | 上海药明生物医药有限公司 | 一种细胞培养控制方法以及系统 |
CN112863696A (zh) * | 2021-04-25 | 2021-05-28 | 浙江大学 | 基于迁移学习和图神经网络的药物敏感性预测方法和装置 |
CN114121163A (zh) * | 2021-11-30 | 2022-03-01 | 深圳太力生物技术有限责任公司 | 基于整合学习的培养基预测系统、训练及培养基预测方法 |
CN115049024A (zh) * | 2022-08-15 | 2022-09-13 | 国能日新科技股份有限公司 | 风速预测模型的训练方法、装置、电子设备和存储介质 |
CN115273077A (zh) * | 2021-12-09 | 2022-11-01 | 首都医科大学附属北京天坛医院 | 细胞模型构建方法、计算机设备及存储介质 |
CN116052778A (zh) * | 2022-12-13 | 2023-05-02 | 无锡药明生物技术股份有限公司 | 实时监测生物反应器中细胞培养液组分浓度的方法 |
CN116153388A (zh) * | 2023-04-19 | 2023-05-23 | 北京蓝晶微生物科技有限公司 | 定量关系模型及应用、细胞状态监测方法、装置、系统 |
JP2023544067A (ja) * | 2020-11-26 | 2023-10-19 | シェンチェン タイリ バイオテクノロジー カンパニー リミテッド | 基礎培地の開発方法及びシステム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3732485A1 (de) * | 2017-12-29 | 2020-11-04 | F. Hoffmann-La Roche AG | Vorhersage des metabolischen zustands einer zellkultur |
WO2021166824A1 (ja) * | 2020-02-19 | 2021-08-26 | 富士フイルム株式会社 | 細胞培養プロセス探索方法、細胞培養プロセス探索プログラム、細胞培養プロセス探索装置、及び、学習済みモデル |
US20220034870A1 (en) * | 2020-07-28 | 2022-02-03 | The Broad Institute, Inc. | Combinatorial culture condition arrays and uses thereof |
JP7424496B2 (ja) * | 2020-07-30 | 2024-01-30 | 富士通株式会社 | 精度推定プログラム、装置、及び方法 |
WO2022072198A1 (en) * | 2020-10-01 | 2022-04-07 | Amgen Inc. | Predictive modeling and control of cell culture |
US20230267352A1 (en) * | 2022-02-22 | 2023-08-24 | Visa International Service Association | System, Method, and Computer Program Product for Time Series Based Machine Learning Model Reduction Strategy |
-
2023
- 2023-11-15 CN CN202311514464.XA patent/CN117235673B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145912A (zh) * | 2019-12-23 | 2020-05-12 | 浙江大学 | 一种基于机器学习的个性化超促排卵方案的预测装置 |
CN112259246A (zh) * | 2020-10-21 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种融合医学概念层级结构的疾病预测方法及相关设备 |
JP2023544067A (ja) * | 2020-11-26 | 2023-10-19 | シェンチェン タイリ バイオテクノロジー カンパニー リミテッド | 基礎培地の開発方法及びシステム |
CN112662551A (zh) * | 2020-12-29 | 2021-04-16 | 上海药明生物医药有限公司 | 一种细胞培养控制方法以及系统 |
CN112863696A (zh) * | 2021-04-25 | 2021-05-28 | 浙江大学 | 基于迁移学习和图神经网络的药物敏感性预测方法和装置 |
CN114121163A (zh) * | 2021-11-30 | 2022-03-01 | 深圳太力生物技术有限责任公司 | 基于整合学习的培养基预测系统、训练及培养基预测方法 |
CN115273077A (zh) * | 2021-12-09 | 2022-11-01 | 首都医科大学附属北京天坛医院 | 细胞模型构建方法、计算机设备及存储介质 |
CN115049024A (zh) * | 2022-08-15 | 2022-09-13 | 国能日新科技股份有限公司 | 风速预测模型的训练方法、装置、电子设备和存储介质 |
CN116052778A (zh) * | 2022-12-13 | 2023-05-02 | 无锡药明生物技术股份有限公司 | 实时监测生物反应器中细胞培养液组分浓度的方法 |
CN116153388A (zh) * | 2023-04-19 | 2023-05-23 | 北京蓝晶微生物科技有限公司 | 定量关系模型及应用、细胞状态监测方法、装置、系统 |
Non-Patent Citations (3)
Title |
---|
Epigenetically controlled Six3 expression regulates glioblastoma cell proliferation and invasion alongside modulating the activation levels of WNT pathway members;Baoxin Zhang 等;《 Journal of Neuro-Oncology 》;509–518 * |
基于PSO-WSVR的短期水质预测模型研究;徐龙琴;刘双印;;郑州大学学报(工学版)(第03期);115-119 * |
重组抗CD20单克隆抗体细胞培养工艺优化;庄少颖;史劲松;;名医(第12期);356-357+359 * |
Also Published As
Publication number | Publication date |
---|---|
CN117235673A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Analysis of ribosome stalling and translation elongation dynamics by deep learning | |
CN111798921A (zh) | 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置 | |
Hesami et al. | Machine learning: its challenges and opportunities in plant system biology | |
CN114743600A (zh) | 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法 | |
WO2021062198A1 (en) | Single cell rna-seq data processing | |
CN116580848A (zh) | 一种基于多头注意力机制的分析癌症多组学数据方法 | |
CN114121163B (zh) | 基于整合学习的培养基预测系统、训练及培养基预测方法 | |
Zhang et al. | ROSE: a deep learning based framework for predicting ribosome stalling | |
CN117235673B (zh) | 一种细胞培养预测方法及装置、电子设备、存储介质 | |
Salman et al. | Gene expression analysis via spatial clustering and evaluation indexing | |
Ramakrishna et al. | Evolutionary Optimization Algorithm for Classification of Microarray Datasets with Mayfly and Whale Survival. | |
CN115083511A (zh) | 基于图表示学习与注意力的外围基因调控特征提取方法 | |
KR101913952B1 (ko) | V-CNN 접근을 통한 iPSC 집락 자동 인식 방법 | |
CN110739028B (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
Lahmer et al. | Classification of DNA Microarrays Using Deep Learning to identify Cell Cycle Regulated Genes | |
Shukla et al. | Supervised learning of Plasmodium falciparum life cycle stages using single-cell transcriptomes identifies crucial proteins | |
CN113223620A (zh) | 基于多维度序列嵌入的蛋白质溶解性预测方法 | |
CN112926640A (zh) | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 | |
Alabed et al. | Genetic algorithms as a feature selection tool in heart failure disease | |
Fadhil et al. | Classification of Cancer Microarray Data Based on Deep Learning: A Review | |
Muhammad et al. | Gvdeepnet: Unsupervised deep learning techniques for effective genetic variant classification | |
Cai et al. | Application and research progress of machine learning in Bioinformatics | |
Priyadharshini et al. | An Optimized Feature Selection Method for High Dimensional Data | |
Baraniya et al. | Breast Cancer Classification and Recurrence Prediction Using Artificial Neural Networks and Machine Learning Techniques | |
Hu | Modeling the gene regulatory dynamics in neural differentiation with single cell data using a machine learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |