CN117034110A - 一种基于深度学习的干细胞外泌体检测方法 - Google Patents
一种基于深度学习的干细胞外泌体检测方法 Download PDFInfo
- Publication number
- CN117034110A CN117034110A CN202310992331.7A CN202310992331A CN117034110A CN 117034110 A CN117034110 A CN 117034110A CN 202310992331 A CN202310992331 A CN 202310992331A CN 117034110 A CN117034110 A CN 117034110A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- stem cell
- training
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000001808 exosome Anatomy 0.000 title claims abstract description 94
- 210000000130 stem cell Anatomy 0.000 title claims abstract description 75
- 238000001514 detection method Methods 0.000 title claims abstract description 67
- 238000013135 deep learning Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000013136 deep learning model Methods 0.000 claims abstract description 15
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 239000012472 biological sample Substances 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 48
- 238000011156 evaluation Methods 0.000 claims description 18
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 108090000623 proteins and genes Proteins 0.000 claims description 9
- 102000004169 proteins and genes Human genes 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000002790 cross-validation Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000000513 principal component analysis Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000013526 transfer learning Methods 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims description 2
- 238000000684 flow cytometry Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 210000004504 adult stem cell Anatomy 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000001671 embryonic stem cell Anatomy 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 230000035992 intercellular communication Effects 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 239000002105 nanoparticle Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/5005—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Immunology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Hematology (AREA)
- Chemical & Material Sciences (AREA)
- Urology & Nephrology (AREA)
- Biotechnology (AREA)
- Cell Biology (AREA)
- Microbiology (AREA)
- Probability & Statistics with Applications (AREA)
- Tropical Medicine & Parasitology (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及干细胞外泌体检测技术领域,具体涉及一种基于深度学习的干细胞外泌体检测方法,包括以下步骤:数据收集:收集外泌体生物样本数据;数据预处理:对所述生物样本数据进行预处理,使数据可导入模型中;构建深度学习模型:根据预处理后的数据,利用深度信念网络(DBN)进行模型构建;模型训练:利用构建的深度学习模型对预处理后的数据进行学习,以获得可用于外泌体检测的模型;模型评估:对训练后的模型进行评估,优化模型参数以提高模型的准确性和鲁棒性;干细胞外泌体检测:本发明,利用深度学习技术进行模型构建,相较于传统的干细胞外泌体检测方法,能有效提升检测的准确率和效率。
Description
技术领域
本发明涉及干细胞外泌体检测技术领域,尤其涉及一种基于深度学习的干细胞外泌体检测方法。
背景技术
干细胞外泌体是一种特殊的细胞内小体,近年来已经被证明在生物学和医学领域具有重要的作用,特别是在细胞间通讯、物质转运、疾病治疗等方面。然而,由于干细胞外泌体的微小尺寸和复杂性,其检测和鉴定工作十分困难。目前常用的干细胞外泌体检测方法主要有电子显微镜检测、流式细胞术检测、纳米粒度检测等,但这些方法不仅耗时耗力,而且准确性有待提高。为此,急需开发一种新型的、高效准确的干细胞外泌体检测方法。
近年来,深度学习技术在众多领域中展现出了强大的性能,特别是在图像识别、语音识别等领域取得了显著的成功,因此,将深度学习技术应用于干细胞外泌体的检测,有可能大大提高检测的效率和准确性,然而,目前还没有相关的研究报道,因此,本发明的目的是提供一种基于深度学习的干细胞外泌体检测方法,以解决以上问题。
发明内容
基于上述目的,本发明提供了一种基于深度学习的干细胞外泌体检测方法。
一种基于深度学习的干细胞外泌体检测方法,包括以下步骤:
步骤一:数据收集:收集外泌体生物样本数据;
步骤二:数据预处理:对所述生物样本数据进行预处理,使数据可导入模型中;
步骤三:构建深度学习模型:根据预处理后的数据,利用深度信念网络(DBN)进行模型构建;
步骤四:模型训练:利用构建的深度学习模型对预处理后的数据进行学习,以获得可用于外泌体检测的模型;
步骤五:模型评估:对训练后的模型进行评估,优化模型参数以提高模型的准确性和鲁棒性;
步骤六:干细胞外泌体检测:应用优化后的深度学习模型对新的生物样本进行干细胞外泌体的检测。
进一步的,所述步骤一中的干细胞外泌体检测数据包括干细胞外泌体的大小、形状、蛋白质信息。
进一步的,所述步骤二中的预处理包括:
i异常值检测:通过统计分析检测数据中的异常值并进行处理,以减少数据噪声对模型学习的干扰;
ii缺失值处理:对数据中存在的缺失值进行填充或删除,填充方法包括均值、中位数、众数、插值、基于模型的预测填充;
iii数据归一化:将数据按比例缩放,使之落入一个小的特定区间,特定区间设为0-1,或-1到1,以减少数据量纲的影响,使得模型训练更加稳定;
iv数据标准化:将数据转化为均值为0,标准差为1的正态分布,以减少数据量纲和分布的影响,促进模型的学习和预测。
进一步的,所述步骤三中,所述深度信念网络(DBN)模型用于学习并识别干细胞外泌体的特性,以实现精准的外泌体检测,深度信念网络为生成式概率图模型,由多层隐含的神经元组成,其中,每一对相邻层间的连接构成一个受限玻尔兹曼机(RBM);
构建DBN模型的步骤如下:
初始数据层:设X为输入的干细胞外泌体数据,其中X=(x1,x2,...,xn),xi可能代表着外泌体的大小、形状、蛋白质或其他表达水平特征;
构建第一个隐藏层:通过训练第一个RBM,将数据层X与第一个隐藏层H1关联,设H1=(h1,h2,...,hm),其中hi表示第一层隐藏神经元,RBM可以通过以下能量函数来定义X与H1之间的联合分布:
E(x,h)=-∑i a_i*x_i-∑j b_j*h_j-∑i,j x_i*w_ij*h_j
其中a_i和b_j为对应x_i和h_j的偏置项,w_ij为x_i与h_j之间的连接权重,联合分布定义为:
P(x,h)=exp(-E(x,h))/Z
其中Z为归一化因子,等于所有可能(x,h)对的能量之和。
进一步的,所述步骤四中的模型训练具体包括:
逐层训练RBM:用前一层的隐藏层激活值作为下一层RBM的输入,依次训练多个RBM,逐渐构建出整个DBN模型;
采用监督学习方法,将有标签的外泌体数据输入模型,并利用标签作为真实值来优化模型的预测能力,训练过程中,模型的预测结果与真实值之间的差异用于更新模型的权重,以最小化预测误差;
微调:在完成逐层训练后,使用反向传播算法进行模型微调,以优化模型在处理干细胞外泌体检测任务的性能。
进一步的,所述步骤五中的模型评估采用交叉验证、混淆矩阵方法评估模型性能;
交叉验证方法将原始数据集分为训练集和测试集,在训练集上训练模型,在测试集上评估模型的预测性能,以此来避免过拟合现象;
混淆矩阵为具体评估技术,详细呈现模型在各类别上的预测能力,包括真阳性、假阳性、真阴性和假阴性,从而评估模型在特定类型干细胞外泌体识别上的性能。
进一步的,所述交叉验证具体为:
将原始的干细胞外泌体数据集随机分为k个子集,每个子集包含大致相等的数据项;
选择其中的k-1个子集作为训练集,剩余的1个子集作为验证集;
利用训练集对模型进行训练,并在验证集上评估模型的性能,计算预设的评估指标;
重复以上步骤k次,每次选择不同的子集作为验证集,其余的子集作为训练集;
将k次评估的结果求平均,得到最终的模型性能评估结果。
进一步的,所述深度信念网络(DBN)模型建立前,通过自动特征选择和降维技术,包括主成分分析(PCA)、t-SNE,对干细胞外泌体数据进行处理;所述模型训练和预测阶段,通过异常检测技术,对训练数据中的异常样本进行检测和处理。
进一步的,还包括多模型融合策略,其用于将深度信念网络(DBN)与循环神经网络(RNN),进行融合,形成一个强大集成模型。
进一步的,所述模型训练阶段采用迁移学习的策略,将已经在相关任务上训练好的深度学习模型作为预训练模型,对其进行微调,用于处理干细胞外泌体的检测任务。
本发明的有益效果:
本发明,利用深度学习技术进行模型构建,相较于传统的干细胞外泌体检测方法,能有效提升检测的准确率和效率,此外,深度学习模型能够学习到数据的深层次特征,从而在一定程度上解决了传统方法中无法有效鉴别复杂干细胞外泌体特征的问题。
本发明,采用了多种模型训练策略,不仅增强了模型的泛化能力,也提高了模型对于不同类型干细胞外泌体的识别准确性,引入了特征选择和降维、异常检测、多模型融合、迁移学习等创新步骤,可以进一步优化模型的性能,提高检测结果的准确性和可信度,模型评估采用交叉验证、混淆矩阵方法,可以全面而准确地评估模型的性能,提供模型优化的依据。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的逻辑框图;
图2为本发明实施例的预处理流程示意图;
图3为本发明实施例的模型评估方法示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如图1-图3所示,一种基于深度学习的干细胞外泌体检测方法,包括以下步骤:
步骤一:数据收集:收集外泌体生物样本数据;
步骤二:数据预处理:对生物样本数据进行预处理,使数据可导入模型中;
步骤三:构建深度学习模型:根据预处理后的数据,利用深度信念网络(DBN)进行模型构建;
步骤四:模型训练:利用构建的深度学习模型对预处理后的数据进行学习,以获得可用于外泌体检测的模型;
步骤五:模型评估:对训练后的模型进行评估,优化模型参数以提高模型的准确性和鲁棒性;
步骤六:干细胞外泌体检测:应用优化后的深度学习模型对新的生物样本进行干细胞外泌体的检测。
步骤一中的干细胞外泌体检测数据包括干细胞外泌体的大小、形状、蛋白质信息。
步骤二中的预处理包括:
i异常值检测:通过统计分析检测数据中的异常值并进行处理,以减少数据噪声对模型学习的干扰;
ii缺失值处理:对数据中存在的缺失值进行填充或删除,填充方法包括均值、中位数、众数、插值、基于模型的预测填充;
iii数据归一化:将数据按比例缩放,使之落入一个小的特定区间,特定区间设为0-1,或-1到1,以减少数据量纲的影响,使得模型训练更加稳定;
iv数据标准化:将数据转化为均值为0,标准差为1的正态分布,以减少数据量纲和分布的影响,促进模型的学习和预测。
步骤三中,构建深度信念网络(DBN)模型的具体步骤包括:
i数据输入:收集包含多个特征的干细胞外泌体数据作为初始输入,特征包括但不限于尺寸、形状、蛋白质或其他表达水平;
ii构建第一个隐藏层:使用第一个受限玻尔兹曼机(RBM)学习输入数据的高级特征,并用激活值作为第一隐藏层的输出;
iii逐层训练RBM:用前一层的隐藏层激活值作为下一层RBM的输入,依次训练多个RBM,逐渐构建出整个DBN模型;
iv微调:在完成逐层训练后,使用反向传播算法进行模型微调,以优化模型在处理干细胞外泌体检测任务的性能。
在这个过程中,每个RBM的训练可以采用对比散度(Contrastive Divergence)或者持续对比散度(Persistent Contrastive Divergence)等方法,以高效地学习并表达干细胞外泌体的特性,进而实现干细胞外泌体的准确和高效检测;
具体的,
深度信念网络(DBN)模型用于学习并识别干细胞外泌体的特性,以实现精准的外泌体检测,深度信念网络为生成式概率图模型,由多层隐含的神经元组成,其中,每一对相邻层间的连接构成一个受限玻尔兹曼机(RBM);
构建DBN模型的步骤如下:
初始数据层:设X为输入的干细胞外泌体数据,其中X=(x1,x2,...,xn),xi可能代表着外泌体的大小、形状、蛋白质或其他表达水平特征;
构建第一个隐藏层:通过训练第一个RBM,将数据层X与第一个隐藏层H1关联,设H1=(h1,h2,...,hm),其中hi表示第一层隐藏神经元,RBM可以通过以下能量函数来定义X与H1之间的联合分布:
E(x,h)=-∑i a_i*x_i-∑j b_j*h_j-∑i,j x_i*w_ij*h_j
其中a_i和b_j为对应x_i和h_j的偏置项,w_ij为x_i与h_j之间的连接权重,联合分布定义为:
P(x,h)=exp(-E(x,h))/Z
其中Z为归一化因子,等于所有可能(x,h)对的能量之和。
综上,DBN模型通过层层学习和建模,能有效地揭示干细胞外泌体的各种特性,进而实现精准且高效的干细胞外泌体检测。
步骤四中的模型训练具体包括:
逐层训练RBM:用前一层的隐藏层激活值作为下一层RBM的输入,依次训练多个RBM,逐渐构建出整个DBN模型;
采用监督学习方法,将有标签的外泌体数据输入模型,并利用标签作为真实值来优化模型的预测能力,训练过程中,模型的预测结果与真实值之间的差异用于更新模型的权重,以最小化预测误差,这种方法有助于模型学习并理解特定类型的干细胞外泌体的特征表达,从而实现准确的外泌体检测;
微调:在完成逐层训练后,使用反向传播算法进行模型微调,以优化模型在处理干细胞外泌体检测任务的性能。
在这个过程中,每个RBM的训练可以采用对比散度(Contrastive Divergence)或者持续对比散度(Persistent Contrastive Divergence)等方法,以高效地学习并表达干细胞外泌体的特性,进而实现干细胞外泌体的准确和高效检测。
步骤五中的模型评估采用交叉验证、混淆矩阵方法评估模型性能;
交叉验证方法将原始数据集分为训练集和测试集,在训练集上训练模型,在测试集上评估模型的预测性能,以此来避免过拟合现象;
混淆矩阵为具体评估技术,详细呈现模型在各类别上的预测能力,包括真阳性、假阳性、真阴性和假阴性,从而评估模型在特定类型干细胞外泌体识别上的性能。
交叉验证具体为:
将原始的干细胞外泌体数据集随机分为k个子集,每个子集包含大致相等的数据项;
选择其中的k-1个子集作为训练集,剩余的1个子集作为验证集;
利用训练集对模型进行训练,并在验证集上评估模型的性能,计算预设的评估指标(例如准确率、召回率等);
重复以上步骤k次,每次选择不同的子集作为验证集,其余的子集作为训练集;
将k次评估的结果求平均,得到最终的模型性能评估结果;
这种方法能够全面利用所有数据进行模型训练和验证,从而更准确地评估模型在新数据上的表现。在本发明中,这种评估方式可以有效地评估深度信念网络模型在处理不同类型的干细胞外泌体数据时的性能,从而选择出最优的模型进行实际的干细胞外泌体检测任务。
深度信念网络(DBN)模型建立前,通过自动特征选择和降维技术,包括主成分分析(PCA)、t-SNE,对干细胞外泌体数据进行处理,该步骤可以降低数据的复杂性,消除无关特征,增强模型的学习能力和预测精度;模型训练和预测阶段,通过异常检测技术,对训练数据中的异常样本进行检测和处理,该步骤可以提高模型的鲁棒性,防止模型受到异常样本的影响。
还包括多模型融合策略,其用于将深度信念网络(DBN)与循环神经网络(RNN),进行融合,形成一个强大集成模型,这种方法可以充分利用各种模型的优势,进一步提高检测的准确性。
模型训练阶段采用迁移学习的策略,将已经在相关任务上训练好的深度学习模型作为预训练模型,对其进行微调,用于处理干细胞外泌体的检测任务。
为了更全面地展示本发明的可实施性,以下将相关实验过程和结果进行展示。
实验设定:
在实验中选择了两种类型的干细胞,分别是胚胎干细胞和成体干细胞,对每种类型的干细胞,分别收集500个外泌体样本,总计1000个样本,每个样本都包含了外泌体的形态、尺寸、蛋白质组成等信息,在样本收集完成后,将这些数据按照8:2的比例随机分为训练集(800个样本)和测试集(200个样本);
在预处理阶段,使用了噪声去除和标准化处理,以消除数据中的异常值和缩小数据的尺度,然后,我们使用深度信念网络(DBN)对数据进行了特征提取,从原始的形态、尺寸、蛋白质组成信息中提取出了100个高级特征;
实验结果:
在模型训练阶段,我们采用了监督学习方法,监督学习使用了全量的训练集(标签已知),在训练过程中,引入了特征选择和降维方法以减少特征的数量,采用了异常检测技术来处理训练数据中的异常样本,并通过多模型融合和迁移学习策略来提高模型的性能;
最终,我们的模型在测试集上表现出了显著的优势,具体表现如下:
平均准确率:92.5%
平均精确率:91.2%
平均召回率:92.7%
F1得分:92.0%。
此外,我们还对模型进行了多次的交叉验证,并利用混淆矩阵对模型的性能进行了深入的分析,结果表明,我们的模型不仅在整体上具有高准确率,其在各个类别上的分类效果也十分优秀,显示出良好的泛化能力。
这个实验验证了本发明的基于深度学习的干细胞外泌体检测方法在实际应用中的有效性。
传统方法一般采用流式细胞术检测方法,以下为使用深度学习方法以及传统流式细胞术检测方法在测试集上的表现。
该表格呈现了两种方法在四个指标(平均准确率、平均精确率、平均召回率和F1得分)上的表现,通过这些指标,我们可以比较深度学习方法和流式细胞术的效果;
从表格中,我们可以看到深度学习方法在所有四个指标上都优于流式细胞术,这证明了深度学习方法在干细胞外泌体检测任务上的有效性,特别是在平均准确率上,深度学习方法比流式细胞术提高了7.5个百分点,这是一个显著的提升。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本发明旨在涵盖落入权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度学习的干细胞外泌体检测方法,其特征在于,包括以下步骤:
步骤一:数据收集:收集外泌体生物样本数据;
步骤二:数据预处理:对所述生物样本数据进行预处理,使数据可导入模型中;
步骤三:构建深度学习模型:根据预处理后的数据,利用深度信念网络(DBN)进行模型构建;
步骤四:模型训练:利用构建的深度学习模型对预处理后的数据进行学习,以获得可用于外泌体检测的模型;
步骤五:模型评估:对训练后的模型进行评估,优化模型参数以提高模型的准确性和鲁棒性;
步骤六:干细胞外泌体检测:应用优化后的深度学习模型对新的生物样本进行干细胞外泌体的检测。
2.根据权利要求1所述的一种基于深度学习的干细胞外泌体检测方法,其特征在于,所述步骤一中的干细胞外泌体检测数据包括干细胞外泌体的大小、形状、蛋白质信息。
3.根据权利要求1所述的一种基于深度学习的干细胞外泌体检测方法,其特征在于,所述步骤二中的预处理包括:
i异常值检测:通过统计分析检测数据中的异常值并进行处理,以减少数据噪声对模型学习的干扰;
ii缺失值处理:对数据中存在的缺失值进行填充或删除,填充方法包括均值、中位数、众数、插值、基于模型的预测填充;
iii数据归一化:将数据按比例缩放,使之落入一个小的特定区间,特定区间设为0-1,或-1到1,以减少数据量纲的影响,使得模型训练更加稳定;
iv数据标准化:将数据转化为均值为0,标准差为1的正态分布,以减少数据量纲和分布的影响,促进模型的学习和预测。
4.根据权利要求3所述的一种基于深度学习的干细胞外泌体检测方法,其特征在于,在步骤三中,所述深度信念网络(DBN)模型用于学习并识别干细胞外泌体的特性,以实现精准的外泌体检测,深度信念网络为生成式概率图模型,由多层隐含的神经元组成,其中,每一对相邻层间的连接构成一个受限玻尔兹曼机(RBM);
构建DBN模型的步骤如下:
初始数据层:设X为输入的干细胞外泌体数据,其中X=(x1,x2,...,xn),xi可能代表着外泌体的大小、形状、蛋白质或其他表达水平特征;
构建第一个隐藏层:通过训练第一个RBM,将数据层X与第一个隐藏层H1关联,设H1=(h1,h2,...,hm),其中hi表示第一层隐藏神经元,RBM可以通过以下能量函数来定义X与H1之间的联合分布:
E(x,h)=-∑i a_i*x_i-∑j b_j*h_j-∑i,j x_i*w_ij*h_j
其中a_i和b_j为对应x_i和h_j的偏置项,w_ij为x_i与h_j之间的连接权重,联合分布定义为:
P(x,h)=exp(-E(x,h))/Z
其中Z为归一化因子,等于所有可能(x,h)对的能量之和。
5.根据权利要求4所述的一种基于深度学习的干细胞外泌体检测方法,其特征在于,所述步骤四中的模型训练具体包括:
逐层训练RBM:用前一层的隐藏层激活值作为下一层RBM的输入,依次训练多个RBM,逐渐构建出整个DBN模型;
采用监督学习方法,将有标签的外泌体数据输入模型,并利用标签作为真实值来优化模型的预测能力,训练过程中,模型的预测结果与真实值之间的差异用于更新模型的权重,以最小化预测误差;
微调:在完成逐层训练后,使用反向传播算法进行模型微调,以优化模型在处理干细胞外泌体检测任务的性能。
6.根据权利要求5所述的一种基于深度学习的干细胞外泌体检测方法,其特征在于,所述步骤五中的模型评估采用交叉验证、混淆矩阵方法评估模型性能;
交叉验证方法将原始数据集分为训练集和测试集,在训练集上训练模型,在测试集上评估模型的预测性能,以此来避免过拟合现象;
混淆矩阵为具体评估技术,详细呈现模型在各类别上的预测能力,包括真阳性、假阳性、真阴性和假阴性,从而评估模型在特定类型干细胞外泌体识别上的性能。
7.根据权利要求6所述的一种基于深度学习的干细胞外泌体检测方法,其特征在于,所述交叉验证具体为:
将原始的干细胞外泌体数据集随机分为k个子集,每个子集包含大致相等的数据项;
选择其中的k-1个子集作为训练集,剩余的1个子集作为验证集;
利用训练集对模型进行训练,并在验证集上评估模型的性能,计算预设的评估指标;
重复以上步骤k次,每次选择不同的子集作为验证集,其余的子集作为训练集;
将k次评估的结果求平均,得到最终的模型性能评估结果。
8.根据权利要求7所述的一种基于深度学习的干细胞外泌体检测方法,其特征在于,所述深度信念网络(DBN)模型建立前,通过自动特征选择和降维技术,包括主成分分析(PCA)、t-SNE,对干细胞外泌体数据进行处理;所述模型训练和预测阶段,通过异常检测技术,对训练数据中的异常样本进行检测和处理。
9.根据权利要求1所述的一种基于深度学习的干细胞外泌体检测方法,其特征在于,还包括多模型融合策略,其用于将深度信念网络(DBN)与循环神经网络(RNN),进行融合,形成一个强大集成模型。
10.根据权利要求1所述的一种基于深度学习的干细胞外泌体检测方法,其特征在于,所述模型训练阶段采用迁移学习的策略,将已经在相关任务上训练好的深度学习模型作为预训练模型,对其进行微调,用于处理干细胞外泌体的检测任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310992331.7A CN117034110A (zh) | 2023-08-08 | 2023-08-08 | 一种基于深度学习的干细胞外泌体检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310992331.7A CN117034110A (zh) | 2023-08-08 | 2023-08-08 | 一种基于深度学习的干细胞外泌体检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117034110A true CN117034110A (zh) | 2023-11-10 |
Family
ID=88636608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310992331.7A Pending CN117034110A (zh) | 2023-08-08 | 2023-08-08 | 一种基于深度学习的干细胞外泌体检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117034110A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019109077A1 (en) * | 2017-12-01 | 2019-06-06 | Cornell University | Nanoparticles and distinct exosome subsets for detection and treatment of cancer |
CN110969188A (zh) * | 2019-11-01 | 2020-04-07 | 上海市第六人民医院 | 一种基于深度学习的外泌体电镜图片判断系统及判断方法 |
CN113194820A (zh) * | 2019-03-04 | 2021-07-30 | 艾索波特株式会社 | 借助外泌体的基于人工智能的利用液体活检的癌诊断信息提供方法及系统 |
CN113689456A (zh) * | 2021-08-18 | 2021-11-23 | 山东大学 | 基于深度学习的外泌体粒径分析装置及方法 |
CN114973245A (zh) * | 2022-06-20 | 2022-08-30 | 重庆医科大学 | 基于机器学习的细胞外囊泡分类方法、装置、设备及介质 |
-
2023
- 2023-08-08 CN CN202310992331.7A patent/CN117034110A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019109077A1 (en) * | 2017-12-01 | 2019-06-06 | Cornell University | Nanoparticles and distinct exosome subsets for detection and treatment of cancer |
CN113194820A (zh) * | 2019-03-04 | 2021-07-30 | 艾索波特株式会社 | 借助外泌体的基于人工智能的利用液体活检的癌诊断信息提供方法及系统 |
CN110969188A (zh) * | 2019-11-01 | 2020-04-07 | 上海市第六人民医院 | 一种基于深度学习的外泌体电镜图片判断系统及判断方法 |
CN113689456A (zh) * | 2021-08-18 | 2021-11-23 | 山东大学 | 基于深度学习的外泌体粒径分析装置及方法 |
CN114973245A (zh) * | 2022-06-20 | 2022-08-30 | 重庆医科大学 | 基于机器学习的细胞外囊泡分类方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
ESTIBALIZ GÓMEZ-DE-MARISCAL 等: "Deep-Learning-Based Segmentation of Small Extracellular Vesicles in Transmission Electron Microscopy Images", SCIENTIFIC REPORTS, vol. 9, 13 September 2019 (2019-09-13), pages 1 - 10 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Multi-class financial distress prediction based on support vector machines integrated with the decomposition and fusion methods | |
CN109934293B (zh) | 图像识别方法、装置、介质及混淆感知卷积神经网络 | |
CN109034264B (zh) | 交通事故严重性预测csp-cnn模型及其建模方法 | |
Tang et al. | A pruning neural network model in credit classification analysis | |
CN111882446B (zh) | 一种基于图卷积网络的异常账户检测方法 | |
Liang et al. | The effect of feature selection on financial distress prediction | |
Cho et al. | A hybrid approach based on the combination of variable selection using decision trees and case-based reasoning using the Mahalanobis distance: For bankruptcy prediction | |
WO2019165673A1 (zh) | 一种报销单风险预测方法、装置、终端设备及存储介质 | |
Lin et al. | Parameter tuning, feature selection and weight assignment of features for case-based reasoning by artificial immune system | |
CN113657561B (zh) | 一种基于多任务解耦学习的半监督夜间图像分类方法 | |
CN109685653A (zh) | 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法 | |
CN110837523A (zh) | 一种基于级联神经网络的高置信改造质量和减假暂量化评估方法 | |
CN111626821A (zh) | 基于集成特征选择实现客户分类的产品推荐方法及系统 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN104537383A (zh) | 一种基于粒子群的海量组织机构数据分类方法及系统 | |
Wei et al. | Analysis and risk assessment of corporate financial leverage using mobile payment in the era of digital technology in a complex environment | |
Wu et al. | An uncertainty-oriented cost-sensitive credit scoring framework with multi-objective feature selection | |
CN114139624A (zh) | 一种基于集成模型挖掘时间序列数据相似性信息的方法 | |
Rethik et al. | Attention Based Mapping for Plants Leaf to Classify Diseases using Vision Transformer | |
CN112528554A (zh) | 一种适于多发多源火箭试验数据的数据融合方法及系统 | |
CN116304941A (zh) | 一种基于多模型组合的海洋数据质量控制方法及装置 | |
CN117034110A (zh) | 一种基于深度学习的干细胞外泌体检测方法 | |
CN116150687A (zh) | 一种基于多分类g-wlstsvm模型的流体管道泄漏识别方法 | |
CN111402953B (zh) | 基于层次注意力网络的蛋白质序列分类方法 | |
Caplescu et al. | Will they repay their debt? Identification of borrowers likely to be charged off |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: No. A-63, 3rd Floor, Qiaohui Building, No. 21 Yilong West Road, Datong Street, Longhua District, Haikou City, Hainan Province, 570100 Applicant after: Hainan Cell Medical Technology Co.,Ltd. Address before: 100089 Hainan Cell, 3rd Floor, South Gate, C1C2 Podium Building, Wanliu Yicheng Center, Haidian District, Beijing Applicant before: Hainan Cell Medical Technology Co.,Ltd. Country or region before: China |