CN105447569A - 一种基于深度学习的乳腺癌细胞特征分析系统 - Google Patents
一种基于深度学习的乳腺癌细胞特征分析系统 Download PDFInfo
- Publication number
- CN105447569A CN105447569A CN201510958620.0A CN201510958620A CN105447569A CN 105447569 A CN105447569 A CN 105447569A CN 201510958620 A CN201510958620 A CN 201510958620A CN 105447569 A CN105447569 A CN 105447569A
- Authority
- CN
- China
- Prior art keywords
- layer
- training
- represent
- proper vector
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
Abstract
本发明公开了一种基于深度学习的乳腺癌细胞特征分析系统,该系统以深度学习为基础,构建多层次的卷积神经网络,实现了多级特征提取,这样可以达到更高分析准确度;本发明中模型的激活函数使用的是非饱和的ReLU函数,其具有更快的收敛特性;本发明中的池化层采用了有重叠的池化操作,通过交叉验证可以证明,与传统的非重叠的池化层相比,有重叠的池化可以进一步提高分析准确度;本发明采用了稀疏自编码器预训练+Dropout微调的训练模式,有效降低了模型的过拟合,增强了训练后所得模型的泛化能力,从而可以进一步提高分析准确度。
Description
技术领域
本发明涉及细胞特征分析技术领域,尤其涉及一种基于深度学习的乳腺癌细胞特征分析系统。
背景技术
深度学习是目前机器学习中的热点技术,概念起源于人工神经网络的研究,其核心思想是使用无监督的逐层预训练,有效防止了梯度弥散问题,使得神经网络在拥有更多层的时候也可以进行有效的训练。而更多的层就意味着网络可以表达更加复杂的函数,可以学习到更加高级的特征。从而实现更好的识别性能。
其本质上是构建含有多隐层的架构模型,通过大规模数据进行训练,得到大量更具代表性的特征信息,从而对样本进行分类和预测,提高分类和预测的精度。深度学习高精度的分类和预测在语音识别、对象识别和自然语言处理等领域有很好的表现。而且也有研究者将深度学习用于识别乳腺癌组织学图像中处于有丝分裂阶段的细胞。但目前用基于非结构化数据的端到端技术对乳腺癌细胞进行分析识别,还不能做到很好地识别效果。所以需要从细胞组织切片中提取相关的细胞学特征,将数据组织成结构化的数据,并利用这些结构化的数据去训练一个深度神经网络,可以达到更好的分析正确率。
现有技术中,还没有进行乳腺癌细胞特征分析的相关方案,因此,有必要研发一套可自动对乳腺癌细胞的特征进行分析的设备。
发明内容
本发明的目的是提供一种基于深度学习的乳腺癌细胞特征分析系统,不仅实现了深度学习用于处理有结构的数据,还可以实现乳腺癌细胞特征的自动分析。
本发明的目的是通过以下技术方案实现的:
一种基于深度学习的乳腺癌细胞特征分析系统,包括:
数据集构建模块,用于从历史数据库中调用历史数据来构建带有标签的数据集;
乳腺癌细胞分析模型构建模块,用于对所述数据集中所有数据进行归一化处理,并建立卷积神经网络模型,所建立的卷积神经网络模型包含相互交替的卷积层与池化层、全连接层及Logistic分类器;对所述卷积层与全连接层进行无监督的预训练,基于数据集的标签对Logistic分类器进行有监督的预训练,获得训练后的乳腺癌细胞分析模型;
分析模块,用于基于所述训练后的乳腺癌细胞分析模型实现乳腺癌细胞的特征分析。
进一步的,所述乳腺癌细胞分析模型构建模块还用于,在获得训练后的乳腺癌细胞分析模型之后对整个乳腺癌细胞分析模型的参数进行微调,以及利用交叉验证技术来选择使得模型泛化性能最好的超参。
进一步的,所述数据集构建模块,用于从历史数据库中调用历史数据来构建带有标签的数据集包括:
所述历史数据包括:乳腺细胞组织的切片样本,以及对应的分析结果;
对所述切片样本进行特征提取,每一切片样本均提取n个特征,然后对每一个特征均计算其平均值、标准误差和三个最大值的平均值,则对于每一切片样本而言提取出3n个特征;若用xij表示第j个切片样本的第i个特征的特征向量,则一个切片样本的特征向量为一个3n维的向量,表示为:
Xj=(x1j,x2j,…x(3n)j)T;
如果收集了m个切片样本,则整个数据集用矩阵X表示:
X=(X1,X2,…Xm)=(xij)3n×m;
其中,矩阵X的每一列代表一个切片样本的数据;
再将对应的分析结果作为标签,对应到矩阵X的每一列,从而获得带有标签的数据集。
进一步的,所述对所述数据集中所有数据进行归一化处理包括:
对数据集中每个元素按照如下公式进行归一化:
其中,表示第j个切片样本的第i个特征的特征向量xij的归一化结果;mean(xi*)表示对数据集第i行所有元素求平均值;std(xi*)表示对数据集第i行所有元素求标准差。
进一步的,所建立的卷积神经网络模型包括:
卷积层1、池化层1、卷积层2、池化层2、全连接层及Logistic分类器;
第一层为卷基层1,其表达式为:
其中,X为数据集,表示第1层第i个特征向量的输入,表示第1层第i个卷积核,*表示卷积运算,表示第1层第i个特征向量的激活值,ReLU为卷积层的激活函数;
第二层为池化层1,其表达式为:
其中,表示第2层第i个特征向量的输入,表示第2层第i个特征向量的激活值,Pooling为池化运算;
第三层为卷基层2,其表达式为:
其中,表示第3层第j个特征向量的输入,表示第3层第j个卷积核,表示第3层第j个特征向量的激活值;
第四层为池化层2,其表达式为:
其中,表示第4层第i个特征向量的激活值,表示第4层第i个特征向量的输入;
第五层为串联层,其将前述四层所有的特征向量串联起来:
其中,concatenate表示串联操作,z(5)表示第5层特征向量的输入,a(5)表示第5层特征向量的激活值;
第六层为全连接层,其表达式为:
z(6)=Wa(5);
a(6)=ReLU(z(6));
其中,z(6)表示第6层特征向量的输入,a(6)表示第6层特征向量的激活值,W表示第五层到第六层的权重矩阵;
全连接层输出的a(6)则为Logistic分类器的输入。
进一步的,所述对所述卷积层与全连接层进行无监督的预训练包括:
从数据集中选取一部分数据作为训练集;
对于卷积层1,每次选取训练集中相邻的ks1维特征向量,作为稀疏自编码器的输入进行预训练,其中,稀疏自编码器的隐藏层节点个数是nf1,该节点个数nf1对应于卷积层1中特征向量的总个数,所选取特征向量的维数ks1对应于卷积层1的卷积核长度;用预训练后的权重初始化卷积层1的卷积核,训练样本通过卷积层1后得到之后通过池化层1做平均池化得到
卷积层2以为输入,每次选取训练集中所有的ks2维特征向量,作为稀疏自编码器的输入进行预训练,其中,稀疏自编码器的隐藏层节点个数是nf2该节点个数nf2对应于卷积层2中特征向量的总个数,所选取特征向量的维数ks2对应于卷积层2的卷积核长度;用预训练后的权重初始化卷积层2的卷积核,训练样本通过卷积层2后得到之后通过池化层2做平均池化得到
将所有的池化层2的输出串联成一个特征向量,并以此为输入对全连接层进行预训练,全连接层节点个数由交叉验证最终确定。
进一步的,所述基于数据集的标签对Logistic分类器进行有监督的预训练包括:
以全连接层输出的特征向量,及特征向量对应的标签,构成带有标签的训练集;
对于给定的输入x=a(6),用一个假设函数针对切片分析结果进行估算;Logistic分类器的假设函数为Sigmoid函数:
其代价函数为:
其中,m表示切片样本的个数,y(i)表示第i个切片样本的标签,x(i)表示第i个切片样本,hθ(x(i))表示第i个切片样本的输出值,θ表示Logistic分类器的权重,λ表示权重衰减参数,是权重衰减项;
Logistic按如下公式计算代价函数J(θ)对于权重参数的梯度:
通过最小化代价函数J(θ),得到权重θ,将得到的θ代入Logistic分类器,即实现了Logistic分类器的预训练。
进一步的,所述在获得训练后的乳腺癌细胞分析模型之后对整个乳腺癌细胞分析模型的参数进行微调包括:
通过BP与Dropout相结合的方法进行参数微调,其步骤为:将每N个切片样本为一个批次做梯度下降,每次梯度下降的时候每个全连接层的隐藏节点以概率s随机忽略,每个串联层节点以概率q随机忽略,每次的权重更新只更新保留下来的节点所对应的权重,每次权重更新的过程都要从所有的节点中随机选择,更新也是在上次更新后的基础之上进行更新,从而得到最终的微调后的参数。
进一步的,所述利用交叉验证技术来选择使得模型泛化性能最好的超参包括:
在模型训练的过程中预先确定若干个参数,将这若干个参数作为超参;
再交叉验证技术选择使得模型泛化性能最好的超参,其步骤为:
首先,固定超参,再将训练集随机等分为P份,将第1份做为验证集,剩下的P-1份作为训练集,对模型进行训练;将验证集数据输入到训练后的模型里,得到模型的诊断准确率;
然后,将第2份最为验证集,剩下的P-1份作为训练集,对模型进行训练,将验证集数据输入到训练后的模型里面,得到模型的诊断准确率;
重复上述步骤,直至获得P个诊断准确率,对这P个准确率进行平均,得到在这组超参下所训练出来的模型的准确率;然后更换一组超参,重复上述步骤,选出使得准确率最高的超参组合作为最终对于超参的设定。
进一步的,所述分析模块,用于基于所述训练后的乳腺癌细胞分析模型实现乳腺癌细胞的特征分析包括:
对待检测的数据进行特征提取,再进行归一化处理后;
将归一化处理后的结果作为训练后的乳腺癌细胞分析模型的输入,从而获得乳腺癌细胞的特征分析结果。
由上述本发明提供的技术方案可以看出,以深度学习为基础,构建多层次的卷积神经网络,实现了多级特征提取,这样可以达到更高分析准确度;本发明中模型的激活函数使用的是非饱和的ReLU函数,其具有更快的收敛特性;本发明中的池化层采用了有重叠的池化操作,通过交叉验证可以证明,与传统的非重叠的池化层相比,有重叠的池化可以进一步提高分析准确度;本发明采用了稀疏自编码器预训练+Dropout微调的训练模式,有效降低了模型的过拟合,增强了训练后所得模型的泛化能力,从而可以进一步提高分析准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于深度学习的乳腺癌细胞特征分析系统结构示意图;
图2为本发明实施例提供的深度学习中卷积神经网络的构架示意图;
图3为本发明实施例提供的稀疏自编码器的原理示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于深度学习的乳腺癌细胞特征分析系统,其结构如图1所示,主要包括:数据集构建模块、乳腺癌细胞分析模型构建模块及分析模块;其中:
数据集构建模块,用于从历史数据库中调用历史数据来构建带有标签的数据集;
乳腺癌细胞分析模型构建模块,用于对所述数据集中所有数据进行归一化处理,并建立卷积神经网络模型,所建立的卷积神经网络模型包含相互交替的卷积层与池化层、全连接层及Logistic分类器;对所述卷积层与全连接层进行无监督的预训练,基于数据集的标签对Logistic分类器进行有监督的预训练,获得训练后的乳腺癌细胞分析模型;
分析模块,用于基于所述训练后的乳腺癌细胞分析模型实现乳腺癌细胞的特征分析。
需要强调的是,本发明实施例所要求保护的系统为一套整体硬件结构,除了前述必要的三个硬件结构外,还可以根据实际情况来搭配选择其他硬件结构,比如,用于移动或固定上述三个硬件结构的装置,或者用于将分析结果向外传输的通信模块或通信接口等。
为了便于理解,下面针对上述三个硬件结构做详细的说明。
一、数据集构建模块
其用于从历史数据库(设置在一存储介质中)中调用历史数据来构建带有标签的数据集,具体步骤包括:
所述历史数据包括:乳腺细胞组织的切片样本,以及对应的分析结果;
对所述切片样本进行特征提取,每一切片样本均提取n个特征,然后对每一个特征均计算其平均值、标准误差和三个最大值的平均值,则对于每一切片样本而言提取出3n个特征;若用xij表示第j个切片样本的第i个特征的特征向量,则一个切片样本的特征向量为一个3n维的向量,表示为:
Xj=(x1j,x2j,…x(3n)j)T;
如果收集了m个切片样本,则整个数据集用矩阵X表示:
X=(X1,X2,…Xm)=(xij)3n×m;
其中,矩阵X的每一列代表一个切片样本的数据;
再将对应的分析结果作为标签,对应到矩阵X的每一列,从而获得带有标签的数据集。
二、乳腺癌细胞分析模型构建模块。
本发明实施例中,乳腺癌细胞分析模型构建模块中的归一化处理、构建卷积神经网络模型、以及对模型进行训练的具体过程如下:
1、对所述数据集中所有数据进行归一化处理,其包括:
对数据集中每个元素按照如下公式进行归一化:
其中,表示第j个切片样本的第i个特征的特征向量xij的归一化结果;mean(xi*)表示对数据集第i行所有元素求平均值;std(xi*)表示对数据集第i行所有元素求标准差。
2、建立卷积神经网络模型
如图2所示,主要包括:卷积层1、池化层1、卷积层2、池化层2、全连接层及Logistic分类器;
第一层为卷基层1,其表达式为:
其中,X为数据集,表示第1层第i个特征向量的输入,表示第1层第i个卷积核(最合适的卷积核长度需要通过交叉验证来确定),*表示卷积运算,表示第1层第i个特征向量的激活值;ReLU为卷积层的激活函数,这种非饱和的激活函与传统的sigmoid激活函数相比收敛速度更快。其解析式是:ReLU(x)=max(x,0);
第二层为池化层1,其表达式为:
其中,表示第2层第i个特征向量的输入,表示第2层第i个特征向量的激活值,Pooling为池化运算,本发明实施例中,采用平均池化;
第三层为卷基层2,其表达式为:
其中,表示第3层第j个特征向量的输入,表示第3层第j个卷积核,表示第3层第j个特征向量的激活值;参数i对应的是卷积层1中的第i个特征向量,参数j对应的是卷积层2的第j个特征向量(卷积层1和卷积层2中的特征向量个数不同,所以分别用i和j来表示,加以区分);
第四层为池化层2,其表达式为:
其中,表示第4层第j个特征向量的激活值,表示第4层第j个特征向量的输入;
第五层为串联层,其将前述四层所有的特征向量串联起来:
其中,concatenate表示串联操作,z(5)表示第5层特征向量的输入,a(5)表示第5层特征向量的激活值;
第六层为全连接层,其表达式为:
z(6)=Wa(5);
a(6)=ReLU(z(6));
其中,z(6)表示第6层特征向量的输入,a(6)表示第6层特征向量的激活值,W表示第五层到第六层的权重矩阵;
全连接层输出的a(6)则为Logistic分类器的输入。
3、对模型进行训练。
1)对所述卷积层与全连接层进行无监督的预训练,其包括:
从数据集中选取一部分数据作为训练集;
对于卷积层1,每次选取训练集中相邻的ks1维特征向量(ks1为卷积层1的卷积核长度),作为稀疏自编码器(如图3所示)的输入进行预训练,其中图3中的稀疏自编码器的隐藏层节点个数是nf1(对应于卷积层1中特征向量的总个数);用预训练后的权重初始化卷积层1的卷积核;训练样本通过卷积层1后得到之后通过池化层1做平均池化得到
卷积层2是以为输入,每次选取训练集中相邻的ks2维特征向量(ks2为卷积层2的卷积核长度)作为稀疏自编码器(如图3所示)的输入进行预训练,此时图3中的稀疏自编码器的隐藏层节点个数是nf2(对应于卷积层2中特征向量的总个数),用预训练后的权重初始化卷积层2的卷积核;训练样本通过卷积层2后得到之后通过池化层2做平均池化得到
将所有的池化层2的输出串联成一个特征向量,并以此为输入对全连接层进行预训练,全连接层节点个数由交叉验证最终确定;
其中,所述稀疏自编码器为一种无监督学习算法,所述稀疏自编码器使用了反向传播算法,并让目标值等于输入值,同时对隐藏层加上了“稀疏性”限制。
若用aj(x)表示在输入为x情况下,稀疏自编码器的隐藏层神经元j的激活度,则:
表示隐藏层神经元j的平均活跃度,对其加入“稀疏性”限制:
其中ρ是稀疏性参数,通常是一个接近于0的较小的值(比如ρ=0.05)。
稀疏自编码器的代价函数可以表示为:
其中, 这一项使得大部分激活值接近于0,达到了稀疏性的目的。J(W,b)是反向传播算法的整体代价函数。
3)基于数据集的标签对Logistic分类器进行有监督的预训练,其包括:
以全连接层输出的特征向量,及特征向量对应的标签,构成带有标签的训练集;
对于给定的输入x=a(6),用一个假设函数针对切片分析结果进行估算;Logistic分类器的假设函数为Sigmoid函数:
其代价函数为:
其中,m表示切片样本的个数,y(i)表示第i个切片样本的标签,x(i)表示第i个切片样本,hθ(x(i))表示第i个切片样本的输出值,θ表示Logistic分类器的权重,λ表示权重衰减参数。是权重衰减项,使代价函数成为严格的凸函数,能够保证其得到唯一解。
Logistic按如下公式计算代价函数J(θ)对于权重参数的梯度:
通过最小化代价函数J(θ),得到权重θ,将得到的θ代入Logistic分类器(整个模型的最后一层),即实现了Logistic分类器的预训练。
优选的,所述乳腺癌细胞分析模型构建模块还用于,在获得训练后的乳腺癌细胞分析模型之后对整个乳腺癌细胞分析模型的参数进行微调,以及利用交叉验证技术来选择使得模型泛化性能最好的超参。具体过程如下:
1)对整个乳腺癌细胞分析模型的参数进行微调。
对整个乳腺癌细胞分析模型的参数进行微调,降低训练误差。在这个步骤中,除了采用传统的BP方法进行微调,在最后一个全连接层还采用了Dropout方法进行微调。
本发明实施例中,通过BP与Dropout相结合的方法进行参数微调,其步骤为:将每N个切片样本为一个批次做梯度下降,每次梯度下降的时候每个全连接层的隐藏节点以概率s随机忽略,每个串联层节点以概率q随机忽略,每次的权重更新只更新保留下来的节点所对应的权重,每次权重更新的过程都要从所有的节点中随机选择,更新也是在上次更新后的基础之上进行更新,从而得到最终的微调后的参数。
在测试的时候,串联层与全连接层之间的权重乘以w,其他所有的权重乘以c。
本发明实施例中,所述的N、s、q、w、c的具体数值可根据实际情况来设定。示例性的,可设置N=50,s=0.5,q=0.2,w=0.8,c=0.5。
2)利用交叉验证技术来选择使得模型泛化性能最好的超参。
其步骤如下:
在模型训练的过程中预先确定若干个参数,将这若干个参数作为超参;
再交叉验证技术选择使得模型泛化性能最好的超参,其步骤为:
首先,固定超参,再将训练集随机等分为P份,将第1份做为验证集,剩下的P-1份作为训练集,对模型进行训练;将验证集数据输入到训练后的模型里,得到模型的诊断准确率;
然后,将第2份最为验证集,剩下的P-1份作为训练集,对模型进行训练,将验证集数据输入到训练后的模型里面,得到模型的诊断准确率;
重复上述步骤,直至获得P个诊断准确率,对这P个准确率进行平均,得到在这组超参下所训练出来的模型的准确率;然后更换一组超参,重复上述步骤,选出使得准确率最高的超参组合作为最终对于超参的设定。
本发明实施例中,所述P的具体数值可根据实际情况来设定。示例性的,可设置P=10,则交叉验证技术为10折交叉验证技术。
三、分析模块
所述分析模块,用于基于所述训练后的乳腺癌细胞分析模型实现乳腺癌细胞的特征分析,其步骤包括:
对待检测的数据进行特征提取,再进行归一化处理后;所述待检测的数据存储在一存储介质中,特征提取与归一化处理的过程与前文一致,不在赘述。
将归一化处理后的结果作为训练后的乳腺癌细胞分析模型的输入,从而获得乳腺癌细胞的特征分析结果。
本发明的上述方案以深度学习为基础,构建多层次的卷积神经网络,实现了多级特征提取,这样可以达到更高分析准确度;本发明中模型的激活函数使用的是非饱和的ReLU函数,其具有更快的收敛特性;本发明中的池化层采用了有重叠的池化操作,通过交叉验证可以证明,与传统的非重叠的池化层相比,有重叠的池化可以进一步提高分析准确度;本发明采用了稀疏自编码器预训练+Dropout微调的训练模式,有效降低了模型的过拟合,增强了训练后所得模型的泛化能力,从而可以进一步提高分析准确度。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种基于深度学习的乳腺癌细胞特征分析系统,其特征在于,包括:
数据集构建模块,用于从历史数据库中调用历史数据来构建带有标签的数据集;
乳腺癌细胞分析模型构建模块,用于对所述数据集中所有数据进行归一化处理,并建立卷积神经网络模型,所建立的卷积神经网络模型包含相互交替的卷积层与池化层、全连接层及Logistic分类器;对所述卷积层与全连接层进行无监督的预训练,基于数据集的标签对Logistic分类器进行有监督的预训练,获得训练后的乳腺癌细胞分析模型;
分析模块,用于基于所述训练后的乳腺癌细胞分析模型实现乳腺癌细胞的特征分析。
2.根据权利要求1所述的系统,其特征在于,所述乳腺癌细胞分析模型构建模块还用于,在获得训练后的乳腺癌细胞分析模型之后对整个乳腺癌细胞分析模型的参数进行微调,以及利用交叉验证技术来选择使得模型泛化性能最好的超参。
3.根据权利要求1所述的系统,其特征在于,所述数据集构建模块,用于从历史数据库中调用历史数据来构建带有标签的数据集包括:
所述历史数据包括:乳腺细胞组织的切片样本,以及对应的分析结果;
对所述切片样本进行特征提取,每一切片样本均提取n个特征,然后对每一个特征均计算其平均值、标准误差和三个最大值的平均值,则对于每一切片样本而言提取出3n个特征;若用xij表示第j个切片样本的第i个特征的特征向量,则一个切片样本的特征向量为一个3n维的向量,表示为:
Xj=(x1j,x2j,…x(3n)j)T;
如果收集了m个切片样本,则整个数据集用矩阵X表示:
X=(X1,X2,…Xm)=(xij)3n×m;
其中,矩阵X的每一列代表一个切片样本的数据;
再将对应的分析结果作为标签,对应到矩阵X的每一列,从而获得带有标签的数据集。
4.根据权利要求1所述的系统,其特征在于,所述对所述数据集中所有数据进行归一化处理包括:
对数据集中每个元素按照如下公式进行归一化:
其中,表示第j个切片样本的第i个特征的特征向量xij的归一化结果;mean(xi*)表示对数据集第i行所有元素求平均值;std(xi*)表示对数据集第i行所有元素求标准差。
5.根据权利要求1或2所述的系统,其特征在于,所建立的卷积神经网络模型包括:
卷积层1、池化层1、卷积层2、池化层2、全连接层及Logistic分类器;
第一层为卷基层1,其表达式为:
其中,X为数据集,表示第1层第i个特征向量的输入,表示第1层第i个卷积核,*表示卷积运算,表示第1层第i个特征向量的激活值,ReLU为卷积层的激活函数;
第二层为池化层1,其表达式为:
其中,表示第2层第i个特征向量的输入,表示第2层第i个特征向量的激活值,Pooling为池化运算;
第三层为卷基层2,其表达式为:
其中,表示第3层第j个特征向量的输入,表示第3层第j个卷积核,表示第3层第j个特征向量的激活值;
第四层为池化层2,其表达式为:
其中,表示第4层第i个特征向量的激活值,表示第4层第i个特征向量的输入;
第五层为串联层,其将前述四层所有的特征向量串联起来:
其中,concatenate表示串联操作,z(5)表示第5层特征向量的输入,a(5)表示第5层特征向量的激活值;
第六层为全连接层,其表达式为:
z(6)=Wa(5);
a(6)=ReLU(z(6));
其中,z(6)表示第6层特征向量的输入,a(6)表示第6层特征向量的激活值,W表示第五层到第六层的权重矩阵;
全连接层输出的a(6)则为Logistic分类器的输入。
6.根据权利要求5所述的系统,其特征在于,所述对所述卷积层与全连接层进行无监督的预训练包括:
从数据集中选取一部分数据作为训练集;
对于卷积层1,每次选取训练集中相邻的ks1维特征向量,作为稀疏自编码器的输入进行预训练,其中,稀疏自编码器的隐藏层节点个数是nf1,该节点个数nf1对应于卷积层1中特征向量的总个数,所选取特征向量的维数ks1对应于卷积层1的卷积核长度;用预训练后的权重初始化卷积层1的卷积核,训练样本通过卷积层1后得到之后通过池化层1做平均池化得到
卷积层2以为输入,每次选取训练集中所有的ks2维特征向量,作为稀疏自编码器的输入进行预训练,其中,稀疏自编码器的隐藏层节点个数是nf2该节点个数nf2对应于卷积层2中特征向量的总个数,所选取特征向量的维数ks2对应于卷积层2的卷积核长度;用预训练后的权重初始化卷积层2的卷积核,训练样本通过卷积层2后得到之后通过池化层2做平均池化得到
将所有的池化层2的输出串联成一个特征向量,并以此为输入对全连接层进行预训练,全连接层节点个数由交叉验证最终确定。
7.根据权利要求5所述的系统,其特征在于,所述基于数据集的标签对Logistic分类器进行有监督的预训练包括:
以全连接层输出的特征向量,及特征向量对应的标签,构成带有标签的训练集;
对于给定的输入x=a(6),用一个假设函数针对切片分析结果进行估算;Logistic分类器的假设函数为Sigmoid函数:
其代价函数为:
其中,m表示切片样本的个数,y(i)表示第i个切片样本的标签,x(i)表示第i个切片样本,hθ(x(i))表示第i个切片样本的输出值,θ表示Logistic分类器的权重,λ表示权重衰减参数,是权重衰减项;
Logistic按如下公式计算代价函数J(θ)对于权重参数的梯度:
通过最小化代价函数J(θ),得到权重θ,将得到的θ代入Logistic分类器,即实现了Logistic分类器的预训练。
8.根据权利要求5所述的系统,其特征在于,所述在获得训练后的乳腺癌细胞分析模型之后对整个乳腺癌细胞分析模型的参数进行微调包括:
通过BP与Dropout相结合的方法进行参数微调,其步骤为:将每N个切片样本为一个批次做梯度下降,每次梯度下降的时候每个全连接层的隐藏节点以概率s随机忽略,每个串联层节点以概率q随机忽略,每次的权重更新只更新保留下来的节点所对应的权重,每次权重更新的过程都要从所有的节点中随机选择,更新也是在上次更新后的基础之上进行更新,从而得到最终的微调后的参数。
9.根据权利要求5所述的系统,其特征在于,所述利用交叉验证技术来选择使得模型泛化性能最好的超参包括:
在模型训练的过程中预先确定若干个参数,将这若干个参数作为超参;
再交叉验证技术选择使得模型泛化性能最好的超参,其步骤为:
首先,固定超参,再将训练集随机等分为P份,将第1份做为验证集,剩下的P-1份作为训练集,对模型进行训练;将验证集数据输入到训练后的模型里,得到模型的诊断准确率;
然后,将第2份最为验证集,剩下的P-1份作为训练集,对模型进行训练,将验证集数据输入到训练后的模型里面,得到模型的诊断准确率;
重复上述步骤,直至获得P个诊断准确率,对这P个准确率进行平均,得到在这组超参下所训练出来的模型的准确率;然后更换一组超参,重复上述步骤,选出使得准确率最高的超参组合作为最终对于超参的设定。
10.根据权利要求1或2或3或4或6或7或8或9所述的系统,其特征在于,所述分析模块,用于基于所述训练后的乳腺癌细胞分析模型实现乳腺癌细胞的特征分析包括:
对待检测的数据进行特征提取,再进行归一化处理后;
将归一化处理后的结果作为训练后的乳腺癌细胞分析模型的输入,从而获得乳腺癌细胞的特征分析结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510958620.0A CN105447569B (zh) | 2015-12-18 | 2015-12-18 | 一种基于深度学习的乳腺癌细胞特征分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510958620.0A CN105447569B (zh) | 2015-12-18 | 2015-12-18 | 一种基于深度学习的乳腺癌细胞特征分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105447569A true CN105447569A (zh) | 2016-03-30 |
CN105447569B CN105447569B (zh) | 2018-10-19 |
Family
ID=55557724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510958620.0A Active CN105447569B (zh) | 2015-12-18 | 2015-12-18 | 一种基于深度学习的乳腺癌细胞特征分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105447569B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202997A (zh) * | 2016-06-29 | 2016-12-07 | 四川大学 | 一种基于深度学习的细胞分裂检测方法 |
CN106250911A (zh) * | 2016-07-20 | 2016-12-21 | 南京邮电大学 | 一种基于卷积神经网络的图片分类方法 |
CN106485251A (zh) * | 2016-10-08 | 2017-03-08 | 天津工业大学 | 基于深度学习的鸡蛋胚胎分类 |
CN106782511A (zh) * | 2016-12-22 | 2017-05-31 | 太原理工大学 | 修正线性深度自编码网络语音识别方法 |
CN106845529A (zh) * | 2016-12-30 | 2017-06-13 | 北京柏惠维康科技有限公司 | 基于多视野卷积神经网络的影像特征识别方法 |
CN106897682A (zh) * | 2017-02-15 | 2017-06-27 | 电子科技大学 | 一种基于卷积神经网络的白带中白细胞自动识别方法 |
CN106991673A (zh) * | 2017-05-18 | 2017-07-28 | 深思考人工智能机器人科技(北京)有限公司 | 一种可解释性的宫颈细胞图像快速分级识别方法及系统 |
CN107103601A (zh) * | 2017-04-14 | 2017-08-29 | 成都知识视觉科技有限公司 | 一种乳腺癌评分系统中的细胞有丝分裂检测方法 |
CN107194319A (zh) * | 2017-04-24 | 2017-09-22 | 天津大学 | 基于支持向量机排序的有丝分裂定位和识别的方法 |
CN107292352A (zh) * | 2017-08-07 | 2017-10-24 | 北京中星微电子有限公司 | 基于卷积神经网络的图像分类方法和装置 |
CN107316078A (zh) * | 2016-04-27 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 用于执行人工神经网络自学习运算的装置和方法 |
CN107316295A (zh) * | 2017-07-02 | 2017-11-03 | 苏州大学 | 一种基于深度神经网络的织物瑕疵检测方法 |
CN107742151A (zh) * | 2017-08-30 | 2018-02-27 | 电子科技大学 | 一种中医脉象的神经网络模型训练方法 |
CN107871136A (zh) * | 2017-03-22 | 2018-04-03 | 中山大学 | 基于稀疏性随机池化的卷积神经网络的图像识别方法 |
CN107958271A (zh) * | 2017-12-06 | 2018-04-24 | 电子科技大学 | 基于膨胀卷积的多尺度特征的皮肤病变深度学习识别系统 |
CN108109152A (zh) * | 2018-01-03 | 2018-06-01 | 深圳北航新兴产业技术研究院 | 医学图像分类和分割方法和装置 |
CN108304889A (zh) * | 2018-03-05 | 2018-07-20 | 南方医科大学 | 一种基于深度学习的全数字乳腺成像图像放射组学方法 |
CN108345911A (zh) * | 2018-04-16 | 2018-07-31 | 东北大学 | 基于卷积神经网络多级特征的钢板表面缺陷检测方法 |
CN108573225A (zh) * | 2018-03-30 | 2018-09-25 | 国网天津市电力公司电力科学研究院 | 一种局部放电信号模式识别方法及系统 |
CN108734329A (zh) * | 2017-04-21 | 2018-11-02 | 北京微影时代科技有限公司 | 一种预测电影次日票房的方法及装置 |
CN109360604A (zh) * | 2018-11-21 | 2019-02-19 | 南昌大学 | 一种卵巢癌分子分型预测系统 |
CN110533080A (zh) * | 2019-08-07 | 2019-12-03 | 中南民族大学 | 一种基于模糊规则集的乳腺癌细胞图像分类方法 |
TWI681407B (zh) * | 2018-12-07 | 2020-01-01 | 謝孟軒 | 電腦輔助預測系統、方法及電腦程式產品 |
US10853409B2 (en) | 2016-12-13 | 2020-12-01 | Shanghai United Imaging Healthcare Co., Ltd. | Systems and methods for image search |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366180A (zh) * | 2013-06-14 | 2013-10-23 | 山东大学 | 一种基于自动特征学习的细胞图像分割方法 |
CN103984958A (zh) * | 2014-05-07 | 2014-08-13 | 深圳大学 | 宫颈癌细胞分割方法及系统 |
CN105005714A (zh) * | 2015-06-18 | 2015-10-28 | 中国科学院自动化研究所 | 一种基于肿瘤表型特征的非小细胞肺癌预后方法 |
-
2015
- 2015-12-18 CN CN201510958620.0A patent/CN105447569B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366180A (zh) * | 2013-06-14 | 2013-10-23 | 山东大学 | 一种基于自动特征学习的细胞图像分割方法 |
CN103984958A (zh) * | 2014-05-07 | 2014-08-13 | 深圳大学 | 宫颈癌细胞分割方法及系统 |
CN105005714A (zh) * | 2015-06-18 | 2015-10-28 | 中国科学院自动化研究所 | 一种基于肿瘤表型特征的非小细胞肺癌预后方法 |
Non-Patent Citations (6)
Title |
---|
DAN C. CIRESAN,ET AL.: "Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks", 《MEDICAL IMAGE COMPUTING & COMPUTER-ASSISTED INTERVENTION》 * |
HAI SU,ET AL.: "Region segmentation in histopathological breast cancer images using deep convolutional neural network", 《INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING IEEE》 * |
HAIBO WANG,ET AL.: "Mitosis detection in breast cancer pathology images by combining handcrafted and convolutional neural network features", 《JOURNAL OF MEDICAL IMAGING》 * |
PABLO FONSECA,ET AL.: "Automatic breast density classification using a convolutional neural network architecture search procedure", 《SPIE MEDICAL IMAGING》 * |
陆志坚: "基于FPGA的卷积神经网络并行结构研究", 《中国博士学位论文全文数据库信息科技辑》 * |
龚磊等: "基于多特征描述的乳腺癌肿瘤病理自动分级", 《计算机应用》 * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316078B (zh) * | 2016-04-27 | 2021-05-07 | 中科寒武纪科技股份有限公司 | 用于执行人工神经网络自学习运算的装置和方法 |
CN107316078A (zh) * | 2016-04-27 | 2017-11-03 | 北京中科寒武纪科技有限公司 | 用于执行人工神经网络自学习运算的装置和方法 |
CN106202997B (zh) * | 2016-06-29 | 2018-10-30 | 四川大学 | 一种基于深度学习的细胞分裂检测方法 |
CN106202997A (zh) * | 2016-06-29 | 2016-12-07 | 四川大学 | 一种基于深度学习的细胞分裂检测方法 |
CN106250911A (zh) * | 2016-07-20 | 2016-12-21 | 南京邮电大学 | 一种基于卷积神经网络的图片分类方法 |
CN106250911B (zh) * | 2016-07-20 | 2019-05-24 | 南京邮电大学 | 一种基于卷积神经网络的图片分类方法 |
CN106485251A (zh) * | 2016-10-08 | 2017-03-08 | 天津工业大学 | 基于深度学习的鸡蛋胚胎分类 |
CN106485251B (zh) * | 2016-10-08 | 2019-12-24 | 天津工业大学 | 基于深度学习的鸡蛋胚胎分类 |
US10853409B2 (en) | 2016-12-13 | 2020-12-01 | Shanghai United Imaging Healthcare Co., Ltd. | Systems and methods for image search |
CN106782511A (zh) * | 2016-12-22 | 2017-05-31 | 太原理工大学 | 修正线性深度自编码网络语音识别方法 |
CN106845529A (zh) * | 2016-12-30 | 2017-06-13 | 北京柏惠维康科技有限公司 | 基于多视野卷积神经网络的影像特征识别方法 |
CN106897682A (zh) * | 2017-02-15 | 2017-06-27 | 电子科技大学 | 一种基于卷积神经网络的白带中白细胞自动识别方法 |
CN107871136A (zh) * | 2017-03-22 | 2018-04-03 | 中山大学 | 基于稀疏性随机池化的卷积神经网络的图像识别方法 |
CN107103601B (zh) * | 2017-04-14 | 2020-04-24 | 成都知识视觉科技有限公司 | 一种乳腺癌评分系统中的细胞有丝分裂检测方法 |
CN107103601A (zh) * | 2017-04-14 | 2017-08-29 | 成都知识视觉科技有限公司 | 一种乳腺癌评分系统中的细胞有丝分裂检测方法 |
CN108734329A (zh) * | 2017-04-21 | 2018-11-02 | 北京微影时代科技有限公司 | 一种预测电影次日票房的方法及装置 |
CN107194319A (zh) * | 2017-04-24 | 2017-09-22 | 天津大学 | 基于支持向量机排序的有丝分裂定位和识别的方法 |
CN107194319B (zh) * | 2017-04-24 | 2020-09-22 | 天津大学 | 基于支持向量机排序的有丝分裂定位和识别的方法 |
CN106991673B (zh) * | 2017-05-18 | 2019-10-22 | 深思考人工智能机器人科技(北京)有限公司 | 一种可解释性的宫颈细胞图像快速分级识别方法及系统 |
CN106991673A (zh) * | 2017-05-18 | 2017-07-28 | 深思考人工智能机器人科技(北京)有限公司 | 一种可解释性的宫颈细胞图像快速分级识别方法及系统 |
CN107316295A (zh) * | 2017-07-02 | 2017-11-03 | 苏州大学 | 一种基于深度神经网络的织物瑕疵检测方法 |
CN107292352A (zh) * | 2017-08-07 | 2017-10-24 | 北京中星微电子有限公司 | 基于卷积神经网络的图像分类方法和装置 |
CN107292352B (zh) * | 2017-08-07 | 2020-06-02 | 北京中星微人工智能芯片技术有限公司 | 基于卷积神经网络的图像分类方法和装置 |
CN107742151A (zh) * | 2017-08-30 | 2018-02-27 | 电子科技大学 | 一种中医脉象的神经网络模型训练方法 |
CN107958271A (zh) * | 2017-12-06 | 2018-04-24 | 电子科技大学 | 基于膨胀卷积的多尺度特征的皮肤病变深度学习识别系统 |
CN108109152A (zh) * | 2018-01-03 | 2018-06-01 | 深圳北航新兴产业技术研究院 | 医学图像分类和分割方法和装置 |
CN108304889A (zh) * | 2018-03-05 | 2018-07-20 | 南方医科大学 | 一种基于深度学习的全数字乳腺成像图像放射组学方法 |
CN108573225A (zh) * | 2018-03-30 | 2018-09-25 | 国网天津市电力公司电力科学研究院 | 一种局部放电信号模式识别方法及系统 |
CN108573225B (zh) * | 2018-03-30 | 2022-01-18 | 国网天津市电力公司电力科学研究院 | 一种局部放电信号模式识别方法及系统 |
CN108345911A (zh) * | 2018-04-16 | 2018-07-31 | 东北大学 | 基于卷积神经网络多级特征的钢板表面缺陷检测方法 |
CN108345911B (zh) * | 2018-04-16 | 2021-06-29 | 东北大学 | 基于卷积神经网络多级特征的钢板表面缺陷检测方法 |
CN109360604A (zh) * | 2018-11-21 | 2019-02-19 | 南昌大学 | 一种卵巢癌分子分型预测系统 |
CN109360604B (zh) * | 2018-11-21 | 2021-09-24 | 南昌大学 | 一种卵巢癌分子分型预测系统 |
TWI681407B (zh) * | 2018-12-07 | 2020-01-01 | 謝孟軒 | 電腦輔助預測系統、方法及電腦程式產品 |
CN110533080A (zh) * | 2019-08-07 | 2019-12-03 | 中南民族大学 | 一种基于模糊规则集的乳腺癌细胞图像分类方法 |
CN110533080B (zh) * | 2019-08-07 | 2020-11-24 | 中南民族大学 | 一种基于模糊规则集的乳腺癌细胞图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105447569B (zh) | 2018-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105447569A (zh) | 一种基于深度学习的乳腺癌细胞特征分析系统 | |
US11544917B2 (en) | Power electronic circuit fault diagnosis method based on optimizing deep belief network | |
Mitra et al. | Self-organizing neural network as a fuzzy classifier | |
CN104751842B (zh) | 深度神经网络的优化方法及系统 | |
CN112364779A (zh) | 信号处理与深-浅网络多模型融合的水声目标识别方法 | |
CN104155574A (zh) | 基于自适应神经模糊推理系统的配电网故障分类方法 | |
CN110232434A (zh) | 一种基于属性图优化的神经网络架构评估方法 | |
CN111612029B (zh) | 机载电子产品故障预测方法 | |
CN110852365B (zh) | 一种zpw-2000a型无绝缘轨道电路故障诊断方法 | |
CN106874963B (zh) | 一种基于大数据技术的配电网故障诊断方法及系统 | |
CN110455512B (zh) | 基于深度自编码器dae的旋转机械多集成故障诊断方法 | |
CN106647272A (zh) | 基于k均值改进卷积神经网络的机器人路径规划方法 | |
CN106485325A (zh) | 基于复杂网络和深度学习的两相流多元信息融合法及应用 | |
Duncan | The analysis and application of artificial neural networks for early warning systems in hydrology and the environment | |
Andersen et al. | Evolving neural networks for text classification using genetic algorithm-based approaches | |
Khan et al. | Knowledge extraction from survey data using neural networks | |
Huang et al. | Fuzzy c-means clustering based deep patch learning with improved interpretability for classification problems | |
Djemili et al. | Recognition of spoken arabic digits using neural predictive hidden markov models | |
Rivero et al. | Using genetic algorithms for automatic recurrent ANN development: an application to EEG signal classification | |
Svetlov et al. | Development of the algorithm of adaptive construction of hierarchical neural network classifiers | |
Van Truong et al. | A Coevolutionary approach for classification problems: Preliminary results | |
Rocha et al. | Evolutionary design of neural networks for classification and regression | |
CN112015894A (zh) | 一种基于深度学习的文本单类分类方法及系统 | |
Anuradha et al. | Fast Boost Decision Tree Algorithm: A novel classifier for the assessment of student performance in Educational data | |
Auda | Cooperative modular neural network classifiers. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 100191 Room 501, floor 5, building 9, No. 35 Huayuan North Road, Haidian District, Beijing Patentee after: Beijing Baihui Weikang Technology Co.,Ltd. Address before: 100191 Room 303, building 3, No.9 Huayuan East Road, Haidian District, Beijing Patentee before: Beijing Baihui Wei Kang Technology Co.,Ltd. |
|
CP03 | Change of name, title or address |