CN112655003A

CN112655003A - 用于细胞图像的分析的计算机实现的方法、计算机程序产品以及系统

Info

Publication number: CN112655003A
Application number: CN201980058085.XA
Authority: CN
Inventors: 里卡德·舍格伦; 约翰·特利格
Original assignee: Sedolistim Data Analysis Co
Current assignee: Sedolistim Data Analysis Co; Sartorius Stedim Data Analytics AB
Priority date: 2018-09-05
Filing date: 2019-09-05
Publication date: 2021-04-13
Also published as: EP3620983A1; EP3847586A1; EP4290412A2; EP3620986A1; EP4290412A3; CN112655004B; JP2022500745A; JP7187681B2; JP7223839B2; EP3620983B1; CN112639834A; WO2020049087A1; WO2020049094A1; US20210334656A1; WO2020049098A1; US20210350113A1; CN112655004A; JP2022500744A

Abstract

提供了一种用于细胞图像的分析的计算机实现的方法。该方法包括：获得用于处理图像的深度神经网络(100)和用于训练深度神经网络的训练数据集的至少一部分，该深度神经网络包括多个隐藏层并使用训练数据集进行训练，训练数据集包括可以输入到深度神经网络的多个可能细胞图像；获得从多个隐藏层中的至少一个输出的第一中间输出值集，通过输入训练数据集的所述至少一部分中包括的可能的输入图像中的不同一者来获得第一中间输出值集中的每一个；使用第一中间输出值集来构建/拟合潜变量模型，该潜变量模型提供第一中间输出值集到子空间中的第一投影值集的映射，该子空间具有低于中间输出集的维度的维度；接收要输入到深度神经网络的新细胞图像；获得通过将接收到的新细胞图像输入深度神经网络而从深度神经网络的多个隐藏层中的至少一个输出的第二中间输出值集；使用潜变量模型来将第二中间输出值集映射到第二投影值集；以及基于潜变量模型和第二投影值集而相对于训练数据集来确定接收到的新细胞图像是否为异常值。

Description

用于细胞图像的分析的计算机实现的方法、计算机程序产品以及系统

技术领域

本申请涉及细胞图像的分析，具体地，诸如细胞图像的非结构化数据中的异常值检测的一种计算机实现的方法、一种计算机程序产品以及一种系统。

背景技术

在许多不同的层面上，生物过程是复杂的。为了捕获这种复杂性，已经提出了用于研究和监测细胞的各种成像技术。为了分析越来越多量的细胞成像数据，可以使用深度学习。深度学习是依赖于一种类型的统计模型(被称为深度神经网络)的机器学习领域。深度神经网络可以是具有输入层、输出层以及在输出层与输出层之间的多个隐藏层的人工神经网络。

由于深度神经网络学习到的强大转换，使用深度神经网络的深度学习在很多应用中已经变得非常普遍。深度学习在过去的五年里已经例如彻底改变了计算机视觉的领域，在大多数视觉任务上迅速超越先前的现有技术方法。深度学习越来越多地用于细胞成像，诸如活细胞成像、细胞或细胞核检测、从荧光图像对蛋白质定位进行分类、无标记细胞分类等等。

用于细胞图像的分析的深度学习技术的应用在例如以下公开中描述：O.Z.Kraus等，“Automated analysis of high-content microscopy data with deep learning”，分子系统生物学，第13卷第4期，第924页，2017年，以及对应的US-2018/0137338-A1。所引用的公开描述了一种用于训练良好模型来对细胞图像分类的方法，其中对训练图像的注释的需求较低。

当在关键系统中采用深度学习(诸如用于诊断应用)时，理解何时不应信任由深度学习系统提供的预测可能是至关重要的。

换句话说，可能重要的是，不仅知道由深度学习系统提供的预测是否准确，而且知道深度学习系统究竟是否应预测。可以通过理解所学习的表示的极限并且通过辨识何时遇到深度学习系统未辨识出的数据来改进自主决策。

因此，所有数据驱动的建模(包括深度学习)中的共同问题是在模型被训练之后如何处理异常数据。异常观测值可以是与用来训练模型的数据明显不同的观测值。由于异常值明显不同于模型之前遇到的那些，因此在此类情况下，模型行为是未定义的，从而意味着无法信任预测。在细胞成像中，异常值可以是来自之间未见过的细胞类型或一些先前未观察到的现象。异常值可能是因为成像仪器误差导致不好的图像或者仪器或数据处理的操作员管理不善。在那些情况中的任一种下，模型预测都是不可靠的并且需要适当地处理。

已经提出许多不同的方法以允许深度神经网络描述预测的不确定性。这些方法中有许多都是基于训练深度神经网络以在预测期间执行贝叶斯推断而不是点推断。这意味着，网络被训练来预测可能的点的分布，而不是预测单个点。直觉上，模型无法解释的观测值将具有广泛的分布或较大不确定性。用于执行贝叶斯预测的一个普遍的解决方案是在2016年国际机器学习会议第1050至1059页的Y.Gal和Z.Gharamani的“Dropout as aBayesian approximation:Representing model uncertainty in deep learning”中公开的所谓蒙特-卡罗丢弃法(MC-丢弃法)。MC-丢弃法可以应用于使用“丢弃法”训练的神经网络，所述丢弃法是用于通过在训练阶段期间丢弃(或换句话说，忽略)神经网络中的一些单元(例如，细胞、节点)来减少神经网络中的过度拟合的正则化技术。MC-丢弃法通过对预测使用所谓的蒙特-卡罗采样而同时在预测时间期间随机地消除或丢弃网络细胞来针对每次预测进行多次推断。不同的预测因丢弃法而改变并描述预测分布。然后可以通过计算得到的分布的熵或方差来量化预测不确定性。

用于使用丢弃法来产生蒙特-卡罗样本的一种方法包括：基于批归一化参数的采样(M.Teye、H.Azizpour和K.Smith，“Bayesian Uncertainty Estimation for BatchNormalized Deep Networks”，ArXiv180206455统计，2018年2月)；来自集合中的不同模型的预测(B.Lakshminarayanan、A.Pritzel和C.Blundell，“Simple and scalablepredictive uncertainty estimation using deep ensembles”，见于神经信息处理系统的进展，2017年，第6405至6416页)；共享基础网络中的多个“预测头”(I.Osband、C.Blundell、A.Pritzel和B.Van Roy，“Deep exploration via bootstrappedDQN”，见于神经信息处理系统的进展，2016年，第4026至4034页；E.Ilg等人，“Uncertainty Estimatesfor Optical Flow with Multi-Hypotheses Networks”，ArXiv180207095Cs，2018年2月)；权重分布而不是正则点权重的变分推断(C.Blundell、J.Cornebise、K.Kavukcuoglu和D.Wierstra，“Weight uncertainty in neural networks”，ArXivPrepr.ArXiv150505424，2015年)；以及根据现有权重的分布的拉普拉斯近似(H.Ritter、A.Botev和D.Barber，“A Scalable Laplace Approximation for Neural Networks”，2018年2月)。

然而，这些方法对使用哪种类型的模型进行了假设并且可能会约束构建或训练网络的方式和/或依赖于每次预测进行多个推断。这可能会限制它们对于其中进行多个推断是不切实际的实时系统和/或对于不符合约束条件的现有系统的普遍适用性。

发明内容

根据一方面，问题涉及针对输入到深度神经网络的细胞图像来有效地评估由深度神经网络给出的预测的可靠性。

通过独立权利要求所公开的特征解决该问题。此外，示例性实施例由从属权利要求限定。

根据一方面，提供了一种用于细胞图像的分析的计算机实现的方法。细胞图像可以通过任何合适的成像技术来获得，例如通过光学显微术(例如，亮视野显微术、相称显微术、荧光显微术、共焦成像显微术)、电子束显微术等。细胞图像可以是活细胞图像或非活细胞图像。

该方法包括：

获得深度神经网络和用于训练深度神经网络的训练数据集的至少一部分，该深度神经网络包括多个隐藏层并通过使用训练数据集进行训练，训练数据集包括可以输入到深度神经网络的多个可能细胞图像(即，观测值)；

获得从多个隐藏层中的至少一个输出的第一中间输出值集，通过输入训练数据集的所述至少一部分中包括的可能细胞图像中的不同一者来获得第一中间输出值集中的每一个；

使用第一中间输出值集来构建(即，拟合)潜变量模型，该潜变量模型提供第一中间输出值集到潜变量模型的子空间中的第一投影值集的映射，该子空间具有低于中间输出集的维度的维度；以及

将潜变量模型和第一投影值集存储在存储介质中。

根据另一方面(其可以与第一方面结合)，提供了一种用于细胞图像的分析的计算机实现的方法。该方法包括：

接收要输入到深度神经网络的新细胞图像(即，新观测值)，该深度神经网络具有多个隐藏层并且使用训练数据集进行训练，该训练数据集包括可以输入到深度神经网络的可能细胞图像；

获得通过将接收到的新细胞图像输入深度神经网络而从深度神经网络的多个隐藏层中的至少一个输出的第二中间输出值集；

使用存储在存储介质中的潜变量模型来将第二中间输出值集映射到第二投影值集；以及

基于潜变量模型和第二投影值集来确定接收到的新细胞图像相对于训练数据集是否为异常值，

其中通过以下操作来构建存储在存储介质中的潜变量模型：

获得从深度神经网络的多个隐藏层中的所述一个输出的第一中间输出值集，通过输入训练数据集的所述至少一部分中包括的可能细胞图像(即，可能观测值)中的不同一者来获得第一中间输出值集中的每一个；以及

使用第一中间输出值集来构建潜变量模型，该潜变量模型提供第一中间输出值集到潜变量模型的子空间中的第一投影值集的映射，该子空间具有低于输出值集的维度的维度。

根据又一方面，提供了一种用于细胞图像的分析的计算机实现的方法。该方法包括：

使用第一中间输出值集来构建(即，拟合)潜变量模型，该潜变量模型提供第一中间输出值集到潜变量模型的子空间中的第一投影值集的映射，该子空间具有低于中间输出集的维度的维度；

接收要输入到深度神经网络的新细胞图像；

获得通过将接收到的新细胞图像输入深度神经网络而从深度神经网络的多个隐藏层中的所述至少一个输出的第二中间输出值集；

使用潜变量模型来将第二中间输出值集映射到第二投影值集；以及

基于潜变量模型和第二投影值集来确定接收到的观测值相对于训练数据集是否为异常值。

当接收到的观测值被确定为异常值时，可以假设由深度神经网络针对接收到的观测值给出的预测(例如，输出)不如在接收到的观测值被确定为非异常值的情况下可靠。因此，根据以上方面中的任一个的方法还可以包括：

通过深度神经网络来计算针对新细胞图像的预测；以及

如果新细胞图像被确定为异常值，则丢弃预测；以及

如果新细胞图像未被确定为异常值，则接受预测。

在本文所述的各种实施例和示例中，要由深度神经网络处理的数据是细胞图像，诸如活细胞图像或非活细胞图像。细胞图像是非结构化数据的示例。非结构化数据可以被理解为没有预定义数据模型或没有按预定义方式组织的数据。非结构化数据可以具有内部结构，但没有经由预定义数据模型或模式进行结构化。细胞图像可以是原始的(未经处理的图像)或者可以是已经经受一些处理的图像，诸如正则化、对比增强、边缘增强、去噪、颜色转换、调整大小、剪裁和/或其他已知的图像处理操作。

在本公开中，图像可以包括2D像素阵列。像素中的每一个可以包括至少一个值。例如，灰度图像中的像素可以包括指示像素的强度的一个值。彩色图像中的像素可以包括指示诸如RGB颜色空间的颜色空间中的坐标的多个值，例如，三个值。像素还可以包括不同成像模式的组合，例如来自相称成像的强度值和来自荧光成像的一个或多个强度值。

在本公开中，术语“深度神经网络”可以被理解为具有具有输入层、输出层以及设置在输出层与输出层之间的多个隐藏层的人工神经网络。神经网络的隐藏层还可以被称为“中间层”。因此，来自隐藏层的输出可以被称为“中间输出”。此外，来自隐藏层的输出可以包括多个值，每一个值对应于隐藏层中所包括的节点。因此，如本文所使用的术语“中间输出值集”可以指示隐藏层的输出，包括从隐藏层的相应节点输出的多个值。

所采用的深度神经网络的类型并不特别地受限。在一些示例中，本公开中的“深度神经网络”可以是具有多个隐藏层的前馈神经网络。在前馈神经网络中，节点之间的连接没有形成循环。前馈深度神经网络的具体示例可以是通常应用来分析视觉图像的卷积神经网络(CNN)。

在一些其他示例中，本公开中的“深度神经网络”可以是递归神经网络，其中节点之间的连接沿着一定序列形成有向图。递归深度神经网络的具体示例可以是可以处理序列数据的长短期记忆(LSTM)。

其他示例性深度神经网络是变换器神经网络。

在本公开中，术语“潜变量模型”可以是将一组可观测的变量与一组潜变量相关或映射的统计模型。在本文所述的各种实施例和示例中，(第一或第二)“中间输出值集”可以被认为是用于潜变量模型的可观测变量集。此外，在本文所述的各种实施例和示例中，“投影值集”可以被认为是用于潜变量模型的潜变量集。

在一些示例中，在根据上述方面的方法中，可以根据主成分分析来构建或拟合潜变量模型。

在本公开中，术语“主成分分析”(也被称为PCA)可以被理解为指示使用正交变换将可能相关的变量的观测值集转换为被称为主成分的线性不相关变量的值集的统计过程。

PCA的变体包括但不限于：稀疏PCA(Jenatton R.、Obozinski G.和Bach F.(2010年3月)，Structured sparse principal component analysis.，见于第十三届国际人工智能和统计会议的会议录(第366至373页))。PCA的替代方案包括但不限于：随机投影(Dasgupta S.(2000年6月)，利用随机投影的实验，见于第十六届人工智能的不确定性会议的会议录(第143至151页)摩根考夫曼出版公司)；稀疏随机投影(Achlioptas D.(2003年)，数据库友好型随机投影：Johnson-Lindenstrauss with binary coins.，Journal ofComputer and System Sciences，66(4)，671至687.)；极稀疏随机投影(Li P.、HastieT.J.和Church K.W.(2006年8月)，极稀疏随机投影，见于第12届ACM SIGKDD国际知识发现和数据挖掘会议的会议录(第287至296页)，ACM)；以及自组织映射(Kohonen T.(1998年)，自组织映射，Neurocomputing，21(1-3)，1-6)。

在一些其他示例中，在根据上述方面的方法中，可以使用自动编码器来构建或拟合潜变量模型。“自动编码器”可以是用来以无监督方式学习有效数据编码的一种类型的人工神经网络。自动编码器的一种型式可以是具有输入层、输出层以及将它们相连接的一个或多个隐藏层的前馈非递归神经网络，其中输出层具有与输入层相同数量的节点，并且目的是重新构建其自己的输入。不同类型的自动编码器包括但不限于变分自动编码器(Kingma D.P.和Welling M.(2013年)，自动编码变分贝叶斯，arXiv preprint arXiv:1312.6114.)；以及稀疏自动编码器(Makhzani A.和Frey B.(2013年)，K-稀疏自动编码器，arXiv preprint arXiv:1312.5663.)。

使用潜变量模型，可以确定新细胞图像到潜变量模型(或换句话说距潜变量近似)的距离。基于确定的距离，可以进行关于新细胞图像是否为异常值的确定。关于接收到的新细胞图像是否为异常值的确定可以例如包括确定新细胞图像到潜变量模型的距离是否大于阈值距离。如果新细胞图像的计算的距离大于阈值距离，则可以确定新细胞图像是异常值。

通过使用潜变量模型计算训练数据集的至少一部分的细胞图像中的每一个到潜变量模型的距离并基于确定的距离确定阈值距离来确定阈值距离。因此，根据以上方面中的任一个的方法还可以包括基于多个距离来确定阈值距离，该多个距离中的每一个是相对于第一投影值集的分布而针对第一投影值集中的不同一者计算的。

此外，在根据上述方面的方法中，确定接收到的新细胞图像是否为异常值的所述步骤可以包括：

相对于第一投影值集的分布来计算第二投影值集的距离；以及

如果计算的距离大于距离的阈值，则确定接收到的观测值相对于训练数据集是异常值。

可以基于距离来确定距离的阈值，该距离中的每一个可以相对于第一投影值集的分布而针对第一投影值集中的不同一者来计算。

距离度量可以是适于将来自潜变量近似(即，第一投影值集)的距离量化的任何距离度量。例如，距离可以是残差平方和(RSS)、马氏距离、局部异常因子或LOF(参见例如M.M.Breunig、H.-P.Kriegel、R.T.Ng和J.Sander，“LOF:Identifying Density-basedLocal Outliers”，2000年ACM SIGMOD国际数据管理会议的会议录，纽约，NY，USA，2000年，第93至104页)。距离也可以是基于通过将所描述的距离中的两个或更多个组合而形成的到所建模的嵌入项的综合距离度量的综合距离。

所确定的距离可以特别地是马氏距离。在本公开中，术语“马氏距离”可以被理解为指示点P(例如，对应于观测值)与分布D之间的距离的已知测量。更具体地，“马氏距离”测量观测值距多维概率分布中的原点有多少个标准偏差。

所确定的距离可以是残差平方和(RSS)。例如，在根据上述方面的方法中，确定接收到的新细胞图像是否为异常值的步骤可以包括：

使用潜变量模型和第二投影值集来确定与第二中间输出值集相对应的中间输出值的近似集；

计算第二中间输出值集和中间输出值的近似集的平方近似残差；以及

如果计算的平方近似残差大于平方近似残差的阈值，则确定接收到的新细胞图像相对于训练数据集是异常值。

可以基于平方近似残差来确定平方近似残差的阈值，平方近似残差中的每一个可以是针对第一中间输出值集中的不同一者和与第一中间输出值集中的所述一者相对应的中间输出值的近似集计算的。

在本公开中，术语“平方近似残差”可以被理解为指示残差的平方和，其中残差是所观测的值与由潜变量模型提供的近似值之间的差值。

此外，在根据上述方面的方法中，可以针对多个隐藏层中的两个或更多个来执行获得第一中间输出值集和构建潜变量模型的步骤；

其中可以关于多个隐藏层中的所述两个或更多个来执行获得第二中间输出值集和将第二中间输出值集映射到第二投影值集的步骤；并且

其中可以基于潜变量模型以及关于多个隐藏层中的所述两个或更多个获得的第二投影值集来执行确定接收到的新新细胞图像是否为异常值的步骤。

另外，在根据上述方面的方法中，获得从深度神经网络的多个隐藏层中的至少一个输出的中间输出值的步骤可以包括确定来自多个隐藏层中的所述至少一个的激活值和任选地在确定的激活值上应用全局池化。激活值可以是例如激活向量的形式。

来自给定的深度神经网络的层i(i＝1、2、3、……)的特定细胞图像(观测值)x的激活向量a_i(或激活值)可以对应于来自层i的中间输出，并且当细胞图像输入到给定的网络时，可以包括具有对应于来自层i的相应节点的输出的值的成分。深度神经网络的各种层上的激活值或激活向量中的每一个可以提供输入数据(即，输入细胞图像)的特征表示。换句话说，激活值可以提供在深度神经网络的各种层处的输入数据的经变换或预处理的表示。

特别地，基于训练数据集的细胞图像来获得从深度神经网络的多个隐藏层中的至少一个输出的第一中间输出值的步骤可以包括确定来自多个隐藏层中的所述至少一个的所述细胞图像的激活值和任选地在确定的激活值上应用全局池化。类似地，基于新细胞图像来获得从深度神经网络的多个隐藏层中的至少一个输出的第二中间输出值的步骤可以包括确定来自多个隐藏层中的所述至少一个的新细胞图像的激活值和任选地在确定的激活值上应用全局池化。全局池化可以是全局平均池化。

例如，如果激活值来自特征图，那么可以在每个特征图上应用全局池化(例如，全局平均池化)。随后可以在(任选地池化的)激活值上，即，在(任选地池化的)训练集激活值和针对输入到深度神经网络的新细胞图像计算的(任选地池化的)激活值上，构建或拟合潜变量模型。

全局平均池化(GPA)是指将网络激活值的特征图表示变换为向量表示的过程(参见例如Lin Min、Qiang Chen和Shuicheng Yan，“Network in network”，arXiv preprintarXiv:1312.4400(2013年))。这个步骤丢弃了其中每个元素对应于特定特征图的平均激活值的向量的空间信息。例如，对卷积神经网络中的特定隐藏层，图像x的激活值被可以具有维度w×h×c的特征图A丢弃，其中h是特征图的像素高度，w是特征图的像素宽度并且c是当前隐藏层中的特征图的数量。A的特征图k∈[1，c]的全局平均池化便由下式给出：

或

例如：

图像x的全局平均池化的特征图A的向量然后由下式给出：

GAP(A)＝[GAP₁(A)，GAP₂(A)，...，GAP_c(A)]

此外，根据以上方面中的任一个的方法可以包括使用训练数据集来训练深度神经网络或微调经训练的深度神经网络。

可以使用例如受试者操作特性曲线下面积(ROC-AUC)度量来评估根据上述方面的方法可以区分异常值和非异常值的程度。例如，当计算马氏距离和/或平方近似残差和/或其他距离度量以用于确定接收到的观测值是否为异常值时，可以通过比较马氏距离和/或平方近似残差和/或其他距离度量将异常值与非异常值分离的程度来计算ROC曲线。可以用来评估方法的其他度量包括但不限于：(1)精确度，其为实际上是异常值的观测值被系统识别为异常值的分数；(2)召回率，其为被系统成功地识别为异常值的所有异常值的分数；(3)F1-得分，其为精确度和召回率的调和平均数；以及(4)准确率，其为所有识别中的由系统进行的正确识别的分数。

根据又一个方面，提供了一种计算机程序产品。该计算机程序产品包括计算机可读指令，所述计算机可读指令在加载在计算机上并运行时致使计算机执行根据上述方面中的任一个的方法。

根据又一个方面，提供了一种用于数据分析的系统。该系统包括：

存储介质，该存储介质存储用于训练深度神经网络的训练数据集，该深度神经网络包括多个隐藏层，该训练数据集包括可以输入到深度神经网络的可能细胞图像(即，观测值)；以及

处理器，配置为执行根据上述方面和示例中的任一个的方法的至少一个。

例如，处理器可以被配置为：

获得使用训练数据集训练的深度神经网络；

获得存储在存储介质中的训练数据集的至少一部分；

获得从多个隐藏层中的至少一个输出的第一中间输出值集，通过输入训练数据集的所述至少一部分中包括的可能观测值中的不同一者来获得第一中间输出值集中的每一个；

使用第一中间输出值集来构建/拟合潜变量模型，该潜变量模型提供第一中间输出值集到子空间中的第一投影值集的映射，该子空间具有低于输出值集的维度的维度；

接收要输入到深度神经网络的新细胞图像(即，观测值)；

获得通过将接收到的观测值输入深度神经网络而从多个隐藏层中的所述至少一个输出的第二中间输出值集；

在根据上述方面的系统中，可以根据主成分分析或使用自动编码器来构建潜变量模型。

在根据上述方面的系统中，为了确定接收到的新细胞图像是否为异常值，处理器还可以被配置为：

相对于第一投影值集的分布来计算第二投影值集的马氏距离；以及

如果计算的马氏距离大于马氏距离的阈值，则确定接收到的新细胞图像相对于训练数据集是异常值。

代替马氏距离或除此之外，可以采用其他距离测量。例如，距离可以是对所建模的嵌入项的综合度量距离、残差平方和、局部异常因子或任何其他合适的距离测量。

例如，在根据上述方面的系统中，为了确定接收到的新细胞图像是否为异常值，处理器还可以被配置为：

如果计算的平方近似残差大于平方近似残差的阈值，则确定接收到的观测值相对于训练数据集是异常值。

在根据上述方面的系统中，处理器还可以被配置为：

针对多个隐藏层中的两个或更多个来执行获得第一中间输出值集和构建潜变量模型的步骤；

关于多个隐藏层中的所述两个或更多个来执行获得第二中间输出值集和将第二中间输出值集映射到第二投影值集的步骤；以及

基于潜变量模型以及关于多个隐藏层中的两个或更多个获得的第二投影值集来执行确定接收到的观测值是否为异常值的步骤。

此外，在根据上述方面的系统中，处理器还可以被配置为确定来自多个隐藏层中的至少一个的激活值并且任选地在确定的激活值上应用全局池化。因此，(任选地池化的)激活值可以构成第一/第二中间输出值。

根据上述方面的系统还可以包括用于存储深度神经网络的参数(例如，权重、节点连接、滤波器等)的存储介质。所存储的具体参数通常取决于所采用的深度神经网络的类型。此外，系统可以包括存储介质，该存储介质用于存储潜变量模型、通过使用潜变量模型获得的数据(诸如距离)、阈值距离和/或其他数据。

根据上述各种方面和示例，可能在对深度神经网络的模型训练之后检测异常值。可以有效地检测相对于训练数据集的输入图像中的异常值，因为可能需要如何构建深度神经网络的减少假设并且可能不需要采样。此外，根据上述各种方面和示例，已经学习的数据表示可以用于异常值检测。与分离异常值检测模型相反，用于预测的相同表示可以用于异常值的检测。

根据上述各种方面和示例的方法和系统的其他优点可以包括：

-它们是架构无关的，这意味着它们可以在任何类型的神经网络模型中使用；

-它们是训练无关的。计算涉及在训练神经网络之后单次通过训练数据，这意味着对常规训练过程的干扰是最小的；

-它们是任务无关的，这意味着不需要进行关于手头任务的假设。所提出的方法可以应用于各种任务，诸如分类、分段、回归、强化学习等。

-它们在异常值检测中胜过现有技术方法。

根据上述各种方面和示例的方法和系统的应用领域包括但不限于活细胞成像和非活细胞成像，不仅包括任何合适类型的生物成像，而且包括任何类型的建模。因此，在可应用于任何类型的输入的意义上，所提出的技术是“通用”技术。例如，所呈现的技术可以用于处理通过以下细胞成像技术获得的细胞图像：

细胞成像，特别是活细胞成像。存在许多不同的细胞成像技术，诸如：

ο亮视野显微术，其中使用白光从下面照亮样本；

ο相称显微术成像。这是允许对难以使用亮视野显微术捕获的透明样本的详细显现的光学显微术技术。它是基于将光的相移转换为亮度变化；

ο荧光成像。这种技术涉及用荧光染料对细胞着色，该荧光染料粘结到细胞的某一感兴趣部分。示例部分是DNA，其中荧光有助于检测细胞核。染料通常用来定位感兴趣蛋白质定位在细胞中的哪里。荧光意味着染料在某一特定波长的光照亮时发射特定波长的光；

ο共焦成像。这是使用聚焦激光束的成像技术，该聚焦激光束允许以极有限的焦深增加光学分辨率。

电子显微术成像：亚细胞结构可能非常小，使得光的波长因衍射而成为成像的限制因素。光成像被限于下至约200nm的分辨率。为了捕获较小的结构，可以将电子束用作照明源，因为电子可以具有比可见光短达到100000倍的波长。对于细胞成像，可以使细胞固定(例如，杀死并固定)。存在不同的电子显微术成像技术，诸如：

ο透射电子显微术。在这种技术中，通过用穿过样本的高电压电子束照亮样本来捕获样本的图像。这允许极高分辨率(低于50pm)的图像，但要求极薄的样品片(约100nm)；以及

ο扫描电子显微术。在这种技术中，用电子束来探查样本。它允许准确地捕获样本的3D形状但不像透射电子显微术那么高的分辨率。

以上是可能的细胞成像技术的非限制列表。也可以使用其他合适的细胞成像技术。

根据上述各种方面和示例的技术可以用于例如处理破损或模糊的图像。破损的图像可以是其部分因图像写入或仪器失灵期间的写入过程的中断而破损的图像。模糊图像可以是例如其中因图像捕获装置和/或成像的对象在图像捕获期间的物理移位引起移动模糊的图像或者其中由于要成像的对象不在光焦点中引起离焦模糊的图像。

本申请中描述的主题可以被实施为方法或系统，可能是一个或多个计算机程序产品的形式。本申请中描述的主题可以在数据信号中实施或在机器可读介质上实施，其中介质体现在一个或多个信息载体中，诸如CD-ROM、DVD-ROM、半导体存储器或硬盘。此类计算机程序产品可以致使数据处理设备执行本申请中描述的一个或多个操作。

另外，本申请中描述的主题也可以被实施为系统，该系统包括处理器和耦合到处理器的存储器。存储器可以对一个或多个程序进行编码以致使处理器执行本申请中描述的方法中的一个或多个。在一些示例中，系统可以是通用计算机系统。在其他示例中，系统可以是包括嵌入式系统的专用计算机系统。

附图说明

在示例性附图和以下描述中阐述一个或多个实现方式的细节。根据描述、附图和权利要求，其他特征将是显而易见的。然而，应理解，尽管单独地描述实施例，但不同实施例的单个特征可以组合到其他实施例。

图1示出了包括根据本公开的系统的系统的示例。

图2示出了用于处理图像的卷积神经网络(CNN)的示例性配置。

图3示出了由根据本公开的系统执行的示例性过程的流程图。

图4A示出了用于荧光共聚焦细胞图像中的蛋白质定位的卷积神经网络(CNN)的示例性配置。

图4B示出了由图4A和图4B所示的卷积神经网络执行的操作的子块(残差块)。

图5示出了使用图4A和图4B所示的卷积神经网络的蛋白质分类的结果。

图6示出了使用图4A和图4B所示的卷积神经网络的异常值检测的F1-得分评估结果。

图7示出了用于相称图像分割的“U-Net”型深度神经网络的示例性配置。

图8A示出了可以用图4A中描述的蛋白质定位网络和图7所示的“U-Net”型神经网络执行的操作的示例性子块(卷积下采样)。

图8B示出了由图7所示的“U-Net”型神经网络执行的操作的子块(卷积上采样)。

图9示出了使用不同的距离度量的异常值检测性能的ROC-AUC评估。

图10示出了可以用于实施本文所描述的系统的至少一部分的计算机的示例性硬件配置。

具体实施方式

在下文中，将参考附图给出示例的详细描述。应理解，可以对示例进行各种修改。特别地，一个示例的一个或多个元素可以在其他示例中组合和使用以形成新的示例。

系统配置

图1示出了包括根据本公开的系统的系统的示例。

图1所示的系统可以包括计算系统1、用户客户端20、控制系统30和第三方系统40。

根据本公开，计算系统1可以提供用于数据分析的系统。计算系统1可以例如使用一个或多个通用计算机来实施。如图1所示，计算系统1可以包括应用程序10和数据存储装置12。

应用程序10可以由包括指令的软件应用程序实施，所述指令致使计算机执行计算系统的示例性过程，如将在稍后更详细地描述。如图1所示，应用程序10可以包括深度神经网络100、预测110、异常值度量112和界面114。

深度神经网络(在下文也被称为“DNN”)100可以是具有输入层、输出层以及在输出层与输出层之间的多个隐藏层的人工神经网络。深度神经网络100可以被训练用于使用训练数据集来处理图像，所述训练数据集包括对深度神经网络100的可能输入细胞图像。训练数据集可以存储在可由应用程序10访问的数据存储装置12中。在图1的示例中，深度神经网络100可以包括层102和异常值检测模块104。

层102可以包括输入层(未示出)、输出层(未示出)以及在输入层与输出层之间提供的多个隐藏层(未示出)。

异常值检测模块104可以连接到深度神经网络100的多个隐藏层中的至少一个，并且被配置为相对于用于训练深度神经网络100的训练数据集来确定观测值(即，细胞图像)是否为异常值。稍后将描述由异常值检测模块104执行的过程的细节。

图2示出了深度神经网络100的具体示例。图2所示的示例性深度神经网络时用于对图像进行分类的卷积神经网络(CNN)。例如，图2所示的示例性CNN可以将诸如细胞图像的输入图像分类为多个不同的类别。在另一个示例中，图2所示的示例性CNN可以确定输入图像是否属于特定类别。在任何情况下，图2所示的示例性CNN可以被配置为接收28×28像素的灰度图像作为输入图像。输入图像的每个像素可以包括指示像素的强度的值。输入图像的每个像素的强度值可以被认为是对示例性CNN的输入层的输入节点的输入值。图2所示的示例性CNN包括四个卷积层C1、C2、C3、C4、两个最大池化层MP1、MP2以及输出层，其中softmax函数作为输出层中所包括的节点的激活函数。

尽管以上示例使用28×28像素图像，但从理论角度来看，图像的大小没有上限。然而，增加图像大小也可能会增加计算需求。一般来说，为感兴趣的应用选择的图像大小可以反映期望的细节水平与计算需求之间的权衡。在典型的分类应用中，图像可以在200×200像素至300×300像素的范围内。然而，应用不限于此范围，并且可以小于200×200像素或大于300×300像素。

示例性CNN的卷积层C1中所包括的每个节点可以对应于向输入图像的特定部分施加的大小3×3(像素)的滤波器，并且可以输出通过将滤波器施加到输入图像的特定部分得到的值。在图2的示例中，在卷积层C1处向输入图像施加32个滤波器。32个滤波器中的每一个可以通过使滤波器在输入图像的宽度和高度方向两者上以S个像素的步幅滑动而施加到输入图像的整个区域。对于32个滤波器在输入图像上的每个位置，对应于32个滤波器的32个节点可以存在于卷积层C1中。在图2的示例中，步幅S可以设置为1个像素。因此，卷积层C1的输出可以包括28×28×32个值，其可以被认为是32个28×28像素的图像。卷积层C1的输出可以输入到卷积层C2。卷积层C2可以具有类似于具有大小为3×3的32个滤波器的卷积层C1的配置。因此，卷积层C2的输出也可以包括28×28×32个值，其可以被认为是32个28×28像素的图像。

卷积层C2的输出可以经受20％的丢弃(参见图2的D1)。换句话说，可以随机地选择并忽视卷积层C2的输出中的值(对应于节点)的20％。

在丢弃操作D1之后，卷积层C2的输出可以通过在第一最大池化层MP1处的最大池化操作而进一步经受下采样。最大池化操作可以选择多个输入值之中的最大值。在图2的示例中，最大池化层MP1可以使大小为2×2的滤波器可以施加，以2个像素的步幅施加到从卷积层C2输出的具有28×28像素的32个图像。这可以导致包括14×14像素的32个输出图像，每个输出图像具有对应滤波器内的对应图像(从卷积层C2输出)的像素之中的最大强度值。最大池化操作中使用的每个滤波器可以被认为是最大池化层MP1的节点。

来自最大池化层MP1的输出可以提供到卷积层C3，该卷积层具有类似于卷积层C1、C2的配置但施加64个滤波器。卷积层C3的输出可以提供到卷积层C4，该卷积层具有与卷积层C3类似的构型、具有大小为3×3的64个滤波器。此外，卷积层C4的输出可以经受20％的丢弃(参见2的D2)，并且然后在最大池化层MP2处以类似于如上所述的在最大池化层MP1处的方式经受最大池化操作。最大池化层MP2的输出可以包括7×7×64个值。

最后，最大池化层MP2的输出可以提供到具有softmax函数的输出层。输出层可以包括与输入图像可以分类成的一个或多个组(或类别)相对应的一个或多个输出节点。尽管本示例提及具体参数(例如，滤波器的数量、丢弃百分比、卷积层的数量、步幅等)，但方法和系统不限于这些实施例，因为本文中设想每个参数的值的范围。

在涉及图2所示的示例性CNN的一些示例中，来自最大池化层MP1和MP2的输出可以提供到异常值检测模块104(图1)，以相对于用于训练图2所示的示例性CNN的训练数据集来检测输入图像是否为异常值。例如，异常值检测模块104可以针对最大池化层P1和MP2中的每一者使用来自相应的最大池化层P1和MP2的输出为训练数据集中的可能输入图像构建或拟合潜变量模型。潜变量模型可以提供最大池化层P1和MP2的输出到子空间(潜变量模型子空间)中的投影值集的映射，该子空间具有低于最大池化层P1和MP2的输出的维度的维度。所构建或拟合的潜变量模型可以用于相对于训练数据集来确定输入图像(例如，训练数据集中不包括的新获得的输入细胞图像)是否为异常值。更一般地说，异常值检测模块104可以被配置为获得来自深度神经网络100的隐藏层中的一个(或多个)的输出并且使用获得的输出来构建或拟合潜变量模型。稍后将在下面描述构建或拟合潜变量模型的细节。

再次参考图1，预测110可以是来自深度神经网络100的输出。在一些示例中，预测110可以指示输入图像被深度神经网络100分类为哪个类别。

异常值度量112可以包括用于相对于用于训练深度神经网络100的训练数据集来确定输入图像是否为异常值。稍后将在下面描述异常值度量112的细节。

界面114可以是用于应用程序10的界面，以与可以设置在计算系统1外部的各种装置通信。例如，界面114可以被配置为将由应用程序10生成的信息传送到那些装置。此外，例如，界面114可以被配置为从那些装置接收指向应用程序10的信息。

数据存储装置12可以被配置为存储应用程序100所使用的数据。尽管图1将数据存储装置12示出为计算系统1的一部分，但在一些示例中，数据存储装置12可以设置在计算系统的外部，只要存储在数据存储装置12中的数据可由应用程序10访问即可。

用户客户端20可以是连接到计算系统1的客户端装置。用户客户端20可以包括用户应用程序22，该用户应用程序可以使用在计算系统1处执行的预测和异常值检测的结果。用户客户端20的具体示例可以是例如使用SSH(安全外壳)或HTTP(超文本传送协议)请求远程地连接到计算服务器的工作站。然后可以将DNN(深度神经网络)施加到计算服务器上的用户提供的输入，并且可以将得到的预测和异常值度量返回给用户客户端20。用户客户端20可以是与运行应用程序10的计算系统1相同的物理装置的一部分，例如在被配置为执行DNN预测的工作站上。

控制和/或分析系统30可以控制装置和/或使用在计算系统1处执行的预测和异常值检测结果来执行进一步数据分析。控制和/或分析系统30的示例可以是用于生物制药制造过程、例如用于单克隆抗体的第一生产步骤中的单克隆保证的控制和/或分析系统。另一示例可以是用于诊断目的的控制和/或分析系统。控制和/或分析系统30可以包括程序客户端32，该程序客户端在控制和/或分析系统30中运行以接收输入并作出如何控制处理装置和/或执行数据分析的决策。本技术的具体示例涉及向生物制药制造过程的控制系统表征输入材料。为了确保这种制造过程的期望输出质量，可以根据输入材料的性质来调整过程的控制参数。

数据源的异类组合可以用来表征包括结构化数据和诸如细胞图像的非结构化数据两者的输入材料。示例数据源可以包括文本(诸如事件报告)、图像、色谱图、光谱数据、化学分析等。深度学习也因为深度学习发现从结构化数据和非结构化数据两者到给定输出的可用映射的能力而适于分析数据的此异类组合。为了在输入数据不匹配用于训练深度学习模型的数据时避免不良输出质量或灾难性故障，可能重要的是在模型训练之后检测出异常值。如果输入数据被识别为异常值，那么输入数据可能无法用作制造过程的输入，因为无法保证输出质量。

本技术的另一具体示例在于控制系统使用深度强化学习从数据中学习，而不是由人类控制员编程。在生物制药制造过程中，可以存在大量的可能控制参数，并且发现系统中现存的所有交互和反馈环路因为高复杂性而可能具有挑战性。相反，深度强化学习可以用来从数据和模拟中学习控制策略。为了检测过程何时进入与在模型训练期间遇到的状态不同的状态，异常值检测可能是重要的。如果这种状态被识别为异常值，那么基于深度学习的控制系统可以警告用户(例如，通过向用户发送通知)和/或执行安全例程以避免不良输出质量或灾难性故障。深度强化学习的使用示例可以在本领域中发现(例如，Li Y.、Wen Y.、Guan K.以及Tao D.(2017年)，Transforming Cooling Optimization for Green DataCenter via Deep Reinforcement Learning，arXiv preprint arXiv:1709.05077；以及Nguyen P.和Takashi E.(2018年)，Automating Water Purification Plant OperationsUsing Deep Deterministic Policy Gradient，研讨会学报(在工程系统的安全关键性的深度学习ICML研讨会中公布))。

不同于深度学习模型中的异常值检测的现有技术方法，本方法不约束设计和/或训练模型的方式，从而允许在生产中将这些方法添加到模型。另外地，由于在模型训练之后使用本技术，因此本技术可以与实时应用和/或在现场应用中实施的模型一起使用。相反，使用每次预测多个正推/推断的现有技术方法(例如，其中预测被用作平均值并且标准偏差或熵被用作不确定性测量)可以导致延时增加，这对于实时应用来说是个问题。此外，所提出的技术是架构无关、训练无关且任务无关的。

第三方系统40可以由计算机实施并且可以包括第三方应用程序42。第三方系统40可以属于与计算系统1所属的实体不同的实体。第三方应用程序42可以使用在计算系统1处执行的预测和异常值检测的结果。第三方应用程序42的示例可以是依赖于DNN预测和从DNN预测提供商购买的异常值检测结果的软件。

计算系统1可以经由诸如互联网的网络与用户客户端20、控制系统30和第三方系统40连接。在一些示例中，用户客户端20、控制系统30和第三方系统40中的一个或多个可以经由互联网连接到计算系统1。

使用偏最小二乘回归的预测时间异常值检测

如上所述，图1所示的计算系统1中的异常值检测模块104可以被配置为使用从深度神经网络100的多个隐藏层中的至少一个(例如，图2的最大池化层MP1或MP2)输出的中间输出值来构建或拟合潜变量模型，以便相对于用于训练深度神经网络100的训练数据集来确定输入图像是否为异常值。中间输出值可以是例如来自深度神经网络100的多个隐藏层中的至少一个的相应输入图像。任选地，如果激活值来自特征图，那么可以在每个特征图上施加全局池化(例如，全局平均池化)。

下文提供用于使用偏最小二乘回归进行异常值检测的示例性技术，从而可以利于理解异常值检测模块104可以如何检测异常值。

模型不确定性的概念与预测时间异常值检测相关。在这两种情况下，主要目标可以是发现与训练模型所用的观测值(例如，包括在训练数据集中的细胞图像)不对应的观测值(例如，细胞图像)。预测性模型一直用来在制造过程监测的预测期间检测分布外观测值。在这个领域，可以广泛地使用诸如偏最小二乘(PLS)回归线性潜变量模型(参见例如P.Geladi和B.R.Kowalski，“Partial least-squares regression:a tutorial”，分析化学学报，第185卷增补期，第1至17页，1986年1月)。类似于用于预测的主成分分析(PCA)(S.Wold、K.Esbensen和P.Geladi，“Principal component analysis”，化学计量智能实验系统，第2卷第1期，第37至52页，1987年8月)，PLS模型可以发现近似训练数据的子空间。新观测值然后可以投影到通过PLS模型发现的子空间中。因此，在预测时间期间，在子空间内的距离和离开子空间的距离两者都可以用于发现异常值。

预测时间是指在已经拟合了模型并且将模型用于应用中的预测之后的时间(但不包括在生成模型时用于模型拟合/训练的时间)。

应注意，尽管简单且有效，但如上所述的PLS模型的原理可能无法直接应用于深度学习系统。具体地，PLS的预测的基础是输入数据空间的子空间，从而使得能够直接将新观测值与用于训练的那些观测值的子空间近似进行比较。另一方面，深度学习模型典型地取决于非线性变换的多个层，其中每个变换有助于最终输出。这可以意味着，看似不同的观测值通过空间序列进行变换并映射到输出。这种发现输入到输出的可用变换的能力可能就是深度学习模型适合于非结构化数据的原因。然而，这些变换的结果可以是变换使得难以确定新的观测值是否属于训练模型的相同数据分布。可能没有明显的比较点来确定深度学习模型的知识极限并且没有明显的方式来决定新的观测值是否在那些极限内。

PLS回归是在例如制造过程监测内广泛地使用的回归模型。给定具有n行观测值和p列特征的训练数据矩阵(表示为X＝[x₁...x_n]^T)以及具有q列响应的对应的目标矩阵(表示为Y)，PLS模型可以概括这两个数据矩阵。类似于PCA，PLS可以发现近似X和Y的相同维度k的满秩子空间，被称为“潜变量空间”。与PCA相比，PLS可以将所发现的子空间之间的协方差最大化，而不是将单个子空间的方差最大化。简而言之，PLS可以将输入数据近似为：

X＝TP^T+E (1)

其中T＝[t₁，...，t_k]可以是跨越X的公共空间的满秩子空间并用Y将协方差最大化的n×k潜变量矩阵，P可以是PLS载荷的p×k矩阵，并且E可以是近似残差的n×p矩阵。载荷可以包含用于从T近似X的线性组合权重。可以通过类似方式来近似Y的响应矩阵。关于如何计算PLS模型并将其用于回归的更多细节可以见于S.Wold、M.

和L.Eriksson，“PLS-regression:a basic tool of chemometrics”，化学计量智能实验室系统，第58卷第2期，第109至130页，2001年10月。

由PLS提供的输入数据的近似可以用于检测在预测期间遇到的异常值。在模型拟合之后，新的观测值可以通过下式投影到使用PLS发现的子空间上：

T_new＝X_newP (2)，

这可以允许将新观测值近似为：

子空间投影T_new和近似两者都可以用于基于适当的距离度量来检测异常值。用于在预测时间期间检测异常值的两个示例性测量是潜变量空间中的马氏距离和输入列空间中的近似残差。其他测量可以是对所建模的嵌入项的综合度量距离、局部异常因子(LOF)等。

在使用PLS时在预测时间期间检测异常值的一种方式可以是使用马氏距离。马氏距离是测量观测值距多维概率分布中的原点有多少个标准偏差的已知统计距离。直觉上，具有大马氏距离的观测值不太可能在给定的概率分布下。潜变量概率分布可以使用T中的潜变量的协方差矩阵C_T进行参数化，假设潜变量具有零平均值。那么，具有在潜变量空间中的投影t_i的观测值x_i的马氏距离d_i可以被计算为：

尽管马氏距离可以测量观测值有多不太可能在给定的分布下，但马氏距离可能无法提供观测值是否属于该分布的信息。相反，近似残差可以提供新观测值距分布有多远的简单测量。给定拟合的PLS模型，观测值x_i可以被近似为

平方的近似方差然后可以由下式简单地给出：

其中x_i，j可以是观测值向量的第j个元素。直觉上可以是来自除训练分布外的另一个分布的观测值的近似将不能产生大近似残差。

用于深度神经网络的预测时间异常值检测

异常值检测模块104可以基于例如制造过程监测中的预测时间异常值的原理来执行附加法，如上所述，以用于发现深度神经网络100可能无法解释的观测值。深度神经网络100可以是任何类型的神经网络，例如，卷积神经网络(CNN)、递归神经网络、循环神经网络、变换器神经网络等。

由异常值检测模块104执行来检测深度学习系统中的预测时间异常值的方法可以基于以下事实：神经网络可以通过变换输入数据来运行。当通过深度神经网络来馈送输入数据时，可以存在数据的多个中间表示，其中中间表示可以用于预测(例如，在深度神经网络被配置为解决分类问题的情况下，输入数据被分类成的组的预测)。这些中间表示中的一个或多个可以用于在预测期间检测异常值以及用于执行预测。

为了提供在预测期间以类似于PLS的方式检测异常值的可能性，深度神经网络(例如，前馈神经网络)可以被认为是一系列非线性变换。换句话说，来自给定网络的层i＝(1、2、3、4、……)的观测值x(诸如输入细胞图像的输入数据)的激活向量a_i可以通过内置的一系列变换给出，如下：

a_i＝f_i(W_if_i-1(W_i-1f_i-2(...f₁(W₁x)))) (6)

其中f_k(k＝1、2、……、i)可以是激活函数，并且W_k(k＝1、2、……、i)可以是权重度量。观测值x的激活向量a_i可以被认为是来自给定网络的层i的中间输出，并且可以包括在观测值x被输入给定网络时与来自层i的相应节点的输出相对应的元素值。这些激活值a_k中的每一个可以提供输入数据的特征表示。尽管权重矩阵可以借助于反向传播通过监督式训练共同地获得，但激活值可以简单地提供输入数据的经变换或预处理的表示。

为了更详细地解释变换，观测值x可以是n维行向量x＝[x₁x₂...x_n]，其中n取决于应用。在x是单通道图像的情况下，n可以是图像的长度(以像素为单位)与图像的宽度(以像素为单位)相乘，并且值x₁，x₂，...，x_n是图像的像素值。在第一层中，x是与第一权重矩阵W₁相乘的矩阵，以形成n₁维的线性投影

W₁的维度是n×n₁。在线性投影之后，将激活函数f₁应用于

以形成激活值a₁。激活函数f₁可以是非线性函数。激活函数的共同选择包括修正线性函数f(x)＝max(0，x)、S形函数f(x)＝(1+e^-x)^-1、softmax函数

等等。那么，激活值a₁是与权重矩阵W₂相乘的矩阵，并且得到的线性投影

使用激活函数进行变换。将矩阵与权重矩阵相乘和使用激活函数进行变换的过程重复i次，直到获得层i的激活值a_i为止。

使用这些中间表示，可以提供用于检测任何深度神经网络(例如，任何前馈神经网络)中的异常值的即插即用方法。给定经训练的网络，可以使用来自层i的激活矩阵A_i＝[a_1，i...a_n，i]^T来表示训练数据，其中n可以是观测值的数量。由于A_i可能不是满秩的，因此可能期望发现可以用来近似A_i的满秩子空间。在一些示例中，PCA可以用于使用线性投影来获得子空间，以将数据映射到低维子空间。在一些其他示例中，诸如自动编码器、随机投影、稀疏主成分分析和/或自组织映射的其他方法可以用于将数据映射到低维子空间。

在使用PCA的示例中，训练数据激活值的维度可以减少到m维以获得：

T_A，P_A＝PCA(A_i) (7)

类似于PLS，T_A可以指示跨过训练集激活值的子空间的潜变量矩阵，并且P_A可以指示PCA载荷。例如，呈矩阵形式PCA可以提供以下最小二乘模型：

其可以被认为类似于如上所述的等式(1)。

通过与PLS相同的方式，潜变量和载荷矩阵的协方差矩阵可以用于基于适当的距离度量(诸如基于马氏距离、近似残差、对所建模的嵌入项的综合度量距离、局部异常因子(LOF)等)来检测预测时间异常值。

当使用经训练的神经网络来预测新观测值(例如，新细胞图像)时，还可以提取激活值A_i，new。新的激活值可以通过与在使用PLS时相同的方式投影到从训练数据激活值中发现的子空间：

T_A，new＝A_i，newP_A (9)

并且可以根据等式(4)来计算新观测值的距离，例如，马氏距离。

新的激活值还可以使用PCA载荷近似为：

根据以下等式(11)(类似于等式(5))计算的近似残差也可以用于通过与在使用PLS时相同的方式来检测异常值：

其中p可以指示层i中的节点的数量。

所确定的距离也可以是通过将所描述的距离中的两个或更多个组合而形成的综合距离度量。一个示例是使用欧几里得范数将马氏距离与由残差平方和的平方根给出的残差距离组合，如下：

以上仅仅是综合距离度量的一个示例，许多其他组合也是可能的。

上述等式(即，等式(7)至(12))已经按如本文所提供的新颖方式进行改编，以应用来自深度神经网络的激活值。

用于系统设置的过程

图3的左手部分示出了用于设置计算系统1的示例性过程的流程图。图3所示的示例性过程可以由计算系统1的应用程序10执行。

在步骤S10处，应用程序10可以从数据存储装置12获取数据。数据可以是用于训练深度神经网络100的训练数据集的一部分。训练数据集可以包括输入到深度神经网络100的可能观测值。训练数据集可以特别地包括可能细胞图像作为可能的观测值，例如活细胞图像。细胞图像可以是例如显微细胞图像。在深度神经网络100是例如如图2所示的CNN的情况下，训练数据集可以包括对CNN的可能输入图像作为可能的观测值。

在步骤S12处，应用程序10可以确定深度神经网络100是否已经被训练。步骤S12可以在步骤S10之前、之后或并行地执行。

如果确定深度神经网络100尚未被训练(在步骤S12处为否)，那么该过程可以进行到步骤S14。如果确定深度神经网络100已经被训练(在步骤S12处为是)，那么该过程可以进行到步骤S16。替代地，在进行到步骤S16之前，深度神经网络100可以微调。

在步骤S14处，应用程序10可以使用在步骤S10处获取的数据来训练深度神经网络100。

在步骤S16处，应用程序10可以使用深度神经网络100来变换数据。在步骤S17处，应用程序10可以获得从深度神经网络100的多个隐藏层中的至少一个输出的中间输出值(第一中间输出值集)。具体地，例如，应用程序10可以根据上述等式(6)从深度神经网络100的至少一个层中获得训练数据集中的可能输入图像的激活向量。激活值是指矩阵相乘的序列和对观测值使用激活函数的变换的结果，如由等式(6)所描述。任选地，如果激活值是来自特征图，那么可以在每个特征图上应用全局池化，例如平均池化。

在步骤S18处，应用程序10可以对中间输出值，例如(任选地池化的)训练集激活值拟合潜变量模型。换句话说，应用程序10可以构建潜变量模型。例如，应用程序10可以使用PCA获得潜变量矩阵T_A和PCA载荷P_A，如上所述(参见例如等式(7)和(8))。替代地，应用程序可以使用(任选地池化的)激活向量作为输入来训练自动编码器。

在步骤S20处，应用程序可以使用潜变量模型来投影激活值。例如，应用程序10可以从在步骤S17处获得的激活向量中获得通过构建/拟合潜变量模型而发现的子空间中的投影值的对应集合(例如，T)。

在步骤S22处，应用程序10可以使用潜变量模型来计算训练集图像的一组或多组距离。例如，应用程序可以计算数据的激活值的数据。可以使用任何合适的距离度量。例如，应用程序10可以根据上述等式(4)相对于在步骤S18处构建的潜变量模型来计算在步骤S17处获得的激活向量中的每一个的马氏距离。另外地或替代地，例如，应用程序10可以根据上述等式(11)来计算在步骤S17处获得的激活向量中的每一个的平方近似残差。

在步骤S24处，应用程序10可以确定距离的阈值。另外地或替代地，可以确定平方近似残差的阈值。阈值稍后可以用于相对于训练数据集来确定新观测值(例如，输入图像)是否为异常值。为了获得阈值，可以使用在步骤S22处计算的距离和/或平方近似残差。例如，阈值可以是在步骤S22处计算的距离(或平方近似残差)的百分位，例如，第95个百分位。应注意，“第95个百分位”仅仅是示例，并且大于或小于95的值也可以用作确定阈值的百分位。

用于系统设置的过程可以在步骤S24之后结束。

用于异常值检测的过程

图3的右手侧示出了由计算系统1执行的用于检测异常值的示例性过程。

该过程可以通过部署深度神经网络来开始。例如，深度神经网络可以合并在用于处理细胞图像的软件中。这可以在成像设备本身内，或者作为用于分析的独立软件模块。

在步骤S30处，应用程序10可以接收新观测值(新细胞图像)。例如，在深度神经网络100是如图2所示的CNN的情况下，可以接收将要输入到CNN的图像作为新观测值。

在步骤S32处，应用程序10可以使用深度神经网络来变换新观测值。变换可以包括例如为新细胞图像计算深度神经网络预测。

随后，应用可以确定新细胞图像是否为异常值。这可以按以下方式执行：

在步骤S33处，应用程序10可以获得从深度神经网络100的多个隐藏层中的至少一个输出的中间输出值(第二中间输出值集)。例如，应用程序10可以根据上述等式(6)从深度神经网络100的至少一个层中获得新观测值的激活向量。

在步骤S34处，应用程序10可以使用如上所述的在步骤S18处构建/拟合的潜变量模式来投影所确定的中间值(中间值的第二集)。例如，应用程序10可以从在步骤S32处获得的激活向量中获得通过构建/拟合潜变量模型(参见等式(9))而发现的子空间中的投影值的对应集合(例如，T_A，new)。

在步骤S36处，应用程序10可以使用如上所述的步骤S18的潜变量模型来计算新观测值的距离。例如，应用程序10可以根据上述等式(4)相对于在步骤S18处构建的潜变量模型来计算在步骤S32处获得的新观测值的激活向量的马氏距离。另外地或替代地，例如，应用程序10可以根据上述等式(11)来计算在步骤S32处获得的新观测值的激活向量的平方近似残差。可以使用其他合适的距离度量，而不是马氏距离和平方近似残差。

在步骤S38处，应用程序10可以确定在步骤S36处计算的距离是否大于在步骤S24处确定的阈值。

如果在步骤S38处为是，那么该过程可以进行到步骤S40并且应用程序10可以确定新观测值是异常值。在这种情况下，系统可以将模型预测报告为不可靠预测，因为新观测值被确定为异常值。该过程可以在步骤S40之后结束。替代地，可以采取其他应用特定动作。例如，可以忽视深度神经网络的预测并放弃异常图像。

如果在步骤S38处为否，那么该过程可以进行到步骤S42，并且应用程序10可以确定由深度神经网络100针对新观测值进行的预测可以被信任。在这种情况下，系统可以将模型预测报告为可靠预测，因为新观测值被确定为非异常值。该过程可以在步骤S42之后结束。替代地，可以进一步处理新细胞图像。

实验

在本章节中，将描述由示例性计算系统1执行的异常值检测的实验结果。在以下实验中，深度神经网络100用于解决图像分类或图像分割任务。

示例1：荧光共聚焦成像中的蛋白质定位

用于异常值检测的上述方法的示例涉及定位荧光标记的共聚焦显微术图像中的蛋白质定位。使用在Kraus et等，“Automated analysis of high-content microscopydata with deep learning”，分子系统生物学，第13卷第4期，第924页，2017年中描述的方法来分析图像。在此示例中，使用由Chong等，“Yeast proteome dynamics from singlecell imaging and automated analysis”，细胞ll，第161卷第6期，第1413至1424页，2015年提供的数据。数据包括具有GFP标记的蛋白质的单酵母细胞的双通道旋转盘共聚焦图像，其中定位标记至19个区室。使用由Chong等提供的相同的训练、验证和测试集拆分(各自具有21882个、4491个和4516个图像)以及由Kraus等提供的预处理。

此外，某些区室的组合和排除如由Chong等描述。从原始的19个区室组合液泡和液泡膜区室。排除死细胞、影细胞和被标记为纺锤体的细胞。在异常值检测示例中，将排除的区室用作异常值。

与Kraus等使用的DeepLoc模型相比，在当前示例中，使用由K.He、X.Zhang、S.Ren和J.Sun，“Deep residual learning for image recognition”，IEEE计算机视觉和模式识别会议的会议录，2016年，第770至778页，利用跳过连接和预激活值以及Leaky ReLu激活值(参见A.L.Maas、A.Y.Hannun和A.Y.Ng，“Rectifier nonlinearities improve neuralnetwork acoustic models”，Proc.icml，2013年，第30卷，第3页)中描述的ResNet方法所激发的全卷积分类器，而不是常规ReLu激活值。

图4A示意性地示出了所使用的深度神经网络的基本架构。深度神经网络取得大小为n×n×f(例如60×60×2)的输入，其中f是特征的数量。深度神经网络包括第一卷积层，该第一卷积层包括7×7卷积接着是Leaky Relu，这将特征的数量增加至64。如果输入具有大小60×60×2，那么第一卷积层的输出具有“60×60×64”个值。第一卷积层之后是三个连续组的层，每一组包括两个层。组中的两个层中的第一层(残差操作层)包括残差块(图4B所示)接着是Leaky ReLu，并且产生具有与层的输入相同的大小的输出。组中的两个层中的第二层(下采样层)包括下采样块接着是Leaky ReLu，并且将“n×n×f”大小的输入变换为“n/2×n/2×2f”大小的输出。下采样可以使用所谓的跨步卷积，这意味着卷积算子没有应用于特征图中的每个像素位置而是应用于每两个位置，从而导致大小为输入大小一半的输出特征图。每次应用卷积算子之间的像素位置的数量被表示为步幅且必须为正整数。图8A示出了可以在图4A所示的网络中使用的构成下采样块的下采样操作的示例。

各组层的最后下采样层接着是包括残差块和leaky ReLu的另一残差操作层。在对深度神经网络的“60×60×2”大小的输入的情况下，该层产生“8×8×512”大小的输出。在对所产生的特征图应用全局平均池化之后，产生大小为“1×15”的输出。

图4B示出了构成操作的残差块的操作。每个残差块取得“n×n×f”大小的输入并将其变换为相同大小的输出。残差块包括批归一化、接着是两组随后的操作，每一组包括批归一化、激活和3×3卷积。将最后卷积的“n×n×f”输出和“n×n×f”输入逐元素地相加以产生残差块的“n×n×f”大小的输出。

数据分割用于改进训练。数据分割包括随机水平和竖直翻转、达到90度的随机旋转、达到5度的随机急转、达到10％的随机缩放，以及宽度和高度移位以及达到30％的随机通道移位。在100个时期内使用分类交叉熵作为损失函数来训练深度神经网络，以最小化并批量处理大小128。此外，使用利用热重启(I.Loshchilov和F.Hutter，“SGDR:StochasticGradient Descent with Warm Restarts”，arXiv:1608.03983[cs，math]，2016年8月)的Adam优化器(D.P.Kingma和J.Ba，“Adam:A Method for Stochastic Optimization”，arXiv:1412.6980[cs]，2014年12月)，其中初始最大学习率为10^-5和最小学习率为10^-3、周期长度为5并且每个周期具有20％学习率衰退和50％周期长度增加。在测试集上实现94.3％的分类准确率。

为了表明预测时间异常值检测的相关性，使用经训练的深度学习神经网络对省略的蛋白质类别(纺锤体细胞以及死细胞和影子细胞)进行分类。图5示出了分类的结果。图5的上面部分示出了所预测的类别的频率的条形图。图5的下面部分示出了用于蛋白质定位情况研究中的所排除的图像类别的预测softmax置信度(底部)的小提琴图。小提琴图中的水平线指示中值。

死细胞和影细胞两者都以高置信度被预测到细胞质中但对于影细胞来说中值置信度较低。纺锤体图像多数被分类为纺锤体极。随后通过使用上述基于潜变量模型的技术来执行预测时间异常值检测。使用F1-得分来评估不同的PCA R2的性能。

图6示出了用于蛋白质定位情况研究中的所排除的类别的异常值检测的F1-得分评估的结果。用于异常值检测的PCA R2在X轴上，F1-得分在Y轴上并且每个子图示出了使用不同距离度量的评估，即，残差平方和(RSS)、马氏距离和局部异常因子(参见例如M.M.Breunig、H.-P.Kriegel、R.T.Ng和J.Sander，“LOF:Identifying Density-basedLocal Outliers”，2000年ACM SIGMOD国际数据管理会议的会议录，纽约，NY，USA，2000年，第93至104页)。

根据先前的实验，高PCA R2表现最好。所有的度量都将影细胞可靠地检测为处于90+％R2的异常值(F1-得分处于～0.8)，而只有LOF能够检测死细胞(F1-得分处于～0.5)。如从图6看出，所有的度量都未能将纺锤体图像检测为异常值，这不足为奇，因为它们是与纺锤体极相同的亚细胞结构的部分。为了比较，将根据以上示例的来自用于异常值检测的方法的结果与由Hendrycks等提出的基线方法进行比较(Hendrycks、Dan和Kevin Gimpel，“A baseline for detecting misclassified and out-of-distribution examples inneural networks”，arXiv preprint arXiv:1610.02136(2016年))，其中不确定性被表示为softmax分类器的置信度缺乏。更确切地，对于每个图像，不确定性由1减去最大softmax输出表示(1表示最大不确定性)。在实践中通常使用此基线方法，因为它易于实施。通过使用与第95百分位的训练集置信度缺乏相对应的0.415的截止点而使用基于置信度缺乏的方法，对于死细胞，异常值检测视线0.27的F1-得分，对于影细胞实现0.52并且对于纺锤体图像实现0.24。除了纺锤体图像外，置信度缺乏的表现明显不如根据以上示例的用于异常值检测的方法。

实验数据表明，使用根据以上方面和技术的基于潜变量模型的技术，可能检测出在活细胞成像的分类研究中确信地预测为内点类别的异常值类别。然后可以更详细地研究异常值图像，从而暴露在训练模型时未考虑到的类别。

示例2：相称图像分割

示例2涉及在图像分割背景下的异常值检测。深度神经网络100是被训练来分割相称细胞图像的卷积神经网络。八个细胞类型HUVEC、Jurkat、HeLa、A549、HT-1080、PC3、SKOV-3和MDA-MB-231)在3至4个孔中生长，每一者持续四天的时间段。每12个小时以1500×1000px的分辨率按10×放大率捕获相称图像，并且使用IncuCyte来计算融合和细胞核掩码。针对每个细胞类型随机地挑选一个孔作为测试集。为了模拟异常值，从训练集中排除来自PC3、SKOV-3和MDA-MB-231的所有图像。

为了提供分割响应，将融合和细胞核掩码进行组合。此外，使用形态算子根据Ronneberger等来计算具有细胞核边界的单独掩码通道(参见Ronneberger、P.Fischer和T.Brox，“U-Net:Convolutional Networks for Biomedical Image Segmentation”，arXiv:1505.04597[cs]，2015年5月)，以促进相邻细胞核的分离。将掩码组合以提供指示背景、细胞区域、细胞核和细胞核边缘的四个通道掩码。通过减去平均相强度并除以相强度标准偏差来预处理相称图像。随后，将缩放的相强度剪到-10至+10标准偏差的范围，并且然后除以10以得到在-1至+1范围内的相强度。最终，用匹配的分配掩码将所有高分辨率相称图像剪裁为没有重叠的224×224px的剪裁片。

对于分割来说，使用测试图像来训练由U-net架构激发的全卷积分割网络(参见O.Ronneberger、P.Fischer和T.Brox，“U-Net:Convolutional Networks for BiomedicalImage Segmentation”，arXiv:1505.04597[cs]，2015年5月)。如在O.Ronnebertger等中公开的U-Net网络具有两条路径：收缩路径和扩张路径。收缩路径沿循卷积网络的架构并且包括两个3×3卷积(无填补卷积)的重复应用，每个卷积后是修正线性单元(ReLU)和用于下采样的具有步幅2的2×2最大池化操作。在每个下采样步或相应地下采样层处，将特征通道的数量加倍。扩张部分中的每个步或层包括特征图的上采样、接着是将特征通道的数量减半的2×2卷积(“上卷积”)、与来自收缩路径的对应地剪裁的特征图的连接，以及两个3×3卷积，每一者后是ReLu操作。

与在O.Ronneberger等中描述的原始U-net架构相比，采用跳过连接、预激活值和批归一化，类似于原始ResNet(He Kaiming等，“Deep residual learning for imagerecognition”，IEEE计算机视觉和模式识别会议的会议录，2016年)。此外，使用具有α＝0.3的Leaky ReLu激活值(A.L.Maas、A.Y.Hannun和A.Y.Ng，“Rectifier nonlinearitiesimprove neural network acoustic models”，见于Proc.icml，2013年，第30卷，第3页)，而不是常规ReLu激活值。

图7示意性地示出了所采用的深度神经网络的架构。图8A示出了卷积下采样块，并且图8B示出了卷积上采样块。

如上所解释，所采用的深度神经网络是U-Net型的并且具有两条路径：收缩路径和扩张路径。收缩路径包括第一卷积层，该第一卷积层包括7×7卷积接着是Leaky Relu，这将特征的数量增加至32。如果输入是224×224像素的图像，那么第一层的输出具有“224×224×32”个值，这可以被认为是32个图像的集合，每个图像具有224×224像素。第一层后时5个其他层(编码层)，每个层取得“n×n×f”大小的输入并产生“n/2×n/2×2f”大小的输出。一个层的输出对应于后续层的输入。5个编码层中的每一个包括下采样块接着是Leaky ReLu操作。在图8A中示出了下采样块。下采样块取得“n×n×f”大小的输入并应用一些操作以产生“n/2×n/2×2f”大小的输出。操作包括批归一化、接着是激活、具有用于下采样的步幅1的1×1卷积和两个操作块，每个块由批归一化、激活和3×3卷积构成。逐元素地将大小“n/2×n/2×2f”的最后3×3卷积的下采样结果添加到应用于“n×n×f”输入的一组操作的输出，该组操作包括批归一化、接着是具有步幅2的1×1卷积以产生“n/2×n/2×2f”输出。向逐元素添加的结果应用激活值。

扩张路径包括5个解码层，每个层包括上采样块和Leaky ReLu。每个解码成后是与来自收缩路径的对应地剪裁的特征图的连接，如图7所示。最后的连接后是包括7×7卷积和Leaky Relu的附加卷积层。在附加层之后是包括1×1卷积和softmax操作的输出层，从而产生“224×224×4”大小的输出。

解码层中的每一个取得“n×n×f”大小的输入，该输入经受一些操作以产生“2n×2n×f/2”大小的输出。图8B示出了每个解码层中包括的上采样块。每个上采样块中包括的操作包括批归一化、接着是激活、用于上采样的1×1转置卷积和两个操作块，每个块由批归一化、激活和3×3卷积构成。逐元素地将最后3×3卷积的上采样结果(大小为“2n×2n×f/2”)添加到在“n×n×f”大小的输入上应用的一组操作的输出，该组操作包括批归一化和1×1转置卷积以产生“2n×2n×f/2”大小的输出。向逐元素添加的结果应用激活值。

为了降低过度拟合的风险，采用数据分割，包括随机水平和竖直翻转、达到20度的随机旋转、达到20％的竖直和水平移位、达到10度的随机剪切和10％的随机缩放。在25个时期内用批大小8来训练深度神经网络。类似于Ronneberger等，使用Dice系数损失，然而，对逐通道Dice系数损失的和而不是单通道损失进行优化。所采用的优化器是利用热重启的Adam优化器(参见I.Loshchilov和F.Hutter，“SGDR:Stochastic Gradient Descent withWarm Restarts”，arXiv:1608.03983[cs,math]，2016年8月)，如在O.Ronneberger、P.Fischer和T.Brox，“U-Net:Convolutional Networks for Biomedical ImageSegmentation”，arXiv:1505.04597[cs]，2015年5月，其中最大学习率为10^-3且最小学习率为10^-6、开始周期长度为5个时期，从而每个周期将周期长度增加50％并且将最大学习率降低10％。在训练之后，在测试集图像上实现92.2％的逐像素准确率且在排除的细胞类型上实现87.3％的准确率。

为了检测异常值，使用最深编码成(14×14×512下采样输出)和在输出softmax层之前的最后卷积层两者来拟合潜变量模型。使用不同水平的PCA R2(50％至99.99％)和距离度量(RSS、马氏距离和LOF)来拟合不同的模型。使用将测试集图像与异常值图像分开的ROC-AUC来评估结果。在图9中概括了测试的结果。在此示例中，最深编码特征给出最一致的结果，并且最后水平的特征只有在将LOF用作距离度量时才是相当的。根据较早的结果，使用高PCA R2(99.9％或99.99％)实现最佳结果。异常值没有更强地与测试集图像分开的事实可以由以下事实解释：异常值类别简单地与训练集图像不再有不同。这由以下事实支持：对于排除的细胞类型，分割准确率仍相当高(87.3％相比于测试集92.2％)。

此实验数据表明，根据如上所述的方面和示例的使用基于潜变量的技术的用于检测异常值的方法能够不仅能够可靠地检测分类任务中的异常值，而且也能够使用复杂的全卷积神经网络来检测分割任务中的异常值。

其他示例

用于细胞图像的分析的另一示例性方法包括以下步骤：

S101：提供来自细胞成像装置(例如，显微镜)的图像。这些图像构成训练集。

S102：训练深度神经网络或微调预先训练的深度神经网络。深度神经网络可以是卷积神经网络。

S103：选择深度神经网络的一个或多个层并且计算来自该层/那些层的图像的激活值。

S103a：任选地，如果激活值是来自特征图，那么在每个特征图上应用全局池化，例如全局平均池化。

S104：在(任选地池化的)训练集激活值上拟合潜变量模型。

S105：使用潜变量模型来计算训练集图像的一组或多组距离。

S106：基于训练集图像的距离来选择阈值，例如，训练集距离的第95百分位。

S107：部署深度神经网络。换句话说，将深度神经网络结合在用来处理细胞图像的软件中。软件可以在成像装置本身内实施，或实施为独立的软件以用于分析。

S108：计算针对新图像的深度神经网络预测。

S109：通过执行以下步骤来决定具体的新图像是不是异常图像：

S109a：计算用于在S105中拟合潜变量模型的层的激活值。任选地，可以应用全局池化；

S109b：使用来自S109a的激活值和S105中的潜变量模型来计算到距离的模型；

S109c：将来自S109b的距离与来自S106的阈值距离进行比较；

i.如果S109c的距离大于S106中的阈值，则新图像被认为是异常值。随后采取应用特定动作。例如，可以警告最终用户在继续进行之前手动地分析异常值。可以忽视来自S108的深度神经网络预测并丢弃异常图像。

ii.如果S109c的距离不大于S106中的阈值，则新图像不被认为是异常值并且接受来自S108的预测。

变型

在以上示例的一些中，使用卷积神经网络(CNN)。然而，深度神经网络100不限于卷积神经网络，而可以是任何类型的神经网络，例如递归神经网络、循环神经网络、变换器神经网络等。

在以上示例的一些中，将来自单个隐藏层的激活值用于执行异常值检测。

在一些其他示例中，可以将来自两个或更多个隐藏层的激活值用于执行异常值检测。例如，为了避免选择将哪个层用于异常值检测的困难，可以使用高斯核密度估计将来自所有(隐藏)层的测量组合，这已经被用来检测异常值(参见例如L.J.Latecki、A.Lazarevic和D.Pokrajac，“Outlier Detection with Kernel Density Functions”，模式识别中的机器学习和数据挖掘，2007年，第61至75页；E.Schubert、A.Zimek和H.Kriegel，“GeneralizedOutlier Detection with Flexible Kernel Density Estimates”，2014年SIAM国际数据挖掘会议的会议录，第0卷，工业和应用数学学会，2014年，第542至550页)。可以针对训练集马氏距离和残差平方和单独地计算核密度估计，但将所有层进行组合。可以根据得到的核密度函数使用蒙特卡罗积分来近似每个图像的概率。可以按与上述实验相同的方式评估异常值检测性能。

在其他示例中，在对若干个嵌入项(例如，来自若干层的激活值)进行积分时，可以使用包装方法(参见例如A.Lazarevic和V.Kumar，“Feature Bagging for OutlierDetection”，in Proceedings of the第十一届ACM SIGKDD国际数据挖掘中的知识发现会议的会议录，纽约，NY，USA，2005年，第157至166页)，而不是直接核密度。

此外，有可能对所学习的表示使用其他方法、GMM一类SMV、聚类等。

此外，在本文所述的各种实施例和示例中，代替使用诸如马氏距离的简单测量，可以在PCA空间中直接应用更局部的测量，诸如局部异常因子或LOF(参见例如M.M.Breunig、H.-P.Kriegel、R.T.Ng和J.Sander，“LOF:Identifying Density-based Local Outliers”，2000年ACM SIGMOD国际数据管理会议的会议录，纽约，NY，USA，2000年，第93至104页)。原则上，可以使用任何合适的距离度量或距离度量的组合，诸如到所建模的嵌入项的综合度量距离、平方和、局部异常因子等。

如上所述，可以存在如本文所述的方法和系统的各种应用。可能的应用之一可以是相显微镜图像分析。从相衬图像中识别核的任务具有挑战性并且典型地依赖于粘结到核的荧光标记，以提供突出核的位置的额外图像通道。通过应用深度CNN，可以生成并训练将背景与细胞分离并且在不使用荧光标签的情况下从相衬图像中识别细胞的核的模型。如果在来自多个细胞类型的相衬图像上训练CNN，那么CNN还可以识别新的先前未预见的细胞类型。为了确定未预见的细胞类型何时与用于CNN训练的细胞类型大有不同，可以应用预测时间异常值检测。如果来自新的细胞类型的相显微镜图像被检测为异常值，那么用户可能接收到以下警告：细胞和背景的CNN分离以及核的检测是不可靠的。在这种情况下，所提供的CNN系统可以发送CNN模型需要重新训练的信号，以便针对新细胞类型将细胞与背景可靠地分离并且从相衬图像中识别核。

硬件配置

图10示出了可以用于实施计算系统1的至少一部分和/或执行如上所述的方法的计算机的示例性硬件配置。图10所示的计算机7包括中央处理单元(CPU)70、图形处理单元(GPU)88、系统存储器72、网络接口74、硬盘驱动器(HDD)接口76、外部磁盘驱动器接口78以及输入/输出(I/O)接口80。计算机的这些部件经由系统总线82彼此耦合。CPU70可以通过访问系统存储器72来执行算术、逻辑和/或控制操作。GPU 88可以执行有关深度学习所需的图形图像和/或矩阵运算的处理。GPU 88可以包括多个处理器(例如，核心)，所述多个处理器可以执行并行处理，这可以导致计算系统1的更高性能。CPU 70和/或GPU 88可以实施上述示例性装置和/或系统的处理器。然而，在一些示例中，计算机7不一定包括GPU 88。系统存储器72可以存储信息和/或指令以便与CPU 70结合使用。系统存储器72可以包括易失性和非易失性存储器，诸如随机存取存储器(RAM)720和只读存储器(ROM)722。基本输入/输出系统(BIOS)可以存储在ROM中，该基本输入/输出系统包含有助于诸如在启动过程中在计算机7内的元件之间传送信息的基本例程。系统总线82可以是若干类型的总线结构中的任一种，包括存储器总线或存储器控制器、外围总线以及使用多种总线架构中的任一种的局部总线。CPU 70还可以经由一个或多个对应的接口(未示出)和总线82连接到一个或多个传感器(未示出)。传感器可以测量物理条件或状态，包括但不限于：温度、pH、压力等。另外地，传感器可以包括其他类型的测量或检测装置，包括但不限于，成像装置、麦克风、光谱传感器等。控制器可以控制物理条件或状态，包括但不限于：温度、磁通量、搅拌等。

计算机可以包括用于经由网络与其他计算机和/或装置通信的网络接口74。

此外，计算机可以包括用于从硬盘(未示出)读取和写入硬盘的硬盘驱动器(HDD)84以及用于从可移动磁盘(未示出)读取或写入可移动磁盘的外部磁盘驱动器86。可移动磁盘可以是用于磁盘驱动器的磁盘或用于光盘驱动器的光盘，诸如CD ROM。HDD 84和外部磁盘驱动器86分别通过HDD接口76和外部磁盘驱动器接口78连接到系统总线82。驱动器及其相关联的计算机可读介质提供计算机可读指令、数据结构、程序模块以及通用计算机的其他数据的非易失性存储。数据结构可以包括用于实施如本文所述的示例性方法及其变型的相关数据。相关数据可以组织在数据库中，例如关系型或对象数据库。

尽管本文所述的示例性环境采用硬盘(未示出)和外部磁盘(未示出)，但本领域技术人员应了解，示例性操作环境中也可以使用可以存储可由计算机访问的数据的其他类型的计算机可读介质，诸如磁带盒、闪存卡、数字视频盘、随机存取存储器、只读存储器等。

许多程序模块可以存储在硬盘、外部磁盘、ROM 722或RAM 720上，包括操作系统(未示出)、一个或多个应用程序7202、其他程序模块(未示出)以及程序数据7204。应用程序可以包括如上所述的功能性的至少一部分。

计算机7可以经由对应的I/O接口80a和80b以及系统总线82连接到输入装置92(诸如鼠标和/或键盘)以及显示装置94(诸如液晶显示器)。在计算机7被实施为平板计算机的情况下，例如，显示信息并接收输入的触控面板可以经由对应的I/O接口和系统总线82连接到计算机7。此外，在一些示例中，尽管图18中未示出，但计算机7还可以经由对应的I/O接口和系统总线82连接到打印机和/或成像装置，诸如相机。

除了使用如图18所示的计算机7的实现方式外或作为替代，本文所述的示例性实施例的功能的一部分或全部可以被实施为一个或多个硬件电路。此类硬件电路的示例可以包括但不限于：大规模集成(LSI)、精简指令集电路(RISC)、专用集成电路(ASIC)以及现场可编程门阵列(FPGA)。

下面是可以使用上述各种方面和示例的一些典型情形：

-具有细胞成像平台的实验室。基于深度学习的软件耦合到成像平台，该软件执行细胞和背景的分割以及细胞核的检测。在非常大的范围内收集图像，这意味着无法手动地控制每个图像。由于例如成像技术的问题，对于一些图像，细胞成像平台可能未能使细胞在焦点中。可以是基于深度学习的软件的一部分的异常值检测模块检测到这些离焦图像存在一些问题并且向用户(例如，操作者)发出相应的警告。可以向用户展示有问题的图像，该用户然后可以采取相应的动作，例如将它们从分析中移除。还可能的是自动地将有问题的图像从分析中移除。在没有异常值检测模块的情况下，将不能检测出图像的问题，这可能潜在地导致错误的分析。

-具有如上所述的细胞成像和基于深度学习的软件的实验室。在一组不同的细胞类型上训练基础的深度学习模型。现在，用户想要分析新的先前未使用的细胞类型的图像。异常值检测模块允许深度学习模块进行检测，并且在新细胞类型与在训练期间使用的细胞类型太过不同时允许系统警告用户以便安全地使用。

术语表

ASIC 专用集成电路

BIOS 基本输入/输出系统

CD ROM 光盘只读存储器

CNN 卷积神经网络

CPU 中央处理单元

DNN 深度神经网络

GPU 图形处理单元

FPGA 现场可编程门阵列

HDD 硬盘驱动器

HTTP 超文本传送协议

I/O 输入/输出

LSI 大规模集成

LOF 局部异常因子

MC-丢弃蒙特卡罗丢弃

PCA 主成分分析

RAM 随机存取存储器

ReLu/Relu 修正线性单元

RISC 精简指令集电路

ROC-AUC 受试者操作特性曲线下面积

ROM 只读存储器

RSS 残差平方和

SSH 安全外壳

Claims

1.一种用于细胞图像的分析的计算机实现的方法，其包括：

获得深度神经网络(100)和用于训练所述深度神经网络的训练数据集的至少一部分，所述深度神经网络包括多个隐藏层并通过使用所述训练数据集进行训练，所述训练数据集包括能够输入到所述深度神经网络的多个可能细胞图像；

获得从所述多个隐藏层中的至少一个输出的第一中间输出值集，通过输入所述训练数据集的所述至少一部分中包括的所述可能细胞图像中的不同一者来获得所述第一中间输出值集中的每一个；

使用所述第一中间输出值集来构建/拟合潜变量模型，所述潜变量模型提供所述第一中间输出值集到子空间中的第一投影值集的映射，所述子空间具有低于所述中间输出集的维度的维度；

接收要输入到所述深度神经网络的新细胞图像；

将所述潜变量模型和所述第一投影值集存储在存储介质中。

2.一种计算机实现的方法，其包括：

接收要输入到深度神经网络(100)的新细胞图像，所述深度神经网络具有多个隐藏层并且使用训练数据集进行训练，所述训练数据集包括能够输入到所述深度神经网络的可能细胞图像；

获得通过将接收到的所述新细胞图像输入到所述深度神经网络而从所述深度神经网络的所述多个隐藏层中的至少一个输出的第二中间输出值集；

使用存储在所述存储介质中的潜变量模型来将所述第二中间输出值集映射到第二投影值集；以及

基于所述潜变量模型和所述第二投影值集来确定接收到的所述新细胞图像相对于所述训练数据集是否为异常值，

其中通过以下操作来构建存储在所述存储介质中的所述潜变量模型：

获得从所述深度神经网络的所述多个隐藏层中的所述一个输出的第一中间输出值集，通过输入所述训练数据集的所述至少一部分中包括的所述可能细胞图像中的不同一者来获得所述第一中间输出值集中的每一个；以及

使用所述第一中间输出值集来构建所述潜变量模型，所述潜变量模型提供所述第一中间输出值集到所述潜变量模型的子空间中的第一投影值集的映射，所述子空间具有低于所述中间输出集的维度的维度。

3.根据权利要求1所述的用于细胞图像的分析的计算机实现的方法，其还包括：

获得通过将接收到的所述新细胞图像输入所述深度神经网络而从所述深度神经网络的所述多个隐藏层中的所述至少一个输出的第二中间输出值集；

使用所述潜变量模型来将所述第二中间输出值集映射到第二投影值集；以及

基于所述潜变量模型和所述第二投影值集来确定接收到的所述新细胞图像相对于所述训练数据集是否为异常值。

4.根据权利要求2或3所述的方法，其中确定接收到的所述新细胞图像是否为异常值的步骤包括：

相对于所述第一投影值集的分布来确定所述第二投影值集的距离；以及

如果所计算的距离大于所确定的距离的阈值，则确定接收到的所述新细胞图像相对于所述训练数据集是异常值。

5.根据权利要求4所述的方法，其中基于距离来确定所述距离的所述阈值，所述距离中的每一个是相对于所述第一投影值集的所述分布而针对所述第一投影值集中的不同一者计算的。

6.根据权利要求4或5所述的方法，其中所述距离是综合距离、残差平方和、马氏距离或局部异常因子中的一个。

7.根据权利要求2至6中任一项所述的方法，其中确定接收到的所述新细胞图像是否为异常值的步骤包括：

使用所述潜变量模型和所述第二投影值集来确定与所述第二中间输出值集相对应的中间输出值的近似集；

计算所述第二中间输出值集和所述中间输出值的近似集的平方近似残差；以及

如果所计算的平方近似残差大于所述平方近似残差的阈值，则确定接收到的所述观测值相对于所述训练数据集是异常值。

8.根据权利要求7所述的方法，其中基于平方近似残差来确定所述平方近似残差的所述阈值，所述平方近似残差中的每一个是针对所述第一中间输出值集中的不同一者和与所述第一中间输出值集中的所述一者相对应的中间输出值的近似集计算的。

9.根据前述权利要求中任一项所述的方法，其中针对所述多个隐藏层中的两个或更多个来执行获得所述第一中间输出值集和构建所述潜变量模型的步骤；

其中关于所述多个隐藏层中的所述两个或更多个来执行获得所述第二中间输出值集和将所述第二中间输出值集映射到所述第二投影值集的步骤；以及

其中基于所述潜变量模型以及关于所述多个隐藏层中的所述两个或更多个获得的所述第二投影值集来执行确定接收到的所述新细胞图像是否为异常值的步骤。

10.根据前述权利要求中任一项所述的方法，其中获得从所述深度神经网络的所述多个隐藏层中的至少一个输出的所述中间输出值的步骤包括：确定来自所述多个隐藏层中的所述至少一个的激活值，以及任选地在所确定的激活值上应用全局池化。

11.根据前述权利要求中任一项所述的方法，其中根据主成分分析或使用自动编码器来构建所述潜变量模型。

12.根据前述权利要求中任一项所述的方法，其还包括：

通过所述深度神经网络来计算针对所述新细胞图像的预测；以及

如果所述新细胞图像被确定为异常值，则丢弃所述预测；以及

如果所述新细胞图像被确定为不是异常值，则接受所述预测。

13.一种计算机程序产品，其包括计算机可读指令，所述计算机可读指令在加载在计算机上并运行时致使所述计算机执行根据权利要求1至12中任一项所述的方法。

14.一种用于数据分析的系统，所述系统包括：

存储介质(12)，所述存储介质存储用于训练深度神经网络(100)的训练数据集，所述深度神经网络包括多个隐藏层并且使用所述训练数据集进行训练，所述训练数据集包括能够输入到所述深度神经网络的可能细胞图像；以及

处理器，所述处理器被配置为执行根据权利要求1至13中任一项所述的方法。