CN110688891A

CN110688891A - 采用3d批归一化的三维（3d）卷积

Info

Publication number: CN110688891A
Application number: CN201910749196.7A
Authority: CN
Inventors: R·佐赫尔; 熊蔡明; 戴凯升
Original assignee: Easy To Enjoy Information Technology Co Ltd
Current assignee: Easy To Enjoy Information Technology Co Ltd
Priority date: 2015-08-15
Filing date: 2016-08-15
Publication date: 2020-01-14
Anticipated expiration: 2036-08-15
Also published as: JP2018531648A; US20190213482A1; US11416747B2; CA2994713C; AU2018229500A1; EP3335158A1; EP3335158B1; JP2021093178A; EP3582151A1; JP6450053B2; CN110688891B; AU2016308097B2; JP7094407B2; US20170046616A1; WO2017031088A1; US10282663B2; CN108140141B; AU2016308097A1; CN108140141A; JP2019061710A

Abstract

所公开的技术使用配备有所谓子网络模块的3D深度卷积神经网络体系架构(DCNNA)，其在3D放射体经受计算昂贵的操作之前对3D放射体执行降维操作。此外，子网络通过使3D数据经受不同的3D卷积层路径的并行处理而以多尺度卷积3D数据。这种多尺度操作在计算上比传统的执行串行卷积的CNN便宜。此外，通过3D批归一化(BN)进一步提高子网络的性能，所述3D批归一化将馈送到子网络的3D输入归一化，这反过来又提高了3D DCNNA的学习速率。在跨越一系列子网络模块进行几层3D卷积和3D子采样之后，从3D放射体生成具有降低垂直维度的特征图谱并且馈送到一个或更多个全连接层。

Description

采用3D批归一化的三维(3D)卷积

本申请是2016年8月15日提出的第201680053094.6号中国专利申请的分案申请。

优先权申请

本申请涉及并要求2015年8月15日提交的标题为“医学视觉系统(Medical VisionSystem)”的美国临时专利申请62/205,718(代理人案号SALE 1165-1/2021PR)的权益。出于所有目的，该优先权临时申请通过引用并入本文。

技术领域

公开的技术总地涉及在对3D深度卷积神经网络体系架构(DCNNA)内部的三维(3D)数据进行处理期间改进对计算资源(诸如，计算能力和存储器使用)的利用，并且具体地，涉及在卷积神经网络(CNN)中执行计算高效的3D图像分类和对象识别。

背景技术

本节中讨论的主题不应仅由于在本节中提到而被认为是现有技术。同样地，在本节中提及的问题或与作为背景提供的主题相关联的问题不应当被认为是先前在现有技术中已经认识到的。本节中的主题仅仅表示不同的方法，其本身也可以对应于所要求保护的技术的实现。

所公开的技术使得在大数据场景中(诸如医学成像)利用卷积神经网络(CNN)是可行的，其中需要用有限的存储器和计算能力来处理大量的数据。现有的深度卷积神经网络(CNN)的一个主要技术问题是对显著计算资源的需求。所公开的技术通过在3D深度卷积神经网络体系架构(DCNNA)内添加所谓的子网络来解决该技术问题，其在3D数据经受计算昂贵的操作之前对3D数据执行降维操作。此外，子网络通过使3D数据经受由不同的3D卷积层路径(例如，1×1×1卷积，3×3×3卷积，5×5×5卷积，7×7×7卷积)进行并行处理而以多尺度卷积3D数据。这种多尺度操作在计算上比执行串行卷积的传统CNN便宜。另外，通过3D批归一化(BN)进一步提高子网络的性能，所述3D批归一化使馈送到子网络的3D输入归一化，这反过来提高了3D DCNNA的学习速率。

机器学习是人工智能(AI)领域内的研究领域，其在计算机没有被明确编程的情况下给予其学习能力。与静态编程相反，机器学习使用对某些数据进行训练的算法来进行与该数据或其他数据相关的预测。深度学习是机器学习的一种形式，它通过对数据的低级分析的层来对数据进行高级抽象建模。最近，CNN在图像分类和对象识别方面取得了重大进展。通过训练多层卷积滤波器，许多机器学习工具(如支持向量机(SVM)、PCA、线性判别分析(LDA)、贝叶斯人际分类器等)的泛化能力随着训练量的增加迅速趋于饱和。但是，与传统机器学习算法相比，CNN在不同时间采用大量不同的图像训练时已显示出更好的表现。与手工制作的特征相比，CNN能够自动学习用于对象识别的复杂特征，并且实现卓越的性能。

然而，CNN需要大量的训练数据，没有这些训练数据，网络不能学习和交付令人印象深刻的识别性能。训练如此庞大的数据需要巨大的计算资源，例如数千个CPU核和/或GPU，这使得CNN的应用受到限制，并且不能扩展到移动和嵌入式计算。因此，需要提高分析大数据的计算资源的性能的CNN体系架构。

附图说明

在附图中，纵观不同的视图，相似的附图标记通常指代相似的部分。而且，附图不一定按比例绘制，而是通常将重点放在说明所公开的技术的原理上。在以下描述中，参考以下附图来描述所公开的技术的各种实现方式，其中：

图1示出了根据实现方式的系统的体系架构级的示意图。

图2示出了所公开的技术的一种实现方式的3D DCNNA内的子网络的框图，其详细示出了多尺度3D卷积层路径和3D池化操作。

图3是具有多个子网络以及预处理层和后处理层的示例性3DDCNNA。

图4A示出了应用于来自前面的子网络的3D输入以生成归一化3D输入的3D批归一化(BN)操作的一种实现方式。

图4B示出3D批归一化(BN)操作的一种实现方式，其将单独的学习非线性激活应用于归一化3D输入以缩放和转移3D输出，用于由后面的子网络处理。

图5示出了使用多个子网络和3D批归一化层的组合的3D DCNNA的框图。

图6描绘了示例性3D DCNNA的一种实现方式。

图7示出了由3D DCNNA使用的、人脑医学扫描的3D放射体形式的灰阶3D输入数据的示例。

图8示出了由3D DCNNA使用的、人脑医学扫描的3D放射体形式的彩色3D输入数据的示例。

图9是3D DCNNA用于基于从人脑医学扫描生成的3D放射体来检测人脑中的颅内出血(IH)结构的用例的一种实现方式。

图10描绘了回溯图7中所示的3D输入数据以基于3D DCNNA的输出来确定对该输出的计算最有贡献的3D输入数据的特征的一种实现方式。

图11示出了准确率-召回率(precision-recall)曲线，以展示未使用所公开的DCNNA的3D CNN的实验结果的一种实现方式。

图12描绘了准确率-召回率曲线，以展示使用所公开的DCNNA的3D CNN的实验结果的一种实现方式。

图13是在深度神经网络中卷积3D数据的代表性方法。

图14示出了在深度神经网络中卷积3D数据的另一个过程。

图15是根据所公开的技术的一个或更多个实现方式的适用于与图1的系统集成的示例性多租户(multi-tenant)系统的框图。

具体实施方式

简介

以下详细描述参照附图进行。描述样本实现方式来说明所公开的技术，而不是限制其范围，该范围由权利要求限定。本领域的普通技术人员将认识到以下描述的各种等同变体。

讨论被组织如下。首先，将呈现描述由各种实现方式解决的一些问题的介绍。然后，将在体系架构级上讨论一种实现方式的高级描述。接下来，讨论由一些实现方式用于有效处理3D数据的算法。最后，讨论用于实现该系统以及3D数据的例子、应用所公开的3D深度卷积神经网络体系架构(DCNNA)的样本用例、一些实验结果、处理以及与多租户环境的集成的更详细的体系架构。

在CNN中处理3D伴随着参数数量的增加以及显著的存储器和计算需求。传统CNN通过结合数据编码和解码，从一组具有标量或矢量体素(voxel-wise)信号的输入3D图像中提取特征图谱。输入图像通过将每个固定的体素邻域映射到隐藏层中的矢量特征空间进行编码，并且在输出层中重构回原始图像空间。为了提取捕获输入数据变化的特征模式的特征，自编码器的训练采用反向传播和对特征空间的属性的约束来减少重构错误。然而，由于在输入(编码)和输出(解码)层中要评估的参数的数量快速增加，因此从具有矢量体素信号的3D图像中提取全局特征在计算上是昂贵的并且需要太大的训练数据集。

为了克服处理3D数据的计算负担，所公开的技术使用配备有所谓的子网络模块的3D深度卷积神经网络体系架构(DCNNA)，所述子网络模块在3D放射体经受计算昂贵的操作之前对3D放射体执行降维操作。另外，通过3D批归一化(BN)进一步提高子网络的性能，所述3D批归一化对馈送到子网络的3D输入进行归一化，这反过来提高了3D DCNNA的学习速率。在通过一系列子网络模块的3D内核(即，所学习的隐藏权重的矩阵)进行3D卷积和3D子采样的若干层之后，从3D放射体生成具有降低的垂直维度的特征图谱，并且将其馈送到一个或更多个全连接层(fully connected layer)。在全连接层计算之后，生成经分类或回归的输出。在一个示例性实施例中，3D DCNNA包括至少三个子网络模块，每个子网络模块后面跟着3D BN层、一些卷积层、子采样层和全连接层以及输出层。

由于对3D DCNNA的更深层的权重更新导致3D输入的连续变化分布以及相应的替代特征体表示或特征图谱，这阻碍了它们的权重的收敛。在一种实现方式中，在训练迭代处，权重更新导致权重方差的偏差，这样替代特征体表示在下一次迭代时被放大。此外，3D特征会使问题恶化，因为任何偏差都会基于层数呈指数放大。所公开的技术通过在DCNNA的隐藏层中采用3D批归一化(BN)技术来对此进行反击，所述3D批归一化允许在每个子网络处理步骤之后对DCNNA的非线性激活进行归一化，以便更好地保留所得到的替代特征体表示。在一种实现方式中，这种归一化的几何解释是，如果3D输入数据是多变量高斯，则在一些实现方式中，经变换的数据是具有零均值和一致协方差(identity covariance)的高斯。因此，BN通过提高学习率和使学习正规化来加速3D DCNNA的学习。

此外，医疗专业人员具有各种适当的医疗工作流程来解释3D医学图像并识别诊断测试中的异常。例如，对于每年的乳房X光检查，患者可由其主保健医师提供给放射门诊。该患者具有产生一组3D医学图像的乳房X光照片，例如X射线，并且现场专家可能对X射线进行初步审查以判定是否需要额外的视图或替换图像。然后X射线在电子系统中排队等待专家检查和为主保健医师写出诊断。患者等待她的主保健医师的电话，以获得乳房X光照片的结果。从乳房X光照片到结果，这个过程可能需要几个星期。所需要的是处理这样的3D医学图像的新过程，以缩短响应时间、减少诊断错误并且使非专业或没有经验的医疗专业人员能够以更高水平执行。

在医学视觉背景和3D数据中描述了根据所公开的实现方式的系统、装置和方法的示例。在其他实例中，所公开的技术可以应用于信息技术、欺诈检测、电信系统、金融系统、证券交易、银行业务、商业智能、市场营销、采矿、能源等以及2D、3D、4D或nD数据。其他的服务是可能的，诸如以下的示例不应该被看作是限定性的或者是在范围、环境或者设置上进行限制的。

所公开的技术涉及在处理深度卷积神经网络体系架构内部的三维(3D)数据期间提高计算资源(诸如计算能力和存储器使用)的利用率。所公开的技术可以在包括按需数据库系统、多租户环境等的任何计算机实现的系统的环境中实现。另外，该技术可以使用两个或更多个彼此协作和通信的独立且不同的计算机实现的系统来实现。该技术可以以多种方式来实现，包括实现为过程、方法、装置、系统、设备、计算机可读介质(诸如存储计算机可读指令或计算机程序代码的计算机可读存储介质)，或者实现为包括计算机可用介质的计算机程序产品，所述计算机可用介质具有包含于其中的计算机可读程序代码。

所公开的技术可以在包括数据库系统、多租户环境或相关数据库实现(如Oracle^TM兼容数据库实现、IBM DB2Enterprise Server^TM兼容关系数据库实现、MySQL^TM或PostgreSQL^TM兼容关系数据库实现或Microsoft SQL Server^TM兼容关系数据库实现)或NoSQL非关系数据库实现(诸如Vampire^TM兼容非关系数据库实现、Apache Cassandra^TM兼容非关系数据库实现、BigTable^TM兼容非关系数据库实现或HBase^TM或DynamoDB^TM兼容非关系数据库实现)的任何计算机实现的系统的环境中实现。

另外，所公开的技术可以使用不同的编程模型(如MapReduce^TM、大量同步编程、MPI原语等)或不同的流管理系统(如Apache Storm^TM、Apache Spark^TM、Apace Kafka^TM、Truviso^TM、IBM Info-Sphere^TM、Borealis^TM和Yahoo！S4^TM。

系统概述

我们描述了用于在卷积神经网络(CNN)中执行计算高效的3D图像分类和对象识别的系统和各种实现方式。将参照图1描述该系统和过程，图1示出了根据实现方式的系统的体系架构级的示意图。由于图1是体系架构图，因此故意省略了某些细节以提高描述的清晰度。图1的讨论将安排如下。首先，将描述图中的元件，然后是它们的互连。然后，将更详细地描述系统中元件的使用。

图1包括系统100。系统100包括机器学习系统110、计算设备如平板电脑162、移动设备164和计算机166、训练数据存储176、测试数据存储186和网络160。机器学习系统110包括测试器112、训练器122、深度学习网络132和3D卷积神经网络(CNN)142。

现在将描述系统100的元件的互连。网络160将平板电脑162、移动设备164、计算机166、训练数据存储176、测试数据存储186和机器学习系统110通信地(由实线表示)耦合。实际的通信路径可以是公共和/或专用网络上的点对点。一些项目(如测试数据)可例如经由应用程序商店(未示出)间接交付。通信可以发生在各种网络上，例如专用网络、VPN、MPLS电路或因特网，并且可以使用适当的API和数据交换格式，例如REST、JSON、XML、SOAP和/或JMS。通信可以被加密。该通信通常通过网络(诸如LAN(局域网)、WAN(广域网)、电话网络(公共交换电话网络(PSTN)、会话发起协议(SIP)、无线网络、点对点网络、星形网、令牌环网、枢纽网、互联网(包括移动互联网))经由协议(诸如EDGE、3G、4G LTE、Wi-Fi、WiMAX)。此外，多种授权和认证技术(诸如用户名/密码、OAuth、Kerberos、SecureID、数字证书等)可以用于确保通信。

3D卷积神经网络(CNN)

已经描述了图1的元件及其互连，现在将更详细地描述图中的元件。机器学习系统110经由测试器112和训练器122提供各种功能。训练器122通过最小化成本函数来训练3D卷积神经网络(CNN)142。在一种实现方式中，使用依赖于反向传播算法来估计梯度的随机梯度下降(SGD)使成本函数最小化。在一些实现方式中，训练器122使用SGD来基于从具有给定批大小(batch size)的小批(mini-batch)估计的梯度执行迭代更新，其中更新发生在每个小批之后。在一种实现方式中，每个梯度更新进一步通过基于矩(moment)的学习规则来增强，其基于正向传播期间由成本函数确定的3D CNN 142的误差值将3D CNN 142的各种参数更新为当前梯度和先前迭代更新的梯度的加权组合。

为了训练3D CNN 142，使用来自训练数据存储176的3D数据。在一种实现方式中，训练数据存储176由提供3D CNN 142作为服务或产品的第一商业实体维护和使用。在另一种实现方式中，训练数据存储176由第一商业实体与第二商业实体(例如，中间商)合作填充，第二商业实体应用由第一商业实体开发的3D CNN 142来解决商业或技术问题。在又一种实现方式中，训练数据存储176使用由终端用户提供或生成的数据(例如，众包)填充。在一种实现方式中，3D CNN 142充当具有医疗视觉焦点的学习系统，其以最新的精确度和可靠性执行计算机视觉任务。该医学视觉系统使用由医学专业人员标记的示例进行训练，然后被部署为基于成像数据辅助识别和诊断某些医学问题。在训练期间，将由适当的医学专业人员表征为包含健康和/或异常元素的3D医学图像和/或图像部分提供给深度学习医学视觉系统。

在一种实现方式中，训练数据由一个或更多个图像或图像组组成。在一种实现方式中，图像或图像组中的每一个与一个或更多个附加信息片相关联。在一些实现方式中，附加信息片包括图像或图像组的标签。在一种实现方式中，训练数据是计算机断层摄影(CT)扫描的一组标记组。其他实现方式包括其他图像类型，包括超声波、磁共振成像(MRI)图像。

3D医学图像可以包含各种主题，例如眼底照相，例示各种健康和异常的眼睛。眼底图像可以有各种格式。可能的眼部异常包括糖尿病性视网膜病变、视神经乳头水肿和动脉高血压的眼科表现以及其他眼睛异常。其他3D医学图像可能包括其他主题。例如，可能的CT扫描包括颅脑CT扫描，其包含各种健康和异常的主题。例如颅脑CT扫描异常可能表现为颅内出血、硬膜外血肿、硬膜下血肿、脑实质内出血、脑室内出血、蛛网膜下腔出血、脑室扩张/移位、脑池异常、肿块/质量效应、普通水肿证据、脓肿、指示缺血性梗塞的凝块、颅骨骨折和高密度大脑中动脉(MCA)中的一个或更多个。相同区域或其他区域的其他3D医学图像可能会显示其他异常主题，如肺部或心脏异常，例如肺栓塞。

在一些实现方式中，训练数据可以由3D CNN 142处理。图像处理包括一个或更多个操作以操纵训练数据图像内的数据。图像处理的示例包括将训练数据归一化为特定尺寸或数量的像素或体素、粒度级别、图像格式等。在一种实现方式中，图像处理可以包括将训练数据重新缩放到特定尺寸以满足尺寸阈值或像素数量或者体素数量或者体素强度或粒度级别，以及把训练数据集中于特定类型的内容上或者使训练数据朝向特定或者一致的方向。

在一些实现方式中，图像处理包括创建三维(3D)体的二维(2D)拼贴(collage)，允许训练数据图像的二维(2D)处理。在一种实现方式中，图像处理包括选择三维(3D)体的子集。在一些实现方式中，3D医学图像可以由多个相关图像缝合在一起。在一些实现方式中，可以从多于一个的医学图像创建拼贴。

一旦在训练期间学习了来自训练数据存储176的3D CNN 142的所有参数，则3DCNN 142准备好从测试数据进行图像分类和对象识别。在一种实现方式中，测试数据是存储在测试数据存储186中的3D数据。在测试期间，测试器112执行3D CNN 142，其对3D输入数据进行预测而不进行完全反向传播(full back propagation)。在图像分类的情况下，在测试时间，3D输入数据通过3D CNN 142的各种卷积层、子网络、批归一化层和池化层以生成特征图谱，其估计3D输入数据的后验概率(posterior probability)属于一个或更多个类别。在一种实现方式中，测试数据存储186由提供3D CNN 142作为服务或产品的第一商业实体维护和使用。在另一实现方式中，测试数据存储186由第一商业实体与第二商业实体(例如中间商)合作填充，第二商业实体应用由第一商业实体开发的3D CNN142来解决商业或技术问题。在又一实现方式中，测试数据存储186使用由终端用户提供的或使用终端用户生成的数据(例如，众包)来填充。

在系统100所示的一实现方式中，3D训练和测试数据被存储在NoSQL键值列存储分布式存储系统178和188(例如Cassandra^TM)中。Cassandra^TM中的3D数据分布在许多节点或商品服务器C1-C3上，可以使用基于Java、Scala、Ruby、Clojure或Python的API(例如Hector、Pelops、CQL、Thrift、Phpcassa、PyCassa等)进行连接。在其他实现方式中，3D训练和测试数据存储在Hadoop分布式文件系统(HDFS)(如Hadoop集群179和189)中。

3D数据/3D放射体

在一些实现方式中，3D训练和测试数据是体表示，每个点(x，y，z)被映射到离散体素坐标(i，j，k)。在一种实现方式中，3D输入数据具有设置为固定占用或表面曲率网格的D×D×D体素的体(例如，24×24×24、32×32×32、256×256×256、200×150×150、317×215×254、36×224×224)。在医学视觉背景下的一种实现方式中，3D训练和测试数据是3D放射体，其表示从医学扫描生成的人体器官结构的3D解剖形状变化。图7示出了由3D DCNNA使用的、人脑的医学扫描(例如，MRI、CT)的3D放射体形式的灰阶3D输入数据700的示例。图8示出由3D DCNNA使用的、人脑的医学扫描的3D放射体形式的彩色3D输入数据800的示例。在一种实现方式中，3D放射体700和800表示人脑的3D模型。在其他实现方式中，3D放射体700和800表示3D点云。在其他实现方式中，3D训练和测试数据的其他示例包括CAD(计算机辅助绘图)模型。

深度学习网络132在一个或更多个GPU上操作。深度学习网络132是通过堆叠多层人造神经元形成的前馈网络。每层都建模新的数据表示，其中神经元充当特征检测器。递归地，更深的神经元学习检测由前面的层检测到的那些形成的新特征。结果是越来越高级的特征检测器的层级。深度学习网络132进一步包括3D CNN 142，其也在至少一个GPU上操作。在一种实现方式中，3D CNN 142在一个或更多个客户端设备(例如平板电脑162、移动设备164和计算机166)的处理器上操作。

在一种实现方式中，3D CNN 142包括卷积层、子网络、3D批归一化层、池化层和全连接层。3D CNN 142使用所谓的3D接受域(receptive field)，其是固定大小的3D补丁(patch)或3D内核，以采用相同大小的补丁对3D输入数据/放射体计算卷积。在一种实现方式中，设置步幅以确保3D放射体和中间特征图谱中的每个体素被覆盖以生成输出特征图谱。在一些实现方式中，在卷积操作之后，使用中间特征图谱完成子采样，以减小尺寸并防止重复计算。在一些实现方式中，全连接层被用于级联(concatenate)多维特征图谱并且将特征图谱变为固定尺寸的类别作为分类器。3D CNN142的层具有可训练参数，其权重在训练期间使用反向传播进行调整，如上所述。3D CNN 142中的单元使用某种形式的非线性激活，例如S形、整流线性激活(ReLU)或泄漏ReLU。在一些实现方式中，3D CNN 142的顶层使用softmax激活功能，其将3D输入映射到[0,1]。这允许将输出解释为概率和具有最高概率的体素的选择。

尽管在本文中参考特定框对系统100进行了描述，但是应该理解，框是为了描述的方便而定义的，并且不旨在要求组件部分的特定物理布置。此外，框不需要对应于物理上不同的组件。就使用物理上不同的组件而言，组件之间的连接(例如，用于数据通信)根据需要可以是有线和/或无线的。不同的元件或组件可以组合成单个软件模块，并且多个软件模块可以在同一硬件上运行。

子网络模块

图2示出了在所公开的技术的一种实现方式中的3D DCNNA(诸如3D CNN 142)内的子网络200A的框图200，详细示出了多尺度3D卷积层路径和3D池化操作。在一种实现方式中，子网络200A采用特征图谱作为输入，并且并行地应用从1×1×1卷积到3×3×3、5×5×5和7×7×7卷积变化的若干3D卷积层路径以及3D最大池化层(如3×3×3池)。此外，3D输入数据由子网络200A在多尺度210和214处处理。这意味着馈送到子网络200A作为输入的特征图谱首先由降维层212和3D最大池化层222在多尺度210处并行处理。进一步推进，由维度层212的1×1×1卷积得到的优化的特征图谱然后由不同的3D卷积层路径216(例如，1×1×1、3×3×3、5×5×5、7×7×7卷积)在多尺度214处并行处理。具有子网络200A的每个层或层路径生成不同的输出或特征图谱，其被级联成一个特征图谱作为级联层234处的最终输出。

降维层212和224被用于进行降维。例如，具有90个特征的36×224×224体素的3D输入与1×1×1的40个滤波器卷积会导致尺寸为40×36×224×224。在一种实现方式中，降维层还配备有非线性激活，诸如Sigmoid、ReLU或泄漏ReLU。如图2所示，在子网络200A内，3D输入不直接馈送到3D卷积层路径(诸如1×1×1、3×3×3、5×5×5和7×7×7卷积)中。相反，额外的1×1×1卷积被用作降维层212，以减少输入维度。此外，3D最大池化层222的输出被馈送到充当降维层224的附加1×1×1卷积中。

图3是具有以从最低到最高顺序布置的多个子网络200A、200B和200C以及预处理层310和后处理层320的示例性3D DCNNA 300(诸如3D CNN 142)。在一些实现方式中，前一个子网络(例如，子网络200A)的输出被用作下一个子网络的卷积和池化(例如，子网络200B)的输入。子网络200A、200B和200C中的每一个生成输入3D放射体的替代特征体表示或特征图谱。在一些实现方式中，3D输入数据/放射体经历一个或更多个预处理层310，诸如3D卷积311、2D卷积312、1D卷积313、3D池化操作314、2D池化操作315和1D池化操作316。在一些实现方式中，3D输入数据/放射体经历一个或更多个后处理层320，诸如3D卷积321、2D卷积322、1D卷积323、3D池化操作324、2D池化操作325和1D池化操作326。在一种实现方式中，在通过三个或更多个模块子网络200A、200B和200C处理3D输入数据和中间替代特征体表示或特征图谱之后，通过垂直池化层处理最高的模块子网络(诸如子网络200C)的输出，以从3D输入放射体生成降低的垂直维度的输出。

批归一化

由于3D CNN142的更深层的权重更新导致3D输入的连续变化的分布以及相应的替代特征体表示或特征图谱，这阻碍了它们的权重的收敛(convergence)。在一种实现方式中，在训练迭代处，权重更新导致权重方差的偏差，这样替代特征体表示在下一次迭代时被放大。此外，采用3D特征F1至Fn会使问题恶化，因为任何偏差都会基于层数呈指数放大。所公开的技术通过在隐藏层中采用3D批归一化(BN)技术来对此进行反击，该技术考虑在每个子网络处理步骤之后对3D CNN 142的非线性激活进行归一化，以便更好地保留所得到的替代特征体表示。在一种实现方式中，该归一化的几何解释是，如果3D输入数据是多变量高斯，则在一些实现方式中，变换的数据是具有零均值和同一协方差的高斯。因此，BN通过提高学习速度和使学习正规化来加速3D CNN 142的学习。

图4A示出了应用于来自先前子网络的3D输入以产生归一化3D输入的3D批归一化(BN)操作400A的一种实现方式。在图4A中，来自先前模块子网络的3D输入包括多个3D特征F1至Fn。在图4A中，特征F1至Fn的三个维度由符号

表示。在该步骤，将3D特征F1至Fn归一化为零均值和单位方差，然后在图4B中线性变换。平均值和方差在3D特征F1到Fn的每个维度计算，即通过示例而非来自训练数据集的小批(例如批1)的每个示例。在一些实现方式中，平均值和方差的运行平均值被保持，以用于在测试期间进行归一化。得到的归一化特征F1'至Fn'在图4A的右侧示出。

图4B示出3D批归一化(BN)操作400B的一种实现方式，其将单独的学习非线性激活应用于归一化3D输入以生成缩放和移位的(scaled and shifted)3D输出，以供后续子网络处理。在一种实现方式中，在先前子网络之后并紧接在随后的非线性激活之前引入3D BN层。在图4B中，归一化特征F1'至Fn'的三维由符号

表示。在该步骤，将经学习的非线性激活(例如，ReLU非线性(y＝max(0，x))应用于归一化3D特征F1'至Fn'，以生成缩放和移位的3D特征F1”至Fn”，其被用作后续子网络的输入表示。非线性激活在反向传播期间使用两个参数进行训练：缩放(scale)参数和移位(shift)参数。在3D BN的这个步骤中，在最后的反向通道中更新的非线性激活的缩放和移位参数被应用于图4A的归一化的3D输入。所得到的缩放和移位特征F1”到Fn”显示在图4B的右侧。

图5示出了3D DCNNA(诸如3D CNN 142)的框图500，其使用多个子网络和3D批归一化层的组合。在图5中，子网络200A、200B和200C中的每一个之后紧接着3D批归一化层，其对来自先前子网络(例如，子网络200A)的输出进行归一化，并将学习的非线性激活应用于归一化输出，以生成用于随后的子网络(例如，子网络200B)的挤压的(squashed)输入。

示例性深度CNN体系架构(DCNNA)

图6描绘了示例性3D DCNNA 600的一种实现方式。在高层次上，3D DCNNA 600包括三个主要部分：预处理层、模块子网络、3D批归一化(BN)层和后处理层。其他实现方式可以以不同顺序和/或与图6中所示出的不同的、更少或额外的动作执行卷积操作。在一些实现方式中可以组合多个卷积操作。

在图6中，3D输入数据首先由包括3D卷积层的预处理层处理，其后是1D最大池化层，后面是两个或更多3D卷积层和最终1D最大池化层。第一3D卷积层包含64个3D卷积核或尺寸为1×1×7×7的滤波器，这意味着一个特征在1×7×7体素上卷积。以下1D最大池化层的尺寸为1×3×3。如同第一3D卷积层，第二3D卷积层包含64个3D卷积核或滤波器，但是有64×1×7×7个。第三3D卷积层包含192个3D卷积核或尺寸为64×1×1×1的滤波器。预处理层中的最后一层是尺寸为1×3×3的1D最大池化层。

3D DCNNA 600遵循上文关于图2中的子网络200A描述的过程布局和流水线。3DDCNNA600的下一个组件是模块子网络A、B和C。所有子网络A、B和C都是3D模块，其使用具有3D卷积核或滤波器的3D卷积层路径，因为正在处理的数据是3D放射体。此外，每个子网络A、B和C包括至少一个降维层，其在它们被1×1×1、3×3×3、5×5×5卷积的3D卷积层路径处理之前，使用1×1×1卷积来降低输入替代特征表示或特征图谱的维度。此外，每个子网络A、B和C还采用3D最大池化层，其输出通过1×1×1卷积的额外降维进一步降低了维度。最后，在多个尺度下在每个子网络A、B和C中处理输入的替代特征表示，使得降维层和最大池化层并行地操作替代特征表示，并且降维层和最大池化层的输出还由不同的3D卷积层路径并行处理。

具体而言，子网络A包括64个3D卷积核或尺寸为192×1×1×1(1×1×1卷积)的滤波器，其用作降维层。子网络A还包括128个3D卷积核或尺寸为96×3×3×3(3×3×3卷积)的滤波器以及32个3D卷积核或尺寸为16×5×5×5(5×5×5卷积)的滤波器的两个3D卷积层路径，其以多尺度并行处理输入的特征图谱。这两个层路径的输入通过96个3D卷积核或尺寸为192×1×1×1(1×1×1卷积)的滤波器和16个3D卷积核或尺寸为192×1×1×1(1×1×1卷积)的滤波器的两个相应的降维层来减少。3D最大池化层的尺寸为3×3×3，并将其输出转发到另一个具有32个3D卷积核或尺寸为96×1×3×3的滤波器的3D卷积层路径。64个3D卷积核或尺寸为192×1×1×1(1×1×1卷积)的滤波器的输出，128个3D卷积核或尺寸为96×3×3×3(3×3×3卷积)的滤波器和32个3D卷积核或尺寸为16×5×5×5(5×5×5卷积)的滤波器的两个3D卷积层路径，以及具有32个3D卷积核或尺寸为96×1×3×3的滤波器的3D卷积层路径被级联以产生256个特征。

具体而言，子网络B包括128个3D卷积核或尺寸为256×1×1×1(1×1×1卷积)的滤波器，其用作降维层。子网络B还包括192个3D卷积内核或尺寸为128×3×3×3(3×3×3卷积)的滤波器和96个3D卷积核或尺寸为32×5×5×5(5×5×5卷积)的滤波器的两个3D卷积层路径，其以多尺度并行处理输入的特征图谱。这两个层路径的输入通过128个3D卷积核或尺寸为256×1×1×1(1×1×1卷积)的滤波器和32个3D卷积核或尺寸为256×1×1×1(1×1×1卷积)的滤波器的两个相应的降维层来减少。3D最大池化层的尺寸为3×3×3，并将其输出转发到另一个具有64个3D卷积核或尺寸为256×1×3×3的滤波器的3D卷积层路径。128个3D卷积核或尺寸为256×1×1×1(1×1×1卷积)的滤波器的输出，192个3D卷积核或尺寸为128×3×3×3(3×3×3卷积)的滤波器和96个3D卷积核或尺寸为32×5×5×5(5×5×5卷积)的两个3D卷积层路径，以及具有64个3D卷积核或尺寸为256×1×3×3的滤波器的3D卷积层路径被级联以产生480个特征。

具体而言，子网络C包括64个3D卷积核或尺寸为480×1×1×1(1×1×1卷积)的滤波器，其用作降维层。子网络B还包括128个3D卷积核或尺寸为96×3×3×3(3×3×3卷积)的滤波器和32个3D卷积核或尺寸为16×5×5×5(5×5×5卷积)的滤波器的两个3D卷积层路径，其以多尺度并行处理输入的特征图谱。这两个层路径的输入通过96个3D卷积核或尺寸为480×1×1×1(1×1×1卷积)的滤波器和16个3D卷积核或尺寸为480×1×1×1(1×1×1卷积)的滤波器的两个相应的降维层来减少。3D最大池化层的尺寸为3×3×3，并将其输出转发到另一个具有32个3D卷积核或尺寸为480×1×3×3的滤波器的3D卷积层路径。64个3D卷积核或尺寸为480×1×1×1(1×1×1卷积)的滤波器的输出，128个3D卷积核或尺寸为96×3×3×3(3×3×3卷积)的滤波器和32个3D卷积核或尺寸为16×5×5×5(5×5×5卷积)的两个3D卷积层路径，以及具有32个3D卷积核或尺寸为480×1×3×3的滤波器的3D卷积层路径被级联。

3D DCNNA 600还紧紧跟随每个具有3D批归一化层的子网络A、B和C，其使得子网络A、B和C的各自级联的输出经历归一化以及每个维度上的非线性挤压。后处理层包含尺寸为1×3×3的1D最大池化层和沿z轴的最大池化卷积。最终的替代特征表示尺寸为12544×1，其进一步被缩小为2×1。

颅内出血(IH)用例

图9是用例900的一种实现方式，其中3D DCNNA被用于基于从人脑的医学扫描或成像902生成的3D放射体来检测人脑中的颅内出血(IH)结构。3D放射体(诸如CT扫描904)是人脑的扫描。机器学习系统110被训练以识别与人脑相关联的一种或更多种类型的异常的存在或不存在。在一些实现方式中，机器学习系统110被训练以识别单个异常。在一些实现方式中，机器学习系统110被训练以识别多于一种的异常，称为多类标记。在一些实现方式中，多于一种异常的识别来自机器学习系统110，其对多于一种异常进行协同训练。例如，人脑的异常可能包括识别出血、阿尔茨海默斑和缠结以及中风的证据。在该示例中，机器学习系统110的一种实现方式将人脑的图像分类为健康或异常，并且然后识别存在何种类型的异常：颅内出血(IH)、阿尔茨海默氏症和/或中风并将结果906转发到健康服务提供商908。

在该示例的另一实现方式中，机器学习系统110将人脑的输入3D放射体分类为异常，包括出血指示、可能的阿尔茨海默病的证据或中风的指示。在一些实现方式中，还提供了分类的置信度。在一些实现方式中，多于一种的分类具有用于每种分类的相关置信度。在另一实现方式中，机器学习系统110将图像分类为出血、阿尔茨海默病、中风或“正常”，使得在查看每种可能的异常和每种异常的相关置信度之后应用作为诊断的“正常”。在一些实现方式中，3D放射体属于人眼，并且机器学习系统110被训练以识别与人眼相关联的一种或更多种类型的异常。

因此，机器学习系统110减少了诊断严重医学状况所花费的时间，并且因此能够向患有严重医学状况的患者提供更及时的帮助。在一种实现方式中，机器学习系统110从3D放射体提供诊断。例如，存在颅内出血。在一种实现方式中，机器学习系统110提供来自3D放射体的指标，而不是实际的诊断。例如，3D放射体可以识别鼻窦和/或颅外血液中的液体，这两者都是颅骨骨折的指标。在一种实现方式中，机器学习系统110不会得出关于是否存在颅骨骨折的结论，而是基于图像数据来识别指标。在另一种实现方式中，机器学习系统110确实基于指标得出是否存在头骨骨折的结论。在一种实现方式中，机器学习系统110提供结论的置信区间以及指标。

在一些实现方式中，机器学习系统110基于其对3D放射体的分析结果来提供警报。在一些实现方式中，机器学习系统110提供与医学状况相关联的风险因素。例如，在一个实现方式中，机器学习系统110可以将置信度等级附加到在3D医学图像中发现的状况，作为未来异常的指标。

图10描绘了回溯1000图7中所示的3D输入数据/放射体，以基于3D DCNNA的输出来确定最有助于计算输出的3D输入数据/放射体的特征的一种实现方式。通过回溯1000，对计算输出贡献最大的3D输入数据的特征在图10中各个蓝色大脑图像内突出显示为白色结构。

图11示出了准确率-召回率(precision-recall)曲线1100，以展示未使用所公开的DCNNA的3D CNN的实验结果的一种实现方式。在准确率-召回率曲线1100中，准确率为90％，召回率为47％。图12描绘了准确率-召回率曲线1200，以演示使用所公开的DCNNA的3DCNN的实验结果的一种实现方式。在准确率-召回率曲线1200中，准确率为90％，召回率从47％增加到50％。

过程

图13是在深度神经网络中卷积3D数据的代表性方法1300。流程图1300可以至少部分用计算机或其他数据处理系统实现，例如通过配置为接收或检索信息、处理信息、存储结果和传送结果的一个或更多个处理器。其他实现方式可以以不同的顺序和/或以与图13中所示的那些动作不同的、更少或附加的动作来执行动作。在一些实现方式中可以组合多个动作。为了方便起见，参考执行方法的系统来描述该流程图。该系统不必是该方法的一部分。

在所公开的技术的该部分和其他部分中描述的方法可以包括以下特征和/或结合所公开的附加方法描述的特征中的一个或更多个。为了简明，本申请中公开的特征的组合不单独枚举，并且不针对每个基本特征组重复。读者将理解如何将这种方法中识别的特征容易地与被识别为实现方式(诸如系统概述、3D CNN、3D数据/3D放射体、子网络模块、批归一化、示例性DCNNA、IH用例等)的基本特征组相结合。

图13包括过程1300，其开始于动作1310，其中接收表征输入放射体的三维(3D)数据。在一些实现方式中，输入放射体是每个点(×，y，z)被映射到离散体素坐标(i，j，k)的体表示。在一种实现方式中，3D输入数据具有被设置为固定占用或表面曲率网格的D×D×D体素(例如，24×24×24、32×32×32、256×256×256、200×150×150、317×215×254、36×224×224)的体。从3D数据中提取的特征的数量被预置(prepend)，以形成F×D×D×D。传统上垂直切片的数量少于每个切片(slice)中的2D像素的数量，以使得放射科医师查看的图像数量易于管理。在医学视觉背景下的一种实现方式中，3D训练和测试数据是表示从医学扫描生成的人体器官结构的3D解剖形状变化的3D放射体。在一种实现方式中，输入放射体表示人脑的3D模型。在又一实现方式中，输入放射体表示3D点云。在其他实现方式中，输入放射体的其他示例包括CAD(计算机辅助绘图)模型。

过程1300在动作1320处继续，其中使用深度神经网络处理表征输入放射体的3D数据，以生成输入放射体的替代特征体表示。在一种实现方式中，深度神经网络包括多个子网络。在一种实现方式中，子网络以从最低到最高的序列布置，并且使用深度神经网络处理表征输入放射体的数据包括通过序列中的每个子网处理数据。在一种实现方式中，第一3D卷积层路径是3×3×3卷积，其从输入放射体中提取半全局特征。在一种实现方式中，第二3D卷积层路径是5×5×5卷积，其从输入放射体中提取全局特征。在一种实现方式中，第三3D卷积层路径是1×1×1卷积，其从输入放射体中提取局部特征。

在动作1330，三个或更多个子网络是模块子网络，并且每个模块子网络被配置为接收由该序列中的先前子网络生成的先前输出表示，如上所述。

在动作1340，三个或更多个子网络是模块子网络，并且每个模块子网络被配置为通过变化卷积体的至少三个并行3D卷积层路径处理先前输出表示，如上所述。

在动作1350，三个或更多个子网络是模块子网络，并且每个模块子网络被配置为通过并行3D最大池化路径进一步处理先前输出表示，如上所述。

在动作1360，三个或更多个子网络是模块子网络，并且每个模块子网络被配置为将3D卷积层路径和3D最大池化路径的输出级联，以生成来自每个模块子网络的输出表示，如上所述。

在动作1370处，由3D批归一化来调节子网络中的3D卷积层路径的输出表示，如上所述。在一种实现方式中，3D批归一化被独立地应用于替代特征体表示中的各个特征并且基于分批应用。在一种实现方式中，对于批中的替代特征值表示，3D批归一化缩放并移位图像数据值，使得归一化的替代特征体表示具有图像数据值的零均值和单位方差。

在动作1380处，该过程包括通过具有可学习的缩放和移位参数的参数化非线性激活立即处理归一化的替代特征体表示，通过可学习的缩放和移位参数训练深度神经网络可以抵消3D批归一化，如上所述。

在动作1390，该过程包括在通过三个或更多个模块子网络处理数据之后，通过垂直最大池化层处理最高模块子网络的输出，以从输入放射体生成降低垂直维度的输出，如上所述。

本部分中描述的方法的其他实现方式可以包括存储指令的非暂时性计算机可读存储介质，所述指令可由处理器执行以执行上述任何方法。本部分中描述的方法的又一实现方式可以包括系统，该系统包括存储器和一个或更多个处理器，所述处理器可操作为执行存储在存储器中的指令，以执行上述任何方法。

图14是在深度神经网络中卷积3D数据的代表性方法1400。流程图1400可以至少部分地用计算机或其他数据处理系统实现，例如通过配置为接收或检索信息、处理信息、存储结果和传送结果的一个或更多个处理器。其他实现方式可以以不同的顺序和/或采用与图14中所示的那些动作不同的、更少的或附加的动作来执行动作。在一些实现方式中，可以组合多个动作。为了方便起见，参考执行方法的系统来描述该流程图。该系统不必是该方法的一部分。

所公开的技术的该部分和其他部分中描述的方法可以包括以下特征和/或结合所公开的附加方法描述的特征中的一个或更多个。为了简明，本申请中公开的特征的组合不单独枚举，并且不针对每个基本特征组重复。读者将理解如何将这种方法中识别的特征容易地与被识别为实现方式(诸如系统概述、3D CNN、3D数据/3D放射体、子网络模块、批归一化、示例性DCNNA、IH用例等)的基本特征组相结合。

图14包括过程1400，其开始于动作1410，其中接收表征输入放射体的三维(3D)数据。在一些实现方式中，输入放射体是每个点(x，y，z)被映射到离散体素坐标(i，j，k)的体表示。在一种实现方式中，3D输入数据具有设置为固定占用或表面曲率网格的D×D×D体素(例如，24×24×24、32×32×32、256×256×256、200×150×150、317×215×254、36×224×224)的体。在医学视觉背景下的一种实现方式中，3D训练和测试数据是表示从医学扫描生成的人体器官结构的3D解剖形状变化的3D放射体。在一种实现方式中，输入放射体表示人脑的3D模型。在其他实现方式中，输入放射体表示3D点云。在其他实现方式中，输入放射体的其他示例包括CAD(计算机辅助绘图)模型。

过程1400在动作1420处继续，其中使用深度神经网络处理表征输入放射体的3D数据，以生成输入放射体的替代特征体表示。在一种实现方式中，深度神经网络包括多个子网络。在一种实现方式中，子网络以从最低到最高的序列布置，并且使用深度神经网络处理表征输入放射体的数据包括通过序列中的每个子网络处理数据。在一种实现方式中，第一3D卷积层路径是3×3×3卷积，其从输入放射体中提取半全局特征。在一种实现方式中，第二3D卷积层路径是5×5×5卷积，其从输入放射体中提取全局特征。在一种实现方式中，第三3D卷积层路径是1×1×1卷积，其从输入放射体中提取局部特征。

在动作1430，对于变化的卷积体的至少三个并行的3D卷积层路径，以卷积值的多尺度在降维层上处理先前输出表示，如上所述。

在动作1440，三个或更多个子网络是模块子网络，并且每个模块子网络被配置为通过变化卷积体的至少三个并行3D卷积层路径来处理先前输出表示，如上所述。

在动作1450，三个或更多个子网络是模块子网络，并且每个模块子网络被配置为通过并行3D最大池化路径进一步处理先前输出表示，如上所述。

在动作1460，三个或更多个子网络是模块子网络，并且每个模块子网络被配置为级联3D卷积层路径和3D池化路径的输出，以从每个模块子网络生成输出表示，如上所述。3D池化路径包括最大、最小或平均池化操作。

在动作1470，由3D批量归一化来调节子网络中的3D卷积层路径的输出表示，如上所述。在一种实现方式中，3D批归一化被独立地应用于替代特征体表示中的各个特征并且基于分批应用。在一种实现方式中，对于批中的替代特征值表示，3D批归一化缩放和移位图像数据值，使得归一化的替代特征体表示具有图像数据值的零均值和单位方差。

在动作1480处，该过程包括通过具有可学习的缩放和移位参数的参数化非线性激活立即处理归一化的替代特征体表示，通过可学习的缩放和移位参数训练深度神经网络可以抵消3D批归一化，如上所述。

在动作1490，该过程包括在通过三个或更多个模块子网络处理数据之后，通过垂直最大池化层处理最高模块子网络的输出，以从输入放射体生成降低垂直维度的输出，如上所述。

多租户集成

图15是根据所公开技术的一种或更多种实现方式的、适用于与图1的系统集成的示例性多租户系统的框图。图1的系统100可以使用多租户系统来实现。在这方面，图15呈现了根据一种或更多种实现方式的、适合于与图1的系统100集成的示例性多租户系统的概念框图。

一般来说，所示的图15的多租户系统1500包括服务器1502，其基于来自共同数据库1530的数据1532动态地创建和支持虚拟应用程序1528A和1528B，所述共同数据库1530在多个租户之间共享，在此可选地称为“多租户数据库”。根据需要，由虚拟应用程序1528A和1528B生成的数据和服务经由网络1545被提供给任意数量的客户端设备1540A和1540B。虚拟应用程序1528A和1528B在运行时(或按需)使用公共的应用程序平台1510适当地生成，其为订阅多租户系统1500的各个租户中的每一个安全地提供对数据库1530中的数据1532的访问。根据一个非限制性示例，多租户系统1500以按需多租户客户关系管理(CRM)系统的形式实现，其可以支持任何数量的多租户的认证用户。

如本文所使用的，“租户”或“组织”是指一组一个或更多个用户，其共享对多租户数据库1530内的数据的公共子集的访问。在这方面，每个租户包括一个或更多与该各个租户相关联、分配给该各个租户或以其他方式属于该各个租户的用户。换句话说，多租户系统1500内的每个各个用户与多租户系统1500所支持的多个租户中的特定租户相关联、分配给该特定租户或以其他方式属于该特定租户。租户可表示用户、用户部门、工作或法律组织，和/或为多租户系统1500内的特定用户组维护数据的任何其他实体。虽然多个租户可以共享对服务器1502和数据库1530的访问，但是从服务器1502提供给每个租户的特定数据和服务可以与提供给其他租户的安全隔离。因此，多租户体系架构允许不同的用户组共享功能和硬件资源，而不必共享属于其他租户或与其他租户相关联的任何数据1532。

多租户数据库1530是能够存储和管理与任何数量的租户相关联的数据1532的任何类型的储存库或其他数据存储系统。数据库1530可以使用任何类型的常规数据库服务器硬件来实现。在各种实现方式中，数据库1530与服务器1502共享处理硬件。在其他实现方式中，使用与服务器1502通信以执行本文描述的各种功能的单独的物理和/或虚拟数据库服务器硬件来实现数据库1530。在示例性实现方式中，数据库1530包括数据库管理系统或其他能够确定最佳查询计划的等同软件，其用于响应于由虚拟应用程序1528A或1528B发起或以其他方式提供的查询来检索数据1532的特定子集并将其提供给虚拟应用程序1528A或1528B的实例。可选地，多租户数据库1530在此可以被称为按需数据库，因为多租户数据库1530在运行时向由应用程序平台1510生成的按需虚拟应用程序1528A和1528B提供(或可用于提供)数据。

实际上，数据1532可以以任何方式组织和格式化以支持应用程序平台1510。在各种实现方式中，数据1532被适当地组织成相对少数量的大数据表，以维持半无定形的“堆”型格式。然后，数据1532可以按照特定虚拟应用程序1528A或1528B的需要进行组织。在各种实现方式中，使用任何数量的数据透视表(pivot table)1534建立常规数据关系，其根据需要建立索引、唯一性、实体之间的关系和/或传统数据库组织的其他方面。进一步的数据操纵和报告格式化通常在运行时使用各种元数据结构来执行。例如，通用数据目录(UDD)1536中的元数据可用于描述多租户共用的任意数量的表单、报告、工作流、用户访问权限、工作逻辑和其他构造。根据需要，特定于租户的格式化、功能和其他结构可以作为每个租户的特定于租户元数据1538A-和1538B维护。数据库1530被组织成相对无定形的，其中数据透视表1534和元数据1538A和1538B根据需要提供附加结构，而不是将数据1532强制为租户和应用程序共用的不灵活的全局结构。为此，应用程序平台1510适当地使用数据透视表1534和/或元数据1538A和1538B来生成虚拟应用程序1528A和1528B的“虚拟”组件，以从逻辑上获得、处理和呈现来自数据库1530的相对无定形的数据1532。

服务器1502使用一个或更多个实际和/或虚拟计算系统来实现，所述一个或更多个实际和/或虚拟计算系统共同提供用于生成虚拟应用程序1528A和1528B的动态应用程序平台1510。例如，服务器1502可以使用通常与常规网络通信、集群管理、负载均衡和其他特征相关联的、相互联合操作的实际和/或虚拟服务器的集群来实现。服务器1502与任何类型的常规处理硬件(诸如处理器1505、存储器1506、输入/输出特征1507等)一起操作。输入/输出特征1507通常表示到网络(例如，到网络1545或任何其他局域网、广域网或其他网络)、大容量存储、显示装置、数据输入装置等的一个或更多个接口。处理器1505可以使用任何合适的处理系统(诸如一个或更多个处理器、控制器、微处理器、微控制器、处理核心和/或其他分布在任何数量的分布式系统或集成系统(包括任何数量的“基于云的”系统或其他虚拟系统)上的计算资源)来实现。存储器1506表示能够存储用于在处理器1505上执行的编程指令的任何非暂时性短期或长期存储或其他计算机可读介质，其包括任何种类的随机存取存储器(RAM)、只读存储器(ROM)、闪存、磁或光学大容量存储等。计算机可执行编程指令，当由服务器1502和/或处理器1505读取和执行时，使得服务器1502和/或处理器1505创建、生成或以其他方式辅助应用程序平台1510和/或虚拟应用程序1528A和1528B，并且执行本文描述的一个或更多个附加任务、操作、功能和/或过程。应该注意的是，存储器1506表示这种计算机可读介质的一个合适的实现方式，并且可选地或附加地，服务器1502可以接收被实现为便携式或移动组件或应用程序平台的外部计算机可读介质并且与其协作，例如便携式硬盘驱动器、USB闪存驱动器、光盘等。

应用程序平台1510是生成虚拟应用程序1528A和1528B的任何类型的软件应用程序或其他数据处理引擎，所述虚拟应用程序1528A和1528B向客户端设备1540A和1540B提供数据和/或服务。在典型的实现方式中，应用程序平台1510使用任何种类的传统或专有操作系统1508获得对处理硬件1502的处理资源、通信接口和其他特征的访问。通常在运行时响应于从客户端设备1540A和1540B接收到的输入来生成虚拟应用程序1528A和1528B。对于所示的实现方式，应用程序平台1510包括批数据处理引擎1512、查询生成器1514、提供文本索引和其他搜索功能的搜索引擎1516以及运行时间应用程序生成器1520。这些特征中的每一个可以被实现为单独的过程或其他模块，并且许多等效实现方式可以根据需要包括不同的和/或附加的特征、组件或其他模块。

运行时间应用程序生成器1520响应于从客户端设备1540A和1540B接收到的特定请求而动态地构建和执行虚拟应用程序1528A和1528B。通常根据特定于租户的元数据1538来构建虚拟应用程序1528A和1528B，特定于租户的元数据1538描述特定应用程序1528A和1528B的特定表格、报告、界面和/或其他特征。在各种实现方式中，视情况而定，每个虚拟应用程序1528A和1528B生成动态网页内容，其可以被提供给浏览器或与其客户端设备1540A和1540B相关联的其他客户端程序1542A和1542B。

运行时间应用程序生成器1520适当地与查询生成器1514进行交互，以响应于由客户端设备1540A和1540B的用户发起或以其他方式由其提供的输入查询，根据需要从数据库1530有效地获取多租户数据1532。在典型的实现方式中，查询生成器1514考虑请求特定功能的用户的身份(以及用户的关联租户)，然后使用通用数据目录(UDD)1536、特定于租户的元数据1538、数据透视表1534和/或任何其他可用资源内的系统范围元数据来构建并执行对数据库1530的查询。因此，本示例中的查询生成器1514通过确保查询与授予发起请求的用户和/或租户的访问特权一致来维护公用数据库1530的安全性。以此方式，查询生成器1514根据需要从数据库1530适当地获得所请求的用户和/或租户可访问的数据1532的子集，以填充该用户和/或租户的特定虚拟应用程序1528A或1528B的表格、报告或其他特征。

仍然参考图15，数据处理引擎1512对数据1532执行批处理操作，例如上传或下载、更新、在线交易处理等。在许多实现方式中，数据1532的不紧急批处理可以被调度为在处理资源变得可用时发生，因此给予由查询生成器1514、搜索引擎1516、虚拟应用程序1528A和1528B等进行的更紧急的数据处理的优先权。

在示例性实现方式中，应用程序平台1510被用于为其支持的租户创建和/或生成数据驱动的虚拟应用程序1528A和1528B。这样的虚拟应用程序1528A和1528B可以利用界面特征，诸如定制(或特定于租户的)屏幕1524、标准(或通用)屏幕1522等。任何数量的定制和/或标准对象1526还可用于集成到租户开发的虚拟应用程序1528A和1528B中。如本文所使用的，“定制”应该被理解为意味着各自的对象或应用程序是特定于租户的(例如，仅可用于与多租户系统中的特定租户相关联的用户)或特定于用户的(例如，仅可用于多租户系统内的特定用户子集)，而“标准”或“通用”应用程序或对象可用于多租户系统中的多个租户。与每个虚拟应用程序1528A和1528B相关联的数据1532，连同描述特定虚拟应用程序1528A和1528B的特定特征(例如报告、表格、功能、对象、字段、公式、代码等)的元数据1538一起，被酌情提供给数据库1530并且被存储，直到它被请求或者以其他方式需要。例如，虚拟应用程序1528A和1528B可以包括可由租户访问的多个对象1526，其中对于租户可访问的每个对象1526，与其对象类型有关的信息以及与该各自对象类型相关联的各个字段的值作为元数据1538而被保持在数据库1530中。就这一点而言，对象类型定义每个各自对象1526和与其相关联的各个字段的结构(例如，格式化、功能和其他构造)。

继续参考图15，可以使用网络1545上的任何种类的个人计算机、移动电话、平板电脑或其他启用网络的客户端设备1540A或1540B来检索由服务器1502提供的数据和服务。在示例性实现方式中，客户端设备1540A或1540B包括能够以图形方式呈现从多租户数据库1530检索的数据和/或信息的显示装置，诸如监视器、屏幕或另一常规电子显示器。通常，用户操作由客户端设备1540A和1540B执行的常规浏览器应用程序或其他客户端程序1542，以使用网络协议(诸如超文本传输协议(HTTP)等)经由网络1545联系服务器1502。用户通常向服务器1502认证他或她的身份，以获得会话标识符(“SessionID”)，其在之后与服务器1502的通信中识别用户。当被识别的用户请求访问虚拟应用程序1528A或1528B时，运行时间应用程序生成器1520酌情基于元数据1538在运行时间适当地创建应用程序。如上所述，虚拟应用程序1528A或1528B可以包含Java、ActiveX或其他可以使用在客户端设备1540A或1540B上运行的传统客户端软件呈现的内容；根据需要，其他实现方式可以简单地提供动态网页或可由用户呈现和查看的其他内容。

前面的描述本质上仅仅是说明性的，并非旨在限制主题的实现方式或者这些实现方式的应用和使用。此外，不打算受到在技术领域、背景技术或详细描述中呈现的任何表达或暗示的理论的界定。如本文所使用的，词语“示例性”意味着“用作示例、实例或说明”。本文描述为示例性的任何实现方式不必被解释为比其他实现方式优选或有利，并且本文描述的示例性实现方式不旨在以任何方式限制主题的范围或适用性。

为了简明，与数据库、社交网络、用户界面以及系统的其他功能方面(以及系统的各个操作组件)有关的常规技术在本文可不被详细描述。另外，本领域的技术人员将认识到，可以结合任何数量的系统和/或网络体系架构、数据传输协议和设备配置来实践实现方式，并且本文描述的系统仅仅是一个合适的示例。此外，某些术语在本文中可能仅用于参考的目的，因此不旨在限制。例如，术语“第一”，“第二”和其他这样的数字术语并不暗示序列或顺序，除非上下文明确指出。

本文可以根据功能块和/或逻辑块组件并且参照可以由各种计算组件或设备执行的操作、处理任务和功能的符号表示来描述主题的实现方式。这种操作、任务和功能有时被称为计算机执行的、计算机化的、软件实现的或计算机实现的。实际上，一个或更多个处理系统或设备可通过操纵表示可访问存储器位置处的数据位的电信号以及信号的其他处理来执行所描述的操作、任务和功能。数据位被保持的存储器位置是具有与数据位相对应的特定电、磁、光或有机属性的物理位置。应该理解的是，附图中示出的各个块组件可以通过被配置为执行指定功能的任何数量的硬件、软件和/或固件组件来实现。例如，系统或组件的实现方式可以采用各种集成电路组件(例如存储器元件、数字信号处理元件、逻辑元件、查找表等)，其可以在一个或更多个微处理器或其他控制设备的控制下执行各种功能。当以软件或固件实现时，本文描述的系统的各种元件实质上是执行各种任务的代码段或指令。程序或代码段可以存储在处理器可读介质中，或者通过传输介质或通信路径由载波中包含的计算机数据信号来传输。“处理器可读介质”或“机器可读介质”可以包括可以存储或传输信息的任何非暂时性介质。处理器可读介质的示例包括电子电路、半导体存储器器件、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤光学介质、射频(RF)链路等。计算机数据信号可以包括可以通过传输介质(诸如电子网络信道、光纤、空气、电磁路径或RF链路)传播的任何信号。代码段可以经由计算机网络(诸如因特网、内联网、LAN等)来下载。就这一点而言，可以在任何计算机可实现的系统的上下文中和/或与两个或更多个彼此协作和通信的独立且不同的计算机实现的系统结合实现本文描述的主题。在一个或更多个示例性实现方式中，本文描述的主题结合多租户环境中的虚拟用户关系管理(CRM)应用程序来实现。

上面描述或参考的任何数据结构和代码根据计算机可读存储介质上的许多实现方式被存储，计算机可读存储介质可以是能够存储由计算机系统使用的代码和/或数据的任何设备或介质。这包括但不限于易失性存储器、非易失性存储器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、磁和光存储设备(诸如磁盘驱动器)、磁带、CD(光盘)、DVD(数字通用光盘或数字视频盘)或能够存储现在已知或以后开发的计算机可读介质的其他介质。

呈现先前的描述是为了使得能够制造和使用所公开的技术。对所公开的实现方式的各种修改将是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，可将本文中定义的一般原理应用于其他实现方式和应用。因此，所公开的技术不旨在限于所示出的实现方式，而是应被赋予与本文公开的原理和特征一致的最宽范围。所公开的技术的范围由所附权利要求限定。

Claims

1.一种在神经网络中对三维3D数据进行分类的计算机实现的方法，所述方法包括：

接收表征输入放射体的三维3D数据；

使用神经网络处理表征所述输入放射体的所述3D数据，其中所述神经网络包括以从最低到最高的序列布置的多个子网络，并且其中所述使用神经网络处理所述3D数据包括通过所述序列中的每个所述子网络处理所述数据；

其中每个所述子网络被配置为：

接收由所述序列中的先前子网络生成的先前输出表示；

通过变化的卷积体的多个并行3D卷积层路径来处理所述先前输出表示；

通过并行的池化路径进一步处理所述先前输出表示；以及

级联所述3D卷积层路径和所述并行的池化路径的输出，以生成来自每个所述子网络的输出表示；

在通过所述子网络处理所述数据之后，通过池化层处理最高子网络的输出，以从所述输入放射体生成降低垂直维度的输出；以及

基于所生成的降低垂直维度的输出对所接收到的3D数据进行分类。

2.根据权利要求1所述的方法，其中所述池化路径是3D最大池化路径。

3.根据权利要求1所述的方法，其中所述池化层是垂直最大池化层。

4.根据权利要求1所述的方法，其中所述3D数据表示3D模型数据、CAD(计算机辅助制图)模型数据或3D点云。

5.根据权利要求1所述的方法，其中第一3D卷积层路径是3×3卷积，其从所述3D数据提取半全局特征。

6.根据权利要求1所述的方法，其中第二3D卷积层路径是5×5卷积，其从所述3D数据提取全局特征。

7.根据权利要求1所述的方法，其中第三3D卷积层路径是1×1卷积，其从所述3D数据提取局部特征。

8.根据权利要求1所述的方法，还包括：在由所述子网络处理之前，将在先的一个或更多个3D和/或2D卷积应用于所述输入放射体。

9.根据权利要求1所述的方法，还包括：在由所述子网络处理之前，将在先的一个或更多个3D和/或2D池化操作应用于所述输入放射体。

10.根据权利要求1所述的方法，还包括：在由所述子网络处理之后，将后处理的一个或更多个3D和/或2D卷积应用于所述输入放射体。

11.根据权利要求1所述的方法，还包括：在由所述子网络处理之后，将后处理的一个或更多个3D和/或2D池化操作应用于所述输入放射体。

12.根据权利要求1所述的方法，还包括：

通过3D批归一化来调节所述子网络中的所述3D卷积层路径的所述输出表示，

其中所述3D批归一化独立地应用于由所述神经网络生成的替代特征体表示中的各个特征并且基于分批应用，

其中，对于批中的所述替代特征体表示，所述3D批归一化缩放和移位图像数据值，使得归一化的替代特征体表示具有所述图像数据值的零均值和单位方差。

13.根据权利要求12所述的方法，还包括通过具有可学习的缩放和移位参数的参数化的非线性激活立即处理所述归一化的替代特征体表示，通过所述可学习的缩放和移位参数训练所述神经网络可抵消所述3D批归一化。

14.一种非暂时性计算机可读存储介质，载有计算机程序指令，当在处理器上执行所述指令时，使得所述处理器实现权利要求1-13中任一项所述的方法。

15.一种系统，包括耦合到存储器的一个或更多个处理器，和用于实现权利要求1-13中任一项所述的方法的装置。