CN115908244A

CN115908244A - 用于改进的ai性能的域外检测

Info

Publication number: CN115908244A
Application number: CN202211197573.9A
Authority: CN
Inventors: B·乔治斯库; E·吉布森; F-C·盖苏; D·科马尼丘; A·J·雅各布; T·帕塞里尼; P·夏尔马
Original assignee: Siemens Healthineers AG
Current assignee: Siemens Healthineers AG
Priority date: 2021-09-29
Filing date: 2022-09-29
Publication date: 2023-04-04
Also published as: US20230099938A1; EP4160483A1

Abstract

用于改进的AI性能的域外检测。提供了用于确定输入数据在基于AI（人工智能）的系统的域外的系统和方法。接收用于输入到基于AI的系统中的输入数据。对基于AI的系统的域内特征空间和基于AI的系统的域外特征空间进行建模。域内特征空间对应于基于AI的系统被训练来分类的数据的特征。域外特征空间对应于基于AI的系统未被训练来分类的数据的特征。在域内特征空间和域外特征空间中针对输入数据和针对基于AI的系统被训练来分类的数据生成概率分布函数。基于针对输入数据和针对基于AI的系统被训练来分类的数据的概率分布函数来确定输入数据是否在基于AI的系统的域外。

Description

用于改进的AI性能的域外检测

技术领域

本发明一般地涉及改进的AI（人工智能）性能，并且特别地涉及用于改进的AI性能的域外（out-of-domain）检测。

背景技术

基于AI（人工智能）的系统通常被部署以使通常由用户手动执行的任务自动化。例如，在医学成像分析中，基于AI的系统可以被部署用于基于患者的医学图像的检测、量化和临床决策制定。基于AI的系统的真实世界部署（real world deployment）越来越多地遇到训练数据集中未呈现的场景，从而导致差的性能。这样的场景的一些示例是具有不同质量的程度的医学图像或者其中感兴趣的对象出现在不同位置、取向、比例、或者全部或部分视图中的医学图像的分析。虽然改进和扩展训练数据集或采用数据增强技术可能有助于提高基于AI的系统的鲁棒性，但基于AI的系统实际上无法被训练来解决它们可能遇到的每种场景。一种解决方案是让用户手动审阅（review）基于AI的系统的结果。然而，用户将不得不以完全自动化为代价来审阅基于AI的系统的所有结果。

发明内容

根据一个或多个实施例，提供了用于域外检测的系统和方法，以检测在用于训练基于AI的系统的训练数据的分布之外的基于AI的系统的输入数据。接收用于输入到基于AI的系统中的输入数据。对基于AI的系统的域内（in-domain）特征空间和基于AI的系统的域外特征空间进行建模。域内特征空间对应于基于AI的系统被训练来分类的数据的特征。域外特征空间对应于基于AI的系统未被训练来分类的数据的特征。在域内特征空间和域外特征空间中针对输入数据和针对基于AI的系统被训练来分类的数据生成概率分布函数。基于针对输入数据和针对基于AI的系统被训练来分类的数据的概率分布函数，确定输入数据是否在基于AI的系统的域外。

在一个实施例中，根据基于AI的系统的一个或多个域内线性投影矩阵来计算域内特征空间。根据基于AI的系统的一个或多个域内线性投影矩阵来计算针对域外特征空间的一个或多个正交线性投影矩阵。基于针对域外特征空间的一个或多个正交线性投影矩阵来计算域外特征空间。在一个实施例中，使用高斯过程模型或适于可用数据的高斯概率分布模型的组合来生成概率分布函数。

在一个实施例中，响应于确定输入数据在基于AI的系统的域外，向用户传输通知，以审阅由基于AI的系统根据输入数据生成的预测。在另一个实施例中，响应于确定输入数据在基于AI的系统的域外，对输入数据进行注释，并且基于注释的输入数据来训练基于AI的系统。在另一个实施例中，响应于确定输入数据不在基于AI的系统的域外，由基于AI的系统根据输入数据生成预测。

在一个实施例中，接收、建模、生成和确定由与基于AI的系统组合的模块来执行，并且与基于AI的系统组合的模块根据输入数据以及输入数据是否在基于AI的系统的域外的确定来生成预测。

在一个实施例中，基于所述确定来选择基于AI的系统的多个算法之一（例如，通过选择其中输入数据在域内的算法）。基于AI的系统可以用于医学成像分析。

通过参考以下详细描述和附图，本发明的这些和其他优点对于本领域中的普通技术人员将是显而易见的。

附图说明

图1示出了根据一个或多个实施例的用于检测域外输入数据的方法；

图2示出了根据一个或多个实施例的基于AI的系统的特征空间的示例性模型；

图3示出了根据一个或多个实施例的数据被分类为域内的概率的图像；

图4示出了根据一个或多个实施例的用于实现与基于AI的系统分离的域外检测器模块的工作流程；

图5示出了根据一个或多个实施例的用于实现与基于AI的系统组合的域外检测器模块的工作流程；

图6示出了根据一个或多个实施例的用于实现域外检测器模块的工作流程，该域外检测器模块基于输入数据和由基于AI的系统根据输入数据生成的预测两者来确定输入数据是否在基于AI的系统的域外；

图7示出了根据一个或多个实施例的用于对输入数据进行注释的工作流程，所述输入数据用于基于由域外检测器模块确定输入数据是否在基于AI的系统的域外来对基于AI的系统进行训练；

图8示出了可以用于实现一个或多个实施例的示例性人工神经网络；

图9示出了可以用于实现一个或多个实施例的卷积神经网络；以及

图10示出了可以用于实现一个或多个实施例的计算机的高级框图。

具体实施方式

本发明一般地涉及用于改进的AI（人工智能）性能的域外检测的方法和系统。本文中描述了本发明的实施例，以给出对这样的方法和系统的视觉理解（visualunderstanding）。数字图像通常由一个或多个对象（或形状）的数字表示组成。对象的数字表示在本文中通常根据标识和操纵对象来描述。这样的操纵是在计算机系统的存储器或其他电路/硬件中完成的虚拟操纵。因此，要理解，本发明的实施例可以使用存储在计算机系统内的数据在计算机系统内执行。

本文中所述的实施例提供了域外检测器，用于检测要被输入到基于AI的系统中的输入数据是否在训练数据的分布，所述基于AI的系统在所述训练数据上训练。当应用于域外输入数据时，基于AI的系统可能具有相对差的性能。因此，域外输入数据可以被标记以通知用户基于AI的系统在基于AI的系统的域外。在一些实施例中，域外输入数据也可以用于重新训练基于AI的系统，以增加鲁棒性并改进性能。

图1示出了根据一个或多个实施例的用于检测域外输入数据的方法100。方法100的步骤可以由一个或多个合适的计算设备来执行，所述计算设备诸如例如图10的计算机1002。

在图1的步骤102处，接收用于输入到基于AI的系统的输入数据。在一个示例中，基于AI的系统用于执行医学成像分析任务，诸如例如检测、量化和临床决策制定。基于AI的系统可以是用于根据输入数据生成输出的任何合适的系统。在一个实施例中，基于AI的系统包括基于机器学习的系统（例如，神经网络）。

输入数据可以是任何合适的数据。在一个实施例中，输入数据包括患者的医学图像。医学图像可以具有任何合适的模态（modality），诸如例如CT（计算断层摄影术）、MRI（磁共振成像）、超声、x射线或任何其他医学成像模态或医学成像模态的组合。医学图像可以是2D（二维）图像和/或3D（三维）体积，并且可以包括单个输入医学图像或多个输入医学图像。在另一个实施例中，输入数据包括患者的临床数据，诸如例如病史、人口统计、实验室结果等。

可以通过从计算机系统（例如，EMR（电子病历）系统或PACS（图片存档和通信系统））的存储装置或存储器加载先前获取的数据，或者通过接收已经从远程计算机系统传输的数据，来接收输入数据。在输入数据包括医学图像的情况下，可以在获取医学图像时直接从图像获取设备接收医学图像。

在图1的步骤104处，对基于AI的系统的域内特征空间和基于AI的系统的域外特征空间进行建模。域内特征空间对应于基于AI的系统被训练来分类的数据的特征，而域外特征空间对应于基于AI的系统未被训练来分类的数据的特征。

图2示出了根据一个或多个实施例的基于AI的系统的特征空间的示例性模型200。模型200包括域内特征空间x 202和域外特征空间y 204。域内特征空间x 202对应于基于AI的系统被训练来分类的数据的特征。因此，基于AI的系统使用域内特征空间x 202来区分类别1 206的数据和类别2 208的数据。域外特征空间y 204对应于基于AI的系统未被训练来分类的数据（例如，OoD（域外）数据210）的特征。域外特征空间y 204在正交空间（相对于域内特征空间x 202）或零空间中，并且对基于AI的系统不可见。投影在类别1 206和/或类别2208上的域外数据（例如，OoD数据210）无法被基于AI的系统区分为类别1 206或类别2 208。

在一个实施例中，基于AI的系统包括基于机器学习的网络（例如，神经网络），该网络包括用线性投影矩阵 A实现的一个或多个投影层（例如，全连接和/或卷积层）。投影矩阵 A的值/权重通常在训练阶段中离线学习，使得所得到的投影特征值最好地表示与当前任务相关的特征。因此，域内特征空间x 202被建模或计算为：

x=Az

其中x是域内特征空间202， A是针对域内特征空间x 202的基于AI的系统的线性投影矩阵，并且z是表示原始空间的输入向量。域外特征空间y 204然后通过找到投影矩阵 A _⊥被建模或计算为：

其中 A _⊥是针对域外特征空间204的线性投影矩阵， A ^T是投影矩阵 A的转置，并且（∙）^#表示矩阵伪逆。域外特征空间y 204被建模或计算为：

。

然后，基于机器学习的网络被配置成承载域内特征空间x 202和域外特征空间y204两者。这可以通过构建具有由正交投影矩阵 A _⊥定义的相应权重的附加网络来实现。通过对域内特征空间x和正交特征空间y两者中的数据分布进行建模，我们可以区分对域内特征空间“不可见”的域外数据。

替代地， A的域外特征空间y 204可以通过从 A的奇异值分解中获取相应的基向量（由表示）来投影

其中U和V分别是左和右奇异向量，S是奇异值的对角矩阵，并且下标R和N分别表示值域（range）和零空间。

在一个实施例中，如果多个矩阵用于域内特征空间计算，则域外变换可以由一个或多个投影组成，只要投影的特征位于域内特征的域外特征空间y 204（即零空间）中。这可以通过仅用正交投影替换最后的变换或者通过组合来自对应于域内变换的序列的正交投影中的任何正交投影的投影特征来实现。

在图1的步骤106处，在域内特征空间和域外特征空间中针对输入数据和针对基于AI的系统被训练来分类的数据生成概率分布函数。在一个示例中，在图2的模型200中，针对OoD数据210生成概率分布函数216，OoD数据210可以说明性地表示输入数据，并且分别针对类别1 206和类别2 208生成概率分布函数212和214，类别1 206和类别2 208表示基于AI的系统被训练来分类的数据。概率分布函数202、214和216在域内特征空间x 202和域外特征空间y 204两者中生成。

可以在神经网络训练阶段后，通过对训练数据中的特征进行建模，使用任何合适的方法生成概率分布函数。数据分布的模型可以是高斯概率分布模型、非参数密度估计或高斯过程的混合或组合。模型参数适于由修改的神经网络计算的域内/域外特征。在一个实施例中，使用高斯过程模型生成概率分布函数，其在特征空间中具有或不具有诱导点（inducing point）。

在图1的步骤108处，基于针对输入数据和针对基于AI的系统被训练来分类的数据的概率分布函数，确定输入数据是否在基于AI的系统的域外。输入数据在基于AI的系统的域外指示输入数据对应于基于AI的系统未被训练来分类的数据。输入数据不在域外（即，在域内）指示输入数据对应于基于AI的系统被训练来分类的数据。

属于域内分布的输入数据的概率或分数由根据在图1的步骤106处建模的拟合域内概率分布函数的投影特征的概率给出。高概率指示输入数据与训练（域内）分布最相似，而低概率指示输入数据与训练分布不相似。对输入数据是否在基于AI的系统的域外的确定可以以任何合适的格式来表示。例如，对输入数据是否在基于AI的系统的域外的确定被表示为域外分数。可以通过将域外分数与一个或多个阈值进行比较来确定分类（例如，是、否或不确定）。

在图1的步骤110处，输出对输入数据是否在基于AI的系统的域外的确定。例如，可以通过在计算机系统的显示设备上显示输入数据是否在基于AI的系统的域外的确定，在计算机系统的存储器或存储装置上存储输入数据是否在基于AI的系统的域外的确定，或者通过将输入数据是否在基于AI的系统的域外的确定传输到远程计算机系统，来输出对输入数据是否在基于AI的系统的域外的确定。

基于AI的系统对于域外输入数据可能具有相对差的性能。因此，在一个实施例中，响应于确定输入数据在基于AI的系统的域外，向用户传输通知以手动审阅由基于AI的系统根据输入数据生成的预测。

在一个实施例中，当基于AI的系统被初始训练时，方法100可以与谱归一化或其他正则化（regularization）技术相结合。在一个实施例中，可以应用监督训练来找到辨别特征空间，在该辨别特征空间上可以构建附加的域外检测器模型。

图3示出了根据一个或多个实施例的数据被分类为域内的概率的图像300。在图像300中，区域308表示被分类为域内的低概率，而区域310表示被分类为域内的高概率。图像302图示了原始分类器在最终分类器输出中的概率。虽然原始分类器很好地区分两个类别，但它不能很好地分离域外输入数据。图像304图示了在第二线性层的域内特征空间中训练的高斯过程的概率。图像306图示了在第二线性分类器的域内特征空间和域外特征空间中训练的高斯过程的概率。图像306比图像304好得多地示出了域外数据和域内数据之间的分离。

在一个实施例中，域外检测器模块可以根据图1的方法100（或任何其他合适的方法）来实现，并在关于基于AI的系统的各种配置中使用，如下文关于图4-6所述。

图4示出了根据一个或多个实施例的用于实现与基于AI的系统分离的域外检测器模块的工作流程400。在工作流程400中，输入数据402被输入到域外检测器模块404中。在一个示例中，输入数据402是在图1的步骤102处接收的输入数据。域外检测器模块404确定输入数据402是否在基于AI的系统408的域外。在一个实施例中，域外检测器模块404根据图1的方法100确定输入数据402是否在基于AI的系统408的域外。在另一个实施例中，域外检测器模块404确定输入数据402是否在基于AI的系统408的域外，例如，通过归一化流以对用于训练基于AI的系统408的训练数据的分布明确地建模并且先验地检查输入数据在基于AI的系统408的域内还是域外来确定输入数据402是否在基于AI的系统408的域外。域外检测器模块404可以使用任何其他合适的方法来确定输入数据402是否在基于AI的系统408的域外。如果在决策框406处输入数据402不在域外（即，输入数据402在域内），则输入数据402被输入到基于AI的系统408中，并且基于AI的系统408生成预测410作为输出。如果在决策框406处输入数据402在域外，则生成通知412以通知用户输入数据402在域外。作为响应，用户可以批准将输入数据402输入到基于AI的系统408中，并手动审阅预测410，或者用户可以使输入数据402被注释，并用注释的输入数据重新训练基于AI的系统408。

图5示出了根据一个或多个实施例的用于实现与基于AI的系统组合的域外检测器模块的工作流程500。在工作流程500中，输入数据502被输入到基于AI的系统/域外检测器模块504中。在一个示例中，输入数据502是在图1的步骤102处接收的输入数据。基于AI的系统/域外检测器模块504是基于AI的系统和域外检测器模块在单个模块中的组合。由基于AI的系统/域外检测器模块504实现的域外检测器模块确定输入数据502是否在由基于AI的系统/域外检测器模块504实现的基于AI的系统的域外。在一个实施例中，根据图1的方法100，域外检测器模块确定输入数据502是否在基于AI的系统的域外。在另一实施例中，域外检测器模块基于由基于AI的系统实现的深度学习网络的输出softmax层上的基于能量或基于熵的方法来确定输入数据502是否在基于AI的系统的域外。较高的能量水平意味着输入数据502在基于AI的系统的域外。域外检测器模块可以使用任何其他合适的方法来确定输入数据502是否在基于AI的系统的域外。基于AI的系统/域外检测器模块504生成预测506和输入数据502是否在基于AI的系统的域外的确定两者作为输出。如果在决策框508处输入数据502不在域外（即，输入数据502在域内），则预测506作为最终预测510来输出。如果在决策框508处输入数据502在域外，则生成通知512以通知用户输入数据502在域外。作为响应，用户可以手动审阅预测506，或者用户可以对输入数据502进行注释，并且用注释的输入数据重新训练基于AI的系统。

在一个实施例中，基于AI的系统的域外检测器模块/域外检测器模块504通过训练具有不同架构的网络的集合并在不同时期停止，来确定输入数据502是否在基于AI的系统的域外。基于输入数据502评价网络以评估差异。对成对的输入数据502/预测506的确定可以是差异的函数。对其而言该确定相对高的情况（例如，基于域外分数与一个或多个阈值的比较）可以被恢复为具有相对低的不确定性，并被分类为不在域外。

图6示出了根据一个或多个实施例的用于实现域外检测器模块的工作流程600，该域外检测器模块基于输入数据和由基于AI的系统根据输入数据生成的预测两者来确定输入数据是否在基于AI的系统的域外。在工作流程600中，输入数据602被输入到基于AI的系统604中，该基于AI的系统生成预测606作为输出。在一个示例中，输入数据602是在图1的步骤102处接收的输入数据。

域外检测器模块608接收输入数据602和预测606两者作为输入。对于输入数据602以及对于成对的输入数据602/预测606，域外检测器模块608生成输入数据602是否在域外（例如，以域外分数的形式）的联合确定。可能存在基于AI的系统604仍然可以很好地概括（generalize）的域外输入数据。因此，通过生成对输入数据602的确定和对成对的输入数据602/预测606的确定，域外检测器模块608测量预测606域外的程度，从而为用户可能必须审阅的内容提供过滤器。在一个实施例中，域外检测器模块608根据图1的方法100确定输入数据602是否在基于AI的系统604的域外。域外检测器模块608可以使用任何其他合适的方法来确定输入数据602是否在基于AI的系统604的域外。

如果在决策框610处输入数据602不在域外（即，输入数据602在域内），则输出预测606作为最终预测612。如果在决策框610处输入数据602在域外，则生成通知614以通知用户输入数据602在域外。作为响应，用户可以手动审阅预测606，或者用户可以对输入数据602进行注释，并用注释的输入数据重新训练基于AI的系统。

在一个实施例中，域外分数（例如，来自图4的域外检测器模块404、图5的基于AI的系统/域外检测器模块504或图6的域外检测器模块608）可以用于导出从预测中提取的测量值的置信区间。例如，对于从2D超声心动图分割左心室的系统，域外分数可以与射血分数的测量值中的差异直接相关。这样做的一种方法将是根据用于计算域外分数的多个预测来计算差异。替代地，也可以在训练阶段期间学习域外分数和测量值中的差异之间的相关性。

图7示出了根据一个或多个实施例的用于对输入数据进行注释的工作流程700，所述输入数据用于基于由域外检测器模块确定输入数据是否在基于AI的系统的域外来对基于AI的系统进行训练。域外输入数据是基于AI的系统在现实生活场景中的性能中的差距的指标。确定输入数据是否在基于AI的系统的域外使得输入数据能够被标记并用于改进基于AI的系统的性能。

在工作流程700中，在步骤702处训练基于AI的系统和域外检测器模块。在一个实施例中，可以根据图1的方法100实现域外检测器模块。在步骤704处，未注释的输入数据被输入到基于AI的系统和/或域外检测器模块中，并且域外未注释的输入数据被选择用于注释（例如，通过将域外分数与一个或多个阈值进行比较）。在步骤706处，未注释的输入数据被注释。在步骤702处，注释的输入数据可以被反馈回来以训练基于AI的系统和域外检测器模块。

在一个实施例中，域外检测器模块可以在临床侧与基于AI的系统一起连续运行，以收集域外输入数据。域外输入数据可以用于标识故障的模式（例如，儿童超声心动图对成人超声心动图）。随着时间的推移，一批域外输入数据可以用于直接训练基于AI的系统。当接收和检测到域外输入数据或者在接收和检测到域外输入数据时，域外输入数据可以用于现场在线学习。域外检测器模块在涉及联合学习的情况下可能是有用的，其中数据隐私规定阻止外部实体对本地站点数据的彻底分析。域外输入数据可以用于自动选择低性能输入数据并训练基于AI的系统。

在一个实施例中，域外检测器模块可以用于从多种AI算法中选择基于AI的系统的最合适算法，以在给定的输入数据上运行。例如，左心室射血分数计算算法可以在正常和病理患者上进行训练。然而，检测传入的（incoming）2D回波情况是否正常并非不重要的。可以首先应用关于正常患者训练的算法，并且如果域外检测器模块将输入数据标识为域外，则然后可以应用关于病理患者训练的算法。

本文中所描述的实施例关于要求保护的系统以及关于要求保护的方法进行描述。本文中的特征、优点或替代实施例可以被分配给其他要求保护的对象，并且反之亦然。换句话说，针对系统的权利要求可以用在方法的上下文中描述或要求保护的特征来改进。在这种情况下，该方法的功能特征由提供系统的目标单元来实现。

此外，本文中所述的某些实施例是关于利用训练的基于机器学习的网络（或模型）的方法和系统，以及关于用于训练基于机器学习的网络的方法和系统来描述的。本文中的特征、优点或替代实施例可以被分配给其他要求保护的对象，并且反之亦然。换句话说，针对用于训练基于机器学习的网络的方法和系统的权利要求可以用在用于利用训练的基于机器学习的网络的方法和系统的上下文中描述或要求保护的特征来改进，并且反之亦然。

特别地，本文中所述实施例中应用的训练的基于机器学习的网络可以由用于训练基于机器学习的网络的方法和系统来适配（adapt）。此外，训练的基于机器学习的网络的输入数据可以包括训练输入数据的有利特征和实施例，并且反之亦然。此外，训练的基于机器学习的网络的输出数据可以包括输出训练数据的有利特征和实施例，并且反之亦然。

通常，训练的基于机器学习的网络模仿人类与其他人类思维相关联的认知功能。特别地，通过基于训练数据来训练，训练的基于机器学习的网络能够适于新的环境并检测和推断模式。

通常，基于机器学习的网络的参数可以通过训练来适配。特别地，可以使用监督训练、半监督训练、无监督训练、强化学习和/或主动学习。此外，可以使用表示学习（替代术语是“特征学习”）。特别地，训练的基于机器学习的网络的参数可以通过几个训练的步骤来迭代地适配。

特别地，训练的基于机器学习的网络可以包括神经网络、支持向量机、决策树和/或贝叶斯网络，和/或训练的基于机器学习的网络可以基于k均值聚类、Q学习、遗传算法和/或关联规则。特别地，神经网络可以是深度神经网络、卷积神经网络或卷积深度神经网络。此外，神经网络可以是对抗网络（adversarial network）、深度对抗网络和/或生成性对抗网络。

图8示出了根据一个或多个实施例的人工神经网络800的实施例。“人工神经网络”的替代术语是“神经网络”、“人工神经网”或“神经网”。可以使用人工神经网络800来实现本文中描述的机器学习网络，诸如例如可以用于实现图1的基于AI的系统、图4的域外检测器模块404和基于AI的系统408、图5的基于AI的系统/域外检测器模块504、图6的基于AI的系统604和域外检测器模块608、以及图7的基于AI的系统和域外检测器模块的基于机器学习的网络。

人工神经网络800包括节点802-822和边832、834、...、836，其中每个边832、834、...、836是从第一节点802-822到第二节点802-822的有向连接。通常，第一节点802-822和第二节点802-822是不同的节点802-822，也可能的是第一节点802-822和第二节点802-822是相同的。例如，在图8中，边832是从节点802到节点806的有向连接，并且边834是从节点804到节点806的有向连接。从第一节点802-822到第二节点802-822的边832、834、…、836也被表示为第二节点802-822的“传入边（ingoing edge）”和第一节点802-822的“传出边（outgoing edge）”。

在该实施例中，人工神经网络800的节点802-822可以被布置在层824-830中，其中所述层可以包括由节点802-822之间的边832、834、…、836引入的固有次序。特别地，边832、834、…、836可以仅存在于相邻的节点的层之间。在图8中所示的实施例中，输入层824仅包括节点802和804而没有传入边，输出层830仅包括节点822而没有传出边，并且隐藏层826、828位于输入层824和输出层830之间。通常，隐藏层826、828的数量可以任意选择。输入层824内的节点802和804的数量通常与神经网络800的输入值的数量相关，并且输出层830内的节点822的数量通常与神经网络800的输出值的数量相关。

特别地，（实）数可以作为值被分配给神经网络800的每个节点802-822。这里，x⁽ⁿ⁾ _i表示第n层824-830的第i个节点802-822的值。输入层824的节点802-822的值等同于神经网络800的输入值，输出层830的节点822的值等同于神经网络800的输出值。此外，每个边832、834、…、836可以包括是实数的权重，特别地，该权重是区间[-1，1]内或区间[0，1]内的实数。这里，w^(m,n) _i,j表示第m层824-830的第i个节点802-822和第n层824-830的第j个节点802-822之间的边的权重。此外，针对权重w^(n,n+1) _i,j定义了缩写w⁽ⁿ⁾ _i,j。

特别地，为了计算神经网络800的输出值，输入值通过神经网络来传播。特别地，第（n+1）层824-830的节点802-822的值可以基于第n层824-830的节点802-822的值通过下式来计算

。

本文中，函数f是传递函数（另一个术语是“激活函数”）。已知的传递函数是阶跃函数、sigmoid函数（例如，逻辑函数、广义逻辑函数、双曲正切函数、反正切函数、误差函数、平滑阶跃函数）或整流函数（rectifier function）。传递函数主要用于归一化目的。

特别地，所述值通过神经网络逐层传播，其中输入层824的值由神经网络800的输入给出，其中第一隐藏层826的值可以基于神经网络的输入层824的值来计算，其中第二隐藏层828的值可以基于第一隐藏层826的值来计算，等等。

为了设置边的值w^(m,n) _i,j，必须使用训练数据来训练神经网络800。特别地，训练数据包括训练输入数据和训练输出数据（表示为t_i）。对于训练步骤，神经网络800被应用于训练输入数据以生成计算的输出数据。特别地，训练数据和计算的输出数据包括多个值，所述数量等于输出层的节点的数量。

特别地，计算的输出数据和训练数据之间的比较用于递归地适配神经网络800内的权重（反向传播算法）。特别地，权重根据下式而变化

其中γ是学习率（learning rate），并且如果第（n+1）层不是输出层，则基于δ⁽ⁿ⁺¹⁾ _j，数δ⁽ⁿ⁾ _j可以被递归地计算为

，

并且如果第（n+1）层是输出层830，则

，

其中f'是激活函数的一阶导数，并且y⁽ⁿ⁺¹⁾ _j是输出层830的第j个节点的比较训练值。

图9示出了根据一个或多个实施例的卷积神经网络900。可以使用卷积神经网络900来实现本文中描述的机器学习网络，诸如例如可以用于实现图1的基于AI的系统、图4的域外检测器模块404和基于AI的系统408、图5的基于AI的系统/域外检测器模块504、图6的基于AI的系统604和域外检测器模块608、以及图7的基于AI的系统和域外检测器模块的基于机器学习的网络。

在图9中所示的实施例中，卷积神经网络900包括输入层902、卷积层904、池化（pooling）层906、全连接层908和输出层910。替代地，卷积神经网络900可以包括几个卷积层904、几个池化层906和几个全连接层908以及其他类型的层。层的次序可以任意选择，通常全连接层908被用作输出层910之前的最后层。

特别地，在卷积神经网络900内，一层902-910的节点912-920可以被认为被布置为d维矩阵或被布置为d维图像。特别地，在二维情况下，在第n层902-910中用i和j索引的节点912-920的值可以被表示为x⁽ⁿ⁾ _[i,j]。然而，一层902-910的节点912-920的布置对卷积神经网络900内执行的计算本身没有影响，因为这些仅由边的结构和权重给出。

特别地，卷积层904由基于特定数量的内核形成卷积运算的传入边的结构和权重来表征。特别地，选择传入边的结构和权重，使得卷积层904的节点914的值x⁽ⁿ⁾ _k被计算为基于先前层902的节点912的值x^(n-1)的卷积x⁽ⁿ⁾ _k = K_k ^* x^(n-1)，其中卷积^*在二维情况下被定义为

。

这里，第k个内核K_k是d维矩阵（在该实施例中是二维矩阵），与节点912-918的数量相比，其通常是小的（例如，3×3矩阵或5×5矩阵）。特别地，这意味着传入边的权重不是独立的，而是被选择为使得它们产生所述卷积等式。特别地，对于是3×3矩阵的内核，只有9个独立的权重（内核矩阵的每个条目对应于一个独立的权重），而与相应层902-910中的节点912-920的数量无关。特别地，对于卷积层904，卷积层中的节点914的数量等同于先前层902中的节点912的数量乘以内核的数量。

如果先前层902的节点912被布置为d维矩阵，则使用多个内核可以被解释为增加另外的维度（表示为“深度”维度），使得卷积层904的节点914被布置为（d+1）维矩阵。如果先前层902的节点912已经被布置为包括深度维度的（d+1）维矩阵，则使用多个内核可以被解释为沿着深度维度扩展，使得卷积层904的节点914也被布置为（d+1）维矩阵，其中（d+1）维矩阵相对于深度维度的大小是比先前层902中的内核的数量大的倍数。

使用卷积层904的优点是，通过在邻近层的节点之间实施局部连接模式，特别是通过每个节点仅连接到先前层的节点的小区域，可以利用输入数据的空间局部相关性。

在图9中所示的实施例中，输入层902包括36个节点912，该36个节点912被布置为二维6×6矩阵。卷积层904包括72个节点914，该72个节点914被布置为两个二维6×6矩阵，这两个矩阵中的每个都是输入层的值与内核的卷积的结果。等效地，卷积层904的节点914可以被解释为布置为三维6×6×2矩阵，其中最后维度是深度维度。

池化层906可以由传入边的结构和权重以及其节点916的激活函数来表征，节点916基于非线性池化函数f形成池化操作。例如，在二维情况下，池化层906的节点916的值x⁽ⁿ⁾可以基于先前层904的节点914的值x^(n-1)来计算为

。

换句话说，通过使用池化层906，可以通过用单个节点916替换先前层904中相邻节点914的数量d1·d2来减少节点914、916的数量，该单个节点916作为池化层中所述相邻节点的数量的值的函数来计算。特别地，池化函数f可以是最大函数、平均值或L2范数。特别地，对于池化层906，传入边的权重是固定的并且不通过训练来修改。

使用池化层906的优点是减少了节点914、916的数量和参数的数量。这导致网络中的计算的量减少并控制过拟合（overfitting）。

在图9中所示的实施例中，池化层906是最大池化，其仅用一个节点替换四个相邻节点，该值是四个相邻节点的值中的最大值。最大池化被应用于先前层的每个d维矩阵；在该实施例中，最大池化被应用于两个二维矩阵中的每个，从而将节点的数量从72减少到18。

全连接层908可以通过以下事实来表征：存在先前层906的节点916和全连接层908的节点918之间的大多数、特别是所有边，并且其中所述边中的每个边的权重可以单独调整。

在该实施例中，全连接层908的先前层906的节点916既被显示为二维矩阵，并且附加地由被显示为不相关的节点（指示为一行节点，其中为了更好地呈现，减少了节点的数量）。在该实施例中，全连接层908中的节点918的数量等于先前层906中的节点916的数量。替代地，节点916、918的数量可以不同。

此外，在该实施例中，通过将Softmax函数应用于先前层908的节点918的值上，来确定输出层910的节点920的值。通过应用Softmax函数，输出层910的所有节点920的值的总和是1，并且输出层的所有节点920的所有值是0和1之间的实数。

卷积神经网络900还可以包括具有非线性传递函数的ReLU（整流线性单元）层或激活层。特别地，ReLU层中包含的节点的数量和节点的结构等同于先前层中包含的节点的数量和节点的结构。特别地，ReLU层中每个节点的值通过对先前层的相应节点的值应用整流函数来计算。

不同卷积神经网络块的输入和输出可以使用求和（残差/密集神经网络）、逐元素乘法（注意（attention））或其他可微算子来连线（wire）。因此，如果整个流水线是可微分的，则卷积神经网络架构可以是嵌套的（nested），而不是顺序的。

特别地，可以基于反向传播算法来训练卷积神经网络900。为了防止过拟合，可以使用正则化的方法，例如，节点912-920的丢弃、随机池化、人工数据的使用、基于L1或L2范数或最大范数约束的权重衰减。不同的损失函数可以被组合用于训练相同的神经网络，以反映联合训练目标。可以从优化中排除神经网络参数的子集，以保留在另一个数据集上预先训练的权重。

本文中所述的系统、装置和方法可以使用数字电路或使用一台或多台使用众所周知的计算机处理器、存储器单元、存储设备、计算机软件和其他组件的计算机来实现。通常，计算机包括用于执行指令的处理器和用于存储指令和数据的一个或多个存储器。计算机还可以包括或被耦合到一个或多个大容量存储设备，诸如一个或多个磁盘、内部硬盘和可移动磁盘、磁光盘、光盘等。

本文中所述的系统、装置和方法可以使用以客户端-服务器关系操作的计算机来实现。通常，在这样的系统中，客户端计算机远离服务器计算机定位，并经由网络来交互。客户端-服务器关系可以由在相应的客户端和服务器计算机上运行的计算机程序来定义和控制。

本文中所述的系统、装置和方法可以在基于网络的云计算系统中实现。在这样的基于网络的云计算系统中，连接到网络的服务器或另一处理器经由网络与一个或多个客户端计算机通信。例如，客户端计算机可以经由在客户端计算机上驻留和操作的网络浏览器应用与服务器通信。客户端计算机可以将数据存储在服务器上，并经由网络访问数据。客户端计算机可以经由网络向服务器传输对数据的请求或对在线服务的请求。服务器可以执行所请求的服务并向（一个或多个）客户端计算机提供数据。服务器还可以传输适于使客户端计算机执行特定功能的数据，例如以执行计算、在屏幕上显示指定数据等。例如，服务器可以传输适于使客户端计算机执行本文中描述的方法和工作流程的步骤或功能中的一个或多个的请求，包括图1或4-7的步骤或功能中的一个或多个。包括图1或4-7的步骤或功能中的一个或多个的本文中描述的方法和工作流程的某些步骤或功能可以由服务器或由基于网络的云计算系统中的另一处理器来执行。包括图1或4-7的步骤中的一个或多个步骤的本文中描述的方法和工作流程的某些步骤或功能可以由基于网络的云计算系统中的客户端计算机来执行。包括图1或4-7的步骤中的一个或多个的本文中描述的方法和工作流程的步骤或功能可以由服务器和/或由基于网络的云计算系统中的客户端计算机以任何组合来执行。

本文中所描述的系统、装置和方法可以使用在信息载体中（例如，在非暂时性机器可读存储设备中）有形地实现的计算机程序产品来实现，以供可编程处理器执行；并且包括图1或4-7的步骤或功能中的一个或多个的本文中描述的方法和工作流程步骤可以使用可由这样的处理器执行的一个或多个计算机程序来实现。计算机程序是计算机程序指令的集合，其可以在计算机中直接或间接使用，以执行特定活动或带来特定结果。计算机程序可以以任何形式的编程语言（包括编译或解释语言）编写，并且它可以以任何形式来部署，所述形式包括作为独立程序或作为模块、组件、子例程或适用于在计算环境中使用的其他单元。

图10中描绘了可以用于实现本文中所述的系统、装置和方法的示例计算机1002的高级框图。计算机1002包括可操作地耦合到数据存储设备1012的处理器1004和存储器1010。处理器1004通过执行定义这样的操作的计算机程序指令来控制计算机1002的整体操作。计算机程序指令可以被存储在数据存储设备1012或其他计算机可读介质中，并且在期望执行计算机程序指令时加载到存储器1010中。因此，图1或4-7的方法和工作流程步骤或功能可以由存储在存储器1010和/或数据存储设备1012中的计算机程序指令来定义，并由执行计算机程序指令的处理器1004来控制。例如，计算机程序指令可以被实现为由本领域技术人员编程的计算机可执行代码，以执行图1或4-7的方法和工作流程步骤或功能。因此，通过执行计算机程序指令，处理器1004执行图1或4-7的方法和工作流程步骤或功能。计算机1002还可以包括一个或多个网络接口1006，用于经由网络与其他设备通信。计算机1002还可以包括使得用户能够与计算机1002交互的一个或多个输入/输出设备1008（例如，显示器、键盘、鼠标、扬声器、按钮等）。

处理器1004可以包括通用和专用微处理器两者，并且可以是计算机1002的唯一处理器或多个处理器之一。例如，处理器1004可以包括一个或多个中央处理单元（CPU）。处理器1004、数据存储设备1012和/或存储器1010可以包括一个或多个专用集成电路（ASIC）和/或一个或多个现场可编程门阵列（FPGA），由一个或多个专用集成电路（ASIC）和/或一个或多个现场可编程门阵列（FPGA）补充或并入一个或多个专用集成电路（ASIC）和/或一个或多个现场可编程门阵列（FPGA）中。

数据存储设备1012和存储器1010各自包括有形非暂时性计算机可读存储介质。数据存储设备1012和存储器1010可以各自包括高速随机存取存储器，诸如动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、双数据速率同步动态随机存取存储器（DDR RAM）或其他随机存取固态存储器设备，并且可以包括非易失性存储器，诸如一个或多个磁盘存储设备（诸如内部硬盘和可移动磁盘）、磁光盘存储设备、光盘存储设备、闪存设备、半导体存储器设备，诸如可擦除可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM）、压缩盘只读存储器（CD-ROM）、数字通用盘只读存储器（DVD-ROM）盘或其他非易失性固态存储设备。

输入/输出设备1008可以包括外围设备，诸如打印机、扫描仪、显示屏等。例如，输入/输出设备1008可以包括用于向用户显示信息的诸如阴极射线管（CRT）或液晶显示器（LCD）监视器的显示设备、键盘和诸如鼠标或轨迹球的指向（pointing）设备，用户可以通过所述指向设备向计算机1002提供输入。

图像获取设备1014可以被连接至计算机1002，以将图像数据（例如，医学图像）输入至计算机1002。将图像获取设备1014和计算机1002实现为一个设备是可能的。图像获取设备1014和计算机1002通过网络来无线地通信也是可能的。在可能的实施例中，计算机1002可以相对于图像获取设备1014远程定位。

可以使用一台或多台计算机（诸如计算机1002）实现本文中讨论的系统和装置中的任何或所有。

本领域技术人员将认识到，实际计算机或计算机系统的实现可以具有其他结构，并且也可以包含其他组件，并且图10是用于说明性目的的这样的计算机的组件的一些的高级表示。

前述详细描述要被理解为在每个方面中是说明性和示例性的，而非限制性的，并且本文中所公开的本发明的范围不是由详细描述来确定，而是由如根据由专利法允许的全部宽度解释的权利要求来确定。要理解，本文中所示和所描述的实施例仅是本发明的原理的说明，并且可以由本领域技术人员在不脱离本发明的范围和精神的情况下实现各种修改。在不脱离本发明的范围和精神的情况下，本领域技术人员可以实现各种其他特征组合。

Claims

1.一种方法，包括：

接收用于输入到基于AI（人工智能）的系统中的输入数据；

对基于AI的系统的域内特征空间和基于AI的系统的域外特征空间进行建模，域内特征空间对应于基于AI的系统被训练来分类的数据的特征，并且域外特征空间对应于基于AI的系统未被训练来分类的数据的特征；

在域内特征空间和域外特征空间中针对输入数据和针对基于AI的系统被训练来分类的数据生成概率分布函数；以及

基于针对输入数据和针对基于AI的系统被训练来分类的数据的概率分布函数来确定输入数据是否在基于AI的系统的域外。

2.根据权利要求1所述的方法，其中对基于AI的系统的域内特征空间和基于AI的系统的域外特征空间进行建模包括：

根据基于AI的系统的一个或多个域内线性投影矩阵来计算域内特征空间；

根据基于AI的系统的一个或多个域内线性投影矩阵来计算针对域外特征空间的一个或多个正交线性投影矩阵；以及

基于针对域外特征空间的一个或多个正交线性投影矩阵来计算域外特征空间。

3.根据权利要求1所述的方法，其中在域内特征空间和域外特征空间中针对输入数据和针对基于AI的系统被训练来分类的数据生成概率分布函数包括：

使用高斯过程模型或适于可用数据的高斯概率分布模型的组合来生成概率分布函数。

4.根据权利要求1所述的方法，进一步包括：

响应于确定所述输入数据在基于AI的系统的域外，向用户传输通知以审阅由基于AI的系统根据所述输入数据生成的预测。

5.根据权利要求1所述的方法，进一步包括：

响应于确定输入数据在基于AI的系统的域外：

对输入数据进行注释；以及

基于注释的输入数据来训练基于AI的系统。

6.根据权利要求1所述的方法，进一步包括：

响应于确定输入数据不在基于AI的系统的域外，由基于AI的系统根据输入数据生成预测。

7.根据权利要求1所述的方法，其中，接收、建模、生成和确定由与基于AI的系统组合的模块来执行，并且与基于AI的系统组合的模块根据输入数据以及输入数据是否在基于AI的系统的域外的确定来生成预测。

8.根据权利要求1所述的方法，进一步包括：

基于所述确定来选择基于AI的系统的多个算法之一。

9.根据权利要求1所述的方法，其中所述基于AI的系统用于医学成像分析。

10.一种装置，包括：

用于接收用于输入到基于AI（人工智能）的系统中的输入数据的装置；

用于对基于AI的系统的域内特征空间和基于AI的系统的域外特征空间进行建模的装置，域内特征空间对应于基于AI的系统被训练来分类的数据的特征，并且域外特征空间对应于基于AI的系统未被训练来分类的数据的特征；

用于在域内特征空间和域外特征空间中针对输入数据和针对基于AI的系统被训练来分类的数据生成概率分布函数的装置；以及

用于基于针对输入数据和针对基于AI的系统被训练来分类的数据的概率分布函数来确定输入数据是否在基于AI的系统的域外的装置。

11.根据权利要求10所述的装置，其中用于对基于AI的系统的域内特征空间和基于AI的系统的域外特征空间进行建模的装置包括：

用于根据基于AI的系统的一个或多个域内线性投影矩阵来计算域内特征空间的装置；

用于根据基于AI的系统的一个或多个域内线性投影矩阵来计算针对域外特征空间的一个或多个正交线性投影矩阵的装置；以及

用于基于针对域外特征空间的一个或多个正交线性投影矩阵来计算域外特征空间的装置。

12.根据权利要求10所述的装置，其中用于在域内特征空间和域外特征空间中针对输入数据和针对基于AI的系统被训练来分类的数据生成概率分布函数的装置包括：

用于使用高斯过程模型或适于可用数据的高斯概率分布模型的组合来生成概率分布函数的装置。

13.根据权利要求10所述的装置，进一步包括：

用于响应于确定所述输入数据在基于AI的系统的域外，向用户传输通知以审阅由基于AI的系统根据所述输入数据生成的预测的装置。

14.根据权利要求10所述的装置，其中，接收、建模、生成和确定由与基于AI的系统组合的模块来执行，并且与基于AI的系统组合的模块根据输入数据以及输入数据是否在基于AI的系统的域外的确定来生成预测。

15.一种存储计算机程序指令的非暂时性计算机可读介质，当由处理器执行时，所述计算机程序指令使处理器执行操作，所述操作包括：

接收用于输入到基于AI（人工智能）的系统中的输入数据；

16.根据权利要求15所述的非暂时性计算机可读介质，其中对基于AI的系统的域内特征空间和基于AI的系统的域外特征空间进行建模包括：

17.根据权利要求15所述的非暂时性计算机可读介质，所述操作进一步包括：

响应于确定输入数据在基于AI的系统的域外：

用于对输入数据进行注释的装置；以及

用于基于注释的输入数据来训练基于AI的系统的装置。

18.根据权利要求15所述的非暂时性计算机可读介质，所述操作进一步包括：

响应于确定输入数据不在基于AI的系统的域外，由基于AI的系统根据输入数据来生成预测。

19.根据权利要求15所述的非暂时性计算机可读介质，所述操作进一步包括：

基于所述确定来选择基于AI的系统的多个算法之一。

20.根据权利要求15所述的非暂时性计算机可读介质，其中所述基于AI的系统用于医学成像分析。