CN115151917A - 经由批量归一化统计的域泛化 - Google Patents

经由批量归一化统计的域泛化 Download PDF

Info

Publication number
CN115151917A
CN115151917A CN202180016816.1A CN202180016816A CN115151917A CN 115151917 A CN115151917 A CN 115151917A CN 202180016816 A CN202180016816 A CN 202180016816A CN 115151917 A CN115151917 A CN 115151917A
Authority
CN
China
Prior art keywords
domain
statistics
training
target
computing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180016816.1A
Other languages
English (en)
Inventor
马蒂亚·塞古
费德里科·汤巴里
阿莱西奥·东尼奥尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN115151917A publication Critical patent/CN115151917A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一般而言,本公开涉及利用批量归一化统计作为跨域泛化的方式的系统和方法。特别地,本公开的示例实现方式可以通过收集独立的批量归一化统计来为不同的域生成不同的表示,然后可以将其用于在共享的潜在空间中的域之间进行映射。在测试或推理时,来自未知测试或目标域的样本可以被投影到相同的共享潜在空间中。因此,目标样本的域可以被表达为已知域的线性组合,其间的组合基于在潜在空间中的批量归一化统计之间的相应距离被加权。这种相同的映射策略可以在训练和测试时被应用,以学习潜在表示和在这种潜在空间内运行的强大但轻量级的集成模型。

Description

经由批量归一化统计的域泛化
相关申请
本申请要求于2020年3月5日提交的美国临时专利申请No.62/985,434的优先权。美国临时专利申请No.62/985,434的全部内容通过引用并入本文。
技术领域
本公开一般涉及机器学习的模型中的域泛化。更具体地,本公开涉及通过探索批量归一化(“batchnorm”)统计的潜在空间来进行域泛化。
背景技术
在数据分布上训练的机器学习的模型经常无法泛化到来自不同分布的样本。这种现象在文献中通常被称为在训练和测试数据之间的域移位,并且是数据驱动算法的最大限制之一。假设来自测试域的很少注释样本的可用性,可以通过使用显式监督或使用域适应技术微调模型来缓解该问题。不幸的是,这种假设在实践中并不总是成立,因为为实际应用(例如,所有可能的测试域)收集任何可能环境的样本经常是不可行的。例如,用于自动驾驶的解决方案需要在任何可能的季节和天气条件下来自任何可能的道路的样本。
与域适应相反,域泛化是指通过训练或配置模型以使它们对未见过的域具有鲁棒性来解决域移位问题的算法。因此,在域泛化技术中,在训练时不需要(或可能不可获得)测试域或目标域的显式样本。
大多数域泛化工作利用许多训练集合来学习域不变特征提取器。其他工作则专注于显式优化模型参数,以通过临时训练策略跨域获得一致的性能,而不同的工作线需要对于模型架构的修改以实现域不变性。然而,这些解决方案都没有充分利用特定于域的训练数据,因为它们明确地试图丢弃任何特定于域的信息。
发明内容
本公开的实施例的方面和优点将在下面的描述中部分被阐述,或者可以从描述中得知,或者可以通过实施例的实践而得知。
本公开的一个示例方面涉及一种计算机实现的方法,该方法通过批量归一化统计来执行域泛化。该方法包括由包括一个或多个计算设备的计算系统获得机器学习的集成模型,该模型包括共享参数部分和相应地与多个不同源域相关联的多个不同批量归一化层,其中,批量归一化统计的多个不同集合相应地与该多个不同源域相关联。该方法包括访问与目标域相关联的目标样本。该方法包括由计算系统确定该目标样本的批量归一化统计的目标集合。该方法包括由该计算系统相应地确定在批量归一化统计的该目标集合与相应地与该多个不同源域相关联的该批量归一化统计的多个不同集合之间的多个相似性分数。该相似性分数可以是距离度量或相似性的其他统计度量。该方法包括由计算系统相应地用该机器学习的集成模型处理该目标样本,以相应地生成相应地与该多个不同源域相关联的多个特定于域的预测。该方法包括由计算系统至少部分地基于在批量归一化统计的该目标集合和该批量归一化统计的多个不同集合之间的相应相似性分数对该多个特定于域的预测进行插值,以获得针对在该目标域中的该目标样本的目标预测。该方法包括由该计算系统输出针对该目标样本的该目标预测。
本公开的另一个示例方面涉及一种用于训练集成模型以执行域泛化的计算系统。该计算系统包括一个或多个处理器和一个或多个非瞬态计算机可读介质,该一个或多个非瞬态计算机可读介质共同存储:集成模型,其包括一个或多个多源域对准层,其中,每个多源域对准层包括共享权重部分和相应地与多个源域相关联的多个不同的批量归一化层;以及,指令,该指令当由一个或多个处理器执行时,使计算系统对于一个或多个训练迭代中的每一个执行操作。该操作包括获得训练批量,该训练批量包括相应地与多个源域相关联的训练示例的多个特定于域的集合。该操作包括为相应地与该多个源域相关联的多个不同批量归一化层更新批量归一化统计的多个不同集合。该操作包括,对于在该训练示例的多个特定于域的集合中的每个训练示例:确定训练样例的批量归一化统计的训练集合;相应地确定在批量归一化统计的该训练集合和相应地与该多个不同源域相关联的该批量归一化统计的多个不同集合之间的多个相似性分数;以及,至少部分地基于在批量归一化统计的该训练集合和该批量归一化统计的多个不同集合之间的相应相似性分数,对多个特定于域的预测进行插值,以获得针对该训练示例的训练预测。所述操作包括基于为在该训练示例的多个特定于域的集合中的每个训练示例生成的相应训练预测确定聚合的损失。该操作包括为该一个或多个多源域对准层中的至少一个的至少该共享权重部分更新一个或多个参数值。
本公开的另一个示例方面涉及一个或多个非暂时性计算机可读介质,其存储指令,该指令当由一个或多个处理器执行时使计算系统执行操作。该操作包括获得机器学习的集成模型,该模型包括共享参数部分和相应地与多个不同源域相关联的多个并行批量归一化层。该操作包括访问与目标域相关联的目标样本。该操作包括相应地用该机器学习的集成模型处理该目标样本,以相应地生成相应地与该多个不同源域相关联的多个特定于域的预测。该操作包括相应地确定为目标样本生成的批量归一化统计的目标集合和相应地与多个不同批量归一化层相关联的批量归一化统计的多个不同集合之间的多个距离,该多个不同的批量归一化层相应地与所述多个不同源域相关联。该操作包括至少部分地基于在批量归一化统计的该目标集合和该批量归一化统计的多个不同集合之间的相应距离对该多个特定于域的预测进行插值,以获得针对在该目标域中的该目标样本的目标预测。该操作包括输出针对该目标样本的该目标预测。
本公开的其他方面涉及各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。
参考以下描述和所附权利要求将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。被并入本说明书并构成本说明书一部分的附图图示了本公开的示例实施例,并且与描述一起用于解释相关原理。
附图说明
在参考附图的说明书中阐述了针对本领域普通技术人员的实施例的详细讨论,在附图中:
图1A-C描绘了根据本公开的示例实施例的创建特定于域的表示、从未知域投影样本以及相对于已知域定位样本的过程的图形图。
图2A和2B描绘了根据本公开的示例实施例的示例多源域对准层。
图3A和3B描绘了根据本公开的示例实施例的将所提出的手段应用于示例数据集以进行实验。
图4提供了根据本公开的示例实施例的示例训练算法的伪代码。
图5A描绘了根据本公开的示例实施例的示例计算系统的框图。
图5B描绘了根据本公开的示例实施例的示例计算设备的框图。
图5C描绘了根据本公开的示例实施例的示例计算设备的框图。
跨多个附图重复的参考数字意欲标识在各种实现方式中的相同特征。
具体实施方式
概述
通常,本公开涉及利用批量归一化统计作为跨域泛化的方式的系统和方法。特别地,本公开的示例实现方式可以通过收集独立的批量归一化统计来为不同的域生成不同的表示,然后可以将其用于在共享的潜在空间中的域之间进行映射。在测试或推理时,来自未知测试或目标域的样本可以被投影到相同的共享潜在空间中。因此,目标样本的域可以被表达为已知域的线性组合,该组合基于潜在空间中的批量归一化统计之间的相应相似性分数被加权。这种相同的映射策略可以在训练和测试两者时被应用,以学习潜在表示和在这种潜在空间内运行的强大但轻量级的集成模型两者。附录中包含对所提出的系统和方法的示例实现方式的示例实验,且该实验演示了在以下流行的域泛化基准:PACS、Office31和Office-Caltech上,与当前最先进的技术相比,在分类准确度上的显著提高(高达+12%)。
因此,在一个示例中,机器学习的集成模型可以包括共享参数部分和相应地与多个不同源域相关联的多个不同批量归一化层。在训练期间,可以为多个不同源域生成批量归一化统计的多个不同集合。在推理期间,计算系统可以确定与目标域相关联的目标样本的批量归一化统计的目标集合。此后,计算系统可以相应地确定在批量归一化统计的目标集合与相应地与多个不同源域相关联的批量归一化统计的多个不同集合之间的多个相似性分数。计算系统可以用机器学习的集成模型处理目标样本,以相应地生成与多个不同源域相关联的多个特定于域的预测。计算系统可以至少部分地基于在批量归一化统计的目标集合与批量归一化统计的多个不同集合之间的相应相似性分数来对于多个特定于域的预测进行插值,以获得针对在目标域中的目标样本的目标预测。
更具体地,本公开的示例方面通过在训练时为每个可用域收集独立的批量归一化统计来显式地促进特定于域的表示。在一些实现方式中,这导致训练特定于域的模型的轻量级的集成,其中,大部分或所有参数得以共享,除了归一化统计之外。在达到收敛后,可以使用累积的统计将每个域映射为在潜在空间中的点。
为了提供示例,图1A示出了这种空间的可视化,用于单个批量归一化层的简化情况,该层使用两个滤波器对于卷积层的输出进行操作(例如,仅累积两个均值和方差,并且每个域可以被表示为2D高斯;其他实施例累积更多的统计,例如,跨多个连续层)。在这个空间中,可以通过简单地查看在样本的实例归一化统计与每个特定于域的统计之间的距离(例如,与到对应于累积的总体统计的它们的质心的特定距离)而有效地测量样本对于域的隶属度。因此,归一化统计可用于有效地学习域的潜在空间。
特别地,相同的潜在空间表示可以用于来自未知域的样本,依靠它们的实例统计将它们投影到相同的潜在空间中。图1B图示了来自未知域的样本通过其实例统计的这种投影的可视化。在投影之后,可以确定样本与域质心的距离,有效地尝试相对于已知域定位未知域。在图1C中概述了该过程,其中,箭头表示在已知域质心和未知域之间的测量距离。
在投影之后,针对测试样本而言的所提出的轻量级的集成的预测可以被生成为特定于域的预测的组合。例如,可以根据潜在空间中与已知域的距离的倒数对特定于域的预测进行加权。在对来自已知域的样本进行训练时,可以使用相同的特定于域的模型组合。通过这样做,所提出的训练手段迫使模型学习有意义的潜在空间和可以根据所提出的加权策略安全地线性组合的罗吉特机率。
因此,本公开的示例方面认识到,批量归一化统计(例如,在卷积层上累积)可用于将输入样本(例如,输入图像)映射到潜在空间,在该潜在空间中,可以根据样本到域质心的距离测量对于域的隶属度。这个概念的一个有效用途是学习轻量级的集成模型,该模型共享一些或所有参数,除了归一化统计之外。这种集成模型可以通过基于目标样本的实例范数统计与域质心之间的距离对各种特定于域的预测进行插值来更好地泛化到未见过的域。
本公开提供了多个技术效果和益处。作为一个示例,与以前的工作相比,所提出的系统和方法不会丢弃特定于域的属性,而是使用它们来学习域潜在空间并相对于已知域映射未知域。这导致在标准域泛化基准上相对于使用不同网络架构的现有技术有了显著改进。因此,可以提高计算系统泛化到未见过的域的能力。
所提出的技术可以被应用于具有批量归一化统计特征的许多不同机器学习模型架构,包括作为示例的依赖于批量归一化层的任何现代卷积神经网络(CNN)。所提出的手段还优雅地扩展到在训练时可用的域的数量。
作为另一个示例技术效果和益处,本文描述的域泛化技术可以消除为每个可能的域训练或重新训练新模型或从所有可能的域收集训练样本的需要。特别是,所提出的系统和方法可以生成对新的或未见过的域具有鲁棒性的单一集成模型。因此,没有必要为这些额外的域生成额外的模型或收集额外的训练数据。以这种方式,可以节省将花费在模型训练或训练数据收集上的计算资源,从而减少诸如处理器使用、存储器使用和/或网络带宽之类的计算资源的消耗。
示例域泛化技术
所提出的技术的一个示例方面是使用批量归一化统计来映射在共享潜在空间中的已知和未知域,其中,可以根据高斯分布之间的距离来测量样本的域隶属度。以下部分介绍了一些常见的符号,描述了可用于映射在潜在空间中的域的示例多源域对准层,并描述了如何在同一潜在空间中投影来自未知域的样本以获得鲁棒性能的示例。最后,可以在训练时结合通过映射策略的相同预测以提高模型性能。
示例符号
令X和Y表示模型的输入(例如图像)和输出(例如对象类别)空间。令
Figure BDA0003815001390000071
表示在训练时可用的K个源域的集合。可以用空间X×Y上的未知概率分布
Figure BDA0003815001390000081
来描述每个域di。机器学习的模型的目的是学习整个训练集合的概率分布pxy。令t是仅在测试时可用的通用目标域,并且遵循相同空间上的未知概率分布
Figure BDA0003815001390000082
通常,深度学习模型学习映射X→Y。本公开的示例实现方式包括学习映射(X,D)→Y的模型的轻量级的集成,该映射利用域标签来学习后验分布的集成
Figure BDA0003815001390000083
条件是域隶属度。由于在训练期间不可能学习目标分布
Figure BDA0003815001390000084
因此提出的方法的一个目标是将其近似为学习的源分布
Figure BDA0003815001390000085
的混合(例如,线性组合)。
为每个源域d∈D给出包含nd个标记样本的训练集合
Figure BDA0003815001390000086
测试集合
Figure BDA0003815001390000087
由从目标域t的未知边际分布
Figure BDA0003815001390000088
收集的mt个未标记样本组成。与域适应设置相反,这里使用的域泛化手段假设来自目标域的样本在训练时不可用。此外,在推理时,假设每个未见过的样本都被独立处理,也就是说,来自先前见过的目标样本的信息不被累积而影响新的预测。
示例多源域对准层
神经网络特别倾向于在其内部表示中捕获数据集偏差。内部特征分布确实高度依赖于域。为了捕获和减轻多源设置中固有的分布偏移,本公开的示例实现方式使批量归一化层通过特定于域的归一化统计将域相关激活归一化为相同的参考分布。
因此,可以通过将其的一阶和二阶矩
Figure BDA0003815001390000089
名义上地与具有零均值和单一方差的参考高斯的那些匹配来归一化某个域d的激活:
Figure BDA0003815001390000091
其中,xd是从来自域d的激活的边际分布
Figure BDA0003815001390000092
中提取的输入激活;
Figure BDA0003815001390000093
Figure BDA0003815001390000094
是域d的总体统计,且ε>0是小常数,用于避免数值问题。
在训练时,多源批量归一化层可以收集和应用特定于域的批量统计
Figure BDA0003815001390000095
同时相应地将域总体统计更新为每个批量b的统计的移动平均。
在推理时,可以单独分析每个测试样本,并且域标签d可能不可用。这归结为批量大小等于1的情况。可以将单个样本x的实例统计与来自域d的批量b的统计
Figure BDA0003815001390000096
进行比较。由于总体统计只不过是对相同高斯分布的统计的噪声较小的估计,因此该陈述的有效性扩展到与它们的比较。
例如,在大小H×W和批量大小B的2D特征图的情况下,批量统计的计算的分析如下:
Figure BDA0003815001390000097
Figure BDA0003815001390000098
其中,μb
Figure BDA0003815001390000099
相应地是批量均值和方差,且x是特征图的单个元素的值。如果考虑正态分布的任意变量
Figure BDA00038150013900000910
则很明显实例统计(情况B=1)是对同一高斯的参数的估计,但在较少数量的样本H·W而不是B·H·W上被计算
由于内部特征分布高度依赖于域,因此为每个域累积的总体统计提供了对应域的紧凑表示。下一部分解释如何利用这一层来映射同一潜在空间中的源域和未见过的样本。
图2A和2B图示了示例多源域对准层。特别地,如图2A处所示,该层可以包括共享权重部分以生成特征图和多个并行的批量归一化层,该多个并行的批量归一化层相应地对应于不同源域。在训练时,批量归一化层可以收集和更新特定于域的批量和总体统计。在推理时,如图2B中所示,为了计算最终预测,同一层可以收集目标样本的实例统计,然后可以使用这些实例统计来估计其域隶属度。在一些实现方式中,虽然为每个域保留了单独的批量归一化统计,但相同的批量归一化层参数gamma和beta可以由所有域的所有批量归一化层共同学习和共享。
Batchnorm潜在空间中的示例域定位
利用上一部分中提出的域对准层来收集特定的统计允许网络清楚地学习多个源分布。
该权宜之计的结果是学习了模型的轻量级的集成,其中,每个模型共享一些或所有权重,但对于归一化参数不同。在一个示例中,所有权重都被共享,但对于在一个或多个层处的归一化参数不同。在另一示例中,共享特征提取部分的所有权重被共享,但对于在一个或多个层处的归一化参数不同,并且不同之处在于每个源域具有特定于域的预测头。
由于这种轻量级的集成体现了多个源分布
Figure BDA0003815001390000101
因此本公开提出通过跨这些分布进行最优插值以近似目标分布
Figure BDA0003815001390000102
来减少在目标域上的域移位。生成的目标分布是集成中分布的加权混合。在某些实现方式中,权重的选择取决于测试样本相对于在潜在空间内每个源域的距离。
因此,示例实现方式基于其总体统计
Figure BDA0003815001390000111
在潜在空间中映射单独的域,其中,
Figure BDA0003815001390000112
Figure BDA0003815001390000113
Figure BDA0003815001390000114
是所有层l∈B={1,2,...,}的域d的累积总体均值和方差的向量。B是在所选模型架构中的批量归一化层的集合。包括在集合B中的批量归一化层的集合可以包括模型中包括的所有或少于所有的批量归一化层。集合B可以包括任意数量的层(例如,1、2、20等)。
具体来说,潜在空间Ll由在模型的层l处的激活统计跨越。在这个空间中,单个样本x通过它们在层l的实例统计被映射,而为在同一层l处的每个域累积的总体统计用于表示在该空间中的域质心。直观地说,由于神经网络中的激活高度依赖于域,因此在该潜在空间中的点簇与特定域相吻合,该特定域的累积的总体统计提供了紧凑的表示。
因此,在某些实现方式中,某个域d的潜在嵌入可以被定义为:
Figure BDA0003815001390000115
其是所有层l∈B的域d的累积总体统计的向量。
类似地,对于未见到的目标样本xt,它的投影可以将其通过网络前向传播并通过其激活的实例统计对其进行归一化来被推导出。因此,目标样本xt的潜在嵌入
Figure BDA0003815001390000117
可以被定义为在网络中的不同批量归一化层处的其实例统计的堆叠向量:
Figure BDA0003815001390000116
潜在嵌入
Figure BDA0003815001390000118
的每个元组表示在前向传播期间在某层l处收集的实例统计,且可用于映射在层l的潜在空间Ll中的样本xt
一旦测试样本的嵌入可用,我们就可以利用这些信息映射在批量归一化潜在空间L={Ll}l∈B中的样本,其中,可以将目标样本xt对于域d的隶属度确定为例如在目标嵌入和域嵌入之间的距离度量的倒数。这允许将任何测试样本进行软域分类到每个源域。
为了计算在层l的潜在域空间Ll中两点之间的距离度量,将对应批量归一化层的移动均值和移动方差视为多元高斯分布的参数。可以采用概率测度空间上的距离,即满足三角不等式的对称正定函数。一个示例距离函数是用于两个多元高斯分布的特殊情况的Wasserstein距离。
令p~N(μp,Cp)和q~N(μq,Cq)是Rn上的两个正态分布,相应地地具有期望值μp和μq∈Rn,以及Cp,Cq∈Rn×n协方差矩阵。那么2-Wasserstein距离为:
Figure BDA0003815001390000121
其中,||·||2是Rn上的欧几里得范数。
示例实现方式利用Wasserstein度量来通过下述方式测量在测试样本xt和域d的嵌入zd之间的距离:在批量归一化层l∈B上求和在激活嵌入
Figure BDA0003815001390000123
Figure BDA0003815001390000124
之间的距离:
Figure BDA0003815001390000122
其中,B是在所选网络架构中的批量归一化层的集合。
在某些实现方式中,测试样本xt对域d的隶属度可以定义为与该域的距离的倒数:
Figure BDA0003815001390000131
通过查看等式2和3,可以看出在实例和批量统计之间的唯一区别是在其上估计它们的样本的数量,且因此通过计算由它们表示的两个多元高斯分布之间的Wasserstein距离来比较它们是公平的。
一旦计算了对于所有源域的隶属度,它们就可以用于最终将目标分布
Figure BDA0003815001390000135
恢复为由对应的域隶属度加权的学习的源分布
Figure BDA0003815001390000136
的混合(例如,线性组合):
Figure BDA0003815001390000132
其中,
Figure BDA0003815001390000133
是测试样本xt对域d的隶属度值。
最终预测f(xt)可以类似地被计算为例如在不同域假设下获得的多个预测的线性组合:
Figure BDA0003815001390000134
其中,f(xt|d)是使用从域d学习的模型对样本xt获得的预测。在一些实现方式中,最终预测的计算可以发生在集成模型的softmax层处。在其他实现方式中,最终预测的计算可以发生在集成模型的输出层处。在其他实现方式中,最终预测的计算可以单独发生在集成模型的每一层处,并且最终预测可以在每一层处被传递到下一个顺序层。
作为用于图示的一个示例,图3A和3B图示了作为示例将此过程应用于PACS数据集。该数据集由4个域组成,其中3个在图示示例中被假定在训练时可用。因此,每个训练批量由3个域批量组成,每个源域一个。图3A描绘了上面介绍的多源域对准层。在训练期间,为每个源域更新和应用不同的统计。在推理时,目标样本通过实例归一化传播以导出其潜在嵌入。如图3B所示,如此收集的总体和实例统计数据用于将域和目标样本映射到相同的潜在空间。最后,可以通过计算域和目标质心之间的Wasserstein距离来估计样本的域隶属度。
这种优雅的公式允许在batchnorm统计的潜在空间中进行最佳导航。具体来说,如果测试样本属于源域之一,则所提出的方法会为对应的域分配高隶属度值。另一方面,如果测试样本不属于任何源域,则对应的目标模型将被表达为在轻量级的集成中巧妙包含的源模型的组合(例如线性组合)。
示例训练策略
为了更好地定义每个批量归一化层的潜在空间,示例实现方式复制了前面部分中描述的相同过程,以计算对于来自已知域的样本在训练时的预测。在一个说明性示例中,训练批量由具有相同数量样本的K个域批量组成。在每个训练步骤期间,(i)首先传播域批量以更新对应的域总体统计
Figure BDA0003815001390000141
然后,(ii)所有样本都在不假设硬域隶属度的情况下前向传播以收集它们的实例统计,类似于在推理时如何对于目标样本加以解释。最后,(iii)每个样本在K个多域假设下传播,并且根据等式12对得到的特定于域的预测进行加权。在训练期间应用此过程可以鼓励创建明确定义的批量归一化潜在空间。
在一些实现方式中,由于模型是用某些权重初始化的(例如,在ImageNet上预训练),每个特定于域的批量归一化分支需要在开始此训练过程之前进行专门化,否则可能会出现收敛问题。因此,在某些实现方式中,可以使用热身时期预先计算特定于域的批量归一化统计,其中,模型在整个数据集上按照标准训练过程被训练,除了域批量通过对应的批量归一化分支被传播(例如,以累计特定于域的批量归一化统计)。
示例设备和系统
图5A描绘了根据本公开的示例实施例的示例计算系统100的框图。系统100包括通过网络180通信耦合的用户计算设备102、服务器计算系统130和训练计算系统150。
用户计算设备102可以是任何类型的计算设备,例如个人计算设备(例如膝上型计算机或台式机)、移动计算设备(例如智能电话或平板计算机)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。
用户计算设备102包括一个或多个处理器112和存储器114。此一个或多个处理器112可以是任何合适的处理设备(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等),并且可以是一个处理器或可操作地连接的多个处理器。存储器114可以包括一种或多种非暂时性计算机可读存储介质,例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器114可以存储由处理器112执行以使用户计算设备102执行操作的数据116和指令118。
在一些实现方式中,用户计算设备102可以存储或包括一个或多个机器学习的模型120。例如,机器学习的模型120可以是或可以包括各种机器学习的模型,例如神经网络(例如,深度神经网络);或其他类型的机器学习的模型,包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、递归神经网络(例如,长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。
在一些实现方式中,一个或多个机器学习的模型120可以通过网络180从服务器计算系统130被接收,被存储在用户计算设备存储器114中,然后由一个或多个处理器112使用或以其他方式实现。在一些实现方式中,用户计算设备102可以实现单个机器学习的模型120的多个并行实例。
附加地或替代地,一个或多个机器学习的模型140可以被包括在服务器计算系统130中或以其他方式被服务器计算系统130存储和实现,该服务器计算系统130根据客户端-服务器关系与用户计算设备102通信。例如,机器学习的模型140可以由服务器计算系统140实现为web服务(例如,域泛化服务)的一部分。因此,一个或多个模型120可以在用户计算设备102处被存储和实现,和/或一个或多个模型140可以在服务器计算系统130处被存储和实现。
用户计算设备102还可以包括一个或多个接收用户输入的用户输入组件122。例如,用户输入组件122可以是对用户输入对象(例如,手指或触笔)的触摸敏感的触敏组件(例如,触敏显示屏或触摸板)。触敏组件可用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户可以通过其提供用户输入的其他装置。
服务器计算系统130包括一个或多个处理器132和存储器134。该一个或多个处理器132可以是任何合适的处理设备(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等),且可以是一个处理器或可操作地连接的多个处理器。存储器134可以包括一种或多种非暂时性计算机可读存储介质,例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器134可以存储由处理器132执行以使服务器计算系统130执行操作的数据136和指令138。
在一些实现方式中,服务器计算系统130包括一个或多个服务器计算设备或否则由一个或多个服务器计算设备实现。在服务器计算系统130包括多个服务器计算设备的情况下,这样的服务器计算设备可以根据顺序计算架构、并行计算架构或它们的某种组合来操作。
如上所述,服务器计算系统130可以存储或否则包括一个或多个机器学习的模型140。例如,模型140可以是或可以否则包括各种机器学习的模型。示例机器学习的模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。
用户计算设备102和/或服务器计算系统130可以通过与通过网络180通信耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150可以是与服务器计算系统130分开或可以是服务器计算系统130的一部分。
训练计算系统150包括一个或多个处理器152和存储器154。该一个或多个处理器152可以是任何合适的处理设备(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等),且可以是一个处理器或可操作地连接的多个处理器。存储器154可以包括一种或多种非暂时性计算机可读存储介质,例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器154可以存储由处理器152执行以使训练计算系统150执行操作的数据156和指令158。在一些实现方式中,训练计算系统150包括一个或多个服务器计算设备或否则由一个或多个服务器计算设备实现。
训练计算系统150可以包括模型训练器160,其使用各种训练或学习技术(例如,错误的反向传播)来训练存储在用户计算设备102和/或服务器计算系统130处的机器学习的模型120和/或140。例如,可以通过模型反向传播损失函数以更新模型的一个或多个参数(例如,基于损失函数的梯度)。可以使用各种损失函数,例如均方误差、似然损失、交叉熵损失、铰链损失和/或各种其他损失函数。可以使用梯度下降技术在多次训练迭代中迭代更新参数。
在一些实现方式中,执行错误的反向传播可以包括执行随时间截断的反向传播。模型训练器160可以执行多种泛化技术(例如,权重衰减、丢失等)以提高被训练的模型的泛化能力。
特别地,模型训练器160可以基于训练数据162的集合训练机器学习的模型120和/或140。训练数据162可以包括例如分配给不同源域的数据。源域可以包括不同类型的数据、不同的数据源、不同的数据结构、与不同实体关联的数据、与不同条件关联的数据等。
在一些实现方式中,如果用户已经同意,则训练示例可以由用户计算设备102提供。因此,在这样的实现方式中,训练计算系统150可以基于从用户计算设备102接收到的特定于用户的数据来训练提供给用户计算设备102的模型120。在一些情况下,这个过程可以被称为个性化模型。
模型训练器160包括用于提供期望功能的计算机逻辑。模型训练器160可以在控制通用处理器的硬件、固件和/或软件中实现。例如,在一些实现方式中,模型训练器160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实现方式中,模型训练器160包括计算机可执行指令的一个或多个集合,这些指令存储在诸如RAM硬盘或光或磁介质的有形计算机可读存储介质中。
网络180可以是任何类型的通信网络,例如局域网(例如,内联网)、广域网(例如,互联网)或者它们的某种组合,并且可以包括任何数量的有线或无线链路。通常,可以通过任何类型的有线和/或无线连接,使用多种通信协议(例如,TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如,HTML、XML)和/或保护方案(例如VPN、安全HTTP、SSL)来承载在网络180上的通信。
图5A图示了可以用于实现本公开的一个示例计算系统。也可以使用其他计算系统。例如,在一些实现方式中,用户计算设备102可以包括模型训练器160和训练数据集162。在这样的实现方式中,可以在用户计算设备102本地训练和使用模型120。在一些这样的实现方式中,用户计算设备102可以实现模型训练器160以基于用户特定数据个性化模型120。
图5B描绘了根据本公开的示例实施例的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。
计算设备10包括多个应用(例如,应用1到N)。每个应用都包含其自己的机器学习库和机器学习的模型。例如,每个应用都可以包含机器学习的模型。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。
如图5B所示,每个应用可以与计算设备的多个其他组件通信,例如一个或多个传感器、场境管理器、设备状态组件和/或附加组件。在一些实现方式中,每个应用可以使用API(例如,公共API)与每个设备组件通信。在一些实现方式中,每个应用使用的API特定于该应用。
图5C描绘了根据本公开的示例实施例的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。
计算设备50包括多个应用(例如,应用1到N)。每个应用都与一个中心智能层通信。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实现方式中,每个应用可以使用API(例如,跨所有应用的通用API)与中心智能层(和存储在其中的模型)通信。
中心智能层包括多个机器学习的模型。例如,如图5C所示,可以为每个应用提供相应的机器学习的模型(例如,模型)并将该模型由中心智能层管理。在其他实现方式中,两个或更多应用可以共享单个机器学习的模型。例如,在一些实现方式中,中心智能层可以为所有应用提供单个模型(例如,单个模型)。在一些实现方式中,中心智能层被包括在计算设备50的操作系统内或否则由计算设备50的操作系统实现。
中心智能层可以与中心设备数据层通信。中心设备数据层可以是计算设备50的数据的集中储存库。如图5C所示,中心设备数据层可以与计算设备的多个其他组件通信,例如一个或多个传感器、场境管理器、设备状态组件和/或附加组件。在一些实现方式中,中心设备数据层可以使用API(例如,私有API)与每个设备组件通信。
附加公开
本文所讨论的技术参考了服务器、数据库、软件应用和其他基于计算机的系统以及所采取的动作和发送到这些系统和从这些系统发送的信息。基于计算机的系统固有的灵活性允许在组件之间对任务和功能进行多种可能的配置、组合和划分。例如,可以使用单个设备或组件或多个组合工作的设备或组件来实现这里讨论的过程。数据库和应用可以实现在单个系统上,或者分布在多个系统上。分布式组件可以按顺序或并行运行。
虽然已针对本主题的各种特定示例实施例详细描述了本主题,但每个示例是通过解释而不是对本公开的限制来提供的。本领域技术人员在获得对前述内容的理解后,可以容易地产生对这些实施例的改变、变化和等同物。因此,本主题公开不排除包括对本领域普通技术人员显而易见的对于本主题的这些修改、变化和/或添加。例如,作为一个实施例的一部分示出或描述的特征可以用于另一实施例以产生又一实施例。因此,本公开旨在涵盖这样的改变、变化和等同物。

Claims (19)

1.一种用于经由批量归一化统计执行域泛化的计算机实现的方法,所述方法包括:
由包括一个或多个计算设备的计算系统获得机器学习的集成模型,所述机器学习的集成模型包括共享参数部分和与多个不同源域相应地相关联的多个不同批量归一化层,其中,批量归一化统计的多个不同集合与所述多个不同源域相应地相关联;
访问与目标域相关联的目标样本;
由所述计算系统确定所述目标样本的批量归一化统计的目标集合;
由所述计算系统相应地确定在批量归一化统计的所述目标集合和与所述多个不同源域相应地相关联的批量归一化统计的所述多个不同集合之间的多个相似性分数;
由所述计算系统利用所述机器学习的集成模型来相应地处理所述目标样本,以相应地生成与所述多个不同源域相应地相关联的多个特定于域的预测;
由所述计算系统至少部分地基于在批量归一化统计的所述目标集合和批量归一化统计的所述多个不同集合之间的相应相似性分数,对所述多个特定于域的预测进行插值,以获得针对在所述目标域中的所述目标样本的目标预测;以及
由所述计算系统输出针对所述目标样本的所述目标预测。
2.根据前述权利要求中任一项所述的计算机实现的方法,其中,所述机器学习的集成模型包括一个或多个多源域对准层,并且其中,每个多源域对准层包括共享权重部分和与所述多个源域相应地相关联的并行的所述不同批量归一化层中的两个或更多个。
3.根据前述权利要求中任一项所述的计算机实现的方法,其中,在所述机器学习的集成模型的训练期间所述目标样本是不可用的。
4.根据前述权利要求中任一项所述的计算机实现的方法,其中,批量归一化统计的所述多个不同集合和批量归一化统计的所述目标集合各自包括平均统计和方差统计的相应值。
5.根据前述权利要求中任一项所述的计算机实现的方法,其中,由所述计算系统至少部分地基于在批量归一化统计的所述目标集合和批量归一化统计的所述多个不同集合之间的相应相似性分数对所述多个特定于域的预测进行插值以获得针对所述目标域中的所述目标样本的目标预测包括:
由所述计算系统相应地为所述多个源域确定多个隶属度值,其中,每个源域的所述隶属度值与在批量归一化统计的所述目标集合和与这样的源域相关联的批量归一化统计的所述集合之间的相应距离成反比;以及
由所述计算系统确定根据所述多个隶属度值所加权的所述多个特定于域的预测的加权平均值。
6.根据前述权利要求中任一项所述的计算机实现的方法,其中,相应地在批量归一化统计的所述目标集合和与所述多个不同源域相应地相关联的批量归一化统计的所述多个不同集合之间的所述多个相似性分数包括在相应的多元高斯分布之间的多个Wasserstein距离。
7.根据前述权利要求中任一项所述的计算机实现的方法,其中,所述多个源域包括多个图像域。
8.根据前述权利要求中任一项所述的计算机实现的方法,其中,所述机器学习的集成模型包括卷积神经网络。
9.根据前述权利要求中任一项所述的计算机实现的方法,其中,所述机器学习的集成模型包括所述共享参数部分,所述共享参数部分被配置为对所述多个源域中的全部和多个不同的预测头执行特征提取,所述多个不同的预测头相应地被配置成对所述多个源域单独地执行预测。
10.根据前述权利要求中任一项所述的计算机实现的方法,其中:
由所述计算系统利用所述机器学习的集成模型相应地处理所述目标样本以相应地生成与所述多个不同源域相应地相关联的所述多个特定于域的预测包括:生成与所述多个不同源域相应地相关联的多个softmax层输出;以及
由所述计算系统对所述多个特定于域的预测进行插值包括:
由所述计算系统对所述多个softmax层输出进行插值以生成聚合的softmax输出;以及
由所述计算系统基于所述聚合的softmax输出来生成所述目标样本的所述目标预测。
11.一种包括计算机可执行代码的计算机可读存储介质,所述计算机可执行代码当由一个或多个计算机处理器执行时将使所述一个或多个处理器执行根据前述权利要求中任一项所述的方法。
12.一种计算机系统,包括:
一个或多个处理器;以及
根据权利要求11所述的计算机可读存储介质。
13.一种用于训练集成模型以执行域泛化的计算系统,所述计算系统包括:
一个或多个处理器;以及
一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储:
集成模型,所述集成模型包括一个或多个多源域对准层,其中,每个多源域对准层包括共享权重部分和与多个源域相应地相关联的多个不同批量归一化层;以及
指令,所述指令当由所述一个或多个处理器执行时使所述计算系统执行操作,所述操作包括:对于一个或多个训练迭代中的每一个,
获得训练批量,所述训练批量包括与所述多个源域相应地相关联的训练示例的多个特定于域的集合;
更新与所述多个源域相应地相关联的所述多个不同批量归一化层的批量归一化统计的多个不同集合;
对于在训练示例的所述多个特定于域的集合中的每个训练示例:
确定所述训练示例的批量归一化统计的训练集合;
相应地确定在批量归一化统计的所述训练集合和与所述多个不同源域相应地相关联的批量归一化统计的所述多个不同集合之间的多个相似性分数;以及
至少部分地基于在批量归一化统计的所述训练集合和批量归一化统计的所述多个不同集合之间的相应相似性分数,对多个特定于域的预测进行插值,以获得针对所述训练示例的训练预测;
基于为在训练示例的所述多个特定于域的集合中的每个训练示例所生成的相应训练预测,来确定聚合损失;以及
更新所述一个或多个多源域对准层中的至少一个多源域对准层的至少所述共享权重部分的一个或多个参数值。
14.根据权利要求13所述的计算系统,其中,所述操作进一步包括:在所述一个或多个训练迭代之前,
执行热身时期,在所述热身时期中在整个训练数据集上训练所述集成模型,其中来自特定于域的批量的梯度通过与对应的源域相关联的所述不同批量归一化层中的对应一个被传播。
15.根据权利要求13或14所述的计算系统,其中,批量归一化统计的所述多个不同集合和批量归一化统计的所述训练集合各自包括平均统计和方差统计的相应值。
16.根据权利要求13至15中任一项所述的计算系统,其中,至少部分地基于在批量归一化统计的所述训练集合和批量归一化统计的所述多个不同集合之间的相应相似性分数对所述多个特定于域的预测进行插值以获得针对所述训练示例的所述训练预测包括:
为所述多个源域相应地确定多个隶属度值,其中,每个源域的所述隶属度值与在批量归一化统计的所述训练集合和与这样的源域相关联的批量归一化统计的所述集合之间的相应距离成反比;以及
确定根据所述多个隶属度值所加权的所述多个特定于域的预测的加权平均值。
17.根据权利要求13至16中任一项所述的计算系统,其中,相应地在批量归一化统计的所述训练集合和与所述多个不同源域相应地相关联的批量归一化统计的所述多个不同集合之间的所述多个相似性分数包括在相应的多元高斯分布之间的多个Wasserstein距离。
18.根据权利要求13至17中任一项所述的计算系统,其中,所述操作还包括:在所述一个或多个训练迭代之后,
部署用于执行域泛化的所述集成模型以生成针对与未见过的目标域相关联的目标样本的目标预测。
19.一种计算系统,包括:
一个或多个处理器;以及
一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质存储:
集成模型,所述集成模型包括一个或多个多源域对准层,其中,每个多源域对准层包括共享权重部分和与多个源域相应地相关联的多个不同批量归一化层;以及
指令,所述指令当由所述一个或多个处理器执行时,使所述计算系统采用所述集成模型来为与不同于所述多个源域的目标域相关联的目标样本生成目标预测。
CN202180016816.1A 2020-03-05 2021-03-05 经由批量归一化统计的域泛化 Pending CN115151917A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062985434P 2020-03-05 2020-03-05
US62/985,434 2020-03-05
PCT/US2021/021002 WO2021178747A1 (en) 2020-03-05 2021-03-05 Domain generalization via batch normalization statistics

Publications (1)

Publication Number Publication Date
CN115151917A true CN115151917A (zh) 2022-10-04

Family

ID=75252839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180016816.1A Pending CN115151917A (zh) 2020-03-05 2021-03-05 经由批量归一化统计的域泛化

Country Status (4)

Country Link
US (1) US20230122207A1 (zh)
EP (1) EP4081953A1 (zh)
CN (1) CN115151917A (zh)
WO (1) WO2021178747A1 (zh)

Also Published As

Publication number Publication date
WO2021178747A1 (en) 2021-09-10
US20230122207A1 (en) 2023-04-20
EP4081953A1 (en) 2022-11-02

Similar Documents

Publication Publication Date Title
EP3446260B1 (en) Memory-efficient backpropagation through time
US20200410384A1 (en) Hybrid quantum-classical generative models for learning data distributions
CN111279362B (zh) 胶囊神经网络
WO2021007812A1 (zh) 一种深度神经网络超参数优化方法、电子设备及存储介质
US11295208B2 (en) Robust gradient weight compression schemes for deep learning applications
US11593611B2 (en) Neural network cooperation
JP6483667B2 (ja) ベイズの最適化を実施するためのシステムおよび方法
US11663486B2 (en) Intelligent learning system with noisy label data
US11681914B2 (en) Determining multivariate time series data dependencies
US20230177340A1 (en) Apparatus and method with neural network implementation of domain adaptation
US20220108215A1 (en) Robust and Data-Efficient Blackbox Optimization
CN114072809A (zh) 经由神经架构搜索的小且快速的视频处理网络
CN113490955A (zh) 用于产生金字塔层的架构的系统和方法
CN115151917A (zh) 经由批量归一化统计的域泛化
Qin et al. Tracking treatment effect heterogeneity in evolving environments
Kavarakuntla Performance modelling for scalable deep learning
US20230351169A1 (en) Real-time prediction of future events using integrated input relevancy
US20230351491A1 (en) Accelerated model training for real-time prediction of future events
US11928128B2 (en) Construction of a meta-database from autonomously scanned disparate and heterogeneous sources
US20210256388A1 (en) Machine-Learned Models Featuring Matrix Exponentiation Layers
CN114037066B (zh) 数据处理方法、装置、电子设备及存储介质
US20240104354A1 (en) Variational method of maximizing conditional evidence for latent variable models
US20230409673A1 (en) Uncertainty scoring for neural networks via stochastic weight perturbations
US20220414452A1 (en) Mechanistic model parameter inference through artificial intelligence
US20230267363A1 (en) Machine learning with periodic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination