CN116261733A - 用于预测新模型参数的辅助模型 - Google Patents

用于预测新模型参数的辅助模型 Download PDF

Info

Publication number
CN116261733A
CN116261733A CN202180066169.5A CN202180066169A CN116261733A CN 116261733 A CN116261733 A CN 116261733A CN 202180066169 A CN202180066169 A CN 202180066169A CN 116261733 A CN116261733 A CN 116261733A
Authority
CN
China
Prior art keywords
model
new
vector
data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180066169.5A
Other languages
English (en)
Inventor
张�成
A·兰姆
E·S·萨韦列夫
李映真
C·朗登
P·卡梅伦
S·契亚切克
J·M·H·罗巴托
R·特纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB2015297.1A external-priority patent/GB202015297D0/en
Priority claimed from US17/095,700 external-priority patent/US20220147818A1/en
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN116261733A publication Critical patent/CN116261733A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种通过训练辅助机器学习模型以用于预测主机器学习模型的一组新参数的计算机实现的方法,其中主模型被配置为从一组真实世界特征的观测子集转换为一组真实世界特征的预测版本。

Description

用于预测新模型参数的辅助模型
背景技术
神经网络被用于机器学习和人工智能(AI)领域。神经网络包括多个节点,这些节点通过链路(有时称为边)互连。一个或多个节点的输入边形成网络整体的输入,并且一个或多个其他节点的输出边形成网络整体的输出,而网络内各个节点的输出边形成其他节点的输入边。每个节点表示其(多个)输入边的函数,该函数通过相应权重加权,结果在其(多个)输出边上输出。可以基于一组经验数据(训练数据)逐渐调整权重,以便趋向于网络将为给定输入输出期望值的状态。
典型地,节点被布置成具有至少一个输入层和一个输出层的层。“深度”神经网络包括输入层和输出层之间的一个或多个中间层或“隐藏”层。神经网络可以获取输入数据并通过网络的层传播输入数据以生成输出数据。网络中的特定节点对数据执行操作,这些操作的结果将传递给其他节点,依此类推。
图1A通过图示的方式给出了示例神经网络101的简化表示。示例神经网络包括节点104的多个层:输入层102i、一个或多个隐藏层102h和输出层102o。实际上,每个层中可能有许多节点,但为了简单起见,仅示出了几个节点。每个节点104被配置为通过对输入到该节点的值执行函数来生成输出。一个或多个节点的输入构成神经网络的输入,一些节点的输出构成其他节点的输入,一个或多个节点的输出形成网络的输出。
在网络的一些或所有节点处,对该节点的输入通过相应权重进行加权。权重可以定义给定层中的节点与神经网络的下一层中节点之间的连接性。权重可以采用单个标量值的形式,也可以建模为概率分布。当权重由分布定义时,如在贝叶斯模型中,神经网络可以是完全概率的,并捕获不确定性的概念。节点之间的连接106的值也可以被建模为分布。如图1B所示。分布可以以一组样本或一组参数化分布的参数(例如平均值μ和标准偏差σ或方差σ2)的形式表示。
网络通过对输入层处的数据输入进行操作并基于输入数据调整由一些或所有节点施加的权重来学习。有不同的学习方法,但一般来说,在图1A中有从左到右通过网络进行正向传播,总体误差的计算,以及在图1A中从右到左通过网络进行误差的反向传播。在下一个周期中,每个节点都会考虑反向传播的误差,并产生一组修正的权重。通过这种方式,可以训练网络以执行其所期望的操作。
网络的输入通常是向量,向量的每个元素表示不同的对应特征。例如,在图像识别的情况下,该特征向量的元素可以表示不同的像素值,或者在医疗应用中,不同的特征可以表示不同症状或患者问卷回答。网络的输出可以是标量或向量。输出可以表示分类,例如图像中是否识别出诸如大象的特定对象的指示,或者医疗示例中对患者的诊断。
图1C示出了一种简单的布置,其中神经网络被布置为基于输入特征向量预测分类。在训练阶段期间,包括大量输入数据点X的经验数据被提供给神经网络,每个数据点包括特征向量的一组示例值,用分类Y的相应对应值标记。分类Y可以是单个标量值(例如表示大象或非大象),或向量(例如,一个热向量,其元素表示不同的可能分类结果,诸如大象、河马、犀牛等)。可能的分类值可以是二元的,也可以是表示百分比概率的软值。在许多示例数据点上,学习算法调整权重以减少经标记的分类和由网络所预测的分类之间的总体误差。一旦用适当数目的数据点进行训练,则可以将未经标记的特征向量输入到神经网络,并且网络可以基于输入的特征值和经调整的权重来预测分类的值。
这种方式的训练有时被称为监督方法。其他方法也是可能的,诸如增强方法,其中网络每个数据点最初不被标记。学习算法从猜测每个点的对应输出开始,然后告诉它是否正确,并逐步根据这样的反馈调整权重。另一个示例是无监督方法,其中输入数据点根本没有标记,而学习算法被留下来在经验数据中推断自己的结构。本文中的术语“训练”不一定限于监督方法、增强方法或无监督方法。
机器学习模型(也称为“知识模型”)也可以由多个成分神经网络(constituentneural networks)形成。如图4A-图4D所示,其中一个示例是自编码器。在自编码器中,编码器网络被布置成将所观测的输入向量Xo编码为潜在向量Z,并且解码器网络被布置为将潜在向量解码回输入向量的真实世界特征空间。实际输入向量Xo与由解码器预测的输入向量
Figure BDA0004147143600000031
的版本之间的差异被用于调整编码器和解码器的权重,以便例如基于证据下界(ELBO)函数最小化总体差异的测量。潜在向量Z可以被认为是输入特征空间中信息的压缩形式。在变分自编码器(VAE)中,潜在向量Z的每个元素被建模为概率分布或统计分布,例如高斯分布。在这种情况下,对于Z的每个元素,编码器学习分布的一个或多个参数,例如中心点的测量和分布的扩展的测量。例如,中心点可以是平均值,并且扩散可以是方差或标准差。然后从所学习的分布中随机采样输入到解码器的元素的值。
编码器有时被称为推理网络,因为它从输入观测Xo推断潜在向量Z。解码器有时被称为生成网络,因为它从潜在向量Z生成输入特征空间的版本
Figure BDA0004147143600000032
一旦被训练,自编码器可用于从随后观测到的特征向量Xo中估算缺失值。备选地或附加地,可以训练第三网络以从潜在向量预测分类Y,然后一旦被训练,就用于预测后续未标记观测的分类。
发明内容
在许多深度学习应用领域中,通常会看到模型的输出特征集随着时间的推移而增长:新项目可以被引入到推荐系统中,新问题可以被添加到调查中,新疾病可以需要诊断,新传感器可以对系统可用等。在这样的设置中,能够准确预测该特征在未被观测到的数据点内的取值是很有价值的:例如,预测用户是否会喜欢推荐系统中的新电影、预测用户将如何回答问卷中的新问题、预测患者对新的医疗测试的反应,等等。
在引入新特征时,可能只有很少甚至没有包含观测值的标记数据点。例如,新添加的电影可能获得很少甚至没有评级,或者车辆可能首次安装了新传感器。在这种低数据状态下,机器学习模型通常表现不佳,这通常被称为冷启动问题,这不仅在推荐系统中普遍存在,而且在高质量数据稀疏的应用中也普遍存在。这提出了一个关键挑战:适应深度学习模型以准确预测低数据状态下的新特征值。一方面,通常需要在新特征出现后立即在应用中部署模型,因此,等到获取更多数据后再进行适应是不切实际的。另一方面,每次引入新特征时,简单地对模型进行重新训练在计算上是昂贵的,并且如果新特征只有少量的观测可用,则可能成为严重过度拟合的受害者。
因此,存在一个问题,即如何用新特征来扩展现有的深度学习模型,同时又具有计算效率(例如,不需要额外的训练或对现有模型进行微调)。此外,该问题的解决方案应在有效地利用新特征的所有可用信息并且关键地捕捉新特征与模型中现有特征的关系的同时减少低数据状态下的过度拟合。为了同时解决这些挑战,本申请的发明人开发了一种辅助模型,该辅助模型可以预测新参数,以供现有模型用于预测新特征的值。辅助模型在本文中被称为“上下文超网络”(CHN)。
根据本文公开的一个方面,提供了一种训练辅助机器学习模型以预测主机器学习模型的一组新参数的计算机实现方法,其中主模型被配置为从一组真实世界特征的观测子集转换为一组真实世界特征的预测版本,并且其中辅助模型包括:第一神经网络,第一神经网络被配置为从一组第一输入向量转换为单个上下文向量,其中每个输入向量与主模型的相应数据点相关联并且包括相应表示向量,相应表示向量包括该数据点的真实世界特征的观测子集的内部表示以及针对该相应数据点的新特征的相应值,并且其中上下文向量是主模型的上下文中的新特征的值的表示;以及第二神经网络,第二神经网络被配置为至少基于上下文向量预测主模型的一组新参数,其中主模型被配置为使用一组新参数至少从一组真实世界特征的观测版本转换为新的真实世界特征的预测版本。
主模型是现有的机器学习模型,例如现有的神经网络。主模型用于预测现有的一组特征的值。也就是说,主模型被配置为从一组观测特征(即,那些特征的已知值)转换为一组预测特征。该组预测特征至少包括观测特征,并且还可以包括一个或多个未观测特征(即,在预测之前没有已知值可用的特征)。主模型包括多个模型参数,即模型权重。
辅助模型用于预测一组新模型参数,该组新模型参数用于预测新特征的值。新特征是不构成该组现有特征的一部分的特征。例如,该组现有特征可以与被配置为测量机器(例如,钻井设备)的特性的现有传感器相关。新特征可以与机器上安装的新传感器有关。本申请的发明人认识到,辅助模型可用于预测新参数,然后可将其提供给主模型,而不是重新训练主模型以预测(即,计算)新参数。
辅助模型(即,辅助神经网络)是上下文超网络(CHN),可用于初始化与新特征相关联的现有模型的参数(即,网络权重)。CHN取决于由新特征的观测(如果有的话)组成的上下文集。CHN还可以取决于任何相关联的内容信息或元数据(如果可用的话)。CHN通过将新观测数据直接映射到高性能的新参数值来摊销对新参数执行梯度下降(或其他训练技术)的过程,而不需要对模型进行附加的微调。这使得CHN的计算效率很高,并可扩展到大型数据集。
主模型的每个数据点(例如,特定用户)与相应表示向量相关联。表示向量包括针对相应数据点的主模型的观测特征的内部表示。针对每个数据点,向辅助模型提供相应表示向量和该数据点的新特征的值(如果这样的值可用)。请注意,通常新特征的至少一些(如果不是全部)值可以不可用。新特征的表示向量和值经由相应输入向量被输入到模型。然后,辅助模型从一组一个或多个输入向量转换为上下文向量。上下文向量是主模型的上下文中新特征的值的表示。换言之,上下文向量是在模型关于这些新值所在的数据点的信念的上下文中新特征的值的表示。
然后,辅助模型从上下文向量转换为一组新参数,供主模型使用。换言之,上下文向量通过神经网络(在一些示例中与元数据向量一起)来生成新参数。然后可以将新参数提供给主模型。
CHN可以用于扩展一系列不同类型的深度学习模型。例如,CHN可以被用于扩展部分变分自编码器(P-VAE)。即使在数据很少被观测的情况下(例如在推荐系统中),结果是灵活的深度学习模型,能够快速适应新特征。如下所示,当在推荐系统、电子学习和医疗保健设置中被用于预测时,这种模型在预测精度和速度方面都优于一系列基线。
提供本发明内容是为了以简化形式介绍概念的选择,这些概念将在下面的详细描述中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护主题的范围。所要求保护的主题也不限于解决本文所指出的任何或所有缺点的实现。
附图说明
为了帮助理解本公开的实施例并显示如何实施这些实施例,仅通过示例的方式参考附图,其中:
图1A是神经网络的示意图,
图1B是贝叶斯神经网络节点的示意图,
图1C是用于基于输入特征向量预测分类的神经网络的示意图,
图2是用于实现神经网络的计算装置的示意图,
图3示意性地示出了包括多个数据点的数据集,每个数据点包括一个或多个特征值,
图4A至图4D是可变自编码器(VAE)的示例的示意图,
图5A至图6是部分VAE示例的示意图,
图7和图8是示例辅助模型的示意图,
图9示意性地示出了辅助模型与主模型的交互,
图10示意性地更详细地示出了示例辅助模型,
图11示意性地示出了应用于示例主模型的示例辅助模型,
图12示意性地示出了对新特征进行元训练时所使用的数据,以及
图13示意性地示出了应用于部分变分自编码器的示例辅助模型,
图14至图18b示出了从示例辅助网络获得的实验数据。
具体实施方式
下面将参考图7详细讨论本申请的新型辅助模型。然而,首先提供了神经网络的一般概述。然后参考图4A至图4D讨论可变自编码器,作为可与本发明的辅助模型结合使用的主模型的示例。然后参考图5A至图6对部分VAE进行讨论,部分VAE也可与辅助模型一起使用。然而,注意VAE和部分VAE仅作为说明性示例提供,并且更一般地,辅助模型可以与不同类型的机器学习模型结合使用。
图2示出了根据本文描述的实施例的用于实现包括机器学习(ML)模型的人工智能(AI)算法的示例计算装置200。计算设备200可包括一个或多个用户终端,例如台式计算机、膝上型计算机、平板计算机、智能手机、可穿戴智能设备(例如智能手表)或车辆(例如汽车)的车载计算机等。附加地或备选地,计算设备200可以包括服务器。本文的服务器是指逻辑实体,其可以包括位于一个或多个地理站点的一个或多个物理服务器单元。在需要的情况下,分布式或“云”计算技术本身在本领域中是已知的。服务器的一个或多个用户终端和/或一个或多个服务器单元可以经由分组交换网络彼此连接,分组交换网络可以包括例如广域互联网络(诸如Internet)、移动蜂窝网络(诸如3GPP网络)、有线局域网(LAN)(诸如以太网)或无线LAN(诸如Wi-Fi、Thread或6LoWPAN网络)。
计算装置200包括控制器202、接口204和人工智能(AI)算法206。控制器202可操作地耦合到接口204和AI算法206中的每一个。
控制器202、接口204和AI算法206中的每一个都可以以实施在计算机可读存储设备上的软件代码的形式实现,并在包括一个或多个处理器(诸如CPU)、工作加速器协同处理器(诸如GPU)和/或其他特定于应用的处理器的处理装置上运行,在一个或多个地理站点的一个或多个计算机终端或单元上实现。存储代码的存储设备可以包括一个或多个使用一个或多个存储介质(例如电子介质或磁性介质)的存储器设备,同样在一个或多个地理站点的一个或多个计算机终端或单元上实现。在实施例中,一个、部分或全部控制器202、接口204和AI算法206可以在服务器上被实现。备选地,一个、部分或全部这些组件的相应实例可以部分或甚至全部在一个或多个用户终端的每一个、部分或全部用户终端上被实现。在进一步的示例中,上述组件的功能可以在用户终端和服务器的任何组合之间进行分割。再次指出,在需要时,分布式计算技术本身在本领域是已知的。也不排除这些组件中的一个或多个可以在专用硬件中实现。
控制器202包括用于协调接口204和AI算法206的功能的控制功能。接口204是指用于接收和/或输出数据的功能。接口204可以包括用户接口(UI),用于分别向一个或多个用户接收和/或从一个或多个用户输出数据;或者它可以包括到可以向一个或多个用户提供接口的一个或多个其他外部设备的接口。备选地,该接口可以被布置为从在同一装置和/或一个或多个外部设备(例如,从诸如工业传感器设备或物联网(IoT)设备的传感器设备)上实现的自动化功能或设备收集数据和/或向其输出数据。在与外部设备接口的情况下,接口204可以包括用于分别经由有线连接或无线连接与外部设备通信的有线接口或无线接口。接口204可以包括一种或多种组成类型的接口,例如语音接口和/或图形用户接口。
因此,接口204被布置为收集输入特征空间的各种特征的观测(即观测值)。它可以例如被布置为采集一个或多个用户经由UI前端(例如麦克风、触摸屏等)输入的输入;或者自动地从诸如传感器设备的无人设备采集数据。接口的逻辑可以在服务器上实现,并且被布置为从一个或多个外部用户设备(诸如用户设备或传感器设备)采集数据。备选地,接口204的一些或全部逻辑也可以在(多个)用户设备或传感器设备本身上实现。
控制器202被配置为控制AI算法206以执行符合本文所述实施例的操作。可以理解,本文公开的任何操作都可以由AI算法206执行,在控制器202的控制下,经由接口204从用户和/或自动化过程采集经验数据,将其传递给AI算法206,从AI算法接收预测返回,并通过接口204将预测输出给用户和/或自动化过程。
机器学习(ML)算法206包括机器学习模型208,机器学习模型包括一个或多个成分神经网络101。这样的机器学习模型208也可以称为知识模型。机器学习算法206还包括学习函数209,其被布置为根据学习过程(例如基于一组训练数据的训练)来调整机器学习模型208的(多个)神经网络101的节点104的权重w。
图1A示出了神经网络背后的原理。神经网络101包括互连节点104和连接节点之间的边106的图,所有这些都在软件中实现。每个节点104具有一个或多个输入边和一个或多个输出边,其中节点104中的至少一些节点具有每个节点的多个输入边,并且节点104中的至少一些节点具有每个节点的多个输出边。节点104中的一个或多个节点的输入边形成图的总体输入108i(通常是输入向量,即存在多个输入边)。节点104中的一个或多个的输出边形成图的总体输出108o(在存在多个输出边的情况下,其可以是输出向量)。此外,节点104中的至少一些节点的输出边形成节点104中的至少一些其他节点的输入边。
每个节点104表示在其(多个)输入边106i上所接收的(多个)输入值的函数,函数的(多个)输出在相应节点104的(多个)输出边106o上输出,使得在节点104的(多个)输出边106o输出的(多个)值取决于根据相应函数的相应(多个)输入值。每个节点104的功能也由一个或多个相应参数w被参数化,有时也被称为权重(不一定是乘法权重意义上的权重,尽管这当然是一种可能性)。因此,每个节点104的(多个)输入106i和(多个)输出106o的之间的值的关系取决于节点的相应功能及其相应(多个)权重。
每个权重可以简单地是标量值。备选地,如图1B所示,在网络101中的一些或所有节点104处,可以将相应权重建模为概率分布,诸如高斯分布。在这种情况下,神经网络101有时被称为贝叶斯神经网络。可选地,一些或所有边106中的每一个边上的值输入/输出也可以各自建模为相应概率分布。对于任何给定的权重或边,可以根据分布的一组样本或参数化相应分布的一组参数来建模分布,例如,指定其中心点和宽度的一对参数(例如,根据其平均值μ和标准偏差σ或方差σ2)。边的值或权重的值可以是来自分布的随机样本。学习或(多个)权重可以包括调整每个分布的(多个)参数中的一个或多个参数。
如图1A所示,神经网络101的节点104可以被布置成多个层,每个层包括一个或多个节点104。在所谓的“深度”神经网络中,神经网络101包括输入层102i,输入层102i包括一个或多个输入层104i,一个或多个隐藏层102h(也称为内层)各自包括一个或多个隐藏节点104h(或内节点),并且输出层102o包括一个或多个输出节点104o。为了简单起见,图1A中只示出了两个隐藏层102h,但可以有更多的隐藏层。
神经网络101中的各个节点104的不同权重可以基于一组经验数据(训练数据)逐渐调整,以便趋向于网络的输出108o将产生给定输入108i的期望值的状态。例如,在被用于实际应用之前,神经网络101可以首先针对该应用被训练。训练包括将训练数据形式的经验数据输入到图的输入108i,并且然后基于来自图的(多个)输出108o的反馈来调整节点104的权重w。训练数据包括多个不同的输入数据点,每个输入数据点包括与图101的一个或多个输入边108i对应的值或值的向量。
例如,考虑如图1C所示的简单示例,其中机器学习模型包括单个神经网络101,被布置为将特征向量X作为其输入108i,并将分类Y作为其输出108o输出。输入特征向量X包括多个元素xd,每个元素表示不同的特征d=0、1、2、…等。例如,在图像识别的示例中,特征向量X的每个元素可以表示相应像素值。例如,一个元素表示像素(0,0)的红色通道;另一个元素表示像素(0,0)的绿色通道;另一个元素表示像素(0,0)的蓝色通道;另一个元素表示像素(0,1)的红色通道;等等。作为另一示例,在使用神经网络进行医疗诊断的情况下,特征向量的每个元素可以表示实验对象的不同症状的值、实验对象的物理特征的值或关于实验对象的其他事实(例如体温、血压等)的值。
图3示出了包括多个数据点i=0、1、2…等的一组示例数据。每个数据点i包括特征向量的一组相应值(其中xid是第i个数据点中第d个特征的值)。输入特征向量Xi表示给定数据点的输入观测,其中任何给定观测i通常可以包含也可以不包含特征向量X的所有元素的一组完整的值。分类Yi表示观测i的对应分类。在训练数据中,分类Yi的观测值与特征向量元素的观测值一起被指定给每个数据点(训练数据中的输入数据点被称为用分类Yi“标记”)。在随后的预测阶段中,神经网络101预测分类Y以用于进一步的输入观测X。
分类Y可以是标量或向量。例如,在大象识别器的简单示例中,Y可以是表示大象或不是大象的单个二元值,或者是表示图像包括大象图像的概率或置信度的软值。或者类似地,如果神经网络101将被用于测试特定的医疗状况,则Y可以是表示实验对象是否具有该状况的单个二元值,或者是表示该实验对象有问题的状况的概率或置信度的软值。作为另一示例,Y可以包括“独热(1-hot)”向量,其中每个元素表示不同的动物或状况。例如,Y=[1,0,0,…]表示大象,Y=[0,1,0,..]表示河马,Y=[0,0,1,…]表示犀牛等。或者,如果使用软值,Y=[0.81,0.12,0.05,…]则表示图像包括大象图像的81%置信度、其包括河马图像的12%置信度、包括犀牛的5%置信度等。
在训练阶段,每个数据点i的Yi的真值是已知的。对于每个训练数据点i,AI算法206测量图的(多个)输出边108o或输出处的所得输出值,并且使用这个反馈来逐渐调整各种节点104的不同权重w,使得在许多观测数据点上,权重趋向于使图101的(多个)输出108i(Y)尽可能接近训练输入上的经验数据中的(多个)实际观测值(对于总体误差的某些测量)。即,对于每条输入训练数据,将预定训练输出与图的实际观测输出108o进行比较。该比较提供了反馈,该反馈在多条训练数据上被用于将图中的各个节点104的权重逐渐调整到这样的状态,即图的实际输出108o将与给定输入108i的期望的或预期的输出紧密匹配。这种反馈技术的示例包括例如随机反向传播。
一旦被训练,神经网络101就可以被用于针对输入向量108i(X)的给定值推断输出108o(Y)的值,反之亦然。
基于标记训练数据的显式训练有时被称为监督方法。其他机器学习方法也是可能的。例如,另一示例是增强方法。在这种情况下,神经网络101开始对每个数据点i进行分类Yi的预测,最初精度很低或没有精度。在对每个数据点i(或其中的至少一些)进行预测之后,AI算法206接收关于预测是否正确的反馈(例如,来自人类),并使用该反馈来调整权重,以便下次执行得更好。另一示例被称为无监督方法。在这种情况下,AI算法不接收标记或反馈,而是在经验的输入数据中推断其自身的结构。
图1C是使用神经网络101的简单示例。在一些情况下,机器学习模型208可以包括两个或更多个成分神经网络101的结构。
辅助模型
图7示出了示例辅助模型700。通常,辅助模型700包括第一神经网络701和第二神经网络702。辅助模型700还可以包括如图8所示的第三神经网络801。注意,一个或多个神经网络本身可以包括一个以上的神经网络和/或其他功能。例如,在一些示例中,第一神经网络可以包括两个子网络。
第一神经网络701被配置为接收一组输入向量作为输入。这些输入在本文中被称为“第一输入向量”。该组第一输入向量可以包括一个输入向量或多个输入向量。每个输入向量与主模型的数据点对应。数据点可以依次与例如特定用户、特定设备、特定机器等对应。通常,主模型被用于对所述数据点进行预测。每个第一输入向量包括表示向量。表示向量对与相应数据点相关联的一组观测特征的内部表示进行编码。每个表示向量可以具有相同的固定长度。通常,表示向量可以对来自主模型的任何层的观测特征的表示进行编码。
每个第一输入向量还包括相应数据点的新特征的相应值。例如,新特征可以是可用的新测试(例如,在诊断设置中)、用于获取传感器信息的新设备、问卷的新问题、新电影等。在一些示例中,相应值可以是观测值。在其他示例中,给定数据点可能没有观测值,因此该值表示观测不足,例如,可以使用零值表示缺失数据。当然,可能存在零是合法值的情况,在这种情况下,可以使用一些其他值来表示缺失的数据。作为另一示例,缺失的数据可以由伪值表示,并且可以使用单独的二元掩码来向模型指示哪些值被观测到,并且哪些值未被观测到。每个第一输入向量可以是相应表示向量和新特征的值的级联。或者,可以以其他方式组合表示向量和新特征的值。
第一神经网络701被配置为从该组第一输入向量转换为单个上下文向量。上下文向量编码主模型的上下文中新特征的值的表示。上下文向量可以是固定长度向量。第一神经网络701被连接到第二神经网络702,因此被配置为将该上下文向量传递到第二神经网络702。
第二神经网络702被配置为接收上下文向量作为输入。第二神经网络702被配置为从上下文向量转换为用于预测新特征的值的一组所预测的新参数。新参数通常可以是用于主模型的任何层中的参数,例如主模型的第一层、最终层或倒数第二层。第二神经网络702可以是前馈网络。
辅助模型700被训练为使得所预测的新参数生成新特征的精确值。下文对所述训练进行了讨论。现在,可以说,首先训练主模型,然后从经训练的主模型中提取表示向量并将其提供给辅助模型700,然后训练辅助模型700以预测新参数。然后将新参数提供给主模型。主模型的现有参数保持不变。
返回图7,第一神经网络701可以包括至少两个子神经网络,即被配置为执行特定任务的单个网络。第一神经网络701还可以包括聚合函数704。如图所示,第一子神经网络703被配置为接收第一输入向量作为输入。第一子神经网络703被配置为从每个第一输入向量转换为相应中间向量。也就是说,每个第一输入向量通过相同的第一子神经网络703以生成相应中间向量。在这个意义上,第一子神经网络703是共享网络。
聚合函数704被配置为聚合中间向量以生成固定长度的聚合向量。聚合函数704通常可以应用任何形式的聚合。聚合函数704可以执行置换不变量操作,例如求和。可以使用其他函数,诸如平均或取中间向量中对应位置处的值中的最大值。聚合函数704被配置为将聚合向量传递给第二子神经网络。
第二子神经网络705被配置为接收聚合向量作为输入。第二子神经网络705被配置为从聚合向量转换(即编码)为上下文向量。第二子神经网络705被配置为将上下文向量传递给第二子神经网络705。
如图8所示,辅助模型700可以包括第三神经网络801。第三神经网络801可以被配置为接收第二输入向量作为输入。第二输入向量801包括与新特征相关联的一组元数据值。例如,元数据值可以包括新特征的类别(例如,医疗测试的类型、电影类别等)、与新特征相关联的图像或文本数据等。第二神经网络801被配置为将第二输入数据转换(即编码)为元数据值的表示的元数据向量。第三神经网络801被配置为向第二神经网络供给元数据向量。
在该实施例中,第二神经网络702被配置为基于上下文向量和元数据向量两者来预测新参数。例如,上下文向量和元数据向量可以被连接或以其他方式组合,其结果然后通过第二神经网络以生成所预测的新参数。
图9示意性地示出了主模型901和辅助模型700之间的交互。如图所示,主模型901被配置为基于那些特征中的一些特征的观测值来生成一组特征的预测值。主模型901被配置为向辅助模型700供给一组表示向量。注意,在一些示例中,辅助模型700可以从主模型901间接地获得表示向量。也就是说,可以通过不同的函数(“提取函数”)从主模型901提取表示向量,然后将表示向量输入到辅助模型700。不排除表示向量不手动输入到辅助模型700。辅助模型700接收新特征的值(如果它们可用),例如作为手动输入和/或作为来自传感器的输入。辅助模型700还接收元数据值(如果它们可用),例如作为手动输入和/或作为来自传感器的输入。然后,辅助模型700生成如上所述的一组所预测的模型参数。然后将新模型参数提供给主模型901。新模型参数可以直接从辅助模型700提供给主模型901。然后,主模型901使用新模型参数来预测新特征的值。换言之,使用新模型参数来扩展主模型901。主模型901的现有参数不改变。也就是说,它们在辅助模型700的训练期间保持固定。
通常,主模型901可以被用于基于观测数据的预测有益的任何设置中。例如,主模型901可以被用于医疗环境中,以便预测或诊断生物(例如人类或其他动物)的状况。输入到主模型901的特征可以涉及代表患者或由患者供给给主模型901的医疗数据,例如年龄、身高、体重、血压、心率等。医疗数据可以经由传感器(例如心率监测器)自动供给。主模型901可以使用观测特征来预测患者的状况。新特征可以与新的可用医疗数据相关,例如,新的医疗测试可以变得可用。元数据可以描述测试。
在其他示例中,主模型901可以被用于机械设置。例如,这些特征可以与机器的特性有关。主模型901可以被用于例如通过预测要改变机器的哪些设置来提高机器的性能。或者,主模型901可以被用于改善机器的状况,例如预测采取哪些动作来改善机器的寿命。在一些示例中,主模型901可用于采取预防措施以保持机器的状况。新特征可以与可监控的机器的新特性有关,或者与现在可用数据的机器的新能力有关。
在一些示例中,主模型901可以被用于控制装置或车辆。例如,这些特征可以与诸如自动驾驶(即无人驾驶)汽车的车辆的传感器数据相关。传感器数据可以提供例如速度、方向、加速度、制动力等的值。主模型901可以被用于预测潜在的碰撞,并因此采取行动防止此类碰撞。
现在将描述根据本发明实施例的示例性模型。还提供了实验数据。
模型
问题设置
我们的目标是在添加新特征以扩展初始观测数据时,能够快速适应机器学习模型。具体而言,我们将初始观测视为一组向量值数据点
Figure BDA0004147143600000171
其中给定数据点中的每个特征值都可能缺失。我们将xj表示为数据点
Figure BDA0004147143600000172
的第j个特征,并将数据点内观测特征和未观测特征分组为x=[xO,xU]。然后,机器学习模型p(xU|xO)旨在给定观测特征xO预测未观测特征xU。此设置涵盖广泛的应用。例如,在回归和分类中,预测目标y对于测试数据是未被观测的,即y∈xU,在推荐系统中,数据被稀疏地观测到,并且一组观测特征可以在数据点之间变化,因此一组预测目标xU也可以变化。
我们考虑一组向量值、可能的稀疏观测数据点{x(i)}(使得某些特征未被观测到),其中每个不同的数据点用上标x(i)表示,并且数据向量内的每个特征用下标xj表示。我们不考虑输入特征和输出特征(x,y)的固定划分,而是考虑将每个数据点划分为观测特征和未观测特征(xo,xU)。
现在假设有一个新特征xn可用,使得每个数据向量
Figure BDA0004147143600000173
被扩展为
Figure BDA0004147143600000174
当例如向推荐系统添加新项目,或在医疗应用中添加诊断测试的新类型时,就会发生这种情况。我们注意到,并不是每个数据点
Figure BDA0004147143600000175
都接收到新特征的观测值:新添加的电影可能获得的评分很少,或者可能尚未对所有患者进行新的诊断测试。我们将观测到新特征的该组数据点称为该新特征的上下文集,即。
Figure BDA0004147143600000176
它的补充,目标集
Figure BDA0004147143600000177
是该组对特征没有相关联观测的那些数据点,
Figure BDA0004147143600000178
我们还可以将经扩展的数据分成观测部分和未观测部分,即,
Figure BDA0004147143600000179
使用这种表示法,很明显的是对于
Figure BDA00041471436000001710
Figure BDA00041471436000001711
并且对于
Figure BDA00041471436000001712
此外,我们还可以访问一些描述新特征的元数据
Figure BDA00041471436000001713
这可以是分类数据,诸如推荐系统中的产品类别或电子学习系统中的问题主题,或者一些更丰富的数据格式,诸如图像或文本。
我们希望将机器学习模型
Figure BDA00041471436000001714
Figure BDA00041471436000001715
适应于目标集
Figure BDA0004147143600000181
中的数据点,以便能够准确预测未观测新特征的值。简单的策略将忽略先前的模型
Figure BDA00041471436000001810
而是寻求针对新模型
Figure BDA0004147143600000182
的参数的最大似然估计(MLE)。这通常通过在上下文集上训练新模型,通过将观测新特征xn临时移动到预测目标来完成:
Figure BDA0004147143600000183
然而,在深层神经网络中,模型参数θ的数目可以非常大,使得最大化这种对数似然是非常昂贵的,特别是如果定期引入新特征的情况下。此外,针对一个特定特征优化θ可以导致另一个特征的表现不佳,在连续学习任务中的灾难性遗忘(catastrophicforgetting)就是如此。为了解决这两个问题,我们将模型参数分为旧模型固有的参数θ0和仅与新特征相关联的特定特征参数θn。换言之,我们使用
Figure BDA00041471436000001811
作为基础模型,并在经扩展的模型
Figure BDA0004147143600000184
上提出因子化假设,从而共同产生针对新特征的预测模型。然后我们保持θ0固定,并只寻找θn的MLE。
利用该自适应模型,可以通过以下方式获得特定特征参数的MLE估计:
Figure BDA0004147143600000185
虽然这大大降低了我们为新特征进行优化的参数空间的维数,并将一个新特征的参数优化与另一个新特征的优化解耦,但仍存在几个问题。这种分解仍然需要一个梯度下降过程,这在计算上可能很昂贵,并且在新特征的数据很少时存在严重过度拟合的风险。此外,目前还不清楚如何使
θn的估计取决于特征元数据
Figure BDA0004147143600000186
为了解决这些问题,我们引入了上下文超网络(CHN)
Figure BDA0004147143600000187
这是一种辅助神经网络,用于摊销估计θn的过程。目标是在训练CHN之后,并当在测试时添加新特征x_{n^*}时,CHN将直接生成“良好”参数
Figure BDA0004147143600000188
使得新预测模型
Figure BDA0004147143600000189
能够准确地预测新特征的值。
假设我们有具有特征的一组数据点(示例),其中一些被观测到,而另一些未被观测到。我们可以将这些数据值表示为
Figure BDA0004147143600000191
其中
Figure BDA0004147143600000192
并且
Figure BDA0004147143600000193
表示观测值。这些值可以是二元的、离散的或连续的,并且可以是有界的,也可以不是有界的。生成模型在给定观测值
Figure BDA0004147143600000194
和数据点和/或特征元数据
Figure BDA0004147143600000195
以及
Figure BDA0004147143600000196
作为输入的情况下对
Figure BDA0004147143600000197
的缺失值xi,j进行预测
Figure BDA0004147143600000198
这种元数据可以采取任何形式,从数字的信息或分类的信息到文本或图像。
假设系统中引入了新的特征j′,具有相关联的元数据
Figure BDA0004147143600000199
和可能的少量观测值
Figure BDA00041471436000001910
(少样本学习设置)。我们希望设计一种系统,该系统能够准确预测初始化时的未观测值
Figure BDA00041471436000001911
并且其性能将在少量训练步骤中快速收敛到最佳值。我们还希望随着新特征的观测值的数目的增加,初始化时看到预测精度快速提高。
上下文超网络
我们的CHN旨在将上下文集
Figure BDA00041471436000001912
和元数据
Figure BDA00041471436000001913
映射到新模型参数
Figure BDA00041471436000001914
的估计中。为此,CHN应该基于网络架构,该网络架构可以接收不同特征的不同大小的一组上下文点
Figure BDA00041471436000001925
作为输入。这一挑战通过使用点云(PointNet)样式的集编码器来解决。首先,对于每个上下文点
Figure BDA00041471436000001915
我们将新特征
Figure BDA00041471436000001916
与数据点内其他观测特征
Figure BDA00041471436000001917
的固定长度编码z(i)(见下文)连接起来。然后,这些连接的向量
Figure BDA00041471436000001918
中的每一个向量都通过共享神经网络f(·),并且输出
Figure BDA00041471436000001919
用置换不变量函数(诸如求和)被聚合,以产生单个的、固定长度的向量。最后,该输出通过第二神经网络g(·)产生固定长度的cn的编码,我们称之为“上下文向量”。该架构如图10所示。
每个上下文数据点
Figure BDA00041471436000001920
的观测特征
Figure BDA00041471436000001921
的固定长度编码z(i)是使用
Figure BDA00041471436000001922
的基础模型
Figure BDA00041471436000001923
的内部表示被获得的:在自编码器模型中,这可能是表示信息瓶颈处的数据点的编码向量,而在前馈模型中,它可能是中间层的输出。由于这些编码仅依赖于现有的观测数据
Figure BDA00041471436000001924
而不依赖于任何新特征,因此可以对它们进行预计算和缓存,从而在新特征到达时只需要通过CHN进行一次转发。
附加地,通过神经网络h(·)传递特征元数据
Figure BDA0004147143600000201
以产生固定长度的元数据嵌入向量mn。在图像或文本元数据的情况下,这里可以使用诸如卷积神经网络或顺序模型等专门的架构。然后将所连接的向量[cn;mn]输入到最终的前馈神经网络中,该前馈神经网络产生新的特定特征参数
Figure BDA0004147143600000202
在我们的实验中,我们将CHN应用于自编码器样式的模型;扩展模型向PVAE解码器添加新的头部(见图11),并根据给定的先前观测新特征值执行状况推断。因此,扩展模型中的特定特征参数θn与图13中的头部参数θn=φn对应。
用元学习训练CHN
我们采用元学习方法来训练CHN,将每个新特征视为一项单独的任务,目的是产生可以从
Figure BDA0004147143600000203
Figure BDA0004147143600000204
中“学习如何学习”的模型。我们假设基础模型
Figure BDA0004147143600000205
是根据适应阶段之前观测的数据被训练的。然后在CHN训练期间冻结基础模型。为了实现训练策略,在实验中,我们将数据集分为三组不相交的特征(见图12):在第一阶段中用于基础模型训练的“训练”集,在第二阶段中用于CHN元学习的“元训练”集以及在第三阶段中用于CHN评估的元测试集。
CHN的元训练
在元训练期间,基础模型的参数θ0被冻结,并且我们现在的目标是学习CHN的参数ψ。我们在每一个步骤的元训练集中采样的特征
Figure BDA0004147143600000206
的小批中迭代以下训练步骤:
对于
Figure BDA0004147143600000207
中的每个特征n,对观测到该特征的kn数据点进行采样,以形成上下文集
Figure BDA0004147143600000208
并向模型显示相关联的特征值。在我们的实验中,我们采样服从[0,…,32]的均匀分布的kn(kn~Uniform[0,…,32])以确保单个CHN可以跨一系列上下文集大小表现良好。
对于每个特征
Figure BDA0004147143600000209
使用CHN计算特定特征参数预测,
Figure BDA00041471436000002010
3.对于每个特征
Figure BDA0004147143600000211
的项,给定特征n在其目标集
Figure BDA0004147143600000217
的数据点中的隐藏值的地面真值,使用扩展模型
Figure BDA0004147143600000212
估计CHN参数ψ的对数似然值:
Figure BDA0004147143600000213
4.通过在ψ中对l(ψ)采取梯度上升步骤来更新CHN参数。
注意,对数似然仅针对目标集
Figure BDA0004147143600000214
中新特征的隐藏值被计算,而不是针对
Figure BDA0004147143600000215
中的观测值被计算。这是为了确保CHN产生良好泛化的参数,而不是过度拟合上下文集。
评估CHN
在评估时,基本模型和CHN的参数都已被冻结。为元测试集中的每个特征提供了固定的上下文集和元数据,并且这些元数据被用于使用经训练的CHN来初始化元测试特征的特定特征参数。然后,这些参数被用于对新特征的所有目标集值进行预测,并且这些预测被用于计算评估度量。
相关工作
CHN旨在解决以很少的可用观测适应新特征的问题,并因此与少样本学习和相关领域(诸如元学习和持续学习)相关。从技术角度来看,我们使用辅助神经网络来摊销与新特征相关联的参数学习,这属于超网络的范畴。此外,在推荐系统的上下文中,已经提出了许多相关的方法来解决冷启动问题。因此,我们讨论了这三个领域的相关工作。
少样本学习
少样本学习是设计机器学习模型的问题,该模型可以适应给定少量训练示例的新预测任务。解决这个问题的一种流行方法是元学习,其目标是设计能够快速适应新任务的模型。元学习方法寻求一个参数初始化θ,该参数初始化θ可以在少量梯度下降步骤内快速适应从任务分布
Figure BDA0004147143600000216
中提取的任务。这些方法不直接在任何相关数据或元数据上对新任务的参数初始化进行条件化,而是依赖于通过梯度下降微调,这可能在计算上很昂贵,并且在很少数据可用时导致严重的过度拟合。有几种方法试图基于类示例的上下文集使分类器适应任务。例如,通过嵌入类示例以提供最近邻分类器,学习类示例和新示例之间的注意力机制,或者在以上下文集为条件的特征提取器内调制激活函数。条件神经自适应过程(CNAPs)基于任务的上下文集适应分类器和特征提取器参数。然而,在所有情况下,每个任务都被视为独立于所有其他任务,而CHN在适应新特征时明确地利用先前观测的特征。一个密切相关的领域是持续学习,其中模型在避免对旧任务的灾难性遗忘的同时寻求适应新任务或不断变化的数据分布。CHN可以被视为解决持续学习的一种方法,通过生成以模型已经学习的所有特征为条件的新特征的参数。
超网络
超网络是生成神经网络参数的辅助神经网络。它们是作为一种模型压缩形式被引入的,超网络仅将其当前正在预测的权重矩阵的结构信息作为输入,诸如其在一系列层中的索引。相比之下,CHN明确地以与当前正在预测的权重相关的数据为条件。给定嵌入et的所学习的任务,超网络学习为任务t生成模型权重θt,目的是防止灾难性遗忘。在这种情况下,超网络旨在通过对新任务的所有数据进行训练来学习作为数据压缩形式的每个任务的任务嵌入——相比之下,CHN预测与新特征相关联的参数,该参数以与该特征相关的数据为条件,无需进行训练。
推荐系统中的冷启动
当推荐系统中很少或没有与新项目或用户相关联的数据时,会出现冷启动。多年来,推荐系统的协作过滤方法取得了巨大成功,但当与新用户或项目相关联的评级数据非常有限时,可能会完全失败。基于内容的方法提供了冷启动的一个潜在解决方案,该方法使用关于新用户或项目的任何可用的描述性信息。混合方法试图将这两种方法结合起来,利用协作方法和基于内容的方法两者。元学习方法也显示出解决冷启动问题的前景,包括用于初始化新项目的类似模型无关元学习(MAML)的方法,或基于用户历史适应线性分类器的权重或神经网络中的偏差。当应用于推荐系统时,CHN结合了所有这些方法的优点,使用内容信息、评级数据和相关联用户的潜在表示来生成新项目的准确参数。
实验
在本节中,我们将演示所提出的CHN在三种不同的真实世界应用场景中的性能,包括推荐系统、医疗保健和电子学习。在所有这些应用中,我们的方法在预测精度方面表现出优异的性能。我们还演示了在大规模现实生活环境中计算效率方面的优势,并进行了消融研究,以调查特征元数据
Figure BDA0004147143600000231
对CHN性能的影响。
实验设置
在我们的所有实验中,我们将CHN应用于部分变分自编码器(P-VAE)作为示例模型。这是灵活的自编码器模型,能够准确地处理数据点中的缺失值并对其进行插补,从而使我们能够对稀疏观测数据(诸如推荐系统中的数据)进行建模。对于每一个新的特征n,我们用新的解码器头部来扩展P-VAE的解码器,这个解码器头部由附加的解码器权重wn列和附加的解码器偏置项bn组成,它将模型的输出扩展到新特征,使得θn={wn,bn}。参见图13所示。在元测试时考虑多个基线的情况下,这些基线都被应用于相同的训练PVAE模型,以确保方法之间的公平比较。
对于所有实验,我们通过对元训练集特征的每次出现随机采样k,训练CHN以基于上下文集大小的范围k∈[0,…,32]输出准确的特征参数。然后,我们针对上下文集大小的固定范围,评估CHN的性能和基线在元测试集特征上的性能,确保向CHN和每个基线揭示相同的上下文集。所有结果在5个随机训练/元训练/元测试特征分割中被平均。超参数和模型架构被调整为在最终实验中使用的数据分割不同的数据分割。
我们考虑以下用于生成新特征参数θn={wn,bn}的基线。所有方法都被应用于相同的基础训练P-VAE模型,以确保公平比较。
随机:为每个新的解码器头部生成随机值θn,权重使用Xavier初始化,并且偏差为0。
均值插补:设置权重和偏差,以始终预测上下文集中针对新特征的观测值的均值,即
Figure BDA0004147143600000241
均值头部参数:生成新的头部参数θn,作为在训练集特征上学习的所有头部参数的均值。
均值头部参数(匹配元数据):如上所述,但仅对其相关联特征的元数据与新特征的元数据匹配的头部参数进行平均。在电影镜头1M数据集(MovieLens 1M)和电子学习数据集的情况下,这被定义为任何现有特征,其中独热(one-hot)编码元数据是新特征的one-hot编码的子集。例如,如果一部新电影具有动作类型和喜剧类型,我们将对所有具有动作、喜剧和动作+喜剧类型的电影的头部参数进行平均。
归零:对所有未观测值预测0。可用作MNIST数据集的基线,其中每个数据点的很大一部分为0。
K-最近邻头部参数:生成新的头部参数θn作为k-最近邻特征的头部参数的均值(以欧几里德距离表示),其中使用列均值输入来填充未观测值。%在稀疏观测数据集的情况下,我们首先对每个特征执行均值输入,用该特征的平均观测值填充该特征的未观测值。然后在新特征列和训练集中的特征列之间计算k-最近邻。在实践中,我们发现k=10的值表现良好。
随机训练:随机初始化新特征头部参数,然后在固定数目的时代(epoch)内在上下文集
Figure BDA0004147143600000242
中的数据上微调这些参数。请注意,在此过程中,PVAE中的所有其他权重都被冻结。
MAML:我们元学习使用模型无关元学习的θn的初始化,我们将每个特征的预测视为一个单独的任务,并在上下文集上微调这些参数。在所有实验中,我们都与具有最佳微调epoch的数目的MAML基线进行比较。
推荐系统
在现实生活中的推荐系统中,随着新客户的加入和新产品的推出,新用户和新项目不断增加。在基于框架的深度学习中,深层神经网络通常以基于用户的方式被使用。在这种方法中,每个新用户被视为一个新的数据点,而每个新项目被视为新特征。为了添加新项目,必须扩展网络架构以纳入新特征,我们提出CHN作为预测与新特征相关联的参数的有效方法。
我们使用MovieLens-1M数据集评估上述场景。该数据集由8094名用户对5660部电影给出的1至5级的100万个评分组成,因此观测评分为2.2%。我们将每个用户视为一个数据点,并根据他们在训练集中对电影的评分,预测他们在元测试集中对电影给出的评分。对于每部电影,我们都有相关的元数据
Figure BDA0004147143600000251
其给出了与电影相关联的类型列表,诸如动作或喜剧,我们以二元格式对其进行编码,并将上映年份标准化为[0,1]。对于每个随机数据分割,我们采样了60%的电影作为训练数据来训练基本P-VAE模型,将30%用作CHN训练的元训练集,将剩余的10%用作元测试集。我们看到,CHN跨所有k值表现良好,而许多基线要么在低数据状态下过度填充,要么在高数据状态下不足。此外,CHN在所有k值上都优于MAML,而不需要任何参数微调。
图14a中的图表显示了我们提出的CHN的性能,与均方根误差(RMSE)方面的所有其他基线相比(越低越好)。特别地,我们的方法比MAML和利用新电影评级的随机基线训练具有明显的优势。与10-最近邻基线相比,该基线在较大的上下文集中表现稍好,在低数据状态(k≤8)中,CHN可以更有效地使用这些少样本评级,并获得新项目的更好的推荐准确性。图15示出了具有代表性数据分割的CHN性能的比较,其中有元数据作为输入和没有元数据作为输入。我们发现,包括元数据对小k值的CHN性能有适度但通常是积极的影响。
医疗保健
在医疗保健应用中,一个新的问题经常被添加到现有的健康评估问卷中,在医院中,可能会引入新的医疗设备来进行生理测量。在这种情况下,希望模型能够快速适应新增加的健康评估功能,即使在进行的测试相对较少且数据稀少的情况下也是如此。
CHN的另一个潜在应用领域是医疗环境,一个例子是新的诊断测试的到来。CHN可以有助于基于患者现有的医疗记录确定哪些患者更可能通过新检测产生阳性诊断,即使在进行的检测相对较少且数据稀少的情况下也是如此。这将使检测针对那些预测最有可能面临风险的人,这在检测资源有限或检测痛苦或侵入性时至关重要。
我们使用通过神经性疼痛诊断模拟器生成的合成数据评估CHN在医疗保健环境中的效用。该模拟器使用生成模型产生合成数据,以模拟与不同类型神经性疼痛相关联的病理生理学、模式和症状。该数据是二元的,其中0表示患者记录中不存在的诊断标签,1表示存在的诊断标签。我们模拟了1000名合成患者,并删除了少于50个阳性诊断的特征,结果剩余82个特征,数据集中17.3%的值为阳性诊断。我们使用了50%的特征作为训练集;30%的特征作为元测试集,以及20%的特征作为元测试集。
图14b中的图表显示了受试者操作特征(AUROC)方面的结果(越高越好),因为数据集高度不平衡。我们的方法跨k的所有值始终优于所有基线,而包括MAML在内的许多方法在k很小时都会遭受严重的过度拟合。与MovieLens-1M的结果相反,这里的10-最近邻方法似乎没有利用上下文集中的更多数据点。这表明,我们的方法在成本敏感的医疗保健环境中是可取的,即使是在结果基本为阴性的高度不平衡的医疗测试中也是如此。
电子学习
最后,我们预计CHN在在线教育环境中很有价值,有可能让教师在给定少量答案的情况下快速评估新问题的诊断能力,或衡量新问题的难度是否适合特定学生。
我们使用电子学习提供商为8094名学生提供的5660个问题的现实生活数据集,详细说明学生是否正确回答了特定问题,评估了电子学习环境中CHN的表现。该数据集包含280万个响应,使其观测为6.1%。我们将每个学生视为一个数据点,并将每个问题视为一个特征,并将每个问题的相关联主题的二元编码作为元数据。我们使用了60%的问题作为训练集;30%的问题作为元测试集并且10%的问题作为元测试集。
图14c中的图表示出了AUROC在未发现的元测试集上的预测性能。我们的方法显示,在整个k范围内,与所考虑的基线相比,有了实质性的改进。一个可能的解释是,这个真实世界数据集中大量的观测和特征使得CHN能够更有效地推广。这将表明在大规模、真实世界环境中应用CHN的真正前景,未来的工作可能希望在比这更大的数据集上探索CHN的性能。
CHN的设计选择背后的一个动机是,与产生良好预测性能的其他参数初始化方法相比,实现显著缩短处理时间。在本实验中,我们计算了为电子学习数据集的元测试集中的每个特征的初始化参数所需的时间,使用128的批大小在整个元测试集中取平均值。
此外,我们使用这个大规模数据集来显示在元测试时使用多种方法生成新特征参数的计算时间。结果如表1所示。我们看到,与基于最近邻的方法相比,CHN提供了近4倍的加速。与仅在10个epoch内对新头部进行一次观测训练相比,我们看到了类似的性能差异。此外,尽管该训练时间随着上下文集中观测数目而快速增长,但CHN所花费的时间几乎保持不变,因为它摊销了梯度下降过程,使得CHN成为更大上下文集大小的非常有效的初始化选择。
表1
Figure BDA0004147143600000271
Figure BDA0004147143600000281
讨论
我们看到,在所有情况下,CHN跨所有k值对所有基线表现出很强的性能。尽管k-最近邻和微调方法由于过度拟合而在低数据状态下表现出较差的性能,但CHN似乎对参数初始化具有正则化效果。然而,这并不妨碍CHN利用更大的上下文集大小,并且我们观察到,随着跨所有数据集中观测数目的增加,性能显著提高,这表明CHN不仅仅是学习单个常量参数初始化,而是有效地使用输入上下文集和元数据。
结论
我们引入了上下文超网络(CHNs),在给定包含新特征和特征元数据的点的上下文集的情况下,提供了一种有效的方法来初始化模型中新特征的参数。我们的实验表明,在回归和分类设置方面,CHN跨一系列数据集的预测性能优于一系列基线,并且能够在一系列上下文集大小上表现良好,同时保持计算效率。在未来的工作中,我们将使用大规模真实世界应用评估流设置中的CHN。
部分变分自编码器
对于我们的实验,我们将我们的模型建立在部分变分自编码器(P-VAE)的基础上-该模型将传统的变分自编码(VAE)模型与PointNet样式的集编码器相结合,使其能够有效地编码和重建部分观测数据点。P-VAE基于这样的观测,即当以潜在变量z为条件时,通常假设VAE中的特征是条件独立的。即,
p(x|z)=∏jp(xj|z)\
然后,给定具有观测特征xO和未观测特征xU的数据点x,我们得到
p(xU|xO,z)=p(xU|z)
因此,如果我们能够从观测特征推断出后验分布,我们就可以使用它来估计p(xU|xO)。P-VAE使用摊销推断网络(或编码器网络)qθ(z|xO)推断出变分后验分布,并在使用解码器网络pφ(xo,xU|z)的给定值的情况下近似条件数据分布。
在我们的模型中,我们通过初始化解码器中的附加子网络来扩展解码器以解码新特征的值,我们称之为解码器头部,并使用参数φn将其输出维度扩展一个维度。原则上,该头部可以是将解码器的共享层的输出作为输入的任何架构,但在实践中,我们发现,简单地扩展权重和偏置的最终层以适应新的输出维度会产生良好的结果,在随着输出特征的数目增加的同时保持参数效率。
训练P-VAE
P-VAE被训练以重建部分观测数据点中的观测特征,并在此过程中学习推断潜在变量z的变分后验qθ(z|xO)。P-VAE被给定了多批数据点,其中来自元训练和元测试集两者的特征被隐藏在模型中。附加地,每次输入特定数据点时,还使用伯努利(Bernoulli)掩模从模型中随机隐藏一些附加特征,以确保模型对数据中的不同稀疏模式具有鲁棒性。然后通过最大化证据下界(ELBO)来训练P-VAE:
Figure BDA0004147143600000291
Figure BDA0004147143600000292
Figure BDA0004147143600000293
基线
在这里,我们为实验中使用的基线提供了附加的细节和结果。
MAML
我们采用模型无关元学习技术作为基线。在“元训练”阶段使用MAML算法适应解码器头部参数θn。每个新特征
Figure BDA0004147143600000294
都被视为一个单独的MAML任务,具有一些观测值和未观测值。我们以M大小的批对任务进行采样,并通过N个步骤训练内部(也称为快速)模型。内部模型训练损失是观测
Figure BDA0004147143600000295
上的PVAE的ELBO。元模型(也称为慢模型或外部模型)通过给定上下文集观测并计算目标集
Figure BDA0004147143600000301
上的重建损失被训练。元模型更新的梯度取批重建损失均值。
与其他实验一致,我们使用以下预测损失:连续数据的均方误差和二元数据的二元交叉熵。上下文集大小k int元训练和元评估的处理方式与CHN实验相同。在元评估中,使用与其他实验中相同的“元测试”特征子集内的上下文集和目标集,并使用相同的评估度量。值得注意的是,由于MAML旨在拟合快速适应新任务的参数,因此它允许在评估时进行微调,即,从MAML参数初始化开始对模型进行多次迭代训练。在这里,我们评估了有微调的模型和无微调的模型。
在MAML基线实验中,我们使用M=4,N=10,学习率α=β=10-2用于内部模型优化和外部模型优化。该模型的微调性能在{1,3,5,10}epoch内进行评估,并使用困扰的结果。我们在实现这一基线时利用了由高级库促进的高阶优化。
图16显示了MAML基线在不同数目的微调epoch和没有微调的情况下的性能。正如预期的那样,没有微调的基线优于那些使用微调的基线。对于神经性疼痛数据集和电子学习数据集,微调epoch的数目的增加对应于性能的提高(更大AUROC),而对于MovieLens-1M数据集,随着微调时间的延长,性能下降(RMSE增加),特别是对于较小的上下文集大小。
k-最近邻头部参数
我们考虑值k∈{1,5,10}的k-近邻头部参数基线。图17显示了该基线跨一系列上下文集大小中的k的不同值的性能。我们预计,随着k的进一步增加,并且被平均的头部参数的数目增加,其行为将接近均值头部参数基线。在正文中,始终使用了10-最近邻,因为它在低数据状态下和高数据状态下都具有良好的性能。
微调
在我们的实验结果中,我们展示了在10个epoch内根据随机初始化的参数在其上下文集上训练新解码器头部的性能。在图18a中,我们示出了在上下文集大小k的范围内,在训练随机初始化的头部参数的epoch数目增加后,P-VAE对元测试集的预测性能。我们看到,在所有情况下,性能随着训练而提升,随着上下文集大小k的增加,性能会更好,并因此过拟合的影响会减少。我们看到,性能通常在大约10个训练epoch收敛,因此该值在我们的所有实验中被用作基准,以在模型性能和计算成本两者之间提供良好的权衡。
此外,在图18b中,我们进行了相同的实验,但使用CHN参数初始化头部。我们发现,在除k=0以外的所有情况下,梯度下降训练导致性能下降,这是由于过度拟合,这表明CHN对参数初始化具有隐式正则化效应。我们还注意到,在所有情况下,一旦训练收敛,从CHN初始化训练的参数优于从随机初始化训练的所有k值的参数。
变分自编码器(VAE)
根据一些实施例,主模型901可以包括VAE。也就是说,辅助模型700可以预测供VAE在预测新特征的值时使用的新模型参数。在一些示例中,主模型可以包括部分VAE。部分VAE如图11和图13所示,将在下文进行描述。注意,主模型901可以采取其他形式,并且不仅限于VAE。现在将描述示例VAE。
图4A示意性地示出了被称为变分自编码器(VAE)的示例模型。在这种情况下,机器学习模型208包括包括推理网络的编码器208q和包括生成网络的解码器208p。诸如关于图1A所讨论的,每个推理网络和生成网络包括一个或多个成分神经网络101。用于本目的的推理网络是指被布置为将输入编码为该输入的潜在表示的神经网络,而生成网络是指被布置为至少部分地从潜在表示解码的神经网络。
编码器208q被布置为接收观测特征向量Xo作为输入,并将其编码为潜在向量Z(潜在空间中的表示)。解码器208p被布置为接收潜在向量Z并解码回特征向量的初始特征空间。解码器208p输出的特征向量的版本可以在本文被标记为
Figure BDA0004147143600000321
潜在向量Z是包含在输入观测Xo中的信息的压缩(即编码)表示。潜在向量Z的任何一个元素都不一定直接表示任何真实世界的量,但向量Z作为一个整体以压缩形式表示输入数据中的信息。可以从概念上考虑表示从输入数据Xo抽象的抽象特征,诸如大象识别示例中的“皱纹”和“树干状”(尽管潜在向量Z的任何一个元素都不一定被映射到任何一个这样的因素上,而是潜在向量Z作为一个整体编码这样的抽象信息)。解码器208p被布置为将潜在向量Z解码回真实世界特征空间中的值,即,解码回表示实际观测特性(例如像素值)的未压缩形式
Figure BDA0004147143600000322
解码的特征向量
Figure BDA0004147143600000323
具有与输入向量Xo相同数目的元素,这些元素表示相同的相应特征。
推理网络(编码器)208q的权重w在此被标记为
Figure BDA0004147143600000328
而生成网络(解码器)208p的权重w被标记为θ。如图4所示,每个节点104应用其各自相应的权重。
对于训练数据中的每个数据点(学习期间的经验数据中的每个数据点),学习函数209调整权重
Figure BDA0004147143600000329
和θ,使得VAE 208学习将特征向量X编码到潜在空间Z中并再次返回。例如,这可以通过最小化
Figure BDA0004147143600000324
和pθ(Xi|Zi),之间的散度测量来实现,其中
Figure BDA0004147143600000325
是是通过表示给定Xi的输入值的编码器208q输出的Zi的元素的概率分布的向量
Figure BDA00041471436000003210
而参数化的函数,而pθ(Xi|Zi)是通过表示给定Zi的编码器208q输出的Xi的元素的概率分布的向量θ而参数化的函数。符号“|”表示“给定”。该模型被训练为重建Xi,并因此保持在Xi上的分布。在“输入侧”,Xoi的值是已知的,而在“输出侧”,在模型的输出分布下,
Figure BDA0004147143600000326
的可能性被评估。通常p(z|x)被称为后验,并且q(z|x)被称为近似后验。p(z)和q(z)被称为先验。
例如,这可以通过最小化
Figure BDA0004147143600000327
和pθ(Xi|Zi)之间的库尔贝克·莱布勒(Kullback-Leibler(KL))散度来实现。可以使用诸如ELBO(证据下界)函数的优化函数来执行最小化,其使用基于梯度下降的成本函数最小化。本文可以通过示例的方式提及ELBO函数,但这不是限制性的,并且本领域中还已知用于调整VAE的编码器网络和解码器网络的其他度量和函数。
学习编码到Z并再次返回的要求相当于施加在由编码器208q和解码器208p的成分神经网络形成的VAE的整个神经网络208上的约束。这是自编码器的一般原理。迫使自编码器学习编码然后解码压缩形式的数据的目的是,与通用神经网络相比,这可以在学习中取得一个或多个优点;诸如学习忽略输入数据中的噪声,进行更好的概括,或者因为当远离解决方案时,压缩形式提供了关于如何快速收敛到解决方案的更好的梯度信息。在变分自编码器中,潜在向量Z受到附加约束,即它遵循概率分布的预定形式,诸如多维高斯分布或伽马分布。
图4B示出了如图4A所示的VAE的更抽象的表示。
图4C示出了如图4A和图4B所示的VAE的更高级表示。在图4C中,实线表示解码器208q的生成网络,并且虚线表示编码器208p的推理网络。在这种形式的图中,圆圈中所示的向量表示分布向量。因此,在这里,例如,如图1C所讨论的,特征向量X(=x1…xd)的每个元素被建模为分布。类似地,潜在向量Z的每个元素被建模为分布。另一方面,没有圆圈的向量表示固定点。因此,在所示示例中,生成网络的权重θ被建模为简单的值,而不是分布(尽管这也是一种可能性)。被标记为N的圆角矩形表示“板(plate)”,这意味着板内的向量在N个学习步骤上迭代(每个数据点一个步骤)。换言之,i=0,…,N-1。板外的向量是全局的,即它不随数据点i的数目(也不随特征向量中特征d的数目)而缩放。被标记为D的圆角矩形表示特征向量X包括多个元素x1…xd。
VAE 208可用于实际目的的方式有多种。一种用途是,一旦VAE已经被训练,通过将潜在向量Z的随机值或未观测值输入到解码器208p来生成特征向量
Figure BDA0004147143600000331
的新的未观测实例。例如,如果X的特征空间表示图像的像素,并且VAE已经被训练为编码和解码人脸,则通过将Z的随机值输入到解码器208p,可以生成在训练期间不属于任何采样对象的新人脸。例如,这可以被用于生成电影或视频游戏的虚构角色。
另一种用途是输入缺失值。在这种情况下,一旦VAE已被训练,输入向量Xo的另一实例可被输入到具有缺失值的编码器208q。即,没有特征向量Xo的一个或多个(但不是所有)元素的观测值。这些元素的值(表示未观测特征)可以被设置为零,或50%,或表示“无观测”的某个其他预定值。然后,可以从解码器208p中读出特征向量
Figure BDA0004147143600000341
的解码版本中的对应的(多个)元素,以便输入缺失的(多个)值。VAE也可以使用具有某些特征的缺失值的一些数据点被训练。
类似于图1A中描述的想法,VAE的另一种可能用途是预测分类。在这种情况下,如图4D所示,另一解码器208pY被布置为将潜在向量Z解码为分类Y,分类Y可以是单个元素或包括多个元素的向量(例如,一个one-hot向量)。在训练期间,用分类Y的观测值标记每个输入数据点(Xo的每个观测),并且因此训练另一解码器208pY以将潜在向量Z解码为分类Y。训练后,这随后可以被用于输入未标记的特征向量Xo,并使解码器208pY为观测特征向量Xo生成分类Y的预测。
根据一些实施例,主模型901可以包括顺序模型。也就是说,辅助模型700可以预测新的模型参数,以供顺序模型在预测新特征的值时使用。现在将描述顺序模型。
现在参考图5A-图5E描述根据本文公开的实施例的形成机器学习模型208’的改进方法。特别地,本文公开的方法特别适合于当只有一组特征可用于观测时的自动顺序决策。该机器学习(ML)模型208’可以被用于代替图2的装置200中的标准VAE,例如,以便进行预测、执行输入和做出决策。模型208’将在下文中称为“顺序模型”208’。
顺序模型208’包括按顺序排列(即一系列)的阶段。该顺序包括初始阶段,随后是一个或多个连续(即进一步)阶段。通常,初始阶段接收初始输入(即,如下所述,一个或多个观测特征)并做出决策(即,如下所述,执行任务)。该决策至少部分地基于初始输入做出,并且是为了实现期望的结果而做出的。连续阶段中的每一个阶段取决于前一阶段的状态(例如,第二阶段取决于第一阶段的状态)。在一些示例中,在给定阶段做出的决策影响该阶段的潜在状态表示(例如,在一个阶段做出的观测影响该阶段潜在空间表示)。在一些示例中,在给定阶段做出的决策影响后续阶段的潜在空间表示(例如,在前一阶段执行的任务影响当前阶段)。因此,顺序模型是顺序的,因为该模型被布置成做出一系列决策,其中所做出的决策受到先前做出的决策和先前阶段的状态的影响。
一般来说,顺序模型可以接收一组特征作为输入,例如与目标相关的真实世界特征,例如,生物(例如,人类或不同的动物)或机器(例如,机械装置、计算机系统等)。在任何给定阶段,顺序模型可接收一组可用特征。例如,只有一些而不是其他特征可以被输入到模型中(即所观测的)。作为示例,可以供给患者的温度作为输入。作为另一示例,可以供给机器(例如汽车)的速度作为输入。也不排除在一些示例中,可以供给特征全集作为输入。在一些示例中,观测特征可以包括已经由相应传感器测量的传感器测量,和/或观测特征可以包括人类的输入,例如对健康问卷的回答。
通常,顺序模型还可以输出与目标相关的一组要采取的动作。例如,动作可以包括以一种方式或另一种方式与目标交互。在一些示例中,执行动作可以包括观测一个或多个特征。在其他示例中,执行动作可以包括实施影响目标的任务,例如物理上影响目标的任务。如果目标是生物,任务可能会在心理或生理上影响目标。作为特定示例,对人类执行任务可以包括对人类执行医疗手术或向人供给药物。注意,输出动作可以包括输出执行动作的请求或建议,或者在一些示例中,实际执行动作。例如,顺序模型可以被用于控制连接的设备,该连接的设备被配置为观测测量或执行任务,例如经由静脉注射供给药物。
每个阶段包括VAE的相应实例。每个阶段的VAE包括编码器网络,该编码器网络被配置为将一个或多个观测特征作为输入,并将这些观测特征编码为该阶段的潜在空间表示。即,在第一阶段,编码器网络使用第一组一个或多个观测特征来推断该阶段的潜在空间表示。每个阶段的VAE还包括解码器网络,其被配置为从潜在空间表示解码到该组特征(即,该组观测特征和未观测特征)的解码版本。即,使用第一阶段的第一潜在空间表示被用来生成(即预测)作为整体的该组特征。
一些或所有阶段还包括第二解码器网络的相应实例。也就是说,那些阶段包括至少两个解码器网络,一个形成该阶段的VAE的一部分和附加解码器网络。给定阶段的第二解码器网络被配置为使用该阶段的潜在空间表示来预测(即,生成或选择)要采取的一个或多个动作。
顺序中的一些或所有连续阶段(例如,除了初始阶段之外的所有阶段)还包括第二编码器网络的相应实例。也就是说,这些连续阶段包括至少两个编码器网络,一个形成该阶段的VAE的一部分和附加解码器网络。给定阶段的第二编码器网络被配置为从先前阶段的(多个)预测动作编码到该阶段的潜在空间表示。即,当前阶段的潜在空间表示至少部分地基于前一阶段做出的动作来推断。在一些实施例中,只有预测的任务被编码到潜在空间表示中。在这种情况下,使用在当前阶段要观测的预测特征来推断该当前阶段(即相同的当前阶段)的潜在空间表示。换言之,新观测特征被反馈到该阶段潜在空间表示的推导中。
顺序中的每个连续阶段包括顺序网络,该顺序网络被配置为从前一阶段的潜在空间表示转换到当前阶段的潜在的空间表示。也就是说,给定连续阶段的潜在空间表示基于前一阶段的潜在的空间表示。
因此,给定连续阶段的潜在空间至少取决于(即,使用推断)前一阶段的潜在空间,在一些示例中,取决于前一阶段采取的动作,并因此顺序模型跨该系列阶段演化。
注意,该模型可以包括比本文所描述的那些阶段更多的阶段。也就是说,该模型至少包括所描述的阶段,该模型不仅限于这些阶段。
首先参考图5A,在顺序模型208’的每个阶段t(t=0…T),针对一组观测特征中的每一个特征,例如,在阶段t=0处的X10和X20,对相应的VAE进行训练。在图5A中,对于特征Xit,i表示特征本身,而t表示观测或生成特征的阶段(视情况而定)。此处仅显示了三个特征作为示例,但应理解,可以使用其他数目。观测特征一起形成特征空间的相应组。也就是说,每个组包括特征空间的不同的相应的一个或多个特征。即,每个组是观测特征向量Xot的不同的一个或多个元素。在图5A的示例中,在阶段0处观测特征向量Xo0可以包括X10和X20。未观测特征向量Xut包括那些未被观测到的特征。在图5A的示例中,在阶段0处未观测特征向量Xu0可以包括X30
特征可以包括其值采用离散数目的类别之一的数据。这方面的示例可以是性别,也可以是对一个问题的回答,其中有大量离散数目的定性答案。在某些情况下,分类数据的特征可以分为两种类型:二元分类和非二元分类。例如,二元数据的示例是回答是/否问题,或吸烟者/非吸烟者问题。非二元数据的示例可以是性别,例如男性、女性或其他;或居住的城镇或国家等,特征可以包括有序数据或连续数据。有序数据的示例是用完整的年份衡量年龄,或对一个问题的回答给出1至10的等级排名、或者给出1或5颗星的等级排名,等等。连续数据的示例是体重或身高。值得注意的是,这些不同类型的数据具有非常不同的统计特性。
每个特征Xit都是一个单独的相应特征。例如,一个特征X1t可以是性别,另一特征X2t可以是年龄,而另一个特征X3t可以是体重(诸如在用于预测或输入用户的医疗状况的示例中)。
每一阶段t的VAE包括相应的第一编码器208qt(t=0…T),其被布置为在该阶段将相应观测特征Xot编码为相应潜在表示(即潜在空间)Zt。每一阶段t的VAE还包括相应的第一解码器208pt(t=0…T),其被布置为将相应潜在表示Zt解码回相应特征组的特征空间的相应(多个)维度,即生成相应的观测特征组Xot和未观测特征组Xut的解码版本
Figure BDA0004147143600000381
例如,在阶段0处的第一编码器208q0从Xo0(例如X10和X2o)到Z0进行编码,并且在阶段0处的第一解码器208q0从Z0
Figure BDA0004147143600000382
进行解码(例如,X10、X20和X30的解码版本)。
在一些实施例中,每个潜在表示Zt是一维的,即仅由单个潜在变量(元素)组成。然而,请注意,这并不意味着潜在变量Zt仅作为简单的固定标量值建模。相反,由于自编码器是变分自编码器,因此对于每个潜在变量Zt,编码器学习统计或概率分布,并且输入到解码器的值是来自分布的随机样本。这意味着对于潜在空间的每个单独元素,编码器学习相应分布的一个或多个参数,例如分布的中心点和扩展的测量。例如,每个潜在变量Zt(单个维度)可以通过相应均值和标准偏差或方差在编码器中建模。
然而,优选地,每个潜在空间表示Zt是多维的,在这种情况下,每个维度由相应分布的一个或多个参数建模。
如图5A所示,在第一连续阶段t=1,该阶段的相应VAE包括相应的第一编码器208p1和相应的第一解码器208q1。在阶段1处的第一编码器208q1可以从Xo1(例如,X21)到Z1进行编码,并且在阶段1处的第一解码器208q0从Z1
Figure BDA0004147143600000383
进行解码(例如,X11、X21和X31的解码版本)。注意,如下面更详细描述的,观测特征向量Xo1可以至少部分地取决于在阶段0处的动作输出。
图5A还显示了包括相应的第二解码器网络501pt的至少一些阶段。在图5A的示例中,只有初始阶段0包括第二解码器网络501p0,而后续阶段(阶段1)不包括第二解码器网络。然而,如图5B所示,不排除一些或所有连续阶段可以包括相应的第二解码器。初始阶段0包括相应的第二解码器也是不必要的。给定阶段t的第二解码器网络501pt被配置为基于该阶段t的潜在空间表示Zt来预测一个或多个动作At。例如,在阶段0处,第二解码器网络501p0从潜在空间表示Z0解码来预测(多个)动作A0。任何给定的第二解码器网络501pt都可以预测单个动作At或多个动作At
如上所述,阶段的顺序包括一个或多个连续阶段,并且那些连续阶段中的一些或全部可以包括相应的第二编码器网络501qt。第二编码器网络501qt被配置为从先前阶段的预测动作At-1编码到该后续阶段(即“当前阶段”)的潜在空间表示Zt。也就是说,在阶段t处的第二编码器网络501qt将在阶段t一1处预测的(多个)动作编码为在阶段t处的潜在空间表示Zt。在图5A的示例中,阶段1包括第二编码器网络501q0,其将(多个)动作A0编码到潜在空间表示Z1。图5A中的每个连续阶段都显示为包括相应的第二编码器网络501qt,但这只是几种可能实现中的一种。
注意,当动作是获取新特征时,可以将该新特征添加到Xot,而不是添加到Xot+1。这意味着获取新特征不会导致潜在状态Zt到Zt+1的转变,例如,测量患者的体温X不会改变患者的健康状况Z。另一方面,如果执行了一项任务(例如,给予治疗),这将改变内部状态并导致从Zt到Zt+1的转变。因此,在这种实现中,只有前一阶段的预测任务,而不是整个预测动作被编码到下一阶段的潜在空间表示中。
每个连续阶段还包括顺序网络502,该顺序网络502被配置为将前一阶段的潜在空间表示Zt转换为当前阶段的潜在的空间表示Zt。也就是说,阶段t包括顺序网络502,该顺序网络502将在阶段t-1处的潜在空间表示Zt-1转换(即映射)为在阶段t的潜在的空间表示Zt。在图5A的示例中,阶段1包括从潜在空间表示Z0转换为潜在空间表示Z1的顺序网络502。在本例中,Z1取决于Z0和A0两者。顺序网络502也可以被称为链接网络或潜在空间链接网络。链接网络将一个表示链接(即映射)到另一个表示。在这种情况下,前面的潜在空间表示与后面的潜在空间表示被链接。在实践中,任何合适的神经网络都可以被用作顺序网络502。
如图5A所示,最终阶段(即不同于初始阶段和后续阶段的阶段)包括第三编码器网络503q。在一些示例中,如图5A所示,仅存在一个第三编码器网络503q,即在最后阶段。在该示例中,第三编码器网络从顺序模型的最后阶段的潜在空间表示编码到模式的结果的表示。在其他示例中,模型的一个、一些或所有阶段也可以包括第三编码器网络503qt。在给定阶段包括第三编码器网络503qt的示例中,第三编码器网络503qt被布置为从该阶段的潜在空间潜在空间表示Zt编码到目标的当前状态Yt的表示。第三编码器网络503q从最终潜在空间表示(图5A中Z1)编码为模型结果Y的表示,即目标的最终状态。在医疗设置的上下文中,目标在给定阶段的当前状态Yt可以是目标在该阶段的健康状态。顺序模型的结果Y(即目标的最终状态)可以是目标的最终健康状态(例如,出院或死亡)。在一些实施例中,在阶段t处的当前状态(例如,结果)可以经由接口204输出给用户。
注意,“最终阶段”并不一定意味着模型中没有其他阶段。相反,最终阶段被用于指所描述的阶段顺序中的最终阶段。不排除整个模型中的其他阶段。同样,为了避免疑问,顺序的“初始阶段”不一定是模型的最重要阶段。
图5A可以用以下方式概括。在初始阶段0处,观测到一个或多个特征Xo0,并且VAE相应的第一编码器网络208q0从观测特征Xo0编码到潜在空间表示Z0。VAE相应的第一解码器网络208p0从潜在空间表示Z0解码到特征空间
Figure BDA0004147143600000401
即观测特征Xo0和未观测特征Xu0。相应的第二解码器网络501p0从潜在空间表示Z0解码以预测一个或多个动作A0。在第一连续阶段1处,可以观测到一个或多个特征Xo1和/或执行任务,这取决于在阶段0处预测的(多个)动作A0。在阶段1处的VAE与在阶段0处的VAE功能相似。此外,相应的第二编码器网络501q1从(多个)动作编码到当前潜在空间表示Z1,类似地,顺序网络502从阶段0从前一潜在空间表示Z0转换为当前潜在空间表示Z1。第三编码器网络从在阶段1处的潜在空间表示Z1编码到模型208'的最终结果Y。
图5B示出了顺序模型208’的另一个实施例。图5B的示例与图5A的示例相似,只不过增加了一个额外的连续阶段和几个附加的网络。也就是说,图5B中的模型208’包含三个阶段(t=1,2,3)。每个阶段包括上述相应的VAE。每个阶段还包括相应的第二解码器网络501pt和相应的编码器网络501qt。每个阶段还包括相应的顺序网络502。再一次,该模型包括第三编码器网络503,其被布置为从最终潜在空间表示Z2编码到最终结果Y。
图5C示出了模型208’的另一个实施例。在本示例中,不同阶段的第一编码器208qt使用一个阶段的解码特征
Figure BDA0004147143600000411
来编码该不同阶段的相应潜在空间表示Zt。在图5C中,早期阶段的解码特征
Figure BDA0004147143600000412
被后期阶段的VAE用来编码当前潜在空间表示Zt。具体地,阶段2的VAE使用在阶段0处的解码特征
Figure BDA0004147143600000413
来推断潜在空间表示Z2
图5D与图5C相似,不同之处在于,早期阶段的VAE使用后期阶段的解码特征
Figure BDA0004147143600000414
来编码当前的潜在空间表示Zt
图5E显示了特定阶段的VAE可以使用多个阶段(例如,多个早期阶段或多个后期阶段)的解码特征
Figure BDA0004147143600000415
如图5E所示,阶段2的VAE使用阶段0的解码特征
Figure BDA0004147143600000416
和阶段1的解码特征
Figure BDA0004147143600000417
来推断潜在空间表示Z2。在某些例子中,一个或多个早期阶段的解码特征
Figure BDA0004147143600000418
和一个或多个后期阶段的解码特征
Figure BDA0004147143600000419
两者都可以被特定阶段的VAE使用。
这些实施例允许在顺序模型208’的不同阶段使用来自一个或多个先前阶段和/或一个或多个未来阶段的信息,以改进对后续空间表示Zt的推断。换言之,来自过去的信息可以被用于更准确地确定稍后时间点的模型状态。类似地,将来的信息可以被用于更准确地确定模型在较早时间点的状态。如图5E所示,直到特定阶段(例如,特定时间点)的所有解码信息都可以被“重新使用”,以提高对该阶段系统的信心。
顺序模型208’首先在训练模式下操作,由此模型208’的相应网络由学习函数209(例如ELBO函数)训练(即,使其权重被调整)。学习函数训练模型208’以学习在模型208’的每个阶段采取哪些动作,以实现期望的结果,或者至少朝着期望的结果前进。例如,模型可以学习采取哪些动作来改善患者的健康状况。学习函数包括作为预测结果的函数的奖励函数,例如特定动作对预测结果的相应(积极)影响,即对采取该特定动作的奖励。
如上所述,动作可以包括获取关于目标的更多信息(即特征)或在目标上执行任务。因此,学习函数至少基于与每个特征或任务相关联的奖励来学习要获取哪些特征和/或要执行哪些任务。例如,学习函数可以学习预测(即选择)与最大奖励相关联的动作。这可以涉及获取将揭示关于目标的最有价值信息的特征,或执行对目标的当前状态具有最积极影响的任务,即朝着模型208’的期望的结果取得最大进展。
如果所选择的动作是获取新特征,则顺序模型208’经由接口204输出信号或消息,请求收集该特征的值并返回到算法206(经由接口204被返回)。该请求可以被输出给人类用户,人类用户手动收集所需的值并通过接口204(在这种情况下是用户接口)将其输入回去。备选地,可以将请求输出到自动过程,该过程自动收集请求的特征并经由接口返回。新收集的特征可以被作为独立特征值被收集(即,收集的特征是新收集的数据点中唯一评估的特征)。备选地,它可以与一个或多个其他特征值一起被收集(即,新收集的数据点包括包含所请求的特征的特征向量的多个特征的值)。无论哪种方式,新收集的(多个)特征的值随后被包含在观测数据集中的观测数据点中。
类似地,如果所选择的动作是执行任务,则顺序模型208’经由接口204输出请求执行任务的信号或消息。该请求可以被输出给手动执行任务的人工用户。备选地,可以将请求输出到自动执行任务的自动化过程。任务已被执行的指示可被返回到算法206(经由接口204被返回)。备选地,模型208’可以被编程为假设预测的任务被执行。
优选地,学习函数包括惩罚函数,该惩罚函数是与执行每个动作相关联的成本的函数。也就是说,新特征的获取(即,观测)可以与相应成本相关联。类似地,任务的执行可以与相应成本相关联。应当理解,一些观测可以比其他观测更昂贵。同样,有些任务可以比其他任务更昂贵。例如,对患者进行手术的任务可以比为患者供给氧气供给更昂贵,这两者都可能比测量患者的体温或血压更昂贵。每个动作的成本可以基于相同的测量,例如对患者健康的风险,或者不同动作的成本可以基于不同的测量,例如风险、财务成本、执行动作所花费的时间等。每个动作的成本可以基于几个测量。
学习函数通常可以采取以下形式:
R=f(Y)-g(Q)
其中R是学习函数,f(Y)是作为动作对预测结果Y的影响的函数的奖励函数,并且g(Q)是动作Q的成本的函数的惩罚函数。
在一些实施例中,动作的报酬和/或成本可以是时间依赖的。也就是说,动作的奖励和/或成本可以是执行动作的时间的函数,或者更一般地,是预测动作的顺序模型的阶段的函数。例如,如果在与后期阶段相比的早期阶段观测特征观测,或者如果相同的特征在很长一段时间内没有被揭示,那么观测特征可以揭示更多的信息。类似地,与患病时间较短的患者相比,如果对患病时间较长的患者执行任务(例如,医疗程序),则成本可能更高。动作的奖励和/或成本的时间依赖性可以例如由健康从业者预先配置,或者学习函数可以学习时间依赖性。也就是说,学习函数可以学习到,如果在一个阶段与另一个阶段相比执行特定动作,则这些动作具有更大的回报和/或成本。
顺序模型208’可以使用许多不同训练目标的数据被训练。然后可以使用该模型来确定与新目标相关的要采取的一个或多个动作,以实现新目标的期望结果。如图6所示。
图6示出了顺序模型208’的另一个示意图。在该图中,模型被展开以显示模型的隐藏状态。如图所示,在每个阶段,(多个)动作和部分(多个)观测被用于以确定性的方式推断隐藏状态,然后被用于以概率的方式推断潜在空间表示。也就是说,h1确定地由A0和Xoo导出,然后h1被用生成Z1的概率表示。下面将更详细地描述隐藏状态的性质。
经训练的顺序模型208’可以被用于预测为改善用户的状况(诸如治疗疾病或其他健康状况)而采取的动作。例如,一旦被训练,模型可以接收对呈现给用户的关于其健康状态的问题的答案,以向模型提供数据。可以提供用户界面以使得能够向用户输出问题并例如通过语音或其他接口装置从用户接收响应。在一些示例中,用户界面可以包括聊天机器人。在其他示例中,用户界面可以包括图形用户界面(GUI),例如点击式用户界面或触摸屏用户界面。经训练的算法可以被配置为使用提供他或她的健康数据的用户响应来预测要采取的动作以改善用户的状况。在一些实施例中,该模型可以被用于推荐要采取的动作以改善用户的健康状况(例如,动作可以是向用户提供某种药物)。可以通过询问作为相同问题的重复实例的问题(询问相同的事情,即相同的问题内容)和/或不同的问题(提出不同的事情,例如不同的问题内容)来监控用户的状况。这些问题可以与用户的状况有关,以便监控该状况。例如,该状况可以是健康状况,诸如哮喘、抑郁症、健身等。还可以从传感器设备提供用户数据,例如佩戴或携带在用户的人周围的可穿戴或便携式传感器设备。例如,这样的设备可以采取具有嵌入式通信接口的吸入器或肺活量计的形式,用于连接到控制器并向控制器提供数据。来自传感器的数据可以被输入到模型中,并形成患者数据的一部分以便使用模型进行预测。
还可以提供上下文数据用于训练和使用算法。这样的数据可以包括用户的位置。用户的位置可以由放置在用户的周围的便携式或可穿戴设备来监控(加上各种已知定位技术中的任何一种或多种,诸如相对于网络的三角测量、三边测量、多重迭代或手指印刷到已知节点,例如WLAN接入点、蜂窝基站、卫星或专用定位网络(例如室内定位网络)的锚定节点)。可以诸如通过使用可穿戴睡眠监视器从个人设备数据推断诸如睡眠质量的其他上下文信息。在另外的备选或附加示例中,来自例如相机、定位系统、运动传感器和/或心率监视器的传感器数据可以被用作元数据。在一些示例中,上下文数据可以被用作训练数据,或者被用作辅助模型的特定特征元数据输入。也不排除一些或所有示例上下文数据实际上可能是模型的特征,例如用户数据。
模型208’可被训练以治疗特定疾病或实现特定健康状况。例如,基于以往患者的训练数据,该模型可被用于治疗特定类型的癌症或糖尿病。一旦模型已被训练,当从新患者提供患者数据时,它可被用于为该特定疾病提供治疗计划。
模型208’的另一个使用示例是针对机器采取动作,诸如在石油钻井领域。提供的数据可能与地质状况有关。可以在特定地理位置的工具上使用不同的传感器。传感器可以包括例如雷达、激光雷达和位置传感器。也可以使用其他传感器,诸如温度计或振动传感器。来自传感器的数据可以是不同的数据类别,因此构成混合数据。一旦该模型已经在该混合数据上进行了有效训练,就可以通过从该未知环境中的等效传感器获取传感器读数来在未知环境中应用该模型,并用于做出与钻井相关的决策,例如改变钻井参数,诸如钻井功率、深度等。
可能的进一步应用是在自动驾驶汽车领域,其中决策是在驾驶过程中做出的。在这种情况下,可以从汽车上的诸如雷达传感器、激光雷达传感器和位置传感器等传感器生成数据,并将其用作特征集,以基于汽车可能处于的状态训练模型以采取特定动作。一旦模型已被训练完成,就可以向模型提供对应的混合数据集来预测特定动作,例如增加/减小速度、改变航向、制动等。
经训练的模型208’的另一个可能的应用是在工业背景中的机器诊断和管理。例如,来自不同机器传感器(包括但不限于温度传感器、振动传感器、加速计、流体压力传感器)的读数可用于训练模型以进行预防性维护。一旦已对模型进行了训练,就可以利用它来预测将机器保持在期望状态所需采取的动作,例如确保机器在期望的时间长度内运行。在这种情况下,一个动作可能是减少机器上的负载,或更换机器的部件等。
结论
应当理解,以上实施例仅通过示例的方式进行了描述。
更一般地,根据本文公开的一个方面,提供了一种训练辅助机器学习模型以预测主机器学习模型的一组新参数的计算机实现的方法,其中主模型被配置为从一组真实世界特征的观测子集转换为一组真实世界特征的预测版本,并且其中辅助模型包括:
第一神经网络,第一神经网络被配置为从一组第一输入向量转换为单个上下文向量,其中每个输入向量与主模型的相应数据点相关联并且包括相应表示向量,相应表示向量包括该数据点的真实世界特征的观测子集的内部表示以及针对该相应数据点的新特征的相应值,并且其中上下文向量是主模型的上下文中的新特征的值的表示;以及
第二神经网络,第二神经网络被配置为至少基于上下文向量预测主模型的一组新参数,其中主模型被配置为使用一组新参数至少从真实世界特征的观测版本转换为新的真实世界特征的预测版本。
在实施例中,主模型可以包括辅助模型的训练之前的现有的一组参数,并且其中现有的一组参数在辅助模型的训练期间被冻结。
在实施例中,针对第一输入向量中的至少一些输入向量,针对相应数据点的新特征的相应值可以是表示缺少对新特征的观测的值。
在实施例中,辅助模型可以包括第三神经网络,第三神经网络被配置为从包括与新特征相关联的一组元数据值的第二输入向量转换为包括一组元数据值的表示的元数据向量,并且其中第二网络被配置为基于元数据向量来预测一组新参数。
在实施例中,第一神经网络可以包括第一子网络和第二子网络,并且其中第一神经网络被配置为通过以下方式从第一输入向量集转换为上下文向量:第一子网络将每个第一输入向量转换为相应第一中间向量;聚合函数聚合中间向量中的每个中间向量以生成固定长度向量;以及第二子网络生成上下文向量作为固定长度向量的表示。
在实施例中,辅助模型可以被连接到主模型,并且其中辅助模型被配置为直接从主模型接收相应表示向量。
在实施例中,辅助模型可以被连接到主模型,并且其中辅助模型被配置为将预测的新参数集直接输出到主模型。
根据本文公开的另一方面,提供了一种操作主机器学习模型的计算机实现的方法,其中主模型被配置为使用由权利要求1的辅助模型生成的所预测的一组新参数,以至少从一组真实世界特征的观测版本转换为新的真实世界特征的预测版本。
在实施例中,主模型可以包括变分自编码器。例如,主模型可以包括部分变分自编码器。
在实施例中,每个数据点可以与相应生物相关联,其中一组真实世界特征包括相应生物的特性。
真实世界特征的预测版本可以被用于诊断和/或改善目标生物的特性(例如,健康状况)。
在实施例中,相应生物的特性中的一个或多个特性可以是基于相应生物的传感器测量和/或代表相应生物或由相应生物提供的调查数据。
在一些示例中,生物可以是人类。
在实施例中,每个数据点可以与相应机器相关联,其中一组真实世界特征包括机器的特性和/或对象的特性,机器被配置为与对象交互。
真实世界特征的预测版本可以被用于诊断和/或改善机器的特性(例如,操作性能)。
在实施例中,训练辅助模型可以包括:使用仅包括一组真实世界特征的子集的训练数据来训练辅助模型;随机采样具有针对真实世界特征的子集的相应观测值的数据点,其中针对剩余的数据点的相应观测值对辅助模型隐藏;以及训练辅助模型以使用预测的一组新参数来预测针对剩余的数据点的相应观测值。
换言之,在训练期间,辅助模型可以只有一些特征可用。在这些特征中,模型从一些数据点采样,而其他数据点被隐藏。即,模型可以访问特征的某些值,但不能访问其他值。然后使用新的预测参数来预测隐藏值。例如使用损失函数对模型进行训练,以更新预测参数,使得预测值与实际值匹配。
或者,换言之,训练方法可以包括保持一组特征以用作辅助模型的训练数据,然后用一些随机数目的相关联观测随机采样特征,并要求模型使用预测参数来预测该特征的剩余值。
根据本文所公开的另一方面,提供了一种计算机程序,计算机程序被实施在计算机可读存储设备上并且被配置为当在一个或多个处理单元上运行时执行任何所描述的实施例。
根据本文公开的另一方面,提供了一种计算机系统,包括:存储器,存储器包括一个或多个存储器单元;以及处理装置,处理装置包括一个或多个处理单元,其中存储器存储代码,代码被配置为当在一个或多个处理单元上运行时执行任何所描述的实施例的方法。
一旦给出本文的公开,所公开技术的其他变型或使用情况对于本领域技术人员来说可能变得明显。本公开的范围不受所描述的实施例的限制,而仅受所附权利要求的限制。

Claims (15)

1.一种训练辅助机器学习模型以预测主机器学习模型的一组新参数的计算机实现的方法,其中所述主模型被配置为从一组真实世界特征的观测子集转换为所述一组真实世界特征的预测版本,并且其中所述辅助模型包括:
第一神经网络,所述第一神经网络被配置为从一组第一输入向量转换为单个上下文向量,其中每个输入向量与所述主模型的相应数据点相关联并且包括相应表示向量,所述相应表示向量包括该数据点的真实世界特征的所述观测子集的内部表示以及针对该相应数据点的新特征的相应值,并且其中所述上下文向量是所述主模型的上下文中的所述新特征的值的表示;以及
第二神经网络,所述第二神经网络被配置为至少基于所述上下文向量预测所述主模型的一组新参数,其中所述主模型被配置为使用所述一组新参数至少从所述一组真实世界特征的所述观测版本转换为所述新的真实世界特征的预测版本。
2.根据权利要求1所述的方法,其中所述主模型包括在所述辅助模型的所述训练之前的现有的一组参数,并且其中所述现有的一组参数在所述辅助模型的训练期间被冻结。
3.根据权利要求1或权利要求2所述的方法,其中针对所述第一输入向量中的至少一些输入向量,针对所述相应数据点的所述新特征的所述相应值是表示缺少对所述新特征的观测的值。
4.根据前述权利要求中任一项所述的方法,其中所述辅助模型包括第三神经网络,所述第三神经网络被配置为从包括与所述新特征相关联的一组元数据值的第二输入向量转换为包括所述一组元数据值的表示的元数据向量,并且其中所述第二网络被配置为基于所述元数据向量来预测所述一组新参数。
5.根据前述权利要求中任一项所述的方法,其中所述第一神经网络包括第一子网络和第二子网络,并且其中所述第一神经网络被配置为通过以下方式从所述一组第一输入向量转换为所述上下文向量:
所述第一子网络将每个第一输入向量转换为相应第一中间向量;
聚合函数聚合所述中间向量中的每个中间向量以生成固定长度向量;以及
所述第二子网络生成所述上下文向量作为所述固定长度向量的表示。
6.根据前述权利要求中任一项所述的方法,其中所述辅助模型被连接到所述主模型,并且其中所述辅助模型被配置为直接从所述主模型接收所述相应表示向量。
7.根据前述权利要求中任一项所述的方法,其中所述辅助模型被连接到所述主模型,并且其中所述辅助模型被配置为将所预测的所述一组新参数直接输出到所述主模型。
8.一种操作主机器学习模型的计算机实现的方法,其中所述主模型被配置为使用由权利要求1的所述辅助模型生成的所预测的所述一组新参数,以至少从一组真实世界特征的观测版本转换为新的真实世界特征的预测版本。
9.根据前述权利要求中任一项所述的方法,其中所述主模型包括变分自编码器。
10.根据前述权利要求中任一项所述的方法,其中每个数据点与相应生物相关联,其中所述一组真实世界特征包括相应生物的特性。
11.根据权利要求10所述的方法,其中所述相应生物的所述特性中的一个或多个特性是基于所述相应生物的传感器测量和/或代表所述相应生物或由所述相应生物提供的调查数据。
12.根据权利要求1至9中任一项所述的方法,其中每个数据点与相应机器相关联,其中所述一组真实世界特征包括所述机器的特性和/或对象的特性,所述机器被配置为与所述对象交互。
13.根据前述权利要求中任一项所述的方法,其中训练所述辅助模型包括:
使用仅包括所述一组真实世界特征的子集的训练数据来训练所述辅助模型;
随机采样具有针对真实世界特征的所述子集的相应观测值的数据点,其中针对剩余的数据点的所述相应观测值对所述辅助模型隐藏;以及
训练所述辅助模型以使用所预测的所述一组新参数来预测针对所述剩余的数据点的所述相应观测值。
14.一种计算机程序,所述计算机程序被实施在计算机可读存储设备上并且被配置为当在一个或多个处理单元上运行时执行根据前述权利要求中任一项所述的方法。
15.一种计算机系统,包括:
存储器,所述存储器包括一个或多个存储器单元;以及
处理装置,所述处理装置包括一个或多个处理单元,
其中所述存储器存储代码,所述代码被配置为当在一个或多个处理单元上运行时执行根据前述权利要求中任一项所述的方法。
CN202180066169.5A 2020-09-28 2021-06-30 用于预测新模型参数的辅助模型 Pending CN116261733A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB2015297.1 2020-09-28
GBGB2015297.1A GB202015297D0 (en) 2020-09-28 2020-09-28 Auxiliary model for predicting new model parameters
US17/095,700 US20220147818A1 (en) 2020-11-11 2020-11-11 Auxiliary model for predicting new model parameters
US17/095,700 2020-11-11
PCT/US2021/039732 WO2022066259A1 (en) 2020-09-28 2021-06-30 Auxiliary model for predicting new model parameters

Publications (1)

Publication Number Publication Date
CN116261733A true CN116261733A (zh) 2023-06-13

Family

ID=77051164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180066169.5A Pending CN116261733A (zh) 2020-09-28 2021-06-30 用于预测新模型参数的辅助模型

Country Status (3)

Country Link
EP (1) EP4217927A1 (zh)
CN (1) CN116261733A (zh)
WO (1) WO2022066259A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117197472B (zh) * 2023-11-07 2024-03-08 四川农业大学 基于鼻出血内窥镜影像的高效师生半监督分割方法及装置
CN117689946B (zh) * 2023-12-12 2024-09-20 电子科技大学 基于元增强对比学习的无源无监督域适应方法

Also Published As

Publication number Publication date
EP4217927A1 (en) 2023-08-02
WO2022066259A1 (en) 2022-03-31

Similar Documents

Publication Publication Date Title
Arik et al. Protoattend: Attention-based prototypical learning
US20220147818A1 (en) Auxiliary model for predicting new model parameters
US20230108874A1 (en) Generative digital twin of complex systems
CN111370084A (zh) 基于BiLSTM的电子健康记录表示学习方法及系统
US20210406765A1 (en) Partially-observed sequential variational auto encoder
Jun et al. Uncertainty-gated stochastic sequential model for EHR mortality prediction
CN116261733A (zh) 用于预测新模型参数的辅助模型
Bayoudh A survey of multimodal hybrid deep learning for computer vision: Architectures, applications, trends, and challenges
CN115516460A (zh) 用于混合数据类型的变分自编码器
Kramer et al. Reconstructing nonlinear dynamical systems from multi-modal time series
CN113673244A (zh) 医疗文本处理方法、装置、计算机设备和存储介质
CN116502129A (zh) 一种知识与数据协同驱动的不平衡临床数据分类系统
Hu et al. Teacher-student architecture for knowledge distillation: A survey
US20240338559A1 (en) Causal discovery and missing value imputation
Wang et al. Toward learning joint inference tasks for IASS-MTS using dual attention memory with stochastic generative imputation
Marco et al. Improving Conditional Variational Autoencoder with Resampling Strategies for Regression Synthetic Project Generation.
Khajeh et al. Integrating microbiome and metabolome data for host disease prediction via deep neural networks
KR102466731B1 (ko) 멀티모달 인공신경망을 활용한 정신건강 상태 분류 장치 및 방법
CN116935143B (zh) 基于个性化联邦学习的dfu医学图像分类方法及系统
US20240266049A1 (en) Privacy-preserving interpretable skill learning for healthcare decision making
Liljeqvist et al. Off-policy latent variable modeling for fast bandit personalization
Wu Representation learning for uncertainty-aware clinical decision support
dos Santos SKELETON BASED HUMAN ACTIVITY PERFORMANCE EVALUATION IN TELE-REHABILITATION
Liang Flexible Statistical Machine Learning Methods for Optimal Treatment Decision.
Venkatesan Understanding, Exploiting and Improving Inter-view Relationships

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination