CN114662645A - 促进持续学习的方法和装置 - Google Patents

促进持续学习的方法和装置 Download PDF

Info

Publication number
CN114662645A
CN114662645A CN202111393924.9A CN202111393924A CN114662645A CN 114662645 A CN114662645 A CN 114662645A CN 202111393924 A CN202111393924 A CN 202111393924A CN 114662645 A CN114662645 A CN 114662645A
Authority
CN
China
Prior art keywords
bnn
weight
sampling
weight distribution
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111393924.9A
Other languages
English (en)
Inventor
尼勒什·阿胡亚
马赫什·苏贝达
兰加纳斯·克里希南
易卜拉希马·迪乌尔
欧米希·缇克柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN114662645A publication Critical patent/CN114662645A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • G06F7/582Pseudo-random number generators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Machine Translation (AREA)
  • Stored Programmes (AREA)

Abstract

公开了促进持续学习的方法和装置。一种示例装置包括训练器,用于训练第一贝叶斯神经网络(BNN)和第二BNN,第一BNN与第一权重分布相关联并且第二BNN与第二权重分布相关联。该示例装置包括权重确定器,用于确定与第一BNN相关联的第一采样权重和与第二BNN相关联的第二采样权重。该示例装置包括网络采样器,用于基于伪随机数、第一采样权重和第二采样权重来对第一权重分布或第二权重分布中的至少一者进行采样。该示例装置包括推断控制器,用于基于采样来生成集总权重分布。

Description

促进持续学习的方法和装置
技术领域
本公开概括而言涉及神经网络,更具体而言,涉及促进神经网络之间的高效知识共享的方法和装置。
背景技术
近年来,机器学习和/或人工智能已越来越流行。例如,可利用神经网络来实现机器学习和/或人工智能。神经网络是受人脑的神经网络启发的计算系统。神经网络可接收输入并且生成输出。神经网络可基于反馈而被训练(例如,可以学习),从而使得输出对应于期望的结果。一旦经过训练,神经网络就可基于任何输入来做出决策以生成输出。神经网络被用于人工智能和/或机器学习的新兴领域。贝叶斯神经网络是一种特定类型的神经网络,它包括输出可变权重而不是固定权重的神经元。该可变权重属于由在贝叶斯神经网络的训练期间确定的平均值和方差定义的概率分布。
发明内容
根据本公开的实施例,提供了一种方法,包括:训练第一贝叶斯神经网络(BNN)和第二BNN,所述第一BNN与第一权重分布相关联并且所述第二BNN与第二权重分布相关联;确定与所述第一BNN相关联的第一采样权重和与所述第二BNN相关联的第二采样权重;基于伪随机数、所述第一采样权重和所述第二采样权重来对所述第一权重分布或所述第二权重分布中的至少一者进行采样;并且基于所述采样来生成集总权重分布。
根据本公开的实施例,提供了一种装置,包括:用于训练的装置,用于训练第一贝叶斯神经网络(BNN)和第二BNN,所述第一BNN与第一权重分布相关联并且所述第二BNN与第二权重分布相关联;用于确定权重的装置,用于确定与所述第一BNN相关联的第一采样权重和与所述第二BNN相关联的第二采样权重;用于采样的装置,用于基于伪随机数、所述第一采样权重和所述第二采样权重来对所述第一权重分布或所述第二权重分布中的至少一者进行采样;以及用于推断的装置,用于基于所述采样来生成集总权重分布。
根据本公开的实施例,提供了至少一种计算机可读介质,包括指令,所述指令当被执行时使得至少一个处理器至少执行以下操作:训练第一贝叶斯神经网络(BNN)和第二BNN,所述第一BNN与第一权重分布相关联并且所述第二BNN与第二权重分布相关联;确定与所述第一BNN相关联的第一采样权重和与所述第二BNN相关联的第二采样权重;基于伪随机数、所述第一采样权重和所述第二采样权重来对所述第一权重分布或所述第二权重分布中的至少一者进行采样;并且基于所述采样来生成集总权重分布。
附图说明
图1是示例贝叶斯神经网络的示意性图示。
图2是根据本公开的教导的示例环境的示意性图示,它包括示例第一BNN系统、示例第二BNN系统、以及示例BNN集总控制器,以促进持续学习。
图3是二维权重空间的示例图示。
图4是用于持续学习的示例BNN集总系统的示意性图示。
图5是加权参数的示例图示。
图6是表示可被执行来实现图2的示例BNN集总控制器的示例机器可读指令的流程图。
图7是被构造来执行图6的指令以实现图2的示例BNN集总控制器的示例处理平台的框图。
图8是示例软件分发平台的框图,用于将软件(例如,与图6的示例计算机可读指令相对应的软件)分发到客户端设备,例如消费者(例如,用于许可、销售和/或使用)、零售商(例如,用于销售、再销售、许可和/或次级许可)、和/或原始设备制造商(OEM)(例如,用于包括在要被分发到例如零售商和/或直接购买客户的产品中)。
附图不是按比例的。一般而言,相同的标号将在各幅图和伴随的书面描述的各处被用于指代相同或相似的部件。
除非另有具体声明,否则本文使用诸如“第一”、“第二”、“第三”等等之类的描述语,而不输入或以其他方式指示出任何优先权、物理顺序、在列表中的排列和/或以任何方式排序的含义,而只是用作标签和/或任意名称来区分元素,以便易于理解公开的示例。在一些示例中,描述语“第一”在详细描述中可被用于提及某一元素,而同一元素在权利要求中可被用不同的描述语来提及,例如“第二”或“第三”。在这种情况下,应当理解,这种描述语仅仅用于明确地识别那些元素,这些元素例如可能在其他情况下共享同一名称。就本文使用的而言,“基本上实时”指的是以近乎瞬时的方式发生,承认现实世界中可能存在计算时间、传输等等方面的延迟。从而,除非另有指明,否则“基本上实时”指的是实时+/-1秒。
具体实施方式
理想情况下,部署在现实世界任务中的深度神经网络(deep neural network,DNN)应当能够识别非典型输入(例如,会被认为是分布外的、异常、新颖等等的输入),以确定是要忽略这些输入(例如,因为它们与任务不相关)还是从它们中学习。也就是说,DNN对新输入进行分布外(out-of-distribution,OOD)检测和持续学习。然而,先前的DNN并不适合进行OOD检测和持续学习。例如,当试图识别OOD输入时,DNN倾向于给出不正确但过于自信的结果。另外,当试图通过更新权重来从新输入中学习时,DNN会迅速忘记他们的旧数据。也就是说,DNN在从新的输入中学习时经历了灾难性的遗忘。
在一些示例中,DNN不适合OOD检测和持续学习,因为DNN的权重和参数是由单点估计来表示的。因此,由于缺乏关于网络的权重的完整知识,单一的一组经训练的网络权重并不能捕捉到模型不确定性(例如,认知上的不确定性)。另外,偏离这单一的一组权重的任何行为都会导致网络在先前训练数据上的性能下降(例如,在持续学习场景中导致灾难性的遗忘)。从而,与概率分布相关联的一组训练权重可以在推断期间被边缘化,并且更好地表示关于网络的权重的完整知识。先前的技术,包括BNN和非贝叶斯DNN的集总(ensemble),在其表示完整权重分布方面的能力是有限的。
贝叶斯神经网络(Bayesian Neural Network,BNN)是机器学习神经网络,能够在推断时计算认知上的不确定性(例如,系统上的不确定性)和偶然的不确定性(例如,统计上的不确定性)。例如,系统(例如,计算系统)可包括在不同的环境下操作的至少一个或多个代理(例如,计算设备、计算处理器、计算系统,等等),其使用BNN来独立地学习。在这样的系统中,可能存在包括第一数据子集和第二数据子集的数据集合。另外,在这样的系统中,可能存在在第一计算环境中的第一计算设备上操作的、使用第一数据子集来训练的第一BNN。类似地,可能存在在第二计算环境中的第二计算设备上操作的、使用第二数据子集来训练的第二BNN。因此,在第一BNN和第二BNN之间共享训练知识,以便第一BNN或第二BNN能够对数据集合(例如,第一数据子集和第二数据子集)准确地执行推断,可能在计算上是效率低下或不可行的。
在一些示例中,提出了变分推断方法来实现可操作的推断,因为推断BNN中的真实后验在分析上是难以实现的。变异推断方法(例如,均值场变分推断(mean fieldvariational inference,MFVI)、蒙特卡洛丢弃(Monte-Carlo dropout,MC丢弃),等等)倾向于拟合局部模式的近似值,而没有捕捉全部后验,导致它们对处于观察区域之间的数据过于自信。另外,将变分推断扩展到具有多模态后验的BNN是一个挑战。
在确定性神经网络的情境中已探索了集总方法,其中集总(ensemble)的所有成员共享相同的网络拓扑,但权重和参数集合不同。在一些示例中,网络参数是使用诸例如装袋与推进(bagging and boosting)之类的技术来获得的,这涉及到用多个随机初始化来训练集合。在一些示例中,集总的参数是通过随机采样和正则化来获得的,以提供贝叶斯后验的一致估计。在这样的示例中,不确定性的局部度量是Softmax概率,这往往是不可靠的(例如,只有集总的全局水平可以获得稳健的不确定性估计)。在一些示例中,MC丢弃模型的集总被用于对抗性示例检测。然而,MC丢弃是贝叶斯推断的一个粗略的近似。
如上所述,在持续学习中,当遇到新的和以前未见过的数据时,网络的参数被更新。然而,先前的技术经历了灾难性的遗忘。例如,先前的持续学习技术侧重于更新单个网络的参数,而不是维持各模型的集总。在一些示例中,非贝叶斯技术、贝叶斯技术和/或存储旧数据样本的其他技术试图减轻灾难性遗忘。例如,一些先前技术保留了旧训练数据的样本,当用新的数据进行训练时,这些旧训练数据的样本被重放给网络。这样的示例与高计算成本(例如,计算时间、存储器要求,等等)相关联,因为每次观察新数据时,数据集的大小都会增大。
本文公开的示例实现了BNN的集总,使得能够确定权重分布的更完整表示。例如,BNN的集总可以获得比先前技术(例如,BNN、DNN的集总,等等)相对更稳健的不确定性估计,这可以被用于各种应用,例如识别OOD输入、异常输入、数据分布的转变、持续学习,等等。在本文公开的示例中,BNN的权重是用参数分布来建模的。从而,由于集总的每个成员都是BNN,所以BNN可以提供其自己的不确定性估计,然后这可以与来自集总的其他BNN的不确定性估计相混合。从而,既有稳健的局部不确定性视点(例如,每个模型),也有稳健的全局视点(例如,针对集总)。
在本文公开的示例中,每个个体网络的权重的后验分布被建模为单峰高斯。从而,集总相当于用高斯混合模型(Gaussian Mixture Model,GMM)对权重后验进行建模。GMM是概率密度的通用近似器。从而,BNN的集总使得能够更完整地表示权重的分布,从而在推断期间得到了更稳健和准确的不确定性。例如,BNN的集总可以识别新的、非典型的和/或以前未见过的输入。在一些示例中,可以由完整的数据集(如果可用的话)或者用部分可用的数据集(例如,子集)来训练集总的成员。例如,集总的每个成员可以用数据的一个子集来进行训练和/或专注于数据的一个子集。从而,所得到的集总表示了BNN的组合知识。额外地或者替换地,本文公开的示例非常适合于分布式部署(例如,联合学习应用),其中集总中的每个成员都是用仅在本地可用的数据来进行训练的。在本文公开的示例中,利用MC采样技术从集总成员的权重分布执行推断。也就是说,本文公开的示例组合了每个数据集中隐含的知识,并且结果表示了集总中包含的组合知识。
图1是示例神经网络(NN)系统100的示意性图示。在一些示例中,NN训练器102实现用于训练神经网络的装置。示例NN系统100包括示例NN训练器102来训练示例BNN 104。示例BNN 104包括示例存储器108,以及示例神经元110。虽然图1中图示的神经元110包括六个神经元,但可以有采取任何类型的配置的任何数目的神经元。
图1的示例NN训练器102通过为每个神经元110选择平均权重和平均权重的偏差量来训练BNN 104。最初,BNN 104是未经训练的(例如,神经元还没有被用均值和偏差进行加权)。为了训练BNN 104,图1的示例NN训练器102使用训练数据(例如,用已知的分类和/或输出来标记的输入数据)来配置BNN 104,以便能够为具有未知分类的输入数据预测输出分类。NN训练器102可以用第一训练数据集合来训练模型,并且用第二训练数据集合来测试该模型。如果基于测试的结果,模型的准确度低于阈值,则NN训练器102可使用额外的训练数据集合来调节(例如,调整、进一步训练,等等)模型的参数,并且继续测试,直到准确度高于阈值为止。在NN训练器102训练了BNN 104之后,示例NN训练器102在示例BNN 104的示例存储器108中为各个神经元110存储相应的均值和偏差。示例NN训练器102可被实现在与BNN104相同的设备中和/或实现在与示例BNN 104进行通信的单独设备中。例如,NN训练器102可位于远程,在本地开发权重数据,并且将权重数据(例如,各个神经元110的均值和偏差)部署到BNN 104以便实现。
图1的示例BNN 104还包括示例存储器108。示例存储器108结合特定的神经元存储来自示例NN训练器102的权重数据。例如,存储器108的第一部分专门用于第一神经元的第一平均值和第一方差值,存储器108的第二部分专门用于第二神经元的第二平均值和第二方差值,等等。平均值可作为代表平均值的比特值被存储在专用部分中。
图1的示例神经元110接收输入数据,生成与概率分布相对应的权重,并且将该权重应用于输入数据以生成输出。例如,如果神经元的概率分布遵循标准正态分布,该神经元的平均权重是0.7,并且该神经元的方差是0.01(例如,标准偏差是0.1),那么该神经元将有68%的机会输出0.6和0.8之间的权重(例如,离均值一个标准偏差),有95%的机会该神经元将输出0.5和0.9之间的权重(例如,离均值两个标准偏差),等等。相应地,由输出生成的权重在每次生成权重时可能是不同的,但将会遵循该概率分布。
图2图示了示例环境200,包括示例第一BNN系统202、示例第二BNN系统204、以及示例BNN集总控制器214。在图2的示例中,第一BNN系统202和/或第二BNN系统204可以实现图1的示例BNN 104和/或NN训练器102。例如,第一BNN系统202可以实现图1的NN训练器102和BNN 104。同样地,第二BNN系统204可以在与第一BNN系统202分开的执行空间中实现图1的NN训练器102和BNN 104。
在图2的示例环境200中,第一BNN系统202和第二BNN系统204与示例网络206进行通信。在图2中,网络206是被配置为与第一BNN系统202和第二BNN系统204通信的无线网络(例如,云网络)。在本文公开的其他示例中,可以使用任何适当的有线和/或无线网络来实现网络206。
网络206进一步存储示例数据集208。这样的数据集208包括示例的第一数据子集210和示例的第二数据子集212。在操作中,网络206将第一数据子集210传输到第一BNN系统202。网络206进一步将第二数据子集212传输到第二BNN系统204。
在图2的示例中,网络206将第一数据子集210传输到第一BNN系统202,以供第一BNN系统202在训练中使用。同样地,网络206将第二数据子集212传输到第二BNN系统204以供在训练中使用。在本文公开的示例中,第一数据子集210、第二数据子集212、和/或更一般地数据集208,可以对应于适合用于训练BNN系统(例如,第一BNN系统202和/或第二BNN系统204)的任何数据。例如,第一数据子集210、第二数据子集212、和/或更一般地数据集208,可以对应于用于学习策略(例如,意图预测、避免碰撞,等等)的数据集合。
在一些示例中,第一数据子集210和第二数据子集212是相同的。例如,第一数据子集210和第二数据子集212是数据集208。也就是说,集总的成员(例如,第一BNN系统202和第二BNN系统204)能够访问完整的训练数据集。在这样的示例中,NN训练器102用不同的随机初始化来训练第一BNN系统202的BNN和第二BNN系统204的BNN。第一BNN系统202和第二BNN系统204共同提供了比第一BNN系统202和/或第二BNN系统204分别提供的权重分布表示更完整的权重分布表示。类似地,BNN的集总比BNN系统202、204本身获得了更好的不确定性估计。
额外地或者替换地,第一数据子集210可以与第二数据子集212不同。例如,BNN集总的成员只能访问训练数据(例如,数据集208)的子集。在分布式应用的一些示例中,BNN集总的网络对训练数据具有部分视图。例如,数据集208可对应于在森林中收集的图像。定位在森林的第一部分中的第一相机可以生成第一数据子集210,并且定位在森林的第二部分中的第二相机可以生成第二数据子集212。在一些示例中,第一数据子集210和第二数据子集212是互斥的。
额外地或者替换地,第一数据子集210和第二数据子集212可对应于数据类别。例如,第一BNN系统202专注于第一类数据(例如,第一数据子集210),并且第二BNN系统204专注于第二类数据(例如,第二数据子集212)。例如,第一BNN系统202专注于识别猫科动物(例如,狮子、老虎、美洲虎,等等),并且第二BNN系统204专注于识别犬科动物(例如,狼、狐狸、豺狼,等等)。从而,集总(例如,第一BNN系统202和第二BNN系统204)的BNN专注于一项任务,并且实现了多任务学习。
虽然图2的图示示例包括两个BNN系统,但本文公开的示例可包括任何数目的BNN系统。也就是说,本文公开的示例是可缩放的。例如,可以在不干扰现有BNN系统的情况下将额外的BNN系统添加到集总。在一些示例中,响应于获得额外的输入数据,额外的BNN系统被添加到集总(例如,以使能持续学习)。同样地,如果特定的网络获得了新的数据,则该网络的权重可被更新以学习新的数据,而不影响集总的其他网络的权重。从而,新数据的学习不会影响到网络其余部分中先前学习的数据,从而最大限度地减少了灾难性遗忘。
示例BNN集总控制器214训练BNN的集总,用于识别OOD输入、异常输入、数据分布的转变、持续学习,等等。在一些示例中,第一BNN系统202和第二BNN系统204的权重分布是单峰高斯的,从而,BNN的集总相当于用GMM进行建模。因为GMM是概率密度的通用近似器,所以BNN集总使得能够更完整地表示权重的分布。在示例式1中表示BNN的输出处的预测性分布。
Figure BDA0003369258650000091
在示例式1中,x是输入样本,y是输出,D是训练数据集(例如,数据的子集210、212),并且p(w|D)是对从训练数据集学习的权重的后验。从而,权重后验的表示的质量直接影响到在输出处获得的预测性分布的质量。
在一些示例中,BNN集总控制器214使用来自BNN(例如,BNN系统202、204)的权重分布的MC采样来执行推断。例如,高斯混合模型由示例式2表示。
Figure BDA0003369258650000092
在示例式2中,αi是第i个组件(例如,第i个BNN系统)的权重,并且N(μii)是第i个组件的权重分布。
在图2的图示示例中,BNN集总控制器214包括示例权重确定器216、示例采样控制器218、示例网络采样器220、示例推断控制器222、示例不确定性估计器224、以及示例模型数据库226。
示例权重确定器216确定集总的BNN系统的采样权重。也就是说,权重确定器216确定BNN系统(例如,第一BNN系统202和/或第二BNN系统204)的αi。在一些示例中,权重确定器216实现了用于确定权重的装置。示例权重确定器216确定类别j的样本在训练集合D中的比例βj。在本文公开的示例中,∑βj=1。示例权重确定器216确定集总中包括类别j的网络的数目Nj。例如,如果类别j是猫科动物,并且第一数据子集210包括猫科动物的图像,但第二数据子集212不包括,则权重确定器216确定一个网络识别猫科动物类别。示例权重确定器216确定已被指派给网络i的一组类别标签Lj。示例权重确定器216基于示例式3来确定αi的值。
Figure BDA0003369258650000101
例如,如果BNN集总的每个网络是用所有的训练数据(例如,数据集208)来训练的,则权重确定器216针对每个类别j确定BNN的所有网络都观察到了该类别j(例如,
Figure BDA0003369258650000102
)。在这样的示例中,权重确定器216确定集总的每个BNN的采样权重为
Figure BDA0003369258650000103
(例如,
Figure BDA0003369258650000104
)。额外地或者替换地,如果每个网络是用一个类别来训练的,则权重确定器216确定集总的每个BNN的采样权重是βi(例如,αi=βi)。
示例采样控制器218确定要从BNN集总中收集的样本的数目N。在一些示例中,采样控制器218实现了用于确定要收集的样本的数目的装置。在一些示例中,采样控制器218基于性能约束和/或不确定性的质量来确定样本的数目。也就是说,采样控制器218基于应用的计算要求、时延要求和/或存储器要求来确定样本的数目。例如,增大样本数目会增大产生输出的计算时间和功率消耗。从而,采样控制器218基于功率预算和吞吐量要求来确定要收集的样本的数目。额外地或者替换地,采样控制器218基于不确定性的质量来确定要收集的样本的数目。也就是说,更多的样本数目在输出处产生更好的预测性分布质量。例如,采样控制器218基于采样阈值(例如,是否超过了样本的阈值数目)和/或不确定性阈值(例如,是否满足了阈值不确定性)来确定样本的数目。
示例网络采样器220对BNN的集总进行采样。在一些示例中,网络采样器220实现了用于对神经网络进行采样的装置。在一些示例中,网络采样器220对基于参数{αi}划分的多项分布进行采样。也就是说,网络采样器220将区间[0,1]划分为N个长度为
Figure BDA0003369258650000111
的区间。区间[0,1]被划分为k个分量。在本文公开的示例中,网络采样器220确定一伪随机数。在一些示例中,网络采样器220由
Figure BDA0003369258650000112
数字随机数发生器(Digital Random NumberGenerator,DRNG)实现以确定在0和1之间的数字。然而,网络采样器220可以实现任何其他适当的伪随机数发生器。网络采样器220对与该伪随机数相对应的第k个组件(例如,BNN)的正态分布N(μkk)进行采样。
示例推断控制器222将样本汇总以确定预测性分布。在一些示例中,推断控制器222实现了用于推断的装置。例如,推断控制器222使用GMM来混合BNN集总的权重分布的样本。在一些示例中,推断控制器222使用
Figure BDA0003369258650000113
数学内核库(Math Kernel Library,MKL)等等来从均匀分布生成高斯分布。然而,推断控制器222可以实现任何其他适当的库。在一些示例中,推断控制器222将预测性分布存储在模型数据库226中。
示例不确定性估计器224确定预测性分布的不确定性以检测OOD数据和/或异常数据。在一些示例中,不确定性估计器224实现了用于估计不确定性的装置。例如,不确定性估计器224确定预测性分布的偶然不确定性(例如,观测中固有的噪声)和/或认知上的不确定性(例如,模型参数中的不确定性)。在一些示例中,不确定性估计器224使用预测方差来确定预测性分布在输出上的认知不确定性。不确定性估计器224响应于认知不确定性超过不确定性阈值而识别并且标记OOD数据。也就是说,OOD数据相对于分布内数据具有较高的认知不确定性。在一些示例中,不确定性估计器224基于已知的分布内数据样本(例如,训练数据)的不确定性值来确定不确定性阈值。也就是说,不确定性估计器224确定分布内数据样本的不确定性值的范围。从而,不确定性估计器224将不确定性值在该范围之外的数据标记为OOD数据。在一些示例中,BNN集总控制器214丢弃被标记为OOD数据的输入数据。也就是说,BNN集总控制器214将OOD数据识别为与BNN集总无关,并且确定不从OOD数据中学习。
示例模型数据库226存储预测性分布。例如,模型数据库226存储由示例推断控制器222生成的预测性分布。图2的图示示例的示例模型数据库226由用于存储数据的任何存储器、存储设备和/或存储盘实现,例如,闪存、磁介质、光学介质、固态存储器、(一个或多个)硬盘驱动器、拇指驱动器,等等。此外,存储在示例模型数据库226中的数据可采取任何数据格式,例如,二进制数据、逗号分隔数据、制表符分隔数据、结构化查询语言(structured query language,SQL)结构,等等。虽然在图示的示例中,模型数据库226被图示为单个设备,但示例模型数据库226和/或本文描述的任何其他数据存储设备可以由任何数目和/或任何(一个或多个)类型的存储器来实现。
图3是二维(2D)权重空间的示例图示。图3的图示示例包括示例DNN权重分布300、示例BNN权重分布302、示例DNN集总权重分布304、以及示例BNN集总权重分布306。示例权重分布300、302、304、306包括示例最优权重分布308。示例DNN权重分布300包括示例点310。在一些示例中,示例点310没有提供最优权重分布308的良好表示。
BNN权重分布302和DNN集总权重分布304的权重分布相对于DNN权重分布300提供了最优权重分布308的更好估计。例如,BNN权重分布302包括示例高斯分布312。也就是说,高斯分布312与均值和标准偏差相关联,导致2D权重空间中的单峰多变量高斯。示例DNN集总权重分布304包括示例点314。在图3的图示示例中,点314包括五个点,表示从最优权重分布308取得的一组样本。然而,在点314之间有很大的间隙。从而,基于DNN集总权重分布304的最优权重分布308的充分表示可能需要几个样本,这增加了计算时间。
示例BNN集总权重分布306包括示例高斯分布316。例如,高斯分布316包括与均值和标准偏差相关联的五个高斯分布。在图3的图示示例中,高斯分布316相对于DNN集总权重分布304的点314而言,在各个高斯分布316之间具有更小的间隙。从而,高斯分布316比示例点314相对更好地表示了最优权重分布308。
图4是用于持续学习的示例BNN集总系统400的示意性图示。示例BNN集总系统400包括示例第一BNN 402和示例第二BNN 404。然而,示例BNN集总系统400可包括任何数目的BNN。例如,BNN集总系统400可包括N个BNN(例如,第二BNN 404是第N个BNN)。第一BNN 402与示例第一权重分布406相关联,并且第二BNN 404与示例第二权重分布408相关联。例如,NN训练器102(图1)在第一数据子集上训练第一BNN 402以生成第一权重分布406,并且NN训练器102在第二数据子集上训练第二BNN 404以生成第二权重分布408。
示例BNN集总系统400包括示例第三权重分布410。在本文公开的示例中,第三权重分布410是基于第一权重分布406和第二权重分布408的。在一些示例中,第三权重分布410是预测性分布。例如,BNN集总控制器214(图2)对权重分布406、408进行采样和混合以生成第三权重分布410。
图5是加权参数500的示例图示。加权参数500包括示例第一加权参数502、示例第二加权参数504、示例第三加权参数506、以及示例第四加权参数508。在本文公开的示例中,加权参数502、504、506、508对应于采样权重(例如,α)。例如,加权参数500对应于BNN(例如,第一加权参数502对应于第一BNN,第二加权参数504对应于第二BNN,等等)。在本文公开的示例中,权重确定器216(图2)使用示例式3来确定加权参数502、504、506、508的值。
示例BNN集总控制器214(图2)使用加权参数500对BNN的集总进行采样以生成混合权重分布。例如,网络采样器220确定在0和1之间的伪随机数,该伪随机数标识加权参数500的第k个分量。网络采样器220对与所选择的第k个分量相对应的BNN的权重分布进行采样。在本文公开的示例中,加权参数500确定了集总的BNN被采样的概率。例如,第一加权参数502比第二加权参数504具有相对更高的值(例如,幅值)。从而,网络采样器220在第一加权参数502的区间中生成伪随机数的概率更高。
虽然在图2中图示了实现图2的BNN集总控制器214的示例方式,但图2中所示的元件、过程和/或设备中的一个或多个可被组合、划分、重布置、省略、消除和/或以任何其他方式来实现。另外,图2的示例权重确定器216、示例采样控制器218、示例网络采样器220、示例推断控制器222、示例不确定性估计器224、示例模型数据库226、和/或更概括而言示例BNN集总控制器214,可以通过硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。从而,例如,示例权重确定器216、示例采样控制器218、示例网络采样器220、示例推断控制器222、示例不确定性估计器224、示例模型数据库226、和/或更概括而言示例BNN集总控制器214中的任何一者可由一个或多个模拟或数字电路、逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程控制器、(一个或多个)图形处理单元((一个或多个)GPU)、(一个或多个)数字信号处理器((一个或多个)DSP)、(一个或多个)专用集成电路((一个或多个)ASIC)、(一个或多个)可编程逻辑器件((一个或多个)PLD)和/或(一个或多个)现场可编程逻辑器件((一个或多个)FPLD))来实现。当读到本专利的任何装置或系统权利要求覆盖纯软件和/或固件实现方式时,示例权重确定器216、示例采样控制器218、示例网络采样器220、示例推断控制器222、示例不确定性估计器224、示例模型数据库226中的至少一者在此被明确定义为包括包含该软件和/或固件的非暂态计算机可读存储设备或存储盘,例如存储器、数字多功能盘(DVD)、致密盘(CD)、蓝光盘,等等。此外,图2的示例BNN集总控制器214可包括除了图2中所示的那些以外或者取代图2中所示的那些的一个或多个元件、过程和/或设备,和/或可包括多于一个图示的元件、过程和设备中的任何一者或所有。就本文使用的而言,短语“与……通信”(包括其变体)涵盖了直接通信和/或通过一个或多个中间组件的间接通信,而不要求直接物理(例如,有线)通信和/或不断的通信,而是还包括按周期性间隔、排定的间隔、非周期性间隔和/或一次性事件的选择性通信。
在图2中示出了表示用于实现图2的示例BNN集总控制器214的示例硬件逻辑、机器可读指令、硬件实现的状态机和/或其任何组合的流程图。机器可读指令可以是供计算机处理器和/或处理器电路执行的一个或多个可执行程序或者可执行程序的(一个或多个)部分,所述计算机处理器和/或处理器电路例如是下文联系图7论述的示例处理器平台700中所示的处理器712。该程序可体现在存储于诸如CD-ROM、软盘、硬盘驱动器、DVD、蓝光盘或与处理器712相关联的存储器之类的非暂态计算机可读存储介质上的软件中,但整个程序和/或其一些部分可替换为由除了处理器712以外的设备执行和/或体现在固件或专用硬件中。另外,虽然是参考图6中所示的流程图来描述示例程序的,但可替换使用实现示例BNN集总控制器214的许多其他方法。例如,块的执行顺序可被改变,和/或描述的块中的一些可被改变、消除或组合。额外地或者替换地,任何或所有块可由被构造为执行相应的操作而不执行软件或固件的一个或多个硬件电路(例如,分立和/或集成的模拟和/或数字电路、FPGA、ASIC、比较器、运算放大器(op-amp)、逻辑电路,等等)来实现。处理器电路可分布在不同的网络位置和/或在一个或多个设备的本地(例如,单个机器中的多核处理器,分布在服务器机架上的多个处理器,等等)。
可以以压缩格式、加密格式、分段格式、编译格式、可执行格式、打包格式等等中的一种或多种格式来存储本文描述的机器可读指令。本文描述的机器可读指令可被存储为可被利用来创建、制造和/或生产机器可执行指令的数据或数据结构(例如,指令的部分、代码、代码的表示,等等)。例如,机器可读指令可被分割并存储在位于网络或者网络集合的相同或不同位置的一个或多个存储设备和/或计算设备(例如,服务器)上(例如,在云中,在边缘设备中,等等)。机器可读指令可要求安装、修改、改编、更新、组合、补充、配置、解密、解压缩、解包、分发、重指派、编译等等中的一个或多个,以便使得它们可被计算设备和/或其他机器直接可读、可解释和/或可执行。例如,机器可读指令可被存储为多个部分,这些部分被单独压缩、加密并存储在分开的计算设备上,其中这些部分当被解密、解压缩和组合时,形成实现可一起形成例如本文所述那种的程序的一个或多个功能的一组可执行指令。
在另一示例中,机器可读指令可被存储在如下状态中:在该状态中,它们可被处理器电路读取,但要求添加库(例如,动态链接库(dynamic link library,DLL))、软件开发套件(software development kit,SDK)、应用编程接口(application programminginterface,API)等等以便在特定的计算设备或其他设备上执行这些指令。在另一示例中,在机器可读指令和/或相应的(一个或多个)程序可被全部或部分执行之前,机器可读指令可能需要被配置(例如,存储设置、输入数据、记录网络地址,等等)。从而,如本文使用的机器可读介质可包括机器可读指令和/或(一个或多个)程序,无论这些机器可读指令和/或(一个或多个)程序在被存储时或以其他方式在休息或在途时的特定格式或状态如何。
本文描述的机器可读指令可以由任何过去、当前或者未来的指令语言、脚本语言、编程语言等等来表示。例如,可利用以下语言中的任何一种来表示机器可读指令:C、C++、Java、C#、Perl、Python、JavaScript、超本文标记语言(HyperText Markup Language,HTML)、结构化查询语言(Structured Query Language,SQL)、Swift,等等。
如上所述,可利用存储在非暂态计算机和/或机器可读介质上的可执行指令(例如,计算机和/或机器可读指令)来实现图6的示例过程,所述介质例如是硬盘驱动器、闪存、只读存储器、致密盘、数字多功能盘、缓存、随机访问存储器、和/或其中信息可被存储任何持续时间(例如,存储较长时间段、永久存储、短暂存储、用于临时缓冲、和/或用于信息的缓存)的任何其他存储设备或存储盘。就本文使用的而言,术语非暂态计算机可读介质被明确定义为包括任何类型的计算机可读存储设备和/或存储盘并且排除传播信号和排除传输介质。
“包括”和“包含”(以及其所有形式和时态)在本文中被用作开端式术语。从而,每当权利要求采用任何形式的“包括”或“包含”(例如,包括、包含、具有,等等)作为序言或者在任何种类的权利要求记载中使用时,要理解,额外的元素、术语等等可存在,而不落在相应权利要求或记载的范围之外。就本文使用的而言,当短语“至少”在例如权利要求的序言中被用作过渡术语时,它是开端的,与术语“包括”和“包含”是开端的方式一样。术语“和/或”当例如被以比如A、B和/或C这样的形式使用时,指的是A、B、C的任何组合或子集,例如(1)A单独,(2)B单独,(3)C单独,(4)A与B,(5)A与C,(6)B与C,以及(7)A与B以及与C。就本文在描述结构、组件、项目、对象和/或事物的上下文中使用的而言,短语“A和B中的至少一者”打算指包括以下各项中的任何一者的实现方式:(1)至少一个A,(2)至少一个B,以及(3)至少一个A和至少一个B。类似地,就本文在描述结构、组件、项目、对象和/或事物的上下文中使用的而言,短语“A或B中的至少一者”打算指包括以下各项中的任何一者的实现方式:(1)至少一个A,(2)至少一个B,以及(3)至少一个A和至少一个B。就本文在描述过程、指令、动作、活动和/或步骤的执行或运行的上下文中使用的而言,短语“A和B中的至少一者”打算指包括以下各项中的任何一者的实现方式:(1)至少一个A,(2)至少一个B,以及(3)至少一个A和至少一个B。类似地,就本文在描述过程、指令、动作、活动和/或步骤的执行或运行的上下文中使用的而言,短语“A或B中的至少一者”打算指包括以下各项中的任何一者的实现方式:(1)至少一个A,(2)至少一个B,以及(3)至少一个A和至少一个B。
就本文使用的而言,单数指代(例如,“一”、“第一”、“第二”,等等)不排除多数。就本文使用的而言,术语“一”实体指的是一个或多个该实体。术语“一”、“一个或多个”和“至少一个”在本文中被可互换地使用。此外,虽然是单独列出的,但多个手段、元素或方法动作可由例如单个单元或处理器来实现。此外,虽然个体特征可被包括在不同的示例或权利要求中,但它们可能可被组合,并且包括在不同的示例或权利要求中并不暗示着特征的组合是不可行的和/或不是有利的。
图6是表示可被执行来实现图2的示例BNN集总控制器214以检测OOD数据的示例机器可读指令600的流程图。图6的示例机器可读指令开始于块602,在该块中,示例NN训练102(图1)确定是否接收到了输入数据。例如,NN训练器102确定是否接收到了训练数据(例如,图像帧,等等)。如果示例NN训练器102确定没有接收到输入数据(例如,块602返回的结果是“否”),则指令返回到块602。如果示例NN训练器102确定接收到了输入数据(例如,块602返回的结果是“是”),则示例NN训练器102训练BNN的集总(块604)。例如,NN训练器102用第一数据子集210(图2)训练集总的第一BNN系统202(图2),用第二数据子集212(图2)训练集总的第二BNN系统204(图2),等等。
示例权重确定器216(图2)确定一组参数α(块606)。例如,权重确定器216确定输入数据中的类别j的样本的比例(例如,βj)、BNN的集总中认识类别j的网络的数目(例如,Nj)以及已指派给集总的网络i的类别标签集合(例如,Lj)。在一些示例中,示例权重确定器216使用示例式3来为每个BNN确定参数集合(例如,αi)。
示例网络采样器220(图2)识别权重分布并对其进行采样(块608)。例如,网络采样器220在0到1的区间中生成伪随机数。网络采样器220对与该伪随机数相对应的BNN的权重分布进行采样(例如,基于参数集合αi)。
示例采样控制器218(图2)确定是否继续对BNN的集总的权重分布进行采样(块610)。例如,如果收集的样本数目少于阈值样本数目,则采样控制器218确定继续对BNN的集总的权重分布进行采样。额外地或者替换地,如果BNN的集总的不确定性小于阈值不确定性,则采样控制器218确定继续对BNN的集总的权重分布进行采样。
如果采样控制器218确定继续对BNN的集总进行采样(例如,块610返回的结果是“是”),则指令返回到块608。如果采样控制器218确定不继续对BNN的集总进行采样(例如,块610返回的结果是“否”),则推断控制器222(图2)生成预测性权重分布(块612)。例如,推断控制器222汇总样本并且使用GMM来混合样本以确定BNN的集总的预测性权重分布。在一些示例中,推断控制器222将预测性分布存储在模型数据库226(图2)中。
示例不确定性估计器224(图2)确定输入数据是否是分布外数据(块614)。例如,不确定性估计器224确定预测性分布的认知不确定性。在一些示例中,如果认知不确定性高于不确定性阈值,则不确定性估计器224确定输入数据是OOD数据。如果不确定性估计器224确定输入数据是OOD数据(例如,块614返回的结果是“是”),则不确定性估计器224将输入数据标记为OOD数据(块616)。例如,BNN集总控制器214可以响应于OOD数据标志而丢弃输入数据。如果不确定性估计器224确定输入数据不是OOD数据(例如,块614返回的结果是“否”),则不确定性估计器224将输入数据标记为用于重训练(块618)。例如,NN训练器102可以响应于重训练标志而对第一BNN系统202和/或第二BNN系统204进行重训练,实现了持续学习。
图7是被构造来执行图6的指令以实现图2的示例BNN集总控制器214的示例处理器平台700的框图。处理器平台700可例如是服务器、个人计算机、工作站、自学习机器(例如,神经网络)、移动设备(例如,蜂窝电话、智能电话、诸如iPadTM之类的平板设备)、个人数字助理(PDA)、互联网家电、DVD播放器、CD播放器、数字视频记录器、蓝光播放器、游戏机、个人视频记录器、机顶盒、耳机或其他可穿戴设备、或者任何其他类型的计算设备。
图示示例的处理器平台700包括处理器712。图示示例的处理器712是硬件。例如,处理器712可由来自任何期望的家族或制造商的一个或多个集成电路、逻辑电路、微处理器、GPU、DSP或者控制器来实现。硬件处理器可以是基于半导体(例如,基于硅)的设备。在这个示例中,处理器实现了示例权重确定器216、示例采样控制器218、示例网络采样器220、示例推断控制器222以及示例不确定性估计器224。
图示示例的处理器712包括本地存储器713(例如,缓存)。图示示例的处理器712经由总线718与包括易失性存储器714和非易失性存储器716的主存储器进行通信。易失性存储器714可由同步动态随机访问存储器(Synchronous Dynamic Random Access Memory,SDRAM)、动态随机访问存储器(Dynamic Random Access Memory,DRAM)、
Figure BDA0003369258650000193
动态随机访问存储器(
Figure BDA0003369258650000191
Dynamic Random Access Memory,
Figure BDA0003369258650000192
)和/或任何其他类型的随机访问存储器设备来实现。非易失性存储器716可由闪存和/或任何其他期望类型的存储器设备来实现。对主存储器714、716的访问受存储器控制器的控制。
图示示例的处理器平台700还包括接口电路720。接口电路720可由任何类型的接口标准来实现,例如以太网接口、通用串行总线(universal serial bus,USB)、
Figure BDA0003369258650000194
接口、近场通信(near field communication,NFC)接口、和/或PCI快速接口。
在图示示例中,一个或多个输入设备722连接到接口电路720。(一个或多个)输入设备722允许用户向处理器712中输入数据和/或命令。(一个或多个)输入设备可由例如音频传感器、麦克风、相机(静态或视频)、键盘、按钮、鼠标、触摸屏、触控板、轨迹球、isopoint和/或语音识别系统来实现。
一个或多个输出设备724也连接到图示示例的接口电路720。输出设备724可例如由显示设备(例如,发光二极管(light emitting diode,LED)、有机发光二极管(organiclight emitting diode,OLED)、液晶显示器(liquid crystal display,LCD)、阴极射线管显示器(cathode ray tube,CRT)、就地切换(in-place switching,IPS)显示器、触摸屏,等等)、触觉输出设备、打印机和/或扬声器来实现。图示示例的接口电路720从而通常包括图形驱动器卡、图形驱动器芯片、和/或图形驱动器处理器。
图示示例的接口电路720还包括通信设备,例如发送器、接收器、收发器、调制解调器、住宅网关、无线接入点、和/或网络接口,来促进经由网络726与外部机器(例如,任何种类的计算设备)的数据交换。通信可经由例如以太网连接、数字订户线(digitalsubscriber line,DSL)连接、电话线连接、同轴线缆系统、卫星系统、直线对传式无线系统、蜂窝电话系统等等。
图示示例的处理器平台700还包括用于存储软件和/或数据的一个或多个大容量存储设备728。这种大容量存储设备728的示例包括软盘驱动器、硬盘驱动器、致密盘驱动器、蓝光盘驱动器、独立盘冗余阵列(redundant array of independent disks,RAID)系统、以及数字多功能盘(digital versatile disk,DVD)驱动器。
图7的机器可执行指令732可被存储在大容量存储设备728中、易失性存储器714中、非易失性存储器716中、和/或诸如CD或DVD之类的可移除非暂态计算机可读存储介质上。
在图8中图示了图示出用于向第三方分发诸如图7的示例计算机可读指令732之类的软件的示例软件分发平台805的框图。示例软件分发平台805可由能够存储软件并且将其传输到其他计算设备的任何计算机服务器、数据设施、云服务等等来实现。第三方可以是拥有和/或操作该软件分发平台的实体的客户。例如,拥有和/或操作软件分发平台的实体可以是软件(例如图7的示例计算机可读指令732)的开发者、销售者和/或许可人。第三方可以是购买和/或许可该软件以供使用和/或再销售和/或分许可的消费者、用户、零售商、OEM,等等。在图示示例中,软件分发平台805包括一个或多个服务器和一个或多个存储设备。存储设备存储计算机可读指令732,这些指令可对应于如上所述的图6的示例计算机可读指令600。示例软件分发平台805的一个或多个服务器与网络810通信,该网络可对应于互联网和/或上述的示例网络726中的任何一者中的任何一个或多个。在一些示例中,作为商业交易的一部分,一个或多个服务器响应将软件传输给请求方的请求。对软件的交付、销售和/或许可的支付可由软件分发平台的一个或多个服务器处理和/或经由第三方支付实体来处理。这些服务器使得购买者和/或许可人能够从软件分发平台805下载计算机可读指令732。例如,可与图7的示例计算机可读指令732相对应的软件可被下载到示例处理器平台700,该平台要执行计算机可读指令732以实现示例BNN集总控制器214。在一些示例中,软件分发平台805的一个或多个服务器定期提供、传输和/或强制更新软件(例如,图7的示例计算机可读指令732),以确保改进、补丁、更新等等被分发并且在终端用户设备处被应用于软件。
从上述内容将会明白,已公开了促进神经网络之间的持续学习的示例方法、装置和制品。例如,一种BNN集总控制器训练BNN的集总并且对集总的权重分布进行采样以生成预测性分布。BNN集总控制器确定预测性分布的认知不确定性以检测OOD数据。公开的方法、装置和制品通过调整权重分布的采样以减少存储器和计算时间来提高使用计算设备的效率。额外地或者替换地,公开的方法、装置和制品通过识别和去除OOD数据来提高使用计算设备的效率,从而提高了持续学习的准确性。公开的方法、装置和制品因此针对的是计算机的功能的一项或多项改进。
本文公开了用于促进持续学习的示例方法、装置、系统和制品。进一步示例及其组合包括以下的:
示例1包括一种装置,包括训练器,用于训练第一贝叶斯神经网络(BNN)和第二BNN,所述第一BNN与第一权重分布相关联并且所述第二BNN与第二权重分布相关联,权重确定器,用于确定与所述第一BNN相关联的第一采样权重和与所述第二BNN相关联的第二采样权重,网络采样器,用于基于伪随机数、所述第一采样权重和所述第二采样权重来对所述第一权重分布或所述第二权重分布中的至少一者进行采样,以及推断控制器,用于基于所述采样来生成集总权重分布。
示例2包括如示例1所述的装置,其中所述第一BNN是单峰高斯模型,并且所述第二BNN是单峰高斯模型。
示例3包括如示例1所述的装置,其中所述第一BNN和所述第二BNN形成BNN的集总。
示例4包括如示例3所述的装置,其中所述BNN的集总是高斯混合模型(GMM)。
示例5包括如示例1所述的装置,其中所述训练器在训练数据集上训练所述第一BNN和所述第二BNN。
示例6包括如示例1所述的装置,其中所述训练器在训练数据集的第一子集上训练所述第一BNN并且在所述训练数据集的第二子集上训练所述第二BNN。
示例7包括如示例1所述的装置,其中所述第一采样权重和所述第二采样权重的总和为1。
示例8包括如示例1所述的装置,其中所述权重确定器基于一类别的样本的比例和该类别的网络的数目来确定所述第一采样权重和所述第二采样权重。
示例9包括如示例1所述的装置,还包括不确定性估计器来确定所述集总权重分布的不确定性,所述不确定性包括偶然不确定性和认知不确定性。
示例10包括如示例9所述的装置,其中所述不确定性估计器基于所述认知不确定性来识别分布外数据。
示例11包括至少一个包括指令的非暂态计算机可读介质,所述指令当被执行时,使得至少一个处理器至少训练第一贝叶斯神经网络(BNN)和第二BNN,所述第一BNN与第一权重分布相关联并且所述第二BNN与第二权重分布相关联,确定与所述第一BNN相关联的第一采样权重和与所述第二BNN相关联的第二采样权重,基于伪随机数、所述第一采样权重和所述第二采样权重来对所述第一权重分布或所述第二权重分布中的至少一者进行采样,并且基于所述采样来生成集总权重分布。
示例12包括如示例11所述的至少一个非暂态计算机可读介质,其中所述第一BNN是单峰高斯模型,并且所述第二BNN是单峰高斯模型。
示例13包括如示例11所述的至少一个非暂态计算机可读介质,其中所述第一BNN和所述第二BNN形成BNN的集总。
示例14包括如示例13所述的至少一个非暂态计算机可读介质,其中所述BNN的集总是高斯混合模型(GMM)。
示例15包括如示例11所述的至少一个非暂态计算机可读介质,其中所述指令当被执行时,使得所述至少一个处理器在训练数据集上训练所述第一BNN和所述第二BNN。
示例16包括如示例11所述的至少一个非暂态计算机可读介质,其中所述指令当被执行时,使得所述至少一个处理器在训练数据集的第一子集上训练所述第一BNN并且在所述训练数据集的第二子集上训练所述第二BNN。
示例17包括如示例11所述的至少一个非暂态计算机可读介质,其中所述第一采样权重和所述第二采样权重的总和为1。
示例18包括如示例11所述的至少一个非暂态计算机可读介质,其中所述指令当被执行时,使得所述至少一个处理器基于一类别的样本的比例和该类别的网络的数目来确定所述第一采样权重和所述第二采样权重。
示例19包括如示例11所述的至少一个非暂态计算机可读介质,其中所述指令当被执行时,使得所述至少一个处理器确定所述集总权重分布的不确定性,所述不确定性包括偶然不确定性和认知不确定性。
示例20包括如示例19所述的至少一个非暂态计算机可读介质,其中所述指令当被执行时,使得所述至少一个处理器基于所述认知不确定性来识别分布外数据。
示例21包括一种装置,包括存储器,以及至少一个处理器来执行机器可读指令,以训练第一贝叶斯神经网络(BNN)和第二BNN,所述第一BNN与第一权重分布相关联并且所述第二BNN与第二权重分布相关联,确定与所述第一BNN相关联的第一采样权重和与所述第二BNN相关联的第二采样权重,基于伪随机数、所述第一采样权重和所述第二采样权重来对所述第一权重分布或所述第二权重分布中的至少一者进行采样,并且基于所述采样来生成集总权重分布。
示例22包括如示例21所述的装置,其中所述第一BNN是单峰高斯模型,并且所述第二BNN是单峰高斯模型。
示例23包括如示例21所述的装置,其中所述第一BNN和所述第二BNN形成BNN的集总。
示例24包括如示例23所述的装置,其中所述BNN的集总是高斯混合模型(GMM)。
示例25包括如示例21所述的装置,其中所述至少一个处理器在训练数据集上训练所述第一BNN和所述第二BNN。
示例26包括如示例21所述的装置,其中所述至少一个处理器在训练数据集的第一子集上训练所述第一BNN并且在所述训练数据集的第二子集上训练所述第二BNN。
示例27包括如示例21所述的装置,其中所述第一采样权重和所述第二采样权重的总和为1。
示例28包括如示例21所述的装置,其中所述至少一个处理器基于一类别的样本的比例和该类别的网络的数目来确定所述第一采样权重和所述第二采样权重。
示例29包括如示例21所述的装置,其中所述至少一个处理器确定所述集总权重分布的不确定性,所述不确定性包括偶然不确定性和认知不确定性。
示例30包括如示例29所述的装置,其中所述至少一个处理器基于所述认知不确定性来识别分布外数据。
示例31包括一种方法,包括训练第一贝叶斯神经网络(BNN)和第二BNN,所述第一BNN与第一权重分布相关联并且所述第二BNN与第二权重分布相关联,确定与所述第一BNN相关联的第一采样权重和与所述第二BNN相关联的第二采样权重,基于伪随机数、所述第一采样权重和所述第二采样权重来对所述第一权重分布或所述第二权重分布中的至少一者进行采样,并且基于所述采样来生成集总权重分布。
示例32包括如示例31所述的方法,其中所述第一BNN是单峰高斯模型,并且所述第二BNN是单峰高斯模型。
示例33包括如示例31所述的方法,其中所述第一BNN和所述第二BNN形成BNN的集总。
示例34包括如示例33所述的方法,其中所述BNN的集总是高斯混合模型(GMM)。
示例35包括如示例31所述的方法,还包括在训练数据集上训练所述第一BNN和所述第二BNN。
示例36包括如示例31所述的方法,还包括在训练数据集的第一子集上训练所述第一BNN并且在所述训练数据集的第二子集上训练所述第二BNN。
示例37包括如示例31所述的方法,其中所述第一采样权重和所述第二采样权重的总和为1。
示例38包括如示例31所述的方法,还包括基于一类别的样本的比例和该类别的网络的数目来确定所述第一采样权重和所述第二采样权重。
示例39包括如示例31所述的方法,还包括确定所述集总权重分布的不确定性,所述不确定性包括偶然不确定性和认知不确定性。
示例40包括如示例39所述的方法,还包括基于所述认知不确定性来识别分布外数据。
示例41包括一种装置,包括:用于训练的装置,用于训练第一贝叶斯神经网络(BNN)和第二BNN,所述第一BNN与第一权重分布相关联并且所述第二BNN与第二权重分布相关联;用于确定权重的装置,用于确定与所述第一BNN相关联的第一采样权重和与所述第二BNN相关联的第二采样权重;用于采样的装置,用于基于伪随机数、所述第一采样权重和所述第二采样权重来对所述第一权重分布或所述第二权重分布中的至少一者进行采样;以及用于推断的装置,用于基于所述采样来生成集总权重分布。
示例42包括如示例41所述的装置,其中所述第一BNN是单峰高斯模型,并且所述第二BNN是单峰高斯模型。
示例43包括如示例41所述的装置,其中所述第一BNN和所述第二BNN形成BNN的集总。
示例44包括如示例43所述的装置,其中所述BNN的集总是高斯混合模型(GMM)。
示例45包括如示例41所述的装置,其中所述用于训练的装置在训练数据集上训练所述第一BNN和所述第二BNN。
示例46包括如示例41所述的装置,其中所述用于训练的装置在训练数据集的第一子集上训练所述第一BNN并且在所述训练数据集的第二子集上训练所述第二BNN。
示例47包括如示例41所述的装置,其中所述第一采样权重和所述第二采样权重的总和为1。
示例48包括如示例41所述的装置,其中所述用于确定权重的装置基于一类别的样本的比例和该类别的网络的数目来确定所述第一采样权重和所述第二采样权重。
示例49包括如示例41所述的装置,还包括用于估计不确定性的装置,用于确定所述集总权重分布的不确定性,所述不确定性包括偶然不确定性和认知不确定性。
示例50包括如示例49所述的装置,其中所述用于估计不确定性的装置基于所述认知不确定性来识别分布外数据。
虽然本文公开了某些示例方法、装置和制品,但本专利的覆盖范围不限于此。相反,本专利覆盖了公平地落在本专利的权利要求的范围内的所有方法、装置和制品。
特此通过引用将所附权利要求并入到这个“具体实施方式”部分中,其中每个权利要求独立作为本公开的一个单独实施例。

Claims (25)

1.一种方法,包括:
训练第一贝叶斯神经网络(BNN)和第二BNN,所述第一BNN与第一权重分布相关联并且所述第二BNN与第二权重分布相关联;
确定与所述第一BNN相关联的第一采样权重和与所述第二BNN相关联的第二采样权重;
基于伪随机数、所述第一采样权重和所述第二采样权重来对所述第一权重分布或所述第二权重分布中的至少一者进行采样;并且
基于所述采样来生成集总权重分布。
2.如权利要求1所述的方法,其中所述第一BNN是单峰高斯模型,并且所述第二BNN是单峰高斯模型。
3.如权利要求1所述的方法,其中所述第一BNN和所述第二BNN形成BNN的集总。
4.如权利要求3所述的方法,其中所述BNN的集总是高斯混合模型(GMM)。
5.一种计算机可读介质,包括用于执行权利要求1-4中任一项所述的方法的指令。
6.一种装置,包括:
用于训练的装置,用于训练第一贝叶斯神经网络(BNN)和第二BNN,所述第一BNN与第一权重分布相关联并且所述第二BNN与第二权重分布相关联;
用于确定权重的装置,用于确定与所述第一BNN相关联的第一采样权重和与所述第二BNN相关联的第二采样权重;
用于采样的装置,用于基于伪随机数、所述第一采样权重和所述第二采样权重来对所述第一权重分布或所述第二权重分布中的至少一者进行采样;以及
用于推断的装置,用于基于所述采样来生成集总权重分布。
7.如权利要求6所述的装置,其中所述第一BNN是单峰高斯模型,并且所述第二BNN是单峰高斯模型。
8.如权利要求6所述的装置,其中所述第一BNN和所述第二BNN形成BNN的集总。
9.如权利要求8所述的装置,其中所述BNN的集总是高斯混合模型(GMM)。
10.如权利要求6所述的装置,其中所述用于训练的装置在训练数据集上训练所述第一BNN和所述第二BNN。
11.如权利要求6所述的装置,其中所述用于训练的装置在训练数据集的第一子集上训练所述第一BNN并且在所述训练数据集的第二子集上训练所述第二BNN。
12.如权利要求6所述的装置,其中所述第一采样权重和所述第二采样权重的总和为1。
13.如权利要求6所述的装置,其中所述用于确定权重的装置基于一类别的样本的比例和该类别的网络的数目来确定所述第一采样权重和所述第二采样权重。
14.如权利要求6所述的装置,还包括用于估计不确定性的装置,用于确定所述集总权重分布的不确定性,所述不确定性包括偶然不确定性和认知不确定性。
15.如权利要求14所述的装置,其中所述用于估计不确定性的装置基于所述认知不确定性来识别分布外数据。
16.至少一种计算机可读介质,包括指令,所述指令当被执行时使得至少一个处理器至少执行以下操作:
训练第一贝叶斯神经网络(BNN)和第二BNN,所述第一BNN与第一权重分布相关联并且所述第二BNN与第二权重分布相关联;
确定与所述第一BNN相关联的第一采样权重和与所述第二BNN相关联的第二采样权重;
基于伪随机数、所述第一采样权重和所述第二采样权重来对所述第一权重分布或所述第二权重分布中的至少一者进行采样;并且
基于所述采样来生成集总权重分布。
17.如权利要求16所述的至少一种计算机可读介质,其中所述第一BNN是单峰高斯模型,并且所述第二BNN是单峰高斯模型。
18.如权利要求16所述的至少一种计算机可读介质,其中所述第一BNN和所述第二BNN形成BNN的集总。
19.如权利要求18所述的至少一种计算机可读介质,其中所述BNN的集总是高斯混合模型(GMM)。
20.如权利要求16所述的至少一种计算机可读介质,其中所述指令当被执行时使得所述至少一个处理器:在训练数据集上训练所述第一BNN和所述第二BNN。
21.如权利要求16所述的至少一种计算机可读介质,其中所述指令当被执行时使得所述至少一个处理器:在训练数据集的第一子集上训练所述第一BNN并且在所述训练数据集的第二子集上训练所述第二BNN。
22.如权利要求16所述的至少一种计算机可读介质,其中所述第一采样权重和所述第二采样权重的总和为1。
23.如权利要求16所述的至少一种计算机可读介质,其中所述指令当被执行时使得所述至少一个处理器:基于一类别的样本的比例和该类别的网络的数目来确定所述第一采样权重和所述第二采样权重。
24.如权利要求16所述的至少一种计算机可读介质,其中所述指令当被执行时使得所述至少一个处理器:确定所述集总权重分布的不确定性,所述不确定性包括偶然不确定性和认知不确定性。
25.如权利要求24所述的至少一种计算机可读介质,其中所述指令当被执行时使得所述至少一个处理器:基于所述认知不确定性来识别分布外数据。
CN202111393924.9A 2020-12-23 2021-11-23 促进持续学习的方法和装置 Pending CN114662645A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/132,858 US20210117792A1 (en) 2020-12-23 2020-12-23 Methods and apparatus to facilitate continuous learning
US17/132,858 2020-12-23

Publications (1)

Publication Number Publication Date
CN114662645A true CN114662645A (zh) 2022-06-24

Family

ID=75492493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111393924.9A Pending CN114662645A (zh) 2020-12-23 2021-11-23 促进持续学习的方法和装置

Country Status (3)

Country Link
US (1) US20210117792A1 (zh)
CN (1) CN114662645A (zh)
TW (1) TW202226030A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200129457A (ko) * 2019-05-08 2020-11-18 삼성전자주식회사 학습을 수행하는 뉴럴 네트워크 시스템, 그것의 학습 방법 및 뉴럴 네트워크 프로세서의 전이 학습 방법
CN114091690A (zh) * 2021-11-25 2022-02-25 支付宝(杭州)信息技术有限公司 联邦学习模型的训练方法和调用方法以及联邦学习系统
US20230216811A1 (en) * 2022-01-05 2023-07-06 Huawei Technologies Co., Ltd. Method and apparatus for managing network traffic via uncertainty
GB202203877D0 (en) * 2022-03-21 2022-05-04 King S College London A hardware system comprising a neural network and a method of operating sucha hardware system
US11847386B1 (en) * 2023-02-23 2023-12-19 Hart Felix LLC Artificial intelligence based on cellular automata

Also Published As

Publication number Publication date
US20210117792A1 (en) 2021-04-22
TW202226030A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN114662645A (zh) 促进持续学习的方法和装置
US20240013056A1 (en) Systems and methods for distributed training of deep learning models
US20210117760A1 (en) Methods and apparatus to obtain well-calibrated uncertainty in deep neural networks
CN113508378A (zh) 推荐模型的训练方法、推荐方法、装置及计算机可读介质
Grimmett et al. Presence-only species distribution models are sensitive to sample prevalence: Evaluating models using spatial prediction stability and accuracy metrics
US20210110264A1 (en) Methods and apparatus to facilitate efficient knowledge sharing among neural networks
Nijkamp et al. Comparative modelling of interregional transport flows: Applications to multimodal European freight transport
CN107943583B (zh) 应用程序的处理方法、装置、存储介质及电子设备
US20200401891A1 (en) Methods and apparatus for hardware-aware machine learning model training
Chen et al. Exploiting Web service geographical neighborhood for collaborative QoS prediction
Evans Uncertainty and error
WO2021011573A1 (en) Probabilistic modeling for anonymized data integration and bayesian survey measurement of sparse and weakly-labeled datasets
Unger et al. Inferring contextual preferences using deep auto-encoding
KR20230028249A (ko) 3차원 자세 추정을 위한 장치들 및 방법들
US20220092424A1 (en) Methods, systems, apparatus and articles of manufacture to apply a regularization loss in machine learning models
Shu et al. Perf-al: Performance prediction for configurable software through adversarial learning
CN116910373A (zh) 房源推荐方法、装置、电子设备及存储介质
Al-Shabandar et al. Towards the differentiation of initial and final retention in massive open online courses
Redel-Macías et al. Ensembles of evolutionary product unit or RBF neural networks for the identification of sound for pass-by noise test in vehicles
WO2023097428A1 (en) Methods and apparatus to perform parallel double-batched self-distillation in resource-constrained image recognition applications
US11640564B2 (en) Methods and apparatus for machine learning engine optimization
US20220284353A1 (en) Methods and apparatus to train a machine learning model
WO2022040963A1 (en) Methods and apparatus to dynamically normalize data in neural networks
CN112200711A (zh) 一种水印分类模型的训练方法及系统
US20210117841A1 (en) Methods, apparatus, and articles of manufacture to improve automated machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination