CN113966517A

CN113966517A - 用于定序和规划的系统

Info

Publication number: CN113966517A
Application number: CN202080027042.8A
Authority: CN
Inventors: M·塔卡克; A·克诺特; M·萨加尔
Original assignee: Somerset Intelligence Co ltd
Current assignee: Somerset Intelligence Co ltd
Priority date: 2019-04-30
Filing date: 2020-04-30
Publication date: 2022-01-21
Also published as: JP2022532853A; EP3963520A2; KR20220021470A; WO2020222179A2; AU2020264806A1; WO2020222179A3; CA3137228A1; EP3963520A4; US20220222508A1

Abstract

本发明公开了一种基于机器学习模型的分块器(“定序器”)，其学习以预测序列中的下一个元素并检测序列之间的边界。在序列结束时，存储该整个序列的声明表示及其效应。该效应被测量为组块结束时和开始时的系统状态之间的差异。该定序器可与规划器组合，该规划器与该定序器一起工作以识别发展中的传入序列可为其部分的计划，并且从而预测该序列中的下一个元素。在计划的效应由多维向量表示的实施方案中，其中不同注意权重置于每个维度上，该规划器计算期望状态与由单独计划生成的该效应之间的距离，从而通过注意焦点对其计算进行加权。

Description

用于定序和规划的系统

技术领域

本公开整体涉及计算技术，并且更具体地讲，涉及机器学习。

背景技术

分块的目标是检测元素的顺序输入流中频繁出现的子序列并且将那些子序列表示为整体。整个组块的表示可用于识别、在看到组块的前几个元素之后推断正在生成什么组块，或者用于生成、用作将引导未来序列生成的计划的基调表示。生成可以是记住的序列的重放，或者可通过从预测的分布中挑选除胜者之外的某物或将该分布与噪声混合而以探索为特征。分块还可有助于增加顺序存储器广度，因为一级组块可用作对捕获较长距离依赖性的二级分块机制的输入。例如，音素流中的第一级分块可学习单词，而第二级学习频繁出现的短语(诸如习语)。或者，在绘图领域中，一级组块可以是基本笔画如弧、线或简单形状，并且正方形上的三角形可形成二级组块—房屋。

“分块”的过程是学习项目的时间序列的声明表示的过程。先前分块方法包括神经网络，其被训练以预测传入序列中的下一个项目。因为下一个项目通常是最近项目的函数，所以用于序列学习的神经网络通常使用循环连接，该循环连接通过上下文来使立即输入丰富—先前元素的历史的指数衰减编码。例如，Elman,J.：及时发现结构(Finding structurein time)，《认知科学》，第14卷，第179-211页(1990年)公开了简单循环网络(SRN)，其通过误差的反向传播并使用柔性最大化输出层来训练。只要该输出表示是本土主义，即对于每个可能的下一个元素存在一个神经元，柔性最大化输出就可被解释为概率分布并且可向其应用标准度量(诸如熵或KL偏差)。对于下一个元素预测任务训练的SRN已知学习元素之间的转变概率。

Reynolds等人(Reynolds,J.,Zacks,J.,Braver,T.：基于感知预测的事件分段的计算模型(A computational model of event segmentation from perceptualprediction)，《认知科学》，第31卷，第613-643页(2007年))公开了通过基调输入增强的SRN，该基调输入驱动预测并将其偏向特定声明表示的序列。这在事件分段模型中使用，其中基调信号表示事件并且显著地有助于稳定事件元素的预测。

对于上述方法存在缺点。首先，反向传播是缓慢的并且其在预测反映隐含在训练数据中的转变概率之前花费许多训练时期。其次，SRN仅在一个方向上操作：它根据组块的立即输入、循环上下文和声明表示来预测序列的下一个元素。可能期望基于迄今为止看到的序列的片段来预测可能的组块。

用于规划系统的现有方法不能提供动态且灵活但又计算廉价的规划。现有方法也不能灵活地从甚至几个示例同时递增地和快速地学习(1次)—提供贝叶斯答案。

发明内容

分块器(“定序器”)学习以预测序列中的下一个元素并检测序列之间的边界。在序列结束时，存储该整个序列的声明表示(“基调”)及其效应。该效应被测量为组块结束时和开始时的系统状态之间的差异。这稍后可用于执行具有特定效应的计划，用于识别发展中的观察序列可为其部分的计划，以及用于预测与识别的计划相关联的效应。

在一些实施方案中，定序器被实现为称为自组织映射(“SOM”)的神经网络。与一些其他机器学习模型不同，SOM可从单个训练示例中学习。SOM可近似匹配：即使输入与训练期间所见的那些不完全相同，SOM仍可发现匹配。与通过反向传播训练的网络不同，经训练的SOM可通过部分输入来操作，并且重建缺失部分。与SRN不同，对SOM定序采用“下一个”项目作为其输入中的一者。

在一些实施方案中，定序器SOM是注意SOM(“ASOM”)。计划的效应可由多维向量表示，其中不同注意权重置于每个维度上。

可使用任何合适的机构来设定组块的结束边界。在一些实施方案中，组块的结束边界由用户明确地设置。连同指定组块的结束，用户还可将奖励与刚完成的组块相关联。稍后，当决定要寻求哪个计划时，可使用该奖励。

在其他实施方案中，自动化机构可明确地设置组块和/或奖励的结束边界。因此，奖励可与刚完成的组块相关联，而无需用户的任何干预。

在一些实施方案中，顺序输入首先被引导到临时输入缓冲器。这允许用户查看输入，如有必要将其丢弃，并且从而防止定序器从错误数据学习。缓冲器的存在还允许仅在看到整个输入序列之后形成基调。

在一些实施方案中，定序器可与规划器组合。该规划器与定序器一起工作以识别发展中的传入序列可为其部分的计划，并且从而预测该序列中的下一个元素。

在一些实施方案中，规划器通过从由定序器生成的计划中选择与改变为更接近于目标的状态最密切相关联的那些计划来寻求目标。

在其中计划的效应由多维向量表示的那些实施方案中，其中不同注意权重置于每个维度上，当规划器计算期望效应与由单独计划所生成的效应之间的距离时，其计算通过每个维度上的注意焦点来加权以获得当前奖励状态的调制编码，朝向期望效应的最重要维度加权。

该规划器可更多地在语义上表示组块，如对世界状态具有特定效应的计划，如由代理表示的。以规划器将完成组块与奖励值相关联的相同方式，其还可在规划器的效应输入字段中将完成组块与状态更新表示相关联。“状态”的表示是非常普遍的：它是n维向量。假设具有六个维度的简单状态空间，每个维度由1或0占据。如果代理开始于状态[000011]，则执行与组块C1相关联的动作序列，从而使其处于状态[110011]。规划器可学习以将组块与状态更新操作相关联，该状态更新操作表示组块引起的状态变化。状态的变化仅为两种状态之间的差异(“Δ”)：在这种情况下，[110000]。在将计划与状态更新相关联而不是直接与状态相关联的实用性在于，更新在计划保持其不变的状态的元素上一般化，并且集中在需要改变的元素。也就是说，代理具有实现状态[110000]的目标，并且其当前处于状态[000000]。cblock计算目标状态更新(在这种情况下，[110000])，并且然后将该目标更新在效应输入字段中呈现给规划器作为查询。即使在训练期间，组块C1也导致状态[110011]—这与当前目标状态不同—通过期望的状态变化来查询规划器，并且规划器可从该查询中检索组块C1。这里的总体范例是在每个组块的结束时，C块通过获取目标状态和当前状态之间的差异来计算新目标状态更新，并且然后将该目标状态更新作为查询呈现给规划器。“完整”目标状态更新可分解成与不同组块相关联的若干独立状态更新。这是较高级的部分有序的计划的等同形式，其中可以任意顺序采取一些动作。例如，如果规划器已学习与更新[110000]和[001100]相关联的两个组块，并且代理当前处于状态[000000]，并且希望处于状态[111100]，则两个组块将(稍微)被激活，并且可以任一顺序执行。

当规划器被实现为ASOM，在一些实施方案中，规划器可被解释为计算贝叶斯概率的设备。当帮助定序器预测发展中的输入序列中的下一个元素时或当选择要激活的计划时，规划器可作出概率分布，而不是简单地采取单个最佳拟合。cblock生成关于最可能的下一个项目的贝叶斯预测，并且关于迄今为止可能生成序列的计划进行推断，以及生成该推断的计划的可能效应。

附图说明

虽然所附权利要求特别地阐述了本技术的特征，但根据以下结合附图的详细描述，可最好地理解这些技术及其目的和优点，其中：

图1是根据本公开中呈现的某些实施方案的组合的分块器/规划器的一般化示意图；

图2a至图2e一起形成用于引导行为的代表性方法的流程图；并且

图3是根据本公开中的某些教导内容的合并组合的分块器/规划器的代表性系统的框图。

具体实施方式

转到附图，其中相似的附图标号表示相似的元件，本公开的技术被示为在合适的环境中实现。以下描述基于权利要求的实施方案，并且不应被视为关于本文未明确描述的另选实施方案而限制权利要求。

在本公开中，分块器和/或规划器的实施方案被称为“cblock”。该术语应被非常一般地理解，其中各种实施方案支持此处所讨论的特征的各种组合。

在其各种实施方案中，cblock可以：

·学习传入序列数据中的顺序依赖性并预测可能的接下来输入内的概率分布，

·检测输入中重复出现的序列，基于预测中的惊奇、“奖励”或明确的用户输入来自动检测序列边界，并且将序列表示为组块(通常称为“计划”)以用于未来执行或重放，

·将计划与奖励和它们对系统状态的影响相关联，

·从部分数据中识别可能计划并从进行中的输入序列的片段中识别意图(即效应)和预期奖励，以及

·通过发现并执行减小当前系统状态和期望状态之间的大多数差异的计划来实现目标驱动的行为；状态之间的差异可通过个体注意权重(“α”)来加权。

在一些上下文中，时间序列的元素可被认为是对系统的全局状态(无论该状态是什么)具有影响的动作。已学习的组块随后对应于使系统从一个状态到另一个状态的计划。cblock的规划部件学习组块与其效应(可能包括外部提供的奖励信号)之间的关联。这允许cblock以目标驱动的模式操作，其中它选择应尽可能有效地减小系统的当前状态和期望目标状态之间的差异的计划，或者最有可能产生预期奖励的计划。计划选择是动态的：每当计划完成(或失败)时，新的当前状态用于重新计算当前状态和目标状态之间的新差异，并且选择最有效地减小该新差异的计划。

图1出了cblock内的主要部件和数据流。两个中心部件是机器学习模型规划器100和定序器102。本公开的技术可体现在若干类型的机器学习模型中的任一种中。机器学习模型包括无监督序列学习和聚类系统、神经网络、循环神经网络(“RNN”)、简单循环网络(“SRN”)、卷积神经网络(“CNN”)、长短期存储器(“LSTM”)、门控循环单元(“GRU”)、SOM、ASOM、生成地形图(“GTM”)、弹性图、定向和可扩展图(“OS图”)、支持向量机、随机森林、线性回归、逻辑回归、贝叶斯决策树，以及其他机器学习模型或自适应。所述的注意SOM(ASOM)有利于调节以下项。

在学习时，定序器102接收顺序输入104并且将该输入104分为有意义的计划。定序器102结合规划器100不断地预测其正在接收的序列中的下一个元素106。因为下一个元素106可依赖于比紧接在前的元素更多的元素，所以定序器102维持上下文108—先前元素的历史的指数衰减编码。

例如，如果已经训练定序器102来预测单词JAMES中的最终“S”，则下一个元素106包含“S”，最近元素104保持“E”，并且上下文108是“M”+c*“A”+c^2*“J”+c^3*先前的表示，其中先前是J之前的任何值，并且c<1是衰减系数。当下一个元素到达时，将上下文108乘以c，并且将最近元素104添加到其；然后，刚到达的下一个元素变为新的最近元素104，并且定序器102再次开始预测下一个元素。

在一些实施方案中，当下一个元素106不是如预测的时，定序器102是“惊讶的”并且在该点处终止计划。在其他实施方案中，定序器102可能是惊讶的，但它不会终止新兴计划。在这些实施方案中，传入序列存储在由用户控制的临时输入缓冲器110中。用户回顾传入序列并且通过发送明确的序列结束(“EoS”)控制消息112来告诉定序器102计划何时完成。因为EoS 112发生在序列中的最后一个元素之后，所以它可作为单独转变存储在定序器102中。因此，定序器102预测序列中的所有元素，并且然后预测最后一个元素之后的EoS，例如J→O→H→N→EoS。

类似地，用户可声明计划完成，因为计划已实现通常与正奖励116或负惩罚相关联的特定结果。

缓冲器110允许用户选择丢弃“坏”输入序列，使定序器102根本不学习它，从而防止定序器102的学习因无意义的计划而变得混乱。

缓冲器110还将预测与学习输入序列分开。每个新传入元素104被添加到缓冲器110和整个序列的演进声明/基调表示114。当用户决定完成序列时，缓冲器110包含实际发生的序列以及其记录的声明表示114。

关于每个新传入元素104，cblock尝试预测最可能的下一个元素106。

为此，它使用定序器102和规划器100两者：

如果刚到达的元素104不是惊讶的，则cblock获取缓冲器110中的基调表示114并且向规划器100查询与迄今为止接收到的片段一致的完整计划。然后，定序器102获取所检索的计划以及当前上下文108和最近输入104以预测最可能的下一个元素106，其可以是正确元素或EoS 112。

在一些实施方案中，基于KL(Kullback和Leibler)偏差的滑动平均值来比较来自先前时间步长的预测和实际元素104。如果该偏差大于阈值，则cblock发信号通知惊奇。其将定序器102针对基调输入114的α设定为零，并且尝试根据最近元素104及其上下文108来预测最可能的基调114。然后，该软输出基调114用于向规划器100查询硬输出最佳匹配的存储计划。该计划继而被发送回定序器100的基调输入114，其中该计划使用上下文108和最近元素104来预测下一个元素106。

因此，因为序列元素和实际基调114存储在缓冲器110中，所以可以任何期望的方式轻微调整定序器102的输入以帮助预测而不影响定序器102的学习。

缓冲器110还允许基调114仅在其表示整个序列之后才被使用。关于缓冲器110，定序器102仅在已经看到整个序列之后才被训练，即当用户决定其为完整的并发送EoS 112命令以完成它时，因此训练基调输入114对于所有转变都是相同的并且等于将在重放期间使用的基调输入：完整声明表示。

因为缓冲器110的存在意味着序列仅在用户这样说出时结束，所以由于序列而导致的奖励116或状态变化118可在序列中的最后一个元素之后到达并且实际上可通知用户在此时结束序列的决定。

上文讨论了将奖励或惩罚116与计划相关联。在一些实施方案中，状态变化118与计划相关联。cblock在计划开始时跟踪初始状态，并且在计划结束时从最终状态(即结果)减去从计划开始起的该初始状态。该差异是计划的净效应118。图1中的线上的介于初始状态和效应118之间的三角形指示该净差异或Δ。因此，计划的状态变化118不需要导致最终目标，而是可为有助于达到目标的步骤。计划连同其净效应118、基调114和奖励116(如果有的话)一起存储在规划器100中。

基调114用作计划的签名。基调114基于输入演进并且超表示序列中的前几个元素，其中后续元素在未来衰减。这样，基调114和上下文108形成在相反方向上衰减的互补表示。

在使用惊奇来发现计划边界的实施方案中，基调表示的衰减性质意味着如果在很长时间内没有惊奇，则基调表示114停止改变，并且定序器102不再被训练直到下一个惊奇。为了处理这种情况，可引入对计划长度的限制：如果衰减的最近元素1004的量值低于特定阈值，则终止当前计划，就好像存在惊奇一样。这一点的效应是，定序器102可学习可预测计划的若干不同片段化，例如如何从不同部分绘制心脏。

基调114可用于进行比仅基于序列中最可能的下一个元素的预测更复杂的预测。例如，英语中最频繁的第一字母是“S”，第一对字母是“ST”，并且第一三个字母是“STR”。基调114允许超出“street”或“string”的预测。

由于定序器102的学习计划，因此当计划完成时，规划器100接收基调114。与基调114相关联，规划器100还接收计划的奖励116和状态变化效应118。

在一些实施方案中，cblock至少支持操作模式：“目标驱动的”(生成模式)和“没有目标的”(观察模式)。

在一个实施方案中，cblock支持“协作模式”，其为观察和生成的组合：cblock观察序列的片段并且对产生它的可能计划(和目标)进行推断。取决于推断的确定性，cblock可采用所推断的目标并生成序列的其余部分。

在没有目标的模式中，cblock如上所述进行学习。当处于没有目标的模式时，cblock不遵循预先确定的计划，但可尝试将展开输入序列与已知的计划匹配，并且基于最可能的匹配或最可能的匹配的分布来进行预测。这让cblock与用户协作。例如，如果到目前为止的传入序列为“STETHOSC”，则cblock可识别这最有可能是计划“STETHOSCOPE”并完成它。

在没有目标的模式或目标驱动的模式中，预测的下一个元素106可被反馈回到输入以用于下一个步骤，如图1所示。该反馈可用于协作动作。例如，当用户正在提供顺序输入时，cblock被动地观察输入并将其存储在缓冲器110中。如果用户出于某种原因停止，并且如果cblock可以高度确定性预测即将到来的内容，则cblock可等待一段时间以供用户恢复并且，如果不发生这种情况，则发动回放模式。

当处于目标驱动的模式时，规划器100尝试实现α加权的期望目标120并且激活一个或多个最佳匹配计划以实现该目标120。规划器100以两种方式使用从定序器102接收的信息：

(1)当cblock观察到传入序列的片段时，其不仅可根据该片段预测完整计划，而且还可预测预期结果和奖励。如果下文讨论的贝叶斯特征被启用，则规划器100预测迄今为止所见的与片段一致的所有计划的效应118和奖励116的预期值。否则，规划器100返回最佳匹配的存储计划的奖励116和效应118。因此，规划器100帮助定序器102推断与最近观察到的项目序列一致的可能计划上的分布并重建缺失输入。该概率分布然后允许cblock在生成行为之间切换，从而可能选择与总体分布而不是单个最佳拟合匹配的计划，并且解释输入以通过其内插器来实现联合动作：已推断出计划，cblock可根据该计划进行动作。

(2)在目标驱动的模式中，向规划器100查询期望的结果、奖励或两者的组合，并且规划器100返回与查询最佳匹配的计划。然后将计划的基调114发送到定序器102，该定序器可重放计划。

效应118使该目标驱动的规划更准确，因为应用于不同初始状态的相同效应可产生不同结果。在计划选择期间，cblock计算期望效应与由特定计划生成的效应118之间的差异，从而使用该差异来发现产生期望效应的计划。每当计划完成时，其可引起当前状态的变化。此时，cblock重新评估期望效应与单独计划的效应之间的差异，从而试图发现用于消除任何剩余差异的计划。这样，规划是动态的，观察剩下什么差异并试图消除它们。

当所体现的自主代理正在寻求目标120时，期望的效应可由因素(诸如需求和期望、个人或商业因素)的多维状态空间中的向量表示。并非当前状态的每个方面在任何给定时间与代理同等相关，并且所体现的代理可在不同时间注意状态向量的不同方面。在任何给定时刻，代理可更多地关注这些维度中的一些超越其他维度，也就是说，一些维度可具有更大的“注意焦点”。因此，当计算期望状态和由单独计划生成的效应118之间的距离时，通过每个维度上的注意焦点来对计算进行加权以获得当前奖励状态的调制编码，从而朝向目标状态的最重要维度进行加权。当确定是否已达到目标时，也使用该多维计算。

当cblock激活计划以寻求目标或收获奖励时，其有时可确定应丢弃该计划。例如，如果与计划相关联的目标已实现，则该计划应被丢弃。在其他情况下，(a)如果计划的步骤已完成，但目标尚未实现，(b)如果发生特别意料不到的情况，或(c)如果发生超时，则可丢弃计划。当计划被丢弃时，cblock通常搜索另一个计划以将其朝目标移动。为了确保cblock不选择它刚丢弃的计划，该计划被“禁止”，即它与时间衰减抑制迹线相关联，该时间衰减抑制迹线在一段时间内减少该计划被重新选择的可能性。这改善了cblock的可变性，从而允许其尝试可行的另选计划以达到目标。

在激活的计划被丢弃而不是简单地选择另一个计划来达到目标的一些情况下，cblock可选择要追求的新目标，或者它可简单地离开目标驱动的模式并等待进一步发展。

因此，注意SOM调节定序器中的{基调、上下文、最近、下一个}或规划器中的{奖励、效应、基调}中的哪些是实际输入以及哪些是将根据输入重建的查询，并且使得权重能够取决于任务(例如，由奖励相比效应进行目标驱动)而改变。如果规划器和定序器由任何其他机器学习模型支持或修改，以支持用于动态地移位强调以及调节何为输入和何为输出的机制。

仅作为选择一个机器学习模型而不是另一个机器学习模型所涉及的问题的一个非限制性示例，其中规划器100和定序器102被实现为ACOM而不是SRN的实施方案在一些潜在情况下提供以下优点：

(a)SRN的反向传播需要多个训练迭代，但SOM可非常快地学习，即使从单个训练示例。这在用户通过输入明确示例来告诉cblock所预期的内容时有帮助。

(b)SOM可近似匹配：即使输入与训练期间所见的那些不完全相同，SOM仍可发现匹配。当注意权重被置于输入的不同部分上时，该特征增加了大量灵活性。

(c)SOM可将其存储器存储在映射中的每个单元的权重向量中。这允许双重表示：SOM的活性度表示多个选项上的概率分布，但每个选项的内容存储在每个单元的权重中并且可从上到下重建。与在具有基调输入的SRN中不同，SOM可对于具有基调输入的序列进行训练，并且然后当所训练的SOM暴露于序列的前几个元素时，其可从上到下重建基调输入。

(d)上述贝叶斯特征允许cblock产生概率分布，而不是简单地采用单个最佳拟合。ASOM可被解释为计算贝叶斯概率的设备。

每个经训练的SOM表示其权重中的特定类别的输入。当向SOM提供新输入计划时，SOM可发现计划所属的最可能类别。在标准贝叶斯规则中：

(1)

(2)

其中：

·p(h_i|d)是给定数据d的第i个假设的后验概率；即SOM的当前输入是以第i个神经元的权重表示的类别的实例的概率，

·p(d|h_i)是如果h_i为真时的数据的可能性，

·p(h_i)是第i个假设的先验概率，并且

·p(d)是观察数据d的概率。

每个单元的活性度A_i被计算为：

(3)

(4)

其中

是输入x与权重向量w_i之间的平方α加权欧几里得距离，a_i是第i个单元的未归一化活性度，m_i是第i个单元的激活掩模分量，并且A_i是所得的归一化活性度，使得SOM的所有单元的活性度总和为1。将第一组等式与第二组进行比较，m_i分量对应于第i个假设/神经元的先验概率，因此通过指定激活掩模，如果将零先验概率分配给映射的部分，则在ASOM上引起先验偏差(甚至关闭映射的部分)。高斯项

其中c是高斯的敏感性并且与其宽度成反比，与可能性p(d|h_i)的观点很好地拟合就位。公式(4)中的分母是映射对当前输入的总响应(即所有神经元的未归一化活性度的总和)并且对应于

其仅是数据本身的概率。映射中的非常低的总活性度指示陌生或新颖的输入数据。该累积活性度也可用于不同SOM之间的元级竞争。整个SOM的归一化活性度对应于给定当前输入数据下的所有假设/神经元的后验概率分布。

SOM的输出可用于计算所有神经元的权重的活性度加权组合：

(5)

如果SOM的活性度被解释为关于输入的可能假设上的概率分布，则其对应于给定分布下的输入的预期值。

图2a至图2e示出了cblock的实施方案的流程图。流程图仅示出了一个实施方案并且不旨在限制受权利要求保护的本发明。在该具体实施方案中，规划器100和定序器102被实现为SOM并且分别被称为“Plan_SOM”和“Seq_SOM”。

cblock输入：每当cblockInputs/就绪被设定为高时，cblock可采取三种输入：

·inputType_nextElem：新元素已到达，

·inputType_resetSeq：表示应丢弃缓冲器内容而无需训练Seq_SOM的控制信号，以及

·inputType_finalizeSeq：表示缓冲器中的序列成功并应存储在Seq_SOM中并且计划、效应和奖励存储在Plan_SOM中的控制信号。

在一个实施方案中，应将这三个变量中的恰好一者设置为1。

状态和奖励可始终连接，对它们的改变不需要提高就绪信号，但cblock仅在需要时注意到它们：

·当完成序列以计算其效应并将其与奖励和计划一起存储在Plan_SOM中时，

·当开始新序列以记住其初始状态时，以及

·随着新元素到目标驱动的模式以检查是否已达到目标。

cblock输出：无论三种类型的输入中哪一种到达cblock，cblock总是通过设置cblockOutputs/就绪来发信号通知其已完成处理。当重置序列时，不存在新预测，并且cblock仅确认已完成丢弃。如果输入为finalizeSeq，则是否存在有意义的预测取决于操作模式。如果cblock没有目标地操作，则不存在来自EoS信号的有意义的预测，并且就绪仅确认序列学习完成。在目标驱动的模式中，每当完成序列时，cblock刷新其目标缓冲器并重新计算新计划。新计划导致对其第一元素的预测，因此此处存在有效预测。并且对于nextElem输入总是存在有效预测。通过cblockOutputs/contain_prediction发信号通知cblockOutputs是否包含有效预测：0意味着应忽略预测元素。

当存在有效预测时，它是正确元素或EoS的预测。这通过cblockOutputs/eos_predicted来发信号通知：高意味着应忽略预测元素。

关于预测，返回good_enough、plan_good_enough和goal_reached。Goal_reached是离散的0或1变量信号，其发信号通知期望[效应、奖励]和实际[效应、奖励]之间的goal_α加权匹配是否大于阈值。同时，无论其是否超过阈值，输出变量goal_reached_degree都包含匹配的连续(0-1)值。该值可用作目标驱动的模式中的奖励。在回放的情况下，应当只有在以下情况下才执行预测元素并将其发送回输入：(a)设置good_enough，即存在低熵，(b)设置plan_good_enough，这总是在没有目标的模式下的情况，并且在目标驱动的模式下，基于Plan_SOM中的最佳匹配神经元的未归一化活性度的过阈值，即所检索的计划是否很好地满足要求，以及(c)未设置goal-reached，即如果期望状态与当前状态之间的差异低于阈值，则不做任何事情。然而，这发生在cblock之外，因此用户决定如何使用这些值或是否忽略它们。

cblock还发信号通知传入元素何时为惊讶的以及它最可能是何计划的一部分。

cblock的控制周期流程图和表示法说明：cblock为事件驱动的。cblock由状态机驱动。所有状态仅在需要时执行，这取决于状态变量。这些被称为S0至S9并且被描述为大圆圈。各自包含大写字母的较小圆圈只是构成流程图的页面之间的连接符。在每种状态下执行的代码在箭头路径的介于该状态与下一个状态之间的区段上的矩形框中。SOM和其他函数在以[方括号]标记的位置执行其操作。如果向下一个状态的转变取决于条件，则条件在菱形中。

来自外部cblock的输入变量以斜体形式。内部变量通常从大写字母开始。Seq_SOM输入以此顺序写为括号中的参数：seq_som/输入(基调、上下文、当前、下一个、EoS)。Plant_SOM输入以此顺序书写：plan_som/输入(计划、效应、奖励)。具有零α的元素被下划线(_)替换。

操作：cblock通常在状态S0中等待，从而侦听cblockInputs/就绪。当接收到这种情况时，cblock取决于输入类型采取动作。对于nextElem，将新元素添加到缓冲器中，并且相应地更新变量基调、上下文和当前。cblock将惊奇评估为来自先前周期的预测与新到达的元素之间的过阈值差异。

如果cblock是惊讶的，则其配置Seq_SOM的α以便对于当前元素花费最多的注意，对于上下文花费少一点的注意，并且对于基调花费零注意。它将可能基调的从上到下推断为软输出，即分布。然后使所推断的分布运行通过Plan_SOM以对其去噪声。Plan_SOM也返回软输出。然后以基调计划的推断分布为条件并且通过正常α再次查询Seq_SOM以预测下一个元素或EoS。Seq_SOM的基调输入是所观察的基调和通过Plan_SOM推断的计划的线性组合或“混合”。计划的混合系数在目标驱动的模式中为1，否则其为1–plan_som/activation_entropy，这是Plan_SOM的归一化激活映射的熵(以上等式4中的所有A_i的向量)。因此，Plan_SOM越确定，影响就越大。然后，cblock评估到目标的距离，当其处于目标驱动的模式时，填充cblockOutputs，发信号通知输出就绪，并返回到S0。

如果不存在惊奇，则cblock使用Plan_SOM以便根据所观察的基调推断最可能的计划，并且然后预测以基调、上下文和当前元素为条件的下一个元素或EoS。cblock评估到目标的距离，当处于目标驱动的模式时，填充cblockOutputs，发信号通知输出就绪，并返回到S0。

如果输入类型为resetSeq，则cblock清除缓冲器并重置基调、上下文和当前，并且不存在训练。cblock还在为下一个输入组块做准备时将当前状态记录为初始状态。如果没有目标地操作，则cblock在没有预测的情况下发信号通知cblockOutputs/就绪并返回到S0。如果为目标驱动的，则cblock选择新目标，挑选计划，并预测其第一步骤。该操作分支与finalizeSeq共同，因此下文对其进行描述。

如果输入类型为finalizeSeq，则cblock通过将奖励和效应记录为当前状态和在组块开始时记录的初始状态之间的差异来评估计划的效应。它还对于缓冲器的内容训练Seq_SOM并预测结束时的EoS。然后cblock清除缓冲器，重置基调、上下文和当前，并且记录新初始状态，正如在resetSeq分支中那样。通过空缓冲器调用finalizeSeq等同于调用resetSeq。在目标驱动的模式中，现在是选择新计划的时间：cblock读取其部件的期望目标状态、奖励和注意α。其将期望效应计算为期望状态与当前状态之间的差异。接下来，其向Plan_SOM查询以这些约束为条件的最佳计划。最佳计划选择可受到经由activation_mask对先前获胜计划的抑制的影响，该activation_mask是上述等式3的所有m_i的向量。然后向Seq_SOM查询以所选择的计划和初始上下文及当前为条件的下一个元素或EoS。结果返回在cblockOutputs中，并且cblock返回到S0。

除了响应于外部触发的重置或完成之外，cblock在计划执行上具有内部超时。这通过泄漏集成激发(“LIF”)神经元来测量，该神经元的速度可由用户控制或禁用。每当LIF在自然计划结束之前激发时，通常(a)通过goal_reached，(b)通过预测EoS，或(c)通过触发finalizeSeq的任何其他外部因素，其在内部触发resetSeq。在没有目标的模式中，这仅清除缓冲器，但在目标驱动的模式中，它还刷新目标并选择新计划。

最可能的计划、效应、奖励的推断：因为向Plan_SOM查询了与演进片段一致的存储计划，所以该计划的副效应是意图识别：无论cblock是否为惊讶的，它也在其输出上返回与所检索的计划一起存储的最可能的效应和奖励。这在目标驱动的模式中是有帮助的：如果cblock正在寻求满足目标但为惊讶的计划，例如因为该计划是如对话中的用户/cblock动作的交替序列，并且用户做了未预期的事情，则其试图通过推断最可能的新计划来恢复并与该新计划一致地作出反应。同时，cblock信号为惊讶的并返回最可能的效应和奖励，使得用户可决定是坚持遵循原始目标还是与新计划一起。这里，控制也与用户一起：用户必须在下一步骤中设置规划/目标输入并丢弃或完成该序列。

图3是cblock可在其中工作的一个环境300的风格化表示。这里，cblock 306的实例正在合适的计算系统302中运行以便控制工业装置304。

cblock 306相对于装置304中的正常操作所预期的内容进行训练。训练和设置可包括将注意权重与cblock接收的各种传感器输入相关联。例如，当检测到激发时，对该紧急情况进行响应比满足标准生产时间表更重要。

在操作时，用户向cblock 306给予上文所讨论的类型的输入308，但也可提供其他控制信息，诸如装置304当前正在运行哪个过程、如果该信息不能以其他方式提供给cblock306则哪些生产输入在手边或被递送等。

cblock 306在进行的基础上从装置304接收生产和其他状态信息310。在复杂装置304中，这可包括来自数千个各种类型的传感器(包括相机和其他物理传感器)的信息。如上所讨论，cblock将该输入评为“计划”，并且通过将控制输出312发送到装置来响应于设定目标和奖励。

虽然工业过程控制是应用本公开的技术的一个有成效的领域，但也出现了其他领域。cblock可被配置为控制对话系统和/或在线规划或协作应用程序，诸如远程文档编辑应用程序或表单填充应用程序。

在对话系统的实施方案中，cblock可用于将用于学习对话管理策略的序列学习和增强学习方法与基于计划的对话模型的元素组合。类似于基于计划的系统，可推断用户在进行话语或话语序列时的计划(并且最终推断用户的目标)，并且协作地帮助寻求所推断的计划和/或目标。而且与基于计划的系统一样，但与学习系统不同，可以表示另选的可能计划。与基于计划的系统不同，但像增强系统一样，有可能从对训练对话的暴露学习导致奖励的“好”计划。此外，与序列学习系统一样，可学习关于对话中的话语如何被定序的简单约定。

因此，cblock可用于控制自主代理，诸如复杂化身，其使用自然语言和其他以人为中心的提示与人类进行交互(从而改善人类计算机交互)。例如，在一个实施方案中，使用cblock来实现的化身帮助用户填写在线表单。在cblock之外，训练化身以识别在用户/化身对话期间可能出现的关于表单的一组用户话语含义。化身还被赋予其可在对话中自身产生的一组话语。该组用户话语含义加上该组化身话语共同形成由cblock“定序”的项目。除此之外，目标与表单的每个字段的完成以及与完成整个表单相关联。cblock对于用户话语含义和化身话语的序列进行训练，结合基调活动的用户意图，以及通过目标的实现来触发的瞬时奖励。其学习导致奖励作为组块的以用户和化身为特征的子对话。学习的子对话被分配多维效应，该多维效应表示朝向目标的移动。注意焦点被设置为表示多维状态向量的各个维度的相对重要性。

在用户/化身对话期间，化身具有要实现的一组候选目标：在本示例中，要填充的表单字段。化身具有至少两种策略。在第一策略中，化身等待来自用户的话语，并且当话语到达时，使用cblock将该话语与导致目标的学习的子对话中的一者匹配。如果化身发现匹配，则化身可通过在轮到化身时产生话语或者等待预期的用户话语来进行该子对话。在第二策略中，化身主动选择目标，化身针对该目标在相关联的对话中产生第一话语，产生该话语，并且然后如前所述地进行子对话。

在任一种情况下，如果子对话未能到达计划，则cblock将注册惊奇。它能够以两种方式恢复，这取决于其对没有目标的/目标驱动的参数的设置。在没有目标的模式中，它可执行贝叶斯计算以确定用户是否已进行不同的子对话(即，不同组块)。在目标驱动的模式中，其可通过重复当前计划中的较早话语来尝试在轨道上返回初始子对话。

在对话中的任何点处，cblock可激活下一个用户话语的可能用户话语含义上的预期概率分布。这可在位于cblock外部的话语解释器之前提供自上而下，如果存在传入用户话语的多个可能的自下而上解译，则该自上而下解译器可帮助消除歧义。

在用户/化身对话期间，化身通过向用户给予关于如何继续填充表单的引导来响应于来自用户的预期输入。用户的输入可包括直接问题，cblock将该直接问题与填充特定字段的目标进行相关。其他用户输入可能是模糊的或不完整的，但仍可从cblock的训练中识别：这里，cblock可识别不完整响应，填充缺失部分，并且继续进行，好像用户已进入整个计划。

随着每个计划完成或字段被填充，cblock可改变注意权重，选择新计划并激活它，以这种方式继续进行直到达到最终目标，即整个表单的填充。

然而，用户可提供超出cblock理解范围的输入，也就是说，cblock在用户输入处为惊讶的。cblock可通过执行用户可能意指的内容的概率的贝叶斯计算来丢弃任何现有的计划并恢复。取决于该计算的结果，cblock可具有关于用户说话内容的良好但非完美的想法，并且可提示用户进行阐明。

在极端情况下，cblock可能必须继续激活通用响应，诸如“我很抱怨，我不理解这一点。请您改述您的问题？”用户的响应可允许cblock发现适当的计划或引导其放弃完整地填充表单的项目。

如果对话继续成功填充表单，则cblock识别该状态，并且取决于应用程序的细节，可使用户参与关于其他目标的进一步对话。

不同cblock实例可用于对所体现的自主代理自身的机动移动进行定序，并且用于对所体现的代理可在世界中感知到的各种事件(从面部表情产生中涉及的低级事件到与对话中的话语相关联的高级事件)进行定序。

cblock可采用具有基于增强的链接的自主代理。例如，所体现的自主代理可学习感觉机动序列以发现奖励。组块可用作机动模式：引导序列生成的动作的高级表示。在US10181213B2中公开了使用神经行为建模框架来创建和以动画方式显示所体现的代理或化身，该专利也转让给本发明的受让人，并且以引用方式并入本文。集成到此类体现的自主代理中的cblock可学习动作结果的特定序列，这导致与奖励相关联的主要动作结果。例如，与一组按钮交互的代理可了解以特定顺序按压某些按钮会产生可与计划相关联的特定结果。然后，通过将结果设定为目标，代理可继而寻找每个按钮以按顺序按压按钮并满足其目标。在神经行为模型(诸如US10181213B2中所述的神经行为模型)内，“奖励”信号可被实现为虚拟神经递质水平—例如，虚拟多巴胺水平。

cblock可在具有决策能力的自主代理中实现，以基于可用知识朝期望目标(即，神经经济性)权衡不同的动作标准或进程。因此，代理可学习各种计划(步骤序列)以实现各种目标，并且然后基于多个维度(即，加权多个不同因素)评估(决定)要激活的计划中的哪一者。人工代理的目标可在内部生成(例如，如果饥饿，获得食物)或在外部给定(例如，如果用户要求进行任务)。代理的目标可实时改变。例如，如果其饥饿水平在执行任务的过程中增加，则代理可以中断任务并改变其目标以发现食物。如本文所述，cblock允许代理从正在进行的序列的片段中识别可能的计划、意图(效应)和预期奖励。然后，它们可实现目标驱动的行为，学习传入数据中的顺序相关性，并且预测可能的接下来输入内的概率分布。它们可注意到重复发生的序列，自动检测序列边界(基于预测的惊奇)并且将序列表示为用于未来执行/重放的组块/计划。

代理可根据其正在进行的动作来猜测另一个实体的计划(例如，另一个代理、或人类用户)。由于控制计划的被动推断的相同网络也控制计划的主动采用和执行，因此这支持协作的神经模型，由此代理既可识别另一个实体的计划，并且又可然后帮助实现该计划。

在另一个实施方案中，cblock用于学习音乐序列和变型。音乐输入可由cblock接收，其中音乐输入可包括例如音乐元素(诸如音符和休止符)序列。音符和休止符可由定序器处理以预测下一个音符和休止符并且还检测乐句的边界。定序器可基于上下文和基调预测当前乐句并且将乐句作为基调输入到规划器。规划器可预测以下乐句。此外，cblock可通过使用其目标驱动的模式来用于音乐生成。目标可被输入到cblock，并且cblock可从规划器生成乐句以实现目标。在一些实施方案中，可通过提供一个或多个乐句的部分输入来选择起始点，并且cblock可通过根据部分输入选择实现目标的附加乐句来完成音乐创作。目标可包括例如特定结果或奖励。在音乐生成模式中，cblock可成功生成完整的音乐创作、歌曲或序列。

应当理解，本领域的技术人员可在如所附权利要求中表达的本发明的原理和范围内对细节、材料、步骤和部件布置进行许多附加改变，这些改变在本文中已被描述和示出以解释本发明的性质。

根据一个示例性具体实施的经修改自组织映射的细节

加权距离函数

在传统SOM中，在整个输入向量上使用简单距离函数(例如，欧几里得距离或余弦相似性)来计算输入向量与神经元的权重向量之间的相异性。然而，在一些应用中，可能期望比输入向量的其他部分更高地对输入向量的一些部分(对应于不同的输入字段)进行加权。

在一个实施方案中，提供了关联自组织映射(ASOM)，其中对应于输入向量的子集的每个输入字段通过被称为ASOMα权重的项来有助于加权距离函数。ASOM计算输入字段集与神经元的权重向量之间的差异，不是作为单片欧几里得距离，而是通过首先将输入向量分为输入字段(其可对应于输入向量中记录的不同属性)。不同输入字段中的向量分量的差异有助于具有不同ASOMα权重的总距离。基于加权距离函数来计算ASOM的单个所得活性度，其中输入向量的不同部分可具有不同语义及其自身的ASOMα权重值。因此，对ASOM的总体输入对要相关联的任何输入(诸如不同的模态、其他SOM的活性度或任何其他输入)进行子集求和。

图4示出了合并来自若干模态的输入的ASOM的架构。对ASOM的输入

由K个输入字段0组成。每个输入字段是dim_ki＝1…K)个神经元的向量

输入字段0可以是：

·感官输入的直接1-hot编码；

·1D概率分布

·低级自组织映射的活性度的2D矩阵，

或任何其他合适表示。

图4的ASOM 0由N个神经元组成，每个神经元i＝1…N具有对应于完整输入的权重向量

被分成部分权重向量

(对于k＝1…K)的K个输入字段。当提供输入

时，每个ASOM神经元首先计算输入和神经元的权重向量之间的输入字段方向距离：

其中α_k为第k个输入字段的自下而上混合系数/增益(ASOMα权重)。dist_k是输入字段特定的距离函数。可使用任何合适的一个或多个距离函数，包括但不限于：

·欧几里得距离

·KL偏差

·基于余弦的距离

在一个实施方案中，加权距离函数基于欧几里得距离，如下：

其中K是输入字段的数量，α_i是每个输入字段的对应ASOMα权重，D_i是第i个输入字段的维度，并且x_j ⁽ⁱ⁾或w_j ⁽ⁱ⁾分别是第i个输入字段的第j个分量或对应的神经元权重。

在一些实施方案中，ASOMα权重可被归一化。例如，在使用欧几里得距离函数的情况下，通常使得活性度ASOMα权重总和为1。然而，在其他实施方案中，ASOMα权重未归一化。在某些应用中，诸如在具有从稀疏到密集动态变化的大量输入字段或高维ASOMα权重向量的ASOM中，不归一化可导致更稳定的距离函数(例如，欧几里得距离)。

加权距离函数的益处和用途的示例如下：

1.ASOMα权重可被设置为反映不同层的重要性。

2.ASOMα权重可被设置为忽略特定任务的模态。

3.ASOMα权重可用于对注意力进行建模—可将注意力/焦点动态地分配到输入的不同部分，包括关闭输入的部分以及自上而下预测输入值。ASOMα权重0充当通配符，因为输入的该部分可以是任何事物，并且其将不影响由加权距离函数递送的相似性判断。

4.在方差方面适应具有不同数值属性的输入字段。

5.适应表示不同模态的输入字段。

6.ASOMα权重可被设置为抵消不同大小的输入字段。例如，如果一层是400个神经元的位图(其中20-50个像素中的差异仍然被认为是小差异)，并且另一层是二进制标志，则如果输入字段被相等地加权，则将忽略第二层中的差异。为了使它们相当，可将第一输入字段设置为例如比第二输入字段小50倍。

ASOMα权重影响训练期间SOM上的表示的分组。例如，如果存在两个输入字段，第一者表示对象的属性的富分布向量并且第二者表示1-hot型标签，则通过将第一者的ASOMα权重设置为零，输入将按标签分组，即具有相同标签的所有输入将训练相同的神经元，因此有效地计算第一输入字段中的富属性复合体的移动平均值/原型。在具有多个输出选项(例如，自主代理看到面部并应返回人/ID)的示例中，可为这些选项使用本土主义编码(每人一个神经元)。这确保在训练期间，仅正确人的神经元将是活动的(1-hot编码)，并且在检索期间，本土主义ID神经元的联合活性度将表示它为其面部的概率分布(使用如本文所述的概率性SOM)。

可动态地设置ASOMα权重以检索关联，从而允许情境查询或使用ASOM作为任意域的输入-输出映射。通过将剩余字段的α/输入字段权重设置为0，可根据仅一些选择的输入字段计算ASOM中的激活模式。ASOM模式可从不完整的输入模式激活，从而完全缺失某些字段。在已经激活ASOM模式时，可根据单个获胜神经元或以贝叶斯方式根据ASOM活性度的完整模式重建缺失输入字段中的模式。这样，ASOM可用作用于监督学习的设备。ASOM的字段中的一些字段是输入，并且其他字段作为输出。在训练期间，提供所有输入和输出。当网络与新测试输入一起使用时，输出字段的ASOMα权重被设置为0，并且SOM活性度用于重建这些输出字段中的值。

例如，提供了用于关联两个输入字段(面部和名称)的ASOM。在训练期间，提供关联两个输入字段的输入。然而，在测试/重建/检索中，可仅提供面部，并且ASOM应检索其对应名称。为此，名称的ASOMα权重可临时设置为通配符(例如，设置为0)。

学习频率常数可针对每个输入字段而不同，以将一些输入字段(如标签/名称)的快速(1次)学习(高学习频率常数)与和标签相关联的内容(例如，视觉表示或其他特征)的更渐进学习相结合。较低学习频率意味着内容将随时间推移变成为胜者的该神经元的所有输入的平均值—一种原型。快速学习意味着权重被最近输入覆盖。因此，快速学习和缓慢学习可在一个学习暴露内组合。

激活掩模

激活掩模是SOM竞争或激活上的掩模，其调节允许SOM的哪些部分竞争以及程度。因此可以：

·选择性地打开/关闭SOM的整个区域

·在充满时生长映射(激活掩模可限制被允许学习的SOM的区域。如果被允许学习的区域已满，则激活掩模可改变以“添加”新映射区域。)

·将活性度夹持到特定区域

·实现IOR(返回抑制)以产生SOM行为的可变性

·通过多个替代方案执行顺序迭代搜索。

SOM的每个神经元可与掩模值相关联。掩模值是神经元激活的修改符，即它确定其对应的神经元可被激活到何种程度(其中1意味着它被正常激活，并且0意味着它不可能被激活)。掩模值可为单个变量，其可为二进制值或介于0和1之间的连续值。

掩模值的整个集合是与SOM映射同构的激活掩模，换句话讲，每个神经元有一个掩模值。激活掩模偏置对获胜神经元的竞争(或激活，对于概率性SOM)，其中具有0掩模值的神经元被完全排除在竞争之外；具有<1掩模值的神经元是不利的。

可情境地应用激活掩模来调节竞争以用于任何合适的目的，包括但不限于：抑制最近活动的神经元的返回，实现贝叶斯先验，实现增长的映射，打开和关闭映射的不同区域，并且限制对经训练神经元(基于训练记录的贝叶斯先验的应用程序)的竞争，这有助于获得更清洁的输出。

概率性SOM

在经典SOM中，SOM的活性度是基于输入和每个神经元权重之间的最小距离(或其他相似性函数)的对获胜神经元的选择。所有计算均在距离空间中执行。

在概率性SOM中，概率性SOM的活性度测量概率性SOM中的每个神经元对特定输入向量的响应，门控在[0-1]范围内。自组织映射适于通过计算每个神经元的输出来更全面地利用其本土主义性质，使得每个神经元在其权重中保持详细表示(即，在其权重向量中的给定输入模式的完整表示)，然而多个神经元可同时在不同程度上活动，从而创建“激活映射”。以这种方式适配SOM允许模糊度、概率分布、相互竞争的替代形式的表达，并且用于实现贝叶斯计算。

概率性SOM中的神经元表示关于输入模式的另选可能假设—并且因此可被解释为表达这些假设上的概率分布。概率性SOM中的活性度的模式可被解释为这些神经元的权重中表示的若干独立的“基向量”的组合。这些解释仅可被认为是近似的：由于附近神经元表示类似模式，因此它们编码的假设不是完全排他性的(或等同地，它们表示的基本向量不是完全正交的)。尽管如此，可将概率性SOM活性度模式视为可能输入上的概率分布和输入的粗编码表示。

概率性SOM的活性度(“激活映射”)反映了输入向量和经由激活函数转换到[0,1]空间中的神经元权重之间的相似性(例如，其可以是欧几里得距离的反比例函数)，并且所有计算发生在[0,1]激活空间中。在概率性SOM中，神经元的活性度与它们的权重向量和SOM的输入之间的相似性成比例。活性度界定在0和1之间，其中1对应于最大相似性(同一性)。在一个实施方案中，SOM的活性度是输入向量与每个神经元的权重向量之间的欧几里得距离的高斯函数。例如，用于计算神经元a_i的激活的激活函数可以是：

其中a_i表示给定神经元i的活性度，其中输入向量

和s的权重向量

是高斯函数的灵敏度/宽度，Dist是所使用的距离函数(其可以是如标题加权距离函数下描述的标准欧几里得距离或加权距离函数)。a是SOM中的所有神经元的活性度的向量。具有相对接近输入向量的权重的神经元产生接近1的活性度，并且具有进一步远离输出值的权重的神经元产生更接近0的活性度。可使用另选的相似性函数来代替高斯函数，诸如余弦相似性，其在输入s和权重向量w都被归一化为具有单位长度的情况下，将a_i减小为该输入和权重向量的点积。在激活函数不是高斯函数(并且是指数衰减函数)的实施方案中，Dist不必如高斯激活函数公式中那样是平方的。

相似性度量/距离被转换为激活，并且匹配的灵敏度可通过修改灵敏度s来调节，该灵敏度在高斯激活函数中表示高斯函数的宽度。每个SOM神经元可被认为是编码其权重向量中的“原型”输入模式。神经元与活性度反应，该活性度与当前输入是该概念的实例的可能性成比例。在该解释下，灵敏度控制输入必须接近原型的程度以便使神经元强烈反应(神经元的“挑剔”程度)。图5示出了基于0.01、0.1、1和10的灵敏度的活性度分布，展示了灵敏度值如何调节概率性SOM的神经元的“挑剔”程度。灵敏度s可基于输入的性质来调整；例如，其在所使用的距离函数(例如，欧几里得距离)方面的典型变化。如果灵敏度高，则神经元对除原型之外的所有事物以几乎为零作出反应；如果灵敏度低，则活性度的减少将被更多地分级。在高斯激活函数中，在该原型附近存在平台(即，在接近0的欧几里得距离处)。该平台对应于足够接近以生成高响应的欧几里得距离的范围。在较大距离处，其响应中存在急剧下降，并且其渐近至0。

在非概率性SOM中，用于确定获胜神经元的度量是输入和权重向量之间的最小加权距离。在概率性SOM中，用于确定赢得神经元的度量可以是输入和权重向量之间的最小距离，或者神经元的最大激活。

如果概率性SOM对具有相互排斥类的训练项目进行训练，则概率性SOM的归一化活性度生成概率分布。SOM中的每个神经元可被认为是分布内的假设，并且当归一化时，每个神经元的新活性度表示其假设的概率。因此，为了将SOM活性度模式解释为概率分布，另一边界是将所有神经元的活性度约束成总和为1。激活可被归一化(例如，柔性最大化)，使得整个概率性SOM(激活映射)上的活性度总和为1。神经元i的最终活性度可通过确保所有j个神经元的活性度总和为1，使用如下等式来计算：

可向活性度的计算添加先验。可将每个神经元的先验偏差加到等式。可将先验设置为SOM神经元的相对频率，将其记录为每个单元在训练期间赢得胜者通吃比赛的次数的计数。该更新公式遵循贝叶斯规则并且表示SOM中的输入上的后验概率分布。如果SOM中的每个神经元表示标签，则我们可将活性度解释为输入x属于一个标签或另一个标签的概率。

使神经元的活性度在整个SOM上归一化模拟了时间拉伸横向抑制/竞争的结果。当活性度被归一化时，其可被视为相对于以不同神经元的权重表示的假设上的概率分布。

归一化可用于熵计算。当活性度被归一化时，SOM神经元的活性度上的熵可用于导出SOM在其对给定输入的理解中的“置信度”的量度。当熵为低时，置信度为高，反之亦然。归一化还允许以非常接近贝叶斯推断的方式根据SOM活性度的模式来重建输入。将SOM的输出解释为后验概率分布使得能够计算活性度的相对熵以确定分布中的模糊度。神经元的总数j可用作对数的底数以确保熵始终在[0,1]之间的范围内，其中最大熵(模糊度)为1。

使用Kullerback-Leibler(KL)偏差来确定概率性SOM活性度分布之间的相对熵。

最后，归一化可用于软输出重建/根据概率性SOM活性度的模式重建输入。输入的自上而下重建通过以下方式来实现：呈现部分输入，并且在SOM中引出贝叶斯活性度分布，并且使用该输出来重建该分布的预期输入。关于活性度，可以计算假设后验x的预期值：

x＝Wa_i

归一化在将神经元视为相互竞争的替代形式时是有用的(例如，在归一化之前，将输入分类为A或B但不是两者)。例如，其中不同神经元表示不同的相互排斥的对象类型。如果神经元是其中特征可平行存在的特征检测器(例如，检测面部图像内的鼻子、嘴和两只眼睛)，则可能期望不归一化。

概括地说，概率性SOM可用于其中多个活动神经元可表示可能的替代解释的任何应用，例如：决策制定、句子含义解释、面部识别。

与标准SOM一样，在权重更新步骤期间，权重向量被更新以变得更靠近由以获胜神经元为中心的高斯函数加权的输入向量。参数σ控制高斯函数的扩展，并且通常使其大小在训练周期内减少。这允许映射的区域专门用于不同的输入，同时在映射上将类似的输入分组在一起。

贝叶斯规则

可将概率性SOM中的每个经训练的SOM神经元视为表示其权重中的一类输入的原型。当向SOM提供新输入(数据)时，可按照如上所述的贝叶斯规则找到其所属的最可能类(假设)。在概率性SOM中，每个神经元的活性度A_i被计算为：

a_i为第i个神经元的未归一化活性度，m_i为第i个神经元/假设的先验概率，并且A_i为所得归一化活性度，因此所有神经元的活性度总和为1。

存在组合这两种条件概率分布的各种方式。例如，可使用简单加权和来提供两个条件概率(其中自上而下分布的贡献由“自上而下影响”参数指定)。另一种选择是加权乘积，如Hinton，2002所述。(G Hinton，通过使对比趋异度最小化来训练专家的产品(Training products of experts by minimizing contrastive divergence)，《神经计算》，第14卷，第1771–1800页，2002年)。

通过指定激活掩模m_i，在ASOM上引起先验偏置(即使关闭映射的部分，如果将零先验概率分配给它们)。换句话讲，激活掩模表示“先验信念”。高斯项

与可能性p(d|h_i)的观点对准。

用于归一化活性度A_i的公式中的分母是映射对当前输入(激活总和)的总响应(所有神经元的未归一化活性度的总和)—并且是数据本身的概率—对应于p(d)。

因此，计算的神经元不是特定对象、位置、动作或事件的表示，而是这些项目上的完整概率分布。贝叶斯计算在每个阶段保留许多可能性的观点，并且保留代理的置信度，其中这些可能性更有可能存在。推断机制可改变哪些可能性被认为是可能的，并且可改变自主代理对正在进行的各种估计的置信度。实际上，代理可对其估计变得非常可信—例如，自主代理可非常确定其已在给定位置处看到狗。但贝叶斯计算还允许自主代理表达低置信度或中等置信度的状态或实际上完全忽略的状态。

软输出

当SOM与输入一起呈现时，其与具有类似于输入的神经元权重的映射的部分中的活性度反应。活性度本身是关于输入性质的信念的表示并且可用作对更高级SOM的输入。但SOM还可返回其对重建输入的估计(记住该输入可能嘈杂或不完整，并且可能与SOM已对于其进行训练的模式不同)。我们将这种重建称为SOM的“输出”。

SOM的输出可为获胜神经元的权重向量，即SOM将返回最接近的记住值，而不管除胜者之外的任何神经元的活性度如何。

概率性SOM的输出可以是每个神经元的活性度乘以它们的权重向量的加权组合。整个SOM的归一化活性度对应于给定当前输入/数据下的所有假设/神经元的后验概率分布。一旦输入向量在概率性SOM上引出活性度模式，就可以自上而下方式重建输入。所有神经元的权重向量可与等于神经元活性度的混合系数组合。将SOM的活性度解释为关于输入的可能假设上的概率分布，对应于给定分布下的输入的预期值。

这可被认为是“软输出”，根据所有权重重构为以ASOM的活性度横向中的概率分布为条件的预期值，被计算为所有权重向量的活性度加权组合。输出表示可根据由同时活动的神经元表示的若干“基”函数构建。例如，如果人的面部图像太过于不同而不能由单个神经元表示，则可经由若干ASOM神经元来调解面部与人的关联，但这将导致在输出上激活同一个人。

在对概率性SOM的输入是数字位图的示例中：如果输入是数字3，则表示3的映射的区域将示出大激活，并且也可激活形状上类似于3的其他数字，诸如8(并且可能在较小程度上为9)。因此，活性度映射可以是双峰的或三峰的。如果ASOM以概率0.51将其输入识别为数字3并且以概率0.49将其输入识别为数字8，则在不使用软输出的情况下，输出将为3。如果使用软输出，则所得输出可以是数字3和数字8之间的视觉混合，如图6所示。

图7示出了具有九个神经元的SOM，其中硬编码权重介于1和10之间。数字(而不是基于图像的数字表示)输入被直接提供给SOM，该SOM是具有1维输入的1D SOM。SOM的输入被稀疏编码(通过群体代码表示实数，即稀疏向量)。这是可如何使用软输出以用良好精度重建输入的示例。当提供了对应于x＝3的输入时，具有硬编码值3的神经元将是最活动的，然而，在该神经元周围存在活性度的梯度。增加灵敏度将导致仅神经元#3是活动的。在提供输入x＝3.7的情况下，如果仅使用获胜神经元来确定输出，则将返回值4，因为神经元#4是具有与输入最近的值的“获胜神经元”。在使用软输出/预期值的情况下，可重建输入3.7的精确值(例如，使用A_#3*w_#3+A_#4*w_#4)。预期值可被认为是SOM的“软输出”。

在另一示例中，ASOM将对象与位置相关联。当通过对象(杯)查询SOM时。如果期望杯的最可能的(单个)位置，则不应使用软输出。为了检索可找到杯的所有位置的表示(概率加权)，可使用软输出。

Claims

1.一种基于机器学习模型的组合分块器/规划器系统，所述分块器/规划器系统包括：

i.机器学习部件(“定序器”)，所述机器学习部件被配置用于接收顺序输入，用于将所述顺序输入分成一个或多个组块，以及用于生成对应于每个组块的计划；以及

ii.第二机器学习部件(“规划器”)，所述第二机器学习部件被配置用于寻求奖励，用于从由所述定序器生成的计划中选择与在当前状态中回收所述奖励最密切相关联的那些计划，以及用于激活所选择的计划。

2.根据权利要求1所述的分块器/规划器系统，其中所述定序器被进一步配置用于基于选自由以下项组成的组的元素来划分所述顺序输入：接收明确序列结束输入，达到当前组块的最大大小，接收与当前组块相关联的奖励，以及接收其值与预期值相差超过设置阈值的输入。

3.根据权利要求1所述的分块器/规划器系统，其中生成对应于组块的计划包括：

i.生成与所述整个组块相关联的声明表示(“基调”)；以及

ii.当在输入序列中检查所述组块的每个元素时：

1.向所述规划器查询迄今为止检查的与所述组块一致的完整计划；以及

2.使用由所述规划器返回的完整计划、所述基调、时间衰减上下文和所述组块中最近检查的元素来预测所述组块中的下一个元素。

4.根据权利要求1所述的分块器/规划器系统：

i.其中所述规划器被进一步配置用于将在激活计划时产生的状态变化与所述计划相关联；并且

ii.其中所述规划器被进一步配置用于寻求目标状态，用于从由所述定序器生成的计划中选择与实现从当前状态到更接近所述目标状态的状态的状态变化最密切相关联的那些计划，以及用于激活所选择的计划。

5.根据权利要求4所述的分块器/规划器系统，其中选择计划包括计算期望状态变化和与计划相关联的状态变化之间的距离，所述计算在多维状态空间中执行，所述计算通过每个维度上的注意焦点来加权。

6.根据权利要求4所述的分块器/规划器系统，其中所述规划器被进一步配置用于在发生选自由以下项组成的组的元素时丢弃所激活的计划：所述目标状态被实现、所述计划已被完全激活但所述目标状态未被实现、存在超时，以及发生未预期事物。

7.根据权利要求6所述的分块器/规划器系统，其中所述规划器被进一步配置为通过执行选自由以下项组成的组的动作来响应于丢弃所激活的计划：抑制所丢弃的计划并选择要激活的另选计划、选择要寻求的另选目标状态，以及选择要寻求的奖励。

8.根据权利要求1所述的分块器/规划器系统，还包括所述定序器的输入缓冲器；其中所述定序器被进一步配置为：

i.将所述顺序输入接收到所述输入缓冲器中；

ii.响应于用户命令来丢弃所述输入缓冲器的所述内容；以及

iii.响应于用户命令来训练所述定序器以将所述输入缓冲器的所述内容转成计划并将其记录为组块。

9.根据权利要求1所述的分块器/规划器系统，被进一步配置为：

i.接收部分输入；

ii.在与所述部分输入一致的现有计划中选择最佳匹配；

iii.预测激活所选择的计划所得的结果和奖励；以及

iv.激活所选择的计划。

10.根据权利要求1所述的分块器/规划器系统，被进一步配置为：

i.接收部分输入；

ii.推断与所述部分输入一致的现有计划的概率分布；

iii.预测激活所述一致计划所得的结果和奖励的概率分布；以及

iv.预测所述输入中的下一个元素，所述预测至少部分地基于所述概率分布。

11.根据权利要求1所述的分块器/规划器系统，其中所述定序器是自组织映射。

12.根据权利要求1或权利要求2所述的分块器/规划器系统，其中所述规划器是自组织映射。

13.一种在计算机实现的系统中用于引导行为的方法，所述方法包括：

i.由第一机器学习部件(“定序器”)接收顺序输入；

ii.将所述顺序输入分成一个或多个组块；

iii.生成对应于每个组块的计划；以及

iv.由第二机器学习部件(“规划器”)寻求奖励，其中寻求奖励包括从由所述定序器生成的计划中选择与在当前状态中回收所述奖励最密切相关联的那些计划，以及激活所选择的计划。

14.根据权利要求13所述的用于引导行为的方法，还包括：

i.由所述定序器将在激活计划时产生的状态变化与所述计划相关联；以及

ii.由所述规划器寻求目标状态，其中寻求目标状态包括从由所述定序器生成的计划中选择与实现从当前状态到更接近所述目标状态的状态的状态变化最密切相关联的那些计划，以及激活所选择的计划。

15.根据权利要求14所述的用于引导行为的方法，其中选择计划包括计算期望状态变化和与计划相关联的状态变化之间的距离，所述计算在多维状态空间中执行，所述计算通过每个维度上的注意焦点来加权。

16.根据权利要求14所述的用于引导行为的方法，还包括：由所述规划器在发生选自由以下项组成的组的元素时丢弃所激活的规划：所述目标状态被实现、所述计划已被完全激活但所述目标状态未被实现、存在超时，以及接收到其值与预期值相差超过设置阈值的输入。

17.根据权利要求16所述的用于引导行为的方法，还包括：由所述规划器通过执行选自由以下项组成的组的动作来响应于丢弃所激活的规划：抑制所丢弃的计划并选择要激活的另选计划、选择要寻求的另选目标状态，以及选择要寻求的奖励。

18.根据权利要求13所述的用于引导行为的方法，还包括：

i.由所述定序器将所述顺序输入接收到输入缓冲器中；以及

ii.由所述定序器响应于用户命令来执行选自由以下组成的组的动作：丢弃所述输入缓冲器的所述内容，并且训练所述定序器将所述输入缓冲器的所述内容转成计划并将其记录为组块。

19.根据权利要求13所述的用于引导行为的方法，还包括：

i.接收部分输入；

ii.在与所述部分输入一致的现有计划中选择最佳匹配；

iii.预测激活所选择的计划所得的结果和奖励；以及

iv.激活所选择的计划。

20.根据权利要求13所述的用于引导行为的方法，还包括：

i.接收部分输入；

ii.推断与所述部分输入一致的现有计划的概率分布；

21.根据权利要求13所述的方法，其中所述定序器是自组织映射。

22.根据权利要求13所述的方法，其中所述规划器是自组织映射。

23.一种用于控制应用程序的系统，所述系统包括：

i.基于机器学习模型的组合分块器/规划器系统，包括：

第一机器学习部件(“定序器”)，所述第一机器学习部件被配置用于接收来自所述应用程序的顺序输入，用于将所述顺序输入分成一个或多个组块，以及用于生成对应于每个组块的计划；以及

第二机器学习部件(“规划器”)，所述第二机器学习部件被配置用于寻求奖励，用于从由所述定序器生成的计划中选择与在当前状态中回收所述奖励最密切相关联的那些计划，以及用于通过与所述应用程序通信来激活所选择的计划；

ii.其中所述定序器被进一步配置用于将在激活计划时产生的状态变化与所述计划相关联；并且

iii.其中所述规划器被进一步配置用于寻求目标状态，用于从由所述定序器生成的计划中选择与实现从当前状态到更接近所述目标状态的状态的状态变化最密切相关联的那些计划，以及用于通过与所述应用程序通信来激活所选择的计划。

24.根据权利要求23所述的系统，其中所述受控制的应用程序选自由以下项组成的组：工业过程、制造过程、在线规划/协作应用程序和在线服务化身。

25.根据权利要求23所述的系统，其中所述定序器是自组织映射。

26.根据权利要求23所述的系统，其中所述规划器是自组织映射。

27.一种基于机器学习模型的分块器系统，所述分块器系统包括：神经网络自组织映射(“定序器”)，所述神经网络自组织映射被配置用于接收顺序输入，用于将所述顺序输入分成一个或多个组块，以及用于生成对应于每个组块的计划。

28.根据权利要求1所述的分块器系统，其中所述定序器被进一步配置用于基于选自由以下项组成的组的元素来划分所述顺序输入：接收明确序列结束输入，达到当前组块的最大大小，以及接收其值与预期值相差超过设置阈值的输入。

29.根据权利要求1所述的分块器系统，其中生成对应于组块的计划包括：

i.生成与所述整个组块相关联的声明表示(“基调”)；以及

ii.当在输入序列中检查所述组块的每个元素时：

1.使用所述基调、时间衰减上下文和所述组块中最近检查的元素来预测所述组块中的下一个元素。

30.根据权利要求1所述的分块器系统，被进一步配置为：

i.接收序列的片段作为部分输入；

ii.在与所述部分输入一致的现有计划中选择最佳匹配；

iii.预测激活所选择的计划所得的所述顺序输入中的可能下一个元素；以及

iv.激活所选择的计划。

31.根据权利要求1所述的分块器系统，被进一步配置为：

i.接收序列的片段作为部分输入；

ii.推断与所述部分输入一致的现有计划的概率分布；

iii.预测激活所述一致计划所得的所述顺序输入中的可能的接下来元素的概率分布；以及

32.一种训练自组织映射(SOM)的方法，所述SOM包括多个神经元，每个神经元与权重向量相关联，所述方法包括以下步骤：

接收包括多个输入字段的输入向量；

将ASOMα权重与每个输入字段相关联；

使用加权距离函数来确定所述输入向量与每个SOM神经元之间的相似性，其中每个输入字段对所述加权距离函数的贡献通过所述输入字段的ASOMα权重来加权；

根据如使用所述加权距离函数确定的所述输入向量与每个SOM神经元之间的相似性来修改SOM神经元权重向量。

33.根据权利要求32所述的方法，其中输入字段表示不同模态。

34.根据权利要求32所述的方法，其中所述加权距离函数是从欧几里得距离函数导出的。

35.根据权利要求32所述的方法，其中将ASOMα权重归一化成总和为1。

36.一种训练自组织映射(SOM)的方法，所述SOM包括多个神经元，每个神经元与权重向量相关联，所述方法包括以下步骤：

接收输入向量；

接收包括多个掩模值的激活掩模，每个掩模值与所述SOM的神经元相关联；

将掩蔽相似性函数应用于每个神经元，其中所述掩蔽相似性函数包括：

相似性分量，所述相似性分量用于确定所述输入向量和所述SOM神经元之间的所述相似性；以及

掩模分量，其中如果神经元与掩模值相关联，则所述掩模分量将所述掩蔽相似性函数的所述输出修改为所述相似性分量和所述掩模值的函数；

根据所述掩蔽相似性函数的所述输出来修改SOM神经元权重向量。

37.根据权利要求36所述的方法，其中所述掩模分量为所述相似性分量的倍增器。

38.根据权利要求36所述的方法，其中掩模值为介于0和1之间的连续变量。

39.根据权利要求36所述的方法，其中所述SOM是概率性SOM。

40.根据权利要求36所述的方法，其中掩模值为二进制变量。

41.根据权利要求36所述的方法，其中所述激活掩模包括掩模值，所述掩模值与其相应神经元所接收的训练量成比例。