CN105144203A

CN105144203A - 信号处理系统

Info

Publication number: CN105144203A
Application number: CN201480016209.5A
Authority: CN
Inventors: 朱利安·罗伯特·米歇尔·科尔纳比斯; 丹尼洛·希门尼斯·雷森德; 丹尼尔·彼得·维尔斯特拉
Original assignee: Google LLC
Current assignee: DeepMind Technologies Ltd
Priority date: 2013-03-15
Filing date: 2014-03-10
Publication date: 2015-12-09
Anticipated expiration: 2034-03-10
Also published as: WO2014140541A2; EP2973241B1; GB201304795D0; EP2973241A2; GB2513105A; WO2014140541A3; CN105144203B; US9342781B2; US20140279777A1

Abstract

我们描述了一种信号处理器，所述信号处理器包括：概率向量生成系统，其中，所述概率向量生成系统具有用于为输出示例的类别接收类别向量的输入端以及用于为输出示例的所述类别提供概率向量的输出端，其中，所述输出示例包括数据点的集合，并且其中，所述概率向量针对输出示例的所述类别定义数据点的所述集合中的每一个的概率；存储器，所述存储器存储多个所述类别向量，输出示例的多个所述类别中的每一个各一个；以及随机选择器，所述随机选择器用于选择输出示例的所存储的类别以用于将所对应的类别向量呈现给所述概率向量生成系统；其中，所述信号处理器被配置成针对与所述选择的存储的类别相对应的输出示例来输出数据。

Description

信号处理系统

技术领域

本发明一般地涉及用于信号处理的电子硬件、软件以及相关方法，具体地涉及生成依赖于并且表示先前学习的示例数据的数据的信号处理系统。

背景技术

我们将主要描述采用神经网络和其它技术来生成和先前所学习的那些匹配的输出数据示例的信号处理器。例如，信号处理器可以利用从零至九的手写数字的许多不同示例训练并且然后可以被采用来从所学习的类别中的一个随机地生成新的示例。因此可以从(训练示例的)学习的分布的集合生成输出，并且一般而言，还可以学习训练示例的类别。我们还将描述不通过精确地指定类别而是替代地通过提供为训练示例定义“场境(context)”的数据来使用外部输入来选择所生成的输出示例的类别的技术。信号处理器使用示例及其场境来训练，并且之后场境数据能够被用来偏置输出示例的生成。

此通用类型的信号处理器具有一应用范围。例如它们能够被用于利用或利用场境的预测，并且因此在许多类型的图像和音频信号处理中以及在控制应用(例如预测机器人手臂的位置)中以及在其它应用(例如针对假定药物发现的调优搜索技术)中有应用。信号处理器/系统的实施例可以处理包括但不限于下列的数据：音频数据、视频数据、图像数据、游戏数据、传感器数据、致动器数据、控制(包括电机控制)数据、生物数据、物理数据、化学数据、空间数据、文本数据、搜索数据以及其它数据。

已知使用波尔兹曼(Boltzmann)机来提供如例如在2009年人工智能和统计国际会议会刊第5卷第448-455页Salakhutdinov和Hinton的“DeepBoltzmannMachine”(http://www.cs.utoronto.ca/～rsalakhu/papers/dbm.pdf)中描述的所谓的再生模型。然而，深度波尔兹曼机需要大量处理能力来实现。

还能够采用Helmholtz机来提供再生模型，但是同时这样的机器具有在实践中它们非常慢地学习的一些有趣特征并且它们生成的输出示例是差的。

我们将描述解决这两个问题的改进的信号处理器和相关架构。

发明内容

根据本发明的第一方面，因此提供了信号处理器，所述信号处理器包括：概率向量生成系统，其中，所述概率向量生成系统具有用于为输出示例的类别接收类别向量的输入端以及用于为输出示例的所述类别提供概率向量的输出端，其中，所述输出示例包括数据点的集合，并且其中，所述概率向量针对输出示例的所述类别定义数据点的所述集合中的每一个的概率；存储器，所述存储器存储多个所述类别向量，输出示例的多个所述类别中的每一个各一个；以及随机选择器，所述随机选择器用于选择输出示例的所述存储的类别以用于将所对应的类别向量呈现给所述概率向量生成系统；其中，所述信号处理器被配置成针对与所选择的存储的类别相对应的输出示例来输出数据。

在实施例中，已经通过使用一组示例来训练信号处理器而学习类别向量与概率向量以及所存储的类别向量本身之间的关系，如在下面进一步描述的。训练系统可以包括信号处理器的一部分，或者可以在创建信号处理器的实例时训练信号处理器中的变量参数，并且之后信号处理器可以独立于训练模块/系统操作。在一些优选实施方式中，概率向量生成系统操作来在定义输出数据点的集合的概率的概率向量(输出向量)与作为类别向量的概率向量的压缩表示之间转化。因此在实施例中，类别向量是概率向量的压缩表示。

可以使用神经网络、具体地使用确定性(而不是随机)神经网络来实现数据压缩。采用该类型的共享映射系统减小待由信号处理器学习的参数的数目，因为实际上，神经网络的权重对于所有压缩表示(类别)是共同的。此外采用确定性神经网络通过在信号处理器的训练期间便于权重的确定性封闭形式计算来反直觉地便于学习。

技术人员应当了解，在该场境中，对确定性的引用是权重计算并且不排除例如“信号丢失”技术的使用以减小其中潜在地存在许多自由度的复杂互相适应的风险(Hinton等人‘ImprovingNeuralNetworksbyPreventingCo-adaptationofFeatureDetectors’,Arxiv:1207.0580v1,2012年7月3日)。更一般地在引用“确定性”神经网络的本说明书中，这应该被认为例如包括采用信号丢失或类似技术来在训练期间减小过度拟合的神经网络。

如先前所提到的，优选地概率向量生成系统包括确定性神经网络，例如非线性多层感知器。这里，通过非线性，意味着网络中的神经元中的一个或多个层具有非线性传递函数，使得该网络不限于拟合仅仅线性数据。技术人员将认识到，原则上，映射不必由神经网络执行而是可以通过任何确定性函数(例如大多项式、样条函数等)执行，但是在实践中这样的技术因为随着输入/输出向量的长度增加所需的参数的数目的指数增长而是不期望的。

信号处理器的一些优选实施方式包括用于接收(针对训练示例和/或输出示例)定义多个类别中的每一个的相对可能性的场境向量的场境向量输入端。这然后可以将输入提供给随机选择器，使得对输出示例的类别的选择依赖于场境(向量)。然后场境向量或从场境向量得到的数据可以作为另一个输入被提供给概率向量生成系统，在实施例中作为对确定性神经网络的附加向量输入。因此这个网络的输入层可以具有用于接收从存储这些向量的存储器输出的类别向量的节点的第一集合以及用于接收场境向量的节点的第二集合。

在一些优选实施例中，场境向量的长度可以与类别的数目不同并且映射单元被包括来彼此转换。该映射单元优选地包括第二神经网络，优选地为确定性神经网络，优选地为非线性的(包括从节点的至少一个层应用于信号的非线性函数)。在实施例中这个映射单元包括第二多层感知器。随机选择器然后可以根据由长度K(类别的数目)的修改场境向量所定义的一组概率来选择类别。在这样的系统中，如果不存在外部场境，则可以将场境向量或从映射单元输出的长度K的已修改场境向量定义为恒定的(即，将类别设定为等可能的)。

在场境向量不恒定的情况下场境向量映射神经网络应该具有至少一个隐藏层；类似地在实施例中概率向量生成系统中的神经网络还优选地具有至少一个隐藏层，但是取决于数据的复杂性，对于该神经网络来说两个或更多个隐藏层可能是优选的。为信号处理器提供场境向量输入端使得来自学习的场境的输出示例能够被提供。尽管通常输出示例可以包括大量的数据点(例如它可以是图像)，并且场境向量将常常短得多(例如1-100个值)，但是这不是必要的。因此在其它实施方式中场境向量可能是大的，例如图像，并且输出示例小，例如定义图像的分类或类别。在这种情况下可能不需要概率向量生成系统在概率向量与类别向量之间提供数据压缩，在此情况下概率向量生成系统实际上可以提供恒等运算(直通连接)。数据压缩然后可以由场境向量映射单元(A)有效地提供。

对上面描述的信号处理器的一个特别有利的扩展在于连接链中的信号处理器的序列，使得每个相继的信号处理器从链中的至少先前信号处理器(在实施例中从链中的所有先前信号处理器)接收场境向量。更具体地，输入给链中的信号处理器的场境向量可以包括在链的先前信号处理器中识别对随机选择器的选择的数据。在某种意义上这对应于先前信号处理器关于输出示例必须生成的“看法”，因为所提供的是基于它已从训练示例学习的可能性(分布)而选择的示例。可以紧跟在选择之后从各级向下一个信号处理器提供对随机选择器的选择。因此信息可以作为概率向量或作为类别向量或者潜在地作为随机选择(样本)与根据由概率向量所定义的概率而选择的数据值一起被提供。然而，优选使用“压缩”类别向量级别数据，因为这减小后续信号处理器必须学习的参数的数目，并且实际上，利用由先前信号处理器所学习的压缩映射(MLP-多层感知器-权重)。

因此还应当了解，针对输出示例来自信号处理器的输出数据可以包括类别向量或概率向量(针对输出示例的数据点定义可能性值)，所述概率向量视需要可以被用于生成输出示例。附加地或替选地输出可以包括输出示例本身，其中数据点值是根据由概率向量所定义的对应概率随机地选择的。

类似地，来自信号处理器的链的输出可以包括来自链的末端处理器的概率向量和/或可以提供输出随机选择器以根据由该概率向量所定义的概率来生成输出示例。

技术人员将认识到，取决于是否期望使信号处理器链依赖于外部场境向量输入，在信号处理器的链中该链中的第一信号处理器可以或者可以不具有场境向量输入。

信号处理器中可用的类别的数目是设计选择。部分地可以使该选择依赖于数据的先验知识–非常粗略地可以预期存在有多少类别。例如在学习的手写数字情况下对于数字0-9将预期10个不同的类别。然而，一般而言，提供非常大量的类别并且实际上允许信号处理器的训练确定需要多少类别是有利的。理论上存在利用这样的方法的过度拟合的风险(实际上信号处理器可以简单地记忆训练示例)。然而，在实践中，这不必是问题并且如果它能够通过例如信号丢失或(对一个或两个神经网络)施加稀疏表示或以其它方式(例如通过检测过度拟合并且调整(减小)自由参数的数目来解决。因此一般地期望提供大量的类别。

在一个方法中可以在单个信号处理器上实现大量的类别，但是在超过几千个类别的情况下这变得计算昂贵。反直觉地在处理器链的每个处理器上实现相对少量的类别是更加计算高效的：利用该方法类别的有效数目随着链中的处理器的数目(级别的数目)而按指数地增长，同时从结构采样的计算成本随着处理器(级别)的数目而线性地增长，并且训练链的计算成本随着级别的数目而次线性地增长。例如在假定20个类别和四个级别情况下有效地存在20⁴＝160,000个类别。在单个处理器上实现的该相同数目的类别情况下不存在完全对等，但是在计算成本上的巨大节省的灵活性方面存在很少减少。通过图示考虑在每个处理器上具有两个类别的示例。第一处理器将数据域分成两个(一般而言按某个复曲面划分)，第二处理器然后将数据域内的这些类别中的每一个分成两个，第三处理器将由第一处理器和第二处理器所创建的域中的每一个分成两个，依此类推。实际上由处理器所接收到的场境向量标记由先前处理器所生成的可用区域中的哪一个，当前处理器将分割从先前处理器继承的类别向量以压缩形式提供这个信息(它例如表示它已选择的图像的压缩形式)。一个处理器接收针对假定图像定义先前处理器认为应该为输出示例的压缩图像的类别向量，并且这与目前处理器有关输出示例图像的看法组合，目前处理器添加细节。这个过程随着输出示例的顺序精化而往链下方继续。

在相关方面中，因此，本发明提供用于从多个类别中的类别生成输出示例的信号处理系统，其中，训练示例跨越所述多个类别的分布已由所述信号处理系统学习，所述信号处理系统包括：信号处理器的链，其中，该链的每个信号处理器已学习所述训练示例跨越少于所述多个类别的有限数目的类别的分布；其中，在链中的第一所述信号处理器之后的至少每个所述信号处理器具有场境输入并且被配置成从以所述场境输入为条件的所述学习的分布生成输出示例；其中，所述链中的每个相继的信号处理器从该链中前面的处理器接收输出示例作为所述场境输入；其中，所述链中的第一所述输入处理器被配置成根据它学习的分布随机地选择所述输出示例；并且其中，所述链中的最后所述信号处理器被配置成提供输出示例和概率分布中的一个或两者以用于随机地选择所述输出示例。

在另一个相关方面中，提供了用于从训练示例的多个学习的类别为输出示例生成数据的信号处理的方法，所述方法包括：存储每个定义训练示例的学习的类别的多个类别向量；随机地选择存储的所述类别向量；生成依赖于所述选择的类别向量的概率向量；以及为所述输出示例输出数据，其中，所述输出示例包括每个具有由所述概率向量的相应分量所定义的概率的数据点的集合。

如先前所描述的，在该方法的一些优选实施例中对存储的类别向量的选择依赖于由场境向量(特别地由信号处理器的链中的前面的信号处理器所提供的一个)所定义的类别可能性。

在实施例中，所存储的类别向量和概率向量更特别地为概率向量生成系统包括即由真实世界数据的学习的表示定义。更一般地(输出示例)数据可以包括下列中的一个或多个：图像数据、声音数据、信号数据、传感器数据、致动器数据、空间数据、文本数据、游戏数据等，可以采用信号处理器的实施例来生成/预测/分类或以其它方式处理这样的数据。

如上面所描述的信号处理器/方法可以用硬件(例如作为电子电路)或用软件(例如作为在数字信号处理器(DSP)上或在通用计算机系统上运行的代码)或用两者的组合来实现。因为技术人员应当了解，我们描述的信号处理可以分布在彼此通信的多个耦合组件之间。可以在诸如盘、编程存储器(例如，诸如闪存的非易失性存储器)的物理(非瞬时性)数据载体上或在固件中提供用于实现本发明的实施例的处理器控制代码和/或数据(例如学习的参数数据)。用于实现本发明的实施例的代码和/或数据可以包括诸如C的常规编程语言(解释的或编译的)的源代码、目标代码或可执行代码，或诸如Verilog的硬件描述语言的代码。

本发明还提供训练具体地如先前所描述的信号处理器、信号处理系统或方法的方法，所述方法包括：将训练示例呈现给信号处理器系统或方法，其中，所述训练示例包括与所述输出示例的数据点相对应的数据点的集合；根据所述训练示例来计算可信赖性值的集合，每个所述类别各一个可信赖性值，其中，所述可信赖性值包括训练示例属于类别的概率，每个类别具有相应存储的类别向量；根据可信赖性值的所述集合为信号处理器、系统或方法的参数的集合计算梯度向量，其中参数的所述集合包括所述存储的类别向量并且定义所述存储的类别向量与为所述输出示例的数据点的所述集合定义概率值的所述概率向量的对应集合之间的共享映射；以及使用所述计算的梯度向量来更新参数的所述集合。

该训练过程的实施例是高效的，部分地因为类别向量表示由概率向量所表示的数据(假定图像)空间的压缩版本。因为这个并且在实施例中，因为类别向量与概率向量之间的神经网络为训练示例提供共享参数化，所以学习是相对快并且计算高效的。实际上类别向量为示例(假定图像)提供减小维数码本。

广义地说可信赖性值定义类别相对于数据点的示例集合的可能性；在实施例中这是从数据点的集合相对于类别的概率计算的(优选地通过遍及所有可用类别合计来归一化)。在优选实施例中可信赖性值还以场境向量为条件，使得参数是基于训练示例及其场境向量数据的组合而学习的。在实施例中，参数的学习的集合分别对于场境和类别向量(稍后MLPA和MLPB)包括存储在存储器中的场境向量(每个类别一个)和两个神经网络的权重。技术人员应当了解，数据点的示例性集合相对于类别向量和场境向量的前述概率是示例相对于类别向量、场境向量以及将这些连接到概率向量的神经网络的权重(即B(m,c))的概率。技术人员还应当了解，该概率的计算将取决于神经网络的实施方式并且还取决于数据的类型。例如对于二元数据二项式分布适用，并且如果b_i是比特i的概率则：

\begin{matrix} p (x_{i} | B (m, c)) = b_{i}^{x_{i}} {(1 - b_{i})}^{1 - x_{i}} & x_{i} &Element; {0, 1} \end{matrix}

理想地，当计算梯度向量时将遍及训练示例的整个集合计算这个，但是在实践中如果遍及训练示例的完整集合积分，则一个示例或几个示例的“小批”足以提供对梯度将是什么的有噪声但可用的逼近。当更新参数时梯度向量被乘以步长大小(η)。理论上可以在不同的参数情况下采用不同的步长大小并且η可以是对角或全矩阵，但是在实践中这似乎不必要。因为可能存在数千个参数(这些参数包括神经网络的权重)，所以将步长大小选择为恒定小数(假定0.001)是方便的(但是再次地，理论上能够随着训练前进(例如根据迭代次数)朝向0减小步长大小)。在实践中将步长大小选择为和可在没有训练过程失败的情况下实践的一样大。广义地说遍及小批计算梯度向量的平均值对应于步长大小的改变。

仅仅为了感受可能牵涉的数目，输出神经网络(B)可以在两个隐藏层和输出“可见”层中的每一个中具有大约10个输入侧节点(类别向量和场境)和大约1000个节点。取决于实施方式假定10-1000，输入侧神经网络(A)可以具有大约100-1000个输入层(场境向量)个节点、大约1000个隐藏层节点以及等于类别的数目的许多输出节点。在一些实施方式中场境向量可以具有长度一，也就是说它可以包括单个标量值。如先前所提到的，可以相对地压缩类别向量，例如具有长度大约1-100。

能够直接地将上面描述的训练过程扩展到处理器的链，因为实际上，除了它从链中的一个(或所有)先前信号处理器继承样本存储的类别向量，可以独立于其它处理器训练每个处理器。该样本被随机地做出，其中选择类别向量的概率依赖于对应的可信赖性值。因此以这种方式可信赖性是从链中的一个处理器到另一处理器继承的，但是在实施例中，不在链的信号处理器之间继承或者共享计算的梯度向量。在该过程的修改中可以为链的处理器的场境向量计算梯度向量，并且然后可以从链中的一个处理器到链中的后续处理器共享更特别地累积这个。

先前描述的信号处理器/系统可以被认为是其中一个或多个随机节点的架构(K个类别中的1个的随机选择步长后面是确定性神经网络(B)，其然后后面是随机输出级(根据概率向量的数据点的集合的随机选择))。可以扩展和总结该概念以提供(大)确定性神经网络被夹入或交错在随机节点的各层之间的神经网络架构。这样的方法能够在深度随机神经网络的缓慢/差训练情况下解决先前的困难。

因此在另一个方面中本发明提供神经网络架构，所述架构包括：随机节点的第一输入层；随机节点的第二输出层；以及连接在所述输入层节点与输出层节点之间的确定性神经网络。

可以采用该结构的实施例来通过深神经网络的各层上下传播信号(特征)。因此所述结构能够实现解决常规Helmholtz机(其已经内在本领域中停止研究达十年或更长时间)中的缺陷的(修改的)Helmholtz机，从而提供既极其快又准确的采样。

广义地说确定性神经网络(其可以可选地为稀疏的和/或采用信号丢失)从确定性神经网络然后能够从其中选择的训练示例之中学习特征的高效表示。例如确定性神经网络可以学习区分男人和女人，并且因此隐式地，禁止随机节点同时选择男人和女人两者，这是所希望的真实世界行为。相反在没有确定性中间结构的情况下，将需要学习假定男性面部和女性面部的特征之间的相互关系的复杂集合。

在实施例中确定性神经网络包括一个、两个或更多个隐藏层，并且在优选实施方式中如先前所描述的那样为非线性的。

附图说明

现在将参照图仅通过示例进一步描述本发明的这些和其它方面，附图中：

图1a至图1c分别示出根据本发明的实施例的信号处理方法/系统的流程图、根据本发明的实施例的神经网络架构以及针对图1a和图1b的方法/系统/架构的示例确定性神经网络；

图2示出根据本发明的实施例的包括信号处理器的链的信号处理系统；

图3a和图3b分别示出来自训练数据的集合的示例的选择，以及每个具有维度d_m＝2并且包括图示从其绘制了图3a的示例的数据集的压缩表示的两个实连续值的K＝100个类别向量或嵌入的值的图，每个点的2D坐标表示图像；

图4示出根据本发明的实施例的由信号处理器的链中的相继的信号处理器所生成的输出示例；

图5示出图示了根据本发明的实施例的信号处理器结构/架构的框图；

图6示出被编程为实现图1和图2的信号处理器/处理链的计算机系统的示例；以及

图7示出图示了图像完成的由根据本发明的实施例的信号处理器的链所生成的输出示例。

具体实施方式

广义地说我们将描述我们称为压缩混合并且针对它们强大的扩展称为链式压缩混合的信号处理技术。我们将描述实现这些技术的结构和过程，以及使得能够在实测样本上训练信号处理器(学习)使得它们能够生成新的类似的样本(采样)的算法。压缩混合的一个优点是它们能够很快又很准确地“推测”。另外，在实施例中所有所需要的计算可以封闭形式得到，从而允许高效学习。

如本文中所使用的，再生模型(GM)是学习推测的计算机器。其主要目的在于生成与它已观测到的那些样本类似的样本。更准确地说，GM是通过根据未知真实世界概率分布观测样本的序列来训练的，并且从对这个概率分布的逼近生成新的样本。例如，GM可以被示出来自包含50个不同对象的大约200,000个图像的NORB(纽约大学对象识别基准)数据集的图像，并且然后可以学习生成像对象的新的示例图像。如本文中所使用的，条件再生模型(CGM)附加地学习在给定场境(即，伴随观测的一些数据)上有条件地生成新的样本。每个观测能够具有它自己的场境。不同的场境对应于观测的不同分布，并且CGM学习这个以及给定任何特定将来的场境，将生成与和该场境相关联的分布相对应的新的样本。例如，场境可以指定捕获图像的条件。

一般而言学习和采样可能缠绕在一起：能够在任何时候做从模型采样；并且有可能通过从附加观测学习来精化模型，而无需从乱写重新开始。相反地，还有可能保持采样而不用看到任何新的观测。新的观测不必生成新的样本，从而允许广泛地训练的GM被用在其再生能力是需要的实际设置中。因此，例如，实现再生模型的信号处理器可以在某个初始“校准”阶段期间被训练，将所学习的参数存储在非易失性存储器中，并且然后可以被用作没有其训练系统的自包含模块。

因为我们描述的压缩混合能够在非常高维度观测空间上高效地操作，所以它们适合于许多应用领域。所观测或生成的样本例如可以是和图像一样大的大静态对象，或高维数源于在单个观测系列中实际上表示的时间步长数的较小维度对象的整个时间系列。示例训练和输出数据值可以是属于类别的(选自许多离散的类别)、二元的、离散的(例如0-255)或甚至连续的。稍后对一些示例应用进行描述。

大体上我们将通过描述我们的“CMix”架构和组件而开始，然后如何采样，并且训练这个架构。我们然后讨论其局限以及这些局限如何能够通过链接多个CMix处理器来解决中的一些，并且描述处理器链如何被训练。

压缩混合处理器(CMix)

压缩混合(CMix)信号处理器遍及样本空间定义分布或其中采用了场境数据的条件分布。

1.表示法

我们考虑任意d维样本空间空间Ω是特定于问题的，例如在黑白图像中Ω＝{0,1}，在灰度图像中Ω＝{0,...,255}，或者更一般地Ω＝R(即为实数的集合)。

我们通过x～p来表示根据概率分布p(·)实现随机变量x的采样。在表示法的轻微滥用情况下我们不区分随机变量和其实现，也不区分分布与其密度。

函数的组成由fοg(x)：＝f(g(x))表示。

向量和矩阵用粗体字(例如x)表示。向量x的第i个分量用下标x_i表示，然而矩阵m的第i行被记录下为m_i。x的分量1,2,...,i-1的向量被记录下为x_<i。下标索引xⁱ用来表示向量的序列。

2.架构

参考图1a，其示出根据本发明的实施例的压缩混合处理器的架构。方框表示确定性变换，然而椭圆表示根据给定分布对随机变量进行采样。虚线框是在各个中图示MLP(多层感知器)的对应方框的扩大视觉。

在一些优选实施例中在CMix顶上的是向量(即，维度(长度)d_c的向量)，我们称为场境向量、输入向量或调理向量。这表示我们想要调理样本的外生信息。对于非条件再生模型它能够被忽视(例如视为恒定的)。

以场境向量c为条件的在可见空间Ω^d中的任何数据点x的再生分布的密度是：

p (x | c) = Σ_{k = 1}^{K} p (x | k, c) p (k | c),

其中p(x|k，c)是可见空间上的概率分布，并且p(k|c)是遍及类的索引{1,...,K}的类别分布。即，任何类索引k出现在1与K之间的概率被定义为：

p(k|c)＝Cat(k|σοA(c))，

＝σ_kοA(c)

其中σ_k(x)＝expx_k/Σ_jexpx_j是经典软矩阵函数的第k个分量并且A是对于d_c和K具有适当的输入和输出维度的多层感知器(MLP)。对它们的隐藏层和隐单元的数目不存在特定约束。

类似地，可见空间上的分布p(x|k，c)是使得其充分统计是第二MLPB的输出

p(x|k，c)＝p(x|B(c，m_k))

其中m_k是矩阵的第k行。我们称为矩阵m的行作为嵌入。

CMix模型因此定义“可见”分布p(x|k，c)的混合模型，其中分量的参数通过MLPA和MLPB来共享。

在实施例中，MLPB定义输出示例向量的维度(长度)d_v与存储在矩阵m中的类别向量或嵌入的维度(长度)d_m之间的非线性压缩。参考图1a，在块102中MLPA将维度d_c的场境向量转换为维度K的向量，其中K是由信号处理器所采用的示例的类别的数目。如先前所提到的，K可以基于应用来选择，或者简单地为大的，或者在如稍后所描述的链中，以为该提供大量的类别。MLPA优选地具有至少一个隐藏层；优选地这具有比c更大量的节点，并且优选地还具有比K更大量的节点。

在块104中“～”指示k被选择成选择类别：存在K个类别并且k取指示这些值中的一个的值。在实施例中，因此，k可以由长度k的向量表示，其中除可以具有值1的分量k之外每个分量具有值0。所有分量可以具有被选择的相等概率。替选地，场境向量c经由A和σ可以对于该向量的每个分量定义该分量具有值1的概率(概率被归一化使得这些概率的和等于1)。

块106表示存储矩阵m的存储器。这可以被实现为包括K行数据的表，每行存储d_m个值，类别向量或“嵌入”的每个分量各一个值。这些行中的一个并且因此类别向量或嵌入m_k由k的值选择。类别向量或嵌入实际上表示来自处理器的输出示例数据的压缩表示。

在块108中MLPB接收作为输入的类别向量或嵌入以及在被使用情况下场境向量c(或从此得到的数据)。MLPB将这个输入转化成概率向量p(以上等式(4)中的p；图1a中的p_v，“v”表示B的“可见”节点)，其在所期望的输出示例中具有等于数据点的数目的维度(长度)d_v。例如，对于具有4096个像素的图像，d_v将具有长度4096。

MLPB的输出对于输出示例的各个数据点x_i定义(值假定1或0的)概率。这个概率向量可以被用作来自信号处理器的输出，因为它有效地提供输出示例的表示(例如，对于在NORB数据集上训练的处理器，如稍后所描述的，p_v有效地提供50个模型对象中的一个的灰度图像)。然而在实施例中，输出示例是如块110中所指示的那样通过随机地对这个概率分布进行采样而生成的，即数据点的值是根据按p_v针对每个定义的概率而选择的。相反，在稍后描述的链式处理器中，压缩表示m_k被用作来自处理器的输出示例数据。

类别向量或嵌入m_k的维度(长度)d_m是根据训练/输出数据的所期望的或可以忍受的压缩度而选择的。因此可以利用潜在地适用于与处理器一起和/或通过例行试验使用的数据集的压缩度的一些知识来选择d_m。在实施例中在d_v与d_m之间采用了高压缩度-例如在图像情况下可以采用两个或三个数量级的压缩。然而对于待采用的任何压缩来说，例如对于分类应用中的处理器来说场境向量可以具有图像的维度并且输出数据点/节点的数目可能低(在假定连续值情况下为一个或几个，以将输入分成几类)是不必要的。然而，一般而言，显著压缩的表示是所希望的。

MLPB优选地具有至少一个隐藏层，并且在两个或更多个隐藏层情况下工作最好。优选地节点在其隐藏层中的数目至少等于d_v。

扩展架构

图1a的架构可以被认为采用一对随机层(由图1a中的椭圆指示)、输出级110以及随机选择级104，但是选择级104有效地包括仅仅可以取K个值中的1个的单个随机节点。

可以将这个架构扩展到图1b的更通用架构。因此图1b示出包括第一随机层132(例如输入层)、第二随机层136(例如输出层)以及连接在随机层之间的确定性神经网络D134的神经网络130。

在图1b中节点之间示出的连接仅是说明性的-不同层的节点之间的连接可以是全局的或局部的。在随机层中可以根据/依照可以例如通过权重矩阵乘以诸如在输入向量上操作的S型的非线性函数来定义的概率分布随机地绘制节点值。

广义地说，确定性神经网络D学习将训练数据的特征映射到具有正确频率的模式。例如，考虑具有因此能够表示16个模式的4个二元输出节点的D的简单版本：如果假定特定模式应该出现时间的1/4则图1b的结构将学习将训练数据特征的1/4映射到同一模式。应当了解，如果使D变得足够大则任何映射是可能的。该结构将为模式的正确频率分配正确映射。

有利地，可以采用这个结构来实现Helmholtz机型训练过程，但是还可以采用其它训练过程。D的确定性性质简化训练(实际上可以采用反向传播来训练D)，从而避免在Helmholtz机中因随机节点而发生的问题，这导致有噪声的梯度向量并且因此导致非常慢或失速的学习。

优选地D是大的和/或深的，即优选地在它的一个或多个隐藏层和/或两个、三个或更多个隐藏层中具有大量的节点。这为分布提供更大的表示能力，从而将这些搓合和扩展到更大的表示空间。它可以被约束为稀疏的(仅由任何特定特征激活的神经元的相对较小百分比，例如小于具有大于阈值激活的神经元的20％、15％、10％)和/或采用信号丢失。实际上，D作为训练数据的特征学习者并且随机层在这些学习的特征上操作。

多层感知器(MLP)

对于A、B和/或D可以在图1a和图1b的架构中使用的示例确定性神经网络是多层感知器(MLP)。技术人员将知道这样的装置(并且能够在例如1995年牛津大学出版社CM.Bishop的“Neuralnetworksforpatternrecognition”中找到另外的细节)，但是为了完整我们将概述示例结构。

多层感知器(MLP)是具有交替线性操作和非线性操作的特定确定性结构的确定性函数，使它成为通用函数逼近器：它能够逼近任何实值多元确定性函数：只要它已用足够的偶对c，f(c)训练了即可。

图1c示出MLP的示例架构。这个MLP有包含2个单元外加偏置单元的输入层、每个包含4和6个单元外加偏置单元的两个隐藏层以及在输出端处无需偏置的包含4个单元的输出层。(原则上偏置单元使得能实现y＝mx+c中的常数项的表示，但是在实践中偏置单元尤其在层中具有许多节点的更大神经网络中是可选的)。在图1c中箭头表示线性组合，即通过给定权重的乘法和所有进入箭头的求和。圆表示标量单元。标记为tanh的单元操作它们的输入的非线性变换；标记为1的单元是恒定偏置单元。向量c＝(c₁,c₂)是输入，然而输出被收集到向量A(c)＝(A₁(c),...,A₄(c))中。

更正式地，MLP是对任意维度的空间的线性操作和非线性操作的组成，每个这样的空间通常被叫做层，并且每个空间的每个分量被叫做单元。从到的MLPA因此将具有带d_c个单元的一个输入层、带d_v个单元的1个输出层以及维度的任意数目n_H个中间隐藏层。其精确形式是线性函数H^k和非线性函数σ^k的以下组成：

对于{1,...,n_H+1}中的任何k，函数H^k是从到的仿射变换，其中d_H，0：＝d_c并且更准确地说，在表示法的轻微滥用情况下，我们用矩阵标识函数并且在中针对任何x定义：

H^{k} (x) : = H^{k} (\begin{matrix} x \\ 1 \end{matrix}) .

矩阵的分量是MLP的权重，并且是按梯度上升训练以逼近感兴趣函数的自由参数。

函数σ^k是从到的非线性函数、激活函数或“挤压函数”，因为一些公共选择映射到它们通常被选择为双曲正切tanh的或对数sigmoid1/(1-exp(-x)))的逐分量应用。该激活函数未应用于最后隐藏层的输出，以允许神经网络的输出取中的任何值。在实践中，隐藏层数n_H、它们的单元数d_H，k以及激活函数σ^k的选择可以通过反复试验和实际考虑来选择。

训练MLP以逼近函数f相当于选择适当的权重，即矩阵的分量。这通常通过解决如下最小化问题来实现：

\underset{A}{\arg \min} \underset{(x, f (x))}{Σ} E (A (x), f (x)

其中和是遍及已知对(x，f(x))的训练数据集，并且E(A(x)，f(x))是测量A(x)与已知输出f(x)之间的发散性的误差函数。该误差函数例如是最小二乘方误差函数或对数损失函数。采用来求解的优化算法通常是梯度上升的许多变例中的一个，从而通过推导的链规则的谨慎应用来评估部分导数

\frac{\partial E (A (x), f (x))}{\partial H_{i j}^{k}} .

导数的这种评估被称为误差的反向传播。

3.采样

再次参考图1a的压缩混合(CMix)信号处理器，我们现在描述用于从该处理器产生样本的过程。这是等式(1)、等式(3)和等式(4)的直接应用，并且在下面在来自类别分布和来自p分布的样本方面用算法1详述采样过程：

算法1-从压缩混合生成样本

functionGENERATESAMPLE(c)

p←σοA(c)

k～Cat(p)

x～p(·|B(c，m_k))

returnx，m_k

endfunction

这里，如先前所描述的，在k～Cat(p)中“～”表示根据概率p从K个数的集合中选择k。应当了解在这个采样过程中c和m_k是已知的(从先前的训练)。

为了将来方便(即用在CMix链中)，过程GENERATESAMPLE既返回来自CMix模型的可见样本又返回用来生成它的嵌入空间中的行，但是一般而言该算法可以返回x、m_k、p(·|B(c，m_k))中的一个或多个(最后采样步长x～p(·|B(c，m_k))是可选的)。可选地，c可以是常数，在此情况下输出表示没有场境的学习值。如先前所提到的，p(·|B(c，m_k))在其足够统计是MLP的那些的通用任何分布(即可由MLP的输出表示的任何分布)中可以是离散的、连续的、有界的等。

4.学习

CMix处理器可以通过使用对于此处理器采取直接形式的联机EM(最大期望)算法来学习其参数的最佳值而被训练。

这里θ是CMix中的所有参数(即MLPA中的权重、矩阵m以及MLPB中的权重)的向量。应当了解，可以存在数千个这样的参数。

对于任何给定数据样本x，EM过程的第一步骤是计算logp(x|c)相对于参数θ的梯度G^θ(x，c)：

\begin{matrix} G^{θ} (x, c) = {&dtri;}_{θ} \log p (x | c) \\ {&dtri;}_{θ} \log \underset{k}{Σ} p (x, k | c) \\ = E [{&dtri;}_{θ} \log p (x, k | c) | x] \\ = Σ_{k = 1}^{K} p (k | x, c) {&dtri;}_{θ} [\log p (x | k, c) p (k | c)] \end{matrix} .

等式(7)是费雪恒等式的应用(参见例如O.Capp_e,T.Ryden和E.Moulines的“InferenceinhiddenMarkovmodels”,Springer,2005,proposition10.1.6,p.353)。在“|”两侧具有x的(8)中的表示法表示将x固定到它在右手侧的值并且积分)。

后验混合权重p(k|x，c)被称为混合的每个分量的可信赖性，并且是潜在类别指数有条件地在观测x和场境c上的后验分布：

p (k | x, c) = \frac{p (x | k, c) p (k | c)}{Σ_{j = 1}^{K} p (x | j, c) p (j | c)} .

EM算法的第二步骤然后进行到使logp(x)最大化，因此叫做M-step。我们在由G^θ给出的方向上简单地递增参数θ。算法2描述这个过程，其可选改进是它在进行到M-Step之前遍及数个随机地采样的观测的小批累积梯度。典型的小批大小可以是大约1-10个示例。

CMix模型标量的单个训练步骤的算法复杂性换算为O(K)，即与类别数K成线性。在算法2的第17行处的过程ACCUMULATEGRADIENTS能够(可选地)返回logp(x)相对于场境c的梯度G^c(以允许通过Cmix链传播梯度)。梯度G^θ未被显式地示出为被返回，因为在实施例中，这个是算法的全局参数。参数θ的向量可以用随机值初始化；参数η表示算法的学习状态，并且可以通过经验选择。可信赖性向量r被优选地返回归一化(即，除以和s，如所示的)。函数SAMPLEEMBEDDINGFROMPOSTERIOR被包括在算法2中，但是它不是训练过程的一部分，因为它在链接CMix处理器时稍后被使用。

在第19行中，G^θ的计算采用p(x|k，c)的计算和p(k|c)的计算。可以根据等式(3)确定项p(k|c)(知道A的权重；以及c)。可以使用等式(4)确定项p(x|k，c)，其中x是已知的(训练示例)，c是已知的，并且m_k和B的权重是已知的(这些是正被优化的参数)。p(x|k，c)的计算的特定形式取决于x的分布的类型-例如它是伯努利(x_i是0或1)、二项式(假定x_i在范围0至255中)还是高斯。可以例如通过手工分析地确定p(x|k，c)的等式(在等式(4)中我们知道B的输入并且概率在B的输出上是线性的)，但是在实践中这总是采取在x上(或对于高斯、二项式来说)线性的简单形式和B的对数的函数。在下面给出了一些示例：

压缩混合处理器链(CMixChain)

在实践中上面描述的压缩混合在它们能够生成的不同示例的数目上受处理成本限制。顶层中的混合分量的数目K被任意地选择，并且在对采样所需要的操作的恒定O(1)数目(算术成本)没有任何影响的情况下它可能理论上是非常大的，这个为O(1)。然而，单个学习步骤的操作的数目随着O(K)而增长，即与类别数成线性，使非常大类别数变得不实际。

我们现在描述采用链式压缩混合处理器的技术，其通过使用相继压缩混合的组合式爆炸来减轻这个问题：链中的第一级别提供它采样的类别作为第二级别的场境的一部分，所述第二级别进而传递这个和它自己采样的类别作为第三级别的场境的一部分，依此类推直到任意L个级别。在实践中少量的级别已证明是非常强大的。采样的成本在L非常适度的情况下随着O(L)而增长，然而学习成本随着O(L²×K^1/L)而增长，即随着实际类别数而次线性地。因此通过链接CMix处理器能够获得可以从其采样的实际类别数的增加，同时通过继承如所描述的采样类别在EM算法中使用逼近来保持可伸缩训练成本。

图2示出包括压缩混合信号处理器100a、100b、100c的链的信号处理系统140的架构。(可选地)除最后一个之外，每个压缩混合信号处理器都具有输出端107a,b以将它选择的场境向量或嵌入m_k提供给链中的下一个处理器；这被级联成提供给下一级的场境向量。在图2中实心箭头指示针对采样(红色，S)并且在学习(蓝色，L)期间的信息流。可信赖性p(k|x，c)根据p(x|k，c)(箭头L₁)和p(k|c)(箭头L₂)的计算被示出为乘法，但是一般而言将还牵涉求和(为了归一化，如算法2的第27行中所示)。尽管为了方便表示对于链式信号处理器建议相同的内部维度(向量长度)，但是对于这些来说没有义务对于每个CMix处理器相同-例如处理器能够具有不同的类别向量/嵌入维度d_m，和/或神经网络A和/或B的大小能够随着进度往链下方增长。如由在最终级100c中伴随采样信息流的虚线所指示的，来自链的输出可以是随机地选择的输出示例或针对这样的输出示例定义数据点的概率的概率向量。

1.架构

继续参考图2，CMix处理器链是从由在链中被称为级别的所索引的L个CMix处理器的序列构建的。处理器的链的关键特征是链中的每个相继CMix以前面CMix处理器的样本为条件，如所图示的，从而产生所生成的样本的顺序精化。

注意，以及表示级别的CMix的分量，并且k＝(k₁...k_L)是在具有总共L个级别的链中的所有级别的CMix中的所有索引的级联。每个级别能够具有不同数目个类别。在实施例中参数以及属于链中的信号处理器并且每个信号处理器有它自己的参数(矩阵存储器(m)和MLP权重)。

我们能够将任何这样的向量的联合分布写为顺序条件式的乘积，而不管架构如何。

其中是与(3)类似地定义的条件类别分布，并且表示链中的先前信号处理器。

我们遍及将CMixChain条件分布定义为

p (x | c) = \underset{k}{Σ} p (x, k | c),

其中

并且分布p(x|k，c)和被参数化为

p(x|k，c)＝p(x|B^L(c^L))，

其中

c⁰：＝c

对于所有

是原始场境c和在直到并包括级别的相继类别中所选择的嵌入的级联。也就是说，在每个级别处第个CMix连同全局场境c一起接收链中所有前面CMix的已级联采样的记忆作为输入。优选地，神经网络和中的隐藏层的大小和/或数目随着级别深度增加而增加，以适应输入的增长大小。

2.采样

如图2中所图示的，从CMixChain采样是通过从相继的CMix级别起依次对嵌入(类别向量)m_k进行采样和级联来执行的，直到达到然后被完全采样的最后级别为止。这个过程在下面用算法3加以详述，算法3对于单个CMix处理器使用来自算法1的GENERATESAMPLE过程来返回依赖于场境c的值x。在算法3中所返回的嵌入被表示为e。

图3a示出来自用来训练CMixChain的NORB数据集的观测样本。为了帮助理解示例单个CMix处理器的操作，图3b示出针对具有每个带具有维度d_m＝2的类别向量或嵌入的K＝100个类别的CMix处理器的来自图3a的数据集的图像的一组压缩表示-也就是说训练数据集的每个图像被压缩，使得它由仅仅两个连续的实值表示。图3b使用这些值作为x坐标和y坐标并且标绘100个点(每个类别一个点)来标绘由这两个连续值所标识的点。

图4示出由在每级别包括10个类别的信号处理器的CMixChain并且4个级别中的级别l＝1,2,3,4处的相继的信号处理器所生成的输出示例。这些能够与图3a的示例相比较，并且图示由链中的每个级别所通常添加的相继细节。图4将帮助理解链的操作-在信号处理链的实施例中将在外部提供仅来自链的最后处理器的输出。

3.学习

CMixChain模型中的学习采用先前描述的EM过程的逼近。算法4在下面详述这个训练过程；稍后对基本数学基础进行描述。这个逼近算法的复杂性换算为O(LK(d_c+d_v)+L²(K+d_m))代替将作为确切算法的成本的O(K^L(d_c+d_v+d_m))-即，计算成本换算为L²K而不是为K^L。

算法4对于单个CMix处理器使用算法2中定义的函数；G_θ不显式地出现，因为它是单个CMix的全局参数的一部分，但是如先前所提到的，每个CMix具有它自己的参数的集合以及在实施例中不从一个CMix信号处理器向下一个继承的梯度向量因此在实施例中，每个CMix处理器被独立地训练并且仅仅场境向量c被继承。

在算法4中针对G_c(相对于场境c的梯度)的ACCUMULATEGRADIENTS函数不是信号处理器的链所需要的，并且来自先前级别的“记忆”由继承场境提供。然而，在原则上，G_c能够被用来从一个级别向下一个级别继承更多信息。

学习形式体系

为了便于理解我们现在将概述针对CMix处理器的链的算法4的训练过程的数学证明。

为了简单，我们这里在类别数跨越所有层恒定的情况下得到计算。对通用情况的扩展是直接的。

CMixChain模型的单个训练步骤的算法复杂性像下式一样随着而二次地换算：

O(LK(d_c+d_v)+L²(K+d_m))，

然而与总类别的等效数目K^L解开链接的单个CMix的算法复杂性将像下式一样随着而二次地换算

O(K^L(d_c+d_v+d_m))。

我们回想与具有潜在变量k的再生模型p(x，k)相关联的数据点x的对数可能性的梯度总是能够遍及潜在变量在后验下被表达为预期

\begin{matrix} &dtri; \log p (x) = &dtri; l o g \underset{k}{Σ} p (x, k) \\ = E_{p (k | x)} [&dtri; l o g p (x, k)] \end{matrix},

也就是说，计算梯度需要后验分布p(k|x)的知识。

在下文中，我们将变分逼近q(k|x，c)引入到后验p(k|x，c)以及训练它的内部参数以便实现所期望的换算特性的方式(例如，参见M.J.Beal的“VariationalalgorithmsforapproximateBayesianinference”,PhDthesis,GatsbyComputationalNeuroscienceUnit,UniversityCollegeLondon,2003；以及M.I.Jordan,Z.Ghahramani,T.S.Jaakkola和L.K.Saul的“Anintroductiontovariationalmethodsforgraphicalmodels”,MachineLearning,37:183-233,1999)。

变分框架代替使数据对数可能性最大化的问题

\begin{matrix} θ^{*} = \underset{θ}{\arg \max} \underset{x}{Σ} {logp}_{θ} (x) \\ = \underset{θ}{\arg \max} \underset{x}{Σ} \log \underset{k}{Σ} p_{θ} (x, k) \end{matrix},

具有嵌套最小化

\begin{matrix} (θ^{*}, Q^{*}) = \underset{θ, Q}{\arg \min} E_{Q} [\log Q (k | x) - {logp}_{θ} (x, k)] \\ = : \underset{θ, Q}{\arg \min} F \end{matrix}

其中Q是被称为变分分布的遍及潜在变量k的分布并且F被定义为变分自由能量。

对于等式(13)中所定义的模型，我们通过以如下因式分解形式定义变分分布Q(k|x，c)而开始：

与这个变分后验相关联的自由能量由下式给出：

F＝E_Q[logQ(k|x，c)-logp(x，k|c)]

在它为概率分布的约束下相对于使F最小化产生封闭形式解

其中∝表示多达归一化常数的相等性。能够将这个结果写为

其中量

能够被视为从变分分布起直到第级别的在c上并且在所选择的类别上有条件地遍及可见x的未归一化分布。

以这种方式获得的变分后验分布Q^＊将确切地对应于真实后验p(k|x，c)。我们也能够通过注意等式(35)的分子中的第一因数是反向递归来标识解决方案(35)与更多公共正向-反向算法之间的对应，然而第二因数是如在下面所指示的等式(10)的正向模拟：

我们的推导的下一个步骤是逼近预期

因为对于来说这个预期仅取决于所以我们将通过在最后级别处开始并且回到第一级别针对递归地求解等式来获得确切的这个确切解是不易处理的，具有算法复杂性O(K)。而且，EM算法正在修改p(x|k，c)的参数，使得等式(36)中定义的接近经验分布。这个学习目标对于针对单个CMix模型的EM迭代来说是相同的。因此，我们能够采用以下逼近：

其中是链中的第个CMix模型的观测模型。

把这个逼近放回到等式(35)中产生

Q^＊的近似解(40)具有与等式(9)中所给出的单个CMix模型的后验分布相同的形式。这因此允许我们再用分布以及机器来以模块化方式在CMixChain中的每个CMix内部学习它。

全变分分布因此成为

其中由第个CMix模型给定当前观测到的数据样本x和来自与全局场境c级联的链中所有在前CMix的输入在内部计算。相对于不属于Q的剩余参数的等式(31)中的最大化由等式(27)的梯度上升执行，其中可以使用来自Q的单个样本来计算每个参数更新。在算法4中详述了结果过程。

示例实施方式

图6示出用于实现如先前所描述的CMix信号处理器100的电子硬件/软件模块的结构的示意框图。

因此场境数据c被提供给由MLPA实现的场境向量映射单元112，以及提供给概率向量生成系统118的MLPB；这些对应于图1a的块102和块108并且实现对应的功能。场境数据还被提供给训练模块122。

映射单元A将K宽输出提供给随机类别选择器114，所述随机类别选择器114具有与图1a的块104相对应的功能，并且这进而例如以索引或地址的形式将类别选择数据提供给存储矩阵m的类别(嵌入)向量存储器116。

存储器116将d_m宽输出提供给具有与图1a的块108相对应的功能并且由MLPB所实现的概率向量生成系统118。系统118还接收场境向量c，并且将d_v宽概率向量输出提供给可选的随机输出选择器120，其从由概率向量p_v定义的分布采样以提供采样的输出示例x(与图1a的块101相对应)。

训练模块122在输入端124接收训练数据以及可选地接收场境数据c，并且实现算法2的训练过程以更新MLPA的权重(参数θ_A)、MLPB的权重(参数θ_B)以及存储在存储器116中的类别向量或嵌入(参数θ_m)。训练模块122不必是信号处理器100的一部分-例如参数θ能够由被向后去除的外部系统训练，或者信号处理器可以仅仅编程有预定值，例如将这些存储到诸如只读存储器的永久存储器、诸如闪存^TM的非易失性RAM中或在盘上。

技术人员应当了解，图5的结构可以用电子硬件/电路实现。例如它可以用硬件定义语言定义并且编译成硬件，或者它可以用ASIC或FPGA实现。替选地所图示的块中的一些或全部可以使用程序控制的信号处理器来实现，所述程序控制的信号处理器可以例如通过将处理器块包括在ASIC/FPGA上而形成硬件的一部分。替选地图5的结构可以由在数字信号处理器(DSP)上或在假定图形处理单元(GPU)上运行的软件模块来实现。更进一步替选地，可以在通用计算机系统上或跨越例如实现高性能计算系统的多个耦合的计算系统实现图5的结构。

图6示出被编程为实现如图2中所图示的CMix信号处理器的链的通用计算机系统150。因此，该计算机系统包括包含处理器和工作存储器的CMix服务器152。服务器152还包括存储用于实现图1a和图5中所示出的类型的多个CMix信号处理器100的处理器控制代码以及用于从CMix链采样以提供输出的代码和用于实现算法2和算法4的训练过程的代码的非易失性存储器154。服务器152还耦合到存储神经网络A和神经网络B的权重以及矩阵m的嵌入的非易失性存储156。可以在作为盘158说明性地示出的可移动存储介质上提供存储器154和存储156中的代码/数据。

CMix服务器152提供有输入数据，可选地提供有关联的场境数据。输入数据可以具有任何类型，包括但不限于下列中的一个或多个：游戏/搜索/多媒体数据、真实世界/传感器数据以及外部信号数据。应用还包括在示例的时间系列上训练的时间系列数据，但是示例可以被视为有效地独立的而不是本身视为时间系列连续。这样的时间系列数据可以具有包括前述类型的任何类型，以及时间系列图像(视频)数据、音频数据、天气和其它物理/化学和/或生物数据、金融数据等等。神经网络服务器152基于它已学习的训练示例以及可选地提供给服务器的场境数据类似地提供对应的输出数据。

用户和/或机器人/机器和/或其它计算机系统/CMix处理器/链可以与神经网络服务器152交互以经由可以包括因特网的网络160提供输入数据和/或接收输出数据。通过图示，在图6中示出了用户终端162、机器人/机器164以及到其它网络/计算机系统166的链路。

示例应用

我们描述的CMix信号处理器能够被用在各式各样的领域中并且提供与采样的迅速组合的优良的表示能力。我们在下面描述这些特征是有利的一些示例应用；这些仅仅是说明性的和非穷尽的。可以以监督或无监督方式训练CMix处理器。

1、来自类别的“推测”元件

从所学习的条件分布p(x|c)直接采样能够被用来模拟推测：当在标记数据上训练时，利用作为场境c的标记和作为样本x的对象进行学习，从p(x|c)采样输出示例数据或者根据给定类别“推测”对象。

2.在类别之中分类对象

相反地，利用作为观测结果x的标记和作为场境c的对象来训练CMix处理器(或链)，然后从p(x|c)采样将CMix处理器变成分类器，从而预测未标记对象的类别。

例如在用于识别数字0-9的监督训练过程中，可以知道特定图像对应于假定“2”并且CMix处理器可以利用作为场境的图像和表示所识别的数字的x加以训练。在这样的情况下x可以是具有表示不同数字的一系列值的标量变量，或者它假定可以是具有二元值分量的长度10的向量。

3.完成

在另一示例应用中CMix处理器或链能够观测图像的一部分，并且被要求“推测”或者完成与所提供的部分图像最佳匹配的全图像。因此图7示出通过CMixChain的图像完成的示例。这在左边图示待完成的4个测试示例(之前从未被模块看到)。黄色区域(在虚线右边)指示已被封留给模型的像素。在右边示出了CMixChain对于已封留像素的“最好猜测”-可以看到结果表示待完成的输入的已封留部分。这个技术还能够应用于遗漏数据的时间系列的完成、平滑等。

更详细地，完成牵涉从除p(x|c)外的另一条件式采样。替选地，对于给定场境c，我们仅观测对象的一部分x_v(例如图像中的像素的一半)同时图像的其余部分x_h被从视图隐藏。这里v和h是索引的两个不相交集合使得x＝(x_v,x_h)。唯一要求是隐藏部分x_h和可见部分x_v在场境和类别上有条件地彼此独立；也就是说，能够将分布p(x|k,c)因式分解为

p(x|k，c)＝p(x_v|k，c)p(x_h|k，c)。

这样的因式分解通常是在神经网络B的底层中没有横向连接的图像生成中的情况。例如，等式(4)的分布遍及其中每个像素例如遵循其参数为MLPB的输出的伯努利分布或二项式分布的像素分解为乘积：

p (x | B (c, m_{k})) = Π_{i = 1}^{d_{v}} p (x_{i} | B_{i} (c, m_{k})) .

通过图示给出了两个示例：

黑白图像：如果我们正在对二元数据x_i∈{0，1}例如黑白图像中的像素的向量x进行建模，则我们通过应用如下S形(sigmoid)函数将MLPB的每个输出单元B_i映射到区间[0，1]

g (b) : = \frac{1}{1 + \exp (- b)},

并且将结果用作具有用来对图像中的对应像素x_i进行建模的密度Ber(x|q)：＝q^x(1-q)^1-x的伯努利分布的参数q。这导致全等式

p (x | B (c, m_{k})) = Π_{i = 1}^{d_{v}} g {(B_{i} (c, m_{k}))}^{x_{i}} {(1 - g (B_{i} (c, m_{k})))}^{1 - x_{i}} .

或者等效地，具有由如关于算法2的第19行所描述的学习算法使用的对数形式：

\log p (x | c, m_{k}) = Σ_{i = 1}^{d_{v}} x_{i} \log g (B_{i} (c, m_{k})) + (1 - x_{i}) l o g (1 - g (B_{i} (c, m_{k})))

灰度图像：在另一示例中我们对1与某个值N之间的值(例如针对N＝255的灰度图像)的向量x进行建模。我们然后使用输出单元的相同的sigmoid变换，并且将这个图像用作具有第二参数N的二项式分布的参数：

Bin(x|q，N)：＝q^x(1-q)^N-x，

从而导致全等式

p (x | B (c, m_{k})) = Π_{i = 1}^{d_{v}} g {(B_{i} (c, m_{k}))}^{x_{i}} {(1 - g (B_{i} (c, m_{k})))}^{N - x_{i}} .

\log p (x | c, m_{k}) = Σ_{i = 1}^{d_{v}} x_{i} \log g (B_{i} (c, m_{k})) + (N - x_{i}) l o g (1 - g (B_{i} (c, m_{k})))

能够将这个图像完成问题写为使用所学习的GMp(x|c)从分布p(x_h|x_v，c)采样。对于单个CMix模型计算p(x_h|x_v，c)是直接的。根据等式(1)我们得到

\begin{matrix} p (x_{h} | x_{v}, c) = \frac{Σ_{k} p (x_{v}, x_{h} | k, c) p (k | c)}{Σ_{x_{h}} Σ_{k} p (x_{v}, x_{h} | k, c) p (k | c)} \\ = \underset{k}{Σ} p (x_{h} | k, c) p (k | x_{v}, c) \end{matrix},

其中我们已经使用了给定k的图像的不同像素彼此无关的事实并且p(k|x_v，c)由下式给出：。

p (k | x_{v}, c) = \frac{p (x_{v} | k, c) p (k | c)}{Σ_{j} p (x_{v} | j, c) p (j | c)} .

可以通过简单地忽视等式(4)中与未观测到的像素相对应的因素来计算边际观测可能性p(x_v|k，c)。在下面，在算法5中详述了针对单个CMix信号处理器从分布p(x_h|x_v，c)采样的过程：

对于CMixChain信号处理系统，过程是类似的(尽管是近似的)。在这种情况下，可以从第一级别到最后级别接连地应用算法5，如下面在算法6中所详述的：

4.经由学习点分布的分类

可以通过在同一示例中一起包括示例及其标记的示例上训练CMix处理器或链来实现替选形式的分类器/推测系统。因此，例如，对象的图像可以包括具有该对象的名称的文本；或标记可以与训练示例向量级联。然后可以在联合示例和标记上训练CMix处理器/链，从而学习重建示例的遗漏部分、推测对象或提供分类对象的标记，在两种情况下从而完成输入。

更一般地，因此，当学习标记数据时，Cmix处理器/链可以被用来处理标记和对象的级联作为观测结果，并且学习它们的联合分布。使用上面所描述的完成算法然后以统一方式允许推测和分类两者。

有用地，学习这个联合分布还允许半监督学习，即从其中仅某些对象被标记并且许多其它对象未被标记的数据集学习。这便于访问非常丰富的训练数据源。

无疑许多其它有效的替选方案将被技术人员想到。应当理解，本发明不限于所描述的实施例，并且包含落在所附权利要求的精神和范围内的对于本领域的技术人员而言显而易见的修改。

Claims

1.一种信号处理器，所述信号处理器包括：

概率向量生成系统，其中，所述概率向量生成系统具有用于为输出示例的类别接收类别向量的输入端以及用于为输出示例的所述类别提供概率向量的输出端，其中，所述输出示例包括数据点的集合，并且其中，所述概率向量针对输出示例的所述类别定义数据点的所述集合中的每一个的概率；

存储器，所述存储器存储多个所述类别向量，输出示例的多个所述类别中的每一个各一个；以及

随机选择器，所述随机选择器用于选择输出示例的所存储的类别以用于将所对应的类别向量呈现给所述概率向量生成系统；

其中，所述信号处理器被配置成针对与所选择的存储的类别相对应的输出示例来输出数据。

2.如权利要求1中所要求保护的信号处理器，进一步包括用于接收场境向量的场境向量输入端，其中，所述场境向量定义所述多个所述类别中的每一个的相对可能性；其中，所述场境向量输入端被耦合到所述随机选择器，使得对输出示例的所述类别的所述选择依赖于所述场境向量。

3.如权利要求2中所要求保护的信号处理器，其中，所述概率向量生成系统被耦合到所述场境向量输入端，并且其中，所述概率向量依赖于所述场境向量。

4.如权利要求2或权利要求3中所要求保护的信号处理器，所述信号处理器进一步包括耦合在所述场境向量输入端与所述随机选择器之间的映射单元，其中，所述场境向量具有长度d_c，其中，K是所述类别的数目，并且其中，所述映射单元被配置成将长度d_c的所述场境向量映射到长度K的类别概率向量，并且其中，所述随机选择器被配置成选择依赖于所述类别概率向量的输出示例的所存储的类别。

5.如权利要求4中所要求保护的信号处理器，其中，所述映射单元包括确定性神经网络。

6.如任何前述权利要求中所要求保护的信号处理器，其中，所述类别向量包括所述概率向量的压缩表示，并且其中，所述概率向量生成系统包括确定性神经网络。

7.如权利要求6中所要求保护的信号处理器，进一步包括用于接收场境向量的场境向量输入端，其中，所述场境向量定义所述多个所述类别中的每一个的相对可能性；其中，所述场境向量输入端被耦合到所述随机选择器，使得对输出示例的所述类别的所述选择依赖于所述场境向量；并且其中，所述确定性神经网络具有包括所述类别向量的第一输入和依赖于所述场境向量的第二输入以及用于提供所述概率向量的输出。

8.一种包括每一个如任何前述权利要求中所要求保护的信号处理器的链的信号处理链，在第一信号处理器之后的每个信号处理器进一步包括用于接收场境向量的场境向量输入端，其中，所述场境向量定义所述多个所述类别中的每一个的相对可能性；其中，所述场境向量输入端被耦合到所述随机选择器，使得对输出示例的所述类别的所述选择依赖于所述场境向量，并且其中，来自一个所述信号处理器的所述输出数据为所述链中的下一个所述信号处理器提供所述场境向量的至少一部分。

9.如权利要求8中所要求保护的信号处理链，其中，对于在所述第一信号处理器之后的每个相继的所述信号处理器，来自所述链中的前面的信号处理器的所述输出数据相组合来为所述相继的信号处理器提供所述场境向量输入。

10.如权利要求8或权利要求9中所要求保护的信号处理链，其中，来自所述信号处理器的所述输出数据包括由所述信号处理器的所述随机选择器所选择的所述类别向量。

11.如权利要求8、权利要求9或权利要求10中所要求保护的信号处理链，其中，来自所述链的最后所述信号处理器的所述输出数据包括所述概率向量。

12.如权利要求11中所要求保护的信号处理链，进一步包括输出随机选择器，所述输出随机选择器具有耦合为从所述链的所述最后信号处理器接收所述概率向量的输入端并且被配置成生成和输出包括具有利用由所述概率向量所定义的概率选择的值的数据点的所述集合的所述输出示例。

13.如当从属于权利要求5时在权利要求6至12中的任何一项所记载的信号处理器或信号处理链，其中，所述类别向量包括所述概率向量的压缩表示，其中，所述概率向量生成系统包括确定性神经网络；并且进一步包括训练模块，所述训练模块被耦合到所述存储器、耦合到所述概率向量生成系统、耦合到所述场境向量输入端并且耦合到所述场境映射单元，并且具有用于接收训练示例的训练数据输入端，其中，所述训练模块被配置成取决于在所述训练数据输入端处呈现的所述训练示例和在所述场境向量输入端处呈现的场境向量而为每个所述类别计算可信赖性值，并且配置成响应于所述计算的可信赖性值而调整所存储的类别向量、所述概率向量生成系统的所述神经网络的权重以及所述映射单元的所述神经网络的权重。

14.如任何前述权利要求中所记载的信号处理器或信号处理链，其中，所存储的类别向量以及来自所述概率向量生成系统的取决于所述类别向量的所述概率向量包括真实世界数据的学习的表示；和/或被具体化为数据生成分类、完成或搜索系统。

15.一种用于从多个类别的类别生成输出示例的信号处理系统，其中，训练示例跨越所述多个类别的分布已由所述信号处理系统学习，所述信号处理系统包括：

信号处理器的链，其中，所述链的每个信号处理器已学习所述训练示例跨越少于所述多个类别的有限数目的类别的分布；

其中，在所述链中的第一所述信号处理器之后的至少每个所述信号处理器具有场境输入并且被配置成从以所述场境输入为条件的所述学习的分布生成输出示例；

其中，所述链中的每个相继的信号处理器从所述链中前面的处理器接收所述输出示例作为所述场境输入；

其中，所述链中的第一所述输入处理器被配置成根据它学习的分布随机地选择所述输出示例；并且

其中，所述链中的最后所述信号处理器被配置成提供输出示例以及用于随机地选择所述输出示例的概率分布中的一个或两者。

16.如权利要求15中所要求保护的信号处理系统，其中，所述链中的每个相继的信号处理器从所述链中所有前面的处理器接收所述输出示例。

17.如权利要求15或权利要求16中所要求保护的信号处理系统，其中，所述链的所述多个类别由所述链的每个信号处理器的所述有限数目的类别的乘积定义。

18.如权利要求15、权利要求16或权利要求17中所要求保护的信号处理系统，其中，每个所述信号处理器包括用于以压缩数据格式表示所述输出示例的数据压缩系统，并且其中，所述链中的每个相继的信号处理器以所述压缩数据格式从前面的处理器接收所述输出示例。

19.一种计算机系统，所述计算机系统被编程为实现根据权利要求1至18中的任何一项所述的信号处理器、信号处理链或系统。

20.一种电子硬件，所述电子硬件被配置成实现根据权利要求1至18中的任何一项所述的信号处理器、信号处理链或系统。

21.一种非瞬时性数据载体，所述非瞬时性数据载体承载处理器控制代码以实现根据权利要求1至18中的任何一项所述的信号处理器、信号处理链或系统。

22.一种用于从训练示例的多个学习的类别为输出示例生成数据的信号处理的方法，所述方法包括：

存储每个定义训练示例的学习的类别的多个类别向量；

随机地选择存储的所述类别向量；

生成依赖于所选择的类别向量的概率向量；以及

为所述输出示例输出数据，其中，所述输出示例包括每个具有由所述概率向量的相应分量所定义的概率的数据点的集合。

23.如权利要求22中所要求保护的方法，进一步包括将所选择的类别向量提供给概率向量生成系统以生成所述概率向量，其中，所述概率向量生成系统包括数据解压缩系统；以及

使用所述概率向量生成系统来对所选择的类别向量进行解压缩以生成所述概率向量。

24.如权利要求23中所要求保护的方法，进一步包括输入场境向量，其中，所述场境向量定义所述多个所述类别中的每一个的相对可能性；并且其中，对所存储的类别向量的所述选择依赖于由所述场境向量所定义的所述类别的所述可能性。

25.如权利要求24中所要求保护的方法，其中所述场境向量具有长度d_c，并且其中K是所述类别的数目，其中d_c与K不同，所述方法进一步包括将长度d_c的所述场境向量映射到长度K的类别概率向量。

26.如权利要求25中所要求保护的方法，其中，所述映射由第一神经网络执行并且所述解压缩由第二神经网络执行。

27.如权利要求26中所要求保护的方法，进一步包括将所述场境向量输入到所述第二神经网络中。

28.如权利要求24、权利要求25、权利要求26或权利要求27中所要求保护的方法，进一步包括链接所述信号处理，其中，所述链接包括重复所存储的类别向量在一系列信号处理级中的所述选择，所述方法进一步包括使用在所述场境向量输入端中从所述信号处理级中的一个到所述下一个所述信号处理级的所选择的类别向量。

29.一种训练如任何前述权利要求中所记载的信号处理器、信号处理链、信号处理系统或方法的方法，所述方法包括：

将训练示例呈现给所述信号处理器、链、系统或方法，其中，所述训练示例包括与所述输出示例的数据点相对应的数据点的集合；

根据所述训练示例来计算可信赖性值的集合，每个所述类别各一个可信赖性值，其中，所述可信赖值性包括所述训练示例属于所述类别的概率，每个类别具有相应的所存储的类别向量；

根据可信赖性值的所述集合为所述信号处理器、系统或方法的参数的集合计算梯度向量，其中，参数的所述集合包括所存储的类别向量并且定义所存储的类别向量与为所述输出示例的数据点的所述集合定义概率值的所述概率向量的对应集合之间的共享映射；以及

使用所计算的梯度向量来更新参数的所述集合。

30.如当从属于权利要求2、权利要求15或权利要求24时在权利要求29中所要求保护的方法，还包括与所述训练示例一起呈现所述场境向量，并且其中，所述可信赖性值进一步以所述场境向量为条件。

31.如用于训练链式信号处理器/级的当从属于权利要求8、权利要求15或权利要求28时在权利要求30中所要求保护的方法，所述方法进一步包括：在一个所述链式信号处理器/级中随机地选择依赖于可信赖性值的所述集合的所存储的类别向量，并且将随机地选择的类别向量用作呈现给下一个所述链式信号处理器/级的所述场境向量的至少一部分。

32.一种非瞬时性数据载体，所述非瞬时性数据载体承载处理器控制代码以实现根据权利要求22至31中的任何一项所述的方法。

33.一种用于从训练示例的多个学习的类别为输出示例生成数据的信号处理器，所述信号处理器包括：

存储器，所述存储器用于存储每个定义训练示例的学习的类别的多个类别向量；

用于随机地选择所存储的所述类别向量的系统；

用于生成依赖于所选择的类别向量的概率向量的系统；以及

用于提供输出示例的输出端，所述输出示例包括每个具有由所述概率向量的相应分量所定义的概率的数据点的集合。

34.如任何前述权利要求中所要求保护的信号处理器、方法或系统，其中，所述数据包括下列中的一个或多个：图像数据、声音数据、信号数据、传感器数据、致动器数据、空间数据以及文本数据。

35.一种神经网络架构，所述架构包括：

随机节点的第一输入层；

随机节点的第二输出层；以及

连接在所述输入层节点与所述输出层节点之间的确定性神经网络。

36.如权利要求35中所要求保护的神经网络架构，其中，所述随机节点具有一个或多个输入端和一个或多个输出端，并且其中，来自所述输出端的输出值具有依赖于由所述一个或多个输入端上的输入值所确定的概率分布的值。

37.如权利要求35或权利要求36中所要求保护的神经网络架构，其中，所述确定性第二网络包括具有带比所述输入层中的随机节点的数目更大数目的节点的至少一个层的多层感知器。

38.一种修改的Helmholtz机，所述修改的Helmholtz机包括根据权利要求35、权利要求36或权利要求37所述的神经网络架构。

39.根据权利要求35至38中的任何一项所述的神经网络架构/修改的Helmholtz机包含于：非瞬时性数据载体上的软件、编程计算机系统、编程存储器或电子硬件/电路。