CN110197252A

CN110197252A - 基于距离的深度学习

Info

Publication number: CN110197252A
Application number: CN201910136561.7A
Authority: CN
Inventors: E·埃雷兹
Original assignee: GSI Technology Inc
Current assignee: GSI Technology Inc
Priority date: 2018-02-26
Filing date: 2019-02-25
Publication date: 2019-09-03
Also published as: KR20190103011A; US20190266482A1

Abstract

用于神经网络的方法包括同时计算输出特征向量与多个有限特征向量中的每一个之间的距离向量，所述输出特征向量描述未分类项，每个有限特征向量描述分类项集合中的一个分类项。该方法包括同时计算针对每个距离向量的相似性分数并创建多个计算的相似性分数的相似性分数向量。用于神经网络的系统包括关联存储器阵列、输入编排器、隐藏层计算机和输出处理器。输入编排器操纵描述存储在存储器阵列中的未分类项的信息。隐藏层计算机计算隐藏层向量。输出处理器计算输出特征向量并同时计算输出特征向量与多个有限特征向量中的每一个之间的距离向量，并同时计算针对每个距离向量的相似性分数。

Description

基于距离的深度学习

技术领域

本发明一般涉及关联存储器设备，尤其涉及关联存储器设备中的深度学习。

背景技术

神经网络是通过考虑示例来学习完成任务的计算系统，通常没有任务特定的编程。典型的神经网络是按层组织的节点的互连组；每个层可以对其输入执行不同的转换。神经网络可以在数学上表示为向量，表示层中节点的激活，以及矩阵，表示相邻层的节点之间的互连的权重。网络功能是对向量和矩阵以及在向量和矩阵之间执行的一系列数学运算，以及对存储在向量和矩阵中的值执行的非线性运算。

在整个本申请中，矩阵由粗体的大写字母表示，例如，A，以小写粗体的向量，例如，a，以及由斜体字体表示的向量和矩阵的条目，例如A和a。因此，矩阵A的i、j项由A_ij表示，矩阵A的行i表示为A_i-，矩阵A的列j表示为A_-j，而向量a的条目i由a_i表示。

递归神经网络(RNN)是当当前计算的输出取决于先前计算的值时对值序列的操作有用的特殊类型的神经网络。LSTM(长短期记忆)和GRU(门控循环单元)是RNN的示例。

网络的输出特征向量(循环和非循环)是存储m个数值的向量h。在语言建模中，h可以是输出嵌入向量(表示词汇中的单词或短语的数字的向量(实数、整数、有限精度等))，并且在其他深度学习学科中，h可以是有问题的对象的特征。应用可能需要确定向量h表示的项。在语言建模中，h可以表示应用可能需要识别的v个词的词汇表中的一个词。可以意识到，v可能非常大，例如，对于英语，v约为170,000。

图1中的RNN以两种表示示出：折叠100A和非折叠100B。非折叠表示100B在时间t-1、t和t+1中描述RNN随时间的变化。在折叠表示中，向量x是“一般”输入向量，并且在非折叠表示中，x_t表示在时间t处的输入向量。可以意识到，输入向量x_t表示由RNN处理的项序列中的项。向量x_t可以通过“独热”向量表示v项的集合中的项k，即除了位置k中的单个“1”之外全部为零的向量。矩阵W、U和Z是参数矩阵，使用特定尺寸创建以适合计划的操作。矩阵以随机值初始化并在RNN的操作期间、在训练阶段期间以及有时在推理阶段期间更新。

在折叠表示中，向量h表示RNN的隐藏层。在非折叠表示中，h_t是时间t处的隐藏层的值，根据等式1从时间t-1处的隐藏层的值计算：

h_t＝f(U*x+W*h_t-1) 等式1

在折叠表示中，y表示输出向量。在非折叠表示中，y_t是时间t处的输出向量，对于v项的集合中的每个项，具有在时间t处的项的类的概率。根据等式2，可以使用非线性函数(例如SoftMax)计算概率：

y_t＝softmax(Z*h_t) 等式2

其中Z是尺寸调整矩阵，旨在将h_t的大小调整为y_t的大小。

RNN用于处理项的序列的许多应用，例如：语言建模(处理单词序列)；机器翻译；语音识别；对话；视频注释(处理图片序列)；手写识别(处理标志序列)；基于图像的序列识别等。

例如，语言建模计算特定序列中多个单词出现的概率。m个单词的序列由{w₁,…,w_m}给出。序列的概率由p(w₁,…,w_m)定义，并且以序列中所有先前单词为条件的单词w_i的概率可以通过n个先前单词的窗口来近似，如等式3中定义的：

可以通过凭经验计算单词的每个组合在文本的语料库中出现的次数来估计单词的序列的概率。对于n个单词，该组合称为n元语言模型(n-gram)，对于两个单词，它被称为二元语言模型(bi-gram)。计算n元语言模型出现次数的存储器要求随着窗口大小n呈指数增长，因此在不耗尽存储器的情况下对大型窗口建模极为困难。

RNN可以用于模拟单词序列的可能性，而不必明确地存储每个序列的概率。用于语言建模的RNN计算的复杂度与建模语言的词汇表的大小v成比例。它需要大量的矩阵向量乘法和SoftMax操作，这些都是繁重的计算。

发明内容

根据本发明的优选实施例，提供了一种用于神经网络的方法。该方法包括同时计算神经网络的输出特征向量与多个有限(qualified)特征向量中的每一个之间的距离向量。输出特征向量描述未分类项，并且多个有限特征向量中的每一个描述分类项集合中的一个分类项。该方法还包括同时计算针对每个距离向量的相似度分数；并且创建多个计算的相似性分数的相似性分数向量。

此外，根据本发明的优选实施例，该方法还包括通过将输入向量与输入嵌入矩阵的多个列同时相乘来减小神经网络的输入向量的大小。

此外，根据本发明的优选实施例，该方法还包括同时激活相似性分数向量的所有元素上的非线性函数，以提供概率分布向量。

此外，根据本发明的优选实施例，非线性函数是SoftMax函数。

另外，根据本发明的优选实施例，该方法还包括在概率分布向量中找到极值以找到与未分类项最相似的分类项，其计算复杂度为O(1)。

此外，根据本发明的优选实施例，该方法还包括激活相似性分数向量上的K最近邻(KNN)函数，以提供与未分类项最相似的k个分类项。

根据本发明的优选实施例，提供了一种用于神经网络的系统。该系统包括关联存储器阵列、输入编排器、隐藏层计算机和输出处理器。关联存储器阵列包括行和列。输入编排器存储关于关联存储器阵列中的未分类项的信息，操纵信息并创建对神经网络的输入。隐藏层计算机接收输入并在神经网络中运行输入以计算隐藏层向量。输出处理器将隐藏层向量变换为输出特征向量，并且在关联存储器阵列内同时计算输出特征向量与多个有限特征向量中的每一个之间的距离向量，每个有限特征向量描述一个分类项。输出处理器还在关联存储器阵列内同时计算针对每个距离向量的相似性分数。

此外，根据本发明的优选实施例，输入编排器减小了信息的尺寸。

此外，根据本发明的优选实施例，输出处理器还包括线性模块和非线性模块。

此外，根据本发明的优选实施例，非线性模块实现SoftMax函数以根据相似性分数的向量创建概率分布向量。

另外，根据本发明的优选实施例，该系统还包括极值查找器，以在概率分布向量中找到极值。

此外，根据本发明的优选实施例，非线性模块是k最近邻模块，其提供与未分类项最相似的k个分类项。

此外，根据本发明的优选实施例，线性模块是用于生成相似性分数的距离变换器。

另外，根据本发明的优选实施例，距离变换器还包括向量调整器和距离计算器。

此外，根据本发明的优选实施例，距离变换器将调整矩阵的列存储在存储器阵列的第一计算列中，并将隐藏层向量分配给每个计算列，并且向量调整器计算第一计算列中的输出特征向量。

此外，根据本发明的优选实施例，距离变换器初始地将输出嵌入矩阵的列存储在关联存储器阵列的第二计算列中，并将输出特征向量分配给所有第二计算列，并且距离计算器计算第二计算列内的距离向量。

根据本发明的优选实施例，提供了一种用于将由特征的未分类的向量描述的未分类项与多个分类项进行比较的方法，每个分类项由特征的分类的向量描述。该方法包括同时计算未分类向量与每个分类向量之间的距离向量；并且同时计算针对每个距离向量的距离标量，每个距离标量提供未分类项与多个分类项中的一个之间的相似性分数，从而创建包括多个距离标量的相似性分数向量。

另外，根据本发明的优选实施例，该方法还包括激活相似性分数向量上的非线性函数以创建概率分布向量。

此外，根据本发明的优选实施例，非线性函数是SoftMax函数。

此外，根据本发明的优选实施例，该方法还包括在概率分布向量中找到极值以找到与未分类项最相似的分类项。

附图说明

在说明书的结论部分中特别指出并清楚地要求保护被视为本发明的主题。然而，当结合附图阅读时，通过参考以下具体实施方式，可以最好地理解本发明的组织和操作方法以及其目标、特征和优点，其中：

图1是折叠和非折叠表示的现有技术RNN的示意图；

图2是根据本发明构造和可操作的神经网络输出处理器的图示；

图3是根据本发明的实施例的构造和可操作的RNN计算系统的示意图；

图4是根据本发明的实施例构造和可操作的形成图1的神经网络的一部分的输入编排器的示意图；

图5是根据本发明的实施例构造和可操作的形成图1的神经网络的一部分的隐藏层计算机的示意图；

图6是根据本发明的实施例构造和可操作的形成图3的RNN处理器的一部分的输出处理器的示意图；

图7A是形成图6的输出处理器的一部分的线性模块的示意图，所述线性模块通过标准变换器提供线性变换；

图7B是根据本发明的实施例构造和可操作的替代图6的输出处理器的线性模块的距离变换器的示意图；

图8是由图7B的距离变换器使用的关联存储器中的矩阵的数据排列的示意图；

图9是由图7B的距离变换器执行的计算步骤和隐藏层向量的数据排列的示意图；以及

图10是根据本发明可操作的示意性流程图，示出了由图3的RNN计算系统执行的操作。

应当意识到，为了说明的简单和清楚，附图中所示的元件不一定按比例绘制。例如，为了清楚起见，元件中的一些的尺寸可能相对于其他元件被夸大。此外，在认为适当的情况下，可以在附图中重复附图标记以指示相对应或类似的元件。

具体实施方式

在以下具体实施方式中，阐述了许多具体细节以便提供对本发明的透彻理解。然而，本领域技术人员将理解，可以在没有这些具体细节的情况下实践本发明。在其他情况下，没有详细描述众所周知的方法、过程和组件，以免模糊本发明。

申请人已经认识到，可以利用关联存储器设备来有效地实现人工网络的部分，所述人工网络例如RNN(包括LSTM(长短期存储器)和GRU(门控循环单元))。如在名称为“INMEMORY MATRIX MULTIPLICATION AND ITS USAGE IN NEURAL NETWORKS”的美国专利公开US2017/0277659(其转让给本发明的共同受让人并且通过引用结合于此)中描述的系统，可以针对神经网络计算的矩阵乘法部分提供线性或事件恒定复杂度。在2017年10月15日提交的名称为“PRECISE EXPONENT AND EXACT SOFTMAX COMPUTATION”的美国专利申请15/784,152中描述的系统(其转让给本发明的共同受让人并且通过引用结合于此)，可以在训练和推理阶段中针对RNN计算的非线性部分提供恒定的复杂度，以及在2017年7月13日提交的题为“FINDING K EXTREME VALUES IN CONSTANT PROCESSING TIME”的美国专利申请15/648,475(转让给本发明的共同受让人并通过引用结合于此)中描述的系统，可以针对训练的RNN上的K最近邻(KNN)的计算提供恒定的复杂度。

申请人已经意识到准备RNN计算的输出的复杂度与集合的大小v成比例，即复杂度是O(v)。对于语言建模，集合是整个词汇表，其可能非常大，并且RNN计算可以包括大量矩阵向量乘法和复杂的SoftMax操作以创建概率分布向量，其可以提供序列中下一项的类的指示。

申请人还认识到，可以通过经由更轻的距离计算替换大量矩阵向量乘法来创建指示序列中的下一项的类别的类似概率分布向量，其中计算复杂度为O(d)，其中d远小于v。在语言建模中，例如，与词汇表大小v为170,000相比，d可以选择为100(或200、500等)。可以意识到，向量矩阵计算可以由美国专利公开US 2017/0277659的系统实现。

现在参考的图2是根据本发明构造和可操作的神经网络输出处理器系统200的示意图，该系统包括神经网络210、输出处理器220和关联存储器阵列230，。

关联存储器阵列230可以存储用于执行RNN的计算所需的信息，并且可以是多用途关联存储器设备，诸如在美国专利No.8,238,173(题为“USING STORAGE CELLS TO PERFORMCOMPUTATION”)；2015年1月1日提交的题为“NON-VOLATILE IN-MEMORY COMPUTING DEVICE”的美国专利申请No.14/588,419；2014年11月27日提交的美国专利申请No.14/555,638(题为“IN-MEMORY COMPUTATIONAL DEVICE”)；美国专利No.9,558,812(名称为“SRAM MULTI-CELL OPERATIONS”)和2017年7月16日提交的美国专利申请15/650,935(名称为“IN-MEMORYCOMPUTATIONAL DEVICE WITH BIT LINE PROCESSORS”)(其全部转让给本发明的共同受让人并且通过引用结合于此)中描述的那些。

神经网络210可以是接收输入向量x并提供输出向量h的任何神经网络封装。输出处理器220可以接收向量h作为输入，并且可以创建包含集合上每个项的概率分布的输出向量y。对于集合中的每个可能项，输出向量y可以提供其作为序列中的预期项的类别的概率。例如，在单词建模中，下一个预期项的类可以是句子中的下一个单词。参考图7-图10来详细描述输出处理器220。

现在参考的图3是根据本发明的实施例构造和可操作的RNN计算系统300的示意图，所述RNN计算系统300包括RNN处理器310和关联存储器阵列230。

RNN处理器310还可以包括神经网络封装210和输出处理器2。神经网络封装210还可以包括输入排列器320、隐藏层计算机330和交叉熵(CE)损失优化器350。

在一个实施例中，输入排列器320可以接收要分析的项的序列(单词序列、图序列、符号序列等)，并且可以将序列中的每个项变换为可以适合RNN的形式。例如，用于语言建模的RNN可能需要处理非常大量的词汇(如上所述，例如，英语词汇表的大小v是大约170,000个单词)。用于语言建模的RNN可以接收多个单热向量作为输入，每个单热向量表示单词序列中的一个单词。可以意识到，表示英语单词的单热向量的大小v可以是170,000比特。输入编排器320可以将大输入向量变换为可以用作RNN的输入的较小尺寸的向量。

隐藏层计算机330可以使用任何可用的RNN封装来计算隐藏层中的激活的值，并且CE损失优化器350可以优化损失。

现在参考的图4是根据本发明的实施例构造和可操作的输入编排器320的示意图。输入编排器320可以接收稀疏向量作为输入。向量可以是单热向量s_x，表示来自v个可能项的集合的特定项，并且可以创建表示来自集合的相同项的更小的向量d_x(其大小为d)。输入编排器320可以使用尺寸为d×v的矩阵L来执行向量s_x到向量d_x的变换。矩阵L可以在训练RNN之后在每个列k中包含表征集合的项k的一组特征。矩阵L可以称为输入嵌入矩阵或输入字典，并在等式4中定义：

d_x＝L*s_x等式4

输入编排器320可以最初在相关存储器阵列230的第i部分的第一行中存储矩阵L的行L_i-。输入编排器320可以同时将输入向量s_x的比特i分配给部分i的第二行的每个计算列j。输入编排器320可以在所有部分i和所有计算列j中同时将值L_ij乘以s_x_j，如箭头410所示。输入编排器320然后可以每计算列j在所有部分中添加乘法结果p_ij，如箭头520所示，以提供等式4的输出向量d_x。

现在参考的图5是隐藏层计算机330的示意图。隐藏层计算机330可以包括任何可用的神经网络封装。隐藏层计算机330可以基于在时间t处的其密集表示中的输入向量，d_x_t以及在时间t-1处的激活的先前值h_t-1来计算在时间t处隐藏层中的针对激活h_t的值，根据等式5：

h_t＝σ(W*h_t-1+U*d_x_t+b) 等式5

如上所述，h的大小d可以预先确定，并且是嵌入矩阵L的较小尺寸。σ是在结果向量的每个元素上操作的非线性函数，例如S形函数。W和U是预定义的参数矩阵，而b是偏置向量。W和U通常可以初始化为随机值，并且可以在训练阶段期间更新。可以定义参数矩阵W(m×m)和U(m×d)的尺寸以及偏置向量b(m)以分别拟合h和d_x的大小。

隐藏层计算机330可以使用密集向量d_x和前一步骤的RNN的结果h_t-1来计算在时间t处的隐藏层向量的值。隐藏层的结果是h。h的初始值是h₀，它可以是随机的。

现在参考的图6是根据本发明的实施例构造和课操作的输出处理器220的示意图。

输出处理器可以使用线性模块610，以用于布置向量h(隐藏层计算机330的输出)以适合集合的大小v，接着是非线性模块620以创建针对每个项的概率，从而来创建输出向量y_t。线性模块610可以实现线性函数g，并且非线性模块620可以实现非线性函数f。可以根据等式6来计算概率分布向量y_t：

y_t＝f(g(h_t))等式6

线性函数g可以将具有大小为m的接收嵌入向量h(由隐藏层计算机330创建)变换为大小为d的输出向量。在嵌入向量h的变换期间，线性函数g可以在向量h的位置k中创建极值分数值h_k(最大值或最小值)。

现在参考的图7A是线性模块610A的示意图，线性模块610A可以通过由标准封装实现的标准变换器710提供线性变换。

标准变换器710可以由标准封装提供，并且可以使用等式7将嵌入向量h_t变换为大小为v的向量：

g(h_t)＝(H*h_t+b) 等式7

其中H是输出表示矩阵(v×m)。矩阵H的每一行可以存储在训练期间学习的一个项(在集合中的)的嵌入，并且向量b可以是大小为v的偏差向量。矩阵H可以被初始化为随机值并且可以在训练阶段期间更新，以最小化交叉熵损失，如本领域中已知的。

可以意识到，向量h_t乘以矩阵H的行j(存储每个分类项j的嵌入向量)可以提供标量分数，该标量分数指示每个分类项j与由向量h_t表示的未分类对象之间的相似性。分数越高，向量越相似。结果g(h)是具有分数的向量(大小为v)，该分数指示针对每个位置j输入项与矩阵H的行j中的项之间的相似性。具有最高分数值的g(h)中的位置k指示矩阵H中的项k(将每个项的嵌入存储在集合中)作为未分类项的类。

还可以意识到，H*h_t需要重矩阵向量乘法运算，因为H具有v行，每行存储特定项的嵌入，并且v是整个集合(词汇表)的大小，如已经指出的，可以非常大。计算所有内部乘积(在H和h_t中的每一行之间)在训练期间可能变得非常慢，即使在利用现代GPU时也是如此。

申请人已经意识到输出处理器220可以利用存储器阵列230来显著降低线性模块610的计算复杂度。

现在参考的图7B是根据本发明的实施例构造和可操作的线性模块610B的示意图。距离变换器720可以计算输出嵌入向量h和作为输出嵌入矩阵O的列存储的每个项j之间的距离，如等式8中所定义的，而不是将其乘以大矩阵H：

(g(h_t))_j＝distance((M*h_t+c)-O_-j) 等式8

其中(g(h_t))_j是针对输出嵌入矩阵O的列j计算的标量，并且可以提供h_t和矩阵O的向量j之间的距离分数。向量h_t的大小可以不同于列的大小。因此，可能需要尺寸调整矩阵M，用于将嵌入向量h_t的大小调整为O的大小，以实现距离计算。M的尺寸可以是d×m，远小于标准变换器710中使用的H的尺寸，并且因此，距离变换器720的计算可以比标准变换器710的计算快得多且资源消耗更少。向量c是偏差向量。

可以将输出嵌入矩阵O被初始化为随机值，并且可以在训练会话期间更新。输出嵌入矩阵O可以在每个列j中存储项j(集合中的)的计算的嵌入。输出嵌入矩阵O可以类似于输入编排器320(图4)使用的输入嵌入矩阵L，并且甚至可以与L相同。可以理解，矩阵O，当在除语言建模之外的应用中使用时，可以在每列j中存储项j的特征。

可以使用任何距离或相似性方法(例如L1或L2范数、汉明距离、余弦相似性或任何其他相似性或距离方法)来计算未分类对象与分类对象的数据库之间的距离以计算由h_t定义的未分类对象与存储在矩阵O中的分类对象数据库之间的距离或者相似性。

范数是距离函数，其可以向向量空间中的每个向量分配严格的正值，并且可以提供数值以表达向量之间的相似性。可以在h_t和矩阵O的每个列j(由O_-j表示)之间计算范数。输出嵌入矩阵O是对矩阵H的模拟，但是可以被不同地训练并且可以具有不同数量的列。

将隐藏层向量h乘以尺寸调整矩阵M的结果可以创建具有与矩阵O的列的大小相同的大小的向量o，使得实现在距离的计算期间从矩阵O的每列减去向量o。可以意识到，距离变换器720可以将偏置向量c添加到结果向量o，并且为了简单起见，结果向量仍然可以称为向量o。

如已经提到的，距离变换器720可以使用L1或L2范数来计算距离。可以理解，L1范数，称为“最小绝对偏差”范数，定义目标值和估计值之间的绝对差值，而L2范数，称为“最小平方误差”范数，是目标值与估计值之间的差异的平方的和。每个距离计算的结果是标量，并且所有计算的距离的结果(向量o与矩阵O的每列之间的距离)可以提供向量g(h)。

距离计算可以提供标量分数，该标量分数指示输出嵌入向量o与存储在矩阵O的列j中的项之间的差异或相似性。当通过范数计算距离时，分数越低，向量更相似。当通过余弦相似度计算距离时，分数越高，向量越相似。得到的向量g(h)(大小为v)是分数的向量。具有极端(最低或最高)分数值的分数向量g(h)中的位置k(取决于距离计算方法)可以指示矩阵O中的项k(存储在集合中的每个项的嵌入)是未分类项h_t的类。

现在参考的图8是存储器阵列230中的矩阵M和矩阵O的数据排列的示意图。距离变换器720可以利用存储器阵列230使得一个部分230-M，可以存储矩阵M，并且另一部分230-O可以存储矩阵O。距离变换器720可以将矩阵M的每一行i存储在存储器阵列部分230-M的第i部分的第一行中(矩阵M的列j的每个比特i可以存储在不同部分i的相同计算列j中)如箭头911、912和913所示。

类似地，距离变换器720可以将矩阵O的每一行i存储在存储器阵列部分230-O的第i部分的第一行中，如箭头921、922和923所示。

现在参考的图9是向量h的数据排列和由距离变换器720执行的计算步骤的示意图。距离变换器720还可以包括向量调整器970和距离计算器980。向量调整器970可以将嵌入向量h_t的每个比特i分配给存储器阵列部分230-M的第i部分的第二行的所有计算列，使得向量h_t的比特i被重复地存储在部分i的整个第二行的中，在相同部分中存储矩阵M的行i。比特h1可以被分配到部分1的第二行，如箭头911和912所示，并且比特hm可以被分配到部分m的第二行，如箭头921和922所示。

向量调整器970可以同时在所有部分中的所有计算列上将M_ij乘以h_i并且可以将结果p_ij存储在第三行中，如箭头950所示。向量调整器970可以在所有计算列上同时添加p_i的值以产生向量o的值o_i，如箭头960所示。

一旦针对嵌入向量h_t计算了向量o，距离变换器720可以将偏差向量c(图中未示出)添加到结果向量o。

距离变换器720可以将向量o分布到存储器阵列部分230-O，使得每个值o_i被分配到部分i的整个第二行。如箭头931和932所示，位o1可以被分配到部分1的第二行，并且位od可以被分配到部分d的第二行，如箭头933和934所示。

距离计算器980可以同时在所有部分中的所有计算列上从O_ij中减去o_i以创建距离向量。然后，距离计算器980可以通过计算L1或L2或每个结果向量的任何其他距离计算来完成g(h)的计算，并且可以提供结果g(h)作为输出，如箭头941和942所示。

可以意识到，在另一个实施例中，距离变换器720可以将向量o的每个相加结果o_i直接写在存储器阵列部分230-O中的最终位置上。

系统300(图3)可以在推断阶段期间使用2015年1月12日提交的标题为“MEMORYDEVICE”并公布为US 2015/0200009的美国专利申请14/594,434(其通过引用并入本文)的系统找到向量g(h)中的极值(最小或最大)值以确定预期的下一项的类别。

非线性模块620(图6)可以实现非线性函数f，其可以将由线性函数g创建并且存储在g(h)中的任意值变换为概率。例如，函数f可以是SoftMax操作，并且在这种情况下，非线性模块620可以使用2017年10月15日提交的并且名称为“PRECISE EXPONENT AND EXACTSOFTMAX COMPUTATION”的美国专利申请15/784,152的Exact SoftMax系统(其通过引用并入本文)。

附加地或替代地，RNN计算系统300可以利用2017年7月7日提交的名称为“FINDINGK EXTREME VALUES IN CONSTANT PROCESSING TIME”的美国专利申请15/648,475，来在需要几个结果而不是一个结果时在推理期间找到k-最近邻居。RNN计算系统300的这种使用的示例可以是波束搜索，其中非线性模块620可以由KNN模块替换以找到具有极值的k个项，每个项表示针对未分类项的潜在类别。

CE损失优化器350(图3)可以在学习阶段期间使用任何标准封装来计算交叉熵损失，并且可以使用等式9来优化它：

在y_t是预期输出的单热向量的情况下，y_expected是在每个位置k中存储位置k中的项是未分类的预期项的类别的概率的概率向量。

现在参考的图10是由RNN计算系统300(图3)执行的根据本发明可操作的示意性流程1000，RNN计算系统300包括在系统200的神经网络210和输出处理器220内执行的步骤。在步骤1010中，RNN计算系统300可以通过将稀疏向量s_x乘以输入嵌入矩阵L来将该稀疏向量变换为密集向量d_x。在步骤1020中，RNN计算系统300可以使用参数矩阵U和W在密集向量d_x上运行隐藏层计算机330来计算隐藏层向量h。

在步骤1030中，RNN计算系统300可以使用尺寸调整矩阵M将隐藏层向量h变换为输出嵌入向量o。在步骤1032中，计算系统300可以用KNN替换RNN计算的部分。这在推理阶段期间特别有用。在步骤1040中，RNN计算系统300可以计算嵌入向量o与输出嵌入矩阵O中的每个项之间的距离，并且可以利用步骤1042来找到最小距离。在步骤1050中，RNN计算系统300可以使用诸如SoftMax的非线性函数来计算和提供概率向量y，如步骤1052中所示，并且在步骤1060中，计算系统300可以在训练会话期间优化损失。本领域技术人员可以意识到，所示的步骤不是限制性的，并且可以用更多或更少的步骤，或用不同顺序的步骤，或用它们的任何组合来实施该流程。

可以意识到，使用距离变换器720的RNN的总复杂度低于使用标准变换器710的RNN的复杂度。计算线性部分的复杂度是O(d)而当v非常大时标准RNN计算的复杂度是O(v)。由于d远小于v，因此O(d)的复杂度可以节省很多。

还可以意识到，使用RNN计算系统300的RNN的总复杂度可以小于现有技术，因为SoftMax、KNN和找到最小值的复杂度是恒定的(O(1))。

虽然本文已经说明和描述了本发明的某些特征，但是本领域普通技术人员现在将想到许多修改、替换、改变和等同物。因此，应该理解，所附权利要求旨在覆盖落入本发明的真正精神内的所有这些修改和变化。

Claims

1.一种用于神经网络的方法，所述方法包括：

同时计算所述神经网络的输出特征向量与多个有限特征向量中的每一个之间的距离向量，其中，所述输出特征向量描述未分类项，并且所述多个有限特征向量中的每一个描述分类项的集合中的一个分类项；

同时计算针对每个距离向量的相似度分数；以及

创建多个计算的相似性分数的相似性分数向量。

2.如权利要求1所述的方法，还包括通过同时将所述神经网络的输入向量乘以输入嵌入矩阵的多个列来减小所述输入向量的大小。

3.如权利要求1所述的方法，还包括同时激活所述相似性分数向量的所有元素上的非线性函数，以提供概率分布向量。

4.如权利要求3所述的方法，其中，所述非线性函数是SoftMax函数。

5.如权利要求3所述的方法，还包括找到所述概率分布向量中的极值以找到与所述未分类项最相似的分类项，其计算复杂度为O(1)。

6.如权利要求1所述的方法，还包括激活所述相似性分数向量上的K-最近邻(KNN)函数，以提供与所述未分类项最相似的k个分类项。

7.一种用于神经网络的系统，所述系统包括：

由行和列组成的关联存储器阵列；

输入编排器，其用于存储关于所述关联存储器阵列中的未分类项的信息，以操纵所述信息并且创建对所述神经网络的输入；

隐藏层计算机，其用于接收所述输入并且用于在所述神经网络中运行所述输入以计算隐藏层向量；以及

输出处理器，其用于将所述隐藏层向量变换为输出特征向量，以在所述关联存储器阵列内同时计算所述输出特征向量与多个有限特征向量中的每一个之间的距离向量，每个有限特征向量描述一个分类项，并且用于在所述关联存储器阵列内同时计算针对每个距离向量的相似性分数。

8.如权利要求7所述的系统，并且还包括所述输入编排器，其用于减小所述信息的尺寸。

9.如权利要求7所述的系统，其中，所述输出处理器还包括线性模块和非线性模块。

10.如权利要求8所述的系统，其中，所述非线性模块实现SoftMax函数以根据所述相似性分数的向量来创建概率分布向量。

11.如权利要求10所述的系统，还包括极值查找器，其用于在所述概率分布向量中找到极值。

12.如权利要求8所述的系统，其中，所述非线性模块是k-最近邻模块，以提供与所述未分类项最相似的k个分类项。

13.如权利要求8所述的系统，其中，所述线性模块是距离变换器，其用于产生所述相似性分数。

14.如权利要求13所述的系统，其中，所述距离变换器包括向量调整器和距离计算器。

15.如权利要求14所述的系统，所述距离变换器用于将调整矩阵的列存储在所述存储器阵列的第一计算列中，并且用于将所述隐藏层向量分配给每个计算列，并且所述向量调整器用于计算所述第一计算列内的所述输出特征向量。

16.如权利要求15所述的系统，所述距离变换器用于最初将输出嵌入矩阵的列存储在所述关联存储器阵列的第二计算列中，并且用于将所述输出特征向量分配给所有所述第二计算列，并且所述距离计算器用于计算所述第二计算列内的距离向量。

17.一种用于将由特征的未分类的向量描述的未分类项与多个分类项进行比较的方法，每个分类项由特征的分类向量描述，所述方法包括：

同时计算所述未分类向量与每个所述分类向量之间的距离向量；以及

同时计算针对每个距离向量的距离标量，每个距离标量提供所述未分类项与所述多个分类项中的一个分类项之间的相似性分数，由此创建包括多个距离标量的相似性分数向量。

18.如权利要求17所述的方法，还包括激活所述相似性分数向量上的非线性函数以创建概率分布向量。

19.如权利要求18所述的方法，其中，所述非线性函数是SoftMax函数。

20.如权利要求18所述的方法，并且还包括找到所述概率分布向量中的极值以找到与所述未分类项最相似的分类项。

21.如权利要求18所述的方法，并且还包括激活所述相似性分数向量上的K-最近邻(KNN)函数，以提供与所述未分类项最相似的k个分类项。