CN110796190B

CN110796190B - 具有深度学习特征的指数建模

Info

Publication number: CN110796190B
Application number: CN201911036166.8A
Authority: CN
Inventors: M.温特劳布; A.T.苏雷什; E.瓦里亚尼
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-10-29
Filing date: 2019-10-29
Publication date: 2024-03-19
Anticipated expiration: 2039-10-29
Also published as: CN110796190A; US11568260B2; US20230186096A1; US11922322B2; US20200134466A1

Abstract

本公开的各方面使得人为指定的关系能够有助于实现映射，该映射使得能够压缩机器学习模型的输出结构。诸如最大熵模型的指数模型可以利用机器学习嵌入和映射来产生分类输出。以这种方式，可以将机器学习模型(例如，深度网络)的特征发现功能与基于人类对待解决问题的结构性质的理解而开发的关系进行协同组合，从而使得能够压缩模型输出结构，而没有明显的精度损失。这些压缩模型提高了“设备上”或其他资源受限场景的适用性。

Description

具有深度学习特征的指数建模

优先权要求

本申请要求于2018年10月29日提交的标题为“Exponential Modeling with DeepLearning Features”的美国专利申请序列号62/752,128的优先权，其全部公开内容通过引用合并于此。

技术领域

本公开总体上涉及机器学习。更具体地，本公开涉及机器学习模型，包括利用输出类别和嵌入参数之间的映射以提供压缩增益的指数模型(例如，最大熵模型)。

背景技术

各种形式的机器学习模型已经彻底改变了机器智能的许多领域。作为一个早期的示例，在过去的某个时刻，最大熵模型在自然语言处理和其他技术领域提供了最先进的性能。最大熵模型遵循以下原则：模型应根据给定信息提供尽可能少的偏差估计；也就是说，对于丢失信息最大程度地不置可否。然而，最近，人工神经网络(“神经网络”)已为包括自然语言处理在内的许多问题领域提供了最先进的解决方案。取代最大熵建模作为学习算法的一个主要原因是最大熵模型要使用的特征是手工的，而不是自动学习的。

神经网络是一类机器学习模型，特别强大、准确或高效执行各种任务。神经网络可以包括一组连接节点，也可以被称为(人工)神经元或感知器。神经网络可以被组织成一层或多层。神经网络的节点可以与边连接，并且权重可以与每个边相关联。

包含多层的神经网络可以被称为“深度”网络。深度网络可以包括输入层、输出层以及位于输入层和输出层之间的一个或多个隐藏层。神经网络的节点可以完全连接或不完全连接。示例神经网络包括前馈神经网络、递归神经网络、卷积神经网络、其他形式的人工神经网络或其组合。

如今，无数的应用都使用了各种机器学习模型，诸如神经网络。然而，它们的准确性部分源于具有大量参数，这些参数会导致较高的计算和内存开销。作为一个示例，典型的神经网络可能包括大量的权重(例如，一万到一千万到一亿)，这些权重都可以具有唯一的值。存储和运行神经网络通常需要存储这些值中的每一个，并且使用这些值中的每一个执行数学运算，这需要大量的存储器和处理器使用。

在使用机器学习模型作为分类器将输入分类为大量不同的可能类别的情况下，此问题会更加严重。特别地，用作分类器的机器学习模型通常将具有输出层(例如，softmax层)或其他输出结构，为每个可用类别提供相应输出值，对于特定任务，这可能是非常大的数量。作为一个示例，用于执行“下一个单词预测”或其他自然语言处理任务的神经网络通常会具有输出层，其包括的节点数量等于在与分类器相关的词汇表中包括的单词数量，在某些情况下可能包括大约一百万个单词。由于手机上当前不适合使用较大的词汇量，因此手机上的当前应用将词汇量减少到数万个单词。驻留在云中的服务器上的模型在应用的词汇表中可能有数百万个单词。因此，在这些情况下，超大比例的网络参数可以位于网络和相关结构的输出层中。

此外，随着网络和硬件变得更好和更快，许多计算都转移到了“设备上”范式，其中机器学习模型在嵌入式设备、用户设备、边缘设备或其他形式的“资源受限”设备上被本地存储和实现，从而提供了更快的响应时间以及更好的安全性和隐私保证。特别是，如果可以在移动设备和其他资源受限的设备(诸如智能设备或嵌入式设备)上存储和运行这些网络(并因此获得其准确性益处)，将是有益的。然而，由于存储和运行网络需要大量计算资源(诸如处理资源和存储器资源)，它们在资源受限环境/设备中的使用受到一定程度的限制。

这样，已经提出了“压缩”机器学习模型以减少其计算和存储器开销的各种技术，并取得了一些成功。然而，迄今为止，对于输出到非常大量不同可能类别的模型的输出层，实现压缩增益的有效解决方案尚未确定。

发明内容

本公开的实施例的各方面和优点将在以下描述中部分地阐述，或者可以从描述中获悉，或者可以通过实施例的实施而获知。

本公开的一个示例方面针对一种计算机系统，包括：一个或多个处理器；以及一个或多个非暂时性计算机可读介质，共同存储机器学习分类模型，所述机器学习分类模型被配置为基于输入数据集合生成分类输出，所述分类输出包括分别对于多个离散类别的多个分类分数。每个离散类别的分类分数指示输入数据对应于离散类别的可能性。机器学习分类模型包括嵌入模型和指数模型。嵌入模型被配置为接收输入数据集合并基于输入数据集合产生嵌入。所述嵌入包括分别用于在嵌入模型的最终层中包括的多个参数的多个参数值。参数值的数量小于离散类别的数量。指数模型被配置为接收嵌入并应用映射以生成分类输出。映射描述在嵌入模型的最终层中包括的多个参数与多个离散类别之间的多个关系。

在一些实现方式中，指数模型包括最大熵模型。

在一些实现方式中，多个关系为多个离散类别中的每一个指定这种离散类别被映射到的多个参数中的一个或多个。

在一些实现方式中，对于多个离散类别中的每一个，指数模型至少部分地基于提高到这种离散类别通过映射被映射到的参数值的第一和的幂除以所有可能输出值之和来确定其相应分类分数。

在一些实现方式中，至少一个离散类别被映射到在嵌入模型的最终层中包括的两个或更多个参数。

在一些实现方式中，在嵌入模型的最终层中包括的至少一个参数被映射到两个或更多个离散类别。

在一些实现方式中，通过映射描述的多个关系中的至少一个是用户特定的。

在一些实现方式中，确定性地分配通过映射描述的多个关系中的至少一个。

在一些实现方式中，多个关系中的至少一个根据启发式生成。

在一些实现方式中，多个关系中的至少一个是机器学习的。

在一些实现方式中，多个离散类别包括在词汇表中包括的多个离散单词。

在一些实现方式中，通过映射描述的多个关系中的至少一个基于每个离散单词中的一个或多个特定字符的存在。

在一些实现方式中，通过映射描述的多个关系中的至少一个基于每个离散单词中两个或更多个字符的特定字符串的存在。

在一些实现方式中，输入数据集合包括将被分类的单词周围的一个或多个单词。

在一些实现方式中，多个离散类别包括可用于推荐系统选择的多个离散项。

在一些实现方式中，多个离散类别包括多个对象。

在一些实现方式中，通过映射描述的多个关系中的至少一个基于多个离散类别的子集之间的共享特性。

在一些实现方式中，嵌入模型包括神经网络。

在一些实现方式中，嵌入模型包括递归神经网络。

在一些实现方式中，嵌入模型包括卷积神经网络。

在一些实现方式中，嵌入模型包括结构上位于嵌入模型的最终层之前的一个或多个附加层，以使嵌入模型的最终层不直接接收输入数据集合。

在一些实现方式中，嵌入模型的最终层直接接收输入数据集合，以使最终层是嵌入模型的唯一层。

在一些实现方式中，嵌入模型的最后一层的多个参数是用户特定的超参数。

在一些实现方式中，在给定输入数据集合的情况下，每个离散类别的分类分数指示该类别的概率。

在一些实现方式中，已经使用监督学习技术在标记的训练数据集合上训练了机器学习分类模型。

在一些实现方式中，监督学习技术包括根据映射通过多个参数反向传播损失函数的梯度。

本公开的其他方面针对各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。

参照以下描述和所附权利要求，将更好地理解本公开的各种实施例的这些和其他特征，方面和优点。并入本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例，并且与描述一起用于解释相关原理。

附图说明

在参照附图的说明书中阐述了针对本领域普通技术人员的实施例的详细讨论，在附图中：

图1描绘了根据本公开的示例实施例的示例机器学习分类模型的框图。

图2A描绘了根据本公开的示例实施例的示例计算系统的框图。

图2B描绘了根据本公开的示例实施例的示例计算设备的框图。

图2C描绘了根据本公开的示例实施例的示例计算设备的框图。

在多个附图中重复的附图标记旨在识别各种实现方式中的相同特征。

具体实施方式

概述

通常，本公开针对利用了深度学习与指数建模结构(例如，最大熵模型)的组合所提供的益处的机器学习模型。更具体地，如上所述，已取代最大熵建模作为学习算法的一个主要原因是最大熵模型要使用的特征是手工的，而且与神经网络不同，不是自动学习的。然而，本公开证明了诸如最大熵建模的指数建模技术可以与深度学习建模相结合以实现益处的独特组合。

特别是，对于许多任务，深度学习模型通常以softmax层结束，softmax层用于概率的分类或条件估计。然而，根据本公开的一方面，如果代替地认为深度学习模型的输出、例如刚好在softmax层之前存在的嵌入或logit向量可用于特征建模，则可以实现两种建模形式的益处。特别地，可以由深度学习网络自动学习特征，同时可以通过至少部分地根据人类知识关于待解决问题的结构建立关系来在输出层中获得压缩增益。这提供了结合深度学习的特征发现机制使用指数模型的灵活性。与以标准softmax层结束的深层网络相比，两种建模技术的结合对于输出的更复杂建模非常有用。

根据本公开的一方面，机器学习模型可以包括嵌入模型(例如，神经网络)和指数模型(例如，最大熵模型)两者。嵌入模型可以基于输入数据集合产生嵌入。在一些实现方式中，嵌入模型可以包括或类似于位于指数softmax层之前的神经网络的部分。这样，在一些实现方式中，嵌入可以包括由嵌入模型的最后一层输出的数据，其可以包括或类似于由深度神经网络的最后一层在特征取幂之前(例如，softmax层之前的最后一层)输出的数据。

指数模型可以利用并应用描述输出类别与由嵌入模型产生的嵌入参数之间的关系的映射，以基于嵌入(例如，基于最大熵特征的共享)来产生分类输出。例如，分类输出可以对多个离散类别分类输入数据。

重要的是，在嵌入中包括的参数的数量可能明显小于可能输出类别的数量(例如，约～1k特征输出与约～1M的softmax输出类别)。这样，从嵌入到输出类别的映射可以被称为“很少到很多(few to many)”映射。以这种方式，因为不需要模型具有输出层——该输出层对每个不同输出类别具有节点(例如，～1M节点)——或权重集合以从上游表示计算输出，所以可以实现显著的压缩增益。然而，可以将映射和指数函数应用于嵌入，以直接从嵌入产生每个离散类别的分类输出。因此，本公开的示例实现方式可以被视为将每个离散输出需要单独的唯一特征的传统深度神经网络改变为将每个离散输出描述为来自深度神经网络输出的特征的唯一组合的情况。

根据本公开的另一方面，在一些实现方式中，在嵌入参数和离散类别之间定义的至少一些关系可以基于人类知识或对待解决问题的理解或从中生成。因此，在映射中包括的部分或全部关系可以是用户定义的或建立的。特别地，可以定义的示例关系通常可以利用人类对一个或多个类别的共享或区别特性或属性的理解，从而使它们能够与其他类别进行比较或区分。手动生成特征的这种创建是深度学习建模取代最大熵建模的原因。然而，本公开开发了一种方式，其中这些手工生成的特征可以创建用于类别输出的结构，而不是仅仅任意符号的长序列。

作为一个示例，对于自然语言处理任务，输出类别集合可以对应于词汇表中的单词集合(例如，“they”、“cat”、“bat”、“car”、“moose”等)。可以定义许多不同的关系，这些关系利用人类对语言结构的理解。作为一个示例，可以将包括字符“a”的所有单词(即，类别)映射到嵌入的第一参数。因此，单词“cat”、“bat”和“car”将被映射以共享第一参数的值，而单词“they”和“moose”将不被映射为使用该第一参数的值。作为另一个示例，具有两个字符的串“at”的所有单词都可以被映射到嵌入的不同的第二参数。因此，单词“cat”和“bat”都将被映射为共享第二参数的值，而单词“they”、“car”和“moose”将不映射为共享第二参数的值。因此，在此示例中，单词“cat”不再是单个“cat”参数或神经元的结果，而是多种特征的总和，例如：“c”特征值、“a”特征值、“t”特征值、“ca”特征值、“at”特征值和“cat”特征值。

在其他非语言示例中，可以将可能输出类别的各种其他特性映射到一个或多个参数。作为一个示例，在书籍推荐系统中，可以将共享作者的第一书籍子集映射为共享第一参数的值，而将共享出版年份的第二书籍子集映射到第二参数，并且以此类推。作为又一个示例，在对象识别系统中，具有眼睛的对象的第一子集可以被映射到第一参数，而颜色为绿色的对象的第二子集可以被映射到第二参数。因此，可以定义各种关系，其利用人类对与待解决问题相关联的结构的理解并从中受益。当前的深度神经网络不使用诸如上述的任何结构。正是这种能力将人或机器创建的结构强加到了深度神经网络上，从而允许得到的系统大大减少了参数数量。通过诸如作者、出版年份、书籍长度、小说类型、是否是诗歌、是否是新闻等特征来描述书，使得允许以非常紧凑的表示形式描述以前只是数字的对象：例如“Book ISBN#0553278398”。与其ISBN号相比，描述这本书的作者是“Isaac Asimov”，并且是book_type：“科幻小说”给人更加直观地感觉到这本书的可能性。

此外，尽管本公开的部分关注于人为指定的关系，但是本公开的系统和方法不限于人为指定的关系。例如，在一些实现方式中，除了人为指定的关系之外或作为替代，可以通过机器学习或由算法产生类别和嵌入参数之间的关系。作为另一示例，在一些实现方式中，除了人为指定的关系之外或作为替代，可以随机地分配类别和嵌入参数之间的关系。作为另一个示例，特征可以由计算机生成。例如，搜索词语“相机”的人也搜索了词语“三脚架”。因此，这两个词可以被分配它们应共享的特征。

另外，尽管可以基于人类对待解决问题的结构和/或输出类别的共享或区分特性的理解或由该理解来指导最初定义在映射中包括的关系，但是嵌入模型在定义了这种关系之后学习其内部参数和表示的能力意味着嵌入模型不被特定约束来满足关系背后的确切人类直觉。而是，在学习处理期间，嵌入模型具有灵活性，以

改变基本含义和/或重新加权各种关系的重要性。

作为示例，对于上面描述的示例关系，其中共享作者的书籍的子集被映射到第一参数，尽管驱动这种关系的人类直觉是基于共享作者的知识，但是不传递该信息来加强对嵌入模型的约束。而是，嵌入模型只学习要将输入分类到在相关组中包括的书籍之一，嵌入模型应增加分配给相应嵌入参数的参数值。因此，嵌入模型自由地学习在人为指定的结构内的其自身关系和特征。这使得人们能够贡献领域特定的结构知识，同时仍然使得能够通过嵌入模型自动学习特征。

换句话说，嵌入模型的约束是，当目标对象是真实标签时，人为定义的特征之和应较大。对象之间的人为定义的关系意味着特征的特定组合集合应较大。在上面的示例中，Isaac Asimov创作的科幻小说是两个特征的总和：作者的名字和书籍的类型。嵌入模型的约束是：当购物者对这本书感兴趣时，这两个特征的总和达到较大值。计算机自由地将其喜欢的任何值分配给作者特征或书籍类型特征。唯一的限制是两者之和很大。

因此，本公开的各方面使得人为指定的关系能够有助于实现映射，使得能够压缩机器学习模型的输出结构。诸如最大熵模型的指数模型可以将机器学习嵌入的特征提取能力与描述待建模的类别的人为设计的特征相结合，以产生分类输出。以这种方式，可以将机器学习模型(例如，深度网络)的特征发现能力与基于人类对待解决问题的结构性质的理解而开发的关系进行协同组合，从而使得能够压缩模型输出结构，而没有明显的精度损失。这些压缩模型提高了“设备上”或其他资源受限场景的适用性。

本公开的各方面还利用以下事实：深度神经网络的softmax层和最大熵公式均是指数模型。这种认识使得本公开的系统和方法能够将最大熵建模技术的各方面结合到深度学习技术中，希望利用两种技术的最佳属性。施加在深度学习softmax上的结构旨在增加模型压缩，从而可以用数量非常少的参数来精确地建模softmax概率，从而得到模型压缩。softmax的此描述与建模的logits部分有关。基于与softmax的这种关系，可以为嵌入矩阵分解处理复制相同处理。

鉴于以上内容，本公开的一个技术效果和益处在于提供机器学习模型，其更有效地使用计算资源(诸如处理器使用、存储器使用、网络带宽等)，从而使得能够将模型应用于资源受限场景。换句话说，本公开的系统和方法使得能够节省计算资源(诸如处理器使用、存储器使用、网络带宽等)，并且进一步使得应用能够在资源受限设备(诸如智能电话、家用电器、嵌入式计算机等)上被部署。

现在参照附图，将进一步详细讨论本公开的示例性实施例。

示例机器学习模型结构

作为本文描述的概念的一个示例，图1提供了根据本文描述的示例方面的利用由机器学习特征与指数建模结构的组合所提供的益处的机器学习模型分类模型10的示例。

特别地，机器学习分类模型10可以被配置为基于输入数据20的集合来生成分类输出24。根据待解决问题的类型，输入数据20可以是任何形式的数据。作为示例，输入数据20可以是图像数据(例如，用于对象识别)、文本数据(例如，用于下一个单词预测)、音频数据(例如，用于语音到文本分析)、传感器数据和/或其他形式的数据。

分类输出24可以分别为多个离散类别(例如，词汇表中的一百万或更多单词)提供多个分类分数。例如，分类分数可以是给出输入数据20作为先前观察的情况下离散类别的相应条件概率。因此，在一些实现方式中，分类输出24不专门选择特定类别，而是简单地为每个类别提供相应概率。可以执行各种技术以从提供的概率中生成分类(例如，选择具有最高概率的类别、选择具有前5个高概率的前5个类别、选择概率大于阈值的任何类别等)。

根据本公开的一方面，机器学习模型分类模型10可以包括嵌入模型12和位于嵌入模型12之后的指数模型14。嵌入模型12可以被配置为接收输入数据20的集合，并且根据输入数据20的集合产生嵌入22。

在一些实现方式中，嵌入模型12可以是多层结构，例如，深度神经网络(例如，深度递归神经网络、卷积神经网络等)。因此，作为示例，图1中示出的嵌入模型12包括N层(示出了第一层16和第N层18)。然而，嵌入模型12可以包括任何数量的层，在一些示例中，仅包括单个层。此外，在一些实现方式中，嵌入模型12可以是除神经网络以外的其他形式的机器学习模型，包括例如支持向量机、线性模型、逻辑回归模型和/或其他形式的模型。

在一些实现方式中，嵌入22可以包括分别用于在嵌入模型12的最终层18中包括的多个参数的多个参数值。作为一个示例，除了嵌入模型不包括softmax层之外，嵌入模型12可以类似于标准神经网络。因此，在一些实现方式中，由嵌入模型12提供的嵌入22可以被称为或类似于神经网络的logits层。然而，在一些实现方式中，映射也可以包括或指来自除嵌入模型12的最终层18之外的层的参数值。因此，可以使用来自嵌入模型12的任何部分的参数值。

在一些实现方式中，嵌入22的参数值本质上可以是数值，并且嵌入22的参数可以存在于通常人类无法理解的嵌入维度内。此外，在一些实现方式中，可以对嵌入模型12进行训练(例如，通过三元组训练方案)以产生嵌入22，其中，两个嵌入之间的距离(例如，欧几里得距离)指示分别与嵌入相关联的输入数据的两个集合之间的相似性。在其他实现方式中，嵌入22不可用于确定输入数据集合之间的相似性。

嵌入22可以包括任何数量的参数。作为两个示例，在一些实现方式中，嵌入22可以包括96个参数或2048个参数。在一些实现方式中，在嵌入22中包括的多个参数可以是用户指定的超参数。例如，用户可以直接指定在嵌入22中包括的多个参数，可以指定在嵌入22中包括的参数的数量和与分类输出24相关联的离散类别的数量之间的比率，或者可以指定要实现的压缩增益(例如，3x、10x、500x等)。

然而，通常，在嵌入22中包括的参数的数量小于计算分类输出24所需的离散参数的数量(例如，～1M对～1B)。以这种方式，可以实现显著的压缩增益。

更具体地，机器学习模型分类模型10也可以包括位于嵌入模型12之后的指数模型14。指数模型14可以被配置为接收嵌入22并应用映射以生成分类模型10的分类输出24。

具体地，根据本公开的另一方面，由指数模型14应用的映射可以描述在嵌入模型12的最终层18中所包括的参数(即，嵌入22的参数)和多个离散类别之间的多个关系。多个关系可以对多个离散类别中的每一个指定这样的离散类别映射到的多个参数中的一个或多个。如上所述，通常，嵌入22的参数的数量将小于离散类别的数量。因此，离散类别中的至少一个将被映射到在嵌入模型12的最终层18中包括的两个或更多个参数，和/或在嵌入模型12的最终层18中包括的至少一个参数被映射到两个或多个离散类别。

根据另一方面，可以由用户定义最终层18的参数与离散类别之间的至少一些关系，并且以这种方式，指数模型可以类似于其中嵌入模型12输出的参数值作为最大熵模型要使用的特征的最大熵模型，或以该最大熵模型的方式操作。因此，在映射中包括的部分或全部关系可以是用户定义或建立的。特别地，可以定义的示例关系通常可以利用人类对一个或多个类别的共享或区别特性或属性的理解，从而使得它们能够与其他类别进行比较或区分。

作为一个示例，对于自然语言处理任务，输出类别的集合可以对应于词汇表中的单词集合(例如，“they”、“cat”、“bat”、“car”、“moose”等)。可以定义利用人类对语言结构的理解的许多不同的关系。下面的表1提供了可以在自然语言处理任务中定义的许多不同示例关系的示例。

	特性	参数#
			关系1	包含'A'	1
关系2	包含'B'	2
			关系3	包含'C'	3
…	…	…
			关系27	包含'AA'	27
关系28	包含'AB'	28
			关系29	包含'AC'	29
…	…	…

表1

仅作为示例提供在表1中包括的示例关系。也可以使用许多其他不同的关系。例如，可以定义其他特性，诸如包含三个字符的串“ing”，或者另一个示例特性可以考虑输入数据是否“紧随在单词‘April’之后”。此外，尽管在每个关系中映射了单个参数编号，但是在一些实现方式中，可以将两个或更多个参数映射到关系中的特性。

在其他非语言示例中，可以将可能输出类别的各种其他特性映射到一个或多个参数。作为一个示例，在书籍推荐系统中，可以将共享作者的第一书籍子集映射到第一参数，而将共享出版年份的第二书籍子集映射到第二参数，依此类推。然而，在某些情况下，唯一作者的数量可能需要太多参数。因此，另一个映射可能会将“作者”特征划分到不同特征集合：作者的名、作者的中间名和作者的姓。这就是使用最大熵模型所提供的灵活性。对于非常少见的作者的姓，作者的姓可以由其姓中的字母序列组成。非常受欢迎的作者有可能会被全名建模。中等受欢迎的作者可能会以其姓和名建模。而且，非常陌生的作者可能会以其姓名中的字符建模。

作为又一个示例，在对象识别系统中，具有眼睛的对象的第一子集可以被映射到第一参数，而颜色为绿色的对象的第二子集可以被映射到第二参数。因此，可以定义各种关系，利用人类对与待解决问题相关联的结构的理解并从中受益。

对于任何离散实体集合，人类可能用来描述那些实体的质量的任何特征集合都可以用作帮助计算机压缩表示形式的结构。这可以是颜色、形状、味道、气味、概念、制造地点、构成产品的材料等。用户可以定义几乎不受限制的特征集合，以将结构强加于离散实体的建模上。如果人们认为特征是相关的(例如，是否在美国制造可能与是否购买产品相关)，则它可能对计算机建模该实体的可能性很有用。由专业艺术品经销商提供的标签(例如，产品为“装饰艺术”、“后现代主义”等)和任何其他类型的标签均可用于施加可用于压缩计算机模型的结构。对最大熵模型如此强大的、人们定义特征的能力现在可以用于将其与使用该技术的深度学习建模相结合。

此外，尽管本公开的部分关注于人为指定的关系，但是本公开的系统和方法不限于人为指定的关系。例如，在一些实现方式中，除了人为指定的关系之外或作为替代，可以通过机器学习或用算法生成类别和嵌入参数之间的关系。在一个示例中，可以执行聚类算法(例如，重叠聚类(overlapping cluster))，并且可以基于聚类成员来分配相应参数。例如，存在尝试学习同义词的计算机程序。然后，计算机标记为同义词的所有单词都可能在建模网络中共享特征。在另一个示例中，可以使用预训练的嵌入模型(例如，预训练以产生嵌入之间的距离表示相似性的嵌入-一个示例可能是Word2vec模型)来将相应嵌入分配给每个离散类别。然后可以基于离散类别的嵌入和基于聚类分配的参数关系对离散类别进行聚类。在另一示例中，可以将一个或多个参数最初分配给每个离散类别，并且可以将这些分配视为可学习参数。因此，可以通过学习算法重新布置和学习映射关系的数量和/或性质。在另一示例中，可以使用量化技术(例如，产品量化)来生成类别量化器，并且每个类别的参数映射可以基于特定类别与一个或多个类别量化器之间的距离。在另一个示例中，可以对离散类别执行主成分分析(PCA)，并且可以基于PCA成分空间内的类别之间的关系来分配每个类别的参数映射(在成分空间内聚类，并基于聚类成员分配参数)。存在许多其他计算机建模技术，诸如奇异值分解、非负矩阵分解以及所有可用于定义建模技术的计算机特征的其他技术。

作为另一示例，在一些实现方式中，除了人为指定的关系之外或可替代地，可以随机地分配类别和嵌入参数之间的关系。作为一个示例，每个离散类别可以被随机映射到两个不同参数。例如，映射可以是伪随机的，使得更常见/可能的类别以更低的频率共享参数；而不太常见/可能的类别以更高的频率共享参数。

再次参照图1，在一些实现方式中，指数模型可以至少部分地基于提高到参数值——这种离散类别通过映射被映射到该参数值——的第一和的幂的第一指数除以提高到所有参数值的第二和的幂的第二指数来确定多个离散类别中的每一个的相应分类分数。

为了提供示例，再次参考表1，其提供了可以包括在示例映射中的关系的示例集合。下面提供的表2提供了将表1中的关系应用于特定示例输入的示例。

单词	映射到参数
		cab	1,2,3,28,…
ab	1,2,28

表2

因此，例如，一起参考表1和表2，单词“cab”映射到参数1、2、3和28，因为它包含字符串“a”、“b”、“c”和“ab”。单词“ab”映射到参数1、2和28，但不映射到参数3，因为它不包含字符串“3”。

如上所述，在一些实现方式中，指数模型可以至少部分地基于提高到参数值——这种离散类别通过映射被映射到该参数值——的第一和的幂的第一指数除以所有可能输出值之和来确定多个离散类别中的每一个的相应分类分数。因此，在某些情况下，对于每个离散类别，指数模型可以估计以下表达式：

其中，l是输出类别c的总数，c_j是第j个离散类别，x_i是嵌入的第i个参数的值，n是包括在嵌入中的参数的总数，且k_j是类别c_j被映射到的参数的集合。

因此，作为示例，根据表1和表2的示例，可以根据以下表达式确定单词“ab”的输出分数：

分类模型10可以是用于任何目的的任何类型的分类模型。作为一个示例，分类模型10可以是下一单词预测模型，并且多个离散类别可以分别对应于在词汇表中包括的多个离散单词。作为另一示例，分类模型10可以是语言翻译模型，并且多个离散类别可以分别对应于在词汇表中包括的多个离散单词。在这些实例中的一些实例中，输入数据20可以包括描述在将被分类/预测的单词附近(例如，在前面)的一个或多个单词的数据。

作为另一示例，分类模型10可以是推荐模型，并且多个离散类别可以对应于基于输入数据10能够被推荐给用户的多个产品或其他项目(例如，电影、书籍、服装项目等)。例如，输入数据20可以描述用户表示认可或与用户交互的先前项目。作为又一个示例，多个离散类别可以对应于可用于识别的多个对象(例如，汽车的类型、狗的品种等)。因此，本公开的各方面可以应用于任何数量的不同情况、情境或用例。

示例设备和系统

图2A描绘了根据本公开的示例实施例的示例计算系统100的框图。系统100包括通过网络180通信地耦合的用户计算设备102、服务器计算系统130和训练计算系统150。

用户计算设备102可以是任何类型的计算设备，例如，个人计算设备(例如，笔记本电脑或台式机)、移动计算设备(例如，智能手机或平板电脑)，游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。

用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如，处理器核、微处理器、ASIC、FPGA、GPU、定制芯片(诸如张量处理单元、控制器、微控制器)等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等，以及它们的组合。存储器114可以存储由处理器112执行的数据116和指令118，以使用户计算设备102执行操作。

在一些实现方式中，用户计算设备102可以存储或包括一个或多个机器学习模型120。例如，机器学习模型120可以是或可以包括各种机器学习模型，诸如神经网络(例如，深层神经网络)或其他类型机器学习模型，包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、递归神经网络(例如，长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。参照图1讨论示例机器学习模型120。

在一些实现方式中，可以通过网络180从服务器计算系统130接收一个或多个机器学习模型120，将其存储在用户计算设备存储器114中，然后由一个或多个处理器112使用或实现。在一些实现方式中，用户计算设备102可以实现单个机器学习模型120的多个并行实例(例如，对输入数据的多个实例执行并行分类)。

附加地或替代地，一个或多个机器学习模型140可以被包括在服务器计算系统130中或由服务器计算系统130存储和实现，服务器计算系统130根据客户端-服务器关系与用户计算设备102进行通信。例如，机器学习模型140可以由服务器计算系统140实现为网络服务(例如，自然语言处理服务)的一部分。因此，可以在用户计算设备102存储和实现一个或多个模型120，和/或可以在服务器计算系统130存储和实现一个或多个模型140。

用户计算设备102也可以包括接收用户输入的一个或多个用户输入组件122。例如，用户输入组件122可以是对用户输入对象(例如，手指或触摸笔)的触摸敏感的触敏组件(例如，触敏显示屏或触摸板)。触敏组件可以用于实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户可通过其提供用户输入的其他装置。

服务器计算系统130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等，以及它们的组合。存储器134可以存储由处理器132执行的数据136和指令138，以使服务器计算系统130执行操作。

在一些实现方式中，服务器计算系统130包括一个或多个服务器计算设备或由一个或多个服务器计算设备实现。在服务器计算系统130包括多个服务器计算设备的情况下，这样的服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合来操作。

如上所述，服务器计算系统130可以存储或包括一个或多个机器学习模型140。例如，模型140可以是或可以包括各种机器学习模型。示例机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。参考图1讨论示例模型140。

用户计算设备102和/或服务器计算系统130可以通过与训练计算系统150交互来训练模型120和/或140，训练计算系统150通过网络180通信地耦合或下载到本地设备。训练计算系统150可以与服务器计算系统130分离，或者可以是服务器计算系统130的一部分。

训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等，以及它们的组合。存储器154可以存储由处理器152执行的数据156和指令158，以使训练计算系统150执行操作。在一些实现方式中，训练计算系统150包括一个或多个服务器计算设备或由一个或多个服务器计算设备实现。

训练计算系统150可以包括模型训练器160，其使用各种训练或学习技术(例如，误差的反向传播)来训练存储在用户计算设备102和/或服务器计算系统130的机器学习模型120和/或140。在一些实现方式中，执行误差的反向传播可以包括随着时间执行截断的反向传播。模型训练器160可以执行多种归纳技术(例如，权重衰减、丢失等)，以提高被训练的模型的归纳能力。

特别地，模型训练器160可以基于训练数据162的集合来训练机器学习的模型120和/或140。训练数据162可以包括例如带标签的训练数据的集合，其包括示例输入数据，标记有基本事实分类(例如，一个或多个离散类别的“正确”概率)。

在一些实现方式中，如果用户已经提供了同意，则训练示例可以由用户计算设备102提供。因此，在这样的实现方式中，提供给用户计算设备102的模型120可以由训练计算系统150在从用户计算设备102接收的用户特定数据上进行训练。在某些情况下，该处理可以被称为个性化模型。

模型训练器160包括用于提供期望功能的计算机逻辑。可以以控制通用处理器的硬件、固件和/或软件来实现模型训练器160。例如，在一些实现方式中，模型训练器160包括存储在存储设备上、加载到存储器中并且由一个或多个处理器执行的程序文件。在其他实现方式中，模型训练器160包括一个或多个计算机可执行指令集合，其存储在有形的计算机可读存储介质中，诸如RAM硬盘或光学或磁性介质。

网络180可以是任何类型的通信网络，诸如局域网(例如，内部网)、广域网(例如，互联网)或其某种组合，并且可以包括任何数量的有线或无线链路。通常，可以使用各种通信协议(例如，TCP/IP、HTTP、SMTP、FTP)，编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTP、SSL)经由任何类型的有线和/或无线连接来承载通过网络180的通信。

图2A示出可用于实现本公开的一个示例计算系统。也可以使用其他计算系统。例如，在一些实现方式中，用户计算设备102可以包括模型训练器160和训练数据集162。在这样的实现方式中，模型120可以在用户计算设备102被本地训练和使用。在一些这样的实现方式中，用户计算设备102可以实现模型训练器160以基于用户特定数据来个性化模型120。

图2B描绘了根据本公开的示例实施例的示例计算设备30的框图。计算设备30可以是用户计算设备或服务器计算设备。

计算设备30包括多个应用(例如，应用1至N)。每个应用包含其自己的机器学习库和机器学习模型(或多个)。例如，每个应用可以包括机器学习模型。示例应用包括文本消息收发应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图2B所示，每个应用可以与计算设备的多个其他组件通信，例如，一个或多个传感器、情境管理器、设备状态组件和/或附加组件。在一些实现方式中，每个应用可以使用API(例如，公共API)与每个设备组件通信。在一些实现方式中，每个应用使用的API特定于该应用。

图2C描绘了根据本公开的示例实施例的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。

计算设备50包括多个应用(例如，应用1至N)。每个应用与中央智能层进行通信。示例应用包括文本消息收发应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实现方式中，每个应用可以使用API(例如，所有应用的通用API)与中央智能层(以及存储在其中的模型(或多个))进行通信。

中央智能层包括多个机器学习的模型。例如，如图2C所示，可以为每个应用提供相应机器学习模型(例如，模型)，并由中央智能层进行管理。在其他实现方式中，两个或更多应用可以共享单个机器学习模型。例如，在一些实现方式中，中央智能层可以为所有应用提供单个模型(例如，单个模型)。在一些实现方式中，中央智能层被包括在计算设备50的操作系统内或由计算设备50的操作系统实现。

中央智能层可以与中央设备数据层通信。中央设备数据层可以是计算设备50的数据集中存储库。如图2C所示，中央设备数据层可以与计算设备的多个其他组件通信，例如，一个或多个传感器、情境管理器、设备状态组件和/或其他组件。在一些实现方式中，中央设备数据层可以使用API(例如，私有API)与每个设备组件通信。

附加公开

本文讨论的技术参考服务器，数据库，软件应用和其他基于计算机的系统，以及对此类系统采取的行动和发送的信息。基于计算机的系统的固有灵活性允许在组件之间进行多种可能的配置，组合以及任务和功能的划分。例如，可以使用单个设备或组件或组合工作的多个设备或组件来实现本文讨论的处理。数据库和应用可以在单个系统上实现，也可以分布在多个系统上。分布式组件可以顺序或并行运行。

尽管已经对本主题的各种特定示例实施例详细描述了本主题，但是每个示例都是通过说明的方式提供的，而不是对本公开的限制。本领域技术人员在理解了前述内容之后，可以容易地对这些实施例进行替换，变型和等同。因此，本公开内容不排除对本主题包括对本领域普通技术人员而言显而易见的这种修改，变化和/或添加。例如，作为一个实施例的一部分示出或描述的特征可以与另一实施例一起使用以产生又一实施例。因此，旨在本公开覆盖这样的变更，变化和等同物。

Claims

1.一种计算机系统，包括：

一个或多个处理器；以及

一个或多个非暂时性计算机可读介质，共同存储机器学习分类模型，所述机器学习分类模型被配置为基于输入数据集合生成分类输出，所述分类输出包括分别用于多个离散类别的多个分类分数，每个离散类别的分类分数指示输入数据对应于离散类别的可能性，其中，输入数据包括文本数据；

其中，机器学习分类模型包括嵌入模型和指数模型的组合；

其中，嵌入模型被配置为接收输入数据集合并基于输入数据集合产生嵌入，其中，所述嵌入包括分别用于在嵌入模型的非softmax最终层中包括的多个参数的多个参数值，使得在嵌入模型的非softmax最终层中包括的参数的数量小于离散类别的数量；以及

其中，指数模型被配置为接收嵌入并应用映射以生成分类输出的多个分类分数，其中，映射描述在嵌入模型的非softmax最终层中包括的多个参数与多个离散类别之间的多个关系，

其中，分类输出与单词集合对应。

2.根据权利要求1所述的计算机系统，其中，指数模型包括最大熵模型。

3.根据权利要求1所述的计算机系统，其中，多个关系为多个离散类别中的每一个指定这种离散类别被映射到的多个参数中的一个或多个。

4.根据权利要求1所述的计算机系统，其中，对于多个离散类别中的每一个，指数模型至少部分地基于提高到这种离散类别通过映射被映射到的参数值的第一和的幂的第一指数除以所有可能输出值之和来确定其相应分类分数。

5.根据权利要求1所述的计算机系统，其中，至少一个离散类别被映射到在嵌入模型的最终层中包括的两个或更多个参数。

6.根据权利要求1所述的计算机系统，其中，在嵌入模型的最终层中包括的至少一个参数被映射到两个或更多个离散类别。

7.根据权利要求1所述的计算机系统，其中，通过映射描述的多个关系中的至少一个是用户特定的。

8.根据权利要求1所述的计算机系统，其中，确定性地分配通过映射描述的多个关系中的至少一个。

9.根据权利要求1所述的计算机系统，其中，多个关系中的至少一个是机器学习的。

10.根据权利要求1所述的计算机系统，其中，多个离散类别包括在词汇表中包括的多个离散单词。

11.根据权利要求10所述的计算机系统，其中，通过映射描述的多个关系中的至少一个基于在每个离散单词中一个或多个特定字符的存在。

12.根据权利要求10所述的计算机系统，其中，通过映射描述的多个关系中的至少一个基于在每个离散单词中两个或更多个字符的特定串的存在。

13.根据权利要求1所述的计算机系统，其中，多个离散类别包括可用于推荐系统选择的多个离散项。

14.根据权利要求1所述的计算机系统，其中，通过映射描述的多个关系中的至少一个基于多个离散类别的子集之间的共享特性。

15.根据权利要求1所述的计算机系统，其中，嵌入模型包括位于嵌入模型的最终层之前的一个或多个附加层，使得嵌入模型的最终层不直接接收输入数据集合。

16.根据权利要求1所述的计算机系统，其中，嵌入模型的最终层直接接收输入数据集合，使得最终层是嵌入模型的唯一层。

17.根据权利要求1所述的计算机系统，其中，嵌入模型的最后一层的多个参数是用户特定的超参数。

18.根据权利要求1所述的计算机系统，其中，已经使用监督学习技术在标记的训练数据集合上训练了机器学习分类模型，其中，监督学习技术包括根据映射通过多个参数反向传播损失函数的梯度。

19.一种计算机实现的方法，包括：

通过一个或多个计算设备获得输入数据集合，其中，输入数据包括文本数据；

通过一个或多个计算设备将输入数据集合输入到机器学习分类模型，所述机器学习分类模型被配置为基于输入数据集合生成分类输出，所述分类输出包括分别用于多个离散类别的多个分类分数，每个离散类别的分类分数指示输入数据对应于离散类别的可能性，其中，机器学习分类模型包括嵌入模型和指数模型的组合，其中，嵌入模型被配置为接收输入数据集合并基于输入数据集合产生嵌入，其中，所述嵌入包括分别用于在嵌入模型的非softmax最终层中包括的多个参数的多个参数值，使得在嵌入模型的非softmax最终层中包括的参数的数量小于离散类别的数量，以及其中，指数模型被配置为接收嵌入并应用映射以生成分类输出的多个分类分数，其中，映射描述在嵌入模型的非softmax最终层中包括的多个参数与多个离散类别之间的多个关系；以及

通过一个或多个计算设备接收机器学习分类模型的分类输出，

其中，分类输出与单词集合对应。

20.根据权利要求19所述的计算机实现的方法，还包括：使用监督学习技术在标记的训练数据集合上训练机器学习分类模型。