CN112925516A

CN112925516A - 用上下文信息进行槽填充

Info

Publication number: CN112925516A
Application number: CN202010995050.3A
Authority: CN
Inventors: A·P·B·维塞赫; F·德农考特
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2019-12-06
Filing date: 2020-09-21
Publication date: 2021-06-08
Also published as: US11494647B2; GB2590531A; DE102020005646A1; US20210174193A1; GB202015736D0; AU2020244577A1; AU2020244577B2; GB2590531B

Abstract

本公开的实施例涉及用上下文信息进行槽填充。描述了一种用于利用口头命令编辑图像的系统、方法和非瞬态计算机可读介质。系统、方法和非瞬态计算机可读介质的实施例可以包括一种人工神经网络(ANN)，人工神经网络包括：字词嵌入组件，其被配置为将文本输入转换成字词向量集合；特征编码器，其被配置为基于字词向量来针对文本输入创建组合特征向量；评分层，其被配置为基于组合特征向量来计算标签分数，其中特征编码器、评分层或两者使用具有损失函数的多任务学习而被训练，损失函数包括第一损失值和附加损失值，附加损失值是根据互信息、基于上下文的预测或基于语句的预测的；以及命令组件，其被配置为基于标签分数来标识图像编辑字词标签集合。

Description

用上下文信息进行槽填充

技术领域

本文一般地涉及图像编辑，并且更具体地涉及利用口头命令编辑图像。

背景技术

可以在各种文本解析应用中使用自然语言处理。例如，图像编辑软件可以接收口头命令并且根据这些命令对图像进行编辑。槽(slot)填充是指一种自然语言处理技术，该自然语言处理技术涉及标识文本内的特定种类的信息。在图像编辑示例中，语句(sentence)中的字词(word)可以与动作、对象、属性以及值相关联。然后可以使用这些字词标签来标识精确命令(即，用以编辑图像的特定属性的命令)。

在许多情况下，字词的含义可以基于语句内的字词的上下文而改变。然而，常规槽填充技术不能充分地解释字词的上下文。这可以导致对口头命令的误解，此误解可以导致实现口头命令中的错误或延迟。因此，在本领域中需要合并字词上下文的槽填充技术。

发明内容

描述了一种用于利用口头命令编辑图像的系统和方法。系统和方法的实施例可以包括一种人工神经网络(ANN)，该人工神经网络具有：字词嵌入组件，其被配置为将文本输入转换成字词向量集合；特征编码器，其被配置为基于字词向量来针对文本输入创建组合特征向量；评分层，其被配置为基于组合特征向量来计算标签分数，其中特征编码器、评分层或两者使用具有损失函数的多任务学习而被训练，损失函数包括第一损失值和附加损失值，该附加损失值是根据互信息、基于上下文的预测或基于语句的预测的；以及命令组件，其被配置为基于标签分数来标识图像编辑字词标签集合。

描述了一种用于训练ANN的系统、方法和非瞬态计算机可读介质。系统、方法和非瞬态计算机可读介质的实施例可以接收训练集合，该训练集合包括多个文本输入和针对多个文本输入中的每个文本输入的目标标签集合；针对多个文本输入中的每个文本输入生成组合特征向量；针对组合特征向量中的每个组合特征向量生成输出标签集合；通过将输出标签集合与目标标签集合进行比较来计算第一损失值；基于上下文信息来计算至少一个附加损失值；以及基于计算得出的第一损失值和至少一个附加损失值来更新神经网络。

描述了一种用于利用口头命令编辑图像的系统、方法和非瞬态计算机可读介质。系统、方法和非瞬态计算机可读介质的实施例可以接收用于编辑图像的可听输入；将可听输入转换成文本输入；使用神经网络来针对文本输入计算特征向量；使用神经网络基于特征向量来计算字词标签集合，其中神经网络使用具有损失函数的多任务学习而被训练，该损失函数包括第一损失值和附加损失值，该附加损失值是根据互信息、基于上下文的预测或基于语句的预测的；基于字词标签集合来标识图像编辑命令；以及基于图像编辑命令来编辑图像。

附图说明

图1示出了根据本公开的各个方面的图像编辑系统的示例。

图2示出了根据本公开的各个方面的图像编辑过程的示例。

图3示出了根据本公开的各个方面的用于对文本进行分类的过程的示例。

图4示出了根据本公开的各个方面的用于生成组合特征向量的过程的示例。

图5示出了根据本公开的各个方面的用于计算损失值的过程的示例。

图6示出了根据本公开的各个方面的用于基于互信息(mutual information)来计算损失值的过程的示例。

图7示出了根据本公开的各个方面的用于计算基于上下文的损失值的过程的示例。

图8示出了根据本公开的各个方面的用于计算语句级别预测损失值的过程的示例。

图9示出了根据本公开的各个方面的图像编辑服务器的示例。

具体实施方式

本公开描述了用于基于字词上下文进行槽填充的系统和方法。槽填充是指一种自然语言处理技术，该自然语言处理技术标识文本内的特定种类的信息。例如，用户可以向图像编辑应用提供口头命令，并且来自口头命令的字词可以与对应于期望图像编辑过程的“槽”(诸如动作、对象、属性以及值)相关联。在此示例中，“动作”可以指编辑的类型；“对象”是图像中的要编辑的部分；“属性”是对象的要改变的方面；并且“值”是属性的新值。准确地标识字词标签使得图像编辑应用能够基于口头命令来处理图像。

槽填充可以使用实现序列标签的神经网络来实现。例如，可以将递归神经网络(RNN)用作编码器，并且可以将条件随机场(CRF)用作译码器。编码器可以用于提取针对输入文本的每个字词的特征，并且译码器基于这些特征来生成标签。常规地，已经使用单任务损失函数(即，仅基于将译码器的输出与已知训练数据进行比较)来训练编码器和译码器。此方法可以单独捕获每个字词的含义，但字词的含义可以基于语句内的字词的上下文而改变。

例如，如果用户给出命令“将房屋的颜色改变为蓝色”，那么房屋是对象，颜色是属性，且蓝色是值。然而，如果命令是“将蓝色房屋改变为红色”，那么项“蓝色”是对象的修饰语(且在此情况下为旧值)，而不是属性的新值。

因此，常规槽填充可能无法充分地解释字词上下文。具体地，使用常规单任务损失函数训练的神经网络可能无法捕获足够的上下文信息。当在不同上下文中使用字词时，这可以导致对口头命令的误解，此误解可以最终导致实现命令中的错误或延迟。

因此，本公开的实施例使用多任务学习来确保在槽填充过程(例如用于将标签指派给图像编辑命令的单独的字词)中对上下文信息的利用。可以在训练神经网络期间通过使用多项损失函数来实现多个学习任务。具体地，损失函数可以包括对应于对象标签的基于字词的预测的第一值(即，基于将译码器的输出与已知训练集合进行比较)，并且来自该集合的至少一个附加损失值包括：

1)基于编码特征与字词上下文之间的互信息的损失值，

2)根据将基于上下文的预测与已知训练集合进行比较的损失值，以及

3)基于语句级别预测(即，关于哪些标签存在于输入文本中的预测)的损失值。

除了直接对应于字词标签预测的项之外，使用包括专门解释字词上下文的单独项的损失函数增强了经过训练的网络解释字词含义差异的能力，该字词含义差异由语句的总体结构引起。除了使用多任务学习之外，一些实施例还针对语义特征和上下文特征使用单独译码器。

因此，本文中所描述的系统和方法确保了上下文信息被更充分地合并，这在解释文本(诸如图像编辑命令)时导致准确性的提高。再次参考先前给出的示例，本公开的实施例可能更有可能将命令“将蓝色房屋改变为红色”中的项“蓝色”解释为对象的修饰语，并且由于“红色”相对于命令中的其他字词的位置而将“红色”正确地标识为属性的新值。

贯穿本公开使用了以下术语。

术语“多任务学习”是指合并多于一个不同学习任务的机器学习技术。学习任务是指评估神经网络模型的输出(诸如损失函数中的项)的方法。每个学习任务可以表示对不同类型的输出(例如，单独字词标签的预测、互信息分数或存在字词标签的语句级别预测)的比较，或对基于不同输入的输出的比较(例如，基于字词的语义含义的字词标签预测与基于结构信息的字词标签预测的关系)。

术语‘字词嵌入’是指将输入文本的字词映射至向量空间的过程或组件。字词嵌入基于字词的一个语义方面(即，含义)。字词嵌入功能将具有类似含义的字词映射到向量空间中彼此接近的向量上。因此，字词‘狗(dog)’和‘猎犬(hound)’可能会比‘狗(dog)’和‘共和国总督(doge)’更接近，即使后一对字词具有更多共同的字母和声音。

术语‘特征编码器’是指将此类字词向量的信息(即，字词嵌入的输出)、序列信息、词性(POS)标记等编码成特征向量的过程或组件。在一些实施例中，特征编码器可以包括基于字词嵌入的字词编码器和合并关于语句结构或句法的信息的结构编码器两者。

术语‘基于字词的特征向量’和‘基于结构的特征向量’分别是指字词编码器的输出和结构编码器的输出。特征编码器的输出可以是组合特征向量，该组合特征向量包括基于字词的特征向量和基于结构的特征向量的串接(concatenation)。

术语‘评分层’是指将编码特征向量映射至字词标签和标签分数的过程或组件。在一些情况下，评分层也可以被称为译码器。分数表示输入文本中的字词对应于特定标签(诸如动作、对象、属性或值)的可能性。在一个实施例中，评分层包括前馈层和条件随机场(CRF)层。

术语‘损失函数’是指在神经网络的训练过程中使用的函数。具体地，调整神经网络的参数，以使损失函数最小化。例如，简单的损失函数可以用于使输出向量与已知训练目标之间的距离最小化。在另一示例中，损失函数可以是基于维特比(Viterbi)算法的，该维特比算法用于寻找针对输入文本产生最高分数的标签的序列。

在一些情况下，由损失函数表示的目标可以被称为训练任务。根据本公开的实施例，使用损失函数来实现多任务学习，该损失函数表示与合并输入文本的语义、结构和上下文信息相关的多个训练目标。

术语‘基于上下文的特征向量’是指合并文本输入中的每个字词的上下文的向量。例如，可以通过对来自除字词本身以外的文本输入(或文本输入的语句)的所有基于字词的特征向量进行最大池化，来生成基于上下文的特征向量。基于上下文的特征向量可以用于执行如下文所描述的多个学习任务。

术语‘互信息损失值’是指使基于字词的特征向量与基于上下文的特征向量之间的互信息最大化的学习任务。互信息是指两个变量之间的依赖性的测量。即，该互信息反映了人们可以通过观测另一种数量而获取的关于一种数量的信息。使用基于互信息的损失值鼓励编码器将文本输入映射到针对基于上下文的特征向量具有更高级别的互信息的向量。

术语‘基于上下文的预测损失值’是指直接根据字词标签的基于上下文的预测的学习任务。与根据基于字词的特征向量(或基于字词的特征向量与基于结构的特征向量的组合)来进行预测相比，根据基于上下文的特征向量来进行预测可以提供不同结果。因此，针对基于上下文的预测包括单独学习任务鼓励神经网络合并基于上下文的信息。

术语‘语句级别预测损失值’是指基于预测哪些标签将在语句中出现的学习任务。例如，特定标签可以出现两次或更多次，而其他标签根本不会出现。例如，在图像编辑的情况下，语句可以包括对应于‘动作’的字词，但可以不包括对应于‘属性’的任何字词。基于语句级别预测的训练任务鼓励神经网络学习将关于语句的全局信息考虑在内的参数。

图1示出了根据本公开的各个方面的图像编辑系统的示例。所示示例包括用户100、终端105、图像编辑服务器115以及网络120。终端105可以包括图像编辑应用110。

用户可以使用图像编辑应用110来编辑图像，并且可以提供口头命令以相对于图像或图像的一部分执行动作。图像编辑应用110可以接收可听输入，并且将其转换成文本输入。图像编辑应用110然后可以向图像编辑服务器115传送文本输入，该图像编辑服务器115包括能够解释文本输入的功能。根据实施例，图像编辑服务器115可以包括利用多个训练任务训练的神经网络，该多个训练任务使神经网络在文本解释期间指派标签时学习合并字词含义和字词上下文的参数。

一旦文本通过图像编辑服务器115进行解释，就可以将一个或多个编辑命令传送回图像编辑应用110，该图像编辑应用然后可以相应地编辑图像。图像编辑服务器115可以是参考图9所描述的一个或多个对应元件的示例或包括该对应元件的各个方面。在一些示例中，被描述为在图像编辑服务器115处远程执行的功能还可以在终端105处(例如在图像编辑应用110本身内)本地执行。例如，在一些情况下，标记图像编辑命令的字词在服务器115处被执行，并且在其他示例中，标记图像编辑命令的字词可以在终端105处被执行。

因此，根据各种实施例，服务器115或终端105中任一者可以包括使用多任务学习目标对图像编辑命令中的字词进行标记而训练的人工神经网络(ANN)。ANN可以是包括多个连接节点(也称为人工神经元)的硬件或软件组件，这些连接节点可以不严格地对应于人脑中的神经元。每个连接或边(edge)可以将信号从一个节点传送到另一节点(比如大脑中的物理突触)。当节点接收信号时，节点可以处理信号，然后向其他连接的节点传送经处理的信号。在一些情况下，节点之间的信号包括实数，并且可以通过其输入之和的函数来计算每个节点的输出。每个节点和边可以与确定如何处理和传送信号的一个或多个节点权重相关联。

在训练过程期间，可以调整这些权重以提高结果的准确性(即，通过使以某种方式对应于当前结果与目标结果之间的差的损失函数最小化)。边的权重可以提高或降低在节点之间传送的信号的强度。在一些情况下，节点可以具有阈值，在低于该阈值时，根本不会传送信号。节点也可以聚合成层。不同层可以对其输入执行不同变换。初始层可以被称作输入层，并且最终层可以被称作输出层。在一些情况下，信号可以多次遍历特定层。

具体地，根据本公开的实施例，可以基于损失函数来调整ANN的节点权重，该损失函数包括表示基于字词的标签预测、基于上下文的预测、语句级别的预测、互信息或他们的任何组合的多个学习任务。

图2示出了根据本公开的各个方面的图像编辑过程的示例。在一些实施例中，这些操作可以由计算机系统执行，该计算机系统包括执行一组代码以控制装置的功能元件的处理器。附加地或备选地，可以使用专用硬件来执行过程。一般而言，可以依据根据本公开的各个方面所描述的方法和过程来执行这些操作。例如，操作可以由各种子步骤组成，或可以结合本文中所描述的其他操作执行。

在操作200，用户提供口头输入(例如对应于图像编辑命令)。在操作205中，图像编辑应用将口头输入转换成文本输入。在一些情况下，这种步骤的操作可以涉及如参考图1所描述的图像编辑应用或可以由如参考图1所描述的图像编辑应用执行。

在操作210，图像编辑服务器针对文本输入计算字词标签。在一些情况下，这种步骤的操作可以涉及如参考图1和图9所描述的图像编辑服务器或可以由如参考图1和图9所描述的图像编辑服务器执行。可以参考图3至图8在本文中找到关于计算字词标签的其他细节。

在操作215，图像编辑服务器或图像编辑应用基于字词标签来标识图像编辑命令。在一些情况下，这种步骤的操作可以涉及如参考图1和图9所描述的图像编辑服务器或可以由如参考图1和图9所描述的图像编辑服务器执行。

例如，可以将输入文本的字词标识为动作、对象、属性、值或其他。这些字词标签然后可以与可用于编辑图像的选项相关联，即，动作可以与图像编辑动作相关联，对象可以与要编辑的对象或图像相关联，属性可以与要编辑的图像或对象的方面相关联，并且值可以与将要编辑的属性的新值相关联。

在操作220，图像编辑应用基于编辑命令来编辑图像。例如，可以按由命令指示的方式将对象的属性(即，位置、形状、形式或任何其他合适的对象属性)改变为由命令指示的新值。在一些情况下，这种步骤的操作可以涉及如参考图1所描述的图像编辑应用或可以由如参考图1所描述的图像编辑应用执行。

图3示出了根据本公开的各个方面的用于对文本进行分类的过程的示例。在一些示例中，这些操作可以由系统执行，诸如参考图1和图9所描述的图像编辑服务器，包括执行一组代码以控制装置的功能元件的处理器。附加地或备选地，可以使用专用硬件来执行过程。一般而言，可以依据根据本公开的各个方面所描述的方法和过程来执行这些操作。例如，操作可以由各种子步骤组成，或可以结合本文中所描述的其他操作执行。

在操作300，系统接收训练集合，该训练集合包括文本输入集合和针对文本输入集合中的每个文本输入的目标标签集合。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的任何输入组件或可以由如参考图9所描述的任何输入组件执行。

在操作305，系统针对文本输入集合中的每个文本输入生成组合特征向量。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的特征编码器或可以由如参考图9所描述的特征编码器执行。参考图4描述了关于生成组合特征向量的其他细节。

在操作310，系统针对组合特征向量中的每个组合特征向量生成输出标签集合。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的评分层或可以由如参考图9所描述的评分层执行。参考图5描述了关于评分的其他细节。

在操作315，系统通过将输出标签集合与目标标签集合进行比较来计算第一损失值。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的训练组件或可以由如参考图9所描述的训练组件执行。

在操作320，系统计算至少一个附加损失值，该至少一个附加损失值包括以下中的至少一项：互信息损失值，该互信息损失值基于比较组合特征向量与对应的基于上下文的特征向量之间的互信息；基于上下文的预测损失值，该基于上下文的预测损失值根据将基于上下文的输出标签与目标标签进行比较；或语句级别预测损失值，该语句级别预测损失值基于将在文本输入中的每个文本输入中存在的预测标签集合与基于目标标签的已知标签集合进行比较。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的基于语句的预测组件或可以由如参考图9所描述的基于语句的预测组件执行。

参考图6描述了关于互信息损失值的其他细节。参考图7描述了关于基于上下文的预测损失值的其他细节。参考图8描述了关于语句级别预测损失值的其他细节。

在操作325，系统基于计算得出的第一损失值和至少一个附加损失值来更新神经网络。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的训练组件或可以由如参考图9所描述的训练组件执行。

编码

图4示出了根据本公开的各个方面的用于生成组合特征向量的过程的示例。术语“组合(combined)”是指在本公开的至少一些实施例中存在语义特征与结构特征两者。

在一些示例中，图4的操作可以由系统执行，诸如参考图1和图9所描述的终端或图像编辑服务器，包括执行一组代码以控制装置的功能元件的处理器。附加地或备选地，可以使用专用硬件来执行过程。一般而言，可以依据根据本公开的各个方面所描述的方法和过程来执行这些操作。例如，操作可以由各种子步骤组成，或可以结合本文中所描述的其他操作执行。

可以将字词序列x₁，x₂，...，x_n用作生成特征向量的编码器的输入。将为输入的每个字词指派标签。在图像编辑示例中，标签可以包括‘动作’、‘对象’、‘属性’以及‘值’标签。在一些情况下，一些标签并未在每个语句中使用。在一些实施例中，开始/内侧/外侧(BIO)、词性(POS)标记、依赖性树或其他句法信息也可以被合并。

每个输入字词x_i可以由预先训练的字词嵌入与用e_i表示的句法或POS标记嵌入的串接来表示。然后可以将字词x_i和句法信息e_i用作针对编码器的输入，该编码器包括字词编码器、结构编码器或两者。

针对字词编码器，可以应用2层双向长短期存储器(LSTM)以获得特征向量h_i(即，基于字词的特征向量)。针对结构编码器，依赖性树可以用于对关于输入文本的句法信息进行编码。句法信息可以用于标识语句中的字词以及字词的依赖。可以使用图卷积网络(GCN)而非依赖性树来对句法树进行建模。在上下文化表示中，每个字词通过邻近字词而被上下文化。2层GCN可以与h_i一起用作每个节点(即，字词)的初始表示。第i个节点的表示是邻近字词的表示的聚合。GCN的第l层第i个字词的隐藏表示可以通过以下各式获得：

以及

其中N(i)是依赖性树中的第i个字词的邻居，W_l是第l层中的权重矩阵，并且deg(i)是依赖性树中的第i个字词的程度。为简洁起见，省略了偏置。第i个字词的GCN的最终表示

表示该字词的结构特征。将结构特征

(即，基于结构的特征向量)与顺序特征h_i串接以通过特征向量h′_i表示第i个字词：

因此，在操作400，系统将文本输入集合的每个字词嵌入到字词嵌入空间中(即，以创建x₁，x₂，...，x_n)。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的字词嵌入组件或可以由如参考图9所描述的字词嵌入组件执行。在一些实施例中，字词嵌入组件可以实现字词嵌入，诸如Word2Vec、GloVe或FastText。

在操作405，系统针对字词中的每个字词标识POS标记。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的字词嵌入组件或可以由如参考图9所描述的字词嵌入组件执行。

在操作410，系统基于所嵌入的字词和所标识的POS标记使用字词编码器来计算基于字词的特征向量(例如h_i)。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的字词编码器或可以由如参考图9所描述的字词编码器执行。

在操作415，系统使用结构编码器来计算基于结构的特征向量(例如

)。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的结构编码器或可以由如参考图9所描述的结构编码器执行。

在操作420，系统组合基于字词的特征向量和基于上下文的特征向量，以产生组合特征向量(例如h′_i)。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的特征编码器或可以由如参考图9所描述的特征编码器执行。

基于字词的预测

图5示出了根据本公开的各个方面的用于计算损失值的过程的示例。图5中所描述的损失值描述了基于字词级别标签预测的损失值，该损失值是基于译码器(例如其将图4中计算得出的特征向量用作输入)的输出而被计算的。

在一些示例中，这些操作可以由系统执行，诸如参考图1和图9所描述的图像编辑服务器，包括执行一组代码以控制装置的功能元件的处理器。附加地或备选地，可以使用专用硬件来执行过程。一般而言，可以依据根据本公开的各个方面所描述的方法和过程来执行这些操作。例如，操作可以由各种子步骤组成，或可以结合本文中所描述的其他操作执行。

一旦标识出基于字词的特征和基于上下文的(或基于结构的)特征，就可以使用任务特定的2层前馈神经网来对字词进行标记。随后，可以使用逻辑回归来生成类别分数S_i：

S_i＝W_LR*(W₂*(W₁*h′_i)) (4)

其中W_LR、W₁和W₂是可训练参数。S_i是向量，该向量具有多个类别，其中向量的每个维度与对应类别的分数相关联。

针对序列标签，可以将条件随机场(CRF)用作最终层，以预测给定语句的标签的序列。将类别分数S_i作为发射分数(emission score)提供给CRF层，以获得最终标签分数：

其中T是可训练的过渡矩阵，并且θ是用于生成发射分数S_i的参数。将维特比损失L_VB用作要在训练期间优化的最终损失函数。在推断时间中，可以采用维特比译码器来找到具有最高分数的标签的序列。

因此，在操作500，系统使用前馈层针对每个组合特征向量计算类别分数(例如S_i)。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的评分层或可以由如参考图9所描述的评分层执行。

在操作505，系统将条件随机场(CRF)应用于类别分数，以计算输出标签集合(例如Score)。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的评分层或可以由如参考图9所描述的评分层执行。

在操作510，系统(例如使用维特比算法)基于输出标签集合来计算损失值。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的训练组件或可以由如参考图9所描述的训练组件执行。

互信息

图6示出了根据本公开的各个方面的用于基于互信息来计算损失值的过程的示例。在一些示例中，这些操作可以由系统执行，诸如参考图1和图9所描述的图像编辑服务器，包括执行一组代码以控制装置的功能元件的处理器。附加地或备选地，可以使用专用硬件来执行过程。一般而言，可以依据根据本公开的各个方面所描述的方法和过程来执行这些操作。例如，操作可以由各种子步骤组成，或可以结合本文中所描述的其他操作执行。

附加训练子任务可以提高字词的字词表示和上下文表示的一致性。对于一些学习任务，对语句的字词(除了字词本身之外)的最大池化可以用于获得每个字词的上下文(即，基于上下文的特征向量)：

其中h_i是来自字词编码器的第i个字词的表示。

可以通过提高向量h_i与

之间的一致性来提高准确性。一种提高一致性的方法是减小向量之间的距离。然而，由于上下文可以与字词基本上不同，因此直接减小字词表示与上下文表示之间的距离可以在长或复杂的语句中不是高效的。因此，本公开的一些实施例使用更为间接的方法。

因此，在操作600，系统针对文本输入的第一子集的每个字词标识基于上下文的特征向量(例如

)。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的互信息组件或可以由如参考图9所描述的互信息组件执行。

具体地，可以使损失函数中的字词的字词表示与上下文之间的互信息最大化。如果揭示了另一变量的值，那么互信息可以使用关于随机变量的已知信息量。两个随机变量之间的互信息可以使用下式来计算：

互信息等式可以被重新表述为联合分布

与边际分布的乘积

之间的KL散度：

如果两个随机变量是相依的，那么可以增加两个随机变量之间的互信息(即，等式8中的KL散度)。表示h_i和

具有共享信息。可以将互信息直接引入到损失函数中以进行优化。

在一些情况下，由于高维连续向量(诸如h_i和

)的计算，因此将互信息直接引入到损失函数中可以是计算密集型的。因此，计算限制可以通过采用互信息神经估计(MINE)来解决。MINE可以经由对抗训练来估计高维向量之间的互信息的下界。MINE还可以计算给定高维向量或变量的联合分布与边际分布之间的KL散度的下界。MINE计算KL散度的唐斯克-瓦拉德汗(Donsker-Varadhan)表示的下界：

也可以使用其他散度度量，从而提供用以计算MI的下界的方法。因此，可以经由变量判别器的二进制交叉熵应用对抗途径，以获得MI下界。此判别器在从联合分布中采样的变量之间进行区分。变量是从边际分布的乘积中被采样的。

变量可以包括字词表示h_i和上下文表示

为了从联合分布中进行采样，将h_i与

(即，正例)串接。可以将表示h_i与

(其中i≠j)(即，负例)串接，以从边际分布的乘积中进行采样。可以将样本提供给2层前馈神经网络D(即，判别器)，以执行二进制分类(即，来自联合分布或来自边际分布的乘积)。以下二进制交叉熵损失用于估计h_i与

之间的互信息，以便添加到总损失函数中：

其中j≠i和j∈{1，2，...，N}，且N是语句的长度，且

是两个向量h_i与

的串接。将此值提供给最终损失函数。

因此，在操作605，系统针对文本输入的第二子集的每个字词标识随机向量。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的互信息组件或可以由如参考图9所描述的互信息组件执行。

在操作610，系统根据基于上下文的特征向量(例如

)和随机向量(例如h_i)来训练二进制互信息分类器。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的互信息组件或可以由如参考图9所描述的互信息组件执行。

在操作615，系统使用二进制互信息分类器来计算互信息损失值(例如L_disc)。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的互信息组件或可以由如参考图9所描述的互信息组件执行。

基于上下文的预测

图7示出了根据本公开的各个方面的用于计算基于上下文的损失值的过程的示例。在一些示例中，这些操作可以由系统执行，诸如参考图1和图9所描述的图像编辑服务器，包括执行一组代码以控制装置的功能元件的处理器。附加地或备选地，可以使用专用硬件来执行过程。一般而言，可以依据根据本公开的各个方面所描述的方法和过程来执行这些操作。例如，操作可以由各种子步骤组成，或可以结合本文中所描述的其他操作执行。

除了在上下文与字词表示之间使用互信息之外，每个字词的上下文可以用于预测该字词的标签。仅基于上下文来预测标签可以导致相对于字词的标签在字词的上下文中编码的信息增加。上文所描述的第i个字词的上下文向量

可以用于预测标签。可以将此基于上下文的特征向量提供给在末端具有softmax层的2层前馈神经网络，以输出针对每个类别的概率：

其中W₂和W₁是可训练参数。为简洁起见，省略了偏置。

以下交叉熵损失函数可以在训练期间进行优化：

其中N是语句的长度，且l_i是第i个字词的标签。

因此，在操作700，系统训练前馈神经网络。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的基于上下文的预测组件或可以由如参考图9所描述的基于上下文的预测组件执行。

在操作705，系统针对文本输入集合标识基于上下文的特征向量(例如

)。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的基于上下文的预测组件或可以由如参考图9所描述的基于上下文的预测组件执行。

在操作710，系统基于上下文标签(例如针对上文所描述的每个类别的概率)使用前馈神经网络来计算基于上下文的输出标签。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的基于上下文的预测组件或可以由如参考图9所描述的基于上下文的预测组件执行。

在操作715，系统使用基于上下文的输出标签(例如L_WP)来计算基于上下文的损失值。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的基于上下文的预测组件或可以由如参考图9所描述的基于上下文的预测组件执行。

语句级别预测

图8示出了根据本公开的各个方面的用于计算语句级别预测损失值的过程的示例。在一些示例中，这些操作可以由系统(诸如参考图1和图9所描述的图像编辑服务器，包括执行一组代码以控制装置的功能元件的处理器)执行。附加地或备选地，可以使用专用硬件来执行过程。一般而言，可以依据根据本公开的各个方面所描述的方法和过程来执行这些操作。例如，操作可以由各种子步骤组成，或可以结合本文中所描述的其他操作执行。

基于上下文的预测使用每个字词的上下文来包含关于标签的信息，但标签可能无法确保上下文信息将捕获用于表达意图的语句级别模式。换言之，字词级别预测可能缺少对整个语句的概貌。

根据语句的字词的表示来预测语句中的标签可以增加关于字词的表示中的语句的一般信息。因此，学习任务可以用于预测在语句中存在哪些标签(注意，语句可以具有标签的子集，例如动作和对象)。语句级别预测任务可以被表述为多类别分类问题。在给定等式X＝x₁，x₂，...，x_N和标签集合S＝{动作，属性，对象，值}的情况下，方法可以预测向量

其中如果语句X包含来自标签集合S的第i个标签，那么

等于一，否则

为零。

确定来自字词表示的语句的表示。对语句的多个字词的最大池化可以用于获得向量H：

H＝MaxPooling(h₁，h₂，...，h_N) (13)

向量H由2层前馈神经网最后使用Sigmoid函数来进行进一步抽象：

P_i(.|x₁，x₂，...，x_N)＝σ(W₂*(W_1*H)) (14)

其中W₂和W₁是可训练参数。注意，由于子任务是多类别分类，因此最终层处的神经元的数量等于|S|。优化以下二进制交叉熵损失函数：

其中如果语句包含第k个标签，那么l_k等于一，否则l_k为零。

因此，根据一个实施例，多任务训练可以基于以下各项的组合：维特比分数(如参考图5所描述)、互信息值(如参考图6所描述)、基于上下文的预测(如参考图7所描述)以及语句级别标签预测：

L＝L_VB+αL_discr+βL_WP+γL_SP (16)

其中α、β以及γ是可调谐的超参数。在其他实施例中，可以以任何组合使用仅两个或三个任务。

因此，在操作800，系统通过对文本输入中的字词进行最大池化来针对文本输入集合中的每个文本输入计算语句向量。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的基于语句的预测组件或可以由如参考图9所描述的基于语句的预测组件执行。

在操作805，系统将前馈神经网络应用于语句向量，以计算在文本输入中的每个文本输入中存在的预测标签集合，其中预测标签集合中的每个预测标签集合包括表示哪些标签存在于对应文本输入中的多标签分类。在一些情况下，这种步骤的操作可以涉及如参考图9所描述的基于语句的预测组件或可以由如参考图9所描述的基于语句的预测组件执行。

在操作810，系统计算语句级别预测损失值(例如L_SP)。最终损失值可以基于语句级别预测值(或互信息损失值，或基于上下文的预测损失值，或这些的任何组合)。

图9示出了根据本公开的各个方面的图像编辑服务器900的示例。图像编辑服务器900可以是参考图1所描述的一个或多个对应元件的示例或包括该对应元件的各个方面。图像编辑服务器900可以包括处理器单元905、存储器单元910、输入组件915、神经网络920、命令组件960以及训练组件965。

处理器单元905可以包括智能硬件设备(例如通用处理组件、数字信号处理器(DSP)、中央处理单元(CPU)、图形处理单元(GPU)、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑设备、分立栅极或晶体管逻辑组件、分立硬件组件或他们的任何组合)。在一些情况下，处理器可以被配置为使用存储器控制器来运行存储器阵列。在其他情况下，可以将存储器控制器集成到处理器中。处理器可以被配置为执行存储在存储器中以执行各种功能的计算机可读指令。在一些示例中，处理器可以包括用于调制解调器处理、基带处理、数字信号处理或传输处理的专用组件。在一些示例中，处理器可以包括片上系统。

计算机存储器单元910可以将用于各种程序和应用的信息存储在计算设备上。例如，存储装置可以包括用于运行操作系统的数据。存储器可以包括易失性存储器和非易失性存储器两者。易失性存储器可以是随机存取存储器(RAM)，且非易失性存储器可以包括只读存储器(ROM)、闪速存储器、电可擦除可编程只读存储器(EEPROM)、数字磁带、硬盘驱动器(HDD)以及固态驱动器(SSD)。存储器可以包括可读和/或可写易失性存储器和/或非易失性存储器以及其他可能的存储设备的任何组合。

输入组件915可以被配置为接收文本输入。输入组件915还可以接收训练集合，该训练集合包括文本输入集合和针对文本输入集合中的每个文本输入的目标标签集合。

神经网络920可以针对文本输入计算组合特征向量，并且标识字词的字词标签集合。在一些示例中，神经网络(包括特征编码器930和评分层945)使用具有损失函数的多任务学习而被训练，该损失函数包括第一损失值和附加损失值，该附加损失值是根据互信息、基于上下文的预测或基于语句的预测的。神经网络920可以包括字词嵌入组件925、特征编码器930以及评分层945。

字词嵌入组件925可以被配置为将文本输入转换成字词向量集合。字词嵌入组件925还可以针对字词中的每个字词标识POS标记。在一些示例中，字词向量集合包括语义信息和POS信息。字词嵌入组件925可以将文本输入集合中的每个字词嵌入到字词嵌入空间中。

特征编码器930可以被配置为基于字词向量来针对文本输入创建组合特征向量。例如，特征编码器930可以针对文本输入集合中的每个文本输入生成组合特征向量。特征编码器930可以组合基于字词的特征向量和基于上下文的特征向量，以产生组合特征向量。特征编码器930可以包括2层前馈神经网络920和逻辑回归模型。

特征编码器930可以包括字词编码器935和结构编码器940。

在一些示例中，字词编码器935被配置为计算基于字词的特征向量。在一些示例中，字词编码器935包括2层双向长短期存储器(LSTM)。字词编码器935可以基于所嵌入的字词和所标识的POS标记来计算基于字词的特征向量。在一些示例中，字词编码器935包括顺序编码器。

在一些示例中，结构编码器940被配置为计算基于结构的特征向量，其中组合特征向量包括基于字词的特征向量和基于结构的特征向量。在一些示例中，结构编码器940包括图卷积网络(GCN)。

评分层945可以被配置为基于组合特征向量来计算标签分数。评分层945还可以针对组合特征向量中的每个组合特征向量生成输出标签集合。评分层945可以使用前馈层针对每个组合特征向量计算类别分数。评分层945还可以将CRF应用于类别分数，以计算输出标签集合。

评分层945可以包括前馈评分层950和CRF评分层955。在一些示例中，前馈评分层950被配置为基于组合特征向量来计算类别分数。在一些示例中，CRF评分层955被配置为基于类别分数来计算标签分数。

命令组件960可以基于字词标签集合或基于标签分数来标识图像编辑命令。

训练组件965可以通过将输出标签集合与目标标签集合进行比较来计算第一损失值。训练组件965还可以计算至少一个附加损失值，该至少一个附加损失值包括以下中的至少一者。训练组件965还可以基于计算得出的第一损失值和至少一个附加损失值来更新神经网络920。在一些示例中，第一损失值是使用维特比损失算法来计算的。

训练组件965可以包括互信息组件970、基于上下文的预测组件975以及基于语句的预测组件980。在一些示例中，互信息表示根据基于字词的特征向量与基于上下文的特征向量之间的互信息的损失值。在一些示例中，互信息损失值是基于比较组合特征向量与对应的基于上下文的特征向量之间的互信息的。

互信息组件970还可以针对文本输入的第一子集的每个字词标识基于上下文的特征向量，并且针对文本输入的第二子集的每个字词标识随机向量。互信息组件970然后可以根据基于上下文的特征向量和随机向量来训练二进制互信息分类器。在一些示例中，互信息损失值是使用二进制互信息分类器来计算的。

在一些示例中，基于上下文的预测损失值是根据将基于上下文的输出标签与目标标签进行比较的。在一些示例中，基于上下文的预测表示损失值，该损失值是基于对文本中的字词进行最大池化的。基于上下文的预测组件975还可以训练前馈神经网络920，以便计算损失值。基于上下文的预测组件975可以针对文本输入集合标识基于上下文的特征向量，并且基于上下文标签来使用前馈神经网络920计算基于上下文的输出标签。

基于语句的预测组件980还可以通过对文本输入中的字词进行最大池化来针对文本输入集合中的每个文本输入计算语句向量。基于语句的预测表示损失值，该损失值是基于表示哪些标签存在于文本中的多标签分类的。

在一些示例中，语句级别预测损失值是基于将在文本输入中的每个文本输入中存在的预测标签集合与基于目标标签的已知标签集合进行比较的。基于语句的预测组件980还可以将前馈神经网络920应用于语句向量以计算在文本输入中的每个文本输入中存在的预测标签集合，其中预测标签集合中的每个预测标签集合包括表示哪些标签存在于对应文本输入中的多标签分类。

因此，本公开包括以下实施例。

描述了一种存储用于利用口头命令编辑图像的代码的方法和非瞬态计算机可读介质。实施例可以包括：接收用于编辑图像的可听输入；将可听输入转换成文本输入；针对文本输入计算特征向量；使用神经网络来标识文本输入的字词的字词标签集合，神经网络使用具有损失函数的多任务学习而被训练，该损失函数包括第一损失值和附加损失值，该附加损失值是根据互信息、基于上下文的预测或基于语句的预测的；且基于字词标签集合来标识图像编辑命令；以及基于图像编辑命令来编辑图像。

在一些示例中，字词标签集合包括动作标签以及对象标签、属性标签和值标签。在一些示例中，互信息表示损失值，该损失值是根据基于字词的特征向量与基于上下文的特征向量之间的互信息的。

在一些示例中，基于上下文的预测表示损失值，该损失值是基于对文本中的字词进行最大池化的。在一些示例中，基于语句的预测表示损失值，该损失值是基于表示哪些标签存在于文本中的多标签分类的。

描述了一种用于利用口头命令编辑图像的装置。装置的实施例可以包括：输入组件，该输入组件被配置为标识文本输入；字词嵌入组件，该字词嵌入组件被配置为将文本输入转换成字词向量集合；特征编码器，该特征编码器被配置为基于字词向量来针对文本输入创建组合特征向量；评分层，该评分层被配置为基于组合特征向量来计算标签分数；命令组件，该命令组件被配置为基于标签分数来标识图像编辑命令，并且特征编码器和评分层使用具有损失函数的多任务学习而被训练，该损失函数包括第一损失值和附加损失值，该附加损失值是根据互信息、基于上下文的预测或基于语句的预测的。在一些情况下，损失函数可以包括三个或更多个损失值。

在一些示例中，字词向量集合包括语义信息和词性(POS)信息。在一些示例中，特征编码器还包括：字词编码器，该字词编码器被配置为计算基于字词的特征向量；以及结构编码器，该结构编码器被配置为计算基于结构的特征向量，其中组合特征向量包括基于字词的特征向量和基于结构的特征向量。

在一些示例中，字词编码器包括2层双向长短期存储器(LSTM)。在一些示例中，结构编码器包括图卷积网络(GCN)。

在一些示例中，评分层还包括：前馈评分层，该前馈评分层被配置为基于组合特征向量来计算类别分数；以及条件随机场(CRF)评分层，该条件场评分层被配置为基于类别分数来计算标签分数。

描述了一种存储用于利用口头命令编辑图像的代码的方法和非瞬态计算机可读介质。实施例可以包括：接收训练集合，该训练集合包括多个文本输入和针对多个文本输入中的每个文本输入的目标标签集合；针对多个文本输入中的每个文本输入生成组合特征向量；针对组合特征向量中的每个组合特征向量生成输出标签集合；通过将输出标签集合与目标标签集合进行比较来计算第一损失值；计算至少一个附加损失值，该至少一个附加损失值包括以下中的至少一项：互信息损失值，该互信息损失值是基于比较组合特征向量与对应的基于上下文的特征向量之间的互信息的；基于上下文的预测损失值，该基于上下文的预测损失值是根据将基于上下文的输出标签与目标标签进行比较的；语句级别预测损失值，该语句级别预测损失值是基于将在文本输入中的每个文本输入中存在的预测标签集合与基于目标标签的已知标签集合进行比较的；以及基于计算得出的第一损失值和至少一个附加损失值来更新神经网络。

上文所描述的方法和非瞬态计算机可读介质的一些示例还可以包括：将多个文本输入中的每个字词嵌入到字词嵌入空间中。一些示例还可以包括：针对字词中的每个字词标识POS标记。一些示例还可以包括：基于所嵌入的字词和所标识的POS标记使用字词编码器来计算基于字词的特征向量。一些示例还可以包括：使用结构编码器来计算基于结构的特征向量。一些示例还可以包括：组合基于字词的特征向量和基于上下文的特征向量，以产生组合特征向量。

上文所描述的方法和非瞬态计算机可读介质的一些示例还可以包括：使用前馈层针对每个组合特征向量计算类别分数。一些示例还可以包括：将CRF应用于类别分数，以计算输出标签集合。在一些示例中，前馈神经网络包括2层前馈神经网络和逻辑回归模型。在一些示例中，第一损失值是使用维特比损失算法来计算的。

上文所描述的方法和非瞬态计算机可读介质的一些示例还可以包括：针对第一文本输入子集的每个字词标识基于上下文的特征向量。一些示例还可以包括：针对第二文本输入子集的每个字词标识随机向量。一些示例还可以包括：根据基于上下文的特征向量和随机向量来训练二进制互信息分类器。在一些示例中，互信息损失值是使用二进制互信息分类器来计算的。

上文所描述的方法和非瞬态计算机可读介质的一些示例还可以包括：训练前馈神经网络。一些示例还可以包括：针对多个文本输入标识上下文标签。一些示例还可以包括：基于上下文标签使用前馈神经网络来计算基于上下文的输出标签。

上文所描述的方法和非瞬态计算机可读介质的一些示例还可以包括：通过对文本输入中的字词进行最大池化来针对多个文本输入中的每个文本输入计算语句向量。一些示例还可以包括：将前馈神经网络应用于语句向量以计算在文本输入中的每个文本输入中存在的预测标签集合，其中预测标签集合中的每个预测标签集合包括表示哪些标签存在于对应文本输入中的多标签分类。在一些示例中，字词编码器包括顺序编码器。

本文中所描述的描述和图式表示示例配置，并且不表示在权利要求书的范围内的所有实现。例如，可以重新布置、组合或以其他方式修改操作和步骤。此外，可以以框图形式表示结构和设备，以表示组件之间的关系并且避免模糊所描述的概念。类似组件或特征可以具有相同名称，但可以具有对应于不同附图的不同附图标记。

对本公开的一些修改对于本领域的技术人员而言是明显的，并且本文中所定义的原理可以在不脱离本公开的范围的情况下应用于其他变型。因此，本公开不限于本文中所描述的示例和设计，但应符合与本文中所公开的原理和新颖特征一致的最广泛的范围。

可以通过包括以下各者的设备来实现或执行所描述的方法：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、分立栅极或晶体管逻辑、分立硬件组件或他们的任何组合。通用处理器可以是微处理器、常规处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合(例如DSP与微处理器、多个微处理器、与DSP核心结合的一个或多个微处理器或任何其他这种配置的组合)。因此，本文中所描述的功能可以利用硬件或软件来实现，并且可以由处理器、固件或他们的任何组合来执行。如果利用由处理器执行的软件来实现功能，那么功能可以以指令或代码形式被存储在计算机可读介质上。

计算机可读介质包括非瞬态计算机存储介质和通信介质两者，该通信介质包括有助于代码或数据的传递的任何介质。非瞬态存储介质可以是可以由计算机访问的任何可用介质。例如，非瞬态计算机可读介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、压缩盘(CD)或其他光盘存储装置、磁盘存储装置或用于携载或存储数据或代码的任何其他非瞬态介质。

此外，连接组件可以适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或诸如红外、无线电和微波信号的无线技术来从网站、服务器或其他远程源传送代码或数据，则同轴电缆、光纤电缆、双绞线、DSL或无线技术被包括在介质的定义中。介质的组合也被包括在计算机可读介质的范围内。

在本公开和以下权利要求书中，词“或”指示包含性列表，使得例如，X、Y或Z的列表意指X或Y或Z或XY或XZ或YZ或XYZ。此外，短语“基于”不用于表示条件的封闭集合。例如，被描述为“基于条件A”的步骤可以基于条件A和条件B两者。换言之，短语“基于”应被解释为“至少部分地基于”。

Claims

1.一种包括用于图像编辑的人工神经网络(ANN)的系统，所述系统包括：

字词嵌入组件，所述字词嵌入组件被配置为将文本输入转换成字词向量集合；

所述ANN的特征编码器，所述特征编码器被配置为基于所述字词向量来针对所述文本输入创建组合特征向量；

所述ANN的评分层，所述评分层被配置为基于所述组合特征向量来计算标签分数，其中所述特征编码器、所述评分层或两者使用具有损失函数的多任务学习而被训练，所述损失函数包括第一损失值和附加损失值，其中所述附加损失值是根据互信息、基于上下文的预测或基于语句的预测的；

命令组件，所述命令组件被配置为基于所述标签分数来标识图像编辑命令；以及

图像编辑应用，所述图像编辑应用被配置为基于所述图像编辑命令来编辑图像。

2.根据权利要求1所述的系统，其中：

所述字词向量集合包括语义信息和词性(POS)信息。

3.根据权利要求1所述的系统，其中所述特征编码器还包括：

字词编码器，所述字词编码器被配置为计算基于字词的特征向量；以及

结构编码器，所述结构编码器被配置为计算基于结构的特征向量，其中所述组合特征向量包括所述基于字词的特征向量和所述基于结构的特征向量。

4.根据权利要求3所述的系统，其中：

所述字词编码器包括2层双向长短期存储器(LSTM)。

5.根据权利要求3所述的系统，其中：

所述结构编码器包括图卷积网络(GCN)。

6.根据权利要求1所述的系统，其中所述评分层还包括：

前馈评分层，所述前馈评分层被配置为基于所述组合特征向量来计算类别分数；以及

条件随机场(CRF)评分层，所述条件随机场评分层被配置为基于所述类别分数来计算所述标签分数。

7.一种用于训练神经网络的方法，包括：

接收训练集合，所述训练集合包括多个文本输入和针对所述多个文本输入中的每个文本输入的目标标签集合；

针对所述多个文本输入中的每个文本输入生成组合特征向量；

针对所述组合特征向量中的每个组合特征向量生成输出标签集合；

通过将所述输出标签集合与所述目标标签集合进行比较来计算第一损失值；

基于上下文信息来计算至少一个附加损失值；以及

基于计算得出的第一损失值和所述至少一个附加损失值来更新所述神经网络。

8.根据权利要求7所述的方法，还包括：

将所述多个文本输入中的每个字词嵌入到字词嵌入空间中；

针对所述字词中的每个字词标识词性(POS)标记；

基于所嵌入的字词和所标识的POS标记，使用字词编码器来计算基于字词的特征向量；

使用结构编码器来计算基于结构的特征向量；以及

组合所述基于字词的特征向量和基于上下文的特征向量，以产生所述组合特征向量。

9.根据权利要求7所述的方法，还包括：

使用前馈层针对每个组合特征向量计算类别分数；以及

将条件随机场(CRF)应用于所述类别分数，以计算所述输出标签集合。

10.根据权利要求9所述的方法，其中：

所述前馈神经网络包括2层前馈神经网络和逻辑回归模型。

11.根据权利要求10所述的方法，其中：

所述第一损失值是使用维特比损失算法而被计算的。

12.根据权利要求7所述的方法，还包括：

针对文本输入的第一子集的每个字词标识基于上下文的特征向量；

针对文本输入的第二子集的每个字词标识随机向量；以及

基于针对文本输入的第一子集的每个字词的所述基于上下文的特征向量和所述随机向量来训练二进制互信息分类器，

其中所述互信息损失值是使用所述二进制互信息分类器而被计算的。

13.根据权利要求7所述的方法，还包括：

训练前馈神经网络；

针对所述多个文本输入标识上下文标签；以及

基于所述上下文标签，使用所述前馈神经网络来计算所述输出标签。

14.根据权利要求7所述的方法，还包括：

通过对所述文本输入中的字词进行最大池化来针对所述多个文本输入中的每个文本输入计算语句向量；以及

将前馈神经网络应用于所述语句向量以计算在所述文本输入中的每个文本输入中存在的预测标签集合，其中所述预测标签集合中的每个预测标签集合包括多标签分类，所述多标签分类表示哪些标签存在于对应的文本输入中。

15.根据权利要求7所述的方法，其中所述至少一个附加损失值包括：

互信息损失值，所述互信息损失值是基于比较所述组合特征向量与对应的基于上下文的特征向量之间的互信息的；

基于上下文的预测损失值，所述基于上下文的预测损失值是根据将基于上下文的输出标签与所述目标标签进行比较的；或者

语句级别预测损失值，所述语句级别预测损失值是基于将在所述文本输入中的每个文本输入中存在的预测标签集合与基于所述目标标签的已知标签集合进行比较的。

16.一种用于图像编辑的方法，包括：

接收用于编辑图像的可听输入；

将所述可听输入转换成文本输入；

使用神经网络来针对所述文本输入计算特征向量；

使用所述神经网络基于所述特征向量来计算字词标签集合，其中所述神经网络使用具有损失函数的多任务学习而被训练，所述损失函数包括第一损失值和附加损失值，所述附加损失值是根据互信息、基于上下文的预测或基于语句的预测的；

基于所述字词标签集合来标识图像编辑命令；以及

基于所述图像编辑命令来编辑所述图像。

17.根据权利要求16所述的方法，其中：

所述字词标签集合包括动作标签、对象标签、属性标签或值标签。

18.根据权利要求16所述的方法，其中：

所述互信息表示损失值，所述损失值是根据基于字词的特征向量与基于上下文的特征向量之间的互信息的。

19.根据权利要求16所述的方法，其中：

所述基于上下文的预测表示损失值，所述损失值是基于对文本中的字词进行最大池化的。

20.根据权利要求16所述的方法，其中：

所述基于语句的预测表示损失值，所述损失值是基于表示哪些标签存在于文本中的多标签分类的。