CN111967483A

CN111967483A - 确定分类器、确定生成器、识别命令的方法及设备

Info

Publication number: CN111967483A
Application number: CN201910420022.6A
Authority: CN
Inventors: 郑银河; 刘松
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2020-11-20

Abstract

本公开提供了确定分类器、确定生成器、识别命令的方法及设备。所述确定分类器的方法包括：通过与正常命令对应的第一训练数据和与异常命令对应的第二训练数据来优化第一损失函数的参数和第二损失函数的参数，以确定基于优化的参数的分类器。根据本公开，可提高命令识别能力。

Description

确定分类器、确定生成器、识别命令的方法及设备

技术领域

本公开总体说来涉及智能语音或智能对话技术，更具体地讲，涉及一种确定分类器、确定生成器、识别命令的方法及设备。

背景技术

在接收到诸如文本、语音等形式的命令(例如，用户命令)后，智能语音助手或智能对话系统会分析用户命令中所包含的意图，该意图对应至少一个操作(例如，回复操作)；随后，执行所述至少一个操作。这样的任务可被称为用户意图理解，完成这样的任务的模块可被称为自然语言理解(Natural Language Understanding，NLU)模块。

NLU模块是智能语音助手或智能对话系统中的重要部件。NUL模块通常可包括意图分类器(以下可简称为分类器)，该分类器可接收用户命令作为分类器输入；分类器输出是预定义的意图(可被称作标签或类别)。实际操作中的用户命令是多样化的，不可能为所有可能的用户命令定义意图。在这种情况下，可将如下的用户命令称作正常命令：存在与将该用户命令输入到分类器后获得的输出对应的预定义意图；可将如下的用户命令称作异常命令或域外(Out-of-Domain，OOD)命令：不存在与将该用户命令输入到分类器后获得的输出对应的预定义意图。

用户在实际使用过程中不知道NLU模块支持的用户命令(即正常命令)，导致NLU模型可能接收到各种各样的用户命令，这些命令可能既包括NLU模块支持的用户命令，也包括NLU模块不支持的用户命令(即异常命令)。

对异常命令的识别可被称为异常命令检测，对用户命令(尤其是异常命令)的检测(或识别)能力通常是NLU模块(例如，NLU模块所包括的分类器)性能的重要衡量指标。

可为分类器预定义对应于正常命令的n(n为大于1的自然数)种标签，以及对应于异常命令的第n+1种标签。可设置一个损失函数，并且利用训练数据对所述损失函数的参数进行优化，随后，确定基于优化的参数的分类器，其中，训练数据可包括n个标签、与所述n个标签中的每个标签对应的正常命令、第n+1个标签、以及与第n+1个标签对应的异常命令。当输入的用户命令被训练的分类器预测为属于第n+1个标签时，可认为输入的用户命令被预测为异常命令。

在训练分类器的过程中，使用同一损失函数对用于训练的正常命令和异常命令进行计算，并且用于训练的正常命令针对n个标签(即类别)，而用于训练的异常命令针对一个标签，这将导致当异常命令的数量超过预定数值时，训练的分类器对于正常命令的识别能力降低。

另外，基于现有方法不能产生与正常命令的相似程度高达一定程度的异常命令用于分类器训练，导致基于现有方法训练的分类器不能有效识别与正常命令的相似程度高于预定程度的异常命令。

发明内容

本公开的示例性实施例旨在克服现有的智能语音或智能对话技术中命令识别能力差的缺陷。

根据本公开的示例实施例，提供了一种确定分类器的方法，包括：通过与正常命令对应的第一训练数据和与异常命令对应的第二训练数据来优化第一损失函数的参数和第二损失函数的参数，以确定基于优化的参数的分类器。

可选的，第一损失函数是预测分布函数的负对数的数学期望，和/或，第二损失函数是预测分布函数的负信息熵的数学期望。

可选的，优化第一损失函数的参数和第二损失函数的参数的步骤包括：将第一损失函数和第二损失函数的加权和作为第三损失函数；通过第一训练数据和第二训练数据来优化第三损失函数中的预测分布函数的参数，其中，优化第三损失函数中的预测分布函数的参数的步骤包括：通过第一训练数据计算第一损失函数的值；通过第二训练数据计算第二损失函数的值；通过第一损失函数的值和第二损失函数的值来计算第三损失函数的值；通过第三损失函数的值来优化预测分布函数的参数。

根据本公开的另一示例性实施例，提供了一种确定生成器的方法，包括：通过第一优化操作优化生成器，使得正常命令通过编码器的编码产生的第一表示向量与噪声通过生成器生成的第二表示向量之间的相似度在预定相似度以上；通过第二优化操作优化生成器，使得与通过解码器对所述第二表示向量进行解码得到的异常命令对应的标签之间的差异在预定差异以下。

可选的，所述的方法还包括：通过优化的生成器和解码器产生异常命令。

可选的，所述的方法还包括：通过编码器将第三训练数据中的命令编码为表示向量，其中，第三训练数据包括正常命令或者包括正常命令和异常命令；为编码产生的表示向量添加噪声；通过解码器将添加噪声的表示向量解码为命令；根据解码产生的命令与未经过编码的对应命令之间的相似度，对编码器和解码器的参数进行优化。

可选的，所述的方法还包括：通过编码器和解码器获得第四训练数据中的命令先后经过编码和解码之后的解码结果，其中，第四训练数据包括正常命令和与正常命令对应的标签；根据第四训练数据中的命令的标签与对应的解码结果之间的相似度，对辅助分类器的参数进行优化，其中，辅助分类器用于确定表示向量被编码为的命令的标签。

根据本公开的另一示例性实施例，提供了一种确定分类器的方法，包括：通过以上确定分类器的方法确定分类器，其中，第二训练数据包括使噪声先后经过生成器和解码器后产生的异常命令，生成器通过以上确定生成器的方法确定。

根据本公开的另一示例性实施例，提供了一种识别命令的方法，包括：基于分类器计算输入的命令相对于多个标签的概率；根据所述概率，确定所述命令的检测分数；根据所述检测分数，确定所述命令为正常命令或异常命令。

可选的，所述分类器通过以上确定分类器的方法确定。

根据本公开的另一示例性实施例，提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的电子设备，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的方法。

根据本公开的另一示例性实施例，提供了一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的方法。

根据本公开的另一示例性实施例，提供了一种确定分类器的设备，包括：确定单元，通过与正常命令对应的第一训练数据和与异常命令对应的第二训练数据来优化第一损失函数的参数和第二损失函数的参数，以确定基于优化的参数的分类器。

可选的，确定单元将第一损失函数和第二损失函数的加权和作为第三损失函数；通过第一训练数据和第二训练数据来优化第三损失函数中的预测分布函数的参数，其中，优化第三损失函数中的预测分布函数的参数的步骤包括：通过第一训练数据计算第一损失函数的值；通过第二训练数据计算第二损失函数的值；通过第一损失函数的值和第二损失函数的值来计算第三损失函数的值；通过第三损失函数的值来优化预测分布函数的参数。

根据本公开的另一示例性实施例，提供了一种确定生成器的设备，包括：确定单元，通过第一优化操作优化生成器，使得正常命令通过编码器的编码产生的第一表示向量与噪声通过生成器生成的第二表示向量之间的相似度在预定相似度以上；通过第二优化操作优化生成器，使得与通过解码器对所述第二表示向量进行解码得到的异常命令对应的标签之间的差异在预定差异以下。

可选的，所述的设备还包括异常命令生成单元，通过优化的生成器和解码器产生异常命令。

可选的，所述的设备还包括编码解码单元，将第三训练数据中的命令编码为表示向量，其中，第三训练数据包括正常命令或者包括正常命令和异常命令；为编码产生的表示向量添加噪声；将添加噪声的表示向量解码为命令，其中，所述确定单元根据解码产生的命令与未经过编码的对应命令之间的相似度，对编码器和解码器的参数进行优化。

可选的，所述的设备还包括编码解码单元，获得第四训练数据中的命令先后经过编码和解码之后的解码结果，其中，第四训练数据包括正常命令和与正常命令对应的标签，其中，所述确定单元根据第四训练数据中的命令的标签与对应的解码结果之间的相似度，对辅助分类器的参数进行优化，其中，辅助分类器用于确定表示向量被编码为的命令的标签。

根据本公开的另一示例性实施例，提供了一种确定分类器的设备，包括：以上确定分类器的设备的确定单元，其中，第二训练数据包括使噪声先后经过生成器和解码器后产生的异常命令，生成器通过以上确定生成器的设备确定。

根据本公开的另一示例性实施例，提供了一种识别命令的设备，包括：检测分数计算单元，基于分类器计算输入的命令相对于多个标签的概率，并且根据所述概率，确定所述命令的检测分数；判断单元，根据所述检测分数，确定所述命令为正常命令或异常命令。

可选的，所述分类器通过以上确定分类器的设备确定。

根据本公开，可以帮助语音助手或对话系统的自然语言理解模块更有效地检测命令是正常命令(例如，预设命令)还是异常命令(例如，非预设命令)。可提高异常命令或正常命令检测精度，尤其是在不影响正常命令的检测精度的情况下提高异常命令的检测精度。

根据本公开，还可生成异常命令，生成的异常命令可应用于分类器训练以确定分类器，采用这样的异常命令确定的分类器可更有效检测异常命令，尤其是与正常命令的相似程度高于预定程度的异常命令。

需要注意的是，在通常情况下，异常命令所属的分布往往太广，以至于无法捕捉，因此无法在训练阶段对所有可能的异常命令都进行采样，本公开还提出了一种异常指令生成模型，该模型可包括以上生成器，因此，这一生成模型可生成伪异常命令，当这些伪异常命令用于训练分类器时，可有效地提升分类器异常命令检测性能。

另外，由于在优化参数的过程中使用了新的损失函数(例如，第二损失函数)，因此，确定的分类器可减少甚至避免现有的分类器存在的过拟合现象。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本公开示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1示出根据本公开的示例性实施例的确定分类器的方法的流程图；

图2示出根据本公开的示例性实施例的产生异常命令的方法的原理图；

图3示出根据本公开的示例性实施例的用于区分正常命令和异常命令的ROC曲线；

图4-7示出多个模型的OOD分数的分布情况；

图8示出多个模型的校准曲线；

图9-12示出多个模型的隐空间；

图13示出根据本公开的示例性实施例的确定分类器的设备的框图。

具体实施方式

现将详细参照本公开的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本公开。

本公开的示例性实施例提供了能够将正常命令和异常命令有效区分开的分类器的训练(或确定)方法。本公开的另一示例性实施例还提供了确定用于产生与正常命令近似的异常命令的生成器的方法。本公开的其他示例性实施例提供了基于对应的设备。

图1示出根据本公开的示例性实施例的确定分类器的方法的流程图，如图1中所示，根据本公开的示例性实施例的确定分类器的方法可包括步骤110。

在步骤110，通过与正常命令对应的第一训练数据和与异常命令对应的第二训练数据来优化第一损失函数的参数和第二损失函数的参数，以确定基于优化的参数的分类器。这里，预测分布函数包括softmax函数，命令也可称作语句、指令、用户命令等。

作为示例，第一损失函数是预测分布函数的负对数的数学期望，和/或，第二损失函数是预测分布函数的负信息熵的数学期望。

作为示例，优化第一损失函数的参数和第二损失函数的参数的步骤包括：将第一损失函数和第二损失函数的加权和作为第三损失函数；通过第一训练数据和第二训练数据来优化第三损失函数中的预测分布函数的参数，其中，优化第三损失函数中的预测分布函数的参数的步骤包括：通过第一训练数据计算第一损失函数的值；通过第二训练数据计算第二损失函数的值；通过第一损失函数的值和第二损失函数的值来计算第三损失函数的值；通过第三损失函数的值来优化预测分布函数的参数。

以下具体描述如何训练(或确定)分类器，以便通过确定的分类器预测用户命令是属于正常命令还是异常命令。当然，正常命令可以是指设置有对应标签的命令，异常命令可以是指未设置对应标签的命令，正常命令和异常命令仅仅是为了说明本公开而列举的示例，并不用于限制命令的类型。

假设NLU模型支持n个类别的正常命令(比如手机等电子设备的每一种功能都可对应一个类别)，并且为这n个类别中的每个类别分别收集了命令数据，命令数据中的每个命令可与预设功能(也视作标签或类别)对应，将这样的命令数据的记为集合D_ind。

还假设收集一些用户可能会输入的异常命令，将这样的命令的集合记为集合D_ood。

对于一个通过语句(可以是一段文本或语音)表示的命令x，可使用一个卷积神经网络或者循环神经网络抽取语句的特征f(x)，并将这一特征输入到一个softmax函数中，得到一个n维(每个维度对应一个类别)的概率分布。这一个概率分布中的每个维度下的值表示x属于与该维度对应的类别的概率。可将与最大概率值对应的类别作为x的预测类别。

用于特征抽取的神经网络可使用如下的交叉熵损失函数：

在表达式(1)中，

为交叉熵损失函数，θ可以是向量形式的参数，D_ind为正常命令的集合，可理解为(x_i，y_i)服从与D_ind对应的概率分布，

表示数学期望。P_θ(y＝y_i|x_i)可表示通过softmax函数计算的概率分布，表示条件概率分布，x_i表示语句，y_i表示与语句对应的标签(即类别)。可通过如下表达式表示语句x在类别y下的概率分布：

P_θ(y|x)＝softmax(f_θ(x)) (2)

其中，f_θ(x)是表示通过神经网络从语句x提取到的特征的函数，具有参数θ。

如果仅使用表达式(1)这一个损失函数，为了进行异常命令检测，可预设与异常命令对应的一个新的类别，即第n+1个类别。所有属于这个类别的命令均视为异常命令。这样，需要确定用于区分n+1个类别的分类器。

在训练这样的分类器时(即：使表达式(1)的值最小化的过程中)，会存在数据不平衡问题。这是因为异常命令可能很多，以至于等于或大于正常命令的数量，导致属于第n+1个类别的命令比其他n个类别中的任意一个类别多。甚至会出现一种极端情况，在这种极端情况下，所有输入命令都被预测为异常命令，无法对正常命令的类别进分辨。

为了解决这样的问题，可在不添加第n+1个类别的情况下，即仅使用n个类别的情况下进行异常命令检测，即使异常命令很多，这些异常命令也会被预测为n个类别之内，不会出现数据不平衡问题，不会对正常命令的类别检测造成影响。以下详细描述如何训练分类器和如何使用分类器进行预测。在本公开的方法中，可对异常命令的概率分布进行正则化，使得正常命令的概率分布与异常命令的概率分布之间的区别突出，即更容易被辨别。

为此，可使用表达式(3)所示的新的损失函数，这一新的损失函数如下：

在表达式(3)中，

为所述新的损失函数，可被称为熵正则项。D_ood为异常命令集合，可理解为

服从与集合D_ood对应的概率分布。

可表示通过softmax函数计算的概率分布，即

属于类别y的概率。

为与概率分布P_θ所对应的信息熵，计算公式如下：

其中，i表示标签y的数量，log表示以10为底的对数可写作lg。

在训练分类器的过程中，可先对损失函数(1)和损失函数(2)中的任意一个损失函数进行参数优化，随后对另一个损失函数进行参数优化，也可同时对两个损失函数进行参数优化。

在同时对两个损失函数进行参数优化时，可使用如下的损失函数：

其中，α是预定义的权重，可用于调整表达式(3)所带来的影响(例如，调整表达式(1)和表达式(3)之间的平衡)，可使用多种方法对表达式(5)进行优化，优化的参数是θ，优化时使用的数据可被称作训练数据，可包括集合D_ind和D_ood中的语句，以及与每个语句对应的标签。在本公开的示例性实施例中，训练或优化目标可包括使损失函数最小的目标。

如果存在人工标记的异常命令，那么在训练过程中可以用这些人工标记的异常命令来优化表达式(3)，如果不存在人工标记的异常命令，那么理论上应该采集所有可能的异常命令，并用这些异常指令优化表达式(3)。但是采集所有可能的异常命令往往是不可能实现的。因此本公开中还提出了一种伪异常命令生成模型(该模型包括本公开的示例性实施例中的生成器)。通过该模型所生成的伪异常命令可以用于优化表达式(3)，通过这样的优化可提高分类器的异常命令检测性能。

当确定了参数θ时，概率分布函数P_θ就被确定了，这样也就确定了基于P_θ的分类器。

在预测时，可使用以下表达式计算分数：

其中，m是标签(类别)的数量，P_θ(y＝l_i|x)表示语句x属于类别l_i的概率，Score(x)表示语句x的检测分数。

如果输入语句x通过表达式(6)计算出的检测分数较大(大于或等于第一阈值)，则可将语句x确定为正常命令，随后，可通过相应分类器确定语句x属于支持的类别中的哪个类别。如果语句x的检测分数较小(小于或等于第二阈值)，则语句x确定为异常命令。第一阈值可等于第二阈值。

可使用多种方法确定第一阈值和/或第二阈值，本公开对此不进行限制，例如，可从多个值中选择一个阈值，选择的值使得包括正常命令和异常命令的命令集中的各个命令被准确的确定为异常命令或正常命令的准确率最大。

根据本公开的示例性，还提供了一种确定生成器的方法，该生成器可用于产生异常命令，该方法可包括如下步骤：通过第一优化操作优化生成器，使得正常命令通过编码器的编码产生的第一表示向量与噪声通过生成器生成的第二表示向量之间的相似度在预定相似度以上；通过第二优化操作优化生成器，使得与通过解码器对所述第二表示向量进行解码得到的异常命令对应的标签之间的差异在预定差异以下。

作为示例，生成器可将噪声(例如，高斯噪声)转化为表示向量，通过第一优化操作可使生成器生成的表示向量与编码器对语句编码产生的表示向量之间的相似度高于所述预定程度，通过第二优化操作可使生成器生成的表示向量经过解码后的语句的类别近似相同。可通过优化的生成器和解码器产生异常命令。

作为示例，所述方法还包括：通过编码器将第三训练数据中的命令编码为表示向量，其中，第三训练数据包括正常命令或者包括正常命令和异常命令；为编码产生的表示向量添加噪声；通过解码器将添加噪声的表示向量解码为命令；根据解码产生的命令与未经过编码的对应命令之间的相似度，对编码器和解码器的参数进行优化。优化目标可包括使得解码之后产生的命令与未经过编码的对应命令之间的相似度高于预定相似度。

作为示例，所述方法还包括：通过编码器和解码器获得第四训练数据中的命令先后经过编码和解码之后的解码结果，其中，第四训练数据包括正常命令和与正常命令对应的标签；根据第四训练数据中的命令的标签与对应的解码结果之间的相似度，对辅助分类器的参数进行优化，其中，辅助分类器用于确定表示向量被编码为的命令的标签。优化目标可包括使得第四训练数据中的命令的标签与对应的解码结果之间的相似度高于预定程度。

作为示例，所述方法还可包括：构造用于辨别表示向量由编码器产生还是由生成器生成的辨别器；根据生成器生成的表示向量经过辨别器后的输出与通过编码器的编码产生的表示向量经过辨别器后的输出之间的差异，对辨别器进行优化。优化目标可包括使所述差异小于预定阈值。

以上过程可视为分类器训练过程。在本公开的示例性实施例中，可通过以上确定分类器的方法来确定分类器，其中，可使用各种方法生成训练数据，例如，第二训练数据包括使噪声先后经过生成器和解码器后产生的异常命令，生成器通过以上确定生成器的方法确定。

在公开的另一示例性实施例中，可基于分类器计算输入的命令相对于多个标签的概率；根据所述概率，确定所述命令的检测分数；根据所述检测分数，确定所述命令为正常命令或异常命令。

作为示例，所述分类器通过以上确定分类器的方法确定。

在实际应用场景中，可能通过爬虫技术从网络上获取语句(或从书本中摘取语句等)以产生异常命令集合，但是，这样的异常命令与正常命令之间的差别较大，使用这样的异常命令集合训练出的分类器，不能有效区分与正常命令的相似度达到预定程度的异常命令。为了训练如下的分类器，需要虚构一些异常命令：这样的分类器可有效辨别正常命令和异常命令，尤其是辨别与正常命令的相似度达到预定程度的异常命令。

相应的，本发明中提出一个伪异常指令生成模型，该模型包括根据本公开的示例性实施例的生成器，使用该模型所生成的异常命令可用来优化表达式(3)，通过这样的优化可提高分类器的异常命令检测性能。

图2示出根据本公开的示例性实施例的产生异常命令的方法的原理图。

参照图2，可构建编码器Enc_φ和解码器Dec_ψ，φ和ψ分别为编码器和解码器的参数。在本公开的示例性实施例中的参数可由向量来表示。对于训练数据中包括的语句x(例如，集合D_ind中的命令)，Enc_φ(x)可将语句(或命令)x映射到隐空间中的表示向量z；Dec_ψ(z)可将表示向量还原为语句x′。解码器可根据所输入的隐向量(例如，表示向量)生成一个概率分布P_ψ(x|z)，使用解码器生成语句x′的过程即在概率分布P_ψ(x|z)中采样一个语句的过程。

可以使用如下损失函数优化参数φ和ψ，优化过程可使用随机梯度下降等方法：

其中，P_ψ是解码器生成的表示向量的概率分布，可通过softmax函数获得该概率分布，ψ是softmax函数的参数。在使用表达式(7)优化编码器和解码器的过程中，可在表示向量z上增加一个高斯噪声，这个操作可以使得所生成的表示向量空间更加平滑。

在生成异常命令的过程中，可通过对抗训练的过程来训练生成器的参数。具体而言，可根据多层感知机、卷积神经网络等技术构建生成器G_ξ，其中，ξ为生成器的参数。生成器G_ξ可在采样空间

随机采样，以产生噪声ε，并将产生的噪声映射到表示空间

以生成表示向量

(可被称作假表示向量)。当解码器对这个表示向量

进行解码后，可获得语句

还可根据多层感知机、卷积神经网络等技术构建辨别器D_η，辨别器D_η可用于辨别输入到辨别器D_η的表示向量是语句x经过编码器Enc_φ后产生的表示向量(可被称作真表示向量)，还是通过生成器G_ξ产生的表示向量(可被称作假表示向量)，其中，η为辨别器的参数。

可通过对抗神经网络(例如，沃瑟斯坦对抗生成网络(Wasserstein GenerativeAdversative Nets，WGAN))来训练生成器G_ξ和/或辨别器D_η的参数，即优化数据分布和生成分布的一阶沃瑟斯坦距离(Wasserstein-1 distance)。

例如，可使用如下的损失函数来优化辨别器D_η的参数η：

在优化辨别器D_η的过程中还可以加入WGAN中常用的梯度惩罚项使得所得到的辨别器满足一阶李普系兹条件(1-Lipschitz constraint)。

又如，可使用如下的损失函数和WGAN中的梯度正则项来优化辨别器D_η的参数η：

还可构建辅助分类器AC_ω，用于确定解码器解码出的表示向量的类别(即标签)，其中，ω是辅助分类器的参数。可通过如下的损失函数优化辅助分类器AC_ω的参数ω：

其中，(x_i，y_i)～D_ind表示与标签y_i对应的语句x_i属于集合D_ind，x′～P_ψ表示x′服从分布P_ψ，分布P_ψ可通过softmax函数获得。

为了使表示向量

经过解码器的解码后产生的语句

具有难以辨别的意图(即语句

与作为正常命令的语句之间的相似度高于预定相似度，但是语句

却不是正常命令)，还可通过如下的损失函数对生成器G_ξ的参数ξ进行优化：

其中，

服从分布P_ψ，

为表达式(4)所示信息熵，分布P_ψ和分布P_ω可通过softmax函数获得。事实上，通过优化表达式(9)和表达式(11)所得到的生成器试图完成两个矛盾的目标，首先试图生成与数据分布相近的表示向量，其次试图生成无法令辅助分类器辨别出来的异常命令(例如，辨别出的标签之间的差异低于预定值或为同一标签)所对应的表示向量。

以下详细描述训练各个参数的示例。

示例一

从集合D_ind选取M个命令，使用Enc_φ将这M个命令编码为M个表示向量z_i(i＝1，2，…，M)。

为这M个表示向量添加高斯噪声，使得编码器将命令映射到的隐空间更加平滑。

使用表达式(7)所示的损失函数优化编码器Enc_φ和解码器Dec_ψ的参数，其中，将添加高斯噪声的表示。

示例二

从集合D_ind选取M个命令x_i，确定与每个命令对应的标签y_i(i＝1，2，…，M)。

使用编码器和解码器获得经过解码的命令x_i′，通过命令x_i′、标签y_i、以及表达式(10)优化辅助分类器AC_ω的参数ω。

示例三

从集合D_ind选取M个命令x_i，确定M个噪声(例如，高斯噪声)ε_i(i＝1，2，…，M)。通过编码器Enc_φ将命令x_i编码为表示向量z_i，通过生成器G_ξ对噪声ε_i进行处理可获得表示向量

通过表达式(8)所示的损失函数和WGAN中的梯度惩罚项优化辨别器D_η的参数η，使得辨别器能够有效区分表示向量z_i和表示向量

示例四

通过表达式(9)所示的损失函数优化生成器G_ξ的参数ξ。

示例三和示例四可交替进行，使得生成器G_ξ生成的表示向量与通过编码器编码而产生的表示向量尽可能接近，并且辨别器辨别出表示向量是生成器生成的表示向量还是编码器产生的表示向量的能力尽可能强。

示例五

从集合D_ind选取M个命令x_i，确定M个噪声(例如，高斯噪声)ε_i(i＝1，2，…，M)。

通过表达式(11)所述的损失函数优化生成器G_ξ的参数ξ，使得生成器G_ξ生成的表示向量经过解码器解码并且经过辨别器的分布后获得的标签之间的差异小于预定差异值，即具有难以辨别的意图。

通过以上参数优化(尤其是通过表达式(8)和(9)的参数优化)生成器生成的表示向量经解码后产生的命令(语句)与正常命令相似，同时可保证该命令不是正常命令。

通过以上的过程(可被称之为生成器训练过程)可确定生成器，通过确定的生成器可产生表示向量，表示向量经过解码后可获得语句，获得的语句可用于训练用于确定命令是正常命令还是异常命令的分类器。

需要注意的是，在上述过程中，使用解码器得到的语句是离散的，因此梯度无法使用随机梯度下降的方法正常回传，这一问题可通过使用一个连续近似方法解决，即对于每个时间步长采样得到的词语使用一个概率向量近似表示，这一概率向量可使用解码器在每个时间步长所预测的概率结果。在辅助分类器中使用这一概率向量替换所采样的词语，从而使得整个计算过程是可微的，从而解决梯度无法正常回传的问题。

同时本公开示例性实施例中的方法在优化编码器和解码器的过程中还可以使用一系列未标注数据(例如，未标注标签的命令)，这些未标注数据可使得所生成的伪异常命令更加有效。

根据本公开的另一示例性实施例，可通过如下步骤训练：

1.在D_ind中选取M个样本，然后使用编码器Enc生成M个表示向量z_i(i＝1，2，…，M)。

2.为这M个表示向量添加高斯噪声。

3.使用表达式(7)所示的损失函数优化自编码机(包括编码器和解码器)的参数。

4.使用解码器解码出M个句子x_i′(i＝1，2，…，M)。

5.基于x_i′，使用表达式(10)优化辅助分类器的参数。

6.在D_ind中选取另外M个样本x_i(i＝1，2，..，M)，并且选取M个噪声ε_i(i＝1，2，..，M)，然后使用编码器Enc生成M个真表示向量z_i(i＝1，2，..，M)，并使用生成器G生成M个假表示向量

7.使用表达式(8)与WGAN中所使用的梯度正则项优化辨别器D的参数。

8.在D_ind中选取另外M个样本x_i(i＝1，2，..，M)，并且选取M个噪声ε_i(i＝1，2，..，M)，然后使用编码器Enc生成M个真表示向量z_i(i＝1，2，..，M)，并使用生成器G生成M个假表示向量

9.使用表达式(9)所示的损失函数优化生成器G。

10.使用表达式(11)所示的损失函数优化生成器G。

根据本公开的又一示例性实施例，可定义如下异常命令检测任务：给定一系列正常命令

和一系列混合命令，这些混合命令中既包含正常命令又包含异常命令，并且构建一个分类器，这一分类器可预测所输入正常命令所对应的意图(即标签)，还可将所输入的异常命令拒绝掉。这里，

是正常命令的分布，可认为

服从分布

在本公开的各个示例性实施例中，可将

理解为服从

分布的集合，

和

可替换使用。

根据本公开的示例性实施例，在不使用根据本公开的生成器生成的数据训练分类器(可用于识别命令是正常命令还是异常命令的分类器)的情况下，可将具有本公开的示例性实施例的分类器的NUL模型与现有模型进行比较，比较结果如表1中所示。

表1

在表1中，模型(Model)可包括：softmax其他标签(Softmax Other Label，SM-OL)模型、二分类器(Binary)模型、本公开的模型ER+D_ood(熵正则化(Entropy Regularization)模型，即NUL模型中具有通过以上方法确定的分类器)、以及模型ER-T+D_ood(即使用温度调整策略进行处理后获得的模型，其中，温度调整策略包括将向量除以一个常数之后再输入到softmax函数)。在模型ER+D_ood和模型ER-T+D_ood以至于现有的模型的训练过程中，使用的命令可以是通过各种现有方法获得的命令，例如，通过网络爬虫获得的命令。

在测试时使用Bixby数据集(Bixby dataset)和FTO数据集(FTO dataset)，采用四个指标Acc.↑、AUROC↑、AUPR↑和FPR95↑，Acc.↑表示准确度，AUROC↑表示接收者操作特征曲线下的面积，AUPR↑表示召回率与精准率曲线下的面积，FPR95↑表示真值率95％下的误报率。

根据本公开的另一示例性实施例，在使用根据本公开的生成器生成的数据训练分类器(可用于识别命令是正常命令还是异常命令的分类器)的情况下，可将具有本公开的示例性实施例的分类器的NUL模型与现有模型进行比较，比较结果如表2中所示。

表2

在表2中，DOC模型是文档OOD分类(Document OOD Classification)模型，MSP模型是最大Softmax预测模型(Maximum Softmax Prediction)，MSP-T模型是经过温度调整策略的MSP模型。

ER+Rand模型的分类器在训练时使用现有方法产生的数据(例如，从一本书中摘取的语句)。ER+D_mix模型的分类器在训练时使用正常命令和异常命令的混合命令。

ER+AE-POG模型和ER+POG模型是在通过已上方法确定分类器时采用以上生成器生成的命令进行训练的情况下的模型。编码器和解码器合并在一起可称作自动编码器或自动编解码器。在训练ER+AE-POG模型中的分类器时，使用根据本公开的示例性实施例的生成器，使用的生成器是基于正常命令(例如，正常命令)和异常命令(例如，异常命令)确定或优化的。在训练ER+POG模型中的分类器时，使用根据本公开的示例性实施例的生成器，使用的生成器是基于正常命令(例如，正常命令)确定或优化的。

从以上的表1和表2可以看出基于本公开的示例性实施例的分类器的模型的各项指标均优于其他模型。

图3示出根据本公开的示例性实施例的用于区分正常命令和异常命令的接收者特征(Receiver Operating Characteristic，ROC)曲线。ROC曲线可评价异常点(与异常命令对应的点)检测性能。越接近左上角1.0的曲线，异常点检测性能越强。在图3中，FPR表示误报率，TPR表示真值率。

从图3可以看出，具有根据本公开的示例性实施例的分类器的模型ER+D_ood具有最强的异常点检测性能。

图4-7示出多个模型的OOD分数(OOD Score)的分布情况，其中，可通过以上表达式(6)计算OOD分数，横坐标表示OOD分数，纵坐标表示密度(例如，概率密度)，从图4-7中可以看出，模型ER+D_ood有效地区分了命令集D_ind和命令集D_ood。这样，容易确定合适的用于异常点检测的阈值。

图8示出多个模型的校准曲线，其中，横坐标是通过以上表达式(6)计算的分数，纵坐标是不同分数所对应的所有样本中，正常命令样本所占的比例。从图8可以看出，根据本公开的示例性实施例的分类器获得的异常点概率分布与真实异常点概率分布最接近。

图9-12示出多个模型的隐空间。从图9可以看出，具有根据本公开的示例性实施例的分类器的模型所获得的隐空间可更有效区分正常命令和异常命令。

如图13中所述，该设备可包括：确定单元210，通过与正常命令对应的第一训练数据和与异常命令对应的第二训练数据来优化第一损失函数的参数和第二损失函数的参数，以确定基于优化的参数的分类器。

作为示例，确定单元210将第一损失函数和第二损失函数的加权和作为第三损失函数；通过第一训练数据和第二训练数据来优化第三损失函数中的预测分布函数的参数，其中，优化第三损失函数中的预测分布函数的参数的步骤包括：通过第一训练数据计算第一损失函数的值；通过第二训练数据计算第二损失函数的值；通过第一损失函数的值和第二损失函数的值来计算第三损失函数的值；通过第三损失函数的值来优化预测分布函数的参数。

本公开的另一示例性实施例提供了一种确定生成器的设备，包括：确定单元，通过第一优化操作优化生成器，使得正常命令通过编码器的编码产生的第一表示向量与噪声通过生成器生成的第二表示向量之间的相似度在预定相似度以上；通过第二优化操作优化生成器，使得与通过解码器对所述第二表示向量进行解码得到的异常命令对应的标签之间的差异在预定差异以下。

作为示例，所述的设备还包括异常命令生成单元，通过优化的生成器和解码器产生异常命令。

作为示例，所述的设备还包括编码解码单元，将第三训练数据中的命令编码为表示向量，其中，第三训练数据包括正常命令或者包括正常命令和异常命令；为编码产生的表示向量添加噪声；将添加噪声的表示向量解码为命令，其中，所述确定单元根据解码产生的命令与未经过编码的对应命令之间的相似度，对编码器和解码器的参数进行优化。

作为示例，所述的设备还包括编码解码单元，获得第四训练数据中的命令先后经过编码和解码之后的解码结果，其中，第四训练数据包括正常命令和与正常命令对应的标签，其中，所述确定单元根据第四训练数据中的命令的标签与对应的解码结果之间的相似度，对辅助分类器的参数进行优化，其中，辅助分类器用于确定表示向量被编码为的命令的标签。

作为示例，所述分类器通过以上确定分类器的设备确定。

以上设备的具体实现方式可与以上描述的方法对应，设备尤其是设备的各个单元的具体实现方式可参照已上描述的方法来实现。

以上描述了本公开的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本公开的保护范围应该以权利要求的范围为准。

Claims

1.一种确定分类器的方法，包括：

通过与正常命令对应的第一训练数据和与异常命令对应的第二训练数据来优化第一损失函数的参数和第二损失函数的参数，以确定基于优化的参数的分类器。

2.如权利要求1所述的方法，其中，

第一损失函数是预测分布函数的负对数的数学期望，和/或，

第二损失函数是预测分布函数的负信息熵的数学期望。

3.如权利要求1或2所述的方法，其中，优化第一损失函数的参数和第二损失函数的参数的步骤包括：

将第一损失函数和第二损失函数的加权和作为第三损失函数；

通过第一训练数据和第二训练数据来优化第三损失函数中的预测分布函数的参数，

其中，优化第三损失函数中的预测分布函数的参数的步骤包括：通过第一训练数据计算第一损失函数的值；通过第二训练数据计算第二损失函数的值；通过第一损失函数的值和第二损失函数的值来计算第三损失函数的值；通过第三损失函数的值来优化预测分布函数的参数。

4.一种确定生成器的方法，包括：

通过第一优化操作优化生成器，使得正常命令通过编码器的编码产生的第一表示向量与噪声通过生成器生成的第二表示向量之间的相似度在预定相似度以上；

通过第二优化操作优化生成器，使得与通过解码器对所述第二表示向量进行解码得到的异常命令对应的标签之间的差异在预定差异以下。

5.如权利要求4所述的方法，还包括：

通过优化的生成器和解码器产生异常命令。

6.如权利要求4所述的方法，还包括：

通过编码器将第三训练数据中的命令编码为表示向量，其中，第三训练数据包括正常命令或者包括正常命令和异常命令；

为编码产生的表示向量添加噪声；

通过解码器将添加噪声的表示向量解码为命令；

根据解码产生的命令与未经过编码的对应命令之间的相似度，对编码器和解码器的参数进行优化。

7.如权利要求4所述的方法，还包括：

通过编码器和解码器获得第四训练数据中的命令先后经过编码和解码之后的解码结果，其中，第四训练数据包括正常命令和与正常命令对应的标签；

根据第四训练数据中的命令的标签与对应的解码结果之间的相似度，对辅助分类器的参数进行优化，其中，辅助分类器用于确定表示向量被编码为的命令的标签。

8.一种确定分类器的方法，包括：

通过权利要求1-3中任一项所述的方法确定分类器，

其中，第二训练数据包括使噪声先后经过生成器和解码器后产生的异常命令，所述生成器通过权利要求4-7中任一项权利要求所述的方法确定。

9.一种识别命令的方法，包括：

基于分类器计算输入的命令相对于多个标签的概率；

根据所述概率，确定所述命令的检测分数；

根据所述检测分数，确定所述命令为正常命令或异常命令。

10.根据权利要求9所述的方法，其特征在于，所述分类器通过如下步骤确定：通过与正常命令对应的第一训练数据和与异常命令对应的第二训练数据来优化第一损失函数的参数和第二损失函数的参数，以确定基于优化的参数的分类器。

11.一种包括至少一个计算装置和至少一个存储指令的存储装置的电子设备，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1到10中的任一权利要求所述的方法。

12.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1到10中的任一权利要求所述的方法。

13.一种确定分类器的设备，包括：

确定单元，通过与正常命令对应的第一训练数据和与异常命令对应的第二训练数据来优化第一损失函数的参数和第二损失函数的参数，以确定基于优化的参数的分类器。

14.一种确定生成器的设备，包括：

确定单元，通过第一优化操作优化生成器，使得正常命令通过编码器的编码产生的第一表示向量与噪声通过生成器生成的第二表示向量之间的相似度在预定相似度以上；通过第二优化操作优化生成器，使得与通过解码器对所述第二表示向量进行解码得到的异常命令对应的标签之间的差异在预定差异以下。

15.一种确定分类器的设备，包括：

权利要求12所述的设备的确定单元，

其中，第二训练数据包括使噪声先后经过生成器和解码器后产生的异常命令，生成器通过权利要求13所述的设备确定。

16.一种识别命令的设备，包括：

检测分数计算单元，基于分类器计算输入的命令相对于多个标签的概率，并且根据所述概率，确定所述命令的检测分数；

判断单元，根据所述检测分数，确定所述命令为正常命令或异常命令。