CN117151121B

CN117151121B - 一种基于波动阈值与分割化的多意图口语理解方法

Info

Publication number: CN117151121B
Application number: CN202311401665.9A
Authority: CN
Inventors: 杨光; 王永梅; 王芃力; 杨露; 张友华; 郑雪瑞; 轩亚恒; 陈文希; 后睿晗; 赵雨阳
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-01-12
Anticipated expiration: 2043-10-26
Also published as: CN117151121A

Abstract

本发明涉及一种口语理解方法，具体是一种基于波动阈值与分割化的多意图口语理解方法，该方法包括：对于一段输入的话语将其编码为隐藏状态序列后得到预测的意图和槽值，将预测的槽值与意图转化为向量形式嵌入到模型中；利用SD计算一个范围加权矩阵与输入的意图对应相乘，划定其范围后结合注意力机制融合意图检测和槽位填充结果的重要语义信息，使用波动阈值进行输出判断。本发明可以获得每个意图的既定范围，从而起到了减少范围外标记干扰的作用；通过设置基准阈值，然后运用斯皮尔曼系数与余弦相似度轮询对于每一个初预测意图和当前意图范围内的每个词进行相似度计算作为基准浮动阈值，提高了模型对意图边缘的检测的准确性。

Description

一种基于波动阈值与分割化的多意图口语理解方法

本发明涉及一种口语理解方法，尤其涉及一种基于波动阈值与分割化的多意图口语理解方法。

背景技术

自然语言理解由两个子任务组成，包括意图检测（ID）和槽填充（SF），这两个子任务允许对话系统创建一个语义框架来总结用户的请求；其中多意图口语理解（SLU）作为一种新型的、更为复杂的口语理解场景，越来越受到人们的关注。

目前，在多意图口语理解的研究中已经解决了很大一部分问题，并且也取得了很高的精度，但与简单的SLU不同，此场景中的每个意图都有其特定的语义范围，超出范围的语义信息会干扰或者误导预测，而且大多数工作都是用阈值预测多个意图，其中常见的做法是估计标签实例概率并选择概率高于阈值的意图标签，因此，如何有效的划定意图范围与增强阈值的鲁棒性是值得研究的问题。

总的来说，提升多意图口语理解的方法主要分为两大类，一种是提升意图和槽之间的相关性，另一种是从其他方面提升模型的鲁棒性；比如一种叫DGIF的框架，它首先利用标签的语义信息来给模型增加信号和丰富的先验，然后构建了一个多路的活动图，以模拟意图和槽之间的相关性，具体是利用一种新的方法来构建基于标签语义注入的交互图，它可以自动更新图以更好地减轻错误传播，再如一种基于Transformer的无阈值多nlu模型（TFMN），并在不依赖阈值的情况下检测多个意图，利用基于转换器的编码器的上层来生成多粒度表示。

然而，在多意图检测中每一个意图都对应着一个具体的作用域，相当于划定了一个具体的语义范围，如果语义信息超出了范围则会导致错误的预测，而且错误的语义信息还可能会在槽填充和意图检测任务交互时进行传播，从而引发错误的扩大；另外，大多数多意图检测任务都是通过一个既定的阈值来判断当前被估计标签是否属于实际意图，这种简单的一分为二的意图输出方式往往会导致在边缘化的意图信息会被错误的认为不属于实际意图。

发明内容

本发明的目的在于提供一种基于波动阈值与分割化的多意图口语理解方法，旨在解决上述背景技术中所提出的技术问题。

为实现上述目的，本发明提供了如下的技术方案：

一种基于波动阈值与分割化的多意图口语理解方法，所述的多意图口语理解方法包括以下步骤：

对于一段输入的话语将其编码为隐藏状态序列后得到初步预测的意图和槽值，将初步预测的槽值与意图转化为向量形式嵌入到模型中；

利用SD计算一个范围加权矩阵与输入的意图对应相乘，划定其范围后结合注意力机制融合意图检测和槽位填充结果的语义信息，使用波动阈值进行最终结果的判断输出。

作为本发明方案的进一步限定，所述对于一段输入的话语将其编码为隐藏状态序列后得到预测的意图和槽值的步骤包括：

将输入的话语送入编码器，利用编码器将文本形式的话语转换成隐藏状态的序列；

基于编码器生成的隐藏状态序列，进行初步的槽填充和意图检测操作，得到初步预测的槽值和意图。

作为本发明方案的进一步限定，所述利用编码器将文本形式的话语转换成隐藏状态的序列的步骤包括：用一个编码器来将文本形式的话语转换成隐藏状态序列，其中，/>表示Transformer模型的输入和输出维度大小，所述编码器由两个Transformer编码器层组成。

作为本发明方案的进一步限定，所述将初步预测的槽值与意图转化为向量形式的步骤包括：

初步预测的槽值和意图结果表示为：

（1）

（2）

通过softmax激活函数与全连接矩阵将未规范化的预测结果进行变换，得到槽值的结果向量和意图的结果向量：

（3）

（4）

其中，是输出的槽值序列；/>是输出的意图的预测序列；/>是输出槽值序列中对应的第j个；/>是槽标签的类别；/>是意图标签的类别；b是偏置矩阵；E是一个全连通矩阵；/>是经过激活函数变换后的第j个槽值的结果向量；/>是经过激活函数变换后的第j个意图的结果向量；/>是输入的隐藏状态序列的第j个序列；softmax是一个激活函数；Pool是指平均轮询操作；/>表示将数据整合的连接操作；W是权重矩阵；y是做过平均轮询操作的平均值。

作为本发明方案的进一步限定，所述利用SD计算一个范围加权矩阵与输入的意图对应相乘，划定其范围后结合注意力机制融合意图检测和槽位填充结果的重要语义信息，使用波动阈值进行输出判断的步骤包括：

在SD中，计算一个范围加权矩阵，利用所述范围加权矩阵，生成范围敏感的隐藏状态和结果嵌入向量；

通过使用注意力机制来指导融合意图检测和槽位填充结果的重要语义信息，将不同任务的结果进行集成，生成一个结果语义向量；

通过联合波动阈值的解码器，合并结果语义向量和范围敏感的隐藏状态，生成最终的任务结果并输出。

作为本发明方案的进一步限定，所述在SD中，计算一个范围加权矩阵，利用所述范围加权矩阵，生成范围敏感的隐藏状态和结果嵌入向量的步骤包括：

计算一个权重矩阵，对其进行空间上的线性转换：

（5）

（6）

其中，A是权重因子；W是一个全连通矩阵；W，I，S都存在于同一个欧氏空间中，计算范围隐藏状态和获得具有范围敏感结果嵌入的意图和槽值：

（7）

（8）

（9）

其中，表示范围敏感的隐藏状态序列，/>表示范围敏感的结果槽值嵌入向量，/>表示范围敏感的结果意图嵌入向量；/>是指在这个/>隐藏序列周围的所有话语信息向量；是指在当前/>槽值周围所有的槽值信息向量；/>是指在当前/>意图周围所有的意图信息向量；/>是范围权重矩阵。

作为本发明方案的进一步限定，所述合并结果语义向量和范围敏感的隐藏状态的步骤包括：

把范围敏感信息融入结果语义向量，利用范围信息获得综合隐藏状态序列：

（10）

其中，R是指融合了槽值与意图结果嵌入向量的高维度向量，；FNN指全连接层；Norm是一个规范化步骤，通过调整衰弱这一层的权重，对输出含有范围信息的隐藏状态序列进行L2正则化：

（11）

这里的W指的是综合隐藏状态序列输入层的权重值，这里的H就是我们的综合隐藏状态序列，是前一阶段的输入，/>、/>、/>为可学习参数；

将综合隐藏状态序列带入后得到意图和槽值的最终结果：

（12）

（13）

输出槽值和意图的概率：

（14）

（15）

其中，表示意图结果的概率；/>表示槽值结果的概率；

这里输出的结果带有标签概率信息，进一步通过波动阈值选择合适的意图与槽值进行最终结果输出。

作为本发明方案的进一步限定，所述通过波动阈值选择合适的意图与槽值进行最终结果输出的步骤包括：运用斯皮尔曼系数与余弦相似度轮询对于每一个初预测意图和当前意图范围内的每个词进行计算，然后对系数/>、/>进行调整，设置基准阈值记为/>，得出波动阈值为K，采用K值进行输出筛选，通过波动阈值K进行联合判断输出，选择标签概率大于阈值的意图与槽值进行输出；

其中，系数、/>通过训练神经网络模型来调整，结合斯皮尔曼相关系数和余弦相似度的估计相似性得分得到，/>是当前意图范围内的每个词， />是每一个初预测意图的结果嵌入向量：

(16)

（17）

其中，是斯皮尔曼系数；/>是向量差异的平方和；n是样本容量。

作为本发明方案的进一步限定，在模型训练的过程中，还包括最小化整体损失的步骤：当总损失函数未达到预设条件时，迭代更新上述模型的参数，直至总损失函数达到预设条件；

其中，进行槽值和意图损失函数的计算：

（18）

（19）

（20）

其中，K（*）表示经过波动阈值成功输出的意图；表示汉明损失函数，汉明损失函数是一个指示函数，输出为0或1；

其中，BCE是一种常用于二分类问题的损失函数，BCE损失函数的定义如下，利用最大似然进行计算：

（21）

其中：是真实的标签，为0或1，表示样本的实际类别；/>是模型的预测输出，/>是一个介于0和1之间的值，表示模型对样本属于正类的置信度；/>表示自然对数；BCE损失函数的目标是最小化真实标签和模型预测之间的差异；

总体损失如公式（22）所示：

（22）

其中、/>、/>都是超参数，用于平衡三种损失对总损失的影响。

与现有技术相比，本发明提供的基于波动阈值与分割化的多意图口语理解方法的有益效果是：

第一，本发明通过输入从隐藏状态序列得到的意图检测ID和槽填充SF，计算一个范围加权矩阵，通过它可以获得每个意图的既定范围，从而起到了减少范围外标记干扰的作用。

第二，通过设置基准阈值，然后运用斯皮尔曼系数与余弦相似度轮询对于每一个初预测意图和当前意图范围内的每个词进行相似度计算作为基准浮动阈值，提高了模型对意图边缘的检测的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为本发明一种基于波动阈值与分割化的多意图口语理解方法的框架图；

图2为本发明提供的多意图口语理解方法的实现流程图；

图3为本发明提供的多意图口语理解方法的一个子流程图；

图4为本发明提供的多意图口语理解方法的另一个子流程图；

图5为本发明提供的一种计算机设备的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明；应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

目前，在多意图检测中，每一个意图都对应着一个具体的作用域，相当于划定了一个具体的语义范围，如果语义信息超出了范围则会导致错误的预测，而且错误的语义信息还可能会在槽填充和意图检测任务交互时进行传播，从而引发错误的扩大；另外，大多数多意图检测任务都是通过一个既定的阈值来判断当前被估计标签是否属于实际意图，这种简单的一分为二的意图输出方式往往会导致在边缘化的意图信息会被错误的认为不属于实际意图。

为解决上述问题，本发明提出了一种特殊的范围分割方法（SD）结合波动阈值输出。在通过编码器将输入话语建模为隐藏状态，然后将根据隐藏状态序列得到的初步的ID和SF嵌入后，在SD中，我计算了一个范围加权矩阵，通过它我们获得了既定范围的隐藏状态和结果嵌入向量，SD将范围信息合并到模型中，并减少了范围外标记的干扰；

在随后输出每个意图标签的概率时，我们采用波动阈值的方法，以原始设定阈值作为基准，然后计算归一化加权后的槽序列中每个槽值与话语单词相似度作为基准浮动阈值，当某些单词与槽值相似度较高时，浮动阈值会将其意图也作为真实意图，这种方式有效的解决了以前固定阈值容易忽略边缘化意图的问题。

名词解释：

槽填充（Slot Filling）是自然语言处理（NLP）中的一项任务，通常与自然语言理解（NLU）和对话系统相关。该任务的主要目标是从用户的输入中识别和提取特定的信息单元，这些信息单元通常称为槽（Slots），并将其映射到预定义的槽值（Slot Values），例如，在一个餐厅预订应用中，槽可以包括预订日期、预订时间、人数等。

隐藏状态序列是一种在序列模型和时间序列数据分析中常用的概念，是一个高维度的向量。它通常用于描述系统或模型在不同时间步骤或位置上的内部状态。隐藏状态序列在许多领域都有应用，包括自然语言处理、机器翻译、语音识别、时间序列预测和强化学习等。

图1示出了本发明基于波动阈值与分割化的多意图口语理解方法的系统架构图。以下结合具体实施例对本发明的具体实现进行详细描述。

实施例1

如图2所示，在本发明实施例中，提供了一种基于波动阈值与分割化的多意图口语理解方法，所述的多意图口语理解方法包括以下步骤：

步骤S10：对于一段输入的话语将其编码为隐藏状态序列后得到初步预测的意图和槽值，将初步预测的槽值与意图转化为向量形式嵌入到模型中；

步骤S20：利用SD计算一个范围加权矩阵与输入的意图对应相乘，划定其范围后结合注意力机制融合意图检测和槽位填充结果的语义信息，使用波动阈值进行最终结果的判断输出。

具体过程为：对于一段输入的话语将其编码为隐藏状态序列后得到预先的意图和槽值，将得到的槽值与意图转化为向量形式嵌入到模型中，再利用SD计算一个范围加权矩阵与输入的意图对应相乘，划定其范围后结合注意力机制融合意图检测（ID）和槽位填充（SF）结果的语义信息，最后使用波动阈值进行输出判断，增强其输出的鲁棒性并提升输出准确率。

在本发明实施例中，SLU任务的输入是一段口语或语音输入，这段输入被分解成一个令牌序列，通常是单词或字符的序列，用符号X={，.....，/>}来表示，其中/>到/>代表输入文本中的各个令牌，在SLU任务中，模型会处理这个令牌序列，以从口语输入中提取出有用的语义信息，如意图和槽位信息。

在本发明实施例中，槽填充（SF）是一个序列标注任务，它的目标是预测口语输入中的槽位信息。槽位通常是与任务相关的关键信息，例如，在餐厅预订任务中，槽位可以包括日期、时间、人数等信息。任务的输出是一个槽位标签序列，其中每个标签y表示与输入中的相应令牌相关联的槽位信息。

意图检测（ID）是一个多标签语义分类任务，其目标是预测整个口语输入中的意图标签，在多意图对话中，用户可能会表达多个意图或目的，任务的输出是一个意图标签序列，其中每个标签y表示口语输入中涉及的不同意图，m表示在给定的口语输入中可能存在的不同意图数量。

进一步的，如图3所示，在本发明实施例中，所述对于一段输入的话语将其编码为隐藏状态序列后得到预测的意图和槽值的步骤包括：

步骤S11：将输入的话语送入编码器，利用编码器将文本形式的话语转换成隐藏状态的序列；

步骤S12：基于编码器生成的隐藏状态序列，进行初步的槽填充和意图检测操作，得到初步预测的槽值和意图。

其中，在本发明实施例中，首先，输入的话语被送入一个编码器（Encoder），这是一个神经网络或模型的部分，用于将文本话语转换成隐藏状态的序列，编码器的目标是捕捉输入话语的语义信息，并将其表示为一系列隐藏状态；

基于编码器生成的隐藏状态序列，进行初步的槽填充（SF）和意图检测（ID）操作，这意味着模型会根据隐藏状态来预测话语中的槽位信息和意图标签，这些预测的结果可以是槽位序列和意图标签序列。

在进一步的嵌入结果过程中，将初步的SF和ID结果嵌入到模型中，这通常包括将预测的槽位和意图标签转换成向量形式，以便后续的处理和融合。

进一步的，在本发明实施例中，所述利用编码器将文本形式的话语转换成隐藏状态的序列的步骤包括：用一个编码器来将文本形式的话语转换成隐藏状态序列，其中，/>表示Transformer模型的输入和输出维度大小，所述编码器由两个Transformer编码器层组成，Transformer框架是一种用于序列到序列任务的强大神经网络架构，通常用于处理自然语言处理任务。

进一步的，所述将初步预测的槽值与意图转化为向量形式的步骤包括：

初步预测的槽值和意图结果表示为：

（1）

（2）

通过一个激活函数获得两个结果向量，具体的，通过softmax激活函数与全连接矩阵将未规范化的预测结果变换为非负数并且总和为1，同时让模型保持可导的性质，得到了结果的槽值和意图结果嵌入向量：

（3）

（4）

其中，是输出的槽值序列；/>是输出的意图的预测序列；/>是输出槽值序列中对应的第j个；/>是槽标签的类别；/>是意图标签的类别；b是偏置矩阵；E是一个全连通矩阵；/>是经过激活函数变换后的第j个槽值的结果向量；/>是经过激活函数变换后的第j个意图的结果向量；/>是输入的隐藏状态序列的第j个序列；softmax是一个激活函数，能够将未规范化的预测变换为非负数并且总和为1，同时让模型保持可导的性质；Pool是指平均轮询操作，通常是在计算或数据处理领域中的一种操作，用于获取或计算一组数据的平均值，其中数据可能包括数字、测量值或其他类型的信息；/>表示将数据整合的连接操作；W是权重矩阵；y是做过平均轮询操作的平均值。

如图4所示，在本发明实施例中，所述利用SD计算一个范围加权矩阵与输入的意图对应相乘，划定其范围后结合注意力机制融合意图检测和槽位填充结果的语义信息，使用波动阈值进行输出判断的步骤包括：

步骤S21：在SD中，计算一个范围加权矩阵，利用所述范围加权矩阵，生成范围敏感的隐藏状态和结果嵌入向量；

步骤S22：通过使用注意力机制来指导融合意图检测和槽位填充结果的重要语义信息，将不同任务的结果进行集成，生成一个结果语义向量；

步骤S23：通过联合波动阈值的解码器，合并结果语义向量和范围敏感的隐藏状态，生成最终的任务结果并输出。

具体的，SD（Scope-Detect）范围检测与结果嵌入：在SD中，首先计算一个范围加权矩阵，该矩阵用于考虑输入话语中不同部分的范围信息；利用这个范围加权矩阵，可以生成范围敏感的隐藏状态和结果嵌入向量；再通过使用注意力机制来融合意图检测（ID）和槽位填充（SF）结果的语义信息，这一步的目标是将不同任务的结果进行集成，以生成一个结果语义向量，其中包含了有关任务的综合信息；最终的SLU（Spoken LanguageUnderstanding）输出是通过联合波动阈值的解码器（Decoder）生成的，在这一步骤中，合并了结果语义向量和范围敏感的隐藏状态，以生成最终的任务结果；

进一步的，在最小化整体损失计算中，训练上述模型，当总损失函数未达到预设条件时，迭代更新上述模型的参数，直至总损失函数达到预设条件。

进一步的，在本发明实施例中，所述在SD中，计算一个范围加权矩阵，利用所述范围加权矩阵，生成范围敏感的隐藏状态和结果嵌入向量的步骤包括：

先计算出一个权重矩阵，对其进行空间上的线性转换，以便划分其范围：

（5）

（6）

其中，A是权重因子，能够反映空间范围信息，反映空间范围内的相关度，将所有权重因子归一化可以得到范围权重矩阵；W是一个全连通矩阵，W，I，S都存在于同一个欧氏空间中，计算范围隐藏状态和获得有范围嵌入的意图和槽值：

（7）

（8）

（9）

其中，表示范围敏感的隐藏状态序列，/>表示范围敏感的结果槽值嵌入向量，/>表示范围敏感的结果意图嵌入向量；/>是指在这个/>话语周围的所有话语信息；/>是指在当前/>槽值周围所有的槽值信息；/>是指在当前/>意图周围所有的意图信息；/>是范围权重矩阵，隐藏状态序列中每一个信息点都与一个对应的权重矩阵相乘，可以综合反映当前某一个信息点与周围范围的关系。

进一步的，在本发明实施例中，所述通过联合波动阈值的解码器，合并结果语义向量和范围敏感的隐藏状态，生成最终的任务结果并输出的步骤包括：

利用范围信息获得综合隐藏状态序列：

（10）

其中，R是指融合了槽值与意图结果嵌入向量的高维度向量，；FFN是指全连接层，FNN由多个层次组成，包括输入层、隐藏层和输出层，每个层次都由神经元组成，每个神经元都与前一层的所有神经元相连，信息从输入层经过一系列的隐藏层，然后传递到输出层，最终用于进行预测或分类；

Norm是一个规范化步骤，通过调整衰弱这一层的权重，对输出含有范围信息的隐藏状态序列进行L2正则化：

（11）

在自然语言处理任务中，FFN通常用于特征提取和转换，以便将原始文本数据转化为适合进行分类或预测的形式；

将综合隐藏状态序列带入后得到意图和槽值的最终结果：

（12）

（13）

输出槽值和意图的概率：

（14）

（15）

其中，表示意图结果的概率；/>表示槽值结果的概率；

这里输出的结果带有标签概率信息，进一步通过波动阈值选择合适的意图与槽值进行最终结果输出；

所述通过波动阈值选择合适的意图与槽值进行最终结果输出的步骤包括：运用斯皮尔曼系数与余弦相似度轮询对于每一个初预测意图和当前意图范围内的每个词进行计算，然后对系数/>、/>进行调整，设置基准阈值记为/>，得出波动阈值为K，采用K值进行输出筛选，通过波动阈值K进行联合判断输出，选择标签概率大于阈值的意图与槽值进行输出；

(16)

其中，是斯皮尔曼系数。

首先，对于每个变量，将其观察值按照从小到大的顺序进行排名，即为每个值分配一个秩次，如果有重复值，通常将它们的秩次设置为平均秩次；对于每一对观察值，即在两个变量中相同秩次的值，计算它们的差异；对于每对差异，计算其平方；对所有差异的平方求和，得到；计算样本容量n；使用以下公式计算斯皮尔曼相关系数：

（17）

其中：

是斯皮尔曼相关系数；/>是差异的平方和；n是样本容量（两个变量中的观察值数量），即话语中单词的数量；斯皮尔曼相关系数的取值范围在-1到1之间，其中1表示完全正相关，-1表示完全负相关，0表示没有线性相关性；它的主要优点之一是不受异常值的影响，因为它是基于秩次而不是原始观察值进行计算的；斯皮尔曼相关系数通常用于度量两个变量之间的单调关系，而不仅仅是线性关系；这使得它在一些情况下比皮尔逊相关系数更适用，尤其是在数据不满足线性关系假设的情况下。

在模型训练的过程中，还包括最小化整体损失的步骤：当总损失函数未达到预设条件时，迭代更新上述模型的参数，直至总损失函数达到预设条件；

其中，进行槽值和意图损失函数的计算：

（18）

（19）

（20）

BCE是一种常用于二分类问题的损失函数。它通常用于监督学习任务，如二进制分类，其中模型的目标是将输入数据分为两个类别（例如正类和负类）之一，BCE损失函数的定义如下，利用最大似然进行计算：

（21）

其中：是真实的标签，通常为0或1，表示样本的实际类别；/>是模型的预测输出，通常是一个介于0和1之间的值，表示模型对样本属于正类的置信度；/>表示自然对数；

BCE损失函数的目标是最小化真实标签和模型预测之间的差异，使模型的预测更接近真实标签，在二分类问题中，BCE通常用于训练逻辑回归模型或神经网络，其中输出层的激活函数是sigmoid函数，它将模型的原始输出映射到介于0和1之间的范围，以表示概率。

进一步的，BCE损失函数的目标是最小化真实标签和模型预测之间的差异；

总体损失如公式（22）所示：

（22）

综上所述，本发明提供的基于波动阈值与分割化的多意图口语理解方法具有如下的技术优势：

实施例2

如图5所示，在本发明实施例中，提供了一种计算机设备。

所述计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现基于波动阈值与分割化的多意图口语理解方法，该方法包括以下步骤：

该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行基于波动阈值与分割化的多意图口语理解方法。计算机设备的显示屏可以是液晶显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于波动阈值与分割化的多意图口语理解方法，其特征在于，包括以下步骤：

利用SD计算一个范围加权矩阵与输入的意图对应相乘，划定其范围后结合注意力机制融合意图检测和槽位填充结果的语义信息，使用波动阈值进行最终结果的判断输出；

所述对于一段输入的话语将其编码为隐藏状态序列后得到预测的意图和槽值的步骤包括：

基于编码器生成的隐藏状态序列，进行初步的槽位填充和意图检测操作，得到初步预测的槽值和意图；

所述利用编码器将文本形式的话语转换成隐藏状态的序列的步骤包括：用编码器将文本形式的话语转换成隐藏状态序列：；其中，/>表示Transformer模型的输入和输出维度大小，所述编码器由两个Transformer编码器层组成；

所述将初步预测的槽值与意图转化为向量形式的步骤包括：

初步预测的槽值和意图结果表示为：

（1）

（2）

（3）

（4）

其中，是输出的槽值序列；/>是输出的意图的预测序列；/>是输出槽值序列中对应的第j个；/>是槽标签的类别；/>是意图标签的类别；b是偏置矩阵；E是一个全连通矩阵；/>是经过激活函数变换后的第j个槽值的结果向量；/>是经过激活函数变换后的第j个意图的结果向量；/>是输入的隐藏状态序列的第j个序列；softmax是一个激活函数；Pool是指平均轮询操作；/>表示将数据整合的连接操作；W是权重矩阵；y是做过平均轮询操作的平均值；

所述利用SD计算一个范围加权矩阵与输入的意图对应相乘，划定其范围后结合注意力机制融合意图检测和槽位填充结果的重要语义信息，使用波动阈值进行输出判断的步骤包括：

通过联合波动阈值的解码器，合并结果语义向量和范围敏感的隐藏状态，生成最终的任务结果并输出；

所述在SD中，计算一个范围加权矩阵，利用所述范围加权矩阵，生成范围敏感的隐藏状态和结果嵌入向量的步骤包括：

计算一个权重矩阵，对其进行空间上的线性转换：

（5）

（6）

（7）

（8）

（9）

其中，表示范围敏感的隐藏状态序列，/>表示范围敏感的结果槽值嵌入向量，/>表示范围敏感的结果意图嵌入向量；/>是指在这个/>隐藏序列周围的所有话语信息向量；/>是指在当前/>槽值周围所有的槽值信息向量；/>是指在当前/>意图周围所有的意图信息向量；/>是范围权重矩阵；

所述合并结果语义向量和范围敏感的隐藏状态的步骤包括：

（10）

（11）

这里的W指的是综合隐藏状态序列输入层的权重值，这里的H就是综合隐藏状态序列，是前一阶段的输入，/>、/>、/>为可学习参数；

将综合隐藏状态序列带入后得到意图和槽值的最终结果：

（12）

（13）

输出槽值和意图的概率：

（14）

（15）

其中，表示意图结果的概率；/>表示槽值结果的概率；

其中，系数、/>通过训练神经网络模型来调整，结合斯皮尔曼相关系数和余弦相似度的估计相似性得分得到，/>是当前意图范围内的每个词，/>是每一个初预测意图的结果嵌入向量：

(16)

（17）

2.根据权利要求1所述的基于波动阈值与分割化的多意图口语理解方法，其特征在于，在模型训练的过程中，还包括最小化整体损失的步骤：当总损失函数未达到预设条件时，迭代更新上述模型的参数，直至总损失函数达到预设条件；

其中，进行槽值和意图损失函数的计算：

（18）

（19）

（20）

（21）

总体损失如公式（22）所示：

（22）