CN117574922A

CN117574922A - 一种基于多通道模型的口语理解联合方法及口语理解系统

Info

Publication number: CN117574922A
Application number: CN202311612285.XA
Authority: CN
Inventors: 杨力; 白思畅; 李国树; 宋欣渝
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-02-20

Abstract

本发明公开了一种基于多通道模型的口语理解联合方法及口语理解系统，包括：获取用户输入语句并进行词向量操作，获得词向量矩阵；将词向量矩阵输入至基础语义编码模型，获得上下文语义特征向量，并通过意图多通道和槽位多通道分别进行进一步特征提取，基于预设规则获得融合意向向量和融合槽位向量；基于交叉注意力机制将融合意向向量和融合槽位向量融合并进行处理后，进行局部特征加强操作，获得局部加强意图向量和局部加强槽位向量；基于局部加强意图向量与局部加强槽位向量获得结果，完成口语理解。本发明中意图和槽位任务之间建立显式连接的方法更利于联合模型的训练，进一步提高了口语理解联合模型的性能。

Description

一种基于多通道模型的口语理解联合方法及口语理解系统

技术领域

本发明属于智能口语理解和对话系统领域，特别是涉及一种基于多通道模型的口语理解方法及口语理解系统。

背景技术

对话系统是自然语言处理领域中重要的研究方向之一，它为生活带来便利，同时也节约了人力物力成本。口语理解模块作为对话系统的关键上游任务，它有着影响对话系统整体性能好坏的作用。口语理解中的两项关键任务是意图识别和槽位填充，为了让机器能更好理解用户的语言，向用户反馈正确的信息，意图识别和槽位填充两个子任务是人机对话系统构成的重点。

在早期，意图识别与槽位填充这两项任务分别进行独立建模训练。意图识别的目的是通过用户的输入语句来了解用户当前的需求，它是一种文本分类任务，旨在从用户的话语中提取出其所表达的意图和行为。意图识别任务通常使用以下几种方法：基于规则模板的方法、基于统计特征的机器学习方法以及基于深度学习的方法。槽位填充被定义为序列标注任务进行处理，从用户输入的语句里找到每个字或者词对应的语义槽位相关标签。槽位填充任务的解决方法可以分为四种：基于字典的方法、基于规则的方法、基于统计的方法和基于深度学习的方法。

但在口语理解任务中常常存在用户输入对话句子较简短、句子语义表达不明确或者有歧义等问题，使得独立建模训练的两项任务效果并不理想。随着深度学习的深入发展，这两项任务渐渐被用来进行联合建模训练，从而相互促进提高这两项任务的性能。研究者们认为将两个模型进行联合训练时，两个模型的结果是正向且相互促进，利用两个任务之间的相关性来提高总体训练的准确率，相比起两项任务的单独建模方法来说，联合训练方法取得的实验效果更好。

发明内容

本发明的目的是提供一种基于多通道模型的口语理解联合方法及口语理解系统，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于多通道模型的口语理解联合方法，包括：

获取用户输入语句，通过对所述用户输入语句进行词向量操作，获得词向量矩阵；

构建基础语义编码模型，将所述词向量矩阵输入至所述基础语义编码模型，获得上下文语义特征向量；

将所述上下文语义特征向量分别通过意图多通道和槽位多通道进行进一步特征提取，按照预设规则将特征提取结果进行融合，获得融合意向向量和融合槽位向量；

基于交叉注意力机制将所述融合意向向量和融合槽位向量融合，将融合后的向量处理后进行局部特征加强操作，获得局部加强意图向量和局部加强槽位向量；

基于局部加强意图向量获得意图识别结果，基于局部加强槽位向量获得槽位序列标签结果，完成口语理解联合训练。

可选的，所述基础语义编码模型选取BiLSTM，包括两个LSTM层，通过两个LSTM层将输入的词向量矩阵进行前向编码和后向编码，获得所述上下文语义特征向量。

可选的，所述意图多通道与槽位多通道包括多尺度卷积网络通道、注意力机制通道；其中，所述多尺度卷积网络通道包括多尺度卷积核、Relu激活函数及最大池化层。

可选的，所述预设规则包括采用求和平均的融合方法，将意图多通道和槽位多通道的特征提取结果分别进行融合，获得融合意向向量和融合槽位向量。

可选的，特征提取的过程包括：将所述上下文语义特征向量输入至所述多尺度卷积网络通道，获得意向局部特征向量和槽位局部特征向量；将所述上下文语义特征向量输入至所述注意力机制通道，获得意图注意力向量和槽位注意力向量。

可选的，基于交叉注意力机制将所述融合意向向量和融合槽位向量融合的过程包括：基于交叉注意力机制将融合槽位向量的槽位信息与所述融合意向向量融合后与融合意向向量进行残差连接，送入正则化层，获得交叉意向向量；将所述融合意向向量的意图信息与所述融合槽位向量融合后与融合槽位向量进行残差连接，送入正则化层，获得交叉槽位向量。

可选的，获得局部加强意图向量和局部加强槽位向量的过程包括：将所述交叉意向向量与所述交叉槽位向量进行拼接后，通过激活函数、全连接层与正则化层获得意图特征向量与槽位特征向量，将意图特征向量与槽位特征向量通过局部特征加强获得局部加强意图向量和局部加强槽位向量。

可选的，将所述局部加强意图向量与上下文语义特征向量做残差连接再输入最大池化层、全连接层和Softmax函数，得到意图识别结果；将所述局部加强槽位向量与上下文语义特征向量做残差连接再经过全连接层、序列标注得出槽位序列标签结果。

本发明还提供一种基于多通道模型的口语理解系统，包括：

模型调用模块、口语理解模块、结果输出模块；

所述模型调用模块调用用户选择的模型进行口语理解任务；

所述口语理解模块用于对用户输入语句进行分析，通过所述结果输出模块返回用户输入语句的意图识别结果和槽位序列标签结果并予以显示。

可选的，所述口语理解模块包括语句获取模块、预处理模块、语义特征提取模块、融合模块、交叉注意力模块、特征加强模块、识别模块；

所述语句获取模块用于获取用户输入语句；

所述预处理模块用于获得所述用户输入语句对应的词向量矩阵；

所述语义特征提取模块用于根据所述词向量矩阵获得上下文语义特征向量；

所述融合模块用于对所述上下文语义特征向量进行进一步特征提取，获得融合意向向量和融合槽位向量；

所述交叉注意力模块用于将融合意向向量和融合槽位向量进行相互融合，获得交叉意向向量和交叉槽位向量；

所述特征加强模块用于根据交叉意向向量和交叉槽位向量获得局部加强意图向量和局部加强槽位向量；

所述识别模块将局部加强意图向量和局部加强槽位向量分别送入各自的结果输出层得到意图结果和槽位标签序列结果。

本发明的技术效果为：

本发明利用多尺度卷积网络和注意力机制组成多通道对句子进行深度提取，为后面的意图槽位特征交互层和特征加强层提供表征能力更强的意图特征向量和槽位特征向量，使用交叉注意力机制融合意图信息和槽位信息，并将融合后的向量做局部特征加强操作，能有效地提升意图识别和槽位填充这两项任务的结果。本发明建立意图识别和槽位填充的显示训练连接，使得两个任务能相互正向指导对方，使得槽位信息能指导意图识别任务，意图信息能指导槽位填充任务，从而提高这两项任务联合训练的总体性能，进一步提高了口语理解联合模型的性能。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的双通道口语理解联合训练方法流程示意图；

图2为本发明实施例中的口语理解系统中基于多通道模型的口语理解联合训练方法的结构示意图；

图3为本发明实施例中的基于多通道模型的联合训练方法中口语理解结构图；

图4为本发明实施例中的实验结果示意图，(a)为ATIS数据集实验结果图，(b)为Snip数据集实验结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1-3所示，本实施例中提供一种基于多通道模型的口语理解联合方法及口语理解系统，包括：

图1是根据本发明一个实施例的多通道的口语理解联合训练方法流程示意图，结合上面的附图，对方案所列步骤进行详细说明：

步骤1：将输入模型中语句s的每个词，利用GloVe语言模型进行词向量操作，预训练好的嵌入矩阵表示为G∈R^|V|×l，词典中所含词汇总数表示为V，词向量嵌入维度大小表示为l。在G中检索到s语句中每一个词汇所对应的词向量，组成词向量矩阵w＝(w₁，w₂，...，w_n)，w∈R^|n|×l，n表示句子总数。

步骤2：BiLSTM作为本发明的基础语义编码模型，两个LSTM层对输入的词向量w＝(w₁，w₂,...，w_n)进行前向和后向编码，提取到了文本序列的上下文语义特征向量

步骤3：将步骤2输出的上下文特征向量H分别输入到意图和槽位的多通道中做进一步的特征提取。将上下文特征向量H通过意图和槽位的多尺度卷积网络通道，分别得到意向局部特征向量C_i和槽位局部特征向量C_s。将上下文特征向量H通过意图和槽位的注意力机制通道，分别得到意图注意力向量A_i和槽位注意力向量A_s。将向量C_i和向量A_i、向量C_s和向量A_s，分别进行意图和槽位的特征融合，得到融合意向向量v_i和融合槽位向量v_s。

步骤4：将步骤3得到的向量送入交叉注意力模块中，得到融入槽位信息的意图特征向量A′_i，即交叉意向向量，融入意图信息的槽位特征向量A′_s，即交叉槽位向量。

步骤5：将步骤4得到的融入槽位信息的意图特征向量A′_i和融入意图信息的槽位特征向量A′_s进行拼接，得到A_is，再分别通过激活函数、全连接层以及正则化层获得意图特征向量H_i和槽位特征向量H_s。为了进一步提高意图和槽位的特征向量的表现能力，将向量H_i和向量H_s通过特征加强模块分别得到局部加强意图向量和局部加强槽位向量/>

步骤6：将步骤5得到的向量与上下文语义特征向量H做残差连接再输入最大池化层、全连接层和Softmax函数，得到意图识别结果y_i。将步骤5得到的向量/>与上下文语义特征向量H做残差连接再经过全连接层和序列标注任务常用的CRF层中得出槽位序列标签结果y_s。

进一步地，步骤3具体包括：

步骤31：将上下文特征向量H分别通过意图和槽位的多尺度卷积网络通道，经过多尺度卷积核、Relu激活函数以及最大池化层得到意向局部特征向量C_i和槽位局部特征向量C_s；

步骤32：分别将上下文特征向量H送入意图和槽位的注意力通道，得到意图注意力向量A_i和槽位注意力向量A_s；

步骤33：分别融合意图通道的向量C_i和向量A_i，融合槽位通道的向量C_s和向量A_s，采用求和平均的融合方法分别进行意图和槽位的特征融合，得到融合后的包含局部特征信息和注意力信息的融合意向向量v_i和融合槽位向量v_s。

进一步地，步骤31具体包括为：

C_i＝MaxPool(ReLu(W₁·H+b₁))表示为通过多尺度卷积网络通道的局部信息向量；

C_s＝MaxPool(ReLu(W₂·H+b₂))表示为通过多尺度卷积网络通道的局部槽位信息向量；

进一步地，步骤32具体包括为：

A_i＝softmax(H·W_intent)·W_intent表示为通过注意力机制通道的意图信息向量；

A_s＝softmax(H·W_slot)·W_slot表示为通过注意力机制通道的槽位信息向量；

进一步地，步骤4具体包括：

步骤41：用交叉注意力机制分别把槽位信息融入到意图特征向量中、把意图信息融入到槽位特征向量中；

步骤42：将得到的向量与v′_i、v′_s残差连接后送入正则化层，得到交叉更新后的意图特征向量A′_i和槽位特征向量A′_s；

进一步地，步骤41具体包括为：

表示为融入槽位信息的意图特征向量；

表示为融入意图信息的槽位特征向量；

进一步地，步骤42具体包括为：

为了减少模型的过拟合和梯度消失等问题，进行残差连接操作。将在得到的v′_s和v′_s经过一个Add&Norm层进行处理，其中Add为残差块，为了让得到的特征数据更加精确，特征向量的v′_s和v′_s分别与v_i和vs进行残差连接，再经过Norm层即标准化，采用的是层标准(Layer Normalization)；

A′_i＝LN(v′_i+v_i)表示为交叉更新后包含槽位信息的意图特征向量；

A′_s＝LN(v′_s+v_s)表示为交叉更新后包含意图信息的槽位特征向量；

进一步地，步骤5具体包括：

步骤51：把槽位信息融入到意图特征信息的特征向量A′_i与意图信息融入到槽位特征信息的特征向量A′_s进行拼接得到A′_s；

步骤52：使两个任务进一步融合相互指导，使用上下文窗口提高任务表现，记为再分别通过激活函数、全连接层以及正则化层获得H_i和H_s；

步骤53：为了进一步增强意图和槽位的特征向量的表现能力，来捕获一些丰富的意图、槽位特征向量。将融合后的向量v_i和v_s与更新后的意图特征向量A′_i和槽位特征向量A′_s做和差积运算；

表示为局部特征加强的意图向量。

表示为局部特征加强的槽位向量。

图2是根据本发明一个实施例的口语理解系统中基于多通道模型的口语理解联合训练方法的结构示意图。结合附图，对结构图进行详细说明：

将输入模型中语句s的每个词，利用Glove语言模型进行词向量操作；

使用BiLSTM作为本发明的基础语义编码模型，它将提取到文本序列的上下文语义特征向量H；

上下文特征向量H分别输入到意图和槽位的多通道中进一步的提取意图和槽位特征向量；

送入交叉注意力模块中，将意图和槽位特征向量进行相互融合指导；

进入特征加强模块，分别得到局部特征加强后的意图向量和槽位向量；

将得到的意图和槽位特征向量分别送入各自的结果输出层得到意图结果和槽位标签序列结果。

图3是根据本发明一个实施例的基于多通道模型的联合训练方法中口语理解结构图。结合附图，对该图进行详细说明：

模型调用模块是口语理解流程的第一步，它在是让用户选择想使用的模型进行口语理解任务，选中的模型参与接下来的口语理解任务中。用户选择需要用到的口语理解模型，初次登陆若不进行选择则默认配置模型，模型管理模块是展示本模块不同的口语理解模型，查看不同口语理解模型的具体参数。系统默认模型是用Snips数据集训练的关于航空服务方面的口语理解模型，和ATIS数据集训练关于日常对话口语理解模型。其他模型是指如果用户有其他方面的数据集训练出来的模型，也可放入系统中，使系统应用更加广泛。口语理解联合模型是本系统相较于普通口语理解模型的提出的升级迭代版本，其模型性能更好。用户既可以使用系统默认的模块对口语进行理解，也可以选择其他模型进行口语理解。用户可以对模型进行删除和增加新模型的操作，使得系统的口语理解模型更加丰富。

口语理解模块是整个系统的核心功能，该模块先让用户输入语句，选择想要应用的口语理解模型，然后调用本发明的口语理解联合模型对输入语句进行分析，通过结果输出模块返回生成语句的意图预测和槽位标签序列预测显示在浏览器上。

基于多通道模型的口语理解系统，包括：

模型调用模块、口语理解模块、结果输出模块；

模型调用模块调用用户选择的模型进行口语理解任务；

读取模型模块就是封装好的命令行来调用传入模型，这是python的方法；

口语理解模块用于对用户输入语句进行分析，通过结果输出模块返回用户输入语句的意图识别结果和槽位序列标签结果并予以显示。

口语理解模块包括语句获取模块、预处理模块、语义特征提取模块、融合模块、交叉注意力模块、特征加强模块、识别模块；

语句获取模块用于获取用户输入语句；

预处理模块用于获得用户输入语句对应的词向量矩阵；

语义特征提取模块用于根据词向量矩阵获得上下文语义特征向量；

融合模块用于对上下文语义特征向量进行进一步特征提取，获得融合意向向量和融合槽位向量；

交叉注意力模块用于将融合意向向量和融合槽位向量进行相互融合，获得交叉意向向量和交叉槽位向量；

特征加强模块用于根据交叉意向向量和交叉槽位向量获得局部加强意图向量和局部加强槽位向量；

识别模块将局部加强意图向量和局部加强槽位向量分别送入各自的结果输出层得到意图结果和槽位标签序列结果。

对比实验

在ATIS数据集和Snips数据集中分别对比意图准确率ACC_intent、语义槽位填充F1_slot、句子级别准确率ACC_overdll，其对比结果如表下所示。ATIS数据集下的结果如表1所示，Snip数据集下的结果如表2所示。

表1

表2

在两个数据集中，本实施例提出的MCFE-CrossattE口语理解模型与其他模型相比，MCFE-CrossattE模型的各项评价指标达到最优。在ATIS数据集中，MCFE-CrossattE模型与DCA-Net模型相比，在ACC_intenl、F1_slot和ACC_overall上分别提升了0.3％、0.91％和0.85％；在Snips数据集中，MCFE-CrossattE模型与DCA-Net模型相比，在ACC_intent、F1_slot和ACC_overall上分别提升了0.21％、0.97％和1.33％。

上述实验表明，利用多尺度卷积网络和注意力机制组成多通道对句子进行深度提取，为后面的意图槽位特征交互层和特征加强层提供表征能力更强的意图特征向量和槽位特征向量，使用交叉注意力机制融合意图信息和槽位信息，并将融合后的向量做局部特征加强操作，能有效地提升意图识别和槽位填充这两项任务的结果。该发明也表明了意图和槽位任务之间建立显式连接的方法更利于联合模型的训练，进一步提高了口语理解联合模型的性能。

2.该方法多通道特征提取效果分析

为了验证加入多通道特征提取方法对于口语理解任务是否有正向影响，通过实验结果表明，本发明口语理解方法能够在多通道特征提取下表现出较好的性能效果。它的具体实验结果如图4所示。

(1)Baseline：是指输入语句经过Golve语言模型、BiLSTM网络后再经过交叉注意力模块和局部特征加强模块，最后输出意图识别结果和槽位序列标签结果。

(2)Baseline+IS_Attention：是指首先输入语句经过Golve语言模型、BiLSTM网络后，分别经过意图注意力层和槽位注意力层后，得到意图特征向量和槽位特征向量，然后经过交叉注意力模块和局部特征加强模块，最后输出意图识别结果和槽位序列标签结果。

(3)Baseline+IS_Attention+MSCNN：是指本发明所提出用多通道特征提取层，用多通道特征提取层分别来提取意图和槽位的特征向量，输出意图识别结果和槽位序列标签结果。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于多通道模型的口语理解联合方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多通道模型的口语理解联合方法，其特征在于，

所述基础语义编码模型选取BiLSTM，包括两个LSTM层，通过两个LSTM层将输入的词向量矩阵进行前向编码和后向编码，获得所述上下文语义特征向量。

3.根据权利要求1所述的基于多通道模型的口语理解联合方法，其特征在于，

所述意图多通道与槽位多通道包括多尺度卷积网络通道、注意力机制通道；其中，所述多尺度卷积网络通道包括多尺度卷积核、Relu激活函数及最大池化层。

4.根据权利要求3所述的基于多通道模型的口语理解联合方法，其特征在于，

所述预设规则包括采用求和平均的融合方法，将意图多通道和槽位多通道的特征提取结果分别进行融合，获得融合意向向量和融合槽位向量。

5.根据权利要求3所述的基于多通道模型的口语理解联合方法，其特征在于，

特征提取的过程包括：将所述上下文语义特征向量输入至所述多尺度卷积网络通道，获得意向局部特征向量和槽位局部特征向量；将所述上下文语义特征向量输入至所述注意力机制通道，获得意图注意力向量和槽位注意力向量。

6.根据权利要求1所述的基于多通道模型的口语理解联合方法，其特征在于，

基于交叉注意力机制将所述融合意向向量和融合槽位向量融合的过程包括：基于交叉注意力机制将融合槽位向量的槽位信息与所述融合意向向量融合后与融合意向向量进行残差连接，送入正则化层，获得交叉意向向量；将所述融合意向向量的意图信息与所述融合槽位向量融合后与融合槽位向量进行残差连接，送入正则化层，获得交叉槽位向量。

7.根据权利要求6所述的基于多通道模型的口语理解联合方法，其特征在于，

获得局部加强意图向量和局部加强槽位向量的过程包括：将所述交叉意向向量与所述交叉槽位向量进行拼接后，通过激活函数、全连接层与正则化层获得意图特征向量与槽位特征向量，将意图特征向量与槽位特征向量通过局部特征加强获得局部加强意图向量和局部加强槽位向量。

8.根据权利要求1所述的基于多通道模型的口语理解联合方法，其特征在于，

将所述局部加强意图向量与上下文语义特征向量做残差连接再输入最大池化层、全连接层和Softmax函数，得到意图识别结果；将所述局部加强槽位向量与上下文语义特征向量做残差连接再经过全连接层、序列标注得出槽位序列标签结果。

9.一种基于权利要求1-8任一项所述的基于多通道模型的口语理解联合方法的口语理解系统，其特征在于，

模型调用模块、口语理解模块、结果输出模块；

所述模型调用模块调用用户选择的模型进行口语理解任务；

10.根据权利要求9所述的口语理解系统，其特征在于，

所述口语理解模块包括语句获取模块、预处理模块、语义特征提取模块、融合模块、交叉注意力模块、特征加强模块、识别模块；

所述语句获取模块用于获取用户输入语句；