CN117574922A - 一种基于多通道模型的口语理解联合方法及口语理解系统 - Google Patents
一种基于多通道模型的口语理解联合方法及口语理解系统 Download PDFInfo
- Publication number
- CN117574922A CN117574922A CN202311612285.XA CN202311612285A CN117574922A CN 117574922 A CN117574922 A CN 117574922A CN 202311612285 A CN202311612285 A CN 202311612285A CN 117574922 A CN117574922 A CN 117574922A
- Authority
- CN
- China
- Prior art keywords
- vector
- intention
- slot
- fusion
- spoken language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 248
- 230000004927 fusion Effects 0.000 claims abstract description 59
- 230000002787 reinforcement Effects 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 11
- 238000005728 strengthening Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000003014 reinforcing effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000007500 overflow downdraw method Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多通道模型的口语理解联合方法及口语理解系统,包括:获取用户输入语句并进行词向量操作,获得词向量矩阵;将词向量矩阵输入至基础语义编码模型,获得上下文语义特征向量,并通过意图多通道和槽位多通道分别进行进一步特征提取,基于预设规则获得融合意向向量和融合槽位向量;基于交叉注意力机制将融合意向向量和融合槽位向量融合并进行处理后,进行局部特征加强操作,获得局部加强意图向量和局部加强槽位向量;基于局部加强意图向量与局部加强槽位向量获得结果,完成口语理解。本发明中意图和槽位任务之间建立显式连接的方法更利于联合模型的训练,进一步提高了口语理解联合模型的性能。
Description
技术领域
本发明属于智能口语理解和对话系统领域,特别是涉及一种基于多通道模型的口语理解方法及口语理解系统。
背景技术
对话系统是自然语言处理领域中重要的研究方向之一,它为生活带来便利,同时也节约了人力物力成本。口语理解模块作为对话系统的关键上游任务,它有着影响对话系统整体性能好坏的作用。口语理解中的两项关键任务是意图识别和槽位填充,为了让机器能更好理解用户的语言,向用户反馈正确的信息,意图识别和槽位填充两个子任务是人机对话系统构成的重点。
在早期,意图识别与槽位填充这两项任务分别进行独立建模训练。意图识别的目的是通过用户的输入语句来了解用户当前的需求,它是一种文本分类任务,旨在从用户的话语中提取出其所表达的意图和行为。意图识别任务通常使用以下几种方法:基于规则模板的方法、基于统计特征的机器学习方法以及基于深度学习的方法。槽位填充被定义为序列标注任务进行处理,从用户输入的语句里找到每个字或者词对应的语义槽位相关标签。槽位填充任务的解决方法可以分为四种:基于字典的方法、基于规则的方法、基于统计的方法和基于深度学习的方法。
但在口语理解任务中常常存在用户输入对话句子较简短、句子语义表达不明确或者有歧义等问题,使得独立建模训练的两项任务效果并不理想。随着深度学习的深入发展,这两项任务渐渐被用来进行联合建模训练,从而相互促进提高这两项任务的性能。研究者们认为将两个模型进行联合训练时,两个模型的结果是正向且相互促进,利用两个任务之间的相关性来提高总体训练的准确率,相比起两项任务的单独建模方法来说,联合训练方法取得的实验效果更好。
发明内容
本发明的目的是提供一种基于多通道模型的口语理解联合方法及口语理解系统,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种基于多通道模型的口语理解联合方法,包括:
获取用户输入语句,通过对所述用户输入语句进行词向量操作,获得词向量矩阵;
构建基础语义编码模型,将所述词向量矩阵输入至所述基础语义编码模型,获得上下文语义特征向量;
将所述上下文语义特征向量分别通过意图多通道和槽位多通道进行进一步特征提取,按照预设规则将特征提取结果进行融合,获得融合意向向量和融合槽位向量;
基于交叉注意力机制将所述融合意向向量和融合槽位向量融合,将融合后的向量处理后进行局部特征加强操作,获得局部加强意图向量和局部加强槽位向量;
基于局部加强意图向量获得意图识别结果,基于局部加强槽位向量获得槽位序列标签结果,完成口语理解联合训练。
可选的,所述基础语义编码模型选取BiLSTM,包括两个LSTM层,通过两个LSTM层将输入的词向量矩阵进行前向编码和后向编码,获得所述上下文语义特征向量。
可选的,所述意图多通道与槽位多通道包括多尺度卷积网络通道、注意力机制通道;其中,所述多尺度卷积网络通道包括多尺度卷积核、Relu激活函数及最大池化层。
可选的,所述预设规则包括采用求和平均的融合方法,将意图多通道和槽位多通道的特征提取结果分别进行融合,获得融合意向向量和融合槽位向量。
可选的,特征提取的过程包括:将所述上下文语义特征向量输入至所述多尺度卷积网络通道,获得意向局部特征向量和槽位局部特征向量;将所述上下文语义特征向量输入至所述注意力机制通道,获得意图注意力向量和槽位注意力向量。
可选的,基于交叉注意力机制将所述融合意向向量和融合槽位向量融合的过程包括:基于交叉注意力机制将融合槽位向量的槽位信息与所述融合意向向量融合后与融合意向向量进行残差连接,送入正则化层,获得交叉意向向量;将所述融合意向向量的意图信息与所述融合槽位向量融合后与融合槽位向量进行残差连接,送入正则化层,获得交叉槽位向量。
可选的,获得局部加强意图向量和局部加强槽位向量的过程包括:将所述交叉意向向量与所述交叉槽位向量进行拼接后,通过激活函数、全连接层与正则化层获得意图特征向量与槽位特征向量,将意图特征向量与槽位特征向量通过局部特征加强获得局部加强意图向量和局部加强槽位向量。
可选的,将所述局部加强意图向量与上下文语义特征向量做残差连接再输入最大池化层、全连接层和Softmax函数,得到意图识别结果;将所述局部加强槽位向量与上下文语义特征向量做残差连接再经过全连接层、序列标注得出槽位序列标签结果。
本发明还提供一种基于多通道模型的口语理解系统,包括:
模型调用模块、口语理解模块、结果输出模块;
所述模型调用模块调用用户选择的模型进行口语理解任务;
所述口语理解模块用于对用户输入语句进行分析,通过所述结果输出模块返回用户输入语句的意图识别结果和槽位序列标签结果并予以显示。
可选的,所述口语理解模块包括语句获取模块、预处理模块、语义特征提取模块、融合模块、交叉注意力模块、特征加强模块、识别模块;
所述语句获取模块用于获取用户输入语句;
所述预处理模块用于获得所述用户输入语句对应的词向量矩阵;
所述语义特征提取模块用于根据所述词向量矩阵获得上下文语义特征向量;
所述融合模块用于对所述上下文语义特征向量进行进一步特征提取,获得融合意向向量和融合槽位向量;
所述交叉注意力模块用于将融合意向向量和融合槽位向量进行相互融合,获得交叉意向向量和交叉槽位向量;
所述特征加强模块用于根据交叉意向向量和交叉槽位向量获得局部加强意图向量和局部加强槽位向量;
所述识别模块将局部加强意图向量和局部加强槽位向量分别送入各自的结果输出层得到意图结果和槽位标签序列结果。
本发明的技术效果为:
本发明利用多尺度卷积网络和注意力机制组成多通道对句子进行深度提取,为后面的意图槽位特征交互层和特征加强层提供表征能力更强的意图特征向量和槽位特征向量,使用交叉注意力机制融合意图信息和槽位信息,并将融合后的向量做局部特征加强操作,能有效地提升意图识别和槽位填充这两项任务的结果。本发明建立意图识别和槽位填充的显示训练连接,使得两个任务能相互正向指导对方,使得槽位信息能指导意图识别任务,意图信息能指导槽位填充任务,从而提高这两项任务联合训练的总体性能,进一步提高了口语理解联合模型的性能。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的双通道口语理解联合训练方法流程示意图;
图2为本发明实施例中的口语理解系统中基于多通道模型的口语理解联合训练方法的结构示意图;
图3为本发明实施例中的基于多通道模型的联合训练方法中口语理解结构图;
图4为本发明实施例中的实验结果示意图,(a)为ATIS数据集实验结果图,(b)为Snip数据集实验结果图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1-3所示,本实施例中提供一种基于多通道模型的口语理解联合方法及口语理解系统,包括:
图1是根据本发明一个实施例的多通道的口语理解联合训练方法流程示意图,结合上面的附图,对方案所列步骤进行详细说明:
步骤1:将输入模型中语句s的每个词,利用GloVe语言模型进行词向量操作,预训练好的嵌入矩阵表示为G∈R|V|×l,词典中所含词汇总数表示为V,词向量嵌入维度大小表示为l。在G中检索到s语句中每一个词汇所对应的词向量,组成词向量矩阵w=(w1,w2,...,wn),w∈R|n|×l,n表示句子总数。
步骤2:BiLSTM作为本发明的基础语义编码模型,两个LSTM层对输入的词向量w=(w1,w2,...,wn)进行前向和后向编码,提取到了文本序列的上下文语义特征向量
步骤3:将步骤2输出的上下文特征向量H分别输入到意图和槽位的多通道中做进一步的特征提取。将上下文特征向量H通过意图和槽位的多尺度卷积网络通道,分别得到意向局部特征向量Ci和槽位局部特征向量Cs。将上下文特征向量H通过意图和槽位的注意力机制通道,分别得到意图注意力向量Ai和槽位注意力向量As。将向量Ci和向量Ai、向量Cs和向量As,分别进行意图和槽位的特征融合,得到融合意向向量vi和融合槽位向量vs。
步骤4:将步骤3得到的向量送入交叉注意力模块中,得到融入槽位信息的意图特征向量A′i,即交叉意向向量,融入意图信息的槽位特征向量A′s,即交叉槽位向量。
步骤5:将步骤4得到的融入槽位信息的意图特征向量A′i和融入意图信息的槽位特征向量A′s进行拼接,得到Ais,再分别通过激活函数、全连接层以及正则化层获得意图特征向量Hi和槽位特征向量Hs。为了进一步提高意图和槽位的特征向量的表现能力,将向量Hi和向量Hs通过特征加强模块分别得到局部加强意图向量和局部加强槽位向量/>
步骤6:将步骤5得到的向量与上下文语义特征向量H做残差连接再输入最大池化层、全连接层和Softmax函数,得到意图识别结果yi。将步骤5得到的向量/>与上下文语义特征向量H做残差连接再经过全连接层和序列标注任务常用的CRF层中得出槽位序列标签结果ys。
进一步地,步骤3具体包括:
步骤31:将上下文特征向量H分别通过意图和槽位的多尺度卷积网络通道,经过多尺度卷积核、Relu激活函数以及最大池化层得到意向局部特征向量Ci和槽位局部特征向量Cs;
步骤32:分别将上下文特征向量H送入意图和槽位的注意力通道,得到意图注意力向量Ai和槽位注意力向量As;
步骤33:分别融合意图通道的向量Ci和向量Ai,融合槽位通道的向量Cs和向量As,采用求和平均的融合方法分别进行意图和槽位的特征融合,得到融合后的包含局部特征信息和注意力信息的融合意向向量vi和融合槽位向量vs。
进一步地,步骤31具体包括为:
Ci=MaxPool(ReLu(W1·H+b1))表示为通过多尺度卷积网络通道的局部信息向量;
Cs=MaxPool(ReLu(W2·H+b2))表示为通过多尺度卷积网络通道的局部槽位信息向量;
进一步地,步骤32具体包括为:
Ai=softmax(H·Wintent)·Wintent表示为通过注意力机制通道的意图信息向量;
As=softmax(H·Wslot)·Wslot表示为通过注意力机制通道的槽位信息向量;
进一步地,步骤4具体包括:
步骤41:用交叉注意力机制分别把槽位信息融入到意图特征向量中、把意图信息融入到槽位特征向量中;
步骤42:将得到的向量与v′i、v′s残差连接后送入正则化层,得到交叉更新后的意图特征向量A′i和槽位特征向量A′s;
进一步地,步骤41具体包括为:
表示为融入槽位信息的意图特征向量;
表示为融入意图信息的槽位特征向量;
进一步地,步骤42具体包括为:
为了减少模型的过拟合和梯度消失等问题,进行残差连接操作。将在得到的v′s和v′s经过一个Add&Norm层进行处理,其中Add为残差块,为了让得到的特征数据更加精确,特征向量的v′s和v′s分别与vi和vs进行残差连接,再经过Norm层即标准化,采用的是层标准(Layer Normalization);
A′i=LN(v′i+vi)表示为交叉更新后包含槽位信息的意图特征向量;
A′s=LN(v′s+vs)表示为交叉更新后包含意图信息的槽位特征向量;
进一步地,步骤5具体包括:
步骤51:把槽位信息融入到意图特征信息的特征向量A′i与意图信息融入到槽位特征信息的特征向量A′s进行拼接得到A′s;
步骤52:使两个任务进一步融合相互指导,使用上下文窗口提高任务表现,记为再分别通过激活函数、全连接层以及正则化层获得Hi和Hs;
步骤53:为了进一步增强意图和槽位的特征向量的表现能力,来捕获一些丰富的意图、槽位特征向量。将融合后的向量vi和vs与更新后的意图特征向量A′i和槽位特征向量A′s做和差积运算;
表示为局部特征加强的意图向量。
表示为局部特征加强的槽位向量。
图2是根据本发明一个实施例的口语理解系统中基于多通道模型的口语理解联合训练方法的结构示意图。结合附图,对结构图进行详细说明:
将输入模型中语句s的每个词,利用Glove语言模型进行词向量操作;
使用BiLSTM作为本发明的基础语义编码模型,它将提取到文本序列的上下文语义特征向量H;
上下文特征向量H分别输入到意图和槽位的多通道中进一步的提取意图和槽位特征向量;
送入交叉注意力模块中,将意图和槽位特征向量进行相互融合指导;
进入特征加强模块,分别得到局部特征加强后的意图向量和槽位向量;
将得到的意图和槽位特征向量分别送入各自的结果输出层得到意图结果和槽位标签序列结果。
图3是根据本发明一个实施例的基于多通道模型的联合训练方法中口语理解结构图。结合附图,对该图进行详细说明:
模型调用模块是口语理解流程的第一步,它在是让用户选择想使用的模型进行口语理解任务,选中的模型参与接下来的口语理解任务中。用户选择需要用到的口语理解模型,初次登陆若不进行选择则默认配置模型,模型管理模块是展示本模块不同的口语理解模型,查看不同口语理解模型的具体参数。系统默认模型是用Snips数据集训练的关于航空服务方面的口语理解模型,和ATIS数据集训练关于日常对话口语理解模型。其他模型是指如果用户有其他方面的数据集训练出来的模型,也可放入系统中,使系统应用更加广泛。口语理解联合模型是本系统相较于普通口语理解模型的提出的升级迭代版本,其模型性能更好。用户既可以使用系统默认的模块对口语进行理解,也可以选择其他模型进行口语理解。用户可以对模型进行删除和增加新模型的操作,使得系统的口语理解模型更加丰富。
口语理解模块是整个系统的核心功能,该模块先让用户输入语句,选择想要应用的口语理解模型,然后调用本发明的口语理解联合模型对输入语句进行分析,通过结果输出模块返回生成语句的意图预测和槽位标签序列预测显示在浏览器上。
基于多通道模型的口语理解系统,包括:
模型调用模块、口语理解模块、结果输出模块;
模型调用模块调用用户选择的模型进行口语理解任务;
读取模型模块就是封装好的命令行来调用传入模型,这是python的方法;
口语理解模块用于对用户输入语句进行分析,通过结果输出模块返回用户输入语句的意图识别结果和槽位序列标签结果并予以显示。
口语理解模块包括语句获取模块、预处理模块、语义特征提取模块、融合模块、交叉注意力模块、特征加强模块、识别模块;
语句获取模块用于获取用户输入语句;
预处理模块用于获得用户输入语句对应的词向量矩阵;
语义特征提取模块用于根据词向量矩阵获得上下文语义特征向量;
融合模块用于对上下文语义特征向量进行进一步特征提取,获得融合意向向量和融合槽位向量;
交叉注意力模块用于将融合意向向量和融合槽位向量进行相互融合,获得交叉意向向量和交叉槽位向量;
特征加强模块用于根据交叉意向向量和交叉槽位向量获得局部加强意图向量和局部加强槽位向量;
识别模块将局部加强意图向量和局部加强槽位向量分别送入各自的结果输出层得到意图结果和槽位标签序列结果。
对比实验
在ATIS数据集和Snips数据集中分别对比意图准确率ACCintent、语义槽位填充F1slot、句子级别准确率ACCoverdll,其对比结果如表下所示。ATIS数据集下的结果如表1所示,Snip数据集下的结果如表2所示。
表1
表2
在两个数据集中,本实施例提出的MCFE-CrossattE口语理解模型与其他模型相比,MCFE-CrossattE模型的各项评价指标达到最优。在ATIS数据集中,MCFE-CrossattE模型与DCA-Net模型相比,在ACCintenl、F1slot和ACCoverall上分别提升了0.3%、0.91%和0.85%;在Snips数据集中,MCFE-CrossattE模型与DCA-Net模型相比,在ACCintent、F1slot和ACCoverall上分别提升了0.21%、0.97%和1.33%。
上述实验表明,利用多尺度卷积网络和注意力机制组成多通道对句子进行深度提取,为后面的意图槽位特征交互层和特征加强层提供表征能力更强的意图特征向量和槽位特征向量,使用交叉注意力机制融合意图信息和槽位信息,并将融合后的向量做局部特征加强操作,能有效地提升意图识别和槽位填充这两项任务的结果。该发明也表明了意图和槽位任务之间建立显式连接的方法更利于联合模型的训练,进一步提高了口语理解联合模型的性能。
2.该方法多通道特征提取效果分析
为了验证加入多通道特征提取方法对于口语理解任务是否有正向影响,通过实验结果表明,本发明口语理解方法能够在多通道特征提取下表现出较好的性能效果。它的具体实验结果如图4所示。
(1)Baseline:是指输入语句经过Golve语言模型、BiLSTM网络后再经过交叉注意力模块和局部特征加强模块,最后输出意图识别结果和槽位序列标签结果。
(2)Baseline+IS_Attention:是指首先输入语句经过Golve语言模型、BiLSTM网络后,分别经过意图注意力层和槽位注意力层后,得到意图特征向量和槽位特征向量,然后经过交叉注意力模块和局部特征加强模块,最后输出意图识别结果和槽位序列标签结果。
(3)Baseline+IS_Attention+MSCNN:是指本发明所提出用多通道特征提取层,用多通道特征提取层分别来提取意图和槽位的特征向量,输出意图识别结果和槽位序列标签结果。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于多通道模型的口语理解联合方法,其特征在于,包括以下步骤:
获取用户输入语句,通过对所述用户输入语句进行词向量操作,获得词向量矩阵;
构建基础语义编码模型,将所述词向量矩阵输入至所述基础语义编码模型,获得上下文语义特征向量;
将所述上下文语义特征向量分别通过意图多通道和槽位多通道进行进一步特征提取,按照预设规则将特征提取结果进行融合,获得融合意向向量和融合槽位向量;
基于交叉注意力机制将所述融合意向向量和融合槽位向量融合,将融合后的向量处理后进行局部特征加强操作,获得局部加强意图向量和局部加强槽位向量;
基于局部加强意图向量获得意图识别结果,基于局部加强槽位向量获得槽位序列标签结果,完成口语理解联合训练。
2.根据权利要求1所述的基于多通道模型的口语理解联合方法,其特征在于,
所述基础语义编码模型选取BiLSTM,包括两个LSTM层,通过两个LSTM层将输入的词向量矩阵进行前向编码和后向编码,获得所述上下文语义特征向量。
3.根据权利要求1所述的基于多通道模型的口语理解联合方法,其特征在于,
所述意图多通道与槽位多通道包括多尺度卷积网络通道、注意力机制通道;其中,所述多尺度卷积网络通道包括多尺度卷积核、Relu激活函数及最大池化层。
4.根据权利要求3所述的基于多通道模型的口语理解联合方法,其特征在于,
所述预设规则包括采用求和平均的融合方法,将意图多通道和槽位多通道的特征提取结果分别进行融合,获得融合意向向量和融合槽位向量。
5.根据权利要求3所述的基于多通道模型的口语理解联合方法,其特征在于,
特征提取的过程包括:将所述上下文语义特征向量输入至所述多尺度卷积网络通道,获得意向局部特征向量和槽位局部特征向量;将所述上下文语义特征向量输入至所述注意力机制通道,获得意图注意力向量和槽位注意力向量。
6.根据权利要求1所述的基于多通道模型的口语理解联合方法,其特征在于,
基于交叉注意力机制将所述融合意向向量和融合槽位向量融合的过程包括:基于交叉注意力机制将融合槽位向量的槽位信息与所述融合意向向量融合后与融合意向向量进行残差连接,送入正则化层,获得交叉意向向量;将所述融合意向向量的意图信息与所述融合槽位向量融合后与融合槽位向量进行残差连接,送入正则化层,获得交叉槽位向量。
7.根据权利要求6所述的基于多通道模型的口语理解联合方法,其特征在于,
获得局部加强意图向量和局部加强槽位向量的过程包括:将所述交叉意向向量与所述交叉槽位向量进行拼接后,通过激活函数、全连接层与正则化层获得意图特征向量与槽位特征向量,将意图特征向量与槽位特征向量通过局部特征加强获得局部加强意图向量和局部加强槽位向量。
8.根据权利要求1所述的基于多通道模型的口语理解联合方法,其特征在于,
将所述局部加强意图向量与上下文语义特征向量做残差连接再输入最大池化层、全连接层和Softmax函数,得到意图识别结果;将所述局部加强槽位向量与上下文语义特征向量做残差连接再经过全连接层、序列标注得出槽位序列标签结果。
9.一种基于权利要求1-8任一项所述的基于多通道模型的口语理解联合方法的口语理解系统,其特征在于,
模型调用模块、口语理解模块、结果输出模块;
所述模型调用模块调用用户选择的模型进行口语理解任务;
所述口语理解模块用于对用户输入语句进行分析,通过所述结果输出模块返回用户输入语句的意图识别结果和槽位序列标签结果并予以显示。
10.根据权利要求9所述的口语理解系统,其特征在于,
所述口语理解模块包括语句获取模块、预处理模块、语义特征提取模块、融合模块、交叉注意力模块、特征加强模块、识别模块;
所述语句获取模块用于获取用户输入语句;
所述预处理模块用于获得所述用户输入语句对应的词向量矩阵;
所述语义特征提取模块用于根据所述词向量矩阵获得上下文语义特征向量;
所述融合模块用于对所述上下文语义特征向量进行进一步特征提取,获得融合意向向量和融合槽位向量;
所述交叉注意力模块用于将融合意向向量和融合槽位向量进行相互融合,获得交叉意向向量和交叉槽位向量;
所述特征加强模块用于根据交叉意向向量和交叉槽位向量获得局部加强意图向量和局部加强槽位向量;
所述识别模块将局部加强意图向量和局部加强槽位向量分别送入各自的结果输出层得到意图结果和槽位标签序列结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311612285.XA CN117574922A (zh) | 2023-11-29 | 2023-11-29 | 一种基于多通道模型的口语理解联合方法及口语理解系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311612285.XA CN117574922A (zh) | 2023-11-29 | 2023-11-29 | 一种基于多通道模型的口语理解联合方法及口语理解系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117574922A true CN117574922A (zh) | 2024-02-20 |
Family
ID=89893525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311612285.XA Pending CN117574922A (zh) | 2023-11-29 | 2023-11-29 | 一种基于多通道模型的口语理解联合方法及口语理解系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117574922A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858030A (zh) * | 2019-02-11 | 2019-06-07 | 北京邮电大学 | 双向的意图槽值交叉相关的任务型对话理解系统及方法 |
CN110019793A (zh) * | 2017-10-27 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种文本语义编码方法及装置 |
CN115238048A (zh) * | 2022-05-20 | 2022-10-25 | 浙江工业大学 | 一种联合意图识别和槽填充的快速交互方法 |
US20230252982A1 (en) * | 2022-02-07 | 2023-08-10 | Samsung Electronics Co., Ltd. | Modeling attention to improve classification and provide inherent explainability |
CN116911306A (zh) * | 2022-11-08 | 2023-10-20 | 中移(杭州)信息技术有限公司 | 自然语言理解方法及装置、服务器及存储介质 |
-
2023
- 2023-11-29 CN CN202311612285.XA patent/CN117574922A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019793A (zh) * | 2017-10-27 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种文本语义编码方法及装置 |
CN109858030A (zh) * | 2019-02-11 | 2019-06-07 | 北京邮电大学 | 双向的意图槽值交叉相关的任务型对话理解系统及方法 |
US20230252982A1 (en) * | 2022-02-07 | 2023-08-10 | Samsung Electronics Co., Ltd. | Modeling attention to improve classification and provide inherent explainability |
CN115238048A (zh) * | 2022-05-20 | 2022-10-25 | 浙江工业大学 | 一种联合意图识别和槽填充的快速交互方法 |
CN116911306A (zh) * | 2022-11-08 | 2023-10-20 | 中移(杭州)信息技术有限公司 | 自然语言理解方法及装置、服务器及存储介质 |
Non-Patent Citations (2)
Title |
---|
侯丽仙;李艳玲;李成城;: "面向任务口语理解研究现状综述", 计算机工程与应用, no. 11, 25 March 2019 (2019-03-25) * |
王堃;林民;李艳玲;: "端到端对话系统意图语义槽联合识别研究综述", 计算机工程与应用, no. 14, 31 December 2020 (2020-12-31) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704641B (zh) | 一种万级意图分类方法、装置、存储介质及电子设备 | |
US10698932B2 (en) | Method and apparatus for parsing query based on artificial intelligence, and storage medium | |
US11488586B1 (en) | System for speech recognition text enhancement fusing multi-modal semantic invariance | |
CN108985358B (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN109492113B (zh) | 一种面向软件缺陷知识的实体、关系联合抽取方法 | |
CN111858888B (zh) | 一种值机场景的多轮对话系统 | |
CN112860871B (zh) | 自然语言理解模型训练方法、自然语言理解方法及装置 | |
CN115577161A (zh) | 融合情感资源的多模态情感分析模型 | |
CN114298121A (zh) | 基于多模态的文本生成方法、模型训练方法和装置 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及系统 | |
CN112560506A (zh) | 文本语义解析方法、装置、终端设备及存储介质 | |
CN112183106A (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
CN114218940B (zh) | 文本信息处理、模型训练方法、装置、设备及存储介质 | |
CN116150367A (zh) | 一种基于方面的情感分析方法及系统 | |
CN114528840A (zh) | 融合上下文信息的中文实体识别方法、终端及存储介质 | |
CN111538817A (zh) | 人机交互方法和装置 | |
CN111368066A (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN117574922A (zh) | 一种基于多通道模型的口语理解联合方法及口语理解系统 | |
CN114969195B (zh) | 对话内容挖掘方法和对话内容评估模型的生成方法 | |
CN111737951A (zh) | 一种文本语言关联关系标注方法和装置 | |
CN115859121A (zh) | 文本处理模型训练方法及装置 | |
CN113221546B (zh) | 手机银行资讯数据处理方法及装置 | |
CN114297352A (zh) | 对话状态追踪方法、装置、人机对话系统及作业机械 | |
CN113705194A (zh) | 简称抽取方法及电子设备 | |
CN116089906B (zh) | 基于动态上下文表示和模态融合的多模态分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |