CN113094475B - 一种基于上下文注意流的对话意图识别系统及方法 - Google Patents
一种基于上下文注意流的对话意图识别系统及方法 Download PDFInfo
- Publication number
- CN113094475B CN113094475B CN202110634398.4A CN202110634398A CN113094475B CN 113094475 B CN113094475 B CN 113094475B CN 202110634398 A CN202110634398 A CN 202110634398A CN 113094475 B CN113094475 B CN 113094475B
- Authority
- CN
- China
- Prior art keywords
- dialog
- statement
- dialogue
- vector
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 125
- 230000006870 function Effects 0.000 claims abstract description 72
- 239000013604 expression vector Substances 0.000 claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 238000012512 characterization method Methods 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000006145 Eagle's minimal essential medium Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于上下文注意流的对话意图识别系统及方法,包括输入编码模块、自相关系数分析模块、前馈神经网络和多任务学习模块;输入编码模块用于将包含若干个单词的输入语句进行编码处理,得到对应的表征向量;自相关系数分析模块用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后进行计算,得到融合了问题信息的上文语句表示向量;然后根据所述上文语句表示向量进行特征融合,得到融合了对话上下文信息的上下文句子表示向量;最后根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量;多任务学习模块用于根据系统的总损失函数对特征向量进行优化,提高了对话意图识别的效率和准确率。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种基于上下文注意流的对话意图识别系统及方法。
背景技术
对话机器人地核心功能模块是意图识别。机器人首先需要根据用户发来的对话语句预测其对应的意图,然后基于意图给用户发送对应的答案,从而完成在线自动应答。对话是一个多轮问答的过程,但是目前在线机器人识别意图时,只考虑单句话的内容,而很多对话中的意图并无法通过单句话的内容进行识别。因此,线上机器人有相当多的语句的意图是无法基于单句而准确识别的,从而导致机器人的问答响应失败。
为了解决多轮对话问答中的意图识别问题,目前工业界和学术界主要采用两类方法:
基于记忆网络的方法——记忆网络一般包括输入编码模块、记忆模块和输出预测模块。这类方法一般维护一个记忆槽位空间(记忆模块),存储对话上文历史语句,然后应用注意力机制,动态地不断更新网络地记忆状态,并基于记忆状态生成一个特征向量,基于此预测对话的意图。
基于阅读理解技术的方法——阅读理解模型一般采用一个编码器,对输入的文章和问题做编码,通过文章内容和问题内容的互注意力、自注意力等技术,获得文章的单词粒度的表示,构造两个开始和结束位置预测头,预测每个单词作为问题答案开始位置的概率(P(start))和结束位置的概率(P(end)),最后选取“P(start)*P(end)”概率最大的一组短语构成问题答案。
虽然基于阅读理解的技术处理多轮对话上文依赖的问题时可以准确定位这些历史语句,但是阅读理解所需的主题文章在业界难以获取,此外获取到相关的历史语句后,还需要构造模型进一步融合这些语句信息和当前语句信息,进而预测对话意图。基于记忆网络的模型,无法直接选择相关历史对话语句作为对话的上文依赖信息,导致模型难以准确融合对话上文信息到当前语句中。此外,还可能每次重复地选择其中某些语句的编码特征,导致模型无法充分关注到其他相关特征,影响模型建模多轮对话的能力。
因此,需要提供一种方案以便于提高对话意图识别的效率和准确率,增强机器人的应答能力。
发明内容
本发明的目的在于提供一种基于上下文注意流的对话意图识别系统及方法,用以实现提高对话意图识别的效率和准确率的技术效果。
第一方面,本发明提供了一种基于上下文注意流的对话意图识别系统,包括:输入编码模块、自相关系数分析模块、前馈神经网络和多任务学习模块;
所述输入编码模块用于将包含若干个单词的输入语句进行编码处理,得到对应的表征向量;所述输入语句包括对话样本集中已知对话意图和对话类型的若干个历史对话语句和当前语句;
所述自相关系数分析模块用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后进行计算,得到融合了问题信息的上文语句表示向量;然后根据所述上文语句表示向量进行特征融合,得到融合了对话上下文信息的上下文句子表示向量;最后根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量;
所述前馈神经网络用于对所述特征向量进行处理后输入所述多任务学习模块;
所述多任务学习模块用于根据所述前馈神经网络的处理结果和各个历史对话语句的实际对话意图进行计算得到对应的对话意图识别损失函数;根据所述前馈神经网络的处理结果和各个历史对话语句的实际类型分析得到对应的对话上文类型识别损失函数;同时将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后通过一个条件随机场计算得到对应的对话意图证据损失函数;然后根据所述对话意图识别损失函数、所述对话上文类型识别损失函数和所述对话意图证据损失函数度计算得到系统的总损失函数,并根据所述总损失函数对所述特征向量进行优化;
所述上文语句表示向量的计算方式为:
式中,u i 1表示上文语句表示向量;tanh表示双曲正切函数;W cq 和b cq 均表示上文-问题注意力层的学习参数;q表示当前语句;u i 表示第i个历史对话语句;N表示历史对话语句的总数;i表示变量,取值范围为1~N;
所述上下文句子表示向量的计算方式为:
式中,u i 2表示上下文句子表示向量;N表示历史对话语句的总数;W self ∈Rd×d,Rd×d表示行列都为d维度的实数矩阵,R表示实数;attn ij 表示经过softmax函数归一化处理后的注意力权重;score ij 表示当前语句的上文中第i和第j个历史语句之间的注意力权重;k为变量,表示取值范围中的第k个;
所述特征向量的计算方式为:
式中,vec feature 表示特征向量,W qc 和b qc 均表示问题-上文注意力层的学习参数,q表示当前语句,dot表示点积运算。
进一步地,所述自相关系数分析模块包括上文-问题注意力层、自注意力层和问题-上文注意力层;所述上文-问题注意力层用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后通过双曲正切函数进行计算,得到融合了问题信息的上文语句表示向量;所述自注意力层用于通过自注意力机制对所述上文语句表示向量进行特征融合,得到融合了历史对话上下文信息的上下文句子表示向量;所述问题-上文注意力层用于根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量。
进一步地,所述多任务学习模块包括对话意图识别单元、对话上文类识别单元和对话上文证据选择单元;所述对话意图识别单元用于根据所述前馈神经网络的处理结果和各个历史对话语句的意图进行计算得到对应的对话意图识别损失函数,所述对话上文类识别单元用于根据所述前馈神经网络的处理结果和各个历史对话语句的类型进行计算得到对应的对话上文类识别损失函数;所述对话上文证据选择单元用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后根据当前语句与历史对话语句的关联性进行计算得到对应的对话上文证据选择损失函数。
进一步地,所述对话意图识别单元、所述对话上文类识别单元和所述对话上文证据选择单元的实现方式为:
上式中,Loss1表示对话意图识别损失函数;Loss2表示对话上文类识别损失函数;Loss3表示对话上文证据选择损失函数;crf表示条件随机场;ff表示前馈神经网络;θ acflow 表示自相关系数分析模块的网络参数;θ ff 表示前馈神经网络的网络参数;θ crf 表示条件随机场的网络参数;q表示当前语句;u 1,u 2,…,u N 表示各个历史对话语句;x k 表示对话样本集中的第k个样本;CE表示交叉熵运算;MLE表示极大似然估计运算;intent k 表示x k 对应的的意图;type k 表示x k 对应的类型;tag k 表示x k 与当前语句是否相关的标记;sel N 则表示标记序列中各个历史对话语句的标记,0表示不相关,1表示相关;D表示数据集,其中包含了每个样本x k 对应的意图intent k 、类型type k 和相关标记tag k 。
进一步地,所述总损失函数的计算方式为:
式中,min obj 表示总损失函数,Loss1表示对话意图识别损失函数;Loss2表示对话上文类识别损失函数;Loss3表示对话上文证据选择损失函数;λ 1,λ 2,λ 3表示超参数。
第二方面,本发明实施例提供了一种基于上下文注意流的对话意图识别方法,应用于上述的对话意图识别系统,包括:
S1.将包含若干个单词的输入语句进行编码处理,得到对应的表征向量;所述输入语句包括若干个历史对话语句和当前语句;
S2.将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后进行计算,得到融合了问题信息的上文语句表示向量;然后根据所述上文语句表示向量进行特征融合,得到融合了历史对话上下文信息的上下文句子表示向量;最后根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量;
S3.通过前馈神经网络对所述特征向量进行处理后输入所述多任务学习模块;
S4.通过多任务学习模块根据系统的总损失函数对所述特征向量进行优化;
S5.根据优化后的特征向量分析得到当前语句的意图。
本发明能够实现的有益效果是:本发明提供的基于上下文注意流的对话意图识别系统及方法通过设置的自相关系数分析模块获取用于识别当前语句意图的特征向量,同时通过训练的多任务学习模块对该特征向量进行优化,提高了对话意图识别的效率和准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种基于上下文注意流的对话意图识别系统的拓扑结构示意图;
图2为本发明实施例提供的一种基于上下文注意流的对话意图识别方法流程示意图。
图标:10-对话意图识别系统;100-输入编码模块;200-自相关系数分析模块;300-前馈神经网络;400-多任务学习模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参看图1,图1为本发明实施例提供的一种基于上下文注意流的对话意图识别系统的拓扑结构示意图。
在一种实施方式中,本发明提供了一种基于上下文注意流的对话意图识别系统10,包括输入编码模块100、自相关系数分析模块200、前馈神经网络300和多任务学习模块400;
输入编码模块100用于将包含若干个单词的输入语句进行编码处理,得到对应的表征向量;输入语句包括对话样本中已知对话意图和对话类型的若干个历史对话语句和当前语句;
自相关系数分析模块200用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后进行计算,得到融合了问题信息的上文语句表示向量;然后根据上文语句表示向量进行特征融合,得到融合了对话上下文信息的上下文句子表示向量;最后根据当前语句的表征向量和上下文句子表示向量进行点积运算,获得用于意图识别的的特征向量;
前馈神经网络300用于对特征向量进行处理后输入多任务学习模块;
多任务学习模块400用于根据前馈神经网络的处理结果和各个历史对话语句的实际对话意图进行计算得到对应的对话意图识别损失函数;根据前馈神经网络的处理结果和各个历史对话语句的实际类型分析得到对应的对话上文类型识别损失函数;同时将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后通过一个条件随机场计算得到对应的对话意图证据损失函数;然后根据对话意图识别损失函数、对话上文类型识别损失函数和对话意图证据损失函数度计算得到系统的总损失函数,并根据总损失函数对特征向量进行优化。
通过上述实施方式,既降低了系统的复杂度,也提高了对话意图识别的效率和准确率。
在一种实施方式中,输入编码模块100可以使用LSTM-CNN编码器;LSTM-CNN编码器首先使用一个基于Glove词向量的词嵌入embedding层将一句包含N个单词的语句编码为N×d维的矩阵,每个单词对应矩阵中一个d维向量,然后使用一个LSTM编码器读入这个矩阵,并将LSTM的输出送入一个多卷积核CNN网络。该CNN网络包含长度为1、3、5、7、9个单位的卷积核,将每个卷积核的卷积结果拼接到一起,并做最大池化操作,从而生成各个语句编码的表征向量。
需要说明的是,输入编码模块100并不局限于使用LSTM-CNN编码器,也可以采用其他编码器代替,例如transformer网络等。
在一种实施方式中,自相关系数分析模块200包括上文-问题注意力层、自注意力层和问题-上文注意力层;上文-问题注意力层用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后通过双曲正切函数进行计算,得到融合了问题信息的上文语句表示向量;自注意力层用于通过自注意力机制对上文语句表示向量进行特征融合,得到融合了历史对话上下文信息的上下文句子表示向量;问题-上文注意力层用于根据当前语句的表征向量和上下文句子表示向量进行点积运算,获得用于意图识别的特征向量。
具体地,上文语句表示向量的计算方式为:
式中,u i 1表示上文语句表示向量;tanh表示双曲正切函数;W cq 和b cq 均表示上文-问题注意力层的学习参数;q表示当前语句;u i 表示第i个历史对话语句;N表示历史对话语句的总数;i表示变量,取值范围为1~N。
上下文句子表示向量的计算方式为:
式中,u i 2表示上下文句子表示向量;N表示历史对话语句的总数;W self ∈Rd×d,Rd×d表示行列都为d维度的实数矩阵,R表示实数;attn ij 表示经过softmax函数归一化处理后的注意力权重;score ij 表示当前语句的上文中第i和第j个历史语句之间的注意力权重;k为变量,表示取值范围中的第k个。
上述特征向量的计算方式为:
式中,vec feature 表示特征向量,W qc 和b qc 均表示问题-上文注意力层的学习参数,q表示当前语句,dot表示点积运算。
在一种实施方式中,多任务学习模块400包括对话意图识别单元、对话上文类识别单元和对话上文证据选择单元;对话意图识别单元用于根据前馈神经网络的处理结果和各个历史对话语句的意图进行计算得到对应的对话意图识别损失函数,对话上文类识别单元用于根据前馈神经网络的处理结果和各个历史对话语句的类型进行计算得到对应的对话上文类识别损失函数;对话上文证据选择单元用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后根据当前语句与历史对话语句的关联性进行计算得到对应的对话上文证据选择损失函数。
具体地,对话意图识别单元、对话上文类识别单元和对话上文证据选择单元的实现方式为:
上式中,Loss1表示对话意图识别损失函数;Loss2表示对话上文类识别损失函数;Loss3表示对话上文证据选择损失函数;crf表示条件随机场;ff表示前馈神经网络;θ acflow 表示自相关系数分析模块的网络参数;θ ff 表示前馈神经网络的网络参数;θ crf 表示条件随机场的网络参数;q表示当前语句;u 1,u 2,…,u N 表示各个历史对话语句;x k 表示对话样本集中的第k个样本;CE表示交叉熵运算;MLE表示极大似然估计运算;intent k 表示x k 对应的的意图;type k 表示x k 对应的类型;tag k 表示x k 与当前语句是否相关的标记;sel N 则表示标记序列中各个历史对话语句的标记,0表示不相关,1表示相关;D表示数据集,其中包含了每个样本x k 对应的意图intent k 、类型type k 和相关标记tag k 。
在一种实施方式中,总损失函数的计算方式为:
式中,min obj 表示总损失函数,Loss1表示对话意图识别损失函数;Loss2表示对话上文类识别损失函数;Loss3表示对话上文证据选择损失函数;λ 1,λ 2,λ 3表示超参数。其中,λ 1,λ 2,λ 3可以采用超参数网格搜索获得;例如,可以设一个训练数据集,并将训练数据集划分为训练集和验证集,不同超级参数下分别获得意图识别准确率,选取验证集上准确率最高的一组超参数。
通过上述实施方式,可以使得用于对话意图预测的特征向量更加准确,从而提高对话意图识别的准确率。
请参看图2,图2为本发明实施例提供的一种基于上下文注意流的对话意图识别方法流程示意图。
在一种实施方式中,本发明还提供了一种用于上述对话意图识别系统的基于上下文注意流的对话意图识别方法,其具体内容如下所述。
S1.将包含若干个单词的输入语句进行编码处理,得到对应的表征向量;所述输入语句包括若干个历史对话语句和当前语句;
S2.将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后进行计算,得到融合了问题信息的上文语句表示向量;然后根据所述上文语句表示向量进行特征融合,得到融合了历史对话上下文信息的上下文句子表示向量;最后根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量;
S3.通过前馈神经网络对所述特征向量进行处理后输入所述多任务学习模块;
S4.通过多任务学习模块根据系统的总损失函数对所述特征向量进行优化;
S5.根据优化后的特征向量分析得到当前语句的意图。
通过上述过程,提高了对话意图识别的效率和准确率。
进一步地,为了解决对话上文依赖的意图识别,目前业界采用NLI(自然语言推理)方式,记忆网络等方法进行分析。本发明对比分析了如下方法:
l BERT-NLI:采用业界先进的自然语言模型BERT作为句子编码器,将对话上文句子拼接为单句话,与当前对话句子一起送入BERT,然后采用BERT的池化向量做为特征向量,进行意图识别。
l E2EMEM:一种端对端的记忆网络,可以形成输入、记忆更新、输出闭环参数更新。
l DMN:动态记忆网络,采用一种动态门控算法更新记忆状态,不断更新网络内部记忆模块。
l KVNet:一种参数key哈希的键-值网络,能够大幅度扩大事实的检索范围和提高检索融合精度。对话中可以将对话上文视为事实,当前对话语句视为检索请求。
l DANet:一种深度对话历史语句融合网络,基于注意力机制,可以将对话上文信息融入到当前对话语句的表示中,提高对话意图识别精度。
为了测试准确率,我们从淘宝上获取了90万左右个对话,进行了人工意图标注(对话意图,对话上文类型,对话意图相关事实),然后使用其中90%的作为训练集,10%作为测试集合,对本发明的方法(ACFlow)和上述5类业界方法做了训练和测试,实验结果如表1所示。从表1可以看出,本发明所提供的方法高出这些代表方法6~7%左右的准确率。
表1
综上所述,本发明实施例提供一种基于上下文注意流的对话意图识别系统及方法,包括输入编码模块、自相关系数分析模块、前馈神经网络和多任务学习模块;输入编码模块用于将包含若干个单词的输入语句进行编码处理,得到对应的表征向量;输入语句包括对话样本中已知对话意图和对话类型的若干个历史对话语句和当前语句;自相关系数分析模块用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后进行计算,得到融合了问题信息的上文语句表示向量;然后根据上文语句表示向量进行特征融合,得到融合了对话上下文信息的上下文句子表示向量;最后根据当前语句的表征向量和上下文句子表示向量进行点积运算,获得用于意图识别的特征向量;前馈神经网络用于对特征向量进行处理后输入多任务学习模块;多任务学习模块通过系统的总损失函数对特征向量进行优化;提高了对话意图识别的效率和准确率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种基于上下文注意流的对话意图识别系统,其特征在于,包括:输入编码模块、自相关系数分析模块、前馈神经网络和多任务学习模块;
所述输入编码模块用于将包含若干个单词的输入语句进行编码处理,得到对应的表征向量;所述输入语句包括对话样本集中已知对话意图和对话类型的若干个历史对话语句和当前语句;
所述自相关系数分析模块用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后进行计算,得到融合了问题信息的上文语句表示向量;然后根据所述上文语句表示向量进行特征融合,得到融合了对话上下文信息的上下文句子表示向量;最后根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量;
所述前馈神经网络用于对所述特征向量进行处理后输入所述多任务学习模块;
所述多任务学习模块用于根据所述前馈神经网络的处理结果和各个历史对话语句的实际对话意图进行计算得到对应的对话意图识别损失函数;根据所述前馈神经网络的处理结果和各个历史对话语句的实际类型分析得到对应的对话上文类型识别损失函数;同时将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后通过一个条件随机场计算得到对应的对话意图证据损失函数;然后根据所述对话意图识别损失函数、所述对话上文类型识别损失函数和所述对话意图证据损失函数度计算得到系统的总损失函数,并根据所述总损失函数对所述特征向量进行优化;
所述上文语句表示向量的计算方式为:
式中,u i 1表示上文语句表示向量;tanh表示双曲正切函数;W cq 和b cq 均表示上文-问题注意力层的学习参数;q表示当前语句;u i 表示第i个历史对话语句;N表示历史对话语句的总数;i表示变量,取值范围为1~N;
所述上下文句子表示向量的计算方式为:
式中,u i 2表示上下文句子表示向量;N表示历史对话语句的总数;W self ∈Rd×d,Rd×d表示行列都为d维度的实数矩阵,R表示实数;attn ij 表示经过softmax函数归一化处理后的注意力权重;score ij 表示当前语句的上文中第i和第j个历史语句之间的注意力权重;k为变量,表示取值范围中的第k个;
所述特征向量的计算方式为:
式中,vec feature 表示特征向量,W qc 和b qc 均表示问题-上文注意力层的学习参数,q表示当前语句,dot表示点积运算。
2.根据权利要求1所述的对话意图识别系统,其特征在于,所述自相关系数分析模块包括上文-问题注意力层、自注意力层和问题-上文注意力层;所述上文-问题注意力层用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后通过双曲正切函数进行计算,得到融合了问题信息的上文语句表示向量;所述自注意力层用于通过自注意力机制对所述上文语句表示向量进行特征融合,得到融合了历史对话上下文信息的上下文句子表示向量;所述问题-上文注意力层用于根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量。
3.根据权利要求1所述的对话意图识别系统,其特征在于,所述多任务学习模块包括对话意图识别单元、对话上文类识别单元和对话上文证据选择单元;所述对话意图识别单元用于根据所述前馈神经网络的处理结果和各个历史对话语句的意图进行计算得到对应的对话意图识别损失函数,所述对话上文类识别单元用于根据所述前馈神经网络的处理结果和各个历史对话语句的类型进行计算得到对应的对话上文类识别损失函数;所述对话上文证据选择单元用于将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后根据当前语句与历史对话语句的关联性进行计算得到对应的对话上文证据选择损失函数。
4.根据权利要求3所述的对话意图识别系统,其特征在于,所述对话意图识别单元、所述对话上文类识别单元和所述对话上文证据选择单元的实现方式为:
上式中,Loss1表示对话意图识别损失函数;Loss2表示对话上文类识别损失函数;Loss3表示对话上文证据选择损失函数;crf表示条件随机场;ff表示前馈神经网络;θ acflow 表示自相关系数分析模块的网络参数;θ ff 表示前馈神经网络的网络参数;θ crf 表示条件随机场的网络参数;q表示当前语句;u 1,u 2,…,u N 表示各个历史对话语句;x k 表示对话样本集中的第k个样本;CE表示交叉熵运算;MLE表示极大似然估计运算;intent k 表示x k 对应的的意图;type k 表示x k 对应的类型;tag k 表示x k 与当前语句是否相关的标记;sel N 则表示标记序列中各个历史对话语句的标记,0表示不相关,1表示相关;D表示数据集,其中包含了每个样本x k 对应的意图intent k 、类型type k 和相关标记tag k 。
6.一种基于上下文注意流的对话意图识别方法,应用于权利要求1-5任一项所述的对话意图识别系统,其特征在于,包括:
S1.将包含若干个单词的输入语句进行编码处理,得到对应的表征向量;所述输入语句包括若干个历史对话语句和当前语句;
S2.将当前语句的表征向量与各个历史对话语句的表征向量进行拼接后进行计算,得到融合了问题信息的上文语句表示向量;然后根据所述上文语句表示向量进行特征融合,得到融合了历史对话上下文信息的上下文句子表示向量;最后根据当前语句的表征向量和所述上下文句子表示向量进行点积运算,获得用于意图识别的特征向量;
S3.通过前馈神经网络对所述特征向量进行处理后输入所述多任务学习模块;
S4.通过多任务学习模块根据系统的总损失函数对所述特征向量进行优化;
S5.根据优化后的特征向量分析得到当前语句的意图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110634398.4A CN113094475B (zh) | 2021-06-08 | 2021-06-08 | 一种基于上下文注意流的对话意图识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110634398.4A CN113094475B (zh) | 2021-06-08 | 2021-06-08 | 一种基于上下文注意流的对话意图识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113094475A CN113094475A (zh) | 2021-07-09 |
CN113094475B true CN113094475B (zh) | 2021-09-21 |
Family
ID=76664440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110634398.4A Active CN113094475B (zh) | 2021-06-08 | 2021-06-08 | 一种基于上下文注意流的对话意图识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113094475B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590798B (zh) * | 2021-08-09 | 2024-03-26 | 北京达佳互联信息技术有限公司 | 对话意图识别、用于识别对话意图的模型的训练方法 |
CN113849647B (zh) * | 2021-09-28 | 2024-05-31 | 平安科技(深圳)有限公司 | 对话身份识别方法、装置、设备及存储介质 |
CN114238549A (zh) * | 2021-12-15 | 2022-03-25 | 平安科技(深圳)有限公司 | 文本生成模型的训练方法、装置、存储介质及计算机设备 |
CN114611527B (zh) * | 2022-03-01 | 2024-07-19 | 华南理工大学 | 一种用户个性感知的任务导向型对话策略学习方法 |
CN114818738B (zh) * | 2022-03-01 | 2024-08-02 | 达观数据有限公司 | 一种客服热线用户意图轨迹识别的方法及系统 |
CN114420169B (zh) * | 2022-03-31 | 2022-06-21 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置及机器人 |
CN116822522B (zh) * | 2023-06-13 | 2024-05-28 | 连连银通电子支付有限公司 | 一种语义分析方法、装置、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101163010B1 (ko) * | 2008-12-15 | 2012-07-09 | 한국전자통신연구원 | 콘텐츠 감성 및 의도 분석 기반의 온라인 광고 선정 장치 및 그 방법 |
US10782986B2 (en) * | 2018-04-20 | 2020-09-22 | Facebook, Inc. | Assisting users with personalized and contextual communication content |
US10679613B2 (en) * | 2018-06-14 | 2020-06-09 | Accenture Global Solutions Limited | Spoken language understanding system and method using recurrent neural networks |
CN108920622B (zh) * | 2018-06-29 | 2021-07-20 | 北京奇艺世纪科技有限公司 | 一种意图识别的训练方法、训练装置和识别装置 |
CN109241255B (zh) * | 2018-08-20 | 2021-05-18 | 华中师范大学 | 一种基于深度学习的意图识别方法 |
WO2020051192A1 (en) * | 2018-09-06 | 2020-03-12 | Google Llc | Dialogue systems |
CN112699686B (zh) * | 2021-01-05 | 2024-03-08 | 浙江诺诺网络科技有限公司 | 基于任务型对话系统的语义理解方法、装置、设备及介质 |
CN112800196B (zh) * | 2021-01-18 | 2024-03-01 | 南京明略科技有限公司 | 一种基于孪生网络的faq问答库匹配方法与系统 |
-
2021
- 2021-06-08 CN CN202110634398.4A patent/CN113094475B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113094475A (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113094475B (zh) | 一种基于上下文注意流的对话意图识别系统及方法 | |
CN110175227B (zh) | 一种基于组队学习和层级推理的对话辅助系统 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN110046221A (zh) | 一种机器对话方法、装置、计算机设备及存储介质 | |
CN111061847A (zh) | 对话生成及语料扩充方法、装置、计算机设备和存储介质 | |
CN111177325B (zh) | 一种自动生成答案的方法和系统 | |
Chen et al. | Joint multiple intent detection and slot filling via self-distillation | |
CN111382573A (zh) | 用于答案质量评估的方法、装置、设备和存储介质 | |
CN111078847A (zh) | 电力用户意图识别方法、装置、计算机设备和存储介质 | |
CN113297364A (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN117435716A (zh) | 电网人机交互终端的数据处理方法及系统 | |
Thomas et al. | Chatbot using gated end-to-end memory networks | |
CN110489730B (zh) | 文本处理方法、装置、终端及存储介质 | |
CN117236410A (zh) | 一种可信的电子文件大语言模型训练、推理方法和装置 | |
CN111914553A (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN115495566A (zh) | 一种增强文本特征的对话生成方法和系统 | |
CN116341651A (zh) | 实体识别模型训练方法、装置、电子设备及存储介质 | |
CN114357284B (zh) | 基于深度学习的众包任务个性化推荐方法和系统 | |
KR102575603B1 (ko) | 인공지능을 이용한 사용자 리뷰 분석 장치 및 그 방법 | |
CN114117008A (zh) | 一种语义理解方法、计算机设备及存储介质 | |
Rauf et al. | BCE4ZSR: Bi-encoder empowered by teacher cross-encoder for zero-shot cold-start news recommendation | |
CN112667788A (zh) | 一种新型的基于bertcontext的多轮对话自然语言理解模型 | |
Nishimoto et al. | Dialogue management with deep reinforcement learning: Balancing exploration and exploitation | |
CN118364813B (zh) | 基于机器阅读理解的知识增强方法、系统、装置、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |