CN113535950A - 一种基于知识图谱和胶囊网络的小样本意图识别方法 - Google Patents

一种基于知识图谱和胶囊网络的小样本意图识别方法 Download PDF

Info

Publication number
CN113535950A
CN113535950A CN202110660706.0A CN202110660706A CN113535950A CN 113535950 A CN113535950 A CN 113535950A CN 202110660706 A CN202110660706 A CN 202110660706A CN 113535950 A CN113535950 A CN 113535950A
Authority
CN
China
Prior art keywords
intention
knowledge
vector
statement
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110660706.0A
Other languages
English (en)
Other versions
CN113535950B (zh
Inventor
姜明
曹凯强
张旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110660706.0A priority Critical patent/CN113535950B/zh
Publication of CN113535950A publication Critical patent/CN113535950A/zh
Application granted granted Critical
Publication of CN113535950B publication Critical patent/CN113535950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识图谱和胶囊网络的小样本意图识别方法。本发明首先将语句中存在的实体映射到知识图谱,提取该实体在知识图谱中相关联的所有类别信息,并通过注意力机制获得知识先验向量。随后使用阀门机制控制语句中原本存在的上下文语义向量,和该知识先验向量对当前实体表示的影响。下一步利用胶囊网络将已包含先验知识的语句表示映射到高层次的意图表示。最后通过计算未知语句与各个意图之间的相似度,对未知语句做意图分类处理。并且本文对训练集中的数据进行了划分,在训练时采用了元学习的训练方法,使得本文学习到的模型更加具有说服力和通用性。

Description

一种基于知识图谱和胶囊网络的小样本意图识别方法
技术领域
本发明涉及口语理解领域,具体涉及一种基于知识图谱和胶囊网络的小样本意图识别方法,属于自然语言处理中的人机对话领域。
背景技术
口语理解是任务型人机对话系统中不可或缺的一部分,而意图识别是口语理解当中的1个关键任务。该任务的关键是识别出用户语句的目的。当前意图识别模型通常需要在大量标注好的数据集上进行训练,而当模型需要判别领域内新的意图时,往往仅有少量的相关数据可供训练,所以越来越多的研究人员采用基于小样本学习的意图识别方法。在现有的方法中,通常将样本表示进行求和或者求平均的方式来得到意图表示,这样做的问题是同一意图中的噪声样本会导致该意图的高维特征表示丢失“关键信息”,并且该问题在样本数据变多时会更加突出。实际上,同一意图的内部样本通常会共享某些特征,但是每个样本也拥有自己的独立特征。如果在嵌入空间中,仅通过累加或者求平均的方式得到意图表示,会使意图之间的距离过于接近而导致分类失败。因此本发明采用胶囊网络对语句进行层次化建模分别得到高维意图表示和语句表示。小样本学习模型仅能在容量有限的数据集上训练,这会使模型不能充分学习样本的分布特征,从而导致得到的语句向量表示不能包含全部语义。类比人类在学习新事物前拥有的丰富先验知识,可通过加入先验信息的方法,从已有外部知识库中抽取语句中实体的相关信息来加强实体的语义表示。考虑到抽取的外部先验信息可能与实体在语句中需表示的语义信息不一致,因此,可结合实体在语句中的上下文信息,通过阀门机制控制先验信息与上下文信息对实体表示的影响。综上所述,本发明首先从已有知识图谱中,抽取数据集中与语句相关的先验信息,并且结合语句中原本存在的上下文信息,来加强语句中实体的语义表示,随后采用胶囊网络对语句进行层次化建模。将低维语义特征表示映射到高维意图特征表示,最后结合该高维意图特征表示对未知语句进行分类。
发明内容
本发明的目的是针对现有技术的不足,提出一种基于知识图谱和胶囊网络的小样本意图识别方法,以解决在小样本意图识别中,语句语义表示不充分,和不能得到有效意图特征表示的问题。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤(1)获取银行业务数据集并进行预处理,根据数据集中每条语句所属的意图,将数据集划分为10个子业务模块;
步骤(2)确定模型需识别的同业务意图和跨业务意图,并且设置训练规则;
步骤(3)建立基于知识图谱和胶囊网络的小样本意图识别架构,确定网络组成部分以及层数和维度,得到小样本意图识别模型;
步骤(4)将步骤(1)预处理后的语句输入双向LSTM模型,使语句中单词的表示能够获取语句的前后文信息;
步骤(5)利用实体识别工具识别出步骤(1)预处理后的语句中存在的实体,并且映射至知识图谱中对应的实体,抽取该实体相关联的知识表示向量;
步骤(6)利用注意力机制计算步骤(5)抽取到的每一个知识表示向量,与语句中当前实体之间的关联程度;
步骤(7)根据步骤(4)中前一时刻的双向LSTM的隐藏层状态和当前时刻单词输入,得到上下文关联向量,并计算该向量与当前实体之间的关联程度;
步骤(8)先将知识表示向量与对应关联度相乘,后将上下文关联向量与对应影响权重值相乘,将两个相乘结果相加后与原先实体表示进行融合,得到新的实体表示;
步骤(9)利用胶囊网络将低层次的语句语义表示,映射到高维的意图特征表示;
步骤(10)基于步骤(4)至步骤(8)对未知语句进行操作后,得到未知语句表示,结合步骤(9)中的高维意图特征表示,对未知语句进行分类;
步骤(11)将预测的意图与语句对应的真实意图进行对比,计算损失函数,迭代更新网络模型中的参数;
步骤(12)将需测试的目标意图与对应的语句输入训练好的小样本意图识别模型,正确获得语句表示和高维意图特征表示,结合该高维意图特征表示对未知语句进行分类,输出未知语句对应的意图。
本发明所具有的优点如下:
针对现有技术的不足,提供一种基于知识图谱和胶囊网络的小样本意图识别方法,首先将语句中存在的实体映射到知识图谱,提取该实体在知识图谱中相关联的所有类别信息,并通过注意力机制获得知识先验向量。随后使用阀门机制来控制语句中原本存在的上下文语义向量,以及该知识先验向量对当前实体表示的影响。下一步利用胶囊网络将已包含先验知识的语句表示映射到高层次的意图表示。最后通过计算未知语句与各个意图之间的相似度,对未知语句做意图分类处理。同时本发明对训练集中的数据进行了划分,在训练时采用了元学习的训练方法,使得本发明学习到的模型更加具有说服力和通用性。
附图说明
图1是本发明的整体实施方案流程图;
图2是本发明的训练方式示意图;
图3是本发明的训练模型示意图;
图4是胶囊网络模型图;
图5是本发明工艺实施方案的具体流程图;
具体实施方式
下面结合附图对本发明作进一步描述。
本发明的整体实施方案流程图参照图1,一种基于知识图谱和胶囊网络的小样本意图识别方法包括以下步骤:
步骤(1)获取银行业务数据集并进行预处理,根据数据集中每条语句所属的意图,将数据集划分为10个子业务模块;
步骤(2)确定模型需识别的同业务意图和跨业务意图,并且设置训练规则;
步骤(3)建立基于知识图谱和胶囊网络的小样本意图识别架构,确定网络组成部分以及层数和维度,得到小样本意图识别模型;
步骤(4)将步骤(1)预处理后的语句输入双向LSTM模型,使语句中单词的表示能够获取语句的前后文信息;
步骤(5)利用实体识别工具识别出步骤(1)预处理后的语句中存在的实体,并且映射至知识图谱中对应的实体,抽取该实体相关联的知识表示向量;
步骤(6)利用注意力机制计算步骤(5)抽取到的每一个知识表示向量,与语句中当前实体之间的关联程度;
步骤(7)根据步骤(4)中前一时刻的双向LSTM的隐藏层状态和当前时刻单词输入,得到上下文关联向量,并计算该向量与当前实体之间的关联程度;
步骤(8)先将知识表示向量与对应关联度相乘,后将上下文关联向量与对应影响权重值相乘,将两个相乘结果相加后与原先实体表示进行融合,得到新的实体表示;
步骤(9)利用胶囊网络将低层次的语句语义表示,映射到高维的意图特征表示;
步骤(10)基于步骤(4)至步骤(8)对未知语句进行操作后,得到未知语句表示,结合步骤(9)中的高维意图特征表示,对未知语句进行分类;
步骤(11)将预测的意图与语句对应的真实意图进行对比,计算损失函数,迭代更新网络模型中的参数;
步骤(12)将需测试的目标意图与对应的语句输入训练好的小样本意图识别模型,正确获得语句表示和高维意图特征表示,结合该高维意图特征表示对未知语句进行分类,输出未知语句对应的意图。
步骤(1)具体过程如下:
(1-1)采用单领域银行业务数据集banking 77,该数据集采样于银行线上真实的客服问答场景,并且已经通过手动转录的方式将用户的话语转换为文本。该数据集中共包含银行业务的77个意图和13083条语句,涉及了用户在银行中办理的大部分业务,并且正确标记了每一句语句对应的意图;
(1-2)根据银行业务划分准则,又对77个意图划分成10个子业务,分别有“银行卡业务,汇率业务,转账业务,存款业务,账户信息业务,手续费业务,取现业务,货币或银行卡兼容性业务,第三方设备业务,付款业务”;
步骤(2)具体过程如下:
(2-1)设置训练规则,将提供给模型训练的意图称为“源领域意图”,将模型需要分类的意图称为“目标域意图”。在学习分类目标域意图的过程中,将提供给模型训练的样本称为“支持集”,模型需测试的样本称为“查询集”。假设共有C个意图,在支持集中每个意图有K个样本,在查询集中每个意图有L个样本,并且支持集与查询集中的样本均不重合。模型需要在支持集的C×K个样本上训练后,可以辨别查询集中的C×L个样本,称该类问题为“C-way K-shot”小样本分类问题;
(2-2)假设当前的小样本分类目标为辨别“activate_my_card”和“card_swallowed”,这2个意图构成“目标域意图”。每个意图提供K个样本进行训练,L个样本进行测试,把模型在目标域意图的训练和测试过程划入“元学习的测试阶段”。在元学习的训练阶段,每次从源领域意图集合中随机抽取2个与目标意图(activate_my_card,card_swallowed)不重合的意图构成1个训练任务的分类目标。训练任务的目标为分类“card_arrival”和“card_linking”。在一个训练任务的构建过程中,首先从这2个意图对应的样本中分别抽取K个构成“支持集S”,随后在2个意图的剩余样本中分别随机抽取L个构成“查询集Q”。模型经1个训练任务上的支持集S训练后,在查询集Q上通过计算分类准确率得到模型的误差,根据该误差更新整体参数;
(2-3)设置本发明的训练场景,分别为跨业务和相同业务内的小样本意图识别测试场景。在这2种测试场景内又分为3-way 10-shot和3-way 30-shot两种测试问题;
(2-4)跨业务的小样本意图识别场景:以3-way 10-shot问题举例,首先从10个业务中随机抽取3个业务,随后每个业务内随机抽取1个意图组成目标意图。例如随机抽取的业务为转账、存款和取现业务,随机抽取的目标意图集合为(cancel_transfer,verify_top_up,pending_cash_withdrawal)。3个意图各提供10个训练样本,随后对每个意图剩余数据中的30个不重合样本进行测试。按照步骤(2-2)提到的训练方法,在训练阶段的每1个任务中,从3个业务中分别随机抽取1个意图组成训练意图集合,该训练意图集合与目标意图不重合。每个意图提供10个样本组成支持集进行训练,随后从3个训练意图的剩余样本中,各随机抽取30个样本组成查询集,即1个训练任务共需3×10+3×30=120个样本;
(2-5)相同业务内的小样本意图识别场景:以3-way 10-shot问题在“银行卡业务”中的实践为例。在银行卡业务中随机抽取3个意图作为目标意图。例如目标意图集合为(card_arrival,card_not_working,activate_my_card),每个意图提供10个训练样本,模型经训练后对每个意图剩余数据中的30个样本进行测试。按照步骤(2-2)提到的训练方法,从银行卡业务的剩余意图中随机抽取3个意图作为1个训练任务的意图集合,并保证该训练意图集合与目标意图不重合。每个意图提供10个样本组成支持集进行训练,随后从3个训练意图的剩余样本中,各随机抽取30个样本组成查询集,即1个训练任务共需3×10+3×30=120个样本;
步骤(3)所述的小样本意图识别具体过程如下:
小样本意图识别模型主要由3个部分组成,分别为知识图谱增强语义表示层、动态路由映射层以及查询集语句分类计算层,每层的维度为256;知识图谱增强语义表示层由知识图谱和双向LSTM组成,动态路由映射层由胶囊网络组成;查询集语句分类计算层由多层感知机组成。
步骤(4)具体过程如下:
(4-1)首先使用预训练的词向量模型将语句转换为对应的词向量矩阵X=[x1,x2,...,xT],其中语句的长度为T,xi的维度为Dw
(4-2)随后将语句输入双向LSTM,在LSTM网络的神经元内部共有3个门用于控制细胞状态ct和隐藏层状态ht的更新,分别为输入门、遗忘门和输出门。以从左往右的单向LSTM网络在t时刻的更新为例,3个门机制的计算和状态的更新分别如下所示:
Figure BDA0003115116180000061
Figure BDA0003115116180000062
Figure BDA0003115116180000063
Figure BDA0003115116180000064
Figure BDA0003115116180000065
其中,Wi,Wf,Wo,Wc,Ui,Uf,Uo,Uc分别为需要学习的权重矩阵,xt为t时刻的单词词向量表示,
Figure BDA0003115116180000066
Figure BDA0003115116180000067
分别表示t-1时刻和t时刻LSTM网络的隐藏层状态表示,ct-1和ct分别表示t-1时刻和t时刻LSTM网络的细胞状态表示;
(4-3)将从左往右和从右往左的LSTM网络在当前t时刻的隐藏层状态拼接,得到双向LSTM的隐藏层状态表示ht,拼接过程如下所示:
Figure BDA0003115116180000068
步骤(5)具体过程如下:
(5-1)首先利用实体识别工具coreNLP识别出语句X中的实体ei,随后利用字符串之间的精确匹配将ei映射到知识图谱中对应的实体gi。抽取gi在知识图谱中关联的所有类别信息,并将每个类别信息对应的知识表示向量vi添加进ei的知识向量集合V(xt)中;
步骤(6)具体过程如下:
(6-1)采用双线性函数计算知识表示向量vi的影响权重值ati,获得抽取到的每个知识表示向量vi与当前单词的关联度,如下所示:
Figure BDA0003115116180000069
其中Wv为需要学习的权重矩阵,vi∈V(xt),ht为由步骤(4-3)中利用双向LSTM模型得到的t时刻单词对应的隐藏层状态表示;
步骤(7)具体过程如下:
(7-1)首先将前一时刻LSTM网络的隐藏层状态ht-1和当前实体的词向量表示xt输入sigmoid门函数,来计算有多少信息输出。随后将得到的bt与当前时刻LSTM细胞状态ct进行哈达玛乘积操作得到上下文影响向量st,最后利用双线性函数计算上下文影响向量st对当前时刻LSTM隐藏层状态ht的影响权重值βt。如下所示:
bt=σ(Wbht-1+Ubxt)
st=bt⊙tanh(ct)
Figure BDA0003115116180000071
其中Wb、Ub和Ws是需要学习的权重矩阵;
步骤(8)具体过程如下:
(8-1)首先将步骤(4)中得到的每个知识表示向量vi和步骤(7)得到的上下文影响向量st进行融合,得到新的实体表示mt,随后结合原先t时刻隐藏层状态表示ht得到
Figure BDA0003115116180000072
计算过程如下所示:
Figure BDA0003115116180000073
其中,要求
Figure BDA0003115116180000074
该条件起到控制知识表示向量和上下文向量影响程度大小比较的作用,支持集中的语句经步骤(4)至步骤(8)操作后,得到新的语句表示
Figure BDA0003115116180000075
步骤(9)具体过程如下:
(9-1)随机初始化意图i,与该意图对应支持集的一个样本语句j之间的连接权重。随后使用softmax函数进行归一化,使得类别i与该类中样本语句之间的耦合系数总和为1,计算过程如下所示:
Figure BDA0003115116180000076
其中,wij表示意图i与对应支持集中的一个样本语句j之间的连接权重,K表示意图i对应支持集中的语句数目,wim表示意图i与对应支持集中的任意一个样本语句m之间的连接权重;
(9-2)通过加权聚合操作得到高维胶囊输入ci,计算过程如下所示:
Figure BDA0003115116180000077
其中K表示一个意图在支持集中对应的样本语句数目,bij表示经softmax函数归一化后的连接权重,
Figure BDA0003115116180000081
为语句经步骤(4)至步骤(8)后得到的低维语句表示,ci为语句经聚合操作后得到的高维胶囊输入;
(9-3)通过胶囊网络的squash激活函数对高维胶囊输入ci进行压缩,得到意图表示
Figure BDA0003115116180000082
该压缩方式可使向量的长度压缩在0-1之间并且方向保持不变,计算过程如下所示:
Figure BDA0003115116180000083
(9-4)最后胶囊网络通过自顶向下的方式,动态地调节连接权重wij,即当语句
Figure BDA0003115116180000084
对于当前意图表示
Figure BDA0003115116180000085
影响较大时,对应的权重wij会被调节地更大。反之则会减小对应的连接权重wij。调节过程如下所示:
Figure BDA0003115116180000086
步骤(10)具体过程如下:
(10-1)为了计算查询集中1条语句q与各个意图
Figure BDA0003115116180000087
之间的相似度,本发明首先经过步骤(4)至步骤(8)操作语句q,得到查询向量
Figure BDA0003115116180000088
(10-2)将查询语句向量
Figure BDA0003115116180000089
与各个意图
Figure BDA00031151161800000810
拼接随后输入MLP多层感知机获取各个意图的预测分数,计算方式如下:
Figure BDA00031151161800000811
Figure BDA00031151161800000812
其中,
Figure BDA00031151161800000813
是一个可训练的权重转置矩阵,b是对应的偏置项。本模型采用tanh作为激活函数。在多层感知机输出端采用softmax函数进行归一化操作;
步骤(11)具体过程如下:
(11-1)基于均方误差(MSE)损失函数来进行训练,将得到的预测意图与真实意图进行比较,若匹配成功则赋值为1,反之则赋值为0。损失函数如下所示:
Figure BDA00031151161800000814
其中S,Q分别表示给定具有C个意图的支持集和查询集样本数量大小,y′q表示模型预测的意图,yq表示查询集语句q对应的真正意图;
步骤(12)具体过程如下:
(12-1)将目标意图对应的支持集语句与查询集语句输入训练好的小样本意图识别网络模型,正确得到高维意图表示,结合该意图表示对该查询集语句做意图分类;
如图3所示,小样本意图识别模型主要由3个模块组成,首先将语句中存在的实体映射到知识图谱,提取该实体在知识图谱中相关联的所有类别信息,并通过注意力机制获得知识先验向量。随后使用阀门机制来控制语句中原本存在的上下文语义向量,以及该知识先验向量对当前实体表示的影响。下一步利用胶囊网络将已包含先验知识的语句表示映射到高层次的意图表示。最后通过计算未知语句与各个意图之间的相似度,对未知语句做意图分类处理。
所述的胶囊网络结构如图4所示:
在图像处理中,CNN仅能提取图片中的局部特征,并不能提取特征之间的相对位置关系,例如在人脸中,“嘴巴”处于“眼睛”下方,CNN会因为池化等操作不能提取相对位置特征,然而这种特征对于预测结果会产生较大的影响。因可使用胶囊网络来提取特征之间的相对位置关系。胶囊网络认为大脑是由一个个的“胶囊”组成的。这些胶囊可以提取图片中不同的信息,例如色调、速度、姿势和方向等。并且为了对图片进行层次化建模,胶囊网络也会被划分为不同的层次,例如低级胶囊和高级胶囊。在对图片中的空间信息进行编码后,可利用动态路由机制将低层次胶囊处理得到的信息“导航”到对应的高层次胶囊。
动态路由算法由如下5个步骤组成:
(1)输入低层次的胶囊向量ui∈Rk×1,i=1,2,...n,其中n表示低层次的胶囊个数,k表示胶囊内的神经元个数,ui为低层次胶囊提取到的特征值;
(2)使用转换矩阵Wij∈Rp×k将输入向量ui∈Rk×1转换为预测向量
Figure BDA0003115116180000091
转换过程如下所示:
Figure BDA0003115116180000092
其中,p表示输出的高层次胶囊中神经元的数量;
(3)随机初始化预测向量与高层次胶囊之间的连接权重cij。将预测向量与对应权重系数相乘求和后,得到高层胶囊j的总输入sj,如下所示:
Figure BDA0003115116180000093
其中cij表示低层次胶囊i与高层次胶囊j之间的概率系数,要求∑jcij=1;
(4)采用squash函数代替传统的激活函数,例如Relu等,对高层次胶囊sj进行压缩。如下所示:
Figure BDA0003115116180000101
其中,vj是第j个胶囊的输出向量,sj为当前层所有胶囊的总输出向量。squash压缩函数可以使高层次胶囊的输入向量长度限制在一定范围内。所起的作用为当sj数值较小时,会把vj的长度压缩至接近于0,反之如果sj的长度较长,则会将vj的输出长度控制在1以内。并且vj的方向sj保持一致;
(5)通过计算激活向量vj与预测向量
Figure BDA0003115116180000102
之间的相似度,判断2个胶囊之间的相关性。将具有强相关性的胶囊对应的连接权重值,通过自顶向下的方式进行更新,如下所示:
Figure BDA0003115116180000103
与CNN中的最大池化层相比,胶囊网络中的高层次胶囊保留的是低层次胶囊提取到的特征加权总和,并且不会因为特征移出池化窗口而丢失。因此,胶囊网络可以最大化的保留提取到的特征并判断它们之间的关系。
一种基于知识图谱和胶囊网络的小样本意图识别方法。工艺实施方案的具体流程图如图5所示,从输入数据集到输出对应语句意图,迭代训练该模型。

Claims (10)

1.一种基于知识图谱和胶囊网络的小样本意图识别方法,其特征在于包括以下步骤:
步骤(1)获取银行业务数据集并进行预处理,根据数据集中每条语句所属的意图,将数据集划分为10个子业务模块;
步骤(2)确定模型需识别的同业务意图和跨业务意图,并且设置训练规则;
步骤(3)建立基于知识图谱和胶囊网络的小样本意图识别架构,确定网络组成部分以及层数和维度,得到小样本意图识别模型;
步骤(4)将步骤(1)预处理后的语句输入双向LSTM模型,使语句中单词的表示能够获取语句的前后文信息;
步骤(5)利用实体识别工具识别出步骤(1)预处理后的语句中存在的实体,并且映射至知识图谱中对应的实体,抽取该实体相关联的知识表示向量;
步骤(6)利用注意力机制计算步骤(5)抽取到的每一个知识表示向量,与语句中当前实体之间的关联程度;
步骤(7)根据步骤(4)中前一时刻的双向LSTM的隐藏层状态和当前时刻单词输入,得到上下文关联向量,并计算该向量与当前实体之间的关联程度;
步骤(8)先将知识表示向量与对应关联度相乘,后将上下文关联向量与对应影响权重值相乘,将两个相乘结果相加后与原先实体表示进行融合,得到新的实体表示;
步骤(9)利用胶囊网络将低层次的语句语义表示,映射到高维的意图特征表示;
步骤(10)基于步骤(4)至步骤(8)对未知语句进行操作后,得到未知语句表示,结合步骤(9)中的高维意图特征表示,对未知语句进行分类;
步骤(11)将预测的意图与语句对应的真实意图进行对比,计算损失函数,迭代更新网络模型中的参数;
步骤(12)将需测试的目标意图与对应的语句输入训练好的小样本意图识别模型,正确获得语句表示和高维意图特征表示,结合该高维意图特征表示对未知语句进行分类,输出未知语句对应的意图;
步骤(3)所述的小样本意图识别具体过程如下:
小样本意图识别模型主要由3个部分组成,分别为知识图谱增强语义表示层、动态路由映射层以及查询集语句分类计算层,每层的维度为256;知识图谱增强语义表示层由知识图谱和双向LSTM组成,动态路由映射层由胶囊网络组成;查询集语句分类计算层由多层感知机组成。
2.根据权利要求1所述的一种基于知识图谱和胶囊网络的小样本意图识别方法,其特征在于步骤(1)具体过程如下:
(1-1)采用单领域银行业务数据集banking77,该数据集采样于银行线上真实的客服问答场景,并且已经通过手动转录的方式将用户的话语转换为文本;该数据集中共包含银行业务的77个意图和13083条语句,涉及了用户在银行中办理的大部分业务,并且正确标记了每一句语句对应的意图;
(1-2)根据银行业务划分准则,又对77个意图划分成10个子业务,分别有“银行卡业务,汇率业务,转账业务,存款业务,账户信息业务,手续费业务,取现业务,货币或银行卡兼容性业务,第三方设备业务,付款业务”。
3.根据权利要求1所述的一种基于知识图谱和胶囊网络的小样本意图识别方法,其特征在于步骤(2)具体流程如下:
(2-1)设置训练规则,将提供给模型训练的意图称为“源领域意图”,将模型需要分类的意图称为“目标域意图”;在学习分类目标域意图的过程中,将提供给模型训练的样本称为“支持集”,模型需测试的样本称为“查询集”;假设共有C个意图,在支持集中每个意图有K个样本,在查询集中每个意图有L个样本,并且支持集与查询集中的样本均不重合;模型需要在支持集的C×K个样本上训练后,可以辨别查询集中的C×L个样本,称该类问题为“C-wayK-shot”小样本分类问题;
(2-2)假设当前的小样本分类目标为辨别“activate_my_card”和“card_swallowed”,这2个意图构成“目标域意图”;每个意图提供K个样本进行训练,L个样本进行测试,把模型在目标域意图的训练和测试过程划入“元学习的测试阶段”;在元学习的训练阶段,每次从源领域意图集合中随机抽取2个与目标意图(activate_my_card,card_swallowed)不重合的意图构成1个训练任务的分类目标;训练任务的目标为分类“card_arrival”和“card_linking”;在一个训练任务的构建过程中,首先从这2个意图对应的样本中分别抽取K个构成“支持集S”,随后在2个意图的剩余样本中分别随机抽取L个构成“查询集Q”;模型经1个训练任务上的支持集S训练后,在查询集Q上通过计算分类准确率得到模型的误差,根据该误差更新整体参数。
4.根据权利要求1或2或3所述的一种基于知识图谱和胶囊网络的小样本意图识别方法,其特征在于步骤(4)具体过程如下:
(4-1)首先使用预训练的词向量模型将语句转换为对应的词向量矩阵X=[x1,x2,...,xT],其中语句的长度为T,xi的维度为Dw
(4-2)随后将语句输入双向LSTM,在LSTM网络的神经元内部共有3个门用于控制细胞状态ct和隐藏层状态ht的更新,分别为输入门、遗忘门和输出门;以从左往右的单向LSTM网络在t时刻的更新为例,3个门机制的计算和状态的更新分别如下所示:
Figure FDA0003115116170000031
Figure FDA0003115116170000032
Figure FDA0003115116170000033
Figure FDA0003115116170000034
Figure FDA0003115116170000035
其中,Wi,Wf,Wo,Wc,Ui,Uf,Uo,Uc分别为需要学习的权重矩阵,xt为t时刻的单词词向量表示,
Figure FDA0003115116170000036
Figure FDA0003115116170000037
分别表示t-1时刻和t时刻LSTM网络的隐藏层状态表示,ct-1和ct分别表示t-1时刻和t时刻LSTM网络的细胞状态表示;
(4-3)将从左往右和从右往左的LSTM网络在当前t时刻的隐藏层状态拼接,得到双向LSTM的隐藏层状态表示ht,拼接过程如下所示:
Figure FDA0003115116170000038
5.根据权利要求4所述的一种基于知识图谱和胶囊网络的小样本意图识别方法,其特征在于步骤(5)具体过程如下:
(5-1)首先利用实体识别工具coreNLP识别出语句X中的实体ei,随后利用字符串之间的精确匹配将ei映射到知识图谱中对应的实体gi;抽取gi在知识图谱中关联的所有类别信息,并将每个类别信息对应的知识表示向量vi添加进ei的知识向量集合V(xt)中。
6.根据权利要求5所述的基于知识图谱和胶囊网络的小样本意图识别方法,其特征在于步骤(6)具体过程如下:
(6-1)采用双线性函数计算知识表示向量vi的影响权重值ati,获得抽取到的每个知识表示向量vi与当前单词的关联度,如下所示:
Figure FDA0003115116170000039
其中Wv为需要学习的权重矩阵,vi∈V(xt),ht为由步骤(4-3)中利用双向LSTM模型得到的t时刻单词对应的隐藏层状态表示。
7.根据权利要求6所述的一种基于知识图谱和胶囊网络的小样本意图识别方法,其特征在于步骤(7)具体过程如下:
(7-1)首先将前一时刻LSTM网络的隐藏层状态ht-1和当前实体的词向量表示xt输入sigmoid门函数,来计算有多少信息输出;随后将得到的bt与当前时刻LSTM细胞状态ct进行哈达玛乘积操作得到上下文影响向量st,最后利用双线性函数计算上下文影响向量st对当前时刻LSTM隐藏层状态ht的影响权重值βt;如下所示:
bt=σ(Wbht-1+Ubxt)
st=bt⊙tanh(ct)
Figure FDA0003115116170000041
其中Wb、Ub和Ws是需要学习的权重矩阵。
8.根据权利要求7所述的一种基于知识图谱和胶囊网络的小样本意图识别方法,其特征在于步骤(8)具体过程如下:
(8-1)首先将步骤(4)中得到的每个知识表示向量vi和步骤(7)得到的上下文影响向量st进行融合,得到新的实体表示mt,随后结合原先t时刻隐藏层状态表示ht得到
Figure FDA0003115116170000042
计算过程如下所示:
Figure FDA0003115116170000043
Figure FDA0003115116170000044
其中,要求
Figure FDA0003115116170000045
该条件起到控制知识表示向量和上下文向量影响程度大小比较的作用,支持集中的语句经步骤(4)至步骤(8)操作后,得到新的语句表示
Figure FDA0003115116170000046
9.根据权利要求8所述的一种基于知识图谱和胶囊网络的小样本意图识别方法,其特征在于步骤(9)具体过程如下:
(9-1)随机初始化意图i,与该意图对应支持集的一个样本语句j之间的连接权重;随后使用softmax函数进行归一化,使得类别i与该类中样本语句之间的耦合系数总和为1,计算过程如下所示:
Figure FDA0003115116170000047
其中,wij表示意图i与对应支持集中的一个样本语句j之间的连接权重,K表示意图i对应支持集中的语句数目,wim表示意图i与对应支持集中的任意一个样本语句m之间的连接权重;
(9-2)通过加权聚合操作得到高维胶囊输入ci,计算过程如下所示:
Figure FDA0003115116170000051
其中K表示一个意图在支持集中对应的样本语句数目,bij表示经softmax函数归一化后的连接权重,
Figure FDA0003115116170000052
为语句经步骤(4)至步骤(8)后得到的低维语句表示,ci为语句经聚合操作后得到的高维胶囊输入;
(9-3)通过胶囊网络的squash激活函数对高维胶囊输入ci进行压缩,得到意图表示
Figure FDA0003115116170000053
该压缩方式可使向量的长度压缩在0-1之间并且方向保持不变,计算过程如下所示:
Figure FDA0003115116170000054
(9-4)最后胶囊网络通过自顶向下的方式,动态地调节连接权重wij,即当语句
Figure FDA0003115116170000055
对于当前意图表示
Figure FDA0003115116170000056
影响较大时,对应的权重wij会被调节地更大;反之则会减小对应的连接权重wij;调节过程如下所示:
Figure FDA0003115116170000057
10.根据权利要求9所述的一种基于知识图谱和胶囊网络的小样本意图识别方法,其特征在于步骤(10)具体过程如下:
(10-1)为了计算查询集中1条语句q与各个意图
Figure FDA0003115116170000058
之间的相似度,首先经过步骤(4)至步骤(8)操作语句q,得到查询语句向量
Figure FDA0003115116170000059
(10-2)将查询语句向量
Figure FDA00031151161700000510
与各个意图
Figure FDA00031151161700000511
拼接随后输入MLP多层感知机获取各个意图的预测分数,计算方式如下:
Figure FDA00031151161700000512
Figure FDA00031151161700000513
其中,
Figure FDA00031151161700000514
是一个可训练的权重转置矩阵,b是对应的偏置项;采用tanh作为激活函数;在多层感知机输出端采用softmax函数进行归一化操作。
CN202110660706.0A 2021-06-15 2021-06-15 一种基于知识图谱和胶囊网络的小样本意图识别方法 Active CN113535950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110660706.0A CN113535950B (zh) 2021-06-15 2021-06-15 一种基于知识图谱和胶囊网络的小样本意图识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110660706.0A CN113535950B (zh) 2021-06-15 2021-06-15 一种基于知识图谱和胶囊网络的小样本意图识别方法

Publications (2)

Publication Number Publication Date
CN113535950A true CN113535950A (zh) 2021-10-22
CN113535950B CN113535950B (zh) 2022-09-27

Family

ID=78124951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110660706.0A Active CN113535950B (zh) 2021-06-15 2021-06-15 一种基于知识图谱和胶囊网络的小样本意图识别方法

Country Status (1)

Country Link
CN (1) CN113535950B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100532A (zh) * 2022-08-02 2022-09-23 北京卫星信息工程研究所 小样本遥感图像目标检测方法和系统
CN117009533A (zh) * 2023-09-27 2023-11-07 戎行技术有限公司 一种基于分聚类抽取与词向量模型的暗语识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442710A (zh) * 2019-07-03 2019-11-12 广州探迹科技有限公司 一种基于知识图谱的短文本语义理解与精准匹配方法及装置
CN111460097A (zh) * 2020-03-26 2020-07-28 华泰证券股份有限公司 一种基于tpn的小样本文本分类方法
CN112948505A (zh) * 2021-03-30 2021-06-11 太原理工大学 一种实体关系分类的模型构建方法、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442710A (zh) * 2019-07-03 2019-11-12 广州探迹科技有限公司 一种基于知识图谱的短文本语义理解与精准匹配方法及装置
CN111460097A (zh) * 2020-03-26 2020-07-28 华泰证券股份有限公司 一种基于tpn的小样本文本分类方法
CN112948505A (zh) * 2021-03-30 2021-06-11 太原理工大学 一种实体关系分类的模型构建方法、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIN ZHANG等: "Knowledge Graph Completion for the Chinese Text of Cultural Relics Based on Bidirectional Encoder Representations from Transformers with Entity-Type Information", 《MDPI》 *
胡松江: "基于知识图谱的问答系统问句理解方法研究", 《万方》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100532A (zh) * 2022-08-02 2022-09-23 北京卫星信息工程研究所 小样本遥感图像目标检测方法和系统
CN115100532B (zh) * 2022-08-02 2023-04-07 北京卫星信息工程研究所 小样本遥感图像目标检测方法和系统
CN117009533A (zh) * 2023-09-27 2023-11-07 戎行技术有限公司 一种基于分聚类抽取与词向量模型的暗语识别方法
CN117009533B (zh) * 2023-09-27 2023-12-26 戎行技术有限公司 一种基于分聚类抽取与词向量模型的暗语识别方法

Also Published As

Publication number Publication date
CN113535950B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
US10008209B1 (en) Computer-implemented systems and methods for speaker recognition using a neural network
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN113535950B (zh) 一种基于知识图谱和胶囊网络的小样本意图识别方法
CN109545227B (zh) 基于深度自编码网络的说话人性别自动识别方法及系统
WO2020168752A1 (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN110147548B (zh) 基于双向门控循环单元网络和新型网络初始化的情感识别方法
WO2021051513A1 (zh) 基于神经网络的中英翻译方法、及其相关设备
CN111353029B (zh) 一种基于语义匹配的多轮对话口语理解方法
WO2021147041A1 (zh) 语义分析方法、装置、设备及存储介质
WO2021204017A1 (zh) 文本意图识别方法、装置以及相关设备
CN115329779A (zh) 一种多人对话情感识别方法
CN114818703B (zh) 基于BERT语言模型和TextCNN模型的多意图识别方法及系统
CN114186063A (zh) 跨域文本情绪分类模型的训练方法和分类方法
CN110781302A (zh) 文本中事件角色的处理方法、装置、设备及存储介质
WO2023071120A1 (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
CN113822125A (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN114020897A (zh) 一种对话情感识别方法及相关装置
CN117094835A (zh) 面向社交媒体内容的多目标群体分类方法
Chakroun et al. A deep learning approach for text-independent speaker recognition with short utterances
CN113239678B (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
CN115238050A (zh) 基于文本匹配和意图识别融合处理的智能对话方法及装置
CN108831487A (zh) 声纹识别方法、电子装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant