CN111353029B - 一种基于语义匹配的多轮对话口语理解方法 - Google Patents

一种基于语义匹配的多轮对话口语理解方法 Download PDF

Info

Publication number
CN111353029B
CN111353029B CN202010109598.3A CN202010109598A CN111353029B CN 111353029 B CN111353029 B CN 111353029B CN 202010109598 A CN202010109598 A CN 202010109598A CN 111353029 B CN111353029 B CN 111353029B
Authority
CN
China
Prior art keywords
semantic
historical
statement
sentence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010109598.3A
Other languages
English (en)
Other versions
CN111353029A (zh
Inventor
姜明
曹凯强
李鹏飞
张旻
汤景凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010109598.3A priority Critical patent/CN111353029B/zh
Publication of CN111353029A publication Critical patent/CN111353029A/zh
Application granted granted Critical
Publication of CN111353029B publication Critical patent/CN111353029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语义匹配的多轮对话口语理解方法。本发明利用基于词级别的attention卷积神经网络和树状循环神经网络联合提取语句语义信息,并通过语义匹配对历史语句进行合理的权重值分配,结合上述产生的历史语句语义表示和对应的权重值,输入对应角色双向LSTM模型得到角色历史影响向量,结合2个角色历史影响向量得到最终历史语义影响向量,结合该向量对当前语句做意图检测,并通过损失函数优化模型参数结构。这种方法具有更好的鲁棒性和自适应能力。其中具体发明的基于语义匹配的多轮对话口语理解模型训练流程图如图2。

Description

一种基于语义匹配的多轮对话口语理解方法
技术领域
本发明涉及口语理解领域,具体涉及一种基于语义匹配的多轮对话口语理解方法,属于自然语言处理中的人机对话领域。
背景技术
随着人工智能的日益发展以及人机交互技术的进步,越来越丰富的人机交互模式开始出现,其中,任务型人机对话系统是人机对话中的一个重要应用。任务型人机对话系统通过与用户进行多轮基于自然语言的对话来逐步收集与目标相关的信息,从而辅助用户成功获得某种服务。任务型对话作为人工智能的典型应用,已成为一种重要的人机交互核心技术。而口语理解(SLU)是面向任务的对话系统中非常重要的一部分,它将用户的话语解析为语义框架表示。在口语理解的正确基础上,才能进一步进行对话的状态追踪,对话决策和管理,对话生成等一系列操作。在单轮对话中,用户输入的语义信息较为完整,易于提取,而在多轮对话中,用户输入的语句具有短小,语义信息不充分等特点,因此历史对话信息对当前语句的解析有很大的影响。然而,以往的做法主要基于时间距离维度来判断历史语句中每一句语句的影响程度,对历史语句的权重概率值分配可能会出现错误。所以本发明基于历史语句与当前语句的语义匹配程度,对历史语句分配权重值,再结合角色双向LSTM,能够有效提取历史语义影响向量。结合该向量对当前语句做意图检测,能够有效提升意图检测的准确率。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于语义匹配的多轮对话口语理解方法,以解决在多轮对话中,历史信息提取不充分,不能有效对历史语句进行权重分配,不能有效判断历史语句与当前语句关系的问题。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤(1)获取对话数据集并进行预处理,即针对对话数据集中的每个语句正确标注语句意图和对应历史语句;
步骤(2)建立基于语义匹配的多轮对话口语理解架构,确定网络组成部分以及层数和维度,得到口语理解模型;
步骤(3)将步骤(1)预处理后的语句分别输入基于词级别attention的卷积神经网络模型和树状LSTM模型,分别提取语句局部特征和语句语义特征;
步骤(4)将得到的语句局部特征和语句语义特征进行拼接,得到最终单句语句语义表示;
步骤(5)将历史语句语义表示和当前语句语义表示进行两两拼接,输入多层感知机网络模型,基于语义匹配度对历史语句分配权重值;
步骤(6)将历史语句语义表示结合权重值输入对应角色双向LSTM模型,得到角色历史语义影响向量;
步骤(7)拼接2个角色历史语义影响向量得到最终历史语义影响向量;
步骤(8)结合最终历史语义影响向量与当前语句语义表示,输入双向LSTM模型进行意图检测;
步骤(9)将预测的意图与语句对应的真实意图进行对比,计算损失函数,迭代更新网络模型中的参数;
步骤(10)将需测试的语句与对应的历史语句输入训练好的语义匹配网络模型,正确提取历史语义影响向量,结合历史语义影响向量对该语句做意图检测;输出语句对应的意图。
本发明所具有的优点如下:
针对现有技术的不足,提供一种基于语义匹配的多轮对话口语理解方法,利用基于词级别的attention的卷积神经网络模型和树状LSTM模型提取语句语义,将历史语句结合当前语句语义表示输入多层感知机训练得到概率值,将概率值结合历史语句输入对应角色双向LSTM模型得到角色历史语义影响向量,将2个角色历史影响向量拼接得到最终历史语义影响向量,结合该向量对当前语句做意图检测。以解决在多轮对话中,历史信息提取不充分,不能有效对历史语句进行权重分配,不能有效判断历史语句与当前语句关系的问题。
附图说明
图1是本发明的整体实施方案流程图;
图2是本发明的训练模型示意图;
图3是树状LSTM网络模型图;
图4是本发明工艺实施方案的具体流程图;
具体实施方式
下面结合附图对本发明作进一步描述。
本发明的整体实施方案流程图参照图1,一种基于语义匹配的多轮对话口语理解方法,包括以下步骤:
步骤(1)获取对话数据集并进行预处理,即针对对话数据集中的每个语句正确标注语句意图和对应历史语句;
步骤(2)建立基于语义匹配的多轮对话口语理解架构,确定网络组成部分以及层数和维度,得到口语理解模型;
步骤(3)将步骤(1)预处理后的语句分别输入基于词级别attention的卷积神经网络模型和树状LSTM模型,分别提取语句局部特征和语句语义特征;
步骤(4)将得到的语句局部特征和语句语义特征进行拼接,得到最终单句语句语义表示;
步骤(5)将历史语句语义表示和当前语句语义表示进行两两拼接,输入多层感知机网络模型,基于语义匹配度对历史语句分配权重值;
步骤(6)将历史语句语义表示结合权重值输入对应角色双向LSTM模型,得到角色历史语义影响向量;
步骤(7)拼接2个角色历史语义影响向量得到最终历史语义影响向量;
步骤(8)结合最终历史语义影响向量与当前语句语义表示,输入双向LSTM模型进行意图检测;
步骤(9)将预测的意图与语句对应的真实意图进行对比,计算损失函数,迭代更新网络模型中的参数;
步骤(10)将需测试的语句与对应的历史语句输入训练好的语义匹配网络模型,正确提取历史语义影响向量,结合历史语义影响向量对该语句做意图检测;输出语句对应的意图。
步骤(1)具体过程如下:
(1-1)采用公开的竞赛数据集DSTC4,该数据集为从Skype通话中收集到的有关于旅游信息的对话样本集合,对话人员为35名游客和3名导游;35轮对话总长度共计21小时,包含了31034个句子和273580个单词,21小时长度的对话手动转录成语句并且对对话中的每一个句子标记对话动作和属性标签;
(1-2)将语句对应的对话动作和属性标签正确结合,标注出语句对应的正确意图标签,根据语句顺序标记出语句id;
(1-3)正确标记每一句语句对应的历史语句id数组,将当前语句的前10句作为该语句的历史语句数组,即对应当前语句St,其历史语句数组为[St-10,St-9,St-8,…St-1],将当前语句对应id存入当前语句对应的历史语句数组;若当前语句前的历史语句不足10句,则采用空语句代替;
(1-4)将该35轮对话正确分类,其中20轮对话作为训练集,6轮对话作为验证集,9轮对话作为测试集。
3.根据权利要求1或2所述的基于语义匹配的多轮对话口语理解方法,其特征于步骤(2)所述的口语理解模型具体过程如下:
口语理解模型主要由3个部分组成,分别为语句语义提取网络、语义匹配打分网络以及历史语义影响向量提取网络,每层的维度为256;语句语义提取网络由基于词级别的attention模型和树状LSTM组成,语义匹配打分网络由多层感知机组成;历史语义影响向量提取网络由2个角色双向LSTM模型组成。
步骤(3)具体过程如下:
(3-1)根据预训练的词向量模型glove,查询语句中单词对应的词向量,将一个语句转化为原始词向量矩阵W=[w1,w2,… wL];W∈RLXD,其中L是语句的长度,D是词向量的维度;
(3-2)将原始词向量矩阵输入词级别的attention模型,提取针对语句中当前单词的词上下文向量gi=∑j≠iαi,j·wj,其中αi,j基于与当前词的语义匹配度对语句中其余词分配权重,公式如下:
Figure BDA0002389508040000051
其中,i,j,j′都表示语句中单词的序号,L表示语句总长度;αi,j表示针对当前单词i,第j个单词与第i个单词的语义相关度表示;score函数为基于词向量距离计算2个单词的语义相关度;e为以自然常数e为底的exp指数函数;
(3-3)在得到单词的上下文向量gi后,与原始词向量wi拼接后得到新的词向量w′i;新的词向量矩阵W′=[wi′,w′2,…,w′L];W′∈RL×2D,其中w′i计算方式如下:
Figure BDA0002389508040000052
其中
Figure BDA0002389508040000053
代表拼接操作,wi表示原始词向量,gi表示原始词向量wi对应的上下文词向量,w′i为拼接后新的词向量;
(3-4)将新的词向量矩阵输入卷积神经网络提取语句局部特征,得到语句表示向量hc
(3-5)将语句原始词向量矩阵输入树状LSTM模型提取语句语义特征,得到语句表示向量ht
步骤(4)具体过程如下:
(4-1)将上述步骤(3)产生的经过卷积神经网络的语句表示hc与语句表示ht进行拼接,得到最终语句语义表示S=[ht,hc],拼接过程如下:
Figure BDA0002389508040000061
其中
Figure BDA0002389508040000062
表示拼接过程,将语句表示向量hc正确拼接到ht的尾部。
步骤(5)具体过程如下:
(5-1)将历史语句语义表示与当前语句语义表示两两拼接得到新的历史语句矩阵S′hist=[S′1,S′2,…,S′t,…,S′n],拼接过程如下:
Figure BDA0002389508040000063
其中
Figure BDA0002389508040000064
表示拼接过程,将Scur向量正确拼接到St的尾部;St代表历史语句中的某一句的语义表示,Scur代表当前语句语义表示;
(5-2)将新得到的历史语句矩阵输入多层感知机MLP进行数据训练得到历史语句的每个影响权重值,计算方式如下:
Figure BDA0002389508040000065
其中,
Figure BDA0002389508040000066
是一个可训练的权重转置矩阵;batt是一个可训练的偏置项;f是MLP网络中的激活函数,采用tanh激活函数;在输出端采用softmax进行归一化;αt代表历史语句中某一句对应的权重值。
步骤(6)具体过程如下:
(6-1)将历史语句分成2组,即旅客组和导游组,将旅客组语句语义表示结合其概率值输入旅客角色对应的双向LSTM模型,得到旅客对应的历史角色语义影响向量;其公式如下:
V导游=BiLSTM(St,αt)
其中V导游对应的是导游的历史角色语义影响向量,St表示历史语句中的某一句语句,αt表示该语句对应的权重值;
导游组的计算与旅客组计算相同,从而得到导游对应的历史角色语义影响向量和旅客对应的历史角色语义影响向量。
步骤(7)具体过程如下:
(7-1)将步骤6得到的角色语义影响向量,即旅客角色语义影响向量和导游角色语义影响向量拼接,得到最终历史语义影响向量Vhis;拼接过程如下:
Vhis=BiLSTM导游(Stt)+BiLSTM旅客(Stt)
其中Vhis代表最终历史语义影响向量,St代表历史语句中的一句语句,αt代表该历史语句对应的权重值。
步骤(8)具体过程如下:
(8-1)将最终历史语义影响向量Vhis与当前语句Scur进行意图检测,计算方式如下:
Vcur=BiLSTM(Scur,Whis·Vhis),o=sigmoid(WLU·Vcur),
其中,Whis是历史语义影响向量Vhis对应的权重矩阵;Vcur是结合当前语句与历史向量,通过双向LSTM编码出的针对当前语句的上下文向量,WLU为上下文向量Vcur对应的权重矩阵,BiLSTM代表双向LSTM模型;o是最终的意图分布;注意到这是一个多标签和多类别分类;最后使用sigmoid函数,用户最终的意图y将由o的值是否高于阈值θ而决定。
步骤(9)具体过程如下:
(9-1)将预测的意图与语句对应的真实意图进行对比,计算损失函数,迭代更新网络模型中的参数;损失函数公式如下:
Figure BDA0002389508040000071
其中y′表示模型预测的意图标签,y表示语句对应的真实意图标签,y′y·(1-y′)1-y表示使用交叉熵计算损失函数;利用Adam作为模型的优化器,采用梯度下降法对上述步骤中的网络模型参数进行优化调整。
步骤(10)将需测试的语句与对应的历史语句输入训练好的语义匹配网络模型,正确提取历史语义影响向量,结合历史语义影响向量对该语句做意图检测:
(10-1)将需测试的语句与对应的历史语句输入训练好的语义匹配网络模型,正确提取历史语义影响向量,结合历史语义影响向量对该语句做意图检测。输出语句对应的意图。
如图2所示,口语理解模型主要由3个模块组成,将当前语句分别输入基于词级别attention的卷积神经网络和树状LSTM网络,随后将上述网络模型得到的2个语句向量拼接,得到最终语句语义向量。将历史语句中的每一句也做相同的操作。随后历史语句的语义向量拼接上当前语句的语义向量,输入多层感知机训练,通过语义匹配度对历史语句做权重分配,得到对应的权重值a。将历史语句结合对应权重值输入对应角色双向LSTM得到角色语义影响向量,结合上述2个角色语义影响向量得到最终历史语义影响向量Shist。将该向量结合当前语句词向量输入双向LSTM中进行意图检测。
所述的树状LSTM网络结构如图3所示:
传统LSTM模型中,某个时间节点的状态更新只依赖于前一个时间节点的状态,而树状LSTM模型基于语义依赖树建立。其某个节点的更新依赖于连接的多个孩子节点。树状LSTM第j个节点包含:记忆单元cj,隐藏单元hj,输入门ij和输出门oj。树状LSTM模型根据语法依赖树构建,每个单元依赖于其多个孩子节点。如图3所示,单元1的c1值的更新依赖于他连接的孩子节点c2和c3。对于任意一个孩子节点k,单元j都有一个对应的遗忘阀门fjk。对于任意一个树状LSTM单元j,cjk和hjk分别代表节点k的记忆单元和隐藏层状态。其更新公式如下:
Figure BDA0002389508040000081
Figure BDA0002389508040000082
Figure BDA0002389508040000083
Figure BDA0002389508040000084
Figure BDA0002389508040000085
Figure BDA0002389508040000086
其中,σ是sigmoid函数,b是偏置项,U表示孩子节点隐藏值的权重;l表示第k个孩子的节点的第l个孩子节点;W表示不同结构内的权重;
Figure BDA0002389508040000091
表示向量对应元素相乘。计算模型中的任意一单元,其孩子节点采用不同的参数矩阵。树状LSTM模型通过逐步训练将树根节点的隐含输出表示为ht向量。
一种基于语义匹配的多轮对话口语理解方法。工艺实施方案的具体流程图如图4所示,从输入对话数据集到输出对应语句意图,迭代训练该模型。

Claims (10)

1.一种基于语义匹配的多轮对话口语理解方法,其特征在于包括以下步骤:
步骤(1)获取对话数据集并进行预处理,即针对对话数据集中的每个语句正确标注语句意图和对应历史语句;
步骤(2)建立基于语义匹配的多轮对话口语理解架构,确定网络组成部分以及层数和维度,得到口语理解模型;
步骤(3)将步骤(1)预处理后的语句分别输入基于词级别attention的卷积神经网络模型和树状LSTM模型,分别提取语句局部特征和语句语义特征;
步骤(4)将得到的语句局部特征和语句语义特征进行拼接,得到最终单句语句语义表示;
步骤(5)将历史语句语义表示和当前语句语义表示进行两两拼接,输入多层感知机网络模型,基于语义匹配度对历史语句分配权重值;
步骤(6)将历史语句语义表示结合权重值输入对应角色双向LSTM模型,得到角色历史语义影响向量;
步骤(7)拼接2个角色历史语义影响向量得到最终历史语义影响向量;
步骤(8)结合最终历史语义影响向量与当前语句语义表示,输入双向LSTM模型进行意图检测;
步骤(9)将预测的意图与语句对应的真实意图进行对比,计算损失函数,迭代更新网络模型中的参数;
步骤(10)将需测试的语句与对应的历史语句输入训练好的语义匹配网络模型,正确提取历史语义影响向量,结合历史语义影响向量对该语句做意图检测;输出语句对应的意图。
2.根据权利要求1所述的一种基于语义匹配的多轮对话口语理解方法,其特征在于步骤(1)具体过程如下:
(1-1)采用公开的竞赛数据集DSTC4,该数据集为从Skype通话中收集到的有关于旅游信息的对话样本集合,对话人员为35名游客和3名导游;35轮对话总长度共计21小时,包含了31034个句子和273580个单词,21小时长度的对话手动转录成语句并且对对话中的每一个句子标记对话动作和属性标签;
(1-2)将语句对应的对话动作和属性标签正确结合,标注出语句对应的正确意图标签,根据语句顺序标记出语句id;
(1-3)正确标记每一句语句对应的历史语句id数组,将当前语句的前10句作为该语句的历史语句数组,即对应当前语句St,其历史语句数组为[St-10,St-9,St-8,…St-1],将当前语句对应id存入当前语句对应的历史语句数组;若当前语句前的历史语句不足10句,则采用空语句代替;
(1-4)将该35轮对话正确分类,其中20轮对话作为训练集,6轮对话作为验证集,9轮对话作为测试集。
3.根据权利要求1或2所述的基于语义匹配的多轮对话口语理解方法,其特征在于步骤(2)所述的口语理解模型具体过程如下:
口语理解模型主要由3个部分组成,分别为语句语义提取网络、语义匹配打分网络以及历史语义影响向量提取网络,每层的维度为256;语句语义提取网络由基于词级别的attention模型和树状LSTM组成,语义匹配打分网络由多层感知机组成;历史语义影响向量提取网络由2个角色双向LSTM模型组成。
4.根据权利要求3所述的一种基于语义匹配的多轮对话口语理解方法,其特征在于步骤(3)具体过程如下:
(3-1)根据预训练的词向量模型glove,查询语句中单词对应的词向量,将一个语句转化为原始词向量矩阵W=[w1,w2,…wL];W∈RLxD,其中L是语句的长度,D是词向量的维度;
(3-2)将原始词向量矩阵输入词级别的attention模型,提取针对语句中当前单词的词上下文向量gi=∑j≠iαi,j.wj,其中αi,j基于与当前词的语义匹配度对语句中其余词分配权重,公式如下:
Figure FDA0002623350170000031
其中,i,j,j′都表示语句中单词的序号,L表示语句总长度;αi,j表示针对当前单词i,第j个单词与第i个单词的语义相关度表示;score函数为基于词向量距离计算2个单词的语义相关度;e为以自然常数e为底的exp指数函数;
(3-3)在得到单词的上下文向量gi后,与原始词向量wi拼接后得到新的词向量w′i;新的词向量矩阵W′=[w′i,w′2,…,w′L];W′∈RL×2D,其中w′i计算方式如下:
Figure FDA0002623350170000032
其中
Figure FDA0002623350170000033
代表拼接操作,wi表示原始词向量,gi表示原始词向量wi对应的上下文词向量,w′i为拼接后新的词向量;
(3-4)将新的词向量矩阵输入卷积神经网络提取语句局部特征,得到语句表示向量hc
(3-5)将语句原始词向量矩阵输入树状LSTM模型提取语句语义特征,得到语句表示向量ht
5.根据权利要求4所述的一种基于语义匹配的多轮对话口语理解方法,其特征在于步骤(4)具体过程如下:
(4-1)将上述步骤(3)产生的经过卷积神经网络的语句表示hc与语句表示ht进行拼接,得到最终语句语义表示S=[ht,hc],拼接过程如下:
Figure FDA0002623350170000034
其中
Figure FDA0002623350170000035
表示拼接过程,将语句表示向量hc正确拼接到ht的尾部。
6.根据权利要求5所述的一种基于语义匹配的多轮对话口语理解方法,其特征在于步骤(5)具体过程如下:
(5-1)将历史语句语义表示与当前语句语义表示两两拼接得到新的历史语句矩阵S′hist=[S′1,S′2,…,S′t,…,S′n],拼接过程如下:
Figure FDA0002623350170000036
其中
Figure FDA0002623350170000041
表示拼接过程,将Scur向量正确拼接到St的尾部;St代表历史语句中的某一句的语义表示,Scur代表当前语句语义表示;
(5-2)将新得到的历史语句矩阵输入多层感知机MLP进行数据训练得到历史语句的每个影响权重值,计算方式如下:
Figure FDA0002623350170000042
其中,
Figure FDA0002623350170000043
是一个可训练的权重转置矩阵;batt是一个可训练的偏置项;f是MLP网络中的激活函数,采用tanh激活函数;在输出端采用softmax进行归一化;αt代表历史语句中某一句对应的权重值。
7.根据权利要求6所述的一种基于语义匹配的多轮对话口语理解方法,其特征在于步骤(6)具体过程如下:
(6-1)将历史语句分成2组,即旅客组和导游组,将旅客组语句语义表示结合其概率值输入旅客角色对应的双向LSTM模型,得到旅客对应的历史角色语义影响向量;其公式如下:
V旅客=BiLSTM(Stt)
其中V旅客对应的是旅客的历史角色语义影响向量,St表示历史语句中的某一句语句,αt表示该语句对应的权重值;
导游组的计算与旅客组计算相同,从而得到导游对应的历史角色语义影响向量和旅客对应的历史角色语义影响向量。
8.根据权利要求7所述的一种基于语义匹配的多轮对话口语理解方法,其特征在于步骤(7)具体过程如下:
(7-1)将步骤6得到的角色语义影响向量,即旅客角色语义影响向量和导游角色语义影响向量拼接,得到最终历史语义影响向量Vhis;拼接过程如下:
Vhis=BiLSTM导游(Stt)+BiLSTM旅客(Stt)
其中Vhis代表最终历史语义影响向量,St代表历史语句中的一句语句,αt代表该历史语句对应的权重值。
9.根据权利要求8所述的一种基于语义匹配的多轮对话口语理解方法,其特征在于步骤(8)具体过程如下:
(8-1)将最终历史语义影响向量Vhis与当前语句Scur进行意图检测,计算方式如下:
Vcur=BiLSTM(Scur,Whis·Vhis),
o=sigmoid(WLU·Vcur),
其中,Whis是历史语义影响向量Vhis对应的权重矩阵;Vcur是结合当前语句与历史向量,通过双向LSTM编码出的针对当前语句的上下文向量,WLU为上下文向量Vcur对应的权重矩阵,BiLSTM代表双向LSTM模型;o是最终的意图分布;注意到这是一个多标签和多类别分类;最后使用sigmoid函数,用户最终的意图y将由o的值是否高于阈值θ而决定。
10.根据权利要求9所述的一种基于语义匹配的多轮对话口语理解方法,其特征在于步骤(9)具体过程如下:
(9-1)将预测的意图与语句对应的真实意图进行对比,计算损失函数,迭代更新网络模型中的参数;损失函数公式如下:
Figure FDA0002623350170000051
其中y′表示模型预测的意图标签,y表示语句对应的真实意图标签,y′y·(1-y′)1-y表示使用交叉熵计算损失函数;利用Adam作为模型的优化器,采用梯度下降法对上述步骤中的网络模型参数进行优化调整。
CN202010109598.3A 2020-02-22 2020-02-22 一种基于语义匹配的多轮对话口语理解方法 Active CN111353029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010109598.3A CN111353029B (zh) 2020-02-22 2020-02-22 一种基于语义匹配的多轮对话口语理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010109598.3A CN111353029B (zh) 2020-02-22 2020-02-22 一种基于语义匹配的多轮对话口语理解方法

Publications (2)

Publication Number Publication Date
CN111353029A CN111353029A (zh) 2020-06-30
CN111353029B true CN111353029B (zh) 2020-09-22

Family

ID=71197154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010109598.3A Active CN111353029B (zh) 2020-02-22 2020-02-22 一种基于语义匹配的多轮对话口语理解方法

Country Status (1)

Country Link
CN (1) CN111353029B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541063B (zh) * 2020-12-08 2022-06-24 山东师范大学 一种基于自学习对话模型的人机对话方法及系统
CN112966083B (zh) * 2021-03-10 2022-08-12 中国人民解放军国防科技大学 一种基于对话历史建模的多轮对话生成方法及装置
CN113177113B (zh) * 2021-05-27 2023-07-25 中国平安人寿保险股份有限公司 任务型对话模型预训练方法、装置、设备及存储介质
CN113656569B (zh) * 2021-08-24 2023-10-13 电子科技大学 一种基于上下文信息推理的生成式对话方法
CN113743128A (zh) * 2021-09-15 2021-12-03 阿里巴巴达摩院(杭州)科技有限公司 获取对话语义表示的方法和语义表示模型训练方法及装置
CN115017286B (zh) * 2022-06-09 2023-04-07 北京邮电大学 基于检索的多轮对话系统和方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415923A (zh) * 2017-10-18 2018-08-17 北京邮电大学 封闭域的智能人机对话系统
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN108829667A (zh) * 2018-05-28 2018-11-16 南京柯基数据科技有限公司 一种基于记忆网络的多轮对话下的意图识别方法
CN108877801A (zh) * 2018-06-14 2018-11-23 南京云思创智信息科技有限公司 基于多模态情绪识别系统的多轮对话语义理解子系统
CN109063035A (zh) * 2018-07-16 2018-12-21 哈尔滨工业大学 一种面向出行领域的人机多轮对话方法
CN110046642A (zh) * 2019-01-23 2019-07-23 阿里巴巴集团控股有限公司 计算机执行的用户意图预测方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805704B2 (en) * 2005-03-08 2010-09-28 Microsoft Corporation Development framework for mixing semantics-driven and state-driven dialog

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN108415923A (zh) * 2017-10-18 2018-08-17 北京邮电大学 封闭域的智能人机对话系统
CN108829667A (zh) * 2018-05-28 2018-11-16 南京柯基数据科技有限公司 一种基于记忆网络的多轮对话下的意图识别方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN108877801A (zh) * 2018-06-14 2018-11-23 南京云思创智信息科技有限公司 基于多模态情绪识别系统的多轮对话语义理解子系统
CN109063035A (zh) * 2018-07-16 2018-12-21 哈尔滨工业大学 一种面向出行领域的人机多轮对话方法
CN110046642A (zh) * 2019-01-23 2019-07-23 阿里巴巴集团控股有限公司 计算机执行的用户意图预测方法、装置及设备

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Machine Learning Models of Text Categorization by Author Gender Using Topic-independent Features;Sboev 等;《Procedia Computer Science》;20161231;第135-142页 *
THU NGN at SemEval-2019 Task 3: Dialog Emotion Classification using Attentional LSTM-CNN;Suyu Ge 等;《 Semantic Evaluation》;20190607;第340-344页 *
保险领域知识问答系统的研究与实现;赵晓彤;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190815(第8期);I138-1401 *
基于CNN/LSTM和稀疏下采样的人体行为识别;陈煜平 等;《计算机工程与设计》;20190515;第40卷(第5期);第1445-1450页 *
基于CNN和LSTM混合模型的中文词性标注;谢逸 等;《武汉大学学报(理学版)》;20170510;第63卷(第3期);第246-250页 *
基于LSTM的对话状态追踪模型研究与实现;杜晓宇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181015(第10期);I140-45 *
基于多轮交互的人机对话系统综述;陈健鹏;《南京信息工程大学学报(自然科学版)》;20190528;第256-268页 *

Also Published As

Publication number Publication date
CN111353029A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111353029B (zh) 一种基于语义匹配的多轮对话口语理解方法
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
Deng et al. Use of kernel deep convex networks and end-to-end learning for spoken language understanding
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN111506732B (zh) 一种文本多层次标签分类方法
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN112632972A (zh) 一种电网设备故障报告内故障信息的快速提取方法
CN113065358B (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
CN113066499B (zh) 一种陆空通话说话人身份识别方法及装置
CN113223509B (zh) 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及系统
CN107797988A (zh) 一种基于Bi‑LSTM的混合语料命名实体识别方法
CN115935975A (zh) 一种情感可控的新闻评论生成方法
CN115640530A (zh) 一种基于多任务学习的对话讽刺和情感联合分析方法
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
Somogyi The Application of Artificial Intelligence
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN114003700A (zh) 一种对话信息的处理方法、系统、电子设备及存储介质
CN116361442B (zh) 基于人工智能的营业厅数据分析方法及系统
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及系统
Alisamir et al. An end-to-end deep learning model to recognize Farsi speech from raw input
CN112307179A (zh) 文本匹配方法、装置、设备及存储介质
CN114757310B (zh) 情感识别模型及其训练方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200630

Assignee: Hangzhou Yuanchuan New Technology Co.,Ltd.

Assignor: HANGZHOU DIANZI University

Contract record no.: X2021330000781

Denomination of invention: A method of multi round dialogue oral comprehension based on semantic matching

Granted publication date: 20200922

License type: Common License

Record date: 20211206

EE01 Entry into force of recordation of patent licensing contract