CN111625641B - 一种基于多维度语义交互表征模型的对话意图识别方法及系统 - Google Patents
一种基于多维度语义交互表征模型的对话意图识别方法及系统 Download PDFInfo
- Publication number
- CN111625641B CN111625641B CN202010752264.8A CN202010752264A CN111625641B CN 111625641 B CN111625641 B CN 111625641B CN 202010752264 A CN202010752264 A CN 202010752264A CN 111625641 B CN111625641 B CN 111625641B
- Authority
- CN
- China
- Prior art keywords
- dialogue
- layer
- sentences
- semantic
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 41
- 230000002452 interceptive effect Effects 0.000 claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 51
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000011176 pooling Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000011084 recovery Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000001105 regulatory effect Effects 0.000 claims 1
- 230000017105 transposition Effects 0.000 claims 1
- 238000012216 screening Methods 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多维度语义交互表征模型的对话意图识别方法及系统,属于自然语言处理对话系统领域。包括:(1)组建对话知识库,知识库包括通用常识性的对话数据以及业务场景下用户的语句和相应语句所属的意图;(2)将对话知识库中对话信息进行基于预训练语言模型的特征提取,得到语义向量;(3)获取当前对话信息的语义向量;(4)结合知识库中对话语句和当前对话语句的语义向量,构建交互注意力机制和卷积神经网络,计算得到置信度;(5)将置信度进行筛选,得到意图识别结果或判定为未命中知识库中的意图。本发明解决了传统预训练语言模型在语义信息层面没有侧重,导致区分度不够、对于敏感信息忽视等问题,识别准确率更高。
Description
技术领域
本发明涉及自然语言处理对话系统领域,尤其是涉及一种基于多维度语义交互表征模型的对话意图识别方法及系统。
背景技术
近年来,基于人工智能的智能客服逐渐取代传统的人工客服,智能对话系统作为这其中的最关键的一项前沿技术之一,一直深受广大学术界和工业界研究人员的关注。其中,作为智能对话系统核心的对话意图识别,是实现智能对话系统必不可少的模块,所以也是众多研究人员的研究方向。
目前意图识别的方法主要分为基于传统语言规则模版的匹配方法和基于机器学习和深度神经网络模型的方法。基于传统语言规则模版的匹配方法在小样本数据上表现良好,且匹配速度快,准确率较高。但是其问题在于两点,一、由于规则需要大量的人工编写,且受限于语言字符的关系,对于一些语句不同但语义相同的问题,其准确率会急剧下降,泛化性很差;二、在一些比较复杂的意图识别问题上,语言规则并不能很好的区别细微的语义差别,故在大样本的数据上会出现瓶颈,即无法通过优化使之能有效辨别语义信息,导致词不达意,答非所问的情况。
基于机器学习和深度神经网络模型的方法,优势在于能够通过模型掌握其语义信息,在大样本数据上表现尚可。但其问题也存在于两点,一、深度神经网络模型由于其参数量巨大,具有很强的拟合能力,但需要极大规模的文本数据进行训练,在小样本的数据集上会过拟合,泛化性能低;二、单一的机器学习和深度神经网络模型在分别对不同的语句进行意图判断时,只根据当前语句的含义进行理解,而非对不同语句的不同之处进行学习,即语句之间的交互信息表示不足。
2018年谷歌提出了运用Transformer提取语义信息的预训练语言模型,通过对大量语料的无监督学习,掌握通用的语言规则和单词含义,并将模型参数共享,解决了上文所说的需要极大规模的文本数据进行训练的问题,即解决了在样本量小的情况下,模型过拟合的问题。但是依然存在如下问题,只根据当前语句的含义进行理解,而非对不同语句的不同之处进行学习,即语句之间的交互信息表示不足,对于不同语句中的细微变化但是意思完全相反的情况不能够产生有效的处理。在对话意图识别中,语句细微的变化可能正是两个完全不同的意图。例如“我对这个产品很感兴趣,你仔细说下,我想听听”和“我对这个产品不感兴趣,你不用说了,我不想听”。在该模型下,提取了“这个产品”,“感兴趣”,“说”,“听”,“我”,“你”等特征后,两句话的相似度就会相当高,会导致意图识别出错。一个好的对话系统应该对于是非判断的问题是十分敏感的,该模型等价提取了语义特征后,不能够将主题含义着重突显,容易造成对话系统的回应答非所问。
发明内容
为了解决现有的对话系统对于相似语句的不同语义判断准确度不高的缺陷,本发明提供了一种基于多维度语义交互表征模型的对话意图识别方法及系统,本系统可以充分理解用户当前对话所表达的含义以及意图,并结合知识库信息,充分比对当前对话是否命中知识库内容,根据多维度的语义交互表征模型形成置信度,进而选择合适当前语境的意图。解决了传统预训练语言模型在语义信息层面没有侧重,导致区分度不够、对于敏感信息忽视等问题。
为了实现上述目的,本发明采用的一种基于多维度语义交互表征模型的对话意图识别方法,包括以下步骤。
步骤1:组建对话知识库,包括通用常识下的对话语句、业务场景下的对话语句、以及知识库中所有对话语句的意图标签。
步骤2:构建多维度语义交互表征模型,包括对话语句输入层、预训练语言模型、交互注意力层、卷积层、池化层和置信度输出层。
采用多维度语义交互表征模型提取对话语句的语义向量,具体过程为:获取待识别的当前对话语句,并将当前对话语句作为对话语句输入层的输入,经预训练语言模型处理后得到第一对话语句的语义向量;获取对话知识库中的任一对话语句作为对话语句输入层的输入,经预训练语言模型处理后得到第二对话语句的语义向量;将两条语义向量进行交互注意力层的计算,得到二维信息交互矩阵;所述的二维信息交互矩阵再依次经过卷积、池化和平铺处理,最后经softmax函数计算得到置信度。
步骤3:重复步骤2所述的采用多维度语义交互表征模型提取对话语句的语义向量
的过程,将对话知识库中的所有对话语句与当前对话语句逐一计算得到置信度,选取对话
知识库中置信度最高的前个对话语句,然后将个对话语句中对应意图标签数量最多的
意图作为待定的识别结果。
步骤4:设定多维度语义交互表征模型中置信度输出层的输出阈值,若待定的识别结果对应的对话语句的置信度高于输出阈值,则将待定的识别结果作为最终的识别结果输出;否则,采用兜底回复策略。
本发明的另一目的在于提供了一种用于实现上述基于多维度语义交互表征模型的对话意图识别方法的系统。
包括:
用户输入模块,用于接收用户输入的对话语句,并将输入的对话语句处理为标准格式。
对话知识库模块,用于存储通用常识下的对话语句、业务场景下的对话语句、以及所有对话语句的意图标签。
预训练语言模型处理模块,用于将用户输入模块中的对话语句与对话知识库模块中的对话语句分别解析成语义向量。
交互注意力模块,用于将用户输入对话语句的语义向量与对话知识库对话语句的语义向量配对输入,计算得到二维信息交互矩阵。
卷积神经网络模块,配置有卷积神经网络模型,包括输入层、卷积层、池化层、置信度输出层;用于将交互注意力模块输出的二维信息交互矩阵作为输入层的输入矩阵,提取二维信息交互矩阵的特征,并计算得到置信度。
兜底回复模块:存储有兜底回复语句,当接收到启动信号后,输出兜底回复语句。
意图选择模块,用于根据置信度和设定好的输出阈值对意图进行选择,首先选取
对话知识库中置信度最高的前个对话语句,然后将个对话语句中对应意图标签数量最
多的意图作为待定的识别结果,若待定的识别结果对应的对话语句的置信度高于输出阈
值,则将待定的识别结果作为最终的识别结果输出;否则,启动兜底回复模块。
与现有技术相比,本发明具备以下有益效果。
1、本发明提出的多维度语义交互表征模型,通过将预训练语言模型的语义向量通过深度神经网络进行交互计算,获取待识别的对话语句与知识库中的任一对话语句之间的交互信息,有效学习句与句交互中的重点信息,减少了无关的信息。相比于现有技术中仅仅分析单句语义的单一分类模型,本发明通过语义信息在交互过程中得到的不同权重值,加强了相似语句的不同语义之间辨别能力,有效避免了传统的方法在语义上没有侧重以及在是非问题上极易混淆等问题,使得对话意图识别系统变得更加精准,鲁棒性更强。
2、本发明结合了预训练语言模型的优势,有大规模预训练语料训练的基础,故无需大量的业务标注数据,并通过语义向量交互后的多维度语义矩阵进行预测,能够解决由于样本数据不平衡导致的长尾问题以及由于样本数据较少导致的冷启动问题,本系统的适用范围更广。
附图说明
图1为本发明方法的模型框架设计图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
一种基于多维度语义交互表征模型的对话意图识别方法,如图1所示。
步骤1:组建对话知识库,包括通用常识下的对话语句、业务场景下的对话语句、以及知识库中所有对话语句的意图标签。
步骤2:构建多维度语义交互表征模型,包括对话语句输入层、预训练语言模型、交互注意力层、卷积层、池化层和置信度输出层。
步骤3:重复步骤2所述的采用多维度语义交互表征模型提取对话语句的语义向量
的过程,将对话知识库中的所有对话语句与当前对话语句逐一计算得到置信度,选取对话
知识库中置信度最高的前个对话语句,然后将个对话语句中对应意图标签数量最多的
意图作为待定的识别结果。
步骤4:设定多维度语义交互表征模型中置信度输出层的输出阈值,若待定的识别结果对应的对话语句的置信度高于输出阈值,则将待定的识别结果作为最终的识别结果输出;否则,采用兜底回复策略。
在本发明的一个具体实施中对对话知识库的构建进行了介绍。
所述的对话知识库应该包括通用常识和业务场景两部分内容。首先需要根据业务
场景和业务流程定制知识库,知识库的每条信息包括对话语句和相应语句所属的意图,
由于业务场景下也会出现常识性的对话,所以每个定制的知识库需要加入通用意图,例如
打招呼,日常闲聊等。本发明结合了预训练语言模型的优势,由于预训练语言模型有大规模
预训练语料训练的基础,能够很好提供语义理解,故无需大量的业务标注数据。
在本发明的一个具体实施中对多维度语义交互表征模型进行了介绍。
多维度语义交互表征模型基于预训练语言模型输出的语义向量,并在模型结构加入了句与句之间的交互,通过深度神经网络对语义向量进行交互计算,获取待识别的对话语句与知识库中的任一对话语句之间的交互信息,学习句与句交互中的重点信息,使得在语义理解上有侧重。
具体的,预训练语言模型包含一个巨大的字典,且按字级别建立字典,故无需将对话语句分词,按照字表剔除乱码即可。本发明中使用自训练的预训练语言模型,通过大规模的无标注新闻文本,训练通用模型;再在特定行业/领域进行微调,根据客户所处的行业,例如金融、教育、科技、医疗等,通过在相关领域文本上的微调,能够将行业专业词汇进行充分理解,增强在特定领域的语义理解能力。
在预训练语言模型提取语义向量的过程中,首先将待处理的对话语句进行独热编
码,对于长度为n的输入句子s=[,...,],其中对应的独热编码为,即长度为词表长度L,第个位置上为1,其余位置为0的向量。然后
通过Embedding层转换为固定长度的向量表示。
所述Embedding层的计算公式为:
所述自注意力层的计算公式为:
前向传播层的计算公式为:
如图1所示,获取待识别的当前对话语句a,并将当前对话语句a作为对话语句输入
层的输入,经预训练语言模型处理后得到第一对话语句的语义向量;获取对话知识库中
的任一对话语句q作为对话语句输入层的输入,经预训练语言模型处理后得到第二对话语
句的语义向量。
其中,交互注意力层的计算公式为:
卷积神经网络中的卷积层的计算公式为:
其中,表示卷积层采用的卷积核的大小,这里使用正方形的卷积核,即长宽均为。代表第个卷积核的常数项,代表第个卷积核的位置为上的一阶参数项,使用ReLU激活函数,表示由第个卷积核运算得到的卷积矩阵,为在卷积矩阵中的第i行第j列上的元素。使用ReLU激活函数。
卷积神经网络中的卷积层池化层的计算公式为:
在本发明的一个具体实施中对意图筛选过程进行了介绍。
知识库中所有的意图语句都会与用户输入的对话信息形成置信度,将这些置
信度按照从高到低的顺序进行排序,选取前个置信度最高的语句,根据其所属的意图进
行投票,选择得票最多的意图,如果有相同票数的意图,选择平均置信度最高的意图。如果
最终选择的意图的平均置信度过低,小于规定的阈值,则判定为无命中任何意图,采用兜底
回复,防止误答,错误识别等情况。
本发明所提出的基于多维度语义交互表征的模型,具备了预训练语言模型语义理解能力强,泛化性强等所有优点,并有效避免了在对话意图识别时预训练语言模型不能精确判断两句话语义差别的缺点。在实际业务应用中,本发明提出的模型较通用预训练语言模型效果更好,识别准确率有较大提升。特别是在一些是非语句的判断上,例如“我对这个产品很感兴趣,你仔细说下,我想听听”和“我对这个产品不感兴趣,你不用说了,我不想听”。在该模型下,提取了“这个产品”,“感兴趣”,“说”,“听”,“我”,“你”等特征后,两句话的相似度就会相当高,通用的预训练语言模型根据语义判断相关性为95%,会将两句话归为同一意图(语义),此时运用通用预训练语言模型会导致意图识别错误。在日常的对话中,这两句话的侧重点应该在于情感判断,运用本发明提出的多维度语义交互表征模型判断相关性为81%,此时与命中意图的置信度阈值相比,低于命中意图的平均置信度,故将两句话划分为不同意图,因此,该模型可以有效提升意图识别的准确率。
本发明还构建了一种基于多维度语义交互表征的对话意图识别系统。
包括:
用户输入模块,用于接收用户输入的对话语句,并将输入的对话语句处理为标准格式。
对话知识库模块,用于存储通用常识下的对话语句、业务场景下的对话语句、以及所有对话语句的意图标签。
预训练语言模型处理模块,用于将用户输入模块中的对话语句与对话知识库模块中的对话语句分别解析成语义向量。
交互注意力模块,用于将用户输入对话语句的语义向量与对话知识库对话语句的语义向量配对输入,计算得到二维信息交互矩阵。
卷积神经网络模块,配置有卷积神经网络模型,包括输入层、卷积层、池化层、置信度输出层;用于将交互注意力模块输出的二维信息交互矩阵作为输入层的输入矩阵,提取二维信息交互矩阵的特征,并计算得到置信度;所述的卷积神经网络模型可采用CNN卷积网络模型。
兜底回复模块:存储有兜底回复语句,当接收到启动信号后,输出兜底回复语句,例如“这方面我还不懂,您可以再说一遍吗”。
意图选择模块,用于根据置信度和设定好的输出阈值对意图进行选择,首先选取
对话知识库中置信度最高的前个对话语句,然后将个对话语句中对应意图标签数量最
多的意图作为待定的识别结果,若待定的识别结果对应的对话语句的置信度高于输出阈
值,则将待定的识别结果作为最终的识别结果输出;否则,启动兜底回复模块。
其中,预训练语言模型处理模块包括:
独热编码子模块:用于将待处理的对话语句进行独热编码。
Embedding子模块,用于将独热编码的对话语句转换为固定长度的向量表示,公式为:
12层Transformer网络子模块,每一层Transformer网络均包括一层自注意力层和一层前向传播层,用于对Embedding子模块输出的向量提取语义特征。
第一层Transformer网络的计算过程具体为:
自注意力层的计算公式为:
前向传播层的计算公式为:
其中,交互注意力模块的计算公式为:
其中,卷积神经网络模块的计算公式为:
首先通过卷积层计算卷积矩阵:
再通过池化层计算池化矩阵:
最后将池化矩阵平铺和拼接,使用softmax函数计算得到置信度,通过置信度输出层输出计算结果。
实施例
本发明在一个公开数据集LCQMC和一个真实业务数据集上进行了对比实验。LCQMC是哈工大发表的一个中文问答匹配数据集,该数据集被广泛应用在一些中文语义匹配的评测中。LCQMC更多的关注在intent matching(意图匹配)而不是paraphrase(短语)方面。构建的方式是先针对不同的领域从百度问答中抽取高频的相关问题,然后通过Wassersteindistance进行初步筛选,最后人工进行标注。数据集一共有260068对标注结果,分为三部分,238766训练集、8802验证集和12500测试集。
真实业务数据集选择了保险行业条款,整理了不同相关咨询问题,共86个不同的咨询问题,每条咨询扩写了5句相似问法,共430条语料。随机抽取350条作为训练集,40条作为验证集,40条作为测试集。
本发明主要在两大评判指标上进行对比,分别是:ACCURACY、F1-SCORE。总共比较了5个目前主流的意图分类算法:CBOW,CNN,BiLSTM,BiMPM,BERT(预训练模型)。整体对比结果如表1所示:
表1 本发明与现有技术的实施效果对比
从表1可以看出,本发明提出的一种基于多维度语义交互表征模型的对话意图识别方法,由于在模型结构加入了句与句之间的交互,能够有效学习句与句交互中的重点信息,减少了无关信息的作用,从而使语义信息在交互的学习过程中得到不同的权重,解决了传统预训练语言模型在语义信息层面没有侧重,导致区分度不够,对于敏感信息忽视等问题,在哈工大LCQMC匹配数据集以及真实的保险业务数据上均取得了准确率和F1值的最优效果,充分展示了本发明算法的优越性。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (6)
1.一种基于多维度语义交互表征模型的对话意图识别方法,其特征在于,包括以下步骤:
步骤1:组建对话知识库,包括通用常识下的对话语句、业务场景下的对话语句、以及知识库中所有对话语句的意图标签;
步骤2:构建多维度语义交互表征模型,包括对话语句输入层、预训练语言模型、交互注意力层、卷积层、池化层和置信度输出层;
采用多维度语义交互表征模型提取对话语句的语义向量,具体过程为:获取待识别的当前对话语句,并将当前对话语句作为对话语句输入层的输入,经预训练语言模型处理后得到第一对话语句的语义向量;获取对话知识库中的任一对话语句作为对话语句输入层的输入,经预训练语言模型处理后得到第二对话语句的语义向量;将两条语义向量进行交互注意力层的计算,得到二维信息交互矩阵;所述的二维信息交互矩阵再依次经过卷积、池化和平铺处理,最后经softmax函数计算得到置信度;
所述的交互注意力层的计算公式为:
其中,z(2)和z(3)分别表示对话知识库中的任一对话语句和当前对话语句的语义向量,T表示转置,M(0)表示知识库中的任一对话语句和当前对话语句的信息交互矩阵;
所述的卷积层的计算公式为:
其中,lk表示卷积层采用的卷积核的大小,b(k)代表第k个卷积核的常数项,代表第k个卷积核的位置为s,t上的一阶参数项,σ使用ReLU激活函数,M(k)表示由第k个卷积核运算得到的卷积矩阵,为在卷积矩阵M(k)中的第i行第j列上的元素,σ表示激活函数;
池化层的计算公式为:
其中,d表示池化大小的参数,l(q),l(a)分别为知识库中对话语句的长度和当前对话语句的长度,M(p,k)为卷积矩阵M(k)经池化层运算后得到的池化矩阵,为在池化矩阵M(p,k)中的第i行第j列上的元素;
步骤3:重复步骤2所述的采用多维度语义交互表征模型提取对话语句的语义向量的过程,将对话知识库中的所有对话语句与当前对话语句逐一计算得到置信度,选取对话知识库中置信度最高的前k个对话语句,然后将k个对话语句中对应意图标签数量最多的意图作为待定的识别结果;
步骤4:设定多维度语义交互表征模型中置信度输出层的输出阈值,若待定的识别结果对应的对话语句的置信度高于输出阈值,则将待定的识别结果作为最终的识别结果输出;否则,采用兜底回复策略。
2.根据权利要求1所述的一种基于多维度语义交互表征模型的对话意图识别方法,其特征在于,步骤2所述的预训练语言模型包括Embedding层和12层Transformer网络结构,预训练语言模型的运算步骤具体为:
2.1)首先将待处理的对话语句进行独热编码,然后通过Embedding层转换为固定长度的向量表示,所述Embedding层的计算公式为:
e=[e0,e1,…,en]
2.2)将向量e作为第一层Transformer网络的输入序列,每一层Transformer网络均包括一层自注意力层和一层前向传播层,所述自注意力层的计算公式为:
head=concat(head1,…,headn)
前向传播层的计算公式为:
z=max(0,head·W1+b1)W2+b2
其中,z为一层Transformer网络的输出序列,W1和W2分别是两个隐层的参数矩阵,b1和b2是偏差项;
2.3)将上一层Transformer网络的输出序列z作为下一层Transformer网络的输入序列,经过12层相同结构的Transformer网络得到待处理的对话语句的语义。
3.根据权利要求1所述的一种基于多维度语义交互表征模型的对话意图识别方法,其特征在于,步骤3所述的将k个对话语句中对应意图标签数量最多的意图作为待定的识别结果,若存在标签数量相同的意图,则选择平均置信度最高的意图作为待定的识别结果。
4.一种基于权利要求1所述对话意图识别方法的识别系统,其特征在于,包括:
用户输入模块,用于接收用户输入的对话语句,并将输入的对话语句处理为标准格式;
对话知识库模块,用于存储通用常识下的对话语句、业务场景下的对话语句、以及所有对话语句的意图标签;
预训练语言模型处理模块,用于将用户输入模块中的对话语句与对话知识库模块中的对话语句分别解析成语义向量;
交互注意力模块,用于将用户输入对话语句的语义向量与对话知识库对话语句的语义向量配对输入,计算得到二维信息交互矩阵;具体为:将对话知识库中的任一对话语句进行转置,然后与当前对话语句的语义向量相乘,得到知识库中的任一对话语句和当前对话语句的信息交互矩阵;
卷积神经网络模块,配置有卷积神经网络模型,包括输入层、卷积层、池化层、置信度输出层;用于将交互注意力模块输出的二维信息交互矩阵作为输入层的输入矩阵,提取二维信息交互矩阵的特征,并计算得到置信度;
兜底回复模块:存储有兜底回复语句,当接收到启动信号后,输出兜底回复语句;
意图选择模块,用于根据置信度和设定好的输出阈值对意图进行选择,首先选取对话知识库中置信度最高的前k个对话语句,然后将k个对话语句中对应意图标签数量最多的意图作为待定的识别结果,若待定的识别结果对应的对话语句的置信度高于输出阈值,则将待定的识别结果作为最终的识别结果输出;否则,启动兜底回复模块。
5.根据权利要求4所述的识别系统,其特征在于,所述的预训练语言模型处理模块包括:
独热编码子模块:用于将待处理的对话语句进行独热编码;
Embedding子模块,用于将独热编码的对话语句转换为固定长度的向量表示;
12层Transformer网络子模块,每一层Transformer网络均包括一层自注意力层和一层前向传播层,用于对Embedding子模块输出的向量提取语义特征;将上一层Transformer网络的输出序列作为下一层Transformer网络的输入序列,经过12层相同结构的Transformer网络得到待处理的对话语句的语义向量。
6.根据权利要求4所述的识别系统,其特征在于,所述的卷积神经网络模块的计算方式为:首先通过卷积层计算卷积矩阵,再通过池化层计算池化矩阵,最后将池化矩阵平铺和拼接,使用softmax函数计算得到置信度,通过置信度输出层输出计算结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010752264.8A CN111625641B (zh) | 2020-07-30 | 2020-07-30 | 一种基于多维度语义交互表征模型的对话意图识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010752264.8A CN111625641B (zh) | 2020-07-30 | 2020-07-30 | 一种基于多维度语义交互表征模型的对话意图识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111625641A CN111625641A (zh) | 2020-09-04 |
CN111625641B true CN111625641B (zh) | 2020-12-01 |
Family
ID=72259591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010752264.8A Active CN111625641B (zh) | 2020-07-30 | 2020-07-30 | 一种基于多维度语义交互表征模型的对话意图识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111625641B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308370B (zh) * | 2020-09-16 | 2024-03-05 | 湘潭大学 | 一种基于Transformer的面向思政课程的主观题自动评分方法 |
CN112417108B (zh) * | 2020-10-26 | 2024-04-05 | 出门问问创新科技有限公司 | 一种请求类型识别方法、装置和计算机可读存储介质 |
CN112380328B (zh) * | 2020-11-11 | 2024-02-06 | 广州知图科技有限公司 | 一种安全应急响应机器人交互方法及系统 |
CN112256857B (zh) * | 2020-11-17 | 2023-02-03 | 北京邮电大学 | 一种基于图注意力机制的对话历史建模方法 |
CN112417894B (zh) * | 2020-12-10 | 2023-04-07 | 上海方立数码科技有限公司 | 一种基于多任务学习的对话意图识别方法及识别系统 |
WO2022124624A1 (ko) * | 2020-12-11 | 2022-06-16 | 주식회사 써로마인드 | 유사도 기반 객체 추적 방법 및 장치 |
CN112765332A (zh) * | 2021-01-05 | 2021-05-07 | 西交思创智能科技研究院(西安)有限公司 | 一种智能对话意图识别方法、系统、存储介质及应用 |
CN112507696B (zh) * | 2021-02-04 | 2021-04-20 | 湖南大学 | 基于全局注意力意图识别的人机交互导诊方法与系统 |
CN113160886B (zh) * | 2021-04-02 | 2023-04-07 | 山东大学 | 基于单细胞Hi-C数据的细胞类型预测系统 |
CN112988785B (zh) * | 2021-05-10 | 2021-08-20 | 浙江大学 | 基于语言模型编码和多任务解码的sql转换方法及系统 |
CN113297364B (zh) * | 2021-06-07 | 2023-06-09 | 吉林大学 | 一种面向对话系统中的自然语言理解方法及装置 |
CN113486669B (zh) * | 2021-07-06 | 2024-03-29 | 上海市东方医院(同济大学附属东方医院) | 应急救援输入语音的语义识别方法 |
CN113535918B (zh) * | 2021-07-14 | 2022-09-09 | 梁晨 | 预训练对偶注意力神经网络语义推断对话检索方法及系统、检索设备、存储介质 |
CN113268994B (zh) * | 2021-07-16 | 2021-10-01 | 中国平安人寿保险股份有限公司 | 基于胶囊网络的意图识别方法及装置 |
CN113672718B (zh) * | 2021-09-02 | 2024-04-05 | 杭州一知智能科技有限公司 | 基于特征匹配和领域自适应的对话意图识别方法及系统 |
CN113761106B (zh) * | 2021-09-08 | 2024-06-04 | 北京快确信息科技有限公司 | 一种强化自注意力的债券交易意图识别系统 |
CN114139551A (zh) * | 2021-10-29 | 2022-03-04 | 苏宁易购集团股份有限公司 | 意图识别模型的训练方法及装置、意图识别的方法及装置 |
CN114722839B (zh) * | 2022-06-01 | 2022-10-11 | 阿里巴巴达摩院(杭州)科技有限公司 | 人机协同对话交互系统及方法 |
CN114691852B (zh) * | 2022-06-01 | 2022-08-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 人机对话系统及方法 |
WO2024072026A1 (en) * | 2022-09-27 | 2024-04-04 | Samsung Electronics Co., Ltd. | Method performed by an electronic device, electronic device and computer-readable storage media |
CN115859999B (zh) * | 2022-12-09 | 2023-07-07 | 河北尚云信息科技有限公司 | 意图识别方法、装置、电子设备及存储介质 |
CN116483960B (zh) * | 2023-03-30 | 2024-01-02 | 阿波罗智联(北京)科技有限公司 | 对话识别方法、装置、设备以及存储介质 |
CN116595148B (zh) * | 2023-05-25 | 2023-12-29 | 北京快牛智营科技有限公司 | 一种利用大型语言模型实现对话流程的方法及系统 |
CN116364072B (zh) * | 2023-05-31 | 2023-08-01 | 北京师范大学 | 一种基于人工智能的教育信息监管方法 |
CN116450867B (zh) * | 2023-06-15 | 2023-08-18 | 北京枫清科技有限公司 | 一种基于对比学习和大语言模型的图数据语义搜索方法 |
CN116662582B (zh) * | 2023-08-01 | 2023-10-10 | 成都信通信息技术有限公司 | 基于自然语言的特定领域业务知识检索方法及检索装置 |
CN116758591B (zh) * | 2023-08-18 | 2023-11-21 | 厦门瑞为信息技术有限公司 | 基于图像语义识别的场站特殊旅客识别和交互系统及方法 |
CN117235629B (zh) * | 2023-11-15 | 2024-04-12 | 中邮消费金融有限公司 | 一种基于知识域检测的意图识别方法、系统及计算机设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543722A (zh) * | 2018-11-05 | 2019-03-29 | 中山大学 | 一种基于情感分析模型的情感趋势预测方法 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN110390107B (zh) * | 2019-07-26 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 基于人工智能的下文关系检测方法、装置及计算机设备 |
CN111046132B (zh) * | 2019-10-25 | 2023-06-16 | 众安信息技术服务有限公司 | 一种检索多轮对话的客服问答处理方法及其系统 |
CN110928997A (zh) * | 2019-12-04 | 2020-03-27 | 北京文思海辉金信软件有限公司 | 意图识别方法、装置、电子设备及可读存储介质 |
CN111259625B (zh) * | 2020-01-16 | 2023-06-27 | 平安科技(深圳)有限公司 | 意图识别方法、装置、设备及计算机可读存储介质 |
-
2020
- 2020-07-30 CN CN202010752264.8A patent/CN111625641B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111625641A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111625641B (zh) | 一种基于多维度语义交互表征模型的对话意图识别方法及系统 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110781680B (zh) | 基于孪生网络和多头注意力机制的语义相似度匹配方法 | |
CN111933127B (zh) | 一种具备自学习能力的意图识别方法及意图识别系统 | |
CN111476023B (zh) | 识别实体关系的方法及装置 | |
CN112231447B (zh) | 一种中文文档事件抽取的方法和系统 | |
CN112269868A (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN113220890A (zh) | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 | |
CN113011196B (zh) | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 | |
CN112650845B (zh) | 一种基于bert与知识表示学习的问答系统及方法 | |
CN113239690A (zh) | 基于Bert与全连接神经网络融合的中文文本意图识别方法 | |
CN112052319B (zh) | 一种基于多特征融合的智能客服方法及系统 | |
CN115563290B (zh) | 一种基于语境建模的智能情感识别方法 | |
CN115292461A (zh) | 基于语音识别的人机交互学习方法及系统 | |
CN113569553A (zh) | 基于改进Adaboost算法的句子相似性判断方法 | |
CN114003700A (zh) | 一种对话信息的处理方法、系统、电子设备及存储介质 | |
CN113158062A (zh) | 一种基于异构图神经网络的用户意图识别方法及装置 | |
CN117591648A (zh) | 基于情绪细微感知的电网客服共情对话回复生成方法 | |
CN117131877A (zh) | 一种基于对比学习的文本检测方法及系统 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN114637852B (zh) | 医学文本的实体关系抽取方法、装置、设备及存储介质 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 | |
CN116186259A (zh) | 一种会话线索评分方法、装置、设备及存储介质 | |
CN113792120B (zh) | 图网络的构建方法及装置、阅读理解方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |