CN111625641A - 一种基于多维度语义交互表征模型的对话意图识别方法及系统 - Google Patents

一种基于多维度语义交互表征模型的对话意图识别方法及系统 Download PDF

Info

Publication number
CN111625641A
CN111625641A CN202010752264.8A CN202010752264A CN111625641A CN 111625641 A CN111625641 A CN 111625641A CN 202010752264 A CN202010752264 A CN 202010752264A CN 111625641 A CN111625641 A CN 111625641A
Authority
CN
China
Prior art keywords
dialogue
layer
sentences
semantic
dialog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010752264.8A
Other languages
English (en)
Other versions
CN111625641B (zh
Inventor
邹剑云
赵洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010752264.8A priority Critical patent/CN111625641B/zh
Publication of CN111625641A publication Critical patent/CN111625641A/zh
Application granted granted Critical
Publication of CN111625641B publication Critical patent/CN111625641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多维度语义交互表征模型的对话意图识别方法及系统,属于自然语言处理对话系统领域。包括:(1)组建对话知识库,知识库包括通用常识性的对话数据以及业务场景下用户的语句和相应语句所属的意图;(2)将对话知识库中对话信息进行基于预训练语言模型的特征提取,得到语义向量;(3)获取当前对话信息的语义向量;(4)结合知识库中对话语句和当前对话语句的语义向量,构建交互注意力机制和卷积神经网络,计算得到置信度;(5)将置信度进行筛选,得到意图识别结果或判定为未命中知识库中的意图。本发明解决了传统预训练语言模型在语义信息层面没有侧重,导致区分度不够、对于敏感信息忽视等问题,识别准确率更高。

Description

一种基于多维度语义交互表征模型的对话意图识别方法及 系统
技术领域
本发明涉及自然语言处理对话系统领域,尤其是涉及一种基于多维度语义交互表征模型的对话意图识别方法及系统。
背景技术
近年来,基于人工智能的智能客服逐渐取代传统的人工客服,智能对话系统作为这其中的最关键的一项前沿技术之一,一直深受广大学术界和工业界研究人员的关注。其中,作为智能对话系统核心的对话意图识别,是实现智能对话系统必不可少的模块,所以也是众多研究人员的研究方向。
目前意图识别的方法主要分为基于传统语言规则模版的匹配方法和基于机器学习和深度神经网络模型的方法。基于传统语言规则模版的匹配方法在小样本数据上表现良好,且匹配速度快,准确率较高。但是其问题在于两点,一、由于规则需要大量的人工编写,且受限于语言字符的关系,对于一些语句不同但语义相同的问题,其准确率会急剧下降,泛化性很差;二、在一些比较复杂的意图识别问题上,语言规则并不能很好的区别细微的语义差别,故在大样本的数据上会出现瓶颈,即无法通过优化使之能有效辨别语义信息,导致词不达意,答非所问的情况。
基于机器学习和深度神经网络模型的方法,优势在于能够通过模型掌握其语义信息,在大样本数据上表现尚可。但其问题也存在于两点,一、深度神经网络模型由于其参数量巨大,具有很强的拟合能力,但需要极大规模的文本数据进行训练,在小样本的数据集上会过拟合,泛化性能低;二、单一的机器学习和深度神经网络模型在分别对不同的语句进行意图判断时,只根据当前语句的含义进行理解,而非对不同语句的不同之处进行学习,即语句之间的交互信息表示不足。
2018年谷歌提出了运用Transformer提取语义信息的预训练语言模型,通过对大量语料的无监督学习,掌握通用的语言规则和单词含义,并将模型参数共享,解决了上文所说的需要极大规模的文本数据进行训练的问题,即解决了在样本量小的情况下,模型过拟合的问题。但是依然存在如下问题,只根据当前语句的含义进行理解,而非对不同语句的不同之处进行学习,即语句之间的交互信息表示不足,对于不同语句中的细微变化但是意思完全相反的情况不能够产生有效的处理。在对话意图识别中,语句细微的变化可能正是两个完全不同的意图。例如“我对这个产品很感兴趣,你仔细说下,我想听听”和“我对这个产品不感兴趣,你不用说了,我不想听”。在该模型下,提取了“这个产品”,“感兴趣”,“说”,“听”,“我”,“你”等特征后,两句话的相似度就会相当高,会导致意图识别出错。一个好的对话系统应该对于是非判断的问题是十分敏感的,该模型等价提取了语义特征后,不能够将主题含义着重突显,容易造成对话系统的回应答非所问。
发明内容
为了解决现有的对话系统对于相似语句的不同语义判断准确度不高的缺陷,本发明提供了一种基于多维度语义交互表征模型的对话意图识别方法及系统,本系统可以充分理解用户当前对话所表达的含义以及意图,并结合知识库信息,充分比对当前对话是否命中知识库内容,根据多维度的语义交互表征模型形成置信度,进而选择合适当前语境的意图。解决了传统预训练语言模型在语义信息层面没有侧重,导致区分度不够、对于敏感信息忽视等问题。
为了实现上述目的,本发明采用的一种基于多维度语义交互表征模型的对话意图识别方法,包括以下步骤。
步骤1:组建对话知识库,包括通用常识下的对话语句、业务场景下的对话语句、以及知识库中所有对话语句的意图标签。
步骤2:构建多维度语义交互表征模型,包括对话语句输入层、预训练语言模型、交互注意力层、卷积层、池化层和置信度输出层。
采用多维度语义交互表征模型提取对话语句的语义向量,具体过程为:获取待识别的当前对话语句,并将当前对话语句作为对话语句输入层的输入,经预训练语言模型处理后得到第一对话语句的语义向量;获取对话知识库中的任一对话语句作为对话语句输入层的输入,经预训练语言模型处理后得到第二对话语句的语义向量;将两条语义向量进行交互注意力层的计算,得到二维信息交互矩阵;所述的二维信息交互矩阵再依次经过卷积、池化和平铺处理,最后经softmax函数计算得到置信度。
步骤3:重复步骤2所述的采用多维度语义交互表征模型提取对话语句的语义向量 的过程,将对话知识库中的所有对话语句与当前对话语句逐一计算得到置信度,选取对话 知识库中置信度最高的前
Figure 474438DEST_PATH_IMAGE001
个对话语句,然后将
Figure 860420DEST_PATH_IMAGE001
个对话语句中对应意图标签数量最多的 意图作为待定的识别结果。
步骤4:设定多维度语义交互表征模型中置信度输出层的输出阈值,若待定的识别结果对应的对话语句的置信度高于输出阈值,则将待定的识别结果作为最终的识别结果输出;否则,采用兜底回复策略。
本发明的另一目的在于提供了一种用于实现上述基于多维度语义交互表征模型的对话意图识别方法的系统。
包括:
用户输入模块,用于接收用户输入的对话语句,并将输入的对话语句处理为标准格式。
对话知识库模块,用于存储通用常识下的对话语句、业务场景下的对话语句、以及所有对话语句的意图标签。
预训练语言模型处理模块,用于将用户输入模块中的对话语句与对话知识库模块中的对话语句分别解析成语义向量。
交互注意力模块,用于将用户输入对话语句的语义向量与对话知识库对话语句的语义向量配对输入,计算得到二维信息交互矩阵。
卷积神经网络模块,配置有卷积神经网络模型,包括输入层、卷积层、池化层、置信度输出层;用于将交互注意力模块输出的二维信息交互矩阵作为输入层的输入矩阵,提取二维信息交互矩阵的特征,并计算得到置信度。
兜底回复模块:存储有兜底回复语句,当接收到启动信号后,输出兜底回复语句。
意图选择模块,用于根据置信度和设定好的输出阈值对意图进行选择,首先选取 对话知识库中置信度最高的前
Figure 108999DEST_PATH_IMAGE001
个对话语句,然后将
Figure 973049DEST_PATH_IMAGE001
个对话语句中对应意图标签数量最 多的意图作为待定的识别结果,若待定的识别结果对应的对话语句的置信度高于输出阈 值,则将待定的识别结果作为最终的识别结果输出;否则,启动兜底回复模块。
与现有技术相比,本发明具备以下有益效果。
1、本发明提出的多维度语义交互表征模型,通过将预训练语言模型的语义向量通过深度神经网络进行交互计算,获取待识别的对话语句与知识库中的任一对话语句之间的交互信息,有效学习句与句交互中的重点信息,减少了无关的信息。相比于现有技术中仅仅分析单句语义的单一分类模型,本发明通过语义信息在交互过程中得到的不同权重值,加强了相似语句的不同语义之间辨别能力,有效避免了传统的方法在语义上没有侧重以及在是非问题上极易混淆等问题,使得对话意图识别系统变得更加精准,鲁棒性更强。
2、本发明结合了预训练语言模型的优势,有大规模预训练语料训练的基础,故无需大量的业务标注数据,并通过语义向量交互后的多维度语义矩阵进行预测,能够解决由于样本数据不平衡导致的长尾问题以及由于样本数据较少导致的冷启动问题,本系统的适用范围更广。
附图说明
图1为本发明方法的模型框架设计图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
一种基于多维度语义交互表征模型的对话意图识别方法,如图1所示。
步骤1:组建对话知识库,包括通用常识下的对话语句、业务场景下的对话语句、以及知识库中所有对话语句的意图标签。
步骤2:构建多维度语义交互表征模型,包括对话语句输入层、预训练语言模型、交互注意力层、卷积层、池化层和置信度输出层。
步骤3:重复步骤2所述的采用多维度语义交互表征模型提取对话语句的语义向量 的过程,将对话知识库中的所有对话语句与当前对话语句逐一计算得到置信度,选取对话 知识库中置信度最高的前
Figure 53001DEST_PATH_IMAGE001
个对话语句,然后将
Figure 344305DEST_PATH_IMAGE001
个对话语句中对应意图标签数量最多的 意图作为待定的识别结果。
步骤4:设定多维度语义交互表征模型中置信度输出层的输出阈值,若待定的识别结果对应的对话语句的置信度高于输出阈值,则将待定的识别结果作为最终的识别结果输出;否则,采用兜底回复策略。
在本发明的一个具体实施中对对话知识库的构建进行了介绍。
所述的对话知识库应该包括通用常识和业务场景两部分内容。首先需要根据业务 场景和业务流程定制知识库,知识库的每条信息包括对话语句
Figure 814601DEST_PATH_IMAGE002
和相应语句所属的意图
Figure 482342DEST_PATH_IMAGE003
, 由于业务场景下也会出现常识性的对话,所以每个定制的知识库需要加入通用意图,例如 打招呼,日常闲聊等。本发明结合了预训练语言模型的优势,由于预训练语言模型有大规模 预训练语料训练的基础,能够很好提供语义理解,故无需大量的业务标注数据。
在本发明的一个具体实施中对多维度语义交互表征模型进行了介绍。
多维度语义交互表征模型基于预训练语言模型输出的语义向量,并在模型结构加入了句与句之间的交互,通过深度神经网络对语义向量进行交互计算,获取待识别的对话语句与知识库中的任一对话语句之间的交互信息,学习句与句交互中的重点信息,使得在语义理解上有侧重。
具体的,预训练语言模型包含一个巨大的字典,且按字级别建立字典,故无需将对话语句分词,按照字表剔除乱码即可。本发明中使用自训练的预训练语言模型,通过大规模的无标注新闻文本,训练通用模型;再在特定行业/领域进行微调,根据客户所处的行业,例如金融、教育、科技、医疗等,通过在相关领域文本上的微调,能够将行业专业词汇进行充分理解,增强在特定领域的语义理解能力。
在预训练语言模型提取语义向量的过程中,首先将待处理的对话语句进行独热编 码,对于长度为n的输入句子s=[
Figure 416800DEST_PATH_IMAGE004
,...,
Figure 879006DEST_PATH_IMAGE005
],其中
Figure 99247DEST_PATH_IMAGE006
对应的独热编码为
Figure 305100DEST_PATH_IMAGE007
, 即长度为词表长度L,第
Figure 297327DEST_PATH_IMAGE006
个位置上为1,其余位置为0的向量。然后通过Embedding层转换为 固定长度的向量表示。
所述Embedding层的计算公式为:
Figure 196013DEST_PATH_IMAGE008
Figure 640901DEST_PATH_IMAGE009
其中,
Figure 384866DEST_PATH_IMAGE010
表示待处理的对话语句中第i个字对应的独热编码向量,
Figure 293916DEST_PATH_IMAGE011
Figure 97924DEST_PATH_IMAGE012
的矩阵,
Figure 30108DEST_PATH_IMAGE013
表示Embedding层输出的向量,
Figure 577764DEST_PATH_IMAGE014
为矩阵e中的第i个元素。
将向量
Figure 341320DEST_PATH_IMAGE013
作为第一层Transformer网络的输入序列,每一层Transformer网络均包 括一层自注意力层和一层前向传播层。
所述自注意力层的计算公式为:
Figure 581809DEST_PATH_IMAGE015
Figure 735710DEST_PATH_IMAGE016
其中,
Figure 87057DEST_PATH_IMAGE017
表示自注意力层中第
Figure 908382DEST_PATH_IMAGE018
个自注意力计算结果,
Figure 116510DEST_PATH_IMAGE019
表示
Figure 23286DEST_PATH_IMAGE020
的自注 意力层输出序列,
Figure 647165DEST_PATH_IMAGE021
分别表示对输入序列做的矩阵变换,
Figure 588576DEST_PATH_IMAGE022
表示归一化因子,
Figure 967605DEST_PATH_IMAGE023
表 示调节因子,起调节作用,使得内积的值不至于太大。
前向传播层的计算公式为:
Figure 358748DEST_PATH_IMAGE024
其中,
Figure 51897DEST_PATH_IMAGE025
为一层Transformer网络的输出序列,
Figure 316656DEST_PATH_IMAGE026
Figure 69849DEST_PATH_IMAGE027
分别是两个隐层的参数矩阵,
Figure 951217DEST_PATH_IMAGE028
Figure 244795DEST_PATH_IMAGE029
是偏差项。
将上一层Transformer网络的输出序列
Figure 895219DEST_PATH_IMAGE025
作为下一层Transformer网络的输入序 列,经过12层相同结构的Transformer网络得到待处理的对话语句的语义向量。
如图1所示,获取待识别的当前对话语句a,并将当前对话语句a作为对话语句输入 层的输入,经预训练语言模型处理后得到第一对话语句的语义向量
Figure 288154DEST_PATH_IMAGE030
;获取对话知识库中 的任一对话语句q作为对话语句输入层的输入,经预训练语言模型处理后得到第二对话语 句的语义向量
Figure 656819DEST_PATH_IMAGE031
在通过深度神经网络对语义向量进行交互计算的过程中,结合预训练语言模型输 出的语义向量
Figure 488509DEST_PATH_IMAGE031
Figure 259019DEST_PATH_IMAGE030
,通过交互注意力机制和卷积神经网络依次计算得到置信度。
其中,交互注意力层的计算公式为:
Figure 88434DEST_PATH_IMAGE032
其中,
Figure 678816DEST_PATH_IMAGE033
Figure 517459DEST_PATH_IMAGE034
分别表示对话知识库中的任一对话语句和当前对话语句的语义向量 (即在上述中描述的
Figure 876896DEST_PATH_IMAGE031
Figure 939530DEST_PATH_IMAGE030
),
Figure 17207DEST_PATH_IMAGE035
表示转置,
Figure 393962DEST_PATH_IMAGE036
表示知识库中的任一对话语句和当前对话语 句的信息交互矩阵。
卷积神经网络中的卷积层的计算公式为:
Figure 873485DEST_PATH_IMAGE037
其中,
Figure 307353DEST_PATH_IMAGE038
表示卷积层采用的卷积核的大小,这里使用正方形的卷积核,即长宽均为
Figure 872326DEST_PATH_IMAGE038
Figure 849509DEST_PATH_IMAGE039
代表第
Figure 183539DEST_PATH_IMAGE001
个卷积核的常数项,
Figure 791238DEST_PATH_IMAGE040
代表第
Figure 577928DEST_PATH_IMAGE001
个卷积核的位置为
Figure 296485DEST_PATH_IMAGE041
上的一阶参数项,
Figure 750601DEST_PATH_IMAGE042
使 用ReLU激活函数,
Figure 325938DEST_PATH_IMAGE043
表示由第
Figure 865504DEST_PATH_IMAGE001
个卷积核运算得到的卷积矩阵,
Figure 122173DEST_PATH_IMAGE044
为在卷积矩阵
Figure 430795DEST_PATH_IMAGE043
中 的第i行第j列上的元素。
Figure 177034DEST_PATH_IMAGE042
使用ReLU激活函数。
卷积神经网络中的卷积层池化层的计算公式为:
Figure 938316DEST_PATH_IMAGE045
其中,
Figure 264256DEST_PATH_IMAGE046
表示池化大小的参数,
Figure 161804DEST_PATH_IMAGE047
分别为知识库中对话语句的长度和当前对话语 句的长度,
Figure 282207DEST_PATH_IMAGE048
为卷积矩阵
Figure 796365DEST_PATH_IMAGE043
经池化层运算后得到的池化矩阵,
Figure 457154DEST_PATH_IMAGE049
为在池化矩阵
Figure 474788DEST_PATH_IMAGE048
中的第i行第j列上的元素。
经过池化、平铺操作后,得到最终特征向量
Figure 763162DEST_PATH_IMAGE050
,经过
Figure 499037DEST_PATH_IMAGE051
函数得到知识库中的 对话语句
Figure 963517DEST_PATH_IMAGE002
和用户输入的对话语句
Figure 835658DEST_PATH_IMAGE052
的相关性置信度。
在本发明的一个具体实施中对意图筛选过程进行了介绍。
将得到的置信度进行筛选,选取最佳的前
Figure 297863DEST_PATH_IMAGE001
个语句,再从
Figure 521034DEST_PATH_IMAGE001
个语句中选择得票最多 的意图;若得到的置信度小于规定的阈值,则判定为无命中,采用兜底回复。
知识库中所有的意图语句
Figure 523625DEST_PATH_IMAGE002
都会与用户输入的对话信息
Figure 515852DEST_PATH_IMAGE052
形成置信度,将这些置信 度按照从高到低的顺序进行排序,选取前
Figure 148959DEST_PATH_IMAGE001
个置信度最高的语句,根据其所属的意图进行投 票,选择得票最多的意图,如果有相同票数的意图,选择平均置信度最高的意图。如果最终 选择的意图的平均置信度过低,小于规定的阈值,则判定为无命中任何意图,采用兜底回 复,防止误答,错误识别等情况。
本发明所提出的基于多维度语义交互表征的模型,具备了预训练语言模型语义理解能力强,泛化性强等所有优点,并有效避免了在对话意图识别时预训练语言模型不能精确判断两句话语义差别的缺点。在实际业务应用中,本发明提出的模型较通用预训练语言模型效果更好,识别准确率有较大提升。特别是在一些是非语句的判断上,例如“我对这个产品很感兴趣,你仔细说下,我想听听”和“我对这个产品不感兴趣,你不用说了,我不想听”。在该模型下,提取了“这个产品”,“感兴趣”,“说”,“听”,“我”,“你”等特征后,两句话的相似度就会相当高,通用的预训练语言模型根据语义判断相关性为95%,会将两句话归为同一意图(语义),此时运用通用预训练语言模型会导致意图识别错误。在日常的对话中,这两句话的侧重点应该在于情感判断,运用本发明提出的多维度语义交互表征模型判断相关性为81%,此时与命中意图的置信度阈值相比,低于命中意图的平均置信度,故将两句话划分为不同意图,因此,该模型可以有效提升意图识别的准确率。
本发明还构建了一种基于多维度语义交互表征的对话意图识别系统。
包括:
用户输入模块,用于接收用户输入的对话语句,并将输入的对话语句处理为标准格式。
对话知识库模块,用于存储通用常识下的对话语句、业务场景下的对话语句、以及所有对话语句的意图标签。
预训练语言模型处理模块,用于将用户输入模块中的对话语句与对话知识库模块中的对话语句分别解析成语义向量。
交互注意力模块,用于将用户输入对话语句的语义向量与对话知识库对话语句的语义向量配对输入,计算得到二维信息交互矩阵。
卷积神经网络模块,配置有卷积神经网络模型,包括输入层、卷积层、池化层、置信度输出层;用于将交互注意力模块输出的二维信息交互矩阵作为输入层的输入矩阵,提取二维信息交互矩阵的特征,并计算得到置信度;所述的卷积神经网络模型可采用CNN卷积网络模型。
兜底回复模块:存储有兜底回复语句,当接收到启动信号后,输出兜底回复语句,例如“这方面我还不懂,您可以再说一遍吗”。
意图选择模块,用于根据置信度和设定好的输出阈值对意图进行选择,首先选取 对话知识库中置信度最高的前
Figure 593846DEST_PATH_IMAGE001
个对话语句,然后将
Figure 400128DEST_PATH_IMAGE001
个对话语句中对应意图标签数量最多 的意图作为待定的识别结果,若待定的识别结果对应的对话语句的置信度高于输出阈值, 则将待定的识别结果作为最终的识别结果输出;否则,启动兜底回复模块。
其中,预训练语言模型处理模块包括:
独热编码子模块:用于将待处理的对话语句进行独热编码。
Embedding子模块,用于将独热编码的对话语句转换为固定长度的向量表示,公式为:
Figure 512441DEST_PATH_IMAGE008
Figure 50870DEST_PATH_IMAGE009
其中,
Figure 248633DEST_PATH_IMAGE010
表示待处理的对话语句中第i个字对应的独热编码向量,
Figure 593026DEST_PATH_IMAGE011
Figure 559845DEST_PATH_IMAGE012
的矩阵,
Figure 269175DEST_PATH_IMAGE013
表示 Embedding子模块输出的向量,
Figure 954235DEST_PATH_IMAGE014
为矩阵e中的第i个元素。
12层Transformer网络子模块,每一层Transformer网络均包括一层自注意力层和一层前向传播层,用于对Embedding子模块输出的向量提取语义特征。
第一层Transformer网络的计算过程具体为:
自注意力层的计算公式为:
Figure 102319DEST_PATH_IMAGE015
Figure 923645DEST_PATH_IMAGE016
其中,
Figure 69455DEST_PATH_IMAGE017
表示自注意力层中第
Figure 973302DEST_PATH_IMAGE018
个自注意力计算结果,
Figure 862760DEST_PATH_IMAGE019
表示
Figure 804172DEST_PATH_IMAGE020
的自注 意力层输出序列,
Figure 120883DEST_PATH_IMAGE021
分别表示对输入序列做的矩阵变换,
Figure 514956DEST_PATH_IMAGE022
表示归一化因子,
Figure 4843DEST_PATH_IMAGE023
表 示调节因子。
前向传播层的计算公式为:
Figure 535181DEST_PATH_IMAGE024
其中,
Figure 288374DEST_PATH_IMAGE025
为一层Transformer网络的输出序列,
Figure 169742DEST_PATH_IMAGE026
Figure 197741DEST_PATH_IMAGE027
分别是两个隐层的参数矩阵,
Figure 848165DEST_PATH_IMAGE028
Figure 772259DEST_PATH_IMAGE029
是偏差项。
将上一层Transformer网络的输出序列
Figure 875344DEST_PATH_IMAGE025
作为下一层Transformer网络的输入序 列,经过12层相同结构的Transformer网络得到待处理的对话语句的语义向量。
其中,交互注意力模块的计算公式为:
Figure 910296DEST_PATH_IMAGE053
其中,
Figure 415227DEST_PATH_IMAGE033
Figure 306959DEST_PATH_IMAGE034
分别表示对话知识库中的任一对话语句和当前对话语句的语义向量,
Figure 162920DEST_PATH_IMAGE035
表示转置,
Figure 470404DEST_PATH_IMAGE036
表示知识库中的任一对话语句和当前对话语句的信息交互矩阵。
其中,卷积神经网络模块的计算公式为:
首先通过卷积层计算卷积矩阵:
Figure 95421DEST_PATH_IMAGE037
其中,
Figure 158055DEST_PATH_IMAGE038
表示卷积层采用的卷积核的大小,
Figure 232802DEST_PATH_IMAGE039
代表第
Figure 609557DEST_PATH_IMAGE001
个卷积核的常数项,
Figure 89080DEST_PATH_IMAGE040
代表 第
Figure 525878DEST_PATH_IMAGE001
个卷积核的位置为
Figure 887589DEST_PATH_IMAGE041
上的一阶参数项,
Figure 802455DEST_PATH_IMAGE042
使用ReLU激活函数,
Figure 136485DEST_PATH_IMAGE043
表示由第
Figure 744183DEST_PATH_IMAGE001
个卷积核 运算得到的卷积矩阵,
Figure 593191DEST_PATH_IMAGE044
为在卷积矩阵
Figure 311748DEST_PATH_IMAGE043
中的第i行第j列上的元素。
再通过池化层计算池化矩阵:
Figure 500284DEST_PATH_IMAGE054
其中,
Figure 278884DEST_PATH_IMAGE046
表示池化大小的参数,
Figure 615187DEST_PATH_IMAGE047
分别为知识库中对话语句的长度和当前对话语 句的长度,
Figure 137436DEST_PATH_IMAGE048
为卷积矩阵
Figure 180478DEST_PATH_IMAGE043
经池化层运算后得到的池化矩阵,
Figure 129979DEST_PATH_IMAGE049
为在池化矩阵
Figure 688000DEST_PATH_IMAGE048
中的第i行第j列上的元素。
最后将池化矩阵平铺和拼接,使用softmax函数计算得到置信度,通过置信度输出层输出计算结果。
实施例
本发明在一个公开数据集LCQMC和一个真实业务数据集上进行了对比实验。LCQMC是哈工大发表的一个中文问答匹配数据集,该数据集被广泛应用在一些中文语义匹配的评测中。LCQMC更多的关注在intent matching(意图匹配)而不是paraphrase(短语)方面。构建的方式是先针对不同的领域从百度问答中抽取高频的相关问题,然后通过Wassersteindistance进行初步筛选,最后人工进行标注。数据集一共有260068对标注结果,分为三部分,238766训练集、8802验证集和12500测试集。
真实业务数据集选择了保险行业条款,整理了不同相关咨询问题,共86个不同的咨询问题,每条咨询扩写了5句相似问法,共430条语料。随机抽取350条作为训练集,40条作为验证集,40条作为测试集。
本发明主要在两大评判指标上进行对比,分别是:ACCURACY、F1-SCORE。总共比较了5个目前主流的意图分类算法:CBOW,CNN,BiLSTM,BiMPM,BERT(预训练模型)。整体对比结果如表1所示:
表1 本发明与现有技术的实施效果对比
Figure 13939DEST_PATH_IMAGE056
从表1可以看出,本发明提出的一种基于多维度语义交互表征模型的对话意图识别方法,由于在模型结构加入了句与句之间的交互,能够有效学习句与句交互中的重点信息,减少了无关信息的作用,从而使语义信息在交互的学习过程中得到不同的权重,解决了传统预训练语言模型在语义信息层面没有侧重,导致区分度不够,对于敏感信息忽视等问题,在哈工大LCQMC匹配数据集以及真实的保险业务数据上均取得了准确率和F1值的最优效果,充分展示了本发明算法的优越性。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (10)

1.一种基于多维度语义交互表征模型的对话意图识别方法,其特征在于,包括以下步骤:
步骤1:组建对话知识库,包括通用常识下的对话语句、业务场景下的对话语句、以及知识库中所有对话语句的意图标签;
步骤2:构建多维度语义交互表征模型,包括对话语句输入层、预训练语言模型、交互注意力层、卷积层、池化层和置信度输出层;
采用多维度语义交互表征模型提取对话语句的语义向量,具体过程为:获取待识别的当前对话语句,并将当前对话语句作为对话语句输入层的输入,经预训练语言模型处理后得到第一对话语句的语义向量;获取对话知识库中的任一对话语句作为对话语句输入层的输入,经预训练语言模型处理后得到第二对话语句的语义向量;将两条语义向量进行交互注意力层的计算,得到二维信息交互矩阵;所述的二维信息交互矩阵再依次经过卷积、池化和平铺处理,最后经softmax函数计算得到置信度;
步骤3:重复步骤2所述的采用多维度语义交互表征模型提取对话语句的语义向量的过 程,将对话知识库中的所有对话语句与当前对话语句逐一计算得到置信度,选取对话知识 库中置信度最高的前
Figure 395429DEST_PATH_IMAGE001
个对话语句,然后将
Figure 407247DEST_PATH_IMAGE001
个对话语句中对应意图标签数量最多的意图作 为待定的识别结果;
步骤4:设定多维度语义交互表征模型中置信度输出层的输出阈值,若待定的识别结果对应的对话语句的置信度高于输出阈值,则将待定的识别结果作为最终的识别结果输出;否则,采用兜底回复策略。
2.根据权利要求1所述的一种基于多维度语义交互表征模型的对话意图识别方法,其特征在于,步骤2所述的预训练语言模型包括Embedding层和12层Transformer网络结构,预训练语言模型的运算步骤具体为:
2.1)首先将待处理的对话语句进行独热编码,然后通过Embedding层转换为固定长度的向量表示,所述Embedding层的计算公式为:
Figure 230846DEST_PATH_IMAGE002
Figure 104256DEST_PATH_IMAGE003
其中,
Figure 329701DEST_PATH_IMAGE004
表示待处理的对话语句中第i个字对应的独热编码向量,
Figure 512420DEST_PATH_IMAGE005
为预设的转换矩 阵,
Figure 823316DEST_PATH_IMAGE006
表示Embedding层输出的向量,
Figure 749684DEST_PATH_IMAGE007
为矩阵e中的第i个元素;
2.2)将向量
Figure 580368DEST_PATH_IMAGE006
作为第一层Transformer网络的输入序列,每一层Transformer网络均包 括一层自注意力层和一层前向传播层,所述自注意力层的计算公式为:
Figure 933988DEST_PATH_IMAGE008
Figure 732180DEST_PATH_IMAGE009
其中,
Figure 196660DEST_PATH_IMAGE010
表示自注意力层中第
Figure 131118DEST_PATH_IMAGE011
个自注意力计算结果,
Figure 671951DEST_PATH_IMAGE012
表示
Figure 691860DEST_PATH_IMAGE013
的自注 意力层输出序列,
Figure 960030DEST_PATH_IMAGE014
分别表示对输入序列做的矩阵变换,
Figure 14574DEST_PATH_IMAGE015
表示归一化因子,
Figure 457800DEST_PATH_IMAGE016
表 示调节因子;
前向传播层的计算公式为:
Figure 230584DEST_PATH_IMAGE017
其中,
Figure 36866DEST_PATH_IMAGE018
为一层Transformer网络的输出序列,
Figure 945916DEST_PATH_IMAGE019
Figure 77820DEST_PATH_IMAGE020
分别是两个隐层的参数矩阵,
Figure DEST_PATH_IMAGE021
Figure 88633DEST_PATH_IMAGE022
是偏差项;
2.3)将上一层Transformer网络的输出序列
Figure 964185DEST_PATH_IMAGE018
作为下一层Transformer网络的输入序列, 经过12层相同结构的Transformer网络得到待处理的对话语句的语义向量。
3.根据权利要求1所述的一种基于多维度语义交互表征模型的对话意图识别方法,其特征在于,步骤2所述的交互注意力层的计算公式为:
Figure 727742DEST_PATH_IMAGE023
其中,
Figure 764968DEST_PATH_IMAGE024
Figure 263076DEST_PATH_IMAGE025
分别表示对话知识库中的任一对话语句和当前对话语句的语义向量,
Figure 411161DEST_PATH_IMAGE026
表示转置,
Figure 294803DEST_PATH_IMAGE027
表示知识库中的任一对话语句和当前对话语句的信息交互矩阵。
4.根据权利要求1所述的一种基于多维度语义交互表征模型的对话意图识别方法,其特征在于,步骤2所述的卷积层的计算公式为:
Figure 237352DEST_PATH_IMAGE028
其中,
Figure 206445DEST_PATH_IMAGE029
表示卷积层采用的卷积核的大小,
Figure 174532DEST_PATH_IMAGE030
代表第
Figure 647101DEST_PATH_IMAGE001
个卷积核的常数项,
Figure 291709DEST_PATH_IMAGE031
代表第
Figure 748098DEST_PATH_IMAGE001
个卷积核的位置为
Figure 237986DEST_PATH_IMAGE032
上的一阶参数项,
Figure 844023DEST_PATH_IMAGE033
使用ReLU激活函数,
Figure 659532DEST_PATH_IMAGE034
表示由第
Figure 72059DEST_PATH_IMAGE001
个卷积核运算 得到的卷积矩阵,
Figure 631216DEST_PATH_IMAGE035
为在卷积矩阵
Figure 78378DEST_PATH_IMAGE034
中的第i行第j列上的元素,
Figure 815521DEST_PATH_IMAGE033
表示激活函数。
5.根据权利要求4所述的一种基于多维度语义交互表征模型的对话意图识别方法,其特征在于,步骤2所述的池化层的计算公式为:
Figure 980923DEST_PATH_IMAGE036
其中,
Figure 78192DEST_PATH_IMAGE037
表示池化大小的参数,
Figure 645440DEST_PATH_IMAGE038
分别为知识库中对话语句的长度和当前对话语句 的长度,
Figure 553484DEST_PATH_IMAGE039
为卷积矩阵
Figure 940603DEST_PATH_IMAGE034
经池化层运算后得到的池化矩阵,
Figure 841563DEST_PATH_IMAGE040
为在池化矩阵
Figure 528896DEST_PATH_IMAGE039
中的第i行第j列上的元素。
6.根据权利要求1所述的一种基于多维度语义交互表征模型的对话意图识别方法,其 特征在于,步骤3所述的将
Figure 857109DEST_PATH_IMAGE001
个对话语句中对应意图标签数量最多的意图作为待定的识别结 果,若存在标签数量相同的意图,则选择平均置信度最高的意图作为待定的识别结果。
7.一种基于权利要求1所述对话意图识别方法的识别系统,其特征在于,包括:
用户输入模块,用于接收用户输入的对话语句,并将输入的对话语句处理为标准格式;
对话知识库模块,用于存储通用常识下的对话语句、业务场景下的对话语句、以及所有对话语句的意图标签;
预训练语言模型处理模块,用于将用户输入模块中的对话语句与对话知识库模块中的对话语句分别解析成语义向量;
交互注意力模块,用于将用户输入对话语句的语义向量与对话知识库对话语句的语义向量配对输入,计算得到二维信息交互矩阵;
卷积神经网络模块,配置有卷积神经网络模型,包括输入层、卷积层、池化层、置信度输出层;用于将交互注意力模块输出的二维信息交互矩阵作为输入层的输入矩阵,提取二维信息交互矩阵的特征,并计算得到置信度;
兜底回复模块:存储有兜底回复语句,当接收到启动信号后,输出兜底回复语句;
意图选择模块,用于根据置信度和设定好的输出阈值对意图进行选择,首先选取对话 知识库中置信度最高的前
Figure 482257DEST_PATH_IMAGE001
个对话语句,然后将个对话语句中对应意图标签数量最多的意 图作为待定的识别结果,若待定的识别结果对应的对话语句的置信度高于输出阈值,则将 待定的识别结果作为最终的识别结果输出;否则,启动兜底回复模块。
8.根据权利要求7所述的识别系统,其特征在于,所述的预训练语言模型处理模块包括:
独热编码子模块:用于将待处理的对话语句进行独热编码;
Embedding子模块,用于将独热编码的对话语句转换为固定长度的向量表示;
12层Transformer网络子模块,每一层Transformer网络均包括一层自注意力层和一层前向传播层,用于对Embedding子模块输出的向量提取语义特征;将上一层Transformer网络的输出序列作为下一层Transformer网络的输入序列,经过12层相同结构的Transformer网络得到待处理的对话语句的语义向量。
9.根据权利要求7所述的识别系统,其特征在于,所述的交互注意力模块将对话知识库中的任一对话语句进行转置,然后与当前对话语句的语义向量相乘,得到知识库中的任一对话语句和当前对话语句的信息交互矩阵。
10.根据权利要求7所述的识别系统,其特征在于,所述的卷积神经网络模块的计算方式为:首先通过卷积层计算卷积矩阵,再通过池化层计算池化矩阵,最后将池化矩阵平铺和拼接,使用softmax函数计算得到置信度,通过置信度输出层输出计算结果。
CN202010752264.8A 2020-07-30 2020-07-30 一种基于多维度语义交互表征模型的对话意图识别方法及系统 Active CN111625641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010752264.8A CN111625641B (zh) 2020-07-30 2020-07-30 一种基于多维度语义交互表征模型的对话意图识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010752264.8A CN111625641B (zh) 2020-07-30 2020-07-30 一种基于多维度语义交互表征模型的对话意图识别方法及系统

Publications (2)

Publication Number Publication Date
CN111625641A true CN111625641A (zh) 2020-09-04
CN111625641B CN111625641B (zh) 2020-12-01

Family

ID=72259591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010752264.8A Active CN111625641B (zh) 2020-07-30 2020-07-30 一种基于多维度语义交互表征模型的对话意图识别方法及系统

Country Status (1)

Country Link
CN (1) CN111625641B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112256857A (zh) * 2020-11-17 2021-01-22 北京邮电大学 一种基于图注意力机制的对话历史建模方法
CN112308370A (zh) * 2020-09-16 2021-02-02 湘潭大学 一种基于Transformer的面向思政课程的主观题自动评分技术
CN112380328A (zh) * 2020-11-11 2021-02-19 广州知图科技有限公司 一种安全应急响应机器人交互方法及系统
CN112417108A (zh) * 2020-10-26 2021-02-26 出门问问(苏州)信息科技有限公司 一种请求类型识别方法、装置和计算机可读存储介质
CN112417894A (zh) * 2020-12-10 2021-02-26 上海方立数码科技有限公司 一种基于多任务学习的对话意图识别方法及识别系统
CN112507696A (zh) * 2021-02-04 2021-03-16 湖南大学 基于全局注意力意图识别的人机交互导诊方法与系统
CN112988785A (zh) * 2021-05-10 2021-06-18 浙江大学 基于语言模型编码和多任务解码的sql转换方法及系统
CN113160886A (zh) * 2021-04-02 2021-07-23 山东大学 基于单细胞Hi-C数据的细胞类型预测系统
CN113268994A (zh) * 2021-07-16 2021-08-17 中国平安人寿保险股份有限公司 基于胶囊网络的意图识别方法及装置
CN113297364A (zh) * 2021-06-07 2021-08-24 吉林大学 一种面向对话系统中的自然语言理解方法及装置
CN113486669A (zh) * 2021-07-06 2021-10-08 上海市东方医院(同济大学附属东方医院) 应急救援输入语音的语义识别方法
CN113535918A (zh) * 2021-07-14 2021-10-22 梁晨 预训练对偶注意力神经网络语义推断对话检索方法及系统、检索设备、存储介质
CN113672718A (zh) * 2021-09-02 2021-11-19 杭州一知智能科技有限公司 基于特征匹配和领域自适应的对话意图识别方法及系统
CN113761106A (zh) * 2021-09-08 2021-12-07 上海快确信息科技有限公司 一种强化自注意力的债券交易意图识别系统
WO2022124624A1 (ko) * 2020-12-11 2022-06-16 주식회사 써로마인드 유사도 기반 객체 추적 방법 및 장치
CN114691852A (zh) * 2022-06-01 2022-07-01 阿里巴巴达摩院(杭州)科技有限公司 人机对话系统及方法
CN114722839A (zh) * 2022-06-01 2022-07-08 阿里巴巴达摩院(杭州)科技有限公司 人机协同对话交互系统及方法
CN115859999A (zh) * 2022-12-09 2023-03-28 河北尚云信息科技有限公司 意图识别方法、装置、电子设备及存储介质
CN116364072A (zh) * 2023-05-31 2023-06-30 北京师范大学 一种基于人工智能的教育信息监管方法
CN116450867A (zh) * 2023-06-15 2023-07-18 北京枫清科技有限公司 一种基于对比学习和大语言模型的图数据语义搜索方法
CN116483960A (zh) * 2023-03-30 2023-07-25 阿波罗智联(北京)科技有限公司 对话识别方法、装置、设备以及存储介质
CN116595148A (zh) * 2023-05-25 2023-08-15 北京快牛智营科技有限公司 一种利用大型语言模型实现对话流程的方法及系统
CN116662582A (zh) * 2023-08-01 2023-08-29 成都信通信息技术有限公司 基于自然语言的特定领域业务知识检索方法及检索装置
CN116758591A (zh) * 2023-08-18 2023-09-15 厦门瑞为信息技术有限公司 基于图像语义识别的场站特殊旅客识别和交互系统及方法
CN117235629A (zh) * 2023-11-15 2023-12-15 中邮消费金融有限公司 一种基于知识域检测的意图识别方法、系统及计算机设备
WO2024072026A1 (en) * 2022-09-27 2024-04-04 Samsung Electronics Co., Ltd. Method performed by an electronic device, electronic device and computer-readable storage media

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543722A (zh) * 2018-11-05 2019-03-29 中山大学 一种基于情感分析模型的情感趋势预测方法
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110390107A (zh) * 2019-07-26 2019-10-29 腾讯科技(深圳)有限公司 基于人工智能的下文关系检测方法、装置及计算机设备
CN110928997A (zh) * 2019-12-04 2020-03-27 北京文思海辉金信软件有限公司 意图识别方法、装置、电子设备及可读存储介质
CN111046132A (zh) * 2019-10-25 2020-04-21 众安信息技术服务有限公司 一种检索多轮对话的客服问答处理方法及其系统
CN111259625A (zh) * 2020-01-16 2020-06-09 平安科技(深圳)有限公司 意图识别方法、装置、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543722A (zh) * 2018-11-05 2019-03-29 中山大学 一种基于情感分析模型的情感趋势预测方法
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110390107A (zh) * 2019-07-26 2019-10-29 腾讯科技(深圳)有限公司 基于人工智能的下文关系检测方法、装置及计算机设备
CN111046132A (zh) * 2019-10-25 2020-04-21 众安信息技术服务有限公司 一种检索多轮对话的客服问答处理方法及其系统
CN110928997A (zh) * 2019-12-04 2020-03-27 北京文思海辉金信软件有限公司 意图识别方法、装置、电子设备及可读存储介质
CN111259625A (zh) * 2020-01-16 2020-06-09 平安科技(深圳)有限公司 意图识别方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱嘉琪: "讯问笔录相似问答对的匹配算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308370B (zh) * 2020-09-16 2024-03-05 湘潭大学 一种基于Transformer的面向思政课程的主观题自动评分方法
CN112308370A (zh) * 2020-09-16 2021-02-02 湘潭大学 一种基于Transformer的面向思政课程的主观题自动评分技术
CN112417108B (zh) * 2020-10-26 2024-04-05 出门问问创新科技有限公司 一种请求类型识别方法、装置和计算机可读存储介质
CN112417108A (zh) * 2020-10-26 2021-02-26 出门问问(苏州)信息科技有限公司 一种请求类型识别方法、装置和计算机可读存储介质
CN112380328A (zh) * 2020-11-11 2021-02-19 广州知图科技有限公司 一种安全应急响应机器人交互方法及系统
CN112380328B (zh) * 2020-11-11 2024-02-06 广州知图科技有限公司 一种安全应急响应机器人交互方法及系统
CN112256857A (zh) * 2020-11-17 2021-01-22 北京邮电大学 一种基于图注意力机制的对话历史建模方法
CN112256857B (zh) * 2020-11-17 2023-02-03 北京邮电大学 一种基于图注意力机制的对话历史建模方法
CN112417894A (zh) * 2020-12-10 2021-02-26 上海方立数码科技有限公司 一种基于多任务学习的对话意图识别方法及识别系统
WO2022124624A1 (ko) * 2020-12-11 2022-06-16 주식회사 써로마인드 유사도 기반 객체 추적 방법 및 장치
CN112507696A (zh) * 2021-02-04 2021-03-16 湖南大学 基于全局注意力意图识别的人机交互导诊方法与系统
CN112507696B (zh) * 2021-02-04 2021-04-20 湖南大学 基于全局注意力意图识别的人机交互导诊方法与系统
CN113160886A (zh) * 2021-04-02 2021-07-23 山东大学 基于单细胞Hi-C数据的细胞类型预测系统
CN112988785A (zh) * 2021-05-10 2021-06-18 浙江大学 基于语言模型编码和多任务解码的sql转换方法及系统
CN113297364A (zh) * 2021-06-07 2021-08-24 吉林大学 一种面向对话系统中的自然语言理解方法及装置
CN113486669A (zh) * 2021-07-06 2021-10-08 上海市东方医院(同济大学附属东方医院) 应急救援输入语音的语义识别方法
CN113486669B (zh) * 2021-07-06 2024-03-29 上海市东方医院(同济大学附属东方医院) 应急救援输入语音的语义识别方法
CN113535918A (zh) * 2021-07-14 2021-10-22 梁晨 预训练对偶注意力神经网络语义推断对话检索方法及系统、检索设备、存储介质
CN113268994B (zh) * 2021-07-16 2021-10-01 中国平安人寿保险股份有限公司 基于胶囊网络的意图识别方法及装置
CN113268994A (zh) * 2021-07-16 2021-08-17 中国平安人寿保险股份有限公司 基于胶囊网络的意图识别方法及装置
CN113672718B (zh) * 2021-09-02 2024-04-05 杭州一知智能科技有限公司 基于特征匹配和领域自适应的对话意图识别方法及系统
CN113672718A (zh) * 2021-09-02 2021-11-19 杭州一知智能科技有限公司 基于特征匹配和领域自适应的对话意图识别方法及系统
CN113761106A (zh) * 2021-09-08 2021-12-07 上海快确信息科技有限公司 一种强化自注意力的债券交易意图识别系统
CN114691852B (zh) * 2022-06-01 2022-08-12 阿里巴巴达摩院(杭州)科技有限公司 人机对话系统及方法
CN114722839A (zh) * 2022-06-01 2022-07-08 阿里巴巴达摩院(杭州)科技有限公司 人机协同对话交互系统及方法
CN114691852A (zh) * 2022-06-01 2022-07-01 阿里巴巴达摩院(杭州)科技有限公司 人机对话系统及方法
WO2024072026A1 (en) * 2022-09-27 2024-04-04 Samsung Electronics Co., Ltd. Method performed by an electronic device, electronic device and computer-readable storage media
CN115859999B (zh) * 2022-12-09 2023-07-07 河北尚云信息科技有限公司 意图识别方法、装置、电子设备及存储介质
CN115859999A (zh) * 2022-12-09 2023-03-28 河北尚云信息科技有限公司 意图识别方法、装置、电子设备及存储介质
CN116483960A (zh) * 2023-03-30 2023-07-25 阿波罗智联(北京)科技有限公司 对话识别方法、装置、设备以及存储介质
CN116483960B (zh) * 2023-03-30 2024-01-02 阿波罗智联(北京)科技有限公司 对话识别方法、装置、设备以及存储介质
CN116595148B (zh) * 2023-05-25 2023-12-29 北京快牛智营科技有限公司 一种利用大型语言模型实现对话流程的方法及系统
CN116595148A (zh) * 2023-05-25 2023-08-15 北京快牛智营科技有限公司 一种利用大型语言模型实现对话流程的方法及系统
CN116364072A (zh) * 2023-05-31 2023-06-30 北京师范大学 一种基于人工智能的教育信息监管方法
CN116450867B (zh) * 2023-06-15 2023-08-18 北京枫清科技有限公司 一种基于对比学习和大语言模型的图数据语义搜索方法
CN116450867A (zh) * 2023-06-15 2023-07-18 北京枫清科技有限公司 一种基于对比学习和大语言模型的图数据语义搜索方法
CN116662582B (zh) * 2023-08-01 2023-10-10 成都信通信息技术有限公司 基于自然语言的特定领域业务知识检索方法及检索装置
CN116662582A (zh) * 2023-08-01 2023-08-29 成都信通信息技术有限公司 基于自然语言的特定领域业务知识检索方法及检索装置
CN116758591B (zh) * 2023-08-18 2023-11-21 厦门瑞为信息技术有限公司 基于图像语义识别的场站特殊旅客识别和交互系统及方法
CN116758591A (zh) * 2023-08-18 2023-09-15 厦门瑞为信息技术有限公司 基于图像语义识别的场站特殊旅客识别和交互系统及方法
CN117235629A (zh) * 2023-11-15 2023-12-15 中邮消费金融有限公司 一种基于知识域检测的意图识别方法、系统及计算机设备
CN117235629B (zh) * 2023-11-15 2024-04-12 中邮消费金融有限公司 一种基于知识域检测的意图识别方法、系统及计算机设备

Also Published As

Publication number Publication date
CN111625641B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN111625641B (zh) 一种基于多维度语义交互表征模型的对话意图识别方法及系统
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110781680B (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN112231447B (zh) 一种中文文档事件抽取的方法和系统
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN112269868B (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN111933127A (zh) 一种具备自学习能力的意图识别方法及意图识别系统
CN112650845B (zh) 一种基于bert与知识表示学习的问答系统及方法
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN114818703B (zh) 基于BERT语言模型和TextCNN模型的多意图识别方法及系统
CN112052319B (zh) 一种基于多特征融合的智能客服方法及系统
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN115563290B (zh) 一种基于语境建模的智能情感识别方法
CN113239690A (zh) 基于Bert与全连接神经网络融合的中文文本意图识别方法
CN115292461A (zh) 基于语音识别的人机交互学习方法及系统
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN114648016A (zh) 一种基于事件要素交互与标签语义增强的事件论元抽取方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN114003700A (zh) 一种对话信息的处理方法、系统、电子设备及存储介质
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113011196A (zh) 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN117131877A (zh) 一种基于对比学习的文本检测方法及系统
CN114637852B (zh) 医学文本的实体关系抽取方法、装置、设备及存储介质
CN115376547A (zh) 发音评测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant