CN111898014B

CN111898014B - 一种面向认知服务的用户意图识别方法及系统

Info

Publication number: CN111898014B
Application number: CN202010808728.2A
Authority: CN
Inventors: 涂志莹; 张柏林; 杭少石; 初佃辉
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2021-07-13
Anticipated expiration: 2040-08-12
Also published as: CN111898014A; WO2022033073A1

Abstract

本发明公开了一种面向认知服务的用户意图识别方法及系统，所述方法包括如下步骤：步骤S1、收集并标注大规模语料库；步骤S2、挖掘概念共现模式；步骤S3、构建概念共现增强语义模型；步骤S4、实施意图识别方案。本发明提出了医疗查询文本中存在“概念共现模式”这一概念，从医疗查询记录中挖掘频繁共现模式并利用这种共现模式进行用户意图识别，揭示了概念共现与用户意图的潜在关联，并揭示了它们对多意图和隐式意图识别问题的重大影响。本发明充分考虑到了用户查询文本表达的复杂性和模糊性，从语义特征和概念共现特征两个维度进行特征提取用于意图识别，解决多意图和隐式意图等复杂意图识别问题并在多意图识别问题上具备良好的迁移性。

Description

一种面向认知服务的用户意图识别方法及系统

技术领域

本发明属于计算机服务技术领域，涉及一种面向认知服务的用户意图识别方法及系统，具体涉及一种基于概念共现增强语义模型的意图识别方法及系统。

背景技术

认知服务是人与机器之间的桥梁，广泛应用于问答系统、人机对话系统和智能终端。用户意图识别近年来作为认知服务的一个重要模块得到了广泛的研究。但大多数研究都是在简单的生活场景中进行的。通常，用户的陈述是简单明了的。与常规应用场景不同，在医学查询领域存在许多隐式意图和多意图的场景，不同意图类别的单词往往在医学相关的查询语句中共同出现。传统的用户意图识别模型没有足够的能力来处理复杂的场景。

随着对医疗在线问答需求的不断增长，从不同的用户表达中识别其真实意图变得尤为重要。用户意图识别的目标就是对给定的查询文本选定一个意图类别，本质上是一种文本分类任务。目前的解决方案主要包括神经网络文本分类和意图识别与槽位填充联合学习这两种技术。诸如CNN和RNN等神经网络模型被用于自然语言文本的分类任务，并且表现良好。这类技术可以在网络中很好地学习到来自不同领域用户问句的向量表示。然而，由于模糊表达，难以在与医学相同的领域中精确区分用户的意图。此外，在一个医学查询中通常存在多种意图和隐式意图，这给句子建模带来了挑战。另一方面，意图识别与槽位填充的联合学习模型近年来变得越来越流行，将意图识别的分类任务和槽位填充的序列标记任务相结合，减少了错误传播的影响。但是特定的槽位仅能为不同领域的意图识别贡献有效特征，因为在不同领域下槽位的重叠情况较少，比如在生活-音乐领域，针对“添加歌单”这一用户意图，往往用户的描述语句中会出现“歌手”、“歌单名称”和“音乐名称”，而在生活-天气领域，针对“查询天气”这一用户意图，会伴随出现“日期”、“时间”、“地点”等槽位，这些槽位具有显著的领域性，有助于区分“添加歌单”和“查询天气”这两类意图。然而对于用户表达较为复杂的医疗领域，用户意图的划分粒度较细，经常会出重复的槽位概念如“疾病”、“症状”、“身体部位”，这些高度重复的槽位并不能为用户意图识别提供有效特征。而且，联合学习的方法从模型设计上也仅适用于单意图的识别，对于多意图和隐式意图并不适配。

在医疗查询文本中，虽然用户的表达方式多样，单意图和复杂意图场景交织出现，但这些文本都具备一种概念共现模式。对于一个医疗查询文本，我们可以标注出其中涉及到的医学概念如“症状”、“疾病”、“药物”、“医疗科室”，这些概念都是由文本中所具体出现的命名实体如“高血压”、“胸闷”或隐式抽象表达如“哪个科室”、“什么药物”作为载体。这些概念之间会随着用户查询文本的积累而出现共现模式，这种共现模式能够指导多意图识别和隐式意图推断。

基于上述研究背景可以发现，医疗领域的查询文本虽然表达形式多样，但普遍存在一种概念共现模式。

发明内容

为了解决现有技术中存在的以上问题，本发明提供了一种面向认知服务的用户意图识别方法及系统。本发明提出了一种新型神经网络结构Conco-ERNIE，使用概念共现模式来增强预训练语义模型ERNIE的文本表示能力。本发明设计了一种基于Apriori算法的模式挖掘解决方案，并基于Node2Vec计算意图概念的向量表示。Conco-ERNIE通过注意力模块聚合文本语义特征和概念共现模式特征，可以捕获用户的复杂显示意图并预测用户的隐式意图。

本发明的目的是通过以下技术方案实现的：

一种面向认知服务的用户意图识别方法，包括如下步骤：

步骤S1、收集并标注大规模语料库：

(1)在常见的在线医疗问答网站上爬取医疗查询文本并进行数据清洗，人工筛选高质量的语料；

(2)对于医疗查询文本，人工标注出其中的已知概念和意图概念，二者共同构成概念事务，基于该语料库标注结果构建概念事务集；

步骤S2、挖掘概念共现模式：

利用Apriori算法从步骤S1构建的概念事务集中挖掘已知概念与意图概念之间的关联规则，得到医疗查询文本中的概念共现模式，具体步骤如下：

(1)将概念共现模式的挖掘问题转化为从概念事务集中挖掘支持度和置信度高于人工设定阈值的共现模式；

(2)将概念共现模式形式转化为无向图结构；

(3)利用图嵌入的学习方法Node2vec进行概念向量的学习，使得具备共现关系和共现强度较高的概念在向量空间中更相近；

步骤S3、构建概念共现增强语义模型：

利用ERNIE的预训练模型挖掘医疗查询文本中的语义特征，结合步骤S2得到的概念关联规则特征构建概念共现增强语义模型，所述概念共现增强语义模型包括概念标注模块、编码模块、注意力机制模块、意图识别模块，其中：

概念标注模块使用ERNIE和条件随机场组成的神经网络对查询文本自动标注概念标签，得到文本中用户提及的已知概念并采用独热编码的方式得到概念特征向量；

编码模块使用ERNIE通过自注意力机制捕获查询文本的上下文信息，由此生成低维稠密的文本语义特征向量；

注意力机制模块使用文本语义特征向量和概念特征向量以向量点乘的方式计算文本中不同概念对所属意图的贡献度；

意图识别模块对文本语义特征向量和概念共现特征向量进行连接操作得到用于意图识别的联合特征，使用激活函数对联合特征进行计算，得到每种意图的发生概率，从而完成多意图、单意图和隐式意图的识别；

概念标注模块和编码模块是同级的，它们的输出是注意力机制模块的输入，注意力机制模块的输出是意图识别模块的输入，即：概念标注模块和编码模块的输出端与注意力机制模块的输入端相连，注意力机制模块的输出端与意图识别模块的输入端相连；

概念共现增强语义模型的具体构建步骤如下：

(1)将医疗查询文本输入到编码模块，经过Tokenizer分词器的切分后，使用Transformer进行编码得到文本的语义特征；

(2)同时将医疗查询文本传递给概念标注模块来提取文本中的已知概念，并通过查询向量表即概念共现图向量矩阵，得到已知概念的向量表示；

(3)将步骤(1)、(2)中得到的语义特征和概念共现特征输入到注意力机制模块中来提升特征表示的性能；

(4)将经过步骤(3)提升后的两类特征进行向量连接操作，共同输入到最后的意图识别模块进行用户意图识别；

步骤S4、实施意图识别方案：

基于步骤S1得到的真实的医疗查询语料库，对步骤S3所构建的概念共现增强语义模型进行训练，通过参数调优选择出效果最好的模型，并将其进行线上部署，暴露成Web服务接口供服务使用者调用。

一种实现上述面向认知服务的用户意图识别方法的系统，其结构框图如图1所示，包括概念共现增强语义模块、语料收集和分析模块和概念共现模式挖掘模块，其中：

所述概念共现增强语义模块负责从医疗查询语句中提取出文本语义向量和已知概念向量，使用注意力机制计算文本中不同概念的贡献度，从而对给定的用户查询文本，计算出正确的用户意图分类结果；

所述语料收集和分析模块负责在医疗问答网站中爬取高质量查询文本并进行文本清洗和概念共现模式标注；

所述概念共现模式挖掘模块负责从构建的概念事务集中挖掘已知概念与意图概念之间的关联规则。

相比于现有技术，本发明具有如下优点：

1、本发明提出了医疗查询文本中存在“概念共现模式”这一概念，从医疗查询记录中挖掘频繁共现模式并利用这种共现模式进行用户意图识别，揭示了概念共现与用户意图的潜在关联，并揭示了它们对多意图和隐式意图识别问题的重大影响。

2、本发明提供了一系列方法来挖掘和使用概念共现模式，包括：

(1)一种构建概念事务集的机制；

(2)基于Apriori算法来挖掘集合中的共现模式；

(3)基于图嵌入的方法以获得概念图的向量嵌入表示。

3、本发明提出了一种新颖的神经网络模型Conco-ERNIE，以识别医疗查询文本的用户意图。Conco-ERNIE对具有语义特征和概念共现特征的文本进行建模，并采用注意机制来提高特征的性能。

4、本发明充分考虑到了用户查询文本表达的复杂性和模糊性，从语义特征和概念共现特征两个维度进行特征提取用于意图识别，解决多意图和隐式意图等复杂意图识别问题并在多意图识别问题上具备良好的迁移性。

附图说明

图1为本发明的向认知服务的用户意图识别方法的系统框架图；

图2为本发明的面向认知服务的用户意图识别方法流程图；

图3为概念共现模式示例图；

图4为概念共现图向量学习算法流程图；

图5为注意力网络结构图；

图6为概念共现增强语义模型网络结构图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

本发明提供一种面向认知服务的用户意图识别方法，如图2所示，所述方法包括以下步骤：

步骤S1、收集并标注大规模语料库。

本步骤主要是通过爬虫收集在线医疗问答网站中意图不同、长短不一、表达方式复杂多样的查询文本，以此来更好地模拟实际应用中用户表达模糊复杂的场景。上述文本经过清洗和标注后整理成语料库，基于该语料库构建概念事务集，供模型训练使用。为了标注上述文本，首先要将医疗领域常见概念分为已知概念和意图概念两大类。其中已知概念是出现在查询文本中用户提及的命名实体，包括疾病、症状、药物、手术、医疗科室、食物、运动、康复疗法、检查项目和身体部位。通过对大量数据的进行标注并总结了常用意图分类，包括疾病、症状、并发症、药物、用药指南、手术、医疗科室、建议食物、禁忌食物、建议运动、禁忌运动、康复疗法、治疗方案、检查项目、简介、预防措施、治疗价格、诊断、病因、治愈率和治疗时间共21中意图概念。医疗查询文本经过标注后，已知概念和意图概念的共存关系揭示了概念共现模式，具体示例如图3所示。

步骤S2、挖掘概念共现模式。

本步骤需要针对步骤S1中收集并标注后的数据，构建概念事务集，在该事务集进行概念共现模式挖掘。医疗查询文本中出现的已知概念和意图概念共同构成了概念事务集。利用Apriori算法从构建的概念事务集中挖掘已知概念与意图概念之间的关联规则，该概念关联规则即为概念共现模式。

挖掘概念共现模式，需要计算其支持度和置信度。概念项的支持度表示概念项在概念事务集合中出现的频率，支持度越高，表明该概念项集出现越频繁。给定已知概念A和意图概念B，置信度表示共现模式{A→B}出现的概率，置信度越高表明该共现模式出现的机会越高。进行频繁2-概念项集及其共现模式的挖掘后，将概念共现模式形式化为图结构，再利用图嵌入的学习方法Node2vec，进行概念向量的学习，具体的流程图如图4所示。

步骤S3、构建概念共现增强语义模型。

步骤S2得到的概念共现模式反映了医疗查询文本中的概念关联规则特征，基于ERNIE的预训练模型挖掘了文本中的语义特征，这两类特征分别从抽象概念和具体语义两个维度描述了用户意图的特征。同时利用概念共现特征与语义特征进行概念共现增强语义模型的构建。模型主要包括：

(1)概念标注模块：在数据预处理阶段，所有的医疗查询文本将被预训练的概念标注器自动标注概念标签，本文将使用ERNIE和条件随机场组成的神经网络在自构建的数据上训练得到概念标注器；

(2)编码模块：输入的查询文本将首先被ERNIE的分词器进行切分，之后Transformer编码器将通过自注意力机制捕获文本的上下文信息并生成上下文向量，与此同时概念标注器提取了文本中的概念序列，从而得到文本语义向量和已知概念向量；

(3)注意力机制模块：设计一种注意力机制网络用于计算文本中不同概念对所属意图的贡献度，具体结构如图5所示；

(4)意图识别模块：将意图分类问题分为两类：1)多分类问题，即用户的查询文本中只包含一种意图，但意图分类标签有多个，单意图识别就是多分类问题。2)多标签分类问题，即意图分类标签有多个且用户的查询文本中又包含多种意图，多意图识别和隐式意图识别就是多标签分类问题。

基于上述模块构建出概念共现增强语义模型Conco-ERNIE进行意图识别，具体的模型结构如图6所示。

步骤S4、实施意图识别方案。

本步骤主要是对步骤S3所构建的概念共现增强语义模型基于步骤S1得到的真实的医疗查询语料库进行训练。通过参数调优选择出效果最好的模型，并将其进行线上部署，暴露成Web服务接口供服务使用者调用。

实施例：

如图2所示，当用户的表述为“头疼脑热，去医院看病应该挂哪个科室？”，用户提及的“症状”概念(头疼脑热)为关联规则特征，用户的文本表述为语义特征。同时使用这两个特征对用户意图进行判断，得到用户的意图概念为“医疗科室”。当用户的表述为“我最近头疼脑热，身体不太舒服”时，根据步骤2挖掘出的概念共现模式，发现用户提及的“症状”概念与“疾病”的关联性最大，同时结合用户表述的文本语义特征，得到用户的隐式意图为“疾病”，也即用户可能想问自己得了什么病。

Claims

1.一种面向认知服务的用户意图识别方法，其特征在于所述方法包括如下步骤：

步骤S1、收集并标注大规模语料库：

步骤S2、挖掘概念共现模式：

利用Apriori算法从步骤S1构建的概念事务集中挖掘已知概念与意图概念之间的关联规则，得到医疗查询文本中的概念共现模式；

步骤S3、构建概念共现增强语义模型：

概念标注模块和编码模块的输出端与注意力机制模块的输入端相连，注意力机制模块的输出端与意图识别模块的输入端相连；

步骤S4、实施意图识别方案：

2.根据权利要求1所述的面向认知服务的用户意图识别方法，其特征在于所述步骤S2的具体步骤如下：

(2)将概念共现模式形式转化为无向图结构；

(3)利用图嵌入的学习方法Node2vec进行概念向量的学习，使得具备共现关系和共现强度较高的概念在向量空间中更相近。

3.根据权利要求1所述的面向认知服务的用户意图识别方法，其特征在于所述概念共现增强语义模型的具体构建步骤如下：

(3)将步骤(1)、(2)中得到的语义特征和已知概念的向量表示输入到注意力机制模块中来提升特征表示的性能；

(4)将经过步骤(3)提升后的两类特征进行向量连接操作，共同输入到最后的意图识别模块进行用户意图识别。

4.一种实现权利要求1-3任一项所述面向认知服务的用户意图识别方法的系统，其特征在于所述系统包括概念共现增强语义模块、语料收集和分析模块和概念共现模式挖掘模块，其中：