CN112148874A

CN112148874A - 可自动新增用户潜在意图的意图识别方法及系统

Info

Publication number: CN112148874A
Application number: CN202010647801.2A
Authority: CN
Inventors: 谭斌; 孙锐; 周兴发; 饶璐; 杨兰; 展华益
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-12-29

Abstract

本发明涉及自然语言处理技术领域，本发明旨在解决现有意图识别模型不能自动新增用户潜在意图，不能快速响应用户新增意图的识别需求的问题，提出一种可自动新增用户潜在意图的意图识别方法及系统，步骤包括：获取用户输入，识别得到候选意图，识别精度低于阈值时与用户进行交互，根据用户反馈信息得到“潜在意图训练样本”；对多个用户的“潜在意图训练样本”进行数据处理分析，发现并定义新增的意图种类标签，得到“用户新增意图语料库”，通过意图识别模型训练模块，训练新意图识别模型。本发明可实现自动新增用户潜在意图，使得重新训练得到的意图识别模型识别的准确率更高，满足用户的意图种类新增需求，提高用户满意度。

Description

可自动新增用户潜在意图的意图识别方法及系统

技术领域

本发明涉及自然语言处理技术领域，人工智能领域，数据分析以及人机交互技术领域，具体涉及一种可自动新增用户潜在意图的意图识别方法及系统。

背景技术

意图识别方法是一种根据文本语句，识别该文本的在限定领域内所属于哪种意图的识别方法。随着人工智能的高速发展，在各种领域下智能设备的应用越来越广，特别是与人交互的智能设备，需要通过用户的语音或文本指令，识别用户的意图并以向用户提供相应的服务。例如，用户向智能电视说到“我想看中国有嘻哈”，则识别出用户的意图是播放综艺节目中国有嘻哈，或者，用户向智能魔镜说出“今天天气怎么样”，则魔镜识别出用户的意图是咨询今天天气情况。现有技术中的意图识别方法，在限定的领域意图种类内拥有较高的识别率。如专利201811406805 .0中的方法，可以通过与用户交互标注的方式，对意图识别错误的样本进行标注，并利用这些样本重新训练意图识别模型，以提高识别率。

然而这类方法只能提高已有意图种类的识别率，如果用户所提需求不在已有意图种类，其识别率会很低。使用了意图识别方法或系统的产品，其意图种类往往是在产品开发时就固定好的，但是用户的真实需求是不断变化的，对于这类新增的意图种类需求，现有意图识别方法并不能及时发现并更新模型。另一方面，在当今社会，信息高速发展，每天都会新增很多词汇、概念和定义等全新知识。真实用户使用意图识别模型的过程中，往往会根据最新知识表述自己的需求，这些新知识很有可能会形成某个潜在的新意图需求，而现有意图识别方法也不能识别这些新意图种类，只会将新意图种类识别为已有意图种类之一来执行后续操作，这将降低识别率，并大大影响用户体验。而为了能识别这些新意图种类，需要专门人员进行持续更行维护升级，响应时间不够及时，且对于新意图种类的发现具有片面局限性。

针对相关技术中的伴随用户新知识的增加而自动新增用户潜在意图种类的需求，目前尚未提出有效的解决方案。

发明内容

本发明所要解决的技术问题是：提出一种可自动新增用户潜在意图的意图识别方法及系统，解决现有意图识别模型不能自动新增用户潜在意图，不能快速响应用户新增意图的识别需求的问题。这里所提到的“潜在意图”，指的是原转置或系统未包含或未支持的意图种类，或者是由于社会发展所新兴出现的意图种类。

本发明解决上述技术问题所采用的技术方案是：

可自动新增用户潜在意图的意图识别方法，其特征在于，其包括以下步骤：

步骤1、获取文本：

获取用户输入的多模态输入，并对所述多模态输入进行多模态输入转化，将其转化为文本；或者，直接获得用户输入的文本信息；

步骤2、初步意图识别：

将步骤1获取的文本，根据意图识别基础模型进行意图识别，得到候选意图，并计算识别精度。

步骤3、与用户进行交互标注：

将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户，接收用户通过多模态输入或文本输入的方式反馈的种类标签，并将原待识别文本和所述种类标签组成“潜在意图训练样本”；

步骤4、生成用户新增意图语料库：

对多个用户的“潜在意图训练样本”进行数据处理分析，发现原意图识别基础模型未包含的意图种类，并定义新增的意图种类标签，最终得到“用户新增意图语料库”；

步骤5、训练新意图识别模型：

将所述“用户新增意图语料库”添加至意图识别模型训练语料库，通过意图识别模型训练模块，训练新意图识别模型。

作为进一步优化，步骤2中，所述意图识别基础模型的构造方法包括：

根据任务要求，获得相关文本并进行标注，得到包含原始文本与意图主题词的训练样本，生成任务相关的训练语料库；使用训练语料库中的数据训练预先构建的神经网络结构，得到所述意图识别基础模型；

所述神经网络结构，根据任务性质需求不同，包括：

多层感知机以及其它变种等；

和/或，卷积神经网络结构以及其它变种等；

和/或，循环神经网络结构以及其它变种等。

作为进一步优化，步骤4中，所述对“潜在意图训练样本”进行数据处理分析，具体包括：

对样本进行过滤去重处理；

和/或，对样本里的标签进行重定义；

和/或，对样本里的标签进行同义词替换；

和/或，对样本里的标签进行TFIDF计算，筛选出排名靠前的标签；

和/或，对样本里的文本进行主题分析；

和/或，对样本里的文本进行聚类分析。

作为进一步优化，步骤5中，所述将“用户新增意图语料库”添加至意图识别模型训练语料库，具体包括：

将“用户新增意图语料库”内的样本直接添加进意图识别模型训练语料库；

或，将“用户新增意图语料库”内的样本按一定倍数添加进意图识别模型训练语料库；

或，将“用户新增意图语料库”内的样本通过人工选择的方式添加进意图识别模型训练语料库。

具体地，所述通过新意图识别模型生成子模块，训练新意图识别模型的步骤如下：

将训练数据集根据预设的意图种类标签进行分类，生成分类标签文本；

将训练数据集进行分词处理得到分词文本，对分词文本进行训练得到词向量，词向量向量化训练数据集得到词向量矩阵文本；

将分类标签文本和词向量矩阵文本输入到预先建立的神经网络模型中进行迭代训练得到意图识别模型。

此外，基于上述可自动新增用户潜在意图的意图识别方法，本发明还提供了一种可自动新增用户潜在意图的意图识别系统，其包括以下模块：

文本获取模块，用于获取文本，其方法至少包括获取用户输入的多模态输入，并对所述多模态输入进行多模态输入转化，将其转化为文本；或者，直接获得用户输入的文本信息；

意图识别与识别精度计算模块，用于将文本获取模块获取的文本，根据意图识别基础模型进行意图识别，得到候选意图，并计算识别精度；

潜在意图训练样本生成模块，用于将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户，接收用户通过多模态输入或文本输入的方式反馈的种类标签，并将原待识别文本和所述种类标签组成“潜在意图训练样本”；

用户新增意图语料库生成模块，用于将多个用户的“潜在意图训练样本”进行数据处理分析，发现原意图识别基础模型未包含的意图种类，并定义新增的意图种类标签，最终得到“用户新增意图语料库”；

新意图识别模型生成模块，用于将所述“用户新增意图语料库”添加至意图识别模型训练语料库，通过意图识别模型训练单元，训练生成新意图识别模型。

作为进一步优化，所述意图识别与识别精度计算模块的意图识别基础模型的构建方法包括：

所述神经网络结构，根据任务性质需求不同，包括：

多层感知机以及其它变种等；

和/或，卷积神经网络结构以及其它变种等；

和/或，循环神经网络结构以及其它变种等。

作为进一步优化，所述用户新增意图语料库生成模块，位于云端服务器，可以使用服务器内多个用户的“潜在意图训练样本”进行数据处理分析。

作为进一步优化，所述新意图识别模型生成模块，将“用户新增意图语料库”添加至意图识别模型训练语料库，具体方法包括：

将用户新增意图语料库内的样本直接添加到意图识别模型训练语料库；

或，将用户新增意图语料库内的样本按一定的倍数添加到意图识别模型训练语料库。

或，将用户新增意图语料库内的样本通过人工选择的方式添加进意图识别模型训练语料库。

作为进一步优化，所述新意图识别模型生成模块，其意图识别模型训练单元包括：

本发明的有益效果是：

本发明的可自动新增用户潜在意图的意图识别方法，包括：获取用户输入的多模态输入，并对所述多模态输入进行多模态输入转化，将其转化为文本；或者，直接获得用户输入的文本信息；将获取的文本，根据意图识别基础模型进行意图识别，得到候选意图，并计算识别精度。将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户，接收用户通过多模态输入或文本输入的方式反馈的种类标签，并将原待识别文本和所述种类标签组成“潜在意图训练样本”；对多个用户的“潜在意图训练样本”进行数据处理分析，发现原意图识别基础模型未包含的意图种类，并定义新增的意图种类标签，最终得到“用户新增意图语料库”；将“用户新增意图语料库”添加至意图识别模型训练语料库，通过意图识别模型训练模块，训练新意图识别模型。如此可实现自动新增用户潜在意图，使得重新训练得到的意图识别模型识别的准确率更高，也能更快的响应用户的意图种类新增需求，提高用户使用的满意度。

附图说明

图1为本发明的实施例1中的可自动新增用户潜在意图的意图识别方法的流程图；

图2为本发明的实施例2中的可自动新增用户潜在意图的意图识别系统的示意图。

具体实施方式

下面结合附图及实施例对本发明的方案作进一步的描述：

实施例1：

如图1所示，本实施例中的可可自动新增用户潜在意图的意图识别方法包括：

步骤1、获取文本：

步骤2、初步意图识别：

步骤3、与用户进行交互标注：

步骤4、生成用户新增意图语料库：

步骤5、训练新意图识别模型：

可选地，上述可自动新增用户潜在意图的意图识别方法可以但不限于应用于可自动新增用户潜在意图的智能设备的服务查询。例如：用户在智能电视中自动新增用户潜在意图的查询服务、用户在智能手机中自动新增用户潜在意图的查询服务等。

可选地，上述可自动新增用户潜在意图的意图识别方法可以但不限于应用于客户端和服务端。

在具体实现上，上述各个步骤流程实现方案如下：

步骤1中，获取用户输入的多模态输入，并对所述多模态输入进行多模态输入转化，将其转化为文本，或者是直接获得用户输入的文本输入。多模态输入可以是语音信息，语音信息可以通过执行该方法的客户端设备上配置的麦克风等声音传感器来接收，或者通过与客户端设备分离的模块接收。多模态输入转化为文本的方法是通过客户端设备自带的语音识别模块进行转化，或者通过云端的语音识别服务进行转化。

步骤2中，将上步获取的文本，根据意图识别基础模型进行意图识别，得到候选意图，并计算识别精度。所述意图识别基础模型是通过以下方式建立的：预先根据任务要求，获得相关文本并进行标注，得到包含原始文本与意图主题词的训练样本，生成任务相关的训练语料库；例如：“查询汇率：今天美元的汇率是多少”这是训练语料库里的一个样本，“查询汇率”表示文本所属的意图主题词，“今天美元的汇率是多少”是文本信息。使用训练语料库中的数据训练预先构建的神经网络结构，得到所述意图识别基础模型

具体地，所述的将训练语料库中的数据输入到预先建立的神经网络结构中进行多次训练，其中的神经网络结构，根据任务性质需求不同，包括：多层感知机以及其它变种等；卷积神经网络结构以及其它变种等；循环神经网络结构以及其它变种等。

步骤3中，将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户，接收用户通过多模态输入或文本输入的方式反馈的种类标签，并将原待识别文本和所述种类标签组成“潜在意图训练样本”；

具体地，所述的与用户的交互，其方式，包括：通过显示屏以文本的方式向用户展示反馈信息；或者是，通过语音设备以语音的方式向用户展示反馈信息。例如，用户的输入是“播放中国有嘻哈”，通过上步的初步意图识别，得到了其候选意图是“播放音乐”，通过计算识别精度，发现识别精度低于阈值，将原待识别文本“播放中国有嘻哈”和“标注请求”发送给用户，用户通过多模态输入或文本输入的方式将标注种类标签“看综艺节目”反馈回来，形成“看综艺节目：播放中国有嘻哈”这样的一条“潜在意图训练样本”，此时用户完成了一次潜在意图的训练语料的交互标注。

步骤4中，对多个用户的“潜在意图训练样本”进行数据处理分析，发现原意图识别基础模型未包含的意图种类，并定义新增的意图种类标签，最终得到“用户新增意图语料库”。

具体地，所述的对“潜在意图训练样本”进行数据处理分析，具体包括：对样本进行过滤去重处理；和/或，对样本里的标签进行重定义；和/或，对样本里的标签进行同义词替换；和/或，对样本里的标签进行TFIDF计算，筛选出排名靠前的标签；和/或，对样本里的文本进行主题分析；和/或，对样本里的文本进行聚类分析。

步骤5中，将所述“用户新增意图语料库”添加至意图识别模型训练语料库，通过意图识别模型训练子模块，训练新意图识别模型。

具体地，所述的将“用户新增意图语料库”添加至意图识别模型训练语料库，包括：将“用户新增意图语料库”内的样本直接添加进意图识别模型训练语料库；或，将“用户新增意图语料库”内的样本按一定倍数添加进意图识别模型训练语料库；或，将“用户新增意图语料库”内的样本通过人工选择的方式添加进意图识别模型训练语料库。

实施例2：

如图2所示，本实施例中的可可自动新增用户潜在意图的意图识别系统包括：

作为方案的进一步优化，所述意图识别与识别精度计算模块的意图识别基础模型的构建方法包括：

根据任务要求，获得相关文本并进行标注，得到包含原始文本与意图主题词的训练样本，生成任务相关的训练语料库；使用训练语料库中的数据训练预先构建的神经网络结构，得到所述意图识别基础模型；所述神经网络结构，根据任务性质需求不同，包括：多层感知机以及其它变种等；和/或，卷积神经网络结构以及其它变种等；和/或，循环神经网络结构以及其它变种等。

作为方案的进一步优化，所述用户新增意图语料库生成模块位于云端服务器，可以使用服务器内多个用户的“潜在意图训练样本”进行数据处理分析。

作为方案的进一步优化，所述新意图识别模型生成模块，其意图识别模型训练单元包括：

作为方案的进一步优化，所述新意图识别模型生成模块，将“用户新增意图语料库”添加至意图识别模型训练语料库，具体方法包括：

将用户新增意图语料库内的样本直接添加到意图识别模型训练语料库；或，将用户新增意图语料库内的样本按一定的倍数添加到意图识别模型训练语料库；或，将用户新增意图语料库内的样本通过人工选择的方式添加进意图识别模型训练语料库。

Claims

1.可自动新增用户潜在意图的意图识别方法，其特征在于包括以下步骤：

步骤1.获取文本：获取用户的多模态输入，并将所述多模态输入转化为文本信息；或者，直接获取用户输入的文本信息；

步骤2.初步意图识别：将步骤1获取的文本，输入意图识别基础模型进行意图识别，得到候选意图，并计算识别精度；

步骤3.与用户进行交互标注：将识别精度低于阈值时的原待识别文本和“标注请求”发送给用户，接收用户通过多模态输入或文本输入的方式反馈的种类标签，并将原待识别文本和所述种类标签组成“潜在意图训练样本”；

步骤4.生成用户新增意图语料库：对多个用户的“潜在意图训练样本”进行数据处理分析，发现原意图识别基础模型未包含的意图种类，并定义新增的意图种类标签，最终得到“用户新增意图语料库”；

步骤5.训练新意图识别模型：将所述“用户新增意图语料库”添加至意图识别模型训练语料库，通过意图识别模型训练子模块，训练得到新意图识别模型。

2.如权利要求1所述的可自动新增用户潜在意图的意图识别方法，其特征在于，步骤2中，所述意图识别基础模型的构造方法包括：根据任务要求，获得相关文本并进行标注，得到包含原始文本与意图主题词的训练样本，生成任务相关的训练语料库；使用训练语料库中的数据训练预先构建的神经网络结构，得到所述意图识别基础模型。

3.如权利要求2所述的可自动新增用户潜在意图的意图识别方法，其特征在于，所述神经网络结构，根据任务性质需求不同，至少包括如下结构中的一种：

多层感知机及其变种；

卷积神经网络结构及其变种；

循环神经网络结构及其变种。

4.如权利要求1所述的可自动新增用户潜在意图的意图识别方法，其特征在于，步骤4中，所述对“潜在意图训练样本”进行数据处理分析，至少包括如下步骤中的一个：

对样本进行过滤去重处理；

对样本里的标签进行重定义；

对样本里的标签进行同义词替换；

对样本里的标签进行TFIDF计算，筛选出排名靠前的标签；

对样本里的文本进行主题分析；

对样本里的文本进行聚类分析。

5.如权利要求1所述的可自动新增用户潜在意图的意图识别方法，其特征在于，步骤5中，所述将“用户新增意图语料库”添加至意图识别模型训练语料库，具体为如下步骤中的一个：

将“用户新增意图语料库”内的样本按一定倍数添加进意图识别模型训练语料库；

将“用户新增意图语料库”内的样本通过人工选择的方式添加进意图识别模型训练语料库。

6.如权利要求1所述的可自动新增用户潜在意图的意图识别系统，其特征在于，步骤5中所述通过意图识别模型训练子模块，训练得到新意图识别模型包括如下步骤：

a.将训练数据集根据预设的意图种类标签进行分类，生成分类标签文本；

b.将训练数据集进行分词处理得到分词文本，对分词文本进行训练得到词向量，词向量向量化训练数据集得到词向量矩阵文本；

c.将分类标签文本和词向量矩阵文本输入到预先建立的神经网络模型中进行迭代训练得到意图识别模型。

7.可自动新增用户潜在意图的意图识别系统，其特征在于，其包括以下模块：

文本获取模块，用于获取用户的多模态输入，并将所述多模态输入转化为文本信息，或者，直接获取用户输入的文本信息；

新意图识别模型生成模块，用于将所述“用户新增意图语料库”添加至意图识别模型训练语料库，通过意图识别模型训练子模块，训练生成新意图识别模型。