CN112417121A

CN112417121A - 客户意图识别方法、装置、计算机设备及存储介质

Info

Publication number: CN112417121A
Application number: CN202011310564.7A
Authority: CN
Inventors: 孙向欣
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26

Abstract

本申请实施例属于人工智能领域，应用于智慧医疗领域中，涉及一种客户意图识别方法、装置、计算机设备及存储介质，包括对接收的历史AI问询语料进行聚类并筛选，获得问询学习类；基于问询学习类建立分类训练语料，训练预设问询分类模型，获得训练后的问询分类模型；基于问询学习类和接收的历史客户回答语料建立识别训练语料，训练预设意图识别模型，获得训练后的意图识别模型；将接收的待识别AI问询语料输入训练后的问询分类模型中，获得语料分类，将语料分类和接收的待识别客户回答语料输入训练后的意图识别模型中，获得客户意图。训练后的意图识别模型和问询分类模型可存储于区块链中。本申请有效避免待识别AI问询语料影响意图识别模型的准确率。

Description

客户意图识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及客户意图识别方法、装置、计算机设备及存储介质。

背景技术

人工智能问答对话有效的节约了人力，在计算机与人类智能对话的过程中，通过对客户进行意图识别，来实现更加准确的判断客户的需求，进而才能够实现流畅准确的对话。

目前，为了准确理解客户的意图，大多数是采用将人机对话直接作为训练样本来训练模型，但是这种方式要求计算机的问询语料相对固定。因为计算机的询问一旦改变，则会引起客户回答大幅度改变，进而导致计算机难以实现识别客户意图。然而实际生产需要中，却要实时修改和扩充计算机的问询语料。

现今本领域常用的方式为简化场景，降低模型对客户意图识别准确率的要求。但是这种方式无法实现在可以实时修改问询语料的同时，保持较高的客户意图识别准确率。

发明内容

本申请实施例的目的在于提出一种客户意图识别方法、装置、计算机设备及存储介质，有效避免待识别AI问询语料影响意图识别模型的准确率。

为了解决上述技术问题，本申请实施例提供一种客户意图识别方法，采用了如下所述的技术方案：

一种客户意图识别方法，包括下述步骤：

接收历史AI问询语料和历史客户回答语料，基于预设的无监督聚类算法对所述历史AI问询语料进行聚类，获得多个类别，并从所述多个类别中筛选出预设个数的类别作为问询学习类，其中，所述历史AI问询语料和历史客户回答语料具有一一映射关系；

基于所述问询学习类和对应的所述历史AI问询语料建立分类训练语料，并基于所述分类训练语料训练预设的问询分类模型，获得训练后的问询分类模型；

确定所述问询学习类对应的所述历史AI问询语料，基于所述历史AI问询语料确定对应的所述历史客户回答语料，基于所述问询学习类和所述历史客户回答语料建立识别训练语料；

基于所述模型训练语料训练预设的意图识别模型，获得训练后的意图识别模型；

接收待识别AI问询语料和待识别客户回答语料，将所述待识别AI问询语料输入至所述训练后的问询分类模型中，获得语料分类，并将所述语料分类和待识别客户回答语料输入至训练后的意图识别模型中，获得客户意图。

进一步的，所述基于所述问询学习类和对应的所述历史AI问询语料建立分类训练语料的步骤包括：

确定所述问询学习类对应的预设的分类标识，其中，所述分类标识与所述问询学习类具有一一对应的映射关系；

将聚类后未与所述问询学习类对应的所述历史AI问询语料作为待分配语料；

基于所述分类标识对所述待分配语料进行标注；

将标注后的所述待分配语料分配至对应的问询学习类中；

基于所述问询学习类、聚类后所述问询学习类对应的所述历史AI问询语料以及分配至所述问询学习类中的历史AI问询语料建立所述分类训练语料。

进一步的，所述基于所述分类标识对所述待分配语料进行标注的步骤包括：

将所述分类标识输入至预先训练的word2vec模型中，获得所述分类标识中各词语对应的分类向量；

将所述待分配语料输入至预先训练的word2vec模型中，获得所述待分配语料中各词语对应的语料向量；

基于所述分类向量和所述语料向量，计算当前待分配语料中各词语与每个所述分类标识中各词语之间的相似度；

确定相似度超过预设阈值的词语个数；

将所述相似度超过预设阈值的词语个数最多的分类标识，作为当前所述待分配语料的标注；

基于所述分类向量和所述语料向量，计算下一个待分配语料中各词语与每个所述分类标识中各词语之间的相似度，直至完成所有待分配语料的标注。

进一步的，所述基于预设的无监督聚类算法对所述历史AI问询语料进行聚类，获得多个类别的步骤包括：

基于Canopy+KMeans聚类算法对所述历史AI问询语料进行聚类，获得多个类别。

进一步的，所述从所述多个类别中筛选出预设个数的类别作为问询学习类的步骤包括：

确定每个类别中的历史AI问询语料的数据量，对基于每个类别中的所述历史AI问询语料的数据量对所述类别进行降序排序，将前n个类别作为所述问询学习类，其中，n为所述预设个数。

将所述多个类别展示在预设的前端页面中，并向指定人员发送选择请求，其中，所述选择请求携带有所述预设个数；

当识别到所述指定人员在所述前端页面完成选择时，将所述指定人员选择的类别作为问询学习类。

进一步的，所述基于所述问询学习类和所述历史客户回答语料建立识别训练语料的步骤包括：

确定与所述问询学习类中的历史AI问询语料具有映射关系的所述历史客户回答语料；

将所述问询学习类和对应的所述历史客户回答语料展示在前端页面中，并向相关人员发送意图标注请求；

当识别到相关人员完成意图标注后，基于所述相关人员的意图标注生成意图标签；

将所述意图标签作为对应的所述问询学习类和所述历史客户回答语料的标签，生成所述识别训练语料。

为了解决上述技术问题，本申请实施例还提供一种客户意图识别装置，采用了如下所述的技术方案：

一种客户意图识别装置，包括：

聚类模块，用于接收历史AI问询语料和历史客户回答语料，基于预设的无监督聚类算法对所述历史AI问询语料进行聚类，获得多个类别，并从所述多个类别中筛选出预设个数的类别作为问询学习类，其中，所述历史AI问询语料和历史客户回答语料具有一一映射关系；

建立模块，用于基于所述问询学习类和对应的所述历史AI问询语料建立分类训练语料，并基于所述分类训练语料训练预设的问询分类模型，获得训练后的问询分类模型；

确定模块，用于确定所述问询学习类对应的所述历史AI问询语料，基于所述历史AI问询语料确定对应的所述历史客户回答语料，基于所述问询学习类和所述历史客户回答语料建立识别训练语料；

获得模块，用于基于所述模型训练语料训练预设的意图识别模型，获得训练后的意图识别模型；

输入模块，用于接收待识别AI问询语料和待识别客户回答语料，将所述待识别AI问询语料输入至所述训练后的问询分类模型中，获得语料分类，并将所述语料分类和待识别客户回答语料输入至训练后的意图识别模型中，获得客户意图。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述的客户意图识别方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的客户意图识别方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请通过基于聚类算法对历史AI问询语料进行聚类，获得多个类别，并从多个类别中筛选出问询学习类。基于所述问询学习类和对应的所述历史AI问询语料建立分类训练语料，并基于所述分类训练语料训练预设的问询分类模型。基于分类结果和历史客户回答语料训练意图识别模型，如此，可以实现意图识别模型的训练能够不直接基于历史AI问询语料，当对AI问询语料在问询学习类的框架下进行修改后，意图识别模型依然能够保持在一个较高的准确率，这样AI问询语料可以独立于模型进行更新。本申请能够支持实时修改、增加、删减AI问询语料的同时，保持意图识别的高准确率，对客户意图进行精准识别，从而保证了整个对话流程的准确性和流畅性，提升了用户体验，产生的客户意图可以供给下游业务进行使用。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的客户意图识别方法的一个实施例的流程图；

图3是根据本申请的客户意图识别装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

附图标记：200、计算机设备；201、存储器；202、处理器；203、网络接口；300、客户意图识别装置；301、聚类模块；302、建立模块；303、确定模块；304、获得模块；305、输入模块。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的客户意图识别方法一般由服务器/终端设备执行，相应地，客户意图识别装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的客户意图识别方法的一个实施例的流程图。所述的客户意图识别方法，包括以下步骤：

S1：接收历史AI问询语料和历史客户回答语料，基于预设的无监督聚类算法对所述历史AI问询语料进行聚类，获得多个类别，并从所述多个类别中筛选出预设个数的类别作为问询学习类，其中，所述历史AI问询语料和历史客户回答语料具有一一映射关系。

在本实施例中，接收历史语料，其中，历史语料包括历史AI问询语料和历史客户回答语料，并且，历史AI问询语料与历史客户回答语料具有一一映射关系，即一问一答，即不存在未回答的空语料。AI指Artificial Intelligence，即人工智能。本申请提出通过无监督聚类的机器学习方法生成问询学习类，便于后续模型的分类训练。且本申请的问询学习类不是人工设定的，而是机器基于历史AI问询语料自身聚类生成的，更加具有代表性，提升了后续分类的准确性。且本申请将历史语料区分为历史AI问询语料和历史客户回答语料，并且只针对历史AI问询学习类进行聚类，便于后续的多模型的识别过程。本申请中设置的预设个数为6个，即6个问询学习类，包括Q1至Q6。

需要说明的是：本申请的历史AI问询语料为当前人机对话中正在使用的AI问询语料。

在本实施例中，客户意图识别方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收历史AI问询语料和历史客户回答语料。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体的，所述基于预设的无监督聚类算法对所述历史AI问询语料进行聚类，获得多个类别的步骤包括：

在本实施例中，用无监督机器学习方法Canopy+KMeans算法，对历史AI问询语料进行聚类。影响Kmeans聚类算法结果的因素有距离阀值、初始簇的选择、遍历次数，其中距离阀值和遍历次数可通过不断测试来实现最佳，但是初始簇的选择如果是随机选择，每次运行的结果差别可能会很大，使用Canopy聚类算法用于K均值聚类算法的预处理，用来找合适的k值和簇中心效果较好。

在本实施例中，基于数据量选择出问询学习类。该类别所对应的历史AI问询语料较多，则未来的AI问询语料属于该类别概率较大。故将该类别作为问询学习类有利于实际应用中的分类。

此外，作为本申请的另一实施例，所述从所述多个类别中筛选出预设个数的类别作为问询学习类的步骤包括：

当识别到所述指定人员在所述前端页面完成选择时，将所述指定人员选择的类别作为所述问询学习类。

在本实施例中，指定人员基于预设的个数在前端页面进行选择。其中，本申请的指定人员在催收场景中为资深催收员。通过指定人员对类别进行选择确定问询学习类，减少计算机的处理过程，方便快捷。

S2：基于所述问询学习类和对应的所述历史AI问询语料建立分类训练语料，并基于所述分类训练语料训练预设的问询分类模型，获得训练后的问询分类模型。

在本实施例中，本申请采用BiLSTM方法进行有监督学习，建立问询分类模型。训练该模型的目的是，让模型学习AI问询语料的分类模式。BiLSTM(双向长短期记忆模型，Bi-directional Long Short-Term Memory)是由前向LSTM与后向LSTM组合而成。通过BiLSTM可以更好的捕捉双向的语义依赖。

具体的，所述基于所述问询学习类和对应的所述历史AI问询语料建立分类训练语料的步骤包括：

基于所述分类标识对所述待分配语料进行标注；

将标注后的所述待分配语料分配至对应的问询学习类中；

在本实施例中，分类标识(或可称为分类规则)与问询学习类具有一一对应的映射关系。通过分类标识对待分配语料进行标注，实现将待分配语料分类至聚类获得的问询学习类中，扩充后续的分类训练语料。其中，分类标识可以举例为：问询客户在当前时点，是否已经将应还账款存入规定账户。根据问询学习类对应的分类标识，业务人员可以业务人员可以在分类标识的框架下，根据实际需要自由实时地修改、增加、删除AI问询语料。例如，分类标识为：问询客户在当前时点，是否已经将应还账款存入规定账户时，增加的AI问询语料可以为：“XX先生，您好，您本月应还XXXX元，您这边已经存好了吗？”或“XX先生，您好，跟您说一下哈，您这边的欠款，本月存上了吗？”。根据分类标识，对历史AI问询语料进行问题分类标注，并分配至对应的问询学习类中。完成分配的历史AI问询语料、聚类后问询学习类对应的历史AI问询语料以及问询学习类生成分类训练语料，示例如下：

本申请的后续步骤还包括当接受到用户的语料修改请求时，将所述历史AI问询语料展示在前端页面中，并展示对应的分类标识，以使得用户可以在分类标识的框架下修改对应的历史AI问询语料，修改后的历史AI问询语料依然属于该分类标识所对应的类别，实现可以对AI问询语料的实时修改，而不会影响计算机的后续分类和意图识别。

其中，所述基于所述分类标识对所述待分配语料进行标注的步骤包括：

确定相似度超过预设阈值的词语个数；

在本实施例中，word2vec模型(词向量表征模型)可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。通过确定待分配语料与分类标识中相似度大于预设阈值的词语的个数，来决定作为当前待分配语料的标注的分类标识，避免了相似度较低的词语对标注的干扰，有效实现对待分配语料的标注。

当然，本申请也可以通过向指定用户发送分类标识分配请求，所述分类标识分配请求携带有分类标识，当识别到用户完成分配后，基于所述用户的分配对所述历史AI问询语料进行标注。

S3：确定所述问询学习类对应的所述历史AI问询语料，基于所述历史AI问询语料确定对应的所述历史客户回答语料，基于所述问询学习类和所述历史客户回答语料建立识别训练语料。

在本实施例中，本申请中后续意图识别模型训练不涉及具体的历史AI问询语料，而是基于历史AI问询语料的大类，即问询学习类(Q1-Q6)。将问询学习类和历史客户回答语料(以下简称QA对)作为模型的识别训练语料，可以在人员对后续AI问询语料进行修改时，不影响意图识别模型的作用，同时无需重新训练意图识别模型。

具体的，所述基于所述问询学习类和所述历史客户回答语料建立识别训练语料的步骤包括：

在本实施例中，将问询学习类和历史客户回答语料(以下简称QA对)作为模型的识别训练语料，其中，标注有对应的客户应答的意图标签。由于仅基于问询学习类或者历史客户回答语料无法确定客户的实际意图，需要同时通过将问询学习类和对应的所述历史客户回答语料同时展示在前端页面中，相关人员才能够进行意图标注。识别训练语料(即训练样本)举例如下所示：

根据以上样本训练的模型在生产上应用时，需要输入问询学习类和待识别的客户回答语料，模型会输出意图识别标签作为客户意图。

S4：基于所述模型训练语料训练预设的意图识别模型，获得训练后的意图识别模型。

在本实施例中，本申请中意图识别模型为BERT QA模型(语言表征问答模型)。BERTQA模型适用于广泛任务的最先进模型的构建，比如问答任务和语言推理，无需针对具体任务做大幅架构修改。意图识别采用问询学习类(Q1-Q6)与历史客户回答语料组成的QA对进行训练的方式，使意图识别模型保持高准确率，同时在实际应用过程中的AI问询语料能够独立于意图识别模型进行实时修改。

S5：接收待识别AI问询语料和待识别客户回答语料，将所述待识别AI问询语料输入至所述训练后的问询分类模型中，获得语料分类，并将所述语料分类和待识别客户回答语料输入至训练后的意图识别模型中，获得客户意图。

在本实施例中，本申请通过先将待识别AI问询语料进行分类，再根据分类和待识别客户回答语料确定客户意图，有效的实现了将意图识别模型保持在一个高准确率，又使AI问询语料能够独立于模型版本的更新而独立更新。问询分类模型在生产上应用时，输入待识别AI问询语料，输出待识别AI问询语料对应的语料分类，输出结果为问询学习类中的某一类。在生产上，即使业务部门根据业务需求，实时修改、新增、删减AI问询语料，模型也可以将新增或修改的AI问询语料，分类到正确的问询学习类中。该问询分类模型输出的语料分类和待识别客户回答语料共同输入意图识别模型，则可以得到最终意图识别结果。在生产上应用时，输入问询学习类和待识别客户回答语料，意图识别模型会输出意图识别标签作为客户意图。获得的客户意图有助于计算机根据客户意图进行下一轮对话。

需要强调的是，为进一步保证上述训练后的意图识别模型和训练后的问询分类模型的私密和安全性，上述训练后的意图识别模型和训练后的问询分类模型还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可应用于智慧医疗领域中，从而推动智慧城市的建设。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种客户意图识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的客户意图识别装置300包括：聚类模块301、建立模块302、确定模块303、获得模块304以及输入模块305。其中，聚类模块301，用于接收历史AI问询语料和历史客户回答语料，基于预设的无监督聚类算法对所述历史AI问询语料进行聚类，获得多个类别，并从所述多个类别中筛选出预设个数的类别作为问询学习类，其中，所述历史AI问询语料和历史客户回答语料具有一一映射关系；建立模块302，用于基于所述问询学习类和对应的所述历史AI问询语料建立分类训练语料，并基于所述分类训练语料训练预设的问询分类模型，获得训练后的问询分类模型；确定模块303，用于确定所述问询学习类对应的所述历史AI问询语料，基于所述历史AI问询语料确定对应的所述历史客户回答语料，基于所述问询学习类和所述历史客户回答语料建立识别训练语料；获得模块304，用于基于所述模型训练语料训练预设的意图识别模型，获得训练后的意图识别模型；输入模块305，用于接收待识别AI问询语料和待识别客户回答语料，将所述待识别AI问询语料输入至所述训练后的问询分类模型中，获得语料分类，并将所述语料分类和待识别客户回答语料输入至训练后的意图识别模型中，获得客户意图。

在本实施例中，本申请通过基于聚类算法对历史AI问询语料进行聚类，获得多个类别，并从多个类别中筛选出问询学习类。基于所述问询学习类和对应的所述历史AI问询语料建立分类训练语料，并基于所述分类训练语料训练预设的问询分类模型。基于分类结果和历史客户回答语料训练意图识别模型，如此，可以实现意图识别模型的训练能够不直接基于历史AI问询语料，当对AI问询语料在问询学习类的框架下进行修改后，意图识别模型依然能够保持在一个较高的准确率，这样AI问询语料可以独立于模型进行更新。本申请能够支持实时修改、增加、删减AI问询语料的同时，保持意图识别的高准确率，对客户意图进行精准识别，从而保证了整个对话流程的准确性和流畅性，提升了用户体验，产生的客户意图可以供给下游业务进行使用。

在本实施例的一些可选的实现方式中，上述聚类模块进一步用于：基于Canopy+KMeans聚类算法对所述历史AI问询语料进行聚类，获得多个类别。

在本实施例的一些可选的实现方式中，上述聚类模块进一步用于：确定每个类别中的历史AI问询语料的数据量，对基于每个类别中的所述历史AI问询语料的数据量对所述类别进行降序排序，将前n个类别作为所述问询学习类，其中，n为所述预设个数。

聚类模块包括第一展示子模块和第一识别子模块。其中，第一展示子模块用于将所述多个类别展示在预设的前端页面中，并向指定人员发送选择请求，其中，所述选择请求携带有所述预设个数；第一识别子模块用于当识别到所述指定人员在所述前端页面完成选择时，将所述指定人员选择的类别作为所述问询学习类。

建立模块302包括第一确定子模块、第二识别子模块、标注子模块、分配子模块和建立子模块。其中，第一确定子模块用于确定所述问询学习类对应的预设的分类标识，其中，所述分类标识与所述问询学习类具有一一对应的映射关系；第二识别子模块用于将聚类后未与所述问询学习类对应的所述历史AI问询语料作为待分配语料；标注子模块用于基于所述分类标识对所述待分配语料进行标注；分配子模块用于将标注后的所述待分配语料分配至对应的问询学习类中；建立子模块用于基于所述问询学习类、聚类后所述问询学习类对应的所述历史AI问询语料以及分配至所述问询学习类中的历史AI问询语料建立所述分类训练语料。

标注子模块包括第一输入单元、第二输入单元、第一计算单元、确定单元、识别单元和第二计算单元。其中，第一输入单元用于将所述分类标识输入至预先训练的word2vec模型中，获得所述分类标识中各词语对应的分类向量；第二输入单元用于将所述待分配语料输入至预先训练的word2vec模型中，获得所述待分配语料中各词语对应的语料向量；第一计算单元用于基于所述分类向量和所述语料向量，计算当前待分配语料中各词语与每个所述分类标识中各词语之间的相似度；确定单元用于确定相似度超过预设阈值的词语个数；识别单元用于将所述相似度超过预设阈值的词语个数最多的分类标识，作为当前所述待分配语料的标注；第二计算单元用于基于所述分类向量和所述语料向量，计算下一个待分配语料中各词语与每个所述分类标识中各词语之间的相似度，直至完成所有待分配语料的标注。

确定模块303包括第二确定子模块、第二展示子模块、第一生成子模块和第二生成子模块。其中，第二确定子模块用于确定与所述问询学习类中的历史AI问询语料具有映射关系的所述历史客户回答语料；第二展示子模块用于将所述问询学习类和对应的所述历史客户回答语料展示在前端页面中，并向相关人员发送意图标注请求；第一生成子模块用于当识别到相关人员完成意图标注后，基于所述相关人员的意图标注生成意图标签；第二生成子模块用于将所述意图标签作为对应的所述问询学习类和所述历史客户回答语料的标签，生成所述识别训练语料。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是，图中仅示出了具有组件201-203的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器201至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器201可以是所述计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述存储器201也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件，例如客户意图识别方法的计算机可读指令等。此外，所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中，所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据，例如运行所述客户意图识别方法的计算机可读指令。

所述网络接口203可包括无线网络接口或有线网络接口，该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

在本实施例中，本申请有效避免了待识别AI问询语料影响意图识别模型的准确率，实现保持意图识别模型的高准确率，对客户意图进行精准识别，从而保证了整个对话流程的准确性和流畅性，提升了用户体验。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的客户意图识别方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种客户意图识别方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的客户意图识别方法，其特征在于，所述基于所述问询学习类和对应的所述历史AI问询语料建立分类训练语料的步骤包括：

基于所述分类标识对所述待分配语料进行标注；

将标注后的所述待分配语料分配至对应的问询学习类中；

3.根据权利要求2所述的客户意图识别方法，其特征在于，所述基于所述分类标识对所述待分配语料进行标注的步骤包括：

确定相似度超过预设阈值的词语个数；

4.根据权利要求1所述的客户意图识别方法，其特征在于，所述基于预设的无监督聚类算法对所述历史AI问询语料进行聚类，获得多个类别的步骤包括：

5.根据权利要求1所述的客户意图识别方法，其特征在于，所述从所述多个类别中筛选出预设个数的类别作为问询学习类的步骤包括：

6.根据权利要求1所述的客户意图识别方法，其特征在于，所述从所述多个类别中筛选出预设个数的类别作为问询学习类的步骤包括：

7.根据权利要求1所述的客户意图识别方法，其特征在于，所述基于所述问询学习类和所述历史客户回答语料建立识别训练语料的步骤包括：

8.一种客户意图识别装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的客户意图识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的客户意图识别方法的步骤。