CN112417855A

CN112417855A - 文本意图识别方法、装置以及相关设备

Info

Publication number: CN112417855A
Application number: CN202011309413.XA
Authority: CN
Inventors: 李�杰; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26
Also published as: WO2021204017A1

Abstract

本申请提供了一种文本意图识别方法，包括：获取语音信息和文本队列，将语音信息转换为待识别文本；对待识别文本和文本队列中的每条文本提取特征，得到待识别文本的文本特征和每条文本对应的文本特征；根据待识别文本的文本特征与每条文本的文本特征，得到待识别文本的融合特征；将融合特征通过意图分类模型进行意图分类，得到待识别文本对应的意图。本发明实施例通过将待识别文本与文本队列中的每条文本从单词级到句子级捕获上下文匹配信息，这样对不同文本在不同粒度上进行特征融合，可以充分利用历史语义信息，做到上下文信息的融合，结合单词层面的特征和句子层面的特征，从而得到一个更具鉴别能力的特征，提高了文本意图识别的精度。

Description

文本意图识别方法、装置以及相关设备

技术领域

本申请涉及文本意图识别，尤其涉及一种文本意图识别方法、装置以及相关设备。

背景技术

随着计算机网络技术的日益普及，文本意图识别广泛应用于智能语音助手以及智能对话机器人等产品，为了更好地了解客户的需求，更准确地做出回复，提高客户满意度，需要机器对话系统准确且完备地识别出客户发送的一段话对应的实际意图。

目前，文本意图识别主要是智能客服系统对客户的声音进行语音识别得到的识别文本，进一步通过对文本意图识别来判断客户表达的意思，然后根据意图匹配对应的文本回复客户。仅使用单个句子进行意图识别有可能识别出错误的意图，例如客户当前的话可能以前面几句话作为前提，前提不满足的时候当前句子所表示的意图可能会完全不同，会导致客户机器人出现错误的回复，不仅降低了客户体验，而且还会给客户提供错误的服务。

发明内容

本申请提供了一种文本意图识别方法及系统，有效地解决了以往单句对话意图识别中因对话内容的复杂性和多样性导致的意图识别错误问题。

第一方面，本申请实施例提供了一种文本意图识别方法，包括：获取语音信息和文本队列，将语音信息转换为待识别文本，文本队列包括一条或多条文本；对待识别文本和文本队列中的每条文本提取特征，得到待识别文本的文本特征和每条文本对应的文本特征；根据待识别文本的文本特征与每条文本对应的文本特征，得到待识别文本对应的融合特征；将融合特征通过意图分类模型进行意图分类，得到待识别文本对应的意图。

第二方面，本申请实施例提供了一种文本意图识别装置，包括：获取单元，用于获取语音信息和文本队列；预处理单元，用于将语音信息转换为待识别文本，并加入文本队列；特征提取单元，用于对待识别文本和文本队列中的每条文本提取特征，得到待识别文本的文本特征和每条文本对应的文本特征；融合单元，用于根据待识别文本的文本特征与每条文本的文本特征，得到待识别文本的融合特征；分类单元，用于将融合特征通过意图分类模型进行意图分类，得到待识别文本对应的意图。

第三方面，本申请实施例提供一种文本意图识别设备，包括：处理器和存储器，处理器执行存储器中的代码执行如第一方面任意一种实现方式提供的方法。

第四方面，一种计算机可读存储介质，包括指令，当指令在计算机上运行时，使得计算机执行如第一方面任意一种实现方式提供的方法。

本申请实施例通过将待识别文本与文本队列中的每条文本从单词级到句子级捕获上下文匹配信息，这样对不同文本在不同粒度上进行特征融合，可以充分利用历史语义信息，做到上下文信息的融合，结合单词层面的特征和句子层面的特征，从而得到一个更具鉴别能力的特征，提高了文本意图识别的精度。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是本发明实施例提供的一种文本意图识别智能客服系统工作流程示意图；

图2是本发明实施例提供的一种文本意图识别方法的流程图；

图3是本发明实施例提供的一种提取文本句子层面特征的模型示意图；

图4是本发明实施例提供一种文本意图识别装置结构示意图；

图5是本发明实施例提供一种特征提取的结构示意图；

图6是本发明实施例提供一种文本意图识别装置的结构示意图。

具体实施方式

本申请的实施例部分使用的术语仅用于对本发明的具体实施例进行解释，而非旨在限定本发明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本实施例中所提到的文本包括词语或者句子，词语是词和短语的合称，包括词(含单词、合成词)和词组(又称短语)，组成语句文章的最小组词结构形式单元。句子是语言运用的基本单位，它由词、词组(短语)构成，能表达一个完整的意思，如告诉别人一件事情，提出一个问题，表示要求或者制止，表示某种感慨，表示对一段话的延续或省略。

首先对本申请的实施例涉及的用于进行文本意图识别的智能客服系统。

图1示出了一种文本意图识别系统工作流程示意图，该框架描述了智能客服系统总体工作流程。本实施例中首先获取客户语音信息，进行语音识别，得到待识别文本，将待识别文本加入文本队列，其中，文本队列中包括一个或多个待识别文本；接着对待识别文本和文本队列里的每条文本提取特征，得到待识别文本的文本特征和文本队列中每条文本的文本特征，其中，文本特征包括单词层面的特征与句子层面的特征；根据待识别文本的文本特征与文本队列中每条文本的文本特征，得到待识别文本对应的融合特征；将融合的特征通过意图分类，得到待识别文本对应的意图；最后智能客服系统可以根据当前所处的流程环节和客户意图类别来选取合适的回复话语进行回复。

在一个具体的实施例中，如图2所示，提供了一种文本意图识别方法的流程图，以该方法应用于图1中的智能客服系统为例进行说明，包括以下步骤：

S101，获取语音信息和文本队列，将语音信息转换为待识别文本。

在本申请具体的实施例中，获取客户输入的语音信息，语音信息是用于智能客服系统将语音信息转化为待识别文本，得到文本分类意图，即对应的客户需求意图。例如，用户输入“我想听周杰伦的歌”、，用于智能客服系统将客户输入的语音转化为待识别文本，得到听歌的需求意图。获取客户语音信息后，采用语音识别算法wav2letter++算法进行语音识别，将客户输入的语音转化成对应的待识别文本。同时，获取文本队列，其中，文本队列包括一条或多条文本。文本队列中能够容纳k条文本，文本队列里文本的加入方式是：将语音信息转换为待识别文本之后，当文本队列中的文本数量小于k时，将待识别文本加入文本队列，文本队列中的k条文本按照加入的时间顺序排列；当文本队列中的文本数量等于k时，删除最先加入文本队列的文本，将待识别文本加入文本队列。

示例性地，若文本队列的大小为5，对文本队列中的文本按照进入顺序排序，依次为{1，2，3，4，5}，其中，1表示文本队列中第一个加入的文本，同理2、3、4、5依次类推。当文本队列里的文本数不超过5时，待识别文本直接按顺序加入文本队列，当文本队列里的文本数为5时，则先删除文本1，然后加入待识别文本。

S102，对待识别文本和文本队列中的每条文本提取特征，得到待识别文本的文本特征和每条文本对应的文本特征。

在一种具体的实施例中，对待识别文本和文本队列里的每条文本，首先，提取单词层面的特征，然后，使用m个注意力模型提取句子层面的特征；最后，将待识别文本对应的单词层面的特征和句子层面的特征联合起来作为待识别文本的特征；

对待识别文本和文本队列里的每条文本提取特征具体的步骤包括：

第一步，提取单词层面的特征

具体地，首先，对文本队列里的每条文本，使用分词工具进行分词处理，得到词x，其中分词工具可以是jieba、SnowNLP、THULAC、NLPIR等。本申请实施例中对此不构成任何限定。对于文本队列里的第i个识别文本，经过分词处理后可以得到词x_i。然后，将第i个识别文本中的n个词x_i映射到词嵌入矩阵V中得到n个词向量V(x_i)。最后，连接n个词向量得到第i个识别文本的词向量矩阵W_i作为单词层面的的特征。k个文本进过处理可以得到k个词向量矩阵{W₁、W₂…W_k}。可以理解的是，对待识别文本经过上述处理，可以得到待识别文本的单词层面的特征W_k+1。

其中，词嵌入矩阵V可以是经过在300万条文本数据上训练Word2vec模型得到的，也可以是在其他模型上训练的得到，本申请实施例对此不作任何限定。在分词之前或者之后可以有语料清洗、词性标注、去停用词，例如删除噪声数据、根据事先设定的语气词表去除语气词等，本申请实施例对此不作任何限定。

示例性地，这里以jieba分词为例，当输入的识别文本为“今天天气怎么样呀？”，经过jieba分词处理输出可以为：“今天”、“天天”、“天气”、“怎么”、“怎么样”、“呀”、“？”，经过词性标注输出可以为：“今天n”、“天天v”、“天气n”、“怎么r”、“怎么样r”、“呀y”、“？vv”，其中n表示名词，v表示动词，r表示代词，y表示语气词，vv表示标点符号，经过去停用词输出可以为：“今天n”、“天天v”、“天气n”、“怎么r”、“怎么样r”。其中去除语气词可以根据事先设定的语气词表去除。这样可以的到一句话的n个词。

第二步，提取句子层面的特征

具体地，对于第i个文本提取到的单词层面的特征词向量矩阵W_i，使用m个注意力模型对词向量矩阵W_i进行处理，到m个不同层面的句子特征：u_i,1～u_i,m。其中，第i个注意力模型的输出作为第i+1个注意力模型的输入，i为大于等于1，小于m的正整数。也就是说，在m个注意力模块中上一个注意力模型的输出作为下一个注意力模型的输入。将y＝{u_i,1～u_i,m}作为一句文本中句子层面的特征，k个文本进过处理可以得到k个句子层面的特征{y₁、y₂…y_k}。如图3所示，单词层面的特征词向量矩阵W_i作为第一个注意力模型的输入，第一个注意力模型的输出作为第二个注意力模型的输入，依次上一个注意力模型的输出作为下一个注意力模型的输入，最终的到m个不同层面的句子特征u_i,1～u_i,m。这样使用m个注意力模型处理可以得到更深层次的语义信息。可以理解的是，对待识别文本经过上述处理，可以得到待识别文本的句子层面的特征y_k+1＝{u_k+1,1～u_k+1,m}。

注意力模型可以理解为将Source中的构成元素想象成是由一系列的<Key，Value>数据构成，此时给定Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention数值。其计算过程具体如下：

第一步：根据Query和Key计算两者的相似性或者相关性；

其中，t,i,j分别表示Query、Key、Value中词的个数，d表示词的维度。Q[t]·K[i]^T表示Q[t]与K[i]^T作点乘，其结果S(Q_t,K_i)表示target中某个元素Q[t]与source中K[i]对应的V[j]的相似值，得到输入词与词之间的依赖关系。可以理解的是，本申请实施例中，计算相似性或者相关性的方式仅仅仅用于举例说明，在实际应用中，计算相似性或者相关性可以是求两者的向量点积、求两者的向量Cosine相似性、在引入额外的神经网络来求值等方式，本申请实施例对此不作任何限定。

第二步：对第一步的原始分值进行归一化处理，得到权重系数；

具体地，第一步产生的分值根据具体产生的方法不同其数值取值范围也不一样，因此第二步引入softmax的计算方式对第一步的得分进行数值转换，一方面进行归一化，将原始计算分值整理成所有元素权重之和为1的概率分布；另一方面也可以通过SoftMax在内在机制更突出重要元素的权重。具体计算过程如下：

其中，a_t,i为权重矩阵，表示K对应的V的权重系数。

第三步：根据权重系数对Value进行加权求和。

其中，n_Q表示Q中词的个数，V_att表示元素Q[t]对的最终Attention值。

第三步，根据单词层面的特征和句子层面的特征得到文本特征

具体的，将第i个识别文本单词层面的特征和第i个识别文本句子层面的特征联合起来作为第i个识别文本的特征：[W_i,y_i]，对于文本队列里的k个文本得到k个文本特征。可以理解的是，对于待识别文本，将待识别文本单词层面的特征句子层面的特征联合起来作为待识别文本的特征，可以的到[W_k+1,y_k+1]。

本申请实施例，通过对每条文本的词向量矩阵和待识别文本的词向量矩阵，使用m个注意力模型进行处理，上一个注意力模型的输出作为下一个模型的输入，得到每条文本的m歌不同层面的特征和待识别文本的m个不同层面的特征，从而得到更丰富多层次多次度的特征。

S103，根据待识别文本的文本特征与文本队列中每条文本对应的文本特征，得到待识别文本对应的融合特征。

在一种具体的实施例中，将得到的k条文本特征和待识别文本特征，使深度关注匹配(Deep Attention Matching，DAM)算法分别对在单词层面的特征W以及句子层面的特征y上进行匹配，得到待识别文本的融合特征。具体地，将待识别文本的单词层面的特征与得到的k条文本的单词层面的特征进行匹配，得到单词层面的匹配结果，将单词层面的匹配结果进行融合，得到第一融合特征；将待识别文本的句子层面的特征与k条文本的句子层面的特征进行匹配，得到句子层面的匹配结果，将句子层面的匹配结果进行融合，得到第二融合特征。将第一融合特征和第二融合特征进行融合，得到待识别文本对应的融合特征。

其中，DAM算法的思想是在给定对话上下文情况下，从一组候选响应中选择最匹配的响应。具体地，首先将上下文文本中或者响应中文本的每一个单词作为抽象语义片段的中心意义，使用层叠的注意力构造不同粒度的文本表示；其次，考虑到文本相关性和依赖性信息，基于不同粒度的片段匹配来匹配上下文和响应中的每个文本，通过这种方式，DAM算法从单词级到句子级捕获上下文与响应之间的匹配信息；然后通过卷积和最大池化操作提取重要的匹配特征，最后通过单层感知器融合成一个单一的匹配分数。这样对不同文本在不同粒度上进行特征融合可以充分利用历史语义信息，做到上下文信息融合。

DAM算法具体步骤为：首先使用层叠的注意力构造不同粒度的文本表示，其次，在整个上下文和响应中提取真正配对的片段。

具体地，DAM算法模型框架可以为：表示-匹配-聚集。下面以句子层面的特征匹配为例介绍DAM算法。

DAM算法的第一层为词嵌入层，分别将待识别文本句子层面的特征y_k+1和k条文本层面的特征y₁,y₂,…,y_k作为词嵌入层的输入。其中，矩阵y的列为词向量的维度，矩阵y的行是文本的长度。

DAM算法的第二层为表示层，表示层的作用是构建不同粒度的语义表示。表示层有L层，采用L个相同的自注意力层堆叠处理，第l层的输入为第l-1层的输出，进而可以将输入的语义向量组合成多粒度表示。其中，多粒度表示过程具体如下：

其中，Attentive表示进行注意力函数，y_i和y_k+1的多粒度表示逐渐被构造出来为

和

其中，l∈{0,L-1}表示不同粒度。

DAM算法的第三层为匹配层，将第二层表示层输出的每个文本的多粒度表示

和

在粒度l上构建自注意力匹配矩阵

和交叉注意力匹配矩阵

进行多粒度匹配，得到匹配的特征。

其中，自注意力匹配过程具体如下：

其中，

表示每个句子文本中词的个数，矩阵

中的每个元素都是

和

的点积，

中的第k个嵌入和

中的第t个嵌入反映了y_i中第k个片段和y_k+1中第t个片段在第l个粒度上的文本相关性。

交叉注意匹配矩阵基于交叉注意力模块，具体过程如下：

通过注意力模块使得

和

相互交叉注意，构建两个新的表示：

和

和

捕获了跨越文本队列中k条文本和待识别文本的语义结构。因此，对话文本内部相互依赖的片段在表示中彼此接近，并且这些潜在的内部依赖之间的点积可以增加，从而提供依赖感知的匹配信息。

DAM算法的第四层为聚集层，DAM最终将文本队列中k条文本和待识别文本的所有分段匹配度聚合成3D匹配图像Q，具体过程如下：

其中，

表示级联操作，每个像素有2(L+1)个通道，在不同的粒度级别储存一个特定的片段之间的匹配度，然后，DAM算法利用具有最大池化操作的双层卷积来从整个图像中提取重要的匹配特征f_match(y_i,y_k+1)。最终通过单层感知器，用提取的匹配特征f_match(y_i,y_k+1)来计算匹配分数g(y_i,y_k+1)，具体过程如下：

g(y_i,y_k)＝σ(Mf_match(y_i,y_k+1)+b)

其中，f_match(·)表示匹配函数，M和b是学习参数，σ是sigmoid函数。

为了简便起见，上面只陈述了句子层面的特征基于DAM算法进行匹配融合，实际上单词层面的特征基于DAM算法进行匹配融合方式类似，此处不再展开赘述。

S104，将融合特征通过意图分类得到识别文本对应的意图。

在一种具体的实施例中，对融合的特征进一步使用两层卷积神经网络进行更深层特征提取及降维，最后使用softmax函数进行意图分类，得到识别文本对应的意图。其中，意图的种类是在智能客服系统中预先设置好的。

可选地，在任务型机器人客服系统中，意图分类设置为但不限于查天气、设闹钟、订餐、订票、播歌等。示例性，客户输入我想听周杰伦的歌，那么可以归为播歌意图；客户输入今天天气怎么样，那么可以归为查天气意图；客户输入帮我定个明天早上6点的闹钟，那么可以归为设闹钟意图。

S105，根据待识别文本对应的意图，执行对应的动作。

在一种具体的实施例中，得到分类的意图后，客服系统根据当前所处的流程环节和客户意图类别在语料库中选择合适的回复话语进行回复。其中，语料库中的话语是系统预先设置好的。示例性地，客户输入“今天心情很棒”进行意图分类后可以归为心情意图，客服系统从预先设置的语料库中找到心情意图的语料，并选择合适的话语回复客户，如“什么事心情这么好，赶紧跟我分享一下吧。”。

可以理解的是，本申请实施例的智能客服系统仅仅为举例说明，但是该实施例对本申请的功能和适用范围不构成任何具体的限定。本申请提供的一种文本意图识别方法还可以应用于手机、计算机等电子设备。例如，在搜索引擎中，本申请提供的一种文本意图识别方法还适用于根据用户输入的一条或多条语音识别用户查询意图。

本发明实施例还提供了一种文本意图识别装置，该装置可用于实现本发明上述各文本意图识别方法实施例。具体地，参见图4，图4是本发明实施例提供的一种文本意图识别装置结构示意图。本实施例的系统400包括：

获取单元401，用于获取语音信息和文本队列；

预处理单元402，用于将语音信息转换为待识别文本，并加入文本队列；

特征提取单元403，用于对待识别文本和文本队列中的每条文本提取特征，得到待识别文本的文本特征和每条文本对应的文本特征；

融合单元404，用于根据待识别文本的文本特征与每条文本的文本特征，得到待识别文本的融合特征；

分类单元405，用于将融合特征通过意图分类模型进行意图分类，得到待识别文本对应的意图。

在一种具体的实现方式中，参见图5，图5是本发明实施例提供的一种特征提取单元的结构示意图，特征提取单元403包括第一提取单元4031，第二提取单元4032，合并单元4033，

第一提取单元4031，用于对待识别文本和文本队列里的每条文本，使用词嵌入矩阵提取单词层面的特征；

第二提取单元4032，用于对待识别文本和文本队列里的每条文本使用多个注意力模型提取句子层面的特征；

合并单元4033，用于将单词层面的特征和句子层面的特征联合起来作为识别文本的特征。

在本发明文本意图识别装置的一个具体的实施例中，获取单元402，用于获取客户语音信息后，采用语音识别算法wav2letter++算法进行语音识别，将客户输入的语音转化成对应的待识别文本。同时，获取文本队列，其中，文本队列包括一条或多条文本。文本队列中能够容纳k条文本，文本队列里文本的加入方式是：将语音信息转换为待识别文本之后，当文本队列中的文本数量小于k时，将待识别文本加入文本队列，文本队列中的k条文本按照加入的时间顺序排列；当文本队列中的文本数量等于k时，删除最先加入文本队列的文本，将待识别文本加入文本队列。

在一种具体的实施例中，第一提取单元4031用于，首先，对文本队列里的每条文本，使用分词工具进行分词处理，得到词x，其中分词工具可以是jieba、SnowNLP、THULAC、NLPIR等。本申请实施例中对此不构成任何限定。对于文本队列里的第i个识别文本，经过分词处理后可以得到词x_i。然后，将第i个识别文本中的n个词x_i映射到词嵌入矩阵V中得到n个词向量V(x_i)。最后，连接n个词向量得到第i个识别文本的词向量矩阵W_i作为单词层面的的特征。k个文本进过处理可以得到k个词向量矩阵{W₁、W₂…W_k}。可以理解的是，对待识别文本经过上述处理，可以得到待识别文本的单词层面的特征W_k+1。

在一种具体的实施例中，第一提取单元4032用于，对于第i个文本提取到的单词层面的特征词向量矩阵W_i，使用m个注意力模型对词向量矩阵W_i进行处理，到m个不同层面的句子特征：u_i,1～u_i,m。其中，第i个注意力模型的输出作为第i+1个注意力模型的输入，i为大于等于1，小于m的正整数。也就是说，在m个注意力模块中上一个注意力模型的输出作为下一个注意力模型的输入。将y＝{u_i,1～u_i,m}作为一句文本中句子层面的特征，k个文本进过处理可以得到k个句子层面的特征{y₁、y₂…y_k}。如图3所示，单词层面的特征词向量矩阵W_i作为第一个注意力模型的输入，第一个注意力模型的输出作为第二个注意力模型的输入，依次上一个注意力模型的输出作为下一个注意力模型的输入，最终的到m个不同层面的句子特征u_i,1～u_i,m。这样使用m个注意力模型处理可以得到更深层次的语义信息。可以理解的是，对待识别文本经过上述处理，可以得到待识别文本的句子层面的特征y_k+1＝{u_k+1,1～u_k+1,m}。

在一种具体的实施例中，第一提取单元4033用于，将第i个识别文本单词层面的特征和第i个识别文本句子层面的特征联合起来作为第i个识别文本的特征：[W_i,y_i]，对于文本队列里的k个文本得到k个文本特征。可以理解的是，对于待识别文本，将待识别文本单词层面的特征句子层面的特征联合起来作为待识别文本的特征，可以的到[W_k+1,y_k+1]。

在一种具体的实施例中，融合单元404用于，将得到的k条文本特征和待识别文本特征，使用DAM算法分别对在单词层面的特征W以及句子层面的特征y上进行匹配，得到待识别文本的融合特征。具体地，将待识别文本的单词层面的特征与得到的k条文本的单词层面的特征进行匹配，得到单词层面的匹配结果，将单词层面的匹配结果进行融合，得到第一融合特征；将待识别文本的句子层面的特征与k条文本的句子层面的特征进行匹配，得到句子层面的匹配结果，将句子层面的匹配结果进行融合，得到第二融合特征。将第一融合特征和第二融合特征进行融合，得到待识别文本对应的融合特征。

在一种具体的实施例中，对融合的特征进一步使用两层卷积神经网络进行更深层特征提取及降维，最后使用softmax函数进行意图分类，得到识别文本对应的意图。其中，意图得种类是在智能客服系统中预先设置好的。

另外，本发明实施例提供了一种电子设备，其可以包括本发明上述任一实施例的文本意图识别方法。具体地，该电子设备例如可以是终端设备或者服务器等设备。

本发明实施例还提供了另一种电子设备，包括：

处理器和存储器，处理器执行存储器中的代码，从而完成本申请实施例上述任一实施例文本意图别方法的操作。

图6是本发明实施例提供的一种电子设备结构框图。下面参考图6，其示出了适用于来实现本发明实施例的终端设备或服务器的电子设备的结构示意图。如图6所示，该电子设备包括：一个或多个处理器601；一个或多个输入设备602，一个或多个输出设备603和存储器604。上述处理器601、输入设备602、输出设备603和存储器604通过总线605连接。存储器602用于存储指令，处理器601用于执行存储器602存储的指令。其中，处理器601被配置用于调用程序指令执行：

获取语音信息和文本队列，将语音信息转换为待识别文本；

对待识别文本和文本队列中的每条文本提取特征，得到待识别文本的文本特征和每条文本对应的文本特征；

根据待识别文本的文本特征与每条文本对应的文本特征，得到待识别文本对应的融合特征；

将融合特征通过意图分类模型进行意图分类，得到待识别文本对应的意图。

应当理解，在本发明实施例中，所称处理器601可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备602可以包括摄像头，其中该摄像头具备存储影像文件功能以及传输影像文件功能，输出设备603可以包括显示器、硬盘、U盘等。

该存储器604可以包括只读存储器和随机存取存储器，并向处理器601提供指令和数据。存储器604的一部分还可以包括非易失性随机存取存储器。例如，存储器604还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器601、输入设备602、输出设备603可执行本发明实施例提供的一种文本意图识别方法和系统的各个实施例中所描述的实现方式，在此不再赘述。

在本发明的另一实施例中提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被处理器执行时实现：获取语音信息和文本队列，将语音信息转换为待识别文本，文本队列包括一条或多条文本；对待识别文本和文本队列中的每条文本提取特征，得到待识别文本的文本特征和每条文本对应的文本特征；根据待识别文本的文本特征与每条文本的文本特征，得到待识别文本的融合特征；将融合特征通过意图分类模型进行意图分类，得到待识别文本对应的意图。

计算机可读存储介质可以是前述任一实施例的电子设备的内部存储单元，例如终端的硬盘或内存。计算机可读存储介质也可以是终端的外部存储设备，例如终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，计算机可读存储介质还可以既包括电子设备的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序以及电子设备所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的服务器、设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，也可执行发明实施例所描述的电子设备的实现方式，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的服务器、设备和方法，可以通过其它的方式实现。例如，以上所描述的服务器实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本意图识别方法，其特征在于，包括：

获取语音信息和文本队列，将所述语音信息转换为待识别文本，所述文本队列包括一条或多条文本；

对所述待识别文本和所述文本队列中的每条文本提取特征，得到所述待识别文本的文本特征和所述每条文本对应的文本特征；

根据所述待识别文本的文本特征与所述每条文本的文本特征，得到所述待识别文本的融合特征；

将所述融合特征通过意图分类模型进行意图分类，得到所述待识别文本对应的意图。

2.根据权利要求1所述方法，其特征在于，所述文本队列容纳k条文本，所述将所述语音信息转换为待识别文本之后，还包括：

当所述文本队列中的文本数量小于k时，将所述待识别文本加入所述文本队列，所述文本队列中的k条文本按照加入的时间顺序排列；

当所述文本队列中的文本数量等于k时，删除所述文本队列中最先加入的文本，将所述待识别文本加入所述文本队列。

3.根据权利要求1所述方法，其特征在于，对所述待识别文本和所述文本队列中的每条文本提取特征，得到所述待识别文本的文本特征和所述每条文本的文本特征，包括：

对所述待识别文本，提取单词层面的特征，得到所述待识别文本的单词层面特征，使用m个注意力模型提取句子层面的特征，得到所述待识别文本的句子层面特征，将所述待识别文本的单词层面特征和所述待识别文本的句子层面特征作为所述待识别文本的文本特征；其中，m是大于1的正整数；

对所述每条文本，提取单词层面的特征，得到所述每条文本的单词层面特征，使用m个注意力模型提取句子层面的特征，得到所述每条文本的句子层面特征，将所述每条文本的单词层面特征和所述每条文本的句子层面特征作为所述每条文本的文本特征。

4.根据权利要求3所述方法，其特征在于，所述对所述待识别文本，提取单词层面的特征，得到所述待识别文本的单词层面特征，包括：

使用分词工具对所述待识别文本进行分词处理，得到n个词，将所述每条文本的所述n个词映射到词嵌入矩阵V中得到n个词向量，连接所述n个词向量得到所述每条文本的词向量矩阵，作为所述待识别文本的单词层面特征；

对所述每条文本，提取单词层面的特征，得到所述每条文本的单词层面特征，包括：

使用分词工具对所述每条文本进行分词处理，得到n个词，将所述每条文本中的所述n个词映射到词嵌入矩阵V中得到n个词向量，连接所述n个词向量得到所述每条文本的词向量矩阵，作为所述每条文本的单词层面特征。

5.根据权利要求3所述的方法，其特征在于，所述使用m个注意力模型提取句子层面的特征，得到所述待识别文本的句子层面特征，包括：

对所述待识别文本的词向量矩阵，使用m个注意力模型对所述待识别文本的词向量矩阵进行处理，得到m个不同层面的特征，将所述m个不同层面的特征作为所述待识别文本的句子层面特征；其中，第i个注意力模型的输出作为第i+1个注意力模型的输入，所述m个注意力模型中的每个注意力模型输出一个层面的特征，i为大于等于1，小于m的正整数。

6.根据权利要求5所述的方法，其特征在于，所述使用m个注意力模型提取句子层面的特征，得到所述每条文本的句子层面特征，包括：

对所述每条文本的词向量矩阵，使用m个注意力模型对所述每条文本的词向量矩阵进行处理，得到m个不同层面的特征，将所述m个不同层面的特征作为所述每条文本的句子层面特征。

7.根据权利要求3所述方法，其特征在于，所述根据所述待识别文本的文本特征与文本队列中每条文本的文本特征，得到所述待识别文本的融合特征，包括：

将所述待识别文本的文本特征和所述每条文本的文本特征，使用深度关注匹配算法DAM对所述待识别文本的单词层面的特征和所述每条文本的单词层面的特征在不同的粒度上进行匹配融合，得到第一融合特征；

将所述待识别文本的文本特征和所述每条文本的文本特征，使用深度关注匹配算法DAM对所述待识别文本的句子层面的特征和所述每条文本的句子层面的特征在不同的粒度上进行匹配融合，得到第二融合特征；

将所述第一融合特征和所述第二融合特征进行融合，得到待识别文本的融合特征。

8.一种文本意图识别装置，其特征在于，包括：

获取单元，用于获取语音信息和文本队列；

预处理单元，用于将所述语音信息转换为待识别文本，并加入文本队列；

特征提取单元，用于对所述待识别文本和所述文本队列中的每条文本提取特征，得到所述待识别文本的文本特征和所述每条文本对应的文本特征；

融合单元，用于根据所述待识别文本的文本特征与所述每条文本的文本特征，得到所述待识别文本的融合特征；

分类单元，用于将所述融合特征通过意图分类模型进行意图分类，得到所述待识别文本对应的意图。

9.一种文本意图识别设备，其特征在于，包括：处理器和存储器，所述处理器执行所述存储器中的代码执行如权利要求1至7任一权利要求所述的方法。

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得所述计算机执行如权利要求1至7任一权利要求所述的方法。