CN110287285B

CN110287285B - 一种问题意图识别方法、装置、计算机设备及存储介质

Info

Publication number: CN110287285B
Application number: CN201910467185.XA
Authority: CN
Inventors: 王健宗; 孙奥兰; 彭话易; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2023-06-16
Anticipated expiration: 2039-05-31
Also published as: CN110287285A; WO2020237869A1

Abstract

本发明公开了一种问题意图识别方法、装置、计算机设备及存储介质，应用于深度学习技术领域，用于解决现有技术手段难以理解用户问题的真实意图的问题。本发明提供的方法包括：获取用户提问的目标问题语音；对目标问题语音进行音转字处理，得到目标问题文本；对目标问题文本进行向量化处理，得到目标问题向量；将目标问题向量作为输入投入至预先训练好的基于注意力的深度学习模型，得到深度学习模型输出的、与各个预设用户意图分别对应的各个问题概率值，每个问题概率值各自表征了目标问题文本属于与每个问题概率值对应的预设用户意图的概率；从各个预设用户意图中选取出问题概率值最大的预设用户意图，作为用户的真实问题意图。

Description

一种问题意图识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及深度学习技术领域，尤其涉及一种问题意图识别方法、装置、计算机设备及存储介质。

背景技术

近年来，语音助手的使用需求逐渐增加，用户可以通过向语音助手提问得到反馈的答案，帮助用户解决疑问。然而，现有语音助手仅能从用户问题的字面意思出发来搜索答案，常常出现答非所问的情况，难以满足用户的需求。

因此，寻找一种能够准确理解用户问题意图的方法成为本领域技术人员亟需解决的问题。

发明内容

本发明实施例提供一种问题意图识别方法、装置、计算机设备及存储介质，以解决现有技术手段难以理解用户问题的真实意图的问题。

一种问题意图识别方法，其特征在于，包括：

获取用户提问的目标问题语音；

对所述目标问题语音进行音转字处理，得到目标问题文本；

对所述目标问题文本进行向量化处理，得到目标问题向量；

将所述目标问题向量作为输入投入至预先训练好的基于注意力的深度学习模型，得到所述深度学习模型输出的、与各个预设用户意图分别对应的各个问题概率值，每个问题概率值各自表征了所述目标问题文本属于与所述每个问题概率值对应的预设用户意图的概率；

从所述各个预设用户意图中选取出问题概率值最大的预设用户意图，作为所述用户的真实问题意图。

一种问题意图识别装置，其特征在于，包括：

问题语音获取模块，用于获取用户提问的目标问题语音；

音转字模块，用于对所述目标问题语音进行音转字处理，得到目标问题文本；

文本向量化模块，用于对所述目标问题文本进行向量化处理，得到目标问题向量；

问题识别模块，用于将所述目标问题向量作为输入投入至预先训练好的基于注意力的深度学习模型，得到所述深度学习模型输出的、与各个预设用户意图分别对应的各个问题概率值，每个问题概率值各自表征了所述目标问题文本属于与所述每个问题概率值对应的预设用户意图的概率；

真实意图选取模块，用于从所述各个预设用户意图中选取出问题概率值最大的预设用户意图，作为所述用户的真实问题意图。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述问题意图识别方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述问题意图识别方法的步骤。

上述问题意图识别方法、装置、计算机设备及存储介质，首先，获取用户提问的目标问题语音；然后，对所述目标问题语音进行音转字处理，得到目标问题文本；接着，对所述目标问题文本进行向量化处理，得到目标问题向量；再之，将所述目标问题向量作为输入投入至预先训练好的基于注意力的深度学习模型，得到所述深度学习模型输出的、与各个预设用户意图分别对应的各个问题概率值，每个问题概率值各自表征了所述目标问题文本属于与所述每个问题概率值对应的预设用户意图的概率；最后，从所述各个预设用户意图中选取出问题概率值最大的预设用户意图，作为所述用户的真实问题意图。可见，本发明通过基于注意力的深度学习模型可以准确地从用户提问的目标问题语音出发识别出用户的真实意图，提升了意图识别的准确性，当应用于语音助手等语音识别情境时，可以大大减少答非所问的情况出现。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中问题意图识别方法的一应用环境示意图；

图2是本发明一实施例中问题意图识别方法的一流程图；

图3是本发明一实施例中问题意图识别方法步骤103在一个应用场景下的流程示意图；

图4是本发明一实施例中问题意图识别方法在一个应用场景下预先训练深度学习模型的流程示意图；

图5是本发明一实施例中问题意图识别方法步骤104在一个应用场景下的流程示意图；

图6是本发明一实施例中问题意图识别方法在一个应用场景下提供答案给用户的流程示意图；

图7是本发明一实施例中问题意图识别装置在一个应用场景下的结构示意图；

图8是本发明一实施例中问题意图识别装置在另一个应用场景下的结构示意图；

图9是本发明一实施例中问题识别模块的结构示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的问题意图识别方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，该客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种问题意图识别方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

101、获取用户提问的目标问题语音；

本实施例中，服务器可以根据实际使用的需要或者应用场景的需要获取用户提问的目标问题语音。例如，服务器可以与客户端通信连接，该客户端提供给某场所内的用户咨询问题，用户通过客户端的麦克风输入语音，客户端将该语音上传给服务器，从而服务器获取到的该语音即为目标问题语音。或者，服务器也可以执行对大批量的话术录音识别用户意图的任务，某数据库预先收集大量的来自用户提问的话术录音，然后通过网络将这些话术录音传输给服务器，从而服务器获取到的这些话术录音即为用户提问的目标问题语音。

可以理解的是，服务器还可以通过多种方式获取到用户提问的目标问题语音，对此不再过多赘述。

需要说明的是，本实施例中所说的目标问题语音一般是指用户提问时采集的声音数据。

102、对所述目标问题语音进行音转字处理，得到目标问题文本；

容易理解的是，服务器在获取到目标问题语音之后，可以将该目标问题语音转换为文字，即可得到目标问题文本。比如，服务器可以采用ASR(Automatic SpeechRecognition)自动语音识别技术对该目标问题语音进行识别，完成音转字处理，得到该目标问题文本。

103、对所述目标问题文本进行向量化处理，得到目标问题向量；

在得到目标问题文本之后，为了便于后续深度学习模型的识别，服务器需要对该目标问题文本进行向量化处理，即将目标问题文本转化为向量的方式表示，从而得到目标问题向量。具体地，服务器可以将目标问题文本以数据矩阵的形式记载，在数据矩阵中，目标问题文本中的每个字词映射为该数据矩阵中的一个行向量。

为便于理解，如图3所示，进一步地，步骤103可以包括：

201、将所述目标问题文本中的各个目标字词分别转换为GloVe(Global Vectorsfor Word Representation)词向量，得到初始问题向量；

202、判断所述各个目标字词是否均被GloVe词向量覆盖，若是，则执行步骤203，若否，则执行步骤204；

203、确定所述初始问题向量为目标问题向量；

204、将未被GloVe词向量覆盖的目标字词转换为TransE词向量，得到补充向量；

205、将所述补充向量添加至所述初始问题向量，得到目标问题向量。

对于上述步骤201，GloVe的全称叫Global Vectors for Word Representation，它是现有一个基于全局词频统计(count-based&overall statistics)的词表征(wordrepresentation)工具，它可以把一个单词表达成一个由实数组成的向量。本实施例中，服务器使用GloVe将所述目标问题文本中的各个目标字词分别转换成词向量，从而得到初始问题向量。

对于上述步骤202，考虑到用户提出的问题中可能包含有专有名词，例如姓名、地点等，这些专有名词难以被GloVe全覆盖。因此，服务器可以判断所述各个目标字词是否均被GloVe词向量覆盖，如果该目标问题文本中的各个目标字词均已被覆盖，则可以执行步骤203，直接确定所述初始问题向量为目标问题向量；反之，如果该目标问题文本中的各个目标字词未被全覆盖，则需要执行后续步骤204和步骤205。

对于上述步骤203，由上述内容可知，若所述各个目标字词均被GloVe词向量覆盖，则服务器可以确定所述初始问题向量为目标问题向量。

对于上述步骤204，若所述各个目标字词中任一个目标字词未被GloVe词向量覆盖，则可知该目标问题文本中存在无法被GloVe词向量覆盖的目标字词，为了补充这一部分的缺失，服务器可以将未被GloVe词向量覆盖的目标字词转换为TransE词向量，得到补充向量。

需要说明的，TransE，又称知识库方法，是一种现有的有效学习专有名词的算法模型，可以将学习到的字词转换为分布式向量表示。本实施例中，服务器可以采用TransE将未被GloVe词向量覆盖的目标字词进行向量转换，得到补充向量。

对于步骤205，可知，服务器在得到补充向量之后，可以使用该补充向量添加至该初始问题向量中，以填补初始问题向量的缺失，从而得到该目标问题文本对应的目标问题向量。举例说明，假设该目标问题文本为“小明吃饭吗”，该句子中包括“小明”、“吃饭”和“吗”三个目标字词。服务器使用GloVe将“吃饭”和“吗”转换为词向量，分别为[1234]和[1235]，对于“小明”一词，服务器使用TransE将其转换为词向量，得到[1236]，再将[1236]添加至[1234]和[1235]中，得到该目标问题向量为[1236]、[1234]和[1235]，其中，该目标问题向量可以以一维向量的形式表达，即[1236]、[1234]和[1235]合并为[123612341235]作为该目标问题向量，也可以以二维向量的形式表达，即[1236]、[1234]和[1235]分别作为一个二维向量的行向量，得到目标向量为：

104、将所述目标问题向量作为输入投入至预先训练好的基于注意力的深度学习模型，得到所述深度学习模型输出的、与各个预设用户意图分别对应的各个问题概率值，每个问题概率值各自表征了所述目标问题文本属于与所述每个问题概率值对应的预设用户意图的概率；

可以理解的是，服务器在得到目标问题向量之后，可以将所述目标问题向量作为输入投入至预先训练好的基于注意力的深度学习模型，得到所述深度学习模型输出的、与各个预设用户意图分别对应的各个问题概率值。其中，每个问题概率值各自表征了所述目标问题文本属于与所述每个问题概率值对应的预设用户意图的概率。可以理解的是，这些问题概率值与各个预设用户意图一一对应，当某个问题概率值越大，则代表了用户提问的问题属于该问题概率值对应的预设用户意图的可能性越高。

为便于理解，下面将对基于注意力的深度学习模型的训练过程进行详细描述。如图4所示，进一步地，所述深度学习模型包括第一双层循环神经网络、Key-Value记忆网络、第二双层循环神经网络和内容相似度计算网络四个部分，所述深度学习模型通过以下步骤预先训练好：

301、收集属于所述各个预设用户意图的样本问题语音；

302、对收集到的样本问题语音分别进行音转字处理，得到样本问题文本；

303、对所述样本问题文本进行向量化处理，得到样本问题向量；

304、针对每个样本问题向量，为所述每个样本问题向量分别针对各个预设用户意图设定标记值，得到所述每个样本问题向量的各个标记值，其中，与所述每个样本问题向量对应的预设用户意图的标记值最大；

305、将所有所述样本问题向量分别输入第一双层循环神经网络进行编码，得到各个样本问题向量各自对应的语境特征向量；

306、将各个所述语境特征向量分别投入Key-Value记忆网络中进行迭代计算，直到达到预设的迭代次数或模型收敛，然后输出迭代计算后的各个语境特征向量，所述Key-Value记忆网络中参与迭代计算各个Key值为各个样本问题文本中主语和谓语对应的向量；

307、将迭代计算后的各个语境特征向量分别输入第二双层循环神经网络进行解码，得到各个样本结果向量；

308、针对每个样本结果向量，通过内容相似度计算网络计算所述每个样本结果向量与各个意图向量之间的相似度，得到所述每个样本结果向量对应的各个相似度值，作为样本概率值，所述各个意图向量是指所述各个预设用户意图向量化后的向量值；

309、以所述每个样本结果向量对应的各个样本概率值为调整目标，调整所述第一双层循环神经网络、所述Key-Value记忆网络、所述第二双层循环神经网络和所述内容相似度计算网络的网络参数，以最小化所述每个样本结果向量对应的各个样本概率值与各个目标标记值之间的误差，所述各个目标标记值是指所述每个样本结果向量对应的样本问题向量的各个标记值；

310、若每个样本结果向量对应的各个样本概率值与各个目标标记值之间的误差满足预设的训练终止条件，则确定所述深度学习模型已训练好。

对于步骤301，本实施例中，针对实际应用场景，工作人员可以预先在服务器上设置好需要训练的各个预设用户意图，例如可以包括“问好”、“希望挂断”、“委婉拒绝”等意图，针对这些预设用户意图，工作人员还需要在具体应用场景下收集各自对应的用户话术，即用户的语音作为样本问题语音，比如用户实际咨询的问题语音。在收集样本问题语音时，服务器可以通过专业咨询平台、网络客服等渠道收集属于各个预设用户意图的样本问题语音。需要说明的是，每个预设用户意图对应的样本问题语音应当达到一定的数量级，各个预设用户意图之间样本问题语音的数量可以有一定差距，但不应相差过远，避免影响对深度学习模型的训练效果。例如，可以收集到的样本问题语音为：“问好”对应的样本问题语音的数量为100万条，“希望挂断”对应的样本问题语音的数量为20万条，“委婉拒绝”对应的样本问题语音的数量为30万条。

对于步骤302，与上述步骤102同理，服务器可以对收集到的样本问题语音分别进行音转字处理，得到样本问题文本，此处不再赘述。

对于步骤303，与上述步骤103同理，服务器也可以对所述样本问题文本进行向量化处理，得到样本问题向量。

对于步骤304，可以理解的是，在训练之前，需要对样本问题向量进行标记，本实施例中由于需要针对多个预设用户意图进行训练，因此应当针对不同的预设用户意图分别进行设定标记值。举例说明，假设共3个预设用户意图，分别为“问好”、“希望挂断”和“委婉拒绝”，假设共100万个样本问题向量，针对1号样本问题向量，由于该样本问题向量对应的样本问题文本的真实意图为“问好”，则将1号样本问题向量对“问好”的标记值设为1，对“希望挂断”和“委婉拒绝”的标记值均设为0；针对2号样本问题向量，由于该样本问题向量对应的样本问题文本的真实意图为“希望挂断”，则将2号样本问题向量对“希望挂断”的标记值设为1，对“问好”和“委婉拒绝”的标记值均设为0；同理将所有100万个样本问题向量均分别针对各个预设用户意图设定标记值，即完成训练前的样本标注工作。

需要说明的是，上述举例中将样本问题向量对应的预设用户意图的标记值记为1，其它的预设用户意图的标记值记为0，这只是其中一种标记值的设定方式。比如，也可以将样本问题向量对应的预设用户意图的标记值记为0.9，其它的预设用户意图的标记值记为0.8、0.7、0.6等等，只要比0.9小即可，保证样本问题向量对应的预设用户意图的标记值在所有标记值中最大即可。

对于步骤305，本实施例中，该深度学习模型中设有第一双层循环神经网络作为编码器，第二双层循环神经网络作为解码器，其中，该第一双层循环神经网络即为两层的RNN。步骤305中，首先，将样本问题向量输入到第一层RNN中进行卷积计算，通过合理设置第一层RNN的卷积核，计算出初步的特征表示(向量)，然后将初步的特征表示再输入第二层RNN做卷积计算，完成对该初步的特征表示的特征遍历，计算得到的特征表示结果可以认为是该样本问题向量对应的语境特征向量。步骤305的卷积计算过程由于完成了对样本问题向量的特征提取和编码，因此可以认为该第一双层循环神经网络为深度学习模型中的编码器。

对于步骤306，本实施例中，预先将各个样本问题向量的主语、谓语和宾语存储为Key-Value记忆网络中的各个Key-Value对。其中，Key值由样本问题向量中主语和谓语对应的部分向量组成，表示为(主语，谓语)，Value值由样本问题向量中宾语对应的部分向量组成，示为(宾语)。需要说明的是，上述所说的主语、谓语和宾语均以向量的形式表示，具体是指一个样本问题文本中主语、谓语和宾语对应字词的词向量。例如，对于“小明吃饭吗”这一样本问题文本，主语为“小明”一词对应的向量[1236]，谓语为“吃饭”一词对应的向量[1234]，从而该样本问题文本的Key值可以表示为([1236],[1234])。

具体地，步骤306中，服务器是将每个语境特征向量与Key-Value记忆网络中各个Key-Value对的Key值进行相似度计算，并将计算得到的相似度值存储为所述每个语境特征向量与各个Key值之间的注意力权重，然后利用该注意力权重来更新所述每个语境特征向量，如此反复迭代，直到达到预设的迭代次数或模型收敛，服务器再输出经过多次迭代计算后的语境特征向量。

为便于理解，上述过程可以通过下述公式一进行表达：

其中，q_j表示第j次迭代计算时语境特征向量，q_j+1表示第j+1次迭代计算时语境特征向量，i各个Key-Value对序号，也等于所述各个样本问题向量的数量，Φ_K为表示Key值，A和R_j为Key-Value记忆力网络的网络参数，Softmax函数为归一化指数函数，具体为

需要说明的是，本实施例中预设的迭代次数具体可以根据实际情况设定，比如可以设定为10次。而关于Key-Value记忆网络何时达到模型收敛的判断，本实施例中可以采用现有的损失函数(Loss function)来进行判定，比如可以采用互熵损失函数(SoftmaxLoss)来实现对Key-Value记忆网络的模型收敛判断，此处不再展开描述。

对于步骤307，可以理解的是，服务器执行不住306之后，得到迭代计算后的各个语境特征向量，此时，还需要将这些语境特征向量输入到第二双层循环神经网络中进行解码。本实施例中，该第二双层循环神经网络与上述的第一双层循环神经网络原理类似，同样是设置两层RNN，每层RNN通过合理设置卷积核对所述各个语境特征向量进行卷积计算，完成对各个语境特征向量的解码操作，从而最后得到各个样本结果向量。可以理解的是，服务器得到的样本结果向量的维度、尺寸与上述样本问题向量的维度、尺寸一致。

对于步骤308，服务器上预设了需要训练的各个预设用户意图，比如“问好”、“希望挂断”、“委婉拒绝”等意图，在训练时，为了衡量这些预设用户意图与样本结果向量之间的相似程度，服务器需要将各个预设用户意图向量化，得到各个意图向量。服务器在得到各个样本结果向量之后，可以针对每个样本结果向量，通过内容相似度计算网络计算所述每个样本结果向量与各个意图向量之间的相似度，得到所述每个样本结果向量对应的各个相似度值，并将这里的相似度值看作输出结果与预设用户意图之间的对应的可能性，记为样本概率值。

具体地，步骤308可以通过如下公式计算所述每个样本结果向量与各个意图向量之间的相似度，即该内容相似度计算网络可以通过以下公式进行表达：

exp(e_i,m)＝ω^Ttanh(Ws_m-1+Vh_m+b)

其中，ω和b均为向量，W和V为矩阵，ω、b、W、V为内容相似度计算网络的网络参数，α_i,m表示第二双层循环神经网络输出的样本结果向量s_m-1与意图向量h_m之间的相似度值，也即样本概率值，m为意图向量的序号，M为所述各个意图向量的数量，即共M个预设用户意图。

对于步骤309，可以理解的是，在训练深度学习模型的过程中，需要调整该深度学习模型的参数，具体在本实施例中，即调整所述第一双层循环神经网络、所述Key-Value记忆网络、所述第二双层循环神经网络和所述内容相似度计算网络的网络参数，比如上述的ω、b、W、V、A和R_j，等等。通过调整这些网络参数可以影响该深度学习模型最终的输出结果，使得每个样本结果向量对应的各个样本概率值与各个目标标记值之间的误差最小化。

对于上述步骤310，在调节上述网络参数的过程中，可以判断每个样本结果向量对应的各个样本概率值与各个目标标记值之间的误差满足预设的训练终止条件，若满足，则说明该深度学习模型中的各个网络参数已经调整到位，可以确定该深度学习模型已训练完成；反之，若不满足，则说明该深度学习模型还需要继续训练。

其中，该训练终止条件可以根据实际使用情况预先设定，具体地，可以将该训练终止条件设定为：若每个样本结果向量对应的各个样本概率值与各个目标标记值之间的误差均小于指定误差值，则认为其满足该预设的训练终止条件。或者，也可以将其设为：使用验证集中的样本问题语音执行上述步骤301-309，若深度学习模型输出的样本概率值与标记值之间的误差在一定范围内，则认为其满足该预设的训练终止条件。其中，该验证集中的样本问题语音的收集与上述步骤301类似，具体地，可以执行上述步骤301收集得到各个预设用户意图的样本问题语音后，将收集得到的样本问题语音中的一定比例划分为训练集，剩余的样本问题语音划分为验证集。比如，可以将收集得到的样本问题语音中随机划分80％作为后续训练深度学习模型的训练集的样本，将其它的20％划分为后续验证深度学习模型是否训练完成，也即是否满足预设训练终止条件的验证集的样本。

上面描述了基于注意力的深度学习模型的预先训练过程，为便于理解，下面承接上述训练过程的内容，详细描述一下使用该深度学习模型在实际使用中对目标问题向量的识别过程。如图5所示，更进一步地，所述深度学习模型包括第一双层循环神经网络、Key-Value记忆网络、第二双层循环神经网络和内容相似度计算网络四个部分，步骤104可以包括：

401、将所述目标问题向量输入所述第一双层循环神经网络进行编码，得到目标语境特征向量；

402、将所述目标语境特征向量投入所述Key-Value记忆网络中进行迭代计算，直到达到预设的迭代次数或模型收敛，然后输出迭代计算后的目标语境特征向量；

403、将迭代计算后的目标语境特征向量输入所述第二双层循环神经网络进行解码，得到目标结果向量；

404、通过所述内容相似度计算网络计算所述目标结果向量与各个意图向量之间的相似度，得到所述目标结果向量对应的各个相似度值，作为各个问题概率值。

上述步骤401-404与上述步骤305-308的原理类似，此处不再过多赘述。

在步骤401-404中，服务器先将所述目标问题向量输入所述第一双层循环神经网络进行编码，得到目标语境特征向量；然后，将所述目标语境特征向量投入所述Key-Value记忆网络中进行迭代计算，直到达到预设的迭代次数或模型收敛，然后输出迭代计算后的目标语境特征向量；接着，将迭代计算后的目标语境特征向量输入所述第二双层循环神经网络进行解码，得到目标结果向量；最后，服务器通过所述内容相似度计算网络计算所述目标结果向量与各个意图向量之间的相似度，得到所述目标结果向量对应的各个相似度值，作为各个问题概率值。可知，这里得到的各个问题概率值表征了用户提问的目标问题语音分别属于各个预设用户意图的可能性大小，某个问题概率值越大，则表示该问题概率值对应的预设用户意图越有可能是用户本次提供的真实意图。

105、从所述各个预设用户意图中选取出问题概率值最大的预设用户意图，作为所述用户的真实问题意图。

服务器在得到所述深度学习模型输出的、与各个预设用户意图分别对应的各个问题概率值之后，由于每个问题概率值各自表征了所述目标问题文本属于与所述每个问题概率值对应的预设用户意图的概率，因此，服务器可以从所述各个预设用户意图中选取出问题概率值最大的预设用户意图，这里选取出的预设用户意图在所有预设用户意图中最有可能是用户提问的真实意图，因此将其确定为所述用户的真实问题意图。

本实施例中，服务器在确定出用户的真实问题意图之后，还可以通过预先设置多个问题答案元组，从这些问题答案元组中选取出与真实问题意图对应的答案提供给用户，进而直接解决用户的提问。如图6所示，进一步地，在步骤105之后，本方法还可以包括：

501、获取预设的各个问题答案元组，每个问题答案元组由一个预设用户意图和与所述一个预设用户意图对应的答案组成，其中，所述各个问题答案元组的预设用户意图各不相同；

502、从所述各个问题答案元组中选取出预设用户意图与所述真实问题意图相同的一个问题答案元组，作为命中元组；

503、将所述命中元组的答案反馈至所述用户。

对于步骤501，可以理解的是，服务器上可以预先设置各个问题答案元组，每个问题答案元组由一个预设用户意图和与所述一个预设用户意图对应的答案组成，比如，某个问题答案元组为(问好；谢谢，你呢？)，其中，“问好”为该元组中的预设用户意图，“谢谢，你呢？”为该元组中的答案。并且，为了让所述各个问题答案元组覆盖所有预设用户意图，因此服务器上的所述各个问题答案元组的预设用户意图各不相同，即针对每个预设用户意图设置一个问题答案元组。

需要说明的是，为了让问题答案元组中的答案更加准确且具有代表性，这些问题答案元组中的答案可以预先经过人工筛选和唯一处理，将针对预设用户意图的最合适答案设置在问题答案元组中。比如，在一个实际应用场景下，可以预设5.2k个预设用户意图和30.8k个答案。在这5.2k预设用户意图中，仅仅保留其中的330个对本应用场景有意义的数据。相似地，30.8k答案中，人为挑选其中642个答案用作设定各个问题答案元组。最后，经过对答案的唯一处理和筛选，可以大约有1k个问题答案元组，覆盖了1k个用户可能提问的问题的真实意图并给出准确的答案。

对于步骤502和步骤503，容易理解的是，服务器在确定出用户的真实问题意图之后，可以从所述各个问题答案元组中选取出预设用户意图与所述真实问题意图相同的一个问题答案元组，作为命中元组，然后将所述命中元组的答案反馈至所述用户，即可完成对用户提问的解答。

本发明实施例中，首先，获取用户提问的目标问题语音；然后，对所述目标问题语音进行音转字处理，得到目标问题文本；接着，对所述目标问题文本进行向量化处理，得到目标问题向量；再之，将所述目标问题向量作为输入投入至预先训练好的基于注意力的深度学习模型，得到所述深度学习模型输出的、与各个预设用户意图分别对应的各个问题概率值，每个问题概率值各自表征了所述目标问题文本属于与所述每个问题概率值对应的预设用户意图的概率；最后，从所述各个预设用户意图中选取出问题概率值最大的预设用户意图，作为所述用户的真实问题意图。可见，本发明通过基于注意力的深度学习模型可以准确地从用户提问的目标问题语音出发识别出用户的真实意图，提升了意图识别的准确性，当应用于语音助手等语音识别情境时，可以大大减少答非所问的情况出现。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种问题意图识别装置，该问题意图识别装置与上述实施例中问题意图识别方法一一对应。如图7所示，该问题意图识别装置包括问题语音获取模块601、音转字模块602、文本向量化模块603、问题识别模块604和真实意图选取模块605。各功能模块详细说明如下：

问题语音获取模块601，用于获取用户提问的目标问题语音；

音转字模块602，用于对所述目标问题语音进行音转字处理，得到目标问题文本；

文本向量化模块603，用于对所述目标问题文本进行向量化处理，得到目标问题向量；

问题识别模块604，用于将所述目标问题向量作为输入投入至预先训练好的基于注意力的深度学习模型，得到所述深度学习模型输出的、与各个预设用户意图分别对应的各个问题概率值，每个问题概率值各自表征了所述目标问题文本属于与所述每个问题概率值对应的预设用户意图的概率；

真实意图选取模块605，用于从所述各个预设用户意图中选取出问题概率值最大的预设用户意图，作为所述用户的真实问题意图。

如图8所示，进一步地，所述深度学习模型包括第一双层循环神经网络、Key-Value记忆网络、第二双层循环神经网络和内容相似度计算网络四个部分，所述深度学习模型可以通过以下模块预先训练好：

样本收集模块606，用于收集属于所述各个预设用户意图的样本问题语音；

样本音转字模块607，用于对收集到的样本问题语音分别进行音转字处理，得到样本问题文本；

样本向量化模块608，用于对所述样本问题文本进行向量化处理，得到样本问题向量；

样本标记模块609，用于针对每个样本问题向量，为所述每个样本问题向量分别针对各个预设用户意图设定标记值，得到所述每个样本问题向量的各个标记值，其中，与所述每个样本问题向量对应的预设用户意图的标记值最大；

向量编码模块610，用于将所有所述样本问题向量分别输入第一双层循环神经网络进行编码，得到各个样本问题向量各自对应的语境特征向量；

迭代计算模块611，用于将各个所述语境特征向量分别投入Key-Value记忆网络中进行迭代计算，直到达到预设的迭代次数或模型收敛，然后输出迭代计算后的各个语境特征向量，所述Key-Value记忆网络中参与迭代计算各个Key值为各个样本问题文本中主语和谓语对应的向量；

向量解码模块612，用于将迭代计算后的各个语境特征向量分别输入第二双层循环神经网络进行解码，得到各个样本结果向量；

相似度值计算模块613，用于针对每个样本结果向量，通过内容相似度计算网络计算所述每个样本结果向量与各个意图向量之间的相似度，得到所述每个样本结果向量对应的各个相似度值，作为样本概率值，所述各个意图向量是指所述各个预设用户意图向量化后的向量值；

网络参数调整模块614，用于以所述每个样本结果向量对应的各个样本概率值为调整目标，调整所述第一双层循环神经网络、所述Key-Value记忆网络、所述第二双层循环神经网络和所述内容相似度计算网络的网络参数，以最小化所述每个样本结果向量对应的各个样本概率值与各个目标标记值之间的误差，所述各个目标标记值是指所述每个样本结果向量对应的样本问题向量的各个标记值；

训练完成确定模块615，用于若每个样本结果向量对应的各个样本概率值与各个目标标记值之间的误差满足预设的训练终止条件，则确定所述深度学习模型已训练好。

如图9所示，进一步地，所述问题识别模块604可以包括：

编码单元6041，用于将所述目标问题向量输入所述第一双层循环神经网络进行编码，得到目标语境特征向量；

向量迭代计算单元6042，用于将所述目标语境特征向量投入所述Key-Value记忆网络中进行迭代计算，直到达到预设的迭代次数或模型收敛，然后输出迭代计算后的目标语境特征向量；

解码单元6043，用于将迭代计算后的目标语境特征向量输入所述第二双层循环神经网络进行解码，得到目标结果向量；

相似度计算单元6044，用于通过所述内容相似度计算网络计算所述目标结果向量与各个意图向量之间的相似度，得到所述目标结果向量对应的各个相似度值，作为各个问题概率值。

进一步地，所述文本向量化模块可以包括：

第一转换单元，用于将所述目标问题文本中的各个目标字词分别转换为GloVe词向量，得到初始问题向量；

字词判断单元，用于判断所述各个目标字词是否均被GloVe词向量覆盖；

问题向量确定单元，用于若所述字词判断单元的判断结果为是，则确定所述初始问题向量为目标问题向量；

第二转换单元，用于若所述字词判断单元的判断结果为否，则将未被GloVe词向量覆盖的目标字词转换为TransE词向量，得到补充向量；

向量添加单元，用于将所述补充向量添加至所述初始问题向量，得到目标问题向量。

进一步地，所述问题意图识别装置还可以包括：

答案元组获取模块，用于获取预设的各个问题答案元组，每个问题答案元组由一个预设用户意图和与所述一个预设用户意图对应的答案组成，其中，所述各个问题答案元组的预设用户意图各不相同；

答案元组选取模块，用于从所述各个问题答案元组中选取出预设用户意图与所述真实问题意图相同的一个问题答案元组，作为命中元组；

答案反馈模块，用于将所述命中元组的答案反馈至所述用户。

关于问题意图识别装置的具体限定可以参见上文中对于问题意图识别方法的限定，在此不再赘述。上述问题意图识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储问题意图识别方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种问题意图识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中问题意图识别方法的步骤，例如图2所示的步骤101至步骤105。或者，处理器执行计算机程序时实现上述实施例中问题意图识别装置的各模块/单元的功能，例如图7所示模块601至模块605的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中问题意图识别方法的步骤，例如图2所示的步骤101至步骤105。或者，计算机程序被处理器执行时实现上述实施例中问题意图识别装置的各模块/单元的功能，例如图7所示模块601至模块605的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种问题意图识别方法，其特征在于，包括：

获取用户提问的目标问题语音；

对所述目标问题语音进行音转字处理，得到目标问题文本；

对所述目标问题文本进行向量化处理，得到目标问题向量；

从所述各个预设用户意图中选取出问题概率值最大的预设用户意图，作为所述用户的真实问题意图；

其中，所述深度学习模型包括第一双层循环神经网络、Key-Value记忆网络、第二双层循环神经网络和内容相似度计算网络四个部分，所述深度学习模型通过以下步骤预先训练好：

收集属于所述各个预设用户意图的样本问题语音；

对收集到的样本问题语音分别进行音转字处理，得到样本问题文本；

对所述样本问题文本进行向量化处理，得到样本问题向量；

针对每个样本问题向量，为所述每个样本问题向量分别针对各个预设用户意图设定标记值，得到所述每个样本问题向量的各个标记值，其中，与所述每个样本问题向量对应的预设用户意图的标记值最大；

将所有所述样本问题向量分别输入第一双层循环神经网络进行编码，得到各个样本问题向量各自对应的语境特征向量；

将各个所述语境特征向量分别投入Key-Value记忆网络中进行迭代计算，直到达到预设的迭代次数或模型收敛，然后输出迭代计算后的各个语境特征向量，所述Key-Value记忆网络中参与迭代计算的各个Key值为各个样本问题文本中主语和谓语对应的向量；

将迭代计算后的各个语境特征向量分别输入第二双层循环神经网络进行解码，得到各个样本结果向量；

针对每个样本结果向量，通过内容相似度计算网络计算所述每个样本结果向量与各个意图向量之间的相似度，得到所述每个样本结果向量对应的各个相似度值，作为样本概率值，所述各个意图向量是指所述各个预设用户意图向量化后的向量值；

以所述每个样本结果向量对应的各个样本概率值为调整目标，调整所述第一双层循环神经网络、所述Key-Value记忆网络、所述第二双层循环神经网络和所述内容相似度计算网络的网络参数，以最小化所述每个样本结果向量对应的各个样本概率值与各个目标标记值之间的误差，所述各个目标标记值是指所述每个样本结果向量对应的样本问题向量的各个标记值；

若每个样本结果向量对应的各个样本概率值与各个目标标记值之间的误差满足预设的训练终止条件，则确定所述深度学习模型已训练好。

2.根据权利要求1所述的问题意图识别方法，其特征在于，所述将所述目标问题向量作为输入投入至预先训练好的基于注意力的深度学习模型，得到所述深度学习模型输出的、与各个预设用户意图分别对应的各个问题概率值包括：

将所述目标问题向量输入所述第一双层循环神经网络进行编码，得到目标语境特征向量；

将所述目标语境特征向量投入所述Key-Value记忆网络中进行迭代计算，直到达到预设的迭代次数或模型收敛，然后输出迭代计算后的目标语境特征向量；

将迭代计算后的目标语境特征向量输入所述第二双层循环神经网络进行解码，得到目标结果向量；

通过所述内容相似度计算网络计算所述目标结果向量与各个意图向量之间的相似度，得到所述目标结果向量对应的各个相似度值，作为各个问题概率值。

3.根据权利要求1所述的问题意图识别方法，其特征在于，所述对所述目标问题文本进行向量化处理，得到目标问题向量包括：

将所述目标问题文本中的各个目标字词分别转换为GloVe词向量，得到初始问题向量；

判断所述各个目标字词是否均被GloVe词向量覆盖；

若所述各个目标字词均被GloVe词向量覆盖，则确定所述初始问题向量为目标问题向量；

若所述各个目标字词中任一个目标字词未被GloVe词向量覆盖，则将未被GloVe词向量覆盖的目标字词转换为TransE词向量，得到补充向量；

将所述补充向量添加至所述初始问题向量，得到目标问题向量。

4.根据权利要求1至3中任一项所述的问题意图识别方法，其特征在于，在从所述各个预设用户意图中选取出问题概率值最大的预设用户意图，作为所述用户的真实问题意图之后，还包括：

获取预设的各个问题答案元组，每个问题答案元组由一个预设用户意图和与所述一个预设用户意图对应的答案组成，其中，所述各个问题答案元组的预设用户意图各不相同；

从所述各个问题答案元组中选取出预设用户意图与所述真实问题意图相同的一个问题答案元组，作为命中元组；

将所述命中元组的答案反馈至所述用户。

5.一种问题意图识别装置，其特征在于，包括：

问题语音获取模块，用于获取用户提问的目标问题语音；

真实意图选取模块，用于从所述各个预设用户意图中选取出问题概率值最大的预设用户意图，作为所述用户的真实问题意图；

其中，所述深度学习模型包括第一双层循环神经网络、Key-Value记忆网络、第二双层循环神经网络和内容相似度计算网络四个部分，所述深度学习模型通过以下模块预先训练好：

样本收集模块，用于收集属于所述各个预设用户意图的样本问题语音；

样本音转字模块，用于对收集到的样本问题语音分别进行音转字处理，得到样本问题文本；

样本向量化模块，用于对所述样本问题文本进行向量化处理，得到样本问题向量；

样本标记模块，用于针对每个样本问题向量，为所述每个样本问题向量分别针对各个预设用户意图设定标记值，得到所述每个样本问题向量的各个标记值，其中，与所述每个样本问题向量对应的预设用户意图的标记值最大；

向量编码模块，用于将所有所述样本问题向量分别输入第一双层循环神经网络进行编码，得到各个样本问题向量各自对应的语境特征向量；

迭代计算模块，用于将各个所述语境特征向量分别投入Key-Value记忆网络中进行迭代计算，直到达到预设的迭代次数或模型收敛，然后输出迭代计算后的各个语境特征向量，所述Key-Value记忆网络中参与迭代计算的各个Key值为各个样本问题文本中主语和谓语对应的向量；

向量解码模块，用于将迭代计算后的各个语境特征向量分别输入第二双层循环神经网络进行解码，得到各个样本结果向量；

相似度值计算模块，用于针对每个样本结果向量，通过内容相似度计算网络计算所述每个样本结果向量与各个意图向量之间的相似度，得到所述每个样本结果向量对应的各个相似度值，作为样本概率值，所述各个意图向量是指所述各个预设用户意图向量化后的向量值；

网络参数调整模块，用于以所述每个样本结果向量对应的各个样本概率值为调整目标，调整所述第一双层循环神经网络、所述Key-Value记忆网络、所述第二双层循环神经网络和所述内容相似度计算网络的网络参数，以最小化所述每个样本结果向量对应的各个样本概率值与各个目标标记值之间的误差，所述各个目标标记值是指所述每个样本结果向量对应的样本问题向量的各个标记值；

训练完成确定模块，用于若每个样本结果向量对应的各个样本概率值与各个目标标记值之间的误差满足预设的训练终止条件，则确定所述深度学习模型已训练好。

6.根据权利要求5所述的问题意图识别装置，其特征在于，所述问题识别模块包括：

编码单元，用于将所述目标问题向量输入所述第一双层循环神经网络进行编码，得到目标语境特征向量；

向量迭代计算单元，用于将所述目标语境特征向量投入所述Key-Value记忆网络中进行迭代计算，直到达到预设的迭代次数或模型收敛，然后输出迭代计算后的目标语境特征向量；

解码单元，用于将迭代计算后的目标语境特征向量输入所述第二双层循环神经网络进行解码，得到目标结果向量；

相似度计算单元，用于通过所述内容相似度计算网络计算所述目标结果向量与各个意图向量之间的相似度，得到所述目标结果向量对应的各个相似度值，作为各个问题概率值。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述问题意图识别方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述问题意图识别方法。