CN108536807A

CN108536807A - 一种信息处理方法及装置

Info

Publication number: CN108536807A
Application number: CN201810295986.8A
Authority: CN
Inventors: 李杨; 缪庆亮; 郭同; 王超; 赵国光
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-09-14
Anticipated expiration: 2038-04-04
Also published as: CN108536807B

Abstract

本发明提供一种信息处理方法及装置，在接收到用户问题后，可以对用户问题进行拆分，得到用户问题对应的问题分句，并对任一预设标准问题和任一预设标准问题对应的答案：获取该预设标准问题与用户问题之间的第一信息，以及获取该预设标准问题对应的答案与用户问题之间的第二信息，进而可以根据用户问题对应的问题分句，第一信息和第二信息，确定用户问题和预设标准问题之间的相关程度，实现用户问题、预设标准问题和预设标准问题对应的答案相结合来确定用户问题和预设标准问题之间的相关程度，这样就可以根据相关程度从所有预设标准问题中获取与用户问题匹配的预设标准问题和预设标准问题对应的答案，从而提高为用户问题匹配到的答案的准确度。

Description

一种信息处理方法及装置

技术领域

本发明属于信息处理技术领域，更具体地说，尤其涉及一种信息处理方法及装置。

背景技术

随着信息技术的发展，在线系统可以为用户提供越来越丰富的在线业务服务，如在线智能问答服务，以通过在线智能问答服务来自动解答用户问题 (即用户提出的问题)，如在调用在线智能问答服务时，为用户提供在线业务咨询界面，通过在线业务咨询界面来获取用户问题，对用户问题进行分析后给出该用户问题的答案。

但是用户问题中包含有与用户真实意图无关的信息，如用户问题为：I had amoto z.My engish is bad！I want to update it’s operation system，在该用户问题中与用户真实意图无关的信息是：I had a moto z.My engish is bad！，因此如何从用户问题中确定出与用户真实意图相关的信息，以此提高为用户问题匹配到的答案的准确度是亟需解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种信息处理方法及装置，用于提高为用户问题匹配到的答案的准确度。技术方案如下：

本发明提供一种信息处理方法，所述方法包括：

接收用户问题，所述用户问题为用户输入的问题；

对所述用户问题进行拆分，得到所述用户问题对应的问题分句；

对任一预设标准问题和任一预设标准问题对应的答案：获取该预设标准问题与所述用户问题之间的第一信息，以及获取该预设标准问题对应的答案与所述用户问题之间的第二信息；

根据所述用户问题对应的问题分句、所述第一信息和所述第二信息，确定所述用户问题和所述预设标准问题之间的相关程度。

优选的，所述对任一预设标准问题和任一预设标准问题对应的答案：获取该预设标准问题与所述用户问题之间的第一信息，以及获取该预设标准问题对应的答案与所述用户问题之间的第二信息包括：

对任一预设标准问题和任一预设标准问题对应的答案：获取该预设标准问题与所述用户问题之间的向量表示，以及获取该预设标准问题对应的答案与所述用户问题之间的向量表示，所述该预设标准问题与所述用户问题之间的向量表示为所述第一信息，所述该预设标准问题对应的答案与所述用户问题之间的向量表示为所述第二信息。

优选的，所述根据所述用户问题对应的问题分句、所述第一信息和所述第二信息，确定所述用户问题和所述预设标准问题之间的相关程度包括：

根据所述用户问题对应的问题分句，得到所述用户问题对应的向量表示；

确定所述预设标准问题对应的向量表示以及所述预设标准问题对应的答案的向量表示；

根据所述用户问题对应的向量表示、所述预设标准问题对应的向量表示、所述预设标准问题对应的答案的向量表示、所述预设标准问题与所述用户问题之间的向量表示和所述预设标准问题对应的答案与所述用户问题之间的向量表示，确定所述用户问题和所述预设标准问题之间的相关程度。

优选的，所述获取该预设标准问题与所述用户问题之间的向量表示，以及获取该预设标准问题对应的答案与所述用户问题之间的向量表示包括：将该预设标准问题以及该预设标准问题对应的答案分别作为输入信息，对每个输入信息分别执行如下操作：

根据所述用户问题对应的问题分句的句向量和该输入信息对应的分句的句向量，得到所述用户问题与该输入信息之间的矩阵，所述矩阵中的每个元素表明所述用户问题对应的问题分句的句向量与该输入信息对应的分句的句向量之间的相关程度；

根据所述用户问题与该输入信息之间的矩阵，得到所述用户问题相对该输入信息的注意力权重向量以及该输入信息相对所述用户问题的注意力权重向量；

根据所述用户问题相对该输入信息的注意力权重向量、该输入信息相对所述用户问题的注意力权重向量、所述用户问题对应的问题分句的句向量和该输入信息对应的分句的句向量，得到该输入信息与所述用户问题之间的向量表示。

优选的，所述根据所述用户问题对应的问题分句，得到所述用户问题对应的向量表示包括：

获取所述用户问题对应的问题分句中词语的词向量；

根据所述用户问题对应的问题分句中词语的词向量，得到所述用户问题对应的向量表示。

优选的，所述方法还包括：对所述用户问题进行预处理，得到符合预设格式要求的用户问题；

所述对所述用户问题进行拆分，得到所述用户问题对应的问题分句包括：对符合预设格式要求的用户问题进行拆分，得到符合预设格式要求的用户问题对应的问题分句。

本发明还提供一种信息处理装置，所述装置包括：

接收单元，用于接收用户问题，所述用户问题为用户输入的问题；

拆分单元，用于对所述用户问题进行拆分，得到所述用户问题对应的问题分句；

获取单元，用于对任一预设标准问题和任一预设标准问题对应的答案：获取该预设标准问题与所述用户问题之间的第一信息，以及获取该预设标准问题对应的答案与所述用户问题之间的第二信息；

确定单元，用于根据所述用户问题对应的问题分句、所述第一信息和所述第二信息，确定所述用户问题和所述预设标准问题之间的相关程度。

优选的，所述获取单元，具体用于对任一预设标准问题和任一预设标准问题对应的答案：获取该预设标准问题与所述用户问题之间的向量表示，以及获取该预设标准问题对应的答案与所述用户问题之间的向量表示，所述该预设标准问题与所述用户问题之间的向量表示为所述第一信息，所述该预设标准问题对应的答案与所述用户问题之间的向量表示为所述第二信息。

优选的，所述确定单元包括：

获得子单元，用于根据所述用户问题对应的问题分句，得到所述用户问题对应的向量表示；

向量确定子单元，用于确定所述预设标准问题对应的向量表示以及所述预设标准问题对应的答案的向量表示；

确定子单元，用于根据所述用户问题对应的向量表示、所述预设标准问题对应的向量表示、所述预设标准问题对应的答案的向量表示、所述预设标准问题与所述用户问题之间的向量表示和所述预设标准问题对应的答案与所述用户问题之间的向量表示，确定所述用户问题和所述预设标准问题之间的相关程度。

优选的，所述获取单元包括：

矩阵获得子单元，用于将该预设标准问题以及该预设标准问题对应的答案分别作为输入信息，对每个输入信息：根据所述用户问题对应的问题分句的句向量和该输入信息对应的分句的句向量，得到所述用户问题与该输入信息之间的矩阵，所述矩阵中的每个元素表明所述用户问题对应的问题分句的句向量与该输入信息对应的分句的句向量之间的相关程度；

权重向量获得子单元，用于根据所述用户问题与该输入信息之间的矩阵，得到所述用户问题相对该输入信息的注意力权重向量以及该输入信息相对所述用户问题的注意力权重向量；

向量表示获得子单元，用于根据所述用户问题相对该输入信息的注意力权重向量、该输入信息相对所述用户问题的注意力权重向量、所述用户问题对应的问题分句的句向量和该输入信息对应的分句的句向量，得到该输入信息与所述用户问题之间的向量表示。

优选的，所述获得子单元，具体用于获取所述用户问题对应的问题分句中词语的词向量；根据所述用户问题对应的问题分句中词语的词向量，得到所述用户问题对应的向量表示。

优选的，所述装置还包括：预处理单元，用于对所述用户问题进行预处理，得到符合预设格式要求的用户问题；

所述拆分单元，具体用于对符合预设格式要求的用户问题进行拆分，得到符合预设格式要求的用户问题对应的问题分句。

本发明还提供一种存储介质，所述存储介质上存储有程序代码，所述程序代码用于实现上述信息处理方法。

与现有技术相比，本发明提供的上述技术方案具有如下优点：

从上述技术方案可知，在接收到用户问题后，可以对用户问题进行拆分，得到用户问题对应的问题分句，并对任一预设标准问题和任一预设标准问题对应的答案：获取该预设标准问题与用户问题之间的第一信息，以及获取该预设标准问题对应的答案与用户问题之间的第二信息，进而可以根据用户问题对应的问题分句，第一信息和第二信息，确定用户问题和预设标准问题之间的相关程度，实现用户问题、预设标准问题和预设标准问题对应的答案这三种语料相结合来确定用户问题和预设标准问题之间的相关程度，这样就可以根据相关程度从所有预设标准问题中获取与用户问题匹配的预设标准问题和预设标准问题对应的答案，进而将与用户问题匹配的预设标准问题对应的答案确定为与用户问题对应的答案。并且相关程度是由用户问题、预设标准问题和预设标准问题对应的答案这三种语料相结合来确定，因此通过这三种语料相结合的方式可以提高用户问题和根据相关程度获取到的预设标准问题对应的答案的匹配度，从而提高为用户问题匹配到的答案的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的信息处理方法的一种流程图；

图2是本发明实施例提供的信息处理方法中获取第一信息和第二信息的流程图；

图3是本发明实施例提供的信息处理方法中确定用户问题和预设标准问题之间的相关程度的流程图；

图4是本发明实施例提供的信息处理方法的另一种流程图；

图5是本发明实施例提供的信息处理装置的一种结构示意图；

图6是本发明实施例提供的信息处理装置中获取单元的结构示意图；

图7是本发明实施例提供的信息处理装置中确定单元的结构示意图；

图8是本发明实施例提供的信息处理装置的另一种结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的信息处理方法的一种流程图，用于提高为用户问题匹配到的答案的准确度，可以包括以下步骤：

101：接收用户问题。可以理解的是，用户问题为用户输入的问题，用户可以借助于具备输入功能的设备，如电子设备中的按键(物理按键或虚拟按键)、书写笔和话筒等等输入问题。例如用户可以借助于按键或书写笔输入用户问题，或者借助于话筒录制一段语音，将该语音确定为用户问题，当然也可以利用语音识别技术将该语音转换成一段文字，将该文字确定为用户问题。

102：对用户问题进行拆分，得到用户问题对应的问题分句。之所以需要拆分成问题分句是用户问题是一个复句(即由多句话组成)，这个复句中存在影响用户真实意图的干扰信息，通过对用户问题的拆分可以从用户问题中确定出与用户真实意图对应的问题分句，减少干扰信息(如与用户真实意图无关的问题分句)对用户真实意图的影响，从而提高匹配的准确度，并且句子级别的计算相对于词级别计算更加快速。

在本实施例中，可以利用语法分析技术确定出视为复句的用户问题包含的每个分句(复句中相对独立的单句)，以将每个分句确定为问题分句。例如可以利用NLTK(NaturalLanguage Toolkit，自然语言处理工具包)、NLP(Natural Language Processing，自然语言处理)技术和sklearn分类器等中的任意一种对用户问题进行拆分，对此本实施例不再对NLTK、NLP技术和sklearn分类器进行详述。

103：对任一预设标准问题和任一预设标准问题对应的答案：获取该预设标准问题与用户问题之间的第一信息，以及获取该预设标准问题对应的答案与用户问题之间的第二信息。

其中预设标准问题是对多个用户问题进行分析，得到的与用户真实意图匹配的标准问题，通常预设标准问题是单句(即一句话)，以通过简短语句来表达用户真实意图，而预设标准问题对应的答案则是为预设标准问题总结出的标准答案，通常预设标准问题对应的答案是复句(即由多句话组成)，并且每个预设标准问题对应有一个标准答案，预设标准问题和预设标准问题对应的答案以对应方式(如预设标准问题和该预设标准问题对应的答案在一行) 可以存储在预设问题库中，这样在接收到任一用户问题后，可以获取每个预设标准问题与用户问题之间的第一信息以及每个预设标准问题对应的答案与用户问题之间的第二信息。

在本实施例中，第一信息用于表明用户问题对应的问题分句与预设标准问题的相关程度，第二信息用于表明用户问题对应的问题分句与预设标准问题对应的答案的相关程度，以通过相关程度从用户问题中确定出与用户真实意图对应的问题分句，从而降低复杂冗长的用户问题中干扰信息对用户问题的影响，并且通过与用户真实意图对应的问题分句、第一信息和第二信息从所有预设标准问题中查找匹配的预设标准问题和预设标准问题对应的答案，以提高为用户问题匹配到的答案的准确度。

例如，用户问题是：“I had a moto z.my engish is bad！I want to update it’s operation system.”，对用户问题拆分得到的问题分句“I had a moto z.”、“my engishis bad！”和“I want to update it’s operation system.”，对应的预设标准问题是“update operation system”，由此可知该用户问题中问题分句“I had a moto z.”和“myengish is bad！”与预设标准问题的相关程度较小，说明问题分句“I had a moto z.”和“my engish is bad！”与用户真实意图无关，问题分句“I want to update it’soperation system.”与预设标准问题的相关程度较大，说明问题分句“I want to updateit’s operation system.”与用户真实意图相关，因此可以将 “I had a moto z.”和“myengish is bad！”视为是用户问题中的干扰信息，在查找匹配的预设标准问题和预设标准问题对应的答案时排除这些干扰信息，而通过“I want to update it’s operationsystem.”这一问题分句结合第一信息和第二信息从所有预设标准问题中查找匹配的预设标准问题和预设标准问题对应的答案，这样匹配到的预设标准问题和答案与用户真实意图相关程度大大提高，从而提高为用户问题匹配的答案的准确度。

在本实施例中，对于任一预设标准问题和预设标准问题对应的答案来说，可以将该预设标准问题与用户问题之间的向量表示确定为该预设标准问题与用户问题之间的第一信息，将该预设标准问题对应的答案与用户问题之间的向量表示确定为该预设标准问题对应的答案与用户问题之间的第二信息。而对于任一预设标准问题和预设标准问题对应的答案来说，获取各自与用户问题之间的向量表示的过程类似，在本实施例中，将该预设标准问题以及该预设标准问题对应的答案分别作为输入信息，对每个输入信息分别执行如图2 所示流程，以获取到输入信息与用户问题之间的向量表示，可以包括以下步骤：

201：根据用户问题对应的问题分句的句向量和该输入信息对应的分句的句向量，得到用户问题与该输入信息之间的矩阵，其中矩阵中的每个元素表明用户问题对应的问题分句的句向量与该输入信息对应的分句的句向量之间的相关程度。

对于用户问题来说，得到用户问题对应的问题分句的句向量的过程可以是：获取用户问题对应的问题分句中词语的词向量；根据用户问题对应的问题分句中词语的词向量，得到问题分句对应的向量表示。

其中，获取问题分句中词语的词向量的过程是将问题分句中的词语转化成为稠密向量的过程，其可以通过神经网络语言模型，如word2vec、Glove (Global Vectors forWord Representation)等对问题分句中的词语进行转化，得到词向量，如对问题分句中词语通过Glove转化得到glove词向量，然后对词向量进行转化得到句向量，如通过CNN(Convolutional Neural Networks，卷积神经网络)、LSTM(Long Short-Term Memory，长短期记忆)或者其他模型对词向量进行转化得到句向量。当然在转化得到glove词向量之后还可以将其作为问题分句中词语的初始词向量，将初始词向量输入到预设分类模型中对初始词向量进行更新，然后对更新后的词向量进行转化得到句向量。

预设分类模型是根据已有用户问题、预设标准问题和预设标准问题对应的答案训练得出的用于评价用户问题与预设标准问题的相关程度的模型，并且通过该模型可以得到适配于用户问题的词向量，由该模型可以对词向量进行基于CNN或LSTM的转化得到句向量，因此通过预设分类模型对初始词向量进行更新后使得更新后的词向量适配于模型要求，从而提高匹配的准确度。

对于输入信息来说，得到输入信息对应的句向量的过程可以是：对输入信息进行拆分，得到输入信息对应的分句，获取输入信息对应的分句中词语的词向量，根据输入信息对应的分句中词语的词向量，得到输入信息对应的分句的句向量，对输入信息的拆分以及得到输入信息对应的分句的句向量可以参照对用户问题拆分和得到问题分句对应的句向量的过程，对此不再赘述。

在得到用户问题对应的问题分句的句向量和输入信息对应的分句的句向量之后，可以将句向量输入到预设相关程度计算模型中，得到用户问题与该输入信息之间的矩阵，如预设相关程度计算模型可以是用于表示相关程度的相似度计算模型(attentionmodel)，如余弦相似度计算模型，得到句向量之间的余弦相似度，句向量之间的余弦相似度作为用户问题与输入信息之间的矩阵中的元素，以通过句向量之间的余弦相似度表明用户问题对应的问题分句的句向量与该输入信息对应的分句的句向量之间的相关程度。可以理解的是：句向量之间的余弦相似度越大，说明该余弦相似度对应的两个句向量对应的分句之间的相似度也越大，由此说明两个分句的相关程度越大，反之说明两个分句的相关程度越小。

例如假设用户问题为input1，输入信息为input2，其中input1包含三个问题分句，分别是input1_sen1、input1_sen2和input1_sen3；input2包含两个分句，分别是input2_sen1和input2_sen2，用户问题与输入信息之间的矩阵中的元素采用余弦相似度来表示句向量之间的相关程度，如表1所示，则input1 和input2之间的矩阵D(m*n维矩阵)中每个元素的计算公式如下：

d_ij＝cos(input1_seni,input2_senj)，其中m和n分别表示input1和input2中分句的数量。

表1句向量之间的余弦相似度

	input2_sen1	input2_sen2
			input1_sen1	d₁₁	d₁₂
input1_sen2	d₂₁	d₂₂
			input1_sen3	d₃₁	d₃₂

202：根据用户问题与该输入信息之间的矩阵，得到用户问题相对该输入信息的注意力权重向量以及该输入信息相对用户问题的注意力权重向量。过程如下：

对用户问题中的任一问题分句：确定矩阵中与该问题分句对应的所有元素，如以input_sent1来说，确定input_sent1对应的所有元素d₁₁和d₁₂；根据该问题分句对应的所有问题，得到该问题分句的注意力权重，如通过对该问题分句对应的所有元素进行求和得到，然后在得到用户问题中每个问题分句的注意力权重之后，对其进行归一化处理得到用户问题相对输入信息的注意力权重向量。对于输入信息来说，得到输入信息相对用户问题的注意力权重向量的过程与得到用户问题相对输入信息的注意力权重向量相同，对此本实施例不再赘述。

仍以上述用户问题为input1，输入信息为input2为例，矩阵D中每行元素是与input1中的问题分句对应的元素，每列元素是与input2中的分句对应的元素，则对input1而言，对矩阵D的每一行(一行对应用户问题的一个问题分句)按照公式求和得到每一行的注意力权重E⁰[i]，然后使用softmax函数对其进行归一化处理，得到用户问题相对输入信息的注意力权重向量，如softmax(E⁰[1],E⁰[2],E⁰[3])；对于input2而言，对矩阵D的每一列 (一列对应输入信息的一个分句)按照公式求和得到每一行的注意力权重E¹[j]，然后使用softmax函数对其进行归一化处理，如 softmax(E⁰[1],E⁰[2],E⁰[3])。

在这里需要说明的一点是：用户问题和输入信息中相关的两个句向量之间的相似度大于不相关的两个句向量之间的相似度，进而根据相似度得到的注意力权重向量中相关的两个句向量对应的注意力权重也越大，由此可以突出用户问题中与输入信息相关的问题分句，降低干扰信息的影响。

203：根据用户问题相对该输入信息的注意力权重向量、该输入信息相对用户问题的注意力权重向量、用户问题对应的问题分句的句向量和该输入信息对应的分句的句向量，得到该输入信息与用户问题之间的向量表示。例如可以通过但不限于以下方式得到输入信息与用户问题之间的向量表示：

将用户问题相对该输入信息的注意力权重向量和用户问题对应的问题分句的句向量相乘，得到用户问题对应的更新后的句向量集合，该句向量集合中包含每个问题分句对应的更新后的句向量，具体的将用户问题相对该输入信息的注意力权重向量中问题分句的注意力权重与该问题分句的句向量相乘，得到问题分句对应的更新后的句向量，以上述input1为例，对于input1 中的input1_sen1而言，将用户问题相对该输入信息的注意力权重向量中 input1_sen1的注意力权重与input1_sen1的句向量相乘。同样的将该输入信息相对用户问题的注意力权重向量与该输入信息对应的分句的句向量，得到输入信息对应的更新后的句向量集合，然后根据用户问题对应的更新后的句向量集合和输入信息对应的更新后的句向量集合，得到该输入信息与用户问题之间的向量表示，如该输入信息与用户问题之间的向量表示 attention_result＝concat(input1_att,input2_att)，其中input1_att是用户问题对应的更新后的句向量集合，input2_att是输入信息对应的更新后的句向量集合。

104：根据用户问题对应的问题分句、第一信息和第二信息，确定用户问题和预设标准问题之间的相关程度，以通过用户问题和预设标准问题之间的相关程度，确定与用户问题匹配的预设标准问题，进而为用户问题查找到匹配的答案。

例如可以根据用户问题和预设标准问题之间的相关程度，将相关程度在预设范围内的预设标准问题确定为与用户问题匹配的预设标准问题，或者按照用户问题和预设标准问题之间的相关程度由大到小的顺序，对预设标准问题进行排序，将排序在预设前N位的预设标准问题确定为与用户问题匹配的预设标准问题，其中N为大于或等于1的自然数，预设范围可以根据实际应用而定对此本实施例不进行限定。以相似度表征用户问题和预设标准问题之间的相关程度为例，可以将相似度在预设范围内的预设标准问题确定为与用户问题匹配的预设标准问题，或者按照用户问题和预设标准问题之间的相似度由大到小的顺序，对预设标准问题进行排序，将排序在预设前N位的预设标准问题确定为与用户问题匹配的预设标准问题。当然还可以采用相关概率来表示用户问题和预设标准问题之间的相关程度，并根据相关概率来确定与用户问题匹配的预设标准问题。

在本实施例中，确定用户问题和预设标准问题之间的相关程度的过程如图3所示，可以包括以下步骤：

301：根据用户问题对应的问题分句，得到用户问题对应的向量表示。其中得到用户问题对应的向量表示的过程可以是：获取用户问题对应的问题分句中词语的词向量；根据用户问题对应的问题分句中词语的词向量，得到问题分句对应的句向量，由问题分句对应的句向量组合成用户问题对应的向量表示(用户问题对应的向量表示是问题分句对应的句向量的集合)，对于如何得到词向量和句向量可以参照上述步骤201中的相关说明，对此本实施例不再阐述。

302：确定预设标准问题对应的向量表示以及预设标准问题对应的答案的向量表示，其过程可以是：将预设标准问题和预设标准问题对应的答案分别视为输入信息，对每个输入信息分别执行以下过程：

对输入信息进行拆分，得到输入信息对应的分句，获取输入信息对应的分句中词语的词向量，根据输入信息对应的分句中词语的词向量，得到分句对应的句向量，由分句对应的句向量组合成输入信息对应的向量表示(输入信息对应的向量表示是输入信息对应的分句的句向量的集合)，对输入信息的拆分、得到词向量和句向量的过程可以参照对用户问题拆分和得到用户问题对应的向量表示的过程，对此不再赘述。

在这里需要说明的一点是，在获取预设标准问题与用户问题之间的向量表示和预设标准问题对应的答案与用户问题之间的向量表示也需要用户问题对应的问题分句的句向量和输入信息对应的分句的句向量，在本实施例可以获取到一次用户问题对应的问题分句的句向量和输入信息对应的分句的句向量后，在其他步骤直接使用即可，无需重复计算。

303：根据用户问题对应的向量表示、预设标准问题对应的向量表示、预设标准问题对应的答案的向量表示、预设标准问题与用户问题之间的向量表示和预设标准问题对应的答案与用户问题之间的向量表示，确定用户问题和预设标准问题之间的相关程度。例如根据用户问题对应的向量表示、预设标准问题对应的向量表示、预设标准问题对应的答案的向量表示、预设标准问题与用户问题之间的向量表示和预设标准问题对应的答案与用户问题之间的向量表示，计算出可表征用户问题和预设标准问题之间的相关程度的参数，如相关概率或相似度等等。

以相关概率为例，可以根据用户问题对应的向量表示、预设标准问题对应的向量表示、预设标准问题对应的答案的向量表示、预设标准问题与用户问题之间的向量表示和预设标准问题对应的答案与用户问题之间的向量表示，结合sigmoid函数计算用户问题和预设标准问题之间的相关概率，如 sigmoid函数表示如下：

1/1+e^-ωx，其中x为用户问题对应的向量表示_、预设标准问题对应的向量表示、预设标准问题对应的答案的向量表示、预设标准问题与用户问题之间的向量表示和预设标准问题对应的答案与用户问题之间的向量表示组合成的向量，将组合得到的向量代入sigmoid函数即可得到用户问题和预设标准问题之间的相关概率，以根据相关概率确定出与用户问题匹配的预设标准问题，而与用户问题匹配的预设标准问题是综合考虑用户问题、预设标准问题、预设标准问题对应的答案以及相互之间的关系(如向量表示)得到，因此可以提高与用户匹配的预设标准问题的准确度，进而基于该匹配出的预设标准问题查找到的答案的准确度也得到提高。

请参阅图4，其示出了本发明实施例提供的信息处理方法的另一种流程图，可以包括以下步骤：

401：接收用户问题。

402：对用户问题进行预处理，得到符合预设格式要求的用户问题。

可以理解的是：对用户问题进行预处理的目的是：使得用户问题符合预设格式要求，从而使得用户问题中的用语与预设标准问题中的用语一致，便于用户问题与预设标准问题的匹配。

在本实施例中，对用户问题的预处理包括但不限于是：将用户问题中的词语转化为小写、拼写错误检查、领域实体词汇替换为预设词汇(例如在智能手机领域将不同的手机名替换成同一固定的词汇)、名词复数转化为单数形式和对过去式等不同时态下的动词归一化为一般时态下词汇。

当然对于预设标准问题和预设标准问题对应的答案来说，若这两者不符合预设格式要求，也需要对其进行预处理使其符合预设格式要求。

例如用户问题为：“I had a moto z.My engish is bad！I want to update it’soperation system.”，通过预处理后得到的符合预设格式要求的用户问题为：“i have amobile.my english is bad！i want to update it’s operation system”，对于该用户问题，将全部词语转化为小写，不同时态动词统一为一般时态下词汇，将其中的“moto z”这款手机归一化为“mobile”。

403：对符合预设格式要求的用户问题进行拆分，得到符合预设格式要求的用户问题对应的问题分句，具体说明请参阅上一实施例中的相关说明，对此本实施例不再阐述。

在本实施例中，可以使用NLTK对用户问题进行预处理，并同时对符合预设格式要求的用户问题进行拆分，得到符合预设格式要求的用户问题对应的问题分句，仍以上述Ihad a moto z.My engish is bad！I want to update it’s operation system.”为例，使用NLTK直接得到问题分句“i have a mobile”、“my english is bad”和“i want toupdate it’s operation system”。

404：对任一预设标准问题和任一预设标准问题对应的答案：获取该预设标准问题与用户问题之间的第一信息，以及获取该预设标准问题对应的答案与用户问题之间的第二信息。

405：根据用户问题对应的问题分句、第一信息和第二信息，确定用户问题和预设标准问题之间的相关程度，以通过用户问题和预设标准问题之间的相关程度，确定与用户问题匹配的预设标准问题，进而为用户问题查找到匹配的答案。

在本实施例中，步骤404和步骤405：与上述步骤103和步骤104相同，对此本实施例不再阐述。并且通过上述步骤将接收到的用户问题预处理成符合预设格式要求的用户问题，从而使得用户问题中的用语与预设标准问题中的用语一致，便于用户问题与预设标准问题的匹配。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

与上述方法实施例相对应，本发明实施例还提供一种信息处理装置，其结构如图5所示，可以包括：接收单元11、拆分单元12、获取单元13和确定单元14。

接收单元11，用于接收用户问题，可以理解的是，用户问题为用户输入的问题，用户可以借助于具备输入功能的设备，如电子设备中的按键(物理按键或虚拟按键)、书写笔和话筒等等输入问题。例如用户可以借助于按键或书写笔输入用户问题，或者借助于话筒录制一段语音，将该语音确定为用户问题，当然也可以利用语音识别技术将该语音转换成一段文字，将该文字确定为用户问题。

拆分单元12，用于对用户问题进行拆分，得到用户问题对应的问题分句。之所以需要拆分成问题分句是用户问题是一个复句(即由多句话组成)，这个复句中存在影响用户真实意图的干扰信息，通过对用户问题的拆分可以从用户问题中确定出与用户真实意图对应的问题分句，减少干扰信息(如与用户真实意图无关的问题分句)对用户真实意图的影响，从而提高匹配的准确度，并且句子级别的计算相对于词级别计算更加快速。

在本实施例中，拆分单元12可以利用语法分析技术确定出视为复句的用户问题包含的每个分句(复句中相对独立的单句)，以将每个分句确定为问题分句。例如可以利用NLTK、NLP技术和sklearn分类器等中的任意一种对用户问题进行拆分，对此本实施例不再对NLTK、NLP技术和sklearn分类器进行详述。

获取单元13，用于对任一预设标准问题和任一预设标准问题对应的答案：获取该预设标准问题与用户问题之间的第一信息，以及获取该预设标准问题对应的答案与用户问题之间的第二信息，对于预设标准问题和预设标准问题对应的答案的描述请参阅方法实施例中的相关说明，对此本实施例不再阐述。

其中第一信息用于表明用户问题对应的问题分句与预设标准问题的相关程度，第二信息用于表明用户问题对应的问题分句与预设标准问题对应的答案的相关程度，以通过相关程度从用户问题中确定出与用户真实意图对应的问题分句，从而降低复杂冗长的用户问题中干扰信息对用户问题的影响，并且通过与用户真实意图对应的问题分句、第一信息和第二信息从所有预设标准问题中查找匹配的预设标准问题和预设标准问题对应的答案，以提高为用户问题匹配到的答案的准确度。

在本实施例中，对于任一预设标准问题和预设标准问题对应的答案来说，可以将该预设标准问题与用户问题之间的向量表示确定为该预设标准问题与用户问题之间的第一信息，将该预设标准问题对应的答案与用户问题之间的向量表示确定为该预设标准问题对应的答案与用户问题之间的第二信息。而对于任一预设标准问题和预设标准问题对应的答案来说，获取各自与用户问题之间的向量表示的过程类似，如可以通过图6所示结构的获取单元13获取各自与用户问题之间的向量表示，其中图6所示获取单元13可以包括：矩阵获得子单元131、权重向量获得子单元132和向量表示获得子单元133。

矩阵获得子单元131，用于将该预设标准问题以及该预设标准问题对应的答案分别作为输入信息，对每个输入信息：根据用户问题对应的问题分句的句向量和该输入信息对应的分句的句向量，得到用户问题与该输入信息之间的矩阵，矩阵中的每个元素表明用户问题对应的问题分句的句向量与该输入信息对应的分句的句向量之间的相关程度。

权重向量获得子单元132，用于根据用户问题与该输入信息之间的矩阵，得到用户问题相对该输入信息的注意力权重向量以及该输入信息相对用户问题的注意力权重向量。

向量表示获得子单元133，用于根据用户问题相对该输入信息的注意力权重向量、该输入信息相对用户问题的注意力权重向量、用户问题对应的问题分句的句向量和该输入信息对应的分句的句向量，得到该输入信息与用户问题之间的向量表示。

在本实施例中，矩阵获得子单元131、权重向量获得子单元132和向量表示获得子单元133的相关说明请参阅图2所示流程图对应的相关说明，对此本实施例不再详述。

确定单元14，用于根据用户问题对应的问题分句、第一信息和第二信息，确定用户问题和预设标准问题之间的相关程度，以通过用户问题和预设标准问题之间的相关程度，确定与用户问题匹配的预设标准问题，进而为用户问题查找到匹配的答案。

例如可以根据用户问题和预设标准问题之间的相关程度，将相关程度在预设范围内的预设标准问题确定为与用户问题匹配的预设标准问题，或者按照用户问题和预设标准问题之间的相关程度由大到小的顺序，对预设标准问题进行排序，将排序在预设前N位的预设标准问题确定为与用户问题匹配的预设标准问题，其中N为大于或等于1的自然数，预设范围可以根据实际应用而定对此本实施例不进行限定。

在本实施例中，确定单元14的结构如图7所示，可以包括：获得子单元 141、向量确定子单元142和确定子单元143。

获得子单元141，用于根据用户问题对应的问题分句，得到用户问题对应的向量表示。其中获得子单元141可以获取用户问题对应的问题分句中词语的词向量，根据用户问题对应的问题分句中词语的词向量，得到用户问题对应的向量表示，如根据用户问题对应的问题分句中词语的词向量，得到问题分句对应的句向量，由问题分句对应的句向量组合成用户问题对应的向量表示(用户问题对应的向量表示是问题分句对应的句向量的集合)，对于如何得到词向量和句向量可以参照上述步骤201中的相关说明，对此本实施例不再阐述。

向量确定子单元142，用于确定预设标准问题对应的向量表示以及预设标准问题对应的答案的向量表示，其过程可以是：将预设标准问题和预设标准问题对应的答案分别视为输入信息，对每个输入信息分别执行以下过程：

确定子单元143，用于根据用户问题对应的向量表示、预设标准问题对应的向量表示、预设标准问题对应的答案的向量表示、预设标准问题与用户问题之间的向量表示和预设标准问题对应的答案与用户问题之间的向量表示，确定用户问题和预设标准问题之间的相关程度。例如根据用户问题对应的向量表示、预设标准问题对应的向量表示、预设标准问题对应的答案的向量表示、预设标准问题与用户问题之间的向量表示和预设标准问题对应的答案与用户问题之间的向量表示，计算出可表征用户问题和预设标准问题之间的相关程度的参数，如相关概率或相似度等等。

1/1+e^-ωx，其中x为用户问题对应的向量表示、预设标准问题对应的向量表示、预设标准问题对应的答案的向量表示、预设标准问题与用户问题之间的向量表示和预设标准问题对应的答案与用户问题之间的向量表示组合成的向量，将组合得到的向量代入sigmoid函数即可得到用户问题和预设标准问题之间的相关概率，以根据相关概率确定出与用户问题匹配的预设标准问题，而与用户问题匹配的预设标准问题是综合考虑用户问题、预设标准问题、预设标准问题对应的答案以及相互之间的关系(如向量表示)得到，因此可以提高与用户匹配的预设标准问题的准确度，进而基于该匹配出的预设标准问题查找到的答案的准确度也得到提高。

请参阅图8，其示出了本发明实施例提供的信息处理装置的另一种结构，在上述图5基础上，还可以包括：预处理单元15，用于对用户问题进行预处理，得到符合预设格式要求的用户问题。相应的拆分单元12，具体用于对符合预设格式要求的用户问题进行拆分，得到符合预设格式要求的用户问题对应的问题分句。

例如用户问题为：“I had a moto z.My engish is bad！I want to update it’soperation system.”，通过预处理后得到的符合预设格式要求的用户问题为：“i have amobile.my english is bad！i want to update it’s operation system”，对于该用户问题，将全部词语转化为小写，不同时态动词统一为一般时态下词汇，将其中的“moto z”这款手机归一化为“mobile”，由此使得用户问题中的用语与预设标准问题中的用语一致，便于用户问题与预设标准问题的匹配。

此外，本发明实施例还提供一种存储介质，存储介质上存储有程序代码，程序代码用于实现上述信息处理方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

接收用户问题，所述用户问题为用户输入的问题；

2.根据权利要求1所述的方法，其特征在于，所述对任一预设标准问题和任一预设标准问题对应的答案：获取该预设标准问题与所述用户问题之间的第一信息，以及获取该预设标准问题对应的答案与所述用户问题之间的第二信息包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述用户问题对应的问题分句、所述第一信息和所述第二信息，确定所述用户问题和所述预设标准问题之间的相关程度包括：

4.根据权利要求2所述的方法，其特征在于，所述获取该预设标准问题与所述用户问题之间的向量表示，以及获取该预设标准问题对应的答案与所述用户问题之间的向量表示包括：将该预设标准问题以及该预设标准问题对应的答案分别作为输入信息，对每个输入信息分别执行如下操作：

5.根据权利要求3所述的方法，其特征在于，所述根据所述用户问题对应的问题分句，得到所述用户问题对应的向量表示包括：

获取所述用户问题对应的问题分句中词语的词向量；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：对所述用户问题进行预处理，得到符合预设格式要求的用户问题；

7.一种信息处理装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述获取单元，具体用于对任一预设标准问题和任一预设标准问题对应的答案：获取该预设标准问题与所述用户问题之间的向量表示，以及获取该预设标准问题对应的答案与所述用户问题之间的向量表示，所述该预设标准问题与所述用户问题之间的向量表示为所述第一信息，所述该预设标准问题对应的答案与所述用户问题之间的向量表示为所述第二信息。

9.根据权利要求8所述的装置，其特征在于，所述确定单元包括：

10.根据权利要求8所述的装置，其特征在于，所述获取单元包括：