CN106803092B

CN106803092B - 一种标准问题数据的确定方法及装置

Info

Publication number: CN106803092B
Application number: CN201510845492.9A
Authority: CN
Inventors: 任望; 熊军
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2015-11-26
Filing date: 2015-11-26
Publication date: 2020-07-10
Anticipated expiration: 2035-11-26
Also published as: CN106803092A

Abstract

本申请公开了一种标准问题数据的确定方法，用以解决现有技术获取问题答案效率低的问题。该方法包括：根据获得的个性化问题数据，从与预设的标准问题数据相关联的特征中，获取与所述个性化问题数据相关联的特征；将所述个性化问题数据和获取的特征，输入训练好的标准问题概率模型；所述标准问题概率模型，是根据所述预设的标准问题数据和与所述预设的标准问题数据相关联的特征样本训练的；根据标准问题概率模型输出的概率分布，从所述预设的标准问题数据中确定标准问题数据。本申请还公开了一种标准问题数据的确定装置。

Description

一种标准问题数据的确定方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种标准问题数据的确定方法及装置。

背景技术

伴随着计算机技术的飞速发展，用户与计算机之间的交互成为计算机领域不可或缺的一部分，用户享受计算机带来的各种便利的同时，会在使用过程中遇到一些问题。

比如，当用户在使用某网站提供的服务时，可能会遇到关于该服务的相关问题。这些相关问题包括但不限于：手机校验码没有收到、登录密码忘记怎么办，等等。

按照现有技术，用户获取问题答案的方法主要有两种：

1、用户通过电话或在线咨询工具向网站的客服进行咨询。

当面对大量用户的询问时，由于客服数量有限，会导致用户获取问题答案的效率较低。

2、用户通过自行浏览网站的常见问题及其答案，寻找问题的答案。

当常见问题数量较多时，用户需要花费大量时间浏览页面上展示的常见问题及相应的问题答案，导致用户获取问题答案的效率较低。

发明内容

本申请实施例提供一种标准问题数据的确定方法，用以解决现有技术获取问题答案效率低的问题。

本申请实施例还提供一种标准问题数据的确定装置，用以解决现有技术获取问题答案效率低的问题。

本申请实施例采用下述技术方案：

一种标准问题数据的确定方法，包括：

根据获得的个性化问题数据，从与预设的标准问题数据相关联的特征中，获取与所述个性化问题数据相关联的特征；

将所述个性化问题数据和获取的特征，输入训练好的标准问题概率模型；所述标准问题概率模型，是根据所述预设的标准问题数据和与所述预设的标准问题数据相关联的特征样本训练的；

根据标准问题概率模型输出的概率分布，从所述预设的标准问题数据中确定标准问题数据。

一种标准问题数据的确定装置，包括：

获取单元：根据获得的个性化问题数据，从与预设的标准问题数据相关联的特征中，获取与所述个性化问题数据相关联的特征；

解码单元：将所述个性化问题数据和获取的特征，输入训练好的标准问题概率模型；所述标准问题概率模型，是根据所述预设的标准问题数据和与所述预设的标准问题数据相关联的特征样本训练的；

标准问题数据确定单元：根据标准问题概率模型输出的概率分布，从所述预设的标准问题数据中确定标准问题数据。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

相对于现有技术中用户向客服咨询和自行查找问题答案的问题解决方式，本方案通过根据用户输入的个性化问题数据获取与所述个性化问题数据相关联的特征，并通过标准问题概率模型获取概率分布，从而确定用户个性化问题数据对应的标准问题数据，以便获取个性化问题数据对应的问题答案数据，无需用户向客服咨询或自行查找问题答案，提高了获取问题答案的效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种标准问题数据的确定方法的实现流程示意图；

图2为本申请实施例构建的一种深度神经网络模型的结构示意图；

图3a为本实施例2提供的一种标准问题数据的确定方法的一种实现流程示意图；

图3b为本实施例提供的一种根据与标准问题数据相关联的特征构建的查找树的结构示意图；

图3c为本实施例提供的一种标准问题数据展示效果图；

图4为本申请实施例提供的标准问题数据的确定装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

实施例1

本申请实施例提供的标准问题数据的确定方法的执行主体可以是服务器，所述的执行主体并不构成对本申请的限定，为了便于描述，本申请实施例均以执行主体是服务器为例进行说明。

该方法的实现流程示意图如图1所示，包括下述步骤：

步骤11：根据获得的个性化问题数据，获取与所述个性化问题数据相关联的特征；

本申请实施例中，所述个性化问题数据，一般为用户通过个性化问题数据输入框输入的词语特征，所述词语特征比如可以是“开通”这样的文本数据。所述个性化问题数据，为用户实时输入的个性化问题数据。

本申请实施例中，可以根据获得的个性化问题数据，从与预设的标准问题数据相关联的特征中，获取与所述个性化问题数据相关联的特征。

本申请实施例中，所述标准问题数据，为预先设置并保存的问题。这里所说的问题，比如可以是通过对用户咨询的各种问题进行统计和/或预测，而确定出的一些常见的问题。这些常见的问题包括但不限于：手机校验码没有收到、账户如何开通、登录密码忘记怎么办，等等。

本申请实施例中，每一个标准问题数据，都关联有相应的标准答案(即标准答案数据)。即，根据标准问题数据，可以获取到与标准问题数据对应的标准答案数据。

本申请实施例中，与所述标准问题数据相关联的特征，是指与所述标准问题数据之间存在关联性的特征。比如，标准问题数据包含的词语特征，或者没有包含在标准问题数据中、但与标准问题数据包含的词语特征语义类似的词语特征，都可以是与标准问题数据相关联的特征。需要说明的是，所述与标准问题数据相关联的数据也可以是预先获取的与标准问题数据相关联的特征，比如可以是步骤II(如后文所述)中从获取的训练特征集中选取的样本特征(比如第一样本特征和/或第二样本特征)，比如可以是用户在个性化问题输入框中输入的位置相邻的词语作为与标准问题数据相关联的特征。

比如，标准问题数据包含的词语特征“开通”、“账户”和“流程”，可以为与标准问题数据相关联的一种特征。

需要说明的是，同一标准问题数据中的不同词语特征，是彼此之间具有关联关系的词语特征。比如标准问题数据“账户开通流程”中出现的三个词语特征(“账户”、“开通”、“流程”)，它们彼此之间具有关联关系。

本申请实施例中，可以预先利用与标准问题数据相关联的特征构建查找树。在获得个性化问题数据后，可以根据个性化问题数据获得所述查找树中包含的、与所述个性化问题数据相关联的问题数据特征。这样就可以保证，获得的问题数据特征是既与个性化问题数据相关联的特征，又是与至少一个标准问题数据相关联的特征。

获得的问题数据特征，可以作为个性化问题数据的补充，以便后续可以以获得的问题数据特征和个性化问题数据，共同作为确定标准问题数据的依据，保证确定出的标准问题数据的准确性。

步骤12：将所述个性化问题数据和获取的与所述个性化问题数据相关联的特征，输入训练好的标准问题概率模型。

所述标准问题概率模型，是根据所述预设的标准问题数据和与所述预设的标准问题数据相关联的特征样本训练的。

本申请实施例中，可以利用所述特征样本，对预先构建的模型进行训练，从而得到所述标准问题概率模型。在实际应用中，所述标准问题概率模型比如可以是深度神经网络模型。所述深度神经网络模型是通过深度学习方法对预先构建的待训练神经网络模型进行训练得到的。

本申请实施例中，利用所述标准问题概率模型，可以根据个性化问题数据和获取的特征，确定出与所述个性化问题数据和获取的特征对应的标准问题数据。因此，在对深度神经网络模型进行训练时，可以将词语特征和标准问题数据作为所述标准问题概率模型的样本特征对所述标准问题概率模型进行训练。

本申请实施例提供的标准问题概率模型的构建和训练过程，可以包括以下步骤I～步骤III。为了便于描述标准问题概率模型的训练过程，我们将样本特征中的标准问题数据称为问题特征。

步骤I：获取用于训练标准问题概率模型的训练特征集；

本申请实施例中，所述训练特征集为用于对标准问题概率模型进行训练的特征集，所述训练特征集除了包含所述问题特征外，还可以包括点击特征和词语特征中的至少一种。

本申请实施例中，由于用户个性化问题的来源为用户在使用网站产品时产生的，因此，为了使得训练好的标准问题概率模型能够基于用户在使用网站产品时的行为(比如输入个性化问题数据)，识别出用户可能期望咨询的标准问题，本方法中的训练特征集可以是用户在使用网站产品时的行为特征。

所述用户的行为特征包括词语特征，所述词语特征比如可以是用户输入的词语，用户通过热线和客服交互的文本类型的内容，等等。所述用户输入的词语比如可以是用户通过个性化问题数据输入框输入的词语，用户以在线咨询的方式和客服交互时输入的词语，等等。通过将上述内容进行分词，可以得到不同的文本词语(即词语特征)，这些不同的词语特征可以构成训练特征集。

所述用户的行为特征还可以包括点击特征。比如，以热门的产品为例，考虑到往往会有较多用户前来咨询所述热门产品的相关问题，因此，可以根据产品被展示的次数确定产品是否是热门产品，产品被展示的次数可以通过用户行为中的点击行为(即点击特征)来确定，所述点击特征比如可以是产品所在页面被访问的次数，与产品相关的应用程序界面某个位置(比如产品详情页面的访问入口所在位置)被点击的次数，等等。

通过所述点击特征，可以反映不同网页的热门程度，进而反映不同标准问题数据可能被咨询的概率。

步骤II：根据预设的特征选择算法，从获取的训练特征集中选取样本特征；

在通过执行步骤1获取训练特征集后，考虑到训练特征集中除问题特征外的其他样本特征可能没有利用价值，因此需要对训练特征集中的所述其他样本特征进行筛选，得到样本特征。

本申请实施例中，可以通过选取与标准问题数据相关的词语特征的方式，对训练特征集中的词语特征进行筛选。

比如，可以根据标准问题预先设置分类，不同的标准问题对应不同的分类，分类中预设有与所述分类相关的文档。例如：根据标准问题“如何开通账户”设置分类“账户开通”，在所述“账户开通”分类中预设有与该分类相关的文档。基于设置的分类和与分类相关的文档，进一步地，可以通过对训练特征集中的词语特征和分类中的文档进行比对，确定词语特征和分类的相关性，根据词语特征和类别之间的相关性，选取符合预定相关性条件的词语特征作为样本特征。例如，按词语特征和分类的相关性从大到小的顺序对词语特征进行排序，选取前1000个词语特征作为样本特征。

在实际应用中，确定词语特征和分类的相关性，并根据词语特征和类别之间的相关性，选取符合预定相关性条件的词语特征作为样本特征，可以通过特征选择算法来实现。所述特征选择算法，比如可以但不限于包括基于奇异值分解的主成分分析算法、基于奇异值分解的潜在语义索引算法、基于互信息的特征选择算法、基于信息增益的特征选择算法以及基于卡方的特征选择算法等中的至少一种。

比如，本申请实施例中，可以根据基于信息增益的特征选择算法，从所述训练特征集中选取样本特征(后称第一样本特征)。

信息增益是判断词语特征能够为分类带来的信息量的方法，词语特征为分类带来的信息越多，即信息增益越大，表明所述词语特征对于所述分类越重要。

在实际应用中，按照下述公式[1]计算信息增益IG(c,t)：

IG(c,t)＝H(c)-H(c|t) [1]

其中，c指的分类，t是词语特征，H(c)为分类c原本的信息熵，H(c|t)为分类c在固定词语特征t后的条件熵。则IG(c,t)表示词语特征t给分类c带来的信息增益。

利用公式[1]，计算训练特征集中的所有词语特征和分类的信息增益，选择信息增益符合预定信息增益条件的词语特征作为第一样本特征。例如：按词语特征和分类的信息增益从大到小的顺序对词语特征进行排序，选取前1000个词语特征作为样本特征。

由于基于信息增益的特征选择方法在对词语特征进行选择时，只考虑了词语特征和分类的相关性，而没有考虑到词语特征与所述分类相关的其它分类的相关性，从而可能导致漏选一些重要的词语特征。为了弥补基于信息增益的特征选择方法存在的该漏洞，因此，本申请实施例中，还可以根据基于卡方的特征选择算法，从所述训练特征集中选取第二样本特征。

卡方检验是判断词语特征和类别之间相关性的方法，这种方法假设各个词语特征之间是服从高斯分布的，且假设词语特征和类别直接是无关的。通过判断卡方值，判断词语特征和类别直接的相关性。

下面通过举例来说明，本申请实施例中如何基于卡方的特征选择算法实现从所述训练特征集中选取第二样本特征。

例如，在获取词语特征“开通”和类别“账户开通”之间的相关性时，假设各个词语特征之间是服从高斯分布的，假设词语特征和类别直接是无关的。假设词语特征“开通”在“账户开通”类文档中出现100次，在“非账户开通”类文档中出现10次，“账户开通”类文档总计1000个，“非账户开通”类文档总计也是1000个。词语特征“开通”和类别“账户开通”的关系如表一所示。

表一：

如表一所示，t代表词语特征“开通”，c代表类别“账户开通”。包含t且属于账户开通类别的文档数，表示为A；包含词语特征开通但不属于账户开通类别的文档上，表示为B；不包含特征开通且属于账户开通类别的文档数，表示为C；不包含词语特征开通单不属于账户开通类别的文档上，表示为D。按照相关技术，我们可以得到词语特征开通和类别账户开通的开方值χ²(t,c)：

利用公式[2]，计算样本特征集中的所有词语特征和分类的卡方值，选择卡方值符合预定卡方值条件的词语特征作为第二样本特征。例如，按词语特征和分类的卡方值从小到大的顺序对词语特征进行排序，选取前1000个词语特征作为样本特征。

考虑到基于卡方检验的特征选择方法存在低频词缺陷，即通过卡方检验的特征选择方法可能会选取某些出现频率很低的词语特征，利用出现频率很低的词语特征对训练器的训练意义不大。因此，本申请实施例中，将第一样本特征和第二样本特征中都包含的词语特征作为样本特征。

在实际应用中，比如可以采用基于投票的特征选取方法，利用公式[3]对第一样本特征S_chi和第二样本特征S_info进行投票，选取在第一样本特征和第二样本特征中都出现过的词语特征S(w)_final(即Score(w)＞1的特征)作为样本特征。

Score(w)_w∈W＝[x∈S_chi]+[x∈S_info]

S(w)_final＝{w|w∈W,Score(w)＞1} [3]

其中，w表示词语特征，W表示S_chi和S_info的合集。

步骤III：获取样本特征对应的标准问题数据；

本申请实施例中，在获取到样本特征和标准问题数据后，可以为样本特征和与所述样本特征匹配的标准问题数据建立对应关系，例如：为词语特征“开通”和标准问题数据“开通账户”建立对应关系，为词语特征“注销”和标准问题数据“注销账户”建立对应关系。

步骤IV：将所述预设的标准问题数据以及选取的样本特征作为标准问题概率模型的输入，将所述样本特征对应的标准问题数据作为标准问题概率模型的预设输出，对所述标准问题概率模型进行训练，得到所述标准问题概率模型。即，利用样本特征集中的问题特征，以及通过上述方法选择的样本特征(比如第一样本特征和/或第二样本特征)对待训练的标准问题概率模型进行训练，得到训练好的标准问题概率模型。

在本申请实施例中，所述待训练的标准问题概率模型可以是深度神经网络模型，如图2所示，所述深度神经网络模型可以包括：输入层(即深度神经网络模型的第1层)、输出层(即深度神经网络模型的第L层)和隐层(即深度神经网络模型的第2层～第L-1层)。其中，所述输入层可以包括点击特征输入层、词语特征输入层和问题特征输入层。每一层均由多个节点组成。

本申请实施例中，所述标准问题数据可作为问题特征，为便于举例说明，假设所述选取的样本特征包括点击特征和词语特征。用于训练待训练的深度神经网络模型的问题特征以及选取的样本特征中的各特征，均可称为输入特征。

在实际应用中，可以通过一位有效编码(one hot encoding)方式对输入特征进行编码，即将每个输入特征编码为向量，编码得到的该向量的每一维分量，分别作为待训练的深度神经网络模型输入层节点的输入。本申请实施例中，假设问题特征的数量有n₁个，则对问题特征编码得到的向量维数可以设置为n₁，相应的输入层节点数为n₁；点击特征的数量有n₂个，则对点击特征编码得到的向量维数可以设置为n₂，相应的输入层节点数为n₂；词语特征的数量有n₃个，则对词语特征编码得到的向量维数可以设置为n₃，相应的输入层节点数为n₃。即，输入层节点的总数据为n₁+n₂+n₃。

以词语特征为例，可以将第一个词语特征“开通”，编码为n₃维向量[1,0，…，0]，将第二个词语特征“账户”编码为n₃维向量[0,1，…，0]，以此类推，将第n₃个词语特征编码为n₃维向量[0,0，…，1]。在对待训练的深度神经网络模型时，每次可以将维数分别为n₁、n₂、n₃的三个向量作为输入。

在本申请实施例中，输出层节点数量可以设置为1。输出层节点的输出为输入特征对应于单个标准问题数据的概率，即输入特征与单个标准问题数据相匹配的概率。

需要说明的是，在输入特征维数较高的情况下，会降低深度神经网络模型的计算效率以及深度神经网络模型输出值的准确度，因此需要对输入特征进行降维，所以可以在神经网络模型中设置与输入层相连接的第一隐层来对输入特征降维。如图2所示，所述与输入层相连接的隐层可以包括点击特征隐层、词语特征隐层和问题特征隐层。其中，针对各个第一隐层的节点数量而言，比如问题特征隐层的节点数量可以设置为p₁，点击特征隐层的节点数量可以设置为p₂，词语特征隐层的节点数量可以设置为p₃。

第二隐层可以对第一隐层输出的降维后的特征进行加权计算，并将结果传递给输出层。其中，第二隐层的节点数量假设为q。

基于本申请实施例构建的所述神经网络模型，可以将点击特征、词语特征和问题特征作为所述神经网络模型的输入，对所述神经网络模型进行训练。

在本申请实施例中，判断网络神经模型输出值和预设输出值偏差的方法可以是最小二乘法，即计算网络神经模型输出值S₁ ^L与预设输出值y的差的平方和E_in，如公式[4]所示：

E_in＝(y-S₁ ^L)² [4]

理论上，当E_in为零时，即可判定为输出值S₁ ^L和预设输出值y相同，即表明神经网络模型的输出误差为0。但是，在机器学习时，E_in只能无限接近于0，所以，当E_in小于预设E_in阈值时，即可判断神经网络模型的误差在可接受范围内，即可停止对神经网络模型的训练。

在本申请实施例中，将第l层第i个节点到第j个节点之间的权重设置为随机权重w_ij ^(l)，其中l表示神经网络模型中层数的编号，具体地，若神经网络模型的最大层数为L，那么，l＝L表示神经网络的输出层，而l＝1表示神经网络模型的输入层，以此类推。则每个节点的输入x_j ^(l)和输出S_j ^(l)可用公式[5]表示：

x_j ^(l)＝tanh(S_j ^(l)),1≤l≤L [5]

在实际应用中，求公式[4]中E_in最小的方法是通过求公式[4]中w_ij ^(l)的导数，然后利用梯度下降算法，不断修正w_ij ^(l)，直至w_ij ^(l)收敛为止。

在求导的过程中，可以通过链式法则进行求导，下面对求导过程做简要说明：

从第L层开始，按照下述公式[6]计算公式[4]中S₁ ^L的导数

按照下述公式[7]计算第L层的w_ij ^(l)的导数：

按照下述公式[8]计算第L-1层S₁ ^L-1的导数δ_j ^(L-1)：

……

按照上述方法，计算各权重的导数。

根据公式[9]更新所有的权重(公式左侧的w_ij ^(l))，得到更新后的权重(公式右侧的w_ij ^(l))。按照公式[9]，更新后的权重仍然记为w_ij ^(l)：

其中，α为学习速率，即每次迭代的步长，α值可以根据情况进行调整。

重复上述过程，再对更新后的权重w_ij ^(l)进行更新，直至满足循环结束条件。一般地，通过所述反向传播算法对神经网络模型进行训练时，权重会随着迭代次数的增加，逐渐接近理论上的最优权重，但是无法等于理论最优权重。因此，在实际应用中，当迭代的次数达到预设迭代次数时，便可以确定满足循环结束条件，从而停止迭代，即完成了对所述神经网络模型的训练。所述预设迭代次数可以根据实际情况进行调整。

由于如何通过对神经网络模型模型的训练调整权重，直至满足循环结束条件，已是比较成熟的相关结束，本说明书中对此不再进一步赘述。

本申请实施例中，训练好所述神经网络模型后，便可以通过所述神经网络模型对个性化问题数据对应的标准问题数据进行预测。预测的过程与训练的过程类似，具体而言，可以将所述个性化问题数据和获取的特征作为词语特征，输入到所述训练好的神经网络模型中。为了得到个性化问题数据和获取的特征对应于标准问题数据的概率分布，标准问题数据包含的问题特征，也作为所述训练好的神经网络模型的输入。

步骤13：根据标准问题概率模型输出的概率分布，从所述预设的标准问题数据中确定标准问题数据。

本申请实施例中，在将个性化问题数据、获取的特征以及问题特征作为输入特征，输入到训练好的标准问题概率模型之后，标准问题概率模型中的各隐层可以对所述输入特征进行计算，最后通过输出层输出与所述个性化问题数据和获取的特征对应于标准问题数据的概率。

比如，若将个性化问题数据和获取的特征，称为待识别特征，并假设共存在800个问题特征，则可以将待识别特征和单个问题特征作为单个输入特征，输入到所述训练好的标准问题概率模型。通过进行800次不同输入特征的输入，可以得到相应的800个概率，这800个概率共同表示了待识别特征对应于标准问题数据的概率分布。需要说明的是，待识别特征对应于标准问题数据的概率，是指待识别特征与标准问题数据相匹配的概率。

本申请实施例中，可以将满足预定概率条件的标准问题数据确定为所述个性化问题数据对应的正确的标准问题数据。所述预定概率条件比如可以是待识别特征对应标准问题数据的概率大于预设概率阈值。也可以按标准问题数据概率值从大到小的顺序取预定数量的标准问题数据确定为所述个性化问题数据的标准问题数据。

在实际应用中，可以将确定的标准问题数据按照预定展示规则向用户进行展示，比如可以是按照标准问题数据概率值从大到小的顺序在用户输入框下预定位置依次展示5个标准问题数据。例如，用户通过个性化问题数据输入框输入个性化问题数据“开”，则可以在个性化问题数据输入框下方，展示确定出的5个与词语特征“开”对应的标准问题数据，展示效果如图3c所示。

本申请实施例中，在根据标准问题概率模型输出的概率分布，从所述预设的标准问题数据中确定标准问题数据确定标准问题后，可以确定与确定出的标准问题数据对应的问题答案数据。

本申请实施例中，标准问题数据对应的问题答案数据，为标准问题的答案。前文已提到，每一个标准问题数据都关联有与标准问题对应的标准答案数据，在确定出标准问题数据后，就获取与标准问题数据对应的标准答案数据。获取到的标准答案数据，可以由服务器发送给用户终端进行展示。

当本申请实施例提供的上述方法的执行主体为用户终端或者客户端时，标准问题数据对应的问题答案数据，可以是用户终端或者客户端根据确定出的标准问题数据从服务器或本地数据库中获取的。在获取到问题答案数据后，用户终端或者客户端就可以对问题答案数据进行展示。

本申请实施例1提供的上述方法，通过根据用户输入的个性化问题数据获取与所述个性化问题数据相关联的特征，并通过标准问题概率模型获取概率分布，从而确定用户个性化问题数据对应的标准问题数据，以便获取个性化问题数据对应的问题答案数据，无需用户向客服咨询或自行查找问题答案，提高了获取问题答案的效率。

需要说明的是，实施例1所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤11和步骤12的执行主体可以为设备1，步骤13的执行主体可以为设备2；又比如，步骤11的执行主体可以为设备1，步骤12～13的执行主体可以为设备2；等等。

需要说明的是，本申请实施例中为各步骤设置编号，是为了有条理地描述各步骤，并不是对步骤的执行顺序进行限制，即，本申请实施例中为各步骤设置的编号并不能视为限制步骤执行顺序的特征。

实施例2

本发明实施例2，主要介绍本发明实施例1提供的上述方法在实际中的一种应用方案。

本发明实施例2中确定标准问题数据的过程与实施例1中确定标准问题数据的过程相类似，实施例2中没有介绍到的其他一些步骤可以参见实施例1中的相关描述，此处不再赘述。

在对该方案的实现方式进行详细介绍前，先对该方案的实施场景进行简单介绍。

该实施场景中，某用户想要在网站咨询关于“账户开通”的问题。

基于上述场景，实施例2中实现标准问题数据确定的过程如图3a所示，包括下述步骤：

步骤21：用户通过网站问题输入框输入个性化问题数据“开”；

步骤22：服务器获取到用户输入的个性化问题数据“开”；

步骤23：服务器根据个性化问题数据“开”，利用如图3b所示的根据与标准问题数据相关联的特征构建的查找树进行查找，获得问题数据特征：“开通”、“账户”、“开始”、“收益”；

步骤24：服务器将个性化问题数据(“开”)和获取的问题数据特征(“开通”、“账户”、“开始”、“收益”)输入到训练好的深度神经网络模型中；

其中，所述深度神经网络模型是根据所述预设的标准问题数据和与所述预设的标准问题数据相关联的特征样本训练的。

步骤25：服务器利用深度神经网络模型，根据输入的问题特征(“开”、“开通”、“账户”、“开始”、“收益”)，获取所述输入的问题特征对应于标准问题数据的概率分布。

步骤26：服务器按照标准问题数据概率值从大到小的顺序，在个性化问题数据输入框下预定位置依次展示5个标准问题数据，如图3c所示。

假设所述5个标准问题数据中包括标准问题数据“开通账户”。

步骤27：用户点击标准问题数据“开通账户”。

步骤28：服务器根据用户的点击指令，将标准问题数据“开通账户”对应的问题答案数据展示给用户。

本申请实施例2提供的上述方法，通过根据用户输入的个性化问题数据获取与所述个性化问题数据相关联的特征，并通过标准问题概率模型获取概率分布，从而确定用户个性化问题数据对应的标准问题数据，以便获取个性化问题数据对应的问题答案数据，无需用户向客服咨询或自行查找问题答案，提高了获取问题答案的效率。

实施例3

为解决采用现有技术获取问题答案效率低的问题，本申请实施例提供一种标准问题数据的确定装置。该装置的结构示意图如图4所示，主要包括下述功能单元：

获取单元31：根据获得的个性化问题数据，获取与所述个性化问题数据相关联的特征；

解码单元32：将所述个性化问题数据和获取的特征，输入训练好的标准问题概率模型；所述标准问题概率模型，是根据所述预设的标准问题数据和与所述预设的标准问题数据相关联的特征样本训练的；

标准问题数据确定单元33：根据标准问题概率模型输出的概率分布，从所述预设的标准问题数据中确定标准问题数据。

在一种实施方式中，所述获取单元31，具体用于根据所述个性化问题数据，利用特征查找树，获得所述特征查找树中包含的、与所述个性化问题数据相匹配的问题数据特征；所述特征查找树，是通过将与标准问题数据相关联的特征进行组合构建的。

所述标准问题概率模型，是通过下述方法训练的：

获取训练特征集；

根据预设的特征选择算法，从获取的训练特征集中选取样本特征；

获取样本特征对应的标准问题数据；

将所述预设的标准问题数据以及选取的样本特征作为标准问题概率模型的输入，将所述样本特征对应的标准问题数据作为标准问题概率模型的预设输出，对所述标准问题概率模型进行训练，得到所述标准问题概率模型。

所述标准问题概率模型为深度神经网络模型。

所述训练特征集中的特征，包括下述至少一种：

用户点击特征；词语特征。

所述个性化问题数据，为用户实时输入的个性化问题数据。

本申请实施例3提供的上述装置，通过根据用户输入的个性化问题数据获取与所述个性化问题数据相关联的特征，并通过标准问题概率模型获取概率分布，从而确定用户个性化问题数据对应的标准问题数据，以便获取个性化问题数据对应的问题答案数据，无需用户向客服咨询或自行查找问题答案，提高了获取问题答案的效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种标准问题数据的确定方法，其特征在于，包括：

根据获得的个性化问题数据，获取与所述个性化问题数据相关联的特征；

将所述个性化问题数据和获取的特征，输入训练好的标准问题概率模型；所述标准问题概率模型，是根据预设的标准问题数据和与所述预设的标准问题数据相关联的特征样本训练的；

根据标准问题概率模型输出的概率分布，从所述预设的标准问题数据中确定标准问题数据；

其中，所述根据获得的个性化问题数据，获取与所述个性化问题数据相关联的特征，具体包括：

根据所述个性化问题数据，利用特征查找树，获得所述特征查找树中包含的、与所述个性化问题数据相匹配的问题数据特征；所述特征查找树，是通过将与标准问题数据相关联的特征进行组合构建的。

2.如权利要求1所述的方法，其特征在于，所述标准问题概率模型，是通过下述方法训练的：

获取训练特征集；

获取样本特征对应的标准问题数据；

3.如权利要求2所述的方法，其特征在于，所述标准问题概率模型为深度神经网络模型。

4.如权利要求2所述的方法，其特征在于，根据预设的特征选择算法，从获取的训练特征集中选取样本特征，包括：

根据基于信息增益的特征选择算法，从所述训练特征集中选取第一样本特征；

根据基于卡方的特征选择算法，从所述训练特征集中选取第二样本特征；

从所述第一样本特征和第二样本特征中选取样本特征。

5.如权利要求2～4任一权项所述的方法，其特征在于，训练特征集中的特征，包括下述至少一种：

用户点击特征；

词语特征。

6.如权利要求1～4任一权项所述的方法，其特征在于，所述个性化问题数据，为用户实时输入的个性化问题数据。

7.一种标准问题数据的确定装置，其特征在于，所述装置包括：

获取单元：根据获得的个性化问题数据，获取与所述个性化问题数据相关联的特征；

解码单元：将所述个性化问题数据和获取的特征，输入训练好的标准问题概率模型；所述标准问题概率模型，是根据预设的标准问题数据和与所述预设的标准问题数据相关联的特征样本训练的；

标准问题数据确定单元：根据标准问题概率模型输出的概率分布，从所述预设的标准问题数据中确定标准问题数据；

其中，所述获取单元，具体用于根据所述个性化问题数据，利用特征查找树，获得所述特征查找树中包含的、与所述个性化问题数据相匹配的问题数据特征；所述特征查找树，是通过将与标准问题数据相关联的特征进行组合构建的。

8.如权利要求7所述的装置，其特征在于，所述标准问题概率模型为深度神经网络模型。