CN109829478B

CN109829478B - 一种基于变分自编码器的问题分类方法和装置

Info

Publication number: CN109829478B
Application number: CN201811640735.5A
Authority: CN
Inventors: 陈瑞清; 许开河; 王少军; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2024-05-07
Anticipated expiration: 2038-12-29
Also published as: CN109829478A

Abstract

本发明实施例提供了一种基于变分自编码器的问题分类方法和装置，本发明涉及人工智能领域，该方法包括：获取分类模型输出的多个问题以及每个问题的类别，并从多个问题中确定目标问题；将多个问题输入到变分自编码器，确定多个问题的句向量；确定每个类别的类向量；计算每个类别的类向量与目标句向量之间的相似度，目标句向量为目标问题的句向量；判断与目标句向量之间的相似度最高的类别是否为目标类别；如果与目标句向量之间的相似度最高的类别不是目标类别，则确定目标问题被分类模型分在错误的类别中；输出提示对目标问题重新分类的信息。因此，本发明实施例提供的技术方案能够解决现有技术中无法辨别和纠正问题分类错误的问题。

Description

一种基于变分自编码器的问题分类方法和装置

【技术领域】

本发明涉及人工智能领域，尤其涉及一种基于变分自编码器的问题分类方法和装置。

【背景技术】

随着计算机技术的发展，自动问答系统的应用越来越广泛，自动问答系统是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题，例如，智能客服通过使用客服机器人理解和解决客户的问题；很多办公地方放置的自助咨询终端，通过识别用户输入的问题返回对应的答案等等。自动问答系统总体框架为：问题分类、查询扩展、文本检索、答案抽取、答案排序和选择，而问题分类是自动问答系统最重要的方面之一。问题分类的方式通常是采用机器学习训练样本数据的方法构建分类器对问题进行分类，构建好的分类器即为分类模型。

对于分类模型来说，如果训练样本数据质量不高将会直接影响分类模型的训练效果，导致分类模型的分类效果不佳，从而导致问题有可能被分类模型分在错误的类别中。

目前，无法辨别和纠正问题分类错误的情况。

【发明内容】

有鉴于此，本发明实施例提供了一种基于变分自编码器的问题分类方法和装置，用以解决现有技术中无法辨别和纠正问题分类错误的问题。

一方面，本发明实施例提供了一种基于变分自编码器的问题分类方法，所述方法包括：获取分类模型输出的多个问题以及每个问题的类别，并从所述多个问题中确定目标问题，其中，所述目标问题的类别为目标类别；将所述多个问题输入到变分自编码器，根据所述变分自编码器的输出确定所述多个问题的句向量；根据所述多个问题的句向量以及每个问题的类别确定每个类别的类向量；计算所述每个类别的类向量与目标句向量之间的相似度，所述目标句向量为所述变分自编码器输出的所述目标问题的句向量；判断与所述目标句向量之间的相似度最高的类别是否为所述目标类别；如果与所述目标句向量之间的相似度最高的类别不是所述目标类别，则确定所述目标问题被所述分类模型分在错误的类别中；输出提示信息，所述提示信息用于提示对所述目标问题重新分类。

进一步地，在所述判断与所述目标句向量之间的相似度最高的类别是否为所述目标类别之后，所述方法还包括：如果与所述目标句向量之间的相似度最高的类别是所述目标类别，则对所述目标类别中的问题的句向量做离群点分析；根据离群点分析的结果判断所述目标句向量是否为离群点；如果所述目标句向量是离群点，则确定所述目标问题被所述分类模型分在错误的类别中。

进一步地，在所述判断与所述目标句向量之间的相似度最高的类别是否为所述目标类别之后，所述方法还包括：如果与所述目标句向量之间的相似度最高的类别是所述目标类别，则计算所述目标句向量和每个类别的标准问的句向量之间的相似度；根据计算得到的相似度确定第一标准问，其中，所述第一标准问的句向量与所述目标句向量之间的相似度最高；判断所述第一标准问是否为所述目标类别对应的标准问；如果所述第一标准问不是所述目标类别对应的标准问，则确定所述目标问题被所述分类模型分在错误的类别中。

进一步地，在所述输出提示信息之后，所述方法还包括：筛选出第一类别，所述第一类别的类向量与所述目标句向量之间的相似度最高；将所述目标句向量与所述第一类别中的问题的句向量组成向量集合；对所述向量集合做离群点分析；判断所述目标句向量是否为离群点；如果所述目标句向量不是离群点，则将所述目标问题的类别更新为所述第一类别。

进一步地，所述将所述多个问题输入到变分自编码器，根据所述变分自编码器的输出确定所述多个问题的句向量，包括：分割第k个问题，得到多个分词，获取所述多个分词的词向量，k依次取1至N，N大于1，N是所述多个问题的数量；根据所述词向量确定所述第k个问题的原始样本数据X_k；将所述原始样本数据X_k输入所述变分自编码器，所述变分自编码器输出均值μ_k和方差根据所述均值μ_k和所述方差/>从高斯分布中随机采样得到采样值ε；根据公式Z_k＝σ_k·ε+μ_k确定所述第k个问题对应的隐藏状态采样变量Z_k；从所述采样变量Z_k中提取得到所述第k个问题对应的句向量。

一方面，本发明实施例提供了一种基于变分自编码器的问题分类装置，所述装置包括：获取单元，用于获取分类模型输出的多个问题以及每个问题的类别，并从所述多个问题中确定目标问题，其中，所述目标问题的类别为目标类别；第一确定单元，用于将所述多个问题输入到变分自编码器，根据所述变分自编码器的输出确定所述多个问题的句向量；第二确定单元，用于根据所述多个问题的句向量以及每个问题的类别确定每个类别的类向量；第一计算单元，用于计算所述每个类别的类向量与目标句向量之间的相似度，所述目标句向量为所述变分自编码器输出的所述目标问题的句向量；第一判断单元，用于判断与所述目标句向量之间的相似度最高的类别是否为所述目标类别；第三确定单元，用于如果与所述目标句向量之间的相似度最高的类别不是所述目标类别，则确定所述目标问题被所述分类模型分在错误的类别中；提示单元，用于输出提示信息，所述提示信息用于提示对所述目标问题重新分类。

进一步地，所述装置还包括：第一分析单元，用于在所述第一判断单元判断与所述目标句向量之间的相似度最高的类别是否为所述目标类别之后，如果与所述目标句向量之间的相似度最高的类别是所述目标类别，则对所述目标类别中的问题的句向量做离群点分析；第二判断单元，用于根据离群点分析的结果判断所述目标句向量是否为离群点；第四确定单元，用于如果所述目标句向量是离群点，则确定所述目标问题被所述分类模型分在错误的类别中。

进一步地，所述装置还包括：第二计算单元，用于在所述第一判断单元判断与所述目标句向量之间的相似度最高的类别是否为所述目标类别之后，如果与所述目标句向量之间的相似度最高的类别是所述目标类别，则计算所述目标句向量和每个类别的标准问的句向量之间的相似度；第五确定单元，用于根据计算得到的相似度确定第一标准问，其中，所述第一标准问的句向量与所述目标句向量之间的相似度最高；第三判断单元，用于判断所述第一标准问是否为所述目标类别对应的标准问；第六确定单元，用于如果所述第一标准问不是所述目标类别对应的标准问，则确定所述目标问题被所述分类模型分在错误的类别中。

进一步地，所述装置还包括：筛选单元，用于在所述提示单元输出提示信息之后，筛选出第一类别，所述第一类别的类向量与所述目标句向量之间的相似度最高；组成单元，用于将所述目标句向量与所述第一类别中的问题的句向量组成向量集合；第二分析单元，用于对所述向量集合做离群点分析；第四判断单元，用于判断所述目标句向量是否为离群点；更新单元，用于如果所述目标句向量不是离群点，则将所述目标问题的类别更新为所述第一类别。

进一步地，所述第一确定单元包括：分割模块，用于分割第k个问题，得到多个分词，获取所述多个分词的词向量，k依次取1至N，N大于1，N是所述多个问题的数量；第一确定模块，用于根据所述词向量确定所述第k个问题的原始样本数据X_k；输入模块，用于将所述原始样本数据X_k输入所述变分自编码器所述变分自编码器输出均值μ_k和方差采样模块，用于根据所述均值μ_k和所述方差/>从高斯分布中随机采样得到采样值ε；第二确定模块，用于根据公式Z_k＝σ_k·ε+μ_k确定所述第k个问题对应的隐藏状态采样变量Z_k；提取模块，用于从所述采样变量Z_k中提取得到所述第k个问题对应的句向量。

一方面，本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述的基于变分自编码器的问题分类方法。

一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，所述程序指令被处理器加载并执行时实现上述的基于变分自编码器的问题分类方法的步骤。

在本发明实施例中，计算每个类别的类向量与目标句向量之间的相似度，判断与目标句向量之间的相似度最高的类别是否为目标类别，如果与目标句向量之间的相似度最高的类别不是目标类别，则确定目标问题被分类模型分在错误的类别中，输出提示信息，提示信息用于提示对目标问题重新分类，解决了现有技术中无法辨别和纠正问题分类错误的问题，对问题分类错误的情况能够辨别和纠正。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是根据本发明实施例一种可选的基于变分自编码器的问题分类方法的流程图；

图2是根据本发明实施例一种可选的基于变分自编码器的问题分类装置的示意图；

图3是本发明实施例提供的一种可选的计算机设备的示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本发明实施例提供了一种基于变分自编码器的问题分类方法，如图1所示，该方法包括：

步骤S102：获取分类模型输出的多个问题以及每个问题的类别，并从多个问题中确定目标问题，其中，目标问题的类别为目标类别。

分类模型是利用标注的训练数据训练特征生成器以及分类器得到的分模型器，其中特征生成器用于将标注的训练数据的原始特征数据变换到同一特征空间中得到变换后的特征数据，分类器用于根据变换后的特征数据将标注的训练数据所属的领域进行分类，其中训练数据所属的领域可根据实际情况进行设置，例如，划分领域可以为：“中国新闻”、“美国新闻”、“英国新闻”等；或者按照输入的语音划分为：“东北话”、“天津话”“广东话”等；或者按照空间分为：“陆地”、“海洋”“太空”等。

将多个问题输入训练好的分类模型后，分类模型即可输出多个问题以及每个问题的类别，其中，多个问题为多个未标注的问题，例如：分类模型的划分领域为：“东北话”、“天津话”“广东话”，输入的3个问题为：“咯了盖儿疼咋整”、“衣服埋汰”、“无端白事心火动”，则分类模型输出的3个问题以及每个问题的类别为：{“咯了盖儿疼咋整”，“东北话”}、{“衣服埋汰”，“东北话”}、{“无端白事心火动”，“广东话”}。

目标问题是即将判断分类是否正确的问题，确定目标问题的方法可以根据情况进行设置，可以按照某种顺序将多个问题进行排序后，按照序号进行选取，或者从多个问题中进行随机选取。

步骤S104：将多个问题输入到变分自编码器，根据变分自编码器的输出确定多个问题的句向量。

步骤S106：根据多个问题的句向量以及每个问题的类别确定每个类别的类向量。

步骤S108：计算每个类别的类向量与目标句向量之间的相似度，目标句向量为变分自编码器输出的目标问题的句向量。

步骤S110：判断与目标句向量之间的相似度最高的类别是否为目标类别。

步骤S112：如果与目标句向量之间的相似度最高的类别不是目标类别，则确定目标问题被分类模型分在错误的类别中。

步骤S114：输出提示信息，提示信息用于提示对目标问题重新分类。

变分自编码器，是一个基于神经网络的生成模型，通过学习训练可以对样本进行分类建模，例如训练模板中有一组离散数据样本(x1,y1)，(x2,y2)，(x3,y3)…输入变分自编码器后，可以得到以网络权重参数表达的均值在一条曲线上的概率分布。

可选地，在判断与目标句向量之间的相似度最高的类别是否为目标类别之后，方法还包括：如果与目标句向量之间的相似度最高的类别是目标类别，则对目标类别中的问题的句向量做离群点分析；根据离群点分析的结果判断目标句向量是否为离群点；如果目标句向量是离群点，则确定目标问题被分类模型分在错误的类别中。

离群点分析是用于挖掘与大部分数据不同的数据挖掘方法，具体地，可以采用孤立森林算法作离群点分析，孤立森林算法是基于划分思想的一种算法，由大量的孤立树组成，用于挖掘异常数据，或者说离群点挖掘，是在一大堆数据中，找出与其它数据的规律不太符合的数据。例如：假设一个类中有N个问题的句向量，首先需要训练构建多棵孤立树。训练第t棵孤立树方法为：从N个问题中随机抽出M个问题作为第t棵孤立树的训练样本，在M个训练样本中，随机选一个样本作为二叉树的根节点的值，根据根节点的值对M个训练样本进行二叉划分，将M个训练样本中小于该值的划分到节点左边，大于或等于该值的划分到节点的右边，得到一个分裂条件和左、右两边的数据集，然后分别在左右两边的数据集上重复二叉划分的过程，直到数据不可再分，确定第t棵孤立树，其中t为大于2的自然数。将N个问题句向量在第t棵孤立树上沿对应的条件分支往下走，直到叶子节点，并记录第X个问题句向量从根节点到达叶子节点走过的边的数量即路径长度h_t(x)，然后根据第X个问题句向量在多棵孤立树的路径长度，确定第X个问题句向量的路径长度平均值h(x)。

可以通过计算句向量的异常分数来判断一个句向量是否为离群点。计算每个句向量的异常分数公式为：其中m为训练样本的个数，/> ε是欧拉常数，值为0.5772156649。s(x,m)为异常分数的值，取值范围是[0,1]，异常分数的值越接近1，则第X个问题句向量是离群点的可能性越高。

一般可以根据实际情况设置一个阈值，如果异常分数的值大于阈值则认为是异常点。

可选地，计算类向量与目标句向量之间的相似度，包括：根据公式计算类向量与目标句向量之间的相似度，其中，S表示类向量与目标句向量之间的相似度，A表示类向量，B表示目标句向量，A_i表示类向量的第i个元素，B_i表示目标句向量的第i个元素，n表示目标句向量包含的元素的数量。

可选地，在判断与目标句向量之间的相似度最高的类别是否为目标类别之后，方法还包括：如果与目标句向量之间的相似度最高的类别是目标类别，则计算目标句向量和每个类别的标准问的句向量之间的相似度；根据计算得到的相似度确定第一标准问，其中，第一标准问的句向量与目标句向量之间的相似度最高；判断第一标准问是否为目标类别对应的标准问；如果第一标准问不是目标类别对应的标准问，则确定目标问题被分类模型分在错误的类别中。

通过计算目标句向量与多个类向量之间的相似度，确定了目标句向量与目标类别的类向量之间相似度最高之后，进一步的计算目标句向量与每个类别的标准问的句向量之间的相似度，例如，采用余弦相似度计算目标句向量与每个类别的标准问的句向量之间的相似度，余弦相似度的取值范围为[-1,1]，余弦相似度越大表示越相似，确定与目标句向量相似度最高的标准问的句向量为第一标准问的句向量，如果目标句向量与第一标准问的句向量之间的相似度为0.98，目标句向量与目标类别的标准问的句向量之间的相似度为0.85，则确定目标问题被分类模型分在错误的类别中。由于与目标句向量之间的相似度最高的类别是目标类别，那么一般来说，与目标句向量相似度最高的标准问的句向量是目标类别对应的标准问的句向量才是合理的。在确定与目标句向量相似度最高的标准问的句向量为第一标准问的句向量之后，如果发现第一标准问不是目标类别对应的标准问，这说明目标问题被分类模型分在错误的类别中的概率较大。

可选地，在输出提示信息之后，方法还包括：筛选出第一类别，第一类别的类向量与目标句向量之间的相似度最高；将目标句向量与第一类别中的问题的句向量组成向量集合；对向量集合做离群点分析；判断目标句向量是否为离群点；如果目标句向量不是离群点，则将目标问题的类别更新为第一类别。

在输出提示信息之后，对目标问题进行重新分类，重新分类的具体过程如下：首先确定与目标句向量之间相似度最高的类向量，将该类向量的类别确定为第一类别，然后对目标句向量与第一类别中的问题的句向量组成的向量集合进行离群点分析，通过计算目标句向量的异常分数，判断目标句向量是否是离群点。目标句向量的异常分数的值越接近1，目标句向量是离群点的可能性越高。例如，根据实际需求可以定义异常分数阈值为0.9，即，如果目标句向量的异常分数的值大于0.9的，确定目标句向量为离群点，例如目标句向量的异常分数的值为0.95，则确定目标句向量为离群点；如果目标句向量的异常分数的值为0.6，则确定目标句向量不是离群点，然后将目标问题的类别更新为第一类别。异常分数阈值可以根据实际需要确定，以上仅给出一个例子，当异常分数阈值取其他值时也是可以的。

可选地，将多个问题输入到变分自编码器，根据变分自编码器的输出确定多个问题的句向量，包括：分割第k个问题，得到多个分词，获取多个分词的词向量，k依次取1至N，N大于1，N是多个问题的数量；根据词向量确定第k个问题的原始样本数据X_k；将原始样本数据X_k输入变分自编码器，变分自编码器输出均值μ_k和方差根据均值μ_k和方差/>从高斯分布中随机采样得到采样值ε；根据公式Z_k＝σ_k·ε+μ_k确定第k个问题对应的隐藏状态采样变量Z_k；从采样变量Z_k中提取得到第k个问题对应的句向量。

变分自编码器为隐藏状态Z_k做了变分处理，使得输入和输出服从同分布，均值μ_k和方差相同，由于ε是从N(0,1)上随机采样，对于神经网络ε是个常数，Z_k服从N(μ，σ)的分布。

变分自编码器的编码部分采用的是双向的lstm。lstm是一种时间递归神经网络。双向卷积神经网络的隐藏层要保存两个值，A参与正向计算，A’参与反向计算，最终的输出值取决于A和A’。即正向计算时，隐藏层的Z_t与Z_t-1有关，反向计算时，隐藏层的Z_t与Z_t+1有关。例如：我今天不舒服，打算__一天。如果只根据前面的“不舒服”，可能退出打算“去医院”、“休息”、“请假”等词，但是如果加上后面的“一天”，选择范围就小了，就排除了“去医院”，而“休息”、“请假”之类的选择概率会更大。选择双向的lstm，提高了编码的精确度。

本发明实施例提供了一种基于变分自编码器的问题分类装置，该装置用于执行上述基于变分自编码器的问题分类方法，如图2所示，该装置包括：获取单元10、第一确定单元20、第二确定单元30、第一计算单元40、第一判断单元50、第三确定单元60、提示单元70。

获取单元10，用于获取分类模型输出的多个问题以及每个问题的类别，并从多个问题中确定目标问题，其中，目标问题的类别为目标类别。

第一确定单元20，用于将多个问题输入到变分自编码器，根据变分自编码器的输出确定多个问题的句向量。

第二确定单元30，用于根据多个问题的句向量以及每个问题的类别确定每个类别的类向量。

第一计算单元40，用于计算每个类别的类向量与目标句向量之间的相似度，目标句向量为变分自编码器输出的目标问题的句向量。

第一判断单元50，用于判断与目标句向量之间的相似度最高的类别是否为目标类别。

第三确定单元60，用于如果与目标句向量之间的相似度最高的类别不是目标类别，则确定目标问题被分类模型分在错误的类别中。

提示单元70，用于输出提示信息，提示信息用于提示对目标问题重新分类。

可选地，装置还包括：第一分析单元、第二判断单元、第四确定单元。第一分析单元，用于在第一判断单元50判断与目标句向量之间的相似度最高的类别是否为目标类别之后，如果与目标句向量之间的相似度最高的类别是目标类别，则对目标类别中的问题的句向量做离群点分析。第二判断单元，用于根据离群点分析的结果判断目标句向量是否为离群点。第四确定单元，用于如果目标句向量是离群点，则确定目标问题被分类模型分在错误的类别中。

可选地，第一计算单元50包括：根据公式计算类向量与目标句向量之间的相似度，其中，S表示类向量与目标句向量之间的相似度，A表示类向量，B表示目标句向量，A_i表示类向量的第i个元素，B_i表示目标句向量的第i个元素，n表示目标句向量包含的元素的数量。

可选地，装置还包括：第二计算单元、第五确定单元、第三判断单元、第六确定单元。第二计算单元，用于在第一判断单元50判断与目标句向量之间的相似度最高的类别是否为目标类别之后，如果与目标句向量之间的相似度最高的类别是目标类别，则计算目标句向量和每个类别的标准问的句向量之间的相似度。第五确定单元，用于根据计算得到的相似度确定第一标准问，其中，第一标准问的句向量与目标句向量之间的相似度最高。第三判断单元，用于判断第一标准问是否为目标类别对应的标准问。第六确定单元，用于如果第一标准问不是目标类别对应的标准问，则确定目标问题被分类模型分在错误的类别中。

可选地，装置还包括：筛选单元、组成单元、第二分析单元、第四判断单元、更新单元。筛选单元，用于在提示单元80输出提示信息之后，筛选出第一类别，第一类别的类向量与目标句向量之间的相似度最高。组成单元，用于将目标句向量与第一类别中的问题的句向量组成向量集合。第二分析单元，用于对向量集合做离群点分析。第四判断单元，用于判断目标句向量是否为离群点。更新单元，用于如果目标句向量不是离群点，则将目标问题的类别更新为第一类别。

可选地，第一确定单元20包括：分割模块、第一确定模块、输入模块、采样模块、第二确定模块、提取模块。分割模块，用于分割第k个问题，得到多个分词，获取多个分词的词向量，k依次取1至N，N大于1，N是多个问题的数量。第一确定模块，用于根据词向量确定第k个问题的原始样本数据X_k。输入模块，用于将原始样本数据X_k输入变分自编码器变分自编码器输出均值μ_k和方差采样模块，用于根据均值μ_k和方差/>从高斯分布中随机采样得到采样值ε。第二确定模块，用于根据公式Z_k＝σ_k·ε+μ_k确定第k个问题对应的隐藏状态采样变量Z_k。提取模块，用于从采样变量Z_k中提取得到第k个问题对应的句向量。

一方面，本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行以下步骤：获取分类模型输出的多个问题以及每个问题的类别，并从多个问题中确定目标问题，其中，目标问题的类别为目标类别；将多个问题输入到变分自编码器，根据变分自编码器的输出确定多个问题的句向量；根据多个问题的句向量以及每个问题的类别确定每个类别的类向量；计算每个类别的类向量与目标句向量之间的相似度，目标句向量为变分自编码器输出的目标问题的句向量；判断与目标句向量之间的相似度最高的类别是否为目标类别；如果与目标句向量之间的相似度最高的类别不是目标类别，则确定目标问题被分类模型分在错误的类别中；输出提示信息，提示信息用于提示对目标问题重新分类。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：在判断与目标句向量之间的相似度最高的类别是否为目标类别之后，如果与目标句向量之间的相似度最高的类别是目标类别，则对目标类别中的问题的句向量做离群点分析；根据离群点分析的结果判断目标句向量是否为离群点；如果目标句向量是离群点，则确定目标问题被分类模型分在错误的类别中。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：在判断与目标句向量之间的相似度最高的类别是否为目标类别之后，如果与目标句向量之间的相似度最高的类别是目标类别，则计算目标句向量和每个类别的标准问的句向量之间的相似度；根据计算得到的相似度确定第一标准问，其中，第一标准问的句向量与目标句向量之间的相似度最高；判断第一标准问是否为目标类别对应的标准问；如果第一标准问不是目标类别对应的标准问，则确定目标问题被分类模型分在错误的类别中。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：在发出提示信息之后，筛选出第一类别，第一类别的类向量与目标句向量之间的相似度最高；将目标句向量与第一类别中的问题的句向量组成向量集合；对向量集合做离群点分析；判断目标句向量是否为离群点；如果目标句向量不是离群点，则将目标问题的类别更新为第一类别。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：分割第k个问题，得到多个分词，获取多个分词的词向量，k依次取1至N，N大于1，N是多个问题的数量；根据词向量确定第k个问题的原始样本数据X_k；将原始样本数据X_k输入变分自编码器，变分自编码器输出均值μ_k和方差根据均值μ_k和方差/>从高斯分布中随机采样得到采样值ε；根据公式Z_k＝σ_k·ε+μ_k确定第k个问题对应的隐藏状态采样变量Z_k；从采样变量Z_k中提取得到第k个问题对应的句向量。

可选地，在程序运行时控制存储介质所在设备还执行以下步骤：根据公式计算类向量与目标句向量之间的相似度，其中，S为类向量与目标句向量之间的相似度，A是类向量，B是目标句向量，A_i是类向量的第i个元素，B_i是目标句向量的第i个元素，n是目标句向量包含的元素的数量。

一方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现以下步骤：获取分类模型输出的多个问题以及每个问题的类别，并从多个问题中确定目标问题，其中，目标问题的类别为目标类别；将多个问题输入到变分自编码器，根据变分自编码器的输出确定多个问题的句向量；根据多个问题的句向量以及每个问题的类别确定每个类别的类向量；计算每个类别的类向量与目标句向量之间的相似度，目标句向量为变分自编码器输出的目标问题的句向量；判断与目标句向量之间的相似度最高的类别是否为目标类别；如果与目标句向量之间的相似度最高的类别不是目标类别，则确定目标问题被分类模型分在错误的类别中；输出提示信息，提示信息用于提示对目标问题重新分类。

可选地，程序指令被处理器加载并执行时还实现以下步骤：在判断与目标句向量之间的相似度最高的类别是否为目标类别之后，如果与目标句向量之间的相似度最高的类别是目标类别，则对目标类别中的问题的句向量做离群点分析；根据离群点分析的结果判断目标句向量是否为离群点；如果目标句向量是离群点，则确定目标问题被分类模型分在错误的类别中。

可选地，程序指令被处理器加载并执行时还实现以下步骤：在判断与目标句向量之间的相似度最高的类别是否为目标类别之后，如果与目标句向量之间的相似度最高的类别是目标类别，则计算目标句向量和每个类别的标准问的句向量之间的相似度；根据计算得到的相似度确定第一标准问，其中，第一标准问的句向量与目标句向量之间的相似度最高；判断第一标准问是否为目标类别对应的标准问；如果第一标准问不是目标类别对应的标准问，则确定目标问题被分类模型分在错误的类别中。

可选地，程序指令被处理器加载并执行时还实现以下步骤：在发出提示信息之后，筛选出第一类别，第一类别的类向量与目标句向量之间的相似度最高；将目标句向量与第一类别中的问题的句向量组成向量集合；对向量集合做离群点分析；判断目标句向量是否为离群点；如果目标句向量不是离群点，则将目标问题的类别更新为第一类别。

可选地，程序指令被处理器加载并执行时还实现以下步骤：分割第k个问题，得到多个分词，获取多个分词的词向量，k依次取1至N，N大于1，N是多个问题的数量；根据词向量确定第k个问题的原始样本数据X_k；将原始样本数据X_k输入变分自编码器，变分自编码器输出均值μ_k和方差根据均值μ_k和方差/>从高斯分布中随机采样得到采样值ε；根据公式Z_k＝σ_k·ε+μ_k确定第k个问题对应的隐藏状态采样变量Z_k；从采样变量Z_k中提取得到第k个问题对应的句向量。

可选地，程序指令被处理器加载并执行时还实现以下步骤：根据公式计算类向量与目标句向量之间的相似度，其中，S为类向量与目标句向量之间的相似度，A是类向量，B是目标句向量，A_i是类向量的第i个元素，B_i是目标句向量的第i个元素，n是目标句向量包含的元素的数量。

图3是本发明实施例提供的一种计算机设备的示意图。如图3所示，该实施例的计算机设备50包括：处理器51、存储器52以及存储在存储器52中并可在处理器51上运行的计算机程序53，该计算机程序53被处理器51执行时实现实施例中的基于变分自编码器的问题分类方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器51执行时实现实施例中基于变分自编码器的问题分类装置中各模型/单元的功能，为避免重复，此处不一一赘述。

计算机设备50可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器51、存储器52。本领域技术人员可以理解，图3仅仅是计算机设备50的示例，并不构成对计算机设备50的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器51可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器52可以是计算机设备50的内部存储单元，例如计算机设备50的硬盘或内存。存储器52也可以是计算机设备50的外部存储设备，例如计算机设备50上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器52还可以既包括计算机设备50的内部存储单元也包括外部存储设备。存储器52用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器52还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于变分自编码器的问题分类方法，其特征在于，所述方法包括：

获取分类模型输出的多个问题以及每个问题的类别，并从所述多个问题中确定目标问题，其中，所述目标问题的类别为目标类别；所述分类模型是利用标注的训练数据训练特征生成器以及分类器得到的；其中，特征生成器用于将标注的训练数据的原始特征数据变换到同一特征空间中得到变换后的特征数据；分类器用于根据变换后的特征数据将标注的训练数据所属的领域进行分类；所述获取分类模型输出的多个问题以及每个问题的类别包括：将多个问题输入训练好的分类模型后，分类模型即可输出多个问题以及每个问题的类别；

将所述多个问题输入到变分自编码器，根据所述变分自编码器的输出确定所述多个问题的句向量；所述将所述多个问题输入到变分自编码器，根据所述变分自编码器的输出确定所述多个问题的句向量，包括：分割第k个问题，得到多个分词，获取所述多个分词的词向量，k依次取1至N，N大于1，N是所述多个问题的数量；根据所述词向量确定所述第k个问题的原始样本数据X_k；将所述原始样本数据X_k输入所述变分自编码器，所述变分自编码器输出均值μ_k和方差根据所述均值μ_k和所述方差/>从高斯分布中随机采样得到采样值ε；根据公式Z_k＝σ_k·ε+μ_k确定所述第k个问题对应的隐藏状态采样变量Z_k；从所述采样变量Z_k中提取得到所述第k个问题对应的句向量；

根据所述多个问题的句向量以及每个问题的类别确定每个类别的类向量；

计算所述每个类别的类向量与目标句向量之间的相似度，所述目标句向量为所述变分自编码器输出的所述目标问题的句向量；

判断与所述目标句向量之间的相似度最高的类别是否为所述目标类别；

如果与所述目标句向量之间的相似度最高的类别不是所述目标类别，则确定所述目标问题被所述分类模型分在错误的类别中；

输出提示信息，所述提示信息用于提示对所述目标问题重新分类。

2.根据权利要求1所述的方法，其特征在于，在所述判断与所述目标句向量之间的相似度最高的类别是否为所述目标类别之后，所述方法还包括：

如果与所述目标句向量之间的相似度最高的类别是所述目标类别，则对所述目标类别中的问题的句向量做离群点分析；

根据离群点分析的结果判断所述目标句向量是否为离群点；

如果所述目标句向量是离群点，则确定所述目标问题被所述分类模型分在错误的类别中。

3.根据权利要求1所述的方法，其特征在于，在所述判断与所述目标句向量之间的相似度最高的类别是否为所述目标类别之后，所述方法还包括：

如果与所述目标句向量之间的相似度最高的类别是所述目标类别，则计算所述目标句向量和每个类别的标准问的句向量之间的相似度；

根据计算得到的相似度确定第一标准问，其中，所述第一标准问的句向量与所述目标句向量之间的相似度最高；

判断所述第一标准问是否为所述目标类别对应的标准问；

如果所述第一标准问不是所述目标类别对应的标准问，则确定所述目标问题被所述分类模型分在错误的类别中。

4.根据权利要求1所述的方法，其特征在于，在所述输出提示信息之后，所述方法还包括：

筛选出第一类别，所述第一类别的类向量与所述目标句向量之间的相似度最高；

将所述目标句向量与所述第一类别中的问题的句向量组成向量集合；

对所述向量集合做离群点分析；

判断所述目标句向量是否为离群点；

如果所述目标句向量不是离群点，则将所述目标问题的类别更新为所述第一类别。

5.一种基于变分自编码器的问题分类装置，其特征在于，所述装置包括：

获取单元，用于获取分类模型输出的多个问题以及每个问题的类别，并从所述多个问题中确定目标问题，其中，所述目标问题的类别为目标类别；所述分类模型是利用标注的训练数据训练特征生成器以及分类器得到的；其中，特征生成器用于将标注的训练数据的原始特征数据变换到同一特征空间中得到变换后的特征数据；分类器用于根据变换后的特征数据将标注的训练数据所属的领域进行分类；所述获取分类模型输出的多个问题以及每个问题的类别包括：将多个问题输入训练好的分类模型后，分类模型即可输出多个问题以及每个问题的类别；

第一确定单元，用于将所述多个问题输入到变分自编码器，根据所述变分自编码器的输出确定所述多个问题的句向量；第一确定单元包括：分割模块、第一确定模块、输入模块、采样模块、第二确定模块、提取模块；分割模块用于分割第k个问题，得到多个分词，获取多个分词的词向量，k依次取1至N，N大于1，N是多个问题的数量；第一确定模块用于根据词向量确定第k个问题的原始样本数据X_k；输入模块用于将原始样本数据X_k输入变分自编码器，变分自编码器输出均值μ_k和方差采样模块用于根据均值μ_k和方差/>从高斯分布中随机采样得到采样值ε；第二确定模块用于根据公式Z_k＝σ_k·ε+μ_k确定第k个问题对应的隐藏状态采样变量Z_k；提取模块用于从采样变量Z_k中提取得到第k个问题对应的句向量；

第二确定单元，用于根据所述多个问题的句向量以及每个问题的类别确定每个类别的类向量；

第一计算单元，用于计算所述每个类别的类向量与目标句向量之间的相似度，所述目标句向量为所述变分自编码器输出的所述目标问题的句向量；

第一判断单元，用于判断与所述目标句向量之间的相似度最高的类别是否为所述目标类别；

第三确定单元，用于如果与所述目标句向量之间的相似度最高的类别不是所述目标类别，则确定所述目标问题被所述分类模型分在错误的类别中；

提示单元，用于输出提示信息，所述提示信息用于提示对所述目标问题重新分类。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第一分析单元，用于在所述第一判断单元判断与所述目标句向量之间的相似度最高的类别是否为所述目标类别之后，如果与所述目标句向量之间的相似度最高的类别是所述目标类别，则对所述目标类别中的问题的句向量做离群点分析；

第二判断单元，用于根据离群点分析的结果判断所述目标句向量是否为离群点；

第四确定单元，用于如果所述目标句向量是离群点，则确定所述目标问题被所述分类模型分在错误的类别中。

7.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第二计算单元，用于在所述第一判断单元判断与所述目标句向量之间的相似度最高的类别是否为所述目标类别之后，如果与所述目标句向量之间的相似度最高的类别是所述目标类别，则计算所述目标句向量和每个类别的标准问的句向量之间的相似度；

第五确定单元，用于根据计算得到的相似度确定第一标准问，其中，所述第一标准问的句向量与所述目标句向量之间的相似度最高；

第三判断单元，用于判断所述第一标准问是否为所述目标类别对应的标准问；

第六确定单元，用于如果所述第一标准问不是所述目标类别对应的标准问，则确定所述目标问题被所述分类模型分在错误的类别中。

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的基于变分自编码器的问题分类方法。

9.一种计算机设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于：所述程序指令被处理器加载并执行时实现权利要求1至4任意一项所述的基于变分自编码器的问题分类方法的步骤。