CN110119447A

CN110119447A - 自编码神经网络处理方法、装置、计算机设备及存储介质

Info

Publication number: CN110119447A
Application number: CN201910345019.2A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-08-13
Anticipated expiration: 2039-04-26
Also published as: WO2020215560A1; CN110119447B

Abstract

本申请公开了一种自编码神经网络处理方法、装置、计算机设备及存储介质，该方法通过将文本样本转化为样本词向量，将样本词向量输入到卷积神经网络模型中对样本词向量进行初步特征提取，得到样本初步隐含特征；将样本初步隐含特征输入到多个自编码神经网络中，对自编码神经网络进行训练，得到多个自编码神经网络模型，将样本初步隐含特征输入到自编码神经网络模型中进行特征提取，得到自编码神经网络模型输出的样本隐含特征；对提取出的样本隐含特征的特征样本进行聚类，得到聚类结果；根据聚类结果确定是否要重新构建自编码神经网络；若确定要重新构建自编码神经网络，则根据轮廓系数构建目标自编码神经网络，得到聚类准确率高的自编码神经网络。

Description

自编码神经网络处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机领域，尤其涉及一种自编码神经网络处理方法、装置、计算机设备及存储介质。

背景技术

随着现代人生活节奏的加快，为了能在短时间内浏览到尽可能多的信息，网络中涌现了越来越多的短文本。这些短文本结构和内容各不相同。

为了对这些短文本进行分析和统计，通常做法是采用词袋模型进行文本特征的提取，再通过聚类算法对提取出来的特征进行聚类。然而，由于词袋模型需要忽略文本的词序、语法、句法等要素，将文本拆分为一个个词，这样的做法由于缺少神经网络进行特征提取，往往导致文本特征信息丢失，从而导致文本特征提取准确率降低，从而影响聚类准确率。因此，如何确定出出一个能够提高聚类准确率的神经网络还有待解决。

发明内容

本申请提供一种自编码神经网络处理方法、装置、计算机设备及存储介质，以训练出一个能提高聚类准确率的自编码神经网络模型。

一种自编码神经网络处理方法，包括：

获取文本样本；

将所述文本样本转化为样本词向量；

将所述样本词向量输入到预先训练完毕的卷积神经网络模型中，以对所述样本词向量进行初步特征提取，得到样本初步隐含特征；

将所述样本初步隐含特征输入到多个自编码神经网络中，对所述自编码神经网络进行训练，得到多个自编码神经网络模型，其中，各个所述自编码神经网络的隐层和隐层单元数量不同；

分别将所述样本初步隐含特征输入到每个所述自编码神经网络模型中进行特征提取，分别得到每个所述自编码神经网络模型输出的样本隐含特征；

采用聚类算法对每个所述自编码神经网络模型提取出的所述样本隐含特征的特征样本分别进行聚类，得到每一个所述自编码神经网络模型对应的聚类结果；

根据每个所述自编码神经网络模型对应的所述聚类结果确定是否要重新构建自编码神经网络；

若确定要重新构建自编码神经网络，则根据所述聚类结果的轮廓系数构建目标自编码神经网络。

一种自编码神经网络处理装置，包括：

获取模块，用于获取文本样本；

转化模块，用于将所述文本样本转化为样本词向量；

第一特征提取模块，用于将所述样本词向量输入到预先训练完毕的卷积神经网络模型中，以对所述样本词向量进行初步特征提取，得到样本初步隐含特征；

训练模块，用于将所述样本初步隐含特征输入到多个自编码神经网络中，对所述自编码神经网络进行训练，得到多个自编码神经网络模型，其中，各个所述自编码神经网络的隐层和隐层单元数量不同；

第二特征提取模块，用于分别将所述样本初步隐含特征输入到每个所述自编码神经网络模型中进行特征提取，分别得到每个所述自编码神经网络模型输出的样本隐含特征；

聚类模块，用于采用聚类算法对每个所述自编码神经网络模型提取出的所述样本隐含特征的特征样本分别进行聚类，得到每一个所述自编码神经网络模型对应的聚类结果；

确定模块，用于根据每个所述自编码神经网络模型对应的所述聚类结果确定是否要重新构建自编码神经网络；

重构模块，用于若确定要重新构建自编码神经网络，则根据所述聚类结果的轮廓系数构建目标自编码神经网络。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述自编码神经网络处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述自编码神经网络处理方法。

上述自编码神经网络处理方法、装置、计算机设备及存储介质，通过对文本样本进行预处理、初步特征提取以及自编码神经网络训练，得到自编码神经网络模型，再采用自编码神经网络模型进行进一步地特征提取，得到样本隐含特征，使得样本隐含特征包含了更多文本样本中的有效信息；再对样本隐含特征进行聚类，最后根据聚类结果来构建目标自编码神经网络以得到一个能提高聚类准确率的自编码神经网络。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中自编码神经网络处理方法的一应用环境示意图；

图2是本申请一实施例中自编码神经网络处理方法的一流程图；

图3是本申请一实施例中自编码神经网络处理方法的一示例图；

图4是本申请一实施例中自编码神经网络处理方法的一示例图；

图5是本申请一实施例中自编码神经网络处理方法的一示例图；

图6是本申请一实施例中自编码神经网络处理方法的一示例图；

图7是本申请一实施例中自编码神经网络处理方法的一示例图；

图8是本申请一实施例中自编码神经网络处理装置的一原理框图；

图9是本申请一实施例中自编码神经网络处理装置的一示意图；

图10是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的自编码神经网络处理方法，可应用在如图1所述的网络架构中，其中服务器在获取到文本样本之后，对文本样本进行预处理，得到初步样本隐含特征之后，开始训练自编码神经网络，在得到训练完成的自编码神经网络模型之后，进行进一步地特征提取，并将提取出的特征对应的特征样本进行聚类，最后根据聚类结果的轮廓系数重新构建出目标自编码神经网络。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种自编码神经网络处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取文本样本。

其中，文本样本是指包括字符、词语、语句或者字符的组合。

文本样本可以是通过爬虫技术从网络上获取得到，这里对文本样本的获取方式不做限定。

S20：将文本样本转化为样本词向量。

其中，样本词向量是指能被计算机识别的，用于对神经网络进行训练的向量样本。

具体地，可以采用word2vec算法，将文本样本转化为样本词向量，将所述样本词向量作为样本词向量，或者通过其他样本词向量转化方式得到上述样本词向量，例如glove算法将文本样本转化为样本词向量，具体这里不做限定。

S30：将样本词向量输入到预先训练完毕的卷积神经网络模型中，以对样本词向量进行初步特征提取，得到样本初步隐含特征。

其中，预先训练完毕的卷积神经网络模型(Text in Convolutional NeuralNetwork，TextCNN)是指提前对该卷积神经网络模型进行训练的，并且已经达到预期的特征提取效果的神经网络。

具体地，将样本词向量作为卷积神经网络模型的输入样本，输入到卷积神经网络模型的输入层，并依次经过卷积层、激活函数、池化层、全连接层的处理，在输出层进行特征输出，得到样本词向量的样本初步隐含特征。其中，样本隐含特征为卷积神经网络模型所提取出来的特征向量，样本初步隐含特征是高维度的隐含特征，通常里面包含了很多干扰信息。

在该具体实施例中，通过将样本词向量输入到预先训练完毕的卷积神经网络模型中，以对所述样本词向量进行初步特征提取，得到样本初步隐含特征。通过采用预先训练完毕的卷积神经网络模型对样本词向量进行预处理，将部分样本词向量的特征提取出来，以减少后续自编码神经网络的训练所需的时间。

S40：将样本初步隐含特征输入到多个自编码神经网络中，对自编码神经网络进行训练，得到多个自编码神经网络模型，其中，各个自编码神经网络的隐层和隐层单元数量不同。

其中，自编码神经网络是一种无监督学习的神经网络，在本申请实施例中，样本初步隐含特征输入到自编码神经网络，经过自编码神经网络隐层和隐层单元的层层计算，尝试获得一个接近输入(样本初步隐含特征)的输出(样本隐含特征)。通过将输入和输出的差距最小化以进行训练，以确保提取的样本隐含特征能够保留充分信息。

具体地，将样本初步隐含特征输入到自编码神经网络，使用反向传播算法来对自编码神经网络进行无监督训练，使得输出尽可能等于输入。

其中，自编码神经网络可以是稀疏自编码器(Sparse Autoencoder)，稀疏自编码器的训练过程是通过计算自编码的输出与原输入的误差，不断调节自编码神经网络的隐层和隐层单元的数量，最终训练出所需的自编码神经网络模型，在本申请实施例中，预设有多个隐层和隐层单元数量不同的自编码神经网络。

S50：分别将样本初步隐含特征输入到每个自编码神经网络模型中进行特征提取，分别得到每个自编码神经网络模型输出的样本隐含特征。

具体地，将样本初步隐含特征作为输入，输入到自编码神经网络模型，初步隐含特征通过自编码神经网络模型进行特征提取，将样本初步隐含特征的维度降低，得到低维度的样本隐含特征。

在该具体实施例中，将样本初步隐含特征输入到自编码网络模型中进行进一步地特征提取，能够把高维度的样本初步隐含特征压缩成低维度的样本隐含特征，样本初步隐含特征通过自编神经网络模型的处理，能够去除样本初步隐含特征的干扰信息，并且能够将最大程度地防止样本初步隐含特征中所包含的信息丢失。

S60：采用聚类算法对每个自编码神经网络模型提取出的样本隐含特征的特征样本分别进行聚类，得到每一个自编码神经网络模型对应的聚类结果。

其中，聚类算法是一种按照某个特定标准(如距离准则)把特征样本集划分到不同的簇中，使得同一个簇内的特征样本的样本隐含特征相似性尽可能大，同时，不同簇中的特征样本的样本隐含特征的差异性也尽可能地大，即聚类后同一类的特征样本尽可能聚集到一起，不同类特征样本尽量分离的算法。具体地，该聚类算法可以是k-means算法(k-均值聚类算法)，其中，聚类算法可以是上述所提及的K-Means算法，也可以是DBSCAN算法，在此不做具体限定。

自编码神经网络模型对应的聚类结果是指采用该自编码神经网络模型提取的样本隐含特征对应的特征样本进行聚类生成的。例如：有自编码神经网络模型A以及自编码神经网络模型B，自编码神经网络模型A提取出来样本隐含特征A，自编码神经网络模型B提取出来的样本隐含特征B，将样本隐含特征A对应的特征样本采用聚类算法进行聚类，得到聚类结果A，自编码神经网络模型A对应的聚类结果为聚类结果A，将样本隐含特征B对应的特征样本采用聚类算法进行聚类，得到聚类结果B，自编码神经网络模型B对应的聚类结果为聚类结果B。

具体地，可以采用K-Means算法对提取出所述样本隐含特征的样本进行聚类运算。通过将提取出所述样本隐含特征的特征样本进行聚类运算，根据样本隐含特征，将特征样本聚类分成多个簇(在一些文献中，簇也称作类)，并输出聚类运算后的聚类结果。其中，每个簇中包括一个或多个特征样本，不同簇之间的特征样本的特征不同。

S70：根据每个自编码神经网络模型对应的聚类结果确定是否要重新构建自编码神经网络。

具体地，可以在得到多个不同的聚类结果之后，根据不同聚类结果的轮廓系数来确定是否要构建自编码神经网络。其中，可以重新构建一个自编码神经网络，也可以重新构建多个自编码神经网络，具体需要重新构建多少个自编码神经网络可以根据实际需求来定。

在一些具体实施例中，还可以通过人为观察聚类结果中各个簇的特征样本之间的存在的差异来确定是否要构建自编码神经网络。

S80：若确定要重新构建自编码神经网络，则根据聚类结果的轮廓系数构建目标自编码神经网络。

在一些其他的实施例中，若确定无需构建自编码神经网络，则选取聚类结果的轮廓系数最大的自编码神经网络模型作为最终模型。

该实施例采用了卷积神经网络模型进行初步的样本隐含特征提取，再采用训练好的自编码神经网络模型来进行样本隐含特征的提取，通过多次特征提取，能够使得原本高维度的样本词向量维度降低的同时还能尽可能得保留文本样本中的特征信息，从而使得后续在对样本隐含特征对应的特征样本进行聚类时聚类效果更佳。在该实施例中，在训练得到自编码神经网络模型之后，对样本隐含特征对应的特征样本的聚类结果来重新构建自编码神经网络，能够通过对聚类结果轮来对自编码神经网络进行验证，能够得到一个聚类准确率高的自编码神经网络。

在一实施例中，如图3所示，步骤S70中，即根据每个自编码神经网络模型对应的聚类结果确定是否要重新构建自编码神经网络，具体包括如下步骤：

S71：分别计算每一个自编码神经网络模型对应的聚类结果的轮廓系数。

轮廓系数是聚类结果好坏的评价方法。轮廓系数的取值范围为:[-1，1]，轮廓系数越大，则证明聚类结果越好。

具体地，采用轮廓系数的计算公式来计算各个聚类结果的轮廓系数。

S72：判断每一个聚类结果的轮廓系数是否满足预设条件。

其中，预设条件是指聚类结果的轮廓系数需要到达的最低值，预设条件可以根据实际的聚类需求来定。例如，对聚类结果要求高的，可以将预设条件设置为0.95；对聚类结果要求不高的，可将预设条件设置为0.4。

S73：若每一个聚类结果的轮廓系数都不满足预设条件，则确定要重新构建自编码神经网络。

具体地，若所述轮廓系数都不满足预设条件，则证明步骤S40训练得到的自编码神经网络模型的特征提取效果不佳，从而导致聚类效果也不佳，因此要重新构建自编码神经网络。

在一些另外的实施例中，若存在任意一个轮廓系数满足预设条件，则无需构建目标自编码神经网络。

在该实施例中，计算每一个自编码神经网络模型对应的聚类结果的轮廓系数，判断每一个聚类结果的轮廓系数是否满足预设条件，若每一个聚类结果的轮廓系数都不满足预设条件，则确定要重新构建自编码神经网络。

通过计算每个自编码神经网络模型对应的聚类结果的轮廓系数来确定是否要重新构建自编码神经网络，能够对自编码神经网络模型的验证进行标准化判断(即采用同一参数进行判断)。

在一个聚类结果包括多个簇，每个簇包含一个或多个特征样本的实施例中，如图4所示，步骤S71中，即分别计算每一个自编码神经网络模型对应的聚类结果的轮廓系数，包括如下步骤：

S711：计算同一所述聚类结果中，每一个所述特征样本到所述特征样本所属的簇中的其他特征样本的平均距离。

S712：计算同一所述聚类结果中，每一个所述特征样本到所述样本非所属的所述簇中的其他特征样本的平均距离。

S713：计算同一所述聚类结果中，所述每一个所述特征样本的轮廓系数，其中，轮廓系数为：

其中，i表示同一所述聚类结果的特征样本i；S(i)为所述特征样本i的轮廓系数；b(i)为所述特征样本i到特征样本i非所属的簇中的其他特征样本的平均距离；a(i)为所述特征样本i到特征样本i所属的簇中的其他特征样本的平均距离；max{a(i),b(i)}表示取a(i)和b(i)中的最大值。

S714：取同一聚类结果中，所有特征样本的轮廓系数的平均值，作为同一聚类结果的轮廓系数。

也就是说，本申请实施例中会依据步骤S711-S714的计算方式，计算每个自编码网络模型的聚类结果的轮廓系数，从而得到每个自编码神经网络对应的聚类结果的轮廓系数。

在一实施例中，如图5所示，步骤S80：若确定要重新构建自编码神经网络，则根据所述轮廓系数构建目标自编码神经网络，包括如下步骤：

S81：确定所有聚类结果的轮廓系数与所有自编码神经网络模型的隐层和隐层单元的数量之间的隐含规律。

具体地，可以先确定每一个聚类结果的轮廓系数是根据哪一个聚类结果计算得出的，再反推出该聚类结果的轮廓系数所对应的自编码神经网络模型。获取该轮廓系数对应的自编码神经网络模型的隐层和隐层单元的数量，再找出轮廓系数的大小和自编码神经网络模型的隐层和隐层单元的数量之间的关系，得到隐含规律。

示例性地，隐含规律可以是自编码神经网络模型的隐层和隐层单元的数量越多，轮廓系数越大；也可以是自编码神经网络模型的隐层和隐层单元的数量越少，轮廓系数越大。

S82：将隐含规律作为目标自编码神经网络的隐层和隐层单元的数量的设置依据。

具体地，将隐含规律作为目标自编码神经网络的隐层和隐层单元的数量的设置依据。例如，隐含规律为自编码神经网络模型的隐层和隐层单元的数量越多，轮廓系数越大，则设置依据可以是增加隐层和隐层单元的数量；隐含规律为自编码神经网络模型的隐层和隐层单元的数量越少，轮廓系数越大。则设置依据可以是减少隐层和隐层单元的数量。

S83：根据设置依据来设置目标自编码神经网络的隐层和隐层单元的数量。

在该具体实施例中，通过确定所有所述轮廓系数与所有所述自编码神经网络模型的隐层和隐层单元的数量之间的隐含规律，再将隐含规律作为重新构建自编码神经网络模型的隐层和隐层单元的数量的设置依据，最后根据设置来设置自编码神经网络模型的隐层和隐层单元的数量。通过确定自编码神经网络模型的设置依据，使得目标自编码神经网络的的隐层和隐层单元的数量的设置能够有根据性地进行。

进一步地，在该具体实施例中，在设置了目标自编码神经网络的隐层和隐层单元的数量后，还需要对目标自编码神经网络重新进行训练得到目标自编码神经网络模型，以及采用目标自编码神经网络模型进行特征提取，并对目标自编码神经网络模型提取出的特征所对应的特征样本进行聚类，然后计算聚类结果的轮廓系数，若聚类结果的轮廓系数不符合预设条件，则重新构建目标神经网络，直至达到预期效果。其中预期效果是指该自编码神经网络模型所对应的聚类结果的轮廓系数满足预设条件。

在一实施例中，如图6所示，在步骤S80之后，即若确定要重新构建自编码神经网络，则根据聚类结果的轮廓系数构建目标自编码神经网络之后，该自编码神经网络处理方法还包括以下步骤：

S90：选取达到所述预期效果的目标自编码神经网络对应的目标自编码神经网络模型作为最终模型。

在一个设置依据为增加隐层和隐层单元的数量，或者减少隐层和隐层单元的数量的实施例中，如图7所示，步骤S83：若确定要重新构建自编码神经网络，则根据聚类结果的轮廓系数构建目标自编码神经网络，包括如下步骤：

S831：若设置依据为增加隐层和隐层单元的数量，则选择最大轮廓系数所对应的自编码神经网络模型的隐层和隐层单元数量作为目标自编码神经网络的设置基数；

具体地，选择最大轮廓系数所对应的自编码神经网络模型的隐层和隐层单元数量作为设置基数。示例性地，若自编码神经网络模型A、B和C中，最大轮廓系数所对应的自编码神经网络模型A的隐层和隐层单元数量为3层隐层和100个隐层单元，设置依据为增加自编码神经网络模型的隐层和隐层单元的数量，则目标自编码神经网络的设置基数为3层隐层和100个隐层单元。

S832：在设置基数上增加目标自编码神经网络隐层和隐层单元的数量。

具体地，目标自编码神经网络的隐层和隐层单元的数量以设置基数为基础，增加目标自编码神经网络隐层和隐层单元的数量。示例性地，目标自编码神经网络的设置基数为隐层和隐层单元的数量在3层隐层和100个隐层单元，则在3层隐层和100个隐层单元的设置基数上，增加目标自编码神经网络的隐层和隐层单元的数量。

或者

S833：若设置依据为减少隐层和隐层单元的数量，则选择最大轮廓系数所对应的自编码神经网络模型的隐层和隐层单元数量作为目标自编码神经网络的设置基数。

具体地，选择最大轮廓系数所对应的自编码神经网络模型的隐层和隐层单元数量作为设置基数。示例性地，若自编码神经网络模型A、B和C中，最大轮廓系数所对应的自编码神经网络模型A的隐层和隐层单元数量为3层隐层和100个隐层单元，设置依据为减少自编码神经网络模型的隐层和隐层单元的数量，则目标自编码神经网络的设置基数为3层隐层和100个隐层单元。

S834：在设置基数上减少目标自编码神经网络隐层和隐层单元的数量。

具体地，目标自编码神经网络的隐层和隐层单元的数量以设置基数为基础，减少目标自编码神经网络隐层和隐层单元的数量。示例性地，目标自编码神经网络的设置基数为隐层和隐层单元的数量在3层隐层和100个隐层单元，则在3层隐层和100个隐层单元的设置基数上，减少目标自编码神经网络的隐层和隐层单元的数量。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种自编码神经网络处理装置，该自编码神经网络处理装置与上述实施例中自编码神经网络处理方法一一对应。如图8所示，该自编码神经网络处理装置包括获取模块10、转化模块20、第一特征提取模块30、训练模块40、第二特征提取模块50、聚类模块60、确定模块70和重构模块80。各功能模块详细说明如下：

获取模块10，用于获取文本样本；

转化模块20，用于将文本样本转化为样本词向量；

第一特征提取模块30，用于将样本词向量输入到预先训练完毕的卷积神经网络模型中，以对样本词向量进行初步特征提取，得到样本初步隐含特征；

训练模块40，用于将样本初步隐含特征输入到多个自编码神经网络中，对自编码神经网络进行训练，得到多个自编码神经网络模型，其中，各个自编码神经网络的隐层和隐层单元数量不同；

第二特征提取模块50，用于分别将样本初步隐含特征输入到每个自编码神经网络模型中进行特征提取，分别得到每个自编码神经网络模型输出的样本隐含特征；

聚类模块60，用于采用聚类算法对每个自编码神经网络模型提取出的样本隐含特征的特征样本分别进行聚类，得到每一个自编码神经网络模型对应的聚类结果；

确定模块70，用于根据每个自编码神经网络模型对应的聚类结果确定是否要重新构建自编码神经网络；

重构模块80，用于若确定要重新构建自编码神经网络，则根据聚类结果的轮廓系数构建目标自编码神经网络。

优选地，在一个实施例中，如图9所示，确定模块70包括：计算子模块71、判断子模块72和确定子模块73，各个模块之间详细的功能说明如下：

计算子模块71，用于分别计算每一个自编码神经网络模型对应的聚类结果的轮廓系数；

判断子模块72，用于判断每一个聚类结果的轮廓系数是否满足预设条件；

确定子模块73，用于若每一个聚类结果的轮廓系数都不满足预设条件，则确定要重新构建自编码神经网络。

可选地，在一个实施例中，计算子模块71包括：第一计算单元、第二计算单元、第三计算单元和第四计算单元，各个单元之间详细的功能说明如下：

第一计算单元，用于计算同一聚类结果中，每一个特征样本到特征样本所属的簇中的其他特征样本的平均距离；

第二计算单元，用于计算同一聚类结果中，每一个特征样本到样本非所属的簇中的其他特征样本的平均距离；

第三计算单元，用于计算同一聚类结果中，每一个特征样本的轮廓系数，其中，轮廓系数为：

其中，i表示同一聚类结果的特征样本i；S(i)为特征样本i的轮廓系数；b(i)为特征样本i到特征样本i非所属的簇中的其他特征样本的平均距离；a(i)为特征样本i到特征样本i所属的簇中的其他特征样本的平均距离；max{a(i),b(i)}表示取a(i)和b(i)中的最大值；

第四计算单元，用于取同一聚类结果中，所有特征样本的轮廓系数的平均值，作为同一聚类结果的轮廓系数。

可选地，在一个实施例中，重构模块80包括：确定单元、设置依据确定单元和设置单元，各个单元之间的功能说明如下：

确定单元，用于确定所有聚类结果的轮廓系数与所有自编码神经网络模型的隐层和隐层单元的数量之间的隐含规律；

设置依据确定单元，用于将隐含规律作为目标自编码神经网络的隐层和隐层单元的数量的设置依据；

设置单元，用于根据设置依据来设置目标自编码神经网络的隐层和隐层单元的数量。

可选地，在一个实施例中，在重构模块80之后，自编码神经网络处理装置还包括选取模块，该模块的详细功能说明如下：

选取模块，用于选取达到预期效果的目标自编码神经网络对应的目标自编码神经网络模型作为最终模型。

可选地，在一个实施例中，设置单元包括：选取子单元和设置子单元，各个单元之间的详细说明如下：

选取子单元，用于若设置依据为增加隐层和隐层单元的数量，则选择最大轮廓系数所对应的自编码神经网络模型的隐层和隐层单元数量作为目标自编码神经网络的设置基数；

或者用于若设置依据为减少隐层和隐层单元的数量，则选择最大轮廓系数所对应的自编码神经网络模型的隐层和隐层单元数量作为目标自编码神经网络的设置基数。

设置子单元，用于在设置基数上增加目标自编码神经网络隐层和隐层单元的数量；

或者用于在设置基数上减少目标自编码神经网络隐层和隐层单元的数量。

关于自编码神经网络处理装置的具体限定可以参见上文中对于自编码神经网络处理方法的限定，在此不再赘述。上述自编码神经网络处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储所述自编码神经网络处理方法所需的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种自编码神经网络处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取文本样本；

将文本样本转化为样本词向量；

将样本词向量输入到预先训练完毕的卷积神经网络模型中，以对样本词向量进行初步特征提取，得到样本初步隐含特征；

将样本初步隐含特征输入到多个自编码神经网络中，对自编码神经网络进行训练，得到多个自编码神经网络模型，其中，各个自编码神经网络的隐层和隐层单元数量不同；

分别将样本初步隐含特征输入到每个自编码神经网络模型中进行特征提取，分别得到每个自编码神经网络模型输出的样本隐含特征；

采用聚类算法对每个自编码神经网络模型提取出的样本隐含特征的特征样本分别进行聚类，得到每一个自编码神经网络模型对应的聚类结果；

根据每个自编码神经网络模型对应的聚类结果确定是否要重新构建自编码神经网络；

若确定要重新构建自编码神经网络，则根据轮廓系数构建目标自编码神经网络。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取文本样本；

将文本样本转化为样本词向量；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种自编码神经网络处理方法，其特征在于，包括：

获取文本样本；

将所述文本样本转化为样本词向量；

2.如权利要求1所述的自编码神经网络处理方法，其特征在于，所述根据每个所述自编码神经网络模型对应的所述聚类结果确定是否要重新构建自编码神经网络，包括：

分别计算每一个所述自编码神经网络模型对应的聚类结果的轮廓系数；

判断每一个所述聚类结果的轮廓系数是否满足预设条件；

若所述每一个所述聚类结果的轮廓系数都不满足所述预设条件，则确定要重新构建自编码神经网络。

3.如权利要求2所述的自编码神经网络处理方法，其特征在于，所述聚类结果包括多个簇，每个所述簇包含一个或多个所述特征样本，所述分别计算每一个所述自编码神经网络模型对应的聚类结果的轮廓系数，包括：

计算同一所述聚类结果中，每一个所述特征样本到所述特征样本所属的簇中的其他特征样本的平均距离；

计算同一所述聚类结果中，每一个所述特征样本到所述样本非所属的所述簇中的其他特征样本的平均距离；

计算同一所述聚类结果中，所述每一个所述特征样本的轮廓系数，其中，所述轮廓系数为：

其中，i表示同一所述聚类结果的特征样本i；S(i)为所述特征样本i的轮廓系数；b(i)为所述特征样本i到特征样本i非所属的簇中的其他特征样本的平均距离；a(i)为所述特征样本i到特征样本i所属的簇中的其他特征样本的平均距离；max{a(i),b(i)}表示取a(i)和b(i)中的最大值；

取同一所述聚类结果中，所有所述特征样本的轮廓系数的平均值，作为同一所述聚类结果的轮廓系数。

4.如权利要求1所述的自编码神经网络处理方法，其特征在于，所述若确定要重新构建自编码神经网络，则根据所述轮廓系数构建目标自编码神经网络，包括：

确定所有所述聚类结果的轮廓系数与所有所述自编码神经网络模型的隐层和隐层单元的数量之间的隐含规律；

将所述隐含规律作为目标自编码神经网络的隐层和隐层单元的数量的设置依据；

根据所述设置依据来设置所述目标自编码神经网络的隐层和隐层单元的数量。

5.如权利要求1所述的自编码神经网络处理方法，其特征在于，在所述若确定要重新构建自编码神经网络，则根据所述轮廓系数构建目标自编码神经网络之后，包括：

选取达到预期效果的所述目标自编码神经网络对应的目标自编码神经网络模型作为最终模型。

6.如权利要求1-5任意一项所述的自编码神经网络处理方法，其特征在于，所述设置依据为增加隐层和隐层单元的数量，或者减少隐层和隐层单元的数量，所述根据所述设置依据来设置所述目标自编码神经网络的隐层和隐层单元的数量，包括：

若所述设置依据为增加隐层和隐层单元的数量，则选择最大轮廓系数所对应的所述自编码神经网络模型的隐层和隐层单元数量作为所述目标自编码神经网络的设置基数；

在所述设置基数上增加所述目标自编码神经网络隐层和隐层单元的数量；

或者；

若所述设置依据为减少隐层和隐层单元的数量，则选择最大轮廓系数所对应的所述自编码神经网络模型的隐层和隐层单元数量作为所述目标自编码神经网络的设置基数；

在所述设置基数上减少所述目标自编码神经网络隐层和隐层单元的数量。

7.一种自编码神经网络处理装置，其特征在于，包括：

获取模块，用于获取文本样本；

转化模块，用于将所述文本样本转化为样本词向量；

8.如权利要求7所述的自编码神经网络处理装置，其特征在于，所述确定模块包括：

计算子模块，用于分别计算每一个所述自编码神经网络模型对应的聚类结果的轮廓系数；

判断子模块，用于判断每一个所述聚类结果的轮廓系数是否满足预设条件；

确定子模块，用于若所述每一个所述聚类结果的轮廓系数都不满足所述预设条件，则确定要重新构建自编码神经网络。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述自编码神经网络处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述自编码神经网络处理方法。