CN111860556A

CN111860556A - 一种模型的处理方法、装置及存储介质

Info

Publication number: CN111860556A
Application number: CN201910365343.0A
Authority: CN
Inventors: 周贤泉; 杜星悦; 李晶晶
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2020-10-30

Abstract

本发明公开了一种模型的处理方法、装置及存储介质。方法包括：初始化第一数据分类模型；基于获取的未具有标记的训练样本数据，对第一数据分类模型进行无监督方式的训练，以更新第一待训练层和第二待训练层的参数；基于所更新的参数，增加第一数据分类模型中第二待训练层的节点个数，以得到满足收敛条件的第二数据分类模型；通过第二数据分类模型提取测试样本数据中的关键特征数据；对关键特征数据进行聚类，得到聚类测试结果，并基于聚类测试结果，增加第二数据分类模型中第二待训练层的层数，直至聚类测试结果满足设定约束条件。采用本发明的技术方案，不仅能够获得拟合性能强的模型结构，还可以提高应用该模型结构提取的特征对应的聚类准确率。

Description

一种模型的处理方法、装置及存储介质

技术领域

本发明涉及深度学习技术领域，尤其涉及一种模型的处理方法、装置及存储介质。

背景技术

目前，研究者在研究过程中都是靠经验随机确定深度信念网络(DBN，Deep BeliefNetwork)模型的结构。为了得到较好的应用研究，往往会花费大量的时间去寻找最佳的DBN模型的结构，以使得DBN模型的拟合性能更强。相关技术中尚未提出一个很好的理论去获得最佳的DBN模型的结构。因此，也就无法使得DBN模型能够很好的应用在文本聚类研究中，从而影响文本数据聚类的效果。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种模型的处理方法、装置及存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种模型的处理方法，所述方法包括：

初始化第一数据分类模型，所述第一数据分类模型包括第一待训练层和第二待训练层；

基于获取的未具有标记的训练样本数据，对所述第一数据分类模型进行无监督方式的训练，以更新所述第一待训练层和第二待训练层的参数；

基于所更新的参数，增加所述第一数据分类模型中第二待训练层的节点个数，以得到满足收敛条件的第二数据分类模型；

通过所述第二数据分类模型提取测试样本数据中的关键特征数据；

对所述关键特征数据进行聚类，得到聚类测试结果，并基于所述聚类测试结果，增加所述第二数据分类模型中第二待训练层的层数，直至所述聚类测试结果满足设定约束条件。

上述方案中，所述方法还包括：

在所述通过所述第二数据分类模型提取测试样本数据中的关键特征数据之前，选取测试样本数据；

对所述测试样本数据进行归一化处理，得到归一化后的测试样本数据；

所述提取测试样本数据中的关键特征数据，包括：

提取所述归一化后的测试样本数据中的关键特征数据。

上述方案中，所述基于所更新的参数，增加所述第一数据分类模型中第二待训练层的节点个数，包括：

基于所更新的参数，确定所述第一数据分类模型中第二待训练层的节点对应的偏置向量的变化量，以及所述第一数据分类模型中第二待训练层的节点与第一待训练层的节点间的权值矩阵的变化量；

构造以所述偏置向量的变化量和所述权值矩阵的变化量为因子的条件函数；

将所述条件函数对应的值与预设阈值进行比较，得到第一比较结果；

当所述第一比较结果表征所述条件函数对应的值大于所述预设阈值时，增加所述第一数据分类模型中第二待训练层的节点个数。

基于所更新的参数，确定所述训练样本数据在训练时对应的能量；

将所述训练样本数据在训练时对应的能量，与所述训练样本数据在训练前对应的能量进行对比，确定发生能量变化的样本数；

基于所述发生能量变化的样本数，确定所述发生能量变化的样本数与总的训练样本数的比例关系；

基于所述比例关系，增加所述第一数据分类模型中第二待训练层的节点个数。

上述方案中，所述通过所述第二数据分类模型提取测试样本数据中的关键特征数据，包括：

将所述测试样本数据输入至所述第二数据分类模型的第一待训练层中；

确定所述第二数据分类模型中第一待训练层对应的偏置向量的变化量、所述第二数据分类模型中第二待训练层对应的偏置向量的变化量，以及所述第二数据分类模型中第一待训练层与第二待训练层间的权值矩阵变化量；

基于确定的偏置向量的变化量和权值矩阵变化量，确定所述第二数据分类模型中第二待训练层的输出数据，将所述第二待训练层的输出数据确定为所述关键特征数据。

上述方案中，所述确定所述第二数据分类模型中第一待训练层对应的偏置向量的变化量、所述第二数据分类模型中第二待训练层对应的偏置向量的变化量，包括：

计算所述第二数据分类模型的第二待训练层中各节点对应的第一激活概率；

通过对各所述第一激活概率进行反向传播，计算所述第二数据分类模型的第一待训练层对所述测试样本数据进行重构的重构特征矩阵；

对所述重构特征矩阵进行正向传播，得到所述第二数据分类模型的第二待训练层中各节点对应的第二激活概率；

基于所述第一激活概率构成的矩阵和所述第二激活概率构成的矩阵，确定所述第二数据分类模型中第二待训练层对应的偏置向量的变化量；

基于所述测试样本数据和所述重构特征矩阵，确定所述第二数据分类模型中第一待训练层对应的偏置向量的变化量。

上述方案中，所述方法还包括：

在所述对各所述第一激活概率进行反向传播之前，对各所述第一激活概率进行二值化处理，得到对应的二值化数据；

所述对各所述第一激活概率进行反向传播，包括：

对各所述二值化数据进行反向传播。

上述方案中，所述基于所述聚类测试结果，增加所述第二数据分类模型中第二待训练层的层数，直至所述聚类测试结果满足设定约束条件，包括：

当所述聚类测试结果表征对所述关键特征数据进行设定次数的聚类所对应的第一平均聚类准确率时，将所述关键特征数据作为新增所述第二数据分类模型中第二待训练层的输入数据，确定当前进行所述设定次数聚类对应的第二平均聚类准确率；

将所述第一平均聚类准确率与所述第二平均聚类准确率进行比较，得到第二比较结果；

当所述第二比较结果表征所述第二平均聚类准确率小于所述第一平均聚类准确率时，停止增加所述第二数据分类模型中第二待训练层的层数。

本发明实施例还提供一种模型的处理装置，所述装置包括：

初始化单元，用于初始化第一数据分类模型，所述第一数据分类模型包括第一待训练层和第二待训练层；

模型训练单元，用于基于获取的未具有标记的训练样本数据，对所述第一数据分类模型进行无监督方式的训练，以更新所述第一待训练层和第二待训练层的参数；

节点个数确定单元，用于基于所更新的参数，增加所述第一数据分类模型中第二待训练层的节点个数，以得到满足收敛条件的第二数据分类模型；

特征提取单元，用于通过所述第二数据分类模型提取测试样本数据中的关键特征数据；

数据聚类单元，用于对所述关键特征数据进行聚类，得到聚类测试结果；

层数确定单元，用于基于所述聚类测试结果，增加所述第二数据分类模型中第二待训练层的层数，直至所述聚类测试结果满足设定约束条件。

上述方案中，所述装置还包括：

样本选取单元，用于在所述特征提取单元通过所述第二数据分类模型提取测试样本数据中的关键特征数据之前，选取测试样本数据；

归一化处理单元，用于对所述测试样本数据进行归一化处理，得到归一化后的测试样本数据；

所述特征提取单元，具体用于：

提取所述归一化后的测试样本数据中的关键特征数据。

上述方案中，所述节点个数确定单元，具体用于：

上述方案中，所述特征提取单元，包括：

输入子单元，用于将所述测试样本数据输入至所述第二数据分类模型的第一待训练层中；

第一确定子单元，用于确定所述第二数据分类模型中第一待训练层对应的偏置向量的变化量、所述第二数据分类模型中第二待训练层对应的偏置向量的变化量，以及所述第二数据分类模型中第一待训练层与第二待训练层间的权值矩阵变化量；

第二确定子单元，用于基于确定的偏置向量的变化量和权值矩阵变化量，确定所述第二数据分类模型中第二待训练层的输出数据，将所述第二待训练层的输出数据确定为所述关键特征数据。

上述方案中，所述第一确定子单元，具体用于：

上述方案中，所述特征提取单元还包括：

二值化处理子单元，用于在所述第一确定子单元对各所述第一激活概率进行反向传播之前，对各所述第一激活概率进行二值化处理，得到对应的二值化数据；

所述第一确定子单元，具体用于：对各所述二值化数据进行反向传播。

上述方案中，所述层数确定单元，具体用于：

本发明实施例还提供一种模型的处理装置，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述可执行指令时，实现本发明实施例提供的所述的模型的处理方法。

本发明实施例还提供一种存储介质，存储有可执行指令，所述可执行指令被执行时，用于实现本发明实施例提供的所述的模型的处理方法。

本发明实施例所提供的模型的处理方法、装置及存储介质，初始化第一数据分类模型，所述第一数据分类模型包括第一待训练层和第二待训练层；基于获取的未具有标记的训练样本数据，对所述第一数据分类模型进行无监督方式的训练，以更新所述第一待训练层和第二待训练层的参数；基于所更新的参数，增加所述第一数据分类模型中第二待训练层的节点个数，以得到满足收敛条件的第二数据分类模型；通过所述第二数据分类模型提取测试样本数据中的关键特征数据；对所述关键特征数据进行聚类，得到聚类测试结果，并基于所述聚类测试结果，增加所述第二数据分类模型中第二待训练层的层数，直至所述聚类测试结果满足设定约束条件。如此，将数据分类模型的学习过程与聚类应用过程相结合，在模型训练过程中可以自适应增加第二待训练层的节点个数，并且在获得的第二待训练层的节点个数的基础上，根据聚类应用过程中的聚类测试结果增加第二待训练层的层数，最终不仅可以获得一个精简的、拟合性能强的数据分类模型的结构，还可以提高应用该模型结构提取的关键特征数据对应的聚类准确率。

附图说明

图1为本发明实施例提供的模型的处理方法的一个可选的实现流程示意图；

图2为本发明实施例提供的模型的处理方法的另一个可选的实现流程示意图；

图3为本发明实施例提供的初始化的两层的DBN模型的拓扑结构示意图；

图4为本发明实施例提供的增加隐含层的节点个数后的DBN模型的拓扑结构示意图；

图5为本发明实施例提供的提取归一化后的测试文本数据中的关键特征数据的实现流程示意图；

图6为本发明实施例提供的最终获得的最佳的DBN模型的拓扑结构示意图；

图7为本发明实施例提供的模型的处理装置的一个可选的组成结构示意图；

图8为本发明实施例提供的模型的处理装置的一个可选的硬件结构示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一”、“第二”等仅仅是用于区别类似的对象，不代表针对对象的特定的顺序或先后次序，可以理解地，“第一”、“第二”等在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在图示或描述的以外的顺序实施。

除非另有定义，本发明实施例所使用的所有的技术和科学术语与属于本发明实施例的技术领域的技术人员通常理解的含义相同。本发明中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，先对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)无监督方式的训练，也可称为无监督学习(Unsupervised Learning)方式的训练，通常是目标类别标签等使用的一种网络训练方式，该训练方式所利用的信息并不是已知的、特定的，也即该训练方式针对的数据样本是未具有标记的数据样本。

2)关键特征数据，即用于表示测试样本数据中在视觉上所表现出来的具有明显的辨识性的特征，以测试样本数据为图像数据(如人脸图像数据)为例，关键特征数据可以包括表情、神态、嘴型、视线方向、是否闭眼和肤色等。

随着互联网技术的快速发展，网络上的数据越来越多，促使人们迫切需要提高获取互联网上的数据的效率。以数据为文本数据为例，文本挖掘技术是对文本数据进行知识挖掘，文本聚类是一种无监督的数据挖掘方法，随着文本数量的增加，文本数据的维度过大，严重影响文本聚类的效果，从而导致在互联网上无法获得准确的信息。

在传统的文本聚类应用中，对于维度较高的样本来说，研究者一般采用奇异值分解方法对高维度的文本数据进行降维，然后再进行聚类应用。然而，该方法会导致文本数据中的部分特征丢失，从而不能获得准确的文本数据。基于此，研究者提出了一种将数据分类模型比如DBN模型应用在文本聚类研究中的理论方法。

DBN模型是一种无监督的深度学习网络模型，能够将原始的数据映射到其它空间，使得映射到其它空间的数据相比于原始数据的维度更低，有助于数据的聚类应用。DBN模型可以看成是由多个受限玻尔兹曼机(RBM，Restricted Boltzmann Machine)堆叠而成的一种深度学习网络模型。Hinton提出一种利用对比散度(CD，Contrast Divergence)算法，通过逐层的无监督训练方式来训练该模型中的参数。其中，对比散度算法提出了对最大似然函数估计的近似，虽然对比散度算法只是大概的估计了最大似然，但是由于对比散度算法没有梯度值，因此，对比散度算法训练DBN模型时的效率很高。

然而，实际应用中，DBN模型结构往往难以确定，而模型的结构决定是否能够提取原始数据中的本质特征。相关技术中，研究者提出的模型结构的确定方法包括以下几种：方式一，尝试选择不同的DBN网络的层数以及隐含层神经元(也可称为隐含层的节点)个数，以构成DBN模型的结构，然后反复尝试寻得最佳的模型结构；方式二，首先选择较少的隐含层神经元个数与层数，然后在训练的过程中，逐渐的增加隐含层神经元的个数与层数，直到满足应用研究要求；方式三，首先设置较多的隐含层神经元个数与层数，然后对于给定的问题，在训练的过程中逐渐的删除隐含层神经元的个数与层数。

经过仔细研究，发明人发现：在上述过程中，通过不断的尝试增加或减少隐含层的节点个数与层数，将会花费大量的时间，并且模型的参数相对难以选择，导致不能快速的获得最佳的DBN模型的结构，也就无法根据获得的最佳的DBN模型提取测试样本数据中的本质特征即关键特征。因此，为了使得DBN模型能够很好的应用在文本聚类研究中，有必要提出一种获得最佳的DBN模型的结构的方法。

基于此，在本发明实施例中，将数据分类模型的学习过程与聚类应用过程相结合，能够快速确定最佳的数据分类模型的结构，以及提高应用该模型结构提取的关键特征数据对应的聚类准确率。

下面结合附图对本发明实施例提供的模型的处理方法的实现过程进行说明。

图1为本发明实施例提供的模型的处理方法的一个可选的实现流程示意图，该模型的处理方法可应用于嵌入有数据分类模型的服务器或终端，在此不做限定。参见图1，本发明实施例提供的模型的处理方法的实现流程，可以包括以下步骤：

步骤101：初始化第一数据分类模型，所述第一数据分类模型包括第一待训练层和第二待训练层。

这里，初始化第一数据分类模型，可以理解为初始化第一数据分类模型的参数，即初始化所述第一数据分类模型包括的第一待训练层和第二待训练层的参数。其中，第一数据分类模型的参数可以包括第一待训练层的偏置向量、第二待训练层的偏置向量，第一待训练层的节点个数、第二待训练层的节点个数，以及第一待训练层与第二待训练层间的权值矩阵等，在此不做具体限定。

需要说明的是，本发明实施例应用的嵌入有数据分类模型的服务器，可以是嵌入有数据分类模型的远程服务器或云端服务器；本发明实施例应用的嵌入有数据分类模型的终端，可以是嵌入有数据分类模型的智能电子设备，作为一种较佳的实施例，智能电子设备可以为智能手机或平板电脑。

步骤102：基于获取的未具有标记的训练样本数据，对所述第一数据分类模型进行无监督方式的训练，以更新所述第一待训练层和第二待训练层的参数。

这里，本发明实施例的训练样本数据，是未具有标记的样本数据，该样本数据可以为图像样本数据，或者为文本样本数据，在此不做限定。

步骤103：基于所更新的参数，增加所述第一数据分类模型中第二待训练层的节点个数，以得到满足收敛条件的第二数据分类模型。

在一些实施例中，就所述基于所更新的参数，增加所述第一数据分类模型中第二待训练层的节点个数来说，可采用以下方式实现：首先，基于所更新的参数，确定所述第一数据分类模型中第二待训练层的节点对应的偏置向量的变化量，以及所述第一数据分类模型中第二待训练层的节点与第一待训练层的节点间的权值矩阵的变化量；其次，构造以所述偏置向量的变化量和所述权值矩阵的变化量为因子的条件函数；最后，将所述条件函数对应的值与预设阈值进行比较，得到第一比较结果；当所述第一比较结果表征所述条件函数对应的值大于所述预设阈值时，增加所述第一数据分类模型中第二待训练层的节点个数。

在一些实施例中，就所述基于所更新的参数，增加所述第一数据分类模型中第二待训练层的节点个数来说，也可采用以下方式实现：首先，基于所更新的参数，确定所述训练样本数据在训练时对应的能量；其次，将所述训练样本数据在训练时对应的能量，与所述训练样本数据在训练前对应的能量进行对比，确定发生能量变化的样本数；基于所述发生能量变化的样本数，确定所述发生能量变化的样本数与总的训练样本数的比例关系；最后，基于所述比例关系，增加所述第一数据分类模型中第二待训练层的节点个数。

步骤104：通过所述第二数据分类模型提取测试样本数据中的关键特征数据。

在实际实施时，由于测试样本数据中的各样本数据的维度相差比较大，有可能会对后续的聚类测试结果产生不好的影响，因此，本发明实施例提出了对测试样本数据进行归一化处理的思想，即将测试样本数据归一化到[0，1]之间，然后再对归一化后的测试样本数据进行处理。这样，能够避免对后续的聚类测试结果的影响。

基于此，在一些实施例中，在执行本步骤104之前，所述方法还可以包括：选取测试样本数据；对所述测试样本数据进行归一化处理，得到归一化后的测试样本数据。

相应的，所述提取测试样本数据中的关键特征数据，包括：提取所述归一化后的测试样本数据中的关键特征数据。

在一些实施例中，就所述通过所述第二数据分类模型提取测试样本数据中的关键特征数据来说，可采用以下方式实现：

首先，将所述测试样本数据输入至所述第二数据分类模型的第一待训练层中；其次，确定所述第二数据分类模型中第一待训练层对应的偏置向量的变化量、所述第二数据分类模型中第二待训练层对应的偏置向量的变化量，以及所述第二数据分类模型中第一待训练层与第二待训练层间的权值矩阵变化量；最后，基于确定的偏置向量的变化量和权值矩阵变化量，确定所述第二数据分类模型中第二待训练层的输出数据，将所述第二待训练层的输出数据确定为所述关键特征数据。

在一些实施例中，就所述确定所述第二数据分类模型中第一待训练层对应的偏置向量的变化量、所述第二数据分类模型中第二待训练层对应的偏置向量的变化量来说，可采用以下方式实现：首先，计算所述第二数据分类模型的第二待训练层中各节点对应的第一激活概率；其次，通过对各所述第一激活概率进行反向传播，计算所述第二数据分类模型的第一待训练层对所述测试样本数据进行重构的重构特征矩阵；对所述重构特征矩阵进行正向传播，得到所述第二数据分类模型的第二待训练层中各节点对应的第二激活概率；基于所述第一激活概率构成的矩阵和所述第二激活概率构成的矩阵，确定所述第二数据分类模型中第二待训练层对应的偏置向量的变化量；最后，基于所述测试样本数据和所述重构特征矩阵，确定所述第二数据分类模型中第一待训练层对应的偏置向量的变化量。

在一些实施例中，在对各所述第一激活概率进行反向传播之前，所述方法还包括：对各所述第一激活概率进行二值化处理，得到对应的二值化数据；

相应的，所述对各所述第一激活概率进行反向传播，包括：对各所述二值化数据进行反向传播。

这里，在对各第一激活概率进行反向传播之前，对各第一激活概率进行二值化处理，能够有效避免第二数据分类模型中第二待训练层输出的值，即第一激活概率出现过度拟合的现象。

就对各所述第一激活概率进行二值化处理，得到对应的二值化数据来说，具体地，可以先从[0，1]之间选取一个随机数值，然后，将第二数据分类模型中第二待训练层输出的第一激活概率的值与所选取的随机数值进行比较，当第一激活概率的值大于所选取的随机数值时，则将第一激活概率置为1，否则置为0。

步骤105：对所述关键特征数据进行聚类，得到聚类测试结果，并基于所述聚类测试结果，增加所述第二数据分类模型中第二待训练层的层数，直至所述聚类测试结果满足设定约束条件。

在一些实施例中，就所述基于所述聚类测试结果，增加所述第二数据分类模型中第二待训练层的层数，直至所述聚类测试结果满足设定约束条件来说，可采用以下方式实现：

这里，在实际实施时，对所述关键特征数据进行聚类对应的设定次数，可以根据实际情况进行设定，在此不做限定。

下面以样本数据为文本数据，数据分类模型为DBN模型(该模型对应的第一待训练层为可视层，第二待训练层为隐含层)为例，对本发明实施例的模型的处理方法的具体实现过程做进一步地详细说明。

图2为本发明实施例提供的模型的处理方法的另一个可选的实现流程示意图，该模型的处理方法可应用于嵌入有数据分类模型的服务器或终端，在此不做限定。参见图2，本发明实施例提供的模型的处理方法的具体实现流程，可以包括以下步骤：

步骤201：初始化两层的DBN模型。

下面对初始化的两层的DBN模型的结构进行说明。图3为本发明实施例提供的初始化的两层的DBN模型的拓扑结构示意图，参见图3，该两层的DBN模型包括可视层(v)和隐含层(h)，只有可视层节点与隐含层节点之间具有连接权，而可视层内部节点之间，以及隐含层内部节点之间并没有连接权，这样的结构在很大程度上能够提高网络训练及学习的效率。

在初始化的两层的DBN模型的结构中，可视层的节点个数为训练文本数据集样本的维度n(如图3所示的v₁至v_n，v₁表示可视层的第一个节点，v₂表示可视层的第二个节点，以此类推，v_n表示可视层的第n个节点)，隐含层的节点个数为m(如图3所示的h₁至h_m，h₁表示隐含层的第一个节点，h₂表示隐含层的第二个节点，以此类推，h_m表示隐含层的第m个节点)，可视层的偏置向量为b(如图3所示的b₁至b_n)、隐含层的偏置向量为c(如图3所示的c₁至c_m)、隐含层与可视层间的权值矩阵为W_mn。初始化两层的DBN模型，可以理解为对上述两层的DBN模型中涉及的各参数分别进行初始化。

步骤202：基于获取的训练文本数据，对两层的DBN模型进行无监督方式的训练，以更新两层的DBN模型的参数。

这里，无监督训练方式所利用的信息并不是已知的、特定的；也就是说，获取的训练文本数据是未具有标记的训练样本数据，即本发明实施例是基于获取的未具有标记的训练样本数据，对两层的DBN模型进行无监督方式的训练，以更新两层的DBN模型的参数。

在一些实施例中，可以根据相关技术中的对比梯度算法，对两层的DBN模型进行无监督方式的训练，以更新两层的DBN模型的参数。

在实际实施时，对比梯度算法通常应用于离散空间，使得构成DBN模型的RBM不满足Lipschitz连续条件。假设RBM在Lipschitz连续条件下收敛，可能会导致训练过程中产生较小的误差。由于DBN模型在训练的初始阶段误差较小，但是经过一段时间的迭代后，训练样本对应的能量波动会比较大。

训练样本对应的能量E(v,h；θ)，以及可视层分布的概率p(v)，可通过以下公式表示：

其中，v_j表示输入至可视层的训练文本数据第j维的值，即可视层第j个节点的输入值；b_j表示可视层第j个节点的偏置向量；h_i表示隐含层第i个节点的输出值；c_i表示隐含层第i个节点的偏置向量；W_ij表示隐含层第i个节点与可视层第j个节点之间的权值矩阵；θ表示DBN模型中的参数，包括：θ＝{W_ij,a_i,b_j}；Z表示归一化因子，即所有可能情况下的能量和，即

根据上述公式(1)和(2)可知，RBM中拟合的可视层分布的概率p(v)越大，则训练样本数据对应的能量E(v,h；θ)就越小。基于此，根据凸函数g(θ)与Lipschitz连续条件，基于公式(3)可以得出RBM中拟合的可视层分布的概率p(v)的对数最小值：

其中，v_n＝{v₁,v₂,...,v_N}表示输入的训练文本数据，N表示输入的训练文本数据的个数，

f(θ)表示输入的训练文本数据的理想模型对应的对数似然函数，g(θ)表示输入的训练文本数据的真实模型对应的对数似然函数。实际应用时，f(θ)函数可通过Gibbs采样进行估算。基于Lipschitz的连续情况，f(θ)可以推导出以下不等式(4)、(5)、(6)：

上述公式(3)中的函数g(θ)主要由输入的训练文本数据决定，并且由于g(θ)是凸函数，所以有：

结合公式(1)至(9)可以得出：

其中，上述公式中的I和J分别表示两层的DBN模型中可视层与隐含层的节点个数，符号<m，n>表示m×n，即表示m与n的内积，以公式(7)为例进行说明，

表示

与b-b^k的内积；也就是说，公式(7)所表示的含义为：g({b,c^k,W^k})对应的值大于等于g(θ^k)与上述内积(即

与b-b^k的内积)的和对应的值；b^k表示对应k时刻时可视层b的向量，c^k表示对应k时刻时隐含层c的向量，W^k表示对应k时刻时隐含层与可视层的权值矩阵。S_∞表示Stenten范数。公式(10)至(12)中的每个参数的上界方程都是基于Lipschitz连续条件得到的，即每个方程右边的第三项意味着学习收敛的范围。因此，在RBM的训练过程中，如果每个参数的变化量保持在一定的范围内，那么对比梯度算法训练的RBM将会收敛。在RBM网络中涉及到三个参数b、c和W的变化，基于上述分析，由于参数b的梯度受输入的训练文本数据的影响，因此，本发明实施例主要考虑参数c与W对RBM收敛情况的影响。

步骤203：基于所更新的参数，增加两层的DBN模型中隐含层的节点个数，以确定当前满足收敛条件的DBN模型。

在本发明实施例中，可以从单个样本与所有样本的角度来增加两层的DBN模型中隐含层的节点个数。

第一种情况，从单个样本的角度考虑增加两层的DBN模型中隐含层的节点个数。

具体地，可以先基于更新的参数，确定初始化的两层的DBN模型中隐含层的节点对应的偏置向量的变化量，以及初始化的两层的DBN模型中隐含层的节点与可视层的节点间的权值矩阵的变化量；然后，构造以所述偏置向量的变化量和所述权值矩阵的变化量为因子的条件函数；接下来，将所述条件函数对应的值与预设阈值进行比较，得到第一比较结果，当第一比较结果表征所述条件函数对应的值大于预设阈值时，增加初始化的两层的DBN模型中隐含层的节点个数。作为示例，可以采用以下公式(13)来表示增加两层的DBN模型中隐含层的节点个数的条件：

dc_i·dW_ij＞θ_G (13)

其中，dc_i表示隐含层第i个节点对应的偏置向量的变化量，dW_ij表示隐含层第i个节点与可视层第j个节点间的权值矩阵的变化量，θ_G表示预设阈值，θ_G的取值范围为[0，1]。也就是说，在DBN模型的训练过程中，只要满足公式(13)的条件，则可以在隐含层第i个节点的右边增加一个新节点，如图4所示。

第二种情况，从所有样本的角度考虑增加两层的DBN模型中隐含层的节点个数。

实际实施时，可以将DBN模型看成是由多个RBM堆叠而成的网络模型，那么则可以将DBN模型中的每两层当作一个RBM模型，由于RBM是一种基于能量的生成模型，因此，在DBN模型的训练过程中，每个样本对应一个能量。如果当前的RBM网络结构较优，能够拟合几乎所有的训练样本数据，那么当RBM训练结束之后，所有训练样本对应的p(v)之和将比较大。随着RBM训练的进行，如果大部分样本对应的能量变小，小部分样本对应的能量变大，则可以认为RBM网络的权值矩阵和偏置向量向较优的方向变化，表明此时的RBM的结构较优。反之，如果大部分样本对应的能量变大，小部分样本对应的能量变小，那么此时的p(v)可能偏小，则认为此时的RBM结构可能不是很好，需要考虑增加隐含层的节点个数，以增强隐含层的拟合能力。

在RBM网络的训练过程中，随着RBM网络的训练次数的增加，权值矩阵与偏置向量等参数会收敛且向着好的方向变化，训练过程中样本对应的能量与增加节点前的样本对应的能量相比，能量变小的训练样本个数会逐渐增加，考虑到微小的误差，即样本能量会在一个较小的范围内变大，那么也认为训练样本能量变小，如公式(14)所示的训练过程中样本对应的能量，与增加节点之前的样本对应的能量的关系：

E(m,n)-E(m)＜γ (14)

其中，E(m,n)表示第m个样本在第n次训练时对应的能量，E(m)表示第m个样本在训练前对应的能量，γ表示一个较小的阈值。不可能所有的训练样本对应的能量，随着迭代的进行在一直变小，当迭代到后期时，样本对应的能量将在较小的一个范围内波动，因此，本发明实施例中如果大部分的样本都满足上述公式(14)的不等式，那么也认为当前的两层的DBN模型的参数向较优的方向变化。随着DBN模型训练的进行，对于所有样本来说，满足公式(14)中不等式的样本数量越来越多，不满足公式(14)中不等式的样本数量越来越少，因此，本发明实施例提出一个拟合函数，用来拟合增加隐含层的节点个数的条件：

其中，y(n)表示拟合函数，n表示当前对DBN模型进行训练的次数，h用来表示拟合函数的曲率，numepoches表示对DBN模型进行训练的总次数，y_max表示y(n)函数的最大阈值，y_min表示y(n)函数的最小阈值。

在DBN模型的训练过程中，当训练到第n次时，样本对应的能量与增加隐含层节点前(即对DBN模型进行训练之前)样本对应的能量相比，如果能量变大的样本数占总样本数的比例大于y(n)，那么此时的DBN模型的结构不是很好，寻得dc_i与dW_ij乘积最大时对应的第i个隐含层节点，并且在该节点的右边增加一个新的隐含层节点h_new1，如图4所示的增加隐含层的节点个数后的两层的DBN模型的拓扑结构示意图；否则，认为当前的DBN模型的结构较好，对DBN模型继续训练，直到训练到最大训练次数为止。

步骤204：选取测试文本数据，并对测试文本数据进行归一化处理，得到归一化后的测试文本数据。

在实际实施时，由于测试文本数据中的各样本数据的维度相差比较大，有可能会对后续的聚类测试结果产生不好的影响，比如影响聚类测试的准确率，因此，本发明实施例提出了对测试文本数据进行归一化处理的思想，即将测试文本数据归一化到[0，1]之间，然后再对归一化后的测试文本数据进行处理。这样，能够避免对后续的聚类测试结果的影响。

在一些实施例中，可采用以下公式(16)对测试文本数据进行归一化处理，得到归一化后的测试文本数据：

其中，

表示测试文本数据集中的特征数据，x_max表示测试文本数据集中所有特征数据的最大值，x_min表示测试文本数据集中所有特征数据的最小值，x表示归一化后的测试文本数据。

需要说明的是，本发明实施例对步骤201与步骤204的执行顺序不进行限定，比如，可以先执行步骤204，再执行步骤201，也就是说，先对选取的测试文本数据进行归一化处理，然后再初始化两层的DBN模型的结构，对两层的DBN模型进行训练，确定当前满足收敛条件的DBN模型；再比如，可以先执行步骤201，再执行步骤204，具体参见图2的示例性实现流程。

步骤205：通过当前满足收敛条件的DBN模型，提取归一化后的测试文本数据中的关键特征数据。

下面对提取归一化后的测试文本数据中的关键特征数据的过程进行说明。图5为本发明实施例提供的提取归一化后的测试文本数据中的关键特征数据的实现流程示意图，参见图5，本发明实施例中的提取归一化后的测试文本数据中的关键特征数据的实现流程，包括以下步骤：

步骤501：将归一化后的测试文本数据输入至当前满足收敛条件的DBN模型的可视层中，并计算当前满足收敛条件的DBN模型的隐含层中各节点对应的第一激活概率。

在实际实施时，可通过以下公式(17)计算第一激活概率：

其中，p(h_i|v)表示第一激活概率，i表示隐含层节点的个数，v表示输入的归一化后的测试文本数据，h_i表示隐含层中第i个节点的输出值，c_i表示隐含层中第i个节点的偏置向量，v_j表示归一化后的测试文本数据中第j维的值，也就是可视层第j个节点的值，W_ij表示隐含层第i个节点与可视层第j个节点之间的权值矩阵，

可以通过函数

来获得，即

步骤502：对各第一激活概率进行二值化处理，得到对应的二值化数据。

这里，在对各第一激活概率进行反向传播之前，对各第一激活概率进行二值化处理，能够有效避免当前满足收敛条件的DBN模型中隐含层输出的值即第一激活概率出现过度拟合的现象。

就对各所述第一激活概率进行二值化处理，得到对应的二值化数据来说，具体地，可以先从[0，1]之间选取一个随机数值，然后，将当前满足收敛条件的DBN模型中隐含层输出的第一激活概率的值与所选取的随机数值进行比较，当第一激活概率的值大于所选取的随机数值时，则将第一激活概率置为1，否则置为0。

步骤503：对各二值化数据进行反向传播，计算当前满足收敛条件的DBN模型的可视层对归一化后的测试文本数据进行重构的重构特征矩阵。

在实际实施时，可通过以下公式(18)计算重构特征矩阵v'：

其中，v'_j表示归一化后的测试文本数据v重构的第j维的特征，h表示隐含层节点的概率值p(h_i|v)组成的矩阵，b_j表示可视层第j个节点的偏置向量，W_ij表示隐含层第i个节点与可视层第j个节点之间的权值矩阵，h_i表示隐含层第i个节点的输出值。

步骤504：对重构特征矩阵进行正向传播，得到当前满足收敛条件的DBN模型的隐含层中各节点对应的第二激活概率h'。

步骤505：基于第一激活概率构成的矩阵和第二激活概率构成的矩阵，确定当前满足收敛条件的DBN模型中隐含层对应的偏置向量的变化量。

步骤506：基于归一化后的测试文本数据和重构特征矩阵，确定当前满足收敛条件的DBN模型中可视层对应的偏置向量的变化量。

这里，可视层对应的偏置向量b的变化量，是由从可视层输入的归一化后的测试文本数据v与重构的特征矩阵v'相减得到；隐含层对应的偏置向量c的变化量，是由隐含层的激活概率矩阵h与激活概率h'相减得到。

在DBN模型的训练过程中，隐含层与可视层对应的偏置向量与权值矩阵是同时更新的，也就是说，偏置向量与权值矩阵是同时收敛的。根据下述公式(19)、(20)、(21)及学习率ε，更新隐含层与可视层之间的偏置向量与权值矩阵：

其中，ε表示学习率，且ε的取值范围为[0，1]；

表示第t+1次训练时，可视层第j个节点对应的偏置向量；

表示第t次训练时，可视层第j个节点对应的偏置向量；p(v'_j|h)表示隐含层输出的数据已知时，对应的可视层第j个节点重构的第j维输入数据；

表示第t+1次训练时，隐含层第i个节点对应的偏置向量；

表示第t次训练时，隐含层第i个节点对应的偏置向量；p(h’_i|v')表示重构的输入数据v'已知时，隐含层第i个节点的激活概率；

表示第t+1次训练时，隐含层第i个节点与可视层第j个节点之间的权值矩阵；

表示第t次训练时，隐含层第i节点与可视层第j个节点之间的权值矩阵；v'_j表示可视层重构的输入数据第j维数据。

步骤507：基于确定的偏置向量的变化量和权值矩阵变化量，确定当前满足收敛条件的DBN模型中隐含层的输出数据，并确定为提取的关键特征数据。

步骤206：对提取的关键特征数据进行设定次数的聚类，并记录对应的平均聚类准确率。

在一些实施例中，可以采用K-means聚类算法，对提取的关键特征数据进行聚类处理，在此不做限定。这里的聚类，可以理解为对关键特征数据之间的相似度进行度量，即将相似度最接近的关键特征数据聚为一类。

步骤207：将当前满足收敛条件的DBN模型提取的关键特征数据作为新增隐含层的输入数据，确定当前对应的平均聚类准确率。

步骤208：判断当前对应的平均聚类准确率是否小于记录的平均聚类准确率，若是，则执行步骤209，否则执行步骤210。

步骤209：停止增加当前满足收敛条件的DBN模型中隐含层的层数，结束当前处理流程。

步骤210：继续增加当前满足收敛条件的DBN模型中隐含层的层数，并返回步骤206。

通过执行上述步骤201至步骤210，最终能够获得最佳的DBN模型，参见图6，图6为本发明实施例提供的最终获得的最佳的DBN模型的拓扑结构示意图，根据该最佳的DBN模型的结构，能够提取原始文本数据中的关键特征，并且这些关键特征能够更好的应用于聚类研究。

DBN模型可以看成是由多个RBM堆叠而成的模型结构，而深层的网络模型往往具有更强的学习能力，但是，如果DBN网络结构的层数较多，不仅会导致需要更多的时间训练DBN网络模型，而且可能会导致提取的关键特征数据出现同质化的现象。基于此，本发明实施例将DBN网络结构与聚类应用研究相结合，使DBN网络学习与聚类研究构成一体化算法。采用本发明实施例所提供的模型的处理方法，将DBN模型的学习过程与聚类应用过程相结合，在模型训练过程中可以自适应增加隐含层的节点个数，并且在获得的隐含层的节点个数的基础上，根据聚类应用过程中的聚类测试结果增加隐含层的层数，最终不仅可以获得一个精简的、拟合性能更强的DBN模型的结构，还可以提高应用该模型结构提取的关键特征数据对应的聚类准确率。

为了实现本发明实施例的模型的处理方法，本发明实施例还提供了一种模型的处理装置，接下来对本发明实施例提供的模型的处理装置进行说明。本发明实施例提供的模型的处理装置可以实施为硬件或者软硬件结合的方式，下面说明本发明实施例提供的装置的各种示例性实施。

图7为本发明实施例提供的模型的处理装置的一个可选的组成结构示意图，该装置可位于嵌入有数据分类模型的服务器(如云端服务器)或终端(如台式机电脑、笔记本电脑或智能手机等)，参见图7，本发明实施例提供的模型的处理装置包括：

初始化单元71，用于初始化第一数据分类模型，所述第一数据分类模型包括第一待训练层和第二待训练层；

模型训练单元72，用于基于获取的未具有标记的训练样本数据，对所述第一数据分类模型进行无监督方式的训练，以更新所述第一待训练层和第二待训练层的参数；

节点个数确定单元73，用于基于所更新的参数，增加所述第一数据分类模型中第二待训练层的节点个数，以得到满足收敛条件的第二数据分类模型；

特征提取单元74，用于通过所述第二数据分类模型提取测试样本数据中的关键特征数据；

数据聚类单元75，用于对所述关键特征数据进行聚类，得到聚类测试结果；

层数确定单元76，用于基于所述聚类测试结果，增加所述第二数据分类模型中第二待训练层的层数，直至所述聚类测试结果满足设定约束条件。

在一些实施例中，所述装置还包括：

相应地，就所述特征提取单元提取测试样本数据中的关键特征数据来说，可以采用以下方式实现：提取所述归一化后的测试样本数据中的关键特征数据。

在一些实施例中，就所述节点个数确定单元基于所更新的参数，增加所述第一数据分类模型中第二待训练层的节点个数来说，可以采用以下方式实现：

在一些实施例中，所述特征提取单元包括：

在一些实施例中，就所述第一确定子单元确定所述第二数据分类模型中第一待训练层对应的偏置向量的变化量、所述第二数据分类模型中第二待训练层对应的偏置向量的变化量来说，可以采用以下方式实现：

在一些实施例中，所述特征提取单元还包括：

相应地，就所述第一确定子单元对各所述第一激活概率进行反向传播来说，可以采用以下方式实现：对各所述二值化数据进行反向传播。

在一些实施例中，就所述层数确定单元基于所述聚类测试结果，增加所述第二数据分类模型中第二待训练层的层数，直至所述聚类测试结果满足设定约束条件来说，可以采用以下方式实现：

这里，需要指出的是，以上涉及模型的处理装置的描述，与上述模型的处理方法描述是类似的，同方法的有益效果描述，这里不做赘述，对于本发明实施例提供的模型的处理装置中未披露的技术细节，请参照本发明方法实施例的描述。

下面对本发明实施例的模型的处理装置的硬件结构做进一步说明，图8为本发明实施例提供的模型的处理装置的一个可选的硬件结构示意图，可以理解，图8仅仅示出了模型的处理装置的示例性结构而非全部结构，根据需要可以实施图8示出的部分结构或全部结构。

本发明实施例提供的模型的处理装置800包括：至少一个处理器801、存储器802、用户接口803和至少一个网络接口804。模型的处理装置800中的各个组件通过总线系统805耦合在一起。可以理解，总线系统805用于实现这些组件之间的连接通信。总线系统805除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为总线系统805。

其中，用户接口803可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器802可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。

本发明实施例中的存储器802用于存储各种类型的数据以支持模型的处理装置800的操作。这些数据的示例包括：用于在模型的处理装置800上操作的任何可执行指令，如计算机程序，包括可执行程序8021和操作系统8022，实现本发明实施例的模型的处理方法的程序可以包含在可执行指令中。

本发明实施例揭示的模型的处理方法可以应用于处理器801中，或者由处理器801实现。处理器801可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，模型的处理方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器801可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的模型的处理方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器802，处理器801读取存储器802中的信息，结合其硬件完成本发明实施例提供的模型的处理方法的步骤。

在示例性实施例中，本发明实施例还提供了一种存储介质，存储有可执行指令，所述可执行指令被执行时，用于实现本发明实施例提供的上述模型的处理方法。这里的存储介质，也可以为计算机存储介质，具体可为计算机可读存储介质，其中，计算机可读存储介质可以是磁性随机存取存储器(FRAM，ferromagnetic random access memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-OnlyMemory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-OnlyMemory)、快闪存储器(Flash Memory)、磁表面存储器、光盘或只读光盘(CD-ROM，CompactDisc Read-Only Memory)等存储器。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述提取测试样本数据中的关键特征数据，包括：

提取所述归一化后的测试样本数据中的关键特征数据。

3.根据权利要求1所述的方法，其特征在于，所述基于所更新的参数，增加所述第一数据分类模型中第二待训练层的节点个数，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所更新的参数，增加所述第一数据分类模型中第二待训练层的节点个数，包括：

5.根据权利要求1所述的方法，其特征在于，所述通过所述第二数据分类模型提取测试样本数据中的关键特征数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述第二数据分类模型中第一待训练层对应的偏置向量的变化量、所述第二数据分类模型中第二待训练层对应的偏置向量的变化量，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

所述对各所述第一激活概率进行反向传播，包括：

对各所述二值化数据进行反向传播。

8.根据权利要求1所述的方法，其特征在于，所述基于所述聚类测试结果，增加所述第二数据分类模型中第二待训练层的层数，直至所述聚类测试结果满足设定约束条件，包括：

9.一种模型的处理装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

所述特征提取单元，具体用于：

提取所述归一化后的测试样本数据中的关键特征数据。

11.根据权利要求9所述的装置，其特征在于，所述节点个数确定单元，具体用于：

12.根据权利要求9所述的装置，其特征在于，所述节点个数确定单元，具体用于：

13.根据权利要求9所述的装置，其特征在于，所述特征提取单元，包括：

14.根据权利要求13所述的装置，其特征在于，所述第一确定子单元，具体用于：

15.根据权利要求14所述的装置，其特征在于，所述特征提取单元还包括：

16.根据权利要求9所述的装置，其特征在于，所述层数确定单元，具体用于：

17.一种模型的处理装置，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述可执行指令时，实现如权利要求1至8任一项所述的模型的处理方法。

18.一种存储介质，其特征在于，存储有可执行指令，所述可执行指令被执行时，用于实现如权利要求1至8任一项所述的模型的处理方法。