CN109492678B

CN109492678B - 一种集成浅层和深度学习的App分类方法

Info

Publication number: CN109492678B
Application number: CN201811241145.5A
Authority: CN
Inventors: 吕明琪; 黄超; 陈铁明
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2021-11-23
Anticipated expiration: 2038-10-24
Also published as: CN109492678A

Abstract

一种集成浅层和深度学习的App分类方法，包括如下步骤：(1)将App名称输入互联网搜索引擎，对结果进行处理得到App文档；(2)基于向量空间模型抽取关键词分布特征，在此基础上采用浅层学习技术训练一个基分类器；(3)基于word2vec训练词向量，在此基础上采用卷积神经网络训练另一个基分类器；(4)设计一个协同学习框架，利用无标注样本对2个基分类器进行协同训练，并对训练结果进行融合得到最终的App分类器。本发明仅利用App名称实现对App的个性化分类；仅需要少量有标注样本即可建立准确率较高的分类模型；设计的协同学习框架考虑了不同基分类器的性能不平衡性，可减少无标注样本中噪声数据的影响。

Description

一种集成浅层和深度学习的App分类方法

技术领域

本发明涉及机器学习和自然语言处理技术，具体涉及一种基于集成学习的文本分类方法。

背景技术

随着App数量的迅猛增长，将海量的App进行合理分类对App管理有着十分重要的意义，也是支持许多高级App相关服务(如App推荐、用户偏好画像)的必要步骤。虽然部分App下载平台(如Google Play，App Store)已经对App进行了分类，但其仍有如下局限性：首先，下载平台的数据通常没有开放接口，无法被第三方程序和服务获取。其次，下载平台的类别体系是固定的，不能满足不同应用对类别体系的个性化需求。

针对上述需求，许多现有方法采用机器学习技术对App进行分类。例如，H.Zhu、E.Chen、H.Xiong等人在“Mobile App classification with enriched contextualinformation”(IEEE Transactions on Mobile Computing 13(2014):1550-1563)中从App名称和用户使用日志等数据中抽取特征建立App分类器。N.Chen、S.Hoi、S.Li等人在“SimApp:A framework for detecting similar mobile applications by onlinekernel learning”(WSDM 2015:305-314)中从各类元数据(如开发商、评论、permission文件、App图标)中挖掘特征以评价App间的语义相似度。然而，现有基于机器学习的App分类方法仍存在以下问题：

(1)依赖多种类型的数据：现有方法从App名称、开发商信息、评论信息、使用日志等多种类型数据中挖掘特征以建立分类模型，这极大的增加了系统的实现难度。事实上，最容易获取的App相关数据即App名称，因此设计仅基于App名称的App分类方法十分有必要。

(2)需要大量有标注样本：现有方法需要大量有标注样本来训练分类模型。然而，在需要个性化类别体系的情况下，只能对App样本的类别进行人工标注，工作量极大。因此，实际操作过程中往往只能得到少量的有标注样本，大量样本是没有标注的。

发明内容

为了克服已有App分类方法的依赖多种类型的数据、需要大量有标注样本的不足，本发明提出了一种集成浅层和深度学习的App分类方法，该方法具有如下特性：

(1)仅依赖App名称建立App分类模型。

(2)利用少量有标注样本和大量无标注样本建立App分类模型。

(3)由于浅层学习模型和深度学习模型通常性能差异较大，该方法为协同学习过程设计了一种有倾斜的样本挑选方案，以减少无标注样本中噪声数据的影响。

本发明解决其技术问题所采用的技术方案是：

一种集成浅层和深度学习的App分类方法，包括以下步骤：

(1)基于互联网知识对App进行语义扩展，过程如下：

(1-1)搜索片段获取：将App名称作为搜索关键词，输入互联网搜索引擎API，得到搜索片段；

(1-2)App文档形成：对搜索片段进行过滤，合并剩下的搜索片段，形成App文档；

(1-3)App文档预处理：对App文档进行分词、去停用词、App名称删除等操作；

(2)构建基于浅层学习的App基分类器，过程如下：

(2-1)关键词词典构建：对所有App文档中涉及的词进行去重汇总，计算每个词对每个App类型的权重，保留权重最高的部分词作为关键词，形成关键词词典；

(2-2)特征向量计算：基于向量空间模型将每个App文档转化为一个向量，作为该App文档的特征向量；

(2-3)基分类器训练：采用人工神经网络训练基分类器；

(3)构建基于深度学习的App基分类器，过程如下：

(3-1)词向量训练：基于word2vec训练得到每个词的向量表示；

(3-2)基分类器训练：采用卷积神经网络训练基分类器；

(4)基于半监督学习技术对两个基分类器进行协同学习，并对学习结果进行融合得到最终App分类器，过程如下：

(4-1)复制样本集：为2个基分类器分别复制样本集；

(4-2)有监督训练：基于有标注样本集，分别训练浅层学习基分类器和深度学习基分类器，并评测2个基分类器的准确度；

(4-3)半监督训练：基于无标注样本集，对2个基分类器进行多轮协同训练；

(4-4)算法迭代：迭代终止条件满足时，输出2个基分类器，否则转向步骤(4-2)；

(4-5)分类器融合：融合2个基分类器的识别结果，建立最终的App分类器。

进一步，所述步骤(2)中，处理过程如下：

(2-1)关键词词典构建：首先，对所有App文档中涉及的词进行去重汇总，得到词典W；然后，计算W中每个词对每个App类型的权重；计算W中第i个词w_i对第j个App类型c_j的权重w(i,j)如下公式，

其中n(i,j)为w_i在c_j对应的所有App文档中出现的次数，C为App类型的集合；最后，为每个App类型取权重最高的kn个词作为其关键词，则可得到kn×|C|个关键词，形成关键词词典KW；

(2-2)特征向量计算：将每个App文档d转化为一个|KW|维的向量vsm(d)，其中vsm(d)的第i个分量代表KW中第i个关键词w_i在d中的权重，计算方法如下公式；

其中m(i,d)为w_i在d中出现的次数，D为App文档的集合。则vsm(d)即为d的特征向量；

(2-3)基分类器训练：基于有标注的App文档样本集L，采用人工神经网络训练基分类器SC。

再进一步，所述步骤(3)中，处理过程如下：

(3-1)词向量训练：将App文档集D作为语料库，采用word2vec进行词向量训练，设置词向量维度为k，则得到W中每个词对应的向量表示，词w_i对应的向量表示为v_i；

(3-2)基分类器训练：采用卷积神经网络训练基分类器，其网络结构如图3所示，对网络结构的解释如下：

输入层：将每个App文档处理成固定长度l，即固定包含l个词，并以词向量表示每个词，则每个App文档可被表示成一个l×k的矩阵，对长度大于l的App文档进行尾部截断，对长度小于l的App文档进行尾部填充全0向量；

卷积层：采用3种不同大小的窗口，分别为3×k、4×k、5×k，同一窗口大小设置100个卷积核，则每个卷积核会产生一个fl维的卷积特征向量(fl＝l-2、l-3或l-4)，共300个卷积特征向量；

池化层：采用Max-Pooling-Over-Time池化策略，即每个卷积特征向量只保留最大的那个值，拼接对所有卷积特征向量的池化结果得到一个300维的特征向量；

输出层：采用“全连接层+Softmax”作为输出层，全连接层中采用Dropout机制防止过拟合。

更进一步，所述步骤(4)中，给定有标注App文档样本集L和无标注App文档样本集U，对基分类器进行协同学习的过程如下：

(4-1)复制样本集：复制样本集L₁＝L₂＝L，U₁＝U₂＝U；

(4-2)有监督训练：基于L₁，采用步骤(2)所述方法训练浅层学习基分类器SC；基于L₂，采用步骤(3)所述方法训练深度学习基分类器DC，在此基础上，采用十折交叉验证评测SC和DC的准确度，记SC的准确度为P_SC，DC的准确度为P_DC；

(4-3)半监督训练：首先，采用基分类器SC对U₂中所有样本进行识别，为每个App类型c_j挑选出识别置信度最高的min(n_SC(j),m×P_SC)个样本，其中，n_SC(j)为SC在U₂中识别结果为c_j的样本的数量，min(x,y)代表取x和y中较小的值，将识别结果作为其标注，得到伪标注样本集E_SC并放入L₂；然后，采用基分类器DC对U₁中所有样本进行识别，为每个App类型挑选出识别置信度最高的min(n_DC(j),m×P_DC)个样本，其中，n_DC(j)为DC在U₁中识别结果为c_j的样本的数量，将识别结果作为其标注，得到伪标注样本集E_DC并放入L₁；

(4-4)算法迭代：若U₁和U₂中样本数量均为0或迭代次数超过指定阈值，则输出SC和DC，反之，则转向步骤(4-2)；

(4-5)分类器融合：对L中每一个样本，分别使用SC和DC对其进行识别，得到SC和DC识别其为每个App类型的概率，进而得到2个概率向量，其中，P_SC(i,k)为SC识别样本i为App类型c_k的概率，P_DC(i,k)为DC识别样本i为App类型c_k的概率；然后，将这2个概率向量的拼接和App类型标注作为新的样本，构建新的样本集NL；最后，基于NL、采用逻辑回归算法训练得到最终的App分类器FC。

本发明的有益效果主要表现在：仅依赖App名称建立App分类模型，利用少量有标注样本和大量无标注样本建立App分类模型；由于浅层学习模型和深度学习模型通常性能差异较大，该方法为协同学习过程设计了一种有倾斜的样本挑选方案，以减少无标注样本中噪声数据的影响。

附图说明

图1为集成浅层和深度学习的App分类方法流程图；

图2为基于互联网知识对App进行语义扩展示意图；

图3为App基分类器深度学习网络结构图；

图4为协同学习和分类器融合流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种集成浅层和深度学习的App分类方法，包括以下步骤：

(1)基于互联网知识对App进行语义扩展，过程如下：

(1-3)App文档预处理：对App文档进行分词、去停用词、App名称删除操作；

(2)构建基于浅层学习的App基分类器，过程如下：

(2-3)基分类器训练：采用人工神经网络训练基分类器；

(3)构建基于深度学习的App基分类器，过程如下：

(3-1)词向量训练：基于word2vec训练得到每个词的向量表示；

(3-2)基分类器训练：采用卷积神经网络训练基分类器；

(4-1)复制样本集：为2个基分类器分别复制样本集；

进一步，所述步骤(2)中，处理过程如下：

再进一步，所述步骤(3)中，处理过程如下：

参照图4，所述步骤(4)中，给定有标注App文档样本集L和无标注App文档样本集U，对基分类器进行协同学习的过程如下：

(4-1)复制样本集：复制样本集L₁＝L₂＝L，U₁＝U₂＝U；

Claims

1.一种集成浅层和深度学习的App分类方法，其特征在于，所述方法包括以下步骤：

(1)基于互联网知识对App进行语义扩展，过程如下：

(2)构建基于浅层学习的App基分类器，过程如下：

其中m(i,d)为w_i在d中出现的次数，D为App文档的集合，则vsm(d)即为d的特征向量；

(2-3)基分类器训练：基于有标注的App文档样本集L，采用人工神经网络训练基分类器SC；

(3)构建基于深度学习的App基分类器，过程如下：

(3-2)基分类器训练：采用卷积神经网络训练基分类器，对网络结构的解释如下：

卷积层：采用3种不同大小的窗口，分别为3×k、4×k、5×k，同一窗口大小设置100个卷积核，则每个卷积核会产生一个fl维的卷积特征向量，fl＝l-2、l-3或l-4，共300个卷积特征向量；

输出层：采用“全连接层+Softmax”作为输出层，全连接层中采用Dropout机制防止过拟合；

(4)基于半监督学习技术对两个基分类器进行协同学习，并对学习结果进行融合得到最终App分类器，给定有标注App文档样本集L和无标注App文档样本集U，对基分类器进行协同学习的过程如下：

(4-1)复制样本集：复制样本集L₁＝L₂＝L，U₁＝U₂＝U；

(4-2)有监督训练：基于L₁，采用步骤(2)所述方法训练浅层学习基分类器SC；基于L₂，采用步骤(3)所述方法训练深度学习基分类器DC，在此基础上，采用十折交叉验证评测SC和DC的准确度，记SC的准确度为P_SC，DC的准确度为P_DC；(4-3)半监督训练：首先，采用基分类器SC对U₂中所有样本进行识别，为每个App类型c_j挑选出识别置信度最高的min(n_SC(j),m×P_SC)个样本，其中，n_SC(j)为SC在U₂中识别结果为c_j的样本的数量，min(x,y)代表取x和y中较小的值，将识别结果作为其标注，得到伪标注样本集E_SC并放入L₂；然后，采用基分类器DC对U₁中所有样本进行识别，为每个App类型挑选出识别置信度最高的min(n_DC(j),m×P_DC)个样本，其中，n_DC(j)为DC在U₁中识别结果为c_j的样本的数量，将识别结果作为其标注，得到伪标注样本集E_DC并放入L₁；