CN110766073A

CN110766073A - 一种强化主题注意力机制的移动应用分类方法

Info

Publication number: CN110766073A
Application number: CN201911008602.0A
Authority: CN
Inventors: 曹步清; 陈俊杰
Original assignee: Hunan University of Science and Technology
Current assignee: Hunan University of Science and Technology
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-02-07
Anticipated expiration: 2039-10-22
Also published as: CN110766073B

Abstract

本发明提供一种强化主题注意力机制的移动应用分类方法，所述方法包括：首先利用LSA模型对移动应用内容文本进行全局主题建模，再通过BiLSTM模型对内容文本进行局部隐藏表征；其次，针对富含全局主题信息与局部语义信息的移动应用内容表征文本，引入注意力机制区分不同单词的贡献度，计算其权重值；然后，通过一个全连接层，使用softmax激活函数完成对移动应用的分类与预测。实验结果证明，本发明的方法确实能够提高移动应用分类的准确率，更有助于用户选择合适自己的移动应用。

Description

一种强化主题注意力机制的移动应用分类方法

技术领域

本发明主要涉及移动应用分类相关技术领域，具体是一种强化主题注意力机制的移动应用分类方法。

背景技术

随着智能手机等移动设备的普及，移动应用的数量呈现爆发式的增长。面对数量巨大且内容丰富的移动应用，用户难以查找适合自己的移动应用。为了管理好这些移动应用，以方便用户下载使用，网络上出现了各类移动应用商店，如国内的豌豆荚、360手机助手，国外的Google Play、App Store等。这些移动应用商店主要通过两种方式将移动应用提供给用户下载使用：(1)用户通过输入关键词进行移动应用搜索，应用商店根据关键词进行查找，返回相应的移动应用；(2)根据用户的历史使用记录，向用户推荐类似的移动应用。研究表明：引入文本分类技术，预先对移动应用进行分类，将大大提高移动应用的搜索能力，为从海量数据中找到所需的移动应用提供了便捷。因此，在移动应用商店中，预先对应用进行分类，通过将用户需求定位到特定应用类簇，并从中选择所需的移动应用下载使用，可以有效地降低搜索空间与范围，切实提高应用查找及发现的效率与精度。

目前，针对移动应用分类问题已有一些研究成果，它们主要把移动应用分类看作是一个文本分类问题，利用向量空间模型、主题模型等技术将移动应用内容文本(包括名称、描述、标签等功能信息)建模成一个向量，提取出隐含的主题及语义，实现面向功能语义特征的移动应用分类。这些方法在一定程度上提升了移动应用分类的效率与精度，但是一些问题尚未考虑：(1)通常移动应用的描述信息较长，现有的文本表征技术(如LDA主题建模)不足以准确表示移动应用内容文本；(2)在移动应用内容描述的众多单词中，不是每个单词都对移动应用分类有相同的贡献；(3)未考虑移动应用内容文档中特征词之间的语序以及上下文语境信息。

发明内容

为解决目前技术的不足，本发明结合现有技术，从实际应用出发，提供一种强化主题注意力机制的移动应用分类方法，本方法的应用能够提高移动应用分类的准确率。

为实现上述目的，本发明的技术方案如下：

一种强化主题注意力机制的移动应用分类方法，所述方法包括：首先利用LSA模型对移动应用内容文本进行全局主题建模，再通过BiLSTM模型对内容文本进行局部隐藏表征；其次，针对富含全局主题信息与局部语义信息的移动应用内容表征文本，引入注意力机制区分不同单词的贡献度，计算其权重值；然后，通过一个全连接层，使用softmax激活函数完成对移动应用的分类与预测。

进一步的，对于移动应用描述文本，首先将文本中的每个词表示为一个低维、连续和实值向量，得到其词嵌入

将长度为N的移动应用描述文本，表征为X＝(x₁，x₂，...，x_N)。

进一步的，在通过BiLSTM模型对内容文本进行局部隐藏表征时，对于移动应用描述文本X＝(x₁，x₂，...，x_N)，通过BiLSTM模型的前向LSTM与后向LSTM分别按序处理同一条移动应用文本描述，由前向和后向的隐向量进行拼接得到与X长度相同的隐层状态序列{h₁，h₂，...，h_N}。

进一步的，对于t时刻的输入词x_t，由前一时刻隐层状态h_t-1和细胞状态c_t-1，LSTM模型通过记忆门i_t、遗忘门f_i以及输出门o_t共同计算下一时刻的隐层状态h_t与细胞状态c_t；LSTM模型的计算公式定义如下：

i_t＝σ(W_ix_t+U_ih_t-1+b_i) (1)

f_t＝σ(W_fx_t+U_fh_t-1+b_f) (2)

o_t＝σ(W_ox_t+U_oh_t-1+b_o) (3)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_cx_t+U_ch_t-1+bc) (4)

h_t＝o_t⊙tanh(c_t) (5)

其中σ(·)为logistic函数，其输出区间为(0，1)，⊙代表元素积，W、U和b为网格参数。

进一步的，在利用LSA模型对移动应用内容文本进行全局主题建模时，对于一个移动应用文本的集合S，首先利用词频-逆文本指数构建一个文档-词汇矩阵A_m×n，为每条移动描述文本的单词分配不同的权重；上述词汇矩阵中，m指m条移动应用描述文本，n指n个单词。

进一步的，对于高维文档-词汇矩阵A_m×n通过截断SVD分解进行降维，截断SVD分解公式如下：

经过SVD分解后将奇异值从大到小排列，取前t个最大的奇异值作为对原矩阵A_m×n的近似表示，其中，U_m×t对应移动应用描述文本的文档-主题矩阵，每一条移动应用描述文本都有一个t维度的主题分布θ_s。

进一步的，在计算不同单词的权重值α_i时，通过隐藏层状态序列{h₁，h₂，...，h_N}和外部主题向量

共同计算权重，公式如下：

其中，v_a、W^a、U^a作为训练的权重矩阵；

在计算得到[g₁，g₂，...，g_N]后后，再利用softmax函数计算得到最终的权重值[α₁，α₂，...，α_N]。

进一步的，得到权重值后，为每一条移动应用文本s计算出一个连续的上下文向量

输出的向量vec通过每个隐层状态h_i的加权和计算，即：

其中，d为BiLSTM的隐藏层维度，α_i∈[0，1]作为每个隐层状态h_i的注意力权重，且∑_i α_i＝1。

进一步的，在对移动应用进行分类与预测时，将输出向量vec输入一个输出长度与移动应用类别数量相同的全连接层，接着利用一个softmax激活函数输出所有候选移动应用类别的概率分布，其中，softmax函数计算如下，M作为移动应用类别的数量：

进一步的，通过最小化移动应用类别分类的交叉熵误差，以监督学习的方式训练模型，其损失函数如下：

其中N为移动应用的数量，K为移动应用的类别总数，y_i，k∈{0，1}作为指示变量，p_i，k代表第i个移动应用预测为第k个类别的概率。

本发明的有益效果：

本发明通过LSA模型将移动应用描述文本的主题信息并带入有注意力机制的BiLSTM结构，得到富含局部语义信息且全局主题信息蕴含极强的移动应用文本表征向量；利用一个全连接层通过softmax激活函数得到该文本向量属于不同类别的概率分布，实现移动应用的分类；通过在Kaggle公开真实数据集进行验证，实验结果证明本发明的方法要优于其他对比方法，确实能够提高移动应用分类的准确率，更有助于用户选择合适自己的移动应用。

附图说明

图1为主题注意力机制增强的BiLSTM模型(LSA-BiLSTM)示意图；

图2为BiLSTM编码单个移动应用描述示意图；

图3为截断SVD分解示意图；

图4为不同类别数据的精确率变化图；

图5为不同类别数据的召回率变化图；

图6为不同类别数据的F1分数变化图。

具体实施方式

结合附图和具体实施例，对本发明作进一步说明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

本发明提供的一种强化注意力机制的移动应用分类方法，本分类方法中，首先利用隐性语义分析(LSA：Latent Semantic Analysis)模型对移动应用内容文本进行全局主题建模，采用截断奇异值分解降维方法(SVD：Singular Value Decomposition)挖掘文本的潜在语义信息，对大量文本信息及词汇可获得更精确的全局建模效果；接下来，采用双向长短时记忆神经网络模型(BiLSTM：Bidirectional Long Short-Term Memory Networks)挖掘移动应用内容文档中特征词之间的语序以及上下文语境信息，对移动应用内容文本进行局部隐藏表征；然后，引入注意力机制区分移动应用描述文本中不用单词的贡献度，计算其权重值；最后，结合移动应用内容文本的局部隐藏向量与全局主题向量，使用softmax激活函数完成对移动应用的分类与预测。

LSA-BiLSTM模型及方法的基本思想是通过注意力机制将移动应用描述文本的局部隐藏向量与全局主题向量相结合，对移动应用描述文本进行更好地表征，通过一个全连接层利用softmax激活函数完成对移动应用的分类预测。本方法的主要框架如图1所示，主要由移动应用描述文本表征、基于BiLSTM的序列编码、利用LSA主题建模的注意力机制和移动应用分类四部分组成。

移动应用描述文本表征：移动应用描述文本中的每个词都可以被表示为一个低维、连续和实值向量，也称为词嵌入。利用词嵌入学习算法如Word2vec可以对移动应用描述文本语料库中的词向量进行预训练，可以更好地利用词的语义和语法关联。给定一个输入：移动应用描述s，对于移动应用描述的每一个词，得到其词嵌入

因此，长度为N的移动应用描述文本可表征为X＝(x₁，x₂，...，x_N)，如图1所示。

基于BiLSTM的序列编码：BiLSTM是由前向LSTM与后向LSTM组合而成，而LSTM是一种特殊形式的循环神经网络。LSTM因其设计的特点十分适用于时序数据建模，如文本数据。通过训练LSTM模型可以学习记忆更重要的信息，遗忘不重要的信息，进而更好地捕捉较长距离的语义依赖关系。但是利用LSTM模型对句子建模无法编码从后到前的信息。对于更细粒度的分类，通过BiLSTM模型可更好捕捉双向的语义依赖。

对于一个移动应用描述文本X＝(x₁，x₂，...，x_N)，前向LSTM与后向LSTM将分别按序处理同一条移动应用文本描述。对于t时刻的输入词x_t，由前一时刻隐层状态h_t-1和细胞状态c_t-1，LSTM模型可以通过记忆门i_t、遗忘门f_i以及输出门o_t共同计算下一时刻的隐层状态h_t与细胞状态c_t。LSTM模型的计算公式定义如下：

i_t＝σ(W_ix_t+U_ih_t-1+b_i) (1)

f_t＝σ(W_fx_t+U_fh_t-1+b_f) (2)

o_t＝σ(W_ox_t+U_oh_t-1+b_o) (3)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_cx_t+U_ch_t-1+bc) (4)

h_t＝o_t⊙tanh(c_t) (5)

其中σ(·)为logistic函数，其输出区间为(0，1)。⊙代表元素积，W、U和b为网格参数。

由图2可知，前向和后向的隐向量进行拼接得到与X长度相同的隐层状态序列{h₁，h₂，...，h_N}。

利用LSA主题建模的注意力机制：本发明使用LSA模型对移动应用描述文本进行主题建模。LSA主题模型利用截断SVD分解的降维方法对文本的潜在语义进行挖掘，很好地解决一词多义问题，针对大量文本信息及词汇可以获得更精确的结果。

特别地，对于一个移动应用文本的集合S，首先利用词频-逆文本指数(tf-idf)构建一个文档-词汇矩阵A_m×n(m条移动应用描述文本，n个单词)，为每条移动描述文本的单词分配不同的权重。由于文本集合S的词汇量很大，造成矩阵A_m×n稀疏、噪声很大，并且在许多维度上冗余。为了捕捉单词和文档关系的少数潜在主题，可通过截断SVD分解对高维文档-词汇矩阵A_m×n进行降维。截断SVD分解公式如下：

如图3所示，经过SVD分解后将奇异值从大到小排列，取前t个最大的奇异值作为对原矩阵A_m×n的近似表示。其中，U_m×t对应移动应用描述文本的文档-主题矩阵，每一条移动应用描述文本都有一个t维度的主题分布θ_s。

事实上，在移动应用描述文本中，不是每一个单词都对移动应用分类的贡献相同，因此需计算不同单词的权重α_i。通过隐藏层状态序列{h₁，h₂，...，h_N}和外部主题向量

共同计算权重，公式如下：

其中，v_a、W^a、U^a作为训练的权重矩阵。

在计算得到[g₁，g₂，...，g_N]后，再利用softmax函数计算得到最终的权重值[α₁，α₂，...，α_N]。接下来，模型将会为每一条移动应用文本s计算出一个连续的上下文向量

输出的向量vec通过每个隐层状态h_i的加权和计算，即：

移动应用分类：模型将输出向量vec输入一个输出长度与移动应用类别数量相同的全连接层，接着利用一个softmax激活函数输出所有候选移动应用类别的概率分布。其中，softmax函数计算如下，M作为移动应用类别的数量：

模型通过最小化移动应用类别分类的交叉熵误差，以监督学习的方式训练模型。

其损失函数如下：

其中N为移动应用的数量，K为移动应用的类别总数。y_i，k∈{0，1}作为指示变量，p_i，k代表第i个移动应用预测为第k个类别的概率。

实施例：

对于本发明提供的移动应用分类方法，申请人进行了具体的实验评估和分析，下面在本实施例中对如何通过实验评估和分析得出本方法能够提高移动应用分类精确度进行说明。

数据集：采用Kaggle网站上的公开数据集Mobile App Store作为移动应用分类的实验数据集。该数据集包含23个类别、共7，197条来自苹果商城(app store)的IOS移动应用，数量最多的前20个类别分布详细情况见表1所示。为了实验结果的公平性与精确性，先尽可能移除数据集中非英文描述的移动应用。另外，清洗后数据集样本分布不均匀，其中，类别为‘Games’的移动应用有3，381条，而类别为‘Shopping’的移动应用仅有82条。为防止数据集样本分布不均影响实验结果，随机选取类别为‘Games’的子集480条作为其实验数据。

表1 Top20移动应用的类别数量统计

预处理：在使用移动应用描述文本作为主题建模输入之前，需要对移动应用的描述文本进行预处理，提取出有意义的单词，具体操作如下：

(1)利用正则表达式匹配移动应用描述文本，去除含有中文字符的数据，只关注英文描述的移动应用数据。将移动应用文本描述中的所有单词小写化，使得移动应用描述文本只含有小写单词。去除标点以及一些特殊符号，因为这些符号无意义。

(2)分词，将句子分割成多个单词组成的列表。利用stopwords去除移动应用文本中的停用词，例如“she”，“I”，“could”，“must”等。

(3)对移动应用描述文本中的单词进行词性标注，对移动应用文本中无意义词性的单词进行去除。比如数词、连词、感叹词等。

(4)对移动应用文本进行词干化处理，通常词干相同的词意义相同。例如，agreed、agreeing和agreeable这三个单词具有相同的词根。

对比方法：

(1)LSTM：将移动描述文本统一处理成固定长度，通过LSTM训练得到隐藏向量，并利用softmax函数对移动应用进行分类。

(2)LSA-SVM：首先通过LSA模型学习移动应用文本的全局主题分布，再通过SVM对文本进行训练及预测。将LSA模型训练得到的文档-主题向量作为SVM的输入，通过网格化搜索设置不同的C参数与kernel参数提升分类的准确度。

(3)LDA-SVM：对比LSA模型，利用LDA主题模型学习移动应用文本的文档—主题分布，再利用SVM对向量进行分类，同样利用网格化搜索学习最优超参数，优化分类器的精确度。

(4)LAB-BiLSTM：利用LDA主题模型代替本发明所提方法的LSA模型离线学习文档—主题向量，通过BiLSTM模型训练得到移动应用描述文本的隐藏向量表示。对移动应用特征表示作主题注意力强化处理后通过softmax激活函数实现对移动应用的分类预测。

评价指标：通常，对于二分类问题，采用精确率P(Precision)、召回率R(Recall)以及二者的综合评价F1分数(F1-score)作为分类的指标。但针对多分类任务时，会产生多个混淆矩阵，我们采用macro-Precision、macro-Recall以及macro-F1-score作为评估指标，即分别计算出移动应用每一个类别的精确率、召回率再求算术平均值：

其中，N代表实验中移动应用的类别总数，P_i、R_i分别为第i个类别的精确率和召回率。

实验结果：

实验设置，实验选取70％的数据作为训练集，30％的数据作为测试集。考虑到LSTM模型与BiLSTM模型只能处理固定长度的文本，而移动应用描述文本平均长度为165.9，故将文本序列长度N统一设置为170。另外，使用Adam方法作为模型的优化器，设置超参数β1为0.9，β2为0.999，学习率为0.001，批尺寸为25。针对主题模型LSA，隐语义维度即主题数t可人为设定；因为移动应用类别的总数为23，先将t设置为20，之后再测试分析主题数t对模型实验结果的影响，以选取最佳的t值，在对比方法中，LDA模型的主题数作相同设置。

分类性能，实验分别测试5个类别、10个类别、15个类别、20个类别的移动应用数据，得到的实验结果如图4、图5以及图6所示。整体上来说，本发明的模型LSA-BiLSTM在不同指标上都要优于其他四种对比方法。特别地，当移动应用的数据为10个类别时，LSA-BiLSTM相比于LSTM、LDA-SVM、LSA-SVM以及LAB-BiLSTM在F1分数上分别有29.2％、29.3％、12.8％和3.9％的提升，效果明显。

从实验结果中，可以发现：(1)LSA-SVM要优于LDA-SVM，因为移动应用描述文本的单词量大，LSA可充分利用冗余数据并去噪得到更好的主题向量表示。(2)LSA-BiLSTM和LAB-BiLSTM模型远优于LSTM，可看到LSA-BiLSTM在相同参数设置下F1分数有一定提升，这表明融入注意力机制确实有利于移动应用的分类。(3)LSA-BiLSTM在F1分数上略优于LAB-BiLSTM，再次说明LDA主题模型会受到文本长度的影响，导致学习到的主题不准确。

超参数主题数目t对分类结果的影响：进一步，考虑在LSA-BiLSTM模型中，超参数主题数目t对移动应用分类结果的影响。在固定其他参数不变的前提下，改变主题数t的值。在实验数据类别数为10、主题数t分别取值为5、10、20、30、40和50时，移动应用数据的分类测试结果如表2所示。实验结果表明：当t＝20可以得到最佳的分类效果。

表2 不同主题数下LSA-BiLSTM模型实验结果比较

Claims

1.一种强化主题注意力机制的移动应用分类方法，其特征在于，所述方法包括：首先利用LSA模型对移动应用内容文本进行全局主题建模，再通过BiLSTM模型对内容文本进行局部隐藏表征；其次，针对富含全局主题信息与局部语义信息的移动应用内容表征文本，引入注意力机制区分不同单词的贡献度，计算其权重值；然后，通过一个全连接层，使用softmax激活函数完成对移动应用的分类与预测。

2.如权利要求1所述的一种强化主题注意力机制的移动应用分类方法，其特征在于，对于移动应用描述文本，首先将文本中的每个词表示为一个低维、连续和实值向量，得到其词嵌入

3.如权利要求2所述的一种强化主题注意力机制的移动应用分类方法，其特征在于，在通过BiLSTM模型对内容文本进行局部隐藏表征时，对于移动应用描述文本X＝(x₁，x₂，...，x_N)，通过BiLSTM模型的前向LSTM与后向LSTM分别按序处理同一条移动应用文本描述，由前向和后向的隐向量进行拼接得到与X长度相同的隐层状态序列{h₁，h₂，...，h_N}。

4.如权利要求3所述的一种强化主题注意力机制的移动应用分类方法，其特征在于，对于t时刻的输入词x_t，由前一时刻隐层状态h_t-1和细胞状态c_t-1，LSTM模型通过记忆门i_t、遗忘门f_i以及输出门o_t共同计算下一时刻的隐层状态h_t与细胞状态c_t；LSTM模型的计算公式定义如下：

i_t＝σ(W_ix_t+U_ih_t-1+b_i) (1)

f_t＝σ(W_fx_t+U_fh_t-1+b_f) (2)

o_t＝σ(W_ox_t+U_oh_t-1+b_o) (3)

h_t＝o_t⊙tanh(c_t) (5)

5.如权利要求4所述的一种强化主题注意力机制的移动应用分类方法，其特征在于，在利用LSA模型对移动应用内容文本进行全局主题建模时，对于一个移动应用文本的集合S，首先利用词频一逆文本指数构建一个文档-词汇矩阵A_m×n，为每条移动描述文本的单词分配不同的权重；上述词汇矩阵中，m指m条移动应用描述文本，n指n个单词。

6.如权利要求5所述的一种强化主题注意力机制的移动应用分类方法，其特征在于，对于高维文档-词汇矩阵A_m×n通过截断SVD分解进行降维，截断SVD分解公式如下：

7.如权利要求6所述的一种强化主题注意力机制的移动应用分类方法，其特征在于，在计算不同单词的权重值α_i时，通过隐藏层状态序列{h₁，h₂，...，h_N}和外部主题向量

共同计算权重，公式如下：

其中，v_a、W^a、U^a作为训练的权重矩阵；

在计算得到[g₁，g₂，...，g_N]后，再利用softmax函数计算得到最终的权重值[α₁，α₂，...，α_N]。

8.如权利要求7所述的一种强化主题注意力机制的移动应用分类方法，其特征在于，得到权重值后，为每一条移动应用文本s计算出一个连续的上下文向量

输出的向量vec通过每个隐层状态h_i的加权和计算，即：

其中，d为BiLSTM的隐藏层维度，α_i∈[0，1]作为每个隐层状态h_i的注意力权重，且∑_iα_i＝1。

9.如权利要求8所述的一种强化主题注意力机制的移动应用分类方法，其特征在于，在对移动应用进行分类与预测时，将输出向量vec输入一个输出长度与移动应用类别数量相同的全连接层，接着利用一个softmax激活函数输出所有候选移动应用类别的概率分布，其中，softmax函数计算如下，M作为移动应用类别的数量：

10.如权利要求9所述的一种强化主题注意力机制的移动应用分类方法，其特征在于，通过最小化移动应用类别分类的交叉熵误差，以监督学习的方式训练模型，其损失函数如下：