CN112632984A

CN112632984A - 基于描述文本词频的图模型移动应用分类方法

Info

Publication number: CN112632984A
Application number: CN202011312652.0A
Authority: CN
Inventors: 王兆煜; 刘光杰; 刘伟伟
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-04-09

Abstract

本发明提出了一种基于描述文本词频的图模型移动应用分类方法，利用分词工具将所有应用的描述文本分割成句子并对每个句子进行分词，对分词结果进行停用词过滤和低频词过滤。记录所有出现过的单个词组和应用所属的类别；取训练语料中每条文本的分词结果，以类别、词和应用作为节点，以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重，构建无向图；使用两层的图卷积模型算法实现节点权重向量的迭代运算，使用softmax激活函数完成对移动应用的分类与预测。本发明能够提高移动应用分类的准确度，更有助于移动应用商店向用户提供服务。

Description

基于描述文本词频的图模型移动应用分类方法

技术领域

本发明涉及一种移动应用分类方法，尤其是一种基于描述文本词频的图模型移动应用分类方法。

背景技术

随着移动设备的日益普及，移动应用的数量呈现爆发式的增长。为了方便用户下载并使用，各类移动应用商店在网络上相继出现，如国内的豌豆荚、小米应用市场、腾讯商店，国外的App Store、Google Play等。这些应用商店主要通过两种方式向消费者提供移动应用下载和相应的后续服务：(1)用户通过输入关键词进行搜索，应用商店根据关键词查找并返回相关的移动应用；(2)应用商店根据用户的历史浏览和下载记录，以首页推荐等形式展示可能会吸引用户的移动应用。这两种方法都依赖于对移动应用的预先分类，良好的分类体系和对应用的精准分类结果能大大提高搜索服务和推荐服务的效率。通过将用户需求定位到某几种特定的应用分类簇，并从中更进一步的精准选择移动应用，可以有效地提升用户体验。

针对移动应用的分类问题已经有了一些研究结果，它们主要把移动应用分类问题转换成文本分类问题，其分类方法大多依赖于用户对应用的评论信息(如文字反馈和星级评价等)、应用名称、描述信息等，运用文本处理、主题模型、机器学习等方法实现移动应用主题的提取，并进一步完成移动应用的分类。这些方法都取得了一定的成果，但也存在着一些问题没有考虑。(1)用户的评论信息往往是无序且混乱的，其中包含了垃圾评论或仅是重复星级评价的文字，很难从中筛选和处理出有用的信息；(2)移动应用的描述信息质量参差不齐，且文本长度跨度较大，以往的文本表示技术往往不足以准确表征移动应用的文本内容； (3)移动应用描述文本中，不是所有的词都对移动应用的分类有相同的贡献。

发明内容

本发明的目的在于提出一种基于描述文本词频的图模型移动应用分类方法。

实现本发明目的的技术解决方案为：一种基于描述文本词频的图模型移动应用分类方法，具体步骤如下：

步骤1，利用分词工具将所有应用的描述文本分割成句子并对每个句子进行分词，对分词结果进行停用词过滤和低频词过滤。记录所有出现过的单个词组和应用所属的类别；

步骤2，取训练语料中每条文本的分词结果，以类别、词和应用作为节点，以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重，构建无向图；

步骤3，使用两层的图卷积模型算法实现节点权重向量的迭代运算，使用 softmax激活函数完成对移动应用的分类与预测。

进一步的，步骤1中，利用分词工具将所有应用的描述文本分割成句子，并对每个句子进行分词，对分词结果进行停用词过滤和低频词过滤，记录所有出现过的单个词组和应用所属的类别，具体过程如下：

步骤1.1：语料分词和低频词统计：使用哈工大LTP工具对待分类的移动应用描述文本分别进行分句处理，进一步对分句后的结果进行分词和词性标注，对照百度自然语言实验室公开的停用词列表，去除其中包含的停用词；

步骤1.2：低频词过滤：分别统计分词结果中各词的全局频率和在单一类别下的出现频率，按照比例去除其中出现次数过少的词语，重新将结果保存，并计算每条训练语料在经过过滤后的文本长度，去除其中长度较小的语料，由此得到能充分支撑模型训练特征需求的文本语料；

步骤1.3：类别标记：记录所有出现过的单个词组和应用所属的类别，每条训练语料分词后的结果以空格分开并与其分类标签保存为json文件。

进一步的，步骤2中，取训练语料中每条文本的分词结果，以类别C、词W 和应用D作为节点，以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重，构建无向图，具体方法为：

步骤2.1，结合TF-KAI算法，根据词在类别中、词在应用语料中出现的频次计算生成每个词对应每个类别和应用间的权值比重，作为无向图中相应节点的边权重；

(1)对于词节点和类别节点间的边权重计算，采用类似于TF-IDF的计算方法，来衡量词和每种类别之间的对应关系，公式如下：

其中，

表示词节点i与类别节点c之间的边权重，与n(i,c)表示词i出现在标注为类别c的应用文本中的次数，而n(c)表示类别c下所有应用文本的总词数，n表示总类别数，freq(i,c)则表示文本中出现过词i的类别数；

(2)对于词节点和应用节点间的边权重计算，采用交叉熵的计算方法，公式如下：

其中，E(i)表示词i的交叉熵，

表示词i在类别c中出现的概率，n(i,all)表示词i在所有类别的描述文本中出现的次数；

对词i的交叉熵进行归一化，得到：

其中，NE(i)表示归一化后的熵值，E_max表示E(i)中的最大值，而E_min表示最小值；

将归一化后的熵值与TF-KAI算法相结合，得到：

其中，

表示词节点i与应用节点d之间的边权重，n(i,d)表示词i在应用d 的描述文本中出现的次数，n(i,D)表示描述文本中含有词i的应用个数；

步骤2.2，计算应用和类别间的权重，以此作为无向图中应用节点和类别节点间的边权重，即对于应用和类别间的边权重，将训练语料中每条移动应用的描述文本中包含的词与每个类别的权值比重相加，公式如下：

其中，

表示应用节点d与类别节点c之间的边权重，t_i表示应用d中包含词i的集合；

步骤2.3，使用PMI方法衡量词与词之间的联系信息，并作为无向图中词节点相互之间的边权重PMI(i,j)，即对于词节点之间的边权重，使用PMI方法衡量词与词之间的相关信息，公式如下：

式中，PMI(i,j)表示词节点相互之间的边权重，p(i,j)是词i和词j同时出现的频度,p(i)是词i出现的频度,p(j)是词j出现的频度，计算公式为：

其中,#W(i)表示语料中包含词i的滑动窗口个数，#W(i,j)表示语料中同时包含词i和词j的滑动窗口个数，#W表示语料中滑动窗口的总个数，滑动窗口的大小根据语料长短可以自行调整；

步骤2.4，综合上述边权重信息，得到邻接矩阵A，公式如下：

步骤2.5，为了缓解图模型固有的模型不收敛等问题，加入自循环结构，确定最终的邻接矩阵A′＝A+I。

进一步的，步骤3中，使用两层的图卷积模型算法实现节点权重向量的迭代运算，使用softmax激活函数完成对移动应用的分类与预测，具体方法如下：

步骤3.1，构建两层的图卷积模型，实现节点权重向量的迭代运算；

图卷积网络(graphconvolutionnetwork，GCN)作为一种多层神经网络，直接在所构建好的无向异构图上运行，并根据节点邻域的性质和联系信息不断更新节点向量，更新公式如下：

其中，H^(l)表示节点第l层的隐藏层向量；W^(l)表示第l层的权重矩阵，权重矩阵都是在训练开始时随机生成的N阶矩阵；ρ表示激活函数Relu，其公式为ρ(x)＝max(0,x)；

表示邻接矩阵A′的归一化邻接矩阵，计算公式为：

其中，P是邻接矩阵A′的度矩阵，其中矩阵P的主对角元素

其余元素为0，P_ii表示P矩阵中第i行第i列的元素，A′_ij表示A′矩阵中第i行第j列的元素；计算A′的归一化邻接矩阵

后，随机生成权重矩阵W⁽⁰⁾并在多层中共享权重参数，即W⁽¹⁾＝W⁽⁰⁾，同时为所有节点分别随机生成对应的特征向量，用

表示节点v的特征向量，其中m为特征向量的维数，其矩阵化表示为

令第一层的隐藏层向量H⁽⁰⁾＝X，由于权重矩阵的参数在过程层中共享，训练过程只改变各节点对应的特征向量，即隐藏层向量参数随着训练的推进逐步迭代；

步骤3.2，在两层图卷积结构后，加入全连接层，使用softmax激活函数完成所有移动应用的分类与预测，其公式为：

其中，

其中K表示所有应用的个数，n表示所有类别的个数，

表示模型为移动应用d预测的类别分布概率，ρ表示激活函数Relu，其公式为ρ(x)＝max(0,x)；

步骤3.3，构建训练损失函数，以监督学习的方式训练模型，计算损失函数并回归迭代直至迭代次数达到预先设置的上限或模型误差已小于一定阈值。

更进一步的，损失函数具体如下：

其中，D_train表示训练数据集；Y_ij∈{0,1}作为指示变量，表示移动应用i对应类别j的标签情况，若应用i的真实标签为j，则Y_ij＝1，否则Y_ij＝0；Z_ij为模型预测的移动应用类别分布，代表模型预测结果中移动应用i预测为类别j的概率，对应Z矩阵中第i行第j列的元素；η表示自定义的L2正则化参数；Θ表示模型参数，这里由于权重矩阵W^(l)和无向图节点边权重矩阵

都相对固定，主要变化的模型参数为各节点的特征向量，即H^(l)。

一种基于描述文本词频的图模型移动应用分类系统，基于上述方法进行图模型移动应用分类。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法进行图模型移动应用分类。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法进行图模型移动应用分类。

本发明与现有技术相比，其显著优点为：在Text-GCN模型的基础上，在无向图的构建中引入了更多种类的节点信息，深度运用了词在类别和应用文本中的频率信息，结合PMI、TF-KAI等方法设置了节点间的权，与其他方法对比，本发明能够提高移动应用分类的准确度，更有助于移动应用商店向用户提供服务。

附图说明

图1为基于et-gcn的文本分类方法流程示意图；

图2是et-gcn的整体网络模型示意图；

图3是不同方法下测试数据的精确率、回归率、F1率示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，基于描述文本词频的图模型移动应用分类方法(基于et-gcn 的文本分类方法)，包含以下步骤：

步骤1中，利用分词工具将所有应用的描述文本分割成句子，并对每个句子进行分词，对分词结果进行停用词过滤和低频词过滤，记录所有出现过的单个词组和应用所属的类别，具体过程如下：

步骤1.1：语料分词和低频词统计，使用哈工大LTP工具对待分类的移动应用描述文本分别进行分句处理，进一步对分句后的结果进行分词和词性标注，对照百度自然语言实验室公开的停用词列表，去除其中包含的停用词。

步骤1.2：低频词过滤，分别统计分词结果中各词的全局频率和在单一类别下的出现频率，按照一定比例去除其中出现次数过少的词语，重新将结果保存，并计算每条训练语料在经过过滤后的文本长度，去除其中长度较小的语料，由此得到能充分支撑模型训练特征需求的文本语料。然后记录所有出现过的单个词组和应用所属的类别，每条训练语料分词后的结果以空格分开并与其分类标签保存为json文件。

步骤2中，获取训练语料中每条文本的分词结果，以词、应用和类别三种节点构建无向图，如图2所示，具体步骤如下：

构建无向加权异构网络图：G＝(V,E)，其中，以类别C、词W和应用D作为节点V，以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重。具体表现为一个N阶矩阵，其中N等于所有类别、词和应用的总数之和，矩阵中的元素为相应行与列的权重关系，即节点间的边权重。

步骤2.1：对于词节点和类别节点间的边权重计算，采用一种类似于TF-IDF 的计算方法，来衡量词和每种类别之间的对应关系，公式如下：

其中，

表示词节点i与类别节点c之间的边权重，与n(i,c)表示词i出现在标注为类别c的应用文本中的次数，而n(c)表示类别c下所有应用文本的总词数。 n表示总类别数，freq(i,c)则表示文本中出现过词i的类别数。

对于词节点和应用节点间的边权重计算，采用交叉熵的计算方法，公式如下：

其中，E(i)表示词i的交叉熵，

表示词i在类别c中出现的概率，n(i,all)表示词i在所有类别的描述文本中出现的次数。

对词i的交叉熵进行归一化，得到：

将归一化后的熵值与TF-KAI算法相结合，得到：

其中，

步骤2.2：对于应用和类别间的边权重，将训练语料中每条移动应用的描述文本中包含的词与每个类别的权值比重相加，公式如下：

其中，

步骤2.3：对于词节点之间的边权重，使用PMI方法衡量词与词之间的相关信息，公式如下：

步骤2.4，综合上述边权重信息，构建起一个完整的无向图结构，还可以得到N阶邻接矩阵A，公式如下：

步骤2.5，为了缓解图模型固有的模型不收敛等问题，加入自循环结构，确定最终的邻接矩阵A′＝A+I，其中I为单位矩阵。

步骤3中，使用两层的图卷积模型算法实现节点权重向量的迭代运算，使用softmax激活函数完成对移动应用的分类与预测具体方法如下：

图卷积网络作为一种多层神经网络，直接在所构建好的无向异构图上运行，并根据节点邻域的性质和联系信息不断更新节点向量，更新公式如下：

表示邻接矩阵A′的归一化邻接矩阵，计算公式为：

其中，P是邻接矩阵A′的度矩阵，其中矩阵P的主对角元素

其中，

其中K表示所有应用的个数，n表示所有类别的个数，

步骤3.3，构建训练损失函数，以监督学习的方式训练模型，计算损失函数并回归迭代直至迭代次数达到预先设置的上限或模型误差已小于一定阈值，其中损失函数具体如下：

其中，D_train表示训练数据集；Y_ij∈{0,1}作为指示变量，表示移动应用i对应类别j的标签情况，若应用i的真实标签为j，则Y_ij＝1，否则Y_ij＝0；Z_ij为模型预测的移动应用类别分布，代表模型预测结果中移动应用i预测为类别j的概率，对应Z矩阵中第i行第j列的元素；η表示自定义的L2正则化参数；Θ表示模型参数。

模型预测的结果经过归一化处理后，其中分布概率最大的类型即为模型训练后自动分类的结果，将其与实际分类标签相比较，依照损失函数计算公式计算当前整体损失值，通过不断迭代计算模型，在当前结果下继续训练分类模型，以缩小与实际分类标签的差距。

本发明还提出一种基于描述文本词频的图模型移动应用分类系统，基于上述方法进行图模型移动应用分类。

实施例

为了更好地验证本发明提出的基于text-gcn的移动应用分类模型et-gcn相较其他常见文本分类算法拥有更大优势，使用相同的实验数据进行多种常见的机器学习分类器的实验。实验选取了朴素贝叶斯(NaiveBayes)、决策树(J48)、多层感知机(MultilayerPerceptron)，LSTM，BERT，text-gcn一共6种文本分类方法，统一采用十折交叉验证方法进行训练、学习。

基于6种文本分类器的最终的实验结果如图3所示。整体上，常见分类器的分类情况不够理想。Text-gcn和BERT的分类模型效果相对较好，其中text-gcn 达到最高的分类正确率70.05％。而本发明提出的基于et-gcn的改进分类模型能达到75.13％的正确率，优于这些分类模型。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。