CN112632984A - 基于描述文本词频的图模型移动应用分类方法 - Google Patents

基于描述文本词频的图模型移动应用分类方法 Download PDF

Info

Publication number
CN112632984A
CN112632984A CN202011312652.0A CN202011312652A CN112632984A CN 112632984 A CN112632984 A CN 112632984A CN 202011312652 A CN202011312652 A CN 202011312652A CN 112632984 A CN112632984 A CN 112632984A
Authority
CN
China
Prior art keywords
word
category
application
weight
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011312652.0A
Other languages
English (en)
Inventor
王兆煜
刘光杰
刘伟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202011312652.0A priority Critical patent/CN112632984A/zh
Publication of CN112632984A publication Critical patent/CN112632984A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于描述文本词频的图模型移动应用分类方法,利用分词工具将所有应用的描述文本分割成句子并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤。记录所有出现过的单个词组和应用所属的类别;取训练语料中每条文本的分词结果,以类别、词和应用作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图;使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测。本发明能够提高移动应用分类的准确度,更有助于移动应用商店向用户提供服务。

Description

基于描述文本词频的图模型移动应用分类方法
技术领域
本发明涉及一种移动应用分类方法,尤其是一种基于描述文本词频的图模型移动应用分类方法。
背景技术
随着移动设备的日益普及,移动应用的数量呈现爆发式的增长。为了方便用户下载并使用,各类移动应用商店在网络上相继出现,如国内的豌豆荚、小米应用市场、腾讯商店,国外的App Store、Google Play等。这些应用商店主要通过两种方式向消费者提供移动应用下载和相应的后续服务:(1)用户通过输入关键词进行搜索,应用商店根据关键词查找并返回相关的移动应用;(2)应用商店根据用户的历史浏览和下载记录,以首页推荐等形式展示可能会吸引用户的移动应用。这两种方法都依赖于对移动应用的预先分类,良好的分类体系和对应用的精准分类结果能大大提高搜索服务和推荐服务的效率。通过将用户需求定位到某几种特定的应用分类簇,并从中更进一步的精准选择移动应用,可以有效地提升用户体验。
针对移动应用的分类问题已经有了一些研究结果,它们主要把移动应用分类问题转换成文本分类问题,其分类方法大多依赖于用户对应用的评论信息(如文字反馈和星级评价等)、应用名称、描述信息等,运用文本处理、主题模型、机器学习等方法实现移动应用主题的提取,并进一步完成移动应用的分类。这些方法都取得了一定的成果,但也存在着一些问题没有考虑。(1)用户的评论信息往往是无序且混乱的,其中包含了垃圾评论或仅是重复星级评价的文字,很难从中筛选和处理出有用的信息;(2)移动应用的描述信息质量参差不齐,且文本长度跨度较大,以往的文本表示技术往往不足以准确表征移动应用的文本内容; (3)移动应用描述文本中,不是所有的词都对移动应用的分类有相同的贡献。
发明内容
本发明的目的在于提出一种基于描述文本词频的图模型移动应用分类方法。
实现本发明目的的技术解决方案为:一种基于描述文本词频的图模型移动应用分类方法,具体步骤如下:
步骤1,利用分词工具将所有应用的描述文本分割成句子并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤。记录所有出现过的单个词组和应用所属的类别;
步骤2,取训练语料中每条文本的分词结果,以类别、词和应用作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图;
步骤3,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用 softmax激活函数完成对移动应用的分类与预测。
进一步的,步骤1中,利用分词工具将所有应用的描述文本分割成句子,并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤,记录所有出现过的单个词组和应用所属的类别,具体过程如下:
步骤1.1:语料分词和低频词统计:使用哈工大LTP工具对待分类的移动应用描述文本分别进行分句处理,进一步对分句后的结果进行分词和词性标注,对照百度自然语言实验室公开的停用词列表,去除其中包含的停用词;
步骤1.2:低频词过滤:分别统计分词结果中各词的全局频率和在单一类别下的出现频率,按照比例去除其中出现次数过少的词语,重新将结果保存,并计算每条训练语料在经过过滤后的文本长度,去除其中长度较小的语料,由此得到能充分支撑模型训练特征需求的文本语料;
步骤1.3:类别标记:记录所有出现过的单个词组和应用所属的类别,每条训练语料分词后的结果以空格分开并与其分类标签保存为json文件。
进一步的,步骤2中,取训练语料中每条文本的分词结果,以类别C、词W 和应用D作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图,具体方法为:
步骤2.1,结合TF-KAI算法,根据词在类别中、词在应用语料中出现的频次计算生成每个词对应每个类别和应用间的权值比重,作为无向图中相应节点的边权重;
(1)对于词节点和类别节点间的边权重计算,采用类似于TF-IDF的计算方法,来衡量词和每种类别之间的对应关系,公式如下:
Figure RE-GDA0002950951980000021
其中,
Figure RE-GDA0002950951980000022
表示词节点i与类别节点c之间的边权重,与n(i,c)表示词i出现在标注为类别c的应用文本中的次数,而n(c)表示类别c下所有应用文本的总词数,n表示总类别数,freq(i,c)则表示文本中出现过词i的类别数;
(2)对于词节点和应用节点间的边权重计算,采用交叉熵的计算方法,公式如下:
Figure RE-GDA0002950951980000031
Figure RE-GDA0002950951980000032
其中,E(i)表示词i的交叉熵,
Figure RE-GDA0002950951980000033
表示词i在类别c中出现的概率,n(i,all)表示词i在所有类别的描述文本中出现的次数;
对词i的交叉熵进行归一化,得到:
Figure RE-GDA0002950951980000034
其中,NE(i)表示归一化后的熵值,Emax表示E(i)中的最大值,而Emin表示最小值;
将归一化后的熵值与TF-KAI算法相结合,得到:
Figure RE-GDA0002950951980000035
其中,
Figure RE-GDA0002950951980000036
表示词节点i与应用节点d之间的边权重,n(i,d)表示词i在应用d 的描述文本中出现的次数,n(i,D)表示描述文本中含有词i的应用个数;
步骤2.2,计算应用和类别间的权重,以此作为无向图中应用节点和类别节点间的边权重,即对于应用和类别间的边权重,将训练语料中每条移动应用的描述文本中包含的词与每个类别的权值比重相加,公式如下:
Figure RE-GDA0002950951980000037
其中,
Figure RE-GDA0002950951980000038
表示应用节点d与类别节点c之间的边权重,ti表示应用d中包含词i的集合;
步骤2.3,使用PMI方法衡量词与词之间的联系信息,并作为无向图中词节点相互之间的边权重PMI(i,j),即对于词节点之间的边权重,使用PMI方法衡量词与词之间的相关信息,公式如下:
Figure RE-GDA0002950951980000041
式中,PMI(i,j)表示词节点相互之间的边权重,p(i,j)是词i和词j同时出现的频度,p(i)是词i出现的频度,p(j)是词j出现的频度,计算公式为:
Figure RE-GDA0002950951980000042
Figure RE-GDA0002950951980000043
其中,#W(i)表示语料中包含词i的滑动窗口个数,#W(i,j)表示语料中同时包含词i和词j的滑动窗口个数,#W表示语料中滑动窗口的总个数,滑动窗口的大小根据语料长短可以自行调整;
步骤2.4,综合上述边权重信息,得到邻接矩阵A,公式如下:
Figure RE-GDA0002950951980000044
步骤2.5,为了缓解图模型固有的模型不收敛等问题,加入自循环结构,确定最终的邻接矩阵A′=A+I。
进一步的,步骤3中,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测,具体方法如下:
步骤3.1,构建两层的图卷积模型,实现节点权重向量的迭代运算;
图卷积网络(graphconvolutionnetwork,GCN)作为一种多层神经网络,直接在所构建好的无向异构图上运行,并根据节点邻域的性质和联系信息不断更新节点向量,更新公式如下:
Figure RE-GDA0002950951980000045
其中,H(l)表示节点第l层的隐藏层向量;W(l)表示第l层的权重矩阵,权重矩阵都是在训练开始时随机生成的N阶矩阵;ρ表示激活函数Relu,其公式为ρ(x)=max(0,x);
Figure RE-GDA0002950951980000046
表示邻接矩阵A′的归一化邻接矩阵,计算公式为:
Figure RE-GDA0002950951980000047
其中,P是邻接矩阵A′的度矩阵,其中矩阵P的主对角元素
Figure RE-GDA0002950951980000051
其余元素为0,Pii表示P矩阵中第i行第i列的元素,A′ij表示A′矩阵中第i行第j列的元素;计算A′的归一化邻接矩阵
Figure RE-GDA0002950951980000059
后,随机生成权重矩阵W(0)并在多层中共享权重参数,即W(1)=W(0),同时为所有节点分别随机生成对应的特征向量,用
Figure RE-GDA0002950951980000052
表示节点v的特征向量,其中m为特征向量的维数,其矩阵化表示为
Figure RE-GDA0002950951980000053
令第一层的隐藏层向量H(0)=X,由于权重矩阵的参数在过程层中共享,训练过程只改变各节点对应的特征向量,即隐藏层向量参数随着训练的推进逐步迭代;
步骤3.2,在两层图卷积结构后,加入全连接层,使用softmax激活函数完成所有移动应用的分类与预测,其公式为:
Figure RE-GDA0002950951980000054
其中,
Figure RE-GDA0002950951980000055
其中K表示所有应用的个数,n表示所有类别的个数,
Figure RE-GDA0002950951980000056
表示模型为移动应用d预测的类别分布概率,ρ表示激活函数Relu,其公式为ρ(x)=max(0,x);
步骤3.3,构建训练损失函数,以监督学习的方式训练模型,计算损失函数并回归迭代直至迭代次数达到预先设置的上限或模型误差已小于一定阈值。
更进一步的,损失函数具体如下:
Figure RE-GDA0002950951980000057
其中,Dtrain表示训练数据集;Yij∈{0,1}作为指示变量,表示移动应用i对应类别j的标签情况,若应用i的真实标签为j,则Yij=1,否则Yij=0;Zij为模型预测的移动应用类别分布,代表模型预测结果中移动应用i预测为类别j的概率,对应Z矩阵中第i行第j列的元素;η表示自定义的L2正则化参数;Θ表示模型参数,这里由于权重矩阵W(l)和无向图节点边权重矩阵
Figure RE-GDA0002950951980000058
都相对固定,主要变化的模型参数为各节点的特征向量,即H(l)
一种基于描述文本词频的图模型移动应用分类系统,基于上述方法进行图模型移动应用分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法进行图模型移动应用分类。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法进行图模型移动应用分类。
本发明与现有技术相比,其显著优点为:在Text-GCN模型的基础上,在无向图的构建中引入了更多种类的节点信息,深度运用了词在类别和应用文本中的频率信息,结合PMI、TF-KAI等方法设置了节点间的权,与其他方法对比,本发明能够提高移动应用分类的准确度,更有助于移动应用商店向用户提供服务。
附图说明
图1为基于et-gcn的文本分类方法流程示意图;
图2是et-gcn的整体网络模型示意图;
图3是不同方法下测试数据的精确率、回归率、F1率示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,基于描述文本词频的图模型移动应用分类方法(基于et-gcn 的文本分类方法),包含以下步骤:
步骤1中,利用分词工具将所有应用的描述文本分割成句子,并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤,记录所有出现过的单个词组和应用所属的类别,具体过程如下:
步骤1.1:语料分词和低频词统计,使用哈工大LTP工具对待分类的移动应用描述文本分别进行分句处理,进一步对分句后的结果进行分词和词性标注,对照百度自然语言实验室公开的停用词列表,去除其中包含的停用词。
步骤1.2:低频词过滤,分别统计分词结果中各词的全局频率和在单一类别下的出现频率,按照一定比例去除其中出现次数过少的词语,重新将结果保存,并计算每条训练语料在经过过滤后的文本长度,去除其中长度较小的语料,由此得到能充分支撑模型训练特征需求的文本语料。然后记录所有出现过的单个词组和应用所属的类别,每条训练语料分词后的结果以空格分开并与其分类标签保存为json文件。
步骤2中,获取训练语料中每条文本的分词结果,以词、应用和类别三种节点构建无向图,如图2所示,具体步骤如下:
构建无向加权异构网络图:G=(V,E),其中,以类别C、词W和应用D作为节点V,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重。具体表现为一个N阶矩阵,其中N等于所有类别、词和应用的总数之和,矩阵中的元素为相应行与列的权重关系,即节点间的边权重。
步骤2.1:对于词节点和类别节点间的边权重计算,采用一种类似于TF-IDF 的计算方法,来衡量词和每种类别之间的对应关系,公式如下:
Figure RE-GDA0002950951980000071
其中,
Figure RE-GDA0002950951980000072
表示词节点i与类别节点c之间的边权重,与n(i,c)表示词i出现在标注为类别c的应用文本中的次数,而n(c)表示类别c下所有应用文本的总词数。 n表示总类别数,freq(i,c)则表示文本中出现过词i的类别数。
对于词节点和应用节点间的边权重计算,采用交叉熵的计算方法,公式如下:
Figure RE-GDA0002950951980000073
Figure RE-GDA0002950951980000074
其中,E(i)表示词i的交叉熵,
Figure RE-GDA0002950951980000075
表示词i在类别c中出现的概率,n(i,all)表示词i在所有类别的描述文本中出现的次数。
对词i的交叉熵进行归一化,得到:
Figure RE-GDA0002950951980000076
其中,NE(i)表示归一化后的熵值,Emax表示E(i)中的最大值,而Emin表示最小值;
将归一化后的熵值与TF-KAI算法相结合,得到:
Figure RE-GDA0002950951980000077
其中,
Figure RE-GDA0002950951980000078
表示词节点i与应用节点d之间的边权重,n(i,d)表示词i在应用d 的描述文本中出现的次数,n(i,D)表示描述文本中含有词i的应用个数;
步骤2.2:对于应用和类别间的边权重,将训练语料中每条移动应用的描述文本中包含的词与每个类别的权值比重相加,公式如下:
Figure RE-GDA0002950951980000081
其中,
Figure RE-GDA0002950951980000082
表示应用节点d与类别节点c之间的边权重,ti表示应用d中包含词i的集合;
步骤2.3:对于词节点之间的边权重,使用PMI方法衡量词与词之间的相关信息,公式如下:
Figure RE-GDA0002950951980000083
式中,PMI(i,j)表示词节点相互之间的边权重,p(i,j)是词i和词j同时出现的频度,p(i)是词i出现的频度,p(j)是词j出现的频度,计算公式为:
Figure RE-GDA0002950951980000084
Figure RE-GDA0002950951980000085
其中,#W(i)表示语料中包含词i的滑动窗口个数,#W(i,j)表示语料中同时包含词i和词j的滑动窗口个数,#W表示语料中滑动窗口的总个数,滑动窗口的大小根据语料长短可以自行调整;
步骤2.4,综合上述边权重信息,构建起一个完整的无向图结构,还可以得到N阶邻接矩阵A,公式如下:
Figure RE-GDA0002950951980000086
步骤2.5,为了缓解图模型固有的模型不收敛等问题,加入自循环结构,确定最终的邻接矩阵A′=A+I,其中I为单位矩阵。
步骤3中,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测具体方法如下:
步骤3.1,构建两层的图卷积模型,实现节点权重向量的迭代运算;
图卷积网络作为一种多层神经网络,直接在所构建好的无向异构图上运行,并根据节点邻域的性质和联系信息不断更新节点向量,更新公式如下:
Figure RE-GDA0002950951980000091
其中,H(l)表示节点第l层的隐藏层向量;W(l)表示第l层的权重矩阵,权重矩阵都是在训练开始时随机生成的N阶矩阵;ρ表示激活函数Relu,其公式为ρ(x)=max(0,x);
Figure RE-GDA0002950951980000092
表示邻接矩阵A′的归一化邻接矩阵,计算公式为:
Figure RE-GDA0002950951980000093
其中,P是邻接矩阵A′的度矩阵,其中矩阵P的主对角元素
Figure RE-GDA0002950951980000094
其余元素为0,Pii表示P矩阵中第i行第i列的元素,A′ij表示A′矩阵中第i行第j列的元素;计算A′的归一化邻接矩阵
Figure RE-GDA00029509519800000911
后,随机生成权重矩阵W(0)并在多层中共享权重参数,即W(1)=W(0),同时为所有节点分别随机生成对应的特征向量,用
Figure RE-GDA0002950951980000095
表示节点v的特征向量,其中m为特征向量的维数,其矩阵化表示为
Figure RE-GDA0002950951980000096
令第一层的隐藏层向量H(0)=X,由于权重矩阵的参数在过程层中共享,训练过程只改变各节点对应的特征向量,即隐藏层向量参数随着训练的推进逐步迭代;
步骤3.2,在两层图卷积结构后,加入全连接层,使用softmax激活函数完成所有移动应用的分类与预测,其公式为:
Figure RE-GDA0002950951980000097
其中,
Figure RE-GDA0002950951980000098
其中K表示所有应用的个数,n表示所有类别的个数,
Figure RE-GDA0002950951980000099
表示模型为移动应用d预测的类别分布概率,ρ表示激活函数Relu,其公式为ρ(x)=max(0,x);
步骤3.3,构建训练损失函数,以监督学习的方式训练模型,计算损失函数并回归迭代直至迭代次数达到预先设置的上限或模型误差已小于一定阈值,其中损失函数具体如下:
Figure RE-GDA00029509519800000910
其中,Dtrain表示训练数据集;Yij∈{0,1}作为指示变量,表示移动应用i对应类别j的标签情况,若应用i的真实标签为j,则Yij=1,否则Yij=0;Zij为模型预测的移动应用类别分布,代表模型预测结果中移动应用i预测为类别j的概率,对应Z矩阵中第i行第j列的元素;η表示自定义的L2正则化参数;Θ表示模型参数。
模型预测的结果经过归一化处理后,其中分布概率最大的类型即为模型训练后自动分类的结果,将其与实际分类标签相比较,依照损失函数计算公式计算当前整体损失值,通过不断迭代计算模型,在当前结果下继续训练分类模型,以缩小与实际分类标签的差距。
本发明还提出一种基于描述文本词频的图模型移动应用分类系统,基于上述方法进行图模型移动应用分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法进行图模型移动应用分类。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法进行图模型移动应用分类。
实施例
为了更好地验证本发明提出的基于text-gcn的移动应用分类模型et-gcn相较其他常见文本分类算法拥有更大优势,使用相同的实验数据进行多种常见的机器学习分类器的实验。实验选取了朴素贝叶斯(NaiveBayes)、决策树(J48)、多层感知机(MultilayerPerceptron),LSTM,BERT,text-gcn一共6种文本分类方法,统一采用十折交叉验证方法进行训练、学习。
基于6种文本分类器的最终的实验结果如图3所示。整体上,常见分类器的分类情况不够理想。Text-gcn和BERT的分类模型效果相对较好,其中text-gcn 达到最高的分类正确率70.05%。而本发明提出的基于et-gcn的改进分类模型能达到75.13%的正确率,优于这些分类模型。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于描述文本词频的图模型移动应用分类方法,其特征在于,具体步骤如下:
步骤1,利用分词工具将所有应用的描述文本分割成句子并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤。记录所有出现过的单个词组和应用所属的类别;
步骤2,取训练语料中每条文本的分词结果,以类别、词和应用作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图;
步骤3,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测。
2.根据权利要求1所述的基于描述文本词频的图模型移动应用分类方法,其特征在于,步骤1中,利用分词工具将所有应用的描述文本分割成句子,并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤,记录所有出现过的单个词组和应用所属的类别,具体过程如下:
步骤1.1:语料分词和低频词统计:使用哈工大LTP工具对待分类的移动应用描述文本分别进行分句处理,进一步对分句后的结果进行分词和词性标注,对照百度自然语言实验室公开的停用词列表,去除其中包含的停用词;
步骤1.2:低频词过滤:分别统计分词结果中各词的全局频率和在单一类别下的出现频率,按照比例去除其中出现次数过少的词语,重新将结果保存,并计算每条训练语料在经过过滤后的文本长度,去除其中长度较小的语料,由此得到能充分支撑模型训练特征需求的文本语料;
步骤1.3:类别标记:记录所有出现过的单个词组和应用所属的类别,每条训练语料分词后的结果以空格分开并与其分类标签保存为json文件。
3.根据权利要求1所述的基于描述文本词频的图模型移动应用分类方法,其特征在于,步骤2中,取训练语料中每条文本的分词结果,以类别C、词W和应用D作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图,具体方法为:
步骤2.1,结合TF-KAI算法,根据词在类别中、词在应用语料中出现的频次计算生成每个词对应每个类别和应用间的权值比重,作为无向图中相应节点的边权重;
(1)对于词节点和类别节点间的边权重计算,采用类似于TF-IDF的计算方法,来衡量词和每种类别之间的对应关系,公式如下:
Figure FDA0002790286950000021
其中,
Figure FDA0002790286950000022
表示词节点i与类别节点c之间的边权重,与n(i,c)表示词i出现在标注为类别c的应用文本中的次数,而n(c)表示类别c下所有应用文本的总词数,n表示总类别数,freq(i,c)则表示文本中出现过词i的类别数;
(2)对于词节点和应用节点间的边权重计算,采用交叉熵的计算方法,公式如下:
Figure FDA0002790286950000023
Figure FDA0002790286950000024
其中,E(i)表示词i的交叉熵,
Figure FDA0002790286950000025
表示词i在类别c中出现的概率,n(i,all)表示词i在所有类别的描述文本中出现的次数;
对词i的交叉熵进行归一化,得到:
Figure FDA0002790286950000026
其中,NE(i)表示归一化后的熵值,Emax表示E(i)中的最大值,而Emin表示最小值;
将归一化后的熵值与TF-KAI算法相结合,得到:
Figure FDA0002790286950000027
其中,
Figure FDA0002790286950000028
表示词节点i与应用节点d之间的边权重,n(i,d)表示词i在应用d的描述文本中出现的次数,n(i,D)表示描述文本中含有词i的应用个数;
步骤2.2,计算应用和类别间的权重,以此作为无向图中应用节点和类别节点间的边权重,即对于应用和类别间的边权重,将训练语料中每条移动应用的描述文本中包含的词与每个类别的权值比重相加,公式如下:
Figure FDA0002790286950000029
其中,
Figure FDA0002790286950000031
表示应用节点d与类别节点c之间的边权重,ti表示应用d中包含词i的集合;
步骤2.3,使用PMI方法衡量词与词之间的联系信息,并作为无向图中词节点相互之间的边权重PMI(i,j),即对于词节点之间的边权重,使用PMI方法衡量词与词之间的相关信息,公式如下:
Figure FDA0002790286950000032
式中,PMI(i,j)表示词节点相互之间的边权重,p(i,j)是词i和词j同时出现的频度,p(i)是词i出现的频度,p(j)是词j出现的频度,计算公式为:
Figure FDA0002790286950000033
Figure FDA0002790286950000034
其中,#W(i)表示语料中包含词i的滑动窗口个数,#W(i,j)表示语料中同时包含词i和词j的滑动窗口个数,#W表示语料中滑动窗口的总个数,滑动窗口的大小根据语料长短可以自行调整;
步骤2.4,综合上述边权重信息,得到邻接矩阵A,公式如下:
Figure FDA0002790286950000035
步骤2.5,为了缓解图模型固有的模型不收敛等问题,加入自循环结构,确定最终的邻接矩阵A′=A+I。
4.根据权利要求1所述的基于描述文本词频的图模型移动应用分类方法,其特征在于,步骤3中,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测,具体方法如下:
步骤3.1,构建两层的图卷积模型,实现节点权重向量的迭代运算;
图卷积网络作为一种多层神经网络,直接在所构建好的无向异构图上运行,并根据节点邻域的性质和联系信息不断更新节点向量,更新公式如下:
Figure FDA0002790286950000036
其中,H(l)表示节点第l层的隐藏层向量;W(l)表示第l层的权重矩阵,权重矩阵都是在训练开始时随机生成的N阶矩阵;ρ表示激活函数Relu,其公式为ρ(x)=max(0,x);
Figure FDA0002790286950000041
表示邻接矩阵A′的归一化邻接矩阵,计算公式为:
Figure FDA0002790286950000042
其中,P是邻接矩阵A′的度矩阵,其中矩阵P的主对角元素Pii=∑jA′ij,其余元素为0,Pii表示P矩阵中第i行第i列的元素,A′ij表示A′矩阵中第i行第j列的元素;计算A′的归一化邻接矩阵
Figure FDA0002790286950000043
后,随机生成权重矩阵W(0)并在多层中共享权重参数,即W(1)=W(0),同时为所有节点分别随机生成对应的特征向量,用
Figure FDA0002790286950000044
表示节点v的特征向量,其中m为特征向量的维数,其矩阵化表示为
Figure FDA0002790286950000045
,令第一层的隐藏层向量H(0)=X,由于权重矩阵的参数在过程层中共享,训练过程只改变各节点对应的特征向量,即隐藏层向量参数随着训练的推进逐步迭代;
步骤3.2,在两层图卷积结构后,加入全连接层,使用softmax激活函数完成所有移动应用的分类与预测,其公式为:
Figure FDA0002790286950000046
其中,
Figure FDA0002790286950000047
其中K表示所有应用的个数,n表示所有类别的个数,
Figure FDA0002790286950000048
表示模型为移动应用d预测的类别分布概率,ρ表示激活函数Relu,其公式为ρ(x)=max(0,x);
步骤3.3,构建训练损失函数,以监督学习的方式训练模型,计算损失函数并回归迭代直至迭代次数达到预先设置的上限或模型误差已小于一定阈值。
5.根据权利要求4所述的基于描述文本词频的图模型移动应用分类方法,其特征在于,损失函数具体如下:
Figure FDA0002790286950000049
其中,Dtrain表示训练数据集;Yij∈{0,1}作为指示变量,表示移动应用i对应类别j的标签情况,若应用i的真实标签为j,则Yij=1,否则Yij=0;Zij为模型预测的移动应用类别分布,代表模型预测结果中移动应用i预测为类别j的概率,对应Z矩阵中第i行第j列的元素;η表示自定义的L2正则化参数;Θ表示模型参数。
6.一种基于描述文本词频的图模型移动应用分类系统,其特征在于,基于权利要求1-5任一项所述的方法,进行图模型移动应用分类。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-5任一项所述的方法,进行图模型移动应用分类。
8.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法,进行图模型移动应用分类。
CN202011312652.0A 2020-11-20 2020-11-20 基于描述文本词频的图模型移动应用分类方法 Pending CN112632984A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011312652.0A CN112632984A (zh) 2020-11-20 2020-11-20 基于描述文本词频的图模型移动应用分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011312652.0A CN112632984A (zh) 2020-11-20 2020-11-20 基于描述文本词频的图模型移动应用分类方法

Publications (1)

Publication Number Publication Date
CN112632984A true CN112632984A (zh) 2021-04-09

Family

ID=75303567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011312652.0A Pending CN112632984A (zh) 2020-11-20 2020-11-20 基于描述文本词频的图模型移动应用分类方法

Country Status (1)

Country Link
CN (1) CN112632984A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095087A (zh) * 2021-04-30 2021-07-09 哈尔滨理工大学 一种基于图卷积神经网络的中文词义消歧方法
CN113284498A (zh) * 2021-05-20 2021-08-20 中国工商银行股份有限公司 客户意图识别方法及装置
CN113704501A (zh) * 2021-08-10 2021-11-26 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
CN115270718A (zh) * 2022-07-26 2022-11-01 中国医学科学院阜外医院 一种疾病编码的自动编目方法及系统
CN113704501B (zh) * 2021-08-10 2024-05-31 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180357531A1 (en) * 2015-11-27 2018-12-13 Devanathan GIRIDHARI Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof
WO2019205318A1 (zh) * 2018-04-25 2019-10-31 平安科技(深圳)有限公司 舆情信息分类方法、装置、计算机设备和存储介质
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN111552803A (zh) * 2020-04-08 2020-08-18 西安工程大学 一种基于图小波网络模型的文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180357531A1 (en) * 2015-11-27 2018-12-13 Devanathan GIRIDHARI Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof
WO2019205318A1 (zh) * 2018-04-25 2019-10-31 平安科技(深圳)有限公司 舆情信息分类方法、装置、计算机设备和存储介质
CN110717047A (zh) * 2019-10-22 2020-01-21 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN111552803A (zh) * 2020-04-08 2020-08-18 西安工程大学 一种基于图小波网络模型的文本分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
但宇豪;黄继风;杨琳;高海;: "基于TF-IDF与word2vec的台词文本分类研究", 上海师范大学学报(自然科学版), no. 01, 15 February 2020 (2020-02-15) *
陈子豪;谢从华;时敏;唐晓娜;: "基于fasttext模型的中文专利快速分类", 常熟理工学院学报, no. 05, 17 September 2020 (2020-09-17) *
黄春梅;王松磊;: "基于词袋模型和TF-IDF的短文本分类研究", 软件工程, no. 03, 5 March 2020 (2020-03-05) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095087A (zh) * 2021-04-30 2021-07-09 哈尔滨理工大学 一种基于图卷积神经网络的中文词义消歧方法
CN113095087B (zh) * 2021-04-30 2022-11-25 哈尔滨理工大学 一种基于图卷积神经网络的中文词义消歧方法
CN113284498A (zh) * 2021-05-20 2021-08-20 中国工商银行股份有限公司 客户意图识别方法及装置
CN113704501A (zh) * 2021-08-10 2021-11-26 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
CN113704501B (zh) * 2021-08-10 2024-05-31 上海硬通网络科技有限公司 应用的标签获取方法、装置、电子设备及存储介质
CN115270718A (zh) * 2022-07-26 2022-11-01 中国医学科学院阜外医院 一种疾病编码的自动编目方法及系统
CN115270718B (zh) * 2022-07-26 2023-10-10 中国医学科学院阜外医院 一种疾病编码的自动编目方法及系统

Similar Documents

Publication Publication Date Title
US11995702B2 (en) Item recommendations using convolutions on weighted graphs
CN110413780B (zh) 文本情感分析方法和电子设备
CN107357793B (zh) 信息推荐方法和装置
Chen et al. Learning elastic embeddings for customizing on-device recommenders
CN112632984A (zh) 基于描述文本词频的图模型移动应用分类方法
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN107506480A (zh) 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
CN110879938A (zh) 文本情感分类方法、装置、设备和存储介质
Marović et al. Automatic movie ratings prediction using machine learning
Liu et al. PHD: A probabilistic model of hybrid deep collaborative filtering for recommender systems
CN113408706B (zh) 训练用户兴趣挖掘模型、用户兴趣挖掘的方法和装置
Spirovski et al. Comparison of different model's performances in task of document classification
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN108304568B (zh) 一种房地产公众预期大数据处理方法及系统
Imron et al. Aspect Based Sentiment Analysis Marketplace Product Reviews Using BERT, LSTM, and CNN
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN113761123A (zh) 关键词获取的方法、装置、计算设备和存储介质
Shanthini et al. Advanced Data Mining Enabled Robust Sentiment Analysis on E-Commerce Product Reviews and Recommendation Model
Kim et al. An efficient gradient-based approach to optimizing average precision through maximal figure-of-merit learning
Arora et al. Evaluation Of Product Reviews Using Deep Learning Classifier Models
CN114826921B (zh) 基于抽样子图的网络资源动态分配方法、系统及介质
Nayak et al. A Machine Learning Model to Classify Indian Taxi System in Tourism Industry
US20230368003A1 (en) Adaptive sparse attention pattern
AU2021102725A4 (en) Sentiment Analysis of Human being with Effective Word Embedding Methodologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination