CN112632984A - 基于描述文本词频的图模型移动应用分类方法 - Google Patents
基于描述文本词频的图模型移动应用分类方法 Download PDFInfo
- Publication number
- CN112632984A CN112632984A CN202011312652.0A CN202011312652A CN112632984A CN 112632984 A CN112632984 A CN 112632984A CN 202011312652 A CN202011312652 A CN 202011312652A CN 112632984 A CN112632984 A CN 112632984A
- Authority
- CN
- China
- Prior art keywords
- word
- category
- application
- weight
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 25
- 230000004913 activation Effects 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 16
- 239000000126 substance Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000013145 classification model Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于描述文本词频的图模型移动应用分类方法,利用分词工具将所有应用的描述文本分割成句子并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤。记录所有出现过的单个词组和应用所属的类别;取训练语料中每条文本的分词结果,以类别、词和应用作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图;使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测。本发明能够提高移动应用分类的准确度,更有助于移动应用商店向用户提供服务。
Description
技术领域
本发明涉及一种移动应用分类方法,尤其是一种基于描述文本词频的图模型移动应用分类方法。
背景技术
随着移动设备的日益普及,移动应用的数量呈现爆发式的增长。为了方便用户下载并使用,各类移动应用商店在网络上相继出现,如国内的豌豆荚、小米应用市场、腾讯商店,国外的App Store、Google Play等。这些应用商店主要通过两种方式向消费者提供移动应用下载和相应的后续服务:(1)用户通过输入关键词进行搜索,应用商店根据关键词查找并返回相关的移动应用;(2)应用商店根据用户的历史浏览和下载记录,以首页推荐等形式展示可能会吸引用户的移动应用。这两种方法都依赖于对移动应用的预先分类,良好的分类体系和对应用的精准分类结果能大大提高搜索服务和推荐服务的效率。通过将用户需求定位到某几种特定的应用分类簇,并从中更进一步的精准选择移动应用,可以有效地提升用户体验。
针对移动应用的分类问题已经有了一些研究结果,它们主要把移动应用分类问题转换成文本分类问题,其分类方法大多依赖于用户对应用的评论信息(如文字反馈和星级评价等)、应用名称、描述信息等,运用文本处理、主题模型、机器学习等方法实现移动应用主题的提取,并进一步完成移动应用的分类。这些方法都取得了一定的成果,但也存在着一些问题没有考虑。(1)用户的评论信息往往是无序且混乱的,其中包含了垃圾评论或仅是重复星级评价的文字,很难从中筛选和处理出有用的信息;(2)移动应用的描述信息质量参差不齐,且文本长度跨度较大,以往的文本表示技术往往不足以准确表征移动应用的文本内容; (3)移动应用描述文本中,不是所有的词都对移动应用的分类有相同的贡献。
发明内容
本发明的目的在于提出一种基于描述文本词频的图模型移动应用分类方法。
实现本发明目的的技术解决方案为:一种基于描述文本词频的图模型移动应用分类方法,具体步骤如下:
步骤1,利用分词工具将所有应用的描述文本分割成句子并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤。记录所有出现过的单个词组和应用所属的类别;
步骤2,取训练语料中每条文本的分词结果,以类别、词和应用作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图;
步骤3,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用 softmax激活函数完成对移动应用的分类与预测。
进一步的,步骤1中,利用分词工具将所有应用的描述文本分割成句子,并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤,记录所有出现过的单个词组和应用所属的类别,具体过程如下:
步骤1.1:语料分词和低频词统计:使用哈工大LTP工具对待分类的移动应用描述文本分别进行分句处理,进一步对分句后的结果进行分词和词性标注,对照百度自然语言实验室公开的停用词列表,去除其中包含的停用词;
步骤1.2:低频词过滤:分别统计分词结果中各词的全局频率和在单一类别下的出现频率,按照比例去除其中出现次数过少的词语,重新将结果保存,并计算每条训练语料在经过过滤后的文本长度,去除其中长度较小的语料,由此得到能充分支撑模型训练特征需求的文本语料;
步骤1.3:类别标记:记录所有出现过的单个词组和应用所属的类别,每条训练语料分词后的结果以空格分开并与其分类标签保存为json文件。
进一步的,步骤2中,取训练语料中每条文本的分词结果,以类别C、词W 和应用D作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图,具体方法为:
步骤2.1,结合TF-KAI算法,根据词在类别中、词在应用语料中出现的频次计算生成每个词对应每个类别和应用间的权值比重,作为无向图中相应节点的边权重;
(1)对于词节点和类别节点间的边权重计算,采用类似于TF-IDF的计算方法,来衡量词和每种类别之间的对应关系,公式如下:
其中,表示词节点i与类别节点c之间的边权重,与n(i,c)表示词i出现在标注为类别c的应用文本中的次数,而n(c)表示类别c下所有应用文本的总词数,n表示总类别数,freq(i,c)则表示文本中出现过词i的类别数;
(2)对于词节点和应用节点间的边权重计算,采用交叉熵的计算方法,公式如下:
对词i的交叉熵进行归一化,得到:
其中,NE(i)表示归一化后的熵值,Emax表示E(i)中的最大值,而Emin表示最小值;
将归一化后的熵值与TF-KAI算法相结合,得到:
步骤2.2,计算应用和类别间的权重,以此作为无向图中应用节点和类别节点间的边权重,即对于应用和类别间的边权重,将训练语料中每条移动应用的描述文本中包含的词与每个类别的权值比重相加,公式如下:
步骤2.3,使用PMI方法衡量词与词之间的联系信息,并作为无向图中词节点相互之间的边权重PMI(i,j),即对于词节点之间的边权重,使用PMI方法衡量词与词之间的相关信息,公式如下:
式中,PMI(i,j)表示词节点相互之间的边权重,p(i,j)是词i和词j同时出现的频度,p(i)是词i出现的频度,p(j)是词j出现的频度,计算公式为:
其中,#W(i)表示语料中包含词i的滑动窗口个数,#W(i,j)表示语料中同时包含词i和词j的滑动窗口个数,#W表示语料中滑动窗口的总个数,滑动窗口的大小根据语料长短可以自行调整;
步骤2.4,综合上述边权重信息,得到邻接矩阵A,公式如下:
步骤2.5,为了缓解图模型固有的模型不收敛等问题,加入自循环结构,确定最终的邻接矩阵A′=A+I。
进一步的,步骤3中,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测,具体方法如下:
步骤3.1,构建两层的图卷积模型,实现节点权重向量的迭代运算;
图卷积网络(graphconvolutionnetwork,GCN)作为一种多层神经网络,直接在所构建好的无向异构图上运行,并根据节点邻域的性质和联系信息不断更新节点向量,更新公式如下:
其中,H(l)表示节点第l层的隐藏层向量;W(l)表示第l层的权重矩阵,权重矩阵都是在训练开始时随机生成的N阶矩阵;ρ表示激活函数Relu,其公式为ρ(x)=max(0,x);表示邻接矩阵A′的归一化邻接矩阵,计算公式为:
其中,P是邻接矩阵A′的度矩阵,其中矩阵P的主对角元素其余元素为0,Pii表示P矩阵中第i行第i列的元素,A′ij表示A′矩阵中第i行第j列的元素;计算A′的归一化邻接矩阵后,随机生成权重矩阵W(0)并在多层中共享权重参数,即W(1)=W(0),同时为所有节点分别随机生成对应的特征向量,用表示节点v的特征向量,其中m为特征向量的维数,其矩阵化表示为令第一层的隐藏层向量H(0)=X,由于权重矩阵的参数在过程层中共享,训练过程只改变各节点对应的特征向量,即隐藏层向量参数随着训练的推进逐步迭代;
步骤3.2,在两层图卷积结构后,加入全连接层,使用softmax激活函数完成所有移动应用的分类与预测,其公式为:
步骤3.3,构建训练损失函数,以监督学习的方式训练模型,计算损失函数并回归迭代直至迭代次数达到预先设置的上限或模型误差已小于一定阈值。
更进一步的,损失函数具体如下:
其中,Dtrain表示训练数据集;Yij∈{0,1}作为指示变量,表示移动应用i对应类别j的标签情况,若应用i的真实标签为j,则Yij=1,否则Yij=0;Zij为模型预测的移动应用类别分布,代表模型预测结果中移动应用i预测为类别j的概率,对应Z矩阵中第i行第j列的元素;η表示自定义的L2正则化参数;Θ表示模型参数,这里由于权重矩阵W(l)和无向图节点边权重矩阵都相对固定,主要变化的模型参数为各节点的特征向量,即H(l)。
一种基于描述文本词频的图模型移动应用分类系统,基于上述方法进行图模型移动应用分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法进行图模型移动应用分类。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法进行图模型移动应用分类。
本发明与现有技术相比,其显著优点为:在Text-GCN模型的基础上,在无向图的构建中引入了更多种类的节点信息,深度运用了词在类别和应用文本中的频率信息,结合PMI、TF-KAI等方法设置了节点间的权,与其他方法对比,本发明能够提高移动应用分类的准确度,更有助于移动应用商店向用户提供服务。
附图说明
图1为基于et-gcn的文本分类方法流程示意图;
图2是et-gcn的整体网络模型示意图;
图3是不同方法下测试数据的精确率、回归率、F1率示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,基于描述文本词频的图模型移动应用分类方法(基于et-gcn 的文本分类方法),包含以下步骤:
步骤1中,利用分词工具将所有应用的描述文本分割成句子,并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤,记录所有出现过的单个词组和应用所属的类别,具体过程如下:
步骤1.1:语料分词和低频词统计,使用哈工大LTP工具对待分类的移动应用描述文本分别进行分句处理,进一步对分句后的结果进行分词和词性标注,对照百度自然语言实验室公开的停用词列表,去除其中包含的停用词。
步骤1.2:低频词过滤,分别统计分词结果中各词的全局频率和在单一类别下的出现频率,按照一定比例去除其中出现次数过少的词语,重新将结果保存,并计算每条训练语料在经过过滤后的文本长度,去除其中长度较小的语料,由此得到能充分支撑模型训练特征需求的文本语料。然后记录所有出现过的单个词组和应用所属的类别,每条训练语料分词后的结果以空格分开并与其分类标签保存为json文件。
步骤2中,获取训练语料中每条文本的分词结果,以词、应用和类别三种节点构建无向图,如图2所示,具体步骤如下:
构建无向加权异构网络图:G=(V,E),其中,以类别C、词W和应用D作为节点V,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重。具体表现为一个N阶矩阵,其中N等于所有类别、词和应用的总数之和,矩阵中的元素为相应行与列的权重关系,即节点间的边权重。
步骤2.1:对于词节点和类别节点间的边权重计算,采用一种类似于TF-IDF 的计算方法,来衡量词和每种类别之间的对应关系,公式如下:
其中,表示词节点i与类别节点c之间的边权重,与n(i,c)表示词i出现在标注为类别c的应用文本中的次数,而n(c)表示类别c下所有应用文本的总词数。 n表示总类别数,freq(i,c)则表示文本中出现过词i的类别数。
对于词节点和应用节点间的边权重计算,采用交叉熵的计算方法,公式如下:
对词i的交叉熵进行归一化,得到:
其中,NE(i)表示归一化后的熵值,Emax表示E(i)中的最大值,而Emin表示最小值;
将归一化后的熵值与TF-KAI算法相结合,得到:
步骤2.2:对于应用和类别间的边权重,将训练语料中每条移动应用的描述文本中包含的词与每个类别的权值比重相加,公式如下:
步骤2.3:对于词节点之间的边权重,使用PMI方法衡量词与词之间的相关信息,公式如下:
式中,PMI(i,j)表示词节点相互之间的边权重,p(i,j)是词i和词j同时出现的频度,p(i)是词i出现的频度,p(j)是词j出现的频度,计算公式为:
其中,#W(i)表示语料中包含词i的滑动窗口个数,#W(i,j)表示语料中同时包含词i和词j的滑动窗口个数,#W表示语料中滑动窗口的总个数,滑动窗口的大小根据语料长短可以自行调整;
步骤2.4,综合上述边权重信息,构建起一个完整的无向图结构,还可以得到N阶邻接矩阵A,公式如下:
步骤2.5,为了缓解图模型固有的模型不收敛等问题,加入自循环结构,确定最终的邻接矩阵A′=A+I,其中I为单位矩阵。
步骤3中,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测具体方法如下:
步骤3.1,构建两层的图卷积模型,实现节点权重向量的迭代运算;
图卷积网络作为一种多层神经网络,直接在所构建好的无向异构图上运行,并根据节点邻域的性质和联系信息不断更新节点向量,更新公式如下:
其中,H(l)表示节点第l层的隐藏层向量;W(l)表示第l层的权重矩阵,权重矩阵都是在训练开始时随机生成的N阶矩阵;ρ表示激活函数Relu,其公式为ρ(x)=max(0,x);表示邻接矩阵A′的归一化邻接矩阵,计算公式为:
其中,P是邻接矩阵A′的度矩阵,其中矩阵P的主对角元素其余元素为0,Pii表示P矩阵中第i行第i列的元素,A′ij表示A′矩阵中第i行第j列的元素;计算A′的归一化邻接矩阵后,随机生成权重矩阵W(0)并在多层中共享权重参数,即W(1)=W(0),同时为所有节点分别随机生成对应的特征向量,用表示节点v的特征向量,其中m为特征向量的维数,其矩阵化表示为令第一层的隐藏层向量H(0)=X,由于权重矩阵的参数在过程层中共享,训练过程只改变各节点对应的特征向量,即隐藏层向量参数随着训练的推进逐步迭代;
步骤3.2,在两层图卷积结构后,加入全连接层,使用softmax激活函数完成所有移动应用的分类与预测,其公式为:
步骤3.3,构建训练损失函数,以监督学习的方式训练模型,计算损失函数并回归迭代直至迭代次数达到预先设置的上限或模型误差已小于一定阈值,其中损失函数具体如下:
其中,Dtrain表示训练数据集;Yij∈{0,1}作为指示变量,表示移动应用i对应类别j的标签情况,若应用i的真实标签为j,则Yij=1,否则Yij=0;Zij为模型预测的移动应用类别分布,代表模型预测结果中移动应用i预测为类别j的概率,对应Z矩阵中第i行第j列的元素;η表示自定义的L2正则化参数;Θ表示模型参数。
模型预测的结果经过归一化处理后,其中分布概率最大的类型即为模型训练后自动分类的结果,将其与实际分类标签相比较,依照损失函数计算公式计算当前整体损失值,通过不断迭代计算模型,在当前结果下继续训练分类模型,以缩小与实际分类标签的差距。
本发明还提出一种基于描述文本词频的图模型移动应用分类系统,基于上述方法进行图模型移动应用分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法进行图模型移动应用分类。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法进行图模型移动应用分类。
实施例
为了更好地验证本发明提出的基于text-gcn的移动应用分类模型et-gcn相较其他常见文本分类算法拥有更大优势,使用相同的实验数据进行多种常见的机器学习分类器的实验。实验选取了朴素贝叶斯(NaiveBayes)、决策树(J48)、多层感知机(MultilayerPerceptron),LSTM,BERT,text-gcn一共6种文本分类方法,统一采用十折交叉验证方法进行训练、学习。
基于6种文本分类器的最终的实验结果如图3所示。整体上,常见分类器的分类情况不够理想。Text-gcn和BERT的分类模型效果相对较好,其中text-gcn 达到最高的分类正确率70.05%。而本发明提出的基于et-gcn的改进分类模型能达到75.13%的正确率,优于这些分类模型。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于描述文本词频的图模型移动应用分类方法,其特征在于,具体步骤如下:
步骤1,利用分词工具将所有应用的描述文本分割成句子并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤。记录所有出现过的单个词组和应用所属的类别;
步骤2,取训练语料中每条文本的分词结果,以类别、词和应用作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图;
步骤3,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测。
2.根据权利要求1所述的基于描述文本词频的图模型移动应用分类方法,其特征在于,步骤1中,利用分词工具将所有应用的描述文本分割成句子,并对每个句子进行分词,对分词结果进行停用词过滤和低频词过滤,记录所有出现过的单个词组和应用所属的类别,具体过程如下:
步骤1.1:语料分词和低频词统计:使用哈工大LTP工具对待分类的移动应用描述文本分别进行分句处理,进一步对分句后的结果进行分词和词性标注,对照百度自然语言实验室公开的停用词列表,去除其中包含的停用词;
步骤1.2:低频词过滤:分别统计分词结果中各词的全局频率和在单一类别下的出现频率,按照比例去除其中出现次数过少的词语,重新将结果保存,并计算每条训练语料在经过过滤后的文本长度,去除其中长度较小的语料,由此得到能充分支撑模型训练特征需求的文本语料;
步骤1.3:类别标记:记录所有出现过的单个词组和应用所属的类别,每条训练语料分词后的结果以空格分开并与其分类标签保存为json文件。
3.根据权利要求1所述的基于描述文本词频的图模型移动应用分类方法,其特征在于,步骤2中,取训练语料中每条文本的分词结果,以类别C、词W和应用D作为节点,以词和类别、词和应用、词和词、类别和词之间的相关权值比重作为相应的边权重,构建无向图,具体方法为:
步骤2.1,结合TF-KAI算法,根据词在类别中、词在应用语料中出现的频次计算生成每个词对应每个类别和应用间的权值比重,作为无向图中相应节点的边权重;
(1)对于词节点和类别节点间的边权重计算,采用类似于TF-IDF的计算方法,来衡量词和每种类别之间的对应关系,公式如下:
其中,表示词节点i与类别节点c之间的边权重,与n(i,c)表示词i出现在标注为类别c的应用文本中的次数,而n(c)表示类别c下所有应用文本的总词数,n表示总类别数,freq(i,c)则表示文本中出现过词i的类别数;
(2)对于词节点和应用节点间的边权重计算,采用交叉熵的计算方法,公式如下:
对词i的交叉熵进行归一化,得到:
其中,NE(i)表示归一化后的熵值,Emax表示E(i)中的最大值,而Emin表示最小值;
将归一化后的熵值与TF-KAI算法相结合,得到:
步骤2.2,计算应用和类别间的权重,以此作为无向图中应用节点和类别节点间的边权重,即对于应用和类别间的边权重,将训练语料中每条移动应用的描述文本中包含的词与每个类别的权值比重相加,公式如下:
步骤2.3,使用PMI方法衡量词与词之间的联系信息,并作为无向图中词节点相互之间的边权重PMI(i,j),即对于词节点之间的边权重,使用PMI方法衡量词与词之间的相关信息,公式如下:
式中,PMI(i,j)表示词节点相互之间的边权重,p(i,j)是词i和词j同时出现的频度,p(i)是词i出现的频度,p(j)是词j出现的频度,计算公式为:
其中,#W(i)表示语料中包含词i的滑动窗口个数,#W(i,j)表示语料中同时包含词i和词j的滑动窗口个数,#W表示语料中滑动窗口的总个数,滑动窗口的大小根据语料长短可以自行调整;
步骤2.4,综合上述边权重信息,得到邻接矩阵A,公式如下:
步骤2.5,为了缓解图模型固有的模型不收敛等问题,加入自循环结构,确定最终的邻接矩阵A′=A+I。
4.根据权利要求1所述的基于描述文本词频的图模型移动应用分类方法,其特征在于,步骤3中,使用两层的图卷积模型算法实现节点权重向量的迭代运算,使用softmax激活函数完成对移动应用的分类与预测,具体方法如下:
步骤3.1,构建两层的图卷积模型,实现节点权重向量的迭代运算;
图卷积网络作为一种多层神经网络,直接在所构建好的无向异构图上运行,并根据节点邻域的性质和联系信息不断更新节点向量,更新公式如下:
其中,H(l)表示节点第l层的隐藏层向量;W(l)表示第l层的权重矩阵,权重矩阵都是在训练开始时随机生成的N阶矩阵;ρ表示激活函数Relu,其公式为ρ(x)=max(0,x);表示邻接矩阵A′的归一化邻接矩阵,计算公式为:
其中,P是邻接矩阵A′的度矩阵,其中矩阵P的主对角元素Pii=∑jA′ij,其余元素为0,Pii表示P矩阵中第i行第i列的元素,A′ij表示A′矩阵中第i行第j列的元素;计算A′的归一化邻接矩阵后,随机生成权重矩阵W(0)并在多层中共享权重参数,即W(1)=W(0),同时为所有节点分别随机生成对应的特征向量,用表示节点v的特征向量,其中m为特征向量的维数,其矩阵化表示为,令第一层的隐藏层向量H(0)=X,由于权重矩阵的参数在过程层中共享,训练过程只改变各节点对应的特征向量,即隐藏层向量参数随着训练的推进逐步迭代;
步骤3.2,在两层图卷积结构后,加入全连接层,使用softmax激活函数完成所有移动应用的分类与预测,其公式为:
步骤3.3,构建训练损失函数,以监督学习的方式训练模型,计算损失函数并回归迭代直至迭代次数达到预先设置的上限或模型误差已小于一定阈值。
6.一种基于描述文本词频的图模型移动应用分类系统,其特征在于,基于权利要求1-5任一项所述的方法,进行图模型移动应用分类。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-5任一项所述的方法,进行图模型移动应用分类。
8.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法,进行图模型移动应用分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011312652.0A CN112632984A (zh) | 2020-11-20 | 2020-11-20 | 基于描述文本词频的图模型移动应用分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011312652.0A CN112632984A (zh) | 2020-11-20 | 2020-11-20 | 基于描述文本词频的图模型移动应用分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112632984A true CN112632984A (zh) | 2021-04-09 |
Family
ID=75303567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011312652.0A Pending CN112632984A (zh) | 2020-11-20 | 2020-11-20 | 基于描述文本词频的图模型移动应用分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632984A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095087A (zh) * | 2021-04-30 | 2021-07-09 | 哈尔滨理工大学 | 一种基于图卷积神经网络的中文词义消歧方法 |
CN113284498A (zh) * | 2021-05-20 | 2021-08-20 | 中国工商银行股份有限公司 | 客户意图识别方法及装置 |
CN113704501A (zh) * | 2021-08-10 | 2021-11-26 | 上海硬通网络科技有限公司 | 应用的标签获取方法、装置、电子设备及存储介质 |
CN115270718A (zh) * | 2022-07-26 | 2022-11-01 | 中国医学科学院阜外医院 | 一种疾病编码的自动编目方法及系统 |
CN113704501B (zh) * | 2021-08-10 | 2024-05-31 | 上海硬通网络科技有限公司 | 应用的标签获取方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
WO2019205318A1 (zh) * | 2018-04-25 | 2019-10-31 | 平安科技(深圳)有限公司 | 舆情信息分类方法、装置、计算机设备和存储介质 |
CN110717047A (zh) * | 2019-10-22 | 2020-01-21 | 湖南科技大学 | 一种基于图卷积神经网络的Web服务分类方法 |
CN111552803A (zh) * | 2020-04-08 | 2020-08-18 | 西安工程大学 | 一种基于图小波网络模型的文本分类方法 |
-
2020
- 2020-11-20 CN CN202011312652.0A patent/CN112632984A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180357531A1 (en) * | 2015-11-27 | 2018-12-13 | Devanathan GIRIDHARI | Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof |
WO2019205318A1 (zh) * | 2018-04-25 | 2019-10-31 | 平安科技(深圳)有限公司 | 舆情信息分类方法、装置、计算机设备和存储介质 |
CN110717047A (zh) * | 2019-10-22 | 2020-01-21 | 湖南科技大学 | 一种基于图卷积神经网络的Web服务分类方法 |
CN111552803A (zh) * | 2020-04-08 | 2020-08-18 | 西安工程大学 | 一种基于图小波网络模型的文本分类方法 |
Non-Patent Citations (3)
Title |
---|
但宇豪;黄继风;杨琳;高海;: "基于TF-IDF与word2vec的台词文本分类研究", 上海师范大学学报(自然科学版), no. 01, 15 February 2020 (2020-02-15) * |
陈子豪;谢从华;时敏;唐晓娜;: "基于fasttext模型的中文专利快速分类", 常熟理工学院学报, no. 05, 17 September 2020 (2020-09-17) * |
黄春梅;王松磊;: "基于词袋模型和TF-IDF的短文本分类研究", 软件工程, no. 03, 5 March 2020 (2020-03-05) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095087A (zh) * | 2021-04-30 | 2021-07-09 | 哈尔滨理工大学 | 一种基于图卷积神经网络的中文词义消歧方法 |
CN113095087B (zh) * | 2021-04-30 | 2022-11-25 | 哈尔滨理工大学 | 一种基于图卷积神经网络的中文词义消歧方法 |
CN113284498A (zh) * | 2021-05-20 | 2021-08-20 | 中国工商银行股份有限公司 | 客户意图识别方法及装置 |
CN113704501A (zh) * | 2021-08-10 | 2021-11-26 | 上海硬通网络科技有限公司 | 应用的标签获取方法、装置、电子设备及存储介质 |
CN113704501B (zh) * | 2021-08-10 | 2024-05-31 | 上海硬通网络科技有限公司 | 应用的标签获取方法、装置、电子设备及存储介质 |
CN115270718A (zh) * | 2022-07-26 | 2022-11-01 | 中国医学科学院阜外医院 | 一种疾病编码的自动编目方法及系统 |
CN115270718B (zh) * | 2022-07-26 | 2023-10-10 | 中国医学科学院阜外医院 | 一种疾病编码的自动编目方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11995702B2 (en) | Item recommendations using convolutions on weighted graphs | |
CN110413780B (zh) | 文本情感分析方法和电子设备 | |
CN107357793B (zh) | 信息推荐方法和装置 | |
Chen et al. | Learning elastic embeddings for customizing on-device recommenders | |
CN112632984A (zh) | 基于描述文本词频的图模型移动应用分类方法 | |
CN107992531A (zh) | 基于深度学习的新闻个性化智能推荐方法与系统 | |
CN107506480A (zh) | 一种基于评论挖掘与密度聚类的双层图结构推荐方法 | |
CN113220886A (zh) | 文本分类方法、文本分类模型训练方法及相关设备 | |
CN110879938A (zh) | 文本情感分类方法、装置、设备和存储介质 | |
Marović et al. | Automatic movie ratings prediction using machine learning | |
Liu et al. | PHD: A probabilistic model of hybrid deep collaborative filtering for recommender systems | |
CN113408706B (zh) | 训练用户兴趣挖掘模型、用户兴趣挖掘的方法和装置 | |
Spirovski et al. | Comparison of different model's performances in task of document classification | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN108304568B (zh) | 一种房地产公众预期大数据处理方法及系统 | |
Imron et al. | Aspect Based Sentiment Analysis Marketplace Product Reviews Using BERT, LSTM, and CNN | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN113761123A (zh) | 关键词获取的方法、装置、计算设备和存储介质 | |
Shanthini et al. | Advanced Data Mining Enabled Robust Sentiment Analysis on E-Commerce Product Reviews and Recommendation Model | |
Kim et al. | An efficient gradient-based approach to optimizing average precision through maximal figure-of-merit learning | |
Arora et al. | Evaluation Of Product Reviews Using Deep Learning Classifier Models | |
CN114826921B (zh) | 基于抽样子图的网络资源动态分配方法、系统及介质 | |
Nayak et al. | A Machine Learning Model to Classify Indian Taxi System in Tourism Industry | |
US20230368003A1 (en) | Adaptive sparse attention pattern | |
AU2021102725A4 (en) | Sentiment Analysis of Human being with Effective Word Embedding Methodologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |