CN109492678A - 一种集成浅层和深度学习的App分类方法 - Google Patents

一种集成浅层和深度学习的App分类方法 Download PDF

Info

Publication number
CN109492678A
CN109492678A CN201811241145.5A CN201811241145A CN109492678A CN 109492678 A CN109492678 A CN 109492678A CN 201811241145 A CN201811241145 A CN 201811241145A CN 109492678 A CN109492678 A CN 109492678A
Authority
CN
China
Prior art keywords
app
training
classifier
vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811241145.5A
Other languages
English (en)
Other versions
CN109492678B (zh
Inventor
吕明琪
黄超
陈铁明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201811241145.5A priority Critical patent/CN109492678B/zh
Publication of CN109492678A publication Critical patent/CN109492678A/zh
Application granted granted Critical
Publication of CN109492678B publication Critical patent/CN109492678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种集成浅层和深度学习的App分类方法,包括如下步骤:(1)将App名称输入互联网搜索引擎,对结果进行处理得到App文档;(2)基于向量空间模型抽取关键词分布特征,在此基础上采用浅层学习技术训练一个基分类器;(3)基于word2vec训练词向量,在此基础上采用卷积神经网络训练另一个基分类器;(4)设计一个协同学习框架,利用无标注样本对2个基分类器进行协同训练,并对训练结果进行融合得到最终的App分类器。本发明仅利用App名称实现对App的个性化分类;仅需要少量有标注样本即可建立准确率较高的分类模型;设计的协同学习框架考虑了不同基分类器的性能不平衡性,可减少无标注样本中噪声数据的影响。

Description

一种集成浅层和深度学习的App分类方法
技术领域
本发明涉及机器学习和自然语言处理技术,具体涉及一种基于集成学习的文本分类方法。
背景技术
随着App数量的迅猛增长,将海量的App进行合理分类对App管理有着十分重要的意义,也是支持许多高级App相关服务(如App推荐、用户偏好画像)的必要步骤。虽然部分App下载平台(如Google Play,App Store)已经对App进行了分类,但其仍有如下局限性:首先,下载平台的数据通常没有开放接口,无法被第三方程序和服务获取。其次,下载平台的类别体系是固定的,不能满足不同应用对类别体系的个性化需求。
针对上述需求,许多现有方法采用机器学习技术对App进行分类。例如,H.Zhu、E.Chen、H.Xiong等人在“Mobile App classification with enriched contextualinformation”(IEEE Transactions on Mobile Computing 13(2014):1550-1563)中从App名称和用户使用日志等数据中抽取特征建立App分类器。N.Chen、S.Hoi、S.Li等人在“SimApp:A framework for detecting similar mobile applications by onlinekernel learning”(WSDM 2015:305-314)中从各类元数据(如开发商、评论、permission文件、App图标)中挖掘特征以评价App间的语义相似度。然而,现有基于机器学习的App分类方法仍存在以下问题:
(1)依赖多种类型的数据:现有方法从App名称、开发商信息、评论信息、使用日志等多种类型数据中挖掘特征以建立分类模型,这极大的增加了系统的实现难度。事实上,最容易获取的App相关数据即App名称,因此设计仅基于App名称的App分类方法十分有必要。
(2)需要大量有标注样本:现有方法需要大量有标注样本来训练分类模型。然而,在需要个性化类别体系的情况下,只能对App样本的类别进行人工标注,工作量极大。因此,实际操作过程中往往只能得到少量的有标注样本,大量样本是没有标注的。
发明内容
为了克服已有App分类方法的依赖多种类型的数据、需要大量有标注样本的不足,本发明提出了一种集成浅层和深度学习的App分类方法,该方法具有如下特性:
(1)仅依赖App名称建立App分类模型。
(2)利用少量有标注样本和大量无标注样本建立App分类模型。
(3)由于浅层学习模型和深度学习模型通常性能差异较大,该方法为协同学习过程设计了一种有倾斜的样本挑选方案,以减少无标注样本中噪声数据的影响。
本发明解决其技术问题所采用的技术方案是:
一种集成浅层和深度学习的App分类方法,包括以下步骤:
(1)基于互联网知识对App进行语义扩展,过程如下:
(1-1)搜索片段获取:将App名称作为搜索关键词,输入互联网搜索引擎API,得到搜索片段;
(1-2)App文档形成:对搜索片段进行过滤,合并剩下的搜索片段,形成App文档;
(1-3)App文档预处理:对App文档进行分词、去停用词、App名称删除等操作;
(2)构建基于浅层学习的App基分类器,过程如下:
(2-1)关键词词典构建:对所有App文档中涉及的词进行去重汇总,计算每个词对每个App类型的权重,保留权重最高的部分词作为关键词,形成关键词词典;
(2-2)特征向量计算:基于向量空间模型将每个App文档转化为一个向量,作为该App文档的特征向量;
(2-3)基分类器训练:采用人工神经网络训练基分类器;
(3)构建基于深度学习的App基分类器,过程如下:
(3-1)词向量训练:基于word2vec训练得到每个词的向量表示;
(3-2)基分类器训练:采用卷积神经网络训练基分类器;
(4)基于半监督学习技术对两个基分类器进行协同学习,并对学习结果进行融合得到最终App分类器,过程如下:
(4-1)复制样本集:为2个基分类器分别复制样本集;
(4-2)有监督训练:基于有标注样本集,分别训练浅层学习基分类器和深度学习基分类器,并评测2个基分类器的准确度;
(4-3)半监督训练:基于无标注样本集,对2个基分类器进行多轮协同训练;
(4-4)算法迭代:迭代终止条件满足时,输出2个基分类器,否则转向步骤(4-2);
(4-5)分类器融合:融合2个基分类器的识别结果,建立最终的App分类器。
进一步,所述步骤(2)中,处理过程如下:
(2-1)关键词词典构建:首先,对所有App文档中涉及的词进行去重汇总,得到词典W;然后,计算W中每个词对每个App类型的权重;计算W中第i个词wi对第j个App类型cj的权重w(i,j)如下公式,
其中n(i,j)为wi在cj对应的所有App文档中出现的次数,C为App类型的集合;最后,为每个App类型取权重最高的kn个词作为其关键词,则可得到kn×|C|个关键词,形成关键词词典KW;
(2-2)特征向量计算:将每个App文档d转化为一个|KW|维的向量vsm(d),其中vsm(d)的第i个分量代表KW中第i个关键词wi在d中的权重,计算方法如下公式;
其中m(i,d)为wi在d中出现的次数,D为App文档的集合。则vsm(d)即为d的特征向量;
(2-3)基分类器训练:基于有标注的App文档样本集L,采用人工神经网络训练基分类器SC。
再进一步,所述步骤(3)中,处理过程如下:
(3-1)词向量训练:将App文档集D作为语料库,采用word2vec进行词向量训练,设置词向量维度为k,则得到W中每个词对应的向量表示,词wi对应的向量表示为vi
(3-2)基分类器训练:采用卷积神经网络训练基分类器,其网络结构如图3所示,对网络结构的解释如下:
输入层:将每个App文档处理成固定长度l,即固定包含l个词,并以词向量表示每个词,则每个App文档可被表示成一个l×k的矩阵,对长度大于l的App文档进行尾部截断,对长度小于l的App文档进行尾部填充全0向量;
卷积层:采用3种不同大小的窗口,分别为3×k、4×k、5×k,同一窗口大小设置100个卷积核,则每个卷积核会产生一个fl维的卷积特征向量(fl=l-2、l-3或l-4),共300个卷积特征向量;
池化层:采用Max-Pooling-Over-Time池化策略,即每个卷积特征向量只保留最大的那个值,拼接对所有卷积特征向量的池化结果得到一个300维的特征向量;
输出层:采用“全连接层+Softmax”作为输出层,全连接层中采用Dropout机制防止过拟合。
更进一步,所述步骤(4)中,给定有标注App文档样本集L和无标注App文档样本集U,对基分类器进行协同学习的过程如下:
(4-1)复制样本集:复制样本集L1=L2=L,U1=U2=U;
(4-2)有监督训练:基于L1,采用步骤(2)所述方法训练浅层学习基分类器SC;基于L2,采用步骤(3)所述方法训练深度学习基分类器DC,在此基础上,采用十折交叉验证评测SC和DC的准确度,记SC的准确度为PSC,DC的准确度为PDC
(4-3)半监督训练:首先,采用基分类器SC对U2中所有样本进行识别,为每个App类型cj挑选出识别置信度最高的min(nSC(j),m×PSC)个样本,其中,nSC(j)为SC在U2中识别结果为cj的样本的数量,min(x,y)代表取x和y中较小的值,将识别结果作为其标注,得到伪标注样本集ESC并放入L2;然后,采用基分类器DC对U1中所有样本进行识别,为每个App类型挑选出识别置信度最高的min(nDC(j),m×PDC)个样本,其中,nDC(j)为DC在U1中识别结果为cj的样本的数量,将识别结果作为其标注,得到伪标注样本集EDC并放入L1
(4-4)算法迭代:若U1和U2中样本数量均为0或迭代次数超过指定阈值,则输出SC和DC,反之,则转向步骤(4-2);
(4-5)分类器融合:对L中每一个样本,分别使用SC和DC对其进行识别,得到SC和DC识别其为每个App类型的概率,进而得到2个概率向量,其中,PSC(i,k)为SC识别样本i为App类型ck的概率,PDC(i,k)为DC识别样本i为App类型ck的概率;然后,将这2个概率向量的拼接和App类型标注作为新的样本,构建新的样本集NL;最后,基于NL、采用逻辑回归算法训练得到最终的App分类器FC。
本发明的有益效果主要表现在:仅依赖App名称建立App分类模型,利用少量有标注样本和大量无标注样本建立App分类模型;由于浅层学习模型和深度学习模型通常性能差异较大,该方法为协同学习过程设计了一种有倾斜的样本挑选方案,以减少无标注样本中噪声数据的影响。
附图说明
图1为集成浅层和深度学习的App分类方法流程图;
图2为基于互联网知识对App进行语义扩展示意图;
图3为App基分类器深度学习网络结构图;
图4为协同学习和分类器融合流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种集成浅层和深度学习的App分类方法,包括以下步骤:
(1)基于互联网知识对App进行语义扩展,过程如下:
(1-1)搜索片段获取:将App名称作为搜索关键词,输入互联网搜索引擎API,得到搜索片段;
(1-2)App文档形成:对搜索片段进行过滤,合并剩下的搜索片段,形成App文档;
(1-3)App文档预处理:对App文档进行分词、去停用词、App名称删除操作;
(2)构建基于浅层学习的App基分类器,过程如下:
(2-1)关键词词典构建:对所有App文档中涉及的词进行去重汇总,计算每个词对每个App类型的权重,保留权重最高的部分词作为关键词,形成关键词词典;
(2-2)特征向量计算:基于向量空间模型将每个App文档转化为一个向量,作为该App文档的特征向量;
(2-3)基分类器训练:采用人工神经网络训练基分类器;
(3)构建基于深度学习的App基分类器,过程如下:
(3-1)词向量训练:基于word2vec训练得到每个词的向量表示;
(3-2)基分类器训练:采用卷积神经网络训练基分类器;
(4)基于半监督学习技术对两个基分类器进行协同学习,并对学习结果进行融合得到最终App分类器,过程如下:
(4-1)复制样本集:为2个基分类器分别复制样本集;
(4-2)有监督训练:基于有标注样本集,分别训练浅层学习基分类器和深度学习基分类器,并评测2个基分类器的准确度;
(4-3)半监督训练:基于无标注样本集,对2个基分类器进行多轮协同训练;
(4-4)算法迭代:迭代终止条件满足时,输出2个基分类器,否则转向步骤(4-2);
(4-5)分类器融合:融合2个基分类器的识别结果,建立最终的App分类器。
进一步,所述步骤(2)中,处理过程如下:
(2-1)关键词词典构建:首先,对所有App文档中涉及的词进行去重汇总,得到词典W;然后,计算W中每个词对每个App类型的权重;计算W中第i个词wi对第j个App类型cj的权重w(i,j)如下公式,
其中n(i,j)为wi在cj对应的所有App文档中出现的次数,C为App类型的集合;最后,为每个App类型取权重最高的kn个词作为其关键词,则可得到kn×|C|个关键词,形成关键词词典KW;
(2-2)特征向量计算:将每个App文档d转化为一个|KW|维的向量vsm(d),其中vsm(d)的第i个分量代表KW中第i个关键词wi在d中的权重,计算方法如下公式;
其中m(i,d)为wi在d中出现的次数,D为App文档的集合。则vsm(d)即为d的特征向量;
(2-3)基分类器训练:基于有标注的App文档样本集L,采用人工神经网络训练基分类器SC。
再进一步,所述步骤(3)中,处理过程如下:
(3-1)词向量训练:将App文档集D作为语料库,采用word2vec进行词向量训练,设置词向量维度为k,则得到W中每个词对应的向量表示,词wi对应的向量表示为vi
(3-2)基分类器训练:采用卷积神经网络训练基分类器,其网络结构如图3所示,对网络结构的解释如下:
输入层:将每个App文档处理成固定长度l,即固定包含l个词,并以词向量表示每个词,则每个App文档可被表示成一个l×k的矩阵,对长度大于l的App文档进行尾部截断,对长度小于l的App文档进行尾部填充全0向量;
卷积层:采用3种不同大小的窗口,分别为3×k、4×k、5×k,同一窗口大小设置100个卷积核,则每个卷积核会产生一个fl维的卷积特征向量(fl=l-2、l-3或l-4),共300个卷积特征向量;
池化层:采用Max-Pooling-Over-Time池化策略,即每个卷积特征向量只保留最大的那个值,拼接对所有卷积特征向量的池化结果得到一个300维的特征向量;
输出层:采用“全连接层+Softmax”作为输出层,全连接层中采用Dropout机制防止过拟合。
参照图4,所述步骤(4)中,给定有标注App文档样本集L和无标注App文档样本集U,对基分类器进行协同学习的过程如下:
(4-1)复制样本集:复制样本集L1=L2=L,U1=U2=U;
(4-2)有监督训练:基于L1,采用步骤(2)所述方法训练浅层学习基分类器SC;基于L2,采用步骤(3)所述方法训练深度学习基分类器DC,在此基础上,采用十折交叉验证评测SC和DC的准确度,记SC的准确度为PSC,DC的准确度为PDC
(4-3)半监督训练:首先,采用基分类器SC对U2中所有样本进行识别,为每个App类型cj挑选出识别置信度最高的min(nSC(j),m×PSC)个样本,其中,nSC(j)为SC在U2中识别结果为cj的样本的数量,min(x,y)代表取x和y中较小的值,将识别结果作为其标注,得到伪标注样本集ESC并放入L2;然后,采用基分类器DC对U1中所有样本进行识别,为每个App类型挑选出识别置信度最高的min(nDC(j),m×PDC)个样本,其中,nDC(j)为DC在U1中识别结果为cj的样本的数量,将识别结果作为其标注,得到伪标注样本集EDC并放入L1
(4-4)算法迭代:若U1和U2中样本数量均为0或迭代次数超过指定阈值,则输出SC和DC,反之,则转向步骤(4-2);
(4-5)分类器融合:对L中每一个样本,分别使用SC和DC对其进行识别,得到SC和DC识别其为每个App类型的概率,进而得到2个概率向量,其中,PSC(i,k)为SC识别样本i为App类型ck的概率,PDC(i,k)为DC识别样本i为App类型ck的概率;然后,将这2个概率向量的拼接和App类型标注作为新的样本,构建新的样本集NL;最后,基于NL、采用逻辑回归算法训练得到最终的App分类器FC。

Claims (4)

1.一种集成浅层和深度学习的App分类方法,其特征在于,所述方法包括以下步骤:
(1)基于互联网知识对App进行语义扩展,过程如下:
(1-1)搜索片段获取:将App名称作为搜索关键词,输入互联网搜索引擎API,得到搜索片段;
(1-2)App文档形成:对搜索片段进行过滤,合并剩下的搜索片段,形成App文档;
(1-3)App文档预处理:对App文档进行分词、去停用词、App名称删除等操作;
(2)构建基于浅层学习的App基分类器,过程如下:
(2-1)关键词词典构建:对所有App文档中涉及的词进行去重汇总,计算每个词对每个App类型的权重,保留权重最高的部分词作为关键词,形成关键词词典;
(2-2)特征向量计算:基于向量空间模型将每个App文档转化为一个向量,作为该App文档的特征向量;
(2-3)基分类器训练:采用人工神经网络训练基分类器;
(3)构建基于深度学习的App基分类器,过程如下:
(3-1)词向量训练:基于word2vec训练得到每个词的向量表示;
(3-2)基分类器训练:采用卷积神经网络训练基分类器;
(4)基于半监督学习技术对两个基分类器进行协同学习,并对学习结果进行融合得到最终App分类器,过程如下:
(4-1)复制样本集:为2个基分类器分别复制样本集;
(4-2)有监督训练:基于有标注样本集,分别训练浅层学习基分类器和深度学习基分类器,并评测2个基分类器的准确度;
(4-3)半监督训练:基于无标注样本集,对2个基分类器进行多轮协同训练;
(4-4)算法迭代:迭代终止条件满足时,输出2个基分类器,否则转向步骤(4-2);
(4-5)分类器融合:融合2个基分类器的识别结果,建立最终的App分类器。
2.如权利要求1所述的一种集成浅层和深度学习的App分类方法,其特征在于,所述步骤(2)中,处理过程如下:
(2-1)关键词词典构建:首先,对所有App文档中涉及的词进行去重汇总,得到词典W;然后,计算W中每个词对每个App类型的权重;计算W中第i个词wi对第j个App类型cj的权重w(i,j)如下公式,
其中n(i,j)为wi在cj对应的所有App文档中出现的次数,C为App类型的集合;最后,为每个App类型取权重最高的kn个词作为其关键词,则可得到kn×|C|个关键词,形成关键词词典KW;
(2-2)特征向量计算:将每个App文档d转化为一个|KW|维的向量vsm(d),其中vsm(d)的第i个分量代表KW中第i个关键词wi在d中的权重,计算方法如下公式;
其中m(i,d)为wi在d中出现的次数,D为App文档的集合。则vsm(d)即为d的特征向量;
(2-3)基分类器训练:基于有标注的App文档样本集L,采用人工神经网络训练基分类器SC。
3.如权利要求1或2所述的一种集成浅层和深度学习的App分类方法,其特征在于,所述步骤(3)中,处理过程如下:
(3-1)词向量训练:将App文档集D作为语料库,采用word2vec进行词向量训练,设置词向量维度为k,则得到W中每个词对应的向量表示,词wi对应的向量表示为vi
(3-2)基分类器训练:采用卷积神经网络训练基分类器,其网络结构如图3所示,对网络结构的解释如下:
输入层:将每个App文档处理成固定长度l,即固定包含l个词,并以词向量表示每个词,则每个App文档可被表示成一个l×k的矩阵,对长度大于l的App文档进行尾部截断,对长度小于l的App文档进行尾部填充全0向量;
卷积层:采用3种不同大小的窗口,分别为3×k、4×k、5×k,同一窗口大小设置100个卷积核,则每个卷积核会产生一个fl维的卷积特征向量(fl=l-2、l-3或l-4),共300个卷积特征向量;
池化层:采用Max-Pooling-Over-Time池化策略,即每个卷积特征向量只保留最大的那个值,拼接对所有卷积特征向量的池化结果得到一个300维的特征向量;
输出层:采用“全连接层+Softmax”作为输出层,全连接层中采用Dropout机制防止过拟合。
4.如权利要求1或2所述的一种集成浅层和深度学习的App分类方法,其特征在于,所述步骤(4)中,给定有标注App文档样本集L和无标注App文档样本集U,对基分类器进行协同学习的过程如下:
(4-1)复制样本集:复制样本集L1=L2=L,U1=U2=U;
(4-2)有监督训练:基于L1,采用步骤(2)所述方法训练浅层学习基分类器SC;基于L2,采用步骤(3)所述方法训练深度学习基分类器DC,在此基础上,采用十折交叉验证评测SC和DC的准确度,记SC的准确度为PSC,DC的准确度为PDC
(4-3)半监督训练:首先,采用基分类器SC对U2中所有样本进行识别,为每个App类型cj挑选出识别置信度最高的min(nSC(j),m×PSC)个样本,其中,nSC(j)为SC在U2中识别结果为cj的样本的数量,min(x,y)代表取x和y中较小的值,将识别结果作为其标注,得到伪标注样本集ESC并放入L2;然后,采用基分类器DC对U1中所有样本进行识别,为每个App类型挑选出识别置信度最高的min(nDC(j),m×PDC)个样本,其中,nDC(j)为DC在U1中识别结果为cj的样本的数量,将识别结果作为其标注,得到伪标注样本集EDC并放入L1
(4-4)算法迭代:若U1和U2中样本数量均为0或迭代次数超过指定阈值,则输出SC和DC,反之,则转向步骤(4-2);
(4-5)分类器融合:对L中每一个样本,分别使用SC和DC对其进行识别,得到SC和DC识别其为每个App类型的概率,进而得到2个概率向量,其中,PSC(i,k)为SC识别样本i为App类型ck的概率,PDC(i,k)为DC识别样本i为App类型ck的概率;然后,将这2个概率向量的拼接和App类型标注作为新的样本,构建新的样本集NL;最后,基于NL、采用逻辑回归算法训练得到最终的App分类器FC。
CN201811241145.5A 2018-10-24 2018-10-24 一种集成浅层和深度学习的App分类方法 Active CN109492678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811241145.5A CN109492678B (zh) 2018-10-24 2018-10-24 一种集成浅层和深度学习的App分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811241145.5A CN109492678B (zh) 2018-10-24 2018-10-24 一种集成浅层和深度学习的App分类方法

Publications (2)

Publication Number Publication Date
CN109492678A true CN109492678A (zh) 2019-03-19
CN109492678B CN109492678B (zh) 2021-11-23

Family

ID=65692598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811241145.5A Active CN109492678B (zh) 2018-10-24 2018-10-24 一种集成浅层和深度学习的App分类方法

Country Status (1)

Country Link
CN (1) CN109492678B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647919A (zh) * 2019-08-27 2020-01-03 华东师范大学 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统
CN110689081A (zh) * 2019-09-30 2020-01-14 中国科学院大学 一种基于分歧学习的弱监督目标分类和定位方法
CN111106968A (zh) * 2019-12-31 2020-05-05 国网山西省电力公司信息通信分公司 一种构建信息通信智能调度指挥沙盘的方法
CN112100386A (zh) * 2020-11-12 2020-12-18 北京云真信科技有限公司 目标类型app的确定方法、电子设备和介质
CN112232436A (zh) * 2020-11-04 2021-01-15 杭州智策略科技有限公司 一种融合集成决策树与层次注意力机制的可解释网络攻击检测方法
CN112506556A (zh) * 2020-11-19 2021-03-16 杭州云深科技有限公司 应用程序分类方法、装置、计算机设备及存储介质
CN114374953A (zh) * 2022-01-06 2022-04-19 西安交通大学 基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法及系统
CN116167781A (zh) * 2023-04-26 2023-05-26 宗申·比亚乔佛山摩托车企业有限公司 基于人工智能的商品溯源数据处理方法及云平台

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502398A (zh) * 2016-10-21 2017-03-15 浙江工业大学 一种基于加速度传感器和多视图集成学习的语义化活动识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502398A (zh) * 2016-10-21 2017-03-15 浙江工业大学 一种基于加速度传感器和多视图集成学习的语义化活动识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AVRIM BLUM等: "Combining labeled and unlabeled data with co-training", 《PROCEEDINGS OF THE 1998 CONFERENCE ON COMPUTATIONAL LEARNING THEORY》 *
DAVID M. BLEI等: "Latent Dirichlet Allocation", 《JOURNAL OF MACHINE LEARNING RESEARCH》 *
XUAN-HIEU PHAN等: "A Hidden Topic-based Framework towards Building Applications with Short Web Documents", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
YOON KIM: "Convolutional Neural Networks for Sentence Classification", 《ARXIV:1408.5882V2 [CS.CL]》 *
邓攀晓: "基于机器学习的文本分类算法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647919A (zh) * 2019-08-27 2020-01-03 华东师范大学 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统
CN110689081A (zh) * 2019-09-30 2020-01-14 中国科学院大学 一种基于分歧学习的弱监督目标分类和定位方法
CN111106968A (zh) * 2019-12-31 2020-05-05 国网山西省电力公司信息通信分公司 一种构建信息通信智能调度指挥沙盘的方法
CN112232436A (zh) * 2020-11-04 2021-01-15 杭州智策略科技有限公司 一种融合集成决策树与层次注意力机制的可解释网络攻击检测方法
CN112100386A (zh) * 2020-11-12 2020-12-18 北京云真信科技有限公司 目标类型app的确定方法、电子设备和介质
CN112506556A (zh) * 2020-11-19 2021-03-16 杭州云深科技有限公司 应用程序分类方法、装置、计算机设备及存储介质
CN112506556B (zh) * 2020-11-19 2023-08-25 杭州云深科技有限公司 应用程序分类方法、装置、计算机设备及存储介质
CN114374953A (zh) * 2022-01-06 2022-04-19 西安交通大学 基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法及系统
CN114374953B (zh) * 2022-01-06 2023-09-05 西安交通大学 基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法及系统
CN116167781A (zh) * 2023-04-26 2023-05-26 宗申·比亚乔佛山摩托车企业有限公司 基于人工智能的商品溯源数据处理方法及云平台
CN116167781B (zh) * 2023-04-26 2023-06-30 宗申·比亚乔佛山摩托车企业有限公司 基于人工智能的商品溯源数据处理方法及云平台

Also Published As

Publication number Publication date
CN109492678B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN109492678A (zh) 一种集成浅层和深度学习的App分类方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN106844349B (zh) 基于协同训练的垃圾评论识别方法
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN108536870A (zh) 一种融合情感特征和语义特征的文本情感分类方法
CN105205163B (zh) 一种科技新闻的增量学习多层次二分类方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN115934951A (zh) 一种网络热点话题用户情绪预测方法
Li et al. bi-hptm: An effective semantic matchmaking model for web service discovery
CN113051886B (zh) 一种试题查重方法、装置、存储介质及设备
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN113076425A (zh) 一种用于微博评论的事件相关观点句分类方法
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
Wang et al. Sentiment classification based on weak tagging information and imbalanced data
CN109117436A (zh) 基于主题模型的同义词自动发现方法及其系统
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant