CN109492678A - 一种集成浅层和深度学习的App分类方法 - Google Patents
一种集成浅层和深度学习的App分类方法 Download PDFInfo
- Publication number
- CN109492678A CN109492678A CN201811241145.5A CN201811241145A CN109492678A CN 109492678 A CN109492678 A CN 109492678A CN 201811241145 A CN201811241145 A CN 201811241145A CN 109492678 A CN109492678 A CN 109492678A
- Authority
- CN
- China
- Prior art keywords
- app
- training
- classifier
- vector
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种集成浅层和深度学习的App分类方法,包括如下步骤:(1)将App名称输入互联网搜索引擎,对结果进行处理得到App文档;(2)基于向量空间模型抽取关键词分布特征,在此基础上采用浅层学习技术训练一个基分类器;(3)基于word2vec训练词向量,在此基础上采用卷积神经网络训练另一个基分类器;(4)设计一个协同学习框架,利用无标注样本对2个基分类器进行协同训练,并对训练结果进行融合得到最终的App分类器。本发明仅利用App名称实现对App的个性化分类;仅需要少量有标注样本即可建立准确率较高的分类模型;设计的协同学习框架考虑了不同基分类器的性能不平衡性,可减少无标注样本中噪声数据的影响。
Description
技术领域
本发明涉及机器学习和自然语言处理技术,具体涉及一种基于集成学习的文本分类方法。
背景技术
随着App数量的迅猛增长,将海量的App进行合理分类对App管理有着十分重要的意义,也是支持许多高级App相关服务(如App推荐、用户偏好画像)的必要步骤。虽然部分App下载平台(如Google Play,App Store)已经对App进行了分类,但其仍有如下局限性:首先,下载平台的数据通常没有开放接口,无法被第三方程序和服务获取。其次,下载平台的类别体系是固定的,不能满足不同应用对类别体系的个性化需求。
针对上述需求,许多现有方法采用机器学习技术对App进行分类。例如,H.Zhu、E.Chen、H.Xiong等人在“Mobile App classification with enriched contextualinformation”(IEEE Transactions on Mobile Computing 13(2014):1550-1563)中从App名称和用户使用日志等数据中抽取特征建立App分类器。N.Chen、S.Hoi、S.Li等人在“SimApp:A framework for detecting similar mobile applications by onlinekernel learning”(WSDM 2015:305-314)中从各类元数据(如开发商、评论、permission文件、App图标)中挖掘特征以评价App间的语义相似度。然而,现有基于机器学习的App分类方法仍存在以下问题:
(1)依赖多种类型的数据:现有方法从App名称、开发商信息、评论信息、使用日志等多种类型数据中挖掘特征以建立分类模型,这极大的增加了系统的实现难度。事实上,最容易获取的App相关数据即App名称,因此设计仅基于App名称的App分类方法十分有必要。
(2)需要大量有标注样本:现有方法需要大量有标注样本来训练分类模型。然而,在需要个性化类别体系的情况下,只能对App样本的类别进行人工标注,工作量极大。因此,实际操作过程中往往只能得到少量的有标注样本,大量样本是没有标注的。
发明内容
为了克服已有App分类方法的依赖多种类型的数据、需要大量有标注样本的不足,本发明提出了一种集成浅层和深度学习的App分类方法,该方法具有如下特性:
(1)仅依赖App名称建立App分类模型。
(2)利用少量有标注样本和大量无标注样本建立App分类模型。
(3)由于浅层学习模型和深度学习模型通常性能差异较大,该方法为协同学习过程设计了一种有倾斜的样本挑选方案,以减少无标注样本中噪声数据的影响。
本发明解决其技术问题所采用的技术方案是:
一种集成浅层和深度学习的App分类方法,包括以下步骤:
(1)基于互联网知识对App进行语义扩展,过程如下:
(1-1)搜索片段获取:将App名称作为搜索关键词,输入互联网搜索引擎API,得到搜索片段;
(1-2)App文档形成:对搜索片段进行过滤,合并剩下的搜索片段,形成App文档;
(1-3)App文档预处理:对App文档进行分词、去停用词、App名称删除等操作;
(2)构建基于浅层学习的App基分类器,过程如下:
(2-1)关键词词典构建:对所有App文档中涉及的词进行去重汇总,计算每个词对每个App类型的权重,保留权重最高的部分词作为关键词,形成关键词词典;
(2-2)特征向量计算:基于向量空间模型将每个App文档转化为一个向量,作为该App文档的特征向量;
(2-3)基分类器训练:采用人工神经网络训练基分类器;
(3)构建基于深度学习的App基分类器,过程如下:
(3-1)词向量训练:基于word2vec训练得到每个词的向量表示;
(3-2)基分类器训练:采用卷积神经网络训练基分类器;
(4)基于半监督学习技术对两个基分类器进行协同学习,并对学习结果进行融合得到最终App分类器,过程如下:
(4-1)复制样本集:为2个基分类器分别复制样本集;
(4-2)有监督训练:基于有标注样本集,分别训练浅层学习基分类器和深度学习基分类器,并评测2个基分类器的准确度;
(4-3)半监督训练:基于无标注样本集,对2个基分类器进行多轮协同训练;
(4-4)算法迭代:迭代终止条件满足时,输出2个基分类器,否则转向步骤(4-2);
(4-5)分类器融合:融合2个基分类器的识别结果,建立最终的App分类器。
进一步,所述步骤(2)中,处理过程如下:
(2-1)关键词词典构建:首先,对所有App文档中涉及的词进行去重汇总,得到词典W;然后,计算W中每个词对每个App类型的权重;计算W中第i个词wi对第j个App类型cj的权重w(i,j)如下公式,
其中n(i,j)为wi在cj对应的所有App文档中出现的次数,C为App类型的集合;最后,为每个App类型取权重最高的kn个词作为其关键词,则可得到kn×|C|个关键词,形成关键词词典KW;
(2-2)特征向量计算:将每个App文档d转化为一个|KW|维的向量vsm(d),其中vsm(d)的第i个分量代表KW中第i个关键词wi在d中的权重,计算方法如下公式;
其中m(i,d)为wi在d中出现的次数,D为App文档的集合。则vsm(d)即为d的特征向量;
(2-3)基分类器训练:基于有标注的App文档样本集L,采用人工神经网络训练基分类器SC。
再进一步,所述步骤(3)中,处理过程如下:
(3-1)词向量训练:将App文档集D作为语料库,采用word2vec进行词向量训练,设置词向量维度为k,则得到W中每个词对应的向量表示,词wi对应的向量表示为vi;
(3-2)基分类器训练:采用卷积神经网络训练基分类器,其网络结构如图3所示,对网络结构的解释如下:
输入层:将每个App文档处理成固定长度l,即固定包含l个词,并以词向量表示每个词,则每个App文档可被表示成一个l×k的矩阵,对长度大于l的App文档进行尾部截断,对长度小于l的App文档进行尾部填充全0向量;
卷积层:采用3种不同大小的窗口,分别为3×k、4×k、5×k,同一窗口大小设置100个卷积核,则每个卷积核会产生一个fl维的卷积特征向量(fl=l-2、l-3或l-4),共300个卷积特征向量;
池化层:采用Max-Pooling-Over-Time池化策略,即每个卷积特征向量只保留最大的那个值,拼接对所有卷积特征向量的池化结果得到一个300维的特征向量;
输出层:采用“全连接层+Softmax”作为输出层,全连接层中采用Dropout机制防止过拟合。
更进一步,所述步骤(4)中,给定有标注App文档样本集L和无标注App文档样本集U,对基分类器进行协同学习的过程如下:
(4-1)复制样本集:复制样本集L1=L2=L,U1=U2=U;
(4-2)有监督训练:基于L1,采用步骤(2)所述方法训练浅层学习基分类器SC;基于L2,采用步骤(3)所述方法训练深度学习基分类器DC,在此基础上,采用十折交叉验证评测SC和DC的准确度,记SC的准确度为PSC,DC的准确度为PDC;
(4-3)半监督训练:首先,采用基分类器SC对U2中所有样本进行识别,为每个App类型cj挑选出识别置信度最高的min(nSC(j),m×PSC)个样本,其中,nSC(j)为SC在U2中识别结果为cj的样本的数量,min(x,y)代表取x和y中较小的值,将识别结果作为其标注,得到伪标注样本集ESC并放入L2;然后,采用基分类器DC对U1中所有样本进行识别,为每个App类型挑选出识别置信度最高的min(nDC(j),m×PDC)个样本,其中,nDC(j)为DC在U1中识别结果为cj的样本的数量,将识别结果作为其标注,得到伪标注样本集EDC并放入L1;
(4-4)算法迭代:若U1和U2中样本数量均为0或迭代次数超过指定阈值,则输出SC和DC,反之,则转向步骤(4-2);
(4-5)分类器融合:对L中每一个样本,分别使用SC和DC对其进行识别,得到SC和DC识别其为每个App类型的概率,进而得到2个概率向量,其中,PSC(i,k)为SC识别样本i为App类型ck的概率,PDC(i,k)为DC识别样本i为App类型ck的概率;然后,将这2个概率向量的拼接和App类型标注作为新的样本,构建新的样本集NL;最后,基于NL、采用逻辑回归算法训练得到最终的App分类器FC。
本发明的有益效果主要表现在:仅依赖App名称建立App分类模型,利用少量有标注样本和大量无标注样本建立App分类模型;由于浅层学习模型和深度学习模型通常性能差异较大,该方法为协同学习过程设计了一种有倾斜的样本挑选方案,以减少无标注样本中噪声数据的影响。
附图说明
图1为集成浅层和深度学习的App分类方法流程图;
图2为基于互联网知识对App进行语义扩展示意图;
图3为App基分类器深度学习网络结构图;
图4为协同学习和分类器融合流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种集成浅层和深度学习的App分类方法,包括以下步骤:
(1)基于互联网知识对App进行语义扩展,过程如下:
(1-1)搜索片段获取:将App名称作为搜索关键词,输入互联网搜索引擎API,得到搜索片段;
(1-2)App文档形成:对搜索片段进行过滤,合并剩下的搜索片段,形成App文档;
(1-3)App文档预处理:对App文档进行分词、去停用词、App名称删除操作;
(2)构建基于浅层学习的App基分类器,过程如下:
(2-1)关键词词典构建:对所有App文档中涉及的词进行去重汇总,计算每个词对每个App类型的权重,保留权重最高的部分词作为关键词,形成关键词词典;
(2-2)特征向量计算:基于向量空间模型将每个App文档转化为一个向量,作为该App文档的特征向量;
(2-3)基分类器训练:采用人工神经网络训练基分类器;
(3)构建基于深度学习的App基分类器,过程如下:
(3-1)词向量训练:基于word2vec训练得到每个词的向量表示;
(3-2)基分类器训练:采用卷积神经网络训练基分类器;
(4)基于半监督学习技术对两个基分类器进行协同学习,并对学习结果进行融合得到最终App分类器,过程如下:
(4-1)复制样本集:为2个基分类器分别复制样本集;
(4-2)有监督训练:基于有标注样本集,分别训练浅层学习基分类器和深度学习基分类器,并评测2个基分类器的准确度;
(4-3)半监督训练:基于无标注样本集,对2个基分类器进行多轮协同训练;
(4-4)算法迭代:迭代终止条件满足时,输出2个基分类器,否则转向步骤(4-2);
(4-5)分类器融合:融合2个基分类器的识别结果,建立最终的App分类器。
进一步,所述步骤(2)中,处理过程如下:
(2-1)关键词词典构建:首先,对所有App文档中涉及的词进行去重汇总,得到词典W;然后,计算W中每个词对每个App类型的权重;计算W中第i个词wi对第j个App类型cj的权重w(i,j)如下公式,
其中n(i,j)为wi在cj对应的所有App文档中出现的次数,C为App类型的集合;最后,为每个App类型取权重最高的kn个词作为其关键词,则可得到kn×|C|个关键词,形成关键词词典KW;
(2-2)特征向量计算:将每个App文档d转化为一个|KW|维的向量vsm(d),其中vsm(d)的第i个分量代表KW中第i个关键词wi在d中的权重,计算方法如下公式;
其中m(i,d)为wi在d中出现的次数,D为App文档的集合。则vsm(d)即为d的特征向量;
(2-3)基分类器训练:基于有标注的App文档样本集L,采用人工神经网络训练基分类器SC。
再进一步,所述步骤(3)中,处理过程如下:
(3-1)词向量训练:将App文档集D作为语料库,采用word2vec进行词向量训练,设置词向量维度为k,则得到W中每个词对应的向量表示,词wi对应的向量表示为vi;
(3-2)基分类器训练:采用卷积神经网络训练基分类器,其网络结构如图3所示,对网络结构的解释如下:
输入层:将每个App文档处理成固定长度l,即固定包含l个词,并以词向量表示每个词,则每个App文档可被表示成一个l×k的矩阵,对长度大于l的App文档进行尾部截断,对长度小于l的App文档进行尾部填充全0向量;
卷积层:采用3种不同大小的窗口,分别为3×k、4×k、5×k,同一窗口大小设置100个卷积核,则每个卷积核会产生一个fl维的卷积特征向量(fl=l-2、l-3或l-4),共300个卷积特征向量;
池化层:采用Max-Pooling-Over-Time池化策略,即每个卷积特征向量只保留最大的那个值,拼接对所有卷积特征向量的池化结果得到一个300维的特征向量;
输出层:采用“全连接层+Softmax”作为输出层,全连接层中采用Dropout机制防止过拟合。
参照图4,所述步骤(4)中,给定有标注App文档样本集L和无标注App文档样本集U,对基分类器进行协同学习的过程如下:
(4-1)复制样本集:复制样本集L1=L2=L,U1=U2=U;
(4-2)有监督训练:基于L1,采用步骤(2)所述方法训练浅层学习基分类器SC;基于L2,采用步骤(3)所述方法训练深度学习基分类器DC,在此基础上,采用十折交叉验证评测SC和DC的准确度,记SC的准确度为PSC,DC的准确度为PDC;
(4-3)半监督训练:首先,采用基分类器SC对U2中所有样本进行识别,为每个App类型cj挑选出识别置信度最高的min(nSC(j),m×PSC)个样本,其中,nSC(j)为SC在U2中识别结果为cj的样本的数量,min(x,y)代表取x和y中较小的值,将识别结果作为其标注,得到伪标注样本集ESC并放入L2;然后,采用基分类器DC对U1中所有样本进行识别,为每个App类型挑选出识别置信度最高的min(nDC(j),m×PDC)个样本,其中,nDC(j)为DC在U1中识别结果为cj的样本的数量,将识别结果作为其标注,得到伪标注样本集EDC并放入L1;
(4-4)算法迭代:若U1和U2中样本数量均为0或迭代次数超过指定阈值,则输出SC和DC,反之,则转向步骤(4-2);
(4-5)分类器融合:对L中每一个样本,分别使用SC和DC对其进行识别,得到SC和DC识别其为每个App类型的概率,进而得到2个概率向量,其中,PSC(i,k)为SC识别样本i为App类型ck的概率,PDC(i,k)为DC识别样本i为App类型ck的概率;然后,将这2个概率向量的拼接和App类型标注作为新的样本,构建新的样本集NL;最后,基于NL、采用逻辑回归算法训练得到最终的App分类器FC。
Claims (4)
1.一种集成浅层和深度学习的App分类方法,其特征在于,所述方法包括以下步骤:
(1)基于互联网知识对App进行语义扩展,过程如下:
(1-1)搜索片段获取:将App名称作为搜索关键词,输入互联网搜索引擎API,得到搜索片段;
(1-2)App文档形成:对搜索片段进行过滤,合并剩下的搜索片段,形成App文档;
(1-3)App文档预处理:对App文档进行分词、去停用词、App名称删除等操作;
(2)构建基于浅层学习的App基分类器,过程如下:
(2-1)关键词词典构建:对所有App文档中涉及的词进行去重汇总,计算每个词对每个App类型的权重,保留权重最高的部分词作为关键词,形成关键词词典;
(2-2)特征向量计算:基于向量空间模型将每个App文档转化为一个向量,作为该App文档的特征向量;
(2-3)基分类器训练:采用人工神经网络训练基分类器;
(3)构建基于深度学习的App基分类器,过程如下:
(3-1)词向量训练:基于word2vec训练得到每个词的向量表示;
(3-2)基分类器训练:采用卷积神经网络训练基分类器;
(4)基于半监督学习技术对两个基分类器进行协同学习,并对学习结果进行融合得到最终App分类器,过程如下:
(4-1)复制样本集:为2个基分类器分别复制样本集;
(4-2)有监督训练:基于有标注样本集,分别训练浅层学习基分类器和深度学习基分类器,并评测2个基分类器的准确度;
(4-3)半监督训练:基于无标注样本集,对2个基分类器进行多轮协同训练;
(4-4)算法迭代:迭代终止条件满足时,输出2个基分类器,否则转向步骤(4-2);
(4-5)分类器融合:融合2个基分类器的识别结果,建立最终的App分类器。
2.如权利要求1所述的一种集成浅层和深度学习的App分类方法,其特征在于,所述步骤(2)中,处理过程如下:
(2-1)关键词词典构建:首先,对所有App文档中涉及的词进行去重汇总,得到词典W;然后,计算W中每个词对每个App类型的权重;计算W中第i个词wi对第j个App类型cj的权重w(i,j)如下公式,
其中n(i,j)为wi在cj对应的所有App文档中出现的次数,C为App类型的集合;最后,为每个App类型取权重最高的kn个词作为其关键词,则可得到kn×|C|个关键词,形成关键词词典KW;
(2-2)特征向量计算:将每个App文档d转化为一个|KW|维的向量vsm(d),其中vsm(d)的第i个分量代表KW中第i个关键词wi在d中的权重,计算方法如下公式;
其中m(i,d)为wi在d中出现的次数,D为App文档的集合。则vsm(d)即为d的特征向量;
(2-3)基分类器训练:基于有标注的App文档样本集L,采用人工神经网络训练基分类器SC。
3.如权利要求1或2所述的一种集成浅层和深度学习的App分类方法,其特征在于,所述步骤(3)中,处理过程如下:
(3-1)词向量训练:将App文档集D作为语料库,采用word2vec进行词向量训练,设置词向量维度为k,则得到W中每个词对应的向量表示,词wi对应的向量表示为vi;
(3-2)基分类器训练:采用卷积神经网络训练基分类器,其网络结构如图3所示,对网络结构的解释如下:
输入层:将每个App文档处理成固定长度l,即固定包含l个词,并以词向量表示每个词,则每个App文档可被表示成一个l×k的矩阵,对长度大于l的App文档进行尾部截断,对长度小于l的App文档进行尾部填充全0向量;
卷积层:采用3种不同大小的窗口,分别为3×k、4×k、5×k,同一窗口大小设置100个卷积核,则每个卷积核会产生一个fl维的卷积特征向量(fl=l-2、l-3或l-4),共300个卷积特征向量;
池化层:采用Max-Pooling-Over-Time池化策略,即每个卷积特征向量只保留最大的那个值,拼接对所有卷积特征向量的池化结果得到一个300维的特征向量;
输出层:采用“全连接层+Softmax”作为输出层,全连接层中采用Dropout机制防止过拟合。
4.如权利要求1或2所述的一种集成浅层和深度学习的App分类方法,其特征在于,所述步骤(4)中,给定有标注App文档样本集L和无标注App文档样本集U,对基分类器进行协同学习的过程如下:
(4-1)复制样本集:复制样本集L1=L2=L,U1=U2=U;
(4-2)有监督训练:基于L1,采用步骤(2)所述方法训练浅层学习基分类器SC;基于L2,采用步骤(3)所述方法训练深度学习基分类器DC,在此基础上,采用十折交叉验证评测SC和DC的准确度,记SC的准确度为PSC,DC的准确度为PDC;
(4-3)半监督训练:首先,采用基分类器SC对U2中所有样本进行识别,为每个App类型cj挑选出识别置信度最高的min(nSC(j),m×PSC)个样本,其中,nSC(j)为SC在U2中识别结果为cj的样本的数量,min(x,y)代表取x和y中较小的值,将识别结果作为其标注,得到伪标注样本集ESC并放入L2;然后,采用基分类器DC对U1中所有样本进行识别,为每个App类型挑选出识别置信度最高的min(nDC(j),m×PDC)个样本,其中,nDC(j)为DC在U1中识别结果为cj的样本的数量,将识别结果作为其标注,得到伪标注样本集EDC并放入L1;
(4-4)算法迭代:若U1和U2中样本数量均为0或迭代次数超过指定阈值,则输出SC和DC,反之,则转向步骤(4-2);
(4-5)分类器融合:对L中每一个样本,分别使用SC和DC对其进行识别,得到SC和DC识别其为每个App类型的概率,进而得到2个概率向量,其中,PSC(i,k)为SC识别样本i为App类型ck的概率,PDC(i,k)为DC识别样本i为App类型ck的概率;然后,将这2个概率向量的拼接和App类型标注作为新的样本,构建新的样本集NL;最后,基于NL、采用逻辑回归算法训练得到最终的App分类器FC。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811241145.5A CN109492678B (zh) | 2018-10-24 | 2018-10-24 | 一种集成浅层和深度学习的App分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811241145.5A CN109492678B (zh) | 2018-10-24 | 2018-10-24 | 一种集成浅层和深度学习的App分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492678A true CN109492678A (zh) | 2019-03-19 |
CN109492678B CN109492678B (zh) | 2021-11-23 |
Family
ID=65692598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811241145.5A Active CN109492678B (zh) | 2018-10-24 | 2018-10-24 | 一种集成浅层和深度学习的App分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492678B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647919A (zh) * | 2019-08-27 | 2020-01-03 | 华东师范大学 | 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统 |
CN110689081A (zh) * | 2019-09-30 | 2020-01-14 | 中国科学院大学 | 一种基于分歧学习的弱监督目标分类和定位方法 |
CN111106968A (zh) * | 2019-12-31 | 2020-05-05 | 国网山西省电力公司信息通信分公司 | 一种构建信息通信智能调度指挥沙盘的方法 |
CN112100386A (zh) * | 2020-11-12 | 2020-12-18 | 北京云真信科技有限公司 | 目标类型app的确定方法、电子设备和介质 |
CN112232436A (zh) * | 2020-11-04 | 2021-01-15 | 杭州智策略科技有限公司 | 一种融合集成决策树与层次注意力机制的可解释网络攻击检测方法 |
CN112506556A (zh) * | 2020-11-19 | 2021-03-16 | 杭州云深科技有限公司 | 应用程序分类方法、装置、计算机设备及存储介质 |
CN114374953A (zh) * | 2022-01-06 | 2022-04-19 | 西安交通大学 | 基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法及系统 |
CN116167781A (zh) * | 2023-04-26 | 2023-05-26 | 宗申·比亚乔佛山摩托车企业有限公司 | 基于人工智能的商品溯源数据处理方法及云平台 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502398A (zh) * | 2016-10-21 | 2017-03-15 | 浙江工业大学 | 一种基于加速度传感器和多视图集成学习的语义化活动识别方法 |
-
2018
- 2018-10-24 CN CN201811241145.5A patent/CN109492678B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502398A (zh) * | 2016-10-21 | 2017-03-15 | 浙江工业大学 | 一种基于加速度传感器和多视图集成学习的语义化活动识别方法 |
Non-Patent Citations (5)
Title |
---|
AVRIM BLUM等: "Combining labeled and unlabeled data with co-training", 《PROCEEDINGS OF THE 1998 CONFERENCE ON COMPUTATIONAL LEARNING THEORY》 * |
DAVID M. BLEI等: "Latent Dirichlet Allocation", 《JOURNAL OF MACHINE LEARNING RESEARCH》 * |
XUAN-HIEU PHAN等: "A Hidden Topic-based Framework towards Building Applications with Short Web Documents", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
YOON KIM: "Convolutional Neural Networks for Sentence Classification", 《ARXIV:1408.5882V2 [CS.CL]》 * |
邓攀晓: "基于机器学习的文本分类算法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647919A (zh) * | 2019-08-27 | 2020-01-03 | 华东师范大学 | 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统 |
CN110689081A (zh) * | 2019-09-30 | 2020-01-14 | 中国科学院大学 | 一种基于分歧学习的弱监督目标分类和定位方法 |
CN111106968A (zh) * | 2019-12-31 | 2020-05-05 | 国网山西省电力公司信息通信分公司 | 一种构建信息通信智能调度指挥沙盘的方法 |
CN112232436A (zh) * | 2020-11-04 | 2021-01-15 | 杭州智策略科技有限公司 | 一种融合集成决策树与层次注意力机制的可解释网络攻击检测方法 |
CN112100386A (zh) * | 2020-11-12 | 2020-12-18 | 北京云真信科技有限公司 | 目标类型app的确定方法、电子设备和介质 |
CN112506556A (zh) * | 2020-11-19 | 2021-03-16 | 杭州云深科技有限公司 | 应用程序分类方法、装置、计算机设备及存储介质 |
CN112506556B (zh) * | 2020-11-19 | 2023-08-25 | 杭州云深科技有限公司 | 应用程序分类方法、装置、计算机设备及存储介质 |
CN114374953A (zh) * | 2022-01-06 | 2022-04-19 | 西安交通大学 | 基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法及系统 |
CN114374953B (zh) * | 2022-01-06 | 2023-09-05 | 西安交通大学 | 基于Hadoop和RAPIDS的多源特征转换基站下APP使用预测方法及系统 |
CN116167781A (zh) * | 2023-04-26 | 2023-05-26 | 宗申·比亚乔佛山摩托车企业有限公司 | 基于人工智能的商品溯源数据处理方法及云平台 |
CN116167781B (zh) * | 2023-04-26 | 2023-06-30 | 宗申·比亚乔佛山摩托车企业有限公司 | 基于人工智能的商品溯源数据处理方法及云平台 |
Also Published As
Publication number | Publication date |
---|---|
CN109492678B (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492678A (zh) | 一种集成浅层和深度学习的App分类方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN110413986B (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN106844349B (zh) | 基于协同训练的垃圾评论识别方法 | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN107992531A (zh) | 基于深度学习的新闻个性化智能推荐方法与系统 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN108536870A (zh) | 一种融合情感特征和语义特征的文本情感分类方法 | |
CN105205163B (zh) | 一种科技新闻的增量学习多层次二分类方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN113962293A (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
Bhutada et al. | Semantic latent dirichlet allocation for automatic topic extraction | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 | |
CN115934951A (zh) | 一种网络热点话题用户情绪预测方法 | |
Li et al. | bi-hptm: An effective semantic matchmaking model for web service discovery | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN113076425A (zh) | 一种用于微博评论的事件相关观点句分类方法 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
Wang et al. | Sentiment classification based on weak tagging information and imbalanced data | |
CN109117436A (zh) | 基于主题模型的同义词自动发现方法及其系统 | |
CN113516202A (zh) | Cbl特征提取与去噪的网页精准分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |