CN109784368A - 一种应用程序分类的确定方法和装置 - Google Patents
一种应用程序分类的确定方法和装置 Download PDFInfo
- Publication number
- CN109784368A CN109784368A CN201811513648.3A CN201811513648A CN109784368A CN 109784368 A CN109784368 A CN 109784368A CN 201811513648 A CN201811513648 A CN 201811513648A CN 109784368 A CN109784368 A CN 109784368A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- target
- model
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种应用程序分类的确定方法和装置,该方法包括:获取待分类应用程序;利用预先确定的应用分类模型,生成对待分类应用程序的分类信息,应用分类模型是根据目标标注数据分类训练得到的二级分类模型,目标标注数据是根据多个历史数据利用主动学习策略确定的数据;输出分类信息。因此,通过主动学习策略,精确获取标注数据,降低人工标注的精力投入,并且进行二级分类获取对应用程序更详尽的分类信息,进一步提升分类信息的准确性。
Description
技术领域
本申请涉及机器学习技术领域,特别是涉及一种应用程序分类的确定方法和装置。
背景技术
随着应用程序的日益丰富,对于应用的分类也显得十分必要,现有的分类方法主要有两种:一是关键词分类方法,这种分类方法较为粗糙;另外一种是单一的机器学习模型分类,相比关键词分类方法有所提升,但是对于一些标签相似度较高的分类预测的精确度很低。且一般在做分类模型训练时通常还存在的问题在于:首先是标注样本量过少导致模型效果较差,其次是由于训练集中数据量较大,需要耗费大量的计算机和人力资源进行数据的标注和计算。
发明内容
鉴于上述问题,本申请实施例提供一种应用程序分类的确定方法,能够解决现有技术中的精确度低且人力和计算机资源耗费较大的问题。
相应的,本申请实施例还提供了一种应用程序分类的确定装置,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种应用程序分类的确定方法,所述方法包括:
获取待分类应用程序;
利用预先确定的应用分类模型,生成对所述待分类应用程序的分类信息,所述应用分类模型是根据目标标注数据分类训练得到的二级分类模型,所述目标标注数据是根据多个历史数据利用主动学习策略确定的数据;
输出所述分类信息。
相应的,本申请实施例还公开了一种应用程序分类的确定装置,所述装置包括:
程序获取模块,用于获取待分类应用程序;
信息生成模块,用于利用预先确定的应用分类模型,生成对所述待分类应用程序的分类信息,所述应用分类模型是根据目标标注数据分类训练得到的二级分类模型,所述目标标注数据是根据多个历史数据利用主动学习策略确定的数据;
信息输出模块,用于输出所述分类信息。
本申请实施例还提供一种装置,包括处理器以及存储器,其中,
所述处理器执行所述存储器所存放的计算机程序代码,以实现本申请所述的应用程序分类的确定方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现本申请所述的应用程序分类的确定方法的步骤。
本申请实施例包括以下优点:
获取待分类应用程序;利用预先确定的应用分类模型,生成对所述待分类应用程序的分类信息,所述应用分类模型是根据目标标注数据分类训练得到的二级分类模型,所述目标标注数据是根据多个历史数据利用主动学习策略确定的数据;输出所述分类信息。因此,通过主动学习策略,精确获取标注数据,降低人工标注的精力投入,并且进行二级分类获取对应用程序更详尽的分类信息,进一步提升分类信息的准确性。
附图说明
图1是本申请的一种应用程序分类的确定方法实施例的步骤流程图;
图2是本申请的一种应用程序分类的确定方法实施例的步骤流程图;
图3是本申请的一种应用程序分类的确定方法可选实施例的步骤流程图;
图4是本申请的一种应用程序分类的确定方法可选实施例的步骤流程图;
图5是本申请的一种应用程序分类的确定方法可选实施例的步骤流程图;
图6是本申请的一种应用程序分类的确定装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请的一种应用程序分类的确定方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,获取待分类应用程序。
由于现有的分类方法通常使用关键词进行分类,但不同类别的APP往往含有相同的关键词,会有非常高的误判率,例如:交友和婚恋两个分类往往都包含关键词“交友”、“社交”,而借贷和银行应用两个应用程序的分类都包含关键词“借款”等等。因此,本申请提供了一种能够获取应用程序的详细分类信息的方法。
示例地,待分类应用程序可以是任意研发进入应用商店的应用程序,需要根据实际的待分类应用程序进行分类,并归类至对应的应用商店内的类别中,便于用户选择适合的应用程序,节约时间,有针对性的下载所需的应用程序安装包,实现对应用商店的有效规划和管理。
步骤102,利用预先确定的应用分类模型,生成对待分类应用程序的分类信息。
其中,应用分类模型根据目标标注数据分类训练得到的二级分类模型,目标标注数据是根据多个历史数据利用主动学习策略确定的数据。
示例地,历史数据可以是通过公开网络爬取的各类应用程序(APP)所获取到的信息数据,其中可以包含APP的ID、APP名称、APP描述、应用商店预定义的APP分类等信息。进而基于这些现有的历史数据信息,通过主动学习策略,采集到高质量的标注数据进行分类模型的训练,以获取能够对应用进行二级分类的应用分类模型。需要说明的是,APP的二级分类包括:例如APP的一级分类可以包括:影音播放、金融、生活、商务等,而在每个一级分类下,还可以进行进一步的细分也就是二级分类,如影音播放下的二级分类可以细化为视频播放、直播、音频播放等,金融分类下的二级分类可以包括银行应用、理财应用、XX宝等。本申请提出的技术方案能够依据自定义的APP描述文本、APP分类将待分类应用程序归类至准确的分类下,便于用户在应用商店中进行查找和获取。
其中,主动学习(active learning)是机器学习的一个子领域,在统计学领域也叫查询学习、最优实验设计,主动学习策略是首先通过选择策略主动从未标注的样本集中挑选部分(1个或N个)样本让相关领域的专家进行标注,一般为人工标注;然后将标注过的样本作为训练数据集进行学习模型的训练,当学习模型满足终止条件时即可结束训练过程,否则不断重复上述过程获得更多的标注样本进行训练,以获取精确的学习模型。
示例地,以二分类图像识别为例,定义U={Ci},i∈[1,n]为备选样本集,也就是n张未标注的图像,表示每张图像都包含m个patch(图块),这里的patch可以是对每张图像进行平移、旋转、缩放等操作生成的。主动学习策略的完整操作过程如下:
对每个Ci,用一个预分类器M0预测集合中的patches,得到预测概率pi。计算pi的均值,大于0.5,选择pi中概率最高的α%数量的patches放入Si,否则选择概率最低的α%数量的patches放入Si。然后根据公式计算Ri:
其中,
按照Ri的和对备选样本所有的图像进行排序,选择其中最高的b张图像进行标记。
以步骤2中标记的b张图像作为训练集训练一个分类器M1,并以M1作为预分类器对剩下的未标注图像重复上述步骤。
直至以下情况之一出现时主动学习的过程停止:人工标注成本用尽;当前分类器对挑选出来的b张图像的预测完全正确;挑选出来的b张图像人工也无法分类,此时确定的主动学习模型的分类器满足训练停止条件,可以应用在实际二分类领域中。
本申请利用主动学习策略以获取高质量的样本数据,进行分类模型的训练,通过主动学习策略在海量的已获取到的信息中筛选出质量最优的数据,以提升分类模型的训练效果。
步骤103,输出分类信息。
示例地,当确定了待分类应用程序的分类信息之后,例如再通过人工验证识别之后,作为应用商店中对待分类应用程序的分类,并且还可以根据该分类信息确定该待分类应用程序对应的人群画像,有针对性的进行该待分类应用程序的推广和使用。
综上所述,本申请实施例提供的应用程序分类的确定方法,获取待分类应用程序;利用预先确定的应用分类模型,生成对待分类应用程序的分类信息,应用分类模型是根据目标标注数据分类训练得到的二级分类模型,目标标注数据是根据多个历史数据利用主动学习策略确定的数据;输出分类信息。因此,通过主动学习策略,精确获取标注数据,降低人工标注的精力投入,并且进行二级分类获取对应用程序更详尽的分类信息,进一步提升分类信息的准确性。
参照图2,示出了本申请的一种应用程序分类的确定方法可选实施例的步骤流程图,该方法在步骤102之前还包括如下步骤:
步骤104,根据待标注数据,利用主动学习策略进行迭代训练,以筛选出目标标注数据。
其中,待标注数据包括具有预设数据格式的多个历史数据,目标标注数据是待标注数据中符合标注要求的数据。
在具体应用中,利用主动学习策略进行目标标注数据的筛选时,可以以空的标注数据集开始,不断的通过筛选获取有价值的数据,例如是信息量足够多的数据,再进行标注之后将其加入数据训练集中,快速的找到训练样本数量的临界点。
例如,首先利用空的标注数据集开始主动学习策略,之后每次训练都对应筛选出预设数量的数据,例如预设是在10000个数据中选择前1000个数据;再将这1000个数据标注,作为训练数据集再次开启学习过程,重新获取到剩余的9000个数据中的前1000个数据,标注后再作为训练数据集进行学习过程,直至符合训练结束条件,也就是学习模型预测出来的结果完全正确,则结束整个迭代训练过程,将此时10000个数据中的已选择标注的数据作为目标标注数据。
步骤105,对目标标注数据进行预处理,以获取符合分类学习格式的学习样本数据。
示例地,对目标标注数据进行预处理,剔除无效词,停用词等,以进一步提升样本数据的质量。
首先进行中文字符的分词,之后再剔除停止词、低频词、符号等对预测无意义且会影响预测精确度的中文字符;最终将样本数据转换成可计算的向量特征,作为学习样本数据进行分类模型的训练。
步骤106,根据学习样本数据,对预设的分类模型进行训练,以生成应用分类模型。
示例地,可以采用朴素贝叶斯分类模型,其基本原则是假设某个体有n项特征,分别为F1、F2、...、Fn,有m个类别,分别为C1、C2、...、Cm,通过朴素贝叶斯分类模型就是计算出概率最大的那个分类,对应确定为该个体的分类,同时本申请利用集成学习的方式,定义一级分类和二级分类,建立一个一级分类学习的分类模型,然后对每个一级分类下的二级分类分别在建立一个二级分类模型,在预测时将这些分类模型整合使用,有效提升APP分类的精确度。其他能够实现分类的模型均可以应用于本申请的技术方案中,本申请不做具体限制。
此外需要说明的是,对于应用分类模型的确定步骤可以在步骤101之前也可以在步骤102之前,也就是在确定待分类模型的分类信息之前,需要确定应用分类模型,以生成对应的分类信息。
参照图3,示出了本申请的一种应用程序分类的确定方法可选实施例的步骤流程图,步骤104所述的根据待标注数据,利用主动学习策略进行迭代训练,以筛选出目标标注数据,包括如下步骤:
步骤1041,获取字符串格式的待标注数据。
示例地,对于APP进行分类时,采用中文字符的字符串格式的待标注数据,同时还可以设置对于数据质量增强过程中需要挑选的patches集的比例以及要预测的标签类别数。
步骤1042,利用预先确定的初始分类模型,对待标注数据进行预测,以获取待标注数据中的目标数据。
其中,目标数据是待标注数据中信息量符合第一阈值的N个数据,N为大于零的正整数。
示例地,利用一个预先训练的分类模型作为初始分类模型(可以是现存的分类器)对待标注数据10000个未标注的数据进行预测,也就是采用空的标注数据集进行预测后计算所有待标注数据的信息量,选择其中信息量最大的N=1000个数据进行标注,作为待标注数据中的目标数据,也就是设置第一阈值为10000个数据中前1000个数据的信息量,以对10000个数据进行筛选。
步骤1043,根据初始分类模型,利用目标数据,获取第一训练模型。
示例地,利用步骤1042中标注好的1000个目标数据训练一个新的分类模型,第一训练模型,以对待标注数据中剩余的9000个未标注的数据进行预测。
步骤1044,利用第一训练模型对第一数据进行预测,以获取第一数据中的目标数据。
其中,第一数据是待标注数据中除了待标注数据中的目标数据之外的数据,第一数据中的目标数据是第一数据中信息量符合第二阈值的N个数据。
示例地,利用1000个目标数据训练出来的第一训练模型,进一步对剩余的第一数据进行预测,重新进行一次主动学习,以获取目标数据,类似于步骤1042,选择9000个第一数据中的信息量最大的1000个数据作为目标数据,以进行标注,第二阈值的选取选择参见步骤1042所述,此处不再赘述。
步骤1045,根据初始分类模型,利用待标注数据中的目标数据和第一数据中的目标数据,获取第二训练模型。
示例地,利用步骤1042和步骤1044中标注好的2000个目标数据训练新的分类模型,作为第二训练模型,以对剩余的8000个待标注数据进行预测。
步骤1046,利用第二训练模型对第二数据进行预测,以获取第二数据中的目标数据。
其中,第二数据中的目标数据是第二数据中信息量符合第三阈值的N个数据,第二数据是第一数据中除了第一数据的目标数据之外的数据。
示例地,根据第二训练模型对8000个未标注的数据进行预测,之后计算这8000个数据的信息量,选择第二数据中信息量最大的1000个数据作为目标数据,进行人工标注,重复第二次主动学习的过程。
步骤1047,重复执行步骤1042-步骤1046的操作,直至第二训练模型符合训练停止条件。
示例地,重复上述步骤直至最后一次训练的第二训练模型对剩余未标注的数据预测完全正确或者剩余未标注的数据人工无法标记(如须标注图片是黑色或者白色但是剩余的图片全都是灰色的)的时候,即满足训练停止条件,可以停止迭代过程。
步骤1048,在第二训练模型符合训练停止条件的情况下,将在重复执行步骤之前所确定的所有目标数据作为目标标注数据。
也就是说,通过上述重复步骤(步骤1047)之前从10000个数据中选出了多个已经标注的数据,作为目标标注数据,这里的多个已经标注的数据的数量是依赖于停止迭代时已经完成的主动学习次数而变化的,例如重复了4次主动学习之后停止的迭代那么已标注数据总量就是3*N=3000,也就是从10000个数据中选出了3000个信息量最大的数据,而用这3000个数据训练出的分类模型可以达到和数据总量为10000个的数据训练出的分类模型相同的效果。因此,能够大幅降低标注成本,本来需要标注10000个数据才能训练分类模型,此时只需要标注3000个数据就可以训练分类模型,有效降低人工成本。
参照图4,示出了本申请的一种应用程序分类的确定方法可选实施例的步骤流程图,步骤105所述的对目标标注数据进行预处理,以获取符合分类学习格式的学习样本数据,包括如下步骤:
步骤1051,根据预设的停用词词库和自定义词库,对目标标注数据进行低频词剔除。
步骤1052,将剔除低频词的目标标注数据转换为符合分类学习格式的数据,作为学习样本数据。
示例地,基于停用词词库和自定义词库,对目标标注数据的中文字符进行分词,并统计每个词出现的频率,根据提前设定的阈值剔除低频词,并将文本数据存成之后的分类学习策略训练所需要的格式,例如使用朴素贝叶斯分类策略,则需要输入的数据格式是pandas dateframe。
同时还可以设置好模块参数:是否过滤中文字符、是否按词性过滤分词结果、需要分词的列名、标签列名等,以获取高质量的学习样本数据。
参照图5,示出了本申请的一种应用程序分类的确定方法实施例的步骤流程图,步骤106所述的根据学习样本数据,对预设的分类模型进行训练,以生成应用分类模型,包括如下步骤:
步骤1061,通过对学习样本数据进行i个类别的分类,对分类模型进行训练,以获取第一分类模型。
示例地,将利用之前步骤所确定的学习样本数据分成i个一级类别,进而对预设的分类模型,例如是fastText/朴素贝叶斯分类模型进行训练,得到一个可以对应用程序进行一级分类的第一分类模型,例如将应用程序分类为影音播放、金融、生活以及商务等类别。
步骤1062,通过在i个类别的分类下对学习样本数据进行j个子类别的分类,对分类模型进行训练,以获取i个第二分类模型。
示例地,将步骤1061确定的i个类别中的每个类别再次进行分类,也就是二级分类,将学习样本数据再次分割成j个子类别,同样可以基于fastText/朴素贝叶斯分类模型,进行训练得到i个第二分类模型,例如分别将影音播放分类成视频播放、直播、音频播放等子类;将生活分成出行交通、酒店、网络购物等子类,学习样本数据在i个类别基础上,又被分为j个子类别,进一步细化分类信息。
步骤1063,将第一分类模型和i个第二分类模型作为应用分类模型。
其中,i,j均为大于零的正整数。
也就是说,最终的应用分类模型包括一个第一分类模型和i个第二分类模型,实现对待分类应用程序的二级分类。
示例地,通过集成的分类训练方式,获取到该应用分类模型,而对待分类应用程序进行分类信息的确定时,利用该分类应用模型首先进行一级分类,利用第一分类模型例如可以确定待分类应用程序属于金融类别(一级类别);再利用金融类别对应的子分类器第二分类模型,对该待分类应用程序进行二级分类,确定其二级分类信息为银行子类。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图6,示出了本申请的一种应用程序分类的确定装置实施例的结构框图,具体可以包括如下模块:
程序获取模块610,用于获取待分类应用程序。
信息生成模块620,用于利用预先确定的应用分类模型,生成对待分类应用程序的分类信息,应用分类模型是根据目标标注数据分类训练得到的二级分类模型,目标标注数据是根据多个历史数据利用主动学习策略确定的数据。
信息输出模块630,用于输出分类信息。
可选的,该装置600还包括:
数据确定模块,用于在利用预先确定的应用分类模型,确定待分类应用程序的分类信息之前,根据待标注数据,利用主动学习策略进行迭代训练,以筛选出目标标注数据,待标注数据包括具有预设数据格式的多个历史数据,目标标注数据是待标注数据中符合标注要求的数据。
数据预处理模块,用于对目标标注数据进行预处理,以获取符合分类学习格式的学习样本数据。
模型生成模块,用于根据学习样本数据,对预设的分类模型进行训练,以生成应用分类模型。
在本申请的一个可选实施例中,数据确定模块,包括如下子模块:
数据获取子模块,用于获取字符串格式的待标注数据;
数据预测子模块,用于利用预先确定的初始分类模型,对待标注数据进行预测,以获取待标注数据中的目标数据,目标数据是待标注数据中信息量符合第一阈值的N个数据。
模型训练子模块,用于根据初始分类模型,利用目标数据,获取第一训练模型。
数据预测子模块,还用于利用第一训练模型对第一数据进行预测,以获取第一数据中的目标数据,该第一数据是待标注数据中除了待标注数据中的目标数据之外的数据,目标数据是第一数据中信息量符合第二阈值的N个数据。
模型训练子模块,还用于根据初始分类模型,利用待标注数据中的目标数据和第一数据中的目标数据,获取第二训练模型。
数据预测子模块,还用于利用第二训练模型对第二数据进行预测,以获取第二数据中的目标数据。
该目标数据是第二数据中信息量符合第三阈值的N个数据,第二数据是第一数据中除了第一数据的目标数据之外的数据。
重复执行子模块,用于重复执行利用预先确定的初始分类模型,对待标注数据进行预测,以获取待标注数据中的目标数据的步骤至利用第二训练模型对第二数据进行预测,以获取第二数据中的目标数据的步骤,直至第二训练模型符合训练停止条件。
数据确定子模块,用于在第二训练模型符合训练停止条件的情况下,将在重复执行步骤之前所确定的所有目标数据作为目标标注数据;
其中,N为大于零的正整数。
可选的,数据预处理模块,包括:
低频次剔除子模块,用于根据预设的停用词词库和自定义词库,对目标标注数据进行低频词剔除;
数据转换子模块,用于将剔除低频词的目标标注数据转换为符合分类学习格式的数据,作为学习样本数据。
在本申请的一个可选实施例中,该模型生成模块,包括如下子模块:
第一分类子模块,用于通过对学习样本数据进行i个类别的分类,对分类模型进行训练,以获取第一分类模型;
第二分类子模块,用于通过在i个类别的分类下对学习样本数据进行j个子类别的分类,对分类模型进行训练,以获取i个第二分类模型;
模型生成子模块,用于将第一分类模型和i个第二分类模型作为应用分类模型;
其中,i,j均为大于零的正整数。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端设备时,可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种应用程序分类的确定方法,其特征在于,所述方法包括:
获取待分类应用程序;
利用预先确定的应用分类模型,生成对所述待分类应用程序的分类信息,所述应用分类模型是根据目标标注数据分类训练得到的二级分类模型,所述目标标注数据是根据多个历史数据利用主动学习策略确定的数据;
输出所述分类信息。
2.根据权利要求1所述的方法,其特征在于,所述方法在所述利用预先确定的应用分类模型,生成所述待分类应用程序的分类信息之前,还包括:
根据待标注数据,利用所述主动学习策略进行迭代训练,以筛选出所述目标标注数据,所述待标注数据包括具有预设数据格式的所述多个历史数据,所述目标标注数据是所述待标注数据中符合标注要求的数据;
对所述目标标注数据进行预处理,以获取符合分类学习格式的学习样本数据;
根据所述学习样本数据,对预设的分类模型进行训练,以生成所述应用分类模型。
3.根据权利要求2所述的方法,其特征在于,所述根据待标注数据,基于对主动学习策略进行迭代训练,以筛选出所述目标标注数据,包括:
获取字符串格式的所述待标注数据;
利用预先确定的初始分类模型,对所述待标注数据进行预测,以获取所述待标注数据中的目标数据,所述目标数据是所述待标注数据中信息量符合第一阈值的N个数据;
根据所述初始分类模型,利用所述目标数据,获取第一训练模型;
利用所述第一训练模型对所述第一数据进行预测,以获取所述第一数据中的目标数据,所述第一数据是所述待标注数据中除了所述待标注数据中的目标数据之外的数据,所述第一数据中的目标数据是所述第一数据中信息量符合第二阈值的N个数据;
根据所述初始分类模型,利用所述待标注数据中的目标数据和所述第一数据中的目标数据,获取第二训练模型;
利用所述第二训练模型对第二数据进行预测,以获取所述第二数据中的目标数据,所述第二数据中的目标数据是所述第二数据中信息量符合第三阈值的N个数据,所述第二数据是所述第一数据中除了所述第一数据的目标数据之外的数据;
重复执行所述利用预先确定的初始分类模型,对所述待标注数据进行预测,以获取所述待标注数据中的目标数据的步骤至所述利用所述第二训练模型对第二数据进行预测,以获取所述第二数据中的目标数据的步骤,直至所述第二训练模型符合训练停止条件;
在所述第二训练模型符合所述训练停止条件的情况下,将在所述重复执行步骤之前所确定的所有目标数据作为所述目标标注数据;
其中,N为大于零的正整数。
4.根据权利要求2所述的方法,其特征在于,所述对所述目标标注数据进行预处理,以获取符合分类学习格式的学习样本数据,包括:
根据预设的停用词词库和自定义词库,对所述目标标注数据进行低频词剔除;
将剔除低频词的所述目标标注数据转换为符合所述分类学习格式的数据,作为所述学习样本数据。
5.根据权利要求2所述的方法,其特征在于,所述根据所述学习样本数据,对预设的分类模型进行训练,生成所述应用分类模型,包括:
通过对所述学习样本数据进行i个类别的分类,对所述分类模型进行训练,以获取第一分类模型;
通过在所述i个类别的分类下对所述学习样本数据进行j个子类别的分类,对所述分类模型进行训练,以获取i个第二分类模型;
将所述第一分类模型和所述i个第二分类模型作为所述应用分类模型;
其中,i,j均为大于零的正整数。
6.一种应用程序分类的确定装置,其特征在于,所述方法包括:
程序获取模块,用于获取待分类应用程序;
信息生成模块,用于利用预先确定的应用分类模型,生成对所述待分类应用程序的分类信息,所述应用分类模型是根据目标标注数据分类训练得到的二级分类模型,所述目标标注数据是根据多个历史数据利用主动学习策略确定的数据;
信息输出模块,用于输出所述分类信息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
数据确定模块,用于在所述利用预先确定的应用分类模型,确定所述待分类应用程序的分类信息之前,根据待标注数据,利用所述主动学习策略进行迭代训练,以筛选出所述目标标注数据,所述待标注数据包括具有预设数据格式的所述多个历史数据,所述目标标注数据是所述待标注数据中符合标注要求的数据;
数据预处理模块,用于对所述目标标注数据进行预处理,以获取符合分类学习格式的学习样本数据;
模型生成模块,用于根据所述学习样本数据,对预设的分类模型进行训练,以生成所述应用分类模型。
8.根据权利要求7所述的装置,其特征在于,所述数据确定模块,包括:
数据获取子模块,用于获取字符串格式的所述待标注数据;
数据预测子模块,用于利用预先确定的初始分类模型,对所述待标注数据进行预测,以获取所述待标注数据中的目标数据,所述目标数据是所述待标注数据中信息量符合第一阈值的N个数据;
模型训练子模块,用于根据所述初始分类模型,利用所述目标数据,获取第一训练模型;
所述数据预测子模块,还用于利用所述第一训练模型对所述第一数据进行预测,以获取所述第一数据中的目标数据,所述第一数据是所述待标注数据中除了所述待标注数据中的目标数据之外的数据,所述第一数据中的目标数据是所述第一数据中信息量符合第二阈值的N个数据;
所述模型训练子模块,还用于根据所述初始分类模型,利用所述待标注数据中的目标数据和所述第一数据中的目标数据,获取第二训练模型;
所述数据预测子模块,还用于利用所述第二训练模型对第二数据进行预测,以获取所述第二数据中的目标数据,所述第二数据中的目标数据是所述第二数据中信息量符合第三阈值的N个数据,所述第二数据是所述第一数据中除了所述第一数据的目标数据之外的数据;
重复执行子模块,用于重复执行所述利用预先确定的初始分类模型,对所述待标注数据进行预测,以获取所述待标注数据中的目标数据的步骤至所述利用所述第二训练模型对第二数据进行预测,以获取所述第二数据中的目标数据的步骤,直至所述第二训练模型符合训练停止条件;
数据确定子模块,用于在所述第二训练模型符合所述训练停止条件的情况下,将在所述重复执行步骤之前所确定的所有目标数据作为所述目标标注数据;
其中,N为大于零的正整数。
9.根据权利要求7所述的装置,其特征在于,所述数据预处理模块,包括:
低频次剔除子模块,用于根据预设的停用词词库和自定义词库,对所述目标标注数据进行低频词剔除;
数据转换子模块,用于将剔除低频词的所述目标标注数据转换为符合所述分类学习格式的数据,作为所述学习样本数据。
10.根据权利要求7所述的装置,其特征在于,所述模型生成模块,包括:
第一分类子模块,用于通过对所述学习样本数据进行i个类别的分类,对所述分类模型进行训练,以获取第一分类模型;
第二分类子模块,用于通过在所述i个类别的分类下对所述学习样本数据进行j个子类别的分类,对所述分类模型进行训练,以获取i个第二分类模型;
模型生成子模块,用于将所述第一分类模型和所述i个第二分类模型作为所述应用分类模型;
其中,i,j均为大于零的正整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811513648.3A CN109784368A (zh) | 2018-12-11 | 2018-12-11 | 一种应用程序分类的确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811513648.3A CN109784368A (zh) | 2018-12-11 | 2018-12-11 | 一种应用程序分类的确定方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109784368A true CN109784368A (zh) | 2019-05-21 |
Family
ID=66495841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811513648.3A Pending CN109784368A (zh) | 2018-12-11 | 2018-12-11 | 一种应用程序分类的确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109784368A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110910864A (zh) * | 2019-10-24 | 2020-03-24 | 深圳追一科技有限公司 | 训练样本的选取方法、装置、计算机设备和存储介质 |
CN111190635A (zh) * | 2020-01-03 | 2020-05-22 | 拉扎斯网络科技(上海)有限公司 | 确定应用程序的特征数据的方法、装置、设备及存储介质 |
CN111400617A (zh) * | 2020-06-02 | 2020-07-10 | 四川大学 | 基于主动学习的社交机器人检测数据集扩展方法及系统 |
CN111782905A (zh) * | 2020-06-29 | 2020-10-16 | 中国工商银行股份有限公司 | 一种数据组包方法和装置、终端设备和可读存储介质 |
CN111797239A (zh) * | 2020-09-08 | 2020-10-20 | 中山大学深圳研究院 | 应用程序的分类方法、装置及终端设备 |
CN114818987A (zh) * | 2022-06-20 | 2022-07-29 | 中山大学深圳研究院 | 一种科技服务数据的处理方法、装置以及系统 |
CN116304058A (zh) * | 2023-04-27 | 2023-06-23 | 云账户技术(天津)有限公司 | 企业负面信息的识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163285A (zh) * | 2011-03-09 | 2011-08-24 | 北京航空航天大学 | 一种基于主动学习的跨域视频语义概念检测方法 |
CN103679269A (zh) * | 2013-12-05 | 2014-03-26 | 河海大学 | 基于主动学习的分类器样本选择方法及其装置 |
CN104462614A (zh) * | 2015-01-14 | 2015-03-25 | 苏州大学 | 一种基于网络数据的主动学习方法及装置 |
CN104820703A (zh) * | 2015-05-12 | 2015-08-05 | 武汉数为科技有限公司 | 一种文本精细分类方法 |
CN107025095A (zh) * | 2016-01-29 | 2017-08-08 | 宇龙计算机通信科技(深圳)有限公司 | 一种对终端上的应用进行分类的方法、装置及终端 |
CN107169049A (zh) * | 2017-04-25 | 2017-09-15 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法及装置 |
-
2018
- 2018-12-11 CN CN201811513648.3A patent/CN109784368A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163285A (zh) * | 2011-03-09 | 2011-08-24 | 北京航空航天大学 | 一种基于主动学习的跨域视频语义概念检测方法 |
CN103679269A (zh) * | 2013-12-05 | 2014-03-26 | 河海大学 | 基于主动学习的分类器样本选择方法及其装置 |
CN104462614A (zh) * | 2015-01-14 | 2015-03-25 | 苏州大学 | 一种基于网络数据的主动学习方法及装置 |
CN104820703A (zh) * | 2015-05-12 | 2015-08-05 | 武汉数为科技有限公司 | 一种文本精细分类方法 |
CN107025095A (zh) * | 2016-01-29 | 2017-08-08 | 宇龙计算机通信科技(深圳)有限公司 | 一种对终端上的应用进行分类的方法、装置及终端 |
CN107169049A (zh) * | 2017-04-25 | 2017-09-15 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法及装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110910864A (zh) * | 2019-10-24 | 2020-03-24 | 深圳追一科技有限公司 | 训练样本的选取方法、装置、计算机设备和存储介质 |
CN111190635A (zh) * | 2020-01-03 | 2020-05-22 | 拉扎斯网络科技(上海)有限公司 | 确定应用程序的特征数据的方法、装置、设备及存储介质 |
CN111190635B (zh) * | 2020-01-03 | 2021-10-29 | 拉扎斯网络科技(上海)有限公司 | 确定应用程序的特征数据的方法、装置、设备及存储介质 |
CN111400617A (zh) * | 2020-06-02 | 2020-07-10 | 四川大学 | 基于主动学习的社交机器人检测数据集扩展方法及系统 |
CN111782905A (zh) * | 2020-06-29 | 2020-10-16 | 中国工商银行股份有限公司 | 一种数据组包方法和装置、终端设备和可读存储介质 |
CN111782905B (zh) * | 2020-06-29 | 2024-02-09 | 中国工商银行股份有限公司 | 一种数据组包方法和装置、终端设备和可读存储介质 |
CN111797239A (zh) * | 2020-09-08 | 2020-10-20 | 中山大学深圳研究院 | 应用程序的分类方法、装置及终端设备 |
CN114818987A (zh) * | 2022-06-20 | 2022-07-29 | 中山大学深圳研究院 | 一种科技服务数据的处理方法、装置以及系统 |
CN114818987B (zh) * | 2022-06-20 | 2022-11-08 | 中山大学深圳研究院 | 一种科技服务数据的处理方法、装置以及系统 |
CN116304058A (zh) * | 2023-04-27 | 2023-06-23 | 云账户技术(天津)有限公司 | 企业负面信息的识别方法、装置、电子设备及存储介质 |
CN116304058B (zh) * | 2023-04-27 | 2023-08-08 | 云账户技术(天津)有限公司 | 企业负面信息的识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109784368A (zh) | 一种应用程序分类的确定方法和装置 | |
CN109934293A (zh) | 图像识别方法、装置、介质及混淆感知卷积神经网络 | |
Naranjo-Alcazar et al. | Acoustic scene classification with squeeze-excitation residual networks | |
CN103226948B (zh) | 一种基于声学事件的音频场景识别方法 | |
CN108932950A (zh) | 一种基于标签扩增与多频谱图融合的声音场景识别方法 | |
CN106651057A (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN114067107A (zh) | 基于多粒度注意力的多尺度细粒度图像识别方法及系统 | |
CN104881675A (zh) | 一种视频场景的识别方法和装置 | |
CN103294817A (zh) | 一种基于类别分布概率的文本特征抽取方法 | |
CN110288007A (zh) | 数据标注的方法、装置及电子设备 | |
CN110070115A (zh) | 一种单像素攻击样本生成方法、装置、设备及存储介质 | |
CN109271523A (zh) | 一种基于信息检索的政府公文主题分类方法 | |
CN107229614A (zh) | 用于分类数据的方法和装置 | |
CN109948160A (zh) | 短文本分类方法及装置 | |
CN111160959A (zh) | 一种用户点击转化预估方法及装置 | |
CN106844554A (zh) | 一种合同分类自动识别方法及系统 | |
CN109800675A (zh) | 一种确定人脸对象的识别图像的方法及装置 | |
CN109389175A (zh) | 一种图片分类方法及装置 | |
CN110728119B (zh) | 一种海报生成方法及装置 | |
CN107506407A (zh) | 一种文件分类、调用的方法及装置 | |
CN116204647A (zh) | 一种目标比对学习模型的建立、文本聚类方法及装置 | |
CN103810294A (zh) | 一种多媒体数据文件的管理方法及智能终端 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN115795355A (zh) | 一种分类模型训练方法、装置及设备 | |
CN115357220A (zh) | 一种面向工业app开发的群智化需求获取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190521 |