CN105046270A - 应用分类模型构建方法、应用分类方法及系统 - Google Patents
应用分类模型构建方法、应用分类方法及系统 Download PDFInfo
- Publication number
- CN105046270A CN105046270A CN201510347750.0A CN201510347750A CN105046270A CN 105046270 A CN105046270 A CN 105046270A CN 201510347750 A CN201510347750 A CN 201510347750A CN 105046270 A CN105046270 A CN 105046270A
- Authority
- CN
- China
- Prior art keywords
- application
- classification
- sorted
- model
- subject information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种应用分类模型构建方法、应用分类方法及系统,本发明根据应用的权限列表和主题信息,具体考虑应用产生的行为来反映应用的分类,通过一次和二次匹配模型,能够有效降低人工干预和人力成本,提高平均分类精度。
Description
技术领域
本发明涉及一种应用分类模型构建方法及系统。
背景技术
随着手机等移动终端性能的提高和可下载的应用软件规模的极速增长,用户在选择应用时将面对更大的噪声,如何有效的对大规模应用进行分类从而提高用户的体验成为一个手机市场重要的技术手段。目前软件在应用市场进行推广,搜索,下载中,对于新应用的分类使用人工逐个审核的方式对应用归类,这样的方法人力成本高,而且平均精度不高,难以维护。
发明内容
本发明的目的在于提供一种应用分类模型构建方法及系统,能够有效降低人力成本,提高平均分类精度。
为解决上述问题,本发明提供一种应用分类模型构建方法,包括:
获取不同应用提供商的多数据源的应用基础分类数据作为训练数据;
获取训练数据中每个应用的权限列表;
根据训练数据中所有应用的权限列表构建一次匹配模型,所述一次匹配模型包括应用的多个第一分类;
获取训练数据中每个应用的主题信息,根据训练数据中所有应用的主题信息进行特征选择;
根据选择的特征构建二次匹配模型,所述二次匹配模型包括应用的多个第二分类。
进一步的,在上述方法中,获取不同应用提供商的多数据源的应用基础分类数据作为训练数据,包括:
获取不同应用提供商的多数据源的每个应用的分类向量;
统计每个应用的分类向量中每个分类的出现频次,由每个应用的分类向量中出现频次最高的分类作为该应用的应用基础分类,当出现无法判断分类的应用时将其从训练数据集中删除。
进一步的,在上述方法中,获取训练数据中每个应用的权限列表中,每个应用的权限列表为根据该应用的权限生成的字典表向量。
进一步的,在上述方法中,根据训练数据中所有应用的权限列表构建一次匹配模型,包括:
采用meanshift算法,并根据训练数据中归属于同一分类的应用权限向量计算每个分类的密度中心点。
进一步的,在上述方法中,根据训练数据中所有应用的主题信息进行特征选择,包括:
对每个应用的主题信息进行分词,去除带有噪声信息的词;
从所有应用的主题信息中剩余的未去除的词中选择特征词;
根据选择的特征词生成多个分类,每个分类包括多个特征词。
进一步的,在上述方法中,对每个应用的主题信息进行分词,去除带有噪声信息的词,包括:
对于中文的主题信息,采用中科院ICTCLAS算法来分词并去除带有噪声信息的词;
对于英文的主题信息,采用wordnet算法来分词并去除带有噪声信息的词。
进一步的,在上述方法中,从所有应用的主题信息中剩余的未去除的词中选择特征词,包括:
采用CHI检验算法设定最小阀值,从所有应用的主题信息中剩余的未去除的词中选择最小阀值以上的词作为特征词。
进一步的,在上述方法中,根据选择的特征构建二次匹配模型,包括:采用特征词维度平衡和贝叶斯分类器原理构建二次匹配模型。
进一步的,在上述方法中,采用特征词维度平衡和贝叶斯分类器原理构建二次匹配模型,包括:
采用特征词维度平衡原理,将特征词的数量在同一量级的分类分别生成对应的贝叶斯分类器,所有的贝叶斯分类器组合成二次匹配模型,每个贝叶斯分类器对应一个第二分类。
进一步的,在上述方法中,根据选择的特征构建二次匹配模型之后,还包括:
使用测试数据测试一次、二次匹配模型的准确率,并根据一次、二次匹配模型的准确率来分别对一次、二次匹配模型的模型参数进行调整,得到调整参数后的一次、二次匹配模型。
根据本发明的另一面还提供一种应用分类方法,采用上述应用分类模型构建方法构建的一次、二次匹配模型,所述应用分类方法,包括:
获取待分类应用的权限列表;
采用一次匹配模型,并根据待分类应用的权限列表判断待分类应用是否只属于某个第一分类,
若只属于某个第一分类,则输出所述待分类应用属于某个第一分类的结果;
若不只属于某个第一分类,则获取所述待分类应用的主题信息,采用二次匹配模型,并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类,若属于某个第二分类,则输出所述待分类应用属于某个第二分类的结果;若不属于某个第二分类,则进行人工匹配并输出待分类应用的分类结果。
进一步的,在上述方法中,获取所述待分类应用的主题信息,采用二次匹配模型,并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类,包括:
获取所述待分类应用的主题信息;
对所述待分类应用的主题信息进行分词,去除带有噪声信息的词;
采用二次匹配模型,并根据待分类应用的主题信息中剩余的未去除的词判断待分类应用是否属于某个第二分类。
进一步的,在上述方法中,采用一次匹配模型,并根据待分类应用的权限列表判断待分类应用是否只属于某个第一分类,包括:
计算待分类应用的权限列表中的权限向量与每个第一分类的密度中心点的边界距离,
当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离大于等于预设阀值时,则该待分类应用属于该个第一分类;
当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离小于预设阀值时,或者当待分类应用的权限列表中的权限向量与某两个或两个以上第一分类的密度中心点的边界距离大于等于预设阀值时,则所述待分类应用不只属于某个第一分类。
根据本发明的另一面,还提供一种应用分类模型构建系统,包括:
第一装置,用于获取不同应用提供商的多数据源的应用基础分类数据作为训练数据;
第二装置,用于获取训练数据中每个应用的权限列表;
第三装置,用于根据训练数据中所有应用的权限列表构建一次匹配模型,所述一次匹配模型包括应用的多个第一分类;
第四装置,用于获取训练数据中每个应用的主题信息,根据训练数据中所有应用的主题信息进行特征选择;
第五装置,用于根据选择的特征构建二次匹配模型,所述二次匹配模型包括应用的多个第二分类。
进一步的,在上述系统中,所述第一装置,用于获取不同应用提供商的多数据源的每个应用的分类向量,统计每个应用的分类向量中每个分类的出现频次,由每个应用的分类向量中出现频次最高的分类作为该应用的应用基础分类,当出现无法判断分类的应用时将其从训练数据集中删除。
进一步的,在上述系统中,所述第二装置,用于每个应用的权限列表为根据该应用的权限生成的字典表向量。
进一步的,在上述系统中,所述第三装置采用meanshift算法,并根据训练数据中归属于同一分类的应用权限向量计算每个分类的密度中心点。
进一步的,在上述系统中,所述第四装置,包括:
第四一模块,用于对每个应用的主题信息进行分词,去除带有噪声信息的词;
第四二模块,用于从所有应用的主题信息中剩余的未去除的词中选择特征词;
第四三模块,用于根据选择的特征词生成多个分类,每个分类包括多个特征词。
进一步的,在上述系统中,对于中文的主题信息,所述第四一模块采用中科院ICTCLAS算法来分词并去除带有噪声信息的词;
对于英文的主题信息,所述第四一模块采用wordnet算法来分词并去除带有噪声信息的词。
进一步的,在上述系统中,所述第四二模块采用CHI检验算法设定最小阀值,从所有应用的主题信息中剩余的未去除的词中选择最小阀值以上的词作为特征词。
进一步的,在上述系统中,所述第五装置,用于对选择的特征词进行维度平衡,用特征词维度平衡和贝叶斯分类器原理构建二次匹配模型。
进一步的,在上述系统中,所述第五装置,采用特征词维度平衡原理,将特征词的数量在同一量级的分类分别生成对应的贝叶斯分类器,所有的贝叶斯分类器组合成二次匹配模型,每个贝叶斯分类器对应一个第二分类。
进一步的,在上述系统中,还包括第六装置,用于使用测试数据测试一次、二次匹配模型的准确率,并根据一次、二次匹配模型的准确率来分别对一次、二次匹配模型的模型参数进行调整,得到调整参数后的一次、二次匹配模型。
根据本发明的另一面还提供一种应用分类系统,采用上述应用分类模型构建系统构建的一次、二次匹配模型,所述应用分类系统,包括:
第七装置,用于获取待分类应用的权限列表;
第八装置,用于采用一次匹配模型,并根据待分类应用的权限列表判断待分类应用是否只属于某个第一分类,若只属于某个第一分类,则输出所述待分类应用属于某个第一分类的结果;若不只属于某个第一分类,则获取所述待分类应用的主题信息,采用二次匹配模型,并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类,若属于某个第二分类,则输出所述待分类应用属于某个第二分类的结果;若不属于某个第二分类,则进行人工匹配并输出待分类应用的分类结果。
进一步的,在上述系统中,所述第八装置,用于获取所述待分类应用的主题信息,对所述待分类应用的主题信息进行分词,去除带有噪声信息的词;采用二次匹配模型,并根据待分类应用的主题信息中剩余的未去除的词判断待分类应用是否属于某个第二分类。
进一步的,在上述系统中,所述第八装置,用于计算待分类应用的权限列表中的权限向量与每个第一分类的密度中心点的边界距离,当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离大于等于预设阀值时,则该待分类应用属于该个第一分类;当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离小于预设阀值时,或者当待分类应用的权限列表中的权限向量与某两个或两个以上第一分类的密度中心点的边界距离大于等于预设阀值时,则所述待分类应用不只属于某个第一分类。
与现有技术相比,本发明根据应用的权限列表和主题信息,具体考虑应用产生的行为来反映应用的分类,通过一次和二次匹配模型,能够有效降低人工干预和人力成本,提高平均分类精度。
附图说明
图1是本发明一个方面的应用分类模型构建方法的流程图;
图2是本发明一优选实施例的应用分类模型构建方法的流程图;
图3是本发明另一优选实施例的应用分类模型构建方法的流程图;
图4是本发明一实施例的贝叶斯分类器对历史和科学主题进行分类的结果示意图;
图5是本发明再一优选实施例的应用分类模型构建方法的流程图;
图6是本发明另一个方面的应用分类方法的流程图;
图7是本发明一优选实施例的应用分类方法的流程图;
图8是本发明的一实施例的待分类应用的主题信息示意图;
图9是本发明的一实施例的待分类应用进行分类的分类结果示意图;
图10是本发明的另一个方面的应用分类模型构建系统的模块图;
图11是本发明一优选实施例的应用分类模型构建系统的模块图;
图12是本发明另一优选实施例的应用分类模型构建系统的模块图;
图13是本发明的另一个方面的应用分类系统的模块图;
图14是本发明的一实施例的维度平衡原理图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本发明提供一种应用分类模型构建方法,包括:
步骤S1,获取不同应用提供商的多数据源的应用基础分类数据作为训练数据;在此,所述多数据源可以来自不同应用提供商的网站,由于应用基础分类数据都是人工处理的,导致各个数据源的分类效果水平不一,为了排除单一数据源造成的影响,训练数据将采集多个数据源的分类数据来平衡误差;
步骤S2,获取训练数据中每个应用的权限列表;可选的,每个应用的权限列表从每个应用的应用安装包中的配置文件的权限设置信息中获取,在此,配置文件中声明了该应用申请的权限设置信息,比如允许访问硬件,读取短信,打开摄像头等,通过记录每个应用的权限表,来对应用进行一次匹配分类,具体的,权限列表可包括用户权限列表和系统权限列表,其中,用户权限列表包括短信等通讯权限,系统权限包括WIFI、热点、设置震动、修改系统时间等权限;
步骤S3,根据训练数据中所有应用的权限列表构建一次匹配模型,所述一次匹配模型包括应用的多个第一分类;
步骤S4,获取训练数据中每个应用的主题信息,根据训练数据中所有应用的主题信息进行特征选择即特征抽取;
步骤S5,根据选择的特征构建二次匹配模型,所述二次匹配模型包括应用的多个第二分类。
发明的应用分类模型构建方法一优选的实施例中,步骤S1中,获取不同应用提供商的多数据源的应用基础分类数据作为训练数据,包括:
获取不同应用提供商的多数据源的每个应用分类向量;
统计每个应用分类向量中每个分类的出现频次,由每个应用分类向量中出现频次最高的分类作为该应用的应用基础分类,当出现无法判断分类的应用时将其从训练数据集中删除。具体的,针对多数据造成的数据精度问题,借由多数据源平衡人工误差的实际方法是对每个抓取到的应用生成分类向量:
应用1:系统系统工具系统
生成每个应用的分类向量后统计每个向量中每个分类的出现频次,由出现频次最高的分类作为该应用的应用基础分类,当出现无法判断分类的应用时将从训练数据集中删除。例如,上述应用1的分类向中系统类出现了3次(出现频次最高),工具类出现了1次,所以应用1的应用基础分类为系统类。
本发明的应用分类模型构建方法一优选的实施例中,步骤S2中,每个应用的权限列表为根据该应用的权限生成的字典表向量。具体的,一次匹配模型的权限列表首先需要获取所有的权限,并针对每个应用的权限生成字典表向量,字典表可以是如下表1的单行的矩阵形式:
表1
针对上述表1,某个应用的权限有:使用gps,拨打电话,……则该应用对应生成应用的字典表向量为1,0,1,……,在此,每个应用生成的向量维(权限数量)数是一致的,内部0、1代表布尔值,代表是否具有字典表的某个权限。
本发明的应用分类模型构建方法一优选的实施例中,步骤S3,根据训练数据中所有应用的权限列表构建一次匹配模型,包括:
采用meanshift算法,并根据训练数据中归属于同一分类的应用权限向量计算每个分类的密度中心点。
具体的,一次匹配模式采取匹配应用权限的方式,由于应用权限的总数固定,应用的权限向量可以用0、1来表示,形成一个固定维度的向量,可使用meanshift算法训练聚类模型,计算得出每一分类的密度中心点。
如图2所示,本发明的应用分类模型构建方法一优选的实施例中,步骤S4,根据训练数据中所有应用的主题信息进行特征选择,包括:
步骤S41,对每个应用的主题信息进行分词,去除带有噪声信息的词;优选的,对于中文的主题信息,可采用中科院ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)算法来分词并去除带有噪声信息的词,中科院ICTCLAS算法标注了文本中每个词的词性,借此可以对主题信息中的噪声信息进行去除,另外,对于英文的主题信息,可采用wordnet算法来分词并去除带有噪声信息的词;具体的,对于采集到的应用主题信息有大量的噪声信息,比如停用词,版本号,公司等信息对于后续建立贝叶斯模型没有帮助,数量巨大的训练样本和过高的向量维数是文本分类的两大特点,这两个特点决定了文本分类问题数量巨大的训练样本和过高的向量维数是文本分类的两大特点,这两个特性决定了文本分类问题是一个运算时间和空间复杂度很高的学习问题,为了兼顾运算时间和分类精度两个方面,不得不进行特征选择,力求在不损伤分类性能的同时达到降维的目的;
步骤S42,从所有应用的主题信息中剩余的未去除的词中选择特征词;特征选择又称特征降维,是文本分类系统中关键的一个环节,在向量空间模型中,用词条作为表示主题信息的特征项,空间向量的属性,也就是空间向量的维度会高达上万维,这造成了主题信息分类的两大难题,即文本特征空间的“高维性”和“稀疏性”,这两个问题对主题信息分类系统的分类时间和分类精度有着直接的影响,因此要对已经分词后的高达上万维的文本进行特征降维,可利用特定的降维方法来降低主题信息向量空间的特征维数过滤掉无关属性,减少无关信息对主题信息分类的干扰,从而提高分类的精度;
本发明的应用分类模型构建方法一优选的实施例中,步骤S42,从所有应用的主题信息中剩余的未去除的词中选择特征词中,针对应用的主题信息的降维,可采用CHI检验算法设定最小阀值,删除所述最小阀值以下的特征词,即从所有应用的主题信息中剩余的未去除的词中选择最小阀值以上的词作为特征词。用于表示主题信息的特征理论上应该满足以下几点:数量上尽量少;出现频率适中;冗余少;噪音少;与其所属类别语义相关;含义尽量明确。最简单的主题信息特征表示就是单个的词(term或者word),因为词可以看作是主题信息的天然属性,但是我们同时又知道,一篇文档包含很多的词,而且有些出现频率高却并不相关或者说是噪音数据,这就是特征提取所要做的工作:找出有用的特征集,剔除无用的特征集,这样既可以因为无用特征集被剔除使得特征集得到压缩从而提高分类效率,同时还因为去除了无用特征集对分类的干扰提高了分类精度。
如图3所示,本发明的应用分类模型构建方法一优选的实施例中,步骤S5,根据选择的特征构建二次匹配模型,包括:
步骤S51,采用特征词维度平衡和贝叶斯分类器(Bayes)原理构建二次匹配模型。
在此,基于贝叶斯文本分类中需注意每个主题的分布是否均匀,因为分类与分类之间样本量的差异导致主题训练样本的差异需要在特征选择中平衡各个分类的维度,处理好样本向量的维度后根据贝叶斯原理建立二次匹配模型。具体的,运行贝叶斯分类器对历史和科学主题进行分类的结果可参见图4。
本发明的应用分类模型构建方法一优选的实施例中,采用特征词维度平衡和贝叶斯分类器原理构建二次匹配模型,包括:
采用特征词维度平衡原理,将特征词的数量在同一量级的分类分别生成对应的贝叶斯分类器,所有的贝叶斯分类器组合成二次匹配模型,每个贝叶斯分类器对应一个第二分类。具体的,训练数据经过特征选择对训练分类生成相对应的分类,一个分类具有有多个特征词,每个特征词表示这个分类的一个维度。在每个分类中包含了从多个数据源采集到的特征词向量信息,如图14所示,每个分类为一个文件夹,每个文件夹里有多个应用文件,每个应用文件对应一个特征词向量信息。因为分类与分类之间在向量数量上有差异,比如健康类应用有100个特征词向量信息,但是教育有1000个特征词向量信息,具有更高维度数据的教育类就会造成贝叶斯模型的倾斜所以要进行平衡,维度平衡的策略是处在同一量级的分类将生成一个分类贝叶斯分类器。例如同样1000维度以下100维度以上两个分类将生成一个二分类贝叶斯分类器。后续,对于一个待分类应用,将会套用多个贝叶斯分类器,选择准确率最高的作为模型建议分类,二次匹配模型包括了多个分类贝叶斯分类器。
如图5所示,本发明的应用分类模型构建方法一优选的实施例中,步骤S5之后还包括步骤S6,使用测试数据测试一次、二次匹配模型的准确率,并根据一次、二次匹配模型的准确率来分别对一次、二次匹配模型的模型参数进行调整,得到调整参数后的一次、二次匹配模型,从而得到更好的准确率的一次、二次匹配模型。
实施例二
如图6所示,根据本发明的另一面,本发明还提供一种采于上述一次、二次匹配模型的应用分类方法,所述应用分类方法包括:
步骤S7,获取待分类应用的权限列表;
步骤S8,采用一次匹配模型,并根据待分类应用的权限列表判断待分类应用是否只属于某个第一分类,
步骤S9,若只属于某个第一分类,则输出所述待分类应用属于某个第一分类的结果;
步骤S10,若不只属于某个第一分类,则获取所述待分类应用的主题信息,采用二次匹配模型,并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类;在此,若所述待分类应用不只属于某个第一分类,可能有两种情况,一种情况是所述待分类应用不属于任何一个第一分类,另一种情况是所述待分类应用属于两个或两个以上第一分类,此时需要采用二次匹配模型,并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类;
步骤S11,若属于某个第二分类,则输出所述待分类应用属于某个第二分类的结果;
步骤S12,若不属于某个第二分类,则进行人工匹配并输出待分类应用的分类结果。在此,二次匹配时可得到所述待分类应用与每个第二分类相似表,相似表中记录相似概率,如果二次匹配的相似概率不足75%,需要转接人工匹配。
如图7所示,本发明的应用分类方法的一优选的实施例中,步骤S10,获取所述待分类应用的主题信息,采用二次匹配模型,并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类,包括:
步骤S101,获取所述待分类应用的主题信息;所述待分类应用的主题信息可参见如图8所示,
步骤S102,对所述待分类应用的主题信息进行分词,去除带有噪声信息的词;优选的,对于中文的主题信息,可采用中科院ICTCLAS算法来分词并去除带有噪声信息的词,中科院ICTCLAS算法标注了文本中每个词的词性,借此可以对主题信息中的噪声信息进行去除,另外,对于英文的主题信息,可采用wordnet算法来分词并去除带有噪声信息的词;
步骤S103,采用二次匹配模型,并根据待分类应用的主题信息中剩余的未去除的词判断待分类应用是否属于某个第二分类。对待分类应用进行分类的分类结果可参见图9,图9中虚线左侧为分类结果,虚线右侧为输入。
本发明的应用分类方法的一优选的实施例中,步骤S8,采用一次匹配模型,并根据待分类应用的权限列表判断待分类应用是否只属于某个第一分类包括:
计算待分类应用的权限列表中的权限向量与每个第一分类的密度中心点的边界距离(cos距离),距离最短的为预判的分类坐标,当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离大于等于预设阀值时,则该待分类应用属于该个第一分类;
当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离小于预设阀值时,或者当待分类应用的权限列表中的权限向量与某两个或两个以上第一分类的密度中心点的边界距离大于等于预设阀值时,则所述待分类应用不只属于某个第一分类,需要进行二次匹配进行补充,二次匹配的作用在于补充一次匹配在少数具有异常权限的应用造成的分类错误,二次匹配模型的建立基于特征提取后的应用主题向量。
实施例三
如图10所示,本发明还提供另一种应用分类模型构建系统,包括:
第一装置1,用于获取不同应用提供商的多数据源的应用基础分类数据作为训练数据;
第二装置2,用于获取训练数据中每个应用的权限列表;
第三装置3,用于根据训练数据中所有应用的权限列表构建一次匹配模型,所述一次匹配模型包括应用的多个第一分类;
第四装置4,用于获取训练数据中每个应用的主题信息,根据训练数据中所有应用的主题信息进行特征选择;
第五装置5,用于根据选择的特征构建二次匹配模型,所述二次匹配模型包括应用的多个第二分类。
本发明的应用分类模型构建系统一优选的实施例中,所述第一装置1,用于获取不同应用提供商的多数据源的每个应用的分类向量,统计每个应用的分类向量中每个分类的出现频次,由每个应用的分类向量中出现频次最高的分类作为该应用的应用基础分类,当出现无法判断分类的应用时将其从训练数据集中删除。
本发明的应用分类模型构建系统一优选的实施例中,所述第二装置2,用于每个应用的权限列表为根据该应用的权限生成的字典表向量。
本发明的应用分类模型构建系统一优选的实施例中,所述第三装置3采用meanshift算法,并根据训练数据中归属于同一分类的应用权限向量计算每个分类的密度中心点。
如图11所示,本发明的应用分类模型构建系统一优选的实施例中,所述第四装置4,包括:
第四一模块41,用于对每个应用的主题信息进行分词,去除带有噪声信息的词;第四二模块42,用于从所有应用的主题信息中剩余的未去除的词中选择特征词;本发明的应用分类模型构建系统一优选的实施例中,对于中文的主题信息,所述第四一模块41采用中科院ICTCLAS算法来分词并去除带有噪声信息的词;对于英文的主题信息,所述第四一模块41采用wordnet算法来分词并去除带有噪声信息的词。
本发明的应用分类模型构建系统一优选的实施例中,所述第四二模块2采用CHI检验算法设定最小阀值,从所有应用的主题信息中剩余的未去除的词中选择最小阀值以上的词作为特征词。
本发明的应用分类模型构建系统一优选的实施例中,所述第五装置5,采用特征词维度平衡和贝叶斯分类器原理构建二次匹配模型。
本发明的应用分类模型构建系统一优选的实施例中,所述第五装置5采用特征词维度平衡原理,将特征词的数量在同一量级的分类分别生成对应的贝叶斯分类器,所有的贝叶斯分类器组合成二次匹配模型,每个贝叶斯分类器对应一个第二分类。
如图12所示,本发明的应用分类模型构建系统一优选的实施例中,还包括第六装置,用于使用测试数据测试一次、二次匹配模型的准确率,并根据一次、二次匹配模型的准确率来分别对一次、二次匹配模型的模型参数进行调整,得到调整参数后的一次、二次匹配模型。
实施例三的其它详细内容具体可参见实施例一的相应部分,在此,不再赘述。
实施例四
如图13所示,根据本申请的另一面还提供一种应用分类系统,其特征在于,采用上述实施例三的系统构建的一次、二次匹配模型,所述应用分类系统,包括:第七装置7,用于获取待分类应用的权限列表;
第八装置8,用于采用一次匹配模型,并根据待分类应用的权限列表判断待分类应用是否只属于某个第一分类,若只属于某个第一分类,则输出所述待分类应用属于某个第一分类的结果;若不只属于某个第一分类,则获取所述待分类应用的主题信息,采用二次匹配模型,并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类,若属于某个第二分类,则输出所述待分类应用属于某个第二分类的结果;若不属于某个第二分类,则进行人工匹配并输出待分类应用的分类结果。
本发明的应用分类系统一优选的实施例中,所述第八装置8,用于获取所述待分类应用的主题信息,对所述待分类应用的主题信息进行分词,去除带有噪声信息的词;采用二次匹配模型,并根据待分类应用的主题信息中剩余的未去除的词判断待分类应用是否属于某个第二分类。
本发明的应用分类系统一优选的实施例中,所述第八装置8,用于计算待分类应用的权限列表中的权限向量与每个第一分类的密度中心点的边界距离,当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离大于等于预设阀值时,则该待分类应用属于该个第一分类;当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离小于预设阀值时,或者当待分类应用的权限列表中的权限向量与某两个或两个以上第一分类的密度中心点的边界距离大于等于预设阀值时,则所述待分类应用不只属于某个第一分类。
实施例四的其它详细内容具体可参见实施例二的相应部分,在此,不再赘述。
综上所述,本发明根据应用的权限列表和主题信息,具体考虑应用产生的行为来反映应用的分类,通过一次和二次匹配模型,能够有效降低人工干预和人力成本,提高平均分类精度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (26)
1.一种应用分类模型构建方法,其特征在于,包括:
获取不同应用提供商的多数据源的应用基础分类数据作为训练数据;
获取训练数据中每个应用的权限列表;
根据训练数据中所有应用的权限列表构建一次匹配模型,所述一次匹配模型包括应用的多个第一分类;
获取训练数据中每个应用的主题信息,根据训练数据中所有应用的主题信息进行特征选择;
根据选择的特征构建二次匹配模型,所述二次匹配模型包括应用的多个第二分类。
2.如权利要求1所述的应用分类模型构建方法,其特征在于,获取不同应用提供商的多数据源的应用基础分类数据作为训练数据,包括:
获取不同应用提供商的多数据源的每个应用的分类向量;
统计每个应用的分类向量中每个分类的出现频次,由每个应用的分类向量中出现频次最高的分类作为该应用的应用基础分类,当出现无法判断分类的应用时将其从训练数据集中删除。
3.如权利要求1所述的应用分类模型构建方法,其特征在于,获取训练数据中每个应用的权限列表中,每个应用的权限列表为根据该应用的权限生成的字典表向量。
4.如权利要求1所述的应用分类模型构建方法,其特征在于,根据训练数据中所有应用的权限列表构建一次匹配模型,包括:
采用meanshift算法,并根据训练数据中归属于同一分类的应用权限向量计算每个分类的密度中心点。
5.如权利要求1所述的应用分类模型构建方法,其特征在于,根据训练数据中所有应用的主题信息进行特征选择,包括:
对每个应用的主题信息进行分词,去除带有噪声信息的词;
从所有应用的主题信息中剩余的未去除的词中选择特征词。
6.如权利要求5所述的应用分类模型构建方法,其特征在于,对每个应用的主题信息进行分词,去除带有噪声信息的词,包括:
对于中文的主题信息,采用中科院ICTCLAS算法来分词并去除带有噪声信息的词;
对于英文的主题信息,采用wordnet算法来分词并去除带有噪声信息的词。
7.如权利要求5所述的应用分类模型构建方法,其特征在于,从所有应用的主题信息中剩余的未去除的词中选择特征词,包括:
采用CHI检验算法设定最小阀值,从所有应用的主题信息中剩余的未去除的词中选择最小阀值以上的词作为特征词。
8.如权利要求5至7任一项所述的应用分类模型构建方法,其特征在于,根据选择的特征构建二次匹配模型,包括:
采用特征词维度平衡和贝叶斯分类器原理构建二次匹配模型。
9.如权利要求8所述的应用分类模型构建方法,其特征在于,采用特征词维度平衡和贝叶斯分类器原理构建二次匹配模型,包括:
采用特征词维度平衡原理,将特征词的数量在同一量级的分类分别生成对应的贝叶斯分类器,所有的贝叶斯分类器组合成二次匹配模型,每个贝叶斯分类器对应一个第二分类。
10.如权利要求1所述的应用分类模型构建方法,其特征在于,根据选择的特征构建二次匹配模型之后,还包括:
使用测试数据测试一次、二次匹配模型的准确率,并根据一次、二次匹配模型的准确率来分别对一次、二次匹配模型的模型参数进行调整,得到调整参数后的一次、二次匹配模型。
11.一种应用分类方法,其特征在于,采用如权利要求1至10任一项所述方法构建的一次、二次匹配模型,所述应用分类方法,包括:
获取待分类应用的权限列表;
采用一次匹配模型,并根据待分类应用的权限列表判断待分类应用是否只属于某个第一分类,
若只属于某个第一分类,则输出所述待分类应用属于某个第一分类的结果;
若不只属于某个第一分类,则获取所述待分类应用的主题信息,采用二次匹配模型,并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类,若属于某个第二分类,则输出所述待分类应用属于某个第二分类的结果;若不属于某个第二分类,则进行人工匹配并输出待分类应用的分类结果。
12.如权利要求10所述的应用分类方法,其特征在于,获取所述待分类应用的主题信息,采用二次匹配模型,并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类,包括:
获取所述待分类应用的主题信息;
对所述待分类应用的主题信息进行分词,去除带有噪声信息的词;
采用二次匹配模型,并根据待分类应用的主题信息中剩余的未去除的词判断待分类应用是否属于某个第二分类。
13.如权利要求10或12所述的应用分类方法,其特征在于,采用一次匹配模型,并根据待分类应用的权限列表判断待分类应用是否只属于某个第一分类,包括:计算待分类应用的权限列表中的权限向量与每个第一分类的密度中心点的边界距离,
当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离大于等于预设阀值时,则该待分类应用属于该个第一分类;
当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离小于预设阀值时,或者当待分类应用的权限列表中的权限向量与某两个或两个以上第一分类的密度中心点的边界距离大于等于预设阀值时,则所述待分类应用不只属于某个第一分类。
14.一种应用分类模型构建系统,其特征在于,包括:
第一装置,用于获取不同应用提供商的多数据源的应用基础分类数据作为训练数据;
第二装置,用于获取训练数据中每个应用的权限列表;
第三装置,用于根据训练数据中所有应用的权限列表构建一次匹配模型,所述一次匹配模型包括应用的多个第一分类;
第四装置,用于获取训练数据中每个应用的主题信息,根据训练数据中所有应用的主题信息进行特征选择;
第五装置,用于根据选择的特征构建二次匹配模型,所述二次匹配模型包括应用的多个第二分类。
15.如权利要求14所述的应用分类模型构建系统,其特征在于,所述第一装置,用于获取不同应用提供商的多数据源的每个应用的分类向量,统计每个应用的分类向量中每个分类的出现频次,由每个应用的分类向量中出现频次最高的分类作为该应用的应用基础分类,当出现无法判断分类的应用时将其从训练数据集中删除。
16.如权利要求14所述的应用分类模型构建系统,其特征在于,所述第二装置,用于每个应用的权限列表为根据该应用的权限生成的字典表向量。
17.如权利要求14所述的应用分类模型构建系统,其特征在于,所述第三装置采用meanshift算法,并根据训练数据中归属于同一分类的应用权限向量计算每个分类的密度中心点。
18.如权利要求14所述的应用分类模型构建系统,其特征在于,所述第四装置,包括:
第四一模块,用于对每个应用的主题信息进行分词,去除带有噪声信息的词;
第四二模块,用于从所有应用的主题信息中剩余的未去除的词中选择特征词。
19.如权利要求18所述的应用分类模型构建系统,其特征在于,对于中文的主题信息,所述第四一模块采用中科院ICTCLAS算法来分词并去除带有噪声信息的词;
对于英文的主题信息,所述第四一模块采用wordnet算法来分词并去除带有噪声信息的词。
20.如权利要求18所述的应用分类模型构建系统,其特征在于,所述第四二模块采用CHI检验算法设定最小阀值,从所有应用的主题信息中剩余的未去除的词中选择最小阀值以上的词作为特征词。
21.如权利要求18至20任一项所述的应用分类模型构建系统,其特征在于,所述第五装置,采用特征词维度平衡和贝叶斯分类器原理构建二次匹配模型。
22.如权利要求21所述的应用分类模型构建系统,其特征在于,所述第五装置,采用特征词维度平衡原理,将特征词的数量在同一量级的分类分别生成对应的贝叶斯分类器,所有的贝叶斯分类器组合成二次匹配模型,每个贝叶斯分类器对应一个第二分类。
23.如权利要求14所述的应用分类模型构建系统,其特征在于,还包括第六装置,用于使用测试数据测试一次、二次匹配模型的准确率,并根据一次、二次匹配模型的准确率来分别对一次、二次匹配模型的模型参数进行调整,得到调整参数后的一次、二次匹配模型。
24.一种应用分类系统,其特征在于,采用如权利要求14至23任一项所述系统构建的一次、二次匹配模型,所述应用分类系统,包括:
第七装置,用于获取待分类应用的权限列表;
第八装置,用于采用一次匹配模型,并根据待分类应用的权限列表判断待分类应用是否只属于某个第一分类,若只属于某个第一分类,则输出所述待分类应用属于某个第一分类的结果;若不只属于某个第一分类,则获取所述待分类应用的主题信息,采用二次匹配模型,并根据待分类应用的主题信息判断待分类应用是否属于某个第二分类,若属于某个第二分类,则输出所述待分类应用属于某个第二分类的结果;若不属于某个第二分类,则进行人工匹配并输出待分类应用的分类结果。
25.如权利要求24所述的应用分类系统,其特征在于,所述第八装置,用于获取所述待分类应用的主题信息,对所述待分类应用的主题信息进行分词,去除带有噪声信息的词;采用二次匹配模型,并根据待分类应用的主题信息中剩余的未去除的词判断待分类应用是否属于某个第二分类。
26.如权利要求24或25所述的应用分类系统,其特征在于,所述第八装置,用于计算待分类应用的权限列表中的权限向量与每个第一分类的密度中心点的边界距离,当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离大于等于预设阀值时,则该待分类应用属于该个第一分类;当待分类应用的权限列表中的权限向量与某个第一分类的密度中心点的边界距离小于预设阀值时,或者当待分类应用的权限列表中的权限向量与某两个或两个以上第一分类的密度中心点的边界距离大于等于预设阀值时,则所述待分类应用不只属于某个第一分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510347750.0A CN105046270A (zh) | 2015-06-19 | 2015-06-19 | 应用分类模型构建方法、应用分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510347750.0A CN105046270A (zh) | 2015-06-19 | 2015-06-19 | 应用分类模型构建方法、应用分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105046270A true CN105046270A (zh) | 2015-11-11 |
Family
ID=54452799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510347750.0A Pending CN105046270A (zh) | 2015-06-19 | 2015-06-19 | 应用分类模型构建方法、应用分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105046270A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107192565A (zh) * | 2017-05-25 | 2017-09-22 | 南京康尼机电股份有限公司 | 一种地铁车辆门系统异常工况和部件退化的同步检测方法 |
CN108399418A (zh) * | 2018-01-23 | 2018-08-14 | 北京奇艺世纪科技有限公司 | 一种用户分类方法及装置 |
CN108550053A (zh) * | 2018-04-12 | 2018-09-18 | 南京龙梅电子商务有限公司 | 基于平台技术的用户消费数据采集分析系统及方法 |
CN108667747A (zh) * | 2018-04-28 | 2018-10-16 | 深圳信息职业技术学院 | 网络流应用类型识别的方法、装置及计算机可读存储介质 |
CN110784330A (zh) * | 2018-07-30 | 2020-02-11 | 华为技术有限公司 | 一种应用识别模型的生成方法及装置 |
CN113076452A (zh) * | 2021-03-08 | 2021-07-06 | 北京梧桐车联科技有限责任公司 | 应用分类的方法、装置、设备及计算机可读存储介质 |
-
2015
- 2015-06-19 CN CN201510347750.0A patent/CN105046270A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107192565A (zh) * | 2017-05-25 | 2017-09-22 | 南京康尼机电股份有限公司 | 一种地铁车辆门系统异常工况和部件退化的同步检测方法 |
CN107192565B (zh) * | 2017-05-25 | 2019-05-28 | 南京康尼机电股份有限公司 | 一种地铁车辆门系统异常工况和部件退化的同步检测方法 |
CN108399418A (zh) * | 2018-01-23 | 2018-08-14 | 北京奇艺世纪科技有限公司 | 一种用户分类方法及装置 |
CN108399418B (zh) * | 2018-01-23 | 2021-09-03 | 北京奇艺世纪科技有限公司 | 一种用户分类方法及装置 |
CN108550053A (zh) * | 2018-04-12 | 2018-09-18 | 南京龙梅电子商务有限公司 | 基于平台技术的用户消费数据采集分析系统及方法 |
CN108667747A (zh) * | 2018-04-28 | 2018-10-16 | 深圳信息职业技术学院 | 网络流应用类型识别的方法、装置及计算机可读存储介质 |
CN110784330A (zh) * | 2018-07-30 | 2020-02-11 | 华为技术有限公司 | 一种应用识别模型的生成方法及装置 |
CN110784330B (zh) * | 2018-07-30 | 2022-04-05 | 华为技术有限公司 | 一种应用识别模型的生成方法及装置 |
US12039422B2 (en) | 2018-07-30 | 2024-07-16 | Huawei Technologies Co., Ltd. | Method and apparatus for generating application identification model |
CN113076452A (zh) * | 2021-03-08 | 2021-07-06 | 北京梧桐车联科技有限责任公司 | 应用分类的方法、装置、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105046270A (zh) | 应用分类模型构建方法、应用分类方法及系统 | |
US10943186B2 (en) | Machine learning model training method and device, and electronic device | |
CN102799647B (zh) | 网页去重方法和设备 | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN109871688B (zh) | 漏洞威胁程度评估方法 | |
CN107545038B (zh) | 一种文本分类方法与设备 | |
CN109684476B (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN107273752B (zh) | 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法 | |
CN108509561B (zh) | 基于机器学习的岗位招聘数据筛选方法、系统及存储介质 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN107133238A (zh) | 一种文本信息聚类方法和文本信息聚类系统 | |
CN102945246B (zh) | 网络信息数据的处理方法及装置 | |
CN109271517A (zh) | Ig tf-idf文本特征向量生成及文本分类方法 | |
CN113807940B (zh) | 信息处理和欺诈行为识别方法、装置、设备及存储介质 | |
CN108021545A (zh) | 一种司法文书的案由提取方法及装置 | |
CN108667678A (zh) | 一种基于大数据的运维日志安全检测方法及装置 | |
CN108733644A (zh) | 一种文本情感分析方法、计算机可读存储介质及终端设备 | |
CN104462229A (zh) | 一种事件分类方法及装置 | |
CN102411592B (zh) | 一种文本分类方法和装置 | |
CN103246686A (zh) | 文本分类方法和装置及文本分类的特征处理方法和装置 | |
CN110502902A (zh) | 一种漏洞分类方法、装置及设备 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN110263817B (zh) | 一种基于用户账号的风险等级划分方法及装置 | |
CN104346411B (zh) | 对多个稿件进行聚类的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20151111 |
|
WD01 | Invention patent application deemed withdrawn after publication |