CN111507400A - 应用分类方法、装置、电子设备以及存储介质 - Google Patents

应用分类方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN111507400A
CN111507400A CN202010301767.3A CN202010301767A CN111507400A CN 111507400 A CN111507400 A CN 111507400A CN 202010301767 A CN202010301767 A CN 202010301767A CN 111507400 A CN111507400 A CN 111507400A
Authority
CN
China
Prior art keywords
clustering
identifier
application
character content
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010301767.3A
Other languages
English (en)
Other versions
CN111507400B (zh
Inventor
赵琳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010301767.3A priority Critical patent/CN111507400B/zh
Publication of CN111507400A publication Critical patent/CN111507400A/zh
Application granted granted Critical
Publication of CN111507400B publication Critical patent/CN111507400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Abstract

本发明实施例公开了一种应用分类方法、装置、电子设备以及存储介质,包括:采集待分类应用的标识;当所述标识包含预设聚类中心集合中至少一个聚类中心时,将所述标识包含的聚类中心确定为参考聚类中心,所述聚类中心集合包括多个聚类中心,所述聚类中心由多个已知类别的应用标识聚类得到的;计算所述标识与所述参考聚类中心之间的相似度;将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为所述标识的初始应用类别;基于所述聚类中心集合对标注后标识以及所述已知类别的应用标识进行聚类处理,得到目标聚类中心集合;根据所述目标聚类中心集合对应的已知应用类别确定所述待分类应用的类别,该方案可以提高识别应用分类的效率。

Description

应用分类方法、装置、电子设备以及存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种应用分类方法、装置、电子设备以及存储介质。
背景技术
随着科技的飞快发展,基于IOS操作系统、Android操作系统和Windows操作系统的各种应用(Application,App)呈现出爆发式增长。
目前,在搜索应用的过程中,用户通过输入关键词搜索得到想要的应用。但是这种方式要求预先对每个应用打好标签,或者根据应用信息进行分类,以在用户搜索时推出与搜索词条对应的应用。传统的分类方式是采用人工对应用的类型进行标注,然而,在应用数量剧增的情况下,这种方式下应用分类的效率较低。
发明内容
本发明实施例提供一种应用分类方法、装置、电子设备以及存储介质,可以提高应用分类的效率。
本发明实施例提供了一种应用分类方法,包括:
采集待分类应用的标识;
当所述标识包含预设聚类中心集合中至少一个聚类中心时,将所述标识包含的聚类中心确定为参考聚类中心,所述聚类中心集合包括多个聚类中心,所述聚类中心由多个已知类别的应用标识聚类得到的;
计算所述标识与所述参考聚类中心之间的相似度;
将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为所述标识的初始应用类别;
基于所述聚类中心集合对标注后标识以及所述已知类别的应用标识进行聚类处理,得到目标聚类中心集合;
根据所述目标聚类中心集合对应的已知应用类别确定所述待分类应用的类别。
相应的,本发明实施例还提供了一种应用分类装置,包括:
第一采集模块,用于采集待分类应用的标识;
第一确定模块,用于当所述标识包含预设聚类中心集合中至少一个聚类中心时,将所述标识包含的聚类中心确定为参考聚类中心,所述聚类中心集合包括多个聚类中心,所述聚类中心由多个已知类别的应用标识聚类得到的;
计算模块,用于计算所述标识与所述参考聚类中心之间的相似度;
标注模块,用于将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为所述标识的初始应用类别;
处理模块,用于基于所述聚类中心集合对标注后标识以及所述已知类别的应用标识进行聚类处理,得到目标聚类中心集合;
第二确定模块,用于根据所述目标聚类中心集合对应的已知应用类别确定所述待分类应用的类别。
可选的,在本发明的一些实施例中,所述计算模块包括:
第一获取单元,用于分别获取所述参考聚类中心的字符内容以及所述参考聚类中心的字符内容,得到标识字符内容和参考字符内容;
第一计算单元,用于计算所述标识字符内容与所述参考字符内容之间的编辑距离;
第二计算单元,用于根据所述编辑距离、标识字符内容以及参考字符内容,计算所述标识与所述参考聚类中心之间的相似度。
可选的,在本发明的一些实施例中,所述第二计算单元包括:
确定子单元,用于分别确定所述标识字符内容的字符长度以及所述参考字符内容的字符长度;
计算子单元,用于根据所述编辑距离、标识字符内容的字符长度以及参考字符内容的字符长度,计算所述标识与所述参考聚类中心之间的相似度。
可选的,在本发明的一些实施例中,所述计算子单元具体用于:
在所述标识字符内容的字符长度以及所述参考字符内容的字符长度中,选择字符长度最大的字符内容,得到目标字符内容;
根据所述编辑距离以及所述目标字符内容的字符长度,计算所述标识与参考聚类中心之间的相似度。
可选的,在本发明的一些实施例中,所述第一确定模块包括:
第二获取单元,用于获取预设聚类中心集合,所述聚类中心集合包括多个聚类中心,所述聚类中心由多个已知类别的应用标识聚类得到的;
提取单元,用于提取各聚类中心的字符内容;
第一检测单元,用于检测所述标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容;
确定单元,用于当检测到所述标识的字符内容包含预设聚类中心集合中至少一个聚类中心对应的字符内容时,则确定所述标识包含预设聚类中心集合中至少一个聚类中心。
可选的,在本发明的一些实施例中,所述第一检测单元具体用于:
判断所述标识的字符内容的字符长度是否大于预设字符长度;
若所述标识的字符内容的字符长度大于预设字符长度,则检测所述标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容;
若所述标识的字符内容的字符串长度小于等于预设字符长度,则不检测所述标识的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容。
可选的,在本发明的一些实施例中,还包括第二检测单元,所述第二检测单元具体用于:
当检测到所述标识对应的字符内容不包含预设聚类中心集合中至少一个聚类中心对应的字符内容时,则确定所述标识不包含预设聚类中心集合中至少一个聚类中心,并将所述待分类应用的应用类别确定为预设类别。
可选的,在本发明的一些实施例中,还包括第二采集模块,所述第二采集模块具体用于:
采集多个已知类别的应用标识;
提取各已知类别的应用标识对应的下载量;
选择下载量大于预设下载量的至少一个已知类别的应用标识;
对所述至少一个已知类别的应用标识进行聚类处理,得到聚类中心集合。
可选的,在本发明的一些实施例中,所述处理模块具体用于:
将标注后标识添加至多个已知类别的应用标识中,得到待处理标识集,所述待处理标识集包括标注后标识添加和多个已知类别的应用标识;
对所述待处理标识集进行聚类处理,得到所述待处理标识集对应的候选聚类中心集合;
计算所述候选聚类中心集合中的聚类中心与所述标识之间的相似度;
对所述候选聚类中心集合中与所述标识之间的相似度最小的聚类中心进行更新;
返回执行对所述待处理标识集进行聚类处理的步骤,直至所述候选聚类中心集合与所述聚类中心集合之间聚类中心数量的变化量小于设定值为止,得到目标聚类中心集合。
本发明实施例在采集待分类应用的标识后,当所述标识包含预设聚类中心集合中至少一个聚类中心时,将所述标识包含的聚类中心确定为参考聚类中心,所述聚类中心集合包括多个聚类中心,所述聚类中心由多个已知类别的应用标识聚类得到的,然后,计算所述标识与所述参考聚类中心之间的相似度,接着,将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为所述标识的初始应用类别,再然后,基于所述聚类中心集合对标注后标识以及所述已知类别的应用标识进行聚类处理,得到目标聚类中心集合,最后,根据所述目标聚类中心集合对应的已知应用类别确定所述待分类应用的类别。因此,该方案可以提高应用分类的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的应用分类方法的场景示意图;
图1b是本发明实施例提供的应用分类方法的流程示意图;
图2a是本发明实施例提供的应用分类方法的另一流程示意图;
图2b是本发明实施例提供的应用分类方法的另一场景示意图;
图3a是本发明实施例提供的应用分类装置的结构示意图;
图3b是本发明实施例提供的应用分类装置的另一结构示意图;
图4是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种应用分类方法、装置、电子设备和存储介质。
其中,该应用分类装置具体可以集成在服务器或者终端中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,请参阅图1a,本发明提供一种应用分类装置(以下简称分类装置),该分类装置集成在服务器中,服务器在接收到应用分类请求后,该应用分类请求携带有待分类应用的标识,然后,服务器采集预设聚类中心集合,其中,聚类中心集合包括多个聚类中心,每个聚类中心由多个已知类别的应用标识聚类得到的,服务器当检测到待分类应用标识的字符串与至少一个聚类中心的字符串匹配时,计算待分类应用的标识包含预设聚类中心集合中至少一个聚类中心时,将待分类应用的标识包含的聚类中心确定为参考聚类中心,然后,服务器计算标识与参考聚类中心之间的相似度,接着,服务器将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为标识的初始应用类别,再然后,服务器基于聚类中心集合对标注后标识以及已知类别的应用标识进行聚类处理,得到目标聚类中心集合,最后,服务器根据目标聚类中心集合对应的已知应用类别确定所述待分类应用的类别,相较于现有的应用分类方案而言,本实施例通过对待分类应用的标识的初始应用类别进行标注,并对标注后标注以及已知类别的应用标识聚类,从而对待分类应用的标识进行分类,在聚类时,考虑到待分类标识和预设聚类中心集合之间的相似度,提高了目标聚类中心集合的准确性,并且,在实施时无需人工干预,进而提高了应用分类的效率。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
一种应用分类方法,包括:采集待分类应用的标识,当标识包含预设聚类中心集合中至少一个聚类中心时,将标识包含的聚类中心确定为参考聚类中心,计算标识与参考聚类中心之间的相似度,将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为标识的初始应用类别,基于聚类中心集合对标注后标识以及已知类别的应用标识进行聚类处理,得到目标聚类中心集合,根据目标聚类中心集合对应的已知应用类别确定待分类应用的类别。
请参阅图1b,图1b为本发明实施例提供的应用分类方法的流程示意图。该应用分类方法的具体流程可以如下:
101、采集待分类应用的标识。
其中,在本实施例中,标识可以认为是应用程序包的唯一编码,俗称包名,对于同一个操作系统而言,不同应用的名称可以相同,但是,不同应用的包名不可以相同,比如,在安卓操作系统中,其管理应用的方式是以包名(即应用的标识)为准,而并非以应用的名称为准。
具体的,待分类应用的标识可以是预先保存在本地的,也可以是通过访问网络接口拉取得到的,具体根据实际情况而定。
102、当标识包含预设聚类中心集合中至少一个聚类中心时,将标识包含的聚类中心确定为参考聚类中心。
其中,服务器或终端通常会采集到一些未知应用的信息,然而,这些信息中大部分没有应用的名称以及功能等信息,只有每个未知应用(即待分类应用)的包名(标识),然而,对于每个应用而言,其包名的命名规则均有一定的规范要求,如果不遵循规范,可能导致编译失败、应用无法安装或者上架应用市场失败等问题,包名通常是一个由"."隔开多个段的字符串,类似于网络域名的命名,遵循以下规范:
a、包名必须包含至少两个段,由一个或多个点隔开;
b、每个段的字符必须是小写字母、数字或下划线组成;
c、每个段必须以字母开头。
如下面是某个游戏的包名:
com.netease.hyxd.baidu
com.netease.hyxd.coolpad
com.netease.hyxd.huawei
com.netease.hyxd.lenovo
可以看出:同一个名称的应用由于发布渠道不同以及适配设备不同,其包名尾部一节有差异,但是,核心串“com.netease.hyxd”部分是相同的,可以理解的是,当标识的字符内容中包含某个聚类中心的字符内容时,可以确定标识包含预设聚类中心集合中至少一个聚类中心,具体的,可以检测标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容,即,可选的,在一些实施例中,步骤“检测标识是否包含预设聚类中心集合中至少一个聚类中心”,具体可以包括:
(11)获取预设聚类中心集合;
(12)提取各聚类中心的字符内容;
(13)检测标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容;
(14)当检测到标识的字符内容包含预设聚类中心集合中至少一个聚类中心对应的字符内容,则确定标识包含预设聚类中心集合中至少一个聚类中心。
比如,待分类应用的标识对应的字符内容为“com.netease.hyxd.huawei”,聚类中心A对应的字符内容为“com.netease.hyxd”,聚类中心B对应的字符内容为“com.netease.wzry”,聚类中心C对应的字符内容为“tencent.qq.”,那么可以将聚类中心A和聚类中心B确定为标识的参考聚类中心。
进一步的,为了提高后续分类的准确性,当待分类应用的标识对应的参考聚类中心的数量大于或等于2时,可以检测各参考聚类中心对应的核心串是否与标识的核心串一致,若一致,则保留核心串一致的参考聚类中心;若各参考聚类中心对应的核心串与标识的核心串不一致,则保留所有的参考聚类中心。
此外,当检测到标识对应的字符内容不包含预设聚类中心集合中至少一个聚类中心对应的字符内容,则确定标识不包含预设聚类中心集合中至少一个聚类中心,并将待分类应用的应用类别确定为预设类别,其中,预设类别的名称可以由服务器或终端进行分配,如“XX”,也可以由操作人员预先进行设置,具体根据实际情况而定,在此不再赘述。
需要说明的是,为了避免某些无意义的标识加入到聚类当中,在检测标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容时,还需要检测标识的字符内容的字符长度是否大于预设字符长度,即,可选的,在一些实施例中,步骤“检测标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容”,具体可以包括:
(21)判断所述标识的字符内容的字符长度是否大于预设字符长度;
(22)若标识的字符内容的字符长度大于预设字符长度,则检测标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容;
(23)若标识的字符内容的字符串长度小于等于预设字符长度,则不检测标识的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容。
比如,在Java的标识命名规范中,采用反写域名命名规则,即com.xx.xxx.xxxx形式,全部使用小写字母,一级标识为com,二级标识为xx(一般为公司或个人域名),三级标识根据应用进行命名,四级标识为功能模块名,也就是说,若标识的长度大于4,那么可以认为标识为有意义的标识。
又比如,对于一组待分类应用的标识{apki i=1,2,3...n},其中,标识s的字符内容满足
Figure BDA0002454253990000091
其中,D为预设字符长度,s为标识{apki i=1,2,3...n}中任一标识的字符内容,当字符内容s大于预设字符长度,且s为标识{apki i=1,2,3...n}中任一标识的字符内容,则检测标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容。
还需要说明的是,对于已知类别的应用,某些已知类别的应用可能是某些程序员用于测试的,因此,这类应用的类别有可能是程序员随意设置的,若将这类应用纳入聚类处理中,会造成聚类的聚类中心集合不准确,对于该类应用,其相对于供应商开发的应用的区别在于:这类应用的下载量相对较小,也就是说,,在根据已知类别的应用标识构建聚类中心集合中,可以将已知类别的应用的下载量考虑进来,即,可选的,在一些实施例中,步骤“获取预设聚类中心集合”,具体还可以包括:
(31)采集多个已知类别的应用标识;
(32)提取各已知类别的应用标识对应的下载量;
(33)选择下载量大于预设下载量的至少一个已知类别的应用标识;
(34)对至少一个已知类别的应用标识进行聚类处理,得到聚类中心集合。
具体请参阅下式:
Figure BDA0002454253990000092
其中,当应用标识为已知类别的标识时,即N(apk)=1时,且已知类别的应用标识对应的下载量C(apk)大于预设阈值Q时,才对至少一个已知类别的应用标识进行聚类处理,得到聚类中心集合,预设阈值可以根据实际情况进行设定。
103、计算标识与参考聚类中心之间的相似度。
其中,根据标识对应的核心串获取到的参考聚类中心可能有多个,为了在后续将待分类应用的标识加入到聚类处理中,需要将获取到其中一个参考聚类中心所对应的类别标志为标识对应的初始应用类别,可选的,可以基于标识的字符内容与参考聚类中心的字符内容之间的编辑距离,计算标识与参考聚类中心之间的相似度,即,在一些实施例中,步骤“计算标识与参考聚类中心之间的相似度”,具体可以包括:
(41)分别获取参考聚类中心的字符内容以及参考聚类中心的字符内容,得到标识字符内容和参考字符内容;
(42)计算标识字符内容与参考字符内容之间的编辑距离;
(43)根据编辑距离、标识字符内容以及参考字符内容,计算标识与参考聚类中心之间的相似度。
其中,编辑距离(Levenshtein距离)是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。其中的操作包括插入、删除、替换。一般来说,编辑距离越小,两个串的相似度越大。在这里定义的单字符编辑操作有且仅有三种:插入(Insertion)、删除(Deletion)以及替换(Substitution)
譬如,"kitten"和"sitting"这两个单词,由"kitten"转换为"sitting"需要的最少单字符编辑操作有:
(1)kitten→sitten(substitution of"s"for"k")
(2)sitten→sittin(substitution of"i"for"e")
(3)sittin→sitting(insertion of"g"at the end)
因此,"kitten"和"sitting"这两个单词之间的编辑距离为3,即:
Lev(kitten,sitting)=3
具体的,可以通过标识字符内容的字符长度、参考字符内容的字符长度以及编辑距离,表示标识与参考聚类中心之间的相似度,即,可选的,步骤“根据编辑距离、标识字符内容以及参考字符内容,计算标识与参考聚类中心之间的相似度”,具体可以包括:
(51)分别确定标识字符内容的字符长度以及参考字符内容的字符长度;
(52)根据编辑距离、标识字符内容的字符长度以及参考字符内容的字符长度,计算标识与参考聚类中心之间的相似度。
比如,可以将相似度定义如下:
Figure BDA0002454253990000111
其中,max(length(a),length(b))表示字符串a和字符串b中字符长度的最大值,S(a,b)表示字符串a和字符串b之间的相似度,也即,步骤“根据编辑距离、标识字符内容的字符长度以及参考字符内容的字符长度,计算标识与参考聚类中心之间的相似度”,具体可以包括:
(61)在所述标识字符内容的字符长度以及参考字符内容的字符长度中,选择字符长度最大的字符内容,得到目标字符内容;
(62)根据编辑距离以及目标字符内容的字符长度,计算标识与参考聚类中心之间的相似度。
因此,通过上式计算可以得到"kitten"和"sitting"这两个单词的相似度为:4/7=0.5714。
104、将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为标识的初始应用类别。
其中,预设阈值可以根据具体情况进行设置,比如,预设阈值可以为80%,那么,将相似度大于等于80%的参考聚类中心所对应的类别标注为标识的初始应用类别。
又比如,待分类应用的标识与参考聚类中心A的相似度为82%,待分类应用的标识与参考聚类中心B的相似度为80%,若将预设阈值设置为80%,则会出现对待分类应用的标识进行标注两次的情况,导致待分类应用的标识所对应的初始应用类别即为参考聚类中心A的应用类别,又为参考聚类中心B的应用类别,因此,可以将预设阈值设置为相似度最大的参考聚类中心,也即,在至少一个聚类中心选择相似度最大的参考聚类中心,并将选择的参考聚类中心所对应的类别标注为标识的初始应用类别,请参阅下式:
Figure BDA0002454253990000112
其中,Sj表示第j个聚类中心的核心串,在对标识进行标注时,考虑到标识可能会对应多个参考聚类中心,此时,选择相似度S(apk,apkj)最大的参考聚类中心,若标识不满足任意类别的控制条件,则标记其类别为0(不参与聚类)。
105、基于聚类中心集合对标注后标识以及已知类别的应用标识进行聚类处理,得到目标聚类中心集合。
例如,具体的,可以将标注后标识添加至多个已知类别的应用标识中,构建一个待处理标识集,然后,对待处理标识集进行聚类处理,进而得到目标聚类中心集合,即,可选的,在一些实例中,步骤“基于聚类中心集合对标注后标识以及已知类别的应用标识进行聚类处理,得到目标聚类中心集合”,具体可以包括:
(71)将标注后标识添加至多个已知类别的应用标识中,得到待处理标识集;
(72)对待处理标识集进行聚类处理,得到待处理标识集对应的候选聚类中心集合;
(73)计算候选聚类中心集合中的聚类中心与所述标识之间的相似度;
(74)返回执行计算标识与参考聚类中心之间的相似度的步骤,直至候选聚类中心集合与聚类中心集合之间聚类中心数量的变化量小于设定值为止,得到目标聚类中心集合。
其中,待处理标识集包括标注后标识添加和多个已知类别的应用标识,具体可以采用k均值聚类算法(k-means clustering algorithm)对待处理标识集进行聚类处理,k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件,终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小,
在本实施例中,可以对候选聚类中心集合中与所述标识之间的相似度最小的聚类中心进行更新,如下式所示:
ui=argmin|apkj|
其中,ui表示待更新的候选聚类中心,比如,原聚类中心为“com.netease.hyxd.coolpad”,其与待分类应用的标识之间的相似度最小,那么可以将其替换为聚类中心“com.netease.hyxd.baidu”,如下表所示:
Figure BDA0002454253990000131
在本实施例中,考虑到同一个名称的应用由于发布渠道不同以及适配设备不同,其包名尾部一节有差异,因此,可以允许候选聚类中心集合与聚类中心集合之间存在细微的差异,也就是说,当候选聚类中心集合与聚类中心集合之间聚类中心数量的变化量小于设定值,则确定聚类终止,并将聚类终止时的候选聚类中心集合确定为目标聚类中心集合。
106、根据目标聚类中心集合对应的已知应用类别确定待分类应用的类别。
例如,具体的,可以计算待分类应用的标识与目标聚类中心集合中每个聚类中心之间的欧式距离,将待分类应用的标识确定为欧式距离最小的聚类中心,然后,将待分类应用的标识确定为欧式距离最小的聚类中心对应的已知应用类别,标注为待分类应用的类别,比如,聚类中心A对应的标签为游戏,聚类中心B对应的标签为视频,待分类应用的标识与聚类中心A的欧式距离为6,待分类应用的标识与聚类中心B的欧式距离为3,那么,可以确定待分类应用的标识属于视频的分类,并将聚类中心B对应的已知应用类别(视频),标注为待分类应用的类别。
本发明实施例在采集待分类应用的标识后,当标识包含预设聚类中心集合中至少一个聚类中心时,将标识包含的聚类中心确定为参考聚类中心,然后,计算标识与参考聚类中心之间的相似度,接着,将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为标识的初始应用类别,再然后,基于聚类中心集合对标注后标识以及已知类别的应用标识进行聚类处理,得到目标聚类中心集合,最后,根据目标聚类中心集合对应的已知应用类别确定待分类应用的类别,相较于现有的应用分类方案而言,本实施例通过对待分类应用的标识的初始应用类别进行标注,并对标注后标注以及已知类别的应用标识聚类,从而对待分类应用的标识进行分类,在聚类时,考虑到待分类标识和预设聚类中心集合之间的相似度,提高了目标聚类中心集合的准确性,并且,在实施时无需人工干预,进而提高了应用分类的效率。
根据实施例所述的方法,以下将举例进一步详细说明。
在本实施例中将以该应用分类装置具体集成在服务器中为例进行说明。
请参阅图2a,一种应用分类方法,具体流程可以如下:
201、服务器采集待分类应用的标识。
具体的,待分类应用的标识可以是预先保存在服务器的数据库中,也可以是服务器通过访问网络接口拉取得到的,具体根据实际情况而定
202、服务器当标识包含预设聚类中心集合中至少一个聚类中心时,将标识包含的聚类中心确定为参考聚类中心。
比如,服务器可以获取预设聚类中心集合,然后,服务器提取各聚类中心的字符内容,接着,服务器检测标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容,服务器当检测到标识的字符内容包含预设聚类中心集合中至少一个聚类中心对应的字符内容,则确定标识包含预设聚类中心集合中至少一个聚类中心。
203、服务器计算标识与参考聚类中心之间的相似度。
例如,具体的,服务器可以基于标识的字符内容与参考聚类中心的字符内容之间的编辑距离,计算标识与参考聚类中心之间的相似度。
204、服务器将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为标识的初始应用类别。
例如,具体的,服务器可以将预设阈值设置为相似度最大的参考聚类中心,也即,在至少一个聚类中心选择相似度最大的参考聚类中心,并将选择的参考聚类中心所对应的类别标注为标识的初始应用类别。
205、服务器基于聚类中心集合对标注后标识以及已知类别的应用标识进行聚类处理,得到目标聚类中心集合。
例如,具体的,服务器可以将标注后标识添加至多个已知类别的应用标识中,构建一个待处理标识集,然后,对待处理标识集进行聚类处理,进而得到目标聚类中心集合。
206、服务器根据目标聚类中心集合对应的已知应用类别确定待分类应用的类别。
例如,具体的,服务器可以计算待分类应用的标识与目标聚类中心集合中每个聚类中心之间的欧式距离,将待分类应用的标识确定为欧式距离最小的聚类中心,然后,将待分类应用的标识确定为欧式距离最小的聚类中心对应的已知应用类别,标注为待分类应用的类别。
请参阅图2b,以对多个待分类应用的标识进行分类为例进行说明,首先,服务器可以采集多个待分类应用的标识,然后,服务器当检测到待分类应用的标识包含预设聚类中心集合中至少一个聚类中心时,将该标识包含的聚类中心确定为参考聚类中心;,服务器当检测到待分类应用的标识不包含预设聚类中心集合中至少一个聚类中心,将待分类应用的应用类别确定为预设类别;比如,服务器检测到标识Q1包含预设聚类中心集合中的一个聚类中心H时,将聚类中心H确定为标识Q1的参考聚类中心;服务器计算标识Q1与参考聚类中心H之间的相似度,然后,服务器将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为所述标识的初始应用类别,比如,预设阈值为参考聚类中心中相似度的最大值,因此,服务器可以将标识Q1的初始应用类别标注为聚类中心H所对应的类别,紧接着,服务器基于聚类中心集合对标注后标识(标注了类别的标识Q1)以及已知类别的应用标识进行聚类处理,得到目标聚类中心集合,最后,服务器可以根据目标聚类中心集合对应的已知应用类别确定待分类应用的类别,此外,服务器检测到标识Q2不包含预设聚类中心集合中至少一个聚类中心,将标识Q2的应用类别确定为“新类”。
进一步的,在应用推荐的场景中,当用户的手机中安装了许多未知类别的应用时,服务器可以采用上述的方法对用户手机中未知类别的应用进行分类,并根据分类结果,向用户推荐用户感兴趣的应用。
本发明实施例的服务器在采集待分类应用的标识后,服务器当标识包含预设聚类中心集合中至少一个聚类中心时,将标识包含的聚类中心确定为参考聚类中心,然后,计算标识与参考聚类中心之间的相似度,接着,服务器将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为标识的初始应用类别,再然后,服务器基于聚类中心集合对标注后标识以及已知类别的应用标识进行聚类处理,得到目标聚类中心集合,最后,服务器根据目标聚类中心集合对应的已知应用类别确定所述待分类应用的类别,相较于现有的应用分类方案而言,本实施例的服务器通过对待分类应用的标识的初始应用类别进行标注,并对标注后标注以及已知类别的应用标识聚类,从而对待分类应用的标识进行分类,在聚类时,考虑到待分类标识和预设聚类中心集合之间的相似度,提高了目标聚类中心集合的准确性,并且,在实施时无需人工干预,进而提高了应用分类的效率。
为便于更好的实施本发明实施例的应用分类方法,本发明实施例还提供一种基于上述应用分类装置(简称分类装置)。其中名词的含义与上述应用分类方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图3a,图3a为本发明实施例提供的应用分类装置的结构示意图,其中该识别装置可以包括第一采集模块301、第一确定模块302、计算模块303、标注模块304、处理模块305以及第二确定模块306,具体可以如下:
第一采集模块301,用于采集待分类应用的标识。
其中,在本实施例中,标识可以认为是应用程序包的唯一编码,俗称包名,对于同一个操作系统而言,不同应用的名称可以相同,但是,不同应用的包名不可以相同,比如,在安卓操作系统中,其管理应用的方式是以包名(即应用的标识)为准,而并非以应用的名称为准。
具体的,待分类应用的标识可以是预先保存在第一采集模块301的数据库中的,也可以是第一采集模块30通过访问网络接口拉取得到的,具体根据实际情况而定。
第一确定模块302,用于当标识包含预设聚类中心集合中至少一个聚类中心时,将标识包含的聚类中心确定为参考聚类中心。
其中,聚类中心集合包括多个聚类中心,聚类中心由多个已知类别的应用标识聚类得到的。
比如,第一确定模块302可以获取预设聚类中心集合,然后,第一确定模块302提取各聚类中心的字符内容,接着,第一确定模块302检测标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容,第一确定模块302当检测到标识的字符内容包含预设聚类中心集合中至少一个聚类中心对应的字符内容,则确定标识包含预设聚类中心集合中至少一个聚类中心。
可选的,在一些实施例中第一确定模块302具体可以包括:
第二获取单元,用于获取预设聚类中心集合,聚类中心集合包括多个聚类中心,聚类中心由多个已知类别的应用标识聚类得到的;
提取单元,用于提取各聚类中心的字符内容;
第一检测单元,用于检测标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容;
确定单元,用于当检测到标识的字符内容包含预设聚类中心集合中至少一个聚类中心对应的字符内容,则确定所述标识包含预设聚类中心集合中至少一个聚类中心。
可选的,在一些实施例中,第一检测单元具体可以用于:判断标识的字符内容的字符长度是否大于预设字符长度,若标识的字符内容的字符长度大于预设字符长度,则检测标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容;若标识的字符内容的字符串长度小于等于预设字符长度,则不检测标识的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容。
可选的,在一些实施例中,还可以包括第二检测单元,第二检测单元具体可以用于:当检测到标识对应的字符内容不包含预设聚类中心集合中至少一个聚类中心对应的字符内容,则确定标识不包含预设聚类中心集合中至少一个聚类中心,并将待分类应用的应用类别确定为预设类别。
可选的,在一些实施例中,请参阅图3b,分类装置还可以包括第二采集模块307,第二采集模块307具体可以用于:采集多个已知类别的应用标识,提取各已知类别的应用标识对应的下载量,选择下载量大于预设下载量的至少一个已知类别的应用标识,对至少一个已知类别的应用标识进行聚类处理,得到聚类中心集合。
计算模块303,用于计算标识与参考聚类中心之间的相似度。
例如,具体的,计算模块303可以基于标识的字符内容与参考聚类中心的字符内容之间的编辑距离,计算标识与参考聚类中心之间的相似度。
可选的,在一些实施例中,计算模块303具体可以包括:
第一获取单元,用于分别获取参考聚类中心的字符内容以及参考聚类中心的字符内容,得到标识字符内容和参考字符内容;
第一计算单元,用于计算标识字符内容与参考字符内容之间的编辑距离;
第二计算单元,用于根据编辑距离、标识字符内容以及参考字符内容,计算标识与参考聚类中心之间的相似度。
可选的,在一些实施例中,第二计算单元具体可以包括:
确定子单元,用于分别确定标识字符内容的字符长度以及参考字符内容的字符长度;
计算子单元,用于根据编辑距离、标识字符内容的字符长度以及参考字符内容的字符长度,计算标识与参考聚类中心之间的相似度。
可选的,在一些实施例中,计算子单元具体可以用于:在标识字符内容的字符长度以及参考字符内容的字符长度中,选择字符长度最大的字符内容,得到目标字符内容,根据编辑距离以及目标字符内容的字符长度,计算标识与参考聚类中心之间的相似度。
标注模块304,用于将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为标识的初始应用类别。
例如,具体的,标注模块304可以将预设阈值设置为相似度最大的参考聚类中心,也即,在至少一个聚类中心选择相似度最大的参考聚类中心,并将选择的参考聚类中心所对应的类别标注为标识的初始应用类别。
处理模块305,用于基于聚类中心集合对标注后标识以及所述已知类别的应用标识进行聚类处理,得到目标聚类中心集合。
例如,具体的,处理模块305可以将标注后标识添加至多个已知类别的应用标识中,构建一个待处理标识集,其中,待处理标识集包括标注后标识添加和多个已知类别的应用标识,然后,对待处理标识集进行聚类处理,进而得到目标聚类中心集合,即,可选的,在一些实施例中,处理模块305具体可以用于:将标注后标识添加至多个已知类别的应用标识中,得到待处理标识集,对待处理标识集进行聚类处理,得到待处理标识集对应的候选聚类中心集合,计算候选聚类中心集合中的聚类中心与标识之间的相似度,对候选聚类中心集合中与标识之间的相似度最小的聚类中心进行更新,返回执行对待处理标识集进行聚类处理的步骤,直至候选聚类中心集合与聚类中心集合之间聚类中心数量的变化量小于设定值为止,得到目标聚类中心集合。
第二确定模块306,用于根据目标聚类中心集合对应的已知应用类别确定所述待分类应用的类别。
例如,具体的,第二确定模块306可以计算待分类应用的标识与目标聚类中心集合中每个聚类中心之间的欧式距离,将待分类应用的标识确定为欧式距离最小的聚类中心,然后,第二确定模块306将待分类应用的标识确定为欧式距离最小的聚类中心对应的已知应用类别,标注为待分类应用的类别。
本发明实施例的服务器第一采集模块301在采集待分类应用的标识后,第一确定模块302服务器当标识包含预设聚类中心集合中至少一个聚类中心时,将标识包含的聚类中心确定为参考聚类中心,然后,计算模块303计算标识与参考聚类中心之间的相似度,接着,标注模块304将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为标识的初始应用类别,再然后,处理模块305基于聚类中心集合对标注后标识以及已知类别的应用标识进行聚类处理,得到目标聚类中心集合,最后,第二确定模块306根据目标聚类中心集合对应的已知应用类别确定待分类应用的类别,相较于现有的应用分类方案而言,本实施例的服务器通过对待分类应用的标识的初始应用类别进行标注,并对标注后标注以及已知类别的应用标识聚类,从而对待分类应用的标识进行分类,在聚类时,考虑到待分类标识和预设聚类中心集合之间的相似度,提高了目标聚类中心集合的准确性,并且,在实施时无需人工干预,进而提高了应用分类的效率。
此外,本发明实施例还提供一种电子设备,如图4所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
采集待分类应用的标识,当标识包含预设聚类中心集合中至少一个聚类中心时,将标识包含的聚类中心确定为参考聚类中心,计算标识与参考聚类中心之间的相似度,将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为标识的初始应用类别,基于聚类中心集合对标注后标识以及已知类别的应用标识进行聚类处理,得到目标聚类中心集合,根据目标聚类中心集合对应的已知应用类别确定待分类应用的类别。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本发明实施例在采集待分类应用的标识后,当标识包含预设聚类中心集合中至少一个聚类中心时,将标识包含的聚类中心确定为参考聚类中心,然后,计算标识与参考聚类中心之间的相似度,接着,将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为标识的初始应用类别,再然后,基于聚类中心集合对标注后标识以及已知类别的应用标识进行聚类处理,得到目标聚类中心集合,最后,根据目标聚类中心集合对应的已知应用类别确定待分类应用的类别,相较于现有的应用分类方案而言,本实施例通过对待分类应用的标识的初始应用类别进行标注,并对标注后标注以及已知类别的应用标识聚类,从而对待分类应用的标识进行分类,在聚类时,考虑到待分类标识和预设聚类中心集合之间的相似度,提高了目标聚类中心集合的准确性,并且,在实施时无需人工干预,进而提高了应用分类的效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种应用分类方法中的步骤。例如,该指令可以执行如下步骤:
采集待分类应用的标识,当标识包含预设聚类中心集合中至少一个聚类中心时,将标识包含的聚类中心确定为参考聚类中心,计算标识与参考聚类中心之间的相似度,将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为标识的初始应用类别,基于聚类中心集合对标注后标识以及已知类别的应用标识进行聚类处理,得到目标聚类中心集合,根据目标聚类中心集合对应的已知应用类别确定待分类应用的类别。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种应用分类方法中的步骤,因此,可以实现本发明实施例所提供的任一种应用分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种应用分类方法、装置、电子设备以及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种应用分类方法,其特征在于,包括:
采集待分类应用的标识;
当所述标识包含预设聚类中心集合中至少一个聚类中心时,将所述标识包含的聚类中心确定为参考聚类中心,所述聚类中心集合包括多个聚类中心,所述聚类中心由多个已知类别的应用标识聚类得到的;
计算所述标识与所述参考聚类中心之间的相似度;
将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为所述标识的初始应用类别;
基于所述聚类中心集合对标注后标识以及所述已知类别的应用标识进行聚类处理,得到目标聚类中心集合;
根据所述目标聚类中心集合对应的已知应用类别确定所述待分类应用的类别。
2.根据权利要求1所述的方法,其特征在于,所述计算所述标识与所述参考聚类中心之间的相似度,包括:
分别获取所述参考聚类中心的字符内容以及所述参考聚类中心的字符内容,得到标识字符内容和参考字符内容;
计算所述标识字符内容与所述参考字符内容之间的编辑距离;
根据所述编辑距离、标识字符内容以及参考字符内容,计算所述标识与所述参考聚类中心之间的相似度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述编辑距离、标识字符内容以及参考字符内容,计算所述标识与所述参考聚类中心之间的相似度,包括:
分别确定所述标识字符内容的字符长度以及所述参考字符内容的字符长度;
根据所述编辑距离、标识字符内容的字符长度以及参考字符内容的字符长度,计算所述标识与所述参考聚类中心之间的相似度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述编辑距离、标识字符内容的字符长度以及参考字符内容的字符长度,计算所述标识与所述参考聚类中心之间的相似度,包括:
在所述标识字符内容的字符长度以及所述参考字符内容的字符长度中,选择字符长度最大的字符内容,得到目标字符内容;
根据所述编辑距离以及所述目标字符内容的字符长度,计算所述标识与参考聚类中心之间的相似度。
5.根据权利要求1至4任一项所述的方法,其特征在于,检测所述标识是否包含预设聚类中心集合中至少一个聚类中心,包括:
获取预设聚类中心集合,所述聚类中心集合包括多个聚类中心,所述聚类中心由多个已知类别的应用标识聚类得到的;
提取各聚类中心的字符内容;
检测所述标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容;
当检测到所述标识的字符内容包含预设聚类中心集合中至少一个聚类中心对应的字符内容时,则确定所述标识包含预设聚类中心集合中至少一个聚类中心。
6.根据权利要求5所述的方法,其特征在于,所述检测所述标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容,包括:
判断所述标识的字符内容的字符长度是否大于预设字符长度;
若所述标识的字符内容的字符长度大于预设字符长度,则检测所述标识对应的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容;
若所述标识的字符内容的字符串长度小于等于预设字符长度,则不检测所述标识的字符内容是否包含预设聚类中心集合中至少一个聚类中心对应的字符内容。
7.根据权利要求5所述的方法,其特征在于,还包括:
当检测到所述标识对应的字符内容不包含预设聚类中心集合中至少一个聚类中心对应的字符内容时,则确定所述标识不包含预设聚类中心集合中至少一个聚类中心,并将所述待分类应用的应用类别确定为预设类别。
8.根据权利要求5所述的方法,其特征在于,所述获取预设聚类中心集合之前,还包括:
采集多个已知类别的应用标识;
提取各已知类别的应用标识对应的下载量;
选择下载量大于预设下载量的至少一个已知类别的应用标识;
对所述至少一个已知类别的应用标识进行聚类处理,得到聚类中心集合。
9.根据权利要求1至4任一项所述的方法,其特征在于,所述基于聚类中心集合对标注后标识以及所述已知类别的应用标识进行聚类处理,得到目标聚类中心集合,包括:
将标注后标识添加至多个已知类别的应用标识中,得到待处理标识集,所述待处理标识集包括标注后标识添加和多个已知类别的应用标识;
对所述待处理标识集进行聚类处理,得到所述待处理标识集对应的候选聚类中心集合;
计算所述候选聚类中心集合中的聚类中心与所述标识之间的相似度;
对所述候选聚类中心集合中与所述标识之间的相似度最小的聚类中心进行更新;
返回执行对所述待处理标识集进行聚类处理的步骤,直至所述候选聚类中心集合与所述聚类中心集合之间聚类中心数量的变化量小于设定值为止,得到目标聚类中心集合。
10.一种应用分类装置,其特征在于,包括:
第一采集模块,用于采集待分类应用的标识;
第一确定模块,用于当所述标识包含预设聚类中心集合中至少一个聚类中心时,将所述标识包含的聚类中心确定为参考聚类中心,所述聚类中心集合包括多个聚类中心,所述聚类中心由多个已知类别的应用标识聚类得到的;
计算模块,用于计算所述标识与所述参考聚类中心之间的相似度;
标注模块,用于将相似度大于等于预设阈值的参考聚类中心所对应的类别标注为所述标识的初始应用类别;
处理模块,用于基于所述聚类中心集合对标注后标识以及所述已知类别的应用标识进行聚类处理,得到目标聚类中心集合;
第二确定模块,用于根据所述目标聚类中心集合对应的已知应用类别确定所述待分类应用的类别。
11.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1-9任一项所述应用分类方法的步骤。
12.一种存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述应用分类方法的步骤。
CN202010301767.3A 2020-04-16 2020-04-16 应用分类方法、装置、电子设备以及存储介质 Active CN111507400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010301767.3A CN111507400B (zh) 2020-04-16 2020-04-16 应用分类方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010301767.3A CN111507400B (zh) 2020-04-16 2020-04-16 应用分类方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111507400A true CN111507400A (zh) 2020-08-07
CN111507400B CN111507400B (zh) 2023-10-31

Family

ID=71874385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010301767.3A Active CN111507400B (zh) 2020-04-16 2020-04-16 应用分类方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111507400B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328709A (zh) * 2020-11-19 2021-02-05 深圳市图灵机器人有限公司 一种实体标注方法及装置、服务器、存储介质
CN113792760A (zh) * 2021-08-19 2021-12-14 北京爱笔科技有限公司 聚类分析方法、装置、计算机设备和存储介质
CN114416600A (zh) * 2022-03-29 2022-04-29 腾讯科技(深圳)有限公司 应用检测方法、装置、计算机设备及存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002019248A2 (en) * 2000-08-31 2002-03-07 Hewlett-Packard Company Character recognition system
CN102096800A (zh) * 2009-12-14 2011-06-15 北京中星微电子有限公司 一种图像信息获取方法及装置
US20120185478A1 (en) * 2011-01-17 2012-07-19 Topham Philip S Extracting And Normalizing Organization Names From Text
US20130191468A1 (en) * 2012-01-25 2013-07-25 Daniel DICHIU Systems and Methods for Spam Detection Using Frequency Spectra of Character Strings
WO2014004478A1 (en) * 2012-06-26 2014-01-03 Mastercard International Incorporated Methods and systems for implementing approximate string matching within a database
CN103902597A (zh) * 2012-12-27 2014-07-02 百度在线网络技术(北京)有限公司 确定目标关键词所对应的搜索相关性类别的方法和设备
CN105824955A (zh) * 2016-03-30 2016-08-03 北京小米移动软件有限公司 短信聚类方法及装置
US20160269361A1 (en) * 2013-11-01 2016-09-15 Beijing Qihoo Technology Company Limited Method and device for recognizing an ip address of a specified category, a defense method and system
US20160294852A1 (en) * 2015-04-06 2016-10-06 Trend Micro Incorporated Determining string similarity using syntactic edit distance
CN106060025A (zh) * 2016-05-24 2016-10-26 北京奇虎科技有限公司 应用程序的自动分类方法和装置
CN106250378A (zh) * 2015-06-08 2016-12-21 腾讯科技(深圳)有限公司 公共标识分类方法及装置
CN106295671A (zh) * 2015-06-11 2017-01-04 深圳市腾讯计算机系统有限公司 一种应用列表聚类方法、装置及计算设备
CN107067045A (zh) * 2017-05-31 2017-08-18 北京京东尚科信息技术有限公司 数据聚类方法、装置、计算机可读介质和电子设备
KR101828995B1 (ko) * 2017-05-08 2018-02-14 한국과학기술정보연구원 키워드 클러스터링 방법 및 장치
CN108959329A (zh) * 2017-05-27 2018-12-07 腾讯科技(北京)有限公司 一种文本分类方法、装置、介质及设备
CN109816038A (zh) * 2019-01-31 2019-05-28 广东工业大学 一种物联网固件程序分类方法及其装置
CN110138758A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于域名词汇的误植域名检测方法
CN110991168A (zh) * 2019-12-05 2020-04-10 京东方科技集团股份有限公司 同义词挖掘方法、同义词挖掘装置及存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002019248A2 (en) * 2000-08-31 2002-03-07 Hewlett-Packard Company Character recognition system
CN102096800A (zh) * 2009-12-14 2011-06-15 北京中星微电子有限公司 一种图像信息获取方法及装置
US20120185478A1 (en) * 2011-01-17 2012-07-19 Topham Philip S Extracting And Normalizing Organization Names From Text
US20130191468A1 (en) * 2012-01-25 2013-07-25 Daniel DICHIU Systems and Methods for Spam Detection Using Frequency Spectra of Character Strings
WO2014004478A1 (en) * 2012-06-26 2014-01-03 Mastercard International Incorporated Methods and systems for implementing approximate string matching within a database
CN103902597A (zh) * 2012-12-27 2014-07-02 百度在线网络技术(北京)有限公司 确定目标关键词所对应的搜索相关性类别的方法和设备
US20160269361A1 (en) * 2013-11-01 2016-09-15 Beijing Qihoo Technology Company Limited Method and device for recognizing an ip address of a specified category, a defense method and system
US20160294852A1 (en) * 2015-04-06 2016-10-06 Trend Micro Incorporated Determining string similarity using syntactic edit distance
CN106250378A (zh) * 2015-06-08 2016-12-21 腾讯科技(深圳)有限公司 公共标识分类方法及装置
CN106295671A (zh) * 2015-06-11 2017-01-04 深圳市腾讯计算机系统有限公司 一种应用列表聚类方法、装置及计算设备
CN105824955A (zh) * 2016-03-30 2016-08-03 北京小米移动软件有限公司 短信聚类方法及装置
CN106060025A (zh) * 2016-05-24 2016-10-26 北京奇虎科技有限公司 应用程序的自动分类方法和装置
KR101828995B1 (ko) * 2017-05-08 2018-02-14 한국과학기술정보연구원 키워드 클러스터링 방법 및 장치
CN108959329A (zh) * 2017-05-27 2018-12-07 腾讯科技(北京)有限公司 一种文本分类方法、装置、介质及设备
CN107067045A (zh) * 2017-05-31 2017-08-18 北京京东尚科信息技术有限公司 数据聚类方法、装置、计算机可读介质和电子设备
CN109816038A (zh) * 2019-01-31 2019-05-28 广东工业大学 一种物联网固件程序分类方法及其装置
CN110138758A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于域名词汇的误植域名检测方法
CN110991168A (zh) * 2019-12-05 2020-04-10 京东方科技集团股份有限公司 同义词挖掘方法、同义词挖掘装置及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHEN Z , LI Z: "A collaborative recommendation algorithm based on user cluster classification", 2016 4TH IEEE INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND INTELLIGENCE SYSTEMSIEEE CCIS, pages 287 - 290 *
POPOVICI, R., & ANDONIE, R.: "Music genre classification with self-organizing maps and edit distance", IN 2015 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), pages 96 - 98 *
孙海霞, 李军莲, 吴英杰: "基于K-means的机构归一化研究", 医学信息学杂志, vol. 34, no. 7, pages 41 - 44 *
崔慧超, 刘莉: "应用聚类技术分类提取Web页面", 电脑知识与技术, vol. 6, no. 1, pages 212 - 213 *
贾君枝, 曾建勋, 李捷佳等: "科研机构名称归一化实现", 图书情报工作, vol. 62, no. 13, pages 103 - 110 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328709A (zh) * 2020-11-19 2021-02-05 深圳市图灵机器人有限公司 一种实体标注方法及装置、服务器、存储介质
CN113792760A (zh) * 2021-08-19 2021-12-14 北京爱笔科技有限公司 聚类分析方法、装置、计算机设备和存储介质
CN114416600A (zh) * 2022-03-29 2022-04-29 腾讯科技(深圳)有限公司 应用检测方法、装置、计算机设备及存储介质
CN114416600B (zh) * 2022-03-29 2022-06-28 腾讯科技(深圳)有限公司 应用检测方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111507400B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN106874279B (zh) 生成应用类别标签的方法及装置
JP5751251B2 (ja) 意味抽出装置、意味抽出方法、および、プログラム
US20160328650A1 (en) Mining Forums for Solutions to Questions
CN111507400B (zh) 应用分类方法、装置、电子设备以及存储介质
CN108027814B (zh) 停用词识别方法与装置
US11436446B2 (en) Image analysis enhanced related item decision
US20210157983A1 (en) Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN112818111B (zh) 文档推荐方法、装置、电子设备和介质
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN113315851A (zh) 域名检测方法、装置及存储介质
US9898467B1 (en) System for data normalization
CN114461783A (zh) 关键词生成方法、装置、计算机设备、存储介质和产品
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN110209895B (zh) 向量检索方法、装置和设备
CN113742474B (zh) 一种基于知识图谱的智能问答方法和装置
CN111538859B (zh) 一种动态更新视频标签的方法、装置及电子设备
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN115774797A (zh) 视频内容检索方法、装置、设备和计算机可读存储介质
CN111310016B (zh) 标签挖掘方法、装置、服务器和存储介质
CN112445933A (zh) 一种模型训练方法、装置、设备及存储介质
CN115392389B (zh) 跨模态信息匹配、处理方法、装置、电子设备及存储介质
CN112000822B (zh) 多媒体资源排序方法、装置、电子设备及存储介质
US20230214679A1 (en) Extracting and classifying entities from digital content items

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40027415

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant