CN110941638B - 应用分类规则库构建方法、应用分类方法及装置 - Google Patents

应用分类规则库构建方法、应用分类方法及装置 Download PDF

Info

Publication number
CN110941638B
CN110941638B CN201811108427.8A CN201811108427A CN110941638B CN 110941638 B CN110941638 B CN 110941638B CN 201811108427 A CN201811108427 A CN 201811108427A CN 110941638 B CN110941638 B CN 110941638B
Authority
CN
China
Prior art keywords
application
classification
classification rule
attribute
meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811108427.8A
Other languages
English (en)
Other versions
CN110941638A (zh
Inventor
邹艳梅
潘宣辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Antiy Mobile Security Co ltd
Original Assignee
Wuhan Antiy Mobile Security Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Antiy Mobile Security Co ltd filed Critical Wuhan Antiy Mobile Security Co ltd
Priority to CN201811108427.8A priority Critical patent/CN110941638B/zh
Publication of CN110941638A publication Critical patent/CN110941638A/zh
Application granted granted Critical
Publication of CN110941638B publication Critical patent/CN110941638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种应用分类规则库构建方法、应用分类方法及装置,包括:对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元属性关键词进行匹配,将匹配成功的一元属性关键词所对应的类别作为所述待分类应用的类别;其中,应用分类规则库构建方法为:针对海量第一已知应用,确定每个第一已知应用的类别及一元属性关键词;构建应用分类规则库,其中每条分类规则包括一个一元属性关键词及对应的类别。本发明实施例所采用的应用分类规则库中各分类规则的一元属性关键词来自大量第一已知应用,词汇丰富多元,基本能覆盖各应用市场上应用的属性信息包含的词汇,因而在进行待分类应用的分类时通过待分类应用的属性与一元属性关键词的模糊匹配能够覆盖到大多数待分类应用。

Description

应用分类规则库构建方法、应用分类方法及装置
技术领域
本发明实施例涉及应用分类技术领域,尤其涉及一种应用分类规则库构建方法、应用分类方法及装置。
背景技术
应用的类别可用于进行分析获取相关数据服务大众,例如,利用应用的类别进行用户分析,可以获取应用的用户的偏好,推断应用的用户属性,如:性别、职业、年龄和所处地域等,从而构建用户画像,用于网络购物时的推荐或犯罪调查中嫌疑人员信息的获取。
应用市场上应用的类别一般为上架应用时在应用分类目录人工为应用选择,而对于没有上架的类别则需要通过一定的方法进行应用类别确定。常见的方法为基于应用常见的单一的属性信息,例如,应用名称,构建分类模型进行类别确定。该方式分类所依据的元素单一,又由于应用名称命名的自由度极高,导致很多应用无法确定类别。
发明内容
本发明实施例提供一种应用分类规则库构建方法、应用分类方法及装置,用以解决现有的应用分类方法存在分类覆盖面有限、难以实现对所有应用市场上的所有应用分类的问题。
第一方面,本发明实施例提供一种应用分类规则库构建方法,包括:针对海量第一已知应用,确定每个第一已知应用的类别及一元属性关键词;构建应用分类规则库,其中每条分类规则包括一个一元属性关键词及对应的类别。
第二方面,本发明实施例提供一种应用分类规则库构建装置,包括:确定模块,用于针对海量第一已知应用,确定每个第一已知应用的类别及一元属性关键词;构建模块,用于构建应用分类规则库,其中每条分类规则包括一个一元属性关键词及对应的类别。
第三方面,本发明实施例提供一种应用分类方法,包括:对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元属性关键词进行匹配,将匹配成功的一元属性关键词所对应的类别作为所述待分类应用的类别,其中所述应用分类规则库为根据第一方面所述应用规则库构建方法构建的应用分类规则库。
第四方面,本发明实施例提供一种应用分类装置,包括:分类模块,用于对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元属性关键词进行模糊匹配,将匹配成功的一元属性关键词所对应的类别作为所述待分类应用的类别,其中所述应用分类规则库为根据第一方面所述应用规则库构建方法构建的应用分类规则库。
第五方面,本发明实施例提供一种计算机设备,包括:处理器;以及
用于存放计算机程序的存储器,所述处理器用于执行所述存储器上所存放的计算机程序,以实现第一方面所述的应用分类规则库构建方法或第三方面所述的应用分类方法。
第六方面,本发明实施例提供一种计算机存储介质,所述计算机存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的应用分类规则库构建方法或第三方面所述的应用分类方法。
本发明实施例提供的应用分类方法,所采用的应用分类规则库中各分类规则的一元属性关键词来自海量第一已知应用,因此一元属性关键词丰富多元,使得利用应用分类规则库根据一元属性关键词匹配规则对待分类应用进行分类时,基本能覆盖到几乎全部应用,实现对大多数应用的分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法实施例一提供的应用分类规则库构建方法的流程图;
图1a为本发明方法实施例一提供的应用分类规则库构建方法中步骤S101的流程图;
图2为本发明方法实施例二提供的应用分类规则库构建方法的流程图;
图3为本发明方法实施例三提供的应用分类规则库构建方法的流程图;
图4为本发明方法实施例四提供的应用分类规则库构建方法的流程图;
图5为本发明方法实施例五提供的应用分类规则库构建方法的流程图;
图6为本发明方法实施例六提供的应用分类规则库构建方法的流程图;
图7为本发明方法实施例七提供的应用分类规则库构建方法的流程图;
图8为本发明方法实施例八提供的应用分类规则库构建方法的流程图;
图9为本发明装置实施例一提供的应用分类规则库构建装置的示意图;
图9a为本发明装置实施例一提供的应用分类规则库构建装置中确定模块101的示意图;
图10为本发明装置实施例二提供的应用分类规则库构建装置的示意图;
图11为本发明方法实施例九提供的应用分类方法的流程图;
图12为本发明装置实施例三提供的应用分类装置的示意图;
图13为本发明方法实施例十提供的应用分类方法的流程图;
图14为本发明装置实施例四提供的应用分类装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明方法实施例一提供的一种应用分类规则库构建方法的流程图。如图1所示,在本实施例中,该方法包括:
步骤S101、针对海量第一已知应用,确定每个第一已知应用的类别及一元属性关键词;
在实施例中,第一已知应用为类别已知的应用,用于构建分类规则库,可以直接从各应用市场爬取。第一已知应用的类别为应用市场标注的类别、人工标注的类别或通过现有方法确定的类别。
第一已知应用的一元属性关键词为第一已知应用的属性信息中包含的词汇。第一已知应用的属性信息为第一已知应用的描述信息,包括但不限于应用程序名、包名或证书签名。同类别的应用,虽然描述信息不完全相同,但通常包含一些共同的词汇。因而,通过一元属性关键词可以覆盖到对应类别的绝大多数应用。
步骤S102、构建应用分类规则库,其中每条分类规则包括一个一元属性关键词及对应的类别。
对于每个第一已知应用,将对应的一元属性关键词和该第一已知应用的类别形成映射关系得到分类规则。分类规则的数目与一元属性关键词的个数一致。例如,一个第一已知应用,类别为旅游达人,一元属性关键词为穷游和达人;另一第一已知应用,类别为教育培训,一元属性关键词为备考,则由两个第一已知应用形成三条分类规则,构成应用分类规则库,如表1所示。
关键词 类别
分类规则1 穷游 旅游出行
分类规则2 达人 旅游出行
分类规则3 备考 教育培训
表1
本发明方法实施例一提供的应用分类规则库构建方法,基于来自海量第一已知应用的一元属性关键词构建应用分类规则库,由于一元属性关键词丰富多元,使得利用应用分类规则库根据一元属性关键词匹配规则对待分类应用进行分类时,基本能覆盖到几乎全部应用,实现对大多数应用的分类。
其中,如图1a所示,步骤S101具体包括:
步骤S101a1,针对海量第一已知应用,确定每个第一已知应用的类别;
步骤S101a2,对每个第一已知应用的属性信息与中英文词库进行匹配分词,得到该第一已知应用的一元属性关键词。
其中第一已知应用的属性信息为第一已知应用的描述信息,包括但不限于应用程序名、包名或证书签名。第一已知应用的描述信息不同则分词策略不同。例如:当描述信息为程序名时,利用中英文词库直接通过字符串匹配来进行分词,如“WIFI免费助手”被分为“WIFI”、“免费”和“助手”;当描述信息为包名时,由于包名中的词多为缩略词,与词库中带语义的完整词有较大差别,此处分词可以利用中英文词库通过包名模块分隔符“.”来分词,如包名“com.baidu.BaiduMap”被分为“com”、“baidu”和“BaiduMap”;当描述信息为应用签名时,由于应用签名的文本通过逗号分隔,此处分词可以利用中英文词库通过包名模块分隔符“,”来分词,如xx银行app的证书签名为:“CN=企业手机银行,OU=某信息技术有限公司,O=xx银行,L=深圳市,ST=广东省,C=086”被分为“CN=企业手机银行”、“OU=某信息技术有限公司”、“O=xx银行”、“L=深圳市”、“ST=广东省”和“C=086”。
作为一种可选实施例,步骤S101a1具体包括:
针对海量第一已知应用,根据第一已知应用在各类应用市场的类别分布和类别启发性,确定第一已知应用的类别。
各应用市场可根据实际情况从所有应用市场中选择,应用市场的数目不做限定。应用市场为可以下载应用的平台,且对应用进行了类别划分。不同应用市场的类别划分规则可能不同。因此,同一第一已知应用可能在多个应用市场有若干个不同类别。
在本实施例中,对于每个第一已知应用,获取该第一已知应用在各应用市场的类别。对于第一已知应用的某个类别,将该第一已知应用划分为该某个类别的应用市场的个数与所有应用市场的个数的比值,作为该第一已知应用的该某个类别的类别分布比;将该某个类别体现的应用功能与该第一已知应用的实际功能的匹配度,作为该第一已知应用的该某个类别的类别启发性。其中匹配度可以人工给定。将第一已知应用的各类别中类别分布比和类别启发性均较高的类别作为第一已知应用的类别。
确定第一已知应用的所有类别的类别分布比,举例如下,第一已知应用在a、b、c、d和e五个不同应用市场上的类别依次为A、A、B、A和C。则类别A的类别分布比为3/5,类别B的类别分布比为1/5,类别C的类别分布比为1/5。
确定第一已知应用的所有类别的类别启发性,举例如下,假设第一已知应用的名称为QQ同步助手,类别分别为系统工具、通讯社交、系统安全和生活实用工具。其中,QQ同步助手的功能为通过QQ将终端资料备份至网络方便终端数据的管理、分享和恢复。系统工具体现的应用功能为对系统数据进行处理,与QQ同步助手的功能匹配度较高;通讯社交体现的应用功能为进行交流,与QQ同步助手的功能匹配度较低;系统安全体现的应用功能为保证系统安全,与QQ同步助手的功能匹配度一般;生活实用工具体现的应用功能为增加便利,与QQ同步助手的功能匹配度较高。由上,系统工具、通讯社交、系统安全和生活实用工具分别与QQ同步助手的功能匹配度设定为:0.8、0.2、0.5和0.8。
表2列出了应用名称为QQ同步助手的第一已知应用在四个应用市场的类别以及每个类别的类别分布比和类别启发性。将每一类别的类别分布比和类别启发性之和作为该类别的最终得分,将得分最高的类别作为应用名称为QQ同步助手的第一已知应用的类别。此例中,应用名称为QQ同步助手的第一已知应用的类别被确定为系统工具。
类别1 类别2 类别3 类别4
QQ同步助手 系统工具 通讯社交 系统安全 生活实用工具
类别分布比 42% 14% 35% 9%
类别启发性 0.8 0.2 0.5 0.8
表2
通过根据第一已知应用在各类应用市场的类别分布和类别启发性,确定第一已知应用的类别,保证了第一已知应用类别的准确度,进而保证了应用分类规则库中各分类规则的准确度。
作为一种可选实施例,步骤S101之前,还包括:
对第一已知应用的属性信息进行预处理,以规范属性数据。
一方面,描述信息中通常存在无意义的数据,例如,空格、无意义词、符号以及数字等,将这些无意义的数据从描述信息中删除,以避免后续构建无效的分类规则。例如,可以将描述信息“格瓦拉@#电影”中符号“@#”去掉,还可以将“WiFi热点高级版”中无意义词“高级版”去掉;另一方面,描述信息中还存在同一单词分别采用大写、小写或大小写混用三种方式的情况,将单词统一转换为大写或小写以用于后续确定第一已知应用的类别,例如,可以将描述信息“一键Root大师”和“一键root大师”中单词统一转换为大写,则两个描述信息对应同一应用,可将两个描述信息对应类别一起用于应用的类别确定。
图2为本发明方法实施例二提供的一种应用分类规则库构建方法的流程图。如图2所示,在本实施例中,在方法实施例一的基础上,本实施例方法还包括:
步骤S203、针对应用分类规则库中每条分类规则,根据与该分类规则匹配的第二已知应用的个数和与该分类规则匹配后分类正确的第二已知应用的个数,确定该分类规则的分类准确率;
在本实施例中,第二已知应用为类别已知的应用,用于测试分类规则库中各分类规则的准确率和覆盖率,进而确定二元关键词以构建分类规则。针对应用分类规则库中每条分类规则,将各个第二已知应用的属性信息与该分类规则对应的一元属性关键词进行模糊匹配,确定属性信息包含该一元属性关键词的各第二已知应用,并统计属性信息包含该一元属性关键词的第二已知应用的个数作为与该分类规则匹配的第二已知应用的个数,将该分类规则对应的类别作为属性信息包含该一元属性关键词的每个第二已知应用的分类类别。其中,区别于精准匹配中匹配的两者完全一致方认为匹配成功,模糊匹配中匹配的两者为包含关系即认为匹配成功,则属性信息包含该一元属性关键词的第二已知应用即为与该分类规则匹配的第二已知应用。
在本实施例中,将属性信息包含该一元属性关键词的每个第二已知应用的真实类别与分类类别对比,确定该第二已知应用的分类类别是否与真实类别一致。统计分类类别与真实类别一致的第二已知应用的个数作为与该分类规则匹配后分类正确的第二已知应用的个数。
在本实施例中,将与该分类规则匹配后分类正确的第二已知应用的个数和与该条分类规则匹配的第二已知应用的个数的比值作为该条分类规则的准确率。
步骤S204、根据第二已知应用的总数和与该分类规则匹配的第二已知应用的个数,确定该分类规则的分类覆盖率;
在本实施例中,计算与该分类规则匹配的第二已知应用的个数与第二已知应用的总数的比值作为该条分类规则的覆盖率。
步骤S205、将应用分类规则库中分类准确率小于第一阈值且分类覆盖率大于第二阈值的分类规则对应的一元属性关键词两两组合得到二元属性关键词;
在本实施例中,若两条分类规则分别为:穷游(一元关键词)-旅游出行(类别),银票-金融理财,则得到的二元关键词为:穷游银票。
由于二元属性关键词由应用分类规则库中分类准确率小于第一阈值且分类覆盖率大于第二阈值的分类规则对应的一元属性关键词两两组合得到,因而,二元属性关键词能够更全面地涵盖二元属性关键词对应类别下应用的属性信息。则基于二元属性关键词构建的二元分类规则分类准确率更高。
步骤S206、确定每个二元属性关键词对应的类别;
在本实施例中,将每个二元属性关键词与各第一已知应用的属性信息进行模糊匹配,将匹配成功的第一已知应用的类别作为该二元属性关键词对应的类别。若确定的类别为多个,可根据类别分布和类别启发性确定出唯一类别作为该二元属性关键词对应的类别,具体方法如方法实施例一中,在此不再复述。
步骤S207、构建二元分类规则加入应用分类规则库,并将分类准确率小于第一阈值的分类规则从分类规则库中删除,其中每条二元分类规则包括一个二元属性关键词及该二元属性关键词对应的类别。
在本实施例中,对于每个二元属性关键词,将该二元属性关键词及其对应的类别形成映射关系得到二元分类规则加入应用分类规则库。
作为一种可选实施例,可仅将二元分类规则中分类准确率较高的二元分类规则加入应用分类规则库。其中,二元分类规则中分类准确率的确定方法可参照步骤S203的描述,在此不再复述。
本发明方法实施例二通过基于应用分类规则库中分类准确率小于第一阈值且分类覆盖率大于第二阈值的分类规则对应的一元属性关键词两两组合得到二元属性关键词,构建二元分类规则加入应用分类规则库,并将分类准确率小于第一阈值的分类规则从分类规则库中删除,实现了应用分类规则库的优化,即删除了不利于有效分类的分类规则同时加入了利于有效分类的分类规则。
图3为本发明方法实施例三提供的一种应用分类规则库构建方法的流程图。如图3所示,在本实施例中,在方法实施例一的基础上,本实施例方法还包括:
步骤S303、根据与每个一元属性关键词匹配的第三已知应用的个数和/或与每个一元属性关键词匹配后分类正确的第三已知应用的个数,确定每条分类规则的优先级。
其中,第三已知应用为应用类别已知的应用,用于测试分类规则库中各分类规则的准确率和覆盖率,进而确定分类规则的优先级。步骤S203具体包括三种确定每条规则的优先级的方法:
第一种方法:针对应用分类规则库中每条分类规则对应的一元属性关键词,将各个第三已知应用的属性信息与该一元属性关键词进行模糊匹配,确定属性信息包含该一元属性关键词的第三已知应用的个数。其中,区别于精准匹配中匹配的两者完全一致方认为匹配成功,模糊匹配中匹配的两者为包含关系即认为匹配成功,则属性信息包含该一元属性关键词的第三已知应用即为与该一元属性关键词匹配的第三已知应用。
针对应用分类规则库中的所有分类规则,计算与每条分类规则对应的一元属性关键词匹配的第三已知应用的个数与所有第三已知应用的个数的比值,将这些比值由大至小进行排序。根据排序确定分类规则的优先级,其中排序在前,则优先级高,反之则优先级低。
针对应用分类规则库中的每条分类规则,将与该条分类规则对应的一元属性关键词匹配的第三已知应用的个数与所有第三已知应用的个数的比值记为该条分类规则的覆盖率。
第二种方法:针对应用分类规则库中每条分类规则对应的一元属性关键词,将各个第三已知应用的属性信息与该一元属性关键词进行模糊匹配,确定属性信息包含该一元属性关键词的各第三已知应用,并统计属性信息包含该一元属性关键词的第三已知应用的个数,将该分类规则对应的类别作为属性信息包含该一元属性关键词的每个第三已知应用的分类类别。
针对与应用分类规则库中每条分类规则对应的一元属性关键词匹配的每个第三已知应用,将该第三已知应用的真实类别与分类类别对比,确定该第三已知应用的分类类别是否与真实类别一致。统计分类类别与真实类别一致的第三已知应用的个数。
针对应用分类规则库中所有分类规则,计算与每条分类规则对应的一元属性关键词匹配后分类正确的第三已知应用的个数和与该条分类规则对应的一元属性关键词匹配的第三已知应用的个数的比值,将这些比值由大至小进行排序。根据排序确定分类规则的优先级,其中排序在前,则优先级高,反之则优先级低。
针对应用分类规则库中的每条分类规则,将与该条分类规则对应的一元属性关键词匹配后分类正确的第三已知应用的个数和与该条分类规则对应的一元属性关键词匹配的第三已知应用的个数的比值记为该条分类规则的准确率。
第三种方法:根据第一种确定每条分类规则的优先级的方法中覆盖率的获取方式获得每条分类规则的覆盖率。根据第二种确定每条分类规则的优先级的方法中准确率的获取方式获得每条分类规则的准确率。
针对应用分类规则库中的每条分类规则,将该条分类规则的覆盖率与准确率之和作为该条分类规则的权重。根据权重由大到小对各分类规则进行排序。根据排序确定分类规则的优先级,其中排序在前,则优先级高,反之则优先级低。
本发明方法实施例三中,当将构建好的应用分类规则库用于对待分类应用进行分类时,可能会匹配到若干条分类规则。通过为每个分类规则确定优先级,可以从若干条分类规则中筛选出优先级较高的分类规则用于确定待分类应用的类别,进而提高分类准确度。
图4为本发明方法实施例四提供的一种应用分类规则库构建方法的流程图。如图4所示,在本实施例中,在方法实施例一的基础上,本实施例方法还包括:
步骤S403、对所有一元属性关键词进行词性分类;
在本实施例中,一元属性关键词包括多种词性,例如,形容词、名词或动词等。将所有一元属性关键词进行词性分类,得到若干组一元属性关键词,每组一元属性关键词的词性相同。对所有一元属性关键词进行词性分类以进一步确定每类词性的一元属性关键词对应分类规则的优先级。
步骤S404、对于每类词性的一元属性关键词,根据所匹配的第四已知应用的个数和/或匹配后分类正确的第四已知应用的个数,确定每类词性的一元属性关键词所对应的分类规则的优先级。
其中,第四已知应用为应用类别已知的应用,用于测试每类词性的一元属性关键词所对应的分类规则准确率和覆盖率,进而确定每类词性的一元属性关键词所对应的分类规则的优先级。步骤S304具体包括三种确定每类词性所对应的分类规则的优先级的方法:
第一种方法:针对应用分类规则库中分类规则对应的每类词性的一元属性关键词,将各个第四已知应用的属性信息与该类词性的一元属性关键词进行模糊匹配,确定属性信息包含该类词性对应的任一一元属性关键词的第四已知应用的个数。
针对应用分类规则库中分类规则对应的各类词性的一元属性关键词,将每类词性的一元属性关键词匹配的第四已知应用的个数与所有类词性的一元属性关键词匹配的第四已知应用的个数的比值由大至小进行排序。根据排序确定每类词性对应的分类规则的优先级,其中排序在前,则优先级高,反之则优先级低。
针对应用分类规则库中分类规则对应的各类词性的一元属性关键词,将与每类词性的一元属性关键词匹配的第四已知应用的个数与所有类词性的一元属性关键词匹配的第四已知应用的个数的比值记为该类词性对应的分类规则的覆盖率。
第二种方法:针对应用分类规则库中分类规则对应的每类词性的一元属性关键词,将各个第四已知应用的属性信息与该类词性的一元属性关键词进行模糊匹配,确定属性信息包含该类词性对应的任一一元属性关键词的各第四已知应用,并统计属性信息包含该类词性对应的任一一元属性关键词的第四已知应用的个数,将与每个第四已知应用匹配的分类规则的类别作为该第四已知应用的分类类别。
针对与应用分类规则库中分类规则对应的每类词性的一元属性关键词匹配的每个第四已知应用,将该第四已知应用的真实类别与分类类别对比,确定该第四已知应用的分类类别是否与真实类别一致。统计分类类别与真实类别一致的第四已知应用的个数。
针对应用分类规则库中分类规则对应的各类词性的一元属性关键词,将与该类词性的一元属性关键词匹配后分类正确的第四已知应用的个数和与该类词性的一元属性关键词匹配的第四已知应用的个数的比值由大至小进行排序。根据排序确定每类词性对应的分类规则的优先级,其中排序在前,则优先级高,反之则优先级低。
针对应用分类规则库中分类规则对应的各类词性的一元属性关键词,将与该类词性的一元属性关键词匹配后分类正确的第四已知应用的个数和与该类词性的一元属性关键词匹配的第四已知应用的个数的比值记为该类词性对应的分类规则的准确率。
第三种方法:根据第一种确定每类词性的一元属性关键词对应的分类规则的优先级的方法中覆盖率的获取方式获得每类词性的一元属性关键词对应的分类规则的覆盖率。根据第二种确定每类词性的一元属性关键词对应的分类规则的优先级的方法中准确率的获取方式获得每类词性的一元属性关键词对应的分类规则的准确率。
针对应用分类规则库中分类规则对应的各类词性的一元属性关键词,将该类词性的一元属性关键词对应的分类规则的覆盖率与准确率之和作为该类词性对应的分类规则的权重。根据权重由大到小对每类词性对应的分类规则进行排序。根据排序确定每类词性对应的分类规则的优先级,其中排序在前,则优先级高,反之则优先级低。
本发明方法实施例四中,当将构建好的应用分类规则库用于对待分类应用进行分类时,可能会匹配到若干条分类规则。通过为每类词性对应的分类规则确定优先级,可以从若干条分类规则中筛选出优先级较高的一类词性对应的分类规则用于确定待分类应用的类别,进而提高分类准确度。
此外,可同时采用本发明方法实施例三与方法实施例四确定两种优先级。当将构建好的应用分类规则库用于对待分类应用进行分类匹配到多条分类规则时,依次采用这两种优先级对匹配到的若干条分类规则进行筛选。其中,对这两种优先级的采用顺序不做限定。根据第二次筛选出的分类规则确定待分类应用的类别。通过对匹配到的若干条分类规则进行两次筛选,得到分类准确度更高的分类规则用于确定待分类应用的类别,可以提高分类准确度。
图5为本发明方法实施例五提供的一种应用分类规则库构建方法的流程图。如图5所示,在本实施例中,在方法实施例一的基础上,本实施例方法还包括:
步骤S503、对所有一元属性关键词分别在多个第五已知应用的属性信息中的位置进行分类;
步骤S504、对于每类位置的一元属性关键词,根据所匹配的第五已知应用的个数和/或匹配后分类正确的第五已知应用的个数,确定在每类位置的一元属性关键词所对应的分类规则的优先级。
在本实施例中,一元属性关键词分别在多个第五已知应用属性信息中的位置具体是指一元属性关键词在多个第五已知应用的属性信息字段中的位置,例如,可以为字段的首、中或尾。
其中,第五已知应用为应用类别已知的应用,用于测试在每类位置的一元属性关键词所对应的分类规则准确率和覆盖率,进而确定在每类位置的一元属性关键词所对应的分类规则的优先级。
针对应用分类规则库中每条分类规则对应的一元属性关键词,将各第五已知应用的属性信息与该一元属性关键词进行模糊匹配,确定属性信息包含该一元属性关键词的各第五已知应用。确定该一元属性关键词在属性信息包含该一元属性关键词的各第五已知应用的属性信息字段中的位置,例如,该一元属性关键词的第一个字符位于对应第四已知应的属性信息字段的第X个字符处。
针对应用分类规则库中所有分类规则对应的一元属性关键词,对各一元属性关键词在对应的第五已知应用的属性信息字段中的位置进行分类,确定在每类位置的各一元属性关键词匹配的第五已知应用,并统计在每类位置的所有一元属性关键词匹配到的第五已知应用的个数,将与每个第五已知应用匹配的分类规则的类别作为该第五已知应用的分类类别。
确定在每类位置的一元属性关键词所对应的分类规则的优先级,具体包括三种方法:
第一种方法:针对应用分类规则库中分类规则对应的在每类位置的一元属性关键词,将在该类位置的所有一元属性关键词匹配到的第五已知应用的个数与所有第五已知应用的个数的比值由大至小进行排序。根据排序确定在每类位置的一元属性关键词对应的分类规则的优先级,其中排序在前,则优先级高,反之则优先级低。
针对应用分类规则库中分类规则对应的在每类位置的一元属性关键词,将在该类位置的所有一元属性关键词匹配到的第五已知应用的个数与所有第五已知应用的个数的比值记为在该类位置的的一元属性关键词对应的分类规则的覆盖率。
第二种方法:针对与应用分类规则库中分类规则对应的在每类位置的一元属性关键词匹配的每个第五已知应用,将该第五已知应用的真实类别与分类类别对比,确定该第五已知应用的分类类别是否与真实类别一致。统计分类类别与真实类别一致的第五已知应用的个数。
针对与应用分类规则库中分类规则对应的在每类位置的一元属性关键词将与在该类位置的一元属性关键词匹配后分类正确的第五已知应用的个数和与在该类位置的一元属性关键词匹配的第五已知应用的个数的比值由大至小进行排序。根据排序确定每类位置的一元属性关键词对应的分类规则的优先级,其中排序在前,则优先级高,反之则优先级低。
针对与应用分类规则库中分类规则对应的在每类位置的一元属性关键词,将与在该类位置的一元属性关键词匹配后分类正确的第五已知应用的个数和与在该类位置的一元属性关键词匹配的第五已知应用的个数的比值记为在该类位置的一元属性关键词对应的分类规则的准确率。
第三种方法:根据第一种确定在每类位置的一元属性关键词所对应的分类规则的优先级的方法中覆盖率的获取方式获得每类词性对应的分类规则的覆盖率。根据第二种确定在每类位置的一元属性关键词所对应的分类规则的优先级的方法中准确率的获取方式获得在每类位置的一元属性关键词所对应的分类规则的准确率。
将在每类位置的一元属性关键词所对应的分类规则的覆盖率与准确率之和作为该类在每类位置的一元属性关键词所对应的分类规则的权重。根据权重由大到小对在每类位置的一元属性关键词所对应的分类规则进行排序。根据排序确定在每类位置的一元属性关键词所对应的分类规则的优先级,其中排序在前,则优先级高,反之则优先级低。
本发明方法实施例五中,当将构建好的应用分类规则库用于对待分类应用进行分类时,可能会匹配到若干条分类规则。通过为在每类位置的一元属性关键词对应的分类规则确定优先级,可以从若干条分类规则中筛选出优先级较高的一类位置对应的分类规则用于确定待分类应用的类别,进而提高分类准确度。
此外,可同时采用方法实施例三或方法实施例四与方法实施例五确定两种优先级。
此外,可同时采用本发明方法实施例三、方法施例四和方法实施例五确定三种优先级。
图6为本发明方法实施例六提供的一种应用分类规则库构建方法的流程图。如图6所示,在本实施例中,在方法实施例一的基础上,步骤S101a2具体包括:
步骤S601、对每个第一已知应用的属性信息进行分词,以获得一元属性关键词;
步骤S602、对每个一元属性关键词进行相似语义文本挖掘,将挖掘到的相似语义词作为扩展词增加至一元属性关键词中。
在本实施例中,对每个第一已知应用的属性信息进行分词,以获得一元属性关键词,与步骤S101a2中通过分词获得一元属性关键词的方法相同,在此不再复述。
表3
为了后续构建的应用分类规则库中有丰富的分类规则,对每个一元属性关键词进行相似语义文本挖掘,将挖掘到的相似语义词作为扩展词增加至一元属性关键词中。表3给出了三个一元属性关键词:备考、银票和购物,进行相似语义文本挖掘得到的相似语义词。
相应地,步骤S102具体包括:
根据一元属性关键词及其扩展词构建应用分类规则库,其中每条分类规则包括一个一元属性关键词及对应的类别。
在本实施例中,对于每个第一已知应用,将对应的各一元属性关键词以及一元属性关键词的扩展词分别和该第一已知应用的类别形成映射关系得到多条分类规则。例如,第一已知应用,对应的一元属性关键词为备考,扩展词为考试、考核和测验,对应的类别为教育培训,则形成四条分类规则:备考-教育培训,考试-教育培训,考核-教育培训,测验-教育培训。将各第一已知应用对应的分类规则一起用于形成应用分类规则库。
在本发明方法实施例六中,通过对各第一已知应用的一元属性关键词进行扩展,使得构建的应用分类规则库中一元属性关键词更加丰富多元,能够更全面的覆盖各应用市场的应用。
此外,在方法实施例二至五中任一方法实施例的基础上,步骤S101a2具体包括步骤S601和步骤S602形成的方法实施例也在本发明的保护范围。
图7为本发明方法实施例七提供的一种应用分类规则库构建方法的流程图。如图7所示,在本实施例中,在方法实施例二的基础上,该方法还包括:
步骤S708、根据与每个一元或二元属性关键词匹配的第六已知应用的个数和/或与每个一元或二元属性关键词匹配后分类正确的第六已知应用的个数,确定每条分类规则的优先级。
在本实施例中,对于应用分类规则库中每条分类规则,根据与该分类规则对应的一元或二元属性关键词匹配的第六已知应用的个数和/或与该分类规则对应的一元或二元属性关键词匹配后分类正确的第六已知应用的个数,确定该条分类规则的优先级。步骤S708具体包括三种确定每条规则的优先级的方法,可参考与方法实施例三确定,在此不再复述。
本发明方法实施例七中,当将构建好的应用分类规则库用于对待分类应用进行分类时,可能会匹配到若干条分类规则。通过为每个分类规则确定优先级,可以从若干条分类规则中筛选出优先级较高的分类规则用于确定待分类应用的类别,进而提高分类准确度。
图8为本发明方法实施例八提供的一种应用分类规则库构建方法的流程图。如图7所示,在本实施例中,在方法实施例一的基础上,该方法还包括:
步骤S803、当各应用市场出现若干新的已知应用时,确定每一新的已知应用的类别和一元属性关键词;
步骤S804、根据各新的已知应用的类别和一元属性关键词构建新的分类规则,加入应用分类规则库。
在本实施例中,新的已知应用为软件供应商新开发的应用。确定每个新的已知应用的类别和一元属性关键词的方法与实施例一步骤S101中确定每个第一已知应用的类别和一元属性关键词的方法相同,在此不再复述。
根据各新的已知应用的类别和一元属性关键词构建新的分类规则;将每个新的分类规则与应用分类规则库中各分类规则进行对比,若该新的分类规则与应用分类规则库中任一分类规则相同,则不做处理,若该新的分类规则的一元属性关键词与应用分类规则库中各分类规则的一元属性关键词均不同,则将新的分类规则加入应用分类规则库,若该新的分类规则的一元属性关键词与应用分类规则库中任一分类规则的一元属性关键词相同且该新的分类规则的类别与任一分类规则的类别不相同,则推送人工判定是否加入应用分类规则库。
在本发明方法实施例七中,通过根据应用市场中出现的新应用构建分类规则,加入应用分类规则库,使得应用分类规则库的覆盖面进一步扩大,且能够适应应用市场的变化。
此外,在方法实施例二至七中任一方法实施例的基础上,还包括步骤S803和步骤S804形成的方法实施例也在本发明的保护范围内。
图9为本发明装置实施例一提供一种应用分类规则库构建装置的示意图。如图9所示,在本实施例中,该装置包括:
确定模块101,用于针对海量第一已知应用,确定每个第一已知应用的类别及一元属性关键词;
构建模块102,用于构建应用分类规则库,其中每条分类规则包括一个一元属性关键词及对应的类别。
本发明装置实施例一提供的应用分类规则库构建装置,基于来自海量第一已知应用的一元属性关键词构建应用分类规则库,由于一元属性关键词丰富多元,因此利用应用分类规则库根据一元属性关键词匹配规则对待分类应用进行分类时,基本能覆盖到几乎全部应用,实现对大多数应用的分类。
其中,如图9a所示,确定模块101具体包括:
类别确定模块101a1,用于针对海量第一已知应用,确定每个第一已知应用的类别;
关键词确定模块101a2,用于针对海量第一已知应用,通过对每个第一已知应用的属性信息与中英文词库进行匹配分词,得到该第一已知应用的一元属性关键词。
作为一种可选实施例,类别确定模块101a1具体用于针对海量第一已知应用,根据第一已知应用在各类应用市场的类别分布和类别启发性,确定第一已知应用的类别。
通过根据第一已知应用在各类应用市场的类别分布和类别启发性,确定第一已知应用的类别,保证了第一已知应用类别的准确度,进而保证了应用分类规则库中各分类规则的准确度。
作为一种可选实施例,该装置还包括:
预处理模块,用于对第一已知应用的属性信息进行预处理,以规范属性数据。
通过将无意义的数据从属性信息中删除,可以避免后续构建无效的分类规则。
进一步地,在装置实施例一的基础上,可还包括:
第一优先级确定模块,用于根据与每个一元属性关键词匹配的第三已知应用的个数和/或与每个一元属性关键词匹配后分类正确的第三已知应用的个数,确定每条分类规则的优先级。
当将构建好的应用分类规则库用于对待分类应用进行分类时,可能会匹配到若干条分类规则。通过为每个分类规则确定优先级,可以从若干条分类规则中筛选出优先级较高的分类规则用于确定待分类应用的类别,进而提高分类准确度。
进一步地,在装置实施例一的基础上,可还包括:
词性分类模块,用于对所有一元属性关键词进行词性分类;
第二优先级确定模块,用于对于每类词性的一元属性关键词,根据所匹配的第四已知应用的个数和/或匹配后分类正确的第四已知应用的个数,确定每类词性的一元属性关键词所对应的分类规则的优先级。
当将构建好的应用分类规则库用于对待分类应用进行分类时,可能会匹配到若干条分类规则。通过为每类词性对应的分类规则确定优先级,可以从若干条分类规则中筛选出优先级较高的一类词性对应的分类规则用于确定待分类应用的类别,进而提高分类准确度。
此外,在装置实施例一的基础上,可同时包括第一优先级确定模块、词性分类模块和第二优先级确定模块以确定两种优先级。当将构建好的应用分类规则库用于对待分类应用进行分类匹配到多条分类规则时,依次采用这两种优先级对匹配到的若干条分类规则进行筛选。其中,对这两种优先级的采用顺序不做限定。根据第二次筛选出的分类规则确定待分类应用的类别。通过对匹配到的若干条分类规则进行两次筛选,得到分类准确度更高的分类规则用于确定待分类应用的类别,可以提高分类准确度。
进一步地,在装置实施例一的基础上,可还包括:
位置分类模块,用于对所有一元属性关键词分别在多个第五已知应用的属性信息中的位置进行分类;
第三优先级确定模块,用于对于每类位置的一元属性关键词,根据所匹配的第五已知应用的个数和/或匹配后分类正确的第五已知应用的个数,确定在每类位置的一元属性关键词所对应的分类规则的优先级。
当将构建好的应用分类规则库用于对待分类应用进行分类时,可能会匹配到若干条分类规则。通过为在每类位置的一元属性关键词对应的分类规则确定优先级,可以从若干条分类规则中筛选出优先级较高的一类位置对应的分类规则用于确定待分类应用的类别,进而提高分类准确度。
此外,在装置实施例一的基础上,可还同时包括第一优先级确定模块、位置分类模块和第三优先级确定模块,或者可还同时包括词性分类模块、第二优先级确定模块、位置分类模块和第三优先级以确定两种优先级,进而可同时采用这两种优先级确定待分类应用的类别。在此不再详述。
此外,在装置实施例一的基础上,可还同时包括第一优先级确定模块、词性分类模块、第二优先级确定模块、位置分类模块和第三优先级以确定两种优先级以确定三种优先级用于确定待分类应用的类别。在此不再详述。
进一步地,在装置实施例一中,关键词确定模块101a2可具体包括:
分词模块,用于对每个第一已知应用的属性信息进行分词,以获得一元属性关键词;
扩展模块,用于对每个一元属性关键词进行相似语义文本挖掘,将挖掘到的相似语义词作为扩展词增加至一元属性关键词中。
通过对各第一已知应用的一元属性关键词进行扩展,使得构建的应用分类规则库中一元属性关键词更加丰富多元,能够更全面的覆盖各应用市场的应用。
图10为本发明装置实施例二提供一种应用分类规则库构建装置的示意图。如图10所示,在本实施例中,在装置实施例一的基础上,本实施例装置还包括:
准确率确定模块,用于针对应用分类规则库中每条分类规则,根据与该分类规则匹配的第二已知应用的个数和与该分类规则匹配后分类正确的第二已知应用的个数,确定该分类规则的分类准确率;
覆盖率确定模块,用于根据第二已知应用的总数和与该分类规则匹配的第二已知应用的个数,确定该分类规则的分类覆盖率;
组合模块,用于将应用分类规则库中分类准确率小于第一阈值且分类覆盖率大于第二阈值的分类规则对应的一元属性关键词两两组合得到二元属性关键词;
类别确定模块,用于确定每个二元属性关键词对应的类别;
加入模块,用于构建二元分类规则加入应用分类规则库,并将分类准确率小于第一阈值且分类覆盖率大于第二阈值的分类规则从分类规则库中删除,其中每条二元分类规则包括一个二元属性关键词及该二元属性关键词对应的类别。
通过基于应用分类规则库中分类准确率小于第一阈值且分类覆盖率大于第二阈值的分类规则对应的一元属性关键词两两组合得到二元属性关键词,构建二元分类规则加入应用分类规则库,并将分类准确率小于第一阈值的分类规则从分类规则库中删除,实现了应用分类规则库的优化,即删除了不利于有效分类的分类规则同时加入了利于有效分类的分类规则。
进一步地,在装置实施例二的基础上,该装置可还包括:
优先级确定模块,用于根据与每个一元或二元属性关键词匹配的第六已知应用的个数和/或与每个一元或二元属性关键词匹配后分类正确的第六已知应用的个数,确定每条分类规则的优先级。
当将构建好的应用分类规则库用于对待分类应用进行分类时,可能会匹配到若干条分类规则。通过为每个分类规则确定优先级,可以从若干条分类规则中筛选出优先级较高的分类规则用于确定待分类应用的类别,进而提高分类准确度。
进一步地,在装置实施例一或二,或者装置实施例一或二进一步拓展后的基础上,该装置可还包括:
新确定模块,用于当各应用市场出现若干新的已知应用时,确定每一新的已知应用的类别和一元属性关键词;
加入模块,用于根据各新的已知应用的类别和一元属性关键词构建新的分类规则,加入应用分类规则库。
通过根据应用市场中出现的新应用构建分类规则,加入应用分类规则库,使得应用分类规则库的覆盖面进一步扩大,且能够适应应用市场的变化。
图11为本发明方法实施例九提供的一种应用分类方法的流程图。如图11所示,在本实施例中,该方法包括:
步骤S901、对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元或二元属性关键词进行匹配,将匹配成功的一元或二元属性关键词所对应的类别作为待分类应用的类别,其中应用分类规则库为根据方实施例一、二、六或八的应用规则库构建方法构建的应用分类规则库。
在本实施例中,对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元或二元属性关键词进行匹配,一旦匹配到一元或二元属性关键词,就将一元或二元属性关键词对应的规则作为待分类应用的规则。
本发明方法实施例九提供的应用分类方法,所采用的应用分类规则库中各分类规则的一元或二元属性关键词来自海量第一已知应用的一元属性关键词,丰富多元,因此利用应用分类规则库根据一元或二元属性关键词匹配规则对待分类应用进行分类时,基本能覆盖到几乎全部应用,实现对大多数应用的分类。
图12为本发明装置实施例三提供一种应用分类装置的示意图。如图12所示,在本实施例中,该装置包括:
分类模块901,用于对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元属性关键词进行匹配,将匹配成功的一元属性关键词所对应的类别作为待分类应用的类别,其中应用分类规则库为根据方法实施例一、二、六或八的应用规则库构建方法构建的应用分类规则库。
本发明装置实施例九提供的应用分类方装置,所采用的应用分类规则库中各分类规则的一元或二元属性关键词来自海量第一已知应用的一元属性关键词,丰富多元,因此利用应用分类规则库根据一元或二元属性关键词匹配规则对待分类应用进行分类时,基本能覆盖到几乎全部应用,实现对大多数应用的分类。
图13为方法实施例十提供的一种应用分类方法的流程图。如图13所示,在本实施例中,该方法包括:
步骤S1001、对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元属性关键词进行匹配,若待分类应用的属性与应用分类规则库中多个一元属性关键词成功匹配,则根据成功匹配的一元属性关键词所对应的分类规则的优先级确定待分类应用的类别,其中应用分类规则库为根据方法实施例三、四、五或七的应用规则库构建方法构建的应用分类规则库。
在本实施例中,对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元属性关键词进行匹配,若待分类应用的属性与应用分类规则库中一个一元属性关键词成功匹配,将该一元属性关键词对应类别作为待分类应用的类别。若待分类应用的属性与应用分类规则库中多个一元属性关键词成功匹配,根据分类规则的各种优先级确定顺序,依次采用对应的分类规则优先级,对匹配到的若干条分类规则进行筛选。当筛选出的分类规则数目仅一条时,停止筛选,将这一条分类规则的类别作为待分类应用的类别,若依次筛选完毕后仍筛选出多条分类规则,则从这选出的多条分类规则中随机选择一条分类规则,并将该随机选择的分类规则的类别作为待分类应用的类别。
此外,应用分类规则库还可以为分类规则具备采用方法实施例三、四和五确定的三种优先级中至少两种优先级的应用分类规则库。
以应用分类规则库为分类规则具备采用方法实施例三、四和五确定的三种优先级的应用分类规则库为例:
对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元属性关键词进行匹配,若待分类应用的属性与应用分类规则库中多个一元属性关键词成功匹配,先根据应用分类规则库中每条分类规则的优先级,也称作分类规则的第一优先级,从多个成功匹配的分类规则中筛选出第一优先级最高的分类规则。
若筛选出的第一优先级最高的分类规则为多条,再根据每类词性所对应的分类规则的优先级,也称作分类规则的第二优先级,从第一优先级最高的分类规则中筛选出第二优先级最高的分类规则。
若筛选出的第二优先级最高的的分类规则为多条,再根据在每类位置的一元属性关键词所对应的分类规则的优先级,也称作分类规则的第二优先级,筛选出第三优先级最高的分类规则。
若第三优先级最高的分类规则为多条,则从第三优先级最高的分类规则中任选一条分类规则,将这任选的一条分类规则的类别作为待分类应用的类别。
本发明方法实施例十提供的应用分类方法,通过采用分类规则具有优先级的应用分类规则库,对待分类应用进行分类,可以为待分类应用筛选出更匹配的分类规则,提高了分类准确度。
图14为本发明装置实施例四提供一种应用分类装置的示意图。如图14所示,在本实施例中,该装置包括:
分类模块1001,用于对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元属性关键词进行匹配,若待分类应用的属性与应用分类规则库中多个一元属性关键词成功匹配,则根据成功匹配的一元属性关键词所对应的分类规则的优先级确定待分类应用的类别,其中应用分类规则库为根据方法实施例三、四、五或七的应用规则库构建方法构建的应用分类规则库。
此外,应用分类规则库还可以为分类规则具备采用方法实施例三、四和五确定的三种优先级中至少两种优先级的应用分类规则库。
本发明装置实施例十提供的应用分类装置,通过采用分类规则具有优先级的应用分类规则库,对待分类应用进行分类,可以为待分类应用筛选出更匹配的分类规则,提高了分类准确度。
本发明实施例提供一种计算机设备,包括:处理器;以及用于存放计算机程序的存储器,所述处理器用于执行所述存储器上所存放的计算机程序,以实现方法实施例一至七所述的应用分类规则库构建方法和方法实施例八与九所述的应用分类方法。
本发明实施例提供一种计算机存储介质,所述计算机存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现以实现方法实施例一至七所述的应用分类规则库构建方法和方法实施例八与九所述的应用分类方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种应用分类规则库构建方法,包括:
针对海量第一已知应用,确定每个第一已知应用的类别及一元属性关键词;
构建应用分类规则库,其中每条分类规则包括一个一元属性关键词及对应的类别;
针对所述应用分类规则库中每条分类规则,根据与该分类规则匹配的第二已知应用的个数和与该分类规则匹配后分类正确的第二已知应用的个数,确定该分类规则的分类准确率;
根据第二已知应用的总数和与该分类规则匹配的第二已知应用的个数,确定该分类规则的分类覆盖率;
将应用分类规则库中分类准确率小于第一阈值且分类覆盖率大于第二阈值的分类规则对应的一元属性关键词两两组合得到二元属性关键词;
确定每个二元属性关键词对应的类别;
构建二元分类规则加入应用分类规则库,并将分类准确率小于第一阈值的分类规则从分类规则库中删除,其中每条二元分类规则包括一个二元属性关键词及该二元属性关键词对应的类别。
2.根据权利要求1所述的应用分类规则库构建方法,其特征在于,还包括:
根据与每个一元属性关键词匹配的第三已知应用的个数和/或与每个一元属性关键词匹配后分类正确的第三已知应用的个数,确定每条分类规则的优先级。
3.根据权利要求2所述的应用分类规则库构建方法,其特征在于,还包括:
对所有一元属性关键词进行词性分类;
对于每类词性的一元属性关键词,根据所匹配的第四已知应用的个数和/或匹配后分类正确的第四已知应用的个数,确定每类词性的一元属性关键词所对应的分类规则的优先级。
4.根据权利要求2或3所述的应用分类规则库构建方法,其特征在于,还包括:
对所有一元属性关键词分别在多个第五已知应用的属性信息中的位置进行分类;
对于每类位置的一元属性关键词,根据所匹配的第五已知应用的个数和/或匹配后分类正确的第五已知应用的个数,确定在每类位置的一元属性关键词所对应的分类规则的优先级。
5.根据权利要求4所述的应用分类规则库构建方法,其特征在于,确定每个第一已知应用的类别,包括:
根据第一已知应用在各类应用市场的类别分布和类别启发性,确定第一已知应用的类别。
6.根据权利要求4所述的应用分类规则库构建方法,其特征在于,确定每个第一已知应用的一元属性关键词,包括:
对每个第一已知应用的属性信息进行分词,以获得一元属性关键词;
对每个一元属性关键词进行相似语义文本挖掘,将挖掘到的相似语义词作为扩展词增加至一元属性关键词中。
7.根据权利要求1所述的应用分类规则库构建方法,其特征在于,还包括:
根据与每个一元或二元属性关键词匹配的第六已知应用的个数和/或与每个一元或二元属性关键词匹配后分类正确的第六已知应用的个数,确定每条分类规则的优先级。
8.一种应用分类规则库构建装置,包括:
确定模块,用于针对海量第一已知应用,确定每个第一已知应用的类别及一元属性关键词;
构建模块,用于构建应用分类规则库,其中每条分类规则包括一个一元属性关键词及对应的类别;
针对所述应用分类规则库中每条分类规则,根据与该分类规则匹配的第二已知应用的个数和与该分类规则匹配后分类正确的第二已知应用的个数,确定该分类规则的分类准确率;
根据第二已知应用的总数和与该分类规则匹配的第二已知应用的个数,确定该分类规则的分类覆盖率;
将应用分类规则库中分类准确率小于第一阈值且分类覆盖率大于第二阈值的分类规则对应的一元属性关键词两两组合得到二元属性关键词;
确定每个二元属性关键词对应的类别;
构建二元分类规则加入应用分类规则库,并将分类准确率小于第一阈值的分类规则从分类规则库中删除,其中每条二元分类规则包括一个二元属性关键词及该二元属性关键词对应的类别。
9.一种应用分类方法,包括:
对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元或二元属性关键词进行匹配,将匹配成功的一元或二元属性关键词所对应的类别作为所述待分类应用的类别,其中所述应用分类规则库为根据权利要求1所述的应用规则库构建方法构建的应用分类规则库。
10.一种应用分类装置,包括:
分类模块,用于对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元或二元属性关键词进行匹配,将匹配成功的一元或二元属性关键词所对应的类别作为所述待分类应用的类别,其中所述应用分类规则库为根据权利要求1所述的应用规则库构建方法构建的应用分类规则库。
11.一种应用分类方法,包括:
对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元属性关键词进行匹配,若所述待分类应用的属性与所述应用分类规则库中多个一元属性关键词成功匹配,则根据成功匹配的一元属性关键词所对应的分类规则的优先级确定所述待分类应用的类别,其中所述应用分类规则库为根据权利要求2-7中任一项权利要求所述的应用规则库构建方法构建的应用分类规则库。
12.一种应用分类装置,包括:
分类模块,对于待分类应用,将其属性信息与应用分类规则库中各分类规则所对应的一元属性关键词进行匹配,若所述待分类应用的属性与所述应用分类规则库中多个一元属性关键词成功匹配,则根据成功匹配的一元属性关键词所对应的分类规则的优先级确定所述待分类应用的类别,其中所述应用分类规则库为根据权利要求2-7中任一项权利要求所述的应用规则库构建方法构建的应用分类规则库。
13.一种计算机设备,包括:
处理器;以及
用于存放计算机程序的存储器,
其特征在于,所述处理器用于执行所述存储器上所存放的计算机程序,以实现权利要求1-7中任一项权利要求所述的应用分类规则库构建方法或权利要求9或11所述的应用分类方法。
14.一种计算机存储介质,其特征在于,所述计算机存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项权利要求所述的应用分类规则库构建方法或实现权利要求9或11所述的应用分类方法。
CN201811108427.8A 2018-09-21 2018-09-21 应用分类规则库构建方法、应用分类方法及装置 Active CN110941638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811108427.8A CN110941638B (zh) 2018-09-21 2018-09-21 应用分类规则库构建方法、应用分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811108427.8A CN110941638B (zh) 2018-09-21 2018-09-21 应用分类规则库构建方法、应用分类方法及装置

Publications (2)

Publication Number Publication Date
CN110941638A CN110941638A (zh) 2020-03-31
CN110941638B true CN110941638B (zh) 2023-09-08

Family

ID=69904434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811108427.8A Active CN110941638B (zh) 2018-09-21 2018-09-21 应用分类规则库构建方法、应用分类方法及装置

Country Status (1)

Country Link
CN (1) CN110941638B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148750B (zh) * 2020-10-20 2023-04-25 成都中科大旗软件股份有限公司 一种数据集成方法及系统
CN113076452A (zh) * 2021-03-08 2021-07-06 北京梧桐车联科技有限责任公司 应用分类的方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965829A (zh) * 2014-05-14 2015-10-07 腾讯科技(深圳)有限公司 终端应用分类方法、服务器及系统
WO2017101342A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 情感分类方法及装置
CN107463935A (zh) * 2016-06-06 2017-12-12 工业和信息化部电信研究院 应用分类方法和应用分类装置
CN107766371A (zh) * 2016-08-19 2018-03-06 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN108256090A (zh) * 2018-01-25 2018-07-06 成都贝发信息技术有限公司 App基于关键词自动划分类别的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180204135A1 (en) * 2017-01-18 2018-07-19 Wipro Limited Systems and methods for improving accuracy of classification-based text data processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965829A (zh) * 2014-05-14 2015-10-07 腾讯科技(深圳)有限公司 终端应用分类方法、服务器及系统
WO2017101342A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 情感分类方法及装置
CN107463935A (zh) * 2016-06-06 2017-12-12 工业和信息化部电信研究院 应用分类方法和应用分类装置
CN107766371A (zh) * 2016-08-19 2018-03-06 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN108256090A (zh) * 2018-01-25 2018-07-06 成都贝发信息技术有限公司 App基于关键词自动划分类别的方法

Also Published As

Publication number Publication date
CN110941638A (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN110609902B (zh) 一种基于融合知识图谱的文本处理方法及装置
CN110837550A (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN110032641A (zh) 计算机执行的、利用神经网络进行事件抽取的方法及装置
CN109885597B (zh) 基于机器学习的用户分群处理方法、装置及电子终端
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN106940726A (zh) 一种基于知识网络的创意自动生成方法与终端
CN111159763A (zh) 一种涉法人员群体画像分析系统及方法
CN110389941A (zh) 数据库校验方法、装置、设备及存储介质
CN110941638B (zh) 应用分类规则库构建方法、应用分类方法及装置
CN110110218A (zh) 一种身份关联方法及终端
CN111160699A (zh) 一种专家推荐方法及系统
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN114862140A (zh) 基于行为分析的潜力评估方法、装置、设备及存储介质
CN109902129A (zh) 基于大数据分析的保险代理人归类方法及相关设备
CN113158672A (zh) 基于新闻事件的关系分析方法及装置
CN113705164A (zh) 一种文本处理方法、装置、计算机设备以及可读存储介质
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN109144999B (zh) 一种数据定位方法、装置及存储介质、程序产品
CN108763400B (zh) 基于对象行为和主题偏好的对象划分方法及装置
CN103514167B (zh) 数据处理方法和设备
CN113486649B (zh) 文本评论的生成方法以及电子设备
CN113010642B (zh) 语义关系的识别方法、装置、电子设备及可读存储介质
CN113988878A (zh) 一种基于图数据库技术的反欺诈方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant