CN107704289A - 应用清理方法、装置、存储介质及电子设备 - Google Patents
应用清理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN107704289A CN107704289A CN201710940308.8A CN201710940308A CN107704289A CN 107704289 A CN107704289 A CN 107704289A CN 201710940308 A CN201710940308 A CN 201710940308A CN 107704289 A CN107704289 A CN 107704289A
- Authority
- CN
- China
- Prior art keywords
- sample
- feature
- gini index
- collection
- subsample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44594—Unloading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种应用清理方法、装置、存储介质及电子设备,其中,本申请实施例采集应用的多维特征作为样本,并构建应用的样本集;根据特征对于样本集分类的基尼指数信息增益对样本集进行分类,以构建出应用的分类回归树模型,分类回归树模型的输出包括可清理、或者不可清理;根据预测时间采集应用的多维特征作为预测样本,根据预测样本和分类回归树模型预测应用是否可清理,以此实现了应用的自动清理,提高了电子设备的运行流畅度,降低了功耗。
Description
技术领域
本申请涉及通信技术领域,具体涉及一种应用清理方法、装置、存储介质及电子设备。
背景技术
目前,智能手机等电子设备上,通常会有多个应用同时运行,其中,一个应用在前台运行,其他应用在后台运行。如果长时间不清理后台运行的应用,则会导致电子设备的可用内存变小、中央处理器(central processing unit,CPU)占用率过高,导致电子设备出现运行速度变慢,卡顿,耗电过快等问题。因此,有必要提供一种方法解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种应用清理方法、装置、存储介质及电子设备,能够提高电子设备的运行流畅度,降低功耗。
第一方面,本申请实施例了提供了的一种应用清理方法,包括:
采集应用的多维特征作为样本,并构建所述应用的样本集;
根据所述特征对于样本集分类的基尼指数信息增益对所述样本集进行分类,以构建出所述应用的分类回归树模型,所述分类回归树模型的输出包括可清理、或者不可清理;
根据预测时间采集所述应用的多维特征作为预测样本;
根据所述预测样本和所述分类回归树模型预测所述应用是否可清理。
第二方面,本申请实施例了提供了的一种应用清理装置,包括:
第一采集单元,用于采集应用的多维特征作为样本,并构建所述应用的样本集;
分类单元,用于根据所述特征对于样本集分类的基尼指数信息增益对所述样本集进行分类,以构建出所述应用的分类回归树模型,所述分类回归树模型的输出包括可清理、或者不可清理;
第二采集单元,用于根据预测时间采集所述应用的多维特征作为预测样本;
预测单元,用于根据所述预测样本和所述分类回归树模型预测所述应用是否可清理。
第三方面,本申请实施例提供的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请任一实施例提供的应用清理方法。
第四方面,本申请实施例提供的电子设备,包括处理器和存储器,所述存储器有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如本申请任一实施例提供的应用清理方法。
本申请实施例采集应用的多维特征作为样本,并构建应用的样本集;根据特征对于样本集分类的基尼指数信息增益对样本集进行分类,以构建出应用的分类回归树模型,分类回归树模型的输出包括可清理、或者不可清理;根据预测时间采集应用的多维特征作为预测样本,根据预测样本和分类回归树模型预测应用是否可清理,以便清理可清理应用以此实现了应用的自动清理,提高了电子设备的运行流畅度,降低了功耗。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的应用清理方法的应用场景示意图。
图2是本申请实施例提供的应用清理方法的一个流程示意图。
图3是本申请实施例提供的一种分类回归树的示意图。
图4是本申请实施例提供的另一种分类回归树的示意图。
图5是本申请实施例提供的又一种分类回归树的示意图。
图6是本申请实施例提供的应用清理方法的另一个流程示意图。
图7是本申请实施例提供的应用清理装置的一个结构示意图。
图8是本申请实施例提供的应用清理装置的另一结构示意图。
图9是本申请实施例提供的电子设备的一个结构示意图。
图10是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种应用清理方法,该应用清理方法的执行主体可以是本申请实施例提供的应用清理装置,或者集成了该应用清理装置的电子设备,其中该应用清理装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。
请参阅图1,图1为本申请实施例提供的应用清理方法的应用场景示意图,以应用清理装置集成在电子设备中为例,电子设备可以采集应用的多维特征作为样本,并构建应用的样本集;根据特征对于样本集分类的基尼指数信息增益对样本集进行分类,以构建出应用的分类回归树模型,分类回归树模型的输出包括可清理、或者不可清理;根据预测时间采集应用的多维特征作为预测样本,根据预测样本和分类回归树模型预测应用是否可清理。电子设备还可以对预测可清理的应用进行清理。
具体地,例如图1所示,以判断后台运行的应用程序a(如邮箱应用、游戏应用等)是否可以清理为例,可以在历史时间段内,采集应用a的多维特征(例如应用a在后台运行的时长、应用a运行的时间信息等)作为样本,构建应用a的样本集,根据特征(例如应用a在后台运行的时长、应用a运行的时间信息等)对于样本分类的基尼指数信息增益对样本集进行样本分类,以构建出应用a的分类回归树模型;根据预测时间(如t)采集应用对应的多维特征(例如在t时刻应用a在后台运行的时长、应用a运行的时间信息等)作为预测样本;根据预测样本和分类回归树模型预测应用a是否可清理。此外,当预测应用a可清理时,电子设备对应用a进行清理。
请参阅图2,图2为本申请实施例提供的应用清理方法的流程示意图。本申请实施例提供的应用清理方法的具体流程可以如下:
201、采集应用的多维特征作为样本,并构建应用的样本集。
本实施例所提及的应用,可以是电子设备上安装的任何一个应用,例如办公应用、通信应用、游戏应用、购物应用等。
应用的多维特征具有一定长度的维度,其每个维度上的参数均对应表征应用的一种特征信息,即该多维特征息由多个特征构成。该多个特征可以包括应用自身相关的特征信息,例如:应用切入到后台的时长;应用切入到后台期间,电子设备的灭屏时长;应用进入前台的次数;应用处于前台的时间;应用进入后台的方式,例如被主页键(home键)切换进入、被返回键切换进入,被其他应用切换进入等;应用的类型,包括一级(常用应用)、二级(其他应用)等。
该多个特征信息还可以包括应用所在的电子设备的相关特征信息,例如:电子设备的灭屏时间、亮屏时间、当前电量,电子设备的无线网络连接状态,电子设备是否在充电状态等。
其中,应用的样本集可以包括多个样本,每个样本包括应用的多维特征。应用的样本集中,可以包括在历史时间段内,按照预设频率采集的多个样本。历史时间段,例如可以是过去7天、10天;预设频率,例如可以是每10分钟采集一次、每半小时采集一次。可以理解的是,一次采集的应用的多维特征数据构成一个样本,多个样本,构成样本集。
在构成样本集之后,可以对样本集中的每个样本进行标记,得到每个样本的样本标签,由于本实施要实现的是预测应用是否可以清理,因此,所标记的样本标签包括可清理和不可清理,也即样本类别包括可清理、不可清理。具体可根据用户对应用的历史使用习惯进行标记,例如:当应用进入后台30分钟后,用户关闭了该应用,则标记为“可清理”;再例如,当应用进入后台3分钟之后,用户将应用切换到了前台运行,则标记为“不可清理”。具体地,可以用数值“1”表示“可清理”,用数值“0”表示“不可清理”,反之亦可。
202、根据特征对于样本分类的基尼指数信息增益对样本集进行样本分类,以构建出应用的决策树模型。
在一实施例中,为便于样本分类,可以将应用的多维特征信息中,未用数值直接表示的特征信息用具体的数值量化出来,例如针对电子设备的无线网连接状态这个特征信息,可以用数值1表示正常的状态,用数值0表示异常的状态(反之亦可);再例如,针对电子设备是否在充电状态这个特征信息,可以用数值1表示充电状态,用数值0表示未充电状态(反之亦可)。
本申请实施例可以基于特征对于样本分类的基尼指数信息增益对样本集进行样本分类,以构建应用的分类回归树(CART,Classification And Regression Tree)。比如,可以基于ID3(Iterative Dichotomiser 3,迭代二叉树3代)算法来构建分类回归树模型。
其中,分类回归树是决策树的一种,并且是非常重要的决策树,是一颗二叉树,且每个非叶子节点都有两个孩子,所以对于第一棵子树其叶子节点数比非叶子节点数多1。决策树是一种依托决策而建立起来的一种树。在机器学习中,决策树是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。决策树仅有单一输出,如果有多个输出,可以分别建立独立的决策树以处理不同的输出。
其中,ID3(Iterative Dichotomiser 3,迭代二叉树3代)算法是决策树的一种算法,它是基于奥卡姆剃刀原理的,即用尽量用较少的东西做更多的事。在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高。ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。
其中,信息增益是针对一个一个特征而言的,就是看一个特征t,系统有它和没有它时的信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即信息增益。
其中,基尼(Gini)指数是一种与信息熵类似的做特征选择的方式,可以用来表示数据的不纯度,即表示一个随机选中的样本在子集中被分错的可能性。在CART算法中可以利用基尼指数构造二叉决策树。
Gini指数是一种不等性度量,通常用来度量收入不平衡,可以用来度量任何不均匀分布,是介于0~1之间的数,0-完全相等,1-完全不相等。分类度量时,总体内包含的类别越杂乱,Gini指数就越大(跟熵的概念很相似)。也即数据的不纯度越大Gini指数就越大。
其中,特征对于样本集分类基尼指数信息增益(Gini Gain),即Gini增益,表示基于该特征对样本集划分后样本的不纯度增益,如特征A对于样本集D分类的基尼指数信息增益为Gini(D,A),其表示基于特征A对样本集D划分后样本集的不纯度增益。
下面将详细介绍基于基尼指数信息增益对样本集进行分类的过程,比如,分类过程可以包括如下步骤:
生成分类回归树模型的根节点,并将样本集作为根节点的节点信息;
将根节点的样本集确定为当前待分类的目标样本集;
获取特征对于目标样本集分类的基尼指数信息增益;
根据基尼指数信息增益从特征中选取当前的划分特征及其对应的划分点;
根据划分特征和划分点对样本集进行划分,得到两个子样本集;
生成当前节点的子节点,并将去子样本集分配给相应的子节点;
判断子节点是否满足预设分类终止条件;
若否,则将目标样本集更新为子样本集,并返回执行获取特征对于目标样本集的基尼指数的步骤;
若是,则将子节点作为叶子节点,根据子样本集中样本的样本类别设置叶子节点的输出,样本类别包括可清理、或者不可清理。
其中,划分特征,可以根据各特征对于样本集分类的基尼指数信息增益从特征及其对应的取值中选取,用于对样本集分类。划分点为划分特征中某种取值。
本申请实施例中,根据基尼指数信息增益选取划分特征的方式有多种,比如为了提升样本分类的精确性,可以选取最小基尼指数信息增益对应的特征为划分特征。也即步骤“根据基尼指数信息增益从特征中选取当前的划分特征及其对应的划分点”可以包括:
从基尼指数信息增益中确定最小的目标基尼指数信息增益;
将目标基尼指数信息增益的特征及其取值,分别作为划分特征和划分点。
也即,选取样本集划分后样本不纯度变化(如下降)最小的特征及其对应的取值作为划分特征以及划分点。比如,如当某个特征A为某个取值a时,基于特征A=a对样本集划分后样本的不纯度变化(如下降)最小时,那么该特征A即为划分特征,此时,取值a为划分点。
其中,样本的类别可以包括可清理、不可清理两种类别,每个样本的类别可以用样本标记来表示,比如,当样本标记为数值时,数值“1”表示“可清理”,用数值“0”表示“不可清理”,反之亦可。
当子节点满足预设分类终止条件时,可以将子节点作为叶子节点,即停止对该子节点的样本集分类,并且可以基于去除后子样本集中样本的类别设置该叶子节点的输出。基于样本的类别设置叶子节点的输出的方式有多种。比如,可以去除后样本集中样本数量最多的类别作为该叶子节点的输出。
其中,预设分类终止条件可以根据实际需求设定,当子节点满足预设分类终止条件时,将当前子节点作为叶子节点,停止对子节点对应的样本集进行分类;当子节点不满足预设分类终止条件时,继续对子节点对应的样本集进行分类。比如,预设分类终止条件可以包括:子节点的去除后子样本集合中样本的类别数量为与预设数量,也即步骤“判断子节点是否满足预设分类终止条件”可以包括:
判断子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
若是,则确定子节点满足预设分类终止条件;
若否,则确定子节点不满预设分类终端终止条件。
例如,预设分类终止条件可以包括:子节点对应的去除后子样本集中样本的类别数量为1,也即子节点的样本集中只有一个类别的样本。此时,如果子节点满足该预设分类终止条件,那么,将子样本集中样本的类别作为该叶子节点的输出。如去除后子样本集中只有类别为“可清理”的样本时,那么,可以将“可清理”作为该叶子节点的输出。
在一实施例中,可以根据划分特征是否为划分点取值,将样本集划分成两个子样本。比如,划分特征为A,划分点为a时,可以基于特征A是否为a将样本集划分成两个子样本集。
本申请实施例中,特征对于目标样本集分类的基尼指数信息增益,可以包括特征的取值对于目标样本集分类的基尼指数信息增益;比如,特征A的取值a对于目标样本集D分类的基尼指数增益Gini Gain。其中,基尼指数信息增益可以基于特征的取值对于样本集分类的基尼指数来获取。比如,步骤“获取特征对于目标样本集分类的基尼指数信息增益”可以包括:
获取特征的取值对于目标样本集分类的基尼指数;
根据基尼指数,获取特征的取值对于目标样本集分类的基尼指数信息增益。
具体地,特征的取值对于目标样本分类的基尼指数的获取方式如下:
根据特征的取值将目标样本集划分成第一子样本集和第二子样本集;取值为特征的所有可能取值中的一种取值;
获取第一子样本集和第二子样本集中样本类别的概率;
根据样本类别的概率获取取值对于目标样本分类的基尼指数。
其中,取值对于目标样本分类的基尼指数包括:特征为取值时对于目标样本集分类的基尼指数、特征不为取值时对于目标样本集分类的基尼指数。其中,步骤“根据样本类别的概率获取取值对于目标样本分类的基尼指数”可以包括:
根据第一子样本集中样本类别的概率获取特征为取值时对于目标样本集分类的第一基尼指数;
根据第二子样本集中样本类别的概率获取特征不为取值时对于目标样本集分类的第二基尼指数。
此时,步骤“根据基尼指数,获取特征对于目标样本集分类的基尼指数信息增益”可以包括:
根据第一基尼指数、第一子样本集与目标样本集的样本数量比值、第二基尼指数、以及第二子样本集与目标样本集的样本数量比值,获取特征为取值时对于目标样本集分类的基尼指数信息增益。
例如,以目标样本集为样本集D,特征为特征A为例,特征A的可能取值包括多种,如特征A=a,那么特征A的取值a对于样本集D的基尼指数信息增益可以通过方式获取:
首选根据特征A=a为“是”或“否”将样本集D划分成子样本集D1和D2;
根据D1中样本类别(可清理或不可清理)的概率pk计算特征A=a时对于样本集D的基尼指数Gini(D1),以及根据D2中样本类别(可清理或不可清理)的概率pk计算特征A=a时对于样本集D的基尼指数Gini(D2)。如以下公式计算出Gini(D1)和Gini(D2)。
其中,pk为样本D中样本类别的概率,即在样本D中出现的概率。K为D中的样本类别,k=1、2、……k。
接着,可以基于Gini(D1)、子样本集D1与样本集D的样本数量比值D1/D、Gini(D2)以及子样本集D2与样本集D的样本数量比值D2/D、计算出特征A为a时对于样本集D分类的基尼指数信息增益即Gini(D,A)。比如,通过以下公式求得:
通过上述方式可以计算出各样本特征的取值对于样本集D分类的基尼指数信息增益。
例如,对于样本集D{样本1、样本2……样本i……样本n},其中样本1包括t1、t2……tm,样本i包括t1、t2……tm,样本n包括t1、t2……tm。其中,每个样本特征包含多种取值。分类回归树的构建过程如下:
首先,对样本集D中所有样本进行初始化,然后,生成一个分类回归书的根节点d,并将样本集D分配给作该根节点d,如参考图3。
通过上述基尼指数信息增益的计算方式,计算各特征的可能取值如特征1、特征2……特征m对于样本集D分类的基尼指数信息增益Gini(D,t1)、Gini(D,t2)……Gini(D,tm)。
选取最小的基尼指数信息增益,如Gini(D,ti)为最小的信息增益,此时,可以确定ti为划分特征t,Gini(D,ti)中ti对应的取值t’为划分点。
基于ti=t’为“是”或“否”将样本集D划分成两个子样本集D1{样本1、样本2……样本k}和A2{样本k+1……样本n};然后,生成当前节点d的两个子节点d1和d2,将D1分配个子节点d1,将D2分配给子节点d2。
接着,对于每个子节点,以子节点d1为例,判断子节点是否满足预设分类终止条件,若是,则将当前的子节点a1作为叶子节点,并根据子节点a1对应的子样本集中样本的类别设置该叶子节点输出。
当子节点不满足预设分类终止条件时,采用上述基于信息增益分类的方式,继续对子节点对应的子样本集进行分类,如以子节点d2为例可以计算D2样本集中各特征的取值相对于样本分类的基尼指数信息增益Gini(D,t),选取最小的信息增益Gini(D,t)min,选取Gini(D,t)min对应的特征和取值为划分特征t和划分点,基于划分特征t和划分点将D2划分成两个子样本集,如可以将D2划分成子样本集D21、D22;然后,生成当前节点d2的子节点d21、d22、将D21、D22分别分配给子节点d21、d22。
依次类推,利用上述的基于基尼指数信息增益分类的方式可以构成出如图4所示的分类回归树,该分类回归树的叶子节点的输出包括“可清理”、或者“不可清理”。
在一实施例中,为了提升利用分类回归树进行预测的速度和效率,还可以在节点之间的路径上标记相应的划分特征及其对应的划分特征值。比如,在上述基于信息增益分类的过程中,可以在当前节点与其子节点路径上标记相应划分特征的特征值。
例如,划分特征t的特征值包括:0、1时,可以在d2与d之间的路径上标记1,在d1与d之间的路径上标记0,依次类推,在每次划分后,便可以在当前节点与其子节点的路径上标记相应的划分特征值如0或1,便可以得到如图5所示的分类回归树。
203、根据预测时间采集应用的多维特征作为预测样本。
其中,预测时间可以根据需求设定,如可以为当前时间等。
比如,可以在预测时间点采集应用的多维特征作为预测样本。
本申请实施例中,步骤201和203中采集的多维特征是相同特征,例如:应用切入到后台的时长;应用切入到后台期间,电子设备的灭屏时长;应用进入前台的次数;应用处于前台的时间;应用进入后台的方式。
204、根据预测样本和分类回归树模型预测应用是否可清理。
具体地,根据预测样本和分类回归树模型获取相应的输出结果,根据输出结果确定应用是否可清理。其中,输出结果包括可清理、或不可清理。
比如,可以根据预测样本的特征和分类回归树模型确定相应的叶子节点,将该叶子节点的输出作为预测输出结果。如利用预测样本的特征按照分类回归树的分支条件(即划分特征的特征值)确定当前的叶子节点,取该叶子节点的输出作为预测的结果。由于叶子节点的输出包括可清理、或不可清理,因此,此时可以基于分类回归树来确定应用是否可清理。
例如,采集当前时间点应用的多维特征后,可以在图5所示的分类回归树中按照分类回归树的分支条件查找相应的叶子节点为dn1,叶子节点dn1的输出为可清理,此时,便确定应用是可清理的。
由上可知,本申请实施例采集应用的多维特征作为样本,并构建应用的样本集;根据特征对于样本集分类的基尼指数信息增益对样本集进行分类,以构建出应用的分类回归树模型,分类回归树模型的输出包括可清理、或者不可清理;根据预测时间采集应用的多维特征作为预测样本,根据预测样本和分类回归树模型预测应用是否可清理,以便清理可清理应用以此实现了应用的自动清理,提高了电子设备的运行流畅度,降低了功耗。
进一步地,由于样本集的每个样本中,包括了反映用户使用应用的行为习惯的多个特征信息,因此本申请实施例可以使得对对应应用的清理更加个性化和智能化。
进一步地,基于分类回归树预测模型来实现应用清理预测,可以提升用户行为预测的准确性,进而提高清理的准确度。
下面将在上述实施例描述的方法基础上,对本申请的清理方法做进一步介绍。参考图6,该应用清理方法可以包括:
301、采集应用的多维特征作为样本,并构建应用的样本集。
应用的多维特征信息具有一定长度的维度,其每个维度上的参数均对应表征应用的一种特征信息,即该多维特征信息由多个特征信息构成。该多个特征信息可以包括应用自身相关的特征信息,例如:应用切入到后台的时长;应用切入到后台期间,电子设备的灭屏时长;应用进入前台的次数;应用处于前台的时间;应用进入后台的方式,例如被主页键(home键)切换进入、被返回键切换进入,被其他应用切换进入等;应用的类型,包括一级(常用应用)、二级(其他应用)等。该多个特征信息还可以包括应用所在的电子设备的相关特征信息,例如:电子设备的灭屏时间、亮屏时间、当前电量,电子设备的无线网络连接状态,电子设备是否在充电状态等。
应用的样本集中,可以包括在历史时间段内,按照预设频率采集的多个样本。历史时间段,例如可以是过去7天、10天;预设频率,例如可以是每10分钟采集一次,每半小时采集一次。可以理解的是,一次采集应用的多维特征数据构成一个样本,多个样本,构成样本集。
一个具体的样本可如下表1所示,包括多个维度的特征信息,需要说明的是,表1所示的特征信息仅为举例,实际中,一个样本所包含的特征信息的数量,可以多于比表1所示信息的数量,也可以少于表1所示信息的数量,所取的具体特征信息也可以与表1所示不同,此处不作具体限定。
维度 | 特征信息 |
1 | 当前时间段 |
2 | 当前日期类别(工作日、休息日) |
3 | 上一个情景应用名字 |
4 | 上上个情景应用名字 |
5 | 当前无线网状态,如wifi连接状态 |
6 | 无线网连接时,无线网的标识信息,如wifi的SSID/BSSID |
7 | 应用在后台的时长 |
8 | 电子设备的屏幕的灭屏时间;如应用在后台运行期间灭屏时长 |
9 | 电子设备的当前电量 |
10 | 当前充电状态 |
11 | 当前耳机的插拔状态 |
12 | 应用的类别 |
13 | 应用被切换的方式,如切换到后台的方式 |
表1
302、对样本集中的样本进行标记,得到每个样本的样本标签。
由于本实施要实现的是预测应用是否可以清理,因此,所标记的样本标签包括可清理和不可清理。该样本的样本标签表征该样本的样本类别。此时,样本类别可以包括可清理、不可清理。
此外,还可根据用户对应用的历史使用习惯进行标记,例如:当应用进入后台30分钟后,用户关闭了该应用,则标记为“可清理”;再例如,当应用进入后台3分钟之后,用户将应用切换到了前台运行,则标记为“不可清理”。具体地,可以用数值“1”表示“可清理”,用数值“0”表示“不可清理”,反之亦可。
303、生成分类回归树模型的根节点,并将样本集分配给根节点。
比如,参考图3,对于样本集D{样本1、样本2……样本i……样本n},可以先生成分类回归树模型的根节点d,并将样本集D分配给该根节点d。
304、确定样本集为当前待分类的目标样本集。
也即确定根节点的样本集作为当前待分类的目标样本集。
305、获取目标样本集内各特征对于目标样本集分类的基尼指数信息增益,并确定最小的信息增益。
比如,对于样本集D,可以计算各特征如特征t1、特征t2……特征tm对于样本集分类的基尼指数信息增益Gini(D,t1)、Gini(D,t2)……Gini(D,tm);选取最小的信息增益Gini(D,t)min。
其中,特征对于样本集分类的基尼指数信息增益,可以采用如下方式获取:
根据特征的取值将目标样本集划分成第一子样本集和第二子样本集;取值为特征的所有可能取值中的一种取值;
获取第一子样本集和第二子样本集中样本类别的概率;
根据第一子样本集中样本类别的概率获取特征为取值时对于目标样本集分类的第一基尼指数;
根据第二子样本集中样本类别的概率获取特征不为取值时对于目标样本集分类的第二基尼指数;
根据第一基尼指数、第一子样本集与目标样本集的样本数量比值、第二基尼指数、以及第二子样本集与目标样本集的样本数量比值,获取特征为取值时对于目标样本集分类的基尼指数信息增益。
例如,以目标样本集为样本集D,特征为特征A为例,特征A的可能取值包括多种,如特征A=a,那么特征A的取值a对于样本集D的基尼指数信息增益可以通过方式获取:
首选根据特征A=a为“是”或“否”将样本集D划分成子样本集D1和D2;
根据D1中样本类别(可清理或不可清理)的概率pk计算特征A=a时对于样本集D的基尼指数Gini(D1),以及根据D2中样本类别(可清理或不可清理)的概率pk计算特征A=a时对于样本集D的基尼指数Gini(D2)。如以下公式计算出Gini(D1)和Gini(D2)。
其中,pk为样本D中样本类别的概率,即在样本D中出现的概率。K为D中的样本类别,k=1、2、……k。
接着,可以基于Gini(D1)、子样本集D1与样本集D的样本数量比值D1/D、Gini(D2)以及子样本集D2与样本集D的样本数量比值D2/D、计算出特征A为a时对于样本集D分类的基尼指数信息增益即Gini(D,A)。比如,通过以下公式求得:
通过上述方式可以计算出各样本特征的取值对于样本集D分类的基尼指数信息增益。
306、从最小的信息增益对应的特征及其对应的取值作为划分特征以及划分点。
比如,当最小的Gini(D,t)min x对应的特征为特征i,特征值为t’时,可以选取特征ti为划分特征,ti对应的取值t’为划分点。
307、根据划分特征以及划分点将目标样本集划分成两个子样本集。
具体地,可以划分特征为划分取值的是与否,将目标样本集划分成两个子样本集。
例如,可以基于ti=t’为“是”或“否”将样本集D划分成两个子样本集D1{样本1、样本2……样本k}和A2{样本k+1……样本n}。
308、生成当前节点的子节点,并将子样本集分配给相应子节点。
其中,一个子样本集对应一个子节点。例如,考图3生成根节点d的子节点d1和d2,并将子样本集D1分配给子节点d1、将子样本集D2分配给子节点d2。
在一实施例中,还可以将子节点对应的划分特征值设置子节点与当前节点的路径上,便于后续进行应用预测,参考图5。
309、判断子节点的子样本集是否满足预设分类终止条件,若否,则执行步骤310,若是,则执行步骤311。
其中,预设分类终止条件可以根据实际需求设定,当子节点满足预设分类终止条件时,将当前子节点作为叶子节点,停止对子节点对应的样本集进行分词分类;当子节点不满足预设分类终止条件时,继续对子节点对应的额样本集进行分类。比如,预设分类终止条件可以包括:子节点的去除后子样本集合中样本的类别数量为与预设数量。
例如,预设分类终止条件可以包括:子节点对应的去除后子样本集中样本的类别数量为1,也即子节点的样本集中只有一个类别的样本。
310、将目标样本集更新为子节点的子样本集,并返回执行步骤305。
311、将该子节点作为叶子节点,并根据子节点的子样本集中样本类别设置该叶子节点的输出。
例如,预设分类终止条件可以包括:子节点对应的去除后子样本集中样本的类别数量为1,也即子节点的样本集中只有一个类别的样本。
此时,如果子节点满足该预设分类终止条件,那么,将子样本集中样本的类别作为该叶子节点的输出。如去除后子样本集中只有类别为“可清理”的样本时,那么,可以将“可清理”作为该叶子节点的输出
其中,样本类别包括可清理、不可清理。
312、在构建完分类回归树模型后,获取需要预测应用是否可清理的时间,根据该时间采集应用的多维特征作为预测样本。
其中,需要预测应用是否可清理的时间可以包括当前时间,或者其他时间。
313、根据预测样本和分类回归树预测应用是否可清理。
比如,可以根据预测样本的特征和分类回归树模型确定相应的叶子节点,将该叶子节点的输出作为预测输出结果。如利用预测样本的特征按照分类回归树的分支条件(即划分特征的特征值)确定当前的叶子节点,取该叶子节点的输出作为预测的结果。由于叶子节点的输出包括可清理、或不可清理,因此,此时可以基于分类回归树来确定应用是否可清理。
例如,采集当前时间点应用的多维特征后,可以在图5所示的分类回归树中按照分类回归树的分支条件查找相应的叶子节点为an2,叶子节点an2的输出为不可清理,此时,便确定应用是不可清理的。
在一个具体的例子中,可以利用预先构建的分类回归树模型预测后台运行的多个应用是否可清理,如表2所示,则确定可以清理后台运行的应用A1和应用A3,而保持应用A2在后台运行的状态不变。
应用 | 预测结果 |
应用A1 | 可清理 |
应用A2 | 不可清理 |
应用A3 | 可清理 |
表2
由上可知,本申请实施例采集应用的多维特征作为样本,并构建应用的样本集;根据特征对于样本集分类的基尼指数信息增益对样本集进行分类,以构建出应用的分类回归树模型,分类回归树模型的输出包括可清理、或者不可清理;根据预测时间采集应用的多维特征作为预测样本,根据预测样本和分类回归树模型预测应用是否可清理,以便清理可清理应用以此实现了应用的自动清理,提高了电子设备的运行流畅度,降低了功耗。
进一步地,由于样本集的每个样本中,包括了反映用户使用应用的行为习惯的多个特征信息,因此本申请实施例可以使得对对应应用的清理更加个性化和智能化。
进一步地,基于分类回归树预测模型来实现应用清理预测,可以提升用户行为预测的准确性,进而提高清理的准确度。
在一实施例中还提供了一种应用清理装置。请参阅图7,图7为本申请实施例提供的应用清理装置的结构示意图。其中该应用清理装置应用于电子设备,该应用清理装置包括第一采集单元401、分类单元402、第二采集单元403、和预测单元404,如下:
第一采集单元401,用于采集应用的多维特征作为样本,并构建所述应用的样本集;
分类单元402,用于根据所述特征对于样本集分类的基尼指数信息增益对所述样本集进行分类,以构建出所述应用的分类回归树模型,所述分类回归树模型的输出包括可清理、或者不可清理;
第二采集单元403,用于根据预测时间采集所述应用的多维特征作为预测样本;
预测单元404,用于根据所述预测样本和所述分类回归树模型预测所述应用是否可清理。
在一实施例中,参考图8,分类单元402,可以包括:
节点生成子单元4021,用于生成分类回归树模型的根节点,并将所述样本集分配给所述根节点,将所述根节点的样本集确定为当前待分类的目标样本集;
增益获取子单元4022,用于获取所述特征对于目标样本集分类的基尼指数信息增益;
划分特征确定子单元4023,用于根据所述基尼指数信息增益从所述特征中选取当前的划分特征及其对应的划分点;
分类子单元4024,用于生成当前节点的子节点,并将所述去所述子样本集分配给相应的所述子节点;
子节点生成子单元4025,用于对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
判断子单元4026,用于判断子节点是否满足预设分类终止条件,若否,将所述目标样本集更新为所述子样本集,并触发增益获取子单元4022执行获取所述特征对于目标样本集的基尼指数的步骤;若是,则将所述子节点作为叶子节点,根据所述子样本集中样本的样本类别设置所述叶子节点的输出,所述样本类别包括可清理、或者不可清理。
其中,增益获取子单元4022,可以用于:
获取所述特征的取值对于目标样本集分类的基尼指数;
根据所述基尼指数,获取所述特征的取值对于目标样本集分类的基尼指数信息增益。
在一实施例中,增益获取子单元4022,可以用于:
根据所述特征的取值将所述目标样本集划分成第一子样本集和第二子样本集;
获取所述第一子样本集和所述第二子样本集中样本类别的概率;
根据所述样本类别的概率获取所述取值对于目标样本分类的基尼指数。
在一实施例中,增益获取子单元4022,可以用于:
根据所述第一子样本集中样本类别的概率获取所述特征为取值时对于目标样本集分类的第一基尼指数;
根据所述第二子样本集中样本类别的概率获取所述特征不为取值时对于目标样本集分类的第二基尼指数;
根据所述第一基尼指数、第一子样本集与目标样本集的样本数量比值、第二基尼指数、以及第二子样本集与目标样本集的样本数量比值,获取所述特征的取值对于目标样本集分类的基尼指数信息增益。
其中,划分特征确定子单元4023,可以用于:
从所述基尼指数信息增益中确定最小的目标基尼指数信息增益;
将所述目标基尼指数信息增益的特征及其取值,分别作为划分特征和划分点。
在一实施例中,判断子单元4025,可以用于判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
若是,则确定所述子节点满足预设分类终止条件。
其中,应用清理装置中各单元执行的步骤可以参考上述方法实施例描述的方法步骤。该应用清理装置可以集成在电子设备中,如手机、平板电脑等。
具体实施时,以上各个单元可以作为独立的实体实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单位的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例应用清理装置可以由第一采集单元401采集应用的多维特征作为样本,并构建所述应用的样本集;由分类单元402根据特征对于样本集分类的基尼指数信息增益对样本集进行分类,以构建出应用的分类回归树模型,分类回归树模型的输出包括可清理、或者不可清理;由第二采集单元403根据预测时间采集所述应用对应的多维特征作为预测样本;由预测单元404根据预测样本和分类回归树模型预测应用是否可清理,以便清理可以清理的应用,以此实现了应用的自动清理,提高了电子设备的运行流畅度,降低了功耗。
本申请实施例还提供一种电子设备。请参阅图9,电子设备500包括处理器501以及存储器502。其中,处理器501与存储器502电性连接。
所述处理器500是电子设备500的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器502内的计算机程序,以及调用存储在存储器502内的数据,执行电子设备500的各种功能并处理数据,从而对电子设备500进行整体监控。
所述存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
在本申请实施例中,电子设备500中的处理器501会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器502中,并由处理器501运行存储在存储器502中的计算机程序,从而实现各种功能,如下:
采集应用的多维特征作为样本,并构建所述应用的样本集;
根据所述特征对于样本集分类的基尼指数信息增益对所述样本集进行分类,以构建出所述应用的分类回归树模型,所述分类回归树模型的输出包括可清理、或者不可清理;
根据预测时间采集所述应用的多维特征作为预测样本;
根据所述预测样本和所述分类回归树模型预测所述应用是否可清理。
在某些实施方式中,在根据所述特征对于样本集的基尼指数信息增益对所述样本集进行划分,以构建出所述应用的分类回归树模型时,处理器501可以具体执行以下步骤:
生成分类回归树模型的根节点,并将所述样本集分配给所述根节点;
将所述根节点的样本集确定为当前待分类的目标样本集;
获取所述特征对于目标样本集分类的基尼指数信息增益;
根据所述基尼指数信息增益从所述特征中选取当前的划分特征及其对应的划分点;
根据所述划分特征和所述划分点对所述样本集进行划分,得到两个子样本集;
生成当前节点的子节点,并将所述去所述子样本集分配给相应的所述子节点;
判断所述子节点是否满足预设分类终止条件;
若否,则将所述目标样本集更新为所述子样本集,并返回执行获取所述特征对于目标样本集的基尼指数的步骤;
若是,则将所述子节点作为叶子节点,根据所述子样本集中样本的样本类别设置所述叶子节点的输出,所述样本类别包括可清理、或者不可清理。
在某些实施方式中,在获取所述特征对于目标样本集分类的基尼指数信息增益时,处理器501可以具体执行以下步骤:
获取所述特征的取值对于目标样本集分类的基尼指数;
根据所述基尼指数,获取所述特征的取值对于目标样本集分类的基尼指数信息增益。
在某些实施方式中,在获取所述特征的取值对于目标样本集分类的基尼指数信息增益时,处理器501可以具体执行以下步骤:
根据所述特征的取值将所述目标样本集划分成第一子样本集和第二子样本集;
获取所述第一子样本集和所述第二子样本集中样本类别的概率;
根据所述样本类别的概率获取所述取值对于目标样本分类的基尼指数。
在某些实施方式中,在根据所述样本类别的概率获取所述取值对于目标样本分类的基尼指数时,处理器501还可以具体执行以下步骤:
根据所述第一子样本集中样本类别的概率获取所述特征为取值时对于目标样本集分类的第一基尼指数;
根据所述第二子样本集中样本类别的概率获取所述特征不为取值时对于目标样本集分类的第二基尼指数;
在据所述基尼指数,获取所述特征对于目标样本集分类的基尼指数信息增益,处理器501可以具体执行以下步骤:
根据所述第一基尼指数、第一子样本集与目标样本集的样本数量比值、第二基尼指数、以及第二子样本集与目标样本集的样本数量比值,获取所述特征的取值对于目标样本集分类的基尼指数信息增益。
在某些实施方式中,在根据所述基尼指数信息增益从所述特征中选取当前的划分特征及其对应的划分点时,处理器501可以具体执行以下步骤:
从所述基尼指数信息增益中确定最小的目标基尼指数信息增益;
将所述目标基尼指数信息增益的特征及其取值,分别作为划分特征和划分点
由上述可知,本申请实施例的电子设备,采集应用的多维特征作为样本,并构建应用的样本集;根据特征对于样本集分类的基尼指数信息增益对样本集进行分类,以构建出应用的分类回归树模型,分类回归树模型的输出包括可清理、或者不可清理;根据预测时间采集应用的多维特征作为预测样本,根据预测样本和分类回归树模型预测应用是否可清理,以便清理可清理应用以此实现了应用的自动清理,提高了电子设备的运行流畅度,降低了功耗。
请一并参阅图10,在某些实施方式中,电子设备500还可以包括:显示器503、射频电路504、音频电路505以及电源506。其中,其中,显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。
所述显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板,在某些实施方式中,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、或者有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。
所述射频电路504可以用于收发射频信号,以通过无线通信与网络设备或其他电子设备建立无线通讯,与网络设备或其他电子设备之间收发信号。
所述音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。
所述电源506可以用于给电子设备500的各个部件供电。在一些实施例中,电源506可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图10中未示出,电子设备500还可以包括摄像头、蓝牙模块等,在此不再赘述。
本申请实施例还提供一种存储介质,所述存储介质存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述任一实施例中的应用清理方法,比如:采集应用的多维特征作为样本,并构建应用的样本集;根据特征对于样本集分类的基尼指数信息增益对样本集进行分类,以构建出应用的分类回归树模型,分类回归树模型的输出包括可清理、或者不可清理;根据预测时间采集应用的多维特征作为预测样本,根据预测样本和分类回归树模型预测应用是否可清理。
在本申请实施例中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)、或者随机存取记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的应用清理方法而言,本领域普通测试人员可以理解实现本申请实施例的应用清理方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如应用清理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的应用清理装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种应用清理方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (15)
1.一种应用清理方法,其特征在于,包括:
采集应用的多维特征作为样本,并构建所述应用的样本集;
根据所述特征对于样本集分类的基尼指数信息增益对所述样本集进行分类,以构建出所述应用的分类回归树模型,所述分类回归树模型的输出包括可清理、或者不可清理;
根据预测时间采集所述应用的多维特征作为预测样本;
根据所述预测样本和所述分类回归树模型预测所述应用是否可清理。
2.如权利要求1所述的应用清理方法,其特征在于,根据所述特征对于样本集的基尼指数信息增益对所述样本集进行划分,以构建出所述应用的分类回归树模型,包括:
生成分类回归树模型的根节点,并将所述样本集分配给所述根节点;
将所述根节点的样本集确定为当前待分类的目标样本集;
获取所述特征对于目标样本集分类的基尼指数信息增益;
根据所述基尼指数信息增益从所述特征中选取当前的划分特征及其对应的划分点;
根据所述划分特征和所述划分点对所述样本集进行划分,得到两个子样本集;
生成当前节点的子节点,并将所述去所述子样本集分配给相应的所述子节点;
判断所述子节点是否满足预设分类终止条件;
若否,则将所述目标样本集更新为所述子样本集,并返回执行获取所述特征对于目标样本集的基尼指数的步骤;
若是,则将所述子节点作为叶子节点,根据所述子样本集中样本的样本类别设置所述叶子节点的输出,所述样本类别包括可清理、或者不可清理。
3.如权利要求2所述的应用清理方法,其特征在于,获取所述特征对于目标样本集分类的基尼指数信息增益,包括:
获取所述特征的取值对于目标样本集分类的基尼指数;
根据所述基尼指数,获取所述特征的取值对于目标样本集分类的基尼指数信息增益。
4.如权利要求3所述的应用清理方法,其特征在于,获取所述特征的取值对于目标样本集分类的基尼指数信息增益,包括:
根据所述特征的取值将所述目标样本集划分成第一子样本集和第二子样本集;
获取所述第一子样本集和所述第二子样本集中样本类别的概率;
根据所述样本类别的概率获取所述取值对于目标样本分类的基尼指数。
5.如权利要求3所述的应用清理方法,其特征在于,根据所述样本类别的概率获取所述取值对于目标样本分类的基尼指数,包括:
根据所述第一子样本集中样本类别的概率获取所述特征为取值时对于目标样本集分类的第一基尼指数;
根据所述第二子样本集中样本类别的概率获取所述特征不为取值时对于目标样本集分类的第二基尼指数;
根据所述基尼指数,获取所述特征对于目标样本集分类的基尼指数信息增益,包括:
根据所述第一基尼指数、第一子样本集与目标样本集的样本数量比值、第二基尼指数、以及第二子样本集与目标样本集的样本数量比值,获取所述特征的取值对于目标样本集分类的基尼指数信息增益。
6.如权利要求5所述的应用清理方法,其特征在于,根据所述基尼指数,获取所述特征对于目标样本集分类的基尼指数信息增益,包括:
通过如下公式计算出特征对于目标样本集分类的基尼指数信息增益:
其中,Gini(D,A)为特征A对于目标样本集D分类的基尼指数信息增益,Gini(D1)为特征A为取值a时对于目标样本D分类的基尼指数,Gini(D2)为A不为取值a时对于目标样本D分类的基尼指数;a为特征A的一种取值,D1和D2为基于特征A=a对目标样本集D划分后得到的两个子样本集。
7.如权利要求2所述的应用清理方法,其特征在于,根据所述基尼指数信息增益从所述特征中选取当前的划分特征及其对应的划分点,包括:
从所述基尼指数信息增益中确定最小的目标基尼指数信息增益;
将所述目标基尼指数信息增益的特征及其取值,分别作为划分特征和划分点。
8.如权利要求2所述的应用清理方法,其特征在于,判断子节点是否满足预设分类终止条件,包括:
判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
若是,则确定所述子节点满足预设分类终止条件。
9.一种应用清理装置,其特征在于,包括:
第一采集单元,用于采集应用的多维特征作为样本,并构建所述应用的样本集;
分类单元,用于根据所述特征对于样本集分类的基尼指数信息增益对所述样本集进行分类,以构建出所述应用的分类回归树模型,所述分类回归树模型的输出包括可清理、或者不可清理;
第二采集单元,用于根据预测时间采集所述应用的多维特征作为预测样本;
预测单元,用于根据所述预测样本和所述分类回归树模型预测所述应用是否可清理。
10.如权利要求9所述的应用清理装置,其特征在于,所述分类单元包括:
节点生成子单元,用于生成分类回归树模型的根节点,并将所述样本集分配给所述根节点,将所述根节点的样本集确定为当前待分类的目标样本集;
增益获取子单元,用于获取所述特征对于目标样本集分类的基尼指数信息增益;
划分特征确定子单元,用于根据所述基尼指数信息增益从所述特征中选取当前的划分特征及其对应的划分点;
分类子单元,用于根据所述划分特征和所述划分点对所述样本集进行划分,得到两个子样本集;
子节点生成子单元,用于生成当前节点的子节点,并将所述去所述子样本集分配给相应的所述子节点;
判断子单元,用于判断子节点是否满足预设分类终止条件,若否,将所述目标样本集更新为所述子样本集,并触发增益获取子单元执行获取所述特征对于目标样本集的基尼指数的步骤;若是,则将所述子节点作为叶子节点,根据所述子样本集中样本的样本类别设置所述叶子节点的输出,所述样本类别包括可清理、或者不可清理。
11.如权利要求10所述的应用清理装置,其特征在于,所述增益获取子单元,用于:
获取所述特征的取值对于目标样本集分类的基尼指数;
根据所述基尼指数,获取所述特征的取值对于目标样本集分类的基尼指数信息增益。
12.如权利要求11所述的应用清理装置,其特征在于,所述增益获取子单元,用于:
根据所述特征的取值将所述目标样本集划分成第一子样本集和第二子样本集;
获取所述第一子样本集和所述第二子样本集中样本类别的概率;
根据所述样本类别的概率获取所述取值对于目标样本分类的基尼指数。
13.如权利要求11所述的应用清理装置,其特征在于,划分特征确定子单元,用于:
从所述基尼指数信息增益中确定最小的目标基尼指数信息增益;
将所述目标基尼指数信息增益的特征及其取值,分别作为划分特征和划分点。
14.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至8任一项所述的应用清理方法。
15.一种电子设备,包括处理器和存储器,所述存储器有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至8任一项所述的应用清理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710940308.8A CN107704289A (zh) | 2017-09-30 | 2017-09-30 | 应用清理方法、装置、存储介质及电子设备 |
PCT/CN2018/102458 WO2019062419A1 (zh) | 2017-09-30 | 2018-08-27 | 应用清理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710940308.8A CN107704289A (zh) | 2017-09-30 | 2017-09-30 | 应用清理方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107704289A true CN107704289A (zh) | 2018-02-16 |
Family
ID=61184947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710940308.8A Pending CN107704289A (zh) | 2017-09-30 | 2017-09-30 | 应用清理方法、装置、存储介质及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107704289A (zh) |
WO (1) | WO2019062419A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959187A (zh) * | 2018-04-09 | 2018-12-07 | 中国平安人寿保险股份有限公司 | 一种变量分箱方法、装置、终端设备及存储介质 |
WO2019062419A1 (zh) * | 2017-09-30 | 2019-04-04 | Oppo广东移动通信有限公司 | 应用清理方法、装置、存储介质及电子设备 |
CN109815085A (zh) * | 2018-12-29 | 2019-05-28 | 北京城市网邻信息技术有限公司 | 告警数据的分类方法、装置和电子设备及存储介质 |
CN110321945A (zh) * | 2019-06-21 | 2019-10-11 | 深圳前海微众银行股份有限公司 | 扩充样本方法、终端、装置及可读存储介质 |
CN113439253A (zh) * | 2019-04-12 | 2021-09-24 | 深圳市欢太科技有限公司 | 应用清理方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646086A (zh) * | 2013-12-13 | 2014-03-19 | 北京奇虎科技有限公司 | 一种垃圾文件的清理方法和装置 |
CN105389193A (zh) * | 2015-12-25 | 2016-03-09 | 北京奇虎科技有限公司 | 应用的加速处理方法、装置和系统、服务器 |
CN107133094A (zh) * | 2017-06-05 | 2017-09-05 | 努比亚技术有限公司 | 应用管理方法、移动终端及计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530373A (zh) * | 2013-10-15 | 2014-01-22 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 不均衡感知数据下的移动应用分类方法 |
CN107704289A (zh) * | 2017-09-30 | 2018-02-16 | 广东欧珀移动通信有限公司 | 应用清理方法、装置、存储介质及电子设备 |
-
2017
- 2017-09-30 CN CN201710940308.8A patent/CN107704289A/zh active Pending
-
2018
- 2018-08-27 WO PCT/CN2018/102458 patent/WO2019062419A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646086A (zh) * | 2013-12-13 | 2014-03-19 | 北京奇虎科技有限公司 | 一种垃圾文件的清理方法和装置 |
CN105389193A (zh) * | 2015-12-25 | 2016-03-09 | 北京奇虎科技有限公司 | 应用的加速处理方法、装置和系统、服务器 |
CN107133094A (zh) * | 2017-06-05 | 2017-09-05 | 努比亚技术有限公司 | 应用管理方法、移动终端及计算机可读存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019062419A1 (zh) * | 2017-09-30 | 2019-04-04 | Oppo广东移动通信有限公司 | 应用清理方法、装置、存储介质及电子设备 |
CN108959187A (zh) * | 2018-04-09 | 2018-12-07 | 中国平安人寿保险股份有限公司 | 一种变量分箱方法、装置、终端设备及存储介质 |
CN108959187B (zh) * | 2018-04-09 | 2023-09-05 | 中国平安人寿保险股份有限公司 | 一种变量分箱方法、装置、终端设备及存储介质 |
CN109815085A (zh) * | 2018-12-29 | 2019-05-28 | 北京城市网邻信息技术有限公司 | 告警数据的分类方法、装置和电子设备及存储介质 |
CN113439253A (zh) * | 2019-04-12 | 2021-09-24 | 深圳市欢太科技有限公司 | 应用清理方法、装置、存储介质及电子设备 |
CN113439253B (zh) * | 2019-04-12 | 2023-08-22 | 深圳市欢太科技有限公司 | 应用清理方法、装置、存储介质及电子设备 |
CN110321945A (zh) * | 2019-06-21 | 2019-10-11 | 深圳前海微众银行股份有限公司 | 扩充样本方法、终端、装置及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019062419A1 (zh) | 2019-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704070A (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN107704289A (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN107678845A (zh) | 应用程序管控方法、装置、存储介质及电子设备 | |
CN107678531A (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN109961077A (zh) | 性别预测方法、装置、存储介质及电子设备 | |
CN107678799B (zh) | 应用程序管控方法、装置、存储介质及电子设备 | |
CN107894827A (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN106383766B (zh) | 系统监控方法和装置 | |
CN108108455A (zh) | 目的地的推送方法、装置、存储介质及电子设备 | |
CN108337358A (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN109948641A (zh) | 异常群体识别方法及装置 | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN109961075A (zh) | 用户性别预测方法、装置、介质及电子设备 | |
CN107643925A (zh) | 后台应用清理方法、装置、存储介质及电子设备 | |
CN107943582A (zh) | 特征处理方法、装置、存储介质及电子设备 | |
CN108197225A (zh) | 图像的分类方法、装置、存储介质及电子设备 | |
CN107748697A (zh) | 应用关闭方法、装置、存储介质及电子设备 | |
CN107729924B (zh) | 图片复审概率区间生成方法及图片复审判定方法 | |
CN110852785B (zh) | 用户分级方法、装置及计算机可读存储介质 | |
CN107861769A (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN109300041A (zh) | 理财策略推荐方法、电子装置及可读存储介质 | |
CN106980629A (zh) | 一种网络资源推荐方法及计算机设备 | |
CN107943537A (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN106897898A (zh) | 一种电商平台智能赠送的方法及系统 | |
CN107943571A (zh) | 后台应用管控方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180216 |
|
RJ01 | Rejection of invention patent application after publication |