CN107943537A - 应用清理方法、装置、存储介质及电子设备 - Google Patents

应用清理方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN107943537A
CN107943537A CN201711124599.XA CN201711124599A CN107943537A CN 107943537 A CN107943537 A CN 107943537A CN 201711124599 A CN201711124599 A CN 201711124599A CN 107943537 A CN107943537 A CN 107943537A
Authority
CN
China
Prior art keywords
sample
feature
application
information gain
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711124599.XA
Other languages
English (en)
Other versions
CN107943537B (zh
Inventor
曾元清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201711124599.XA priority Critical patent/CN107943537B/zh
Publication of CN107943537A publication Critical patent/CN107943537A/zh
Application granted granted Critical
Publication of CN107943537B publication Critical patent/CN107943537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5022Mechanisms to release resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种应用清理方法、装置、存储介质及电子设备,其中,该方法包括:采集预设时间阈值内应用的多维特征作为样本,并构建该应用的样本集;基于预设规则对该样本集进行样本压缩;计算压缩后的该特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出该应用的决策树模型,该决策树模型的输出包括可清理、或者不可清理;采集当前时间该应用的多维特征作为预测样本;根据该预测样本和该决策树模型判断该应用是否可清理。以压缩后的样本集进行构建决策树,以清理可以清理的应用,实现了精确度更高的自动清理,提高了电子设备的运行速度,并降低了功率。

Description

应用清理方法、装置、存储介质及电子设备
技术领域
本申请涉及通信技术领域,具体涉及一种应用清理方法、装置、存储介质及电子设备。
背景技术
目前,智能手机等电子设备上,通常会有多个应用同时运行,其中,一个应用在前台运行,其他应用在后台运行。如果长时间不清理后台运行的应用,则会导致电子设备的可用内存变小、中央处理器(central processing unit,CPU)占用率过高,导致电子设备出现运行速度变慢,卡顿,耗电过快等问题。因此,有必要提供一种方法解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种应用清理方法、装置、存储介质及电子设备,能够提高电子设备的运行流畅度,降低功耗。
第一方面,本申请实施例了提供了的一种应用清理方法,包括:
采集预设时间阈值内应用的多维特征作为样本,并构建所述应用的样本集;
基于预设规则对所述样本集进行样本压缩;
计算压缩后的所述特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理;
采集当前时间所述应用的多维特征作为预测样本;
根据所述预测样本和所述决策树模型判断所述应用是否可清理。
第二方面,本申请实施例了提供了的一种应用清理装置,包括:
第一采集单元,用于采集预设时间阈值内应用的多维特征作为样本,并构建所述应用的样本集;
压缩单元,用于基于预设规则对所述样本集进行样本压缩;
构建单元,用于计算压缩后的所述特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理;
第二采集单元,用于采集当前时间所述应用的多维特征作为预测样本;
判断单元,用于根据所述预测样本和所述决策树模型判断所述应用是否可清理。
第三方面,本申请实施例提供的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请任一实施例提供的应用清理方法。
第四方面,本申请实施例提供的电子设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如本申请任一实施例提供的应用清理方法。
本申请实施例通过采集预设时间阈值内应用的多维特征作为样本,并构建该应用的样本集;基于预设规则对该样本集进行样本压缩;计算压缩后的该特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出该应用的决策树模型,该决策树模型的输出包括可清理、或者不可清理;采集当前时间该应用的多维特征作为预测样本;根据该预测样本和该决策树模型判断该应用是否可清理。以压缩后的样本集进行构建决策树,以清理可以清理的应用,实现了精确度更高的自动清理,提高了电子设备的运行速度,并降低了功率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的应用清理方法的应用场景示意图。
图2是本申请实施例提供的应用清理方法的一个流程示意图。
图3是本申请实施例提供的一种决策树的示意图。
图4是本申请实施例提供的另一种决策树的示意图。
图5是本申请实施例提供的又一种决策树的示意图。
图6是本申请实施例提供的应用清理方法的另一个流程示意图。
图7是本申请实施例提供的应用清理装置的一个结构示意图。
图8是本申请实施例提供的应用清理装置的另一结构示意图。
图9是本申请实施例提供的电子设备的一个结构示意图。
图10是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种应用清理方法,该应用清理方法的执行主体可以是本申请实施例提供的应用清理装置,或者集成了该应用清理装置的电子设备,其中该应用清理装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。
请参阅图1,图1为本申请实施例提供的应用清理方法的应用场景示意图,以应用清理装置集成在电子设备中为例,电子设备可以采集预设时间阈值内应用的多维特征作为样本,并构建所述应用的样本集;基于预设规则对所述样本集进行样本压缩;计算压缩后的所述特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理;采集当前时间所述应用的多维特征作为预测样本;根据所述预测样本和所述决策树模型判断所述应用是否可清理。
具体地,例如图1所示,以判断后台运行的应用程序a(如社交应用、游戏应用等)是否可以清理为例,可以在设时间阈值内,采集应用a的多维特征(例如应用a是否连接无线网络、应用a运行的时间信息等)作为样本,构建应用a的样本集,基于预设规则对该样本集进行样本压缩;
计算压缩后的特征(例如应用a是否连接无线网络、应用a运行的时间信息等)对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出所述应用a的决策树模型;采集当前时间应用对应的多维特征(例如在t时刻应用a是否连接无线网络、应用a运行的时间信息等)作为预测样本;根据预测样本和决策树模型判断应用a是否可清理。此外,当预测应用a可清理时,电子设备对应用a进行清理。
请参阅图2,图2为本申请实施例提供的应用清理方法的流程示意图。本申请实施例提供的应用清理方法的具体流程可以如下:
201、采集预设时间阈值内应用的多维特征作为样本,并构建所述应用的样本集。
本实施例所提及的应用,可以是电子设备上安装的任何一个应用,例如办公应用、通信应用、游戏应用、购物应用等。其中,应用可以包括前台运行的应用,即前台应用,也可以包括后台运行的应用,即后台应用。
应用的多维特征具有一定长度的维度,其每个维度上的参数均对应表征应用的一种特征信息,即该多维特征息由多个特征构成。该多个特征可以包括应用自身相关联的特征信息,例如:应用切入到后台的运行时长;应用切入到后台期间,电子设备的灭屏时长;应用进入前台的次数;应用处于前台的时间;应用是否连接无线网络等。
该多个特征信息还可以包括应用所在的电子设备的相关特征信息,例如:电子设备的灭屏时间、亮屏时间、当前电量,电子设备是否在充电状态等。
其中,应用的样本集可以包括多个样本,每个样本包括应用的多维特征。应用的样本集中,可以包括在预设时间阈值内,按照预设频率采集的多个样本。预设时间阈值内,例如可以是过去7天、14天;预设频率,例如可以是每10分钟采集一次、每半小时采集一次。可以理解的是,一次采集的应用的多维特征数据构成一个样本,多个样本,构成样本集。
在构成样本集之后,可以对样本集中的每个样本进行分类,得到每个样本的样本标签,由于本实施要实现的是预测应用是否可以清理,因此,所分类的样本标签包括可清理和不可清理,也即样本类别包括可清理、不可清理。具体可根据用户对应用的历史使用习惯进行标记,例如:当应用进入后台30分钟后,用户关闭了该应用,则标记为“可清理”;再例如,当应用进入后台3分钟之后,用户将应用切换到了前台运行,则标记为“不可清理”。具体地,可以用数值“1”表示“可清理”,用数值“0”表示“不可清理”,反之亦可。
202、基于预设规则对样本集进行样本压缩。
其中,每一条样本包含一个类别,即可清理或者不可清理,通常来说,会将可清理的样本定义为正样本;将不可清理的样本定义为负样本。这样的好处是可以适用于构建所有的应用的决策树,但是,若负样本的比例超过一定的阈值时,会影响决策树模型构建的效率以及预测精度。
进一步的,可以通过预设规则对样本集进行样本压缩,将正负样本的比例控制在一定的范围内,例如,正负样本比例为1:3或者1:4等,此处不作具体限定。
在一实施方式中,该基于预设规则对所述样本集进行样本压缩,可以包括:
(1)遍历所述样本集中的样本,当检测到当前样本为正样本时,保留所述正样本,所述正样本指示为当前样本的类别为可清理;
(2)当检测当前样本为负样本时,标记所述负样本,所述负样本指示为当前样本的类别为不可清理;
(3)判断连续标记为所述负样本的次数是否超过预设次数;
(4)当连续标记为所述负样本的次数超过预设次数时,在所述连续标记的负样本中按时间间隔抽取预设个数的负样本进行保留;
(5)当连续标记为所述负样本的次数不超过预设次数时,保留所述连续标记的负样本。
其中,通过遍历样本集中的所有样本,当检测到当前样本为正样本时,无条件保留,在两条正样本之间,按照时间间隔抽取预设个数的负样本进行保留,将两条正样本之间未抽取的负样本删除。若两条正样本之间的负样本不足预设个数时,将两条正样本之间的所有的负样本保留。
基于此,可以将正负样本比例控制在一定范围内,提升后期构建决策树的效率以及预设的精度。
203、计算压缩后的所述特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出所述应用的决策树模型。
在一实施例中,为便于样本分类,可以将应用的多维特征信息中,未用数值直接表示的特征信息用具体的数值量化出来,例如针对电子设备的无线网连接状态这个特征信息,可以用数值1表示正常的状态,用数值0表示断开的状态(反之亦可);再例如,针对电子设备是否在充电状态这个特征信息,可以用数值1表示充电状态,用数值0表示未充电状态(反之亦可)。
本申请实施例可以基于特征对于样本分类的信息增益对样本集进行样本分类,以构建应用的决策树模型。比如,可以基于ID3算法来构建决策树模型。
其中,决策树是一种依托决策而建立起来的一种树。在机器学习中,决策树是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。决策树仅有单一输出,如果有多个输出,可以分别建立独立的决策树以处理不同的输出。
其中,ID3(Iterative Dichotomiser 3,迭代二叉树3代)算法是决策树的一种,它是基于奥卡姆剃刀原理的,即用尽量用较少的东西做更多的事。在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高。ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。
其中,信息增益是针对一个一个特征而言的,就是看一个特征t,系统有它和没有它时的信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即信息增益。
因此,不同的信息增益对于结果的分类的增益效果是不同,可以通过设置一预设阈值,将信息增益小于该预设阈值的特征去除,以信息增益大于该预设阈值的特征构建决策树模型,可以减少电子设备的运算数据量,进而节省电子设备的电量。
下面将详细介绍根据信息增益大于预设阈值的特征构建出所述应用的决策树模型的过程,比如,包括如下步骤:
(1)生成相应的根节点,并将所述样本集作为所述根节点的节点信息;
(2)将所述根节点的样本集确定为当前待分类的目标样本集;
(3)获取目标样本集内所述特征对于样本集分类的信息增益;
(4)根据所述信息增益大于预设阈值的所述特征中选取当前的划分特征;
(5)根据所述划分特征对所述样本集进行划分,得到若干子样本集;
(6)对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;
(7)生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
(8)判断子节点是否满足预设分类终止条件;
(9)若否,则将所述目标样本集更新为所述去除后子样本集,并返回执行获取目标样本集内所述特征对于样本集分类的信息增益的步骤;
(10)若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括可清理、或者不可清理。
其中,划分特征为根据各特征对于样本集分类的信息增益从特征中选取的特征,用于对样本集分类。其中,根据信息增益选取划分特征的方式有多种,比如为了提升样本分类的精确性,可以选取最大信息增益对应的特征为划分特征。
其中,样本的类别可以包括可清理、不可清理两种类别,每个样本的类别可以用样本标记来表示,比如,当样本标记为数值时,数值“1”表示“可清理”,用数值“0”表示“不可清理”,反之亦可。
当子节点满足预设分类终止条件时,可以将子节点作为叶子节点,即停止对该子节点的样本集分类,并且可以基于去除后子样本集中样本的类别设置该叶子节点的输出。基于样本的类别设置叶子节点的输出的方式有多种。比如,可以去除后样本集中样本数量最多的类别作为该叶子节点的输出。
其中,预设分类终止条件可以根据实际需求设定,当子节点满足预设分类终止条件时,将当前子节点作为叶子节点,停止对子节点对应的样本集进行分词分类;当子节点不满足预设分类终止条件时,继续对子节点对应的额样本集进行分类。比如,预设分类终止条件可以包括:子节点的去除后子样本集合中样本的类别数量为与预设数量,也即步骤“判断子节点是否满足预设分类终止条件”可以包括:
(1)判断子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
(2)若是,则确定子节点满足预设分类终止条件;
(3)若否,则确定子节点不满预设分类终端终止条件。
例如,预设分类终止条件可以包括:子节点对应的去除后子样本集中样本的类别数量为1,也即子节点的样本集中只有一个类别的样本。此时,如果子节点满足该预设分类终止条件,那么,将子样本集中样本的类别作为该叶子节点的输出。如去除后子样本集中只有类别为“可清理”的样本时,那么,可以将“可清理”作为该叶子节点的输出。
在一实施例中,为了提升决策树模型的决策准确性,还可以设置一个划分阈值;当最大的信息增益大于该划分阈值时,才选取该信息增益对于的特征为划分特征。也即,步骤“根据信息增益选取从特征中选取当前的划分特征”可以包括:
(1)从信息增益中选取最大的目标信息增益;
(2)判断目标信息增益是否大于划分阈值;
(3)若是,则选取目标信息增益对应的特征作为当前的划分特征。
在一实施例中,当目标信息增益不大于预设阈值时,可以将当前节点作为叶子节点,并选取样本数量最多的样本类别作为该叶子节点的输出。其中,样本类别包括可清理、或不可清理。
其中,划分阈值可以根据实际需求设定,如0.5、0.6等等。
例如,当特征1对于样本分类的信息增益0.9为最大信息增益时,划分阈值为0.8时,由于最大信息增益大于预设阈值,此时,可以将特征1作为划分特征。
又例如,当划分阈值为1时,那么最大信息增益小于预设阈值,此时,可以将当前节点作为叶子节点,对样本集分析可知类别为“可清理”的样本数量最多,大于类别为“不可清理”的样本数量,此时,可以将“可清理”作为该叶子节点的输出。
其中,根据划分特征对样本进行分类划分的方式有多种,比如,可以基于划分特征的特征值来对样本集进行划分。也即步骤“根据划分特征对样本集进行划分”可以包括:
(1)获取样本集中划分特征的特征值;
(2)根据特征值对样本集进行划分。
比如,可以将样本集中划分特征值相同的样本划分到同一子样本集中。譬如,划分特征的特征值包括:0、1、2,那么此时,可以划分特征的特征值为0的样本归为一类、将特征值为1的样本归为一类、将特征值为2的样本归为一类。
例如,对于样本集A{样本1、样本2……样本i……样本n},其中样本1包括特征1、特征2……特征m,样本i包括特征1、特征2……特征m,样本n包括特征1、特征2……特征m。
首先,对样本集中所有样本进行初始化,然后,生成一个根节点a,并将样本集作为该根节点a的节点信息,如参考图3。
计算各特征如特征1、特征2……特征m对于样本集分类的信息增益g1、g2……gm;在该增益g1、g2……gm,保留信息增益大于预设阈值的增益。并在保留后的增益中选取最大的信息增益gmax,如gi为最大的信息增益。
当最大信息增益gmax小于划分阈值ε时,当前的节点作为叶子节点,并选取样本数量最多的样本类别作为叶子节点的输出。
当最大的信息增益gmax大于划分阈值ε时,可以选取信息增益gmax对应的特征i作为划分特征t,根据特征i对样本集A{样本1、样本2……样本i……样本n}进行划分,如将样本集划分成两个子样本集A1{样本1、样本2……样本k}和A2{样本k+1……样本n}。
将子样本集A1和A2中划分特征t去除,此时,子样本集A1和A2中样本包括{特征1、特征2……特征i-1、特征i+1……特征n}。参考图3生成根节点a的子节点a1和a2,并将子样本集A1作为子节点a1的节点信息、将子样本集A2作为子节点a2的节点信息。
接着,对于每个子节点,以子节点a1为例,判断子节点是否满足预设分类终止条件,若是,则将当前的子节点a1作为叶子节点,并根据子节点a1对应的子样本集中样本的类别设置该叶子节点输出。
当子节点不满足预设分类终止条件时,采用上述基于信息增益分类的方式,继续对子节点对应的子样本集进行分类,如以子节点a2为例可以计算A2样本集中各特征相对于样本分类的信息增益g,选取最大的信息增益gmax,当最大的信息增益gmax大于划分阈值ε时,可以选取该信息增益gmax对应的特征为划分特征t,基于划分特征t将A2划分成若干子样本集,如可以将A2划分成子样本集A21、A22、A23,然后,将子样本集A21、A22、A23中的划分特征t去除,并生成当前节点a2的子节点a21、a22、a23,将去除划分特征t后的样本集A21、A22、A23分别作为子节点a21、a22、a23的节点信息。
依次类推,利用上述的基于信息增益分类的方式可以构成出如图4所示的决策树,该决策树的叶子节点的输出包括“可清理”、或者“不可清理”。
在一实施例中,为了提升利用决策树进行预测的速度和效率,还可以在节点之间的路径上标记相应的划分特征的特征值。比如,在上述基于信息增益分类的过程中,可以在当前节点与其子节点路径上标记相应划分特征的特征值。
例如,划分特征t的特征值包括:0、1时,可以在a2与a之间的路径上标记1,在a1与a之间的路径上标记0,依次类推,在每次划分后,便可以在当前节点与其子节点的路径上标记相应的划分特征值如0或1,便可以得到如图5所示的决策树。
本申请实施例中,可以基于样本分类的经验熵以及特征对于样本集分类结果的条件熵,获取特征对于样本集分类的信息增益。也即步骤“获取目标样本集内特征对于样本集分类的信息增益”可以包括:
(1)获取样本分类的经验熵;
(2)获取特征对于样本集分类结果的条件熵;
(3)根据条件熵和经验熵,获取特征对于样本集分类的信息增益。
其中,可以获取正样本在样本集中出现的第一概率、以及负样本在样本集中出现的第二概率,正样本为样本类别为可清理的样本,负样本为样本类别为不可清理的样本;根据第一概率和第二概率获取样本的经验熵。
例如,对于样本集Y{样本1、样本2……样本i……样本n},如果样本类别为可清理的样本数量为j,不可清理的样本数量为n-j;此时,正样本在样本集Y中的出现概率p1=j/n,负样本在样本集Y中的出现概率p2=n-j/n。然后,基于以下经验熵的计算公式,计算出样本分类的经验熵H(Y):
其中,pi为样本在样本集Y中的出现概率。在决策树分类问题中,信息增益就是决策树在进行属性选择划分前和划分后信息的差值。
在一实施例中,可以根据特征t将样本集划分成若干子样本集,然后,获取各子样本集分类的信息熵,以及该特征t的各特征值在样本集中出现的概率,根据该信息熵以及该概率便可以得到划分后的信息熵,即该特征t对于样本集分类结果的条件熵。
例如,对于样本特征X,该样本特征X对于样本集Y分类结果的条件熵可以通过以下公式计算得到:
其中,n为特征X的取值种数,即特征值类型数量。此时,pi为X特征值为第i种取值的样本在样本集Y中出现的概率,xi为X的第i种取值。H(Y|X=xi)为子样本集Yi分类的经验熵,该子样本集i中样本的X特征值均为第i种取值。
例如,以特征X的取值种数为3,即x1、x2、x3为例,此时,可以特征X将样本集Y{样本1、样本2……样本i……样本n}划分成三个子样本集,特征值为x1的Y1{样本1、样本2……样本d}、特征值为x2的Y2{样本d+1……样本e}、特征值为x3的Y3{样本e+1……样本n}。d、e均为正整数,且小于n。
此时,特征X对于样本集Y分类结果的条件熵为:
H(Y|X)=p1H(Y|x1)+p2H(Y|x2)+p3H(Y|x3);
其中,p1=Y1/Y,p2=Y2/Y,p2=Y3/Y;
H(Y|x1)为子样本集Y1分类的信息熵,即经验熵,可以通过上述经验熵的计算公式计算得到。
在得到样本分类的经验熵H(Y),以及特征X对于样本集Y分类结果的条件熵H(Y|X)后,便可以计算出特征X对于样本集Y分类的信息增益,如通过以下公式计算得到:
g(Y,X)=H(Y)-H(Y|X)
也即特征X对于样本集Y分类的信息增益为:经验熵H(Y)与特征X对于样本集Y分类结果的条件熵H(Y|X)的差值。
204、采集当前时间所述应用的多维特征作为预测样本。
其中,可以在当前时间点采集应用的多维特征作为预测样本。
本申请实施例中,步骤201和204中采集的多维特征是相同特征,例如:应用是否连接无线网络;应用切入到后台期间,电子设备的灭屏时长;应用进入前台的次数;应用处于前台的时间;应用进入后台的方式。
205、根据所述预测样本和所述决策树模型判断所述应用是否可清理。
具体地,根据预测样本和决策树模型获取相应的输出结果,根据输出结果确定应用是否可清理。其中,输出结果包括可清理、或不可清理。
比如,可以根据预测样本的特征和决策树模型确定相应的叶子节点,将该叶子节点的输出作为预测输出结果。如利用预测样本的特征按照决策树的分支条件(即划分特征的特征值)确定当前的叶子节点,取该叶子节点的输出作为预测的结果。由于叶子节点的输出包括可清理、或不可清理,因此,此时可以基于决策树来确定应用是否可清理。
例如,采集当前时间点应用的多维特征后,可以在图5所示的决策树中按照决策树的分支条件查找相应的叶子节点为an1,叶子节点an1的输出为可清理,此时,便确定应用是可清理的。
由上可知,本申请实施例通过采集预设时间阈值内应用的多维特征作为样本,并构建该应用的样本集;基于预设规则对该样本集进行样本压缩;计算压缩后的该特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出该应用的决策树模型,该决策树模型的输出包括可清理、或者不可清理;采集当前时间该应用的多维特征作为预测样本;根据该预测样本和该决策树模型判断该应用是否可清理。以压缩后的样本集进行构建决策树,以清理可以清理的应用,实现了精确度更高的自动清理,提高了电子设备的运行速度,并降低了功率。
进一步地,由于样本集的每个样本中,包括了反映用户使用应用的行为习惯的多个特征信息,因此本申请实施例可以使得对对应应用的清理更加个性化和智能化。
进一步地,基于决策树预测模型来实现应用清理预测,可以提升用户行为预测的准确性,进而提高清理的准确度。并且通过对样本集进行压缩以及增益筛选,可以进一步提升决策树模型的运算速度和准确率。
下面将在上述实施例描述的方法基础上,对本申请的清理方法做进一步介绍。参考图6,该应用清理方法可以包括:
301、采集预设时间阈值内应用的多维特征作为样本,并构建应用的样本集。
应用的多维特征信息具有一定长度的维度,其每个维度上的参数均对应表征应用的一种特征信息,即该多维特征信息由多个特征信息构成。该多个特征信息可以包括应用自身相关的特征信息,例如:应用切入到后台的时长;应用切入到后台期间,电子设备的灭屏时长;应用进入前台的次数;应用处于前台的时间;应用进入后台的方式,例如被主页键(home键)切换进入、被返回键切换进入,被其他应用切换进入等;应用的类型,包括一级(常用应用)、二级(其他应用)等。该多个特征信息还可以包括应用所在的电子设备的相关特征信息,例如:电子设备的灭屏时间、亮屏时间、当前电量,电子设备的无线网络连接状态,电子设备是否在充电状态等。
应用的样本集中,可以包括在历史时间段内,按照预设频率采集的多个样本。历史时间段,例如可以是过去7天、14天;预设频率,例如可以是每10分钟采集一次,每半小时采集一次。可以理解的是,一次采集应用的多维特征数据构成一个样本,多个样本,构成样本集。
一个具体的样本可如下表1所示,包括多个维度的特征信息,需要说明的是,表1所示的特征信息仅为举例,实际中,一个样本所包含的特征信息的数量,可以多于比表1所示信息的数量,也可以少于表1所示信息的数量,所取的具体特征信息也可以与表1所示不同,此处不作具体限定。
表1
302、对样本集中的样本进行分类,得到每个样本的样本标签。
由于本实施要实现的是预测应用是否可以清理,因此,所分类的样本标签包括可清理和不可清理。该样本的样本标签表征该样本的样本类别。此时,样本类别可以包括可清理、不可清理。
此外,还可根据用户对应用的历史使用习惯进行标记,例如:当应用进入后台30分钟后,用户关闭了该应用,则标记为“可清理”;再例如,当应用进入后台3分钟之后,用户将应用切换到了前台运行,则标记为“不可清理”。具体地,可以用数值“1”表示“可清理”,用数值“0”表示“不可清理”,反之亦可。
303、遍历样本集中的样本,当检测到当前样本为正样本时,保留正样本。
其中,可以通过预设规则对样本集进行样本压缩,将正负样本的比例控制在一定的范围内,例如,正负样本比例为1:3或者1:4之内等,此处不作具体限定。
进一步的,当检测到当前样本为证样本时,进行保留,该正样本指示为当前样本的类别为可清理。
304、当检测当前样本为负样本时,标记负样本。
其中,该负样本指示为当前样本的类别为不可清理。
基于此,当检测到当前样本为负样本时,进行标记,记录该被标记的负样本。
305、判断连续标记为负样本的次数是否超过预设次数。
其中,为了实现将正负样本的比例控制在一定的范围内,由于正样本都进行保留,而该负样本为在两条正样本之间,因此为了调控比例,需要进行连续标记为负样本是否超过预设次数的判断步骤。当判断出连续标记为负样本次数超过预设次数,执行步骤306。当判断出连续标记为负样本次数不超过预设次数时,执行步骤307。
306、在连续标记的负样本中按时间间隔抽取预设个数的负样本进行保留。
其中,由于正样本都进行保留,负样本为对应出现在两个正样本之间,当判断出连续标记为负样本的次数超过预设次数时,说明负样本的个数超过比例范围,会对调控比例如1:3之内造成一定的影响,故可以在该连续标记的负样本中按时间间隔抽取预设个数的负样本进行保留,未抽取的进行删除,因此,可以将正负样本比例控制在一定的范围之内。
307、保留连续标记的负样本。
其中,当判断出连续标记为负样本次数不超过预设次数时,说明正负样本的比例在调控比例范围内,将该不超过预设次数的负样本都进行保留。
308、生成相应的根节点,并将样本集作为根节点的节点信息。
比如,参考图3,对于样本集A{样本1、样本2……样本i……样本n},可以先生成决策树的根节点a,并将样本集A作为该根节点a的节点信息。
309、将根节点的样本集确定为当前待分类的目标样本集。
即确定根节点的样本集作为当前待分类的目标样本集。
310、获取目标样本集内特征对于样本集分类的信息增益。
比如,对于样本集A,可以计算各特征如特征1、特征2……特征m对于样本集分类的信息增益g1、g2……gm;选取最大的信息增益gmax。
其中,特征对于样本集分类的信息增益,可以采用如下方式获取:
获取样本分类的经验熵;获取特征对于样本集分类结果的条件熵;根据条件熵和经验熵,获取特征对于样本集分类的信息增益。
比如,可以获取正样本在样本集中出现的第一概率、以及负样本在样本集中出现的第二概率,正样本为样本类别为可清理的样本,负样本为样本类别为不可清理的样本;根据第一概率和第二概率获取样本的经验熵。
例如,对于样本集Y{样本1、样本2……样本i……样本n},如果样本类别为可清理的样本数量为j,不可清理的样本数量为n-j;此时,正样本在样本集Y中的出现概率p1=j/n,负样本在样本集Y中的出现概率p2=n-j/n。然后,基于以下经验熵的计算公式,计算出样本分类的经验熵H(Y):
在决策树分类问题中,信息增益就是决策树在进行属性选择划分前和划分后信息的差值。
在一实施例中,可以根据特征t将样本集划分成若干子样本集,然后,获取各子样本集分类的信息熵,以及该特征t的各特征值在样本集中出现的概率,根据该信息熵以及该概率便可以得到划分后的信息熵,即该特征t对于样本集分类结果的条件熵。
例如,对于样本特征X,该样本特征X对于样本集Y分类结果的条件熵可以通过以下公式计算得到:
其中,n为特征X的取值种数,即特征值类型数量。此时,pi为X特征值为第i种取值的样本在样本集Y中出现的概率,xi为X的第i种取值。H(Y|X=xi)为子样本集Yi分类的经验熵,该子样本集i中样本的X特征值均为第i种取值。
例如,以特征X的取值种数为3,即x1、x2、x3为例,此时,可以特征X将样本集Y{样本1、样本2……样本i……样本n}划分成三个子样本集,特征值为x1的Y1{样本1、样本2……样本d}、特征值为x2的Y2{样本d+1……样本e}、特征值为x3的Y3{样本e+1……样本n}。d、e均为正整数,且小于n。
此时,特征X对于样本集Y分类结果的条件熵为:
H(Y|X)=p1H(Y|x1)+p2H(Y|x2)+p3H(Y|x3);
其中,p1=Y1/Y,p2=Y2/Y,p2=Y3/Y;
H(Y|x1)为子样本集Y1分类的信息熵,即经验熵,可以通过上述经验熵的计算公式计算得到。
在得到样本分类的经验熵H(Y),以及特征X对于样本集Y分类结果的条件熵H(Y|X)后,便可以计算出特征X对于样本集Y分类的信息增益,如通过以下公式计算得到:
g(Y,X)=H(Y)-H(Y|X)
也即特征X对于样本集Y分类的信息增益为:经验熵H(Y)与特征X对于样本集Y分类结果的条件熵H(Y|X)的差值。
311、根据信息增益大于预设阈值的特征中选取当前的划分特征。
其中,不同的信息增益对于结果的分类的增益效果是不同,可以通过设置一预设阈值,将信息增益小于该预设阈值的特征去除,以信息增益大于该预设阈值的特征构建决策树模型,可以减少电子设备的运算数据量,进而节省电子设备的电量。
其中,划分特征为根据各特征对于样本集分类的信息增益从特征中选取的特征,用于对样本集分类。其中,根据信息增益选取划分特征的方式有多种,比如为了提升样本分类的精确性,可以选取最大信息增益对应的特征为划分特征。
在一实施方式中,根据信息增益大于预设阈值的特征中选取当前的划分特征,可以包括:
(1)从信息增益中选取最大的目标信息增益;
(2)判断目标信息增益是否大于划分阈值;
(3)若是,则选取目标信息增益对应的特征作为当前的划分特征。
在一实施例中,当目标信息增益不大于预设阈值时,可以将当前节点作为叶子节点,并选取样本数量最多的样本类别作为该叶子节点的输出。其中,样本类别包括可清理、或不可清理。
其中,预设阈值可以根据实际需求设定,如0.5、0.6等等。
例如,当特征1对于样本分类的信息增益0.7为最大信息增益时,划分阈值为0.6时,由于最大信息增益大于划分阈值,此时,可以将特征1作为划分特征。
又例如,当划分阈值为1时,那么最大信息增益小于预设阈值,此时,可以将当前节点作为叶子节点,对样本集分析可知类别为“可清理”的样本数量最多,大于类别为“不可清理”的样本数量,此时,可以将“可清理”作为该叶子节点的输出。
312、根据划分特征对样本集进行划分,得到若干子样本集。
比如,当最大的信息增益gmax对应的特征为特征i时,可以选取特征i为划分特征。
具体地,可以根据划分特征的特征值种数将样本集划分成若干子样本集,子样本集的数量与特征值种数相同。例如,可以将样本集中划分特征值相同的样本划分到同一子样本集中。譬如,划分特征的特征值包括:0、1、2,那么此时,可以划分特征的特征值为0的样本归为一类、将特征值为1的样本归为一类、将特征值为2的样本归为一类。
313、对子样本集中样本的划分特征进行去除,得到去除后子样本集。
比如,划分特征i的取值有两种时,可以将样本集A划分成A1{样本1、样本2……样本k}和A2{样本k+1……样本n}。然后,可以将子样本集A1和A2中的划分特征i去除。
314、生成当前节点的子节点,并将去除后子样本集作为子节点的节点信息。
其中,一个子样本集对应一个子节点。例如,考图3生成根节点a的子节点a1和a2,并将子样本集A1作为子节点a1的节点信息、将子样本集A2作为子节点a2的节点信息。
在一实施例中,还可以将子节点对应的划分特征值设置子节点与当前节点的路径上,便于后续进行应用预测,参考图5。
315、判断子节点是否满足预设分类终止条件。
若是,则执行步骤316,若否,则执行步骤317。
其中,预设分类终止条件可以根据实际需求设定,当子节点满足预设分类终止条件时,将当前子节点作为叶子节点,停止对子节点对应的样本集进行分词分类;当子节点不满足预设分类终止条件时,继续对子节点对应的样本集进行分类。比如,预设分类终止条件可以包括:子节点的去除后子样本集合中样本的类别数量为与预设数量。
例如,预设分类终止条件可以包括:子节点对应的去除后子样本集中样本的类别数量为1,也即子节点的样本集中只有一个类别的样本。
316、将目标样本集更新为去除后子样本集。并返回执行步骤310。
317、将子节点作为叶子节点,根据去除后子样本集中样本的类别设置叶子节点的输出。
例如,预设分类终止条件可以包括:子节点对应的去除后子样本集中样本的类别数量为1,也即子节点的样本集中只有一个类别的样本。
此时,如果子节点满足该预设分类终止条件,那么,将子样本集中样本的类别作为该叶子节点的输出。如去除后子样本集中只有类别为“可清理”的样本时,那么,可以将“可清理”作为该叶子节点的输出。
318、在构建完决策树模型后,采集当前时间应用的多维特征作为预测样本。
其中,需要预测应用是否可清理的时间可以包括当前时间,或者其他时间。
在一实施方式中,在构建完决策树之后,还可以包括:
(1)开始计算时间值,并重新采集所述应用的多维特征作为样本,并构建所述应用的样本集;
需要说明的是,学习用户的使用习惯于偏好并不需要太长时间,比如两个星期是学习用户使用习惯与偏好的一个理想周期。那么我们只需要收集两个星期的数据,可以节省存储空间,减少样本数量,又比较好的贴合用户的使用习惯。
其中,在构建完决策树之后,开始计时,并在计时的阶段中,重新采集应用的多维特征作为样本,并基于该重新采集的样本构建应用的样本集。
(2)当所述时间值达到预设阈值时,将所述决策树模型删除,并返回执行遍历样本集中的样本,当检测到当前样本为正样本时,保留正样本的步骤。
进一步的,当计时的时间值达到预设阈值时,将当前的决策树模型删除,并返回执行遍历样本集中的样本,当检测到当前样本为正样本时,保留正样本的步骤。
其中,基于这种回滚式的方式,既可以节省存储空间,又可以减少样本的采集数量,从而使得可以在手机上就可以进行训练,并且循环更新利用的为最新数据,可以更好的贴近用户的使用习惯,提高预测的准确率。
319、根据预测样本和决策树模型判断应用是否可清理。
比如,可以根据预测样本的特征和决策树模型确定相应的叶子节点,将该叶子节点的输出作为预测输出结果。如利用预测样本的特征按照决策树的分支条件(即划分特征的特征值)确定当前的叶子节点,取该叶子节点的输出作为预测的结果。由于叶子节点的输出包括可清理、或不可清理,因此,此时可以基于决策树来确定应用是否可清理。
例如,采集当前时间点应用的多维特征后,可以在图5所示的决策树中按照决策树的分支条件查找相应的叶子节点为an2,叶子节点an2的输出为不可清理,此时,便确定应用是不可清理的。
在一个具体的例子中,可以利用预先构建的决策树模型预测后台运行的多个应用是否可清理,如表2所示,则确定可以清理后台运行的应用A1和应用A3,而保持应用A2在后台运行的状态不变。
应用 预测结果
应用A1 可清理
应用A2 不可清理
应用A3 可清理
表2
由上可知,本申请实施例通过采集预设时间阈值内应用的多维特征作为样本,并构建该应用的样本集;基于预设规则对该样本集进行样本压缩;计算压缩后的该特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出该应用的决策树模型,该决策树模型的输出包括可清理、或者不可清理;采集当前时间该应用的多维特征作为预测样本;根据该预测样本和该决策树模型判断该应用是否可清理。以压缩后的样本集进行构建决策树,以清理可以清理的应用,实现了精确度更高的自动清理,提高了电子设备的运行速度,并降低了功率。进一步地,由于样本集的每个样本中,包括了反映用户使用应用的行为习惯的多个特征信息,并设置一定的时间周期进行回滚更新数据,节省了存储空间,因此本申请实施例可以使得对对应应用的清理更加个性化和智能化。
进一步地,基于决策树预测模型来实现应用清理预测,可以提升用户行为预测的准确性,进而提高清理的准确度。
在一实施例中还提供了一种应用清理装置。请参阅图7,图7为本申请实施例提供的应用清理装置的结构示意图。其中该应用清理装置应用于电子设备,该应用清理装置包括第一采集单元401、压缩单元402、构建单元403、第二采集单元404和判断单元405,如下:
第一采集单元401,用于采集预设时间阈值内应用的多维特征作为样本,并构建所述应用的样本集;
压缩单元402,用于基于预设规则对所述样本集进行样本压缩;
构建单元403,用于计算压缩后的所述特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理;
第二采集单元404,用于采集当前时间所述应用的多维特征作为预测样本;
判断单元405,用于根据所述预测样本和所述决策树模型判断所述应用是否可清理。
在一实施例中,参考图8,压缩单元402,可以包括:
第一保留子单元4021,用于遍历所述样本集中的样本,当检测到当前样本为正样本时,保留所述正样本,所述正样本指示为当前样本的类别为可清理;
标记子单元4022,用于当检测当前样本为负样本时,标记所述负样本,所述负样本指示为当前样本的类别为不可清理;
判断子单元4023,用于判断连续标记为所述负样本的次数是否超过预设次数;
第二保留子单元4024,用于当连续标记为所述负样本的次数超过预设次数时,在所述连续标记的负样本中按时间间隔抽取预设个数的负样本进行保留;
第三保留子单元4025,用于当连续标记为所述负样本的次数不超过预设次数时,保留所述连续标记的负样本。
在一实施例中,参考图8,构建单元403,可以包括:
第一生成子单元4031,用于生成相应的根节点,并将所述样本集作为所述根节点的节点信息;将所述根节点的样本集确定为当前待分类的目标样本集;
增益获取子单元4032,用于获取目标样本集内所述特征对于样本集分类的信息增益;
选取子单元4033,用于根据所述信息增益大于预设阈值的所述特征中选取当前的划分特征;
划分子单元4034,用于根据所述划分特征对所述样本集进行划分,得到若干子样本集;
第二生成子单元4035,用于去除对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
判断子单元4036,用于判断子节点是否满足预设分类终止条件;若否,则将所述目标样本集更新为所述去除后子样本集,并返回执行获取目标样本集内所述特征对于样本集分类的信息增益的步骤;若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括可清理、或者不可清理。
其中,该选取子单元4033,可以用于:从所述信息增益中选取最大的目标信息增益;
判断所述目标信息增益是否大于划分阈值;
若是,则选取所述目标信息增益对应的特征作为当前的划分特征。
其中,该增益获取子单元4032,可以用于:获取样本分类的经验熵;
获取所述特征对于样本集分类结果的条件熵;
根据所述条件熵和所述经验熵,获取所述特征对于所述样本集分类的信息增益。
其中,应用清理装置中各单元执行的步骤可以参考上述方法实施例描述的方法步骤。该应用清理装置可以集成在电子设备中,如手机、平板电脑等。
具体实施时,以上各个单元可以作为独立的实体实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单位的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本申请实施例通过第一采集单元401采集预设时间阈值内应用的多维特征作为样本,并构建该应用的样本集;压缩单元402基于预设规则对该样本集进行样本压缩;构建单元403计算压缩后的该特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出该应用的决策树模型,该决策树模型的输出包括可清理、或者不可清理;第二采集单元404采集当前时间该应用的多维特征作为预测样本;判断单元405根据该预测样本和该决策树模型判断该应用是否可清理。以压缩后的样本集进行构建决策树,以清理可以清理的应用,实现了精确度更高的自动清理,提高了电子设备的运行速度,并降低了功率。
本申请实施例还提供一种电子设备。请参阅图9,电子设备500包括处理器501以及存储器502。其中,处理器501与存储器502电性连接。
所述处理器500是电子设备500的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或加载存储在存储器502内的计算机程序,以及调用存储在存储器502内的数据,执行电子设备500的各种功能并处理数据,从而对电子设备500进行整体监控。
所述存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的计算机程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
在本申请实施例中,电子设备500中的处理器501会按照如下的步骤,将一个或一个以上的计算机程序的进程对应的指令加载到存储器502中,并由处理器501运行存储在存储器502中的计算机程序,从而实现各种功能,如下:
采集预设时间阈值内应用的多维特征作为样本,并构建所述应用的样本集;
基于预设规则对所述样本集进行样本压缩;
计算压缩后的所述特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理;
采集当前时间所述应用的多维特征作为预测样本;
根据所述预测样本和所述决策树模型判断所述应用是否可清理。
在某些实施方式中,基于预设规则对所述样本集进行样本压缩时,处理器501可以具体执行以下步骤:
遍历所述样本集中的样本,当检测到当前样本为正样本时,保留所述正样本,所述正样本指示为当前样本的类别为可清理;
当检测当前样本为负样本时,标记所述负样本,所述负样本指示为当前样本的类别为不可清理;
判断连续标记为所述负样本的次数是否超过预设次数;
当连续标记为所述负样本的次数超过预设次数时,在所述连续标记的负样本中按时间间隔抽取预设个数的负样本进行保留;
当连续标记为所述负样本的次数不超过预设次数时,保留所述连续标记的负样本。
在某些实施方式中,根据信息增益大于预设阈值的特征构建出所述应用的决策树模型之后,处理器501还可以具体执行以下步骤:
开始计算时间值,并重新采集所述应用的多维特征作为样本,并构建所述应用的样本集;
当所述时间值达到预设阈值时,将所述决策树模型删除,并返回执行基于预设规则对所述样本集进行样本压缩的步骤。
在某些实施方式中,根据信息增益大于预设阈值的特征构建出所述应用的决策树模型时,处理器501可以具体执行以下步骤:
生成相应的根节点,并将所述样本集作为所述根节点的节点信息;
将所述根节点的样本集确定为当前待分类的目标样本集;
获取目标样本集内所述特征对于样本集分类的信息增益;
根据所述信息增益大于预设阈值的所述特征中选取当前的划分特征;
根据所述划分特征对所述样本集进行划分,得到若干子样本集;
对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;
生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
判断子节点是否满足预设分类终止条件;
若否,则将所述目标样本集更新为所述去除后子样本集,并返回执行获取目标样本集内所述特征对于样本集分类的信息增益的步骤;
若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括可清理、或者不可清理。
在某些实施方式中,根据所述信息增益大于预设阈值的所述特征中选取当前的划分特征时,处理器501可以具体执行以下步骤:
从所述信息增益中选取最大的目标信息增益;
判断所述目标信息增益是否大于划分阈值;
若是,则选取所述目标信息增益对应的特征作为当前的划分特征。
在某些实施方式中,处理器501还可以具体执行以下步骤:
当所述目标信息增益不大于预设阈值时,将当前节点作为叶子节点,并选取样本数量最多的样本类别作为所述叶子节点的输出。
在某些实施方式中,判断子节点是否满足预设分类终止条件时,处理器501可以具体执行以下步骤:
判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
若是,则确定所述子节点满足预设分类终止条件。
在某些实施方式中,计算压缩后的所述特征对于样本分类的信息增益时,处理器501可以具体执行以下步骤:
获取样本分类的经验熵;
获取所述特征对于样本集分类结果的条件熵;
根据所述条件熵和所述经验熵,获取所述特征对于所述样本集分类的信息增益。
由上述可知,本申请实施例的电子设备,通过采集预设时间阈值内应用的多维特征作为样本,并构建该应用的样本集;基于预设规则对该样本集进行样本压缩;计算压缩后的该特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出该应用的决策树模型,该决策树模型的输出包括可清理、或者不可清理;采集当前时间该应用的多维特征作为预测样本;根据该预测样本和该决策树模型判断该应用是否可清理。以压缩后的样本集进行构建决策树,以清理可以清理的应用,实现了精确度更高的自动清理,提高了电子设备的运行速度,并降低了功率。
请一并参阅图10,在某些实施方式中,电子设备500还可以包括:显示器503、射频电路504、音频电路505以及电源506。其中,其中,显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。
所述显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板,在某些实施方式中,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、或者有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。
所述射频电路504可以用于收发射频信号,以通过无线通信与网络设备或其他电子设备建立无线通讯,与网络设备或其他电子设备之间收发信号。
所述音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。
所述电源506可以用于给电子设备500的各个部件供电。在一些实施例中,电源506可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图10中未示出,电子设备500还可以包括摄像头、蓝牙模块等,在此不再赘述。
本申请实施例还提供一种存储介质,所述存储介质存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述任一实施例中的应用清理方法,比如:采集预设时间阈值内应用的多维特征作为样本,并构建该应用的样本集;基于预设规则对该样本集进行样本压缩;计算压缩后的该特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出该应用的决策树模型,该决策树模型的输出包括可清理、或者不可清理;采集当前时间该应用的多维特征作为预测样本;根据该预测样本和该决策树模型判断该应用是否可清理。以压缩后的样本集进行构建决策树,以清理可以清理的应用,实现了精确度更高的自动清理,提高了电子设备的运行速度,并降低了功率。
在本申请实施例中,存储介质可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)、或者随机存取记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的应用清理方法而言,本领域普通测试人员可以理解实现本申请实施例的应用清理方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如应用清理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的应用清理装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种应用清理方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (16)

1.一种应用清理方法,其特征在于,包括:
采集预设时间阈值内应用的多维特征作为样本,并构建所述应用的样本集;
基于预设规则对所述样本集进行样本压缩;
计算压缩后的所述特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理;
采集当前时间所述应用的多维特征作为预测样本;
根据所述预测样本和所述决策树模型判断所述应用是否可清理。
2.如权利要求1所述的应用清理方法,其特征在于,所述基于预设规则对所述样本集进行样本压缩,包括:
遍历所述样本集中的样本,当检测到当前样本为正样本时,保留所述正样本,所述正样本指示为当前样本的类别为可清理;
当检测当前样本为负样本时,标记所述负样本,所述负样本指示为当前样本的类别为不可清理;
判断连续标记为所述负样本的次数是否超过预设次数;
当连续标记为所述负样本的次数超过预设次数时,在所述连续标记的负样本中按时间间隔抽取预设个数的负样本进行保留;
当连续标记为所述负样本的次数不超过预设次数时,保留所述连续标记的负样本。
3.如权利要求1所述的应用清理方法,其特征在于,所述根据信息增益大于预设阈值的特征构建出所述应用的决策树模型之后,还包括:
开始计算时间值,并重新采集所述应用的多维特征作为样本,并构建所述应用的样本集;
当所述时间值达到预设阈值时,将所述决策树模型删除,并返回执行基于预设规则对所述样本集进行样本压缩的步骤。
4.如权利要求1所述的应用清理方法,其特征在于,所述根据信息增益大于预设阈值的特征构建出所述应用的决策树模型,包括:
生成相应的根节点,并将所述样本集作为所述根节点的节点信息;
将所述根节点的样本集确定为当前待分类的目标样本集;
获取目标样本集内所述特征对于样本集分类的信息增益;
根据所述信息增益大于预设阈值的所述特征中选取当前的划分特征;
根据所述划分特征对所述样本集进行划分,得到若干子样本集;
对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;
生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
判断子节点是否满足预设分类终止条件;
若否,则将所述目标样本集更新为所述去除后子样本集,并返回执行获取目标样本集内所述特征对于样本集分类的信息增益的步骤;
若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括可清理、或者不可清理。
5.如权利要求4所述的应用清理方法,其特征在于,根据所述信息增益大于预设阈值的所述特征中选取当前的划分特征,包括:
从所述信息增益中选取最大的目标信息增益;
判断所述目标信息增益是否大于划分阈值;
若是,则选取所述目标信息增益对应的特征作为当前的划分特征。
6.如权利要求5所述的应用清理方法,其特征在于,所述应用清理方法还包括:
当所述目标信息增益不大于预设阈值时,将当前节点作为叶子节点,并选取样本数量最多的样本类别作为所述叶子节点的输出。
7.如权利要求4所述的应用清理方法,其特征在于,判断子节点是否满足预设分类终止条件,包括:
判断所述子节点对应的去除后子样本集中样本的类别数量是否为预设数量;
若是,则确定所述子节点满足预设分类终止条件。
8.如权利要求2-7任一项所述的应用清理方法,其特征在于,所述计算压缩后的所述特征对于样本分类的信息增益,包括:
获取样本分类的经验熵;
获取所述特征对于样本集分类结果的条件熵;
根据所述条件熵和所述经验熵,获取所述特征对于所述样本集分类的信息增益。
9.如权利要求8所述的应用清理方法,其特征在于,根据所述条件熵和所述经验熵,获取所述特征对于所述样本集分类的信息增益,包括:
g(Y,X)=H(Y)-H(Y|X)
其中,g(Y,X)为特征X对于样本集Y分类的信息增益,H(Y)为样本集Y分类的经验熵,H(Y|X)为特征X对于样本集Y分类结果的条件熵。
10.一种应用清理装置,其特征在于,包括:
第一采集单元,用于采集预设时间阈值内应用的多维特征作为样本,并构建所述应用的样本集;
压缩单元,用于基于预设规则对所述样本集进行样本压缩;
构建单元,用于计算压缩后的所述特征对于样本分类的信息增益,根据信息增益大于预设阈值的特征构建出所述应用的决策树模型,所述决策树模型的输出包括可清理、或者不可清理;
第二采集单元,用于采集当前时间所述应用的多维特征作为预测样本;
判断单元,用于根据所述预测样本和所述决策树模型判断所述应用是否可清理。
11.如权利要求10所述的应用清理装置,其特征在于,所述压缩单元包括:
第一保留子单元,用于遍历所述样本集中的样本,当检测到当前样本为正样本时,保留所述正样本,所述正样本指示为当前样本的类别为可清理;
标记子单元,用于当检测当前样本为负样本时,标记所述负样本,所述负样本指示为当前样本的类别为不可清理;
判断子单元,用于判断连续标记为所述负样本的次数是否超过三次;
第二保留子单元,用于当连续标记为所述负样本的次数超过三次时,在所述连续标记的负样本中按时间间隔抽取三个负样本进行保留;
第三保留子单元,用于当连续标记为所述负样本的次数不超过三次时,保留所述连续标记的负样本。
12.如权利要求10所述的应用清理装置,其特征在于,所述构建单元包括:
第一生成子单元,用于生成相应的根节点,并将所述样本集作为所述根节点的节点信息;将所述根节点的样本集确定为当前待分类的目标样本集;
增益获取子单元,用于获取目标样本集内所述特征对于样本集分类的信息增益;
选取子单元,用于根据所述信息增益大于预设阈值的所述特征中选取当前的划分特征;
划分子单元,用于根据所述划分特征对所述样本集进行划分,得到若干子样本集;
第二生成子单元,用于去除对所述子样本集中样本的所述划分特征进行去除,得到去除后子样本集;生成当前节点的子节点,并将所述去除后子样本集作为所述子节点的节点信息;
判断子单元,用于判断子节点是否满足预设分类终止条件;若否,则将所述目标样本集更新为所述去除后子样本集,并返回执行获取目标样本集内所述特征对于样本集分类的信息增益的步骤;若是,则将所述子节点作为叶子节点,根据所述去除后子样本集中样本的类别设置所述叶子节点的输出,所述样本的类别包括可清理、或者不可清理。
13.如权利要求12所述的应用清理装置,其特征在于,所述选取子单元,用于:
从所述信息增益中选取最大的目标信息增益;
判断所述目标信息增益是否大于划分阈值;
若是,则选取所述目标信息增益对应的特征作为当前的划分特征。
14.如权利要求11所述的应用清理装置,其特征在于,所述增益获取子单元,用于:
获取样本分类的经验熵;
获取所述特征对于样本集分类结果的条件熵;
根据所述条件熵和所述经验熵,获取所述特征对于所述样本集分类的信息增益。
15.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至9任一项所述的应用清理方法。
16.一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至9任一项所述的应用清理方法。
CN201711124599.XA 2017-11-14 2017-11-14 应用清理方法、装置、存储介质及电子设备 Active CN107943537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711124599.XA CN107943537B (zh) 2017-11-14 2017-11-14 应用清理方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711124599.XA CN107943537B (zh) 2017-11-14 2017-11-14 应用清理方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN107943537A true CN107943537A (zh) 2018-04-20
CN107943537B CN107943537B (zh) 2020-01-14

Family

ID=61932099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711124599.XA Active CN107943537B (zh) 2017-11-14 2017-11-14 应用清理方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN107943537B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264184A (zh) * 2019-06-28 2019-09-20 Oppo(重庆)智能科技有限公司 支付控制方法及相关产品
CN110515736A (zh) * 2019-08-29 2019-11-29 Oppo广东移动通信有限公司 限制后台对象的方法、装置、终端及存储介质
CN113439253A (zh) * 2019-04-12 2021-09-24 深圳市欢太科技有限公司 应用清理方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335752A (zh) * 2015-09-18 2016-02-17 国网山东省电力公司菏泽供电公司 一种基于主成分分析多变量决策树的接线方式识别方法
CN105550583A (zh) * 2015-12-22 2016-05-04 电子科技大学 基于随机森林分类方法的Android平台恶意应用检测方法
CN105868298A (zh) * 2016-03-23 2016-08-17 华南理工大学 一种基于二叉决策树的手机游戏推荐方法
CN106197424A (zh) * 2016-06-28 2016-12-07 哈尔滨工业大学 遥测数据驱动的无人机飞行状态识别方法
CN106294667A (zh) * 2016-08-05 2017-01-04 四川九洲电器集团有限责任公司 一种基于id3的决策树实现方法及装置
CN106793031A (zh) * 2016-12-06 2017-05-31 常州大学 基于集合竞优算法的智能手机能耗优化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335752A (zh) * 2015-09-18 2016-02-17 国网山东省电力公司菏泽供电公司 一种基于主成分分析多变量决策树的接线方式识别方法
CN105550583A (zh) * 2015-12-22 2016-05-04 电子科技大学 基于随机森林分类方法的Android平台恶意应用检测方法
CN105868298A (zh) * 2016-03-23 2016-08-17 华南理工大学 一种基于二叉决策树的手机游戏推荐方法
CN106197424A (zh) * 2016-06-28 2016-12-07 哈尔滨工业大学 遥测数据驱动的无人机飞行状态识别方法
CN106294667A (zh) * 2016-08-05 2017-01-04 四川九洲电器集团有限责任公司 一种基于id3的决策树实现方法及装置
CN106793031A (zh) * 2016-12-06 2017-05-31 常州大学 基于集合竞优算法的智能手机能耗优化方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113439253A (zh) * 2019-04-12 2021-09-24 深圳市欢太科技有限公司 应用清理方法、装置、存储介质及电子设备
CN113439253B (zh) * 2019-04-12 2023-08-22 深圳市欢太科技有限公司 应用清理方法、装置、存储介质及电子设备
CN110264184A (zh) * 2019-06-28 2019-09-20 Oppo(重庆)智能科技有限公司 支付控制方法及相关产品
CN110264184B (zh) * 2019-06-28 2021-07-23 Oppo(重庆)智能科技有限公司 支付控制方法及相关产品
CN110515736A (zh) * 2019-08-29 2019-11-29 Oppo广东移动通信有限公司 限制后台对象的方法、装置、终端及存储介质
CN110515736B (zh) * 2019-08-29 2023-01-13 Oppo广东移动通信有限公司 限制后台对象的方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN107943537B (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN107704070A (zh) 应用清理方法、装置、存储介质及电子设备
CN107678845A (zh) 应用程序管控方法、装置、存储介质及电子设备
CN107894827A (zh) 应用清理方法、装置、存储介质及电子设备
CN107678799B (zh) 应用程序管控方法、装置、存储介质及电子设备
CN108108455A (zh) 目的地的推送方法、装置、存储介质及电子设备
CN107678531A (zh) 应用清理方法、装置、存储介质及电子设备
CN107704289A (zh) 应用清理方法、装置、存储介质及电子设备
CN107678800A (zh) 后台应用清理方法、装置、存储介质及电子设备
CN107818344A (zh) 用户行为进行分类和预测的方法和系统
CN108337358A (zh) 应用清理方法、装置、存储介质及电子设备
CN109948641A (zh) 异常群体识别方法及装置
CN107632697B (zh) 应用程序的处理方法、装置、存储介质及电子设备
CN107870810A (zh) 应用清理方法、装置、存储介质及电子设备
CN107943537A (zh) 应用清理方法、装置、存储介质及电子设备
CN107943582A (zh) 特征处理方法、装置、存储介质及电子设备
CN108197225A (zh) 图像的分类方法、装置、存储介质及电子设备
CN107835311A (zh) 应用管理方法、装置、存储介质及电子设备
CN107179930A (zh) 一种应用卸载推荐方法及装置
CN107807730B (zh) 应用清理方法、装置、存储介质及电子设备
CN109961075A (zh) 用户性别预测方法、装置、介质及电子设备
CN109300041A (zh) 理财策略推荐方法、电子装置及可读存储介质
CN107885545A (zh) 应用管理方法、装置、存储介质及电子设备
CN107643925A (zh) 后台应用清理方法、装置、存储介质及电子设备
CN110852785A (zh) 用户分级方法、装置及计算机可读存储介质
CN106708912A (zh) 垃圾文件识别及管理方法、识别装置、管理装置和终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 523860 No. 18, Wu Sha Beach Road, Changan Town, Dongguan, Guangdong

Applicant after: OPPO Guangdong Mobile Communications Co., Ltd.

Address before: 523860 No. 18, Wu Sha Beach Road, Changan Town, Dongguan, Guangdong

Applicant before: Guangdong OPPO Mobile Communications Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant