CN105446985B - 一种缓存文件夹识别方法及装置 - Google Patents

一种缓存文件夹识别方法及装置 Download PDF

Info

Publication number
CN105446985B
CN105446985B CN201410307299.5A CN201410307299A CN105446985B CN 105446985 B CN105446985 B CN 105446985B CN 201410307299 A CN201410307299 A CN 201410307299A CN 105446985 B CN105446985 B CN 105446985B
Authority
CN
China
Prior art keywords
value
preset
sample value
folder
destination folder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410307299.5A
Other languages
English (en)
Other versions
CN105446985A (zh
Inventor
杨启东
焦国强
张楠
陈勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201410307299.5A priority Critical patent/CN105446985B/zh
Priority to PCT/CN2015/082228 priority patent/WO2016000554A1/zh
Priority to US15/322,070 priority patent/US10824597B2/en
Publication of CN105446985A publication Critical patent/CN105446985A/zh
Application granted granted Critical
Publication of CN105446985B publication Critical patent/CN105446985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1727Details of free space management performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management

Abstract

本发明实施例公开了一种缓存文件夹识别方法及装置,该方法包括:在目标软件运行的过程中,根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,其中,所述目标文件夹为所述目标软件在运行过程中所使用的文件夹,n≥2;根据预设的算法,计算所述多个样本值的统计值,所述统计值用于表征样本值的离散程度;判断所述统计值是否大于预设的第一阈值;在判断结果为是的情况下,将所述目标文件夹识别为缓存文件夹。本发明与现有技术相比,识别效率高,且能够实现持续的对某一个软件进行监控,不会存在遗漏的缓存文件夹。

Description

一种缓存文件夹识别方法及装置
技术领域
本发明涉及移动互联网领域,特别涉及一种缓存文件夹识别方法及装置。
背景技术
用户在使用移动终端上网、玩游戏、看视频的过程中,都会在移动终端本地产生大量的缓存文件,存在于缓存文件夹中,这些缓存文件会占用系统的资源,当这些缓存文件增加到一定量的时候,移动终端的运行会变得十分缓慢,影响到用户的正常使用。因此,需要删除这些缓存文件夹。
要删除这些缓存文件夹,首先要能识别出哪些文件是可以删除的缓存文件夹。
现有的一种缓存文件夹识别方法是由测试人员在服务端删除某软件对应的文件夹后验证该软件是否能正常运行,如果能正常运行,则该文件夹即为缓存文件夹。这种方法效率很低,而且由于人力和物力存在一定的局限性,不能够持续的对某一个软件进行监控,这往往会造成对一些软件的处理存在遗漏的缓存文件夹。
发明内容
为解决上述问题,本发明实施例公开了一种缓存文件夹识别方法及装置,技术方案如下:
一种缓存文件夹识别方法,可以包括:
在目标软件运行的过程中,根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,其中,所述目标文件夹为所述目标软件在运行过程中所使用的文件夹,n≥2;
根据预设的算法,计算所述多个样本值的统计值,所述统计值用于表征样本值的离散程度;
判断所述统计值是否大于预设的第一阈值;
在判断结果为是的情况下,将所述目标文件夹识别为缓存文件夹。
在本发明的一种优选实施方式中,所述根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,具体为:
在不同的时刻统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
在本发明的一种优选实施方式中,所述在不同的时刻统计所述目标文件夹中文件数量的样本值,具体为:
根据预设的时间间隔,周期性的统计所述目标文件夹中文件数量的样本值。
在本发明的一种优选实施方式中,所述根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,具体为:
根据预设的触发统计事件,在所述预设的触发统计事件发生的情况下,统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
在本发明的一种优选实施方式中,所述根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,具体为:
分别从n个移动终端中,获得每个移动终端中所述目标文件夹中文件数量,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
在本发明的一种优选实施方式中,所述根据预设的算法,计算所述多个样本值的统计值,具体为:根据公式
计算所述多个样本值的方差,其中,为x1、x2、…xn的数均平均数。
在本发明的一种优选实施方式中,所述根据预设的算法,计算所述多个样本值的统计值,具体为:根据公式
计算所述多个样本值的标准差,其中,为x1、x2、…xn的数均平均数。
在本发明的一种优选实施方式中,所述根据预设的算法,计算所述多个样本值的统计值,具体为:根据公式
R=xmax-xmin
计算所述多个样本值的极差,其中,xmax和xmin分别为x1、x2、…xn的最大值和最小值。
在本发明的一种优选实施方式中,在所述根据预设的算法,计算所述多个样本值的统计值之前,进一步包括:
判断x1、x2、…xn是否均小于预设的第二阈值,
在判断结果为否的情况下,继续执行所述根据预设的算法,计算所述多个样本值的统计值的步骤;
在判断结果为是的情况下,将所述目标文件夹识别为非缓存文件夹。
在本发明的一种优选实施方式中,在所述根据预设的算法,计算所述多个样本值的统计值之前,进一步包括:
判断x1、x2、…xn是否均小于预设的第三阈值,
在判断结果为是的情况下,继续执行所述根据预设的算法,计算所述多个样本值的统计值的步骤;
在判断结果为否的情况下,将所述目标文件夹识别为缓存文件夹。
在本发明的一种优选实施方式中,在所述根据预设的算法,计算所述多个样本值的统计值之前,进一步包括:
判断x1、x2、…xn是否均小于预设的第二阈值,
在判断结果为均小于第二阈值的情况下,将所述目标文件夹识别为非缓存文件夹;
在判断结果为存在至少一个样本值大于预设的第二阈值的情况下,进一步判断x1、x2、…xn是否均小于预设的第三阈值,所述预设的第三阈值大于预设的第二阈值;
在判断结果为均小于第三阈值的情况下,继续执行所述根据预设的算法,计算所述多个样本值的统计值的步骤;
在判断结果为存在至少一个样本值大于预设的第三阈值的情况下,确定所述目标文件夹为缓存文件夹。
本发明同时公开了一种缓存文件夹识别装置,可以包括:
样本值获取单元,用于在目标软件运行的过程中,根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,其中,所述目标文件夹为所述目标软件在运行过程中所使用的文件夹,n≥2;
统计值计算单元,用于根据预设的算法,计算所述多个样本值的统计值,所述统计值用于表征样本值的离散程度;
统计值判断单元,用于判断所述统计值是否大于预设的第一阈值;
缓存文件夹识别单元,用于在所述统计值判断单元的判断结果为是的情况下,将所述目标文件夹识别为缓存文件夹。
在本发明的一种优选实施方式中,所述样本值获取单元具体用于:
在不同的时刻统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
在本发明的一种优选实施方式中,所述样本值获取单元具体用于:
根据预设的时间间隔,周期性的统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
在本发明的一种优选实施方式中,所述样本值获取单元具体用于:
根据预设的触发统计事件,在所述预设的触发统计事件发生的情况下,统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
在本发明的一种优选实施方式中,所述样本值获取单元具体用于:
分别从n个移动终端中,获得每个移动终端中所述目标文件夹中文件数量,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
在本发明的一种优选实施方式中,所述统计值计算单元具体用于:根据公式
计算所述多个样本值的方差,其中,为x1、x2、…xn的数均平均数。
在本发明的一种优选实施方式中,所述统计值计算单元具体用于:根据公式
计算所述多个样本值的标准差,其中,为x1、x2、…xn的数均平均数。
在本发明的一种优选实施方式中,所述统计值计算单元具体用于:根据公式
R=xmax-xmin
计算所述多个样本值的极差,其中,xmax和xmin分别为x1、x2、…xn的最大值和最小值。
在本发明的一种优选实施方式中,还包括第一样本值判断单元及非缓存文件夹识别单元;所述第一样本值判断单元用于在所述统计值计算单元根据预设的算法,计算所述多个样本值的统计值之前,
判断x1、x2、…xn是否均小于预设的第二阈值,
在判断结果为否的情况下,触发所述统计值计算单元根据预设的算法,计算所述多个样本值的统计值;
在判断结果为是的情况下,触发所述非缓存文件夹识别单元将所述目标文件夹识别为非缓存文件夹。
在本发明的一种优选实施方式中,还包括第二样本值判断单元,用于在所述统计值计算单元根据预设的算法,计算所述多个样本值的统计值之前,
判断x1、x2、…xn是否均小于预设的第三阈值,
在判断结果为是的情况下,触发所述统计值计算单元根据预设的算法,计算所述多个样本值的统计值;
在判断结果为否的情况下,触发所述缓存文件夹识别单元将所述目标文件夹识别为缓存文件夹。
在本发明的一种优选实施方式中,还包括第一样本值判断单元、第二样本值判断单元及非缓存文件夹识别单元;
所述第一样本值判断单元用于在所述统计值计算单元根据预设的算法,计算所述多个样本值的统计值之前,
判断x1、x2、…xn是否均小于预设的第二阈值,
在判断结果为均小于第二阈值的情况下,触发所述非缓存文件夹识别单元将所述目标文件夹识别为非缓存文件夹;
在判断结果为存在至少一个样本值大于预设的第二阈值的情况下,触发第二样本值判断单元进一步判断x1、x2、…xn是否均小于预设的第三阈值,其中,所述预设的第三阈值大于预设的第二阈值;
在判断结果为均小于第三阈值的情况下,触发所述统计值计算单元根据预设的算法,计算所述多个样本值的统计值;
在判断结果为存在至少一个样本值大于预设的第三阈值的情况下,触发缓存文件夹识别单元确定所述目标文件夹为缓存文件夹。本发明通过获取目标软件运行过程中所使用的目标文件夹中的文件数量的多个样本值,并通过预设的算法,计算所述多个样本值的统计值,再与预设的第一阈值进行比较,在统计值大于所述预设的第一阈值的情况下,可以确定目标文件夹为缓存文件夹。与现有技术相比,识别效率高,且能够实现持续的对某一个软件进行监控,不会存在遗漏的缓存文件夹。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种缓存文件夹识别方法的第一种流程图;
图2为本发明实施例一种缓存文件夹识别方法的第二种流程图;
图3为本发明实施例一种缓存文件夹识别方法的第三种流程图;
图4为本发明实施例一种缓存文件夹识别方法的第四种流程图;
图5为本发明实施例一种缓存文件夹识别装置的第一种结构示意图;
图6为本发明实施例一种缓存文件夹识别装置的第二种结构示意图。
具体实施方式
众所周知,一款软件在运行的过程中,它可以使用的文件夹一般为两种,一种文件夹中存储有例如可执行文件等软件运行必需的文件,这种文件夹可以称为非缓存文件夹。另一种是软件在运行的过程中临时存放缓存文件的文件夹,可以其为缓存文件夹。
缓存文件夹的一个特特征是其是否存在并不影响软件的正常运行,因此,现有技术利用该特征识别一个文件夹是否是缓存文件夹的方法为:
由测试人员在服务端运行一个软件,并找到该软件运行过程中所使用的文件夹,然后人工将这些文件夹删除,如果删除后,该软件能够继续正常运行,则该文件夹符合缓存文件夹的特征,可以确定该文件夹为缓存文件夹。从对该方法的描述可以看出,该方法需要测试人员参与的程度较高,由于人的精力是有限的,所以该方法的识别效率较低,而且除非有大量的测试人员,否则不能够保证对某一个软件持续的进行监控,这往往会造成对一些软件的处理存在遗漏的缓存文件夹。
发明人经过研究发现,软件在运行时,非缓存文件夹中的文件数量是基本不变的,或者说变化量是很小的。但是,其所使用的缓存文件夹中的文件数量可能由于软件运行时间的不同,甚至由于不同用户的使用,都会产生很大的波动。
根据缓存文件夹的这种特征,发明人设想可以利用统计学方法来确定一个文件夹是否是缓存文件夹。
根据上述的基本原理,本发明提供了一种缓存文件夹识别方法,可以包括:
在目标软件运行的过程中,根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,其中,所述目标文件夹为所述目标软件在运行过程中所使用的文件夹,n≥2;
根据预设的算法,计算所述多个样本值的统计值,所述统计值用于表征样本值的离散程度;
判断所述统计值是否大于预设的第一阈值;
在判断结果为是的情况下,将所述目标文件夹识别为缓存文件夹。
本发明根据缓存文件夹中文件数量波动较大的特征,通过获取目标软件运行过程中所使用的目标文件夹中的文件数量的多个样本值,并通过预设的算法,计算所述多个样本值的统计值,再与预设的第一阈值进行比较,在统计值大于所述预设的第一阈值的情况下,可以确定目标文件夹为缓存文件夹。与现有技术相比,由于试测人员参与的程度较低,因此识别效率高,且能够实现持续的对某一个软件进行监控,不会存在遗漏的缓存文件夹。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种缓存文件夹识别方法,如图1所示,可以包括:
S101,在目标软件运行的过程中,根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,其中,所述目标文件夹为所述目标软件在运行过程中所使用的文件夹,n≥2。
本发明的设计思想是通过统计学方法识别缓存文件夹,因此,首先要获得用于统计计算的数据样本。
在本发明的技术方案中,数据样本指的是获得的目标文件夹中文件数量的多个样本值,并且最少应该获取两个样本值,当然可以理解的是,样本值的数量越多,最后统计出来的数据也越接近于实际情况,但时间成本也相对越高。由于样本值的数量并不影响本发明技术方案的实施,本领域技术人员可以根据实际情况进行选择,本发明在此不作具体限定。
在实施本发明的技术方案对目标软件运行时所使用的目标文件夹进行识别时,可以按照一定的顺序进行,例如,可以按照文件夹名称的字母排序来依次进行识别。也可以根据非缓存文件夹名称的特征,先排除非缓存文件夹。这样,可以进一步减少工作量,加快识别速度。
为了保证目标软件能够一直运行且能够在缓存文件夹中生成较多的缓存文件,优选对目标软件进行持续的操作。如果采用人工来实现这种持续操作,理论上是可行的,但是需要较多的人力,从成本的角度考虑是明显不合适的。因此,优选可以使用自动化触发技术来实现对目标软件进行持续的操作。其原理是在软件运行的过程中,模拟人工对其进行点击、滑动等操作,通过这种技术就可以实现对目标软件进行持续的操作。这里所说的自动化触发技术是现有技术,本领域技术员不需要创造性劳动即可获得,本发明在此不作详细描述。
本发明技术方案在实施过程中,可以预先设定一个样本值的获取方法,并按照该方法来获取目标文件夹中文件数量的多个样本值。
目标软件在运行过程中,由于运行的时间不同,会产生不同数量的缓存文件,因此,基于这个原理,完全可以在不同的时刻统计目标文件夹中文件数量的样本值,统计n次后,可以获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
进行统计的时刻是可以任意选定的,但是,容易想到的是,两次统计之间应该间隔一定的时间,而且时间间隔越大,统计出来的样本值越能体现出文件数量的波动性。如果间隔时间较短,可能出现的情况是虽然目标文件夹是缓存文件夹,但是由于统计的间隔较短,使得每次统计出来的样本值过于接近,经过后续的步骤得到的结果可能为由于目标文件夹内的文件数量波动较小,并不被识别为缓存文件夹。
当然,也可以预先设定一个时间间隔,并周期性的统计目标文件夹中文件数量的样本值。
对于每两次统计间的时间间隔的设定,本领域技术人员可以在能够有效识别缓存文件夹的前提下,根据实际情况进行选择,本发明在此不作具体限定。
对于获取样本的实际操作,可以由人工进行,也可以由设备根据设定的时间参数自动进行。既可以在服务器端进行,也可以在移动终端侧进行。
除此之外,还可以设定一个触发统计事件,在预设的触发统计事件发生的情况下,统计所述目标文件夹中文件数量的样本值,统计n次后,就可以获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
例如,可以设定触发统计事件为当目标文件夹的字节数增加某一阈值时,开始统计目标文件夹中文件数量的样本值。也可以预先统计出对正在运行的目标软件的操作次数,当操作次数达到一个阈值时,开始统计目标文件夹中文件数量的样本值。
不同的移动终端在运行同一个目标软件时,由于不同的运行时间,或者不同的操作,也会产生不同数量的缓存文件。因此,获得目标文件夹中文件数量的多个样本值方法还可以为:分别从n个移动终端中,获得目标文件夹中文件数量的多个样本值。具体实施时,可以由各移动终端统计出样本值后上传到服务器端。
上述的三个获得目标文件夹中文件数量的多个样本值的方法,既可以单独使用,也可以结合起来使用。
例如,可以将预先设定一个时间间隔,并周期性的统计目标文件夹中文件数量的样本值的方法与分别从n个移动终端中,获得目标文件夹中文件数量的多个样本值方法结合在一起进行使用。
具体实施时,在每一个移动终端中按照预先设定一个时间间隔,周期性的统计目标文件夹中文件数量的样本值,当每个移动终端获得了多个样本值后,再将多个样本值发送给服务器端,服务器端接收到每一个移动终端发送的多个样本值后,将这些样本值组合在一起,形成一个新的数据样本,再根据这个新的数据样本进行后续的识别步骤。这样的好处是,由于数据的随机性更强,更具有代表性。
同理,在每一个移动终端中,可以根据预先设定触发统计事件来统计目标文件夹中文件数量的样本值,当每个移动终端获得了多个样本值后,再将多个样本值发送给服务器端,服务器端接收到每一个移动终端发送的多个样本值后,将这些样本值组合在一起,形成一个新的数据样本,再根据这个新的数据样本进行后续的识别步骤。
S102,根据预设的算法,计算所述多个样本值的统计值,所述统计值用于表征样本值的离散程度。
S103,判断所述统计值是否大于预设的第一阈值;
S104,在所述统计值大于所述预设的第一阈值的情况下,确定所述目标文件夹为缓存文件夹。
当统计到一定量的样本值后,就可以应用统计学算法来计算出样本值的统计值,该统计值可以表征样本值的离散程度,或者说可以体现出目标文件夹中文件数量的波动性。
应该说,在统计学中凡是能够表征样本值的离散程度的算法都是可以应用在本发明的实施方案中的,具体采用何种算法不应该成为对本发明技术方案的限制。但优选采用方差、标准差和极差的方法来进行计算。
下面结合具体的实例对上述的三种算法进行描述。
(1)采用方差来表征样本值的离散程度。方差的具体公式为:
其中,s2为方差,n为样本值的数量,为样本值的数均平均数。
例如,当获得目标文件夹中文件数量的4个样本值:5、10、35、60时,
首先计算数均平均数
然后计算方差,s2=(5-40)2+(10-40)2+(35-40)2+(110-40)2=7250
这样,得到的统计值就是7250。当预设的第一阈值为5000时,显然这时的统计值要大于预设的第一阈值,因此将目标文件夹识别为缓存文件夹。
(2)采用标准差来表征样本值的离散程度。标准差的具体公式为:
其中,σ为标准差,n为样本值的数量,为样本值的数均平均数。
由方差及标准差的公式可知,标准差是在方差基础上进行开方而得。因此,在实施 过程中,应用方差或标准差没有较大的区别,只是预设的第一阈值此时应该为
还是以当获得目标文件夹中文件数量的4个样本值:5、10、35、60为例,当计算得到方差后,再进行开方就可以得到标准差。经过计算,σ=85。显然统计值还是大于预设的第一阈值,因此将目标文件夹识别为缓存文件夹。
(3)还可以采用极差来表征样本值的离散程度。极差的具体公式为:
R=xmax-xmin
其中,R为极差,xmax和xmin分别为样本值中的最大值和最小值。
由该公式可知,极差与方差、标准差相比,计算要简单得多,但是,极差由于只是采用样本值中的最大值及最小值,没有充分利用样本值的信息,因此,适用于样本值数量较少时使用。
还是以当获得目标文件夹中文件数量的4个样本值:5、10、35、60为例,
极差R=60-5=55,当预设的第一阈值为50时,可以将目标文件夹识别为缓存文件夹。
需要说明的是,上述的第一阈值是本领域技术人员在对大量的数据进行分析的基础上得到的,因此,将其作为缓存文件夹的判定标准是合适的。第一阈值的具体数值可以由本领域技术人员根据分析确定,本发明在此不作限定。
在本方案实际实施过程中,会依次对目标软件中的各文件夹的文件数量进行统计,从而获得文件数量的多个样本值,但对于目标软件的非缓存文件夹来说,其文件夹中文件的数量一般不多,且数量波动不大,如果对这些文件夹也进行计算并与预设的第一阈值进行比较的话,显然是不经济的。因此在实际的实施过程中,如何能够预先排除这些目标软件的非缓存文件夹还是有必要考虑的。
在本发明实施例的一种优选实施方案中,可以增加一个判断的机制,例如,如图2所示,在根据预设的算法,计算所述多个样本值的统计值之前,进一步包括:S110,判断x1、x2、…xn是否均小于预设的第二阈值;在判断结果为否的情况下,继续执行S102,根据预设的算法,计算所述多个样本值的统计值;在在判断结果为是的情况下,直接执行S105,将所述目标文件夹识别为非缓存文件夹。
这样,就可以预先过滤一些明显不具有缓存特性的文件夹。
换个角度考虑,如果一个文件夹具有缓存特性的话,除了其内在的文件数量波动很大以外,还有一个特征就是缓存文件夹内文件数量往往很大,要远远大于非缓存文件夹内文件数量。基于这个特征,本领域技术人员可以预先对大量的软件中非缓存文件夹内文件数量进行分析统计,得到一个预设的第三阈值,该第三阈值的意义为如果目标软件的文件夹内文件数量大于预设的第三阈值,那么就可以确定该文件夹是缓存文件夹,而不用进一步去计算多个样本值的统计值。这样也可以进一步减少运算量。
在该方案的具体实施过程中,如图3所示,在根据预设的算法,计算所述多个样本值的统计值之前,可以包括:
S111,判断x1、x2、…xn是否均小于预设的第三阈值,
在判断结果为是的情况下,继续执行S102,根据预设的算法,计算所述多个样本值的统计值;
在判断结果为否的情况下,直接执行S104,将所述目标文件夹识别为缓存文件夹。
上述的两种判断机制可以单独使用,也可以结合使用,例如,如图4所示,在根据预设的算法,计算所述多个样本值的统计值之前,先执行S110,判断x1、x2、…xn是否均小于预设的第二阈值;在判断结果为均小于第二阈值的情况下,直接执行S105,将所述目标文件夹识别为非缓存文件夹。
在判断结果为存在至少一个样本值大于预设的第二阈值的情况下,执行S111,判断x1、x2、…xn是否均小于预设的第三阈值,在判断结果为均小于第三阈值的情况下,继续执行S102,根据预设的算法,计算所述多个样本值的统计值;
在判断结果为存在至少一个样本值大于预设的第三阈值的情况下,直接执行S104,确定所述目标文件夹为缓存文件夹。容易想到的是,预设的第三阈值是大于预设的第二阈值的。
当然也可以先利用第三阈值进行判断,再利用第二阈值进行判断,并根据相应的判断结果执行相应的步骤。
进一步需要说明的是,不增加判断机制,本发明的技术方案仍然可以实施,因此,本发明的各实施方案即可单独实施,也可部分或全部结合在一起实施。具体采用何种实施方式,本领域技术人员可以根据实际情况进行选择,本发明在此不作具体限定。
相应于上面的方法实施例,本发明还提供了一种缓存文件夹识别装置,如图5所示,可以包括:
样本值获取单元101,用于在目标软件运行的过程中,根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,其中,所述目标文件夹为所述目标软件在运行过程中所使用的文件夹,n≥2;
统计值计算单元102,用于根据预设的算法,计算所述多个样本值的统计值,所述统计值用于表征样本值的离散程度;
统计值判断单元103,用于判断所述统计值是否大于预设的第一阈值;
缓存文件夹识别单元104,用于在所述统计值判断单元的判断结果为是的情况下,将所述目标文件夹识别为缓存文件夹。
本发明根据缓存文件夹中文件数量波动较大的特征,通过获取目标软件运行过程中所使用的目标文件夹中的文件数量的多个样本值,并通过预设的算法,计算所述多个样本值的统计值,再与预设的第一阈值进行比较,在统计值大于所述预设的第一阈值的情况下,可以确定目标文件夹为缓存文件夹。与现有技术相比,由于试测人员参与的程度较低,因此识别效率高,且能够实现持续的对某一个软件进行监控,不会存在遗漏的缓存文件夹。
在本发明的技术方案具体实施过程中,样本值获取单元101可以用于:在不同的时刻统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
也可以用于:根据预设的时间间隔,周期性的统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
也可以用于:根据预设的触发统计事件,在所述预设的触发统计事件发生的情况下,统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
也可以用于:分别从n个移动终端中,获得每个移动终端中所述目标文件夹中文件数量,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
在本发明的技术方案具体实施过程中,统计值计算单元1102具体可以用于:根据公式
计算所述多个样本值的方差,其中,为x1、x2、…xn的数均平均数。
也可以用于:根据公式
计算所述多个样本值的标准差,其中,为x1、x2、…xn的数均平均数。
也可以用于:根据公式
R=xmax-xmin
计算所述多个样本值的极差,其中,xmax和xmin分别为x1、x2、…xn的最大值和最小值。
在本发明的技术方案具体实施过程中,还可以包括第一样本值判断单元及非缓存文件夹识别单元,第一样本值判断单元用于在统计值计算单元102根据预设的算法,计算所述多个样本值的统计值之前,
判断x1、x2、…xn是否均小于预设的第二阈值,
在判断结果为否的情况下,触发统计值计算单元102,根据预设的算法,计算所述多个样本值的统计值;
在判断结果为是的情况下,触发所述非缓存文件夹识别单元将所述目标文件夹识别为非缓存文件夹。
在本发明的技术方案具体实施过程中,还可以包括第二样本值判断单元,用于在所述统计值计算单元102根据预设的算法,计算所述多个样本值的统计值之前,判断x1、x2、…xn是否均小于预设的第三阈值,
在判断结果为是的情况下,,触发统计值计算单元102,根据预设的算法,计算所述多个样本值的统计值的步骤;
在判断结果为否的情况下,触发缓存文件夹识别单元104,将所述目标文件夹识别为缓存文件夹。
在本发明的技术方案具体实施过程中,如图6所示,还可以同时包括第一样本值判断单元110和第二样本值判断单元111及非缓存文件夹识别单元,第一样本值判断单元110用于在所述统计值计算单元102根据预设的算法,计算所述多个样本值的统计值之前,
判断x1、x2、…xn是否均小于预设的第二阈值,
在判断结果为均小于第二阈值的情况下,触发所述非缓存文件夹识别单元将所述目标文件夹识别为非缓存文件夹;
在判断结果为存在至少一个样本值大于预设的第二阈值的情况下,触发第二样本值判断单元111,进一步判断x1、x2、…xn是否均小于预设的第三阈值,所述预设的第三阈值大于预设的第二阈值;
在第二样本值判断单元111的判断结果为均小于第三阈值的情况下,触发统计值计算单元102根据预设的算法,计算所述多个样本值的统计值;
在第二样本值判断单元111的判断结果为存在至少一个样本值大于预设的第三阈值的情况下,触发缓存文件夹识别单元104确定所述目标文件夹为缓存文件夹。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (22)

1.一种缓存文件夹识别方法,其特征在于,包括:
在目标软件运行的过程中,根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,其中,所述目标文件夹为所述目标软件在运行过程中所使用的文件夹,n≥2;
根据预设的算法,计算所述多个样本值的统计值,所述统计值用于表征样本值的离散程度;
判断所述统计值是否大于预设的第一阈值;
在判断结果为是的情况下,将所述目标文件夹识别为缓存文件夹。
2.如权利要求1所述的方法,其特征在于,所述根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,具体为:
在不同的时刻统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
3.如权利要求2所述的方法,其特征在于,所述在不同的时刻统计所述目标文件夹中文件数量的样本值,具体为:
根据预设的时间间隔,周期性的统计所述目标文件夹中文件数量的样本值。
4.如权利要求1所述的方法,其特征在于,所述根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,具体为:
根据预设的触发统计事件,在所述预设的触发统计事件发生的情况下,统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
5.如权利要求1所述的方法,其特征在于,所述根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,具体为:
分别从n个移动终端中,获得每个移动终端中所述目标文件夹中文件数量,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
6.如权利要求1所述的方法,其特征在于,所述根据预设的算法,计算所述多个样本值的统计值,具体为:根据公式
计算所述多个样本值的方差,其中,为x1、x2、…xn的数均平均数。
7.如权利要求1所述的方法,其特征在于,所述根据预设的算法,计算所述多个样本值的统计值,具体为:根据公式
计算所述多个样本值的标准差,其中,为x1、x2、…xn的数均平均数。
8.如权利要求1所述的方法,其特征在于,所述根据预设的算法,计算所述多个样本值的统计值,具体为:根据公式
R=xmax-xmin
计算所述多个样本值的极差,其中,xmax和xmin分别为x1、x2、…xn的最大值和最小值。
9.如权利要求1所述的方法,其特征在于,在所述根据预设的算法,计算所述多个样本值的统计值之前,进一步包括:
判断x1、x2、…xn是否均小于预设的第二阈值,
在判断结果为否的情况下,继续执行所述根据预设的算法,计算所述多个样本值的统计值的步骤;
在判断结果为是的情况下,将所述目标文件夹识别为非缓存文件夹。
10.如权利要求1所述的方法,其特征在于,在所述根据预设的算法,计算所述多个样本值的统计值之前,进一步包括:
判断x1、x2、…xn是否均小于预设的第三阈值,
在判断结果为是的情况下,继续执行所述根据预设的算法,计算所述多个样本值的统计值的步骤;
在判断结果为否的情况下,将所述目标文件夹识别为缓存文件夹。
11.如权利要求1所述的方法,其特征在于,在所述根据预设的算法,计算所述多个样本值的统计值之前,进一步包括:
判断x1、x2、…xn是否均小于预设的第二阈值,
在判断结果为均小于第二阈值的情况下,将所述目标文件夹识别为非缓存文件夹;
在判断结果为存在至少一个样本值大于预设的第二阈值的情况下,进一步判断x1、x2、…xn是否均小于预设的第三阈值,所述预设的第三阈值大于预设的第二阈值;
在判断结果为均小于第三阈值的情况下,继续执行所述根据预设的算法,计算所述多个样本值的统计值的步骤;
在判断结果为存在至少一个样本值大于预设的第三阈值的情况下,确定所述目标文件夹为缓存文件夹。
12.一种缓存文件夹识别装置,其特征在于,包括:
样本值获取单元,用于在目标软件运行的过程中,根据预设的规则,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,其中,所述目标文件夹为所述目标软件在运行过程中所使用的文件夹,n≥2;
统计值计算单元,用于根据预设的算法,计算所述多个样本值的统计值,所述统计值用于表征样本值的离散程度;
统计值判断单元,用于判断所述统计值是否大于预设的第一阈值;
缓存文件夹识别单元,用于在所述统计值判断单元的判断结果为是的情况下,将所述目标文件夹识别为缓存文件夹。
13.如权利要求12所述的装置,其特征在于,所述样本值获取单元具体用于:
在不同的时刻统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
14.如权利要求13所述的装置,其特征在于,所述样本值获取单元具体用于:
根据预设的时间间隔,周期性的统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
15.如权利要求12所述的装置,其特征在于,所述样本值获取单元具体用于:
根据预设的触发统计事件,在所述预设的触发统计事件发生的情况下,统计所述目标文件夹中文件数量的样本值,统计n次后,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
16.如权利要求12所述的装置,其特征在于,所述样本值获取单元具体用于:
分别从n个移动终端中,获得每个移动终端中所述目标文件夹中文件数量,获得目标文件夹中文件数量的多个样本值:x1、x2、…xn,n≥2。
17.如权利要求12所述的装置,其特征在于,所述统计值计算单元具体用于:根据公式
计算所述多个样本值的方差,其中,为x1、x2、…xn的数均平均数。
18.如权利要求12所述的装置,其特征在于,所述统计值计算单元具体用于:根据公式
计算所述多个样本值的标准差,其中,为x1、x2、…xn的数均平均数。
19.如权利要求12所述的装置,其特征在于,所述统计值计算单元具体用于:根据公式
R=xmax-xmin
计算所述多个样本值的极差,其中,xmax和xmin分别为x1、x2、…xn的最大值和最小值。
20.如权利要求12所述的装置,其特征在于,还包括第一样本值判断单元及非缓存文件夹识别单元;所述第一样本值判断单元用于在所述统计值计算单元根据预设的算法,计算所述多个样本值的统计值之前,
判断x1、x2、…xn是否均小于预设的第二阈值,
在判断结果为否的情况下,触发所述统计值计算单元根据预设的算法,计算所述多个样本值的统计值;
在判断结果为是的情况下,触发所述非缓存文件夹识别单元将所述目标文件夹识别为非缓存文件夹。
21.如权利要求12所述的装置,其特征在于,还包括第二样本值判断单元,用于在所述统计值计算单元根据预设的算法,计算所述多个样本值的统计值之前,
判断x1、x2、…xn是否均小于预设的第三阈值,
在判断结果为是的情况下,触发所述统计值计算单元根据预设的算法,计算所述多个样本值的统计值;
在判断结果为否的情况下,触发所述缓存文件夹识别单元将所述目标文件夹识别为缓存文件夹。
22.如权利要求12所述的装置,其特征在于,还包括第一样本值判断单元、第二样本值判断单元及非缓存文件夹识别单元;
所述第一样本值判断单元用于在所述统计值计算单元根据预设的算法,计算所述多个样本值的统计值之前,
判断x1、x2、…xn是否均小于预设的第二阈值,
在判断结果为均小于第二阈值的情况下,触发所述非缓存文件夹识别单元将所述目标文件夹识别为非缓存文件夹;
在判断结果为存在至少一个样本值大于预设的第二阈值的情况下,触发第二样本值判断单元进一步判断x1、x2、…xn是否均小于预设的第三阈值,其中,所述预设的第三阈值大于预设的第二阈值;
在判断结果为均小于第三阈值的情况下,触发所述统计值计算单元根据预设的算法,计算所述多个样本值的统计值;在判断结果为存在至少一个样本值大于预设的第三阈值的情况下,触发缓存文件夹识别单元确定所述目标文件夹为缓存文件夹。
CN201410307299.5A 2014-06-30 2014-06-30 一种缓存文件夹识别方法及装置 Active CN105446985B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410307299.5A CN105446985B (zh) 2014-06-30 2014-06-30 一种缓存文件夹识别方法及装置
PCT/CN2015/082228 WO2016000554A1 (zh) 2014-06-30 2015-06-24 一种缓存文件夹识别方法及装置
US15/322,070 US10824597B2 (en) 2014-06-30 2015-06-24 Cache folder identification method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410307299.5A CN105446985B (zh) 2014-06-30 2014-06-30 一种缓存文件夹识别方法及装置

Publications (2)

Publication Number Publication Date
CN105446985A CN105446985A (zh) 2016-03-30
CN105446985B true CN105446985B (zh) 2018-12-14

Family

ID=55018435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410307299.5A Active CN105446985B (zh) 2014-06-30 2014-06-30 一种缓存文件夹识别方法及装置

Country Status (3)

Country Link
US (1) US10824597B2 (zh)
CN (1) CN105446985B (zh)
WO (1) WO2016000554A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9482057B2 (en) 2011-09-16 2016-11-01 Baker Hughes Incorporated Cutting elements for earth-boring tools, earth-boring tools including such cutting elements and related methods
CN106302608B (zh) * 2015-06-08 2020-02-04 阿里巴巴集团控股有限公司 一种信息处理方法及装置
CN110083576B (zh) * 2019-05-06 2021-07-23 珠海天燕科技有限公司 一种缓存目录的识别方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8001527B1 (en) * 2004-12-21 2011-08-16 Zenprise, Inc. Automated root cause analysis of problems associated with software application deployments
US8554599B2 (en) * 2005-03-25 2013-10-08 Microsoft Corporation Work item rules for a work item tracking system
US20060230234A1 (en) * 2005-03-30 2006-10-12 Sap Ag. Browser cache management
CN102654872A (zh) * 2011-03-03 2012-09-05 腾讯科技(深圳)有限公司 一种清理应用程序产生的垃圾文件的方法及装置
CN102970420B (zh) * 2012-11-07 2014-01-22 广东欧珀移动通信有限公司 一种Android 系统中的图片过滤方法及系统
CN103577348A (zh) * 2013-10-09 2014-02-12 广东欧珀移动通信有限公司 自动统计应用缓存大小及提醒用户的方法和移动设备
CN103559299B (zh) * 2013-11-14 2017-02-15 贝壳网际(北京)安全技术有限公司 清理文件的方法、装置及移动终端
CN103886059A (zh) * 2014-03-17 2014-06-25 可牛网络技术(北京)有限公司 文件的清理方法及装置

Also Published As

Publication number Publication date
US20170147596A1 (en) 2017-05-25
CN105446985A (zh) 2016-03-30
WO2016000554A1 (zh) 2016-01-07
US10824597B2 (en) 2020-11-03

Similar Documents

Publication Publication Date Title
CN105446985B (zh) 一种缓存文件夹识别方法及装置
CN110175549A (zh) 人脸图像处理方法、装置、设备及存储介质
CN111698214A (zh) 网络攻击的安全处理方法、装置及计算机设备
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
EP4250081A3 (en) Notification display method and terminal
CN106293803B (zh) 一种应用程序控制方法及装置
CN107463904A (zh) 一种确定事件周期值的方法及装置
CN110377521B (zh) 一种目标对象验证方法及装置
Vaz de Melo et al. The self-feeding process: a unifying model for communication dynamics in the web
EP4258210A3 (en) Analyzing images of pests using a mobile device application
CN106601243A (zh) 一种视频文件识别方法及装置
Greenwald et al. Toward Undetected Operating System Fingerprinting.
Halpin et al. Using audiometric thresholds and word recognition in a treatment study
CN109697247A (zh) 一种数据准确性的检测方法及装置
EP3320841A1 (en) User health monitoring method, monitoring device, and monitoring terminal
CN105446845B (zh) 一种智能终端rom流畅度评测方法及系统
US20130173598A1 (en) Method and Apparatus for Automated Pattern Analysis to Identify Location Information in Cellular Telephone Records
CN109800733A (zh) 数据处理方法及装置、电子设备
CN106294630B (zh) 多媒体信息推荐方法、装置及多媒体系统
CN103916463B (zh) 一种网络访问统计分析方法及系统
CN112365269A (zh) 风险检测方法、装置、设备以及存储介质
EP4254240A3 (en) Methods and systems to identify a compromised device through active testing
CN107437174B (zh) 虚拟卡片管理方法和装置
CN105045910B (zh) 一种应用候选集生成方法、装置及服务设备
Kim et al. An analysis of time-instability in web search results

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant