CN104881496B - 一种文件名称识别及文件清理方法及装置 - Google Patents

一种文件名称识别及文件清理方法及装置 Download PDF

Info

Publication number
CN104881496B
CN104881496B CN201510329296.6A CN201510329296A CN104881496B CN 104881496 B CN104881496 B CN 104881496B CN 201510329296 A CN201510329296 A CN 201510329296A CN 104881496 B CN104881496 B CN 104881496B
Authority
CN
China
Prior art keywords
file
regular expression
character string
title
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510329296.6A
Other languages
English (en)
Other versions
CN104881496A (zh
Inventor
焦国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201510329296.6A priority Critical patent/CN104881496B/zh
Publication of CN104881496A publication Critical patent/CN104881496A/zh
Priority to US15/736,125 priority patent/US10705748B2/en
Priority to PCT/CN2016/094954 priority patent/WO2016202308A2/zh
Application granted granted Critical
Publication of CN104881496B publication Critical patent/CN104881496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文件名称识别及文件清理方法及装置,文件名称识别方法包括:确定待处理文件集合;获得待处理文件集合中包含的每一文件的名称对应的字符串;针对所获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板;将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板;根据确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式。应用本发明实施例,实现了电子设备中的文件名称的自动识别及文件的清理,提高了识别电子设备中的文件名称的效率及文件清理的效率。

Description

一种文件名称识别及文件清理方法及装置
技术领域
本发明涉及文件名称的识别技术领域,特别涉及一种文件名称识别及文件清理方法及装置。
背景技术
随着智能手机以及手机软件的发展,手机中生成的文件夹越来越多,手机中存储的文件也越来越多,通常情况下,用户会对手机进行垃圾文件清理以及检索文件及文件夹等。为了提高垃圾文件的清理效率、文件夹的检索效率等,通常需要识别电子设备中的文件的名称对应的正则表达式。
正则表达式,又称正规表示法、常规表示法是计算机科学中的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在实际应用中,用户可以根据给定的一个正则表达式和一个字符串,判断给定的字符串是否符合给定的正则表达式的过滤逻辑;还可以通过给定的正则表达式,从给定的字符串中获得用户想要的特定部分。
目前,主要通过人工的方式识别电子设备中的文件的名称对应的正则表达式,具体过程如下:人工的对电子设备中的每一文件的名称进行判断,判断预设的正则表达式模板库中是否存在与该文件的名称相匹配的正则表达式模板;如果是,则人工根据匹配的正则表达式模板,识别该文件的名称对应的正则表达式。例如,需要确定正则表达式的文件名称为“3548795”,首先人工的在预设的正则表达式模板库中确定与该文件名称相匹配的正则表达式模板,假设匹配到的正则表达式模板为[0-9]{s%},s%表示字符串的长度;进一步人工识别文件名称“3548795”对应的正则表达式为“[0-9]{7}”。
但是,电子设备中的文件较多,进而文件的名称也较多,应用上述人工的方式识别电子设备中的文件的名称,消耗时间较长,效率较低。
发明内容
本发明实施例的目的在于提供一种文件名称识别方法及装置,以实现电子设备中的文件名称的自动识别。
本发明实施例的另一个目的在于提供一种文件清理方法及装置,以实现电子设备中的文件名称的自动识别和文件清理。
为达到上述目的,本发明实施例公开了一种文件名称识别方法,应用于电子设备,包括:
确定待处理文件集合,所述待处理文件集合中包含至少一个文件;
获得所述待处理文件集合中包含的每一文件的名称对应的字符串;
针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作,其中,所述正则表达式识别操作包括:
检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,所述预设的正则表达式模板库中包含至少一个正则表达式模板;
如果存在,将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板;
根据确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式。
较佳的,所述确定待处理文件集合,包括:
分别将所述电子设备中的每一文件夹下的所有文件,确定为待处理文件集合。
较佳的,所述确定待处理文件集合,包括:
分别检测所述电子设备中每一文件夹的名称是否符合预设的第一字符串匹配规则;
分别将检测到的符合所述第一字符串匹配规则的文件夹的名称对应的文件夹下的所有文件,确定为待处理文件集合。
较佳的,所述确定待处理文件集合,包括:
分别检测所述电子设备中每一文件夹的名称是否符合预设的第二字符串匹配规则;
将检测到的所有符合所述第二字符串匹配规则的文件夹的名称对应的文件夹下的所有文件,确定为待处理文件集合。
较佳的,所述确定待处理文件集合,包括:
分别判断所述电子设备中的每一文件夹下的文件数量是否大于或等于预设的第一阈值;
如果是,将该文件夹下的所有文件,确定为待处理文件集合。
较佳的,在所述针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作之前,还包括:
确定与所述待处理文件集合中的文件的名称对应的字符串匹配的、所述正则表达式模板库中的正则表达式模板的种类N;
所述针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作,包括:
在所述N小于或等于预设的第二阈值的情况下,针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作。
较佳的,在所述N小于或等于预设的第二阈值的情况下,针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作之前,还包括:
检测是否存在与所述N类正则表达式模板中的任意一类正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第三阈值;
所述在所述N小于或等于预设的第二阈值的情况下,针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作,包括:
在所述N小于或等于预设的第二阈值、且检测到存在与所述N类正则表达式模板中的任意一类正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第三阈值的情况下,针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作;
所述将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板,包括:
判断与检测到的正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于预设的第四阈值;
如果是,将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板。
较佳的,在所述针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作之前,还包括:
检测是否存在与所述正则表达式模板库中的任意一个正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串大于或等于预设的第五阈值;
所述针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作,包括:
在检测到存在与所述正则表达式模板库中的任意一个正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第五阈值的情况下,针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作;
所述将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板,包括:
判断与检测到的正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于预设的第六阈值;
如果是,将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板。
为达到上述目的,本发明实施例公开了一种文件清理方法,应用于电子设备,包括:
确定待处理文件集合,所述待处理文件集合中包含至少一个文件;
获得所述待处理文件集合中包含的每一文件的名称对应的字符串;
针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作,其中,所述正则表达式识别操作包括:
检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,所述预设的正则表达式模板库中包含至少一个正则表达式模板;
如果存在,将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板;
根据确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式;
将识别出的正则表达式与预设的用于文件清理的正则表达式库中的正则表达式相匹配;
将匹配的正则表达式对应的文件删除。
为达到上述目的,本发明实施例公开了一种文件名称识别装置,应用于电子设备,包括:第一集合确定模块、第一字符串获得模块、第一检测模块、第一模板确定模块和第一正则表达式识别模块,其中,
所述第一集合确定模块,用于确定待处理文件集合,所述待处理文件集合中包含至少一个文件;
所述第一字符串获得模块,用于获得所述第一集合确定模块确定的待处理文件集合中包含的每一文件的名称对应的字符串;
所述第一检测模块,用于针对所述第一字符串获得模块获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,所述预设的正则表达式模板库中包含至少一个正则表达式模板;
所述第一模板确定模块,用于将所述第一检测模块检测到的正则表达式模板,确定为该字符串对应的文件的名称的正则表达式模板;
所述第一正则表达式识别模块,用于根据所述第一模板确定模块确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式。
较佳的,所述第一集合确定模块,具体用于:
分别将所述电子设备中的每一文件夹下的所有文件,确定为待处理文件集合。
较佳的,所述第一集合确定模块,具体用于:
分别检测所述电子设备中每一文件夹的名称是否符合预设的第一字符串匹配规则;
分别将检测到的符合所述第一字符串匹配规则的文件夹的名称对应的文件夹下的所有文件,确定为待处理文件集合。
较佳的,所述第一集合确定模块,具体用于:
分别检测所述电子设备中每一文件夹的名称是否符合预设的第二字符串匹配规则;
将检测到的所有符合所述第二字符串匹配规则的文件夹的名称对应的文件夹下的所有文件,确定为待处理文件集合。
较佳的,所述第一集合确定模块,具体用于:
分别判断所述电子设备中的每一文件夹下的文件数量是否大于或等于预设的第一阈值;
如果是,将该文件夹下的所有文件,确定为待处理文件集合。
较佳的,所述装置还包括:种类确定模块,其中,
所述种类确定模块,用于确定与所述第一集合确定模块确定的待处理文件集合中的文件的名称对应的字符串匹配的、所述正则表达式模板库中的正则表达式模板的种类N;
所述第一检测模块,具体用于:
在所述种类确定模块确定的种类N小于或等于预设的第二阈值的情况下,针对所获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板。
较佳的,所述装置还包括:第二检测模块,
所述第二检测模块,用于检测是否存在与所述种类确定模块确定的N类正则表达式模板中的任意一类正则表达式模板匹配的、所述第一集合确定模块确定的待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第三阈值;
所述第一检测模块,具体用于:
在所述种类确定模块确定的种类N小于或等于预设的第二阈值、且所述第二检测模块检测到存在与所述种类确定模块确定的N类正则表达式模板中的任意一类正则表达式模板匹配的、所述第一集合确定模块确定的待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第三阈值的情况下,针对所获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板;
所述第一模板确定模块,包括:第一判断子模块和第一模板确定子模块,其中,
所述第一判断子模块,用于判断与所述第一检测模块检测到的正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于预设的第四阈值;
所述第一模板确定子模块,用于在所述第一判断子模块判断结果为是的情况下,将所述第一检测模块检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板。
较佳的,所述装置还包括:第三检测模块,其中,
所述第三检测模块,用于检测是否存在与所述正则表达式模板库中的任意一个正则表达式模板匹配的、所述第一集合确定模块确定的待处理文件集合中包含的文件的名称对应的字符串大于或等于预设的第五阈值;
所述第一检测模块,具体用于:
在所述第三检测模块检测到存在与所述正则表达式模板库中的任意一个正则表达式模板匹配的、所述第一集合确定模块确定的待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第五阈值的情况下,针对所获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板;
所述第一模板确定模块,包括:第二判断子模块和第二模板确定子模块,其中,
所述第二判断子模块,用于判断与所述第一检测模块检测到的正则表达式模板匹配的、所述集合确定模块确定的待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于预设的第六阈值;
所述第二模板确定子模块,用于在所述第二判断子模块判断结果为是的情况下,将所述第一检测模块检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板。
为达到上述目的,本发明实施例公开了一种文件清理装置,应用于电子设备,包括:
第二集合确定模块、第二字符串获得模块、第四检测模块、第二模板确定模块、第二正则表达式识别模块、匹配模块和删除模块,其中,
所述第二集合确定模块,用于确定待处理文件集合,所述待处理文件集合中包含至少一个文件;
所述第二字符串获得模块,用于获得所述第二集合确定模块确定的待处理文件集合中包含的每一文件的名称对应的字符串;
所述第四检测模块,用于针对所述第二字符串获得模块获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,所述预设的正则表达式模板库中包含至少一个正则表达式模板;
所述第二模板确定模块,用于将所述第四检测模块检测到的正则表达式模板,确定为该字符串对应的文件的名称的正则表达式模板;
所述第二正则表达式识别模块,用于根据所述第二模板确定模块确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式;
所述匹配模块,用于将所述第二正则表达式识别模块识别出的正则表达式与预设的用于文件清理的正则表达式库中的正则表达式相匹配;
所述删除模块,用于将所述匹配模块匹配的正则表达式对应的文件删除。
由上述的技术方案可见,本发明实施例提供了一种文件名称识别及文件清理方法及装置,应用于电子设备,文件名称识别方法包括:确定待处理文件集合;获得待处理文件集合中包含的每一文件的名称对应的字符串;针对所获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板;将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板;根据确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式。应用本发明实施例所提供的技术方案,实现了电子设备中的文件名称的自动识别及文件的清理,提高了识别电子设备中的文件名称的效率及文件清理的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文件名称识别方法的第一种流程示意图;
图2为本发明实施例提供的文件名称识别方法的第二种流程示意图;
图3为本发明实施例提供的文件名称识别方法的第三种流程示意图;
图4为本发明实施例提供的文件名称识别方法的第四种流程示意图;
图5为本发明实施例提供的文件清理方法的流程示意图;
图6为本发明实施例提供的文件名称识别装置的第一种结构示意图;
图7为本发明实施例提供的文件名称识别装置的第二种结构示意图;
图8为本发明实施例提供的文件名称识别装置的第三种结构示意图;
图9为本发明实施例提供的文件名称识别装置的第四种结构示意图;
图10为本发明实施例提供的文件清理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的实施例优选适用于电子设备,例如,安装了iOS操作系统(IOS是由苹果公司开发的手持设备操作系统)、或安卓操作系统(Android系统是一种基于Linux的自由及开放源代码的操作系统)、或Windows Phone操作系统(Windows Phone是微软公司发布的一款手机操作系统)的电子设备,当然也适用于其他电子设备,本发明对此不作限定。
图1为本发明实施例提供的文件名称识别方法的第一种流程示意图,可以包括:
S101:确定待处理文件集合;
其中,所述待处理文件集合中包含至少一个文件;
S102:获得所述待处理文件集合中包含的每一文件的名称对应的字符串;
S103:针对所获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,如果是,执行S104;
其中,所述预设的正则表达式模板库中包含至少一个正则表达式模板;
S104:将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板;
S105:根据确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式。
具体的,在实际应用中,可以将电子设备中的所有文件,确定为待处理文件集合。还可以分别将电子设备中的每一文件夹下的所有文件,确定为待处理文件集合。还可以分别判断所述电子设备中的每一文件夹下的文件数量是否大于或等于预设的第一阈值;如果是,将该文件夹下的所有文件,确定为待处理文件集合。例如,判断名称为AAAA的文件夹下的文件数量是否大于或等于100,如果是,将名称为AAAA的文件夹下的所有文件,确定为待处理文件集合。
在实际应用中,还可以分别检测所述电子设备中每一文件夹的名称是否符合预设的第一字符串匹配规则;分别将检测到的符合所述第一字符串匹配规则的文件夹的名称对应的文件夹下的所有文件,确定为待处理文件集合。例如,预设的第一字符串匹配规则为:文件夹的名称对应的字符串的字符数量大于或等于15。则分别检测电子设备中每一文件夹的名称对应的字符串的字符数量是否大于或等于15,分别将文件夹的名称对应的字符串的字符数量大于或等于15的所有文件夹下的所有文件,确定为待处理文件集合。
在实际应用中,还可以分别检测所述电子设备中每一文件夹的名称是否符合预设的第二字符串匹配规则;将检测到的所有符合所述第二字符串匹配规则的文件夹的名称对应的文件夹下的所有文件,确定为待处理文件集合。例如,预设的第二字符串匹配规则为:文件夹的名称对应的字符串的字符数量大于或等于15。则分别检测电子设备中每一文件夹的名称对应的字符串的字符数量是否大于或等于15,将文件夹的名称对应的字符串的字符数量大于或等于15的所有文件夹下的所有文件,确定为待处理文件集合。
在实际应用中,对于随机生成的文件,通常情况下,随机生成的文件的名称对应的字符串较长,因此还可以分别检测所述电子设备中每一文件的名称是否符合预设的第三字符串匹配规则;将检测到的所有符合所述第三字符串匹配规则的文件的名称对应的文件,确定为待处理文件集合。例如,预设的第三字符串匹配规则为:文件的名称对应的字符串的字符数量大于或等于15。则分别检测电子设备中每一文件的名称对应的字符串的字符数量是否大于或等于15,将文件的名称对应的字符串的字符数量大于或等于15的所有文件,确定为随机生成的文件,将这些随机生成的文件确定为待处理文件集合。
假设确定的待处理文件集合为电子设备中名称为AAAA的文件夹下的所有文件,其中,名称为AAAA的文件夹中包含10个文件,10个文件的名称分别为:Andriod、bluetooth、DCIM、Download、Movies、Music、Photos、zijizhaopian、201501010805、20150108luzhi,获得上述10个文件的名称所对应的字符串分别为:“Andriod”、“bluetooth”、“DCIM”、“Download”、“Movies”、“Music”、“Photos”、“zijizhaopian”、“201501010805”、“20150108luzhi”。
假设预设的正则表达式模板库中包含7个正则表达式模板,分别为:
[0-9]{s%},s%表示字符串的长度,用于识别只有数字的字符串;
[a-z]{s%},s%表示字符串的长度,用于识别只有小写字母的字符串;
[A-Z]{s%},s%表示字符串的长度,用于识别只有大写字母的字符串;
[0-9a-z]{s%},s%表示字符串的长度,用于识别只有数字和小写字母的字符串;
[0-9A-Z]{s%},s%表示字符串的长度,用于识别只有数字和大写字母的字符串;
[a-zA-Z]{s%},s%表示字符串的长度,用于识别只有小写字母和大写字母的字符串;
[0-9a-zA-Z]{s%},s%表示字符串的长度,用于识别只有数字、小写字母和大写字母的字符串。
则针对上述10个字符串,分别检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板,根据确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式。
以上述10个字符串中的“Andriod”为例,检测预设的正则表达式模板库中是否存在与字符串“Andriod”相匹配的正则表达式模板,检测结果为是,且检测到的正则表达式模板为[a-zA-Z]{s%};将[a-zA-Z]{s%}确定为文件名称为Andriod的正则表达式模板;根据[a-zA-Z]{s%},确定“Andriod”字符串的长度为7,识别文件名称为“Andriod”的正则表达式为“[a-zA-Z]{7}”。
依次识别文件名称为“bluetooth”的正则表达式为“[a-z]{9}”;
文件名称为“DCIM”的正则表达式为“[A-Z]{4}”;
文件名称为“Download”的正则表达式为“[a-zA-Z]{8}”;
文件名称为“Movies”的正则表达式为“[a-zA-Z]{6}”;
文件名称为“Music”的正则表达式为“[a-zA-Z]{5}”;
文件名称为“Photos”的正则表达式为“[a-zA-Z]{6}”;
文件名称为“zijizhaopian”的正则表达式为“[a-z]{12}”;
文件名称为“201501010805”的正则表达式为“[0-9]{12}”;
文件名称为“20150108luzhi”的正则表达式为“[0-9a-z]{13}”。
具体的,在实际应用中,还可以对包含分割符号的文件的名称确定正则表达式,分割符号可以为:'+'、'-'、'.'、'['、']'、'('、')'、'{'、'}'、'^'、'_'、'@'、','、'#'、'%'、”'、';'、'$'、'='、'~'、'`'、'!'、”等等。
例如,对于包含扩展名的文件,假设为rj.jpg,正则表达式模板为[a-zs%]{s%},其中,第一个s%代表分割符号,第二个s%表示字符串的长度;根据[a-zs%]{s%},识别文件名称为rj,扩展名为.jpg的文件的正则表达式为[a-z.]{5}。
需要说明的是,上述以电子设备中的名称为AAAA的文件夹下的所有文件以及预设的正则表达式模板库中包含7个正则表达式模板为例进行说明,仅为本发明的一具体实例,并不够成对本发明的限定。
应用本发明图1所示实施例,实现了电子设备中的文件名称的自动识别,提高了识别电子设备中的文件名称的效率。
图2为本发明实施例提供的文件名称识别方法的第二种流程示意图,本发明图2所示实施例在图1所示实施例的基础上,增加以下两个步骤;
S106:确定与所述待处理文件集合中的文件的名称对应的字符串匹配的、所述正则表达式模板库中的正则表达式模板的种类N;
S107:判断N是否小于或等于预设的第二阈值,如果是,执行S103。
具体的,在实际应用中,对于待处理文件集合中的文件名称对应的字符串匹配的正则表达式模板库中的正则表达式模板的种类如果大于某一数值,则认为无需对该待处理文件集合中的文件名称进行识别。
以上述电子设备中的名称为AAAA的文件夹中的所有文件以及预设的正则表达式模板库中包含上述7个正则表达式模板为例进行说明。
确定与名称为AAAA的文件夹中的所有文件的文件名称对应的字符串匹配的、正则表达式模板库中的正则表达式模板的种类为5,5种正则表达式模板分别为:[0-9]{s%},[a-z]{s%},[A-Z]{s%},[a-zA-Z]{s%},[0-9a-z]{s%}。假设预设的第二阈值为6,则判断确定的正则表达式模板的种类5是否小于或等于6,判断结果为是,则针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作;假设预设的第二阈值为3,则判断确定的正则表达式模板的种类5是否小于或等于3,判断结果为否,则不针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作。
需要说明的是,上述以电子设备中的名称为AAAA的文件夹下的所有文件以及预设的正则表达式模板库中包含7个正则表达式模板为例进行说明,仅为本发明的一具体实例,并不够成对本发明的限定。
应用本发明图2所示实施例,在待处理文件集合中的文件的名称对应的字符串匹配的、正则表达式模板库中的正则表达式模板的种类小于或等于某一数值的情况下,实现了电子设备中的文件名称的自动识别,提高了识别电子设备中的文件名称的效率。
图3为本发明实施例提供的文件名称识别方法的第三种流程示意图,本发明图3所示实施例在图2所示实施例的基础上,增加S108:检测是否存在与所述N类正则表达式模板中的任意一类正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第三阈值,如果是,执行S103;
本实施例中S104可以包括:S1041和S1042,其中,
S1041:判断与检测到的正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于预设的第四阈值;如果是,执行S1042;
S1042:将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板。
具体的,在实际应用中,在确定的正则表达式模板的种类小于或等于某一数值的情况下,对于确定的几种正则表达式模板中的所有正则表达式模板匹配的、待处理文件集合中包含的文件的名称对应的字符串的数量小于某一数值,则认为无需对该待处理文件集合中的文件名称进行识别。
以上述电子设备中的名称为AAAA的文件夹中的所有文件以及预设的正则表达式模板库中包含上述7个正则表达式模板为例进行说明。
在实际应用中,预设的第三阈值与预设的第四阈值可以相同,也可以不相同,假设预设的第三阈值为5,预设的第四阈值也为5。在确定的正则表达式模板中检测到存在一种正则表达式模板[a-zA-Z]{s%}与待处理文件集合中的文件的名称对应的字符串的数量与5相等,则对该待处理文件集合中的文件的名称进行识别。
针对上述10个字符串,分别检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板;判断与检测到的正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于5,如果是,将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板;根据确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式。
以上述10个字符串中的“Andriod”为例,检测预设的正则表达式模板库中是否存在与字符串“Andriod”相匹配的正则表达式模板,检测结果为是,且检测到的正则表达式模板为[a-zA-Z]{s%};判断与检测到的正则表达式模板[a-zA-Z]{s%}匹配的、AAAA文件夹中包含的文件的名称对应的字符串的数量是否大于或等于5,判断结果为是,则将[a-zA-Z]{s%}确定为文件名称为“Andriod”的正则表达式模板;根据[a-zA-Z]{s%},确定“Andriod”字符串的长度为7,识别文件名称为“Andriod”的正则表达式为“[a-zA-Z]{7}”。
以上述10个字符串中的“bluetooth”为例,检测预设的正则表达式模板库中是否存在与字符串“bluetooth”相匹配的正则表达式模板,检测结果为是,且检测到的正则表达式模板为[a-z]{s%};判断与检测到的正则表达式模板[a-z]{s%}匹配的、名称为AAAA的文件夹中包含的文件的名称对应的字符串的数量是否大于或等于5,判断结果为否,则不将[a-z]{s%}确定为文件名称为“bluetooth”的正则表达式模板,不识别文件名称为“bluetooth”的正则表达式。
针对上述10个字符串识别正则表达式的结果为:文件名称为“Andriod”的正则表达式为“[a-zA-Z]{7}”;文件名称为“Download”的正则表达式为“[a-zA-Z]{8}”;文件名称为“Movies”的正则表达式为“[a-zA-Z]{6}”;文件名称为“Music”的正则表达式为“[a-zA-Z]{5}”;文件名称为“Photos”的正则表达式为“[a-zA-Z]{6}”。
需要说明的是,上述以电子设备中的名称为AAAA的文件夹下的所有文件以及预设的正则表达式模板库中包含7个正则表达式模板为例进行说明,仅为本发明的一具体实例,并不够成对本发明的限定。
应用本发明图3所示实施例,在待处理文件集合中的文件的名称对应的字符串匹配的、正则表达式模板库中的正则表达式模板的种类小于或等于某一数值、且存在与确定的N类正则表达式模板中的任意一类正则表达式模板匹配的、待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于某一数值的情况下,实现了电子设备中的文件名称的自动识别,提高了识别电子设备中的文件名称的效率。
图4为本发明实施例提供的文件名称识别方法的第四种流程示意图,本发明图4所示实施例在图1所示实施例的基础上,增加S109:检测是否存在与所述正则表达式模板库中的任意一个正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串大于或等于预设的第五阈值,如果是,执行S103;
本实施例中S104可以包括:S1043和S1044,其中,
S1043:判断与检测到的正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于预设的第六阈值,如果是,执行S1044;
S1044:将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板。
具体的,在实际应用中,对于预设的正则表达式模板库中的所有正则表达式模板匹配的、待处理文件集合中包含的文件的名称对应的字符串的数量小于某一数值,则认为无需对该待处理文件集合中的文件的名称进行识别。
以上述电子设备中的名称为AAAA的文件夹中的所有文件以及预设的正则表达式模板库中包含上述7个正则表达式模板为例进行说明。
在实际应用中,预设的第五阈值与预设的第六阈值可以相同,也可以不相同,假设预设的第五阈值为5,预设的第六阈值也为5。在预设的正则表达式模板库中检测到存在一种正则表达式模板[a-zA-Z]{s%}与待处理文件集合中的文件的名称对应的字符串的数量与5相等,则对该待处理文件集合中的文件的名称进行识别。
针对上述10个字符串,分别检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板;判断与检测到的正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于5,如果是,将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板;根据确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式。
以上述10个字符串中的“Andriod”为例,检测预设的正则表达式模板库中是否存在与字符串“Andriod”相匹配的正则表达式模板,检测结果为是,且检测到的正则表达式模板为[a-zA-Z]{s%};判断与检测到的正则表达式模板[a-zA-Z]{s%}匹配的、名称为AAAA的文件夹中包含的文件的名称对应的字符串的数量是否大于或等于5,判断结果为是,则将[a-zA-Z]{s%}确定为文件名称“Andriod”的正则表达式模板;根据[a-zA-Z]{s%},确定“Andriod”字符串的长度为7,识别文件名称“Andriod”的正则表达式为“[a-zA-Z]{7}”。
以上述10个字符串中的“bluetooth”为例,检测预设的正则表达式模板库中是否存在与字符串“bluetooth”相匹配的正则表达式模板,检测结果为是,且检测到的正则表达式模板为[a-z]{s%};判断与检测到的正则表达式模板[a-z]{s%}匹配的、名称为AAAA的文件夹中包含的文件的名称对应的字符串的数量是否大于或等于5,判断结果为否,则不将[a-z]{s%}确定为文件名称“bluetooth”的正则表达式模板,不识别文件名称“bluetooth”对应的正则表达式。
针对上述10个字符串识别正则表达式的结果为:文件名称“Andriod”的正则表达式为“[a-zA-Z]{7}”;文件名称“Download”的正则表达式为“[a-zA-Z]{8}”;文件名称“Movies”的正则表达式为“[a-zA-Z]{6}”;文件名称“Music”的正则表达式为“[a-zA-Z]{5}”;文件名称“Photos”的正则表达式为“[a-zA-Z]{6}”。
需要说明的是,上述以电子设备中的名称为AAAA的文件夹下的所有文件以及预设的正则表达式模板库中包含7个正则表达式模板为例进行说明,仅为本发明的一具体实例,并不够成对本发明的限定。
应用本发明图4所示实施例,在存在与预设的正则表达式模板中的任意一个正则表达式模板匹配的、待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于某一数值的情况下,实现了电子设备中的文件名称的自动识别,提高了识别电子设备中的文件名称的效率。
图5为本发明实施例提供的文件清理方法的流程示意图,可以包括:
S201:确定待处理文件集合;
其中,所述待处理文件集合中包含至少一个文件;
S202:获得所述待处理文件集合中包含的每一文件的名称对应的字符串;
S203:针对所获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,如果是,执行S204;
其中,所述预设的正则表达式模板库中包含至少一个正则表达式模板;
S204:将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板;
S205:根据确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式;
S206:将识别出的正则表达式与预设的用于文件清理的正则表达式库中的正则表达式相匹配;
S207:将匹配的正则表达式对应的文件删除。
具体的,本发明实施例的S201至S205,可参见上述文件名称识别方法,本实施例对此不再赘述。
假设预设的用于文件清理的正则表达式库中的正则表达式包括:“[a-zA-Z]{1}”、“[a-zA-Z]{2}”、“[a-zA-Z]{3}”……“[a-zA-Z]{30}”。
假设文件名称的识别结果为:文件名称“Andriod”的正则表达式为“[a-zA-Z]{7}”,与预设的用于文件清理的正则表达式库中的正则表达式“[a-zA-Z]{7}”相匹配,则将“[a-zA-Z]{7}”对应的AAAA文件夹下的Andriod文件删除。
假设文件名称的识别结果为:文件名称“bluetooth”的正则表达式为“[a-z]{9}”;与预设的用于文件清理的正则表达式库中任何一个正则表达式均不匹配,则不将“[a-z]{9}”对应的AAAA文件夹下的bluetooth文件删除。
应用本发明图5所示实施例,实现了电子设备中的文件名称的自动识别,将识别的正则表达式与文件清理的正则表达式库中的正则表达式进行匹配,可以对文件进行清理,实现了对电子设备中文件的清理。
与上述的方法实施例相对应,本发明实施例还提供一种文件名称识别装置。
图6为本发明实施例提供的文件名称识别装置的第一种结构示意图,可以包括:第一集合确定模块301、第一字符串获得模块302、第一检测模块303、第一模板确定模块304和第一正则表达式识别模块305,其中,
第一集合确定模块301,用于确定待处理文件集合,所述待处理文件集合中包含至少一个文件;
本发明实施例的第一集合确定模块301,具体可以用于:
分别将所述电子设备中的每一文件夹下的所有文件,确定为待处理文件集合。
本发明实施例的第一集合确定模块301,具体可以用于:
分别检测所述电子设备中每一文件夹的名称是否符合预设的第一字符串匹配规则;
分别将检测到的符合所述第一字符串匹配规则的文件夹的名称对应的文件夹下的所有文件,确定为待处理文件集合。
本发明实施例的第一集合确定模块301,具体可以用于:
分别检测所述电子设备中每一文件夹的名称是否符合预设的第二字符串匹配规则;
将检测到的所有符合所述第二字符串匹配规则的文件夹的名称对应的文件夹下的所有文件,确定为待处理文件集合。
本发明实施例的第一集合确定模块301,具体可以用于:
分别判断所述电子设备中的每一文件夹下的文件数量是否大于或等于预设的第一阈值;
如果是,将该文件夹下的所有文件,确定为待处理文件集合。
第一字符串获得模块302,用于获得第一集合确定模块301确定的待处理文件集合中包含的每一文件的名称对应的字符串;
第一检测模块303,用于针对第一字符串获得模块302获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,所述预设的正则表达式模板库中包含至少一个正则表达式模板;
第一模板确定模块304,用于将第一检测模块303检测到的正则表达式模板,确定为该字符串对应的文件的名称的正则表达式模板;
第一正则表达式识别模块305,用于根据第一模板确定模块304确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式。
应用本发明图6所示实施例,实现了电子设备中的文件名称的自动识别,提高了识别电子设备中的文件的名称的效率。
图7为本发明实施例提供的文件名称识别装置的第二种结构示意图,本发明图7所示实施例在图6所示实施例的基础上增加:种类确定模块306,
种类确定模块306,用于确定与第一集合确定模块301确定的待处理文件集合中的文件的名称对应的字符串匹配的、所述正则表达式模板库中的正则表达式模板的种类N;
本发明实施例的第一检测模块303,具体可以用于:
在种类确定模块306确定的种类N小于或等于预设的第二阈值的情况下,针对所获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板。
应用本发明图7所示实施例,在待处理文件集合中的文件的名称对应的字符串匹配的、正则表达式模板库中的正则表达式模板的种类小于或等于某一数值的情况下,实现了电子设备中的文件名称的自动识别,提高了识别电子设备中的文件名称的效率。
图8为本发明实施例提供的文件名称识别装置的第三种结构示意图,本发明图8所示实施例在图6所示实施例的基础上增加:第二检测模块307,
第二检测模块307,用于检测是否存在与种类确定模块306确定的N类正则表达式模板中的任意一类正则表达式模板匹配的、第一集合确定模块301确定的待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第三阈值;
本发明实施例的第一检测模块303,具体可以用于:
在种类确定模块306确定的种类N小于或等于预设的第二阈值、且第二检测模块307检测到存在与种类确定模块306确定的N类正则表达式模板中的任意一类正则表达式模板匹配的、第一集合确定模块301确定的待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第三阈值的情况下,针对所获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板;
本发明实施例的第一模板确定模块304,可以包括:第一判断子模块和第一模板确定子模块(图中未示出),其中,
第一判断子模块,用于判断与第一检测模块303检测到的正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于预设的第四阈值;
第一模板确定子模块,用于在第一判断子模块判断结果为是的情况下,将第一检测模块303检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板。
在实际应用中,预设的第三阈值与预设的第四阈值可以相同,也可以不相同。
应用本发明图8所示实施例,在待处理文件集合中的文件的名称对应的字符串匹配的、正则表达式模板库中的正则表达式模板的种类小于或等于某一数值、且存在与确定的N类正则表达式模板中的任意一类正则表达式模板匹配的、待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于某一数值的情况下,实现了电子设备中的文件名称的自动识别,提高了识别电子设备中的文件名称的效率。
图9为本发明实施例提供的文件名称识别装置的第四种结构示意图,本发明图9所示实施例在图6所示实施例的基础上增加:第三检测模块309,
第三检测模块309,用于检测是否存在与所述正则表达式模板库中的任意一个正则表达式模板匹配的、第一集合确定模块301确定的待处理文件集合中包含的文件的名称对应的字符串大于或等于预设的第五阈值;
本发明实施例的第一检测模块303,具体可以用于:
在第三检测模块309检测到存在与所述正则表达式模板库中的任意一个正则表达式模板匹配的、第一集合确定模块301确定的待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第五阈值的情况下,针对所获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板;
本发明实施例的第一模板确定模块304,可以包括:第二判断子模块和第二模板确定子模块(图中未示出),其中,
第二判断子模块,用于判断与第一检测模块303检测到的正则表达式模板匹配的、第一集合确定模块301确定的待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于预设的第六阈值;
第二模板确定子模块,用于在第二判断子模块判断结果为是的情况下,将第一检测模块303检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板。
在实际应用中,预设的第五阈值与预设的第六阈值可以相同,也可以不相同。
应用本发明图9所示实施例,在存在与预设的正则表达式模板中的任意一个正则表达式模板匹配的、待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于某一数值的情况下,实现了电子设备中的文件名称的自动识别,提高了识别电子设备中的文件名称的效率。
与上述的方法实施例相对应,本发明实施例还提供一种文件清理装置。
图10为本发明实施例提供的文件清理装置的结构示意图,可以包括:第二集合确定模块401、第二字符串获得模块402、第四检测模块403、第二模板确定模块404、第二正则表达式识别模块405、匹配模块406和删除模块406,其中,
第二集合确定模块401,用于确定待处理文件集合,所述待处理文件集合中包含至少一个文件;
第二字符串获得模块402,用于获得第二集合确定模块401确定的待处理文件集合中包含的每一文件的名称对应的字符串;
第四检测模块403,用于针对第二字符串获得模块402获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,所述预设的正则表达式模板库中包含至少一个正则表达式模板;
第二模板确定模块404,用于将第四检测模块403检测到的正则表达式模板,确定为该字符串对应的文件的名称的正则表达式模板;
第二正则表达式识别模块405,用于根据第二模板确定模块404确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式;
匹配模块406,用于将第二正则表达式识别模块405识别出的正则表达式与预设的用于文件清理的正则表达式库中的正则表达式相匹配;
删除模块407,用于将匹配模块407匹配的正则表达式对应的文件删除。
应用本发明图10所示实施例,实现了电子设备中的文件名称的自动识别,将识别的正则表达式与文件清理的正则表达式库中的正则表达式进行匹配,可以对文件进行清理,实现了对电子设备中文件的清理。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (16)

1.一种文件名称识别方法,应用于电子设备,其特征在于,包括:
确定待处理文件集合,所述待处理文件集合中包含至少一个文件;
获得所述待处理文件集合中包含的每一文件的名称对应的字符串;
确定与所述待处理文件集合中的文件的名称对应的字符串匹配的、正则表达式模板库中的正则表达式模板的种类N;
在所述N小于或等于预设的第二阈值的情况下,针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作,其中,所述正则表达式识别操作包括:
检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,所述预设的正则表达式模板库中包含至少一个正则表达式模板;
如果存在,将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板;
根据确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式。
2.根据权利要求1所述的方法,其特征在于,所述确定待处理文件集合,包括:
分别将所述电子设备中的每一文件夹下的所有文件,确定为待处理文件集合。
3.根据权利要求1所述的方法,其特征在于,所述确定待处理文件集合,包括:
分别检测所述电子设备中每一文件夹的名称是否符合预设的第一字符串匹配规则;
分别将检测到的符合所述第一字符串匹配规则的文件夹的名称对应的文件夹下的所有文件,确定为待处理文件集合。
4.根据权利要求1所述的方法,其特征在于,所述确定待处理文件集合,包括:
分别检测所述电子设备中每一文件夹的名称是否符合预设的第二字符串匹配规则;
将检测到的所有符合所述第二字符串匹配规则的文件夹的名称对应的文件夹下的所有文件,确定为待处理文件集合。
5.根据权利要求1所述的方法,其特征在于,所述确定待处理文件集合,包括:
分别判断所述电子设备中的每一文件夹下的文件数量是否大于或等于预设的第一阈值;
如果是,将该文件夹下的所有文件,确定为待处理文件集合。
6.根据权利要求1所述的方法,其特征在于,在所述N小于或等于预设的第二阈值的情况下,针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作之前,还包括:
检测是否存在与所述N类正则表达式模板中的任意一类正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第三阈值的字符串;
所述在所述N小于或等于预设的第二阈值的情况下,针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作,包括:
在所述N小于或等于预设的第二阈值、且检测到存在与所述N类正则表达式模板中的任意一类正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第三阈值的字符串的情况下,针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作;
所述将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板,包括:
判断与检测到的正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于预设的第四阈值;
如果是,将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板。
7.根据权利要求2至5任意一项所述的方法,其特征在于,在所述针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作之前,还包括:
检测是否存在与所述正则表达式模板库中的任意一个正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串大于或等于预设的第五阈值的字符串;
所述针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作,包括:
在检测到存在与所述正则表达式模板库中的任意一个正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第五阈值的字符串的情况下,针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作;
所述将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板,包括:
判断与检测到的正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于预设的第六阈值;
如果是,将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板。
8.一种文件清理方法,应用于电子设备,其特征在于,包括:
确定待处理文件集合,所述待处理文件集合中包含至少一个文件;
获得所述待处理文件集合中包含的每一文件的名称对应的字符串;
确定与所述待处理文件集合中的文件的名称对应的字符串匹配的、正则表达式模板库中的正则表达式模板的种类N;
在所述N小于或等于预设的第二阈值的情况下,针对所获得的每一文件的名称所对应的字符串,分别执行正则表达式识别操作,其中,所述正则表达式识别操作包括:
检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,所述预设的正则表达式模板库中包含至少一个正则表达式模板;
如果存在,将检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板;
根据确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式;
将识别出的正则表达式与预设的用于文件清理的正则表达式库中的正则表达式相匹配;
将匹配的正则表达式对应的文件删除。
9.一种文件名称识别装置,应用于电子设备,其特征在于,包括:第一集合确定模块、第一字符串获得模块、种类确定模块、第一检测模块、第一模板确定模块和第一正则表达式识别模块,其中,
所述第一集合确定模块,用于确定待处理文件集合,所述待处理文件集合中包含至少一个文件;
所述第一字符串获得模块,用于获得所述第一集合确定模块确定的待处理文件集合中包含的每一文件的名称对应的字符串;
所述种类确定模块,用于确定与所述第一集合确定模块确定的待处理文件集合中的文件的名称对应的字符串匹配的、正则表达式模板库中的正则表达式模板的种类N;
所述第一检测模块,用于在所述种类确定模块确定的种类N小于或等于预设的第二阈值的情况下,针对所述第一字符串获得模块获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,所述预设的正则表达式模板库中包含至少一个正则表达式模板;
所述第一模板确定模块,用于将所述第一检测模块检测到的正则表达式模板,确定为该字符串对应的文件的名称的正则表达式模板;
所述第一正则表达式识别模块,用于根据所述第一模板确定模块确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式。
10.根据权利要求9所述的装置,其特征在于,所述第一集合确定模块,具体用于:
分别将所述电子设备中的每一文件夹下的所有文件,确定为待处理文件集合。
11.根据权利要求9所述的装置,其特征在于,所述第一集合确定模块,具体用于:
分别检测所述电子设备中每一文件夹的名称是否符合预设的第一字符串匹配规则;
分别将检测到的符合所述第一字符串匹配规则的文件夹的名称对应的文件夹下的所有文件,确定为待处理文件集合。
12.根据权利要求9所述的装置,其特征在于,所述第一集合确定模块,具体用于:
分别检测所述电子设备中每一文件夹的名称是否符合预设的第二字符串匹配规则;
将检测到的所有符合所述第二字符串匹配规则的文件夹的名称对应的文件夹下的所有文件,确定为待处理文件集合。
13.根据权利要求9所述的装置,其特征在于,所述第一集合确定模块,具体用于:
分别判断所述电子设备中的每一文件夹下的文件数量是否大于或等于预设的第一阈值;
如果是,将该文件夹下的所有文件,确定为待处理文件集合。
14.根据权利要求9所述的装置,其特征在于,所述装置还包括:第二检测模块,
所述第二检测模块,用于检测是否存在与所述种类确定模块确定的N类正则表达式模板中的任意一类正则表达式模板匹配的、所述第一集合确定模块确定的待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第三阈值的字符串;
所述第一检测模块,具体用于:
在所述种类确定模块确定的种类N小于或等于预设的第二阈值、且所述第二检测模块检测到存在与所述种类确定模块确定的N类正则表达式模板中的任意一类正则表达式模板匹配的、所述第一集合确定模块确定的待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第三阈值的字符串的情况下,针对所获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板;
所述第一模板确定模块,包括:第一判断子模块和第一模板确定子模块,其中,
所述第一判断子模块,用于判断与所述第一检测模块检测到的正则表达式模板匹配的、所述待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于预设的第四阈值;
所述第一模板确定子模块,用于在所述第一判断子模块判断结果为是的情况下,将所述第一检测模块检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板。
15.根据权利要求10至13任意一项所述的装置,其特征在于,所述装置还包括:第三检测模块,其中,
所述第三检测模块,用于检测是否存在与所述正则表达式模板库中的任意一个正则表达式模板匹配的、所述第一集合确定模块确定的待处理文件集合中包含的文件的名称对应的字符串大于或等于预设的第五阈值的字符串;
所述第一检测模块,具体用于:
在所述第三检测模块检测到存在与所述正则表达式模板库中的任意一个正则表达式模板匹配的、所述第一集合确定模块确定的待处理文件集合中包含的文件的名称对应的字符串的数量大于或等于预设的第五阈值的字符串的情况下,针对所获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板;
所述第一模板确定模块,包括:第二判断子模块和第二模板确定子模块,其中,
所述第二判断子模块,用于判断与所述第一检测模块检测到的正则表达式模板匹配的、所述集合确定模块确定的待处理文件集合中包含的文件的名称对应的字符串的数量是否大于或等于预设的第六阈值;
所述第二模板确定子模块,用于在所述第二判断子模块判断结果为是的情况下,将所述第一检测模块检测到的正则表达式模板,确定为与该字符串对应的文件的名称的正则表达式模板。
16.一种文件清理装置,应用于电子设备,其特征在于,包括:第二集合确定模块、第二字符串获得模块、种类确定模块、第四检测模块、第二模板确定模块、第二正则表达式识别模块、匹配模块和删除模块,其中,
所述第二集合确定模块,用于确定待处理文件集合,所述待处理文件集合中包含至少一个文件;
所述第二字符串获得模块,用于获得所述第二集合确定模块确定的待处理文件集合中包含的每一文件的名称对应的字符串;
所述种类确定模块,用于确定与所述第一集合确定模块确定的待处理文件集合中的文件的名称对应的字符串匹配的、正则表达式模板库中的正则表达式模板的种类N;
所述第四检测模块,用于在所述N小于或等于预设的第二阈值的情况下,针对所述第二字符串获得模块获得的每一文件的名称所对应的字符串,检测预设的正则表达式模板库中是否存在与该字符串相匹配的正则表达式模板,所述预设的正则表达式模板库中包含至少一个正则表达式模板;如果存在,触发所述第二模板确定模块;
所述第二模板确定模块,用于将所述第四检测模块检测到的正则表达式模板,确定为该字符串对应的文件的名称的正则表达式模板;
所述第二正则表达式识别模块,用于根据所述第二模板确定模块确定的正则表达式模板,识别与该字符串对应的文件的名称的正则表达式;
所述匹配模块,用于将所述第二正则表达式识别模块识别出的正则表达式与预设的用于文件清理的正则表达式库中的正则表达式相匹配;
所述删除模块,用于将所述匹配模块匹配的正则表达式对应的文件删除。
CN201510329296.6A 2015-06-15 2015-06-15 一种文件名称识别及文件清理方法及装置 Active CN104881496B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510329296.6A CN104881496B (zh) 2015-06-15 2015-06-15 一种文件名称识别及文件清理方法及装置
US15/736,125 US10705748B2 (en) 2015-06-15 2016-08-12 Method and device for file name identification and file cleaning
PCT/CN2016/094954 WO2016202308A2 (zh) 2015-06-15 2016-08-12 一种文件名称识别及文件清理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510329296.6A CN104881496B (zh) 2015-06-15 2015-06-15 一种文件名称识别及文件清理方法及装置

Publications (2)

Publication Number Publication Date
CN104881496A CN104881496A (zh) 2015-09-02
CN104881496B true CN104881496B (zh) 2018-12-14

Family

ID=53948989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510329296.6A Active CN104881496B (zh) 2015-06-15 2015-06-15 一种文件名称识别及文件清理方法及装置

Country Status (3)

Country Link
US (1) US10705748B2 (zh)
CN (1) CN104881496B (zh)
WO (1) WO2016202308A2 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881496B (zh) * 2015-06-15 2018-12-14 北京金山安全软件有限公司 一种文件名称识别及文件清理方法及装置
CN104881495B (zh) * 2015-06-15 2019-03-26 北京金山安全软件有限公司 一种文件夹路径识别及文件夹清理方法及装置
CN106802860B (zh) * 2015-11-25 2020-09-01 阿里巴巴集团控股有限公司 无用类检测方法及装置
CN107657020A (zh) * 2017-09-27 2018-02-02 上海斐讯数据通信技术有限公司 一种海量小文件快速识别处理的方法及系统
CN107766466A (zh) * 2017-09-29 2018-03-06 上海望友信息科技有限公司 数据类型的识别方法、系统、计算机可读存储介质及设备
CN109614511A (zh) * 2018-11-26 2019-04-12 平安科技(深圳)有限公司 一种废弃图片的删除方法及装置、电子设备
CN109828954B (zh) * 2018-12-24 2021-03-12 奇安信科技集团股份有限公司 数据擦除方法及装置
CN111984595B (zh) * 2019-05-21 2023-09-01 北京京东尚科信息技术有限公司 一种文件处理方法及装置、存储介质
CN113111235A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于正则表达式的作案手段识别方法与装置、设备及介质
CN113111237A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于正则表达式的组织识别方法与装置、设备及介质
CN113111236A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于正则表达式的群体识别方法与装置、设备及介质
CN113111238A (zh) * 2020-04-28 2021-07-13 北京明亿科技有限公司 基于正则表达式的极端行为识别方法与装置、设备及介质
CN112686240B (zh) * 2020-12-28 2022-11-08 京东科技信息技术有限公司 履约条目提取方法、新的履约条目提取方法及电子设备
CN112835864B (zh) * 2021-02-03 2024-02-20 北京联创信安科技股份有限公司 一种文件存储方法、装置、设备及存储介质
CN112835857B (zh) * 2021-02-07 2022-08-30 福建师范大学 一种工作群组的文件主名管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101569129A (zh) * 2005-07-29 2009-10-28 Bit9公司 网络安全系统和方法
CN102214142A (zh) * 2011-07-15 2011-10-12 南京大学 无痕可管理的源代码手动定义标志插桩方法
CN102880713A (zh) * 2012-09-29 2013-01-16 北京奇虎科技有限公司 文件清理方法及装置
CN103793462A (zh) * 2013-12-02 2014-05-14 北京奇虎科技有限公司 网址净化方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8065336B2 (en) * 2004-12-20 2011-11-22 Fujitsu Limited Data semanticizer
US20100070288A1 (en) * 2008-09-15 2010-03-18 Jitendra Nath Pandey Method and System for Efficiently Transforming Online Ad Creatives Using Dynamically Compiled Templates
US9081829B2 (en) * 2011-10-05 2015-07-14 Cumulus Systems Incorporated System for organizing and fast searching of massive amounts of data
US20130110585A1 (en) * 2011-11-02 2013-05-02 Invisiblehand Software Ltd. Data Processing
US9529704B2 (en) * 2012-09-07 2016-12-27 Aai Corporation Graphical conversion between test program languages
CN104182531A (zh) 2014-08-28 2014-12-03 广州金山网络科技有限公司 视频名称处理方法及系统
CN104881495B (zh) 2015-06-15 2019-03-26 北京金山安全软件有限公司 一种文件夹路径识别及文件夹清理方法及装置
CN104881496B (zh) * 2015-06-15 2018-12-14 北京金山安全软件有限公司 一种文件名称识别及文件清理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101569129A (zh) * 2005-07-29 2009-10-28 Bit9公司 网络安全系统和方法
CN102214142A (zh) * 2011-07-15 2011-10-12 南京大学 无痕可管理的源代码手动定义标志插桩方法
CN102880713A (zh) * 2012-09-29 2013-01-16 北京奇虎科技有限公司 文件清理方法及装置
CN103793462A (zh) * 2013-12-02 2014-05-14 北京奇虎科技有限公司 网址净化方法及装置

Also Published As

Publication number Publication date
CN104881496A (zh) 2015-09-02
US20180173450A1 (en) 2018-06-21
WO2016202308A2 (zh) 2016-12-22
US10705748B2 (en) 2020-07-07
WO2016202308A3 (zh) 2017-02-09

Similar Documents

Publication Publication Date Title
CN104881496B (zh) 一种文件名称识别及文件清理方法及装置
CN104881495B (zh) 一种文件夹路径识别及文件夹清理方法及装置
CN109684840B (zh) 基于敏感调用路径的Android恶意软件检测方法
CN103164698B (zh) 文本指纹库生成方法及装置、文本指纹匹配方法及装置
US8931092B2 (en) System and method for computer inspection of information objects for shared malware components
US9092229B2 (en) Software analysis system and method of use
JP6457123B2 (ja) 探索処理方法およびデバイス
CN105488151A (zh) 参考文档的推荐方法及装置
CN107577755B (zh) 一种搜索方法
CN103093316B (zh) 一种账单生成方法及装置
CN104036009A (zh) 一种搜索匹配图片的方法、图片搜索方法及装置
US10540325B2 (en) Method and device for identifying junk picture files
CN105718795A (zh) Linux下基于特征码的恶意代码取证方法及系统
CN104199704A (zh) 一种应用程序安装包清除方法及装置
CN103177022A (zh) 一种恶意文件搜索方法及装置
CN108197204B (zh) 文件处理方法及装置
CN106897267B (zh) 文章缩略文意生成方法、装置及服务器
CN104731364A (zh) 一种输入法及输入法系统
CN103886258A (zh) 一种病毒检测方法及装置
CN110719278A (zh) 一种网络入侵数据的检测方法、装置、设备及介质
CN105868781A (zh) 一种基于朴素贝叶斯分类算法的电脑文件分类处理方法
CN105550308A (zh) 一种信息处理方法,检索方法及电子设备
CN108763242B (zh) 标签生成方法及装置
CN104794397A (zh) 病毒检测方法和装置
CN109145261A (zh) 一种生成标签的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant