发明内容
本发明提供一种基于深度学习的文件分类方法,以解决目前多采用查杀软件进行文件检测,以检测出长期未使用的文件夹或文件,而后该查杀软件公布该文件的创建期限,并提示用户是否需要删除该文件以扩大存储空间,但该种方式仅仅能够获取长期未使用的文件,确不能够对其进行整理或分类,并且,若基于该查杀软件选择对长期未使用的文件进行删除处理,在一定期限内不易找回,因此若因为误操作选择了删除,则被删除的文件无法复原的问题。
为实现上述目的,本发明提供的一种基于深度学习的文件分类方法,包括:
通过预设的遍历程序对同一层级的文件进行遍历以获取文件名数据;
拆分所述文件名数据中的文件前缀名称、文件后缀名称和分隔符,并通过分词算法对所述文件前缀名称进行分词处理以获取每个文件的关键词;在所述通过分词算法对所述文件前缀名称进行分词处理以获取每个文件的关键词之前,包括:
通过分词样本数据创建分词库;
利用所述分词样本数据训练卷积神经网络模型以形成词汇识别模型;
连接所述词汇识别模型与所述分词库以创建分词算法;
所述通过分词算法对所述文件前缀名称进行分词处理以获取每个文件的关键词,包括:
获取文件名数据;
对所述文件名数据进行解析处理以获取文件字符;
将所述文件字符拆分为文件前缀名称和文件后缀名称;
通过所述分词算法使所述词汇识别模型对所述文件前缀名称进行拆分处理以形成拆分词,并将所述拆分词与所述分词库进行词汇对照,以判断所述拆分词是否包含在所述分词库中,若包含在所述分词库中,则将所述拆分词作为关键词,若不包含在所述分词库中,则通过所述词汇识别模型对所述文件字符进行再拆分处理以形成二阶拆分词,并将所述二阶拆分词作为所述关键词;
基于预设的价值分析模型,通过所述关键词对所述文件进行价值分析以获取各个文件的价值排名列表;所述基于预设的价值分析模型,通过所述关键词对所述文件进行价值分析以获取各个文件的价值排名列表,包括:
基于特定词汇构建价值分析模型; 所述特定词汇为按照价值分类汇总的关于工作、项目、学习的相关词汇;
通过所述价值分析模型对所述关键词进行遍历分析,根据所述关键词中包含的特定词汇的个数与所述价值分类确定所述关键词的价值等级;
基于所述价值等级进行价值排序以形成价值排名列表;
按照所述价值排名列表对所述文件进行维度划分以形成文件标签,并基于所述文件标签对所述文件进行分类管理。
可选地,所述通过预设的遍历程序对同一层级的文件进行遍历以获取文件名数据,包括:
通过预设的检测程序对系统中包含的文件进行过滤以去除粉碎文件,并将剩余的文件进行分级处理以形成不同层级的文件;
通过所述遍历程序遍历处于同一层级的文件以获取文件名,并在所述文件名的分隔符处标注标记符以形成文件字符;
在所述文件字符中标注关于所述文件的规格信息以形成文件名数据。
可选地,所述基于所述价值等级进行价值排序以形成价值排名列表,包括:
通过预设的内侵程序按照所述价值排名列表的顺序依次查阅所对应的文件的文字内容;
对所述文字内容进行阅读分析以在所述文字内容中提取有效词汇;
根据所述有效词汇的数量形成价值辅数;
将所述价值辅数加至所述价值等级上形成价值总和;
按照所述价值总和进行降序排列形成价值排名列表。
可选地,所述按照所述价值排名列表对所述文件进行维度划分以形成文件标签,并基于所述文件标签对所述文件进行分类管理,包括:
设置价值阈值,按照所述价值阈值将所述价值排名列表划分为高价值列表、中价值列表和低价值列表;
在所述高价值列表上标注有效标签,在所述中价值列表上标注中等标签,在所述低价值列表上标注拟无效标签;
按照所述关键词对标注有所述有效标签的文件进行领域划分以形成子集分类文档,完成对有效文件的分类管理,对标注有所述中等标签的文件放置在同一文件夹中,以完成对中等文件的管理,对标注所述拟无效标签的文件进行作废清除处理以完成拟无效文件的清理。
为了解决上述问题,本发明还提供一种基于深度学习的文件分类装置,所述装置包括:
文件名获取单元,用于通过预设的遍历程序对同一层级的文件进行遍历以获取文件名数据;
关键词提取单元,用于拆分所述文件名数据中的文件前缀名称、文件后缀名称和分隔符,并通过分词算法对所述文件前缀名称进行分词处理以获取每个文件的关键词;在所述通过分词算法对所述文件前缀名称进行分词处理以获取每个文件的关键词之前,包括:
通过分词样本数据创建分词库;
利用所述分词样本数据训练卷积神经网络模型以形成词汇识别模型;
连接所述词汇识别模型与所述分词库以创建分词算法;
所述通过分词算法对所述文件前缀名称进行分词处理以获取每个文件的关键词,包括:
获取文件名数据;
对所述文件名数据进行解析处理以获取文件字符;
将所述文件字符拆分为文件前缀名称和文件后缀名称;
通过所述分词算法使所述词汇识别模型对所述文件前缀名称进行拆分处理以形成拆分词,并将所述拆分词与所述分词库进行词汇对照,以判断所述拆分词是否包含在所述分词库中,若包含在所述分词库中,则将所述拆分词作为关键词,若不包含在所述分词库中,则通过所述词汇识别模型对所述文件字符进行再拆分处理以形成二阶拆分词,并将所述二阶拆分词作为所述关键词;
价值排名单元,用于基于预设的价值分析模型,通过所述关键词对所述文件进行价值分析以获取各个文件的价值排名列表;所述基于预设的价值分析模型,通过所述关键词对所述文件进行价值分析以获取各个文件的价值排名列表,包括:
基于特定词汇构建价值分析模型; 所述特定词汇为按照价值分类汇总的关于工作、项目、学习的相关词汇;
通过所述价值分析模型对所述关键词进行遍历分析,根据所述关键词中包含的特定词汇的个数与所述价值分类确定所述关键词的价值等级;
基于所述价值等级进行价值排序以形成价值排名列表;
文件分类单元,用于按照所述价值排名列表对所述文件进行维度划分以形成文件标签,并基于所述文件标签对所述文件进行分类管理。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的基于深度学习的文件分类方法中的步骤。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于深度学习的文件分类方法。
本发明实施例首先通过预设的遍历程序对同一层级的文件进行遍历以获取文件名数据,再拆分文件名数据中的文件前缀名称、文件后缀名称和分隔符,并通过分词算法对文件前缀名称进行分词处理以获取每个文件的关键词,而后基于预设的价值分析模型,通过关键词对文件进行价值分析以获取各个文件的价值排名列表,再按照价值排名列表对所述文件进行维度划分以形成文件标签,并基于该文件标签对文件进行分类管理,遍历程序为具有遍历及标注功能的算法,当该程序遍历到目标字符串后,则在该位置标注标记符,如此基于标记符形成的遍历程序能够识别出整个文件名的分割处,以便于后续进行分词操作,并且通过预设的价值分析模型能够精准的获取同一层级的各个文件的价值排列,从而可根据价值排序进行取舍,以自动选择删除还是留存,若留存再根据标签进行分类处理,进而完成同一层级的文件的取舍和管理。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
清理文件及文件夹的过程是相当耗费人的时间和精力的,目前多采用查杀软件进行文件检测,以检测出长期未使用的文件夹或文件,而后该查杀软件公布该文件的创建期限,并提示用户是否需要删除该文件以扩大存储空间,但该种方式仅仅能够获取长期未使用的文件,确不能够对其进行整理或分类,并且,若基于该查杀软件选择对长期未使用的文件进行删除处理,在一定期限内不易找回,因此若因为误操作选择了删除,则被删除的文件无法复原。
为解决上述问题,本发明提供一种基于深度学习的文件分类方法,需要说明的是,本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
如图1所示,在本实施例中,基于深度学习的文件分类方法包括:
S1:通过预设的遍历程序对同一层级的文件进行遍历以获取文件名数据;
S2:拆分文件名数据中的文件前缀名称、文件后缀名称和分隔符,并通过分词算法对文件前缀名称进行分词处理以获取每个文件的关键词;
S3:基于预设的价值分析模型,通过关键词对文件进行价值分析以获取各个文件的价值排名列表;
S4:按照价值排名列表对文件进行维度划分以形成文件标签,并基于文件标签对文件进行分类管理。
在图1所示的实施例中,步骤S1为通过预设的遍历程序对同一层级的文件进行遍历以获取文件名数据的过程,具体的,作为示例,在本发明的一个具体实现方式中,步骤S1进一步包括:
S11:通过预设的检测程序对系统中包含的文件进行过滤以去除粉碎文件,并将剩余的文件进行分级处理以形成不同层级的文件;
S12:通过遍历程序遍历处于同一层级的文件以获取文件名,并在文件名的分隔符处标注标记符以形成文件字符;
S13:在文件字符中标注关于所述文件的规格信息以形成文件名数据;
其中,在步骤S12之前,还可以包括S10:预设遍历程序的过程,该过程包括:
S101:将文件名称中的分隔符作为目标字符串;
S102:基于所述目标字符串创建标记符;
S103:基于所述标记符建立遍历代码以形成遍历程序;
具体的,步骤S10为预设遍历程序的过程,该预设的步骤不做限制,可以将普通的基于java形成的遍历程序作为步骤S11中所述的遍历程序,也可以将拥有遍历及标注功能的算法作为遍历程序;在本实施例中,该遍历程序为具有遍历及标注功能的算法,更为具体的,首先将文件名称中的分隔符作为目标字符串,即将“.”作为目标字符串,而后基于该“.”创建标记符,也就是,当该程序遍历到类似“.”的目标字符串后,则在该位置标注标记符,如此获取文件名中词组分开的地方,在本实施例中,将“.”作为目标字符串后,将各个文件名作为遍历字符串,第一个字为str[1],正序进行一位一位的对比,记录每个点的位置str[n],最后一个位置str[n]的n值最大的点,即为文件名与后缀名的分割位置,如此基于标记符形成的遍历程序能够识别出整个文件名的分割处,以便于后续进行分词操作;
在本实施例中,步骤S11、S12、S13为基于上述形成的遍历程序对筛选后的同一级层的文件进行遍历的过程,首先通过预设的检测程序对系统中包含的文件进行过滤以去除粉碎文件,并将剩余的文件进行分级处理以形成不同层级的文件,在本实施例中,该粉碎文件包括停留在文件夹中空文件,和在特定年份内一直未使用的僵尸文件,比如五年内未点击的文件,垃圾桶内的文件,以及卸载应用后残留在计算机系统中的残余文件等,将该种文件清除后留下的是待分类文件;因此,再通过该遍历程序遍历同一层级的文件以获取文件名,并在该文件名的“.”处标注标记符,更为具体的,对文件夹中同一层级的文件进行遍历主要是对“文件名.后缀名”进行遍历,遍历规则是,从文档名最开始一直到后缀名最后,遍历每个字符,并且按照最后出现的“.”作为文件名和后缀名的分割位置,如此,以备后续在进行分词操作是能够快速、轻易、精准的找到分隔符的位置。
在图1所示的实施例中,步骤S2为拆分文件名数据中的文件前缀名称、文件后缀名称和分隔符,并通过分词算法对文件前缀名称进行分词处理以获取每个文件的关键词的过程,在本发明的一个具体实现方式中,该过程进一步包括如下步骤:
S21:获取文件名数据;
S22:对所述文件名数据进行解析处理以获取文件字符;
S23:将所述文件字符拆分为文件前缀名称和文件后缀名称;
S24:通过分词算法使所述词汇识别模型对文件前缀名称进行拆分处理以形成拆分词,并将拆分词与所述分词库进行词汇对照,以判断拆分词是否包含在分词库中,若包含在分词库中,则将拆分词作为关键词,若不包含在分词库中,则通过词汇识别模型对所述文件字符进行再拆分处理以形成二阶拆分词,并将二阶拆分词作为所述关键词。
具体的,在本发明的一个具体实现方式中,在步骤S2之前还可以包括步骤S201~步骤S203。
其中,步骤S201为通过分词样本数据创建分词库的过程,具体的创建过程不作具体限制,在本实施例中,直接连接数字中文词典和数字英文词典,并在该数字中文词典中导出至少包括两个字的词汇、词组,在该数字英文词典中导出至少包括两个字母的单词和短语,并将该词汇、词组、单词、短语以及阿拉伯数字共同作为本实施例中的分词样本数据,构成分词库;
步骤S202即为利用分词样本数据训练卷积神经网络模型以形成词汇识别模型的过程。具体的,作为示例,通过本实施例中的词汇、词组、单词、短语以及阿拉伯数字训练卷积神经网络,通过机器学习的方式,当训练好的卷积神经网络模型已经获取一个句子或语句,即可自动识别出改句子或语句中所包含的该词汇、词组、单词、短语以及阿拉伯数字;具体的训练方式在此不做限制,可直接采用传统的卷积神经网络;
步骤S203为连接词汇识别模型与分词库以创建分词算法的过程。具体的,作为示例,将训练好的词汇识别模型与创建的分词库相连接,从而建立起二次检查机制,使得如果词汇识别模型输出的词汇如果不准确,可以通过与分词库对比,已及时更正;
步骤S21、步骤S22为获取文件名数据的过程,即将上一步骤获取的文件名数据按照其自身携带的时间进行排列依次进入分词这一过程,在获取到文件名数据后在对其进行解析以获取文件字符,该文件字符为单纯的包含着前缀和后缀(备注文件形式),例如“追加贷-产品介绍.pptx”,该“追加贷-产品介绍”即为前缀,该“pptx”即为后缀;
步骤S23即为基于前面的标记符将文件字符拆分为文件前缀名称和文件后缀名称,在本实施例中,该文件前缀名称和文件前缀名称分别为上述提到的前缀和后缀;
步骤S24为通过分词算法使词汇识别模型对文件前缀名称进行拆分处理以形成拆分词,并将拆分词与所述分词库进行词汇对照,以判断拆分词是否包含在分词库中,若包含在分词库中,则将拆分词作为关键词,若不包含在分词库中,则通过词汇识别模型对所述文件字符进行再拆分处理以形成二阶拆分词,并将二阶拆分词作为所述关键词的过程,即首先通过分词算法进行拆分处理以形成拆分词,为了提高分词的准确性,在本实施例中增加了词汇对照环节,即将拆分词与分词库进行比对,若该拆分词在分词库中存在,则说明拆分合理,故将该拆分词作为关键词,如此提高关键词的准确性,在本实施例中,本过程基于逆向最大匹配法原则;
更为具体的,仍先以“追加贷-产品介绍.pptx”为例,“追加贷-产品介绍.pptx”可以分为文件名词汇x:x1“追加”x2“贷”x3“-”x4“产品”x5“介绍”,共五个词,该逆向最大匹配法原则是指,从“绍”,到“介绍”,发现“介绍”是词库中的一个词汇,则选取“介绍”,不选取“绍”;同理从右到左分词“产品”和而不是“品”;那么“贷”和前一个字“加贷”,“加贷”显然不是一个词汇,则加与贷之间要分词;“追加”是一个词,在此不再赘述;那么“追加贷-产品介绍”分词后就是“追加/贷/-/产品/介绍”,该模型会如实记录“-”,要保留符号不能忽略;后缀名词汇y“pptx”代表文件为PPT格式的;再比如“资金模式培训文档.doc”,可以分为文件名词汇“资金”“模式”“培训”“文档”4个词汇,及后缀名“doc”代表为word文档类格式的文件。其中文件名如果出现“-”“_”“、”“.”“ ”“(”“)”等明显分隔符,则前后分词注意区分,不要联系起来分词。比如“项目一、个人总结”,“一个”就不作为整体词汇了;对于连串的数字“20210625”或者“11122233344”要记录成同一个词汇。对于连续的英文做为同一个词汇,除非中间有空格,就直接分词;
步骤S25为进行二次校验的过程,比如若该词汇识别模型输出上述“加贷”一词,则在对比的过程中,可以极易判断“加贷”在分词库中是不存在的,换句话说,其并非是个词汇,故需对其进行二次拆分,在本实施例中,直接将“加贷”二次分开,是指与其他相邻的字结合,如此确保分词的准确性。
在图1所示的实施例中,步骤S3为基于预设的价值分析模型,通过关键词对文件进行价值分析以获取各个文件的价值排名列表的过程,包括:
S31:基于特定词汇构建价值分析模型;其中,特定词汇为按照价值分类汇总的关于工作、项目、学习的相关词汇;
S32:通过价值分析模型对所述关键词进行遍历分析,根据关键词中包含的特定词汇的个数与所述价值分类确定关键词的价值等级;
S33:基于价值等级进行价值排序以形成价值排名列表;
在本实施例中,基于所述价值等级进行价值排序以形成价值排名列表的过程,包括:
S331:通过预设的内侵程序按照价值排名列表的顺序依次查阅所对应的文件的文字内容;
S332:对文字内容进行阅读分析以在文字内容中提取有效词汇;
S333:根据有效词汇的数量形成价值辅数;
S334:将价值辅数加至所述价值等级上形成价值总和;
S335:按照价值总和进行降序排列形成价值排名列表;
具体的,步骤S31为构建价值分析模型的过程,该特定词汇多为按照价值分类汇总的关于工作、项目等相关的词汇,例如“材料”“汇报”“总结”“方案”“参考”“学习”“资料”“信息”“周报”“规划”“调研”“数据”“纪要”等词汇;
步骤S32为通过基于机器学习训练而成的价值分析模型进行遍历分析的过程,其能够自动识别、并判断出文件名中所包含的关键字的个数及价值,如此能够根据关键词自动输出各个文件名的价值;
步骤S33为按照价值登记进行价值排序的过程,如此以形成价值排名表;
在本实施例中,还包括进行价值辅助的过程,即通过步骤S331中的内侵程序查阅文字内容,该内侵程序连接有价值对比库,其通过与该价值对比库相对比在文字内容中提取有效词汇,更为具体的,给予一个参数值a,当每匹配一次有效词汇,则a=1,匹配两次,a=2……如果无匹配,a可以设置成0.5;此外,在该价值对比库中还可以设置日期,即如果一个文件名出现除了中文以外,还有有效数字分词,如时间“20190609”“20211120”“201356”“110305”“0623”“531”也可存储在价值对比库中,或者类似“5月”“1日”“2021年”这样的数字分词,若文字内容或文件名称中存在上述日期则表明此文档具备时效存档价值,此时设置参数b,匹配有效数字分词,b为数字的个数,若b为11,一般为联系方式,则价值最高;如果出现连续一长串数字“12345325890252352”,b=0.1或者是连续无意义英文加数字“f6c7937e44c8f2466e340c765e8bc8ed”, b=0.1,则说明文档价值不高,建议丢弃;如果既有有效数字又有无效数字,可以将b值做乘积,比如pa_txt_10100000000230828_162443987即是一个无效文档;
根据a、b的值计算出价值辅数,并将该价值辅数与价值等级数相加即可得出总和,如此再次按照价值总和进行排序形成排名列表。
在图1所示的实施例中,步骤S4为按照价值排名列表对文件进行维度划分以形成文件标签,并基于文件标签对文件进行分类管理的过程,包括:
S41:设置价值阈值,按照价值阈值将价值排名列表划分为高价值列表、中价值列表和低价值列表;
S42:在高价值列表上标注有效标签,在中价值列表上标注中等标签,在低价值列表上标注拟无效标签;
S43:按照关键词对标注有有效标签的文件进行领域划分以形成子集分类文档,完成对有效文件的分类管理,对标注有中等标签的文件放置在同一文件夹中,以完成对中等文件的管理,对标注拟无效标签的文件进行作废清除处理以完成拟无效文件的清理。
具体的,在步骤S41中,该价值阈值可以根据价值排名列表的长度自行设置,在本实施例中设置两个阈值,以将价值排名列表划分为三个区间;
步骤S42中的拟无效标签并非直接无效的标签,而是拟无效,即将打有该标签的文件移至垃圾桶,在一定期限后做废除处理;
步骤S43为对有效文件进行进一步划分,对拟无效的文件进行清理的过程,将有效文档进行分类处理,处理标准是词汇的相似度匹配,字符串的相似度匹配,采取KMP算法,得到最大匹配字符串,如文件一的分词与文件二的分词除了数字分词“20210506”“20210507”的“6”“7”以外,其他均保持一致,则说明此两个文件是一类文件,只是版本不同,可以将其并到一个文件夹中,在本实施例中设置一个相似参数,超过这个则说明文件相似度高,可以整合到同一个文件夹中,再比如除了“v1”“v2”以外,其他分词一致性高,则说明是不同版本,然后再统一统计文档中出现关键词的频度,如“房产合同”出现的较高,可以将带有普惠的文件统一分类到“房产合同”文件夹,按照这种标准,可以将文档智能分类,并且将出现最高的词作为文件夹名去呈现,还有一种情况,就是没来的及命名有效文件名的文件,如“新建 Microsoft Word 文档 ”“新建 Microsoft Word 文档 (2)”这类的,基本是两种情况,空文件及文件草稿(过程稿),这类文件将自动归类为过程文稿文件夹,然后后续需要了解,需要点开文档进行重命名,该处的清理指的是移入垃圾箱并非直接进行永久粉碎性处理,若在一定时日内有需要可以找回。
如上所述,本发明提供的基于深度学习的文件分类方法,首先通过预设的遍历程序对同一层级的文件进行遍历以获取文件名数据,再拆分文件名数据中的文件前缀名称、文件后缀名称和分隔符,并通过分词算法对文件前缀名称进行分词处理以获取每个文件的关键词,而后基于预设的价值分析模型,通过关键词对文件进行价值分析以获取各个文件的价值排名列表,再按照价值排名列表对所述文件进行维度划分以形成文件标签,并基于该文件标签对文件进行分类管理,遍历程序为具有遍历及标注功能的算法,当该程序遍历到目标字符串后,则在该位置标注标记符,如此基于标记符形成的遍历程序能够识别出整个文件名的分割处,以便于后续进行分词操作,并且通过预设的价值分析模型能够精准的获取同一层级的各个文件的价值排列,从而可根据价值排序进行取舍,以自动选择删除还是留存,若留存再根据标签进行分类处理,进而完成同一层级的文件的取舍和管理。
如上所述,在图1所示的实施例中,本发明提供的基于深度学习的文件分类,具有如下好处:①遍历程序为具有遍历及标注功能的算法,当该程序遍历到类似“.”的目标字符串后,则在该位置标注标记符,如此基于标记符形成的遍历程序能够识别出整个文件名的分割处,以便于后续进行分词操作;②将训练好的词汇识别模型与创建的分词库相连接的过程,从而建立起二次检查机制,使得如果词汇识别模型输出的词汇如果不准确,可以通过与分词库对比,已及时更正,确保分词准确性;③根据a、b的值计算出价值辅数,并将该价值辅数与价值等级数相加即可得出总和,如此再次按照价值总和进行排序形成排名列表,提高价值判断的准确性;④拟无效标签并非直接无效的标签,而是拟无效,即将打有该标签的文件移至垃圾桶,在一定期限后做废除处理,移入垃圾箱并非直接进行永久粉碎性处理,若有需要可在一定时日内进行找回。
与上述基于深度学习的文件分类方法相对应,本发明还提供一种基于深度学习的文件分类装置。如图2所示,本发明提供一种基于深度学习的文件分类装置100,该基于深度学习的文件分类装置100可以安装于电子设备中。根据实现的功能,该基于深度学习的文件分类装置100可以包括文件名获取单元101、关键词提取单元102、价值排名单元103、文件分类单元104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
文件名获取单元101,用于通过预设的遍历程序对同一层级的文件进行遍历以获取文件名数据;
关键词提取单元102,用于拆分所述文件名数据中的文件前缀名称、文件后缀名称和分隔符,并通过分词算法对所述文件前缀名称进行分词处理以获取每个文件的关键词;
价值排名单元103,用于基于预设的价值分析模型,通过所述关键词对所述文件进行价值分析以获取各个文件的价值排名列表;
文件分类单元104,用于按照所述价值排名列表对所述文件进行维度划分以形成文件标签,并基于所述文件标签对所述文件进行分类管理。
具体的,作为示例,文件名获取单元101可以进一步包括:
过滤分级单元:通过预设的检测程序对系统中包含的文件进行过滤以去除粉碎文件,并将剩余的文件进行分级处理以形成不同层级的文件;
文件名标注单元:通过遍历程序遍历处于同一层级的文件以获取文件名,并在文件名的分隔符处标注标记符以形成文件字符;
文件字符标注单元:在文件字符中标注关于所述文件的规格信息以形成文件名数据;
更为具体的,作为示例,文件名获取单元101还可以进一步用于预设遍历程序的遍历程序预设单元,该遍历程序预设单元包括:
目标字符串确定单元:将文件名称中的分隔符作为目标字符串;
标记符创建单元:基于所述目标字符串创建标记符;
遍历代码建立单元:基于所述标记符建立遍历代码以形成遍历程序。
关键词提取单元102可以进一步包括预处理单元和关键词拆分单元;其中,
该预处理单元用于:通过分词样本数据创建分词库;
利用分词样本数据训练卷积神经网络模型以形成词汇识别模型;
连接词汇识别模型与分词库以创建分词算法;
该关键词拆分单元又进一步包括:
文件名获取模块,用于获取文件名数据;
数据解析模块,用于对所述文件名数据进行解析处理以获取文件字符;
文字符拆分模块,用于将所述文件字符拆分为文件前缀名称和文件后缀名称;
关键词模块,用于通过分词算法使所述词汇识别模型对文件前缀名称进行拆分处理以形成拆分词,并将拆分词与所述分词库进行词汇对照,以判断拆分词是否包含在分词库中,若包含在分词库中,则将拆分词作为关键词,若不包含在分词库中,则通过词汇识别模型对所述文件字符进行再拆分处理以形成二阶拆分词,并将二阶拆分词作为所述关键词。
价值排名单元103可以进一步包括:
价值分析单元,用于基于特定词汇构建价值分析模型;其中,特定词汇为按照价值分类汇总的关于工作、项目、学习的相关词汇;
价值等级单元,用于通过价值分析模型对所述关键词进行遍历分析,根据关键词中包含的特定词汇的个数与所述价值分类确定关键词的价值等级;
价值排序单元,用于基于价值等级进行价值排序以形成价值排名列表;
在本实施例中,该价值排序单元又可以进一步包括:
文字查阅模块,用于通过预设的内侵程序按照价值排名列表的顺序依次查阅所对应的文件的文字内容;
有效提取模块,用于对文字内容进行阅读分析以在文字内容中提取有效词汇;
价值辅数模块,用于根据有效词汇的数量形成价值辅数;
价值计算模块,用于将价值辅数加至所述价值等级上形成价值总和;
列表形成模块,用于按照价值总和进行降序排列形成价值排名列表。
文件分类单元可以进一步包括:
列表划分单元,用于设置价值阈值,按照价值阈值将价值排名列表划分为高价值列表、中价值列表和低价值列表;
标签标注模块,用于在高价值列表上标注有效标签,在中价值列表上标注中等标签,在低价值列表上标注拟无效标签;
分类管理模块,用于按照关键词对标注有有效标签的文件进行领域划分以形成子集分类文档,完成对有效文件的分类管理,对标注有中等标签的文件放置在同一文件夹中,以完成对中等文件的管理,对标注拟无效标签的文件进行作废清除处理以完成拟无效文件的清理。
如上所述,本发明提供的基于深度学习的文件分类装置100,首先利用文件名获取单元101通过预设的遍历程序对同一层级的文件进行遍历以获取文件名数据,再通过关键词提取单元102拆分文件名数据中的文件前缀名称、文件后缀名称和分隔符,并通过分词算法对文件前缀名称进行分词处理以获取每个文件的关键词,而后通过价值排名单元103基于预设的价值分析模型,通过关键词对文件进行价值分析以获取各个文件的价值排名列表,再通过文件分类单元104按照价值排名列表对所述文件进行维度划分以形成文件标签,并基于该文件标签对文件进行分类管理,遍历程序为具有遍历及标注功能的算法,当该程序遍历到目标字符串后,则在该位置标注标记符,如此基于标记符形成的遍历程序能够识别出整个文件名的分割处,以便于后续进行分词操作,并且通过预设的价值分析模型能够精准的获取同一层级的各个文件的价值排列,从而可根据价值排序进行取舍,以自动选择删除还是留存,若留存再根据标签进行分类处理,进而完成同一层级的文件的取舍和管理。
如图3所示,本发明提供一种实现基于深度学习的文件分类方法的电子设备1。
该电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在存储器11中并可在所述处理器10上运行的计算机程序,如基于深度学习的文件分类程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于深度学习的文件分类的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于深度学习的文件分类程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于深度学习的文件分类程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
通过预设的遍历程序对同一层级的文件进行遍历以获取文件名数据;
拆分文件名数据中的文件前缀名称、文件后缀名称和分隔符,并通过分词算法对文件前缀名称进行分词处理以获取每个文件的关键词;
基于预设的价值分析模型,通过关键词对文件进行价值分析以获取各个文件的价值排名列表;
按照价值排名列表对文件进行维度划分以形成文件标签,并基于文件标签对文件进行分类管理。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。需要强调的是,为进一步保证上述基于深度学习的文件分类的私密和安全性,上述基于深度学习的文件分类的数据存储于本服务器集群所处区块链的节点中。
服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明实施例还提供一种计算机可读存储介质,所述存储介质可以是非易失性的,也可以是易失性的,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现:
通过预设的遍历程序对同一层级的文件进行遍历以获取文件名数据;
拆分文件名数据中的文件前缀名称、文件后缀名称和分隔符,并通过分词算法对文件前缀名称进行分词处理以获取每个文件的关键词;
基于预设的价值分析模型,通过关键词对文件进行价值分析以获取各个文件的价值排名列表;
按照价值排名列表对文件进行维度划分以形成文件标签,并基于文件标签对文件进行分类管理。
具体地,所述计算机程序被处理器执行时具体实现方法可参考实施例基于深度学习的文件分类方法中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。