CN117194322A - 文件分类管理方法、系统及计算设备 - Google Patents

文件分类管理方法、系统及计算设备 Download PDF

Info

Publication number
CN117194322A
CN117194322A CN202311125695.1A CN202311125695A CN117194322A CN 117194322 A CN117194322 A CN 117194322A CN 202311125695 A CN202311125695 A CN 202311125695A CN 117194322 A CN117194322 A CN 117194322A
Authority
CN
China
Prior art keywords
file
archived
keywords
directory
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311125695.1A
Other languages
English (en)
Inventor
郑幼戈
王波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Uniontech Software Technology Co Ltd
Original Assignee
Uniontech Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Uniontech Software Technology Co Ltd filed Critical Uniontech Software Technology Co Ltd
Priority to CN202311125695.1A priority Critical patent/CN117194322A/zh
Publication of CN117194322A publication Critical patent/CN117194322A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文件分类管理方法、文件分类管理系统及计算设备,涉及计算机技术领域。方法在计算设备的文件管理器中执行,所述文件管理器适于建立多个归档目录,所述方法包括:响应于对一个或多个待归档文件的分类归档请求,获取每个所述待归档文件的多种文件索引;从所述待归档文件的多种文件索引中筛选出多个目标关键词,形成关键词集合;确定每个归档目录名称与所述关键词集合的匹配度,并将匹配度最高的归档目录作为所述待归档文件的目标目录;将所述待归档文件存放在所述目标目录下。根据本发明的技术方案,能实现基于文件管理器自动对各待归档文件进行分类归档存放。

Description

文件分类管理方法、系统及计算设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种文件分类管理方法、文件分类管理系统及计算设备。
背景技术
用户在使用计算机过程中,经常会通过文件来存储信息,而整理和归档文件是用户必不可少的工作内容。目前,用户一般是通过建立分类文件夹,在对文件进行重命名之后将文件按照一定的分类规则存放到各类文件夹中,例如,简单的文件分类包括文档、音乐、图片、视频,用户只需要识别文件的后缀名类型,并结合文件名称就可以把文件放入对应类型的文件夹中。复杂的文件分类,例如针对项目管理文件可以建立项目计划、测试计划、测试报告、集成清单、代码文件、配置说明等文件夹分类,针对这种复杂度高的文件分类,往往需要人为手动复制、拖拽文件到指定目录下。这种手动整理文件的方式,需要用户花费较多的时间和精力,繁琐且低效。
现有技术中,在Windows操作系统上可以使用第三方软件Fences,来实现桌面的文件分类分区展示效果,该方案支持用户自定义分区,支持默认按照程序、文件夹、文件的方式来自动归整文件到分区框中,实现一键整理文件。但,这种方案只能针对桌面文件进行分类,在文件管理器内部无法使用该功能。而且,现有的一键分类方案都是预置好的分类规则,用户无法自定义分类规则。
因此,需要一种文件分类管理方法,以解决上述技术方案中存在的问题。
发明内容
为此,本发明提供一种文件分类管理方法及文件分类管理系统,以解决或至少缓解上面存在的问题。
根据本发明的一个方面,提供一种文件分类管理方法,在计算设备的文件管理器中执行,所述文件管理器适于建立多个归档目录,所述方法包括:响应于对一个或多个待归档文件的分类归档请求,获取每个所述待归档文件的多种文件索引;从所述待归档文件的多种文件索引中筛选出多个目标关键词,形成关键词集合;确定每个归档目录名称与所述关键词集合的匹配度,并将匹配度最高的归档目录作为所述待归档文件的目标目录;将所述待归档文件存放在所述目标目录下。
可选地,在根据本发明的文件分类管理方法中,将所述待归档文件存放在所述目标目录下,包括:根据一个或多个目标关键词,在所述目标目录下创建次级目录;将所述待归档文件存放在所述次级目录下。
可选地,在根据本发明的文件分类管理方法中,还包括:根据文件类型、文件访问时间或者自定义分类操作,建立多个归档目录。
可选地,在根据本发明的文件分类管理方法中,确定每个归档目录名称与所述关键词集合的匹配度,包括:利用文本相似度匹配算法,确定每个归档目录名称与所述关键词集合的匹配度。
可选地,在根据本发明的文件分类管理方法中,确定每个归档目录名称与所述关键词集合的匹配度,包括:对于每个归档目录名称,将所述归档目录名称与所述关键词集合输入BERT模型进行处理,以确定所述归档目录名称与所述关键词集合的匹配度。
可选地,在根据本发明的文件分类管理方法中,所述多种文件索引包括:文件名称索引、文件内容索引、文件属性索引、文件标签索引。
可选地,在根据本发明的文件分类管理方法中,从所述待归档文件的多种文件索引中筛选出多个目标关键词,包括:判断所述待归档文件的文件名称是否有效,如果有效,则从所述文件名称索引中提取多个文件名称关键词作为目标关键词;如果不存在文件名称关键词,则判断所述待归档文件是否是文本文件,如果是文本文件,则从所述文件内容索引中提取多个文件内容关键词作为目标关键词;如果不是文本文件,则判断所述待归档文件是否是图片文件,如果是图片文件,则利用OCR识别算法从所述图片文件中提取文字内容,并从所述文字内容中提取多个文字内容关键词作为目标关键词;如果不是图片文件,则判断所述待归档文件是否是音乐文件或视频文件,如果是音乐文件或视频文件,则从所述文件属性索引中提取多个文件属性关键词作为目标关键词;如果不是音乐文件或视频文件,则判断所述待归档文件是否是代码文件,如果是代码文件,则从所述文件标签索引中提取多个文件标签关键词作为目标关键词。
可选地,在根据本发明的文件分类管理方法中,所述文件管理器与文件索引存储装置耦接,所述文件索引存储装置中包括多种文件索引;获取每个所述待归档文件的多种文件索引,包括:从所述文件索引存储装置中获取每个所述待归档文件的多种文件索引。
可选地,在根据本发明的文件分类管理方法中,多个归档目录包括:项目文档目录、程序代码目录、我的音乐目录、我的视频目录、我的照片目录。
根据本发明的一个方面,提供一种文件分类管理系统,包括:文件索引存储装置,包括多种文件索引;文管客户端;以及文件管理器,与所述文管客户端、文件索引存储装置耦接,适于响应于文管客户端发送的对一个或多个待归档文件的分类归档请求,执行如上所述的方法来对一个或多个待归档文件进行分类归档。
根据本发明的一个方面,提供一种计算设备,包括:至少一个处理器;存储器,存储有程序指令,其中,程序指令被配置为适于由上述至少一个处理器执行,所述程序指令包括用于执行如上所述的文件分类管理方法的指令。
根据本发明的一个方面,提供一种存储有程序指令的可读存储介质,当该程序指令被计算设备读取并执行时,使得该计算设备执行如上所述的文件分类管理方法。
根据本发明的技术方案,提供了一种文件分类管理方法,文件管理器可以建立多个归档目录,并可以响应于用户对一个或多个待归档文件的分类归档请求,获取每个待归档文件的多种文件索引,从待归档文件的多种文件索引中筛选出多个目标关键词,形成关键词集合,通过确定每个归档目录名称与关键词集合的匹配度,将匹配度最高的归档目录作为待归档文件的目标目录,最终可以将每个待归档文件存放在对应的目标目录下。这样,根据本发明的技术方案,用户通过一键操作,便能实现在文件管理器中自动对各待归档文件进行分类归档存放,实现了基于文件管理器一键分类整理文件,提高了用户整理文件的效率。
进一步地,根据本发明的文件分类管理方法,在确定待归档文件的目标目录后,还可以根据从待归档文件的目标关键词,在待归档文件的目标目录下创建次级目录,并将待归档文件存放在目标目录下的次级目录下。这样,能够根据各文件的特征将各文件规则有序地分类存放在归档目录的二级目录下,实现对待归档文件的进一步细分归类整理,使得本发明基于文件管理器的文件自动分类整理功能具备更高的实用性,避免多个文件无规则散乱地存放在归档目录下。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的文件分类管理系统100的示意图;
图2示出了根据本发明一个实施例的计算设备200的示意图;
图3示出了根据本发明一个实施例的文件分类管理方法300的流程示意图;
图4示出了根据本发明一个实施例中从多种文件索引中筛选目标关键词的流程示意图;
图5示出了根据本发明一个实施例中在主目录下建立多个归档目录的示意图;
图6示出了根据本发明一个实施例中对多个待归档文件进行分类归档的结果示意图;
图7示出了根据本发明一个实施例中将待归档文件存放在目标目录的次级目录下的示意图;
图8示出了BERT模型的原理示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的文件分类管理系统100的示意图。根据本发明的文件分类管理系统100,能实现自动对各待归档文件进行分类归档存放。
如图1所示,文件分类管理系统100包括文管客户端110(即,文件管理器的客户端)、文件管理器120(也即,文件管理器的服务端)、文件索引存储装置130。文件管理器120可以与文管客户端110、文件索引存储装置130耦接。
在一个实施例中,用户可以在文管客户端110通过一键操作,来发送对一个或多个待归档文件的分类归档请求。文件管理器120可以响应于用户在文管客户端110发送的对一个或多个待归档文件的分类归档请求,获取每个待归档文件的多种文件索引。
在一个实施例中,文件索引存储装置130中可以存储各文件的多种文件索引。多种文件索引具体可以包括:文件名称索引、文件内容索引(即,全文检索索引)、文件属性索引、文件标签索引等。这里,文件内容索引例如可以包括文本文件中的内容、图片中的文字内容,文件属性索引例如可以包括歌手、专辑名、分辨率、时长等信息。
这样,文件管理器120可以从文件索引存储装置130中查询获取每个待归档文件的多种文件索引。
在一些实施例中,本发明的文件分类管理系统100可以部署在计算设备(例如下文所述的计算设备200)中,且文管客户端110与文件管理器120可以通过D-Bus接口进行通信。
在一些实施例中,文件管理器120中可以包括关键词筛选模块,通过关键词筛选模块可以从待归档文件的多种文件索引中筛选出多个目标关键词,以便基于多个目标关键词形成待归档文件的关键词集合。
在本发明的实施例中,文件管理器120在接收到用户在文管客户端110发送的对一个或多个待归档文件的分类归档请求时,适于执行本发明的文件分类管理方法300,来对一个或多个待归档文件进行分类归档。本发明的文件分类管理方法300将在下文中详述。
在本发明的一个实施例中,文件管理器120可以部署在如下所述的计算设备200中,使得本发明的文件分类管理方法300可以在计算设备200中执行。
图2示出了根据本发明一个实施例的计算设备200的示意图。如图2所示,在基本配置中,计算设备200包括至少一个处理单元202和系统存储器204。根据一个方面,取决于计算设备的配置和类型,处理单元202可以实现为处理器。系统存储器204包括但不限于易失性存储(例如,随机存取存储器)、非易失性存储(例如,只读存储器)、闪速存储器、或者这样的存储器的任何组合。根据一个方面,系统存储器204中包括操作系统205。
根据一个方面,操作系统105例如适合于控制计算设备200的操作。此外,示例结合图形库、其他操作系统、或任何其他应用程序而被实践,并且不限于任何特定的应用或系统。在图2中通过在虚线内的那些组件示出了该基本配置。根据一个方面,计算设备200具有额外的特征或功能。例如,根据一个方面,计算设备200包括额外的数据存储设备(可移动的和/或不可移动的),例如磁盘、光盘、或者磁带。这样额外的存储在图2中是由可移动存储设备209和不可移动存储设备210示出的。
如在上文中所陈述的,根据一个方面,在系统存储器204中存储有程序模块203。根据一个方面,程序模块203可以包括一个或多个应用程序,本发明不限制应用程序的类型,例如应用程序可以包括:电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片展示应用程序、绘画或计算机辅助应用程序、网络浏览器应用程序等。在根据本发明的实施例中,程序模块203中包括执行本发明的文件分类管理方法300的多条程序指令。
根据一个方面,可以在包括分立电子元件的电路、包含逻辑门的封装或集成的电子芯片、利用微处理器的电路、或者在包含电子元件或微处理器的单个芯片上实践示例。例如,可以经由其中在图2中所示出的每个或许多组件可以集成在单个集成电路上的片上系统(SOC)来实践示例。根据一个方面,这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元、以及各种应用功能,其全部作为单个集成电路而被集成(或“烧”)到芯片基底上。当经由SOC进行操作时,可以经由在单个集成电路(芯片)上与计算设备200的其他组件集成的专用逻辑来对在本文中所描述的功能进行操作。还可以使用能够执行逻辑操作(例如AND、OR和NOT)的其他技术来实践本发明的实施例,所述其他技术包括但不限于机械、光学、流体、和量子技术。另外,可以在通用计算机内或在任何其他任何电路或系统中实践本发明的实施例。
根据一个方面,计算设备200还可以具有一个或多个输入设备212,例如键盘、鼠标、笔、语音输入设备、触摸输入设备等。还可以包括输出设备214,例如显示器、扬声器、打印机等。前述设备是示例并且也可以使用其他设备。计算设备200可以包括允许与其他计算设备218进行通信的一个或多个通信连接216。合适的通信连接216的示例包括但不限于:RF发射机、接收机和/或收发机电路;通用串行总线(USB)、并行和/或串行端口。
如在本文中所使用的术语计算机可读介质包括计算机存储介质。计算机存储介质可以包括以任何用于存储信息(例如,计算机可读指示、数据结构、或程序模块)的方法或技术来实现的易失性的和非易失性的、可移动的和不可移动的介质。系统存储器204、可移动存储设备209、和不可移动存储设备210都是计算机存储介质的示例(即,存储器存储)。计算机存储介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦只读存储器(EEPROM)、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或者可用于存储信息并且可以由计算设备200访问的任何其他制品。根据一个方面,任何这样的计算机存储介质都可以是计算设备200的一部分。计算机存储介质不包括载波或其他经传播的数据信号。
根据一个方面,通信介质是由计算机可读指令、数据结构、程序模块、或者经调制的数据信号(例如,载波或其他传输机制)中的其他数据实施的,并且包括任何信息传递介质。根据一个方面,术语“经调制的数据信号”描述了具有一个或多个特征集或者以将信息编码在信号中的方式改变的信号。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接之类的有线介质,以及诸如声学、射频(RF)、红外线的、以及其他无线介质之类的无线介质。
在根据本发明的实施例中,计算设备200被配置为执行根据本发明的文件分类管理方法300。计算设备200包括一个或多个处理器、以及存储有程序指令的一个或多个可读存储介质,当程序指令被配置为由一个或多个处理器执行时,使得计算设备200执行本发明实施例中的文件分类管理方法300。
在根据本发明的实施例中,计算设备200中包括文件管理器120,文件管理器120被配置为执行根据本发明的文件分类管理方法300。
图3示出了根据本发明一个实施例的文件分类管理方法300的流程示意图。方法300适于在计算设备(例如前述计算设备200)的文件管理器120中执行。计算设备200的文件管理器120通过执行本发明的文件分类管理方法300,可以实现自动对文件进行分类归档,实现一键整理文件。
需要说明的是,在本发明的实施例中,文件管理器120可以预先建立多个归档目录。
如图3所示,方法300始于步骤310。
在步骤310中,用户可以在文管客户端110通过一键操作,来发送对一个或多个待归档文件的分类归档请求。文件管理器120可以响应于用户在文管客户端110发送的对一个或多个待归档文件的分类归档请求,获取每个待归档文件的多种文件索引。
在一些实施例中,文件管理器120与文件索引存储装置耦接,文件索引存储装置中可以存储各文件的多种文件索引。文件管理器120可以从文件索引存储装置中获取每个待归档文件的多种文件索引。
在一些实施例中,多种文件索引具体可以包括:文件名称索引、文件内容索引、文件属性索引、文件标签索引。
这里,待归档文件的多种文件索引中包含大量的文件索引信息,因此,可以通过执行下面的步骤320来从多种文件索引中筛选关键词。
需要说明的是,对于每个待归档文件,可以通过执行下述步骤320~340来实现对待归档文件进行分类归档存放。
在步骤320中,从待归档文件的多种文件索引中筛选出多个目标关键词,基于多个目标关键词形成待归档文件的关键词集合。
在一些实施例中,文件管理器120中包括关键词筛选模块,可以通过关键词筛选模块来执行步骤320:从待归档文件的多种文件索引中筛选出多个目标关键词,基于多个目标关键词形成待归档文件的关键词集合。
在一些实施例中,在从待归档文件的多种文件索引中筛选目标关键词时,针对每种文件索引的优先级不同。例如,可以优先级从高到低依次为文件名称索引、文件内容索引、文件属性索引、文件标签索引,即,优先从文件名称索引中提取目标关键词。这里,筛选目标关键词的具体方法将在下文描述。
接下来,在步骤330中,可以将待归档文件的关键词集合与每个归档目录名称进行匹配。具体地,确定每个归档目录名称与关键词集合的匹配度,并将匹配度最高的归档目录(一级目录)作为待归档文件的目标目录。
最后,在步骤340中,将待归档文件存放在目标目录下。
这样,根据本发明的文件分类管理方法300,用户通过一键操作,便实现在文件管理器120中自动对每个待归档文件进行分类归档存放,实现基于文件管理器120一键分类整理文件,提高了用户整理文件的效率。
在一些实施例中,对于每个待归档文件,在确定待归档文件的目标目录后,还可以根据从待归档文件的多种文件索引中,筛选出的多个目标关键词中的一个或多个目标关键词,在待归档文件的目标目录下创建次级目录,随后将待归档文件存放在目标目录下的次级目录下。
这样,能够根据各文件的特征将各文件规则有序地分类存放在归档目录的二级目录下,实现对待归档文件的进一步细分归类整理,避免多个文件无规则散乱地存放在归档目录下。
图4示出了根据本发明一个实施例中从多种文件索引中筛选目标关键词的流程示意图。
如图4所示,从待归档文件的多种文件索引中筛选多个目标关键词的具体步骤如下。
首先,可以判断待归档文件的文件名称是否有效,如果文件名称有效,则可以从文件名称索引中提取多个文件名称关键词来作为目标关键词,这样可以根据多个文件名称关键词形成关键词集合。进一步地,在待归档文件的文件名称有效且文件名称关键词为中文的情况下,可以从文件名称索引中提取多个文件名称关键词来作为目标关键词。这里,需要说明的是,文件名称有效是指文件名称格式正确且存在有效信息,有效信息即是包含关键词的信息。文件名称无效是指文件名称乱码或不存在有效信息。例如,团建照片1.jpg为有效的文件名称,其中的有效信息为“团建照片”。又例如,#%5&.docx为无效的文件名称,其中不存在有效信息。
如果不存在文件名称关键词,则继续判断待归档文件是否是文本文件,这里,可以根据待归档文件的后缀名来判断待归档文件是否是文本文件,文本文件例如包括word文件、excel文件、ppt文件、txt文件、pdf文件等。如果待归档文件是文本文件,则可以从该文本文件的文件内容索引中提取多个文件内容关键词作为目标关键词,这样可以根据多个文件内容关键词形成关键词集合。
如果待归档文件不是文本文件,则继续判断待归档文件是否是图片文件,例如可以根据待归档文件的后缀名来判断待归档文件是否是图片文件,如果是图片文件,则可以通过操作系统提供的OCR识别接口,利用OCR识别算法从图片文件中提取文字内容(可作为图片文件的文件内容),并从该文字内容中提取多个文字内容关键词作为目标关键词,这样可以根据多个文字内容关键词形成关键词集合。
如果待归档文件不是图片文件,则可以进一步判断待归档文件是否是音乐文件或视频文件,具体可以根据待归档文件的后缀名来判断待归档文件是否是音乐文件或视频文件,如果是音乐文件或视频文件,则可以从该音乐文件或视频文件的文件属性索引中提取多个文件属性关键词作为目标关键词,这样可以根据多个文件属性关键词形成关键词集合。这里,多个文件属性关键词例如可以包括歌手、专辑名、播放时长。
如果待归档文件不是音乐文件或视频文件,则继续判断待归档文件是否是代码文件,具体可以根据待归档文件的后缀名来判断待归档文件是否是代码文件。例如,后缀名为“.py”、“.cpp”、“.c”、“.java”、“.js”、“.h”、“.class”的文件可以为确定为代码文件。如果待归档文件是代码文件,则可以从该代码文件的文件标签索引中提取多个文件标签关键词作为目标关键词,这样可以根据多个文件标签关键词形成关键词集合。需要说明的是,针对代码文件可以以标签的形式打上索引符号,以创建代码文件的标签索引。
如果待归档文件不是代码文件,即待归档文件不符合上述所有判断条件,则可以判定该待归档文件无被分类归档,可以输出分类归档失败的结果。这种情况下,需要用户进一步手动修改文件信息,例如可以为文件添加有效的文件名称,或者更正文件的后缀名,以便从文件的多种索引中提取目标关键词。
在一些实施例中,多个归档目录可以是按照文件类型进行分类的多个目录,也可以是按照文件访问时间进行分类的多个目录,或者,是按照用户自定义操作进行分类的多个目录。
在一些实施例中,在执行步骤310之前,文件管理器120可以预先根据文件类型、文件访问时间或者用户的自定义分类操作,来建立多个归档目录。对于用户的自定义分类操作,用户例如可以在文管客户端建立多个归档目录,并按照用户自定义的分类来对多个归档目录分别进行命名。
在一个实施例中,文件管理器120可以在主目录下建立多个归档目录。
图5示出了根据本发明一个实施例中在主目录下建立多个归档目录的示意图。如图5所示,多个归档目录例如可以包括:项目文档目录、程序代码目录、我的音乐目录、我的视频目录、我的照片目录。换言之,多个归档目录的名称分别可以为:项目文档、程序代码、我的音乐、我的视频、我的照片。
如图5所示,主目录下包含的多个待归档文件,具体可以包括:陈奕迅音乐.mp3、培训会议视频.mkv、团建照片1.jpg、团建照片2.jpg、hello.cpp、hello.h、hello.py、项目计划.xlsx、项目章程.docx等待归档文件。这些待归档文件原本无规则散乱地存放在主目录下。
图6示出了根据本发明一个实施例中对多个待归档文件进行分类归档的结果示意图。如图6所示,针对陈奕迅音乐.mp3文件,从多种文件索引中提取的多个目标关键词包括陈奕迅、音乐,在将关键词集合与每个归档目录名称进行匹配后,确定用于存放陈奕迅音乐.mp3文件的目标目录为我的音乐目录。针对培训会议视频.mkv文件,从多种文件索引中提取的多个目标关键词包括培训会议、视频,在将关键词集合与每个归档目录名称进行匹配后,确定用于存放培训会议视频.mkv文件的目标目录为我的视频目录。针对团建照片1.jpg文件和团建照片2.jpg文件,从多种文件索引中提取的多个目标关键词包括团建、照片,在将关键词集合与每个归档目录名称进行匹配后,确定用于存放团建照片1.jpg文件和团建照片2.jpg文件的目标目录均为我的照片目录。
针对hello.cpp文件,从多种文件索引中提取的多个目标关键词包括hello、cpp,在将关键词集合与每个归档目录名称进行匹配后,确定用于存放hello.cpp文件的目标目录为程序代码目录。针对hello.h文件,从多种文件索引中提取的多个目标关键词包括hello、h,在将关键词集合与每个归档目录名称进行匹配后,确定用于存放hello.h文件的目标目录为程序代码目录。针对hello.py文件,从多种文件索引中提取的多个目标关键词包括hello、py,在将关键词集合与每个归档目录名称进行匹配后,确定用于存放hello.py文件的目标目录为程序代码目录。
针对项目计划.xlsx文件,从多种文件索引中提取的多个目标关键词包括项目、计划、xlsx,在将关键词集合与每个归档目录名称进行匹配后,确定用于存放项目计划.xlsx文件的目标目录为项目文档目录。针对项目章程.docx文件,从多种文件索引中提取的多个目标关键词包括项目、章程、docx,在将关键词集合与每个归档目录名称进行匹配后,确定用于存放项目章程.docx文件的目标目录为项目文档目录。
如前文所述,在一些实施例中,对于每个待归档文件,在确定待归档文件的目标目录后,还可以根据从待归档文件的多种文件索引中,筛选出的多个目标关键词中的一个或多个目标关键词,在待归档文件的目标目录下创建次级目录,随后将待归档文件存放在目标目录下的次级目录下。
图7示出了根据本发明一个实施例中将待归档文件存放在目标目录的次级目录下的示意图。如图7所示,陈奕迅音乐.mp3文件的目标目录为我的音乐目录,其中,在我的音乐目录(目标目录)下,还根据陈奕迅音乐.mp3文件的目标关键词“陈奕迅”建立了陈奕迅次级目录,并将陈奕迅音乐.mp3文件存放在了该次级目录下。同理,在我的照片目录(团建照片1.jpg文件和团建照片2.jpg文件的目标目录)下,还根据团建照片1.jpg文件和团建照片2.jpg文件的目标关键词“团建”建立了团建次级目录,并将团建照片1.jpg文件和团建照片2.jpg文件存放在该次级目录下。在我的视频目录(培训会议视频.mkv文件的目标目录)下,还根据培训会议视频.mkv文件的目标关键词“培训会议”建立了培训会议次级目录,并将培训会议视频.mkv文件存放在该次级目录下。
在一些实施例中,在步骤330中,可以利用文本相似度匹配算法,来确定每个归档目录名称与关键词集合的匹配度。
在一个具体实施例中,在步骤330中,可以利用BERT模型,来确定每个归档目录名称与关键词集合的匹配度。
具体地,对于每个归档目录名称,可以将归档目录名称与关键词集合输入BERT模型进行处理,以确定该归档目录名称与关键词集合的匹配度。这里,在将归档目录名称与关键词集合输入BERT模型进行处理后,BERT模型可以输出该归档目录名称与关键词集合的匹配值,根据该匹配值可以确定该归档目录名称与关键词集合的匹配度(百分比)。BERT模型输出的匹配值的范围可以为-1~1。
图8示出了BERT模型的原理示意图。需要说明的是,BERT模型是基于有监督过程的文本相似度匹配算法框架。
如图8所示,可以将归档目录名称、关键词集合分别作为语句A、语句B,输入至BERT模型中进行处理,其中,在经BERT模型处理过程中,可以针对归档目录名称(语句A)、关键词集合(语句B)分别转换为词向量,例如,可以分别针对归档目录名称(语句A)、关键词集合(语句B)计算768维词向量,得到对应的词向量u和词向量v。进而,可以针对归档目录名称(语句A)、关键词集合(语句B)的词向量u和词向量v,利用softmax分类匹配对比函数来计算两者的匹配值,BERT模型输出的匹配值范围可以为-1~1,从而可以得到归档目录名称(语句A)与关键词集合(语句B)的匹配结果。
例如,将待归档文件的目标关键词“项目计划”分别与归档目录名称“项目文档”、“程序代码”、“我的音乐”、“我的图片”、“我的视频”,输入BERT模型进行计算后,输出的匹配值分别为0.9656,0.3214,0.0728,0.0723,0.0715。从而,根据匹配值0.9656可以确定项目计划与项目文档的匹配度最高,约为96.6%,基于此,可以将项目文档目录确定为用于存放项目计划文件的目标目录。
根据本发明的文件分类管理方法300,文件管理器可以建立多个归档目录,并可以响应于用户对一个或多个待归档文件的分类归档请求,获取每个待归档文件的多种文件索引,从待归档文件的多种文件索引中筛选出多个目标关键词,形成关键词集合,通过确定每个归档目录名称与关键词集合的匹配度,将匹配度最高的归档目录作为待归档文件的目标目录,最终可以将每个待归档文件存放在对应的目标目录下。这样,根据本发明的技术方案,用户通过一键操作,便能实现在文件管理器中自动对各待归档文件进行分类归档存放,实现了基于文件管理器一键分类整理文件,提高了用户整理文件的效率。
进一步地,根据本发明的文件分类管理方法,在确定待归档文件的目标目录后,还可以根据从待归档文件的目标关键词,在待归档文件的目标目录下创建次级目录,并将待归档文件存放在目标目录下的次级目录下。这样,能够根据各文件的特征将各文件规则有序地分类存放在归档目录的二级目录下,实现对待归档文件的进一步细分归类整理,使得本发明基于文件管理器的文件自动分类整理功能具备更高的实用性,避免多个文件无规则散乱地存放在归档目录下。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,移动终端一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的文件分类管理方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。

Claims (12)

1.一种文件分类管理方法,在计算设备的文件管理器中执行,所述文件管理器适于建立多个归档目录,所述方法包括:
响应于对一个或多个待归档文件的分类归档请求,获取每个所述待归档文件的多种文件索引;
从所述待归档文件的多种文件索引中筛选出多个目标关键词,形成关键词集合;
确定每个归档目录名称与所述关键词集合的匹配度,并将匹配度最高的归档目录作为所述待归档文件的目标目录;
将所述待归档文件存放在所述目标目录下。
2.如权利要求1所述的方法,其中,将所述待归档文件存放在所述目标目录下,包括:
根据一个或多个目标关键词,在所述目标目录下创建次级目录;
将所述待归档文件存放在所述次级目录下。
3.如权利要求1或2所述的方法,其中,还包括:
根据文件类型、文件访问时间或者自定义分类操作,建立多个归档目录。
4.如权利要求1-3中任一项所述的方法,其中,确定每个归档目录名称与所述关键词集合的匹配度,包括:
利用文本相似度匹配算法,确定每个归档目录名称与所述关键词集合的匹配度。
5.如权利要求1-3中任一项所述的方法,其中,确定每个归档目录名称与所述关键词集合的匹配度,包括:
对于每个归档目录名称,将所述归档目录名称与所述关键词集合输入BERT模型进行处理,以确定所述归档目录名称与所述关键词集合的匹配度。
6.如权利要求1-5中任一项所述的方法,其中,所述多种文件索引包括:文件名称索引、文件内容索引、文件属性索引、文件标签索引。
7.如权利要求6所述的方法,其中,从所述待归档文件的多种文件索引中筛选出多个目标关键词,包括:
判断所述待归档文件的文件名称是否有效,如果有效,则从所述文件名称索引中提取多个文件名称关键词作为目标关键词;
如果不存在文件名称关键词,则判断所述待归档文件是否是文本文件,如果是文本文件,则从所述文件内容索引中提取多个文件内容关键词作为目标关键词;
如果不是文本文件,则判断所述待归档文件是否是图片文件,如果是图片文件,则利用OCR识别算法从所述图片文件中提取文字内容,并从所述文字内容中提取多个文字内容关键词作为目标关键词;
如果不是图片文件,则判断所述待归档文件是否是音乐文件或视频文件,如果是音乐文件或视频文件,则从所述文件属性索引中提取多个文件属性关键词作为目标关键词;
如果不是音乐文件或视频文件,则判断所述待归档文件是否是代码文件,如果是代码文件,则从所述文件标签索引中提取多个文件标签关键词作为目标关键词。
8.如权利要求1-7中任一项所述的方法,其中,所述文件管理器与文件索引存储装置耦接,所述文件索引存储装置中包括多种文件索引;
获取每个所述待归档文件的多种文件索引,包括:
从所述文件索引存储装置中获取每个所述待归档文件的多种文件索引。
9.如权利要求1-8中任一项所述的方法,其中,
多个归档目录包括:项目文档目录、程序代码目录、我的音乐目录、我的视频目录、我的照片目录。
10.一种文件分类管理系统,包括:
文件索引存储装置,包括多种文件索引;
文管客户端;以及
文件管理器,与所述文管客户端、文件索引存储装置耦接,适于响应于文管客户端发送的对一个或多个待归档文件的分类归档请求,执行如权利要求1-9中任一项所述的方法来对一个或多个待归档文件进行分类归档。
11.一种计算设备,包括:
至少一个处理器;以及
存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-9中任一项所述的方法的指令。
12.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-9中任一项所述方法。
CN202311125695.1A 2023-09-01 2023-09-01 文件分类管理方法、系统及计算设备 Pending CN117194322A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311125695.1A CN117194322A (zh) 2023-09-01 2023-09-01 文件分类管理方法、系统及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311125695.1A CN117194322A (zh) 2023-09-01 2023-09-01 文件分类管理方法、系统及计算设备

Publications (1)

Publication Number Publication Date
CN117194322A true CN117194322A (zh) 2023-12-08

Family

ID=88995407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311125695.1A Pending CN117194322A (zh) 2023-09-01 2023-09-01 文件分类管理方法、系统及计算设备

Country Status (1)

Country Link
CN (1) CN117194322A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117851340A (zh) * 2024-03-08 2024-04-09 湖南云档信息科技有限公司 一种基于关键词的档案形成方法、系统、终端及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117851340A (zh) * 2024-03-08 2024-04-09 湖南云档信息科技有限公司 一种基于关键词的档案形成方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
US11775866B2 (en) Automated document filing and processing methods and systems
US11036808B2 (en) System and method for indexing electronic discovery data
US20190236102A1 (en) System and method for differential document analysis and storage
US8392472B1 (en) Auto-classification of PDF forms by dynamically defining a taxonomy and vocabulary from PDF form fields
US9792289B2 (en) Systems and methods for file clustering, multi-drive forensic analysis and data protection
US8347206B2 (en) Interactive image tagging
US20140122479A1 (en) Automated file name generation
US20130054595A1 (en) Automated File Name Generation
CN102414677A (zh) 包括自动分类规则的数据分类流水线
WO2021043088A1 (zh) 文件查询方法、装置、计算机设备及存储介质
CN114003963B (zh) 一种企业网盘下文件授权的方法、系统、网盘及存储介质
CN112328548A (zh) 一种文件检索方法及计算设备
CN110688349A (zh) 一种文档整理方法、装置、终端及计算机可读存储介质
CN117194322A (zh) 文件分类管理方法、系统及计算设备
CN111488556A (zh) 一种嵌套文档提取方法、装置及电子设备和存储介质
CN111666383A (zh) 信息处理方法、装置、电子设备及计算机可读存储介质
US20230138491A1 (en) Continuous learning for document processing and analysis
US8046361B2 (en) System and method for classifying tags of content using a hyperlinked corpus of classified web pages
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN115525778A (zh) 企业文档处理方法、装置及存储介质
US20230134218A1 (en) Continuous learning for document processing and analysis
US20180004737A1 (en) Information processing apparatus, control method, and storage medium
Darnowski et al. Selected methods of file carving and analysis of digital storage media in computer forensics
CN107943965B (zh) 相似文章检索方法及装置
CN117493645B (zh) 一种基于大数据的电子档案推荐系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination