CN111858476A - 文件处理方法、装置、电子设备和计算机可读存储介质 - Google Patents

文件处理方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN111858476A
CN111858476A CN202010700432.9A CN202010700432A CN111858476A CN 111858476 A CN111858476 A CN 111858476A CN 202010700432 A CN202010700432 A CN 202010700432A CN 111858476 A CN111858476 A CN 111858476A
Authority
CN
China
Prior art keywords
document
downloaded
file name
information
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010700432.9A
Other languages
English (en)
Inventor
毛盼盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wingtech Electronic Technology Co Ltd
Original Assignee
Shanghai Wingtech Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wingtech Electronic Technology Co Ltd filed Critical Shanghai Wingtech Electronic Technology Co Ltd
Priority to CN202010700432.9A priority Critical patent/CN111858476A/zh
Publication of CN111858476A publication Critical patent/CN111858476A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种文件处理方法、装置、电子设备和计算机可读存储介质,涉及数据存储技术领域。其中,上述文件处理方法包括:响应于用户触发的下载操作,检验待下载文档的初始文件名是否符合预设规则,若初始文件名不符合所述预设规则,则从所述待下载文档所对应的下载界面中提取与所述待下载文档关联的关键信息,根据关键信息生成目标文件名,以采用所述目标文件名对所述待下载文档进行存储。通过上述方案既确保存储后的文件名与该待下载文档之间存在关联,又减少用户手动修改的繁琐。不仅使用户浏览查找下载后的该待下载文档时能够迅速准确的锁定目标,还能够提升用户体验。

Description

文件处理方法、装置、电子设备和计算机可读存储介质
技术领域
本发明涉及数据存储技术领域,具体而言,涉及一种文件处理方法、装置、电子设备和计算机可读存储介质。
背景技术
随着科技的发展,电脑、手机等电子设备不仅成为生活中的必备,也成为办公必不可少的工具。文件数据的下载是每一个用户使用电子设备的过程常见的环节。
下载文件数据的目的在于方便用户浏览查询,现有技术中,电子设备下载文件数据后,如果用户不主动修改,那么便会用对应的原始名称作为该文件数据的文件名,并进行存储。
然而,对应的原始名称往往是乱码或者毫无逻辑的字符组合,因此,会出现下载后的数据的名称与数据实际内容毫无关联,进而导致下载后用户无法快速找到被下载的数据。不利于电子设备对文档管理及分辨文档的有效性,导致文档数据的冗余。
发明内容
有鉴于此,本发明的目的在于提供一种文件处理方法、装置、电子设备和计算机可读存储介质。
为了实现上述目的,本发明实施例采用的技术方案如下:
在一个实施例中,本发明实施例提供一种文件处理方法,所述文件处理方法包括:
响应于用户触发的下载操作,检验待下载文档的初始文件名是否符合预设规则;
若所述初始文件名不符合所述预设规则,则从所述待下载文档所对应的下载界面中提取与所述待下载文档关联的关键信息;
根据所述关键信息生成目标文件名,以采用所述目标文件名对所述待下载文档进行存储。
在一些实施例中,所述从所述待下载文档所对应的下载界面中提取与所述待下载文档关联的关键信息的步骤包括:
获取所述下载界面的界面图像;
从所述界面图像中识别出现的文字信息,以提取与所述待下载文档相关的所述关键信息。
在一些实施例中,所述从所述待下载文档所对应的下载界面中提取与所述待下载文档关联的关键信息的步骤包括:
获取所述下载界面所对应的网页源代码;
从所述网页源代码中提取标题信息、发布日期及作者名称,以作为所述关键信息。
在一些实施例中,所述方法还包括:
将所述待下载文档存储至预先选定的一级存储目录中;
获取所述待下载文档对应的内容主题信息;
基于所述内容主题信息,在所述一级存储目录下查询是否存在匹配的二级存储目录;
若存在,将所述待下载文档存储至匹配的所述二级存储目录下。
在一些实施例中,所述方法还包括:
当检测到所述二级存储目录中已存储文件的数量超过指定阈值时,基于所述已存储文件创建多个三级存储目录;
将所述已存储文件归类到对应的所述三级存储目录。
在一些实施例中,所述获取所述待下载文档对应的内容主题信息的步骤包括:
获取所述待下载文档的内容信息;
统计所述内容信息中不同词汇所对应的出现频率,并从中筛选出多个高频词汇;
基于所述多个高频词汇之间的组合,确定出对应的所述内容主题信息。
在一些实施例中,所述获取所述待下载文档对应的内容主题信息的步骤包括:
获取所述待下载文档的内容信息;
基于所述内容信息,利用预设分析模型提取对应的主题摘要,以作为所述内容主题信息。
在一个实施例中,本发明实施例提供一种文件处理装置,所述文件处理装置包括:
检验模块,用于响应于用户触发的下载操作,检验待下载文档的初始文件名是否符合预设规则;
提取模块,用于若所述初始文件名不符合所述预设规则,则从所述待下载文档所对应的下载界面中提取与所述待下载文档关联的关键信息;
生成模块,用于根据所述关键信息生成目标文件名,以采用所述目标文件名对所述待下载文档进行存储。
在一个实施例中,本发明实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现前述实施方式任一实施例所述的方法。
在一个实施例中,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式中任一实施例所述的方法。
与现有技术相比,本发明实施例提供的文件处理方法通过在感知到用户触发的下载操作后,先检验待下载文档的初始文件名是否符合预设规则,如果初始文件名不符合预设规则,那么从待下载文档所对应的下载界面中提取与待下载文档关联的关键信息,根据关键信息生成目标文件名,并采用目标文件名对所述待下载文档进行存储。通过上述方案既确保存储后的文件名与该待下载文档之间存在关联,又减少用户手动修改的繁琐,不仅使用户浏览查找下载后的该待下载文档时能够迅速准确的锁定目标,还能够提升用户体验。此外,方便电子设备基于存储名称分辨文档的有效性,从而方便对下载后的文档进行管理,避免出现数据冗余的问题。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的现有技术文件下载的过程示意图;
图2示出了本发明实施例提供的电子设备的示意图;
图3示出了本发明实施例提供的文件处理方法的步骤流程图;
图4示出了本发明实施例提供的点击下载控件触发屏幕截屏的示例图;
图5示出了本发明实施例提供的生成的目标文件名的示例图;
图6示出了本发明另一个实施例提供的文件处理方法的步骤流程图;
图7示出了本发明又一个实施例提供的文件处理方法的步骤流程图;
图8示出了本发明实施例提供的文件处理装置的示意图。
图标:100-电子设备;110-存储器;120-处理器;130-通信模块;400-文件处理装置;401-检验模块;402-提取模块;403-生成模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
相关技术中,用户使用电子设备进行文件下载的过程如图1所示,用户找到需要下载的文件所属页面,点击页面中的下载按钮,将弹出保存路径选择窗口。通常为了提高保存的快捷性,会默认以被下载文件的原始文件名进行存储,而图1中由于原始文件名就非常不规范,其由一串数字构成(当然也有由乱码构成的文件名的情况)。对于用户而言,无法根据该文件名知悉其所指向的文件内容,特别是在,文件存储量较大时,用户想在已存储的文件中找到该文件便很困难。通常这种情况,相关技术中需要用户在进行文件下载时手动修改文件命名,显然十分的繁琐。
为了解决上述问题,本发明实施例提供了一种文件处理方法、装置、电子设备和计算机可读存储介质。
请参照图2,是电子设备100的方框示意图。电子设备100包括存储器110、处理器120及通信模块130。存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。
通信模块130用于通过网络建立电子设备100与其它通信终端之间的通信连接,并用于通过网络收发数据。
应当理解的是,图2所示的结构仅为电子设备100的结构示意图,电子设备100还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。
请参考图3,本发明实施例提供了一种文件处理方法。如图3所示,上述文件处理方法包括以下步骤:
步骤S101,电子设备100响应于用户触发的下载操作,检验待下载文档的初始文件名是否符合预设规则。
在一些实施例中,电子设备100可以是侦测到用于指向附属文件(也即,待下载文档)的下载控件被触发,便可判定为用户触发下载操作。上述下载控件对应一个下载链接。
相较于相关技术中,电子设备100响应于用户触发的下载操作,直接弹出路径保存框并默认以待下载文档的原始名称进行保存(除非用户主动修改)而言,本发明实施例中,侦测到用户触发下载操作后,利用预设规则对初始文件名进行检验,如此,避免直接采用与文档内容不相关的名称直接存储该待下载文档,从而造成用户查找该文档时不能快速找到该待下载文档。
作为一种实施方式,上述检验待下载文档的初始文件名是否符合预设规则的方式包括:将初始文件名与预设的命名格式进行比较。比如预设的命名格式为“-作者-发布日期”,那么检验初始名称中是否具有“主题标题”、“作者”及“发布日期”三元素中至少一个。如果有,那么判定待下载文档的初始文件名符合预设规则,反之则不符合。
作为另一种实施方式,上述检验待下载文档的初始文件名是否符合预设规则的方式还可以包括针对初始文件名进行以下至少一项检验:
(1)检验初始文件名中每一个字符是否为常用的字符类型,比如,文字、数字等。
(2)检查是否存在相邻的两个字符属于相同的字符类型。
(3)检验是否存在具有实际含义的多个连续的字符。可以理解地,实现上述检验可以通过语义识别模型实现。上述语义识别模型可以是通过训练得到的深度学习模型。
需要说明的是,实际方案中可以使用以上一项或多项检验配合判断初始文件名是否符合预设规则。通常方案中所选用的检验都通过,则判定初始文件符合预设规则。反之,则不符合规则。在初始文件名符合规则的情况下,则以初始文件名对待下载文档进行存储。在初始文件名不符合规则的情况下,流程进入步骤S102。
步骤S102,若初始文件名不符合预设规则,则电子设备100从待下载文档所对应的下载界面中提取与待下载文档关联的关键信息。
上述下载界面为具有指向待下载文档的下载控件的界面。上述关键信息可以是能够让人直接联系到待下载文档的信息,关键信息的类别可以由用户自主设定,比如,标题信息、发布日期及作者名称等。此外,待下载文档的关键信息是直接从展示待下载文档页面(比如,下载页面、预览页面)提取到的信息。
上述步骤S102的一种实现方式可以是:
首先,获取下载界面的界面图像。比如,用户触及下载控件的同时,在新页面未弹出来之前,通过屏幕截图的方式获得如图4所示的界面图像。
其次,从界面图像中识别出现的文字信息,以提取与待下载文档相关的多类关键信息。比如,提取标题信息、发布日期及作者名称等。可选地,可以利用预训练的文字识别模型从下载界面中先确定出呈现标题的图像区域、作者名字的图像区域和发布时间的图像区域,然后分别进行识别,从而提取到上述与待下载文档相关的多类关键信息。需要说明的是,标题信息、发布日期及作者名称在页面的呈现方式都非常便于识别,因此,利用大量标记后的界面样本图像对深度学习模型进行识别训练,即可获得上述文字识别模型。
上述步骤S102的另一种实现方式还可以是:获取下载界面所对应的网页源代码。上述网页源代码为(Hyper Text Markup Language,HTML)超文本标记语言源代码。由于网页源代码中使用代码语言标记有页面中不同位置所呈现信息的实际内容,因此可以从网页源代码中提取标题信息、发布日期及作者名称,以作为关键信息。比如,通过在网页源代码中查找语言标记<title>,获取到标题信息。
可以理解地,在一些实施例中,可以在上述两种实现方式中任选一种,当然,也不限于以上两种,还可以包括其他实施方式。比如,在另一些实施例中,也可以在一种实现方式下未获取到关键信息时,采用另一种实现方式进行关键信息的获取,从而使两种实现方式相辅相成。当然,在其他一些实施例中,如果通过以上两种实现方式均未获得关键信息,那么开启待下载文档的预览页面,将预览页面作为新的下载界面,并采用文字识别模型的实现方式进行识别。
步骤S103,电子设备100根据关键信息生成目标文件名,以采用目标文件名对待下载文档进行存储。
在一些实施例中,如果获取到多类关键信息,则将所得到各类关键信息进行组合,得到目标文件名。比如,参考图5所示,获得的标题信息为“工业互联网产业经济发展报告”,获得的作者信息为“中国信息通信院”,获得的发布时间为“2020年3月”,那么生成的目标文件名可以是(也即,图5中的文件名(N))为“工业互联网产业经济发展报告-中国信息通信院-2020年3月”。需要说明的是,关键信息的组合方式本发明实施例并不作限定。比如,接上例,还可以组合为“中国信息通信院-工业互联网产业经济发展报告-2020年3月”、“中国信息通信院-2020年3月-工业互联网产业经济发展报告”或者“2020年3月-中国信息通信院-工业互联网产业经济发展报告”。此外,在只获得一类关键信息时,可将获得的关键信息作为目标文件名称。
在一些实施例中,为了方便用户查找下载后的文档,在以目标文件名为存储标题将待下载文档下载下来后,如图6所示,本发明实施例所提供的文件处理方法还可以包括以下步骤:
步骤S201,电子设备100将待下载文档存储至预先选定的一级存储目录中。
上述存储目录为存储路径中的一部分,用于指向一块存储空间。在本发明实施例中,将待下载文档存储至预先选定的一级存储目录中可以理解为将待下载文档存储至预先选定的一级存储目录所指向的存储空间。当然,一级存储目录所指向存储空间还可以进一步划分,得到多个存储子空间。每个存储子空间对应一个位于一级存储目录下的二级存储目录,通过该一级存储目录下的二级存储目录便可访问对应的存储子空间。同样的道理,二级存储目录下也还可以有多个三级存储目录,以此类推。
步骤S202,电子设备100获取待下载文档对应的内容主题信息。
上述内容主题信息为待下载文档中所记载的内容信息的主题。相较于上述关键信息而言,上述内容主题信息为从待下载文档内记载的内容信息中提取到的表征待下载文档的信息。上述内容信息不仅包括已提取到的关键信息还包括待下载文档中记载的文字信息。需要说明的是,内容主题信息虽然是从内容信息中提取到的,但是并不包括内容信息中所有内容,因此,换句话说,内容主题信息与关键信息之间获取的阶段不同,但是,在一些实施例中,提取到的关键信息和内容主题信息之间可能存在相同的部分。
在一些实施例中,获取待下载文档对应的内容主题信息的方式可以包括以下任意一种:
(1)获取待下载文档的内容信息,基于内容信息,利用预设分析模型提取对应的主题摘要,以作为内容主题信息。上述预设分析模型采用常规的用于提取文章摘要的模型即可。
(2)获取待下载文档的内容信息,统计内容信息中不同词汇所对应的出现频率,并从中筛选出多个高频词汇。基于多个高频词汇之间的组合,确定出对应的内容主题信息。
在一些实施例中,筛选多个高频词汇的方式可以是:首先将常用的语气词从上述不同词汇中剔除。其次,将剩余的不同词汇按照出现频率由大到小的顺序排列,然后将排列于指定名次前的词汇确定为高频词汇。
在一些实施例中,可以预先建立不同词汇之间组合后与预选主题之间的对应关系。如此,便可以根据待存储文档的多个高频词汇之间的组合查找出对应的内容主题信息。比如,主题“第五代移动通信技术”所对应的词汇之间组合可以包括“通信、网络、5G”、“基站、5G、手机”等。如此,当一待存储文档所对应的高频词汇组合为“通信、网络、5G”,则可以确定该待存储文档所对应的内容主题信息为“第五代移动通信技术”。在一些实施例中,上述对应关系可以人工设定。
接上述实施例,只要待存储文档的多个高频词汇与对应关系中词汇相同,即可确定该对应关系中的预选主题为该待存储文档的内容主题信息。
在另外一些实施例中,也可以是先获取已知与特定主题相关的文档,然后提取文档中的高频词汇,最后,建立特定主题与所得到的高频词汇之间的对应关系。
接上述实施例,得到的对应关系中高频词汇之间的组合可以是按照高频词汇所对应的出现频次由大到小的顺序排列。如此,基于上述对应关系确定内容主题信息时,待存储文档的高频词汇之间的组合也是按照所对应的出现频率由大到校的排列,将与该待存储文档之间具有相同高频词汇且排列顺序也相同的对应关系所执行的特定主题确定内容主题信息。
(3)依据待存储文档中关键信息中的标题信息,确定该待存储文档的内容主题信息。
步骤S203,电子设备100基于内容主题信息在一级存储目录下查询是否存在匹配的二级存储目录。
上述二级存储目录可以是预先设定在一级存储目录下的子目录。比如,二级存储目录可以包括分别以5G、区块链、人工智能作为名称的子目录。当然,也可以按照作者或者发布时间等建立二级存储目录。
在一些实施例中,通过检验二级存储目录所对应的名称是否与待存储文档的内容主题信息匹配。上述是否匹配可以通过判断内容主题信息中是否具有与二级存储目录所对应的名称相同的词汇进行确定。如果有,那么就是匹配的,如果没有,那么就是不匹配。
步骤S204,若存在匹配的二级存储目录,电子设备100将待下载文档存储至匹配的二级存储目录下。
如果二级存储目录下还具有三级存储目录,那么确定匹配的二级存储目录之后,按照步骤S203的原理,从该匹配的二级存储目录下的三级存储目录中确定匹配的三级存储目录,从而将待下载文档存储至匹配的三级存储目录。如此,便实现了对文档的自动归类,便于用户查询。
此外,若不存在匹配的二级存储目录,则将待下载文档存储至一级存储目录中的预先划分的特殊存储空间内。
如果二级存储目录下没有三级存储目录,将待存储文档存储该二级存储目录下,已存储到二级目录下的待存储文档又名为已存储文件,并且开始检测二级存储目录中已存储文件的数量。
故,在另外一些实施例中,如图7所示,上述文件处理方法还可以包括以下步骤:
步骤S301,当检测到二级存储目录中已存储文件的数量超过指定阈值时,基于存储文件创建多个三级存储目录。
在一些实施例中,可以自动根据二级存储目录的名称所对应的主题,确定该主题对应的细分领域,以不同的细分领域名称建立多个三级存储目录。比如,人工智能还能细分为:机器学习、自然语言处理、知识图谱等,因此,在名字为人工智能的二级存储目录下,还可以分别建立名称为机器学习、自然语言处理、知识图谱的三级存储目录。
在另外一些实施例中,不仅可以基于细分领域这一划分角度进行三级存储目录创建,还可以从发布时间、作者信息等多样的划分角度进行三级存储目录创建。
在一些实施例中,可以由用户预先选定一种划分角度,在需要进行三级存储目录创建时,基于该预先选定的划分角度进行三级存储目录的创建。
在另外一些实施例中,也可以分别从不同的划分角度创建多组三级存储目录,也即,同一组三级存储目录为基于统一划分角度创建得到的。将已存储文件分别分配至各组三级存储目录中,使已存储文件能分别与每组三级存储目录中匹配的三级存储目录关联;获取每组三级存储目录中具有关联的已存储文件的目录数量,选出目录数量最大的一组三级存储目录作为最终创建的三级存储目录。比如,按照发布时间作为划分角度得到多个以不同时间为名称的一组三级存储目录,按照作者信息作为划分角度得到多个以不同作者信息为名称的一组三级存储目录,按照细分领域作为划分角度得到多个以不同细分领域为名称的一组三级存储目录,然后分别确定与各组三级存储目录中各个目录相关的已存储文件,并统计各组中具有相关的已存储文件的三级存储目录的目录数量,如果以不同作者信息为名称的一组三级存储目录中有4个目录与已存储文件相关,以不同发布时间为名称的一组三级存储目录中有3个目录与已存储文件相关,以不同细分领域为名称的一组三级存储目录中有2个目录与已存储文件相关,那么就选择以不同作者信息为名称的一组三级存储目录作为最终创建的三级存储目录。
步骤S302,电子设备100将已存储文件归类到对应的三级存储目录。
在一些实施例中,将已存储文件归类到对应的三级存储目录与步骤S203和步骤S204所描述的将待下载文档归类到匹配的二级存储目录的原理相同,在此不再赘述。
此外,在一些实施例中,也可以按照创建三级存储目录的原理在一级目录下创建二级存储目录。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种文件处理装置400的实现方式,可选地,该文件处理装置400可以采用上述图2所示的电子设备100的器件结构。进一步地,请参阅图8,图8为本发明实施例提供的一种文件处理装置400的功能模块图。需要说明的是,本实施例所提供的文件处理装置400,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。该文件处理装置400包括:检验模块401、提取模块402和生成模块403。
检验模块401,用于响应于用户触发的下载操作,检验待下载文档的初始文件名是否符合预设规则。
提取模块402,用于若初始文件名不符合预设规则,则从待下载文档所对应的下载界面中提取与待下载文档关联的关键信息。
生成模块403,用于根据关键信息生成目标文件名,以采用目标文件名对待下载文档进行存储。
在一些实施例中,上述提取模块具体用于:
获取下载界面的界面图像;
从界面图像中识别出现的文字信息,以提取与待下载文档相关的关键信息。
在一些实施例中,上述提取模块还可以具体用于:
获取下载界面所对应的网页源代码;
从网页源代码中提取标题信息、发布日期及作者名称,以作为关键信息。
在一些实施例中,上述文件处理装置还可以包括:
存储模块,用于将待下载文档存储至预先选定的一级存储目录中。
获取模块,用于获取待下载文档对应的内容主题信息。
查询模块,用于基于内容主题信息,在一级存储目录下查询是否存在匹配的二级存储目录;
上述存储模块,还用于若存在,将待下载文档存储至匹配的二级存储目录下。
在一些实施例中,文件处理装置还包括:
创建模块,用于当检测到二级存储目录中已存储文件的数量超过指定阈值时,基于已存储文件创建多个三级存储目录;
上述存储模块,还用于将已存储文件归类到对应的三级存储目录。
在一些实施例中,上述获取模块具体用于:
获取待下载文档的内容信息;
统计内容信息中不同词汇所对应的出现频率,并从中筛选出多个高频词汇;
基于多个高频词汇之间的组合,确定出对应的内容主题信息。
在一些实施例中,获取模块具体还用于:
获取待下载文档的内容信息;
基于内容信息,利用预设分析模型提取对应的主题摘要,以作为内容主题信息。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图2所示的存储器110中或固化于该电子设备100的操作系统(Operating System,OS)中,并可由图2中的处理器120执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器110中。
综上,本发明实施例提供了一种文件处理方法、装置、电子设备和计算机可读存储介质。其中,上述文件处理方法包括:响应于用户触发的下载操作,检验待下载文档的初始文件名是否符合预设规则,若初始文件名不符合预设规则,则从待下载文档所对应的下载界面中提取与待下载文档关联的关键信息,根据关键信息生成目标文件名,以采用目标文件名对待下载文档进行存储。从而实现自动纠正不符合规则的文件名,并于下载后进行自动归类,无需用户多余的操作;经过自动归类后的文件,若需要查找,也能很快的根据自己的需求进行查找查看。减少用户操作时间的同时,还提升了用户体验。
在一个实施例中,本申请提供的文件处理装置可以实现为一种计算机程序的形式,计算机程序可在如图2所示的电子设备上运行。电子设备的存储器中可存储组成该文件处理装置的各个程序模块,比如,图8所示的检验模块401、提取模块402和生成模块403。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文件处理方法中的步骤。
例如,图2所示的电子设备可以通过如图8所示的文件处理装置中的检验模块401执行步骤S101。电子设备可通过提取模块402执行步骤S102。电子设备可通过生成模块403执行步骤S103。
在一个实施例中,提供了一种电子设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:响应于用户触发的下载操作,检验待下载文档的初始文件名是否符合预设规则;若初始文件名不符合预设规则,则从待下载文档所对应的下载界面中提取与待下载文档关联的关键信息;根据关键信息生成目标文件名,以采用目标文件名对待下载文档进行存储。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取下载界面的界面图像;从界面图像中识别出现的文字信息,以提取与待下载文档相关的关键信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取下载界面所对应的网页源代码;从网页源代码中提取标题信息、发布日期及作者名称,以作为关键信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将待下载文档存储至预先选定的一级存储目录中;获取待下载文档对应的内容主题信息;基于内容主题信息,在一级存储目录下查询是否存在匹配的二级存储目录;若存在,将待下载文档存储至匹配的二级存储目录下。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当检测到二级存储目录中已存储文件的数量超过指定阈值时,基于已存储文件创建多个三级存储目录;将已存储文件归类到对应的三级存储目录。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取待下载文档的内容信息;统计内容信息中不同词汇所对应的出现频率,并从中筛选出多个高频词汇;基于多个高频词汇之间的组合,确定出对应的内容主题信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取待下载文档的内容信息;基于内容信息,利用预设分析模型提取对应的主题摘要,以作为内容主题信息。
综上,上述电子设备执行本发明实施例提供的文件处理方法时,通过在感知到用户触发的下载操作后,先检验待下载文档的初始文件名是否符合预设规则,如果初始文件名不符合预设规则,那么从待下载文档所对应的下载界面中提取与待下载文档关联的关键信息,根据关键信息生成目标文件名,并采用目标文件名对待下载文档进行存储。通过上述方案既确保存储后的文件名与该待下载文档之间存在关联,又减少用户手动修改的繁琐,不仅使用户浏览查找下载后的该待下载文档时能够迅速准确的锁定目标,还能够提升用户体验。此外,方便电子设备基于存储名称分辨文档的有效性,从而方便对下载后的文档进行管理,避免出现数据冗余的问题。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:响应于用户触发的下载操作,检验待下载文档的初始文件名是否符合预设规则;若初始文件名不符合预设规则,则从待下载文档所对应的下载界面中提取与待下载文档关联的关键信息;根据关键信息生成目标文件名,以采用目标文件名对待下载文档进行存储。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取下载界面的界面图像;从界面图像中识别出现的文字信息,以提取与待下载文档相关的关键信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取下载界面所对应的网页源代码;从网页源代码中提取标题信息、发布日期及作者名称,以作为关键信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将待下载文档存储至预先选定的一级存储目录中;获取待下载文档对应的内容主题信息;基于内容主题信息,在一级存储目录下查询是否存在匹配的二级存储目录;若存在,将待下载文档存储至匹配的二级存储目录下。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当检测到二级存储目录中已存储文件的数量超过指定阈值时,基于已存储文件创建多个三级存储目录;将已存储文件归类到对应的三级存储目录。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取待下载文档的内容信息;统计内容信息中不同词汇所对应的出现频率,并从中筛选出多个高频词汇;基于多个高频词汇之间的组合,确定出对应的内容主题信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取待下载文档的内容信息;基于内容信息,利用预设分析模型提取对应的主题摘要,以作为内容主题信息。
综上,上述计算机可读存储介质被执行时,通过在感知到用户触发的下载操作后,先检验待下载文档的初始文件名是否符合预设规则,如果初始文件名不符合预设规则,那么从待下载文档所对应的下载界面中提取与待下载文档关联的关键信息,根据关键信息生成目标文件名,并采用目标文件名对待下载文档进行存储。通过上述方案既确保存储后的文件名与该待下载文档之间存在关联,又减少用户手动修改的繁琐,不仅使用户浏览查找下载后的该待下载文档时能够迅速准确的锁定目标,还能够提升用户体验。此外,方便电子设备基于存储名称分辨文档的有效性,从而方便对下载后的文档进行管理,避免出现数据冗余的问题。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文件处理方法,其特征在于,所述文件处理方法包括:
响应于用户触发的下载操作,检验待下载文档的初始文件名是否符合预设规则;
若所述初始文件名不符合所述预设规则,则从所述待下载文档所对应的下载界面中提取与所述待下载文档关联的关键信息;
根据所述关键信息生成目标文件名,以采用所述目标文件名对所述待下载文档进行存储。
2.根据权利要求1所述的文件处理方法,其特征在于,所述从所述待下载文档所对应的下载界面中提取与所述待下载文档关联的关键信息的步骤包括:
获取所述下载界面的界面图像;
从所述界面图像中识别出现的文字信息,以提取与所述待下载文档相关的所述关键信息。
3.根据权利要求1所述的文件处理方法,其特征在于,所述从所述待下载文档所对应的下载界面中提取与所述待下载文档关联的关键信息的步骤包括:
获取所述下载界面所对应的网页源代码;
从所述网页源代码中提取标题信息、发布日期及作者名称,以作为所述关键信息。
4.根据权利要求1所述的文件处理方法,其特征在于,所述方法还包括:
将所述待下载文档存储至预先选定的一级存储目录中;
获取所述待下载文档对应的内容主题信息;
基于所述内容主题信息,在所述一级存储目录下查询是否存在匹配的二级存储目录;
若存在,将所述待下载文档存储至匹配的所述二级存储目录下。
5.根据权利要求4所述的文件处理方法,其特征在于,所述方法还包括:
当检测到所述二级存储目录中已存储文件的数量超过指定阈值时,基于所述已存储文件创建多个三级存储目录;
将所述已存储文件归类到对应的所述三级存储目录。
6.根据权利要求4所述的文件处理方法,其特征在于,所述获取所述待下载文档对应的内容主题信息的步骤包括:
获取所述待下载文档的内容信息;
统计所述内容信息中不同词汇所对应的出现频率,并从中筛选出多个高频词汇;
基于所述多个高频词汇之间的组合,确定出对应的所述内容主题信息。
7.根据权利要求4所述的文件处理方法,其特征在于,所述获取所述待下载文档对应的内容主题信息的步骤包括:
获取所述待下载文档的内容信息;
基于所述内容信息,利用预设分析模型提取对应的主题摘要,以作为所述内容主题信息。
8.一种文件处理装置,其特征在于,所述文件处理装置包括:
检验模块,用于响应于用户触发的下载操作,检验待下载文档的初始文件名是否符合预设规则;
提取模块,用于若所述初始文件名不符合所述预设规则,则从所述待下载文档所对应的下载界面中提取与所述待下载文档关联的关键信息;
生成模块,用于根据所述关键信息生成目标文件名,以采用所述目标文件名对所述待下载文档进行存储。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202010700432.9A 2020-07-20 2020-07-20 文件处理方法、装置、电子设备和计算机可读存储介质 Pending CN111858476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010700432.9A CN111858476A (zh) 2020-07-20 2020-07-20 文件处理方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010700432.9A CN111858476A (zh) 2020-07-20 2020-07-20 文件处理方法、装置、电子设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111858476A true CN111858476A (zh) 2020-10-30

Family

ID=73000730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010700432.9A Pending CN111858476A (zh) 2020-07-20 2020-07-20 文件处理方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111858476A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835857A (zh) * 2021-02-07 2021-05-25 福建师范大学 一种工作群组的文件主名管理方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164435A (zh) * 2011-12-13 2013-06-19 北大方正集团有限公司 一种网络数据的采集方法和系统
CN103699597A (zh) * 2013-12-12 2014-04-02 北京奇虎科技有限公司 通过浏览器进行文件下载的方法及浏览器
US20140122479A1 (en) * 2012-10-26 2014-05-01 Abbyy Software Ltd. Automated file name generation
CN107085583A (zh) * 2016-10-27 2017-08-22 中国长城科技集团股份有限公司 一种基于内容的电子文档管理方法及装置
US20170242906A1 (en) * 2016-02-22 2017-08-24 Adobe Systems Incorporated Organizing electronically stored files using an automatically generated storage hierarchy
US20180067957A1 (en) * 2016-09-02 2018-03-08 FutureVault Inc. Automated document filing and processing methods and systems
CN108717452A (zh) * 2014-08-27 2018-10-30 乌鲁木齐九品芝麻信息科技有限公司 对下载文件识别、保存以及快速查找的方法及装置
CN109522405A (zh) * 2018-09-29 2019-03-26 南昌与德软件技术有限公司 文件信息处理方法、电子设备以及计算机可读存介质
CN109842544A (zh) * 2017-11-29 2019-06-04 腾讯科技(深圳)有限公司 一种信息处理的方法及相关设备
CN109918471A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 文件归档方法、装置、计算机设备及存储介质
CN110096590A (zh) * 2019-03-19 2019-08-06 天津字节跳动科技有限公司 一种文档归类方法、装置、介质和电子设备
CN110135264A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 数据录入方法、装置、计算机设备以及存储介质
US20200097565A1 (en) * 2018-09-24 2020-03-26 International Business Machines Corporation Predicting need to rename obscurely named documents
CN111310750A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种信息处理方法、装置、计算设备及介质
CN111343508A (zh) * 2020-02-28 2020-06-26 网易(杭州)网络有限公司 信息显示控制方法及装置、电子设备、存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164435A (zh) * 2011-12-13 2013-06-19 北大方正集团有限公司 一种网络数据的采集方法和系统
US20140122479A1 (en) * 2012-10-26 2014-05-01 Abbyy Software Ltd. Automated file name generation
CN103699597A (zh) * 2013-12-12 2014-04-02 北京奇虎科技有限公司 通过浏览器进行文件下载的方法及浏览器
CN108717452A (zh) * 2014-08-27 2018-10-30 乌鲁木齐九品芝麻信息科技有限公司 对下载文件识别、保存以及快速查找的方法及装置
US20170242906A1 (en) * 2016-02-22 2017-08-24 Adobe Systems Incorporated Organizing electronically stored files using an automatically generated storage hierarchy
US20180067957A1 (en) * 2016-09-02 2018-03-08 FutureVault Inc. Automated document filing and processing methods and systems
CN107085583A (zh) * 2016-10-27 2017-08-22 中国长城科技集团股份有限公司 一种基于内容的电子文档管理方法及装置
CN109842544A (zh) * 2017-11-29 2019-06-04 腾讯科技(深圳)有限公司 一种信息处理的方法及相关设备
US20200097565A1 (en) * 2018-09-24 2020-03-26 International Business Machines Corporation Predicting need to rename obscurely named documents
CN109522405A (zh) * 2018-09-29 2019-03-26 南昌与德软件技术有限公司 文件信息处理方法、电子设备以及计算机可读存介质
CN111310750A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种信息处理方法、装置、计算设备及介质
CN109918471A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 文件归档方法、装置、计算机设备及存储介质
CN110096590A (zh) * 2019-03-19 2019-08-06 天津字节跳动科技有限公司 一种文档归类方法、装置、介质和电子设备
CN110135264A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 数据录入方法、装置、计算机设备以及存储介质
CN111343508A (zh) * 2020-02-28 2020-06-26 网易(杭州)网络有限公司 信息显示控制方法及装置、电子设备、存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835857A (zh) * 2021-02-07 2021-05-25 福建师范大学 一种工作群组的文件主名管理方法

Similar Documents

Publication Publication Date Title
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
US9489401B1 (en) Methods and systems for object recognition
US10423649B2 (en) Natural question generation from query data using natural language processing system
CN108021598B (zh) 页面抽取模板匹配方法、装置及服务器
US20150154193A1 (en) System and method for extracting facts from unstructured text
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
US20180276199A1 (en) Advanced clause groupings detection
EP2425353A1 (en) Method and apparatus for identifying synonyms and using synonyms to search
EP2577521A2 (en) Detection of junk in search result ranking
US20150269691A1 (en) Legal reasoning graphs and usage thereof
CN110990696B (zh) 搜索意图推荐的方法及装置
WO2015084476A1 (en) Non-standard and standard clause detection
CN110765761A (zh) 基于人工智能的合同敏感词校验方法、装置及存储介质
CN109146625B (zh) 一种基于内容的多版本App更新评价方法及系统
CN109165373B (zh) 一种数据处理方法及装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN106897267B (zh) 文章缩略文意生成方法、装置及服务器
CN111858476A (zh) 文件处理方法、装置、电子设备和计算机可读存储介质
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN107220249B (zh) 基于分类的全文搜索
US20180293508A1 (en) Training question dataset generation from query data
US20160078025A1 (en) Search support apparatus and method
CN110489528B (zh) 基于电子书内容的电子词典重构方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination