CN115526601A

CN115526601A - 文件管理方法及装置

Info

Publication number: CN115526601A
Application number: CN202211247950.5A
Authority: CN
Inventors: 李春艳
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-10-12
Filing date: 2022-10-12
Publication date: 2022-12-27

Abstract

本发明公开了一种文件管理方法及装置，涉及大数据技术领域。其中该方法包括：通过获取用户上传邮件中文档的请求；对文档进行分词，得到文档的分词结果；通过词频逆文档频率方法提取文档中的关键词；将文档存储至关键词对应的关键词文件夹中。本发明可以基于关键词更快速地在对应文件夹中找到相关文档，提高查找邮件附件的效率。

Description

文件管理方法及装置

技术领域

本发明涉及大数据技术领域，尤其涉及文件管理方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

通过邮件办公的工作人员每天需要处理大量的邮件，并且通常附加有附件文档，对于需要编辑后再发送的文件，需要面对附件的存储和查找。

发明内容

本发明实施例提供一种文件管理方法，用以提高查找邮件附件的效率，该方法包括：

获取用户上传邮件中文档的请求；对文档进行分词，得到文档的分词结果；通过词频逆文档频率方法提取文档中的关键词；将文档存储至关键词对应的关键词文件夹中。

可选地，通过词频逆文档频率方法提取文档中的关键词，包括：

通过词频逆文档频率方法计算文档中每个分词的分数；分数用于表示对应分词的关键程度；

提取分数的排序在前的n个分词，得到关键词；n为大于等于1的整数；

将文档存储至关键词对应的关键词文件夹中，包括：

在分数最高的关键词对应的关键词文件夹中存储文档，并在其余关键词对应的关键词文件夹中存储文档的存储路径。

可选地，在将文档存储至关键词对应的关键词文件夹中之后，还可以包括：

接收用户输入的检索关键词；

搜索检索关键词对应的关键词文件夹；

在关键词文件夹中的文档数量小于m的情况下，返回所有文档的文档标识；m为大于等于1的整数；

在关键词文件夹中的文档数量大于或等于m的情况下，返回分数排序在前的m个文档的文档标识。

建立文档的标识、文档的存储路径和关键词之间的映射关系；

将映射关系存储至映射表中；

在接收用户输入的检索关键词之后，还可以包括：

在映射表中搜索检索关键词映射的文档标识；

在搜索检索关键词对应的关键词文件夹之后，还可以包括：

根据文档标识，对比在关键词文件夹中的搜索结果和在映射表中的搜索结果；

除返回在关键词文件夹中搜索到的文档标识之外，返回在关键词文件夹中未搜索到、且在映射表中搜索到的文档标识。

本发明实施例还提供一种文件管理装置，用以提高查找邮件附件的效率，该装置包括：

获取单元，用于获取用户上传邮件中文档的请求；

分词单元，用于对文档进行分词，得到文档的分词结果；

提取单元，用于通过词频逆文档频率装置提取文档中的关键词；

第一存储单元，用于将文档存储至关键词对应的关键词文件夹中。

可选地，提取单元可以包括：

计算子单元，用于通过词频逆文档频率装置计算文档中每个分词的分数；分数用于表示对应分词的关键程度；

提取子单元，用于提取分数的排序在前的n个分词，得到关键词；

第一存储单元还用于在分数最高的关键词对应的关键词文件夹中存储文档，并在其余关键词对应的关键词文件夹中存储文档的存储路径。

可选地，该装置还可以包括：

接收单元，用于在将文档存储至关键词对应的关键词文件夹中之后，接收用户输入的检索关键词；

搜索单元，用于搜索检索关键词对应的关键词文件夹；

第一反馈单元，用于在关键词文件夹中的文档数量小于m的情况下，返回所有文档的文档标识；

第二反馈单元，用于在关键词文件夹中的文档数量大于或等于m的情况下，返回分数排序在前的m个文档的文档标识。

可选地，该装置还可以包括：

建立单元，用于在将文档存储至关键词对应的关键词文件夹中之后，建立文档的标识、文档的存储路径和关键词之间的映射关系；

第二存储单元，用于将映射关系存储至映射表中；

搜索单元，用于在接收用户输入的检索关键词之后，在映射表中搜索检索关键词映射的文档标识；

对比单元，用于在搜索检索关键词对应的关键词文件夹之后，根据文档标识，对比在关键词文件夹中的搜索结果和在映射表中的搜索结果；

第三反馈单元，用于除返回在关键词文件夹中搜索到的文档标识之外，返回在关键词文件夹中未搜索到、且在映射表中搜索到的文档标识。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文件管理方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述文件管理方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述文件管理方法。

本发明实施例中，通过获取用户上传邮件中文档的请求；对文档进行分词，得到文档的分词结果；通过词频逆文档频率方法提取文档中的关键词；将文档存储至关键词对应的关键词文件夹中，与现有技术中直接保存在数据库中的技术方案相比，通过词频逆文档频率方法提取关键词，可以基于关键词更快速地在对应文件夹中找到相关文档，提高查找邮件附件的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种文件管理方法的流程示意图一；

图2为本发明实施例中提供的一种文件管理方法的流程示意图二；

图3为本发明实施例中提供的一种文件管理方法的流程示意图三；

图4为本发明实施例中提供的一种文件管理方法的流程示意图四；

图5为本发明实施例中提供的一种文件管理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

需要说明的是，本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

本发明实施例中提供了一种文件管理方法，图1示出了本发明一个实施例提供的文件管理方法的流程示意图一。如图1所示，该方法可以包括如下步骤：

步骤101，获取用户上传邮件中文档的请求。

用户在使用邮箱时，存在将邮件中的文档存储起来，并在需要时进行检索查询的需求。在本发明实施例中，如果用户需要保存邮件中的附件文档，可以发出请求，例如，用户可以点击邮箱客户端中的指定按钮，一键上传文档。

步骤102，对文档进行分词，得到文档的分词结果。

在接收到请求之后，为了便于对文档管理，可以对文档进行预处理，至少包括对文档进行分词。可选地，可以使用开源的jieba分词算法，具体可以支持三种分词模式，分别为精确模式、全模式和搜索引擎模式。在分词之后，可以得到分词结果，可选地，在分词之后，还可以执行其它的预处理步骤，例如去除停用词和词性标注。停用词主要包括一些副词、形容词及一些连接词。通过对照停用词表，去除掉文档中的停用词，可以更好地训练分类模型以达到更好地分类效果。在分词后可以判断词性(动词、名词、形容词、副词…)，对词性进行标注，可以辅助后续关键词的提取。上述分词方法可以在jieba分词算法中设置参数实现。

步骤103，通过词频逆文档频率方法提取文档中的关键词。

关键词提取是文本挖掘领域一个很重要的部分，通过对文本提取关键次可以理解整篇文档的思想，进一步应用到文本的推荐、文本的搜索和文本的分类。

相关技术中的关键词的提取方法可以分为有监督和无监督两类，如图2所示，有监督算法将关键词抽取问题转换为判断每个候选关键词是否为关键词的二分类问题，需要一个已经标注关键词的文档集合训练分类模型。然而标注训练集非常费时费力，所以无监督算法更为常用。无监督算法不需要人工标注的训练集，利用某些方法发现文本中比较重要的词作为关键词，进行关键词抽取。词重要性的衡量有多种方式：基于文本统计特征、基于词图模型和基于主题模型，词频逆文档频率方法(Term Frequency–Inverse DocumentFrequency，TF-IDF)、关键词提取和摘要算法(TextRank)和隐含狄利克雷分布(LatentDirichlet Allocation，LDA)分别是这几种不同方式的代表。

TF-IDF是一种用于信息检索(information retrieval)与文本挖掘(textmining)的常用加权技术，是一种用于信息检索与数据挖掘的常用无监督关键词提取方法，TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)，参见如下公式：

TF-IDF＝词频(TF)×逆文档频率(IDF)

基于上述公式可以看出，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语料库中出现次数成反比。一个词的TF-IDF值非常高，说明这个词比较少见，但是它在这篇文章中多次出现，那么这个词就非常可能是我们需要的关键词。也即，字词的重要性与其在本文件中的词频成正比，和其在语料库中的词频成反比。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

通过TF-IDF方法可以提取出文档中的关键词。

步骤104，将文档存储至关键词对应的关键词文件夹中。

在提取出关键词之后，可以将文档存储至关键词对应的关键词文件夹中，每个关键词文件夹中可以包括多个文件，每个文档可以对应于一个或多个关键词。具体而言，可以建设文档和关键词支之间的映射，建立起映射之后，可以将映射关系写入数据库。如果已经存在关键词文件夹，则可以直接保存在关键词文件夹中，如果不存在，则可以新建文件夹，然后再将文件存储进新建的关键词文件夹。

具体来说，通过词频逆文档频率方法提取文档中的关键词的步骤可以包括如下步骤：

通过词频逆文档频率方法计算文档中每个分词的分数，其中，分数用于表示对应分词的关键程度，然后，提取分数的排序在前的n(n为大于等于1的整数)个分词，得到关键词。

相应地，将文档存储至关键词对应的关键词文件夹中的步骤，可以是在分数最高的关键词对应的关键词文件夹中存储文档，并在其余关键词对应的关键词文件夹中存储文档的存储路径。

这样，每个文档可以对应于至少一个关键词，如果对应于多个关键词，则可以只在一个关键词文件夹中存储原文档，而在其余的文件夹中存储该文档的存储路径，从而减少存储压力。

在文档保存过程中，会根据文档内容提取关键词，然后维护关键词和文档标题的映射表，并将文档自动存放在关键词对应的目录下。其次，再查找过程中，根据关键词快速定位文档路径进行查找，为避免漏查，补充全文档路径全文检索方法。最终，通过TF-IDF关键词提取和匹配方法，实现工作文档的高效管理。

本发明将基于TF-IDF提取文档的关键词进行文档分类。在获取举报内容文本后，首先对其进行预处理，将句子规范化后提取关键词，然后维护关键词和文档标题的映射表，并将文档自动存放在关键词对应的目录下。其次，再查找过程中，根据关键词快速定位文档路径进行查找，为避免漏查，补充全文档路径全文检索方法。

可选地，在步骤104将文档存储至关键词对应的关键词文件夹中之后，还可以包括如图3所示的如下步骤：

步骤301，接收用户输入的检索关键词；

步骤302，搜索检索关键词对应的关键词文件夹；

步骤303，在关键词文件夹中的文档数量小于m的情况下，返回所有文档的文档标识；m为大于等于1的整数；

步骤304，在关键词文件夹中的文档数量大于或等于m的情况下，返回分数排序在文档的文档标识。

可选地，在将文档存储至关键词对应的关键词文件夹中之后，还可以建立文档的标识、文档的存储路径和关键词之间的映射关系，并将映射关系存储至映射表中。相应地，在接收用户输入的检索关键词之后，还可以在映射表中搜索检索关键词映射的文档标识，在搜索检索关键词对应的关键词文件夹之后，还可以根据文档标识，对比在关键词文件夹中的搜索结果和在映射表中的搜索结果，此外，除返回在关键词文件夹中搜索到的文档标识之外，还可以返回在关键词文件夹中未搜索到、且在映射表中搜索到的文档标识。

在一个可选的实施方式中，本发明实施例提供的文件管理方法可以通过文件管理装置执行，该装置可以包括应用场景选择模块、文本获取模块、文本预处理模块、关键词提取模块以及关键词和路径映射模块。

应用场景选择模块可以用于识别用户当前操作属于存储或者查询文档的场景，同时为其提供关键词查询或者输入功能。文本获取模块实现的步骤属于数据准备步骤，目的是获取待存储的文档中的文本数据。文本预处理模块可以用于对文本进行分词以及其他一些处理，使文本信息更容易被理解，处理完成的文本信息作为输入进行关键词提取。关键词提取模块可以用于通过TF-IDF方法提取前N(N为大于等于1的整数)个关键词用于后续路径和关键词映射表的维护。关键词和路径映射模块可以用于提供关键词和文档存储路径的映射关系，为后续存储或者查询文档提供路由。

进一步来说，文本预处理模块的输入可以是文本获取模块中获取到的原文本，由于原文本可能存在冗余、难以理解等问题，该模块主要是对原始文本进行预处理，使其提取到的关键词更加准确。文本预处理可以包括中文文本分词、去停用词和词性标注三个步骤。一般情况下中文都是由标点符号隔开的句子组成，句子中间没有任何空格，在文本分词步骤中，可以使用jieba分词工具将举报内容文本分割为单词，另外还需要对文本进行清洗，根据停用词表去除举报内容文本句子中的停用词，停用词主要包括一些副词、形容词及一些连接词。最后是对单词进行词性标注，在分词后判断词性(动词、名词、形容词、副词…)，这在jieba分词的时候设置参数就能获取。该模块的输出是经过预处理得到的分词结果。

关键词提取模块的输入是预处理过后的文本，该模块主要用于构建TF-IDF方法，统计各个词的词频和逆向词频，设置输出的关键词个数。该模块的输出是设置好主要参数的关键词和TF-IDF值(分数)。

路径和关键词映射模块的输入是设置好主要参数的关键词，以及文档存储的根目录。将文档存储在根目录下关键词对应的子目录下，或者在根目录下关键词对应的子目录下查找和关键词TF-IDF最高的文档，帮助中心更快更高效地处理文档，及时对相关邮件做出反馈，推动中心工作高效运转。

整体的流程可以如图4所示，首先通过应用场景选择模块，选择当前应用场景为“文档保存”或者“文档查询”。在文档保存时，可以选择是否自定义关键词(key)，如果是则手动输入关键词，否则采用TF-IDF自动生成关键词。进而建立关键词和文档标题的映射关系，并将映射关系写入数据库。在存储映射关系式，首先确认是否已存在关键词文件夹，如果存在，则存储文件，否则新建关键词文件夹。在选择文档查询时，可以输入关键词key1，首先判断key1的文件夹是否存在，在确定key1文件夹不存在时，可以指定文档全路径全文检索。如果存在key1的文件夹，则判断该文件夹中文件数目是否小于10，如果是则直接打开，如果否则需要继续输入关键词key2，进一步判断key2的文件夹是否存在，重复执行直至文件key1∩key2∩……keyj(j为大于等于1的整数)的文件数目小于10。

本发明实施例中还提供了一种文件管理装置，如下面的实施例所述。由于该装置解决的问题及原理与本发明实施例提供的文件管理方法相似，因此该装置的实施可以参见文件管理方法的实施，重复之处不再赘述。

如图5所示，该装置可以包括获取单元10，分词单元20，提取单元30和第一存储单元40。

获取单元10用于获取用户上传邮件中文档的请求；

分词单元20用于对文档进行分词，得到文档的分词结果；

提取单元30用于通过词频逆文档频率装置提取文档中的关键词；

第一存储单元40用于将文档存储至关键词对应的关键词文件夹中。

可选地，提取单元30可以包括：

提取子单元，用于提取分数的排序在前的n个分词，得到关键词；n为大于等于1的整数；

第一存储单元40还用于在分数最高的关键词对应的关键词文件夹中存储文档，并在其余关键词对应的关键词文件夹中存储文档的存储路径。

可选地，该装置还可以包括：

搜索单元，用于搜索检索关键词对应的关键词文件夹；

第一反馈单元，用于在关键词文件夹中的文档数量小于m的情况下，返回所有文档的文档标识；m为大于等于1的整数；

可选地，该装置还可以包括：

第二存储单元，用于将映射关系存储至映射表中；

本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定，本申请获取的个人、客户和人群等相关的个人身份数据、操作数据、行为数据等多种类型的数据，均已获得授权。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文件管理方法，其特征在于，包括：

获取用户上传邮件中文档的请求；

对所述文档进行分词，得到所述文档的分词结果；

通过词频逆文档频率方法提取所述文档中的关键词；

将所述文档存储至所述关键词对应的关键词文件夹中。

2.如权利要求1所述的方法，其特征在于，所述通过词频逆文档频率方法提取所述文档中的关键词，包括：

通过所述词频逆文档频率方法计算所述文档中每个分词的分数；所述分数用于表示对应分词的关键程度；

提取所述分数的排序在前的n个分词，得到所述关键词；n为大于等于1的整数；

所述将所述文档存储至所述关键词对应的关键词文件夹中，包括：

在所述分数最高的关键词对应的关键词文件夹中存储所述文档，并在其余关键词对应的关键词文件夹中存储所述文档的存储路径。

3.如权利要求2所述的方法，其特征在于，在将所述文档存储至所述关键词对应的关键词文件夹中之后，还包括：

接收用户输入的检索关键词；

搜索所述检索关键词对应的关键词文件夹；

在所述关键词文件夹中的文档数量小于m的情况下，返回所有文档的文档标识；m为大于等于1的整数；

在所述关键词文件夹中的文档数量大于或等于m的情况下，返回所述分数排序在前的m个文档的文档标识。

4.如权利要求3所述的方法，其特征在于，在将所述文档存储至所述关键词对应的关键词文件夹中之后，还包括：

建立所述文档的标识、所述文档的存储路径和所述关键词之间的映射关系；

将所述映射关系存储至映射表中；

在接收用户输入的检索关键词之后，还包括：

在所述映射表中搜索所述检索关键词映射的文档标识；

在搜索所述检索关键词对应的关键词文件夹之后，还包括：

根据所述文档标识，对比在所述关键词文件夹中的搜索结果和在所述映射表中的搜索结果；

除返回在所述关键词文件夹中搜索到的文档标识之外，返回在所述关键词文件夹中未搜索到、且在所述映射表中搜索到的文档标识。

5.一种文件管理装置，其特征在于，包括：

获取单元，用于获取用户上传邮件中文档的请求；

分词单元，用于对所述文档进行分词，得到所述文档的分词结果；

提取单元，用于通过词频逆文档频率装置提取所述文档中的关键词；

第一存储单元，用于将所述文档存储至所述关键词对应的关键词文件夹中。

6.如权利要求5所述的装置，其特征在于，所述提取单元包括：

计算子单元，用于通过所述词频逆文档频率装置计算所述文档中每个分词的分数；所述分数用于表示对应分词的关键程度；

提取子单元，用于提取所述分数的排序在前的n个分词，得到所述关键词；n为大于等于1的整数；

所述第一存储单元还用于在所述分数最高的关键词对应的关键词文件夹中存储所述文档，并在其余关键词对应的关键词文件夹中存储所述文档的存储路径。

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

接收单元，用于在将所述文档存储至所述关键词对应的关键词文件夹中之后，接收用户输入的检索关键词；

搜索单元，用于搜索所述检索关键词对应的关键词文件夹；

第一反馈单元，用于在所述关键词文件夹中的文档数量小于m的情况下，返回所有文档的文档标识；m为大于等于1的整数；

第二反馈单元，用于在所述关键词文件夹中的文档数量大于或等于m的情况下，返回所述分数排序在前的m个文档的文档标识。

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

建立单元，用于在将所述文档存储至所述关键词对应的关键词文件夹中之后，建立所述文档的标识、所述文档的存储路径和所述关键词之间的映射关系；

第二存储单元，用于将所述映射关系存储至映射表中；

搜索单元，用于在接收用户输入的检索关键词之后，在所述映射表中搜索所述检索关键词映射的文档标识；

对比单元，用于在搜索所述检索关键词对应的关键词文件夹之后，根据所述文档标识，对比在所述关键词文件夹中的搜索结果和在所述映射表中的搜索结果；

第三反馈单元，用于除返回在所述关键词文件夹中搜索到的文档标识之外，返回在所述关键词文件夹中未搜索到、且在所述映射表中搜索到的文档标识。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至4任一所述方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至4任一所述方法。