CN111639056A - 保存文件的方法及装置 - Google Patents

保存文件的方法及装置 Download PDF

Info

Publication number
CN111639056A
CN111639056A CN202010507436.5A CN202010507436A CN111639056A CN 111639056 A CN111639056 A CN 111639056A CN 202010507436 A CN202010507436 A CN 202010507436A CN 111639056 A CN111639056 A CN 111639056A
Authority
CN
China
Prior art keywords
keywords
name
saved
file
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010507436.5A
Other languages
English (en)
Other versions
CN111639056B (zh
Inventor
张媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010507436.5A priority Critical patent/CN111639056B/zh
Publication of CN111639056A publication Critical patent/CN111639056A/zh
Application granted granted Critical
Publication of CN111639056B publication Critical patent/CN111639056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种保存文件的方法及装置中,该方法包括:通过获取待保存文件的名称;并提取待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字;然后,通过关联度分析得到每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度;按照每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度高低进行排序,生成待展示的文件夹列表;最终,向用户展示待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与待保存文件名称中的关键字的关联度;其中,文件夹列表用于提供给用户,由用户自行选择适合保存待保存文件信息的文件夹。以达到在用户频繁保存文件时,提高保存效率的目的。

Description

保存文件的方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种保存文件的方法及装置。
背景技术
近年来,随着经济水平不断提高,计算机得到快速发展和广泛应用,无论是上班族,还是学生族,都有可能在邮件、MSN等通讯工具中收到大量的文件。
现有技术中,在用户对接收到的文件进行保存的过程中,用户针对每一个文件都需要繁琐的点开层层路径,将文件保存至自己需要的路径下。但是如果,用户需要下载较多的文件时,需要进行大量的重复操作,既消耗了用户大量的时间和精力,显得效率太过低下,又容易造成保存出错。
因此,亟需一种保存文件的方法,在用户频繁保存文件时,提高保存效率。
发明内容
有鉴于此,本申请提供一种保存文件的方法及装置,用于在用户频繁保存文件时,提高保存效率。
本申请第一方面提供了一种保存文件的方法,包括:
获取待保存文件信息;其中,所述待保存文件信息包括待保存文件的名称;
提取所述待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字;
对所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字进行关联度分析,得到每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度;其中,所述关联度用于表示所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的相似度;
按照所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度高低,对所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度进行排序,生成待展示的文件夹列表;
向用户展示所述待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与所述待保存文件名称中的关键字的关联度;其中,所述文件夹列表用于提供给用户,由用户自行选择适合保存所述待保存文件信息的文件夹。
可选的,所述提取所述待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字,包括:
利用词典分词算法对所述待保存文件的名称、以及数据库中每一个路径下的每一个文件夹的名称进行分词拆分,得到所述待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词;
将所述待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词,作为所述待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字。
可选的,所述对所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字进行关联度分析,得到每一个文件夹的名称中的关键字与所述保存文件的名称中的关键字的关联度,包括:
通过预设的算法计算所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字的相似度;其中,所述预设的算法为基于向量空间模型的BM25算法;
将所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字的相似度,作为所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的的关键字的关联度。
可选的,所述向用户展示所述待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度之后,还包括:
接收用户的针对展示的所述待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度的反馈信息;其中,所述反馈信息用于表明用户所选择的文件夹;
按照所述反馈信息将所述待保存文件信息存储至用户所选择的文件夹。
可选的,所述按照所述反馈信息将所述待保存文件信息存储至用户所选择的文件夹之后,还包括:
将用户所选择的文件夹的名称中的关键字与所述待保存文件的名称中的关键字,更新至所述基于向量空间模型的BM25算法中。
本申请第二方面提供了一种保存文件的装置,包括:
获取单元,用于获取待保存文件信息;其中,所述待保存文件信息包括待保存文件的名称;
提取单元,用于提取所述待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字;
分析单元,用于对所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字进行关联度分析,得到每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度;其中,所述关联度用于表示所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的相似度;
生成单元,用于按照所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度高低,对所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度进行排序,生成待展示的文件夹列表;
展示单元,用于向用户展示所述待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与所述待保存文件名称中的关键字的关联度;其中,所述文件夹列表用于提供给用户,由用户自行选择适合保存所述待保存文件信息的文件夹。
可选的,所述提取单元,包括:
拆分单元,用于利用词典分词算法对所述待保存文件的名称、以及数据库中每一个路径下的每一个文件夹的名称进行分词拆分,得到所述待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词;
第一确认单元,用于将所述待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词,作为所述待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字。
可选的,所述分析单元,包括:
计算单元,用于通过预设的算法计算所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字的相似度;其中,所述预设的算法为基于向量空间模型的BM25算法;
第二确认单元,用于将所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字的相似度,作为所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的的关键字的关联度。
可选的,所述保存文件的装置,还包括:
接收单元,用于接收用户的针对展示的所述待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度的反馈信息;其中,所述反馈信息用于表明用户所选择的文件夹;
存储单元,用于按照所述反馈信息将所述待保存文件信息存储至用户所选择的文件夹。
可选的,所述保存文件的装置,还包括:
更新单元,用于将用户所选择的文件夹的名称中的关键字与所述待保存文件的名称中的关键字,更新至所述基于向量空间模型的BM25算法中。
由以上方案可知,本申请提供的一种保存文件的方法及装置中,通过获取待保存文件信息;其中,所述待保存文件信息包括待保存文件的名称;之后,提取所述待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字;然后,对所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字进行关联度分析,得到每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度;其中,所述关联度用于表示所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的相似度;并按照所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度高低,对所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度进行排序,生成待展示的文件夹列表;最终,向用户展示所述待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与所述待保存文件名称中的关键字的关联度;其中,所述文件夹列表用于提供给用户,由用户自行选择适合保存所述待保存文件信息的文件夹。以达到在用户频繁保存文件时,提高保存效率的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种保存文件的方法的具体流程图;
图2为本申请另一实施例提供的一种保存文件的方法的具体流程图;
图3为本申请另一实施例提供的一种保存文件的方法的具体流程图;
图4为本申请另一实施例提供的一种保存文件的方法的具体流程图;
图5为本申请另一实施例提供的一种保存文件的装置的示意图;
图6为本申请另一实施例提供的一种提取单元的示意图;
图7为本申请另一实施例提供的一种分析单元的示意图;
图8为本申请另一实施例提供的一种保存文件的装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系,而术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种保存文件的方法,如图1所示,具体包括以下步骤:
S101、获取待保存文件信息。
其中,待保存文件信息包括待保存文件的名称。
具体的,对用户需要进行保存的文件进行解析,获取得到待保存文件信息。
S102、提取待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字。
需要说明的是,由于文件得名称通常概括了整个文件的内容,对待保存文件的名称、以及数据库中每一个路径下的每一个文件夹的名称,进行关键字提取即可。但是,如果为了提取得到的关键字更加准确,也可以采用对整个文件内容进行全文的关键字提取。可以根据实际应用情况,进行实际的选择,因此,此处不做限定。
可选的,在本申请的另一实施例中,步骤S102的一种实施方式,如图2所示,包括:
S201、利用词典分词算法对待保存文件的名称、以及数据库中每一个路径下的每一个文件夹的名称进行分词拆分,得到待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词。
需要说明的是,词典分词算法可以是但不限于基于词典的最大匹配算法,也可以称之为最长词优先匹配算法。以提取待保存文件的名称的分词为例,从待保存文件的名称的最左侧开始截取预设长度的字串,作为第一候选字串;其中,预设长度不能超过待保存文件的名称长度;在预先设定的词典中,查询是否包括上述第一候选字串,如果在预先设定的词典中,包括上述第一候选字串,则选取待保存文件的名称除去候选字串的部分作为新的候选字串,可以理解为第二候选字串,将待输出字串加上第一候选字串后,作为新的待输出字串;直至待保存文件的名称都已被截取结束,此时将最新的待输出字串,作为输出字串,即得到待保存文件的名称的分词。如果在预先设定的词典中,不包括上述第一候选字串,则将第一候选字串的最右边的一个字去除,然后判断去除掉最右边的一个字的第一候选字串,是否为单字;如果不是单字,则返回判断去除掉最右边的一个字的第一候选字串,是否在预先设定的词典中。同理,数据库中每一个路径下的每一个文件夹的名称的分词得到的过程,可以参见上述提取待保存文件的名称的分词的方法,此处不再赘述。
如果是对整个待保存文件中的文件内容进行全文的关键字提取,可以采用向量空间模型(VectorSpaceModel,VSM)进行关键字提取。假若文档D中包含词语t1,t2,…,tN,则文档表示为D(t1,t2,…,tN)。由于文档中词语对文档的重要程度不同,并且词语的重要程度对文本相似度的计算有很大的影响,因而可对文档中的每个词语赋以一个权值w,以表示该词的权重,其表示如下:D(t1,w1;t2,w2;…,tN,wN),可简记为D(w1,w2,…,wN),此时的wk即为词语tk的权重,1≤k≤N。可以看出,通过VSM可以将待保存文件中的每一个词都表示成了向量的形式。因此,可以通过向量进行判断待保存文件中的哪一个词为关键词;或待保存文件中的哪一个字为关键字。
S202、将待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词,作为待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字。
具体的,将步骤S201中拆分得到的,待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词,作为待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字输出。
S103、对待保存文件的名称中的关键字与每一个文件夹的名称中的关键字进行关联度分析,得到每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度。
其中,关联度用于表示每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的相似度。
具体的,可以通过对比待保存文件的名称中的关键字与每一个文件夹的名称中的关键字是否一致,来得到每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度;例如待保存文件的名称中的关键字为ABCD,而文件夹的名称中的关键字为BRKF,可以看出待保存文件的名称中的关键字与文件夹的名称中的关键字都包含B,因此可以得出该待保存文件中的名称的关键字与文件夹中的名称的关键字的关联度为25%;同样,也可以采用通过对比待保存文件的名称中的关键字与每一个文件夹的名称中的关键字的语义是否相似,来得到每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度。方法十分多样化,可以根据实际情况进行选择,此处不做限定。
可选的,在本申请的另一实施例中,步骤S103的一种实施方式,如图3所示,包括:
S301、通过预设的算法计算待保存文件的名称中的关键字与每一个文件夹的名称中的关键字的相似度。
其中,预设的算法为基于向量空间模型的BM25算法。BM25算法的一般性公式为:
Figure BDA0002527024240000081
公式中的Q为表示待保存文件名称,qi表示待保存文件名称中的关键字,d标识文件夹的名称,Wi表示关键字qi的权重,R(qi,d)表示关键字qi与文档d的相似性得分。其中,对于Wi进行定义的方式十分多样化,此处不再赘述。
其中,R(qi,d),在BM25中的相关性得分的一般形式为:
Figure BDA0002527024240000082
Figure BDA0002527024240000083
公式中的,其中,k1,k2,b为调节因子,可以通常根据经验设置,一般情况下k1=2,b=0.75;fi为qi在d中的出现频率,qfi为qi在Query中的出现频率。dl为文档d的长度,avgdl为所有文档的平均长度。由于绝大部分情况下,qi在Query中只会出现一次,即qfi=1,因此公式可以简化为:
Figure BDA0002527024240000091
从上述K的定义中可以看到,参数b的作用是调整文档长度对相关性影响的大小。b越大,文档长度的对相关性得分的影响越大,反之越小。而文档的相对长度越长,K值将越大,则相关性得分会越小。可以理解为,当文档较长时,包含qi的机会越大,因此,同等fi的情况下,长文档与qi的相关性应该比短文档与qi的相关性弱。
综上,BM25算法的相关性得分公式可总结为:
Figure BDA0002527024240000092
具体的,可以采用BM25算法的相关性得分公式,计算待保存文件的名称中的关键字与每一个文件夹的名称中的关键字的相似度。
S302、将待保存文件的名称中的关键字与每一个文件夹的名称中的关键字的相似度,作为待保存文件的名称中的关键字与每一个文件夹的名称中的的关键字的关联度。
具体的,将步骤S301中计算得到的待保存文件的名称中的关键字与每一个文件夹的名称中的关键字的相似度,作为待保存文件的名称中的关键字与每一个文件夹的名称中的的关键字的关联度。
S104、按照每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度高低,对每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度进行排序,生成待展示的文件夹列表。
S105、向用户展示待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与待保存文件名称中的关键字的关联度。
其中,文件夹列表用于提供给用户,由用户自行选择适合保存待保存文件信息的文件夹。
需要说明的是,预设个数小于等于数据库中所有路径下的所有文件夹个数。
可选的,在本申请的另一实施例中,在步骤S105之后的一种实施方式,如图4所示,还包括:
S401、接收用户的针对展示的待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度的反馈信息。
其中,反馈信息用于表明用户所选择的文件夹。
需要说明的是,用户可以不选择文件夹列表中的文件夹。即用户可以不将待保存文件保存至步骤105中推荐的任意一个文件夹。
S402、按照反馈信息将待保存文件信息存储至用户所选择的文件夹。
可选的,在本申请的另一实施例中,在步骤S402之后的一种实施方式,还包括:
将用户所选择的文件夹的名称中的关键字与待保存文件的名称中的关键字,更新至基于向量空间模型的BM25算法中。
具体的,无论用户选择的文件夹是否为步骤105中推荐的文件夹,都将用户最终的选择结果的文件夹的名称中的关键字与待保存文件的名称中的关键字的对应关系,更新数据库该文件夹的关键字,将新保存的文件的关键字加入到文件夹中的关键字库中。并根据向量空间模型算法进行路径文件夹下关键字的归类,将相似度较高的关键词合并,并剔除相似度较低,如低于阈值的关键字,不断更新关键字库。以此更新基于向量空间模型的BM25算法。使得后续的计算越来越准确。
由以上方案可知,本申请提供的一种保存文件的方法中,首先,通过获取待保存文件信息;其中,待保存文件信息包括待保存文件的名称;之后,提取待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字;然后,对待保存文件的名称中的关键字与每一个文件夹的名称中的关键字进行关联度分析,得到每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度;其中,关联度用于表示每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的相似度;并按照每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度高低,对每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度进行排序,生成待展示的文件夹列表;最终,向用户展示待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与待保存文件名称中的关键字的关联度;其中,文件夹列表用于提供给用户,由用户自行选择适合保存待保存文件信息的文件夹。以达到在用户频繁保存文件时,提高保存效率的目的。
本申请的另一实施例提供了一种保存文件的装置,如图5所示,包括:
获取单元501,用于获取待保存文件信息。
其中,待保存文件信息包括待保存文件的名称。
提取单元502,用于提取待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字。
可选的,在本申请的另一实施例中,提取单元502的一种实施方式,如图6所示,包括:
拆分单元601,用于利用词典分词算法对待保存文件的名称、以及数据库中每一个路径下的每一个文件夹的名称进行分词拆分,得到待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词。
第一确认单元602,用于将待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词,作为待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图2所示,此处不再赘述。
分析单元503,用于对待保存文件的名称中的关键字与每一个文件夹的名称中的关键字进行关联度分析,得到每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度。
其中,关联度用于表示每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的相似度。
可选的,在本申请的另一实施例中,分析单元503的一种实施方式,如图7所示,包括:
计算单元701,用于通过预设的算法计算待保存文件的名称中的关键字与每一个文件夹的名称中的关键字的相似度。
其中,预设的算法为基于向量空间模型的BM25算法。
第二确认单元702,用于将待保存文件的名称中的关键字与每一个文件夹的名称中的关键字的相似度,作为待保存文件的名称中的关键字与每一个文件夹的名称中的的关键字的关联度。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图3所示,此处不再赘述。
生成单元504,用于按照每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度高低,对每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度进行排序,生成待展示的文件夹列表。
展示单元505,用于向用户展示待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与待保存文件名称中的关键字的关联度。
其中,文件夹列表用于提供给用户,由用户自行选择适合保存待保存文件信息的文件夹。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图1所示,此处不再赘述。
可选的,在本申请的另一实施例中,保存文件的装置,如图8所示,还包括:
接收单元801,用于接收用户的针对展示的待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度的反馈信息。
其中,反馈信息用于表明用户所选择的文件夹。
存储单元802,用于按照反馈信息将待保存文件信息存储至用户所选择的文件夹。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图4所示,此处不再赘述。
可选的,在本申请的另一实施例中,保存文件的装置,还包括:
更新单元,用于将用户所选择的文件夹的名称中的关键字与待保存文件的名称中的关键字,更新至基于向量空间模型的BM25算法中。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,此处不再赘述。
由以上方案可知,本申请提供的一种保存文件的装置中,首先,通过获取单元501获取待保存文件信息;其中,待保存文件信息包括待保存文件的名称;之后,利用提取单元502提取待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字;然后,分析单元503对待保存文件的名称中的关键字与每一个文件夹的名称中的关键字进行关联度分析,得到每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度;其中,关联度用于表示每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的相似度;并利用生成单元504按照每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度高低,对每一个文件夹的名称中的关键字与待保存文件的名称中的关键字的关联度进行排序,生成待展示的文件夹列表;最终,展示单元505向用户展示待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与待保存文件名称中的关键字的关联度;其中,文件夹列表用于提供给用户,由用户自行选择适合保存待保存文件信息的文件夹。以达到在用户频繁保存文件时,提高保存效率的目的。
在本申请公开的上述实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,直播设备,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种保存文件的方法,其特征在于,包括:
获取待保存文件信息;其中,所述待保存文件信息包括待保存文件的名称;
提取所述待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字;
对所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字进行关联度分析,得到每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度;其中,所述关联度用于表示所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的相似度;
按照所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度高低,对所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度进行排序,生成待展示的文件夹列表;
向用户展示所述待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与所述待保存文件名称中的关键字的关联度;其中,所述文件夹列表用于提供给用户,由用户自行选择适合保存所述待保存文件信息的文件夹。
2.根据权利要求1所述的方法,其特征在于,所述提取所述待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字,包括:
利用词典分词算法对所述待保存文件的名称、以及数据库中每一个路径下的每一个文件夹的名称进行分词拆分,得到所述待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词;
将所述待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词,作为所述待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字。
3.根据权利要求1所述的方法,其特征在于,所述对所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字进行关联度分析,得到每一个文件夹的名称中的关键字与所述保存文件的名称中的关键字的关联度,包括:
通过预设的算法计算所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字的相似度;其中,所述预设的算法为基于向量空间模型的BM25算法;
将所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字的相似度,作为所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的的关键字的关联度。
4.根据权利要求3所述的方法,其特征在于,所述向用户展示所述待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度之后,还包括:
接收用户的针对展示的所述待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度的反馈信息;其中,所述反馈信息用于表明用户所选择的文件夹;
按照所述反馈信息将所述待保存文件信息存储至用户所选择的文件夹。
5.根据权利要求4所述的方法,其特征在于,所述按照所述反馈信息将所述待保存文件信息存储至用户所选择的文件夹之后,还包括:
将用户所选择的文件夹的名称中的关键字与所述待保存文件的名称中的关键字,更新至所述基于向量空间模型的BM25算法中。
6.一种保存文件的装置,其特征在于,包括:
获取单元,用于获取待保存文件信息;其中,所述待保存文件信息包括待保存文件的名称;
提取单元,用于提取所述待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字;
分析单元,用于对所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字进行关联度分析,得到每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度;其中,所述关联度用于表示所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的相似度;
生成单元,用于按照所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度高低,对所述每一个文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度进行排序,生成待展示的文件夹列表;
展示单元,用于向用户展示所述待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与所述待保存文件名称中的关键字的关联度;其中,所述文件夹列表用于提供给用户,由用户自行选择适合保存所述待保存文件信息的文件夹。
7.根据权利要求6所述的装置,其特征在于,所述提取单元,包括:
拆分单元,用于利用词典分词算法对所述待保存文件的名称、以及数据库中每一个路径下的每一个文件夹的名称进行分词拆分,得到所述待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词;
第一确认单元,用于将所述待保存文件的名称的分词、以及数据库中每一个路径下的每一个文件夹的名称的分词,作为所述待保存文件的名称中的关键字、以及数据库中每一个路径下的每一个文件夹的名称中的关键字。
8.根据权利要求6所述的装置,其特征在于,所述分析单元,包括:
计算单元,用于通过预设的算法计算所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字的相似度;其中,所述预设的算法为基于向量空间模型的BM25算法;
第二确认单元,用于将所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的关键字的相似度,作为所述待保存文件的名称中的关键字与所述每一个文件夹的名称中的的关键字的关联度。
9.根据权利要求8所述的装置,其特征在于,还包括:
接收单元,用于接收用户的针对展示的所述待展示的文件夹列表中的预设个数的文件夹的名称中的关键字与所述待保存文件的名称中的关键字的关联度的反馈信息;其中,所述反馈信息用于表明用户所选择的文件夹;
存储单元,用于按照所述反馈信息将所述待保存文件信息存储至用户所选择的文件夹。
10.根据权利要求9所述的装置,其特征在于,还包括:
更新单元,用于将用户所选择的文件夹的名称中的关键字与所述待保存文件的名称中的关键字,更新至所述基于向量空间模型的BM25算法中。
CN202010507436.5A 2020-06-05 2020-06-05 保存文件的方法及装置 Active CN111639056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010507436.5A CN111639056B (zh) 2020-06-05 2020-06-05 保存文件的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010507436.5A CN111639056B (zh) 2020-06-05 2020-06-05 保存文件的方法及装置

Publications (2)

Publication Number Publication Date
CN111639056A true CN111639056A (zh) 2020-09-08
CN111639056B CN111639056B (zh) 2023-10-13

Family

ID=72330759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010507436.5A Active CN111639056B (zh) 2020-06-05 2020-06-05 保存文件的方法及装置

Country Status (1)

Country Link
CN (1) CN111639056B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331245A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム
JP2015076064A (ja) * 2013-10-11 2015-04-20 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラムならびに記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331245A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム
JP2015076064A (ja) * 2013-10-11 2015-04-20 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラムならびに記憶媒体

Also Published As

Publication number Publication date
CN111639056B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN102799647B (zh) 网页去重方法和设备
CN103425687A (zh) 一种基于关键词的检索方法和系统
US9898464B2 (en) Information extraction supporting apparatus and method
CN110377558B (zh) 文档查询方法、装置、计算机设备和存储介质
CN107577755B (zh) 一种搜索方法
CN107844493B (zh) 一种文件关联方法及系统
CN110765761A (zh) 基于人工智能的合同敏感词校验方法、装置及存储介质
CN109299235B (zh) 知识库搜索方法、装置及计算机可读存储介质
CN111209372B (zh) 一种关键词的确定方法、装置、电子设备和存储介质
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
CN104268175A (zh) 一种数据搜索的装置及其方法
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
JP2014123286A (ja) 文書分類装置及びプログラム
CN110866102A (zh) 检索处理方法
CN111680152B (zh) 目标文本的摘要提取方法及装置、电子设备、存储介质
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN108388556B (zh) 同类实体的挖掘方法及系统
KR101753768B1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
CN112487159B (zh) 检索方法、检索装置及计算机可读存储介质
CN115563515A (zh) 文本相似性检测方法、装置、设备及存储介质
CN111639056B (zh) 保存文件的方法及装置
CN115292478A (zh) 一种推荐搜索内容的方法、装置、设备和存储介质
CN115146030A (zh) 一种基于知识图谱的公务文书写作方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant