CN109063105A - 文件存储方法、装置、计算机设备和存储介质 - Google Patents

文件存储方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109063105A
CN109063105A CN201810846831.9A CN201810846831A CN109063105A CN 109063105 A CN109063105 A CN 109063105A CN 201810846831 A CN201810846831 A CN 201810846831A CN 109063105 A CN109063105 A CN 109063105A
Authority
CN
China
Prior art keywords
file
stored
files
similarity
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810846831.9A
Other languages
English (en)
Inventor
陈小帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201810846831.9A priority Critical patent/CN109063105A/zh
Publication of CN109063105A publication Critical patent/CN109063105A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文件存储方法、装置、计算机设备和存储介质,该文件存储方法,通过计算待存储文件与已存储文件中各文件的相似度;根据所述相似度,从已存储文件中选择待存储文件的相似文件;获取所述相似文件的存储路径,并将所述相似文件的存储路径作为待存储文件的候选存储路径;使用所述候选存储路径存储所述待存储文件。可以使用户在对待存储的文件进行存储时,无需手动修改计算机系统反馈的存储路径,即可按照待存储文件的语义对待存储文件进行存储。使待存储文件的存储位置更符合用户的需求。

Description

文件存储方法、装置、计算机设备和存储介质
技术领域
本申请涉及信息技术领域,特别是涉及一种文件存储方法、装置、计算机设备和存储介质。
背景技术
在传统的文件存储方法中,计算机系统一般会将前一次的文件存储的存储路径推荐给用户作为本次文件存储的存储路径,但是,在大多情况下,前一次的文件存储的文件与本次将存储的文件在内容上并无关联,因此将前一次文件存储的存储路径通常不符合用户对本次文件存储的要求,这时一般需要用户手动修改文件的存储路径以满足用户需求。
发明内容
基于此,有必要针对上述技术问题,提供一种能够文件存储方法、装置、计算机设备和存储介质。
第一方面,本申请实施例一种文件存储方法,包括如下步骤:
接收文件存储指令,并计算待存储文件与已存储文件中各文件的相似度;
根据所述相似度,从已存储文件中选择待存储文件的相似文件;
获取所述相似文件的存储路径,并将所述相似文件的存储路径作为待存储文件的候选存储路径;
使用所述候选存储路径存储所述待存储文件。在其中一个实施例中,所述计算待存储文件与已存储文件中各文件的相似度的步骤包括:
获取历史下载记录,计算所述历史下载记录中各文件与待存储文件的相似度;或,
获取当前设备上的本地文件,计算所述本地文件中各文件与待存储文件的相似度;或,
获取当前设备上的本地文件中的多个文件夹,根据各文件夹中已存储文件的内容为各所述文件夹标注主题,得到多个主题文件,计算各所述主题文件与所述待存储文件的相似度。
在其中一个实施例中,所述计算待存储文件与已存储文件中各文件的相似度的步骤包括:
基于相似度计算任务构建神经网络模型的网络结构并进行训练,得到相似度计算神经网络模型;
将所述已存储文件和所述待存储文件输入所述相似度计算神经网络模型,得到已存储文件中各文件与待存储文件的相似度。
在其中一个实施例中,根据所述相似度,从已存储文件中选择待存储文件的相似文件的步骤包括:
根据所述相似度,从所述已存储文件中获取多个待存储文件的候选相似文件;
获取候选相似文件的时间系数,并根据所述时间系数确定各候选相似文件与所述待存储文件的最终相似度;
根据所述最终相似度,从所述候选相似文件中选择所述待存储文件的相似文件。
在其中一个实施例中,所述方法还包括:
将待存储文件输入文件名生成模型,所述文件名生成模型基于所述待存储文件的内容输出文件名;
使用所述文件名命名所述待存储文件。
在其中一个实施例中,所述文件名生成模型基于所述待存储文件的内容输出文件名的步骤包括:
文件名生成模型基于所述待存储文件的内容中的中的文档标题输出文件名;或者,
文件名生成模型基于所述待存储文件的文本内容的语义,输出文件名。
在其中一个实施例中,若所述待存储文件为非文本文件,则在所述文件名生成模型基于所述待存储文件的文本内容的语义,输出文件名的步骤之前,所述方法还包括:
对所述非文本文件进行文本格式转换,得到格式化文件;
将所述格式化文件输入所述文件名生成模型。
在其中一个实施例中,所述方法还包括:
使用为文件标注文件名,构建模型训练样本;
使用所述模型训练样本训练基于文件名生成任务构建的神经网络模型的各网络层,得到文件名模型;
其中,所述文件为文本、图片、音频、视频中的一种或几种。
第二方面,本申请实施例一种文件存储装置,所述装置包括:
相似度计算模块,用于接收文件存储指令,并计算待存储文件与已存储文件中各文件的相似度;
文件筛选模块,用于根据所述相似度,从已存储文件中选择待存储文件的相似文件;
文件处理模块,用于获取所述相似文件的存储路径,并将所述相似文件的存储路径作为待存储文件的候选存储路径;
文件存储模块,用于使用所述候选存储路径存储所述待存储文件。
第三方面,本申请实施例一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请任意实施例提供的文件存储方法。
第四方面,本申请实施例一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本申请任意实施例提供的文件存储方法。
本申请涉及一种文件存储方法、装置、计算机设备和存储介质,该文件存储方法,通过计算待存储文件与已存储文件中各文件的相似度;根据所述相似度,从已存储文件中选择待存储文件的相似文件;获取所述相似文件的存储路径,并将所述相似文件的存储路径作为待存储文件的候选存储路径;使用所述候选存储路径存储所述待存储文件。可以使用户在对待存储的文件进行存储时,无需手动修改计算机系统反馈的存储路径,即可按照待存储文件的语义对待存储文件进行存储。使待存储文件的存储位置更符合用户的需求。
附图说明
图1为本申请一个实施例中文件存储方法的应用环境图;
图2为本申请一个实施例中文件存储方法的流程示意图;
图3为本申请一个实施例中计算待存储文件与已存储文件中各文件的相似度步骤的流程示意图;
图4为本申请一个实施例中计算待存储文件与已存储文件中各文件的相似度步骤流程示意图;
图5为本申请一个实施例中计算待存储文件与已存储文件中各文件的相似度步骤流程图;
图6为本申请一个实施例中计算待存储文件与已存储文件中各文件的相似度步骤流程图;
图7为本申请一个实施例中从已存储文件中选择待存储文件的相似文件步骤流程图;
图8为本申请一个实施例中文件存储方法补充步骤的流程图;
图9为本申请一个实施例中文件存储方法补充步骤的流程图;
图10为一个实施例中文件存储装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的目标网址获取方法,可以应用于如图1所示的计算机系统。该计算机系统可以为多核处理器计算机系统(Multi-core processor Computing System)、异构计算机系统(Heterogeneous Computing System)等包含有多个处理器的多处理器计算机系统(Multi-processor Computing System)。可选地,该计算机系统具体可以包括至少一个处理器110以及存储器120,处理器110与存储器120连接。可选的,该处理器可以包括获取模块、、运算模块及控制模块等等,其中,该获取模块可以是I/O(Input输入/Output输出)接口等硬件模块,运算模块及控制模块均为硬件模块。
可选的,存储器120被划分为多个存储区域,计算机系统获取的文件可以被存储在存储器120的不同存储区域。可选的,计算机系统可以通过网络从相关站点获取的文件。在计算机系统将相关站点获取文件存储在存储器120上时,需首先确定该文件的存储路径,即确定该待存储的文件存储于哪一存储区域的哪一文件夹下,之后在按照该存储路径将文件进行存储并命名。
可选的,上述处理器110可以运行神经网络模型的算法,对输入该神经网络模型的数据进行处理,并输出。
在一个实施例中,如图2所示,提供了一种文件存储方法,以该方法应用于图1中的计算机系统为例进行说明,包括以下步骤:
步骤210:接收文件存储指令,并计算待存储文件与已存储文件中各文件的相似度。
其中,已存储文件是指已经进行存储的文件。待存储文件是指即将进行存储的文件。具体的,处理器110接收文件存储指令,并在接收文件存储指令后,计算待存储文件与已存储文件中各文件的相似度。可选的,已存储文件可以为历史下载文件和/或本地文件。可选的,文件可为文本文件,也可以为图片、音频或者视频等等格式文件。
可选的,处理器110首先分别对待存储文件与已存储文件中各文件进行内容识别,之后再根据内容识别结果计算待存储文件与已存储文件中各文件的相似度。可选的,在处理器110得到待存储文件以及已存储文件的内容识别结果后,可以对该内容识别结果进行存储。在后续处理器需要这些数据的内容识别结果时,可以直接从这些内容结果的存储位置获取该结果,无需再进行内容识别,这样可以减少处理器110的运算量,提高数据处理效率。
步骤S220:根据所述相似度,从已存储文件中选择待存储文件的相似文件。
其中,相似度是指文件内容的相似程度。相似文件是与待存储文件内容相似的文件。具体的,处理器110根据所述相似度,从已存储文件中选择待存储文件的相似文件。可选的,处理器110根据相似度的高低,对获取的已存储文件中的各文件排序,并根据排序结果从已存储文件中选出相似文件。可选的,选择的相似文件可以为一个,也可以为多个。
步骤S230:获取所述相似文件的存储路径,并将所述相似文件的存储路径作为待存储文件的候选存储路径。
具体的,处理器110获取所述相似文件的存储路径,并将所述相似文件的存储路径作为待存储文件的候选存储路径。可选的,若获取的相似文件为一个,处理器110获取所述相似文件的存储路径后,将该存储路径作为待存储文件的候选存储路径。若获取的相似文件的个数为多个,则处理器110获取该多个相似文件的存储路径,并将得到的多个存储路径作为待存储文件的候选存储路径。
步骤S240:使用所述候选存储路径存储所述待存储文件。
具体的,处理器110使用所述候选存储路径存储所述待存储文件。可选的,处理器110获取待存储文件的存储路径,按照该存储路径将待存储文件存放至存储器120的相关目录下。可选的,处理器110在获取候选存储路径后,可以通过终端显示界面与用户交互,并根据用户的选择使用候选存储路径存储待存储文件。可选的,将候选存储路径在终端界面的预设位置显示,以使用户可以根据需求或个人判断选择候选存储路径对待存储文件进行存储。当然,用户也可以不使用候选存储路径对待存储文件进行存储,而使用手动修改存储路径存储待存储文件。
可选的,在获取的候选存储路径为一个时,可以不通过界面交互的方式,直接使用该待存储路径对待存储文件进行存储。
上述实施提出的文件存储方法,通过计算待存储文件与已存储文件中各文件的相似度;根据所述相似度,从已存储文件中选择待存储文件的相似文件;获取所述相似文件的存储路径,并将所述相似文件的存储路径作为待存储文件的候选存储路径;使用所述候选存储路径存储所述待存储文件。可以使用户在对待存储的文件进行存储时,无需手动修改计算机系统反馈的存储路径,即可按照待存储文件的语义对待存储文件进行存储。使待存储文件的存储位置更符合用户的需求。
作为一种可选的实施方式,如图3所示,所述计算待存储文件与已存储文件中各文件的相似度的步骤包括:
步骤S211a:获取历史下载记录。
具体的,处理器110获取历史下载记录。可选的,处理器获取某一站点上的历史下载记录。可选的,处理器可以获取专用文件下载站点(例如迅雷等)、数据库(例如专利库等)、浏览器或者社交APP等站点的历史下载记录。可选的,处理器可以获取多个站点上的历史下载记录。
步骤S212a:计算所述历史下载记录中各文件与待存储文件的相似度。
具体的,处理器110计算所述历史下载记录中各文件与待存储文件的相似度。
本实施例提出获取相似度的方法,是基于多用户的下载数据分析处理得到的结果,因此该方法得到的相似度偶然性小,适用范围广。
作为一种可选的实施方式,如图4所示,所述计算待存储文件与已存储文件中各文件的相似度的步骤包括:
步骤S211b:获取当前设备上的本地文件。
具体的,处理器110获取当前设备上的本地文件。
步骤S212b:计算所述本地文件中各文件与待存储文件的相似度。
可选的,处理器110计算所述本地文件中各文件与待存储文件的相似度。
本实施例提出获取相似度的方法,是基于本地文件分析处理得到的结果,即针对特定用户的存储习惯分析得到的结果,因此该方法得到的相似度针对性强,根据该方法得到的相似度计算结果得出的相似文件,更符合客户个人意向(尤其设备冷启状态),进而进行得到的候选存储路径更容易符合客户个性化的存储需求。
作为一种可选的实施方式,如图5所示,所述计算待存储文件与已存储文件中各文件的相似度的步骤包括:
步骤S211c:获取当前设备上的本地文件中的多个文件夹。
具体的,处理器110获取当前设备上的本地文件中的多个文件夹。
步骤S212c:根据各文件夹中已存储文件的内容为各所述文件夹标注主题,得到多个主题文件。
具体的,处理器110根据各文件夹中已存储文件的内容为各所述文件夹标注主题,得到多个主题文件。
步骤S213c:计算各所述主题文件与所述待存储文件的相似度。
具体的,处理器110计算各所述主题文件与所述待存储文件的相似度。
可选的,上述计算各所述主题文件与所述待存储文件的相似度的方案可以通过LDA(Latent Dirichlet Allocation,三层贝叶斯概率模型)主题模型或者其他深度学习的神经网络模型实现。具体的,首先根据各文件夹中已存储文件的内容为获取的多个文件夹标注主题(主题文件),以及各主题之间的相似度,得到多个训练样本。然后使用该样本训练构建的神经网络模型的各层网络,得到神经网络模型。最后将待存储文件以及获取的本地文件中的文件夹(将每个文件夹看作一个主题文件)输入神经网络模型,得到待存储文件与主题文件的相似度。
本实施例提出的计算相似度的方法,在计算时将每个文件夹作为一个整体,由于每一文件夹中可以包含多个文件,因此可以减少网络模型的运算,提高数据处理效率。
作为一种可选的实施方式,如图6所示,所述计算待存储文件与已存储文件中各文件的相似度的步骤包括:
步骤S211d:基于相似度计算任务构建神经网络模型的网络结构并进行训练,得到相似度计算神经网络模型。
具体的,处理器110基于相似度计算任务构建神经网络模型的网络结构并进行训练,得到相似度计算神经网络模型。可选的,该相似度计算模型可以为CBOW(ContinuousBag-of-Words,连续词袋模型)、TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)等模型,可选的,该相似度计算神经网络模型还可以为相关的相似度深度学习模型。
可选的,首先构建相似度计算神经网络模型的网络结构,以及获取训练样本。之后将训练样本输入所述网络结构的神经网络,迭代执行所述神经网络的正向推导和反向传播算法,直至网络收敛,得到相似度计算神经网络模型。
步骤S212d:将所述已存储文件和所述待存储文件输入所述相似度计算神经网络模型,得到已存储文件中各文件与待存储文件的相似度。
具体的,处理器110获取已存储文件和所述待存储文件后,运行相似度计算神经网络模型的神经网络算法,进行数据处理,得到已存储文件中各文件与待存储文件的相似度。
本实施例提出的相似度计算方法,得到的文件之间的相似度可以在按照设定的目标任务得出更符合需求的相似度数据,可控性强。
作为一种可选的实施方式,如图7所示,根据所述相似度,从已存储文件中选择待存储文件的相似文件的步骤包括:
步骤231:根据所述相似度,从所述已存储文件中获取多个待存储文件的候选相似文件。
具体的,处理器110根据所述相似度,从所述已存储文件中获取多个待存储文件的候选相似文件。可选的,处理器110首先根据所述相似度的高低,对已存储文件中各文件进行排序,之后根据排序结果从所述已存储文件中获取多个待存储文件的候选相似文件。
步骤232:获取候选相似文件的时间系数,并根据所述时间系数确定各候选相似文件与所述待存储文件的最终相似度。
具体的,处理器110获取候选相似文件的时间系数,并根据所述时间系数确定各候选相似文件与所述待存储文件的最终相似度。可选的,距离当前时间越久远的候选相似文件的时间系数越小。可选的,通过时间衰减函数来计算候选相似文件的时间系数。
步骤233:根据所述最终相似度,从所述候选相似文件中选择所述待存储文件的相似文件。
具体的,处理器110根据所述最终相似度,从所述候选相似文件中选择所述待存储文件的相似文件。
本实施例提出的方法,考虑时间因素,可以为用户提供更符合当前情形的存储路径。
作为一种可选的实施方式,如图8所示,上述文件存储方法,还可以包括:
步骤S250:将待存储文件输入文件名生成模型,所述文件名生成模型基于所述待存储文件的内容输出文件名。
具体的,处理器110在获取待存储文件后,运行文件名生成模型的神经网络算法,对所述待存储文件的内容进行数据处理,输出文件名。文件名生成模型步骤S260:使用所述文件名命名所述待存储文件。
具体的,处理器110使用所述文件名命名所述待存储文件。可选的,处理器110在获取文件名后,可以通过终端的显示界面展示该文件名,与用户进行人机交互,之后再根据用户的选择,使用文件名命名所述待存储文件。可选的,用户也可以不选择该文件名生成模型生成的文件名命名待存储文件。可选的,用户在通过显示界面进行人机交互时,用户也可以手动修改文件名来命名待存储文件。可选的,文件名生成模型可以基于所述待存储文件的内容输出多个文件名。在文件名生成模型输出的文件名为多个时,处理器通过终端的显示界面展示这些文件名供用户选择,之后再根据用户的选的使用所述待存储文件的文件名命名所述待存储文件。
本实施中的文件存储方法根据文件内容为所述文件标注文件名,可以在待存储文件的文件名由系统随机生成或者之前命名的不合理文件名时,可以根据待存储文件的语义为待存储文件提供合理的文件名。
作为一种可选的实施方式,所述文件名生成模型基于所述待存储文件的内容输出文件名的步骤包括:
文件名生成模型基于所述待存储文件的内容中的文档标题输出文件名。
具体的,处理器110运行文件名生成模型的相关神经网络算法,对待存储文件中的内容进行标题识别,若识别到该待存储文件中的文档标题,则将该标题作为文件名输出。
作为一种可选的实施方式,所述文件名生成模型基于所述待存储文件的内容输出文件名的步骤包括:文件名生成模型基于所述待存储文件的文本内容的语义,输出文件名。可选的,该待存储文件为结构化文件(例如TXT,word格式的文件)。
具体的,处理器110运行文件名生成模型的相关神经网络算法,对待存储文件中的内容进行文本语义识别,并根据识别结果输出文件名。可选的,该文件名生成模型可以为LSTM(Long Short Term Memory,长短期记忆单元模型)等处理文本文件的深度神经网络文件名生成模型。
作为一种可选的实施方式,文件名生成模型在基于待存储文件的内容,输出文件名的过程中,可以先判断待存储文件的类型,若待存储文件为结构化文本文件时,对该结构化文本文件中是否包含文档标题进行搜索,若结构化文本文件存在文档标题,则将该文档标题作为文件名输出;若结构化文本文件中无文档标题,则再对文本文件进行语义识别,根据语义识别结果输出文件名。
本实施例提出的方法,可以快速的得到与待存储文件的内容匹配且准确的文件名。
可选的,当选择的文件名生成模型为LSTM神经网络模型时,若待存储的文件为图片、音频或者视频等非文本文件时,可以在将该待存储文件输入文件名生成模型(LSTM神经网络模型)之前,先对这些非文本文件进行文本格式转换,得到格式化文件;将所述格式化文件输入所述文件名生成模型。
作为一种可选的实施方式,文件名生成模型也可以为基于CNN(ConvolutionalNeural Network,卷积神经网络)或者RNN(Recurrent Neural Network,循环神经网络)等端到端的深度学习模型,该深度学习模型不仅可以之间基于文本文件输出文件名,也可以实现由图片、音频或者视频直接生成文件名。
作为一种可选的实施方式,如图9所示,若文件名生成模型为端到端的深度学习模型,则上述方法还可以包括如下步骤:
步骤S270:使用为文件标注文件名,构建模型训练样本。可选的,所述文件为文本、图片、音频、视频中的一种或几种。
步骤S280:使用所述模型训练样本训练基于文件名生成任务构建的神经网络模型的各网络层,得到文件名模型。
具体的,将模型训练样本输入神经网络模型,迭代执行所述神经网络的正向推导和反向传播算法,直至神经网络模型的各层网络收敛,得到所述文件名模型。
本实施例训练的得到的文件名生成模型可以实现对文件进行端到端的文件名生成操作。应该理解的是,虽然图2-图9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图9的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种文件存储装置,所述装置包括:
相似度计算模块910,用于接收文件存储指令,并计算待存储文件与已存储文件中各文件的相似度。
文件筛选模块920,用于根据所述相似度,从已存储文件中选择待存储文件的相似文件。
文件处理模块930,用于获取所述相似文件的存储路径,并将所述相似文件的存储路径作为待存储文件的候选存储路径。
文件存储模块940,用于使用所述候选存储路径存储所述待存储文件。
作为一种可选的实施方式,相似度计算模块910用于获取历史下载记录;计算所述历史下载记录中各文件与待存储文件的相似度。
作为一种可选的实施方式,相似度计算模块910用于获取当前设备上的本地文件;计算所述本地文件中各文件与待存储文件的相似度。
作为一种可选的实施方式,相似度计算模块910用于获取当前设备上的本地文件中的多个文件夹;根据各文件夹中已存储文件的内容为各所述文件夹标注主题,得到多个主题文件;计算各所述主题文件与所述待存储文件的相似度。
作为一种可选的实施方式,相似度计算模块910用于基于相似度计算任务构建神经网络模型的网络结构并进行训练,得到相似度计算神经网络模型;将所述已存储文件和所述待存储文件输入所述相似度计算神经网络模型,得到已存储文件中各文件与待存储文件的相似度。
作为一种可选的实施方式,所述文件筛选模块920,用于根据所述相似度,从所述已存储文件中获取多个待存储文件的候选相似文件;获取候选相似文件的时间系数,并根据所述时间系数确定各候选相似文件与所述待存储文件的最终相似度;根据所述最终相似度,从所述候选相似文件中选择所述待存储文件的相似文件。
作为一种可选的实施方式,所述文件存储装置还包括:文件名生成模块950,用于运行文件名生成模型的神经网络算法,对输入的待存储文件的内容进行数据处理,输出文件名;使用所述文件名命名所述待存储文件。
作为一种可选的实施方式,所述文件名生成模块950,还用于运行文件名生成模型的神经网络算法,以基于所述待文件存储文件的内容中的中的文档标题输出文件名;或者,文件名生成模型基于所述待存储文件的文本内容的语义,输出文件名。
作为一种可选的实施方式,所述文件名生成模块950,还用于在所述待存储文件为非文本文件时,对所述非文本文件进行文本格式转换,得到格式化文件;将所述格式化文件输入所述文件名生成模型。
作为一种可选的实施方式,所述文件名生成模块950,还用于使用所述模型训练样本训练基于文件名生成任务构建的神经网络模型的各网络层,得到文件名模型;其中所述模型训练样本为进行文件名标注的文件,所述文件为文本、图片、音频、视频中的一种或几种。
关于文件存储装置的具体限定可以参见上文中对于文件存储方法的限定,在此不再赘述。上述文件存储装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其结构示意图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文件存储方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,所述存储器上存储有可在处理器上运行的计算机程序,处理器执行所述计算机程序时实现以下步骤:接收文件存储指令,并计算待存储文件与已存储文件中各文件的相似度;根据所述相似度,从已存储文件中选择待存储文件的相似文件;获取所述相似文件的存储路径,并将所述相似文件的存储路径作为待存储文件的候选存储路径;使用所述候选存储路径存储所述待存储文件。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取历史下载记录;计算所述历史下载记录中各文件与待存储文件的相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取当前设备上的本地文件;计算所述本地文件中各文件与待存储文件的相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取当前设备上的本地文件中的多个文件夹;根据各文件夹中已存储文件的内容为各所述文件夹标注主题,得到多个主题文件;计算各所述主题文件与所述待存储文件的相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于相似度计算任务构建神经网络模型的网络结构并进行训练,得到相似度计算神经网络模型;将所述已存储文件和所述待存储文件输入所述相似度计算神经网络模型,得到已存储文件中各文件与待存储文件的相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据所述相似度,从所述已存储文件中获取多个待存储文件的候选相似文件;获取候选相似文件的时间系数,并根据所述时间系数确定各候选相似文件与所述待存储文件的最终相似度;根据所述最终相似度,从所述候选相似文件中选择所述待存储文件的相似文件。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:运行文件名生成模型的神经网络算法,对输入的待存储文件的内容进行数据处理,输出文件名;使用所述文件名命名所述待存储文件。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:运行文件名生成模型的神经网络算法,以基于所述待存储文件的内容中的中的文档标题输出文件名;或者,文件名生成模型基于所述待存储文件的文本内容的语义,输出文件名。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在所述待存储文件为非文本文件时,对所述非文本文件进行文本格式转换,得到格式化文件;将所述格式化文件输入所述文件名生成模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:使用所述模型训练样本训练基于文件名生成任务构建的神经网络模型的各网络层,得到文件名模型;其中所述模型训练样本为进行文件名标注的文件,所述文件为文本、图片、音频、视频中的一种或几种。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现任意实施例提供的文件存储方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种文件存储方法,其特征在于,包括如下步骤:
接收文件存储指令,并计算待存储文件与已存储文件中各文件的相似度;
根据所述相似度,从已存储文件中选择待存储文件的相似文件;
获取所述相似文件的存储路径,并将所述相似文件的存储路径作为待存储文件的候选存储路径;
使用所述候选存储路径存储所述待存储文件。
2.根据权利要求1所述的方法,其特征在于,所述计算待存储文件与已存储文件中各文件的相似度的步骤包括:
获取历史下载记录,计算所述历史下载记录中各文件与待存储文件的相似度;或,
获取当前设备上的本地文件,计算所述本地文件中各文件与待存储文件的相似度;或,
获取当前设备上的本地文件中的多个文件夹,根据各文件夹中已存储文件的内容为各所述文件夹标注主题,得到多个主题文件,计算各所述主题文件与所述待存储文件的相似度。
3.根据权利要求1所述的方法,其特征在于,所述计算待存储文件与已存储文件中各文件的相似度的步骤包括:
基于相似度计算任务构建神经网络模型的网络结构并进行训练,得到相似度计算神经网络模型;
将所述已存储文件和所述待存储文件输入所述相似度计算神经网络模型,得到已存储文件中各文件与待存储文件的相似度。
4.根据权利要求1所述的方法,其特征在于,根据所述相似度,从已存储文件中选择待存储文件的相似文件的步骤包括:
根据所述相似度,从所述已存储文件中获取多个待存储文件的候选相似文件;
获取候选相似文件的时间系数,并根据所述时间系数确定各候选相似文件与所述待存储文件的最终相似度;
根据所述最终相似度,从所述候选相似文件中选择所述待存储文件的相似文件。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:将待存储文件输入文件名生成模型,所述文件名生成模型基于所述待存储文件的内容输出文件名;
使用所述文件名命名所述待存储文件。
6.根据权利要求5所述的方法,其特征在于,所述文件名生成模型基于所述待存储文件的内容输出文件名的步骤包括:
文件名生成模型基于所述待存储文件的内容中的中的文档标题输出文件名;或者,
文件名生成模型基于所述待存储文件的文本内容的语义,输出文件名。
7.根据权利要求6所述的方法,其特征在于,若所述待存储文件为非文本文件,则在所述文件名生成模型基于所述待存储文件的文本内容的语义,输出文件名的步骤之前,所述方法还包括:
对所述非文本文件进行文本格式转换,得到格式化文件;
将所述格式化文件输入所述文件名生成模型。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
使用为文件标注文件名,构建模型训练样本;
使用所述模型训练样本训练基于文件名生成任务构建的神经网络模型的各网络层,得到文件名模型;
其中,所述文件为文本、图片、音频、视频中的一种或几种。
9.一种文件存储装置,其特征在于,所述装置包括:
相似度计算模块,用于接收文件存储指令,并计算已存储文件中各文件与待存储文件的相似度;
文件筛选模块,用于根据所述相似度,从已存储文件中选择待存储文件的相似文件;
文件处理模块,用于获取所述相似文件的存储路径,并将所述相似文件的存储路径作为待存储文件的候选存储路径;
文件存储模块,用于使用所述候选存储路径存储所述待存储文件。
10.一种计算机设备,包括存储器及处理器,所述存储器上存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN201810846831.9A 2018-07-27 2018-07-27 文件存储方法、装置、计算机设备和存储介质 Pending CN109063105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810846831.9A CN109063105A (zh) 2018-07-27 2018-07-27 文件存储方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810846831.9A CN109063105A (zh) 2018-07-27 2018-07-27 文件存储方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN109063105A true CN109063105A (zh) 2018-12-21

Family

ID=64835805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810846831.9A Pending CN109063105A (zh) 2018-07-27 2018-07-27 文件存储方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109063105A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740302A (zh) * 2019-04-02 2019-05-10 深兰人工智能芯片研究院(江苏)有限公司 一种神经网络的仿真方法和装置
CN111159434A (zh) * 2019-12-29 2020-05-15 赵娜 一种在互联网存储集群中存储多媒体文件的方法及系统
CN111695568A (zh) * 2019-03-14 2020-09-22 精工爱普生株式会社 信息处理装置、机器学习装置以及信息处理方法
CN112612749A (zh) * 2020-12-15 2021-04-06 重庆电子工程职业学院 智能安全管理存储系统
CN113536763A (zh) * 2021-07-20 2021-10-22 北京中科闻歌科技股份有限公司 一种信息处理方法、装置、设备及存储介质
US20220027316A1 (en) * 2020-07-21 2022-01-27 International Business Machines Corporation Cognitive digital file naming
CN117591485A (zh) * 2024-01-17 2024-02-23 深圳市领德创科技有限公司 一种基于数据识别的固态硬盘运行控制系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103858448A (zh) * 2011-10-11 2014-06-11 高通股份有限公司 用于移动设备的动态内容安装器
CN104102748A (zh) * 2014-08-08 2014-10-15 中国联合网络通信集团有限公司 文件映射方法及装置和文件推荐方法及装置
CN106095765A (zh) * 2015-05-01 2016-11-09 佳能株式会社 文档分析系统、图像处理装置以及分析服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103858448A (zh) * 2011-10-11 2014-06-11 高通股份有限公司 用于移动设备的动态内容安装器
CN104102748A (zh) * 2014-08-08 2014-10-15 中国联合网络通信集团有限公司 文件映射方法及装置和文件推荐方法及装置
CN106095765A (zh) * 2015-05-01 2016-11-09 佳能株式会社 文档分析系统、图像处理装置以及分析服务器

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695568A (zh) * 2019-03-14 2020-09-22 精工爱普生株式会社 信息处理装置、机器学习装置以及信息处理方法
CN111695568B (zh) * 2019-03-14 2023-08-18 精工爱普生株式会社 信息处理装置、机器学习装置以及信息处理方法
CN109740302A (zh) * 2019-04-02 2019-05-10 深兰人工智能芯片研究院(江苏)有限公司 一种神经网络的仿真方法和装置
CN111159434A (zh) * 2019-12-29 2020-05-15 赵娜 一种在互联网存储集群中存储多媒体文件的方法及系统
US20220027316A1 (en) * 2020-07-21 2022-01-27 International Business Machines Corporation Cognitive digital file naming
US11561932B2 (en) * 2020-07-21 2023-01-24 International Business Machines Corporation Cognitive digital file naming
CN112612749A (zh) * 2020-12-15 2021-04-06 重庆电子工程职业学院 智能安全管理存储系统
CN113536763A (zh) * 2021-07-20 2021-10-22 北京中科闻歌科技股份有限公司 一种信息处理方法、装置、设备及存储介质
CN117591485A (zh) * 2024-01-17 2024-02-23 深圳市领德创科技有限公司 一种基于数据识别的固态硬盘运行控制系统及方法
CN117591485B (zh) * 2024-01-17 2024-04-05 深圳市领德创科技有限公司 一种基于数据识别的固态硬盘运行控制系统及方法

Similar Documents

Publication Publication Date Title
CN109063105A (zh) 文件存储方法、装置、计算机设备和存储介质
CN110442553B (zh) 文件管理方法、装置、计算机设备和存储介质
EP3757995A1 (en) Music recommendation method and apparatus, and computing device and medium
US10102298B2 (en) Online publication system and method
RU2633115C2 (ru) Формирование поискового запроса на основе контекста
CN111753198A (zh) 信息推荐方法和装置、以及电子设备和可读存储介质
US9645987B2 (en) Topic extraction and video association
US10909202B2 (en) Information providing text reader
Zhao et al. Ranking on heterogeneous manifolds for tag recommendation in social tagging services
CN111563220A (zh) 业务网站项目构建方法、装置、计算机设备和存储介质
JP2013541793A (ja) マルチモード検索クエリー入力手法
CN107735766A (zh) 用于向计算设备的用户前摄性地提供推荐的系统和方法
CN112380331A (zh) 信息推送的方法和装置
CN111539197A (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN108595697B (zh) 网页集成方法、装置及系统
US9507805B1 (en) Drawing based search queries
US20220358280A1 (en) Context-aware font recommendation from text
CN112732898A (zh) 文献摘要生成方法、装置、计算机设备及存储介质
EP3079083A1 (en) Providing app store search results
CN104102727B (zh) 查询词的推荐方法及装置
CN110555165A (zh) 信息识别方法、装置、计算机设备和存储介质
CN110533556B (zh) 裁决信息处理方法、装置、计算机设备和存储介质
CN109582959B (zh) 图书目录生成方法、装置、计算机设备和存储介质
CN110096695B (zh) 超链接标记方法和装置、文本分类方法和装置
CN109063106B (zh) 网址修正方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181221