CN108595715A - 一种文件标记和排重分析方法、终端设备及存储介质 - Google Patents
一种文件标记和排重分析方法、终端设备及存储介质 Download PDFInfo
- Publication number
- CN108595715A CN108595715A CN201810461099.3A CN201810461099A CN108595715A CN 108595715 A CN108595715 A CN 108595715A CN 201810461099 A CN201810461099 A CN 201810461099A CN 108595715 A CN108595715 A CN 108595715A
- Authority
- CN
- China
- Prior art keywords
- file
- analyzed
- label information
- total size
- tab
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种文件标记和排重分析方法、终端设备及存储介质,在该方法中,首先记录待分析文件的文件信息,其次其所在路径下是否存在标记文件,如无,则新建标记文件,如有,再次判断标记文件中是否包含该待分析文件对应的标记信息,如无,则新建标记信息,如有,判断文件信息中的文件总大小与标记信息中的文件总大小是否相等,如相等,则不需分析,如文件信息中的文件总大小大于标记信息中的文件总大小,则跳过该待分析文件的标记文件记录的标记信息中的文件已被分析的大小的内容,对该待分析文件剩余的内容进行分析。本发明通过只对文件的新增加的内容进行分析,不对文件没有变更的内容进行重复分析来达到文件排重分析的目的。
Description
技术领域
本发明涉及文件分析领域,尤其涉及一种文件标记和排重分析方法、终端设备及存储介质。
背景技术
随着科技的发展,数据信息的更新速度越来越快,在某些特定的应用场景下,同一路径下的同一文件每个一段时间就会有新数据被追加在文件的末尾,例如存放上网历史记录的文件,由于文件的内容再实时更新,因此需要不断的对文件内容进行分析,而文件在此过程中变得越来越大,如果每次都对文件的全部内容进行分析,就会造成时间、人力和资源的极大浪费。
发明内容
针对上述问题,本发明旨在提供一种文件标记和排重分析方法、终端设备及存储介质,通过只对文件的新增加的内容进行分析,不对文件没有变更的内容进行重复分析来达到文件排重分析的目的。
具体方案如下:
一种文件标记和排重分析方法,包括以下步骤:
S100:记录待分析文件的文件信息,所述文件信息包括文件名特征值和文件总大小;
S200:检查待分析文件所在的路径下是否存在标记文件,当不存在时,进入S300,否则,进入S400;
S300:创建标记文件,对该待分析文件全部内容进行分析后,将所述待分析文件的标记信息写入该标记文件内,所述标记信息包括文件名特征值、文件总大小和文件已被分析的大小,进入S700;
S400:查找所述标记文件中是否存在待分析文件的标记信息,当不存在时,进入S500,否则,进入S600;
S500:对该待分析文件全部内容进行分析后,将所述待分析文件的标记信息写入标记文件内,进入S700;
S600:从标记文件中读取标记信息,判断文件信息中的文件总大小与标记信息中的文件总大小是否相等,如果相等,进入S700,如果文件信息中的文件总大小大于标记信息中的文件总大小,则跳过该待分析文件对应的标记信息中的文件已被分析的大小的内容,对该待分析文件剩余的内容进行分析,如果文件信息中的文件总大小小于标记信息中的文件总大小,对待分析文件的全部内容进行分析,分析完成后更新标记文件中该文件对应的文件已被分析的大小的内容,进入S700;
S700:重复步骤S100-S600,进行下一个待分析文件的排重分析,当扫描到标记文件时,跳过该文件不进行分析,对路径下的所有文件循环进行排重分析。
进一步的,所述标记文件通过与待分析文件使用不同命名方式和使用不同后缀名方式两种方式中的一种来区别于被分析文件。
进一步的,所述文件名特征值为文件名哈希值。
进一步的,所述标记信息写入标记文件的方式为根据写入格式:文件名哈希值占16字节,文件总大小占8字节,文件已被分析的大小占8字节,按顺序将待分析文件的标记信息写入标记文件内。
进一步的,步骤S400中所述查找方法为使用文件名特征值来查找。
一种文件标记和排重分析终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
本发明采用如上技术方案,通过在被分析文件所在的同一路径下创建一个标记文件来保存该路径下所有被分析文件的标记信息,然后对比标记信息的方式对文件进行排重分析,通过本方案可以高效的判断和快速的定位并分析文件中新追加的数据,防止对已分析内容进行重复分析,大大提高了分析效率。
附图说明
图1所示为本发明实施例一的流程示意图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例一:
参考图1所示,本发明提供了一种文件标记和排重分析方法,包括以下步骤:
S100:记录待分析文件的文件信息,所述文件信息包括文件名特征值和文件总大小。所述文件名特征值用于对文件名进行记录,可以使用各种常用的算法对其进行记录,该实施例中使用哈希算法计算文件名的哈希值,则所述文件名特征值为文件名哈希值。
S200:检查待分析文件所在的路径下是否存在标记文件,当不存在时,进入S300,否则,进入S400。
所述标记文件通过特殊命名或用特殊后缀以区别于被分析文件,即与待分析文件使用不同命名方式或使用不同后缀名。
S300:创建标记文件,对该待分析文件全部内容进行分析后,将所述待分析文件的标记信息写入该标记文件内,所述标记信息包括文件名特征值、文件总大小、文件已被分析的大小,进入S700。
其中,该实施例中的写入格式为:文件名的特征值即文件名哈希值占16字节,文件总大小占8字节,文件已被分析的大小占8字节,按照上述格式和顺序将待分析文件的标记信息写入标记文件内;另外,此处的待分析文件已经在步骤S100中分析完毕,因此所述文件已被分析的大小与文件总大小相等。
S400:查找所述标记文件中是否存在待分析文件的标记信息,所述查找方法可以使用文件名特征值来查找,该实施例中使用文件名哈希值来查找,当不存在时,进入S500,否则,进入S600。
S500:对该待分析文件全部内容进行分析后,将其标记信息写入标记文件中,进入S700,此处的写入方法与步骤S300的写入方法相同。
S600:从标记文件中读取标记信息,判断文件信息中的文件总大小与标记信息中的文件总大小是否相等,如相等,进入S700,如文件信息中的文件总大小大于标记信息中的文件总大小,则跳过该待分析文件对应的标记文件记录的标记信息中的文件已被分析的大小的内容,对该待分析文件剩余的内容进行分析,如文件信息中的文件总大小小于标记信息中的文件总大小,此时属于异常情况,例如清空了上网历史记录就是此情况,此时,对待分析文件的全部内容进行分析,分析完成分析后根据该待分析文件更新标记文件中该文件对应的文件已被分析的大小的内容,即此处的文件已被分析的大小等于该待分析文件的文件总大小。
通过上述三种情况,可以一方面避免对文件已分析的内容进行重复分析,另一方面保证文件被误删除时可以重新分析,避免遗漏。
S700:重复步骤S100-S600,对待分析文件所在的路径下的所有文件循环进行排重分析,当扫描到标记文件时,跳过该文件不进行分析。
本发明实施例一通过在被分析文件所在的同一路径下创建一个标记文件来保存该路径下所有被分析文件的标记信息,然后对比标记信息的方式对文件进行排重分析,通过本方案可以高效的判断和快速的定位并分析文件中新追加的数据,防止对已分析内容进行重复分析,大大提高了分析效率。
实施例二:
本发明还提供一种文件标记和排重分析终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
进一步地,作为一个可执行方案,所述文件标记和排重分析终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述文件标记和排重分析终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述文件标记和排重分析终端设备的组成结构仅仅是文件标记和排重分析终端设备的示例,并不构成对文件标记和排重分析终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述文件标记和排重分析终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(CentranProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digitan SignanProcessor,DSP)、专用集成电路(Appnication Specific Integrated Circuit,ASIC)、现成可编程门阵列(Fiend-Programmabne Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述文件标记和排重分析终端设备的控制中心,利用各种接口和线路连接整个文件标记和排重分析终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述文件标记和排重分析终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digitan,SD)卡,闪存卡(Fnash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
所述文件标记和排重分析终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnnyMemory)、随机存取存储器(RAM,Random Access Memory)以及软件分发介质等。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (7)
1.一种文件标记和排重分析方法,其特征在于:包括以下步骤:
S100:记录待分析文件的文件信息,所述文件信息包括文件名特征值和文件总大小;
S200:检查待分析文件所在的路径下是否存在标记文件,当不存在时,进入S300,否则,进入S400;
S300:创建标记文件,对该待分析文件全部内容进行分析后,将所述待分析文件的标记信息写入该标记文件内,所述标记信息包括文件名特征值、文件总大小和文件已被分析的大小,进入S700;
S400:查找所述标记文件中是否存在待分析文件的标记信息,当不存在时,进入S500,否则,进入S600;
S500:对该待分析文件全部内容进行分析后,将所述待分析文件的标记信息写入标记文件内,进入S700;
S600:从标记文件中读取标记信息,判断文件信息中的文件总大小与标记信息中的文件总大小是否相等,如果相等,进入S700,如果文件信息中的文件总大小大于标记信息中的文件总大小,则跳过该待分析文件对应的标记信息中的文件已被分析的大小的内容,对该待分析文件剩余的内容进行分析,如果文件信息中的文件总大小小于标记信息中的文件总大小,对待分析文件的全部内容进行分析,分析完成后更新标记文件中该文件对应的文件已被分析的大小的内容,进入S700;
S700:重复步骤S100-S600,对待分析文件所在的路径下的所有文件循环进行排重分析,当扫描到标记文件时,跳过该文件不进行分析。
2.根据权利要求1所述的文件标记和排重分析方法,其特征在于:所述标记文件通过与待分析文件使用不同命名方式和使用不同后缀名方式两种方式中的一种来区别于被分析文件。
3.根据权利要求1所述的文件标记和排重分析方法,其特征在于:所述文件名特征值为文件名哈希值。
4.根据权利要求3所述的文件标记和排重分析方法,其特征在于:所述标记信息写入标记文件的方式为根据写入格式:文件名哈希值占16字节,文件总大小占8字节,文件已被分析的大小占8字节,按顺序将待分析文件的标记信息写入标记文件内。
5.根据权利要求1所述的文件标记和排重分析方法,其特征在于:步骤S400中所述查找的方法为使用文件名特征值来查找。
6.一种文件标记和排重分析终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~5所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~5所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810461099.3A CN108595715B (zh) | 2018-05-15 | 2018-05-15 | 一种文件标记和排重分析方法、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810461099.3A CN108595715B (zh) | 2018-05-15 | 2018-05-15 | 一种文件标记和排重分析方法、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595715A true CN108595715A (zh) | 2018-09-28 |
CN108595715B CN108595715B (zh) | 2020-09-11 |
Family
ID=63630934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810461099.3A Active CN108595715B (zh) | 2018-05-15 | 2018-05-15 | 一种文件标记和排重分析方法、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595715B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070038669A1 (en) * | 2005-08-04 | 2007-02-15 | Microsoft Corporation | Media file organization for shuffled playback |
CN106484881A (zh) * | 2016-10-14 | 2017-03-08 | 北京百度网讯科技有限公司 | 文件处理方法和装置 |
CN107741968A (zh) * | 2017-10-09 | 2018-02-27 | 郑州云海信息技术有限公司 | 一种文件检索的方法、系统、装置及计算机可读存储介质 |
-
2018
- 2018-05-15 CN CN201810461099.3A patent/CN108595715B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070038669A1 (en) * | 2005-08-04 | 2007-02-15 | Microsoft Corporation | Media file organization for shuffled playback |
CN106484881A (zh) * | 2016-10-14 | 2017-03-08 | 北京百度网讯科技有限公司 | 文件处理方法和装置 |
CN107741968A (zh) * | 2017-10-09 | 2018-02-27 | 郑州云海信息技术有限公司 | 一种文件检索的方法、系统、装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
席晔文等: "基于双布鲁姆过滤器的数据排重技术", 《计算机工程与应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108595715B (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644286B (zh) | 工作流处理方法及装置 | |
US9262180B2 (en) | Method and apparatus for recommending product features in a software application in real time | |
CN112329419A (zh) | 文档编辑方法、装置、服务器、终端和存储介质 | |
CN107977346A (zh) | 一种pdf文档编辑方法及终端设备 | |
CN111177113A (zh) | 数据迁移方法、装置、计算机设备和存储介质 | |
US20130151942A1 (en) | Inference-Based Extension Activation | |
CN110909123A (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN113010116A (zh) | 一种数据处理方法、装置、终端设备及可读存储介质 | |
CN110543450A (zh) | 电子文档生成方法、装置、计算机设备及存储介质 | |
CN117874002A (zh) | 一种用于异构数据迁移的方法及系统 | |
WO2023197725A1 (zh) | 一种同类型标签数据预测方法、终端设备及存储介质 | |
CN110377891B (zh) | 事件分析文章的生成方法、装置、设备及计算机可读存储介质 | |
CN111880803A (zh) | 一种应用于多平台的软件构建方法及装置 | |
CN111832254A (zh) | 图纸标注显示处理方法及装置 | |
CN111666520A (zh) | 基于表单图像生成电子表单的方法和装置 | |
CN108595715A (zh) | 一种文件标记和排重分析方法、终端设备及存储介质 | |
CN111221690A (zh) | 针对集成电路设计的模型确定方法、装置及终端 | |
CN110058938B (zh) | 一种内存处理方法、装置、电子设备和可读介质 | |
CN111737090B (zh) | 日志仿真方法、装置、计算机设备和存储介质 | |
CN114968725A (zh) | 任务依赖关系校正方法、装置、计算机设备及存储介质 | |
CN110532391B (zh) | 一种文本词性标注的方法及装置 | |
CN112528100A (zh) | 一种标签策略推荐和打标方法、终端设备及存储介质 | |
CN113821193A (zh) | 一种信息生成的方法、装置和存储介质 | |
CN111159126A (zh) | 文件压缩操作的审计方法、装置、电子设备及存储介质 | |
CN110909112A (zh) | 数据提取方法、装置、终端设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |