CN111177082A - 一种pdf文件去重存储方法及系统 - Google Patents

一种pdf文件去重存储方法及系统 Download PDF

Info

Publication number
CN111177082A
CN111177082A CN201911221955.9A CN201911221955A CN111177082A CN 111177082 A CN111177082 A CN 111177082A CN 201911221955 A CN201911221955 A CN 201911221955A CN 111177082 A CN111177082 A CN 111177082A
Authority
CN
China
Prior art keywords
stored
pdf file
characteristic value
file
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911221955.9A
Other languages
English (en)
Other versions
CN111177082B (zh
Inventor
鲍建涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shiqiang Xianjin Shenzhen Technology Co ltd
Original Assignee
Shiqiang Xianjin Shenzhen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shiqiang Xianjin Shenzhen Technology Co ltd filed Critical Shiqiang Xianjin Shenzhen Technology Co ltd
Priority to CN201911221955.9A priority Critical patent/CN111177082B/zh
Publication of CN111177082A publication Critical patent/CN111177082A/zh
Priority to PCT/CN2020/129125 priority patent/WO2021109850A1/zh
Application granted granted Critical
Publication of CN111177082B publication Critical patent/CN111177082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种PDF文件去重存储方法及系统。该存储方法包括读取待存PDF文件的待存特征值;逐级判断是否记录有与所述待存特征值相匹配的已存特征值,若否,则存储所述待存PDF文件并更新所述已存特征值的记录。本发明中,通过读取待存PDF文件的待存特征值,并比对该待存特征值是否与已存特征值相匹配的方法,来判断该待存PDF文件与已存PDF文件是否相同,并在当该待存PDF文件与已存PDF文件不相同时,存储该待存PDF文件。实现了只存储不相重复的PDF文件,节约了文件存储资源,而且,避免使用者浏览重复的文件,提升用户体验。

Description

一种PDF文件去重存储方法及系统
技术领域
本发明涉及数据处理领域,更具体地说,涉及一种PDF文件去重存储方法及系统。
背景技术
随着信息时代的不断发展,人们在学习知识、交流信息时,也逐渐选择采用电子文件的方式进行,在众多格式类型的电子文件中,由于PDF格式的电子文件具有内容不易修改性、经过缩放不会变形的高保真性等特点,被越来越多的使用者选择。
伴随着PDF格式文件数量的不断增多,同时也出现了在存储的多个PDF文件中,存在着两文件的文件名不同、但内容相同,或两文件的文件名相同、但内容不同的情况,给人们的知识学习、信息交流带来困扰以及不便,同时也造成存储资源浪费。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述难以分辨所存储的PDF文件是否相同的缺陷,提供一种PDF文件去重存储方法及系统。
本发明解决其技术问题所采用的技术方案是:构造一种PDF文件去重存储方法,包括:
S1:读取待存PDF文件的待存特征值;
S2:逐级判断是否记录有与所述待存特征值相匹配的已存特征值,若否,则执行步骤S3;
S3:存储所述待存PDF文件并更新所述已存特征值的记录。
优选的,所述待存特征值包括待存PDF文件流的MD5码;
所述步骤S2中的逐级判断包括:
S21:判断是否记录有与所述待存PDF文件流的MD5码相同的已存特征值,若有,则执行步骤S29;
S29:删除所述待存PDF文件。
优选的,所述待存特征值还包括待存PDF文件中文字内容的MD5码;
在所述步骤S21中,当未找到与所述待存PDF文件流的MD5码相同的已存特征值的记录时,所述步骤S2中的逐级判断还包括:
S22:判断是否记录有与所述待存PDF文件中文字内容的MD5码相同的已存特征值,若有,则执行步骤S23;
S23:判断所述已存特征值对应的文件中其它内容与所述待存PDF文件中其它内容是否相同,若相同,则执行所述步骤S29。
优选的,所述待存特征值还包括待存PDF文件中文字内容的SIMHASH码以及待存PDF文件的页数;
所述步骤S22中,当未找到与所述待存PDF文件中文字内容的MD5码相同的已存特征值,或所述步骤S23中,当判断所述已存特征值对应的文件中其它内容与所述待存PDF文件中其它内容不相同时,所述步骤S2中的逐级判断还包括:
S24:判断是否记录有与所述待存PDF文件中文字内容的SIMHASH码的海明距离在预设范围内的已存特征值,若有,则执行步骤S25;
S25:判断所述已存特征值对应的文件的页数与所述待存PDF文件的页数是否相同,若相同,则执行步骤S26,并进一步判断;
S26:将对应的已存特征值存储至疑似重复区;其中,所述对应的已存特征值为与所述待存PDF文件中文字内容的SIMHASH码的海明距离在预设范围内的所述已存特征值。
优选的,在所述步骤S23中,当判断所述已存特征值对应的文件中其它内容与所述待存PDF文件中其它内容不相同时,还包括:
执行所述步骤S26,并进一步判断;
其中,所述对应的已存特征值为与所述待存PDF文件中文字内容的MD5码相同的所述已存特征值。
优选的,所述进一步判断具体包括:
S27:判断疑似重复临时区是否存储有已存特征值,若有,执行步骤S28;
S28:人工比对所述已存特征值对应的文件与所述待存PDF文件是否相同,若相同,则执行所述步骤S29,否则,执行所述步骤S3。
优选的,所述预设范围为3。
优选的,所述步骤S3中还包括:
生成并记录所述待存PDF文件的文件编号以及文件存储路径。
本发明还构造一种PDF文件去重存储系统,包括:
信息读取模块,用于读取待存PDF文件的待存特征值;
内容比较模块,用于逐级判断是否记录有与所述待存特征值相匹配的已存特征值;
存储模块,用于当未记录有与所述待存特征值相匹配的已存特征值时,存储所述待存PDF文件;
数据库,用于当所述存储模块存储所述待存PDF文件时,更新所述已存特征值的记录。
优选的,所述待存特征值包括:
待存PDF文件流的MD5码、待存PDF文件中文字内容的MD5码以及SIMHASH码、以及待存PDF文件的页数。
实施本发明的PDF文件去重存储方法及系统,具有以下有益效果:
通过读取待存PDF文件的待存特征值,并比对该待存特征值是否与已存特征值相匹配的方法,来判断该待存PDF文件与已存PDF文件是否相同,并在当该待存PDF文件与已存PDF文件不相同时,存储该待存PDF文件。实现了只存储不相重复的PDF文件,节约了文件存储资源,而且,避免使用者浏览重复的文件,提升用户体验。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明的PDF文件去重存储方法第一实施例的流程图;
图2是本发明的PDF文件去重存储方法第二实施例的流程图;
图3是本发明的PDF文件去重存储方法第三实施例的流程图;
图4是本发明的PDF文件去重存储方法第四实施例的流程图;
图5是本发明的PDF文件去重存储方法第五实施例的流程图;
图6是本发明的PDF文件去重存储系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明的PDF文件去重存储方法第一实施例的流程图,本实施例的PDF文件去重存储方法可应用于数据处理设备中,例如应用于手机、计算机、服务器等具有数据处理能力的电子设备中,如图1所示,在本实施例中,PDF文件去重存储方法主要包括以下步骤:
步骤S1:读取待存PDF文件的待存特征值。
实际中,当用户通过数据处理设备进行新增的PDF文件的存储时,数据处理设备以该新增的PDF文件作为待存PDF文件,读取该待存PDF文件的待存特征值,通过判断该待存特征值与已存PDF文件的已存特征值是否相匹配,来判断该待存PDF文件是否与已存PDF文件相同,从而确定是否存储该待存PDF文件。
可以理解地,数据处理设备在接收待存PDF文件前,可以已存储有PDF文件,作为已存PDF文件,并当已存储有PDF文件时,并记录有与该已存PDF文件对应的已存特征值,其中,已存特征值包括已存PDF文件流的MD5码、已存PDF文件中文字内容的MD5码以及SIMHASH码、以及已存PDF文件的页数中的一个或多个,当然,也存储有已存PDF文件的文件编号以及文件存储路径。
对应地,当接收到待存PDF文件时,数据处理设备读取待存PDF文件的与已存特征值对应的一个或多个待存特征值。即,当已存特征值包括已存PDF文件流的MD5码时,当接收到待存PDF文件时,读取待存PDF文件的待存PDF文件流的MD5码;当已存特征值包括已存PDF文件流的MD5码、以及已存PDF文件中文字内容的MD5码时,当接收到待存PDF文件时,读取待存PDF文件的待存PDF文件流的MD5码、以及待存PDF文件中文字内容的MD5码;以此类推,使得所读取的待存特征值与已存特征值相对应,以利于后续判断数据处理设备是否记录有与该待存特征值相匹配的已存特征值。
可以理解地,在数据处理设备存储一已存PDF文件,且同时对应记录有多个已存特征值的情况下,当数据处理设备接收到待存PDF文件时,可一次读取与该多个已存特征值对应的多个待存特征值并缓存,在后续判断过程中,再从缓存中读取出对应的待存特征值;可以理解地,也可一次只读取当次所需进行判断的待存特征值,例如,当需要判断据处理设备是否记录有与待存PDF文件流的MD5码相匹配的已存特征值时,只需读取待存PDF文件的待存PDF文件流的MD5码。
步骤S2:逐级判断是否记录有与上述待存特征值相匹配的已存特征值,若否,则执行步骤S3。
在数据处理设备存储一已存PDF文件,且同时对应记录有多个已存特征值的情况下,当数据处理设备接收到待存PDF文件时,读取待存PDF文件的与该已存特征值相对应的多个待存特征值,然后通过逐级判断该数据处理设备是否记录有与该待存特征值相匹配的已存储特征值。
可以理解地,当判断该数据处理设备已记录有与该待存特征值相匹配的已存储特征值时,判断该数据处理设备已存储有与该待存PDF文件相同的已存PDF文件,则删除该待存PDF文件,以避免重复存储;否则,判断该待存PDF文件与已存PDF文件不相同,并存储该待存PDF文件。
具体地,逐级判断包括两级或多级判断,且每级判断中,包括进行一个或多个待存特征值与对应的一个或多个已存特征值进行比较。且,逐级判断中的各级判断中,可根据特征值的特点,从待存PDF文件的整体内容至局部内容分别与已存PDF文件进行比较,且局部内容包括文字内容、图片内容、表格内容等。
本实施例中,通过采用逐级判断的方式,当判断待存PDF文件的整体内容与已存PDF文件的整体内容相同时,并不需要进行两者的局部内容比较,从而加快判断速度;且,各级判断中,所用于比较的特征值不同,即通过多种判断方式进行了两者的比较,提高了判断结果的可靠性,使得不重复存储。
步骤S3:存储上述待存PDF文件并更新上述已存特征值的记录。
具体地,当判断数据处理设备记录有与待存特征值相匹配的已存特征值时,认为待存PDF文件与已存PDF文件相同,则删除该待存PDF文件;否则,认为待存PDF文件与已存PDF文件不相同,则存储该待存PDF文件,并记录所读取的该待存PDF文件所对应的待存特征值,并,将该待存PDF文件及其对应的待存特征值作为已存PDF文件及其对应的已存特征值,从而更新数据处理设备中所存储以及记录的数据。
可以理解地,当判断待存PDF文件与已存PDF文件不相同时,同时生成该待存PDF文件的文件编号、以及文件存储路径,并记录该待存PDF文件的文件编号以及文件存储路径,为后续文件的追溯查找提供方便。
图2为本发明的PDF文件去重存储方法第二实施例的流程图,如图2所示,在本实施例中,PDF文件去重存储方法主要包括以下步骤:
步骤11:读取待存PDF文件的待存PDF文件流的MD5码。
具体地,当接收到待存PDF文件时,通过读取该待存PDF文件的PDF文件流,并将读取的PDF文件流转换为MD5码,以得到待存PDF文件流的MD5码。
步骤12:判断是否记录有与上述待存PDF文件流的MD5码相同的已存特征值。
可以理解地,在接收到该待存PDF文件前,数据处理设备可已存储有一个或多个已存PDF文件及记录有其对应的已存PDF文件流的MD5码,当读取到待存PDF文件流的MD5码后,查询该数据处理设备已记录的已存PDF文件流的MD5码中是否有与该待存PDF文件流的MD5码相同的,若有,则判断该待存PDF文件与该已存PDF文件流的MD5码对应的已存PDF文件相同,并执行步骤13,否则,判断该待存PDF文件与数据处理设备中的已存PDF文件不同,则执行步骤14。
步骤13:删除上述待存PDF文件。
步骤14.存储上述待存PDF文件并更新上述已存特征值的记录。
具体地,当判断待存PDF文件与已存PDF文件不相同时,将该待存PDF文件存储至指定路径,同时生成该待存PDF文件的文件编号,并记录该待存PDF文件流的MD5码、文件存储路径以及文件编号。
本实施例中,利用PDF文件流的MD5码的特性,以PDF文件流的MD5码作为判断对象,实现从整体内容上判断待存PDF文件与已存PDF文件是否相同,判断方法简单、速度快。
图3为本发明的PDF文件去重存储方法第三实施例的流程图,该实施例与上一实施例的区别在于,该实施例从局部内容上进行比较。如图3所示,在本实施例中,PDF文件去重存储方法主要包括以下步骤:
步骤21:读取待存PDF文件的待存PDF文件中文字内容的MD5码。
具体地,当接收到待存PDF文件时,通过读取该待存PDF文件的文字内容,并将读取的PDF文件的文字内容转换为MD5码,以得到待存PDF文件中文字内容的MD5码。可以理解地,可同时读取该待存PDF文件中其他内容,例如PDF文件中图片、表格内容及其他对象。
步骤22:判断是否记录有与上述待存PDF文件中文字内容的MD5码相同的已存特征值。
可以理解地,当查询到数据处理设备记录有与该待存PDF文件中文字内容的MD5码相同的已存PDF文件中文字内容的MD5码,则判断该待存PDF文件的文字内容与该已存PDF文件中文字内容的MD5码所对应的已存PDF文件的文字内容相同,并执行步骤23,以作进一步判断,否则,判断该待存PDF文件的文字内容与数据处理设备中的已存PDF文件的文字内容不同,执行步骤24。
步骤23:判断上述已存特征值对应的文件中其他内容与上述待存PDF文件中其他内容是否相同。
可以理解地,进一步判断所查询到的已存PDF文件中文字内容的MD5码所对应的已存PDF文件中其他内容与待存PDF文件中其他内容是否相同。其中,已存PDF文件中文字内容的MD5码可对应一个或多个已存PDF文件。对应比较待存PDF文件与该一个或多个已存PDF文件的除文字内容外的其他内容,其中,其他内容包括其中包括图片、表格内容及其他对象。
可以理解地,该其他内容的读取可在步骤21中执行,也可在该步骤执行前先读取。可以理解地,当两者的其他内容完全相同时,则判断为相同,否则,判断为不相同,例如两者的图片的缩放比例不同,仍判断为不相同。
若判断两者的其他内容也对应相同,则判断待存PDF文件整体内容与已存PDF文件整体内容相同,则执行步骤25,可以理解地,当判断待存PDF与一已存PDF文件相同时,只需要执行步骤25,并结束。否则,执行步骤26,可以理解地,当上述多个已存PDF文件的其他内容与待存PDF文件的其他内容都不相同时,才执行步骤26。
步骤24:存储上述待存PDF文件并更新上述已存特征值的记录。
步骤25:删除上述待存PDF文件。
步骤26:将与上述待存PDF文件中文字内容的MD5码相同的上述已存特征值存储至疑似重复临时区,并进一步判断。
可以理解地,当判断待存PDF文件与已存PDF文件的文字内容相同、但其他内容不相同时,则认为该待存PDF文件与已存PDF文件疑似相同,需进一步判断。
本实施例中,采用多次局部内容对应比较的方式去判断两者的整体内容是否相同,局部内容包括文字内容以及其他内容,其中,其他内容包括图片、表格内容及其他对象,通过对各局部内容进行对应比较,提高判断的准确率。
图4为本发明的PDF文件去重存储方法第四实施例的流程图,与上一实施例的区别在于,该实施例从整体内容结合局部内容的方式进行比较。如图4所示,在本实施例中,PDF文件去重存储方法主要包括以下步骤:
步骤31:读取待存PDF文件的待存PDF文件中文字内容的SIMHASH码以及待存PDF文件的页数。
具体地,通过读取该待存PDF文件的文字内容,并将读取的PDF文件的文字内容转换为SIMHASH码,以得到待存PDF文件中文字内容的SIMHASH码,以及,读取该待存PDF文件的PDF文件流,以得到待存PDF文件的页数。
步骤32:判断是否记录有与上述待存PDF文件中文字内容的SIMHASH码的海明距离在预设范围内的已存特征值。
可以理解地,在信息编码中,两个合法代码对应位上编码不同的位数称为码距,又称海明距离,通常认为海明距离在3内的是高度相似的文本。在本实施例中,预设范围为3,当然,该预设范围也可根据需要进行设置。
具体地,当查询到数据处理设备记录有与该待存PDF文件中文字内容的SIMHASH码的海明距离在3范围内的已存特征值时,则认为该数据处理设备存储有其文字内容与该待存PDF文件的文字内容高度相似的已存PDF文件,则执行步骤33,以作进一步判断,否则,执行步骤34。
步骤33:判断上述已存特征值对应的文件的页数与上述待存PDF文件的页数是否相同。
可以理解地,进一步判断所查询到的已存PDF文件中文字内容的SIMHASH码所对应的文件的页数与待存PDF文件的页数是否相同。其中,查询到的已存PDF文件可包括一个或多个已存PDF文件。当包括多个已存PDF文件时,具有以下情况,一是所有上述已存PDF文件的的页数都与待存PDF文件的页数不同,则认为待存PDF文件与已存PDF文件不同,则执行步骤34;二是所有上述已存PDF文件的的页数都与待存PDF文件的页数相同,则执行步骤35;三是同时存有与待存PDF文件的页数相同、以及不相同的已存PDF文件,则丢弃该所查询到的与待存PDF文件的页数不相同的已存PDF文件的的页数记录,并将页数相同的已存PDF文件作为疑似相同文件,执行步骤35。
步骤34:存储上述待存PDF文件并更新上述已存特征值的记录。
步骤35:将与上述待存PDF文件中文字内容的SIMHASH码的海明距离在预设范围内的上述已存特征值存储至疑似重复临时区,并进一步判断。
本实施例中,采用整体内容结合局部内容对应比较的方式,判断待存PDF文件与已存PDF文件是否相同,提高判断的准确率。
进一步的,上述第三、以及第四实施例中,进一步判断主要包括以下步骤:
步骤41:判断疑似重复临时区是否存储有已存特征值,若有,则执行步骤42。
步骤42:人工比对上述已存特征值对应的文件与上述待存PDF文件是否相同,若相同,则删除上述待存PDF文件;若不相同,则存储上述述待存PDF文件并更新上述已存特征值的记录。
具体地,根据疑似重复临时区中存储的已存特征值,读取数据处理设备存储中与该已存特征值对应的已存PDF文件,并通过人工判断待存PDF文件与该已存PDF是否相同,通过人工判断方式,可消除了上述判断中因图片、表格等对象的缩放程度、清晰度不同而判断为内容不同的缺陷,提高判断的准确率。
图5为本发明的PDF文件去重存储方法第五实施例的流程图,该实施例由上述第二、第三以及第四实施例所组合形成的逐步判断的方案,因此,与上述实施例重复的步骤内容不再次详述。
如图5所示,在本实施例中,PDF文件去重存储方法主要包括以下步骤:
步骤S1:读取待存PDF文件的待存特征值。
具体地,读取待存PDF文件的待存PDF文件流的MD5码、待存PDF文件中文字内容的MD5以及SIMHASH码、以及待存PDF文件的页数。
步骤S21:判断是否记录有与上述待存PDF文件流的MD5码相同的已存特征值,若有,则执行步骤S29;否则,执行步骤S22。
步骤S29:删除上述待存PDF文件,结束进程。
步骤S22:判断是否记录有与上述待存PDF文件中文字内容的MD5码相同的已存特征值,若有,则执行步骤S23,否则,执行步骤S24。
步骤S23:判断上述已存特征值对应的文件中其他内容与上述待存PDF文件中其他内容是否相同,若相同,则执行步骤S29,否则,执行步骤S26、以及步骤S24。
可以理解地,该步骤中,当存在相同的情况时,直接执行步骤S29,不再执行其他步骤,流程结束;当都不相同的情况时,先执行步骤S26,再执行步骤S24,以保证对应的已存特征值存储至疑似重复区中。可以理解地,当步骤S23中,存在都不相同的情况,为提高判断的准确性,需进一步执行步骤S24。
步骤S24:判断是否记录有与上述待存PDF文件中文字内容的SIMHASH码的海明距离在预设范围内的已存特征值,若有,则执行步骤S25,否则,执行步骤S27。
本实施例中,该预设范围为3,当然,也可根据需要进行设置。
步骤S25:判断上述已存特征值对应的文件的页数与上述待存PDF文件的页数是否相同,若相同,则执行步骤S26,否则,执行步骤S27。
可以理解地,该步骤中,当都不相同的情况,跳转至步骤S27,当存在都相同的情况,跳至步骤S26,当存在部分相同,部分不相同的情况,丢弃不相同的部分,跳至步骤S26。
步骤S26:将对应的已存特征值存储至疑似重复区。
可以理解地,当由步骤S23跳转至步骤S26时,为将与待存PDF文件中文字内容的MD5码相同的已存特征值存储至疑似重复临时区;当由步骤S25跳转至步骤S26时,为将与待存PDF文件中文字内容的SIMHASH码的海明距离在预设范围内的已存特征值存储至疑似重复临时区。
步骤S27:判断疑似重复临时区是否存储有已存特征值,若有,则执行步骤S28,否则,执行步骤S3。
可以理解地,当疑似重复临时区没有存储到已存特征值时,则认为该待存PDF文件与已存PDF文件都不相同。
步骤S28:人工比对上述已存特征值对应的文件与上述待存PDF文件是否相同,若相同,则执行步骤S29,否则,执行步骤S3。
步骤S3:存储上述待存PDF文件并更新上述已存特征值的记录,结束进程。
本实施例中的PDF文件去重存储方法,采用逐级判断的方法判断待存PDF文件与已存PDF文件是否相同,且,各级判断中,采用整体内容、局部内容、以及整体结合局部内容的判断方式进行判断比较,提高判断的准确率。
图6为本发明的PDF文件去重存储系统第一实施例的结构示意图,该系统可应用于数据处理设备中,例如手机、计算机、服务器等具有数据处理能力的电子设备。
如图6所示,该PDF文件去重存储系统100包括:信息读取模块101、内容比较模块102、存储模块103、以及数据库104,可以理解地,该PDF文件去重存储系统中的各模块与上述第一至第五实施例中的PDF文件去重存储方法对应,具体步骤不再详述。
信息读取模块101,用于读取待存PDF文件的待存特征值。
可以理解地,当数据处理设备接收到待存PDF文件时,信息读取模块101读取待存PDF文件的与已存特征值对应的一个或多个待存特征值。其中包括,信息读取模块101通过读取该待存PDF文件的PDF文件流,并将读取的PDF文件流转换为MD5码,以得到待存PDF文件流的MD5码;读取该待存PDF文件的文字内容,并将读取的PDF文件的文字内容转换为MD5码和SIMHASH码,以得到待存PDF文件中文字内容的MD5码以及SIMHASH码;读取待存PDF文件的页数、读取待存PDF文件中其他内容,其中,其他内容包括图片、表格以及其他对象。
内容比较模块102,用于逐级判断是否记录有与上述待存特征值相匹配的已存特征值。
可以理解地,当内容比较模块102判断数据库104已记录有与该待存特征值相匹配的已存储特征值时,判断存储模块103已存储有与该待存PDF文件相同的已存PDF文件,则删除该待存PDF文件,以避免重复存储;否则,判断该待存PDF文件与已存PDF文件不相同,并通知存储模块103存储该待存PDF文件,以及通知数据库104存储该待存PDF文件所对应的待存特征值。
具体地,逐级判断包括两级或多级判断,且每级判断中,包括进行一个或多个待存特征值与对应的一个或多个已存特征值进行比较。且,逐级判断中的各级判断中,可根据特征值的特点,从待存PDF文件的整体内容至局部内容分别与已存PDF文件进行比较,且局部内容包括文字内容、图片内容、表格内容等。
可以理解地,整体内容判断包括判断待存PDF文件流的MD5码与已存PDF文件流的MD5码是否相同、待存PDF文件的页数与已存PDF文件的页数是否相同;局部内容判断包括待存PDF文件中文字内容的MD5码与已存PDF文件中文字内容的MD5码是否相同、待存PDF文件中文字内容的SIMHASH码与已存PDF文件中文字内容的SIMHASH码的海明距离是否在3范围内、待存PDF文件中其他内容与已存PDF文件中其他内容是否相同,其中,其他内容包括图片、表格以及其他对象。
存储模块103,用于当未记录有与上述待存特征值相匹配的已存特征值时,存储上述待存PDF文件。
数据库104,用于当存储模块103存储述待存PDF文件时,更新已存特征值的记录。
可以理解地,在接收待存PDF文件前,存储模块103存储有已存PDF文件,同时,数据库104记录有与该已存PDF文件对应的已存特征值。其中,已存特征值包括已存PDF文件流的MD5码、已存PDF文件中文字内容的MD5码以及SIMHASH码、以及已存PDF文件的页数中的一个或多个,当然,也存储有已存PDF文件的文件编号以及文件存储路径。
具体地,存储模块103接收到内容比较模块102的通知后,将待存PDF文件存储至指定路径,数据库104接收到内容比较模块102的通知后,记录待存PDF文件所对应的待存特征值。
在本发明中,通过读取待存PDF文件的待存特征值,并比对该待存特征值是否与已存特征值相匹配的方法,来判断该待存PDF文件与已存PDF文件是否相同,并在当该待存PDF文件与已存PDF文件不相同时,存储该待存PDF文件。实现了只存储不相重复的PDF文件,节约了文件存储资源,而且,避免使用者浏览重复的文件,提升用户体验。
可以理解的,以上实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,可以对上述技术特点进行自由组合,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,凡跟本发明权利要求范围所做的等同变换与修饰,均应属于本发明权利要求的涵盖范围。

Claims (10)

1.一种PDF文件去重存储方法,其特征在于,包括:
S1:读取待存PDF文件的待存特征值;
S2:逐级判断是否记录有与所述待存特征值相匹配的已存特征值,若否,则执行步骤S3;
S3:存储所述待存PDF文件并更新所述已存特征值的记录。
2.根据权利要求1所述的PDF文件去重存储方法,其特征在于:
所述待存特征值包括待存PDF文件流的MD5码;
所述步骤S2中的逐级判断包括:
S21:判断是否记录有与所述待存PDF文件流的MD5码相同的已存特征值,若有,则执行步骤S29;
S29:删除所述待存PDF文件。
3.根据权利要求2所述的PDF文件去重存储方法,其特征在于:
所述待存特征值还包括待存PDF文件中文字内容的MD5码;
在所述步骤S21中,当未找到与所述待存PDF文件流的MD5码相同的已存特征值的记录时,所述步骤S2中的逐级判断还包括:
S22:判断是否记录有与所述待存PDF文件中文字内容的MD5码相同的已存特征值,若有,则执行步骤S23;
S23:判断所述已存特征值对应的文件中其它内容与所述待存PDF文件中其它内容是否相同,若相同,则执行所述步骤S29。
4.根据权利要求3所述的PDF文件去重存储方法,其特征在于:
所述待存特征值还包括待存PDF文件中文字内容的SIMHASH码以及待存PDF文件的页数;
所述步骤S22中,当未找到与所述待存PDF文件中文字内容的MD5码相同的已存特征值,或所述步骤S23中,当判断所述已存特征值对应的文件中其它内容与所述待存PDF文件中其它内容不相同时,所述步骤S2中的逐级判断还包括:
S24:判断是否记录有与所述待存PDF文件中文字内容的SIMHASH码的海明距离在预设范围内的已存特征值,若有,则执行步骤S25;
S25:判断所述已存特征值对应的文件的页数与所述待存PDF文件的页数是否相同,若相同,则执行步骤S26,并进一步判断;
S26:将对应的已存特征值存储至疑似重复区;其中,所述对应的已存特征值为与所述待存PDF文件中文字内容的SIMHASH码的海明距离在预设范围内的所述已存特征值。
5.根据权利要求4所述的PDF文件去重存储方法,其特征在于:
在所述步骤S23中,当判断所述已存特征值对应的文件中其它内容与所述待存PDF文件中其它内容不相同时,还包括:
执行所述步骤S26,并进一步判断;
其中,所述对应的已存特征值为与所述待存PDF文件中文字内容的MD5码相同的所述已存特征值。
6.根据权利要求4-5任一项所述的PDF文件去重存储方法,其特征在于:
所述进一步判断具体包括:
S27:判断疑似重复临时区是否存储有已存特征值,若有,执行步骤S28;
S28:人工比对所述已存特征值对应的文件与所述待存PDF文件是否相同,若相同,则执行所述步骤S29,否则,执行所述步骤S3。
7.根据权利要求5所述的PDF文件去重存储方法,其特征在于:
所述预设范围为3。
8.根据权利要求1所述的PDF文件去重存储方法,其特征在于:
所述步骤S3中还包括:
生成并记录所述待存PDF文件的文件编号以及文件存储路径。
9.一种PDF文件去重存储系统,其特征在于,包括:
信息读取模块,用于读取待存PDF文件的待存特征值;
内容比较模块,用于逐级判断是否记录有与所述待存特征值相匹配的已存特征值;
存储模块,用于当未记录有与所述待存特征值相匹配的已存特征值时,存储所述待存PDF文件;
数据库,用于当所述存储模块存储所述待存PDF文件时,更新所述已存特征值的记录。
10.根据权利要求9所述的PDF文件去重存储系统,其特征在于:
所述待存特征值包括:
待存PDF文件流的MD5码、待存PDF文件中文字内容的MD5码以及SIMHASH码、以及待存PDF文件的页数。
CN201911221955.9A 2019-12-03 2019-12-03 一种pdf文件去重存储方法及系统 Active CN111177082B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911221955.9A CN111177082B (zh) 2019-12-03 2019-12-03 一种pdf文件去重存储方法及系统
PCT/CN2020/129125 WO2021109850A1 (zh) 2019-12-03 2020-11-16 一种pdf文件去重存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911221955.9A CN111177082B (zh) 2019-12-03 2019-12-03 一种pdf文件去重存储方法及系统

Publications (2)

Publication Number Publication Date
CN111177082A true CN111177082A (zh) 2020-05-19
CN111177082B CN111177082B (zh) 2023-06-09

Family

ID=70650096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911221955.9A Active CN111177082B (zh) 2019-12-03 2019-12-03 一种pdf文件去重存储方法及系统

Country Status (2)

Country Link
CN (1) CN111177082B (zh)
WO (1) WO2021109850A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021109850A1 (zh) * 2019-12-03 2021-06-10 世强先进(深圳)科技股份有限公司 一种pdf文件去重存储方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961549A (zh) * 2021-09-22 2022-01-21 李凤杰 基于数据仓库的医疗数据整合方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101141476A (zh) * 2007-10-09 2008-03-12 创新科存储技术(深圳)有限公司 文件存储、下载方法以及装置
US20110145207A1 (en) * 2009-12-15 2011-06-16 Symantec Corporation Scalable de-duplication for storage systems
CN102473127A (zh) * 2009-07-16 2012-05-23 国际商业机器公司 在包含源和目标的分布式环境中进行重复数据删除的集成方法
US20150006475A1 (en) * 2013-06-26 2015-01-01 Katherine H. Guo Data deduplication in a file system
CN105740266A (zh) * 2014-12-10 2016-07-06 国际商业机器公司 用于数据去重的方法和设备
CN108038124A (zh) * 2017-11-06 2018-05-15 广东广业开元科技有限公司 一种基于大数据的pdf文档采集处理方法、系统及装置
CN109213738A (zh) * 2018-11-20 2019-01-15 武汉理工光科股份有限公司 一种云存储文件级重复数据删除检索系统及方法
CN110413589A (zh) * 2019-07-30 2019-11-05 中国联合网络通信集团有限公司 基于星际文件系统的信息管理方法及平台

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136243B (zh) * 2011-11-29 2016-08-31 中国电信股份有限公司 基于云存储的文件系统去重方法及装置
CN103970722B (zh) * 2014-05-07 2017-04-05 江苏金智教育信息技术有限公司 一种文本内容去重的方法
CN106569989A (zh) * 2016-10-20 2017-04-19 北京智能管家科技有限公司 一种用于短文本的去重方法及装置
CN109241505A (zh) * 2018-10-09 2019-01-18 北京奔影网络科技有限公司 文本去重方法及装置
CN111177082B (zh) * 2019-12-03 2023-06-09 世强先进(深圳)科技股份有限公司 一种pdf文件去重存储方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101141476A (zh) * 2007-10-09 2008-03-12 创新科存储技术(深圳)有限公司 文件存储、下载方法以及装置
CN102473127A (zh) * 2009-07-16 2012-05-23 国际商业机器公司 在包含源和目标的分布式环境中进行重复数据删除的集成方法
US20110145207A1 (en) * 2009-12-15 2011-06-16 Symantec Corporation Scalable de-duplication for storage systems
US20150006475A1 (en) * 2013-06-26 2015-01-01 Katherine H. Guo Data deduplication in a file system
CN105740266A (zh) * 2014-12-10 2016-07-06 国际商业机器公司 用于数据去重的方法和设备
CN108038124A (zh) * 2017-11-06 2018-05-15 广东广业开元科技有限公司 一种基于大数据的pdf文档采集处理方法、系统及装置
CN109213738A (zh) * 2018-11-20 2019-01-15 武汉理工光科股份有限公司 一种云存储文件级重复数据删除检索系统及方法
CN110413589A (zh) * 2019-07-30 2019-11-05 中国联合网络通信集团有限公司 基于星际文件系统的信息管理方法及平台

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021109850A1 (zh) * 2019-12-03 2021-06-10 世强先进(深圳)科技股份有限公司 一种pdf文件去重存储方法及系统

Also Published As

Publication number Publication date
WO2021109850A1 (zh) 2021-06-10
CN111177082B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
US9087049B2 (en) System and method for context translation of natural language
RU2464630C2 (ru) Двухпроходное хеш извлечение текстовых строк
US8838657B1 (en) Document fingerprints using block encoding of text
US10224957B1 (en) Hash-based data matching enhanced with backward matching for data compression
CN110046637B (zh) 一种合同段落标注模型的训练方法、装置及设备
US20170199889A1 (en) Method and device for identifying junk picture files
CN111177082A (zh) 一种pdf文件去重存储方法及系统
CN111488556A (zh) 一种嵌套文档提取方法、装置及电子设备和存储介质
US9910857B2 (en) Data management
CN111241496B (zh) 确定小程序特征向量的方法、装置和电子设备
CN104156373A (zh) 编码格式检测方法及装置
CN110874526B (zh) 一种文件相似性检测方法、装置、电子设备及存储介质
CN108345679B (zh) 一种音视频检索方法、装置、设备及可读存储介质
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN116126997B (zh) 一种文献去重存储方法、系统、设备及存储介质
CN117194322A (zh) 文件分类管理方法、系统及计算设备
JP2020525949A (ja) メディア検索方法及び装置
CN111695327B (zh) 一种乱码修复方法、装置、电子设备及可读存储介质
KR20100008466A (ko) 중복 웹페이지 제거 장치 및 방법
TWI607325B (zh) 檢索索引產生方法及應用此方法之伺服器
US9189488B2 (en) Determination of landmarks
US10037148B2 (en) Facilitating reverse reading of sequentially stored, variable-length data
CN113407375B (zh) 数据库删除数据的恢复方法、装置、设备和存储介质
CN110929048A (zh) 一种书签生成方法、装置、电子设备及存储介质
CN116383346B (zh) 检索理解方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant