CN110874526B - 一种文件相似性检测方法、装置、电子设备及存储介质 - Google Patents
一种文件相似性检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110874526B CN110874526B CN201811653701.XA CN201811653701A CN110874526B CN 110874526 B CN110874526 B CN 110874526B CN 201811653701 A CN201811653701 A CN 201811653701A CN 110874526 B CN110874526 B CN 110874526B
- Authority
- CN
- China
- Prior art keywords
- information
- compared
- fragments
- picture
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 20
- 239000012634 fragment Substances 0.000 claims abstract description 105
- 238000006243 chemical reaction Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000008859 change Effects 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 abstract description 4
- 238000012986 modification Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开一种文件相似性检测方法、装置、电子设备及存储介质,涉及信息安全技术领域,能够对原文件及经过各种类型和范围修改的文件之间的相似性进行准确判断。所述方法包括:对至少两个被检测文件分别提取有效信息,其中,所述被检测文件为预设文字编辑软件生成的文件,所述有效信息为所述被检测文件中具有表达含义的文件内容;按照预设格式转换规则分别对提取出的有效信息进行格式转换,从而形成与所述被检测文件对应的待对比信息;对所述待对比信息进行分片对比,以确定所述至少两个被检测文件的相似度。本发明可用于文件相似性检测。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文件相似性检测方法、装置、电子设备及存储介质。
背景技术
在文件处理中,常常需要比较两个文件的相似性,以便确定两个文件是否同源。
目前用途较广的文件对比的方法有模糊哈希算法。模糊哈希算法能够根据文件局部数据的特点来决定是否分片,使得局部的变化(包括修改、增加、删除等)只影响局部的分片,而不会将影响扩散至其他分片点,从而降低局部修改的重要程度进而对两个文件进行相似度认定。
然而,如果文件是全局性的修改,模糊哈希算法检测出的文件相似性会有极大误差。
发明内容
有鉴于此,本发明实施例提供一种文件相似性检测方法、装置、电子设备及存储介质,能够对原文件及经过各种类型和范围修改的文件之间的相似性进行准确判断。
第一方面,本发明实施例提供一种文件相似性检测方法,包括:对至少两个被检测文件分别提取有效信息,其中,所述被检测文件为预设文字编辑软件生成的文件,所述有效信息为所述被检测文件中具有表达含义的文件内容;按照预设格式转换规则分别对提取出的有效信息进行格式转换,从而形成与所述被检测文件对应的待对比信息;对所述待对比信息进行分片对比,以确定所述至少两个被检测文件的相似度。
可选的,所述被检测文件的文件内容包括以下至少一种数据类型:文本类型、图片类型、音频类型、视频类型。
可选的,所述对至少两个被检测文件分别提取有效信息包括:对所述至少两个被检测文件中具有表达含义的文件内容按照所述数据类型进行分类提取。
可选的,所述预设格式转换规则包括以下至少一种:对文本类型的有效信息,删除其中的空格、换行、标点符号,统一保存为纯文本格式;对图片类型的有效信息,删除每个图片的描述信息,删除每个图片的边框和/或底纹,并将各所述图片转化成具有相同图片参数的图片,其中,所述图片参数的变化使转化后的各图片数据量小于或等于任一原图片的数据量;所述图片参数包括以下至少一项:分辨率、位深度、每英寸像素数、格式;对音频类型的有效信息,删除每个音频片段中空白的部分,删除每个音频片段中的描述信息,并将各所述音频片段转化成具有相同音频参数的音频片段,其中,所述音频参数的变化使转化后的各音频片段的数据量小于或等于任一原音频片段的数据量;所述音频参数包括以下至少一项:比特率、格式、采样率;对视频类型的有效信息,删除每个视频片段中空画面且无声的部分,删除每个视频片段中的描述信息,并将各所述视频片段转化成具有相同视频参数的视频片段,其中,所述视频参数的变化使转化后的各视频片段的数据量小于或等于任一原视频片段的数据量;所述视频参数包括以下至少一项:格式、分辨率、数据速率、比特率、总帧率、音频比特率、音频采样率、压缩算法。
可选的,所述对所述待对比信息进行分片对比,以确定所述至少两个被检测文件的相似度包括:分别将各所述待对比信息中的信息内容按照预设排序规则排序;将排序后的各所述待对比信息分别切分成至少一个分片;采用滑动窗口的方式对各所述待对比信息进行逐分片对比;根据对比结果确定所述至少两个被检测文件的相似度。
可选的,所述分别将各所述待对比信息中的信息内容按照预设排序规则排序包括:根据所述信息内容的数据类型,分别对每条所述待对比信息中的信息内容进行排序;在每种数据类型的信息内容内部,根据所述数据类型的信息内容中不同信息片段的哈希值对各所述信息片段进行排序。
第二方面,本发明的实施例还提供一种文件相似性检测装置,包括:提取单元,用于对至少两个被检测文件分别提取有效信息,其中,所述被检测文件为预设文字编辑软件生成的文件,所述有效信息为所述被检测文件中具有表达含义的文件内容;转换单元,用于按照预设格式转换规则分别对提取出的有效信息进行格式转换,从而形成与所述被检测文件对应的待对比信息;对比单元,对所述待对比信息进行分片对比,以确定所述至少两个被检测文件的相似度。
可选的,所述被检测文件的文件内容包括以下至少一种数据类型:文本类型、图片类型、音频类型、视频类型。
可选的,所述提取单元,具体用于对所述至少两个被检测文件中具有表达含义的文件内容按照所述数据类型进行分类提取。
可选的,所述预设格式转换规则包括以下至少一种:对文本类型的有效信息,删除其中的空格、换行、标点符号,统一保存为纯文本格式;对图片类型的有效信息,删除每个图片的描述信息,删除每个图片的边框和/或底纹,并将各所述图片转化成具有相同图片参数的图片,其中,所述图片参数的变化使转化后的各图片数据量小于或等于任一原图片的数据量;所述图片参数包括以下至少一项:分辨率、位深度、每英寸像素数、格式;对音频类型的有效信息,删除每个音频片段中空白的部分,删除每个音频片段中的描述信息,并将各所述音频片段转化成具有相同音频参数的音频片段,其中,所述音频参数的变化使转化后的各音频片段的数据量小于或等于任一原音频片段的数据量;所述音频参数包括以下至少一项:比特率、格式、采样率;对视频类型的有效信息,删除每个视频片段中空画面且无声的部分,删除每个视频片段中的描述信息,并将各所述视频片段转化成具有相同视频参数的视频片段,其中,所述视频参数的变化使转化后的各视频片段的数据量小于或等于任一原视频片段的数据量;所述视频参数包括以下至少一项:格式、分辨率、数据速率、比特率、总帧率、音频比特率、音频采样率、压缩算法。
可选的,所述对比单元包括:排序模块,用于分别将各所述待对比信息中的信息内容按照预设排序规则排序;切片模块,用于将排序后的各所述待对比信息分别切分成至少一个分片;对比模块,用于采用滑动窗口的方式对各所述待对比信息进行逐分片对比;确定模块,用于根据对比结果确定所述至少两个被检测文件的相似度。
可选的,所述排序模块,具体用于:根据所述信息内容的数据类型,分别对每条所述待对比信息中的信息内容进行排序;在每种数据类型的信息内容内部,根据所述数据类型的信息内容中不同信息片段的哈希值对各所述信息片段进行排序。
第三方面,本发明的实施例还提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行本发明实施例提供的任一种文件相似性检测方法。
第四方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明实施例提供的任一种文件相似性检测方法。
本发明的实施例提供的文件相似性检测方法、装置、电子设备及存储介质,能够对至少两个被检测文件中具有表达含义的文件内容分别提取有效信息,然后按照预设格式转换规则分别对提取出的有效信息进行格式转换,从而形成与所述被检测文件对应的待对比信息,再对所述待对比信息进行分片对比,以确定所述至少两个被检测文件的相似度。这样,由于舍弃了文件内容中的无效信息并对提取出的有效信息规范了格式,一方面大大减小了无效信息对文件相似性检测造成的干扰,另一方面能够使各种类型的有效信息更加规范、更易于进行比较,从而大大提高了文件相似性检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的实施例提供的文件相似性检测方法的一种流程图;
图2为本发明的实施例提供的文件相似性检测方法的一种详细流程图;
图3为本发明的实施例提供的文件相似性检测装置的一种结构示意图;
图4为本发明的实施例提供的电子设备的一种结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
第一方面,本发明实施例提供一种文件相似性检测方法,能够对原文件及经过各种类型和范围修改的文件之间的相似性进行准确判断。
如图1所示,本发明实施例提供的文件相似性检测方法可以包括:
S11,对至少两个被检测文件分别提取有效信息,其中,所述被检测文件为预设文字编辑软件生成的文件,所述有效信息为所述被检测文件中具有表达含义的文件内容;
本步骤中的被检测文件主要为文档类文件,即由预设文字编辑软件生成的文件,例如doc、docx、即t、pptx、xls、xlsx、rtf、txt、pdf等。这些被检测文件可以以文本内容为表达基础,也可以带有格式信息、图片、音频、视频等多媒体信息。可选的,各被检测文件既可以由同一种文字编辑软件生成,例如都是由word生成的word文件,也可以由不同的文字编辑软件生成,例如其中一个被检测文件A由word软件生成,另一个被检测文件B由ppt软件生成。
具体而言,本步骤中提取出的有效信息是指在文件中具有表达含义的信息,而不含无效信息或也不含低价值信息。可选的,具有表达含义的信息可以以多种形式存在,例如文字、图片、视频等。无效信息和低价值信息例如可以为字体、段落、下划线等格式信息。
S12,按照预设格式转换规则分别对提取出的有效信息进行格式转换,从而形成与所述被检测文件对应的待对比信息;
本步骤中,提取出的有效信息可能基于多种格式,例如基于文字形式的有效信息和基于图片形式的有效信息,因此,在预设格式转换规则中,对于不同格式的有效信息,具体的转换规则也可以相应不同。也就是说,在所述预设格式转换规则中,不同格式的有效信息可以对应不同的格式转换规则,但同一种格式的有效信息则会遵循同一种格式转换规则。这样,由于各有效信息中各种格式各自遵循同样的格式转换规则,经过格式转换后形成的各条待对比信息在格式上具有一致性。例如,有效信息C、D中都包括文本信息和图片信息,则进行格式转换时,将有效信息C和D中的文本信息都转换为txt格式,将有效信息C和D中的所有图片信息都转换为jpg格式等。
本步骤中,经过格式转换后的有效信息称为待对比信息,由于每条有效信息来自一个被检测文件,因此,每条待对比信息与每个被检测文件也是一一对应的。
S13,对所述待对比信息进行分片对比,以确定所述至少两个被检测文件的相似度。
本步骤中,可以对各条待对比信息按照预设大小切分为多个分片,然后对各待对比信息进行逐分片地比较,分别找到相似的分片和不相似的分片,从而计算出对应的被检测文件之间的相似度。
需要说明的是,当被检测文件的数量为两个时,可以对这两个被检测文件进行对比,当被检测文件的数量为两个以上时,可以将被检测文件进行两两对比。
本发明的实施例提供的文件相似性检测方法,能够对至少两个被检测文件中具有表达含义的文件内容分别提取有效信息,然后按照预设格式转换规则分别对提取出的有效信息进行格式转换,从而形成与所述被检测文件对应的待对比信息,再对所述待对比信息进行分片对比,以确定所述至少两个被检测文件的相似度。这样,由于舍弃了文件内容中的无效信息并对提取出的有效信息规范了格式,一方面大大减小了无效信息对文件相似性检测造成的干扰,另一方面能够使各种类型的有效信息更加规范、更易于进行比较,从而大大提高了文件相似性检测的准确性。
可选的,在本发明的实施例中,被检测文件的文件内容可以为文字,也可以在文字中插入多媒体等多种类型的数据。例如,在本发明的一个实施例中,被检测文件的文件内容可以包括以下一种或多种数据类型:文本类型、图片类型、音频类型、视频类型。
对于这些数据类型的文件内容,在步骤S11的有效信息提取中,可以对所述至少两个被检测文件中具有表达含义的文件内容按照所述数据类型进行分类提取。例如,将一个被检测文件中所有具有表达含义的文字都提取出来集中存储成一个文件,并将所有图片也提取出来集中存储成另一个文件或者存储为一类文件。
提取出各被检测文件的有效信息后,可以按照预设格式转换规则,分别对有效信息进行格式转换,形成对应的待对比信息。具体而言,在本发明的一个实施例中,有效信息中可以包括多种数据类型,其中每种数据类型都可以拥有对应的格式转换规则。当对有效信息进行格式转换时,每种类型的数据遵循相应的格式转换规则。例如,文本类型的数据遵循格式转换规则R1,音频类型的数据遵循格式转换规则R2等,而R1和R2都属于预设格式转换规则R。
也就是说,预设格式转换规则可以具体规定多种格式转换的子规则,且各子规则可以根据执行格式转换的主体的不同而不同。可选的,在本发明的一个实施例中,预设格式转换规则可以包括以下一种或多种:
对文本类型的有效信息,删除其中的空格、换行、标点符号,统一保存为纯文本格式;
对图片类型的有效信息,删除每个图片的描述信息,删除每个图片的边框和/或底纹,并将各所述图片转化成具有相同图片参数的图片,其中,所述图片参数的变化使转化后的各图片的数据量小于或等于任一原图片的数据量;所述图片参数包括以下至少一项:分辨率、位深度、每英寸像素数、格式;其中,分辨率为水平像素数*垂直像素数、位深度为每个像素用几位2进制数表示、每英寸像素数即dpi、格式可以包括bmp、jpeg等。
对音频类型的有效信息,删除每个音频片段中空白的部分,删除每个音频片段中的描述信息,并将各所述音频片段转化成具有相同音频参数的音频片段,其中,所述音频参数的变化使转化后的各音频片段的数据量小于或等于任一原音频片段的数据量;所述音频参数包括以下至少一项:比特率、格式、采样率;其中,比特率例如可以为192kbps、96kbps等、格式例如可以为wma、mp3等。
对视频类型的有效信息,删除每个视频片段中空画面且无声的部分,删除每个视频片段中的描述信息,并将各所述视频片段转化成具有相同视频参数的视频片段,其中,所述视频参数的变化使转化后的各视频片段的数据量小于或等于任一原视频片段的数据量;所述视频参数包括以下至少一项:格式、分辨率、数据速率、比特率、总帧率、音频比特率、音频采样率、压缩算法。其中,视频的格式例如可以为avi、mp4等、压缩算法例如可以为mpeg2、h.265等。
具体而言,为了整理出合适的待对比信息,在本发明的一个实施例中,可以按照预设规则对有效信息中的文本类型的文件内容进行格式转换。由于各条有效信息都按照此规则进行格式转换,转换后的有效信息统一保留了文字、数字等核心内容,而舍弃了标点等次要内容,因此有利于提高文件相似性检测准确性和检测效率。
在本发明的一个实施例中,假设文件F1中包括图片P1、P2,文件F2中包括图片P3、P4,其中P1、P2含有边框,图片P1的分辨率为300*400,图片P2的分辨率为40*60,图片P3的分辨率为100*150,图片P4的分辨率为60*90。对图片类型的有效信息进行格式转换时,例如,可以删除图片P1、P2、P3、P4的作者信息、Exif信息(Exchangeable image file format,可交换图像文件格式)等,删除图片P1和P2的边框,并将各所述图片转化成具有相同图片参数的图片。进行格式转化时,由于每个图片参数都使转化后的各图片的数据量小于或等于任一原图片的数据量,而转化前P2的分辨率最小,数据量最小,因此可以使转化后图片P1、P2、P3、P4的分辨率都小于或等于原图片P2的分辨率40*60。对于位深度、每英寸像素数等其他图片参数也可以按照类似方式确定,此处不再赘述。
在步骤S12中完成格式转换得到每个被检测文件的待对比信息后,即可以在步骤S13中对所述待对比信息进行分片对比,以确定所述至少两个被检测文件的相似度。可选的,在本发明的一个实施例中,分片对比可以包括:
分别将各所述待对比信息中的信息内容按照预设排序规则排序;
将排序后的各所述待对比信息分别切分成至少一个分片;
采用滑动窗口的方式对各所述待对比信息进行逐分片对比;
根据对比结果确定所述至少两个被检测文件的相似度。
具体而言,经过格式转换后得到的待对比信息信息繁杂,为了便于对比,在本发明的一个实施例中可以先对待对比信息中的信息内容进行整理,按照一定的规则排序。而经过格式转换后得到的待对比信息中可能包括一种数据类型,也可能包括多种数据类型,为了使对比更为准确,在本发明的一个实施例中,分别将各所述待对比信息中的信息内容按照预设排序规则排序可以包括:根据所述信息内容的数据类型,分别对每条所述待对比信息中的信息内容进行排序,从而使进行比较的信息内容的数据类型相对应。例如,两条待对比信息的信息内容都按照文本类型、图片类型、音频类型、视频类型的顺序排列,上述各种数据类型的信息内容依次相互衔接。
进一步的,为了提高每种数据类型的信息内容内部的对比准确性,可以在每种数据类型的信息内容内部,根据所述数据类型中不同信息片段的哈希值对各所述信息片段进行排序。例如,在本发明的一个实施例中,可以对文本类型的信息中的每个段落计算哈希值,然后按照哈希值依次增大的顺序或依次减小的顺序排列各段落。
举例而言,在本发明的一个实施例中,可以将统一格式后的各类信息进行统一排序,文字在最前,多媒体类的部分在后且按照各个片段的哈希(任意哈希算法均可)顺序排列。原始文件fileA和原始文件fileB在处理后分别对应于待对比信息SA和待对比信息SB。
设定一个分片的字节数为n,待对比信息SA和待对比信息SB采用滑动窗口的方式进行逐分片对比。当两个分片相同时,则相同分片数X加1;当两个分片不同时,记录待对比信息SB此时的位置b1。SA用来对比的分片不变,SB用来对比的分片向后挪动1个字节后继续与SA对比,直到找到相同的分片,并记录SB向后挪动的字节数Y。然后从SA的后一个分片继续向后对比,而SB从b1开始对比,直到结束,则相似度计算公式为:
Z1=X*n/(X*n+Y)*100% (1)
其中,可以通过调整分片字节数n的大小调整对比的灵敏度。
按上述办法交换信息流A和B的位置,计算相似度Z2,则总相似度Z等于Z1和Z2的平均值,即
Z=AVG(Z1+Z2) (2)
其中AVG代表求算术平均数的函数。
下面通过具体实施例对本发明实施例提供的文件相似性检测方法进行详细说明。
本实施例中,制作一份doc文件D1,在正文中随机插入部分图片、音频、视频作为原始文件;
将原始文件D1中的图片进行压缩分辨率、改变色彩位数,视频进行压缩分辨率、前后添加空白,音频进行压缩码率、中部随机添加空白,然后将这些图片、音视频放到文档的最后作为附录,制作一份修改后的文件D2。
检测D1和D2的相似性。具体的检测过程可以包括如下步骤:
S201、分别提取D1和D2中的有效信息。
具体的,将D1和D2中的文字和其他多媒体部分提取出来并分类保存,如文字类、图片类、音频类、视频类等。
S202、对D1和D2中文本类型的有效信息,删除其中的空格、换行、标点符号,统一保存为纯文本格式;
S203、对D1和D2中图片类型的有效信息,删除每个图片的描述信息,删除每个图片的边框和/或底纹,并将各所述图片转化成具有相同图片参数的图片;
其中,所述图片参数的变化使转化后的各图片的数据量小于或等于任一原图片的数据量;所述图片参数包括以下至少一项:分辨率、位深度、每英寸像素数、格式;
S204、对音频类型的有效信息,删除每个音频片段中空白的部分,删除每个音频片段中的描述信息,并将各所述音频片段转化成具有相同音频参数的音频片段;
其中,所述音频参数的变化使转化后的各音频片段的数据量小于或等于任一原音频片段的数据量;所述音频参数包括以下至少一项:比特率、格式、采样率;
S205、对视频类型的有效信息,删除每个视频片段中空画面且无声的部分,删除每个视频片段中的描述信息,并将各所述视频片段转化成具有相同视频参数的视频片段;
其中,所述视频参数的变化使转化后的各视频片段的数据量小于或等于任一原视频片段;所述视频参数包括以下至少一项:格式、分辨率、数据速率、比特率、总帧率、音频比特率、音频采样率、压缩算法。
S206、将D1和D2中经过格式转换后得到的待对比信息SD1和SD2中的信息内容按照文本类型、图片类型、音频类型、视频类型的顺序进行排列;
S207、对D1和D2分别进行切片对比;
S208、根据对比结果确定D1与D2的相似度。
第二方面,本发明的实施例还提供一种文件相似性检测装置,能够对原文件及经过各种类型和范围修改的文件之间的相似性进行准确判断。
如图3所示,本发明的实施例提供的文件相似性检测装置可以包括:
提取单元31,用于对至少两个被检测文件分别提取有效信息,其中,所述被检测文件为预设文字编辑软件生成的文件,所述有效信息为所述被检测文件中具有表达含义的文件内容;
转换单元32,用于按照预设格式转换规则分别对提取出的有效信息进行格式转换,从而形成与所述被检测文件对应的待对比信息;
对比单元33,对所述待对比信息进行分片对比,以确定所述至少两个被检测文件的相似度。
本发明的实施例提供的文件相似性检测装置,能够对至少两个被检测文件中具有表达含义的文件内容分别提取有效信息,然后按照预设格式转换规则分别对提取出的有效信息进行格式转换,从而形成与所述被检测文件对应的待对比信息,再对所述待对比信息进行分片对比,以确定所述至少两个被检测文件的相似度。这样,由于舍弃了文件内容中的无效信息并对提取出的有效信息规范了格式,一方面大大减小了无效信息对文件相似性检测造成的干扰,另一方面能够使各种类型的有效信息更加规范、更易于进行比较,从而大大提高了文件相似性检测的准确性。
可选的,所述被检测文件的文件内容包括以下至少一种数据类型:文本类型、图片类型、音频类型、视频类型。
可选的,提取单元31,具体用于对所述至少两个被检测文件中具有表达含义的文件内容按照所述数据类型进行分类提取。
可选的,所述预设格式转换规则包括以下至少一种:对文本类型的有效信息,删除其中的空格、换行、标点符号,统一保存为纯文本格式;对图片类型的有效信息,删除每个图片的描述信息,删除每个图片的边框和/或底纹,并将各所述图片转化成具有相同图片参数的图片,其中,所述图片参数的变化使转化后的各图片数据量小于或等于任一原图片的数据量;所述图片参数包括以下至少一项:分辨率、位深度、每英寸像素数、格式;对音频类型的有效信息,删除每个音频片段中空白的部分,删除每个音频片段中的描述信息,并将各所述音频片段转化成具有相同音频参数的音频片段,其中,所述音频参数的变化使转化后的各音频片段的数据量小于或等于任一原音频片段的数据量;所述音频参数包括以下至少一项:比特率、格式、采样率;对视频类型的有效信息,删除每个视频片段中空画面且无声的部分,删除每个视频片段中的描述信息,并将各所述视频片段转化成具有相同视频参数的视频片段,其中,所述视频参数的变化使转化后的各视频片段的数据量小于或等于任一原视频片段的数据量;所述视频参数包括以下至少一项:格式、分辨率、数据速率、比特率、总帧率、音频比特率、音频采样率、压缩算法。
可选的,对比单元33包括:排序模块,用于分别将各所述待对比信息中的信息内容按照预设排序规则排序;切片模块,用于将排序后的各所述待对比信息分别切分成至少一个分片;对比模块,用于采用滑动窗口的方式对各所述待对比信息进行逐分片对比;确定模块,用于根据对比结果确定所述至少两个被检测文件的相似度。
可选的,所述排序模块,具体用于:根据所述信息内容的数据类型,分别对每条所述待对比信息中的信息内容进行排序;在每种数据类型的信息内容内部,根据所述数据类型的信息内容中不同信息片段的哈希值对各所述信息片段进行排序。
第三方面,本发明实施例提供一种电子设备,能够对原文件及经过各种类型和范围修改的文件之间的相似性进行准确判断。
如图4所示,本发明的实施例提供的一种电子设备,可以包括:壳体41、处理器42、存储器43、电路板44和电源电路45,其中,电路板44安置在壳体41围成的空间内部,处理器42和存储器43设置在电路板44上;电源电路45,用于为上述电子设备的各个电路或器件供电;存储器43用于存储可执行程序代码;处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例所述的文件相似性检测方法。
处理器42对上述步骤的具体执行过程以及处理器42通过运行可执行程序代码来进一步执行的步骤,可以参见前述实施例的描述,在此不再赘述。
该电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
第四方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种文件相似性检测方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (14)
1.一种文件相似性检测方法,其特征在于,包括:
对至少两个被检测文件分别提取有效信息,其中,所述被检测文件为预设文字编辑软件生成的文件,所述有效信息为所述被检测文件中具有表达含义的文件内容;
按照预设格式转换规则分别对提取出的有效信息进行格式转换,从而形成与所述被检测文件对应的待对比信息;
对所述待对比信息进行分片后采用滑动窗口的方式对比,以确定所述至少两个被检测文件的相似度;
其中,根据如下公式确定所述至少两个被检测文件的相似度:
Z=AVG(Z1+Z2),其中Z为至少两个被检测文件的相似度,AVG代表求算术平均数的函数,Z1为第一相似度,Z2为第二相似度;
Z1=X1*n/(X1*n+Y1)*100%,其中n为预设的一个分片的字节数;X1为相同分片数,当第一待对比信息和第二待对比信息采用滑动窗口的方式进行逐分片对比时,如果两个分片相同,则X1加1,如果两个分片不同,则记录第二待对比信息此时的第一位置;Y1为第二待对比信息向后挪动的字节数,也即当两个分片不同时,第一待对比信息用来对比的分片不变,第二待对比信息用来对比的分片向后挪动1个字节后继续与第一待对比信息的分片对比,直到找到相同的分片;然后从第一待对比信息的后一个分片继续向后对比,而第二待对比信息从第一位置开始对比,直到结束;
Z2=X2*n/(X2*n+Y2)*100%,其中n为预设的一个分片的字节数;X2为相同分片数,当第二待对比信息和第一待对比信息采用滑动窗口的方式进行逐分片对比时,如果两个分片相同,则X2加1,如果两个分片不同,则记录第一待对比信息此时的第一位置;Y2为第一待对比信息向后挪动的字节数,也即当两个分片不同时,第二待对比信息用来对比的分片不变,第一待对比信息用来对比的分片向后挪动1个字节后继续与第二待对比信息的分片对比,直到找到相同的分片;然后从第二待对比信息的后一个分片继续向后对比,而第一待对比信息从第一位置开始对比,直到结束。
2.根据权利要求1所述的方法,其特征在于,所述被检测文件的文件内容包括以下至少一种数据类型:文本类型、图片类型、音频类型、视频类型。
3.根据权利要求2所述的方法,其特征在于,所述对至少两个被检测文件分别提取有效信息包括:
对所述至少两个被检测文件中具有表达含义的文件内容按照所述数据类型进行分类提取。
4.根据权利要求1所述的方法,其特征在于,所述预设格式转换规则包括以下至少一种:
对文本类型的有效信息,删除其中的空格、换行、标点符号,统一保存为纯文本格式;
对图片类型的有效信息,删除每个图片的描述信息,删除每个图片的边框和/或底纹,并将各所述图片转化成具有相同图片参数的图片,其中,所述图片参数的变化使转化后的各图片数据量小于或等于任一原图片的数据量;所述图片参数包括以下至少一项:分辨率、位深度、每英寸像素数、格式;
对音频类型的有效信息,删除每个音频片段中空白的部分,删除每个音频片段中的描述信息,并将各所述音频片段转化成具有相同音频参数的音频片段,其中,所述音频参数的变化使转化后的各音频片段的数据量小于或等于任一原音频片段的数据量;所述音频参数包括以下至少一项:比特率、格式、采样率;
对视频类型的有效信息,删除每个视频片段中空画面且无声的部分,删除每个视频片段中的描述信息,并将各所述视频片段转化成具有相同视频参数的视频片段,其中,所述视频参数的变化使转化后的各视频片段的数据量小于或等于任一原视频片段的数据量;所述视频参数包括以下至少一项:格式、分辨率、数据速率、比特率、总帧率、音频比特率、音频采样率、压缩算法。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述对所述待对比信息进行分片对比,以确定所述至少两个被检测文件的相似度包括:
分别将各所述待对比信息中的信息内容按照预设排序规则排序;
将排序后的各所述待对比信息分别切分成至少一个分片;
采用滑动窗口的方式对各所述待对比信息进行逐分片对比;
根据对比结果确定所述至少两个被检测文件的相似度。
6.根据权利要求5所述的方法,其特征在于,所述分别将各所述待对比信息中的信息内容按照预设排序规则排序包括:
根据所述信息内容的数据类型,分别对每条所述待对比信息中的信息内容进行排序;
在每种数据类型的信息内容内部,根据所述数据类型的信息内容中不同信息片段的哈希值对各所述信息片段进行排序。
7.一种文件相似性检测装置,其特征在于,包括:
提取单元,用于对至少两个被检测文件分别提取有效信息,其中,所述被检测文件为预设文字编辑软件生成的文件,所述有效信息为所述被检测文件中具有表达含义的文件内容;
转换单元,用于按照预设格式转换规则分别对提取出的有效信息进行格式转换,从而形成与所述被检测文件对应的待对比信息;
对比单元,对所述待对比信息进行分片后采用滑动窗口的方式对比,以确定所述至少两个被检测文件的相似度;
其中,所述对比单元根据如下公式确定所述至少两个被检测文件的相似度:
Z=AVG(Z1+Z2),其中Z为至少两个被检测文件的相似度,AVG代表求算术平均数的函数,Z1为第一相似度,Z2为第二相似度;
Z1=X1*n/(X1*n+Y1)*100%,其中n为预设的一个分片的字节数;X1为相同分片数,当第一待对比信息和第二待对比信息采用滑动窗口的方式进行逐分片对比时,如果两个分片相同,则X1加1,如果两个分片不同,则记录第二待对比信息此时的第一位置;Y1为第二待对比信息向后挪动的字节数,也即当两个分片不同时,第一待对比信息用来对比的分片不变,第二待对比信息用来对比的分片向后挪动1个字节后继续与第一待对比信息的分片对比,直到找到相同的分片;然后从第一待对比信息的后一个分片继续向后对比,而第二待对比信息从第一位置开始对比,直到结束;
Z2=X2*n/(X2*n+Y2)*100%,其中n为预设的一个分片的字节数;X2为相同分片数,当第二待对比信息和第一待对比信息采用滑动窗口的方式进行逐分片对比时,如果两个分片相同,则X2加1,如果两个分片不同,则记录第一待对比信息此时的第一位置;Y2为第一待对比信息向后挪动的字节数,也即当两个分片不同时,第二待对比信息用来对比的分片不变,第一待对比信息用来对比的分片向后挪动1个字节后继续与第二待对比信息的分片对比,直到找到相同的分片;然后从第二待对比信息的后一个分片继续向后对比,而第一待对比信息从第一位置开始对比,直到结束。
8.根据权利要求7所述的装置,其特征在于,所述被检测文件的文件内容包括以下至少一种数据类型:文本类型、图片类型、音频类型、视频类型。
9.根据权利要求8所述的装置,其特征在于,所述提取单元,具体用于对所述至少两个被检测文件中具有表达含义的文件内容按照所述数据类型进行分类提取。
10.根据权利要求7所述的装置,其特征在于,所述预设格式转换规则包括以下至少一种:
对文本类型的有效信息,删除其中的空格、换行、标点符号,统一保存为纯文本格式;
对图片类型的有效信息,删除每个图片的描述信息,删除每个图片的边框和/或底纹,并将各所述图片转化成具有相同图片参数的图片,其中,所述图片参数的变化使转化后的各图片数据量小于或等于任一原图片的数据量;所述图片参数包括以下至少一项:分辨率、位深度、每英寸像素数、格式;
对音频类型的有效信息,删除每个音频片段中空白的部分,删除每个音频片段中的描述信息,并将各所述音频片段转化成具有相同音频参数的音频片段,其中,所述音频参数的变化使转化后的各音频片段的数据量小于或等于任一原音频片段的数据量;所述音频参数包括以下至少一项:比特率、格式、采样率;
对视频类型的有效信息,删除每个视频片段中空画面且无声的部分,删除每个视频片段中的描述信息,并将各所述视频片段转化成具有相同视频参数的视频片段,其中,所述视频参数的变化使转化后的各视频片段的数据量小于或等于任一原视频片段的数据量;所述视频参数包括以下至少一项:格式、分辨率、数据速率、比特率、总帧率、音频比特率、音频采样率、压缩算法。
11.根据权利要求7至10中任一项所述的装置,其特征在于,所述对比单元包括:
排序模块,用于分别将各所述待对比信息中的信息内容按照预设排序规则排序;
切片模块,用于将排序后的各所述待对比信息分别切分成至少一个分片;
对比模块,用于采用滑动窗口的方式对各所述待对比信息进行逐分片对比;
确定模块,用于根据对比结果确定所述至少两个被检测文件的相似度。
12.根据权利要求11所述的装置,其特征在于,所述排序模块,具体用于:
根据所述信息内容的数据类型,分别对每条所述待对比信息中的信息内容进行排序;
在每种数据类型的信息内容内部,根据所述数据类型的信息内容中不同信息片段的哈希值对各所述信息片段进行排序。
13.一种电子设备,其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述权利要求1至6任一项所述的文件相似性检测方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述权利要求1至6中任一项所述的文件相似性检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811653701.XA CN110874526B (zh) | 2018-12-29 | 2018-12-29 | 一种文件相似性检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811653701.XA CN110874526B (zh) | 2018-12-29 | 2018-12-29 | 一种文件相似性检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110874526A CN110874526A (zh) | 2020-03-10 |
CN110874526B true CN110874526B (zh) | 2024-03-01 |
Family
ID=69717061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811653701.XA Active CN110874526B (zh) | 2018-12-29 | 2018-12-29 | 一种文件相似性检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110874526B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070860A (zh) * | 2020-08-03 | 2020-12-11 | 广东以诺通讯有限公司 | 一种图片处理方法 |
CN113642311B (zh) * | 2021-08-12 | 2023-09-05 | 北京奇艺世纪科技有限公司 | 一种数据对比方法、装置、电子设备及存储介质 |
CN116644212B (zh) * | 2023-07-24 | 2023-12-01 | 科大讯飞股份有限公司 | 视频检测方法、装置、设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103389987A (zh) * | 2012-05-09 | 2013-11-13 | 阿里巴巴集团控股有限公司 | 文本相似性比较方法及系统 |
CN106935248A (zh) * | 2017-02-14 | 2017-07-07 | 广州孩教圈信息科技股份有限公司 | 一种语音相似度检测方法及装置 |
CN107729300A (zh) * | 2017-09-18 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 文本相似度的处理方法、装置、设备和计算机存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
JP4681863B2 (ja) * | 2004-11-30 | 2011-05-11 | キヤノン株式会社 | 画像処理装置、および、その制御方法 |
US7403951B2 (en) * | 2005-10-07 | 2008-07-22 | Nokia Corporation | System and method for measuring SVG document similarity |
EP3007082A1 (en) * | 2014-10-07 | 2016-04-13 | Thomson Licensing | Method for computing a similarity measure for video segments |
JP6507657B2 (ja) * | 2015-01-15 | 2019-05-08 | 富士通株式会社 | 類似性判定装置、類似性判定方法および類似性判定プログラム |
US10482126B2 (en) * | 2016-11-30 | 2019-11-19 | Google Llc | Determination of similarity between videos using shot duration correlation |
-
2018
- 2018-12-29 CN CN201811653701.XA patent/CN110874526B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103389987A (zh) * | 2012-05-09 | 2013-11-13 | 阿里巴巴集团控股有限公司 | 文本相似性比较方法及系统 |
CN106935248A (zh) * | 2017-02-14 | 2017-07-07 | 广州孩教圈信息科技股份有限公司 | 一种语音相似度检测方法及装置 |
CN107729300A (zh) * | 2017-09-18 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 文本相似度的处理方法、装置、设备和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110874526A (zh) | 2020-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678702B (zh) | 视频去重方法及装置 | |
CN110874526B (zh) | 一种文件相似性检测方法、装置、电子设备及存储介质 | |
US9946690B2 (en) | Paragraph alignment detection and region-based section reconstruction | |
US20150149893A1 (en) | Multi-level List Detection Engine | |
KR20160003682A (ko) | 플레이스홀더에 의한 하이드레이션 및 디하이드레이션 기법 | |
CN105138586A (zh) | 一种文件查找方法及装置 | |
CN108073815B (zh) | 基于代码切片的家族判定方法、系统及存储介质 | |
US9754023B2 (en) | Stochastic document clustering using rare features | |
US20140379328A1 (en) | Apparatus and method for outputting image according to text input in real time | |
CN107085568B (zh) | 一种文本相似度判别方法及装置 | |
US20140258852A1 (en) | Detection and Reconstruction of Right-to-Left Text Direction, Ligatures and Diacritics in a Fixed Format Document | |
EP3871133A1 (en) | Document heading detection | |
CN111414471A (zh) | 用于输出信息的方法和装置 | |
CN115221856A (zh) | 一种同时基于图像、视频和文本内容对文档相似性进行判断的方法 | |
CN113408660B (zh) | 图书聚类方法、装置、设备和存储介质 | |
CN114238689A (zh) | 视频生成方法、装置、电子设备、存储介质和程序产品 | |
CN116450581B (zh) | 一种白名单本地快速匹配方法、系统和电子设备 | |
CN114996360B (zh) | 数据分析方法、系统、可读存储介质及计算机设备 | |
US8566366B2 (en) | Format conversion apparatus and file search apparatus capable of searching for a file as based on an attribute provided prior to conversion | |
CN111177082A (zh) | 一种pdf文件去重存储方法及系统 | |
CN113255369B (zh) | 文本相似度分析的方法、装置及存储介质 | |
CN111159996B (zh) | 基于文本指纹算法的短文本集合相似度比较方法及系统 | |
CN116303296B (zh) | 一种数据存储方法、装置、电子设备及介质 | |
CN116821523B (zh) | 一种人员匹配逻辑校验方法、装置、电子设备及存储介质 | |
CN117194355B (zh) | 基于数据库的数据处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |