CN102364458B

CN102364458B - 一种文件摘要的提取方法

Info

Publication number: CN102364458B
Application number: CN 201110375121
Authority: CN
Inventors: 赵树乔
Original assignee: Individual
Current assignee: Alternating Hangzhou Digital Technology Co ltd
Priority date: 2011-11-23
Filing date: 2011-11-23
Publication date: 2013-11-06
Anticipated expiration: 2031-11-23
Also published as: CN102364458A

Abstract

本发明涉及一种文件摘要的提取方法，属于数据处理技术领域。首先生成一个由多个字节组成的字节序列，将文件按照单位长度切分为一个或多个数据块，扫描组成各数据块的字节取值，将该字节取值与字节序列中各字节取值进行比较，统计两者相等的字节数量；设定一个数量分隔符，检查字节数量的符号，当字节数量符号超过一个时，在其两侧添加该数量分隔符，将所有字节数量和数量分隔符组成一个或多个中间序列；设定边界分隔符，将多个中间序列依次相互连接，每两个中间序列之间添加上述边界分隔符，得到文件摘要。本发明方法可以根据摘要值迅速判断出两个文件的相似程度，在没有得到原始文件数据的情况下，也可以得出不同原始文件的相似程度。

Description

一种文件摘要的提取方法

技术领域

本发明涉及一种文件摘要的提取方法，属于数据处理技术领域。

背景技术

现有的被广泛采用的文件摘要方法，大部分都是利用散列(哈希)函数对文件数据进行扫描，从而生成固定长度的散列值，把该散列值作为文件的摘要。数学表述为：h＝H(M)，其中H()为单向散列函数，M为任意长度原始文件数据，h为固定长度散列值。由于大部分散列算法主要应用在信息安全领域，它的优点是即使M有极小的变化(增加、删除或修改任意一个字节)所产成的散列值h也会完全不同，所以这种文件摘要方法具有很强的防篡改特性。

但是，由于以上的防篡改特性，通过现有的生成文件摘要的方法，无法根据已经生成的两个文件摘要来判断原始两个文件之间的相似程度。

发明内容

本发明的目的是提出一种新的文件摘要提取方法，使得通过不同原始文件的摘要可以判断出原始文件之间的相似程度。

本发明提出的文件摘要提取方法，包括以下各步骤：

(1)生成一个由多个字节组成的字节序列，字节序列中每个字节的值互不相同；

(2)将文件按照单位长度切分为一个或多个数据块，；

(3)分别扫描组成上述各数据块的字节取值，将该字节取值与上述字节序列中各字节取值进行比较，分别统计数据块的字节取值与上述字节序列中的字节取值相等的字节数量；

(4)设定一个非数字的数量分隔符，使得该分隔符与表示上述字节数量的符号不相等，依次检查一个或多个数据块中的所有字节数量的符号，当字节数量符号超过一个时，在该字节数量符号的两侧添加该数量分隔符，将所有字节数量和数量分隔符组成一个或多个中间序列；

(5)设定一个非数字的符号作为边界分隔符，该边界分隔符与上述数量分隔符和上述数量符号不相等；

(6)将上述多个中间序列依次相互连接，每两个中间序列之间添加上述边界分隔符，得到文件摘要。

本发明提出的文件摘要提取方法，提取原始文件数据中不同的字节值出现的数量，同时采用分块的方法兼顾了数据的顺序特征。采用本发明的摘要提取方法，可以根据摘要值迅速判断出两个文件的相似程度，在没有得到原始文件数据的情况下，也可以得出不同原始文件的相似程度。

具体实施方式

本发明提出的文件摘要提取方法，包括以下步骤：

(2)将文件按照单位长度切分为一个或多个数据块，；

以下详细介绍本发明的内容：

首先：根据用户对文件摘要的准确性要求，生成一个字节序列，生成一个由多个字节组成的字节序列，字节序列中每个字节的值互不相同。准确性要求越高，字节序列的长度越长，由于每个字节的取值范围是0到255，所以该字节序列最长等于256，即包含所有在文件数据中出现的字节可能的取值情况。对于某些文件类型，有可能预知文件数据中出现的字节可能的取值范围。

比如某种英文文本文件，只可能出现取ASCII码小写26个英文字母码值的字节，那么字节序列就可以由26个ASCII码值组成，因为其它的字节值不会在文件数据中出现，这样可以减小摘要的长度。

也可以随机取少数字节值组成字节序列，这样摘要长度可以更短，但是准确性会降低，因为在后面统计过程中，字节序列中没包含的字节值不会被统计到，这些信息就会丢失。

将文件按照单位长度切分为一个或多个数据块，通常情况下单位长度等于文件长度即可，这时文件只存在一个数据块，把文件分成多块实际上相当于把文件分成若干子文件分别提取摘要。当单位长度小于文件长度时，文件分块数量等于文件长度除以单位长度后向上取整后的值，除最后一个数据块长度等于文件长度相对单位长度取余的结果外，其它数据块长度等于单位长度。

对文件中的每个数据块进行扫描，分别统计各数据块中字节值与上述字节序列中字节值相等的字节数量，然后选定一个非数字的数量分隔符，使得该分隔符不与表示数量的符号或者上述字节序列中的值相等，该分隔符可以取“、”“，”“；”等等，并将该数量组成一个中间序列，当序列中的数量存在超过一位的符号时，超过一位的数量符号两侧要用数量分隔符与其它数量分隔开以避免歧义，共得到一个或多个中间序列。这里的数量可以是简单的十进制或者十六进制字符表示(这时该数量最为精确，但是位数可能很长)；也可以是一系列字符代表的数字区间，比如“o”代表大于等于0并且小于10的范围、“p”代表大于等于10并且小于100的范围、“q”代表大于等于100的范围，这样只用三个符号代表统计结果的数量，也不会出现需要使用数量分隔符的情况(因为只有一位符号，不会产生歧义)，比如某个字节序列中字节的统计结果等于2500时，只需要用“q”表示即可，这样做的缺点是摘要的准确性会降低，因为统计结果2500与25000都会用“q”表示，两者的差异就表现不出来了。实际使用中需要根据数据特点以及准确性要求来确定数量的表示方式。

选定1个非数字的符号作为边界分隔符(比如“|”)，使得该边界分隔符不与数量分隔符或者表示数量的符号或者上述字节序列中的值相等。

将上述多个中间序列依次相互连接(中间通过边界分隔符分隔)即得到文件在上述字节序列下的文件摘要。

在实际使用中，传递文件摘要的同时，要告知对方在摘要提取过程中使用的字节序列以及单位长度，双方也可以根据不同的文件类型以及精度要求约定默认的字节序列以及单位长度，当每个数据块的中间序列长度固定时，由于对方可以确定中间序列的分界线，所以可以省略边界分隔符。比如对方已知提取摘要的字节序列，也知道扫描数据块时统计字节序列中的字节在文件中出现的数量时表示数量的符号只有固定长度(比如只用“o”、“p”、“q”代表统计数量)，那么每个数据块扫描统计后得到的中间序列长度也是固定的，这时可以省略边界分隔符(比如“|”)以简化文件摘要。

以下介绍本发明的一个比较简单和一个比较复杂的两个实施例来说明摘要提取的详细过程：

实施例1：

假设文件长度为10个字节，每个字节用十六进制表示依次为：

3 F2 4F 2 0 F2 4F 4F F2 FF。

首先生成一个字节序列：用十六进制表示为0 1 4F FF共4个字节，然后将文件按照单位长度10(等于文件总长度)切分为1个数据块。

对该数据块进行扫描，分别统计各数据块中字节值与上述字节序列中字节值相等的字节数量：我们可以统计出，字节序列中的“0”在数据块中相等的字节数量为1，字节序列中的“1”在数据块中相等的字节数量为0，字节序列中的“4F”在数据块中相等的字节数量为3，字节序列中的“FF”在数据块中相等的字节数量为1，选定数量分隔符为”，”，将以上数量组成一个中间序列：1031。由于所有数量都是1位符号，所以没有使用数量分隔符”，”，共得到1个中间序列。

选定符号“|”作为边界分隔符，这个符号满足不与数量分隔符或者表示数量的符号或者上述字节序列中的值相等的条件。

述中间序列1031(由于只有一个序列，所以不需要通过边界分隔符分隔)，既是文件在上述字节序列0 1 4F FF下的文件摘要。

实施例2：

假设文件长度为40个字节，每个字节用十六进制表示依次为：

8 8 8 8 8 8 8 8 FF 8 8 8 8 8 8 8 8 8 FF F2 0 3 24 4F F2 6A 2B 3A 0 0 8F 9 090 8F 8A 0 4 7 FF

首先生成一个字节序列：用十六进制表示为0 1 8 FF共4个字节，然后将文件按照单位长度12切分为4个数据块，其中前三个数据块长度为12，第四个数据块长度为：总长度40相对于单位长度12取余，等于4。

这四个数据块分别为：

数据块1：8 8 8 8 8 8 8 8 FF 8 8 8

数据块2：8 8 8 8 8 8 FF F2 0 3 24 4F

数据块3：F2 6A 2B 3A 0 0 8F 9 0 90 8F 8A

数据块4：0 4 7 FF

对以上四个数据块进行扫描，分别统计各数据块中字节值与上述字节序列中字节值相等的字节数量，选定数量分隔符为”，”，可以统计出：

数据块1的中间序列为：00，11，1

由于第三个数量超过了位字符，所以两侧用数量分隔符“，”与其它数量分隔

数据块2的中间序列为：1061

数据块3的中间序列为：3000

数据块4的中间序列为：1001

共得到上述四个中间序列。

将上述中间序列依次相互连接(中间边界分隔符分隔)，得到文件在字节序列0 1 8

FF下的文件摘要：00，11，1|1061|3000|1001。

Claims

1.一种文件摘要提取方法，其特征在于该方法包括以下各步骤：

(2)将文件按照单位长度切分为一个或多个数据块；