CN108446394A - 文件差异的对比方法和装置 - Google Patents
文件差异的对比方法和装置 Download PDFInfo
- Publication number
- CN108446394A CN108446394A CN201810251830.XA CN201810251830A CN108446394A CN 108446394 A CN108446394 A CN 108446394A CN 201810251830 A CN201810251830 A CN 201810251830A CN 108446394 A CN108446394 A CN 108446394A
- Authority
- CN
- China
- Prior art keywords
- matrix
- hash table
- file
- row
- file content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/137—Hash-based
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文件差异的对比方法和装置。该方法包括:获取文件在变更前的文件内容和变更后的文件内容;将变更前的文件内容转换为第一矩阵以及将变更后的文件内容转换为第二矩阵;获取第一矩阵的第一特征向量和第二矩阵的第二特征向量;根据第一特征向量将第一矩阵转换为第一哈希表,以及根据第二特征向量将第二矩阵转换为第二哈希表;根据第一哈希表和第二哈希表的比对结果,确定变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据。通过本申请,解决了相关技术中版本管理软件无法快速查找到文件变更前后文件内容发生的最小结构单元的变化的问题。
Description
技术领域
本申请涉及文件差异对比领域,具体而言,涉及一种文件差异的对比方法和装置。
背景技术
在软件开发和测试中,快速查找并确认文件的改动,是保证软件开发质量和开发速度的重要环节。文件的差异比较经常用来确认一个文件两个版本的改动是否符合预期,具体地,在软件开发中,通过文件差异比较,可以快速知道软件文件的改动和需求文档是否一致;在测试中,通过文件差异比较,可以快速确定需要测试的内容,制定测试计划,而且在集成测试之前,可以通过文件差异比较发现一些软件设计缺陷。
在相关技术中,文件差异比较通常采用版本管理软件来完成,例如svn和git类软件,这类版本管理软件自带的文件差异比较功能支持的文件类型有限,对于特殊格式的文件支持性较差甚至不支持,难以扩展新的功能。具体地,这类软件进行文件比对时,通常以行为单位进行逐行比较,然后直接展示一个文件两个版本的行差异。但在软件开发和测试时,更多关注的是具体到行中单个元素的改动,例如代码文件.c.py、.cpp中一行中文本或者单词的改动,表格文件.csv、.xls、.xlsx文件中单元格的变动,在针对差异进行改动后,还需保证相应的改动被第三方确认,常用版本管理软件无法具体到单个元素的差异对比,且对于文件差异的展示不直观,也不具备交互确认的特性。此外,对于测试来说,软件配置文件的每一行或者每一列都有着特殊的含义,并且很多时候,配置文件的行和列都要保证唯一性,而常用版本软件并不能做唯一性的检查。
针对相关技术中版本管理软件无法快速查找到文件变更前后文件内容发生的最小结构单元的变化的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文件差异的对比方法和装置,以解决相关技术中版本管理软件无法快速查找到文件变更前后文件内容发生的最小结构单元的变化的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种文件差异的对比方法。该方法包括:获取文件在变更前的文件内容和变更后的文件内容;将变更前的文件内容转换为第一矩阵以及将变更后的文件内容转换为第二矩阵,其中,第一矩阵与第二矩阵为相同格式的矩阵;获取第一矩阵的第一特征向量和第二矩阵的第二特征向量,其中,第一特征向量和第二特征向量均为矩阵中满足预设条件的行数据;根据第一特征向量将第一矩阵转换为第一哈希表,以及根据第二特征向量将第二矩阵转换为第二哈希表;根据第一哈希表和第二哈希表的比对结果,确定变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据。
进一步地,根据第一特征向量将第一矩阵转换为第一哈希表包括:将第一矩阵的每行数据转化为行哈希表,得到多个行哈希表,其中,每个行哈希表的键为第一特征向量,每个行哈希表的值为第一矩阵的对应行中的元素;利用转换得到的多个行哈希表获取第一哈希表,其中,第一哈希表的键为多个行哈希表,第一哈希表的值为每个行哈希表对应的行号。
进一步地,根据第一哈希表和第二哈希表的比对结果,确定变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据包括:遍历第一哈希表和第二哈希表,查找第一哈希表与第二哈希表不同的键;根据查找到的不同的键构成差异哈希表;遍历差异哈希表,得到变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据。
进一步地,矩阵中满足预设条件的行数据包括:矩阵中不同元素最多的行的数据。
进一步地,在获取第一特征向量和第二特征向量之前,该方法还包括:检测到需要对变更前的文件内容和/或变更后的文件内容进行检查;则分别检查第一矩阵和第二矩阵中是否存在元素相同的行和/或元素相同的列;若第一矩阵和/或第二矩阵中存在元素相同的行和/或元素相同的列,将存在元素相同的行和/或元素相同的列的矩阵对应的文件进行标记。
进一步地,将变更前的文件内容转换为第一矩阵以及将变更后的文件内容转换为第二矩阵包括:将变更前的文件内容读取到内存得到第一内存数据,将变更后的文件内容读取到内存得到第二内存数据;将第一内存数据转换为第一矩阵以及将第二内存数据转换为第二矩阵,其中,第一矩阵与第二矩阵为相同格式的矩阵。
进一步地,在获取文件在变更前的文件内容和变更后的文件内容之前,该方法还包括:检测到目标路径下的文件发生变更。
进一步地,在根据第一哈希表和第二哈希表的比对结果,确定变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据之后,该方法还包括:将最小结构单元的差异的数据转换为预设格式的数据,预设格式至少为以下之一:超文本标记语言格式、表格格式;通过网页或可视化应用显示转换为预设格式的数据。
进一步地,网页或可视化应用上具有控件,其中,控件包括以下至少之一:确认控件和筛选控件,确认控件用于确认最小结构单元的差异的数据,筛选控件用于筛选最小结构单元的差异的数据。
为了实现上述目的,根据本申请的另一方面,提供了一种文件差异的对比装置。该装置包括:第一获取单元,用于获取文件在变更前的文件内容和变更后的文件内容第一转换单元,用于将变更前的文件内容转换为第一矩阵以及将变更后的文件内容转换为第二矩阵,其中,第一矩阵与第二矩阵为相同格式的矩阵;第二获取单元,用于获取第一矩阵的第一特征向量和第二矩阵的第二特征向量,其中,第一特征向量和第二特征向量均为矩阵中满足预设条件的行数据;第二转换单元,用于根据第一特征向量将第一矩阵转换为第一哈希表,以及根据第二特征向量将第二矩阵转换为第二哈希表;确定单元,用于根据第一哈希表和第二哈希表的比对结果,确定变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据。
为了实现上述目的,根据本申请的另一方面,提供了一种存储介质,存储介质包括存储的程序,其中,程序执行上述任意一种文件差异的对比方法。
为了实现上述目的,根据本申请的另一方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一种文件差异的对比方法。
通过本申请,采用以下步骤:获取文件在变更前的文件内容和变更后的文件内容;将变更前的文件内容转换为第一矩阵以及将变更后的文件内容转换为第二矩阵,其中,第一矩阵与第二矩阵为相同格式的矩阵;获取第一矩阵的第一特征向量和第二矩阵的第二特征向量,其中,第一特征向量和第二特征向量均为矩阵中满足预设条件的行数据;根据第一特征向量将第一矩阵转换为第一哈希表,以及根据第二特征向量将第二矩阵转换为第二哈希表;根据第一哈希表和第二哈希表的比对结果,确定变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据,解决了相关技术中版本管理软件无法快速查找到文件变更前后文件内容发生的最小结构单元的变化的问题。通过将变更前后的不同版本格式的文件先转换成统一格式的矩阵数据,再根据特征向量转换为哈希表,并进行遍历得到最小结构单元的差异的数据,进而达到了快速查找到文件变更前后文件内容发生的最小结构单元的变化的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的文件差异的对比方法的流程图;以及
图2是根据本申请实施例提供的文件差异的对比装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种文件差异的对比方法。
图1是根据本申请实施例的文件差异的对比方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取文件在变更前的文件内容和变更后的文件内容。
需要说明的是,在软件开发和测试中,文件的差异比较经常用来确认一个文件两个版本的改动是否符合预期,在软件开发中,通过文件差异比较,可以快速知道软件文件的改动和需求文档是否一致;在测试中,通过文件差异比较,可以快速确定需要测试的内容,制定测试计划。在进行文件的差异比较之前,先获取文件在变更前的版本的文件内容和变更后的版本的文件内容。
为了触发文件的差异对比,可选地,在本申请实施例提供的文件差异的对比方法中,在获取文件在变更前的文件内容和变更后的文件内容之前,该方法还包括:检测到目标路径下的文件发生变更。
例如,目标路径为分布式版本控制系统(git)的仓库路径,通过检测git的仓库路径下的文件变动事件,自动触发文件在变更前的文件内容和变更后的文件内容的差异对比。
步骤S102,将变更前的文件内容转换为第一矩阵以及将变更后的文件内容转换为第二矩阵,其中,第一矩阵与第二矩阵为相同格式的矩阵。
需要说明的是,变更前的文件内容的版本格式和变更后的文件内容的版本格式通常不一致,为了便于差异对比,将变更前的文件内容以及将变更后的文件内容统一转换为格式相同的矩阵,矩阵的元素为文件的一个最小文本单元,例如,对于格式为csv,xls,xlsx的文件来说,矩阵的元素为文件的每个单元格中的内容。
可选地,在本申请实施例提供的文件差异的对比方法中,将变更前的文件内容转换为第一矩阵以及将变更后的文件内容转换为第二矩阵包括:将变更前的文件内容读取到内存得到第一内存数据,将变更后的文件内容读取到内存得到第二内存数据;将第一内存数据转换为第一矩阵以及将第二内存数据转换为第二矩阵,其中,第一矩阵与第二矩阵为相同格式的矩阵。
例如,文件变更前是后缀为.csv的文本文件,文件变更后是后缀为.cpp的文本文件,将后缀为.csv的文本文件的内容读取到内存得到第一内存数据,将后缀为.cpp的文本文件的内容读取到内存得到第二内存数据,将第一内存数据逐行转换为xls格式的文件,得到第一矩阵,将第二内存数据均逐行转换为xls格式的文件,得到第二矩阵,第一矩阵和第二矩阵的元素为文件的每个单元格中的内容。
需要说明的是,由于变更前的文件内容和变更后的文件内容经过了格式转换,进行差异对比时与文件的源格式无关,突破了不同格式文件进行差异对比的限制,新增一种文件类型的源文件,只需要新增一种读取文件读取至内存的方法即可,因而,本申请实施例可以自由扩展支持不同的文件类型的源文件的对比。
步骤S103,获取第一矩阵的第一特征向量和第二矩阵的第二特征向量,其中,第一特征向量和第二特征向量均为矩阵中满足预设条件的行数据。
需要说明的是,为了便于快速遍历查找文件内容,为行中的每个元素添加索引,可以在矩阵中选择特定的一行数据作为该矩阵的特征向量,矩阵的特征向量作为该矩阵的各行元素的索引。
由于不同文件有不同的测试需求,在筛选矩阵中满足预设条件的行数据的过程中,可选地,在本申请实施例提供的文件差异的对比方法中,在获取第一特征向量和第二特征向量之前,该方法还包括:检测到需要对变更前的文件内容和/或变更后的文件内容进行检查;则分别检查第一矩阵和第二矩阵中是否存在元素相同的行和/或元素相同的列;若第一矩阵和/或第二矩阵中存在元素相同的行和/或元素相同的列,将存在元素相同的行和/或元素相同的列的矩阵对应的文件进行标记。
需要说明的是,软件配置文件的每一行或者每一列都有特定的含义,很多文件的行和列都要保证唯一性,即文件中不允许出现元素相同的行和/或元素相同的列,而常用版本软件无法做到唯一性的检查。本实施例通过配置来对有唯一性要求的文件进行唯一性检查,在寻找特征向量的过程中,通过配置确认是否需要对行或列做唯一性检查,如果需要,在遍历查找特征向量的同时,确认行或列是否唯一,将存在元素相同的行和/或元素相同的列的矩阵对应的文件进行标记。
例如,对于程序代码文件,程序代码文件中常出现内容相同的代码行,由于出现内容相同的代码行是被允许的,不需对程序代码文件要做唯一性检查;对于策划表文件,一般不允许出现相同的行,则需要做唯一性检查,找出重复的行或者列并进行标记,例如,在使用表格统计人员的姓名、年龄、性别、出生年月日信息,将人员信息转换为矩阵后,进行唯一性检查,若检查到两行完全相同的单元格,说明两个人的各项信息均相同,标记相同的行或列,用于提示测试人员进行查看与分析,出现两个人的各项信息均相同的情况,可能是文件变更时插入了相同的行,也可能确实存在上述信息相同的人员,则需进一步添加信息进行区分。
可选地,在本申请实施例提供的文件差异的对比方法中,矩阵中满足预设条件的行数据包括:矩阵中不同元素最多的行的数据。
需要说明的是,矩阵中不同元素最多的行包括矩阵中每个元素均不同的行,如果矩阵中存在每个元素均不同的行,将每个元素均不同的行的数据作为该矩阵的特征向量,如果不存在每个元素都不同的行,以矩阵中不同元素最多的行的数据作为特征向量时,针对相同的元素,加上元素所在位置的索引作为区分,便于为矩阵中每行的各个数据均打上不同的标识,提高遍历和查找的速度。此外,内存数据由各个字符构成,每行存在大量空格,转化成的第一矩阵和第二矩阵通常为不完全矩阵,第一矩阵的第一特征向量和第二矩阵的第二特征向量通常相同。
例如,以矩阵中存在每个元素均不同的行为例:
第一矩阵为:
a | b | c |
a | a | b |
b | b | a |
第一矩阵的第一行的元素均不同,第一行数据作为第一矩阵的特征向量,具体为:
a | b | c |
第二矩阵为:
a | b | c |
a | b | b |
b | b | a |
第二矩阵的第一行的元素均不同,第一行数据作为第二矩阵的特征向量,具体为:
a | b | c |
步骤S104,根据第一特征向量将第一矩阵转换为第一哈希表,以及根据第二特征向量将第二矩阵转换为第二哈希表。
例如,先给矩阵中每行的各个元素添加索引,即根据特征向量将矩阵中的行数据转化为行哈希表;再基于多个行哈希表获取哈希表,将数据转化为行哈希表时,需要确定哈希表的键(key)和值(value),以多个行哈希表为哈希表的key,以每个行哈希表对应的行为哈希表的value。
可选地,在本申请实施例提供的文件差异的对比方法中,根据第一特征向量将第一矩阵转换为第一哈希表包括:将第一矩阵的每行数据转化为行哈希表,得到多个行哈希表,其中,每个行哈希表的键为第一特征向量,每个行哈希表的值为第一矩阵的对应行中的元素;利用转换得到的多个行哈希表获取第一哈希表,其中,第一哈希表的键为多个行哈希表,第一哈希表的值为每个行哈希表对应的行号。
同理的,根据第二特征向量将第二矩阵转换为第二哈希表包括:将第二矩阵的每行数据转化为行哈希表,得到多个行哈希表,其中,每个行哈希表的键为第二特征向量,每个行哈希表的值为第二矩阵的对应行中的元素;利用转换得到的多个行哈希表获取第二哈希表,其中,第二哈希表的键为多个行哈希表,第二哈希表的值为每个行哈希表对应的行号。
例如,第一矩阵为:
a | b | c |
a | a | b |
b | b | a |
根据第一特征向量将第一矩阵转化为3个行哈希表,第一行哈希表为:
key | a | b | c |
value | a | b | c |
第二行哈希表为:
key | a | b | c |
value | a | a | b |
第三行哈希表为:
key | a | b | c |
value | b | b | a |
分别以第一行哈希表、第二行哈希表和第三行哈希表为key,以对应的行号为value,将第一矩阵转化为整个变更前的文件的内容对应的哈希此表,得到第一哈希表。
第二矩阵为:
a | b | c |
a | b | b |
b | b | a |
根据第二特征向量将第二矩阵转化为3个行哈希表,第四行哈希表为:
key | a | b | c |
value | a | b | c |
第五行哈希表为:
key | a | b | c |
value | a | b | b |
第六行哈希表为:
key | a | b | c |
value | b | b | a |
分别以第四行哈希表、第五行哈希表和第六行哈希表为key,以对应的行号为value,将第二矩阵转化为整个变更后的文件的内容对应的哈希此表,得到第一哈希表。需要说明的是,文件发生变更时,常见的变更方式为插入一行数据,利用转换得到的多个行哈希表获取哈希表时,以多个行哈希表作为哈希表的键,以每个行哈希表对应的行号作为哈希表的值,而非以多个行哈希表作为哈希表的值,以每个行哈希表对应的行号作为哈希表的键,避免了变更后的文件内容插入一行数据后,比该行数据的行号大的数据的键,即索引,均发生变化,增加遍历和对比的工作量。
步骤S105,根据第一哈希表和第二哈希表的比对结果,确定变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据。
需要说明的是,对比第一哈希表和第二哈希表的内容时,比对的过程只需要对读入内存的第一哈希表的内容和第二哈希表的内容进行多次遍历,即可对应得到变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据,对于表格数据来说,最小结构单元的差异的数据为具体到单元格内容的变化,对于word文本来说,最小结构单元的差异的数据为具体到字符的变化,根据键进行遍历,遍历消耗的时间和文件的行数和列数成正比,遍历的过程中,可以采用不同的检查规则对文件内容进行检查,对每个字符进行检查,大大提高了检查的过程。
本申请实施例提供的文件差异的对比方法,通过获取文件在变更前的文件内容和变更后的文件内容;将变更前的文件内容转换为第一矩阵以及将变更后的文件内容转换为第二矩阵,其中,第一矩阵与第二矩阵为相同格式的矩阵;获取第一矩阵的第一特征向量和第二矩阵的第二特征向量,其中,第一特征向量和第二特征向量均为矩阵中满足预设条件的行数据;根据第一特征向量将第一矩阵转换为第一哈希表,以及根据第二特征向量将第二矩阵转换为第二哈希表;根据第一哈希表和第二哈希表的比对结果,确定变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据,解决了相关技术中版本管理软件无法快速查找到文件变更前后文件内容发生的最小结构单元的变化的问题。通过将变更前后的不同版本格式的文件先转换成统一格式的矩阵数据,再根据特征向量转换为哈希表,并进行遍历得到最小结构单元的差异的数据,进而达到了快速查找到文件变更前后文件内容发生的最小结构单元的变化的效果。
可选地,在本申请实施例提供的文件差异的对比方法中,根据第一哈希表和第二哈希表的比对结果,确定变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据包括:遍历第一哈希表和第二哈希表,查找第一哈希表与第二哈希表不同的键;根据查找到的不同的键构成差异哈希表;遍历差异哈希表,得到变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据。
例如,遍历第一哈希表的内容和第二哈希表的内容时,查找第一哈希表与第二哈希表不同的键,得到第二行哈希表:
key | a | b | c |
value | a | a | b |
和第五哈希表:
key | a | b | c |
value | a | b | b |
根据第二行哈希表和第五行哈希表得到第一哈希表和第二哈希表的差异数据,即差异哈希表,遍历差异哈希表,得到第一矩阵和第二矩阵的差异为:第一矩阵中第二行的字符“a”变更为第二矩阵中第二行的字符“b”,即对应变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据。
为了将变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据得以显示,可选地,在本申请实施例提供的文件差异的对比方法中,在根据第一哈希表和第二哈希表的比对结果,确定变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据之后,该方法还包括:将最小结构单元的差异的数据转换为预设格式的数据,预设格式至少为以下之一:超文本标记语言格式、表格格式;通过网页或可视化应用显示转换为预设格式的数据。
需要说明的是,遍历第一哈希表和第二哈希表得到的比对结果为内存数据,将内存数据转化为可供网页和可视化应用显示的格式,例如转化为表格格式的数据,显示具体到单元格级别的数据表动,便于供工作人员查看文件差异,进行后续的确认和测试。
例如,将最小结构单元的差异的数据转换为表格格式,文件的变动为增加了一行单元格,则在变更前的文件的相应位置插入该行单元格,并将该行以不同与原文本的样式表示,例如该行单元格的背景突出显示为红色;
再例如,文件变动为某行的一个单元格的内容发生变动,则在变更前的文件的相应行下附入改动后的行,并将该行以不同样式表示,例如该行背景突出显示为蓝色,同时,将变动的单元格的内容加粗显示,与变动前的内容予以区分,显示发生变更的单元格。
可选地,在本申请实施例提供的文件差异的对比方法中,网页或可视化应用上具有控件,其中,控件包括以下至少之一:确认控件和筛选控件,确认控件用于确认最小结构单元的差异的数据,筛选控件用于筛选最小结构单元的差异的数据。
例如,可视化应用为显示插件,在网页或显示插件增加的确认控件为确认功能按钮,相关用户可以交叉阅读最小结构单元的差异的数据,并确认文件的改动,例如,查阅差异文件,确认没有问题,点击确认按钮,文件将以变动后的版本显示;在网页或显示插件增加的筛选控件为筛选功能按钮,当最小结构单元的差异的数据以表格格式显示时,点击插入改动筛选功能按钮,将仅显示涉及插入的行或列,点击替换改动筛选功能按钮,将仅显示替换改动的单个单元格,方便锁定文件不同类型的变更,使得用户查阅文件的改动更具针对性。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种文件差异的对比装置,需要说明的是,本申请实施例的文件差异的对比装置可以用于执行本申请实施例所提供的用于文件差异的对比方法。以下对本申请实施例提供的文件差异的对比装置进行介绍。
图2是根据本申请实施例的文件差异的对比装置的示意图。如图2所示,该装置包括:该装置包括:第一获取单元10,第一转换单元20,第二获取单元30,第二转换单元40和确定单元50。
具体地,第一获取单元10,用于获取文件在变更前的文件内容和变更后的文件内容;
第一转换单元20,用于将变更前的文件内容转换为第一矩阵以及将变更后的文件内容转换为第二矩阵,其中,第一矩阵与第二矩阵为相同格式的矩阵;
第二获取单元30,用于获取第一矩阵的第一特征向量和第二矩阵的第二特征向量,其中,第一特征向量和第二特征向量均为矩阵中满足预设条件的行数据;
第二转换单元40,用于根据第一特征向量将第一矩阵转换为第一哈希表,以及根据第二特征向量将第二矩阵转换为第二哈希表;
确定单元50,用于根据第一哈希表和第二哈希表的比对结果,确定变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据。
本申请实施例提供的文件差异的对比装置,通过第一获取单元10,获取文件在变更前的文件内容和变更后的文件内容;第一转换单元20,将变更前的文件内容转换为第一矩阵以及将变更后的文件内容转换为第二矩阵,其中,第一矩阵与第二矩阵采用相同格式的矩阵;第二获取单元30,获取第一矩阵的第一特征向量和第二矩阵的第二特征向量,其中,第一特征向量和第二特征向量均为矩阵中满足预设条件的行数据;第二转换单元40,根据第一特征向量将第一矩阵转换为第一哈希表,以及根据第二特征向量将第二矩阵转换为第二哈希表;确定单元50,根据第一哈希表和第二哈希表的比对结果,确定变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据。解决了相关技术中版本管理软件无法快速查找到文件变更前后文件内容发生的最小结构单元的变化的问题,通过将变更前后的不同版本格式的文件先转换成统一格式的矩阵数据,再根据特征向量转换为哈希表,并进行遍历得到最小结构单元的差异的数据,进而达到了快速查找到文件变更前后文件内容发生的最小结构单元的变化的效果。
可选地,在本申请实施例提供的文件差异的对比装置中,第二转换单元40包括:第一转换模块,用于将第一矩阵的每行数据转化为行哈希表,得到多个行哈希表,其中,每个行哈希表的键为第一特征向量,每个行哈希表的值为第一矩阵的对应行中的元素;第一获取模块,用于利用转换得到的多个行哈希表获取第一哈希表,其中,第一哈希表的键为多个行哈希表,第一哈希表的值为每个行哈希表对应的行号。
可选地,在本申请实施例提供的文件差异的对比装置中,确定单元50包括:查找模块,用于遍历第一哈希表和第二哈希表,查找第一哈希表与第二哈希表不同的键;构建模块,用于根据查找到的不同的键构成差异哈希表;第二获取模块,用于遍历差异哈希表,得到变更前的文件内容和变更后的文件内容的最小结构单元的差异的数据。
可选地,在本申请实施例提供的文件差异的对比装置中,矩阵中满足预设条件的行数据包括:矩阵中不同元素最多的行的数据。
可选地,在本申请实施例提供的文件差异的对比装置中,该装置还包括:第一检测单元,用于在检测到需要对变更前的文件内容和/或变更后的文件内容进行检查时,分别检查第一矩阵和第二矩阵中是否存在元素相同的行和/或元素相同的列;标记单元,用于在第一矩阵和/或第二矩阵中存在元素相同的行和/或元素相同的列时,将存在元素相同的行和/或元素相同的列的矩阵对应的文件进行标记。
可选地,在本申请实施例提供的文件差异的对比装置中,该装置还包括:第二检测单元,用于检测到目标路径下的文件发生变更。
可选地,在本申请实施例提供的文件差异的对比装置中,第一转换单元20包括:读取模块,用于将变更前的文件内容读取到内存得到第一内存数据,将变更后的文件内容读取到内存得到第二内存数据;第二转换模块,将第一内存数据转换为第一矩阵以及将第二内存数据转换为第二矩阵,其中,第一矩阵与第二矩阵为相同格式的矩阵。
可选地,在本申请实施例提供的文件差异的对比装置中,该装置还包括:第三转换单元,用于将最小结构单元的差异的数据转换为预设格式的数据,预设格式至少为以下之一:超文本标记语言格式、表格格式;第四转换单元,用于通过网页或可视化应用显示转换为预设格式的数据。
可选地,在本申请实施例提供的文件差异的对比装置中,网页或可视化应用上具有控件,其中,控件包括以下至少之一:确认控件和筛选控件,确认控件用于确认最小结构单元的差异的数据,筛选控件用于筛选最小结构单元的差异的数据。
文件差异的对比装置包括处理器和存储器,上述第一获取单元10,第一转换单元20,第二获取单元30,第二转换单元40,确定单元50等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中版本管理软件无法快速查找到文件变更前后文件内容发生的最小结构单元的变化的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现文件差异的对比方法。
本发明实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行文件差异的对比方法。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (12)
1.一种文件差异的对比方法,其特征在于,包括:
获取文件在变更前的文件内容和变更后的文件内容;
将所述变更前的文件内容转换为第一矩阵以及将所述变更后的文件内容转换为第二矩阵,其中,所述第一矩阵与所述第二矩阵为相同格式的矩阵;
获取所述第一矩阵的第一特征向量和所述第二矩阵的第二特征向量,其中,所述第一特征向量和所述第二特征向量均为矩阵中满足预设条件的行数据;
根据所述第一特征向量将所述第一矩阵转换为第一哈希表,以及根据所述第二特征向量将所述第二矩阵转换为第二哈希表;
根据所述第一哈希表和所述第二哈希表的比对结果,确定所述变更前的文件内容和所述变更后的文件内容的最小结构单元的差异的数据。
2.根据权利要求1所述的方法,其特征在于,根据所述第一特征向量将所述第一矩阵转换为所述第一哈希表包括:
将所述第一矩阵的每行数据转化为行哈希表,得到多个行哈希表,其中,每个行哈希表的键为所述第一特征向量,每个行哈希表的值为所述第一矩阵的对应行中的元素;
利用转换得到的所述多个行哈希表获取所述第一哈希表,其中,所述第一哈希表的键为多个行哈希表,所述第一哈希表的值为每个行哈希表对应的行号。
3.根据权利要求1所述的方法,其特征在于,根据所述第一哈希表和所述第二哈希表的比对结果,确定所述变更前的文件内容和所述变更后的文件内容的最小结构单元的差异的数据包括:
遍历所述第一哈希表和所述第二哈希表,查找所述第一哈希表与所述第二哈希表不同的键;
根据查找到的不同的键构成差异哈希表;
遍历所述差异哈希表,得到所述变更前的文件内容和所述变更后的文件内容的最小结构单元的差异的数据。
4.根据权利要求1所述的方法,其特征在于,所述矩阵中满足预设条件的行数据包括:所述矩阵中不同元素最多的行的数据。
5.根据权利要求1所述的方法,其特征在于,在获取所述第一特征向量和所述第二特征向量之前,所述方法还包括:
检测到需要对所述变更前的文件内容和/或所述变更后的文件内容进行检查,则分别检查所述第一矩阵和所述第二矩阵中是否存在元素相同的行和/或元素相同的列;
若所述第一矩阵和/或所述第二矩阵中存在元素相同的行和/或元素相同的列,将存在元素相同的行和/或元素相同的列的矩阵对应的文件进行标记。
6.根据权利要求1所述的方法,其特征在于,在获取文件在变更前的文件内容和变更后的文件内容之前,所述方法还包括:检测到目标路径下的所述文件发生变更。
7.根据权利要求1所述的方法,其特征在于,将所述变更前的文件内容转换为第一矩阵以及将所述变更后的文件内容转换为第二矩阵包括:
将所述变更前的文件内容读取到内存得到第一内存数据,将所述变更后的文件内容读取到所述内存得到第二内存数据;
将所述第一内存数据转换为第一矩阵以及将所述第二内存数据转换为第二矩阵,其中,所述第一矩阵与所述第二矩阵为相同格式的矩阵。
8.根据权利要求1所述的方法,其特征在于,在根据所述第一哈希表和所述第二哈希表的比对结果,确定所述变更前的文件内容和所述变更后的文件内容的最小结构单元的差异的数据之后,所述方法还包括:
将所述最小结构单元的差异的数据转换为预设格式的数据,所述预设格式至少为以下之一:超文本标记语言格式、表格格式;
通过网页或可视化应用显示转换为所述预设格式的数据。
9.根据权利要求8所述的方法,其特征在于,所述网页或所述可视化应用上具有控件,其中,所述控件包括以下至少之一:确认控件和筛选控件,所述确认控件用于确认所述最小结构单元的差异的数据,所述筛选控件用于筛选所述最小结构单元的差异的数据。
10.一种文件差异的对比装置,其特征在于,包括:
第一获取单元,用于获取文件在变更前的文件内容和变更后的文件内容;
第一转换单元,用于将所述变更前的文件内容转换为第一矩阵以及将所述变更后的文件内容转换为第二矩阵,其中,所述第一矩阵与所述第二矩阵为相同格式的矩阵;
第二获取单元,用于获取所述第一矩阵的第一特征向量和所述第二矩阵的第二特征向量,其中,所述第一特征向量和所述第二特征向量均为矩阵中满足预设条件的行数据;
第二转换单元,用于根据所述第一特征向量将所述第一矩阵转换为第一哈希表,以及根据所述第二特征向量将所述第二矩阵转换为第二哈希表;
确定单元,用于根据所述第一哈希表和所述第二哈希表的比对结果,确定所述变更前的文件内容和所述变更后的文件内容的最小结构单元的差异的数据。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至9中任意一项所述的文件差异的对比方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至9中任意一项所述的文件差异的对比方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810251830.XA CN108446394B (zh) | 2018-03-26 | 2018-03-26 | 文件差异的对比方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810251830.XA CN108446394B (zh) | 2018-03-26 | 2018-03-26 | 文件差异的对比方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108446394A true CN108446394A (zh) | 2018-08-24 |
CN108446394B CN108446394B (zh) | 2021-02-19 |
Family
ID=63196698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810251830.XA Active CN108446394B (zh) | 2018-03-26 | 2018-03-26 | 文件差异的对比方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446394B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284090A (zh) * | 2018-08-31 | 2019-01-29 | 广东电网有限责任公司 | 一种基于svn二次开发的scd版本管理系统 |
CN109670151A (zh) * | 2018-12-06 | 2019-04-23 | 网易(杭州)网络有限公司 | 文件合并方法、装置及存储介质 |
CN110096877A (zh) * | 2019-04-24 | 2019-08-06 | 厦门网宿有限公司 | 一种文件处理方法及装置 |
CN110262976A (zh) * | 2019-06-21 | 2019-09-20 | 深圳市腾讯网域计算机网络有限公司 | 游戏资源文件的解析方法、装置、设备和存储介质 |
CN111191436A (zh) * | 2020-01-03 | 2020-05-22 | 北大方正集团有限公司 | 版式文档的比对方法、装置、设备及计算机存储介质 |
CN112148953A (zh) * | 2020-09-30 | 2020-12-29 | 北京金堤征信服务有限公司 | 差异数据的访问方法以及装置 |
CN112632952A (zh) * | 2020-12-08 | 2021-04-09 | 中国建设银行股份有限公司 | 一种对比文件的方法和装置 |
CN113886332A (zh) * | 2021-12-09 | 2022-01-04 | 广东睿江云计算股份有限公司 | 一种大文件差异对比方法、装置、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7353225B2 (en) * | 2002-11-13 | 2008-04-01 | Sun Microsystems, Inc. | Mechanism for comparing content in data structures |
US7926049B1 (en) * | 2006-03-23 | 2011-04-12 | Netapp, Inc. | System and method for determining differences between software configurations |
CN103440197A (zh) * | 2013-08-25 | 2013-12-11 | 浙江大学 | 一种基于对比测试自动生成差异测试报告的方法 |
CN103617215A (zh) * | 2013-11-20 | 2014-03-05 | 上海爱数软件有限公司 | 一种利用数据差异算法生成多版本文件的方法 |
CN103729342A (zh) * | 2012-10-12 | 2014-04-16 | 中国银联股份有限公司 | 文件比对方法及装置 |
CN105653554A (zh) * | 2014-11-14 | 2016-06-08 | 卓望数码技术(深圳)有限公司 | 一种文件数据比对方法和系统 |
CN107766314A (zh) * | 2017-10-20 | 2018-03-06 | 网易(杭州)网络有限公司 | 电子表格的数据处理方法和装置 |
-
2018
- 2018-03-26 CN CN201810251830.XA patent/CN108446394B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7353225B2 (en) * | 2002-11-13 | 2008-04-01 | Sun Microsystems, Inc. | Mechanism for comparing content in data structures |
US7926049B1 (en) * | 2006-03-23 | 2011-04-12 | Netapp, Inc. | System and method for determining differences between software configurations |
CN103729342A (zh) * | 2012-10-12 | 2014-04-16 | 中国银联股份有限公司 | 文件比对方法及装置 |
CN103440197A (zh) * | 2013-08-25 | 2013-12-11 | 浙江大学 | 一种基于对比测试自动生成差异测试报告的方法 |
CN103617215A (zh) * | 2013-11-20 | 2014-03-05 | 上海爱数软件有限公司 | 一种利用数据差异算法生成多版本文件的方法 |
CN105653554A (zh) * | 2014-11-14 | 2016-06-08 | 卓望数码技术(深圳)有限公司 | 一种文件数据比对方法和系统 |
CN107766314A (zh) * | 2017-10-20 | 2018-03-06 | 网易(杭州)网络有限公司 | 电子表格的数据处理方法和装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284090B (zh) * | 2018-08-31 | 2022-05-10 | 广东电网有限责任公司 | 一种基于svn二次开发的scd版本管理系统 |
CN109284090A (zh) * | 2018-08-31 | 2019-01-29 | 广东电网有限责任公司 | 一种基于svn二次开发的scd版本管理系统 |
CN109670151A (zh) * | 2018-12-06 | 2019-04-23 | 网易(杭州)网络有限公司 | 文件合并方法、装置及存储介质 |
CN110096877A (zh) * | 2019-04-24 | 2019-08-06 | 厦门网宿有限公司 | 一种文件处理方法及装置 |
CN110096877B (zh) * | 2019-04-24 | 2021-06-04 | 厦门网宿有限公司 | 一种文件处理方法及装置 |
CN110262976A (zh) * | 2019-06-21 | 2019-09-20 | 深圳市腾讯网域计算机网络有限公司 | 游戏资源文件的解析方法、装置、设备和存储介质 |
CN110262976B (zh) * | 2019-06-21 | 2024-05-28 | 深圳市腾讯网域计算机网络有限公司 | 游戏资源文件的解析方法、装置、设备和存储介质 |
CN111191436A (zh) * | 2020-01-03 | 2020-05-22 | 北大方正集团有限公司 | 版式文档的比对方法、装置、设备及计算机存储介质 |
CN112148953A (zh) * | 2020-09-30 | 2020-12-29 | 北京金堤征信服务有限公司 | 差异数据的访问方法以及装置 |
CN112148953B (zh) * | 2020-09-30 | 2024-06-07 | 北京金堤征信服务有限公司 | 差异数据的访问方法以及装置 |
CN112632952A (zh) * | 2020-12-08 | 2021-04-09 | 中国建设银行股份有限公司 | 一种对比文件的方法和装置 |
CN113886332B (zh) * | 2021-12-09 | 2022-02-08 | 广东睿江云计算股份有限公司 | 一种大文件差异对比方法、装置、计算机设备及存储介质 |
CN113886332A (zh) * | 2021-12-09 | 2022-01-04 | 广东睿江云计算股份有限公司 | 一种大文件差异对比方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108446394B (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446394A (zh) | 文件差异的对比方法和装置 | |
US8856157B2 (en) | Automatic detection of columns to be obfuscated in database schemas | |
Leotta et al. | ROBULA+: An algorithm for generating robust XPath locators for web testing | |
CN108228231B (zh) | 一种Git仓库文件注解系统的可视化漂移方法 | |
US10303751B1 (en) | System and method for interaction coverage | |
CN104361119A (zh) | 一种数据清理的方法及系统 | |
Walsh et al. | Automatically identifying potential regressions in the layout of responsive web pages | |
CN110389941B (zh) | 数据库校验方法、装置、设备及存储介质 | |
Tateosian | Python For ArcGIS | |
Gazni et al. | Journal self‐citation trends in 1975–2017 and the effect on journal impact and article citations | |
CN110837471B (zh) | 一种测试方法、装置、服务器及存储介质 | |
Mensio et al. | News source credibility in the eyes of different assessors | |
US20090204889A1 (en) | Adaptive sampling of web pages for extraction | |
CN111602129B (zh) | 针对注释和墨迹的智能搜索 | |
CN113535258B (zh) | 一种Pattern文件加载方法及系统 | |
US20140229815A1 (en) | Computerised data entry form processing | |
US10318388B2 (en) | Datasets profiling tools, methods, and systems | |
CN111581217B (zh) | 数据检测方法、装置、计算机设备和存储介质 | |
Nguyen et al. | A novel method for resolving and completing authors’ country affiliation data in bibliographic records | |
Gao et al. | Characterizing deep learning package supply chains in PyPI: Domains, clusters, and disengagement | |
Nunes et al. | Heuristic expansion of feature mappings in evolving program families | |
Novak et al. | Calibration of source-code similarity detection tools for objective comparisons | |
Forta | Learning regular expressions | |
Arntzen et al. | Expansion of arbitrary stimulus classes and function‐transfer measured by sorting performances | |
Team | Nimble Challenge 2017 Evaluation Plan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |