CN111079403A - 一种页面对比方法及装置 - Google Patents
一种页面对比方法及装置 Download PDFInfo
- Publication number
- CN111079403A CN111079403A CN201911256828.2A CN201911256828A CN111079403A CN 111079403 A CN111079403 A CN 111079403A CN 201911256828 A CN201911256828 A CN 201911256828A CN 111079403 A CN111079403 A CN 111079403A
- Authority
- CN
- China
- Prior art keywords
- page
- document
- similarity
- picture
- hash value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种页面对比方法及装置,方法包括:获取第一文档和第二文档;所述第一文档包括至少一个第一页面,所述第二文档包括至少一个第二页面;将每一个第一页面与每一个第二页面进行相似度计算,获得每个第一页面分别与每个第二页面对应的相似度;根据所述相似度获得所述第一文档和所述第二文档的比对结果。本申请通过将对比文档中所有的页面进行相似度比较的方式,避免因为比对不完全导致页面标记不准确的情况,一定程度上可以提高页面标记的精度。
Description
技术领域
本申请涉及页面处理领域,具体而言,涉及一种页面对比方法及装置。
背景技术
文档对比是一种很常见用户需求,例如:当用户编辑文档之后,想快速、直观的查看新文档相对于旧文档的差异,就要用到文档对比功能。对于文档对比功能来说,标识出的差异项应当尽可能的准确,如果标识出的差异项不准确,那么将失去对比的意义。其中,页面配对标识是文档对比功能的很关键一步。
现有技术中,文档页面对比是直接按照页面的排列顺序进行页面项的比对,如果出现差别,就标定为修改项,并将后续内容不相同的页面均作为修改项,使得在对页面进行标识时,对于页面的标记不准确,导致后续页面对比的精确度下降。
发明内容
本申请实施例的目的在于提供一种页面对比方法及装置,用以提高页面对比的精确度。
第一方面,实施例提供一种页面对比方法,包括:获取第一文档和第二文档;所述第一文档包括至少一个第一页面,所述第二文档包括至少一个第二页面;将每一个第一页面与每一个第二页面进行相似度计算,获得每个第一页面分别与每个第二页面对应的相似度;根据所述相似度获得所述第一文档和所述第二文档的比对结果。
本申请通过将对比文档中所有的页面进行相似度比较的方式,避免因为比对不完全导致页面标记不准确的情况,一定程度上可以提高页面标记的精度。
在可选的实施方式中,所述根据所述相似度获得所述第一文档和所述第二文档的比对结果,包括:根据所述相似度确定出相匹配的第一页面和第二页面;根据相匹配的第一页面和第二页面获得第一文档和所述第二文档的比对结果。
本申请实施例通过相似度,可以根据确定出相匹配的第一页面和第二页面,可以准确地得到对应的文档比对结果,提高对页面标记的精度。
在可选的实施方式中,根据所述相似度获得所述第一文档和所述第二文档的比对结果,包括:根据所述相似度确定出相匹配的第一页面和第二页面,以及未匹配成功的第一页面和/或第二页面;根据相匹配的第一页面和第二页面,以及未匹配成功的第一页面和/或第二页面,获得第一文档和所述第二文档的比对结果。
本申请实施例通过相似度,可以根据确定出相匹配的第一页面和第二页面,以及未匹配的第一页面和/或第二页面,可以准确地得到对应的文档比对结果,提高对页面标记的精度。
在可选的实施方式中,所述根据所述相似度确定出相匹配的第一页面和第二页面,包括:针对每一第一页面,获取与所述第一页面对应的相似度最大,且最大相似度大于第一预设阈值的第二页面,作为与所述第一页面相匹配的第二页面。
本申请实施例通过在第一页面与第二页面的相似度中进行比较,选择相似度最大且大于第一预设阈值的第二页面,作为与第一页面相匹配的第二页面,通过这样的方式可以更加准确地确定出相匹配的第一页面和第二页面,保证后续页面标记的精度。
在可选的实施方式中,所述根据相匹配的第一页面和第二页面获得第一文档和所述第二文档的比对结果,包括:若相匹配的第一页面和第二页面对应的相似度为100%,则将第一页面和第二页面标记为内容相同;若相匹配的第一页面和第二页面对应的相似度小于100%并大于第二预设阈值,则将第一页面和第二页面标记为第一文档中相较于第二文档的修改页。
本申请实施例通过根据相匹配的第一页面和第二页面之间的相似度数值大小,可以将相匹配的第一页面和第二页面进行对应标记,提高对页面标记的效率。
在可选的实施方式中,根据所述未匹配成功的第一页面和/或第二页面,获得第一文档和所述第二文档的比对结果,包括:将未匹配成功的第一页面标记为第二文档中相较于第一文档的删除页;和/或将未匹配成功的第二页面标记为第二文档中相较于第一文档的增加页。
本申请实施例通过根据未匹配成功的第一页面和/或第二页面各自对应的文档,可以对第一页面和/或第二页面进行准确标记,以便提高后续对文档的详细内容进行对比的精度。
在可选的实施方式中,在所述将每一个第一页面与每一个第二页面进行相似度计算之前,所述方法还包括:判断所述第一页面和所述第二页面是否满足预设条件;其中,所述预设条件为所述第一页面的尺寸和所述第二页面的尺寸相等,且所述第一页面对应的图片哈希值和所述第二页面对应的图片哈希值相等,且所述第一页面的每一像素和所述第二页面的每一像素相等;若所述第一页面和所述第二页面不满足所述预设条件,则将所述第一页面和所述第二页面标记为内容不相同。
本申请实施例通过将预先判断第一页面和第二页面是否满足预设条件,可以确定出第一页面与第二页面是否内容相同,来对第一页面和第二页面进行预标记,提高页面对比的效率。
在可选的实施方式中,所述将每一个第一页面与每一个第二页面进行相似度计算,包括:分别生成第一页面对应的第一图片,以及第二页面对应的第二图片;计算第一图片和第二图片的行重复率和列重复率;从所述行重复率和所述列重复率中选择数值较高的一个,作为所述第一页面和对应的所述第二页面的相似度。
本申请实施例通过从第一页面和第二页面的行重复率和列重复率中选择一个作为第二页面的相似度,通过重复率可以高效、准确地获得两个页面之间的相似度,提高页面对比的效率。
在可选的实施方式中,所述计算第一图片和第二图片的行重复率和列重复率,包括:生成与第一图片逐行对应的第一哈希值,以及与第二图片逐行对应的第二哈希值;将所述第一哈希值与对应行的第二哈希值进行比较,根据比较结果确定所述第一图片和所述第二图片的行重复率,所述行重复率表征第一哈希值与对应的第二哈希值相同的行数占所述第一图片中总行数的比值;生成与第一图片逐列对应的第三哈希值,以及与第二图片逐列对应的第四哈希值;将所述第三哈希值与对应列的第四哈希值进行比较,根据比较结果确定所述第一图片和所述第二图片的列重复率,所述列重复率表征第三哈希值与对应的第四哈希值相同的列数占所述第一图片中总列数的比值。
本申请实施例通过对比哈希值的方法来得到的行重复率和列重复率,使得得到的行重复率和列重复率准确度更高,以便提高后续页面对比的准确度。
第二方面,实施例提供一种页面对比装置,包括:获取模块,用于获取第一文档和第二文档;所述第一文档包括至少一个第一页面,所述第二文档包括至少一个第二页面;计算模块,用于将每一个第一页面与每一个第二页面进行相似度计算,获得每个第一页面分别与每个第二页面对应的相似度;处理模块,用于根据所述相似度获得所述第一文档和所述第二文档的比对结果。
本申请通过处理模块将对比文档中所有的页面进行相似度比较的方式,避免因为比对不完全导致页面标记不准确的情况,一定程度上可以提高页面标记的精度。
第三方面,实施例提供一种电子设备,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如前述实施方式任一项所述的方法。
第四方面,实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如前述实施方式任一项所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种页面对比方法的流程示意图;
图2为本申请实施例提供的一种比对结果示意图;
图3为本申请实施例提供的一种页面对比装置的结构示意图;
图4为一种可应用于本申请实施例中的电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请提供一种页面对比方法,用以对待对比的第一文档和第二文档的页面进行标记,第一文档和第二文档的格式可以为word文档、PDF文档,文档的具体格式不限定,可以根据实际需求进行选择。本申请以下内容以第一文档和第二文档的格式均为PDF文档为例进行介绍。
图1为本申请实施例提供的一种页面对比方法的流程示意图,所述方法包括:
步骤110:获取第一文档和第二文档。所述第一文档包括至少一个第一页面,所述第二文档包括至少一个第二页面。
其中,第一文档和第二文档为需要进行页面对比的文档,需要进行页面对比的情况有多种,例如:第二文档可以是第一文档的修改稿,通过页面对比可以得知第二文档相较于第一文档进行了更新的页面;第二文档不是根据第一文档进行修改后的文档,但为了能够得知第二文档与第一文档的相似度而进行比较。应当说明的是,本申请实施例提供了两个文档进行比较的方法,也可能会存在至少三个文档需要进行页面对比的情况,可以通过两两页面之间互相比对的方式得到至少三个文档进行页面对比的结果。
步骤120:将每一个第一页面与每一个第二页面进行相似度计算,获得每个第一页面分别与每个第二页面对应的相似度。
举例来说,在第一文档中有第一页面A和第一页面B,在第二文档中有第二页面X、第二页面Y和第二页面Z,在将每一个第一页面与每一个第二页面进行相似度计算时,可以将第一页面A和第二页面X进行相似度计算,得到第一页面A和第二页面X的相似度1;将第一页面A和第二页面Y进行相似度计算,得到第一页面A和第二页面Y的相似度2;将第一页面A和第二页面Z进行相似度计算,得到第一页面A和第二页面Z的相似度3。同时,将第一页面B和第二页面X进行相似度计算,得到第一页面B和第二页面X的相似度4;将第一页面B和第二页面Y进行相似度计算,得到第一页面B和第二页面Y的相似度5;将第一页面B和第二页面Z进行相似度计算,得到第一页面B和第二页面Z的相似度6。由此,可以获得每个第一页面分别与每个第二页面对应的相似度。
步骤130:根据所述相似度获得所述第一文档和所述第二文档的比对结果。
其中,相似度可以用于表征两个页面之间文字内容的相似度,也可以用于表征两个页面之间图片的相似度,还可以用于表征两个页面全文排版的相似度。相似度的类型有多种,具体的相似度种类可以根据实际要求的页面对比的精度来进行调整。
并且,在第一文档和第二文档进行页面对比后得到的对比结果可能有多种,对于第二文档是第一文档的修改文档的情况,比对结果可以为相较于第一文档,在第二文档中有新增的页面,即新增页;也可以是在第二文档中有删除的页面,即删除页;还可以是在第二文档中有部分内容修改的页面,即修改页;还可以是相较于第一文档,在第二文档中没有修改的页面,即该页面在第一文档和第二文档中的内容相同,相当于未更新页。第一文档和第二文档的比对结果类型有多种,具体的对比结果类型的划分可以根据文档的对比需求进行调整。
本申请实施例为了对第一文档和第二文档中所有的页面对应进行比较。由此,通过计算每一个第一页面与每一个第二页面对应的相似度,根据相似度来确定第一页面和第二页面的比对结果的方法,可以在一定程度上防止因为第一文档和第二文档在中间部分的页面有大篇幅不同,导致页面对比错位的情况发生。例如,相较于第一文档,在第二文档中有部分页面删除或者添加的情况。由此,通过本申请提供的将文档中所有页面进行相似度比较的方法,在到一定程度上可以提高第一文档和第二文档对比的精确度。
值得说明的是,第一文档的格式可以与第二文档的格式相同,也可以不同,例如在第一文档的格式与第二文档的格式相同时,可以都是word版本的文档,或都是PDF版本的文档等。第一文档的格式和第二文档的格式不限定,可以根据实际的页面对比需求进行调整。
作为本申请的一种实施方式,在步骤120之前,所述方法还包括:判断所述第一页面和所述第二页面是否满足预设条件;其中,所述预设条件为所述第一页面的尺寸和所述第二页面的尺寸相等,且所述第一页面对应的图片哈希值和所述第二页面对应的图片哈希值相等,且所述第一页面的每一像素和所述第二页面的每一像素相等;若所述第一页面和所述第二页面不满足所述预设条件,则将所述第一页面和所述第二页面标记为内容不相同。
为了提高页面对比的效率,可以通过对每一第一页面和每一第二页面进行预判断的方式,来初步确定出第一页面和第二页面的内容是否相同。判断第一页面和第二页面是否同时满足多条预设条件,如果不满足任意一个,就判定第一页面和第二页面的内容不相同。例如:页面尺寸是否相同,页面对应的哈希值是否相等,每一像素是否相等。
其中,预设条件可以有一条或者多条,例如:预设条件可以为页面尺寸是否相同,且页面对应的哈希值是否相等,且每一像素是否相等。在判断第一页面和第二页面是否满足预设条件时,可以根据判断的难易程度,将先执行容易进行判断的步骤,后执行较繁琐的判断步骤,例如:依次判断第一页面和第二页面是否满足页面尺寸是否相同,页面对应的哈希值是否相等,每一像素是否相等。预设条件的设定不限定,可以根据文档中页面的特定特征进行设定。
还需要说明的是,在进行页面对比时本申请实施例可以采用Myers’diff算法寻找最短对比方式,相较于普通的对比步骤,可以更加高效的准确地确定出进行页面对比后得到的页面比对结果。
作为本申请的一种实施方式,所述步骤130具体可以包括:根据所述相似度确定出相匹配的第一页面和第二页面;根据相匹配的第一页面和第二页面获得第一文档和所述第二文档的比对结果。
其中,在求得每一第一页面和每一第二页面的相似度之后,可以根据相似度确定出在内容上有关联的第一页面和第二页面,即相匹配的第一页面和第二页面。相匹配的第一页面和第二页面有多种情况,可以是第一页面和第二页面有内容完全相同,也可以是第一页面和第二页面有部分内容相同。由此,在确定出相匹配的第一页面和第二页面后,可以更加快速的得到第一文档和第二文档的比对结果。
值得说明的是,根据相似度可以确定出相匹配的第一页面和第二页面,也可能会存在不能确定出相匹配的第一页面和第二页面的情况,相当于未匹配成功的第一页面和/或第二页面。
作为本申请的另一种实施方式,根据所述相似度确定出相匹配的第一页面和第二页面,以及未匹配成功的第一页面和/或第二页面;根据相匹配的第一页面和第二页面,以及未匹配成功的第一页面和/或第二页面,获得第一文档和所述第二文档的比对结果。
其中,由于在文档的页面对比过程中,是采用根据页面之间内容的相似度的方式来确定页面是否匹配。因此,可能会存在第二文档中没有第二页面与第一文档中有多出的第一页面相匹配的情况;也可能会存在第一文档中没有第一页面与第二文档中有多出的第二页面相匹配的情况;还可以在两个文档中同时出现未匹配成功的第一页面和第二页面。
由此,对于第一文档中的所有第一页面均在第二文档中有与其相匹配的第二页面,并且,第二文档中的所有第二页面也均在第一文档中与其相匹配的第一页面的情况,简单可以理解为,第一文档和第二文档均没有删页和增页的情况。在第一文档和第二文档中均没有删页和增页的情况下,可以根据相匹配的第一页面和第二页面,获取第一文档和第二文档的比对结果。在第一文档和第二文档中有删页和/或增页的情况下,可以根据相匹配的第一页面和第二页面,以及未匹配成功的第一页面和/或第二页面,获取第一文档和第二文档的比对结果。同时,如果没有确定出相匹配的第一页面和第二页面,即在第一文档和第二文档中只有删页和/或增页的情况下,确定第一文档和第二文档的比对结果可以为第一文档和第二文档在页面内容上相似度较小,比对结果也可以为第二文档相较于第一文档修改较多。
同时,根据相似度确定出相匹配的第一页面和第二页面的方式有多种,可以通过相似度阈值来对相似度进行筛选,筛选出与每一第一页面匹配的第二页面;也可以针对每一第一页面,选择相似度最大的第二页面作为与第一压面匹配的第二页面;还可以通过两者的结合,确定出相匹配的第一页面和第二页面。
在上述任一实施例的基础上,根据所述相似度确定出相匹配的第一页面和第二页面,包括:针对每一第一页面,获取与所述第一页面对应的相似度最大,且最大相似度大于第一预设阈值的第二页面,作为与所述第一页面相匹配的第二页面。
值得说明的是,也可以以第二页面为基准,确定出与第二页面相匹配的第一页面,即:针对每一第二页面,获取与所述第一页面对应的相似度最大,且最大相似度大于第一预设阈值的第一页面,作为与所述第二页面相匹配的第一页面。由此,通过上述的一一对比的方式,可以确定出唯一的第一页面和第二页面能够匹配成功。
举例来说,假设有第一页面c以及第二页面d、第二页面e和第二页面f,其中,第一预设阈值为50%。假设第一页面c和第二页面d的相似度为40%,第一页面c和第二页面e的相似度为60%,第一页面c和第二页面f的相似度为80%,则根据第一阈值可以将第一页面c和第二页面d的对应关系排除。将第一页面c和第二页面e的相似度以及第一页面c和第二页面f的相似度中进行比较,可以看出第一页面c和第二页面f的相似度的数值较高,因此,第一页面c和第二页面f匹配成功。
同时,不是每一个第一页面都可以匹配到与所述第一页面对应的相似度最大,且最大相似度大于第一预设阈值的第二页面,若没有匹配成功,则认为所述第一页面为未匹配成功的第一页面。同理,如果第二页面没有匹配到与所述第二页面对应的相似度最大,且最大相似度大于第一预设阈值的第一页面,则认为所述第二页面为未匹配成功的第二页面。
其中,第一预设阈值可以为百分之五十,也可以为百分之八十,第一预设阈值的具体数值可以根据实际需求的页面对比精度进行调整。
作为本申请的一种实施方式,所述根据相匹配的第一页面和第二页面获得第一文档和所述第二文档的比对结果,包括:若相匹配的第一页面和第二页面对应的相似度为100%,则将第一页面和第二页面标记为内容相同。若相匹配的第一页面和第二页面对应的相似度小于100%并大于第二预设阈值,则将第一页面和第二页面标记为第一文档中相较于第二文档的修改页。
在确定出相匹配的第一页面和第二页面后,可以根据第一页面和第二页面的相似度对第一页面和第二页面进行标记,如果相似度为100%,则说明第一页面和第二页面内容上相同,相较于第一文档中的第一页面,第二文档并没对第一页面进行更新,直接将第一页面作为第二页面,由此,可以将相似度为100%的第一页面和第二页面标记为内容相同。
如果相似度小于100%且大于第二预设阈值,则说明第一页面和第二页面在内容上相似部分较多,相较于第一文档中的第一页面,第二文档对第一页面进行了小部分的内容增加、内容删除和内容修改中的一种或多种的组合操作,得到了第二页面,使得相匹配的第一页面和第二页面在一定程度上内容相似。因此,可以将第一页面和第二页面标记为第一文档中相较于第二文档的修改页。
其中,第二预设阈值可以为百分之五十,也可以为百分之七十,第一预设阈值的具体数值可以根据实际需求的页面对比精度进行调整。
作为本申请的另一种实施方式,根据所述未匹配成功的第一页面和/或第二页面,获得第一文档和所述第二文档的比对结果,包括:将未匹配成功的第一页面标记为第二文档中相较于第一文档的删除页;将未匹配成功的第二页面标记为第二文档中相较于第一文档的增加页。
其中,未匹配成功的第一页面可以为相较于第一文档在第二文档中的删除页,也可能为相较于第一文档在第二文档中的修改较多的页面,即:相当于相较于第一文档中删去的大部分内容,在第二文档中新增部分内容。未匹配成功的第二页面可以为相较于第一文档在第二文档中的增加页,也可能为相较于第一文档在第二文档中的修改较多的页面,即:相当于相较于第一文档中删去的大部分内容,在第二文档中新增部分内容。
由此,在确定出未匹配成功的第一页面和/或第二页面后,可以根据未匹配成功的页面的来源,对该页面进行标记,可以更加准确地确定出相较于第一文档,在第二文档中有较大更新的页面,如新增页和删除页。
图2为本申请实施例提供的一种比对结果示意图,如图所述,左边为第一文档,右边为第二文档,在确定出第一文档和第二文档中的内容相同、修改页、新增页和删除页之后,可以如图所示的对第一文档中的每一第一页面进行标记,对第二文档中的每一第二页面进行标记。
还需要说明的是,第一页面和第二页面相似度的计算方式有多种,可以通过图像特征识别的方式,识别出第一页面和第二页面的相似度;也可以通过统计字符相同占比的方式,统计相同的字符数占总字符数的比例,来得到第一页面和第二页面的相似度。第一页面和第二页面相似度具体的计算方式不限定,可以根据实际的页面对比需求进行调整。
作为本申请的一种实施方式,步骤120具体可以包括:分别生成第一页面对应的第一图片,以及第二页面对应的第二图片;计算第一图片和第二图片的行重复率和列重复率;从所述行重复率和所述列重复率中选择数值较高的一个,作为所述第一页面和对应的所述第二页面的相似度。
其中,行重复率和列重复率均可以表征第一页面和第二页面的相似程度,同时考虑到在进行文档修改时,可能会因为在某一段落中删除或者新增几个字,导致一个段落中的字符移动的情况,使得列重复率或行重复率计算不准确。由此,可以将行重复率和所述列重复率中数值较高的一个,作为第二页面的相似度,在提高效率的同时可以准确地得到第一页面和第二页面的相似度。
值得说明的是,行重复率和列重复率的计算方式也有多种,行重复率和列重复率可以通过比较字符类型的方式进行计算获取,也可以通过逐行、逐列比较哈希值的方式进行计算获取。行重复率和列重复率具体的计算方式不限定,可以根据实际的页面对比需求进行调整。
作为本申请的一种实施方式,所述计算第一图片和第二图片的行重复率和列重复率,包括:生成与第一图片逐行对应的第一哈希值,以及与第二图片逐行对应的第二哈希值;将所述第一哈希值与对应行的第二哈希值进行比较,根据比较结果确定所述第一图片和所述第二图片的行重复率,所述行重复率表征第一哈希值与对应的第二哈希值相同的行数占所述第一图片中总行数的比值;生成与第一图片逐列对应的第三哈希值,以及与第二图片逐列对应的第四哈希值;将所述第三哈希值与对应列的第四哈希值进行比较,根据比较结果确定所述第一图片和所述第二图片的列重复率,所述列重复率表征第三哈希值与对应的第四哈希值相同的列数占所述第一图片中总列数的比值。
值得说明的是,由于页面在进行修改的时候可能会因为在某一段落中删除或者新增至少一行,导致后续段落中的字符移动的情况,导致行重复率和列重复率对比不准确的情况。因此,利用哈希值求取行重复率和列重复率的方案仅适用于在第一文档中进行修改,得到第二文档的场景。
其中,哈希值可以通过将对应的任意长度的字符输入后,利用散列算法变换成固定长度的输出来计算的到。输出的哈希值的数值可以表征输入的特性,在一般情况下,输入的内容与输出的哈希值的数值一一对应,如果输入的内容有变化,那么哈希值的数值也会进行变化。由此,逐行对比或者逐列对比哈希值或者逐列对比哈希值,可以确定第一页面和第二页面中相同的行数,由此,可以根据哈希值相同的行数占第一图片中总行数的比值作为行重复率,可以将根据哈希值相同的列数占第一图片中总列数的比值作为列重复率,提高重复率计算的准确性。
图3为本申请实施例提供的一种页面对比装置的结构示意图,基于同一发明构思,本申请实施例还提供了一种页面对比装置400,包括:获取模块410,用于获取第一文档和第二文档;所述第一文档包括至少一个第一页面,所述第二文档包括至少一个第二页面。计算模块420,用于将每一个第一页面与每一个第二页面进行相似度计算,获得每个第一页面分别与每个第二页面对应的相似度;处理模块430,用于根据所述相似度获得所述第一文档和所述第二文档的比对结果。
在上述实施例的基础上,所述处理模块430具体用于:根据所述相似度确定出相匹配的第一页面和第二页面;根据相匹配的第一页面和第二页面获得第一文档和所述第二文档的比对结果。
在上述实施例的基础上,所述处理模块430具体用于:根据所述相似度确定出相匹配的第一页面和第二页面,以及未匹配成功的第一页面和/或第二页面;根据相匹配的第一页面和第二页面,以及未匹配成功的第一页面和/或第二页面,获得第一文档和所述第二文档的比对结果。
在上述实施例的基础上,所述处理模块430具体用于:针对每一第一页面,获取与所述第一页面对应的相似度最大,且最大相似度大于第一预设阈值的第二页面,作为与所述第一页面相匹配的第二页面。
在上述实施例的基础上,所述处理模块430具体用于:若相匹配的第一页面和第二页面对应的相似度为100%,则将第一页面和第二页面标记为内容相同;若相匹配的第一页面和第二页面对应的相似度小于100%并大于第二预设阈值,则将第一页面和第二页面标记为第一文档中相较于第二文档的修改页。
在上述实施例的基础上,根据所述未匹配成功的第一页面和/或第二页面,所述处理模块430具体用于:将未匹配成功的第一页面标记为第二文档中相较于第一文档的删除页;和/或将未匹配成功的第二页面标记为第二文档中相较于第一文档的增加页。
在上述实施例的基础上,所述页面对比装置400还包括:预判断模块,用于判断所述第一页面和所述第二页面是否满足预设条件;其中,所述预设条件为所述第一页面的尺寸和所述第二页面的尺寸相等,且所述第一页面对应的图片哈希值和所述第二页面对应的图片哈希值相等,且所述第一页面的每一像素和所述第二页面的每一像素相等;若所述第一页面和所述第二页面不满足所述预设条件,则将所述第一页面和所述第二页面标记为内容不相同。
在上述实施例的基础上,所述计算模块420具体用于:分别生成第一页面对应的第一图片,以及第二页面对应的第二图片;计算第一图片和第二图片的行重复率和列重复率;从所述行重复率和所述列重复率中选择数值较高的一个,作为所述第一页面和对应的所述第二页面的相似度。
在上述实施例的基础上,所述计算模块420具体用于:生成与第一图片逐行对应的第一哈希值,以及与第二图片逐行对应的第二哈希值;将所述第一哈希值与对应行的第二哈希值进行比较,根据比较结果确定所述第一图片和所述第二图片的行重复率,所述行重复率表征第一哈希值与对应的第二哈希值相同的行数占所述第一图片中总行数的比值;生成与第一图片逐列对应的第三哈希值,以及与第二图片逐列对应的第四哈希值;将所述第三哈希值与对应列的第四哈希值进行比较,根据比较结果确定所述第一图片和所述第二图片的列重复率,所述列重复率表征第三哈希值与对应的第四哈希值相同的列数占所述第一图片中总列数的比值。
本申请实施例提供页面对比装置400用于执行上述方法,其具体的实施方式与页面对比方法的实施方式一致,此处不再赘述。
请参照图4,图4示出了一种可应用于本申请实施例中的电子设备10的结构框图。电子设备10可以包括存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、显示单元107。
所述存储器101、存储控制器102、处理器103、外设接口104、输入输出单元105、显示单元107各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。至少一个软件或固件(firmware)存储于所述存储器101中或固化在操作系统(operating system,OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块,软件功能模块或计算机程序。
其中,存储器101可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器101用于存储程序,所述处理器103在接收到执行指令后,执行所述程序,前述本申请实施例任一实施例揭示的方法可以应用于处理器103中,或者由处理器103实现。
处理器103可以是一种集成电路芯片,具有信号的处理能力。上述的处理器103可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。
所述外设接口104将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中,外设接口104,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元105用于提供给用户输入数据实现用户与所述电子设备10的交互。所述输入输出单元105可以是,但不限于,鼠标和键盘等。
显示单元107在所述电子设备10与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元107可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器103进行计算和处理。
可以理解,图4所示的结构仅为示意,所述电子设备10还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
综上所述,本申请实施例提供了一种页面对比方法及装置,方法包括:获取第一文档和第二文档;所述第一文档包括至少一个第一页面,所述第二文档包括至少一个第二页面;将每一个第一页面与每一个第二页面进行相似度计算,获得每个第一页面分别与每个第二页面对应的相似度;根据所述相似度获得所述第一文档和所述第二文档的比对结果。本申请通过将对比文档中所有的页面进行相似度比较的方式,避免因为比对不完全导致页面标记不准确的情况,一定程度上可以提高页面标记的精度。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种页面对比方法,其特征在于,包括:
获取第一文档和第二文档;所述第一文档包括至少一个第一页面,所述第二文档包括至少一个第二页面;
将每一个第一页面与每一个第二页面进行相似度计算,获得每个第一页面分别与每个第二页面对应的相似度;
根据所述相似度获得所述第一文档和所述第二文档的比对结果。
2.根据权利要求1所述的页面对比方法,其特征在于,所述根据所述相似度获得所述第一文档和所述第二文档的比对结果,包括:
根据所述相似度确定出相匹配的第一页面和第二页面;
根据相匹配的第一页面和第二页面获得第一文档和所述第二文档的比对结果。
3.根据权利要求1所述的页面对比方法,其特征在于,所述根据所述相似度获得所述第一文档和所述第二文档的比对结果,包括:
根据所述相似度确定出相匹配的第一页面和第二页面,以及未匹配成功的第一页面和/或第二页面;
根据相匹配的第一页面和第二页面,以及未匹配成功的第一页面和/或第二页面,获得第一文档和所述第二文档的比对结果。
4.根据权利要求2-3任一项所述的页面对比方法,其特征在于,所述根据所述相似度确定出相匹配的第一页面和第二页面,包括:
针对每一第一页面,获取与所述第一页面对应的相似度最大,且最大相似度大于第一预设阈值的第二页面,作为与所述第一页面相匹配的第二页面。
5.根据权利要求2所述的页面对比方法,其特征在于,所述根据相匹配的第一页面和第二页面获得第一文档和所述第二文档的比对结果,包括:
若相匹配的第一页面和第二页面对应的相似度为100%,则将第一页面和第二页面标记为内容相同;
若相匹配的第一页面和第二页面对应的相似度小于100%并大于第二预设阈值,则将第一页面和第二页面标记为第一文档中相较于第二文档的修改页。
6.根据权利要求3所述的页面对比方法,其特征在于,根据所述未匹配成功的第一页面和/或第二页面,获得第一文档和所述第二文档的比对结果,包括:
将未匹配成功的第一页面标记为第二文档中相较于第一文档的删除页;
和/或将未匹配成功的第二页面标记为第二文档中相较于第一文档的增加页。
7.根据权利要求1所述的页面对比方法,其特征在于,在所述将每一个第一页面与每一个第二页面进行相似度计算之前,所述方法还包括:
判断所述第一页面和所述第二页面是否满足预设条件;其中,所述预设条件为所述第一页面的尺寸和所述第二页面的尺寸相等,且所述第一页面对应的图片哈希值和所述第二页面对应的图片哈希值相等,且所述第一页面的每一像素和所述第二页面的每一像素相等;
若所述第一页面和所述第二页面不满足所述预设条件,则将所述第一页面和所述第二页面标记为内容不相同。
8.根据权利要求1所述的页面对比方法,其特征在于,所述将每一个第一页面与每一个第二页面进行相似度计算,包括:
分别生成第一页面对应的第一图片,以及第二页面对应的第二图片;
计算第一图片和第二图片的行重复率和列重复率;
从所述行重复率和所述列重复率中选择数值较高的一个,作为所述第一页面和对应的所述第二页面的相似度。
9.根据权利要求8所述的页面对比方法,其特征在于,所述计算第一图片和第二图片的行重复率和列重复率,包括:
生成与第一图片逐行对应的第一哈希值,以及与第二图片逐行对应的第二哈希值;
将所述第一哈希值与对应行的第二哈希值进行比较,根据比较结果确定所述第一图片和所述第二图片的行重复率,所述行重复率表征第一哈希值与对应的第二哈希值相同的行数占所述第一图片中总行数的比值;
生成与第一图片逐列对应的第三哈希值,以及与第二图片逐列对应的第四哈希值;
将所述第三哈希值与对应列的第四哈希值进行比较,根据比较结果确定所述第一图片和所述第二图片的列重复率,所述列重复率表征第三哈希值与对应的第四哈希值相同的列数占所述第一图片中总列数的比值。
10.一种页面对比装置,其特征在于,包括:
获取模块,用于获取第一文档和第二文档;所述第一文档包括至少一个第一页面,所述第二文档包括至少一个第二页面;
计算模块,用于将每一个第一页面与每一个第二页面进行相似度计算,获得每个第一页面分别与每个第二页面对应的相似度;
处理模块,用于根据所述相似度获得所述第一文档和所述第二文档的比对结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911256828.2A CN111079403B (zh) | 2019-12-10 | 2019-12-10 | 一种页面对比方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911256828.2A CN111079403B (zh) | 2019-12-10 | 2019-12-10 | 一种页面对比方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079403A true CN111079403A (zh) | 2020-04-28 |
CN111079403B CN111079403B (zh) | 2023-08-08 |
Family
ID=70313682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911256828.2A Active CN111079403B (zh) | 2019-12-10 | 2019-12-10 | 一种页面对比方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079403B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024065A (zh) * | 2011-01-18 | 2011-04-20 | 中南大学 | 基于simd优化的网页去重并行方法 |
CN103514292A (zh) * | 2013-10-09 | 2014-01-15 | 南京大学 | 一种基于小样本半监督学习的网页数据抽取方法 |
CN105808726A (zh) * | 2016-03-08 | 2016-07-27 | 浪潮软件股份有限公司 | 一种度量文档的相似度的方法及装置 |
CN106055475A (zh) * | 2016-05-24 | 2016-10-26 | 广州视睿电子科技有限公司 | 一种版本兼容性检测方法及装置 |
CN107204960A (zh) * | 2016-03-16 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 网页识别方法及装置、服务器 |
CN108681551A (zh) * | 2018-03-30 | 2018-10-19 | 北京智慧正安科技有限公司 | 文书对比方法、电子装置及计算机可读存储介质 |
CN108804418A (zh) * | 2018-05-21 | 2018-11-13 | 浪潮软件集团有限公司 | 一种基于语义分析的文档查重方法和装置 |
CN109542776A (zh) * | 2018-11-07 | 2019-03-29 | 北京潘达互娱科技有限公司 | 页面比对方法、装置及设备 |
CN110377558A (zh) * | 2019-06-14 | 2019-10-25 | 平安科技(深圳)有限公司 | 文档查询方法、装置、计算机设备和存储介质 |
CN110390081A (zh) * | 2018-04-17 | 2019-10-29 | 北大方正集团有限公司 | 文档比对方法、装置及设备 |
CN110532964A (zh) * | 2019-08-30 | 2019-12-03 | 广东小天才科技有限公司 | 页码识别方法及装置、阅读机器人、计算机可读存储介质 |
-
2019
- 2019-12-10 CN CN201911256828.2A patent/CN111079403B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024065A (zh) * | 2011-01-18 | 2011-04-20 | 中南大学 | 基于simd优化的网页去重并行方法 |
CN103514292A (zh) * | 2013-10-09 | 2014-01-15 | 南京大学 | 一种基于小样本半监督学习的网页数据抽取方法 |
CN105808726A (zh) * | 2016-03-08 | 2016-07-27 | 浪潮软件股份有限公司 | 一种度量文档的相似度的方法及装置 |
CN107204960A (zh) * | 2016-03-16 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 网页识别方法及装置、服务器 |
CN106055475A (zh) * | 2016-05-24 | 2016-10-26 | 广州视睿电子科技有限公司 | 一种版本兼容性检测方法及装置 |
CN108681551A (zh) * | 2018-03-30 | 2018-10-19 | 北京智慧正安科技有限公司 | 文书对比方法、电子装置及计算机可读存储介质 |
CN110390081A (zh) * | 2018-04-17 | 2019-10-29 | 北大方正集团有限公司 | 文档比对方法、装置及设备 |
CN108804418A (zh) * | 2018-05-21 | 2018-11-13 | 浪潮软件集团有限公司 | 一种基于语义分析的文档查重方法和装置 |
CN109542776A (zh) * | 2018-11-07 | 2019-03-29 | 北京潘达互娱科技有限公司 | 页面比对方法、装置及设备 |
CN110377558A (zh) * | 2019-06-14 | 2019-10-25 | 平安科技(深圳)有限公司 | 文档查询方法、装置、计算机设备和存储介质 |
CN110532964A (zh) * | 2019-08-30 | 2019-12-03 | 广东小天才科技有限公司 | 页码识别方法及装置、阅读机器人、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111079403B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014510963A (ja) | キャプチャーされた画像データのスプレッドシートとの関連付け | |
CN112965645B (zh) | 页面拖拽方法、装置、计算机设备及存储介质 | |
CN110597511A (zh) | 一种页面自动生成方法、系统、终端设备及存储介质 | |
CN105302626B (zh) | Xps结构化数据的解析方法 | |
CN110837366A (zh) | 一种表单生成方法、电子装置及计算机可读存储介质 | |
CN112181386B (zh) | 一种基于软件持续集成的代码构建方法、装置及终端 | |
CN111611813A (zh) | 文档翻译方法、装置、电子设备及存储介质 | |
CN110806866A (zh) | 一种前端管理系统的生成方法及装置 | |
CN107844645B (zh) | 基于bim的协作发起方法及装置 | |
CN107729341B (zh) | 电子装置、信息查询控制方法和计算机可读存储介质 | |
US20200342169A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
CN111079403A (zh) | 一种页面对比方法及装置 | |
CN112541645A (zh) | 伴随车辆产品项目开发的数据处理方法、系统及相关装置 | |
CN112149402B (zh) | 文档对比方法、装置、电子设备和计算机可读存储介质 | |
CN112583603B (zh) | 可视化签名方法、装置、电子设备和计算机可读存储介质 | |
JP2015191277A (ja) | データ識別方法、データ識別プログラム及びデータ識別装置 | |
JP7317612B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN114169306A (zh) | 一种生成电子回执单的方法、装置、设备及可读存储介质 | |
US9075776B2 (en) | Document processing apparatus, document processing method, and program | |
US20230099764A1 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
CN111967240B (zh) | 文本解析方法、装置、终端设备及计算机可读存储介质 | |
JP2020030722A (ja) | 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム | |
CN107908628B (zh) | 电子装置、信息查询控制方法和计算机可读存储介质 | |
JP6973433B2 (ja) | 帳票処理装置、帳票処理方法、及びプログラム | |
WO2017009900A1 (ja) | 文書処理システム及び文書処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |