CN114492372A - 基于html的文档比对方法、控制装置、及计算机程序产品 - Google Patents

基于html的文档比对方法、控制装置、及计算机程序产品 Download PDF

Info

Publication number
CN114492372A
CN114492372A CN202210144434.3A CN202210144434A CN114492372A CN 114492372 A CN114492372 A CN 114492372A CN 202210144434 A CN202210144434 A CN 202210144434A CN 114492372 A CN114492372 A CN 114492372A
Authority
CN
China
Prior art keywords
comparison
document
group
html
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210144434.3A
Other languages
English (en)
Inventor
单晟
林明
张艺榕
王曦
袁正东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202210144434.3A priority Critical patent/CN114492372A/zh
Publication of CN114492372A publication Critical patent/CN114492372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于HTML的文档比对方法、控制装置、及计算机程序产品,属于计算机技术领域。所述基于HTML的文档比对方法包括:根据HTML文本串属性,对第一文档和第二文档进行切分,并生成对应的第一比对对象和第二比对对象;比对所述第一比对对象和所述第二比对对象,确定两者的差异;以及根据所述第一比对对象和所述第二比对对象,重新生成所述第一文档或所述第二文档,并在生成的所述第一文档或所述第二文档上显示所述差异。本发明实施例根据HTML文本串属性,实现了基于HTML的文档比对,并能够正确以HTML的语法,标记出文档差异。

Description

基于HTML的文档比对方法、控制装置、及计算机程序产品
技术领域
本发明涉及计算机技术领域,具体地涉及一种基于HTML的文档比对方法、控制装置、及计算机程序产品。
背景技术
对于网页面上展示的文档,其内容是由超文本标记语言(Hyper Text MarkupLanguage,HTML)格式的文件组成的。当页面上的文档经过编辑后,内容发生变化。用户需要了解,编辑前后文档的变化内容,并能够通过页面上展示出来。
一般的文本比对算法,例如Myer差分算法,并不能处理带有HTML标签的文本,通过Myer差分算法的比较结果,会将HTML标签和HTML文本合并起来,这种结果无法正确在页面上展示。
发明内容
本发明实施例的目的是提供一种基于HTML的文档比对方法,该基于HTML的文档比对方法可以完成基于HTML的文档比对。
为了实现上述目的,本发明实施例提供一种基于HTML的文档比对方法,所述基于HTML的文档比对方法包括:根据HTML文本串属性,对第一文档和第二文档进行元素提取,并生成对应的第一比对对象和第二比对对象;比对所述第一比对对象和所述第二比对对象,确定两者的差异;以及根据所述第一比对对象和所述第二比对对象,重新生成所述第一文档或所述第二文档,并在生成的所述第一文档或所述第二文档上显示所述差异。
可选的,所述根据HTML文本串属性,对第一文档和第二文档进行元素提取,并生成对应的第一比对对象和第二比对对象包括:通过正则表达式,对所述第一文档和第二文档进行元素提取,其中,所提取的元素包括HTML标签、普通字符、特殊字符。
可选的,若所提取的元素为HTML标签,则去除标签属性。
可选的,通过滑动窗口的方式,分别对所述第一比对对象和所述第二比对对象进行划分,生成对应的第一比对组和第二比对组,其中,所述滑动窗口的大小为预设的最小比对单元长度;比对所述第一比对组和所述第二比对组,确定两者的差异。
可选的,所述通过滑动窗口的方式,分别对所述第一比对对象和所述第二比对对象进行划分,生成对应的第一比对组和第二比对组包括:以所述滑动窗口的大小为单位,按顺序对所述第一比对对象或所述第二比对对象中的项进行组合划分,生成对应的第一比对组和第二比对组,其中,组合划分后的组合字符作为所述第一比对组或所述第二比对组的项的key,组合划分后的组合字符的首字符在所述第一比对对象或所述第二比对对象的位置作为第一比对组或所述第二比对组的项的value。
可选的,若所述第一比对组或所述第二比对组的项存在相同key时,对相同key的项增加坐标。
可选的,所述比对所述第一比对组和所述第二比对组,确定两者的差异,包括:以所述第一比对组和所述第二比对组的value相同的一项作为比对项,比对该比对项的key,其中,当该比对项的key相同时,依次以所述第一比对组和所述第二比对组的下一项作为所述比对项,继续比对所述比对项的key,当出现所述比对项的key不相同时,记录该比对项的位置;以所述第一比对组和所述第二比对组的value相同的下一项作为比对项,重新开始比对所述比对项的key,直到确定所述比对所述第一比对组和所述第二比对组中所有key不相同的项的位置。
可选的,所述比对所述第一比对组和所述第二比对组,确定两者的差异,还包括:根据所确定的key不相同的项的位置,确定该项的差异类型,并生成包含所有key不相同的项的位置及差异类型的差异结果集,其中,所述差异的类型包括替换、新增、删除。
本发明实施例还提供一种控制装置,所述控制装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序,以实现上述任意一项所述的基于HTML的文档比对方法。
本发明实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令使得机器执行上述任意一项所述的基于HTML的文档比对方法。
本发明实施例还提供一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现上述任意一项所述的基于HTML的文档比对方法。
通过上述技术方案,本发明实施例根据HTML文本串属性,实现了基于HTML的文档比对,并能够正确以HTML的语法,标记出文档差异。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1A是示例原始文档示意图;
图1B是示例目标文档示意图;
图1C是示例比对效果示意图;
图2是本发明实施例提供的基于HTML的文档比对方法的流程示意图;
图3是本发明优选实施例提供的对比第一比对对象和第二比对对象的流程示意图;
图4是本发明实施例提供的计算机设备的机构示意图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
在详细解释本发明实施例的内容之前,先以一个示例介绍本发明实施例要解决的技术问题。请参考图1A、1B、1C,图1A示出了原始文档的部分内容,图1B示出了目标文档的部分内容,图1C示出了本发明实施例要达到的比对效果。后文均通过该示例进行技术阐释。
图2是本发明实施例提供的基于HTML的文档比对方法的流程示意图,请参考图2,该基于HTML的文档比对方法可以包括以下步骤:
步骤S110:根据HTML文本串属性,对第一文档和第二文档进行元素提取,并生成对应的第一比对对象和第二比对对象。
请结合图1A、图1B、及图1C,以第一文档为图1A的原始文档的部分内容,第二文档为图1B的部分内容,第一文档的HTML文本可以表示为:
Figure BDA0003508204660000041
Figure BDA0003508204660000051
医院物资管理是医院为完成医疗、教学、科技等工作,对所需各种物资进行计划、采购、保管、供应等各项组织管理工作。
Figure BDA0003508204660000052
医院物资管理是医院为完成医疗、教学、科研等工作,对所需各种物资进行计划、采购、保管、供应等各项组织管理工作。
</p>
切分第一文档和第二文档的文本串,将文档切分为不可再分的比对对象。其中,普通字符,例如:中文、英文、标点符号等;HTML标签,例如:<p></p>、<strong></strong>、</img>、</br>等;特殊字符,例如:(&lt;)、(&gt;)、(&amp;)等;
优选的,步骤S110可以包括:通过正则表达式,对所述第一文档和第二文档进行元素提取,其中,所提取的元素包括HTML标签、普通字符、特殊字符。
进一步地优选的,若所提取的元素为HTML标签,则去除标签属性。
以示例说明,通过正则表达式,对上述第一文档的HTML文本和第二文档的HTML文本进行元素提取,生成对应的第一比对对象和第二比对对象的过程如下:
1)若所提取的元素为普通字符,直接将该元素按顺序存入该文档所对应的比对对象。
2)若所提取的元素为HTML标签,则去除标签属性后,按顺序存入该文档所对应的比对对象。例如:<img align="left"height="100"style="margin-right:10px"width="100"/>去除标签属性后,转换为<img/>存入对应的比对对象。
元素处理的目的是将HTML文档中的HTML标签转换为基本比对元素,与普通字符(中文英文、标点符合等)进行统一处理。
具体的示例,通过正则表达式,分别对第一文档和第二文档进行元素提取,生成对应的第一比对对象和第二比对对象,其中,比对对象例如可以是数组,也可以是其它数据类型。以生成第一比对对象为数组A1,第二比对对象是数据B1为例,分别切分第一文档和第二文档,对应生成A1和B1,A1和B1部分结构如下所示,其中,代码仅为示意形式,不作为运行代码。
Figure BDA0003508204660000061
Figure BDA0003508204660000071
Figure BDA0003508204660000081
步骤S120:比对所述第一比对对象和所述第二比对对象,确定两者的差异。
可以直接比对A1和B1的每一项,确定两者的差异。例如,A1_sourceWords[11]与B1_targetWords[11]、A1_sourceWords[12]与B1_targetWords[12],不同,为第一文档和第二文档的差异,即在第一文档的基础上,第二文档将其内容“系统”,修改为“平台”。
图3是本发明优选实施例提供的对比第一比对对象和第二比对对象的流程示意图。请参考图3,所述比对所述第一比对对象和所述第二比对对象,确定两者的差异可以包括以下步骤:
步骤S121:通过滑动窗口的方式,分别对所述第一比对对象和所述第二比对对象进行划分,生成对应的第一比对组和第二比对组。
其中,所述滑动窗口的大小为预设的最小比对单元长度。
优选的,步骤S121可以包括:以所述滑动窗口的大小为单位,按顺序对所述第一比对对象或所述第二比对对象中的项进行组合划分,生成对应的第一比对组和第二比对组,其中,组合划分后的组合字符作为所述第一比对组或所述第二比对组的项的key,组合划分后的组合字符的首字符在所述第一比对对象或所述第二比对对象的位置作为第一比对组或所述第二比对组的项的value。
其中,第一比对组或所述第二比对组可以是数组类型,也可以是其它数据类型。
以示例说明,若N=4,对第二比对对象为B1,对B1进行划分,生成第二比对组B2的部分结构可以如下所示:
key(“<p>\r\n<strong>医”):value(0)1
key(“\r\n<strong>医疗”):value(3)
key(“<strong>医疗物”):value(7)
优选的,若所述第一比对组或所述第二比对组的项存在相同key时,对相同key的项增加坐标。
以示例说明,若B2中存在两个相同的key:“<strong>医疗物”,则对该key增加坐标,指向对应的value所在的位置,可以表示如下:
Figure BDA0003508204660000091
步骤S122:比对所述第一比对组和所述第二比对组,确定两者的差异。
根据步骤S121,生成第一比对组A2和第二比对组B2后,比对所述第一比对组和所述第二比对组,确定两者的差异。
可以直接比对A2和B2的每一项,确定两者的差异。相比于直接比对A1和B1的每一项,图3所示的本发明优选实施例可以大大提高比对速度。
优选的,步骤S122可以包括:以所述第一比对组和所述第二比对组的value相同的一项作为比对项,比对该比对项的key,其中,当该比对项的key相同时,依次以所述第一比对组和所述第二比对组的下一项作为所述比对项,继续比对所述比对项的key,当出现所述比对项的key不相同时,记录该比对项的位置;以所述第一比对组和所述第二比对组的value相同的下一项作为比对项,重新开始比对所述比对项的key,直到确定所述比对所述第一比对组和所述第二比对组中所有key不相同的项的位置。
优选的,在步骤S122前,还可以记录A2和B2中所有value相同的项,作为比对的起始点。例如,A2[0].value=B2[0].value,可以从第一比对组和第二比对组的第一项开始对比。
以示例说明,以所述滑动窗口的大小N=4为初始匹配长度,可以从第一比对组和第二比对组的第一项开始对比。
第一个循环比对:A2第一项=B2第一项,则记录:
startSource=0,startTarget=0;
endSource=3,endTarget=3。
其中,startSource表示A2的比对项的value的首字符在A1中的位置,endSource表示A2的比对项的value的尾字符在A1中的位置,startTarget表示B2的比对项的value的首字符在B1中的位置,endTarget=3表示B2的比对项的value的尾字符在B1中的位置。
进一步地,若A2第二项=B2第二项,A2和B2的下一个相邻项能合并,增加匹配长度为5,则追加:
endSource=4,endTarget=4。
重复合并过程,若A2的项不等于B2的对应项时,例如A2的第9项和B2的第9项不能合并,则记录endSource=11,endTarget=11。
从所述第一比对组和所述第二比对组的value相同的下一个项开始重新比对,记录新的比对象。
例如,第二个循环比对:
startSource=13,startTarget=13;
endSource=17,endTarget=17。
循环上述过程,比对A2和B2中的所有项,找到所有差异。
记录比对的部分过程可以如下所示:
Figure BDA0003508204660000101
Figure BDA0003508204660000111
优选的,步骤S123还可以包括:根据所确定的key不相同的项的位置,确定该项的差异类型,并生成包含所有key不相同的项的位置及差异类型的差异结果集。
其中,所述差异的类型包括替换、新增、删除。
以示例说明,第二个循环比对的起始位置startSource(13)、startTarget(13)和第一个循环比对的结束位置endSource(11)、endTarget(11)坐标都不相同,则差异类型为替换;若A2下一个循环比对的起始位置startSource坐标和当前循环比对endSource坐标相同,而B2下一个循环比对的起始位置startTarget坐标和当前循环比对endTarget坐标不相同,则差异类型为新增;若A2下一个循环比对的起始位置startSource坐标和当前循环比对endSource坐标不相同,则差异类型为删除。
其中,差异结果集可以包括每个差异的差异类型和在A1、B1中的起始位置、结束位置的坐标,还可以直接存储差异字符。
步骤S130:根据所述第一比对对象和所述第二比对对象,重新生成所述第一文档或所述第二文档,并在生成的所述第一文档或所述第二文档上显示所述差异。
以图1C所示的文档为例,重新生成第二文档B1,根据差异结果集,在第二文档B1上显示差异。
据此,本发明实施例根据HTML文本串属性,实现了基于HTML的文档比对,并能够正确以HTML的语法,标记出文档差异。同时,还提供了提高比对速度的实施例。
本发明实施例还提供一种控制装置,所述控制装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序,以实现根据步骤S110-S130所述的基于HTML的文档比对方法。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现外部协查系统适用于有权机关的协查业务。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令使得机器执行根据步骤S110-S130所述的基于HTML的文档比对方法。
本发明实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据步骤S110-S130所述的基于HTML的文档比对方法。
本发明实施例还提供了一种计算机设备,该计算机设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现步骤S110-S130所述的基于HTML的文档比对方法。本发明实施例的设备可以是服务器、PC、PAD、手机等。
以示例说明,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器A01、网络接口A02、显示屏A04、输入装置A05和存储器(图中未示出)。其中,该计算机设备的处理器A01用于提供计算和控制能力。该计算机设备的存储器包括内存储器A03和非易失性存储介质A06。该非易失性存储介质A06存储有操作系统B01和计算机程序B02。该内存储器A03为非易失性存储介质A06中的操作系统B01和计算机程序B02的运行提供环境。该计算机设备的网络接口A02用于与外部的终端通过网络连接通信。该计算机程序被处理器A01执行时以实现根据步骤S110-S130所述的基于HTML的文档比对方法。该计算机设备的显示屏A04可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置A05可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
需要说明,本发明实施例提供的控制装置、存储介质、计算机程序产品、设备的技术内容和效果与本发明实施例提供的S110-S130所述的基于HTML的文档比对方法实施例类似,详细内容请参考方法实施例,此处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (11)

1.一种基于HTML的文档比对方法,其特征在于,所述基于HTML的文档比对方法包括:
根据HTML文本串属性,对第一文档和第二文档进行元素提取,并生成对应的第一比对对象和第二比对对象;
比对所述第一比对对象和所述第二比对对象,确定两者的差异;以及
根据所述第一比对对象和所述第二比对对象,重新生成所述第一文档或所述第二文档,并在生成的所述第一文档或所述第二文档上显示所述差异。
2.根据权利要求1所述的基于HTML的文档比对方法,其特征在于,所述根据HTML文本串属性,对第一文档和第二文档进行元素提取,并生成对应的第一比对对象和第二比对对象包括:
通过正则表达式,对所述第一文档和第二文档进行元素提取,其中,所提取的元素包括HTML标签、普通字符、特殊字符。
3.根据权利要求2所述的基于HTML的文档比对方法,其特征在于,若所提取的元素为HTML标签,则去除标签属性。
4.根据权利要求3所述的基于HTML的文档比对方法,其特征在于,所述比对所述第一比对对象和所述第二比对对象,确定两者的差异包括:
通过滑动窗口的方式,分别对所述第一比对对象和所述第二比对对象进行划分,生成对应的第一比对组和第二比对组,
其中,所述滑动窗口的大小为预设的最小比对单元长度;
比对所述第一比对组和所述第二比对组,确定两者的差异。
5.根据权利要求3所述的基于HTML的文档比对方法,其特征在于,所述通过滑动窗口的方式,分别对所述第一比对对象和所述第二比对对象进行划分,生成对应的第一比对组和第二比对组包括:
以所述滑动窗口的大小为单位,按顺序对所述第一比对对象或所述第二比对对象中的项进行组合划分,生成对应的第一比对组和第二比对组,
其中,组合划分后的组合字符作为所述第一比对组或所述第二比对组的项的key,
组合划分后的组合字符的首字符在所述第一比对对象或所述第二比对对象的位置作为第一比对组或所述第二比对组的项的value。
6.根据权利要求5所述的基于HTML的文档比对方法,其特征在于,若所述第一比对组或所述第二比对组的项存在相同key时,对相同key的项增加坐标。
7.根据权利要求5所述的基于HTML的文档比对方法,其特征在于,所述比对所述第一比对组和所述第二比对组,确定两者的差异,包括:
以所述第一比对组和所述第二比对组的value相同的一项作为比对项,比对该比对项的key,其中,当该比对项的key相同时,依次以所述第一比对组和所述第二比对组的下一项作为所述比对项,继续比对所述比对项的key,当出现所述比对项的key不相同时,记录该比对项的位置;
以所述第一比对组和所述第二比对组的value相同的下一项作为比对项,重新开始比对所述比对项的key,直到确定所述比对所述第一比对组和所述第二比对组中所有key不相同的项的位置。
8.根据权利要求7所述的基于HTML的文档比对方法,其特征在于,所述比对所述第一比对组和所述第二比对组,确定两者的差异,还包括:
根据所确定的key不相同的项的位置,确定该项的差异类型,并生成包含所有key不相同的项的位置及差异类型的差异结果集,
其中,所述差异的类型包括替换、新增、删除。
9.一种控制装置,其特征在于,所述控制装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序,以实现根据权利要求1-8中任意一项所述的基于HTML的文档比对方法。
10.一种机器可读存储介质,其特征在于,该机器可读存储介质上存储有指令,该指令使得机器执行根据权利要求1-8中任意一项所述的基于HTML的文档比对方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现根据权利要求1-8中任意一项所述的基于HTML的文档比对方法。
CN202210144434.3A 2022-02-17 2022-02-17 基于html的文档比对方法、控制装置、及计算机程序产品 Pending CN114492372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210144434.3A CN114492372A (zh) 2022-02-17 2022-02-17 基于html的文档比对方法、控制装置、及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210144434.3A CN114492372A (zh) 2022-02-17 2022-02-17 基于html的文档比对方法、控制装置、及计算机程序产品

Publications (1)

Publication Number Publication Date
CN114492372A true CN114492372A (zh) 2022-05-13

Family

ID=81483218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210144434.3A Pending CN114492372A (zh) 2022-02-17 2022-02-17 基于html的文档比对方法、控制装置、及计算机程序产品

Country Status (1)

Country Link
CN (1) CN114492372A (zh)

Similar Documents

Publication Publication Date Title
US11704384B2 (en) Secure document sharing
US10303657B2 (en) Docker layer deduplication with layer referencing
US10466971B2 (en) Generation of an application from data
RU2683174C2 (ru) Преобразование чернил в текстовое представление
CN101183355B (zh) 复制和粘贴处理方法及装置
US8732127B1 (en) Method and system for managing versioned structured documents in a database
EP2309398A1 (en) Method and system for performing unstructured data
JP2005536783A (ja) pdfドキュメントのセクション抽出ツール
EP1965314A1 (en) Document processing system and method
CN102124460B (zh) 用于网站地图的标准模式和用户界面
US11714791B2 (en) Automated generation of revision summaries
EP1965310A1 (en) Document processing method
US8930808B2 (en) Processing rich text data for storing as legacy data records in a data storage system
CN114492372A (zh) 基于html的文档比对方法、控制装置、及计算机程序产品
US20160320948A1 (en) Document and object manipulation
US9946698B2 (en) Inserting text and graphics using hand markup
US10380167B1 (en) Multi-volume content mapping
US10608900B2 (en) Generating a deferrable data flow
CN108228179A (zh) 页面国际化的处理方法、装置、计算机及存储介质
US20180090174A1 (en) Video generation of project revision history
US11119975B2 (en) Digital design application plugin for content updates and delivery
JP6123344B2 (ja) 画面プログラム生成装置及びその画面プログラム生成方法、情報処理装置、並びにコンピュータ・プログラム
CN113378526A (zh) Pdf段落处理方法、装置、存储介质及设备
US9002810B1 (en) Method and system for managing versioned structured documents in a database
US8898122B1 (en) Method and system for managing versioned structured documents in a database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination