CN117573633A - 修改差异识别方法、装置、计算机设备和存储介质 - Google Patents

修改差异识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117573633A
CN117573633A CN202311729724.5A CN202311729724A CN117573633A CN 117573633 A CN117573633 A CN 117573633A CN 202311729724 A CN202311729724 A CN 202311729724A CN 117573633 A CN117573633 A CN 117573633A
Authority
CN
China
Prior art keywords
file
conversion
format
conversion sub
subfiles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311729724.5A
Other languages
English (en)
Inventor
周茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Life Insurance Co ltd
Original Assignee
China Life Insurance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Life Insurance Co ltd filed Critical China Life Insurance Co ltd
Priority to CN202311729724.5A priority Critical patent/CN117573633A/zh
Publication of CN117573633A publication Critical patent/CN117573633A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/168Details of user interfaces specifically adapted to file systems, e.g. browsing and visualisation, 2d or 3d GUIs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种修改差异识别方法、装置、计算机设备和存储介质。所述方法包括:获取原文件和原文件经修改后的修改文件;原文件和修改文件均为第一文件格式;按照预设规则将原文件拆分得到多个第一子文件,并将修改文件拆分得到多个第二子文件;基于格式转换,将第一子文件转换为第一转换子文件,并将第二子文件转换为第二转换子文件;第一转换子文件和第二转换子文件均为第二文件格式;将各第一转换子文件和各第二转换子文件一一比对,确定第二转换子文件中不同于第一转换子文件的差异内容,并增加终选框将差异内容包含在终选框内。本发明提供的方法能够自动指示出修改文件和原文件之间的差异,以展示修改内容,提高差异识别效率。

Description

修改差异识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种修改差异识别方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,越多的用户采用电子文档进行存储。电子文档是指以电子形式存储的文件或文档。它们可以包括各种类型的文本、图像、音频、视频等内容,并且可以在电子设备上进行查看、编辑、存储和传输。
特别地,由于一些文本类文档字数较多,采用电子文档形式存储更为方便,如合同文本。纸质文档需要扫描为电子文档进行存储,或者直接生成电子文档。在文本类电子文档中,常常由多方参与,在一方进行修改的情况下,另一方需要明确地找到修改位置,以避免双方产生理解上的误差。
传统技术中需要对电子文档人工检查,以确定修改的位置。但是在电子文档页数多,文字量大的情况下,人工检查的成本高效率慢,并且在位置调整细微或修改内容细微的情况下,人工检查可能出现漏检情况,无法完整检查所有修改内容。
发明内容
基于此,有必要针对上述技术问题,提供一种能够自动确认电子文档修改差异位置的修改差异识别方法、装置、计算机设备和存储介质。
第一方面,本申请提供一种修改差异识别方法,所述方法包括:
获取原文件和所述原文件经修改后的修改文件;所述原文件和所述修改文件均为第一文件格式;
按照预设规则将所述原文件拆分得到多个第一子文件,并将所述修改文件拆分得到多个第二子文件;
基于格式转换,将所述第一子文件转换为第一转换子文件,并将所述第二子文件转换为第二转换子文件;所述第一转换子文件和所述第二转换子文件均为第二文件格式,所述第二文件格式与所述第一文件格式不同;
将各所述第一转换子文件和各所述第二转换子文件一一比对,确定所述第二转换子文件中不同于所述第一转换子文件的差异内容,并增加终选框将所述差异内容包含在终选框内。
在其中一个实施例中,所述原文件和所述修改文件的页数一致;所述按照预设规则将所述原文件拆分得到多个第一子文件,并将所述修改文件拆分得到多个第二子文件,包括:
获取所述原文件和所述修改文件的总页数N;N为正整数;
按照每页拆分的规则将所述原文件拆分为N个第一子文件,将所述修改文件拆分为N个第二子文件。
在其中一个实施例中,所述将各所述第一转换子文件和各所述第二转换子文件一一比对,确定所述第二转换子文件中不同于所述第一转换子文件的差异内容,包括:
按照从第一页至第N页的顺序,依次获取所述第一转换子文件和所述第二转换子文件;
对于第i页的所述第二转换子文件,通过计算机视觉识别工具确定其与第i页的所述第一转换子文件的差异内容;i≤N,i为正整数。
在其中一个实施例中,所述第一转换格式为文档格式,所述第二转换格式为图片格式;所述计算机识别工具是图像识别工具。
在其中一个实施例中,所述增加终选框将所述差异内容包含在终选框内,包括:
根据所述差异内容确定最小外接矩形,基于所述最小外接矩形在所述第二转换子文件上增加多个矩形选框将所述差异内容框选;
通过矩形合并算法对多个所述矩形选框进行合并,得到多个终选框。
在其中一个实施例中,所述方法还包括:
提取并展示存在差异内容的各第二转换子文件。
第二方面,本申请还提供一种修改差异识别装置,所述装置包括:
文件获取模块,用于获取原文件和所述原文件经修改后的修改文件;所述原文件和所述修改文件均为第一文件格式;
文件拆分模块,用于按照预设规则将所述原文件拆分得到多个第一子文件,并将所述修改文件拆分得到多个第二子文件;
格式转换模块,用于基于格式转换,将所述第一子文件转换为第一转换子文件,并将所述第二子文件转换为第二转换子文件;所述第一转换子文件和所述第二转换子文件均为第二文件格式,所述第二文件格式与所述第一文件格式不同;
差异内容确定模块,用于将各所述第一转换子文件和各所述第二转换子文件一一比对,确定所述第二转换子文件中不同于所述第一转换子文件的差异内容,并增加终选框将所述差异内容包含在终选框内。
第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取原文件和所述原文件经修改后的修改文件;所述原文件和所述修改文件均为第一文件格式;
按照预设规则将所述原文件拆分得到多个第一子文件,并将所述修改文件拆分得到多个第二子文件;
基于格式转换,将所述第一子文件转换为第一转换子文件,并将所述第二子文件转换为第二转换子文件;所述第一转换子文件和所述第二转换子文件均为第二文件格式,所述第二文件格式与所述第一文件格式不同;
将各所述第一转换子文件和各所述第二转换子文件一一比对,确定所述第二转换子文件中不同于所述第一转换子文件的差异内容,并增加终选框将所述差异内容包含在终选框内。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取原文件和所述原文件经修改后的修改文件;所述原文件和所述修改文件均为第一文件格式;
按照预设规则将所述原文件拆分得到多个第一子文件,并将所述修改文件拆分得到多个第二子文件;
基于格式转换,将所述第一子文件转换为第一转换子文件,并将所述第二子文件转换为第二转换子文件;所述第一转换子文件和所述第二转换子文件均为第二文件格式,所述第二文件格式与所述第一文件格式不同;
将各所述第一转换子文件和各所述第二转换子文件一一比对,确定所述第二转换子文件中不同于所述第一转换子文件的差异内容,并增加终选框将所述差异内容包含在终选框内。
第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取原文件和所述原文件经修改后的修改文件;所述原文件和所述修改文件均为第一文件格式;
按照预设规则将所述原文件拆分得到多个第一子文件,并将所述修改文件拆分得到多个第二子文件;
基于格式转换,将所述第一子文件转换为第一转换子文件,并将所述第二子文件转换为第二转换子文件;所述第一转换子文件和所述第二转换子文件均为第二文件格式,所述第二文件格式与所述第一文件格式不同;
将各所述第一转换子文件和各所述第二转换子文件一一比对,确定所述第二转换子文件中不同于所述第一转换子文件的差异内容,并增加终选框将所述差异内容包含在终选框内。
上述修改差异识别方法、装置、计算机设备和存储介质,先获取修改后的修改文件和修改前的原文件,按照预设的拆分规则将原文件和修改文件分别拆分为第一子文件和第二子文件,并经过格式转换得到第一转换子文件和第二转换子文件。对于每一个第二转换子文件,均将其与对应的第一转换子文件进行比对,以确定第二转换子文件相对于第一转换子文件的差异内容,也即修改的内容。之后通过环绕差异内容增加终选框,以凸显差异内容,便于用户观察识别。相对于传统技术中人为识别的方法,本发明提供的修改差异识别方法能够自动指示出修改文件和原文件之间的差异,以展示修改内容,提高差异识别效率,并且能够识别出修改细微的内容,提高差异识别准确率。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中修改差异识别方法的应用环境图;
图2为一个实施例中修改差异识别方法的流程示意图;
图3为一个实施例中拆分原文件和修改文件步骤的流程示意图;
图4为一个实施例中通过终选框包围差异内容的示意图;
图5为另一个实施例中修改差异识别方法的流程示意图;
图6为一个实施例中修改差异识别装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的修改差异识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。原文件是未修改的电子文档,修改文件是在原文件基础上进行修改电子文档,本发明是提供一种确认修改文件相对于原文件的修改位置的方法。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个示例性的实施例中,如图2所示,提供了一种修改差异识别方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤202至步骤208。其中:
步骤202,获取原文件和原文件经修改后的修改文件;原文件和修改文件均为第一文件格式。
其中,原文件是未经修改的文件,修改文件是在原文件基础上至少进行部分修改得到的文件。一般地,修改内容不会影响文件页数和章节。
示意性地,原文件可以是纸质文件经扫描仪扫描得到的电子文档,也可以是在计算机设备直接生成的电子文档。原文件可以是合同文件。
步骤204,按照预设规则将原文件拆分得到多个第一子文件,并将修改文件拆分得到多个第二子文件。
其中,预设规则是文件的拆分规则,是将一个大型文件拆分成多个较小文件的规则或标准。示意性地,预设规则可以是按照大小拆分、按照页数拆分或按照关键词拆分等。
基于该预设规则,原文件被拆分为多个第一子文件,基于相同的拆分规则修改文件被拆分为多个第二子文件。
步骤206,基于格式转换,将第一子文件转换为第一转换子文件,并将第二子文件转换为第二转换子文件;第一转换子文件和第二转换子文件均为第二文件格式,第二文件格式与第一文件格式不同。
其中,格式转换是指将一个文件从一种格式转换为另一种格式的过程。示意性地,格式转换可以使用专门的文件转换工具或软件,也可以通过在线转换服务来实现。
需要注意的是,转换后的第二文件格式与转换前的第一文件格式不同。第二文件格式是便于进行比对识别的格式。
步骤208,将各第一转换子文件和各第二转换子文件一一比对,确定第二转换子文件中不同于第一转换子文件的差异内容,并增加终选框将差异内容包含在终选框内。
其中,一一比对是指对于每一个第二转换子文件,均将其与对应的第一转换子文件的内容进行比对,以确定两者之间是否存在差异内容。
终选框用于在第二转换子文件中标记出其与第一转换子文件之间的差异。若在比对过程中,某一个第二转换子文件相对于第一转换子文件具有差异,则围绕差异内容增加终选框,使差异内容凸出显示,便于用户观察。
上述修改差异识别方法中,先获取修改后的修改文件和修改前的原文件,按照预设的拆分规则将原文件和修改文件分别拆分为第一子文件和第二子文件,并经过格式转换得到第一转换子文件和第二转换子文件。对于每一个第二转换子文件,均将其与对应的第一转换子文件进行比对,以确定第二转换子文件相对于第一转换子文件的差异内容,也即修改的内容。之后通过环绕差异内容增加终选框,以凸显差异内容,便于用户观察识别。相对于传统技术中人为识别的方法,本发明提供的修改差异识别方法能够自动指示出修改文件和原文件之间的差异,以展示修改内容,提高差异识别效率。
如图3所示,在一个示例性的实施例中,原文件和修改文件的页数一致;步骤204中按照预设规则将原文件拆分得到多个第一子文件,并将修改文件拆分得到多个第二子文件,包括以下步骤:
步骤302,获取原文件和修改文件的总页数N;N为正整数。
其中,原文件和修改文件的页数一致均为N页。表明对于原文件的修改均为小幅度修改,没有影响原文件的章节和页数。
步骤304,按照每页拆分的规则将原文件拆分为N个第一子文件,将修改文件拆分为N个第二子文件。
其中,按页拆分是指将原文件的每页均进行拆分,每一页均作为一个独立的子文件进行比对。
本实施例中,文件拆分的预设规则为按页拆分。由于原文件和修改文件采用相同的拆分规则,因此第一子文件和第二子文件的数量相同。因此对于N页的原文件和N页的修改文件,分别被拆分为N个第一子文件和N个第二子文件。第一子文件和第二子文件的数量一致,便于一一比对。
在一个示例性的实施例中,步骤208中将各第一转换子文件和各第二转换子文件一一比对,确定第二转换子文件中不同于第一转换子文件的差异内容,包括:按照从第一页至第N页的顺序,依次获取第一转换子文件和第二转换子文件;对于第i页的第二转换子文件,通过计算机视觉识别工具确定其与第i页的第一转换子文件的差异内容;i≤N,i为正整数。
其中,第i页的第二转换子文件对应于修改文件第i页,第i页的第一转换子文件对应于原文件第i页。
对于第i个第二转换子文件,是第i个第二子文件转换之后得到的,来源于第i页的修改文件。相应地,第i个第一转换子文件来源于第i页的原文件。
在比对过程中,第i个第二转换子文件与第i个第一转换子文件比对,相当于第i页的修改文件和第i页的原文件进行比对。对每一个第二转换子文件均进行比对,N次后完成全部转换后子文件的比对,相当于完成修改文件和原文件的比对。
其中,计算机视觉识别工具是一类能够用于数据分析的软件工具,它们可以进行特征提取、分类和识别等操作。从而基于计算机视觉识别工具能够将第二转换子文件与第一转换子文件进行比对,以确定差异内容,进一步确定差异位置。
在一个可行的实现方式中,第一转换格式为文档格式,第二转换格式为图片格式;计算机识别工具是图像识别工具。
示意性地,第一文件格式可以是“.docx”或“.pdf(Portable Document Format,可移植文档格式)”。第二文件格式可以是JPEG、PNG或BMP等图片格式。
优选地,第一文件格式是pdf格式。pdf是一种跨操作系统平台的文件格式。可将文字、字体、图形、图像、色彩、版式及与印刷设备相关的参数等封装在一个文件中,在网络传输、打印和制版输出中保持页面元素不变,还可包含超文本链接、音频和视频等电子信息。集成度和安全可靠性都较高。pdf格式文件由专用的“编写器”软件生成,也可由其他的文字、图像处理软件转换而成,“pdf文件阅读器”软件只提供单一的阅读功能。其中,pdf格式的文件可以是纸质文件经扫描仪扫描得到。
计算机视觉识别工具是图像识别工具,能够用于图像和视频分析,可以进行图像处理、特征提取、分类和识别等操作。示意性地,计算机视觉识别工具可以是OpenCV、TensorFlow、PyTorch或Matlab等。
优选地,计算机视觉识别工具是OpenCV。OpenCV是一个基于Apache2.0许可(开源)发行的跨平台计算机视觉和机器学习软件库,可以运行在Linux、Windows、Android和MacOS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。
本实施例中,将原文件和修改文件分别拆分为N个第一转换子文件和N个第二转换子文件后,将第二转换子文件和第一转换子文件一一比对,以确定第二转换子文件中不同于第一转换子文件的区域,作为修改内容,通过终选框框选。在子文件是文档格式,转换后子文件是图片格式时,通过图像识别工具即可确定差异区域。
在示例性的一个实施例中,步骤208中增加终选框将差异内容包含在终选框内,包括:根据差异内容确定最小外接矩形,基于最小外接矩形在第二转换子文件上增加多个矩形选框将差异内容框选;通过矩形合并算法对多个矩形选框进行合并,得到多个终选框。
其中,最小外接矩形是对任一差异内容能够完全包围其的最小面积矩形,矩形选框是根据最小外接矩形确定的选框区域。示意性地,最小外接矩形可以根据计算机识别工具确定。
矩形合并算法是指将多个重叠或相邻具有交叉区域的多个矩形区域合并成更大的矩形区域的算法。参见图4,通过矩形合并算法能够将相邻差异内容的矩形选框进行合并,以更大的矩形区域展示出来得到终选框,便于用户识别。
本实施例中,先确定差异内容的最小外接矩形,之后通过矩形合并算法将多个最小外接矩形进行合并,得到更大的矩形,也即终选框。终选框容纳了多个相邻的差异内容。此外,各差异内容均以最小外接矩形展示的话,多个外接矩形交叉混乱,用户观察体验较差。而将多个矩形选框合并为终选框,能够以一个框展示相邻的差异内容,更简介,提高用户体验。
在一个示例性的实施例中,修改差异识别方法还包括:提取并展示存在差异内容的各第二转换子文件。
各第二转换子文件中,并非所有的均具有差异内容,因此本实施例中将具有差异内容的第二转换子文件提取出来,将具有差异内容的单独展示。
本实施例中,将具有差异内容的第二转换子文件提取出来单独展示,便于用户快速确定修改文件相对于原文件的修改位置。
如图5所示,在一个示例性的实施例中,一种修改差异识别方法包括以下步骤:
步骤502,获取原文件和原文件经修改后的修改文件;原文件和修改文件均为第一文件格式;原文件和修改文件的页数一致,第一转换格式为文档格式。
步骤504,获取原文件和修改文件的总页数N,按照每页拆分的规则将原文件拆分为N个第一子文件,将修改文件拆分为N个第二子文件;N为正整数。
步骤506,基于格式转换,将第一子文件转换为第一转换子文件,并将第二子文件转换为第二转换子文件;第一转换子文件和第二转换子文件均为第二文件格式,第二文件格式与第一文件格式不同,第二转换格式为图片格式。
步骤508,按照从第一页至第N页的顺序,依次获取第一转换子文件和第二转换子文件。
步骤510,对于第i页的第二转换子文件,通过计算机视觉识别工具确定其与第i页的第一转换子文件的差异内容;i≤N,i为正整数,计算机识别工具是图像识别工具。
步骤512,根据差异内容确定最小外接矩形,基于最小外接矩形在第二转换子文件上增加多个矩形选框将差异内容框选。
步骤514,通过矩形合并算法对多个矩形选框进行合并,得到多个终选框。
步骤516,提取并展示存在差异内容的各第二转换子文件。
本实施例中,获取原文件和修改文件,原文件和修改文件均为文档格式,且页数相等均为N页。基于每页拆分的规则,将原文件和修改文件分别拆分为N个第一子文件和N个第二子文件,之后转换为图片格式的第一转换子文件和第二转换子文件。采用图像识别工具,对于每一页的第二转换子文件,将其与相应页数的第一转换子文件进行比对,确定差异内容,并确定差异内容的最小外接矩形。之后通过矩形合并算法将多个最小外接矩形合并,得到多个较大矩形的终选框,终选框包围有相邻的差异内容。最后,将具有差异内容的个第二转换子文件提取出来单独展示,便于用户观察。通过这样的方式,可以将有差异的部分清晰的展示出来,为展示的部分代表没有差异,对比结果直观,这样可以减少人工逐页对比的麻烦,也避免因为修改失误造成纠纷。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的修改差异识别方法的修改差异识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个修改差异识别装置实施例中的具体限定可以参见上文中对于修改差异识别方法的限定,在此不再赘述。
在一个示例性的实施例中,如图6所示,提供了一种修改差异识别装置600,包括:文件获取模块602、文件拆分模块604、格式转换模块606和差异内容确定模块608,其中:
文件获取模块602,用于获取原文件和原文件经修改后的修改文件;原文件和修改文件均为第一文件格式;
文件拆分模块604,用于按照预设规则将原文件拆分得到多个第一子文件,并将修改文件拆分得到多个第二子文件;
格式转换模块606,用于基于格式转换,将第一子文件转换为第一转换子文件,并将第二子文件转换为第二转换子文件;第一转换子文件和第二转换子文件均为第二文件格式,第二文件格式与第一文件格式不同;
差异内容确定模块608,用于将各第一转换子文件和各第二转换子文件一一比对,确定第二转换子文件中不同于第一转换子文件的差异内容,并增加终选框将差异内容包含在终选框内。
在一个示例性的实施例中,原文件和修改文件的页数一致;文件拆分模块604还用于:获取原文件和修改文件的总页数N;N为正整数;按照每页拆分的规则将原文件拆分为N个第一子文件,将修改文件拆分为N个第二子文件。
在一个示例性的实施例中,格式转换模块606还用于:按照从第一页至第N页的顺序,依次获取第一转换子文件和第二转换子文件;对于第i页的第二转换子文件,通过计算机视觉识别工具确定其与第i页的第一转换子文件的差异内容;i≤N,i为正整数。
在一个示例性的实施例中,第一转换格式为文档格式,第二转换格式为图片格式;计算机识别工具是图像识别工具。
在一个示例性的实施例中,差异内容确定模块608还用于:根据差异内容确定最小外接矩形,基于最小外接矩形在第二转换子文件上增加多个矩形选框将差异内容框选;通过矩形合并算法对多个矩形选框进行合并,得到多个终选框。
在一个示例性的实施例中,修改差异识别装置还包括:展示模块,用于提取并展示存在差异内容的各第二转换子文件。
上述修改差异识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储原文件和修改文件数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种修改差异识别方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种修改差异识别方法,其特征在于,所述方法包括:
获取原文件和所述原文件经修改后的修改文件;所述原文件和所述修改文件均为第一文件格式;
按照预设规则将所述原文件拆分得到多个第一子文件,并将所述修改文件拆分得到多个第二子文件;
基于格式转换,将所述第一子文件转换为第一转换子文件,并将所述第二子文件转换为第二转换子文件;所述第一转换子文件和所述第二转换子文件均为第二文件格式,所述第二文件格式与所述第一文件格式不同;
将各所述第一转换子文件和各所述第二转换子文件一一比对,确定所述第二转换子文件中不同于所述第一转换子文件的差异内容,并增加终选框将所述差异内容包含在终选框内。
2.根据权利要求1所述的方法,其特征在于,所述原文件和所述修改文件的页数一致;所述按照预设规则将所述原文件拆分得到多个第一子文件,并将所述修改文件拆分得到多个第二子文件,包括:
获取所述原文件和所述修改文件的总页数N;N为正整数;
按照每页拆分的规则将所述原文件拆分为N个第一子文件,将所述修改文件拆分为N个第二子文件。
3.根据权利要求2所述的方法,其特征在于,所述将各所述第一转换子文件和各所述第二转换子文件一一比对,确定所述第二转换子文件中不同于所述第一转换子文件的差异内容,包括:
按照从第一页至第N页的顺序,依次获取所述第一转换子文件和所述第二转换子文件;
对于第i页的所述第二转换子文件,通过计算机视觉识别工具确定其与第i页的所述第一转换子文件的差异内容;i≤N,i为正整数。
4.根据权利要求3所述的方法,其特征在于,所述第一转换格式为文档格式,所述第二转换格式为图片格式;所述计算机识别工具是图像识别工具。
5.根据权利要求1所述的方法,其特征在于,所述增加终选框将所述差异内容包含在终选框内,包括:
根据所述差异内容确定最小外接矩形,基于所述最小外接矩形在所述第二转换子文件上增加多个矩形选框将所述差异内容框选;
通过矩形合并算法对多个所述矩形选框进行合并,得到多个终选框。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
提取并展示存在差异内容的各第二转换子文件。
7.一种修改差异识别装置,其特征在于,所述装置包括:
文件获取模块,用于获取原文件和所述原文件经修改后的修改文件;所述原文件和所述修改文件均为第一文件格式;
文件拆分模块,用于按照预设规则将所述原文件拆分得到多个第一子文件,并将所述修改文件拆分得到多个第二子文件;
格式转换模块,用于基于格式转换,将所述第一子文件转换为第一转换子文件,并将所述第二子文件转换为第二转换子文件;所述第一转换子文件和所述第二转换子文件均为第二文件格式,所述第二文件格式与所述第一文件格式不同;
差异内容确定模块,用于将各所述第一转换子文件和各所述第二转换子文件一一比对,确定所述第二转换子文件中不同于所述第一转换子文件的差异内容,并增加终选框将所述差异内容包含在终选框内。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202311729724.5A 2023-12-15 2023-12-15 修改差异识别方法、装置、计算机设备和存储介质 Pending CN117573633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311729724.5A CN117573633A (zh) 2023-12-15 2023-12-15 修改差异识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311729724.5A CN117573633A (zh) 2023-12-15 2023-12-15 修改差异识别方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN117573633A true CN117573633A (zh) 2024-02-20

Family

ID=89888193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311729724.5A Pending CN117573633A (zh) 2023-12-15 2023-12-15 修改差异识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117573633A (zh)

Similar Documents

Publication Publication Date Title
US10521513B2 (en) Language generation from flow diagrams
US20160092730A1 (en) Content-based document image classification
KR101955732B1 (ko) 캡처된 이미지 데이터를 스프레드시트와 연관시키는 방법
US9710704B2 (en) Method and apparatus for finding differences in documents
CN108108342B (zh) 结构化文本的生成方法、检索方法及装置
US20160092407A1 (en) Document processing using multiple processing threads
US20170039192A1 (en) Language generation from flow diagrams
US20170052988A1 (en) Normalizing values in data tables
US11494588B2 (en) Ground truth generation for image segmentation
CN113378710A (zh) 图像文件的版面分析方法、装置、计算机设备和存储介质
JP2023516119A (ja) デジタル画像処理
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN114359533B (zh) 一种基于页面文本的页码识别方法和计算机设备
US20170344583A1 (en) Image processing apparatus that performs compression processing of document file and compression method of document file and storage medium
US20220392243A1 (en) Method for training text classification model, electronic device and storage medium
CN117573633A (zh) 修改差异识别方法、装置、计算机设备和存储介质
US11182635B2 (en) Terminal apparatus, character recognition system, and character recognition method
CN114329030A (zh) 一种信息处理方法、装置、计算机设备和存储介质
CN111694890A (zh) 关系图表的生成方法、装置、计算机设备及存储介质
CN116258794B (zh) 一种地震剖面数字化方法及装置
CN114219985B (zh) 信息识别处理方法、装置、计算机设备、存储介质
CN115965983A (zh) 图像信息的解析方法和装置
CN114385849A (zh) 一种差异显示方法、装置、设备及存储介质
CN117610549A (zh) 文档处理、内容生成方法、装置及电子设备
Gogia et al. AN ML BASED DIGITAL FORENSICS SOFTWARE FOR TRIAGE ANALYSIS THROUGH FACE RECOGNITION

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination