CN115731557A

CN115731557A - 文件内容核对方法及系统、计算设备、存储介质

Info

Publication number: CN115731557A
Application number: CN202111014378.3A
Authority: CN
Inventors: 贾敬伍; 周健
Original assignee: Beijing Finite Element Technology Co Ltd
Current assignee: Beijing Finite Element Technology Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-03-03

Abstract

本申请提供了一种文件内容核对方法及系统、计算设备、存储介质，在本申请提供的方法中，先获取待核对文件的Word格式的文件原件和与Word格式不同的第二格式的文件扫描件；再提取文件原件中的第一核对内容和所述文件扫描件中的第二核对内容；然后核对文件原件中的第一核对内容和文件扫描件中的第二核对内容，将核对后的结果进行拼接整合得到核对结果，并对核对结果进行可视化展示。基于本申请提供的一种文件内容核对方法及系统，可通过程序自动化处理，无需人工排版，即可对扫描件和Word版原件进行内容核对，同时纯文本段落和表格段落是分别进行核对，因此两部分的识别结果互相之间不会产生影响。

Description

文件内容核对方法及系统、计算设备、存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种文件内容核对方法及系统、计算设备、存储介质。

背景技术

文档核对，主要是针对不同文档中的文字内容进行比较，尤其是公文文档，例如：行政公文、商务公文(合同)等。目前，公文文档大多是以Word版的形式走完审批流程，然后打印盖章，公司会将其扫描成PDF版进行留档。但在正式打印前，可能会受到人为因素有意或无意的影响，而盖章后的公文文档具有法律效力，因此需要对扫描件与Word版原件进行核对，规避文档差异带来损失。

传统的文档核对技术：半自动化核对和纯文本文档自动化核对。半自动化核对是利用软件自带的工具，将扫描件转为Word版后进行核对，但是，半自动化核对中识别出的文本为矢量化格式，还需要人工调整，在自动化办公的场景下，需要耗费大量人力成本和时间成本。纯文本文档自动化核对，是先对扫描件进行文字识别，再将识别出的纯文本与Word版原件中的纯文本内容进行核对，但是采用上述方案不适用于含有表格的文档，否则其识别出的文字内容和段落格式混乱，会导致文档比对失效。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种文件内容核对方法，包括：

获取待核对文件的Word格式的文件原件和与所述Word格式不同的第二格式的文件扫描件；

提取所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容；

核对所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容，将核对后的结果进行拼接整合得到核对结果；

对所述核对结果进行可视化展示。

可选地，所述获取待核对文件的Word格式的文件原件和与所述Word格式不同的第二格式的文件扫描件，包括：

获取待核对文件的Word格式的文件原件；

扫描所述待核对文件对应的纸质原件，生成与所述待核对文件的第二格式的文件扫描件；所述第二格式为PDF格式。

可选地，所述提取所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容，包括：

读取所述待核对文件的Word格式的文件原件，提取所述文件原件中的第一文本段落和/或第一表格段落，作为所述第一核对内容；

对所述文件扫描件进行图像分割得到所述文件扫描件中分割图像，基于所述分割图像得到所述文件扫描件中的第二文本段落和/或第二表格段落，作为所述第二核对内容。

可选地，所述对所述文件扫描件进行图像分割得到所述文件扫描件中分割图像，基于所述分割图像得到所述文件扫描件中的第二文本段落和/或第二表格段落，包括：

对所述文件扫描件进行图像分割，得到所述文件扫描件中纯文本图像和/ 或表格图像；

对所述纯文本图像进行OCR文字识别处理，将所述纯文本图像转化为第二文本段落；和/或

对所述表格图像进行OCR文字识别处理，将所述表格图像转化为第二表格段落。

可选地，所述核对所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容，将核对后的结果进行拼接整合得到核对结果，包括：

对所述第一文本段落和所述第二文本段落进行文字内容核对，识别所述第一文本段落和所述第二本文段落中的第一差异内容，并标记所述第一核对内容在所述待核对文件中的记录位置；和/或

对所述第一表格段落和所述第二表格段落进行文字内容核对，识别所述第一表格段落和所述第二表格段落中的第二差异内容，并标记所述第二核对内容在所述待核对文件中的记录位置；

按照所述待核对文件的内容记录顺序对所述第一差异内容和/或所述第二差异内容进行拼接整合，得到核对结果。

根据本申请的另一个方面，提供了一种文件内容核对系统，包括：

待核对文件获取模块，其配置成获取待核对文件的Word格式的文件原件和与所述Word格式不同的第二格式的文件扫描件；

核对内容提取模块，其配置成提取所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容；

核对结果整合模块，其配置成核对所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容，将核对后的结果进行拼接整合得到核对结果；

核对结果展示模块，其配置成对所述核对结果进行可视化展示。

可选地，所述待核对文件获取模块，其还配置成：

获取待核对文件的Word格式的文件原件；

可选地，所述核对内容提取模块，其还配置成：

可选地，所述核对结果整合模块，其还配置成：

根据本发明的另一方面，还提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上述任一项所述的文件内容核对方法。

根据本发明的另一方面，还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上述任一项所述的文件内容核对方法。

本申请提供了一种文件内容核对方法及系统、计算设备、存储介质，在本申请提供的方法中，先获取待核对文件的Word格式的文件原件和与Word格式不同的第二格式的文件扫描件；再提取文件原件中的第一核对内容和所述文件扫描件中的第二核对内容；然后核对文件原件中的第一核对内容和文件扫描件中的第二核对内容，将核对后的结果进行拼接整合得到核对结果，并对核对结果进行可视化展示。基于本申请提供的一种文件内容核对方法及系统，可通过程序自动化处理，无需人工排版，即可对PDF版扫描件和Word版原件进行内容核对，同时纯文本段落和表格段落是分别进行核对，因此两部分的识别结果互相之间不会产生影响。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请实施例的文件内容核对方法流程示意图；

图2是根据本申请实施例的文件内容核对整体流程框图；

图3是根据本申请实施例的文件内容核对系统结构示意图；

图4是根据本申请可选实施例的计算设备结构示意图；

图5是根据本申请实施例的计算机可读存储介质示意图。

具体实施方式

图1是根据本申请实施例的文件内容核对方法流程示意图。参见图1所知，本申请实施例提供的文件内容核对方法至少可以包括以下步骤S101～S104。

步骤S101：获取待核对文件的Word格式的文件原件和与Word格式不同的第二格式的文件扫描件；

步骤S102：提取文件原件中的第一核对内容和文件扫描件中的第二核对内容；

步骤S103：核对文件原件中的第一核对内容和文件扫描件中的第二核对内容，将核对后的结果进行拼接整合得到核对结果；

步骤S104：对核对结果进行可视化展示。

本申请提供了一种文件内容核对方法，在本申请提供的方法中，先获取待核对文件的Word格式的文件原件和与Word格式不同的第二格式的文件扫描件；再提取文件原件中的第一核对内容和文件扫描件中的第二核对内容；然后核对文件原件中的第一核对内容和文件扫描件中的第二核对内容，将核对后的结果进行拼接整合得到核对结果，并对核对结果进行可视化展示。基于本申请提供的一种文件内容核对方法，可通过程序自动化处理，提取出的纯文本段落的排版与原Word文档的版式相一致，无需人工进行文字编辑或排版；同时，可以处理含有表格的文档，纯文本段落和表格段落分别核对，避免两部分的识别结果互相影响，以致整个文档的段落顺序混乱。

下面分别对上述实施例提及的文件内容核对方法进行详细说明。

首先，如步骤S101所述，核对文档内容前，先获取待核对文件的Word格式的文件原件和与Word格式不同的第二格式的文件扫描件。

具体来讲，先获取待核对文件的Word格式的文件原件，再扫描待核对文件对应的纸质原件，生成与待核对文件的Word格式不同的第二格式的文件扫描件；第二格式为PDF格式。也就是说，本申请中核对的是待核对文件的Word 格式的文件原件和PDF格式的文件扫描件，而PDF格式的文件扫描件是通过扫描待核对文件的纸质原件而生成的。当然，除了PDF格式之外，还可以有图片等格式的扫描文件。本实施例中主要以PDF格式为例进行说明。

在实际应用中，甲乙双方通过邮件拟定Word版合同后，甲方将合同打印、盖章后，邮寄给乙方。乙方收到纸质合同，但不确定该纸质合同是否与Word 版合同完全一致。在此场景下，为了确定合同内容是否一致，执行本申请实施例所提供的方案，通过扫描获取对应的纸质合同后获取的将PDF版格式的合同文件与Word版合同文件的文件内容进行核对。

在获取到待核对文件的两种格式的文件后，接下来执行步骤S102，提取文件原件中的第一核对内容和文件扫描件中的第二核对内容。其中，第一核对内容是对应于Word格式文件中的内容，第二核对内容是对应PDF格式文件中的内容。

进一步地，提取文件先要读取待核对文件的Word格式的文件原件，直接利用Word现有功能提取文件原件中的第一文本段落和/或第一表格段落，作为第一核对内容；接着，对文件扫描件进行图像分割得到文件扫描件中的分割图像，基于分割图像得到文件扫描件中的第二文本段落和/或第二表格段落，作为第二核对内容。

在本申请一可选实施例中，读取第二核对内容，即对文件扫描件进行图像分割，得到文件扫描件中纯文本图像和/或表格图像；对纯文本图像进行OCR 文字识别处理，将纯文本图像转化为第二文本段落；对表格图像进行OCR文字识别处理，将表格图像转化为第二表格段落。

OCR(Optical Character Recognition,光学字符识别)，是对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。即针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

获取到第一核对内容和第二核对内之后，即可对核对内容进行核对，如步骤103所述，核对文件原件中的第一核对内容和文件扫描件中的第二核对内容，将核对后的结果进行拼接整合得到核对结果。

核对时，先对第一文本段落和第二文本段落进行文字内容核对，识别第一文本段落和第二本文段落中的第一差异内容，并标记第一核对内容在待核对文件中的记录位置；和/或对第一表格段落和第二表格段落进行文字内容核对，识别第一表格段落和第二表格段落中的第二差异内容，并标记第二核对内容在待核对文件中的记录位置；再按照待核对文件的内容记录顺序对第一差异内容和/ 或第二差异内容进行拼接整合，得到核对结果。

实际应用中，如上文介绍，会针对表格段落和文本段落分别进行内容的获取，在进行内容对比时，也会分别针对表格和文本进行对比。可选地，对于上述提及的第一表格段落、第一文本段落、第二表格段落和第二文本段落中，均会包含有段落标号。

举例来讲，假设Word格式的文件原件提取出的第一文本段落和第一表格段落，处理具有段落本身的内容之外，还具有段落标号(或行号)，段落标号具体可以是文本或者是表格在文件原件中所对应的标号。类似的，根据文件扫描件所提取出的第二文本段落和第二表格段落同样也具有段落标号。进行核对时，除了核对各段落对应的内容之外，还可以对段落标号进行匹配。

进一步地，在对第一差异内容和第二差异内容进行拼接时，就可以依据段落标号的顺序进行拼接，以得到有序的核对结果，方便用户进行查看。

对于拼接、整合之后的核对结果，执行步骤S104，对核对结果进行可视化展示。可视化展示核对结果的过程中，先生成并列两个显示窗口，其中，左边的第一显示窗口用于显示第一差异内容和第二差异内容中属于文件原件的段落或者段落中的具体差异内容(如具体的文字或者是表格)，右边的第二显示窗口用于显示第一差异内容和第二差异内容属于文件扫描件的段落或者段落中的具体差异内容(如具体的文字或者是表格)。

由于第一差异内容和第二差异内容是分布针对文本段落和表格段落的差异内容，因此，对于第一差异内容和第二差异内容可以采用相同或者是不同的渲染方式。例如，第一差异内容为对应文本段落的差异内容，可以将具有差异的文本采用不同文字颜色或者是不同文字大小的方式进行渲染。对于文字来讲，可能存在增加、删减、修改的差异类别，对于不同的差异类别同样采用不同的渲染方式。

第二差异内容为针对表格段落的差异内容，可以将存在差异的表格框线渲染成的颜色，或者是增加不同的背景色以显示区别，从而方便用户进行查看。

综上所述，如图2所示，可将文件核对过程详细分为以下步骤：

(1)文档读取：读取PDF版扫描件，同时读取Word版原件；

(2)图像分割：对于PDF版扫描件，需要分别提取出纯文本图像、表格图像；

(3)文字识别：针对PDF中提取出的纯文本图像、表格图像，分别进行 OCR文字识别处理，转化为纯文本段落、表格段落；

(4)段落提取：对于Word版原件，可直接提取出纯文本段落、表格段落。

(5)内容核对：针对两种文档各自提取出的纯文本段落和表格段落，分别进行文字内容核对，并将发生增加、修改和删除的位置标记出来，整体作为核对结果。

(6)结果整合：将纯文字段落和表格段落两部分的核对结果，按原顺序进行拼接、整合。

(7)结果输出：将整合结果进行输出，结合可视化手段进行展示。

基于同一发明构思，本申请实施例还提供了文件内容核对系统，如图3所示，本申请实施例提供的文件内容核对系统可以包括：

待核对文件获取模块310，其配置成获取待核对文件的Word格式的文件原件和与Word格式不同的第二格式的文件扫描件；

核对内容提取模块320，其配置成提取文件原件中的第一核对内容和文件扫描件中的第二核对内容；

核对结果整合模块330，其配置成核对文件原件中的第一核对内容和文件扫描件中的第二核对内容，将核对后的结果进行拼接整合得到核对结果；

核对结果展示模块340，其配置成对核对结果进行可视化展示。

本申请一可选实施例中，待核对文件获取模块310，其还可以配置成：

获取待核对文件的Word格式的文件原件；

扫描待核对文件对应的纸质原件，生成与待核对文件的第二格式的文件扫描件；第二格式为PDF格式。

本申请一可选实施例中，核对内容提取模块320，其还可以配置成：

读取待核对文件的Word格式的文件原件，提取文件原件中的第一文本段落和/或第一表格段落，作为第一核对内容；

对文件扫描件进行图像分割得到文件扫描件中分割图像，基于分割图像得到文件扫描件中的第二文本段落和/或第二表格段落，作为第二核对内容。

对文件扫描件进行图像分割，得到文件扫描件中纯文本图像和/或表格图像；

对纯文本图像进行OCR文字识别处理，将纯文本图像转化为第二文本段落；和/或对表格图像进行OCR文字识别处理，将表格图像转化为第二表格段落。

本申请一可选实施例中，核对结果整合模块330，其还可以配置成：

对第一文本段落和第二文本段落进行文字内容核对，识别第一文本段落和第二本文段落中的第一差异内容，并标记第一核对内容在待核对文件中的记录位置；和/或对第一表格段落和第二表格段落进行文字内容核对，识别第一表格段落和第二表格段落中的第二差异内容，并标记第二核对内容在待核对文件中的记录位置；按照待核对文件的内容记录顺序对第一差异内容和/或第二差异内容进行拼接整合，得到核对结果。

本申请实施例还提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上述任一项所述的文件内容核对方法。

本申请实施例还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上述任一项所述的文件内容核对方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种文件内容核对方法，包括：

对所述核对结果进行可视化展示。

2.根据权利要求1所述的方法，其特征在于，所述获取待核对文件的Word格式的文件原件和与所述Word格式不同的第二格式的文件扫描件，包括：

获取待核对文件的Word格式的文件原件；

3.根据权利要求1所述的方法，其特征在于，所述提取所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述文件扫描件进行图像分割得到所述文件扫描件中分割图像，基于所述分割图像得到所述文件扫描件中的第二文本段落和/或第二表格段落，包括：

对所述文件扫描件进行图像分割，得到所述文件扫描件中纯文本图像和/或表格图像；

5.根据权利要求3所述的方法，其特征在于，所述核对所述文件原件中的第一核对内容和所述文件扫描件中的第二核对内容，将核对后的结果进行拼接整合得到核对结果，包括：

6.一种文件内容核对系统，包括：

7.根据权利要求6所述的系统，其特征在于，所述核对内容提取模块，其还配置成：

8.根据权利要求7所述的系统，其特征在于，所述核对结果整合模块，其还配置成：

9.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的文件内容核对方法。

10.一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1-5中任一项所述的文件内容核对方法。