CN113496115B

CN113496115B - 文件内容比对方法和装置

Info

Publication number: CN113496115B
Application number: CN202010268903.3A
Authority: CN
Inventors: 汤斯鹏; 张洁辉; 王依桐; 张培炜; 池鸿源; 曹海山
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2023-07-28
Anticipated expiration: 2040-04-08
Also published as: CN113496115A

Abstract

本发明提供了文件内容比对方法，包括：从文本文件和第一图片文件中提取第一字符串和第二字符串，当判断出第一字符串和第二字符串一致时，确定出文件文本和第一图片文件的比对通过，不一致时，再将文本文件转换为图片格式，通过对比两个图片文件的图像特征之间的距离，确定比对是否通过。因此能够通过比对提取出字符串，确定出两个文件的比对结果，避免了传统方法中使用单个字符进行比对时，单个字符的识别障碍问题；若第一次比对不通过时，则将第次一比对不通过的文本文件转换成图片格式，利用图片文件的特征值，在整体上考察两个图片文件内容的一致性，避免了人工检测无法识别的模糊文本文件时，存在的漏检问题，进而提高了文件比对的精准度。

Description

文件内容比对方法和装置

技术领域

本文件涉及数据处理技术领域，尤其涉及一种文件内容比对方法和装置。

背景技术

为了提高办事效率，对一些较为常用的合同，会事先制作好电子合同模板，使用时再根据需要填写好电子合同，然后再打印出纸质合同供双方进行签字盖章。一些比较重要的合同文件在签订前后均需对电子版本合同和打印出的纸质合同进行比对，以防止意外篡改，如政企合同、税务合同、电子商务合同等。

目前，主要通过传统的OCR技术进行文本内容的比对，具体过程如下，先使用电子扫描设备将纸质合同转化成图片文件，通过检测图片文件中不同位置的亮暗程度，逐字识别出图片文件中的字符，再将识别出的图片文件中的字符与电子合同进行比对，以得出比对结果。

但是，传统的OCR技术只适合识别纯文本文件，而现实中的合同文件由于有一定的格式要求，会存在标识性表格线等元素，因此扫描时会引入阴影噪声，进而对OCR的准确性产生影响，并且，当阴影噪声较大时，传统的OCR技术将无法识别文件中的字符，若通过人工方式继续识别，仍然存在较大的漏检风险。因此，目前的文件比对方法准确度不高。

发明内容

本说明书一个实施例的目的是提供一种文件内容比对方法和装置，以解决目前的文件比对方法准确度不高的问题。

为解决上述技术问题，本说明书一个实施例是这样实现的：

第一方面，本说明书一个实施例提供了一种文件内容比对方法，包括：获取待比对的文本文件和第一图片文件，从文本文件中提取待比对的第一字符串，从第一图片文件中提取待比对的第二字符串；判断第一字符串和第二字符串是否一致，若一致，则确定文本文件和第一图片文件比对通过，若不一致，则将文本文件的格式转换为图片格式，得到第二图片文件；判断第一图片文件的图像特征和第二图片文件的图像特征之间的距离是否满足预设距离要求；若满足，则确定文本文件和第一图片文件比对通过，若不满足，则确定文本文件和第一图片文件比对不通过。

第二方面，本说明书另一个实施例提供了一种文件内容比对装置，包括：提取模块：用于获取待比对的文本文件和第一图片文件，从文本文件中提取待比对的第一字符串，从第一图片文件中提取待比对的第二字符串；第一判断模块：用于判断第一字符串和第二字符串是否一致，若一致，则确定文本文件和第一图片文件比对通过，若不一致，则将文本文件的格式转换为图片格式，得到第二图片文件；第二判断模块：用于判断第一图片文件的图像特征和第二图片文件的图像特征之间的距离是否满足预设距离要求；确定模块：用于若满足，则确定文本文件和第一图片文件比对通过，若不满足，则确定文本文件和第一图片文件比对不通过。

第三方面，本说明书又一个实施例提供了一种文件内容比对设备，包括：存储器、处理器和存储在存储器上并可在处理器上运行的计算机可执行指令，计算机可执行指令被处理器执行时实现如上述第一方面的文件内容比对方法的步骤。

第四方面，本说明书再一个实施例提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机可执行指令，计算机可执行指令被处理器执行时实现如上述第一方面的文件内容比对方法的步骤。

在本说明书一个实施例中，从文本文件和第一图片文件中提取第一字符串和第二字符串，当判断出第一字符串和第二字符串一致时，确定出文件文本和第一图片文件的比对通过，当第一字符串和第二字符串不一致时，再将文本文件转换为图片格式，通过对比两个图片文件的图像特征之间的距离，确定比对是否通过。因此能够通过比对提取出字符串，确定出两个文件的比对结果，避免了传统方法中使用单个字符进行比对时，单个字符的识别障碍问题；若第一次比对不通过时，则将第次一比对不通过的文本文件转换成图片格式，利用图片文件的特征值，在整体上考察两个图片文件内容的一致性，避免了人工检测无法识别的模糊文本文件时，存在的漏检问题，进而提高了文件比对的精准度。

附图说明

为了更清楚地说明本说明书一个或多个实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个实施例提供的文件比对方法的第一种流程示意图；

图2为本说明书一个实施例提供的文件比对方法的第二种流程示意图；

图3为本说明书一个实施例提供的文件比对装置的模块示意图；

图4为本说明书一个实施例提供的文件比对设备的模块示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

图1为本说明书一实施例提供的文件内容比对方法的流程示意图，如图1所示，该流程包括以下步骤：

步骤S102，获取待比对的文本文件和第一图片文件，从文本文件中提取待比对的第一字符串，从第一图片文件中提取待比对的第二字符串；

步骤S104，判断第一字符串和第二字符串是否一致，若一致，则确定文本文件和第一图片文件比对通过，若不一致，则将文本文件的格式转换为图片格式，得到第二图片文件；

步骤S106，判断第一图片文件的图像特征和第二图片文件的图像特征之间的距离是否满足预设距离要求；

步骤S108，若满足，则确定文本文件和第一图片文件比对通过，若不满足，则确定文本文件和第一图片文件比对不通过。

本实施例中，从文本文件和第一图片文件中提取第一字符串和第二字符串，当判断出第一字符串和第二字符串一致时，确定出文件文本和第一图片文件的比对通过，当第一字符串和第二字符串不一致时，再将文本文件转换为图片格式，通过对比两个图片文件的图像特征之间的距离，确定比对是否通过。因此能够通过比对提取出字符串，确定出两个文件的比对结果，避免了传统方法中使用单个字符进行比对时，单个字符的识别障碍问题；若第一次比对不通过时，则将第次一比对不通过的文本文件转换成图片格式，利用图片文件的特征值，在整体上考察两个图片文件内容的一致性，避免了人工检测无法识别的模糊文本文件时，存在的漏检问题，进而提高了文本比对的精准度。

上述步骤S102中，获取待比对的文本文件和第一图片文件，从文本文件中提取待比对的第一字符串，从第一图片文件中提取待比对的第二字符串。

文本文件可以为pdf格式、word格式等，第一图片文件可以为以jpg格式、png格式等。第一图片文件可以为根据文本文件得到的图片文件，也可以为与文本文件不相关的图片文件，均可以进行文件内容的对比，本发明实施例中不做具体限定。字符串为待比对的关键信息。一个文件中一般有多个需要对比的关键信息，可以理解的是，提取出的字符串也为多个。

下面选取一个具体的实施场景进行说明，例如，文本文件为pdf格式的电子合同，客户经理填写完电子合同，确认无误后打印出纸质供客户签字，为了确定电子合同和纸质合同的主要内容是否一致，需要先扫描客户签字后的纸质合同得到jpg格式的扫描图片，jpg格式的扫描图即为第一图片文件，从电子合同文件和第一图片文件中提取出关键信息的字符串进行比对，便可以得出电子合同和纸质合同扫描图片的对比结果。

步骤S102中的，从文本文件中提取待比对的第一字符串，具体包括：对文本文件进行识别，确定文本文件中的各个字段名和各个字段值的记录位置；从各个字段值的记录位置处提取各个字段值，作为第一字符串。

文本文件以pdf、word等格式存储在电脑中，对文本文件提取字符串时，可直接进行读取。即第一字符串可以通过现有的从文本文件中提取字符串的算法进行提取。字段名为需要比对的关键信息的名称，字段值为需要比对的关键信息。以文本文件为电子合同为例，其中，字段名一般为电子合同模板中固定的信息，如电话，公司等，字段值为人工填写的信息，如对应的电话号码和公司名称。对比时，需要提取出字段值处的字符串进行对比。如提取出电话号码和公司名称，比对电子合同和纸质合同扫描图片中的电话号码和公司名称是否一致，进而判断电子合同和纸质合同的内容是否一致。

步骤S102中的，从第一图片文件中提取待比对的第二字符串，包括：

(a1)将文本文件的格式转换为图片格式，得到第二图片文件，并根据第一图片文件的图像特征和第二图片文件的图像特征，对第一图片文件和第二图片文件进行对齐；

(a2)根据对齐后的第二图片文件中第一字符串的记录位置，在对齐后的第一图片文件中确定第二字符串的第一可能记录位置；

(a3)对第一图片文件进行图像处理，得到第一图片文件中第二字符串的第二可能记录位置；

(a4)根据第一可能记录位置和第二可能记录位置，从第一图片文件中提取第二字符串。

根据上述可知，第一图片文件即为图片格式的文件，图片格式的文件一般无法直接进行读取并获得字符串，因此，可以通过利用文本文件来获取第一图片文件的字符串，即第二字符串。将文本文件转换为图片格式的方法有多种，例如可以通过拍照，截图等方法进行转换，得到第二图片文件。对两个图片文件提取图像特征，利用图像特征进行对齐。使用图片文件的图像特征将两个图片文件对齐后，理论上文本文件的第一字符串的记录位置与第一图片文件的第二字符串记录位置是一一对应关系，由于文本文件的第一字符串的记录位置可以通过解析文本文件而获取，因此，可以通过文本文件中第一字符串的记录位置获取到第二字符串的第一可能记录位置。通过对第一图片文件进行图像学处理，可以得到第二可能记录位置。上述的第一可能位置为根据文本文件预测的第一图片文件的理论位置，上述的第二可能位置为在对图片文件进行图像学处理后得到位置。可以理解的是，实际中，字符串应该占有一定的面积，其第一可能记录位置和第二可能记录位置均为可以为一定的区域，而非一个点。综合第一可能记录位置和第二可能记录位置，得到第二字符串的最终记录位置，根据第二字符串的最终记录位置提取出第二字符串。

一个实施例中，可以通过SIFT方法将文本文件和第一图片文件进行对齐。下面以文本文件为pdf格式，第一图片文件为jpg文件为准进行说明。具体的，SIFT特征属于图像的局部特征，SIFT特征的生成过程如下：(1)构建尺度空间，检测极值点，获得尺度不变性；(2)特征点过滤并进行精确定位；(3)为特征点分配方向值；(4)计算变换参数。Sift特征向量生成以后，下一步就可以采用关键点特征向量的欧式距离来作为两幅图像中关键点的相似性判定度量。取第一福图的某个关键点，通过遍历找到另一幅图像中的距离最近的两个关键点。在这两个关键点中，如果次近距离除以最近距离小于某个阙值，则判定为一对匹配点。SIFT方法已经集成在opencv的API(应用程序接口，Application Programming Interface)库中，直接调用opencv的对应API查找出pdf图片和jpg图片的关键点，并且将jpg图片放缩仿射对齐pdf图片，这样就得到和pdf一样大小的对齐的jpg图片。

上述步骤(a3)中，对第一图片文件进行图像处理，得到第一图片文件中第二字符串的第二可能记录位置，包括：对第一图片文件进行滤波处理，将滤波处理后的第一图片文件转换为灰度图片，并生成灰度图片对应的梯度图；对梯度图进行二值化处理，以得到多个候选位置，按照预设位置选取规则，在多个候选位置中选取第二可能记录位置。

对图像进行处理后，可以识别出图像中的一些信息。可以使用开源计算机视觉库(opencv)对图片文件进行图像学处理，具体为调用opencv中的工具函数进行图像处理。具体过程为，(1)对第一图片文件进行滤波处理具体为使用中值滤波和双边滤波对图像进行处理，以去除图像中的噪点；(2)将滤波后的图片文件转化成灰度图像；(3)通过拉普拉斯变换后增强图像中灰度突变处的对比度，使图像中小的细节部分得到增强并保留了图像的背景色调，得到灰度图片对应的梯度图；(4)对梯度图进行二值化处理，得到二值图，做膨胀和腐蚀操删除无用细节并突出候选区域；(5)预设位置选取规则可以为根据经验值设定区域轮廓以及面积，然后从候选区域中根据预设位置选取规则，筛选出与按照经验值设定的区域轮廓面积相近的区域，得到第二可能记录位置。

上述步骤(a4)中，对根据第一可能记录位置和第二可能记录位置，从第一图片文件中提取第二字符串，包括：

(a41)根据第一可能记录位置和第二可能记录位置，通过交并比算法确定得到目标记录位置；

(a42)利用预先训练的第一神经网络模型，根据目标记录位置，从第一图片文件中提取第二字符串。

第一可能记录位置为推断出第二字符串的理论位置，第二可能记录位置为根据图像分析出的第二字符串的实际位置。在实践中理论位置不可避免存在偏移，而实际位置存在错检、漏检的情况，因此，需要融合理论位置和实际位置得到目标记录位置，实际中可以采用采用交并比(IOU，Intersection over union)的融合方法获取目标记录位置。具体为，假设第一可能记录位置为A，第二可能记录位置为B，第一可能记录位置中的一个位置信息为A1，第二可能记录位置的一个位置信息为B2，则，IOU＝A1∩B1÷A1∪B1。当IOU的概率大于预设阈值0.97的时候，认为位置A1和B1为同一个位置，取A1和B1融合后的最大面积区域，对第一可能记录位置和第二可能记录位置中的每对对应位置进行交并比处理，得到的面积区域作为目标记录位置。

第一神经网络模型可以为CRNN模型，可以预先采用公开的数据集对第一神经网络模型进行训练，将公开的数据集按照8:2的比例进行切分，得到训练集和测试集，使用训练集训练模型后，再使用测试集进行测试，可以确保模型结果的准确性。在训练完成后的第一神经网络模型中输入目标记录位置，便可提取出第二字符串

步骤(a42)具体为，根据利用预先训练的第一神经网络模型，根据目标记录位置，从第一图片文件中提取第二字符串。包括：将第一图片文件输入至第一神经网络模型，利用第一神经网络模型中的卷积层，确定目标记录位置处的图像对应的特征序列；利用第一神经网络模型中的循环层，确定特征序列中每个特征向量的标签分布；利用第一神经网络模型中的转录层，根据特征序列中每个特征向量的标签分布，确定第二字符串。

CRNN神经网络模型包括三个模块：卷积层(CNN)：用于提取特征序列；循环层(RNN)用于预测特征序列的标签分布；转录层CTC：用于预测最终的字符串序列，预测出的字符串序列将作为从第一图片文件中提取出的第二字符串。

具体的，卷积层：是由标准的卷积网络模型的卷积层和最大池化层组成，目的在于自动提取出输入的图片文件的目标记录位置处的特征序列；循环层：包含一个双向LSTM循环神经网络，双向LSTM循环神经网络由两个单层双向LSTM网络使用级联的方式堆叠而成，可以根据字符串的前后文从两端预测处于中间的字符串，其预测结果更加准确，循环层可以预测出特征序列中每个特征向量的标签分布。转录层，由CTC模型组成，将上部分得到的标签分布传输给CTC模型后，可以输出最可能的标签，该最可能的标签将作为最终的提取出的序列字符串，即第二字符串。CTC模型的训练样本无需对齐，可以反向传播给LSTM双向LSTM循环神经网络调整其参数，使得标签分布的输出概率变大，从而更好的提取出序列字符串。

步骤S104中：判断第一字符串和第二字符串是否一致，若一致，则确定文本文件和第一图片文件比对通过，若不一致，则将文本文件的格式转换为图片格式，得到第二图片文件。

将提取出的第一字符串和第二字符串进行比对，若比对结果一致，则说明比对通过。表示文本文件的内容和第一图片文件的内容一致。例如，当文本文件为电子合同，第一图片文件为纸质合同的扫描图片时，说明电子合同的内容和纸质合同的扫描图片的内容是一致的，文件在打印过程中没有对篡改。若比对结果不一致，则不能立刻判断文本文件的内容和第一图片文件的内容不一致，因为，在第一图片文件的识别过程中，可能存在模糊无法识别的情况，导致识别不准确，进而影响结果的判断。需要再将文本文件转换成第二图片文件，使用特征值对两个图片的相似度进行判断，进而达到判断文本文件和第一图片文件比对的目的。字符串判断是在局部进行比对，使用图片的特征是从整体上进行比对，从局部和整体上两个方面对文本文件和第一图片文件进行比对，可以提高文件内容比对的精确性。

步骤S106中：判断第一图片文件的图像特征和第二图片文件的图像特征之间的距离是否满足预设距离要求。

根据相同个体人脸的特征距离总是小于不同个体的人脸的特征距离这一先验知识，设置一个预设距离，当两张图片文件的特征距离小于预设值时，说明两张图片相似度高。

步骤S106具体包括：将第一图片文件和第二图片文件输入预先训练的第二神经网络模型，利用第二神经网络模型中的特征提取层，提取第一图片文件的图像特征和第二图片文件的图片特征；利用第二神经网络模型中的损失函数，计算第一图片文件的图像特征和第二图片文件的图片特征之间的距离；利用第二神经网络模型中的判断层，判断距离是否小于预设距离，若是，则确定距离满足预设距离要求，否则，确定距离不满足预设距离要求。

将文本文件转换为图片文件，与第二图片文件进行特征值的比对。本申请中采用的第二神经网络模型为Facenet模型，采用Facenet模型可以得出两个图像特征之间的距离。在使用Facenet模型进行计算特征距离时，需要先进行模型训练。

下面以文本文件为电子合同文件，第一图片文件扫描的图片文件为例进行说明Facenet模型的训练和提取过程。对合同文件和扫描的图片文件进行对比时，可以先利用一定数量的合同文件生成模拟文件，在将模拟文件转换为图片格式后输入Facenet模型中进行训练。输入的训练数据越多的情况下，模型的准确率越高。模型训练完成后，在Facenet模型中输入电子合同的图片版本和扫描文件的图片版本，输出两个图片文件的特征距离。为了提高Facenet模型的精确到，本申请中还使用OHEM算法，选择出一些多样性和高损失的样本作为训练的样本从而改善网络参数效果。

具体的，Facenet模型提取过程如下：特征提取层采用谷歌的inception网络提取出输入的图片的特征；将图片文件的特征进行正则化，利用embedding(嵌入层)将图像特征映射到特征空间上。利用特征提取层的损失函数，计算特征距离。然后利用判断层，判断特征距离的差值。预设的阈值为0.95，当特征距离的差值大于该阈值时，表示输入的两个图片的内容是一致的，对比通过，否则不通过。

步骤S108中：若满足，则确定文本文件和第一图片文件比对通过，若不满足，则确定文本文件和第一图片文件比对不通过。

若特征距离小于预设值，则两个图片的特征值比对通过，说明文本文件和第一图片文件的内容相同，若特征距离不满足预设值，说明，文本文件的内容和图片文件的内容不相同。

图2为本说明书又一实施例提供的文件内容比对方法的流程示意图，如图2所示，该流程包括以下步骤：

步骤S202，获取文本文件和第一图片文件。

步骤S204，对文本文件进行识别，获取字段值的记录位置，根据字段值的记录位置读取第一字符串。

步骤S206，将文本文件的格式转换为图片格式，得到第二图片文件，利用图像特征对齐第二图片文件和第一图片文件，获取第一可能记录位置。

步骤S208，对第一图片文件进行滤波、灰度图转换、梯度图转换和二值化处理的图像学处理，获取第二可能记录位置。

步骤S210，通过交并比算法从第一可能记录位置和第二可能记录位置中得到目标记录位置。

步骤S212，通过第一神经网络模型提取第二字符串。

步骤S214，判断第一字符串和第二字符串是否一致。

步骤S216，若一致，则比对通过。

步骤S218若不一致，通过第二神经网络模型判断第一图片文件的图像特征和第二图片文件的图像特征之间的距离是否满足预设距离要求。

步骤S220，若满足，则确定文本文件和第一图片文件比对通过，若不满足，则确定文本文件和第一图片文件比对不通过。

图3为本申请一实施例提供的一种文件比对装置的模块组成示意图，如图3所示，该装置包括：

提取模块301：用于获取待比对的文本文件和第一图片文件，从文本文件中提取待比对的第一字符串，从第一图片文件中提取待比对的第二字符串；

第一判断模块302：用于判断第一字符串和第二字符串是否一致，若一致，则确定文本文件和第一图片文件比对通过，若不一致，则将文本文件的格式转换为图片格式，得到第二图片文件；

第二判断模块303：用于判断第一图片文件的图像特征和第二图片文件的图像特征之间的距离是否满足预设距离要求；

确定模块304：用于若满足，则确定文本文件和第一图片文件比对通过，若不满足，则确定文本文件和第一图片文件比对不通过。

可选地，提取模块301具体用于：对文本文件进行识别，确定文本文件中的各个字段名和各个字段值的记录位置；从各个字段值的记录位置处提取各个字段值，作为第一字符串。

可选地，提取模块301具体用于：将文本文件的格式转换为图片格式，得到第二图片文件，并根据第一图片文件的图像特征和第二图片文件的图像特征，对第一图片文件和第二图片文件进行对齐；根据对齐后的第二图片文件中第一字符串的记录位置，在对齐后的第一图片文件中确定第二字符串的第一可能记录位置；对第一图片文件进行图像处理，得到第一图片文件中第二字符串的第二可能记录位置；根据第一可能记录位置和第二可能记录位置，从第一图片文件中提取第二字符串。

可选地，提取模块301具体用于：对第一图片文件进行滤波处理，将滤波处理后的第一图片文件转换为灰度图片，并生成灰度图片对应的梯度图；对梯度图进行二值化处理，以得到多个候选位置，按照预设位置选取规则，在多个候选位置中选取第二可能记录位置。

可选地，提取模块301具体用于：根据第一可能记录位置和第二可能记录位置，通过交并比算法确定得到目标记录位置；利用预先训练的第一神经网络模型，根据目标记录位置，从第一图片文件中提取第二字符串。

可选地，提取模块301具体用于：将第一图片文件输入至第一神经网络模型，利用第一神经网络模型中的卷积层，确定目标记录位置处的图像对应的特征序列；利用第一神经网络模型中的循环层，确定特征序列中每个特征向量的标签分布；利用第一神经网络模型中的转录层，根据特征序列中每个特征向量的标签分布，确定第二字符串。

可选地，第二判断模块303具体用于：将第一图片文件和第二图片文件输入预先训练的第二神经网络模型，利用第二神经网络模型中的特征提取层，提取第一图片文件的图像特征和第二图片文件的图片特征；利用第二神经网络模型中的损失函数，计算第一图片文件的图像特征和第二图片文件的图片特征之间的距离；利用第二神经网络模型中的判断层，判断距离是否小于预设距离，若是，则确定距离满足预设距离要求，否则，确定距离不满足预设距离要求。

本说明书一实施例提供的文件比对装置能够实现前述方法实施例中的各个过程，并达到相同的功能和效果，这里不再重复。

进一步地，本说明书一个实施例还提供了一种文件比对设备，图4为本说明书一实施例提供的文件比对设备的结构示意图，如图4所示，该设备包括：存储器401、处理器402、总线403和通信接口404。存储器401、处理器402和通信接口404通过总线403进行通信，通信接口404可以包括输入输出接口，输入输出接口包括但不限于键盘、鼠标、显示器、麦克风、扩音器等。

图4中，存储器401上存储有可在处理器402上运行的计算机可执行指令，计算机可执行指令被处理器402执行时实现以下流程：

获取待比对的文本文件和第一图片文件，从文本文件中提取待比对的第一字符串，从第一图片文件中提取待比对的第二字符串；判断第一字符串和第二字符串是否一致，若一致，则确定文本文件和第一图片文件比对通过，若不一致，则将文本文件的格式转换为图片格式，得到第二图片文件；判断第一图片文件的图像特征和第二图片文件的图像特征之间的距离是否满足预设距离要求；若满足，则确定文本文件和第一图片文件比对通过，若不满足，则确定文本文件和第一图片文件比对不通过。可选地，计算机可执行指令被处理器执行时，

可选地，计算机可执行指令被处理器执行时，对文本文件进行识别，确定文本文件中的各个字段名和各个字段值的记录位置；从各个字段值的记录位置处提取各个字段值，作为第一字符串。

可选地，计算机可执行指令被处理器执行时，将文本文件的格式转换为图片格式，得到第二图片文件，并根据第一图片文件的图像特征和第二图片文件的图像特征，对第一图片文件和第二图片文件进行对齐；根据对齐后的第二图片文件中第一字符串的记录位置，在对齐后的第一图片文件中确定第二字符串的第一可能记录位置；对第一图片文件进行图像处理，得到第一图片文件中第二字符串的第二可能记录位置；根据第一可能记录位置和第二可能记录位置，从第一图片文件中提取第二字符串。

可选地，计算机可执行指令被处理器执行时，对第一图片文件进行滤波处理，将滤波处理后的第一图片文件转换为灰度图片，并生成灰度图片对应的梯度图；对梯度图进行二值化处理，以得到多个候选位置，按照预设位置选取规则，在多个候选位置中选取第二可能记录位置。

可选地，计算机可执行指令被处理器执行时，根据第一可能记录位置和第二可能记录位置，通过交并比算法确定得到目标记录位置；利用预先训练的第一神经网络模型，根据目标记录位置，从第一图片文件中提取第二字符串。

可选地，计算机可执行指令被处理器执行时，将第一图片文件输入至第一神经网络模型，利用第一神经网络模型中的卷积层，确定目标记录位置处的图像对应的特征序列；利用第一神经网络模型中的循环层，确定特征序列中每个特征向量的标签分布；利用第一神经网络模型中的转录层，根据特征序列中每个特征向量的标签分布，确定第二字符串。

可选地，计算机可执行指令被处理器执行时，将第一图片文件和第二图片文件输入预先训练的第二神经网络模型，利用第二神经网络模型中的特征提取层，提取第一图片文件的图像特征和第二图片文件的图片特征；利用第二神经网络模型中的损失函数，计算第一图片文件的图像特征和第二图片文件的图片特征之间的距离；利用第二神经网络模型中的判断层，判断距离是否小于预设距离，若是，则确定距离满足预设距离要求，否则，确定距离不满足预设距离要求。

本说明书一实施例提供的文件比对设备能够实现前述方法实施例中的各个过程，并达到相同的功能和效果，这里不再重复。

进一步地，本说明书另一个实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机可执行指令，计算机可执行指令被处理器执行时实现以下流程：

本说明书一实施例提供的存储介质能够实现前述方法实施例中的各个过程，并达到相同的功能和效果，这里不再重复。

其中，所述的计算机可读存储介质包括只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文件内容比对方法，其特征在于，包括：

获取待比对的文本文件和第一图片文件，从所述文本文件中提取待比对的第一字符串，从所述第一图片文件中提取待比对的第二字符串；

判断所述第一字符串和所述第二字符串是否一致，若一致，则确定所述文本文件和所述第一图片文件比对通过，若不一致，则将所述文本文件的格式转换为图片格式，得到第二图片文件；

判断所述第一图片文件的图像特征和所述第二图片文件的图像特征之间的距离是否满足预设距离要求；

若满足，则确定所述文本文件和所述第一图片文件比对通过，若不满足，则确定所述文本文件和所述第一图片文件比对不通过;

其中，从所述第一图片文件中提取待比对的第二字符串，包括：

将所述文本文件的格式转换为图片格式，得到第二图片文件，并根据所述第一图片文件的图像特征和所述第二图片文件的图像特征，对所述第一图片文件和所述第二图片文件进行对齐；

根据对齐后的所述第二图片文件中所述第一字符串的记录位置，在对齐后的所述第一图片文件中确定所述第二字符串的第一可能记录位置；

对所述第一图片文件进行图像处理，得到所述第一图片文件中所述第二字符串的第二可能记录位置；

根据所述第一可能记录位置和所述第二可能记录位置，通过交并比算法确定得到目标记录位置；

将所述第一图片文件输入至第一神经网络模型，利用所述第一神经网络模型中的卷积层，确定所述目标记录位置处的图像对应的特征序列；

利用所述第一神经网络模型中的循环层，确定所述特征序列中每个特征向量的标签分布；

利用所述第一神经网络模型中的转录层，根据所述特征序列中每个特征向量的标签分布，确定所述第二字符串。

2.根据权利要求1所述的方法，其特征在于，从所述文本文件中提取待比对的第一字符串，包括：

对所述文本文件进行识别，确定所述文本文件中的各个字段名和各个字段值的记录位置；

从各个字段值的记录位置处提取各个所述字段值，作为所述第一字符串。

3.根据权利要求1所述的方法，其特征在于，对所述第一图片文件进行图像处理，得到所述第一图片文件中所述第二字符串的第二可能记录位置，包括：

对所述第一图片文件进行滤波处理，将滤波处理后的所述第一图片文件转换为灰度图片，并生成所述灰度图片对应的梯度图；

对所述梯度图进行二值化处理，以得到多个候选位置，按照预设位置选取规则，在所述多个候选位置中选取所述第二可能记录位置。

4.根据权利要求1所述的方法，其特征在于，判断所述第一图片文件的图像特征和所述第二图片文件的图像特征之间的距离是否满足预设距离要求，包括：

将所述第一图片文件和所述第二图片文件输入预先训练的第二神经网络模型，利用所述第二神经网络模型中的特征提取层，提取所述第一图片文件的图像特征和所述第二图片文件的图片特征；

利用所述第二神经网络模型中的损失函数，计算所述第一图片文件的图像特征和所述第二图片文件的图片特征之间的距离；

利用所述第二神经网络模型中的判断层，判断所述距离是否小于预设距离，若是，则确定所述距离满足预设距离要求，否则，确定所述距离不满足预设距离要求。

5.一种文件内容比对装置，其特征在于，包括：

提取模块：用于获取待比对的文本文件和第一图片文件，从所述文本文件中提取待比对的第一字符串，从所述第一图片文件中提取待比对的第二字符串；

第一判断模块：用于判断所述第一字符串和所述第二字符串是否一致，若一致，则确定所述文本文件和所述第一图片文件比对通过，若不一致，则将所述文本文件的格式转换为图片格式，得到第二图片文件；

第二判断模块：用于判断所述第一图片文件的图像特征和所述第二图片文件的图像特征之间的距离是否满足预设距离要求；

确定模块：用于若满足，则确定所述文本文件和所述第一图片文件比对通过，若不满足，则确定所述文本文件和所述第一图片文件比对不通过；

其中，所述提取模块具体用于：

6.一种文件内容比对设备，其特征在于，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述计算机可执行指令在上述处理器上运行时，能够实现上述权利要求1-4任一项所述的方法的步骤。

7.一种存储介质，该存储介质中存储有计算机可执行指令，其特征在于，所述计算机可执行指令在被处理器执行时，能够实现上述权利要求1-4任一项所述的方法的步骤。