CN113792659A

CN113792659A - 文档识别方法、装置及电子设备

Info

Publication number: CN113792659A
Application number: CN202111080737.5A
Authority: CN
Inventors: 崔渊; 孙科; 李艺飞; 瞿翊
Original assignee: Shanghai Kingstar Fintech Co Ltd
Current assignee: Shanghai Kingstar Fintech Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-14
Anticipated expiration: 2041-09-15
Also published as: CN113792659B

Abstract

本申请公开了一种文档识别方法、装置及电子设备，所述方法包括：获得待识别的目标文档，所述目标文档为PDF格式，且所述目标文档包含至少一个文档页面；获得所述文档页面中页面内容所在的内容区域；根据所述内容区域的区域参数，获得所述文档页面的初始页面类型；使用所述文档页面中的文字数据，筛选所述初始页面类型，以得到所述文档页面的目标页面类型。

Description

文档识别方法、装置及电子设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种文化识别方法、装置及电子设备。

背景技术

对于PDF文档的内容识别，包含文档类型的识别和文字的识别。目前主要采用基于深度学习的计算机视觉识别模型实现。计算机视觉识别模型通过大量的样本数据进行训练得到。

但是，在计算机视觉识别模型的使用过程中，由于经常出现新的文档类型，因此，会导致无法对文档类型进行准确的识别，使得识别结果的错误率较高。

发明内容

有鉴于此，本申请提供一种文档识别方法、装置及电子设备，用以解决目前对文档类型的识别错误率较高的技术问题，如下：

一种文档识别方法，所述方法包括：

获得待识别的目标文档，所述目标文档为PDF格式，且所述目标文档包含至少一个文档页面；

获得所述文档页面中页面内容所在的内容区域；

根据所述内容区域的区域参数，获得所述文档页面的初始页面类型；

使用所述文档页面中的文字数据，筛选所述初始页面类型，以得到所述文档页面的目标页面类型。

上述方法，优选的，所述区域参数包括所述内容区域在所属文档页面中的面积比例参数、所述内容区域在所属文档页面中的区域位置参数和所述内容区域的区域形状参数；

其中，根据所述内容区域的区域参数，获得所述文档页面的初始页面类型，包括：

将所述区域参数与预设的页面类型的类型参数进行比对，以得到与所述区域参数相匹配的目标类型参数，所述目标类型参数对应的页面类型为所述文档页面的初始页面类型。

上述方法，优选的，使用所述文档页面中的文字数据，筛选所述初始页面类型，以得到所述文档页面的目标页面类型，包括：

对所述文档页面进行文字识别，以得到所述文档页面中的文字数据；

将所述文字数据与所述初始页面类型对应的类型关键词进行比对，以得到所述文档页面的目标页面类型。

上述方法，优选的，所述类型关键词对应有字典树；

其中，将所述文字数据与所述初始页面类型对应的类型关键词进行比对，以得到所述文档页面的目标页面类型，包括：

将所述文字数据与所述字典树进行匹配，以得到关键词匹配结果，所述关键词匹配结果表征所述文字数据是否与所述字典树相匹配；

在所述关键词匹配结果表征所述文字数据与所述字典树相匹配的情况下，将所述字典树对应的类型关键词所属的初始页面类型确定为所述文档页面的目标页面类型。

上述方法，优选的，对所述文档页面进行文字识别，以得到所述文档页面中的文字数据，包括：

使用计算机视觉识别模型对所述文档页面进行文字识别，以得到第一文本向量序列，所述第一文本向量序列中包含至少一个文本向量；

使用自然语言纠错模型对所述第一文本向量序列进行纠错处理，以得到第二文本向量序列，所述第二文本向量序列中包含至少一个文本向量；

将所述第一文本向量序列中的文本向量和所述第二文本向量序列中的文本向量进行向量融合，以得到目标文本向量序列；

根据所述目标文本向量序列，获得所述文档页面中的文字数据。

上述方法，优选的，所述计算机视觉识别模型以样本图像为输入，以样本向量序列为输出进行训练得到；所述自然语言纠错模型以第一文本样本的文本向量序列为输入，以第二文本样本的文本向量序列为输出进行训练得到，所述第一文本样本通过对所述第二文本样本中的字符进行替换得到；

其中，所述计算机视觉识别模型和所述自然语言纠错模型通过以下方式进行联合训练：

将所述样本图像输入所述计算机视觉识别模型，以得到所述计算机视觉识别模型输出的第一样本文本向量序列；

将所述第一样本文本向量序列输入所述自然语言纠错模型，以得到所述自然语言纠错模型输出的第二样本文本向量序列；

将所述第一样本文本向量序列和所述第二样本文本向量序列进行向量融合，以得到目标样本文本向量序列；

获得所述样本向量序列和所述目标样本文本向量序列之间的损失函数值；

根据所述损失函数值对所述计算机视觉识别模型的模型参数和所述自然语言纠错模型的模型参数进行调整，返回执行所述将所述样本图像输入所述计算机视觉识别模型，以得到所述计算机视觉识别模型输出的第一样本文本向量序列，直到所述损失函数值满足收敛条件。

上述方法，优选的，获得所述文档页面中页面内容所在的内容区域，包括：

对所述文档页面中的像素点进行灰度处理；

获得所述文档页面的整体平均灰度值；

获得所述文档页面中所包含的多个像素区域的区域平均灰度值，所述像素区域为对所述文档页面进行像素点划分所得到的区域，所述像素区域包含多个像素点；

筛选出所述区域平均灰度值大于所述整体平均灰度值的目标像素区域；

根据所述目标像素区域，获得所述文档页面中页面内容所在的内容区域。

上述方法，优选的，所述获得待识别的目标文档，包括：

获得待识别的原始文档；

将所述原始文档转换为二进制格式；

对二进制格式的原始文档按照页面进行拆分，以得到至少一个文档页面。

一种文档识别装置，所述装置包括：

文档获得单元，用于获得待识别的目标文档，所述目标文档为PDF格式，且所述目标文档包含至少一个文档页面；

区域获得单元，用于获得所述文档页面中页面内容所在的内容区域；

初始获得单元，用于根据所述内容区域的区域参数，获得所述文档页面的初始页面类型；

类型筛选单元，用于使用所述文档页面中的文字数据，筛选所述初始页面类型，以得到所述文档页面的目标页面类型。

一种电子设备，包括：

存储器，用于存储应用程序和所述应用程序所产生的数据；

处理器，用于执行所述应用程序，以实现：获得待识别的目标文档，所述目标文档为PDF格式，且所述目标文档包含至少一个文档页面；获得所述文档页面中页面内容所在的内容区域；根据所述内容区域的区域参数，获得所述文档页面的初始页面类型；使用所述文档页面中的文字数据，筛选所述初始页面类型，以得到所述文档页面的目标页面类型。

从上述技术方案可以看出，本申请公开的一种文档识别方法、装置及电子设备，在获得到包含至少一个文档页面的PDF文档之后，通过对文档页面中页面内容所在的内容区域进行识别，进而根据内容区域的区域参数识别文档页面的初始页面类型，之后，再使用文档页面中的文字数据对初始页面类型进行筛选，进而得到文档页面的目标页面类型。可见，本申请中通过内容区域以及内容中的文字实现页面类型的识别，从而避免使用识别模型无法识别页面类型导致识别结果错误的情况，从而提高识别的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的一种文档识别方法的流程图；

图2-图5分别为本申请实施例的应用示例图；

图6为本申请实施例一提供的一种文档识别方法的部分流程图；

图7为本申请实施例中字典树的结构示例图；

图8为本申请实施例一提供的一种文档识别方法的另一部分流程图；

图9为本申请实施例中联合训练的示意图；

图10为本申请实施例二提供的一种文档识别装置的结构示意图；

图11为本申请实施例三提供的一种电子设备的结构示意图；

图12为本申请适用于服务器进行PDF文档类型识别的模型结构图；

图13为本申请中模型训练中的输入图片示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考图1所示，为本申请实施例一提供的一种文档识别方法的实现流程图，该方法可以适用于能够进行数据处理的电子设备中，如计算机或服务器等。本实施例中的技术方案主要用于提高对PDF文档的识别准确率。

具体的，本实施例中的方法可以包含如下步骤：

步骤101：获得待识别的目标文档。

其中，目标文档为PDF格式，且目标文档包含至少一个文档页面。例如，如图2中所示，目标文档为包含有多个页面，每个页面中均有内容。

具体实现中，本实施例中可以在服务器上的存储区域中进行文档读取，从而获得到待识别的PDF格式的原始文档，服务器上的存储区域中所存储的原始文档可以由用户通过终端利用与服务器之间的http连接上传到服务器；之后，将读取到的原始文档进行格式转换，如转换成二进制格式，以便于后续进行处理；最后，再将二进制格式的原始文档按照页面进行拆分，以得到至少一个文档页面，由此得到目标文档。

步骤102：获得文档页面中页面内容所在的内容区域。

其中，内容区域即为文档页面中所包含的页面内容所在的位置区域，如图3中所示，粗线框所对应的区域为内容区域。具体实现中，本实施例可以通过每个文档页面进行内容边缘的识别，从而获得到相应的内容区域。

在一种实现方式中，本实施例中可以通过以下方式获得内容区域：

首先，对文档页面中的像素点进行灰度处理，例如，灰度处理后的文档页面中每个像素点的灰度值的范围是0-255，其中0为黑色，255为白色；

然后，获得文档页面的整体平均灰度值和文档页面中所包含的多个像素区域的区域平均灰度值，这里的像素区域为对文档页面进行像素点划分所得到的区域，每个像素区域中包含多个像素点。例如，如图4中所示，对于 2048*2048的文档页面按照20*20的大小进行区域划分，以得到多个像素区域，基于此，将文档页面中所有像素点的灰度值进行加和求平均，以得到整体平均灰度值，并且，分别对文档页面中的每个像素区域中的像素点的灰度值进行加和求平均，以得到每个像素区域各自的区域平均灰度值；

最后，筛选出区域平均灰度值大于整体平均灰度值的目标像素区域，这些目标像素区域即为文档页面内页面内容所在的相似区域，再根据这些目标像素区域，获得文档页面中页面内容所在的内容区域，例如，将这些目标像素区域进行区域组合，由此得到内容区域；或者，也可以先筛选出区域平均灰度值小于整体平均灰度值的像素区域，这些像素区域为非页面内容的区域，即边缘区域，基于此，文档页面中除了这些边缘区域之外的区域即为目标像素区域，由此将这些目标像素区域进行区域组合后，得到内容区域。

步骤103：根据内容区域的区域参数，获得文档页面的初始页面类型。

其中，区域参数可以包括多个维度上的参数，如内容区域在所属文档页面中的面积比例参数、内容区域在所属文档页面中的区域位置参数和内容区域的区域形状参数，等等。面积比例参数是指内容区域的面积与其所属文档页面的面积之间的比例值，如20％或80％等；区域位置参数是指内容区域的位置在其所属文档页面中的相对位置，如中间位置或偏上位置等；区域形状参数是指内容区域的轮廓类型、轮廓尺寸等参数，如长为10厘米宽为5厘米的长方形等。

基于此，本实施例中通过内容区域的区域参数，对文档页面的页面类型进行初步筛选，从而得到文档页面的初始页面类型。初始页面类型可以有多个，如身份证类型、客户登记表类型、机动车行驶证、信用卡登记表等类型。

具体的，本实施例中可以按照各个预设的页面类型各自所对应的类型参数，对区域参数进行分类，从而得到区域参数所匹配的所有类型参数，这些类型参数所属的页面类型即为文档页面的初始页面类型。

例如，本实施例中将区域参数与预设的页面类型的类型参数进行比对，将参数相似度满足相似条件的类型参数筛选出来，即得到与区域参数相匹配的目标类型参数，这些目标类型参数对应的页面类型即为文档页面的初始页面类型。

这里的参数相似度满足相似条件可以包含有：面积比例参数的值与类型参数中面积比例的值之间的差值小于差值阈值、区域位置参数中的相对坐标与类型参数中区域位置的左边之间的坐标距离小于坐标阈值、区域形状参数中的轮廓与类型参数中的轮廓之间的相似度大于相似阈值等等。

步骤104：使用文档页面中的文字数据，筛选初始页面类型，以得到文档页面的目标页面类型。

具体的，本实施例中可以使用文档页面中的文字数据，对初步筛选出的初始页面类型进行再次筛选，将与文字数据相匹配的初始页面类型确定为文档页面的目标页面类型。

需要说明的是，本实施例中是针对目标文档中的每个文档页面分别进行类型识别的，因此，在目标文档中包含多个文档页面的情况下，目标文档可能会被识别出多个页面类型。例如，如图5中所示，在4页的PDF文档中，识别出第一个文档页面为客户数据登记表的页面类型，第三个页面类型为身份证的页面类型。

由上述方案可知，本申请实施例一提供的一种文档识别方法中，在获得到包含至少一个文档页面的PDF文档之后，通过对文档页面中页面内容所在的内容区域进行识别，进而根据内容区域的区域参数识别文档页面的初始页面类型，之后，再使用文档页面中的文字数据对初始页面类型进行筛选，进而得到文档页面的目标页面类型。可见，本实施例中通过内容区域以及内容中的文字实现页面类型的识别，从而避免使用识别模型无法识别页面类型导致识别结果错误的情况，从而提高识别的准确性。

在一种实现方式中，步骤104中使用文档页面中的文字数据，筛选初始页面类型，以得到文档页面的目标页面类型时，具体可以通过以下方式实现，如图6中所示：

步骤601：对文档页面进行文字识别，以得到文档页面中的文字数据。

其中，本实施例中可以通过文字识别算法或基于机器学习的神经网络模型对文档页面进行文字识别，以得到文档页面中的文字数据。

需要说明的是，本实施例中为了保证后续类型识别的准确性，可以对文档页面中的所有字符进行文字识别，以得到文档页面中的所有字符所组成的文字数据；或者，本实施例中为了提高减少数据处理量，以提高效率，可以只对文档页面中的部分区域的文字进行识别，如内容区域的三分之一或一半等，由此得到文档页面中的部分字符所组成的文字数据。

步骤602：将文字数据与初始页面类型对应的类型关键词进行比对，以得到文档页面的目标页面类型。

其中，类型关键词可以包含一个或多个关键字。如身份证类型的类型关键词有：“居民身份证”、“签发机关”和“地址”等关键词；再如，客户数据登记表类型的类型关键词有：“客户数据登记表”、“姓名”、“住址”、 “联系电话”和“业务类型”等关键词。

在一种实现方式中，步骤602中可以将文字数据中的字符与类型关键词中的关键字进行比对，从而将关键字与文字数据中的字符之间的匹配度满足匹配条件的类型关键词所属的初始页面类型确定为文档页面的目标页面类型。

具体实现中，可以针对每个页面类型的类型关键词建立对应的字典树。例如，以先将关键词拆分为2-3个字的片段，对于关键词“客户数据登记表”，可拆分为“客户”、“户数”、“数据”、“据登”、“登记”、“记表”、 “客户数”、“户数据”、“数据登”、“据登记”、“登记表”等片段。然后用这些片段生成字典树，如图7中所示。通过关键词生成的字典树进行字符匹配能够提高关键词匹配速度和模糊匹配的能力。

基于此，步骤602中可以先将文字数据与字典树进行匹配，从而得到关键词匹配结果，例如，将文字数据中的每条语句中的字符依次与每个类型关键词进行匹配，以得到文字数据与每个初始页面类型的各个类型关键词所建立的字典树之间的关键词匹配结果，该关键词匹配结果表征文字数据是否与字典树相匹配，例如，在字典树中所包含的字段在文字数据中有匹配字符的个数达到个数阈值的时候，就可以认为文字数据与该字典树相匹配；基于此，在关键词匹配结果表征文字数据与字典树相匹配的情况下，将字典树对应的类型关键词所属的初始页面类型确定为文档页面的目标页面类型。

例如，将文字数据中的字符与“客户数据登记表”的字典树进行匹配，如果“客户数据登记表”的字典树中的字段有10个字段在文字数据中有相匹配的字符，那么可以确定文字数据是与“客户数据登记表”这个类型关键词相匹配的，此时，将文字数据所属的文档页面的页面类型确定为“客户数据登记表”所属的页面类型，即客户数据登记表的类型。

在一种实现方式中，步骤601中可以通过以下方式实现：

首先，使用计算机视觉识别模型对文档页面进行文字识别，以得到第一文本向量序列，第一文本向量序列中包含有至少一个文本向量；这里的计算机视觉识别模型可以基于神经网络构建，并使用多组训练样本进行训练得到；具体的，计算机视觉识别模型以样本图像为输入并以样本向量序列为输出进行训练得到，样本向量序列为针对样本图像由人工进行标注或审核的准确的文本向量序列；

然后，使用自然语言纠错模型对第一文本向量序列进行纠错处理，以得到第二文本向量序列，第二文本向量序列中包含有至少一个文本向量；这里的自然语言纠错模型可以基于神经网络构建，并使用多组训练样本进行训练得到；具体的，自然语言纠错模型以第一文本样本的文本向量序列为输入，以第二文本样本的文本向量序列为输出进行训练得到，而第一文本样本通过对第二文本样本中的字符进行替换得到；例如，将一条正确的语句中的字符进行相似字符的替换，从而将得到的新语句作为该正确的语句的负样本，形成自然语言纠错模型的训练样本；

之后，将第一文本向量序列中的文本向量和第二文本向量序列中的文本向量进行向量融合，以得到目标文本向量序列；例如，按照文本向量在序列中的次序将第一文本向量序列中的文本向量和在第二文本向量序列中相对应的文本向量进行向量相加，由此得到每个次序上的文本向量，由此组成目标文本向量序列；

最后，根据目标文本向量序列，获得文档页面中的文字数据，例如将目标文本向量序列中的每个文本向量进行字符转换以及归一化处理，如图7中所示，以得到每个文本向量对应的文字，由此所得到的文字组成文档页面中的文字数据。

进一步的，本实施例中除了按照以上方式对计算机视觉识别模型和自然语言纠错模型分别进行单独的训练之外，还可以使用训练样本对这两个模型进行联合训练，联合训练的方式如图8中所示：

步骤801：将样本图像输入计算机视觉识别模型，以得到计算机视觉识别模型输出的第一样本文本向量序列，第一样本文本向量序列中包含有多个文本向量；

步骤802：将第一样本文本向量序列输入自然语言纠错模型，以得到自然语言纠错模型输出的第二样本文本向量序列，第二样本文本向量序列中包含多个文本向量；

步骤803：将第一样本文本向量序列和第二样本文本向量序列进行向量融合，如按照文本向量进行向量相加等，以得到目标样本文本向量序列，目标样本文本向量序列中包含多个文本向量；

步骤804：获得样本向量序列和目标样本文本向量序列之间的损失函数值；

例如，本实施例中可以使用交叉熵函数作为损失函数，由此得到样本向量序列和目标样本文本向量序列之间的损失函数值，该损失函数值表征样本向量序列与目标样本文本型向量序列之间的差异。

例如，以Y＝(y₁，...，y_k)表示目标样本文本向量序列，以P＝(p₁，...，p_k)表示样本向量序列，由此，损失函数值L的计算方法如公式(1)所示：

步骤805：判断损失函数值是否满足收敛条件，如果损失函数值不满足收敛条件，执行步骤806，如果损失函数值满足收敛条件，则结束当前训练的流程。

其中，收敛条件可以为：损失函数值低于损失阈值或者损失函数值的变化量小于变化阈值，如损失函数值趋近于0。

步骤806：根据损失函数值对计算机视觉识别模型的模型参数和自然语言纠错模型的模型参数进行调整，如图9中所示，之后，再返回执行步骤801，以将样本图像输入计算机视觉识别模型，以得到计算机视觉识别模型输出的第一样本文本向量序列，直到损失函数值满足收敛条件。

具体的，本实施例中可以根据损失函数值对两个模型的神经网络中的各层权重参数进行调高或调低，以使得损失函数值被降低，直到满足收敛条件。

参考图10所示，为本申请实施例二提供的一种文档识别装置的结构示意图，该装置可以配置在能够进行数据处理的电子设备中，如计算机或服务器等。本实施例中的技术方案主要用于提高对PDF文档的识别准确率。

具体的，本实施例中的装置可以包含如下单元：

文档获得单元1001，用于获得待识别的目标文档，所述目标文档为PDF 格式，且所述目标文档包含至少一个文档页面；

区域获得单元1002，用于获得所述文档页面中页面内容所在的内容区域；

初始获得单元1003，用于根据所述内容区域的区域参数，获得所述文档页面的初始页面类型；

类型筛选单元1004，用于使用所述文档页面中的文字数据，筛选所述初始页面类型，以得到所述文档页面的目标页面类型。

由上述方案可知，本申请实施例二提供的一种文档识别装置，在获得到包含至少一个文档页面的PDF文档之后，通过对文档页面中页面内容所在的内容区域进行识别，进而根据内容区域的区域参数识别文档页面的初始页面类型，之后，再使用文档页面中的文字数据对初始页面类型进行筛选，进而得到文档页面的目标页面类型。可见，本实施例中通过内容区域以及内容中的文字实现页面类型的识别，从而避免使用识别模型无法识别页面类型导致识别结果错误的情况，从而提高识别的准确性。

在一种实现方式中，所述区域参数包括所述内容区域在所属文档页面中的面积比例参数、所述内容区域在所属文档页面中的区域位置参数和所述内容区域的区域形状参数；其中，初始获得单元1003具体用于：将所述区域参数与预设的页面类型的类型参数进行比对，以得到与所述区域参数相匹配的目标类型参数，所述目标类型参数对应的页面类型为所述文档页面的初始页面类型。

在一种实现方式中，类型筛选单元1004具体用于：对所述文档页面进行文字识别，以得到所述文档页面中的文字数据；将所述文字数据与所述初始页面类型对应的类型关键词进行比对，以得到所述文档页面的目标页面类型。

可选的，所述类型关键词对应有字典树；

其中，类型筛选单元1004具体用于：将所述文字数据与所述字典树进行匹配，以得到关键词匹配结果，所述关键词匹配结果表征所述文字数据是否与所述字典树相匹配；在所述关键词匹配结果表征所述文字数据与所述字典树相匹配的情况下，将所述字典树对应的类型关键词所属的初始页面类型确定为所述文档页面的目标页面类型。

具体实现中，类型筛选单元1004在对所述文档页面进行文字识别，以得到所述文档页面中的文字数据时，具体用于：使用计算机视觉识别模型对所述文档页面进行文字识别，以得到第一文本向量序列，所述第一文本向量序列中包含至少一个文本向量；使用自然语言纠错模型对所述第一文本向量序列进行纠错处理，以得到第二文本向量序列，所述第二文本向量序列中包含至少一个文本向量；将所述第一文本向量序列中的文本向量和所述第二文本向量序列中的文本向量进行向量融合，以得到目标文本向量序列；根据所述目标文本向量序列，获得所述文档页面中的文字数据。

其中，所述计算机视觉识别模型以样本图像为输入，以样本向量序列为输出进行训练得到；所述自然语言纠错模型以第一文本样本的文本向量序列为输入，以第二文本样本的文本向量序列为输出进行训练得到，所述第一文本样本通过对所述第二文本样本中的字符进行替换得到；

可选的，所述计算机视觉识别模型和所述自然语言纠错模型通过以下方式进行联合训练：

将所述样本图像输入所述计算机视觉识别模型，以得到所述计算机视觉识别模型输出的第一样本文本向量序列；将所述第一样本文本向量序列输入所述自然语言纠错模型，以得到所述自然语言纠错模型输出的第二样本文本向量序列；将所述第一样本文本向量序列和所述第二样本文本向量序列进行向量融合，以得到目标样本文本向量序列；获得所述样本向量序列和所述目标样本文本向量序列之间的损失函数值；根据所述损失函数值对所述计算机视觉识别模型的模型参数和所述自然语言纠错模型的模型参数进行调整，返回执行所述将所述样本图像输入所述计算机视觉识别模型，以得到所述计算机视觉识别模型输出的第一样本文本向量序列，直到所述损失函数值满足收敛条件。

在一种实现方式中，区域获得单元1002具体用于：对所述文档页面中的像素点进行灰度处理；获得所述文档页面的整体平均灰度值；获得所述文档页面中所包含的多个像素区域的区域平均灰度值，所述像素区域为对所述文档页面进行像素点划分所得到的区域，所述像素区域包含多个像素点；筛选出所述区域平均灰度值大于所述整体平均灰度值的目标像素区域；根据所述目标像素区域，获得所述文档页面中页面内容所在的内容区域。

在一种实现方式中，文档获得单元1001具体用于：获得待识别的原始文档；将所述原始文档转换为二进制格式；对二进制格式的原始文档按照页面进行拆分，以得到至少一个文档页面。

需要说明的是，本实施例中各单元的具体实现可以参考前文中的相应内容，此处不再详述。

参考图11，为本申请实施例三提供的一种电子设备的结构示意图，该电子设备可以为能够进行数据处理的电子设备，如计算机或服务器等。本实施例中的技术方案主要用于提高对PDF文档的识别准确率。

具体的，本实施例中的电子设备可以包含如下结构：

存储器1101，用于存储应用程序和所述应用程序所产生的数据；

处理器1102，用于执行所述应用程序，以实现：获得待识别的目标文档，所述目标文档为PDF格式，且所述目标文档包含至少一个文档页面；获得所述文档页面中页面内容所在的内容区域；根据所述内容区域的区域参数，获得所述文档页面的初始页面类型；使用所述文档页面中的文字数据，筛选所述初始页面类型，以得到所述文档页面的目标页面类型。

从上述技术方案可以看出，本申请实施例三公开的一种电子设备，在获得到包含至少一个文档页面的PDF文档之后，通过对文档页面中页面内容所在的内容区域进行识别，进而根据内容区域的区域参数识别文档页面的初始页面类型，之后，再使用文档页面中的文字数据对初始页面类型进行筛选，进而得到文档页面的目标页面类型。可见，本申请中通过内容区域以及内容中的文字实现页面类型的识别，从而避免使用识别模型无法识别页面类型导致识别结果错误的情况，从而提高识别的准确性。

以电子设备为图形处理器GPU(graphics processing unit)服务器为例， GPU服务器对外提供请求接口，用户可以通过http请求上传PDF文档，基于本申请的算法在服务器上将PDF文档解析识别后，返回页面类型的识别结果，具体流程如下：

1、收到一个PDF文档Base64编码，将数据解码为二进制文件数据。之所以需要进行解码，是因为使用Base64编码传输数据，更加安全和方便，在经过解码后，能够进行识别处理。

2、读取PDF扫描文档数据，并将其中的每一页拆分成JPG图片，即前文中的文档页面。

3、使用边缘识别方法获取每个文档页面的实际的内容区域。具体的方法：先将图片转为灰度图，计算整个页面的平均灰度值；之后，从上下左右四个方向，分别开始向内依次计算20x20像素区域的平均灰度值，如果该值小于整页的平均灰度值，则认为找到了内容区域的边界。通过此方案找到内容区域在页面中的位置。

4、计算内容区域面积相对于整个文档的大小、内容区域的位置、形状等特征，来初步分类文档，以得到文档页面的初始页面类型。例如内容区域的面积小于页面面积的一半时，认为该页面可能是身份证复印件，而不可能是某些文档首页。

5、使用计算机视觉识别模型即文字识别模型，分别识别每一页的文字内容。而考虑到速度的问题，可以不识别整页的文字，根据实际业务情况，本实施例中可以只识别了内容区域上三分之一的文字。此外，为了提高识别率，本实施例中对文字识别模型优化，将计算机视觉识别模型和自然语言纠错模型相结合，形成了一个新的端到端模型。

6、页面类型的进一步筛选识别。本实施例中可以在上一步识别出的文字中，匹配预设的关键字，来判断页面类型。

比如，客户数据登记表类型的文档，预设的关键字有“客户数据登记表”、 “客户姓名”、“居住地址”等等；身份证扫描件，预设的关键字有“居民身份证”、“签发机关”，“有效期限”等等。对于不同页面类型的关键词，可以通过建立字典树的方式提高匹配效率，具体参考前文中图7及相关内容。由此，通过关键字生成的字典树匹配每一页待识别文档中的每一条的文字内容。这样可以大大的提高关键字匹配速度和模糊匹配的能力。

7、相关页面对应的关键字的字段匹配成功次数最多的字典树对应的类型即为当前页码的页面类型。例如，身份证扫描件，匹配预设关键字“居民身份证”，“签发机关”，“有效日期”等生成的字典树，匹配次数最多的是 PDF文档的第10页，则认为第10页是身份证扫描件。

8、返回页面类型识别结果数据给请求方。

以下对优化的文字识别模型的训练进行说明：

1、模型结构

模型结构如图12中所示。模型主要分为两部分：计算机视觉识别模型和自然语言纠错模型。

计算机视觉识别模型的输入，是包含文字的RGB图像；输出是多行文本向量序列，序列中除了包含文本向量，还可以有文本框的坐标。计算机视觉识别模型可以选取不同的模型。本实施例中的计算机视觉识别模型可以是 Mask TextSpotter v3，该模型使用分割候选网络(Segmentation Proposal Network)生成多边形文本候选区域，同时与文字识别共享了基础图像特征提取结果，实现了一次性完成文字区域检测和文字识别的方法。

自然语言纠错模型的输入，是纠错前的多行文本向量序列；输出是经过模型纠错的多行文本向量序列。自然语言纠错部分也可以选择不同的模型，本实施例中可以使用语义表示模型ERNIE(Enhanced Representation from kNowledge IntEgration)，它可以很好的从文本序列中捕获语义模式，在已经通过海量数据训练的模型基础上，经过微调就可以提升各种自然语言处理任务的性能。

完整的文字识别模型的输入，即联合训练时的计算机视觉识别模型和自然语言纠错模型的输入，是包含文字的RGB图像；输出是自然语言纠错模型和计算机视觉识别模型融合的多行文本向量序列。从而，实现了端到端解决文本检测、识别、纠错的模型。

计算机视觉识别模型和自然语言纠错模型结合的关键在于融合层的设计。本实施例中可以使用结果向量相加的方式实现融合层。再进一步的联合训练微调的方式，就可以实现功能的串联，以X＝X_v+X_n表示融合后的文本向量序列，X_v表示计算机视觉识别模型输出的向量序列，X_n表示自然语言纠错模型输出的向量序列，这一结果需要进行归一化处理，基于此可以通过 Softmax函数计算得到输出层Y，如下公式(2)：

在模型进行训练过程中，可以通过一个损失函数来衡量模型当前输出的分布与真实分布之间的差距。本实施例中可以使用交叉熵作为损失函数。训练数据的标签为P，损失函数的计算方法如公式(1)中所示。

2、训练方法

由于计算机视觉识别模型和自然语言纠错模型对训练数据集合要求的侧重点不同，需要做不同的训练数据增强。所以，本实施例中可以先分别对两个模型进行预训练，再进行联合训练，以精调模型。只要联合训练中的字符字典保持一致，就可以达到分步训练，得到更好模型的效果。

首先，训练计算机视觉识别模型，得到预训练模型。训练数据示例：

如图13所示，输入带文字的图片，基于此，计算机视觉识别模型输出文字框坐标和文字内容，如：

[{'text':'A主席在第十三届B论坛上的主题演讲',

'text_region':[[24,18],[395,17],[395,31],[24,32]]},

{'text':'Z集中修改、废止部分证券期货制度文件',

'text_region':[[20,94],[368,94],[368,109],[20,109]]},

{'text':'Z公布《资产管理产品介绍要素第2部',

'text_region':[[21,127],[361,127],[361,143],[21,143]]},

{'text':'Z组织升展基础设施领域不动产投资信',

'text_region':[[20,160],[365,160],[365,174],[20,174]]},

{'text':'Z对十四件证明事项实行告知承诺制',

'text_region':[[23,192],[369,192],[369,207],[23,207]]},

{'text':'Z公布首批证券公司“白名单',

'text_region':[[21,225],[279,224],[280,238],[21,239]]},

{'text':'Z发布离职人员入股行为监',

'text_region':[[23,258],[365,258],[365,272],[23,272]]}]

然后，自然语言纠错模型，纠错的类型一般来说包括形似、音似、缺字等，但对于当前的场景，只需要考虑字符形似的错识情况。因此，本实施例中获得训练样本时，可以对搜集到的语料库进行处理，将句子中的每个字依次替换为相似字符(根据第一步得到的相似字符列表)，作为输入数据，原句作为标签数据，生成自然语言纠错模型训练数据集。训练数据示例：

输入带形近字错误的文本：“Z集中修改、废止部分证券斯货制度文件”。自然语言纠错模型输出正确的文本：“Z集中修改、废止部分证券期货制度文件”。

在此数据集上进行预训练，得到自然语言纠错模型的预训练模型。

最后，再将两个预训练模型，按照前文介绍的结构进行组合，使用带文字的图片数据集，进行进一步的精调训练，最终得到一个可用的端到端文字识别模型。

综上，本申请的技术方案针对以下各问题进行解决：

(1)针对文档类型识别方法，可扩展性差和识别率低的问题

本申请基于文字识别算法，先对文档中每一页的文字内容进行识别，然后使用基于字典树的关键字匹配算法，在文档内容中进行匹配，找到匹配度最高的页面。关键字和对应的页面是可配置的，这样就解决了直接使用图像识别页面类型时，可识别的页面类型不易扩展的问题，增加了页面识别方法的灵活性。

(2)针对文字识别算法，复杂模糊的文字容易错识的问题

本申请结合计算机视觉识别模型和自然语言模型，采用先分别预训练再联合训练的方式，实现了文字检测、识别、校准的端到端的解决方案。能够有效的改善复杂模糊文字容易错识的问题。相对于主流的文字识别模型，创新型地引入了语言模型，根据上下文进行推测，增加了文字判断的依据，从而提高了整体文字的识别率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文档识别方法，其特征在于，所述方法包括：

获得所述文档页面中页面内容所在的内容区域；

2.根据权利要求1所述的方法，其特征在于，所述区域参数包括所述内容区域在所属文档页面中的面积比例参数、所述内容区域在所属文档页面中的区域位置参数和所述内容区域的区域形状参数；

3.根据权利要求1或2所述的方法，其特征在于，使用所述文档页面中的文字数据，筛选所述初始页面类型，以得到所述文档页面的目标页面类型，包括：

4.根据权利要求3所述的方法，其特征在于，所述类型关键词对应有字典树；

5.根据权利要求3所述的方法，其特征在于，对所述文档页面进行文字识别，以得到所述文档页面中的文字数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述计算机视觉识别模型以样本图像为输入，以样本向量序列为输出进行训练得到；所述自然语言纠错模型以第一文本样本的文本向量序列为输入，以第二文本样本的文本向量序列为输出进行训练得到，所述第一文本样本通过对所述第二文本样本中的字符进行替换得到；

7.根据权利要求1或2所述的方法，其特征在于，获得所述文档页面中页面内容所在的内容区域，包括：

对所述文档页面中的像素点进行灰度处理；

获得所述文档页面的整体平均灰度值；

8.根据权利要求1或2所述的方法，其特征在于，所述获得待识别的目标文档，包括：

获得待识别的原始文档；

将所述原始文档转换为二进制格式；

9.一种文档识别装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括：

存储器，用于存储应用程序和所述应用程序所产生的数据；