CN114973248B

CN114973248B - 基于ocr识别的pdf识别方法

Info

Publication number: CN114973248B
Application number: CN202210550788.8A
Authority: CN
Inventors: 余丹; 兰雨晴; 王尧甘; 刘玮; 彭建强
Original assignee: China Standard Intelligent Security Technology Co Ltd
Current assignee: China Standard Intelligent Security Technology Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2023-03-24
Anticipated expiration: 2042-05-18
Also published as: CN114973248A

Abstract

本发明的实施例公开基于OCR识别的PDF识别方法，涉及文字识别技术领域。所述方法，包括：调用多种OCR识别技术对目标PDF文档的每个字节进行识别，得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串；根据预设选择策略，从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串；将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出，得到目标PDF文档的识别结果。本发明能有效地提高PDF文件中文字识别的准确度。

Description

基于OCR识别的PDF识别方法

技术领域

本发明属于文字识别技术领域，尤其涉及基于OCR识别的PDF识别方法。

背景技术

便携式文档格式(PDF：Portable Document Format)，可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中，具有扩平台性、支持多种文件格式互转、压缩比较高、不可编辑等优点，逐渐成为出版业中的新宠。对一些PDF读者而言，有时需要对PDF文件进行编辑，但是PDF文件是不支持直接编辑的。目前对PDF文件的编辑方案是采用PDF文件转换方法，首先利用WPS或微软自带软件，将PDF文件转换成可以编辑的文档(如word文档)，从而实现对PDF文件的修改。但是使用WPS或微软自带软件进行PDF文件转换，转换过程较为繁琐且存在文件乱码风险，识别准确率不高。

发明内容

有鉴于此，本发明实施例提供基于OCR识别的PDF识别方法，用于解决现有PDF文件转换方法，转换过程较为繁琐且识别准确率低的问题。本发明使用多种OCR识别技术对PDF文档的每个字节进行识别，得到最优的识别结果，有效地提高了PDF文件中文字识别的准确度，避免了PDF文件转换出现文件乱码的情况。

本发明实施例提供基于OCR识别的PDF识别方法，包括：

调用多种OCR识别技术对目标PDF文档的每个字节进行识别，得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串；

根据预设选择策略，从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串；其中，i＝1,2,…,R；R为目标PDF文档的字节总数；

将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出，得到目标PDF文档的识别结果。

在一可选实施例中，所述根据预设选择策略，从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串，包括：

判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同；

若所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串全部相同，则将该相同的字符串确定为所述目标PDF文档的第i个字节对应的最优字节字符串。

在一可选实施例中，在判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同之后，还包括：

若所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串不全部相同，则筛选出所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中重复次数最多的字符串；

将筛选出的重复次数最多的字符串组成所述目标PDF文档的第i个字节对应的最优字节字符串数组；

判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1；

若所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数等于1，则将所述目标PDF文档的第i个字节对应的最优字节字符串数组中的唯一元素确定为所述目标PDF文档的第i个字节对应的最优字节字符串。

在一可选实施例中，在判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1之后，还包括：

若所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数不等于1，则获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值；

根据所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值，确定所述目标PDF文档的第i个字节对应的最优字节字符串。

在一可选实施例中，在所述调用多种OCR识别技术对目标PDF文档的每个字节进行识别之前，还包括：

预先设置每种OCR识别技术的权重值；

所述获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值，包括：

获取预先设置的所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值。

在一可选实施例中，在所述将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出，得到目标PDF文档的识别结果之后，还包括：

根据所述目标PDF文档的所有字节各自对应的最优字节字符串，更新已记录的每种OCR识别技术的权重值；其中，每种OCR识别技术的权重值的初始值为0。

在一可选实施例中，所述判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同，包括：

计算预设算式的值；

判断所述预设算式的值是否等于0；

若所述预设算式的值等于0，则判定所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串全部相同；

若所述预设算式的值不等于0，则判定所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串不全部相同；

其中，所述预设算式为：

所述根据所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值，确定所述目标PDF文档的第i个字节对应的最优字节字符串，包括：

根据第一公式确定所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号；

根据当前确定的元素序号获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的相应元素，作为所述目标PDF文档的第i个字节对应的最优字节字符串并将其记做C(i)；

所述第一公式为：

所述第一公式中，y(i)表示所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号；A(i,x,k)表示所述目标PDF文档的第i个字节对应的最优字节字符串数组中第x个元素对应的第k种OCR识别技术的唯一标识；G[]表示已记录的括号内唯一标识对应OCR识别技术的最新权重值；G[A(i,x,k)]表示已记录的所述目标PDF文档的第i个字节对应的最优字节字符串数组中第x个元素对应的第k种OCR识别技术的最新权重值；k＝1,2,…,m(i_x)；m(i_x)表示所述目标PDF文档的第i个字节对应的最优字节字符串数组中第x个元素对应的OCR识别技术的总数；x＝1,2,…,H(i)；H(i)表示所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数；

表示将x的值从1取值到H(i)得到使括号内取得最大值时的x值；

所述根据所述目标PDF文档的所有字节各自对应的最优字节字符串，更新已记录的每种OCR识别技术的权重值，包括：

根据以下第二公式更新已记录的每种OCR识别技术的权重值：

所述第二公式中，G(OCR_a)′表示已记录的所述多种OCR识别技术中第a种OCR识别技术的权重值更新后的最新权重值；G(OCR_a)表示在使用第二公式计算前已记录的所述多种OCR识别技术中第a种OCR识别技术的最新权重值；δ()表示零检验函数，若括号内的数值为0则函数值为1，若括号内的数值不为0则函数值为0。

在一可选实施例中，所述根据第一公式确定所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号，还包括：

若根据第一公式确定出多个元素序号，则将当前确定出的多个元素序号中数值最小的元素序号作为所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号。

本发明提供的基于OCR识别的PDF识别方法，首先调用多种OCR识别技术对目标PDF文档的每个字节进行识别，得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串，接着根据预设选择策略，从每个字节识别出的字符串集合中获得目标PDF文档的每个字节对应的最优字节字符串，最后将最优字节字符串进行顺序组合，即可得到目标PDF文档的识别结果。本发明能够使用多种OCR识别技术对PDF文档的每个字节进行识别，从而有效地提高了PDF文件中文字识别的准确度，避免了PDF文件转换出现文件乱码的情况。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的基于OCR识别的PDF识别方法流程图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于OCR识别的PDF识别方法流程图。参见图1，该方法包括如下步骤S101-S103：

S101：调用多种OCR识别技术对目标PDF文档的每个字节进行识别，得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串。

S102：根据预设选择策略，从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串。

其中，i＝1,2,…,R；R为目标PDF文档的字节总数。

S103：将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出，得到目标PDF文档的识别结果。

上述技术方案的有益效果为：首先调用多种OCR识别技术对目标PDF文档的每个字节进行识别，得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串，接着根据预设选择策略，从每个字节识别出的字符串集合中获得目标PDF文档的每个字节对应的最优字节字符串，最后将最优字节字符串进行顺序组合，即可得到目标PDF文档的识别结果。本发明能够使用多种OCR识别技术对PDF文档的每个字节进行识别，从而有效地提高了PDF文件中文字识别的准确度，避免了PDF文件转换为可编辑文件出现文件乱码的情况。

作为一可选实施例，步骤S102，可以包括以下步骤S1021-S1028：

S1021：判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同。是则执行S1022，否则执行S1023。

S1022：将该相同的字符串确定为所述目标PDF文档的第i个字节对应的最优字节字符串。

S1023：筛选出所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中重复次数最多的字符串。

S1024：将筛选出的重复次数最多的字符串组成所述目标PDF文档的第i个字节对应的最优字节字符串数组。

S1025：判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1，是则执行S1026，否则执行S1027。

S1026：将所述目标PDF文档的第i个字节对应的最优字节字符串数组中的唯一元素确定为所述目标PDF文档的第i个字节对应的最优字节字符串。

S1027：获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值。

S1028：根据所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值，确定所述目标PDF文档的第i个字节对应的最优字节字符串。

上述技术方案的有益效果为：从每个OCR识别技术识别出的PDF文件数据中每个字节的识别输出字符串集合中，筛选出最优字节字符串，进而利用多重OCR识别技术筛选出最优识别结果，保证了文字识别的准确性。

作为一可选实施例，步骤S101之前，还包括：预先设置每种OCR识别技术的权重值。

上述技术方案的有益效果为：为每个OCR识别技术设置权重值，此权重值从客观上反映了OCR识别技术的准确度，权重值越高，代表对应的OCR识别技术越准确，根据此权重值，从最优字节字符串数组中选择出最优字节字符串，保证了识别的准确性。

作为一可选实施例，步骤S103之后，还包括：根据所述目标PDF文档的所有字节各自对应的最优字节字符串，更新已记录的每种OCR识别技术的权重值；其中，每种OCR识别技术的权重值的初始值为0。

上述技术方案的有益效果为：根据目标PDF文档的所有字节各自对应的最优字节字符串，更新已记录的每种OCR识别技术的权重值，保证了每种OCR识别技术的权重值设置的准确性，便于后续根据权重值来挑选最优字节字符串，进一步的保证了文字识别的准确性。

作为一可选实施例，所述判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同，包括：

计算预设算式的值；

判断所述预设算式的值是否等于0；

若所述预设算式的值不等于0，则判定所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串全部相同；

其中，所述预设算式为：

根据第一公式确定所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号；优选地，本步骤还包括：若根据第一公式确定出多个元素序号，则将当前确定出的多个元素序号中数值最小的元素序号作为所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号。

所述第一公式为：

表示将x的值从1取值到H(i)得到使括号内取得最大值时的x值；

根据以下第二公式更新已记录的每种OCR识别技术的权重值：

上述技术方案的有益效果为：根据每个OCR识别技术识别的PDF文件数据中每个字节的识别输出字符串，筛选出最优字节字符串，进而实现了利用多重OCR识别技术筛选出最优识别结果，保证了文字识别的准确性；然后基于第一公式，根据每个OCR识别技术当前的识别权重值再从多个最优字节字符串中选择出一个最优字节字符串，从而在无法筛选出最优字节字符串时，利用每个OCR识别技术平时积累的权重来确定最优字节字符串，比较有说服力，增强了识别的可靠性；最后基于第二公式，根据最优字节字符串更新每种OCR识别技术的识别权重值，从而在每次识别结束后都对所述权重值进行更新，确保与时俱进将最优的OCR识别技术全部应用在所述PDF文档识别内。

从上述实施例的内容可知，首先调用多种OCR识别技术对目标PDF文档的每个字节进行识别，得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串；接着在识别出的字符串组中选择重复次数最多的字符串作为最优字节字符串，如果存在多个最优字节字符串时，则继续根据每个OCR识别技术当前的识别权重值再从多个最优字节字符串中选择出一个作为最优字节字符串，最后将最优字节字符串作为识别结果，有效地提高了PDF字节的识别准确度。最后基于第二公式，更新每种OCR识别技术的识别权重值，确保及时将最优的OCR识别技术全部应用在PDF文档识别内。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。