CN114973248B - 基于ocr识别的pdf识别方法 - Google Patents

基于ocr识别的pdf识别方法 Download PDF

Info

Publication number
CN114973248B
CN114973248B CN202210550788.8A CN202210550788A CN114973248B CN 114973248 B CN114973248 B CN 114973248B CN 202210550788 A CN202210550788 A CN 202210550788A CN 114973248 B CN114973248 B CN 114973248B
Authority
CN
China
Prior art keywords
byte
pdf document
target pdf
optimal
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210550788.8A
Other languages
English (en)
Other versions
CN114973248A (zh
Inventor
余丹
兰雨晴
王尧甘
刘玮
彭建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Standard Intelligent Security Technology Co Ltd
Original Assignee
China Standard Intelligent Security Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Standard Intelligent Security Technology Co Ltd filed Critical China Standard Intelligent Security Technology Co Ltd
Priority to CN202210550788.8A priority Critical patent/CN114973248B/zh
Publication of CN114973248A publication Critical patent/CN114973248A/zh
Application granted granted Critical
Publication of CN114973248B publication Critical patent/CN114973248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

本发明的实施例公开基于OCR识别的PDF识别方法,涉及文字识别技术领域。所述方法,包括:调用多种OCR识别技术对目标PDF文档的每个字节进行识别,得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串;根据预设选择策略,从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串;将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出,得到目标PDF文档的识别结果。本发明能有效地提高PDF文件中文字识别的准确度。

Description

基于OCR识别的PDF识别方法
技术领域
本发明属于文字识别技术领域,尤其涉及基于OCR识别的PDF识别方法。
背景技术
便携式文档格式(PDF:Portable Document Format),可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,具有扩平台性、支持多种文件格式互转、压缩比较高、不可编辑等优点,逐渐成为出版业中的新宠。对一些PDF读者而言,有时需要对PDF文件进行编辑,但是PDF文件是不支持直接编辑的。目前对PDF文件的编辑方案是采用PDF文件转换方法,首先利用WPS或微软自带软件,将PDF文件转换成可以编辑的文档(如word文档),从而实现对PDF文件的修改。但是使用WPS或微软自带软件进行PDF文件转换,转换过程较为繁琐且存在文件乱码风险,识别准确率不高。
发明内容
有鉴于此,本发明实施例提供基于OCR识别的PDF识别方法,用于解决现有PDF文件转换方法,转换过程较为繁琐且识别准确率低的问题。本发明使用多种OCR识别技术对PDF文档的每个字节进行识别,得到最优的识别结果,有效地提高了PDF文件中文字识别的准确度,避免了PDF文件转换出现文件乱码的情况。
本发明实施例提供基于OCR识别的PDF识别方法,包括:
调用多种OCR识别技术对目标PDF文档的每个字节进行识别,得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串;
根据预设选择策略,从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串;其中,i=1,2,…,R;R为目标PDF文档的字节总数;
将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出,得到目标PDF文档的识别结果。
在一可选实施例中,所述根据预设选择策略,从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串,包括:
判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同;
若所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串全部相同,则将该相同的字符串确定为所述目标PDF文档的第i个字节对应的最优字节字符串。
在一可选实施例中,在判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同之后,还包括:
若所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串不全部相同,则筛选出所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中重复次数最多的字符串;
将筛选出的重复次数最多的字符串组成所述目标PDF文档的第i个字节对应的最优字节字符串数组;
判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1;
若所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数等于1,则将所述目标PDF文档的第i个字节对应的最优字节字符串数组中的唯一元素确定为所述目标PDF文档的第i个字节对应的最优字节字符串。
在一可选实施例中,在判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1之后,还包括:
若所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数不等于1,则获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值;
根据所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,确定所述目标PDF文档的第i个字节对应的最优字节字符串。
在一可选实施例中,在所述调用多种OCR识别技术对目标PDF文档的每个字节进行识别之前,还包括:
预先设置每种OCR识别技术的权重值;
所述获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,包括:
获取预先设置的所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值。
在一可选实施例中,在所述将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出,得到目标PDF文档的识别结果之后,还包括:
根据所述目标PDF文档的所有字节各自对应的最优字节字符串,更新已记录的每种OCR识别技术的权重值;其中,每种OCR识别技术的权重值的初始值为0。
在一可选实施例中,所述判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同,包括:
计算预设算式的值;
判断所述预设算式的值是否等于0;
若所述预设算式的值等于0,则判定所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串全部相同;
若所述预设算式的值不等于0,则判定所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串不全部相同;
其中,所述预设算式为:
Figure BDA0003650627180000031
所述根据所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,确定所述目标PDF文档的第i个字节对应的最优字节字符串,包括:
根据第一公式确定所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号;
根据当前确定的元素序号获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的相应元素,作为所述目标PDF文档的第i个字节对应的最优字节字符串并将其记做C(i);
所述第一公式为:
Figure BDA0003650627180000041
所述第一公式中,y(i)表示所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号;A(i,x,k)表示所述目标PDF文档的第i个字节对应的最优字节字符串数组中第x个元素对应的第k种OCR识别技术的唯一标识;G[]表示已记录的括号内唯一标识对应OCR识别技术的最新权重值;G[A(i,x,k)]表示已记录的所述目标PDF文档的第i个字节对应的最优字节字符串数组中第x个元素对应的第k种OCR识别技术的最新权重值;k=1,2,…,m(i_x);m(i_x)表示所述目标PDF文档的第i个字节对应的最优字节字符串数组中第x个元素对应的OCR识别技术的总数;x=1,2,…,H(i);H(i)表示所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数;
Figure BDA0003650627180000042
表示将x的值从1取值到H(i)得到使括号内取得最大值时的x值;
所述根据所述目标PDF文档的所有字节各自对应的最优字节字符串,更新已记录的每种OCR识别技术的权重值,包括:
根据以下第二公式更新已记录的每种OCR识别技术的权重值:
Figure BDA0003650627180000043
所述第二公式中,G(OCRa)′表示已记录的所述多种OCR识别技术中第a种OCR识别技术的权重值更新后的最新权重值;G(OCRa)表示在使用第二公式计算前已记录的所述多种OCR识别技术中第a种OCR识别技术的最新权重值;δ()表示零检验函数,若括号内的数值为0则函数值为1,若括号内的数值不为0则函数值为0。
在一可选实施例中,所述根据第一公式确定所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号,还包括:
若根据第一公式确定出多个元素序号,则将当前确定出的多个元素序号中数值最小的元素序号作为所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号。
本发明提供的基于OCR识别的PDF识别方法,首先调用多种OCR识别技术对目标PDF文档的每个字节进行识别,得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串,接着根据预设选择策略,从每个字节识别出的字符串集合中获得目标PDF文档的每个字节对应的最优字节字符串,最后将最优字节字符串进行顺序组合,即可得到目标PDF文档的识别结果。本发明能够使用多种OCR识别技术对PDF文档的每个字节进行识别,从而有效地提高了PDF文件中文字识别的准确度,避免了PDF文件转换出现文件乱码的情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的基于OCR识别的PDF识别方法流程图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的基于OCR识别的PDF识别方法流程图。参见图1,该方法包括如下步骤S101-S103:
S101:调用多种OCR识别技术对目标PDF文档的每个字节进行识别,得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串。
S102:根据预设选择策略,从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串。
其中,i=1,2,…,R;R为目标PDF文档的字节总数。
S103:将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出,得到目标PDF文档的识别结果。
上述技术方案的有益效果为:首先调用多种OCR识别技术对目标PDF文档的每个字节进行识别,得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串,接着根据预设选择策略,从每个字节识别出的字符串集合中获得目标PDF文档的每个字节对应的最优字节字符串,最后将最优字节字符串进行顺序组合,即可得到目标PDF文档的识别结果。本发明能够使用多种OCR识别技术对PDF文档的每个字节进行识别,从而有效地提高了PDF文件中文字识别的准确度,避免了PDF文件转换为可编辑文件出现文件乱码的情况。
作为一可选实施例,步骤S102,可以包括以下步骤S1021-S1028:
S1021:判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同。是则执行S1022,否则执行S1023。
S1022:将该相同的字符串确定为所述目标PDF文档的第i个字节对应的最优字节字符串。
S1023:筛选出所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中重复次数最多的字符串。
S1024:将筛选出的重复次数最多的字符串组成所述目标PDF文档的第i个字节对应的最优字节字符串数组。
S1025:判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1,是则执行S1026,否则执行S1027。
S1026:将所述目标PDF文档的第i个字节对应的最优字节字符串数组中的唯一元素确定为所述目标PDF文档的第i个字节对应的最优字节字符串。
S1027:获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值。
S1028:根据所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,确定所述目标PDF文档的第i个字节对应的最优字节字符串。
上述技术方案的有益效果为:从每个OCR识别技术识别出的PDF文件数据中每个字节的识别输出字符串集合中,筛选出最优字节字符串,进而利用多重OCR识别技术筛选出最优识别结果,保证了文字识别的准确性。
作为一可选实施例,步骤S101之前,还包括:预先设置每种OCR识别技术的权重值。
所述获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,包括:
获取预先设置的所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值。
上述技术方案的有益效果为:为每个OCR识别技术设置权重值,此权重值从客观上反映了OCR识别技术的准确度,权重值越高,代表对应的OCR识别技术越准确,根据此权重值,从最优字节字符串数组中选择出最优字节字符串,保证了识别的准确性。
作为一可选实施例,步骤S103之后,还包括:根据所述目标PDF文档的所有字节各自对应的最优字节字符串,更新已记录的每种OCR识别技术的权重值;其中,每种OCR识别技术的权重值的初始值为0。
上述技术方案的有益效果为:根据目标PDF文档的所有字节各自对应的最优字节字符串,更新已记录的每种OCR识别技术的权重值,保证了每种OCR识别技术的权重值设置的准确性,便于后续根据权重值来挑选最优字节字符串,进一步的保证了文字识别的准确性。
作为一可选实施例,所述判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同,包括:
计算预设算式的值;
判断所述预设算式的值是否等于0;
若所述预设算式的值等于0,则判定所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串全部相同;
若所述预设算式的值不等于0,则判定所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串全部相同;
其中,所述预设算式为:
Figure BDA0003650627180000081
所述根据所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,确定所述目标PDF文档的第i个字节对应的最优字节字符串,包括:
根据第一公式确定所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号;优选地,本步骤还包括:若根据第一公式确定出多个元素序号,则将当前确定出的多个元素序号中数值最小的元素序号作为所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号。
根据当前确定的元素序号获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的相应元素,作为所述目标PDF文档的第i个字节对应的最优字节字符串并将其记做C(i);
所述第一公式为:
Figure BDA0003650627180000082
所述第一公式中,y(i)表示所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号;A(i,x,k)表示所述目标PDF文档的第i个字节对应的最优字节字符串数组中第x个元素对应的第k种OCR识别技术的唯一标识;G[]表示已记录的括号内唯一标识对应OCR识别技术的最新权重值;G[A(i,x,k)]表示已记录的所述目标PDF文档的第i个字节对应的最优字节字符串数组中第x个元素对应的第k种OCR识别技术的最新权重值;k=1,2,…,m(i_x);m(i_x)表示所述目标PDF文档的第i个字节对应的最优字节字符串数组中第x个元素对应的OCR识别技术的总数;x=1,2,…,H(i);H(i)表示所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数;
Figure BDA0003650627180000091
表示将x的值从1取值到H(i)得到使括号内取得最大值时的x值;
所述根据所述目标PDF文档的所有字节各自对应的最优字节字符串,更新已记录的每种OCR识别技术的权重值,包括:
根据以下第二公式更新已记录的每种OCR识别技术的权重值:
Figure BDA0003650627180000092
所述第二公式中,G(OCRa)′表示已记录的所述多种OCR识别技术中第a种OCR识别技术的权重值更新后的最新权重值;G(OCRa)表示在使用第二公式计算前已记录的所述多种OCR识别技术中第a种OCR识别技术的最新权重值;δ()表示零检验函数,若括号内的数值为0则函数值为1,若括号内的数值不为0则函数值为0。
上述技术方案的有益效果为:根据每个OCR识别技术识别的PDF文件数据中每个字节的识别输出字符串,筛选出最优字节字符串,进而实现了利用多重OCR识别技术筛选出最优识别结果,保证了文字识别的准确性;然后基于第一公式,根据每个OCR识别技术当前的识别权重值再从多个最优字节字符串中选择出一个最优字节字符串,从而在无法筛选出最优字节字符串时,利用每个OCR识别技术平时积累的权重来确定最优字节字符串,比较有说服力,增强了识别的可靠性;最后基于第二公式,根据最优字节字符串更新每种OCR识别技术的识别权重值,从而在每次识别结束后都对所述权重值进行更新,确保与时俱进将最优的OCR识别技术全部应用在所述PDF文档识别内。
从上述实施例的内容可知,首先调用多种OCR识别技术对目标PDF文档的每个字节进行识别,得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串;接着在识别出的字符串组中选择重复次数最多的字符串作为最优字节字符串,如果存在多个最优字节字符串时,则继续根据每个OCR识别技术当前的识别权重值再从多个最优字节字符串中选择出一个作为最优字节字符串,最后将最优字节字符串作为识别结果,有效地提高了PDF字节的识别准确度。最后基于第二公式,更新每种OCR识别技术的识别权重值,确保及时将最优的OCR识别技术全部应用在PDF文档识别内。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (3)

1.基于OCR识别的PDF识别方法,其特征在于,包括:
调用多种OCR识别技术对目标PDF文档的每个字节进行识别,得到各种OCR识别技术对目标PDF文档中每个字节识别出的字符串;
根据预设选择策略,从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串;其中,i=1,2,…,R;R为目标PDF文档的字节总数;
将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出,得到目标PDF文档的识别结果;
其中,所述根据预设选择策略,从多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中确定出所述目标PDF文档的第i个字节对应的最优字节字符串,包括:
判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同;
若所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串全部相同,则将该相同的字符串确定为所述目标PDF文档的第i个字节对应的最优字节字符串;
其中,在判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同之后,还包括:
若所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串不全部相同,则筛选出所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串中重复次数最多的字符串;
将筛选出的重复次数最多的字符串组成所述目标PDF文档的第i个字节对应的最优字节字符串数组;
判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1;
若所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数等于1,则将所述目标PDF文档的第i个字节对应的最优字节字符串数组中的唯一元素确定为所述目标PDF文档的第i个字节对应的最优字节字符串;
其中,在判断所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数是否等于1之后,还包括:
若所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数不等于1,则获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值;
根据所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,确定所述目标PDF文档的第i个字节对应的最优字节字符串;
其中,所述将所述目标PDF文档的所有字节各自对应的最优字节字符串按照所述目标PDF文档的字节顺序输出,得到目标PDF文档的识别结果之后,还包括:
根据所述目标PDF文档的所有字节各自对应的最优字节字符串,更新已记录的每种OCR识别技术的权重值;其中,每种OCR识别技术的权重值的初始值为0;
其中,所述判断所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串是否全部相同,包括:
计算预设算式的值;
判断所述预设算式的值是否等于0;
若所述预设算式的值等于0,则判定所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串全部相同;
若所述预设算式的值不等于0,则判定所述多种OCR识别技术对所述目标PDF文档的第i个字节识别出的字符串不全部相同;
其中,所述预设算式为:
Figure FDA0003884061940000021
所述根据所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,确定所述目标PDF文档的第i个字节对应的最优字节字符串,包括:
根据第一公式确定所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号;
根据当前确定的元素序号获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的相应元素,作为所述目标PDF文档的第i个字节对应的最优字节字符串并将其记做C(i);
所述第一公式为:
Figure FDA0003884061940000031
所述第一公式中,y(i)表示所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号;A(i,x,k)表示所述目标PDF文档的第i个字节对应的最优字节字符串数组中第x个元素对应的第k种OCR识别技术的唯一标识;G[]表示已记录的括号内唯一标识对应OCR识别技术的最新权重值;G[A(i,x,k)]表示已记录的所述目标PDF文档的第i个字节对应的最优字节字符串数组中第x个元素对应的第k种OCR识别技术的最新权重值;k=1,2,…,m(i_x);m(i_x)表示所述目标PDF文档的第i个字节对应的最优字节字符串数组中第x个元素对应的OCR识别技术的总数;x=1,2,…,H(i);H(i)表示所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素总数;
Figure FDA0003884061940000032
表示将x的值从1取值到H(i)得到使括号内取得最大值时的x值;
所述根据所述目标PDF文档的所有字节各自对应的最优字节字符串,更新已记录的每种OCR识别技术的权重值,包括:
根据以下第二公式更新已记录的每种OCR识别技术的权重值:
Figure FDA0003884061940000033
所述第二公式中,G(OCRa)′表示已记录的所述多种OCR识别技术中第a种OCR识别技术的权重值更新后的最新权重值;G(OCRa)表示在使用第二公式计算前已记录的所述多种OCR识别技术中第a种OCR识别技术的最新权重值;δ()表示零检验函数,若括号内的数值为0则函数值为1,若括号内的数值不为0则函数值为0。
2.如权利要求1所述的基于OCR识别的PDF识别方法,其特征在于,在所述调用多种OCR识别技术对目标PDF文档的每个字节进行识别之前,还包括:
预先设置每种OCR识别技术的权重值;
所述获取所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值,包括:
获取预先设置的所述目标PDF文档的第i个字节对应的最优字节字符串数组中的每个元素对应的OCR识别技术的权重值。
3.如权利要求1所述的基于OCR识别的PDF识别方法,其特征在于,所述根据第一公式确定所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号,还包括:
若根据第一公式确定出多个元素序号,则将当前确定出的多个元素序号中数值最小的元素序号作为所述目标PDF文档的第i个字节对应的最优字节字符串在所述目标PDF文档的第i个字节对应的最优字节字符串数组中的元素序号。
CN202210550788.8A 2022-05-18 2022-05-18 基于ocr识别的pdf识别方法 Active CN114973248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210550788.8A CN114973248B (zh) 2022-05-18 2022-05-18 基于ocr识别的pdf识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210550788.8A CN114973248B (zh) 2022-05-18 2022-05-18 基于ocr识别的pdf识别方法

Publications (2)

Publication Number Publication Date
CN114973248A CN114973248A (zh) 2022-08-30
CN114973248B true CN114973248B (zh) 2023-03-24

Family

ID=82985505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210550788.8A Active CN114973248B (zh) 2022-05-18 2022-05-18 基于ocr识别的pdf识别方法

Country Status (1)

Country Link
CN (1) CN114973248B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753954A (zh) * 2018-11-14 2019-05-14 安徽艾睿思智能科技有限公司 基于深度学习注意力机制的文本实时定位识别方法
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10177623A (ja) * 1996-12-16 1998-06-30 Ricoh Co Ltd 文書認識装置および言語処理装置
JP2000293632A (ja) * 1999-04-08 2000-10-20 Ricoh Co Ltd 文字列認識装置および文字列認識方法
JP2007011529A (ja) * 2005-06-29 2007-01-18 Njk:Kk Ocr処理における文字認識位置の決定方法
JP2014059674A (ja) * 2012-09-14 2014-04-03 Ricoh Co Ltd 文字列検索システム、文字列検索方法及びプログラム
CN105988977A (zh) * 2015-02-16 2016-10-05 珠海金山办公软件有限公司 一种字符编码识别结果的显示方法和装置
CN111079763B (zh) * 2019-12-05 2023-08-08 嘉楠明芯(北京)科技有限公司 训练样本生成、模型训练、字符识别方法及其装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753954A (zh) * 2018-11-14 2019-05-14 安徽艾睿思智能科技有限公司 基于深度学习注意力机制的文本实时定位识别方法
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法

Also Published As

Publication number Publication date
CN114973248A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
US7664783B2 (en) File management program, data structure, and file management device
CN107918666B (zh) 一种区块链上的数据同步方法和系统
US20080250055A1 (en) Method and Device for Coding a Hierarchized Document
CN110516220B (zh) 一种报表数据录入方法、系统及相关设备
CN115576603B (zh) 一种获取代码片段中的变量值的方法及装置
CN105912324A (zh) 一种Web网页生成的方法和装置
CN114973248B (zh) 基于ocr识别的pdf识别方法
CN114373444B (zh) 一种基于蒙太奇的语音合成方法、系统及设备
US7162712B2 (en) Method and apparatus for creating string objects in a programming language
US6112208A (en) Data compressing method and apparatus to generate bit maps in accordance with extracted data symbols
CN111273903B (zh) 网页制作方法、装置、计算机设备及计算机存储介质
CN1768480B (zh) 编码装置和方法、解码装置和方法
CN116661827A (zh) 嵌套构件的更新方法、装置、设备和可读存储介质
CN115688878A (zh) 量化门限调优方法、装置、设备及存储介质
CN115935909A (zh) 一种文件生成方法、装置及电子设备
CN107861963B (zh) 险种合约的生成方法和装置
CN113127408A (zh) 数据转换方法及装置
JP7468650B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
CN116383290B (zh) 一种数据泛化解析方法
TWI769724B (zh) 圖像特徵提取方法、裝置、電子設備及存儲介質
CN119782594A (zh) 电子档案的元数据项的完整性检测方法、装置、电子设备及存储介质
CN107729058A (zh) 一种自动解析增值税发票识别结果的方法
JP3406230B2 (ja) 音声出力装置及び音声変換方法
CN119784481A (zh) 建筑标讯信息的串联方法、装置、设备和可读存储介质
JP2006268533A (ja) データ動的読み込み型テンプレート適用方法および装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant