CN110929479A - 转换pdf扫描件的方法、装置、电子设备及存储介质 - Google Patents

转换pdf扫描件的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110929479A
CN110929479A CN201811020584.3A CN201811020584A CN110929479A CN 110929479 A CN110929479 A CN 110929479A CN 201811020584 A CN201811020584 A CN 201811020584A CN 110929479 A CN110929479 A CN 110929479A
Authority
CN
China
Prior art keywords
pdf
picture
characters
converted
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811020584.3A
Other languages
English (en)
Inventor
邓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Guangzhou Kingsoft Mobile Technology Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Guangzhou Kingsoft Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd, Guangzhou Kingsoft Mobile Technology Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN201811020584.3A priority Critical patent/CN110929479A/zh
Publication of CN110929479A publication Critical patent/CN110929479A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明实施例提供了一种转换PDF扫描件的方法、装置、电子设备及存储介质,所述方法包括:通过识别PDF扫描件图片中的文字和文字的相关信息,将识别出的文字添加到PDF文本文件中与PDF图片对应的位置中,使PDF扫描件转换成PDF文本文件。PDF扫描件中的文字是像素点组成的位图形式,而识别后的文本文件中的文字是矢量图形式的文字,由于矢量图所占存储空间较小,且放大不会变模糊。因此,转换后的PDF文本文件与位图形式的PDF扫描件相比,减少了文件数据量大小,提高了文档中文字的清晰度。

Description

转换PDF扫描件的方法、装置、电子设备及存储介质
技术领域
本发明涉及文件转换技术领域,特别是涉及一种转换PDF扫描件的方法、装置、电子设备及存储介质。
背景技术
随着多媒体技术和终端设备的不断发展,各种电子文档的使用逐渐普及开来,人们对电子文档的使用率不断提高,其中,对PDF文件的使用率也越来越高。
对于.pdf格式的文档,可以由纸质文档扫描而来,或者由.jpg等其他格式的电子文档转换而来,由此得到的PDF扫描件会由一张张图片组成,往往数据量比较大,而且在放大PDF扫描件文档页面时,图片中的文字会变模糊。
发明内容
本发明实施例的目的在于提供一种转换PDF扫描件的方法、装置、电子设备及存储介质,以减少文件数据量大小,提高文档文字清晰度。
为达到上述目的,本发明实施例公开了一种转换PDF扫描件的方法,包括:
创建与当前待转换的PDF扫描件对应的PDF文本文件;PDF文本文件初始为空白文件;
获取所述当前待转换的PDF扫描件中包含的各个PDF图片;
分别对每个PDF图片,识别每个PDF图片中的文字、文字的位置信息及属性信息;
基于每个PDF图片中文字的位置信息和属性信息,将识别出的文字添加至所述PDF文本文件中与PDF图片对应的位置中,得到转换后的PDF文本文件。
可选的,所述获取当前待转换的PDF扫描件中包含的各个PDF图片的步骤,包括:
以页为单位,把待转换的PDF扫描件中所有PDF图片提取出来。
可选的,所述分别对每个PDF图片,识别每个PDF图片中的文字、文字的位置信息及属性信息的步骤,包括:
针对每个PDF图片,以图片中每行文字所占的区域为一个区域块,识别图片中的区域块,记录区域块的位置和面积大小;
用预设的文字识别模型识别每一个区域块中的文字、文字的字体和字号。
可选的,所述基于每个PDF图片中文字的位置信息和属性信息,将识别出的文字添加至所述PDF文本文件中与PDF图片对应的位置中,得到转换后的PDF文本文件的步骤,包括:
将识别出的每一个区域块中的文字设置为识别出的字体和字号,按照记录的区域块的位置和面积大小,添加至所述PDF文本文件中与PDF图片中识别到的区域块位置相同的位置,得到转换后的PDF文本文件。
可选的,还包括:
针对每个PDF图片,用预设的图片识别模型,识别每个PDF图片中包含的图片,记录PDF图片中包含的图片位置信息及面积大小;
将识别出的PDF图片中包含的图片,按照记录的PDF图片中包含的图片位置信息及面积大小,添加至所述PDF文本文件中与PDF图片中识别到的图片位置相同的位置,得到转换后的PDF文本文件。
可选的,还包括:
针对每个PDF图片,用预设的表格识别模型,识别每个PDF图片中的表格,记录PDF图片中表格的位置信息及面积大小;
将识别出的表格,按照记录的PDF图片中表格的位置信息及面积大小,添加至所述PDF文本文件中与PDF图片中识别到的表格位置相同的位置,得到转换后的PDF文本文件。
为了达到上述目的,本发明实施例还公开了一种转换PDF扫描件的装置,所述装置包括:
创建模块,用于创建与当前待转换的PDF扫描件对应的PDF文本文件;PDF文本文件初始为空白文件;
获取模块,用于获取所述当前待转换的PDF扫描件中包含的各个PDF图片;
第一识别模块,用于分别对每个PDF图片,识别每个PDF图片中的文字、文字的位置信息及属性信息;
第一转换模块,用于基于每个PDF图片中文字的位置信息和属性信息,将识别出的文字添加至所述PDF文本文件中与PDF图片对应的位置中,得到转换后的PDF文本文件。
可选的,所述获取模块,具体用于以页为单位,把待转换的PDF扫描件中所有PDF图片提取出来。
可选的,所述第一识别模块,包括:
区域识别子模块,用于针对每个PDF图片,以图片中每行文字所占的区域为一个区域块,识别图片中的区域块,记录区域块的位置和面积大小;
文字识别子模块,用于用预设的文字识别模型识别每一个区域块中的文字、文字的字体和字号。
可选的,所述第一转换模块,具体用于将识别出的每一个区域块中的文字设置为识别出的字体和字号,按照记录的区域块的位置和面积大小,添加至所述PDF文本文件中与PDF图片中识别到的区域块位置相同的位置,得到转换后的PDF文本文件。
可选的,还包括:
第二识别模块,用于针对每个PDF图片,用预设的图片识别模型,识别每个PDF图片中包含的图片,记录PDF图片中包含的图片位置信息及面积大小;
第二转换模块,用于将识别出的PDF图片中包含的图片,按照记录的PDF图片中包含的图片位置信息及面积大小,添加至所述PDF文本文件中与PDF图片中识别到的图片位置相同的位置,得到转换后的PDF文本文件。
可选的,还包括:
第三识别模块,用于针对每个PDF图片,用预设的表格识别模型,识别每个PDF图片中的表格,记录PDF图片中表格的位置信息及面积大小;
第三转换模块,用于将识别出的表格,按照记录的PDF图片中表格的位置信息及面积大小,添加至所述PDF文本文件中与PDF图片中识别到的表格位置相同的位置,得到转换后的PDF文本文件。
为了达到上述目的,本发明实施例还公开了一种转换PDF扫描件的电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现以上任一所述转换PDF扫描件的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的转换PDF扫描件的方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的转换PDF扫描件的方法。
由上述技术方案可见,本发明实施例提供的转换PDF扫描件的方法、装置、电子设备及存储介质,通过识别PDF扫描件图片中的文字和文字的相关信息,将识别出的文字添加到PDF文本文件中与PDF图片对应的位置中,使PDF扫描件转换成了PDF文本文件。PDF扫描件中的文字是像素点组成的位图形式,而识别后的文本文件中的文字是矢量图形式的文字,由于矢量图所占存储空间较小,且放大不会变模糊。因此,应用本发明实施例转换后的PDF文本文件与位图形式的PDF扫描件相比,可以减少文件数据量大小,提高文档文字清晰度。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的转换PDF扫描件的方法的一种流程图;
图2为本发明实施例提供的转换PDF扫描件的方法的另一种流程图;
图3为本发明实施例提供的转换PDF扫描件的方法的又一种流程图;
图4为本发明实施例提供的转换PDF扫描件的装置结构示意图;
图5为本发明实施例提供的转换PDF扫描件的电子设备示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术问题,本发明实施例提供了一种转换PDF扫描件的方法、装置、电子设备及存储介质。下面首先对本发明实施例提供的一种转换PDF扫描件的方法进行介绍。
如图1所示,图1为本发明实施例提供的转换PDF扫描件的方法的一种流程示意图,可以包括:
S101:创建与当前待转换的PDF扫描件对应的PDF文本文件;PDF文本文件初始为空白文件;
在实际应用中,PDF文本文件是可以增删改文件中内容的文件。创建与当前待转换的PDF扫描件对应的PDF文本文件,可以先创建PDF文本文件,再识别PDF扫描件图片中的文字,也可以先识别PDF扫描件图片中的文字,再创建PDF文本文件。
S102:获取所述当前待转换的PDF扫描件中包含的各个PDF图片;
在实际应用中,当前待转换的PDF扫描件,每一页对应一张PDF图片,PDF图片中包含文件内容,如:可以包含文字、图片或表格等;
S103:分别对每个PDF图片,识别每个PDF图片中的文字、文字的位置信息及属性信息;
在实际应用中,PDF图片中文字的属性信息,可以是文字的字体和字号。
S104:基于每个PDF图片中文字的位置信息和属性信息,将识别出的文字添加至所述PDF文本文件中与PDF图片对应的位置中,得到转换后的PDF文本文件。
应用图1所示的实施例,通过识别PDF扫描件图片中的文字和文字的相关信息,将识别出的文字添加到空白PDF文本文件的空白页中,使PDF扫描件转换成了PDF文本文件。PDF扫描件中的文字是像素点组成的位图形式,而识别后的文本文件中的文字是矢量图形式的文字,由于矢量图所占存储空间较小,且放大不会变模糊。因此,应用本发明实施例转换后的PDF文本文件与位图形式的PDF扫描件相比,减少了文件数据量大小,提高了文档中文字的清晰度。
更进一步的,本发明实施例提供了转换PDF扫描件的方法的另一种流程图。具体的,如图2所示,可以包括:
S201:创建与当前待转换的PDF扫描件对应的PDF文本文件;PDF文本文件初始为空白文件;
S202:获取所述当前待转换的PDF扫描件中包含的各个PDF图片;
在实际应用中,对当前待转换的PDF扫描件,可以以页为单位,把当前待转换的PDF扫描件中所有PDF图片提取出来。
S203:针对每个PDF图片,以图片中每行文字所占的区域为一个区域块,识别图片中的区域块,记录区域块的位置和面积大小;
S204:用预设的文字识别模型识别每一个区域块中的文字、文字的字体和字号;
在实际应用中,预设的文字识别模型可以是一种使用TensorFlow神经网络模型训练得到的模型。首先,在训练过程中,将大量包含文字的图片作为输入数据,输入神经网络初始模型,使神经网络初始模型经过隐藏层的对输入数据进行层层推导,识别图片中每行文字所占区域的区域块,进而识别区域块中的文字、文字位置及文字属性,得到输出层,输出识别到的文字、文字位置及文字属性,通过对比输入数据与输出结果的一致性,不断调整隐藏层的权重参数,最终达到一定的正确率,完成模型的训练,保存模型数据,将完成训练的模型作为预设的文字识别模型;然后,将待识别的PDF图片作为输入,使用预设的文字识别模型识别PDF图片中的文字、文字位置及文字属性,得到识别出的文字、文字位置及文字属性。
S205:将识别出的每一个区域块中的文字设置为识别出的字体和字号,按照记录的区域块的位置和面积大小,添加至所述PDF文本文件中与PDF图片对应的位置中,得到转换后的PDF文本文件。
在实际应用中,得到的转换后的PDF文本文件中的文字的字体和字号,以及文字的位置,均与PDF扫描件中的一致,并且,是可以编辑,可以增删改的。
应用图2所示的实施例,通过预设的文字识别模型识别PDF扫描件图片中的文字,将识别出的文字添加到PDF文本文件中与PDF图片对应的位置中,使PDF扫描件转换成了PDF文本文件。PDF扫描件中的文字是像素点组成的位图形式,而识别后的文本文件中的文字是矢量图形式的文字,由于矢量图所占存储空间较小,且放大不会变模糊。因此,应用本发明实施例转换后的PDF文本文件与位图形式的PDF扫描件相比,减少了文件数据量大小,提高了文档中文字的清晰度。
另外,本实施例中,将每个PDF图片,以图片中每行文字所占的区域为一个区域块,先识别图片中的区域块,再识别每个区域块中的文字和文字相关信息,相比于逐字识别PDF图片中的文字和文字相关信息,简化了操作,提高了识别效率。
实际上有的PDF扫描件不仅包含文字,还可能包含图片和表格等。针对这种情况,本发明实施例提供了转换PDF扫描件的方法的又一种流程图,如图3所示,可以包括:
S301:创建与当前待转换的PDF扫描件对应的PDF文本文件;PDF文本文件初始为空白文件;
S302:获取所述当前待转换的PDF扫描件中包含的各个PDF图片;
S303:针对每个PDF图片,用预设的文字识别模型,识别每个PDF图片中的文字、文字的位置信息及属性信息;
S304:将识别出的文字,按照识别出的文字的属性信息和位置信息,添加到PDF文本文件中与PDF图片对应的位置中;
S305:针对每个PDF图片,用预设的图片识别模型,识别每个PDF图片中包含的图片,记录PDF图片中包含的图片的位置信息和面积大小;
在实际应用中,预设的图片识别模型是一种使用TensorFlow神经网络模型训练得到的模型。首先,在训练过程中,将大量包含图片的PDF图片作为输入数据,输入神经网络初始模型,使神经网络初始模型经过隐藏层的对输入数据进行层层推导,识别PDF图片中包含的图片、包含的图片的位置及图片属性,得到输出层,输出识别到的图片、图片位置及图片属性,通过对比输入数据与输出结果的一致性,不断调整隐藏层的权重参数,最终达到一定的正确率,完成模型的训练,保存模型数据,将完成训练的模型作为预设的图片识别模型;然后,将待识别的PDF图片作为输入,使用预设的图片识别模型识别PDF图片中包含的图片、图片的位置及图片属性,得到识别出的图片、图片的位置及图片属性。
S306:将识别出的PDF图片中包含的图片,按照记录的PDF图片中包含的图片的位置信息和面积大小,添加至所述PDF文本文件中与PDF图片对应的位置中;
S307:针对每个PDF图片,用预设的表格识别模型,识别每个PDF图片中的表格,记录PDF图片中表格的位置信息和面积大小;
在实际应用中,预设的表格识别模型是一种使用TensorFlow神经网络模型训练得到的模型。首先,在训练过程中,将大量包含表格的PDF图片作为输入数据,输入神经网络初始模型,使神经网络初始模型经过隐藏层的对输入数据进行层层推导,识别PDF图片中包含的表格、表格的位置及表格属性,得到输出层,输出识别到的表格、表格位置及表格属性,通过对比输入数据与输出结果的一致性,不断调整隐藏层的权重参数,最终达到一定的正确率,完成模型的训练,保存模型数据,将完成训练的模型作为预设的表格识别模型;然后,将待识别的PDF图片作为输入,使用预设的表格识别模型识别PDF图片中包含的表格、表格的位置及表格属性,得到识别出的表格、表格的位置及表格属性。
S308:将识别出的表格,按照记录的PDF图片中表格的位置信息和面积大小,添加至所述PDF文本文件中与PDF图片对应的位置中,得到转换后的PDF文本文件。
应用图3所示的实施例,用预设的文字识别模型,识别PDF扫描件图片中的文字及文字相关信息,用预设的图片识别模型,识别PDF扫描件图片中包含的图片及包含的图片相关信息,用预设的表格识别模型,识别PDF扫描件图片中的表格及表格相关信息,将识别出来的内容添加到PDF文本文件中与PDF图片对应的位置中,使PDF扫描件转换成了PDF文本文件。PDF扫描件中的文字是像素点组成的位图形式,而识别后的文本文件中的文字是矢量图形式的内容,由于矢量图所占存储空间较小,且放大不会变模糊。因此,应用本发明实施例转换后的PDF文本文件与位图形式的PDF扫描件相比,减少了文件数据量大小,提高了文档中内容的清晰度。
相应于图1所示的方法实施例,本发明实施例还提供了一种转换PDF扫描件的装置,如图4所示,所述装置包括:
创建模块401,用于创建与当前待转换的PDF扫描件对应的PDF文本文件;PDF文本文件初始为空白文件;
获取模块402,用于获取所述当前待转换的PDF扫描件中包含的各个PDF图片;
第一识别模块403,用于分别对每个PDF图片,识别每个PDF图片中的文字、文字的位置信息及属性信息;
第一转换模块404,用于基于每个PDF图片中文字的位置信息和属性信息,将识别出的文字添加至所述PDF文本文件中与PDF图片对应的位置中,得到转换后的PDF文本文件。
具体的,在本实施例中,所述获取模块402,具体用于以页为单位,把待转换的PDF扫描件中所有PDF图片提取出来。
在本实施例中,具体的,所述第一识别模块403,包括:
区域识别子模块(图中未标出),用于针对每个PDF图片,以图片中每行文字所占的区域为一个区域块,识别图片中的区域块,记录区域块的位置和面积大小;
文字识别子模块(图中未标出),用于用预设的文字识别模型识别每一个区域块中的文字、文字的字体和字号。
在本实施例中,具体的,所述第一转换模块404,具体用于将识别出的每一个区域块中的文字设置为识别出的字体和字号,按照记录的区域块的位置和面积大小,添加至所述PDF文本文件中与PDF图片中识别到的区域块位置相同的位置,得到转换后的PDF文本文件。
在本实施例中,具体还可以包括:
第二识别模块(图中未标出),用于针对每个PDF图片,用预设的图片识别模型,识别每个PDF图片中包含的图片,记录PDF图片中包含的图片位置信息及面积大小;
第二转换模块(图中未标出),用于将识别出的PDF图片中包含的图片,按照记录的PDF图片中包含的图片位置信息及面积大小,添加至所述PDF文本文件中与PDF图片中识别到的图片位置相同的位置,得到转换后的PDF文本文件。
在本实施例中,具体还可以包括:
第三识别模块(图中未标出),用于针对每个PDF图片,用预设的表格识别模型,识别每个PDF图片中的表格,记录PDF图片中表格的位置信息及面积大小;
第三转换模块(图中未标出),用于将识别出的表格,按照记录的PDF图片中表格的位置信息及面积大小,添加至所述PDF文本文件中与PDF图片中识别到的表格位置相同的位置,得到转换后的PDF文本文件。
应用图4所示的实施例,通过识别PDF扫描件图片中的文字和文字相关信息,将识别出的文字添加到PDF文本文件中与PDF图片对应的位置中,使PDF扫描件转换成了PDF文本文件。PDF扫描件中的文字是像素点组成的位图形式,而识别后的文本文件中的文字是矢量图形式的文字,由于矢量图所占存储空间较小,且放大不会变模糊。因此,转换后的PDF文本文件与位图形式的PDF扫描件相比,减少了文件数据量大小,提高了文档文字清晰度。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
创建与当前待转换的PDF扫描件对应的PDF文本文件;PDF文本文件初始为空白文件;
获取所述当前待转换的PDF扫描件中包含的各个PDF图片;
分别对每个PDF图片,识别每个PDF图片中的文字、文字的位置信息及属性信息;
基于每个PDF图片中文字的位置信息和属性信息,将识别出的文字添加至所述PDF文本文件中与PDF图片对应的位置中,得到转换后的PDF文本文件。
可见,本发明实施例所提供的方案中,通过识别PDF扫描件图片中的文字和文字相关信息,将识别出的文字添加到PDF文本文件中与PDF图片对应的位置中,使PDF扫描件转换成了PDF文本文件。PDF扫描件中的文字是像素点组成的位图形式,而识别后的文本文件中的文字是矢量图形式的文字,由于矢量图所占存储空间较小,且放大不会变模糊。因此,转换后的PDF文本文件与位图形式的PDF扫描件相比,减少了文件数据量大小,提高了文档文字清晰度。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的转换PDF扫描件的方法,包括:
创建与当前待转换的PDF扫描件对应的PDF文本文件;PDF文本文件初始为空白文件;
获取所述当前待转换的PDF扫描件中包含的各个PDF图片;
分别对每个PDF图片,识别每个PDF图片中的文字、文字的位置信息及属性信息;
基于每个PDF图片中文字的位置信息和属性信息,将识别出的文字添加至所述PDF文本文件中与PDF图片对应的位置中,得到转换后的PDF文本文件。
可见,本发明实施例所提供的方案中,通过识别PDF扫描件图片中的文字和文字相关信息,将识别出的文字添加到PDF文本文件中与PDF图片对应的位置中,使PDF扫描件转换成了PDF文本文件。PDF扫描件中的文字是像素点组成的位图形式,而识别后的文本文件中的文字是矢量图形式的文字,由于矢量图所占存储空间较小,且放大不会变模糊。因此,转换后的PDF文本文件与位图形式的PDF扫描件相比,减少了文件数据量大小,提高了文档文字清晰度。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的转换PDF扫描件的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (14)

1.一种转换PDF扫描件的方法,其特征在于,所述方法包括:
创建与当前待转换的PDF扫描件对应的PDF文本文件;PDF文本文件初始为空白文件;
获取所述当前待转换的PDF扫描件中包含的各个PDF图片;
分别对每个PDF图片,识别每个PDF图片中的文字、文字的位置信息及属性信息;
基于每个PDF图片中文字的位置信息和属性信息,将识别出的文字添加至所述PDF文本文件中与PDF图片对应的位置中,得到转换后的PDF文本文件。
2.根据权利要求1所述的方法,其特征在于,
所述获取当前待转换的PDF扫描件中包含的各个PDF图片的步骤,包括:
以页为单位,把待转换的PDF扫描件中所有PDF图片提取出来。
3.根据权利要求2所述的方法,其特征在于,
所述分别对每个PDF图片,识别每个PDF图片中的文字、文字的位置信息及属性信息的步骤,包括:
针对每个PDF图片,以图片中每行文字所占的区域为一个区域块,识别图片中的区域块,记录区域块的位置和面积大小;
用预设的文字识别模型识别每一个区域块中的文字、文字的字体和字号。
4.根据权利要求3所述的方法,其特征在于,
所述基于每个PDF图片中文字的位置信息和属性信息,将识别出的文字添加至所述PDF文本文件中与PDF图片对应的位置中,得到转换后的PDF文本文件的步骤,包括:
将识别出的每一个区域块中的文字设置为识别出的字体和字号,按照记录的区域块的位置和面积大小,添加至所述PDF文本文件中与PDF图片中识别到的区域块位置相同的位置,得到转换后的PDF文本文件。
5.根据权利要求1所述的方法,其特征在于,还包括:
针对每个PDF图片,用预设的图片识别模型,识别每个PDF图片中包含的图片,记录PDF图片中包含的图片位置信息及面积大小;
将识别出的PDF图片中包含的图片,按照记录的PDF图片中包含的图片位置信息及面积大小,添加至所述PDF文本文件中与PDF图片中识别到的图片位置相同的位置,得到转换后的PDF文本文件。
6.根据权利要求1所述的方法,其特征在于,还包括:
针对每个PDF图片,用预设的表格识别模型,识别每个PDF图片中的表格,记录PDF图片中表格的位置信息及面积大小;
将识别出的表格,按照记录的PDF图片中表格的位置信息及面积大小,添加至所述PDF文本文件中与PDF图片中识别到的表格位置相同的位置,得到转换后的PDF文本文件。
7.一种转换PDF扫描件的装置,其特征在于,所述装置包括:
创建模块,用于创建与当前待转换的PDF扫描件对应的PDF文本文件;PDF文本文件初始为空白文件;
获取模块,用于获取所述当前待转换的PDF扫描件中包含的各个PDF图片;
第一识别模块,用于分别对每个PDF图片,识别每个PDF图片中的文字、文字的位置信息及属性信息;
第一转换模块,用于基于每个PDF图片中文字的位置信息和属性信息,将识别出的文字添加至所述PDF文本文件中与PDF图片对应的位置中,得到转换后的PDF文本文件。
8.根据权利要求7所述的装置,其特征在于,
所述获取模块,具体用于以页为单位,把待转换的PDF扫描件中所有PDF图片提取出来。
9.根据权利要求8所述的装置,其特征在于,所述第一识别模块,包括:
区域识别子模块,用于针对每个PDF图片,以图片中每行文字所占的区域为一个区域块,识别图片中的区域块,记录区域块的位置和面积大小;
文字识别子模块,用于用预设的文字识别模型识别每一个区域块中的文字、文字的字体和字号。
10.根据权利要求9所述的装置,其特征在于,
所述第一转换模块,具体用于将识别出的每一个区域块中的文字设置为识别出的字体和字号,按照记录的区域块的位置和面积大小,添加至所述PDF文本文件中与PDF图片中识别到的区域块位置相同的位置,得到转换后的PDF文本文件。
11.根据权利要求7所述的装置,其特征在于,还包括:
第二识别模块,用于针对每个PDF图片,用预设的图片识别模型,识别每个PDF图片中包含的图片,记录PDF图片中包含的图片位置信息及面积大小;
第二转换模块,用于将识别出的PDF图片中包含的图片,按照记录的PDF图片中包含的图片位置信息及面积大小,添加至所述PDF文本文件中与PDF图片中识别到的图片位置相同的位置,得到转换后的PDF文本文件。
12.根据权利要求7所述的装置,其特征在于,还包括:
第三识别模块,用于针对每个PDF图片,用预设的表格识别模型,识别每个PDF图片中的表格,记录PDF图片中表格的位置信息及面积大小;
第三转换模块,用于将识别出的表格,按照记录的PDF图片中表格的位置信息及面积大小,添加至所述PDF文本文件中与PDF图片中识别到的表格位置相同的位置,得到转换后的PDF文本文件。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN201811020584.3A 2018-09-03 2018-09-03 转换pdf扫描件的方法、装置、电子设备及存储介质 Pending CN110929479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811020584.3A CN110929479A (zh) 2018-09-03 2018-09-03 转换pdf扫描件的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811020584.3A CN110929479A (zh) 2018-09-03 2018-09-03 转换pdf扫描件的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110929479A true CN110929479A (zh) 2020-03-27

Family

ID=69854977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811020584.3A Pending CN110929479A (zh) 2018-09-03 2018-09-03 转换pdf扫描件的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110929479A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836971A (zh) * 2020-06-23 2021-12-24 中国人寿资产管理有限公司 一种图像型扫描件识别后的视觉信息重现方法、系统及存储介质
WO2022117067A1 (en) * 2020-12-03 2022-06-09 Qualcomm Incorporated Content-aware bifurcated upscaling

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441713A (zh) * 2007-11-19 2009-05-27 汉王科技股份有限公司 一种pdf文件的光学字符识别方法及装置
CN103810485A (zh) * 2014-01-22 2014-05-21 深圳市东信时代信息技术有限公司 识别装置、文字识别系统及方法
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN106326888A (zh) * 2016-08-16 2017-01-11 北京旷视科技有限公司 图像识别方法和装置
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108415887A (zh) * 2018-02-09 2018-08-17 武汉大学 一种pdf文件向ofd文件转化的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441713A (zh) * 2007-11-19 2009-05-27 汉王科技股份有限公司 一种pdf文件的光学字符识别方法及装置
CN103810485A (zh) * 2014-01-22 2014-05-21 深圳市东信时代信息技术有限公司 识别装置、文字识别系统及方法
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN106326888A (zh) * 2016-08-16 2017-01-11 北京旷视科技有限公司 图像识别方法和装置
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108415887A (zh) * 2018-02-09 2018-08-17 武汉大学 一种pdf文件向ofd文件转化的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836971A (zh) * 2020-06-23 2021-12-24 中国人寿资产管理有限公司 一种图像型扫描件识别后的视觉信息重现方法、系统及存储介质
CN113836971B (zh) * 2020-06-23 2023-12-29 中国人寿资产管理有限公司 一种图像型扫描件识别后的视觉信息重现方法、系统及存储介质
WO2022117067A1 (en) * 2020-12-03 2022-06-09 Qualcomm Incorporated Content-aware bifurcated upscaling

Similar Documents

Publication Publication Date Title
CA2895917C (en) System and method for data extraction and searching
US8634644B2 (en) System and method for identifying pictures in documents
US8892990B2 (en) Automatic creation of a table and query tools
CN111444750B (zh) 一种pdf文档识别方法、装置及电子设备
CN107748780B (zh) 一种回收站文件的恢复方法和装置
US20220301285A1 (en) Processing picture-text data
US20160005175A1 (en) Service provision device, and method
CN109522405A (zh) 文件信息处理方法、电子设备以及计算机可读存介质
CN110929479A (zh) 转换pdf扫描件的方法、装置、电子设备及存储介质
CN114359533B (zh) 一种基于页面文本的页码识别方法和计算机设备
JP2010218249A (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US9864750B2 (en) Objectification with deep searchability
CN114529933A (zh) 一种合同数据差异性的比对方法、装置、设备和介质
US20160188580A1 (en) Document discovery strategy to find original electronic file from hardcopy version
CN114579796B (zh) 机器阅读理解方法及装置
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN110309517A (zh) 表情文案处理方法、装置、系统及存储介质
CN110633457A (zh) 一种内容替换方法、装置、电子设备及可读存储介质
CN110795914B (zh) 一种pdf文档转换为图片的方法、装置及电子设备
CN113378526A (zh) Pdf段落处理方法、装置、存储介质及设备
KR101458155B1 (ko) 편집 문서 생성 장치 및 방법
CN115617957B (zh) 基于大数据的文档智能检索方法
US20230102476A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
JP5569367B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN116704540A (zh) 将纸质文件内容进行标识并高保真的转换为ofd文件的技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200327