CN102968407A - 双层pdf文件的构造方法及装置 - Google Patents

双层pdf文件的构造方法及装置 Download PDF

Info

Publication number
CN102968407A
CN102968407A CN2011102564749A CN201110256474A CN102968407A CN 102968407 A CN102968407 A CN 102968407A CN 2011102564749 A CN2011102564749 A CN 2011102564749A CN 201110256474 A CN201110256474 A CN 201110256474A CN 102968407 A CN102968407 A CN 102968407A
Authority
CN
China
Prior art keywords
character
double
character image
image
pdf document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102564749A
Other languages
English (en)
Other versions
CN102968407B (zh
Inventor
王晓健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN201110256474.9A priority Critical patent/CN102968407B/zh
Publication of CN102968407A publication Critical patent/CN102968407A/zh
Application granted granted Critical
Publication of CN102968407B publication Critical patent/CN102968407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明公开一种双层PDF文件的构造方法及装置,涉及计算机信息处理技术领域,提高了双层PDF文件的显示质量。包括:获取原始文字资料中的各字符;根据文字图像中的各字符中指定的参考字符计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;根据所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和所述文字图像中的每个字符的原始大小计算每个字符对应的横向拉伸系数和纵向拉伸系数;按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。本发明实施例主要应用于双层PDF文件的制作处理中。

Description

双层PDF文件的构造方法及装置
技术领域
本发明涉及计算机信息处理技术领域,尤其涉及一种双层PDF文件的构造方法及装置。
背景技术
双层PDF(Portable Document Format,便携文件格式)文件是一种具有多层结构的PDF格式文件,其文件内容既包含文本层,也包含图像层,且文本层与图像层的位置上下一一相对应。双层PDF文件是指将纸质资料等通过扫描仪得到扫描图像后,经过去污、纠偏和OCR(Optical Character Recognition,光学字符识别)识别,然后直接生成可以检索的PDF文件。这个PDF文件是双层的,上层是原始图像,下层是识别结果,从而可以100%保留原始版面效果,并且支持选择/复制/检索等功能,便于建立索引数据库,进行科学的管理。
然而,采用现有的双层PDF文件构造方法,将古代书籍等刻板印刷的字体制作成双层PDF文件时,由于现代字库中没有这些刻板印刷的字体相应的字符模型,因而,在将上述古代书籍制作得到的双层PDF文件进行显示时,无法准确确定这些刻板印刷的字体对应字块的大小,使得这些刻板印刷的字体在显示时非常不协调,破坏了版面的一致性,降低了双层PDF文件的显示质量。
发明内容
本发明的实施例提供一种双层PDF文件的构造方法及装置,提高了双层PDF文件的显示质量。
为达到上述目的,本发明的实施例采用如下技术方案:
一种双层PDF文件的构造方法,包括:
获取原始文字资料经过扫描、OCR识别后的文字图像中的各字符;
根据文字图像中的各字符中指定的参考字符计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;
根据所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和所述文字图像中的每个字符的原始大小计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数;
按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。
一种双层PDF文件的构造装置,包括:
获取单元,用于获取原始文字资料经过扫描、OCR识别后的文字图像中的每个字符;
第一计算单元,用于根据文字图像中的各字符中指定的参考字符计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;
第二计算单元,用于根据所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和所述文字图像中的每个字符的原始大小计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数;
生成单元,用于按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。
由上述技术方案所描述的本发明实施例中,通过计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;并计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数;按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。由于在生成所述双层PDF文件时,可以按照横向拉伸系数和纵向拉伸系数对字符进行处理,实现了字符横向和纵向不同比例的拉伸,进而使得PDF上的字符模型能够尽可能逼近纸质资料上字符的样式,提高了双层PDF文件的显示质量。特别地,对于古代书籍中特殊字符的还原具有重要意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供一种双层PDF文件的构造方法的流程图;
图2为本发明实施例1提供一种双层PDF文件的构造方法的实现示意图;
图3为本发明实施例1提供另一种双层PDF文件的构造方法的流程图;
图4为本发明实施例2提供一种双层PDF文件的构造装置的结构图;
图5为本发明实施例2提供另一种双层PDF文件的构造装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供一种双层PDF文件的构造方法,如图1所示,包括:
101、获取原始文字资料经过扫描、OCR识别后的文字图像中的每个字符;
具体地,获取原始文字资料经过扫描后的文字图像,获取文字图像经过光学字符识别OCR识别后的每个字符的识别结果和字符图像坐标。
102、根据文字图像中的各字符中指定的参考字符计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;
103、根据所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和所述文字图像中的每个字符的原始大小计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数;
104、按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。
本发明实施例中,通过计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;并计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数;按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。由于在生成所述双层PDF文件时,可以按照横向拉伸系数和纵向拉伸系数对字符进行处理,实现了字符横向和纵向不同比例的拉伸,进而使得PDF上的字符模型能够尽可能逼近纸质资料上字符的样式,提高了双层PDF文件的显示质量。
下面结合图2详细说明本发明实施例的实现方式。如图2所示,从左向右依次为原始文字图像、参考字符、计算得到的无拉伸的字符模型、进行拉伸后的字符模型、展示字符模型与原始文字图像的匹配效果,填充为竖向条纹的为原始图像区域,填充为横向条纹的为所示的计算得到的字符模型区域,显示为方格的区域即为两图匹配的区域。
进一步地,上述步骤102中,计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置可按如下方式实现:
首先,根据
Figure BDA0000088133520000061
计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小,其中,CalcSi为所述文字图像中的第i个字符在双层PDF文件上对应的目标字符大小,ImgHi为所述文字图像中的第i个字符的原始高度,RefS为指定参考字符的大小,RefHi为所述第i个字符对应的参考字符在RefS下字符模型中的字符图像的高度。
在图2中,ImgH、RefH、RefS和CalcS依次进行展示,其中,RefH为所述指定参考字符在RefS下的高度。
例如,选取TrueType的宋体字作为指定参考字符,RefS具体可以为四号。当一个字符的大小(亦即字号)确定之后,该字符的高度和宽度也随之确定。
其次,根据CalcSi计算所述文字图像中的每个字符对应的字符模型的各项组成数据,包括CalcHi、CalcWi、CalcXi、CalcYi、CellHi和CellWi;其中,CalcSi为所述文字图像中的第i个字符在双层PDF文件上对应的目标字符大小,字符模型为所述文字图像中的字符在双层PDF文件上对应的显示字块,CalcHi为字符模型中的字符图像的高度,CalcWi为字符模型中的字符图像的宽度,CalcXi为字符模型中的字符图像距离模型左上角的水平偏移量,CalcYi为字符模型中的字符图像距离模型左上角的垂直偏移量,CellHi为字符模型的高度,CellWi为字符模型的宽度。
上述根据CalcSi计算所述文字图像中的每个字符对应的字符模型的各项组成数据,具体可以通过现有windows底层功能模块提供的计算方法实现(上述windows底层功能模块是一个通用的计算模块),具体实现过程为:根据每个字符对应的字符模型读取操作系统中的字体描述文件,从该字体描述文件中即可获取每个字符对应的字符模型的各项组成数据。更加详细的实现过程可以参见现有技术中的相关描述。
需要说明的是,如果忽略乘除运算引入的误差,则CalcHi与ImgHi应相等,CellHi与CalcSi应相等。
之后,根据ShowPt_X=ImgPt_X-CalcXi和ShowPt_Y=ImgPt_Y-CalcYi计算所述文字图像中的每个字符的目标显示位置,其中,所述ShowPt_X,ShowPt_Y为所述文字图像中的每个字符的目标显示位置的坐标值,ImgPt_X,ImgPt_Y为文字图像上的每个字符的左上角的坐标值。例如,图2中的最左侧中所示的所述文字图像中的每个字符所在原始字块的左上角的点ImgPt。图2中示出了待匹配的点MatchPt,令MatchPt=ImgPt,则将ImgPt的坐标减去偏移量CalcXi,CalYi,即可得到图像中所述文字图像中的每个字符的目标显示位置ShowPt的坐标值。后续在生成双层PDF文件时,将字符模型按照目标显示位置ShowPt进行放置,可以实现MatchPt应与ImgPt重合,进而实现图2中所示的匹配效果。
进一步地,上述步骤103中,计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数具体采用如下方式实现:
根据
Figure BDA0000088133520000081
计算所述文字图像中的每个字符在双层PDF文件上对应的纵向拉伸系数,其中,Ri为所述文字图像中的第i个字符在双层PDF文件上对应的纵向拉伸系数,ImgHi为所述文字图像中的第i个字符的原始高度,CalcHi为所述文字图像中的第i个字符在双层PDF文件上对应的字符模型中的字符图像的高度;需要说明的是,如果忽略乘除运算引入的误差,则CalcHi与ImgHi应相等,即Ri趋近于1;并,根据
Figure BDA0000088133520000082
计算所述文字图像中的每个字符在双层PDF文件上对应的横向拉伸系数,其中,Si为所述文字图像中的第i个字符在双层PDF文件上对应的横向拉伸系数,CalcWi为所述文字图像中的第i个字符在双层PDF文件上对应的字符模型中的字符图像的宽度,ImgWi为所述文字图像中的第i个字符的原始宽度。
之后,分别根据CalcYi=CalcYi·Ri调整CalcYi,根据CalcXi=CalcXi·Si调整CalcXi。由于CalcXi、CalcYi随横向拉伸系数、纵向拉伸系数的变化而改变,因而需要将CalcXi、CalcYi进行实时调整。同理,根据ShowPt_X=ImgPt_X-CalcXi调整ShowPt_X,根据ShowPt_Y=ImgPt_Y-CalcYi调整ImgPt_Y。
当获取到上述文字图像上的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数后,即可按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。具体生成过程为:按照PDF文件格式的相关规定利用所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成双层PDF文件。
由于在古代书籍竖向排版的页面中,汉字“七”“九”等具有纵向窄的排版效果,不同于常规宋体字横向和纵向宽度相同的构成特点,因而,采用本发明实施例提供的方法可以计算出每个字符对应的横向拉伸系数和纵向拉伸系数,并按照每个字符对应的横向拉伸系数和纵向拉伸系数对字符进行缩放处理,从而使得最终生成的PDF上的字符模型能够尽可能逼近纸质资料上字符的样式,提高了双层PDF文件的显示质量。
进一步地,可选的,为了对双层PDF文件的显示效果进行优化,本发明实施例还可实现对每个字符所在行中的文字进行行对齐处理。如图3所示,该方法还包括:
105、当所述文字图像中的字符为横向排版时,获取所述文字图像中的每个字符所在行的上边界值和下边界值。
具体地,当所述文字图像中的字符为横向排版时,确定所述文字图像中的当前字符所在行中的所有字符的上边界值的平均值为所述当前字符所在行的上边界值;确定所述文字图像中的当前字符所在行中的所有字符的下边界值的平均值为所述当前字符所在行的下边界值。
106、根据所述文字图像中的每个字符所在行的上边界值和下边界值,调整所述文字图像中的每个字符的纵向拉伸系数。
具体地,根据
Figure BDA0000088133520000101
调整所述文字图像中的每个字符的纵向拉伸系数,其中,Ri为所述文字图像中的第i个字符调整后的纵向拉伸系数,Pij为所述文字图像中的第i个字符所在的第j行的下边界值,Qij为所述文字图像中的第i个字符所在的第j行的上边界值,Hi为所述文字图像中的第i个字符在当前字号下对应的高度。
之后,采用每个字符调整后的纵向拉伸系数重新生成双层PDF文件。
需要说明的是,本发明实施例中字符的高度、宽度、水平偏移值和垂直偏移值均以像素为单位。
另,图3所示的方法中描述的是当文字采用横向排版时进行的行对齐处理,当然,本发明实施例还可以实现当文字采用纵向排版时,对文字进行行对齐处理,此时,获取所述文字图像中的每个字符所在列的左边界值和右边界值,并根据所述文字图像中的每个字符所在列的左边界值和右边界值,调整所述文字图像中的每个字符的横向拉伸系数。具体实现过程与上述图3所示的方法类似,在此不再赘述。
实施例2
本发明实施例提供一种双层PDF文件的构造装置,如图4所示,包括:获取单元11,第一计算单元12,第二计算单元13和生成单元14。
其中,获取单元11,用于获取原始文字资料经过扫描、光学字符识别OCR识别后的文字图像中的每个字符;
第一计算单元12,用于根据文字图像中的各字符中指定的参考字符计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;
第二计算单元13,用于根据所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和所述文字图像中的每个字符的原始大小计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数;
生成单元14,用于按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。
本发明实施例中,通过计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;并计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数;按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。由于在生成所述双层PDF文件时,可以按照横向拉伸系数和纵向拉伸系数对字符进行处理,实现了字符横向和纵向不同比例的拉伸,进而使得PDF上的字符模型能够尽可能逼近纸质资料上字符的样式,提高了双层PDF文件的显示质量。
进一步的,所述第一计算单元12具体用于根据
Figure BDA0000088133520000111
计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小,其中,CalcSi为所述文字图像中的第i个字符在双层PDF文件上对应的目标字符大小,ImgHi为所述文字图像中的第i个字符的原始高度,RefS为指定参考字符的大小,为所述第i个字符对应的参考字符在RefS下字符模型中的字符图像的高度。
所述第一计算单元12还具体用于根据CalcSi计算所述文字图像中的每个字符对应的字符模型的各项组成数据,所述组成数据包括CalcHi、CalcWi、CalcXi、CalcYi,其中,CalcSi为所述文字图像中的第i个字符在双层PDF文件上对应的目标字符大小,字符模型为所述文字图像中的字符在双层PDF文件上对应的显示字块,CalcHi为字符模型中的字符图像的高度,CalcWi为字符模型中的字符图像的宽度,CalcXi为字符模型中的字符图像距离模型左上角的水平偏移量,CalcYi为字符模型中的字符图像距离模型左上角的垂直偏移量,CellHi为字符模型的高度,CellWi为字符模型的宽度。
所述第一计算单元12还具体用于根据ShowPt_X=ImgPt_X-CalcXi和ShowPt_Y=ImgPt_Y-CalcYi计算所述文字图像中的每个字符的目标显示位置,其中,所述ShowPt_X,ShowPt_Y为所述文字图像中的每个字符的目标显示位置的坐标值,ImgPt_X,ImgPt_Y为文字图像上的每个字符的左上角的坐标值。
进一步地,所述第二计算单元13具体用于根据
Figure BDA0000088133520000121
计算所述文字图像中的每个字符在双层PDF文件上对应的纵向拉伸系数,其中,Ri为所述文字图像中的第i个字符在双层PDF文件上对应的纵向拉伸系数,CalcHi为所述文字图像中的第i个字符在双层PDF文件上对应的字符模型中的字符图像的高度,ImgHi为所述文字图像中的第i个字符的原始高度;
所述第二计算单元13还具体用于根据
Figure BDA0000088133520000131
计算所述文字图像中的每个字符在双层PDF文件上对应的横向拉伸系数,其中,Si为所述文字图像中的第i个字符在双层PDF文件上对应的横向拉伸系数,CalcWi为所述文字图像中的第i个字符在双层PDF文件上对应的字符模型中的字符图像的宽度,ImgWi为所述文字图像中的第i个字符的原始宽度。
如图5所示,所述装置还包括:调整单元16,用于分别根据CalcYi=CalcYi·Ri调整CalcYi,根据CalcXi=CalcXi·Si调整CalcXi;同时,根据ShowPt_X=ImgPt_X-CalcXi调整ShowPt_X,根据ShowPt_Y=ImgPt_Y-CalcYi调整ImgPt_Y。
进一步地,可选的,为了对双层PDF文件的显示效果进行优化,本发明实施例还可实现对每个字符所在行中的文字进行行对齐处理。如图5所示,该装置还包括:边界值获取单元15。
边界值获取单元15,用于当所述文字图像中的字符为横向排版时,获取所述文字图像中的每个字符所在行的上边界值和下边界值。
具体地,所述边界值获取单元15具体用于当所述文字图像中的字符为横向排版时,确定所述文字图像中的当前字符所在行中的所有字符的上边界值的平均值为所述当前字符所在行的上边界值。所述边界值获取单元还15具体用于确定所述文字图像中的当前字符所在行中的所有字符的下边界值的平均值为所述当前字符所在行的下边界值。
所述调整单元16还用于根据所述文字图像中的每个字符所在行的上边界值和下边界值,调整所述文字图像中的每个字符的纵向拉伸系数。
具体地,所述调整单元16具体用于根据
Figure BDA0000088133520000141
调整所述文字图像中的每个字符的纵向拉伸系数,其中,Ri为所述文字图像中的第i个字符调整后的纵向拉伸系数,Pij为所述文字图像中的第i个字符所在的第j行的下边界值,Qij为所述文字图像中的第i个字符所在的第j行的上边界值,Hi为所述文字图像中的第i个字符在当前字号下对应的字符模型的高度。
边界值获取单元15还用于当所述文字图像中的字符为纵向排版时,获取所述文字图像中的每个字符所在列的左边界值和右边界值.
所述调整单元16还用于根据所述文字图像中的每个字符所在列的左边界值和右边界值,调整所述文字图像中的每个字符的横向拉伸系数。
本发明实施例主要应用于双层PDF文件的制作处理中。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种双层PDF文件的构造方法,其特征在于,包括:
获取原始文字资料经过扫描、OCR识别后的文字图像中的各字符;
根据文字图像中的各字符中指定的参考字符计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;
根据所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和所述文字图像中的每个字符的原始大小计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数;
按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。
2.根据权利要求1所述的双层PDF文件的构造方法,其特征在于,所述根据文字图像中的各字符指定的参考字符计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置包括:
根据
Figure FDA0000088133510000011
计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小;其中,CalcSi为所述文字图像上的第i个字符在双层PDF文件上对应的目标字符大小,ImgHi为所述文字图像上的第i个字符的原始高度,RefS为指定参考字符的大小,RefHi为所述第i个字符对应的参考字符在RefS下字符模型中的字符图像的高度;
根据CalcSi计算所述文字图像中的每个字符对应的字符模型的各项组成数据;所述组成数据包括:CalcHi、CalcWi、CalcXi、CalcYi,其中,CalcSi为所述文字图像上的第i个字符在双层PDF文件上对应的目标字符大小,字符模型为所述文字图像中的字符在双层PDF文件上对应的显示字块,CalcHi为字符模型中的字符图像的高度,CalcWi为字符模型中的字符图像的宽度,CalcXi为字符模型中的字符图像距离模型左上角的水平偏移量,CalcYi为字符模型中的字符图像距离模型左上角的垂直偏移量;
根据ShowPt_X=ImgPt_X-CalcXi和ShowPt_Y=ImgPt_Y-CalcYi计算所述文字图像中的每个字符的目标显示位置,其中,所述ShowPt_X,ShowPt_Y为所述文字图像中的每个字符的目标显示位置的坐标值,ImgPt_X,ImgPt_Y为文字图像上的每个字符所在原始字块的左上角的坐标值。
3.根据权利要求2所述的双层PDF文件的构造方法,其特征在于,所述根据所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和所述文字图像中的每个字符的原始大小计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数包括:
根据
Figure FDA0000088133510000021
计算所述文字图像中的每个字符在双层PDF文件上对应的纵向拉伸系数;其中,Ri为所述文字图像上的第i个字符在双层PDF文件上对应的纵向拉伸系数,ImgHi为所述文字图像上的第i个字符的原始高度,CalcHi为所述文字图像上的第i个字符在双层PDF文件上对应的字符模型中的字符图像的高度;
根据计算所述文字图像中的每个字符在双层PDF文件上对应的横向拉伸系数;其中,Si为所述文字图像上的第i个字符在双层PDF文件上对应的横向拉伸系数,ImgWi为所述文字图像上的第i个字符的原始宽度,CalcWi为所述文字图像上的第i个字符在双层PDF文件上对应的字符模型中的字符图像的宽度;
分别根据CalcYi=CalcYi·Ri调整CalcYi,根据CalcXi=CalcXi·Si调整CalcXi,同时,分别根据ShowPt_X=ImgPt_X-CalcXi调整ShowPt_X,根据ShowPt_Y=ImgPt_Y-CalcYi调整ImgPt_Y。
4.根据权利要求1所述的双层PDF文件的构造方法,其特征在于,还包括:
当所述文字图像中的字符为横向排版时,获取所述文字图像中的每个字符所在行的上边界值和下边界值;
根据所述文字图像中的每个字符所在行的上边界值和下边界值,调整所述文字图像中的每个字符的纵向拉伸系数;
当所述文字图像中的字符为纵向排版时,获取所述文字图像中的每个字符所在列的左边界值和右边界值;
根据所述文字图像中的每个字符所在列的左边界值和右边界值,调整所述文字图像中的每个字符的横向拉伸系数。
5.根据权利要求4所述的双层PDF文件的构造方法,其特征在于,所述当所述文字图像中的字符为横向排版时,获取所述文字图像中的每个字符所在行的上边界值和下边界值包括:
确定所述文字图像中的当前字符所在行中的所有字符的上边界值的平均值为所述当前字符所在行的上边界值;
确定所述文字图像中的当前字符所在行中的所有字符的下边界值的平均值为所述当前字符所在行的下边界值。
6.根据权利要求4所述的双层PDF文件的构造方法,其特征在于,所述根据所述文字图像中的每个字符所在行的上边界值和下边界值,调整所述文字图像中的每个字符的纵向拉伸系数包括:
根据
Figure FDA0000088133510000041
调整所述文字图像中的每个字符的纵向拉伸系数,其中,Ri为所述文字图像中的第i个字符调整后的纵向拉伸系数,Pij为所述文字图像中的第i个字符所在的第j行的下边界值,Qij为所述文字图像中的第i个字符所在的第j行的上边界值,Hi为所述文字图像中的第i个字符在当前字号下对应的字符模型的高度。
7.一种双层PDF文件的构造装置,其特征在于,包括:
获取单元,用于获取原始文字资料经过扫描、OCR识别后的文字图像中的各字符;
第一计算单元,用于根据文字图像中的各字符中指定的参考字符计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;
第二计算单元,用于根据所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和所述文字图像中的每个字符的原始大小计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数;
生成单元,用于按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。
8.根据权利要求7所述的双层PDF文件的构造装置,其特征在于,所述第一计算单元具体用于根据
Figure FDA0000088133510000051
计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小,其中,CalcSi为所述文字图像中的第i个字符在双层PDF文件上对应的目标字符大小,ImgHi为所述文字图像中的第i个字符的原始高度,RefS为指定参考字符的大小,RefHi为所述第i个字符对应的参考字符在RefS下字符模型中的字符图像的高度;
所述第一计算单元还具体用于根据CalcSi计算所述文字图像中的每个字符对应的字符模型的各项组成数据,所述组成数据包括:CalcHi、CalcWi、CalcXi、CalcYi,其中,CalcSi为所述文字图像中的第i个字符在双层PDF文件上对应的目标字符大小,字符模型为所述文字图像中的字符在双层PDF文件上对应的显示字块,CalcHi为字符模型中的字符图像的高度,CalcWi为字符模型中的字符图像的宽度,CalcXi为字符模型中的字符图像距离模型左上角的水平偏移量,CalcYi为字符模型中的字符图像距离模型左上角的垂直偏移量;
所述第一计算单元还具体用于根据ShowPt_X=ImgPt_X-CalcXi和ShowPt_Y=ImgPt_Y-CalcYi计算所述文字图像中的每个字符的目标显示位置,其中,所述ShowPt_X,ShowP t_Y为所述文字图像中的每个字符的目标显示位置的坐标值,ImgPt_X,ImgPt_Y为文字图像上的每个字符所在原始字块的左上角的坐标值。
9.根据权利要求8所述的双层PDF文件的构造装置,其特征在于,所述第二计算单元具体用于根据计算所述文字图像中的每个字符在双层PDF文件上对应的纵向拉伸系数,其中,Ri为所述文字图像中的第i个字符在双层PDF文件上对应的纵向拉伸系数,CalcHi为所述文字图像中的第i个字符在双层PDF文件上对应的字符模型中的字符图像的高度,ImgHi为所述文字图像中的第i个字符的原始高度;
所述第二计算单元还具体用于根据计算所述文字图像中的每个字符在双层PDF文件上对应的横向拉伸系数,其中,Si为所述文字图像中的第i个字符在双层PDF文件上对应的横向拉伸系数,CalcWi为所述文字图像中的第i个字符在双层PDF文件上对应的字符模型中的字符图像的宽度,ImgWi为所述文字图像中的第i个字符的原始宽度;
所述装置还包括:调整单元,用于分别根据CalcYi=CalcYi·Ri调整CalcYi,根据CalcXi=CalcXi·Si调整CalcXi;还用于根据ShowPt_X=ImgPt_X-CalcXi调整ShowPt_X,根据ShowPt_Y=ImgPt_Y-CalcYi调整ImgPt_Y。
10.根据权利要求9所述的双层PDF文件的构造装置,其特征在于,还包括:
边界值获取单元,用于当所述文字图像中的字符为横向排版时,获取所述文字图像中的每个字符所在行的上边界值和下边界值;
所述调整单元还用于根据所述文字图像中的每个字符所在行的上边界值和下边界值,调整所述文字图像中的每个字符的纵向拉伸系数;
边界值获取单元还用于当所述文字图像中的字符为纵向排版时,获取所述文字图像中的每个字符所在列的左边界值和右边界值;
所述调整单元还用于根据所述文字图像中的每个字符所在列的左边界值和右边界值,调整所述文字图像中的每个字符的横向拉伸系数。
11.根据权利要求10所述的双层PDF文件的构造装置,其特征在于,所述边界值获取单元具体用于确定所述文字图像中的当前字符所在行中的所有字符的上边界值的平均值为所述当前字符所在行的上边界值;
所述边界值获取单元还具体用于确定所述文字图像中的当前字符所在行中的所有字符的下边界值的平均值为所述当前字符所在行的下边界值。
12.根据权利要求10所述的双层PDF文件的构造装置,其特征在于,所述调整单元具体用于根据
Figure FDA0000088133510000071
调整所述文字图像中的每个字符的纵向拉伸系数,其中,Ri为所述文字图像中的第i个字符调整后的纵向拉伸系数,Pij为所述文字图像中的第i个字符所在的第j行的下边界值,Qij为所述文字图像中的第i个字符所在的第j行的上边界值,Hi为所述文字图像中的第i个字符在当前字号下对应的字符模型的高度。
CN201110256474.9A 2011-08-31 2011-08-31 双层pdf文件的构造方法及装置 Active CN102968407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110256474.9A CN102968407B (zh) 2011-08-31 2011-08-31 双层pdf文件的构造方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110256474.9A CN102968407B (zh) 2011-08-31 2011-08-31 双层pdf文件的构造方法及装置

Publications (2)

Publication Number Publication Date
CN102968407A true CN102968407A (zh) 2013-03-13
CN102968407B CN102968407B (zh) 2015-09-09

Family

ID=47798555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110256474.9A Active CN102968407B (zh) 2011-08-31 2011-08-31 双层pdf文件的构造方法及装置

Country Status (1)

Country Link
CN (1) CN102968407B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714047A (zh) * 2013-11-12 2014-04-09 知识产权出版社 横向校对和输出双层pdf的方法和装置
CN104166849A (zh) * 2013-05-17 2014-11-26 北大方正集团有限公司 一种电子文档识别方法及装置
CN105335346A (zh) * 2015-11-09 2016-02-17 汉王科技股份有限公司 一种pdf文档的文本提取方法和装置
CN109684606A (zh) * 2018-12-21 2019-04-26 人教数字出版有限公司 一种在pdf页面上呈现艺术效果的方法和装置
CN109815187A (zh) * 2017-11-22 2019-05-28 江苏文心古籍数字产业有限公司 一种双层pdf生成装置的支撑结构
CN109948137A (zh) * 2017-12-21 2019-06-28 江苏奥博洋信息技术有限公司 双层pdf批量统一大小的方法
CN110222617A (zh) * 2019-05-29 2019-09-10 四川译讯信息科技有限公司 一种pdf文件修复方法和系统
CN112667115A (zh) * 2020-12-22 2021-04-16 科大讯飞股份有限公司 文字显示方法以及电子设备、存储装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181754A1 (en) * 2003-03-12 2004-09-16 Kremer Karl Heinz Manual and automatic alignment of pages
US20080212901A1 (en) * 2007-03-01 2008-09-04 H.B.P. Of San Diego, Inc. System and Method for Correcting Low Confidence Characters From an OCR Engine With an HTML Web Form
CN101510421A (zh) * 2009-01-16 2009-08-19 北京中星微电子有限公司 一种调整点阵字符大小的方法、装置及一种嵌入式系统
CN101916174A (zh) * 2010-06-28 2010-12-15 汉王科技股份有限公司 电子文档笔迹的显示方法及装置、处理方法及装置
CN101980133A (zh) * 2010-10-29 2011-02-23 方正国际软件有限公司 双层电子文件文本选择区域偏差的检测方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181754A1 (en) * 2003-03-12 2004-09-16 Kremer Karl Heinz Manual and automatic alignment of pages
US20080212901A1 (en) * 2007-03-01 2008-09-04 H.B.P. Of San Diego, Inc. System and Method for Correcting Low Confidence Characters From an OCR Engine With an HTML Web Form
CN101510421A (zh) * 2009-01-16 2009-08-19 北京中星微电子有限公司 一种调整点阵字符大小的方法、装置及一种嵌入式系统
CN101916174A (zh) * 2010-06-28 2010-12-15 汉王科技股份有限公司 电子文档笔迹的显示方法及装置、处理方法及装置
CN101980133A (zh) * 2010-10-29 2011-02-23 方正国际软件有限公司 双层电子文件文本选择区域偏差的检测方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李一平: "《大学图书馆发展与和谐社会构建》", 30 June 2007, 西南交通大学出版社 *
艾红等: "方正书版大样转双层PDF文件的实现方法", 《武汉理工大学学报 信息与管理工程版》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166849A (zh) * 2013-05-17 2014-11-26 北大方正集团有限公司 一种电子文档识别方法及装置
CN104166849B (zh) * 2013-05-17 2017-04-19 北大方正集团有限公司 一种电子文档识别方法及装置
CN103714047A (zh) * 2013-11-12 2014-04-09 知识产权出版社 横向校对和输出双层pdf的方法和装置
CN103714047B (zh) * 2013-11-12 2017-10-10 北京中献电子技术开发中心 横向校对和输出双层pdf的方法和装置
CN105335346A (zh) * 2015-11-09 2016-02-17 汉王科技股份有限公司 一种pdf文档的文本提取方法和装置
CN105335346B (zh) * 2015-11-09 2018-12-04 汉王科技股份有限公司 一种pdf文档的文本提取方法和装置
CN109815187A (zh) * 2017-11-22 2019-05-28 江苏文心古籍数字产业有限公司 一种双层pdf生成装置的支撑结构
CN109948137A (zh) * 2017-12-21 2019-06-28 江苏奥博洋信息技术有限公司 双层pdf批量统一大小的方法
CN109684606A (zh) * 2018-12-21 2019-04-26 人教数字出版有限公司 一种在pdf页面上呈现艺术效果的方法和装置
CN109684606B (zh) * 2018-12-21 2023-09-01 人教数字出版有限公司 一种在pdf页面上呈现艺术效果的方法和装置
CN110222617A (zh) * 2019-05-29 2019-09-10 四川译讯信息科技有限公司 一种pdf文件修复方法和系统
CN112667115A (zh) * 2020-12-22 2021-04-16 科大讯飞股份有限公司 文字显示方法以及电子设备、存储装置

Also Published As

Publication number Publication date
CN102968407B (zh) 2015-09-09

Similar Documents

Publication Publication Date Title
CN102968407B (zh) 双层pdf文件的构造方法及装置
CN102768754B (zh) 一种图片验证码的实现方法和装置
KR102074396B1 (ko) 3차원 디지털 인쇄 방법 및 장치
CN102622593B (zh) 一种文本识别方法及系统
JP3049672B2 (ja) 画像処理方法及び装置
CN107944451B (zh) 一种藏文古籍文档的行切分方法及系统
CN104915332A (zh) 一种生成排版模板的方法及装置
JP5321109B2 (ja) 情報処理装置及び情報処理プログラム
CN102693553A (zh) 一种实现三维效果的图表创建方法及装置
CN104133809B (zh) 一种字形加粗方法
US7961191B2 (en) Outline font brightness value correction system, method and program
CN103984944A (zh) 对一组图像中目标物体进行提取并连续播放的方法和装置
CN1083605A (zh) 结合非交叠技术和网格选配技术的图示符光栅化方法
CN101686309B (zh) 一种图像路径生成陷印的方法及装置
CN105474267A (zh) 硬件字形缓存
CN102592261B (zh) 矢量图展现方法及系统
CN101540002B (zh) 一种适于低精度印刷的多媒体印刷系统的实现方法
CN112785536B (zh) 一种消除拼缝的三维瓷砖打印文件转换方法、装置、介质
KR101524074B1 (ko) 영상 처리 방법
WO2016174952A1 (ja) 筆記データ処理装置
US8933999B2 (en) Stereoscopic image display control apparatus, and method and program for controlling operation of same
JP6152633B2 (ja) 表示制御装置及びプログラム
CN102103590B (zh) 一种动态添加互斥区域的排版方法及系统
CN112700457B (zh) 分色图转换3d打印文件时图像拼缝处理方法、装置、介质
US11718117B1 (en) Methods and systems for processing tessellated graphics for digital printing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant