CN102081594A - 从可移植电子文档中提取字符外接矩形的设备和方法 - Google Patents

从可移植电子文档中提取字符外接矩形的设备和方法 Download PDF

Info

Publication number
CN102081594A
CN102081594A CN2009102498491A CN200910249849A CN102081594A CN 102081594 A CN102081594 A CN 102081594A CN 2009102498491 A CN2009102498491 A CN 2009102498491A CN 200910249849 A CN200910249849 A CN 200910249849A CN 102081594 A CN102081594 A CN 102081594A
Authority
CN
China
Prior art keywords
font
character
resource
metric
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009102498491A
Other languages
English (en)
Other versions
CN102081594B (zh
Inventor
徐文晖
杜成
长谷川史裕
井上浩一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN200910249849.1A priority Critical patent/CN102081594B/zh
Priority to US12/952,265 priority patent/US8452097B2/en
Priority to EP10192425.6A priority patent/EP2328098B1/en
Priority to JP2010263936A priority patent/JP5664174B2/ja
Publication of CN102081594A publication Critical patent/CN102081594A/zh
Application granted granted Critical
Publication of CN102081594B publication Critical patent/CN102081594B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种从可移植电子文档中提取字符外接矩形的设备和方法。该设备包括:命令及资源提取装置,针对可移植电子文档的页,提取与页中的文本段相应的文本段相关命令和字体资源;划分装置,将字体资源划分为无需替换的字体和需要替换的字体,需要替换的字体作为待替换字体;字体替换装置,在外部替换字体列表中寻找与待替换字体在字形度量上最相似的字体作为替补字体,以替换待替换字体,替补字体和无需替换的字体组成替换后字体的字体资源;度量信息提取装置,根据替换后字体的字体资源来提取文本段的字符的字形度量信息;计算装置,根据文本段相关命令和字符的字形度量信息,来计算字符的外接矩形。

Description

从可移植电子文档中提取字符外接矩形的设备和方法
技术领域
本发明提供一种从可移植电子文档中提取字符外接矩形的设备和方法,更具体地说,本发明涉及一种在字体需要替换的情况下从可移植电子文档中提取字符外接矩形的设备和方法。
背景技术
可移植的电子文档,如PDF(Portable Document Format,便携式文档格式)、PS(PostScript),在日常办公室工作中被广泛应用。但是从可移植电子文档中提取特定信息还是困难的工作,比如,Adobe Acrobat能从PDF文档中提取字符外接矩形,但提取结果有时并不能令人满意,其原因在于,如果PDF中的某种字体不可用即缺乏字形度量信息,则无法提取该字体的字符的外接矩形。
已经存在的字体替换算法主要关注于字符的栅格化,寻找视觉上相似的字体。但是这些算法并不适用于字符外接矩形的提取。字符外接矩形提取需要寻找在字形度量上相似的字体,而不是视觉上相似。
美国专利6801673B2提供用来提取PDF文档中的词的方法。该专利通过查找文本段中的词分隔字符(空格)来提取词,或者通过判断相邻文本段之间的距离,如果该距离大于某门限值,则相邻的文本段被分为两个词。该专利的输入是PDF文档,输出是该文档所包含的词的集合。
美国专利5859648提供了一种用于计算机的字体替换方法。该方法主要寻找与被替换字体视觉外形上相似的字体,目的是为了字符的栅格化。该专利首先在字体列表中查找选择一个相似的字体,然后调整整体字体宽度以避免字符在视觉外观上的改变;其中,相似字体的选择是根据字体视觉外观的相似性进行评分,没有考虑字形度量上的相似性。对于字符外接矩形的提取,需要寻找在字形度量上相似的字体,而不是视觉上相似的字体,因此该专利的字体替换算法对于字符外接矩形提取没有效果。
发明内容
鉴于现有技术中存在的上述问题而作出本发明,本发明针对可移植电子文档中存在某些字体缺乏字形度量信息的情况,提出了一种通过字体替换来从可移植电子文档中提取字符外接矩形的设备和方法。字符的外接矩形也可以称为字符的最小外接矩形。本发明属于文档处理领域,可应用于文档内容提取、文档重用以及文档检索。
根据本发明的一个方面,提供一种从可移植电子文档中提取字符外接矩形的设备,包括:命令及资源提取装置,针对可移植电子文档的页,提取与页中的文本段相应的文本段相关命令和字体资源;划分装置,将字体资源划分为无需替换的字体和需要替换的字体,所述需要替换的字体作为待替换字体;字体替换装置,在外部替换字体列表中寻找与待替换字体在字形度量上最相似的字体作为替补字体,以替换待替换字体,所述替补字体和所述无需替换的字体组成替换后字体的字体资源;度量信息提取装置,根据替换后字体的字体资源来提取文本段的字符的字形度量信息;计算装置,根据文本段相关命令和字符的字形度量信息,来计算字符的外接矩形。
根据本发明的另一个方面,提供一种从可移植电子文档中提取字符外接矩形的方法,包括:命令及资源提取步骤,针对可移植电子文档的页,提取与页中的文本段相应的文本段相关命令和字体资源;划分步骤,将字体资源划分为无需替换的字体和需要替换的字体,所述需要替换的字体作为待替换字体;字体替换步骤,在外部替换字体列表中寻找与待替换字体在字形度量上最相似的字体作为替补字体,以替换待替换字体,所述替补字体和所述无需替换的字体组成替换后字体的字体资源;度量信息提取步骤,根据替换后字体的字体资源来提取文本段的字符的字形度量信息;计算步骤,根据文本段相关命令和字符的字形度量信息,来计算字符的外接矩形。
本发明能够用于从诸如PDF、PS的可移植电子文档中提取字符的最小外接矩形,所提取的字符外接矩形可以用于文档重用或者文档检索等。例如,通过比较字符外接矩形的几何分布关系,可以实现电子文档和文档图像之间的匹配,从而实现文档检索。
通过阅读结合附图考虑的以下本发明的优选实施例的详细描述,将更好地理解本发明的以上和其他目标、特征、优点和技术及工业重要性。
附图说明
图1示出根据本发明实施例的实现从可移植电子文档中提取字符外接矩形的计算机系统。
图2示出根据本发明实施例的从可移植电子文档中提取字符外接矩形的设备的总体框图。
图3示例性地示出字符“g”的字形度量信息。
图4示例性地示出字符外接矩形提取的效果对比,左侧为采用开源软件sumatrapdf的字体替换方法来提取字符外接矩形的效果,右侧为应用本发明实施例来提取字符外接矩形的效果。
具体实施方式
如图1所示,一种根据本发明实施例的实现从可移植电子文档中提取字符外接矩形的计算机系统10包括:计算机11、键盘16、显示器17、打印机18、软盘驱动器19、网络接入器20、及硬盘驱动器21。计算机11包括:数据总线12、随机存储器(RAM)13、只读存储器(ROM)14、中央处理器15、及外设总线22。
根据从随机存储器13中接到的指令,中央处理器15控制所输入数据的接收和处理、以及向显示器17或者其他外设的输出。在本实施例中,中央处理器15的一个功能是处理输入的PDF文档,提取文档中包含的字符的外接矩形。提取的字符外接矩形可以供中央处理器15中的其他应用程序使用。
中央处理器15通过数据总线12来访问随机存储器13和只读存储器14。随机存储器13被中央处理器15用作可读写的内存,用作各个进程的工作区及可变数据存储区。只读存储器14存储诸如PDF的可移植电子文档、字符外接矩形提取程序、以及其他的应用所提取的字符外接矩形的程序。
外设总线22用于访问与计算机11相连的输入、输出以及存储等外围设备。在本实施例中,所述外围设备包括显示器17、打印机18、软盘驱动器19、网络接入器20、及硬盘驱动器21。显示器17通过外设总线22来显示中央处理器15输出的数据和图像。显示器17可以是栅格式显示设备,诸如CRT或LCD显示器。打印机18把中央处理器15输入的数据和图像打印到纸张或者是和纸张相似的媒介。为了在如显示器17或打印机18等输出设备上显示PDF文档,计算机系统10需要实现文档栅格化过程来进行从PDF文档到其对应图像表示的转换。在其他的实施例中,如打印机18等输出设备上也可以包括中央处理器或相似的处理器以实现类似的PDF文档到图像的转换。软盘驱动器19及硬盘驱动器21用来存储PDF文档。通过软盘驱动器19,PDF文档可以在不同计算机系统之间传递。硬盘驱动器21存储空间更大,而且访问速度更快。其他的存储设备,比如闪存,也可以用来存储PDF文件供计算机系统10访问。计算机系统10通过网络接入器20在网络上发送数据和接收来自其他计算机系统的数据。用户可以通过键盘16输入指令给计算机系统10。
图2示出根据本发明实施例的从可移植电子文档中提取字符外接矩形的设备的总体框图。该从可移植电子文档中提取字符外接矩形的设备包括:命令及资源提取装置100,针对可移植电子文档的页,提取与页中的文本段相应的文本段相关命令和字体资源;划分装置200,将字体资源划分为无需替换的字体和需要替换的字体,所述需要替换的字体作为待替换字体;字体替换装置300,在外部替换字体列表中寻找与待替换字体在字形度量上最相似的字体作为替补字体,以替换待替换字体,所述替补字体和所述无需替换的字体组成替换后字体的字体资源;度量信息提取装置400,根据替换后字体的字体资源来提取文本段的字符的字形度量信息;计算装置500,根据文本段相关命令和字符的字形度量信息,来计算字符的外接矩形。
可移植电子文档可以是PDF格式文档,也可以是诸如PS的其它格式的可移植电子文档。
字符外接矩形的提取需要两种类型的字体信息——字符编码表和字形度量表。其中,字符编码表反映字符代码和字符名称的对应关系,例如,对于字符代码65,相对应的字符名称可以是“A”。PDF使用不同类型的字体编码方法,需要判断每种字体所对应的编码方式。字形度量表反映字符名称和字形度量信息的对应关系。
图3示例性地示出字符“g”的字形度量信息。如图3所示,字形度量信息包括字形的宽度、高度、x方向最大值和最小值、y方向最大值和最小值、原点(起始位置)等信息。划分装置200、字体替换装置300、度量信息提取装置400解析字体资源并提取上述两种类型的字体信息——字符编码表和字形度量表。大部分字体包含上述两类信息,但是有一些字体仅包含部分字体属性,诸如字体名字(如楷体、宋体、Times New Roman等)、字体风格(如斜体、加粗等)等,缺乏提取字符外接矩形所需要的数据,如字形度量信息等。因此,需要进行字体替换以替代这些字体,并保证替换前后的两种字体在字形几何度量上的相似性。计算装置500根据字形度量和文本段度量信息计算字符的外接矩形。
命令及资源提取装置100包括:内容流提取装置110,从可移植电子文档中提取内容流并解码;命令提取装置120,从解码的内容流中提取文本段相关命令;字体资源提取装置130,从可移植电子文档中页的资源中提取与文本段相关命令相对应的字体资源。
内容流提取装置110解析PDF文档结构,获得文档的树状结构,该树状结构便于对每页文档的内容流以及资源进行访问,从中可以获得内容流的编码方式。然后,内容流提取装置110根据内容流的编码方式对内容流解码。根据PDF文档说明书,PDF文档支持多种内容流编码方式,比如FlateDecode和LZWDecode等。PDF内容流由PDF命令和与PDF命令对应的参数构成,每个命令和其对应的参数都控制一个页面绘制操作。命令提取装置120解析解码后的PDF内容流中的命令,提取与文本段相关的文本段相关命令,可以把所提取的命令存入文本段相关命令列表中。从文本段相关命令中可以获得相应的文本段所采用的字体资源,字体资源提取装置130根据文本段相关命令来提取与相应文本段采用的字体资源,可以把提取的当前页的字体资源存入字体资源列表。
划分装置200将字体资源中缺乏字形度量信息的字体作为待替换字体。字体替换装置300在外部替换字体列表中寻找与待替换字体在字形度量上最相似的字体作为替补字体,以替换待替换字体,所述替补字体和所述无需替换的字体组成替换后字体的字体资源。度量信息提取装置400包括:字符编码表提取装置410,从替换后字体的字体资源中提取字体的字符编码表;字形度量表提取装置420,从替换后字体的字体文件中提取字体的字形度量表;字符名称获取装置430,根据字符代码,从字符编码表中,获取与字符代码相应的字符名称;字形度量信息获取装置440,根据所获取的字符名称,从字形度量表中获取与字符名称相应的字形度量信息。
划分装置200、字体替换装置300、度量信息提取装置400用来提取字体资源的字符编码表和字形度量表。划分装置200检查字体资源是否可用,为没有包含足够字体数据信息的字体寻找相似的替换字体,如果字体资源没有包含足够的信息,例如缺乏字形度量信息,则需要字体替换装置300调用字体替换算法寻找相似的字体。字体替换装置300调取外部的可用替换字体列表,该替换字体列表中的字体从外部载入,如载入操作系统自带的字体。并且,字体替换装置300利用PDF字体资源必有的一些属性来用于计算两种字体之间的相似性,以进行字体替换。
由于本发明实施例中的字体替换用于提取字符外接矩形,可以利用如下的字体属性来进行相似度的计算:StemV、StemH、Leading、XHeight、CapHeight、Ascend和Descend,相似度的计算利用匹配算法。
公布的PDF说明书对各个字体属性的意义给出了解释,PDF 1.7说明书规定了字体属性的含义如下:
XHeight(X字高):指字体中所有字符的最大基本高度,即所有字符的基线和主线之间的距离的最大值;
Ascend(升部):指字体的所有字符中,向上超过主线笔画的部分的最大值,即比X字高更高的部分的距离的最大值;
Descend(降部):指字体的所有字符中,向下延伸超过基线的笔画部分的距离的最大值;
CapHeight(大写字高):指字体的所有大写字符中,超过基线部分的高度的最大值;
Leading(行距):指连续的文本行基线之间的间距;
StemV(垂直茎):指字体字形主要垂直茎的宽度;
StemH(水平茎):指字体字形主要水平茎的宽度。
上述这些字体属性能够代表字符的几何信息,可以用来体现字形度量,字体替换装置300利用公式(1)计算备选字体和待替换字体间的距离dis,距离越小相似度越高:
dis ( X , Y ) = Σ i = 1 n w i | x i - y i | - - - ( 1 )
其中,X=(x1,x2,…,xn)是待替换字体的属性向量,xi表示第i个字体属性值,Y=(y1,y2,…,yn)是备选字体的属性向量,yi表示第i个字体属性值,wi是第i个字体属性的权重因子,代表该字体属性的重要性,n为所采用的字体属性数目,在此情况下n可以为7,显然也可以选用一部分字体属性,即n也可以是小于7的正整数,字体属性值可以从PDF字体资源提取,值的含义定义在公布的PDF说明书中。
然后,字体替换装置300选取与待替换字体相似度最高的字体(也即距离dis最小的字体)作为替补字体。图4示例性地示出字符外接矩形提取的效果对比,该图显示了使用不同的字体替换方法替换Times New Roman字体得到的字符外接矩形提取的效果,左侧为采用开源软件sumatrapdf的字体替换方法来提取字符外接矩形的效果,右侧为应用本发明实施例来提取字符外接矩形的效果。可以看出,应用本发明得到更精确的字符外接矩形提取结果。
在PDF说明书里,每种字体都有一个内建的编码方式即字符编码表,字体的内建编码方式可以由PDF字体资源中的“Encoding(编码)”项设置。Encoding项的值可以是编码方式名称,诸如Mac-RomanEncoding、MacExpertEncoding、StandardEncoding、或WinAnsiEncoding,也可以是字典项。在Encoding项的值是字典项的情况下,该Encoding项里的“/Differences”子项包含了字符代码与字符名称的对应关系,由此类对应关系组建字符编码表。
字符编码表提取装置410解析字体的字体资源,然后,判断该字体资源的Encoding项是否存在,如果不存在,则提取StandardEncoding这一编码方式名称对应的字符编码表。如果Encoding项存在,则检查该Encoding项,如果该Encoding项的值是编码方式名称,则字符编码表提取装置410提取与该名称相对应的字符编码表,如果该Encoding项是一个字典项,则字符编码表提取装置410解析该字典项的内容,由字符名称与相应的字符代码组建字符编码表并提取该字符编码表。
字形度量表提取装置420提取字体的字形度量表,该字形度量表的项是键-值对,键是字符名称,值是与字符名称相应的字形度量信息。字体替换以后,替换后字体(替补字体和无需替换的字体)包含用于字符的栅格化的字体文件,或者包含Adobe Font Metrics(AFM)字体文件,该AFM字体文件包含字体的字形度量信息。如果该字体含有AFM文件,则字形度量表提取装置420利用已有的AFM文件解析器来解析得到该字体的字形度量信息;否则,即该字体不含有AFM文件,则字形度量表提取装置420利用已有的字符栅格化引擎来对字符栅格化,把字符的矢量图转为栅格图像,字形度量表提取装置420可以容易地从栅格图像中提取字形度量信息。关于字符的栅格化,可以采用开源的字体栅格化引擎,例如FreeType2字体引擎,网址http://www.freetype.org/。
然后,字符名称获取装置430根据字符代码,从字符编码表中,获取与字符代码相应的字符名称。字形度量信息获取装置440根据所获取的字符名称,从字形度量表中获取与字符名称相应的字形度量信息。
计算装置500包括:文本段度量信息提取装置510,从可移植电子文档的文本段相关命令中提取文本段度量信息;外接矩形计算装置520,根据文本段度量信息和字符的字形度量信息,计算字符的外接矩形。
PDF说明书中包含几种不同类型的文本段相关命令,文本段度量信息提取装置510从中提取文本段度量信息,如文本段的位置、水平缩放系数、垂直缩放系数、旋转角度和字体大小。文本段包括字符,该字符既可以是诸如汉语的文字字符,也可以是诸如英语的字母字符,文本段不必然等同于词,也不必然等同于自然段。
参照PDF 1.7说明书,文本段度量信息可以从文本段相关命令中提取。例如,从文本段起始位置命令200300Td,提取文本段的起始位置为(200,300);通过对文本段矩阵进行分解可以得到水平缩放系数、垂直缩放系数、旋转角度三个参数,例如根据1000010000Tm命令,(100,0,0,100,0,0)是文本段矩阵,从该矩阵中,可以得出水平缩放系数是100,垂直缩放系数是100,旋转角度是0;例如,可以从/TT112Tf命令提取字体大小,在此字体大小为12。
外接矩形计算装置520使用文本段度量信息和字形度量信息,计算字符的外接矩形。向量(x,y,w,h,θ)用于描述字符的外接矩形,x表示字符的左上角水平坐标,y表示字符的左上角垂直坐标,w表示字符宽度,h表示字符高度,θ表示字符旋转角度。文本段度量信息提取装置510可以从文本段相关命令中提取字符的起始位置(在此为左上角)坐标和旋转角度,例如,从命令“200300Td”获得文本段的字符的起始位置为(200,300),根据公式(2)计算字符的宽度和高度:
w=gw*hscale*fs
h=gh*vscale*fs    (2)
其中,gw是字符的字形宽度,gh是字符的字形高度,hscale是水平缩放系数,vscale是垂直缩放系数,fs是字体的大小,均由文本段度量信息提取装置510从文本段相关命令中提取。
文本段中每个字符的起始位置也可以根据文本段的起始位置经过迭代递推计算出来,其中同一文本段中字符的垂直坐标不变。假定(x′,y′)是已知的前一字符的起始位置坐标,(x,y)是当前字符的起始位置坐标,w′是当前文本字符的延伸宽度,它不同于字符的外接矩形的宽度,比字符的外接矩形的宽度稍宽;w′和字符的字形推进宽度advance(在图3中标记为“推进”)是对应的,advance属于字形度量信息,可以由字形度量信息获取装置440获取,advance从字形度量空间变换到文本度量空间以后就是w′。公式(3)为相应的坐标递推公式:
x=x′+w′
y=y′    (3)
w′=advance*hscale*fs
通过上述计算,可以获得文本段中所有字符的外接矩形。
本发明还可以实施为一种从可移植电子文档中提取字符外接矩形的方法,包括:命令及资源提取步骤,可以由前述命令及资源提取装置100执行,针对可移植电子文档的页,提取与页中的文本段相应的文本段相关命令和字体资源;划分步骤,可以由前述划分装置200执行,将字体资源划分为无需替换的字体和需要替换的字体,所述需要替换的字体作为待替换字体;字体替换步骤,可以由前述字体替换装置300执行,在外部替换字体列表中寻找与待替换字体在字形度量上最相似的字体作为替补字体,以替换待替换字体,所述替补字体和所述无需替换的字体组成替换后字体的字体资源;度量信息提取步骤400,可以由前述度量信息提取装置执行,根据替换后字体的字体资源来提取文本段的字符的字形度量信息;计算步骤,可以由前述计算装置500执行,根据文本段相关命令和字符的字形度量信息,来计算字符的外接矩形。
命令及资源提取步骤包括:内容流提取步骤,可以由前述内容流提取装置110执行,从可移植电子文档中提取内容流并解码;命令提取步骤,可以由前述命令提取装置120执行,从解码的内容流中提取文本段相关命令;字体资源提取步骤,可以由前述字体资源提取装置130执行,从可移植电子文档中页的资源中提取与文本段相关命令相对应的字体资源。
在划分步骤中,将字体资源中缺乏字形度量信息的字体作为待替换字体。
在字体替换步骤中,利用匹配算法计算外部替换字体列表中备选字体与待替换字体在字形度量上的相似度,把相似度最高的备选字体作为替补字体。
度量信息提取步骤包括:字符编码表提取步骤,可以由前述字符编码表提取装置410执行,从替换后字体的字体资源中提取字体的字符编码表;字形度量表提取步骤,可以由前述字形度量表提取装置420执行,从替换后字体的字体文件中提取字体的字形度量表;字符名称获取步骤,可以由前述字符名称获取装置430执行,根据字符代码,从字符编码表中,获取与字符代码相应的字符名称;字形度量信息获取步骤,可以由前述字形度量信息获取装置440执行,根据所获取的字符名称,从字形度量表中获取与字符名称相应的字形度量信息。
计算步骤包括:文本段度量信息提取步骤,可以由前述文本段度量信息提取装置510执行,从可移植电子文档的文本段相关命令中提取文本段度量信息;外接矩形计算步骤,可以由前述外接矩形计算装置520执行,根据文本段度量信息和字符的字形度量信息,计算字符的外接矩形。
尽管在本申请说明书中以PDF文档为例进行了说明,然而本领域技术人员可以理解,本发明实施例也可以应用于诸如PS格式的可移植电子文档。
在说明书中说明的一系列操作能够通过硬件、软件、或者硬件与软件的组合来执行。当由软件执行该一系列操作时,可以把其中的计算机程序安装到内置于专用硬件的计算机中的存储器中,使得计算机执行该计算机程序。或者,可以把计算机程序安装到能够执行各种类型的处理的通用计算机中,使得计算机执行该计算机程序。
例如,可以把计算机程序预先存储到作为记录介质的硬盘或者ROM(只读存储器)中。或者,可以临时或者永久地存储(记录)计算机程序到可移动记录介质中,诸如软盘、CD-ROM(光盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或半导体存储器。可以把这样的可移动记录介质作为封装软件提供。
本发明已经参考具体实施例进行了详细说明。然而,很明显,在不背离本发明的精神的情况下,本领域技术人员能够对实施例执行更改和替换。换句话说,本发明用说明的形式公开,而不是被限制地解释。要判断本发明的要旨,应该考虑所附的权利要求。

Claims (8)

1.一种从可移植电子文档中提取字符外接矩形的设备,包括:
命令及资源提取装置,针对可移植电子文档的页,提取与页中的文本段相应的文本段相关命令和字体资源;
划分装置,将字体资源划分为无需替换的字体和需要替换的字体,所述需要替换的字体作为待替换字体;
字体替换装置,在外部替换字体列表中寻找与待替换字体在字形度量上最相似的字体作为替补字体,以替换待替换字体,所述替补字体和所述无需替换的字体组成替换后字体的字体资源;
度量信息提取装置,根据替换后字体的字体资源来提取文本段的字符的字形度量信息;
计算装置,根据文本段相关命令和字符的字形度量信息,来计算字符的外接矩形。
2.按照权利要求1所述的提取字符外接矩形的设备,其中,所述命令及资源提取装置包括:
内容流提取装置,从可移植电子文档中提取内容流并解码;
命令提取装置,从解码的内容流中提取文本段相关命令;
字体资源提取装置,从可移植电子文档中页的资源中提取与文本段相关命令相对应的字体资源。
3.按照权利要求1所述的提取字符外接矩形的设备,其中,所述划分装置将字体资源中缺乏字形度量信息的字体作为待替换字体。
4.按照权利要求1所述的提取字符外接矩形的设备,其中,所述字体替换装置利用匹配算法计算外部替换字体列表中备选字体与待替换字体在字形度量上的相似度,把相似度最高的备选字体作为替补字体。
5.按照权利要求1所述的提取字符外接矩形的设备,其中,所述度量信息提取装置,包括:
字符编码表提取装置,从替换后字体的字体资源中提取字体的字符编码表;
字形度量表提取装置,从替换后字体的字体文件中提取字体的字形度量表;
字符名称获取装置,根据字符代码,从字符编码表中,获取与字符代码相应的字符名称;
字形度量信息获取装置,根据所获取的字符名称,从字形度量表中获取与字符名称相应的字形度量信息。
6.按照权利要求1所述的提取字符外接矩形的设备,其中,所述计算装置包括:
文本段度量信息提取装置,从可移植电子文档的文本段相关命令中提取文本段度量信息;
外接矩形计算装置,根据文本段度量信息和字符的字形度量信息,计算字符的外接矩形。
7.按照权利要求1所述的提取字符外接矩形的设备,其中,所述可移植电子文档是PDF格式文档。
8.一种从可移植电子文档中提取字符外接矩形的方法,包括:
命令及资源提取步骤,针对可移植电子文档的页,提取与页中的文本段相应的文本段相关命令和字体资源;
划分步骤,将字体资源划分为无需替换的字体和需要替换的字体,所述需要替换的字体作为待替换字体;
字体替换步骤,在外部替换字体列表中寻找与待替换字体在字形度量上最相似的字体作为替补字体,以替换待替换字体,所述替补字体和所述无需替换的字体组成替换后字体的字体资源;
度量信息提取步骤,根据替换后字体的字体资源来提取文本段的字符的字形度量信息;
计算步骤,根据文本段相关命令和字符的字形度量信息,来计算字符的外接矩形。
CN200910249849.1A 2009-11-27 2009-11-27 从可移植电子文档中提取字符外接矩形的设备和方法 Expired - Fee Related CN102081594B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN200910249849.1A CN102081594B (zh) 2009-11-27 2009-11-27 从可移植电子文档中提取字符外接矩形的设备和方法
US12/952,265 US8452097B2 (en) 2009-11-27 2010-11-23 Apparatus and method for extracting circumscribed rectangles of characters in transplantable electronic document
EP10192425.6A EP2328098B1 (en) 2009-11-27 2010-11-24 Apparatus and method for extracting circumscribed rectangles of characters in transplantable electronic document
JP2010263936A JP5664174B2 (ja) 2009-11-27 2010-11-26 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910249849.1A CN102081594B (zh) 2009-11-27 2009-11-27 从可移植电子文档中提取字符外接矩形的设备和方法

Publications (2)

Publication Number Publication Date
CN102081594A true CN102081594A (zh) 2011-06-01
CN102081594B CN102081594B (zh) 2014-02-05

Family

ID=43587155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910249849.1A Expired - Fee Related CN102081594B (zh) 2009-11-27 2009-11-27 从可移植电子文档中提取字符外接矩形的设备和方法

Country Status (4)

Country Link
US (1) US8452097B2 (zh)
EP (1) EP2328098B1 (zh)
JP (1) JP5664174B2 (zh)
CN (1) CN102081594B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699520A (zh) * 2012-09-27 2014-04-02 茵弗维尔株式会社 用于维持电子文档布局的字体处理方法
CN107704615A (zh) * 2017-10-24 2018-02-16 北京有字库网络科技有限公司 基于中文字体子集化的网页字体显示方法及系统
CN107844463A (zh) * 2016-09-19 2018-03-27 奥多比公司 基于视觉相似性的字体替换
CN108701120A (zh) * 2016-02-29 2018-10-23 微软技术许可有限责任公司 字形处理中的查找的条件确定
CN109902277A (zh) * 2017-12-07 2019-06-18 珠海金山办公软件有限公司 一种文档编辑方法、装置、电子设备和可读存储介质
CN116776828A (zh) * 2023-08-28 2023-09-19 福昕鲲鹏(北京)信息科技有限公司 文本渲染方法、装置、设备和存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008109394A (ja) * 2006-10-25 2008-05-08 Canon Inc 画像処理装置及びその方法、プログラム
KR20130080515A (ko) * 2012-01-05 2013-07-15 삼성전자주식회사 디스플레이 장치 및 그 디스플레이 장치에 표시된 문자 편집 방법.
CN105608064A (zh) * 2015-11-24 2016-05-25 小米科技有限责任公司 字符替换方法及装置
CN110968667B (zh) * 2019-11-27 2023-04-18 广西大学 一种基于文本状态特征的期刊文献表格抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5859648A (en) * 1993-06-30 1999-01-12 Microsoft Corporation Method and system for providing substitute computer fonts
CN1282071A (zh) * 1999-07-23 2001-01-31 国际商业机器公司 标准化电子文档中字符信息的方法
US20080306916A1 (en) * 2007-06-09 2008-12-11 Julio Amable Gonzalez Auto-activation of fonts

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0870246B1 (en) * 1995-09-25 2007-06-06 Adobe Systems Incorporated Optimum access to electronic documents
US6522330B2 (en) * 1997-02-17 2003-02-18 Justsystem Corporation Character processing system and method
US7472348B2 (en) * 1998-11-05 2008-12-30 Canon Kabushiki Kaisha Image processing apparatus, image processing method and storage medium using character size and width for magnification
US6853980B1 (en) * 1999-09-07 2005-02-08 Bitstream Inc. System for selecting, distributing, and selling fonts
JP4293721B2 (ja) * 2000-10-13 2009-07-08 富士通株式会社 携帯電子ビューワシステム
US6801673B2 (en) * 2001-10-09 2004-10-05 Hewlett-Packard Development Company, L.P. Section extraction tool for PDF documents
WO2007013566A1 (ja) * 2005-07-28 2007-02-01 Sharp Kabushiki Kaisha 情報処理装置、情報処理プログラムおよび可読記録媒体
JP4444922B2 (ja) * 2006-01-20 2010-03-31 シャープ株式会社 フォントダウンロード装置およびフォントダウンロードプログラム
KR20090046142A (ko) * 2007-11-05 2009-05-11 삼성전자주식회사 입력 필체 자동 변환 시스템 및 방법
JP4926004B2 (ja) * 2007-11-12 2012-05-09 株式会社リコー 文書処理装置、文書処理方法及び文書処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5859648A (en) * 1993-06-30 1999-01-12 Microsoft Corporation Method and system for providing substitute computer fonts
CN1282071A (zh) * 1999-07-23 2001-01-31 国际商业机器公司 标准化电子文档中字符信息的方法
US20080306916A1 (en) * 2007-06-09 2008-12-11 Julio Amable Gonzalez Auto-activation of fonts

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JOSEF B.BAKER ET AL: "Extracting Precise Data on the Mathematical Content of PDF Documents", 《TOWARDS DIGITAL MATHEMATICS LIBRARY》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699520A (zh) * 2012-09-27 2014-04-02 茵弗维尔株式会社 用于维持电子文档布局的字体处理方法
CN108701120A (zh) * 2016-02-29 2018-10-23 微软技术许可有限责任公司 字形处理中的查找的条件确定
CN107844463A (zh) * 2016-09-19 2018-03-27 奥多比公司 基于视觉相似性的字体替换
CN107704615A (zh) * 2017-10-24 2018-02-16 北京有字库网络科技有限公司 基于中文字体子集化的网页字体显示方法及系统
CN109902277A (zh) * 2017-12-07 2019-06-18 珠海金山办公软件有限公司 一种文档编辑方法、装置、电子设备和可读存储介质
CN109902277B (zh) * 2017-12-07 2023-05-26 珠海金山办公软件有限公司 一种文档编辑方法、装置、电子设备和可读存储介质
CN116776828A (zh) * 2023-08-28 2023-09-19 福昕鲲鹏(北京)信息科技有限公司 文本渲染方法、装置、设备和存储介质
CN116776828B (zh) * 2023-08-28 2023-12-19 福昕鲲鹏(北京)信息科技有限公司 文本渲染方法、装置、设备和存储介质

Also Published As

Publication number Publication date
EP2328098A2 (en) 2011-06-01
US8452097B2 (en) 2013-05-28
EP2328098A3 (en) 2011-06-29
EP2328098B1 (en) 2013-05-15
JP2011113569A (ja) 2011-06-09
US20110129157A1 (en) 2011-06-02
CN102081594B (zh) 2014-02-05
JP5664174B2 (ja) 2015-02-04

Similar Documents

Publication Publication Date Title
CN102081594B (zh) 从可移植电子文档中提取字符外接矩形的设备和方法
Nagy et al. Optical character recognition: An illustrated guide to the frontier
US8719702B2 (en) Document organizing based on page numbers
US6336124B1 (en) Conversion data representing a document to other formats for manipulation and display
US8209600B1 (en) Method and apparatus for generating layout-preserved text
WO2018071403A1 (en) Systems and methods for optical charater recognition for low-resolution ducuments
US11615635B2 (en) Heuristic method for analyzing content of an electronic document
US8451489B1 (en) Content-aware method for saving paper and ink while printing a PDF document
US8773712B2 (en) Repurposing a word processing document to save paper and ink
US9032284B2 (en) Green printing: re-purposing a document to save ink and paper
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
US11283964B2 (en) Utilizing intelligent sectioning and selective document reflow for section-based printing
US8804139B1 (en) Method and system for repurposing a presentation document to save paper and ink
JP2019169137A (ja) タイトル推定器
CN102081736B (zh) 从可移植电子文档中提取字符外接矩形的设备和方法
US20240119218A1 (en) Device dependent rendering of pdf content
US20240104290A1 (en) Device dependent rendering of pdf content including multiple articles and a table of contents
JP2013254321A (ja) 画像処理装置、画像処理方法及びプログラム
Natarajan et al. The BBN Byblos hindi OCR system
CN117542056A (zh) 图文数据生成文本的方法、装置、存储介质及处理器
Singh et al. A Document Reconstruction System for Transferring Bengali Paper Documents into Rich Text Format
Fruchterman Complete Document Recognition
JP2004038756A (ja) 文書変換方法および文書変換装置
JPH11306172A (ja) 文書データ処理装置およびそのプログラム記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140205

Termination date: 20201127