CN103136166A - 字体确定方法和设备 - Google Patents

字体确定方法和设备 Download PDF

Info

Publication number
CN103136166A
CN103136166A CN2011103939361A CN201110393936A CN103136166A CN 103136166 A CN103136166 A CN 103136166A CN 2011103939361 A CN2011103939361 A CN 2011103939361A CN 201110393936 A CN201110393936 A CN 201110393936A CN 103136166 A CN103136166 A CN 103136166A
Authority
CN
China
Prior art keywords
font
embedded
original
style characteristic
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103939361A
Other languages
English (en)
Other versions
CN103136166B (zh
Inventor
仇睿恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Pku Founder Information Industry Group Co ltd
Peking University Founder Group Co Ltd
Founder Apabi Technology Ltd
Original Assignee
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder Information Industry Holdings Co Ltd, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Founder Information Industry Holdings Co Ltd
Priority to CN201110393936.1A priority Critical patent/CN103136166B/zh
Priority to JP2014511731A priority patent/JP5829330B2/ja
Priority to KR1020137030703A priority patent/KR20140031269A/ko
Priority to PCT/CN2012/085773 priority patent/WO2013079038A1/zh
Priority to EP12852905.4A priority patent/EP2787448A4/en
Publication of CN103136166A publication Critical patent/CN103136166A/zh
Application granted granted Critical
Publication of CN103136166B publication Critical patent/CN103136166B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography

Abstract

本发明实施例公开了一种字体确定方法和设备,涉及无线通信技术领域,用于解决无法确定文档中使用的内嵌字体所对应的原始字体的问题。本发明中,从内嵌字体的字形集合中选取至少一个字形;确定选取的各字形对应的字体,并根据各字形对应的字体确定内嵌字体对应的原始字体。可见,本方案解决了无法确定文档中使用的内嵌字体所对应的原始字体的问题。

Description

字体确定方法和设备
技术领域
本发明涉及文字数据处理领域,尤其涉及一种字体确定方法和设备。
背景技术
为了保证在不同平台上文档显示的一致性,字体内嵌是一种被广泛采用的技术手段。具体来说,从原始字体对应的字形集合中抽取部分字形,将抽取的字形整合在一起形成一个新的字形集合,该过程就称为字体内嵌,所得到的新的字体即新的字形集合对应的字体就是内嵌字体。例如,从宋体对应的字形集合中抽取部分字形,将抽取的字形整合在一起形成新的字形集合,从而完成字体内嵌过程,新的字形集合对应的字体为一个内嵌字体,假设为内嵌字体A,那么内嵌字体A对应的原始字体即为宋体。可以认为内嵌字体的字形集合是该内嵌字体对应的原始字体的字形集合的一个子集。
一般来说,内嵌字体的字形集合中只会包含显示文档中字符所需要的那部分字形,以使字形集合的数据量尽可能的小。此外,字形集合中还可能包含文档中各字符的字符编码或者索引号到相应字形的映射关系。在显示文档中的字符时,可以根据该映射关系获取到该字符的字符编码或者索引号对应的字形,然后根据获取到的字形显示该字符。
在实现本发明的过程中,发明人发现现有技术中存在以下技术问题:
虽然字体内嵌技术能够保证在不同环境下文档显示的一致性,但是由于无法确定文档中使用的内嵌字体所对应的原始字体,在使用中存在很多局限性。
例如,由于内嵌字体的字形集合中仅包含原始字体的字形集合中的部分字形,使得用户不能对文档进行任意的编辑。比如,在用户需要在文档中增加一个文字“和”时,如果内嵌字体的字形集合中不包含文字“和”的字形,那么,就无法显示文字“和”,导致编辑失败。
又例如,在显示文档时要使用到内嵌字体的字形集合,那么,在客户端需要显示服务器上保存的一个文档时,客户端需要下载该文档的所有配置文件包括该文档使用的内嵌字体的字形集合,由于内嵌字体的字形集合的数据量普遍偏大,使得在网络环境中文档的显示速度较慢。
发明内容
本发明实施例提供一种字体确定方法和设备,用于解决无法确定文档中使用的内嵌字体所对应的原始字体的问题。
一种字体确定方法,该方法包括:
确定文档所使用的内嵌字体;
选取所述内嵌字体的字形集合中的至少一个字形;
确定选取的各字形对应的字体;
根据各字形对应的字体,确定所述内嵌字体对应的原始字体。
一种字体确定设备,该设备包括:
内嵌字体确定单元,用于确定文档所使用的内嵌字体;
字形选取单元,用于选取所述内嵌字体的字形集合中的至少一个字形;
字形字体确定单元,用于确定选取的各字形对应的字体;
原始字体确定单元,用于根据各字形对应的字体,确定所述内嵌字体对应的原始字体。
本方案中,首先从内嵌字体的字形集合中选取至少一个字形,然后确定选取的各字形对应的字体,并根据各字形对应的字体确定内嵌字体对应的原始字体。可见,本方案实现了确定文档中使用的内嵌字体所对应的原始字体的方案,从而解决了无法确定文档中使用的内嵌字体所对应的原始字体的问题。
附图说明
图1为本发明实施例提供的方法流程示意图;
图2为本发明实施例的流程示意图;
图3为本发明实施例提供的设备结构示意图。
具体实施方式
为了解决无法确定文档中使用的内嵌字体所对应的原始字体的问题,本发明实施例提供一种字体确定方法,该方法中,首先从内嵌字体的字形集合中选取至少一个字形或从文档中选取至少一个使用内嵌字体的字符对应的字形,然后确定选取的各字形对应的字体,并根据各字形对应的字体确定内嵌字体对应的原始字体。
参见图1,本发明实施例提供的字体确定方法,包括以下步骤:
步骤10:确定文档所使用的内嵌字体;
这里,在文档的描述信息中记录有文档中各字符使用的内嵌字体,可以根据描述信息将文档中各字符使用的内嵌字体确定为文档所使用的内嵌字体。
步骤11:选取确定的内嵌字体的字形集合中的至少一个字形;
步骤12:确定选取的各字形对应的字体;
步骤13:根据各字形对应的字体,确定内嵌字体对应的原始字体。
步骤11中,选取内嵌字体的字形集合中的至少一个字形,具体实现可以采用如下两种方式:
第一种,在文档中包含字符编码与字形的映射关系时,根据该映射关系确定预先设定的多个常用字符分别对应的字形,并从内嵌字体的字形集合中选取确定的字形。
第二种,统计文档中使用内嵌字体的各字形出现的次数,选取各字形中出现次数最多的至少一个字形。本中方法可以适用于文档中未包含字符编码与字形的映射关系的情况,当然也可以适用于文档中包含字符编码与字形的映射关系的情况。
步骤12中,确定选取的各字形对应的字体,具体实现可以采用如下两种方式:
第一,对于选取的每个字形,确定该字形对应的字符编码,并计算该字形的字形特征值,在预先生成的字形特征表中查找该字符编码与该字形特征值对应的字体,将查找到的字体确定为该字形对应的字体;
第二,对于选取的每个字形,计算该字形的字形特征值,在字形特征表中查找该字形特征值对应的字体,将查找到的字体确定为该字形对应的字体。
上述两种方法中的字形特征表中包含字符编码与字体、字形特征值的映射关系。字形特征表的生成方法如下:选择预先设定的多个常用字符,对于本地保存的多个字体的字形集合,从该字形集合中抽取选择的多个常用字符的字形,计算抽取到的每个字形的字形特征值,并将抽取到的字形的映射关系保存在字形特征表中,每条映射关系中包含该字形对应的字体、该字形对应的字符编码和该字形的字形特征值。
上述确定该字形对应的字符编码,具体实现可以采用如下两种方式:
第一,在内嵌字体的字形集合中包含字符编码与字形的映射关系时,根据该映射关系确定该字形对应的字符编码;
第二,利用光学字符识别(OCR)技术识别该字体的字符编码。
步骤13中,根据各字形对应的字体,确定内嵌字体对应的原始字体,具体实现可以采用如下两种方式:
第一,若各字形对应的字体为同一字体,则将该同一字体确定为内嵌字体对应的原始字体;
第二,确定步骤11中选取的字形中对应同一字体的字形,并确定该字形是否满足设定条件,在满足时将该同一字体确定为内嵌字体对应的原始字体,下面举例说明:
例1:若对应同一字体的字形的个数超过预先设定的门限值,则将该同一字体确定为内嵌字体对应的原始字体。该门限值为大于0的整数。
例2:若对应同一字体的字形的个数占步骤11中选取的字形总个数的比率超过设定门限值,则将该同一字体确定为内嵌字体对应的原始字体。该门限值大于0且小于1。
例3:若对应同一字体的字形的加权值之和超过预先设定的门限值,则将该同一字体确定为内嵌字体对应的原始字体。该门限值为大于0的数值。比如,对应同一字体的字形的个数为60,其中10个字形的加权值为2,50个字形的加权值为1,那么,该60个字形的加权值之和为70,若该门限值为50,则该60个字形对应的字体即为内嵌字体对应的原始字体。
当然,本发明并不局限于上述3种实现方法,任何能够根据对应同一字体的字形确定内嵌字体对应的原始字体的方法,均在本发明的保护范围内。
较佳的,在确定内嵌字体对应的原始字体之后,在需要进行字符显示时,在本地保存的该原始字体对应的字形集合中查找待显示字符对应的字形,并使用查找到的字形显示该待显示字符。
较佳的,本发明中还可以将字符编辑等应用使用的信息保存在到文档中,该信息包括内嵌字体对应的原始字体的信息、识别出的字符编码等。
需要说明的是,本方法的执行主体可以是客户端、服务器等能够处理文档的设备。在执行主体是服务器时,服务器可以将确定的内嵌字体对应的原始字体的信息携带在文档中发送给客户端,客户端在显示文档时,在本地保存的该原始字体对应的字形集合中查找各待显示字符对应的字形,并使用查找到的字形显示该待显示字符。
下面对本发明进行具体说明:
对于文档使用的每个内嵌字体,按如下步骤进行处理:
步骤1:检查内嵌字体的字形集合中是否存在字符编码到字形的映射关系,如果存在,到步骤2,否则,到步骤5;
步骤2:从内嵌字体的字形集合中选取至少一个常用字符的字形,计算每个选取的字形的字形特征值,并根据字符编码到字形的映射关系确定每个字形对应的字符编码;
步骤3:对于选取的每个字形,在字形特征表中查找该字形的字符编码和字形特征值对应的字体,将查找到的字体确定为该字形的字体;
步骤4:根据选取的每个字形的字体确定内嵌字体对应的原始字体,流程结束;
具体的,如果所选取的每个字形的字体都属于同一字体A,那么则可以确定该内嵌字体的原始字体就是A。
步骤5:统计该文档中使用该内嵌字体的各字形出现的次数,并选取至少一个出现次数最多的字形;然后到步骤6a或步骤6b;
步骤6a:对于选取的每个字形,将该字形绘制出来,使用OCR技术识别该字形的字符编码,若识别成功,则计算该字形的字形特征值,在字形特征表中查找该字形的字符编码和字形特征值对应的字体,将查找到的字体确定为该字形的字体,到步骤7;若识别失败,到步骤6b;
步骤6b:对于选取的每个字形,计算该字形的字形特征值,在字形特征表中查找该字形的字形特征值对应的字体,将查找到的字体确定为该字形的字体;
步骤7:根据选取的每个字形的字体确定内嵌字体对应的原始字体,流程结束;
具体的,如果对应同一字体的字形的个数超过预先设定的门限值,则可以判定该内嵌字体所对应的原始字体为该同一字体。例如,选取了20个常见的字形,若其中最少18个字形都对应同一字体A,则可以判定该内嵌字体所对应的原始字体A。
字形特征表保存了若干<字符编码,原始字体,字形特征值>的映射关系。由于本地保存的字体的数量有限(几百种常见字体),而且一般来说所选取的字形的数量也不会很多,所以构造一个常见字符的字形特征表的开销是可以接受的,而且在其中进行匹配、搜索的开销也很小。
在实际使用中,字形特征表可以存在不止一张。例如,可以针对每种字符类型分别生成一张字形特征表,字符类型包括数字、字母、标点符号、汉字、其他特殊字符等。对于每张字形特征表,选取字形的规则也可不同。如,标点符号种类较少,可以将所有标点符号对应字形的映射关系加入对应的字形特征表;而汉字则可以将最常见的200个汉字对应字形的映射关系加入对应的字形特征表。在使用时,可以按照字符类型在对应的字形特征表中进行字体查找;也可以在所有表中进行字体查找。
由于OCR存在误识别率,同时所选取的常见字符也有一定可能不是常见字符,所以可能存在根据字形特征值找不到对应的字体的情况,因此在进行步骤7的原始字体判定时可以适当的降低门限值。
当然,对于存在字符编码和字形的映射关系的内嵌字体,也可以忽视该映射关系,即步骤1中在存在字符编码到字形的映射关系时,也可以到步骤5。但是缺少了字符编码的辅助,在某些情况下效率和准确率可能会受到影响。
通过本实施例可以根据内嵌字体找到对应的原始字体,从而可以进一步进行自由的文字编辑或省略内嵌字体的数据传输,也可适用于其他依赖原始字体的应用。
实施例一:
从新宋体(simsun.ttf)得来的内嵌字体A,其字形集合中包含字符编码与字形的映射关系。采用字形数据的MD5值作为该字形的字形特征值。选择常见的200个汉字字符(如“的”,“一”,“是”,“了”等),从新宋体、黑体、楷体、华文仿宋、幼圆等十个常见的中文字体的字形集合中抽取这200个字符的字形,并分别计算各字形的字形特征值,从而得到了一个常见汉字的字形特征表,示意如下表1:
  字符编码   字体   字形特征值
  的   新宋体   53d1169058611886e5cf2b2b4dd0627f
  一   新宋体   c8f77ee32399b7bbe05560f9da7aa5a3
  新宋体   65c8c486368da89dedd430b09127f883
  了   新宋体   5e770190e1fae6e6a37e7d77f06bb9e9
  …
表1
步骤1:从内嵌字体A的字形集合中选择“的”、“一”、“是”、“了”这四个字符对应的字形,因为这四个字符很常见,且包含在内嵌字体A的字形集合中;也可以选择包含在内嵌字体A的字形集合中、同时还包含在字体特征表中的常见字符。
步骤2:计算选择的每个字形对应的字形特征值,如“是”的字形特征值就是65c8c486368da89dedd430b09127f883。通过查找字形特征表确定字符编码为“是”,特征值为65c8c486368da89dedd430b09127f883的字体是新宋体。
同样可以确认其他三个字形对应的字体也是新宋体。
步骤3:由于选择的每个字形对应的字体是新宋体,因此确定内嵌字体A对应的原始字体是新宋体。
上述实施例中的字形特征表并不一定真的存储为表状,也可以存储为树等其他数据结构,只要其能够根据提供的条件进行搜索、定位即可。
实施例二:
从新宋体(simsun.ttf)得来的内嵌字体A,其字形集合中不包含字符编码与字形的映射关系。采用字形数据的MD5值作为该字形的特征值。选择常见的200个汉字字符(如“的”,“一”,“是”,“了”等,不包含“银”),从新宋体、黑体、楷体、华文仿宋、幼圆等十个常见的中文字体的字形集合中抽取这200个字符的字形,并分别计算各字形的字形特征值,从而得到了一个常见汉字的字形特征表,如表1所示。
步骤1:统计文档中使用内嵌字体A的常见字形出现的次数,选取前5个出现次数最多的常见字形,比如是“的”、“是”、“了”、“银”、“一”。
步骤2:当处理“的”的字形时,首先利用OCR技术进行识别,得到“的”的字符编码,然后通过根据“的”的字符编码和字形特征值53d1169058611886e5cf2b2b4dd0627f查找字形特性表,确定“的”的字形对应新宋体。
当处理“是”的字形时,利用OCR技术将其错误识别为“足”,从而未在字形特征表中找到对应的字体,则直接通过根据“是”的字形特征值65c8c486368da89dedd430b09127f883查找字形特性表,确定“是”的字形对应新宋体。
“了”和“一”不再赘述。确认“了”和“一”的字形都对应新宋体。
当处理“银”的字形时,利用OCR技术和字形特征值都不能找到其对应的字体。
步骤3:处理完5个字形后,发现4个字形都对应新宋体,还有1个字形不能确定其字体,考虑到文档常见字形的分布规律可能与常见字符分布规律存在一些差异,最终判定该内嵌字体A的原始字体就是新宋体。
本发明中确定的内嵌字体对应的原始字体的信息可以写回到文档的描述信息中,以供后续应用使用,比如,在需要显示一个字符时,如果内嵌字体的字形集合中不包含该字符的字形,那么,可以从该内嵌字体对应的原始字体的字形集合中查找该字符的字形,进而根据字形进行文字显示。
同样本发明中确定的字符编码也可以写回到文档的配置文件中,以供文字编辑等应用使用。比如,在需要编辑一个字符时,可以根据已保存的该字符的字符编码直接找到对应的字形,进而根据字形进行文字编辑。而不需要临时确定该字符的字符编码,提高了显示速度。
本发明中字形特征值的计算可以采用消息摘要算法(Message DigestAlgorithm,MD5),在实际使用时也可以采用安全散列算法(Secure HashAlgorithm,SHA-1)等其他摘要计算方法,也可以采用图形处理中轮廓特征提取等技术进行计算。
参见图3,本发明实施例提供一种字体确定设备,该设备包括:
内嵌字体确定单元30,用于确定文档所使用的内嵌字体;
字形选取单元31,用于选取所述内嵌字体的字形集合中的至少一个字形,或者选取所述文档中至少一个使用所述内嵌字体的字符对应的字形;
字形字体确定单元32,用于确定选取的各字形对应的字体;
原始字体确定单元33,用于根据各字形对应的字体,确定所述内嵌字体对应的原始字体。
进一步的,所述字形选取单元31用于:
在所述文档中包含字符编码与字形的映射关系时,根据该映射关系确定预先设定的多个常用字符分别对应的字形,并从所述内嵌字体的字形集合中选取确定的字形;或者,
统计所述文档中使用所述内嵌字体的各字形出现的次数,选取各字形中出现次数最多的至少一个字形。
进一步的,所述字形字体确定单元32用于:
对于选取的每个字形,确定该字形对应的字符编码,并计算该字形的字形特征值,在预先生成的字形特征表中查找该字符编码与该字形特征值对应的字体,将查找到的字体确定为该字形对应的字体;或者,
对于选取的每个字形,计算该字形的字形特征值,在所述字形特征表中查找该字形特征值对应的字体,将查找到的字体确定为该字形对应的字体;所述字形特征表中包含字符编码与字体、字形特征值的映射关系。
进一步的,所述字形字体确定单元32用于:
在所述字形集合中包含字符编码与字形的映射关系时,根据该映射关系确定该字形对应的字符编码;或者,
利用OCR技术识别该字体的字符编码。
进一步的,所述原始字体确定单元33用于:
若各字形对应的字体为同一字体,则将该同一字体确定为所述内嵌字体对应的原始字体;或者,
确定对应同一字体的字形,并确定该字形是否满足设定条件,在满足时将该同一字体确定为所述内嵌字体对应的原始字体。
进一步的,该设备还包括:
显示单元34,用于在确定所述内嵌字体对应的原始字体之后,在需要进行字符显示时,在本地保存的所述原始字体对应的字形集合中查找待显示字符对应的字形,并使用查找到的字形显示该待显示字符。
综上,本发明的有益效果包括:
本发明实施例提供的方案中,首先从内嵌字体的字形集合中选取至少一个字形,然后确定选取的各字形对应的字体,并根据各字形对应的字体确定内嵌字体对应的原始字体。可见,本方案实现了确定文档中使用的内嵌字体所对应的原始字体的方案,从而解决了无法确定文档中使用的内嵌字体所对应的原始字体的问题。
在确定内嵌字体对应的原始字体之后,在需要进行字符显示时,在本地保存的所述原始字体对应的字形集合中查找待显示字符对应的字形,并使用查找到的字形显示该待显示字符,能够解决由于无法确定文档中使用的内嵌字体所对应的原始字体而带来的问题。比如,在用户需要在文档中增加一个字符时,如果文档使用的内嵌字体的字形集合中不包含该需要增加的字符的字形,那么,可以从本地保存的该内嵌字体对应的原始字体的字形集合中查找该需要增加的字符的字形,进而根据字形进行文字显示,从而避免了编辑失败的问题。又比如,在客户端需要显示服务器上保存的一个文档时,客户端可以从本地获取文档使用的内嵌字体体对应的原始字体的字形集合,而不需要下载该文档使用的内嵌字体的字形集合,从而提高了在网络环境中文档的显示速度。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种字体确定方法,其特征在于,该方法包括:
确定文档所使用的内嵌字体;
选取所述内嵌字体的字形集合中的至少一个字形;
确定选取的各字形对应的字体;
根据各字形对应的字体,确定所述内嵌字体对应的原始字体。
2.如权利要求1所述的方法,其特征在于,所述选取所述内嵌字体的字形集合中的至少一个字形,具体包括:
在所述文档中包含字符编码与字形的映射关系时,根据该映射关系确定预先设定的多个常用字符分别对应的字形,并从所述内嵌字体的字形集合中选取确定的字形;或者,
统计所述文档中使用所述内嵌字体的各字形出现的次数,选取各字形中出现次数最多的至少一个字形。
3.如权利要求1所述的方法,其特征在于,所述确定选取的各字形对应的字体,具体包括:
对于选取的每个字形,确定该字形对应的字符编码,并计算该字形的字形特征值,在预先生成的字形特征表中查找该字符编码与该字形特征值对应的字体,将查找到的字体确定为该字形对应的字体;或者,
对于选取的每个字形,计算该字形的字形特征值,在所述字形特征表中查找该字形特征值对应的字体,将查找到的字体确定为该字形对应的字体;
所述字形特征表中包含字符编码与字体、字形特征值的映射关系。
4.如权利要求3所述的方法,其特征在于,所述确定该字形对应的字符编码,具体包括:
在所述字形集合中包含字符编码与字形的映射关系时,根据该映射关系确定该字形对应的字符编码;或者,
利用光学字符识别OCR技术识别该字体的字符编码。
5.如权利要求1-4中任一所述的方法,其特征在于,所述根据各字形对应的字体,确定所述内嵌字体对应的原始字体,具体包括:
若各字形对应的字体为同一字体,则将该同一字体确定为所述内嵌字体对应的原始字体;或者,
确定对应同一字体的字形,并确定该字形是否满足设定条件,在满足时将该同一字体确定为所述内嵌字体对应的原始字体。
6.如权利要求1-4中任一所述的方法,其特征在于,在确定所述内嵌字体对应的原始字体之后,进一步包括:
在需要进行字符显示时,在本地保存的所述原始字体对应的字形集合中查找待显示字符对应的字形,并使用查找到的字形显示该待显示字符。
7.一种字体确定设备,其特征在于,该设备包括:
内嵌字体确定单元,用于确定文档所使用的内嵌字体;
字形选取单元,用于选取所述内嵌字体的字形集合中的至少一个字形,或者选取所述文档中至少一个使用所述内嵌字体的字符对应的字形;
字形字体确定单元,用于确定选取的各字形对应的字体;
原始字体确定单元,用于根据各字形对应的字体,确定所述内嵌字体对应的原始字体。
8.如权利要求7所述的设备,其特征在于,所述字形选取单元用于:
在所述文档中包含字符编码与字形的映射关系时,根据该映射关系确定预先设定的多个常用字符分别对应的字形,并从所述内嵌字体的字形集合中选取确定的字形;或者,
统计所述文档中使用所述内嵌字体的各字形出现的次数,选取各字形中出现次数最多的至少一个字形。
9.如权利要求7所述的设备,其特征在于,所述字形字体确定单元用于:
对于选取的每个字形,确定该字形对应的字符编码,并计算该字形的字形特征值,在预先生成的字形特征表中查找该字符编码与该字形特征值对应的字体,将查找到的字体确定为该字形对应的字体;或者,
对于选取的每个字形,计算该字形的字形特征值,在所述字形特征表中查找该字形特征值对应的字体,将查找到的字体确定为该字形对应的字体;
所述字形特征表中包含字符编码与字体、字形特征值的映射关系。
10.如权利要求9所述的设备,其特征在于,所述字形字体确定单元用于:
在所述字形集合中包含字符编码与字形的映射关系时,根据该映射关系确定该字形对应的字符编码;或者,
利用OCR技术识别该字体的字符编码。
11.如权利要求7-10中任一所述的设备,其特征在于,所述原始字体确定单元用于:
若各字形对应的字体为同一字体,则将该同一字体确定为所述内嵌字体对应的原始字体;或者,
确定对应同一字体的字形,并确定该字形是否满足设定条件,在满足时将该同一字体确定为所述内嵌字体对应的原始字体。
12.如权利要求7-10中任一所述的设备,其特征在于,该设备还包括:
显示单元,用于在确定所述内嵌字体对应的原始字体之后,在需要进行字符显示时,在本地保存的所述原始字体对应的字形集合中查找待显示字符对应的字形,并使用查找到的字形显示该待显示字符。
CN201110393936.1A 2011-12-01 2011-12-01 字体确定方法和设备 Expired - Fee Related CN103136166B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201110393936.1A CN103136166B (zh) 2011-12-01 2011-12-01 字体确定方法和设备
JP2014511731A JP5829330B2 (ja) 2011-12-01 2012-12-03 フォントを識別するための方法および装置
KR1020137030703A KR20140031269A (ko) 2011-12-01 2012-12-03 글꼴을 판별하는 방법 및 장치
PCT/CN2012/085773 WO2013079038A1 (zh) 2011-12-01 2012-12-03 字体确定方法和设备
EP12852905.4A EP2787448A4 (en) 2011-12-01 2012-12-03 METHOD AND DEVICE FOR DETERMINING POLICE

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110393936.1A CN103136166B (zh) 2011-12-01 2011-12-01 字体确定方法和设备

Publications (2)

Publication Number Publication Date
CN103136166A true CN103136166A (zh) 2013-06-05
CN103136166B CN103136166B (zh) 2015-06-17

Family

ID=48496008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110393936.1A Expired - Fee Related CN103136166B (zh) 2011-12-01 2011-12-01 字体确定方法和设备

Country Status (5)

Country Link
EP (1) EP2787448A4 (zh)
JP (1) JP5829330B2 (zh)
KR (1) KR20140031269A (zh)
CN (1) CN103136166B (zh)
WO (1) WO2013079038A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488471A (zh) * 2015-11-30 2016-04-13 北大方正集团有限公司 一种字形识别方法及装置
CN105975448A (zh) * 2016-05-04 2016-09-28 北京华熙动博网络科技有限公司 一种字体加载方法及装置
CN107943760A (zh) * 2017-11-22 2018-04-20 万兴科技股份有限公司 Pdf文档编辑的字体优化方法、装置、终端设备和存储介质
CN109656821A (zh) * 2018-12-11 2019-04-19 万兴科技股份有限公司 测试方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1952955A (zh) * 2005-10-18 2007-04-25 三星电子株式会社 含有直接打印功能打印机及其打印方法
US20080180713A1 (en) * 2007-01-31 2008-07-31 Konica Minolta Systems Laboratory, Inc. Direct printing of a desired or multiple appearances of object in a document file
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN102063415A (zh) * 2009-11-16 2011-05-18 北大方正集团有限公司 向pdf文件内嵌单字节字体的方法及其系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223161A (ja) * 2002-01-30 2003-08-08 Canon Inc 情報処理システム、方法及び装置、プログラム並びに記憶媒体
CN101008940B (zh) * 2006-01-27 2012-08-01 北京书生国际信息技术有限公司 自动处理字体缺失的方法与装置
US8494287B2 (en) * 2010-02-02 2013-07-23 Oracle International Corporation Character identification through glyph data matching
US20110276872A1 (en) * 2010-05-06 2011-11-10 Xerox Corporation Dynamic font replacement
CN102567431B (zh) * 2010-12-31 2014-04-02 北大方正集团有限公司 文档处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1952955A (zh) * 2005-10-18 2007-04-25 三星电子株式会社 含有直接打印功能打印机及其打印方法
US20080180713A1 (en) * 2007-01-31 2008-07-31 Konica Minolta Systems Laboratory, Inc. Direct printing of a desired or multiple appearances of object in a document file
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN102063415A (zh) * 2009-11-16 2011-05-18 北大方正集团有限公司 向pdf文件内嵌单字节字体的方法及其系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488471A (zh) * 2015-11-30 2016-04-13 北大方正集团有限公司 一种字形识别方法及装置
CN105488471B (zh) * 2015-11-30 2019-03-29 北大方正集团有限公司 一种字形识别方法及装置
CN105975448A (zh) * 2016-05-04 2016-09-28 北京华熙动博网络科技有限公司 一种字体加载方法及装置
CN107943760A (zh) * 2017-11-22 2018-04-20 万兴科技股份有限公司 Pdf文档编辑的字体优化方法、装置、终端设备和存储介质
CN107943760B (zh) * 2017-11-22 2021-09-21 万兴科技股份有限公司 Pdf文档编辑的字体优化方法、装置、终端设备和存储介质
CN109656821A (zh) * 2018-12-11 2019-04-19 万兴科技股份有限公司 测试方法及装置
CN109656821B (zh) * 2018-12-11 2022-06-07 万兴科技股份有限公司 测试方法及装置

Also Published As

Publication number Publication date
KR20140031269A (ko) 2014-03-12
WO2013079038A1 (zh) 2013-06-06
CN103136166B (zh) 2015-06-17
EP2787448A4 (en) 2016-03-16
EP2787448A1 (en) 2014-10-08
JP2014522519A (ja) 2014-09-04
JP5829330B2 (ja) 2015-12-09

Similar Documents

Publication Publication Date Title
KR101999409B1 (ko) 예시에 의한 데이터 포매팅 기법
CN103699585A (zh) 文件的元数据存储以及文件恢复的方法、装置和系统
EP3051428B1 (en) Method and system for selecting an encoding format for reading a target document
CN115061721A (zh) 一种报表生成方法、装置、计算机设备及存储介质
CN104424165A (zh) 一种文本文档乱码检测方法及系统
CN105204860A (zh) 一种快速生成自定义静态Web页面的方法及装置
CN102681978A (zh) 一种在pdf文档中显示文本的方法及系统
CN103136166B (zh) 字体确定方法和设备
CN111414362A (zh) 数据读取方法、装置、设备及存储介质
CN111400998B (zh) 一种文本的显示方法、装置、电子设备及可读存储介质
CN114090671A (zh) 数据导入方法、装置、电子设备及存储介质
CN104536998A (zh) 一种数据导入方法及装置
CN112559112B (zh) 界面节点定位方法及装置
CN107329756B (zh) 程序文件的生成方法、装置、存储介质、处理器和终端
CN105653669A (zh) 超文本标记语言生成方法及装置
CN113079273A (zh) 水印处理方法、装置、电子设备及介质
CN110555185A (zh) 基于pc客户端的页面定制方法及系统
CN103927176A (zh) 一种基于层次主题模型的程序特征树的生成方法
CN113703753B (zh) 用于产品开发的方法、装置和产品开发系统
CN103488616B (zh) 一种内嵌字体处理方法与装置
CN105653549A (zh) 一种提取文档信息的方法及装置
CN110737748B (zh) 一种文本去重方法及系统
CN115345131A (zh) 用于构建层级关系树的方法及装置、电子设备
CN112800185B (zh) 移动终端中界面结点的匹配文本生成、匹配方法及装置
CN110263303B (zh) 文本修改历史的追溯方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Patentee after: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20220921

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150617

CF01 Termination of patent right due to non-payment of annual fee