CN101008940A - 自动处理字体缺失的方法与装置 - Google Patents

自动处理字体缺失的方法与装置 Download PDF

Info

Publication number
CN101008940A
CN101008940A CN 200610002914 CN200610002914A CN101008940A CN 101008940 A CN101008940 A CN 101008940A CN 200610002914 CN200610002914 CN 200610002914 CN 200610002914 A CN200610002914 A CN 200610002914A CN 101008940 A CN101008940 A CN 101008940A
Authority
CN
China
Prior art keywords
font
disappearance
matching degree
information
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610002914
Other languages
English (en)
Other versions
CN101008940B (zh
Inventor
王东临
刘宁胜
楼永植
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mengzhiwang Technology Co ltd
Original Assignee
BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING SURESENSE INTERNATIONAL INFORMATION TECHNOLOGY Co Ltd
Priority to CN2006100029147A priority Critical patent/CN101008940B/zh
Publication of CN101008940A publication Critical patent/CN101008940A/zh
Application granted granted Critical
Publication of CN101008940B publication Critical patent/CN101008940B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种自动处理字体缺失的方法与装置,所述方法包括以下步骤:对系统环境中每一种字体,根据其字体名提取字体元素;根据各字体元素的优先级以及与缺失字体信息之间的匹配程度,确定所述每种字体和缺失字体的匹配程度;以及选择匹配程度最高的字体替换所述缺失字体。本发明能够自动、准确地选择合适的字体来替换缺失字体,使得文字展现效果好。

Description

自动处理字体缺失的方法与装置
技术领域
本发明涉及一种处理字体缺失的方法与装置,特别地,涉及一种自动处理字体缺失的方法与装置。
背景技术
文字是电子文档存储的重要内容之一,如何完整地描述和展现正确的文字内容,是图文编辑系统、字处理系统和排版系统需要处理的重要问题。
在保存和展现这些系统中文字的过程中,由于文档的编辑环境和阅读、再编辑环境不完全一致,有可能出现对文字的解释和展现不一致的情况。其中最典型的情形就是,系统环境中的字库不完全一样,编辑时的字库和展现时的字库不一样,结果导致文字显示不一致。
例如,使用字处理系统编辑一段宣传书稿,将其中一段标题文字编辑为用方正楷体格式展现。完稿后将稿件传送给另外一个人看,但他的电脑里没有安装方正楷体这种字库,在发现字体缺少的情况下,现有的字体替换技术一般比较生硬。以Office软件使用的方案为例,当Office软件发现系统中没有方正楷体这种字体时,就会自动用系统缺省字体来显示该段标题,在windows系统中缺省字体一般为宋体。这样,尽管windows系统自带有楷体(和方正楷体比较接近)这种字体,但是,该方案简单地使用缺省的宋体而不是系统自带的楷体来展现文字。
再比如PDF Reader软件采用的方案中,打开一个PDF文件,当PDFReader发现没有某种字体时,就会弹出一个对话框,要求用户选择一种替换字体。这种解决方案需要人工逐个指定用什么字体替换,显然比较机械。况且,普通的文档用户并不都是字体专家,将字体匹配工作交给人工,大多数用户还是不清楚该用什么字体替换,从而导致非预期的结果。
实际上,由于字体本身隐藏有很多信息,了解并提取这些信息,进而判断什么样的字体最适合匹配当前缺失的字体,这一工作应由计算机软件来完成。
发明内容
针对现有技术中的缺陷,本发明采用智能字体匹配技术来处理字体缺失,在当前环境中没有需要的、完全匹配的字体的情况下,按照一定的算法,从当前环境中自动选择合适的字体来替换缺失字体,使得这种字体最接近缺失字体。
本发明的基本思想是,枚举系统环境中所有文字字体,利用字体的一些特征对系统中字体和缺失字体的匹配程度进行评估,比较这些字体与缺失字体的相似程度。在此基础上,用匹配度最大即最相似的字体替换该缺失字体。
根据本发明的第一方面,提供一种自动处理字体缺失的方法,包括以下步骤:对系统环境中每一种字体,根据其字体名提取字体元素;根据各字体元素的优先级以及与缺失字体信息之间的匹配程度,确定所述每种字体和缺失字体的匹配程度;以及选择匹配程度最高的字体替换所述缺失字体。
在第一方面中,优选地,所述字体元素包括横竖排、繁简体、字符集、字体类型和厂商中的一种或多种。
优选地,所述各字体元素的优先级从高至低依次为:横竖排、繁简体、字符集、字体类型、厂商。
优选地,所述确定每种字体和缺失字体匹配程度的步骤包括,通过比较所述每种字体与缺失字体的横竖排信息是否相同,确定横竖排元素与缺失字体信息之间的匹配程度。
优选地,所述确定每种字体和缺失字体匹配程度的步骤包括,通过比较所述每种字体与缺失字体的繁简体信息是否相同,确定繁简体元素与缺失字体信息之间的匹配程度。
优选地,所述确定每种字体和缺失字体匹配程度的步骤包括,通过建立字符集间文字编码映射表,确定字符集元素与缺失字体信息之间的匹配程度。
优选地,所述确定每种字体和缺失字体匹配程度的步骤包括,根据所述每种字体与缺失字体的字体类型中相同文字的多少,确定字体类型元素与缺失字体信息之间的匹配程度。
优选地,所述确定每种字体和缺失字体匹配程度的步骤包括,根据所述每种字体与缺失字体的厂商名中相同文字的多少,确定厂商元素与缺失字体信息之间的匹配程度。
根据第二方面,提供一种自动处理字体缺失的装置,包括:字体元素提取装置,用于对系统环境中每一种字体,根据其字体名提取字体元素;匹配程度确定装置,用于根据各字体元素的优先级以及与缺失字体信息之间的匹配程度,确定所述每种字体和缺失字体的匹配程度;以及替换字体选择装置,用于选择匹配程度最高的字体替换所述缺失字体。
在第二方面中,优选地,所述字体元素包括横竖排、繁简体、字符集、字体类型和厂商中的一种或多种。
优选地,所述各字体元素的优先级从高至低依次为:横竖排、繁简体、字符集、字体类型、厂商。
根据本发明的自动处理字体缺失的方法与装置,能够在字体缺失的情况下减少人工交互,简化字体匹配工作并提高其效率;通过分析和比较系统中所有字体,能够更加准确地自动选择合适的字体,使得文字展现效果更好。
附图说明
为更好地理解本发明,下面仅以一个实施例结合附图对本发明作进一步说明,其中:
图1为显示windows系统中已安装字体的窗口视图;
图2为本发明一个实施例的处理字体缺失方法的流程图。
具体实施方式
参照图1,图1为显示windows系统中已安装字体的窗口视图。常见字体的典型字体名举例如下:1、方正小标宋简体_GBK;2、华文行楷;3、@楷体。在这些字体名中,“方正”是字体厂商的名称,“宋”为基础字体类型,“小标宋”是宋体的变体,“简体”为简繁的标示,“@”为竖排信息,GBK为字体编码信息。
在某种应用场合,如在显示打印文档时,如果当前系统中没有该文档所需要的特定字体,参照图2,图2为本发明一个实施例的处理字体缺失方法的流程图。首先在步骤S21,对系统环境中的每一种字体,根据其字体名提取字体元素。针对各字体名,提取字体元素的具体步骤为:字体名最前面有“@”字符的为竖排字体,否则为横排字体;字体名中含“方正”、“汉仪”、“华康”、“华文”、“昆仑”、“文星”的文字为厂商名称;字体名中有“简体”、“繁体”、“简”、“繁”文字的可视为简、繁体信息,缺省为简体;字体名中含“2312”、“12345”、“18030”、“13000”、“748”、“GBK”的为字符集信息,缺省为2312;字体名中有“宋”、“黑”、“楷”、“魏”的为基本字体类型,字体名含基本字体类型的字体视为基本字体的变体。
优选地,所提取的字体元素可包括横竖排、繁简体、字符集、字体类型和厂商中的一种或多种。这里,也可从字体名的其他信息中提取字体元素,例如,字体名中包含“新”的可提取变体元素作为字体元素。
考虑到进行字体匹配时各字体元素的重要程度不同,优选地,各字体元素的优先级从高至低依次为:横竖排、繁简体、字符集、字体类型、厂商。要说明的是,各字体元素的优先级顺序并不局限于这一种,而是可以采用其他任何一种合理的顺序。
要确定系统中每种字体和缺失字体的匹配程度,按照各字体元素上述优选的优先级顺序,在步骤S22,比较所述每种字体与缺失字体的横竖排信息是否相同,即是否都含有@字符或者都不含有@字符,如判断二者同为竖排字体或者同为横排字体,则执行步骤S23,否则认为该字体和缺失字体不匹配;在步骤S23,比较每种字体与缺失字体的繁简体信息是否相同,同样地,如判断二者同为繁体或者同为简体,则执行步骤S24,否则认为该字体和缺失字体不匹配。
接下来在步骤S24,当文字的编码位于GB2312字符集范围内时,GB13000、GB18030字符集或748码字符集的字体可视为GB2312字符集的字体;当文字的编码位于GB13000字符集范围内时,GB18030字符集的字体可视为GB13000字符集的字体;对于GB12345字符集、748码字符集的字体,可采用建立字符集间文字编码映射表的方式,通过将其文字编码映射到GB13000或GB18030字符集中具有相同字形的编码,与GB13000或GB18030字符集中相应字体匹配;对于GB2312和GB12345字符集中字形相同的文字,这两个字符集的字体可互相匹配。
这时,和缺失字体匹配的字体如果有多种,则执行步骤S25。在步骤S25,根据每种字体与缺失字体的字体类型中相同文字的多少,确定字体类型元素与缺失字体信息之间的匹配程度,从而确定每种字体和缺失字体的匹配程度。例如,可根据下式计算字体类型间的匹配程度:Match4=匹配的字数/缺失字体类型的字数。可以看出,如果某种字体与缺失字体的字体类型相同,则Match4的值为1。这里,对不同名称的相同字体,如“宋体”和“书宋”、“魏体”和“魏碑”、“行书”和“行楷”等视为完全匹配。需要指出,在该步骤除根据字体类型中相同文字的多少进行判断外,也可根据字体类型中相同文字所处的位置来判断。
接着执行步骤S26,根据每种字体与缺失字体的厂商名中相同文字的多少,确定厂商元素与缺失字体信息之间的匹配程度,从而确定每种字体和缺失字体的匹配程度。这里,可根据下式计算厂商名间的匹配程度:Match5=匹配的字数/缺失字体厂商名的字数。同样地,如果某种字体与缺失字体的厂商名相同,则Match5的值为1。
例如,可利用下式,最终确定每种字体和缺失字体的匹配程度:Match=Match4*10000+Match5*10。这样,对所有符合步骤S22、S23、S24比较结果的字体,都求出Match值。尔后,在步骤S27,选择其中Match值最大即匹配程度最高的字体来替换缺失字体。
本发明可应用于阅读电子文档、浏览网页等多种需要显示文字的场合,这对本领域技术人员来讲是显然的。
显而易见,在此描述的本发明可以有许多变化,这种变化不能认为偏离本发明的精神和范围。因此,所有对本领域技术人员显而易见的改变,都包括在本权利要求书的涵盖范围之内。

Claims (11)

1、一种自动处理字体缺失的方法,包括以下步骤:
对系统环境中每一种字体,根据其字体名提取字体元素;
根据各字体元素的优先级以及与缺失字体信息之间的匹配程度,确定所述每种字体和缺失字体的匹配程度;以及
选择匹配程度最高的字体替换所述缺失字体。
2、如权利要求1所述的方法,其特征在于,所述字体元素包括横竖排、繁简体、字符集、字体类型和厂商中的一种或多种。
3、如权利要求2所述的方法,其特征在于,所述各字体元素的优先级从高至低依次为:横竖排、繁简体、字符集、字体类型、厂商。
4、如权利要求2或3所述的方法,其特征在于,所述确定每种字体和缺失字体匹配程度的步骤包括,通过比较所述每种字体与缺失字体的横竖排信息是否相同,确定横竖排元素与缺失字体信息之间的匹配程度。
5、如权利要求2或3所述的方法,其特征在于,所述确定每种字体和缺失字体匹配程度的步骤包括,通过比较所述每种字体与缺失字体的繁简体信息是否相同,确定繁简体元素与缺失字体信息之间的匹配程度。
6、如权利要求2或3所述的方法,其特征在于,所述确定每种字体和缺失字体匹配程度的步骤包括,通过建立字符集间文字编码映射表,确定字符集元素与缺失字体信息之间的匹配程度。
7、如权利要求2或3所述的方法,其特征在于,所述确定每种字体和缺失字体匹配程度的步骤包括,根据所述每种字体与缺失字体的字体类型中相同文字的多少,确定字体类型元素与缺失字体信息之间的匹配程度。
8、如权利要求2或3所述的方法,其特征在于,所述确定每种字体和缺失字体匹配程度的步骤包括,根据所述每种字体与缺失字体的厂商名中相同文字的多少,确定厂商元素与缺失字体信息之间的匹配程度。
9、一种自动处理字体缺失的装置,包括:
字体元素提取装置,用于对系统环境中每一种字体,根据其字体名提取字体元素;
匹配程度确定装置,用于根据各字体元素的优先级以及与缺失字体信息之间的匹配程度,确定所述每种字体和缺失字体的匹配程度;以及
替换字体选择装置,用于选择匹配程度最高的字体替换所述缺失字体。
10、如权利要求9所述的装置,其特征在于,所述字体元素包括横竖排、繁简体、字符集、字体类型和厂商中的一种或多种。
11、如权利要求10所述的装置,其特征在于,所述各字体元素的优先级从高至低依次为:横竖排、繁简体、字符集、字体类型、厂商。
CN2006100029147A 2006-01-27 2006-01-27 自动处理字体缺失的方法与装置 Expired - Fee Related CN101008940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006100029147A CN101008940B (zh) 2006-01-27 2006-01-27 自动处理字体缺失的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006100029147A CN101008940B (zh) 2006-01-27 2006-01-27 自动处理字体缺失的方法与装置

Publications (2)

Publication Number Publication Date
CN101008940A true CN101008940A (zh) 2007-08-01
CN101008940B CN101008940B (zh) 2012-08-01

Family

ID=38697374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006100029147A Expired - Fee Related CN101008940B (zh) 2006-01-27 2006-01-27 自动处理字体缺失的方法与装置

Country Status (1)

Country Link
CN (1) CN101008940B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402500A (zh) * 2011-11-23 2012-04-04 上海居冠软件有限公司 Pdf文件到swf文件转换方法及系统
CN102724410A (zh) * 2011-05-06 2012-10-10 新奥特(北京)视频技术有限公司 一种不同字幕机的字体修正方法和装置
WO2013079038A1 (zh) * 2011-12-01 2013-06-06 北大方正集团有限公司 字体确定方法和设备
CN103279452A (zh) * 2013-05-28 2013-09-04 珠海金山办公软件有限公司 一种在关联设备中匹配并传输字体文件的方法和系统
CN103312793A (zh) * 2013-05-28 2013-09-18 珠海金山办公软件有限公司 一种跨设备提醒文件所缺失的字体信息的方法和系统
CN103699520A (zh) * 2012-09-27 2014-04-02 茵弗维尔株式会社 用于维持电子文档布局的字体处理方法
CN103761110A (zh) * 2014-02-18 2014-04-30 优视科技有限公司 浏览器字体显示处理方法和装置
CN112101239A (zh) * 2020-09-17 2020-12-18 中国建设银行股份有限公司 一种查找pdf文件中缺失字符的方法、装置和系统
CN114021220A (zh) * 2021-10-29 2022-02-08 湖南省交通规划勘察设计院有限公司 一种cad字体文件嵌入dwg文档与自动安装方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043212A (ja) * 1999-07-23 2001-02-16 Internatl Business Mach Corp <Ibm> 電子文書における文字情報の正規化方法
CN1452063A (zh) * 2002-04-18 2003-10-29 英业达股份有限公司 PhotoShop图形文件的字体转换方法
FI20035250A (fi) * 2003-12-31 2005-07-01 Nokia Corp Fonttien skaalauksen järjestäminen

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724410A (zh) * 2011-05-06 2012-10-10 新奥特(北京)视频技术有限公司 一种不同字幕机的字体修正方法和装置
CN102402500A (zh) * 2011-11-23 2012-04-04 上海居冠软件有限公司 Pdf文件到swf文件转换方法及系统
WO2013079038A1 (zh) * 2011-12-01 2013-06-06 北大方正集团有限公司 字体确定方法和设备
CN103699520A (zh) * 2012-09-27 2014-04-02 茵弗维尔株式会社 用于维持电子文档布局的字体处理方法
CN103279452A (zh) * 2013-05-28 2013-09-04 珠海金山办公软件有限公司 一种在关联设备中匹配并传输字体文件的方法和系统
CN103312793A (zh) * 2013-05-28 2013-09-18 珠海金山办公软件有限公司 一种跨设备提醒文件所缺失的字体信息的方法和系统
CN103312793B (zh) * 2013-05-28 2017-02-08 珠海金山办公软件有限公司 一种跨设备提醒文件所缺失的字体信息的方法和系统
CN103761110A (zh) * 2014-02-18 2014-04-30 优视科技有限公司 浏览器字体显示处理方法和装置
CN103761110B (zh) * 2014-02-18 2017-12-26 优视科技有限公司 浏览器字体显示处理方法和装置
CN112101239A (zh) * 2020-09-17 2020-12-18 中国建设银行股份有限公司 一种查找pdf文件中缺失字符的方法、装置和系统
CN114021220A (zh) * 2021-10-29 2022-02-08 湖南省交通规划勘察设计院有限公司 一种cad字体文件嵌入dwg文档与自动安装方法

Also Published As

Publication number Publication date
CN101008940B (zh) 2012-08-01

Similar Documents

Publication Publication Date Title
CN101008940B (zh) 自动处理字体缺失的方法与装置
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
US7823061B2 (en) System and method for text segmentation and display
Déjean et al. A system for converting PDF documents into structured XML format
US8719702B2 (en) Document organizing based on page numbers
US7982737B2 (en) System and method for independent font substitution of string characters
US20070136660A1 (en) Creation of semantic objects for providing logical structure to markup language representations of documents
US20060285746A1 (en) Computer assisted document analysis
CN101667118A (zh) 多语言版本的开发、替换方法及装置
US8208726B2 (en) Method and system for optical character recognition using image clustering
CN102541948A (zh) 用于提取文档结构的方法和装置
CN102081594A (zh) 从可移植电子文档中提取字符外接矩形的设备和方法
EP2191396B1 (en) An apparatus for preparing a display document for analysis
CN109582934B (zh) 版式文档的转换方法及装置
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
US20120109638A1 (en) Electronic device and method for extracting component names using the same
US11775733B2 (en) Device dependent rendering of PDF content including multiple articles and a table of contents
CN109739981B (zh) 一种pdf文件类别判定方法及文字提取方法
CN105320716A (zh) 数字出版物的自动标注方法
CN111241096A (zh) 一种excel文档的文本提取方法、系统、终端及存储介质
CN104536948A (zh) 版式文档的处理方法及装置
CN102110082B (zh) 一种小样文件的补字输出方法及系统
CN108304401A (zh) 电子图书搜索方法及系统
US11842141B2 (en) Device dependent rendering of PDF content
CN104463153A (zh) 一种提高版式文档中字符识别率的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIJING SURSEN ELECTRONIC TECHNOLOGY CO., LTD.

Effective date: 20140320

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100191 HAIDIAN, BEIJING TO: 100029 CHAOYANG, BEIJING

TR01 Transfer of patent right

Effective date of registration: 20140320

Address after: 100029 Beijing city Chaoyang District Anding Road No. 39 Changxin building 4 room 408-409

Patentee after: BEIJING SURSEN INTERNATIONAL INFORMATION TECHNOLOGY Co.,Ltd.

Patentee after: BEIJING SURSEN ELECTRONIC TECHNOLOGY Co.,Ltd.

Address before: 100191, Taixing building, 11 Garden East Road, Beijing, Haidian District, China, 4 floor

Patentee before: BEIJING SURSEN INTERNATIONAL INFORMATION TECHNOLOGY Co.,Ltd.

ASS Succession or assignment of patent right

Free format text: FORMER OWNER: BEIJING SURSEN ELECTRONIC TECHNOLOGY CO., LTD.

Effective date: 20140827

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140827

Address after: 100029 Beijing city Chaoyang District Anding Road No. 39 Changxin building 4 room 408-409

Patentee after: BEIJING SURSEN INTERNATIONAL INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 100029 Beijing city Chaoyang District Anding Road No. 39 Changxin building 4 room 408-409

Patentee before: BEIJING SURSEN INTERNATIONAL INFORMATION TECHNOLOGY Co.,Ltd.

Patentee before: BEIJING SURSEN ELECTRONIC TECHNOLOGY Co.,Ltd.

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160923

Address after: 100102 Beijing city Chaoyang District Guangshun North Street Hospital No. 5 No. 32 5017

Patentee after: BEIJING MENGZHIWANG TECHNOLOGY CO.,LTD.

Address before: 100029 Beijing city Chaoyang District Anding Road No. 39 Changxin building 4 room 408-409

Patentee before: BEIJING SURSEN INTERNATIONAL INFORMATION TECHNOLOGY Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120801