CN104182520B - 利用部件自动生成汉字字库的实现方法 - Google Patents

利用部件自动生成汉字字库的实现方法 Download PDF

Info

Publication number
CN104182520B
CN104182520B CN201410421562.3A CN201410421562A CN104182520B CN 104182520 B CN104182520 B CN 104182520B CN 201410421562 A CN201410421562 A CN 201410421562A CN 104182520 B CN104182520 B CN 104182520B
Authority
CN
China
Prior art keywords
character
pictophonetic
chinese
storehouse
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410421562.3A
Other languages
English (en)
Other versions
CN104182520A (zh
Inventor
严永亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cang Er character Technology Co., Ltd.
Original Assignee
严永亮
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 严永亮 filed Critical 严永亮
Priority to CN201410421562.3A priority Critical patent/CN104182520B/zh
Publication of CN104182520A publication Critical patent/CN104182520A/zh
Application granted granted Critical
Publication of CN104182520B publication Critical patent/CN104182520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明公开了一种利用部件自动生成汉字字库的实现方法,包括以下步骤:第一步:建立结构库;第二步:建立声旁库;第三步:建立形旁库;第四步:自动生成汉字字库,本发明的有益效果如下:通过建立结构库、声旁库和形旁库,在需要生成不同字体的汉字字库时,只需根据该种字体的结构变量调整结构库、声旁库以及形旁库的变量,并形成汉字编码,即可实现汉字字库的自动生成,最后利用计算机软件将所生成的对应字体的汉字打包形成字库,大大提高制作效率,降低字库生成成本。

Description

利用部件自动生成汉字字库的实现方法
技术领域
本发明涉及一种字库的自动实现方法,尤其是一种利用部件自动生成汉字字库的实现方法。
背景技术
现在,汉字字库广泛地应用到我们的日常生活和工作之中,改善了很多工作、交流的方式和不同媒介传播信息的渠道。虽然很多人都在天天接触和使用它,但对它复杂的制作工艺、居高的生产成本却鲜为人知。
汉字字库产生于上个世纪80年代末至90年代初,这是在中国文化传播的一场伟大革命。这一新技术逐渐应用到电脑和激光照排机之中,从而替代了传统的铅字排版和照相制版,极大地提高了工作效率,也具有极其深远的社会意义。
随着时代的变迁,计算机、平板电脑和智能手机等现代化的办公设备以及通讯工具开始为我们的日常办公、网上冲浪、文字聊天等提供了一个很好的平台,这一技术的发展方便了我们的同时每个人提笔写字的机会越来越少,电脑字库使我们逐渐远离了手写。这一变化当下的每个人都有切身体会,导致大多数人在现实生活之中提笔忘字,更看不到身边评论某人字写的如何的机会。虽然这一现象值得深思和担忧,但时代的发展和大势所趋,是很难改变眼前现状的。
汉字字库是基于书法审美基础之上进行再设计的汉字,以书法为根基但又有很大不同,是无数标准模数方块字的集合。无论每个字的笔画多少,都是等大面积的无限分割。用电脑输出的汉字等大、整齐、匀称,正是这一与手写体相比缺少个性的特点大大增加了其易读性。由于汉字的造字规律和自身特点使汉字字库开发的字数多、工作量大而且难度极高,所以开发成本也一直居高不下。一套成熟的汉字字体前期的设计制作一般需要几个人协作两三年,测试也需要一两年,加起来要四五年的时间。另外,我国在知识产权保护方面的相关法规的不完善和大众的法律意识淡薄导致了字体盗版的泛滥,更影响了汉字字体的收益空间,造成了投入高、风险大、数量少(相对于使用汉字的日本我国的汉字字体的数量大概是其的四分之一)的尴尬局面。目前我国所使用的汉字字库以正文字体的宋、仿、黑、楷最为典型,大部分脱胎于之前的铅字稿或短时期的“快销品”,甚至有些产品是二十多年前开发的也不少见,而且我国字库字体的数量相对使用汉字的日本也十分匮乏。
目前,根据不同字体建立不同风格的汉字字库虽然已经借助于自动化设备实现,但是,由于在字库生成过程中,需要团队协作,无论使用的是何种软件都会存在很多问题,其中尤为突出的就是每个人对字的感觉不同,在控制字的中宫、字面的大小、声形旁的比例、笔画的粗细和弧度等都会有很大的差异。这种情况是汉字字库尤为难解决的问题,后期要花费很大的精力和成本来处理这一问题。现在,汉字字库的制作工艺虽然比传统字库的做法效率提高了很多,但每款字体还是需要一至几年和几十万甚至上百万人民币不等的成本。
发明内容
本发明要解决的技术问题是提供一种利用部件自动生成汉字字库的实现方法,通过建立结构库、声旁库和形旁库,并进行统一编码,在需要根据不同字体建立汉字字库时,只需根据该种字体的结构变量对结构库以及声旁和形旁进行参数调整即可,实现字库的自动生成,大大降低成本。
为解决上述技术问题,本发明所采取的技术方案是:一种利用部件自动生成汉字字库的实现方法,包括以下步骤:
第一步:建立结构库,首先构建制作字库所需的矢量字库,并为每个汉字进行编码,然后为矢量字库中的每个汉字规定笔画位置和中宫可控制大小的结构形式,所有矢量字库中的汉字对应的所有结构形式构成结构库;
第二步:建立声旁库,将矢量字库中每个汉字的声旁依据控制变量按照渐变的方式形成16×16的声旁矩阵,声旁矩阵的行和列分别赋予0-f的编码,形成声旁库;
第三步:建立形旁库,除独体字外,将左右结构、上下结构、半包围结构和全包围结构的汉字按照形旁分类形成形旁库;
第四步:自动生成汉字字库,将汉字在矢量字库中的编码、声旁库的编码和形旁库的编码组成汉字编码,该编码的形式为“矢量字库编码-形旁库编码+声旁库编码”,最后根据结构库生成汉字字库。
在步骤二中,所述的控制变量为声旁的高矮和宽窄,声旁矩阵从左至右为最宽至最窄,从上到下为最高至最窄,从上到下和从左到右均为逐渐变化,矢量字库中的所有汉字的声旁的声旁矩阵构成声旁库。
第三步所述的形旁库分类方法包括将出现在左右结构的汉字中的形旁从左至右依据最宽到最窄的规律依次形成8种结构,并将8种结构从0-7依次编码,将出现在上下结构的汉字中的形旁从上至下依据最高到最矮的规律依次形成8种结构,并将该8种结构从0-7依次编码,将出现在全包围结构和半包围结构的汉字中的形旁依据最宽至最窄和最高至最矮两种变化方式形成4×4种结构形式,并将所形成的4×4的矩阵从左至右和从上至下依次赋予0-3的编码,所有形旁在不同结构的汉字中出现的形式编码构成形旁库
所述结构库中的笔画位置和中宫大小根据不同字体进行调整,从而生成不同字体的汉字字库。
本发明的有益效果如下:通过建立结构库、声旁库和形旁库,在需要生成不同字体的汉字字库时,只需根据该种字体的结构变量调整结构库、声旁库以及形旁库的变量,并形成汉字编码,即可实现汉字字库的自动生成,最后利用计算机软件将所生成的对应字体的汉字打包形成字库,大大提高制作效率,降低字库生成成本。
附图说明
图1是实施例中声旁矩阵示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
综上所述,由于汉字字库的制作由于汉字数量庞大,结构复杂,所以难度也相对很高,除了字体相关知识,工艺一直是难突破的一个关口,经过仔细分析、统计、类比和试验后发现汉字的各个部件之中存在着一个模糊的规律,部件是指汉字的声旁或者形旁,即同一部件在不同的字中可以按阶梯由大到小逐次递减来适合每个汉字的需求,梳理好所需的形旁,然后根据最大部件法的声旁表梳理出各个方向的声旁关键字,利用上述方法经过大量的尝试之后,制作出需要的形旁库和声旁库,给每个部件一个代码,在软件中先构建好系统字库每个字的相对可调整中宫大小的最佳结构,根据每个字所需部件从相应的形旁库和声旁库中提取,每个字根据使用的部件相应的会有一个代码,和Unicode结合编成新的编码,再设计新的字库时就可以在软件中根据这个编码快速、便捷地自动生成,这就是利用模糊概率快速批量生成汉字的方法,在拼好字的基础之上软件自动打包成所需的汉字字库。
具体方案包括以下步骤:
第一步:建立结构库,首先构建制作字库所需的矢量字库,并为每个汉字进行编码,然后为矢量字库中的每个汉字规定笔画位置和中宫可控制大小的结构形式,所有矢量字库中的汉字对应的所有结构形式构成结构库;
第二步:建立声旁库,将矢量字库中每个汉字的声旁依据控制变量按照渐变的方式形成16×16的声旁矩阵,声旁矩阵的行和列分别赋予0-f的编码,所述的控制变量为声旁的高矮和宽窄,声旁矩阵从左至右为最宽至最窄,从上到下为最高至最窄,从上到下和从左到右均为逐渐变化,矢量字库中的所有汉字的声旁的声旁矩阵构成声旁库;
第三步:建立形旁库,除独体字外,将出现在左右结构的汉字中的形旁从左至右依据最宽到最窄的规律依次形成8种结构,并将8种结构从0-7依次编码,将出现在上下结构的汉字中的形旁从上至下依据最高到最矮的规律依次形成8种结构,并将该8种结构从0-7依次编码,将出现在全包围结构和半包围结构的汉字中的形旁依据最宽至最窄和最高至最矮两种变化方式形成4×4种结构形式,并将所形成的4×4的矩阵从左至右和从上至下依次赋予0-3的编码,所有形旁在不同结构的汉字中出现的形式编码构成形旁库;
第四步:自动生成汉字字库,将汉字在矢量字库中的编码、声旁库的编码和形旁库的编码组成汉字编码,该编码的形式为“矢量字库编码-形旁库编码+声旁库编码”,最后根据结构库生成汉字字库,所述结构库中的笔画位置和中宫大小根据不同字体进行调整,从而生成不同字体的汉字字库。
本发明以GB18030为例,GB18030字库共有27533个汉字,其中约3%独体字、80%左右结构、10%上下结构、7%包围结构。汉字的特点以复合字居多,形旁和声旁的组合形式是多种多样的,粗分一下,大概有11种类型:
左形右声——你、语、冷、构、理
左声右形——胡、欺、雌、副、领
上形下声——字、花、露、筒、楚
上声下形——愚、禁、斧、袋、肓
外形内声(全包孕)——圃
左上形右下声——厅、廊、病、房
左下形右上声——逢、廷
左下声右上形——匍、匐
上半包——闷、周、同
下半包——函
左半包——匡
汉字中除了独体字之外,其余都是复合字,大约占到整个汉字的97%左右。虽然复合字的各个部件大小不一,但在其中有一条模糊的规律可以借鉴,用华文宋体作为样本,其中木字旁的字共有970个,进行大量试验后,用“林”和“懈”两个最大和最小两个极端的木字旁渐变生成8个由宽到窄的木字旁,可以满足970个木子旁的字;声旁字“古字旁”有32个,8个由大到小逐渐渐变的就可以满足所有声旁字的使用,将形旁和声旁各分成8个级别,在不调整宽度的情况下可以拼出几乎所有的字,这个方法就可以通过约束形旁和声旁根据不同字所占比例的变量很轻松地将字拼出来,同样的方法可以用到上下结构之中,通过适当的调整以后也可以用到包围结构和半包围结构上来,有很大的发挥空间。
以声旁表中的“古“字为例,找出独体字“古”(最大古)、左右结构的“酤”(最窄古)、上下结构的“罟”(最矮古)、包围结构的“固”(最小古)四个极点的“古”字声旁,将其分布于以0-f为坐标的矩阵四个角,渐变生成古字声旁库(参见附图1);以0-7为代码由大到小两个极点生成所有左右、上下结构的形旁;以内部空间最大、最小、最高、最矮四个极点将其分布于0-3为为坐标的矩阵四个角生成包围结构的形旁,将和“古”字相关的各个形旁放于声旁矩阵的不同功能区,可以快速拼出所有和“古”字相关的字,通过实践证明,这一用模糊概率快速生成汉字的方法可以大大提高拼字的效率,二是避免了不同人拼字对粗细、大小、宽窄、弧度、角度、字形把握的不一致的问题。
总之,本发明通过建立结构库、声旁库和形旁库,在需要生成不同字体的汉字字库时,只需根据该种字体的结构变量调整结构库、声旁库以及形旁库的变量,并形成汉字编码,即可实现汉字字库的自动生成,最后利用计算机软件将所生成的对应字体的汉字打包形成字库,大大提高制作效率,降低字库生成成本。

Claims (4)

1.一种利用部件自动生成汉字字库的实现方法,其特征在于:包括以下步骤:
第一步:建立结构库,首先构建制作字库所需的矢量字库,并为每个汉字进行编码,然后为矢量字库中的每个汉字规定笔画位置和中宫可控制大小的结构形式,所有矢量字库中的汉字对应的所有结构形式构成结构库;
第二步:建立声旁库,将矢量字库中每个汉字的声旁依据控制变量按照渐变的方式形成16×16的声旁矩阵,声旁矩阵的行和列分别赋予0-f的编码,形成声旁库;
第三步:建立形旁库,除独体字外,将左右结构、上下结构、半包围结构和全包围结构的汉字按照形旁分类形成形旁库;
第四步:自动生成汉字字库,将汉字在矢量字库中的编码、声旁库的编码和形旁库的编码组成汉字编码,该汉字编码的形式为“矢量字库编码-形旁库编码+声旁库编码”,最后根据结构库生成汉字字库。
2.根据权利要求1所述的利用部件自动生成汉字字库的实现方法,其特征在于:在第二步中,所述的控制变量为声旁的高矮和宽窄,声旁矩阵从左至右为最宽至最窄,从上到下为最高至最窄,从上到下和从左到右均为逐渐变化,矢量字库中的所有汉字的声旁的声旁矩阵构成声旁库。
3.根据权利要求2所述的利用部件自动生成汉字字库的实现方法,其特征在于:第三步所述的形旁库分类方法包括将出现在左右结构的汉字中的形旁从左至右依据最宽到最窄的规律依次形成8种结构,并将8种结构从0-7依次编码,将出现在上下结构的汉字中的形旁从上至下依据最高到最矮的规律依次形成8种结构,并将该8种结构从0-7依次编码,将出现在全包围结构和半包围结构的汉字中的形旁依据最宽至最窄和最高至最矮两种变化方式形成4×4种结构形式,并将所形成的4×4的矩阵从左至右和从上至下依次赋予0-3的编码,所有形旁在不同结构的汉字中出现的形式编码构成形旁库。
4.根据权利要求3所述的利用部件自动生成汉字字库的实现方法,其特征在于:所述结构库中的笔画位置和中宫大小根据不同字体进行调整,从而生成不同字体的汉字字库。
CN201410421562.3A 2014-08-26 2014-08-26 利用部件自动生成汉字字库的实现方法 Active CN104182520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410421562.3A CN104182520B (zh) 2014-08-26 2014-08-26 利用部件自动生成汉字字库的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410421562.3A CN104182520B (zh) 2014-08-26 2014-08-26 利用部件自动生成汉字字库的实现方法

Publications (2)

Publication Number Publication Date
CN104182520A CN104182520A (zh) 2014-12-03
CN104182520B true CN104182520B (zh) 2017-08-08

Family

ID=51963559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410421562.3A Active CN104182520B (zh) 2014-08-26 2014-08-26 利用部件自动生成汉字字库的实现方法

Country Status (1)

Country Link
CN (1) CN104182520B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610200B (zh) * 2017-10-10 2020-11-03 南京师范大学 一种基于特征模板的字库快速生成方法
CN111135587A (zh) * 2019-11-27 2020-05-12 房景军 基于汉字合体字构字原理的汉字游戏设计方法
CN112381910A (zh) * 2020-12-28 2021-02-19 北京亿信华辰软件有限责任公司武汉分公司 一种打印体字符手写风格化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799590A (zh) * 2011-05-26 2012-11-28 安凯(广州)微电子技术有限公司 嵌入式电子产品字库、字库生成方法及字库查找方法
CN102955765A (zh) * 2011-08-22 2013-03-06 文鼎科技开发股份有限公司 对应字型大小来微调汉字的方法及汉字微调系统
CN103049096A (zh) * 2012-12-13 2013-04-17 刘陶 移置三类汉字信息字码表实现字词句的随机编码方法
CN103885699A (zh) * 2012-12-20 2014-06-25 中山大学深圳研究院 一种基于移动终端自动摹写手写体的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9208589B2 (en) * 2012-10-22 2015-12-08 Apple Inc. Optical kerning for multi-character sets

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799590A (zh) * 2011-05-26 2012-11-28 安凯(广州)微电子技术有限公司 嵌入式电子产品字库、字库生成方法及字库查找方法
CN102955765A (zh) * 2011-08-22 2013-03-06 文鼎科技开发股份有限公司 对应字型大小来微调汉字的方法及汉字微调系统
CN103049096A (zh) * 2012-12-13 2013-04-17 刘陶 移置三类汉字信息字码表实现字词句的随机编码方法
CN103885699A (zh) * 2012-12-20 2014-06-25 中山大学深圳研究院 一种基于移动终端自动摹写手写体的方法

Also Published As

Publication number Publication date
CN104182520A (zh) 2014-12-03

Similar Documents

Publication Publication Date Title
KR101604931B1 (ko) 한자 구성 방법과 장치, 문자 구성 방법과 장치, 및 폰트 라이브러리 생성 방법
CN107644006A (zh) 一种基于深度神经网络的手写体中文字库自动生成方法
CN104182520B (zh) 利用部件自动生成汉字字库的实现方法
CN104571587B (zh) 对输入法的上屏候选项进行筛选的方法和装置
CN102262683B (zh) 一种汉字输入方法
CN101957660B (zh) 多文字通用型多键并击式输入方法
CN104063359A (zh) 个性化汉字字库的实现方法
CN102750337A (zh) 字库的制作方法和装置
CN106033412A (zh) 一种文本转换方法及装置
CN106383848A (zh) 一种实现的多音字汉字转拼音的方法
CN101135938B (zh) 一种汉字元拼双音输入方法
CN103744532A (zh) 二十六偏旁部首字根中英和谐输入方法
CN110377167A (zh) 字体产生方法和字体产生装置
CN104346375A (zh) 一种制作中间字库的方法以及装置
CN105912139B (zh) 一种模块化笔画编码汉字对应识别的方法
KR102527899B1 (ko) 웹툰 컨텐츠 재배치 방법 및 그 장치
CN102023717A (zh) 三五首次音码及其键盘
CN103760989B (zh) 和码横竖加撇捺字形技术与输入法
CN100535837C (zh) 一种汉字笔数形号输入法
CN1010989B (zh) 一种汉字输入方法及其输入键盘
CN100371866C (zh) 快易码数码象形输入法
CN107066111B (zh) 替换式组字系统
CN105389015B (zh) 单码汉字输入法
CN107368323A (zh) 一种用于票据的时间轴绘制方法及系统
CN102331862B (zh) 十笔字根汉字输入法及其字母键盘

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181015

Address after: 100012 C068 3, No. 20 building, Lai Guang Ying Ying Qiu yuan, Chaoyang District, Beijing.

Patentee after: Beijing Cang Er character Technology Co., Ltd.

Address before: 100102 No. 8, South Street, Hua Jia Di, Chaoyang District, Beijing.

Patentee before: Yan Yongliang