CN104063359A

CN104063359A - 个性化汉字字库的实现方法

Info

Publication number: CN104063359A
Application number: CN201410208728.3A
Authority: CN
Inventors: 严永亮
Original assignee: Individual
Current assignee: Beijing Cang Er Character Technology Co ltd
Priority date: 2014-05-19
Filing date: 2014-05-19
Publication date: 2014-09-24
Anticipated expiration: 2034-05-19
Also published as: CN104063359B

Abstract

本发明公开了一种个性化汉字字库实现方法，包括以下步骤：第一步：建立笔序库；第二步：建立结构库；第三步：建立笔画库；第四步：生成个性化字库，其优点在于：本发明根据每个笔画控制变量的变化形成笔画库，包含所获取的矢量字库中每个笔画的所有形式，并根据每个笔画矢量形式的控制变量的渐变形成矩阵形式的笔画库，通过计算机软件对使用者所书写的笔画矢量形式与该矩阵形式的笔画库中的笔画进行对比，最终根据使用者输入的所有笔画选择形成新的笔画库，将形成的新的笔画库结合所选择的结构库形成新的个性化字库。

Description

个性化汉字字库的实现方法

技术领域

本发明涉及汉字字库形成方法技术领域。

背景技术

现在，汉字字库广泛地应用到我们的日常生活和工作之中，改善了很多工作、交流的方式和不同媒介传播信息的渠道。虽然很多人都在天天接触和使用它，但对它复杂的制作工艺、居高的生产成本却鲜为人知。

汉字字库产生于上个世纪80年代末至90年代初，这是在中国文化传播的一场伟大革命。这一新技术逐渐应用到电脑和激光照排机之中，从而替代了传统的铅字排版和照相制版，极大地提高了工作效率，也具有极其深远的社会意义。在当时除了应用于印刷和屏显领域之外，大部分汉字的使用是通过手写呈现出来的。由于每个人的天生性格、成长环境、个人爱好等的不同，有的整齐、有的潦草，有的俊秀、有的丑陋，有的肥大、有的瘦小，有的狂放、有的拘谨，因此每个人的笔迹大相径庭，有血有肉，一直有“字如其人，之说。

随着时代的变迁，计算机、平板电脑和智能手机等现代化的办公设备以及通讯工具开始为我们的日常办公、网上冲浪、文字聊天等提供了一个很好的平台，这一技术的发展方便了我们的同时每个人提笔写字的机会越来越少，电脑字库使我们逐渐远离了手写。这一变化当下的每个人都有切身体会，导致大多数人在现实生活之中提笔忘字，更看不到身边评论某人字写的如何的机会。虽然这一现象值得深思和担忧，但时代的发展和大势所趋，是很难改变眼前现状的。

汉字字库是基于书法审美基础之上进行再设计的汉字，以书法为根基但又有很大不同，是无数标准模数方块字的集合。无论每个字的笔画多少，都是等大面积的无限分割。用电脑输出的汉字等大、整齐、匀称，正是这一与手写体相比缺少个性的特点大大增加了其易读性。由于汉字的造字规律和自身特点使汉字字库开发的字数多、工作量大而且难度极高，所以开发成本也一直居高不下。一套成熟的汉字字体前期的设计制作一般需要几个人协作两三年，测试也需要一两年，加起来要四五年的时间。另外，我国在知识产权保护方面的相关法规的不完善和大众的法律意识淡薄导致了字体盗版的泛滥，更影响了汉字字体的收益空间，造成了投入高、风险大、数量少(相对于使用汉字的日本我国的汉字字体的数量大概是其的四分之一)的尴尬局面。基本上目前我国所使用的汉字字库是正文字体的宋、仿、黑、楷是最为典型，大部分脱胎于之前的铅字稿或短时期的“快销品”，甚至有些产品是二十多年前开发的也不少见。时代的因素使我们渐渐远离了“字如其人”的手写汉字，字库字体的数量相对使用汉字的日本也十分匮乏。

现在的汉字字库大部分都是在电脑软件的辅助之下完成的，基本上脱离了传统的手写稿模式(汉字字库出现之前传统的印刷字体都是建立在铅字基础之上的，先要通过人工手写将每一个汉字描绘于等大的方格纸上，再通过仪器制作成不同字号的铜模，然后再制成铅字，最后通过人工排版印刷)，甚至很多字体从设计之初到生成汉字字库完全是在电脑之中完成的。目前国内在汉字字库制作方面使用最多的软件就是AsiaFont Studio，辅助工具Adobe Illstrator。当前制作汉字字库都是以最大部件法为基础靠团队协作人工拼出的，即除了独体字之外，将所有的复合字(左右、左中右、上下、上中下、包孕、半包孕各个结构都视为声旁和形旁组成)都视为声旁和形旁两部分组成，这一方法比起传统的制作模式大大提高了工作效率。由于是团队协作，无论使用的是何种软件都会存在很多问题，其中尤为突出的就是每个人对字的感觉不同，在控制中宫、字的大小、声形旁的比例等都会有很大的差异。这种情况是汉字字库尤为难解决的问题，所以后期要花费很大的精力和成本来处理这一问题。现在的汉字字库的制作工艺虽然比传统字库的做法效率提高了很多，但每款字体还是需要一至几年和几十万甚至上百万人民币不等的成本，相对于汉字字库当下的收益来说还是很高。

发明内容

本发明要解决的技术问题是提供一种汉字字库实现方法，尤其是在个性化方面优势更为明显，其通过对矢量字库中的汉字各个笔画的控制变量、笔序以及汉字结构的分析对比，并根据使用者所书写的笔画矢量形式的控制变量来选择笔画库中的关键笔画，同时根据所选择的结构库形成个性化字库，简单易行，只需要通过简单的计算机软件进行编码计算即可实现，成本大大降低。

为解决上述技术问题，本发明所采取的技术方案是：一种个性化汉字字库实现方法，包括以下步骤：

第一步：建立笔序库，首先构建制作字库所需的矢量字库，然后获取矢量字库中所有汉字的基本笔画，并将所有基本笔画统一赋予一个顺序编码，最后根据每个汉字的笔画书写顺序将对应笔画的顺序编码依次排列构成该个汉字的笔序编码，所述矢量字库中的所有汉字的笔序编码构成笔序库；

第二步：建立结构库，汉字的结构受笔画的位置和中宫的大小两个因素的影响，为矢量字库中的每个汉字规定至少六种笔画位置和中宫可控制大小的结构形式，并将每种结构形式赋予一个编码，所有矢量字库中的汉字对应的所有结构形式构成结构库；

第三步：建立笔画库，找出第一步所述的每个基本笔画的所有矢量形式，并将每个笔画的所有矢量形式按照控制变量的变化采用矩阵编码的方式为每个笔画的所有矢量形式编码，并将每个笔画的每个控制变量的极限值所对应的笔画作为关键笔画，所有基本笔画的所有矢量形式编码构成笔画库，最后结合所获取的矢量字库的汉字编码和结构库编码为结构库中的每个汉字编码，该编码形式为“矢量字库编码-按照笔序排列的每个笔画对应的矢量形式编码”，并为结构库中的每个汉字的每种形式进行编码，整个编码可以为制作汉字的家族字库提供一个标准，除了笔画粗细在特征上使其更具统一性；

第四步：生成个性化字库，采用计算机软件将使用者所书写的所有基本笔画转化成矢量形式，并将该矢量形式的控制变量赋予笔画库中对应笔画，形成新的笔画库，最后根据使用者选择的结构库中对应的结构形式形成个性化字库。

所述每个笔画的所有矢量形式的控制变量是指该笔画的长度、高度、宽度、角度和弧度。

所述笔画位置是指每个汉字中各个笔画之间的相对位置和角度。

本发明的有益效果如下：本发明根据每个笔画控制变量的变化形成笔画库，包含所获取的矢量字库中每个笔画的所有形式，并根据每个笔画矢量形式的控制变量的渐变形成矩阵形式的笔画库，通过计算机软件对使用者所书写的笔画的矢量形式与该矩阵形式的笔画库中的笔画进行对比，最终根据使用者输入的所有笔画选择形成新的笔画库，将形成的新的笔画库结合所选择的结构库形成新的个性化字库。

具体实施方式

下面结合具体实施方式对本发明作进一步详细的说明。

综上所述，本发明公开了一种个性化汉字字库实现方法，其特征在于包括以下步骤：

第一步：建立笔序库，首先建立制作字库所需的矢量字库，然后获取矢量字库中所有汉字的基本笔画，并将所有基本笔画统一赋予一个顺序编码，最后根据每个汉字的笔画书写顺序将对应笔画的顺序编码依次排列构成该个汉字的笔序编码，所述矢量字库中的所有汉字的笔序编码构成笔序库；

第四步：生成个性化字库，采用计算机软件将使用者所书写的所有基本笔画转化成矢量形式，并将该矢量形式的控制变量赋予笔画库中对应笔画，形成新的笔画库，最后根据使用者选择的结构库中对应的结构形式形成个性化字库，所述每个笔画的所有矢量形式的控制变量是指该笔画的长度、高度、宽度、角度和弧度，所述笔画位置是指每个汉字中各个笔画之间的相对位置和角度。

本发明以GB18030字库为例，具体分析实现过程如下：

首先，建立一套完整的GB18030中所有27533个汉字的结构，其中主要包括制约结构的两个因素：一是每个笔画之间相互的位置组成关系的字形，二是决定字面大小的中宫(由于不同字体的结构和笔形有一定的区别，所以理想的状态是宋、仿、黑、楷这四种字体各自建立一套结构基础，下面文章主要以“黑体”为主来展开)。最重要的因素就是制定标准的人在字库制作方面要有综合的知识面、字体设计实践、书法实践和书法理论各个方面的修养(例如能将书法实践以及书法理论和字库的设计制作相互结合运用)，因为全部的27533个汉字的结构都有所不同，所以制约汉字字库自动化生成的最大障碍之一就是结构。即使不同的人写相同的字或者相同的人在不同时期写同一个字都会有很多的变化，因此要想自动生成汉字字库就必须要有相应的规定和适当的标准。最理想的状态就是每一种汉字字体的结构在字形和中宫上可以有灵活的变化，这需要前期做很多字形、中宫和笔画变化的数据统计、定量分析和一些规定。分大、中、小不同的中宫形式，分析出最佳结构作为数据储备，为下面的大批量自动化生成字库做基础。

其次，GB18030中的27533个汉字尽管各不相同，但都是由横、竖、撇、捺、点、折、提、钩(其中的捺、点、折、钩笔画还会分出几种不同情况)组成的。经过长时间的分析、整理、试验，所有的汉字都是由0横(一)、1竖(十)、2撇(人)、3撇点(女)、4捺(大)、5平捺(这)、6左点(杰)、7右点(江)、8据(坛)、9竖提(以)、A竖钩(于)、B竖弯(四)、C竖弯钩(儿)、D竖折(山)、E竖折撇(专)、F竖折折(鼎)、G竖折折钩(与)、H横钩(买)、I横折(口)、J横折折(凹)、K横折折折(凸)、L横折弯(没)、M横折弯钩(九)、N横折钩(刁)、O横斜钩(飞)、P横撇(水)、Q横折折折撇(及)、R横折折折钩(汤)、S横撇弯钩(阳)、T横折提(计)、U弯钩(了)、V斜钩(戈)、W卧钩(心)、X撇折(车)、Y撇提(红)35个基本笔画组成(0至y分别代表每个笔画的代码，用于建立笔序库)。在这里，将“点”分成了左点、右点，将“捺”分成了捺、平捺，“撇折”分成了撇折、撇提都是为了后续各个笔画的大批量生成做的分解，这一细分是为了能更好地准备各个笔画用批量生产的方法制作出来。将所有的35个基本笔画的变化规律分析总结出来，考虑每个笔画在不同汉字之中的变化，能应用到所有的汉字之中，并用图表的形式展示出来。由于汉字的结构和笔画的变化非常复杂，所以前期的分析要考虑每个笔画的极端情况即极端笔画(极端笔画是指每个笔画的在所有的汉字之中最大的那个笔画，这需要大量的比对分析才可以得出相对准确的结果)和控制变量(这里提到的变量就是同一个笔画在满足所有27533个汉字的不同变化的数据，比如“横画”里最长的横画和最短的横画之间的比例关系。

正是由这35个笔画的千变万化的不同组合在已有的结构基础之上来构成的所有汉字，虽然每个汉字的相同的笔画例如“撇画”(天、夫、大、犬、太、人)都有细微差别和变化，但可以借鉴建筑学上的模数和数学上的模糊概率(下文中，将借鉴建筑学上的模数和数学上的模糊概率的这一形式统称为模糊概率，会用图例来加以说明)来分析出每个笔画的变化规律，根据分析的来的数据制作出满足所有同类笔画的笔画库来(笔画库就是组成所有汉字的35个笔画经过统计细分之后，每个笔画的变化将模数概率的方法运用其中，生成满足所有汉字的笔画)。

构成GB18030中所有27533个汉字的35个笔画中的每一个笔画都有成千上万个，但通过数据分析和细分总结之后发现，不同的笔画由于出现的概率或者变化的复杂程度不同，大概会有几十种或者几百种。以最为多的“横画”为例，在27533个汉字之中的总和加起来会有不下5万个横画，但根据模数概率的统计结果，276个左右的横画就会满足所有的汉字的需求。这里最关键的两个因素就是找出横画的关键笔画(关键笔画即相同笔画在不同汉字之中某个方向变化的关键点，比如“横画”里最长的粗横画、最长的细横画、最短的粗横画、最短的细横画就是4个关键笔画)和对应关键笔画之间的控制变量，找出这两个关键点之后，在Adobe Illstrator(以下简称AI)软件中按照矩阵的方法排列，矩阵是由34格*34格的正方形矩阵组成，它的横坐标和纵坐标都是从0、1、2、3、4、5、6、7、8、9、a、b、c、d、e、f、g、h、i、j、k、m、n、o、p、q、r、s、t、u、v、w、x、y共34个符号来标示，有00、b0、n0、y0、0b、bb、bn、by、0n、bn、nn、yn、0y、by、ny、yy共16个关键笔画点。每个关键笔画点之间间隔10个单位，为满足每个笔画之间的变量点，同时这样生成的每个笔画都会有一个不同的编码，然后运用渐变工具生成每个关键笔画之间的变量笔画(变量笔画就是根据每个关键笔画之间渐变生成的笔画总称) 的方法做出满足所有27533个汉字的横画。使用相同的分析方法可以将其它34个笔画细分，同样可以找出满足所有汉字的笔画总和。以变化最为复杂的“撇画”为例，在大量的数据统计和试验的基础之上分析整理出撇画变量的16个关键笔画，以它的极端笔画为参照，分析出其它15个关键笔画的长短、角度、弧度的变化。分析出撇画的变量数据之后，根据变量数据将16个变量笔画制作出来放到矩阵的相应笔画点，然后使用渐变工具生成中间的各个笔画，各个笔画均依靠控制变量的变化进行变化。

常见笔画变量分析如下：

横画：横画有四个变量：最长横画高、最长横画矮、最短横画高、最短横画矮，以二十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

竖画：竖画有四个变量：最高竖画宽、最高竖画窄、最矮竖画宽、最矮竖画窄，以二十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画

撇画：撇画有十六个个变量：最长横撇平、最长横撇斜，最短横撇平、最短横撇斜；最长横斜撇平、最长横斜撇斜，最短横撇平、最短横撇斜；最长竖斜撇平、最长竖斜撇斜，最短竖撇平、最短竖撇斜；最长竖撇宽、最长竖撇窄，最竖撇宽短、最竖撇窄短。，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

撇点：撇点有四个变量：最宽撇点粗、最窄撇点细、最宽撇点矮、最窄撇点矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

捺画：捺画有十六个个变量：最长横捺平、最长横捺斜，最短横捺平、最短横捺斜；最长横斜捺平、最长横斜捺斜，最短横捺平、最短横捺斜；最长竖斜捺平、最长竖斜捺斜，最短竖捺平、最短竖捺斜；最长竖捺宽、最长竖捺窄，最竖捺宽短、最竖捺窄短，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

平捺：平捺有四个变量：最宽平捺粗、最窄平捺细、最宽平捺矮、最窄平捺矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

左点：左点有四个变量：最宽左点粗、最窄左点细、最宽左点矮、最窄左点矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

右点：右点有四个变量：最宽右点粗、最窄右点细、最宽右点矮、最窄右点矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

提画：提画有四个变量：最宽提画粗、最窄提画细、最宽提画矮、最窄提画矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

竖提：竖提有四个变量：最高竖提宽、最高竖提窄、最矮竖提宽、最矮竖提窄，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

竖钩：竖钩有四个变量：最高竖钩宽、最高竖钩窄、最矮竖钩宽、最矮竖钩窄，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

竖弯：竖弯有四个变量：最高竖弯宽、最高竖弯窄、最矮竖弯宽、最矮竖弯窄，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

竖弯钩：竖弯钩有四个变量：最高竖弯钩宽、最高竖弯钩窄、最矮竖弯钩宽、最矮竖弯钩窄，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

竖折：竖折有四个变量：最高竖折宽、最高竖折窄、最矮竖折宽、最矮竖折窄，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

竖折撇：竖折撇有四个变量：最高竖折撇宽、最高竖折撇窄、最矮竖折撇宽、最矮竖折撇窄，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

竖折折：竖折折有四个变量：最宽竖折折粗、最窄竖折折细、最宽竖折折矮、最窄竖折折矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

竖折折钩：竖折折钩有四个变量：最高竖折折钩宽、最高竖折折钩窄、最矮竖折折钩宽、最矮竖折折钩窄，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

横钩：横钩有四个变量：最长横钩高、最长横钩矮、最短横钩高、最短横钩矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

横折：横折有四个变量：最长横折高、最长横折矮、最短横折高、最短横折矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

横折折：横折折有四个变量：最长横折折高、最长横折折矮、最短横折折高、最短横折折矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

横折折折：横折折折有四个变量：最长横折折折高、最长横折折折矮、最短横折折折高、最短横折折折矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

横折弯：横折弯有四个变量：最长横折弯高、最长横折弯矮、最短横折弯高、最短横折弯矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

横折弯钩：横折弯钩有四个变量：最长横折弯钩高、最长横折弯钩矮、最短横折弯钩高、最短横折弯钩矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

横折钩：横折钩有四个变量：最长横折钩高、最长横折钩矮、最短横折钩高、最短横折钩矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

横斜钩：横斜钩有四个变量：最长横斜钩高、最长横斜钩矮、最短横斜钩高、最短横斜钩矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

横撇：横撇有四个变量：最长横撇高、最长横撇矮、最短横撇高、最短横撇矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

横折折折撇：横折折折撇有四个变量：最长横折折折撇高、最长横折折折撇矮、最短横折折折撇高、最短横折折折撇矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

横折折折钩：横折折折钩有七个变量：最高横折折折钩宽、最高横折折折钩窄、最矮横折折折钩宽、最矮横折折折钩窄、最高横折折折钩内宽宽、最矮横折折折钩内宽宽、最矮横折折折钩内宽窄，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画(在横折折折钩的变量中因为有“乃、盈、夃、盈、氖、杨、荡”等较为特殊的变化，所以变量比其它的笔画会多一些)。

横撇弯钩：横撇弯钩有四个变量：最长横撇弯钩高、最长横撇弯钩矮、最短横撇弯钩高、最短横撇弯钩矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

横折提：横折提有四个变量：最长横折提高、最长横折提矮、最短横折提高、最短横折提矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

弯钩：弯钩有四个变量：最长弯钩高、最长弯钩矮、最短弯钩高、最短弯钩矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

斜钩：斜钩有四个变量：最长斜钩高、最长斜钩矮、最短斜钩高、最短斜钩矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

卧钩：卧钩有四个变量：最长卧钩高、最长卧钩矮、最短卧钩高、最短卧钩矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

撇折：撇折有四个变量：最长撇折高、最长撇折矮、最短撇折高、最短撇折矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

撇提：撇提有四个变量：最长撇提高、最长撇提矮、最短撇提高、最短撇提矮，以十个单位为间隔，用渐变生成的方法生成矩阵的变量笔画。

其三，总体上这35个笔画之中的有些笔画在复杂程度上会比“横画”要复杂的多，会需要一个笔画的几百个甚至上千个不同的变化才可以满足所有汉字的需求，比如撇、捺、横折折折钩等笔画，数量大、变化多。但通过总结细分，同样可以按照以上方法找出其变化的规律。这里面最为重要的因素就是能分析出各个笔画的不同情况之下的变量，找出不同变量中的关键字从中提取出关键笔画。按照以上的方法生成其它35个笔画的数据，形成所有汉字笔画的数据库，35个笔画都是在编码0至y的横纵坐标矩阵的位置生成的，所以相应的每一个笔画都有一个相应的编码，形成笔画编码数据库。

其四，将GB18030中所有27533个汉字的每个笔画按照书写的笔序进行统计编码，然后将每个汉字之中的每一个笔画的编码按照笔序的顺序依次编码排列，产生了每个字的按照笔序排列的笔画编码，写入程序形成笔序库(笔序库即每个汉字的书写笔序的总和)，形成笔序库后，为后面笔画自动生成其他的字体做准备。

最后，在每个笔画中找出关键笔画的变量数据，根据每个人的不同喜好写出相应的35个笔画，然后基于软件形成新的笔画库，再选择自己喜欢的字形和中宫，用设计好的软件自动生成拥有自己个性的汉字字库。

Claims

1.一种个性化汉字字库实现方法，其特征在于包括以下步骤：

2.根据权利要求1所述的个性化汉字字库实现方法，其特征在于：所述每个笔画的所有矢量形式的控制变量是指该笔画的长度、高度、宽度、角度和弧度。

3.根据权利要求2所述的个性化汉字字库的实现方法，其特征在于：所述笔画位置是指每个汉字中各个笔画之间的相对位置和角度。