CN102682022B - 一种汉字全息活字库的实现方法 - Google Patents

一种汉字全息活字库的实现方法 Download PDF

Info

Publication number
CN102682022B
CN102682022B CN201110061862.1A CN201110061862A CN102682022B CN 102682022 B CN102682022 B CN 102682022B CN 201110061862 A CN201110061862 A CN 201110061862A CN 102682022 B CN102682022 B CN 102682022B
Authority
CN
China
Prior art keywords
chinese
character
stroke
chinese character
storehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110061862.1A
Other languages
English (en)
Other versions
CN102682022A (zh
Inventor
董为群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dong Hao
Dong Min
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201110061862.1A priority Critical patent/CN102682022B/zh
Publication of CN102682022A publication Critical patent/CN102682022A/zh
Application granted granted Critical
Publication of CN102682022B publication Critical patent/CN102682022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明公开了一种汉字全息活字库的实现方法,其包括以下步骤:按照“从整字到部件再到笔画”的汉字拆分原则,将汉字拆分成一组笔画结构数据;将汉字的所有笔画结构数据存入汉字结构库;从汉字的矢量图形数据中提取汉字整字矢量轮廓数据;将整字矢量轮廓分解成各自独立的笔画矢量轮廓;将笔画矢量轮廓数据存入汉字形体库;将包含一定数量汉字的汉字结构库和汉字形体库组合成汉字全息活字库。

Description

一种汉字全息活字库的实现方法
技术领域
本发明涉及中文信息处理领域,具体而言,涉及一种汉字全息活字库的实现方法。
背景技术
汉字是中华文化的基因,汉字教育是国人基础教育中最重要的部分,汉字是中国走向世界,世界了解中国的桥梁和媒介。然而目前的汉字教育整体水平,比起解放初期的识字运动,并没有质的飞跃。究其根本原因,乃是技术上没有突破,尤其是在利用现代化的信息技术上,几乎没有什么大的作为和突破。对于国内的小学生或是国外的学习者,汉字难认、难记、难写、难查的老大难问题依然没有得到有效解决。
字库是外文字体、中文字体以及相关字符的电子文字字体集合库,被广泛用于计算机、网络及相关电子产品上。目前国内外广泛使用的字库主要有两种格式。一种是由美国Apple和Microsoft公司联合提出的True Type格式,另一种是由Microsoft和Adobe公司提出的Open Type格式。这两种格式均采用数字化的矢量轮廓来描述字形。
从表面上看,中文字库与英文字库没有什么区别,实际上二者差别很大。
首先,英文(以及所有拼音文字)字库里放的是字母,而中文字库里放的是汉字。字母只有26个,而汉字却有成千上万。更大的差别是字母是拼音文字的最小构形单位,而汉字却不是。在文本处理上,英文字库可以与以下功能实现无缝对接:
复制任何一个或多个字符,并可以粘贴;
着色任何一个或多个字符;
粗体、斜体、下划线任何一个或多个字符;
搜寻任何一个或多个字符并显示搜寻结果;
对给定的任何一组字符排序;
对字符组合的合理性和规范性进行检查。
中文字库可以在汉字层面上实现以上功能,问题是中文字符除了汉字,还有部件和笔画。笔画构成了部件,部件构成了汉字,这些构成关系反映了汉字最本质的特点,但是在中文字库中保存的却是整字的矢量轮廓,无法分解成部件和笔画,也没有包含任何汉字构造信息。
可见,由于现有汉字库技术不能对汉字进行拆解,无法为汉字的拆分和组合提供有效技术手段,无法满足国内外汉字学习者的普遍需求。
发明内容
本发明提供一种汉字全息活字库的实现方法,用以实现汉字在笔画、部件和整字各个层面与英文等价的文本处理功能。
为达到上述目的,本发明提供了一种汉字全息活字库的实现方法,其特征在于,包括以下步骤:
按照“从整字到部件再到笔画”的汉字拆分原则,将汉字拆分成一组笔画结构数据;将笔画结构数据存入汉字结构库;
从该汉字的矢量图形数据中提取该汉字的整字矢量轮廓数据;将整字矢量轮廓分解成各自独立的笔画矢量轮廓;将笔画矢量轮廓数据存入汉字形体库;重复上述步骤,将包含一定数量汉字的汉字结构库和汉字形体库组合成汉字全息活字库。
较佳的,上述笔画结构数据包括笔顺、笔画类型,以及笔画所属各层部件和/或部首在内的汉字结构和层次信息。
较佳的,将笔画结构数据存入汉字结构库步骤包括:以汉字为单位,对笔画结构数据进行格式化处理,将格式化后的笔画结构数据存入汉字结构库。
较佳的,将整字矢量轮廓分解成各自独立的笔画矢量轮廓步骤包括:将整字矢量轮廓分解成各自独立的笔画矢量轮廓;对汉字的笔画矢量轮廓进行编辑加工处理。
较佳的,将笔画矢量轮廓数据存入形体库步骤包括:以汉字为单位,对笔画矢量轮廓数据进行格式化处理,将格式化后的笔画矢量轮廓数据存入对应字体的汉字形体库。
较佳的,上述汉字全息活字库的实现方法还包括以下步骤:将汉字全息活字库中的全部或部分汉字组成活字文本;对活字文本进行笔画或部件或整字层面的文本操作;根据用户设定的笔画和/或部件和/或部首和/或整字结构特征,以及笔画和/或部件在汉字中出现的数量和/或位置,对活字文本进行检索;以及将检索的结果进行标注或输出。
较佳的,对活字文本进行笔画或部件或整字层面的文本操作步骤包括:显示汉字文本中的全部或部分汉字的笔画或部件或部首或整字;或着色和/或加粗和/或透明活字文本中的全部或部分汉字的笔画或部件或部首或整字;或复制和/或剪贴和/或移动活字文本中的全部或部分汉字的笔画或部件或部首或整字;或隐藏活字文本中的全部或部分汉字的笔画或部件或部首或整字。
较佳的,上述汉字全息活字库的实现方法还包括以下步骤:根据用户对一个汉字按其书写顺序进行逐笔显示的请求,从汉字形体库中获取汉字的笔顺数据;根据笔顺数据将汉字按书写顺序逐笔显示。
较佳的,上述汉字形体库的数目为一个或多个,分别用于存储一种字体的汉字。
在上述实施例中,中文字库的汉字字形通过笔画矢量轮廓数据进行构造,并且将汉字“从笔画到部件再到整字”的三级结构信息嵌入到字库中,从而形成汉字字形的全息影像。使汉字能够在笔画、部件和整字各个层面实现与英文等价的文本处理功能,为汉字教学、应用和科研提供崭新的利器。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明一个实施例的汉字全息活字库实现方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明是要在技术上有所突破,为解决汉字难学的问题提供有效的技术手段,促进汉字教学和习用工具的进步与发展,从而满足国内外中文学习者的普遍需求。
图1为根据本发明一个实施例的汉字全息活字库的实现方法流程图。如图1所示,该方法包括以下步骤:
S102,按照“从整字到部件再到笔画”的汉字拆分原则,将汉字拆分成一组笔画结构数据;
S104,将上述笔画结构数据存入汉字结构库;
S106,从该汉字的矢量图形数据中提取汉字整字矢量轮廓数据;
S108,将上述整字矢量轮廓分解成各自独立的笔画矢量轮廓;
S110,将上述笔画矢量轮廓数据存入汉字形体库;
S112,重复上述步骤,将包含一定数量汉字的汉字结构库和汉字形体库组合成汉字全息活字库。
在本实施例中,中文字库的汉字字形通过笔画矢量轮廓数据进行构造,并且将汉字“从笔画到部件再到整字”的三级结构信息嵌入到字库中,从而形成汉字字形的全息影像。使汉字能够在笔画、部件和整字各个层面实现与英文等价的文本处理功能,为汉字教学、应用和科研提供崭新的利器。
本发明之所以称为“汉字全息活字库”,其一是因为本发明字库中包含了“从笔画到部件再到整字”的所有字形构造信息,故谓之“全息”;其二本发明字库中的汉字字形,是用笔画矢量轮廓构建而成的,而非不可拆分的整字矢量轮廓,因此体现了“从笔画到部件再到整字”的造字过程,以及“从整字到部件再到笔画”的拆字过程,故谓之“活”。
在本发明的一个实施例中,汉字全息活字库采用UTF-8编码。汉字全息活字库基本格式的BNF范式描述如下:
<汉字全息活字库>::=<汉字结构库>{汉字形体库}
<汉字结构库>::={汉字结构信息}
<汉字结构信息>::=<结构符><汉字>[“(”描述信息“)”]{笔画结构信息}
<笔画结构信息>::=<笔画全息数字编码>
<汉字形体库>::=<字体信息>{笔画矢量数据区}
<字体信息>::=<字体名称>[“(”描述信息“)”]<分隔符>
<笔画矢量轮廓数据区>::=<笔画矢量轮廓数据><分隔符>
例如,本实施例中的汉字结构信息包括汉字结构类型、笔顺、笔画类型,以及笔画所属的各层部件和/或部首信息。
例如,在上述实施例中,将整字矢量轮廓分解成各自独立的笔画矢量轮廓步骤包括:将整字矢量轮廓分解成各自独立的笔画矢量轮廓;对所述汉字的笔画矢量轮廓进行编辑加工处理,即对汉字的每个笔画的形状进行调整和修饰。调整和修饰后的字形与通用字库在字形上保持一致,为的是规范和统一。
例如,在上述实施例中,将存放汉字笔画结构信息的汉字结构库和存放汉字笔画矢量轮廓数据的汉字形体库组合成汉字全息活字库,汉字全息活字库以字符或二进制文件的方式保存、传送和读取。
例如,上述实施例中还包括以下步骤:对由汉字全息活字库中的活字组成的汉字文本进行笔画或部件或整字层面的文本操作,这些操作包括对汉字的笔画或部件或部首或整字进行显示、着色、隐藏、移动;以及将整字分解成部件或笔画后并列显示。
例如,对“活”字的部件进行着色,用不同的颜色区分不同的部件,结合不同的透明度表示部件的拆分层次。所谓部件拆分层次是指将整字拆分为基础部件(亦即不可拆分部件)的步骤。例如,“活”字先拆分成“氵”和“舌”,第一层拆分出来的部件用不同的颜色加以区别;再将“舌”拆分成“千”和“口”,第二层拆分用相同颜色不同透明度加以区分。无论是汉字的部件还是部件的拆分层次,都包含在汉字全息活字库里,无需从外部增加,这不仅保证了汉字构造信息的统一和规范,而且给使用者带来了很大的便利。
用不同的颜色和透明度标识汉字的组成部件,以及部件的拆分层次,这对掌握汉字的字形特征,强化对汉字字形的记忆特别有用。
例如,上述实施例中还包括以下步骤:由汉字全息活字库中的全部或部分汉字组成活字文本;根据用户设定的笔画和/或部件和/或部首和/或整字结构特征,以及笔画和/或部件在汉字中出现的数量和/或位置,对该活字文本进行检索并显示检索的结果。
又例如,上述实施例中包括以下步骤:根据用户对一个汉字按其书写顺序进行逐笔显示的请求,从汉字形体库中获取汉字的笔顺数据;根据笔顺数据将汉字按书写顺序逐笔显示。
例如,上述实施例中还包括以下步骤:隐去活字文本中部分汉字的部分笔画和/或部件和/或部首。利用本实施例可以实现汉字内部的笔画和部件填空练习,或者设计出有趣的识字游戏。
又例如,上述汉字全息活字库的实现方法的实施例中还包括以下步骤:将汉字的笔画打散并随机排列;按照汉字的笔顺,点中正确的笔画;被点中的笔画回到原位。通过逐一点击正确的笔画,使汉字恢复原样。这是基于本发明的一种新的游戏化识字过程,充分体现了汉字全息活字库的“活性”。
基于上述实施例,本发明的作用主要包括以下几个方面:
1、识字教学。识字的一个主要任务是识别和记忆汉字字形,大多数的识字法都与字形的拆分组合有关。本发明从字库层面实现了对汉字的拆分与组合,从而提供了规范和自由拆分组合汉字的基本技术手段。这不仅能为广大教师和学生提供便捷的现代化工具,而且还有利于促进各种新识字法的诞生,为解决识字难的问题开辟了新的途径和思路。
2、习字教学。写字是汉字教学的另一大难点,至今为止一直沿用传统而古老的方法,也即描红、临帖,加上耗时费力的反复书写训练。电子字帖是本发明的一大应用。电子字帖可以精确定位每个笔画形状、大小和位置,提示或拒识不合格的书写笔迹,从而达到制约和规范人们书写的目的。这样可以大大减少书写的随意性,提高习字的有效性,在习字便利性和效果上,优于传统的字帖和描红方法。
3、汉字检索。人们最常用的《新华字典》只有两种检字方式:一种是按拼音检字,另一种是部首检字。《新华字典》已经再版了N多次,然而检字方式却始终没变。因为没有比这更好的检字方法。利用本发明,可以设计出各种新的检字方法,使检字变成了象搜索引擎那样,可以接受各种关键字,以及多个关键字组合。这些关键字可以是笔画、部件、部首和结构,再加上数量和位置上的附加条件,使查字变成了自由随意的搜字过程。
4、汉字研究。以往研究汉字的字形特征,统计分析汉字文本,调查汉字用字的特点和变化趋势,都需用到各自不同的专业程序。本发明为此类研究统计工作提供了新的统一技术平台,大大方便了人们对汉字文本进行分析统计和比较研究。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (6)

1.一种汉字全息活字库的实现方法,其特征在于,包括以下步骤:
按照“从整字到部件再到笔画”的汉字拆分原则,将汉字拆分成一组笔画结构数据,所述笔画结构数据包括笔顺、笔画类型,以及笔画所属各层部件和/或部首在内的汉字结构和层次信息;
将所述笔画结构数据存入汉字结构库;
从该汉字的矢量图形数据中提取该汉字的整字矢量轮廓数据;
将所述整字矢量轮廓分解成各自独立的笔画矢量轮廓:将所述整字矢量轮廓分解成各自独立的笔画矢量轮廓;对所述汉字的笔画矢量轮廓进行编辑加工处理;
将笔画矢量轮廓数据存入汉字形体库:以汉字为单位,对笔画矢量轮廓数据进行格式化处理,将格式化后的笔画矢量轮廓数据存入对应字体的汉字形体库;
重复上述步骤,通过笔画矢量轮廓数据构造汉字形体库,并且将汉字“从笔画到部件再到整字”的三级结构信息嵌入到汉字结构库中,将包含一定数量汉字的汉字结构库和汉字形体库组合成汉字全息活字库,形成汉字字形的全息影像,所述汉字全息活字库以字符或二进制文件的方式保存、传送和读取。
2.根据权利要求1所述的汉字全息活字库的实现方法,其特征在于,将所述笔画结构数据存入汉字结构库步骤包括:
以汉字为单位,对笔画结构数据进行格式化处理,将格式化后的笔画结构数据存入汉字结构库。
3.根据权利要求1所述的汉字全息活字库的实现方法,其特征在于,还包括以下步骤:
将所述汉字全息活字库中的全部或部分汉字组成活字文本;
对所述活字文本进行笔画或部件或整字层面的文本操作;
根据用户设定的笔画和/或部件和/或部首和/或整字结构特征,以及笔画和/或部件在汉字中出现的数量和/或位置,对所述汉字文本进行检索;以及
将检索的结果进行标注或输出。
4.根据权利要求3所述的汉字全息活字库的实现方法,其特征在于,对所述活字文本进行笔画或部件或整字层面的文本操作步骤包括:
显示所述活字文本中的全部或部分汉字的笔画或部件或部首或整字;或
着色和/或加粗和/或透明所述活字文本中的全部或部分汉字的笔画或部件或部首或整字;或
复制和/或剪贴和/或移动所述活字文本中的全部或部分汉字的笔画或部件或部首或整字;或
隐藏所述活字文本中的全部或部分汉字的笔画或部件或部首或整字。
5.根据权利要求1所述的汉字全息活字库的实现方法,其特征在于,还包括以下步骤:
根据用户对一个汉字按其书写顺序进行逐笔显示的请求,从所述汉字形体库中获取所述汉字的笔顺数据;
根据所述笔顺数据将所述汉字按书写顺序逐笔显示。
6.根据权利要求1-5中任一项所述的汉字全息活字库的实现方法,其特征在于,所述汉字形体库的数目为一个或多个,分别用于存储一种字体的汉字。
CN201110061862.1A 2011-03-15 2011-03-15 一种汉字全息活字库的实现方法 Active CN102682022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110061862.1A CN102682022B (zh) 2011-03-15 2011-03-15 一种汉字全息活字库的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110061862.1A CN102682022B (zh) 2011-03-15 2011-03-15 一种汉字全息活字库的实现方法

Publications (2)

Publication Number Publication Date
CN102682022A CN102682022A (zh) 2012-09-19
CN102682022B true CN102682022B (zh) 2014-12-24

Family

ID=46813968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110061862.1A Active CN102682022B (zh) 2011-03-15 2011-03-15 一种汉字全息活字库的实现方法

Country Status (1)

Country Link
CN (1) CN102682022B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346375B (zh) * 2013-07-31 2017-10-13 北大方正集团有限公司 一种制作中间字库的方法以及装置
CN104424183A (zh) * 2013-08-19 2015-03-18 北大方正集团有限公司 字库及其制作方法
CN104063359B (zh) * 2014-05-19 2017-01-18 严永亮 个性化汉字字库的实现方法
CN104992143B (zh) * 2015-06-04 2018-10-26 北京大学 一种面向矢量字形的汉字笔画自动提取方法
CN105425980A (zh) * 2015-11-02 2016-03-23 中国科学院自动化研究所 基于Web的汉字一笔一划书写方法
CN106503756A (zh) * 2016-10-18 2017-03-15 上海子墨国际文化传播有限公司 基于图像轮廓化建立汉字笔迹模型的方法
CN108304356B (zh) * 2018-01-30 2021-02-09 深圳市茁壮网络股份有限公司 一种字符显示方法及装置
CN112100980A (zh) * 2020-09-21 2020-12-18 湖南省汉星信息科技有限责任公司 附加信息文字的显示方法、装置、设备及存储介质
CN112148773B (zh) * 2020-09-24 2021-08-13 上海松鼠课堂人工智能科技有限公司 基于大数据的游戏化学习方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1337613A (zh) * 2001-06-25 2002-02-27 曹述交 汉字部件数码
CN101377891A (zh) * 2007-08-31 2009-03-04 冯玉龙 一种汉字书写练习法及其采用的字帖
CN101630311A (zh) * 2008-07-18 2010-01-20 常州华文印刷新技术有限公司 一种文字的显示方法及显示设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1337613A (zh) * 2001-06-25 2002-02-27 曹述交 汉字部件数码
CN101377891A (zh) * 2007-08-31 2009-03-04 冯玉龙 一种汉字书写练习法及其采用的字帖
CN101630311A (zh) * 2008-07-18 2010-01-20 常州华文印刷新技术有限公司 一种文字的显示方法及显示设备

Also Published As

Publication number Publication date
CN102682022A (zh) 2012-09-19

Similar Documents

Publication Publication Date Title
CN102682022B (zh) 一种汉字全息活字库的实现方法
KR0136797B1 (ko) 표의 문자 처리 방법 및 그 장치
CN101262663A (zh) 一种可临摹的移动终端设备及其实现方法
CN103606305A (zh) 一种汉字书写学习系统
CN102253728B (zh) 一种声韵双拼汉字输入法及其虚拟键盘
CN109271610A (zh) 一种汉字的向量表达方法
CN104106023A (zh) 一种兼容键盘的输入方法
CN103257720B (zh) 一种汉字输入法
CN102053955B (zh) 一种符号输入的方法和系统
CN102023721B (zh) 汉语拼音键盘及输入方法
CN100533359C (zh) 甲骨文拼音与部件拆分输入法
CN105912139B (zh) 一种模块化笔画编码汉字对应识别的方法
KR940007932B1 (ko) 표의문자 식별장치 및 처리방법
TW200951873A (en) Dynamic calligraphy writing system
CN102156616B (zh) 触摸屏写键输入方法
CN103838393A (zh) 汉字结构数码识字输入法
CN111833660B (zh) 一种汉字学习实现系统
CN104064058A (zh) 中文繁体字学习系统及其操作方法
CN1251436A (zh) 计算机汉字输入编码方法
CN111353047A (zh) 一种基于汉字造字方法生成人工智能知识图谱的方法
Ng et al. Learning to write Chinese from first principles
CN205194134U (zh) 一种教学用具
Chatterjee Designing a New Digital Font for Modi-Script
CN102750002A (zh) 数码汉字输入法
Mohanty et al. Script Complexity in Indian Languages.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150922

Address after: 100081 Beijing City, Haidian District Weigongcun street, home of Wei Bohao 5-3-1102

Patentee after: Dong Hao

Patentee after: Dong Min

Address before: 100081 Beijing City, Haidian District Weigongcun street, home of Wei Bohao 5-3-1102

Patentee before: Gao Jingmin

Patentee before: Dong Weiqun