CN101551711A - 一种基于结构和基元的汉字编码输入方法 - Google Patents

一种基于结构和基元的汉字编码输入方法 Download PDF

Info

Publication number
CN101551711A
CN101551711A CNA2009100396332A CN200910039633A CN101551711A CN 101551711 A CN101551711 A CN 101551711A CN A2009100396332 A CNA2009100396332 A CN A2009100396332A CN 200910039633 A CN200910039633 A CN 200910039633A CN 101551711 A CN101551711 A CN 101551711A
Authority
CN
China
Prior art keywords
primitive
chinese character
coding
investing
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2009100396332A
Other languages
English (en)
Inventor
皮佑国
刘明友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CNA2009100396332A priority Critical patent/CN101551711A/zh
Publication of CN101551711A publication Critical patent/CN101551711A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明为一种基于结构和基元的汉字编码输入方法,汉字编码步骤为:将汉字结构分为17种,每一汉字分解成一级或多级结构,每级结构包括一个或多个基元;汉字编码由结构编码和基元编码组成;17种结构为整体结构、上下结构、上中下结构、多竖结构、左右结构、左中右结构、多横结构、全包围结构、上三包围结构、左上包围结构、左三包围结构、左下包围结构、右上包围结构、下三包围结构、品字结构、架嵌结构和双重叠结构,并一一配置在键盘17个结构键值上,取结构键值作为结构编码;每一基元配置在一个由两个按键排列组合成的基元键值上,取基元键值作为基元编码。本发明由组字基元按照一定的结构生成汉字,编码时不受字库的限制。

Description

一种基于结构和基元的汉字编码输入方法
技术领域
本发明涉及一种在计算机中的汉字编码输入方法,具体涉及计算机中基于结构和基元的汉字编码输入方法。
背景技术
目前,国际、国内的中文信息处理软件都是采用字库方式,先将某一标准规定的汉字建立字库,每一个汉字都有唯一的编码,这个编码通常叫做内码。字库中汉字的内码作为计算机内部存储、传输和管理等信息处理的对象。也就是说,计算机在进行中文信息处理时是以汉字作为最小单位来进行处理的。采用汉字字库,虽然基本满足了当前信息化的需要,但存在着以下不足:
(1)难以形成长期稳定的汉字信息化标准。
从理论上说,汉字是一个不断发展的大字符集,字库总是不能适时跟上汉字的发展;要增加一个新的汉字,就需要增加相应字节来储存并规定编码,也就必须颁布新的标准。这就意味着汉字字库方式很难为中文信息处理建立长期稳定和规模合理的字库标准。而且,汉字字库的规模和稳定性永远是一对矛盾,字库规模越大,开销也越大;规模越小,稳定性就越差。只要采用汉字字库,这场演义就恐怕永远要进行下去。
GB18030-2000编码标准(全称为《信息交换用汉字编码字符集基本集的扩充》)可以涵盖27533个汉字。然而,汉字有8-10万多个,GB18030标准字库只有汉字总数的三分之一左右。即便有了8万汉字的字库,新的汉字又会造出来了,汉字字库还是不够用。
(2)不符合汉字的造字规律,影响对文化的传承作用。
东汉许慎的《说文解字》,将汉字造字方法归纳为“六书”:象形、指事、会意、形声、假借、指代。其中象形、指事是独体字,会意、形声是合体字,假借和指代则不是造字法而是用字法。象形字是用线条来描画事物的形状,而指事则是使用抽象的符号来代表事物,它们是我们的祖先对客观事物的初步认识和表示方法。而会意和形声则是用两个或两个以上的象形字或指事字,或象形字加指事字造成,绝大多数汉字都是形声字。因此,可以这样说,汉字是由象形和指事为基本符号,并按照会意和形声结构进行组合的符号体系。这也确立了汉字是“表意文字”和“结构化文字”的基本特征。
采用字库方式,只要根据“万码奔腾”的各种输入法,找到交换码就可以,输入的过程是选字过程而不是造字过程。采用汉字字库方式,用拼音输入法输入汉字时,不再需要汉字的结构信息和偏旁部首信息,因而不再去思考组成汉字的基本符号—象形、指事符号的含义以及这些符号的组合规则。长此以往,人们将不再体现汉字的“表意”、“音、形、义”一体的汉字特征。汉字的同音字很多,其区分主要是用其形和义,由于采用字库,人们对汉字的形、义观念淡化,慢慢就分不清该用什么字,进而造成书写混乱。有文献报道,“在我国长期使用‘拼音输入法’的用户中,有‘提笔忘字’经历者超过95%”。这是因为许多人长期在电脑、手机上“打拼音”,已经习惯了用拼音“代替”汉字,越来越多的人“提笔忘字”,甚至不会写字。在汉字书写中,出现别字的频率较高,且呈上升趋势。
(3)与汉字教学脱节,极大地浪费了社会资源。
我国识字教学贯穿于整个小学的语文教育。教学方法上,按照从笔画—偏旁—部首—成字的顺序,注重字形、字音和字义三个方面,注重探讨汉字的字形结构特点。对于独体字的教学,依据其象形、指事的特点进行形意结合的分析,此时的字词学习主要属语言符号的学习,重在建立形与义的联系基础。而对合体字的教学,则利用其会意和形声的特点,运用语言知识掌握规律,使学生掌握理性的字词结构知识,尤其是对形声字的构成规律,更注重在充分直观的基础上,启发学生自觉概括出形声字的“偏旁部首表意、基本字表音”的构成规则,然后引导学生去灵活运用、广泛迁移,使学生建立关于汉字的牢固的形义联系系统。其教学过程一般为:第一步,直观:让学生感知和识记一定数量的基本字和偏旁部首;第二步,概括:让学生对直观的字词进行认真细致的分析、综合与比较,抽象概括出汉字的构成规则;第三步,具体化:让学生广泛应用上述概括了的汉字构成规则。这种教学方法符合汉字的认知机理,是广泛采用的效率较高的汉字教学方法。按照教育部《全日制义务教育语文标准》,小学六个年级都要进行识字教育,而一、二年级,识字教育是语文课程的主要内容。六个年级中要求识记3500个汉字。可见,国家要求全社会的每个人都要投入相当长的时间接受汉字教育,因为它是文化的基础、学习的基础和交流的基础。
汉字教学的目的是提高受教育者识记汉字的能力,以便用汉字进行信息处理和交流。然而,当人们从学校走向社会,开始从事社会工作,用计算机这个工具进行信息处理和交流时,接触到的是从汉字库中选字,基本不再需要以前花多年时间学的汉字造字的知识。文字信息处理的方法和以前完全不同,以前学习的汉字知识不用,而需要花一定的时间去学习至少一种汉字输入法。
(4)无法很好的满足整个社会的应用需求。
前已阐述了字库的规模与稳定性的矛盾,而与实际的应用的矛盾就更大。既然已有汉字有8-10万,那么每一个汉字至少都出现过一次,都有被使用的可能,虽然常用字出现的几率大,生僻字出现的几率小。而汉字信息化则是全面的,否则就“化”不了。
2000年8月25日《北京日报》发表了一篇题为《“杨X秀”的尴尬》的报道。报道说,是高校录取名单上有许多姓名无法用计算机登录,因而不得不用X和问号等其它符号代替;在其它方面,例如户籍工作、文字工作、档案管理、银行或者中医药工作,也常常遇到同样的尴尬情况。由此可见,只要是采用字库方式,这种尴尬就永远回避不了。也就是说字库方式,无法全面满足社会各个方面的应用需求。为了勉强的应付而采用一些变通方式(例如图像方式),在存储和传输等信息处理环节就不得不付出高昂的成本。
此外,汉字有8-10万,识字教育要求的只有三千多。也就是说,对许多字人们都不知道读音,也就无从谈起用广泛使用的拼音输入法能够输入了。
(5)信息熵高,是效率最低的文字信息系统。
信息熵是信息系统的一项性能指标,它表示事件出现的不确定性的大小。信息熵越大,说明该信息系统的不确定性越大、开销大、效率低。
有文献报道联合国的5种工作语言文字的静态平均信息熵,如表1所示。
表1、文字的静态平均信息熵(单位:比特/字符)
  语种   法语   西班牙语   英语   俄语   汉语
  信息熵   3.98   4.01   4.02   4.35   9.65
从上表可知,汉字平均静态信息熵的值为9.65比特/字符,是世界上开销最大和效率最低的文字信息系统。
以上弊端对于像我们这样一个大国的长远发展是十分不利的。为了克服汉字字库给中文信息系统带来的上述弊端,必须结合汉字的特点,利用信息技术和智能化技术,开发智能化的无字库的中文信息系统。
在汉字编码方面,目前已经有一千六百多种输入方法,但其编码都是基于汉字字库的汉字输入编码。也就是说,汉字的输入方法只在字库规定的汉字范围内进行过实验,是否能够适合所有的汉字还不得而知。在已有编码中,有考虑汉字字形特点的编码,如五笔字型、形义码等等,但这些编码都没有考虑汉字的主要特征之一—汉字结构。例如:
公开号为CN1595346A、公开日为2005年3月15日的中国发明专利公开了“多维汉字编码输入法”按照国家有关汉字标准和规范,将汉字按照书写顺序拆分,相离、相接可拆,独体字不再拆分成部件,只能按笔顺分成笔画。按此原则将汉字划分为五种基本笔画、基本部件字、普通部件字及普通部件作为汉字的元素,将字分解成一个或多个元素,简称部件。用此方法将汉字拆分为部件,依汉字的书写顺序进行编码,击其键盘上相应的键即可输入汉字。
公开号为CN1889019A、公开日为2007年1月3日的中国发明专利公开了“一种汉字编码法”,包括:1)将所有汉字笔划,根据其形状分成十六种笔码,以十六个预先设定的字符与其相对应;2)将所有汉字按其所含笔码数分为两类:五种笔码内的字、超过五种笔码的字;3)将超过五种笔码的字又分为以下两种:部首字、不易看出部首的字;4)五种笔码内的字依下列方式取码:按照其笔划顺序取之;5)部首字依下列方式取码:若部首旁的字身笔码超过四种,先取字身前两种笔码及后两种笔码,再取部首的第一笔码;若部首旁的字身笔码不足四种,先取字身笔码,再取部首前两码;6)不易看出部首的字依下列方式取码:先取前两种笔码,再取后两种笔码;本发明编码简单可同时输入中、英文;还可依输入码数的大小顺序编辑成字典的页码。
公开号为CN1889021A、公开日为2007年1月3日的中国发明专利公开了“计算机汉字编码输入方法”,运用计算机的键盘输入汉字的单字以及输入汉字的词组,将计算机标准键盘的A~Y的字母键设置为编码键,编码键的编码为两位数码,是由区域编码的数码号加位置编码的数码号构成编码键的编码,编码键的编码划分为五组区域编码,每组区域编码各自划分排列为五个位置编码,进行编码时依照笔形规则、笔顺规则、笔画规则,依次取根,最多取四根。
公开号为CN1474259A、公开日为2004年2月11日的中国发明专利公开了“计算机全汉字编码输入法”以形码为主,声码为辅,它以英文字母作为码元,每个码元赋予相应的字根,每个汉字用4个码元即字根组成,其规则是:以该字读音的声母为第一码;第二码取该字最左、最上、最外字根对应的码元;第三码取该字次左、次上、次外字根对应的码元;第四码取该字最右、最下、最内字根对应的码元。本发明可对简体字、繁体字、罕用字、古汉字、及日本、韩国使用着的全部汉字进行编码,使用时不必对每字知其准确读音,更不必去逐字拆解,适用性好、普及性强及重码率低。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于结构和基元的汉字编码输入方法,由组字基元按照一定的结构生成汉字,编码时不受字库的限制,基元、结构、编码方法都与汉字教育一致,简单易学。
本发明的目的通过下述技术方案实现:一种基于结构和基元的汉字编码输入方法,包括对汉字进行编码的步骤、根据汉字的编码键值敲击键盘输入汉字的步骤,其特征在于,对汉字进行编码的步骤为:将汉字结构分为17种,并根据17种结构将每一汉字分解成一级或多级结构,每级结构包括一个或多个基元;汉字编码由结构编码和基元编码组成;所述17种结构分别为整体结构、上下结构、上中下结构、多竖结构、左右结构、左中右结构、多横结构、全包围结构、上三包围结构、左上包围结构、左三包围结构、左下包围结构、右上包围结构、下三包围结构、品字结构、架嵌结构和双重叠结构;该17种结构一一配置在键盘的17个结构键值上,取相应的结构键值作为结构编码;所述基元指组成汉字的基本单元,每一个基元配置在一个由两个按键排列组合而成的基元键值上,取相应的基元键值作为基元编码。
作为本发明的一个优选实施方案,所述结构键值由一个大写英文字母键组成;17个结构键值为大写英文字母A~Z中的17个大写英文字母键。
作为本发明的一个优选实施方案,所述基元键值由26个小写英文字母键和10个数字键所组成的集合中的任2个元素的排列组合而成。
在本发明的上述技术方案中,汉字编码顺序为:结构基元,总体优先,低高到底,横直架嵌,上下左右,内后外先;“结构基元”指一个汉字或一个汉字的部分的编码是结构编码后面跟汉字的基元编码;“总体优先”指对具有多级结构的汉字,要首先编其总体结构,再编其部分结构;“低高到底”指对于汉字的一个结构要从低到高编到底;“横直”指对既是上下结构又是左右结构的汉字或汉字的部分,按照上下结构编码;“架嵌”指对架嵌结构,在架嵌结构码的后面紧跟架基元码,其后是嵌入基元码,对多个不同的嵌入基元,按照从上到下、从左到右、先外后内的顺序编码;“上下”指对上下、上中下、多竖结构,都在结构码的后面紧跟上基元码,其后按从上到下的顺序接其它基元码;“左右”指对左右、左中右、多横结构,都在结构码的后面紧跟左基元码,其后按从左到右的顺序接其它基元码;“内后外先”指对全包围结构、上三包围结构、左上包围结构、左三包围结构、左下包围结构、右上包围结构、下三包围结构,都在结构码的后面紧跟外基元码,其后跟内基元码。
本发明相对于现有技术具有如下的优点及效果:
1、和传统的汉字编码不同,本发明汉字编码方法不受字库的限制。按照本发明,所有的汉字都可以编出码来,配合相应的造字软件,所有的汉字都可以造出来;从而从根本上解决了有些字在字库中找不到的问题。
2、本发明汉字编码方法,只用到汉字基元和汉字结构。又由于汉字是不断发展的,但汉字基元和汉字结构可以长期稳定不变,从而使得汉字基元、汉字结构和汉字编码方法能够像拉丁文字一样长期稳定。
3、本发明采用的方法与汉字教育完全一致,如基元(以偏旁部首为基础)、汉字结构(与教学中的汉字结构为基础)、编码方法(从上到下,从左到右,先横后直,先外后内,先架后嵌等)都与汉字教育一致。整体优先也符合汉字认知规律和汉字教学的方法。所以完全可以与汉字教育无缝连接,实现计算机教育真正从娃娃抓起。
4、本发明采用的方法完全是传统的造字理论,编码以汉字结构作为编码的线索,体现了汉字的结构性特点。主要利用象形、指事字及其符号—基元,体现了汉字的表意性特点。因此在编码时就复现了汉字的造字过程,重温了汉字的优秀文化,从而实现了传统文化的传承。
5、本发明作为输入法使用时,由于编码完全按照传统的汉字书写习惯的顺序,方法简单,基本不需要记忆,能够与传统的汉字教学无缝连接;对文化程度较低,普通话水平较低的群体,学习起来就特别容易。
附图说明
图1是本发明的汉字编码流程图;
图2是汉字“蘑”的结构和基元分解图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如表2所示,汉字的结构分为17种。表2中的汉字结构在有关汉字分类的基础上进行完善、补充和修改,已经通过对GB18030-2005标准汉字集中70244个汉字(已收集到的汉字)的实验。
表2、汉字结构、结构框图、编码、定义和例字表
Figure A20091003963300101
Figure A20091003963300111
Figure A20091003963300121
表2中的17种结构分别为整体结构、上下结构、上中下结构、多竖结构、左右结构、左中右结构、多横结构、全包围结构、上三包围结构、左上包围结构、左三包围结构、左下包围结构、右上包围结构、下三包围结构、品字结构、架嵌结构和双重叠结构。本发明中,独体字就是象形字、指事字,其中有些独体字的笔画是不连通的,如“火,水”等;而笔画连通就是整个字的笔画连在一起,即笔画是分不开的,如“开、毛、两”等就是连通体,笔画连通的字有些是独体字,有些不是。17种结构一一配置在键盘的17个结构键值上,所述结构键值由一个按键组成,取相应的结构键值作为结构编码;而按键可以是大写英文字母键,也可以是小写字母键,还可以是数字键。表2所示的17种结构码分别采用键盘的大写英文字母A~Z中的17个大写英文字母表示;即在本实施例中,17个结构键值为大写英文字母A~Z中的17个大写英文字母键。本领域的技术人员可以合理预测到表2中的17种结构编码,除了采用表中的字母外,也可以采用其它字母或数字或符号来表示,只要17种结构与17个结构键值一一对应就可以了。
上述17种结构既用于汉字的总体结构,也用于汉字的部分结构。在本发明中,汉字的结构划分遵从先总体后部分的次序,汉字的总体结构称为一级结构,汉字的部分结构根据部分的分解次数依次称为二级结构、三级结构、四级结构等。例如:
“汉”是一级结构汉字,只有一级结构,是左右结构。
“整”是二级结构汉字,一级结构是上下结构,其中上结构部分又是左右结构。所以它的一级结构是上下结构,二级结构是左右结构。
“癌”是三级结构汉字,一级结构是上左包围结构,二级结构是上下结构,三级结构是品字结构。
“蘑”是四级结构汉字,一级结构是上下结构,二级结构是上左包围结构,三级结构是上下结构,四级结构是左右结构。
在本发明中,基元是指组成汉字的基本单元。按照六书传统造字法,象形字、指事字及其符号是汉字的基元。在应用中,独体字、偏旁是汉字的基元;而偏旁包含部首,因而部首也是汉字的基元。汉字基元通过整理分析和实验确定,部分基元及其编码如表3所示。
表3、部分基元及其编码
Figure A20091003963300131
本发明将汉字的每一个基元配置在一个由两个按键排列组合而成的基元键值上,取相应的基元键值作为基元编码。表3所示的基元码用26个小写英文字母键和10个数字键(0-9数字键)所组成的集合中的任2个元素的排列组合来表示;即在本实施例中,组成基元键值的两个按键是小写英文字母键或数字键,每一个基元键值由一个小写英文字母键和一个数字键,或由两个小写英文字母键,或由两个数字键排列组合而成。由于26个小写英文字母和10个数字组成的集合中,任2个元素的排列组合方式共有362种,因此采用本实施例方法所得的基元编码足够一一对应汉字中的基元;而在表3中只是列出了汉字中的部分基元及其编码。与结构键值同理,基元键值也可以采用除小写英文字母键或数字键之外的其它两个按键的排列组合来表示。
在介绍了汉字的结构和汉字的基元之后,下面将详细介绍本发明的汉字编码方法。本发明的汉字编码方法归纳成口诀(即汉字编码顺序)为:结构基元,总体优先,低高到底,横直架嵌,上下左右,内后外先。
“结构基元”,其含义就是一个汉字或一个汉字的部分的编码就是结构编码后面跟汉字的基元编码,即由结构编码和基元编码组成。例如汉字“一”的编码是“G2l”,“G”是整体结构的编码,“2l”是“一”的基元编码。对汉字“祖”,其编码是“Hli7n”,其中“H”是左右结构编码,“li”,“7n”分别是基元“礻”和“且”的基元编码。对汉字“树”,其编码为“I302bl2”,其中“I”是左中右结构的编码,“30”,“2b”,“l2”分别是基元“木”、“又”和“寸”的基元编码。
“总体优先”就是对具有多级结构的汉字,要首先编其总体结构,即该字的一级结构,再编其部分结构,即二级结构、三级结构等。例如,“茨”的一级结构是上下结构,二级结构是左右结构;“磨”的一级结构是左上包围结构,二级结构是上下结构,三级结构是左右结构;“蘑”的一级结构是上下结构,二级结构是左上包围结构,三级结构是上下结构,四级结构是左右结构。
“低高到底”就是对于汉字的一个结构要从低到高编到底。例如“微”,一级结构是左中右结构,其编码为“I2iK2n217mhe”,而中结构又是上中下结构,编码时先编左结构,再编中结构,最后编右结构。当编中结构时,要将中结构编完才能开始编右结构。在本例中子编码“K2n217m”就是中结构。
口诀中的“横直架嵌,上下左右,内后外先。”可以表述为:先横后直,先架后嵌,从上到下,从左到右,先外后内。
“先横后直”的意思是对既可以按上下结构又可以按左右结构进行编码的汉字或汉字的部分,即对既是上下结构又是左右结构的汉字或汉字的部分,先看横的结构边界,即按照上下结构编码。例如“
Figure A20091003963300141
”,一级结构是上下结构,二级结构分别是左右结构,该汉字编码为“JHbi33Hbi33”,其中,“J”是上下结构的编码,“H”是左右结构的编码,“bi”和“33”分别是基元“日”和“月”的编码。
“先架后嵌”的意思是,对架嵌结构,无论是总体结构还是部分结构,都在架嵌结构码的后面紧跟架基元码,其后是嵌入基元码;对多个不同的嵌入基元,仍然按照从上到下,从左到右,先外后内的顺序编码。例如汉字“噩”的汉字编码为“T2x8h8h8h8h”,其中“T”是架嵌结构码,“2x”是架基元“王”的编码,“8h”是基元“口”的编码。
“从上到下”的意思是,对上下、上中下、多竖结构,无论是总体还是部分,都在结构码的后面紧跟上基元码,其后按从上到下的顺序接其它基元码。例如上中下结构汉字“草”的编码为“Kb8bi7k”,其中“K”表示上中下结构的编码,“b8”是上基元“艹”的编码,“bi”是中基元“日”的编码,“7k”是下基元“十”的编码。
“从左到右”的意思是,对左右、左中右、多横结构,无论是总体还是部分,都在结构码的后面紧跟左基元码,其后按从左到右的顺序接其它基元码。例如左中右结构汉字“瞅”的编码为“Ibr3g2v”,其中“I”表示左中右结构的编码,“br”是左基元“目”的编码,“3g”是中基元“禾”的编码,“2v”是右基元“火”的编码。
“先外后内”的意思是,对各种包围结构,如全包围结构、上三包围结构、左上包围结构、左三包围结构、左下包围结构、右上包围结构、下三包围结构,无论是总体还是部分,都在结构码的后面紧跟外基元码,其后跟内基元码。例如左上包围结构汉字“床”的编码为“O9d30”,其中,“O”是左上包围结构的编码,“9d”是外基元“广”的编码,“30”是内基元“木”的编码。
下面以汉字“蘑”为例,结合如图1所示的编码流程,说明汉字的编码输入过程。汉字编码输入可以按照如下的步骤实施:
第一步,根据17种结构,分析拟输入汉字的总体结构(对多级结构的汉字指一级结构),从总体上确定编码结构数及其次序。例如“蘑”字的结构和基元分解如图2所示,一共有四级结构。
第二步,从结构编码表中找出一级结构的编码。“蘑”字一级结构是上下结构,其编码为J。
第三步,按照规定的次序对总体结构中的各部分进行分析,结构部分直接是基元的,在基元编码表中找出其基元编码。例如“蘑”字的上结构是“艹”,直接是基元。
第四步,总体结构中结构部分不直接是基元而是复合结构的,先确定其结构编码,然后再按编码顺序对其基元进行编码。例如“蘑”字的下结构是复合结构,该复合结构是左上包围结构。
第五步,对复合结构按照编码规则再进行编码,如复合结构中还包括了复合结构,按照相同的方法进行编码,如此进行下去直至末级结构,得到拟输入汉字的编码键值。如“蘑”字的三级结构是上下结构,四级结构是左右结构。
从以上编码步骤可知,汉字编码由结构编码和基元编码组成:只有一级结构且被分解成一个基元的汉字的编码由一个结构编码和一个基元编码组成;只有一级结构且被分解成多个基元的汉字的编码由一个结构编码和多个基元编码组成;含多级结构且被分解成多个基元的汉字的编码由多个结构编码和多个基元编码组成。且基元编码紧跟在其结构编码后面。
第六步,在键盘上敲击第五步所得到的拟输入汉字的编码键值,输入汉字。
上述实施例为本发明较佳的实施方式,但木发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于结构和基元的汉字编码输入方法,包括对汉字进行编码的步骤、根据汉字的编码键值敲击键盘输入汉字的步骤,其特征在于,对汉字进行编码的步骤为:将汉字结构分为17种,并根据17种结构将每一汉字分解成一级或多级结构,每级结构包括一个或多个基元;汉字编码由结构编码和基元编码组成;所述17种结构分别为整体结构、上下结构、上中下结构、多竖结构、左右结构、左中右结构、多横结构、全包围结构、上三包围结构、左上包围结构、左三包围结构、左下包围结构、右上包围结构、下三包围结构、品字结构、架嵌结构和双重叠结构;该17种结构一一配置在键盘的17个结构键值上,取相应的结构键值作为结构编码;所述基元指组成汉字的基本单元,每一个基元配置在一个由两个按键排列组合而成的基元键值上,取相应的基元键值作为基元编码。
2.根据权利要求1所述的基于结构和基元的汉字编码输入方法,其特征在于:所述结构键值由一个按键组成。
3.根据权利要求2所述的基于结构和基元的汉字编码输入方法,其特征在于:所述按键为大写英文字母键;17个结构键值为大写英文字母A~Z中的17个大写英文字母键。
4.根据权利要求3所述的基于结构和基元的汉字编码输入方法,其特征在于:整体结构、上下结构、上中下结构、多竖结构、左右结构、左中右结构、多横结构、全包围结构、上三包围结构、左上包围结构、左三包围结构、左下包围结构、右上包围结构、下三包围结构、品字结构、架嵌结构和双重叠结构的结构键值分别为大写英文字母G、J、K、U、H、I、X、L、M、O、Q、P、R、N、S、T、W。
5.根据权利要求1所述的基于结构和基元的汉字编码输入方法,其特征在于:所述基元键值由26个小写英文字母键和10个数字键所组成的集合中的任2个元素的排列组合而成。
6.根据权利要求1所述的基于结构和基元的汉字编码输入方法,其特征在于汉字编码顺序为:结构基元,总体优先,低高到底,横直架嵌,上下左右,内后外先;“结构基元”指一个汉字或一个汉字的部分的编码是结构编码后面跟汉字的基元编码;“总体优先”指对具有多级结构的汉字,要首先编其总体结构,再编其部分结构;“低高到底”指对于汉字的一个结构要从低到高编到底;“横直”指对既是上下结构又是左右结构的汉字或汉字的部分,按照上下结构编码;“架嵌”指对架嵌结构,在架嵌结构码的后面紧跟架基元码,其后是嵌入基元码,对多个不同的嵌入基元,按照从上到下、从左到右、先外后内的顺序编码;“上下”指对上下、上中下、多竖结构,都在结构码的后面紧跟上基元码,其后按从上到下的顺序接其它基元码;“左右”指对左右、左中右、多横结构,都在结构码的后面紧跟左基元码,其后按从左到右的顺序接其它基元码;“内后外先”指对全包围结构、上三包围结构、左上包围结构、左三包围结构、左下包围结构、右上包围结构、下三包围结构,都在结构码的后面紧跟外基元码,其后跟内基元码。
7.根据权利要求1所述的基于结构和基元的汉字编码输入方法,其特征在于:所述基元包括独体字、偏旁。
CNA2009100396332A 2009-05-21 2009-05-21 一种基于结构和基元的汉字编码输入方法 Pending CN101551711A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2009100396332A CN101551711A (zh) 2009-05-21 2009-05-21 一种基于结构和基元的汉字编码输入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2009100396332A CN101551711A (zh) 2009-05-21 2009-05-21 一种基于结构和基元的汉字编码输入方法

Publications (1)

Publication Number Publication Date
CN101551711A true CN101551711A (zh) 2009-10-07

Family

ID=41155974

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2009100396332A Pending CN101551711A (zh) 2009-05-21 2009-05-21 一种基于结构和基元的汉字编码输入方法

Country Status (1)

Country Link
CN (1) CN101551711A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930299A (zh) * 2010-08-25 2010-12-29 华南理工大学 一种无字库的汉字智能生成方法
CN105825141A (zh) * 2016-02-02 2016-08-03 上海健晴信息技术有限公司 一种基于互补映射的数据库汉语姓名脱敏方法
CN107220224A (zh) * 2017-05-18 2017-09-29 吉首大学 一种基于智能推导的方块苗文生成方法
CN110414496A (zh) * 2018-04-26 2019-11-05 百度在线网络技术(北京)有限公司 相似字识别方法、装置、计算机设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930299A (zh) * 2010-08-25 2010-12-29 华南理工大学 一种无字库的汉字智能生成方法
CN101930299B (zh) * 2010-08-25 2014-04-02 华南理工大学 一种无字库的汉字智能生成方法
CN105825141A (zh) * 2016-02-02 2016-08-03 上海健晴信息技术有限公司 一种基于互补映射的数据库汉语姓名脱敏方法
CN107220224A (zh) * 2017-05-18 2017-09-29 吉首大学 一种基于智能推导的方块苗文生成方法
CN110414496A (zh) * 2018-04-26 2019-11-05 百度在线网络技术(北京)有限公司 相似字识别方法、装置、计算机设备及存储介质
CN110414496B (zh) * 2018-04-26 2022-05-27 百度在线网络技术(北京)有限公司 相似字识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN101551711A (zh) 一种基于结构和基元的汉字编码输入方法
CN100403239C (zh) 基于英文键盘的藏文输入法
CN102830809A (zh) 汉字编码输入法
CN1072029A (zh) 五笔二维编码法及键盘
CN101436103A (zh) 一种手机与计算机通用的汉字输入法
CN101135938B (zh) 一种汉字元拼双音输入方法
CN101576924A (zh) 一种蒙古文检索方法
CN102253726B (zh) 一种计算机汉字数字笔画的输入方法及键盘技术
CN100458667C (zh) 汉字在手机及计算机上用五笔画十四部首的输入方法
CN105302330A (zh) 组合式音笔类主副码汉字、词语编码输入法及其键盘
CN101952790B (zh) 适用于中文教学的汉字输入方法
CN104536590B (zh) 基于西夏文声韵字根输入法的嵌入式软键盘系统
CN102141844B (zh) 带声、韵、调读音的汉字内码输入法
CN101086687A (zh) 一种首末码汉字输入方法
JP6074332B2 (ja) コンピュータ・電子辞書・スマートホンキーボードの日本語文字配列
CN104133556B (zh) 双笔类主副码字母型部首字典、声系字典汉字编码输入法及其键盘
CN108845680A (zh) 一种查字打字用同一个编码的两笔字中文电脑查字打字法
CN100389375C (zh) 一种数字码输入法
CN1125393C (zh) 利用计算机键盘汉字编码输入方法
CN1108553C (zh) 通用普及型音元形音汉字编码输入方法
CN104731360A (zh) 分层首拼编码法
JP2019215928A (ja) コンピュータ、スマートホンキーボードの日本語文字の構成とタイピング入力方法及び配列
CN102902367A (zh) 多用字根编码检字和输入法
CN100511111C (zh) 双码联合输入法
CN102750002A (zh) 数码汉字输入法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20091007