CN1521611A - 一种汉字数字化编码表达方法 - Google Patents

一种汉字数字化编码表达方法 Download PDF

Info

Publication number
CN1521611A
CN1521611A CNA2004100061961A CN200410006196A CN1521611A CN 1521611 A CN1521611 A CN 1521611A CN A2004100061961 A CNA2004100061961 A CN A2004100061961A CN 200410006196 A CN200410006196 A CN 200410006196A CN 1521611 A CN1521611 A CN 1521611A
Authority
CN
China
Prior art keywords
code
stroke
parts
chinese character
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004100061961A
Other languages
English (en)
Inventor
孙亚国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yaguo
Zhang Shangui
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN 03130659 external-priority patent/CN1445644A/zh
Application filed by Individual filed Critical Individual
Priority to CNA2004100061961A priority Critical patent/CN1521611A/zh
Publication of CN1521611A publication Critical patent/CN1521611A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明涉及一种汉字数字化编码表达方法,属于汉字信息处理技术领域,采用0-9十个数字分别表示:横、竖、撇、点、折五类基本单笔笔画和框形、含横或竖的相交形、"八"字形"小"字形和撇捺交叉形五类笔画组合,进而实现对汉字的数字化描述;按照上述笔画及笔形代码,将每个汉字用4个阿拉伯数字作代码,并遵循笔画组合优先原则、笔画不复取原则和不足的用"0"补齐原则取码。本发明克服了已有技术的许多不足之处,将汉字数字化,具有规则简单、定义明确、容易记忆、易于学习、掌握和普及的突出优点;为汉字数字化和汉字信息处理开辟了新路,并为其推广普及打下了基础。

Description

一种汉字数字化编码表达方法
技术领域
本发明属于汉字信息处理技术领域,具体是一种利用0-9十个阿拉伯数字来表述汉字的方法。此方法可应用于计算机汉字检索和汉字输入系统。
背景技术
目前用于汉字信息处理的编码方法有1000余种,但利用数字对汉字进行编码的却寥寥无几。王永民先生发明的″五笔数码″分别采用了6键6码和9键6码两种编码方法对汉字进行表述。其6键6码编码方法较为简单,但重码较多,应用价值不高;9键6码没有对单笔和复笔进行明确分类,将几种特定的汉字部件规定在几个数字上,且对汉字编码采用了不定码长的编码方案,增加了记忆量,加大了使用难度、不利于学习和普及。广西肖水清先生发明的″无理序号″采用″声韵调序″的程式输入,拼音输入本来重码就很多,其编码又用10个数字代替了21个声母和5个零声统一母,再用10个数字代替35个韵母,其重码就可想而知了,其编码的另一缺点是只有记住每一屏显示的那些序号,才能掌握这种输入法。栗兴民先生发明的″四笔号码″看似简单,但其汉字拆分方法比较复杂,也难于掌握和记忆,而且有些规则定义不严格,易产生歧义,难于推广和应用。
发明内容
本发明的目的是提供一种汉字数字化表达方法<或及其键盘>,该方法将汉字数字化,具有规则简单、定义明确、容易记忆、易于掌握和普及的优点。
本发明是这样实现的:一种汉字数字化表达方法<或及其键盘>,其特征在于:
a、五类基本单笔笔画(或笔形)横、竖、撇、点、折依序采用阿拉伯数字1、2、3、4、5作代码;其他笔形代码及其描述为:代码″6″表示呈方框形的部件;代码″7″表示包含有横或竖的相交部件;代码″8″表示由两笔撇开构成″八″字形或″八″字变形的部件;代码″9″表示″小″字形或″小″字变形的部件;代码″0″表示由撇和捺构成的交叉部件;
b、按照上述笔划及笔形代码,将每个汉字用4个阿拉伯数字作代码,并遵循笔画组合优先原则、笔画不复取原则和不足的用″0″补齐原则取码。
可以将计算机键盘上的数字键作数字代码,计算机操作时,启动程序进入应用状态,即用数字键盘检索录入。
上述的汉字取码方法可以是:将汉字划分为独体字和合体字两类,对于独体字,按汉字书写顺序取其前四笔代码,不足四笔者,末位用″0″补齐四位;对于合体字,依次取汉字首部件的首码和末(或尾)码,次部件的首码和末部件的尾码;部件的首笔画(形)或首笔画(形)与其他笔形的结合为首码;部件的末笔形或末笔形与其他笔形的结合为末(或尾)码;
独体字定义为:
当一汉字符合下述三种情况时,则该汉字为独体字:
(1)、该汉字无法按左右、左中右、上下、上中下以及全包围、半包围等六种汉字结构划分;
(2)、该汉字按部件拆分后,任何一个部件均非独立汉字;
(3)、若一汉字由一独体字加上一单笔组成,且符合上述第一种情况,则也将其视为独体字;
合体字的取码原则:
(1)、确定首部件原则:
本编码方案将汉字归纳为左右、左中右、上下、上中下、及全包围、半包围等六种结构,依据这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件;
(2)、复笔优先原则:
在取码时,应尽可能的将部件的首末单笔结合成复笔取码;
(3)、笔画不复取原则:
在取码时,同一笔画不得重复被首尾码使用;
(4)、补″0″原则:
①当要从一个不足两码或只有一种复笔的部件取首尾码时,首码不变,尾码用″0″补齐;
②当部件的末笔画已在首码中使用时,则尾码用″0″补齐;
上述的笔画笔形代码方法可以为:五类基本笔画:横(含提)、竖(含竖钩)、撇、点(含捺)、折依序采用阿拉伯数字1、2、3、4、5作代码;笔画组合的代码及其描述为:代码″6″表示呈框形的部件;代码″7″表示包含有横或竖的相交部件;代码″8″表示由两笔撇开构成″八″字形或″八″字变形的部件;代码″9″表示″小″字形或″小″字变形的部件;代码″0″表示由撇捺相交构成的部件及部件″又″;其取码方法也可以是(或较佳为):对于每个汉字依次取汉字首部件的首码和末码,余部件的首码和末码;汉字或部件的首笔画或首笔画与其他笔画的结合为首码;汉字或部件的末笔画或末笔画与其他笔画的结合为末码;
汉字的取码规则:
(1)确定首部件原则:
本编码方案将汉字归纳为上下结构、左右结构、上中下结构、左中右结构、全包围和半包围结构(包括向下包围结构、向上包围结构、向右包围结构、向右下包围结构、向左下包围结构和向右上包围结构)等六种结构,依据汉字书写顺序及这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件;对于不属于上述结构的汉字,将其首笔画或首笔画与其他笔画的结合作为首部件;
(2)笔画组合优先原则:
在取码时应将″基本笔画″结合成″笔画组合″取码;
(3)笔画不复取原则:
在取码时,同一笔画不得重复被首、末码使用;
(4)补″0″原则:
①当从一个只有″基本笔画″或″笔画组合″构成的部件取首、末两码时,首码不变,末码用″0″补齐。
②当部件的末笔画已在首码中使用时,末码用″0″代替。
也可以用与其他的取码方法等。
本发明的技术效果是显著的:它克服了已有技术的许多不足之处,把汉字进行数字化表达,具有规则简单、定义明确、容易记忆、易于学习、掌握和普及的突出优点。尤其符合当今飞速发展的信息技术和″数字化地球″这一概念。当前,汉字正在逐步地或迅速地走向世界,如果能采用一个极其简单明了的表达方法来实现对汉字的数字化描述,从而方便快速准确地实现VCD、DVD、移动电话、电话机、传真机及其它带有数字按键的信息家电上的汉字输入,无疑符合汉字输入法的发展方向,并成为解决问题的技术关键及最佳途径。故本发明为汉字数字化和汉字信息处理开辟了新路,并为其推广普及打下了基础。
具体实施方式
实施例一:
将汉字笔画概括为5类单笔和5类复笔,分别用1-5和6-0十个数字作代码;将汉字划分为独体字及合体字两类,分别采用不同的规则编码。
五类单笔的笔形代码及其描述为:
代码″1″表示由左向右运笔的横;代码″2″表示由上向下运笔的竖及竖钩;代码″3″表示由右上向左下运笔的撇;代码″4″表示由左上向右下运笔的点及捺;代码″5″表示所有的折笔。
五类复笔的笔形代码及其描述为:
代码″6″表示呈方框形的部件;代码″7″表示包含有横或竖的相交部件;代码″8″表示由两笔撇开构成″八″字形或″八″字变形的部件;代码″9″表示″小″字形或″小″字变形的部件;代码″0″表示由撇和捺构成的交叉部件。
                 汉字笔画分类和代码一览表
      类别 代码     示例字例 附注
基本笔画 横竖撇点折     12345     王土刁旧个刑毛才片义军入疋司已 横和提竖和竖钩各种撇点和捺各种折
笔画组合 方交八小叉     67890     喝国央同周画区屋协佑把东铁宅扒益凉暴水逐尖当怀刈艾 方框形含横或竖的相交形″八″字形″小″字形撇捺交叉形
对于独体字,按汉字书写顺序取其前四笔代码,不足四笔者,末位用″0″补齐四位:
例如:
(1)一画字:一=1000  乙=5000
(2)二画字:二=1100  十=1200  卜=2400
(3)三画字:三=1110  干=1120  才=1230
(4)四画字:丰=1112  中=2512  夫=1134
(5)多画字:史=2513  乖=3122  我=3121
对于合体字,依次取汉字首部件的首码和尾码,次部件的首码和末部件的尾码,当一个汉字只有两个部件时,则次部件也取首码和尾码。
例如:
教=7730   冰=8028  壁=6771   崔=2631
弼=5515   湖=4171  赢=4564   暴=6178
固=6076  囫=6033  边=5344  句=3560
合体字的取码原则是:
1、确定首部件原则:
本编码方案将汉字归纳为左右、左中右、上下、上中下及全包围、半包围等六种结构,依据这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件。例如:″治″(左右结构)的代码为4156;″做″(左中右结构)的代码为3270;″志″(上下结构)的代码为7144;″高″(上中下结构)的代码为4166;″国″(全包围结构)的代码为6014;″逐″(半包围结构)的代码为1844。
2、复笔优先原则:
在取码时,应尽可能的将部件的首末单笔结合成复笔取码;例如:″将″的代码为8234,″党″的代码为9565,″冰″的代码为8028。
3、笔画不复取原则:
在取码时,同一笔画不得重复被首尾码使用;例如:″因″的代码为6078,″肤″的代码为6174。
4、补″0″原则:
(1)当要从一个不足两码或只有一种复笔的部件取首尾码时,首码不变,尾码用″0″补齐;例如:″博″的代码为7074,″怀″的代码为901 4,″艾″的代码为7200,″凶″的代码为0060。
(2)当部件的末笔画已在首码中使用时,则尾码用″0″补齐;例如:″伟″的代码为3270;″纯″的代码为5170。
实施例二:
将汉字笔画概括为五类基本笔画和五类笔画组合,分别用1-5和6-0十个数字作代码;对于所有汉字,采用统一的规则编码。
五类基本笔画的笔画代码及其描述为:
代码“1”表示由左向右运笔的横及提;代码“2”表示由上向下运笔的竖及竖钩;代码“3”表示由右上向左下运笔的撇;代码“4”表示由左上向右下运笔的点及捺;代码“5”表示所有的折笔。
五类笔画组合的笔画代码及其描述为:
代码“6”表示呈框形的部件;代码“7”表示含有横或竖的相交部件;代码“8”表示由两笔撇开构成的“八”字或“八”字变形的部件;代码“9”表示“小”字形或“小”字变形的部件;代码“0”表示由撇和捺相交构成的部件和部件“又”。
             汉字笔画分类和代码一览表
类别 代码 示例字例(附注)
基本笔画 横竖撇点折  12345 王土刁(横和提)旧个刑(竖和竖钩)毛才片(各种撇)义军入(点和捺)疋司已(各种折)
笔画组合 框交八小叉  67890 喝国央同周画区屋(各种成框形的部件)协佑把东铁宅(含横或竖的相交形)尖当怀(“小”字形和“小”字变形的部件)尖当怀(“小”字形和“小”字变形的部件)义又刈艾对(撇捺交叉形和部件“又”)
对于每个汉字,依次取汉字首部件的首码和末码,余部件的首码和末码。
例如:
教=7730  冰=8028  壁=6771  崔=2631
弼=6515  湖=4171  赢=4564  暴=6178
固=6076  囫=6033  边=5344  句=3560
汉字的取码规则是:
1、确定首部件原则:
本编码方案将汉字归纳为上下结构、左右结构、上中下结构、左中右结构、全包围和半包围结构(包括向下包围结构、向上包围结构、向右包围结构、向右下包围结构、向左下包围结构和向右上包围结构)等六种结构,依据汉字书写顺序及这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件。例如:“志”(上下结构)的首部件为“士”代码为71;“村”(左右结构)的首部件为“木”代码为78;“赢”(上中下结构)的首部件为“亡”代码为45;“国”(全包围结构)的首部件为“口”,代码为60;“逐”(半包围结构)的首部件为“豕”,代码为18。
对于不属于上述结构的汉字,可将其首笔画或首笔画与其他笔画的结合作为首部件。例如:“下”的首部件为“一”,代码为10。
2、笔画组合优先原则:
在取码时应将“基本笔画”结合成“笔画组合”取码;例如:“将”字的首部件代码为82;“党”字的首部件代码为95;“奈”的余部件代码为19;
3、笔画不复取原则:
在取码时,同一笔画不得重复被首、末码使用;“因”的余部件为“大”,代码为74;“肤”的余部件为“夫”,代码为74。
4、补“0”原则:
(1)当从一个只有“基本笔画”或“笔画组合”构成的部件取首、末两码时,首码不变,末码用“0”补齐。例如:“博”的首部件为“十”代码为70;“艾”的首部件代码为72;“凶”的代码为0060。
(2)当部件的末笔画已在首码中使用时,末码用“0”代替。例如:“伟”的余部件为“韦”,代码为70;“邦”的代码为7052。
本发明方法一或二,无需掌握多级简码输入技术,同时由于编码科学合理,因此在短时间内容易学习和掌握,易于推广普及应用。而且计算机检索录入速度快。
以本编码方案一或二作为检字法拟被中华书局收入最新编辑出版的中华字典电子版中,并作为中华字典纸本版的补辑出版发行,为汉字数字化和汉字信息计算机处理开辟了新路,并为其推广普及打下基础。

Claims (3)

1、一种汉字数字化编码表达方法,其特征在于:
a、五类基本单笔笔画横、竖、撇、点、折依序采用阿拉伯数字1、2、3、4、5作代码;其他笔形代码及其描述为:代码″6″表示呈方框形的部件;代码″7″表示包含有横或竖的相交部件;代码″8″表示由两笔撇开构成″八″字形或″八″字变形的部件;代码″9″表示″小″字形或″小″字变形的部件;代码″0″表示由撇和捺构成的交叉部件;
b、按照上述笔划及笔形代码,将每个汉字用4个阿拉伯数字作代码,并遵循笔画组合优先原则、笔画不复取原则和不足的用″0″补齐原则取码。
2、根据权利要求1所述的汉字数字化编码表达方法,其特征在于所述的汉字取码方法为:将汉字划分为独体字和合体字两类,对于独体字,按汉字书写顺序取其前四笔代码,不足四笔者,末位用″0″补齐四位;对于合体字,依次取汉字首部件的首码和末码,次部件的首码和末部件的末码;部件的首笔画或首笔画与其他笔画的结合为首码;部件的末笔形或末笔形与其他笔形的结合为末码;
独体字定义为:
当一汉字符合下述三种情况时,则该汉字为独体字:
(1)该汉字无法按左右、左中右、上下、上中下以及全包围、半包围等六种汉字结构划分;
(2)该汉字按部件拆分后,任何一个部件均非独立汉字;
(3)若一汉字由一独体字加上一单笔组成,且符合上述第一种情况,则也将其视为独体字;
合体字的取码原则:
(1)确定首部件原则:
本编码方案将汉字归纳为左右、左中右、上下、上中下及全包围、半包围等六种结构,依据这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件;
(2)复笔优先原则:
在取码时,应尽可能的将部件的首末单笔结合成复笔取码;
(3)笔画不复取原则:
在取码时,同一笔画不得重复被首尾码使用;
(4)补″0″原则
①当要从一个不足两码或只有一种复笔的部件取首尾码时,首码不变,尾码用″0″补齐;
②当部件的末笔画已在首码中使用时,则尾码用″0″补齐。
3、根据权利要求1所述的汉字数字化编码表达方法,其特征在于所述的笔画笔形代码方法为:五类基本笔画横(含提)、竖(含竖钩)、撇、点(含捺)、折依序采用阿拉伯数字1、2、3、4、5作代码;笔画组合的代码及其描述为:代码“6”表示呈框形的部件;代码“7”表示包含有横或竖的相交部件;代码“8”表示由两笔撇开构成“八”字形或“八”字变形的部件;代码“9”表示“小”字形或“小”字变形的部件;代码“0”表示由撇捺构成的交叉部件和部件“又”;
其取码方法为:对于每个汉字依次取汉字首部件的首码和末码,余部件的首码和末码;汉字或部件的首笔画或首笔画与其他笔画的结合为首码;汉字或部件的末笔画或末笔画与其他笔画的结合为末码;
汉字的取码规则:
(1)确定首部件原则:
本编码方案将汉字归纳为上下结构、左右结构、上中下结构、左中右结构、全包围和半包围结构(包括向下包围结构、向上包围结构、向右包围结构、向右下包围结构、向左下包围结构和向右上包围结构)等六种结构,依据汉字书写顺序及这六种结构对汉字进行拆分,将含有首笔画的部分确定为首部件;
对于不属于上述结构的汉字,将其首笔画或首笔画与其他笔画的结合作为首部件;
(2)笔画组合优先原则:
在取码时应将“基本笔画”结合成“笔画组合”取码;
(3)笔画不复取原则:
在取码时,同一笔画不得重复被首、末码使用;
(4)补“0”原则:
①当从一个只有“基本笔画”或“笔画组合”构成的部件取首、末两码时,首码不变,末码用“0”补齐。
②当部件的末笔画已在首码中使用时,末码用“0”代替。
CNA2004100061961A 2003-05-03 2004-03-08 一种汉字数字化编码表达方法 Pending CN1521611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2004100061961A CN1521611A (zh) 2003-05-03 2004-03-08 一种汉字数字化编码表达方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN03130659.4 2003-05-03
CN 03130659 CN1445644A (zh) 2003-05-03 2003-05-03 一种汉字数字化表达方法及其键盘
CNA2004100061961A CN1521611A (zh) 2003-05-03 2004-03-08 一种汉字数字化编码表达方法

Publications (1)

Publication Number Publication Date
CN1521611A true CN1521611A (zh) 2004-08-18

Family

ID=34314802

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004100061961A Pending CN1521611A (zh) 2003-05-03 2004-03-08 一种汉字数字化编码表达方法

Country Status (1)

Country Link
CN (1) CN1521611A (zh)

Similar Documents

Publication Publication Date Title
CN1737739A (zh) 基于英文键盘的藏文输入法
CN1262474A (zh) 二十四部首汉字排序编码法及其键盘
CN1521611A (zh) 一种汉字数字化编码表达方法
CN1869892A (zh) 一种中文短语、短句快速输入的方法和系统
CN1834870A (zh) 日本语文字输入方法及系统
CN1177271C (zh) 四笔号码字词不重输入法及其键盘
CN1073722C (zh) 一种拼音输入方法
CN1081004A (zh) 汉字结构笔顺数字编码方法
CN100339808C (zh) U码汉字输入法
CN1072785A (zh) 无理序号数字综合编码法及其键盘
CN1034245C (zh) 缅文字型智能四码输入系统
CN1445644A (zh) 一种汉字数字化表达方法及其键盘
CN1118085A (zh) 可用数字键盘输入的汉字输入系统及其键盘
CN1208712C (zh) 《汉字结构》输入法
CN1196057C (zh) 一码二形数字编码汉字输入方法
CN1243301C (zh) 汉字计算机/手机一体码输入法
CN1315026C (zh) 一种数码汉字输入法
CN1244855C (zh) 中文信息处理汉字数字化规范编码输入技术
CN1142474C (zh) 字典码汉字输入法
CN1554994A (zh) 与数字符号象形相关式手机汉字输入法及其键盘
CN1208711C (zh) 英文数码输入法
CN86102418A (zh) 汉语音节处理机及汉语音节处理方法
CN1425975A (zh) 笔形数码汉字输入法
CN1245678C (zh) 拼音加补码汉字输入法
CN1373411A (zh) 一种大、小键盘录入的编码方案

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
C41 Transfer of patent application or patent right or utility model
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20060512

Address after: 510080, Guangdong, Guangzhou Province West Road, No. six, building

Applicant after: Zhang Shangui

Co-applicant after: Sun Yaguo

Address before: Shijiazhuang province Hebei Hongqi Street, Hebei Normal University West Campus east school Foreign Languages College English Department Yang Kang Table (transfer)

Applicant before: Sun Yaguo

C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Sun Yaguo

Document name: Notice of first review

C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Sun Yaguo

Document name: Deemed as a notice of withdrawal (Trial)

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication