CN1048614A - 汉字一元多码结构分类编码法 - Google Patents

汉字一元多码结构分类编码法 Download PDF

Info

Publication number
CN1048614A
CN1048614A CN 90104740 CN90104740A CN1048614A CN 1048614 A CN1048614 A CN 1048614A CN 90104740 CN90104740 CN 90104740 CN 90104740 A CN90104740 A CN 90104740A CN 1048614 A CN1048614 A CN 1048614A
Authority
CN
China
Prior art keywords
character
code
stroke
codes
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 90104740
Other languages
English (en)
Inventor
卓达宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 90104740 priority Critical patent/CN1048614A/zh
Publication of CN1048614A publication Critical patent/CN1048614A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

汉字一元多码结构分类编码法。新设计思想是 一个字,元素编几个代码,利用汉字结构分类使用分 组代码减少重码字,在键盘字母键上标示数字提示码 减轻用户对代码的记忆负担,从而使笔形编码法实现 了整体优化目标。实施例给出了两种字词兼容的普 及型汉字笔形编码高速输入方案。本发明的编码法 适用于简体和繁体汉字编码输入计算机,还可用于对 现有各种编码方案进行优化改进。

Description

本发明涉及一种小键盘汉字编码输入方法及其键盘设计,属计算机汉字输入方法类。
汉字输入是计算机处理中文信息的瓶颈阶段。现有的汉字输入方法有大键盘整字输入法、语音识别输入法和小键盘编码输入法三种。
汉字小键盘编码输入方法又可以分为字根编码法、笔形编码法、拼音编码法和形音混合编码法四种。字根编码法和笔形编码法比较普及。
字根编码法是将汉字分解为几十个或上百个字根,用一码多根的办法安排在26个英文字母键和10个数字键上,拼形编码输入汉字。这种方法的优点是字码短,重码率低,但字根量太大,记忆困难。
笔形编码法是将汉字分解为几种基本笔形,每种笔形编一个数字代码,按书写顺序依序取笔划编码输入汉字。这种方法的优点是编码规则简单,不必记忆大量字根,普及性好。但由于字元素太少。不得不用增加字码长度的办法来减少重码,尽管如此,重码率仍然很高,屏幕选字频繁,影响输入速度。笔形编码法的代表方案有王永明的“五笔画汉字编码法”和李金凯的“多文种电脑编码法”,王方案单字码长5位,李方案单字码长6位。
针对字根编码法记忆字根困难及笔形编码法码位长,重码率高的缺点,本发明的目的就是设计一种足以克服这些缺点,能够实现编码规则简单,输入速度快,误码率和重码率都很低,适用于简体和繁体汉字编码输入整体优化目标的汉字编码方案。
要实现这样的优化目标,期望的编码法必须是既减少组字元素,又压缩字码长度,还要降低重码率。
现有的编码方法或者是一个字元素编一个代码占用一个键位,或者是几个字元素编一个代码占用一个键位。这种方法在处理字元素数量,输入速度和重码率几个问题上往往顾此失彼,难以实现整体优化目标。到目前为止,还没有检索到一个汉字元素编几个代码的方案。
现有的编码方法减少重码字的主要措施有三种:一是增加字元素数量(如字根编码法)。二是增加单字码位长度、(如笔形编码法)。三是利用汉字结构特征规定取码位置,如中国专利GK88103806号文件编码法就规定双体结构汉字取各部首尾笔划编码。到目前为止,还没有检索到利用汉字字型结构分类来减少重码字的编码方法。
本发明的设计思想是:
1.既压缩字码长度又减少重码字的唯一方法是增加字元素占用键位数,但增加字元素占用键位数和增加字元素数量是不同的,一个字元素编几个代码就可以实现既减少字元素数量又增加字元素占用键位数的优化目标。
2.减少重码字的方法除了增加字元素数量。增加字码长度和利用汉字结构特征约定编码规则以外,还可以利用汉字字型结构分类的不同。在键盘上分区编码输入的方法。具体说就是将汉字归纳为上下结构、左右结构、内外结构、独体结构……等几种结构类型,每一种结构类型的汉字用指定的一组代码编码,如左右结构字用A组码,上下结构字用B组码……,等等。这样,汉字结构不同,使用的代码也不同组,不可能出现重码。相同结构类型的汉字使用同一组代码编码,即使有重码字出现,概率也大幅度降低了,如果在设计编码规则时充分利用汉字结构特征合理确定取码位置,重码字还可以减少。
3.一个字元素编几个代码,必然会给用户带来记忆负担。如果每个字元素的几个代码都标示该字元素一个相同的代码,用户对每个字元素要记忆的就只有一个代码。例如有6个字元素,每个字元素编6个代码共有36个代码,由于每个字元素的6个代码都标示了一个相同的提示代码,实际上用户对每个字元素只要记忆一个代码,使用36个代码进行编码输入汉字时。需要记忆的字元素及对应的代码关系只有6个。从而大幅度地减轻了用户的记忆负担,使编码方案有显著的普及实用性。
本发明的特点是一个字元素编几个代码占用几个键位,全部字元素的全部代码组成的代码集合分成几个子集,指定的一个代码子集用于指定的一种或几种结构类型的汉字编码,每个字元素的几个代码都标示该字元素的一个代码作为提示代码。这里所说的字元素可以笔形元素。也可以是字根元素或者是拼音元素,一个字元素编2~10个代码,代码集合分成2~10个子集。
本发明一个字元素编几个代码占用几个键位和设置提示码的方法特别适用于笔形编码方案,也适用于其它编码方法,可用于设计新的编码方案,也可用于对现有各种编码方案的改进。
本发明给出了两个实施例。这两个实施例的编码规则可以用十分简单的口决记忆:
单体字前三末一,双体字各部首尾;
词组首字取全码,次尾两字补简码。
实施例一,《六笔形一元多码结构分类字词编码法》
图1是实施例1的笔形编码表,图2是实施例1的键盘设计图。结合图1和图2进行说明。
本实施例是字词兼容的快速输入笔形编码法,其要点是:将汉字归纳为上下、左右、左中右、内外、独体5种基本结构类型,将汉字分解为“横、竖、撇、点、折、方”6种基本笔形,每种笔形编1个数字码和4个字母码,单字为4位等长码,词输入用首字全码加尾字简码为补码,词码为6位等长码。
一、笔形编码
对照图1,按“横-1,B,C,T、y,竖-2,N,X,R、U,撇-3,M、Z、E、I,点-4,J,D,W,O,折-5,K,S,Q,P,方-6,L,A,F,H”的对应关系编码,6种笔形编30个代码,这30个代码又分为1区码、2区码、3区码、4区码、5区码共5组,数字码“O”和字母码“V”均表示O,用于缺笔划补码,总共有32个代码。
1区码为“1,2,3,4,5,6,0”7个数字码,用于独体结构汉字编码。
2区码为“B,N,M,J,K,L,V”7个字母码,用于左右结构字编码。
3区码为“C,X,Z,D,S,A,V”7个字母码,用于上下结构字编码。
4区码为“y,U,I,O,P,H,V”7个字母码,用于左中右结构字编码。
5区码为“T,R,E,W,Q,F,V”7个字母码,用于内外结构字编码。
二、键盘设计
对照图2,在键盘数字键上标笔形名称和笔形符号,在字母键上标数字提示码和笔形符号。字母上标数字提示码的对应关系为:1-B,C,y,T;2-N,X,U,R;3-M,Z,I,E;4-J,D,O,W;5-K,S,P,Q;6-L,A,H,F;O-V。
三、编码规则
1.单字编码规则
单字输入为4位等长码,不足4码时添“0”补足。
(1)独体结构字使用1区数字码,标示码等于输入码。输入时按汉字书写笔顺依序取笔划编码,不足四笔四码时添“0”补足4位码,最多取“首、次、三、尾”四笔四码。例:
互:(横折折-横),1551
曲:(竖折横-横),2511
大:(横撇点-),1340
(2)双体结构字编码法
双体结构字取各部首尾笔划得到两个2位码,各部只有一笔时添“0”补足为2位码,再按书写顺序组合成一个4位字码。
A、左右结构字用2区字母码,用户按记忆的提示数字代码拼形编码,实际输入是字母码,括号内为数字提示码,例:
汽:(点横-撇折)  JBMK(4135)
输:(横横-撇竖)  BBMN(1132)
B、上下结构字(含上中下结构字)用3区字母码,用户按记忆的提示数字代码拼形编码,实际输入是字母码,括号内为数字提示码,例:
运:(横点-点点)  CDDD(1444)
全:(撇点-横横)  ZDCC(3411)
(3)左中右结构字用4区字母码,取左边偏旁的首尾笔划组成一个2位码,再取中间字形的首笔划和右边部首的尾笔划组成另一个2位码,再按书写顺序组合成4位字码。用户按提示数字码拼形编码,实际输入是字母码,括号内为数字提示码。例:
做:(撇-横、点)  IUyO(3214)
游:(点横-点、横)
Figure 901047406_IMG2
yO (4141)
(4)内外结构字母用5区字母码,按书写顺序依“首、次、三、尾”依序编码,不足4位码时添“0”补足,最多取4位码。用户按提示数字码编码,实际输入是字母码,括号内为数字提示码。例:
国:(框横横-横)  FTTT(6111)
因:(框横撇-横)  FTET(6131)
所有同码异字用序数选择。
2.词编码规则
词编码用首字全码定位,加尾字首尾笔划简码为补码的方法,可以实现字词兼容,词码等长6位,不论尾字是什么结构类型,均和首字使用同一组代码。例:
(1)首字为独体字,首尾字均用1区数字码。
互:1551  互相帮助:155165
(2)首字为左右结构字,首尾字均用2区字母码,括号内为提示码。
汽:JBMK(4135),汽车:JBMKBN(413512)
同码异词用序数选择。
实施例二,《十笔形一元多码结构分类字词编码法》
图3是实施例二的笔形编码表和字根编码表,图4是实施例二的键盘设计图,结合图3图4进行说明。
本实施例是字词兼容的快速输入笔形字根混合编码法,其要点是:将汉字归纳为上下、左右、独体3种基本结构类型,将汉字分解为“横、竖、撇、点、折、串、方、八、叉框”10种基本笔形和“日、月、水、火、心、田、雨”7种常用字根,每个字根编1个字母码,每种笔形编1个数字码和2个字母码,单字码长1~4位,词输入用首字全码加尾字简码为补码,词码长3~6位。
一、笔形编码
对照图3,按“横-1,B,C,竖-2,N,X,撇-3,M,Z,点-4,J,D,折-5,K,S,串-6,L,A,方-7,T,E,八-8,O,W,叉-9,P,Q,框-O,V”的对应关系,10种笔形共编29个代码,按“日-R,月-T,水-y,火-U,心-F,田-G,雨-H”的对应关系,7个字根编7个字母码,29个笔形码分为3组,称为A区码,B区码、C区码,7个字母码为共用码。
A区码为“0~9”10个数字码,用于独体结构字编码。
B区码为“B、N、M、J、K、L、I、O、P、V”这10个字母码,用于左右结构字编码。
C区码为“C、X、Z、D、S、A、E、W、Q、V”这10个字母码。用于上下结构字编码。
二、键盘设计
对照图4,在键盘数字键上标笔形名称和笔形符号,在字母键上标数字提示码、笔形符号和字根代表字,字母上标数字提示码的对应关系为:
1-B、C,  2-N、X,  3-M、Z,
4-J、D,  5-K、S,  6-L、A,
7-I、E,  8-O、W,  9-P、Q,
0-V。
三、编码规则
1.单字编码规则
单字为1~4位不等长码,优先取字根码,其次取复笔形,复笔形无法取时取笔画编码。
(1)独体结构字(含内外结构字)使用A区数字码和共用字根字母码,标示码等于输入码,输入时按书写笔顺依序编码。最少1码,最多取“首、次、三、尾”四笔4码。例:
丰:(串)  6
有:(叉、月)  9T
而:(横撇框-竖)  1302
(2)左右结构字(含左中右结构字)用B区字母码和字根字母码,按部首偏旁各取首尾字根或字形组成两个2位码,各部只有一位时保持1位码,再组合成2~4位长字码,括号内是用户提示数字码。例:
依:(八-点点)  OJJ(844)
往:(撇八-点横)  MOJB(3841)
靖:((点横-串月)  JBLT(416月)
(3)上下结构字(含上中下结构字)用C区字母码和字根字母码,按字头字底取各部首尾字根或字形组成两个2位码,各部只有一码时保持1位码,再组合成2~4位不等长字码,括号内是用户提示数字码。例:
运:(横点-点点)  CDDD(1444)
署:(日-叉日)  RQR(日9日)
苗:(串-田)  AG(6田)
同码异字用序数选择。
2.词编码规则
词编码用首字全码加尾字首尾笔划简码为补码,首字码长不足4位时加一个“*”号,不管尾字结构如何,均和首字使用同一组代码,词码长3~6位,括号内是用户提示数码。例:
运:CDDD(1444),运输:CDDDCX(14412)
丰:6  丰收在望:6*41
暑:RQR(日9日),暑假:RQR*(日9日89)
词输入的另一种方式是首字全码加上其余各字的字第一个拼音字母为补码。例:
运:CDDD(1444),运输公司:CDDDS
GS(1444SGS)
同码异词用序数选择。
本发明应用了一个字元素编几个代码和利用汉字结构分类来减少重码字的新设计思想,较好地解决了汉字编码输入方案指标整体优化的问题,对国标一级汉字库3775个汉字进行编码,重码率小于2%。
本发明适用于对简体和繁体汉字编码,可用于各种文字处理机字词兼容高速输入汉字,原键盘无改动。

Claims (8)

1、一种文字信息处理机用汉字一元多码结构分类编码法,包括汉字结构分类,字元素分解,字元素编码,键盘设计和编码规则,其特征在于:将汉字分解为6个或者17个字元素,一个字元素编几个代码,指定的一个代码子集用于指定的一种或几种结构类型的汉字编码,每个字元素的几个代码都标示该元素的一个代码为提示码。
2、如权利1所述的编码法,其特征在于:将汉字分解为“横、竖、撇、点、折、方”6种基本笔形。
3、如权利1所述的编码法,其特征在于:将汉字分解为“横、竖、撇、点、折、串、方、八、叉、框”10种笔形和“日、月、水、火、心、田、雨”7个字根共17个字元素。
4、如权利1所述的编码法,其特征在于:一个字元元素编2~10个代码。
5、如权利2和权利4所述的编码法,其特征在于:将6种笔形的每种笔形编1个数字码和4个字母码,对应关系是横-1、B、C、T、y;竖-2、N、X、R、U;撇-3、M、Z、E、I;点-4、J、D、W、O;折-5、K、S、P、Q;方-6、L、A、F、H。
6、如权利3和权利4所述的编码法。其特征在于将10种笔形的每种笔形编1个数字码和2个字母码,7个字根的每个字根编1个字母码。对应关系是横-1、B、C;竖-2、N、X;撇-3、M、Z;点-4、J、D;折-5、K、S;串-6、L、A;方-7、I、E;八-8、O、W;叉-9、P、Q;框-O、V;日-R,月-T,水-y,火-U,心-F,田-G,雨-H。
7、如权利1所述的编码法,其特征在于,将字元素代码集合分成2~10个子集。
8、如权利1所述的编码法,其特征在于:每个字元素的几个代码都标示该字元素的数字码为提示码。
CN 90104740 1990-07-14 1990-07-14 汉字一元多码结构分类编码法 Pending CN1048614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 90104740 CN1048614A (zh) 1990-07-14 1990-07-14 汉字一元多码结构分类编码法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 90104740 CN1048614A (zh) 1990-07-14 1990-07-14 汉字一元多码结构分类编码法

Publications (1)

Publication Number Publication Date
CN1048614A true CN1048614A (zh) 1991-01-16

Family

ID=4878723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 90104740 Pending CN1048614A (zh) 1990-07-14 1990-07-14 汉字一元多码结构分类编码法

Country Status (1)

Country Link
CN (1) CN1048614A (zh)

Similar Documents

Publication Publication Date Title
CN1023038C (zh) 汉字音形序码计算机汉字输入方法
CN1119739C (zh) 五笔数码键盘汉字电脑输入法及其键盘
CN1048614A (zh) 汉字一元多码结构分类编码法
CN1068688C (zh) 一种文字信息处理方法和装置
CN1194285C (zh) 多输入方式的计算机汉字编码输入技术
CN1118085A (zh) 可用数字键盘输入的汉字输入系统及其键盘
CN1275127C (zh) 按笔顺输入的汉字输入法及其键盘
CN1380620A (zh) 图书索引自动编排方法
CN1100288C (zh) 四笔序音计算机汉字键盘输入方法
CN1253779C (zh) 坐标码汉字电脑输入法
CN1558310A (zh) 汉字辅元音形码输入法
CN1195257C (zh) 结构数码汉字输入方法
CN1107899C (zh) 计算机四角汉字输入法
CN1244855C (zh) 中文信息处理汉字数字化规范编码输入技术
CN1244671A (zh) 数符汉字编码输入法及键盘
CN1043381C (zh) 汉字四笔画数码输入法
CN1299999A (zh) 基于四角号码和字根的汉字输入法及其键盘
CN1584804A (zh) 数字键盘汉字输入法
CN1305140A (zh) 阿拉伯数字集成输入法
CN1298140A (zh) 方向码计算机汉字输入法
CN1504863A (zh) 简明数码韩文输入方法
CN1167994C (zh) 一二三四输入法
CN1173661A (zh) 元码汉字计算机输入方法
CN1115619C (zh) 一种字元拼形计算机汉字输入法
CN1048613A (zh) 四维码汉字输入技术

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication