CN1815418A - 基于中文字母方式描述汉字轮廓特征的多元编码方法 - Google Patents

基于中文字母方式描述汉字轮廓特征的多元编码方法 Download PDF

Info

Publication number
CN1815418A
CN1815418A CN 200510052219 CN200510052219A CN1815418A CN 1815418 A CN1815418 A CN 1815418A CN 200510052219 CN200510052219 CN 200510052219 CN 200510052219 A CN200510052219 A CN 200510052219A CN 1815418 A CN1815418 A CN 1815418A
Authority
CN
China
Prior art keywords
code
character
stroke
coding
font
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200510052219
Other languages
English (en)
Other versions
CN100514260C (zh
Inventor
刘君度
刘冰彬
陈昌英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNB2005100522197A priority Critical patent/CN100514260C/zh
Publication of CN1815418A publication Critical patent/CN1815418A/zh
Application granted granted Critical
Publication of CN100514260C publication Critical patent/CN100514260C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明是一种用于计算机和电子通信设备中文信息处理的多元汉字编码输入方法。该方法科学地设计了26个类似拉丁字母的汉字构字部件,建立一套描述汉字字形的中文编码字母,构建一个适用于国家GB2312-80和GB18030-2000繁体、简体大字符集的汉字编码体系。采用一个相同的编码规则,通过键入拉丁字母和数字编码的形式描述汉字字形的轮廓特征,为人们提供一种不但能用拉丁字母或数字编码输入,同时还可以用字母数字混合编码的方式输入汉字的方法。

Description

基于中文字母方式描述汉字轮廓特征的多元编码方法
一、技术领域
本发明属于计算机信息处理技术的汉字编码输入方法,特别是以通用键盘的拉丁字母键和数字键通过对汉字编码输入中文信息的方法。
二、背景技术
汉字编码输入技术现状
在我国,汉字编码输入技术是实现计算机中文信息处理的先决条件,它是影响计算机普及应用的主要原因之一。由于汉字数量繁多、结构复杂,汉字编码存在好学不好用和好用不好学相互矛盾的两难问题。
现有的汉字编码为解决汉字重码问题而大量地扩充码元,使编码元素达到二、三百个甚至四百个之多,并且人为地将汉字部件拆分并强行安置到键盘的各个键位上。这种大量增加编码元素的无理编码方式以及繁琐的编码规则,使操作人员为记忆这些码元和进行汉字拆分而耗费大量的脑力,增加了汉字输入的劳动强度,这是人们普遍认为汉字输入技术难以掌握的主要原因。
三、发明内容
1、发明的目的和任务
本发明的目的,旨在解决计算机中文信息处理中汉字编码输入技术难学难记,而且使用不便,难以广泛普及的问题,在尽可能降低重码率的情况下,大量减少汉字编码元素,科学地建立一套描述汉字字形的编码字母,构建一个适用于国家GB2312-80和GB18030-2000繁体、简体大字符集的汉字编码体系,从而为人们提供一种既可以用拉丁字母编码输入,同时又可以用数字编码输入的汉字编码方法。
本发明是根据汉字字形特征进行编码的多元汉字输入法,为此,采用了由字母、数字组成的多元汉字编码输入方式以及优化编码的措施,以满足各种不同环境、不同工作的人员进行汉字输入的需要。
2、编码思想
本发明是基于中文字母方式描述汉字字形轮廓特征的纯字形编码方案。其编码思想是:用带有拉丁字母键和数字键的PC通用标准键盘,以本发明创建的26个汉字字形编码元素来描述汉字周围三个角的笔形特征,通过键入拉丁字母和阿拉伯数字编码的方式输入汉字。
本发明的汉字编码方法是这样实现的:分别以26个拉丁字母以及10个阿拉伯数字对本发明创建的26个汉字字形编码元素按照象形关系和一定的规律建立对应的字母代码和数字代码,以拉丁字母和数字代码的形式将汉字编码并输入计算机。一个汉字的编码由首形码、尾形码、补形码和特征码四个字形码元组成。汉字字母编码的最大码长为4键,数字编码的最大码长为6键,6位数以后的数字代码一律舍弃。本发明对汉字字形码元的约定意义是:
首形码为汉字左上角起笔的笔形特征的代码;
尾形码为汉字右下角末笔的笔形特征的代码:
补形码为汉字右上角最高的笔形特征的代码;
特征码是指去掉汉字右上角所取的补形码后,对余下部分再次取补形码。
3、编码元素
本发明用以描述汉字字形轮廓特征的编码元素是26个具有特定形态意义的汉字部件,它们是构建本发明所谓中文字母方式的汉字编码体系的基本字形码元。
(1)基本字形码元
一        丨 亅         丿       丶     
Figure A20051005221900081
横        竖和竖左钩    撇       点     捺    横向上钩和斜右钩    折弯钩
一                  亠       十     乂ナ  艹卄        扌      丰
斜角笔形  直角笔形      头笔     正叉   斜叉  草头        斜插    正插
        亻            氵冫            口          日            囗
金旁头    单人旁        三点水和两点水  空小方框    实小方框      大方框
月        木            小忄    八丷      王
月字形    木字形        小字形    八字形    王字形
本发明用以描述汉字字形轮廓特征的26个汉字部件既分别与键盘的26个拉丁字母相对应,又分别与26个数字编码相对应。这些具有单一性明确对应关系的26个汉字部件以及字母和数字码元的集合,构成了所谓中文字母方式并可以同时用拉丁字母键和数字键输入汉字的多元汉字编码输入法的编码体系。
(2)基本字形码元的字母代码
单笔画码元(7个)
E-一    横。如:天、石、鱼;
I-丨亅  竖和竖左钩。如:旧、山、临、丁、到:
J-丿    撇。如:千、看、行、顺、形;
U-丶    点。如:宝、识、问、军、去:
R-    捺。如:良、衣、衷、襄;
C-
Figure A20051005221900085
横向上钩和斜右钩。如:见、风、几、兄;
S- 折弯钩。如:与、鸟、夸:
部件型码元(11个)
A-亠    头笔,点与横的组合。如:京、应、防;
X-乂ナ  斜叉,两笔斜交叉。如:文、右、肴、及、狗;
H-十    正叉,两笔垂直正交叉。如:土、壳、填、付;
N-艹卄  草头,草字头和草字头的变形。如:英、其、燕、革;
W-扌    斜插,一笔斜向穿过两笔或两笔以上的笔画。如:打、戈、春;
M-丰    正插,一笔垂直穿过两笔或两笔以上的笔画。如:青、手、慧;
T-    金旁头,撇与横的组合。如:铁、午、缶;
K-乛  斜角笔形,一笔向下斜向转折或两笔笔头斜向相接组成的斜角笔形。
        如:买、乃、反、兵;
L-    直角笔形,一笔向下垂直转折或两笔笔头垂直相接组成的直角笔形。
        如:习、厂、扫、雪、却、阿;
Y-亻    单人旁。如:仃、仁、凭;
G-氵冫  三点水、两点水。如:河、流、冰、冷;
单字型码元(8个)
0-口    空小方框,小框内无笔画。如:另、扣、杏、器;
Q-日    实小方框,小框内有笔画。如:是、旺、盼、备、想;
D-囗    独立的大方框,大方框外无附加笔画。如:因、回、国、团;
P-月    月和月字形的变形。如:股、青、望;
F-木    木和木字形的变形。如:标、米、未、来;
V-小忄小和小字形的变形。如:孙、示、尖、觉、肖、情;
B-八丷  八和八字形的变形。如:全、天、贝、央、羊;
Z-王    王和王字形的变形。如:琴、玲、全、璧;
(3)基本字形码元的数字代码
1-一      横。
11- 横向上钩和斜右钩。
10-王   王和王字形的变形。
2-丨亅  竖和竖左钩。
22-丿   撇。
20-亻   单人旁。
20-
Figure A20051005221900092
折弯钩。
3-丶    点。
33-   捺。
30-氵冫 三点水、两点水。
4-十    正叉,两笔垂直正交叉。
44-乂ナ 斜叉,两笔斜交叉。
40-艹卄 草头,草字头和草字头的变形。
5-丰    正插,一笔垂直穿过两笔或两笔以上的笔画。
55-扌    斜插,一笔斜向穿过两笔或两笔以上的笔画。
6-口     空小方框,小框内无笔画。
66-日    实小方框,小框内有笔画。
60-口    独立的大方框,大方框外无附加笔画。
7-     直角笔形,一笔向下垂直转折或两笔笔头垂直相接成的直角笔形。
77-乛  斜角笔形,一笔向下斜向转折或两笔笔头斜向相接成的斜角笔形。
70-月    月和月字形的变形。
8-八丷   八和八字形的变形。
88-    金旁头,撇与横的组合。
9-小忄 小和小字形的变形。
99-木    木和木字形的变形。
0-亠     头笔,点与横的组合。
以上各个字母、数码所对应的汉字编码元素是一个“类”的概念,即以汉字笔画的走向和部件的形态特征进行归类,从有共同特征的一类汉字部件和笔画中归纳出一个具有代表性的部件作为汉字编码的中文字母。如两笔交叉的部件虽有十、乂、ナ等多种形态,但按其交叉的特征进行分类只有垂直交叉和斜交叉两种,因此分别用H和X作为其码元代码,从而使描述汉字轮廓特征的编码元素的集合大为简化。同时,这些具有代表性的汉字部件又按象形、会意、形声的造字方法与键盘上相应的拉丁字母建立自然、有规律的关联,形成键位字母与笔形的镜象映射关系,解决了字形代码与汉字笔画、部件之间相互对应的理据性难题,从而大大降低了记忆汉字部件及其对应代码的难度,有利于取码和操作。
此外,有部分基本码元附带了与其形态相似的个别扩展码元,它们与相似的基本码元同属一类并归于同一键位。这些字形码元的集合涵盖了对国家GB2312-80和GB18030-2000《信息交换汉字编码字符集》中繁体、简体大字符集汉字编码所必需的全部编码元素,从而可以完成对汉字大字符集中近2.8万个汉字及其笔画、部件、偏旁和中、英文标点符号的编码。
4、编码规则
本发明是一种多元的字母、数字汉字字形编码输入方案,无论按字母方式取码还是按数字方式取码,它们的编码规则完全相同。
汉字字形的编码规则
(1)对汉字取形码,在既可以取单笔画又可以取多笔画字元部件时,应优先按多笔画字元取码,这是编码时“取大部件优先”的规则。
例如“谅”字的编码,“谅”字左上角的首形码是单笔画点(、),应取U;“凉”字右下角亦是点,但它与另外的两个笔画组成了多笔画部件“小”,尾形码应按取大优先的规则取V,而不能按单笔画取U;“谅”字右上角的点与其下的横组成了多笔画部件头笔(亠),补形码也应按取大优先的规则取A。因此“谅”字的形码为UVAO,数字编码则为3906。
(2)一个笔形或部件,前角已用过,后角仍可以重复取码。
例如:“看”字的编码是JQJW,补形码重复取首形码的撇J,其相应的数字编码则为226622。“时”字的编码是QHHU,形码重复取尾形码的两笔交叉H,其相应的数字编码则为数字编码则为66443。
(3)一个笔形或部件可以分角取码。
例如:“买”字的编码是EBKX,“买”字的首笔画在左上角的笔形是横,首形码取E,右上角的补形码取横折K,而相应的数字编码则为187744。
“习”字的编码是EILG,“习”字的首笔画横折钩分别由首形码取横E,尾形码取竖钩I,补形码取折角L,而相应的数字编码则为12730。
(4)一笔的上下两段与其它笔画构成两种不同的笔形或部件的,应分角取码。
例如:“大”字撇的上半段与首笔画横两笔斜交叉,首形码为X,撇的下半段与末笔画捺构成字元部件“八”,尾形码为B,则“大”的编码为XBXR,而相应的数字编码则为448443。
“未”字竖笔画的上半段直插两个横笔画,首形码为M,竖笔画的下半段与横、撇和捺构成多笔画字元部件“木”,尾形码为F,补形码重复取首形码相同的码元M,则“未”字的编码为MFME。而相应的数字编码则为59951。
(5)凡缺角的汉字取形码时,缺角部分无笔画的形码一律取A,这是编码时“缺角取A”的规则。
有少数汉字存在“缺角”的情况,如:“厂、尹、产、矿、”等汉字,右下角的尾形码均无笔画,这时应取A作尾形码,数字编码则取0。
例如:“厂”字的编码是LAEJ,相应的数字编码则为70122;
      “矿”字的编码是EAAJ,相应的数字编码则为10022;
(6)对于字首被头笔画(亠)、草字头(艹)或变形的草字头所覆盖的汉字,在取其右上角的补形码时,不直接取其右上角,应除去(亠)和(艹)后再取右上角的笔画作补形码。
例如:“京”字的编码是AVOV;相应的数字编码则为0969。
      “疗”字的编码是AIKI;相应的数字编码则为02772。
      “芳”字的编码是NIAL;相应的数字编码则为40207。
      “其”字的编码是NBEE;相应的数字编码则为40811。
(7)对于外围是“口、门、辶”两类的汉字,在取其右下角的尾形码时,不直接取其右下角,而改取其框内右下角的笔画作尾形码。但在“口、门、辶”的上、下、左、右有附加笔画的两类汉字不在此例,仍同一般汉字取右下角的笔画作尾形码。
例如:“圆”字的编码是DBDO;相应的数字编码则为608606。
      “问”字的编码是UOLO;相应的数字编码则为3676。
      “运”字的编码是UUEE;相应的数字编码则为3311。
而:“旧、涧、挝”等字框外均有附加笔画,仍按一般汉字取右下角的笔画作为尾形码。
例如:“旧”字的编码是IQQI;相应的数字编码则为266662。
      “涧”字的编码是GILQ;相应的数字编码则为302766。
      “挝”字的编码是WRHU。相应的数字编码则为553343。
(8)在取汉字的特征码取时,遇到正插或者斜插的笔画部件,不必将其整个部件去掉,只需去掉该部件中的纵向笔画,然后再对余下的部分取右上角的笔形作为特征码。
例如:“青”字的编码是MPME;相应的数字编码则为57051。
      “贵”字的编码是MBMO;相应的数字编码则为5856。
      “呋”字的编码是OBWE;相应的数字编码则为68551。
(9)在取汉字的特征码取时,如果遇到“山、戈、页、气、宀、雨、竹、鸟、攵、戋、刂、阝”等偏旁,应直接跳过这些偏旁取汉字的特征码。
例如:“岗”字的编码是IIIL;相应的数字编码则为2227。
      “宗”字的编码是UVUE;相应的数字编码则为3931。
      “雪”字的编码是ELEL;相应的数字编码则为1717。
5、汉字的编码方式
本发明的汉字编码是多元化的,既可以按拉丁字母编码方式输入,也可以按数字编码方式输入,同时还可以按字母数字混合编码方式输入。在混合编码输入方式中,编码时通过字母、数字前后位置的变换,还可以形成许多不同的编码格式。因此,本发明的汉字输入方式并不固定在一种或几种,无论是汉字或是词组,为了降低重码率和方便使用,根据不同工作或某一专业领域的需要,都可以编制出许多不同的汉字输入方式。
(1)汉字的字母编码方式:
汉字的字母编码方式是一个汉字的编码完全由拉丁字母组成。其编码的码元顺序首先取汉字左上角首形码的拉丁字母代码,然后取该汉字右下角尾形码的拉丁字母代码,其次再取该汉字右上角补形码的拉丁字母代码,最后取该汉字特征码的拉丁字母代码,一个汉字的编码最多由四个拉丁字母组成。
汉字字母编码的码元顺序也可用如下简式表示:
即:首形字母码+尾形字母码+补形字母码+特征字母码
例如:“祥”字的编码是UMBE;“顺”字的编码是JBEI。
词组编码
二字词编码:
依序输入每个字的首形字母码和尾形字母码,
即:首形字母码1+尾形字母码1+首形字母码2+尾形字母码2
三字词编码:
依序输入每个字的首形字母码和末字尾形字母码,
即:首形字母码1+首形字母码2+首形字母码3+尾形字母码3
四字和四字以上词组编码:
依序输入前三字的首形字母码和末字首形字母码,
即:首形字母码1+首形字母码2+首形字母码3+末字首形字母码
(2)汉字的数字编码方式:
汉字的数字编码方式是一个汉字的编码完全由数字组成。其编码的码元顺序首先取汉字左上角首形码的数字代码,然后取该汉字右下角尾形码的数字代码,其次再取该汉字右上角补形码的数字代码,最后取该汉字特征码的数字代码,一个汉字的编码最多由六位数字组成。
汉字数字编码的码元顺序也可用如下简式表示:
即:首形数码+尾形数码+补形数码+特征数码
例如:“祥”字的编码是3581;“顺”字的编码是22812。
词组编码
二字词编码:
依序输入每个字的首形数码、尾形数码和末字的补形数码,
即:首形数码1+尾形数码1+首形数码2+尾形数码2+补形数码2
三字词编码:
依序输入每个字的首形数码和尾形数码,
即:首形数码1+尾形数码1+首形数码2+尾形数码2+首形数码3+尾形数码3
四字和四字以上词组编码:
依序输入前四个字的首形数码和末字尾形数码,
即:首形数码1+首形数码2+首形数码3+首形数码4+末字尾形数码
(3)汉字的混合编码方式:
汉字的混合编码方式是指一个汉字和词组的编码由拉丁字母和数字两种码元组成,其编码方法是以数字代码替换字母编码中的任一个字母码元,因而混合编码方式具有各种各样的形式。它用于生僻字、繁体字、偏旁部首以及专业词汇的编码,由于扩展了新的编码空间,从根本上消除了与常用字之间的重码问题。
一种典型混合编码的码元顺序是:首先取汉字左上角首形码的拉丁字母代码,然后取该汉字右下角尾形码的拉丁字母代码,其次再取该汉字右上角补形码的拉丁字母代码,最后取该汉字特征码的数字代码,一个汉字的编码最多为五键。
汉字数字编码的码元顺序也可用如下简式表示:
即:首形字母码+尾形字母码+补形字母码+特征数码
例如:“祥”字的编码是UMB1;“顺”字的编码是JBE2;
      “福”字的编码是UQE6;“看”字的编码是JQJ55。
      “龍”字的编码是ACE7;“俬”字的编码是YUI3。
词组编码
二字词编码:
依序输入首字的首形字母码、尾形字母码和末字的首形字母码、尾形数码,
即:首形字母码1+尾形字母码1+首形字母码2+尾形数码2
例如:“调频”的编码是UI18;“调幅”的编码是UIH66。
三字词编码:
依序输入每个字的首形字母码和末字尾形数码,
即:首形字母码1+首形字母码2+首形字母码3+尾形数码3
四字和四字以上词组编码:
依序输入前三个字的首形字母码和末字首形数码,
即:首形字母码1+首形字母码2+首形字母码3+末字首形数码
由此可见,一个汉字可以同时具有“字母编码”、“数字编码”和“混合编码”等多种编码形式,它们相互兼容,互不干扰,使用人员勿需按转换键,就可以交替地按另一种输入方式用相应的编码录入同一个汉字或词组。
6、编码的优化措施
设置汉字和词组的简码
本发明的汉字和词组的编码为固定的等长编码,任何一个汉字,无论其字体结构如何,笔画数量多少,都可以把它们看成一个方块形,因而都有可以取出它们的首形码、尾形码、补形码和特征码。所以,任何一个汉字、汉字部件、偏旁甚至标点符号均可按统一的编码规则取足四个编码元素,从而形成了等长的字母编码和数字编码,这是汉字的全编码形式。为了充分利用闲置的编码空间和简码资源、提高键入速度并降低重码率,需要对某些高频常用汉字的编码加以简缩,将其设置为一级、二级或三级简码,简码的设置既降低了汉字取码的难度,达到了一键一字的汉字输入效果,同时又减少了击键次数,提高了汉字输入的速度。
例如:“京”字的全编码是AVOV,相应的数字全编码为0969;
      可以设置字母简码为AVO,数字简码为096。
     “其”字的全编码是NBEE,相应的数字全编码则为40811;
      可以设置字母简码为NB,数字简码为408。
     “旧”字的全编码是IQQI,相应的数字全编码则为266662;
      可以设置字母简码为IQ,数字简码为266。
     “涧”字的全编码是GILQ,相应的数字全编码则为302766;
      可以设置字母简码为GIL,数字简码为3027。
     “如果”的全编码是XOQF,相应的数字全编码则为4466699;
      可以设置字母简码为XOQ,数字简码为4466。
     “因此”的全编码是DBIC,相应的数字全编码则为608211;
      可以设置字母简码为DBI,数字简码为6082。
7、有益效果
(1)系统性
本发明首创了用26个具有代表性的字形部件所构建的汉字编码体系,其汉字编码的码元体系既可满足对GB2312-80汉字字符集的字形编码要求,也可满足对GB18030-2000大字符集中繁体、简体汉字、偏旁部首以及标点符号的编码要求。由于在同一个汉字编码码元体系中兼容了字母编码、数字编码等多种汉字输入方式,因而具有适应生僻字、分专业进行词汇编码的可扩展编码空间,可以根据专业工作的需要编制专业化的词汇字库。
(2)普适性
本发明首创了一体化汉字纯形字母、数字编码输入模式。这种多元的汉字一体化输入模式具有在使用上不受地域方言和国别影响的特点,可以满足各种人员对汉字输入的需求。字母、数字编码相互兼容的输入模式,使计算机拉丁字母编码和移动通信的数字编码输入统一起来,既节省学习和培训的时间,降低社会劳动成本,又扩大了应用范围。
(3)简易性
本发明的汉字编码与国民普及教育背景知识相一致,对字形码元的选择充分利用了人们在普及义务教育中已有的知识储备。因而,只要具有小学文化基础的人就可以在很短的时间内掌握汉字输入技术,真正做到即学即用。
本发明解决了汉字字形编码部件与拉丁字母相互对应的唯一性以及两者之间相互关联的有理化难题。如键位I仅作为竖笔画的代码,键位X仅作为两笔斜交叉的代码,键位O仅作为小方框内无笔画的空口的代码,键位Q仅作为小方框内有笔画的实口的代码,键位D则作为独立大方框的代码,键位L只代表直角的折笔画,J与撇形态相似,键盘上的键位字母与汉字部件这种唯一的对应和镜象映射关系,大大降低了记忆编码码元的难度,实现了汉字编码输入易学与好用两者圆满的统一。
由于PC通用键盘上的拉丁字母键与本发明的字形编码部件具有唯一的对应关系和高度的相关性,因而不必在键位上标识汉字的编码部件,凭借PC通用键盘上原有的拉丁字母与编码部件形态相似的关系,即可方便、快速地输入汉字,为广泛普及计算机汉字输入技术创造了条件。
四、具体实施方式
对汉字和词组进行编码,首先需要根据编码规则确定所取的字元部件,然后将字元部件转换成相应的字母全编码和数字全编码,最后再根据汉字和词组的使用频度以及可能出现的重码问题来设置它们的简码,以充分利用一级简码、二级简码和三级简码资源,从而离散重码,提高汉字的输入效率。
下表举例说明了对汉字、词组、偏旁和标点符号进行编码时的具体方法和步骤。其中字母简码和数字简码是在编码过程中根据重码的具体情况设置的,这些简码就是今后进行汉字输入时所用的编码。字母简码与数字简码的重码情况是不同的,因此,同一个字或词组的两种简码并不完全对应。汉字数字编码的码长虽然是6键,但在编码时极少用到。
1、汉字编码实施例
2、词组编码实施例
  词组   字元部件   全形编码   字母简码   数字简码
  北京春天美丽温暖因为互联网计算机知识创新知识产权局中华人民共和国   一乚亠小扌日一八丷八一丨丶一日乂口八丶亅一一亅丶木乚丶八亠丶亠丰亻八口   ECAVWQEBBBEIGEQXDBUIEELIUTFCTUBATUALMYBD   ECAWQEBBBEGEQXDBUEELIUTFTUBATUALMYBD   11005566188123016660831172388988388830752086
本发明可以软件的形式制作成计算机信息处理的汉字输入系统,安装于UCDOS以及WINWDOS 9X、WINWDOS XP等各种计算机操作系统平台上以及手持式移动通信设备的嵌入式操作系统中,为使用人员提供多种简便、快捷、理想的汉字输入方法。

Claims (4)

1、一种中文信息处理的汉字编码输入方法,该方法的汉字编码由汉字的字形编码元素组成,其特征是:
(1)所述汉字的字形编码由汉字的首形码、尾形码、补形码和特征码四个字形编码元素组成,它们分别按照汉字三个角的笔形特征进行编码,对汉字字形码元的约定意义是:
首形码为汉字左上角起笔的笔形特征的代码,
尾形码为汉字右下角末笔的笔形特征的代码,
补形码为汉字右上角最高的笔形特征的代码,
特征码是指去掉汉字右上角所取的补形码后,对余下部分再次取补形码;
(2)所述汉字的字形编码元素为描述汉字字形轮廓特征的26个具有特定形态意义的汉字部件,它们是从有共同形态特征的同类汉字部件和笔画中归纳出的一个具有代表性的部件,这些汉字部件是构建本发明所谓中文字母方式的汉字编码体系的基本字形码元:
一      丨亅    丿  丶             
Figure A2005100522190002C2
       
ㄅ横  竖和竖左钩  撇  点  捺  横向上钩和斜右钩  折弯钩
  乛            亠     十   乂 艹卄  扌   丰
斜角笔形  直角笔形  头笔  正叉  斜叉  草头  斜插  正插
        亻        氵冫           口        日       囗
金旁头  单人旁  三点水和两点水  空小方框  实小方框  大方框
  月      木    小忄   八丷     王
月字形  木字形  小字形  八字形  王字形;
(3)所述汉字的字形编码元素根据笔画形态、方向以及相互关系的概念与对应的拉丁字母、数字代码按象形、形声的关系形成自然有规律的映射关联,汉字字形编码元素及其代码的集合与汉字字形编码规则共同构建基于中文字母方式描述汉字轮廓特征的多元汉字编码输入方法及其编码体系,各字形编码元素所对应的拉丁字母和数字代码如下:
(a)基本字形码元的字母代码
E-一    横
I-丨亅  竖和竖左钩
J-丿    撇
U-丶    点
R-    捺
C- 横向上钩和斜右钩
S-   折弯钩
A-亠    头笔,点与横的组合
X-乂
Figure A2005100522190003C4
斜叉,两笔斜交叉
H-十    正叉,两笔垂直正交叉
N-艹卄  草头,草字头和草字头的变形
W-扌    斜插,一笔斜向穿过两笔或两笔以上的笔画
M-丰    正插,一笔垂直穿过两笔或两笔以上的笔画
T-    金旁头,撇与横的组合
K-乛  斜角笔形,一笔向下斜向转折或两笔笔头斜向相接组成的斜角笔形
L-    直角笔形,一笔向下垂直转折或两笔笔头垂直相接组成的直角笔形
Y-亻    单人旁
G-氵冫  三点水、两点水
O-口    空小方框,小框内无笔画
Q-日    实小方框,小框内有笔画
D-囗    独立的大方框,大方框外无附加笔画
P-月    月和月字形的变形
F-木    木和木字形的变形
V-小忄小和小字形的变形
B-八丷  八和八字形的变形
Z-王    王和王字形的变形;
(b)基本字形码元的数字代码
1-一    横
11-
Figure A2005100522190003C5
Figure A2005100522190003C6
横向上钩和斜右钩
10-王   王和王字形的变形
2-丨亅  竖和竖左钩
22-丿   撇
20-亻   单人旁
20-
Figure A2005100522190003C7
 折弯钩
3-丶    点
33-   捺
30-氵冫 三点水、两点水
4-十    正叉,两笔垂直正交叉
44-乂
Figure A2005100522190003C8
斜叉,两笔斜交叉
40-艹卄 草头,草字头和草字头的变形
5-丰     正插,一笔垂直穿过两笔或两笔以上的笔画
55-扌    斜插,一笔斜向穿过两笔或两笔以上的笔画
6-口     空小方框,小框内无笔画
66-日    实小方框,小框内有笔画
60-囗    独立的大方框,大方框外无附加笔画
7-     直角笔形,一笔向下垂直转折或两笔笔头垂直相接成的直角笔形
77-乛  斜角笔形,一笔向下斜向转折或两笔笔头斜向相接成的斜角笔形
70-月    月和月字形的变形
8-八丷   八和八字形的变形
88-    金旁头,撇与横的组合
9-小忄 小和小字形的变形
99-木    木和木字形的变形
0-亠     头笔,点与横的组合。
2、根据权利要求1所述的汉字编码输入方法包括拉丁字母编码输入方式、数字编码输入方式和拉丁字母数字混合编码输入方式,多种输入方式相互兼容、共同存在,无需作任何切换便可交替使用其中一种编码方式直接输入汉字,各种编码方式的汉字编码是不等长码,拉丁字母编码方式的最大码长为四键,数字编码方式的最大码长为六键,字母数字混合编码方式的最大码长为五键,汉字编码的取码顺序分别为:
(3)字母编码输入方式:
首形字母码+尾形字母码+补形字母码+特征字母码;
(3)数字编码输入方式:
首形数码+尾形数码+补形数码+特征数码;
(3)混合编码输入方式:
首形字母码+尾形字母码+补形字母码+特征数码。
3、根据权利要求1所述的汉字编码输入法,各种输入方式的汉字编码遵循同一个编码规则,其特征在于:
(1)对汉字取形码,在既可以取单笔画又可以取多笔画字元部件时,应优先按多笔画字元取码,这是编码时“取大部件优先”的规则;
(2)一个笔形或部件,前角已用过,后角仍可以重复取码;
(3)一个笔形或部件可以分角取码;
(4)一笔的上下两段与其它笔画构成两种不同的笔形或部件的,应分角取码;
(5)凡缺角的汉字取形码时,缺角部分无笔画的形码一律取A,这是编码时“缺角取A”的规则,数字编码则取0;
(6)对于字首被头笔画(亠)、草字头(艹)或变形的草字头所覆盖的汉字,在取其右上角的补形码时,不直接取其右上角,应除去(亠)和(艹)后再取右上角的笔画作补形码;
(7)对于外围是“口、门、辶”两类的汉字,在取其右下角的尾形码时,不直接取其右下角,而改取其框内右下角的笔画作尾形码。但在“口、门、辶”的上、下、左、右有附加笔画的两类汉字不在此例,仍同一般汉字取右下角的笔画作尾形码;
(8)在取汉字的特征码取时,遇到正插或者斜插的笔画部件,不必将其整个部件去掉,只需去掉该部件中的纵向笔画,然后再对余下的部分取右上角的笔形作为特征码;
(9)在取汉字的特征码取时,如果遇到“山、戈、页、气、宀、雨、竹、鸟、攵、戋、刂、阝”等偏旁,应直接跳过这些偏旁取汉字的特征码;
4、根据权利要求1所述的汉字编码输入法,词组的编码规则根据不同的输入方式和词组的字数不同有以下几种编码方法,其特征是:
(1)字母编码输入方式:
二字词编码:
依序取每个字的首形字母码和尾形字母码,
首形字母码1+尾形字母码1+首形字母码2+尾形字母码2;
三字词编码:
依序取每个字的首形字母码和末字尾形字母码,
首形字母码1+首形字母码2+首形字母码3+尾形字母码3;
四字和四字以上词组编码:
依序取前三字的首形字母码和末字首形字母码,
首形字母码1+首形字母码2+首形字母码3+末字首形字母码;
(2)数字编码输入方式:
二字词编码:
依序取每个字的首形数码、尾形数码和末字的补形数码,
首形数码1+尾形数码1+首形数码2+尾形数码2+补形数码2;
三字词编码:
依序取每个字的首形数码和尾形数码,
首形数码1+尾形数码1+首形数码2+尾形数码2+首形数码3+尾形数码3;
四字和四字以上词组编码:
依序取前四个字的首形数码和末字尾形数码,
首形数码1+首形数码2+首形数码3+首形数码4+末字尾形数码;
(3)混合编码输入方式:
二字词编码:
依序取首字的首形字母码、尾形字母码和末字的首形字母码、尾形数码,
首形字母码1+尾形字母码1+首形字母码2+尾形数码2;
三字词编码:
依序取每个字的首形字母码和末字尾形数码,
首形字母码1+首形字母码2+首形字母码3+尾形数码3;
四字和四字以上词组编码:
依序取前三个字的首形字母码和末字首形数码,
首形字母码1+首形字母码2+首形字母码3+末字首形数码。
CNB2005100522197A 2005-01-31 2005-01-31 基于中文字母方式描述汉字轮廓特征的多元编码方法 Expired - Fee Related CN100514260C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100522197A CN100514260C (zh) 2005-01-31 2005-01-31 基于中文字母方式描述汉字轮廓特征的多元编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100522197A CN100514260C (zh) 2005-01-31 2005-01-31 基于中文字母方式描述汉字轮廓特征的多元编码方法

Publications (2)

Publication Number Publication Date
CN1815418A true CN1815418A (zh) 2006-08-09
CN100514260C CN100514260C (zh) 2009-07-15

Family

ID=36907646

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100522197A Expired - Fee Related CN100514260C (zh) 2005-01-31 2005-01-31 基于中文字母方式描述汉字轮廓特征的多元编码方法

Country Status (1)

Country Link
CN (1) CN100514260C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750008A (zh) * 2012-06-18 2012-10-24 申重学 汉字实用书写数字化输入法
WO2018161740A1 (zh) * 2017-03-09 2018-09-13 高晓明 汉字构字构件、形成的榫卯结构汉字系统及汉字输入方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750008A (zh) * 2012-06-18 2012-10-24 申重学 汉字实用书写数字化输入法
WO2018161740A1 (zh) * 2017-03-09 2018-09-13 高晓明 汉字构字构件、形成的榫卯结构汉字系统及汉字输入方法

Also Published As

Publication number Publication date
CN100514260C (zh) 2009-07-15

Similar Documents

Publication Publication Date Title
CN1040276A (zh) 简繁字根汉字输入技术及其键盘
CN1815418A (zh) 基于中文字母方式描述汉字轮廓特征的多元编码方法
CN1604017A (zh) 基于一健一字的汉字特征定位编码复合输入方法
CN1020052C (zh) 形元汉字信息处理方法及其键盘
CN1123819C (zh) 计算机汉字键位码输入方法
CN1317906A (zh) 移动通信与计算机信息处理中英文数字化输入集成系统
CN1166997C (zh) 汉字免拆分快速输入法
CN1150442C (zh) 一种根据汉字写字笔形结合笔顺编码的计算机汉字输入方法
CN1062797A (zh) 文字输入键盘及方法
CN1309342A (zh) 计算机汉字音形模糊输入法
CN1081355C (zh) 三音码计算机汉字输入方法及其键盘
CN1246759C (zh) 一种采用根素码的计算机汉字输入方法
CN1609765A (zh) 活字码中文字根输入法及其键盘
CN1421766A (zh) 汉字双笔码输入法
CN1240956A (zh) 汉字加减乘除输入法
CN1374577A (zh) 英文字母键盘和数字键盘通用汉字电脑输入法及其键盘
CN1156744C (zh) 元根码汉字输入方法
CN1317631C (zh) 整体拼形汉字输入法
CN1223503A (zh) 中英文输入方法及相关键盘
CN1059508C (zh) 中文电脑笔结编码输入法
CN1280696C (zh) 音形汉字电脑输入方法
CN1652067A (zh) 一种汉字计算机输入法
CN1267853A (zh) 字母汉字输入计算机的方法
CN1629786A (zh) 多语种输入方法和系统
CN1263295A (zh) 通用码汉字优选输入方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090715

Termination date: 20200131