CN1050680C - 汉字拼形计算机中文输入法及其键盘 - Google Patents
汉字拼形计算机中文输入法及其键盘 Download PDFInfo
- Publication number
- CN1050680C CN1050680C CN94111371A CN94111371A CN1050680C CN 1050680 C CN1050680 C CN 1050680C CN 94111371 A CN94111371 A CN 94111371A CN 94111371 A CN94111371 A CN 94111371A CN 1050680 C CN1050680 C CN 1050680C
- Authority
- CN
- China
- Prior art keywords
- code
- parts
- pen
- word
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 239000002023 wood Substances 0.000 claims description 4
- 239000002689 soil Substances 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 8
- 235000017166 Bambusa arundinacea Nutrition 0.000 claims 1
- 235000017491 Bambusa tulda Nutrition 0.000 claims 1
- 241001330002 Bambuseae Species 0.000 claims 1
- 241000272450 Cracidae Species 0.000 claims 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 claims 1
- 239000011425 bamboo Substances 0.000 claims 1
- 235000015170 shellfish Nutrition 0.000 claims 1
- 230000008676 import Effects 0.000 description 6
- 238000003325 tomography Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000759 time-resolved fluorescence anisotropy Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种汉字编码的计算机中文输入方法及其键盘,它利用普通英文小键盘的26个字母键,分别定义一个复笔码和一个部件码,输入方法是以汉字的笔画(复笔和部件)作为码元,而以汉字的结构(前部和后部)确定码位,三码定字,四码定词,构成以单字输入为基础、词汇输入为主体的中文输入体系。
Description
本发明涉及一种汉字编码的计算机输入方法及其键盘。
计算机中文输入是中文信息处理的基础,是在我国普及推广使用计算机的关键。目前国内外有近千种汉字输入编码方案,其中已有几十种得到推广使用,为我国计算机产业的发展起到了积极的推动作用。
但是,包括五笔字型、双拼双音、自然码等优秀编码在内的现有各种方案,都未能同时达到简单易学、科学规范、高速实用三位一体的要求。如五笔字型和郑码等形码字根过多、规则复杂,双拼双音等音码地区局限性大、单字输入困难,自然码等音形混合编码繁琐复杂、更难掌握。
本发明的目的就是为了解决上述汉字编码存在的问题,提出这样一种简单、规范、实用,以词汇输入为主、以单字输入为辅的纯拼形码,为研制各种汉卡、中文系统提出一个更好的输入方案。本发明不以单字为唯一研究对象,而是以中文为整体研究对象,是要反映中文以单字为基础、以词汇为主体这一客观规律,因此不是一般的汉字输入法,而是现有少数的中文输入法之一。
在现有的各种编码方案中,本发明的主要特点:(1)键盘设计最为简单,采用笔形与构件有机结合的输入方式,只用了26个构件;(2)汉字分布最为均衡,反映汉字分布均衡程度的二码实位率高达99.41%,三码单字重码率<20%,四码词汇重码率<10%;(3)词汇量大,共有2.4万个,是少数以词汇输入为主的实用编码之一;(4)规则简单、科学、规范,直观、判读快,既无汉字识读的障碍,又无汉字拆分的困难;(5)码长短,在不借助自造词、联想方式的情况下,平均码长只有2.2键/字(包括空格键)。
本发明的技术特征是利用普通英文小键盘的26个字母键,分别赋予特定的复笔码和部件码。所谓复笔,就是汉字有一丨丿∠五种单笔,由两个单笔组成的复合笔画即为复笔,本发明将汉字25个复笔分别安排在26个字母键上,其中丨和丨∠合并为一个复笔(L键),而将丿一和丿∠,依据是否与以外笔画相交叉,各分为两个复笔(Z、X键和N、M键)。所谓部件,是考虑到汉字分布的均衡、合理性和汉字取码的整体、直观性,而把26个汉字常用构件定义为部件。
汉字一般分为左右、上下、包围、连体四种基本结构。本发明将左右结构的左部、上下结构的上部、内起式包围结构的内部、外起式包围结构的外部称为前部;而将右部、下部、内起式的外部、外起式的内部称为后部。连体结构的字根据有无成字来分类,成字是指一个字的前部始笔(第一个复笔或部件)或后部末笔(最后一个复笔或部件)所在部分可以独立成字的笔画组合,有成字的连体字视为二部结构(成字为一部,其余为另一部)。
本发明规定二部结构的单字分部取码规则是:二部相断,一笔相连,部件整取,成字整算。
二部相断就是非连体二部结构的字,前后二部应处于可以断开的状态。大多数汉字只有一个断层就是现成的二部结构,不止一个断层的就先整合成字。所谓整合,就是以一个字的第一个单笔笔或末笔为基础,将靠近的几个笔画整理、合并成一个成字,目的是使全字可以分为二部。整合成字有两项要求:一是能大不小,就是尽量整合为相对笔画较多的字,只要保证另外一部不少于一个复笔;二是能近不远,就是一个字的中间部分,既可以作前部整合、也可以作后部整合的,要按关系就近整合。一个字既不止一个断层、又无法整合的,就按其第一断层来分部取码。
一笔相连就是挂单的笔画要就近挂靠,即按照书写顺序将一个单笔与前一单笔或后一单笔相连接,以构成一个复笔。一笔相连有两种情况:(1)一个单笔占有一部位置,如“乏”“旧”要按此规则处理,即不再成为二部结构,而作为无成字的连体字来取码。(2)一个单笔不占有一部位置,如“副”字的最前一个单笔一,要就近挂靠到“口”上;“修”字的中间一个单笔丨,要就近挂靠到前部。
部件整取就是在一个字取码时,有部件的要用部件取码,没有部件的再用复笔取码(要注意的是,部件以及成字与其它笔画之间可以是断开、连接或插入的关系,但不能是交叉关系,这一点与其它编码不同)。就部件与笔画的关系而言,部件整取分两类:(1)一个部件本身就是一个复笔,如“十”,这时不在复笔一丨所在键U上取码,而应在部件“十”所在键I上取码。(2)一个部件超过一个复笔,有两种情况:一个复笔的两个单笔都在一个部件上,就整取这个部件,如“日”、“大”等部件要作为一个整体来取码;一个复笔的前一单笔在一个部件上,而后一单笔与部件以外笔画相连接,也整取这个部件,如“可”的末笔不按习惯取一∠,而是取“口”。如果后一单笔与其它笔画不相连接,就接一笔相连的规则处理。如“但”的末笔不是取“日”,而是取一一。有些字的部件不是连续笔画,此时除了部件整取外,部件上的笔画一般不予重复,除非部件以外只有一个单笔。如“成”字,先取“戈”并以此为始笔,末笔则是其余部分的一个复笔丿∠,而不是“成”字原来的末笔丿。而“戊”字,在整取了“戈”以后,其余部分只有一个单笔丿,此时 就要按照就近挂靠的办法,从“戈”上借取一个单笔一,以构成一个复笔。
成字整算就是一个字里有成字,分部时要作为一个整体算作一部。确定成字整算的规则有两点意义:一是可将多重结构整合成二部结构,二是可将有成字连体字划分为二部结构。部件整取与成字整算这两项规则,虽然都是把部件和成字看作为整体,但有着三个方面的不同:(1)部件可以在一个字的任何位置,成字则只能在一个字起始或最后的位置;(2)部件整取的目的是考虑部件的整体性,成字整算的目的则是考虑分部的需要;(3)部件可以向部件以外的部分借出笔画,成字由于自成一部则不能做到这一点。
本发明的单字输入,由首码、中码、尾码三码构成。二部结构单字的一般取码形式为:前部始笔+后部始笔+后部末笔。如“经”的首码为前部始笔∠∠(T),中码为后部始笔∠(R),尾码为后部末笔丨一(H),即以TRH输入;“济”的首码为(F),中码为一(A),尾码为丿丨(C),即以FAC输入。
上面是二部结构的一般取码形式。还有少数二部结构的单字,因后部笔画不足,而采取了特殊取码形式:①后部只有三个单笔的,中码和尾码作单笔重合取码,即中码的后一单笔同时是尾码的前一单笔。如“材”的首码取“木”,中码取一∠,尾码则取∠丿,即JPE。②有些字后部虽然不止三个单笔,但由于部件整取的需要,剩下一个单笔,这时中码和尾码也作单笔重合取码,如“汰”的中码取“大”,尾码则取;而“沃”的中码取丿一,尾码取“大”。③后部只有两个单笔(即一个复笔或部件)的,又分两种情况:一个字的前部不止一个复笔(部件),那么这个字的中码不在后部取,而向前部借位取码,就是把前部末笔作为中码。如“利”的首码取丿一,中码依此形式取部件“木”,尾码取丨∠;“春”的首码取一一,中码则取丿,尾码取部件“日”;一个字不仅后部只有一个复笔(部件),而且前部也只有一个复笔(部件),这时中码不再向前部借位取码,而是中码与尾码作复笔重合取码,即取相同的码。如“机”的首码取“木”,中码、尾码均取丿∠,即JMM;“尖”的首码取“小”,中码、尾码均取“大”,即SXX。
无成字的连体字取码形式为:始笔+次笔+末笔,次笔就是始笔之后的第二个复笔或部件。如“本”的始笔为一丨,次笔为部件“八”,末笔为丿一,即UDA。
另外不管属于什么结构,单笔只有1-3个的汉字,称之为简笔字,其取码形式是先将每个单笔都作复笔处理后取码,如“才”以YTV输入,“亿”以VJT输入。
26个部件无论是成字还是部首,取码形式都是全重合取码,即首、中、尾三码相同,如“土”以OOO输入,“大”以XXX输入。
单字重码依据各字的一般使用频率,高的用空格键(或数字键1)直接输入,低的用数字键输入(2、3,至多7)。
与不少汉字输入方案一样,二部拼形也用简码形式来输入单字。事实上,本发明的单字输入,就相当于一般汉字输入法的三级简码。本发明的一级简码26个,全部为特高频字,输入形式是首码加空格;二级简码672个,基本为国标一级字,输入形式为首码、中码加空格。
本发明以词汇输入为主,以单字输入为辅,反映了汉语文章中词汇占绝大部分的特征。词汇输入的形式有这样几种:二字词依次取第一、二字的首码和中码,如“经济”以TRFA输入,“希望”以AIAY输入;三字词取第一字的首码、中码和第二、三字的首码,如“国务院”以LYNW输入,“办公室”以EDDE输入;四字词依次取第一、二、三、四字的首码,如“取长补短”以UZGX输入,“特此通知”以ZHRX输入;多字词依次取第一、二、三字和最后一字的首码。如“中华人民共和国”以LCWL输入,“国民生产总值”以LQZC输入。
Claims (3)
1.一种汉字拼形计算机中文输入法,包括如下步骤:
利用构成汉字的横、竖、撇、捺、折5种基本笔画组合为25个复笔;一一 一丨 一丿 一 一∠ 丨一 丨丨 丨丿 丨 丨∠丿一 丿丨 丿丿 丿 丿∠ 一 丨 丿 ∠∠一 ∠丨 ∠丿 ∠ ∠∠
考虑编码的均衡性和取码的直观性,将汉字的26种构件作为汉字编码的部件:
虫 人 宀 竹 匕 戈 寸 十 土 日
× 小 八 心 辶 扌 木 口 贝
足 大 鸟 山 艹 月 夕
将上述复笔和部件分别对应定义到通用计算机键盘的相应键位上,其中复笔丨和丨∠合并定位于L键,复笔丿一和丿∠则按与其它笔画是否交叉,分别定位于Z和X键、M和N键。
根据汉字左右结构有左与右、上下结构有上与下、包围结构有包围与被包围两部分,连体结构多数有成字与非成字两部分,将一般单字分为前后二部,其输入采用三码定字法,即依次取汉字的首码、中码、尾码,利用所述键盘上的相应键位输入,其中:
一般汉字以前部始笔为首码、后部始笔为中码、后部末笔为尾码,始笔、末笔均指复笔或部件;
后部笔划不足两个复笔或部件的汉字,其输入分四种情况:后部只有三个单笔,中间的单笔既与前一单笔构成中码,又与后一单笔构成尾码;后部只有一个部件和一个单笔,整取部件为一码,而以单笔与部件中一个相邻笔画构成的复笔为另一码;后部只有一个复笔或部件,而前部不止一个复笔或部件,以前部末笔为中码,后部的一个复笔或部件为尾码;后部和前部均只有一个复笔或部件,则前部的复笔或部件为首码,后部的复笔或部件既为中码,也为尾码。
对于不能分部的单字,无成字连体字分别以始笔、次笔、末笔为首、中、尾码,在相应键位输入,只有1-3个单笔的汉字以单笔为复笔在相应键位输入,26部件在相应键位以同码输入。
编码将26个特高频字作为一级简码,取其首码在相应键位输入;将672个高频字作为二级简码,取其首码、中码在相应键位输入,其中一级简码与键位对应为:
A这 B爱 C的 D为 E好 F学 G说 H把 I不
J上 K口 L中 M多 N各 O地 P是 Q那 R以
S当 T了 U要 V个 W人 X大 Y一 Z和
2.根据权利要求1所述的计算机中文输入法,还包括四字定词法,其中:二字词的输入法是依次取第一字的首码、中码和第二字的首码、中码,三字词的输入法是依次取第一字的首码、中码和第二、三字的首码,四字及四字以上词的输入法是依次取第一、二、三、末字的首码。
3.一种以权利要求1所述计算机中文输入法为基础输入汉字的计算机键盘,其特征是所述复笔和部件与计算机26个字母键的对应关系如下:A键:复笔一和部件× B键:复笔丿和部件艹C键:复笔丿丨和部件鸟 D键:复笔丿和部件八E键:复笔∠丿和部件宀 F键:复笔和部件心G键:复笔∠和部件辶 H键:复笔丨一和部件扌I键:复笔一丿和部件十 J键:复笔丨丨和部件木K键:复笔丨和部件口 L键:复笔丨∠和部件贝M键:复笔丿∠和部件夕 N键:复笔丿∠和部件月O键:复笔一和部件土 P键:复笔一∠和部件日Q键:复笔∠一和部件虫 R键:复笔∠和部件竹S键:复笔丨和部件小 T键:复笔∠∠和部件匕U键:复笔一丨和部件寸 V键:复笔丿丿和部件山W键:复笔∠丨和部件人 X键:复笔丿一和部件大Y键:复笔一一和部件戈 Z键:复笔丿一和部件足
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN94111371A CN1050680C (zh) | 1994-06-29 | 1994-06-29 | 汉字拼形计算机中文输入法及其键盘 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN94111371A CN1050680C (zh) | 1994-06-29 | 1994-06-29 | 汉字拼形计算机中文输入法及其键盘 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1109184A CN1109184A (zh) | 1995-09-27 |
CN1050680C true CN1050680C (zh) | 2000-03-22 |
Family
ID=5035250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN94111371A Expired - Fee Related CN1050680C (zh) | 1994-06-29 | 1994-06-29 | 汉字拼形计算机中文输入法及其键盘 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1050680C (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN85103321A (zh) * | 1985-04-25 | 1986-05-10 | 崔巍 | 汉字非编码字根输入法 |
CN87100555A (zh) * | 1987-02-01 | 1988-08-24 | 霍象新 | 双笔顺计算机汉字输入方案及其键盘 |
-
1994
- 1994-06-29 CN CN94111371A patent/CN1050680C/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN85103321A (zh) * | 1985-04-25 | 1986-05-10 | 崔巍 | 汉字非编码字根输入法 |
CN87100555A (zh) * | 1987-02-01 | 1988-08-24 | 霍象新 | 双笔顺计算机汉字输入方案及其键盘 |
Also Published As
Publication number | Publication date |
---|---|
CN1109184A (zh) | 1995-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1050680C (zh) | 汉字拼形计算机中文输入法及其键盘 | |
Weiss | The pattern of numerical sequence in amos 1-2: A re-examination | |
CN1339733A (zh) | 计算机汉字汉易码输入方法及键盘 | |
CN1051798A (zh) | 计算机汉字音形输入方法 | |
CN100405264C (zh) | 基于一键一字的汉字特征定位编码复合输入方法 | |
CN1115618C (zh) | 汉字阴阳双极形码输入系统 | |
CN1111775C (zh) | 二笔画输入法 | |
CN1077550A (zh) | 左部优先汉字音形码输入方法 | |
CN1206582C (zh) | 汉字输入法 | |
CN102043469A (zh) | 两笔型三维数码输入法及其键盘 | |
CN1139773A (zh) | 《有理键盘》和《中心码》汉字编码系列 | |
CN1115616C (zh) | 计算机彝文字输入方法及其键盘 | |
CN1025464C (zh) | 汉字双笔码计算机输入方法 | |
CN1074147C (zh) | 一种五码汉字输入法 | |
CN1159639C (zh) | 基于四角号码和字根的汉字输入法及其键盘 | |
CN1297179A (zh) | 结构数码汉字输入方法 | |
CN1306241A (zh) | 字形笔顺码汉字输入系统及其键盘 | |
CN1035369A (zh) | 《三元一体》汉字编码输入方法 | |
CN1064757A (zh) | 通用双拼键盘输入系统 | |
CN1234545A (zh) | 汉字音形码计算机键盘输入法 | |
CN1179568A (zh) | 形声四角汉字输入技术 | |
CN1160880A (zh) | 一种汉字输入法 | |
CN1256452A (zh) | 三元声形计算机汉字输入方法及键盘 | |
CN103616961A (zh) | 音素t形汉字码输入法 | |
CN101571750A (zh) | 标准汉字码输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |