CN1009586B - 计算机汉字词字二分拼形输入方案 - Google Patents

计算机汉字词字二分拼形输入方案

Info

Publication number
CN1009586B
CN1009586B CN 85100382 CN85100382A CN1009586B CN 1009586 B CN1009586 B CN 1009586B CN 85100382 CN85100382 CN 85100382 CN 85100382 A CN85100382 A CN 85100382A CN 1009586 B CN1009586 B CN 1009586B
Authority
CN
China
Prior art keywords
code
chinese
word
character
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
CN 85100382
Other languages
English (en)
Other versions
CN85100382A (zh
Inventor
田志祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN PROVINCE INSTITUTE OF COMPUTING TECHNOLOGY
Original Assignee
HUNAN PROVINCE INSTITUTE OF COMPUTING TECHNOLOGY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUNAN PROVINCE INSTITUTE OF COMPUTING TECHNOLOGY filed Critical HUNAN PROVINCE INSTITUTE OF COMPUTING TECHNOLOGY
Priority to CN 85100382 priority Critical patent/CN1009586B/zh
Publication of CN85100382A publication Critical patent/CN85100382A/zh
Publication of CN1009586B publication Critical patent/CN1009586B/zh
Expired legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

一个计算机汉字拼形输入方法,本发明通过字根静态和动态频率统计,筛选出128个高频字根,两两搭配成64个字(绝大部分为高频和常用字),每两个字又搭配成一个常用双音节词(少量是谐音的),一共32个词,这32个词有规律地配置在国际标准英文键盘的下三列键位上,用作通用汉字输人计算机的码元。记住这32个词。就基本上记住了全部字根码元。取码遵循汉字的结构规律和书写习惯,规则简单,易学、易找、易记、重码少、误码少、操作方便,有容错能力,尤适用于一般用户。

Description

本发明是一种用于计算机信息处理的汉字编码输入方法。
国内外现有汉字编码方案500多种,可分为流水码,拼音码、拼形码、音形结合码四大类型。
流水码有四位数字电码(即中华人民共和国邮电部编《标准电码本》)、三位英文字母电码和其他各种专用电码。流水码都是任性规定的,代码与汉字的属性没有内在的联系,必须死记硬背,操作者必须经过长期的职业训练,不适应电子计算机的推广和普及。
我国1958年2月11日正式公布的《汉语拼音方案》,加上适当的同音字区别手段,可用作计算机汉字输入方案,比如南开大学李约瑟设计的《汉语普通话新文字电脑Ⅱ型》、英国“大文豪第二型中英文处理系统”(SCHOLAR    Ⅱ    Chinese/English    Text    Processor)就是采用《汉语拼音方案》加上联词、定调、同音字选择键等手段来输入汉字的。这种编码输入法,受过良好汉语拼音教育的人都能操作,但输入效率低,有时光输入一个音节要击6键,加上调号和同音字选择等,多达七、八键才能输入一个汉字。
为了克服音素制的《汉语拼音方案》输入效率低的缺点,扶良文创造了《双拼对字方案》,只用26个单字母既表示了21个声母,又表示了36个韵母。加上“声调×起笔”的对字字母,其简约式最多只用3个字母就能表示一个汉字。但是懂得汉语拼音的人也得从头学起,一个字母表示2~3个音值不如原拼音方案好记;同时重码字太多,必须附加别的手段才能在机器上实现。毕业于华南工学院的林才松等设计的FMB汉字词处理系统,是一个《汉语拼音方案》双打输入方式,输入一个单字最多只要4码,而且输入一个词汇码能够输出词的一串汉字,既不要重新学习一套拼音字母,又能大幅度提高效率。但是操作者得掌握一套以单词为基元的拼音编码规则,同时还要记住数以万计的单词中那些是最常用词、常用词、次常用词、罕用词、同音词等等。
拼形码又可分为笔形码和字根码两类。北京师范大学李金铠的《汉字笔形编码法》和澳大利亚墨尔本大学教授芦遂现博士的“基本笔画编码法”用为数不多的笔画和笔画组合作码元,易于学习,但输入效率低,前者一字最多要击8键,后者一字多达12键。
美国王安实验室采用的、由胡立人等研制的“三角编码”,以300个字根(包括笔画)作码元,分成99组,每组用一个二位十进数表示,取码按“Z”字形路线从汉字的左上角取到右下角,每字皆取三个角号(即6位数字),不足者补“0”。用国际标准键盘为6位等长码;若另做中键盘,码长可压缩到3位。汉字的拓扑结构很复杂,不能生硬搬用“四角”的概念来描述,有人统计该方案的码元分布位置只有30%勉强符合角号的含义,其他情况只 好用反常规则编码,(周逸奇等:《浅评王安编码》中国中文信息研究会成立大会论文1981.6)。
台湾朱帮复的“仓颉中文字母”编码法,选取24个高频字根为主字母,分别用24个英文字母表示,每个主字母包含1~6个辅字母或变形字母。取码按写字的次序,由外到里,由上到下,由左到右。码长2~5位(包括间隔符)。
河南省南阳地区科委王永民的“五笔字形汉字编码方案”,把汉字的五种基本笔形和4种拓扑图形各赋予一个数字代号:
并通过字根实用频率统计,选取了165个基本字根和70来个副字根作码元,分成25组,每组用一个两位数字作代号;另设识别码20个,由汉字末笔的5种笔形代号与4种拓扑图代号交叉构成。按字根在汉字中的出现位次一一首次次尾取码,一字最多4码,不足4码者追加一识别码。为了提高输入速度和降低重码,另设626个简码和2100个词汇码。
上海仪器仪表研究所总工程师支承彝的“见字识码”方案和邮电部数据通讯研究所郭淑珍的“声韵部形编码方案”,是比较典型的音形结合码。前者以字根为单元取码,而字根的代码则是这个字根(或关系字)的汉语拼音的第一个字母。每字编码都是4位,取法有5种,大体上是先找出每个字的4个特征字根,然后依汉语拼音的首字母编码;少于4个字根的,重复取其中的特征字根;超过4个字根用“前拼后折”的方法省略。后者每字最长取4码,第一码为声,第二码为韵,第三码为按字义分类的部首码,第四位为形码(5种起笔笔形×5种基本部首)。这个方案既要懂拼音,又要记字根,还要晓得事物的分类知识等等。
拼音码要求操作者谙熟拼音知识,能讲比较标准的普通话。笔形码码长难于限制、输入效率低,为减少重码非制订一些死记硬背的反常码不可。字根拼形码不受方言限制,输入效率高,但码元多,绝大多数是离散型的,缺乏内在联系,记忆困难,背熟了也容易回生。拼音和拼形相结合的音形码,把两者的缺陷集于一身,对操作者的要求更高。因此,目前国内外编码方案虽多,但一般很难推广应用。本发明的目的是为普通工作人员(指非专业操作者)提供一个容易掌握的,而效率不低于其他方案的普及型计算机汉字输入方案。
本发明把128个高频字根集约成64个常用字,并两两搭配成双音节常用词(部分是谐音的),有规律地配置在国际标准英文键盘下三列32个键位上,作为通用汉字的输入码元。
本发明不落传统拼形方案的窠臼,在键面体现的是一个一个由整字构成的人们记熟用惯了的常用双音词,字根就蕴含在词的中间,字根的联系是有机的,使方案兼具了大、小键盘的优点。同时本方案运用了与众不同的析取重码因素和考察构字重合率等思想,使方案设计更趋科学合理。
字根码元不是作者主观臆造的,而是经过严密的静态频率统计筛选出来的高频字根;整字和单词也不是简单的凑合,而是在常用的前提下,通过重合率统计把重码机会少的字根搭配成字和词;单词码元也不是随意安排在键面上的,而是经过码元动态频率的计算,把它们配置在适当的键位上。如附图所示。
上机输入汉字时遵循下述规则:
1、每字最长四码,顺次连取,从大,从整,“割尾巴”。
从大-在同时有两种取法时,选择最大的码元。例如“生”取“牜5-”,不取“丿-土”和“丿三丨”。
从整-在从大取码时,不破坏前后码元的完整性。例如“朱”取“3木3”,不取“牛八”。
“割尾巴”-四码取不尽的繁复汉字,四码之后的信息不取。例如“麓”取“木木广乛”。
2、第一码元用一次击一键;第二、三、四、五、六码元独立成字或出现在二根字中需加击区别键,三根以上的字一律不加击区别键。例如“牛”取“牛5”、“牯”取“牛5古6”、“牲”取“牛牛一”、“犟”取“弓口虫牛”。
3、不足四码者,加击空格键;取足4码者不需要击空格键。
4、连击两次空格键为中西文转换标识符,用于中西文字更替的时候。
本发明有如下特点:
1.易学。码元都是人们很熟悉的笔画、字 根、合体字,没有生造的奇异结构。取码和取码顺序遵循汉字本身的结构规律,规则简单,一律无变通用法。用户只要具有初中语文知识,略经讲解或看看《说明书》即可操作。
2.易找。所有码元集合成64个常用两折合体字,并搭配成32个常用双音节词,制成键帽,清晰直观、一览无余。初学者能够在键面上较容易地找到所需要的码元,然后逐步记熟所有码元的位置。
3.易记。可以充分利用词、字的相关信息集中记忆。记住了32个词,也就记住了64个字;记住了64个字,也就记住了所有码元,而且经久不忘。
4.误码少。绝大多数码元是构字能力强、使用频率高的字和字根,80%左右的通用汉字可直接用键面字根和整字码元拼形输入,少量通用汉字才用到笔画码元,这样可以充分利用汉字的信息量、减少繁复汉字的输入难度和误码概率。编码本除给出标准码外,还给出了容错码,即使操作者输入小错,也能输出正确结果。
5.重码少。本方案采用了析取重码因素的手段,成功地降低了重码。
6.操作方便。利用国际通用英文键盘前三列32个字符键输入,所耗内存跟26键方案相等;操作者时手掌也不需要移动,熟练后可以盲打。跟26键方案一样便捷。码元是按各自的动态频率配置在适当键位上的,同时兼顾了人们输入汉字时的心理反映过程,有利于操作时大脑与十指协调工作。
7.容易扩充。本方案在初拟时就考虑了词汇码的兼容问题,留有足够的“有理空间”(即有规律,不要死记的编码空间),作为公共或用户自定义词汇码的编码区域,以便大幅度提高输入效率。
附图为本发明键面码元配置图。
附图说明:
1.图中每一键位都置一常用词。每个词都蕴含着6个码元,而且都能按照词字二分的原则展成一个自然的线性序列。例如“是的”一词可展成:
码元:是    的    日    疋    白    勺
序号:1    2    3    4    5    6
任一键位的码元按其线性排列的序号,分别叫做第一码元、第二码元,……第六码元。
2.第一列键外标注的数码分别为对应码元的区别符,即“2”为第二码元的区别符,“3”为第三码元的区别符,……,“6”为第六码元的区别符。
3.基本笔画暗含在第一列的另外五个键位上,“一”、“丨”、“亅”、“丶”分别以“丕”、“鸭”、“外”、“被”的第一笔为标志,“乛”以“医”的第二笔为标志。
计算机厂家或用户可根据自己的需要,选择一种或数种西文计算机,把按照附图印刷的塑料薄膜键帽粘贴在所选机种的输入键盘上(当然也可以自行设计制造一种与主机相对独立的汉字输入终端)。另外配置一个硬汉字库和一台汉字打印机(也应根据需要选型);在原西文操作系统的基础上,建立与之兼容的中文操作系统,在不损害原西文操作功能的前提下,实现汉字的输入、输出。若必要可以进一步开发一些汉字信息处理的应用软件。这样就可以把西文计算机改造成普及型中西文兼容信息处理机。上机时,按照输入规则输入汉字编码即可。

Claims (1)

1、一种计算机汉字字根拼形输入方法。其特征是用128个高频字根“竹、毛、小、大、金、内、工、贝、文、辶、木、儿、彐、火、水、可、石、广、立、十、廿、古、囗、玉、宀、豕、扌、爪、冂、乂、令、页、已、寸、阝、且、、止、巾、佳、才、攵、目、艮、尸、由、西、女、革、斤、广、月、鱼、里、日、疋、白、勺、八、刀、纟、及、礻、土、又、戈、言、方、门、口、人、七、舟、皿、彳、亍、云、力、心、鬼、雨、田、山、已、犭、尤、甲、鸟、臼、儿、不、一、气、米、弋、二、羊、羽、厶、三、车、甫、马、四、弓、长、亻、五、酉、干、亠、八、饣、耳、夕、卜、开、彡、衣、皮、虫、夫、匚、矢、疒、了”,两两搭配成64个常用字。每两个字又搭配成一个双音节词(少量是谐音的),共32个,有规律地配置在标准英文键盘的下列键位上,用作通用汉字输入计算机的码元。具体对应方法是:A眼届、B驷张、C式翔、D有锂、E这次、F是的、G分级、H社戏、I抓冈、J访问、K仓盘、L行动、M六饵、N伍酐、O领导、P阻趾、Q笔尖、R机灵、S要靳、T河矿、U国家、V叁辅、W钠汞、X不气、Y辛苦、Z鸭儿,<外形,>被蚨、?医疗,:愧雷,“岂犹、{帷牧;每个汉字最长取四码,顺次连取,从大,从整,“割尾巴”,第一码元用一次击一键,第二、三、四、五、六码元独立成字时加击区别键,区别键就是它们各自的序号;
不足四码者,加击空格键,取足四码者不需击空格键;连击两次空格键为中西文转换标识符。
CN 85100382 1985-04-01 1985-04-01 计算机汉字词字二分拼形输入方案 Expired CN1009586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 85100382 CN1009586B (zh) 1985-04-01 1985-04-01 计算机汉字词字二分拼形输入方案

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 85100382 CN1009586B (zh) 1985-04-01 1985-04-01 计算机汉字词字二分拼形输入方案

Publications (2)

Publication Number Publication Date
CN85100382A CN85100382A (zh) 1986-08-20
CN1009586B true CN1009586B (zh) 1990-09-12

Family

ID=4791115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 85100382 Expired CN1009586B (zh) 1985-04-01 1985-04-01 计算机汉字词字二分拼形输入方案

Country Status (1)

Country Link
CN (1) CN1009586B (zh)

Also Published As

Publication number Publication date
CN85100382A (zh) 1986-08-20

Similar Documents

Publication Publication Date Title
CN100462901C (zh) Gb拼音输入法
CN100498661C (zh) 汉字2码全拼输入法
CN1009586B (zh) 计算机汉字词字二分拼形输入方案
CN1116335A (zh) 一种利用笔写屏技术的汉字输入系统
CN1125393C (zh) 利用计算机键盘汉字编码输入方法
CN102043469A (zh) 两笔型三维数码输入法及其键盘
CN1022350C (zh) 汉字字母编码输入法
CN1136493C (zh) 一种汉字输入方法
CN1219245C (zh) 一二三汉字输入法
CN1108553C (zh) 通用普及型音元形音汉字编码输入方法
CN1243300C (zh) 计算机汉字三笔数码输入法
CN1046807C (zh) 结构化识别汉字信息盘及随意汉字输入法
CN1558310A (zh) 汉字辅元音形码输入法
CN1042017A (zh) 结构笔画四位数编码法及键盘
CN103186242B (zh) 中华键盘
CN1088864C (zh) 一种拼形字母的汉字输入方法
CN1332402A (zh) 字词句万能组合汉字输入法
CN1068203A (zh) 音形义字词兼容编码系统与键盘
CN1160243A (zh) 字形笔顺码汉字输入系统及其键盘
CN1046402A (zh) 形音符汉字、符号编码法及其键盘
CN1010988B (zh) 汉字输入方法及其所用键盘
CN1306241A (zh) 字形笔顺码汉字输入系统及其键盘
CN1288186A (zh) 一种电脑汉字输入码
CN1141448A (zh) 一种拼音笔画汉字输入方法及其所用键盘
CN1098212A (zh) 五笔划组合形声编码汉字输入系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C13 Decision
GR02 Examined patent application
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication