CN101086687A - 一种首末码汉字输入方法 - Google Patents

一种首末码汉字输入方法 Download PDF

Info

Publication number
CN101086687A
CN101086687A CN 200710035393 CN200710035393A CN101086687A CN 101086687 A CN101086687 A CN 101086687A CN 200710035393 CN200710035393 CN 200710035393 CN 200710035393 A CN200710035393 A CN 200710035393A CN 101086687 A CN101086687 A CN 101086687A
Authority
CN
China
Prior art keywords
stroke
radical
word
code
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200710035393
Other languages
English (en)
Other versions
CN100465862C (zh
Inventor
刘飞林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNB200710035393XA priority Critical patent/CN100465862C/zh
Publication of CN101086687A publication Critical patent/CN101086687A/zh
Application granted granted Critical
Publication of CN100465862C publication Critical patent/CN100465862C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种首末码汉字输入方法,其选定字根为100-130个,定义在通用键盘的字母键及选定的标点符号键上;编码规则:首先按照笔顺以字的在首笔画实行首码字根最大化;并用未取笔画按倒数顺序以末笔实行末码字根最大化;接着用未取笔画按笔顺实行第二码字根最大化;然后用未取笔画按笔顺实行第三码字根最大化。在编码过程中,编码按顺数码位排列,而在实现字根最大化时,则按首码、末码、第二码、第三码的次序进行,在发生被取码笔画相矛盾时,后者依次让前者。本发明汉字拆分较易,重码率低,直观,易记,好学。

Description

一种首末码汉字输入方法
                          技术领域
本发明涉及一种汉字输入方法,尤其是涉及一种用于计算机、手机等电子定义备的拼形类汉字输入法。
                          背景技术
目前,用于计算机、手机等电子定义备的汉字输入法,大致有拼形类、拼音类、音形类、形音类、数字类等。
中国专利85100837号公开的《优化五笔字型编码法及其汉字输入键盘》是拼形类的一个代表,重码率较低,包括其它一些人们熟知的拼形类汉字输入法在内,还存在以下缺陷:(1)需记忆大量的字根,需要太多强制记忆,较难掌握;(2)汉字拆分难度大,难以准确认定;(3)忘得快,这些拼形类汉字输入法完全是硬性确定某字的编码是什么,按其本身的编码方法使人容易在可能出现的几种汉字分拆的情况下作出错误的选择;(4)有些输入法重码较多,主要表现为两个方面,有的编码方法重码总数太多,有的在较多的重码中,一个重码包含较多重码字,多的可达8个以上,且没有对所有规范汉字进行编码,编码不能容纳较多词组。
中国专利98101731.2号公开的《大自然汉字键盘及其输入方法》是音形类的代表,其除使用26个字母编码以外,还需使用其他符号编码,符号代表的字根难以掌握,影响输入效率。
                          发明内容
本发明的目的在于提供一种取码直观,较易记忆,重码率低,且输入效率较高的首末码汉字输入方法。
本发明的目的是通过以下技术方案实现的:
(一)字根选择规则:(1)以常用汉字的偏旁、部首,或出现频率较高的笔画型(如“_”、“_”等),作为字根;
(2)为便于实现编码字根最大化,降低汉字分解难度的偏旁、部首、笔画型,作为字根,如“矛”、“巫”、
Figure A20071003539300081
、“爪”、“求”、 “尸”、“卩”、
Figure A20071003539300083
等;
(3)将组字能力极低的偏旁或部首(如
Figure A20071003539300084
Figure A20071003539300085
等),予以淘汰,不作为字根;
(4)将有两种或多种“变形”的偏旁、部首或笔画型,归入同一个字根,例如:西(覀)、四(罒)、雨
Figure A20071003539300086
、月
Figure A20071003539300087
Figure A20071003539300088
、几(_、 如“微”字中)、又
Figure A200710035393000810
纟(纟,如“辔”字中)、小
Figure A200710035393000811
、亅(
Figure A200710035393000812
,如“豹”字中)、冂
Figure A200710035393000813
、人
Figure A200710035393000814
、八
Figure A200710035393000815
、火
Figure A200710035393000816
Figure A200710035393000817
(
Figure A200710035393000818
“如偏旁“衤”中、如“飞”字中、如“鄹”字中)、_(
Figure A200710035393000819
如“站”字中)、
Figure A200710035393000820
(
Figure A200710035393000821
,如“豢”字中)、木(
Figure A200710035393000822
Figure A200710035393000823
如“新”字中)、车
Figure A200710035393000824
足(_)、禾 土(_)、竹(_)、牛
Figure A200710035393000826
卩(
Figure A200710035393000827
,如“卫”字中)、儿(
Figure A200710035393000828
,如“羌”字中;
Figure A200710035393000829
,如“辉”字中;
Figure A200710035393000830
,如“尬”字中)、尸(
Figure A200710035393000831
,如“君”字中)、求(
Figure A200710035393000832
,如“裘”字中)、水(氺,如“录”字中;
Figure A200710035393000833
,如“暴”字中;
Figure A200710035393000834
,如“犀”字中)匕
Figure A200710035393000835
如“化”字中)、
Figure A200710035393000836
(
Figure A200710035393000837
,如“贯”字中)、王(
Figure A200710035393000838
、王,如“全”字中,上“横”比第二“横”短)。
但在编码当中,不能将“刀”类推为字根“_”,将“_”类推为字根“卩”。
除以上情况外,还有一些在取码笔画最大化当中,结构形态相近的笔画型,归入结构形态相近的字根:如“殳”字中的
Figure A200710035393000839
归入字根“几”,“凹”字中的
Figure A200710035393000840
归入字根“冂”,“身”字中的
Figure A200710035393000841
归入字根“月”,“即”字中的
Figure A200710035393000842
归入字根“厶”,“敝”字中的
Figure A200710035393000843
归入字根“_”,“脸”字中的“_”归入字根“_”,“业”字中的“_”归入字根“_”(“业”字中的笔画型“_”,“点”、“撇”和“横”之间有间隙),“良”字中的
Figure A200710035393000844
归入字根
以上列出的字根,不能作类推,如不能以“尹”字中
Figure A200710035393000846
看作“尸”的“变形”;“卫”字中
Figure A200710035393000847
可看作“卩”的“变形”,而类推“乌”字中的笔画型 可看作
Figure A20071003539300092
;不能以“贯”字中
Figure A20071003539300093
可看作
Figure A20071003539300094
的“变形”,而类推“缘”字中
Figure A20071003539300095
也为字根
Figure A20071003539300096
(5)将组字能力较低的偏旁或部首归并入其他形态相近似的字根,如没有定义字根“夂”,“条”字首取字根为“_”,而“复”字末取字根为“又”;没有定义字根“广”,“广”字首取字根为“亠”,“扩”字末取字根为“厂”。
没有作为字根的偏旁、部首,其笔画都将归入“一”、“丨”、“丿”、“丶”、“乙”这些基本笔画。
按照以上规则选定字根,数量宜为100-130个,优选105-120个。
(二)字根键位布置规则:(1)按照组字能力确定,组字能力≥100字的在首偏旁字根(如“氵”、“廾”、“口”“木”、“扌”、“亻”等),尽可能处在不同键位里,并兼顾各码位的容量平衡,以降低重码率,如把字根“辶”安排在字根“氵”所在键位里(因两者一个在字首,一个在字末,是不会发生重码的)。
(2)当把组字能力≤100的在首偏旁字根安排键位时,既考虑是否和键位里主要在首偏旁有较多同部首而发生重码,也考虑是否有笔画形态相近问题(如把字根“口”安排在字根“口”所在键位里,会发生27个重码;改把字根“口”安排在字根“目”所在键位里就会相应减少些)。
(3)组字能力≥100的在末部首字根尽可能处在不同键位里,但可与主要在首偏旁安排在同一键位。
(4)为便于记忆,尽可能将字根定义在与主要字根(键名字根)名称“近声”或“近形”的字母键位上,如“丶”的名称读音含有声母“D”,故定义在“D”键上;“木”读音含有声母“M”,故定义在“M”键上,“氵”名称读音含有声母“sh”,故定义在“S”键上;以此类推,“土”定义在“T”键上,“日”定义在“R”键上,“忄”定义在“X”键上,“竹”定义在“Z”键上;“目”近形于“E”(检测眼睛视力的图形),定义在“E”键上;“钅”近形于“W”(象金元宝),定义在“W”键上;“艹”近形于“Y”(象草),定义在“Y”键上;“口”近形于“O”,定义在“O”键上;“阝”近形于“P”,定义在“P”键上;“女”字近形于“V”,定义在“V”键上;“冂”近形于小写“N”(n),定义在“N”键上;“乙”近形于“G”,定义在“G”键上;“丿”近形于“J”,定义在“J”键上等;“一”近形于“F”(“F”含有两“横”),定义在“F”键上。
(5)尽量使各点击对应键位的手指工作量基本平衡,如包含字和词较少的键位“B”键,就能减轻左食指工作量(因左食指需点击六个键位);如包含字和词较少的键位“N”键,就能减轻右食指工作量(因右食指需点击六个键位)。
(6)为提高输入效率,将含有“一”、“丨”、“丿”、“丶”“乙”五种使用频率高的基本笔画的字根,定义在最方便食指、中指点击的键位上;更进一步,将组字能力≥300的偏旁所在的字根定义在最方便食指、中指点击的键位上。
(7)尽可能布置在各字母键上,但为减少重码,除各字母键外,也可启用少量其它字符键,例如使用率较低的标点符号键“:”键和“?”键等。
本发明也适用于数字键盘的汉字输入,此时,所述字根自然应当定义在数字键上。
另外一个改进方案是,增设“重码键”:将键盘上的空格键位置一分为二,左为重码键,当出现重码时,可在输入编码后补击重码键,以提高输入效率;右为空格键。
(三)取码编码规则:
首先按照笔顺以字的在首笔画实行首码字根最大化;并用未取笔画按倒数顺序以末笔实行末码字根最大化;接着用未取笔画按笔顺实行第二码字根最大化;然后用未取笔画按笔顺实行第三码字根最大化。在编码过程中,编码按顺数码位排列,而在实现字根最大化时,则按首码、末码、第二码、第三码的次序进行,在发生被取码笔画相矛盾时,后者依次让前者。这样做,也是为了突出首末字根在进行词组编码时,能够直观化,这种取码方法,本发明者称之为四码位最大化首末码,简称首末码;本发明之汉字输入法,可称之为首末码汉字输入法。
当汉字编码不足四码时,后面补空格键。
对于词汇的输入,可采用以下编码规则,以提高输入速度:
双字词,取第一字的首、末码为词的第一、二码,取第二字的首、末码为三、四码,共四码位。
三字词,取各字首码为词的第一、二、三码,取第三字末码为词的末码,共四码位。
四字或四字以上词组编码取前三字和最后一字首码,共四码位。
本发明的积极效果在于,编码取码具有唯一性强、直观、易记等特点,重码率低。
                       附图说明
图1为本发明一实施例的键名字根在键盘上的分布图。
                     具体实施方式
以下结合实施例对本发明作进一步详细说明。
根据前述字根选定规则,本实施例选定字根113个;按照前述字根键位布置规则,布置在26个字母键及2个标点符号键“:”键和“?”键(分别命名为“火”键(所在键位标记草体“火”字)和“月”键(所在键位标记草体“月”字)。在输入“:”(冒号)时,在后补点击空格键,在输入“;”(分号)时,在后补击重码键;在输入“?”时,在后补点击空格键,在输入“/”时,在后补点击重码键。本实施例也适用于数字键盘的汉字输入,此时,所述字根布置在数字键上。本实施例的键名字根在键盘上的分布参见图1。所述113个字根在键盘上的位置,如下表所示:
Figure A20071003539300121
Figure A20071003539300131
[以上字根中
Figure A20071003539300132
为在“家”字末笔画型;
Figure A20071003539300133
为在偏旁“衤”(“捺”变“点”)中、“聚”字末笔画型]
[注解:“齿”在编码中分解为 、“__”;偏旁
Figure A20071003539300135
分解为
Figure A20071003539300136
“丶”;“面”字分解为“一”、
Figure A20071003539300137
;“革”分解为“艹”、
Figure A20071003539300138
;“马”字分解为 、“一”;偏旁或部首“车”在首分解为
Figure A200710035393001310
、“一”,在末分解为“一”、
Figure A200710035393001311
;偏旁叫“衤”分解为“_”、
Figure A200710035393001312
;偏旁“礻”分解为“_”、“丶”;偏旁“犭”分解为
Figure A200710035393001313
、“丿”;“雨”分解为“一”、
Figure A200710035393001314
;“舟”分解为 、“丶”;“骨”分解为
Figure A200710035393001316
“月”。]
取码编码方法,如前所述,首先按照笔顺以字的在首笔画实行首码字根最大化;并用未取笔画按倒数顺序以末笔实行末码字根最大化;接着用未取笔画按笔顺实行第二码字根最大化;然后用未取笔画按笔顺实行第三码字根最大化。在编码过程中,编码按顺数码位排列,而在实现字根最大化时,则按首码、末码、第二码、第三码的次序进行,在发生被取码笔画相矛盾时,后者依次让前者。
编码举例:
例如“伟”字依次分解为“亻”、“一”(为第二“横”)、
Figure A200710035393001317
、“十”,编码为”kFGI”,依次击打“K”、“F”、“G”、“I”键即可;”爱”字依次分解为“爫”、“冖”、“フ”、“大”,编码为”JQGC”。
首末码只有一个或两个字根的字,其编码为点击字根所在键位加声母组成。例如”口”字编码为”OK”(“K”为声母);”从”字编码为“KKC”(“C”为声母).
当汉字编码不足四码时,后面补空格键。如“办”字编码为“UDD”,在输入编码后补空格键。
本实施例还专门设有“重码键”:将现有键盘上的空格键位置一分为二,右为空格键,左为重码键,重码键上标记草体“重”字。在实际编码中,多数为两个字(词)重码,少数重码为三个字(词)以上,针对这种情况,特采取不同的方法对待(在输入编码为重码时,让电脑屏幕底格同时显示所有的同编码字或词):(1)汉字编码出现的重码为四个码位,且只有两个字(词)为重码,以最常见字(词)为本码字(词),在输入该编码时,电脑屏幕内容同时显示该字(词)完成输入;而需要输入重码字(词)时,补点击重码键,电脑屏幕内容显示的本码字(词)切换成重码字(词),重码字(词)在屏幕底格编号为“2”。
(2)给汉字编码中出现的重码为三个码位以内,且只有两个字为重码,在输入编码后补空格键为输入本码字;再补击重码键,本码字切换成重码字,也可在输入编码后只补击重码键便可输入该字,重码字编号也为“2”。
(3)汉字编码中出现的重码有三个字(词)以上(这时不必管编码多少码位),该编码所有的字(词)用阿拉伯数“1”、“2”等给以编号,最常见编号为“1”,次常见编号为“2”(词可定义在字后考虑),依次类推,在输入该编码中的字(词)时,在编码后补击对应的编号为输入所选择的字(词)[补空格键也可代替补编号“1”,四码位字(词)这时必为五次击键输入]。
设计重码键还可专门进行重码字(词)切换输入,但不包括本码字(词)或编号为“1”的字(词)[因这些字(词)可利用空格键]。如已输入一个重码,点击一次重码键,即为完成输入编号为“2”的重码字(词);点击二次重码键,即为切换成对应编号为“3”的重码字(词),如此类推,重码键可轮流将重码中编号为“2”以后的所有重码字(词)切换输入。
在给汉字编码当中,还存在笔顺这一大问题需要解决。当前“汉字规范笔顺”不能较好地满足汉字信息处理要求。通过大量的试编码实践,为了实现取码字根最大化、唯一性,必须做到取码时汉字笔画顺序唯一性、统一性;同时又能让这种唯一性、统一性的笔画顺序大多数符合现行的《汉字笔顺规范》,但当给出一种规定时,就要求不能有例外,如给出“从左到中,至右”的规定,“非”字就不能以“丨”为先,而是以“三”为先,鉴此,本实施例对笔顺作如下特别规定:
(一)从左到中,至右:如“非”字依次分解为“三”、“丨”、“丨”、“三”,编码为“THHT”;“止”字依次分解为“丨”、“丨”、“二”,编码为“ ”;“臧”字依次分解为“乚”、“一”、“丿”、“丶”,编码为“GFJD”;“将”字依次分解为“冫”、“丨”、“夕”、“寸”,编码为“AHUL”;在以“撇”、“捺”或“点”对称排列在两边时,按以下两种情况处理:
(1)中间定位两偏旁笔画型,先中间,后两边:如“水”、 、“承”、(“鳏”字中)、
Figure A20071003539300154
(“巫”字中)、
Figure A20071003539300155
(“幽”字中)、 (“率”字中)、
Figure A20071003539300157
(“蘖”字中)、
Figure A20071003539300158
(“燮”字中)、
Figure A20071003539300159
(“亦”字中)、
Figure A200710035393001510
(“业”字中)“办”、
Figure A200710035393001511
(“梁”字中)等,“水”依次分解为“亅”、
Figure A200710035393001512
,编码为“LSS”;“率”字依次分解为“亠”、
Figure A200710035393001513
“厶”、“十”,编码为“AGBI”;“幽”字依次分解为“山”、 “厶”、“厶”,编码为“BGBB”;“业“字依次分解为“丨”、“丨”、“_”,编码为 ;“办”字依次分解为“力”、“丶”、“丶”,编码为“UDD”;
(2)两边在上夹中交或夸笔画型,先两边和“横”(含“横折”、“竖折横”等),后中间,如
Figure A200710035393001516
、“半”、“米”、 (“夹”字中)、“坐”、
Figure A200710035393001518
(“敝”字中)、“兆”、
Figure A200710035393001519
(“脊”字中)、
Figure A200710035393001520
(“谷”字中)、
Figure A200710035393001521
(“塽”字中)等,如“米”,在字首,依次分解为“_”、“小”,在字末,依次分解为“丷”、“木”;“兆”字依次分解为
Figure A200710035393001522
、“儿”,编码为“SWZ”;“坐”字依次分解为“人”、“人”、“土”,编码为“KKT”;“敝”字依次分解为“_”、“冂”、“八”、“乂”,编码为“ZNKC”等;
(二)从上到下,如“皮”字(在不设字根
Figure A20071003539300161
时),依次分解为“乛”、“丨”、“丿”;
(三)两笔画相交,先“横”(含“横折”、“横折竖”、“竖折横”),后“竖”(含“竖折”、“竖撇”)或“撇”:如“十”、
Figure A20071003539300162
(参见“降”字中)、
Figure A20071003539300163
(参见“也”字中)、
Figure A20071003539300164
(参见“五”字中)、“巾”、“子”、“韦”、 “聿”、
Figure A20071003539300165
(参见“庸”字中)、 (参见“勤”字中)、“_”(参见“泽”字中)、
Figure A20071003539300167
(参见“隹”字中)、 (参见“青”字中)、
Figure A20071003539300169
(参见“垂”字中)、“七”、
Figure A200710035393001610
(参见“逆”字中)、
Figure A200710035393001611
(参见“屯”字中)、“屮”(参见“蚩”字中)、
Figure A200710035393001612
(参见“虐”字中)、“九”、“力”等。即如“五”字依次分解为“一”、“_”、“丨”、“一”,编码为“FGHF”;“子”字依次分解为“乛”、“一”、“亅",编码为“GFL”;“青”字依次分解为“三”、“丨”、“月”,编码为 ;“逆”字依次分解为“_”、“_”、“丿”、“辶”,编码为“BJS”;“虐”字依次分解为“丨”、“一”、
Figure A200710035393001614
“_”,编码为“HFGG”;“九”字依次分解为“乙”、“丿”,编码为“GJJ”等;但在“冂”框、 框、“囗”框、“囗”字、 框与“横”相交时有特例,以“冂”、
Figure A200710035393001617
、“囗““囗”、
Figure A200710035393001618
等结构看成在上,为先,“横”看成在下,为后,规定为从上到下。如“册”字依次分解为“冂”、“冂”、“一”,编码为“NNF”;“尹”字依次分解为“尸”、“一”,编码为“PFY”;“衰”字依次分解为“亠”、“口”、“一”、
Figure A200710035393001619
,编码为“AOFW”;“母”字依次分解为
Figure A200710035393001620
、“亠”、“、”,编码为“EAD”等;
(四)两笔画相接,若有出头时,出头者为先,若无出头成左上角时,看成先角上,后角下:如“卩”、
Figure A200710035393001621
Figure A200710035393001622
Figure A200710035393001623
Figure A200710035393001624
Figure A200710035393001625
等,其左上角无笔画出头,因此象“氏”字依次分解为“丿”、“_”、 编码为“JGV”,而象“及”、“乃”等字左上角有笔画出头,因此以出头的笔画“ㄋ”为先;
(五)全包围,左上右包围、上左包围、上右包围字型,先外后里:如“国”、“母”、“同”、“问”、“厅”、“司”等;
(六)左下右包围,左下包围,上左下包围字型,先里后外:如“画”“运”
Figure A20071003539300171
(参见“甚”字中)、
Figure A20071003539300172
(参见“曷”字中)、“也”、“区”等,即如“画”字依次分解为“一”“日”“丨”“__”,编码为“FRHB”;“运”字依次分解为“二”“厶”“辶”,编码为
Figure A20071003539300173
;“甚”字依次分解为“艹”“三“”八““_”,编码为“YTKG”;“也”字依次分解为
Figure A20071003539300174
“丨”、“乚”,编码为“GHG”;“区”字依次分解为“一”、“乂”、“_”,编码为“FCG”等;而对于一些特殊的近于左下包围但却难以认定为左下包围结构的笔画型,如:
(1)汉字组字中,把笔画“_”右上的笔画看作被笔画“_”左下包围笔画型,以笔画“_”右上的笔画为先,如“与”、“丐”、“鸟”等字,若不设字根“鸟”时,“鸟”字的笔顺依次为“丿”、“_”、“丶”、“_”、“一”,而不是以“丶”作为末笔(参见第七条规定);
(2)象“比”字的左部笔画型 及“匕”字等,同样看作左下包围笔画型,先里后外;
(3)对于“鬼”“尬”、“毡”、“旭”、“飞”等字中有笔画“_”或“乚”,不视为左下包围笔画型,把这些笔画看作在左部分笔画,以左部笔画为先,如“尬”字依次分解为“一”、“儿”、“人”、“丨”,编码为“FWKH”。
(4)由多笔画组成的偏旁“辶”、“廴”等看作左下包围,除此而外,象“处”字中笔画型 、“昶”字中笔画型
Figure A20071003539300177
等由多笔画组合的笔画型不视为左下包围笔画型。
(七)“点”在上部或左上,笔顺为先,如“衣”、“为”、“门”等;“点”在右上或字里,笔顺为后,如“发”“瓦”等。如“为”字,依次分解为“丶”、“力”、“丶”,编码为“DUD”;“发”字依次分解为
Figure A20071003539300178
“人”、“フ”、“丶”,编码为“GKGD”,若不设字根“门”时,“门”字依次分解为“丶”、“丨”
Figure A20071003539300181
等。
为便于实现取码字根最大化,对于汉字的笔画结构的认定,本实施例还有下列规定:
(一)除字根“亅”之外,所有“折”均看作字根“乙”;
(二)“提笔”看作“横”,如“刁”字;但“横”不为“提笔”,如“事”字中的笔画型
Figure A20071003539300182
不为字根“扌”[特别说明“辔”字右边“纟”(底下笔画为“横”)仍认定为字根“纟”,因其在笔画结构上完全相同]。
(三)“亦”在字整体上部或部首上部时,笔画型
Figure A20071003539300183
均为两“竖”:如“迹”字,分解为“亠”、“丨”、“丨”、“辶”,编码为“AHHS”;“奕”字分解为“亠”、“丨”、“丨”、“大”,编码为“AHHC”等。
(四)方框内包有一笔画者,认定为“囗”框,不为“口”字。如“象”字中笔画
Figure A20071003539300184
为“囗”框;“柬”字中笔画型 为“囗”框(“囗”框作为部首在字末时,规定以“囗”框为末笔字根最大化,但不类推
Figure A20071003539300186
框);
(五)“二“、“三”、“_”等字根中,处在最底下的“横”为不短于上部的“横”,并且对于字根“三”,上面第一“横”还须不短于处在中间位置的“横”,否则都不认定为该字根,如“芈”字首笔画型为
Figure A20071003539300187
,不为字根“三”,因其第一“横”短于中间的“横”;“作”字末笔画型
Figure A20071003539300188
不为字根“三”,因其最底下的“横”短于第一“横”;而“宜”字末笔画型 却为字根“三”,是因其最底下的“横”为不短于上部的“横”;
另外,笔画型
Figure A200710035393001810
(参见“妻”字中)、
Figure A200710035393001811
(参见“捷”字中)以在笔画型“_”中间位置的“横”为最长;笔画型“聿”以底下位置的“横”为最长,即“妻”字第一码确定取字根为“_”等;“垂”字以笔画型“艹”中的“横”为最长,“垂”字第二码确定取字根也为“_”等;
(六)汉字中存在多个“横”的笔画时,以最长的“横”为被取字根“十”、“大”、“木”、“廾”、“_”(字根“_”针对底下的“横”)的笔画,因此“钵”字末笔字根最大化不认为是“十”,而是“一”。
(七)“竖钩”(“亅”)变“竖”(“丨”)则依“竖”,“竖”变“竖钩”则依“竖钩”(不包括“亦”在上时),如“犀”字中 依“丨”看作字根“_”;
(八)汉字中有许多以“横撇”和“竖”笔画相接,如“千”、“垂”、“币”、“禾”等字中的笔画型
Figure A20071003539300192
,这种笔画型实现取码字根最大化时,如果定为字根“亻”(单人旁),就会有许多汉字被拆散;而象“裁”字中,若以第三码取笔画型
Figure A20071003539300193
认定为字根“人”,以及“夜”字末码取笔画型
Figure A20071003539300194
认定为字根“人”,都属于反拆汉字,很难理解;又如“庹”字,若取末笔画型
Figure A20071003539300195
为字根“八”,“后”、“差”等字,若取笔画型
Figure A20071003539300196
为字根“_  ”,都是不能支持的。因此特别规定:只以偏旁或部首“亻”、“人”、“八”、“丷”、“_”(如“失”字首)、能够理解为同一种笔画型的
Figure A20071003539300197
(如“家”字末笔画型
Figure A20071003539300198
)、以及能够理解为同一种笔画型的
Figure A20071003539300199
[(如“聚”字末、偏旁“衤”(“捺”变“点”)中笔画型
Figure A200710035393001910
]认定为字根。
所述字根,一般为笔画相连,或为笔画相交,或为笔顺相连,或为笔画位置相连续,不存在被中插笔画隔分;如字根被中插笔画隔分,应是“撇”、“捺”或“点”对称排列在中插笔画两边,笔顺相连,如
Figure A200710035393001911
Figure A200710035393001912
“八”、“丷”等。举例如下:“柬”字首取字根“木”、“十”和“八”相连不为隔分;“策”字末取字根“木”、“小”与“一”相交,不为隔分;“宣”字末取字根“三”,笔顺相连,不存在隔分;“辰”字首取字根“三”,笔画不连,笔顺不连,但位置相连续,不存在隔分,认定为字根;“水”字末取字根
Figure A200710035393001913
虽被中插隔分,但笔顺相连且对称在两边,认定为字根;“于”字首取字根为“二”不为隔分;“工”字首取字根不为“二”,因“二”被“丨”中插隔分,笔画不连不交,笔顺不连,笔画位置不连续;“兼”字末笔画型“_”,笔顺虽相连,但被左边“丨”隔分,且不是以字根
Figure A200710035393001914
(“小”的变形)中的“丨”对称排列,而是以笔画型
Figure A200710035393001915
对称排列,因此,“兼”字末取字根不为“小”,而为“八”。
汉字中,象“武”字中的
Figure A20071003539300201
,笔画位置处在上面的“一”偏向笔画位置处在下面的“一”的一边,这种“偏位移”现象有很多,如“裁”等字中的
Figure A20071003539300202
,其笔画型“十”就在笔画“一”的上面有“偏位移”,“戢”字中的
Figure A20071003539300203
,其笔画型 就在笔画“一”的下面有“偏位移”;“我”字中的
Figure A20071003539300205
,其笔画型
Figure A20071003539300206
就在与笔画“一”相交有“偏位移”,还有“丑”字中的
Figure A20071003539300207
,其笔画型“十”在笔画“一”的上面也稍有“偏位移”;当然,,或许“旭”、“尬”等字中的笔画型
Figure A20071003539300208
Figure A20071003539300209
也要讨论是否可看作有“偏位移”现象,这些偏旁或部首在汉字组字结构中应仍为原偏旁或部首,在编码时仍须看作原字根。
笔画结构“亠”在汉字组字结构中没有出现“偏位移”,但当它作为字根在实现取码最大化时,就有“点”在笔画“横”上“偏位移”现象,如“伏”、“国”、“浦”、“试”等字末最大化笔画型
Figure A200710035393002010
,是否可以认定为字根“亠”呢?如果认定,这将拆散许多的类似汉字。
如果认定“偏位移”,笔画型
Figure A200710035393002011
全被认定为字根“亠”;如果不认定“偏位移”,象“作”字末的
Figure A200710035393002012
,上“横”应偏移一边,也稍有类似现象,是否也要否定为字根“二”呢、“戢”字中的
Figure A200710035393002013
、“戒”字中的
Figure A200710035393002014
等不认定为字根,从而使分拆取码有违汉字本义上的笔画结构,且对于“丑”字中的
Figure A200710035393002015
是否存在“偏位移”,则需要用尺来量了。
综合以上考虑,特规定:除字根“亠”外,承认所有的“偏位移”,把字根“亠”称作“不可偏位移性”。
在实际编码中还会看到,还有某些“偏位移”并不能理解为汉字笔画结构,如“臼”字末最大化笔画型 “韭”字末笔画型
Figure A200710035393002017
,“凸”字末笔画型
Figure A200710035393002018
,“亟”字末笔画型
Figure A200710035393002019
等,但也可看作最大化字根“二”;如“友”字在首最大化笔画型
Figure A200710035393002020
,也可看作最大化字根“大”。
如果说象“长”字首笔画型
Figure A200710035393002021
可用被笔画“一”中插隔分,来否定为字根
Figure A20071003539300211
,或者说笔画“丿”、笔画“_”在构字布局中完全不同,那么又如象“贲”字首笔画型 是否要看作字根“土”呢?象“周”字首笔画型 是否要看作字根“月”呢?象“豸”字中首笔画型
Figure A20071003539300214
(“点”和“撇”没有间隙)是否要看作字根“爫”呢?象“佳”字末笔画型
Figure A20071003539300215
(笔画“一”和“土”在结构上应存在间隙,只是笔画间布局紧凑,不明显而已)是否要看作字根“王”呢?等等。为此,特规定:由某偏旁、部首或说构字部件确定为某字根的笔画构成,其笔画原为与整体中某些笔画相连或相隔的,而出现在汉字取码字根最大化当中,笔画型有极似其形却为该笔画间相隔或相连的,不为该字根。
词组编码:
双字词组编码,取第一字首、末码为词的第一、二码,取第二字首、末码为三、四码,共四码位,例如:“学习”依次分解为“_”、“亅”、“乙”、“冫”,编码为“ZLGA”。
三字词组编码,取各字首码为词的第一、二、三码,取第三字末码为词的末码,共四码位,例如:“湖南省”依次分解为“氵”、“十”、“小”、“目”,编码为“SIZE”。
四字以上词组编码,取前三字和最后一字首码,共四码位,例如:“马到成功依次分解为 “一”、“厂”、“一”,编码为“PFCF”。
字母看作一码全码字,输入时,按本字母键并在后补空格键(为字母小写),如输入多个字母组成的拼音时,只能按同样方法逐字输入用以表示,如接连出现两个拼音,在前一个拼音完成输入后再补一次空格键。
本实施例编码方案,以《现代汉语词典》为依据,能对所有规范汉字进行编码,存在的重码仅有408个,能容纳大量词组。
本发明的保护范围不能认为只局限于上述具体实施方式。对所属技术领域的普通技术人员来说,在不脱离本发明构思的基本前提下,还可以做出若干简单推演或等同替换,这些等同替换方案仍然将被视为在本发明的保护范围之内。

Claims (9)

1、一种首末码汉字输入方法,其特征在于:
(一)字根选择规则:(1)以常用汉字的偏旁、部首,或出现频率较高的笔画型,作为字根;(2)以便于实现编码字根最大化,降低汉字拆分难度的偏旁、部首、笔画型,作为字根;(3)将组字能力极低的偏旁或部首,予以淘汰,不作为字根;(4)将有两种或多种“变形”的偏旁、部首或笔画型,归入同一个字根;(5)将组字能力较低的偏旁或部首归并入其他形态相近似的字根,没有作为字根的偏旁、部首,其笔画都归入“一”、“丨”、“丿”、“丶”、“乙”这些基本笔画字根本;
(二)字根键位布置规则:(1)按照组字能力确定,组字能力≥100的在首偏旁字根,尽可能处在不同键位里,并兼顾各码位的容量平衡;(2)当把组字能力≤100的在首偏旁字根安排键位时,既考虑是否和键名字根有较多同部首而发生重码,也考虑是否有笔画形态相近问题;(3)组字能力≥100的在末部首字根尽可能处在不同键位里,但可与键名字根安排在同一键位;(4)尽可能将键名字根定义在“近声”或“近形”的字母键位上;(5)尽量使各点击对应键位的手指工作量基本平衡;(6)将含有“一”、“丨”、“丿”、“丶”“乙”五种使用频率高的基本笔画的字根,定义在最方便食指、中指点击的键位上;将组字能力≥300的偏旁或部首所在的字根定义在最方便食指、中指点击的键位上;(7)尽可能布置在各字母键上;
(三)取码编码规则:
首先按照笔顺以字的在首笔画实行首码字根最大化;并用未取笔画按倒数顺序以末笔实行末码字根最大化;接着用未取笔画按笔顺实行第二码字根最大化;然后用未取笔画按笔顺实行第三码字根最大化。在编码过程中,编码按顺数码位排列,而在实现字根最大化时,则按首码、末码、第二码、第三码的次序进行,在发生被取码笔画相矛盾时,后者依次让前者;当汉字编码不足四码时,后面补空格键。
2、如权利要求1所述的首末码汉字输入方法,其特征在于,选定的字根为为100-130个。
3、如权利要求2所述的首末码汉字输入方法,其特征在于,选定的字根为105-120个。
4、如权利要求3所述的首末码汉字输入方法,其特征在于,选定的字根为113个,所述字根在键盘上的位置如下表:
Figure A2007100353930003C1
Figure A2007100353930004C1
所示。
5、如权利要求1-4之一所述的首末码汉字输入方法,其特征在于,双字词组编码,取第一字的首、末码为词的第一、二码,取第二字的首、末码为三、四码,共四码位;三字词组编码取各字首码为词的第一、二、三码,取第三字末码为词的末码,共四码位;四字或四字以上词组编码取前三字和最后一字首码,共四码位。
6、如权利要求1-4之一所述的首末码汉字输入方法,其特征在于,将键盘上的空格键位置一分为二,左为重码键,当出现重码时,在输入编码后补点击重码键,右为空格键。
7,如权利要求1-4之一所述的首末码汉字输入方法,其特征在于,对编码取字根时的笔顺还有如下规定:
(一)从左到中,至右;在以“撇”、“捺”或“点”对称排列在两边时,按以下两种情况处理:(1)中间定位两偏旁笔画型,先中间,后两边;(2)两边在上夹中交或夸笔画型,先两边和“横”,后中间;
(二)从上到下;
(三)两笔画相交,先“横”后“竖”或“撇”;但在“冂”框、
Figure A2007100353930004C2
框、“囗”框、“口”字、
Figure A2007100353930005C1
框与“横”相交时,“冂”、
Figure A2007100353930005C2
“囗“、“口”、
Figure A2007100353930005C3
结构看成在上,为先,“横”看成在下,为后,理解为从上到下;
(四)两笔画相接,若有出头时,出头者为先,若无出头成左上角时看成先角上,后角下;
(五)全包围,左上右包围、上左包围、上右包围字型,先外后里;
(六)左下右包围,左下包围,上左下包围字型,先里后外;对于一些特殊的近于左下包围但却难以认定为左下包围结构的笔画型,作如下规定:
(1)汉字组字中,把笔画
Figure A2007100353930005C4
右上的笔画看作被笔画
Figure A2007100353930005C5
左下包围笔画型,以笔画
Figure A2007100353930005C6
右上的笔画为先;
(2)象“比”字的左部笔画型
Figure A2007100353930005C7
以及“匕”字等,同样看作左下包围笔画型,先里后外;
(3)对于“鬼”“尬”、“毡”、“旭”、“飞”字,其中有笔画
Figure A2007100353930005C8
或“乚”,不视为左下包围笔画型,把这些笔画看作在左部分笔画,以左部笔画为先;
(4)由多笔画组成的偏旁“辶”、“廴”看作左下包围,除此以外,其他类似由多笔画组合的笔画型不视为左下包围笔画型;
(七)“点”在上部或左上,笔顺为先。
8、如权利要求1-4之一所述的汉字输入方法,其特征在于,对汉字的笔画结构的认定还有如下规定:
(一)除字根“
Figure A2007100353930005C9
”之外,所有“折”均看作字根“乙”;
(二)“提笔”看作“横”,但“横”不为“提笔”,不过不包括“辔”字中的“纟”;
(三)“亦”在字整体上部或部首上部时,笔画型
Figure A2007100353930005C10
均为两“竖”;
(四)方框内包有一笔画者,认定为“囗”框,不为“口”字;
(五)字根“二“、“三”、“_”,处在最底下的“横”为不短于上部的“横”,并且对于字根“三”,上面第一“横”还须不短于处在中间位置的“横”,否则不认定为该字根;
(六)汉字中存在多个“横”的笔画时,以最长的“横”作为被取字根“十”、“大”、“木”、“廾”、“_”的笔画;
(七)“竖钩”变“竖”则依“竖”,“竖”变“竖钩”则依“竖钩”,但不包括“亦”在上时。
9、如权利要求1或2所述的汉字输入方法,其特征在于:所述字根,一般为笔画相连,或为笔画相交,或为笔顺相连,或为笔画位置相连续,不存在被中插笔画隔分;如字根被中插笔画隔分,应是“撇”、“捺”或“点”对称排列在中插笔画两边,笔顺相连。
CNB200710035393XA 2007-07-19 2007-07-19 一种首末码汉字输入方法 Expired - Fee Related CN100465862C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200710035393XA CN100465862C (zh) 2007-07-19 2007-07-19 一种首末码汉字输入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200710035393XA CN100465862C (zh) 2007-07-19 2007-07-19 一种首末码汉字输入方法

Publications (2)

Publication Number Publication Date
CN101086687A true CN101086687A (zh) 2007-12-12
CN100465862C CN100465862C (zh) 2009-03-04

Family

ID=38937670

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200710035393XA Expired - Fee Related CN100465862C (zh) 2007-07-19 2007-07-19 一种首末码汉字输入方法

Country Status (1)

Country Link
CN (1) CN100465862C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169374A (zh) * 2010-02-26 2011-08-31 陈志文 易识中文输入法
CN107168550A (zh) * 2017-06-09 2017-09-15 刘汉龙 模糊三维形码汉字输入法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1078363C (zh) * 1995-05-26 2002-01-23 翁健华 一种方位码汉字计算机输入法
CN1127012C (zh) * 1999-10-27 2003-11-05 黄宏权 汉字首尾码输入方法
CN1204483C (zh) * 2002-07-27 2005-06-01 陆晓先 整体汉字输入法
CN1188771C (zh) * 2003-05-22 2005-02-09 黄桂清 一根形码汉字输入法
CN100403240C (zh) * 2006-07-14 2008-07-16 孙自匡 计算机汉字编码输入方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169374A (zh) * 2010-02-26 2011-08-31 陈志文 易识中文输入法
CN107168550A (zh) * 2017-06-09 2017-09-15 刘汉龙 模糊三维形码汉字输入法

Also Published As

Publication number Publication date
CN100465862C (zh) 2009-03-04

Similar Documents

Publication Publication Date Title
CN100465862C (zh) 一种首末码汉字输入方法
CN103616960A (zh) 六元音字母双拼输入法
CN102053719B (zh) 华文汉字输入法
CN100381985C (zh) 一种新的以汉字笔画结构进行编码的中文输入法
CN100489747C (zh) 一种数字键盘汉字输入法
CN102722257A (zh) 利用规范部件码输入汉字的方法
CN102799282A (zh) 笔画字根全息码汉字输入法
TW201314498A (zh) 嵌合字根式中文輸入法
CN101930292B (zh) 汉字的形音数的综合编码输入方法和应用
CN102129302B (zh) 一种通过计算机字母或数字键盘输入汉字的方法
CN105302330A (zh) 组合式音笔类主副码汉字、词语编码输入法及其键盘
CN101587381B (zh) 音形汉字无重码输入法
CN102253726A (zh) 一种计算机汉字数字笔画的输入方法及键盘技术
CN101093421A (zh) 汉字的四笔层次形码及形音的数字编码输入方法
CN101751134A (zh) 正左上方汉字输入法
CN1908870B (zh) 单击与多键并击混合输入中英文的方法和键盘
CN100440110C (zh) 易通华文输入法
CN1204487C (zh) 根声码汉字输入法
CN100437444C (zh) 数字键汉字四码输入方法
CN102043471A (zh) 二十五偏旁部首字根中华形码输入法
CN1609765B (zh) 活字码中文字根输入法及其键盘
CN101706687B (zh) 汉字“三边号码”输入法及其键盘
CN100367163C (zh) 五型音画编码输入法
CN1125393C (zh) 利用计算机键盘汉字编码输入方法
CN106325540A (zh) 一种滇东北次方言苗文的简笔输入法及其应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090304

Termination date: 20110719