CN1355465A - 一种偏旁部首汉字输入方法 - Google Patents

一种偏旁部首汉字输入方法 Download PDF

Info

Publication number
CN1355465A
CN1355465A CN 00128105 CN00128105A CN1355465A CN 1355465 A CN1355465 A CN 1355465A CN 00128105 CN00128105 CN 00128105 CN 00128105 A CN00128105 A CN 00128105A CN 1355465 A CN1355465 A CN 1355465A
Authority
CN
China
Prior art keywords
chinese character
code
characters
stroke
code element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 00128105
Other languages
English (en)
Other versions
CN1256644C (zh
Inventor
刘再基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 00128105 priority Critical patent/CN1256644C/zh
Publication of CN1355465A publication Critical patent/CN1355465A/zh
Application granted granted Critical
Publication of CN1256644C publication Critical patent/CN1256644C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • G06F21/645Protecting data integrity, e.g. using checksums, certificates or signatures using a third party
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种偏旁部首汉字输入方法,是解决“GBK”所涵盖汉字字符之规范编码的发明,它以汉字之偏旁部首构成的传统认识为基础,把汉字定义为由部首与结构两个基本部分以偏和旁的形式组合构成,依此规定:部首取一码,结构取两码,并按先偏后旁书写顺序取码,实行“三码元”编程。所取码元,按起始笔划的属性特征及组合规律,通过定义26个“正方部首”建部归类,实现在计算机键盘上用A-Z编码,或通过数字键盘用0-9编码输入汉字。

Description

一种偏旁部首汉字输入方法
本发明属于计算机汉字输入领域。是一项应用于《汉字扩展内码规范》即“GBK”所涵盖之汉字字符的计算机输入,并支持对GB18030-2000《信息交换汉字编码字符集》中27484个汉字及集外汉字进行规范化编码的发明。
从现有技术上看,现有“形码”有两大严重困扰汉字信息处理的问题;
一是现有“形码”中,绝大多数是以实现GB2312-80字符集,即《信息交换用汉字编码字符集——基本集》中6763个汉字的计算机汉字输入而设计,它直接制约了计算机对集外汉字的信息处理能力。
虽然,少数支持WINDOS系统的输入方法,如《郑码输入法》、《表形码输入法》具有对“GBK”二万多个汉字的处理能力,但简、繁汉字不能共容,重码多。而《规范王码汉字输入法及键盘》通过CN1204080A公开的“末型构码识别”及“简、繁大小写字符切换”等技术,把20902个汉字的重码率降到了5%之内,却也因此把码长增加到了五码,使用了大写英文字符,实际击键甚至到了六次,给实际应用带来极大不便。
可见,实现对“集外”汉字编码,还是一个有待解决的问题。
二是现有“形码”不符合汉字规范化要求。
现有“形码”认为,汉字是由“部件”构成。依此,按照一定的规则把汉字拆分为若干个构字部件(或“字根”)进行计算机键盘编码构成了现有“形码”共有的技术特征。
由于构成汉字的部件多、而应用于编码的键位少的矛盾,现有“形码”几乎都采用了优选“部件”的方法实施对汉字编码,为了把汉字拆分为符合编码要求的“部件”,往往把汉字拆分为人为定义的“部件”组合。甚至,更多的方案仅仅从编码需要出发,对汉字任意“肢解”,其种种令人匪夷所思的汉字拆分规则破坏了汉字之偏旁部首构成的严谨特点,背离了人们传统的认字、识字经验,与我国的语文教学也不相适应,不仅造成了难学难记,难以普及;而且,随着汉字字库的不断扩展,也难以实现其发明。
如:《GB13000.1字符集汉字规范部件表》就有560个构字部件,在GB18030-2000中又增补了几十个部件,如果以有限的“部件”对汉字编码,不可避免地要对这些规范“部件”进一步拆分,其结果,一是无法按规范“部件”要求实施对汉字进行取码编程;二是难以支持对不断扩展的汉字字符的计算机输入。
在这样一种技术背景下,本发明是一种偏旁部首汉字输入方法,其目的是在规范的基础上,建立一个快速、易学,具有多种实现方式的方法,并适应对不断扩展大字库汉字编码输入,以解决中文信息处理的现代化、国际化需要,促进汉字输入技术的最终统一。
为实现上述目的,本发明的技术解决方案是:
建立在汉字由偏旁部首构成之传统认识基础上,把汉字直观定义为由“部首”与“结构”的两个独立存在的基本部分以“偏”和“旁”的形式组合构成,依此规定“部首”取一码、“结构”取二码,实行“三码元”编程;所取“码元”,依照“丶、一、丨、丿、乙”五种基本笔划的属性特征、及不同组合规律,通过定义26个“正方部首”建部类归,实现在标准英文键盘上,即PC键盘用A-Z对汉字进行编码输入。
关于偏旁,《辞海》有这样一段解释:“旧称汉字中合体字的左方为偏右为旁,上下左右统称偏旁”。可见,“偏”和“旁”指的是汉字构成的基本形式,究其实,不光是上下左右,其它结构,如左上右下、右上左下及内外结构的汉字都可以视之为“偏”和“旁”的组合。因此,按照汉字之先“偏”后“旁”书写顺序,本发明把先写的部分称为“偏”,后写的部分称为“旁”,并根据汉字的具体组合方式,归纳为以下几种类型:
1,右上偏左下旁:如“氢、虱、载、戎、匀、司、这、建”等;
2,左上偏右下旁:如“压、度、左、右、病”等;
3,左偏右旁型:如“辞、海、偏、汉、解、释”等;
4,上偏下旁型:如“合、是、类、型、字、旁”等;
5,左下偏右上旁:如“赵、尴、旭”等;
6,外偏内旁、内偏外旁:如“国、同、区、凡、凶、函”等。
也就是说,依照以上所述六种“偏”和“旁”的组合方式,只要是合体汉字都可以直观分解为两个独立存在的基本部分:
一是“部首”部分,指的是在“偏”和“旁”两个部分之中,为许多汉字所共有,而且与这些共有汉字保持含义上的联系的“偏”或“旁”。如“江、河、湖、海”,其中“偏”的部分“氵”为这些汉字所共有、并含有“水”的意思,本发明称之为“部首”。也就是说,根据目前比较统一的汉字归部体系,凡被《新华字典》或《现代汉语小词典》等规定确立为部首的,基本上符合本发明的“部首”概念。
对于难以确认部首的合体汉字,本发明则统一规定其“偏”的部分为“部首”。如《新华字典》中大量的难检字,象“彟、鼙、懿、黇、整、馘、甦、够、臻、孵”等等,其“偏”即“寻、鼓、壹、黄、敕、首、更、句、至、卵”被确立为部首。
二是“结构”部分,它是本发明对除“部首”以外的另一部分的总称,指的是独立于“部首”的表示汉字读音、表意或指示的“偏”或“旁”。如:“江、河、湖、海”中之“旁”的部分“工、可、胡、每”称为“结构”。
对于独体类汉字,除“犬、尤、龙、我、成”等右上有一点的汉字,本发明规定其右上点为部首外,一律可以虚拟一个“部首”进行统一建部归类,并直接用PC键盘符号键“/”,数字键盘可以用数字符“8”表示其归类部首代码。
独体汉字,指的是独立存在的不可分割的音、意、形统一的汉字或构字“部件”,包括:
1,笔划相交型汉字或部件,如“十、来、中、申、戈、未、聿”等;
2,笔划相接型汉字或部件,如“工、上、口、山、止”等;
3,笔划聚合型汉字或部件,如“心、水、小、二、三、八、儿、川、灬、氵”等;
4,两个部件组合独体汉字,如“比、文、亡、单、见”等。
由此,本发明把汉字的构成直观定义为:汉字是由“部首”与“结构”两个独立存在的基本部分以“偏”和“旁”的形式组合构成。
报据上述汉字构成定义特征,实施“三码元”编程可以具体说明如下:
首先规定,“部首”取一码,称为“部首码元”,“结构”取二码,分别称为“结构码元”和“结构补码”,按汉字之先“偏”后“旁”书写顺序,其取码流程用公式表示为:
偏为部首时,编码=部首码元+结构码元+结构补码;
旁为部首时,编码=结构码元+结构补码+部首码元;
独体类汉字的编码=独体本码+独体末型+独体归部代码(“/”或“8”)。
“部首”取一码,是把符合本发明之“部首”定义的“偏”或“旁”作为“码元”取码。
“结构”取两码,是把符合本发明之“结构”定义的“偏”或“旁”作为“码元”取码,并按规定对“结构”之最后完成的部分进行补码识别,称为“结构补码”。
一,当“结构”为合体汉字时,“结构补码”指“结构”之最后完成部分,可以是:
1,“点”起笔划组合,如“搱、釃”中的“辛、鹿”;
2,“左上偏右下旁”、“右上偏左下旁”的组合”,如“诡、揭”中“厄、匃”;
3,“人”起成“上偏下旁”的组合,如“搽、掺”中“茶旁、参旁”;
4,“结构”为“左偏右旁型”、“外偏内旁型”的“旁”,如“蕩、揠”中“易、妟”;
5,规定“结构”如“吴、色、拖旁”等,可以是容错取“人、乚、右向折交”;
除1、2、3,4、5规定之外,指按书写顺序“结构”之最后完成的“独体字”部分。
二,当“结构”为独体字时,“结构补码”指:
1,“结构”之最后完成笔划,有“交、接、散”三种情形:
“散”:指的是最后完成的独立单笔,如“下、刃、旦、”等,均取其末笔。
“接”:指的是独立单笔接于其它笔块,如“产、上、止、皿、虫、刀、尸、户”等;
“交”:指的是末笔交于其它笔划,如“本、中、曳、更、手、毛”等。直观上分别取
其“横交、竖交、撇交、点交、右向和左向折交”;并可以直接用符号键之“]”、“[”、“’”、“;”、“.”、“,”或数字键1、2、3、4、5、6依次编码。
2,“结构”之约定俗成,或本发明规定的“末型”:
嵌套型末型:如“疌、大、无、开”中的“止、人、儿、两竖”及“木”为三撇聚合等;
相接型末型:如“衣、豕、灭、石”中的“衣底、豕底、火、口”等;
离散型末型:如“六、為”中的“八、灬”等;
3,“结构”为“一、二、三、心、人、儿、川、九、壬”时,结构补码=结构码元;
4,“结构”之最后完成部分为“十”时,一律取前一部件,并加“[”;
5,“戈、我、成、龙”等“结构”,可以是按由“交撇”与“点”组合构成末型,“结构补码”由交撇“’”+“丶”点组合码构成。
以“三码元”取码原则为基础,本发明的取码规则还可以包括对特定汉字只取“部首”与“结构”两码,并加字型识别码,称为“二码字”。包括:
1,“部首”与单笔划“结构”组合,如“扎、亿、乞”等;
2,“部首”与结构为“大、工、来、王、甘、厂、火、广、八、金、禾、鱼、鸟、几、山、内、口、日、曰、目、田、土、比、了、已、巴、乙”等组合;
3,其它为克服重码允许容错可以只取一码的“结构”的组合,如:“夜、旁”,或部首与“高”组合的汉字等,可以只取“偏”和“旁”码。
此外,应用于汉字之“词”或“词组”的输入,其取码规则用公式表示:
二字词=首字偏码+首字旁码+次字偏码+次字旁码,独体字时取本码和末型码;
三字词=首字偏码+次字偏码+三字偏码+三字旁码,独体字时取本码和末型码;
四字词=首字偏码+次字偏码+三字偏码+四字偏码,独体字时取本码;
多字词=首字偏码+次字偏码+三字偏码+四字偏码,独体字时取本码。
根据以上规则所取“码元”,可以按照其“丶、一、丨、丿、乛”五种基本笔划或“框”(指的是不同笔划组成三面、或四面包围的型)的属性特征及不同组合规律,进行分类归部,每部通过定义一个象征符号表示对所属码元进行归部,这个定义符号称为“正方部首”。
在PC键盘上,把“正方部首”及归部“码元”设置为五区二十六位,用A-Z26个字符表示,可以实现对所有汉字进行编码,其特征是:
一,“横”起笔划“码元”共五部,定义了“一、二、三、、丅”五个“正方部首”对符合同一归部定义的“码元”,并依次用“Q、W、E、R、T”表示编码:
Q=“一”部,对单横起笔,除其它规定情形之“横”起码元依部编码;
W=“二”部,对起笔符合下列定义的横起笔划“码元”依部编码:
1、凡连续二横起笔“除”“韦”的码元,如“二、干、夫、天、于、未、末”等;
2、直观上形成天地双横的码元,如“工、亚、五、互、亘”等;
3、横起连续被两笔“交”除“廿、
Figure A0012810500111
、甘、其偏”的码元,如“艹”等;
4、此外,“来、夹”两个码元因直观上形同连续二横,也被列在“二”部。
E=“三”部,对起笔符合下列属性特征的“码元”进行归部:
1,凡连续三横起笔的码元,如:“三、丰、耒、非、韭、 ”等;
2,直观上视为三横的码元,如:“王、”等;
3,横起连续被三笔交的码元,归部码元有“卅、 ”及特殊码元“韦”等;
4,“廿、世、革、 、共”起型的码元,取意“艹”下加一横,也被列为“三”部。R=“”部,表示起笔为连续四横、或“
Figure A0012810500115
”等横起被四笔交、或横起第二笔形为折、为“框”的码元,如“车、匠、丁、长、戈、西、束、東、事”,及“镸、長、甘”等。
T=“丅”部。表示横起笔划组合形成上档下通如“丅、下、平、石、耳、歹、万、豕、丌、兀、严、、而、面”等,或“其偏”,及“厂、戊、索偏、卖偏”等起型的码元。
二,“点”起“码元”五部,定义了“丶、冫、氵、灬、忄”等五个正方部首,对符合同一归部定义的“码元”,依次用“A、S、D、F、G”进行编码:
A=“丶”部,表示凡一点起笔,除“灬”和“忄”部规定的所有码元,归部码元如:“言(讠)、文、方、立、辛、卒、率、音、六、义、为、亡”等等;
S=“冫”部,表示两点起笔的码元,如“冫、丬、丷、火、米、羊、头、单、半”等;D=“氵”部,表示三点起笔的码元和“、辉偏、小、
Figure A0012810500117
”等三点的变型;
F=“灬”部,表示连续四点起笔或点起第二笔形为折的码元,如:“灬、辶、礻、衤、户、良、永、之、冖”等,或“门”,或“疒、业、赤旁”等起始的码元也列为此部;
G=“忄”部,表示“心”(忄),或“广、宀、穴”等“盖”型组合(除“疒”)形成的“左上偏右下旁”、“上偏下旁”等码元。
三,“撇”起“码元”七部,定义了“丿、
Figure A0012810500118
彡、乂、亽、、勹”七个“正方部首”进行建部归类,编码依次为“Z、X、C、V、B、N、M”。
Z=“丿”部,表示起笔为独立单撇,或单撇接一横、一竖的所有码元。归并码元有:“丿、亻、、人、入、攵、丘、 、段偏”等等;
X=“
Figure A0012810500122
”部,表示起笔为双撇(除“舟”),或撇起连续二横(除“忄”中规定)、二竖、二点组合,或撇起两笔聚合码元。如:“彳、
Figure A0012810500123
、戶、 、牜、缶、朱、失、矢、气、采、八、儿”等,或“”;
C=“彡”部,表示起笔为三撇,或撇起连续或直观上为三横(除“忄”中规定)、三点组合及撇起三笔聚合的码元。如:“钅( 、金)、彡、年、生、無、爫、川”等;
V=“乂”部,表示起笔为“乂、力、匕、九、丸”等撇起笔划被交,或“白、血、自、臼、身、舟、、币、鬼、臾”等撇起下带“框”的码元;
B=“亽”部,表示撇起下横形成上档下通的码元,如“千、舌、升、秉、禾、毛、手、夭、我”等,或“人盖”组合为“上偏下旁”的码元,如“飠(饣)、食、合、令”等;
N=“”部,表示起笔为撇起接单折组合成“框”除“饣”的码元。如:“夕、久、氏、皮、夂、夊、乐、、欠、鱼、魚、角、刍、奂”,或“片、延偏”等组合的码元;
M=“勹”部,表示起笔为撇起接一笔多折组合成“框”的码元。归并码元有:“几、月、勹、勺、乌(烏)、鸟(鳥)、风(風)、乃”等;
四,“竖”起“码元”五部。即根据竖起笔划组合为“框”的特点,定义了“山、口、日、目、田”五个“正方部首”对竖起笔划码元建部归类,依次用“P、O、I、U、Y”编码:
P=“山”部,表示起笔竖起形成半框,如:“冂、骨、巾、见、贝、 ”等,或“卩、报旁”等直观上视为竖起半框,及“山”等取义竖起半“框”的码元;
O=“口”部,表示起笔为连续笔划形成“口”字除“虫、贵偏”的码元;
I=“日”部,表示起笔为一竖、或“日、虫、贵偏”起型的码元;
U=“目”部,表示“介旁、止、齿、齒”等二竖起笔、或“目、罒、且、皿、見、、黑”,或“具偏”等形同“且”的码元及“曲”等起笔的码元;
Y=“田”部,表示起笔为三竖、或“田”、或“十”起接横、接框组合除“古”外的码元,如“土、士、走、吉、
Figure A0012810500129
直、南”等。
五,“折”起笔划类“码元”。根据折起笔划形成的角度大小,依次定义为“亅、∠、
Figure A00128105001210
ㄑ”四个正方部首,对折起码元进行归部。编码依次为“L、K、J、H”:
L=“亅”部,表示起笔为竖钩、或“乛盖、疋”等码元,或横起第二笔为竖钩的码元,可以视为竖钩起笔,归并于“亅”部,如:“扌、寸、才、
Figure A0012810500131
”等;
K=“∠”部,表示起笔折起成锐角的码元。如:“了、厶、幺、纟、子、以、
Figure A0012810500132
”等;
J=“ ”部,表示起笔为折起笔划成直角、或折起笔划、或与其它笔划组合成“框”的码元。如:“已、己、巳、巴、弓、聿、屮、肀、
Figure A0012810500134
弔、彑、母”等;
H=“ㄑ”部,表示起笔为折起成钝角、弧角或一笔多折除“
Figure A0012810500135
”的码元。如“女、乚、乙、阝、廴、飞、与”等。
本发明的实现,也可以描述为把PC键盘分为五区26位,直接用“一、丨、丿、丶、乙”五类26个“正方部首”表示键帽,称为“正方部首汉字键盘”:
第一区用“1”表示区号,包括“Q、W、E、R、T”依次表示为“一、二、三、匚、”,用序列号1、2、3、4、5表示其位号;
第二区用“2”表示区号,包括“P、O、I、U、Y”依次表示为“冂、口、日、目、田”,用序列号1、2、3、4、5表示其位号;
第三区用“3”表示区号,包括“Z、X、C、V、B、N、M”依次表示为“丿、
Figure A0012810500136
彡、乂、亽、、勹”,  用序列号1、2、3、4、5、6、7表示其位号;
第四区用“4”表示区号,包括“A、S、D、F、G”依次表示为“丶、冫、氵、灬、忄”,用序列号1、2、3、4、5表示其位号;
第五区用“5”表示区号,包括“L、K、J、H”依次表示为“亅、∠、
Figure A0012810500137
、ㄑ” ,用序列号1、2、3、4表示其位号。
报据“正方部首汉字键盘”的设计原理,本发明可以通过简单的定义转换,实现数字键盘、或其它多种模拟定义键盘、及其终端的汉字输入:
“正方部首数字键盘”汉字输入技术,即通过数字键盘用0——9十个数字符号对“正方部首”及归部码元编码,其特征是依照我国3月份是颁布的GB18031l数字键盘的键位设定要求,用1、2、3、4、5依次代表第一笔为“横、竖、撇、点、折”之“码元”,即“正方部首汉字键盘”之区号,并用序列号1、2、3、4、5……表示“正方部首”所在“键盘”位号,规定“区号+位号”即两个数字键码组合表示一个“正方部首”及所属码元的编码,根据这一数字键盘定义,本发明称为“正方部首数字键盘”。
应用“正方部首数字键盘”输入汉字,即按“三码元”取码规则,依次输入三组“区号+位号”6个数字符,或“二码字”输入两组“区号+位号”4个数字符表示的汉字编码。
所述其它模拟键盘输入技术,其特征是按照“区号+位号”原理,可以设计一个表示“区号”的键码、和一个表示“位号”的键码,两个键码组合表示一个“正方部首”及归部“码元”,实现多种定义键盘及终端的汉字输入。或在现有汉字识别技术基础上,通过模拟输入代表汉字的三个“正方部首”,经“内码”转换,手写输入汉字。
以上所述技术,构成了本发明实施对汉字编码的核心技术,也就是说,通过上述不同实现方式依次输入“三码元”可以实现对汉字进行计算机编码输入,并作为计算机汉字检字的方法,应用于编纂或使用电子辞书。
为了克服以上“三码元”可能造成的重码,并解决大字库编程中的简繁汉字共容问题,本发明规定在上述“三码元”编程基础上,所有汉字依照以下规则加“识别码”:
一,“字型”识别码规则。
1,“旁”为“部首”的汉字,如“部、基、别、进、暮”等,或“二码字”,或者当“偏”为部首,并且为“大、革、酉、耳、方、米、礻、疒、穴、广、彳、舟、山、日、目、田、阝、弓”等,在“三码元”编程的基础上,统一加“字型”识别码;
2,“旁”为“结构”,且为“左上偏右下旁”、或“穴”起成“上偏下旁”的组合,或规定之“享、亢、焦、翁、翕、巠、尋、壽、侖、龠”等,识别“结构”之字型;
3,汉字重码时,GB2312-80之集外汉字可以通过“字型识别码”分离重码;
4,当部首为“艹”时,除常用字外,“结构”为独体时要进行“独体”识别;
对1、2、3、4规定之“字型”或“结构”识别技术,即分别用标准键盘上的六个符号键作为识别代码,表示汉字或“结构”的不同“偏”和“旁”组合形式。其中:
符号“]”表示“右上偏左下旁”除“旁“为“辶、廴”的汉字,数字键盘用1表示;
符号“[”表示“左上偏右下旁”,数字键盘用2表示;
符号“’”表示“左偏右旁型”,数字键盘用3表示;
符号“;”表示“上偏下旁型”,数字键盘用4表示;
符号“.”表示“外偏内旁”、或“旁“为“辶、廴”的汉字,数字键盘用5表示;
符号“,”表示“内偏外旁”,数字键盘用6表示;
符号“/”表示独体结构、杂型,数字键盘用“8”表示。二,繁体识别规则:其特征是当汉字含有“車、言、
Figure A0012810500141
、飠、魚、烏、齒、貝、
Figure A0012810500142
、馬”等十个繁体“部件”时,优先要求对汉字进行繁体识别。
当“偏”含上述繁体部件时,识别代码为“,”,数字键盘用“7”识别;
当“旁”含上述繁体部件时,识别代码为“.”,数字键盘用“9”识别。
三,“空格键”技术:其特征是除上述情形之外,所有汉字在“三码元”的基础上,或简码汉字一律补“空格键”输入;数字键盘用“0”或可以特设“OK”键。
通过以上识别码规则,本发明第一次实现了常用字即GB2312-80中676.3个汉字无重码,“GBK”中的汉字编码,重码率也控制在5%之内,经“简码”或其它分级处理手段,实际重码率仅在2%左右,是现有“形码”中重码率最低的一种方法。
而且,与现有“形码”比较,本发明更加符合汉字构成规范:
一方面,偏旁部首汉字输入方法,体现了汉字之形、意、音统一的本质特征,符合人们传统的认字、识字经验。而且与我国语文教学完全一致。其优点在于人们可以根据汉字的表意、表音特点,直观分解“码元”、并依照学龄经验输入汉字。
另一方面,根据汉字构成的“部件学”原理,按偏旁部首构成原理直观分解码元,符合国家规定之“部件”规范,如GB13000.1中的560个部件,本发明第一次实现了无进一步拆分,并严格按笔划笔顺规律实施对汉字编码的方法。
在规范的基础上,本发明能够带来以下积极效果:
1,本发明在实现对“GBK”中汉字字符编码输入的基础上,第一次解决了《信息交换汉字编码字符集》GB18030-2000中27484个汉字的编码问题,并具有对进一步扩展的集外汉字进行编码的能力。为彻底解决户政、邮政、金融、及汉字研究和古籍整理等迫切需要汉字信息处理,提供了一种规范的汉字输入方法。
2,简、繁汉字统一编码,解决了简、繁汉字共容的问题,适用于海内外人们不同的汉字使用习惯,即一种方法,应用于简、繁编码输入的不同需要,这一显著进步,为统一全球汉字输入方法开创了一个崭新的局面。
3,字、词分级编码,解决了词库的任意扩展问题,达到汉字高速输入的目的。
4,应用于计算机汉字检索技术,本发明为编纂或使用电子辞书提供了一种规范性与易学性统一的计算机部首检字方法。
5,本发明是唯一具多种实现方式,可以实现电话、移动电话、传真机、信息家电、掌上电脑及更多数字、或其它特殊模拟键盘等终端的汉字输入,扩大了计算机汉字输入技术的应用领域,是一种广泛应用于现代生活的汉字输入技术。
6,按偏旁部首规律并以定义的方式对汉字进行编码,无字根记忆,规范、易学,而且完全与传统中文教学相适应,适用于不同年龄、不同学龄经验,对于进一步普及,规范计算机汉字输入具有现实意义。
可以预见,本发明之上述优点及能够带来的积极效果,将给计算机汉字输入领域带来一轮新的革命。

Claims (11)

1.一种按偏旁部首的汉字输入方法,是一项通过计算机PC键盘或数字键盘编码实现汉字输入的发明,其特征是建立在汉字由偏旁部首构成之传统认识基础上,把汉字的构成定义为由“部首”与“结构”两个独立存在的基本部分以偏和旁的形式组合,依此规定“部首”取一码、“结构”取两码,实行“三码元”编程,并按汉字之先“偏”后“旁”书写顺序规定取码流程,用公式表示为:
偏为部首时,编码=部首码元+结构(结构码元+结构补码);
旁为部首时,编码=结构(结构码元+结构补码)+部首码元;
独体汉字的编码=独体本码+独体末型+独体汉字字归部代码“/”(或数字符8);
所取“三元码”,按照“一、丶、丿、丨、乙”五种基本笔划及“框”(指的是不同笔划组成三面、或四面包围的型)的属性特征及不同的组合规律,可以归纳为五类26部,每部通过定义一个象征符号表示,对所属“码元”进行归部,这个定义符号称为“正方部首”,并在PC键盘,即标准英文键盘上用A-Z等26个英文字符表示,对起始笔划、笔型及组合规律符合以下同一归部定义的“码元”依部编码:
Q=“一”表示单横,除横起笔划之其它规定情形以外的所有码元;
W=“二”表示两横、或“工、亚”等直观上形成天地两横或“艹、卄”等起型码元;E=“三”表示三横、或“王、”等直观上三横并列,或“卅、
Figure A0012810500021
”等横起连续被三笔交的,或“廿、世、革、
Figure A0012810500022
共”及特殊规定“韦”等起型的码元;
R=“”表示四横、或“丁、戈、车、車、束”等横起笔划第二笔为折、为“框”,及“甘”和“镸、長、髟”等横起成“框”起型的码元;
T=“丅”表示“丅、下、石、歹、耳、豖”等横起笔划组合形成上档下通(除第二笔型为折、为框),或“其偏”、及“厂、索偏、卖偏”等横起为“盖”起型的码元;
A=“丶”表示一点起笔,或言(“讠”),除点起笔划之其它规定情形的码元;
S=“冫”表示连续两点起笔的所有码元,如“冫、丷、丬、火、米”等;
D=“氵”表示起笔为三点“氵、学偏”,或“、辉偏、小、 ”等变型的码元;
F=“灬”表示起笔为连续四点、或“辶、之、礻、衤、户、冖、冘、良”等点起第二笔为折(除“讠”)、或“门”等点起成“框”,或“疒、业、赤底”起型的码元;G=“忄”表示“忄、心”或“广、宀、穴盖”等点起成“盖”除“疒”起形的码元;Z=“丿”表示起笔为独立单撇起笔,或单撇接一横、一竖、一点的码元;
X=“
Figure A0012810500031
”表示起笔为两笔撇起(除“舟”),或撇起连续二横、二竖、二点及撇起两笔聚合的码元,如“彳、戶、 牛、牜、午、缶、朱、失、矢、气、采、八、儿、”等;
C=“彡”表示起笔为三笔撇起,或撇起笔划与三横、三点组合及撇起三笔聚合的码元,如“彡、
Figure A0012810500033
钅( 、金)、生、年、無、爫、采、川”等;
V=“乂”表示起笔为撇起笔划被交、或“白、臼、舟”等撇起接“框”的码元;
B=“亽”表示起笔为“千、舌、毛、禾、手、升、我”等撇起与下横组合形成上档下通,及“食(飠)、亽、含、合、令”等“人”起成“上偏下旁”组合的码元:
N=“”表示起笔为撇起与单折相接组合成框,除“饣”的码元:
M=“勹”表示起笔为撇起与一笔多折组合成“框”的码元,如“几、月、鸟(鳥)”等;
P=“冂”表示竖起半框、或“卩”、“山”等直观上和取义竖起半框起型的码元;
O=“口”表示连续笔划,形成“口”字起型(除“虫、贵偏、”)的码元;
I=“日”表示一竖起型、或“日、虫、贵偏”起型的码元;
U=“目”表示起笔为二竖,如“止、齿、齒、介旁”等、或“目、罒、且、皿、見、、黑”,或“具偏”等形同“且”的码元及“曲”等码元;
Y=“田”表示起笔为三竖、或“田、甲、畢、里”等取义“四框”,或“土、士、
Figure A0012810500038
、南”等“十”字起型接横、接“框”(除“古”)的码元:
L=“亅”表示起笔为“亅、刂、乛盖”、或“扌、寸、才、
Figure A00128105000310
”等竖钓交横的码元;
K=“∠”表示折起笔形成锐角,除“亅”规定的码元,如“子、纟(
Figure A00128105000311
)”等;
J=“ ”表示“
Figure A00128105000313
、已、马、
Figure A00128105000314
”等折起笔划成直角、或“彑、母”等折起笔划组合成“框”的码元:
H=“ㄑ”表示折起笔形成钝角、弧角或“阝”等一笔多折(除“ ”)起笔的码元。
2.如权力l所述偏旁部首汉字输入方法,其特征在于“偏”和“旁”指的是汉字构成的基本形式,即把汉字直观分解为两个部分,并依照之先“偏”后“旁”书写顺序,把先写的部分称为“偏”,后写的部分称为“旁”,归纳为:①、右上偏左下旁;  ②、左上偏右下旁;③、左偏右旁型;④、上偏下旁型;⑤、左下偏右上旁;⑥、外偏内旁、内偏外旁等六种组合方式;依此,把汉字直观分解为以下两个独立存在的基本部分:
一是部首部分,指的是为许多汉字所共有而且保持含义上联系的“偏”或“旁”,或对于难以确认部首的合体汉字,统一规定“偏”为“部首”;
二是结构部分,即相对于“部首”,即除“部首”以外,表示读音、或表示指示、表意的“偏”或“旁”的部分,本发明称之为“结构”。
3.如权力1所述偏旁部首汉字输入方法,其特征是独体类汉字,可以是由一个独立存在的部分独立构成的不可分割的音、意、形统一的汉字,或构字“部件”,包括:
①,笔划相交型汉字或部件,如“十、来、中、申、戈、未、聿”等;
②,笔划相接型汉字或部件,如“工、上、口、山、止”等;
③,笔划聚合型汉字或部件,如“心、水、小、二、三、八、儿、川、灬、氵”等;
④,两个部件组合独体汉字,如“比、文、亡、单、见”等。
4.如权力2所述偏旁部首汉字输入方法,其特征是“部首”取一码,是把符合本发明之“部首”定义的“偏”或“旁”作为“码元”,称为“部首码元”;“结构”取二码,是把符合本发明定义之“结构”的“偏”或“旁”作为“码元”,称为“结构码元”;并对“结构”进行补码识别,称为“结构补码”:
当“结构”为独体字时,“结构补码”为最后完成的、能够独立的单笔划,或约定俗成的末型,或结构为“一、二、三、甘、小、心、人、儿、川、九、水”等笔划聚合型独体汉字时,“结构补码”等于“结构”本码;
当“结构”为合体汉字时,“结构补码”指“结构”之最后完成部分,可以是:
①,“点”起笔划组合,如“搱、釃”中的“辛、鹿”;
②,“左上偏右下旁”、“右上偏左下旁的组合”,如“诡、揭”中“厄、匃”;
③,“人”起成“上偏下旁”的组合,如“搽、掺”中“茶旁、参旁”;
④,“结构”为“左偏右旁型”、“外偏内旁型”的“旁”,如“蕩、揠”中“易、妟”;
除①、②、③,④规定之外,指按书写顺序“结构”之最后完成的“独体字”部分
5.如权力4所述偏旁部首汉字输入方法,其特征是当“结构”为独体,且独立末笔为交笔时,“结构补码”可以是直接取交笔,可以直接用符号键之“]”、“[”、“’”、“;”、“.”、“,”或数字键1、2、3、4、5、6依次表示末笔为“横、竖、撇、点捺、左向折、右向折”等交笔“码元”的编码。
6.如权力1、2、3所述偏旁部首汉字输入方法,其特征是下列情形汉字可以只取“部首码元”和“结构码元”两码,并加字型识别,称为“二码字”:
一是“部首”与单笔划部件组合的汉字,如“扎、亿、乞”等;
二是“部首”与“大、工、王、甘、厂、火、广、人、八、金、禾、鱼、鸟、几、山、内、口、日、曰、目、田、土、比、了、已、巴、乙”等“结构”的组合汉字;
三是“部首”与其它为克服重码可以允许只取一码的“结构”的组合,如“夜、旁”或部首与“高”组合的汉字等,可以只取“偏”和“旁”码。
7.如权力1、2、3所述偏旁部首汉字输入方法,其特征是“词”或“词组”的取码规则用公式表示为:
二字词=首字偏码+首字旁码+次字偏码+次字旁码,独体字时取本码和末型码;
三字词=首字偏码+次字偏码+三字偏码+三字旁码,独体字时取本码和末型码;
四字词=首字偏码+次字偏码+三字偏码+四字偏码,独体字时取本码;
多字词=首字偏码+次字偏码+三字偏码+四字偏码,独体字时取本码。
8.如权力1所述偏旁部首输入方法,其特征在于“正方部首”分为五类26部,可以描述为通过PC键盘五区二十六位,把A-Z26个英文字符键帽直接表示为26个“正方部首”,根据这一规则的键盘语言设置,本发明定名为“正方部首汉字键盘”,其中:
第一区包括“Q、W、E、R、T”,依次表示横起笔划之“一、二、三、、丅”等五个“正方部首”及归部“码元”,用序列号1、2、3、4、5表示其位号;
第二区包括P、O、I、U、Y”,依次表示“竖”起笔划之“冂、口、日、目、田”等五个正方部首及归部码元,用序列号1、2、3、4、5表示其位号;第三区包括“Z、X、C、V、B、N、M”,依次表示“点”起笔划之“丿、
Figure A0012810500051
、彡、乂、亽、、勹”等七个“正方部首”及归部“码元”,用序列号1、2、3、4、5、6、7表示其位号;
第四区包括“A、S、D、F、G”,依次表示撇起笔划之“丶、冫、氵、灬、忄”等五个“正方部首”及归部“码元”,用序列号1、2、3、4、5表示其位号;第五区包括“L、K、J、H”等,依次表示“折”起笔划之“亅、∠、
Figure A0012810500052
ㄑ”等四个正方部首及归部码元,用序列号1、2、3、4表示其位号。
9.如权力1、8所述偏旁部首输入方法,其特征是本发明的实现可以是用0——9十个数字键对“正方部首”及所属码元编码,实现电话、传真、手提电话等数字键盘或终端汉字输入技术的转换,方法是依照GB18031之数字键盘的键位设定,用数字1、2、3、4、5依次表示为横、竖、撇、点、折等五区,每区用序列号1、2、3、4、5……表示“正方部首”所在键位,称为位号,用两个数字键,即“区号”+“位号”表示一个“正方部首”及归部码元;按“三码元”取码规则,通过输入三组“区号+位号”即6个数字符,或“二码字”两组“区号+位号”4个数字符实现数字键盘的汉字编码输入;
或者还可以是运用“位号”+“区号”原理对“正方部首”及归部“码元”编码,设计的其它模拟键盘或非键盘方式的汉字输入方法;或在现有“汉字识别技术”基础上,通过模拟手写输入“正方部首”,实现对汉字手写方式输入。均属于本发明权力要求范围。
10.如权力1、2、3所述偏旁部首汉字输入方法,其特征是“三码元”基础上,为克服重码,可以对下列规定汉字进行字型识别、或“结构”部分字型、或繁体识别:
①,当“旁”为部首,如“部、基、别、进、暮”等,或是当“偏”且为“大、革、酉、耳、方、米、礻、疒、穴、广、彳、舟、山、日、目、田、阝、弓”等,统一在“三码元”基础上,加字型识别码;
②,当“旁”为“结构”,且为“左上偏右下旁”,“穴”起之“上偏下旁”结构,或为“享、亢、焦、翁、翕、坙、壽、侖、龠、
Figure A0012810500061
”等,识别“结构”字型:
③,汉字重码时,GB2312-80之集外汉字可以通过“字型识别码”分离重码;
④,当部首为“艹”时,除常用字外,“结构”为独体时要进行“独体”识别;
⑤,是当汉字中含有“車、言、 、飠、魚、鳥、齒、貝、
Figure A0012810500063
、馬”等十个繁体字部件时,要求对汉字进行繁体识别;
⑥,“空格键”补码规则,除上述规定情形外,所有汉字在“三码元”基础上,或“简码字”一律补“空格键”输入汉字,数字键盘设为0、或特设一个“OK”键。
11.如权10所述偏旁部首汉字输入方法,其特征是对汉字进行字型识别、或结构“部分”字型识别,可以用PC键盘上的七个符号键作为识别代码,对规定“汉字”或“结构”进行字型识别,即:①、符号“]”表示“右上偏左下旁”除“旁”为“辶、廴”的汉字,②、符号“[”表示“左上偏右下旁”,③、“’”表示“左偏右旁型”,④、符号“;”表示“上偏下旁型”,⑤、符号“.”表示“左下偏右上旁”、或“旁”为“辶、廴”的汉字,⑥、符号“,”表示“外偏内旁、内偏外旁”,⑦、符号“/”表示独体与杂型,或数字键用1、2、3、4、5、6、8依次表示以上所述“偏”和“旁”的组合方式;
繁体识别,可以是:当“偏”含权力10之⑤所述繁体部件时,PC键盘识别代码为“,”,数字键盘设为“7”,当“旁”含上述繁体部件时,PC键盘识别代码为“.”,数字键盘用“9”识别。
CN 00128105 2000-12-01 2000-12-01 一种偏旁部首汉字输入方法 Expired - Fee Related CN1256644C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 00128105 CN1256644C (zh) 2000-12-01 2000-12-01 一种偏旁部首汉字输入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 00128105 CN1256644C (zh) 2000-12-01 2000-12-01 一种偏旁部首汉字输入方法

Publications (2)

Publication Number Publication Date
CN1355465A true CN1355465A (zh) 2002-06-26
CN1256644C CN1256644C (zh) 2006-05-17

Family

ID=50878510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 00128105 Expired - Fee Related CN1256644C (zh) 2000-12-01 2000-12-01 一种偏旁部首汉字输入方法

Country Status (1)

Country Link
CN (1) CN1256644C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100424619C (zh) * 2003-12-24 2008-10-08 闫铁 “三键行”计算机汉字输入法
CN1577228B (zh) * 2004-07-19 2011-04-20 北京中自汇河科技文化研究院 汉字结构输入法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100424619C (zh) * 2003-12-24 2008-10-08 闫铁 “三键行”计算机汉字输入法
CN1577228B (zh) * 2004-07-19 2011-04-20 北京中自汇河科技文化研究院 汉字结构输入法

Also Published As

Publication number Publication date
CN1256644C (zh) 2006-05-17

Similar Documents

Publication Publication Date Title
CN1023916C (zh) 简繁五笔字根汉字输入系统
CN1141633C (zh) 计算机二十四部首汉字排序输入法
CN1256644C (zh) 一种偏旁部首汉字输入方法
CN1081004A (zh) 汉字结构笔顺数字编码方法
CN1020052C (zh) 形元汉字信息处理方法及其键盘
CN1137432C (zh) 快易码汉字输入法
CN1366227A (zh) 汉字免拆分快速输入法
CN1052200A (zh) 音形义字词兼容编码系列及键盘
CN1204486C (zh) “三合一”汉字编码及键盘输入法
CN1058342C (zh) 汉字编码的计算机输入方法
CN1187676C (zh) 汉字辅元码输入法
CN1293453C (zh) 一种汉字输入方法
CN1088211C (zh) 汉字正负单数部首数码输入法
CN1288185A (zh) 音形字理码汉字输入方法
CN1052314C (zh) 一种汉字二维数码的计算机键盘输入方法
CN1077303C (zh) 一种汉字计算机输入方法
CN1195257C (zh) 结构数码汉字输入方法
CN1092186A (zh) 汉字数控方位码及输入方法
CN1201220C (zh) 核心码计算机输入法
CN1123817C (zh) 一种汉字输入法
CN1120404C (zh) 一种数字小键盘15键汉字输入法
CN1331441A (zh) 汉字输入系统——三位码
CN1045226C (zh) 普及型六笔二维汉字编码输入法及键盘
CN1031964C (zh) 计算机汉字部首代码输入法
CN1347024A (zh) 拼音简化字繁体字通用的自然读成码输入法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee