CN1256644C - 一种偏旁部首汉字输入方法 - Google Patents
一种偏旁部首汉字输入方法 Download PDFInfo
- Publication number
- CN1256644C CN1256644C CN 00128105 CN00128105A CN1256644C CN 1256644 C CN1256644 C CN 1256644C CN 00128105 CN00128105 CN 00128105 CN 00128105 A CN00128105 A CN 00128105A CN 1256644 C CN1256644 C CN 1256644C
- Authority
- CN
- China
- Prior art keywords
- code
- code element
- stroke
- characters
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
- G06F21/645—Protecting data integrity, e.g. using checksums, certificates or signatures using a third party
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2119—Authenticating web pages, e.g. with suspicious links
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种偏旁部首汉字输入方法,是解决“GBK”所涵盖汉字字符之规范编码的发明,它以汉字之偏旁部首构成的传统认识为基础,把汉字定义为由部首与结构两个基本部分以偏和旁的形式组合构成,依此规定:部首取一码,结构取两码,并按先偏后旁书写顺序取码,实行“三码元”编程。所取码元,按起始笔划的属性特征及组合规律,通过定义26个“正方部首”建部归类,实现在计算机键盘上用A-Z编码,或通过数字键盘用0-9编码输入汉字。
Description
本发明的所属技术领域:
本发明属于计算机汉字输入领域。是一项应用于《汉字扩展内码规范》即GBK所涵盖之汉字字符的计算机输入,并支持对GB18030-2000《信息交换汉字编码字符集》中27484个汉字及集外汉字进行规范化编码的发明。
本发明创造的技术背景:
从现有技术上看,现在“形码”有两大严重困扰汉字信息处理的问题:
一是现有“形码”中,绝大多数是以实现GB2312-80字符集,即《信息交换用汉字编码字符集——基本集》中6763个汉字的计算机输入而设计,它直接制约了计算机对集外汉字信息的处理能力。虽然,少数支持“WINDOS系统的输入方法,如《郑码输入法》、《表形码输入法》具有对“GBK”二万多个汉字的处理能力,但简、繁汉字不能共容,重码多。而《规范王码汉字输入法及键盘》通过CN1204080A公开的“末型构码识别”及“简、繁大小写字符切换”等技术,把20902个汉字的重码率降到了5%之内,却也因此把码长增加到了五码,使用了大小写英文字符,实际击键甚至到了六次,给实际应用带来极大不便。
可见,实现对“集外”汉字编码,还是一个有待解决的问题。
二是现有“形码”不符合汉字规范化要求。
现有“形码”认为,汉字是由“部件”构成。依此,按照一定的规则把汉字拆分为若干个构字部件(或“字根”)计算机键盘编码构成了现有“形码”共有的技术特征。
由于构成汉字的部件多、而应用于编码的键位少的矛盾,现有“形码”几乎都采用了“部件”的方法实施对汉字编码,为了把汉字拆分为符合编码要求的“部件”,往往把汉字拆分为作为定义的“部件”组合。甚至,更多的方案仅仅从编码需要出发,对汉字“肢解”其种种私人匪夷所思的汉字拆分规则破坏了汉字之偏旁部首构成的严谨特点,背离了人们传统的认字、识字经验,与我国的语文教学也不相适应,不仅造成了难学难记,难以普及;而且,随着汉字字库的不断摘录现,也难以实现其发明。如:《GB13000.1字符集汉字规范部件麦》就有560个构字部件,在GB18030——2000中又增补了几十个部件,如果以有限“部件”对汉字编码,不可避免地要对这些规范“部件”进一步拆分,其结果:
一是无法按规范“部件”要求实施对汉字进行取码编程;
二是难以支持对不断扩展的汉字字符的计算机输入。
本发明的目的
在这样一种技术背景下,本发明是一种偏旁部首汉字输入方法,其目的是在规范的基础上,建立一个快速、易学,具有多种实现方式的方法,并适应对不断扩展大字库汉字编码输入,以解决中文信息处理的现代化、国际化需要,促进汉字输入技术的最终统一。
本发明的内容
本发明的技术解决方案是:建立在汉字由偏旁部首构成的传统认识基础上,把汉字直观定义为由“部首”与“结构”两个独立存在的基本部分以“偏”和“旁”的形式组合构成,依此规定“部首”取一码、“结构”取二码,实行“三码元”编程;所取“码元”,依照“丶、一、丨、丿、乙”五种基本笔划的属性特征及不同组合规律,通过定义26个“正方部首”建部类归,实现在标准英文键盘,即PC键盘用A——Z对汉字进行编码输入。
关于偏旁,《辞海》有这样一段解释:“旧称汉字中合体字的左方为偏右方为旁,上下左右统称偏旁”。可见,“偏”和“旁”指的是汉字构成的基本形式,究其实,不光是上下左右,其它结构如左上右下、右上左下及内外结构的汉字都可以视之为“偏”和“旁”的组合。因此,按照汉字之先“偏”后“旁”书写顺序,本发明把先写的部分称为“偏”,后写部分称为“旁”,并根据汉字的具体组合形式,归纳为以下几种类型:
1、右上偏左下旁,如:“氢、虱、载、戎、匀、司、这、建”等;
2、左上偏右下旁,如:“压、度、左、右、病”等;
3、左偏右旁型,如:“辞、海、偏、汉、解、释”等;
4、上偏下旁型,如:“合、是、类、型、字、旁”等;
5、左下偏右上旁,如:“赵、尴、旭”等;
6、外偏内旁、内偏外旁,如“国、同、轨、凡、凶、函”等。
也就是说,按照以上所述六种“偏”和“旁”的组合形式,只要是合体汉字都可以直观分解为两个独立存在的基本部分:
一是“部首”部分,指的是在“偏”和“旁”两个部分之中,为许多汉字所共有,而且与这些共有汉字保持含义上联系的“偏”或“旁”。如“江、河、湖、海”,其中“偏”的部分“氵”为这些汉字所共有并含有“水”的意思,本发明称之为“部首”。也就是说,根据目前比较统一的汉字归部体系,凡被《新华字典》或现代《汉字小词典》等规定确定为部首的,基本上符合本发明的“部首”概念。
对于难以确认部首的合体汉字,本发明则统一规定其“偏”的部分为“部首”。如《新华字典》中大量的难检字,象“彟、鼙、懿、黇、整、馘、甦、够、臻、孵”等,其“偏”即“寻、鼓、壹、黄、敕、首、更、句、至、卵”被确立为部首。
二是“结构”部分,它是本发明对除“部首”以外的另一部分的总称,指的是独立于“部首”的表示汉字读音、表意或指示的“偏”或“旁”。如“江、河、湖、海”中之“旁”的部分“工、可、胡、每”称为“结构”。
对于独体类汉字,除“犬、尤、龙、我、成”等右上有一点的汉字,本发明规定其右上点为部首外,一律可以虚拟一个“部首”进行统一建部归类,并直接用PC键盘键“/”,数字键盘可以用数字符“8”表示其归类部首代码。
独体汉字,指的是独立存在的不可分割的音、意、形统一的汉字或构字“部件”,包括:
1、笔划相交型汉字或部件,如“十、来、中、申、戈、未、聿”等;
2、笔划相接型汉字或部件,如“工、上、口、山、止”等;
3、笔划聚合型汉字或部件,如“心、水、小、二、三、八、儿、川、灬、氵”等;
4、两个部件组合独体汉字,如“比、文、亡、单、见”等。
由此,本发明把汉字的构成直观定义为:汉字是由“部首”与“结构”两个独立存在的基本部分以“偏”和“旁”的形式组合构成。
根据上述汉字构成定义特征,实施“三码元”编程可以具体说明如下:
首先规定,“部首”取一码,称为“部首码元”,“结构”取二码,分别称为“结构码元”和“结构补码”,按汉字之先“偏”后“旁”书写顺序,其取码流程用公式表示为:
偏为部首时,编码=部首码元+结构码元+结构补码;
旁为部首时,编码=结构码元+结构补码+部首码元;
独体类汉字的编码=独体本码+独体末型+独体归部代码(“/”或“8”)。
“部首”取一码,是把符合本发明之“部首”定义的“偏”或“旁”作为“码元”取码。
“结构”取两码,是把符合本发明之“结构”定义的“偏”或“旁”作为“码元”取码,并按规定对“结构”之最后完成的部分进行补码识别,称为“结构补码”。
一,当“结构”部分为合体汉字时,“结构补码”指“结构”最后完成的部分。可以是:
1、“点”起笔划组合,如“搱、釃”最后完成的“辛、鹿”;
2、“左上偏右下旁”、右上偏左下旁”的组合,如“诡、揭”中的“厄、匃”;
3、“人”起成“上偏下旁”的组合,如“搽、摻”中“茶的旁、參的旁”;
4、“结构”为“左偏右旁型”、“外偏内旁型”的“旁”,如“蕩、揠”中“易、妟”;
5、规定“结构”为“吴、色、拖的旁,可以容错取“人、乚、右向折交”;
除1、2、3、4、5规定之外,指按书写顺序“结构”之最后完成的“独体字”部分。
二,当“结构”为独体字时,“结构补码”指:
1、“结构”之最后完成笔划,有“交、接、散”三种情形:
散,指的是最后完成的独立单笔划,如“下、刃、旦”等,均取其末笔。
接,指的是独立单笔接于其它笔块,如“产、上、止、皿、虫、刀、尸、户”等;
交,指的是末笔交于其它笔划,如“本、中、曳、更、手、毛”等。直观上分别取其“横交、竖交、撇交、点交、右向和左向折交”;并可以直接用符号键之“]”、“[”、“′”、“;”、“.”、“,”或数字键1、2、3、4、5、6依次编码。
2、“结构”之约定俗成,或本发明规定的“末型”:
嵌套型末型:如“疌、大、无、开”中的“止、人、儿、两竖”及“木”为三撇聚合等;
相接型末型:如“衣、豕、灭、石”中的“衣底、豕底、火、口”等;
离散型末型:如“六、為”中的“八、灬”等;
3、“结构”为“一、二、三、心、人、儿、川、九、壬”时,结构补码=结构码元;
4、“结构”之最后完成部分为“十”时,一律取前一部件,并加“[”键识别;
5、“戈、我、成、龙”等结构,可以是按由“交撇”与“点”组合构成末型,“结构补码”由交撇“′”+“丶”点组合码构成。
以“三码元”取码原则为基础,本发明的取码规则还可以包括对特定汉字只取“部首”与“结构”两码,并加字型识别码,称为“二码字”。包括:
1、“部首”与单笔划“结构”组合,如“扎、亿、乞”等;
2、“部首”与结构为“大、工、来、王、甘、厂、火、广、八、金、禾、鱼、鸟、几、山、内、口、日、日、田、土、已、巴、乙”等组合;
3、其它为克服重码允许容错可以只取一码的“结构”的组合,如:“夜、旁”,或部首与“高”组合的汉字等,可以只取“偏”和“旁”码。
此外,应用于汉字之“词”或“词组”的输入,其取码规则用公式表示:
二字词组=首字偏码+首字旁码+次字偏码+次字旁码,独体字时取本码和末型码;
三字词组=首字偏码+次字偏码+三字偏码+三字旁码,独体字时取本码和末型码;
四字词组=首字偏码+次字偏码+三字偏码+四字偏码,独体字时取本码;
多字词组=首字偏码+次字偏码+三字偏码+四字偏码,独体字时取本码。
根据以上规则所取“码元”、可以按照其“丶、一、丨、丿、乙”五种基本笔划或“框”(指的是不同笔划组成三面、或四面包围的型)的属性特征及不同组合规律,进行分类归部,每部通过定义一个象征符号表示对所属码元进行归部,这个定义符号称为“正方部首”。
在PC键盘上,把“正方部首”及归部“码元”设置为五区二十六位,用A——Z26个字符表示,可以实现对所有汉字进行编码,其特征是:
一,“横”起笔划“码元”共五部,定义了“一、二、三、匚、丅”五个“正方部首”对符合同一归部定义的“码元”,并依次用“Q、W、E、R、T”表示编码:
Q=“一”部,对单横起笔,除其它键位规定情形之“横”起码元进行编码;
W=“二”部,对起笔符合下列定义的横起笔划“码元”依部编码:
1、凡连续二横起笔的码元,如“二、干、夫、天、于、未、末”等;
2、直观上形成天地双横的码元,如“工、亚、五、互、亘”等;
3、横起连续被两笔“交”除“廿、、甘、其”的码元,如“艹”等;
4、此外,“来、夹”两个码元因直观上形同连续二横,也被列在“二”部。
E=“三”部,对起笔符合下列属性特征的“码元”进行归部:
1、凡连续三横起笔的码元,如“三、丰、耒、非、韭、”等;
2、直观上视为三横的码元,如“王、”等
3、横起连续被三笔交的码元,归部码元有“卅、
及特殊码元“韦”等;
4、“廿、世、革、、共”起型的码元,取意“艹”下加一横,也被列在“三”部。
R=“匚”部,表示起笔为连续四横、或“卌”等横起被四笔交、或横起第二笔形为折为“框”的码元,如“车、匠、丁、长、戈、西、束、東、事”及“镸、長、甘”等。
T=“丅”部,表示横起笔划组合形成上档下通如“丅、下、平、石、耳、歹、万、豕、丌、兀、严、丆、而、面”等,或“其”,及“厂、戊、‘索’字的偏、‘卖’字的偏”等起型的码元。
二,“点”起笔划“码元”共五部,定义了“丶、冫、氵、灬、忄”五个“正方部首”对符合同一归部定义的“码元”,并依次用“A、S、D、F、G”进行编码;
A=“丶”部,表示凡一点起笔,除“灬”和“忄”部规定的所有码元,归部码元如:“言(讠)、文、方、立、辛、卒、率、音、六、义、为、亡”等;
S=“冫”部,表示两点起笔的码元,如“冫、丬、丷、火、米、羊、头、单、半”等;
D=“氵”部,表示三点起笔的码元和“、小、”等三点的变型;
F=“灬”部,表示连续四点起笔或点起第二笔形为折的码元,如:“灬、辶、衤、礻、户、良、永、之、冖”等,或“门”,或“疒”、业、赤字底”等起始的码元也列为此部;
G=“忄”部,表示“心、忄,或“广、宀、穴”等“盖”型组合(除“疒”)形成的“左上偏右下旁”、“上偏下旁”等码元。
三,“撇”起笔划“码元”共七部,定义了“丿、、彡、义、亽、、勹”七个“正方部首”进行建部归类,依次用“Z、X、C、V、B、N、M”表示编码:
Z=“丿”部,表示起笔为独立单撇,或单撇接一横、一竖的所有码元。归并码元有:“丿、亻、、人、入、攵、丘、乑、段字左边”等;
X=“”部,表示起笔为双撇(除“舟),或撇起连续接二横、二竖、二点组合,或撇起两笔聚合码元。如:“彳、、戶、、牜、缶、朱、失、矢、气、采、八、儿”等,或“”;
C=“多”部,表示起笔为三撇,或撇起连续或直观上为三横、三点组合及撇起三笔聚合的码元。如:“钅、彡、年、生、無、爫、川”等;
V=“乂”部,表示起笔为“乂、力、匕、九、丸”等撇起笔划被交,或“白、血、自、臼、身、舟、币、鬼、臾“等撇起下带“框”的码元;
B=“亽”部,表示撇起下横形成上档下通的码元,如“千、舌、升、秉、禾、毛、手、夭、我”等,或“人盖”组合为“上偏下旁”的码元,如“飠(饣)、食、合、令”等;
N=“”部,表示起笔为撇起接单折笔划组合的成“框”除“饣”的码元。如:“夕、久、氏、皮、夂、夊、乐、、欠、鱼、魚、角、刍、奂”,或“片、延的偏”等组合的码元;
M=“勹”部,表示起笔为撇起接一笔多折笔划组合成“框”的码元。归并码元有:“几、月、勹、勺、鸟、鳥、乌、烏、风、風、乃”等;
四,“竖”起“码元”五部,即根据竖起笔划组合为“框”的特点,定义了“山、口、日、目、田”五个“正方部首”对竖起笔划码元建部归类,依次用“P、O、I、U、Y”编码:
O=“口”部,表示起笔为连续笔划形成“口”字除“虫、贵字头”的码元;
I=“日”部,表示起笔为一竖、或“日、虫、贵字头”起型的码元;
U=“目”部,表示“介字底、止、齿、齒”等二竖起笔、或“目、、且、皿、見、足、黑”,或“具”等形同“且”的码元及“曲”起笔的码元;
五,“折”起笔划类“码元”。根据折起笔划形成的角度大小,依次定义为“亅、ㄥ、、ㄑ”四个正方部首,对折起码元进行归部。编码依次为“L、K、J、H、”:
L=“亅”部,表示起笔为竖钩、或“乛、疋”等码元,或横起笔划第二笔为竖钩的码元也可以视为竖钩起笔,归并于“亅”部,如:“扌、寸、才、木”等;
K=“ㄥ”部,表示起笔折起成锐角的码元。如:“了、厶、幺、纟、子、以、”等;
J=“”部,表示起笔为折起笔划成直角、或折起笔划、或与其它笔划组合成“框”的码元。如:“已、己、巳、巴、弓、聿、中、肀、帇、弔、彑、母”等;
H=“ㄑ”部,表示起笔为折起成钝角、弧角或一笔多折除“”的码元。如“女、乚、乙、廴、飞、与”等。
本发明的实现,也可以描述为把P C键盘分为五区二十六位,直接用“一、丨、丿、丶、乙”五类26个“正方部首”表示键帽,称为“正方部首汉字键盘”;
第一区用“1”表示区号,包括“Q、W、E、R、T”依次表示为“一、二、三、匚、丁”,用序列号1、2、3、4、5表示其位号;
第二区用“2”表示区号,包括“P、O、I、U、Y”依次表示为“山(冂)、口、日、目、田”,用序列号1、2、3、4、5表示其位号;
第三区用“3”表示区号,包括“Z、X、C、V、B、N、M”依次表示为“丿、、彡、乂、亽、、勹”,用序列号1、2、3、4、5、6、7表示其位号;
第四区用“4”表示区号,包括“A、S、D、F、G”依次表示为“丶、冫、氵、灬、忄”,用序列号1、2、3、4、5表示其位号;
第五区用“5”表示区号,包括“L、K、J、H”依次表示为“亅、ㄥ、、ㄑ”,用序列号1、2、3、4表示其位号;
根据“正方部首汉字键盘”的设计原理,本发明可以通过简单的定义转换,实现数字键盘、或其它多种模拟定义键盘、及其终端的汉字输入:
“正方部首数字键盘”汉字输入技术,即通过数字键盘用0——9十个数字符号对“正方部首”及归部码元编码,其特征是依照我国3月份颁布的GB18031之数字键盘的键位设定要求,用1、2、3、4、5依次代表第一笔为“横、竖、撇、点、折”之“码元”,即“正方部首汉字键盘”之区号,并用序列号1、2、3、4、5、6、7表示“正方部首”所在“键盘”位号,规定“区号+位号”即两个数字键码组合表示一个“正方部首”及所属性码元的编码,根据这一数字键盘定义,本发明称为“正方部首数字键盘”。
应用“正方部首数字键盘”输入汉字,即按“三码元”取码规则,依次输入三组“区号+位号”6个数字符,或“二码字”输入两组“区号+位号”4个数字符表示汉字编码。
所述其它模拟键盘输入技术,其特征是按照“区号+位号”原理,可以设计一个表示“区号”的键码,和一个表示“位号”的键码,两个键组合表示一个“正方部首”及归部“码元”,实现多种定义键盘及终端的汉字输入。或在现有汉字识别技术基础上,通过模拟输入代表的三个“正方部首”,经“内码”转换,手写输入汉字。
以上所述技术,构成了本发明实施对汉字编码的核心技术,也就是说,通过上述不同实现方式依次输入“三码元”可以实现对汉字进行计算机编码输入,并作为计算机汉字的检字方法,应用于编纂或使用电子辞书。
为了克服以上“三码元”可能造成的重码,并解决大字库编程中的简繁汉字共容问题,本发明规定在上述“三码元”编程的基础上,所有汉字依照以下规则加“识别码”:
一,“字型”识别规则
1、“旁”为“部首”的汉字,如“部、基、别、进、暮”等,或“二码字”,或者当“偏”为部首,并且为“大、革、酉、耳、方、米、礻、疒、穴、广、彳、舟、山、日、目、田、阝、弓”等,在“三码元”编程的基础上,统一加“字型”识别码;
2、“旁”为“结构”,且为“左上偏右下旁”、或“穴”起成“上偏下旁”的组合,或规定之“享、亢、焦、翁、翕、坙、壽、侖、龠”等,识别“结构”之字型;
3、汉字重码时,GB2312-80之集外汉字可以通过“字型识别码”分离重码;
4、当部首为“艹”时,除常用字外,“结构”为独体时要进行“独体”识别;
对1234规定之“字型”或“结构”识别技术,即分别用标准键盘上的六个符号作为识别代码,表示汉字或“结构”的不同“偏”和“旁”组合形式。其中:
符号“]”表示“右上偏左下旁”除“旁”为“辶、廴”的汉字,数字键盘用1表示;
符号“[”表示“左上偏右下旁”,数字键盘用2表示;
符号“′”表示“左偏右旁型”,数字键盘用3表示;
符号“;”表示“上偏下旁型”,数字键盘用4表示;
符号“.”表示“外偏内旁”,或“旁”为“辶、廴”的汉字,数字键盘用5表示;
符号“,”表示“内偏外旁”,数字键盘用6表示;
符号“/”表示独体结构、杂型,数字键盘用8表示。
二,繁体识别规则:其特征是当汉字含有“車、言、釒、飠、魚、鳥、齒、貝、糸、馬”等十个繁体“部件”时,优先要求对汉字进行繁体识别。
当“偏”含上述繁体部件时,识别代码为“,”,数字键盘用“7”识别;
当“旁”含上述繁体部件时,识别代码为“。”,数字键盘用“9”识别;
三,“空格键”技术:其特征是除上述情形之外,所有汉字在“三码元”的基础上,或简码汉字一律补“空格键”输入;数字键盘用“0”或可以特设“OK”键。
(六)、本发明的优点及其积极效果
通过以上识别规则,本发明实现了常用字即GB2312——80中6763汉字无重码,“GBK”中的汉字编码,重码率也控制在5%之内,经“简码”或其它分级处理手段,实际重码率仅在2%左右,是现在“形码”中重码率低的一种方法。而且,与现有“形码”比较,本发明更加符合汉字构成规范:
一方面,偏旁部首汉字输入方法,体现了汉字之形、意、音统一的本质特征,符合人们传统的认字、识字经验。而且与我国语文教学完全一致,其优点在于人们可以根据汉字的表意、表音特点,直观分解“码元”、并依照经验输入汉字。
另一方面,根据汉字构成的“部件学”原理,按偏旁部首构成原理直观分解码元,符合国家规定之“部件”规范,如GB1300.1中的560个部件,本发明实现了无进一步拆分部件,并严格按笔划笔顺规律实施对汉字编码的方法。
在规范的基础上,本发明能够带来以下积极效果:
1、本发明在实现对“GBK”中汉字字符编码输入的基础上,解决了《信息交换汉字编码字符集》GB18030——2000中27484个汉字的编码问题,并具有对进一步扩展的集外汉字进行编码的能力,为彻底解决户政、邮政、金融、汉字研究和古籍整理等迫切需要汉字信息处理,提供了一种规范的汉字输入方法。
2、简、繁汉字统一编码,解决了简、繁汉字共容的问题,适用于海内外人们不同的汉字使用习惯,即一种方法应用于简、繁编码输入的不同需要,这一显著进步,为统一全球汉字输入方法开创了一个崭新的局面。
3、字、词分级编码,解决了词库的任意扩展问题,达到汉字高速输入的目的。
4、应用于计算机汉字检索技术,本发明为编纂或使用电子辞书提供了一种规范性与易学统一的计算机部首检字方法。
5、本发明具有多种实现方式,可以实现电话、移动电话、传真机、信息家电、掌上电脑及更多数字、或其它特殊模拟键盘终端的汉字输入,扩大了计算机汉字输入技术的应用领域,是一种广泛应用于现代生活的汉字输入技术。
6、按偏旁部首规律并以定义的方式对汉字进行编码,无字根记忆,规范、易学,而且完全与传统中文教学相适应,适用于不同年龄、不同学龄经验的人们,对于进一步普及,规范计算机汉字输入具有现实意义。
可以预见,本发明之上述优点及能够带来的积极效果,将给计算机汉字输入领域带来一场新的革命。
Claims (11)
1、偏旁部首汉字输入方法,是一项通过计算机PC键盘或数字键盘编码实现汉字输入的发明,其特征是把汉字直观分解为“部首”与“结构”两个独立存在的基本部分,规定:“部首”取一码,“结构”取两码,并依照汉字的书写顺序实行“三码元”编程;其中,“部首”指的是为许多汉字所共有而且保持含义上联系的部分,规定只取一码,称为“部首码元”;相对于部首,本发明把除“部首”以外的另外一个表示读音、指示、表意的部分称为“结构”,规定取两码,即把结构作为完整的码元取一码,称为“结构码元”,并要求对“结构”最后完成的部分进行取码识别,称为“结构补码”;依照汉字书写顺序,“结构补码”指“结构”最后完成的独体字部分,也可以是规定的下列情形:
1)、当“结构”为合体字时,最后完成的部分是“点”起笔划组合字块;
2)、当“结构”为合体字时,最后完成的部分是“左上右下”组合字块;
3)、当“结构”为合体字时,最后完成的部分是“右上左下”组合字块;
4)、当“结构”为合体字时,最后完成的部分是“人”起在上成“上下”的组合字块;
5)、当“结构”为合体字且为“左右结构”时,指的是右的部分;
6)、当“结构”为合体字且为“外内结构”时,指的是内的部分;
7)、当“结构”为独体字且末型是分散时,取分散的末笔划或末字块;
8)、当“结构”为独体字且末型是相接时,取相接的末笔划或末字块;
9)、当“结构”为独体字且末型是相交时,取相交的末笔划或末字块;
10)、当“结构”为独体字“一、二、三、心、人、儿、川、九”时,结构补码等于结构码元;
根据以上规则所取三码元,包括“部首码元”、“结构码元”和“结构补码”,本发明的编码方法是按照“一、丶、丿、丨、乚”五种基本笔划的属性特征及不同的组合规律,把不同码元归纳为横、竖、撇、点、折五类共26部,每部通过定义一个象征符号表示,对所属“码元”进行归部,这个定义符号称为“正方部首”,并在PC键盘,即标准英文键盘上用A——Z共26英文字符表示,对符合同一归部定义的“码元”依部编码:
“横”起笔划“码元”共五部,定义了“一、二、三、匚、丅”五个“正方部首”对符合同一归部定义的“码元”,依次用“Q、W、E、R、T”表示编码:
Q=“一”部,对单横起笔,除其它键位规定情形之“横”起码元进行编码;
W=“二”部,对起笔符合下列定义的横起笔划“码元”依部编码:
1)、连续二横起笔的码元;
2)、直观两横的码元,指的是上一横下一横把其它笔划夹在当中的码元;
3)、横起连续被两笔交的码元,包括“艹、廾”;
4)、“来”和“夹”;
E=“三”部,对起笔符合下列属性特征的“码元”进行归部:
1)、连续三横起笔的码元;
2)、直观上三横的码元,包括“王、”;
4)、“廿、”起型的码元;
R=“匚”部,表示起笔为连续四横、或横起被四笔交包括“卌”、或横起第二笔形为折的码元;
T=“丅”部,表示形态上横笔划在上,把其它笔划压在下方的码元;
“点”起笔划“码元”共五部,定义了“丶、冫、氵、灬、忄”五个“正方部首”对符合同一归部定义的“码元”,依次用“A、S、D、F、G”进行编码:
A=“丶”部,表示凡一点起笔,除“灬、忄”部规定的码元;
S=“冫”部,表示两点起笔的码元,或“冫”和“丷”起笔的码元;
D=“氵”部,表示三点起笔的码元和“、小、”三点的变型;
F=“灬”部,表示连续四点起笔或点起第二笔形为折的码元;
G=“忄”部,表示“心、忄”,或“广、宀、穴”起始的码元;
“撇”起笔划“码元”共七部,定义了“丿、、彡、乂、亽、、勹”七个“正方部首”进行建部归类,依次用“Z、X、C、V、B、N、M”表示编码:
Z=“丿”部,表示独立单撇、或“、亻”起始且不包括X、C键规定情形的码元;
X=“”部,表示起笔为双撇,或撇起连续接二横、二竖、二点组合包括“、牜、缶、朱、失、矢、气、采”,或撇起两笔聚合码元,包括“八、儿”,或“”;
C=“彡”部,表示起笔为三撇,或“钅、年、生、無、爫、川”起始的码元;
V=“乂”部,表示撇起笔划第二笔被交的码元;
B=“亽”部,表示撇起,下方接着写横的码元,或“人”字在上方的组合码元;
N=“”部,表示起笔为撇起与单折笔划组合的成“框”的码元;
M=“勹”部,表示起笔为撇起与一笔多折笔划组合成“框”的码元;
“竖”起“码元”五部,即根据竖起笔划组合为“框”的特点,定义了“山、口、日、
目、田”五个“正方部首”对竖起笔划码元建部归类,依次用“P、O、I、U、Y”编码:
P=“山”部,表示“山”、或竖起笔划组合形成半个框的码元;
O=“口”部,表示起笔为连续笔划形成“口”字,除“虫”字起笔的码元;
I=“日”部,表示起笔为一竖、或“日、虫”起型的码元;
U=“目”部,表示两竖起笔、或“目、、黑”起笔的码元;
Y=“田”部,表示起笔为三竖、或“田”、或“土、士”起笔的码元;
“折”起笔划类“码元”根据折起笔划形成的角度大小,依次定义为“亅、ㄥ、、ㄑ”
四个“正方部首”,对折起码元进行归部,编码依次为“L、K、J、H”:
L=“亅”部,表示起笔为竖钩、或“乛、疋”,或横起笔划第二笔为竖钩的码元;
K=“ㄥ”部,表示起笔折起成锐角的码元;
J=“”部,表示起笔为折起笔划成直角;
H=“ㄑ”部,表示起笔为折起成钝角、弧角或一笔多折除“”的码元。
2、如权利要求1所述的偏旁部首汉字输入方法,其特征在于“部首”和“结构”是以
“偏”和“旁”的形式组合构成,即“偏”和“旁”指的是汉字构成的基本形式,依照汉字书写顺序,本发明把先写的部分称为“偏”,后写的部分称为“旁”;因此,依照之先“偏”后“旁”书写顺序,不同的“偏”和“旁”的组合形式,归纳以下六种主要类型:
1)、右上偏左下旁;
2)、左上偏右下旁;
3)、左偏右旁型;
4)、上偏下旁型;
5)、左下偏右上旁;
6)、外偏内旁、内偏外旁。
3、如权利要求1所述偏旁部首汉字输入方法,其特征是独体汉字,可以是由一个独立存在的部分独立构成的不可分割的音、意、形统一的汉字或构字“部件”;独体汉字可以归为一类并用“/”键作为归类代码,具体编码方法是把独体字作为完整的“码元”取一码,称为独体本码,然后对其最后完成的“末型”进行取码识别,称为末型补码,最后加“/”键编码归类输入汉字,用公式表示为:独体字的编码=独字本码+末型识别+“/”。
4、如权利要求1、2所述偏旁部首汉字输入方法,其特征是“部首”取一码,是把符合本发明之“部首”定义“偏”或“旁”作为“码元”,称为“部首码元”,“结构”取二码,是把符合本发明之“结构”定义的“偏”或“旁”作为“码元”称为“结构码元”,并对“结构”进行识别,称为“结构补码”;依照汉字先“偏”后“旁”的书写顺序,具体取码流程可以用公式表示为:
“偏”为部首时,编码=部首码元+结构码元+结构补码;
“旁”为部首时,编码=结构码元+结构补码+部首码元。
5、如权利要求1、3所述的偏旁部首汉字输入方法,其特征是当“结构”为独体,且独立末笔为交笔时,“结构补码”可以是直接取交笔,可以直接用符号键“]”“[”“’”“;”“.”“,”或数字键1、2、3、4、5、6依次表示末笔为“横、竖、撇、点捺、左向折、右向折”的编码。
6、如权利要求1所述的偏旁部首汉字输入方法,其特征是下列情形汉字可以只取“部首码元”和“结构码元”两码,称为“二码字”,包括:
一是“部首”与单笔划部件组合的汉字;
二是“部首”与“结构”为“工、王、甘、厂、人、八、几、山、口、日、日、土、乙、小、心”组合的汉字。
7、如权利要求1、2、3所述的偏旁部首汉字输入方法,其特征是“词组”的取码规定取四码,取码方法用公式表示为:
二字词组=首字偏码+首字旁码+次字偏码+次字旁码,独体字取独本本码和末型补码;
三字词组=首字偏码+次字偏码+三字偏码+三字旁码,独体字取独本本码和末型补码;
四字词组=首字偏码+次字偏码+三字偏码+四字偏码,独体字取独本本码;
多字词组=首字偏码+次字偏码+三字偏码+四字偏码,独体字取独本本码。
8、如权利要求1所述的偏旁部首汉字输入方法,其特征在于“正方部首”分为五类26部,可以通过P C键盘五区二十六位,把A——Z26个英文字符直接表示为26个“正方部首”,其中:
第一区包括Q、W、E、R、T,依次表示横起笔划之一、二、三、匚、丅五个“正方部首”及归类“码元”,用序列号1、2、3、4、5表示其键位号;
第二区包括P、O、I、U、Y,依次表示点起起笔划之“山、口、日、目、田”五个“正方部首”及归类“码元”,用序列号1、2、3、4、5表示其键位号;
第四区包括A、S、D、F、G五个键位,依次表示点起笔划之“丶、冫、氵、灬、忄”五个“正方部首”及归部码元,用序列号1、2、3、4、5表示其键位号;
第五区包括L、K、J、H四个键位,依次表示“折”起笔划之“亅、ㄥ、、ㄑ”四个“正方部首”及归部码元,用序列号1、2、3、4表示其键位号。
9、如权利要求1、8所述的偏旁部首汉字输入方法,其特征是本发明的实现可以是用09十个数字键对“正方部首”及所属码元编码,实现电话、传真、手提电话数字键盘输入汉字,方法是依照GB18031数字键盘的键位设定,用数字1、2、3、4、5依次表示横竖撇点折五区,每区用序列号1、2、3、4、5、6、7表示“正方部首”所在键位,称为位号,用两个数字键,即“区号+位号”表示一个“正方部首”及归部码元,按“三码元”取码规则,通过输入三组“区号+位号”共6个数字符号,或“二码字”部首+结构共两组“区号+位号”共4个数字符号实现数字键盘的汉字编码输入。
10、如权利要求1、2、3所述偏旁部首汉字输入方法,其特征是“三码元”基础上,为克服重码,可以对下列规定汉字进行字型、或“结构”字型进行识别:
1)、“旁”为部首的汉字,或者当“偏”为部首,并且为“大、革、酉、耳、方、米、礻、疒、穴、广、彳、舟、山、日、目、田、阝、弓”时,在“三码元”编程的基础上,统一加字型识别码;
3)、汉字重码时,GB2312-80之集外汉字可以通过“字型识别码”分离重码;
4)、当部首为“卄”时,除常用字外,“结构”为独体时要进行“独体”识别;
对1)、2)、3)、4)规定之“字型”或“结构”字型识别技术,即分别用标准键盘上的六个符号作为识别代码,表示汉字的“偏”和“旁”组合形式或“结构”部分的“偏”和“旁”组合形式;其中:
符号“]”表示“右上偏左下旁”,数字键盘用1表示;
符号“[”表示“左上偏右下旁”,数字键盘用2表示;
符号“′”表示“左偏右旁”,数字键盘用3表示;
符号“;”表示“上偏下旁”,数字键盘用4表示;
符号“.”表示“外偏内旁”,数字键盘用5表示;
符号“,”表示“内偏外旁”,数字键盘用6表示;
符号“/”表示结构为独体,数字键盘用8表示。
11、如权利要求1、2所述偏旁部首汉字输入方法,其特征是当汉字含有“車、言、釒、飠、魚、鳥、齒、貝、糸、馬”十个繁体“部件”时,要求对汉字进行繁体识别:
当“偏”含上述繁体部件时,识别代码为“,”,数字键盘用“7”识别;
当“旁”含上述繁体部件时,识别代码为“.”,数字键盘用“9”识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 00128105 CN1256644C (zh) | 2000-12-01 | 2000-12-01 | 一种偏旁部首汉字输入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 00128105 CN1256644C (zh) | 2000-12-01 | 2000-12-01 | 一种偏旁部首汉字输入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1355465A CN1355465A (zh) | 2002-06-26 |
CN1256644C true CN1256644C (zh) | 2006-05-17 |
Family
ID=50878510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 00128105 Expired - Fee Related CN1256644C (zh) | 2000-12-01 | 2000-12-01 | 一种偏旁部首汉字输入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1256644C (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100424619C (zh) * | 2003-12-24 | 2008-10-08 | 闫铁 | “三键行”计算机汉字输入法 |
CN1577228B (zh) * | 2004-07-19 | 2011-04-20 | 北京中自汇河科技文化研究院 | 汉字结构输入法 |
-
2000
- 2000-12-01 CN CN 00128105 patent/CN1256644C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1355465A (zh) | 2002-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1023916C (zh) | 简繁五笔字根汉字输入系统 | |
CN1607491A (zh) | 使用操纵杆输入中文的系统和方法 | |
CN1043210A (zh) | 字根编码输入法及其设备 | |
CN1256644C (zh) | 一种偏旁部首汉字输入方法 | |
CN1141633C (zh) | 计算机二十四部首汉字排序输入法 | |
CN1081004A (zh) | 汉字结构笔顺数字编码方法 | |
CN1204486C (zh) | “三合一”汉字编码及键盘输入法 | |
CN1059281C (zh) | 汉字声韵调三拼音形编码输入方法 | |
CN1166997C (zh) | 汉字免拆分快速输入法 | |
CN1058342C (zh) | 汉字编码的计算机输入方法 | |
CN1020052C (zh) | 形元汉字信息处理方法及其键盘 | |
CN1187676C (zh) | 汉字辅元码输入法 | |
CN1288185A (zh) | 音形字理码汉字输入方法 | |
CN1347023A (zh) | 二笔手写智能输入系统 | |
CN1077303C (zh) | 一种汉字计算机输入方法 | |
CN1123817C (zh) | 一种汉字输入法 | |
CN1195257C (zh) | 结构数码汉字输入方法 | |
CN1201220C (zh) | 核心码计算机输入法 | |
CN1031964C (zh) | 计算机汉字部首代码输入法 | |
CN1337616A (zh) | 快易码汉字输入法及键盘 | |
CN1801051A (zh) | 一种基于简化笔画的计算机汉字输入法及键盘 | |
CN1347024A (zh) | 拼音简化字繁体字通用的自然读成码输入法 | |
CN1008481B (zh) | 写字式汉字输入法 | |
CN1333497A (zh) | 汉字纯部首编码计算机输入法 | |
CN1327185A (zh) | 汉字基因码 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |